大数据带来的存储机遇

几十年前,当Oracle、SQL等数据库技术风靡全世界的时候,广大的IT人士可能不会想到在几十年后的今天,一堆堆毫无计划性、毫无关联的社交网络访问记录、图片,或者音视频会成为用户手心里的“宝贝”,这些数据在当今可能会成为一个生意人致胜的法宝。而对于十几年前,甚至几年前开始建设数据中心的管理人员来说,也不会预料到后端的存储空间会被大量的非结构化数据填满??

  非结构化数据时代来临

  是的,大数据时代来了,而且来势汹汹。大数据并不是一项技术,而是由于不断增长的数据量和数据种类而逐渐衍生出来的一种现象。搜索一下大数据的定义也可以发现,各家厂商都在基于自身的理解去定义大数据。以NetApp为例,其大中华区系统技术及专业服务部总监何英华表示,NetApp认为大数据应该包含三大要素,分别是:大分析,帮助用户获得价值;高带宽,让数据处理速度更快;大内容,指的是不丢失任何信息并实现高扩展性。而Teradata天睿公司大中华区产品技术及销售支持副总经理张锦沧则从四个维度解释了大数据的概念——三个V和一个C。三个V分别指的是数据量大、数据种类多和数据增长速度快。一个C指的是处理、升级或利用大数据的分析手段比处理结构化数据要复杂的多。

  虽然每个厂商对于大数据的理解都不同,但其中一个共通点就是大数据包含了大量的非结构化数据,包含了诸如图片、音视频、邮件、社交网络数据等等与传统关系型数据完全不同的数据类型。

  ESG中国区总经理王丛认为,大数据与增长量有关,但是不代表增长快的就是大数据。从存储角度来看,数据量的增长是一种挑战,如何将这些增速飞快的数据进行存储并合理规划存储空间,是亟须解决的问题。而从数据分析角度来看,大量的非结构化数据的增长在为用户带来挑战的同时,也带来了很多机遇。对于以交易型数据为主的行业,例如金融、零售业等,对数据进行分析,提炼出具有商业价值的信息将是此类用户面临的大数据挑战。而对于像广电IPTV、网游、社交网络等需要存储大量的音视频、图片、社交网络数据等等非结构化数据的用户来说,后端存储如何应对飞速增长的庞大数据量,是他们面临的大数据挑战。王丛表示不同种类的行业,面临的大数据挑战也不可等同视之。

  存储领域的“大数据”效应

  在大数据时代,非结构化数据量的增长是用户必须要面对的难题之一。近几年,针对非结构化数据的存储系统也在不断地出现。例如统一存储、集群存储等,都将海量的非结构化数据的存储作为目标。这些存储产品在大数据时代中能否合乎需求呢?

  首先,统一存储产品集中了SAN和NAS存储两种功能,分别面向关系型数据和非结构化数据。国内市场中,相比于NAS来说,SAN的发展速度和用户采用率一直都占据优势。但随着最近两年非结构化数据量的攀升,存取文件系统更加有利的NAS系统逐渐受到重视。可以看出,最近的两年中,主流的存储厂商EMC、NetApp、IBM、HP、Dell都将统一存储作为了自己的推广重点。

  针对统一存储,王丛表示,它也存在着一定的瓶颈。比如,在某个时段,非结构化数据猛增,此时,非结构化数据的存取会占据大部分的带宽,而结构化数据就无法享受到应有的带宽。在数据中心用户中,以数据库为主要内容的结构化数据往往又有很高的业务重要性。因此,王丛表示,对于大数据时代所要面临的海量非结构化数据而言,统一存储可能会存在瓶颈。