观点:互联网海量数据蕴藏巨大“金矿”

根据IDC的调查报告显示,2010年底全球数据量已达到1.2ZB。到2020年全球电子设备存储的数据将暴增30倍,达到35ZB(相当于10亿块1TB的硬盘的容量)。但对于有准备的企业来说这无疑是一座信息金矿,随着数据挖掘技术的进步,有价值的信息将变得容易获取。

随着大数据时代的到来,数据存储、数据挖掘以及处理和分析大数据的相关技术比以往任何时候都更受关注。大数据正成为企业发展的基石,并渐渐改变很多行业的商业模式。使用诸如Hadoop等非传统的数据筛选工具处理海量的结构化和非结构化数据正成为一种趋势。

人们对大数据普遍存在误区

IDC报告表示企业中大数据的出现在部分程度上要归功于计算机硬件成本的降低以及当今的计算系统已能够执行多重任务。与此同时,随着主存储器成本的降低,企业比以往任何时候都更适合在“内存”中处理更多的数据。更重要的是,当今将服务器连接到集群中比以往简单得多。以上三点因素也促成了大数据的产生。

而现今,人们普遍对于大数据技术认识存在三点误区。首先是认为关系数据库无法扩展到非常大的容量,因此不适用于大数据技术。其次无论工作负载和业务具体的情况,Hadoop或衍生的相关技术都是处理大数据最好的技术。最后数据库管理系统示意图的时代已经结束。

在大数据时代,企业不仅要处理业务带来的数据,同时还要合理规划成本。过去,超级计算机系统虽然具有多重处理的能力,但其通常是庞大的集群。同时由于超级计算机需要配置专有的硬件,所以其造价都在几十万美元或更多。而现在企业可以用普通的硬件组建与以往超级计算机性能相当的机器。这就是为什么现在企业可以更快、更廉价的处理大量的数据。

同时,大数据技术想要普及并得到认可首需解决的就是成本问题。并不是每一个拥有庞大数据仓库的企业都使用了大数据技术。企业需要满足数据多格式(结构化、非结构化、半结构化)、海量数据(需要存储或分析的大数据)、数据处理速度这三点因素。

Hadoop备受青睐但并非全部

目前的状况是Hadoop技术已经成为处理海量数据的首选。Hadoop的开源模式吸引了大量相关人员对其进行开发和创新,这也是Hadoop在海量数据处理方面走在前边的重要原因。包括Microsoft、IBM、Oracle、Cloudera、MapR等众多厂商相继推出了与自身相结合的Hadoop产品。

同时为了配合Hadoop技术,软件开发商们也研发出了各种各样的新技术,其中很多都是出自开源社区。例如NoSQL,据悉NoSQL一词最早出现于1998年,是Carlo Strozzi开发的一个轻量、开源、不提供SQL功能的数据库。NoSQL提供的方法对于SQL数据库来说有巨大的优势。因为它允许应用程序扩展的新的水平。新的数据服务基于真正可扩展的结构和体系构建云、构建分布式。这对于应用开发来说是非常有吸引力的。无需DBA,无需复杂的SQL查询。

目前Google的BigTable和Amazon的Dynamo都用NoSQL型数据库,而传统的关系数据库在应付超大规模、高并发的SNS、Web2.0网站已经力不从心。但NoSQL也非万能,具体而言,数据模型的选择、接口规范以及当前面临的新业务比如移动业务数据的处理问题,都是NoSQL无法回避的。

不过,认为Hadoop就是大数据一切的观点显然是错误的。除了Hadoop,Teradata、HPCC等技术在不使用Hadoop的情况下同样可以实现处理大数据。

数据金矿有待挖掘 

大数据带来的挑战将转化成大机遇。利用大数据的交互与集成,可以获得可扩展的、低成本的路径。新型数据集成平台可以将大数据转换成值得信赖的权威数据,企业可以借此获得竞争的洞察力并改善业务。大数据集成将帮助数据驱动型企业释放完整经营的潜力。

同时大数据不只是关于数据量而已。成功的企业必须在不断增加的需求上运用多样化的新型、复杂的数据发展出跨企业、整合的交易、客户和财务观点。收集、存储庞大的新型数据充满了挑战,然而分析这些数据的新方法才是帮助最成功企业甩开竞争对手的利器。

对于海量的数据信息,如何对这些数据进行复杂的应用成了现今数据仓库、商业智能和数据分析技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。传统的数据库中的数据结构性很强,即其中的数据为完全结构化的数据,而目前数据最大特点就是半结构化,因此此类数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。