我们都听说过如下的预测:到2020年,全球以电子形式存储的数据量将达到35ZB,是2009年全球存储量的40倍。而在2010年底,根据IDC的统计,全球数据量已经达到了120万PB,或1.2ZB。如果将这些数据都刻录在DVD上,那么光把这些DVD盘片堆叠起来就可以从地球垒到月球一个来回(单程约24万英里)。
对于动不动就忧天的杞人来说,如此庞大的数字可能是不详的,预示着世界末日的来临。而对于乐观主义者来说,这些数字却是一座信息金矿,随着技术的进步,其中所蕴含的财富会越来越容易被挖掘出来。
进入“大数据”时代,出现了不少新兴的数据挖掘技术,使得对数据财富的储存、处理和分析变得比以往任何时候都更便宜、更快速了。只要有了超级计算环境,那么大数据技术就能被众多的企业所用,从而改变很多行业经营业务的的方式。
我们对大数据的定义是:利用一些非传统的数据筛选工具(包括但不限于Hadoop)对大量的结构化和非结构化数据集合进行挖掘,以便提供有用的数据洞察。
大数据的概念和“云计算”一样,也存在着很多的炒作和大量的不确定性。为此,我们咨询了多位分析师和研究大数据的专家,让他们解释大数据是什么和不是什么,以及大数据对于数据挖掘的未来究竟意味着什么等诸多问题。
大数据的发展背景
对大企业而言,大数据的兴起部分是因为计算能力可用更低的成本获得,且各类系统如今已能够执行多任务处理。其次,内存的成本也在直线下降,企业可以在内存中处理比以往更多的数据。还有就是把计算机聚合成服务器集群越来越简单。IDC的数据库管理分析师Carl Olofson认为,这三大因素的结合便催生了大数据。
“我们不但能够把这些事情做好,而且能够以更低廉的成本去做这些事情,”他说。“过去有些大型超级计算机就曾涉足过繁重的多处理系统,一起构建成紧密聚合的集群,但由于都是专门设计的硬件,所以其成本动辄数十万甚至数百万美元。而现在,我们利用普通的商品化硬件也能获得同样的计算能力。这便帮助我们能够更快、更便宜地处理更多的数据。”
当然,并非所有拥有庞大数据仓库的企业都可以说他们正在使用大数据技术。IDC认为,某项技术要想成为大数据技术,首先必须是成本可承受的,其次是必须满足IBM所描述的三个“V”判据中的两个:多样性(variety)、体量(volume)和速度(velocity)。
多样性是指,数据应包含结构化的和非结构化的数据。体量是指聚合在一起供分析的数据量必须是非常庞大的。而速度则是指数据处理的速度必须很快。Olofson说,大数据“并非总是说有数百个TB才算得上。根据实际使用情况,有时候数百个GB的数据也可称为大数据,这主要要看它的第三个维度,也就是速度或者时间维度。假如我能在1秒之内分析处理300GB的数据,而通常情况下却需要花费1个小时的话,那么这种巨大变化所带来的结果就会增加极大的价值。所谓大数据技术,就是至少实现这三个判据中的两个的可承受得起的一种应用。”
与开源之关系
“很多人都认为,Hadoop和大数据是同义词。但这是个错误,”Olofson解释说。例如Teradata、MySQL和一些“聪明的集群技术”的实施案例都没有使用Hadoop,但也被认为是大数据的实施案例。
作为大数据的一种应用环境,Hadoop之所以能够引起人们的注意,是因为它是基于MapReduce环境的,这是超算圈里很常用的一种简化环境,主要是由谷歌所创建的一个项目。Hadoop是和各种Apache项目密切相关的混合实施环境,其中包含了在MapReduce环境下所创建的HBase数据库。
软件开发人员一般会用一切利用到Hadoop以及相似的高级技术的手段来响应——而这些技术很多都是在开源社区里开发的。“他们创建了一个令人眼花缭乱、变化多端的东西,即所谓的NoSQL数据库,该数据库的键值多数都已利用了各种技术在处理能力、多样化,或者数据库规模上做了优化的,”Olofson说。
开源技术一般是没有商业支持的,“所以这些东西还必须让其进化一段时间,逐渐剔除各种缺陷,而这一般需要数年的时间。这就是说,羽毛未丰的大数据技术目前还无法在普通市场上普及。”与此同时,IDC预计至少有三家商业厂商会在年底之前对Hadoop提供某种类型的支持服务。还有其他一些厂商,如Datameer等,也会提供带有Hadoop组件的分析工具,允许企业开发他们自己的应用。例如Cloudera和Tableau等已经在其产品中用到了Hadoop。
升级关系型数据库
行业观察家们一般都赞成在升级关系数据库管理系统(RDBMS)时也要考虑大数据技术。Olofson说,“大数据技术适用于速度更快、规模更大、成本更低廉的场合。”比如Teradata就把它的系统做得成本更低廉、具备可扩展性和集群环境。
然而还有些人则不这么认为。Gartner的数据管理分析师Marcus Collins说,“通常在使用RDBMS时,都要用到BI工具,但这种处理流程并非真的大数据。这种流程由来已久。”
那么,谁会真正用到大数据分析呢?
一年前,大数据技术的一些主要用户是大型Web企业,例如Facebook和雅虎,它们需要分析点击流数据。但是今天,“大数据技术已经超出了Web,是要是有大量数据需要处理的企业都有可能用到它。”例如银行、公用事业机构、情报部门等都在搭乘大数据这辆车。
实际上,一些大数据技术已经被一些拥有很前卫技术的企业在使用了,比如受社交媒体推动而需要创建相应Web服务的企业。它们对于大数据项目的贡献非常重要。
而在其他垂直行业中,有些企业正在意识到,它们基于信息服务的价值定位要比它们先前想象的要大得多,所以大数据技术很快就吸引了这些企业的注意。再加上硬件和软件成本的下降,这些企业发现它们已经处在了一场企业大转型机遇的完美风暴中。
纽约城的TRA公司是专门帮助电视广告主们评测其所投放的电视广告的效果的,它会把某个家庭通过电视与DVR(数字录像机)所接收到的广告与其在零售商店的账单相比对。该公司从有线电视公司的DVR以及一些日用品商店的会员卡计划中搜集数据,来进行这种比对。TRA的大数据系统所处理的数据量代表着170万个家庭以秒计的观看习惯——如此庞大的任务量如果没有大数据技术几乎无法完成。该公司部署了Kognitia的WX2数据库,该数据库允许它快速地装载、描述和分析数据,从DVR上收集细粒度的广告观看信息,fran后与销售点的详细数据进行比对,再生成定制报告。
“Kognitia有一个内存运行的解决方案,所以我们现有整个数据库的一半都可以放在内存里,这就是说当我们的客户需要运行一个查询时,响应时间是秒级而非小时级或日级的,”TRA的CEO Mark Lieberman说。
该数据库可以在普通硬件上运行,TRA自己的前端应用就是在.Net Visual Studio上构建的。“我们还会用到一点点MySQL,而用户界面则是用DevExpress开发的,”Lieberman说。
在他看来,大数据技术可能会给全美700亿美元的电视广告市场带来革命性的变化。传统的广告评测方法顶多只能在全国2万个样本家庭中安装特制的机顶盒来分析抽样数据。而今天,大数据技术则可以分析来自250万台DVR和机顶盒的实际数据。
Aberdeen集团的分析师Greg Belkin认为,TRA和其他一些公司所使用的大数据工具满足了大数据的速度、体量和多样性判据。“在零售业,大数据给人的印象十分深刻,因为这个行业有非常多的需要分析数据的地方,但是按照传统手段那是无法想象的,”比如社交媒体网站、DVR设备和日用品商店的会员卡数据等。“这个行业的数据室如此的庞大和复杂,利用传统的数据库手段根本不可能进行分析,所以零售商们正在转向大数据平台。”
同样的,大数据技术也给弗罗里达圣彼得斯堡的Catalina市场营销公司带来了革命性的变化。这家公司所拥有的会员客户数据库十分庞大,规模有2.5PB,其中包括了1.9亿家美国日用品商店多年来的历史销售数据。它的最大的一个数据库就有令人难以置信的4.25亿行数据,公司每天需要在这个数据库中管理大约6.25亿行数据。
通过分析这些数据,Catalina可帮助一些主要的消费品制造商和大型连锁超市预测消费者可能会购买什么商品,以及谁会对新的商品感兴趣等。
“我们是希望把技术带给数据,而不是把数据带给技术,”Catalina的执行副总裁兼CIO Eric Williams说。“一些现有的技术就可以让比如SAS公司把它们的分析技术用于数据库。这就极大地改变了它们的整个业务。我们先前也在做这些事情,但是由于技术上的严重限制,使我们无法实现我们想要实现的目标。我们只好用自己研发的一些工具,而这些工具能够实现的东西也是非常有限的。而大数据技术的出现则彻底改变了我们的整个企业。”
除了在其专有的系统中用到了一些开源软件以外,Catalina还在Netezza数据仓库设备平台上使用了SAS的分析工具。
大数据正在从根本上改变着美国银行业做业务的方式。美国银行负责大数据与分析的前执行董事Abhishek Mehta在2010年10月的Hadoop World大会上说,“我觉得今天的Hadoop很像20年前的Linux。我们所有人都看到了Linux在企业软件市场上的成功。Hadoop也将会取得同样的成功。它的成功只是个时间问题而已。”
在分析点击流数据和交易数据之外,Hadoop还可以让美国银行快速地解决各种业务问题。“作为银行来说,我能想到的就是如何消除客户的欺诈行为,”Mehta说。“现在,我可以建立一个模型,为每个客户回溯过去5年间的每一次欺诈事件。而在此之前,我们只能采取抽样的办法,建立一个模型,当发现有某个特例不适合这种模型时,还需要重新建模。这样的日子终于结束了。”
公用事业行业也在刚刚开始了解到大数据所带来的应用及其价值。美国中西部的一家电力公司利用Hadoop分析来自智能电表的数据,这些智能电表可以自动完成计费功能,但是该公司还收集输电线路上任意的电流波动信息。“如果收集到这些信息并且能够描绘出电流变化图,那么你就可以在某个地方的变压器可能出现故障之前找到它,”Olofson说。“或者当发生停电事故时,会引起电流的波动,公司就可以探测到波动之处,在用户打电话求助之前就采取行动。”
Olofson预测说,在将来的某个时候,电力公司就能利用大数据技术来改善为客户所提供的服务,并通过电网监控、问题检测和对电网进行微调等降低运营成本——但是这可能需要对某些正在老化的基础设施进行重大升级才行。
一些品牌营销公司也在利用Hadoop在社交媒体上实验所谓的“情绪分析”。这些服务提供商利用Hadoop,仔细审查客户在Twitter上的行为,看看他们对于某个特定产品究竟在说些什么和想些什么。
谨慎行事
大数据技术正在迅速发展。正在使用大数据技术的一些企业自己就拥有非常精通技术的IT专业人员,可以很好地适应大数据技术的进步以及企业的需求。
“假如企业尚未具备部署大数据的条件,也可考虑选择一家服务提供商——可能是一家云服务商,或者可以等待大数据技术成熟到了某个时点,有了大量成熟的软件产品和有支持的服务时再采用,”Olofson说。
毫无疑问,数据挖掘领域已经发生了彻底的变化。但是分析师们认为,大数据技术不会完全取代今天的数据仓库和数据挖掘工具。
“现有的数据挖掘实际上因为并没有非常大的数据,所以需要构建相对复杂的分析模型,”Gartner的Collins说。“而现在,大数据为企业提供了非常巨量的数据,这就意味着企业不再需要构建复杂的分析模型了。因此,数据挖掘的分析方式将会发生重大变化。”
Olofson说,“我得观点是,大数据实际上会扩展数据仓库的市场容量。企业会使用诸如MapReduce的技术,无论是Hadoop还是其他一些商业扩展产品,生成一些很有意思的商业智能数据,而这些数据是之前根本无法获得的。然后,为了重复使用这些数据,跟踪历史数据,企业将会把这些数据放入数据仓库,这实际上就是在扩展其数据仓库的使用。”
大数据的规模代表着另一个挑战,Collins说,“其实目前尚未有部署和使用大数据技术的成熟的体系架构模式,所以我们必须边干边学习。”
不过Collins认为,大数据技术本身的一些风险正在消除,因为已经有不少预包装的工具可供选择,但是该项技术仍然非常像一个编程接口——这对商业智能来说可以说是一种倒退。举例来说,“Hadoop就是一个技术性相当强的系统,不过在商业智能的推动下,已经逐渐进入企业和桌面,有着非常有好的用户界面。虽然使用Hadoop会在普及上后退一步买单时一些新兴的厂商将会帮助我们把它推向需要它的用户社区。”
“大数据技术还需要出现一些质的飞跃,我们必须把这些工具给到业务单位的用户手中,但目前还做不到这一点,”Collins补充道。
关于大数据技术的三大误区
业界对于大数据是什么和它能够做什么还存在着非常多的混淆。以下就是有关大数据的三大常见的误区:
1、关系数据库不可能扩展到非常庞大的体量,因此它也不需要考虑大数据技术。
2、Hadoop或者其扩展,如任何MapReduce环境是大数据的最佳之选,而不必去考虑实际的工作负载或者使用环境。
3、关系型数据库管理系统的时代已经结束。真正关系的开发只能在大数据的部署中获得。