自古至今,从未有一个时代出现过如此大规模的数据爆炸。如今的商业世界,已经变成了飘浮在数据海洋上的巨轮,而那些通过大数据能力驶入蓝海的企业,将会赢得丰厚的回报。
大数据的特点
对于大数据的特点,业界通常用Volume、Variety、Value、Velocity这4个V来概括。大数据的特点包括:第一,数据体量巨大。从TB级别跃升到PB乃至EB级别。要知道目前的数据量有多大,我们先来看看一组公式。1024GB=1TB;1024TB=1PB;1024PB=1EB;1024 EB=1ZB;1024ZB=YB。到目前为止,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB。
第二,数据类型繁多。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,越来越多的非结构化数据的产生给所有厂商都提出了挑战。拜互联网和通信技术近年来迅猛发展所赐,如今的数据类型早已不是单一的文本形式,除了网络日志、音频、视频、图片、地理位置信息等等多类型的数据对数据的处理能力提出了更高的要求。
第三,价值密度低。价值密度的高低与数据总量的大小成反比。以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题。
第四,处理速度快。这是大数据区分于传统数据挖掘最显著的特征。根据IDC的一份名为“数字宇宙”的报告,预计到2020年全球数据使用量将会达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
还记得10年之前风靡一时的美国情景喜剧《六人行》(又名《老友记》)吗?在这部美国NBC电视台从1994年开播到2004年落幕的经典之作中,6位主人公从姓名、职业到个人喜好至今都还能被粉丝们津津乐道。
这部美剧中有一个颇受观注的传奇谜团,那就是钱德勒到底是干什么的?——虽然他解释过很多次自己的工作,但是从来没有人真正弄明白过他所做的那个全称叫做“an executive specializing in statistical analysis and data reconfiguration”是个什么东西。
在该剧热播的10多年前,想要跟一个陌生人讲清楚这样一个与数据统计分析有关的岗位确实不是一件容易的事情,以至于到了《老友记》的最后两季,“生不逢时”的钱德勒不得不转行干起了广告。不过到了今天,钱德勒们的职业却正变得炙手可热。
如今,在数字方面拿手,对于数据分析着迷不仅不会让一个人再成为社会的另类,相反这意味着无数条件优厚的工作机会正在招手。
根据麦肯锡旗下研究部门麦肯锡全球学会(McKinsey Global Institute)2011年发布的一份报告显示,预计美国需要14万-19万名拥有“深度分析”专长的工作者,以及150万名更加精通数据的经理人,无论是已退休人士还是已受聘人士。
造成数据人才供不应求的一个显著的背景就是如今“大数据”的爆发正在得到从企业界到政府层面越来越多的重视。
今年2月,《纽约时报》撰文称,“大数据”正在对每个领域都造成影响,在商业、经济和其他领域中,决策行为将日益基于数据分析做出,而不是像过去更多凭借经验和直觉。而在公共卫生、经济预测等领域,“大数据”的预见能力已经开始崭露头角。
一个最新的例子就是Facebook在5月18日的IPO。在5月18日之前,几乎没有人敢说自己有把握去预测Facebook上市当天股价的走势,但是Twitter却神奇般地做到了。
社交媒体监测平台DataSift监测了Facebook IPO当天Twitter上的情感倾向与Facebook股价波动的关联。例如,在Facebook开盘前Twitter上的情感逐渐转向负面,25分钟之后,Facebook的股价便开始下跌。而当Twitter上的情感转向正面时,Facebook股价在8分钟之后也开始了回弹。最终,当股市接近收盘时,Twitter上的情感转向负面,10分钟后Facebook的股价又开始下跌。最终的结论是:Twitter上每一次情感倾向的转向都会影响Facebook股价的波动,延迟情况只有几分钟到20多分钟。
这仅仅只是基于社交网络产生的大数据进行“预见未来”的众多案例之一,事实上“大数据”所能带来的巨大商业价值已经被人认为将引领一场足以匹敌20世纪计算机革命的巨大变革。
2012年2月,《华尔街日报》发表文章《科技变革即将引领新的经济繁荣》,文中罕见地做出大胆预见:“我们再次处于三场宏大技术变革的开端,他们可能足以匹敌20世纪的那场变革,这三场变革的震中都在美国,他们分别是大数据、智能制造和无线网络革命。”
《华尔街日报》的断言并非无的放矢。在今年年初的瑞士达沃斯论坛上,一份题为《大数据,大影响》(Big Data, Big Impact)的报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。
更加值得关注的则是,奥巴马政府已经把“大数据”上升到了国家战略的层面。根据美国白宫今年3月29日新闻,奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”。希望增强收集海量数据、分析萃取信息的能力。
上一次白宫亲自参与推动信息技术产业的大手笔还是2010年希拉里提出的“国家宽带战略”,“大数据研究和发展计划”也被认为是1993年时任美国副总统戈尔宣布的“信息高速公路”计划后美国政府政策层面的一次“狂飙突进”,将“大数据”上升到国家意志将在下一个10年带来深远影响。
在互联网和通信技术飞速发展20年后,一个属于“大数据”的时代,真的来了。