仿佛只是一夜之间,“大数据(Big Data)”火了。
那一个个关于大数据的传奇故事,一桩桩争夺大数据制高点而展开的并购案,一个接一个轮流发布大数据战略的IT厂商,还有那一场场以大数据为主题的各种研讨会,无一不在宣告,IT界又迎来了新的兴奋点、新的机遇,同时,也是新的挑战。
“数”中自有黄金屋
严格地说,大数据并非一个新词,被誉为“数据仓库之父”的Bill Inmon早在上个世纪90年代就经常将“Big Data”挂在嘴边了。大数据之所以在近一两年迅速走红,要归结于互联网、移动设备、物联网和云计算的迅猛发展,使得人类每分每秒都在产生巨量数据——从出现文明到2003年,人类总共才创造 5 EB(5 ExaBytes)的数据,但是我们现在仅在两天内就创造出相同的数据量。来自IDC全球存储及大数据研究项目副总裁Benjamin Woo表示,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB×35=37580963840TB),也就是说全球大概需要376亿个1TB硬盘来存储数据。
但是大数据并非单指数据量之大。对于大数据,IDC的定义是:“为了更经济地从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术。”人们普遍将该定义概括为四个V,即更大的容量(volume,从TB级跃升至PB级,甚至EB级)、更高的多样性(variety,包括结构化、半结构化和非结构化数据),以及更快的生成速度(velocity)。前面三个“V”的组合推动了第四个因素——价值(value)。
关于大数据所蕴含的价值,有许多为人所津津乐道的故事可以佐证:
美国印地安那大学和英国曼彻斯特大学的学者通过提取Twitter上的非结构化数据分析公众情绪,再将情绪曲线与道琼斯工业指数进行对照分析,发现可以提前3~4天预测股市大盘走势。基于此,他们已经推出了欧洲第一只基于社交媒体的对冲基金。
(单位:百万美元)
又例如,英国的科学家根据Twitter的数据来跟踪流感的爆发。他们主要基于用户发布信息中的关键词,例如“我头痛”等,并结合用户的发布地点,按区域与英国卫生部的官方数据进行了比较,最终建立起一个预测模型。创业团队“SickWeather”甚至以预测疾病为主题开展了自己的创业项目。
象这样的大数据经典案例还有不少,而整个商业社会对大数据将带来的影响给出了极高的评价——
麦肯锡全球研究机构在2011年5月发布的《大数据:创新、竞争和生产力的下一个前沿领域》中表示,充分利用大数据可帮助全球个人定位服务提供商增加1000亿美元收入、帮助欧洲公共部门的管理每年提升2500亿美元产值、帮助美国医疗保健行业每年提升3000亿美元产值,并可帮助美国零售业获得60%以上的净利润增长。
在今年年初的瑞士达沃斯论坛上,一份题为《大数据,大影响》(Big Data,Big Impact)的报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。
而《华尔街日报》在文章《科技变革即将引领新的经济繁荣》中更是大胆预测:“我们再次处于三场宏大技术变革的开端,他们可能足以匹敌20世纪的那场变革,这三场变革的震中都在美国,他们分别是大数据、智能制造和无线网络革命。”
更加值得关注的则是,美国已经把大数据上升到了国家战略的层面。根据美国白宫今年3月29日新闻,奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,希望增强收集海量数据、分析萃取信息的能力。
在我国,大数据作为一个较新的概念,目前尚未直接以专有名词被我国政府提出来给予政策支持。不过,在2011年11月28日工信部发布的物联网“十二五”规划上,信息处理技术作为四项关键技术创新工程之一已经被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外三项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与大数据密切相关。
大数据的价值和重要性已经毋庸置疑,但大数据究竟带来了哪些新的技术趋势,它对当前IT产业的势力格局会造成何种影响,更关键的是,每个企业如何才能获取大数据中的“宝藏”?则是我们真正关注的焦点。