在刚刚结束的“2012年中国计算机大会”上,“大数据”是出现频率最高的一个词,几乎每个主讲者、每场论坛都涉及这几个字。同时,中国计算机学会也在大会举行期间,正式成立了大数据专家委员会,中国工程院院士李国杰担任主任。
什么是大数据?按照维基百科的说法,大数据指在一定时间内无法用常规软件对其内容进行抓取、管理和处理的数据集合。
2011年,《自然》杂志(Nature)出版专刊指出,倘若能够更有效地组织和使用大数据,人类将得到更多的机会发挥科学技术对社会发展的巨大推动作用。
美国政府把大数据看成是“未来的新石油”。2012年3月,美国奥巴马政府公布了“大数据研发计划”,旨在提高和改进人们从海量和复杂的数据中获取知识的能力,进而加速美国在科学与工程领域发明的步伐,增强国家安全。这是美国1993年宣布“信息高速公路”之后的又一重大科技发展部署。美国国家科学基金会、国防部、能源部等6个政府部门和机构宣布投资两亿美元。
其实,大数据早就在我们身边。我们每天通过互联网上传或者下载大量视频、图片、文字,都在产生大量数据,各种购物、社交网站更是大数据的集中之地。国际数据公司(IDC)的研究表明,全世界的社交网络每天有2.5亿张照片上传。
2011年,全球数据总量为1.8ZB(10的21次方字节),其中75%来自个人。有人形象地计算了一下,这些数据如果用9GB的DVD光盘保存,叠起来的厚度是26万公里,大约是地球到月球距离的三分之二。
不过,企业应用还是大数据的主要推动者。生物、医学、天文、环境、物理、工程、经济、互联网等诸多领域涉及大数据的处理和应用。李国杰院士对IBM、甲骨文、微软、谷歌、亚马逊、Facebook等企业进行了分析。他发现,自2005年以来,IBM投资160亿美元进行了30次与大数据有关的收购,促使其业绩稳定高速增长。2012年,IBM股价突破200美元大关,3年之内翻了3倍。华尔街早就开始招聘精通数据分析的天文学家和理论数学家来设计金融产品。IBM现在是全球数学博士的最大雇主,数学家正在将其数据分析的才能应用于石油勘探、医疗健康等各个领域。eBay通过数据挖掘可以精确计算出广告中的每一个关键字为公司带来的回报。
大数据应用也早已在商业领域大显身手。金蝶国际软件集团首席科学家张良杰介绍,他们参与搭建的全国中小企业信息平台,汇集了4000万家企业,通过对这些企业海量数据的挖掘和分析,能够对经济运行状况作出准确的预警,有助于国家相关部门作出应对决策。
此外,张良杰还举例说,在微观经济领域,“大数据”的作用也越发凸显。“美国一家公司把天气预报的信息和数据在亚马逊的云平台上进行处理,可以帮助农业的种植者在特定季节中避免遭受气象灾害,很好地保障他们的收益。在企业管理上,大数据可以为企业管理创新带来活力。对前一段时间的业绩情况分析,来决策下一步的投资、战略部署、产品研发。”
国内的淘宝、腾迅QQ、新浪微博既是大数据的产生者、应用者,也是研究者。正是由于这些应用,李国杰认为:“大数据的工程技术研究已经走在了科学前面。”
但是当技术解决不了的问题越来越多时,就需要科学家找出共性的问题。可是科学家并不了解每个领域的特点和问题,目前各个领域中“数据界”的共性还不太清楚,所以李国杰提出来:“我觉得我们搞科学,要放下身段、甘当配角。在条件还不成熟的时候,计算机科学家应虚心地当一段时期的‘助手’。”
在科学家如何与企业界相结合、共同解决大数据问题上,香港中文大学教授华云生认为:“现在情况复杂,不像以前,一个方案可以解决许多问题。大数据的研究要结合实际用户问题,把问题、数据、平台集中起来解决。但现在还是不清晰、不明确。”
李国杰则认为大数据的研究对于科学家来说,具有“颠覆性”的意义:“长期以来,许多领域都是在用小数据做科学实验,找出一个模型和规律。现在越来越复杂,有一堆数据看上去没有规律。科学家要找到新的研究方法,这种模式和方法的改变需要探索。要研究大数据的问题在哪儿,在应用中发现什么技术难题,这些有针对性的问题,不是凭空想出来的,是需要实践总结出来的。”