大数据是“啤酒+尿布”?解读“大”的三维特征

“大数据”这一概念最初起源于美国。这里的“大”通常用来描述数据的三维特征:第一维指信息的数据体量日益庞大;第二维指信息的种类繁多;第三维指数据变为可用信息,并且可以分析速度越来越快。

早在1969年,全球零售巨头沃尔玛便利用计算机对消费者的购物行为进行数据分析,结果发现男性顾客在购买婴儿尿布时,常常会顺便“搭配”几瓶啤酒来犒劳自己,于是推出了将啤酒与尿布捆绑销售的促销手段。如今,这一“啤酒+尿布”的数据分析成果,已成为科学家通俗解释“大数据”技术的经典案例。

“‘大数据’具有多种多样的定义方式,这一概念最初起源于美国,是由思科、威睿、甲骨文、IBM等公司倡议发展起来的。这里的‘大’通常用来描述数据的三维特征:第一维指信息的数据体量日益庞大,如今已从TB级升到EB级,又将跃升到zettabytes级;第二维是指信息的种类繁多;第三维是指数据变为可用信息,并且可以分析的速度越来越快。”在接受本报记者采访时,美国加利福尼亚大学里弗赛德分校计算和通信专家杨鸣博士强调,“最近媒体常常议论的大数据,其实专指大数据的第四维特性,即数据的使用价值,主要体现在数据的智能分析上。”

杨鸣说,智能分析是一种对未来智慧的投资,分析的最终目标是做出更明智的决定。有些人误以为大数据只是数据技术处理的升级,即如何存储和备份拥有的数据,但大数据的真正意义在于用新的方式对数据进行分析,并作出合理解释。

大数据所涉及的信息与人密切相关。与人有关的信息占世界上所有数据的90%,主要包括电子邮件、视频文件、社交网络、博客内容、呼叫中心的对话等等,它正以惊人的速度增长,年复合增长率高达62%。大数据的应用,将有助于决策人灵活应对现实世界中“数据海啸”引起的机遇和挑战。

“人类信息”将引起信息技术(IT)的再次进化。多年来,科技界一直在改变信息技术(IT)中技术,也就是“T”的含量。例如,引进大型计算机、客户端服务器、网络供应(IP)、云计算等技术。大数据技术第一次使信息,也就是“I”在IT中发生了变化,从传统的信息(Information)之“I”向着智能(Intelligence)之“I”发展。

对人类信息进行“技术理解”,需要从根本上采取新方法和新技术,以便为人类无时无刻不在增加的信息提供洞察力、想法和直觉。未来的信息计算将以大数据模式,引起人类社会信息交互方式的根本性转变,以智能分析为前提的信息应用将会以更大规模解读人类,挖掘人类信息的价值。

当通过信息搜寻来揭露犯罪时,破案人员可以从犯罪嫌疑人的电子邮件中寻找证据;当试图理解客户群时,营销人员可以搜寻和分析客户公开的所有信息,既可以是研究者自己数据库所掌握的,也可以是被调查者公开在微博或博客上的信息。这一图景使我们看到,在当今信息爆炸的社会中,信息流动和分析正变得越来越复杂。

美国白宫科技政策办公室在去年3月29日发布了《大数据研究和发展计划》,同时组建“大数据高级指导小组”,显示美国已把应对大数据技术革命带来的机遇和挑战提高到国家战略层面。

去年8月,对1105家美国企业和集团进行的调查显示,63%的受访者认为只有实施和使用大数据技术才能完成各自机构的使命,49%的受访者表示将增加他们的大数据预算,46%的受访者计划至少保持他们现有的大数据预算水平。

杨鸣对本报记者表示,对于像中国这样的发展中国家来说,在高科技领域追赶国际先进水平应该还是比较容易的,应当在大数据研究上加大力度。主要包括两个方面,一是在作为大数据技术基础的云计算方面,要着力应用开发;二是在数据处理方面,不仅要重视结构性数据(即已经数字化了的信息),而且要重视在电子邮件、博客等非数字化的人文数据分析。