大数据的深意

文/刘江

Random forests, naïve Bayesian estimators, RESTful services, gossip
protocols, eventual consistency, data sharding, anti-entropy, Byzantine
quorum, erasure coding, vector clocks …

你能猜出上面这一串密集的术语出自哪里吗?

这是Amazon CEO Bezos 2010 年给股东的信头一句。“走进某个Amazon的会议室,你可能会突然以为自己误入了一个计算机科学讲座。”这封信后面几乎全部都在谈技术,其中的重点就是大数据的处理。数据已经成为新时代的石油,大数据的处理能力,的确已经成为企业的竞争焦点。

我在2011年8月卷首语中,曾整理过大数据(Big Data)概念兴起的脉络,最早是2005 年Tim O’Reilly 提出Web 2.0 概念的那篇博客。然而,在撰写本期“名人堂”Jim Gray 文章时,我阅读了大量资料,发现事情远不是那么简单。

早在1940 年代,控制论之父Wiener 已开始讨论这样一种机器,它能收集足够多的各种类型信息,生产的、市场的、人的心理的,然后据此确定事情发生的概率。而那时,计算机都还没有诞生呢。

Jim Gray 回忆,他1969 年之前在伯克利攻读博士时,就已与一些同事将计算机科学应用于社会问题研究。这也是他后来一直研究的主题之一。他在微软研究院领导的项目名就叫eScience,很多工作是将微软的各种计算资源开放给其他学科的学术界同行解决那些数据密集型的课题,取得了丰硕的成果。

2007 年他挂帆仙去之前几个月,在美国国家科学研究委员会发表演讲,指出科学研究已经在几千年前的凭经验、几百年前的靠理论模型、几十年前的计算仿真之后,进入了第四阶段——数据探索。在此阶段,科学家依靠各种仪器、传感器获取数据,或者通过仿真生成数据,然后用软件进行处理,将得到的信息/知识存储在计算机中,再由科学家借助各种统计和数据工具进行分析和可视化。这基本是大数据处理的经典义。

这几天我在翻看2007 年的畅销书《Super Crunchers》一本对数据分析重要性极好的通俗宣传手册。书中丰富的例子会让你了解到大数据的无所不在:预测红酒品质、选棒球队员、取书名、法官断案、找对象……

大数据分析往往比专家或者你自己更靠谱。印象最深的案例是循证医学,说白了就是传统经验积累下来的医疗诊断和治疗中的很多做法和程序,都没有数据支撑,存在极大风险,应该用尽量多的统计数据进行论证。

在部分医院实验,一年多时间就挽救了十万人的生命。

这也让我想起年前英年早逝的张孝祥老师,他在去世之前所做的常规体检根本没有查出问题,感觉不适时自己没有重视,错过了及时的治疗。如果我们能够开发出相应技术,用微小的传感器监测每个人重要的器官,不断收集数据,及时进行分析,对危险提前预警,这种悲剧应该是可以避免的。

Jim Gray 曾预测,到2047 年有关现实事物、人、建筑、流程的所有信息都将上网。让我们共同努力,尽早实现。