最近的几篇文章透露出一些担忧,认为大数据(Big Data)在所谓的新兴技术炒作周期中可能已处于期望过高的巅峰期,很快就会开始落入幻灭的谷底。这在一种颠覆性技术的早期阶段并不罕见。关键的问题是这种技术会继续跌穿谷底、迅速被人遗忘呢还是最终会继续向前,沿着复苏的斜坡走向生命力长久的成熟期。你怎样才能辨别它会朝哪方面发展?
根据我的经验,一种颠覆性的技术只要能持续吸引严肃研究人员和分析师的眼球就能成功。这些研究人员和分析师经过一段时间会揭穿炒作行为,对技术的开发和营销予以规范,提出解决诸多技术障碍的办法,清理不切实际的承诺,重新勾勒这种技术实现目标的范围和时间表。互联网(The Internet)就是从导致dot-com泡沫的一片炒作中重获新生的,继续朝着高度成功的未来在发展。云计算目前正在经历一个类似的严肃评估与发展期,大数据也同样如此。
在《大数据的兴起:它是如何改变我们看待世界的方式的》这篇才发表在《外交》杂志(Foreign Affairs)上的文章里,《经济学家》杂志(Economist)的编辑肯尼思?库克耶(Kenneth Cukier)和牛津大学教授维克托?迈尔-舍恩伯格(Viktor Mayer-Sch?nberger) 很好地阐述了为什么“大数据标志着信息社会终于迎来了履行其名字中暗含的承诺的时刻”。这篇文章节选自他们2013年3月出版的著作《大数据:一场行将改变我们生活、工作和思考方式的革命》(Big Data: A Revolution That Will Transform How We Live, Work, and Think)。
库克耶和迈尔-舍恩伯格解释说,大数据已经迅速兴起,成为它所占据的舞台的中心,原因就是现在四处飘散的数字信息比以往任何时候都多。2000年的时候,全世界存储的信息中只有四分之一是数字信息,因此必须进行搜索和分析。自那以后,数字数据差不多每三年就会翻一番,因此到目前为止,所有存储的信息中只有2%不是数字信息。
没有数字化革命,大数据就不可能产生,而由于摩尔定律(Moore’s Law)的存在,数字化革命使人有可能大大降低存储和分析海量信息的成本。网络就跟移动设备和智能传感器的爆炸性增长一样,也让数据的收集方便得多了。“但是就其核心而言,”作者写道,“大数据只是人类寻求认识并量化世界的过程中的最新举措而已。”数据化(Datafication)是他们使用的术语,用来描述当今捕获世界上以前从来没有量化过的很多方面信息并将其作为数据的能力。
我完全赞同他们的观点,认为大数据不仅应该被视为过去几十年里数字和互联网革命的一部分,而且应该视为过去几百年间科技革命的一部分。在今年5月举办的2013年麻省理工学院斯隆商学院首席信息长研讨会(the 2013 MIT Sloan CIO Symposium)上,麻省理工学院教授埃里克?布林约尔夫松(Erik Brynjolfsson)在他主持的“大数据的现实”小组讨论中表达了类似观点,他说纵观历史,新工具都会引发革命。
当新工具让我们有可能开展各种新的测量和观察活动时,科技革命就开始了。早在17世纪,伽利略(Galileo)对发明不久的望远镜进行了重大改进,使他能够作出大大改变我们整个宇宙观的发现。几个世纪以来,我们看到在物理、化学、生物和其它学科实现重大科技突破之前都会有新工具、新测量方式和新发现产生。
我们新的大数据工具有可能会引发一场基于信息的科技革命。就像望远镜、显微镜、光谱分析仪和DNA测序仪导致了新的科学学科产生一样,数据科学现在正迅速成为大数据的学术伴侣。数据科学最让人激动的地方之一是,鉴于我们刚刚获得了收集差不多任何主题(包括医疗保健、金融、管理和社会科学)方面有价值的数据的能力,大数据可以应用于差不多任何知识领域。不过,就像所有的科技革命一样,这需要时间。
按照库克耶和迈尔-舍恩伯格的说法,数据化需要在我们处理数据的方式上发生三个深刻变化。第一个变化他们称之为n=全部(n=all),也就是说,收集并利用大量数据,而不是像统计学家至今之前所做的那样只满足于小样本。“当收集数据的成本太高,处理数据既麻烦又耗时的时候,抽样的样本成为了救星。现代抽样技术是基于这样一个思想的:在一定的误差范围内,个人可以根据小团体的数据推断出整体人口的某种情况,只要抽取的样本是随机的。”
更多详细信息,请您微信关注“计算网”公众号: