大数据时代:正在发生的未来

几年前,带领一帮团队做“信息管家”。想法很简单,信息爆炸、资讯海量,现代人不堪重负。如何在最短时间内,最有效率和最具针对性地满足个体信息需求服务,这就是该项目要做的事。聪明的你们一看便知,它其实就是一项面向个人的信息推送服务,媒介是移动终端(如智能手机),应用是移动互联,卖点是定制、精准和个性化。技术呢,做起来很复杂,说起来又简单,就是任何人看哪些报纸、杂志,或者哪些专业、领域,甚至先看什么后看什么不想看什么都有一套固定的套路,这些别人不注意当事人又不觉得,但是通过一定的数据采集、挖掘和分析之后,会形成一个清晰的“模型”(也可以叫“路线图”,实际上叫什么不重要)。然后,系统会根据这个模型,自动抓取个体关注的信息,然后向每个订阅者推送。相较于手机报,它更窄众;相对于RSS订阅,它很个性。

记得当时在做,自觉得使命伟大、意义深远;相信它改变的不仅是自媒体形态,也将颠覆传统信息生产与传播的体系,当然,以当时的技术条件尚未真正做好它,原因是困惑和止步于“一切皆要量化”的数据分析,这太难了。后来,陆续读了一些书和文章,领略了国外前沿思想,并且看到了相关的先锋案例,这才恍然大悟,敢情我们想的和做的就是“大数据”。

大数据,和另一个“云计算”,成了时下互联网和IT业界最流行的一组概念,人们都在谈论它们,看起来好像每一个人都身临其中、亲自参与。然而,对于什么是大数据,又该怎么去理解它,却出现了不同的分歧或侧重。例如,前段时间读到涂子沛的《大数据:正在到来的数据革命,以及它如何改变政府、商业与我们的生活》,虽然也叫大数据,但它讲的实则是信息公开、数据公正性和政府管理、社会治理层面的话题。书中特别介绍美国的样本与经验。另有苏萌、林森和周涛合著的《个性化:商业的未来》,该书对互联网技术支撑下的个性化商业服务及相关模式给出了从理念到应用的介绍。还有拉贾拉曼、厄尔曼合写的《大数据:互联网大规模数据挖掘与分布式处》。同样是一个“大数据”,但两位作者关注的是极大规模数据的挖掘。其内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。这是一本典型的技术教辅书。总得说来,这几本书都针对“大数据”的某一局部给出了较为系统和深刻的介绍,但没有对大数据的全局作出宏大视野的梳理——直到后来读到维克托·迈尔·舍恩伯格和肯尼斯·库克耶的作品《大数据时代:生活、工作与思维的大变革》,才有所改观。

这本出自“大数据时代的预言家”维克托·迈尔·舍恩伯格之手的书,其最大贡献就是在大数据方兴未艾、众说纷纭的时刻,进一步厘清了大数据的基本概念和特点,这对许多以为大数据就是“数据大”的人来说很有帮助。谢文,这位前雅虎中国总经理、知名IT评论人,在他一次主题为“大数据概念混乱,未来或将卷入混战”的演讲中,就直言不讳地指出:人们在大数据的认识上有几个误区。第一,只是从量上说,光看到数据的增长,没法说清楚普通数据和大数据的区别。数据大绝对不等于大数据。现有的设备、技术方法所能处理的多数是数据大,不是大数据。第二,数据挖掘、精细化运营、精准广告、个性化服务、推广这些不是未来大数据服务商业模式的主要部分。第三,脱离产业发展和社会进步的大背景,单纯地鼓励讨论大数据无法说明其重要性。

然而,在《大数据时代》一书中,维克托·迈尔·舍恩伯格等就清楚地指明“大数据并非一个确切的概念”。最初,这个概念是指需要处理的信息量过大,已经超出了一般处理数据时所能使用的内存量,因此工程师必须改进处理数据的工具。这导致了新的处理技术的诞生,例如谷歌的MapReduce和开源Hadoop平台。这些技术使得人们可以处理的数据量大大增加。更重要的是,这些数据不再需要用传统的数据库表格来整齐地排列。与此同时,因为互联网公司可以收集大量有价值的数据,而且有利用这些数据的强烈的利益驱动力,所以互联网公司就顺理成章地成为最新处理技术的领头实践者。然而,但维克托笔下的“大数据”是一种“人们在大规模数据的基础上可以做到的事情”的指代,是“人们获得新的认知,创造新的价值的源泉;还是改变市场、组织机构,以及政府与公民关系的方法”。