大数据时代的新“原油”

美国总统奥巴马真得要感谢大数据的挖掘技术。因为正是由于对大数据的掌控,他的竞选团队才会远在去年11月份竞选结果公布之前就已信心十足地认为其将赢得大选。这是怎么一回事儿呢?

早在奥巴马竞选之初,一个由数据科学家组成的技术团队就已经成立。他们通过对历史数据以及各类输入因素的分析,在总统竞选过程中,通过使用数据挖掘技术对每一位选民建立精确的用户偏好模型,从而得出其在大选当日选民投票的概率,以及结果会偏向哪一方。同时,他们还不断地更新他们的模型,以至于时刻可以知道选民们的意向变化。这些模型建立在对选民的喜好以及行为数据的分析上,来自上千个数据源,其中包括往届的投票记录,对竞选事项的各类反馈数据,数以千计的电话和在线采访以及选民转变观点之后对竞选结果的影响。

志愿者们不但每周都在记录更新选民们的个人偏好,还要评估各种可能改变他们观点的因素,诸如演讲内容,竞选主题和某些关键事项。

这个团队也会使用统计模型来指导志愿者如何有效地说服一个摇摆不定的选民。例如,一个来自加利福尼亚的志愿者针对某一个特定问题能够比其他州的志愿者更有效地拉拢选民。

这个故事听起来很奇特,但事实是,大数据挖掘的应用在我们周围已经渐渐变成常态,而它的核心则是数据。

更确切地说,是大数据,它涉及到我们周围被数字化记录的方方面面,例如,社交,工具,我们观看的视频,达成的交易,进行的网页搜索,应用(手机App)的使用以及参加的大学在线课程,等等。

我们可以用石油工业与石油巨头打个比方。我们可以把这些数据类比成原油,要变成有用之才,需要经过勘探,开采和提炼加工。与原油不一样的地方在于,你所需要的并不是进行抽取加工石油的机器,而是数据挖掘技术,将统计学、机器学习以及数据管理技术集结为一身的多学科技术。同样,处理原油的机器也不再由工程师,而是由数据科学家来操作。数据科学家是一个新的产业,这些人才来自于多个领域,包括计算机科学以及人工智能研究者,统计学家,数据存储专家和社会科学家等等。

从数据中学习到的知识, 则可以被政治家、科学家、教育者以及商业管理者所使用,进行决策。

时至今日,数据挖掘已经成为了我们日常生活的一部分。我们使用的谷歌,搜索按键的背后是一个强大的数据挖掘引擎。 通过对用户点击数据的挖掘,谷歌能够预测你是谁,你要对信息进行什么样的操作以及如何展示广告使其能吸引你的注意。

当我们使用信用卡购买商品时,一个强大的数据挖掘引擎也在背后运行着,用于判断你的信用卡是否正被盗用。而这背后的数据模型就建立在消费者以往几十亿条交易记录的基础上。

我们在罗湖过境时,采集我们指纹的机器背后也存在着由数据挖掘算法构建的模型,它会高速地确认当前站在机器前的人是否是你本人。

我们正处在一个新的大数据浪潮,而大数据挖掘研究还处于初期阶段。即便如此,香港的学术界与工业界却早已走在了此领域的前端。

在香港的大学里,学者们对数据挖掘的各个方面开展了研究:从设计准确的算法,例如基于网页、视频、语音等数据,到研究如何在数据挖掘的过程中保护用户隐私。新成立的华为诺亚方舟实验室,也正在进行着几个以大数据挖掘为未来为目标的研究项目。

作者:杨强 华为诺亚方舟实验室主任