大数据时代的现实生活

进入大数据时代

其实,很多人行为轨迹的数据都被收集了。现在还有人不用手机吗?当然,人们不会自欺欺人地去否认这个事实:即你的手机厂商知道你每一时刻都在哪里。他们不仅知道你的位置信息,还知道你打的每一通电话(为了统计话费)。他们不仅知道你在哪里,也知道其他成千上万的客户在哪里。所以,相对于我所收集的关于自己的数据,他们掌握的数据要丰富很多。有了这些数据,人们就可以对不同的个体进行比较。当然,手机商很担心这些数据会外泄,因为他们要保持用户对他们的信任,同时外泄信息还会受到法律的处罚。但是近几年,他们逐步意识到这些数据的价值所在,于是开始将数据提供给研究者和其他公司。我的研究小组也得到了大量有关人类行为轨迹和通话模式的信息,信息的主人当然是匿名的,我们不知道主人是谁,也不知道他们的电话号码。我们只是将他们看做在宇宙中移动的小个体,就像组成汽油的溴一样。

有了这些数据,我们终于可以问:人类行为的可预测性是多少?人的行为可以预测吗?

我们之前提出的问题之一是:人们每天会移动多远?答案很简单。如果你想要查一查移动这么远的人有多少,这是一个典型的行车距离,大部分人都会移动这么远。你会发现大部分人倾向于在一个相对小的范围内移动。当然也有少数住在城郊的人会移动一段相当长的距离,移动范围较小的人的数量对比移动范围较大的人的数量正好符合一个精确的“幂律分布”。所以,如果你掌握了大量数据,就可以预测有多少人是旅行者,有多少人在很远的地方上班,有多少人大多数时间待在附近,或是在家中工作。这是我们研究的第一步。这已经表明,在研究一个庞大的人群时,我们会发现不同人的行为是迥异的。下一步,我们用得出的行为轨迹算出每个人的熵。

什么是熵呢?整个体系的熵是零,就是说这个系统的状态很明朗,你知道每一个点在哪里,每一个点的位置都是完全确定的,这也就是我们所说的:“熵为零。”熵是衡量随机性的值。原则上,如果可以根据个人过去出现的地点写出数据挖掘运算法则,那么就可以百分之百地精确算出他将出现的地点,他的可预测性是1,也就是说这个人的运动完全没有随机性。他每天在同一时间往返于家和单位。

我们认为人与人之间的行为模式存在很大差异,很多人的行为很难被预测,因为他们的生活丰富,并且行动无计划性。但是还有一些人可能更容易被预测,这种人是我们一开始就提到的,他们的行为发生在一个确定范围内。于是我们分别计算出了这些人的平均值,并将他们的可预测性标记在图中。我们测量的是大批手机用户的可预测性,首先应该注意到的就是这个预测基数很大,峰值是93,也就是说,对于一个普通人来讲,如果我们知道他过去去过的地方,原则上有93%的可能性可以准确预测出他接下来将出现的地方。而且所有人的可预测性都高于80%。

因此,一旦收集到足够多的数据,就可以提出这个基本的问题:我们的可预测性有多高,并且会得到一个令人震惊的答案?如果我们谈到对未来的预测,我们可以说:“如果我们拥有足够的数据,是不是所有事情都是可以预测的?”这是我们现在要思考的问题。

(作者系美国东北大学荣誉教授,复杂网络科学研究中心主任,《爆发》一书作者。本文译者为湛庐文化。)