从本质来看,大数据不容易解读。当你收集数十亿个数据点的时候——一个网站上的点击或者光标位置数据;大型公共空间十字转门的转动次数;对世界各地每个小时的风速观察;推文——任何给定的数据点的来源会变得模糊。这反过来意味着,看似高级别的趋势可能只是数据问题或者方法造成的产物。但也许更重大的问题是,你所拥有的数据通常只是你真正想要知道的东西的一个指标。大数据不能解决那个问题——它反而放大了那个问题。
例如,民意调查被广泛用作衡量人们在选举中的投票意向的指标。然而,从汤姆·布拉德利(Tom Bradley)1982年在加州州长竞选中败北,到英国脱欧公投,再到特朗普的当选,数十年来结果出乎意料的选举一再提醒我们,民意测验和人们实际的投票意向之间并不总是完全一致。Facebook以往主要通过用户有没有点赞来估量他们对特定的帖子是否有兴趣。但随着经过算法优化的动态信息开始大量出现标题诱饵、点赞诱饵和婴儿照片——导致用户满意度明显下降——该公司的高层逐渐意识到,“点赞”这事并不一定意味着用户真的喜欢特定的内容。
指标和你实际上要估量的东西之间的差别越大,过于倚重它就越危险。以来自奥尼尔的著作的前述例子为例:学区使用数学模型来让教师的表现评估与学生的测验分数挂钩。学生测验分数与不在教师控制范围内的无数重要因素有关。大数据的其中一个优势在于,即便是在非常嘈杂的数据集里,你也可以发现有意义的关联性,这主要得益于数据量大以及理论上能够控制混杂变量的强大软件算法。例如,奥尼尔描述的那个模型,利用来自多个学区和体系的学生的众多人口结构方面的相关性,来生成测验分数的“预期”数据集,再拿它们与学生的实际成绩进行比较。(由于这个原因,奥尼尔认为它是“大数据”例子,尽管那个数据集并不够大,没达到该词的一些技术定义的门槛。)
试想一下,这样的系统被应用在同一所学校里面——拿每个年级的教师与其它年级的教师比较。要不是大数据的魔法,学生特定学年异常的测验分数会非常惹眼。任何评估那些测验的聪明人,都不会认为它们能够很好地反映学生的能力,更不用说教他们的老师了。
而前华盛顿特区教育局长李洋姬(Michelle Rhee)实行的系统相比之下更不透明。因为数据集比较大,而不是小,它必须要由第三方的咨询公司利用专门的数学模型来进行分析解读。这可带来一种客观性,但它也排除掉了严密质问任何给定的信息输出,来看看该模型具体如何得出它的结论的可能性。
例如,奥尼尔分析道,有的教师得到低评分,可能不是因为他们的学生表现糟糕,而是因为那些学生之前一年表现得出奇地好——可能因为下面那个年级的教师谎称那些学生表现很好,以提升他自己的教学评分。但对于那种可能性,学校高层并没什么兴趣去深究那种模型的机制来予以证实。
加入更多指标
并不是说学生测验分数、民意调查、内容排名算法或者累犯预测模型统统都需要忽视。除了停用数据和回归到奇闻轶事和直觉判断以外,至少有两种可行的方法来处理数据集和你想要估量或者预计的现实世界结果之间不完全相关带来的问题。
其中一种方法是加入更多的指标数据。Facebook采用这种做法已有很长一段时间。在了解到用户点赞不能完全反映他们在动态消息当中实际想要看到的东西以后,该公司给它的模型加入了更多的指标。它开始测量其它的东西,比如用户看一篇帖子的时长,他们浏览其点击的文章的时间,他们是在看内容之前还是之后点赞。Facebook的工程师尽可能地去权衡和优化那些指标,但他们发现用户大体上还是对动态消息里呈现的内容不满意。因此,该公司进一步增加测量指标:它开始展开大范围的用户调查,增加新的反应表情让用户可以传达更加细微的感受,并开始利用AI来按页面和按出版者检测帖子的标题党语言。该社交网络知道这些指标没有一个是完美的。但是,通过增加更多的指标,它理论上能够更加接近于形成可给用户展示他们最想要看到的帖子的算法。
这种做法的一个弊端在于,它难度大,成本高昂。另一个弊端在于,你的模型加入的变量越多,它的方法就会变得越错综复杂,越不透明,越难以理解。这是帕斯夸里在《黑箱社会》里阐述的问题的一部分。算法再先进,所利用的数据集再好,它也有可能会出错——而它出错的时候,诊断问题几无可能。“过度拟合”和盲目相信也会带来危险:你的模型越先进,它看上去与你过往所有的观察越吻合,你对它越有信心,它最终让你一败涂地的危险就越大。(想想次贷危机、选举预测模型和Zynga吧。)