大数据的局限性:算法不能完全代替人的判断

就这方面而言,《事实的半衰期》是一部入门读本,阐述的是认识论的流行病学,即对于知识和认知性质的理解在一门学科、一种职业或文化中如何传播的过程。阿贝斯曼的工作将敦促世界各地的决策者重新思考一个问题,他们的组织如何将有趣的数据转化为有用的事实。

统计数据驱动

统计学家、《纽约时报》(The New York Times)网站 FiveThirtyEight博客撰稿人内特-希尔则采用了一种完全不同,但又与阿贝斯曼相互兼容的方式探讨知识、事实和可预见性等问题。通过有些过于繁多的详细例证和插曲,希尔的这部著作就预测的傲慢发出了一组发人深省的警告。希尔这样写道:“这本书讲述的与其说是我们知道的事物,倒不如说是我们知道的事物与我们认为我们知道的事物之间的差异。”

从天气、地震、全球变暖、足球,到次级抵押贷款和全球金融危机,希尔解释了建模者和预报者为什么难以将昨天的数据转化为明天“你可以赌一把”的预测。这些微观案例研究虽然肯定是肤浅的,但并没有回避数学,而且对大多数最重要的假设采取了一以贯之的公正态度。要是本书编辑更优秀一些的话,他或许将督促希尔牺牲数量,撰写更多的深刻见解,但这些例证的广度无可否认地揭示了“预测的病理学”。

阿贝斯曼的分析单位是事实,希尔则聚焦于“预测的有效性”。希尔拥有良好的风度和自我认知,他承认人性的弱点是一种设计约束。“但我认为,我们的信念永远不能达到完美的客观性,合理性和准确性,”希尔写道。“相反,我们可以力争少一点主观性、少一点不合理性、少犯一点错误。根据我们的信念作出预测,是进行自我测试的最佳(或许也是唯一的)方式。如果客观性关系到一个更大的超越我们自身条件的真理,那么预测就是审视我们个人看法与那个更大真理之间的联系究竟有多么密切的最佳方式,最客观的往往是那些做出最准确预测的人。”

然而,我想知道的是,希尔是否充分意识到,他将警示故事与令人震惊的失败混合在一起的做法,可能会对将其报道铭记于心的读者产生累积效应。他提供了一个又一个例子来说明,带有缺陷和偏见的人,使用带有缺陷和偏见的方式,构建出带有缺陷和偏见的模型。他非常出色地反复阐述了“过度拟合的”统计模型。希尔解释称,为了适应数据,统计学家们竭力调试自己的模型,最终往往大大降低了这些模型的准确性,进而无法用其进行可靠的预测。

希尔的故事为现在的预测模型构建者提供了一个公平的样本。就这一点而言,这本书预测称,未来的新世界将充斥着许多由统计数据驱动的成功案例,既不快乐,也不勇敢。在这个世界中,平均表现距离世界级水准或许相差好几个标准差。

希尔引用了菲利浦-泰洛克对专家意见所进行的经典研究。这项研究显示,数量多得令人不安的专业领域的“专家”在预测可能结果方面的表现往往差得离谱。此外,专家们往往对其预测的质量过度自信,简言之,专家意见时常获得两个世界的最差结果:以妄自尊大的态度给出了错误答案。这不是成功的秘诀。

从IBM的超级电脑Watson,谷歌(Google)的搜索算法,到亚马逊网站(Amazon)的推荐引擎,数据驱动的计算系统无疑能够获得非凡的成功,特别是当它们专注于现实生活测试,而不是抽象理论的时候。“真正‘懂得’大数据的公司,比如谷歌,并没有将大量时间花在构建模型上,”希尔写道。“这些公司每年从事数十万次实验,在真实的顾客身上测试自己的想法。”

然而,读完这两部著作,我们可以得出一个颇具讽刺意味的结论:一个人获得的数据和事实越多,预测就越有意义,人的判断也就显得愈发重要。人类、数据集和算法的协同进化将最终决定“大数据”究竟是会创造新财富,还是会摧毁旧价值。