大数据的局限性:算法不能完全代替人的判断

数学模型

如果你已经听过这个笑话,尽管打断我:有三位统计学家去猎兔。他们发现了一只兔子。第一位统计学家率先开枪,离兔子的头差了一英尺。第二位统计学家开枪射击,离兔子的尾巴差了一英尺。第三位统计学家大喊道:“我们逮住它了!”

就算你并不觉得这个笑话有多么好笑,但你却很可能跟类似于它所描述的猎兔者的管理人员一起工作过。他们的数学水平或许无可挑剔,但可悲的是,他们在真实世界的成果毫无价值。谎言,该死的谎言。各大组织到底必须掌握什么东西,才能提高其数量分析专家产生真实价值(而不是统计幻象)的几率?不懂数学的高管们怎样才能确保他们不会受到“大数据”(Big Data)的蒙蔽?

我们或许可以在塞缪尔-阿贝斯曼的著作《事实的半衰期》(The Half-Life of Facts)和内特-希尔的著作《信号与噪音》(The Signal and The Noise)中找到这些问题的精彩答案。这两部既相互独立、又互为补充的著作深入探索了“数据”如何变为“证据”,这么多看似高深莫测的数学模型为什么根本无法区分这两种事物等问题。这两本书接受、并进一步扩展了纳西姆-塔勒布备受欢迎并富于洞见的著作《被随机现象蒙蔽》(Fooled By Randomness)和《黑天鹅》(The Black Swan),以及诺贝尔奖得主丹尼尔-卡尼曼的卓越作品《思考,快与慢》(Thinking, Fast and Slow)所阐述的不确定性和数量的自我欺骗等主题。如同其先驱一样,阿贝斯曼和希尔也写出了不仅妙趣横生、而且具备可操作性的作品。

两位作者都引用了马克-吐温、威尔-罗杰斯和查尔斯-凯特林等人颇具嘲讽意味的妙语:“引领我们进入困局的并不是我们不知道的事物,而是我们知道、但不那么真实的事物。”两人都探讨了用以区分“真实”知识和“不那么真实的”知识的媒介和机制。阿贝斯曼和希尔都言之凿凿地声称,目前占据上风的是“不那么真实的”知识。处理的数据越多,受到的关注也就越多。

应用数学家、哈佛大学数量社会科学研究所(Harvard's Institute for Quantitative Social Science)研究员阿贝斯曼解构了“事实”的定义。对读者颇为仁慈的一点是,他并没有跌入后现代主义哲学的泥沼。相反,他深入探索了严肃的科学家如何确定他们自认为了解、与其正在研究的事物相关的事实。这种“科学计量”方式——科学如何衡量其过程和进步的科学——在确定科学家所称的“事实”的生命周期和生态系统方面非常有帮助。通过这种方式,阿贝斯曼提出了一些有趣的问题,比如:“事实”是如何诞生的?它们通常如何复制、变异和进化?它们将在多久之后消逝?

病理缺陷

阿贝斯曼颇具挑衅性的核心观点是,有一个由事实组成的虚拟物理现象。“事实”遵从既定的规律和轨迹,这取决于它们的界定和衡量方式。“我们每天读新闻时,可能都要面对一个关于我们的世界,与我们自认为了解的状况完全不同的事实,”他写道。“但事实证明,这些日新月异的变化,虽然在我们看来它们发生了真实的相变,但并不意外,也不是随机的。通过应用概率,我们可以理解它们的总体行为方式,但我们也可以通过搜索我们对其认识的速度更慢、有规律的变化,来预测这些变化。事实的快速变化,如同我们看到的其他任何事物一样,有其自身的规则,是可衡量、可预测的。”

“可衡量”、“可预测”是什么意思?阿贝斯曼非常擅长描述机构、个人和概率的偏差,这种偏差可以扭曲科学和科学家评估、发布以及消灭“事实”的方式。

“这方面最明显的例子出现在负面结果领域,”阿贝斯曼这样写道。他援引了进化生物学家约翰-梅纳德-史密斯曾经说过的一段话:“统计学是一门让你每年进行20次试验,然后在《自然》杂志(Nature)发布一个错误结果的科学。然而,要是20位独立的科学家分别进行同一项试验,其中的19位将以失败告终,其职业生涯自然也就无法更进一步。这种情形当然令人苦恼,但这就是科学的运行方式。大多数想法和实验都是不成功的。但最重要的是,失败的结果也很少公布。”

问题的关键并非统计科学或科学的统计学存在病理缺陷,而是这种已知的病理缺陷可以创造出动机,让我们重新思考、修改并重新设计我们衡量和测试的事物。我们需要“事实”帮助我们更新我们对于“事实”的思考和理解。科学——以及为其提供驱动和支持的日益数字化的技术——为难以理解自身不断增长的海量数据、无法为这些数据增添价值的企业提供了一个强大的模型。