信用评分公司能够从来计算信用风险的模型还受到其它的一些限制。如果贷方拒绝信贷申请,贷方必须要提供申请者信用评分不高的原因。为了符合这一要求,FICO尽可能地为消费者提供可行的解释说明。例如,詹宁斯解释道,信贷申请者可能会被告知,“你的信用评分低,是因为过去一年里你累计八次信用卡过期还款。”
不过,要是FICO手动创建的模型对于信用风险的预测能力没有神经网络那么强,会怎么样呢?事实上,詹宁斯称,在使用同样的输入变量的情况下,他们最近对比了通过机器学习技术得出的信用评分和手动创建模型得出的结果,他们发现二者之间差异并不大。但机器学习的好处在于,有些时候机器不可理解的模型的预测能力会比人类可理解的手动创建模型强大得多。在那些情况中,我们的知识——如果我们使用它的话——将依赖于我们无法理解的确证。
然而,尽管机器学习模型非常强大,但我们也要学会提出质疑。出现例证失效的似乎是那些机器确证没有充分逃脱人类根源的模型。
例如,被训练评估申请保释的个人构成的风险的系统会放行那些白人惯犯,但不会放行那些犯罪记录较少的非裔美国人。该系统学习到了人类的偏见,人类的决策属于数据的一部分。中央情报局(CIA)用来辨认无人机袭击目标的系统一开始指向了半岛电视台的一位知名记者,因为该系统接受过有关知名恐怖分子的小数据集的训练。这种系统显然还是需要人工监督,尤其是涉及无人机袭击,而非给黄瓜分类的时候。
数据分析公司Fast Forward Labs研究工程师迈克·威廉姆斯(Mike Williams)在接受电话采访时表示,我们需要特别警惕往往影响重要数据集的归类和重要数据收集方式的偏见。例如,最近有论文讨论一个使用神经网络来预测肺炎患者的死亡概率的项目,该项目是为了鉴定可作为门诊病人来治疗的低风险患者。神经网络预测的结果一般都比那些对数据实施已知规则的手动创建模型准确。然而,神经网络明确指出,喘息性肺炎患者死亡风险较低,因此应当作为门诊病人来治疗。这与护理人员所知道的以及常识相矛盾。最后研究人员发现,该发现是因一个事实所致:喘息性肺炎患者会立刻被送到重症监护室,因此存活率很高。但很显然这并不意味着他们应当被送回家,相反他们应该住院治疗。要识别这种错误,需要人工的监督。
新书《数学杀伤性武器》作者凯西·奥内尔(Cathy O’Neill)指出了决定我们使用哪些数据集来训练计算机的价值观的内隐偏见。她谈到了一个有人给一个岗位找最合适人选的例子,其列出的其中一个条件是:“能够供职多年时间,争取晋升机会”。如果使用机器学习算法来完成这项任务的话,你最终很可能会聘请到男性,因为女性在同一个工作岗位的停留时间通常相对较短。她说,使用机器智能来鉴定公立学校系统中的差教师也是同样的道理。怎样才算是坏教师呢?看其班级学生在标准化考试中的平均分?看最终有多少学生毕业?看有多少学生上大学?看学生毕业后的年收入水平?看学生毕业后过得是否幸福美满?人类或许能够作出定义,但机器学习算法很可能会重新建立起我们选来给配备的数据所隐含的偏见。
因此,我们可能会两手一起抓。一方面,我们将延续我们禁止一些确证类型来避免不良的社会影响的传统。与此同时,我们可能将会继续越来越依靠我们无法理解的机器确证。
问题不仅仅在于,我们无法理解它们,就像外行无法理解弦理论一样。还在于,基于计算机的确证本质上完全不同于人类的确证。它是一种异类。
但“异类”并不意味着“错误”。说到理解万千世界,机器可能比我们人类任何时候都要接近于真相。
异类确证
在某处地方,有只蠕虫比它的同类更有好奇心。它会慢慢穿过泥土,品尝它经过的每一片土地的味道,总是去寻找下一个新的泥土样本,因为它认为蠕虫的最高使命是认识它的世界,而品尝就是它获取知识的方式。凭借丰富的经历和出众的分类和表达能力,这只蠕虫在同类当中备受尊崇,被视作能够传授有关地球尝起来是什么味道的智者。