Thrun 找了斯坦福的两名学生帮他搞研究。学生们的首个任务就是创建一个“教学集”:这是一个庞大的图片库,机器可以通过对图片库的学习识别出恶性肿瘤。在网上搜索一番后,Esteva 和 Kuprel 找到了 18 个已经成型的皮肤损伤图片库,其中包含了近 13 万张有关痤疮、皮疹、虫咬、过敏反应和皮肤癌等疾病的图片,皮肤病专家将它们分为近 2000 种疾玻值得注意的是,这些图片库中有一个包含 2000 个病变的集合已经由病理学家切片检查过了,因而它们几乎可以算是已经确诊的了。
随后,Esteva 和 Kuprel 开始了对系统的训练,他们并没有依据规则对其进行编程,也没有教系统“ABCD”的顺口溜。相反,这套系统只是不断将图像和医生做出的诊断分类加入神经网络中。
Thrun 将这个神经网络的工作内容描述为:“如果用一个老旧的程序去识别狗狗,软件工程师可能会写一千行下定义的语句,比如如果它有耳朵,一个鼻子,并有头发,且不是一只老鼠等。事实上,这并不是孩子学会辨识狗狗的方法。孩子会先通过观察狗狗和大人的描述来学习相关的识别知识。如果她把狼当成了狗,家人会及时进行纠正,这时孩子就会改变最初的认识。机器学习算法就像小孩子,它能从已经标注好准确信息的训练集中汲取信息,随后再从中汲取狗的特征,接着它会自行用成千上万的图片进行对比测试并最终学会识别狗狗的方法,整个过程与孩子识别狗狗完全一样。”通过这个过程,系统学会了“实践知识”。
2015 年 6 月,Thrun 的团队开始通过“验证集”来测试机器从图像中都学到了什么。这次测试中共包含了 1.4 万张经过皮肤病专家诊断的图片(并不一定经过活检),机器的任务就是将这些图像分成 3 组:良性病变、恶性病变和非癌生长。结果显示,该系统的准确率达到了 72%。两位得到认证的皮肤病医生也一同做了测试,但他们的准确率却只有 66%。
随后,Thrun 师徒三人将研究扩展到了 25 位皮肤病学家,而这一次他们使用了一个黄金标准——约 2000 张经由活检证实的图像“测试集”,结果显示,医生们完全不是机器的对手,机器没有错过任何一个黑色素瘤。此外它还更加精确,不会将某个肿瘤错诊断为黑色素瘤。
“在论文中,其实还有个关于网络的关键问题没有重点强调。”Thrun 说道。在第一次涉足该领域时,Thrun 的团队用的还是个“很傻很天真”的神经网络,不过他们发现如果用的神经网络已经会识别一些不相关特征(比如狗和猫),它就会学的更快也更好,也许我们的大脑也遵循类似的原理。回想高中那些令人无语的枯燥训练,如多项式因式分解、动词变化和元素周期表,反而让人记忆更加敏捷。
在训练机器时,Thrun 的团队需要对图片进行处理。Thrun 希望有一天人们能通过智能机图片上传获得精确的诊断,不过这就意味着该系统必须适用于多种角度和照明条件。Thrun 也有担心,因为“在一些图片中,黑色素瘤的部位被用黄色记号笔标注了,因此他们必须将这些部位裁剪掉,否则 Thrun 的团队可能就是在教计算机如何识别图中的黄色标记。”
其实这难题古已有之:一个世纪前,德国公众就被聪明的 Hans 深深吸引了,这匹马靠的不是日行千里,而是可以做加减运算并用敲蹄子的方法给出答案。进行一番研究后人们发现,Hans 并不是什么聪明马,它只是能感受自家主人的表情和动作。当 Hans 回答正确,主人的表情和动作都会放松下来。因此,Hans 的神经网络并没有学会计算方法,它只是学会了阅读人类的肢体语言。“这就是神经网络的奇怪之处。”Thrun 说道。“你根本不知道它们用了什么数据,它们自己搞了个黑箱,内部的工作非常神秘。”
“黑箱”问题是深度学习的专属,这套系统并不是由医学知识和诊疗规定引导的,相反它会有效的进行自我教育,通过大量内部调整(类似于加强和减弱大脑中的突触连接),学会区分普通的痣和黑色素瘤。那么它到底如何确定某个病变部位是黑色素瘤呢?我们也没有答案,深度学习也无法解释原因,一切的内部调整和处理方式都在我们的监视之外秘密发生着。当然,这样类似的“黑箱”在我们大脑中也存在。当你控制自行车慢慢转向时,身体会自动向相反方向倾斜,笔者的女儿也知道这个技巧,但她做出这些动作时自己根本就不知道。黑色素瘤诊断机器必须从图片中看出所以然来,不过如果它不能将技巧告诉人类,会有什么影响吗?它就像微笑的知识之神,遇见这样的机器,你就能得以一窥动物感知人类心灵的某种方式:无所不知但却无法理解。