昔日的AI老大哥 IBM Watson现在被看作笑话了?

并不是说IBM沃森没有问题,事实上,它的问题比任何其它的项目都要大。

到底是什么使得研究受挫?首先你要深入理解机器学习系统(比如沃森)的训练方式。沃森持续对内部处理流程进行微调,从中学习经验,这样一来解决某些问题时获得正确答案的概率就会提高。正确答案必须是已知的,这样系统才会知道什么时候对了,什么时候错了。系统处理的训练问题越多,结果就会越好。

要训练系统在X线中识别恶性肿瘤还是比较简单的。如果解决的谜题大大超出人类的已知范畴,比如了解基因变异与疾病的关系,沃森就会显得无能为力,它会碰到“鸡与蛋”的问题:数据没有经过专家的筛选,没有有效组织过,如何用这样的数据训练系统呢?纽约斯隆-凯特琳癌症中心计算病理学家Thomas Fuchs解释说:“如果你正在训练自动驾驶汽车,任何人都可以给树、标志贴标签,这样系统就可以学习如何识别它。但是医学是一个特殊的领域,需要专家训练几十年,给信息贴上正确的标签,输入计算机。”

IBM希望沃森能够在一些领域做出贡献,其它企业的机器学习解决方案也是样打算的,在所有这些领域都有障碍存在。要训练沃森处理海量数据,从中挑选出少数与单个病人有关的重要信息,首先需要人亲自训练,用成千上万个案例训练。

例如,为了让沃森识别与疾病有关的基因,它需要成千上万的病历,这些病人患有特殊疾病,他们的DNA已经分析过。然而,要获得“基因-病历”结合的数据相当难。许多时候,数据并没有以正确的格式记录,或者根本不存在,又或者数据来自于几十个不同的系统,很难处理。

如果将更好的数据交给临床医生,就可以提高初级治疗水平。在日常的初级治疗过程中,当问题不太严重时医生如果错过了治疗机会,等到病情变得严重起来,病人进了急诊室或者让专家治疗,此时承受的痛苦会更大,成本也会大幅增加。IBM沃森健康首席医疗官Anil Jain说:“在健康方面花的钱有三分之一是不需要的。”人们认为,机器学习有机会解决这个问题。

诊断病人时,为了让医生得出更好的结论,沃森需要找到彼此的关联,也就是健康记录和健康社会决定因素的关系。这些因素包括:病人是否吸毒、饮食是否健康、呼吸的空气是否清新等等。唐认为,今天,几乎没有医院或者医疗实践从大量病人身上获得可靠的数据。部分是因为医生接受现代数据驱动型医疗实践方法的速度有点慢。克利兰夫诊所(Cleveland Clinic)的内科医生、卫生保健信息专家Manish Kohli认为:“卫生保健行业接受技术的速度很慢,真是让人尴尬。”

如果存在这样的数据,IBM一般会花钱购买。IBM收购了一些企业,比如Truven Health Analytics、Explorys和Phytel,它们都是处理大数据的企业,这些数据来自医院和病人群体。虽然与安德森癌症中心的合作终止了,IBM还是与其它机构达成了重要合作,进一步获得更多的病人数据。

与IBM合作的就有Atrius Health,它是一个网络,里面有将近900位内科医生,主要是初级护理内科医生,他们来自波士顿地区。合作的目标是为开发、测试以沃森作为基础的系统功能,从笔记、记录、文章中提取面向独立个体的关键信息。Atrius Health首席医疗官Joe Kimura说:“对于初级护理内科医生而言,提取所有相关信息是一项繁重的任务。”他还说,每一次访问数据都会增加,有了这样的系统数据会大幅增加,不需要按标准格式提交,检索很方便。

还有,病人病历中许多重要的笔记是以句子的形式存在的,传统IT系统无法识别。沃森使用了自然语言处理技术,这种技术当时是为参加 Jeopardy! 开发的,它可以从句子中提取意义。在理想的情况下,系统可以给内科医生提建议,给病人更好的帮助,省去不必要的护理。Kimura说:“病人臀部受伤,我们全心全意照看,为什么我们只关心这个?为什么不能提前预测,判断病人有跌倒的风险,让他们避免臀部受伤?我们要让护理朝着上游延伸。”

沃森健康还与纽约中央医疗中心(Central New York Care Collaborative)合作,这是一个州政府提供资金成立的机构,与6个国家大约2000个卫生保健提供商合作。合作的目标很明确:将急诊数量、再入院数量降低25%,有时病人已经获得批准出院,结果又因为相关的问题重新回医院治疗。合作还带来了大量的病人数据。