大数据遭遇数据净化难题

卡里姆 科夏瓦杰是多伦多的一名医生和网络健康顾问,他要从500名医生那里反馈的海量数据中总结出怎样才能更好地治疗病人。但是众所周知,医生的“书法”本来就堪比天书,要想让电脑识别出其中的拼写错误和缩写更是难于登天。

比如科夏瓦杰指出:“患者是否吸烟是个很重要的信息。如果你直接阅读病历,你马上就能明白医生是什么意思。但是要想让电脑去理解它,那就只能祝你好运了。虽然你也可以在电脑上设置‘从不吸烟’或‘吸烟=0’的选项。但是一个患者每天吸多少支烟?这几乎是电脑不可能搞明白的问题。

由于宣传报道把大数据吹得神乎其神,因此很多人可能觉得大数据用起来特别简单:只要把相当于一整个图书馆的信息插到电脑上,然后就可以坐在一边,等着电脑给出精辟见解,告诉你如何提高自动生产线的生产效率,如何让网购者在网上购买更多的运动鞋,或是如何治疗癌症。但事实远远比想象复杂得多。由于信息会过时、不准确和缺失,因此数据不可避免地也有“不干净”的时候。如何把数据变“干净”是一个越来越重要但又经常被人忽略的工作,但它可以防止你犯下代价高昂的错误。

虽然科技一直都在进步,但是人们在净化数据上能想到的法子并不多。即便是处理一些相对较“干净”的数据,要想获得有用的结果往往也是件费时费力的事情。

博思艾伦咨询公司(Booz Allen)副总裁约什 沙利文说:“我对我的客户说,这是个混乱肮脏的世界,没有完全干净的数据集。”

数据分析师一般喜欢先寻找非常态的信息。由于数据量太巨大,他们一般都会把筛选数据的工作交给软件来完成,来寻找是否有些反常的东西需要进一步检查。随着时间的推移,电脑筛选数据的精确性也会提高。通过对类似案例进行分类,它们也会更好地了解一些词语和句子的含义,然后提高筛选的精确性。

沙利文说:“这种方法简单直接,但‘训练’你的模型可以需要一周又一周的时间。”

有些公司也提供了用来净化数据的软件和服务,其中既包括像IBM和SAP一样的科技巨头,也包括Cloudera和Talend开放工作室从事等大数据和分析的专门机构。一大批创业公司也想争当大数据的看门人,其中有代表性的包括Trifacta、Tamr和Paxata等。

由于“不干净”的数据太多,医疗业被认为是大数据技术最难搞定的行业之一。虽然随着电子病历的普及,将医疗信息输入电脑的难度已经变得越来越低,但是研究人员、制药公司和医疗业分析人士要想把他们需要的数据尽情地拿来分析,在数据上要提高的地方还有很多。

健康数据咨询公司InfoClin的医生兼CEO科夏瓦杰花了很多时间,希望数以万计的电子医疗病历中筛选有用的数据,以提高对病人的诊疗水平。但他们在筛选的过程中却不断遇到阻碍。

很多医生在病历中没有记录病人的血压,这个问题是无论哪种数据净化方法都修复不了的。光凭借现有病历的信息去判断病人得了什么病对电脑来说就已经是一项极其困难的任务。医生在输入糖尿病编号的时候,可能忘了清楚地标注究竟是患者本人得了糖尿病,还是他的某个家人得了糖尿病。又或许他们光是输入了“胰岛素”三个字,而没有提到患者得了什么病,因为这对他们来说是再明显不过的事情。

医生用来诊断、开药和填写病人基本信息时会大量用到一套独特的速记字体。即使让人类来破解它也要大为头痛,而对于电脑基本上是不可能完成的任务。比如科夏瓦杰提到有个医生在病历中写下“gpa”三个字母,让他百思不得其解。好在他发现后面不远处又写着“gma”三字,他才恍然大悟——原来它们是爷爷(grandpa)和奶奶(grandma)的缩写。

科夏瓦杰说:“我花了好半天才明白它们到底是什么意思。”

科夏瓦杰认为,解决数据“不干净”的终极方法之一是要给病历制定一套“数据纪律”。要训练医生养成正确录入信息的习惯,这样事后净化数据时才不至于乱得一团糟。科夏瓦杰表示,谷歌有一个很有用的工具,可以在用户进行输入时告诉他们如何拼写生僻字,这样的工具完全可以添加到电子病历工具中。电脑虽然可以挑出拼写错误,但是让医生摒弃不良习惯才是朝着正确的方向迈出了一步。