威廉·库科尔斯基 William Cukierski
Kaggle 公司的数据科学家
效果最好的竞赛有哪些?
我最看好的一场竞赛叫“找鲸大赛”。竞赛中要寻找的鲸是生活在大西洋中的一种濒危种群。这些搜寻者拥有强大的网络,不间断地记录鲸发出的声音,他们也拥有自己的算法,且效果非常好。他们说:“要不我们把这些数据交给 Kaggle,看 Kaggle 有没有更好的解决方案。”他们最后实现了非凡的成果。目前,这些强大的网络能够以接近 99% 的准确率来侦测出鲸的声音。我认为,如果有人坐在纽约的办公桌前就可以从事与日常工作毫无相干且在万里之遥的一项工作,并为我们的日常生活带来巨大好处,这将是一项多么了不起的事情!
你们还在设法利用数据分析来进行癌症研究。Kaggle 是否组织过很多医疗相关领域的竞赛?
Kaggle 尚未在医疗领域涉足过多,主要原因是涉及泄露患者信息这个问题。另一个难题是拥有这些数据的个人和机构把数据囤积了起来,不愿分享。
制药公司拥有制药试验的数据,它们把这些数据压在了箱底。人们为了数据分享作了一些初步努力,也承诺在这方面展开合作,但结果还是各自都想保留自己手中的数据。从某种程度上说,主要还是担心隐私保护问题。你可能不会愿意把别人的基因组公开发布,然后大家都看出来这是家住主干道 232 号的萨利·斯密斯(Sally Smith)的基因组。不过,与此同时,这些担心也有些过度。对于这种问题,人们好像都在玩花招,说什么除非把数据直接交给你,不然你怎么能够远距离地利用数据解决问题呢?如果能消除这些顾虑,你就可以取得一些实质性的进展。
你们公司在举办人人都可以参与的竞赛,而有些占有数据的机构却牢牢抓着数据不放手。这是否是一个矛盾?
我在日常工作中面临的最大挑战之一是说服人们分享数据,并令其确信这么做不会威胁到其机构的生存。
经常情况下,不是说你占有了数据,数据就成为与生俱来的无价之宝,数据是需要挖掘和分析的。如果我们从一个机构拿到了一组数据,并将其公开,问题的解决方式是公开的,这不会产生什么问题,因为没有其他人有相同的数据,也没有人会再去获得并利用这些数据。
你认为,关于大数据的各种说法和观点,哪方面的失控最严重?
我必须纠正一下你的问题,应该是哪些方面没有失控。在与人们谈论大数据时,很难避免失控这个问题,也很难避免其老板的介入,同样难以获得老板支持地说“好吧,我们也做大数据吧”。我认为,人们在数据量方面有些失控。所以,经常有人会说,“我们有 10 亿兆的数据,我们有百万兆的数据。”许多问题可以在更小的数据规模上得到解决。比如,用输送带来筛选利马豆。销售利马豆的公司希望利用照相机来发现输送带上变质的利马豆。你可以想象,如果你能够发现一粒棕色利马豆,你就可以发现所有的棕色利马豆,而不需天文级别的数据来解决这一问题。我认为,95% 的问题适用于这个模型。剩余 5% 的问题的算法需要大量的数据,提供的数据越多,其方案的效果就越好。Netflix 向用户推荐电影就是最好的例证。