大数据到底怎么影响我们的生活

信息大爆炸的今天,不讨论大数据这个话题似乎就是跟不上时代。从医药到教育,再到其他各个领域,大数据充斥着现代社会的每个角落。而我们最关心的还是大数据最终将以什么样的形式,怎么样影响甚至改变我们的生活。来听听四位专家告诉你大数据到底有多少可能。

丹·瓦格纳 Dan Wagner

Civis Analytics 的创始人兼首席执行官

你曾经说过,希望用大数据解决全球最大的问题。你最想解决的问题是什么?

我们主要关注两个领域:教育和健康。在教育领域,我们专注于利用个人层面的数据,帮助客户发现那些申请和注册的大学低于其潜能的低收入学生,并帮助这些机构找到适当的方法,让这些孩子进入与其潜能相匹配的大学。

保险投保也是我们的目标之一,尤其是在《平价医保法案》刚开始施行的头几个月。我们主要致力于与多家机构合作,帮助它们找到没有医疗保险的民众,并让他们加入到医保计划中来。这是一项非常艰巨的工作,因为没有现成的无保险人员名册。你只能通过统计推断来完成这项工作。

最值得关注的问题之一是,保险如何从团体保险向个人保险发展,以及保险公司如何学会管理这一风险。我们正同几家机构合作,利用数据提前发现诸如心血管疾病等个体风险,提前了解病人面临的风险。

一旦发现有风险,你会增加投保人的保费吗?

你不能这么做。你只能根据诸如年龄等一系列精简变量来确定保单价值。因此,你不能根据上述风险来定价,但你需要管理这一风险。

你同奥巴马竞选团队合作时,大数据发挥了怎样的作用?

我们带来的最显著改变是在媒体方面。具体来说,就是利用尼尔森收视率来追踪竞选广告的投放和效果。透过收视率数据,你就好像看到了一张人口统计表,能从中了解到观众群的构成,例如是西班牙裔,还是女性。

我的做法是,根据我们计算得出的个人可说服得分来定义我们的观众。我们将这些数据与机顶盒数据相匹配。由此就能找到每一美元广告投放能带来最高可说服观众密度的电视栏目。有了这些数据,我们基本就能根据一个单一的标准来决定广告投放的优先顺序。这与人口统计学没有任何关系。只需明确哪些是我们在个人层面上确定的、要特别针对的观众群。这是一项非常艰巨的工作,但从文化角度来看,这种方法很适合我们的竞选团队,因为,奥巴马竞选的典型特征是,选民摇摆不定。

我们应当如何解决数据分析中的安全问题?

你必须非常重视这个问题。很多这类机构在收集信息,但我认为,其中很多机构都没有意识到什么是最高标准的数据安全操作。我们的很多工作都是在亚马逊云服务平台上完成的,这比你内部可能开发的东西要好得多,因为你可以利用亚马逊提供的很多网络协议。亚马逊的云计算服务算是该领域最好的。

大数据热潮中,我们可能犯的最大错误,或可能忽视的最重要问题是什么?

大数据热潮最令人遗憾的一点是,人们只考虑其过程,而没有考虑结果。有些时候,这股热潮有些盲目,在某种意义上,它只是将对数据计算能力增长的信念孤立地看作是一种解决问题的手段。你将如何运用这些未来真的能改善人们生活的数据?这是个大问题。

在日常生活中,你是如何应对信息过载问题的?

作为一个在互联网相关公司工作的人,我有很多时间是在网上。但我尽量缩短通过各类电子设备进行沟通的时间,并努力确保自己阅读大量书籍。

埃里克·谢德特 Eric Schadt

伊坎基因组织学和多尺度生物学研究所(Icahn Institute for Genomics and Multiscale Biology)董事

如何证明超级计算在医学研究中能发挥重要作用?

主要通过两种途径。一是管理当下医学领域产生的诸如 DNA 测序等海量数据。举例来说,一位癌症病人的全基因组序列会产生万亿字节之多的数据。想象一下,如果要为数十万人做基因测序,就会产生千万亿,甚至百亿亿字节量级的数据。要对这些数据进行管理并加以处理,使之转化为能被医界人员所用的信息,就需要超级计算设备和相关的专业知识。

另一个途径是,利用需要超级计算在短时间内完成的非常复杂的数学算法,根据已经存在的疾病亚型,以及治疗该疾病亚型可能的最佳方法建立一个疾病预测模型。

这使医生在治疗中的作用以及病人与医生间的数据关系发生了怎样的变化?