使用大数据预测退伍士兵的自杀风险

通过引入独立的统计指标(包括关键字组合、模式和其他语义线索),仔细分析来自各种退伍士兵数据库源的先前数据,对该紧密集成的系统进行“训练”。在训练后,机器学习功能可以识别出实际数据中的有用线索,并建立风险“得分”。

因为自杀是一种个体行为,而且倾向于自杀的个人往往在体态方面都保持良好,Poulin 解释说:“风险信号比较弱。当大规模部署该系统时,机器学习功能必须对大数据非常敏感。”

第一阶段的构建和测试工作于2013 年初完成。结果验证了该项目的机器学习数据结构是可行的,并且证实了其预测能力在预测退伍士兵控制组自杀风险中有65%的准确率。

“ 凭借Cloudera Search 和Impala,Hadoop 在数据撷取方面可以非常有效地降低成本,提高计算吞吐量以及降低IT 支持的复杂性。”

Chris Poulin,Patterns and Predictions 公司首席合作伙伴

第二阶段

Durkheim 项目的第二阶段于2013 年07 月启动,在Cloudera 公司的支持下,其重点关注的是针对不同类型的结构化和非结构化数据的“大规模自主性预测”的最终目标。同时,Facebook 在这一阶段加入了DARPA,通过推广自愿参与者的内容以支持项目的监控目的。

因为参与者目标数量为100,000 名退伍士兵,因此该数据肯定会非常“大”。选择参与该项目的退伍士兵会收到一个独特的Facebook 应用程序以及一个移动应用程序(iOS 或Android 系统),这些应用程序都旨在收集用户帖子、Tweets、手机上传数据,甚至是位置信息。这些应用程序还收集一些其它特性数据,包括医师信息和临床诊断记录。为了确保遵守各种隐私和HIPAA 法规要求,所有采集的数据都存储在达特茅斯盖瑟医学院装有医疗防火墙的安全环境中。

随着众多参与者的不断加入,该系统建立起了个人资料信息,并且盖瑟医学院的研究人员和临床医生都可以通过仪表板访问这些信息。该系统根据共性信息和针对每一位参与者特定的关键字为每一种特性都指定了总体风险评分。

对连续导入的大数据池使用文本分析可以提供指数级数量的变量,然后可以对其进行比较和分析,从而实现对参与者的心理健康的实时评估。Poulin 说到:“分析这些数据的计算处理需要建立一个大数据结构,但其带来的好处是可以获取更多的信息量。”

该项目的技术目标是“以最低成本实现最大速度”,这就促使了Cloudera Search 和Cloudera Impala 的采用。“该项目的工作流非常复杂,”Poulin 解释说,“我们所有的机器学习都建立了索引,我们实际上通过搜索接口访问了所有的机器学习,因此代价是非常昂贵的。凭借Cloudera Search 和Impala,Hadoop 在数据撷取方面可以非常有效地降低成本,提高计算吞吐量以及降低IT 支持的复杂性。”

Durkheim 项目第一阶段的实验结果预测了退伍士兵对照组中的自杀风险的精确度达到了65%,表现出显著的统计学意义。

影响力

由于自杀议题的复杂性和敏感性,加上美国军方面临的严峻形势,使Durkheim 项目受到各方的密切关注。因此,就此而言,“该项目的技术层面与社会工程相比来说要容易得多,”Poulin 说到,“如果一个人真的一心想自杀结束自己的生命,那么必须要具备足够的信息同时足够耐心温柔,帮助他/ 她找到更好的解决方法。”

尽管如此,Durkheim 项目仍然处于初始阶段,仅被美国军方授权用于监测和分析数据。虽然该项目已经提供了统计学上有效的结果,准确地预测退伍士兵控制组中的自杀风险,但是其关键研究结果(至少暂时)仍然受到非干预性协议的限制。通过使用Cloudera,Poulin 希望,该项目不断进步的风险分类器将有助于该项目建立实时评估风险的能力,以便他们能够应用于干预性研究。

Poulin 指出:“在这种情况下,大数据的目标承诺之一是可以缩短需要帮助的人和可以帮助他们的系统之间的距离。这就是我们奋斗的目标,并且我们希望继续与Cloudera 公司一起竭诚合作,矢志不移地向着成功前进。”