概述
Patterns and Predictions(P&P)是一家预测分析公司,其核心技术提供非结构化和语义驱动的预测。正是该技术为Durkheim项目的“大数据”分析网络提供了用于评估心理健康风险的技术支撑。Patterns and Predictions(P&P)公司的合作伙伴包括彭博(Bloomberg)、达特茅斯的盖瑟医学院(The Geisel School of Medicine at Dartmouth)、Cloudera和Attivio。其客户包括全球100强大型公司。该公司的主要合作伙伴Chris Poulin,是该公司核心Centiment®技术的共同发明者,Centiment®是一种提供非结构化和语义驱动预测的技术。
Durkheim 项目是为了纪念法国社会学家David Émile Durkheim在1897年出版的书籍《自杀论(Suicide)》而命名的,在该书中其最早定义了自杀风险的文本分析,并且提供了与社会脱节相关的重要理论解释。该项目遵循其Durkheim的研究方向,即Durkheim所称的自杀的“特性” – 指向自杀风险的具体模式和线索。而Durkheim 项目具有一个创始社会学家未曾拥有的有价值的工具,即技术。
面临的挑战
自杀多年来一直困扰着美国军方。如今,这种无处不在的战争后遗症对于美国社会来说,是一场长期且无处不在的战争,并且令人震惊的是伤亡率仍在持续增加。在很多文章中都提到了这一问题,其中美国《时代(Time)》杂志报道说,2012年全年美军达到了创纪录的349例士兵自杀事件,远远超过了美军同期在阿富汗战死的士兵数。士兵自杀的比例大约是美国一般民众中成年人的两倍。
在《2012年自杀数据报告》中,美国退伍士兵事务部(VA)指出,“关于退伍士兵自杀风险的特征和结果的信息对于改善自杀预防计划的制定是至关重要的。”
Durkheim 项目旨在提供这一重要信息。凭借其强大的高级分析、实时预测建模和机器学习协同工作功能,该项目寻求确定退伍士兵的沟通和自杀风险之间的关键相关性,Fast Company 称赞其为我们所见过的“对大数据最重要的使用”。
关键要点
行业
• 政府
• 医疗保健和生命科学行业
地理位置
• 美国新罕布什尔州普茨茅斯
支持的业务应用
• 识别自杀风险因素的预测分析
影响
• 实时沟通和自杀风险之间的准确的、语义驱动的相关性
• 基础架构提供了更低的成本,更好的计算吞吐量,并降低了IT 支持的复杂性
使用的技术
• Hadoop 平台:CDH
• Hadoop 组件:Cloudera Impala和Cloudera Search
• 服务器:Cray grid、Amazon EC2
• 分析工具:Patterns and Predictions Centiment®;Attivio
大数据规模
• 每天实时处理超过1TB 的作业
• 实时支持高达100,000 名现役和退伍士兵
解决方案
第一阶段
Durkheim 项目于2010年开始设立,该项研究最初由达特茅斯学院(Dartmouth College)发起,并且P&P 和Poulin 都参与了该项研究。Poulin 及其专家是该项目的多学科协作团队的关键成员,其中还包括人工智能领域的专家,以及来自私人公司、达特茅斯盖瑟医学院(Dartmouth’s Geisel School of Medicine)和VA 的医疗专业人员。
该项目的第一阶段开始对三个实验组进行研究,每个实验组包含100 名受试者,分别代表“非精神失调”、“精神失调”和“自杀阳性”状态。研究人员开发了语义驱动的预测模型,从非结构化临床诊治记录数据中预估可能的自杀风险。
2011 年,P&P 开始引入该技术,并建立了综合性的基础架构和预测模型,在经过系统扩展之后可以支持该项目海量的数据收集和分析工作。此外,Apache
Hadoop 等分布式技术为高效和高度可扩展的大数据平台提供了适宜的解决方案;但是该项目需要一个轻量级的机器学习框架,该框架可以在Hadoop 上运行并能检测大规模的实时风险。
Poulin 解释说:“大多数大数据机器学习解决方案的精确度都很低,或者在实施以及与我们现有环境的集成方面非常复杂。”
Cloudera 公司在Hadoop 和大数据领域的领导地位和丰富的专业知识使Poulin 能够充分利用Cloudera 专业服务共同开发贝叶斯计数器(Bayesian counters),这是一个基于Apache HBase 和市场主流的100%开源CDH(Cloudera’s Distribution Including Apache Hadoop)基础上,能够大规模检测风险的轻量级统计模型。基于Cloudera 的框架体系是Durkheim 项目的技术基石。