今年会不会感冒?大数据告诉你!

“叮叮”手机响了,你拿起来一看,屏幕上红色的打字闪烁着“该地区已经有35人患有流感,请谨慎前往,做好必要防护措施!”如此智能的预测可能不再是梦。想知道今年冬天会不会感冒,什么时候得感冒吗?TwitterHealth可以告诉你!

TwitterHealth是纽约罗彻斯特大学发起的一个研究项目,可以通过分析用户的Twitter微博内容来预测用户会不会感冒。注意,他们仅仅分析微博内容!

这一项目原来只是给研究人员用作数据挖掘和机器学习系统用的,后来开发出了这一功能。罗彻斯特大学计算机科学系主任Henry Kautz说:“TwitterHealth是一个专门研究分析不同地理位置信息的项目,比如智能手机的GPS信息。”

Kautz说:“我们发现越来越多的社交媒体开始加入地理位置定位这一功能,人们在发Twitter微博的时候就会顺带上自己的地理位置信息。我们的研究小组就从网站上下载并研究此类信息。”

Kautz的学生建立起一个计算机网络,专门用来下载地理位置坐标为大城市的Twitter微博。然后他们开始从海量的大数据资源中挑选可用数据。

“我们发现,人们经常在Twitter微博中提到自己的健康状况。比如说‘我流鼻子了’、‘我感冒了’、‘我感觉不舒服’等。我们就设想,是否可以根据这些词句来跟踪季节性流感?”

于是研究团队开始拙手写机器学习算法,在几百条实验微博中挑选“感冒微博”。

最后团队的算法在挑选“感冒微博”时已经可以达到99%的准确率,几乎与人脑分析文本一致,而且“感冒”分析速度要快于美国本土最大的疾病控制中心。

“从大数据中,我们可以发现季节性流感的分布和传播,我们测量和预测的精度完全不输疾病控制中心。”Kautz说道。

TwitterHealth的极大成功也促使不少学生开始从事大数据和数据挖掘方面的创业。除了疾病传播趋势,他们想跟踪更多趋势。

Kautz说:“除了用于健康预测,还可以做更多有关商业的应用,比如说追踪最近的时尚潮流,追踪最火的网络歌手、网络段子等。”

但是Kautz还是重点提到了大数据在医疗卫生行业中的巨大潜力。“以往通过问卷收集医疗卫生数据又慢又贵。”他还提到了TwitterHealth对于抗击抑郁和自杀有一定帮助,可以在有自杀事件发生之前就提前预警。

Kautz说道:“通过分析大数据资源,我们可以发现用户是否会经过某一疾病多发街区,是否在流感病人吃过饭的餐馆就餐,因为在这些地方都有可能会增加得流感的机会。”

Twitter微博的内容是做大数据分析的良好数据来源,但是Facebook等社交网站可以看到更多隐私内容,但是也因为隐私设置的问题让数据获取成了问题。如果可以说服Facebook也使用TwitterHealth这样的服务,或者能够获得Facebook用户的状态、文章,这样TwitterHealth就可以服务更多人,减少疾病的发生。

TECH2IPO:这种方法完全可以移植到中国来。许多中国人都喜欢把自己的故事发到网上,比如“我今天吃了3两饭”、“我感冒了,好孤单”、“居然怀孕了”、“LV的包包不如Gucci的好”、“一师是个好学校”、“七颗石头换心愿”之类的内容,可以做饮食、健康、人口、消费、教育、情感类的分析,潜力还是非常大。但是也要考虑到很多虚假内容,比如说一个女孩子在别人的车中发微博说“还是凯迪拉克坐着舒服”这类的话,就会对数据分析造成很大的干扰。

文章来源:InformationWeek