世界杯预测模型的方法与设计其它事件的模型相同,诀窍就是在预测中去除主观性,让数据说话。预测性数学模型几乎不算新事物,但它们正变得越来越准确。在这个时代,数据分析能力终于开始赶上数据收集能力,分析师不仅有比以往更多的信息可用于构建模型,也拥有在很短时间内通过计算机将信息转化为相关数据的技术。
几年前,得等每场比赛结束以后才能获取所有数据,现在,数据是自动实时发送的,这让预测模型能获得更好的调整且更准确。微软世界怀模型的成绩说明了其模型的实力,它的成功为大数据的力量提供了强有力的证明,利用同样的方法还可预测选举或关注股票。类似的大数据分析正用于商业、政府、经济学和社会科学,它们都关于原始数据进行分析。
我们进入了一个用数据进行预测的时代,虽然我们可能无法解释其背后的原因。如果一个医生只要求病人遵从医嘱,却没法说明医学干预的合理性的话,情况会怎么样呢?实际上,这是依靠大数据取得病理分析的医生们一定会做的事情。
从一个人乱穿马路时行进的轨迹和速度来看他能及时穿过马路的可能性,都是大数据可以预测的范围。当然,如果一个人能及时穿过马路,那么他乱穿马路时,车子就只需要稍稍减速就好。但是这些预测系统之所以能够成功,关键在于它们是建立在海量数据的基础之上的。
此外,随着系统接收到的数据越来越多,通过记录找到的最好的预测与模式,可以对系统进行改进。它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。一旦把统计学和现在大规模的数据融合在一起,将会颠覆很多我们原来的思维。所以现在能够变成数据的东西越来越多,计算和处理数据的能力越来越强,所以大家突然发现这个东西很有意思。所以,大数据能干啥?能干很多很有意思的事情。
例如,预测当年葡萄酒的品质
很多品酒师品的不是葡萄酒,那时候葡萄酒还没有真正的做成,他们品的是发烂的葡萄。因此在那个时间点就预测当年葡萄酒的品质是比较冒险的。而且人的心理的因素是会影响他做的这个预测,比如说地位越高的品酒师,在做预测时会越保守,因为他一旦预测错了,要损失的名誉代价是很大的。所以的品酒大师一般都不敢贸然说今年的酒特别好,或者是特别差;而刚出道的品酒师往往会“语不惊人死不休的”。
普林斯顿大学有一个英语学教授,他也很喜欢喝酒,喜欢储藏葡萄酒,所以他就想是否可以分析到底哪年酒的品质好。然后他就找了很多数据,比如说降雨量、平均气温、土壤成分等等,然后他做回归,最后他说把参数都找出来,做了个网站,告诉大家今年葡萄酒的品质好坏以及秘诀是什么。
当他的研究公布的时候,引起了业界的轩然大波,因为他做预测做的很提前,因为今年的葡萄收获后要经过一段的时间发酵,酒的味道才会好,但这个教授突然预测说今年的酒是世纪最好的酒。大家说怎么敢这么说,太疯狂了。更疯狂的是到了第二年,他预测今年的酒比去年的酒更好,连续两次预测说是百年最好的酒,但他真的预测对了。现在品酒师在做评判之前,要先到他的网站上看看他的预测,然后再做出自己的判断。有很多的规律我们不知道,但是它潜伏在这些大数据里头。
例如,大数据描绘“伤害图谱”
广州市伤害监测信息系统通过广州市红十字会医院、番禺区中心医院、越秀区儿童医院3个伤害监测哨点医院,持续收集市内发生的伤害信息,分析伤害发生的原因及危险因素,系统共收集伤害患者14681例,接近九成半都是意外事故。整体上,伤害多发生于男性,占61.76%,5岁以下儿童伤害比例高达14.36%,家长和社会应高度重视,45.19%的伤害都是发生在家中,其次才是公路和街道。
收集到监测数据后,关键是通过分析处理,把数据“深加工”以利用。比如,监测数据显示,老人跌倒多数不是发生在雨天屋外,而是发生在家里,尤其是旱上刚起床时和浴室里,这就提示,防控老人跌倒的对策应该着重在家居,起床要注意不要动作过猛,浴室要防滑,加扶手等等。
说明:用大数据预测思维方式来思考问题,解决问题。数据预测、数据记录预测、数据统计预测、数据模型预测,数据分析预测、数据模式预测、数据深层次信息预测等等,已转变为大数据预测、大数据记录预测、大数据统计预测、大数据模型预测,大数据分析预测、大数据模式预测、大数据深层次信息预测。