今年有一句流行语“在大数据面前,你连底裤都不剩”。而足球绝对是世界上运用大数据最领先、最成功的领域。就在刚刚结束的巴西世界杯,包括百度、微软等互联网巨头纷纷透过大数据业务,预测出了相当部分球赛结果。有人甚至大胆评价:在大数据面前,互联网公司完胜高盛、德银为代表的华尔街。2014年世界杯将成为一个新起点:大数据业务正式从单纯的技术走入日常生活的实际应用。
用什么模型很关键
今年世界杯没有“章鱼帝”,但有央视美女主持“乌贼刘”和大数据公司的“对赌”。最终理工男设计的数学模型打败了央视美女的好运气,央视体育频道主播刘语熙在预测中败给了百度。
据记者了解,2014年巴西世界杯期间,百度,微软、谷歌等国内外技术巨头和大投资银行高盛、德意志银行乃至彭博等,均推出了大数据预测。
互联网公司方面,除了雅虎,几乎全面大胜。百度、微软、谷歌预测正确了全部的16强(谷歌只预测了八强),以及八强;微软、百度对了全部的四强,谷歌在四强的预测中惜败;在半决赛中,百度和微软甚至还准确预测了巴西对德国的赛果。而本来一向预测准确的雅虎,今年被认为为推广业务而乱用模型,才导致预测结果错误大半。
相反,高盛、德银和彭博三家传统的华尔街公司则错得离谱。今年高盛世界杯报告的出品人是大经济学家凯文·戴利(Kevin Daly),他带领高盛的量化分析师建立了自1960年以来正式国际足球比赛数据的模型,对其进行回归分析。但高盛的八强预测错了三个(哥斯达黎加、比利时和哥伦比亚),四强错了一个(西班牙),小组赛的赛果正确率只有37.5%。
彭博的方法与高盛类似,是在各国国家队FIFA积分的基础上,模拟了1万次比赛结果,结果也与高盛类似,彭博认为西班牙会在和阿根廷打平后点球进入决赛,最终输给巴西,但实际情况则是西班牙早已回家。
德意志银行的模型更离谱,它的模型据说综合了FIFA排名、历史战绩、球员构成和赌球赔率等因素,计算结果是巴西无缘8强,而英格兰将夺冠。
今年或成大数据元年
业内分析认为,受云计算能力的局限,高盛、德银、彭博为代表的华尔街公司采用的数据并不够庞大,是导致他们计算错误的主因。其实回顾往届世界杯,几大投行的预测都是瞎猜。上一届大摩说英格兰会夺冠,瑞银说意大利能进四强,与实际结果均差距甚远。
“大数据最缺的不是技术,而是应用。”艾媒咨询董事长张毅说。而业内普遍认为,随着对大数据业务的发掘,2014年世界杯将成为国内大数据业务正式成熟的起点。
据百度相关人士介绍,目前,百度大数据已经在旅游、教育、赛事产业进行了多次尝试,部分产品有望在年内实现商业化。继世界杯之后,百度大数据预测还将相继推出票房预测、房地产预测、金融预测、中小企业指数预测等一系列产品,并在9月中旬的时候推出预测开放平台,最大程度地开放百度在大数据领域的数据和技术能力,推动整个大数据行业的快速发展。百度还刚刚从谷歌大脑挖来了人工智能三位顶级专家之一吴恩达,并宣布“百度大脑”已经达到2~3岁智力。
世界杯预测准确率
百度:预测在16场世界杯淘汰赛,仅在3、4名决赛中失手,最终取得16场15中的成绩,预测准确率为93.75%。而今年频频爆冷的小组赛阶段,百度对比赛结果的预测准确率也达到了58.33%。
微软:微软成功预测出世界杯淘汰赛16场比赛全部胜负结果。它甚至在巴西对德国半决赛之前,就预言到德国人将在巴西人主场横扫主队。而今年频频爆冷的小组赛阶段,微软得出56.25%的准确率。
高盛:高盛预测巴西将捧杯笑到最后,现在我们看当然知道高盛的预测错得离题。经计算,高盛对本次世界杯的预测准确率只有34%。
观点
大数据不可尽信
有本地经济学者则向记者表示,大数据系统再强大,也无法避免“黑天鹅”事件的出现。经济学博士陈龙认为,由于世界杯这种顶尖赛事,球员都是最顶级的球员,发挥失常的概率非常低,大数据才有可能配备上用途。“但如果是更复杂的经济估算,大数据系统失败的风险就高得多。”
“实际上每一场国际足球赛背后都有巨大的赌博集团在操控,大数据不能全信,否则你会输得很惨。”有本地资深球迷则向记者表示。