海外网2月24日电
英国《金融时报》2月24日刊登题为《大数据处理的局限》的文章,全文摘编如下:
周一,法国南部又在下雨。
不过,此前一天却是晴天。
上周三也很干燥,但随后的周四到周六差不多一直在下雨。
让人稍感安慰的是,对于暴风雨和晴天之间的时间间隔,几天前就已有了精确的预报。这正是我为何在周一而不是前一天写这篇专栏文章的原因。如今天气预报的准确性已经大大改善了。
英国广播公司(BBC)再一次公布了其历史上最糟糕的那次天气预报。1987年,迈克尔·菲什(Michael Fish)曾在电视上向观众保证,飓风即将到来的谣言是毫无根据的。然而,几小时之后,几十年不遇的大风席卷了整个英国,掀翻了各地的屋顶,吹倒了许多大树。
不过,现在出现这种乌龙的可能性小多了。短期天气预报是大数据领域的一项巨大成就—也许是最大的一项成就。超级计算机提供了大数据处理的机遇,其所处理数据集合的规模和复杂度都令人难以置信。据我所知,最新的超级计算机能处理1EB(艾字节,指2的60次方字节—译者注)的数据,大约是我手头这台苹果公司(Apple)的Mac机处理能力的2000万倍。英国气象局(British Meteorological Office)声称,比起菲什那个年代最成功的预报,如今的三天期天气预报和当时的一天期预报一样准—不过,要想描述预报能力的提高程度,这可能不是一种最令人信服的方式。
然而,一个依然存在的事实是,预报时间提前得越多,预报准确度下降得越厉害。天气预报人员能向我们提供今明两天足够准确的预报。对于更长时间,他们仍然不能准确预报。两者之间形成了鲜明对比。比如,今年冬天异常的天气状况就在预料之外。
预报短期的天气状况是可能的。这是因为从某种意义上说,决定明天天气状况的多数因素已经出现了。如果你去YouTube网站上看看菲什那次灾难性预报的视频,你会在他给出的图上看到引发1987年飓风的超低气压区。当时的预报员只是在分析现有数据时出了错。只要提高分析能力,这种错误出现的可能性就会降低。不过,如果你预测的时间更提前一些,你会遭遇一个难以应对的问题:在非线性系统中,如果初始条件发生细微变化,时间过得越久,结果发生的变化就越大。在这种情况下,对初始状况了解得不够全面根本就和一无所知是一回事。
这个道理在很大程度上对经济和商业领域也是适用的。就像明天下不下雨或1987年飓风的问题一样,对于明天的国内生产总值(GDP)将是多少的问题,答案或多或少已经摆在了那里:明天的产品已在生产之中,明天的商品已摆上货架,明天的业务已安排妥当。大数据处理将有助于我们分析这类信息。借助大数据处理,我们将更准确、更迅速地知道GDP是多少,我们将能更成功地预测下季度的产出,我们的前景预测需要调整的次数将会更少。
在大数据处理的帮助下,对冲基金经理人将能在英国国家统计局(Office for National Statistics)自己都不知道统计数字之前,准确预测出他们将发布什么样的数据。实现这一目标能为他们自身带来极大的盈利能力,但对社会来说没什么用。大数据处理能令他们得到非常全面的信息,其全面性不亚于英国央行货币政策委员会(MPC)调整利率时手头持有的信息。不过,大数据处理无法帮助他们了解货币政策委员会将做出何种决策。也无法帮助他们了解美国财政部长汉克 鲍尔森(Hank Paulson)和雷曼兄弟公司(Lehman Brothers)首席执行官迪克 富尔德(Dick Fuld)对于该行即将出现的破产将如何应对。
大数据有助于我们理解过去和现在。然而,它能在多大程度上帮助我们理解未来,要取决于未来在多大程度上通过某种相关性被包含在现在之中。这种相关性要求事件背后的运转机制恒定不变。对于部分物理过程来说,这一原则是成立的。而对于这个包括了希特勒(Hitler)和拿破仑(Napoleon)、亨利 福特(Henry Ford)和史蒂夫 乔布斯(Steve Jobs)的世界来说,这一原则永远都不成立。在这个世界里,那些做出重大决策或发现的过程拥有先天的不可预测性,也无法进行定量描述。
在这个世界里,少一枚钉子也能输掉一场战争,问题描述中的细微差别也能导致大相径庭的结果。对于这样的世界,以上原则也是不成立的。不过,在大数据处理的帮助下,我知道明天将再一次阳光普照。
译者/简易