Google 51.31%
南加州大学 46.57%
IBM沃森实验室 46.46%
马里兰大学 44.97%
约翰∙霍普金斯大学 43.48%
……
SYSTRAN公司 10.79%
从中文到英语翻译 (开放集)
Google 51.37%
SAKHR公司 34.03%
美军ARL研究所 22.57%
表1 2005年NIST对全世界多种机器翻译系统进行评比的结果
到了2000年之后,虽然还有一些旧式的学者死守着传统人工智能的方法不放,但是无论是学术界还是工业界,机器智能的主流方法是基于统计或者说数据驱动的方法。与此同时,另外两个相关的研究领域,机器学习和数据挖掘也开始热门起来。
2012-2014年,笔者曾经负责Google的机器问答项目,并且通过使用大数据,解决了30%左右的问题,这远远超过了学术界迄今为止同类研究的水平。究其原因,除了Google在自然语言处理等基础算法上做到了世界领先之外,更重要的是,Google将这个过去认为是存粹自然语言理解的问题变成了一个大数据的问题。首先,Google发现对于用户在互联网上问的各种复杂问题,有70-80%左右的问题可以在前十条自然搜索结果(去掉广告、图片和视频等结果)中找到答案,而只有20%左右的复杂问题,答案存在于搜索结果的摘要里。因此,Google将机器自动问答这样一个难题转换成了在大数据中寻找答案的摘要问题。当然,这里面有三个前提,首先答案需要存在,这就是我们前面讲到的大数据的完备性;其次,计算能力需要足够,Google回答这样一个问题的时间小于10毫秒,但是需要上万台服务器同时工作;最后,就是要用到非常多的自然语言处理算法,包括对全部的搜索内容要进行语法分析和语义分析,要能够从文字的片段合成符合语法而且读起来通顺的自然语言等等。其中第一个前提是只有Google等少数大公司具备,而学术界不具备,因此这就决定了是Google而非学术界最早解决图灵留下的这个难题。
图 3 Google自动问答(问题为“天为什么是蓝色的?”,问题下面是计算机产生的答案)
由此可见,我们对数据重要性的认识不应该停留在统计、改进产品和销售,或者提供决策的支持上,而应该看到它(和摩尔定律、数学模型一起)导致了机器智能的产生。而机器一旦产生了和人类类似的智能,就将对人类社会产生重大的影响了。
2.大数据(Big Data)的本质
机器智能离不开数据,那么大量的数据和现在大家所说的大数据是否是一回事呢?如果不是,它们之间又有什么联系和区别呢?
毫无疑问,大数据的数据量自然是非常大的,但是光是“量”大还不是我们所说的大数据。比如过去国家统计局的数据量也很大,但是不是真正意义上的大数据。这两者的差别我们可以从三个方面来看。
首先,大数据具有多维度性质,而不同维度之间有着天然的(而非人为的)联系。为了说明这一点,我们不妨看一个实际的例子。
2013年9月份,百度发布了一个颇有意思的统计结果《中国十大“吃货”省市排行榜》。百度没有做任何的民意调查和各地饮食习惯的研究,它只是从“百度知道”的7700万条和吃有关的问题里“挖掘”出来一些结论:
在关于“什么能吃吗?”的问题中,福建、浙江、广东、四川等地的网友最经常问的是“什么虫能吃吗”,江苏、上海、北京等地的网友最经常问“什么的皮能不能吃”,内蒙古、新疆、西藏,网友则是最关心“蘑菇能吃吗”,而宁夏网友最关心的竟然是“螃蟹能吃吗”。宁夏的网页关心的事情一定让福建的网友大跌眼镜,反过来也是一样,他们会惊讶于有人居然要吃虫子。
百度做的这件小事其实就是大数据的一个典型应用。它有这样一些特点。首先,它的数据量非常“大”。第二,这些数据维度其实非常多,它们不仅涉及到食物的做法、吃法、成分、营养价值、价格、问题来源的地域和时间等等,而且里面包含了提问者的很多信息,互联网的IP地址,所用的计算机(或者手机)的型号,浏览器的种类等等。这些维度也不是明确地给出的(这一点和传统的数据库不一样),因此在外面人看来,这些原始的数据是“相当杂乱”,但是恰恰是这些看上去杂乱无章的数据将原来看似无关的维度(时间、地域、食品、做法,成分,人的身份和收入情况等)联系了起来。经过对这些信息的挖掘,加工和整理,就得到了有意义的统计规律。