The pen was in the box.
这句话很好理解,如果让计算机理解它,做一个简单的语法分析即可。但是另一句话语法相同的话:
The box was in the pen.
就让人颇为费解了。原来,在英语中,Pen还有另外一个不太常用的意思--小孩玩耍的围栏。在这里,理解成这个意思整个句子就通顺了。但是,如果用同样的语法分析,这两句话会得到相同的语法分析树,而仅仅根据这两句话本身,是无法判定pen在哪一句话中应该作为围栏,哪一句话应该是钢笔的意思。事实上,人对这两句话的理解并非来源于语法分析和语意本身,而来自于他们的常识,或者说关于世界的知识(World Knowledge),这个问题是传统的人工智能方法解决不了的。因此,明斯基给出了他的结论,“目前”(指当时)的方法无法让计算机真正有类似人的智能。由于明斯基在计算机科学界崇高的声望,他的这篇论文导致了美国政府削减了几乎全部人工智能研究的经费。在机器智能的发展史上,贾里尼克是一个划时代的人物。1972年,当时还是康奈尔大学教授的贾里尼克来到IBM沃森实验室进行学术休假,并且担任起IBM研制智能计算机的工作。贾里尼克于是挑选了一个他认为最有可能突破的课题,即语音识别。
贾里尼克从来不是真正的计算机科学家,而他的专长是信息论和通信,因此他看待语音识别问题完全不同于人工智能的专家们--在他看来这是一个通信问题。人的大脑是一个信息源,从思考到合适的语句,再通过发音说出来,是一个编码的过程,经过媒介(空气或者电话线)传播到听众耳朵里,是经过了一个长长的信道的信息传播问题,最后听话人把它听懂,是一个解码的过程。既然是一个典型的通信问题,就可以用解决通信问题的方法来解决,为此贾里尼克用两个马尔可夫模型分别描述信源和信道。当然,为了训练和使用这两个马尔可夫模型,就需要使用大量的数据。采用马尔可夫模型,IBM 将当时的语音识别率从70%左右提高到90%以上,同时语音识别的规模从几百词上升到两万多词 (Jelinek, 1976),这样,语音识别就能够从实验室走向实际应用。 贾里尼克和他的同事在无意中开创了一种采用统计的方法解决智能问题的途径,因为这种方法需要使用大量的数据,因此它又被称为是数据驱动的方法。
贾里尼克的同事彼得∙布朗在1980年代,将这种数据驱动的方法用于了机器翻译 (P.F. Brown, 1990)。由于缺乏数据,最初的翻译结果并不令人满意,虽然一些学者认可这种方法,但是其他学者,尤其是早期从事这项工作的学者认为,解决机器翻译这样智能的问题,光靠基于数据的统计是不够的。因此,当时SysTran等公司依然在组织大量的人力,写机器翻译使用的语法规则。
如果说在1980年代还看不清楚布朗的方法和传统的人工智能的方法哪一个更适合计算机解决机器智能问题的话,那么在1990年代以后,数据的优势就凸显出来了。从1990年代中期之后的10年里,语音识别的错误率减少了一半,而机器翻译的准确性提高了一倍,其中20%左右的贡献来自于方法的改进,而80%则来自于数据量的提升。当然,这背后的一个原因是,由于互联网的普及,可使用的数据量呈指数增长。
最能够说明数据对解决机器翻译等智能问题的帮助的,是2005年NIST对全世界各家机器翻译系统评测的结果。
这一年,之前没有做过机器翻译的Google,不仅一举夺得了各项评比的第一名,而且将其它单位的系统远远抛在了后面。比如在阿拉伯语到英语翻译的封闭集测试中,Google系统的BLEU评分为51.31%,领先第二名将近 5%,而提高这五个百分点在过去需要研究7—10年;在开放集的测试中,Google51.37%的得分比第二名领先了17%,可以说整整领先了一代人的水平。当然,大家能想到的原因是它请到了世界著名的机器翻译专家弗朗兹·奥科(Franz Och),但是参加评测的南加州大学系统和德国亚琛工学院系统也是奥科写的姊妹系统。从奥科在Google开始工作到提交评比结果,中间其实只有半年多的时间,奥科在方法上没有做任何改进。Google系统和之前的两个系统唯一的不同之处在于,前者使用了后者近万倍的数据量。
下表是2005年NIST评比的结果。值得一提的是,SysTran公司的系统是唯一采用传统的语法规则进行机器翻译的。它和那些采用数据驱动的系统相比,差距之大已经不在一个时代了。
从阿拉伯语到英语的翻译 (封闭集)