在国际会议上,翻译人员是人们熟悉的,但翻译机器人就鲜见了?日前,在国际计算语言学联合会2015年年会(ACL-2015)的终身成就奖颁奖互动环节上,来自百度公司的机器人“小度”,就担任起了这样的角色。
“我们想进一步把人和计算机联系起来,就要对人的自然语言进行处理。”说这话的正是“小度”翻译的服务对象,来自哈尔滨工业大学的教授李生。作为第一位获得“ACL终身成就奖”的中国学者,李生长期致力于机器翻译、句法语义分析、信息检索等自然语言处理及相关方向的研究。
中国自然语言处理走过了哪些历程?发展如何?未来又将走向何方?为此,记者对李生及相关研究人员进行了专访。
中文自有“特殊性” 信息处理“特别难”
国内生产的智能翻译机器人“飞飞”。
1947年,美国数学家、工程师沃伦·韦弗提出了以计算机进行翻译的设想,机器翻译从此步入历史舞台。上世纪50年代,机器翻译研究持续走俏,美、苏等国家均出现了研究热潮。
与此同时,机器翻译的研究工作在中国也逐步展开。据李生介绍,1959年中国演示了第一部机器翻译系统,可将9种俄文句型译成中文。1985年,李生团队研制出汉英机器翻译系统CEMT-I,成为我国第一个通过技术鉴定的汉英机器翻译系统。
自然语言相对于形式语言而言,后者是人类设计出来的、可为数学和计算机处理的标准化语言,而自然语言即人类所说的话语。机器翻译作为自然语言处理的重要领域,涉及数学、语言学、计算机科学等多个学科。“对自然语言的处理包括分析、理解及转换生成等任务。”李生介绍,“比如对语言词法、语法、语义、情感、主题的研究就属于分析和理解;而翻译、文摘等则属于语言的转换生成。”
让原本只认识“0”和“1”的计算机去理解和处理人类的语言有多难,作为中国中文信息学会理事长的李生对此深有体会,他举了两个例子:“别人对你说‘你可真行’,那么他是在夸奖你,还是在责怪你?这需要基于特定的语境才能分析出来;反过来,一种意思也会有多种表达方式,比如说‘我饿了’和‘我的肚子咕咕叫了’字面表达虽不同,意思却是一致的。”
“中文的传统文化积淀很深厚,使得话语往往有更深层的含义。如果不联系语境,很易产生歧义。”百度公司自然语言处理部高级研究员赵世奇对此表示认同。他表示,“英文是偏结构化的语言,而中文是自由的线性语言”,因此中文在信息处理上有一些“特有”的难题,比如自动分词、句法分析、歧义消解等。
词是表达语义的基本单元,分词就是将一句话或短语切分成一个一个单独的词语。李生以英文作比较,“英文中,单词以空格分开,而中文词语却没有形式上的分界符,也没有形态变化,这都增加了处理的难度。”此外,在语音层面,汉语中存在大量同音字词,又包含复杂的声调系统和变音变调现象,这都给语音识别带来了困难。
中国学人在努力 发展驶入“快车道”
近年来,自然语言处理研究持续走热。统计数据显示,本次年会收到的论文数量比上一届增长了17%,为史上之最。其中,来自中国的论文数量超过总量的20%,仅次于美国。
值得一提的是,在本届年会上,李生被授予“ACL终身成就奖”。而在此之前,百度技术副总裁王海峰于2013年1月正式出任ACL主席,成为该组织50年历史上第一位华人主席。
“自然语言处理每个方向上都有很多优秀的学者在努力,这也是该领域可以愈发繁荣的原因。”李生表示,这些年中国的自然语言处理发展很快,在中文处理上已经走在了世界前列。
据赵世奇介绍,10年前能在ACL这类顶级国际会议上发表论文的中国学者还屈指可数。“10年间,中国在自然语言处理的各个方向上都取得了非常显著的发展,无论是研究水平,还是研究人员和学生的能力,都是今非昔比。”