语音识别距人类只差0.4%?

  大数据。得益于互联网、社交媒体、移动设备和廉价的传感器,这个世界产生的数据量急剧增加。大数据是人工智能发展的助推剂,这是因为有些人工智能技术使用统计模型来进行数据的概率推算,如语音识别,通过数据的海洋中丰富的语料,使得技术不断优化。

  新算法。算法是解决一个设计程序或完成任务的路径方法。在一个完整的工业界语音识别系统里,最关键的是深度学习算法,还有很多工作是专业领域相关的算法,以及海量数据收集和工程系统架构的搭建。这些算法本身很重要,同时也是其他技术的推动者,比如机器学习算法Google的TensorFlow目前就被开源使用。

  可以说,任何技术都有蓄能阶段和爆发阶段,人工智能包括语音识别技术的爆发都得益于以上条件。这也不难理解,从语音识别来看,它是需要经验、数据和用户反馈共同作用来提升表现的。需要利用用户的反馈总结出一些特点。

  谷歌是最早在全球范围内大规模使用深度学习算法的公司,也最早开创了用互联网思维做语音识别。在这方面,科大讯飞受到谷歌的启发,迅速跟进成为国内第一个在商用系统里使用深度学习的公司。

  现有成绩和待解难题一样多

  语音识别技术已经发展了几十年,因为大数据和深度学习的应用,这一领域的传统强者成了谷歌、亚马逊、苹果和微软这些美国科技巨头,据统计,美国至少有26家公司在开发语音识别技术,而中国则有近50家公司研究这一领域。

  尽管谷歌这些巨头在语音识别技术上的技术积累和先发优势让后来者似乎难以望其项背,但因为一些政策和市场方面的原因,当然也有部分原因是中文的复杂程度高于英语,所以国际巨头的语音识别主要偏向于英语,中文领域的语音智能机会则留给了科大讯飞、百度、搜狗等中国公司。在国内,这些本土化产品更为用户所熟知。

  中文领域的识别难度在哪里?举个简单的例子,鲁迅《孔乙己》中的孔乙己之问:茴香豆的“茴”有几种写法?或者一个更有时代感的案例,如何形容物流很快?据说,在汉语里回答这个问题竟然至少有3600种说法,比如第二天就到了、物流很给力、给快递点赞等不尽其详。尽管语音识别在近些年来取得了巨大的进步,但其实仍然还有很多的工作要做。

  此外,还有确保语音识别能在更为真实生活的环境中良好地工作。这些环境包括具有很多背景噪声的地方,比如聚会场所或在高速路上驾驶的时候;还有在多人交谈环境中将不同的说话人区分开。

  还有一个更深层次的难题是,如果需要实现人机对话、人机写作,不只是需要用机器转录来自人类嘴巴的声音信号,更要理解人们所说的话。

  从语音识别来看,下一个前沿是从识别走向理解,真正的人工智能仍然还在遥远的地平线上,在机器能理解其所听到或看到的事物的真正含义之前,还需要很长时间的工作,有很长的路要走。

 

  或许也可以说,我们正在从一个人类必须理解计算机的世界,迈向一个计算机必须理解我们的世界。亚里士多德曾说过,如果机器能干很多活,岂不能让人类解放出来,或许这一解放的起点就是“理解”。