Siri 的流行充分唤起了人们对于语音识别的想象。在与个人生活紧密结合前,语音识别是难以达到这么火爆的程度的,准确率是最基本的一点,不过基于语义和情感交互才是语音识别的最为迷人的地方,当然,移动互联网的兴起也是这一流行趋势的引爆点。前几天,语音识别领先企业科大讯飞语音云发布, 同时随着Nuance 公司 Dragon 系列产品的流行,越来越多的产品开始支持语音控制,有理由相信,语音时代即将来临。
语音识别时代的条件已经具备
语音引擎
在语音识别方面,Nuance 是一家不可忽略的企业,作为 Siri 背后的技术支持,Nuance 拥有4000余项专利和专利申请,超过50亿部手机和7000万的车辆使用其技术,三分之二的《财富》100强公司依赖其解决方案。
Wolframalpha 虽然不是语音识别技术,但在语义识别方面,他是毫无疑问的先驱,同样也是作为 Siri 背后的搜索引擎,它对语音识别的意义十分重大。
在语音识别方面的研究,科大讯飞,IBM,贝尔研究所的成果也令人瞩目。
云计算能力
大量的机器学习才可能让语音引擎不断完善,云计算的超级计算能力让这点成为可能,商业化云平台的不断成熟,使基于云计算的语音识别不再困难。
智能设备
在 Android 和 iOS 的推动下,移动互联网迎来了爆发性增长,智能手机和平板电脑已经十分普遍,与 PC 相比,手持设备因为易携等优势,语音识别能得到更加生活化的应用,而这也就是语音识别得以广泛应用的基础。
高速网络
语音识别,速度对于用户体验毋庸置疑,高质量的语音识别依赖于高速网络,而这也将随着3G和4G网络的普及而被解决。
语音识别可能是巨变的开端
对 Google 等公司,Siri毫无疑问是一个威胁,在语音时代之前,普通搜索引擎是互联网的入口,但是在语音时代,人们已经有了更加方便和人性化的工具。影响虽然不是替代,但它代表了一种更方便的工作、生活方式,而这也将催生行业的变革。
Sherry Turkle,这位 MIT 的社科教授称,人类更加倾向于可以说话的设备,好像这就是他们的知心伴侣。相对于打字,语音来的更加便捷与精确,这种区别上所导致的影响,可能就像 Paul Ricci (Xerox 前执行官)所言,类似80年代鼠标和图形化界面对于电脑的影响。说话是人类的天性,但打字与技巧和熟练度有关,在一句话就可以解决问题的时代,为什么还需要辛苦的输入。
不仅对于搜索,对于汽车导航,甚至是飞机订票、呼叫中心等事宜都可以用语音识别技术来替代,Nuance 公司已经成功推出了一款用于航空客服的语音交互系统 Wally ,据纽约时报介绍,相当的用户辨认不出他们是在同机器对话,挂电话时甚至友好的说了谢谢。
语音控制,另一把科技双刃剑
语音识别可能带来颠覆性变革,但也会随之带来一些新的问题,同社交网络兴起一样,语音识别或许会产生一个问题:隐私。
每一次的语音识别请求,我们的声音都会被上传到到服务器分析,为了让语音识别系统更加准确,系统也必须学习,材料就是这些我们上传的语音。人声音的特质(声纹),就像是指纹一般独一无二,指纹和声音都是密码方面常用且重要的凭据,如果自己的声音数据被泄漏,信息安全得不到保障。在纽约时报对 Nuance 的报道中,Nuance 称在美国,除了联邦政府,他们拥有最大的声音信息数据量。同时,语音合成技术的成熟,也使得语音诈骗有存在的可能性,试想一个电话打来,听声音是自己的朋友,找自己借钱什么的,谁又能区别真假呢?汤姆·克鲁斯在《碟中谍3》中假扮霍夫曼时合成声音的以假乱真或许就成为现实。而科大讯飞在其招股书中提到,其中英文语音合成技术的自然度能超过真人发音水平(4.0分)。
在语音识别应用越来越广泛的时候,还有一个大的问题是不能忽视,那就是对机器的高度依赖对人的生理和心理所产生的改变,Pranav Mistry 在 TED 的演讲《第六感技术的惊异潜力》中提出了一个观点:科技的发展,不是要让人类越来越机器化,而是让人变得越来越人性化。科技能改善生活,但也存在道德和文化上的难题。