国外许多科幻大片,在描述未来人的生活的时候,语音方式的操控无处不在。比如美国队长中,神盾局的零头用语音操控模拟桌面、窗帘和电视;在钢铁侠中,男主说想喝咖啡,咖啡机就开始重开费;在碟中谍中,阿汤哥可以用语音来开灯和电视。
科幻片中这样的未来并非凭空想象,国内外的 IT 巨头已先后以智能家庭产品与语音相结合的方式进入智能家庭领域:谷歌收购 NEST 布局智能家庭,不断强化 Google Now 的语音入口;苹果 HomeKit 智能家居平台与 Siri 也不断加强融合;微软近期也发布语音助手 Cortana,为它在智能家庭领域扩展交互入口;国内的科大讯飞亦携手京东宣告双方将在智能家居和语音技术领域展开全面合作。从这些国内外科技大佬们对语音产业的重视和投入,可以看出智能语音与智能家庭的融合是大势所趋,业内普遍认为语音作为人类信息最自然、最便捷的交互方式,必将成为未来智能家居设备中的重要组成部分。
随着国内外巨头们对语音交互领域投入的增加,语音核心技术正逐步成熟,曾经的技术瓶颈亦在慢慢被突破。这其中语音识别技术是语音交互的基础与核心,「语音识别」技术相当于给计算机系统安装上「耳朵」,使其具备「能听」的功能。该技术经过语音信号处理、语音特征处理、模型训练及解码引擎等复杂步骤,使机器最终能够将语音中的内容、说话人、语种等信息识别出来。
*主流的语音识别系统框架图
了解了语音识别的基础内容和系统框架之后我们来看看,语音识别技术要在智能家居生活中真正实用,必须要过哪 5 关?
一、距离:远场识别技术打破距离瓶颈
近场识别技术目前已经比较成熟,现在手机上使用的语音输入功能就属于近场识别技术,用户必须在离手机比较近的距离内说话,但在智能家居环境中,用户和智能终端之间的距离被大大增加了,用户能随意用语音控制智能家居的一个必要条件就是在无论你在客厅哪个角落发出指令,设备都能准确的识别,语音识别技术必须突破距离的障碍。
目前室内的语音交互受到背景噪音、其他人声干扰、回声、混响等多重复杂因素影响,导致识别率低甚至无法使用,只能在相对安静、近距离的环境下使用。而远场识别技术将能够很好的解决这些问题。
目前的远场识别技术已经能够支持超过 5 米的语音识别,突破了语音交互距离瓶颈,大幅度改进了语音交互的自由度。该技术利用麦克风阵列的空域滤波特性——在目标说话人方向形成拾音波束(BeamForming),抑制波束之外的噪声,结合独特的去混响算法,最大程度的吸收反射声,从而达到去除混响的目的,用户在客厅的任意角落通过语音操控智能家电已成为现实。
二、效率:又快又准
近年来,随着深度学习理论的爆发式发展及其在语音识别领域获得的显著效果,同时 Kaldi 等开源语音识别工具也在工业界和学术界逐渐普及,语音识别的门槛持续降低,许多公司都具备了语音识别的能力及相关产品,但其实很多使用过 Siri 的国内用户都会有这样的感觉: Siri 的反应太慢,说出一句话往往要等待很久才能显示结果,另外,准确率也不高,离好用还有很远的距离。
要持续优化准确率和响应速度的问题,必须要在核心技术和产品特性上做出创新,目前国内领先的解决方案是在把深度神经网络技术引入语音识别的基础上,基于深度神经网络的语音增强算法对输入语音进行「识别关键信息无损」的降噪,通过海量训练语料基础上的高精度声学模型和语言模型训练,并结合极致的解码引擎工程技术,实现了在很小延迟的情况下,做到将去除原始语音的噪声干扰和识别几乎同时,大大提高了语音输入的响应速度和用户体验,最终实现在大词汇连续语音识别率上可以达到 95% 以上,命令词识别率达到 99% 以上,解码引擎可以在用户说完话 40 毫秒之内给出结果,真正实现「秒懂」。