语音识别的痛点在哪,从交互到精准识别如何做

  支持连续的语音唤醒是必须。在传统的语音唤醒方案中,是一次唤醒后,进行语音识别和交互,交互完成再进入待唤醒状态。但是在实际人与人的交流中,人是可以与多人对话的,而且支持被其他人插入和打断。AIUI中语音唤醒采用BN(Bottle Neck)技术方案,支持低功耗的待机。

  全双工交互作为一个持续的交互过程,语音识别和语义理解,需要能够做出快速的响应。这就需要人声检测和智能断句。传统的断句是基于能量的检测来判定,但是有两个主要缺点,一是无法过滤噪音和无效的语音,另外就是对说话人的要求较高,中间不能有停顿。如果后端点设置的太短,容易造成截断;后端点太长,又会造成响应不及时。

  AIUI的做法是,采用基于模型的有效人声智能检测和基于用户意图的动态语音端点检测。基于模型的检测可以有效解决噪音和无效语音。这块主要是通过采集不同环境的噪音,基于深度神经网络的训练出对应声学模型,进行过滤,把有效的语音传送到云端进行交互。

  动态端点检测算法实现从连续输入的数据流中检测出包含完整用户意图的语音送入语义理解模块,可以很好的解决用户的停顿,因为在人机的交流过程中,在一句包含完整意图语音中,停顿是很常见的现象,这在我们对用户的行为分析中得到验证。

  另外在持续的语音交互过程中,必然会有无效的语音和无关说话内容被吸收进来,所以拒识是必须。在AIUI系统中,我们针对全双工交互中的这个问题,专门构建了一套基于深度神经网络的拒识系统,从声学信号、语义等多个方面对接收的语音进行拒识判断。

  多轮交互

物联网

  同样的,对于多轮交互中的语义理解和对话管理两个模块,我们也采用深度学习+海量数据的方式,使用用户的实际数据,训练鲁棒的语义理解和对话管理模型。

  结合基于LSTM(长短时记忆)的循环神经网络,使得模型具有长时记忆的能力,结合对话上下文进行准确的语义理解,相信配合科大讯飞深度神经网络+大数据+“涟漪效应”的研究思路,我们的多轮交互会越来越准确、好用。

  关键技术:麦克风阵列

物联网

  大家通过上图可以看到,现实环境中噪音、混响、人声干扰、回声等因素,带来的影响因素还是比较大的,我们一般是通过麦克风阵列来解决。

物联网

  麦克风阵列是利用一定数目,一定空间构型的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。麦克风阵列能做很多事情,对于环境噪声,它可以采用自适应波束形成做语音增强,从含噪语音信号中提取纯净语音;对于说话人说话位置的不确性,它可以通过声源定位技术来计算目标说话人的角度,来跟踪说话人以及后续的语音定向拾取;对于室内声音反射,导致语音音素交叠,识别率较低的问题,它可以通过去混响技术,减小混响,提高识别率。

  线性、环形、球形麦克风在原理上并无太大区别,只是由于空间构型不同,导致它们可分辨的空间范围也不同。比如,在声源定位上,线性阵列只有一维信息,只能分辨180度;环形阵列是平面阵列,有两维信息,能分辨360度;球性阵列是立体三维空间阵列,有三维信息,能区分360度方位角和180度俯仰角。

  其次麦克风的个数越多,对说话人的定位精度越高,但是定位精度的差别体现在交互距离的远近上,如果交互距离不是很远,5麦和8麦的定位效果差异不是很大。此外,麦克风个数越多,波束能区分的空间越精细,在嘈杂环境下的拾音质量越高,但是在一般室内的安静环境下,5麦和8麦的识别率相差不是很大。麦克风个数越多,成本也越高,具体的产品,要综合考虑应用场景和实际的产品定位,选择合适的麦克风个数和阵型。

  方案:破解环境对语音识别的影响

物联网