语音识别的痛点在哪,从交互到精准识别如何做

  复杂的环境,一方面是外在环境的复杂,另一方面是方言和口音。外在环境复杂包括噪声、混响、回声等,而且噪音又分为不同的会议室、户外、商场等不同环境,为了解决这些问题,除了单通道语音增强技术,现在基本是采用上面提到的麦克风阵列硬件和相关算法实现。

  在方言、口音方面,大家都知道,在我们国家,几十种方言,每个人都有自己的独特口音,一般的解决方法的是基于各种方言数据,通过深度神经网络,训练各种方言模型,以提高识别率,这是业内的通用做法。

  为解决两方面的问题,讯飞正通过以下的技术方案,去适应各种复杂环境的要求。包括以下方面:

  1) 提供条形、环形、球形的四麦、五麦、八麦等多种不同的麦克风阵列构型,以适应不同的产品需求,比如叮咚音箱采用的就是环形8麦的方案。

  麦克风阵列技术虽然已经可以达到相当的技术水平,但是总体上还是存在一些问题的,比如当麦克风和信号源距离太远时(比如10m、20m距离),录制信号的信噪比会很低,算法处理难度很大;对于便携设备来说,受设备尺寸以及功耗的限制,麦克风的个数不能太多,阵列尺寸也不能太大。而分布式麦克风阵列技术则是解决当前问题的一个可能途径。

  所谓分布式阵列就是将子阵元或子阵列布局到更大的范围内,相互之间通过有线或者无线的方式进行数据的交换和共享,并在此基础上进行广义上的声源定位、波束形成等技术实现信号处理。

  相对于目前集中式的麦克风阵列,分布式阵列的优势也是非常明显的。首先分布式麦克风阵列(尤其无线传输)的尺寸的限制就不存在了;另外,阵列的节点可以覆盖很大的面积。总会有一个阵列的节点距离声源很近,录音信噪比大幅度提升,算法处理难度也会降低,总体的信号处理的效果也会有非常显著的提升,目前科大讯飞已经开始了相关技术研究的布局工作。

  2)不同环境的语音识别声学模型,如上面提到的远场拾音,专门针对远距离拾音的环境进行训练;

  3)在方言方面,讯飞支持普通话、粤语等20多种方言,是目前涵盖方言范围最广的。积累了一定量的多方言资源库,并基于特殊的深度神经网路结构和上线数据的半监督训练,实现了多方言数据信息的共享和方言的自动迭代更新。

  另外方言最大的难点,在于方言的自适应,如何能够根据用户的语音,自动匹配模型,讯飞已经验证完成。

  4)在口音的适配方面,讯飞已经有一套完整的基于用户的训练系统,可以针对每个用户,建立闭环的优化流程,为每个用户建立自己的个性化声学模型,目前正在讯飞输入法试点,对于一些注册用户进行灰度体现;

  5)基于特定人群的模型训练,目前已经为面向儿童的玩具方案,专门训练针对儿童的声学匹配模型;

  6)为每个应用、每个用户,提供个性化的语言模型;

  AIUI的服务

物联网

  AIUI对外完全开放,不管是个人开发者还是公司,在我们的平台上都可使用。因AIUI需要与硬件相结合,所以现在是以评估板的形式开放。如果评估效果满足产品需求,我们提供模块或者软核的方式支持产品量产。

  开放平台除了提供整体的方案和几十个业务场景,还提供产品的个性化定制能力,主要包括唤醒词定制、发音人定制、交互语义理解定制、语音识别资源定制、流程参数配置等,这些都是在Web平台上开放的功能,开发者可以根据产品需求,在平台上进行个性化的配置和编辑。

  如语义开放平台,提供私有语义编写、自定义问答导入,这一块相信是大家最为关心的,每个机器人如何回答用户的提问,主要就通过这方面来体现。

  还有很重要一点,AIUI允许第三方系统接入,AIUI作为可扩展的伸缩服务,经过语音云处理的识别和语义结果,只要在平台上配置,第三方业务系统即可通过Http服务接入,以满足更为复杂的个性化需求。

  当然讯飞开放平台还提供深度的定制服务,包括唤醒词训练、发音人训练、语义及内容制作等。通过平台开放和深度定制两种方式,可以满足各个产品之间的差异化。

  未来:人机交互会融合?