融合必然是未来人机交互的趋势。
以AIUI为例,在定义之初,就没有把语音作为唯一的交互方式,而是把它设想为结合了人脸、人体追踪、手势、红外等多种方式为一体的人机交互解决方案。
我们也在不断的尝试把语音和其他方式相结合,比如我们现在已经上线的人脸、声纹融合身份验证,即是最直接的例子,通过这种方式将能够有效解决用户的身份认证问题。
在AIUI中,也有很多的场景需要借助于不同方式来相互配合。举个例子,在AIUI中,为解决远场的持续交互,使用了麦克风阵列,采用定向拾音的方式来解决这个问题,但是由于定向拾音的角度有限,造成持续交互过程中,说话人的移动成为问题,这个时候,就需要有移动的声源定位和追踪,简单依靠声音的辨识和追踪,很难有效解决这个问题,这个时候如果能结合人体的追踪,比如图像和红外手段,将可以进一步降低出错概率。其他的场景还有人的年龄、性别等属性识别,如果采用图像、声音相结合方式,将可以极高提升精准度,提升机器的感知能力,AI也将更加智能。