智能语音:能识别但理解不了

10月是智能手表、互联网电视开售的集中月,它们与智能手机不同,屏幕一个大一个小,按钮又不多,传统的触屏、按键操控还要怎么继续?于是“智能语音”的需求诞生了,目前智能语音的现状是,声音识别率高,但在理解方面差了点。

苹果Siri领衔 智能语音爆红

2007年,国产手机金立曾推出一种“语音王”的手机,喊一声“张三”,它会自动拨打张三的电话,这,算智能语音吗?

别误会,这只是一种傻瓜式语音,是单个字识别,一碰到连续的语句就“萎”了。

2011年10月,苹果发布了iPhone 4S,自带一种Siri的语音控制功能,能帮助用户读短信、查天气,还能学习新的声音语调,提供对话式问答,苹果开启了智能语音交互时代。

不信?来看一组用户与Siri的测试对话。“你是谁?”“我是Siri.”“你是女孩吗?”“不是”“你是男孩吗?”“我不觉得咱们有时间扯这些”“我喜欢你”“咱俩是不可能的”.

Siri诞生之后爆红全球,随后谷歌、百度也推出了类似语音产品。今年HTC、摩托罗拉推出的旗舰机中也带有此类功能,如小i机器人(38.160, 0.00, 0.00%)。

穿戴设备频出 催生三个技术环节

易观分析师王俊认为,智能语音已经诞生新的需求,“一些穿戴设备没有键盘、没有触屏,有些连屏幕都没有。”

继索尼、三星发布智能手表后,10月17日,阿迪达斯也发布了miCoach SMART RUN,加上此前智器、盛大等国产厂商推出的产品,智能手表产品一时暴增。又在10月,乐视、小米、阿里酷开电视全面预售,三款电视中,乐视、酷开均支持语音识别功能。

智能产品的发布,对语音识别提出了新的要求。10月19日,记者见到了乐视TV、智器手表语音技术提供者云知声团队,其CTO康恒博士表示,智能语音主要包含三个部分:语音识别、语义解析、知识图谱。

为了演示效果,他用手机语音操控电视:“明天上海天气”,电视立刻回应“正在为您查询”,随后天气信息便显示出来。电视先是听懂康恒说话(语音识别),然后认为他是要查询上海天气,最后提供了天气信息(知识图谱)。

准确率逐级降低 达80%就算优质

“市面上产品语音识别准确率会较高,但是到语音解析会低一点,到知识图谱会更低一点,最终准确率能达到80%就算是优质产品。”王俊表示,这三个环节中,语义解析技术难度最高。

目前的发展状况是,语音识别准确率很高,据康恒介绍,云知声语音识别准确率为95%.

“要消灭剩下的5%非常困难,需要从每个细节入手,先把环境噪声解决,1%可能解决了;再把口音问题解决一点,1%就上去了;再把声音采样库扩大点,1%又消灭了。”康恒表示,要达到99%的准确率,云知声可能需要五年。

康恒还说道,语义解析与知识图谱是一个很前沿的课题。“比如‘你有多少根头发’,我能听明白也能理解,但是不知道答案。计算机也需要一个漫长的学习过程。”