18日晚,老罗的单口相声给了我们不少惊喜,高配置、新系统、人性化功能、严肃导航语音包,然而令人非常意外的是,锤子发布会竟然还带火了语音输入。作为锤子的合作伙伴,讯飞没错过锤子的每一场发布会,老罗在现场演示的语音输入无论是识别率还是识别速度都令人十分惊叹,但实际上,语音识别技术已经发展到了一个极高的水平,如老罗所说,识别准确率已经达到了97%,经过识别的文字基本不用修改便可以直接发送。
当然在语音识别的行业中不仅有讯飞一家,前不久,搜狗发布了语音交互引擎“知音”,有了它,可让人机的交互更加自然,不仅能听会说,甚至可以理解和思考,进一步提升语音输入的准确率与速度。根据搜狗官方数据显示,其语音识别率同样高达97%。两家数据几乎一样,那么到底谁在语音识别技术上更胜一筹呢?
在按下“开始”按键后,搜狗语音会振动一下提示用户已开始,讯飞语音则直接开始录制,但在按下“结束”按键后,两款应用均会发出振动提示用户录制已完毕,马上进入识别环节。
左:搜狗语音识别 右:讯飞语音识别
左:搜狗语音识别 右:讯飞语音识别
在测试的过程当中,两款应用在识别过程上有很大区别,首先搜狗语音会随着语音不断显示文字,有一种正在打字的感觉,而讯飞语音则有明显的停顿,待声音停止后文字才会一起上屏,有种复制粘贴的感觉。
其次,搜狗语音在录制结束后,还可以看到屏幕中的字在自动更改,这是根据语义在选择正确的字,减少后续修改步骤。讯飞语音则不展示文字修改过程,经识别后文字直接上屏。
最后,在对比了数次后发现,搜狗语音会根据语义以及语气停顿添加标点符号,讯飞语音则更多为根据语气停顿来添加标点。
测试结果显示,两款语音识别系统各有识别错误的地方,但并不影响阅读,也不影响上下文意思,正确率都极高。但两家总体在识别率、准确率方面没有太大的差距,只是操作方式略有区别而已,这也说明了两家在语音识别技术方面都处于一个较高的水平,基本上可以代表当前国内语音识别技术的最高水准。
讯飞已专注语音识别技术多年,但实际上,讯飞更多面向企业服务,近几年才将注意力转向普通用户,比如去年“讯飞听见”惊艳亮相,发布会现场识别率高达95%。而搜狗旗下则拥有包括输入法、浏览器、地图、搜索引擎等等产品,每天拥有超过1.9亿次的语音请求,目前国内语音输入量排名第一,坐拥海量语料数据的搜狗语音成长速度飞快,这是它能够实现“理解上下文意思、自动修改、自动添加标点”的原因。
仅仅凭借这两段语音输入测试难以区分两者的优劣,众所周知,语音输入对场景的要求非常高,环境、口音、网络都有可能影响识别的准确率和速度,因此语音输入在日常生活中的使用频率并不高。
当然,用户对效率的追求是在不断提升的,老罗也坦言语音输入正是为了提高手机输入效率而存在,锤子发布会带火了语音,不少用户也开始尝试体验语音输入的便捷和快感。未来,语音输入定会成为主要输入方式之一,语音识别也会在更多领域普及开来。