“喂!您好先生,请问有什么可以帮到您的吗?”这是运营商客服MM经典的开篇服务话术。但若干年后,在声音背后可能不再是真人,而是冷冰冰但听起来依然甜美的智能机器系统。
若干天前,和同事张雨芹头脑风暴“中国移动入股科大讯飞意欲何为”时,突然提出了上述这个设想。我的观点是:对中国移动、工商银行等需要大量客服的企业来说,随着技术的发展和政策的开放,智能语音识别交互技术不敢说完全取代现有人工客服,但至少可以替代,而且这个时间不会太久,10年内就可规模化商用。
在谈语音交互之前,首先不可避免的再次提及下语音识别,关于这个问题早已经老生常谈,在苹果siri和科大讯飞出来之前就已经有众多企业和科研机构的专家讨论过很多年。很多专家会说:中国地域广阔,光方言就有成百上千种,而且即便是同一种方言被不同的人说出来发音上也会就差距。机器系统哪怕采样再全,识别率也不会太理想。
但专家们忽略的一个事实是:很多平时说方言的人在拨打银行或者运营商客服电话时,会用普通话和客服人员交流。 试想我现在用山西吕梁方言和移动客服美女交流, 那对方肯定听不懂,这个时候我们为什么苛求机器要懂几百种语言,而不要求客服人员懂几百种方言。
为客户解答疑惑办理业务的客服人员虽然是真人,但相对来说处理的问题和办理的业务都大同小异、非常简单,从这个行业非常低的应聘门槛就可以看的出来这是一个相对来说标准化且不需要太多大脑运算的工种。虽然没有公开的数据,但我个人估计中国最少有数百万人从事这种枯燥的工作。一个客服人员会经过专业的话术培训,每年会接上万通电话,但上万通电话总结下来,常规的句子可能只有几百个,而且绝大部分咨询都可以用已经培训好的话术解答。那这个时候,机器如果通过对大数据的利用,再加上日趋成熟的语音识别和语音交互系统,是不是就可以代替大部分的人工?
答案是肯定的!
在以前智能语音识别技术只是“伪智能”,所有的识别都必须建立在已经有的“库”的基础上,不能无中生有。举个例子,魔术师可以凭空变出来一只鸽子,但不管是从帽子里还是裤兜拿出来鸽子,都必须事先就把这只鸽子准备好。具体造成的结果是你说一声“北京天气”系统可以识别,但你说“北京的天气“或者”今天天气怎么样”就可能无法识别。
但是,很幸运我们生活在一个变革的时代。在这个时代,在信息的冲击下,很多障碍和隔阂都会被打破。随着云计算等新型技术的发展,大数据的价值得以被挖掘和利用。机器系统再也不是只能识别预设好的词语或者句子,而是“可以针对同一个意思但不同的表达”做出相同的回应。再来举一个简单的例子,北京东城的用户给114打电话咨询“今天的天气怎么样?”、北京西城的用户给114打电话“我要安排今天出行,给我介绍下天气情况”、北京朝阳的用户给114打电话“今天会下雨吗”,这是三个不同的表述,但客服人员回答可以是相同的“今天北京阴转阵雨,并有轻雾,北部阵雨,22到28℃。能见度较差,注意出行安全”。类似的生活情景还有很多,这种情况下采集到足够取样(当然这个取样系统的更新机制要健全)利用大数据的收集和分析,工作就可以用智能系统来完成。
细心的朋友,这个时候会发现我上述例子中一个致命的漏洞:每个人不可能都是给114打电话,而是打其他客服电话,甚至不是打电话而是通过互联网平台等方式获取天气信息,那我的那个举例不就白假设了?但我要告诉大家:这个世界的运行方式和企业的竞争局面正在彻底的颠覆。在出台有效的管控机制后,数据的共享可以跨企业甚至跨平台。
在交互环节还有个“声音听起来和真人是否一样”的问题需要解决。我们经常看好莱坞大片的时候会出现人机对话的镜头,虽然系统非常智能,但机器那头的声音发出者依然是冷冰冰的机器声音,导致大家认为模拟真人发音的技术很难实现。事实上,真人发音技术比智能识别更容易实现,这点顾虑完全不要担心(这里有人会说,单词的模拟容易实现,但别认为句子是单词组成就以为句子也很容易。句子模拟非常难,因为句子有连贯性和逻辑性。“今天你吃饭了吗”,模拟出来的发音就会变成“今天---你---吃饭---了---吗”。 能做出这种反驳来的一般也都是科研了几十年的老头子,技术功底扎实,但思维方式固化。我之前已经说过,在强大的存储和计算能力支撑下,利用大数据的分析运用,这个故障解决起来不是太难的事情)。在国内91熊猫读书这样的阅读软件都开始拥有真人阅读的功能(当然,这个功能应该是采用了第三方的技术,91自身还不具备这个研发能力),而且通过几次的版本更新来看越来越接近真人发音,几年以后我这样的骨灰级书友估计都难以分辨真假。