电信大数据关键技术挑战

 

图 8 知识图谱用于沉淀并管理业务知识

3.7 多媒体数据挖掘

电信数据中的多媒体数据主要指客服的语音记录。语音记录中包含了客户关注的问题和客服服务质量和有效性信息。与客服人员手工记录的文字信息相比,客服语音信息包含更原始和真实的信息,如客户的情绪、关注点和客服的效率等信息。有效地挖掘这些信息可以自动化地发现咨费、网络、服务和竞争对手的问题,提升服务质量。语音数据中提取的特征也可以被有效地应用于其他数据挖掘模型。语音数据的处理包含两个部分,语音识别和文本自然语言处理。语音识别主要有两个挑战,一个是当前电信记录系统很多是8音道数据,数据质量较差;另一个挑战是语音中含有很多方言和电信业务相关专用词汇,需要特殊的算法提升识别精度。语音识别为文本后,需要自然语言处理算法准确地提取关注主题、客户情绪和服务质量等信息。当前深度学习技术已经在百度和谷歌等公司的语音识别和自然语言处理方面显示出强大的能力。如图9所示,如何针对电信语音数据设计合适的深度学习算法是多媒体数据挖掘的技术挑战。