这些词向量具有一个特点,它的纬度是固定的,避免了传统空间向量模型当中维数灾难的问题。由于我们已经用词汇向量表示一个词汇的含义,向量之间又是可以加起来的,所以我们在大量文本的背后可以分析出潜在的语言学的规律,最典型的例子是国王-皇后等于男人-女人。
在实际运用中是不是有比较好的表现呢?我们做了一些尝试,最后有一些定律定义词汇之间语义的相关性。从这个例子当中看到效果还是不错,对ATM这个语义最相近的词汇有ATM机、取款机、自动取款机、柜员机、自助机。还有“好”这个词语义最相近的比如温柔、利索、忙前忙后、谦虚、和蔼可亲。可以看到Word2Vec是有一个比较好的表现。
进一步看一下Word2Vec能不能帮助我们的业务要素找到最靠谱的平台概念。做一个尝试,有三个比较常用的业务对象,包括短信、柜员和保险,设置了一组评价概念的词汇,通过Word2Vec找到了这些概念和评价词汇之间的相似度,标红的部分是明显高于其它的连接方式的。
能够看到短信连接到漏发、错发、诈骗,柜员可以连接到怠慢、欺骗、误导,保险可以连接到欺骗、诈骗和误导,这确实能够有效帮助我们辅助人工做梳理,缩短整个模型构建的周期。
客户意见挖掘——实施效果
既然有了客户意见表示方式,接下来应用于什么业务场景当中。首先把客户个体意见和客户星级数据做关联,这样就能看到不同星级之间的客户关心的不同问题在哪里,其中我们看到像七星级客户和三星级客户关注的问题有非常大的差异,其中还有五星级客户甚至成为一个孤岛,和其它类型的客户关注的点都是完全不同的,从中我们可以制定针对于高星级客户的差异化的服务策略的提升。
第二个问题是关联的问题,比如优盾的问题,通过关联分析就知道哪个品牌的优盾关联到哪个问题是最多的,形成关联网络,从这个图上能够针对性的制定产品改进的措施。
第三个例子是连续投诉分析,同一个客户在很短的时间内针对同一个问题反复投诉的情况,有这个分析结果以后有两个方面可以利用,首先我们可以知道哪些问题是客户最不能容忍的,一旦没有给他很好的得到解决的话他会反复投诉,增加我们的投诉量。
另一方面也能够知道工商银行在哪些问题上的解决是比较欠缺的,由于工商银行没有到位导致客户进一步的投诉。还可以看到客户意见地域上的分布,随着时间的变化这些意见会得到什么样的趋势性的发展。把这些纬度进行相互结合可以得到更加灵活的分析结果,比如说在上半年上海高星级客户,增长最快的客户意见有哪些。
如何聆听互联网客户的心声
接下来讲讲如何聆听互联网客户的心声。工商银行非常关注于行内官方途径的反馈,也特别注意互联网上客户传播的心声,我们建立了互联网客户心声聆听系统,能够覆盖到互联网上各类新闻网站和社交网络渠道,对我们所关注的信息做自动化收集,在我们得到信息之后会做多纬度的分类,看这些信息都是关于什么银行的,提到了哪一类业务和产品,打上什么标签,完成打标签之后跟行内的信息也做一个更好的关联。
由于我们主要关注互联网上所关注的投诉,在大量信息当中识别负面评价,当一个比较重大的事件发生的时候会有一个传播特征的分析,去看这个事件首发在什么网站,什么时候发生的,经过什么样的传播途径和转载关系之后达到爆发的顶峰,它又是怎么样慢慢消退的,最后在一些重要事情发生的时候可以做及时预警。