传统银行的转型实战:看工商银行如何利用大数据洞察客户心声?

大数据
由于我们所获取到的信息都是来源于互联网,有一个最大的特点,就是价值信息利用率特别低,困扰我们最大的问题是怎么在海量数据中筛选出最有价值的信息。

我们用一些比较精准的关键词获取信息,比如说工行、工商银行、ICBC、95588等等,但获取回来的信息仍然存在大量垃圾信息,包括一些广告、寻人寻物和招聘信息等等,垃圾信息占了80%以上的数据量,真正有用的信息,我们所需要的投诉、抱怨或者建议最多就是20%的量,怎么样通过自动化的方式把垃圾信息过滤掉。

大数据
我们也尝试一些简单粗暴的方法,比如设置一些垃圾信息词汇的过滤,像是积分有优惠,刷卡有惊喜这样的词汇,大概能过滤掉三分之一的垃圾信息,但毕竟覆盖是不全面的,这时候我们又使用这个方法,在这个场景下和刚才所说的场景就有所区别,现在变成了二次分类,我们在二次分类上做一些数据的交付是比较能够容易实现的。

同时用朴素贝叶斯过滤一些垃圾邮件,最后发现朴素贝叶斯在这个方面是比较好的,广告词汇和我们有用的词汇之间区分度也比较明显。

完成了过滤垃圾信息之后,我们所看到的信息看上去比较干净,但还是不能直接提供给分析师直接使用,因为我们采集到的数据来自于互联网上的各个渠道,同一个事件在不同渠道有不同的报道,甚至同一个事件在社交网站上还有很多的评论,我们怎么样把同一个事件、同一个报道聚合到一起呢?

大数据
首先我们想到了K-means的方法,但有一些局限性,比如K值是固定的,但是我不可能知道一堆新闻当中存在多少话题和多少事件,同时这些事件也是不断地在成长,新的话题不断地在发生,这个时候我们引入了新的思想叫“中国餐馆过程”进行优化。

这个可能是外国人提出来的,在外国人眼里中国人吃饭的时候喜欢跟中国人扎堆,当我们进入中国餐馆的时候第一人坐在一张桌子上,第二个人进来的时候会看跟第二个人的熟识程度怎么样,如果认识他就坐到第一张桌子上吃饭,如果不认识就新开一张桌子自己一个人坐在那里吃饭,随着大量顾客逐步进入到餐馆之后,通过这样的原则坐定之后,自然而然的完成了聚类的过程,每张桌子上坐的是熟识的人,这跟我们是类似的。

新闻媒体跟社交媒体会做区分处理,主要是因为这两个数据之间的措词有比较大的区分,比如说在新闻媒体上的措词相对比较正规、严谨,在社交媒体上的措词比较随意一些,所以我们会对一个批次的数据首先做一个新闻媒体上的聚类,然后完成社交媒体的聚类。

第三步看社交媒体聚合出来的话题有没有针对性的评论某个新闻事件,如果有第三类就把它划过去,如果没有它自己单独成为一个话题。通过这样的方式,我们的信息可以提供给分析师做查询,他们查看各自领域当中发生的重要事件。

大数据
但是这个时候业务方面给我们提出更加高的要求,能不能在重要事件发生的时候做到自动的提示预警,这就带来一个问题,我们怎么判断一个信息是重要还是一般呢?首先根据人的经验来看一下,影响一件事情成为重要一般有这样一些分析因素。

首先是涉及的机构,如果一个事件跟工行相关比跟同业其它银行相关更重要一些;二是带有情感色彩;三是转载数量;四是转载媒体数;五是来源渠道,来源于新闻网站的比来源于社交媒体的重要,因为新闻网站上的渠道比较正规正式,社交媒体上可能有大家随口说的小道消息;六是有没有关联到我们的业务类型。

我们选择了逻辑回归的模型,通过历史上发生的重要事件的学习就可以自动来识别这些即将发生的重要的信息。当我们识别出重要信息之后,除了完成提示预警之外,还可以提供分析师做查询的时候按重要度排序的方式,重要的信息可以提到前面来,每天我们可以把当天的所有信息自动生成监测日报提供给分析师做参考。