中国建设银行林磊明: 银行大数据探索与实践

基于这样的认识,我们行里的管理层对大数据的使用也是非常重视的,我们王鸿章(音)董事长在去年的工作座谈会上提到我们要通过大数据来推动产品创新,重树业务流程,支持科学决策,夯实基础管理,提升核心竞争力,这是行领导充分认识到据在银行经营决策里的非常重要的地位。在他的讲话之前建设银行已经成立了上海大数据分析中心,这不属于技术部门,属于信息管理部门。充分体现了大数据实际上是跨学科、跨领域的,今天大部分是IT产业的专家,我倒倾向于下面我们再办这样的会一定要有更多的业务人员来讲一讲,真正的大数据能帮我们做些什么,现在的确是一个打基础的阶段。我简单讲一下大数据平台的建设思路和取得的简单成果。

从设计目标有这几条,策略上架构先行,我们已经有很好的基础架构。基础能力上我们在做一些基础的大数据分析工具的搭建。另外一个很重要的方面是你有没有很好的业务指向,你想用这些数据做什么。我一直不太同意你先不要管你做什么,先把平台搭起来,我不太清楚有多少人从做数据仓库过来,当时提的很多的概念是垃圾进垃圾出,到了大数据时代没人提这个事情了,好像所有大数据都是质量很高的,都是进来就能发挥作用的。特别是对应用部门来说,这方面要警惕。

功能架构设计,我不细说了,和大家都差不多,从采集、存储、分析、展现到应用。我要强调的是从这个结构来说,这是很完美的一个结构,但是我们将来的方向是大数据真的要能够实时或者及时地反映到你的业务流程当中去,反映到你的营销当中去。不要拘泥于一个结构,而是怎么样能够很快地让数据发挥作用,大家都提DT时代,是怎么用数据直接驱动你的业务,这种架构才是最好的架构。

从数据设计本身来说,我们有一个演变过来的整体的结构。这里面我想强调一点,大数据是数据的一部分,结构化的数据是大数据的一部分,这两个东西不要割裂来看,这两个东西要融合到一起为你的业务发挥作用。

我们的大数据平台取得了一些成果,实时的数据仓库上我们能够对客户经理做实时的数据提供和交付,提供无论是并发的访问还是实时服务方面,比如销售价格和对客户的财务安全等各方面,都能够实现相关的数据交付,无论是直接的、实时的还是批量的交付,这是一方面。从数据的应用模式上,我们总结了六类数据应用模式,包括挖掘类、数据实验室、机器查询、仪表盘、固定报表、自动查询等等。模型实验室,现在越来越发挥了更大的作用,我们能够基于结构化和非结构化的数据支持大数据模型的研发,这个模型研发出来我们能够很快地把它部署到生产当中去,能够为一些决策,未风先管理服务。这是简单的举的例子。这是模型实验室的例子。

在非结构化大数据的应用方面,很多类型我们已经在探索了,比如客户行为偏好的数据,录音文本、地理数据的应用、能耗数据的应用、媒体信息、员工行为数据等等。现在网络渠道交易的风险越来越高,道高一尺魔高一丈,反过来我们希望魔高一尺道高一仗。通过位置服务终端识别的新技术新数据的采用,拒绝可疑风险事件,上半年避免1.9万起,避免客户损失1.4亿,这种数据越来越大。在一些文本及语音分析方面,我们做了产品声音360对电话银行录音转成文本之后进行产品的相关分析,我们对于客户投诉意见做频度的分析,能够发现管理当中的一些弱点和服务中的问题,我们还可以在里面进行潜客的分析。另外我们利用大数据的技术做了基础性工作,这方面是历史数据的归档。原来传统的技术是在传统数据库上,我们把它放到Hadoop上,既降低了成本也提高了业务响应能力,量是非常大的。通过这方面的积累,我们能够逐步将这类数据应用到大数据的分析当中去。会计影像,这个数据量也是非常大的,原来是分布到全国各地,我们也是用Hadoop分布式文件系统把它应用起来,提升了响应能力,降低了成本。很多长的数据都是离线采访,现在都能实时在线查询。

无论是结构化的数据还是非结构化的数据,都是银行慢慢的积累和通过银行做的场景化的外延式的服务、善融商务、网络的客户服务积累的数据,外部数据怎么用也是大家关注的焦点。刚才提到一个观点,我们还是希望有一个结合,纯粹的外部数据可能对银行的价值不一定能够直接体现。我们行业的数据、政府的数据等等,希望能够和我们结合起来,它确实能够在小微企业的风险控制、智能运营方面发挥一些作用,这也是我们下面探索的一个方向。