光大银行刘锦淼:银行数据基础设施的重构

在“2013中关村大数据日”的大数据与互联网金融论坛上,光大银行的刘锦淼带来“最佳实践——银行数据基础设施的重构”主题演讲,从架构到应用讲述银行在大数据时代是怎么搭建基础设施以及采用大数据技术。

刘锦淼:各位尊敬的来宾大家下午好!刚才我也很欣喜的看到台上在座的有我们的金融行业的,也有互联网行业,也有尽管行业,包括还有互联网相关数据服务公司的一些老总们在谈互联网金融、大数据。其实我个人认为,互联网金融和大数据,大数据以及互联网跟金融目前为止一直在碰撞,一直在不断的纠结。

其实我今天来之前也在纠结一个问题,就是我是打领带还是不打领带,我是应该舒适一些,显得自由舒服一些,还是显得更应该正装一些。我后来决定我作为光大银行的一名员工,代表光大银行跟大家共同探讨一些问题的时候,我是代表光大银行的,那么金融行业,尤其是银行业,我们还是相对传统一些,所以,我还是打了这个领带。

我现在认为大数据以及互联网金融都是比较开放的,现在我们国家、我们国内的金融行业,尤其是银行业相对来讲还是比较传统的,但是不代表我们的银行没有现在向我们的大数据、向我们的互联网金融迈进。今天我讲不了更多的技术细节,只能跟大家分享一下我们光大银行怎么样作为一家银行在大数据方面做了哪些的探索。另外,刚才雷总也讲到了光大银行事件,我也想澄清一下,我们是光大银行,光大证券是我们光大集团的兄弟单位,当然光大银行的风险控制是非常严格的,光大银行的风险管理水平应该是首屈一指的。

现在进入正题,我们往下讲相关大数据的情况。我拿了一页关于“大数据来了改变了什么”,我更多想的是它会改变银行,改变人们的生活行为。上午大家都听了很多关于大数据的案例和大数据的概念,其实大数据对银行来讲,对我们银行客户服务的水平将会有一个非常大的提升和促进,它是一种趋势,它能让你看到业务发展的趋势,所以它应该是对你业务全体趋势的描述,它是一种复杂的大数据。

还有一个是非常重要的一点,就是一切皆可预测,刚才大家也在讲,就是我们做一些风险评分模型的时候,它的规则应该是人为的,还是真正把这种风险评分模型的规则交给大数据,去让大数据自动找出一些逻辑关系。那么我想我们未来最终的模型会走向让数据自己去找到自己之间的关联关系,但是,从目前为止,更多的是由银行从业者的一种行为,他的这种人为的判断。我想对于大数据的应用,到目前为止我个人认为在国内如果你离开了行业的应用,离开了行业应用的经验,大数据现在应用的价值还是不能够被得到展现的,所以我们还是要重视技术,怎么样挖掘数据和数据之间的关系,用什么样的技术去挖掘,这些挖掘出来的关系是不是可靠,所以最终我们有一个黄色的部分标出来,真正的大数据能够焕发青春主要来自于互联网。只要有了互联网,互联网是发挥大数据价值最重要的载体,所以互联网的思维最终到数据化的思维,通过数据化的思维来实现数据的变现,最终数据的价值。

这是我行大数据的基础,我想在银行业来讲,也应该是一个相关的基础。从去年开始,咱们中国都在叫大数据来了,去年很多人称2012年是大数据元年,我们光大银行自己内部在讲2013年是光大银行的大数据元年,惭愧一点说,我们光大银行并没有在大数据应用价值方面在2013年有更多的作为,但是我们还是把大数据元年定为2013年,因为我们做好了相关的准备。从行的数据治理、数据架构规划、数据仓库不断的升级扩容、新技术的应用到数据分析、挖掘、相关的技术准备、相关的协助配合,基本上我们已经做好了利用大数据发挥价值的准备,我们想2014年我们会有更多的探索在这方面。

下面,针对数据治理、数据分析、分析、挖掘、架构怎么样的规划跟大家作一个简单的介绍。首先是数据治理,数据治理从光大银行来讲,简单介绍一下我们从05年开始建设我们行的数据仓库,到08年开始,我们作为银行业比较靠前启动做这种数据标准化的一家银行,到了2012年我们启动了全行数据治理。目前来讲,银行业都在做数据治理,国内的银行现在数据治理的水平基本上是从基础水平到主动水平,主动的管理水平再到量化的管理水平到可持续转变发展的管理水平是有很多台阶的。我们现在银行业不到2016年基本都能够迈向量化水平的能力,如果你要是想最终把大数据用好,首先你要把数据治理好,你要把现在银行内可用的数据治理好,后面会讲到我们对大数据的定义,并不是来自于外部数据,我们认为符合大数据性质的数据都是大数据,我们银行内部现在我们算是小银行,像工行内部,它大量数据都算是大数据,怎么更好的治理好行内数据,包括我们需要有一些抓手,我们需要让各个业务部门去认领自己的数据,这样你才能够让他们参与到数据质量优化过程当中来,另外,数据质量怎么保证,怎么样制定数据标准,怎么样通过考核激励的方法,然后让数据质量不断的上升等等,这都是数据治理的一些内涵。

从数据服务角度来讲,去应用数据,通过数据的调阅抽取,通过数据的报表、通过数据的挖掘分析,通过数据的随机查询等等手段,为银行的业务部门提供监管报送、营销管理支持、经营决策支持等等,这些方面的业务支持的数据提供数据服务的一种手段,我们把它定义为数据服务。

从我们光大银行的总结上来看,数据服务有三个方面,一方面,我们是属于全国性商业银行,我们首先第一步就是要面向总行提供专业的数据服务,第二方面要面向分行提供数据服务,这种方法在国外很多银行用数据用得比较好的银行来讲,总行的数据直接支持和指导分行、支行进行客户营销的能力是非常强的。最后,我们还会面向业务发展的热点,不断提供数据分析报告,这种分析报告不是简单的业务分析报告,而是真正利用大数据来找到业务关联,发现业务机会的分析报告。

后面我会举几个例子,第一个例子,我没拿国内银行的,也不是我们自己光大银行的,刚才在座的大家讲了很多的实例,这个实例很简单,但是我想国内银行很少能实现,这也是我们梦寐以求想做的事情。这是荷兰银行,在他们的网站有一个很简单的图片,也就是说客户来了以后会看到一个广告,比如说车贷,他们首页上有一个车贷广告,客户看到这个广告以后,这是所有的客户登录他们的网页以后都能看到的。当这个客户看到的车贷以后,发现我想看一看贷款的计算,但是它计算的时候,计算的是房贷不是车贷。而大家看到我们首页上是一个车贷的广告,当银行实时看到它用房贷计算器做房贷计算的时候,当这个客户再回到首页的时候,他看到的这个页面广告已经变成了房贷广告。后来我问清楚了,他看到的这个房贷广告只有这一个客户能看到,其他的所有客户看到的还是刚才的车贷广告,这说明了什么呢?说明这家银行在它的网银门户上内置了一些相关的代码,这叫实时的营销。后面跟进的有相关的数据分析,他看到他的一些分析的客户在他网上银行的一些点击记录的相关交易数据,对非金融性交易的数据进行实时分析以后做的针对式的营销。这是荷兰银行做得很有意思的地方,现在国内很少有银行能做到实时营销。

这是我们光大银行近期做的数据分析的案例。众所周知,社区银行大家都在追捧,光大银行也是追着民生银行在做社区银行,最近银监会刚刚提出了对社区银行的规则性要求,我想为了服务咱们整个民众,我想银行业对于社区银行这块的战略应该在未来符合监管要求的情况下,能够有风险可控的情况下,我想社区银行会有大力的发展。我们光大银行在发展社区银行的时候,我们也运用到大数据分析的技术,来指导我们社区银行的选型,包括盲点后评价,包括选型过程当中,对社区银行经营模式的定位,以及差异化对社区银行资源配置等等,我们会拿到很多外部的数据,包括像58同城数据、大众点评数据、搜房网的数据,还有一些社区规划的数据。这次我们简单拿出的例子是城市规划的数据,大家可以看到,这个城市有两个主要的商业中心,两扇是在发展旅游,两翼是在发展商圈。对于社区银行的部署,它的特点、它的经营方向有一个初步的规划。我们还会结合更多的一些外部数据,对每一家要开设的社区银行都有一个定位,这是社区银行的大数据分析的支持。

下一个例子是新浪微博的舆情监控分析。这一点我们开诚布公的说,之前也跟签约公司有一些合作,对于互联网这种数据的查取,包括用中文语义进行关联性的分析,现在很多公司都在做,银行有没有真正用起来,我想光大银行先做一些探索,我们真正的去分析了一下我们现在光大银行银行在舆情上来讲,理财还是我们最重要的,这是光大的特点。另外,客户的情感的变化情况,哪个月客户向好的情感以及不利的情感我们都可以控制,去做一些营销,做一些媒体上的消息发布等等。另外我们分析这块情况还可以分地区,不同的地区、不同的互联网用户的特点是不一样的。

怎么用好大数据?我们通过这一年的准备,包括前面很多年做数据挖掘的经验有这么一个描述,从初步探索到大数据的尝试使用,到最终我们要部署应用使用,这里面包括很多步骤,包括组织、包括大数据的获取,包括我们怎么用大数据,在哪些领域去分析,包括我们讲的客户营销领域都会用到,最终我们会用成熟的大数据应用,包括我们大数据的一些相关的管理制度去规范大数据的使用。

从数据架构的角度来讲,我就不说了,因为银行传统的架构包括数据方面的架构都是非常传统的,我们光大银行和其他银行不一样,像国内银行更多的是用数据仓库技术处理现在的数据,现在对于互联网数据,对更多的非结构化数据怎么样去处理?我们可能需要突破原有的数据应用架构来做,包括现在的数据要求更快,刚才讲到了要求到T+0了,现在我们做到的基本上都是T+1。这是一个架构的事例,这是我们现在数据仓库架构的事例,这是一个非常传统的数据架构的案例。

从架构的设计目标上来讲,我们需要满足多样化的数据服务需求,从单一的平台过渡到多元化的结构,最终我们要具备更广泛多样化的数据处理要求。后来我们基本上完成了一个面向于大数据、迎接大数据要求的这么一个数据应用架构,数据机构上来讲,我们做好了储备,但是最终的要求是怎么样把这个架构落地,因为我们银行是开放的心态,我们希望跟更多的厂商去共同交流合作,怎么样把我们这个架构真正的应用做出来。

最后是一个新技术的应用,也就是Hadoop。刚才很多人都在讲Hadoop不代表大数据,但是Hadoop是大数据的一个非常重要的应用架构。现在银行基本上是有对于大数据处理的架构,包括我们现在有的Oracle的一体机等等,横向扩展性都是有局限的,但是对Hadoop来讲,横向扩展性非常强,成本非常低。所以,Hadoop未来是非常有竞争力的。Hadoop的概念我就不在这里多讲了,在座的有很多的专家,我就不细说了。

我们光大银行对于Hadoop来讲做了一个什么样的尝试呢?因为银行都有历史数据,我们从1999年系统大集中以后,我们行十几年的数据一直是在非在线的状态,我们会有很多的历史查证的要求,包括客户,包括监管机构,包括检察机关,都会来我行进行历史数据查证。这种查证的效率是非常低的,怎么样解决查证的高效支持呢?就是Hadoop,如果我们用传统的Oracle数据支持,把原来的历史数据库放在Oracle,一方面成本太高,一方面效率不如Hadoop。我们做了一个测算,如果我们用惠普一套整体架构比Hadoop要多用好几百万,Oracle也是一样的。因为对银行来讲,我们风险管理的要求,IT操作风险管理的要求,银行是要求安全性非常高的,我们需要有3D备份,所以我们要部署一套架构需要有大量的投入。刚才也在讲,银行每年投入到IT成本是非常高的,如果我们引用了Hadoop,这是我们一种非常有益的尝试,未来可能会在更多领域去运用这个Hadoop技术。

这一页讲的其实是把历史数据查询功能架到Hadoop的基础上,其实最重要的是我们真正用了这种开放Hadoop的架构技术做一个银行非常传统的业务,这当然是我们现在看到的银行敢不敢把Hadoop用在业务上的创新尝试,我们现在用得还蛮不错,我想后面我们会有更多的领域去尝试Hadoop的技术。最后这是盘活线下资产、盘活数据价值的方法。

短短20分钟,我讲的东西还是比较粗浅,从我们光大银行来讲,我们有这么几句,数据上收、服务下沉、见微知著、洞察商机、切实收益,雷总也曾经谈到过,另外我们想应该落实数据服务模式,助力科技创新应用,驱动银行业务的发展。光大银行的业务战略是要做最有创新力的银行,我在这里也做一个广告,右边二维码是我们光大银行信息科技创新实验室,如果大家感兴趣的话,可以扫一下这个二维码,来关注一下微信上的创新实验室的相关内容。

以上就是我今天的介绍,谢谢大家!