东方金信石棋玲:SeaBox 海盒大数据技术与产品创新

创新点的应用实践。大家看左边这幅图是传统的数据仓库,可以看到是T+1的数据平台,数据基本上来源于前端的业务系统,通过定制化的时间,通过ETL跑批的方式进入数据仓库,无法做到实时性。右边这幅图是中间我们增加了一个大数据实时的同步产品。我们通过海盒的同步产品,能够实现数据仓库的计算,将一些关注的指标和数据做到实时推送加工。

我们在金融行业基于SeaBox大数据技术数据仓库的应用。大家可以看到,这只是一个事例,我们在原系统,就是我们数据仓库的多种多样的数据源导入,从数据源可以进入我们的数据交换层,数据交换层有一部分数据可以进入数据缓冲层,在数据缓冲层有一部分可以进入数据整合层,然后再进入展现应用层。其他有些途径会进入历史镜像层,这是我们在数据仓库层面对大数据平台做了很多的改造。

海盒大数据平台的一个数据集中管理与虚拟分发的应用。我们针对不同的用户群建立不同的数据池,数据池比如说使得总行的数据实现管理、分发以及用户权限的管理,使得分行的机构使用和数据能够快速启动,在我们的Docker镜像里面能够快速启动每个应用。

这是我们大数据平台资源按需分配机制的一个应用,这是我们Docker的一个应用。这是传统的大数据平台会跑在固定的集群上面,当然有些业务量是一个波动的过程,就是有些时候访问量会特别大,有些时候访问量会比较小,那就是你集群的数量设置是固定的,但是你如何去适应这种波动性的访问情况?比如这就是一个例子,当你的访问量上涨的时候,你的反应时间会变长。这样的话,我们的Docker会自动扩展,甚至可以扩展到其他的服务器群上面,这样你的访问时间就会马上下降。当你的访问时间下降之后,你不需要这么多台服务器的时候,可以自动实现收缩。

大数据行业趋势。大数据系统整个平台分为两块,主要是两个趋势,一块是做存储,一块是做分析应用。其实做存储这一块目前还是一个主要的趋势,随着我们的数据存储量越来越大以及数据仓储越来越完备,数据分析就会显得越来越重要。在数据存储这个层面来说,现在我们主要像银行业务是支持数据支持业务,比如ATM机取款是业务操作,会有一些实时数据或者是其他数据对接到我们大数据存储。像柜面、电话银行都是多种多样的数据源,会做一个很重要的存储平台。

在另外一个层次来说就是大数据分析,因为我们的数据量越来越大的时候,我们就需要做很多很复杂的分析,这个就会影响到决策层。其实决策层需要的不仅仅是数据,更需要的是很多算法的加工。我这里是举了一些银行的案例,就是我们怎么做大数据分析的。

我可以重点谈一下反洗钱这个案例,为什么要说这个案例?反洗钱的算法是非常复杂的,之前在美国银行做反洗钱的时候我们是和美国的货币管理委员会有一些针对各个银行数据搜集进行算法的分析。其实在这种情况下,随着我们反洗钱规则的制定,有很多的犯罪分子会不断的修改自己的犯罪手段适应你的规则,你的规则越来越复杂的情况下,怎么做到从不同的数据源,从海量的数据当中把这些犯罪的行为抓出来。其实我们做了很多的修正,做到最后包括整个外汇交易一旦进来之后,我们能做到最终像中国成语说的天网恢恢,疏而不漏,这就是大数据将来的一个趋势。

我的分享就到这里,谢谢大家!