这是我们整体的逻辑架构图,左侧是数据源层,上游的生产系统,几乎全行所有的生产系统的数据到今年底已经全部进来了,金融交易类百分之百都进来了,现在有60多个上游系统,通过一个交换平台,交换平台不仅仅为大数据服务,负责上游生产和下游数据消费系统总分行之间、总行各应用系统间数据交互的平台。第二,数据处理层,淡黄色指关系型的数据库,也就是MPP架构数据库。操作数据区、非结构化数据区、历史数据平台、流计算,流计算用Hadoop Stam架构。下面是Hadoop的东西。我们在整个大数据平台的结构化主库里分了基础数据库、共性加工区和指标区,非结构化有操作数据区、非结构化处理和历史数据平台。影像那部分早期已经建好了,为了减少网络压力基本上存在分行。
跟传统不一样的是大数据平台的日加工时间目前在七八个小时,早期批量一个是优化不到位,一个是处理的分层,所以用了Hadoop把ETL和操作数据区都放在Hadoop里,因为可以节点多、计算能力强,完成了ET的过程,上游来的全量数据在这里做了归类,生成了一个纯层量的数据,减少了一天的批量时间几个小时,提升33%的性能。数据集市层,现在规划8个数据集市,跟其他行没有太多区别,客户营销、风险管控、外部监管,对分行服务的集市,各行服务的对象都是一样的。底下研了数据提取平台,外部监管和数据提取任务特别重,早期都得到生产去导带生成,现在我们通过单独建一个环境,把一些数据预加工好,基本以宽表的模式,以前做加法的事情变成了做减法,至少80%的提出需求都在我的环境里直接提取,大大减轻了人力。底下是分析挖掘平台,ODM、SaaS都是农行已有的云,大数据只是它的用户而已,我们在Hadoop分装了应用,为全行的分期挖掘提供服务支撑。
对上层应用的服务有直接访问,数据文件和外部服务和数据快速复制等技术和应用进行连接。应用主要是对资产负债领域、电子银行领域、信用卡和个人金融领域、风险和财务提供了一些支撑,大数据平台和集市,我们建成了4个集市,有3个集市在建的过程中,今年分行下半年要搞分行集市的试点。应用,我们提供统一的数据展示和服务。展示服务一个是对所有全行业的用户,对所有行业监管的各种报送,因为各种报送比较零乱,点也比较多,趋向不同部署也不一样,底层做了统一调度、统一监控和ETL,对全行描述类数据进行了统一管理,包括我们的数据标准和数据质量管理都在这里统一进行。
这是硬件的环境,在Gbase而方面,56是生产环境,现在实现了56环境的双活,这两个56环境同时在工作,一个做T+1当天的数据加工,一个做隔一天的连级服务,这样的话连级服务的能力,按实侧的话会比以前做TD的测试中更强一点,另外个人客户集市、资产负债集市,还做了数据挖掘层次,Gbase集成了WODM和SaaS。Hadoop的生产环境是92个datanode和2个namenode。我们现在Gbase有236个节点,库内主副本的整个容量有5.2PB数据,Hadoop的集群是150个节点,容量是4.3PB。
56+8是56个数据计算环境,8个是加载机,56个环境每个节点是12块3T的硬盘,有2块做Read1,是存放操作系统和重要的参数信息和数据库环境,其他10个环境是Read5来存放数据,一个节点存放有效数据10几个T,56的环境里有效数据将近300个T,Gbase有5到10的压缩比,各个字段可以选择压缩去,300个TB的数据换算成仓外的文本量,就算简单乘以300T也是1.5PB以上,现在折算成1.8PB左右,是PB级的。我们跟Gbase从这个时候开始合作,我们在八方面跟他们共同做了一些优化工作,跟Gbase做了大量优化,有近百个优化的细项。MPP数据库,我们搭建了双活机制,两个库之间的同步加验证现在每天大概是22TB的数据,仅需要3小时。早期在给主库做备份的时候,100TB的数据有小40个小时,后来我们用了Hadoop做备份,100TB用了不到10小时,大家用TB备份一直是比较难的事情,在Hadoop方面我们做了大量基础性的工作,非结构化的数据、文件的服务、数据的备份等等。
我们做了MPP和Hadoop的交互,有些应用要交互,我们做了非结构化MPP和HDFS之间的融合。后来启用了MPP和Hadoop之间的备份,大大提高了效率,300T也需要将近20个小时,所以我们做了双活,如果双活稳定的话我们就不用备份数据了。开发的基础工具包括ETL工具、批量调度、整个的监控和统一访问层,监控这块我们还做了健康检查,通过SaaS把半年的日志交过去,最后生成一些模型,给我预测整个系统运行的安全状况。数据混搭的模型设计,我们有一套完整的方法论,能保证数据的准确、稳定、完整和可用。同时我们在方法论、开发规范、数据规范和流程规范都积攒了一系列文档。整个模型是分层的,操作数据区、基础数据区、共性加工区、指标层和集市层,完成了客户的统一试图、产品的统一管理和客户的精准营销和风险管控等等。