农行赵维平：农业银行自主可控的大数据平台建设_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

这是我们整体的逻辑架构图，左侧是数据源层，上游的生产系统，几乎全行所有的生产系统的数据到今年底已经全部进来了，金融交易类百分之百都进来了，现在有60多个上游系统，通过一个交换平台，交换平台不仅仅为大数据服务，负责上游生产和下游数据消费系统总分行之间、总行各应用系统间数据交互的平台。第二，数据处理层，淡黄色指关系型的数据库，也就是MPP架构数据库。操作数据区、非结构化数据区、历史数据平台、流计算，流计算用Hadoop Stam架构。下面是Hadoop的东西。我们在整个大数据平台的结构化主库里分了基础数据库、共性加工区和指标区，非结构化有操作数据区、非结构化处理和历史数据平台。影像那部分早期已经建好了，为了减少网络压力基本上存在分行。

跟传统不一样的是大数据平台的日加工时间目前在七八个小时，早期批量一个是优化不到位，一个是处理的分层，所以用了Hadoop把ETL和操作数据区都放在Hadoop里，因为可以节点多、计算能力强，完成了ET的过程，上游来的全量数据在这里做了归类，生成了一个纯层量的数据，减少了一天的批量时间几个小时，提升33%的性能。数据集市层，现在规划8个数据集市，跟其他行没有太多区别，客户营销、风险管控、外部监管，对分行服务的集市，各行服务的对象都是一样的。底下研了数据提取平台，外部监管和数据提取任务特别重，早期都得到生产去导带生成，现在我们通过单独建一个环境，把一些数据预加工好，基本以宽表的模式，以前做加法的事情变成了做减法，至少80%的提出需求都在我的环境里直接提取，大大减轻了人力。底下是分析挖掘平台，ODM、SaaS都是农行已有的云，大数据只是它的用户而已，我们在Hadoop分装了应用，为全行的分期挖掘提供服务支撑。

对上层应用的服务有直接访问，数据文件和外部服务和数据快速复制等技术和应用进行连接。应用主要是对资产负债领域、电子银行领域、信用卡和个人金融领域、风险和财务提供了一些支撑，大数据平台和集市，我们建成了4个集市，有3个集市在建的过程中，今年分行下半年要搞分行集市的试点。应用，我们提供统一的数据展示和服务。展示服务一个是对所有全行业的用户，对所有行业监管的各种报送，因为各种报送比较零乱，点也比较多，趋向不同部署也不一样，底层做了统一调度、统一监控和ETL，对全行描述类数据进行了统一管理，包括我们的数据标准和数据质量管理都在这里统一进行。

这是硬件的环境，在Gbase而方面，56是生产环境，现在实现了56环境的双活，这两个56环境同时在工作，一个做T+1当天的数据加工，一个做隔一天的连级服务，这样的话连级服务的能力，按实侧的话会比以前做TD的测试中更强一点，另外个人客户集市、资产负债集市，还做了数据挖掘层次，Gbase集成了WODM和SaaS。Hadoop的生产环境是92个datanode和2个namenode。我们现在Gbase有236个节点，库内主副本的整个容量有5.2PB数据，Hadoop的集群是150个节点，容量是4.3PB。

56+8是56个数据计算环境，8个是加载机，56个环境每个节点是12块3T的硬盘，有2块做Read1，是存放操作系统和重要的参数信息和数据库环境，其他10个环境是Read5来存放数据，一个节点存放有效数据10几个T，56的环境里有效数据将近300个T，Gbase有5到10的压缩比，各个字段可以选择压缩去，300个TB的数据换算成仓外的文本量，就算简单乘以300T也是1.5PB以上，现在折算成1.8PB左右，是PB级的。我们跟Gbase从这个时候开始合作，我们在八方面跟他们共同做了一些优化工作，跟Gbase做了大量优化，有近百个优化的细项。MPP数据库，我们搭建了双活机制，两个库之间的同步加验证现在每天大概是22TB的数据，仅需要3小时。早期在给主库做备份的时候，100TB的数据有小40个小时，后来我们用了Hadoop做备份，100TB用了不到10小时，大家用TB备份一直是比较难的事情，在Hadoop方面我们做了大量基础性的工作，非结构化的数据、文件的服务、数据的备份等等。

我们做了MPP和Hadoop的交互，有些应用要交互，我们做了非结构化MPP和HDFS之间的融合。后来启用了MPP和Hadoop之间的备份，大大提高了效率，300T也需要将近20个小时，所以我们做了双活，如果双活稳定的话我们就不用备份数据了。开发的基础工具包括ETL工具、批量调度、整个的监控和统一访问层，监控这块我们还做了健康检查，通过SaaS把半年的日志交过去，最后生成一些模型，给我预测整个系统运行的安全状况。数据混搭的模型设计，我们有一套完整的方法论，能保证数据的准确、稳定、完整和可用。同时我们在方法论、开发规范、数据规范和流程规范都积攒了一系列文档。整个模型是分层的，操作数据区、基础数据区、共性加工区、指标层和集市层，完成了客户的统一试图、产品的统一管理和客户的精准营销和风险管控等等。

2/3 首页上一页 1 2 3 下一页尾页