农行赵维平:农业银行自主可控的大数据平台建设

通过6个方面对大数据平台的数据进行了全生命周期的管理,包括建模、验证、清理、准入、数据地图和一些规范。我们的数据量比较大,早期上游应用比较多,数据质量比较差,在这里我们通过源数据管理,通过平台建设标准的制定和现有数据的治理及制度规范,通过四方面提升数据质量。我们建立了自己的源数据管理,我们对技术源数据、业务源数据和管理源数据进行了统一的管理,同时我们也建立了技术源数据和业务源数据之间的血缘关系,这样就能通过业务的视角能知道从技术怎么到业务。自己建的系统,目前大数据支持的应用,像互联网金融、资产负债、外部监管、运营分析、客户关系等等,有一些我们正在建设过程中。

应用的现状,我不一一介绍了,我们在不同的领域里支持了不同的应用。我们在大数据的建设中为了体现数据的价值,我们在分析挖掘方面做了很多工作,一个是平台建设方面投入很大力量,我们跟业务融合,分别在多个领域写出了20多份分析报告,有精准营销和业绩价值等九个方面都落到不同的应用去尝试实现。我们培养的人才,对SaaS、Spack、R语言,熟悉这些算法,对聚类、分类、回归、神经网络等等进行了研究,另外建立一套多场景的实验环境,流水线式的作业、组建化的模型集脱拉拽式的服务,使业务人员能更快地使用我的系统。多个技术对用户来讲是透明的,用户要使用的话非常方便。我们展示了非常完整的服务,对基础环境融合,对资源的管理展现进行全覆盖,部署的模式也是收放自如的,展现也突破了传统的思维,我们在报表展示层面是可交付的、动态的,可以放大缩小,可以按某一列去排序,可以锁定表头,不是一个静态的页面,报表是可操作的。

通过这部分报表的操作,我认为分析应用,一个是数据的可视化,再一个是逻辑的节点的快速开发,实现对分析型应用的快速开发部署。我们有了基础的东西,还有一套规章制度去管理,总体的管理办法、数据准入规则、运维的细则、数据模型规则,真正做到了大数据的生态圈。在自主可控上,基础硬件、基础软件、数据模型、工具平台和制度管理都是自主可控的。

我谈一下感悟,大数据到底是什么,它是一种技术,是一个平台,还是一个生态圈?我们在大数据生态里共享、复用和包容是永恒的主题。大数据是一种潮流,是一种意识,是一种习惯。大数据也是一场思维的变革,掌握了大数据,人们从此就有了预知未来的能力。大数据与农业银行监行监近,大数据建设只有起点,没有终点,我们一直在路上。在国产化的道路上,希望民族工业无比强大,在国际市场上挺起腰杆,谢谢大家!