中国IDC圈4月28日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。28日上午大数据推动金融创新分论坛中国工商银行软件开发中心信息科技专家王晓平做了主题演讲。
中国工商银行软件开发中心信息科技专家王晓平
以下是王晓平演讲实录:
王晓平:谢谢李司,听了建行同事的发言我比较受启发。接下来我介绍一下工商银行在大数据方面的建设情况。大数据的时代已经到来了,数据的增长像通讯技术一样,有个摩尔定律,增长非常快。在互联网时代,大家很多行为、很多交易都是通过网上进行,很多多媒体和音频技术也在发展,造成数据的存储量有非常大幅的增长。根据统计,数据量每两年会翻一番。
工行面临的大数据的挑战,首先是外部环境造成的全行的数据量的快速增长,包括我们现在工行每天的交易量,外部互联网金融,工行的三大互联网平台造成用户的交易数据和行为数据有大幅的增长。如何处理大幅数据量的增长对我们提出了挑战。工行从2000年开始建立数据仓库以来,拥有了庞大的历史数据资产,在新的环境下怎么能够快速地智能分析,对我们提出了更高的挑战。在数据源方面,现在随着互联网金融的发展,各行各业已经不单单是局限在本单位自己拥有的数据,更多的还是需要采纳外部的数据来配合我们进行相关的分析。工行已经引入了征信数据、税务数据等各方面的数据,怎么做到比较全的数据去描绘我行的客户特征,这是作为我们的一个新的课题。
工行整个的战略思路是通过我们行的两库一司的建设来完善大数据体系。两库是信息库和数据仓库,数据仓库在工行的建设和银行的建设中都是比较传统的,主要是应对我们之前的银行交易数据、账户数据,采用结构化的数据存储来进行相关的处理。前两年的时候工行启动了信息库的建设,随着互联网金融,随着新媒体的发展,大量的音频、网页、文本相关数据的发展,我们觉得需要将非结构的数据进行统一的管理和快速的检索,所以我们提出了建立信息库的概念。通过两库的建设,我们需要一支分析师队伍,能够对这些庞大的数据进行相关业务的加工处理和分析,所以我们在全行上下建立了分析师机制,从二级分行到总行都有专业的分析人员,会针对我行的结构化非结构化数据进行加工和分析。
工行大数据的发展历程可以分几个阶段,从TB级已经进入了PB级的建设阶段,接下去在可预见的几年内会进入EB级的庞大体量。最早工行是2000年初,那个时候大数据的领域更多的还是应用在一些报表的快速展现,所以那个时候我们是基于比较传统的Oracle和SaaS,做了T+1的动态报表,行领导和管理层能够在第二天上班前看到我们行昨天的经营数据,这是最早建立的。同时我们基于SaaS平台进行数据仓库的探索工作,但是当时只是基于特定的主题,基于SaaS做一些探索。2007年工行基于当时最先进的企业级的数据仓库的体系架构启动了工行的企业级数据体系的建设,做了全行统一的管理数据的大集中。2010年基于我们的数据仓库的数据支持,我们推出了工行的MOVA管理会计系统,做了全行绩效考核的管理系统。2013年随着外部形势的发展,大量数据爆发式的出现,我们引进了大数据领域在业界最流行的Hadoop技术,在Hadoop基础上搭建了信息库,发展是非常快的。2014年工行基于大数据,原来的大数据采用连机异部批量的方式,通过文件存储的方式,不管是数据仓库还是信息库,在时效上相对来说比较慢,所以自主研发了一个流数据平台,能够提供实时或者准实时的流数据处理。2015年下半年和今年正在推动分布式数据库的落地工作,会和企业级数据仓库做一个互补。这是大数据的主要技术演进。