从比较宏观的角度来说,大数据体系可以分成几层,最底下一层是工行相关的业务系统,包括电子银行、相关的平台和产品、传统核心系统相关的数据、外部的数据像工商注册和征信的数据,为后面的业务分析提供了强大的数据支撑。在大数据平台上,我们可以把它抽象成四层,第一层是数据采集,统一针对外部和内部的数据进行相关的数据收集,包括日志信息、行为信息和业务信息。再上面一层是我们不单单提供了传统数据仓库的批量计算的能力,也通过一些流数据的技术提供了实时的计算能力。完成计算之后,根据不同的业务场景,我们会做一个在线的存储,有些是当时时间的切片,还有是根据时间的要求存储几天到十几年的周期。再上面一层,抽象了大数据相关的服务,包括用户可以自定义的查询功能。通过这些信息的服务,把这些服务抽象到我们的业务系统中,通过我们的管理会计系统,通过分析师平台、风险系统、营销系统,为我们在数据的运营、风险控制和营销方面都提供相关的支持,这就是主要的大数据分层体系。
从大数据的起源开始,数据仓库到目前的大数据新形势下,数据仓库已经在做非常大的升级换代和变化。2014年工行认识到从高成本封闭的专业系统,Teradata,另外是向高性价比通用设备和开放技术的专项。转型有两个原因,第一是数据量太大了,原来只需要处理TB级已经转向需要处理PB级甚至以后EB级的数据量。如果是这么大的数据量,运用传统的设备没有办法进行相关的处理。性价比,我们做过测量,通过开放式的弹性可扩展的普通PC服务器的方式,比传统设备在成本上介绍十几分之一或者几十分之一。我们在新平台上一方面引进了Hadoop平台基于普通的PC服务器进行搭建,短短一两年的时间已经扩展到150个节点,存储空间已经超过1PB,超过建设了十几年二十年的Teradata的数据容量。另外我们在研究也会尽快落地的分布数据库,会基于开源的底层架构,基于普通的PC服务器完成数据仓库体系的扩充。后续在大数据的处理加工方面会基于分布数据库进行处理。从目前的分析角度来看,Teradata会保留,着重在高端的分析师分析挖掘的探索性的工作方面。后续工行的大数据体系会采用多种技术路线、多种技术平台共存的方式。
非结构化数据信息库的建设情况,建行已经介绍了,工行也有点像。信息库的建设原则,因为非结构化的数据的量是非常大的,所以我们的原则是信息库建设没有把非结构化建设进行物理存储的集中,我们只是通过统一的搜索引擎让用户能够快速地搜索找到他需要的非结构化的信息。如果需要进行进一步分析挖掘的非结构数据我们才会进行统一的存储、加工和分析,比如用户的行为日志、用户的点击,后续需要进一步分析的我们会进行集中的存储、挖掘、分析,用户有些视频或者文档,我们认为它还是存在各个相关业务系统中,我们需要有一个快速的把它搜索到使用到的方式。
经过这两年的建设,我们的信息库已经初见成效。一方面我们做了全行级的搜索中心,能够把全行的各种文档快速地进行搜索,提供业务的支持。另外针对我们的日志特别是互联网金融的相关日志进行了相关分析,做了网银魔方、容易购的魔方,对用户的使用习惯和喜好做了探索的分析。外部公布的网站,包括百度和新浪的网站我们做了非结构化的数据分析,我们可以实时了解到目前互联网上对工行相关的舆情和突发事件,哪些事件对工行产生了影响,哪些事件对工行的声誉造成了影响,都能够快速的进行信息定位和搜索。
我们通过信息库的数据支持,通过分析用户的基本特征,这个基本特征有很多是通过结构化数据,刚才说的数据仓库的存储和信息库的联动分析达成这个效果。基本特征是从数据仓库中提取的结构化的数据,通过日志的分析,通过浏览记录和搜索记录,通过模型运算,用户在银行的交易行为和上网的浏览行为去猜测用户喜欢哪些产品,他可能会购买哪些产品。通过容易购和各个相关产品渠道推荐给用户,这样能够比较精准地定位我们的目标用户群。可以看到我们做了这些尝试以后,页面流量和没有做猜你喜欢的服务之前效果提高了3倍。工行在大数据应用方面主要侧重在风险方面。大数据如果用不好的话就是一堆垃圾,数据当中有价值的数据是非常少的。从工行的角度来说,一个营销行为的成功率很难说是数据给的支撑还是外部环境有的特殊变化,但是在风险方面它有刚性的要求,所以大数据在风险领域的应用可以最快的落地而且最能够见实效。