2014中关村大数据日于2014年12月11日在中关村举办,大会以大会以“聚合数据资产,推动产业创新”为主题,探讨数据资产管理和变现、大数据深度技术以及行业大数据应用创新和生态系统建设等等关键问题。大会还承载从政亚信府主管部门到各行各业的需求和实践中的疑问,探讨包括政府、金融、运营商等部门是如何通过数据资产管理和运营,实现转型发展和产业创新的路径。
在下午的运营商@Big Data论坛上,中国联通信息化和电子商务事业部数据中心副总经理范济安做主题演讲。范济安经理介绍了联通在大数据方面的发展情况,以及在2015年的发展规划。
范济安:谢谢杨总的介绍,各位领导,各位嘉宾大家好。今天受邀请我准备在下面的时间给大家介绍一下联通公司,尤其是从集团公司的角度来看在大数据方面的发展的情况,及我们在2015年的规划。
回首2014年,从走过的角度来看我们做了哪些具体的工作。首先一点我们可以说在这之前,在联通整个集团有总分公司研究院都有大数据研究,但是从大数据中心角度,2014年我们实现了零的突破,尤其是在这个基础设施的层面,我们今年年初的时候建立最初的28个节点的平台,到现在400多个节点正在生产运营当中的大数据平台,及正在部署中早1200个节点规模的平台。这个规模在全国的企业当中应该算是比较重要的这么一个平台。同时我们在原有的BIM,以传统的甲骨文数据仓库架构的基础上,同时也部署了MPP数据库,加上刚才我所说的HADOOP数据库,在这个混搭的架构下关键一点实现了一体化,通过工具对三个不同的平台进行了一体化的运营,也进行了不同的数据源的分配。
同时在2014年,我们在数据采集方面也做出了下列的工作。与其说在这之前我们的数据系统主要以BI为主,以地域基肥系统PIM和我们ERP系统为主的话,2014年我们首先把网络采集的用户的上网数据同步到了我们数据中心。这从大数据应用角度来看,是一个重要的突破。因为我们可以把网络测的数据和地域的数据进行整合,发挥更大的数据价值。这是一个乘法效应,不单单是一个简单的数据的累积。
另外一点大家可能也知道联通公司极力主推集中化IT建设,我们除了IT系统以外,正在建设计费系统,在这个系统上我们采集了全国31省的所有原始话单,包括全网2G3G4G移动网和宽带原有业务的原始话单。
最后刚才讲到我们准备的计费系统,第一期我们叫4.0使用,聚集了3G宽带用户的迁移正在当中。这个4G集中系统产生的这些新的详单位,客户的基础信息,订购产品订购关系等等新的数据,最给我们带来一个大的改变是什么呢?原来采集的数据量是往总部整理,现在新的系统建立我们系统流向正是从上往下。除去平台的建设和数据的采集,我们通过这一年也在数据挖掘层面学到了许多的东西。因为在传统的BI领域我们做的工作报表主要是报表生成的工作和数据分析的工作。通过刚刚我谈到的一些新的数据和新的采集,学会了我们怎样使用大数据挖掘工具。我们的起步实际上是通过一个简单的项目,我们叫做365辅导计划,是我们市场部推出的一个对3G新用户使用流量的这样一个辅导计划,在它的第一周和第一个月第几个月的关键时间点的时候,把用户的喜好通过画像描绘出来以后,为市场部能够依据这些数据来确定最好的辅导用户使用流量的计划,然后把这些计划推送给用户,这是我们这个初试牛刀的第一个项目,这是我们今年年初的时候建立的。通过这个项目我们逐渐学会对原始数据进行简单的加工,到后来对这些数据内容,尤其是用户上网记录URL等解析工作,在这个基础上我们目前已经沉淀了在我们知识库当中近一个亿网址的内容记录,解析了5000个移动APP,及为1.3亿的移动用户进行了标签化界定。
除去原始数据的加工,上网数据的解析,我们也利用挖掘工具紧密地与业务部门需求进行结合,作出了不同客户的管理系统分析模型。这里面比如说用户识别模型,用户评价模型,终端适配,创卡,以及养卡用户等等九大类模型,有效地支撑了联通公司的销售的转型。为什么我说这个转型呢?因为我想跟其他的友商的情况一样,今年年初开始联通公司由增量公司专项了增量和存量并向的方向,就是要依据大数据来做好准确有效地用户维系的工作,主要地依据就是通过这些模型来实现。
刚才我已经谈到了公司某些业务的转型。在这一年当中通过我刚刚讲到的模型数据采集,以及数据不同的加工,我们通过应用有效地支撑了公司业务转型及创新。这里举几个例子,比如说移动转售,大家都知道这是2014年第一大新闻,我们现在可以保证通过整个数据平台对数据的采集、处理等等,保证在30分钟,甚至好象是15分钟之内,把移动虚拟运营商需要的数据推送给他们。
在今年7月份世界杯的时候,我们也利用刚才我们的平台能力,及数据的加工能力,作出了一个世界杯容量营销的一个有效地活动。客户维系刚刚我谈到了,通过刚刚建模。互联网金融也是一个很热门的话题,大家如果关注最近的媒体的话,可能也知道招行和联通成立了一家合资公司,叫做招联公司,它的目的准备在今年年底之前推出互联网金融业务,在这个背后实际上就是把联通的数据与招行在风控模型上的支持结合在一起,开发出一款针对互联网金融有效地风险评估模型。现在我们正在积极地建设这个平台,和模型的开发。
大数据的一项应用是对外开放与合作伙伴,除去对应用内之外,我们还在逐渐摸索在金融界,广告界,以及行业应用方面怎样能够把我们的数据价值有效地发挥出来。我们找到的一条路就是通过建立一个开放的数据挖掘平台,在这个上面联通可以提供数据,提供存储能力,计算能力,然后邀请第三方的合作伙伴,在这个上面进行数据挖掘工作,可以共享这些开发的成果。银联智慧是另外一种合作方式,主要也是在征信领域,这是一个在线的一种数据的用户身份识别和他的信任度的这么一个查询的业务,也是在联通和银联智慧双方合作的项目,也会在年底之前推出来。
其他的行业应用,刚才我说到比如说我们为国家统计局做了人口流动的分析报告,汽车行业指数报告等等,上述都是一些对内和对外的典型的大数据应用。
通过这个归纳总结上述的几项工作,我们发现可以归纳为三个主要的层面。最下面是基础设施层,我们在这里充分地利用了互联网的典型架构,分布式,X86,云计算,在中型充分地建立我们的平台能力,刚才谈到的新数据的采集的方式,数据的加工,挖掘能力的提高。第三层的价值层或者应用层,就是开发、推广以价值为导向的应用服务。
这三层架构也完全符合联通总体的信息化三层架构,联通总体的信息化总体架构也分成最底层的IAAS,中层的PAAS,还有SAAS层。IAAS层是跨界的,PAAS针对地域的以及其他类的应用,上层的应用就会搭建在这些PAAS平台之上,所以可以看到标红的部分是我们数据域发展的典型架构,与总体的架构完全相符。除去大数据之外,我在联通同时也负责云计算的发展,所以我在这里说一下我们在大数据与云计算整体发展的思路。第一个就是说在大数据平台的建设方面,我们要遵循互联网云计算这种思维,做到能力开放,灵活支撑,安全服务。怎样才能有效地把这两个领域结合在一起?第一点,在我们推进联通私有云,尤其是IAAS云平台管理的同时,我们把所有大数据的硬件资源纳入到这个云管理平台之下,使我们的私有云管理平台一开始就具有一定的规模。
第二个怎样来推进使用我们的云平台?在这方面我们看到很多的内部的业务部门,外部的合作伙伴,经常来向我们索要这样和那样的数据,与其说像现在这样提供简单的数据服务,我们希望能够在未来,或者在未来的几个月当中,能够把数据服务于云平台结合在一起,就像刚才我讲的那样可以为用户提供不光光是数据,同时也可以把计算能力,存储能力,挖掘工具,同时推给地方。这样逐渐地培养起一个联通私有云的用户群。
最后一点就是在PAAS层,刚才我讲到三种不同的PAAS云,但是我忽略了在PAAS云底下的公共服务,数据的PAAS服务肯定是跨域的,所以我们跟其他的跨域的架构师们一起讨论怎么样把关系数据库,内存数据库,分布式文件系统等等沉淀在这个PASS层作为公共的服务级。所以简单来说通过上面几点我们希望能够把云计算的发展和大数据的发展有效地结合在一起。
刚才我讲的主要是回顾一下2014年联通集团公司在大数据建设方面的一些总结。下面我通过几个PPT给大家介绍一下我们在2015年我们都规划了哪些主要的工作。首先是平台的建设。在刚才我讲到的1200个节点之上,我们希望在2015年进一步地增强总部大数据平台的数据覆盖范围和数据支撑能力,进一步实现全集团数据一集采集,一点加工转换,一点数据提供和一点服务支撑,这是联通管理层给我们数据中心定的责任。同时我们搭起适用多种的数据架构,有ERP平台,有HADOOP平台,为上层提供高效灵活的数据支撑能力,怎么样具体体现扩大数据支撑的范围和能力?刚刚我们采集到的数据之外,我们已经开始启动了对客服类数据,典型的非结构化数据,尤其是客服语音的数据采集比如说是固网宽带用户上网的记录,来补充刚才我所谈到的移动用户上网记录的数据。
网络侧的稀有数据,尤其是PS数据在无线口的数据信息及轨道信息。同时我们准备在三大类不同的平台下面建设一层数据采集交换的这样一个枢纽,可以便于我们把这类新采集的数据源指向这样或那样的数据集成平台。
今天我们已经有200个节点的MPB数据集群,我们也在数据采集当中遇到这样那样的数据问题,所以在新的一年我们准备构建扩容MPB集群,并对它进行优化,尤其是在稳定方面。同时我们还要提升数据管理平台的能力,这一点尤其是针对联通的省份公司。刚才我谈到在地域当中,联通是主张集中化建设,在数据域我们现在也在考虑,因为在省分公司的层面主要是销售,客服等等,数据就会下沉,推进第一线。未来数据系统是怎么样建设?现在我们也在跟省分公司进行探讨,不同的大的省份公司对我们原数据工作在逻辑上形成一体化的应用,对小的分公司他们可能会直接挂在总部大数据开放平台上进行他们本地化应用的开发。
最后一点也是刚才我谈到的,构建大数据能力开放平台,要通过大数据能力开放平台促进我们与外部合作伙伴的合作,为大数据应用创造更大的价值。
这张图可能看起来有点复杂,它代表着现在我们大数据平台的现状以及基础架构。最底层是我们的采集层,数据源,中层的平台层是刚才我谈到的MPB,DW和HADOOP的数据平台,再上面是服务层,再这上面是我们现在已经开发的应用。
第二张图可能更复杂了,标红的部分是我们准备在2015年建设的项目的内容。比如说我们会在第一期的HADOOP平台以批量处理,以HBAS,HAP为主,在第二期我们就会把SPK,STHIN,处理流,数据学习HADOOP等等逐渐引进,另外着重在上面建立能力开放平台。
光说平台建设还不够,必须要谈到应用,因为大数据的价值要通过应用才能够体现。在2015年的规划当中我们也规划了对内与对外的应用,对内我们主要由四大类的应用,客户维系平台,这是一个自然的发展的结果。刚才我谈到了在2014年我们为客服数据中心建立了不同的数据模型,这个模型的结果通过不同的方式提供给客户,他们需要一个平台一个工具来把这些数据进行关联,再进行细化,才能够最后得出维系的真正策略,推送的最佳渠道,以及回收的效用结果。这个就是我们在2015年准备建设的这样一个辅助平台。
智能语音分析,刚才我在采集当中也提到了对我们的客服电话10010的数据语音进行采集,采集之后我们也准备把它做成一个典型的大数据应用。这个应用在技术上也有一定的挑战性,因为这就需要我们把这个语音转成文本,再进行语音分析,在这个分析之上再作出应用。第三项就是支撑我们集中的ERP,因为很多ERP报表都是在GRP预测,尤其是自助报表的功能迁移到混搭的大数据集团。还有就是我们成立了联通公司全国的4G运营中心,这个新的运营中心刚才我也谈到帮助支撑公司新的转型,也包括各种转型及监测手段来有效地对于全国做到4G运营的监控工作。
在对外应用,行业应用,互联网金融,汽车,酒店,商圈,电商,这是目前为止我们已经找到,已经建立了初步的业务关系的一些合作领域。另外我们还要大力推广大数据能力开放平台,准备尝试让第三方合作伙伴有展现自己能力的机会。最后对于数据开放这也是热门的话题,我们是积极抱着参加大数据活动的态度,共同地与同行探索数据开放之路,推进数据法律法规的完善。
下面是一些细节,对存量经营,应用的一些细节,我也就不一一讲了,我不知道这个材料会不会提供给大家,比如说存量经营当中怎样通过数据采集、加工为用户画像,然后再这个维系平台上根据营销活动的分客户群进行二次达标,推给渠道,最后形成用户环节的办理。另外一个是语音分析,需要非结构化的语音文件,转换为大数据平台的能力,做语音识别,对数据进行建模,然后对客服的电子化进行根源分析、确认等等。
在这个方面我们已经启动了十个省份的试点工程,这个智能语音分析的工具的使用者主要是总部的客服中心,与省份的客服中心是一个两级使用单位。这次试点工程涉及的十个省份在这里也列出了,它代表了联通大概占全国的总的通话量的50%以上。我的介绍就到此为止,通过这个第一个是给大家回顾一下2014年我们在大数据建设方面所做的工作。第二个就是为大家介绍一下我们在2015年规划的一些项目,从应用层面和平台层面,谢谢大家。