移动段云峰:中国移动大数据系统架构研究与实践

第三个层面是SaaS,从中国移动来说是做探索,我们原来提过BIStore,模仿苹果做的APP开发的尝试,这是在五年前做过的一些BI领域的,应用开发的内容,上面是对外的政府交通做的差不多,在做这方面的对外服务,现在用的比较多的政府交通金融,我个人觉得将来大数据应该成为基础设施像现在的电信网络,中国移动将来可能会具备更多的,电信行业有更多这样的机会。因为将来所有的数据都在你手上。这是整个中国移动未来的大数据走向,一个IT架构首先要结合企业的特征管理模式和企业文化各方面,中国移动目前是两极架构,一个是两极反应,管理文化,我个人觉得集中化和分布化各有利弊,这种方式可能给省里营销的灵活度更高一些,营销资源和响应度更快一些,将来我们大概期望的目标方向是一个云化的资源池,我们叫1+N,N的节点还存在,非N组合在总部,大概是这么一个架构,是我们目前能够感受到的。

下面介绍一下我们在实践过程中的技术,包括业界比较流行的Hadoop,Sql,数据采集等等在中国移动两三年前开始做了,有一些成果。这是Hadoop平台,有做了划单的处理,划单查询从秒级到十秒级,压缩率比较高,这是Hadoop的一些优势。Sabk提高了速度,数据量是120,汇总减少3个小时,效果很显著。在MPP上,从原来的小机到(Wortk)性能提高了6倍,流处理做到秒级的展示,能做到时时监控,还有一些是Sql,主要是HBase,它的差距速度比较快,主要是用于查询,用复杂操作的时候也有一些问题,再是时时流处理的情况,业界有一些框架,每秒钟处理多少话单。很多在大数据处理过程中理论上可以OK的东西,真正实际系统压上去以后,不一定跑的下来,所以中国移动不得不做一些改良,做一些技术的调整。下面是几个关键点,首先是目前的架构,我们用了一个混搭的架构,我个人觉得是业界的技术没有一个好的能够完全一统江湖。我不同数据的技术处理不同数据的内容,站在一个用户的角度是希望把所有的东西都统一起来。Hadoop从我们实践的情况看,在有些计算上速度很快,但是Hadoop对我们国营企业面临的问题,内升外降,X86是便宜了,但是人工成本上来了,国企有些时候调人工有些问题,人工成本很难瞬间上来,不像互联网公司。Hadoop后头发展的走向也面临很多的挑战,中国移动也在做自己的研究院和大营,我们也希望加强一些核心技术的研发工作。

包括NoSql和MPP的数据库,我们现在的定位也在探索,什么样的应用业务什么样的性质业务特征压在上面,他并不是万能的,我们现在是取长补短,哪些系统放在上面都要做,这个过程很痛苦,还是希望将来能够统一起来,因为站在用户角度来说不可能养三套班子,这个成本太高。而且现在Hadoop的问题是人才极其匮乏,现在国内的本科教育里没有Hadoop的课程,这导致了你基本都是靠大家工作以后自学成才,这个成本极高,一个本科生毕业就可以写Sql,这个语言比较简单,基本上都做过职业训练,但是Hadoop最要命的是这方面的人才比较少,培训缺乏一个体系化,这些对会用户应用带来一些问题,互联网的高新模式,中国大部分企业不具备这个能力,将来中国移动怎么把他弄的更好,这是一个课题。

这是大数据的安全,中国移动整个安全系统是十年左右建设的历程,2005年开始做安全管控,原来我们的安全比较成熟的一套体系,比如在数据仓库领域,很多安全管理产品化,都是可以拿来直接用,现在面临的问题像Hadoop的开源性的安全怎么做,现在有很多瓶颈,内部在做技术的探索。而且Hadoop的机制本身不是特别稳定,不是特别产业化的东西,所以他的安全管控都是我们要面临的问题。我说Hadoop像回去重新写汇编,当年写Sql,JAVA,现在又重新回去了,要写一些细节的东西自己去管理,这些细节处理包括安全开源系统怎么做,原来一些脱敏技术怎么在Hadoop平台上形成,这是我们现在面临的一些问题。

整个中国移动做了十年,基本上把安全上能考虑的技术细节都在做探索,尤其是Hadoop,我问遍了业界,Hadoop自身内核怎么做架构还没有人研究,中国移动现在在做这方面的探索。第三个,对外服务,很多专家都分享了怎么把数据对外服务,这是我们一个实际的案例,是一个智慧洞察的开放,API的对外服务大家艘这个智慧洞察可以查到中国移动做的报告景区分析智慧城市的分析,这是三年前做的情况,效果很好。大数据对外经营方面,电信运营商目前还没有进入到主业,我们在一个省里有半个人一年做数据运营业能挣1500万,我说的是在合法合规的情况下做一些合法合规的数据经营对外服务,而且是没有正式做,如果真的做,大数据的运营远超过网络层面带来大家的利益。