电信云公司杨维:中国电信大数据能力开放实践与分享

中国IDC圈4月28日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。

其中,在4月28日上午“大数据与电信业转型”分论坛上,中国电信股份有限公司云计算分公司大数据事业部产品总监杨维发表了主题为《中国电信大数据能力开放实践与分享》的精彩演讲。

电信业-杨维(猜的)

中国电信股份有限公司云计算分公司大数据事业部产品总监杨维

以下为杨维演讲实录:

杨维:尊敬的来宾大家上午好,非常荣幸有这样的机会跟大家分享一下中国电信在整个大数据的运营中的心得,我分享的主题是开放与分享。在我们的经营过程中,中国电信的大数据运营经过了两年多的历程,在这个过程中,各个行业的朋友和专家反复跟我们提一个问题,中国运营商的数据资产是整个社会有机组成部分,你们重要的职责不是自己做产品,而是应该开放出来,让这个数据在社会生产过程中发挥价值,这样才是你们作为一个有情怀的企业应该做的事情,这个问题困扰我们很长时间,因为企业资质的问题,包括国家去年出了很多法规条例,我们感觉在数据开放运营过程中的条条框框越来越重,怎么把数据真正开放出来,把企业责任尽到,这是一直困扰我们的问题,今天我想分享的,在这个过程中目前怎么思考这个问题做了哪些尝试以及可以向大家讨论和分享的方法。

中国电信自身定位目前是在做数据能力开放平台商, 我们是把中国电信的数据资源和能力包装和合法合规的能力向社会开放,在这个当中有三个问题,一个是互信融合,安全合规和怎么高效,现在大家在讲数据在分享过程中需要融合训练,你的数据是你的,我的是我的,都互相不相信,这个数据融合很难推进。什么样的数据是安全的,数据的颗粒度开放出来要安全合规,什么样的数据要关联,这个过程中也出现这样的疑问,作为一个海量的数据,对于社会上广泛的合作伙伴,这个时候性能,以及设备灵活性会成为制约整个数据开放的很重要的问题。

我们当时在整个数据开放的过程中针对这三个问题想,我们到底应该怎么办,我们在想一开始的时候希望有没有成熟的解决方案,包括跟业内开源和大数据厂商做了很多交流,有没有一揽子的解决方案解决我们所有的烦恼,后来发现其实很难,在这个传统大数据处理能力,我们常说的Hadoop之外,要持续开放出来还缺什么东西,我们归结为三项基本能力,四项运营性能力和两项云处理能力,我们在大数据之外把标签的发布整个数据的隔离调度和数据安全的管控以及生产环境的实施构建,在Hadoop之外构建了我们自己的能力。有两套运营体系监控和审计,以及对于数据的治理,这个是我们的主要能力。

互信融合,解决这个问题,我们有一个很简单的思路,假如双边都有数据,把数据放在一个环境里,让他做运算,然后把服务器砸了,每人把这个统计结果去做,这个方式是不是能解决安全问题,大家说这个方式说不定能接受,但是把服务器砸了成本太高,云主机是一个很好的思考,2013年的时候我们过了工信部的认证,我们在想有没有一种可能,在一个云主机环境里构建一台主机,把大数据生产环境布上去,这样和用户的环境是一个专线的打通,大家把数据放上去,运算完之后把这个结果取走把整个云主机模板做删除,这种情况会让大家放心一些,敢把数据放上来,这是我们做的第一个尝试。现在也在做一些试水的应用,这个方式是比较口语化的,更多时候,我们是基于用户空间的处理方式,在整个要做数据融合运算过程中有一定预定义的模板,我们通过定制的模板给用户搭一个混合云出来,通过专线VPN的方式进行打通,通过PaaS技术在主机上时时生成大数据运营环境,生成之后双方把数据放进来做一些运算,最终把结果放在标签系统上,把结果取走,把这个结果做一个完整的删除包括虚机物理文件的数据,这样数据在一个黑盒子中完成运算,通过界面调度,这种情况比以前往前小小的走了一步。