电信云公司杨维:中国电信大数据能力开放实践与分享

第二是安全,在安全有五个核心,隔离脱敏,标识授权审计,隔离,在隔离上想做好安全运营,在技术上需要更多的探索和突破,第一,比如我们数据文件,两边的数据文件,如果要来给用户开放,第一,我能不能做到分段的抽取,第二,给这个用户提供三个字段那个提供五个字段,这样开放做融合训练,他能不能把用户的空间隔离起来,第二用户大数据的组件,他在生态里的弱项是多租户隔离,你们有这种技术能力实现这种隔离机制,这是我们去年整个研发工作的重点,我们更多时候是通过已有的开源软件的改造,能够实现一种多租户的隔离。

第三,数据的脱敏,整个数据从采集和生产环节出现之后,会在清洗和转换过程中把一些关键字段用户的信息姓名家庭住址等等包括终端通话记录信息,把这些脱敏做了,保证流入到生产环境的数据安全性要有保证,通过标识把脱敏的数据,假如脱敏之后找不到人了这个数据就没用了,我们通过标识把脱敏的数据彼此之间重新关联起来,产生逻辑关联,在数据使用过程中有授权,你使用哪些数据能做控制,要有审计的痕迹,这样有第三方审计机构做审计才能满足要求,整个安全合规一定要把隔离脱敏标识授权审计五个环节做好之后,数据的开放才能落到实处才敢开放出来。

数据假如能开放出来之后有几个开放的形式,我们现在碰到的开放有三类,第一类,我们有一些查询,这些是需求最大的,他更多是以标签接口的方式提供,这种对应用的设备性最强,第二是有些科研院所,他们可能是基于希望把数据做关系化处理,比如开环表的方式。整个从服务模式上,接口方式对接所有的APP、应用和运营系统。再往下是有关系化的环表做训练,这个在技术准备上做很多储备和工作。这是我们去年在加入BGU联盟之后有一个天翼大数据生长计划,希望跟大家合作挖掘这个数据的价值,在整个接口体系开放出来之后,整个调度量有一个比较明显的上升,这是到去年11月的数据,到今年为止整个对外开放服务平台,已经基本上到四百到五百亿次每个月,感觉到确实让这个数据为社会做一些价值。

最后是数据开放的运营体系,这个图是我们内部从数据产生到开放出来的发布,他中间要有一个27步的过程,在这个数据开放过程中,随着工作加深更多要减少人的参与,只有人参与的少过程是固化的,这样一个流程才是安全可控质量稳定,最终这个服务才能被这个社会所接受。数据开放整个运营体系,整个过程中的清洗集合,这样开放的数据才是有价值有质量的。