电信大数据关键技术挑战

 

图 10 电信图数据挖掘与社交分析

3.9 隐私保护

电信数据含有用户的通信行为、消费行为、互联网行为、社交行为和时空行为等高隐私信息。隐私保护是需要考虑的一个核心技术。当前隐私保护最有效的方法是差分隐私保护[5]。差分隐私将数据分析人员和分析数据隔离,保证攻击者在有任何背景知识的情况下,都只能以极小的概率区分某个特定用户是否在数据集中。如何将差分隐私保护紧密地结合在电信挖掘的算法中是一个值得研究的课题。从当前实际系统需求分析,另外一个更加重要的隐私问题是防止数据滥用技术的研发。当前数据挖掘都是经过用户授权使用数据,但是电信运营商为了保障数据隐私安全,要求分析人员只能在严格控制的内网分析匿名数据,从而隔绝分析人员和分析数据。而推荐系统等应用需要不断迭代的特征工程以保证最优的挖掘效果,在这种场景下的分析技术尚不成熟,例如无法不断迭代特征工程来保证推荐系统等应用的最优挖掘效果。实际商业中最紧迫的场景是和第三方合作,即授权第三方使用数据完成某项数据挖掘任务(用户授权情况下)时,如何限制分享的数据只能被用在这个特定的数据挖掘任务而不被使用在任何其他场景,即阅后即焚的功能。

4 结束语

电信大数据沉淀于通信管道内,覆盖12亿中国用户,需要运营商、设备商和大数据产业链共同努力以发挥其巨大的商业价值。本文提出的9个技术挑战中,一部分已经有相对完善的解决方案,但大部分还需要研发人员和市场人员的努力,在数据挖掘和商业模式方面做进一步突破。2014年是中国电信大数据元年,到2015年,电信大数据已经在用户洞察、网络洞察和数据开放3个业务方向上积累了不少成功的经验。随着技术进步,电信大数据将逐渐释放巨大的商业价值,提升用户体验,降低运营成本,催熟整个大数据产业链。