杨明川:运营商大数据,困难中前行

结果就是两大块,我们会越来越意识到数据的价值不如预期,另外一方面我们发现我们通过大数据做出来的东西它的结果是很难验证的,这里面无论是技术还是应用方面,现在还没有完全有效地发展出一套大数据层面上验证结果有效性的手段,从我们做创新的角度来讲,有几个关键性的问题我们要考虑,数据质量不高是常态,怎么建立更加有效的方法。大家都知道,大数据在这么庞大的数量下,特别是数据质量不高的情况下怎么去运作。第二,大家之前一直在谈四个V,有一个谈到价值密度的问题,我们怎么寻找价值的高地,再加之密度很低的情况下找到有价值的地带,大家都知道四个大金矿,但金子是很难挖出来的。用户的隐私保护很重要,如果我们管得过死,什么事也干不了,怎么找到最佳的结合点。整个产业有这个问题,运营商不可避免地也会遇到这样一些问题。

从运营商来讲,我们主要接触的是网络大数据,我们重新再思考一下运营商的大数据的应用特征。有几个特征值得认真地check。大数据的廉很重要,就是便宜,Hadoop是一个很廉价的手段,不仅仅是因为它是开源的,他做大规模处理的时候是很廉价的。我们做大数据,追求的不是要像原有的数据分析方法那样得到高质量的、高价值的结果,大数据的核心是在低成本的方式下做一个可接受的成本,这是大数据首先要考虑的问题。第二是快速,数据的价值随着时间快速地衰减,现在再去用一年之前的数据就没有多大价值了。数据处理的速度越快,数据价值越高。三是维度的问题,所有的数据只有发生关联才有价值,怎么解决同一个对象的多种描述,怎么把不同维度的数据关联起来,这是很重要的一个特征。最后是大数据是产业层面上的问题,不是一家企业独自就能把大数据做起来,它一定是在产业链条的不同维度,不管是时间维度还是空间维度各方的数据进行有效的关联,它得到的数据价值才是最大的。基于我们现在的思考,这两条线不是分离的,是密切缠绕在一起的,相互之间是连接的,我画了一个图,跟DNA的双螺旋很相似,螺旋一条线是技术创新,一条线是应用创新,它们之间密切关联,而且密切缠绕在一块。我们现在做的事情其实就是围绕这两条线去做创新。

先来看技术这条线,刚才讲了我们有很多问题和困难,怎么去解决这些问题和困难呢?我们觉得下一步我们首先要克服这些问题,数据拼接,把系统内部不同的数据和来自不同系统的数据拼接在一块,这是两个层面的拼接,一个层面是同一个描述的不同,比如运营商有中国电信、中国移动、中国联通,不同的运营商都有不同的客户群,把不同客户群的数据怎么拼接在一起,这是一种拼接的维度。还有一种拼接的维度,大家做分析的时候,比如我们有社交媒体的数据,也有网络行为的数据,也有打电话的数据,这些数据怎么归结到一个对象上,这是从不同维度的拼接,这是一个关键的问题。

深度标签。大数据很常见的输出方式,我做用户画像,通过标签来体现,怎么通过对用户的深度分析得到深度的标签。我套一下高尖这个词,通过多种处理之后高度抽象的词,更准确地刻画一个对象。行业知识建模技术。互联网+一定是和行业相关的,我们之前做行业遇到的最大问题是我们需要很深的领域专家,怎么把领域知识数据化,这是大数据接下来面临的关键问题。还有一些问题我就不细介绍了,基于场景的智能推荐技术,海量模糊数据降维和关联分析技术,大规模交互式数据可视化技术,数据安全和隐私保护。

我们做了很多尝试。多维异构的数据拼接,最早我们依赖于Hadoop的数据库方式,这种更多的是线性结构,虽然我们没有结构化,虽然我们的数量很大,但更多的还是以线性的表格方式去做。我们要解决多维异构的拼接方式,我们现在在用图的方式构建关联模型,用ID作为关联方式,我们把不同的数据、不同来源的数据、不同特征的数据,通过图的方式把它关联起来,构建一个巨大的图的模型。我们现在数据库里有上千万、上亿的关联,能够把一个用户不同的ID关联起来,这样的话同时也为我们带来一个新的空间,未来做大数据,从对人的分析会进到对物联网的分析。

第二,我们称为基于行为的深度标签技术,我们给用户打标签有两种,一种是固态化的固定的标签,比如性别、年龄、特征、工作单位、住哪儿,这是硬的标签,大数据里真正有价值的是软的标签,我分析一个人的性别,并不是从身份证上看他是男是女,而是通过他的各种行为,他的网络浏览行为、他的兴趣爱好,从这里面构建一个更加灵活的性别标签。每个人的性别行为是很复杂的,没有那么简单,男性也有女性化的倾向,女性也有男性化的倾向,我们觉得未来的深度标签可能是更加模糊、不是零和一的状态,这是一个例子。未来我们希望通过机器学习的方式,归纳出深度的基于行为的标签,这些标签未来会更有价值。目前我们在这方面做了一些尝试,做了一些算法,具体的原理我们就不讲了,算法本身不是很复杂,关键是在你自己的数据级上,在你自己的数据基础上怎么对这个算法进行优化和调整,能够对算法的结果进行不断的迭代。