第三个是行业知识建模技术,这些技术它解决的问题是光有用户行为数据是不够的,特别是我们要面向“互联网+”的话,我们必须把这些数据和我们的领域知识进行有效对应,才能发现它真正的背后价值和意义。第四个是场景智能推荐技术。第五个是数据源很大的时候,数据降维和关联分析。第六个是大规模交互式数据可视化技术。第七个是数据安全和隐私保护。这些技术也是我们灯塔大数据重点研究的方向。我们希望通过技术创新能够发现一些比较好的有意思的东西。
后面是我们的不同探索。比如数据拼接技术,在灯塔里面,除了运营商内部的数据资源以外,我们也通过数据爬虫,通过和其他大数据团队、公司之间的合作,也有很多第三方的数据源,我们怎么通过这些事情把不同来源数据进行有效拼接呢?比如我们在一些地区,我们怎么样去打通手机号、邮箱号、淘宝号等等它们之间的关联关系,打破它们之间的关系,让不同来源的数据有效拼接在一起。这里采取了不同的技术模型,模型我不细讲了,大家感兴趣以后我们可以交流。
深度标签技术,这里我们也列举了算法,也跟一些高校在合作。打个比方,我们怎么样判断一个人的消费行为,大家如果做消费行为分析的时候就会知道,男士和女士他们的消费行为是不一样的,有一些典型的消费行为。当然也有一些人的消费行为介于男士和女士之间。我们做分析并不是通过原始数据发现比如你这个消费者是男性还是女性,而是通过你的消费行为,比如你买了什么东西,你关注什么新闻,你关注什么样的帐号,通过这样的行为去推测这个人的性别行为。这个性别行为和一个人的真实是有差异的,但一个人生理上的性格和真正购物时做决策的行为之间哪个更准不好说。