手机上的大数据:手机大数据的挑战

本文由百分点信息无线业务部高级总监李晓东、Talking Data COO徐懿以及成都电子科大的龚亮联合撰写。

通过手机阅读、手机音乐上的用户行为,我们可以看到手机大数据在移动互联网应用上的威力,但同时,手机上的大数据也不是万能的,它的发展还面临着很多实际的问题和挑战。

数据的稀疏性

智能手机端的App应用数以十万计,但是每个应用中两个用户之间选择的重叠非常少,如果用用户和商品之间已有的选择关系占所有可能存在的选择关系的比例来衡量系统的稀疏性,在我们研究的几个App数据中,稀疏度均不超过4%,其实这些其实都是非常密的数据。想想一个具有千万级用户,百万级歌手的App,平均而言一个用户能听100首歌吗,估计不能,所以稀疏度应该在万分之一或以下的量级。

这个问题本质上是无法完全克服的,但是有很多办法,可以在相当程度上缓解这个问题。比如扩散方法、随机缺省值方法、随机选择等.

冷启动问题

在我们前面讨论的音乐APP中,我们发现歌曲的覆盖只有2%左右,这个是由于大量歌曲出于冷启动状态造成的。这是因为新商品由于被选择次数很少或没有,难以找到合适的办法推荐给用户结论。

最近一个有趣的研究显示,新用户更容易选择特别流行的商品—这无论如何是一个好消息,说明使用热歌榜也能获得不错的结果。

大数据处理与增量计算问题

尽管数据很稀疏,大部分数据都包含百千万计的用户,与此同时新用户不停进入系统。数据量不仅大,而且数据本身还时时动态变化,如何快速高效处理这些数据成为迫在眉睫的问题。在这个大前提下,算法时间和空间的复杂性,尤其是前者,获得了空前重视。一般而言,一个高效的算法,要么自身复杂性很低,要么能够很好并行化,要么两者兼具。

随着加入的信息量的增多,最终每过一段时间还是需要利用全局数据重新进行计算。更先进但也更苦难的办法,是设计出一种算法,能够保证其误差不会累积,也就是说其结果与利用全部数据重新计算的结果之间的差异不会单调上升。

用户行为模式的挖掘和利用

深入挖掘用户的行为模式能更准确的抓住用户喜好,从而有希望做出更好的用户体验。譬如说在音乐APP中,新用户和老用户具有很不一样的选择模式:一般而言,新用户倾向于选择热门的歌曲,而老用户对歌曲的多样性关注更多。

用户行为的时空统计特性也可以用于提高者设计针对特定场景的应用。举个例子,在进行手机个性化阅读推荐的时候,如果曾经的数据显示某个用户只在7点到8点之间有一个小时左右的手机阅读行为(可能是上班时在地铁或者公交车上),那么9点钟发送一个电子书阅读的短信广告就是很不明智的选择。从含时数据中还可以分析出影响用户选择的长期和短期的兴趣,通过将这两种效应分离出来,可以明显提高推荐的精确度。