手机上的大数据:音乐

手机听歌

无线音乐是用户利用手机等通信终端,以WAP、WEB、APP等接入方式获取以音乐为主题内容的相关业务的总称,具体包括彩铃、无线音乐俱乐部、及手机客户端软件等业务。可以说在智能手机时代,手机客户端音乐逐渐成为用户享受生活的主要方式。

随着智能手机的不断普及,无线音乐行业成就了一些大头手机音乐客户端公司,这些公司拥有着上百万甚至千万级别规模的用户群体。

手机客户端音乐的不断发展及用户群体的不断壮大,随之也带来了大量无线音乐数据的产生。这些数据看似杂乱无章、繁多冗余,但却隐藏着很多的秘密。如果能有效地对这些数据进行组织管理,并且利用相关技术进行挖掘、分析,少则可以揭示一个公司一次决策实施后的效果,发现公司现有存在的重大问题,多则发现潜在的高价值业务或需求,这些业务或需求很有可能为公司的发展提供战略性指导意见。

下面以国内某著名手机客户端音乐公司的无线音乐数据为例,我们还是按照发现问题、解决问题、结果验证这三个方面来说明无线音乐数据的组织与应用。

发现问题

通过对该数据进行分析挖掘,我们发现如下几个问题。

(1) 用户、歌曲均存在长尾效应

从数据中我们发现用户有两种行为,一种是下载、一种是试听,

每种行为中,我们发现用户和歌曲均存在“长尾现象”,绝大部分用户只试听或下载系统中的少部分歌曲,而大部分歌曲出于闲置状态。具体信息如下图

大数据

音乐的长尾问题

说明:图中左子图横坐标表示用户的听歌,纵坐标表示对应用户所占比例。右子图横坐标表示歌曲的被多少人听过,纵坐标表示对应度歌曲所占比例。造成这方面的原因可能是:数据量大,信息过载严重用户找不到自己喜欢的歌曲。

此时大多数用户直接转向流行榜或热歌榜歌曲,就会造成系统中热门歌曲越热门,冷门歌曲越冷门的现象。

(2) 歌曲覆盖率低

从数据中我们还发现歌曲的覆盖率很低,在整个抽样数据中歌曲

覆盖率只有2.01%。绝大部门歌曲根本没有被用户听过或者下载过,这不仅造成系统资源的大量浪费,而且造成公司资金的无辜流失(因为每首歌曲都要付版权费,而系统中98%的歌曲处于浪费状态)。歌曲的覆盖率累计分布如下如图。

歌曲覆盖率图

说明:图中横坐标表示歌曲的被听歌人数(去重),纵坐标是不小于这个数目的歌曲所占的比例。

造成这方面的原因可能是:大量歌曲处于冷启动状态,数据稀疏。作为冷启动作曲,系统不知道如何把他推送到适当的用户手里,而用户也不能通过有效方式找到他,就使得这类歌曲处理系统的暗处,不容易被发现。

(3) 用户每天听歌时间呈间断性分布

在给定的样本数据中,我们发现用户听歌行为并不是均匀分布,而是间断性分布,即在不同的时间用户听歌集中度不同。为了更好的看出效果,我们将一天分为8个时间段,每个时间段包括3个小时,在每个时间段内用户听歌活跃性如下图。

用户活跃时间图

说明:图中横坐标表示时间段,纵坐标是该时间段内用户的活跃性比。

造成这方面的原因可能是: 下班、休息、乏困疲惫时间

用户在无限端听歌的模式还是倾向于休闲与娱乐,主要是以休息碎片时间为主。

(4) 不同用户对歌曲的属性依赖性不同

在样本数据中,歌曲有专辑与歌手两种属性。我们从用户的长程关联显著性、短程关联显著性等方面对用户的听歌行为进行分析,分析具体结果如下表:

更多详细信息,请您微信关注“计算网”公众号: