活的大数据实战——人群标签及标签关联性挖掘

诚然,每个个体的行为也许都不尽相同,但都是有规律的。通过海量数据的获取与分析,能够获得人们的行为习惯的有效信息,当信息量累积到足够的规模之后,科学家们通过建模找寻数据间的联系,从而对每个人的个体行为习惯进行推测,并提供分析。而“棱镜”计划正是通过海量数据的收集,建模与分析,找寻到单一个体与诸如“恐怖袭击”、“隐藏罪案”等事件间的联系,并采取相应应对方式的计划。

当洛杉矶警方通过“棱镜”计划所收集到的数据,对几十年的犯罪记录进行分析后,预测犯罪行为模式与频率,从而有针对地安排警力的时候,广告主也可以通过分析海量客户的购买行为能够了解客户,进行有针对的营销以提升业务,而易传媒人群标签算法,就是帮助广告主了解用户并提升投放效果的数据分析模型,是“活”的大数据的现实实践者。

“活”的大数据实践者——

美国记者华莱士曾经谈笑风生地说:“如果它看起来像鸭子,游泳像鸭子,叫声像鸭子,那么它可能就是只鸭子。”

而易传媒人群标签算法,就是帮助广告主找到“鸭子”。

在营销界,啤酒和尿布的案例一直为人们所熟悉。普通人可能无法理解,为什么尿布与啤酒这两种风马牛不相及的商品摆在一起,居然使两者的稍量大幅增加。原来,妈妈们通经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来了大量的利润,而在互联网浩如烟海却又杂乱无章的数据中,发现类似“啤酒和尿布”之间联系,就是人群标签算法的核心价值所在。

人群标签算法首先根据互联网的行为属性将人进行了区隔,随后分析不同人群之间的共同属性,建立人群间的联系并应用于后续的广告投放。

这好比某超市门店发现:老张买了2瓶啤酒、4袋花生米。可是在超市中,了解一个又一个老张们的喝酒习惯没有意义。门店需要知道的是,有多少个老张?又有多少个喝酒习惯不同的老李?将喝啤酒配花生米的老张与喝干白葡萄酒配腰果的老李分开,分成不同的客户群体才有意义。比如只要知道,在喝酒的100个客户里,有30个喝啤酒配花生米的老张,10个喝干白葡萄酒配腰果的老李,另外有20个老王是喝黄酒配豆腐干,这就足够了。这时就可以知道,啤酒与花生米有关系,干白葡萄酒与腰果有关系,黄酒与豆腐干有关系,那么这些商品可以考虑一起促销,或者摆放在相近的位置进行陈列。

易传媒人群标签算法,是将互联网上的“老张”、“老李”、“老王”区分开,并找到他们真正关注的内容,将其标签化处理后,分析标签间的关系并进行关联化投放的算法。比如我们发现到把浏览汽车网站作为每天必做事项的老张,也经常搜索“LED电视”,从而对其标记“汽车”与“LED电视”的人群标签,当发现千千万万个“老张”都同时具有“汽车”与“LED电视”标签的时候,我们发现这两个标签似乎存在某种必然的联系,便可对这些“老张”们,投放LED电视的广告了。而这在过去,仅凭经验主义大行其道的时代,汽车与LED电视,便如啤酒与尿布一样,是风马牛不相及的两种东西,是万万想不到这两者之间的联系的。

互联网的海量数据不仅可以提炼归类并开发成为实用的系统工具,在实际执行中,数据也是无处不在并且可以被扩展化使用的。而“人群标签算法”就是赋予数据活力,使大数据“活”起来的一种典型体现。人群标签算法是通过线上人群行为数据的收集,抽取并标记以产品导向的兴趣标签,经由人群标签聚类,并对人群进行行为及兴趣趋势分析的流程化算法。

通过持续的、多渠道的、海量的数据收集及管理,易传媒从线上到线下,从在线到移动,将受众进行纳米级微分,帮助广告主最准找到人、管理人,支持强大的受众区隔,提供包括26类人口属性细分、20大类159小类行为兴趣细分、3大类产品行业、数千种行业产品意向细分,共13000多个、3层结构的受众标签。

大数据时代,最大的创新就在于,人们可以通过算法科学家及数据分析师们不断调整优化的数据模型来解读大脑无法处理的数据间关系,我们的四周充斥着数据,而我们的生活也被不断收集数据的计算机引导并优化着。