第二个现象是“加关键词明确副主题(Subtopic Clarification by Additional Keyword)”,也可以用于副主题挖掘。用户在查询时,会主动明确副主题,在主查询词的后面(或前面)加上关键词,如“harry shum microsoft”,“harry shum jr”。属于同一副主题的网页链接往往在被加同样关键词的查询中点击,根据链接是否在加同样关键词查询中被点击,可以将它们聚类,得到的类也对应于副主题。
我们的方法能够根据以上两个现象挖掘出查询的每个副主题,副主题由网页链接、以及附加关键词表示。利用特殊的数据结构,可以将Bing的三个月日志数据在一天内进行一次高效的挖掘。对于高频查询,可以得到非常精准的挖掘结果(详见[4])。可以看出,大数据确实能够发挥巨大作用。
另一方面,我们的方法对低频查询无法适用,因为没有足够的点击数据,也就是说会遇到长尾挑战[5]。用户的行为数据大多遵循幂率分布(power law distribution),现在基于统计的数据挖掘方法对尾部数据依然是束手无策。
4.总结
大数据挖掘关键是决定挖什么,这比决定怎么挖更为重要。收集数据时,应该尽量设想挖掘的场景,尽量多方面地记录、采集数据;收集数据后,应该尽量将数据整合在一起;数据挖掘前,应该悉心观察数据,以帮助判断挖掘什么样的知识。只有这样,大数据挖掘的价值才能得以体现。
大数据挖掘极具威力,但也有局限性,会遇到长尾挑战。结合事先给定的知识进行挖掘,或许是解决长尾挑战的一条出路。纽约时报记者能从搜索查询数据中挖掘出用户的身份,也是因为用了基于常识的推理。机器要变得具有同样的智能,需要采用相同的手段。
大数据时代刚刚开始,相信今后在各个领域,各种应用中,大数据挖掘都会推动创新,对技术发展带来巨大影响。这一点确实令人振奋。
大家都想一想从自己拥有的数据中可以挖掘出什么样的金子吧!
参考文献
1. S. Fox, K. Karnawat, M. Mydland, S. Dumais, and T. White, Evaluating Implicit Measures to Improve Web Search. ACM Transactions on Information Systems 23, 147-168, 2005.
2. Daxin Jiang, Jian Pei, Hang Li, Mining Search and Browse Logs for Web Search: A Survey, ACM Transactions on Intelligent Systems and Technology, 2013, to appear.
3.A Face Is Exposed for AOL Searcher No. 4417749, New York Times, 2006.
4.Yunhua Hu, Yanan Qian, Hang Li, Daxin Jiang, Jian Pei, Mining Query Subtopics from Search Log Data, In Proceedings of the 35th Annual International ACM SIGIR Conference (SIGIR’12), 305-314, 2012.
5.李航,克服长尾挑战(Overcoming the Long Tail Challenge)
VIA:李航博士的博客
更多详细信息,请您微信关注“计算网”公众号: