我们究竟从大数据中挖掘什么?


 
尽量将数据整合
 
让数据发挥更大作用的办法是将相关数据整合在一起,用于挖掘。数据整合有助于帮助了解事物的全貌,发现未知的关系,提升预测的准确率。局部数据只是“罗之一目”,而整体数据才是“弥天大网”。
 
图1所示为互联网搜索中的用户行为模型。该模型虽简单,但属于基本模型,互联网搜索中用户的行为数据都可以纳入其中,可以对用户的行为进行描述。现实中,该模型的数据需要从多个数据源中获取,并通过整合处理而得到。
 
互联网搜索中首先有许多用户。每个用户会多次使用搜索引擎,每次使用完成一个查询任务,构成一个会话(session),每个会话又由多个查询组成。每个查询中,用户提交查询语句,搜索引擎返回结果,用户根据其内容判断网页的相关性,点击相关网页的链接,浏览网页。浏览过程中,用户可能按照网页的链接,浏览多个网页,之后返回搜索结果,也可能直接离开。用户在浏览器中的动作,可以通过工具栏记录下来,传送给搜索引擎,但是,基于效率等考虑,搜索引擎返回的结果往往不会被工具栏记录。相反,搜索的结果会被搜索引擎记录下来。所以,将客户端与搜索引擎端的数据进行整合变成互联网搜索数据挖掘工作中的一项重要任务。浏览器记录的用户ID与搜索引擎记录的用户ID往往不一致,将同一用户的不同ID联系起来并非易事。

图1. 用户搜索行为的模型

 
悉心观察数据特征
 
决定从数据中挖掘什么,首先需要对数据有深入的了解,需要对数据进行认真细致地观察。只有对数据有深刻的认识,才有可能从中挖掘出深层的知识。AOL隐私泄露事件是一个着名的“人肉数据挖掘”成功事例,说明只要细致观察与推理,我们可以从数据中发现许多事情。
 
2006年AOL公司,为了促进研究,发布了搜索查询数据集,包括65万用户三个月中在AOL搜索提交的2千多万查询。为了保护用户隐私,AOL将用户的个人信息删除,对每个用户赋予了一个ID。纽约时报的一个记者对AOL数据进行了观察、分析,利用电话号码簿,很快确定出ID为4417749的用户是居住在佐治亚州的60岁的单身妇女Thelma Arnold[3]。具体地,这位用户提交了“landscapers in Lilburn, Ga”的查询,从此可以推断此人大概住在佐治亚州Lilburn。该用户又提交了多个含有Arnold的人名查询,可以揣测此人大概姓Arnold。该用户又搜了“60 single men”,可以猜想此人可能是60岁左右的妇女,等等。
 
AOL事件说明了数据挖掘中保护用户隐私问题的重要性(本文不讨论隐私保护问题),同时也说明了认真观察数据,可以挖掘到许多深层的信息。
 
3.大数据挖掘事例
 
互联网搜索引擎,索引几十亿以上的网页,每天有几十亿次查询,收集几十TB的日志数据。这些数据是典型的大数据。
 
下面介绍一个互联网搜索日志数据挖掘例子:查询副主题挖掘。这是与微软前同事等的工作[4]。互联网搜索中的查询,或者表示多个语义,或者表示事物的多个侧面,统称为副主题(subtopic)。前者的例子,如图2所示, 查询“harry shum”意味着用户可能要搜索微软的副总裁,也可能是搜索美国的演员。后者的例子,如查询“xbox”意味着用户可能想找游戏攻略,也可能想购买游戏机。如果能判断查询的副主题,那么可以将该搜索结果进行聚类,把同一个副主题的网页放在一起,帮助用户迅速找到想要找的所有信息。根据副主题对搜索结果聚类是一个热门研究课题。传统的方法根据搜索结果中网页摘要的相似度对网页进行聚类,效果并不理想。我们提出的方法事先从搜索日志数据中挖掘出查询的副主题,用户搜索时,根据挖掘好的副主题,对查询结果进行聚类,效果提升显着。副主题挖掘利用了用户搜索的两个现象。

图2.查询“harry shum”有两个副主题(subtopic)

 
我们观察到的第一个现象是“同一查询同一副主题(one subtopic per search)”。用户每次进行查询时,往往只考虑一个副主题,要搜副总裁的Harry Shum,就不会搜演员的Harry Shum,反之亦然。这一点会反映在用户的日志点击数据上。在同一次搜索中,用户点击的多个网页链接往往集中在同一个副主题上。将某一查询的大量的点击数据汇集起来,根据链接是否常在同一次搜索中被共同点击,可以将它们聚类,就可以挖掘到该查询的副主题,这时,链接的每个类对应一个副主题。

更多详细信息,请您微信关注“计算网”公众号: