大数据挖掘中最重要的是决定挖掘什么样的知识,这是在数据的收集、处理、挖掘的整个过程中都需要认真考虑的问题。本文首先提出大数据挖掘的几项策略,即尽量设想挖掘的场景,尽量多方面收集数据,尽量将数据整合,悉心观察数据特征。之后结合自己在互联网搜索中的大数据挖掘工作经验,分享对这些策略的体会。最后介绍一个互联网搜索中大规模日志数据挖掘的工作,展示大数据挖掘的威力,呈现大数据挖掘的挑战。
1.“挖什么”与“怎么挖”
大数据技术涉及存储、搜索、传输、计算、挖掘等多方面,本文只考虑大数据的挖掘。大数据挖掘旨在从大数据中挖掘出未知且有用的知识。通过挖掘,大数据的价值才得以体现,所以挖掘对大数据有着举足轻重的意义。
大数据挖掘有两个基本问题,即“挖什么(what to mine)”与“怎么挖(how to mine)”。前者决定从数据中抽取什么样的信息,统计什么样的规律,后者决定怎样具体进行抽取与统计。前者是在数据的收集、处理、挖掘中都要考虑的问题,后者往往仅限于挖掘。“怎么挖”通常是数据挖掘研究的核心,但是“挖什么”在数据挖掘的应用中往往更为重要,因为它决定了挖掘结果的价值。在实际问题中,决定是挖金银,还是挖铜铁,比决定是用锄头挖,还是用铲子挖更为关键。
2.大数据挖掘的策略
本文总结了大数据挖掘中判断“挖什么”的四项策略,即尽量设想挖掘的场景,尽量多方面收集数据,尽量将数据整合,以及悉心观察数据特征。下面,结合自己在互联网搜索中的大数据挖掘工作经验,介绍对这些策略的体会。
尽量设想挖掘的场景
收集数据是数据挖掘的第一步,需要判断记录、采集哪些数据,这直接影响了能从数据中挖掘什么样的知识。巧妇难为无米之炊,没有某一方面的数据,也就无法从中进行相关的挖掘。但是,存储、处理数据是有代价的,提高数据挖掘效率的关键也在于只记录、采集有用的数据。所以,需要对收集数据的内容进行合理的判断,这时,应该尽量设想挖掘的场景,在此基础上将可能有用的数据全部记录、采集下来。
某公司的工程师们开发了一个互联网浏览器中的工具栏(toolbar)。用户安装了工具栏后,在浏览器中的操作,如点击网页链接,拖动鼠标等,都会被记录下来。在得到用户允许的条件下,这些数据会被传送到该公司的云端服务器。工具栏记录的用户浏览器使用行为数据,可以用于互联网搜索引擎等诸多方面。工程师们对工具栏记录数据内容进行了精心的设计,考虑了各种可能的情况,希望收集的数据能支持多种挖掘任务。用户的IP地址,网页链接的点击时间等都被记录下来。然而,他们忘记记录了一个重要的信息,使得到的数据不利于挖掘使用。原来,用户关闭浏览器的时间没有被记录下来,从数据中无法判断用户何时结束了搜索或浏览行为。由于工程师们没有很好的想象如何使用数据,给之后的挖掘带来了一定的困难。
判断收集什么样的数据牵涉到如何认识世界这一哲学问题。哲学家康德的一个核心观点是:我们所认识的世界是我们用自己拥有的理论对自己观察的现象做出的解释。纸上的一条墨迹,数学家把它看成是平面上的直线,中国人把它看成汉字的“一”。其实,我们想怎样看世界决定了我们看到的世界是什么样的。只有当对数据挖掘的内容有比较清晰的想法的时候,才能对数据的收集范围有比较明确的界定。所以,尽量设想挖掘场景是必不可少的。
尽量多方面收集数据
事实上,我们很难事先穷尽所有可能的挖掘场景,所以也就很难完全准确地判断应该收集哪些数据,不应该收集哪些数据。作为弥补措施,可以考虑在存储、处理能力允许的条件下,尽量多方面收集数据。这是另一项策略。多收集数据总有可能对数据挖掘产生某些帮助。
回到工具栏的例子。工具栏记录的用户互联网访问的行为数据,能大大帮助搜索引擎提高对用户的理解,提高搜索结果的相关性。研究发现,从用户在浏览器中的简单操作中都可以发现许多有用的信息,帮助推断用户的兴趣、意图等[1]。比如,从用户在浏览器中的鼠标移动轨迹中可以估计出他对网页的关注范围,从用户对网页链接的点击可以猜测出他的信息需求,从用户对窗口的关闭动作可以推测出他的兴趣转移。
更多详细信息,请您微信关注“计算网”公众号: