面向大数据的时空数据挖掘

  时空推理和数据挖掘的深度结合

  时空数据中的时间关系和空间关系通常比较复杂,尤其很多可度量的和不可度量的时间关系和空间关系都是隐含在时空数据中,这就需要在数据挖掘系统中结合时空推理加以考虑这些复杂的时空关系。时空推理和数据挖掘的深度结合,一方面可以发掘更多时空模式及信息,增强时空模式的可理解性;另一方面可以显著提高挖掘的效率和质量。但有利亦有弊:挖掘数据中隐含的时空关系必然会引入某种程度的不确定性和模糊性,这将很大程度上影响数据挖掘的结果。因此,结合时空推理和数据挖掘需要适当折中模型表达能力和时空推理能力。

  面向大数据的时空数据挖掘的应用

  如上所述,时空数据挖掘的应用非常广泛,如交通运输、地质灾害监测与预防、气象研究、竞技体育、犯罪分析、公共卫生与医疗及社交网络应用等。这里我们简单介绍两个时空数据挖掘的应用案例,借此了解一下时空数据挖掘在现实生活中的实际应用。

  案例一 - 时空数据分析预测

  第一个案例是关于亚特兰大某地区如何根据 1997 年到 2005 年的人口普查数据从而选择 2006 年需要新建银行分行的地点。我们收集的数据包括:1)该地区的地理信息(地图文件);2)该地区从 1997 年到 2005 年已有银行分行的位置分布情况,包括每个分行的具体地址等;3)该地区从 1997 年到 2005 年的人口统计信息,包括区域 ID,人口密度,家庭收入,男女比例,人种比例等。通过时空数据预测分析,我们可以根据往年银行分行的发展趋势预测出该城市银行分行在下一年即 2006 年的分布密度,同时可以根据该城市家庭收入预测出 2006 年的客户需求,从而得出基于时空数据的银行分行的供求关系,继而确定需要在下一年新建银行分行的准确地点,即选择供不应求的地点进行银行新建。

  案例二- 时空数据关联规则

  第二个案例是基于一件发生在美国华盛顿州斯波坎市的一个真实的犯罪历史的犯罪模型分析。这则犯罪事故共发生犯罪事件 816 起,犯罪类型包括吸毒(167 起),抢劫(97 起)和车辆盗窃(552 起),发生时间从 2009 年 1 月到 2010 年 3 月,涉及斯波坎市的 10 个区和 23 条主要街道。我们得到的数据包括斯波坎市的部分地图信息,三种犯罪类型的统计信息以及该地区的人口统计信息,包括人口密度,家庭收入,男女比例,人种比例等。通过时空数据关联规则分析,我们可以根据每种犯罪事件发生的时间和地点得出该种犯罪类型和特定时间段和地理位置的关联关系,比如周末在公路附近多发吸毒事件等。同时我们还可以从时空数据分析中得到非时空数据的关联关系,比如人口密度小的地区多发抢劫事件等。

  时空数据理解

  与传统的数据挖掘一样,不管是时空数据分类预测,时空数据关联规则挖掘还是时空聚类,获取足够的时空数据并充分理解这些数据的特征及属性是时空数据挖掘的先决条件。时空数据,顾名思义,必然包括与时间序列相关的数据以及与空间地理位置相关的数据,另外时空数据挖掘还必须包含将要分析预测或者寻找关联规则的事件数据,也就是在特定时间和空间下发生的具体事件。

  时间数据的理解

  时间数据是指和时间序列相关的数据,表述了目标事件随时间的不同而发生的变化。现实中的数据常常与时间有关,按时间顺序取得的一系列观测值就被称为时间序列数据,这类数据反映了某一事物、现象等随时间的变化状态或程度。如我国国内生产总值从 1949 到 2009 的变化就是时间序列数据。对时间序列数据进行更深一步的分析和处理,对人类社会、科技和经济的发展有重大意义。目前时间序列的数据挖掘是数据挖掘的重要研究热点之一。时间序列数据可作年度数据、季度数据、月度数据等细分,甚至以周、天、时、分、秒为周期,其中很有代表性的季度时间序列模型就是因为其数据具有四季一样变化规律,虽然变化周期不尽相同,但是整体的变化趋势都是按照周期变化的。

  上述案例一中,该地区从 1997 年到 2005 年已有银行分行的位置分布情况和人口统计信息就是时间序列数据,找出该地区银行分行从 1997 年到 2005 年之间随时间的发展趋势,从而预测下一年的分布情况是时空数据分析预测的重点之一。在案例二中,从 2009 年 1 月到 2010 年 3 月发生的犯罪事件也包含了时间数据,我们需要进一步分析犯罪事件发生的时间周期(以月为周期,还是以周甚至以天为周期),从而更准确地挖掘出该犯罪事件的发生和时间的关联关系。