面向大数据的时空数据挖掘

  结合空间的时间序列预测

  结合空间的时间序列预测是从时间的角度来考虑时空数据。与传统的时间序列不同的是,与空间有关的时间序列彼此不是独立的,而是和空间相关的。例如,可以首先构造时间序列模型以获取每个独立空间区域的时间特性,然后构造神经网络模型拟合隐含的空间相关性,最后基于统计回归结合时间和空间预测获得综合预测。

  时空预测的理论框架

  如上所述,时空预测根据时空对象的不同有不同的分类方法,本文我们重点介绍 IBM SPSS Modeler 中对于包含时间和空间两种属性的数据的建模与预测。其提供了一个综合时间和空间属性的有效的手段,充分利用各种数据序列的特征,将时间、空间及时空自回归预测方法有效地结合,并在预测同时考虑了研究对象之间的空间影响关系,从而提高了预测的精确度。

  时空数据建模

  时空预测模型实质上是一个基于线性回归的扩展模型,其原理可以用如下公式表示:

  其中, 系数β是自变量的系数,表示自变量对于目标变量的影响程度;Z作为线性拟合的残差,是目标变量变化中用自变量线性组合无法表示的部分,可用来在自回归(Autoregressive,AR)模型中捕捉时间自相关性,进而用于描述空间的相关性。我们可以通过图 1 所示的流程图来具体讨论这一过程。

  图 1. 时空数据建模流程图

物联网

  Job0:准备工作

  针对时空建模的复杂性,适当的数据验证和缺失值筛选将有助于模型的构建。通过检测,包含缺失值或无效值百分比较高的一些样本位置将从分析中删除,而缺失值或无效值百分比较低的样本位置则被留下来,后期建模过程中将对其进行特殊编码处理,以尽可能多保留数据信息。

  Job1:拟合线性回归模型

  回归模型采用标准的线性回归模型(包括或不包括截距),但由于数据的时空相关关系,其残差会形成一个零均值的非独立的时空相关随机过程。线性回归的系数,可衡量自变量对目标变量的影响程度,较大的系数对应的自变量表明其单位变化会产生较大的目标变量变化。

  Job2:拟合时间自回归模型

  自回归模型使用指定的自回归阶数,即指定之前若干个时刻的值来预测当前值。自回归的系数可用与衡量过往时刻的残差对当前值的影响。自回归模型同样包含残差,由于其中的时间自相关因素已被移除,自回归模型的残差在时间上是相互独立的。

  Job3:计算时间自回归模型残差并建立空间协方差模型

  基于地理空间的协方差模型建立在时间自回归模型残差的基础上,空间协方差模型有两种实现方法:参数法和非参数法。参数法具有更精简的数学表达式和更好的模型推广能力,所以在假设所给数据能够进行参数化建模的情况下,提供了两个参数检验方法来确定模型的准确性。其一是检测是否空间中存在随着距离而变化的衰减,其二检测空间方差在给定区域具有普遍性(方差同质性检验)。如果不满足参数化模型的假设,将会构造非参数化的模型,利用空间残差所形成空间关系矩阵来描述数据中的空间关系。

  Job4:修正时间自回归模型

  空间协方差量化表达了数据的空间关系,从而可以从之前线性回归的残差中移除空间关系的影响,进而能够修正时间自回归模型,更新自回归模型的参数,获得更加准确的时间自回归关系的描述。

  Job5:修正线性回归模型

  基于准确 的空间关系和时间自相关关系的描述,可从原始的数据中去除时间和空间关系的影响,从而能够修正线性回归模型的参数,更加准确的描述出自变量对目标变量的影响。

  Job6:计算测定后的统计值并保存结果

  上述步骤已经完成了模型的估计过程,获得的模型可生成目标变量的估计值,与观测值相比较,能够评价所建模型的质量。同时通过一些参数检验的方法,可以评价自变量,时间自回归系数的重要性等一些基于模型的评价指标。

  时空数据预测

  时空数据预测是基于时空数据模型的一个假设情况分析(what-if 分析),可以预测未来一段时间在分析范围中任何地理位置的目标值。我们可以通过图 2 所示的流程图来具体讨论这一过程。