面向大数据的时空数据挖掘

  根据输入数据中时间字段的特征选择或者转换为合适的时间间隔是时空数据建模的必要条件。这里,时间间隔可以以周期、年、季度、月、周、天、时、分、秒等一系列为单位。基于所选的时间间隔,还有一系列与之相关的选项,比如,时间间隔为年或季度时的开始月份,时间间隔为周时每周的第一天和每周的天数,时间间隔为小时时每天的小时数和一天开始的时间等。如果输入数据已包含正确的时间间隔信息,并且不需要进行转换,选中"数据匹配指定时间间隔设置" 复选框。 选中此框后,"汇总"区域中的设置将不可用。反之,如果输入数据中的时间字段需要转换为特定区间,取消选中"数据匹配指定时间间隔设置"复选框,并指定用于汇总的字段以便与指定区间匹配的选项。 例如,如果有以周和月为单位的混合数据,那么可以对周值进行汇总或累计,以获得均匀的月间隔。所用的汇总方法可以从"缺省设置"下拉框中选择并应用于未逐个指定的所有连续字段。如果希望对于特定字段进行定制设置,即将特定汇总函数应用于个别字段,则在"指定字段的定制设置"表中选择字段并选择汇总方法。

  实际上,时间间隔的设置与转换是时空数据预处理的一部分,在 IBM SPSS Modeler 中,为方便使用,内嵌于时空数据建模中。时空数据建模的构建实质是通过基本构建选项和高级构建选项来设置的,如图 5 和图 6 所示。

  图 5. 时空预测模型-基本构建选项

物联网

  我们可以在基本构建选项里主要设置最大自回归阶数和空间协方差矩阵的估计方法。自回归阶指定使用哪些先前值来预测当前值,使用"最大自回归标志"选项可以指定用于计算新值的先前记录数。空间协方差的估计方法可以选择参数或非参数,其中参数方法又可以从三种模型类型中进行选择:高斯、指数和幂指。

  图 6. 时空预测模型-高级构建选项

物联网

  时空数据建模的高级构建选项主要用来对模型构建过程进行微调。其中,"缺失值的最大百分比"指定模型中可以包括的包含缺失值的记录所占的最大百分比。"模型构建中假设测试的显著性水平"指定用于时空数据模型估计的所有检验(包括两项拟合优度检验、效应 F 检验和系数 T 检验)的显著性水平值,此级别可以是 0 与 1 之间的任何值,并以 0.01 为增量变动。

  最后是时空数据模型的输出选项,主要用于在构建模型之前,使用此页面中的选项来选择要包括在模型输出查看器中的输出,如图 7 所示。

  图 7.时空预测模型-输出选项

物联网

  如图所示,时空数据模型的输出分为模型信息、评估、和解释三部分。其中,模型信息包括模型规范和时间信息摘要;评估包括模型质量和均值结构模型中的效应检验;解释包括平均结构模型系数、自回归系数、测试空间衰减、参数空间协方差模型参数散点图、相关性热图、相关性图和位置聚类。所有这些图或表均从不同角度展现时空数据模型,以不同形式向用户诠释时空数据模型的意义。

  时空预测应用实例

  时空预测模型有许多潜在的应用,例如紧急管理建筑物或设施、对机械服务工程师进行绩效分析和预测或者进行公共交通规划。 在这些应用中,通常要对时间和空间进行能耗等测量。 可能与记录这些测量值相关的问题包括哪些因子影响未来的观测值、如何实现所需的变化或者如何更好地管理系统? 为了回答这些问题,我们可以在不同位置使用能够预测未来值的统计技术,并可以显式地对可调因子进行建模以执行假设情况分析。

  本节我们将通过应用时空数据建模以及执行假设情况分析来实现数据中心的能量管理,避免使用过多的制冷能量把数据中心的热量控制在可接受的标准范围内。一个典型的数据中心,压力通风系统(plenum)通过打孔瓦(perforated tiles)供应冷空气,冷空气通过通风口(inlet)冷却服务器温度。而服务器散发热空气并传给空调机组(ACU),热空气在空调机组里被冷却并重新交换到压力通风系统,依此循环。为了更好地实现数据中心的能量管理,数据中心还需部署实时热量传感器(thermal sensors)来监控能量使用。但是,热量传感器不可能存在数据中心的任何一个位置,因而需要对没有部署热量传感器的位置进行预测。因此,我们将建立一个时空数据预测模型来预测整个数据中心在未来时间的温度,并结合影响数据中心温度的其他相关因素执行假设情况分析,从而对如何改善数据中心的能量使用效率提出建设性意见。