我们已经知道,时空数据首先是基于一张地图,包括不同的空间数据结构,比如多边形(面),线,点等, 通常以.shp 格式存在。简单的理解,单独的空间数据即使一张某地区的地图。例如,在上述案例一中的亚特兰大某地区的地图用 IBM SPSS Modeler 中的图形文件如图 1 所示,其中多边形表示不同区域。
图 1:亚特兰大某地区地图
如果有多个地图文件,并且经过预处理之后,各个地图文件有相同的坐标系,则可迭加输入从而得到多层次的地图文件,比如多边形上贯穿线串表示道路,河流等。如果已经融合了事件数据,我们还可以设置不同的符号和颜色分别表示不同的事件,比如在上述案例二中,用三角形表示吸毒,用圆圈表示抢劫,用方形表示车辆盗窃,如图 2 所示。
图 2:斯波坎市犯罪事件地图
结束语
大数据时代下,随着数据收集效率的不断提高和时空数据挖掘的快速发展,很多不同来源的商业数据都包含有时间和空间信息,比如设备,建筑,机构等的管理,能量的产生,分布及预测等。如何结合时空数据和其他商业数据,并且通过对时间和空间属性的观测分析获得决定性的认知从而优化决策就显得至关重要。本文通过介绍面向大数据的时空数据挖掘的重要性及面临的挑战,详细描述了运用数据挖掘工具 IBM SPSS Modeler 对时空数据的理解、预处理,融合及展示,为下一步进行时空数据的建模预测以及关联规则的挖掘奠定了基础。
第 2 部分
面向大数据的时空数据挖掘现状
随着传感器网络、手持移动设备等的普遍应用,遥感卫星和地理信息系统等的显著进步,人们获取了大量地理科学数据。这些数据内嵌于连续空间,并且随时间动态变化,具有很大程度的特殊性和复杂性。实际上,很多应用领域,例如交通运输、气象研究、地震救援、犯罪分析、公共卫生与医疗等,在问题求解过程中需要同时考虑时间和空间两方面因素。而随着信息技术的发展,人们已经不满足于单纯的时空数据的存储和展现,而是需要更先进的手段帮助理解时空数据的变化。如何从这些复杂、海量、高维、高噪声和非线性的时空数据中挖掘出隐含的时空模式,并对这些模式进行分析从而提取出有价值的信息并用于商业活动是对时空数据挖掘及分析技术的一项极大的挑战。
IBM SPSS Modeler 是参照行业标准 CRISP-DM 模型设计而成的数据挖掘工具,可支持从数据到更优商业成果的整个数据挖掘过程。通过结合时空数据和其他商业数据,并且运用数据挖掘工具 IBM SPSS Modeler 对时间和空间属性进行观测分析,建立预测性模型,进而获得决定性的认知,并将其应用于商业活动,从而改进决策过程。
面向大数据的时空预测简介
面向大数据的时空预测主要是基于时空对象的特征构建预测模型进而预测时空对象在未来特定时间范围内特定空间位置下的行为或者状态。
时空预测的分类
根据时空对象的不同,时空预测有不同的分类。面向时空数据的位置和轨迹预测、密度和事件预测、结合空间的时间序列预测等研究都具有重要的应用前景。
位置和轨迹预测
面向时空数据的位置预测主要是基于时空对象的特征构建预测模型来预测时空对象所在的具体空间位置。对于实时物流、实时交通管理、基于位置的服务和 GPS 导航等涉及时空数据的应用而言,预测单个或者一组对象未来的位置或目的地是至关重要的,它能使系统在延误的情况下采取必要的补救措施,避免拥堵,提高效率。
除了位置预测之外,面向时空数据的轨迹预测可以推测移动对象的出行规律。例如,社交网络应用借助 GPS 设备记录用户轨迹数据,通过"签到"应用(如微信、微博等)分享位置信息。分析这些共享的 GPS 轨迹数据,可以为用户推荐感兴趣的旅游景点和游览次序。
密度、事件预测
某个区域的对象密度定义为在给定时间点该区域内对象数与该区域大小之比。这是一些对象随时间变化而呈现出的一个全局特征。面向时空数据的密度预测主要应用于实时交通管理,会对及时改善交通拥堵带来很大助益。例如,交通管理系统通过密度预测可以识别出道路中的密集区域,从而帮助用户避免陷入交通阻塞,并采取有效措施及时缓解交通拥堵。此外,面向时空数据的事件预测可以根据历史数据(时间序列),结合地理区域密度估计(发现重要特征和时空地点)来预测给定时间范围和空间位置的概率密度,譬如基于过去犯罪事件发生的地点、时间和城市经济等特征预测给定区域和时间段内犯罪发生的概率,进而检测犯罪发展趋势,有效降低城市犯罪率。