(2) 多源. 对地观测大数据的多源性, 一方面表现在数据来源和获取手段多样, 既有来自于分布全球的观测网络实时接收的大量遥感数据, 也有通过航空拍摄获得的遥感数据, 还包括大众用户通过互联网和带有地理信息的手持终端设备提供的个性化信息. 而且, 主、被动遥感在成像机理和成像模型等方面也存在巨大的差异.
(3) 多时相. 遥感图像是某一时刻传感器对地观测的记录, 卫星通常按固定的轨道周期对地球进行重复观测. 单颗卫星时间分辨率的提高和在轨卫星数量的不断增加使得对地观测的采样间隔在缩短, 数据获取的频率大幅度增加. 通过地面传感网等手段获取数据的频率则更高.
(4) 高价值. 对地观测数据的价值体现在商品价格和应用价值两个方面. 虽然中低分辨率卫星数据已经逐步实现共享, 但国际上高分辨率卫星遥感数据的价格仍然不菲, 按数据种类的不同, 每平方千米的价格在几十元到几百元人民币不等; 实际上, 对地观测数据的应用价值更为可观. 对地观测数据不仅在科学研究、生态环境、土地资源、自然灾害和重大工程的监测与评估等方面得到广泛应用, 而且也在数字地球、智慧城市建设中发挥着重要作用, 并逐步深入到大众生活, 产生了巨大的经济价值和社会价值.
其他特征:
(1) 异构. 对地观测大数据的异构性
一方面表现为系统异构, 即数据生产所依赖的业务应用系统存在差异, 如数据来自不同的数据中心; 另一方面表现为模式异构, 数据的逻辑结构或组织方式不同.
(2) 多尺度. 多尺度是对地观测大数据的重要特征, 这是由于对地观测系统是由不同级别的子系统组成, 各个系统都有各自的时空尺度, 因而对地观测大数据也具有空间多尺度和时间多尺度的特点, 在不同的观察层次上所遵循的规律和体现的特征不尽相同.
(3) 非平稳. 对地观测大数据因为具有广泛的获取方式和物理意义, 因此从信息理论来说是典型的非平稳信号, 即分布参数或者分布规律随时间发生变化, 非平稳性正是经典遥感数据挖掘与分析理论所忽视的.
2.2 对地观测大数据处理面临“数据密集型计算”问题
对地观测大数据处理是整个对地观测系统的重要组成部分. 一个全流程的对地观测数据处理过程涉及从数据接收和记录、数据传输、数据预处理(辐射校正、系统几何校正)、深加工处理(精校正、正射校正、图像融合、图像变换)、数据产品存档与发布、信息提取与参数反演、以及专题应用(资源环境调查、灾害监测、全球变化)等多个环节. 中国遥感卫星地面站目前接收13颗国内外卫星(表1), 在数据接收、记录与传输环节, 2012年单颗卫星的数据下传码速率高达320 MB/s, 多颗卫星的总码速率可达1.5 GB/s; 密云、喀什和三亚各卫星接收站每天接收的单颗卫星数据为10~187.5 GB. 目前, 在数据接收、数据记录和数据传输环节具备实时的数据处理能力, 基本能与卫星数据下传的码速率同步. 但是, 据地面站运行处理系统的统计数据显示, 在预处理环节的整体数据处理速度普遍小于2 MB/s, 深加工处理环节的数据处理速度则小于1 MB/s, 而信息提取及专题遥感应用的数据处理速率也小于1 MB/s. 因此, 在遥感数据预处理及后续处理环节的数据处理速率远远落后于数据接收、记录与传输的速率[7].
截止到2012年, 3个接收站每天接收的总数据量为993.16 GB, 每年接收的总数据量约为354 TB. 在传统的服务模式中, 卫星地面数据处理系统常采用订单任务方式, 只对少量用户请求的卫星数据进行处理, 而大部分卫星数据则直接保存在数据存档系统中. 随着我国卫星接收站网布局的扩大以及数据中继卫星的发展, 卫星下行数据量将大幅提高, 将给对地观测数据处理的全流程带来巨大的数据吞吐压力, 尤其是对于数据处理速率低且相当费时的深加工、信息提取以及应用处理等环节. 庞大的数据吞吐压力使得这些处理环节往往面临着“数据密集型计算”挑战性问题[7].
表2给出了对地观测数据处理全流程中各个数据处理环节算法复杂度的分析结果. 从表中可以看出数据预处理算法的复杂度相对较低, 而后续的信息提取与参数反演类算法以及深加工算法的复杂度相对较高[7].