探秘“气象大数据”

所有的发达国家都有自己的一套用来演算天气情况的模式系统,有的国家甚至还具有不止一套的系统。模式系统一般每天计算2~4次,通常在整点开始,利用整点前采集到的实况数据进行计算,每次计算要生成大概几百个物理量,包括从开始计算的时刻(又称作“起报时刻”)至未来240小时时效(或更长)的一系列二进制网格数据,预报时效通常间隔3小时。目前气象网格经纬度间距一般在0.25度数量级,一个网格文件大小通常在1~2兆,包含几十万个浮点数值。

当模式的预报时效越长,时效间隔越密,网格点间距越小,网格点数值和未来实况差异越小,就证明该模式系统性能越好,该国气象水平越发达。由于模式预测的物理量多,每天还要多次起报,预报时效密集,模式种类繁多,模式数据必须至少存储一星期等要求,因此,在气象数据中,无论从数据个数还是数据存储量来说,模式数据是比重最大的“大数据”。

和实况数据不同的是,具备模式系统的国家通常没有义务向其他国家无偿提供本国的模式数据,或者最多无偿提供经过抽稀处理的粗粒度模式数据。想要得到发达国家的高质量模式数据,必须通过购买才可以。例如想要得到欧洲中心的0.125度细网格模式数据,无论中国气象局还是美国气象局都必须向欧洲中心支付高昂的年费,才能每天获得高质量的欧洲中心模式数据。

需要注意的是,这里购买的仅仅是模式系统最终的“输出”数据,而不是模式系统本身。因为模式系统水平的好坏代表了一个国家气象的硬实力,模式系统的源代码(通常是大量的Fortran程序)更是顶级领域技术机密,属于非卖品。

跨国模式数据也是利用FTP等方式进行传输,传输的格式一般是采用世界气象组织制定的一种称作GRIB编码的文件规范,这种文件比较适合描述模式数据。

气象数据如何传输

看完“实况数据”和“模式数据”的介绍,有没有觉得气象数据量大浩如烟海,这么多的数据都要一一传送到预报员手里,又需要多长时间呢?一般来说,地面、高空、雷达观测数据的采集和传输过程较快,从数据采集到可视化向预报员展示,通常几分钟时间就可以完成。也就是说,如果某地出现降雨天气,只要仪器能观测到,几分钟后位于气象台的预报员就会知道。

相对而言,静止气象卫星观测的时间稍长,中国的风云卫星一般需要20多分钟才能完成全球扫描,大概半小时后,预报员才能在电脑上看到卫星云图。

这里面模式数据传输最慢。以上午08时起报的欧洲中心模式系统为例,首先计算未来3小时(上午11时)的所有物理量,打包为1个GRIB文件并向其他国家传输,然后再计算未来6小时的数据,打包传输,直到最后完成10天后上午08时的预报数据计算并传输,每个预报时效的GRIB文件大概100多兆,计算一个预报时效大概需要几分钟时间,模式系统启动也需要很长时间,这样北京收到欧洲中心在早08时起报的第1个GRIB文件大概要到下午1时45分,完成最后一个240小时预报时效GRIB文件的接收要到下午3时。这样,如果要做早08时到下午3时的天气预报,只能使用前1个起报时刻的模式数据,比如前一天晚20时的模式数据。

在我国,国家气象信息中心通信台承担着数据传输和分发的枢纽作用。接收的数据包含来自各省的地面、高空、雷达数据、卫星数据、中国模式系统输出结果的数据以及其他国家的观测数据和模式数据。同时,还承担数据的发送功能,每天将各种观测数据和模式数据通过地面网络或通信卫星收发系统传送给31个省市区气象台和其他国家。

省一级的气象台只负责将本省的观测数据发送至国家气象信息中心,不进行其他数据的传送,同时接收来自国家气象信息中心分发的其他省的数据或各国模式系统数据。一般来说,由于国家到省级的网络传输需要较长时间,因此,国家级预报员在时间上将先于省级预报员查看到最新的气象数据。

预报员如何接收气象数据

解释完了数据是怎么进行传输和接收的,最后一个问题,一个个数据又是如何出现在预报员的计算机中?这其实是一套先进、复杂的大数据处理系统。

数据到达通信台后,首先兵分两路,地面、高空站点实况报文数据被转发至解报计算机,完成对于BUFR编码的解码,提取出报文中的站号、物理量值等信息,写入一个关系型数据库中作为缓存,然后通过每隔几分钟的定时作业,将同一观测时刻全部站点的物理量信息从关系型数据库中提取出来,制作为一个全国全部站点观测文件,写入到一个专供预报员客户端软件访问的高速存储服务器中。