民航大数据科普:大数据与快数据

民航业是旅游行业中信息化水平比较高的,大数据的应用更是首当其冲。如何用好大数据,是民航运输链条上每个企业必须要回答的问题。

当下最流行的技术词汇可以概括为“云物移大智”,即云计算、物联网、移动互联网、大数据和智慧城市。“大数据”在其中占据着重要的地位,民航业是旅游行业中信息化水平比较高的,大数据的应用更是首当其冲。如何用好大数据,是民航运输链条上每个企业必须要回答的问题。

一、数据的生命周期

民航大数据科普:大数据与快数据

大数据首先是数据,既然是数据,那么从数据产生那一刻起,数据就有其生命周期。

数据根据其属性不同,实时价值耗散曲线也不相同。如上图所示,金融交易类的数据,其价值以毫秒计算,如股指期货的指数数据,其价值瞬间就耗散,几分钟之前的股指数据几乎没有任何价值。航班的库存(剩余座位)信息,随着机票销售的进行,剩余数量在不断变化中,可能20秒之前的剩余座位数据对现在已经不具备参考意义。天气预报、实时路况和机票价格数据,其有效时间可能会稍长一些,以小时计算。2、3个小时之前的路况拥堵信息,已经不能作为人们出行的参考依据了。还有一些数据有效性可能会更长一些,比如商品房的售价,汽车的零售价,商家报给消费者的价格,有效期会是几天的时间。

很多数据首先是快数据,其次才是大数据。那么就需要正确认识数据的生命周期,充分利用数据的实时价值,比如机票的价格数据,需要根据库存情况进行以小时为单位的动态调整。航班起飞后,这架航班上的机票销售数据就成为历史数据,实时价值丧失,这时候可以作为大数据的一部分,成为未来机票价格制定的参考依据。

二、快数据与大数据的互补

民航大数据科普:大数据与快数据

《大数据时代》几乎是大数据的起航号角,毫无疑问的成为畅销书,可以说在大数据行业几乎人手必备。在《大数据时代》开篇列举大数据的第一个案例就是Farecast的故事。美国著名的计算机专家发现航空公司机票价格制定比较混乱,不是越早买越便宜。于是就收集互联网上广泛存在的与机票价格有关的数据,在多达12000个价格样本的基础上,预测未来40天机票价格可能走势。然后通过不断调优,票价预测的准确度已经高达75%。作者通过这个例子想说明,大数据强调对于大量数据的处理,从而得出事物的相关性(机票价格的走势),而不是因果性(机票价格为什么降低)。

但现实是,作者关于Farecast的故事只讲了一半。Farecast于2009年被微软Bing搜索以1.15亿美元收购,整合为Bing Travel的一个功能。在2014年4月,Bing宣布关闭Farecast的机票价格预测功能。在大数据存储能力和处理能力越来越强大的今天,为什么Farecast反而停止运行了呢?原因不是Farecast出了问题,而是航空公司对于自身数据的充分利用,让Farecast的预测变得没有意义。欧美全服务航空公司过去普遍应用收益管理系统(Revenue Management System)来制定销售策略,但由于收益管理系统的数据输入都是历史数据,然后依靠数学算法进行模拟及预测,给出待售航班的销售策略。由于多种原因,收益管理系统一直都是离线处理,航空公司很少根据实时销售数据进行动态调整。随着IT技术的进步,航空公司不仅可以根据实时销售情况进行调整,而且还会综合分析已经购票乘客的行程,向旅客推荐复杂行程的购买建议(在哪里转机比较优惠)。

航空公司不仅根据历史数据进行收益管理,同时利用快数据进行动态调优,使得自身的价格策略满足了不同层次和不同类型的消费者的需要。所以作为单个出行的旅客,使用Farecast进行机票价格预测其意义已经不大了。这可能是Farecast功能关闭的主要原因,也是快数据与大数据互补的结果。

三、大数据关键词:跨界、后验、预测

大数据首先强调跨界。对于民航业来说,就是不仅仅拘泥于自身运行产生的数据,而是要多方合作,获取不同行业的数据进行相互补充和相互印证。比如,2014年11月是传统意义上航空淡季,但由于北京举办APEC会议而意外获得一个假期。这在任何收益管理系统中都是无法根据历史经验进行预测的,如果是大数据模式,则可以通过对网络新闻的舆情监控获知这一新闻热点,同时根据北京市民通过搜索引擎对于旅游目的地的浏览信息增多,寻找出热点旅游城市,进行有针对性的航班编排,提高主要目的地机票售价。这样不仅满足了人们的假期出行需要,而且还能获得良好的收益。