1)数据源,我们的数据源分结构化和半结构化数据以及非结构化数据。
结构化数据主要是指携程各产线的产品维表和订单数据,有酒店、景酒、团队游、门票、景点等,还有一些基础数据,比如城市表、车站等,这类数据基本上都是T+1,每天会有流程去各BU的生产表拉取数据。
半结构化数据是指,携程用户的访问行为数据,例如浏览、搜索、预订、反馈等,这边顺便提一下,这些数据这些是由前端采集框架实时采集,然后下发到后端的收集服务,由收集服务在写入到Hermes消息队列,一路会落地到Hadoop上面做长期存储,另一路近线层可以通过订阅Hermes此类数据Topic进行近实时的计算工作。
我们还用到外部合作渠道的数据,还有一些评论数据,评论属于非结构化的,也是T+1更新。