2)离线计算,主要分三个处理阶段。
预处理阶段,这块主要为后续数据挖掘做一些数据的准备工作,数据去重,过滤,对缺失信息的补足。举例来说采集下来的用户行为数据,所含有的产品信息很少,我们会使用产品表的数据进行一些补足,确保给后续的数据挖掘使用时候尽量完整的。
数据挖掘阶段,主要运用一些常用的数据挖掘算法进行模型训练和推荐数据的输出(分类、聚类、回归、CF等)。
结果导入阶段,我们通过可配置的数据导入工具将推荐数据,进行一系列转换后,导入到HBase、Redis以及建立ES索引,Redis存储的是经统计计算出的热点数据。