使用Apache Spar 的Lambda架构

成果

在简化的方案下,文章开头提到的基于Hadoop 的M/R 管道可以通过Apache Spark进行如下优化:

本章结语

正如上文提到的 Lambda架构有优点和缺点,所以结果就是有支持者和反对者。一些人会说批处理视图和实时视图有很多重复的逻辑,因为最终他们需要从查询的角度创建出可以合并的视图。因此,他们创建了Kappa架构——一个Lambda架构的简化方案。Kappa 架构的系统去掉了批处理系统,取而代之的是数据从流处理系统中快速通过:

即便在此场景中,Spark也能发挥作用,比如,参与流处理系统: