Spark 和 Hadoop MapReduce 对比_技术资料_物联网_中国计算网——工业互联网一站式服务平台—

　　小编说：一提到大数据处理，相信很多人第一时间想到的是 Hadoop MapReduce。没错，Hadoop MapReduce 为大数据处理技术奠定了基础。近年来，随着 Spark 的发展，越来越多的声音提到了 Spark。而Spark相比Hadoop MapReduce有哪些优势?

　　本文选自《大数据处理之道》

　　Spark与Hadoop MapReduce在业界有两种说法：一是 Spark 将代替 Hadoop MapReduce，成为未来大数据处理发展的方向 ;二是 Spark 将会和 Hadoop 结合，形成更大的生态圈。其实 Spark 和 Hadoop MapReduce 的重点应用场合有所不同。相对于 Hadoop MapReduce 来说，Spark 有点“青出于蓝”的感觉，Spark 是在Hadoop MapReduce 模型上发展起来的，在它的身上我们能明显看到 MapReduce的影子，所有的 Spark 并非从头创新，而是站在了巨人“MapReduce”的肩膀上。千秋功罪，留于日后评说，我们暂且搁下争议，来看看相比 Hadoop MapReduce，Spark 都有哪些优势。

　　1计算速度快

　　大数据处理首先追求的是速度。Spark 到底有多快?用官方的话说，“Spark 允许 Hadoop 集群中的应用程序在内存中以 100 倍的速度运行，即使在磁盘上运行也能快 10 倍”。可能有的读者看到这里会大为感叹，的确如此，在有迭代计算的领域，Spark 的计算速度远远超过 MapReduce，并且迭代次数越多，Spark 的优势越明显。这是因为 Spark 很好地利用了目前服务器内存越来越大这一优点，通过减少磁盘 I/O 来达到性能提升。它们将中间处理数据全部放到了内存中，仅在必要时才批量存入硬盘中。或许读者会问：如果应用程序特别大，内存能放下多少 GB ?答曰：什么? GB ?目前 IBM 服务器内存已经扩展至几 TB 了。

　　2应用灵活，上手容易

　　知道 AMPLab 的 Lester 为什么放弃 MapReduce 吗?因为他需要把很多精力放到Map和Reduce的编程模型上，极为不便。 Spark在简单的Map及Reduce操作之外，还支持 SQL 查询、流式查询及复杂查询，比如开箱即用的机器学习算法。同时，用户可以在同一个工作流中无缝地搭配这些能力，应用十分灵活。

　　Spark 核心部分的代码为 63 个 Scala 文件，非常的轻量级。并且允许 Java、Scala、Python 开发者在自己熟悉的语言环境下进行工作，通过建立在 Java、Scala、Python、SQL(应对交互式查询)的标准 API 以方便各行各业使用，同时还包括大量开箱即用的机器学习库。它自带 80 多个高等级操作符，允许在 Shell中进行交互式查询。即使是新手，也能轻松上手应用。

　　3兼容竞争对手

　　Spark 可以独立运行，除了可以运行在当下的 YARN 集群管理外，还可以读取已有的任何 Hadoop 数据。它可以运行在任何 Hadoop 数据源上，比如 HBase、HDFS 等。有了这个特性，让那些想从 Hadoop 应用迁移到 Spark 上的用户方便了很多。Spark 有兼容竞争对手的胸襟，何愁大事不成?

　　4实时处理性能非凡

　　MapReduce 更加适合处理离线数据( 当然，在 YARN 之后，Hadoop 也可以借助其他工具进行流式计算)。Spark 很好地支持实时的流计算，依赖Spark Streaming 对数据进行实时处理。Spark Streaming 具备功能强大的 API，允许用户快速开发流应用程序。而且不像其他的流解决方案，比如 Storm，Spark Streaming 无须额外的代码和配置，就可以做大量的恢复和交付工作。

　　5社区贡献力量巨大

　　从 Spark 的版本演化来看，足以说明这个平台旺盛的生命力及社区的活跃度。尤其自 2013 年以来，Spark 一度进入高速发展期，代码库提交与社区活跃度都有显著增长。以活跃度论，Spark 在所有的 Apache 基金会开源项目中位列前三，相较于其他大数据平台或框架而言，Spark 的代码库最为活跃。

　　Spark 非常重视社区活动，组织也极为规范，会定期或不定期地举行与 Spark相关的会议。会议分为两种：一种是 Spark Summit，影响力极大，可谓全球 Spark顶尖技术人员的峰会，目前已于 2013—2015 年在 San Francisco 连续召开了三届Summit 大会 ;另一种是 Spark 社区不定期地在全球各地召开的小型 Meetup 活动。Spark Meetup 也会在我国的一些大城市定期召开，比如北京、深圳、西安等地，读者可以关注当地的微信公众号进行参与。

　　Spark 的适用场景

　　从大数据处理需求来看，大数据的业务大概可以分为以下三类：

1/2 1 2 下一页尾页