AWS 和 GCP 的 Spark 技术哪家强?

  测试 Spark 任务包括对数据的解析、过滤、合并和聚合,这些数据来自公开的 堆栈交换数据转储 (Stack Exchange Data Dump)。通过运行相同的 JAR,我们首先对大约 50M 的数据子集进行 交叉验证 ,然后将验证扩大到大约 9.5G 的数据集。

物联网

  Figure 1. Credit: Michael Li and Ariel M'ndange-Pfupfu.

物联网

  Figure 2. Credit: Michael Li and Ariel M'ndange-Pfupfu.

  结果表明,短任务在 GCP 上具有明显的成本优势,这是因为 GCP 以分钟计费,并最终扣除了 10 分钟的费用,而 AWS 则收取了 1 小时的费用。但是即使长任务,因为计费方式占优,GPS 仍然具有相当优势。同样值得注意的是存储成本并不包括在此次比较当中。

  结论

  AWS 是云计算的先驱,这甚至体现在 API 中。AWS 拥有巨大的生态系统,但其许可模型已略显陈旧,配置管理也有些晦涩难解。相比之下,Google 是云计算领域的新星并且将云计算服务打造得更加圆润自如。但是 GCP 缺少一些便捷的功能,比如通过简单方法自动结束集群和详细的任务计费信息分解。另外,其 Python 编程接口也不像AWS 的 Boto 那么全面。

  如果你初次使用云计算,GCP 因其简单易用,别具魅力。即使你已在使用 AWS,你也许会发现迁移到 GCP 可能更划算,尽管真正从 AWS 迁移到 GCP 的代价可能得不偿失。

 

  当然,现在对两种云服务作一个全面的总结还非常困难,因为它们都不是单一的实体,而是由多个实体整合而成的完整生态系统,并且各有利弊。真正的赢家是用户。一个例证就是在数据孵化器(The Data Incubator),我们的博士数据科学研究员在学习分布式负载的过程中真正体会到成本的下降。虽然我们的 大数据企业培训客户 可能对价格不那么敏感,他们更在意能够更快速地处理企业数据,同时保持价格不增加。数据科学家现在可以享受大量的可选服务,这些都是从竞争激烈的云计算市场得到的实惠。