Spark 2015年回顾：四个大版本更迭、数以百计的改进_成功案例_物联网_中国计算网——工业互联网一站式服务平台—

　　Apache Spark在2015年得到迅猛发展，开发节奏比以前任何时候都快，在过去一年的时间里，发布了4个版本(Spark 1.3到Spark 1.6)，各版本都添加了数以百计的改进。

　　给Spark贡献过源码的开发者数量已经超过1000，是2014年年末人数的两倍。据我们了解，不管是大数据或小数据工具方面，Spark目前是开源项目中最活跃的。对Spark的快速成长及社区对Spark项目的重视让我们深感责任重大。

　　在Databricks，我们仍然在努力推动Spark向前发展，事实上，2015年我们贡献给Spark的代码量是其它任何公司的10倍之多。在本博文中，将重点突出2015年加入到项目中的主要开发内容。

　　数据科学API，包括DataFrames，机器学习流水线(Machine Learning Pipelines)及R语言支持;

　　平台API;

　　Tungsten项目和性能优化;

　　Spark流计算。

　　在见证快速开发节奏的同时，也很高兴目睹了用户采用新版本的速度。例如，下图给出的是超过200个客户在Databricks运行Spark版本的情况(注意单个客户同时可以运行多个版本的Spark)。

　　从上图中可以看到，Spark用户在紧随最新版本方面积极性很高，在Spark 1.5发布后的仅三个月内，大多数的客户便在使用它，同时有一小部分客户已经在试用2015年11月底发布的预览版本的Spark 1.6。现在，让我们来详细说明2015年Spark的主要变化：

　　数据科学API: DataFrame，ML Pipelins和R

　　在Spark之前，大数据相关读物总是会涉及一系列令人望而生畏的概念，从分布式计算到MapReduce函数式编程。从而，大数据工具主要由那些掌握高级复杂技术水平的数据基础团队使用。

　　Spark在2015年首要发展主题是为大数据构建简化的APIs，类似于为数据科学构建的那样。我们并非逼迫数据科学家去学习整个新的发展范式，实际上是想要降低学习曲线，提供类似于他们已经熟悉的工具。

　　为了达此目的，下面介绍下Spark的三个主要API附件。

　　DataFrames：针对结构化的数据，是一个易用并且高效的API，类似于小数据工具，像Python中的R和Pandas。

　　Machine Learning Pipelines：针对完整的机器学习工作流，是一个易用的API。

　　SparkR：与Python一起，R是深受数据科学家欢迎的编程语言。只需简单的学习一下，数据科学家马上就可以使用R和Spark处理数据，比他们的单一机器处理数据强大的多。

　　虽然这些API仅仅发布了数月，根据2015年Spark调查报道，使用DataFrame API的Spark用户已占62%。正如调查结果所示，调查对象大部分人都把自己定位为数据工程师(41%)或数据科学家(22%)，数据科学家对Spark兴趣的上升通过其使用的开发语言能更明显地说明问题，58%的调查对象使用Python(相比2014年增幅超过49%)，18%的受访者使用R API。

　　由于我们发布了DataFrames，因此也收集了社区的反馈，其中最为重要的反馈是：对于构建更大型、更复杂的数据工程项目，经典RDD API所提供的类型安全特性十分有用。基于此反馈，针对这些不同种类的数据，我们正在Spark 1.6中开发一个新类型Dataset API。

　　平台APIs

　　对应用开发者来说，Spark正成为通用的运行时环境。应用程序仅需要针对单个集合的API进行编程便可以运行在不同种类的环境上(on-prem、cloud、Hadoop等)及连接不同种类的数据源。在本年年初，我们便为第三方开发人员引入了标准的可插拔数据源API，它可以智能地解析数据源格式。目前支持的数据源包括：

　　CSV, JSON, XML

　　Avro, Parquet

　　MySQL, PostgreSQL, Oracle, Redshift

　　Cassandra, MongoDB, ElasticSearch

　　Salesforce, Google Spreadsheets

　　为便于查找数据源和算法对应的库，我们启用了一个网站spark-packages.org作为Spark开发库的一个中央仓库。

　　另外一个有趣的趋势是Spark早期使用者大多数与Hadoop结合起来使用，随着Spark的发展，Hadoop不再代表着大多数Spark使用时。根据2015年Spark调查报告，48%的Spark部署方式为Spark standalone集群管理器，而Hadoop Yarn的使用仅为40%左右。

1/2 1 2 下一页尾页