SparkR：数据科学家的新利器_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

SparkR：数据科学家的新利器

DataFrame API

Spark 1.3版本引入了DataFrame API。相较于RDD API，DataFrame API更受社区的推崇，这是因为：

DataFrame的执行过程由Catalyst优化器在内部进行智能的优化，比如过滤器下推，表达式直接生成字节码。
基于Spark SQL的外部数据源（external data sources） API访问（装载，保存）广泛的第三方数据源。
使用R或Python的DataFrame API能获得和Scala近乎相同的性能。而使用R或Python的RDD API的性能比起Scala RDD API来有较大的性能差距。

Spark的DataFrame API是从R的 Data Frame数据类型和Python的pandas库借鉴而来，因而对于R用户而言，SparkR的DataFrame API是很自然的。更重要的是，SparkR DataFrame API性能和Scala DataFrame API几乎相同，所以推荐尽量用SparkR DataFrame来编程。

目前SparkR的DataFrame API已经比较完善，支持的创建DataFrame的方式有：

5/11 首页上一页 3 4 5 6 7 8 下一页尾页