SparkR:数据科学家的新利器

目前SparkR RDD实现了Scala RDD API中的大部分方法,可以满足大多数情况下的使用需求:

SparkR支持的创建RDD的方式有:

 

  • 从R list或vector创建RDD(parallelize())
  • 从文本文件创建RDD(textFile())
  • 从object文件载入RDD(objectFile())

 

SparkR支持的RDD的操作有:

 

  • 数据缓存,持久化控制:cache(),persist(),unpersist()
  • 数据保存:saveAsTextFile(),saveAsObjectFile()
  • 常用的数据转换操作,如map(),flatMap(),mapPartitions()等