SparkR:数据科学家的新利器

  • 从R原生data.frame和list创建
  • 从SparkR RDD创建
  • 从特定的数据源(JSON和Parquet格式的文件)创建
  • 从通用的数据源创建
  • 将指定位置的数据源保存为外部SQL表,并返回相应的DataFrame
  • 从Spark SQL表创建
  • 从一个SQL查询的结果创建

 

支持的主要的DataFrame操作有:

·数据缓存,持久化控制:cache(),persist(),unpersist()

 

  • 数据保存:saveAsParquetFile(), saveDF() (将DataFrame的内容保存到一个数据源),saveAsTable() (将DataFrame的内容保存存为数据源的一张表)
  • 集合运算:unionAll(),intersect(), except()
  • Join操作:join(),支持inner、full outer、left/right outer和semi join。