- 从R原生data.frame和list创建
- 从SparkR RDD创建
- 从特定的数据源(JSON和Parquet格式的文件)创建
- 从通用的数据源创建
- 将指定位置的数据源保存为外部SQL表,并返回相应的DataFrame
- 从Spark SQL表创建
- 从一个SQL查询的结果创建
支持的主要的DataFrame操作有:
·数据缓存,持久化控制:cache(),persist(),unpersist()
支持的主要的DataFrame操作有:
·数据缓存,持久化控制:cache(),persist(),unpersist()