神勇裙子

文章
1
资源
0
加入时间
4年1月24天

Spark RDD的定义和介绍

RDD是resilient distributed dataset的缩写即弹性分布式数据集 ,是Spark的核心也是基本所在 RDD是只读的、分区记录的集合,它只能基于在稳定物理存储中的数据和其他已有的RDD执行特定的操作来创建,它是逻辑集中的实体,在集群中的多台机器上进行了数据的分区,通过RDD的依赖关系形成Spark的调度顺序,形成整个Spark行分区RDD有以下几种创建方式:从hdfs文件