Spark RDD的定义和介绍
RDD是resilient distributed dataset的缩写即弹性分布式数据集 ,是Spark的核心也是基本所在 RDD是只读的、分区记录的集合,它只能基于在稳定物理存储中的数据和其他已有的RDD执行特定的操作来创建,它是逻辑集中的实体,在集群中的多台机器上进行了数据的分区,通过RDD的依赖关系形成Spark的调度顺序,形成整个Spark行分区RDD有以下几种创建方式:从hdfs文件