SparkCore - RDD & 常用算子
RDD概述RDD是弹性分布式数据集,是Spark的基石,是Spark最基本的数据抽象,它代表一个不可变、只读的、被分区的数据集。RDD的五大特性A list of partitions 当RDD存储着一系列的数据时,会构建多个partition来存储这些数据,不同的partition会在不同的地址,并且,在Spark中一个数据集有多少个partition就会有多少个taskA...