Learning Spark中文版--第三章--RDD编程(1)
本章介绍了Spark用于数据处理的核心抽象概念,具有弹性的分布式数据集(RDD)。一个RDD仅仅是一个分布式的元素集合。在Spark中,所有工作都表示为创建新的RDDs、转换现有的RDD,或者调用RDD上的操作来计算结果。在底层,Spark自动将数据中包含的数据分发到你的集群中,并将你对它们执行的操作进行并行化。数据科学家和工程师都应该阅读这一章,因为RDD是Spark的核心概念。...