要减肥苗条

文章
6
资源
0
加入时间
3年0月27天

【spark】分区

RDD是弹性分布式数据集,通常RDD很大,会被分成多个分区,保存在不同节点上。那么分区有什么好处呢?分区能减少节点之间的通信开销,正确的分区能大大加快程序的执行速度。我们看个例子首先我们要了解一个概念,分区并不等同于分块。分块是我们把全部数据切分成好多块来存储叫做分块。如上图b,产生的分块,每个分块都可能含有同样范围的数据。而分区,则是把同样范围的数据分开,如图a...