我是靠谱客的博主 苹果蓝天,最近开发中收集的这篇文章主要介绍2. RDD 概念&5大特性1. RDD,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1. RDD

概念

RDD(Resilient Distributed Dataset),弹性分布式数据集。

★RDD的五大特性:

1. RDD是由一系列的partition组成的。
A list of partitions

2. 函数是作用在每一个partition(split)上的。
A function for computing each split

3. RDD之间有一系列的依赖关系。
A list of-dependencies on other RDDs

4. 分区器是作用在K,V格式的RDD上。
Optionally,a Partitioner for key-value RDDs

5. RDD提供一系列最佳的计算位置。
Optionally,a list of preferred locations to compute each split on
RDD理解图:
在这里插入图片描述
在这里插入图片描述
注意:

  • textFile方法底层封装的是MR读取文件的方式,读取文件之前先split,默认split大小是一个block大小。
  • RDD实际上不存储数据,这里方便理解,暂时理解为存储数据。

知识点解析:

  • 1.什么是K,V格式的RDD?
    如果RDD里面存储的数据都是二元组对象,那么这个RDD我们就叫做K,V格式的RDD。
  • 2.哪里体现RDD的弹性(容错)?
    partition数量,大小没有限制,体现了RDD的弹性。
    RDD之间依赖关系,可以基于上一个RDD重新计算出RDD。
  • 3.哪里体现RDD的分布式?
    RDD是由Partition组成,partition是分布在不同节点上的。
    RDD提供计算最佳位置,体现了数据本地化。体现了大数据中“计算移动数据不移动”的理念。

Lineage血统

在这里插入图片描述



最后

以上就是苹果蓝天为你收集整理的2. RDD 概念&5大特性1. RDD的全部内容,希望文章能够帮你解决2. RDD 概念&5大特性1. RDD所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(45)

评论列表共有 0 条评论

立即
投稿
返回
顶部