spark优化----序列化持久化

362 阅读 0 评论 239 点赞

我是靠谱客的博主复杂荔枝，这篇文章主要介绍spark优化----序列化持久化，现在分享给大家，希望可以做个参考。

简介：
除了对多次使用的RDD进行持久化操作之外，还可以进一步优化其性能，因为很有可能，RDD的数据是持久化到内存，或者磁盘中的，那么此时如果内存大小不是特别充足，完全可以使用序列化的持久化级别，
如下：
1.MEMORY_ONLY_SER
2.MEMORY_AND_DISK_SER
使用RDD.persist(StorageLevel.MEMORY_ONLY_SER)这样的语法即可。
好处：
1.将数据序列化之后，再持久化可以大大减小对内存的消耗。
2.数据量小了之后，如果要写入磁盘，那么磁盘io性能消耗也比较小。
缺点：
对RDD持久化序列化后，RDD的每个partition的数据，都是序列化为一个巨大的字节数组，这样对于内存的消耗就小的多了。但是唯一的缺点就是，获取RDD数据时，需要对其进行反序列化，会增大其性能（cpu）开销。
因此对于序列化的持久化级别，还可以进一步优化，也就是说使用Kryo序列化类库，这样可以获得更快的序列化速度，并且占用更小的内存空间。
注意：
如果RDD的元素（RDD<T>的泛型类型），是自定义类型的话，在Kryo中提前注册自定义类型。