spark 将数据序列化存放内存

95 阅读 0 评论 63 点赞

我是靠谱客的博主迅速舞蹈，这篇文章主要介绍spark 将数据序列化存放内存，现在分享给大家，希望可以做个参考。

在spark shell客户端启动后执行

scala> var rdd =  sc.textFile("hdfs://mycluster/spark/data/acc.txt")
rdd: org.apache.spark.rdd.RDD[String] = hdfs://mycluster/spark/data/acc.txt MapPartitionsRDD[6] at textFile at <console>:24

scala> rdd.cache()
res1: org.apache.spark.rdd.RDD[String] = hdfs://mycluster/spark/data/acc.txt MapPartitionsRDD[6] at textFile at <console>:24

scala> rdd.count()
res2: Long = 2

查看spark web ui：
在这里插入图片描述
显示没有序列化的数据在内存中大小为208B
执行命令删除该数据：

scala> rdd.unpersist()
res3: org.apache.spark.rdd.RDD[String] @scala.reflect.internal.annotations.uncheckedBounds = hdfs://mycluster/spark/data/acc.txt MapPartitionsRDD[6] at textFile at <console>:24

在这里插入图片描述
重新序列化后存放内存，执行命令：

scala> import org.apache.spark.storage.StorageLevel
import org.apache.spark.storage.StorageLevel

scala> rdd.persist(StorageLevel.MEMORY_ONLY_SER)
res4: org.apache.spark.rdd.RDD[String] = hdfs://mycluster/spark/data/acc.txt MapPartitionsRDD[6] at textFile at <console>:24

scala> rdd.count()
res5: Long = 2