概述
在spark shell客户端启动后执行
scala> var rdd = sc.textFile("hdfs://mycluster/spark/data/acc.txt")
rdd: org.apache.spark.rdd.RDD[String] = hdfs://mycluster/spark/data/acc.txt MapPartitionsRDD[6] at textFile at <console>:24
scala> rdd.cache()
res1: org.apache.spark.rdd.RDD[String] = hdfs://mycluster/spark/data/acc.txt MapPartitionsRDD[6] at textFile at <console>:24
scala> rdd.count()
res2: Long = 2
查看spark web ui:
显示没有序列化的数据在内存中大小为208B
执行命令删除该数据:
scala> rdd.unpersist()
res3: org.apache.spark.rdd.RDD[String] @scala.reflect.internal.annotations.uncheckedBounds = hdfs://mycluster/spark/data/acc.txt MapPartitionsRDD[6] at textFile at <console>:24
重新序列化后存放内存,执行命令:
scala> import org.apache.spark.storage.StorageLevel
import org.apache.spark.storage.StorageLevel
scala> rdd.persist(StorageLevel.MEMORY_ONLY_SER)
res4: org.apache.spark.rdd.RDD[String] = hdfs://mycluster/spark/data/acc.txt MapPartitionsRDD[6] at textFile at <console>:24
scala> rdd.count()
res5: Long = 2
查看结果只有45B:
结论:显示同样大小的数据在序列化后存放内存所占用空间会显著变小
最后
以上就是迅速舞蹈为你收集整理的spark 将数据序列化存放内存的全部内容,希望文章能够帮你解决spark 将数据序列化存放内存所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复