Spark 为什么快
Spark 为什么快聊spark必须聊rdd, rdd 全英文 Resilient Distributed Datasets,搞懂这三个单词就完事了其实。Resilient能复原的,弹回的,有弹性的。谈谈spark的内存机制,spark的内存整体分外堆内内存和对外内存,而在内存的使用上又分为数据内存和运行内存,就是数据存储和程序运行。堆内内存的管理并不完全依托与jvm,jvm对于所有的对象都要序列化为二进制字节流,本质上是就是将不连续的空间转换为连续的空间并且需要的空间也会小,相应的也就有反序列