甜蜜烧鹅

文章
8
资源
0
加入时间
2年10月21天

spark的持久化存储

Spark RDD是惰性求值的,而有时由于业务需要,我们要复用一个RDD。对于这种情况,如果我们只是简单地对RDD调用行动操作,Spark 将会每次都重算RDD 以及它的所有依赖。这在迭代算法中消耗格外大,因为迭代算法常常会多次使用同一组数据。例如:Scala 中的两次执行val result = input.map(x => x*x)println(resul