Spark分布式数据写出原理
具体过程如下当Spark中的某个写任务失败时,就向Spark驱动节点发出终止任务的请求,同时删除写路径下的文件;Spark在写出文件的时候,会为每个任务建立一个临时目录并将数据写到这个临时目录中;(4)当Spark驱动节点接收到所有写任务的“写成功”状态后,便认为所有的写文件操作都已经完成,于是提交写文件作业,并将临时目录以文件移到方式修改为最终目录,这样写文件的过程就完成了。(3)数据写完后,就将临时(temporary)目录修改为最终目录,这在HDFS中是通过move命令来实现的,如图所示。