Hadoop配置过程的错误

334 阅读 0 评论 221 点赞

我是靠谱客的博主忧虑导师，最近开发中收集的这篇文章主要介绍Hadoop配置过程的错误，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

错误经过

在使用spark跑任务时，会报出如下的错误:
这里写图片描述
如图上所描述,是block出现了丢失的情况，联想到之前配置hadoop时，在webUI的50070端口查看live node时，5个节点的集群只显示3个live node，怀疑有可能是datanode出现了问题.

排查过程

先去看了一下datenode的log文件，并没有发现异常.
再去查看namenode的log文件，发现了log文件中一直重复如下内容：
这里写图片描述
一直在重复节点的remove和add，正好和我们现在的情况一致(3个live node，一直在5个节点中不断重复)
再继续看log文件，发现如下的一段文字:

2013-06-21 18:53:39,182 FATAL org.apache.hadoop.hdfs.StateChange:
BLOCK* NameSystem.getDatanode: Data node x.x.x.x:50010 is attempting
to report storage ID DS-1357535176-x.x.x.x-50010-1371808472808. Node
y.y.y.y:50010 is expected to serve this storage.

再去搜索相关内容，终于找到了问题的根源，原来是因为集群节点的配置是使用虚拟机克隆的方式，导致节点中dfs.data.dir目录下数据是一样的（指hdfs中的元信息和数据都一样），将在hdfs-site.xml中配置的dfs.data.dir目录下内容删除掉，再次启动集群，发现问题已经得到解决.