Hadoop常见错误及解决办法汇总

339 阅读 0 评论 224 点赞

我是靠谱客的博主朴素香水，这篇文章主要介绍Hadoop常见错误及解决办法汇总，现在分享给大家，希望可以做个参考。

错误一：Java.io.IOException: Incompatible clusterIDs 时常出现在namenode重新格式化之后

原因：每次namenode format会重新创建一个namenodeId,而data目录包含了上次format时的id,namenode format清空了namenode下的数据,但是没有清空datanode下的数据,导致启动时失败,所要做的就是每次fotmat前,清空data下的所有目录.
解决办法：停掉集群，删除问题节点的data目录下的所有内容。即hdfs-site.xml文件中配置的dfs.data.dir目录。重新格式化namenode。
另一个更省事的办法：先停掉集群，然后将datanode节点目录/dfs/data/current/VERSION中的修改为与namenode一致即可。

错误二：org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start Container

问题原因：namenode,datanode时间同步问题9 d5 X q l” h; D8 w

解决办法：多个datanode与namenode进行时间同步，在每台服务器执行：ntpdate time.nist.gov，确认时间同步成功。
最好在每台服务器的 /etc/crontab 中加入一行：”
0 2 * * * root ntpdate time.nist.gov && hwclock -w

错误三：java.net.SocketTimeoutException: 480000 millis timeout while waiting for channel to be ready for write

原因：IO超时

解决方法：
修改hadoop配置文件hdfs-site.xml，增加dfs.datanode.socket.write.timeout和dfs.socket.timeout两个属性的设置。

<property>
<name>dfs.datanode.socket.write.timeout</name>
<value>6000000</value>
</property>
<property>
<name>dfs.socket.timeout</name>
<value>6000000</value>
</property>

注意: 超时上限值以毫秒为单位。0表示无限制。

错误四：DataXceiver error processing WRITE_BLOCK operation

原因：文件操作超租期，实际上就是data stream操作过程中文件被删掉了。
解决办法：
修改hdfs-site.xml （针对2.x版本，1.x版本属性名应该是：dfs.datanode.max.xcievers）：

<property>
<name>dfs.datanode.max.transfer.threads</name>
<value>8192</value>
</property>

拷贝到各datanode节点并重启datanode即可

错误五：java.io.IOException: Failed to replace a bad datanode on the existing pipeline due to no more good datanodes being available to try.

原因：无法写入；我的环境中有3个datanode，备份数量设置的是3。在写操作时，它会在pipeline中写3个机器。默认replace-datanode-on-failure.policy是DEFAULT,如果系统中的datanode大于等于3，它会找另外一个datanode来拷贝。目前机器只有3台，因此只要一台datanode出问题，就一直无法写入成功。)

解决重点内容办法：修改hdfs-site.xml文件，添加或者修改如下两项：

<property>
<name>dfs.client.block.write.replace-datanode-on-failure.enable</name>
<value>true</value>
</property>
<property>
<name>dfs.client.block.write.replace-datanode-on-failure.policy</name>
<value>NEVER</value>
</property>

对于dfs.client.block.write.replace-datanode-on-failure.enable，客户端在写失败的时候，是否使用更换策略，默认是true没有问题。
对于，dfs.client.block.write.replace-datanode-on-failure.policy，default在3个或以上备份的时候，是会尝试更换结点尝试写入datanode。而在两个备份的时候，不更换datanode，直接开始写。对于3个datanode的集群，只要一个节点没响应写入就会出问题，所以可以关掉。

错误六：org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for :

原因：两种可能，hadoop.tmp.dir或者data目录存储空间不足。
解决办法：看了一下我的dfs状态，data使用率不到40%，所以推测是hadoop.tmp.dir空间不足，导致无法创建Jog临时文件。查看core-site.xml发现没有配置hadoop.tmp.dir，因此使用的是默认的/tmp目录，在这目录一旦服务器重启数据就会丢失，因此需要修改。添加：

<property>
<name>hadoop.tmp.dir</dir>
<value>/data/tmp</value>
</property>

然后重新格式化：hadoop namenode -format 重启。

最后

以上就是朴素香水最近收集整理的关于Hadoop常见错误及解决办法汇总的全部内容，更多相关Hadoop常见错误及解决办法汇总内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：hadoop
浏览次数：339 次浏览
发布日期：2023-09-22 22:30:38

Hadoop常见错误及解决办法汇总

错误一：Java.io.IOException: Incompatible clusterIDs 时常出现在namenode重新格式化之后

错误二：org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start Container

错误三：java.net.SocketTimeoutException: 480000 millis timeout while waiting for channel to be ready for write

错误四：DataXceiver error processing WRITE_BLOCK operation

错误五：java.io.IOException: Failed to replace a bad datanode on the existing pipeline due to no more good datanodes being available to try.

错误六：org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for :

最后

评论列表共有 0 条评论

发表评论取消回复

Hadoop常见错误及解决办法汇总

错误一：Java.io.IOException: Incompatible clusterIDs 时常出现在namenode重新格式化之后

错误二：org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start Container

错误三：java.net.SocketTimeoutException: 480000 millis timeout while waiting for channel to be ready for write

错误四：DataXceiver error processing WRITE_BLOCK operation

错误五：java.io.IOException: Failed to replace a bad datanode on the existing pipeline due to no more good datanodes being available to try.

错误六：org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for :

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复