一次因NAS存储故障引起的Linux系统恢复案例

180 阅读 0 评论 119 点赞

我是靠谱客的博主靓丽冬天，最近开发中收集的这篇文章主要介绍一次因NAS存储故障引起的Linux系统恢复案例，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

一、故障现象描述

NAS操作系统内核为Linux，自带的存储有16块硬盘，总共分两组，每组做了RAID5，Linux操作系统无法正常启动，在服务启动到cups那里就停止了，按键ctrl+c强制断开也没有响应，查看硬盘状态，都是正常的，没有报警或者警告现象。

二、问题判断思路

通过上面这些现象，首先判断NAS硬件应该没问题，NAS存储盘也应该正常，现在Linux无法启动，应该是Linux系统本身存在问题，因此，首先从Linux系统入手进行排查。

三、问题处理过程

1、第一次处理过程

NAS系统本身就是一个Linux内核装载了一个文件系统管理软件，管理软件可以对系统磁盘、系统服务、文件系统等进行管理和操作，正常情况下，基于Linux内核的NAS系统应该启动到init3或者init5模式下，由于NAS仅用了Linux一个内核模块和几个简单服务，所以判断NAS下的Linux系统肯定是启动到init 3模式下，那么现在无法启动到多用户字符界面下，何不让Linux直接进入单用户（init 1）模式下呢，因为单用户模式下仅仅启用系统所必须的几个服务，而cpus服务是应用程序级别的，肯定不会在“init 1”模式下启动，这样就避开了cups无法启动的问题，所以，下面的工作就是要进入Linux的单用户模式下。

很多的Linux发行版本都可以在启动的引导界面通过相关的设置进入单用户模式下，通过查看NAS的启动过程，基本判断这个Linux系统与RHEL/Centos发行版极为类似，因此，就通过RHEL/Centos进入单用户模式的方法试一试。

RHEL/Centos进入单用户模式很简单，就是在系统启动到引导欢迎界面下，按键e，然后编辑正确的内核引导选项，在最后面加上“single”选项，最后直接按键“b“即可进入单用户了。

接下来，重新启动NAS，然后硬件自检，接着开始启动Linux，一直在等待这个NAS的启动欢迎界面，但是欢迎界面一直没出来，就直接进入内核镜像，加载内核阶段了，没有内核引导界面，如何进入单用户啊，经过简单思考，还是决定在硬件检测完毕后直接按键盘”e“键，奇迹出现了，还真的可以，NAS进入到了内核引导界面，通过简单观察，发行第二个正是要引导的内核选项，于是移动键盘上下键，选择这个内核，然后在按键”e“，进入内核引导编辑界面了，在这行的最后面，输入“single”，然后按回车键，返回上个界面，接着按键“b”开始进行单用户引导，经过一分钟的时间，系统如愿以偿的进入了单用户下的shell命令行。

进入单用户模式后，能做的事情就很多了，首先要做的就是将cups服务在多用户模式下自启动关闭，执行命令如下：

chkconfig --levle 35 cups off

执行成功后，重启系统进入多用户模式下，看看系统是否能正常启动。

2、第二次处理过程

将cups服务开机自启动关闭后，重启NAS，发现问题依旧，NAS还是启动到cups服务那里停止了，难道上面的命令没有执行成功吗？明明已经禁止了cups服务启动了，怎么还是启动了呢？于是，继续重启NAS，再次进入单用户模式下，看看问题究竟出在哪里了。

进入单用户后，再次执行chkconfig 命令，依旧可以成功，难道是cups服务有问题，先看看配置文件，执行如下命令：

vi /etc/cups/cupsd.conf

在这里发现了一个问题，vi打开cupsd.conf时，提示“write file in swap”，文件明明真实存在，怎么说在虚拟内存中呢，经过思考，只有一种可能，NAS设备的Linux系统分区应该没有正确挂载，导致在进入单用户的时候，所有文件都存储在了虚拟内存中，要验证非常简单，执行“df”命令查看即可，如下图所示：