前言
最近有一台浪潮NF5466M5服务器异常宕机,重启机器之后无法进入系统,按Ctrl+R进入Raid配置界面,发现RAID卡进入安全模式导致系统无法引导成功。初步诊断可能是阵列卡或者硬盘异常触发RAID自我保护机制,下面分享排查过程。
排查过程
1、尝试解除安全模式
首先按“Ctrl+R”进入Raid配置界面,然后按“Ctrl+N”切换至“Ctrl Mgmt”页面,找到“Boot Mode”选项,将“Safe Mode errors”从默认的“Halt on errors”改为“Ignore errors”。此操作指示RAID卡在检测到异常时忽略错误并尝试继续启动。保存设置并重启服务器,再次进入RAID配置界面确认安全模式是否解除。
2、检测硬盘状态、RAID卡状态
进入RAID配置界面后,此时安全模式已解除,检查所有物理硬盘状态,均显示为“Online”正常状态。但阵列卡整体状态显示为“Need Attention”告警状态——正常情况下,阵列卡控制器状态应为“Optimal”状态,而“Need Attention”该告警表示阵列卡处于“亚健康”状态,控制器已检测到异常,虽暂时未导致硬盘离线,但已触发安全模式,此时重启可以正常引导进入操作系统,先临时恢复系统,但阵列卡不稳定,需要进一步检测阵列卡。
3、借助StorCLI工具定位阵列卡异常
RAID配置界面显示的信息较为简略,无法直接定位具体错误类型。因此需要借助StorCLI工具获取详细的RAID信息和日志。若系统无法启动或者业务系统无操作权限,可通过U盘启动WinPE或U盘的Linux系统来运行该工具,本文以WinPE环境为例,执行以下命令:
# 获取全部基本信息
storcli64.exe /c0 show all > AdpInfo.txt
# 系统下的RAID实时日志
storcli64.exe /c0 show termlog > FwTmLog.txt
打开生成的AdpInfo.txt文件,在Status段落中,发现其中“Memory Uncorrectable Errors”(内存不可纠正错误)的计数为1——该错误表示阵列卡内置内存发生了一次不可纠正错误,这是导致阵列卡进入安全模式、服务器宕机(阵列卡内存异常会导致控制器无法正常工作,触发保护机制)。
4、更换阵列卡,验证故障解决
确认故障后,申请同型号备件进行更换。更换完成后,所有硬盘自动被识别且状态“Online”,阵列卡控制器状态恢复为“Optimal”,服务器正常引导操作系统,业务恢复。
结语
本次浪潮NF5466M5服务器宕机故障,核心是3108MR阵列卡内置内存异常引发的安全模式触发,整个排查过程遵循“先临时恢复、再定位根源、最后彻底解决”的思路,从解除安全模式缩小故障范围,到借助工具精准定位,再到更换硬件验证,逐步推进,最终顺利恢复服务器正常运行。
通过本次排查,也总结了两点运维经验:一是服务器宕机后,若无法进入系统,优先排查阵列卡配置(安全模式是常见保护机制),避免盲目重装系统导致数据风险;二是阵列卡的“Need Attention”告警不可忽视,虽暂时不影响业务,但已提示硬件亚健康,需及时排查,避免故障扩大。
另外,建议运维同行在日常维护中,定期通过StorCLI工具查看阵列卡状态,备份RAID配置信息,同时储备常用硬件(如阵列卡、硬盘),以便在故障发生时快速响应,减少业务中断时间。如果大家在遇到同类阵列卡故障时,有其他排查思路或问题,欢迎在评论区交流探讨。





暂无评论