Print

R4950 G3 OS夯死时无告警抛出,手动重启后内存被禁用问题

2024-11-20 发表

组网及说明

告警信息

机台夯死,SEL日志无异常记录

问题描述

  1. OS夯死时无告警抛出,手动重启后内存被禁用

过程分析

1OS阶段和BIOS启动阶段运行的内存校验监控程序不完全相同;

2BIOS启动阶段会额外执行一些可靠性相关的检测信息,如MEMTEST等工具校验,此次内存被禁用正是在BIOS启动阶段作MEMTEST测试时发现的training异常,主动将该槽位内存做了禁用处理;

3OS运行阶段,系统进行内存读写时通过CPU 内部的CRC校验机制在内存读写时侦测错误,纠正错误,内存出现不可纠正故障时即会导致系统宕机,最终由CPU MCA机制进行故障诊断上报;

4)两个阶段执行的是两套机制,OS夯死阶段未识别问题,经初步分析是由于海光CPU MCA 故障侦测机制不完善导致(根因与前期CPU宕机无日志记录相同)。G3服务器搭载的海光CPU硬件及微码版本较低,在部分MCA告警监控上报时仍存在不足,导致夯死阶段CPU侧无法将告警信息传达到主机侧,我司正在持续推动海光侧作进一步代码优化和程序升级,来解决此类问题。

解决方法

1.对于R4950 G3海光的服务器升级最新的BIOS版本