Print

【R4900 G3】CPU CE错误 不中断业务情况下进行屏蔽(HDM 2.76以后版本适用)

2024-10-18 发表

组网及说明

机型:R4900 G3

HDM版本: 2.76及以后

BIOS版本: 2.00.39及以后

告警信息

2024-10-11 09:22:36 Uncorrected Machine Check Exception (Socket (0x00), APIC ID (0x0000001e), Bank (0x03), Status (0x8c20004000101135), Address (0x0000000136d480a8), Misc (0x0000000000c12285))

2024-10-11 09:22:37 Configuration Error---CPU core errors--ErrorType:Cache--Corrected Error---Location: Processor:1 core MCA bank: mid level cache

2024-10-11 09:22:37 Correctable Machine Check Error---CPU core errors--ErrorType:Cache--Corrected Error---Location: Processor:1 core MCA bank: mid level cache

问题描述

机型:R4900 G3

HDM版本: 2.76及以后

BIOS版本: 2.00.39及以后

HDM上报CPU可纠正错误告警,需要进行屏蔽。

过程分析

CPU CE 错误一般不需要理会,都是系统自行修复的,不会对业务正常运行造成影响,如果现场环境对告警有相关要求,可以进行屏蔽。

一般情况下,推荐参考如下知了文档中提到的方式,进行屏蔽处理:

R4900G3 CPU core error可纠正报错 - 知了社区 (h3c.com)

但在某些特殊情况下,例如在运营商现网资源池这种不便于重启设备的环境下,可以通过执行如下IPMI命令实现CPU CE告警屏蔽。

解决方法

 

可按如下IPMI命令,对 HDM 2.76以后的版本的几个CPU CE告警进行屏蔽:

  • 屏蔽 FRB1/BIST failure
  • ipmitool -H {HDM IP} -I lanplus -U {HDM 账号} -P {HDM 密码} raw 0x36 0x09 0xa2 0x63 0x00 0x36 0x02 0x6f 0x07 0x02 0x00 0x00 0x00 0x00 0x00(屏蔽,HDM重启恢复默认)/0x01(开启,HDM重启恢复默认)/0x02(持久化屏蔽)/0x03(持久化开启)
  • 屏蔽 FRB3/Processor Startup/Initialization failure
  • ipmitool -H {HDM IP} -I lanplus -U {HDM 账号} -P {HDM 密码} raw 0x36 0x09 0xa2 0x63 0x00 0x36 0x02 0x6f 0x07 0x04 0x00 0x00 0x00 0x00 0x00(屏蔽,HDM重启恢复默认)/0x01(开启,HDM重启恢复默认)/0x02(持久化屏蔽)/0x03(持久化开启)
  • 屏蔽 Processor disabled
  • ipmitool -H {HDM IP} -I lanplus -U {HDM 账号} -P {HDM 密码} raw 0x36 0x09 0xa2 0x63 0x00 0x36 0x02 0x6f 0x07 0x08 0x00 0x00 0x00 0x00 0x00(屏蔽,HDM重启恢复默认)/0x01(开启,HDM重启恢复默认)/0x02(持久化屏蔽)/0x03(持久化开启)
  • 屏蔽Correctable Machine Check  Error
  • ipmitool -H {HDM IP} -I lanplus -U {HDM 账号} -P {HDM 密码} raw 0x36 0x09 0xa2 0x63 0x00 0x36 0x02 0x6f 0x07 0x0c 0x00 0x00 0x00 0x00 0x00(屏蔽,HDM重启恢复默认)/0x01(开启,HDM重启恢复默认)/0x02(持久化屏蔽)/0x03(持久化开启)
  • 屏蔽Configuration Error
  • ipmitool -H {HDM IP} -I lanplus -U {HDM 账号} -P {HDM 密码} raw 0x36 0x09 0xa2 0x63 0x00 0x36 0x02 0x6f 0x07 0x05 0x00 0x00 0x00 0x00 0x00(屏蔽,HDM重启恢复默认)/0x01(开启,HDM重启恢复默认)/0x02(持久化屏蔽)/0x03(持久化开启)