Print

关于HPE ProLiant Gen10服务器使用未经测试过的Option Cards可能会遇到Bank 6 UMCE错误的公告

2020-08-18 发表

问题描述

【产品型号】

任何HPE ProLiant Gen10服务器使用Intel SkylakeCascade处理器,安装未经HPE测试和支持的选件卡。 

【涉及版本】

目前在运行Red Hat Enterprise Linux 7的服务器上观察到这种情况。其他Linux发行版也可能会受到影响。 
【问题描述】

HPE ProLiant Gen10服务器安装未经HPE测试和支持的选件卡,当在Linux系统下关闭虚拟机时可能会遇到以下错误,这些报错会记录到IML日志中

Critical,697,4502,0x0005,CPU,0x0003,Hardware,07/29/2019 12:55:28,653:Uncorrectable Machine Check Exception (Processor 1, APIC ID 0x00000000,Bank 0x00000006, Status 0xF7800000"00010405, Address 0x00000000"00000000,Misc 0x00000000"112A0000). ACTION:Update the system firmware. If theissue persists, contact support.    

Critical,697,4516,0x0014,System Error,0x0005,Hardware,07/29/201912:55:30,654: Unrecoverable I/O Error has occurred. System Firmware willlog additional details in a separate IML message entry if possible.   

通过以下信息来匹配该故障:

● UMCE中指定Bank 0x00000006报错

● 报错中Misc字段的值0x00000000"112A0000,其中“112A”的位置,字符“2A”必须存在并且完全匹配,字符“11”可以变化,其他字符无关紧要。   

原因分析

故障根本原因记录在英特尔SKX110 Spec Update

Intel Scalable Processor Family Specification Update 

规避措施/解决方案

请勿使用非测试过的option cards,或咨询系统厂商,通过更新必要的内核以避免SKX110