Print

HPE ProLiant 系列服务器 - IML 显示 Uncorrectable PCI Express Error 解决方法

2017-12-27发表

HPE ProLiant 系列服务器上,IML(Integrated Management Log)日志中显示Uncorrectable PCI Express Error",其后有 Slot Bus Device  Function 信息,此报错如何处理?


下面举两台不同服务器真实的报错信息

1:Uncorrectable PCI Express Error (Slot 5  Bus 128  Device 2  Function 2  Error status 0x00000020)
       2:Uncorrectable PCI Express Error (Embedded device, Bus 0, Device 5, Function 0, Error status 0x00014000)


首先需要定位产生此问题的部件, 一般来说, 需要先明确的Slot信息, 如果是Embedded设备, 一般为主板集成设备,Slot x 则是指独立的PCI设备。然后开始定位具体故障备件。 在G7之前的机型, 可以通过查看

Advanced Survey Report 中的 对应Bus Device Function 来确认故障备件

在G8之后的服务器报独立的PCI设备可以简单的通过AHS日志来查看Slot信息(如下图),如果为集成设备,则需要根据PCI Configuration Tree,然后通过Bus Device Function 来确认故障备件     Slots (from SMBIOS)       Negotiated   Negotiated       
  Slot  Type                  Width         Speed      Component
------------------------------------------------------------------------------------------------------------------------------
    1   PCI-Express Gen3      N/A          N/A         Empty Slot                                                         
    2   PCI-Express Gen3      N/A          N/A         Smart Array P431 Controller                                       
    3   PCI-Express Gen3      N/A          N/A         Empty Slot                                                         
    4   PCI-Express Gen3      x8           8 GB/sec    HP Infiniband FDR/Ethernet 10Gb/40Gb 2-port 544+QSFP Adapter - NIC 
    5   PCI-Express Gen3      N/A          N/A         HP InfiniBand FDR/Ethernet 10Gb/40Gb 2-port 544+QSFP Adapter       
    6   PCI-Express Gen3      x4           2.5 GB/sec  HP Ethernet 1Gb 4-port 331T Adapter - NIC                          
    7   PCI-Express Gen3      x8           8 GB/sec    HP Infiniband FDR/Ethernet 10Gb/40Gb 2-port 544+QSFP Adapter - NIC 
    8   PCI-Express Gen3      x8           8 GB/sec    HP Infiniband FDR/Ethernet 10Gb/40Gb 2-port 544+QSFP Adapter - NIC 
    9   PCI-Express Gen3      x8           8 GB/sec    Smart Array P431 Controller 


 


在初步确认引起报错的部件后,一般按照以下步骤处理:

1:确认故障的PCI设备驱动和固件是否是最新,如果不是请升级到最新

2:如果升级固件驱动后,故障依旧,则更换相关报错部件。


Uncorrectable PCI Express Error"报错在许多情况都可以通过升级驱动固件解决,如果升级后问题依旧或者已经是最新的固件驱动, 此时则需要更换相关备件。

集成PCI设备一般需要更换主板, HPE ProLiant DL5XX系列服务器可能需要更换SPI板。

独立PCI设备,一般先更换PCI卡,问题无法修复在更换PCI扩展板或者主板。

在某些极个别的案例中,是通过更换CPU解决的, 在更换上述备件问题依旧,可以考虑更换CPU测试。