Print

沐曦GPU更换后,新GPU在HDM无法获取信息,smi显示不可用

2025-02-25 发表

组网及说明

本故障是沐曦GPU-C500X-64GB
但大部分型号
沐曦GPU都涉及该问题

告警信息

正常异常卡展示:

13 Normal GPU-C500X-64GB Metax AUNA2415000290

14 Normal GPU-C500X-64GB Metax N/A

基本信息:

1mx命令输出展示:

mx-smi

mx-smi version: 2.1.10

No available devices were discovered

2)正常异常卡展示:
带内

13 Normal GPU-C500X-64GB Metax AUNA2415000290

14 Normal GPU-C500X-64GB Metax N/A
带外

3)系统下使用LSPCI检查GPU识别数量正常

 

 

问题描述

交叉测试


再次更换GPU依旧是新GPU在系统下不可用

过程分析

经测试分析,发现新GPU不是发生了DOA,调查发现出厂时候GPU的固件版本是1.71.0,我司备件也同样是这个版本

客户现场GPU固件版本是1.20.3

该故障原因是固件版本不匹配导致

解决方法

需要将GPU固件版本保持一致,但是因为新换上去的GPU不可用所以正常方式无法刷新固件,可使用如下方法刷新固件
1.将原有GPU全部拔下来,仅留下备件的GPU此时GPU便会正常识别可用,之后再进行正常刷新固件
2.如果mx-Sm1 -l命令新GPU显示NotAvailable(please update vbios)那么也可以直接升级固件,如果仅仅显示Not Available,那么需要使用metalink_train 0这个命令,使GPU变为上述please update vbios状态再升级固件