本故障是沐曦GPU-C500X-64GB
但大部分型号沐曦GPU都涉及该问题
正常异常卡展示:
13 Normal GPU-C500X-64GB Metax AUNA2415000290
14 Normal GPU-C500X-64GB Metax N/A
基本信息:
(1)mx命令输出展示:
mx-smi
mx-smi version: 2.1.10
No available devices were discovered
(2)正常异常卡展示:
带内
13 Normal GPU-C500X-64GB Metax AUNA2415000290
14 Normal GPU-C500X-64GB Metax N/A
带外
(3)系统下使用LSPCI检查GPU识别数量正常
交叉测试
再次更换GPU依旧是新GPU在系统下不可用
经测试分析,发现新GPU不是发生了DOA,调查发现出厂时候GPU的固件版本是1.71.0,我司备件也同样是这个版本
客户现场GPU固件版本是1.20.3
该故障原因是固件版本不匹配导致
需要将GPU固件版本保持一致,但是因为新换上去的GPU不可用所以正常方式无法刷新固件,可使用如下方法刷新固件
1.将原有GPU全部拔下来,仅留下备件的GPU此时GPU便会正常识别可用,之后再进行正常刷新固件
2.如果mx-Sm1 -l命令新GPU显示NotAvailable(please update vbios)那么也可以直接升级固件,如果仅仅显示Not Available,那么需要使用metalink_train 0这个命令,使GPU变为上述please update vbios状态再升级固件
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作