• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

R5350 G6插8张GPU,linux报故障,输入NVIDIA-smi无回显

19小时前提问
  • 0关注
  • 0收藏,41浏览
粉丝:0人 关注:0人

问题描述:

组网及组网描述:

七张显卡就可以识别到GPU,八张就识别不了GPU并且报故障

2 个回答
粉丝:22人 关注:1人

针对您遇到的 R5350 G6 服务器插入 8 张 GPU 时 nvidia-smi 无回显或报错,但 7 张卡正常的现象,这属于典型的“部分掉卡”或“驱动未绑定”故障。由于部分显卡能被识别,说明核心驱动大概率已安装,问题多集中在个别硬件故障、供电/散热瓶颈或底层配置上。
建议您按照以下从软到硬的逻辑进行系统性排查:

1. 确认底层硬件识别状态(关键步骤)

nvidia-smi 依赖 NVIDIA 驱动,而 lspci 依赖主板 PCIe 通道。首先需要确认主板是否识别到了全部 8 张卡:
  • 在终端执行 lspci | grep -i nvidia
  • 若输出只有 7 张卡:说明主板层面就没有识别到第 8 张卡。这通常是 PCIe 通道不足、Riser 卡接触不良、插槽损坏或该卡硬件损坏导致的。
  • 若输出有 8 张卡:说明主板识别正常,是 NVIDIA 驱动未能成功绑定到第 8 张卡。请继续执行后续步骤。

2. 查看系统内核日志定位故障

通过系统日志可以精准定位是哪一张卡、因为什么原因掉线:
  • 执行命令 dmesg -T | grep -iE 'nvrm|nvidia|xid|pcie|aer|fatal|gpu|fallen off' | tail -n 100
  • 观察输出中是否有 RmInitAdapter failedfallen off the bus 或 Xid 等报错信息。日志中通常会包含类似 0000:84:00.0 的 PCI 总线地址,这能帮您直接锁定是哪一张卡出现了问题。

3. 排查硬件与供电瓶颈(7卡与8卡的核心差异)

既然 7 张卡正常,8 张卡报故障,极大概率是物理环境或供电达到了临界点
  • 供电不足:8 张卡满载功耗极高,如果电源存在老化或 PCBA 供电线路虚接,第 8 张卡可能因“电力不足”拒绝被识别。
  • 过热降频/掉卡:8 张卡密集排列会导致机箱内热量堆积。若散热风扇转速不够或硅脂老化,某张卡温度超过阈值(如 >90℃)会触发自我保护机制,导致系统无法识别。
  • 连接器接触异常:建议断电后,重新插拔第 8 张卡及对应的 Riser 卡,检查金手指是否有氧化或划痕,并使用无尘布和无水酒精进行深度清洁。

4. 检查 BIOS 底层配置

服务器的 BIOS 设置对多卡环境至关重要,请进入 BIOS 检查以下项:
  • Above 4G Decoding:必须设置为 Enabled,否则系统无法为 8 张大显存 GPU 分配足够的内存地址空间。
  • PCIe 通道分配:确认所有 PCIe 插槽均已启用,且 PCIe 速率设置为 Auto 或 Gen3/Gen4(视显卡和主板支持而定)。
  • Multi-GPU 选项:确认是否启用了多 GPU 支持选项。
  • 安全启动(Secure Boot):建议将其设置为 Disabled,以防止因驱动签名问题阻止某张卡的驱动加载。

5. 软件与驱动修复

如果硬件和 BIOS 均无异常,可尝试软件层面的修复:
  • 重置异常 PCIe 设备:如果通过 dmesg 找到了异常卡的 PCI 地址(如 0000:84:00.0),可尝试在线重置:
    echo 1 | sudo tee /sys/bus/pci/devices/0000:84:00.0/reset,然后再次运行 nvidia-smi -L 查看是否恢复。
  • 重装/修复驱动:如果是由于系统内核升级导致驱动不匹配,可使用 nvidia-bug-report.sh 收集日志,或者重新安装当前版本的 NVIDIA 驱动。
  • 开启持久化模式:执行 nvidia-smi -pm 1 开启内存常驻模式,防止驱动在空闲时被卸载导致识别延迟或失败。

暂无评论

粉丝:17人 关注:2人

一、日志报错根因
日志核心报错:nvidia-smi failed because it couldn't communicate with the NVIDIA driver
7 张 GPU 正常、8 张失效:典型 PCIE 资源上限、BIOS 插槽供电、GPU 虚拟化、IO 空间资源不足问题;
nvidia-persistenced服务反复启动失败:底层 NVIDIA 内核驱动无法和 GPU 硬件通信,并非单纯服务故障;
单卡数量阈值卡在 7 张,主板 PCIE 地址空间、SR-IOV、PCIe 总线拆分配置限制。
二、BIOS 关键配置修改(必做,解决 8 卡资源不足)
重启服务器按Del进入 BIOS,修改以下参数:
PCIE 相关核心参数
PCIe Memory Allocation:设置为 Enabled(强制分配大段 MMIO 内存,多 GPU 必备)
PCIe 64-bit BAR Support:Enabled(8 卡必须开启,32 位地址空间不足以容纳 8 块显卡 BAR)
SR-IOV Global Support:Disabled(未使用 GPU 虚拟化时关闭,释放 PCIE 资源)
PCIe ASPM 省电:Disabled(多卡供电协商冲突,关闭节能)
GPU 供电 / 算力配置
GPU Power Management:Performance 高性能模式
关闭 CPU C-State、Package C-State 节能,避免 CPU 电源管理干扰 GPU 总线
插槽拆分设置
R5350 G6 主板 PCIE 插槽拆分默认可能为 x8+x8,8 张 GPU 需要所有插槽拆分至 x16,或调整总线分组,均分 PCIE 资源;
将所有 GPU 插槽 PCIe Speed 锁定为 Gen4,关闭 Auto 自适应协商。
三、内核启动参数扩容 MMIO 地址(Linux 系统修复)
1. 修改 grub 配置
bash
运行
vi /etc/default/grub

修改内核启动参数,添加 PCI 大内存分配参数:
plaintext
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=realloc pci=nobar pci=64bit"

参数说明:
pci=realloc:重新分配 PCIe 内存资源,解决多卡 BAR 地址冲突
pci=64bit:强制启用 64 位 BAR 寻址,突破 32 位地址上限
2. 更新 grub 并重启
bash
运行
update-grub
reboot

四、NVIDIA 驱动与 persistenced 服务修复
验证内核驱动是否加载
bash
运行
# 查看NVIDIA内核模块
lsmod | grep nvidia
# 无输出代表驱动加载失败,重装匹配服务器内核的NVIDIA驱动

修复 persistenced 服务(日志反复启动失败)
bash
运行
# 临时关闭自动重启循环
systemctl stop nvidia-persistenced
systemctl disable nvidia-persistenced
# 手动测试驱动通信
nvidia-smi

若执行nvidia-smi仍无输出,代表硬件 / BIOS 资源问题,不是服务问题。
3. 驱动重装建议
服务器多卡场景使用生产专用数据中心驱动(535/550 系列),不要使用桌面版驱动;安装时启用 DKMS 适配内核。
五、硬件层面排查(7 卡正常 8 卡失效专属)
电源功率不足
R5350 G6 标配电源无法承载 8 张高性能 GPU,满配 8 卡需更换冗余大功率铂金电源,供电不足会导致第 8 张 GPU 无法被 PCIe 总线枚举,系统识别不到硬件。
PCIE 背板 / 插槽硬件冲突
调整 GPU 插槽位置,不要集中在同一组 PCIE 总线;更换第 8 张 GPU 位置、替换显卡交叉测试,排除单张显卡硬件故障。
散热过热降权
8 卡高密度散热压力大,GPU 过热会被主板屏蔽,进 iBMC 查看硬件温度告警。
六、快速验证步骤
BIOS 修改 + 内核参数更新后重启,执行lspci | grep VGA,查看能否枚举全部 8 块 NVIDIA 显卡;
lspci 看不到 8 张卡:BIOS / 电源 / PCIE 资源问题;
lspci 能看到全部显卡,但nvidia-smi无输出:驱动不兼容、BAR 地址冲突。
关闭nvidia-persistenced服务,不影响nvidia-smi查询,仅影响 GPU 持久算力缓存。
七、极简总结
故障核心:8 块 GPU 占用 PCIE 32 位 BAR 地址空间溢出,BIOS 未开启 64 位大内存分配,导致第 8 张卡驱动通信失败。
处理顺序:开启 BIOS PCIe 64-bit BAR+MMIO 分配 → 内核添加 pci=realloc 参数 → 确认电源功率充足 → 重装适配多卡 NVIDIA 驱动。

暂无评论

编辑答案

你正在编辑答案

如果你要对问题或其他回答进行点评或询问,请使用评论功能。

分享扩散:

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作

举报

×

侵犯我的权益 >
对根叔社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明