• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

CAS 7 添加GPU之后无法开机

2天前提问
  • 0关注
  • 0收藏,69浏览
粉丝:0人 关注:0人

问题描述:

 

 

1块T4 加入资源池 给1台机器,保存之后开机就提示那个 删掉GPU就可以启动 如何解决

提示  启动虚拟机“AI服务器”失败。原因:主机IOMMU/SMMU没有启用,开启IOMMU/SMMU后重试。

1 个回答
粉丝:13人 关注:0人

GPU直通需要依赖英特尔的 ​​VT-d​​ 或 AMD的 ​​AMD-V​​ 技术,它们在操作系统层面的体现就是 ​​IOMMU​​(对于x86架构)或 ​​SMMU​​(对于ARM架构)。如果未在BIOS和操作系统中启用此功能,宿主机会阻止虚拟机直接访问和控制物理硬件,从而导致您遇到的启动失败错误。

解决方案(分三步走)

请​​严格按照顺序​​在CVK主机(cvknode)上执行以下操作。

​步骤一:进入BIOS/UEFI,开启虚拟化支持​

这是最关键的一步,所有后续步骤都依赖于它。
  1. ​重启​​您的 cvknode主机。
  2. 在启动过程中,按特定键(通常是 DelF2F12等)进入 ​​BIOS/UEFI 设置界面​​。
  3. 在BIOS中寻找以下选项,并将其设置为 ​Enabled​:
    • ​Intel VT-x​​ 或 ​​Intel Virtualization Technology​​(虚拟化技术)
    • ​Intel VT-d​​ 或 ​​Directed I/O​​(直接I/O虚拟化,这就是IOMMU的硬件支持)
    • 对于AMD平台,请寻找 ​​AMD-V​​ 和 ​​AMD-Vi​​ 或 ​​SVM Mode​​。
  4. 保存BIOS设置并退出。系统将重启。
​注意​​:不同品牌的主机(如Dell、HP、华为、浪潮)的BIOS界面差异很大,这些选项可能位于 Advanced(高级)、Processor(处理器)或 Security(安全)等菜单下。请根据您的主机型号查阅相关资料。

​步骤二:修改CVK主机的内核启动参数​

启用BIOS设置后,还需要在操作系统中激活IOMMU。
  1. ​SSH登录​​到 cvknode主机,或直接在控制台上操作。
  2. 编辑引导文件。对于CentOS/RHEL等系统,通常是 /etc/default/grub
    vi /etc/default/grub
  3. 找到以 GRUB_CMDLINE_LINUX开头的行。在引号 ""内的现有参数后面,​​添加​​以下参数:
    • ​对于Intel CPU​​:
      intel_iommu=on iommu=pt
    • ​对于AMD CPU​​:
      amd_iommu=on iommu=pt
      ​修改后的示例​​:
    GRUB_CMDLINE_LINUX="...原有参数... intel_iommu=on iommu=pt"
    • intel_iommu=onamd_iommu=on:启用IOMMU。
    • iommu=ptpt代表 "Pass-Through",表示仅为需要直通的设备启用IOMMU,这样可以减少性能开销。
  4. 保存并退出编辑器。
  5. ​重新生成GRUB配置文件​​:
    grub2-mkconfig -o /boot/grub2/grub.cfg
  6. ​重启CVK主机​​:
    reboot

​步骤三:验证IOMMU是否已成功启用​

主机重启后,需要确认配置是否生效。
  1. 再次SSH登录到 cvknode
  2. ​检查内核启动参数​​:
    cat /proc/cmdline | grep iommu
    输出中应包含您添加的 intel_iommu=on和 iommu=pt等参数。
  3. ​检查IOMMU组是否可见​​:
    ls /sys/kernel/iommu_groups/
    如果启用了IOMMU,这个目录下会有一些编号的文件夹(如 012...),而不是空目录。
  4. ​查看您的T4 GPU是否在独立的IOMMU组中​​(这是直通成功的必要条件):
    find /sys/kernel/iommu_groups/ -name 0000:8a:00.0
    将 0000:8a:00.0替换为您的T4显卡的设备ID(您在CAS界面中可以看到)。此命令会返回该设备所在的IOMMU组路径。

最终操作

完成以上所有步骤并验证通过后:
  1. 再次登录 ​​CAS管理平台​​。
  2. 找到那台“AI服务器”虚拟机。
  3. 编辑其配置,重新​​添加T4 GPU设备​​。
  4. ​启动虚拟机​​。此时应该可以成功启动,并在虚拟机内部通过命令(如 nvidia-smi)看到这块T4显卡。

总结

步骤操作位置核心操作目的
​1​主机BIOS/UEFI开启 Intel VT-dAMD-Vi启用硬件的直接I/O虚拟化功能
​2​CVK主机系统修改GRUB,添加 iommu=on参数在操作系统中激活IOMMU驱动
​3​CVK主机系统重启并验证 /proc/cmdline和 IOMMU组确认配置已生效且设备准备就绪
​4​CAS管理平台重新为虚拟机添加GPU并开机完成GPU直通
按照这个流程,您应该能解决这个问题。如果仍有困难,请检查主机硬件和CVK系统日志(/var/log/messages)以获取更多线索。

暂无评论

编辑答案

你正在编辑答案

如果你要对问题或其他回答进行点评或询问,请使用评论功能。

分享扩散:

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作

举报

×

侵犯我的权益 >
对根叔社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明