近期公司需要用到超融合服务器上带的显卡资源,显卡为英伟达的t4显卡,配置了vgpu的资源后,无法在虚拟机中安装驱动进行调用gpu资源。查阅资料后是需要安装vgpu特定的驱动以及需要英伟达授权,但是我方暂未获取到相关授权信息。想了解一下在购买超融合服务器时,是不是会有相关的授权信息,是否可以帮助我查询到这方面的信息解决问题
(0)
GPU(Graphical Processing Unit,图形处理单元)是广泛应用于广电行业和艺术设计行业的一种图形硬件加速设备,例如电视台非编系统、2D/3D制图和动画设计等,都需要利用GPU显卡在图形计算时强大的浮点运算和并行运算能力。
GPU直通技术通过VT-d技术,将物理GPU透传至虚拟机,使虚拟机能够完全拥有物理GPU的资源与性能,满足行业用户对应用系统的性能要求。
· 性能损失小:GPU直通技术由于没有设备模拟和转换的过程,性能损耗极小。
· 功能兼容性好:GPU直通模式支持多种类型的显卡。这意味着大多数的图形应用程序和计算任务都可以通过GPU直通模式得到良好的支持。
· 接近原生硬件的访问性能:通过直通技术,虚拟机可以获得接近原生硬件的访问性能。这使得虚拟机内的应用程序能够以非常高的效率使用GPU资源,避免了由于模拟和转换带来的性能损失。
· GPU资源的智能调度。
GPU的智能调度是将同一集群下不同主机上的GPU资源添加到一个资源池中。并将多个实现同一类业务的虚拟机添加到一个业务虚拟机组中。每一个虚拟机都会应用一个业务模板。业务模板定义了在资源紧缺时,虚拟机使用资源的优先级以及应用低优先级业务模板的所有虚拟机占用资源的最高比例。
当业务虚拟机组中的虚拟机启动或重启时,管理平台能够自动根据GPU资源池中的资源空闲情况、虚拟机使用业务模板的优先级以及业务模板的分配比例来动态分配资源:
· 业务虚拟机组中的虚拟机应用相同优先级的业务模板时,先启动的虚拟机优先获得GPU资源。
· 资源池中的空闲GPU数量少于业务虚拟机组中即将启动的虚拟机数量时,高优先级虚拟机将优先获得GPU资源。
例如,资源池中有10个GPU资源,业务虚拟机组中有12个虚拟机,其中VM1~VM4应用业务模板A(低优先级、分配比例20%),VM5~VM12应用业务模板B(高优先级、分配比例80%)。当VM1~VM12同时启动时,高优先级的虚拟机VM5~VM12会优先获取GPU资源,低优先级的虚拟机VM1~VM4中只有2个虚拟机能获得GPU资源,先启动虚拟机的先获取GPU资源。
· 当业务资源组中空闲的GPU数量少于业务虚拟机组中即将启动的高优先级的虚拟机数量,并且应用相同低优先级业务模板的虚拟机使用的资源比例总和超过该业务模板的分配比例时,系统将释放部份低优先级虚拟机已使用的GPU资源,以保障高优先级虚拟机的资源使用需求。
例如,资源池中有10个GPU资源,业务虚拟机组中有12个虚拟机。其中VM1~VM4应用业务模板A(低优先级、分配比例20%),VM5~VM12应用业务模板B(高优先级、分配比例80%)。VM1~VM10处于运行状态,低优先级虚拟机VM1~VM4一共使用了4个GPU资源,占比40%(大于业务模板A的分配比例20%),当高优先级的虚拟机VM11、VM12启动时,会抢占低优先级虚拟机使用的GPU资源。
服务器已正常安装GPU显卡设备。
本文档不严格与具体硬件服务器型号对应,如果使用过程中与产品实际情况有差异,请参考相关产品手册,或以设备实际情况为准。本文档使用的服务器型号与配置如下表所示,该环境不作为实际部署时的强制环境或推荐环境,只需要服务器能够兼容H3C UIS超融合管理平台即可完成本配置。
配置项 | 说明 |
服务器 #1 | · H3C UIS-Cell 3030 G3 · CPU:2路12核,Intel(R) Xeon(R) Gold 6128 CPU @ 3.40GHz · 内存:128GB · GPU:NVIDIA Tesla A10 |
服务器 #2 | · H3C UIS-Cell 3030 G3 · CPU:2路12核,Intel(R) Xeon(R) Gold 6128 CPU @ 3.40GHz · 内存:128 GB |
服务器 #3 | · H3C UIS-Cell 3030 G3 · CPU:2路12核,Intel(R) Xeon(R) Gold 6128 CPU @ 3.40GHz · 内存:128 GB |
软件 | 版本 |
服务器虚拟化管理软件 | H3C UIS-E0885P02 |
虚拟机操作系统 | Windows 10企业版(64位) Ubuntu 18.04 desktop(64位) |
NVIDIA显卡驱动(Windows) | 474.44_grid_win10_win11_server2016_server2019_server2022_64bit_international.exe |
NVIDIA显卡驱动(Linux) | NVIDIA-Linux-x86_64-470.199.02-grid.run |
· 服务器#1上安装NVIDIA Tesla A10型号显卡。
· 虚拟机Win10上安装Windows 10企业版,并配置GPU直通。然后在虚拟机中安装NVIDIA配套的显卡驱动,虚拟机能正确识别直通的GPU显卡型号。
图1 GPU直通配置逻辑组网图
· 一个GPU资源同时只能透传给一个虚拟机使用。
· 需要配置GPU直通的业务虚拟机,其镜像文件需存储在共享存储上,且参与智能调度的资源所在主机都挂载了该共享存储。若虚拟机的镜像文件不在共享存储上,则该虚拟机只能使用所在主机的物理资源。
该文档以下步骤以E0885P02版本为例,如果使用过程中与实际情况有差异,请以设备实际情况为准。
图2 配置流程图
(1) 登录UIS超融合管理平台,选择顶部“主机”页签,选择存在GPU显卡的主机,进入主机概要信息页面。
(2) 选择“高级选项”页签,进入启动项配置页面。将IOMMU/SMMU配置状态设置为启用,单击<保存>按钮。
图3 启用主机IOMMU/SMMU
(3) 单击<进入维护模式>按钮,弹出进入维护模式对话框,勾选“自动迁移主机上运行或暂停的虚拟机到其他的主机。”,单击<确定>按钮,使主机进入维护模式。
图4 进入维护模式
(4) 单击<更多操作>,在弹出的下拉框中选择[重启主机]选项,重启主机。
(5) 主机重启完成后,单击<退出维护模式>按钮,使主机退出维护模式。
(1) 创建Windows虚拟机,本文档命名为“Win10”,请根据用户实际情况进行命名,安装Windows 10企业版操作系统。操作系统安装完成后,鼠标右键单击Windows开始菜单图标,选择计算机管理菜单项。
图5 计算机管理选项
(2) 进入计算机管理界面,选择[系统工具/<设备管理器>]菜单项,选择“显示适配器”下拉框,可以看到此时虚拟机使用的是系统模拟的VGA显卡。
图6 虚拟机使用VGA显卡
创建Linux虚拟机,本文档命名为“Ubuntu”,请根据用户实际情况进行命名,安装Ubuntu 18.04 desktop操作系统,操作系统安装完成后,登录操作系统,执行lshw命令可以查看到此时虚拟机使用的是系统模拟的VGA显卡。
root@mysrv:~# lshw –c display
(1) 登录UIS超融合管理平台,单击顶部“云业务”页签,单击左侧导航树[智能调度资源]菜单项,进入智能调度业务列表页面。
图7 智能调度资源列表
(2) 单击<增加智能调度资源>按钮,弹出增加智能调度资源对话框。
图8 增加智能调度资源
(3) 设置业务名称,本文档以命名为GPU直通为例,输入描述,选择集群Cluster,选择资源类型为GPU,单击<下一步>按钮。
图9 资源信息设置页面
(4) 进入资源信息设置页面,勾选加入资源池的GPU,单击<下一步>按钮。
图10 选择GPU资源池
(5) 进入业务虚拟机组设置页面,单击<增加>按钮,弹出增加智能调度业务虚拟机对话框。
(6) 选择使用GPU设备的业务虚拟机Win10,选择业务虚拟机所使用的业务模板,驱动类型为VFIO,设置资源个数为1,单击<确定>按钮。
图12 增加智能调度业务虚拟机
参数名称 | 参数说明 |
虚拟机 | 选择需要使用GPU资源且处于关闭状态的虚拟机,可以多选。所选虚拟机都会加入业务虚拟机组。 |
业务模板 | 业务模板定义了在资源紧缺时,虚拟机使用资源的优先级以及应用低优先级业务模板的所有虚拟机占用资源的最高比例。每一个虚拟机都会应用一个业务模板。 当虚拟机使用GPU资源的优先级较高时,请为其选择一个高优先级的业务模板。关于GPU智能调度的详细介绍,请参见1.3 GPU智能调度。 |
(7) 在如图11所示的业务虚拟机组页面,单击<完成>按钮完成操作。
(8) 单击左侧导航树中的“GPU直通”,进入GPU直通任务列表,启动虚拟机。
图13 启动虚拟机
(9) 虚拟机查看已挂载GPU设备信息。
¡ 打开Winodws虚拟机控制台,登录虚拟机,鼠标右键单击Windows开始菜单图标,选择计算机管理菜单项。进入计算机管理界面,选择[系统工具/<设备管理器>]菜单项,选择“其他设备”,在其他设备处有新增的“3D视频控制器”,表示虚拟机已挂载GPU设备。
图14 虚拟机已挂载GPU
¡ 打开Linux虚拟机控制台,登录虚拟机,在虚拟机操作系统内执行lshw –c display命令,可以查看到虚拟机已成功挂载GPU设备。
图15 虚拟机已挂载GPU
(1) 通过FTP工具将NVIDIA显卡驱动程序上传至待安装显卡驱动的虚拟机中。
(2) 双击显卡驱动应用程序,开始安装显卡驱动程序。
(3) 进入许可协议界面,阅读许可协议信息后,单击<同意并继续>按钮。
图16 软件许可协议
(4) 显卡驱动程序安装完成后,鼠标右键单击Windows开始菜单图标,选择计算机管理菜单项,进入计算机管理界面,选择[系统工具/<设备管理器>]菜单项,选择“显示适配器”下拉框,可以正确显示显卡型号为NVIDIA TeslaA10,GPU直通配置完成。
图17 虚拟机内查看GPU设备型号
(1) 根据实际情况,使用工具将NVIDIA显卡驱动程序上传至虚拟机中。
(2) 安装显卡驱动程序。
在Linux操作系统下,安装NVIDIA图形驱动需要编译安装,并且需要预先安装编译器工具和内核头文件。本文档以Ubuntu 18.04系统为例,为了满足这些依赖,可以通过安装“build-essential”及其相应的依赖软件包来完成。
a. 使用root用户执行init 3命令退出X server及OpenGL应用程序,然后运行以下命令安装驱动程序。
root@mysrv:~# sh ./NVIDIA-Linux-x86_64-470.199.02-grid.run
图18 安装驱动程序
b. 安装完成后,选择OK退出安装程序,然后重启虚拟机。
图19 安装完成
c. 登录虚拟机,执行命令nvidia-smi,查看GPU信息,确认GPU正常。
root@mysrv:~# nvidia-smi
图20 查看GPU信息
请参考《H3C UIS超融合产品vGPU操作指导》 2.5配置步骤章节5. 配置许可服务器部分。
请参考《H3C UIS超融合产品vGPU操作指导》2.5配置步骤章节6. 虚拟机配置许可部分。
若用户使用L20或L40的GPUS时,可登录主机后台手动安装驱动,安装方法如下:
(1) 进入/opt/.tools目录下,解压nvidiaL20.tgz文件,生成nvidia-vgpu.upgrade目录。
[root@cvknode1 .tools]# tar xf nvidiaL20.tgz
(2) 进入nvidia-vgpu.upgrade,执行升级脚本。
root@cvknode1 nvidia-vgpu.upgrade]# ls
gsp_ga10x.bin gsp_tu10x.bin nvidia-vgpu-0.1-1.hl202.x86_64.rpm upgrade.sh
[root@cvknode1 nvidia-vgpu.upgrade]# bash upgrade.sh
Begin to upgrade nvidia-vgpu modules...
[Warning] Not enough arguments to input.
Verifying... ################################# [100%]
Preparing... ################################# [100%]
Updating / installing...
1:nvidia-vgpu-0.1-1.hl202 ################################# [100%]
End to upgrade nvidia-vgpu module...
(3) 完成后root重启主机。
(0)
暂无评论
首先英伟达T4支持直通和vGPU模式,
其次你的平台版本说一下 然后检查当前授权是标准版还是企业增强版,使用vGPU需要企业增强授权才可以,还需要搭建英伟达显卡授权服务器
(0)
暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论