服务器中有两块4090D显卡,当时收到设备时,是把两个显卡直连到一个Ubuntu系统中,当前需要拆分成两个Ubuntu系统,当前安装完成后使用nvidia-smi查看是提示No devices were found, 驱动和直通已完成。
(0)
(1) 安装GPU驱动相关deb包
a. 进入安装位置
cd /opt/gpu-driver/nvidia/ubuntu/deb/driver
b. 安装deb包
dpkg -i *
(2) 安装GPU驱动
a. 设置环境变量
echo "export TERM=xterm" >> /etc/profile
b. 环境变量生效
source /etc/profile
c. 进入NVIDIA驱动安装位置
cd /opt/gpu-driver/nvidia/
d. NVIDIA驱动安装文件赋予可执行权限
chmod 777 NVIDIA-Linux-x86_64-535.104.05.run
e. 执行驱动安装文件安装NVIDIA驱动
./NVIDIA-Linux-x86_64-535.104.05.run --disable-nouveau –-silent
如果重复执行上述命令安装nvidia驱动,将出现如图6-3所示的提示,可忽略。
f. 检查NVIDIA驱动是否安装成功
nvidia-smi
正常显示如图6-4所示的信息,即表示安装成功。
g. 执行关闭mig操作,防止mig默认开启
nvidia-smi -mig 0
(3) 安装fabricmanager(如该GPU有模组则需要安装fabricmanager这个组件)
a. 进入安装位置
cd /opt/gpu-driver/nvidia/ubuntu/deb/fabricManager
b. 安装fabricmanager组件
dpkg -i *
c. 设置开机自启
systemctl enable nvidia-fabricmanager
d. 启动fabricmanager服务
systemctl start nvidia-fabricmanager
(1) 安装gpu驱动相关deb包
a. 进入安装位置
cd /opt/gpu-driver/nvidia/ubuntu22/deb/driver
b. 安装驱动
dpkg -i *
(2) 安装GPU驱动
a. 设置环境变量
echo "export TERM=xterm" >> /etc/profile
b. 环境变量生效
source /etc/profile
c. 进入NVIDIA驱动安装位置
cd /opt/gpu-driver/nvidia/
d. NVIDIA驱动安装文件赋予可执行权限
chmod 777 NVIDIA-Linux-x86_64-535.104.05.run
e. 执行驱动安装文件安装NVIDIA驱动
./NVIDIA-Linux-x86_64-535.104.05.run --disable-nouveau –-silent
如果重复执行上述命令安装nvidia驱动,将出现如图6-5所示的提示,可忽略。
f. 检查NVIDIA驱动是否安装成功
nvidia-smi
正常显示信息如图6-6所示,即安装成功。
g. 执行关闭mig操作,防止mig默认开启
nvidia-smi -mig 0
(3) 安装fabricmanager(如该GPU有模组需要安装fabricmanager这个组件)
a. 进入安装位置
cd /opt/gpu-driver/nvidia/ubuntu22/deb/fabricManager
b. 安装fabricmanager组件
dpkg -I *
c. 设置开机自启
systemctl enable nvidia-fabricmanager
d. 启动fabricmanager服务
systemctl start nvidia-fabricmanager
(1) 添加软连接
ln -s /sbin/ldconfig /sbin/ldconfig.real
(2) 安装NingOS依赖
cd /opt/gpu-driver/nvidia/h3clinux/rpm
rpm -i kernel-devel-5.10.0-136.12.0.86.4.hl202.x86_64.rpm
如果重复执行上述命令安装NingOS依赖包,将出现如图6-7所示的提示,可忽略。
(3) 安装GPU驱动
a. 设置环境变量
echo "export TERM=xterm" >> /etc/profile
b. 环境变量生效
source /etc/profile
c. 进入nvidia驱动安装位置
cd /opt/gpu-driver/nvidia/
d. nvidia驱动安装文件赋予可执行权限:
chmod 777 NVIDIA-Linux-x86_64-535.104.05.run
e. 执行驱动安装文件安装nvidia驱动
./NVIDIA-Linux-x86_64-535.104.05.run --disable-nouveau --silent
如果重复执行上述命令安装nvidia驱动,将出现如图6-8所示的提示,可忽略。
f. 检查nvidia驱动是否安装成功
nvidia-smi
正常显示如图6-9所示信息,即安装成功。
(4) 执行关闭mig操作,防止mig默认开启
nvidia-smi -mig 0
(5) 安装fabricmanager(模组需要安装fabricmanager这个组件)
a. 进入安装位置
cd /opt/gpu-driver/nvidia/h3clinux/fabricManager
b. 安装fabricmanager组件
rpm -i nvidia-fabric-manager-525.60.13-1.x86_64.rpm
c. 设置开机自启
systemctl enable nvidia-fabricmanager
d. 启动fabricmanager服务
systemctl start nvidia-fabricmanager
(1) 判断系统是否存在nvidia_peermem。执行命令:
lsmod | grep peer
(2) 如果不存在nvidia_peermem则需要激活。执行命令:
modprobe nvidia-peermem
(0)
您好,有比较全的步骤吗?现在重新安装了系统还是不行。我当前的环境:
系统:Ubuntu22.04
显卡驱动,及路径:
日志信息:
还有个问题,这些dep从哪里获取?
a. 进入安装位置
cd /opt/gpu-driver/nvidia/ubuntu/deb/driver
b. 安装deb包
dpkg -i *
(0)
暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论