一、什么是ROCM
ROCM是基于AMD GPU的软件组件总称。包括了GPU的device driver、上层开发环境和各种工具集合。 类似NVIDIA的cuda+driver的组合。
二、如何制作ROCM软件栈的离线安装包
概述: 所谓的离线驱动安装包,就是假定客户安装完基本OS 后,因为无法连接internet而必须采用离线安装方式部署AMD GPU驱动,因此离线安装包除了要包含ROCM框架下的软件和驱动、工具外,还需要包括这些软件所需的OS依赖包。
离线安装包=ROCM软件+驱动程序+OS依赖包
离线安装包实现的目标是无需OS连接互联网包源,即可完成驱动和软件部署。
2.1、 收集信息: GPU型号、OS发型版本、内核版本、客户主机的OS的安装类型
例如:
GPU型号: UN-GPU-MI210-64GB-DW
OS发现版本: Ubuntu22.04.5
内核版本: 5.15.0-119-generic
OS安装类型: Ubuntu server (如下图,安装类型的不同意味着包数量不一样)
2.2 根据以上信息查询AMD GPU 官方兼容列表:
1) 查询我司UN-GPU-MI210-64GB-DW 对应的AMD型号是否在支持列表:
2) 客户的linux 版本是否在支持列表:
3) 选择ROCM的版本,确定此GPU是否支持、确定linux OS版本是否支持
说明: 当前ROCM的版本号有3种: 6.4.1 6.4.0 6.3.0 . 假如客户的应用需要6.4.0版本的ROCM ,确认6.4.0 是否支持客户的Ubuntu版本,GPU型号。
确认支持情况后,即可制作6.4.0 版本的ROCM离线安装包。
2.3) 制作ROCM的离线安装包
第一步)先部署一台虚拟机,此虚拟机的OS版本和安装类型要和客户一致。保证虚拟机安装的系统软件包和客户现场主机OS一样多。另外,保证这台虚拟机可以连接互联网下载ubuntu系统包和AMD 软件包。
第二步)下载AMD官方的离线包制作工具,并上传到虚拟机。
1)打开AMD的离线安装包制作工具页面,根据之前确定的ROCM版本选择离线制作工具:比如ROCM 6.4需要下面红色匡里的制作工具:
2)进入rocm-rel-6.4页面后,进入ubuntu目录
3)根据客户OS 版本,选择对应的工具版本:
第三步) 在虚拟机里执行上面步骤下载的离线包创建工具:
注意: 离线包制作工具依赖系统的python3-wheel 包,请务必在执行制作前安装好这个包,否则制作过程会失败。
1): 主菜单,显示了当前OS 的版本和内核版本,下面红色匡里有4个子菜单用来设置离线包里应该包含哪些组件和设置。
2):ROCm Options
进入rocm options 子菜单后,分别对下面几个选项进行预设值,(回车和空格),最后Done退出此子菜单:
3) 对驱动版本预设置
下面是在Driver options子菜单里的设置,不要开启blacklist admgpu driver
4)额外工具选择
额外工具选择下面两个:
5 ) 后面post-install options无需选择
6) 上面预设都完成后,即可执行离线包创建:
离线包创建过程会自动下载AMD 软件和互联网上的OS 包源里的依赖包,并打包成一个run文件,按照上面的ubuntu安装类型,run文件大小在4G左右。
这个离线包的文件名: rocm-offline-install.run
使用方法是把这个run文件复制到客户AMD gpu 主机上,直接执行即可。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作