Print

CloudOS E5132P03下发GPU类型云主机异常

告警信息

CloudOS下发GPU类型云主机状态异常,异常时报错如下



问题描述

CloudOS E5132P03版本对接CAS E0730系列(不含)之前版本或UIS 6.5/7.0产品系列时,使用GPU类型云主机功能。从CloudOS下发普通类型云主机正常,从UIS或CAS下发GPU虚拟机正常,但是从CloudOS下发GPU类型云主机时异常,具体异常报错截图如上图。



过程分析

1、查看云主机规格中GPU型云主机存在GPU类型与虚拟化侧记录的主机GPU类型相同,不存在因OS与虚拟化的GPU类型不同导致的问题

2、进一步查看云主机下发异常时计算节点容器内日志,查找该云主机uuid
 pod |grep cpn
 kubectl exec -itn cloudos-iaas   cpn-cXXXX bash  

  vi /var/log/novanova-compute.log  
/uuid




日志打印指向为proportion参数异常导致

3、进一步查看智能资源调度处的业务模板中,存在一个分配比例为0%的业务模板


查看CloudOS上虚拟化——集群——业务模板中存在如下分配比例为0%业务模板,该业务模板选择的资源紧张启动模式为“不带资源启动”,该功能为CloudOS针对CAS E0730及之后系列版本功能开发,对于CAS E0710及之前版本均不支持该功能,UIS当前E0750P06及之前版本均为基于CAS E0710版本之前开发也不支持该功能。因为OS对接CAS或UIS版本不符合“不带资源启动”功能使用要求,导致下发GPU虚拟机时传参异常。



解决方法

1、将该“不带资源启动”的业务模板删除之后可以正常下发

2、业务模板中“不带资源启动”功能需要对接CAS E0730及之后版本可以正常使用