- 你现在现象:新建 VM 总往负载高的主机 4 上跑,不会自动选负载最轻的;
- 根本原因:CloudOS DCM 纳管 CAS 时,E0730P11+E8003P01 这代版本,默认调度策略不是 “最低负载优先”,且 DRS 受版本 / 配置限制无法开启;
- 短期:可以改调度策略、关掉主机 4 的自动调度、用反亲和;
- 中长期:必须升级 CAS+CloudOS 版本才能正常用 DRS 和负载均衡调度。
下面分三块讲:1)CloudOS/CAS 默认选主机原则;2)你环境为什么不负载均衡、DRS 灰掉;3)可行解决办法。
一、CloudOS + CAS 创建 VM 时,默认选主机原则(官方)
在 CAS/CVM 和 CloudOS 文档里明确:
集群上新建虚拟机时,默认选择资源最优的主机,优先判断:
- 虚拟机数量最少
- 内存利用率最低
- CPU 利用率最低
注意:是 “综合最优”,不是单纯看内存利用率,并且是静态放置策略,不是 DRS 动态迁移。
但你看到:主机 4 内存 90%,其他 60%,还往 4 上放
-
- 老版本默认更看重:虚拟机数量、CPU、内存综合分;
- 哪怕内存 90%,如果上面 VM 数量少、CPU 闲,也会优先选它。
-
- 有 VM 和主机绑定(不迁移);
- 有主机标签、资源池、业务模板绑定,强制往 4 上放;
- 部分 VM 是本地盘(非共享存储),只能在原主机创建 / 重启。
-
- 被 DCM 的 **“主机组 / 可用域 / 资源分配策略”** 强制指定;
- 或者勾选了 **“指定物理主机 / 绑定主机”**。
-
- 物理内存大,虽然利用率 90%,但剩余绝对值并不小;
- 其他主机内存小,60% 但剩得更少;
- 开启内存复用 /ballooning后,利用率计算方式会变。
二、为什么 CAS E0730P11 + CloudOS E8003P01 无法开启 DRS
1)版本兼容性问题(最关键)
- CAS:E0730P11(比较老的分支)
- CloudOS:E8003P01(对应 DCM 纳管 CAS 场景)
- E0730 系列 CAS,对 CloudOS DCM 的 DRS 支持非常有限;
- 在很多组合下:DRS 选项置灰、无法勾选、开启报错;
- 必须升级到 E0730P17+ 或 E08xx 系列 CAS + 对应 CloudOS 版本,DRS 才能正常用。
2)DRS 开启的硬性前提(你环境大概率没满足)
- 集群所有主机CPU 型号 / 特性兼容(不然后期迁移会蓝屏);
- 所有 VM 必须在共享存储(本地盘 VM 不能 DRS 迁移);
- 集群网络一致(相同 VLAN、分布式交换机 / 端口组一致);
- CAS 集群内没有绑定主机的 VM;
- CloudOS 侧DCM 纳管正常、状态同步正常、无告警。
- DRS 直接开不了,说明版本组合不支持 + 可能前置条件也不满足。
三、你现在环境的解决方案(分:临时 / 长期)
方案 A:临时解决 —— 让新 VM 不往主机 4 跑(立刻见效)
1)在 CloudOS 里修改 “资源分配策略”
- 进入:云资源 → 计算 → 集群 → 资源分配策略
- 把调度策略改成:
- 优先:内存利用率最低
- 次要:CPU 利用率
- 关闭 “优先选择 VM 数量最少”(老版本可能没有,尽量调权重)
2)把主机 4 设为 “维护模式 / 不参与调度”(最快)
- CloudOS:主机 → 主机 4 → 更多 → 设为维护模式
- 或在 CAS:主机 → 禁用 “自动调度到此主机”
- 效果:新 VM 绝对不会往 4 上放;
- 缺点:4 不再承载新业务,适合紧急规避。
3)用 “反亲和性” 让同业务 VM 分散(推荐)
- 创建反亲和性组:要求同一组 VM不在同一主机;
- 新建 VM 时加入该组;
- 这样就算主机 4 负载高,也会强制分到其他三台。
方案 B:中长期根治 —— 升级版本,开启 DRS(根本解决)
1)版本升级建议(官方兼容组合)
- CAS:升级到 E0730P17 及以上 或 E0810/E0820
- CloudOS:升级到 E8005P0x / E8006 对应兼容版本
- 升级后:
- DRS 选项正常可勾选;
- 支持自动负载均衡、VM 动态迁移、开机放置优化。
2)升级后 DRS 配置要点
- CAS 集群开启计算 DRS,策略选:
- CloudOS 侧同步开启动态资源调度;
- 所有 VM 迁移到共享存储;
- 解除所有主机绑定 / 亲和强制规则。
四、总结成一句话
- 默认选主机:优先 VM 数最少→内存最低→CPU 最低,是综合分,不是只看内存百分比;
- 你环境 DRS 开不了 = E0730P11+E8003P01 版本组合不支持 DRS;
- 短期:把主机 4 设为维护模式 / 改调度权重 / 用反亲和;
- 长期:升级 CAS+CloudOS 版本,才能真正自动负载均衡。
暂无评论