UIS版本E0882 ,集群9台主机,删除其中一个cvk节点;
目前删除主机操作:
迁移清空虚拟机-->主机内暂停所有共享存储-->主机内删除共享存储挂载-->检查集群状态(health_OK)-->检查节点管理状态(已开启)-->进入主机选择删除主机-->输入Delete,任务开启。
任务已经开启半小时,进度99%,后台ceph -s查询集群状态(HEALTH_WARN), 使用ceph osd tree查询,该主机osd仍处于UP状态;
请问这个删除主机的时间需要多久?当前状态下主机是否需要进入【维护模式】,有什么方式可以检查当前删除进度如何?
(0)
针对UIS E0882版本集群删除CVK节点的长时间卡顿问题,结合CEPH状态异常及操作流程,以下是关键分析及处理建议:
典型耗时范围
UP
,表明底层存储层未完成数据迁移或元数据清理,可能触发死锁。阻塞原因推测
ceph -s
的输出,若存在active+remapped
或undersized
的PG(Placement Group),表明数据未完成重平衡。out
操作,需手动干预(高危操作需谨慎)。# 查看PG详细状态
ceph pg stat
ceph pg dump | grep -E 'stuck|inactive|undersized'
# 检查是否有未完成的数据迁移(回填进度)
ceph -w | grep backfill
active+recovery
或backfill_wait
:数据迁移因资源不足(如网络带宽、OSD负载)被阻塞,需扩容临时资源或限速。out
# 获取待删除主机上的OSD ID列表
ceph osd tree | grep "主机名或IP"
# 强制标记OSD为out(以osd.11为例)
ceph osd out osd.11
# 将主机置入维护模式(强制隔离)
uis-cli host enter-maintenance --host-id <主机ID>
# 清理残留OSD元数据(需替换具体OSD ID)
uis-cli ceph osd remove --osd-id 11 --force
UIS管理面日志
# 实时跟踪删除任务日志
tail -f /var/log/uis/manager-task.log | grep "host delete"
CEPH事件监控
# 观察实时数据迁移事件
ceph -w
# 检查集群剩余待迁移数据量
ceph df | grep used
底层存储状态验证
# 检查OSD是否已移除(应显示为DOWN)
ceph osd tree | grep <主机名>
# 确认CRUSH map中无残留主机条目
ceph osd crush tree
删除前必做检查项
ceph osd reweight
逐步降低目标OSD权重,减少集中迁移压力。维护模式的使用规范
若强制操作导致集群异常(如PG卡在incomplete
):
in
状态:ceph osd in osd.11
(0)
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
我看缩容指导上没有进入维护模式的步骤,也是直接操作删除主机