• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索
  • 0关注
  • 0收藏,673浏览
小知 一段
粉丝:0人 关注:0人

问题描述:

UIS版本E0882 ,集群9台主机,删除其中一个cvk节点;

目前删除主机操作:

迁移清空虚拟机-->主机内暂停所有共享存储-->主机内删除共享存储挂载-->检查集群状态(health_OK)-->检查节点管理状态(已开启)-->进入主机选择删除主机-->输入Delete,任务开启。

 

任务已经开启半小时,进度99%,后台ceph -s查询集群状态(HEALTH_WARN), 使用ceph osd tree查询,该主机osd仍处于UP状态;

 

请问这个删除主机的时间需要多久?当前状态下主机是否需要进入【维护模式】,有什么方式可以检查当前删除进度如何?

2 个回答
粉丝:32人 关注:1人

等待,正常需要进入维护模式再删除的


我看缩容指导上没有进入维护模式的步骤,也是直接操作删除主机

小知 发表时间:2025-03-13 更多>>

我看缩容指导上没有进入维护模式的步骤,也是直接操作删除主机

小知 发表时间:2025-03-13
粉丝:5人 关注:4人

针对UIS E0882版本集群删除CVK节点的长时间卡顿问题,结合CEPH状态异常及操作流程,以下是关键分析及处理建议:


一、删除主机的‌预期耗时与阻塞点分析

  1. 典型耗时范围

    • 正常场景‌:在数据均衡且无IO负载时,删除节点(含CEPH OSD下线)通常需 ‌10-30分钟‌(与数据量正相关)。
    • 当前异常‌:任务卡在99%且CEPH OSD仍为UP,表明底层存储层未完成数据迁移或元数据清理,可能触发死锁。
  2. 阻塞原因推测

    • CEPH数据迁移阻塞‌:检查ceph -s的输出,若存在active+remappedundersized的PG(Placement Group),表明数据未完成重平衡。
    • OSD下线延迟‌:节点删除任务未自动触发OSD的out操作,需手动干预(‌高危操作需谨慎‌)。
    • 元数据残留‌:UIS管理面与CEPH的元数据同步异常(如主机与OSD映射关系未解除)。

二、‌强制推进删除的紧急操作

步骤1:检查CEPH健康状态细节


# 查看PG详细状态 ceph pg stat ceph pg dump | grep -E 'stuck|inactive|undersized' # 检查是否有未完成的数据迁移(回填进度) ceph -w | grep backfill
  • 若PG处于active+recoverybackfill_wait‌:数据迁移因资源不足(如网络带宽、OSD负载)被阻塞,需扩容临时资源或限速。

步骤2:‌手动标记OSD为out


# 获取待删除主机上的OSD ID列表 ceph osd tree | grep "主机名或IP" # 强制标记OSD为out(以osd.11为例) ceph osd out osd.11
  • 风险提示‌:此操作会触发CEPH数据重平衡,若集群剩余空间不足(低于20%),可能导致IO中断,需提前确认容量。

步骤3:‌进入维护模式并重置元数据


# 将主机置入维护模式(强制隔离) uis-cli host enter-maintenance --host-id <主机ID> # 清理残留OSD元数据(需替换具体OSD ID) uis-cli ceph osd remove --osd-id 11 --force

三、‌删除进度检查工具

  1. UIS管理面日志


    # 实时跟踪删除任务日志 tail -f /var/log/uis/manager-task.log | grep "host delete"
  2. CEPH事件监控


    # 观察实时数据迁移事件 ceph -w # 检查集群剩余待迁移数据量 ceph df | grep used
  3. 底层存储状态验证


    # 检查OSD是否已移除(应显示为DOWN) ceph osd tree | grep <主机名> # 确认CRUSH map中无残留主机条目 ceph osd crush tree

四、‌后续风险规避建议

  1. 删除前必做检查项

    • 确保集群剩余空间 > ‌删除节点OSD总容量的30%‌(防止回填失败)。
    • 提前执行ceph osd reweight逐步降低目标OSD权重,减少集中迁移压力。
  2. 维护模式的使用规范

    • 进入时机‌:在删除操作开始前启用维护模式,而非任务卡死后补救。
    • 作用‌:阻止新IO写入待删除OSD,并通知UIS管理面忽略该节点状态。

五、‌故障恢复流程

若强制操作导致集群异常(如PG卡在incomplete):

  1. 优先恢复被删除OSD的in状态:ceph osd in osd.11
  2. 回滚UIS元数据:联系H3C技术支持从数据库层恢复主机关系。
  3. 重新规划删除窗口,确保满足容量和负载条件

编辑答案

你正在编辑答案

如果你要对问题或其他回答进行点评或询问,请使用评论功能。

分享扩散:

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作

举报

×

侵犯我的权益 >
对根叔社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明