• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

华三超融合管理平台删除虚拟机快照一直卡99%,虚拟机卡死了无法重启和关闭,也ping不通

14小时前提问
  • 0关注
  • 0收藏,43浏览
粉丝:0人 关注:0人

问题描述:

华三超融合管理平台删除虚拟机快照一直卡99%,虚拟机卡死了无法重启和关闭,也ping不通

3 个回答
粉丝:1人 关注:0人

  • 首要行动:登录UIS Manager检查集群和存储状态,寻找告警。
  • 关键检查点数据存储剩余空间磁盘健康度
  • 谨慎操作:可尝试重启 uis-agent 服务来解除任务锁定。
  • 立即求助:如果问题复杂或您不熟悉命令行操作,请立即联系 H3C 技术支持(400-810-0504),并提供管理平台的告警日志和虚拟机详细信息。

暂无评论

粉丝:13人 关注:1人

根据你的描述(快照删除卡在99%、虚拟机无响应),核心矛盾是快照删除任务锁死了虚拟机,导致平台无法执行任何其他操作。下面是一个从紧急恢复到根本解决的行动路线图,你可以根据自身情况来操作。


建议按照下面的顺序,从风险最低的方法开始尝试。

1.  紧急恢复:强制终止卡死的快照任务(中等风险)

这是最关键的一步,目标是通过后台命令强制中断卡死的快照删除任务,看能否释放被锁定的虚拟机。

  • 前置条件:需要获得底层CVK主机的SSH访问权限。

  • 操作步骤

    1. SSH登录:通过SSH登录到问题虚拟机所在的CVK主机后台(以root身份)。

    2. 确认虚拟机ID:执行 virsh list --all,从列表中找到并记下卡死虚拟机的ID。

    3. 查看合并任务:执行以下命令,确认当前卡住的快照合并(commit)任务:

      virsh qemu-monitor-command <虚拟机ID> --pretty '{"execute":"query-block-jobs"}'如果返回的结果中 "type": "commit",说明任务确实卡住了。
    4. 强制取消任务立即执行以下命令强制取消快照合并任务:

      virsh qemu-monitor-command <虚拟机ID> '{"execute":"block-job-cancel","arguments":{"device":"drive-virtio-disk1", "force":true}}'再次执行步骤3的命令,如果返回空列表 [],则说明任务已取消。
  •  风险提示:强制取消有极低概率导致虚拟磁盘数据不一致。这通常发生在快照链损坏时,应优先考虑此步骤。操作前请评估业务重要性。


2.  备选方案:重启相关服务(中低风险)

如果后台命令无法执行或想用更缓和的方式,可以尝试重启平台服务。

  • 操作:登录CVM管理节点后台,执行:

    • systemctl restart h3c_backup.service (用于解决备份任务卡住)

    • systemctl restart libvirtd (重启底层虚拟化服务)

    • service uis-core restart (重启UIS核心服务)

  •  风险提示:这些操作可能会短暂影响该节点上所有虚拟机的管理,请谨慎评估。


3.  最终手段:强制终止虚拟机进程(高风险)

如果以上所有方法都无效,这是最后的物理性恢复手段。

  • 操作:在CVK主机上执行 virsh destroy <虚拟机ID> 强制关闭虚拟机。

  •  风险提示:这等同于物理断电,极大概率导致虚拟机操作系统异常、数据丢失或文件系统损坏。只有在数据不重要或有其他备份时,才能考虑此方案。



4.  万不得已的最终方案:物理重启主机(极高风险)

如果以上方法全部无效,且虚拟机确实无法恢复,可以考虑重启整个物理主机。

  • 操作:通过IPMI/iLO/HDM等带外管理方式或物理现场重启主机。

  •  风险提示:此操作风险最高,可能导致:

    • 所有运行中的虚拟机强制断电,造成大规模数据损坏或业务中断。

    • 集群稳定性受影响,可能触发HA导致虚拟机在其他主机上“脑裂”或异常重启。

    • 存储系统受损:如果主机的本地存储与分布式存储紧密耦合,强制重启可能导致存储服务异常,需要手动修复。

    • 数据丢失:强制断电极大概率导致文件系统损坏和数据丢失。

  • 建议将此操作作为最后手段,在执行前务必评估所有可能后果,并尽可能备份重要数据



 根本原因排查

问题解决后,务必进行复盘,找出根本原因以防止再次发生。

  • 快照链过长或磁盘文件巨大:如果快照链很长或虚拟机磁盘文件巨大,删除快照需要合并大量数据,会耗费极长时间,并可能在完成前锁定虚拟机

  • 存储性能瓶颈:底层的分布式存储或本地存储性能不足,I/O延迟过高,会导致快照合并任务缓慢甚至卡死。

  • 软件版本Bug:部分老版本UIS/CAS平台在处理快照任务时可能存在Bug,尤其是在长时间运行后,内存泄漏或任务管理模块异常可能导致任务挂起。

  • 平台服务僵死:管理平台的服务(如 uis-coreh3c_backup.service 等)可能因未知原因僵死,导致任务状态无法更新。



 预防措施

为防止类似问题再次发生,可以采取以下措施:

  • 缩短快照链不要在单个快照链上积累超过3个快照,及时清理不再需要的旧快照。

  • 优化快照操作:避免在业务高峰期进行快照创建或删除操作。

  • 监控存储性能:定期检查底层存储池的延迟、IOPS等指标,确保性能足够支撑业务。

  • 升级软件版本:联系H3C技术支持,确认是否有针对该问题的修复补丁或推荐升级版本。



 信息收集清单

如果以上步骤均无法解决,请收集以下信息后联系H3C技术支持(400-810-0504):

  1. 虚拟机配置:操作系统、虚拟磁盘大小(GB/TB)、快照链长度(历史快照数量)。

  2. 集群环境:UIS/CAS软件版本号、主机CPU/内存型号、底层存储类型(本地/分布式)。

  3. 关键日志:主机端 /var/log/libvirtd.log、平台端 /var/log/h3c_backup.log-2、任务执行日志 task.log

  4. 时间点:问题发生的精确时间。

暂无评论

粉丝:10人 关注:2人

你这个是 UIS/CAS 上非常典型的 删除快照(合并 qcow2 镜像)卡死在 99%→虚拟机进程僵死→管理接口无响应→ping 不通、关不掉、重启不了 的问题,多见于:
  • 镜像链长、单盘 >1TB、快照多
  • 老版本 CAS/UIS(E0730 早期、UIS6.0/6.5 早期)
  • 底层 blockjob 任务挂死、libvirt/qemu 卡住
下面给你一套可直接照着做的抢救流程(先保业务、再清脏数据、最后根治)。

一、先确认环境(快速判断)

  1. 找到虚拟机所在 CVK 主机(UIS 界面→虚拟机→概览→所在主机)
  2. SSH 登录该 CVK(root / 密码)
bash
运行
# 看虚拟机列表 virsh list --all # 看这个虚机有没有卡住的块任务(关键) virsh qemu-monitor-command 虚机名 '{"execute":"query-block-jobs"}' # 看 libvirt 日志,一般会有 blockjob/disk 报错 tail -f /var/log/libvirt/libvirtd.log
典型特征:
  • 有一个 blockjob 一直 running
  • 提示 disk already in active block job
  • 虚机状态为 running 但控制台卡死、ping 不通

二、紧急恢复:强制干掉卡死的快照任务 + 虚机(立刻见效)

风险:相当于硬重启,虚机内存数据会丢,文件系统可能要自检;业务要能接受一次硬重启。

1)先尝试终止卡死的 blockjob(能成最好)

bash
运行
# 查设备名(一般是 drive-virtio-disk0) virsh qemu-monitor-command 虚机名 '{"execute":"query-block-jobs"}' # 强制取消任务(把 device 换成你查到的) virsh qemu-monitor-command 虚机名 \ '{"execute":"block-job-cancel","arguments":{"device":"drive-virtio-disk0","force":true}}'

2)杀不死就直接强关虚机

bash
运行
# 硬关机(相当于拔电源) virsh destroy 虚机名 # 若还不行,直接杀 qemu 进程 ps aux | grep qemu | grep 虚机名 kill -9 进程号

3)清理残留任务(防止前台一直卡 99%)

bash
运行
# 重启 libvirtd(会短暂影响该主机所有虚机管理操作) systemctl restart libvirtd # 再看任务是否清掉 virsh list --all
这时去 UIS 前台:
  • 任务会变成 “失败 / 已取消”
  • 虚机可以正常 “开机”
  • 启动后立刻能 ping 通、能控制台登录

三、事后清理:处理损坏 / 残留快照(避免复发)

开机后务必做:
  1. 检查磁盘文件
bash
运行
# 找到虚机磁盘路径(一般在 /vms/xxx/) ls /vms/你的存储池/虚机目录/ # 检查 qcow2 是否损坏 qemu-img check 磁盘文件.qcow2
有报错就备份后用 qemu-img repair 或直接重建磁盘 + 恢复数据
  1. 清理无效快照链
bash
运行
# 列出快照 virsh snapshot-list 虚机名 # 删掉残留/无效快照 virsh snapshot-delete 虚机名 --snapshotname 快照名
  1. 合并过长镜像链(长期隐患)
  • 快照不要超过 2–3 层
  • 定期 “创建新快照→删除旧快照”,不要叠太多

四、为什么会这样(根治关键)

  1. 版本 Bug(最常见)
    • CAS E0730P06/E0716 早期、UIS 6.5 早期:删除快照时 blockjob 泄漏、libvirt 死锁
  2. 镜像太大 / 链太长
    • 单盘 >1TB、快照 >5 个:合并时遍历 qcow2 元数据极慢,容易卡住
  3. 存储 IO 瓶颈
    • 存储池负载高、延迟大:合并任务被拖死

根治方案(必须做)

  • 升级 UIS/CAS 到官方修复版本
    • UIS:6.5 E0716P15+7.0+
    • CAS:E0730P12+
  • 升级后:
    • 修复 blockjob 泄漏
    • 优化大镜像合并逻辑
    • 不再出现 “卡 99%→虚机僵死”

五、你现在直接可以照抄的命令(替换虚机名即可)

bash
运行
# 1. 查卡住的任务 virsh qemu-monitor-command 虚机名 '{"execute":"query-block-jobs"}' # 2. 取消任务(device 换成查到的) virsh qemu-monitor-command 虚机名 '{"execute":"block-job-cancel","arguments":{"device":"drive-virtio-disk0","force":true}}' # 3. 强关虚机 virsh destroy 虚机名 # 4. 重启 libvirtd systemctl restart libvirtd # 5. 开机 virsh start 虚机名

暂无评论

编辑答案

你正在编辑答案

如果你要对问题或其他回答进行点评或询问,请使用评论功能。

分享扩散:

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作

举报

×

侵犯我的权益 >
对根叔社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明