问

CAS删除虚拟机快照

H3Cloud CAS

2026-06-09提问

0关注
0收藏，611浏览

zhiliao_Pl9rJK

zhiliao_Pl9rJK 二段

粉丝：0人关注：0人

问题描述：

CAS-E0782P02，在线删除虚拟机快照有风险吗，磁盘容量为TB级别

5 个回答

按时间按赞数

刘浩存

刘浩存九段

粉丝：27人关注：1人

在 H3C CAS 平台上在线删除 TB 级别的虚拟机快照，存在较高的风险。虽然正常的删除操作会将快照数据合并到父磁盘中（通常不会直接导致数据丢失），但由于磁盘容量巨大，这一过程极易引发一系列连锁问题。

结合底层技术原理与官方文档，以下是具体的风险分析及应对建议：

核心风险分析

性能严重下降与业务中断
删除 TB 级快照本质上是执行 qemu-img commit 进行海量数据的合并读写。这会大量消耗底层的存储 I/O 资源，可能导致同主机或同存储池上的其他虚拟机出现严重的卡顿、延迟飙升甚至业务中断。
任务卡死（如卡在 99%）
由于数据量庞大且后台处理速度受限于存储性能，删除任务极易长时间无法完成，前端界面常表现为进度卡在 99%。此时若虚拟机业务负载较高，不断产生的新脏数据会导致合并任务陷入“追不上”的僵局。
存储空间瞬间膨胀（爆盘风险）
快照合并期间，系统需要额外的临时空间来存放变更数据。如果底层存储剩余空间不足，极易导致存储写满，进而引发虚拟机宕机或文件系统损坏。
强制干预导致的数据丢失
如果在删除过程中因虚拟机卡死而采取强制终止进程（kill -9）或重启物理主机等极端手段，极大概率会导致快照链断裂、文件系统损坏以及内存数据丢失，且此类损坏往往不可恢复。

操作前评估与预防措施

如果您必须执行此操作，请务必提前做好以下准备：

确认存储空间：确保底层存储具备充足的可用空间（建议预留至少为当前最大快照文件大小的 200% 以上空间）。
避开业务高峰：绝对避免在业务高峰期进行操作，最好选择业务低谷期执行。
缩短快照链：检查该虚拟机的快照层级，尽量不要在超过 3 个节点的长快照链上直接执行删除。

异常情况的排查与处理

如果在删除过程中遇到进度卡住或虚拟机无响应，请按照以下安全步骤排查，切勿盲目强杀进程：

查询真实进度：通过 SSH 登录虚拟机所在的 CVK 主机，使用命令 virsh qemu-monitor-command <虚机名> --pretty '{"execute":"query-block-jobs"}' 查看 block jobs 状态。关注 len（需处理的总脏数据量）和 offset 字段，以判断真实的合并进度。
耐心等待或限流：如果后台 qemu-img commit 进程仍在运行，说明正在正常合并。建议暂停其他非必要的存储操作并耐心等待；或者通过调整 block job 的速度限制参数，降低对生产业务的冲击。
尝试取消 Block Job：如果确实需要中止卡死的任务，优先使用安全的 QMP 命令取消：virsh qemu-monitor-command <虚机名> '{"execute":"block-job-cancel","arguments":{"device":"drive-virtio-disk0","force":true}}'。
联系原厂支持：对于 TB 级别的大盘操作，若上述常规排查均无法解决，强烈建议收集 /var/log/libvirtd.log 等关键日志，第一时间联系 H3C 官方技术支持（400-810-0504）介入指导，避免因误操作造成不可逆的数据灾难。

暂无评论

听见你说达不溜

听见你说达不溜九段

粉丝：97人关注：0人

您好，一般没啥风险，只不过删除了，就不能恢复了而已

暂无评论

奔跑的小马

奔跑的小马六段

粉丝：11人关注：7人

CAS-E0782P02（华三 CAS E0782 版本）在线删除 TB 级快照：有明确风险，生产不建议直接在线操作

一、底层原理（CAS 外部快照机制）

删除运行中虚拟机快照 = 后台持续块合并 blockjob，把快照增量 delta 全部写回父盘；TB 级快照意味着海量随机读写，E0782 为较老版本，大合并任务优化不足，风险被放大H3C。

二、核心 4 大类风险（TB 磁盘尤为突出）

1. 存储 IO 打满，全池业务雪崩（最高发）

合并是持续大吞吐量读写，会耗尽存储带宽、IOPS：

本机虚拟机磁盘延迟几十 ms~ 几百 ms，数据库、文件服务卡顿、超时；
同存储池其他虚拟机集体受牵连，批量业务中断；
机械硬盘存储、老旧 SAS 阵列影响最严重，分布式存储也会出现分片拥堵。

2. 存储空间爆盘宕机（致命风险）

合并期间会双重占用临时空间：

原快照 delta 文件不会立刻删除；
正在向母盘写入合并数据，同时虚拟机持续产生新写入；
要求存储池剩余空闲 ≥ 当前快照增量大小，TB 级快照很容易写满存储池；
存储 100% 占满后：虚拟机直接卡死、文件系统损坏、数据库丢事务。

3. 合并任务卡死、前台 99% 停滞，无法中断

E0782 老版本 libvirt/qemu 对超大镜像合并存在缓冲区 bug：

界面进度长时间卡在 90%~99%，后台仍在跑 blockjob，前端无反馈；
业务持续写入产生大量脏块，合并速度追不上新增数据，永久无法完成；
绝对不能重启虚拟机、重启 CVK、kill 合并进程，强制中断会直接破坏 qcow2 镜像链，虚拟机无法开机、数据损坏H3C。

4. 镜像链损坏、虚拟机无法启动

多级快照链（2 层及以上）删除中间快照，合并逻辑更复杂，大文件极易出现元数据错乱；
存储链路闪断、CVK 主机重启、存储控制器故障，都会中断合并，造成快照链断裂；
损坏后只能通过 qemu-img 修复，TB 磁盘修复耗时极长，存在数据丢失概率。

三、区分：整机快照 / 单磁盘快照

整机快照（内存 + 磁盘）：风险更大，除磁盘合并还要处理内存状态文件，耗时翻倍；
仅磁盘快照：只有磁盘块合并，风险略低，但 TB 级磁盘依旧高危。

四、安全操作前置检查（必须全部满足）

容量校验
存储池空闲空间 ≥ 快照增量实际占用大小（不是磁盘分配 TB 容量，是快照真实占用）；
示例：磁盘分配 4TB，快照增量 1.2TB → 存储空闲至少 1.2TB 以上。
业务低峰窗口
选凌晨 0-6 点，停数据库定时任务、备份、同步、定时写入业务，降低虚拟机 IO。
完整备份兜底
删除快照前，对虚拟机执行完整备份 / 导出模板，一旦合并异常可回滚。
快照链简化
优先删除顶层快照，不要删除中间层级快照，减少合并复杂度；链超过 3 层分批删除，不要一次性合并 TB 级大增量。
存储性能确认
SSD / 分布式存储相对稳妥；机械盘 RAID5 尽量关机删除。

五、两种操作方案对比

方案 1：关机后删除快照（推荐生产 TB 级磁盘）

业务停机、关机虚拟机；
执行删除快照合并；
优点：无新脏数据写入，合并速度快、IO 压力可控、不会卡死追不上、无爆盘新增写入压力；
缺点：业务短暂停机。

方案 2：在线删除（仅允许测试 / 低负载业务）

仅满足：业务 IO 极低、存储空闲充足、单一层快照、分布式全闪存储；

操作要点：

后台实时监控 blockjob 进度（CVK SSH 执行）

plaintext

virsh list
virsh blockjob --info 虚拟机ID vda

全程不操作虚拟机、不迁移、不扩容、不重启 CVK；
持续监控存储使用率，一旦接近 95% 立刻停止写入业务。

六、紧急禁忌（一旦违反大概率丢数据）

合并任务运行中重启 CVK、关机虚拟机、强制 kill qemu 进程；
存储后台手动删除 delta 快照文件；
快照链多层、增量 TB 级、业务高 IO 时在线删除；
存储剩余空间不足快照大小强行删除。

总结

CAS-E0782P02 版本，TB 级磁盘不推荐在线删除快照，存在业务中断、存储爆盘、镜像损坏风险；

最优稳妥方案：业务低峰停机后执行快照删除，全程预留充足存储空闲并提前整机备份。

暂无评论

zhiliao_GeOM0O

zhiliao_GeOM0O 九段

粉丝：24人关注：2人

CAS-E0782P02 在线删 TB 级快照 “能做，但风险不低”，主要是业务卡顿 / 中断、删很久甚至卡死、爆盘、强杀丢数据四类。下面把风险、原理、怎么降低风险都说清楚。
一、原理（一句话）
CAS 的快照是增量 qcow2 链：
快照 = 增量盘（delta）
删除 = 把增量数据合并回父盘（qemu-img commit）
TB 级 = 大量 I/O、大量临时空间、时间极长（几小时到一两天都正常）
二、在线删除的 4 大风险（TB 级更明显）
1）业务严重卡顿 / 短暂中断（最常见）
合并要读 / 写整个快照数据，存储 I/O 打满：
本机所有 VM 卡、延迟飙升
高负载业务（数据库、ERP）可能直接超时断开
内部快照：CAS 会短暂暂停 VM
2）任务卡死（99% 不动）
TB 级 + 业务持续写数据 → 新脏数据不停产生，合并 “追不上”：
前台一直 99%，几小时没变化
后台 blockjob 卡住，取消不掉
3）存储空间爆盘（高危）
合并时需要临时空间存中间数据：
建议剩余空间 ≥ 快照大小 × 2
空间不够 → 合并失败、磁盘只读、VM 宕机
4）强制干预导致数据丢失（最严重）
别 kill -9、别重启主机、别强制关机
会导致 qcow2 链断裂、磁盘损坏、数据不可恢复
三、CAS-E0782P02 版本情况
E0782P02 属于比较新的 E07 系列，对大快照合并有优化，但 TB 级依然吃力
内部快照：在线删会短暂停 VM
外部快照：E0708+ 支持，在线不暂停，风险略小
四、建议怎么做（生产环境优先）
✅ 最佳：关机删除（风险最低）
业务低峰 / 维护窗口停机
对该 VM 做一次全量备份
再删快照 → 合并最快、最稳、几乎无业务影响
✅ 必须在线删时（降低风险）
选凌晨 0:00–4:00，业务最低峰
确认存储可用空间 ≥ 快照大小 × 2
先把 VM 内存 / CPU 负载压到最低
用 CAS 界面删，全程不刷新、不取消、不操作该 VM
监控：
主机 CPU / 内存
存储 IOPS / 延迟
VM 业务响应
预估时间：1TB ≈ 4–8 小时（看存储性能）
❌ 绝对不要
不要手动删存储里的 .qcow2/.snap 文件
不要在合并时做 VM 迁移、扩容、改配置
不要强杀进程或重启主机
五、一句话总结
CAS-E0782P02 在线删 TB 级快照可以做，但风险高：业务卡、删很久、容易爆盘、乱操作会丢数据。生产优先关机删；非要在线，必须低峰、空间足够、全程不干预。

暂无评论

Reset_

Reset_ 四段

粉丝：0人关注：0人

磁盘容量大或者多个快照删除，会占用虚机io，可能会断业务。最好是找个低谷窗口操作。

暂无评论

编辑答案

分享扩散:

➤

网站相关: 关于我们; 服务条款; 隐私政策; 帮助中心; 经验与权限; 积分规则

联系我们: 联系我们; 建议反馈

常用链接: 标杆的神器下载

关注我们: H3C官网; 新华三服务公众号; 安仔远程运维服务; 新华三商城

内容许可: 除特别说明外，用户内容均可采用知识共享署名-相同方式共享3.0中国大陆许可协议进行许可

本图标版权归新华三集团所有，仅限本社区使用，切勿用做商业目的，违者必究

浙ICP备09064986号-1 浙公网安备 33010802004416号

✖

亲~登录后才可以操作哦!

确定

✖

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

✖

你的邮箱还未认证，请认证邮箱或绑定手机后进行当前操作

✖

侵犯我的权益 >

对根叔社区有害的内容 >

辱骂、歧视、挑衅等（不友善）

侵犯我的权益

泄露了我的隐私 >

侵犯了我企业的权益 >

抄袭了我的内容 >

诽谤我 >

辱骂、歧视、挑衅等（不友善）

骚扰我

泄露了我的隐私

您好，当您发现根叔知了上有泄漏您隐私的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您认为哪些内容泄露了您的隐私？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

侵犯了我企业的权益

您好，当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱，我们会在审核后尽快给您答复。

1. 您举报的内容是什么？（请在邮件中列出您举报的内容和链接地址）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）
3. 是哪家企业？（营业执照，单位登记证明等证件）
4. 您与该企业的关系是？（您是企业法人或被授权人，需提供企业委托授权书）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

原文链接或出处

诽谤我

您好，当您发现根叔知了上有诽谤您的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您举报的内容以及侵犯了您什么权益？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

垃圾广告信息

色情、暴力、血腥等违反法律法规的内容

政治敏感

不规范转载 >

辱骂、歧视、挑衅等（不友善）

骚扰我

诱导投票

不规范转载

举报说明

产品线		搜索取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式	默认策略匹配全词匹配整句

CAS删除虚拟机快照

问题描述：

核心风险分析

操作前评估与预防措施

异常情况的排查与处理

CAS-E0782P02（华三 CAS E0782 版本）在线删除 TB 级快照：有明确风险，生产不建议直接在线操作

一、底层原理（CAS 外部快照机制）

二、核心 4 大类风险（TB 磁盘尤为突出）

1. 存储 IO 打满，全池业务雪崩（最高发）

2. 存储空间爆盘宕机（致命风险）

3. 合并任务卡死、前台 99% 停滞，无法中断

4. 镜像链损坏、虚拟机无法启动

三、区分：整机快照 / 单磁盘快照

四、安全操作前置检查（必须全部满足）

五、两种操作方案对比

方案 1：关机后删除快照（推荐生产 TB 级磁盘）

方案 2：在线删除（仅允许测试 / 低负载业务）

六、紧急禁忌（一旦违反大概率丢数据）

总结

编辑答案

提出建议