问

x10000为啥会出现backfillfull的问题

2026-04-20提问

0关注
0收藏，402浏览

zhiliao_saHMAV

zhiliao_saHMAV 四段

粉丝：0人关注：0人

问题描述：

业务侧一直在满覆盖或者循环写入，x10000为啥还会出现backfillfull的问题？

手动提高full的阈值也是临时缓解，后面还是会满呢。

2 个回答

按时间按赞数

已采纳

zhiliao_sEUyB

zhiliao_sEUyB 九段

粉丝：116人关注：11人

X10000存储系统出现"backfillfull"问题（通常指PG状态为"backfill_toofull"）是由于存储空间不足或重构过程中资源争用导致PG（Placement Group）卡住。业务侧持续满覆盖或循环写入会加剧空间压力，即使手动提高OSD的full阈值（如osd_full_ratio参数），也只能临时缓解，但无法解决根本原因，因为业务写入速率超过系统的空间回收和重构能力，最终空间仍会耗尽。以下基于相关文档分析原因和处理建议：

问题原因：
- 当PG处于重构（如recovering或backfilling）状态时，如果目标OSD的存储空间不足，无法容纳重构数据，会进入"backfill_toofull"状态，导致重构卡住。业务持续高写入负载（如满覆盖或循环写入）会快速消耗空间，使重构操作无法完成，形成恶性循环。
- 手动提高full阈值（如从默认80%调至85%）可暂时避免OSD被标记为full，但若业务写入未减或系统未及时回收空间（例如删除快照、清理冗余数据），空间会再次达到上限，问题复发。
处理建议（参考文档）：
- 检查PG状态：执行ceph pg dump | grep "backfill_toofull"确认卡住的PG，并查看主OSD日志（路径：/var/log/ceph/ceph-osd.osdid.log）分析"reserved"和"active"值是否达到上限且不变。
- 调整重构参数：若"reserved"值等于"max"值，执行ceph tell osd.id injectargs –osd_recover_interval_flag=0提高重构速度（仅适用于recovering/backfilling状态PG较少时），避免断流。
- 根本性优化：
  - 减少业务写入压力或优化数据生命周期（如定期清理旧快照、避免多个客户端并发操作快照）。
  - 检查存储网络配置，确保管理、业务和后端网络分离，防止资源争用导致性能下降。
  - 如问题持续，联系H3C技术支持，检查OSD日志中的断言错误或段错误，并考虑扩容存储或调整EC策略。

若上述建议无效，请提供具体日志以进一步诊断。

暂无评论

刘浩存

刘浩存九段

粉丝：17人关注：1人

分布式存储出现backfillfull问题的根源是容量不均和空间紧张，这在满覆盖写入的场景下尤其容易被触发。

backfillfull阈值就像一个水位预警，当一个存储单元（即OSD，对象存储设备）的使用率超过此阈值（例如默认的90%），Ceph会禁止向其写入新的数据来保护集群稳定

满覆盖写入，为何会引发 `backfillfull`？

你提到的“满覆盖写入”业务，正是这类问题的催化剂：

触发数据重平衡：当数据写满并覆盖，或集群调整数据分布时，Ceph会在OSD间移动（即“回填”）数据以重新平衡。
目的OSD“拒绝服务”：在回填过程中，若目标OSD的使用率已经很高（比如85%），Ceph会评估如果接受新数据是否会超过backfillfull阈值。
进入保护模式：一旦判定会超限，Ceph会拒绝该回填请求，PG进入backfill_toofull挂起状态，同时产生backfillfull警告。
循环等待：如果集群没有剩余的健康OSD来容纳数据，该PG就会卡在这个状态，导致你看到的“循环”现象。

提高阈值：为何只是“临时缓解”？

手动调高阈值（例如从90%提到95%）能临时恢复写入，但这本质是告诉Ceph：“即使很挤了，也再往里塞一点”。它并没有解决空间紧张的问题，反而：

将集群推向更危险的边缘，使所有OSD使用率更接近100%的“全满（full）”红线。
当OSD使用率再次触及新的阈值时，问题会复发。

这好比往一个超载的电梯里再塞进两个人，虽然暂时关上了门，但电梯本身的容量问题并未解决。

核心原因与长期解决方案

根本原因通常是：集群整体或部分节点（OSD）的容量已趋于饱和，数据分布不均则加剧了这一矛盾。

因此，治本的策略是从“增加总量”和“优化分布”两方面入手：

长期措施：治本之策

扩容：最推荐。向集群增加新的OSD节点，这是提升总容量的根本方法。
删除冷数据：清理不再需要的旧数据，释放空间。

暂无评论

编辑答案

分享扩散:

➤

网站相关: 关于我们; 服务条款; 隐私政策; 帮助中心; 经验与权限; 积分规则

联系我们: 联系我们; 建议反馈

常用链接: 标杆的神器下载

关注我们: H3C官网; 新华三服务公众号; 安仔远程运维服务; 新华三商城

内容许可: 除特别说明外，用户内容均可采用知识共享署名-相同方式共享3.0中国大陆许可协议进行许可

本图标版权归新华三集团所有，仅限本社区使用，切勿用做商业目的，违者必究

浙ICP备09064986号-1 浙公网安备 33010802004416号

✖

亲~登录后才可以操作哦!

确定

✖

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

✖

你的邮箱还未认证，请认证邮箱或绑定手机后进行当前操作

✖

侵犯我的权益 >

对根叔社区有害的内容 >

辱骂、歧视、挑衅等（不友善）

侵犯我的权益

泄露了我的隐私 >

侵犯了我企业的权益 >

抄袭了我的内容 >

诽谤我 >

辱骂、歧视、挑衅等（不友善）

骚扰我

泄露了我的隐私

您好，当您发现根叔知了上有泄漏您隐私的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您认为哪些内容泄露了您的隐私？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

侵犯了我企业的权益

您好，当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱，我们会在审核后尽快给您答复。

1. 您举报的内容是什么？（请在邮件中列出您举报的内容和链接地址）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）
3. 是哪家企业？（营业执照，单位登记证明等证件）
4. 您与该企业的关系是？（您是企业法人或被授权人，需提供企业委托授权书）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

原文链接或出处

诽谤我

您好，当您发现根叔知了上有诽谤您的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您举报的内容以及侵犯了您什么权益？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

垃圾广告信息

色情、暴力、血腥等违反法律法规的内容

政治敏感

不规范转载 >

辱骂、歧视、挑衅等（不友善）

骚扰我

诱导投票

不规范转载

举报说明

产品线		搜索取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式	默认策略匹配全词匹配整句

x10000为啥会出现backfillfull的问题

问题描述：

满覆盖写入，为何会引发 backfillfull？

提高阈值：为何只是“临时缓解”？

核心原因与长期解决方案

长期措施：治本之策

编辑答案

提出建议

满覆盖写入，为何会引发 `backfillfull`？