• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

x10000为啥会出现backfillfull的问题

  • 0关注
  • 0收藏,93浏览
粉丝:0人 关注:0人

问题描述:

业务侧一直在满覆盖或者循环写入,x10000为啥还会出现backfillfull的问题?

手动提高full的阈值也是临时缓解,后面还是会满呢。

2 个回答
已采纳
粉丝:106人 关注:11人

X10000存储系统出现"backfillfull"问题(通常指PG状态为"backfill_toofull")是由于存储空间不足或重构过程中资源争用导致PG(Placement Group)卡住。业务侧持续满覆盖或循环写入会加剧空间压力,即使手动提高OSD的full阈值(如osd_full_ratio参数),也只能临时缓解,但无法解决根本原因,因为业务写入速率超过系统的空间回收和重构能力,最终空间仍会耗尽。以下基于相关文档分析原因和处理建议:

  1. 问题原因

    • 当PG处于重构(如recovering或backfilling)状态时,如果目标OSD的存储空间不足,无法容纳重构数据,会进入"backfill_toofull"状态,导致重构卡住。业务持续高写入负载(如满覆盖或循环写入)会快速消耗空间,使重构操作无法完成,形成恶性循环
    • 手动提高full阈值(如从默认80%调至85%)可暂时避免OSD被标记为full,但若业务写入未减或系统未及时回收空间(例如删除快照、清理冗余数据),空间会再次达到上限,问题复发
  2. 处理建议(参考文档):

    • 检查PG状态:执行ceph pg dump | grep "backfill_toofull"确认卡住的PG,并查看主OSD日志(路径:/var/log/ceph/ceph-osd.osdid.log)分析"reserved"和"active"值是否达到上限且不变
    • 调整重构参数:若"reserved"值等于"max"值,执行ceph tell osd.id injectargs –osd_recover_interval_flag=0提高重构速度(仅适用于recovering/backfilling状态PG较少时),避免断流
    • 根本性优化
      • 减少业务写入压力或优化数据生命周期(如定期清理旧快照、避免多个客户端并发操作快照)。
      • 检查存储网络配置,确保管理、业务和后端网络分离,防止资源争用导致性能下降。
      • 如问题持续,联系H3C技术支持,检查OSD日志中的断言错误或段错误,并考虑扩容存储或调整EC策略

若上述建议无效,请提供具体日志以进一步诊断。

暂无评论

粉丝:13人 关注:1人

分布式存储出现backfillfull问题的根源是容量不均空间紧张,这在满覆盖写入的场景下尤其容易被触发。

backfillfull阈值就像一个水位预警,当一个存储单元(即OSD,对象存储设备)的使用率超过此阈值(例如默认的90%),Ceph会禁止向其写入新的数据来保护集群稳定


满覆盖写入,为何会引发 backfillfull

你提到的“满覆盖写入”业务,正是这类问题的催化剂:

  1. 触发数据重平衡:当数据写满并覆盖,或集群调整数据分布时,Ceph会在OSD间移动(即“回填”)数据以重新平衡。

  2. 目的OSD“拒绝服务”:在回填过程中,若目标OSD的使用率已经很高(比如85%),Ceph会评估如果接受新数据是否会超过backfillfull阈值。

  3. 进入保护模式:一旦判定会超限,Ceph会拒绝该回填请求,PG进入backfill_toofull挂起状态,同时产生backfillfull警告。

  4. 循环等待:如果集群没有剩余的健康OSD来容纳数据,该PG就会卡在这个状态,导致你看到的“循环”现象。


提高阈值:为何只是“临时缓解”?

手动调高阈值(例如从90%提到95%)能临时恢复写入,但这本质是告诉Ceph:“即使很挤了,也再往里塞一点”。它并没有解决空间紧张的问题,反而:

  • 将集群推向更危险的边缘,使所有OSD使用率更接近100%的“全满(full)”红线。

  • 当OSD使用率再次触及新的阈值时,问题会复发。

这好比往一个超载的电梯里再塞进两个人,虽然暂时关上了门,但电梯本身的容量问题并未解决。


 核心原因与长期解决方案

根本原因通常是:集群整体或部分节点(OSD)的容量已趋于饱和,数据分布不均则加剧了这一矛盾。

因此,治本的策略是从“增加总量”和“优化分布”两方面入手:

长期措施:治本之策

  • 扩容:最推荐。向集群增加新的OSD节点,这是提升总容量的根本方法。

  • 删除冷数据:清理不再需要的旧数据,释放空间。


暂无评论

编辑答案

你正在编辑答案

如果你要对问题或其他回答进行点评或询问,请使用评论功能。

分享扩散:

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作

举报

×

侵犯我的权益 >
对根叔社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明