• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

ROCE(通过PEF+ENC实现)

23小时前提问
  • 0关注
  • 0收藏,32浏览
粉丝:0人 关注:0人

问题描述:

广大的工程师兄弟,有几个关于ROCE的问题问下,本人对ROCE不是很了解第一次接触,烦请大家解惑。

1、当服务器和存储侧都配置ROCE,但是交换机没有配置ROCE,并且当业务量不大没有占用端口很大的带宽时会对业务有什么影响嘛?

2、当服务器和存储侧配置了ROCE,交换机也配置ROCE时,是不是网络拥塞时交换机的ROCE才会生效。

3、由于现在服务器侧和存储侧配置了ROCE,交换机侧未配置ROCE,已有业务在运行。看交换机业务量不大,此时在交换机侧配置ROCE时会不会影响业务,会不会造成业务中断,交换机是纯二层的。

 

4 个回答
Cookie 七段
粉丝:7人 关注:3人

  • 两端开 RoCE、交换没开:能用,不中断,只是性能一般
  • 交换机 RoCE 配置:拥塞时才发挥作用,闲时和普通网一样
  • 在线纯二层交换机加 RoCE 配置:正常不会断业务,可平滑上线
  • 感谢大佬

    zhiliao_SwcEzT 发表时间:22小时前 更多>>

    感谢大佬

    zhiliao_SwcEzT 发表时间:22小时前
    粉丝:2人 关注:9人

    问题1答复
    无影响。ROCEv2本质是UDP封装的以太网报文,低负载无拥塞无丢包场景下,交换机无需PFC/ECN等ROCE相关配置即可正常转发,业务无异常;仅当后续出现拥塞丢包时,才会导致RDMA重传、性能下降。
    问题2答复
    是的。ROCE依赖的PFC(优先级流控)、ECN(显式拥塞通知)均为拥塞触发机制:仅当对应优先级队列缓存达到拥塞阈值时,才会触发PFC反压或ECN标记,无拥塞时仅做普通转发,ROCE相关流控逻辑不生效。
    问题3答复
    规范操作不会断业务。纯二层场景下ROCE配置为增量配置,仅需配置对应队列的PFC、ECN规则,不修改原有二层转发、端口状态,低负载下配置无影响。
    注意:①提前备份当前配置;②确认服务器/存储ROCE报文的CoS值与交换机开启PFC的队列匹配;③建议业务低峰操作。

    粉丝:9人 关注:2人

    先说前提:你说的 RoCE(v2)+ PFC + ECN,本质是:
    PFC:反压,防止丢包
    ECN:拥塞标记,提前降速
    这俩都必须交换机也支持并配置才真正生效
    你现在是:服务器开了 RoCE,交换机没开
    1、交换机没配 RoCE,业务量不大时,有啥影响?
    结论:基本没影响,业务能跑,甚至你感觉不出来。
    原因:
    RoCE 是 无损以太网,依赖 PFC/ECN 防丢包
    流量小 → 交换机不拥塞 → 不丢包
    不丢包的情况下,RoCE 就跟普通 TCP/IP 一样,二层正常转发
    表现:
    业务正常跑
    延迟、带宽都 OK
    不会报错、不会断
    风险点只有一个:一旦流量突增、出现拥塞,交换机会正常丢包,而 RoCE 对丢包非常敏感,会出现:
    重传暴增
    速率暴跌
    时延飙升
    严重时业务卡顿、IO 报错
    2、交换机也配了 RoCE,是不是拥塞时才生效?
    对,基本可以这么理解。
    PFC、ECN 都是拥塞控制机制:
    链路空闲、流量很小时:PFC 不会发 PAUSE 帧,ECN 也不会标记
    只有队列开始拥塞、占用水银线时:
    ECN 标记报文 → 让服务器降速
    PFC 发反压 → 让对端暂停发送
    无拥塞时,就是普通二层转发
    所以:交换机配置了 RoCE(PFC+ECN),但平时不触发,只有拥塞时才工作。
    3、现在业务在跑,交换机纯二层,在线配置 RoCE 会不会断业务?
    直接给结论:
    正常配置顺序下,不会中断业务,几乎无感知。
    你满足两个关键条件:
    纯二层转发
    当前流量不大、不拥塞
    只是开启 PFC + ECN + 队列调度(DSCP 映射)
    为什么不会断?
    PFC 默认不发 PAUSE 帧(无拥塞)
    ECN 不标记包
    DSCP 映射只是给 RoCE 报文打标记,不影响转发
    所有配置都是对报文增加策略,不是截断流量
    唯一可能出问题的场景(你只要避开就稳)
    配置错误把 PFC 死锁了比如:
    把 PFC 开在错误队列
    服务器 PFC 优先级和交换机不对应
    → 可能瞬间发 PAUSE 导致流量停住
    配置时正好遇到大流量拥塞配置瞬间触发 PFC,短暂卡顿
    给你一个现场可用的总结
    流量小、交换机没配 RoCE→ 业务正常跑,没影响,只是 “裸奔”,一旦拥塞容易炸。
    交换机配了 RoCE→ 平时不生效,拥塞时才启动防丢包机制。
    纯二层、流量不大时,在线加配 RoCE(PFC+ECN)→ 不会断业务,安全可做。只要优先级对应正确、不瞎改 VLAN / 接口,基本无感上线。

    粉丝:11人 关注:1人

    对于RoCE网络的这几个问题,你的理解基本上是对的。下面我逐一说明,希望能帮你完全理清思路。


    1️⃣ 交换机未配置RoCE,低负载时会有影响吗?

    结论:基本没影响,但隐患一直都在。

    当业务量小、带宽充裕时,网络没有拥塞,因此交换机不配置RoCE(即不开启PFC、ECN等流控)也不影响RoCE运行。你当前的业务正常就是最好的证明。

    但“没配置”不等于“没问题”,核心风险在于:

    • RoCE本质上需要一个无损网络。未配置流控的普通交换机是“有损”的,在拥塞时直接丢包

    • 一旦发生瞬时流量突发(Micro-Burst),交换机缓存过载,就会开始丢包。

    • RoCE对丢包极其敏感,会触发重传,导致时延急剧增加,吞吐量骤降,在AI训练等场景中可能导致任务中断。

    • 网络负载是动态的,现在的低负载不能保证未来的稳定。

    所以,当前方案可视为“能用”,但离“好用、可靠”还有距离。只要环境存在突发流量可能,就建议尽快补齐交换机配置。


    2️⃣ 交换机配置RoCE,只在拥塞时才生效吗?

    结论:是的,你的理解完全正确。

    交换机的RoCE功能本质是按需启用的“智能刹车”系统

    • ECN(显式拥塞通知):当缓存超阈值时,给数据包打标记通知发送方主动降速,是一种预防性措施。

    • PFC(优先级流量控制):当拥塞加剧时,向上游发送暂停帧,是一种强制性“急刹车”

    无损网络由ECN+PFC共同构建,它们只在检测到拥塞时触发。平常无拥塞时它们处于“待命”状态,不会干扰正常流量。


    3️⃣ 在业务不中断情况下,在线配置纯二层交换机RoCE有风险吗?

    结论:风险极低,且远小于不配的隐患。纯二层交换机支持热配,建议尽快执行。

    你的场景是在线配置,这是完全可行的。配置本身是纯CPU操作,修改的是QoS、ACL等转发逻辑,不会导致数据层面的中断。

    为确保业务不中断,请按以下步骤操作:

    第一步:确认环境与找窗口

    • 明确版本:确认是RoCEv1(纯二层)还是RoCEv2(可跨三层)。v2配置可能更复杂,建议优先联系厂商。

    • 找维护窗口:尽管风险低,仍建议申报窗口并制定回退方案,做到有备无患。

    第二步:获取标准配置(重点)

    • 强烈建议直接联系你的交换机厂商技术支持,获取针对你设备型号和软件版本的官方标准RoCE配置脚本。

    第三步:在线平滑配置

    1. SSH登录设备:这是最稳妥的方式。

    2. 粘贴配置并提交:逐条粘贴厂商提供的命令并提交。通常涉及创建QoS队列、绑定RoCE流量(如DSCP 26或COS值)、开启PFC/ECN等。

    3. 检查与观察:配置后立即执行show命令(如show pfc counters)验证生效,并密切监控CPU和流量。

    第四步:准备应急预案

    • 登录设备后立即备份当前配置:copy running-config tftp://[server-ip]/backup.cfg

    • 准备重启脚本和旧配置,一旦异常立即执行回退。

    编辑答案

    你正在编辑答案

    如果你要对问题或其他回答进行点评或询问,请使用评论功能。

    分享扩散:

    提出建议

      +

    亲~登录后才可以操作哦!

    确定

    亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

    注册后可访问此模块

    跳转hclhub

    你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作

    举报

    ×

    侵犯我的权益 >
    对根叔社区有害的内容 >
    辱骂、歧视、挑衅等(不友善)

    侵犯我的权益

    ×

    泄露了我的隐私 >
    侵犯了我企业的权益 >
    抄袭了我的内容 >
    诽谤我 >
    辱骂、歧视、挑衅等(不友善)
    骚扰我

    泄露了我的隐私

    ×

    您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
    • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
    • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

    侵犯了我企业的权益

    ×

    您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
    • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
    • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
    • 3. 是哪家企业?(营业执照,单位登记证明等证件)
    • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
    我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

    抄袭了我的内容

    ×

    原文链接或出处

    诽谤我

    ×

    您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
    • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
    • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
    我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

    对根叔社区有害的内容

    ×

    垃圾广告信息
    色情、暴力、血腥等违反法律法规的内容
    政治敏感
    不规范转载 >
    辱骂、歧视、挑衅等(不友善)
    骚扰我
    诱导投票

    不规范转载

    ×

    举报说明