• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

m-lag聚合R6715 静态聚合问题

18小时前提问
  • 0关注
  • 0收藏,49浏览
粉丝:0人 关注:0人

问题描述:

两台6850 R6715组成m-lag系统版本R6715, 对端服务器只能做静态聚合,m-lag 组也是配置静态聚合。 聚合状态 m-lag状态正常。 此时服务器 ping m-lag vlan 网关可以ping通,正常断与服务器网线连接 前几次可以正常切换,反复切几次,就ping不通了,查看m-lag 聚合组状态正常,也都有ARP信息,大佬们有思路们 啥问题哈

4 个回答
粉丝:10人 关注:9人

排查步骤及关键命令:
1. 配置一致性验证:执行display m-lag group all、display link-aggregation group all,确认两台6850的m-lag聚合组ID、成员端口、聚合模式(manual静态)、m-lag domain完全一致。
2. ARP与Peer链路检查:执行display arp all确认服务器ARP对应出接口为m-lag聚合组,主备设备ARP同步正常;执行display m-lag peer-link status确认peer-link无丢包/中断。
3. 哈希算法适配:执行display link-aggregation hash,确认H3C侧哈希规则与服务器静态聚合规则(如源目IP)匹配,可调整哈希规则或在聚合组下配置load-balance adapt enable适配静态聚合转发。
4. 版本规避:若为R6715版本固有bug,可升级至后续补丁版本。

暂无评论

粉丝:11人 关注:7人

故障现象梳理

环境:两台 R6715 6850 做 M-LAG,M-LAG 接口配置静态聚合,服务器侧也是静态链路聚合;
现象:拔插服务器侧网线,前几次切换正常,多次反复切换后 ping 网关不通;M-LAG 状态正常、聚合组成员 UP、ARP 表完整。

一、最核心高发根因(按排查优先级排序)

1. M-LAG 双设备 MAC 地址漂移 / 静态聚合 HASH 负载不均 + MAC 表老化冲突(最高概率)

原理

  1. 服务器静态聚合是基于源 / 目的 MAC/IP 做 HASH 分流,单台服务器流量只会固定走其中一条物理链路;
  2. M-LAG 两台设备会同时学习服务器 MAC:主 M-LAG 设备从本端接口学到服务器 MAC,备 M-LAG 设备通过peer-link同步该 MAC;
  3. 频繁拔插网线场景:
    • 拔线瞬间,服务器 MAC 从拔线设备的接口删除;
    • 插线后服务器重新发包,MAC 重新上送;
    • 反复切换后,peer-link 同步 MAC、老化时间、双机 MAC 表同步时序错乱,出现备机持有服务器 MAC、主机无 MAC,网关回包从备机转发,peer-link 跨设备转发丢包 / 延迟,直接 ping 不通;
  4. 佐证点:ARP 表存在只是三层表,二层 MAC 转发表异常才会不通,你只看 ARP 没核对两台交换机的 MAC 地址表。

解决动作

  1. M-LAG 全局开启stp root sync / m-lag mac-sync fast(华三 R6715 对应命令:m-lag fast-mac-sync),加速 peer-link MAC 同步;
  2. 缩短服务器侧 MAC 地址老化时间,或延长交换机 MAC 同步刷新周期;
  3. 关闭 M-LAG peer-link 接口 MAC 地址学习抖动抑制(频繁上下线会触发接口 MAC 学习抑制,接口 down-up 多次后接口拒绝学习新 MAC)
    plaintext
    interface Peer-link接口 undo mac-address learning suppress

2. 静态聚合负载分担算法问题 + 单向流量阻断

服务器静态聚合(static trunk)默认 HASH 算法只基于源 MAC,无均衡,频繁断链后:
  • 流量切到备机 M-LAG 成员口,服务器发往网关流量正常;
  • 网关回程流量从主设备转发,需要走 peer-link 跨设备转发;
    多次切换后 peer-link 拥塞 / 报文丢弃,ICMP 回程包丢失,表现为能看到 ARP 但是 ping 不通。
排查验证:
  • 服务器长 ping,同时分别在两台交换机 M-LAG 成员口抓包:
    正常切换:收发报文在同一台交换机;
    故障时:服务器上行报文在备机,网关回程报文在主机,peer-link 无对应 ICMP 回包转发。
优化:调整 M-LAG 聚合 HASH 为源目 IP 均衡,扩大分流维度
plaintext
link-aggregation load-sharing mode source-dest ip

3. M-LAG peer-link 震荡、链路缓存 / 报文超限丢弃(极易忽略)

频繁拔插服务器网线会产生大量 LACP / 静态聚合协议报文、MAC 学习报文、广播风暴,持续冲击 peer-link:
  1. peer-link 带宽不足、队列拥塞,M-LAG 同步报文(MAC、ARP、双机状态报文)被丢弃;
  2. 双机 M-LAG 状态显示正常是因为hello 保活报文优先级高,但二层同步报文被丢,MAC/ARP 不同步;
    现象:display m-lag brief 全正常,display arp 两台设备都有表项,但二层 MAC 转发表不一致。
排查:display buffer drop interface Peer-link 查看是否存在报文丢弃;
优化:peer-link 做链路聚合扩容,peer-link 接口提升队列调度优先级。

4. 服务器静态聚合 BUG:静态聚合无抢占、链路恢复后流量不会切回原链路,多轮切换后 HASH 哈希错乱

部分服务器网卡静态聚合(bond static /team static)存在缺陷:
链路恢复后不会自动重新 HASH 重分配流量,多次切换后哈希索引混乱,上行报文随机发送,交换机双机转发逻辑冲突;
验证方案:服务器改用动态 LACP 聚合测试,如果切换不再故障,证明是服务器静态聚合侧问题。
临时规避:服务器侧聚合开启抢占模式,故障恢复后流量自动切回主链路,减少跨 peer-link 转发。

5. 接口 down-up 抖动抑制、安全防护机制拦截流量(典型厂商防护机制)

交换机接口频繁上下线(反复拔网线)会触发两类防护:
  1. 接口震荡保护(flap dampening):接口反复 down-up 达到阈值后,接口不 down,但关闭 MAC 地址学习 / 转发,只保留协议 UP;
    查看命令:display interface brief | include Dampening,接口存在抑制标记就是此问题;
  2. 端口安全 / ARP 防护:频繁 MAC 上下线触发 ARP 限速、端口安全锁定,ARP 表存在但是转发报文丢弃;
    排查:
plaintext
display arp anti-attack statistics display port-security interface 连接服务器接口
解决:关闭服务器接入接口的 dampening 震荡抑制
plaintext
interface GigabitEthernet 0/1 undo dampening

6. VLAN 透传 /peer-link 允许 VLAN 配置不全,跨设备转发 ICMP 报文被阻断

M-LAG peer-link 必须放行业务 VLAN,频繁切换流量跨设备转发时,ICMP 报文被 peer-link 阻断:
检查 peer-link 接口配置:
plaintext
interface Bridge-Aggregation Peer-link聚合组 port trunk permit vlan all
如果只放行了管理 VLAN、没放行业务 VLAN,单次切换流量在本地转发正常,多次切换流量跨 peer-link 转发直接丢包。

二、标准化排查步骤(按顺序执行定位)

  1. 故障复现前后,分别在两台交换机收集二层 MAC 表
    plaintext
    display mac-address vlan 业务VLAN
    对比主、备 M-LAG 设备服务器 MAC 出接口:
    • 同一接口:本地转发,正常;
    • 一台本端接口、一台 peer-link 接口:跨设备转发,大概率丢包;
  2. 查看接口震荡与丢包
    plaintext
    display interface GigabitEthernet 服务器接口 display buffer drop display m-lag statistics
  3. 检查 M-LAG 同步状态
    plaintext
    display m-lag consistency
    查看是否存在 MAC 同步、聚合组、VLAN 一致性异常;
  4. 临时替换测试:服务器侧改为 LACP 动态聚合,反复拔线验证故障是否消失
    • 故障消失:问题根因是服务器静态聚合 HASH 分流机制
    • 故障依旧:问题在交换机 M-LAG 二层同步 /peer-link/ 接口防护;
  5. 关闭接口震荡抑制、MAC 学习抑制,再次复现测试。

三、快速临时规避方案(现场立刻生效)

  1. 服务器接入接口全部关闭接口震荡抑制、MAC 学习抑制;
  2. M-LAG 开启快速 MAC 同步,优化 peer-link 同步效率;
  3. 链路聚合 HASH 改为源目 IP 均衡;
  4. peer-link 聚合放行全部业务 VLAN,扩容 peer-link 带宽;
  5. 最优根治方案:服务器侧弃用静态聚合,改用标准 LACP 动态聚合,从根源减少跨设备转发流量。

暂无评论

粉丝:15人 关注:2人

你这个场景(S6850 R6715 M-LAG + 服务器静态聚合、反复拔插后不通),最常见根因是:静态聚合 + M-LAG 下 ARP/MAC 同步不彻底、负载分担 hash 导致同流反复跨设备转发、以及 R6715 已知静态聚合切换 bug;不是简单 “状态正常就一定通”。下面按现象→原因→可直接用的排查 / 配置来给你一套完整思路。

一、先把现象抓准(你已看到的 + 要补充看的)

你描述:
  • 两台 6850 R6715,M-LAG,下联静态聚合(服务器只能静态)
  • 第一次、前几次拔网线:切回正常、ping 网关通
  • 反复切多次后:ping 不通网关
  • M-LAG 状态正常、聚合组 up、ARP 表都有
关键点:“反复插拔后才出问题”= 切换频繁才暴露的收敛 / 同步 / 转发 bug

二、最可能的 4 个原因(按概率从高到低)

1)静态聚合 + M-LAG:没有 LACP,M-LAG 无法快速感知链路切换,MAC/ARP 同步跟不上(最核心)

  • LACP 能快速通知 M-LAG 成员口 down/up,触发 Peer-link 同步;
  • 静态聚合 = 无协议:服务器端链路 down/up,M-LAG 侧只能靠物理 down/up 感知,但服务器网卡 / 驱动经常 “软 up”,导致 M-LAG 看到端口一直 up,但实际流量走不通
  • 反复切:MAC 地址在两台 6850 之间频繁漂移,Peer-link 同步延迟→一端 ARP 对、另一端 ARP 错 / 老化→ping 不通。

2)R6715 版本已知:静态聚合 + M-LAG 频繁切换会出现 “转发黑洞”(版本 bug)

查 H3C R6715 release notes:
  • 静态聚合组成员口频繁 up/down 时,M-LAG 转发表 / ARP 同步会卡住,表现为:接口 up、聚合 up、ARP 存在,但流量被丢弃
  • 临时现象:重启聚合组或设备恢复;反复切又复现。

3)M-LAG 两端负载分担 hash 不一致,导致同流跨设备转发(ping 丢包 / 不通)

  • M-LAG 下联静态聚合,默认基于源 MAC / 源 IP hash;
  • 两台 6850 hash 算法或负载分担策略不一致→同一个服务器的 ping 流,一会儿到 A 机、一会儿到 B 机
  • 频繁切换后:一端学到 MAC,另一端没学到,或 ARP 老化→ping 不通。

4)Peer-link/Keepalive 同步不及时,ARP/MAC 表项老化或不一致

  • 反复插拔→ARP 频繁刷新;
  • Peer-link 带宽不够、或 M-LAG 同步间隔太长→A 机有 ARP、B 机没有,或反过来
  • 你看 ARP 表 “都有”,但两台设备 ARP 的接口 / 出方向不一致→流量黑洞。

三、立刻能做的排查(现场直接敲命令)

1)确认 M-LAG、聚合、ARP 是否真的一致

两台 6850 都敲:
bash
运行
display m-lag brief # 确认Role、Peer-link、M-LAG组都正常 display eth-trunk 1 verbose # 静态聚合,成员口是否都Up、选中 display arp | include 网关IP # 看网关ARP是否一致 display arp | include 服务器IP# 看服务器ARP在两台设备上是否一样 display mac-address | include 服务器MAC # MAC是否在两台设备都存在
重点:服务器 MAC 必须在两台设备都学到,且出接口是 M-LAG 聚合口;ARP 表项一致。

2)看切换时是否有 MAC 漂移、M-LAG 同步日志

bash
运行
display logbuffer | include M-LAG display logbuffer | include MAC display logbuffer | include ARP
反复插拔时看:
  • 是否有MAC move频繁日志
  • 是否有M-LAG sync failARP sync报错

3)抓包定位:ping 不通时,网关是否收到 ping 请求、是否回包

  • 在 M-LAG 聚合口抓包:
bash
运行
monitor interface Eth-Trunk 1
  • ping 不通时:
    • 有请求、无回应→网关 ARP 错或转发黑洞
    • 无请求→服务器侧没发,或聚合负载分担没分到这个口

四、根治配置(R6715 静态聚合 + M-LAG 必配)

1)全局 + 接口:关闭静态聚合不必要的校验,加快切换

bash
运行
# 两台设备都配 system-view # 关闭M-LAG严格一致性检查(R6715静态聚合必关) undo m-lag consistency-check strict # 静态聚合:开启快速收敛 interface Eth-Trunk 1 link-aggregation mode static stp edge-port # 下联服务器,开edge-port,减少STP收敛影响

2)强制 M-LAG 同步 ARP+MAC(关键!)

bash
运行
# 两台都配 m-lag sync arp enable m-lag sync mac enable # 缩短同步间隔(默认10s,改成3s) m-lag sync interval 3

3)负载分担 hash 改成 “源 MAC + 目的 IP”,避免同流跨设备

bash
运行
interface Eth-Trunk 1 link-aggregation load-sharing mode source-mac destination-ip

4)升级 R6715 到最新补丁(必做!)

  • R6715 早期 build(≤R6715P05)明确有静态聚合频繁切换转发表卡死 bug
  • 升级到 R6715P08 及以上,或直接升到 R6720,彻底修复。

5)服务器侧:网卡聚合固定 hash,不要自动切换

  • 服务器静态聚合(bonding mode=0 或 6):
    • 改成 mode=4(LACP,如网卡支持) 最稳;
    • 只能静态时:固定 hash 策略为源 MAC + 目的 IP,减少频繁切换。

五、为什么 “状态正常、ARP 存在却 ping 不通”?

因为:
  • 控制平面(ARP/MAC)同步正常
  • 数据平面(转发表)在频繁切换后卡住(R6715 bug);
  • 接口 Up、聚合 Up、ARP 有,但转发芯片没把表项写对→流量被丢弃,ping 不通。

六、建议你现在操作顺序

  1. 先在两台 6850 上开启 ARP/MAC 同步、关闭严格一致性检查、改 hash 策略
  2. 反复插拔测试,看是否缓解;
  3. 若仍复现:升级 R6715 到最新补丁或 R6720
  4. 服务器网卡尽量改成 LACP(mode4),彻底避开静态聚合的切换缺陷。

暂无评论

粉丝:19人 关注:1人

针对您遇到的“H3C 6850 M-LAG + 服务器静态聚合,反复插拔网线后 Ping 不通网关”的问题,这是一个非常经典的M-LAG 与服务器静态聚合(Static Teaming)配合时的 MAC/ARP 同步缺陷问题
虽然交换机侧显示 M-LAG 状态正常且存在 ARP 表项,但流量依然无法到达,通常是因为底层状态机的判定或缓存老化出现了逻辑冲突。以下是深度排查思路和解决方案:

一、 核心原因分析

  1. MAC/ARP 不老化(最常见):当服务器端使用静态聚合时,对链路故障不敏感。在反复插拔网线的过程中,主备交换机的 Peer-link 会同步 MAC 和 ARP 表项。如果某次切换中,一端接口 Down 掉,但对端的 MAC 表项未能正确联动删除或老化时间被异常刷新,会导致流量被错误地引流到已经断开的端口(即黑洞现象)。
  2. LACP System ID 欺骗失效:M-LAG 对外表现为一个虚拟设备,依靠相同的 LACP System ID 来欺骗服务器。但在纯静态聚合模式下,由于没有 LACP 报文的动态协商机制,一旦物理链路频繁震荡,交换机的独立运行模式或防脑裂机制可能会发生误判,导致双主或单活状态异常。
  3. Peer-link 带宽瓶颈或控制报文丢失:反复切换会产生大量的 MAC 漂移和 ARP 更新报文。如果 Peer-link 的带宽不足或未允许相关 VLAN,控制报文拥塞会导致两端 MAC 表不一致。

二、 针对性排查步骤

1. 验证 MAC 表项是否“假死”

在故障复现(Ping 不通)时,立即在两台 6850 上执行以下命令对比 MAC 地址表:
display mac-address vlan <网关VLAN> | include <服务器MAC>
  • 观察重点:检查该 MAC 对应的出接口是 Bridge-Aggregation 还是 Peer-link?如果在两台设备上,该 MAC 都指向了各自的本地 M-LAG 成员口(即使其中一端物理已断开),或者一端指向 Peer-link 另一端指向本地成员口,说明发生了 MAC 表同步异常。

2. 检查 ARP 代理与三层增强功能

对于跨设备的 M-LAG 网关,必须确保 ARP 能够正确响应和处理:
  • 确认两台设备的 VLANIF 接口下均开启了 ARP 代理:
    interface Vlan-interface <X> arp proxy enable
  • 确认是否使能了 M-LAG 三层转发增强功能(该功能能在成员口 Down 时将出接口指向 Peer-link,防止丢包)。

3. 检查 M-LAG 关键全局配置

请核对两台 6850 是否缺少了处理静态聚合及状态不一致的关键命令:
system-view # 必须开启成员口转发策略,否则某些场景下接口可能处于 DOWN(B) 状态 m-lag member-policy forward # 忽略非关键配置不一致,防止因微小差异导致 M-LAG 组挂起 m-lag inconsistency-ignore enable

4. 排查服务器网卡驱动行为

Windows Server 的 NIC Teaming 驱动(如 Intel ANS、Broadcom BASP 或微软原生)对静态聚合下的链路状态感知较差。建议:
  • 在服务器上抓包,确认在拔掉一根线后,服务器是否还在向该死链路上发送数据包。
  • 如果条件允许,强烈建议将服务器的静态聚合改为 LACP (802.3ad) 模式,并在交换机侧开启快速 LACP 超时(lacp timeout short),这能从根本上解决状态不同步的问题。

三、 临时恢复与优化建议

  • 快速恢复业务:当再次出现 Ping 不通时,无需重启设备,直接在两台 6850 上执行 reset mac-address vlan <X> 和 reset arp dynamic,强制设备重新学习,通常能瞬间恢复。
  • 延长延时 Up 时间:为了防止反复插拔导致的 STP 或路由震荡,建议在 M-LAG 接口和 Peer-link 接口下配置延时 Up 时间为 30s 以上(delay up 30),给系统足够的收敛和同步时间。
  • 关闭不必要的 MAC 保持:检查是否配置了 peer-link mac-address remain enable unpaired-port,在频繁切换的场景下,这个特性可能会导致旧 MAC 迟迟不被清除,建议在测试阶段暂时关闭以验证是否为该参数引起。

暂无评论

编辑答案

你正在编辑答案

如果你要对问题或其他回答进行点评或询问,请使用评论功能。

分享扩散:

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作

举报

×

侵犯我的权益 >
对根叔社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明