两台M-LAG 交换机使用EVPN VXLAN 分布式网关部署 发现断开一台的M-LAG 聚合成员端口,有部分IP会不通,该现象该如何进行排查,有版本Bug因素存在吗,因为ARP两边M-LAG都能同步到,就是断开一边M-LAG成员端口后部分IP就会出现不通现象。
配置信息:
l2vpn enable
l2vpn m-lag peer-link ac-match-rule vxlan-mapping
vxlan tunnel arp-learning disable
vxlan tunnel nd-learning disable
evpn m-lag group X.X.X.X
evpn global-mac 0000-5e00-XXXX
address-family l2vpn evpn
nexthop evpn-m-lag group-address
peer x.x.x.x enable
peer x.x.x.x route-policy EVP_M-LAG export
route-policy EVP_M-LAG permit node 10
if-match route-type bgp-evpn-ip-prefix
apply ip-address next-hop x.x.x.x //对端Peer IP
#
route-policy EVP_M-LAG deny node 100
网关下的ARP信息:
设备版本信息是
要解决两台 H3C M-LAG 交换机部署 EVPN VXLAN 分布式网关时部分 IP 不通的问题,需从版本兼容性、配置逻辑、转发机制三个维度逐一排查,以下是具体步骤:
一、版本 Bug 排查与验证
你的设备版本是 H3C Comware 7.1.070,需确认该版本在 EVPN M-LAG 场景下是否存在已知缺陷:
查阅官方 Release Notes:访问 H3C 技术支持网站,搜索 “Comware 7.1.070 Release Notes”,重点关注 “EVPN”“M-LAG”“分布式网关” 相关的故障修复说明。若存在 “部分 IP 路由同步异常”“转发黑洞” 类 Bug,需升级至更高版本(如 7.1.080 及以上)。
临时规避测试:若无法立即升级,可尝试将故障 IP 对应的终端重启或触发 ARP 刷新(如arp -d 目标IP),观察是否恢复通信,以判断是否为版本导致的路由表项固化问题。
二、配置逻辑检查
1. EVPN 路由策略下一跳配置
你的route-policy EVP_M-LAG中对 EVPN-IP 前缀路由应用了对端 Peer IP 作为下一跳,这在分布式网关场景下存在逻辑错误。
正确配置应为:使用evpn-m-lag group-address作为下一跳(即 M-LAG 组的虚拟地址),而非直接指向对端设备的物理 IP。
调整步骤:
route-policy EVP_M-LAG permit node 10
if-match route-type bgp-evpn-ip-prefix
apply ip-address next-hop evpn-m-lag group-address // 替换为M-LAG组地址
验证:修改后执行display bgp evpn routing-table,确认故障 IP 对应的路由下一跳已变为 M-LAG 组地址。
2. VXLAN ARP/ND 学习关闭的影响
配置vxlan tunnel arp-learning disable和nd-learning disable后,VXLAN 隧道不再自主学习 ARP/ND,完全依赖 EVPN 路由转发。需确保:
所有终端 IP 的EVPN-IP 路由已通过 BGP 正常发布,可通过display bgp evpn routing-table ip-prefix 故障IP确认路由存在性。
若路由缺失,检查evpn global-mac和nexthop evpn-m-lag group-address是否配置正确,且 BGP 对等体(peer x.x.x.x)状态为Established。
三、转发机制与隔离规则排查
1. M-LAG 单向隔离机制
M-LAG 在双归场景下会自动下发单向隔离 ACL(防止 peer-link 与 M-LAG 成员口形成环路)。当某台设备的 M-LAG 成员端口断开时,需确认对端设备的隔离规则是否正确撤销。
检查命令:display acl name MLAG_ISOLATE(或类似自动生成的 ACL),查看是否存在拒绝故障端口流量的规则。若存在且未自动删除,需手动清除(或重启 M-LAG 进程reset m-lag all)。
2. 聚合组 Hash 策略一致性
虽然你的问题是 “部分 IP 不通” 而非负载均衡异常,但仍需确认两端 M-LAG 聚合组的Hash 策略完全一致(如均为load-balance src-dst-ip)。
检查命令:display eth-trunk 聚合组ID verbose,对比两端设备的Load Balance Policy,若不一致需统一配置。
四、流量路径追踪
1. 故障 IP 的路由表项
在两台 M-LAG 设备上分别执行:
display ip routing-table 故障IP
确认路由的出接口和下一跳是否指向正确的 M-LAG 成员口或 VXLAN 隧道。若某台设备的路由表项缺失或下一跳错误,需排查 BGP 路由同步问题。
2. 抓包分析
在故障设备的 M-LAG 成员端口或 peer-link 上抓包(如packet-capture interface GigabitEthernetX/X/X),观察:
故障 IP 的流量是否到达设备,且是否因 “无有效出接口” 被丢弃。
EVPN 路由更新报文(BGP 协议报文)是否正常交互,以排除控制平面故障。
五、ARP 同步验证
虽然你提到 ARP 已同步,但需进一步确认ARP 表项的出接口与路由表匹配:
执行display arp | include 故障IP,查看 ARP 对应的出接口是否为 M-LAG 成员口或 VXLAN 隧道。
若 ARP 出接口为 “invalid” 或指向已断开的端口,需检查 M-LAG 成员口的状态同步是否异常(可通过display m-lag interface确认端口主备状态)。
通过以上步骤,可逐步定位 “部分 IP 不通” 的根因:若为版本 Bug 则升级解决,若为配置逻辑错误则调整路由策略,若为转发隔离问题则修复 M-LAG 机制。
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明