• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

VRRP组网AC之间配置漫游组导致AC之间环路冲击有线网络问题

2023-07-29 发表
  • 0关注
  • 1收藏 611浏览
粉丝:17人 关注:4人

组网及说明

【组网】DT51-AC1DT51-AC2旁挂核心交换机(核心只做二层透传),业务和管理vlan网关,以及dhcp地址池都在DT51-FW1000防火墙插卡上。

连接接口:ACBAGG2口,成员口XGE1/3/9 + XGE1/3/10—— BAGG133)核心交换机(BAGG134——BAGG2口,成员口XGE1/3/9 + XGE1/3/10)备AC

核心交换机(BAGG1000——FW1000(防火墙插卡)。

集中转发(未配置基于vlan的二层隔离)+ 本地转发(map文件配置了基于vlan的二层隔离)

AC上开启了全局stp (stp global enable),且在与核心交换机互联的端口上默认开启了stp功能。


告警信息

问题描述

时间:故障共先后发生两次:2023-07-15 19:00~19:10左右;2023-07-17 11:40左右。

现象:据反馈已在线的无线终端使用卡顿,新终端无法接入。

现场处理方法:将所有AP从主AC切换到备AC后业务恢复正常。// 通过切断主AC和核心交换机的端口。

故障原因:有线网络中故障时间有广播/组播风暴,但引发原因未知。现场未找出有线物理环路。





过程分析

故障时刻,核心交换机和主备AC互联的接口(BAGG133134)以及和FW1000互联的口(BAGG1000)收到大量的广播/组播报文,其中个AC互联的口收到的广播/组播量较大,交换机接口Rx方向有大量arpdhcp广播的超限速丢包记录。

此外,核心交换机上有mac漂移记录,记录了网关mac(在FW1000上)来回在交换机连接FW1000的口(BAGG1000)和连接主备AC的接口(BAGG133134)之间漂移。


故障时刻ACCPU总利用率不算高,但是部分转发核的利用率很高【两次发生故障时现象一致】,应该与大量广播和组播冲击AC转发核有关。


对此,收集了故障时刻AC上的cplog和dplog,收集方法是:

AC Probe视图:

fpl-diag slot 1 savelogall 0xffff

fpl-diag slot 2 savelogall 0xffff

通过作图发现,故障时刻AC和核心交换机连接端口的单播/广播/组播流量陡增:



通过上图可以看出,故障时刻,主AC和核心交换机连接聚合端口下两个成员口的广播/组播/单播流量陡增,但是入方向和出方向的广播/组播/单播流量的数量基本是相等的,无法比较准确地分析出故障时刻广播/组播泛洪的源头。

备AC和核心交换机端口的报文量级及特征与与主AC的非常接近。

而且从核心交换机侧端口的流量分析,故障时刻防火墙与核心交换机侧端口的流量交互量级要远低于核心交换机与主备AC之间的端口。

虽然从核心交换机侧的arp debug分析出故障时刻的广播泛洪主要由arp泛洪引起,且arp的源地址是网关,但按照上述情况来分析,并不是由于网关(防火墙)发送大量arp引起的泛洪,而是arp广播报文被下方的设备大量复制导致的。

## 值得注意的是,如果arp广播报文泛洪是因AC的大量复制引起,那么无法以下三种可能:

1. 两台AC和核心交换机之间或者下行链路之间产生了某种环路;        // AC上除了和核心交换机的聚合口,没有其它接口,且已排查下行链路无环路

2. 网关侧发来的arp广播请求,被AC大量复制后发给无线终端;         // 这种情况的发生需要两个条件:① 网关侧发来大量广播报文【不太符合】,② AC上有大量集中转发的终端,且AC下AP数量及绑定的服务模板较多,AC上会进行大量复制网关侧发来的广播报文,然后进行CAPWAP封装后发送给各个AP Radio下的终端,这种情况会导致故障时刻AC的转发CPU利用率上升甚至被打满,但是这种情况有一个显著的特征,就是AC端口入方向的广播量远大于出方向的广播量,而AC端口入方向的单播量远远低于出方向的单播量。

【这是因为,网关发来的广播到达AC被复制后,封装了CAPWAP报文,此时由广播变为单播,再由AC端口发出】

但局方反馈该AC下只有几十个集中转发的终端,且防火墙网关发送的报文量并不算大,结合这些特征,故障也不符合这种情况。

3. AC下有大量集中转发的终端,AC上未配置基于vlan的二层隔离,终端发送的大量arp请求被AC大量复制后导致广播泛洪。     // 这种情况也需要两个条件:① AC下有大量的集中转发终端【不符合】,且AP数量及绑定的服务模板数量较多【不符合】;② AC上没有配置基于vlan的二层隔离【符合】;

这种情况的特征也是AC端口出方向单播量远远高于AC端口入方向的单播量,同时从核心交换机侧的arp debug来看,泛洪的arp广播源地址是防火墙网关,因此这种情况也能被排除掉。

## 此外,如果是2和3两种情况导致的故障,那么由于终端主要是接入在主AC上的,因此大量流量的交互应该是集中在主AC和核心交换机之间,也不会出现备AC和核心交换机之间同样存在大量报文交互且与主AC量级接近的情况。

那么情况只能回到环路这种情况引发的广播泛洪,那么环路究竟来自于哪里?

在主AC---核心---备AC上再次排查后仍然没有发现其它物理环路的可能。

不经意之间,查看了AC的display interface brief,发现了一个奇怪的端口:WLAN-Tunnel1/0/1


查询后发现这个口是漫游组隧道的入口

查看AC上的stp记录发现,两次故障时刻均有WLAN-Tunnel的stp状态改变的记录。



此外,对于的业务vlan下也有WLAN-Tunnel1/0/1口和AC和核心交换机之间的物理成员口的添加记录,说明存在环路的可能


而根据故障时刻AC上的display mac-address记录,发现主AC会从WLAN-Tunnel1/0/1学到对应业务vlan的mac地址,同时也能从AC和核心交换机的聚合口学到,这说明VRRP主、备AC和核心交换机聚合口以及主、备AC之间的WLAN-Tunnel1/0/1虚拟口构成了环路,导致了故障时刻arp广播报文的大量复制。



解决方法

WLAN-Tunnel1/0/1的产生与VRRP主、备AC配置了如下命令有关,删除后WLAN-Tunnel1/0/1隧道消失,问题解决。


该案例对您是否有帮助:

您的评价:1

若您有关于案例的建议,请反馈:

0 个评论

该案例暂时没有网友评论

编辑评论

举报

×

侵犯我的权益 >
对根叔知了社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔知了社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作