组网环境 :
某客户,WLAN网络涉及九个局点,每个局点的拓扑描述为 :
1、AP连接PoE,PoE连接汇聚,汇聚各个局点都有
2、汇聚连接至 核心局点 的 核心S10508,AC做了IRF旁挂在核心上
3、故障局点九个局点中一个,AP150台,周五周六该局点汇聚以下设备全部断电,周一重新上电
4、局点PoE未将连接AP接口设置成边缘端口---------------重要
支持程度 :有限支持、远程支持
故障现象描述 :
客户局点周六周天断电后,周一重新上电出现AP频繁大规模批量掉线的情况:20个楼层都会各有几台AP在同一分钟的不同秒批量的掉线(注意 :不是同分同秒,是同分不同秒),该天排查未定位出原因,因为频繁掉线一段时间后局点AP突然自己不掉线了(现象消失),至今客户未出现掉线问题(5天左右),虽然当时未排查出根因,但有些后知后觉的 判断与感触,分享出来和大家一起探讨,希望前辈们看看我的排障思路是否合理,以及希望前辈们发现我问题定位的遗漏之处并且给出建议
当天排查步骤 :
1、display wlan ap statics tunnel-down record查看掉线过的AP,原因主要为Faile to restr/ Neighbor expire
2、查看掉线AP的reboot reason为Power on、Lost echo为0
3、Ping 1000个ICMP不丢包,wlan ap-link-test x.x.x.x destion 5246 packet-length 1200 contius rate 100 times 10检测未丢包
4、Telnet到AP上diag boot-info display发现AP重启时间早于AC侧Tunnel-down时间
5、AP侧dir未发现 ap-diag.txt文件,因此问题判定为AP重启导致的AP掉线
6、AP有线口单播仍然大于广播和组播(单播帧大概是广播帧两倍),但是AP有线口存在overrun增加的现象
7、客户WLAN网络上行网络中存在接口翻转问题(有考虑该原因导致的TC报文影响,但是客户之前就存在该问题并未出现频繁批量掉线现象)
8、客户侧反应设备电源插好了
个人分析(包含后知后觉的分析):
1、经过1-5的分析可以断定是由于AP重启导致的批量掉线
2、所有楼层均存在问题所以由于PoE供电或者线路问题导致AP重启概率不大
3、AP有线口出现overrun递增现象,但是单播帧比例仍然高于广播组播帧,所以考虑未知单播泛洪导致的AP有线口overrun
4、由于客户本身网络存在接口翻转,但是翻转的接口并不多,所以不太确定 到底 怎样的 接口翻转频率 会 导致 这样的网络震荡
5、客户局点的PoE连接AP接口均未设置边缘端口,考虑到客户断电后重新上电,上电瞬间大量接口UP,大量TC报文产生,导致网络中二层设备MAC地址表在那刻开始被频繁刷新,导致未知单播帧泛洪,导致已上线AP接口overrun进而导致CPU升高AP重启,TC浪潮随着不断AP被打下去,又重启上来,重启上来又把其他的上线AP打下去,TC浪潮翻来覆去,趋势逐步减小,最后平复,AP不再掉线(后知后觉)
6、还有一种可能就是:客户局点重新加电后电流不稳定,过一段时间后电流才稳定下来,AP不再重启(后知后觉)
(0)
最佳答案
TC报文会导致接口频繁up/down,建议先排查下tc报文
(0)
您好,请知:
AP频繁掉线,以下是排查要点,请参考:
1、检查物理链路是否有问题,端口频繁UP DOWN会产生TC报文,触发STP的计算。
2、检查POE的供电是否有问题。
3、进一步检查是否有可能存在环路。
(0)
你好,PoE供电问题该如何排查呢 ?检查PoE和AP的供电标准?还是检查接口是否使能poe enable ?
你好,PoE供电问题该如何排查呢 ?检查PoE和AP的供电标准?还是检查接口是否使能poe enable ?
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
TC 报文可能来自于以下几种情况: (1)连接终端的端口使能了STP,但是没有配置边缘端口,当终端发生重启等情况导致该端口发生链路状态变化时,该端口会产生TC 报文并向整个二层网络中传播; (2)因更改配置参数,网络中设备或链路出现故障等原因,引发STP 重计算时,有可能产生TC 报文; (3)来自用户设备的攻击TC 报文也可能传入其所接入的二层网络