某运营商局点AP频繁上下线问题处理的经验案例
一、 组网:
在某运营商WLAN网络中,客户使用了N+1的AC备份组网。下联AP分布在不同热点。由城域网设备分配DHCP给AP,通过对不同热点AP配置不同option43选项,控制AP注册到各自的Master AC上,同时使用另外一台AC做Backup AC。
二、 问题描述:
主AC1上有部分热点的AP出现频繁上下线。表现为同一热点所有AP注册AC 几分钟内就马上掉线。过一会大约3分钟又能上线,但接着马上又会掉线,如此反复,造成网管侧大量的AP上下线告警。
三、 过程分析:
按常规思路分析,
(1) 检查了主AC1状态:察看CPU,正常,有其余大部分AP能稳定在线。确定主AC1状态正常。
(2) 排查网络故障:从主AC1上长ping AP。AP上线时,ping包无丢包和延时抖动。但几分钟后突然ping包全部无回应,AP马上就掉线。但约1分钟后又能再次ping通。远程telnet AP发现AP刚刚发生重启。于是在AP上抓取状态信息和debug wlan lwapp报文。在此确定为AP自动重起导致的AP掉线,不是AP掉线超长(约10多分钟)后AP重起。
(3) 分析AP自动重起原因,通过AP上抓取Debug信息分析如下:
*Oct 11 19:30:11:676 2012 WA1208E-GP-H20 LWPC/7/Pkt_Rcvd:
Received WTP Event Response from 218.201.117.51 (Length: 14)
04 00 00 08 00 00 0f 0a 00 00 16 0c 30 71
*Oct 11 19:30:11:677 2012 WA1208E-GP-H20 LWPC/7/Pkt_Rcvd:
Received WTP Event Response from 218.201.117.51 (Length: 14)
04 00 00 08 00 00 0f 0a 00 00 16 0c 30 71
*Oct 11 19:30:11:677 2012 WA1208E-GP-H20 LWPC/7/Pkt_Rcvd:
Received WTP Event Response from 218.201.117.51 (Length: 14)
04 00 00 08 00 00 0f 0a 00 00 16 0c 30 71
*Oct 11 19:30:11:678 2012 WA1208E-GP-H20 LWPC/7/Pkt_Rcvd:
Received WTP Event Response from 218.201.117.51 (Length: 14)
04 00 00 08 00 00 0f 0a 00 00 16 0c 30 71
*Oct 11 19:30:11:679 2012 WA1208E-GP-H20 LWPC/7/Pkt_Rcvd:
Received WTP Event Response from 218.201.117.51 (Length: 14)
04 00 00 08 00 00 0f 0a 00 00 16 0c 30 71
*Oct 11 19:30:11:679 2012 WA1208E-GP-H20 LWPC/7/Pkt_Rcvd:
Received Reset Request from 218.201.117.51 (Length: 14) //收到从AC过来的Reset请求
04 00 00 08 00 00 1a 0b 00 00 16 0c 30 71
*Oct 11 19:30:11:680 2012 WA1208E-GP-H20 LWPC/7/Pkt_Send:
Sent Reset Response to 218.201.117.51 (Length: 14)
04 00 00 08 00 00 1b 0b 00 00 16 0c 30 71
*Oct 11 19:30:11:681 2012 WA1208E-GP-H20 LWPC/7/Event:
[State : Run] Clear Context
*Oct 11 19:30:11:681 2012 WA1208E-GP-H20 LWPC/7/Event:
LWAPP to WMAC : Report AP-AC channel down status
*Oct 11 19:30:11:682 2012 WA1208E-GP-H20 LWPC/7/Event:
[Tunnel : Master State : Run] Notify WMAC Lwapp Channel Down
*Oct 11 19:30:11:683 2012 WA1208E-GP-H20 LWPC/7/Timer:
Deleted Echo-Req Timer
*Oct 11 19:30:11:683 2012 WA1208E-GP-H20 LWPC/7/Timer:
Deleted Statistics Timer
*Oct 11 19:30:11:684 2012 WA1208E-GP-H20 LWPC/7/Timer:
Deleted DataChannelKeepAlive Timer
*Oct 11 19:30:11:685 2012 WA1208E-GP-H20 LWPC/7/Timer:
Deleted Key-Life Timer
*Oct 11 19:30:11:685 2012 WA1208E-GP-H20 LWPC/7/FSM :
Change State : Run to Idle
*Oct 11 19:30:11:686 2012 WA1208E-GP-H20 LWPC/7/Event:
Set AP CAPWAP FSM State from 6 to 0, Ret: 8.
%Oct 11 19:30:11:731 2012 WA1208E-GP-
H20 WMSH/6/WMESH_ENTER_ZERO_CFG_STATE: The device has entered zero configuration state.
%Oct 11 19:30:12:591 2012 WA1208E-GP-
H20 DEVM/5/BOARD_REBOOT: Board is rebooting on Chassis 0 Slot 1. //系统自动重启
在此确定AP重起原因为AC主动Reset导致,但并未找到Reset的元凶。
(4) 继续排查AC Reset原因。但察看AC log日志发现近期并无人操作AC和执行Reset操作。到底何人使坏?经过细致分析,在AC上通过display wlan ap all verbose查看AP的Tunnel down reason,显示为 Tunnel Down Reason : AP Config Change。
于是对比AP在主备AC的配置,发现备AC比主AC上少了一个该AP的radio下服务模板的绑定,如下:
主AC下:
radio 1
channel 11
radio-policy 11g
service-template 1 vlan-id 117
service-template 2 vlan-id 117
service-template 3 vlan-id 117
service-template 30 vlan-id 3000 nas-id 6567053253100460
radio enable
备AC下:
radio 1
channel 11
radio-policy 11g
service-template 1 vlan-id 117
service-template 2 vlan-id 117
service-template 3 vlan-id 117
radio enable
(5) 到这里基本确定为主备AC配置不同步导致主AC1 Reset AP引起AP掉线。但是N+1备份实际上为冷备,正常情况下主备AC配置不同步按道理不会影响AP的注册,更不可能导致AP频繁掉线。问题一定出在AP的注册过程上。
(6) 于是从AP的初始注册过程查起。发现一个重要问题,AP 通过DHCP Option43获取了两台AC的IP地址,但有一个地址居然是错误的,只有备AC的地址有效。于是找到了问题的症结所在:Option43只正确添加备AC的IP地址,同时主、备AC上对部分热点AP的配置不同步(漏缺服务模板配置)。向客户询问,确定问题发生当天DHCP Server确实被修改过配置,协调客户更改配置后,AP稳定上线。下面再详细分析下这样的配置错误如何导致AP频繁上下线。
故障原因的详细理论分析:
第一步:AP启动后,通过DHCP Option43只获取了N+1备份的备AC ip地址,AP向备AC发起注册请求并成功上线;
第二步:AP在备AC上线后,由于备AC配置back-up AC为主AC1,AP会向主AC1发起注册请求。且同时主AC1优先级为7高于备AC,AP会切换主隧道到AC1,AP在主AC1成功上线,状态为Run/M。
第三步:由于N+1备份的备切主过程实际上是热备切换,AP会继承了原备AC上的服务模板配置。导致AP在主AC1上线后,主AC1检查AP的实际配置发现AP配置和current-configuration不一致,于是Reset踢AP下线,导致AP发生重起。
如此反复循环。
四、 解决方法:
(1)修改DHCP Server的Option43选项,添加正确的主、备AC地址。
(2)修改主、备AC的配置同步。
注:实际上单独用方法(1)或者方法(2)都能排除故障。在这里再次强调一下主、备AC配置同步的重要性。主、备配置不同步可能导致的后果非常严重,例如:STA无法成功关联AP、nas-id错误导致移动话单无法生成,还有本案例的AP频繁重起上下线。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作