Print

某局点WX5540H下联大量AP不定时掉线问题排查经验案例

2018-09-05 发表

组网及说明

       某局点使用我司的无线控制器WX5540H以及WA5320等型号的AP进行现场的网络部署,实现现场的无线网络覆盖,现场使用的最普遍的AP三层注册方式。


问题描述

      现场顺利开局进行无线网络部署,但是在部署完成后,使用过程中发现部分ap无线信号不稳定,查看ap连接状态部分ap处于I(IDLE)状态,但是过一段时间又显示R/M状态。

  ===============display wlan ap all=============== 

Total number of APs: 1108

Total number of connected APs: 1030

Total number of connected manual APs: 1030

Total number of connected auto APs: 0

Total number of connected common APs: 1030

Total number of connected WTUs: 0

Total number of inside APs: 0

Maximum supported APs: 3072

Remaining APs: 2042

Total AP licenses: 1200

Remaining AP licenses: 170

 

                                 AP information

 State : I = Idle,      J  = Join,       JA = JoinAck,    IL = ImageLoad

         C = Config,    DC = DataCheck,  R  = Run,   M = Master,  B = Backup

 

AP name                    APID  State Model           Serial ID

st1f-1                       287   R/M   WA5320          219801A0YD8186E007GN

tsg1f-1                      296   I     WA5320          219801A0YD8186E009CP

tsg1f-2                      297   R/M   WA5320        

  ……….


过程分析


1. 首先查看了AC设备日志,发现日志中存在大量的如下信息:

%Aug 31 17:51:03:242 2018 YZYJKQ-WLAN-AC CWS/4/CWS_AP_DOWN: CAPWAP tunnel to AP 4ssl4f-404 went down. Reason: Failed to retransmit message.

//Failed to retransmit messageAC下发AP关键信息超时无响应(一般是下发配置),AC主动断开连接

%Aug 31 17:49:46:891 2018 YZYJKQ-WLAN-AC CWS/4/CWS_AP_DOWN: CAPWAP tunnel to AP 2ssl1f-110 went down. Reason: Neighbor dead timer expired.

//Neighbor dead timer expired:控制隧道保活定时器超时,AC主动断开连接

%Aug 31 17:51:03:245 2018 YZYJKQ-WLAN-AC APMGR/6/APMGR_AP_OFFLINE: AP 4ssl4f-404 went offline. State changed to Idle.

                //ap状态变为IDLE

根据日志信息,我们能够发现是AC和AP之间的报文保活超时,导致了AC主动断开了和AP的连接。首先怀疑可能是AP的的链路或者供电不稳定,导致了保活报文丢弃。


2. 根据上一步分析,我们收集了POE交换机的诊断信息,并发现POE交换机的日志中包含大量的接口UP,DOWN的变化信息:


根据日志信息,我们通常惯性认为,交换机的接口频繁的UP,DOWN变化,会不会是因为物理接口有问题,于是让现场检查了两端的物理接口针脚,替换了物理线缆,替换了POE交换机,替换了其他的同型号AP分别测试,发现无论如何测试,均会出现接口频繁UP,DOWN以及AP频繁上下线的情况。


3.  做完了上述的测试和排查工作后,基本可以排除物理线路以及AP的问题,这个时候我们重新把目光转移到AC上来,看日志为什么会有这么多的AP发生频繁的上下线呢。我们收集了AP的诊断信息,并发现了ap的日志中存在系统重启的记录,并紧接着接口发生了接口UP的事件。

%May 2 16:07:08:659 2019 4ssl3f-301 SYSLOG/6/SYSLOG_RESTART: System restarted -- H3C Comware Software. 

%May 2 16:07:49:832 2019 4ssl3f-301 IFNET/3/PHY_UPDOWN: Physical state on the interface Ethernet1/0/1 changed to up.

       既然是系统重启导致了接口的UP,DOWN变化,那我们就检查下ap的系统版本。发现测试AP的型号为WA2610H当前的系统版本为:Version 7.1.064, alpha 2104sp21。

       紧接着我们查看了现场的型号为WX5540H的无线控制器软件版本,无线控制器软件版本为:Version 7.1.064, Release 5208P03。

我们在对应无线控制器的软件版本说明书中查看默认配套无线终端版本信息,发现WA2610H适配版本号为:CMW710-R2208P03。经过比对发现,现场频繁上下线的ap版本并不是该适配的版本。

       后续仔细检查无线控制器配置,发现现场工程师在无线控制器上误将全局的无线ap软件升级功能配置为关闭状态:

wlan global-configuration 

 firmware-upgrade disable     //关闭ap版本升级功能

#

 

4. 最后现场工程师将全局的无线ap软件升级功能开启后,ap上线状态稳定正常。


解决方法

由于误将全局的无线ap软件升级功能配置为关闭状态,导致现场ap和ac的软件版本不适配,从而导致大量的ap注册上线后一段时间下线,又重新上线的怪异现象,后来将该功能开启后,ap上线状态稳定。

wlan global-configuration 

 firmware-upgrade enable     //将ap软件升级功能开启

#