AC旁挂,AC --- 核心交换机 --- PoE交换机 --- FIT AP。
无
某局点AGV小车连接无线网时出现频繁掉线后不能重连的情况,一天可能发生数次,影响生产业务。现场工程师在反馈问题已参照《WLAN AGV仓储场景部署指导-6W100》配置对现场的AP点位部署、信号覆盖、无线干扰进行了排查。
(https://www.h3c.com/cn/Service/Document_Software/Document_Center/Home/Wlan/00-Public/Plan_Design/Plan_Design_Guides/WLAN_AGV-11278/?CHID=859727),此外也进行了二层隔离、交换机端口隔离等常规的优化配置,但故障现象仍然时有发生。
1. 首先让现场工程师拿着手机和笔记本电脑沿着AGV小车的移动轨迹进行信号扫描和漫游测试,发现信号强度均满足要求,且终端漫游也很灵敏,基本没有出现漫游粘滞的现象,说明问题并不是在无线信号覆盖或漫游粘滞等导致的。
2. 查看AGV小车连接的无线服务模板:集中转发+PSK加密+开启802.11v和802.11r(ft enable)功能,询问现场工程师开启802.11v和r的原因:反馈是AGV小车产品上标称支持802.11v和r功能,客户IT建议开启以获得更好漫游性能。
3. 由于故障发生时间不固定,且有一定概率自动恢复,因此现场工程师也无法完整记录每次故障发生具体时间,有鉴于此使用云简纳管AC,同时开启智能运维终端深度解析功能,并在涉及AGV相关AP组下开启:wlan client inspect enable记录AGV小车出现故障时候的上线失败日志。
通过几天观察,捕获到故障记录,分析后大致将其分为以下三类:
① 终端漫游后在漫入AP上线过程Auth request/response报文交互出现异常导致上线失败:
② 终端漫游后在漫入AP上已完成association关联过程,但是终端或AP不发起后续PSK密钥四次握手过程,终端也不发送DHCP或arp请求,导致不能往后续交互,过一段时间后终端主动发送deauth离线导致终端上线失败:
③ 这种情况终端漫游后在漫入AP上已完成association关联过程后还会进行PSK四次握手密钥过程,握手结束后终端能够正常上线:
结合多次故障发生时云简上终端深度解析日志的交互分析:发现AGV漫入新AP时,只要auth request/response交互能够正常完成,且完成association关联交互后,AP或AGV有一方发起PSK密钥握手交互,那么必然能顺利完成后续过程进而保证AGV终端顺利上线,而如果AGV完成association关联交互后,AP和AGV均不发起PSK密钥握手交互,则必然导致没有后续报文交互,直到终端发送deauth报文解除关联从而导致AGV漫游后在漫入AP上线失败。对于配置了PSK密钥交互的服务模板,如果开启了11r(ft enable)功能,那么终端漫游后在漫入AP上线过程中在完成association关联交互后确实不必进行PSK四次密钥握手过程,而是由终端直接发起DHCP请求或者请求网关arp,并在得到DHCP服务器或网关arp回应后,就能继续后续报文交互并保证终端正常上线。而当前服务模板开启了psk加密和802.11r功能,理应按照这个机制去交互时却出现了问题,那么这个故障很有可能与802.11r功能有关,且有可能是因为AGV终端虽然宣称支持802.11r,却并不能很好地支持802.11r才导致实际过程出现问题。
4. 进一步地,在AC上查看[AC-Probe] display system internal wlan client history-record mac-address H-H-H,将输出结果中时间列与故障发生时间进行比对,得到与故障时间吻合的几条记录,包括:1025,2127和2018等原因,其中2127是终端通过802.11r方式上线失败(应当对于3中情况①)。2018是终端上线过程发送deauth导致上线失败(应当对于3中情况②)。1025虽然对应的是终端主动离线,但是根据display system internal wlan client history-record的记录:终端上线(reason-code 0)后只间隔了几秒钟或者十几秒钟就发生了终端主动离线(reason-code 1025),这显然不太寻常,结合部分异常1025记录对应的云简上终端深度解析日志分析,实际情况仍然是对应3中情况②,只不过终端完成auth和association交互后AC就认为终端已经完成了上线过程,因此将对应的事件记录为终端上线成功(reason-code 0),而终端完成association关联过程后,没有继续后续PSK密钥握手或DHCP/arp请求等其它报文交互,而是僵持在那里等待了几秒或十几秒后,终端主动发送deauth下线,而AC将这个作为一个新的事件记录为终端主动离线(reason-code 1025),实际上这个终端上线(reason-code 0)和几秒或十几秒后终端主动离线(reason-code 1025)的两个事件是一个终端上线失败的事件,同3中情况②。
5. 怀疑AGV终端虽然宣称支持802.11r,却并不能很好地支持802.11r,因此在AC上通过命令查看AGV终端对802.11v和r是否支持:display wlan client mac-address H-H-H verbose。从结果来看,终端支持11v(BTM mode:Active),但是不支持802.11r(FT status:Inactive),那么开启802.11r功能就有可能导致终端漫游过程出现上线失败的问题。
由于AGV终端虽然标称支持802.11r功能,但实际对该功能的支持并不太好导致漫游过程AGV频繁上线失败,因此AC在服务模板下关闭了802.11r功能,关闭后终端漫游过程未在出现类似的故障,问题解决。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作