这是一个非常典型的网络架构变更导致的故障,问题核心很可能出在防火墙与会话状态上。根据您的描述,我们可以按以下步骤进行排查和解决:
核心问题分析
故障现象明确指向了采用集中转发模式的V5版本AC在防火墙介入后出现周期性掉线。这强烈暗示防火墙中断了某种维持在线状态的关键会话。
详细排查与解决步骤
第一步:检查防火墙会话状态与策略
这是最可能的原因。集中转发模式下,所有用户数据流量都需经过AC,防火墙会看到并管理这些连接。
检查会话超时时间:登录防火墙,检查其 TCP/UDP会话老化时间。重点关注 udp和 other协议的超时设置。如果防火墙的会话表在1小时左右清除了不活跃的连接,而AC或认证系统恰好有每小时一次的心跳或状态更新,就会导致连接被重置。
临时验证:在防火墙上找到一条受影响用户的会话,观察其创建时间,看是否在接近1小时时被清除。
解决方案:适当延长防火墙的会话超时时间(例如,将UDP会话超时改为2-4小时),或启用 长连接 相关配置。
检查安全策略:确认放行的策略是否足够精确。除了AC的IP,还需要确保:
AP与AC之间的通信:CAPWAP隧道(通常使用UDP 5246、5247端口)流量必须双向通行无阻。这是集中转发的基础。
AC与IMC服务器之间的通信:确保RADIUS认证/计费端口(UDP 1812, 1813)的流量双向通行。特别要注意计费更新报文。
客户端与IMC之间:如果短信认证流程中有客户端直接与IMC服务器交互的步骤,也需放行相应流量。
第二步:在AC(V5)上检查关键日志与配置
查看用户掉线日志:在V5 AC上,当用户掉线时,查看系统日志或用户在线信息日志。关键信息是用户的 下线原因。常见原因有:
RADIUS Accounting Update Failure(RADIUS计费更新失败)
User Idle Timeout(用户空闲超时)
Connection Lost(连接丢失)
Administratively Reset(管理性重置)
明确下线原因能极大缩小排查范围。
检查RADIUS计费间隔:登录V5 AC,检查配置的RADIUS计费服务器(IMC)的 计费更新间隔。华三设备上通常有 accounting interim-interval配置项。这个值默认可能是3600秒(1小时)。如果AC每小时向IMC发送计费更新报文,但此报文被防火墙丢弃或IMC未正确响应,AC就会认为用户异常,将其踢下线。
解决方案:可以尝试在AC上调整此间隔(如改为1800秒),或确认IMC服务器端配置的静默超时时间与之匹配。
第三步:在IMC服务器上检查认证日志
登录IMC管理平台,找到认证日志或计费日志,筛选出故障用户。查看在用户掉线的时间点,IMC是否收到了AC发来的计费更新请求?是否发出了响应?响应是否正常?这里可以验证第二步的猜想。
第四步:对比V9 AC的配置与流量路径
既然V9 AC(本地转发)下的用户正常,这是一个很好的参照。
流量路径不同:本地转发模式下,用户的数据流量不经过AC,直接由AP通过防火墙转发。因此,防火墙看不到用户的数据会话,只管理AP到AC的控制流量和认证流量。这解释了为什么防火墙策略对V9 AC的用户影响小。
配置差异:对比两台AC上关于RADIUS服务器、计费、在线检测等方面的配置,看是否存在版本差异导致的默认配置不同。
总结与建议操作流程
立即检查:首先在防火墙上查看会话超时时间和拦截日志,同时在V5 AC上查看用户下线的具体原因日志。
重点配置:如果下线原因为计费更新失败,则同步检查AC的计费间隔、防火墙对此端口流量的放行情况、以及IMC服务器的响应。
策略调整:确保防火墙允许以下关键流量:AP <-> AC (CAPWAP), AC <-> IMC (RADIUS), 并且会话超时时间合理。
临时规避:如果急于恢复,可以尝试在防火墙上为来自V5 AC IP的流量设置更宽松的策略或更长的会话保持时间,作为临时措施。
根据经验,防火墙的UDP会话超时时间与AC的RADIUS计费更新间隔不匹配是导致此类周期性掉线的最常见原因。请优先从这两个方向入手排查。
Portal认证的“7天重认证”机制依赖于客户端、AC、IMC三者之间的在线心跳维持。当防火墙介入后,很可能会拦截或阻断这些心跳报文,导致AC误认为客户端已离线,从而强制踢下线。
为什么V5集中转发受影响,而V9本地转发正常?
| 对比维度 | V5 AC(集中转发) | V9 AC(本地转发) |
|---|---|---|
| 转发模式 | 客户端所有流量(包括认证报文)都通过CAPWAP隧道送到AC处理 | 认证报文上送AC,数据报文在AP本地转发 |
| 报文路径 | Portal心跳报文:客户端 → AP(隧道封装)→ AC → 防火墙 → IMC | Portal心跳报文:客户端 → AP(直接转发)→ 接入交换机 → 防火墙 → IMC |
| 关键差异 | AC作为流量的集中处理点,所有报文都经过AC | AP直接与认证服务器交互,路径更短 |
由于V5 AC承担了所有报文的集中处理,防火墙介入后,更容易影响从AC到IMC的回程路径或AC与AP之间的隧道稳定性。
这是最常见的原因。Portal认证的心跳报文通常是UDP报文,而防火墙默认的UDP会话超时时间可能小于1小时(通常是300秒或1800秒)。
检查方法:
登录防火墙,查看会话表老化时间配置
重点关注 UDP会话超时时间、ASPF策略中针对Portal端口(UDP 50100/50200等)的配置
V5老版本AC的Portal心跳机制可能不如V9完善,需要手动开启或调整。
# 登录V5 AC,检查Portal配置 system-view wlan service-template 你的模板名 display this # 确保开启了Portal客户端在线探测功能 portal client-probe interval 300 # 建议设置5分钟(300秒) portal client-probe enable # 检查Portal服务器配置 portal server imc ip 1.2.3.4 # IMC服务器IP port 50100 # Portal端口 detect interval 300 # 心跳探测间隔 detect times 3 # 失败3次判定下线关键命令:
portal client-probe interval:设置AC向客户端发送心跳探测的间隔
建议将探测间隔设为小于防火墙会话超时时间(如300秒),确保会话不被老化
V5平台在集中转发模式下,如果没有开启ARP侦听,可能会导致AC无法学习到客户端的ARP信息,从而影响Portal认证状态的维持
# 在V5 AC上开启ARP snooping system-view arp-snooping enable interface Vlan-interface 业务VLAN arp-snooping enable根据华三官方文档,V5 AC在开启Remote AP功能时,当AP与AC之间的隧道断开,AP会自动切换为本地转发模式,但隧道重建后,所有客户端会被强制下线。这可能导致你看到的“每小时被踢”现象。
检查方法:
# 查看AP是否频繁掉线又重连如果发现AP注册状态频繁变化,说明AC与AP之间的隧道不稳定,需要检查防火墙是否放通了CAPWAP控制隧道(UDP 5246)和数据隧道(UDP 5247)。
display wlan ap all display wlan ap statistics暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论