跨产品线问题处理系列:AC RADIUS报文统计信息定位iMC服务器认证瓶颈
一、组网:
无
二、问题描述:
某局点无线用户使用Portal认证:AC作为Portal认证设备,iMC作为Portal服务器和Radius服务器,现场反馈存在无线用户Portal认证不通过等认证异常情况。
三、过程分析:
1.AC排查过程
AC上处其他排查方法外,命令display radius statistics收集RADIUS报文的统计信息,发现AC向iMC UAM服务器发送的认证报文和计费报文存在重传和因为重传导致处理异常的情况,具体如下:
PKT auth timeout Num = 150939 Err = 19 Succ = 150920
PKT acct_timeout Num = 4807149 Err = 1597051 Succ = 3210098
如上为命令display radius statistics的部分字段:PKT auth timeout为认证报文超时统计;PKT acct_timeout为计费报文超时统计;Num为发生重传的报文数目;Err为由于发生重传导致处理失败的报文数目(即发生3次重传未得到回应);Succ为发生重传,但最终处理成功的报文数目(即发生1-3次重传时得到回应)。认证报文和计费报文发生大量超时,尤其计费报文由于发生重传导致处理失败的报文数目占处理成功的报文数目的1/2,可能原因为AC与iMC UAM服务器之间的网络链路原因或iMC UAM服务器处理性能瓶颈。同时AC与iMC UAM服务器之间网络链路相同的情况下,认证报文处理情况明显好于计费报文,所以iMC UAM服务器处理性能瓶颈的可能性更大些,检查iMC UAM服务器运行情况。
2.iMC排查过程
对iMC UAM服务器运行情况进行检查,发现:
(1)UAM服务器内存利用率90%以上,如此高的内存利用率会影响UAM的处理性能,其中服务器总内存32G,SQL数据库占23G,原因为SQL数据库的内存无限扩张机制(内存有多余时)。进行优化:对SQL数据库使用最大内存进行限制,限制为16G(最大物理内存的50%)。
(2)UAM日志显示存在radius认证队列满问题,与AC上radius报文统计中计费报文存在重传的情况匹配。优化措施:AC等接入设备上计费更新报文间隔由默认12分钟调整为24分钟,UAM上终端在线老化时长有默认30分钟调整为60分钟。
(3)局点管理用户数70000左右,Portal认证在线用户数5000左右,iMC部署方式为PLAT和UAM集中式部署,PlAT将管理200左右节点,当前iMC服务器硬件配置为8核CPU、32G内存。需考虑将UAM进行分布式部署,UAM服务器硬件配置为16核CPU:
四、解决方法:
解决iMC侧服务器认证瓶颈,问题解决。在AC作为Portal认证设备,iMC作为Portal服务器和Radius服务器的局点。处理无线用户Portal认证类问题时,AC与iMC强相关,需综合考虑跨产品线的问题处理。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作