组网:SR8806做DHCP服务器,和中继网络层可达 ,中继为汇聚, 汇聚为终端网关
设备:SR8806 Release 7951P11
运行中异常终端获取不到IP地址,首先大部分连不上,之后清空dhcp分配的地址,所有人都获取不到ip。重启设备后,内存恢复正常,终端能获取到地址,业务正常。之后让现场打上H03补丁,故障复现,后续又通过重启设备后,内存恢复正常,然后继续内存增长。
%@258716%Oct 15 11:26:50:714 2021 H3C QOS/4/QOS_MEMORY_WARNING: -Slot=2; The system does not have enough memory.
%@258718%Oct 15 11:26:52:065 2021 H3C DIAG/1/MEM_EXCEED_THRESHOLD: -Slot=2; Memory minor threshold has been exceeded.
===============display memory on slot 2 cpu 0===============
Memory statistics are measured in KB:
Slot 2:
Total Used Free Shared Buffers Cached FreeRatio
Mem: 8176220 7707632 468588 0 0 93300 5.7%
-/+ Buffers/Cache: 7614332 561888
Swap: 0 0 0
1.终端获取不到地址,free掉地址池所有地址,重新获取,所有终端依旧获取不到地址。debugging dhcp server无回显,怀疑dhcp进程异常挂死。地址池资源其实还没用完。
===============display dhcp server statistics===============
Pool number: 124
Pool utilization: 1.74%
2. 设备开启了开启HTTPS重定。故障收集诊断,display memory process 看dynamic的分配情况和正常时收集诊断的dynamic 值比对。发现故障时httpredrd进程接近2倍占用。怀疑内存高是已知问题导致。建议打上 H03补丁去除已知问题。
正常时:
472 60 7104 12 4904 httpredrd
474 60 7112 12 4904 httpredrd
故障时:
461 60 9804 12 7616 httpredrd
462 60 8884 12 6696 httpredrd
3.故障时的用户会话比正常时的虽然多,但也没有超规格。怀疑是因为我们的认证接口有大量突发的认证报文进来导致的,大量认证报文同时请求地址导致DHCP进程挂死。但是现场确认,正常时流量也是很大。
4. 通过收集dis system internal kernel memory pool slot 2发现是设备的qinq队列被报文占满,导致内存增长。
1. 故障原因:现场IPOE上线聚合子接口配置了vlan-termination broadcast enable,该配置会使能接口发出的广播和组播报文在接口配置的所有vlan终结的vlan中发送,从而设备的qinq队列被报文占满,导致内存增长。
2. 解决方案:在窗口操作期将该配置删除,并且参照校园网ipoe+web典配修改配置,修改完成后重启接口板恢复内存即可。
3. 此类问题信息收集:
dis system internal kernel memory pool slot xx
dis system internal kernel memory pool name kmalloc-32 slot xx
dis system internal kernel memory pool name kmalloc-32 tag f7f0000 slot xx
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作