一组堆叠的6900和S125X互联
发现125x上频繁刷新大量的lldp邻居超时日志,对端是6900。
%Mar 10 10:44:27:436 2021 HBLF-YHEQ-HXQ-SW01-H3C12508 LLDP/5/LLDP_NEIGHBOR_AGE_OUT: -Chassis=1-Slot=3; Nearest bridge agent neighbor aged out on port FortyGigE1/3/0/34 (IfIndex 757), neighbor's chassis ID is 3897-d6b9-b45d, port ID is FortyGigE2/0/49.
%Mar 10 10:44:41:476 2021 HBLF-YHEQ-HXQ-SW01-H3C12508 LLDP/5/LLDP_NEIGHBOR_AGE_OUT: -Chassis=1-Slot=4; Nearest bridge agent neighbor aged out on port FortyGigE1/4/0/4 (IfIndex 968), neighbor's chassis ID is 3897-d6b9-9cf8, port ID is FortyGigE2/0/49.
%Mar 10 10:44:41:476 2021 HBLF-YHEQ-HXQ-SW01-H3C12508 LLDP/5/LLDP_NEIGHBOR_AGE_OUT: -Chassis=1-Slot=4; Nearest bridge agent neighbor aged out on port FortyGigE1/4/0/5 (IfIndex 969), neighbor's chassis ID is 3897-d6b9-9cf8, port ID is FortyGigE2/0/50.
%Mar 10 10:44:41:477 2021 HBLF-YHEQ-HXQ-SW01-H3C12508 LLDP/5/LLDP_NEIGHBOR_AGE_OUT: -Chassis=1-Slot=4; Nearest bridge agent neighbor aged out on port FortyGigE1/4/0/6 (IfIndex 970), neighbor's chassis ID is 3897-d6b9-9cf8, port ID is FortyGigE2/0/51.
在两边设备分别debug lldp信息,发现125侧有发无收,6900上面只有收到对端的lldp报文,但是没有发送,此外6900上1框堆叠口也报lldp超时,debug显示2框只收不发。怀疑是2框的lldp进程出现问题。后续确认为如下已知问题导致
修改前:不保护SNMP进程中标识设备IRF主备类型的内存数据,主备类型的内存数据变化后,容易引起通信反复失败重传,使SNMP进程CPU占用率升高。
修改后:监控SNMP进程中设备IRF主备类型的内存数据,监控到内存数据发生变化时,自动使用正确的IRF主备类型。
这个问题主要发生在S6300系列,S6800系列,S6900系列交换机的在R2422,R2422P01版本上,主要表现形式为lldpd snmpd syslogd 这种进程异常高,命令行卡顿,频繁刷新lldp超时的日志,无法收集诊断信息或收集诊断信息比较卡等。如果满足前面的条件,可以直接看trace.log里面是否报如下日志:
Mar 10 14:18:29:428 2021 HBLF-YHEQ-HXQ-SW08-H3C6900 LIPC/7/LIPC_LOG: -Slot=2; [ha/snmpd] [MDC1] SG snmp-, SU 16, Servie snmp : HA dispatch proc, invalid service type
*Mar 10 14:18:29:430 2021 HBLF-YHEQ-HXQ-SW08-H3C6900 LIPC/7/LIPC_LOG: -Slot=2; [ha/snmpd] [MDC1] SG snmp-, SU 16, Servie snmp : HA dispatch proc, invalid service type
*Mar 10 14:18:29:432 2021 HBLF-YHEQ-HXQ-SW08-H3C6900 LIPC/7/LIPC_LOG: -Slot=2; [ha/snmpd] [MDC1] SG snmp-, SU 16, Servie snmp : HA dispatch proc, invalid service type
*Mar 10 14:18:29:449 2021 HBLF-YHEQ-HXQ-SW08-H3C6900 LIPC/7/LIPC_LOG: -Slot=2; [ha/snmpd] [MDC1] SG snmp-, SU 16, Servie snmp : HA dispatch proc, invalid service type
*Mar 10 14:18:29:449 2021 HBLF-YHEQ-HXQ-SW08-H3C6900 LIPC/7/LIPC_LOG: -Slot=2; [ha/snmpd] [MDC1] SG snmp-, SU 16, Servie snmp : HA dispatch proc, invalid service type
*Mar 10 14:18:29:450 2021 HBLF-YHEQ-HXQ-SW08-H3C6900 LIPC/7/LIPC_LOG: -Slot=2; [ha/snmpd] [MDC1] SG snmp-, SU 16, Servie snmp : HA dispatch proc, invalid service type
(SNMP的 HA 同步时,有一个标识主备状态的参数值错误。导致SNMP进程同步HA状态时,LIPC接收信息流程走入错误分支,导致接收失败,2框 上反复接收失败,导致 slot1继续发送同步然后slot 2再接收失败,产生了CPU占用高的情况。)
重启相应设备,然后打R2422P01H09或者直接升级到R2432P05
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作