现场两台S10506X堆叠作为汇聚设备,上联防火墙,下联680054-qf、5560X等接入交换机。
本次涉及设备的型号以及版本:S10506X Version 7.1.070, ESS 7593P02
现场反馈重启1框后2框上的接口down,通过进入接口输入undo shutdown的命令后接口恢复up,但是等1框重启完成后2框的接口又变成down,再次执行undo shutdown的命令后恢复。
%@1749%Sep 2 14:15:39:048 2020 WG06202NMDE10506DS1 IFNET/3/PHY_UPDOWN: Physical state on the interface Ten-GigabitEthernet2/2/0/1 changed to down.
%@1750%Sep 2 14:15:39:049 2020 WG06202NMDE10506DS1 IFNET/5/LINK_UPDOWN: Line protocol state on the interface Ten-GigabitEthernet2/2/0/1 changed to down.
%@2062%Sep 2 14:23:35:462 2020 WG06202NMDE10506DS1 SHELL/6/SHELL_CMD: -Line=aux2/0-IPAddr=**-User=**; Command is undo shutdown
%@2063%Sep 2 14:23:35:644 2020 WG06202NMDE10506DS1 IFNET/3/PHY_UPDOWN: Physical state on the interface Ten-GigabitEthernet2/2/0/1 changed to up.
从现场的现象看可能是IRF冲突检查导致了设备接口状态dwon,但是由于现场有业务在运行,已经通过undo shutdown的方式恢复接口状态了,无法查看当时接口down的原因。于是检查现场配置发现,现场使用1/2/0/48和2/2/0/48 两个端口用来BFD MAD检测, 但是聚合口37和46也TRUNK4094,而且vlan4094下一起配置了bfd enable和vpn 。
1、额外的两个聚合端口也放通了bfd检测vlan,那么可能导致IRF检测报文从一个聚合组出去又从另外一个聚合组回来了,设备检测到双活被bfd mad down;
2、另外一种可能是下游设备上也配置bfd mad功能,且配置的mad ip冲突了,导致上游设备收到下游设备发过来的bfd交互报文,误检测导致设备双活被down;现场可以检查一下是否有这种情况,排掉mad ip 冲突的问题;
3、bfd vlan下不要配置vpn,bfd mad 的接口必须是专用接口,不能跑其他业务和流量,如果是vlan虚接口,接口下必须只能放通一个专用vlan。
interface Vlan-interface4094
description BFD
ip binding vpn-instance BFD
mad bfd enable
mad ip address 1.1.1.1 255.255.255.252 member 1
mad ip address 1.1.1.2 255.255.255.252 member 2
#
interface Bridge-Aggregation37
description ###WG06202NMDE6800AS7_XX-172.24.123.17###
port link-type trunk
undo port trunk permit vlan 1
port trunk permit vlan 8 1310 to 1311 3012 3035 3040 to 3043 3047 to 3051 3055 3059 3072 3082 to 3085
port trunk permit vlan 3087 3120 3123 4094
link-aggregation mode dynamic
#
interface Bridge-Aggregation46
description ###WG06202NMDE5560AS8_XX-172.24.123.26###
port link-type trunk
undo port trunk permit vlan 1
port trunk permit vlan 8 1310 to 1311 3012 3035 3040 to 3043 3047 to 3051 3055 3059 3072 3074 to 3077
port trunk permit vlan 3079 to 3080 3082 to 3085 3087 3120 3123 4094
link-aggregation mode dynamic
现场更改配置后测试发现重启1框后2框接口还是会down,对日志过程进行分析发现,之前IRF冲突检查通过undo shutdown接口是恢复的,没有执行mad restore命令,再次重启主备框倒换后端口down,就是因为整个堆叠系统还是处在recovery状态,新加入的单板或者框,会被同步这种recover状态,导致新加入的单板的接口被mad down。现场是先重启了2框被同步了mad recovery,客户在没有感知到2框接口没有up,就开始重启了1框。重启1框后,由于2框接口已经是down,1框接口也down,因此导致聚合接口和vlan虚接口down,此时客户才感知到2框接口是down的。
1、将设备上误配置放通vlan 4094的配置去掉;
2、bfd enable和vpn不要一起配置;
3、请根据提示重启处于Recovery状态的IRF,如果错误的重启了正常工作状态的IRF,会导致合并后的IRF仍然处于Recovery状态,所有成员设备的业务接口都会被关闭。此时,需要执行mad restore命令让整个IRF系统恢复。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作