某局点S12510-X两台设备做IRF,跨框动态聚合下连几十台思科交换机。
3月25日凌晨出现大量聚合端口up、down。客户反馈,在S12510-X替换思科设备之后,就开始出现该问题。现场平时也有出现问题,但是当时持续时间比较短,客户可能没有感知到。这次25号凌晨左右出现问题,故障时间持续比较久,影响到了客户的业务。
1.从S125-X日志信息中看到的UP/DOWN记录,可以看到几乎所有的板卡都有端口存在UP/DOWN现象,而且间隔时间比较长(有几十秒)。由于涉及到多单板同时出现该问题,并且现场已排除客户人为操作、中间跳线架和链路问题,因此,查看是否和思科设备对接存在问题。
2.查看思科设备的日志信息,发现是检测到channel-misconfig error,触发了err-disable机制导致端口down,由于设备上配置了errdisable recovery interval 30,所以,30s后端口又up了,因此出现了端口频繁up、down的问题现象;
*Dec 1 01:08:19.550: %LINEPROTO-5-UPDOWN: Line protocol on Interface Vlan100, changed state to up
*Dec 1 01:09:03.817: %PM-4-ERR_DISABLE: channel-misconfig error detected on Gi0/48, putting Gi0/48 in err-disable state
*Dec 1 01:09:04.874: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet0/48, changed state to down
*Dec 1 01:09:04.891: %LINEPROTO-5-UPDOWN: Line protocol on Interface Port-channel1, changed state to down
*Dec 1 01:09:04.908: %LINEPROTO-5-UPDOWN: Line protocol on Interface Vlan100, changed state to down
*Dec 1 01:09:05.931: %LINK-3-UPDOWN: Interface Port-channel1, changed state to down
*Dec 1 01:09:05.939: %LINK-3-UPDOWN: Interface GigabitEthernet0/48, changed state to down
*Dec 1 01:09:33.932: %PM-4-ERR_RECOVER: Attempting to recover from channel-misconfig err-disable state on Gi0/48
*Dec 1 01:09:38.336: %LINK-3-UPDOWN: Interface GigabitEthernet0/48, changed state to up
*Dec 1 01:09:44.250: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet0/48, changed state to up
*Dec 1 01:09:45.198: %LINK-3-UPDOWN: Interface Port-channel1, changed state to up.
3.查看思科Err-disable的相关资料以及根据客户的当前组网,这个问题的本质就是:典型组网“思科设备=聚合=华三设备=聚合=思科设备”中经常出现该问题,其中两头的思科设备启动pvst和聚合,华三设备做核心启动纯二层,关闭了stp(此位置实际是否与华三设备没有关系,非思科的其他厂家交换机设备都一样)。
当思科设备发送的stp报文,经过华三设备进行聚合hash时,如果出现报文到达聚合的另外一个端口,思科设备认为报文没有到达原先指定端口,而是从聚合的另外端口接收到,判定聚合出现了问题,因此就触发了err-disable机制,设备会down掉该端口。
1、在思科上面关闭errdisable detect中的misconfig 子项检查,思科最新的版本,支持开启关闭的子项很多,但是部分老版本可能不支持关闭misconfig子项,需使用以下方法解决。
2、思科设备是汇聚或者边缘设备,可以在与上行的12510-x之间的端口,关闭pvst功能,该端口在收到bpdu报文时会丢弃,要求全网所有和12510-x互联的汇聚和接入设备的上行端口都配置。
3、全网所有设备启动pvst或者stp功能,包括12510-x设备,这样就不存在透传stp报文的问题。
若是老版本的思科设备遇到err-disable问题时,推荐使用方法2解决,理论上没有必要把汇聚和核心放到一个大二层中一起计算pvst。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作