最初客户现场两台12518设备做IRF,框一设备故障,更换框一设备加入原IRF组合时,现网带业务的框二设备重启,导致客户业务中断。
我们先来回顾下客户在故障后的操作步骤:
其中框一设备内存故障,客户发现时已经无法启动,框二处于MAD down状态,客户手工将框二业务口undo shutdown后,业务恢复。
我司工程师在备件新的12518到达后,加电启动新的12518,按照老框一的IRF配置配置设备,并主动降低设备新设备IRF优先级,然后重新启动新到12518设备,待新12518设备完全启动后,将IRF线缆插入,此时框二重新启动,客户业务中断。
我们再一起回顾下IRF的角色选举过程:
角色选举会在拓扑变更的情况下产生,比如IRF建立、新设备加入、Master设备离开或者故障、两个IRF合并等。角色选举规则如下:
(1)当前Master优先(IRF系统形成时,没有Master设备,所有加入的设备都认为自己是Master,会跳转到第二条规则继续比较);
(2)成员优先级大的优先;
(3)系统运行时间长的优先(各设备的系统运行时间信息也是通过IRF Hello报文来传递的);
(4)成员编号小的优先。
从第一条开始判断,如果判断的结果是多个最优,则继续判断下一条,直到找到唯一最优的成员设备才停止比较。此最优成员设备即为Master,其它成员设备则均为Slave。
在角色选举完成后,IRF形成,将进入IRF管理与维护阶段。
综上所述:
可以将故障现象梳理分析如下:
1、1框内存异常导致分裂、2框被MAD down
2、1框内存异常重启,重启后加入2框,继承MAD down状态
3、1框内存异常无法启动
4、更换新的1框到现网中,由于1框配置完IRF并完全启动,自认为为主。
5、此时插入堆叠线缆,框2认为自己处于MAD down状态,需要加入IRF,所以框2重启
1、当前主用2框处于 MAD检测Recovery状态,该状态下设备会自动关闭所有非保留的业务接口,正常恢复命令为mad restore,但用户当时是手工将所有接口打开,建议合并IRF前,使用display mad verbose查看设备IRF状态
2、当前主控2框处于MAD检测Recovery状态下,新加入IRF成员设备分两种情况:
1)如果新加入设备在启动之前插入堆叠线缆,在启动过程中检测到当前存在激活IRF域,会自动加入,不进行IRF状态竞选。(不会导致2框重启)
2)如果新加入设备以IRF状态完全启动后插入堆叠线缆,认为自己是master,此时插入IRF线缆,由于2框处于Recovery状态,不会进行角色选举,处于Recovery状态的设备自动重启加入主设备。(会导致2框重启)
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作