现场两台S7506E-X做了堆叠,反馈堆叠的二号机板卡重启了,堆叠分裂,随后又恢复,要求分析原因
现场S7506E-X的版本:Version 7.1.070, ESS 7634P03
查看诊断信息,发现二号机框有 IPIPE blocked记录,并且控制通道执行了热重启
DRVPLAT/4/DrvDebug: -Chassis=2-Slot=0;
IPIPE has blocked and cannot be repaired. The device will restart on slot 18!
STM/3/STM_PHY_DOWN: Physical interface Ten1/0/0/47 of IRF port 1 went down.
=== display hardware internal diag hardware-diag-action information chassis 2 slot 6 ===
--------------------Executed action records:--------------------
Chassis 2, Slot 0:
1. xxxx-xx-xx, xx:xx:xx hot-rebooted by CONTROLPATH.
reason:CTRL_PATH. chip 255: the action executed 1 times.
设备运行过程中会概率性出现EPIPE BLOCK(出方向表项block,可以理解为parity error,芯片软失效,重启可修复),芯片检查到EPIPE BLOCK 之后会上送中断尝试恢复,但老版本恢复流程有缺陷,会概率出现端口堵死,一旦发生堵死就无法恢复,最终通过控制通道检测发现后触发单板重启恢复,所以就发生了现场这种情况。
端口出现堵死,到控制通道检测(15S超时)发现触发单板重启这段时间会有业务影响,建议升级版本到目前最新的R7634P10分支+H04补丁; 另外建议堆叠链路做跨板备份,不要部署在同一块单板上,避免一块堆叠板重启导致堆叠分裂。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作