猜想:
1.slot2电源掉电
logbuffer信息如下:
%@7764%Jul 22 03:35:55:403 2019 设备名称 DRVPLAT/4/DrvDebug: The port Forty1/0/51 can't receive irf pkt and has been changed to inactive status, please check.
%@7765%Jul 22 03:35:55:403 2019 设备名称 DRVMNT/3/ERRORCODE: ErrCode = 1866268676, IRF: STM Hello Check Fail.
%@7766%Jul 22 03:35:55:403 2019 设备名称 DRVPLAT/4/DrvDebug: The port Forty1/0/52 can't receive irf pkt, please check.
%@7767%Jul 22 03:35:55:825 2019 设备名称 DRVPLAT/4/DrvDebug: The port Forty1/0/51 has been changed to active status.
%@7768%Jul 22 03:36:02:709 2019 设备名称 STM/2/STM_LINK_STATUS_TIMEOUT: IRF port 1 is down because heartbeat timed out.
%@7769%Jul 22 03:36:02:884 2019 设备名称 STM/3/STM_LINK_STATUS_DOWN: IRF port 1 is down.
%@7770%Jul 22 03:36:02:926 2019 设备名称 DEV/3/BOARD_REMOVED: Board was removed from slot 2, type is S5820V2-52QF.
%@7771%Jul 22 03:36:02:935 2019 设备名称 LAGG/6/LAGG_INACTIVE_PHYSTATE: Member port FGE2/0/49 of aggregation group BAGG1 changed to the inactive state, because the physical state of the port is down.
%@7772%Jul 22 03:36:02:936 2019 设备名称 LAGG/6/LAGG_INACTIVE_PHYSTATE: Member port FGE2/0/50 of aggregation group BAGG1 changed to the inactive state, because the physical state of the port is down.
%@7773%Jul 22 03:38:30:115 2019 设备名称 CFGMAN/5/CFGMAN_CFGCHANGED: -EventIndex=5-CommandSource=snmp-COnfigSource=startup-COnfigDestination=running; Configuration is changed.
(0)
最佳答案
心跳超时,链路down或者对端设备down
(0)
当IRF正常运行时,只有主设备上配置的MAD IP地址生效,从设备上配置的MAD IP地址不生效,BFD会话处于down状态;(使用display bfd session命令查看BFD会话的状态。如果Session State显示为Up,则表示激活状态;如果显示为Down,则表示处于down状态) · 当IRF分裂形成多个IRF时,不同IRF中主设备上配置的MAD IP地址均会生效,BFD会话被激活,此时会检测到多Active冲突。
看日志是1/0/51 和 1/0/52口同时can't receive irf pkt,所以不可能是链路down,很大可能就是设备掉电了
1.参考诊断日志如何准确定位呢? 2.如果是堆叠线问题导致的堆叠分裂,mad把业务口自动shutdown,如果是bfd方式,那检测口的状态此时还是UP的吗? 是不是还有一种现象,带外管理时通时不通,因为此时管理口地址冲突
当IRF正常运行时,只有主设备上配置的MAD IP地址生效,从设备上配置的MAD IP地址不生效,BFD会话处于down状态;(使用display bfd session命令查看BFD会话的状态。如果Session State显示为Up,则表示激活状态;如果显示为Down,则表示处于down状态) · 当IRF分裂形成多个IRF时,不同IRF中主设备上配置的MAD IP地址均会生效,BFD会话被激活,此时会检测到多Active冲突。
堆叠分裂通常两个原因:1、堆叠端口Down;2、心跳超时。这两个原因导致的分裂现象是不同的。
如果是端口down,设备会立即感知,并马上分裂,同时上报日志;
如果是心跳超时,堆叠成员通过hello报文来互相检测对方状态,hello报文每200ms发一个,50个hello报文没有收到后,认为对方状态异常,进而引起堆叠分裂,删除此设备并更新拓扑。所以心跳超时导致的分裂大概需要200ms*50=10秒。
从楼主提供的日志信息来看, 03:35:55 堆叠端口F1/0/51、F1/0/52无法收到心跳,03:36:02,设备上报堆叠端口 IRF port 1 is down。大概7秒钟左右。
很明显,IRF分裂的原因就是心跳丢失导致的。IRF心跳丢失原因很多,通常是堆叠链路问题,比如:1、堆叠线缆或接口模块问题;2、流量突发导致堆叠链路拥塞;……不过从上述日志来看,对方设备应该没有掉电,这个原因是可以排除的。
从当前提供的日志来看还不足以判断确切的原因,但问题排除的思路是明确的:链路或模块是否故障,链路是否存在拥塞(看接口流量统计,并结合流量模型去判断)。如果经过排查后不是这个原因,那么需要借助更多的诊断信息来判断是否是硬件或者IRF软件问题了。
(0)
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明