• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

5820V2 堆叠分裂,查看诊断日志,如何判断是什么原因导致堆叠分裂的?

2019-11-07提问
  • 1关注
  • 1收藏,2518浏览
粉丝:2人 关注:3人

问题描述:

猜想:

1.slot2电源掉电


logbuffer信息如下:

%@7764%Jul 22 03:35:55:403 2019 设备名称 DRVPLAT/4/DrvDebug: The port Forty1/0/51 can't receive irf pkt and has been changed to inactive status, please check. 

%@7765%Jul 22 03:35:55:403 2019 设备名称 DRVMNT/3/ERRORCODE: ErrCode = 1866268676, IRF: STM Hello Check Fail. 

%@7766%Jul 22 03:35:55:403 2019 设备名称 DRVPLAT/4/DrvDebug: The port Forty1/0/52 can't receive irf pkt, please check. 

%@7767%Jul 22 03:35:55:825 2019 设备名称 DRVPLAT/4/DrvDebug: The port Forty1/0/51 has been changed to active status.

 %@7768%Jul 22 03:36:02:709 2019 设备名称 STM/2/STM_LINK_STATUS_TIMEOUT: IRF port 1 is down because heartbeat timed out. 

%@7769%Jul 22 03:36:02:884 2019 设备名称 STM/3/STM_LINK_STATUS_DOWN: IRF port 1 is down. 

%@7770%Jul 22 03:36:02:926 2019 设备名称 DEV/3/BOARD_REMOVED: Board was removed from slot 2, type is S5820V2-52QF. 

%@7771%Jul 22 03:36:02:935 2019 设备名称 LAGG/6/LAGG_INACTIVE_PHYSTATE: Member port FGE2/0/49 of aggregation group BAGG1 changed to the inactive state, because the physical state of the port is down. 

%@7772%Jul 22 03:36:02:936 2019 设备名称 LAGG/6/LAGG_INACTIVE_PHYSTATE: Member port FGE2/0/50 of aggregation group BAGG1 changed to the inactive state, because the physical state of the port is down. 

%@7773%Jul 22 03:38:30:115 2019 设备名称 CFGMAN/5/CFGMAN_CFGCHANGED: -EventIndex=5-CommandSource=snmp-COnfigSource=startup-COnfigDestination=running; Configuration is changed. 

最佳答案

粉丝:50人 关注:5人

重启的可能性比较多,仅从日志信息无法究其原因,建议收集对应诊断信息反馈400,其中有对应重启的堆栈信息,研发可基于对应信息进行分析重启原因。

3 个回答
ttzz 九段
粉丝:10人 关注:0人

心跳超时,链路down或者对端设备down

看日志是1/0/51 和 1/0/52口同时can't receive irf pkt,所以不可能是链路down,很大可能就是设备掉电了

南山樵子 发表时间:2019-11-07
回复南山樵子:

是的,只是列举可能性而已

ttzz 发表时间:2019-11-07

1.参考诊断日志如何准确定位呢? 2.如果是堆叠线问题导致的堆叠分裂,mad把业务口自动shutdown,如果是bfd方式,那检测口的状态此时还是UP的吗? 是不是还有一种现象,带外管理时通时不通,因为此时管理口地址冲突

南山樵子 发表时间:2019-11-07

当IRF正常运行时,只有主设备上配置的MAD IP地址生效,从设备上配置的MAD IP地址不生效,BFD会话处于down状态;(使用display bfd session命令查看BFD会话的状态。如果Session State显示为Up,则表示激活状态;如果显示为Down,则表示处于down状态) · 当IRF分裂形成多个IRF时,不同IRF中主设备上配置的MAD IP地址均会生效,BFD会话被激活,此时会检测到多Active冲突。

ttzz 发表时间:2019-11-07
粉丝:0人 关注:0人

堆叠分裂通常两个原因:1、堆叠端口Down;2、心跳超时。这两个原因导致的分裂现象是不同的。

如果是端口down,设备会立即感知,并马上分裂,同时上报日志;

如果是心跳超时,堆叠成员通过hello报文来互相检测对方状态,hello报文每200ms发一个,50个hello报文没有收到后,认为对方状态异常,进而引起堆叠分裂,删除此设备并更新拓扑。所以心跳超时导致的分裂大概需要200ms*50=10秒。

从楼主提供的日志信息来看, 03:35:55  堆叠端口F1/0/51、F1/0/52无法收到心跳,03:36:02,设备上报堆叠端口 IRF port 1 is down。大概7秒钟左右。

很明显,IRF分裂的原因就是心跳丢失导致的。IRF心跳丢失原因很多,通常是堆叠链路问题,比如:1、堆叠线缆或接口模块问题;2、流量突发导致堆叠链路拥塞;……不过从上述日志来看,对方设备应该没有掉电,这个原因是可以排除的。

从当前提供的日志来看还不足以判断确切的原因,但问题排除的思路是明确的:链路或模块是否故障,链路是否存在拥塞(看接口流量统计,并结合流量模型去判断)。如果经过排查后不是这个原因,那么需要借助更多的诊断信息来判断是否是硬件或者IRF软件问题了。

z6Kl9 九段
粉丝:66人 关注:2人

有可能是看门狗引起的,建议升级版本,打相关补丁解决

编辑答案

你正在编辑答案

如果你要对问题或其他回答进行点评或询问,请使用评论功能。

分享扩散:

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作

举报

×

侵犯我的权益 >
对根叔社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明