• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

7506E单引擎三个业务板卡其中两块板卡莫名down掉

2025-06-08提问
  • 0关注
  • 0收藏,311浏览
粉丝:0人 关注:0人

问题描述:

故障现象:两台7506E做了堆叠,稳定运行十年,无任何配置更改,物理链路更改等情况,突然堆叠分裂,主机三块电口业务板卡全down,重启后业务能恢复,但堆叠起不来。

系统日志:

%Apr 5 18:53:58:140 2017 7506E IC/6/SYS_RESTART: -Chassis=1-Slot=0; System restarted --
H3C Comware Software.
%Jun 8 11:55:26:553 2025 7506E HA/5/HA_SLAVE_TO_MASTER: Slave board in chassis 2 slot 0 changes to master.
%Jun 8 11:55:26:808 2025 7506E BFD/5/BFD_CHANGE_FSM: Sess[172.28.100.2/172.28.100.1,129/129,Vlan999,Ctrl], Sta: DOWN->UP, Diag: 0
%Jun 8 11:55:26:810 2025 7506E MAD/1/MAD_COLLISION_DETECTED: Multi-active devices detected, please fix it.
%Jun 8 11:55:26:823 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/1 link status is DOWN.
%Jun 8 11:55:26:870 2025 7506E LAGG/5/LAGG_INACTIVE_PHYSTATE: Member port GigabitEthernet2/2/0/23 of aggregation group BAGG4 becomes INACTIVE because the port's physical state (down) is improper for being attached.
%Jun 8 11:55:26:910 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/2/0/23 link status is DOWN.
%Jun 8 11:55:26:958 2025 7506E DEVM/2/BOARD_STATE_FAULT: Board state changes to FAULT on Chassis 1 Slot 2, type is LSQ1GP24SC.
%Jun 8 11:55:26:979 2025 7506E DEVM/2/BOARD_STATE_FAULT: Board state changes to FAULT on Chassis 1 Slot 3, type is LSQ1GV48SA.
%Jun 8 11:55:27:005 2025 7506E DEVM/2/BOARD_STATE_FAULT: Board state changes to FAULT on Chassis 1 Slot 4, type is LSQ1GV48SC.
%Jun 8 11:55:27:039 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/3/0/3 link status is DOWN.
%Jun 8 11:55:27:040 2025 7506E LAGG/5/LAGG_INACTIVE_PHYSTATE: Member port GigabitEthernet2/3/0/3 of aggregation group BAGG51 becomes INACTIVE because the port's physical state (down) is improper for being attached.
%Jun 8 11:55:27:214 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/2 link status is DOWN.
%Jun 8 11:55:27:256 2025 7506E LAGG/5/LAGG_INACTIVE_PHYSTATE: Member port GigabitEthernet2/3/0/4 of aggregation group BAGG52 becomes INACTIVE because the port's physical state (down) is improper for being attached.
%Jun 8 11:55:27:298 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/3/0/4 link status is DOWN.
%Jun 8 11:55:27:427 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/3/0/13 link status is DOWN.
%Jun 8 11:55:27:472 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/3/0/14 link status is DOWN.
%Jun 8 11:55:27:744 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/3 link status is DOWN.
%Jun 8 11:55:28:158 2025 7506E IFNET/3/LINK_UPDOWN: Bridge-Aggregation51 link status is DOWN.
%Jun 8 11:55:28:355 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/4 link status is DOWN.
%Jun 8 11:55:28:887 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/5 link status is DOWN.
%Jun 8 11:55:28:951 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/6 link status is DOWN.
#Jun 8 14:20:53:787 2025 7506E IFNET/4/INTERFACE UPDOWN:
Trap 1.3.6.1.6.3.1.1.5.3<linkDown>: Interface 177209350 is Down, ifAdminStatus is 1, ifOperStatus is 2
%Jun 8 14:20:53:819 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/3/0/7 link status is DOWN.
%Jun 8 11:55:29:494 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/7 link status is DOWN.
%Jun 8 11:55:29:947 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/8 link status is DOWN.
%Jun 8 11:55:30:444 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/10 link status is DOWN.
%Jun 8 11:55:30:985 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/13 link status is DOWN.
%Jun 8 11:55:31:766 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/14 link status is DOWN.
%Jun 8 11:55:31:818 2025 7506E IFNET/3/LINK_UPDOWN: Bridge-Aggregation4 link status is DOWN.
%Jun 8 11:55:31:951 2025 7506E LAGG/5/LAGG_INACTIVE_CONFIGURATION: Member port GigabitEthernet2/4/0/31 of aggregation group BAGG50 becomes INACTIVE because the port's configuration is improper for being attached.
%Jun 8 11:55:32:075 2025 7506E IFNET/3/LINK_UPDOWN: GigabitEthernet2/4/0/31 link status is DOWN.
%Jun 8 11:55:32:362 2025 7506E IFNET/3/LINK_UPDOWN: Bridge-Aggregation50 link status is DOWN.
%Jun 8 11:55:32:362 2025 7506E IFNET/3/LINK_UPDOWN: Bridge-Aggregation52 link status is DOWN.
%Jun 8 11:55:32:414 2025 7506E IFNET/3/LINK_UPDOWN: Vlan-interface2 link status is DOWN.
%Jun 8 11:55:32:414 2025 7506E IFNET/5/LINEPROTO_UPDOWN: Line protocol on the interface Vlan-interface2 is DOWN.
%Jun 8 11:55:32:414 2025 7506E IFNET/3/LINK_UPDOWN: Vlan-interface10 link status is DOWN.
%Jun 8 11:55:32:415 2025 7506E IFNET/5/LINEPROTO_UPDOWN: Line protocol on the interface Vlan-interface10 is DOWN.
%Jun 8 11:55:32:415 2025 7506E IFNET/3/LINK_UPDOWN: Vlan-interface11 link status is DOWN.
%Jun 8 11:55:32:415 2025 7506E IFNET/5/LINEPROTO_UPDOWN: Line protocol on the interface Vlan-interface11 is DOWN.
%Jun 8 11:55:32:415 2025 7506E IFNET/3/LINK_UPDOWN: Vlan-interface12 link status is DOWN.
%Jun 8 11:55:32:416 2025 7506E IFNET/5/LINEPROTO_UPDOWN: Line protocol on the interface Vlan-interface12 is DOWN.
%Jun 8 11:55:32:416 2025 7506E IFNET/3/LINK_UPDOWN: Vlan-interface27 link status is DOWN.
%Jun 8 11:55:32:416 2025 7506E IFNET/5/L

组网及组网描述:

双7506E堆叠,目前通过dis dev 查看板卡状态信息正常

<7506E>dis dev verbose 

Chassis   Slot Type             State    Subslot  Soft Ver          Patch Ver

2         0    LSQ1SRP2XB       Master   0        S7500E-6710P03    None

2         1    NONE             Absent   0        NONE              None

2         2    LSQ1GP24SC       Normal   0        S7500E-6710P03    None

2         3    LSQ1GV48SA       Normal   0        S7500E-6710P03    None

2         4    LSQ1GV48SC       Normal   0        S7500E-6710P03    None

2         5    NONE             Absent   0        NONE              None

2         6    NONE             Absent   0        NONE              None

2         7    NONE             Absent   0        NONE              None

2         8    SRP2XBSLAVE      Normal   0        S7500E-6710P03    None

2         9    NONE             Absent   0        NONE              None

最佳答案

看下收发光正常不?看下deepseek回复

关键日志分析

  1. 堆叠分裂与主备倒换

    • %HA/5/HA_SLAVE_TO_MASTER: Slave board in chassis 2 slot 0 changes to master
      从设备(Chassis 2)升级为主控,表明原主设备(Chassis 1)失效。

    • %MAD/1/MAD_COLLISION_DETECTED: Multi-active devices detected
      MAD检测到双主冲突,确认堆叠分裂。

  2. 主设备(Chassis 1)硬件故障

    • %DEVM/2/BOARD_STATE_FAULT: Board state changes to FAULT on Chassis 1 Slot 2/3/4
      Slot 2/3/4的三块业务板卡同时报告故障(LSQ1GP24SC/LSQ1GV48SA等)。
      关键点:多槽位板卡瞬间集体故障,极可能是 主控板(Slot 0)或背板供电/通信故障 引发连锁反应。

  3. 链路大规模宕机

    • 所有 GigabitEthernet2/x/x/x 端口(属于Chassis 2)的物理链路DOWN,因堆叠分裂后逻辑端口失效。

    • 聚合接口(BAGG4/BAGG51等)因物理端口DOWN变为INACTIVE。

  4. BFD与MAD联动异常

    • BFD会话在分裂后短暂恢复UP(BFD_CHANGE_FSM: DOWN->UP),但MAD仍检测到冲突,说明堆叠逻辑已破坏。


故障根本原因

  • 主控板(Chassis 1 Slot 0)硬件老化:运行十年后,主控板电容、芯片等元件可能失效,导致突发重启(%SYS_RESTART)并触发堆叠分裂。

  • 背板故障:若主控板正常,但背板供电或通信模块损坏,会导致多槽位板卡同时异常(Slot 2/3/4 FAULT)。

  • 堆叠链路单点故障:虽无配置变更,但堆叠线缆/光模块老化可能导致分裂,但此情况通常不会引发多板卡故障。


解决步骤

1. 紧急恢复业务

  • 主设备(Chassis 1)下电检修

    bash
    复制
    下载
    system-view irf member 1 priority 1 # 降低优先级防止误切主 quit reboot slot 1 # 强制重启Chassis 1
  • 临时运行业务
    若重启后堆叠仍无法恢复,暂时以 单机模式 运行Chassis 2(当前主设备),确保业务不中断。

2. 硬件诊断

  • 检查主控板状态

    bash
    复制
    下载
    display device # 查看Chassis 1 Slot 0状态 display environment # 检查温度/电源
    • 若状态为FAULTAbsent更换主控板

  • 测试背板与业务板卡

    • 将Chassis 1的业务板卡(Slot 2/3/4)插入Chassis 2的空闲槽位,验证是否正常。

    • 若仍报错,更换故障板卡;若正常,则Chassis 1背板故障。

3. 堆叠重建

  • 重置堆叠配置(避免配置冲突):

    bash
    复制
    下载
    system-view irf domain 0 # 进入IRF域 irf auto-update enable # 启用自动配置同步 undo irf-port 1/1 # 删除原堆叠口 quit
  • 重新配置堆叠

    bash
    复制
    下载
    irf member 1 priority 32 # 设置Chassis 1为主 irf member 2 priority 1 # Chassis 2为备 interface range Ten-GigabitEthernet 1/0/xx to 2/0/xx # 堆叠物理端口 irf-port 1/1 port group interface Ten-GigabitEthernet1/0/xx port group interface Ten-GigabitEthernet2/0/xx
  • 激活堆叠

    bash
    复制
    下载
    irf-port-configuration active save reboot

4. 预防措施

  • 更换老化硬件:优先更换主控板、堆叠线缆及使用超10年的板卡。

  • 配置MAD多主检测:确保使用BFD或LACP检测,快速隔离故障。

  • 堆叠链路冗余:至少配置2条堆叠链路,分属不同板卡。

  • 定期维护

    • 清洁设备风扇/滤网,避免过热。

    • 每年进行堆叠切换测试。


结论

核心故障点是Chassis 1的主控板(Slot 0)或背板硬件老化。建议立即更换主控板并重建堆叠,同时规划硬件迭代(设备已运行10年,进入故障高发期)。若背板损坏,需整机更换。


暂无评论

0 个回答

该问题暂时没有网友解答

编辑答案

你正在编辑答案

如果你要对问题或其他回答进行点评或询问,请使用评论功能。

分享扩散:

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作

举报

×

侵犯我的权益 >
对根叔社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明