• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

交换机自己重启,IMC报单板故障。

13小时前提问
  • 1关注
  • 0收藏,59浏览
粉丝:0人 关注:0人

问题描述:

一台远行了6年的交换机自己重启,用标杆巡检说软件有个死循环。经过ai分析日志,在8866行发现了死循环记录:```==============display kernel deadloop20 verbose slot1 ===============--------------------- Deadloop record1 ---------------------Description : BUG: soft lockup - CPU#1 stuck for21s! [evHndl_5:78]Recorded at :2026-07-0220:23:52.834643Occurred at :2026-07-0220:23:52.834643Instruction address :0x00000000Thread : evHndl_5 (TID:78)Context : irq contextSlot :1Cpu :0VCPU ID :1```这是一个内核死循环记录,发生在2026-07-0220:23:52.834643,线程是evHndl_5 (TID:78),上下文是irq context。 想知道是软件问题还是硬件问题?

组网及组网描述:

二层部署,做了irf,是irf集群的从机。

2 个回答
12342234 知了小白
粉丝:0人 关注:0人

display version看重启原因 异常重启的话 估计要问下华三工程师

是异常重启(DeadLoopReboot),设备过保了,华三工程师要求在论坛里问。

zhiliao_7UYUwb 发表时间:13小时前 更多>>

是异常重启(DeadLoopReboot),设备过保了,华三工程师要求在论坛里问。

zhiliao_7UYUwb 发表时间:13小时前
粉丝:19人 关注:2人

本次交换机内核软死锁 soft lockup 属于典型软件层面故障,IMC 上报单板故障、整机自动重启是死循环引发的连锁现象,硬件无直接证据,但 6 年老设备存在硬件老化诱发软件异常的次要可能性,分两层拆解。

1. 核心判定:BUG: soft lockup 100% 是操作系统 / 设备固件(VOS 内核)软件死循环

日志关键字段解读:
plaintext
BUG: soft lockup - CPU#1 stuck for21s! [evHndl_5:78] Context : irq context Thread : evHndl_5 事件处理线程,中断上下文卡死
  1. soft lockup(软死锁)定义
    设备内核调度器检测到单个 CPU 核心连续 21 秒无法释放、不执行调度,判定内核卡死,属于操作系统内核逻辑缺陷,不是 CPU、内存、交换芯片硬件损坏。
    • 硬件故障表现:硬件报错(CRC、内存 ECC、芯片异常复位、电压 / 温度告警、总线报错);
    • 软死锁表现:纯内核调度卡死、线程死循环、中断抢占异常,完全是固件代码逻辑问题。
  2. 线程场景佐证:evHndl_5 通用事件处理线程 + irq 中断上下文卡死
    IRQ 中断上下文存在严格执行限制:不能休眠、不能长时间阻塞。
    固件代码存在逻辑缺陷:某个中断处理函数进入无限循环、锁抢占死锁,CPU 持续空转,内核看门狗超时后整机强制重启。
  3. IMC 上报 “单板故障” 的原因(误报)
    IRF 从机 Slot1 主控 CPU 卡死无响应,板卡心跳中断,IMC / 设备本地诊断模块识别为主控单板失联,上报单板故障告警,属于状态异常衍生告警,不是硬件物理损坏

2. 区分:纯软件问题 / 硬件老化诱发软件崩溃

场景 A:纯软件问题(大概率)

诱因:
  1. 交换机固件版本老旧,存在官方已知内核死循环 BUG(evHndl 事件线程、IRQ 中断处理漏洞);设备已运行 6 年,固件长期未升级,BUG 未修复;
  2. IRF 集群同步压力、二层泛洪、大量终端 / 日志 / ACL / 镜像等业务持续冲击中断线程,触发代码死循环;
  3. 内存泄漏:长时间运行未重启,内核堆内存耗尽,中断处理逻辑异常卡死。
    特征:
  • 日志仅存在 soft lockup,无电压、温度、内存 ECC、芯片故障、总线报错;
  • 重启后整机业务、单板识别、转发完全恢复,无持续硬件告警;
  • 故障可复现:同版本同组网环境可能周期性卡死。

场景 B:硬件老化诱发软件异常(次要可能性,6 年长开机设备需排查)

硬件老化不会直接打出 soft lockup,但会破坏内核运行环境,间接触发软件卡死:
  1. 主控内存颗粒老化、内存不稳定:偶发内存读写错误,内核代码逻辑错乱进入死循环;
  2. 主控供电不稳、主板电容老化:瞬时电压波动导致 CPU 运算异常;
  3. 主控散热不良,CPU 高温降频 / 运算出错;
    区分依据:
    查看完整日志,若伴随以下任意一条,说明硬件存在隐患:
  • Memory ECC error、内存校验报错;
  • Power supply voltage abnormal、电源告警;
  • Temperature over threshold 高温告警;
  • PCIE / 总线 CRC 错误、交换芯片异常复位。

二、IRF 从机特殊影响点

你这台是 IRF 集群从机,会放大死循环概率:
  1. IRF 主从之间大量报文同步、状态同步、拓扑同步占用 evHndl 事件线程;
  2. 从机中断上下文需要实时同步主设备状态,代码锁竞争概率更高;
  3. 从机主控长时间被动接收同步报文,老旧固件同步逻辑漏洞极易触发中断死循环。

三、分步排查 & 整改方案

第一步:确认是否纯软件故障(优先操作)

  1. 导出完整设备日志,全局检索关键字:ECC、voltage、temperature、chip error、reset reason
    • 无任何硬件报错 → 确认纯固件软件 BUG
    • 存在内存 / 电源 / 温度报错 → 硬件老化叠加软件问题。
  2. 查看重启原因 display reboot-info
    看门狗复位(Watchdog reset)= 内核死循环触发看门狗强制重启,典型软件卡死特征。

第二步:软件根治方案(必做)

  1. 升级交换机固件至官方稳定新版本
    联系厂商 400 查询当前版本是否存在 evHndl 线程 soft lockup 已知 BUG,升级修复补丁版本;6 年老设备固件必然存在大量未修复内核漏洞。
  2. 临时规避(升级前应急)
    • 设备定时重启:每周凌晨低业务时段重启,释放泄漏内存;
    • 优化 IRF 同步:关闭无用拓扑日志、精简 ACL、减少镜像 / 流量统计等占用中断的业务;
    • 关闭不必要的全局调试、报文统计功能,降低 evHndl 线程负载。
  3. IRF 优化:主从设备固件版本严格一致,禁止高低版本 IRF 堆叠。

第三步:硬件隐患排查(6 年设备建议执行)

  1. 现场查看设备温度、风扇运行状态,清理灰尘;
  2. 更换主控备用件交叉测试:将故障 Slot1 主控插到 IRF 主机,长时间观察是否再次死循环;
    • 换槽位不再卡死:原机箱供电 / 散热硬件问题;
    • 换槽位依旧死循环:主控本身内存老化或固件问题;
  3. 查看电源输出电压,确认供电稳定。

四、总结

  1. 本次故障直接根因为固件软件内核死循环(软件 BUG),soft lockup 日志是铁证;
  2. IMC 单板故障告警为 CPU 卡死失联后的衍生误告警,不等于单板硬件损坏;
  3. 设备运行 6 年,存在内存、供电老化间接诱发卡死的潜在硬件风险,需配套硬件巡检;
  4. IRF 从机同步业务加重中断线程负载,放大了老旧固件 BUG 触发概率;
  5. 根本解决手段:升级设备固件修复内核死循环漏洞,同步巡检硬件老化情况。

编辑答案

你正在编辑答案

如果你要对问题或其他回答进行点评或询问,请使用评论功能。

分享扩散:

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作

举报

×

侵犯我的权益 >
对根叔社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明