问题现象:AC异常重启
执行命令display version,查看Last reboot reason字段,获取最近一次重启的基础原因;
<WX5540E>display version
H3C Comware Software, Version 7.1.064, Release 5466P01
Copyright (c) 2004-2023 New H3C Technologies Co., Ltd. All rights reserved.
H3C WX5540E uptime is 6 weeks, 5 days, 17 hours, 11 minutes
Last reboot reason : Power on
进入 probe 视图,执行diag boot-info display,查看设备完整启动历史、各类启动次数统计,精准匹配重启时间与原因。
[WX5540E-probe]diag boot-info display
Slot 1:根据初判的重启原因,进入对应分支排查,具体如下:
场景 1:重启原因为 Power on(断电重启)
检查 AC 设备电源模块状态、机房市电供电是否正常,是否存在市电中断、电压不稳情况;
.检查设备接地线、机框 / 机柜 / 机房接地是否完好,排除静电、雷击导致的断电重启;
查看对应重启的是假是否对得上
处置措施
更换故障电源模块,修复机房供电异常;
完善接地系统,避免静电 / 浪涌影响;
调整 PoE 功率分配,关闭非必要端口 PoE 功能,避免功率过载。
场景 2:重启原因为 User soft reboot(用户软重启)
该场景为人工 / 平台触发的重启,核心是定位重启触发源与操作人员,排查步骤如下:
命令行手动重启排查
云简平台重启排查
查看diag boot-info display启动历史,是否存在User soft reboot(Received a message with option type 15 from the cloud)记录;登录云简平台,查看对应时间的操作日志,定位触发人员。
网管 / SNMP 平台重启排查
查看设备日志,是否存在SNMP_SET相关日志,匹配重启时间的 SNMP set 操作,记录源 IP 地址;登录对应网管平台,核查操作日志与操作人员。
处置措施
场景 3:重启原因为 IRF merge soft reboot(IRF 合并重启)
排查要点
1.执行display version,检查 IRF 堆叠拓扑、堆叠链路状态,是否存在堆叠链路闪断、堆叠分裂后重新合并的情况;
2.检查堆叠成员设备的软件版本、IRF 配置是否一致,是否存在配置冲突导致的堆叠合并重启。
处置措施
1.修复故障堆叠线缆 / 端口,确保堆叠链路稳定;
2.统一堆叠成员设备的软件版本与 IRF 配置,避免配置冲突;
3.优化 IRF 分裂检测机制,减少堆叠合并场景。
场景 4:重启原因为 Slave switch soft reboot(主备倒换软重启)
该场景分为两类子场景,分别排查:
IRF 主备倒换重启
1.排查 IRF 主设备运行状态,是否存在硬件故障、内核异常导致的主备倒换;
2.检查 IRF 链路稳定性,是否存在链路中断触发的主备切换。
全 AP 离线保护重启
1.查看启动历史,是否存在Slave switch soft reboot(All AP Offline Protection)记录;
2.该机制为 AC 默认开启(D016SP2301/R5223P01 及以上版本),当所有 AP 掉线且 10 分钟内无 AP 上线时,AC 自动重启,对应命令为wlan detect-anomaly enable;
3.核心排查 AP 全量掉线的根因,包括 AC 与 AP 之间的链路中断、AC license 失效、AC 配置变更、核心网络故障。
处置措施
1.IRF 主备倒换:修复主设备硬件 / 软件故障,优化堆叠链路;
2.全 AP 离线保护:先解决 AP 全掉线的核心问题,若需临时关闭该保护机制,可执行undo wlan detect-anomaly enable。
场景 5:异常重启(Exception reboot/Watchdog reboot/Kernel exception soft reboot)
该场景为设备内核 / 硬件异常导致的重启,需按以下规范操作:
排查要点
1.执行dir core:,查看设备是否生成 core 文件,确认文件生成时间与重启时间是否匹配,若匹配需完整导出 core 文件;
2.执行save diagnostic-information,导出设备完整诊断信息;
3.确认故障发生前,组网、设备配置、软件版本是否发生变更,是否存在批量操作。
处置措施
1.若为版本已知 bug,升级 AC 设备至官方稳定版本;
2.若存在硬件故障,更换对应硬件模块;
3.留存 core 文件、诊断日志、组网信息,联系 H3C 技术支持做深度分析。
第一步:重启根因初判
1.AP 上线状态下,可在 AC 侧远程登录 AP,执行display version查看Last reboot reason;
2.进入 AP 的 probe 视图,执行diag boot-info display,查看 AP 完整启动历史与重启原因;
3.AC 侧执行display logbuffer,查看对应 AP 的重启相关日志,匹配重启时间与触发事件。
第二步:分场景精细化排查处置
场景 1:重启原因为 User soft reboot(用户软重启)
分为两类子场景排查:
1.管理员手动重启
1.查看 AC 侧日志,是否存在reset wlan ap相关操作记录,以及CWS_AP_DOWN: CAPWAP tunnel to AP xxx went down. Reason: AP was reset by admin日志;
2.查看 AP 侧日志,是否存在Reset by admin重启原因记录,定位操作账号与 IP 地址。
2.长时间不上线自动重启
1.查看 AP 启动历史,是否存在User soft reboot(Stayed in idle state for a long time)记录;
2.该机制默认生效,V5 版本 AP8 分钟未注册到 AC 自动重启,V7 版本为 10 分钟;
3.核心排查 AP 与 AC 的三层连通性、AC license 状态、AP 模板配置是否正确、DHCP 地址获取是否正常。
3.处置措施
1.非合规手动操作:完善 AC 账号权限管理,限制 AP 重启操作权限;
2.长时间不上线重启:解决 AP 与 AC 的连通性问题,若需临时关闭该机制,可在 AP probe 视图执行wlan system internal reboot-restrain,或在 AC probe 视图执行wlan system internal reboot-restrain ap [AP名称]。
场景 2:重启原因为 Power on(断电重启)
1.排查要点
1.接入交换机侧执行display poe interface、display poe pse,检查对应 AP 端口的 PoE 供电状态、当前功率、峰值功率,是否存在 PoE 功率不足、端口断电、超功率关停情况;
2.检查网线质量、长度是否符合 PoE 供电标准,是否存在线路老化、短路导致的供电中断;
3.对于本地电源供电的 AP,检查电源适配器是否正常、市电供电是否稳定。
2.处置措施
1.更换大功率 PoE 交换机,调整 PoE 功率分配,确保 AP 供电功率充足;
2.更换达标网线,修复线路故障;
3.更换故障电源适配器,优化本地供电环境。
场景 3:重启原因为 Auto update soft reboot(自动升级软重启)
1.排查要点
1.查看 AP 启动历史,是否存在Auto update soft reboot(Image was downloaded successfully)记录;
2.检查 AC 侧 AP 自动升级配置,是否配置了 AP 版本自动升级策略;
3.排查组网内是否存在多台 AC,是否因 AC 间版本不一致,导致 AP 反复跨 AC 注册、版本升级重启。
2.处置措施
1.优化 AP 自动升级策略,避免业务高峰期执行版本升级;
2.统一组网内多台 AC 的 AP 固件版本,避免跨 AC 版本冲突。
场景 4:异常重启(Watchdog reboot/Kernel exception soft reboot)
1.排查要点
1.登录 AP,导出诊断信息与日志,检查是否存在内核异常、硬件报错记录;
2.排查同一接入交换机、同区域、同型号的其他 AP,是否存在同步异常重启情况,区分单 AP 硬件故障与批量版本 / 组网故障;
3.确认故障前 AP 配置、组网环境是否发生变更。
2.处置措施
1.单 AP 故障:更换故障 AP 设备,排查硬件故障;
2.批量故障:升级 AP 至官方稳定版本,排查组网环境异常;
3.留存 AP 诊断日志、core 文件,联系 H3C 技术支持做深度分析。
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作