AC AP设备重启

2天前发表
  • 0收藏

描述

一、AC 设备重启故障排查定位流程

 

问题现象:AC异常重启

1. 重启根因初判

执行命令display version,查看Last reboot reason字段,获取最近一次重启的基础原因;

  <WX5540E>display version
H3C Comware Software, Version 7.1.064, Release 5466P01
Copyright (c) 2004-2023 New H3C Technologies Co., Ltd. All rights reserved.
H3C WX5540E uptime is 6 weeks, 5 days, 17 hours, 11 minutes
Last reboot reason : Power on

进入 probe 视图,执行diag boot-info display,查看设备完整启动历史、各类启动次数统计,精准匹配重启时间与原因。

 [WX5540E-probe]diag boot-info display

Slot 1:

******************************************************************************
PowerOn BootTimes   : 2
Watchdog BootTimes  : 0
Software BootTimes  : 3
Hardware BootTimes  : 0
MotherBoard BootTimes: 0
Backup BootTimes    : 0
SlotOut BootTimes   : 0
Current Boot Type   : Poweron-boot
Current Running Time: 4122600(s)
Running Time        : 3791(d)4(h)
*** Boot History(Startup Time and Reason) ***
2026-02-10 14:36:12(GMT+0) Power on
2026-02-06 08:41:39(GMT+0) User soft reboot
2025-12-02 08:58:49(GMT+0) User soft reboot
2025-11-24 02:16:39(GMT+0) Power on
2025-11-04 10:40:03(GMT+0) User soft reboot
  

2. 分场景精细化排查处置

根据初判的重启原因,进入对应分支排查,具体如下:

 

场景 1:重启原因为 Power on(断电重启)

 

检查 AC 设备电源模块状态、机房市电供电是否正常,是否存在市电中断、电压不稳情况;

.检查设备接地线、机框 / 机柜 / 机房接地是否完好,排除静电、雷击导致的断电重启;

查看对应重启的是假是否对得上

 

处置措施

更换故障电源模块,修复机房供电异常;

完善接地系统,避免静电 / 浪涌影响;

调整 PoE 功率分配,关闭非必要端口 PoE 功能,避免功率过载。

 

场景 2:重启原因为 User soft reboot(用户软重启)

该场景为人工 / 平台触发的重启,核心是定位重启触发源与操作人员,排查步骤如下:

命令行手动重启排查

3. 执行display logbuffer,查看是否存在SHELL_CMD_CONFIRM: Confirm option of command reboot is yes日志,记录操作的 IP 地址、用户账号、操作时间;

4. 核对设备登录日志,确认操作人员与操作合规性。

 

云简平台重启排查

查看diag boot-info display启动历史,是否存在User soft reboot(Received a message with option type 15 from the cloud)记录;登录云简平台,查看对应时间的操作日志,定位触发人员。

 

网管 / SNMP 平台重启排查

查看设备日志,是否存在SNMP_SET相关日志,匹配重启时间的 SNMP set 操作,记录源 IP 地址;登录对应网管平台,核查操作日志与操作人员。

处置措施

1. 非合规操作:完善设备账号权限管理,限制非授权人员的重启操作权限;

2. 合规运维操作:记录操作台账,避免业务高峰期执行设备重启。

 

 

 

场景 3:重启原因为 IRF merge soft rebootIRF 合并重启)

排查要点

1.执行display version,检查 IRF 堆叠拓扑、堆叠链路状态,是否存在堆叠链路闪断、堆叠分裂后重新合并的情况;

2.检查堆叠成员设备的软件版本、IRF 配置是否一致,是否存在配置冲突导致的堆叠合并重启。

处置措施

1.修复故障堆叠线缆 / 端口,确保堆叠链路稳定;

2.统一堆叠成员设备的软件版本与 IRF 配置,避免配置冲突;

3.优化 IRF 分裂检测机制,减少堆叠合并场景。

 

场景 4:重启原因为 Slave switch soft reboot(主备倒换软重启)

该场景分为两类子场景,分别排查:

IRF 主备倒换重启

1.排查 IRF 主设备运行状态,是否存在硬件故障、内核异常导致的主备倒换;

2.检查 IRF 链路稳定性,是否存在链路中断触发的主备切换。

AP 离线保护重启

1.查看启动历史,是否存在Slave switch soft reboot(All AP Offline Protection)记录;

2.该机制为 AC 默认开启(D016SP2301/R5223P01 及以上版本),当所有 AP 掉线且 10 分钟内无 AP 上线时,AC 自动重启,对应命令为wlan detect-anomaly enable

3.核心排查 AP 全量掉线的根因,包括 AC AP 之间的链路中断、AC license 失效、AC 配置变更、核心网络故障。

处置措施

1.IRF 主备倒换:修复主设备硬件 / 软件故障,优化堆叠链路;

2.AP 离线保护:先解决 AP 全掉线的核心问题,若需临时关闭该保护机制,可执行undo wlan detect-anomaly enable

 

场景 5:异常重启(Exception reboot/Watchdog reboot/Kernel exception soft reboot

该场景为设备内核 / 硬件异常导致的重启,需按以下规范操作:

排查要点

1.执行dir core:,查看设备是否生成 core 文件,确认文件生成时间与重启时间是否匹配,若匹配需完整导出 core 文件;

2.执行save diagnostic-information,导出设备完整诊断信息;

3.确认故障发生前,组网、设备配置、软件版本是否发生变更,是否存在批量操作。

处置措施

1.若为版本已知 bug,升级 AC 设备至官方稳定版本;

2.若存在硬件故障,更换对应硬件模块;

3.留存 core 文件、诊断日志、组网信息,联系 H3C 技术支持做深度分析。

 

 

 

AP 设备重启故障排查定位流程

 第一步:重启根因初判

1.AP 上线状态下,可在 AC 侧远程登录 AP,执行display version查看Last reboot reason

2.进入 AP probe 视图,执行diag boot-info display,查看 AP 完整启动历史与重启原因;

3.AC 侧执行display logbuffer,查看对应 AP 的重启相关日志,匹配重启时间与触发事件。

 

第二步:分场景精细化排查处置

场景 1:重启原因为 User soft reboot(用户软重启)

分为两类子场景排查:

1.管理员手动重启

1.查看 AC 侧日志,是否存在reset wlan ap相关操作记录,以及CWS_AP_DOWN: CAPWAP tunnel to AP xxx went down. Reason: AP was reset by admin日志;

2.查看 AP 侧日志,是否存在Reset by admin重启原因记录,定位操作账号与 IP 地址。

2.长时间不上线自动重启

1.查看 AP 启动历史,是否存在User soft reboot(Stayed in idle state for a long time)记录;

2.该机制默认生效,V5 版本 AP8 分钟未注册到 AC 自动重启,V7 版本为 10 分钟;

3.核心排查 AP AC 的三层连通性、AC license 状态、AP 模板配置是否正确、DHCP 地址获取是否正常。

3.处置措施

1.非合规手动操作:完善 AC 账号权限管理,限制 AP 重启操作权限;

2.长时间不上线重启:解决 AP AC 的连通性问题,若需临时关闭该机制,可在 AP probe 视图执行wlan system internal reboot-restrain,或在 AC probe 视图执行wlan system internal reboot-restrain ap [AP名称]

 

场景 2:重启原因为 Power on(断电重启)

1.排查要点

1.接入交换机侧执行display poe interfacedisplay poe pse,检查对应 AP 端口的 PoE 供电状态、当前功率、峰值功率,是否存在 PoE 功率不足、端口断电、超功率关停情况;

2.检查网线质量、长度是否符合 PoE 供电标准,是否存在线路老化、短路导致的供电中断;

3.对于本地电源供电的 AP,检查电源适配器是否正常、市电供电是否稳定。

2.处置措施

1.更换大功率 PoE 交换机,调整 PoE 功率分配,确保 AP 供电功率充足;

2.更换达标网线,修复线路故障;

3.更换故障电源适配器,优化本地供电环境。

 

场景 3:重启原因为 Auto update soft reboot(自动升级软重启)

1.排查要点

1.查看 AP 启动历史,是否存在Auto update soft reboot(Image was downloaded successfully)记录;

2.检查 AC AP 自动升级配置,是否配置了 AP 版本自动升级策略;

3.排查组网内是否存在多台 AC,是否因 AC 间版本不一致,导致 AP 反复跨 AC 注册、版本升级重启。

2.处置措施

1.优化 AP 自动升级策略,避免业务高峰期执行版本升级;

2.统一组网内多台 AC AP 固件版本,避免跨 AC 版本冲突。

 

场景 4:异常重启(Watchdog reboot/Kernel exception soft reboot

1.排查要点

1.登录 AP,导出诊断信息与日志,检查是否存在内核异常、硬件报错记录;

2.排查同一接入交换机、同区域、同型号的其他 AP,是否存在同步异常重启情况,区分单 AP 硬件故障与批量版本 / 组网故障;

3.确认故障前 AP 配置、组网环境是否发生变更。

2.处置措施

1.AP 故障:更换故障 AP 设备,排查硬件故障;

2.批量故障:升级 AP 至官方稳定版本,排查组网环境异常;

3.留存 AP 诊断日志、core 文件,联系 H3C 技术支持做深度分析。

 

提出建议

    +

亲~登录后才可以操作哦!

确定

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作