某客户深圳机房S1650远程无法管理问题定位分析
客户反馈深圳机房在日常检查过程中发现1台H3C S1650交换机远程无法管理,业务不通,本地管理PC接入设备控制台后发现频繁输出错误告警,重启设备后故障消失。
二. 问题定位
我们检查S1650的版本为V100R003,关键配置如下,没有问题。
aaa authentication telnet radius-scheme system local
#
local-user user
password qazwsx
service-type telnet
service-type terminal
service-type web
#
radius scheme system
primary authentication 192.168.0.19 1812
primary accounting 192.168.0.19 1813
secondary authentication 192.168.0.18 1812
key authentication edc
key accounting edc
#
#
vlan 1
#
interface vlan-interface1
ip address 172.16.67.9 255.255.255.0
ip gateway 172.16.67.1
#
info-center loghost 192.168.0.253
#
#stp configuration
stp enable
#
interface Ethernet0/1
stp enable
stp edged-port enable
#
… …
#
user-interface aux 0
authentication-mode scheme
user-interface vty 0
authentication-mode scheme
user-interface vty 1
authentication-mode scheme
#
snmp-agent
snmp-agent community read edc
snmp-agent sys-info version v2c
snmp-agent target-host trap address udp-domain 192.168.0.253 params securityname tcnw v2c
现场工程师反馈S1650控制台不断输出如下错误信息:
Registers:
R0: 92f47260 16161616 00000001 00000000 00000000 16161616
R6: 0025d21c 0000278e 003836e8 11110009 1111000a
FP: 002b57f0, IP: 1616162a, SP: 002b57d4, LR: 00000000, PC: 0000abb8, PSR: 20000013
DBG: In level [0]
fun_addr entry = ab54 , return addr(lr)=bae0,fun_sp = 2b57f4 ,fp=2b5800
DBG: In level [1]
fun_addr entry = bad0 , return addr(lr)=9eb0,fun_sp = 2b5804 ,fp=2b5818
DBG: In level [2]
fun_addr entry = 9e44 , return addr(lr)=8494,fun_sp = 2b581c ,fp=2b9210
DBG: In level [3]
fun_addr entry = a170 , return addr(lr)=b8a4,fun_sp = 2b9214 ,fp=2b9230
DBG: In level [4]
fun_addr entry = b828 , return addr(lr)=10f80,fun_sp = 2b9238 ,fp=2b9258
DBG: In level [5]
fun_addr entry = 10ec4 , return addr(lr)=11060,fun_sp = 2b925c ,fp=2b9278
DBG: In level [6]
fun_addr entry = 10ff8 , return addr(lr)=c49c,fun_sp = 2b927c ,fp=2b928c
DBG: In level [7]
fun_addr entry = c474 , return addr(lr)=c474,fun_sp = 2b9290 ,fp=deadbeef
Reached the end of stack!
Exception handler returned!
002B5784: 60 72 F4 92 16 16 16 16 01 00 00 00 00 00 00 00 |`r..............|
002B5794: 00 00 00 00 16 16 16 16 1C D2 25 00 8E 27 00 00 |..........%..'..|
002B57A4: E8 36 38 00 09 00 11 11 0A 00 11 11 F0 57 2B 00 |.68..........W+.|
002B57B4: 2A 16 16 16 D4 57 2B 00 00 00 00 00 B8 AB 00 00 |*....W+.........|
002B57C4: 13 00 00 20 04 00 00 00 00 00 00 00 D4 57 2B 00 |... .........W+.|
002B57D4: 00 00 00 00 00 00 00 00 94 92 2B 00 00 00 00 00 |..........+.....|
002B57E4: 00 58 2B 00 F4 57 2B 00 E0 BA 00 00 64 AB 00 00 |.X+..W+.....d...|
002B57F4: 18 58 2B 00 04 58 2B 00 B0 9E 00 00 E0 BA 00 00 |.X+..X+.........|
工程师重启设备恢复业务后将设备软件升级至V100R005版本,升级后观察近一个月故障未再复现。
我们通过工程师提供的错误信息和设备诊断信息分析,无法定位出问题原因。但我们认为应该与软件版本无关,如果此问题为软件BUG,那么很可能在当前运行的R005版本上也同样会出现。实验室搭建环境测试同样一直无法复现客户处故障。我们提供给现场工程师一些隐藏命令,读取设备出现故障后寄存器的值来确认此故障。
近一个月后,现场工程师传来消息,之前出现问题的设备故障复现,但在输入我们提供的隐藏命令收集寄存器信息时,系统提示不支持。这是什么原因呢?我们确认该命令在R005版本上肯定是支持的。再次跟工程师了解,现场故障复现后,采取了将设备断电重启的操作,配置恢复为默认了,版本也回退到R003,隐藏命令在R003确实无法支持。版本回退这又是什么原因呢,难道是设备flash损坏,那为什么重启后设备又能一直正常工作呢?
我们重新整理了下这个问题的处理过程,分析后认为确实有可能是单台设备故障损坏,因为该机房的其他S1650一直都没有复现相同的故障,如果是软件BUG,使用环境和配置都基本一样,业务也一样,故障应该会在其他交换机上复现。我们立即协调工程师给客户更换一台备件,并将该故障设备紧急约回研发分析确认。
经研发详细分析后,最终确认为设备硬件故障。
三. 分析结果
客户处此台S1650设备出现的无法管理,业务不通,本地管理PC接入设备控制台后发现频繁输出错误告警,重启设备后故障消失的问题为单台设备硬件故障引起。
四. 解决方案
更换故障设备,该设备返回厂家分析与维修。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作