中端交换机单板无法正常启动时基本排查方法
一、 组网:
无
二、 问题描述:
单板故障属于最常见的问题,而且基本上以硬件故障居多,此类问题因涉及硬件,收集的信息中软件经常无法做到完全记录,处理方法以替换测试为主,只有少量问题能明确的从diag信息中直接定位,为避免反复收集信息,故整理该文档。通过一些基本的排查手段,部分问题可以直接快速定位,其余问题按照文档收集信息,也能大大减少分析和定位问题的时间。
三、过程分析:
单板无法启动,总结有如下几种情况:
一、最坏情况,单板插入后引擎没有任何反应,也没有加载日志。这种情况多以业务板故障居多,处理方法如下。
1、首先尽量证实新插入业务板是好的,比如换槽位或者插到其他设备上能否启动等。
2、看引擎上的进程是否正常,如果软件负责加载的进程异常,也会出现这个现象,如果是这样,设备上新插入的所有单板都会无法启动,可以根据这一点做初步判断。命令display task只看引擎即可,看系统进程中是否有suspend状态,如有,肯定有问题,第一时间收集[diagnose]_display task-track
。 命令举例:
系统视图下_h进入隐藏视图,然后执行display task
[H3C]_h
[H3C-hidecmd]display task
name Tid Vid TSize Mod priority Status Total/Max/Last(Millsecs)
================================================================================
VFS 85b6ae00 1 40 N 100 queblock 0/ 0/ 0
CBU 85b6aa00 2 40 N 100 queblock 0/ 0/ 0
VIDL 85b6a800 3 40 P 1 preemptready 361522/ 9/ 0
TICK 85b6a600 4 40 P 250 preemptready 1194/ 0/ 0
STMR 85b6a400 5 40 N 150 eventblock 219/ 0/ 0
dGDB 85b6a200 6 40 N 180 eventblock 0/ 0/ 0
RECV 85b6a000 7 39 N 216 semblock 234/ 1/ 0
系统视图下en_diag 进入诊断视图,然后收集相关suspend状态进程的堆栈信息,如VFS进程:
[H3C]en_diag
CAUTION : Now you enter a en_diag command view for developer's testing, some commands may be dangerous, please carefully use it with our engineer's direction.
[H3C-diagnose]_display task-track VFS
Task name : VFS
Task PLAT Index : 1
Task OS Index : 0x85b6ae00
Task priority : 100
Task Status : queblock
Last run time(CPU Tick) : 0x0(high) 0x2ca2(low)
Max run time(CPU Tick) : 0x0(high) 0x2ca2(low)
Total run time(CPU Tick): 0x0(high) 0x2ca2(low)
Stack Information:
0x801d6770
0x801da2d0
0x801dbfc8
0x81111f1c
0x811026b0
0x81101a0c
0x811456c8
[H3C-diagnose]
3、以上排查没有问题,业务板接串口,先做一次内存测试;多数业务板故障在这时能够看到串口打印出的异常信息,这里除bootrom启动时打印的版本、自检以及加载启动等信息外都属于异常信息,尤其是含内存、调用栈的信息。如果内存检测失败,则可以确认为内存故障,需要返修相应的单板。业务板内存测试的方法:
Starting...... //系统启动过程中在此时按住“Ctrl+t”
RAMLine.....OK
RAMTest 256MByte ................OK //此时显示“OK”说明内存没有问题,显示“ERROR”说明内存硬件故障需要返修
二、另外一种情况,有加载但不能启动。这种情况系统日志和告警中都会有加载信息:%Apr 2 03:31:53:065 2000 GAOCHUN_S7506E_1 DEV/4/LOAD FINISHED: Board has finished loading file on Chassis 0 Slot 2.
1、仍然先确保新插入业务板是否正常,同上。
2、再查引擎上的任务状态,同上。
3、查看日志及告警,看是否有不支持、不兼容等明显提示。如
Warning: The LPU board on slot 2 is not compatible with MPU board, its board type is 29.255.
This device do not support LSQ1IAGSC0 on slot 5!
Warning: VERSION V600R001xxxx does not support this epon board ! \r\n Please upgrade version to after Release 6200
从第一种情况可以看到业务板和主控板类型不兼容,常见原因有76的业务板插在75E 机框上使用,75E的业务板插在76的机框上使用。关于业务板可以在何种机框使用,请参考官网上单板手册。
从第二种情况可以明显的看到是因为版本太低导致的单板不识别,需要升级版本解决。
4、业务板接串口、测试内存等,同上。
通过以上排查大多数问题都可以现场直接定位出来。如果还是无法定位问题,请反馈现场的测试过程及diag信息由二线来处理。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作