StoreOnce Gen4/Gen4+
StoreOnce的硬件监控(hardware monitoring)服务,是通过rest接口登录iLO来获取硬件信息。所以服务本身、StoreOnce到iLO的443端口、iLO本身出问题,硬件监控都有可能显示异常。目前看硬件监控异常的表现有如下几个
1. 点击硬件转圈,提示硬件监控服务不可用,正在不断重试
2. 点击硬件有两条报错:①cannot conmmunicate with iLO②controller3/6 is missing
3. 事件日志报错:hardware report cache is not updating。这个报错一般会伴随1+2的现象
硬件监控正常的检查方法
1. iLO web中information→session list看只有一个127.0.0.1登录的ip
2. /etc/init.d/hpspmon status看状态ok
3. tail -f /var/log/hp/platform/hpspmon/hpspmon-<主机名>.log检查health check是否完成。如果有如下complete字样,问题应该已解决
排查思路如下
1. 4.3.2版本之前iLO不支持high security模式,如果是请修改成production
2. reset iLO。然后检查session list。正常的话127.0.0.1的登录ip应该只有1个
3.如果问题还没解决,需要登录root底层。尝试重启hpspmon服务,方法如下
①记录启动命令,方法:grep -i url /var/log/hp/platform/hpspmon/hpspmon-<主机名>.log
②停止服务:/etc/init.d/hpspmon stop
③启动服务,复制上边的url,注意<MODIFIER>外要加引号。如下是我试验机示例,实际以第一步为准
/opt/hp/platform/bin/hpspmon -m SERVER,STORAGE_CLUSTER --serverURL https://127.0.0.1:443/hw
monitor/monitoring/server/soh9493s01 --storageClusterURL https://127.0.0.1:443/hwmonitor/monitoring/storage
/'<MODIFIER>' --storageClusterUuids 01640eab-0000-1000-8022-45434c303633,08f7d606-0000-1000-8001-313030303030
4. 如果重启后health check依然无法完成,或者/etc/ini.d/hpspmon status还不是ok,可重启pml,方法如下
①su - hpesupport
②pml tools→Restart PML
③等待完全启动,按步骤3检查hpspmon状态
在不影响业务的前提下,可操作的步骤就只有这些了。如果上述方法依然不行,就需要查日志进一步分析了。从目前的经验来看,iLO硬件问题的概率较大。如下是我遇到的两个案例
messages日志有如下打印
Nov 6 19:38:38 SOH138H001 kernel: FAT-fs (sdi1): FAT read failed (blocknr 32)
<span "="">Nov 6 19:38:38 SOH138H001 kernel: FAT-fs (sdk1): FAT read failed (blocknr 32)
<span "="">
<span "="">Nov 6 19:38:39 SOH138H001 kernel: FAT-fs (sdj1): FAT read failed (blocknr 32)
<span "="">但是lsscsi看又没有sdi、sdk、sdj。经ERT确认是iLO设备
<span "="">
[0:0:0:0] storage HP p1228 0396 - - -
[0:1:0:0] disk HP p1228 VOLUME 0396 /dev/sda 36a67bb21000000108024494633303456 72.0TB
[0:1:0:1] disk HP p1228 VOLUME 0396 /dev/sdb 36806de21000000108025494633303456 72.0TB
[0:1:0:2] disk HP p1228 VOLUME 0396 /dev/sdc 3620a0122000000108026494633303456 72.0TB
[0:1:0:3] disk HP p1228 VOLUME 0396 /dev/sdd 3664f2522000000108027494633303456 72.0TB
[0:1:0:4] disk HP p1228 VOLUME 0396 /dev/sde 36dcd4a22000000108028494633303456 72.0TB
[0:1:0:5] disk HP p1228 VOLUME 0396 /dev/sdf 36cd57122000000108029494633303456 72.0TB
[1:0:0:0] storage HP p1228 0396 - - -
[2:0:0:0] enclosu HPE Smart Adapter 5.00 - - -
[2:1:0:0] disk HPE LOGICAL VOLUME 5.00 /dev/sdg 3600508b1001c542952accb011313081a 1.20TB
[2:2:0:0] storage HPE P408i-a SR Gen10 5.00 - - -
[3:0:0:0] storage HPE RAID Drvr 0396 - - -
[3:0:0:7] disk HPE RAID Drvr VOLUME 0396 /dev/sdh 36269cd22000000108010313030303030 431TB
[16:0:0:0] disk iLO LUN 00 Media 0 2.11 /dev/sdl iLO_LUN_00_Media_0_000002660A01-0:0 805MB
messages日志中有文件系统的报错,可能是文件系统问题,也可能是硬件问题。此时可以尝试格式化一下iLO芯片(解决文件系统问题),或者更换主板(解决硬件问题)。都需要重启操作,这个case是更换了主板
<span "="">另一个case messages日志没有任何异常打印。故尝试下电后恢复
<span "="">
见问题分析
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作