Device: /dev/bus/0 [megaraid disk 01] [SAT], Read Summary SMART Eror Log failed
客户现场一台R4900 G3服务器在更换完一块硬盘后,zabbix上报Device: /dev/bus/0 [megaraid disk 01] [SAT], Read Summary SMART Eror Log failed,分析SDS和阵列卡日志,无任何异常,同时客户messages日志也频繁报出上述报错。使用smartctl --scan命令,并没有扫描到megaraid_disk_01的盘符,客户也表示服务器没有外接存储。
查看日志后发现原本front9这块盘的did是1,在换盘后新盘的did被分配成了17,现场使用zabbix仍在抓取DID为0-16的硬盘smart信息,又因为此时DID为1的盘并不在位所以会一直报错。
LSI卡的EID号与DID号强相关,DID为阵列卡识别顺序,不同型号LSI阵列卡以及不同固件版本,配合不同EXP背板以及固件版本都会对DID号产生影响。DID编号的分配规则通常由RAID卡的固件决定,具体规则如下:
动态分配:DID编号由RAID卡在初始化时动态分配,每次重启RAID卡或重新扫描硬盘时,DID编号可能会发生变化。
唯一性:每个硬盘的DID编号在当前RAID卡中是唯一的。
对于EID和DID号无法保证相同配置设备完全一致,且无法人为修改。
该问题系 SMART 对硬盘的扫描逻辑与当前系统内的实际DID存在不一致导致的误告警,建议优化告警逻辑。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作