某客户使用长江存储SE005硬盘,FW YM120104版本,故障率高,现象均为单盘掉盘
故障现象举例:
(1)2024年5月4日,F00这块盘出现了command timeout,随后阵列卡尝试reset该盘未成功,F00掉盘,RAID降级:
2024-05-04 11:04:01 PDIndex(Front:0)----Command timeout on PD 08(e0xfc/s0), CDB: 28 00 07 3b f0 00 00 02 00 00
2024-05-04 11:04:01 PDIndex(Front:0)----PD 08(e0xfc/s0) Path 4433221100000000 reset (Type 03)
2024-05-04 11:04:42 PDIndex(Front:0)----Removed: PD 08(e0xfc/s0)
2024-05-04 11:04:42 PDIndex(Front:0)----Diagnostics failed for PD 08(e0xfc/s0)
2024-05-04 11:05:15 PCIe slot:1---LDDevno:0 change to Degraded.
2024-05-04 11:08:13 Drive Fault
(2)2024年5月10日更换故障硬盘,rebuild成功,RAID重新恢复正常:
2024-05-10 11:17:39 PDIndex(Front:0)----Inserted: PD 08(e0xfc/s0)
2024-05-10 11:17:44 PDIndex(Front:0)----Rebuild automatically started on PD 08(e0xfc/s0)
2024-05-10 11:17:56 Drive Presence
2024-05-10 11:18:00 Rebuild/Remap in progress
2024-05-10 11:18:07 The Front HardDisk in slot 0 has been replaced,SN from YMD1480JA214610C97 to YMD1480JA2149103W7
2024-05-10 11:42:11 Rebuild complete on VD 00/0---CtrlIndex(1)
2024-05-10 11:42:11 State change on VD 00/0 from DEGRADED(2) to OPTIMAL(3)---CtrlIndex(1)
2024-05-10 11:42:11 VD 00/0 is now OPTIMAL---CtrlIndex(1)
(3)从SDS日志中看为正常的掉盘过程,排除阵列卡、背板等链路上其他因素影响,故障与硬盘本身强相关。
FW问题说明:
长江存储SSD硬盘SE005,YM120104版本固件问题:硬盘固件设计缺陷,读取RAM异常,Assert断言函数处理不当导致硬盘锁死掉盘。
详细故障模式介绍:长存SSD 固件(FW) 中设置许多的 Assert(断言),对应不同的工作异常状态,选择性进入处理,Assert 的作用可以避免程序在异常状况下运行恶化。Assert 245 是FW 在检测到 DDR/SRAM 读写过程校验出错时的处理函数,FW 在存储完 Assert Info 后会直接卡 while(1),进入死循环,使 FW 无法继续运行和响应 Host 命令。此时如硬盘和Raid卡之间读写IO有未完成的 Host CMD,则会出现 CMD TimeOut现象,对于后续 Host 新下的 CMD,SSD 也将无法接收和执行,会出现掉盘的现象。
1、对于已经故障的硬盘,需更换FW为YM120105的新盘;
2、对于暂未故障的硬盘,需升级硬盘FW版本到YM120105。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作