|
HDM版本 |
1.86.02 |
|
BIOS版本 |
6.10.57 |
|
CPLD版本 |
V008 |
|
问题硬盘型号 |
Solidigm SSDPF2KX076T1 |
media_errors:2
客户现场新到货47台R4900 G6服务器,问题发生时处于开局部署阶段。客户在监控平台发现47台服务器ad:00.0槽位的nvme盘均存在media_errors计数,且计数都是2,其中一台双nvme盘均存在media_errors计数。现场随机收集了几台机器nvme smart-log信息,发现均存在nvme0n1的media_errors计数为2的现象。
1、查看SDS带外日志,未见硬件异常。同时分析报错NVMe槽位、批次等信息,未发现明显异常。查询该硬盘固件版本发现已是最新版本(9CV10510)。
2、现场收集OS日志,在dmesg日志中可以看到安装系统后第一次开机时就已经存在medium error.
3、查看47台机器的硬盘出厂测试记录,发现涉及的硬盘均不存在media_errors计数。
4、厂家对硬盘日志分析情况:现有的log 没有指向NAND failure,Format看起来被某个动作打断,有两笔read返回0x6281 UECC。
日志中Grown detect count=0,可以确认没有新增坏块。
现有的log 不能证明是 NAND failure,Grown Bad Block=0 没有增加, XOR Fail Count=0。并且nvme 协议中smart信息并不存在单独media_errors定义,怀疑nvme smart工具将多种错误合并成了media_errors。