|
HDM版本 |
1.86.02 |
|
BIOS版本 |
6.10.57 |
|
CPLD版本 |
V008 |
|
问题硬盘型号 |
Solidigm SSDPF2KX076T1 |
media_errors:2
客户现场新到货47台R4900 G6服务器,问题发生时处于开局部署阶段。客户在监控平台发现47台服务器ad:00.0槽位的nvme盘均存在media_errors计数,且计数都是2,其中一台双nvme盘均存在media_errors计数。现场随机收集了几台机器nvme smart-log信息,发现均存在nvme0n1的media_errors计数为2的现象。
1、查看SDS带外日志,未见硬件异常。同时分析报错NVMe槽位、批次等信息,未发现明显异常。查询该硬盘固件版本发现已是最新版本(9CV10510)。
2、现场收集OS日志,在dmesg日志中可以看到安装系统后第一次开机时就已经存在medium error.
3、查看47台机器的硬盘出厂测试记录,发现涉及的硬盘均不存在media_errors计数。
4、厂家对硬盘日志分析情况:现有的log 没有指向NAND failure,Format看起来被某个动作打断,有两笔read返回0x6281 UECC。
日志中Grown detect count=0,可以确认没有新增坏块。
现有的log 不能证明是 NAND failure,Grown Bad Block=0 没有增加, XOR Fail Count=0。并且nvme 协议中smart信息并不存在单独media_errors定义,怀疑nvme smart工具将多种错误合并成了media_errors。
通过厂家日志对硬盘smart信息比对,两块硬盘参数差异仅在End-to-End Error Detection Count计数上:
怀疑nvme smart-log中的media errors计数来源于End-to-End Error Detection Count,于是再次收集一台双nvme盘均存在media_errors的硬盘smart日志进行比对。
发现nvme smart-log中的media_errors与硬盘的smart信息中的End-to-End Error Detection Count值完全一致,可以确定系统下的media erros计数其实是硬盘End-to-End Error Detection Count的值。
根据intel原厂分析,现有的log 没有指向硬盘NAND failure, Grown detect count=0,可以确认当前硬盘没有坏块。硬盘的健康状态正常,可以正常使用且不会对业务造成风险。nvme smart-log中的media_errors与硬盘的smart信息中的End-to-End Error Detection Count值完全一致,End-to-End Error代表整条data path上的错误,并不一定是NAND failure;根据NVME标准协议无明确的media error定义,而是使用Media and Data Interrgrity Eorror Vlaues 进行定义,其下包含多种行为。Intel同时说明SMART参数中的Available Spare代表冗余空间使用比例,初始值为100%,下降到10%会触发SMART warning,已提供硬盘日志的Available Spare=100%,建议监控硬盘健康度抓取值更改为“Available Spare”。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作