• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

R4900 G6 新上架服务器nvme盘存在media_errors

2026-02-25 发表
  • 0关注
  • 0收藏 209浏览
粉丝:0人 关注:1人

组网及说明

HDM版本

1.86.02

BIOS版本

6.10.57

CPLD版本

V008

问题硬盘型号

Solidigm SSDPF2KX076T1

告警信息

media_errors:2

问题描述

客户现场新到货47R4900 G6服务器,问题发生时处于开局部署阶段。客户在监控平台发现47台服务器ad:00.0槽位的nvme盘均存在media_errors计数,且计数都是2,其中一台双nvme盘均存在media_errors计数。现场随机收集了几台机器nvme smart-log信息,发现均存在nvme0n1media_errors计数为2的现象。

 

 

过程分析

 

1、查看SDS带外日志,未见硬件异常。同时分析报错NVMe槽位、批次等信息,未发现明显异常。查询该硬盘固件版本发现已是最新版本(9CV10510)

2、现场收集OS日志,在dmesg日志中可以看到安装系统后第一次开机时就已经存在medium error.

3、查看47台机器的硬盘出厂测试记录,发现涉及的硬盘均不存在media_errors计数

4、厂家对硬盘日志分析情况:现有的log 没有指向NAND failureFormat看起来被某个动作打断,有两笔read返回0x6281 UECC

日志中Grown detect count=0,可以确认没有新增坏块。

现有的log 不能证明是 NAND failureGrown Bad Block=0 没有增加, XOR Fail Count=0并且nvme 协议中smart信息并不存在单独media_errors定义,怀疑nvme smart工具将多种错误合并成了media_errors