使用NVMe硬盘的机型
日常使用NVMe硬盘的过程,客户咨询是否有底层smart数值的更换标准
1、smart信息中available_spare低于多少磁盘变为只读不可用?
2、smart信息中media_errors和num_err_log_entries数量达到多少磁盘不可用?
3、带外显示为备用空间低于阈值,为什么BMC不抛异常?
1.available_spare的阈值可以看Available Spare Threshold 这个参数,当可用备用容量降至该字段所指示的阈值以下时,可能会发生异步事件。该值以标准化百分比(0%至100%)表示,一般阈值为10%。
预留空间数用来准备替换损坏的存储单元,当保留的空间用尽,再出现损坏的单元就将出现数据丢失,这个SSD的寿命就结束了。
而备用空间低于阈值这个磁盘状态,在硬件上并不指向于故障状态,只是提示NVMe硬盘可用的备用空间不足,就类似于提示寿命即将到期一样,所以带外没有上报告警。
2.HDM会对NVME硬盘的告警进行监控,对于硬盘主要关注critical_warning和available_sapce smart的参数值,硬盘出现bus uncorrectable error、bus fatal error或PCIe err错误的情况下进行更换,主要是依照HDM的告警为主;
critical_warning:除Bit1置1(标识外部环境温度异常)需要收集日志确认,其他Bit置1可换盘
available_sapce smart:可用的备用空间,一般与available_spare_threshold 对应,低于此值,更换
对于media_errors参数各个厂家设置不同,触发的原因也很多,暂时无法作为判断硬盘故障的依据
1.依照HDM的告警针对故障NVMe硬盘进行更换
2.对于HDM带外没有告警,系统内出现影响业务的情况,收集硬盘的smart信息和日志进行分析,具体问题具体看
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作