ONEStor R2128P01
ONEStor界面频繁出现mon异常的告警,几秒内恢复,且时间非常规律,都在每周六的中午,告警涉及多个节点。
通过archive日志,可以看到最近的一次MON down的时间点,系统盘平均IO时延是435ms,这个是10秒以内的平均值。 MON的这个设置down的处理,是单个IO 出现超过5秒的时延就会主动将自己标记down。当前版本单个mon down不会影响业务,也不会触发整个集群的mon选举。
针对mon告警如此有规律,接下来排查系统盘是否有定时任务或者磁盘是否有异常,导致时延升高。
通过排查发现系统盘并无定时任务,且系统盘正常。在RAID卡日志中,针对告警时间,出现异常的打印:
硬件侧排查发现,LSI阵列卡每周固定时间会进行磁盘校验,该校验时间与告警时间基本一致,同时在告警时间,数据盘的时延也会有一定的增加。
该校验主要是针对RAID5等进行,对于分布式存储的RAID0,数据校验意义不大,可以关闭校验功能,避免导致时延增加的告警。
在bios将阵列卡数据校验功能关闭,关闭后再无mon down告警出现。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作