Print

UIS 主机时钟不同步导致osd down经验案例

2020-05-31 发表

组网及说明

问题描述

UIS6.5 环境断电重启后,前台页面卡顿,查看后台osd状态,node2及node3节点均有部分osd down

 

过程分析

通过ceph –s 查看集群状态,有告警产生,状态有明显报错,clock skew detected on mon.Cvknode2,mon.cvknode3,可基本判断2,3节点与1节点时钟不一致,导致集群异常。


后台通话date命令查看时间是否一致  root@cvm:~# date Thu Apr 16 01:12:00 CST 2020

 通过ntpq -p确认 如果ntp server 正常的话,IP前应该有符号“ * ”,前面没有这个星号*,证明当前配置的ntp server不可用

 

查看etc/ntp.conf 确认地址是否配置正确


解决方法

如果时间超过5秒,是风险值,若监控节点间的时间差超过7秒,则监控节点间的通信认证会失效,可能会导致集群不可用,业务中断。 建议配置ntp服务器配置外部时钟源,备用服务器指向管理地址。