cloudos版本:E1138H01
客户发现web访问cloudos运行正常,但是在日常巡检中发现/var/log/Message日志中存在error报错,想确认这个报错具体的含义,以及会不会影响业务系统
报错信息:Aug 28 09:36:01 cloudos18803 etcd: open wal error: wal: file not found
这个报错是etcd集群的某一个节点报的打开etcd文件的错误。
Etcd集群环境情况下,由于网络不稳定,IO性能等问题是可能导致etcd集群中的某一个节点出现异常的。只要整个etcd集群是健康的,就不会影响到系统业务的运行。
针对该错误,建议:
1、 检查现场的etcd集群状态
具体查看方法是,在任意一个cloudos节点上执行以下两条命令确认:
/opt/bin/etcdctl cluster-health
journalctl -u kube-proxy | grep unhealth
2、 检查IO性能
Etcd的wal_fsync_durations指标用于标识etcd对磁盘操作状态,官方给出的建议99%的延时应该少于8ms。
具体执行以下命令查看:
curl http://127.0.0.1:2379/metrics | grep fsync
执行命令输出见下,根据输出结果查看集群状态正常,无异常输出
[root@cloudos18803 ~]# /opt/bin/etcdctl cluster-health
member 2c2b493165507658 is healthy: got healthy result from http://10.133.188.2:2379
member 77963b585bad0299 is healthy: got healthy result from http://10.133.188.1:2379
member b76cd1893e469993 is healthy: got healthy result from http://10.133.188.3:2379
cluster is healthy
[root@cloudos18803 ~]# journalctl -u kube-proxy | grep unhealthy
查看IO延时落到8ms以内的有99.95%(见下标红部分292001/292136得出百分比),说明整个etcd集群是健康的,就不会影响到系统业务的运行。
[root@cloudos18803 ~]# curl http://127.0.0.1:2379/metrics | grep fsync
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 35236 100 352# HELP etcd_wal_fsync_durations_seconds The latency distributions of fsync called by wal.
36# TYPE etcd_wal_fsync_durations_seconds histogram
etcd_wal_fsync_durations_seconds_bucket{le="0.001"} 291808
etcd_wal_fsync_durations_seconds_bucket{le="0.002"} 291899
0 etcd_wal_fsync_durations_seconds_bucket{le="0.004"} 291947
etcd_wal_fsync_durations_seconds_bucket{le="0.008"} 292001
0etcd_wal_fsync_durations_seconds_bucket{le="0.016"} 292068
etcd_wal_fsync_durations_seconds_bucket{le="0.032"} 292117
etcd_wal_fsync_durations_seconds_bucket{le="0.064"} 292120
3etcd_wal_fsync_durations_seconds_bucket{le="0.128"} 292125
2etcd_wal_fsync_durations_seconds_bucket{le="0.256"} 292127
9etcd_wal_fsync_durations_seconds_bucket{le="0.512"} 292131
2etcd_wal_fsync_durations_seconds_bucket{le="1.024"} 292135
ketcd_wal_fsync_durations_seconds_bucket{le="2.048"} 292136
etcd_wal_fsync_durations_seconds_bucket{le="4.096"} 292136
etcd_wal_fsync_durations_seconds_bucket{le="8.192"} 292136
etcd_wal_fsync_durations_seconds_bucket{le="+Inf"} 292136
etcd_wal_fsync_durations_seconds_sum 104.93636339099864
0etcd_wal_fsync_durations_seconds_count 292136
--:--:-- --:--:-- --:--:-- 3441k
[root@cloudos18803 ~]#
问题定位在8月28日 09:36:01,网络不稳定如发生震荡等原因问题导致etcd集群中的cloudos 18803节点出现异常,但是只有一个节点出现问题是不会导致整个etcd异常的。通过如上检查确认etcd集群运行正常,可以对应去查一下报错时间点的网络运行情况,排除下隐患。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作