主机共享文件系统“UIS 10T LUN02”故障告警、主机共享文件系统“UIS 10T LUN03”故障告警
2026-02-13 9:00、9:30和10:00左右突然出现个别虚拟机磁盘io增大随后恢复,并伴随主机共享文件系统故障告警。
通过告警可以看到,有多台主机涉及共享文件系统故障告警,分析涉及主机上的系统日志。
09:11:53,可以看到io下发失败
ceph -s看是健康的,且并没有慢盘标志。考虑可能存在网络问题,于是利用抓包工具分析是否存在丢包,发现存储节点10.10.10.37给10.10.10.33发送请求包时出现报文分片丢失,目的端这边收到的request报文分片少了一个,正常应该有5个分片,目前没有回复的这个报文,只收到了4个分片。
判断外部链路有问题, 10.10.10.37对应的是节点7,我们测试从一台主机往各个节点ping发现只有七节点有丢包,且七节点往外ping也能看到丢包。
于是对节点七尝试重启利用bios自检找到报错,先对节点7上的虚拟机进行迁移再重启主机,重启完发现告警依然存在,分析自检日志认为是网口eth0对应链路有故障,于是down掉该eth0网口,重新测试,不再有报文丢失的现象了。判断应该就是uis-node7的eth0口网络亚健康问题。更换交换机端和服务器端光模块后重新拉起eth0后ping恢复正常,端口也已有流量。
排查日志,发现还是节点7网络存在亚健康状态,已将节点7eth0网络down掉,现在从节点7ping其他节点结果都是100%正常的。通过更换交换机端和服务器端光模块恢复eth0网口网络成功恢复了该节点网络侧的问题
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作