Print

某局点CAS因存储故障发生fence后,告警无法自动恢复

组网及说明

CAS标准组网

问题描述

某局点开局部署CAS集群,存储侧由于在理线,导致存储链路一直在震荡,触发了CAS fence。于是现场直接断开了存储,但CAS侧仍然一直在告警共享文件系统异常,即使已经删除了共享存储池也仍然在不断告警。  

过程分析

CAS出现共享文件系统异常后,会产生告警,该告警5分钟发送一次,直到存储状态恢复,告警自动消失。现场断开存储后,由于存储状态一直没有恢复正常,此时就无法给CAS的告警模块发送存储恢复的消息,因此会不断告警,无法自动恢复。

解决方法

重启出现告警的节点的cas_mon进程,清理掉历史告警信息即可解决。