CAS平台的fence机制主要有两种:
1. 传统的重启主机方式:当一个节点因为访问存储异常或者管理网通信异常时,系统会通过重启主机来处理故障,确保OCFS2集群的正常工作。
2. 新增的umount机制:为了缩小隔离的粒度并提供一种更加温和的处理方式,CAS平台引入了以共享文件系统为粒度的隔离手段。当存储异常时,系统会通过umount故障文件系统的方式来隔离问题,而不是重启整个物理主机,这样可以减少对用户其他业务的影响。
用户可以通过系统管理的参数配置页面,设置“共享存储故障隔离”参数为“不重启主机”,从而启用新的umount机制。
请问这个的现象是否是触发了fence机制?
看描述属于存储网或者管理网异常了,这个在cas主机后台的日志里面会有记录,可以直接在message日志里面fence的关键字
是的,该问题极有可能触发了CAS平台的fence机制(存储网络超过120S中断),导致虚拟机全部关机。
在CAS虚拟化环境中,共享存储的访问一致性依赖于集群节点间的心跳通信。当您升级并重启堆叠交换机时,若交换机重启过程中出现网络中断或延迟恢复,会导致CVK主机之间以及CVK主机与存储之间的通信中断(心跳超时)。此时,CAS集群会判断部分主机失去响应,为防止数据不一致,触发fence机制,将这些主机隔离并重启,以保护共享文件系统的完整性。
结合历史信息,此类问题通常与交换机故障、存储链路中断或网络震荡有关。本次升级后重启交换机,若堆叠交换机的根桥切换、端口状态延迟恢复或堆叠分裂等问题发生,会造成瞬时或持续的网络中断,从而引发集群心跳丢失,最终触发fence机制,导致所有主机重启、虚拟机关机。
建议后续操作:
1. 检查CVK主机系统日志(/var/log/messages)和集群日志,确认是否出现“fence”或“quorum lost”相关记录;
2. 确保堆叠交换机配置稳定,根桥角色明确,避免意外切换;
3. 采用分阶段重启交换机或主机维护模式升级,避免业务中断。
综上,本次虚拟机关机是由于交换机重启导致网络中断,触发CAS集群fence机制所致。
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
看描述属于存储网或者管理网异常了,这个在cas主机后台的日志里面会有记录,可以直接在message日志里面fence的关键字