环境:5台服务器做集群 CAS版本:V7.0
如下图:所有虚机均出现HA异常
点击齿轮后,处理失败,无法解决问题,集群间通讯正常
cvm_ha、cak_ha状态正常。
重启2个服务,HA还是异常。
关闭集群HA功能后,不在提示HA异常,重启开启HA功能,又提示HA异常。
(0)
这个云图能访问吗,按照里面的提示查一下
https://zhiliao.h3c.com/Theme/Chart/1121
(0)
谢谢,我刚对照里边的排错步骤看了,不一样,解决不了
根据维护手册(E0785及之后版本),此类故障可能由以下原因导致:
1、HA目录同步异常
虚拟机的XML配置文件未正常同步至CVM的HA目录(/etc/cvm/ha/clust_id/cvk_name)。
2、CVM与CVK通信故障
管理网络闪断或端口阻塞(如性能数据端口9120异常)。
3、元数据残留或损坏
HA进程残留冻结标记(/var/run/casha/目录下的残留文件)。
4、资源超限触发保护
CVK主机CPU/内存利用率超过80%时,HA功能自动暂停(手册5W108明确说明)。
排查及解决步骤
1. 检查HA配置文件同步
# 登录CVM主机,检查HA目录下的XML文件状态
ls -l /etc/cvm/ha/*/cvk_name/
异常现象:若目录为空或虚拟机XML文件缺失,需手动同步文件(参考手册章节1和3)。
处理方式:从正常CVK拷贝XML文件至CVM的HA目录(示例命令):
scp root@<CVK_IP>:/etc/libvirt/qemu/<vm_name>.xml /etc/cvm/ha/<cluster_id>/<cvk_name>/
2. 验证性能数据上报
# 在CVK主机执行性能数据检测 cha get-perf-data host -m cha get-perf-data vm -m
异常现象:返回failed to connect或超时错误(手册5W109章节1)。
处理方式: 重启cas_mon服务:
service cas_mon restart
检查CVM的9120端口连通性:telnet <CVM_IP> 9120
若端口不通,检查防火墙规则或网络设备策略。
3. 清理HA残留标记
# 检查并清理冻结标记(手册5W108案例)
ls /var/run/casha/
# 若存在残留文件(如vm_name.lock),强制删除:
rm -f /var/run/casha/<vm_name>*
注意:此操作需关闭集群HA后执行。
4. 关闭并重新启用HA
关闭集群HA: 管理界面 → 集群 → 右键 关闭高可靠性。
重启HA服务:
# CVM主机重启cvm_ha service cvm_ha restart
# 所有CVK主机重启cvk_ha service cvk_ha restart
重新启用HA: 管理界面 → 集群 → 右键 开启高可靠性。
5. 检查资源利用率
CPU/内存监控:在CVM界面查看CVK主机性能数据。
处理建议:若资源利用率>80%,迁移部分虚拟机或扩容资源(手册明确说明阈值限制)。
日志收集关键点 若以上步骤未解决,收集以下日志提交分析:
CVM日志: /var/log/tomcat8/cas.log /var/log/cas_ha/cvm_ha.log(重点检查同步错误日志)
CVK日志: /var/log/cas_mon.log(性能上报状态) /var/log/cas_ha/alarm_script.log(告警事件)
若问题仍无法解决,请参考维护手册的紧急处理建议,或联系H3C技术支持(400-810-0504)并提供完整的日志信息。
(0)
CAS版本:V7.0 (E0730P06)
CAS版本:V7.0 (E0730P06)
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
谢谢,我刚对照里边的排错步骤看了,不一样,解决不了