cluster 中控数据中心-X86/ARM/DMZ区-X86
的 HA storage-failure-response 属性未保持默认值 'No Action'
确认当前配置
登录集群各节点执行命令:
# Pacemaker集群检查
pcs resource show | grep -A5 "存储资源名称"
# 或
crm configure show
重点检查 storage-failure-response
的当前值。
检查配置变更原因
评估策略影响
当前设置值 | 风险说明 |
---|---|
standby | 存储故障时节点进入待机,可能导致服务中断 |
fence | 触发节点隔离,可能引发脑裂风险 |
panic | 直接内核崩溃,造成不可控宕机 |
恢复默认配置
# 批量修复所有节点
pcs property set storage-failure-respOnse=no-action --all
# 验证配置
pcs property list | grep storage-failure-response
根本原因预防
/etc/sysconfig/ha
添加配置锁:LOCK_HA_COnFIG=yes
auditctl -w /etc/cluster/ -p wa
共享文件系统 7f9b4ddc4327480fa8026612a2db6891
使用默认网络传输心跳
定位问题文件系统
# 通过UUID查找挂载点
ocfs2_find_vol /dev/mapper/* | grep 7f9b4ddc4327480fa8026612a2db6891
检查当前网络配置
# 查看OCFS2集群配置
cat /etc/ocfs2/cluster.conf
# 验证心跳网络接口
o2info -v /mnt/ocfs2_mount_point | grep Heartbeat
配置专用心跳网络
# 修改集群配置文件
vi /etc/ocfs2/cluster.conf
添加节点专用心跳配置:
node:
number = 1
name = node1
cluster = ocfs2
ip_address = 192.168.1.10 # 业务IP
ip_port = 7777
heartbeat = 10.10.10.10 # 专用心跳IP <<< 关键配置
应用新配置
# 重载所有节点配置
service o2cb reload
# 重启OCFS2服务
service ocfs2 restart && service o2cb restart
验证优化效果
# 查看心跳包路径
tcpdump -i eth1 'port 7777' -nn # eth1为心跳网卡
# 检查网络延迟
ocfstool -T /mnt/ocfs2_mount_point
问题类型 | 监控命令 | 自动化修复方案 |
---|---|---|
HA存储策略 | `pcs status | grep -i storage-failure` |
OCFS2网络 | o2ping -t 1000 <节点IP> | 部署Zabbix监控心跳延迟 |
重要提示:
- 修改前备份集群配置:
pcs config backup /root/pcs_backup_$(date +%F)
- 变更操作需在维护窗口进行
- 测试环境验证后再上生产
(0)
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论