知

某局点CAS集群环境使用过程中一台主机出现重启的经验案例

2019-12-05 发表

0关注
0收藏 1956浏览

李树兵

李树兵七段

粉丝：4人关注：0人

组网及说明

CAS版本： E0306

Onestor版本：0115

三个节点组成超融合的集群，中间使用交换机互联。

问题描述

一台主机出现重启现象，上面的虚拟机漂移到其他的主机上面。

过程分析

第一步：确定主机重启的具体时间点，可以通过查看虚拟机的迁移时间（一般虚拟机迁移时间和主机重启时间相近），也可以通过登录设备中通过uptime以及date命令确定主机重启的时间，使用当前的date时间减去uptime的时间，可以得出这台主机重启的时间点

第二步：在CAS页面点击系统管理--操作日志--日志文件收集，选中故障的主机，时间范围能包含重启的时间点，选中之后点击“收集日志文件”，将日志文件收集。

第三步：因为现场使用的是共享文件系统，CAS使用的共享文件系统是开源的OCFS2，OCFS2中有两种情况可能会导致主机重启：第一种是Heartbeat Dead Threshold，这个是主机与存储之间的心跳，目前CAS中此值设置为61，也就是主机与存储超时达到120S之后会出现主机重启；第二种是主机之间的心跳超时，也就是Network idle timeout，CAS默认是90S，也就是如果主机之前90S心跳不通，会根据重启算法将主机进行重启。重启算法的计算方法如下：使用同一共享存储的主机间心跳超时，分3种情况处理主机数量为奇数某主机无法连通的主机数量大于等于（total+1）/2，则该主机Fence，否则不重启。比如节点A、B、C组成OCFS2集群，挂载了相同的存储池，如果节点B的管理网发生故障：则节点A或者B都可能发生fence，谁的编号大谁就重启。主机数量为偶数某主机无法连通的主机数量大于total/2，则该主机Fence 某主机无法连通的主机数量等于total/2，则集群编号为1或与1号连通的主机不Fence，否则Fence。

第四步：查看这台主机日志/var/log/ocfs2_fence_restart.log 日志，可以看到此主机出现了重启，原因为和其他节点的TCP未连接导致。

Restarted at 2019-11-06 17:11:25 (1573060285.935936). UNKOWN_DEV, UNKOWN_UUID, o2quo_make_decision: TCP disconnected with other nodes.

第五步：查看此时间的/var/log/syslog日志，可以看到重启之前，此主机和其他节点主机心跳网络超时，超过90S。进而导致导致主机重启

Nov 6 17:10:42 cvknode1 kernel: [41922516.530488] o2net: Connection to node cvknode3 (num 3) at 10.60.80.103:7100 has been idle for 90.112 secs. Nov 6 17:10:42 cvknode1 kernel: [41922516.530498] o2net_idle_timer 1596: Local and remote node is heartbeating, and try connect Nov 6 17:10:49 cvknode1 kernel: [41922523.704291] o2net: Connection to node cvknode2 (num 2) at 10.60.80.102:7100 has been idle for 90.112 secs.

Nov 6 17:11:25 cvknode1 kernel: [41922560.085641] (kworker/17:0,96609,17):o2quo_make_decision:212 ERROR: fencing this node because it is only connected to 1 nodes and 2 is needed to make a quorum out of 3 heartbeating nodes Nov 6 17:11:25 cvknode1 kernel: [41922560.085654] (kworker/17:0,96609,17):o2hb_stop_all_regions:2685 ERROR: stopping heartbeat on all active regions. Nov 6 17:11:25 cvknode1 kernel: [41922560.085660] *** ocfs2 is very sorry to be fencing this system by restarting *** Nov 6 17:11:25 cvknode1 kernel: [41922560.093149] ocfs2_restart file writting return 135

解决方法

因为主机之间的心跳报文走的是CAS的管理网络，所以需要保证管理网络稳定。

建议将管理网络设置为双链路聚合，增加网络稳定性。如果主机连接的交换机开启了生成树，则需要将此交换机连接主机的接口配置为生成树的边缘端口。用户设置之后未再出现主机重启的情况。

注意：

CAS使用共享存储环境中出现主机重启的情况，首先考虑是否是因为OCFS2导致。

OCFS2中有两种情况可能会导致主机重启：第一种是Heartbeat Dead Threshold，这个是主机与存储之间的心跳，目前CAS中此值设置为61，也就是主机与存储超时达到120S之后会出现主机重启；第二种是主机之间的心跳超时，也就是Network idle timeout，CAS默认是90S，也就是如果主机之前90S心跳不通，会根据重启算法将主机进行重启。重启算法的计算方法如下：使用同一共享存储的主机间心跳超时，分3种情况处理主机数量为奇数某主机无法连通的主机数量大于等于（total+1）/2，则该主机Fence，否则不重启。比如节点A、B、C组成OCFS2集群，挂载了相同的存储池，如果节点B的管理网发生故障：则节点A或者B都可能发生fence，谁的编号大谁就重启。主机数量为偶数某主机无法连通的主机数量大于total/2，则该主机Fence 某主机无法连通的主机数量等于total/2，则集群编号为1或与1号连通的主机不Fence，否则Fence。

如果不是因为OCFS2导致可以查看主机中再/vms目录下是否存在kdump的日志，如果存在，可以收集此信息联系新华三工程师进行分析。

该案例对您是否有帮助：

您的评价：1

若您有关于案例的建议，请反馈：

0 个评论

该案例暂时没有网友评论

编辑评论

侵犯我的权益 >

对根叔知了社区有害的内容 >

辱骂、歧视、挑衅等（不友善）

侵犯我的权益

泄露了我的隐私 >

侵犯了我企业的权益 >

抄袭了我的内容 >

诽谤我 >

辱骂、歧视、挑衅等（不友善）

骚扰我

泄露了我的隐私

您好，当您发现根叔知了上有泄漏您隐私的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您认为哪些内容泄露了您的隐私？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

侵犯了我企业的权益

您好，当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱，我们会在审核后尽快给您答复。

1. 您举报的内容是什么？（请在邮件中列出您举报的内容和链接地址）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）
3. 是哪家企业？（营业执照，单位登记证明等证件）
4. 您与该企业的关系是？（您是企业法人或被授权人，需提供企业委托授权书）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

原文链接或出处

诽谤我

您好，当您发现根叔知了上有诽谤您的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您举报的内容以及侵犯了您什么权益？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔知了社区有害的内容

垃圾广告信息

色情、暴力、血腥等违反法律法规的内容

政治敏感

不规范转载 >

辱骂、歧视、挑衅等（不友善）

骚扰我

诱导投票

不规范转载

举报说明

✖

案例意见反馈

➤

网站相关: 关于我们; 服务条款; 帮助中心; 经验与权限; 积分规则

联系我们: 联系我们; 建议反馈

常用链接: 知了APP下载; 标杆的神器下载

关注我们: H3C官网; 新华三服务公众号; 安仔远程运维服务; 新华三商城

内容许可: 除特别说明外，用户内容均可采用知识共享署名-相同方式共享3.0中国大陆许可协议进行许可

本图标版权归新华三集团所有，仅限本社区使用，切勿用做商业目的，违者必究

浙ICP备09064986号-1 浙公网安备 33010802004416号

✖

亲~登录后才可以操作哦!

确定

✖

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

✖

你的邮箱还未认证，请认证邮箱或绑定手机后进行当前操作

✖

产品线		搜索取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式	默认策略匹配全词匹配整句

某局点CAS集群环境使用过程中一台主机出现重启的经验案例

组网及说明

问题描述

过程分析

解决方法

编辑评论

提出建议