Print

H3C ADDC强控网络overlay组网环境微软故障转移集群业务无法正常运行经验案例

2018-06-30 发表

组网及说明



组网信息:如上图所示,两台H3C S6800作为网络overlay的接入设备,虚机VM1 IP为188.202.1.242,虚机VM2 IP为188.202.1.243。虚机VM1与虚机VM2之间运行微软的故障转移集群业务,虚IP为188.202.1.244。


问题描述

故障现象:微软故障转移群集是一种高可用性的基础结构层,由多台计算机组成,每台计算机相当于一个冗余节点,整个群集系统允许某部分节点掉线、故障或损坏而不影响整个系统的正常运作。它以“心跳机制”来监视各个节点的健康状况;备用服务器以心跳信号来确定活动服务器是否正常,要让备用服务器变成主活动服务器,它必须确定原主活动服务器不再正常工作。某局点通过将VM1关机来模拟VM1故障,发现VM2在探测VM1的健康状况是收到了回复报文,导致虚IP未正常转移至VM2。   


过程分析

抓包信息如下:  



分析:当检测到主活动服务器故障时,备用服务器在启用虚IP前,会发虚IP的ARP探测报文,以检查网络中是否还有其他设备使用虚IP,在传统vlan网络中,由于主活动服务器已处于故障网络中不会有应答报文,因此备用服务器能顺利成为活动服务器启动虚IP并提供服务。但在SDN网络中,由于虚IP是在控制器上线的,控制器收到虚IP的探测报文后,为了防止网络中存在重复IP,是会应答这个探测报文。这种情况下,备用服务器收到控制器的应答报文后,认为网络中已存在该虚IP,导致启动虚IP失败。


解决方法

解决方法,虚IP所在的network上,在高级设置里把ARP泛洪打开,ARP代答关闭。如下图:


这样虚IP的探测报文控制器就不会代答了。