两台S6800设备堆叠成功后,做倒换测试,重启主设备,业务切换到备设备,会有几秒卡顿,丢大概两三个包后恢复;
主设备启动后,再重启备设备,业务没有丢包和延迟;
这种现象是正常情况吗?
主设备重启完成后,业务会自动重新切换回去吗?
无
(0)
参考官网的切换测试:
http://www.h3c.com/cn/About_H3C/company_publication/ip_lh/2009/six/home/catalog/200910/650643_30008_0.htm
对IRF2的测试,一般分为四个方面的内容:功能测试、性能测试、组网测试以及高可靠性测试。前三者的测试方法和传统的单机测试并没有太大差别,比如性能测试中的时延测试并不需要关心网络是运行在IRF架构下还是在单机环境下。但是由于IRF虚拟化的Active/Standby的架构,使其高可靠性测试具有自身的特点。本文通过分析IRF架构的特点,给出通用性的IRF高可靠性测试方法,以帮助用户选择适合自身实际应用的网络设备和设计出高可靠性的网络。传统的一些高可靠性测试方法并不在本文的描述范围内。
IRF2高可靠性测试
文/陆强
IRF测试环境的搭建
图 1 IRF 测试环境
IRF高可靠性测试组网如图1所示。测试组网使用典型的H3C企业园区网解决方案:采用二、三层相结合的网络结构,分为核心层、汇聚层和接入层,每个层次均由一组运行IRF的交换机构成。该组网运用IRF技术实现了网络设备间的横向整合,简化网络运行:传统的备份冗余链路被捆绑成单条逻辑链路,消除了复杂的VLAN+MSTP/VRRP的配置;路由协议被作为运行在单一设备内而统一计算,节省了设备间大量协议报文的交互,缩短了网络动荡时的收敛时间。
核心层使用两台S12500万兆核心交换机,两台核心交换机之间的IIL(Inner-IRF Link)采用多条万兆链路捆绑相连。
汇聚层使用两台S7500E万兆交换机,两台汇聚层交换机之间的IIL同样采用多条万兆链路捆绑相连。同时汇聚层和核心层的两组IRF设备之间采用4条万兆链路聚合捆绑相连。汇聚层和核心层之间运行OSPF路由协议,同时配置GR高可靠性协议。该汇聚层向接入用户提供网关服务。
接入层使用4台S5800交换机,使用环型IIL的方式组成IRF。接入层和汇聚层的两组IRF设备之间采用8条千兆聚合链路捆绑相连。
为了模拟企业园区的网络环境,需要构造庞大的路由表项、主机数以及相关流量来进行高可靠性测试。在核心层发布10000条OSPF路由,接入层使用8个端口进行测试,每个端口配置8个VLAN,每个VLAN内模拟100个主机,共计6400个主机。同时在每个VLAN内点播25个组,每个组对应4个组播源,组播源分属4个接口,部署在核心层设备上。因此,共计10000条单播路由、800条组播路由以及640万单播双向流和64万条组播流。路由和相关流量使用Spirent TestCenter测试仪器进行模拟。
IRF2高可靠性测试
以汇聚层交换机的高可靠性测试为例,分别对测试Active/Standby交换机异常断电、IRF分裂、聚合链路故障切换以及IIL聚合链路故障切换等,四种常见的网络故障下的流量切换情况进行阐述,最后针对在线升级技术在IRF上的应用测试进行讨论。
¨ Active/Standby交换机异常断电测试
在IRF架构中负责管理整个IRF的设备称为Active交换机(或者Master交换机),其它交换机称为Standby交换机(或者Slave交换机)。只有Active交换机上的主用引擎进行控制层面的处理,并生成转发表项。同时主用引擎以增量式和定时完整备份的方式将转发表项同步下发到其它引擎。由于其它引擎并未参与控制层面的处理,所以当主用引擎异常时可能会造成业务上中断,尤其是在部署基于邻居协商建立会话的协议(比如OSPF)的情况下。此类路由协议会话的重置造成的流量中断,传统上可以通过GR技术来避免。但是对于IRF系统来说,如果Active交换机异常(比如断电),不仅涉及到控制层面的中断,还影响到转发层面。因此如何在最短的时间内恢复业务,对于IRF技术来说是一个巨大的挑战。以此同时Active交换机异常时的故障恢复时间越来越成为运营商和企业用户关注的焦点,这也自然成为IRF高可靠性的核心指标之一。
这里采用对汇聚层IRF组的Active S7500E交换机断电的方式进行测试,如图2所示。测试过程中采用每端口的100,000frames/Second发包速率,也就是说每丢失一个报文意味着需要10 microsecond的切换时间。举个例子,如果Spirent TestCenter统计丢包数为10,000,那么故障恢复的时间就是100 millisecond。此外,采用断电Standby S7500E交换机的方式进行测试,当然因为只涉及到转发层面的中断和部分无效的控制层面的变化,其收敛时间也相对快得多。
图 2 Active交换机异常断电示意图
与对Active交换机进行断电,使Standby交换机切换为Active交换机的测试方法类似,给每台S7500E配置2块引擎,通过拔出引擎的方式来模拟Active交换机主引擎故障的场景来进行业务切换测试。这里不再赘述此种测试方法。
¨ IRF分裂测试
当IRF链路断开时,原IRF可能会分裂成全局配置(诸如IP、MAC地址)完全相同的两台(或者多台)IRF,这些IRF同时在网络中运行时可能会引起网络故障。以图3为例说明,当汇聚层IRF组分裂时,两台S7500E将成为独立的设备向接入用户提供IP地址完全一样的网关服务,这将不可避免地影响到业务的运行。为了提高系统的高可用性,H3C提出MAD(Multi-Active Detection)技术来检测网络中同时存在的多个IRF,并进行相应的处理从而保证网络能正常运行。MAD采用扩展LACP、BFD以及发送免费ARP这三种检测机制。
图 3 LACP MAD 检测机制示意图
在现实复杂的网络环境中,尤其是通过光纤将遥远的设备连接形成堆叠设备的情况下,IIL端口发生故障的情况时有发生,因此IRF分裂时故障恢复时间也成为考验IRF高可靠性的一项重要指标。
采用拔掉汇聚层IRF组之间IIL链路的光纤来进行此项测试。分别使用MAD LACP、MAD BFD以及免费ARP的检测方式进行三次测试,分别记录收敛时间。
¨ 聚合链路故障测试
链路聚合是将多个以太网物理端口聚合在一起形成一个逻辑聚合组,使用链路聚合服务的上层实体把同一聚合组内的多条物理链路视为一条逻辑链路。当前,链路聚合技术被广泛运用于互联网的网络的各个层次。为了提供更高级别的可靠性,在实际运行的IRF网络中经常部署跨设备的聚合链路,而在跨设备的情况下,聚合链路的抖动往往对用户业务的运行造成很大的影响。因此跨设备的聚合链路切换测试也成为最重要的IRF高可靠性测试内容之一。
此项测试通过拔掉汇聚层和核心层的两个IRF组的Active交换机间的链路进行,如图4所示。分别在静态和动态聚合两种方式下测试,记录切换时间。
图 4 聚合链路故障示意图
上述测试尽可能考虑在流量均匀的通过聚合链路的各条链路的情况下进行,对于流量没有通过故障链路的测试是没有意义的。
¨ IIL聚合链路故障测试
同业务端口可以采用聚合技术相似,IIL端口同样可以采用聚合的方式以确保更高级别的可靠性。但与业务口的聚合链路不同的是,IIL不仅承载数据业务,还承载相关的IRF控制协议报文,因此此项测试也是IRF高可靠性测试的必选项。测试方法同聚合链路故障测试。需要指出的是,此项测试必须考虑流量的转发通过IIL聚合链路的情况;对于进和出的流量均在单一设备内直接转发而没有进行跨设备转发的测试是没有意义的。对于H3C设备来说,可以采用配置非本地优先转发和流量负载分担来实现。
¨ IRF下的在线升级功能测试
网络设备常见的软件升级方式有两种:补丁式升级,适用网络操作系统变动较小的情况,一般不需要重新启动设备;完全式升级,使用新的系统重新启动设备。在线升级技术正是研究系统升级时如何在最短的时间内恢复业务的高可靠性技术。为了增进对在线升级技术的了解,这里给出一种常见的完全式升级的在线升级简易示意图,如图5所示:
图 5 在线升级示意图
关于在线升级功能的测试分两项进行:
首先是补丁式升级测试,上载补丁至Active交换机和Standby交换机,依次补丁升级Active和Standby交换机,记录此时流量切换的时间。
然后进行完全式的升级测试,上载新的系统镜像文件和业务接口板补丁至Active交换机和Standby交换机。指定新的镜像文件为下次启动文件,然后重启Standby交换机。此时Standby交换机以新系统启动。Active交换机检测出Standby交换机版本不一致,将Standby设置为RPR(Route Processor Redundancy)状态,此时Standby并不运行在工作状态。接着执行冗余强制倒换,原Active交换机使用新的镜像文件重启,Standby交换机升级成Active交换机;接着原Active交换机以Standby交换机的身份加入堆叠;最后补丁升级或者重新启动业务接口板。待业务接口板恢复后,业务得以全部恢复。计算整个过程中流量切换时间。
¨ 测试结果
表1为对H3C S7500E系列汇聚层交换机进行IRF实验室高可靠性的实测结果。从结果上可以看出,相对于传统的二、三层协议组网,采用IRF架构组网后的收敛时间有数量级上的优势。(注:该测试与本文的测试环境在背景表项和辅助设备等方面存在一定区别,但不会影响测试结果的数量级。测试数据仅供参考,具体实践中的收敛时间要以具体业务为准。)
测试项目 | 测试分项目 | 测试结果(上行/下行ms) |
IRF 高可靠性测试 | Active交换机断电,切换时延 | 3.9/0.9 |
Standby交换机断电,切换时延 | 5.0/1.0 | |
IRF 分裂切换时延 | 1.8/4.5 | |
聚合链路故障测试,切换时延 | 1.68/7.1 | |
IIL聚合链路故障,切换时延 | 80/163 |
表 1 H3C S7500E系列汇聚层交换机高可靠性测试结果
接入层和核心层的交换机的IRF高可靠性测试方法类似汇聚层的测试,仅在业务部署上存在差异,需要根据用户的实际业务进行调整,在此不赘述这两个层次的IRF高可靠性测试。此外,本文仅对当前用户最关心的一些高可靠性指标给出通用性的测试方法,并不涵盖所有的IRF高可靠性测试项目。
本文通过模拟用户实际应用中常见的设备、链路等各类故障,验证整个IRF网络端到端的收敛速度以及可靠性。从测试结果可以看出,IRF网络的可靠性较以往单机的二、三层组网有明显提高,其收敛速度明显加快。同时,随着IRF技术的不断完善以及测试技术的不断发展,会有更加合理的衡量指标与测试方法被进一步地发掘和采用,以帮助用户设计出更高可靠性的网络。
[1] 《How we tested Cisco"s VSS - Network World》(January 3, 2008)David Newman著
[2] 《网络高可用性技术概述》陈旭盛著.
附:
IRF2 功能及性能评测
——摘自《网络世界》“H3C S12518&S9512E核心交换机评测手记”
背景介绍:H3C基于Spirent TestCenter测试平台(共使用6台TestCenter SPT-9000A测试仪表,64块2×10GE网络测试板卡和256个10GE光模块),邀请《网络世界》记者一起,对H3C S12518(以下简称S12518)和H3C S9512E(以下简称S9512E)核心交换机进行评测,其中包括对IRF2的功能及性能测试。
上面介绍了那么多“IRF”功能的好处,那它的实际性能呢?H3C测试工程师通过“链路故障快速切换”测试为我们对S12518和S9512E的IRF2功能进行了实际的验证。
测试中,为S12518开启IRF2功能后,将两台S12518配置在同一个IRF组中。这时可以发现两台设备被虚拟成一台设备,端口容量扩大一倍,通过一个管理接口、界面进行管理,整个IRF系统只有一块主用主控板,其他主控板为备用。
然后在IRF上配置两台设备的跨框聚合,并发流量进行验证,结果表明:报文可以通过IRF实现三层转发。流量在聚合链路上负荷分担,没有被阻塞的端口。
再模拟其中一条链路中断,并记录流量中断丢包时长。以前未采用IRF技术时此项工作通常由路由收敛功能完成,丢包时间往往达到十几秒乃至数十秒以上对网络的稳定传输能力具有很大的影响,而现在采用了IRF技术后,丢包时间极大的缩短,实际测试结果均小于10毫秒。具体测试数据表明:S12518的链路中断丢包时间最长为0.97毫秒,最短为0.88毫秒。在链路恢复丢包时间更短,最长为0.24毫秒,最短为0.23毫秒。这样的结果,即便是在进行对网络要求较高的视频流量传输时,也不会产生出过大的影响。
S9512E也支持同样的IRF2功能。测试中S9512E的链路中断丢包时间为0.94毫秒。在链路恢复丢包时间最长为0.23毫秒,最短为0.17毫秒。
(0)
有其它文档吗,网页打不开,没有权限
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
复制过来了