H3C SeerEngine-Campus
E6103(包含)-E6104P04之间E61XX分支版本
E62XX分支所有版本
E6505H06(不含)之前E65XX分支版本
E6603P01(不含)之前E66XX分支版本
H3C SeerEngine-Campus上发现部分网元同时inactive,一段时间后自动恢复;【自动化>园区网络】菜单页面无法查看,一段时间后自动恢复;部分容器状态异常,用户认证或地址获取异常。
系统日志查看到网元inactive后恢复active的日志和campus控制器切主日志。
登录操作系统进入campus容器使用“top -H”查看总线程数超过5000 + 网元数量*25(网元数量为启用新自动化模板的Fabric中的网元数量),集群环境需要分别查看campus控制器的三个容器的总线程数,若其中一个容器线程数过高,则涉及该问题。
启用新自动化模板的Fabric在Fabrics页面查看带有新自动化拓扑,进入带新自动化拓扑图标的fabric,查看fabric内的网元数量。
由于产品实现不周,当同时满足如下两个条件时触发控制器出现大量线程残留。Campus占用大量线程后,同时也会占用大量内存导致出现设备无法激活及主备切换页面短时间无法访问的异常情况。当campus占用线程过多,EIA、GFS其他容器无法申请到线程时还会导致容器状态出现异常影响已有用户认证和地址获取。
1、 控制器上启用了新自动化模板
2、 网元反复去激活重新激活或网络存在反复震荡。
【规避措施】
若问题尚未发生,需定期对环境进行检查,查看线程总数是否超过5000+网元数量*25(网元数量为启用新自动化模板的Fabric中的网元数量),若超过需及时重启campus控制器的容器进行规避,集群环境需要重启线程数高的campus容器。
① 使用kubectl get pods -n campus查询campus容器,集群环境查看以campus1、campus2和campus3为首的三个容器,单机环境则查看以campus1为首的容器。
② 使用kubectl exec -it pod -n campus “容器名称” bash命令进入容器,使用top –H查看使用的总线程数,确认使用线程数超过5000 + 网元数量*25(网元数量为启用新自动化模板的Fabric中的网元数量)的容器。
③ 退出容器,使用kubectl delete pod -n campus “容器名称”重启容器,集群环境需要同时线程数高的容器。
④ 使用kubectl get pods -n campus查询campus1、campus2和campus3为首的容器状态均恢复正常,单机环境查询campus1为首的容器状态正常。
【解决方案】
E61XX分支、E62XX分支、E6505H06(不含)之前E65XX分支升级到E6505H06及以后版本解决
E66XX分支升级到E6603P04及以后版本解决
注1:只有特定场景下才会触发此技术公告,请关注问题触发条件。
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作