hardware-failure-detection 中isolate如何理解
isolate:检测到故障时,设备会自动关闭端口、隔离单板、禁止单板加载或给单板下电,从而尽量减小故障的影响。
隔离单板、禁止单板加载或给单板下电,都是用来隔离单板。
常见的隔离单板的故障,比如单板心跳超时。
正常情况下,每个框的主用主控板监控框内各单板状态,周期性的发送IPC报文进行探测。如果某块单板出现挂死,主控板一段时间探测失败,则需要重启对应的单板。warning级别只输出日志告警,reset级别会下电重启对应的单板,反复重启。如果是isolate级别也会重启单板,但是重启次数超过三次之后单板就切换置isolate状态,禁止单板启动了。
自动关闭端口用在隔离端口的场景:
1. 堆叠口有CRC故障会隔离堆叠口
2. 业务板HG口有UPDOWN故障和CRC故障也会隔离该单板堆叠口
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作