紫光交换机,这俩是什么告警,就报了一次,这个是监控哪个温度
%@3027119%May 1 14:54:31:491 2026 WHDCH78SWH10A-TR-T-JRY DEV/2/BOARD_ALARM_OCCUR: Board alarm occurred. (PhysicalIndex=78, PhysicalName=Board, RelativeResource=(chiptype:temperature chip,slot:1,chipid:0), ErrorCode=433003, Reason=Failed to access the temperature sensor.)
%@3027120%May 1 14:54:31:579 2026 WHDCH78SWH10A-TR-T-JRY DEV/2/BOARD_ALARM_CLEAR: Board alarm cleared. (PhysicalIndex=78, PhysicalName=Board, RelativeResource=(chiptype:temperature chip,slot:1,chipid:0), ErrorCode=433003, Reason=Restored access to the temperature sensor.)
这两条告警分别表示系统检测到硬件异常和该异常已自动恢复,具体含义如下:
DEV/2/BOARD_ALARM_OCCUR:表示系统在 1号槽位(slot:1)的 0号温度芯片(chipid:0)发生了 “访问失败”(Failed to access)的硬件告警。
DEV/2/BOARD_ALARM_CLEAR:表示该告警状态已自动清除,系统已经 “恢复对该温度传感器的访问”(Restored access)
根据告警内容 chiptype:temperature chip, slot:1 可知,本次出问题的传感器位于 1号槽位单板的内部温度芯片,并非监控某个特定接口或电源模块,而是为了确保设备核心处理器和芯片工作在安全温度范围内的板级温度检测。
由于告警仅出现一次且立即恢复 (Occur 与 Clear 日志仅相隔 88毫秒),这通常是由瞬时性的软件读取错误或极短暂的电气噪声导致的,无需立即处理。
但为避免潜在风险,建议进行以下操作:
1. 检查关键状态与日志
显示温度:登录设备执行 display environment。重点关注返回值中所有温度传感器的当前读数,是否有一个显示为 N/A 或 --(表示无法读取)。
检查硬件/错误日志:执行 display logbuffer 和 display device,检查是否有其他硬件相关报错或单板状态异常。
2. 进行物理检查(可选,可在业务低峰期操作)
如果上述检查均显示正常,基本可以判断为偶发事件。若确需排查物理链路,可在业务低峰期执行以下操作:
确认槽位:确认 slot:1 是否为业务板槽位。
安全插拔:佩戴防静电手环,拔出该槽位板卡,用橡皮擦轻轻擦拭其金手指部分,清除氧化层后重新插回并固定。
暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论