您好,参考
BMC(Baseboard Management Controller,全称基板管理控制器),是独立于系统之外的小型操作系统,负责服务器的硬件状态管理、操作系统管理、健康状态管理、功耗管理等核心功能。
BMC日志包括:①BMC常规信息;②BMC SEL日志(System Event Log,全称系统事件日志);③BMC黑匣子日志。
BMC常规信息包括:BMC版本、BIOS版本、时间、SDR、CPLD版本信息等。
BMC SEL日志(System Event Log),全称系统事件日志,下文系统事件日志均以SEL日志表示。
SEL日志记录主要设备的状态变化,传感器的历史变化以及规范定义的标准事件。SEL日志的功能特性如下:
最多支持3639个条目。
支持循环模式,且循环模式为默认模式。当SEL已满时,最旧的日志将被丢弃,新产生的日志被保留。
SEL记录方式设置为循环存储模式时,SEL记录存满后会自动滑动记录新的日志和丢弃最早记录的日志;
SEL记录方式设置为线性存储模式时,SEL记录存满后则无法再继续记录日志。
支持通过BMC WEB或IPMI CMD导出。
支持通过SNMPTrap、Syslog通知事件到远程客户端。
SEL日志记录遵循IPMI规范,当IPMI标准事件被触发后,SEL日志就会被记录。SEL日志按照日志输出内容,可细分为:阈值型、通用型和传感器特定型。不同事件类型如表5‑3所示。
表5‑3不同事件日志类型
类型 | 描述 | 事件举例 |
阈值型 | 传感器会设定一定的阈值,根据传感器当前读值与阈值比较,触发日志告警。例如:温度、电压,风扇转速等传感器。 | 传感器:所有阈值类传感器 事件:根据当前传感器读数与阈值比较,会有以下6种事件: Upper NonRecoverable Threshold Upper Critical Threshold Upper NonCritical Threshold Lower None Recoverable Threshold Lower Critical Threshold Lower None Critical Threshold |
通用型 | 表示一些和部件类型无关的通用状态型传感器日志告警。例如在位、拔插、可预测性故障。 | 传感器:风扇状态、ME状态等 事件:根据当前传感器状态码,有以下4种事件: State Deasserted State Asserted Predictive Failure deasserted Predictive Failure asserted |
传感器特定型 | 特定类型传感器的离散量,指示离散状态信息特定于传感器类型。例如:CPU状态、内存状态、硬盘状态,PCIE卡状态等传感器。 | 传感器:CPU状态 事件:根据当前传感器状态码,有以下13种事件: IERR Thermal Trip FRB1/BIST failure FRB1/Hang in POST failure FRB3/Processor Start up/Initialization failure Configuration Error SMBIOS ‘Uncorrectable CPU-complex Error’ Processor presence detected Processor disabled Terminator Automatically Throttled Machine Check Exception Correctable Machine CheckError |
以上是关于BMC SEL日志的基本说明。而SEL日志的收集,可通过BMC WEB页面或Ipmitool工具实现。
(1)通过BMC WEB获取SEL日志
通过BMC IP登录BMC WEB UI。导航至“日志->日志查询”,此页面显示所有基于传感器的日志,用户可以配置事件类型、事件发生时间段参数,对系统事件日志进行过滤。如图5.1所示。
图5.1 BMC WEB获取SEL日志界面
SEL日志中不同ID对应的信息如表5‑4所示。
表5‑4 SEL日志中不同ID信息
ID | SEL中的事件ID |
传感器 | 传感器名称,可通过ipmitool sdr elist查看该设备上所有传感器名称 |
事件级别 | 事件的紧急程度: 轻微、严重、紧急 |
时间 | 事件生成时间 |
状态 | 当前状态 |
描述 | 事件详细信息 |
日志下载过程中,相关步骤如表5‑5所示。
表5‑5日志下载相关步骤含义
参数 | 描述 |
查询 | 选择事件类型、传感器和起止日期进行过滤搜索 |
动作 | 用过滤器选项(事件类型、传感器名称、起止时间),查看设备中记录的特定事件 |
重置 | 清空筛选条件 |
下载日志 | 下载事件日志到本地 |
清空日志 | 该选项将删除所有现有传感器日志记录并新增条‘sel被清除’的日志 |
(2)通过ipmitool获取SEL日志
系统下使用命令:“ipmitool sel list”,可列出当前设备上所有传感器的历史事件记录。显示的日志信息包含ID,日期,时间,传感器名称,描述和状态。如图5.2所示。
图5.2 ipmitool指令界面
附:SEL日志含义分析实例
①开机实例日志:6 | 07/07/2021 | 06:12:16 | System ACPI Power State #0x25 | S0/G0: working | Asserted
②温度过高日志告警实例:21 | 07/07/2021 | 06:27:08 | Temperature #0x18 | Upper Non-critical going high
③PCIE 故障实例:22 | 07/07/2021 | 08:25:10 | Critical Interrupt #0xe4| Bus Correctable error
BMC黑匣子日志包括:BMC记录截屏信息、BMC报错日志和监控信息、BMC配置信息和状态信息、BMC网络及线程信息。
(2)通过BMC WEB收集
通过BMC IP登录BMC WEB UI。导航至“故障诊断->服务器黑匣子”,此页面下载服务器异常前的BMC调试信息,以供分析使用。如图5.3所示。
图5.3服务器黑匣子日志收集界面
具体文件包含义如表5‑6所示。
表5‑6黑匣子日志文件包含义
文件包 | 描述 |
capturescreen.tar | 收集BMC记录截屏信息 |
bmcloginfo.tar | 收集BMC报错日志和监控信息 |
bmcstatusinfo.tar | 收集BMC配置信息和状态信息 |
bmcsysteminfo.tar | 收集BMC网络及线程信息 |
(0)
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论