• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

R4900 G3服务器 MCA告警,服务器重启

2022-04-29 发表
  • 0关注
  • 1收藏 2881浏览
粉丝:6人 关注:0人

组网及说明

装配组件-H3C UniServer R4900 G3 25SFF-RS3Z8R4900C-CTO服务器-国内海外合一版

告警信息

NA

问题描述

客户两台R4900 G3服务器 MCA告警,服务器重启

过程分析

【第一台】
328 Critical 1 0 0 2021-11-30 20:29:39 2021-11-30 12:29:39 SensorType: Processor, SensorName: CPU1_Status, EventType: Discrete, Event: Machine Check Exception, Data3: 0 CPU 1 triggered an uncorrectable error. ——cpu1触发UCE报错

332 Warning 193 0 1 2021-11-30 20:29:40 2021-11-30 12:29:40 "Socket Address[48] MCA Error Src Log Info: 00h 14h 00h 00h 40h
MCA_ERR_SRC_LOG : 0x00140000
[20] MSMI internal
[18] MSMI_MCERR internal" ——内部错误

334 Warning 193 0 1 2021-11-30 20:29:40 2021-11-30 12:29:40"Socket Address[48] MCE Error Log Reg Info: 00h 00h 03h c6h 40h
MCERRLOGGINGREG : 0x000003c6
[9] FirstMCerrSrcFromCbo
[8] FirstMCerrSrcValid
[7:0] FirstMCerrSrcId = 0xc6" ——cpu1内部错误指向core 6 bank 9(后方无此bank具体报错信息)

342 Warning 193 0 1 2021-11-30 20:29:40 2021-11-30 12:29:40 "Socket Address[49] MCA Error Src Log Info: 00h a0h 00h 00h 40h
MCA_ERR_SRC_LOG : 0x00a00000
[23] MSMI External
[21] MSMI_MCERR External" ——cpu2表明外部错误

344 Warning 193 0 1 2021-11-30 20:29:40 2021-11-30 12:29:40 "Socket Address[49] MCE Error Log Reg Info: 00h 00h 01h 44h 40h
MCERRLOGGINGREG : 0x00000144
[8] FirstMCerrSrcValid
[7:0] FirstMCerrSrcId = 0x44" ——cpu2的FirstMCerrSrcId自证清白
从sds日志查看大概率为cpu1出现错误——更换cpu1解决

【第二台】
576 Caution 1 0 0 2021-12-13 12:11:59 2021-12-13 04:11:59 SensorType: Memory, SensorName: CPU1_DIMM_A11, EventType: Discrete, Event: Correctable ECC or other correctable memory error, Data2: 66, Data3: 17 CPU1 A11 triggered a correctable error ——A11 CE内存可修复错误

579 Warning 193 0 1 2021-12-13 12:12:00 2021-12-13 04:12:00 "Socket Address[48] MCA Error Src Log Info: 00h 18h 00h 00h 40h
MCA_ERR_SRC_LOG : 0x00180000
[20] MSMI internal
[19] MSMI_IERR internal"

581 Warning 193 0 1 2021-12-13 12:12:00 2021-12-13 04:12:00 "Socket Address[48] MCE Error Log Reg Info: 00h 00h 01h 44h 40h
MCERRLOGGINGREG : 0x00000144
[8] FirstMCerrSrcValid
[7:0] FirstMCerrSrcId = 0x44"

586 Warning 193 0 1 2021-12-13 12:12:00 2021-12-13 04:12:00 "Socket Address[48] Comm Bank[16]--IMC1 Chan1:[Status] 8ch 00h 00h 40h 00h 08h 00h c1h 40h;[Address] 00h 00h 00h 1bh 8ch 44h d3h 40h 40h;[Misc] 12h 21h 00h 00h 00h 00h 00h 86h 40h

Channel Num 2 Memory Scrubbing Error. This error indicates the patrol scrubber has detected an error.

MC16_STATUS : 0x8c000040000800c1
[63] Valid
[59] MC_MISC is valid
[58] MC_ADDR is valid
[52:38] Corrected Err Count = 0x0001
[31:16] Model Specific Error Code = 0x0008
[15:0] Machine Check Architecture Error Code = 0x00c1

MC16_ADDR : 0x0000001b8c44d340
[45:0] ADDRESS = 0x001b8c44d340

MC16_MISC : 0x1221000000000086
[63:9] EXTRA_ERR_INFO = 0x09108000000000
[8:6] ADDR_MODE = 0x02
[5:0] REC_ERR_LSB = 0x06" -指向IMC2 CHANNEL2与之前得A11内存清洗错误对应,因此需要更换此内存

589 Warning 193 0 1 2021-12-13 12:12:00 2021-12-13 04:12:00 "Socket Address[49] MCA Error Src Log Info: 00h c0h 00h 00h 40h
MCA_ERR_SRC_LOG : 0x00c00000
[23] MSMI External
[22] MSMI_IERR External"

591 Warning 193 0 1 2021-12-13 12:12:00 2021-12-13 04:12:00 "Socket Address[49] MCE Error Log Reg Info: 00h 00h 01h 44h 40h
MCERRLOGGINGREG : 0x00000144
[8] FirstMCerrSrcValid
[7:0] FirstMCerrSrcId = 0x44" ——cpu2自证清白
592 Warning 193 0 1 2021-12-13 12:12:00 2021-12-13 04:12:00"Socket Address[49] PCU First IERR Tsc Lo Info: 00h 00h 00h 00h 40h
PCU_FIRST_IERR_TSC_LO : 0x00000000" 593 Warning 193 0 1 2021-12-13 12:12:00 2021-12-13 04:12:00 "Socket Address[49] PCU First IERR Tsc Hi Info: 00h 00h 00h 00h 40h
PCU_FIRST_IERR_TSC_HI : 0x00000000"
594 Warning 193 0 1 2021-12-13 12:12:00 2021-12-13 04:12:00 "Socket Address[49] PCU First MCERR Tsc Lo Info: 00h 00h 00h 00h 40h
PCU_FIRST_MCEERR_TSC_LO : 0x00000000"
595 Warning 193 0 1 2021-12-13 12:12:00 2021-12-13 04:12:00 "Socket Address[49] PCU First MCERR Tsc Hi Info: 00h 00h 00h 00h 40h
PCU_FIRST_MCEERR_TSC_HI : 0x00000000" ——cpu2时间触发为0,另一侧为故障侧

解决方法

见过程分析

该案例对您是否有帮助:

您的评价:1

若您有关于案例的建议,请反馈:

作者在2022-04-29对此案例进行了修订
1 个评论
粉丝:0人 关注:0人

怎么解决的?

编辑评论

举报

×

侵犯我的权益 >
对根叔知了社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔知了社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作