• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 全部
  • 全部
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
高级搜索

HPE ProLiant DL380 Gen9服务器间歇性紫屏

2018-05-24 发表
  • 2关注
  • 1收藏,3836浏览
周锋 九段
粉丝:25人 关注:0人

组网及说明



问题描述

某局点1台HPE ProLiant DL380 Gen9服务器间歇性紫屏死机(PSOD)。配置有NVMe硬盘,NVMe硬盘充当vSAN中的Cache层,目前NVMe使用正常,vSphere客户端下没有报警。紫屏截图如下:



过程分析

收集了硬件的AHS日志和VM-Support日志进行分析,具体的日志分析如下:



  1. PSOD时间点有从逻辑18CPU的回溯信息,如下:

    2018-03-14T12:09:52.059Z cpu18:2156619)World: 2774: PRDA 0x418044800000 ss 0x4018 ds 0x4018 es 0x4018 fs 0x0 gs 0x0
    2018-03-14T12:09:52.059Z cpu18:2156619)World: 2776: TR 0x4000 GDT 0xfffffffffc60a000 (0xffff) IDT 0xfffffffffc608000 (0xffff)
    2018-03-14T12:09:52.059Z cpu18:2156619)World: 2777: CR0 0x80050031 CR3 0xd9cf8d000 CR4 0x142668
    [7m2018-03-14T12:09:52.129Z cpu18:2156619)WARNING: kbdmode_set:519: invalid keyboard mode 4: Not supported[0m
    2018-03-14T12:09:52.129Z cpu18:2156619)Backtrace for current CPU #18, worldID=2156619, fp=0x418044800080
    2018-03-14T12:09:52.129Z cpu18:2156619)0x43944259bd50:[0x4180202cc119]CpuSched_Charge@vmkernel#nover+0x1b9 stack: 0x80000000, 0x439443527280, 0x1, 0x4180202c640c, 0x4394434a7100
    2018-03-14T12:09:52.129Z cpu18:2156619)0x43944259bd80:[0x4180202c640c]CpuSchedDispatch@vmkernel#nover+0xbc stack: 0x410000000001, 0x4394dc0a7100, 0x418044800108, 0x418044800120, 0x439443527100
    2018-03-14T12:09:52.129Z cpu18:2156619)0x43944259beb0:[0x4180202c8712]CpuSchedWait@vmkernel#nover+0x27a stack: 0x1004394425a7000, 0x5b6e40aed0ee0, 0x800000000, 0x410026e8c7c0, 0x0
    2018-03-14T12:09:52.129Z cpu18:2156619)0x43944259bf30:[0x4180202c8e2c]CpuSched_VcpuHalt@vmkernel#nover+0x104 stack: 0x439400002001, 0xffffffe3, 0x7, 0x439443527100, 0x401
    2018-03-14T12:09:52.129Z cpu18:2156619)0x43944259bf80:[0x4180201198b7]VMMVMKCall_Call@vmkernel#nover+0x157 stack: 0x43944259bfec, 0x24600000000, 0x41802014b81b, 0xfffffffffc607c50, 0x0
    2018-03-14T12:09:52.129Z cpu18:2156619)0x43944259bfe0:[0x41802014b8a2]VMKVMM_ArchEnterVMKernel@vmkernel#nover+0xe stack: 0x0, 0xfffffffffc4074c3, 0x0, 0x0, 0x0
    2018-03-14T12:09:52.161Z cpu18:2156619)[45m[33;1mVMware ESXi 6.5.0 [Releasebuild-7388607 x86_64][0m
    #PF Exception 14 in world 2156619:vmm3:m16Win0 IP 0x4180202cc119 addr 0x0
    PTEs:0x4dacff7027;0x4b4f8c2027;0xbfffffffff001;

    2018-03-14T12:09:52.162Z cpu18:2156619)cr0=0x80050031 cr2=0x0 cr3=0xd9cf8d000 cr4=0x142668
    2018-03-14T12:09:52.162Z cpu18:2156619)frame=0x43944259bc90 ip=0x4180202cc119 err=11 rflags=0x10002
    2018-03-14T12:09:52.163Z cpu18:2156619)rax=0x1 rbx=0x439443527100 rcx=0x4394435276b0
    2018-03-14T12:09:52.163Z cpu18:2156619)rdx=0x4394f81a76b0 rbp=0x418044800080 rsi=0x0
    2018-03-14T12:09:52.163Z cpu18:2156619)rdi=0x418044800100 r8=0x14f96 r9=0x6ac37d2e
    2018-03-14T12:09:52.163Z cpu18:2156619)r10=0xd16c r11=0x0 r12=0x418044800000
    2018-03-14T12:09:52.163Z cpu18:2156619)r13=0x43944259be20 r14=0x43944259be28 r15=0x418044800000
    2018-03-14T12:09:52.163Z cpu18:2156619)pcpu:0 world:67047 name:"VSAN_0x430c6b737b98_LSOMLLOG" (S)
    2018-03-14T12:09:52.163Z cpu18:2156619)pcpu:1 world:66760 name:"VSAN_0x430bb3eb5c98_Owner" (S)
    2018-03-14T12:09:52.163Z cpu18:2156619)pcpu:2 world:69466 name:"vpxa-fair" (U)
    2018-03-14T12:09:52.163Z cpu18:2156619)pcpu:3 world:67012 name:"VSAN_0x430c6b32c318_PLOG" (S)
    2018-03-14T12:09:52.163Z cpu18:2156619)pcpu:4 world:66288 name:"tq:tcpip4" (S)
    2018-03-14T12:09:52.163Z cpu18:2156619)pcpu:5 world:67835 name:"python" (U)
    2018-03-14T12:09:52.163Z cpu18:2156619)pcpu:6 world:70766 name:"rhttpproxy-work" (U)
    2018-03-14T12:09:52.163Z cpu18:2156619)pcpu:7 world:70764 name:"rhttpproxy-work" (U)
    2018-03-14T12:09:52.163Z cpu18:2156619)pcpu:8 world:65687 name:"retireWld.0008" (S)
    2018-03-14T12:09:52.163Z cpu18:2156619)pcpu:9 world:65578 name:"netCoalesce2World" (S)
    2018-03-14T12:09:52.163Z cpu18:2156619)pcpu:10 world:65573 name:"tlbflushcounttryflush" (S)
    2018-03-14T12:09:52.163Z cpu18:2156619)pcpu:11 world:69481 name:"vpxa-worker" (U)
    2018-03-14T12:09:52.164Z cpu18:2156619)pcpu:12 world:66257 name:"ntg3Async" (S)
    2018-03-14T12:09:52.164Z cpu18:2156619)pcpu:13 world:65865 name:"VSCSIPoll" (S)
    2018-03-14T12:09:52.164Z cpu18:2156619)pcpu:14 world:65693 name:"retireWld.0014" (S)
    2018-03-14T12:09:52.164Z cpu18:2156619)pcpu:15 world:66364 name:"Cmpl-vmhba0-0" (S)
    2018-03-14T12:09:52.164Z cpu18:2156619)pcpu:16 world:2162378 name:"vmm0:m16Win004" (V)
    2018-03-14T12:09:52.164Z cpu18:2156619)pcpu:17 world:2156608 name:"vmm0:m16Win013" (V)
    2018-03-14T12:09:52.164Z cpu18:2156619)pcpu:18 world:2156619 name:"vmm3:m16Win013" (V)
    2018-03-14T12:09:52.164Z cpu18:2156619)pcpu:19 world:2161479 name:"vmm1:m16Win001" (V)
    2018-03-14T12:09:52.164Z cpu18:2156619)pcpu:20 world:2162375 name:"vmm0:m16Win040" (V)
    2018-03-14T12:09:52.164Z cpu18:2156619)pcpu:21 world:2161456 name:"vmm0:m16Win001" (V)
    2018-03-14T12:09:52.164Z cpu18:2156619)pcpu:22 world:2161913 name:"vmm3:m16Win046" (V)
    2018-03-14T12:09:52.164Z cpu18:2156619)pcpu:23 world:2162390 name:"vmm2:m16Win004" (V)
    2018-03-14T12:09:52.164Z cpu18:2156619)pcpu:24 world:2162391 name:"vmm3:m16Win004" (V)
    2018-03-14T12:09:52.164Z cpu18:2156619)pcpu:25 world:2162386 name:"vmm3:m16Win040" (V)
    2018-03-14T12:09:52.164Z cpu18:2156619)pcpu:26 world:2161480 name:"vmm2:m16Win001" (V)
    2018-03-14T12:09:52.164Z cpu18:2156619)pcpu:27 world:2161484 name:"vmm1:m16Win037" (V)
    2018-03-14T12:09:52.164Z cpu18:2156619)pcpu:28 world:2161475 name:"vmm2:m16Win028" (V)
    2018-03-14T12:09:52.164Z cpu18:2156619)pcpu:29 world:2161471 name:"vmm3:m16Win019" (V)
    2018-03-14T12:09:52.164Z cpu18:2156619)pcpu:30 world:2161476 name:"vmm3:m16Win028" (V)
    2018-03-14T12:09:52.164Z cpu18:2156619)pcpu:31 world:2162385 name:"vmm2:m16Win040" (V)

     

  2. PCPU18对应的是node2处理器,也就是物理的2CPU,如下:

    \==+Cpu Cores :
    \==+CpuImpl
    :
    |----ID........................................16
    |----Family....................................6
    |----Model.....................................79
    |----Type......................................0
    |----Stepping..................................1
    |----Name......................................GenuineIntel
    |----CPU Speed.................................3196297925
    |----Bus Speed.................................99884295
    |----APIC ID...................................0x00000020
    |----Node......................................1

    Line 13271: |----ID..............................................1
    Line 13275: |----ID........................................16
    Line 13325: |----ID........................................17
    Line 13375: |----ID........................................18
    Line 13425: |----ID........................................19
    Line 13475: |----ID........................................20
    Line 13525: |----ID........................................21
    Line 13575: |----ID........................................22
    Line 13625: |----ID........................................23
    Line 13675: |----ID........................................24
    Line 13725: |----ID........................................25
    Line 13775: |----ID........................................26
    Line 13825: |----ID........................................27
    Line 13875: |----ID........................................28
    Line 13925: |----ID........................................29
    Line 13975: |----ID........................................30
    Line 14025: |----ID........................................31

    \==+CpuImpl :
    |----ID........................................18
    |----Family....................................6
    |----Model.....................................79
    |----Type......................................0
    |----Stepping..................................1
    |----Name......................................GenuineIntel
    |----CPU Speed.................................3196297925
    |----Bus Speed.................................99884295
    |----APIC ID...................................0x00000024
    |----Node......................................1

     

  3. 2CPU型号是Intel Xeon E5-2667 v4如下:

    Proc 1 Intel(R) Xeon(R) CPU E5-2667 v4 @ 3.20GHz 3.20 GHz 4.00 GHz 8/8 Broadwell BDX B.0
    Proc 2 Intel(R) Xeon(R) CPU E5-2667 v4 @ 3.20GHz 3.20 GHz 4.00 GHz 8/8 Broadwell BDX B.0



解决方法

PSOD记录的halt信息只有CPU的没有其他的,所以我们考虑是否是CPU的问题,优先考虑更换指向的2号CPU后经过观察测试紫屏死机问题解决。


0 个评论

该案例暂时没有网友评论

编辑评论

举报

×

侵犯我的权益 >
对根叔知了社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔知了社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明

提出建议

    +
<

亲~登录后才可以操作哦!

确定

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作