• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

某局点一台H3C UIS-Cell 3010 G3一体机硬盘故障的诊断分析

2019-06-21 发表
  • 0关注
  • 0收藏 4924浏览
周锋 九段
粉丝:32人 关注:0人

组网及说明


问题描述

某局点一台H3C UIS-Cell 3010 G3一体机用户反馈前面6块硬盘一起出现橙色和蓝色指示灯交替闪烁。业务未出现中断的情况。

过程分析

H3C UIS-Cell 3010 G3底层的硬件是H3C UniServer R4900 G3服务器,具体分析过程如下:

1.登录HDM的Web界面,查看左侧“系统信息”下的“传感器信息”,在右侧主界面选中“硬盘”标签页,发现F04硬盘出现严重报错,如下图所示:


2.点击左侧“硬件信息”菜单,选择右侧主窗体的“存储”标签页,发现少了物理驱动器3,如下图所示:


3.收集SDS日志,分析发现动态监控日志里有如下掉盘(F04)和逻辑驱动器降级记录:


2019-05-03 05:38:30        PD is offline ---Pos:  Front  Panel index: 3


2019-05-03 05:38:30        LD 0 has changed from optimal to degraded.


2019-05-03 05:38:33        SensorType: Drive Slot (Bay), SensorName: HDD_F04_Status, EventType: Discrete, Event: Drive Fault Drive fault


4. 从SDS也能看到配置的是PMC的P430-M2卡,故使用arcconf工具收集阵列卡日志,从controller_1_config.txt文件发现是6块硬盘配置成的RAID5,逻辑驱动器0当前是降级的状态,其中slot 3(或者叫bay 4)硬盘缺失,日志记录如下:


Logical Device number 0


   Logical Device name                      : DefaultValue0


   Block Size of member drives              : 512 Bytes


   RAID level                               : 5


   Unique Identifier                        : E1FB32B3


   Status of Logical Device                 : Degraded


   Additional details                       : Initialized with Build/Clear


   Size                                     : 8575985 MB


   Parity space                             : 1715199 MB


   Stripe-unit size                         : 256 KB


   Interface Type                           : Serial Attached SCSI


   Device Type                              : HDD


   Read-cache setting                       : Enabled


   Read-cache status                        : On


   Write-cache setting                      : Enabled


   Write-cache status                       : On


   Partitioned                              : Yes


   Protected by Hot-Spare                   : No


   Bootable                                 : Yes


   Failed stripes                           : No


   Power settings                           : Disabled


   --------------------------------------------------------


   Logical Device segment information


   --------------------------------------------------------


   Segment 0                                : Present (1716957MB, SAS, HDD, Enclosure:0, Slot:0) W3Z17NQV0000K817KUPS


   Segment 1                                : Present (1716957MB, SAS, HDD, Enclosure:0, Slot:1) W3Z171LP0000K8170VLP


   Segment 2                                : Present (1716957MB, SAS, HDD, Enclosure:0, Slot:2) W3Z18A0G0000K815JR1W


   Segment 3                                : Missing (0MB, SAS, HDD, Connector:0, Device:3)


   Segment 4                                : Present (1716957MB, SAS, HDD, Enclosure:0, Slot:4) W3Z1745N0000K817KSS3


  Segment 5                                : Present (1716957MB, SAS, HDD, Enclosure:0, Slot:5) W3Z1740D0000K817KU3K


5. 检查对应时间点的Controller_1_Logs.txt发现,dev03(也就是bay4)硬盘有hardware error,具体原因是磁头的随机定位错误,KCQ值是04/15/01,未发现阵列卡及固件的IOP reset或者hung等错误,如下:


[14098]: 05:41:42 ProcessSRB_Errors: Service Response 0, Scsi Status 2 
[14099]: Fri - May 3 05:41:42 2019.587360 ScsiStatus=2 ServResp=0 devt=0x3 Cdb[0:15]=0x2800ccef:e5200000:08000000:00000000 
[14100]: Fri - May 3 05:41:42 2019.587477 RS: Check Condition hhmmss=0x00054149 incident=0x00003aaf nexus=0x01020002 devt=0x00000003 
[14101]: 05:41:42 expevent 0001000C - 00:03:00 SCSI Sense code key=04 asc=15 ascq=01 
[14102]: 05:41:42 ID(0:03:0); Error Event [Cmd:0x28] 
[14103]: Fri - May 3 05:41:42 2019.587777 DC_DecodeSenseInfo: ID(0:03:0); [k:0x4;c:0x15;q:0x1] 
[14104]: 05:41:42 Hardware Error 
[14105]: Fri - May 3 05:41:42 2019.587908 DC_DecodeSenseInfo: ID(0:03:0) 
[14106]: 05:41:42 Random Positioning Error 
[14107]: Fri - May 3 05:41:42 2019.588045 SP_CloseNexus: Setting ID(0:03:0) offline. failure Reason Code=4 
[14108]: 05:41:42 IsContainerPartition: Container device 0x3 
[14109]: 05:41:42 Vendor ID: SEAGATE Product ID: ST1800MM0018 Serial Number: W3Z189X00000K816NVFV 
[14110]: 05:41:42 SAS WWN: 50 00 C5 00 A0 DA 44 44 
[14111]: 05:41:42 DDLog for devt: 3 with reason: 4 


[14163]: 05:41:42 FSAPRINT: @Drive 0:3:0 returning error 
[14164]: 05:41:42 FSAPRINT: Drive 0:3:0 offline on container 0: 
[14165]: 05:41:42 Turning alarm ON for RaidDriveFailEvent from CtPupCodeAlarmOn().. 
[14166]: 05:41:42 CtPupCodeAlarmOn() call AlarmOnOff()OnBit=1 
[14167]: 05:41:42 AlarmOnOff() Alarm already on... 
[14168]: 05:41:42 UpdateFailOnDisk: Enter 
[14169]: 05:41:42 UpdateFailOnDisk: container 0x0 
[14170]: 05:41:42 UpdateFailOnDisk: REDUNDANT container 
[14171]: 05:41:42 Turning alarm ON for RaidDriveFailEvent from CtPupCodeAlarmOn().. 
[14172]: 05:41:42 CtPupCodeAlarmOn() call AlarmOnOff()OnBit=1 
[14173]: 05:41:42 AlarmOnOff() Alarm already on... 
[14174]: 05:41:42 FSAPRINT: !RAID5 Container 0 Drive 0:3:0 Failure 
[14175]: 05:41:42 Turning alarm ON for RaidDriveFailEvent from CtPupCodeAlarmOn().. 
[14176]: 05:41:42 CtPupCodeAlarmOn() call AlarmOnOff()OnBit=1 
[14177]: 05:41:42 AlarmOnOff() Alarm already on... 
[14178]: 05:41:42 ReadSliceMBR: can"t read mbr dev_t:1 
[14179]: 05:41:42 UpdateFailOnDisk: Skipping, no container 
[14180]: 05:41:42 UpdateFailOnDisk: Skipping, no container 
[14181]: 05:41:42 UpdateFailOnDisk: Skipping, no container 
[14182]: 05:41:43 ReadSliceMBR: can"t read mbr dev_t:1 
[14183]: 05:41:43 can"t read config from slice #[1] 
[14184]: 05:41:43 GetFailoverSlice: GetContainerFailoverSlice returns ffffffff 
[14185]: 05:41:43 ReadSliceMBR: can"t read mbr dev_t:1 
[14186]: 05:41:43 can"t read config from slice #[1] 
[14187]: 05:41:43 GetFailoverSlice: no_failover_device:1 
[14188]: 05:41:43 CheckRAID5:GetFailoverSlice returned:ffffffff 
[14189]: 05:41:43 ReadSliceMBR: can"t read mbr dev_t:1 
[14190]: 05:41:43 CT_GetHotSpareType: can"t read config from slice #[1] 
[14191]: 05:41:43 FSAPRINT: RAID5 Failover Container 0 No Failover Assigned 


6. Controller_1_Monitor_Log.txt中也发现指向devt03的错误code是4,KCQ是04/15/01的报错记录,未发现与阵列卡及固件相关的报错,记录如下:

05/03/19 05:41:42.587360: ScsiStatus=2 ServResp=0 devt=0x3 Cdb[0:15]=0x2800ccef:e5200000:08000000:00000000
05/03/19 05:41:42.587477: RS: Check Condition hhmmss=0x00054149 incident=0x00003aaf nexus=0x01020002 devt=0x00000003
05/03/19 05:41:42.587777: DC_DecodeSenseInfo: ID(0:03:0); [k:0x4;c:0x15;q:0x1]
05/03/19 05:41:42.587908: DC_DecodeSenseInfo: ID(0:03:0)
05/03/19 05:41:42.588045: SP_CloseNexus: Setting ID(0:03:0) offline. failure Reason Code=4
05/03/19 05:41:42.588937: ID_AIC_DEV_TASK: rmw_nexus=0x01020002 state=0x01000100:01000201:02020f00:0f090f0a:0f090f0a:02050203:02040600
05/03/19 05:41:42.591771: ScsiStatus=109 ServResp=1 devt=0x3 Cdb[0:15]=0x2a00ccef:fe000002:00000000:00000000
05/03/19 05:41:42.591875: SRV_DLVRY_TGT_FAILURE Abort handling for STATUS: 0x6d on devt=0x00000003 !
05/03/19 05:41:42.592174: ScsiStatus=109 ServResp=1 devt=0x3 Cdb[0:15]=0x2800ccef:e6880000:08000000:00000000
05/03/19 05:41:42.592277: SRV_DLVRY_TGT_FAILURE Abort handling for STATUS: 0x6d on devt=0x00000003 !
05/03/19 05:41:42.592573: ScsiStatus=109 ServResp=1 devt=0x3 Cdb[0:15]=0x2800ccef:e1c80000:08000000:00000000
05/03/19 05:41:42.592676: SRV_DLVRY_TGT_FAILURE Abort handling for STATUS: 0x6d on devt=0x00000003 !


7. Controller_1_SmartStats.xml日志未发现bay4硬盘,同时其他硬盘未发现有错误记录;


8. 配置的阵列卡是RAID-P430-M2,固件和驱动都不是最新版本,日志记录如下:


Controller Type                         : RAID-P430-M2

Firmware Version                        : 33270


   --------------------------------------------------------


   Controller Version Information


   --------------------------------------------------------


   BIOS                                     : 7.13-0 (33270)


   Firmware                                 : 7.13-0 (33270)


   Driver                                   : 1.2-1 (50792)


   Boot Flash                               : 7.13-0 (33270)


   CPLD (Load version/ Flash version)       : 8/ 8


   SEEPROM (Load version/ Flash version)    : 1/ 1


   FCT Custom Init String Version           : 0x3


从上述可以定位问题的根因就是bay 4硬盘损坏,该硬盘截留分析也发现无法识别到,问题指向硬盘的磁头。


解决方法

1.做好数据备份,更换故障硬盘;

2.更新阵列卡固件及驱动到最新版本(FW:33303,Drv:57013)。


该案例对您是否有帮助:

您的评价:1

若您有关于案例的建议,请反馈:

1 个评论
初见 二段
粉丝:0人 关注:1人

请问3010 G3的驱动哪里下载


编辑评论

举报

×

侵犯我的权益 >
对根叔知了社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔知了社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作