• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

ECR硬盘故障检测分析专题

2010-12-03 发表
  • 0关注
  • 0收藏 1095浏览
粉丝: 关注:

             ECR硬盘故障检测分析专题

关键词:ECR、硬盘、故障、

    要:指导用服人员检测ECR故障硬盘(检测时请区分客户自购硬盘和公司出货硬盘)。主要包含:ECR硬盘故障的主要原因,HD Tune硬盘测试软件使用,硬盘使用的注意事项,重点在于介绍ECR故障硬盘检测操作分析过程,如果对其中一些细节不熟悉,可能还需要结合相关用户手册或维护手册来参考。


 

1 硬盘故障及主要原因. 3

1.1 导致硬盘硬故障的主要原因. 3

1.2 软故障主要原因. 4

2 硬盘测试. 4

2.1 HD Tune硬盘测试件使用说明. 5

2.1.1 操作方法. 5

2.1.2 数据分析. 7

2.1.3 结果分析. 9

2.2 ECR对于硬盘下线的处理机制. 10

2.3 硬盘使用注意事项. 11

2.3.1 安装. 12

2.3.2 维护. 13


1  硬盘故障及主要原因

硬盘故障分为硬件故障和软件故障两类,诊断依据主要是根据系统上电后的现象、屏幕上出现的提示信息和测试软件的结果来判断。当硬盘出现故障后,应仔细分析故障现象,判断是属软故障还是物理器件损坏。

1.1  硬件故障的主要原因

硬盘硬件故障指由硬盘自身的机械零件或电子元器件损坏而引起。剧烈的震动、频繁开关机、电路短路、供电电压不稳定等比较容易引发硬盘物理性故障。主要包括扇区物理性损坏(常称为物理坏道)、磁头组件损坏、控制电路损坏和综合性损坏等。

1). 在读/写磁头和磁碟并非直接接触,中间有一层空气垫,这是由磁碟高速转动产生的。如果硬盘磁头和磁片碰撞接触可能会损坏读写磁头,就可能刮花磁片表面出现坏道,也可能使读/写磁头产生偏移。

2). 磁碟连接到电机上,通过电机的转动带动磁碟转动。随着使用的年限的增加,电机也会出故障。硬盘上的电机故障或者轴承出问题,都会降低磁碟转速、使磁碟与读写磁头之间不同步而导致读/写数据出错。

3). 硬盘采用高度过滤的通风孔,以便维持硬盘内部和外部的空气压力平衡,并提供磁头与磁碟之间的空气层。如果过滤通风孔出故障,就有可能使外界的灰尘颗粒通过通风孔进入硬盘内部,这些灰尘将会对划伤磁片造成坏道。

4). 硬盘上的控制电路也可能由于受人体静电影响而损坏。

1.2  软件故障主要原因

软件故障的含义是指硬盘上一些重要或有特殊意义的数据丢失、损坏或被修改而引起的引导失败或读写故障。硬盘的软故障大多是由于使用不当或维护不当造成的,例如系统区信息损坏、CMOS参数丢失或病毒入侵等。硬盘软故障相对于硬故障来说对数据的损坏程度小,更容易修复。

因此,对一个硬盘的好坏并不能单从是否存在坏道来判断,而应该结合各种其它诊断信息来综合判断。

2  硬盘测试

2.1  HD Tune硬盘测试软件使用说明

HD Tune 是一款小巧易用的硬盘工具软件,其主要功能有硬盘传输速率检测,健康状态检测,温度检测及磁盘表面扫描等。另外,还能检测出硬盘的固件版本、 序列号、容量、缓存大小以及当前的Ultra DMA模式等。虽然这些功能其它软件也有,但难能可贵的是此软件把所有这些功能积于一身,而且非常小巧,速度又快, 更重要的是它是免费软件,可自由使用。

HD Tune其中一个功能就是对硬盘进行全面扫描,找出硬盘中的坏道,下面对该软件的基本操作进行简单说明:

2.1.1  操作方法

1). 运行HD Tune.exe,出现如下界面,在红箭头所指处选择要测试的硬盘:

2). 按“错误扫描”选项,出现如下界面,不要选择“快速扫描”直接按“开始”;

3). 测试开始,如果没有坏道,则界面上出现的方块全部为绿色,若检查出坏道,则会出现红块,如下图所示:

4). 测试结束后,查看硬盘健康状态

2.1.2  数据分析

硬盘通过HDTune软件进行检测的结果如下所示,可以看到,坏道扫描(注意,如果使用的是快速扫描,并不是全盘扫描)结果是合格的,但是其SMART信息即健康信息的各项参数已经达到亚健康状态,SMART信息是硬盘工作过程中累加统计结果,可说明硬盘工作过程状态,这说明硬盘在使用过程中出错的可能性很大,下面对这些参数进行分析:

1). ID号为05这一行为再分配扇区数,记录硬盘内部替代扇区数量,一般要求为0,从几块硬盘检测结果来看,有的硬盘这个数据已经成千上万,大大超出其阀值要求,说明之前该硬盘使用过程中出现过不少的坏扇区,只是被内部替换掉,替换后从检测结果来看是没有坏扇区,但是这些坏扇区使用一段时间后会向四周扩散,使其周围好扇区变坏,所以这块硬盘使用起来隐患很大;

2). ID号为07这一行为寻道错误数,一般要求为0,但是这些硬盘该数据已经达到一个很大的数字,说明其运行过程中寻道错误率很高,可以判断这些硬盘的磁头已经有所损耗或是盘片不平,或者是硬盘运行过程中振动过大或经常性遭到碰撞;

3). ID号为C3这一行为ECC校验恢复次数,ECC为硬盘内部对写入盘片的一个校验手段,一般在读出的数据与ECC校验值不符时,会能过ECC对数据进行恢复,该参数一般要求为0,这里数字很大,说明硬盘运行过程中经常出现读错误;

4). 另外,硬盘连接到PC无法识别,很有可能是软故障,即可能是系统区信息遭到损坏,导致系统不能识别硬盘;当然也存在硬故障可能,如磁头或电机损坏,接口芯片损坏等,这个可能性较小。

2.1.3  结果分析

总体来说,这些硬盘已经处于一个不健康的状态,一方面出错率会很高,另一方面存在数据丢失的风险。出现大量的硬盘故障,很有可能有如下原因造成

1). 硬盘来料不合格,可是运输过程包材不合格等原因导致硬盘损坏,如有坏道,而这种撞击产生的坏道是会扩散的,用了一段时间后,坏道会增加,导致出错率加大;,一般来说,上面所说的几个参数应该都为0;(现在我们公司出货的硬盘所有参数数值都为0

2). 硬盘为桌面级硬盘,只支持7×5小时工作时间,而在监控领域一般都是长时间不间断地工作,这会大大影响硬盘的寿命(厂家明确指出在这种工作条件下硬盘寿命是不能保证的);监控领域内应用的硬盘一般都要求采用监控专用硬盘或企业级硬盘。

2.2  ECR对于硬盘下线的处理机制

1). 系统刚启动或者有热插拔操作时,驱动程序会去识别硬盘。识别过程中有一项软复位操作,如果软复位操作超时,驱动会对该硬盘做下线处理。此种情况表现为无法识别硬盘。

2). 驱动程序会监测每个在线硬盘的IO错误计数,如果在一段时间内IO错误增加超过阈值,会对该硬盘做下线处理。多次重试成功的,不算在IO错误计数内;多次重试并最终失败的,只计一次IO错误。此种情况表现为硬盘创阵列时下线,或者记录数据一段时间后下线。

3). 内核(SCSI模块)在对硬盘操作过程中,如果发现有命令执行超时或者命令异常,会唤醒scsi-error进程,然后尝试一系列的resetretry等恢复操作,如果都没成功,则把该硬盘置为下线状态,此种情况硬盘表现为硬盘创阵列时下线,或者记录数据一段时间后下线。

2.3  硬盘使用注意事项

在使用硬盘过程中,有如下注意事项,硬盘是精密器件,若使用不当,很容易导致出错。

2.3.1  安装

1). 安装前或拆离硬盘后,硬盘一定要放在静电防护袋里,并放在平整干净的地方,最好放在衬垫上。手拿硬盘时一定要用静电防护袋包装,或只抓住边框,切忌用手触摸硬盘背面的PCB板,芯片及接头 信号插针,以防静电击坏硬盘控制器。对硬盘进行操作前,要安全接地,带上静电环,如果没有静电环,请经常触摸接了电源地线的计算机外壳,以便把身体静电放掉。

2). 放置硬盘要小心轻放,并保持水平,最好是PCB板朝下;一定不要堆放,叠放。

3). 轻拿轻放,注意要避免硬盘遭受撞击或强烈的震动。工作时的振动破坏经常能立刻表现出来,非工作时间的振动会给硬盘使用留下隐患,由其引起的故障经常是过了一段时间后才表现出来,让使用者难于定位故障真正原因。

4). 操作时不能挤压硬盘的顶盖,硬盘是很脆弱很精密的仪器,内部稍微的一点扭矩和变形都会使它工作不正常。

5). 安装时要注意,硬盘使用一个空气过滤器,将外部空气过滤导入到内部盘体,以免内外部气压差损坏HDA(Head Disk Assembly),空气过滤器接口不能被堵住,否则会损坏硬盘。安装硬盘时不要强烈晃动,电源和信号电缆安装或拆除时要正向用力,以避免插针变形,导致信号传输接触不良,任何数据位或片选信号接触不良都可能导致硬盘检测失败。

6). 硬盘控制器和盘体电路之间由一片FPC(柔性电路)连接,它很容易被撕裂,操作时候要小心。

7). 安装时,硬盘和其它外设(安装面除外)的净空间不能小于0.05inches(1.25mm),以防受到电磁干扰。

8). 保持工作环境清洁,虽然硬盘是密封体,但若环境中灰尘过多还是会引起硬盘的接触不良、局部短路或灰尘进入盘体内部等故障。

2.3.2  维护

1). 切忌使用电压波动大于15%5V12V电源。

2). 切忌非正常关机,冷启动的时间间隔必须大于10秒。

3). 马达旋转时不要搬动硬盘,操作前要保证完全停转,目前硬盘马达停转一般需要10S左右的时间,所以最好在断电10S以后再移动硬盘;因此热插拔的硬盘拔出后最好能先在框内轨道上放上10秒钟后再移动。

4). 拔出不用的硬盘最好能马上用防静电袋包装归位。

5). 故障硬盘寄回公司时必须使用合格的包装材料,以免再引入其它不确定的因素。

若您有关于案例的建议,请反馈:

作者在2010-12-07对此案例进行了修订
0 个评论

该案例暂时没有网友评论

编辑评论

举报

×

侵犯我的权益 >
对根叔知了社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔知了社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作