ECR硬盘故障检测分析专题
关键词:ECR、硬盘、故障、
摘 要:指导用服人员检测ECR故障硬盘(检测时请区分客户自购硬盘和公司出货硬盘)。主要包含:ECR硬盘故障的主要原因,HD Tune硬盘测试软件使用,硬盘使用的注意事项,重点在于介绍ECR故障硬盘检测操作分析过程,如果对其中一些细节不熟悉,可能还需要结合相关用户手册或维护手册来参考。
目 录
1 硬盘故障及主要原因. 3
1.1 导致硬盘硬故障的主要原因. 3
1.2 软故障主要原因. 4
2 硬盘测试. 4
2.1 HD Tune硬盘测试软件使用说明. 5
2.1.1 操作方法. 5
2.1.2 数据分析. 7
2.1.3 结果分析. 9
2.2 ECR对于硬盘下线的处理机制. 10
2.3 硬盘使用注意事项. 11
2.3.1 安装. 12
2.3.2 维护. 13
硬盘故障分为硬件故障和软件故障两类,诊断依据主要是根据系统上电后的现象、屏幕上出现的提示信息和测试软件的结果来判断。当硬盘出现故障后,应仔细分析故障现象,判断是属软故障还是物理器件损坏。
1.1 硬件故障的主要原因
硬盘硬件故障指由硬盘自身的机械零件或电子元器件损坏而引起。剧烈的震动、频繁开关机、电路短路、供电电压不稳定等比较容易引发硬盘物理性故障。主要包括扇区物理性损坏(常称为物理坏道)、磁头组件损坏、控制电路损坏和综合性损坏等。
1). 在读/写磁头和磁碟并非直接接触,中间有一层空气垫,这是由磁碟高速转动产生的。如果硬盘磁头和磁片碰撞接触可能会损坏读写磁头,就可能刮花磁片表面出现坏道,也可能使读/写磁头产生偏移。
2). 磁碟连接到电机上,通过电机的转动带动磁碟转动。随着使用的年限的增加,电机也会出故障。硬盘上的电机故障或者轴承出问题,都会降低磁碟转速、使磁碟与读写磁头之间不同步而导致读/写数据出错。
3). 硬盘采用高度过滤的通风孔,以便维持硬盘内部和外部的空气压力平衡,并提供磁头与磁碟之间的空气层。如果过滤通风孔出故障,就有可能使外界的灰尘颗粒通过通风孔进入硬盘内部,这些灰尘将会对划伤磁片造成坏道。
4). 硬盘上的控制电路也可能由于受人体静电影响而损坏。
软件故障的含义是指硬盘上一些重要或有特殊意义的数据丢失、损坏或被修改而引起的引导失败或读写故障。硬盘的软故障大多是由于使用不当或维护不当造成的,例如系统区信息损坏、CMOS参数丢失或病毒入侵等。硬盘软故障相对于硬故障来说对数据的损坏程度小,更容易修复。
因此,对一个硬盘的好坏并不能单从是否存在坏道来判断,而应该结合各种其它诊断信息来综合判断。
HD Tune 是一款小巧易用的硬盘工具软件,其主要功能有硬盘传输速率检测,健康状态检测,温度检测及磁盘表面扫描等。另外,还能检测出硬盘的固件版本、 序列号、容量、缓存大小以及当前的Ultra DMA模式等。虽然这些功能其它软件也有,但难能可贵的是此软件把所有这些功能积于一身,而且非常小巧,速度又快, 更重要的是它是免费软件,可自由使用。
HD Tune其中一个功能就是对硬盘进行全面扫描,找出硬盘中的坏道,下面对该软件的基本操作进行简单说明:
1). 运行HD Tune.exe,出现如下界面,在红箭头所指处选择要测试的硬盘:
2). 按“错误扫描”选项,出现如下界面,不要选择“快速扫描”直接按“开始”;
3). 测试开始,如果没有坏道,则界面上出现的方块全部为绿色,若检查出坏道,则会出现红块,如下图所示:
4). 测试结束后,查看硬盘健康状态
硬盘通过HDTune软件进行检测的结果如下所示,可以看到,坏道扫描(注意,如果使用的是快速扫描,并不是全盘扫描)结果是合格的,但是其SMART信息即健康信息的各项参数已经达到亚健康状态,SMART信息是硬盘工作过程中累加统计结果,可说明硬盘工作过程状态,这说明硬盘在使用过程中出错的可能性很大,下面对这些参数进行分析:
1). ID号为05这一行为再分配扇区数,记录硬盘内部替代扇区数量,一般要求为0,从几块硬盘检测结果来看,有的硬盘这个数据已经成千上万,大大超出其阀值要求,说明之前该硬盘使用过程中出现过不少的坏扇区,只是被内部替换掉,替换后从检测结果来看是没有坏扇区,但是这些坏扇区使用一段时间后会向四周扩散,使其周围好扇区变坏,所以这块硬盘使用起来隐患很大;
2). ID号为07这一行为寻道错误数,一般要求为0,但是这些硬盘该数据已经达到一个很大的数字,说明其运行过程中寻道错误率很高,可以判断这些硬盘的磁头已经有所损耗或是盘片不平,或者是硬盘运行过程中振动过大或经常性遭到碰撞;
3). ID号为C3这一行为ECC校验恢复次数,ECC为硬盘内部对写入盘片的一个校验手段,一般在读出的数据与ECC校验值不符时,会能过ECC对数据进行恢复,该参数一般要求为0,这里数字很大,说明硬盘运行过程中经常出现读错误;
4). 另外,硬盘连接到PC无法识别,很有可能是软故障,即可能是系统区信息遭到损坏,导致系统不能识别硬盘;当然也存在硬故障可能,如磁头或电机损坏,接口芯片损坏等,这个可能性较小。
总体来说,这些硬盘已经处于一个不健康的状态,一方面出错率会很高,另一方面存在数据丢失的风险。出现大量的硬盘故障,很有可能有如下原因造成
1). 硬盘来料不合格,可是运输过程包材不合格等原因导致硬盘损坏,如有坏道,而这种撞击产生的坏道是会扩散的,用了一段时间后,坏道会增加,导致出错率加大;,一般来说,上面所说的几个参数应该都为0;(现在我们公司出货的硬盘所有参数数值都为0)
2). 硬盘为桌面级硬盘,只支持7×5小时工作时间,而在监控领域一般都是长时间不间断地工作,这会大大影响硬盘的寿命(厂家明确指出在这种工作条件下硬盘寿命是不能保证的);监控领域内应用的硬盘一般都要求采用监控专用硬盘或企业级硬盘。
1). 系统刚启动或者有热插拔操作时,驱动程序会去识别硬盘。识别过程中有一项软复位操作,如果软复位操作超时,驱动会对该硬盘做下线处理。此种情况表现为无法识别硬盘。
2). 驱动程序会监测每个在线硬盘的IO错误计数,如果在一段时间内IO错误增加超过阈值,会对该硬盘做下线处理。多次重试成功的,不算在IO错误计数内;多次重试并最终失败的,只计一次IO错误。此种情况表现为硬盘创阵列时下线,或者记录数据一段时间后下线。
3). 内核(SCSI模块)在对硬盘操作过程中,如果发现有命令执行超时或者命令异常,会唤醒scsi-error进程,然后尝试一系列的reset、retry等恢复操作,如果都没成功,则把该硬盘置为下线状态,此种情况硬盘表现为硬盘创阵列时下线,或者记录数据一段时间后下线。
在使用硬盘过程中,有如下注意事项,硬盘是精密器件,若使用不当,很容易导致出错。
1). 安装前或拆离硬盘后,硬盘一定要放在静电防护袋里,并放在平整干净的地方,最好放在衬垫上。手拿硬盘时一定要用静电防护袋包装,或只抓住边框,切忌用手触摸硬盘背面的PCB板,芯片及接头 信号插针,以防静电击坏硬盘控制器。对硬盘进行操作前,要安全接地,带上静电环,如果没有静电环,请经常触摸接了电源地线的计算机外壳,以便把身体静电放掉。
2). 放置硬盘要小心轻放,并保持水平,最好是PCB板朝下;一定不要堆放,叠放。
3). 轻拿轻放,注意要避免硬盘遭受撞击或强烈的震动。工作时的振动破坏经常能立刻表现出来,非工作时间的振动会给硬盘使用留下隐患,由其引起的故障经常是过了一段时间后才表现出来,让使用者难于定位故障真正原因。
4). 操作时不能挤压硬盘的顶盖,硬盘是很脆弱很精密的仪器,内部稍微的一点扭矩和变形都会使它工作不正常。
5). 安装时要注意,硬盘使用一个空气过滤器,将外部空气过滤导入到内部盘体,以免内外部气压差损坏HDA(Head Disk Assembly),空气过滤器接口不能被堵住,否则会损坏硬盘。安装硬盘时不要强烈晃动,电源和信号电缆安装或拆除时要正向用力,以避免插针变形,导致信号传输接触不良,任何数据位或片选信号接触不良都可能导致硬盘检测失败。
6). 硬盘控制器和盘体电路之间由一片FPC(柔性电路)连接,它很容易被撕裂,操作时候要小心。
7). 安装时,硬盘和其它外设(安装面除外)的净空间不能小于0.05inches(1.25mm),以防受到电磁干扰。
8). 保持工作环境清洁,虽然硬盘是密封体,但若环境中灰尘过多还是会引起硬盘的接触不良、局部短路或灰尘进入盘体内部等故障。
1). 切忌使用电压波动大于15%的5V,12V电源。
2). 切忌非正常关机,冷启动的时间间隔必须大于10秒。
3). 马达旋转时不要搬动硬盘,操作前要保证完全停转,目前硬盘马达停转一般需要10S左右的时间,所以最好在断电10S以后再移动硬盘;因此热插拔的硬盘拔出后最好能先在框内轨道上放上10秒钟后再移动。
4). 拔出不用的硬盘最好能马上用防静电袋包装归位。
5). 故障硬盘寄回公司时必须使用合格的包装材料,以免再引入其它不确定的因素。