CN103197995B

CN103197995B - 硬盘故障检测方法及装置

Info

Publication number: CN103197995B
Application number: CN201210001334.1A
Authority: CN
Inventors: 胡殿明; 魏伟; 王志谦
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-01-04
Filing date: 2012-01-04
Publication date: 2016-06-15
Anticipated expiration: 2032-01-04
Also published as: CN103197995A

Abstract

本发明提出一种硬盘故障检测方法及装置。其中，该方法包括以下步骤：接收关于硬盘的故障报告；收集***日志中关于硬盘的报错日志并收集硬盘的SMART信息；根据报错日志和SMART信息判断是否存在硬盘硬件故障；如果是，则判断故障报告中的硬盘故障是真故障；如果否，则判断SMART信息中的关键SMART属性的类型的状态或者关键SMART属性的值的状态以确定故障报告中的硬盘故障是否是真故障。根据本发明实施例的方法，根据报错日志和SMART信息对内核报出的故障硬盘进行真故障筛选判断，将出现假故障的硬盘过滤掉，可以提高硬盘故障报错的准确性以大幅降低硬盘的故障率。

Description

硬盘故障检测方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种硬盘故障检测方法及装置。

背景技术

针对互联网服务器中出现的硬盘故障，现有技术通常根据内核打印出与硬盘相关的错误日志进行硬盘故障检测及辨别。

现有技术存在的问题是，仅从操作***层面和IO请求结果的角度触发，容易在硬件故障检测中产生假故障，例如，有些故障为内核故障，有些故障仅仅是IO请求失败或者错误，有些故障是数据错误等，大量产生的假故障导致服务器的故障率高，增加人力成本且降低服务器的效率。

发明内容

本发明旨在至少解决上述技术问题之一。

为此，本发明的一个目的在于提出一种结合报错日志和SMART信息对内核报出的故障硬盘做真故障筛选以降低硬盘故障率的硬盘故障检测方法。

本发明的另一目的在于提出一种硬盘故障检测装置。

为了实现上述目的，根据本发明的第一方面实施例的硬盘故障检测方法包括以下步骤：A.接收关于所述硬盘的故障报告；B.收集***日志中关于所述硬盘的报错日志并收集所述硬盘的SMART信息；C.根据所述报错日志和所述SMART信息判断是否存在硬盘硬件故障；D.如果是，则判断所述故障报告中的硬盘故障是真故障；E.如果否，则判断所述SMART信息中的关键SMART属性的类型的状态或者关键SMART属性的值的状态以确定所述故障报告中的硬盘故障是否是真故障。

根据本发明实施例的硬盘故障检测方法，根据报错日志和SMART信息对内核报出的故障硬盘进行真故障判断及筛选，将出现假故障的硬盘过滤掉，可以提高硬盘故障报错的准确性以大幅降低硬盘的故障率。

为了实现上述目的，根据本发明的第二方面实施例的硬盘故障检测装置包括：接收模块，所述接收模块用于接收关于所述硬盘的故障报告；收集模块，所述收集模块用于收集***日志中关于所述硬盘的报错日志并收集所述硬盘的SMART信息；判断模块，所述判断模块用于根据所述报错日志和所述SMART信息判断是否存在硬盘硬件故障，如果是，则所述判断模块判断所述故障报告中的硬盘故障是真故障，如果否，则所述判断模块判断所述SMART信息中的关键SMART属性的类型的状态或者关键SMART属性的值的状态以确定所述故障报告中的硬盘故障是否是真故障。

根据本发明实施例的硬盘故障检测装置，判断模块根据报错日志和SMART信息对内核报出的故障硬盘进行真故障判断及筛选，将出现假故障的硬盘过滤掉，该装置可以提高硬盘故障报错的准确性，大幅降低硬盘的故障率。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1是根据本发明一个实施例的硬盘故障检测方法的流程图；

图2是根据本发明一个实施例的硬盘故障检测方法的流程图；

图3是根据本发明一个实施例的硬盘故障检测方法的流程图；

图4是根据本发明一个实施例的硬盘故障检测方法的流程图；以及

图5是根据本发明一个实施例的硬盘故障检测装置的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

下面参考说明书附图描述根据本发明实施例的硬盘故障检测方法。

一种硬盘故障检测方法，包括以下步骤：接收关于硬盘的故障报告；收集***日志中关于硬盘的报错日志并收集硬盘的SMART信息；根据报错日志和SMART信息判断是否存在硬盘硬件故障；如果是，则判断故障报告中的硬盘故障是真故障；如果否，则判断SMART信息中的关键SMART属性的类型的状态或者关键SMART属性的值的状态以确定故障报告中的硬盘故障是否是真故障。

图1为根据本发明一个实施例的硬盘故障检测方法的流程图。

如图1所示，根据本发明实施例的硬盘故障检测方法包括下述步骤。

步骤S101，接收关于硬盘的故障报告。

具体地，所接收到的关于硬盘的故障报告可以是根据内核打印出的与硬盘相关的错误日志。其中，错误日志所报告的硬盘故障有些为真故障，例如硬盘的磁头、控制器、扇区等硬盘本身的故障，有些故障为假故障，例如内核故障、IO请求失败、数据错误等。

步骤S102，收集***日志中关于硬盘的报错日志并收集硬盘的SMART信息。

具体地，首先根据所接收到的关于硬盘的故障报告确定从内核报出的发生故障的硬盘，然后根据该硬盘收集***日志中关于该硬盘的报错日志和该硬盘的SMART信息，其中SMART信息即S.M.A.R.T(Self-MonitoringAnalysisandReportingTechnology，自我监测、分析及报告技术，该技术可以对硬盘的磁头、盘片、马达、电路的运行情况、历史记录及预设的安全值进行分析和比较)信息，包括了由行业标准规定的一组专门的硬盘检测参数及其对应的属性值、实际值、属性类型等。

步骤S103，根据报错日志和SMART信息判断是否存在硬盘硬件故障。

具体地，来源于内核的报错日志是由SCSI(SmallComputerSystemsInterface，小型计算机***接口，其为一组标准集，定义了与大量设备通信所需的接口和协议，其中主要定义了与存储相关的设备通信所需的接口和协议)中间层在IO错误发生时对操作***层的故障反馈，包括故障类型、坏扇区数据等，报错日志将反馈的故障主要分为mediumerror，hardwareerror，recoverederror，notready，illegalrequest，volumeoverflow，miscompare，abortedcommand和nosense等。

经过对76719块近线SATA硬盘的故障统计发现，mediumerror占比为63.1％，hardwareerror占比6.7％，其中，mediumerror主要是与读错误后的ECC校验失败有关，涉及数据所在的扇区号，许多该故障仅仅是数据错误，即使是扇区本身错误也可以通过避免该扇区被再次使用的方式进行修复，所以存在很大比例的假故障，hardwareerror描述的是与磁头、控制器和奇偶校验等方面的错误，属于真故障，出现该报告时应当更换硬盘，剩下的故障大部分为nosense即SCSI中间层无法反馈错误类型，其中也存在许多的假故障。

因此，首先需要根据报错日志并结合SMART信息对内核所报出的发生故障的硬盘进行硬件故障筛选，判断内核所报出的发生故障的硬盘是否存在硬盘硬件故障。

步骤S104，如果是，则判断故障报告中的硬盘故障是真故障。

步骤S105，如果否，则判断SMART信息中的关键SMART属性的类型的状态或者关键SMART属性的值的状态以确定故障报告中的硬盘故障是否是真故障。

具体地，对硬盘的硬件故障筛选判断之后，未发生硬件故障的故障硬盘也有可能存在真故障，需要进一步根据SMART信息中的关键SMART属性的类型的状态或者关键SMART属性的值的状态确定故障报告中的硬盘故障是否是真故障，如果是，则故障报告中的硬盘故障是真故障，转入步骤S104。如果否，则故障报告中的硬盘故障是假故障，转入步骤S106。

在本发明的一个实施例中，关键SMART属性包括RawReadErrorRate，ReallocatedSectorCt，SeekErrorRate，ReportedUncorrect，TemperatureCelsius和HardwareECCRecovered。其中，RawReadErrorRate为读Rawdata时错误出现的频率，可反映磁盘表面或读/写磁头(disksurfaceorread/writeheads)可能存在问题；ReallocatedSectorCt为重新分配扇区的数量，表示硬盘中已发现了多少坏扇区；SeekErrorRate为磁头定位时错误出现的比率，如果数值持续升高，暗示磁盘表面或读/写磁头机械有问题；ReportedUncorrect为反馈无法校正，硬件ECC无法恢复的错误率；TemperatureCelsius为硬盘内部温度；HardwareECCRecovered为经硬件ECC校正、恢复的错误率。

在本发明的一个实施例中，关键SMART属性的类型包括Pre-fail和Old-age。其中，Pre-fail为当SMART属性的某个关键属性的属性值(VALUE)低于相对应的阈值(THRESH)时，硬盘进入的状态，即预前故障状态，可以通过预设阈值预测硬盘存在潜在故障，Old-age表示属性值可以反馈硬盘的老化信息，但不能预测是否存在故障。

在本发明的一个实施例中，Pre-fail类型的关键SMART属性包括RawReadErrorRate，ReallocatedSectorCt和SeekErrorRate；Old-age类型的关键SMART属性包括ReportedUncorrect和HardwareECCRecovered。

步骤S106，判断故障报告中的硬盘故障是假故障。

图2为根据本发明一个实施例的硬盘故障检测方法的流程图。

如图2所示，根据本发明实施例的硬盘故障检测方法包括下述步骤。

步骤S201，接收关于硬盘的故障报告。

步骤S202，收集***日志中关于硬盘的报错日志并收集硬盘的SMART信息。

步骤S203，根据报错日志判断是否存在hardwareerror。

具体地，报错日志将反馈的操作***层故障主要分为mediumerror，hardwareerror，recoverederror，notready，illegalrequest，volumeoverflow，miscompare，abortedcommand和nosense等，其中hardwareerror描述的是与磁头、控制器和奇偶校验等方面的错误，属于硬件真故障。如果根据报错日志判断存在hardwareerror，则转入步骤S208，故障报告中的硬盘故障是真故障，如果根据报错日志判断不存在hardwareerror，则继续执行步骤S204。

步骤S204，根据SMART信息判断硬盘温度是否超过第一阈值。

在本发明的一个实施例中，第一阈值的范围是50℃～60℃，优选地第一阈值为55℃。也可以根据硬盘的生产厂商给出的温度阈值设定第一阈值。

在本发明的一个实施例中，SMART信息包括关键SMART属性的信息，关键SMART属性包括RawReadErrorRate，ReallocatedSectorCt，SeekErrorRate，ReportedUncorrect，TemperatureCelsius和HardwareECCRecovered。其中，RawReadErrorRate为读Rawdata时，错误出现的频率，可反映磁盘表面或读/写磁头(disksurfaceorread/writeheads)可能存在问题；ReallocatedSectorCt为重新分配扇区的数量，表示硬盘中已发现了多少坏扇区；SeekErrorRate为磁头定位时，错误出现的比率，如果数值持续升高，暗示磁盘表面或读/写磁头机械有问题；ReportedUncorrect为反馈无法校正，硬件ECC无法恢复的错误率；TemperatureCelsius为硬盘内部温度；HardwareECCRecovered为经硬件ECC校正、恢复的错误率。

具体地，SMART信息中的TemperatureCelsius表示硬盘内部温度，如果硬盘内部温度过高，硬盘可能出现故障。如果根据SMART信息中的TemperatureCelsius判断硬盘温度超过第一阈值，则转入步骤S208，故障报告中的硬盘故障是真故障，如果根据SMART信息中的TemperatureCelsius判断硬盘温度未超过第一阈值，则继续执行步骤S205。

步骤S205，根据报错日志判断硬盘的坏扇区数量是否超过第二阈值。

在本发明的一个实施例中，第二阈值的范围是48～96，优选地第二阈值为64。

具体地，如果坏扇区数量超过第二阈值，则转入步骤S208，故障报告中的硬盘故障是真故障，如果坏扇区数量未超过第二阈值，则继续执行步骤S206。

步骤S206，根据报错日志判断硬盘的历史修复次数是否超过第三阈值。

在本发明的一个实施例中，第三阈值的范围是3～5，优选地第三阈值为3。

具体地，历史修复次数是指曾经被判断为假故障的硬盘，通过相应的在线检测修复(DST、格式化、坏扇区重写或屏蔽等)次数的记录，经过修复的硬盘会继续投入使用。如果根据报错日志判断硬盘的历史修复次数超过第三阈值，则转入步骤S208，故障报告中的硬盘故障是真故障，如果报错日志判断硬盘的历史修复次数未超过第三阈值，则继续执行步骤S207。

步骤S207，如果根据步骤S203、步骤S204、步骤S205和步骤S206的判断都为否，则进一步判断SMART信息中的关键SMART属性的类型的状态或者关键SMART属性的值的状态以确定故障报告中的硬盘故障是否是真故障。

具体地，对硬盘的硬件故障筛选判断之后，未发生硬件故障的故障硬盘也有可能存在真故障，需要进一步根据SMART信息中的关键SMART属性的类型的状态或者关键SMART属性的值的状态确定故障报告中的硬盘故障是否是真故障，如果是，则故障报告中的硬盘故障是真故障，转入步骤S208。如果否，则故障报告中的硬盘故障是假故障，转入步骤S209。

步骤S208，故障报告中的硬盘故障是真故障。

步骤S209，故障报告中的硬盘故障是假故障。

在本发明的一个实施例中，步骤S203、S204、S205及S206的执行不分先后顺序。

根据本发明实施例的硬盘故障检测方法，首先根据报错日志判断是否存在hardwareerror、硬盘的坏扇区数量和历史修复次数是否超过数量及根据SMART信息判断硬盘的温度是否超过阈值对内核报出的故障硬盘进行硬件故障的判断及筛选，可以有效地提高真故障筛选的效率，将出现假故障的硬盘筛选掉，可以提高硬盘故障报错的准确性，大幅降低故障率。

图3为根据本发明一个实施例的硬盘故障检测方法的流程图。

如图3所示，根据本发明实施例的硬盘故障检测方法包括下述步骤。

步骤S301，接收关于硬盘的故障报告。

步骤S302，收集***日志中关于硬盘的报错日志并收集硬盘的SMART信息。

步骤S303，根据报错日志判断是否存在hardwareerror。

具体地，报错日志将反馈的操作***层故障主要分为mediumerror，hardwareerror，recoverederror，notready，illegalrequest，volumeoverflow，miscompare，abortedcommand和nosense等，其中hardwareerror描述的是与磁头、控制器和奇偶校验等方面的错误，属于硬件真故障。如果根据报错日志判断存在hardwareerror，则转入步骤S309，故障报告中的硬盘故障是真故障，如果根据报错日志判断不存在hardwareerror，则继续执行步骤S304。

步骤S304，根据SMART信息判断硬盘温度是否超过第一阈值。

具体地，SMART信息中的TemperatureCelsius表示硬盘内部温度，如果硬盘内部温度过高，硬盘可能出现故障。如果根据SMART信息中的TemperatureCelsius判断硬盘温度超过第一阈值，则转入步骤S309，故障报告中的硬盘故障是真故障，如果根据SMART信息中的TemperatureCelsius判断硬盘温度未超过第一阈值，则继续执行步骤S305。

步骤S305，根据报错日志判断硬盘的坏扇区数量是否超过第二阈值。

具体地，如果坏扇区数量超过第二阈值，则转入步骤S309，故障报告中的硬盘故障是真故障，如果坏扇区数量未超过第二阈值，则继续执行步骤S306。

步骤S306，根据报错日志判断硬盘的历史修复次数是否超过第三阈值。

具体地，历史修复次数是指曾经被判断为假故障的硬盘，通过相应的在线检测修复(DST、格式化、坏扇区重写或屏蔽等)次数的记录，经过修复的硬盘会继续投入使用。如果根据报错日志判断硬盘的历史修复次数超过第三阈值，则转入步骤S309，故障报告中的硬盘故障是真故障，如果报错日志判断硬盘的历史修复次数未超过第三阈值，则继续执行步骤S307。

步骤S307，如果根据步骤S303、步骤S304、步骤S305和步骤S306的判断都为否，则进一步判断Pre-fail类型的关键SMART属性值是否低于第四阈值。

在本发明的一个实施例中，各个Pre-fail类型的关键SMART属性的第四阈值是不同的，都是***预设的，该第四阈值可以从***获取得到。举例来说，RawReadErrorRate的第四阈值可以是51，ReallocatedSectorCt的第四阈值可以是140等。

具体地，如果Pre-fail类型的关键SMART属性值低于第四阈值，则转入步骤S309，故障报告中的硬盘故障是真故障，如果Pre-fail类型的关键SMART属性值不低于第四阈值，则继续执行步骤S308。

步骤S308，判断Old-age类型的关键SMART属性值是否低于第五阈值且坏扇区数量是否超过第二阈值的四分之一。在本发明的一个实施例中，各个Old-age类型的关键SMART属性的第五阈值是不同的，都是***预设的，该第五阈值可以从***获取得到。

具体地，如果Old-age类型的关键SMART属性值低于第五阈值且坏扇区数量超过第二阈值的四分之一，则转入步骤S309，故障报告中的硬盘故障是真故障，否则故障报告中的硬盘故障是假故障，转入步骤S310。

步骤S309，故障报告中的硬盘故障是真故障。

步骤S310，故障报告中的硬盘故障是假故障。

在本发明的一个实施例中，步骤S303、S304、S305及S306的执行不分先后顺序。

在本发明的一个实施例中，步骤S307及S308的执行不分先后顺序。

根据本发明实施例的硬盘故障检测方法，在根据报错日志和SMART信息对内核报出的故障硬盘进行真故障判断及筛选的基础上，根据SMART属性类型的状态及坏扇区数量进行非硬件故障的真故障判断及筛选，进一步有效地提高硬盘故障报错的准确性，大幅降低故障率。

图4为根据本发明一个实施例的硬盘故障检测方法的流程图。

如图4所示，根据本发明实施例的硬盘故障检测方法包括下述步骤。

步骤S401，接收关于硬盘的故障报告。

步骤S402，收集***日志中关于硬盘的报错日志并收集硬盘的SMART信息。

步骤S403，根据报错日志判断是否存在hardwareerror。

具体地，报错日志将反馈的操作***层故障主要分为mediumerror，hardwareerror，recoverederror，notready，illegalrequest，volumeoverflow，miscompare，abortedcommand和nosense等，其中hardwareerror描述的是与磁头、控制器和奇偶校验等方面的错误，属于硬件真故障。如果根据报错日志判断存在hardwareerror，则转入步骤S412，故障报告中的硬盘故障是真故障，如果根据报错日志判断不存在hardwareerror，则继续执行步骤S404。

步骤S404，根据SMART信息判断硬盘温度是否超过第一阈值。

具体地，SMART信息中的TemperatureCelsius表示硬盘内部温度，如果硬盘内部温度过高，硬盘可能出现故障。如果根据SMART信息中的TemperatureCelsius判断硬盘温度超过第一阈值，则转入步骤S412，故障报告中的硬盘故障是真故障，如果根据SMART信息中的TemperatureCelsius判断硬盘温度未超过第一阈值，则继续执行步骤S405。

步骤S405，根据报错日志判断硬盘的坏扇区数量是否超过第二阈值。

具体地，如果坏扇区数量超过第二阈值，则转入步骤S412，故障报告中的硬盘故障是真故障，如果坏扇区数量未超过第二阈值，则继续执行步骤S406。

步骤S406，根据报错日志判断硬盘的历史修复次数是否超过第三阈值。

具体地，历史修复次数是指曾经被判断为假故障的硬盘，通过相应的在线检测修复(DST、格式化、坏扇区重写或屏蔽等)次数的记录，经过修复的硬盘会继续投入使用。如果根据报错日志判断硬盘的历史修复次数超过第三阈值，则转入步骤S412，故障报告中的硬盘故障是真故障，如果报错日志判断硬盘的历史修复次数未超过第三阈值，则继续执行步骤S407。

步骤S407，如果根据步骤S403、步骤S404、步骤S405和步骤S406的判断都为否，则进一步判断Pre-fail类型的关键SMART属性值是否低于第四阈值。

在本发明的一个实施例中，各个Pre-fail类型的关键SMART属性的第四阈值是不同的，都是***预设的，该第四阈值可以从***获取得到。举例来说，RawReadErrorRate的第四阈值可以是51，ReallocatedSectorCt的第四阈值可以是140等。具体地，如果Pre-fail类型的关键SMART属性值低于第四阈值，则转入步骤S412，故障报告中的硬盘故障是真故障，如果Pre-fail类型的关键SMART属性值不低于第四阈值，则继续执行步骤S408。

步骤S408，进一步判断Old-age类型的关键SMART属性值是否低于第五阈值且坏扇区数量是否超过第二阈值的四分之一。

在本发明的一个实施例中，各个Old-age类型的关键SMART属性的第五阈值是不同的，都是***预设的，该第五阈值可以从***获取得到。

具体地，如果Old-age类型的关键SMART属性值低于第五阈值且坏扇区数量超过第二阈值的四分之一，则转入步骤S412，故障报告中的硬盘故障是真故障，否则继续执行步骤S409。

步骤S409，判断关键SMART属性的值是否在故障发生前的预定时间段内持续下降。

在本发明的一个实施例中，故障发生前的预定时间段根据统计结果获得。

具体地，如果关键SMART属性的值在故障发生前的预定时间段内持续下降，则转入步骤S412，故障报告中的硬盘故障是真故障，否则继续执行步骤S410。

步骤S410，判断关键SMART属性的值是否处于下半区间且坏扇区数量是否超过第二阈值的八分之一。

在本发明的一个实施例中，下半区间为[0，关键SMART属性的预设值/2]。

具体地，如果关键SMART属性的值处于下半区间且坏扇区数量超过第二阈值的八分之一，则转入步骤S412，故障报告中的硬盘故障是真故障，否则继续执行步骤S411。

步骤S411，判断关键SMART属性的值是否处于上半区间且坏扇区数量是否超过第二阈值的二分之一。

在本发明的一个实施例中，上半区间是[关键SMART属性的预设值/2，关键SMART属性的预设值]。

具体地，如果关键SMART属性的值处于上半区间且坏扇区数量超过第二阈值的二分之一，则转入步骤S412，故障报告中的硬盘故障是真故障，否则故障报告中的硬盘故障是假故障，转入步骤S413。

步骤S412，故障报告中的硬盘故障是真故障。

步骤S413，故障报告中的硬盘故障是假故障。

在本发明的一个实施例中，步骤S403、S404、S405及S406的执行不分先后顺序。

在本发明的一个实施例中，步骤S407、S408、S409、S410及S411的执行不分先后顺序。

根据本发明实施例的硬盘故障检测方法，在根据报错日志和SMART信息对内核报出的故障硬盘进行真故障判断及筛选的基础上，根据SMART属性类型的状态、坏扇区数量和关键SMART属性值进行非硬件故障的真故障判断及筛选，进一步有效地提高硬盘故障报错的准确性，大幅降低故障率。

下面参考说明书附图描述根据本发明实施例的硬盘故障检测装置。

一种硬盘故障检测装置，包括：接收模块，用于接收关于硬盘的故障报告；收集模块，用于收集***日志中关于硬盘的报错日志并收集硬盘的SMART信息；判断模块，用于根据报错日志和SMART信息判断是否存在硬盘硬件故障，如果是，则判断模块判断故障报告中的硬盘故障是真故障，如果否，则判断模块判断SMART信息中的关键SMART属性的类型的状态或者关键SMART属性的值的状态以确定故障报告中的硬盘故障是否是真故障。

如图5所示，根据本发明实施例的硬盘故障检测装置，包括接收模块100、收集模块200和判断模块300。

具体地，接收模块100用于接收关于硬盘的故障报告。其中，接收模块100所接收到的关于硬盘的故障报告可以是根据内核打印出的与硬盘相关的错误日志，错误日志所报告的硬盘故障有些为真故障，例如硬盘的磁头、控制器、扇区等硬盘本身的故障，有些故障为假故障，例如内核故障、IO请求失败、数据错误等。

收集模块200用于收集***日志中关于硬盘的报错日志并收集硬盘的SMART信息。首先，收集模块200根据接收模块100所接收到的关于硬盘的故障报告确定从内核报出的发生故障的硬盘，然后根据该硬盘收集***日志中关于该硬盘的报错日志和该硬盘的SMART信息，其中SMART信息即S.M.A.R.T(Self-MonitoringAnalysisandReportingTechnology，自我监测、分析及报告技术，该技术可以对硬盘的磁头、盘片、马达、电路的运行情况、历史记录及预设的安全值进行分析和比较)信息，包括了由行业标准规定的一组专门的硬盘检测参数及其对应的属性值、实际值、属性类型等。

判断模块300用于根据报错日志和SMART信息判断是否存在硬盘硬件故障，如果是，则判断模块300判断故障报告中的硬盘故障是真故障，如果否，则判断模块300判断SMART信息中的关键SMART属性的类型的状态或者关键SMART属性的值的状态以确定故障报告中的硬盘故障是否是真故障。

具体地，来源于内核的报错日志是由SCSI(SmallComputerSystemsInterface，小型计算机***接口，其为一组标准集，定义了与大量设备通信所需的接口和协议，其中主要定义了与存储相关的设备通信所需的接口和协议)中间层在IO错误发生时对操作***层的故障反馈，包括故障类型、坏扇区数据等。根据报错日志将反馈的故障主要分为mediumerror，hardwareerror，recoverederror，notready，illegalrequest，volumeoverflow，miscompare，abortedcommand和nosense等。

因此，判断模块300首先需要根据报错日志并结合SMART信息对内核所报出的发生故障的硬盘进行硬件故障筛选，判断内核所报出的发生故障的硬盘是否存在硬盘硬件故障。如果判断模块300根据报错日志和SMART信息判断存在硬盘硬件故障，则判断故障报告中的硬盘故障是真故障，否则，判断模块300进一步判断SMART信息中的关键SMART属性的类型的状态或者关键SMART属性的值的状态以确定故障报告中的硬盘故障是否是真故障。

在本发明的一个实施例中，关键SMART属性包括RawReadErrorRate，ReallocatedSectorCt，SeekErrorRate，ReportedUncorrect，TemperatureCelsius和HardwareECCRecovered。其中，RawReadErrorRate为读Rawdata时，错误出现的频率，可反映磁盘表面或读/写磁头(disksurfaceorread/writeheads)可能存在问题；ReallocatedSectorCt为重新分配扇区的数量，表示硬盘中已发现了多少坏扇区；SeekErrorRate为磁头定位时，错误出现的比率，如果数值持续升高，暗示磁盘表面或读/写磁头机械有问题；ReportedUncorrect为反馈无法校正，硬件ECC无法恢复的错误率；TemperatureCelsius为硬盘内部温度；HardwareECCRecovered为经硬件ECC校正、恢复的错误率。

在本发明的一个实施例中，判断模块300用于根据报错日志判断是否存在hardwareerror，或者根据SMART信息判断硬盘温度是否超过第一阈值，或者根据报错日志判断硬盘的坏扇区数量是否超过第二阈值，或者根据报错日志判断硬盘的历史修复次数是否超过第三阈值，由此确定内核报出故障的硬盘是否存在硬件故障，如果存在硬件故障，则故障报告中的硬盘故障是真故障。

具体地，判断模块300根据报错日志判断是否存在hardwareerror。更具体地，报错日志将反馈的操作***层故障主要分为mediumerror，hardwareerror，recoverederror，notready，illegalrequest，volumeoverflow，miscompare，abortedcommand和nosense等，其中hardwareerror描述的是与磁头、控制器和奇偶校验等方面的错误，属于硬件真故障。如果判断模块300根据报错日志判断存在hardwareerror，则故障报告中的硬盘故障是真故障。

判断模块300根据SMART信息判断硬盘温度是否超过第一阈值。更具体地，在本发明的一个实施例中，第一阈值的范围是50℃～60℃，优选地第一阈值为55℃。也可以根据硬盘的生产厂商给出的温度阈值设定第一阈值。

具体地，SMART信息中的TemperatureCelsius表示硬盘内部温度，如果硬盘内部温度过高，硬盘可能出现故障。判断模块300如果根据SMART信息中的TemperatureCelsius判断硬盘温度超过第一阈值，则故障报告中的硬盘故障是真故障。

判断模块300根据报错日志判断硬盘的坏扇区数量是否超过第二阈值。更具体地，在本发明的一个实施例中，第二阈值的范围是48～96，优选地第二阈值为64。如果判断模块300判断换扇区数量超过第二阈值，则故障报告中的硬盘故障是真故障。

判断模块300根据报错日志判断硬盘的历史修复次数是否超过第三阈值。更具体地，在本发明的一个实施例中，第三阈值的范围是3～5，优选地第三阈值为3。历史修复次数是指曾经被判断为假故障的硬盘，通过相应的在线检测修复(DST、格式化、坏扇区重写或屏蔽等)次数的记录，经过修复的硬盘会继续投入使用。如果判断模块300判断硬盘的历史修复次数超过第三阈值，则故障报告中的硬盘故障是真故障。

在本发明的一个实施例中，判断模块300对是否存在hardwareerror，或者硬盘温度是否超过第一阈值，或者坏扇区数量是否超过第二阈值，或者硬盘的历史修复次数是否超过第三阈值的硬件故障判断都为否之后，未发生硬件故障的故障硬盘也有可能存在真故障，还需要进一步根据SMART信息中的关键SMART属性的类型的状态或者关键SMART属性的值的状态确定故障报告中的硬盘故障是否是真故障。

根据本发明实施例的硬盘故障检测装置，判断模块首先根据报错日志判断是否存在hardwareerror、硬盘的坏扇区数量和历史修复次数是否超过数量及根据SMART信息判断硬盘的温度是否超过阈值对内核报出的故障硬盘进行硬件故障的判断及筛选，可以有效地提高真故障筛选的效率，将出现假故障的硬盘筛选掉，可以提高硬盘故障报错的准确性，大幅降低故障率。

在本发明的一个实施例中，判断模块300在根据报错日志和SMART信息判断是否存在硬盘硬件故障的结果都为否之后，用于判断Pre-fail类型的关键SMART属性值是否低于第四阈值，或者判断Old-age类型的关键SMART属性值是否低于第五阈值且坏扇区数量是否超过第二阈值的四分之一，其中，如果Pre-fail类型的关键SMART属性值低于第四阈值或Old-age类型的关键SMART属性值低于第五阈值且坏扇区数量超过第二阈值的四分之一，则判断故障报告中的硬盘故障是真故障。

具体地，判断模块300判断Pre-fail类型的关键SMART属性值是否低于第四阈值。更具体地，在本发明的一个实施例中，各个Pre-fail类型的关键SMART属性的第四阈值是不同的，都是***预设的，该第四阈值可以从***获取得到。举例来说，RawReadErrorRate的第四阈值可以是51，ReallocatedSectorCt的第四阈值可以是140等。如果判断模块300判断Pre-fail类型的关键SMART属性值低于第四阈值，则故障报告中的硬盘故障是真故障。

判断模块300判断Old-age类型的关键SMART属性值是否低于第五阈值且坏扇区数量是否超过第二阈值的四分之一。在本发明的一个实施例中，各个Old-age类型的关键SMART属性的第五阈值是不同的，都是***预设的，该第五阈值可以从***获取得到。如果判断模块300判断Old-age类型的关键SMART属性值低于第五阈值且坏扇区数量超过第二阈值的四分之一，则故障报告中的硬盘故障是真故障。

根据本发明实施例的硬盘故障检测装置，判断模块在根据报错日志和SMART信息对内核报出的故障硬盘进行真故障判断及筛选的基础上，根据SMART属性类型的状态及坏扇区数量进行非硬件故障的真故障判断及筛选，进一步有效地提高硬盘故障报错的准确性，大幅降低故障率。

在本发明的一个实施例中，在本发明的一个实施例中，判断模块300在根据报错日志和SMART信息判断是否存在硬盘硬件故障的结果都为否之后，以及Pre-fail、Old-age类型的关键SMART属性值和坏扇区数量是否为真故障的结果都为否之后，用于判断关键SMART属性的值是否在故障发生前的预定时间段内持续下降，或者判断关键SMART属性的值是否处于下半区间且坏扇区数量是否超过第二阈值的八分之一，或者判断关键SMART属性的值是否处于上半区间且坏扇区数量是否超过第二阈值的二分之一，如果是，则判断故障报告中的硬盘故障是真故障。

具体地，判断模块300判断关键SMART属性的值是否在故障发生前的预定时间段内持续下降。更具体地，故障发生前的预定时间段根据统计结果获得。如果判断模块300判断关键SMART属性的值在故障发生前的预定时间段内持续下降，则故障报告中的硬盘故障是真故障。

判断模块300判断关键SMART属性的值是否处于下半区间且坏扇区数量是否超过第二阈值的八分之一。更具体地，在本发明的一个实施例中，下半区间为[0，关键SMART属性的预设值/2]。如果判断模块300判断关键SMART属性的值处于下半区间且坏扇区数量超过第二阈值的八分之一，则故障报告中的硬盘故障是真故障。

判断模块300判断判断关键SMART属性的值是否处于上半区间且坏扇区数量是否超过第二阈值的二分之一。更具体地，在本发明的一个实施例中，上半区间是[关键SMART属性的预设值/2，关键SMART属性的预设值]。如果判断模块300判断关键SMART属性的值处于上半区间且坏扇区数量超过第二阈值的二分之一，则故障报告中的硬盘故障是真故障。

根据本发明实施例的硬盘故障检测装置，在根据报错日志和SMART信息对内核报出的故障硬盘进行真故障判断及筛选的基础上，根据SMART属性类型的状态、坏扇区数量和关键SMART属性值进行非硬件故障的真故障判断及筛选，进一步有效地提高硬盘故障报错的准确性，大幅降低故障率。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同限定。

Claims

1.一种硬盘故障检测方法，其特征在于，包括以下步骤：

A.接收关于所述硬盘的故障报告；

B.收集***日志中关于所述硬盘的报错日志并收集所述硬盘的SMART信息；

C.根据所述报错日志和所述SMART信息判断是否存在硬盘硬件故障；

D.如果是，则判断所述故障报告中的硬盘故障是真故障；

E.如果否，则判断所述SMART信息中的关键SMART属性的类型的状态或者关键SMART属性的值的状态以确定所述故障报告中的硬盘故障是否是真故障。

2.根据权利要求1所述的硬盘故障检测方法，其特征在于，所述关键SMART属性包括RawReadErrorRate，ReallocatedSectorCt，SeekErrorRate，ReportedUncorrect，TemperatureCelsius和HardwareECCRecovered。

3.根据权利要求2所述的硬盘故障检测方法，其特征在于，所述关键SMART属性的类型包括Pre-fail和Old-age。

4.根据权利要求3所述的硬盘故障检测方法，其特征在于，所述步骤C包括以下步骤：

根据所述报错日志判断是否存在hardwareerror；或者

根据所述SMART信息判断硬盘温度是否超过第一阈值；或者

根据所述报错日志判断所述硬盘的坏扇区数量是否超过第二阈值；或者

根据所述报错日志判断所述硬盘的历史修复次数是否超过第三阈值。

5.根据权利要求4所述的硬盘故障检测方法，其特征在于，

所述第一阈值的范围是50℃～60℃；

所述第二阈值的范围是48～96；以及

所述第三阈值的范围是3～5。

6.根据权利要求4所述的硬盘故障检测方法，其特征在于，所述步骤E包括以下步骤：

判断所述Pre-fail类型的关键SMART属性值是否低于第四阈值；或者

判断所述Old-age类型的关键SMART属性值是否低于第五阈值且坏扇区数量是否超过所述第二阈值的四分之一，

其中，如果所述Pre-fail类型的关键SMART属性值低于第四阈值或所述Old-age类型的关键SMART属性值低于第五阈值且坏扇区数量超过所述第二阈值的四分之一，则判断所述故障报告中的硬盘故障是真故障。

7.根据权利要求4所述的硬盘故障检测方法，其特征在于，所述步骤E包括以下步骤：

判断所述关键SMART属性的值是否在故障发生前的预定时间段内持续下降；或者

判断所述关键SMART属性的值是否处于下半区间且坏扇区数量是否超过所述第二阈值的八分之一；或者

判断所述关键SMART属性的值是否处于上半区间且坏扇区数量是否超过所述第二阈值的二分之一；以及

如果是，则判断所述故障报告中的硬盘故障是真故障。

8.根据权利要求7所述的硬盘故障检测方法，其特征在于，

所述下半区间是[0，所述关键SMART属性的预设值/2]；以及

所述上半区间是[所述关键SMART属性的预设值/2，所述关键SMART属性的预设值]。

9.一种硬盘故障检测装置，其特征在于，包括：

接收模块，所述接收模块用于接收关于所述硬盘的故障报告；

收集模块，所述收集模块用于收集***日志中关于所述硬盘的报错日志并收集所述硬盘的SMART信息；

判断模块，所述判断模块用于根据所述报错日志和所述SMART信息判断是否存在硬盘硬件故障，如果是，则所述判断模块判断所述故障报告中的硬盘故障是真故障，如果否，则所述判断模块判断所述SMART信息中的关键SMART属性的类型的状态或者关键SMART属性的值的状态以确定所述故障报告中的硬盘故障是否是真故障。

10.根据权利要求9所述的硬盘故障检测装置，其特征在于，所述关键SMART属性包括RawReadErrorRate，ReallocatedSectorCt，SeekErrorRate，ReportedUncorrect，TemperatureCelsius和HardwareECCRecovered。

11.根据权利要求10所述的硬盘故障检测装置，其特征在于，所述关键SMART属性的类型包括Pre-fail和Old-age。

12.根据权利要求11所述的硬盘故障检测装置，其特征在于，所述判断模块用于：

根据所述报错日志判断是否存在hardwareerror；或者

根据所述SMART信息判断硬盘温度是否超过第一阈值；或者

13.根据权利要求12所述的硬盘故障检测装置，其特征在于，

所述第一阈值的范围是50℃～60℃；

所述第二阈值的范围是48～96；以及

所述第三阈值的范围是3～5。

14.根据权利要求12所述的硬盘故障检测装置，其特征在于，所述判断模块用于：

判断所述Pre-fail类型的SMART属性值是否低于第四阈值；或者

判断所述Old-age类型的SMART属性值是否低于第五阈值且坏扇区数量是否超过所述第二阈值的四分之一，其中，

如果所述Pre-fail类型的关键SMART属性值低于第四阈值或所述Old-age类型的关键SMART属性值低于第五阈值且坏扇区数量超过所述第二阈值的四分之一，则判断所述故障报告中的硬盘故障是真故障。

15.根据权利要求12所述的硬盘故障检测装置，其特征在于，所述判断模块用于：

如果是，则判断所述故障报告中的硬盘故障是真故障。

16.根据权利要求15所述的硬盘故障检测装置，其特征在于，

所述下半区间是[0，所述关键SMART属性的预设值/2]；以及