CN113409876A - 一种故障硬盘的定位方法及*** - Google Patents

一种故障硬盘的定位方法及*** Download PDF

Info

Publication number
CN113409876A
CN113409876A CN202110800194.3A CN202110800194A CN113409876A CN 113409876 A CN113409876 A CN 113409876A CN 202110800194 A CN202110800194 A CN 202110800194A CN 113409876 A CN113409876 A CN 113409876A
Authority
CN
China
Prior art keywords
hard disk
raid
detected
execution
change value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110800194.3A
Other languages
English (en)
Inventor
彭洁
李宇翔
刘谦
刘畅
曹阳
屈大伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202110800194.3A priority Critical patent/CN113409876A/zh
Publication of CN113409876A publication Critical patent/CN113409876A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/04Detection or location of defective memory elements, e.g. cell constructio details, timing of test signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/04Detection or location of defective memory elements, e.g. cell constructio details, timing of test signals
    • G11C29/08Functional testing, e.g. testing during refresh, power-on self testing [POST] or distributed testing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/04Detection or location of defective memory elements, e.g. cell constructio details, timing of test signals
    • G11C29/08Functional testing, e.g. testing during refresh, power-on self testing [POST] or distributed testing
    • G11C29/12Built-in arrangements for testing, e.g. built-in self testing [BIST] or interconnection details
    • G11C29/18Address generation devices; Devices for accessing memories, e.g. details of addressing circuits
    • G11C29/20Address generation devices; Devices for accessing memories, e.g. details of addressing circuits using counters or linear-feedback shift registers [LFSR]
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/04Detection or location of defective memory elements, e.g. cell constructio details, timing of test signals
    • G11C29/08Functional testing, e.g. testing during refresh, power-on self testing [POST] or distributed testing
    • G11C29/12Built-in arrangements for testing, e.g. built-in self testing [BIST] or interconnection details
    • G11C29/18Address generation devices; Devices for accessing memories, e.g. details of addressing circuits
    • G11C29/24Accessing extra cells, e.g. dummy cells or redundant cells

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种故障硬盘的定位方法及***,周期性采集待检测RAID对应的待处理阵列卡日志;解析待处理阵列卡日志,得到在对待检测RAID执行PR前和执行PR后每一硬盘的第一预设指标的第一变化值,及得到在对待检测RAID执行PR时所需的第一执行时长,及得到对待检测RAID执行CC前和执行CC后每一硬盘的第一预设指标的第二变化值,及得到对待检测RAID执行CC时所需的第二执行时长;根据待检测RAID中每一硬盘对应的第一变化值、第一执行时长、第二变化值和第二执行时长,确定待检测RAID中是否存在故障硬盘;若存在,获取故障硬盘对应的硬盘信息,以准确和及时的对故障硬盘进行定位。

Description

一种故障硬盘的定位方法及***
技术领域
本发明涉及硬盘故障定位技术领域,具体涉及一种故障硬盘的定位方法及***。
背景技术
随着计算机技术的发展,服务器对于海量数据的计算需求和存储需求也越来越高,而硬盘作为服务器存储和计算的核心部件,硬盘的稳定运行是保证服务器提供稳定的业务的重要因素,因此如何及时确定硬盘发生故障并及时对发生故障的硬盘进行定位,是目前亟需待解决的问题。
发明内容
有鉴于此,本发明实施例提供一种故障硬盘的定位方法及***,以及时发现故障硬盘并对其进行定位。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开一种故障硬盘的定位方法,所述方法包括:
周期性采集待检测独立磁盘冗余阵列RAID对应的待处理阵列卡日志,所述待检测RAID为服务器集群的任一节点服务器中的任一RAID;
解析所述待处理阵列卡日志,得到在对所述待检测RAID执行巡读PR前和执行PR后每一硬盘的第一预设指标的第一变化值,及得到对所述待检测RAID执行PR时所需的第一执行时长,及得到在对所述待检测RAID执行一致性检测CC前和执行CC后每一硬盘的第一预设指标的第二变化值,及得到对所述待检测RAID执行CC时所需的第二执行时长;
根据所述第一执行时长、所述第二执行时长、所述待检测RAID中每一硬盘对应的所述第一变化值和所述第二变化值,确定所述待检测RAID中是否存在故障硬盘;
若存在,获取所述故障硬盘对应的硬盘信息。
优选的,根据所述第一执行时长、所述第二执行时长、所述待检测RAID中每一硬盘对应的所述第一变化值和所述第二变化值,确定所述待检测RAID中是否存在故障硬盘,包括:
针对所述待检测RAID中的每一硬盘,根据所述第一执行时长和所述第二执行时长,结合所述硬盘对应的所述第一变化值和所述第二变化值,判断所述硬盘是否满足预设的故障条件,若满足,确定所述硬盘为故障硬盘;
其中,所述预设的故障条件为:所述第一变化值大于等于第一阈值,所述第二变化值大于等于第二阈值,所述第一执行时长大于等于第三阈值,所述第二执行时长大于等于第四阈值。
优选的,所述第一预设指标至少包括:介质错误计数器、预期错误计数器、其它错误计数器和硬件错误计数器。
优选的,所述周期性采集待检测独立磁盘冗余阵列RAID对应的待处理阵列卡日志之前,还包括:
根据预设的执行时间和执行周期,对待检测RAID执行PR和CC,所述执行时间和所述执行周期基于所述待检测RAID所属的节点服务器对应的第二预设指标和预设信息确定。
优选的,所述第二预设指标至少包括:中央处理器CPU使用率、内存使用率、CUP等待IO、每秒总网卡流量、交换内存swap利用率、磁盘繁忙度和磁盘IO吞吐。
优选的,所述获取所述故障硬盘对应的硬盘信息之后,还包括:
获取所述故障硬盘所属的节点服务器关联的应用***的应用***信息和忙闲时间段信息,及获取所述待检测RAID对应的阵列卡性能信息;
根据所述应用***信息、所述忙闲时间段信息和所述阵列卡性能信息,结合换盘规则,制定换盘策略;
将所述换盘策略和告警通知发送至指定对象,所述告警通知至少包含所述故障硬盘对应的硬盘信息。
本发明实施例第二方面公开一种故障硬盘的定位***,所述***包括:
采集单元,用于周期性采集待检测独立磁盘冗余阵列RAID对应的待处理阵列卡日志,所述待检测RAID为服务器集群的任一节点服务器中的任一RAID;
解析单元,用于解析所述待处理阵列卡日志,得到在对所述待检测RAID执行巡读PR前和执行PR后每一硬盘的第一预设指标的第一变化值,及得到对所述待检测RAID执行PR时所需的第一执行时长,及得到在对所述待检测RAID执行一致性检测CC前和执行CC后每一硬盘的第一预设指标的第二变化值,及得到对所述待检测RAID执行CC时所需的第二执行时长;
处理单元,用于根据所述第一执行时长、所述第二执行时长、所述待检测RAID中每一硬盘对应的所述第一变化值和所述第二变化值,确定所述待检测RAID中是否存在故障硬盘;若存在,获取所述故障硬盘对应的硬盘信息。
优选的,用于确定所述待检测RAID中是否存在故障硬盘的所述处理单元,具体用于:
针对所述待检测RAID中的每一硬盘,根据所述第一执行时长和所述第二执行时长,结合所述硬盘对应的所述第一变化值和所述第二变化值,判断所述硬盘是否满足预设的故障条件,若满足,确定所述硬盘为故障硬盘;
其中,所述预设的故障条件为:所述第一变化值大于等于第一阈值,所述第二变化值大于等于第二阈值,所述第一执行时长大于等于第三阈值,所述第二执行时长大于等于第四阈值。
优选的,所述第一预设指标至少包括:介质错误计数器、预期错误计数器、其它错误计数器和硬件错误计数器。
优选的,所述***还包括:
执行单元,用于根据预设的执行时间和执行周期,对待检测RAID执行PR和CC,所述执行时间和所述执行周期基于所述待检测RAID所属的节点服务器对应的第二预设指标和预设信息确定。
基于上述本发明实施例提供的一种故障硬盘的定位方法及***,该方法为:周期性采集待检测RAID对应的待处理阵列卡日志;解析待处理阵列卡日志,得到在对待检测RAID执行PR前和执行PR后每一硬盘的第一预设指标的第一变化值,及得到对待检测RAID执行PR时所需的第一执行时长,及得到在对待检测RAID执行CC前和执行CC后每一硬盘的第一预设指标的第二变化值,及得到对待检测RAID执行CC时所需的第二执行时长;根据待检测RAID中每一硬盘对应的第一变化值、第一执行时长、第二变化值和第二执行时长,确定待检测RAID中是否存在故障硬盘;若存在,获取故障硬盘对应的硬盘信息。根据在执行PR和执行CC前后硬盘的预设指标的变化值,结合执行PR和执行CC时硬盘对应的执行时长,确定发生故障的硬盘,以准确和及时的对故障硬盘进行定位。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种故障硬盘的定位方法的流程图;
图2为本发明实施例提供的一种故障硬盘的定位方法的另一流程图;
图3为本发明实施例提供的一种故障硬盘的定位***的结构框图;
图4为本发明实施例提供的一种故障硬盘的定位***的另一结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,为保证服务器能提供稳定的业务,需及时确定发生故障的硬盘并对其进行定位,因此如何对故障硬盘进行定位是目前亟需待解决的问题。
故,本发明实施例提供一种故障硬盘的定位方法及***,通过解析阵列卡日志得到在对RAID执行PR和执行CC前后硬盘的预设指标的变化值,以及得到在对RAID执行PR和执行CC时所需的执行时长。结合硬盘对应的预设指标的变化值和执行时长,确定硬盘是否发生故障,以准确和及时的对故障硬盘进行定位。
需要说明的是,在本发明实施例所示出的内容中会涉及到多个英文缩写,通过以下内容预先对本发明实施例所涉及的英文缩写进行解释说明。
RAID:Redundantarray of independent disks,即独立磁盘冗余阵列。
RAID卡:即阵列卡,用于实现RAID模式的板卡。
PR:Patrol Read,即巡读。
CC:Consistency Check,即一致性检测。
CMDB:ConfigurationManagement Database,即配置管理数据库。
参见图1,示出了本发明实施例提供的一种故障硬盘的定位方法的流程图,该定位方法包括:
步骤S101:周期性采集待检测RAID对应的待处理阵列卡日志。
需要说明的是,服务器集群由多个节点服务器构成,每个节点服务器都包含多个RAID,每个RAID由多块硬盘构成,通过阵列卡日志可对节点服务器所包含的RAID进行区分(具体通过阵列号进行区分),阵列卡日志中还至少包含了硬盘槽位号,该硬盘槽位号可用于区分RAID中的不同硬盘。
可以理解的是,待检测RAID为服务器集群的任一节点服务器中的任一RAID。
在具体实现步骤S101的过程中,周期性采集待检测RAID对应的待处理阵列卡日志。
优选的,在采集待检测RAID对应的待处理阵列卡日志之前,需要先利用RAID卡对待检测RAID执行PR和CC,可以理解的是,在执行PR和CC时会占用部分计算资源,为不影响节点服务器的正常运行,通常需要根据节点服务器的忙闲程度来制定执行PR和CC的时间和周期(相当于制定一个定时任务),在一些实施例中,根据预设的执行时间和执行周期,对待检测RAID执行PR和CC,执行时间和执行周期基于待检测RAID所属的节点服务器对应的第二预设指标和预设信息确定。在此基础上,根据用于执行PR和CC的执行时间和执行周期,周期性采集待处理阵列卡日志,该待处理阵列卡日志为执行PR和执行CC前后的阵列卡日志。
需要说明的是,用于执行PR和CC的执行时间和执行周期,也可根据实际需求或待检测RAID的故障率进行调整,该执行时间和执行周期的制定方式并不局限于上述所提及的方式。
在一些具体实施例中,第二预设指标至少包括:中央处理器(central processingunit,CPU)使用率、内存使用率、CUP等待IO(即输入输出)、每秒总网卡流量、交换内存(swap)利用率、磁盘繁忙度和磁盘IO吞吐。待检测RAID所属的节点服务器对应的预设信息至少包括:该节点服务器所关联的应用***对应的应用***信息(如应用***名称、重要级别信息、服务级别等级协议、应用经理和应用经理的联系方式等信息)。
需要说明的是,上述提及的第二预设指标,可通过采集待检测RAID所属的节点服务器对应的各个指标项的信息得到,用于采集第二预设指标的指标项详见表1示出的内容。
表1:
指标项 指标项释义
CpuUtil CPU使用率
SedMemPerccent 内存使用率
IOwait CUP等待IO
NET_RATE 每秒总网卡流量
SwapUsedPercent swap利用率
DISKPercentBusy 磁盘繁忙度
DISKIORate 磁盘IO吞吐
需要说明的是,上述表1中所示出的用于采集第二预设指标的指标项仅用于举例说明,在实际应用中,可根据实际需求确定用于采集第二预设指标的指标项,例如可在表1的基础上对各个用于采集第二预设指标的指标项进行增减,也可以根据实际需求选择其它用于采集第二预设指标的指标项,在此不做具体限定。
步骤S102:解析待处理阵列卡日志,得到在对待检测RAID执行PR前和执行PR后每一硬盘的第一预设指标的第一变化值,及得到对待检测RAID执行PR时所需的第一执行时长,及得到在对待检测RAID执行CC前和执行CC后每一硬盘的第一预设指标的第二变化值,及得到对待检测RAID执行CC时所需的第二执行时长。
需要说明的是,在利用RAID卡对待检测RAID执行PR后,待检测RAID中的每一硬盘的第一预设指标会发生相应的变化,同理,在利用RAID卡对待检测RAID执行CC后,待检测RAID中的每一硬盘的第一预设指标也会发生相应的变化。在执行PR和执行CC前后,每一硬盘的第一预设指标的值均会记录在待检测RAID对应的阵列卡日志中,可通过采集执行PR和执行CC前后的阵列卡日志来获取执行PR和执行CC前每一硬盘的第一预设指标的值,及获取执行PR和执行CC后每一硬盘的第一预设指标的值。
进一步需要说明的是,PR和CC是用来修复硬盘错误或用来修复不一致的数据,如果执行PR或CC的时间过长,表示硬盘错误较多和表示硬盘读写能力较差,因此可将执行PR所需的时间及执行CC所需的时间作为判断硬盘是否出现故障的依据之一,执行PR和执行CC所需的时间,可从阵列卡日志中获取,具体可从阵列卡日志中获取执行PR的开始时间、执行PR的结束时间、执行CC的开始时间和执行CC的结束时间,并根据执行PR的开始时间和结束时间确定执行PR所需的时间,及根据执行CC的开始时间和结束时间确定执行CC所需的时间。
在具体实现步骤S102的过程中,解析待处理阵列卡日志,得到在对待检测RAID执行PR前每一硬盘(待检测RAID中的每一硬盘)的第一预设指标的值,及得到在对待检测RAID执行PR后每一硬盘的第一预设指标的值,通过在对待检测RAID执行PR前每一硬盘的第一预设指标的值和在对待检测RAID执行PR后每一硬盘的第一预设指标的值,可确定得到在对待检测RAID执行PR前和执行PR后每一硬盘的第一预设指标的第一变化值;解析待处理阵列卡日志后,也可得到对待检测RAID执行PR时所需的第一执行时长(根据执行PR的开始时间和结束时间确定)。
同理,解析待处理阵列卡日志,得到在对待检测RAID执行CC前每一硬盘的第一预设指标的值,及得到在对待检测RAID执行CC后每一硬盘的第一预设指标的值,通过在对待检测RAID执行CC前每一硬盘的第一预设指标的值和在对待检测RAID执行CC后每一硬盘的第一预设指标的值,可确定得到在对待检测RAID执行CC前和执行CC后每一硬盘的第一预设指标的第二变化值;解析待处理阵列卡日志后,也可得到对待检测RAID执行CC时所需的第二执行时长(根据执行CC的开始时间和结束时间确定)。
在一些具体实施例中,第一预设指标至少包括:介质错误计数器、预期错误计数器、其它错误计数器和硬件错误计数器。
在一些实施例中,从待处理阵列卡日志中获取执行PR前后和执行CC前后每一硬盘的第一预设指标的值时,可通过采集待检测RAID所属的节点服务器对应的各个指标项的信息得到,用于采集第一预设指标的值的指标项详见表2示出的内容。
表2:
指标项 指标项释义
Slot Number 硬盘槽位号
Media Error Count 介质错误计数器
Predictive FailureCount 预期错误计数器
Other Error Count 其它错误计数器
Hardware Error Count 硬件错误计数器
可以理解的是,表2中的硬盘槽位号这一指标项,用于指示对应的硬盘。
需要说明的是,上述表2中所示出的用于采集第一预设指标的值的指标项仅用于举例说明,在实际应用中,可根据实际需求确定用于采集第一预设指标的值的指标项,例如可在表2的基础上对各个用于采集第一预设指标的值的指标项进行增减,也可以根据实际需求选择其它用于采集第一预设指标的值的指标项,在此不做具体限定。
结合上述内容可知,第一执行时长根据对待检测RAID执行PR的开始时间和执行PR的结束时间确定,第二执行时长根据对待检测RAID执行CC的开始时间和执行CC的结束时间确定。在具体实现中,可通过关键字从待处理阵列卡日志中匹配得到执行PR的开始时间、执行PR的结束时间、执行CC的开始时间和执行CC的结束时间,该关键字的具体内容如表3。
关键字 关键字释义
Patrol Readstarted PR开始执行时间
Consistency Checkstarted CC开始执行时间
Patrol Readcompleted PR结束时间
Consistency Checkdone CC结束时间
步骤S103:根据第一执行时长、第二执行时长、待检测RAID中每一硬盘对应的第一变化值和第二变化值,确定待检测RAID中是否存在故障硬盘。若存在,执行步骤S104,若不存在,返回执行步骤S101。
在具体实现步骤S103的过程中,针对待检测RAID中的每一硬盘,根据第一执行时长和第二执行时长,结合该硬盘对应的第一预设指标的第一变化值和第二变化值,判断硬盘是否满足预设的故障条件,若满足,确定硬盘为故障硬盘。其中,预设的故障条件为:第一变化值大于等于第一阈值,第二变化值大于等于第二阈值,第一执行时长大于等于第三阈值,第二执行时长大于等于第四阈值。若待检测RAID中不存在故障硬盘,则返回执行步骤S101,继续采集新的待处理阵列卡日志,继续对待检测RAID的硬盘进行监控。
由上述内容可知,硬盘的第一预设指标有多项,在具体实现中,对于待检测RAID中的每一硬盘,当第一执行时长、第二执行时长、该硬盘的任意一项或任意多项第一预设指标的第一变化值和第二变化指标值满足以下故障条件时,则确定该硬盘为故障硬盘。故障条件为:第一变化值大于等于第一阈值,第二变化值大于等于第二阈值,第一执行时长大于等于第三阈值,第二执行时长大于等于第四阈值,前述几个阈值均可根据实际情况进行调整。
步骤S104:获取故障硬盘对应的硬盘信息。
在具体实现步骤S104的过程中,若从待检测RAID中确定故障硬盘,获取该故障硬盘的硬盘信息,该硬盘信息指示该故障硬盘为哪一节点服务器的哪一RAID的哪一硬盘。
优选的,在确定待检测RAID中存在故障硬盘且获取故障硬盘对应的硬盘信息后,从CMBD中获取故障硬盘所属的节点服务器关联的应用***的应用***信息和忙闲时间段信息,及获取待检测RAID对应的阵列卡性能信息(也就是用于对待检测RAID执行PR和CC的阵列卡的阵列卡性能信息),该应用***信息至少包含:该应用***的重要级别、服务级别等级协议、应用经理和应用经理的联系方式等信息,该阵列卡性能信息用于确定硬盘的忙闲时间段;根据该应用***信息、忙闲时间段信息和阵列卡性能信息,结合换盘规则,制定换盘策略;将换盘策略和告警通知发送至指定对象(如运维人员),使该指定对象根据告警通知了解故障硬盘的硬盘信息,并使该指定对象根据换盘策略对故障硬盘进行处理,该告警通知至少包含故障硬盘对应的硬盘信息。
通过上述步骤S101至步骤S104所提供的内容,对服务器集群中各个节点服务器的各个RAID进行故障硬盘的定位。
在本发明实施例中,通过解析阵列卡日志得到在对RAID执行PR和执行CC前后硬盘的预设指标的变化值,以及得到在对RAID执行PR和执行CC时所需的执行时长。结合硬盘对应的预设指标的变化值和执行时长确定硬盘是否发生故障,以准确和及时的对故障硬盘进行定位,进而保障服务器集群的稳定运行。
为更好解释说明上述本发明实施例图1所示出的内容,通过图2进行举例说明。
参见图2,示出了本发明实施例提供的一种故障硬盘的定位方法的另一流程图,包括以下步骤:
步骤S201:利用CMDB获取待检测RAID所属的节点服务器对应的预设信息。
需要说明的是,待检测RAID所属的节点服务器对应的预设信息至少包括:该节点服务器所关联的应用***对应的应用***信息,例如:应用***名称、重要级别信息、服务级别等级协议、应用经理和应用经理的联系方式等信息。
步骤S202:获取待检测RAID所属的节点服务器对应的第二预设指标。
需要说明的是,第二预设指标的具体内容参见上述表1。
步骤S203:基于第二预设指标和预设信息,确定用于执行PR和CC的执行时间和执行周期。
步骤S204:周期性采集待检测RAID对应的待处理阵列卡日志。
步骤S205:解析待处理阵列卡日志,得到第一执行时长、第二执行时长、待检测RAID中每一硬盘的第一预设指标的第一变化值和第一预设指标的第二变化值,并据此确定待检测RAID中的故障硬盘。
步骤S206:确定待检测RAID中是否存在故障硬盘,若存在则执行步骤S207,若不存在则返回执行步骤S204。
步骤S207:制定换盘策略。
步骤S208:按照换盘策略对故障硬盘进行处理。
与上述本发明实施例提供的一种故障硬盘的定位方法相对应,参见图3,本发明实施例还提供了一种故障硬盘的定位***的结构框图,该定位***包括:采集单元301、解析单元302和处理单元303;
采集单元301,用于周期性采集待检测RAID对应的待处理阵列卡日志,待检测RAID为服务器集群的任一节点服务器中的任一RAID。
解析单元302,用于解析待处理阵列卡日志,得到在对待检测RAID执行PR前和执行PR后每一硬盘的第一预设指标的第一变化值,及得到对待检测RAID执行PR时所需的第一执行时长,及得到在对待检测RAID执行CC前和执行CC后每一硬盘的第一预设指标的第二变化值,及得到对待检测RAID执行CC时所需的第二执行时长。
在具体实现中,第一预设指标至少包括:介质错误计数器、预期错误计数器、其它错误计数器和硬件错误计数器。
处理单元303,用于根据第一执行时长、第二执行时长、待检测RAID中每一硬盘对应的第一变化值和第二变化值,确定待检测RAID中是否存在故障硬盘;若存在,获取故障硬盘对应的硬盘信息。
在具体实现中,用于确定待检测RAID中是否存在故障硬盘的处理单元303,具体用于:针对待检测RAID中的每一硬盘,根据第一执行时长和第二执行时长,结合硬盘对应的第一变化值和第二变化值,判断硬盘是否满足预设的故障条件,若满足,确定硬盘为故障硬盘;其中,预设的故障条件为:第一变化值大于等于第一阈值,第二变化值大于等于第二阈值,第一执行时长大于等于第三阈值,第二执行时长大于等于第四阈值。
优选的,处理单元303还用于:获取故障硬盘所属的节点服务器关联的应用***的应用***信息和忙闲时间段信息,及获取待检测RAID对应的阵列卡性能信息;根据应用***信息、忙闲时间段信息和阵列卡性能信息,结合换盘规则,制定换盘策略;将换盘策略和告警通知发送至指定对象,告警通知至少包含故障硬盘对应的硬盘信息。
在本发明实施例中,通过解析阵列卡日志得到在对RAID执行PR和执行CC前后硬盘的预设指标的变化值,以及得到在对RAID执行PR和执行CC时所需的执行时长。结合硬盘对应的预设指标的变化值和执行时长确定硬盘是否发生故障,以准确和及时的对故障硬盘进行定位,进而保障服务器集群的稳定运行。
优选的,结合图3,参见图4,示出了本发明实施例提供的一种故障硬盘的定位***的结构框图,该定位***还包括:
执行单元304,用于根据预设的执行时间和执行周期,对待检测RAID执行PR和CC,执行时间和执行周期基于待检测RAID所属的节点服务器对应的第二预设指标和预设信息确定。
在具体实现中,第二预设指标至少包括:CPU使用率、内存使用率、CUP等待IO、每秒总网卡流量、swap利用率、磁盘繁忙度和磁盘IO吞吐。
综上所述,本发明实施例提供一种故障硬盘的定位方法及***,通过解析阵列卡日志得到在对RAID执行PR和执行CC前后硬盘的预设指标的变化值,以及得到在对RAID执行PR和执行CC时所需的执行时长。结合硬盘对应的预设指标的变化值和执行时长,确定硬盘是否发生故障,以准确和及时的对故障硬盘进行定位。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种故障硬盘的定位方法,其特征在于,所述方法包括:
周期性采集待检测独立磁盘冗余阵列RAID对应的待处理阵列卡日志,所述待检测RAID为服务器集群的任一节点服务器中的任一RAID;
解析所述待处理阵列卡日志,得到在对所述待检测RAID执行巡读PR前和执行PR后每一硬盘的第一预设指标的第一变化值,及得到对所述待检测RAID执行PR时所需的第一执行时长,及得到在对所述待检测RAID执行一致性检测CC前和执行CC后每一硬盘的第一预设指标的第二变化值,及得到对所述待检测RAID执行CC时所需的第二执行时长;
根据所述第一执行时长、所述第二执行时长、所述待检测RAID中每一硬盘对应的所述第一变化值和所述第二变化值,确定所述待检测RAID中是否存在故障硬盘;
若存在,获取所述故障硬盘对应的硬盘信息。
2.根据权利要求1所述的方法,其特征在于,根据所述第一执行时长、所述第二执行时长、所述待检测RAID中每一硬盘对应的所述第一变化值和所述第二变化值,确定所述待检测RAID中是否存在故障硬盘,包括:
针对所述待检测RAID中的每一硬盘,根据所述第一执行时长和所述第二执行时长,结合所述硬盘对应的所述第一变化值和所述第二变化值,判断所述硬盘是否满足预设的故障条件,若满足,确定所述硬盘为故障硬盘;
其中,所述预设的故障条件为:所述第一变化值大于等于第一阈值,所述第二变化值大于等于第二阈值,所述第一执行时长大于等于第三阈值,所述第二执行时长大于等于第四阈值。
3.根据权利要求1所述的方法,其特征在于,所述第一预设指标至少包括:介质错误计数器、预期错误计数器、其它错误计数器和硬件错误计数器。
4.根据权利要求1所述的方法,其特征在于,所述周期性采集待检测独立磁盘冗余阵列RAID对应的待处理阵列卡日志之前,还包括:
根据预设的执行时间和执行周期,对待检测RAID执行PR和CC,所述执行时间和所述执行周期基于所述待检测RAID所属的节点服务器对应的第二预设指标和预设信息确定。
5.根据权利要求4所述的方法,其特征在于,所述第二预设指标至少包括:中央处理器CPU使用率、内存使用率、CUP等待IO、每秒总网卡流量、交换内存swap利用率、磁盘繁忙度和磁盘IO吞吐。
6.根据权利要求1所述的方法,其特征在于,所述获取所述故障硬盘对应的硬盘信息之后,还包括:
获取所述故障硬盘所属的节点服务器关联的应用***的应用***信息和忙闲时间段信息,及获取所述待检测RAID对应的阵列卡性能信息;
根据所述应用***信息、所述忙闲时间段信息和所述阵列卡性能信息,结合换盘规则,制定换盘策略;
将所述换盘策略和告警通知发送至指定对象,所述告警通知至少包含所述故障硬盘对应的硬盘信息。
7.一种故障硬盘的定位***,其特征在于,所述***包括:
采集单元,用于周期性采集待检测独立磁盘冗余阵列RAID对应的待处理阵列卡日志,所述待检测RAID为服务器集群的任一节点服务器中的任一RAID;
解析单元,用于解析所述待处理阵列卡日志,得到在对所述待检测RAID执行巡读PR前和执行PR后每一硬盘的第一预设指标的第一变化值,及得到对所述待检测RAID执行PR时所需的第一执行时长,及得到在对所述待检测RAID执行一致性检测CC前和执行CC后每一硬盘的第一预设指标的第二变化值,及得到对所述待检测RAID执行CC时所需的第二执行时长;
处理单元,用于根据所述第一执行时长、所述第二执行时长、所述待检测RAID中每一硬盘对应的所述第一变化值和所述第二变化值,确定所述待检测RAID中是否存在故障硬盘;若存在,获取所述故障硬盘对应的硬盘信息。
8.根据权利要求7所述的***,其特征在于,用于确定所述待检测RAID中是否存在故障硬盘的所述处理单元,具体用于:
针对所述待检测RAID中的每一硬盘,根据所述第一执行时长和所述第二执行时长,结合所述硬盘对应的所述第一变化值和所述第二变化值,判断所述硬盘是否满足预设的故障条件,若满足,确定所述硬盘为故障硬盘;
其中,所述预设的故障条件为:所述第一变化值大于等于第一阈值,所述第二变化值大于等于第二阈值,所述第一执行时长大于等于第三阈值,所述第二执行时长大于等于第四阈值。
9.根据权利要求7所述的***,其特征在于,所述第一预设指标至少包括:介质错误计数器、预期错误计数器、其它错误计数器和硬件错误计数器。
10.根据权利要求7所述的***,其特征在于,所述***还包括:
执行单元,用于根据预设的执行时间和执行周期,对待检测RAID执行PR和CC,所述执行时间和所述执行周期基于所述待检测RAID所属的节点服务器对应的第二预设指标和预设信息确定。
CN202110800194.3A 2021-07-15 2021-07-15 一种故障硬盘的定位方法及*** Pending CN113409876A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110800194.3A CN113409876A (zh) 2021-07-15 2021-07-15 一种故障硬盘的定位方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110800194.3A CN113409876A (zh) 2021-07-15 2021-07-15 一种故障硬盘的定位方法及***

Publications (1)

Publication Number Publication Date
CN113409876A true CN113409876A (zh) 2021-09-17

Family

ID=77686400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110800194.3A Pending CN113409876A (zh) 2021-07-15 2021-07-15 一种故障硬盘的定位方法及***

Country Status (1)

Country Link
CN (1) CN113409876A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023071039A1 (zh) * 2021-10-26 2023-05-04 苏州浪潮智能科技有限公司 一种故障诊断方法、装置、设备及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023071039A1 (zh) * 2021-10-26 2023-05-04 苏州浪潮智能科技有限公司 一种故障诊断方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
Zheng et al. Co-analysis of RAS log and job log on Blue Gene/P
Birke et al. Failure analysis of virtual and physical machines: patterns, causes and characteristics
US7502971B2 (en) Determining a recurrent problem of a computer resource using signatures
US8655623B2 (en) Diagnostic system and method
WO2020018927A1 (en) System, method, and apparatus for high throughput ingestion for streaming telemetry data for network performance management
EP2523115A1 (en) Operation management device, operation management method, and program storage medium
US10698605B2 (en) Multipath storage device based on multi-dimensional health diagnosis
US20070168915A1 (en) Methods and systems to detect business disruptions, determine potential causes of those business disruptions, or both
CN102567185B (zh) 一种应用服务器的监控方法
JP2009129134A (ja) ストレージ管理システム、性能監視方法及び管理サーバ
WO2015136624A1 (ja) アプリケーション性能監視方法および装置
WO2011017955A1 (zh) 一种告警数据分析的方法及其***
US20110239050A1 (en) System and Method of Collecting and Reporting Exceptions Associated with Information Technology Services
US11126501B2 (en) Method, device and program product for avoiding a fault event of a disk array
CN111314158B (zh) 大数据平台监控方法、装置及设备、介质
CN112152823A (zh) 网站运行错误监控方法、装置及计算机存储介质
US20170199800A1 (en) System and method for comprehensive performance and availability tracking using passive monitoring and intelligent synthetic transaction generation in a transaction processing system
CN113409876A (zh) 一种故障硬盘的定位方法及***
CN114297037A (zh) 一种告警聚类方法及装置
CN114238018B (zh) 日志采集文件完整性检测方法、***、装置及存储介质
CN116126621A (zh) 大数据集群的任务监控方法及相关设备
CN115543665A (zh) 一种内存可靠性评估方法、装置及存储介质
US11210159B2 (en) Failure detection and correction in a distributed computing system
CN112817987A (zh) 访问分布式存储集群的方法及装置、设备、存储介质
CN113568781A (zh) 一种数据库错误处理方法、装置及数据库集群访问***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination