CN103207820B - 基于raid卡日志的硬盘的故障定位方法及装置 - Google Patents

基于raid卡日志的硬盘的故障定位方法及装置 Download PDF

Info

Publication number
CN103207820B
CN103207820B CN201310046008.7A CN201310046008A CN103207820B CN 103207820 B CN103207820 B CN 103207820B CN 201310046008 A CN201310046008 A CN 201310046008A CN 103207820 B CN103207820 B CN 103207820B
Authority
CN
China
Prior art keywords
hard disk
raid card
state
log
transition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310046008.7A
Other languages
English (en)
Other versions
CN103207820A (zh
Inventor
刘亮
王雁鹏
王晓静
魏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310046008.7A priority Critical patent/CN103207820B/zh
Publication of CN103207820A publication Critical patent/CN103207820A/zh
Application granted granted Critical
Publication of CN103207820B publication Critical patent/CN103207820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提出一种基于raid卡日志的硬盘的故障定位方法,包括以下步骤:raid卡将日志推送至异步事件处理引擎;监测工具分析硬盘的当前状态,若逻辑盘处于degraded状态或offline状态,则硬盘故障;引擎对日志进行分析获取与掉盘相关的日志信息,并推送至服务器的内存生成本地raid卡日志;监测工具在其中抓取磁盘的物理盘的多条变迁事件记录,据此获取硬盘的最终状态;并将其当前状态和最终状态比对,若不匹配,则物理盘发生掉盘。本发明的实施例能够达到对硬盘运行故障检测有较全的覆盖率,且大幅度的提高了硬盘监控和检测的准确度,提高了服务器的运维效率。本发明还提出了一种基于raid卡日志的硬盘的故障定位装置。

Description

基于raid卡日志的硬盘的故障定位方法及装置
技术领域
本发明涉及信息存储技术领域,特别涉及一种基于raid卡日志的硬盘的故障定位方法及装置。
背景技术
针对企业服务器中使用的LSI(Large-scaleintegration,大规模集成电路)型raid(RedundantArraysofInexpensiveDisks,磁盘阵列)卡硬盘的故障检测,现有技术利用raid卡厂商提供的库或者工具,读取raid卡下各硬盘/SSD(SolidStateDisk,固态硬盘)的状态,以及故障计数;当硬盘状态不正常,或者故障计数超过阈值的时候,触发故障报警,然而当硬盘/SSD严重故障,导致raid卡***已无法识别时,raid卡控制器会把相应盘踢除出raid阵列,不再记录此盘任何相关的状态和故障信息,因此会导致现有的技术手段对已经发生物理掉盘的硬盘的故障漏报。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的一个目的在于提出一种能够达到对硬盘运行故障检测有较全的覆盖率,且可以大幅度提高硬盘监控和检测的准确度,提高服务器运维效率的基于raid卡日志的硬盘故障定位方法。
本发明的另一目的在于提出一种基于raid卡日志的硬盘故障定位装置。
为了实现上述目的,本发明第一方面的实施例提出了一种基于raid卡日志的硬盘的故障定位方法,其中,在磁盘阵列raid卡和服务器之间设置异步实时推送接口,且所述服务器中设置有异步事件处理引擎,所述硬盘故障定位方法包括如下步骤:所述raid卡通过所述异步实时推送接口将raid卡日志实时推送至所述异步事件处理引擎;监测工具分析硬盘的当前状态,如果所述硬盘的逻辑盘处于降级degraded状态或者下线offline状态,则判断所述硬盘出现故障;在判断所述硬盘出现故障时,所述异步事件处理引擎对所述raid卡日志进行分析以获取与掉盘相关的日志信息,并将所述与掉盘相关的日志信息推送至所述服务器的内存以生成本地raid卡日志;所述监测工具在所述本地raid卡日志中抓取所述磁盘的物理盘的多条变迁事件记录,并根据多条所述变迁事件记录获取所述硬盘的最终状态;以及所述监测工具将所述硬盘的当前状态和最终状态进行比对,如果所述硬盘的当前状态和最终状态不匹配,则判断所述硬盘的物理盘发生掉盘。
根据本发明实施例的基于raid卡日志的硬盘的故障定位方法,结合硬盘当前的运行健康信息和分析raid卡的日志,能够达到对硬盘运行故障检测有较全的覆盖率,且大幅度提高了硬盘监控和检测的准确度,提高了服务器的运维效率。
另外,根据本发明上述实施例的基于raid卡日志的硬盘的故障定位方法还可以具有如下附加的技术特征:
在本发明的实施例中,如果所述硬盘的当前状态和最终状态匹配,则判断所述硬盘发生故障。
在本发明的实施例中,所述异步事件处理引擎在获得所述与掉盘相关的日志信息后,还包括如下步骤:对所述与掉盘相关的日志信息进行格式化处理,将格式化处理后的日志信息推送至所述服务器的内存。
在本发明的实施例中,所述变迁事件记录所述硬盘的变迁状态,包括:正常状态变迁到故障状态、故障状态变迁到正常状态、故障状态变迁到异常状态。
在本发明的实施例中,所述根据多条所述变迁事件记录获取所述硬盘的最终状态,包括如下步骤:对多条所述变迁事件记录的时间进行分析,获取最后时间的一条变迁事件记录,得到所述硬盘的最终状态。
本发明第二方面的实施例还提出了一种基于raid卡日志的硬盘的故障定位装置,包括:监测工具、raid卡、服务器和异步实时推送接口,其中所述异步实时推送接口位于所述raid卡和所述服务器之间,所述raid卡用于通过所述异步实时推送接口将raid卡日志实时推送至所述服务器;所述服务器包括异步事件处理引擎,所述异步事件处理引擎用于通过所述异步实时推送接口接收所述raid卡日志,并在所述硬盘出现故障时,对所述raid卡日志进行分析以获取与掉盘相关的日志信息,并将所述与掉盘相关的日志信息推送至所述服务器的内存以生成本地raid卡日志;所述监测工具用于分析硬盘的当前状态,如果所述硬盘的逻辑盘处于降级degraded状态或者下线offline状态,则判断所述硬盘出现故障,并在所述本地raid卡日志中抓取所述磁盘的物理盘的多条变迁事件记录,并根据多条所述变迁事件记录获取所述硬盘的最终状态,以及将所述硬盘的当前状态和最终状态进行比对,如果所述硬盘的当前状态和最终状态不匹配,则判断所述硬盘的物理盘发生掉盘。
根据本发明实施例的基于raid卡日志的硬盘的故障定位装置,结合硬盘当前的运行健康信息和分析raid卡的日志,能够达到对硬盘运行故障检测有较全的覆盖率,且大幅度提高了硬盘监控和检测的准确度,提高了服务器的运维效率。
另外,根据本发明上述实施例的基于raid卡日志的硬盘的故障定位装置还可以具有如下附加的技术特征:
在本发明的实施例中,所述监测工具在监测到所述硬盘的当前状态和最终状态匹配时,判断所述硬盘发生故障。
在本发明的实施例中,所述异步事件处理引擎还用于对所述与掉盘相关的日志信息进行格式化处理,将格式化处理后的日志信息推送至所述服务器的内存。
在本发明的实施例中,所述变迁事件记录所述硬盘的变迁状态,包括:正常状态变迁到故障状态、故障状态变迁到正常状态、故障状态变迁到异常状态。
在本发明的实施例中,所述监测工具对多条所述变迁事件记录的时间进行分析,获取最后时间的一条变迁事件记录,得到所述硬盘的最终状态。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于raid卡日志的硬盘的故障定位方法的流程图;
图2为根据本发明另一个实施例的基于raid卡日志的硬盘的故障定位方法的raid卡异步事件推送示意图;
图3为根据本发明一个实施例的基于raid卡日志的硬盘的故障定位方法的raid卡异步事件推送框架;
图4为根据本发明一个实施例的基于raid卡日志的硬盘的故障定位方法的raid卡日志中一条物理盘状态变化记录示意图;
图5为根据本发明另一个实施例的基于raid卡日志的硬盘的故障定位方法的流程图;和
图6为根据本发明一个实施例的基于raid卡日志的硬盘的故障定位装置的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
以下结合附图1-5详细描述根据本发明实施例的基于raid卡日志的硬盘的故障定位方法。
如图1所示,根据本发明一个实施例的基于raid卡日志的硬盘的故障定位方法,其中,在磁盘阵列raid卡和服务器之间设置异步实时推送接口,且服务器中设置有异步事件处理引擎,该方法包括以下步骤:
步骤S101,raid卡通过异步实时推送接口将raid卡日志实时推送至服务器中的异步事件处理引擎。
具体而言,raid卡的完整日志记录了raid卡发生的所有事件信息,包括事件在日志中的编号,发生时间,事件描述和事件数据等信息。采用异步通信机制实现服务器本地与raid卡控制器的实时通信,一旦raid卡有事件发生,raid卡控制器在其存储器中存储时间日志的同时,利用异步事件推送接口推送给运行在服务器中的异步事件处理引擎,异步事件处理引擎对事件信息进行分析处理。
步骤S102,监测工具分析硬盘的当前状态,如果硬盘的逻辑盘处于降级degraded状态或者下线offline状态,则判断硬盘出现故障。
具体地,硬盘的逻辑盘状态有optimal,degraded和offline三种状态,分别反映当前raid卡逻辑盘的正常、降级和下线状态,换言之,上述三种状态可以理解为对应正常和故障两种状态。当监测工具监测到逻辑盘出现degraded或者offline状态,则判定逻辑盘对应的物理盘出现故障。其中,监测工具为但不限于MegaCli工具。
步骤S103,在判断硬盘出现故障时,异步事件处理引擎对raid卡日志进行分析以获取与掉盘相关的日志信息,并将与掉盘相关的日志信息推送至服务器的内存以生成本地raid卡日志。具体地,在异步事件处理引擎获得与掉盘相关的日志信息之后,对该与掉盘相关的日志信息进行分析、过滤和格式化处理,并将格式化处理后的日志信息推送至服务器的内存,以便生成本地raid卡日志,方便实时的查询和实时推送,达到对服务器性能的零影响的同时,做到对关键信息的实时获取。
步骤S104,监测工具在本地raid卡日志中抓取磁盘的物理盘的多条变迁事件记录,并根据多条变迁事件记录获取硬盘的最终状态。
具体地,变迁事件记录硬盘的变迁状态,包括:正常状态变迁到故障状态、故障状态变迁到正常状态和故障状态变迁到异常状态。而根据多条变迁事件记录获取硬盘的最终状态具体的步骤为:对多条变迁事件记录的时间进行分析,获取最后时间的一条变迁事件记录,得到硬盘的最终状态。
步骤S105,监测工具将硬盘的当前状态和最终状态进行比对,如果硬盘的当期状态和最终状态不匹配,则判断硬盘的物理盘发生掉盘。进一步地,如果硬盘的当前状态和最终状态匹配,则判断硬盘发生故障。
raid卡上有一块flash,用于永久储存运行时的各种log,掉电时也不会丢失;raid卡运行过程中发生的事件,包括出现任何掉盘的情况,相应的状态改变都会记录在flash中。故利用raid卡存储的日志可以很全面地覆盖硬盘故障。则在上述示例中,对于LSI型raid卡,可以利用MegaCli工具抓取raid卡控制器,物理盘和逻辑盘等的健康参数。例如,逻辑盘状态有optimal,degraded和offline三种状态,分别反映当前raid卡逻辑盘的正常、降级和下线状态,换言之,上述三种状态可以理解为对应正常和故障的状态。如果逻辑盘出现degraded或者offline状态,则可以判定逻辑盘对应的物理盘一定存在故障。相应的,物理盘的mediaError,predictivefailure,firmwarestate等数值反映了当前物理盘的运行状态,firmwarestate有上线online,失败failed,异常unconfigure_good,故障unconfigure_bad等状态值,分别反映当前物理盘的正常和异常状态。结合逻辑盘和物理盘的状态信息,可以有效地判断出raid卡当前是否运行正常以及哪块逻辑盘有问题。
对于没有发生物理掉盘的raid卡,上述检测手段均可以实时准确地检测到硬盘故障。但是,当发生物理掉盘时,raid卡控制器不再将此盘踢出阵列,导致发生掉盘的故障硬盘的运行状态信息不能实时地被获取,用上述手段也就无法定位到此硬盘的故障。考虑到raid卡控制器会及时将事件信息记录到raid卡日志中,包括物理掉盘事件信息,可以获取raid卡日志进行分析,挖掘出无法获取的硬盘实时运行状态信息,从而实现对发生物理掉盘的故障硬盘的定位。
由于raid卡完整日志记录了raid卡发生的所有事件信息,包括事件在日志中的编号,发生时间,事件描述,事件数据等信息,当服务器raid卡事件发生频繁时,日志信息量很大,频繁读取日志到内存会影响服务器性能。针对于此,采用异步通信机制实现服务器本地与raid卡控制器的实时通信,一旦raid卡有事件发生,raid卡控制器在flash中存储事件日志的同时,利用异步事件推送接口推送给运行在服务器中的异步事件处理引擎,异步事件处理引擎进行实时信息分析,过滤和格式化,将格式化的日志信息存储在服务器本地硬盘,方便实时的查询和数据挖掘。raid卡和服务器之间的事件异步通信框架实现了日志信息向本地的实时推送,达到对服务器性能的零影响的同时,对关键信息的实时获取。异步推送到本地的日志增量存储在本地日志中,供定位故障使用。其推送示意图如图2和图3所示。结合图2和图3,当raid卡有事件发生时,raid卡从其RAM中读取事件的相关参数,一方面,raid卡向其flash中存储参数信息,生成raid卡log日志;同时,另一方面,raid卡向异步事件推送接口推送数据,服务器的异步事件处理引擎接收并处理数据,并将格式化后的数据存储在服务器内存以生成本地raid卡日志。
raid卡日志中的事件信息类型有200多种,与定位掉盘有关的类型有5种,其中最关键的2类事件为逻辑盘和物理盘的状态变迁信息记录。状态变迁信息记录着硬盘运行状态的变化情况,包括由正常状态到故障状态,由故障状态到正常状态,由一种故障状态(unconfigure_bad)到另一种异常状态(unconfigure_good)等。其中,有关raid卡逻辑盘和物理盘的事件描述(EventDescription)的记录有固定的格式,例如图4所示,是raid卡日志中关于物理盘的状态变化的一条记录。
每块硬盘在其运行周期内,会存有很多的状态变迁记录,只有最后一条状态变迁记录中存储此块硬盘的当前运行状态信息。对此类格式的事件描述记录进行分析,获取每块硬盘的最终运行状态,从而在无法实时地获取发生物理掉盘的硬盘的当前运行状态的情况下,借助raid卡日志中的事件存档,定位到相应的物理盘发生掉盘,从而提高了故障检测覆盖率。
图5为根据本发明另一个实施例的基于raid卡日志的硬盘的故障定位方法的流程图。
如图5所示,根据本发明另一个实施例的基于raid卡日志的硬盘的故障定位方法,包括以下步骤:
步骤S501,运行监测工具。其中,监测工具为但不限于MegaCli工具。利用MegaCli工具可以抓取raid卡控制器,物理盘和逻辑盘等的健康参数。
步骤S502,分析当前的硬盘状态。硬盘的逻辑盘状态有optimal,degraded和offline三种状态,分别反映当前raid卡逻辑盘的正常、降级和下线状态,即上述三种状态可以理解为对应正常和故障两种状态。当监测工具监测到逻辑盘出现降级degraded或者下线offline状态,则判定逻辑盘对应的物理盘出现故障。
步骤S503,判断是否存在逻辑盘degraded或者offline状态。即判断监测工具是否检测到逻辑盘出现degraded或者offline状态,如果是则执行步骤S504,否则执行步骤S505。
步骤S504,生成本地raid卡日志。即当检测到逻辑盘出现degraded或者offline状态时,说明逻辑盘出现故障,则异步事件处理引擎对raid卡日志进行分析以获取与掉盘相关的日志信息,对该与掉盘相关的日志信息进行分析、过滤和格式化处理,并将格式化处理后的日志信息推送至服务器的内存,以便生成本地raid卡日志,方便实时的查询和实时推送,达到对服务器性能的零影响的同时,做到对关键信息的实时获取。
步骤S505,无故障。即在判断逻辑盘未出现degraded或者offline状态时,说明硬盘无故障。
步骤S506,按格式抓取物理盘状态变迁事件记录。raid卡日志中的事件信息类型有200多种,与定位掉盘有关的类型有5种,其中最关键的2类事件为逻辑盘和物理盘的状态变迁信息记录。状态变迁信息记录着硬盘运行状态的变化情况,包括由正常状态到故障状态,由故障状态到正常状态,由一种故障状态(unconfigure_bad)到另一种异常状态(unconfigure_good)等。其中,有关raid卡逻辑盘和物理盘的事件描述(EventDescription)的记录有固定的格式,而需要按照该固定的格式抓取物理盘状态变迁事件记录。
步骤S507,解析各硬盘的最终状态。每块硬盘在其运行周期内,会存有很多的状态变迁记录,只有最后一条状态变迁记录中存储此块硬盘的当前运行状态信息。对此类格式的事件描述记录的时间进行分析,获取每块硬盘的最后时间的一条变迁事件记录,得到硬盘的最终运行状态。
步骤S508,和能获取当前运行状态的硬盘进行匹配。即监测工具将硬盘的当前状态和其最终状态进行比对。
步骤S509,硬盘的当前运行状态与最终运行状态是否匹配。即判断硬盘的当前运行状态与raid卡日志中存储的硬盘最终状态是否匹配。如果是则执行步骤S510,否则执行步骤S511。
步骤S510,硬盘故障,检测出故障。即当硬盘的当前运行状态与最终运行状态匹配时,判定硬盘发生故障,并检测出故障发生的具***置,进行处理。
步骤S511,硬盘物理掉盘,检测出故障。即当硬盘的当前运行状态和最终运行状态不匹配时,判定硬盘的物理盘发生掉盘,并能够实现对发生物理掉盘的故障硬盘进行定位。
步骤S512,LSI型raid卡。即针对于LSI型的raid卡。
步骤S513,LSI型raid卡消息接口。即在raid卡和服务器之间设置有异步实时推送接口。
步骤S514,raid卡发生事件。即当raid卡有事件发生。
步骤S515,异步事件日志推送守护进程过滤消息,异步推送关键信息。即当raid卡有事件发生时,raid卡控制器在flash中存储事件日志的同时,利用异步事件推送接口推送给运行在服务器中的异步事件处理引擎,异步事件处理引擎进行实时信息分析,过滤和格式化,将格式化的日志信息存储在服务器本地硬盘,方便实时的查询和数据挖掘。raid卡和服务器之间的事件异步通信框架实现了日志信息向本地的实时推送,达到对服务器性能的零影响的同时,对关键信息的实时获取。异步推送到本地的日志增量存储在本地日志中,供定位故障使用。即继续执行步骤S506。
根据本发明实施例的基于raid卡日志的硬盘的故障定位方法,结合硬盘当前的运行健康信息和分析raid卡的日志,能够达到对硬盘运行故障检测有较全的覆盖率,且大幅度提高了硬盘监控和检测的准确度,提高了服务器的运维效率。
图6为根据本发明一个实施例的基于raid卡日志的硬盘的故障定位装置的结构图。
如图6所示,根据本发明一个实施例的基于raid卡日志的硬盘的故障定位装置600,包括:监测工具610、raid卡620、服务器630和异步实时推送接口640,其中异步实时推送接口640设置在raid卡620和服务器630之间。
具体地,raid卡620用于通过异步实时推送接口640将raid卡日志实时推送至服务器630。
服务器630包括异步事件处理引擎,用于通过异步实时推送接口640接收raid卡620的日志,并在硬盘出现故障时,对raid卡620的日志进行分析以获取与掉盘相关的日志信息,并将于掉盘相关的日志信息推送至服务器630的内存以生成本地raid卡日志。具体地,异步事件处理引擎通过对于掉盘相关的日志信息进行格式化处理,将格式化处理后的日志信息推送至服务器630的内存。
监测工具610用于分析硬盘的当前状态,如果硬盘的逻辑盘处于降级degraded状态或者下线offline状态,则判断硬盘出现故障,并在本地raid卡日志中抓取磁盘的物理盘的多条变迁事件记录,并对多条变迁事件记录的时间进行分析,获取最后时间的一条变迁事件记录,从而得到硬盘的最终状态,并将硬盘的当前状态和最终状态进行比对,如果硬盘的当前状态和最终状态不匹配,则判定硬盘的物理盘发生掉盘。进一步地,监测工具610监测到硬盘的当前状态和最终状态匹配时,判定硬盘发生故障。其中,变迁事件记录硬盘的变迁状态,包括:正常状态变迁到故障状态,故障状态变迁到正常状态,故障状态变迁到异常状态。监测工具为但不限于MegaCli工具。
在上述示例中,raid卡620通过异步实时推送接口640将raid卡620的日志实时推送至服务器630的异步事件处理引擎,监测工具610分析硬盘的当前状态,当监测到硬盘的逻辑盘出现degraded等状态时,判定硬盘出现故障,然后异步事件处理引擎对raid卡620的日志进行分析获取与掉盘相关的信息,并推送至服务器630的内存生成本地raid卡日志,以便实时的查询和数据挖掘。然后监测工具610在生成的本地raid卡日志中抓取磁盘的物理盘多条变迁事件记录,据此获取硬盘的最终状态,并与硬盘的当前状态进行比对,如果匹配则硬盘发生故障,如果不匹配,则硬盘的物理盘发生掉盘,并能够定位到具体哪个硬盘发生故障及具体的发生物理掉盘的故障硬盘。
根据本发明实施例的基于raid卡日志的硬盘的故障定位装置,结合硬盘当前的运行健康信息和分析raid卡的日志,能够达到对硬盘运行故障检测有较全的覆盖率,且大幅度提高了硬盘监控和检测的准确度,提高了服务器的运维效率。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同限定。

Claims (10)

1.一种基于raid卡日志的硬盘的故障定位方法,其特征在于,在磁盘阵列raid卡和服务器之间设置异步实时推送接口,且所述服务器中设置有异步事件处理引擎,所述硬盘故障定位方法包括如下步骤:
所述raid卡通过所述异步实时推送接口将raid卡日志实时推送至所述异步事件处理引擎;
监测工具分析硬盘的当前状态,如果所述硬盘的逻辑盘处于降级degraded状态或者下线offline状态,则判断所述硬盘出现故障;
在判断所述硬盘出现故障时,所述异步事件处理引擎对所述raid卡日志进行分析以获取与掉盘相关的日志信息,并将所述与掉盘相关的日志信息推送至所述服务器的内存以生成本地raid卡日志;
所述监测工具在所述本地raid卡日志中抓取磁盘的物理盘的多条变迁事件记录,并根据多条所述变迁事件记录获取所述硬盘的最终状态;以及
所述监测工具将所述硬盘的当前状态和最终状态进行比对,如果所述硬盘的当前状态和最终状态不匹配,则判断所述硬盘的物理盘发生掉盘。
2.如权利要求1所述的硬盘故障定位方法,其特征在于,如果所述硬盘的当前状态和最终状态匹配,则判断所述硬盘发生故障。
3.如权利要求1所述的硬盘故障定位方法,其特征在于,所述异步事件处理引擎在获得所述与掉盘相关的日志信息后,还包括如下步骤:
对所述与掉盘相关的日志信息进行格式化处理,将格式化处理后的日志信息推送至所述服务器的内存。
4.如权利要求1所述的硬盘故障定位方法,其特征在于,所述变迁事件记录所述硬盘的变迁状态,包括:正常状态变迁到故障状态、故障状态变迁到正常状态、故障状态变迁到异常状态。
5.如权利要求1所述的硬盘故障定位方法,其特征在于,所述根据多条所述变迁事件记录获取所述硬盘的最终状态,包括如下步骤:
对多条所述变迁事件记录的时间进行分析,获取最后时间的一条变迁事件记录,得到所述硬盘的最终状态。
6.一种基于raid卡日志的硬盘的故障定位装置,其特征在于,包括:监测工具、raid卡、服务器和异步实时推送接口,其中所述异步实时推送接口位于所述raid卡和所述服务器之间,
所述raid卡用于通过所述异步实时推送接口将raid卡日志实时推送至所述服务器;
所述服务器包括异步事件处理引擎,所述异步事件处理引擎用于通过所述异步实时推送接口接收所述raid卡日志,并在所述硬盘出现故障时,对所述raid卡日志进行分析以获取与掉盘相关的日志信息,并将所述与掉盘相关的日志信息推送至所述服务器的内存以生成本地raid卡日志;
所述监测工具用于分析硬盘的当前状态,如果所述硬盘的逻辑盘处于降级degraded状态或者下线offline状态,则判断所述硬盘出现故障,并在所述本地raid卡日志中抓取磁盘的物理盘的多条变迁事件记录,并根据多条所述变迁事件记录获取所述硬盘的最终状态,以及将所述硬盘的当前状态和最终状态进行比对,如果所述硬盘的当前状态和最终状态不匹配,则判断所述硬盘的物理盘发生掉盘。
7.如权利要求6所述的装置,其特征在于,所述监测工具在监测到所述硬盘的当前状态和最终状态匹配时,判断所述硬盘发生故障。
8.如权利要求6所述的装置,其特征在于,所述异步事件处理引擎还用于对所述与掉盘相关的日志信息进行格式化处理,将格式化处理后的日志信息推送至所述服务器的内存。
9.如权利要求6所述的装置,其特征在于,所述变迁事件记录所述硬盘的变迁状态,包括:正常状态变迁到故障状态、故障状态变迁到正常状态、故障状态变迁到异常状态。
10.如权利要求6所述的装置,其特征在于,所述监测工具对多条所述变迁事件记录的时间进行分析,获取最后时间的一条变迁事件记录,得到所述硬盘的最终状态。
CN201310046008.7A 2013-02-05 2013-02-05 基于raid卡日志的硬盘的故障定位方法及装置 Active CN103207820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310046008.7A CN103207820B (zh) 2013-02-05 2013-02-05 基于raid卡日志的硬盘的故障定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310046008.7A CN103207820B (zh) 2013-02-05 2013-02-05 基于raid卡日志的硬盘的故障定位方法及装置

Publications (2)

Publication Number Publication Date
CN103207820A CN103207820A (zh) 2013-07-17
CN103207820B true CN103207820B (zh) 2016-06-29

Family

ID=48755049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310046008.7A Active CN103207820B (zh) 2013-02-05 2013-02-05 基于raid卡日志的硬盘的故障定位方法及装置

Country Status (1)

Country Link
CN (1) CN103207820B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995772A (zh) * 2014-06-10 2014-08-20 浪潮电子信息产业股份有限公司 一种基于linux操作***的raid卡日志完整保存的方法
CN105045689A (zh) * 2015-06-25 2015-11-11 浪潮电子信息产业股份有限公司 一种利用raid卡批量检测硬盘监控和报警的方法
CN105068901A (zh) * 2015-07-27 2015-11-18 浪潮电子信息产业股份有限公司 一种磁盘检测的方法
CN105117172B (zh) * 2015-08-31 2019-04-02 深圳神州数码云科数据技术有限公司 一种磁盘阵列历史掉盘记录的保存方法
CN105223889A (zh) * 2015-10-13 2016-01-06 浪潮电子信息产业股份有限公司 一种适用于产线的自动监控pmc raid卡日志的方法
CN107577545B (zh) * 2016-07-05 2021-02-02 北京金山云网络技术有限公司 一种故障磁盘检测与修复方法和装置
CN106250258B (zh) * 2016-07-29 2019-03-29 北京云集智造科技有限公司 一种磁盘故障定位方法及装置
CN107515827B (zh) * 2017-08-21 2021-07-27 湖南国科微电子股份有限公司 Pcie ssd自定义日志的存储方法、装置及ssd
CN107766191A (zh) * 2017-11-03 2018-03-06 郑州云海信息技术有限公司 Linux ***的自动巡检存储信息及健康状态的测试方法
CN108763020A (zh) * 2018-05-23 2018-11-06 郑州云海信息技术有限公司 一种掉盘自动抓取存储管理卡日志的方法及监控卡
CN108984119A (zh) * 2018-06-28 2018-12-11 郑州云海信息技术有限公司 一种异步获取raid卡信息的方法、装置及受控终端
CN111625390B (zh) * 2020-05-28 2024-03-26 深圳市晶讯技术股份有限公司 嵌入式设备故障恢复方法、装置、嵌入式设备及存储介质
CN112162705B (zh) * 2020-09-30 2024-07-16 新浪技术(中国)有限公司 一种raid盘组故障自动下线报修方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004061681A1 (ja) * 2002-12-26 2004-07-22 Fujitsu Limited 運用管理方法および運用管理サーバ
CN101359959A (zh) * 2008-09-17 2009-02-04 中兴通讯股份有限公司 一种用于故障定位分析的信息获取方法
CN101887387A (zh) * 2010-04-07 2010-11-17 山东高效能服务器和存储研究院 一种远程智能监控与分析raid故障的方法
CN102662787A (zh) * 2012-04-20 2012-09-12 浪潮电子信息产业股份有限公司 一种保护***盘raid的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004061681A1 (ja) * 2002-12-26 2004-07-22 Fujitsu Limited 運用管理方法および運用管理サーバ
CN101359959A (zh) * 2008-09-17 2009-02-04 中兴通讯股份有限公司 一种用于故障定位分析的信息获取方法
CN101887387A (zh) * 2010-04-07 2010-11-17 山东高效能服务器和存储研究院 一种远程智能监控与分析raid故障的方法
CN102662787A (zh) * 2012-04-20 2012-09-12 浪潮电子信息产业股份有限公司 一种保护***盘raid的方法

Also Published As

Publication number Publication date
CN103207820A (zh) 2013-07-17

Similar Documents

Publication Publication Date Title
CN103207820B (zh) 基于raid卡日志的硬盘的故障定位方法及装置
CN100504795C (zh) 一种计算机raid阵列预警***及方法
CN105468484B (zh) 用于在存储***中确定故障位置的方法和装置
CN102148046B (zh) 数据存储装置测试仪
CN102157176B (zh) 数据存储装置测试仪
CN102591591B (zh) 磁盘检测***、磁盘检测方法以及网络存储***
US9047922B2 (en) Autonomous event logging for drive failure analysis
CN102279775B (zh) 一种Linux***下的硬盘故障处理方法
CN103197995B (zh) 硬盘故障检测方法及装置
CN104951383A (zh) 用于监测硬盘的健康状况的方法和装置
CN102117660A (zh) 数据存储装置测试仪
CN111104293A (zh) 用于支持盘故障预测的方法、设备和计算机程序产品
US20050210161A1 (en) Computer device with mass storage peripheral (s) which is/are monitored during operation
CN103049345B (zh) 基于异步通信机制的磁盘状态变迁检测方法及装置
CN111522703A (zh) 监控访问请求的方法、设备和计算机程序产品
CN114758714A (zh) 一种硬盘故障预测方法、装置、电子设备及存储介质
CN116775362A (zh) 独立冗余磁盘阵列的通路阻塞处理方法、***
CN111048138A (zh) 一种硬盘的故障检测方法及相关装置
CN114003417B (zh) 实现raid卡故障自动转存的方法、装置及存储介质
CN107807862A (zh) 检测硬盘故障点的方法、装置及服务器
US8161324B2 (en) Analysis result stored on a field replaceable unit
CN109741786A (zh) 一种固态硬盘监控方法、装置及设备
CN112084097B (zh) 一种磁盘告警方法及装置
JP7057168B2 (ja) 故障検出装置および故障解析方法
CN105511979A (zh) 一种Windows下监控Intel SATA HostRaid硬盘变化的工具

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant