CN111858122A - 一种存储链路的故障检测方法、装置、设备及存储介质 - Google Patents

一种存储链路的故障检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111858122A
CN111858122A CN202010746811.1A CN202010746811A CN111858122A CN 111858122 A CN111858122 A CN 111858122A CN 202010746811 A CN202010746811 A CN 202010746811A CN 111858122 A CN111858122 A CN 111858122A
Authority
CN
China
Prior art keywords
link
storage
fault
judging
hard disk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010746811.1A
Other languages
English (en)
Inventor
韩廷卯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Inspur Data Technology Co Ltd
Original Assignee
Beijing Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Inspur Data Technology Co Ltd filed Critical Beijing Inspur Data Technology Co Ltd
Priority to CN202010746811.1A priority Critical patent/CN111858122A/zh
Publication of CN111858122A publication Critical patent/CN111858122A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种存储链路的故障检测方法,包括:获取存储链路的链路物理状态;存储链路为存储主***通过目标控制器访问目标硬盘的链路;判断链路物理状态是否为离线状态;若是,则判定存储链路为故障链路,并触发链路切换操作;若否,则基于链路层和应用层判断存储链路是否为故障链路;若是,则判定存储链路为故障链路,并触发链路切换操作;若否,则结束流程。可以看出,本申请分别从物理层、链路层和应用层这三个层面来检测链路是否为故障链路,可提高故障检测的准确度,减低因链路故障带来的性能损耗及数据丢失风险;本发明还公开了一种存储链路的故障检测装置、设备及存储介质,同样能实现上述技术效果。

Description

一种存储链路的故障检测方法、装置、设备及存储介质
技术领域
本发明涉及存储技术领域,更具体地说,涉及一种存储链路的故障检测方法、装置、设备及存储介质。
背景技术
目前,存储设备对可靠性的要求很高,因此,日常对存储设备的运维管理至关重要。现在越来越多的智能管理手段被用于存储设备,如检测存储设备的运行状态、隔离故障等,避免产生更严重的影响,不但减少了人力成本,还提高了准确性与及时性。而对于双控冗余设计的存储设备,存储主***对后端硬盘的访问是均匀分布在两个控制器上的,但是对于某一颗硬盘的访问,一般是通过固定选择的一条链路进行通信的。如果存在链路不稳定的情况,这时如果还在原链路上执行IO(Input Output,输入输出)操作,则会降低IO操作性能,并产生数据丢失风险。因此,如何准确的检测出存储主***与后端硬盘之间的故障链路,是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种存储链路的故障检测方法、装置、设备及存储介质,以准确的检测出存储主***与后端硬盘之间的故障链路。
为实现上述目的,本发明提供一种存储链路的故障检测方法,包括:
获取存储链路的链路物理状态;其中,所述存储链路为存储主***通过目标控制器访问目标硬盘的链路;
判断所述链路物理状态是否为离线状态;
若是,则判定所述存储链路为故障链路,并触发链路切换操作;若否,则基于链路层和应用层判断所述存储链路是否为故障链路;若是,则判定所述存储链路为故障链路,并触发链路切换操作;若否,则结束流程。
其中,所述基于链路层和应用层判断所述存储链路是否为故障链路,包括:
判断与所述存储链路对应的CRC错误计数是否超过预定阈值;
若是,则判定所述存储链路为故障链路,并触发链路切换操作;
若否,则判断与所述存储链路对应的硬盘登陆状态是否为登陆失败;若硬盘登陆状态为登陆失败,则判定所述存储链路为故障链路,并触发链路切换操作;否则,结束流程。
其中,所述获取存储链路的链路物理状态,包括:
以预定时长为周期获取所述存储链路的链路物理状态。
其中,所述触发链路切换操作包括:
将所述存储链路切换为:通过除所述目标控制器之外的其他控制器访问所述目标硬盘的链路。
其中,判定所述存储链路为故障链路之后,还包括:
生成所述存储链路为故障链路的告警信息。
其中,所述生成所述存储链路为故障链路的告警信息,包括:
确定所述存储链路的故障原因信息;
利用所述故障原因信息生成与所述存储链路对应的故障告警信息。
为实现上述目的,本发明进一步提供一种存储链路的故障检测装置,包括:
物理状态获取模块,用于获取存储链路的链路物理状态;其中,所述存储链路为存储主***通过目标控制器访问目标硬盘的链路;
第一判断模块,用于判断所述链路物理状态是否为离线状态;若是,则触发判定模块;
第二判断模块,用于在所述链路物理状态不为离线状态时,基于链路层和应用层判断所述存储链路是否为故障链路;若是,则触发判定模块;
判定模块,用于判定所述存储链路为故障链路;
操作执行模块,用于对故障链路执行链路切换操作。
其中,所述第二判断模块包括:
第一判断单元,用于判断与所述存储链路对应的CRC错误计数是否超过预定阈值;若是,则触发所述判定模块和所述操作执行模块;
第二判断模块,用于在CRC错误计数未超过预定阈值时,判断与所述存储链路对应的硬盘登陆状态是否为登陆失败;若硬盘登陆状态为登陆失败,则触发所述判定模块和所述操作执行模块。
为实现上述目的,本发明进一步提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述的存储链路的故障检测方法的步骤。
为实现上述目的,本发明进一步提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的存储链路的故障检测方法的步骤。
通过以上方案可知,本发明实施例提供的一种存储链路的故障检测方法,包括:获取存储链路的链路物理状态;存储链路为存储主***通过目标控制器访问目标硬盘的链路;判断链路物理状态是否为离线状态;若是,则判定存储链路为故障链路,并触发链路切换操作;若否,则基于链路层和应用层判断存储链路是否为故障链路;若是,则判定存储链路为故障链路,并触发链路切换操作;若否,则结束流程。可以看出,本申请分别从物理层、链路层和应用层这三个层面来检测链路是否为故障链路,可提高故障检测的准确度,减低因链路故障带来的性能损耗及数据丢失风险;本发明还公开了一种存储链路的故障检测装置、设备及存储介质。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种存储链路的故障检测方法流程示意图;
图2为本发明实施例公开的一种链路故障监控流程示意图;
图3为本发明实施例公开的一种存储链路的故障检测装置结构示意图;
图4为本发明实施例公开的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种存储链路的故障检测方法、装置、设备及存储介质,以准确的检测出存储主***与后端硬盘之间的故障链路。
参见图1,本发明实施例提供的一种存储链路的故障检测方法流程示意图;可以看出,该故障检测方法具体包括如下步骤:
S101、获取存储链路的链路物理状态;该存储链路为存储主***通过目标控制器访问目标硬盘的链路;
具体的,对于双控冗余设计的存储设备,其存储主***对后端硬盘的访问是均匀分布在两个控制器上的,因此,若控制器包括控制器1和控制器2,则存储主***访问硬盘的存储链路包括如下两条链路:存储主***通过控制器1访问硬盘的第一个存储链路,存储主***通过控制器2访问硬盘的第二个存储链路,因此,如果通过本方案准确的检测出该存储链路为故障链路,则可以执行链路切换操作,将访问该硬盘的链路切换至另一个存储链路。
需要说明的是,本方案在获取存储链路的链路物理状态时,具体可以以预定时长为周期获取存储链路的链路物理状态。如:设置检测周期为5分钟,则每隔5分钟,便执行本方案所述的故障检测方法,以便及时发现故障链路,避免通过故障链路执行IO操作时出现性能损耗及数据风险。当然,本申请所述的代表检测周期的预定时长可以根据实际需求进行自定义设定,在此仅以5分钟为了进行说明。
S102、判断该链路物理状态是否为离线状态;若否,则执行S103;若是,则执行S104;
本申请为了准确的检测出链路故障,提供了三层故障检测方式,即:依次通过物理层、链路层和应用层对存储链路进行检查。具体来说,本申请基于物理层进行链路检测时,具体是检测该存储链路的链路物理状态,如果该存储链路为离线offline状态,则直接标记故障,并触发链路切换,不需要执行后续检测步骤;如果不是offline状态,则继续执行后续检测步骤,以准确检测存储链路的的故障。
S103、基于链路层和应用层判断该存储链路是否为故障链路;若是,则执行S104;若否,则结束流程;
需要说明的是,本申请基于链路层和应用层判断存储链路是否为故障链路时,具体可以包括如下步骤:
判断与所述存储链路对应的CRC错误计数是否超过预定阈值;
若是,则判定所述存储链路为故障链路,并触发链路切换操作;
若否,则判断与所述存储链路对应的硬盘登陆状态是否为登陆失败;若硬盘登陆状态为登陆失败,则判定所述存储链路为故障链路,并触发链路切换操作;否则,结束流程。
参见图2,为本发明实施例公开的一种链路故障监控流程示意图;可以看出,本申请周期性检测链路故障时,首先判断物理层的链路物理状态是否为offline状态,若是,则标记该链路为故障链路,并触发链路切换操作;并且,本申请基于链路层判断存储链路是否为故障链路时,具体是判断链路层中的CRC错误计数是否达到预定阈值;需要说明的是,该CRC错误计数为硬盘与主板之间数据传输出错的次数,因此,每个硬盘均具有对应的CRC错误计数,相对应的,存储链路对应的CRC错误计数,便是与该存储链路对应的硬盘的CRC错误计数。并且,本申请预先设定了与该CRC错误计数对应的预定阈值,如果超过该预定阈值,则说明该存储链路出现故障,则标记该链路为故障链路,并触发链路切换操作,如:该错误计数为1秒2次,而预先设定的预定阈值为1秒3次,则说明存储链路未故障。进一步,若从在链路层层面未判定存储链路出现故障,本申请还可以继续从应用层层面来判断。如在本申请中,可以检测硬盘的登陆login状态,如果该状态为失败failed,则标记链路故障,触发链路切换。
S104、判定该存储链路为故障链路,并触发链路切换操作。
具体来说,本申请判定该存储链路为故障链路后,所触发的链路切换操作具体包括:将存储链路切换为:通过除目标控制器之外的其他控制器访问目标硬盘的链路。如上文所述,若控制器包括控制器1和控制器2,则存储主***访问目标硬盘的存储链路包括如下两条链路:存储主***通过控制器1访问目标硬盘的第一个存储链路,存储主***通过控制器2访问目标硬盘的第二个存储链路,若当前的存储链路为第一个存储链路,则触发链路切换操作后,则将第一存储链路切换为第二存储链路,以使存储主***通过第二存储链路来访问目标硬盘。
综上可见,本申请提出了三层检测故障方案,第一层判断物理层状态,第二层比对链路层错误计数,第三层判断硬盘login状态,并通过逐层递进方式对故障链路进行检测,若任何一层满足故障判断条件,均标记该条链路故障,快速切换到另一条链路,从而避免在原链路上执行IO带来的性能降低和数据风险,提高整个存储***的可用性。
基于上述实施例,在本实施例中,判定所述存储链路为故障链路之后,还包括:生成所述存储链路为故障链路的告警信息。并且,本申请在生成存储链路为故障链路的告警信息时,需要先确定存储链路的故障原因信息,利用故障原因信息生成与存储链路对应的故障告警信息。
可以理解的是,本申请确定该存储链路为故障链路后,为了让管理人员及时了解各个链路的状态,及时对故障链路进行修复,需要生成告警信息,通过上报告警信息的方式提示管理员出现链路故障现象。并且,本申请中的故障告警信息可以包括该存储链路的详情信息、故障发现时间、故障原因信息等等,该详情信息表示该链路具体是通过哪个控制器访问的哪个硬盘,该故障发现时间为判定该存储链路为故障链路的时间,该故障原因信息可以根据判定其为故障链路的条件确定,如:若该存储链路为通过物理层的链路物理状态判定为故障链路,则该故障原因信息为:因链路物理状态为离线状态判定为故障链路,或者,若该存储链路为通过链路层的CRC错误计数判定为故障链路,则该故障原因信息为:因CRC错误计数过大判定为故障链路,或者,若该存储链路为通过应用层的硬盘登陆状态判定为故障链路,则该故障原因信息为:因硬盘登陆状态为失败状态判定为故障链路。
综上内可见,本方案提出的这种针对存储主***与后端硬盘链路故障的监控方案,可分别从物理层、链路层、应用层选取判断依据,提高故障检测准确度,降低链路故障带来的性能损耗和数据风险。并且,本方案通过上报故障告警信息的方式,可让管理员根据故障告警信息详细的知道故障链路的故障原因信息,从而有针对性的修复故障链路,提高修复速度。
下面对本发明实施例提供的故障检测装置进行介绍,下文描述的故障检测装置与上文描述的故障检测方法可以相互参照。
参见图3,本发明实施例提供的一种存储链路的故障检测装置,包括:
物理状态获取模块100,用于获取存储链路的链路物理状态;其中,所述存储链路为存储主***通过目标控制器访问目标硬盘的链路;
第一判断模块200,用于判断所述链路物理状态是否为离线状态;若是,则触发判定模块;
第二判断模块300,用于在所述链路物理状态不为离线状态时,基于链路层和应用层判断所述存储链路是否为故障链路;若是,则触发判定模块;
判定模块400,用于判定所述存储链路为故障链路;
操作执行模块500,用于对故障链路执行链路切换操作。
其中,所述第二判断模块包括:
第一判断单元,用于判断与所述存储链路对应的CRC错误计数是否超过预定阈值;若是,则触发所述判定模块和所述操作执行模块;
第二判断模块,用于在CRC错误计数未超过预定阈值时,判断与所述存储链路对应的硬盘登陆状态是否为登陆失败;若硬盘登陆状态为登陆失败,则触发所述判定模块和所述操作执行模块。
其中,所述物理状态获取模块具体用于:以预定时长为周期获取所述存储链路的链路物理状态。
其中,所述操作执行模块具体用于:将所述存储链路切换为:通过除所述目标控制器之外的其他控制器访问所述目标硬盘的链路。
其中,本方案还包括:
告警信息生成模块,用于生成所述存储链路为故障链路的告警信息。
其中,所述告警信息生成模块具体用于:确定所述存储链路的故障原因信息;利用所述故障原因信息生成与所述存储链路对应的故障告警信息。
参见图4,为本发明实施例公开的一种电子设备,包括:
存储器11,用于存储计算机程序;
处理器12,用于执行所述计算机程序时实现上所方法实施例所述的存储链路的故障检测方法的步骤。
在本实施例中,设备可以是PC(Personal Computer,个人电脑),也可以是智能手机、平板电脑、掌上电脑、便携计算机等终端设备。
该设备可以包括存储器11、处理器12和总线13。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是设备的内部存储单元,例如该设备的硬盘。存储器11在另一些实施例中也可以是设备的外部存储设备,例如设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括设备的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于设备的应用软件及各类数据,例如执行故障检测方法的程序代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行故障检测方法的程序代码等。
该总线13可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
进一步地,设备还可以包括网络接口14,网络接口14可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该设备与其他电子设备之间建立通信连接。
可选地,该设备还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在设备中处理的信息以及用于显示可视化的用户界面。
图4仅示出了具有组件11-14的设备,本领域技术人员可以理解的是,图4示出的结构并不构成对设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
为本发明实施例公开的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上所方法实施例所述的存储链路的故障检测方法的步骤。
其中,该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种存储链路的故障检测方法,其特征在于,包括:
获取存储链路的链路物理状态;其中,所述存储链路为存储主***通过目标控制器访问目标硬盘的链路;
判断所述链路物理状态是否为离线状态;
若是,则判定所述存储链路为故障链路,并触发链路切换操作;若否,则基于链路层和应用层判断所述存储链路是否为故障链路;若是,则判定所述存储链路为故障链路,并触发链路切换操作;若否,则结束流程。
2.根据权利要求1所述的故障检测方法,其特征在于,所述基于链路层和应用层判断所述存储链路是否为故障链路,包括:
判断与所述存储链路对应的CRC错误计数是否超过预定阈值;
若是,则判定所述存储链路为故障链路,并触发链路切换操作;
若否,则判断与所述存储链路对应的硬盘登陆状态是否为登陆失败;若硬盘登陆状态为登陆失败,则判定所述存储链路为故障链路,并触发链路切换操作;否则,结束流程。
3.根据权利要求1所述的故障检测方法,其特征在于,所述获取存储链路的链路物理状态,包括:
以预定时长为周期获取所述存储链路的链路物理状态。
4.根据权利要求1所述的故障检测方法,其特征在于,所述触发链路切换操作包括:
将所述存储链路切换为:通过除所述目标控制器之外的其他控制器访问所述目标硬盘的链路。
5.根据权利要求1-4中任意一项所述的故障检测方法,其特征在于,判定所述存储链路为故障链路之后,还包括:
生成所述存储链路为故障链路的告警信息。
6.根据权利要求5所述的故障检测方法,其特征在于,所述生成所述存储链路为故障链路的告警信息,包括:
确定所述存储链路的故障原因信息;
利用所述故障原因信息生成与所述存储链路对应的故障告警信息。
7.一种存储链路的故障检测装置,其特征在于,包括:
物理状态获取模块,用于获取存储链路的链路物理状态;其中,所述存储链路为存储主***通过目标控制器访问目标硬盘的链路;
第一判断模块,用于判断所述链路物理状态是否为离线状态;若是,则触发判定模块;
第二判断模块,用于在所述链路物理状态不为离线状态时,基于链路层和应用层判断所述存储链路是否为故障链路;若是,则触发判定模块;
判定模块,用于判定所述存储链路为故障链路;
操作执行模块,用于对故障链路执行链路切换操作。
8.根据权利要求7所述的故障检测装置,其特征在于,所述第二判断模块包括:
第一判断单元,用于判断与所述存储链路对应的CRC错误计数是否超过预定阈值;若是,则触发所述判定模块和所述操作执行模块;
第二判断模块,用于在CRC错误计数未超过预定阈值时,判断与所述存储链路对应的硬盘登陆状态是否为登陆失败;若硬盘登陆状态为登陆失败,则触发所述判定模块和所述操作执行模块。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述的存储链路的故障检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的存储链路的故障检测方法的步骤。
CN202010746811.1A 2020-07-29 2020-07-29 一种存储链路的故障检测方法、装置、设备及存储介质 Withdrawn CN111858122A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010746811.1A CN111858122A (zh) 2020-07-29 2020-07-29 一种存储链路的故障检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010746811.1A CN111858122A (zh) 2020-07-29 2020-07-29 一种存储链路的故障检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111858122A true CN111858122A (zh) 2020-10-30

Family

ID=72945391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010746811.1A Withdrawn CN111858122A (zh) 2020-07-29 2020-07-29 一种存储链路的故障检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111858122A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113300953A (zh) * 2021-07-27 2021-08-24 苏州浪潮智能科技有限公司 一种多路径故障转移组的管理方法、***及相关装置
CN113672415A (zh) * 2021-07-09 2021-11-19 济南浪潮数据技术有限公司 一种磁盘故障处理方法、装置、设备及存储介质
CN113868000A (zh) * 2021-09-03 2021-12-31 苏州浪潮智能科技有限公司 一种链路故障修复方法、***及相关组件
CN115291814A (zh) * 2022-10-09 2022-11-04 深圳市安信达存储技术有限公司 嵌入式存储芯数据存储方法、嵌入式存储芯片及存储***
CN115333970A (zh) * 2022-07-22 2022-11-11 苏州浪潮智能科技有限公司 设备连接稳定性评价方法、装置和计算机设备和存储介质
CN116909494A (zh) * 2023-09-12 2023-10-20 苏州浪潮智能科技有限公司 服务器的存储切换方法和装置,以及服务器***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101378577A (zh) * 2008-09-27 2009-03-04 华为技术有限公司 一种链路故障检测的方法和***
CN107688547A (zh) * 2017-08-23 2018-02-13 郑州云海信息技术有限公司 一种控制器主备切换的方法及***
CN109933478A (zh) * 2017-12-19 2019-06-25 杭州华为数字技术有限公司 一种存储***的故障处理方法和存储***
CN110798347A (zh) * 2019-10-25 2020-02-14 北京浪潮数据技术有限公司 服务状态检测方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101378577A (zh) * 2008-09-27 2009-03-04 华为技术有限公司 一种链路故障检测的方法和***
CN107688547A (zh) * 2017-08-23 2018-02-13 郑州云海信息技术有限公司 一种控制器主备切换的方法及***
CN109933478A (zh) * 2017-12-19 2019-06-25 杭州华为数字技术有限公司 一种存储***的故障处理方法和存储***
CN110798347A (zh) * 2019-10-25 2020-02-14 北京浪潮数据技术有限公司 服务状态检测方法、装置、设备及存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672415A (zh) * 2021-07-09 2021-11-19 济南浪潮数据技术有限公司 一种磁盘故障处理方法、装置、设备及存储介质
CN113300953A (zh) * 2021-07-27 2021-08-24 苏州浪潮智能科技有限公司 一种多路径故障转移组的管理方法、***及相关装置
WO2023005037A1 (zh) * 2021-07-27 2023-02-02 苏州浪潮智能科技有限公司 一种多路径故障转移组的管理方法、***及相关装置
CN113868000A (zh) * 2021-09-03 2021-12-31 苏州浪潮智能科技有限公司 一种链路故障修复方法、***及相关组件
CN113868000B (zh) * 2021-09-03 2023-07-18 苏州浪潮智能科技有限公司 一种链路故障修复方法、***及相关组件
CN115333970A (zh) * 2022-07-22 2022-11-11 苏州浪潮智能科技有限公司 设备连接稳定性评价方法、装置和计算机设备和存储介质
CN115333970B (zh) * 2022-07-22 2023-08-11 苏州浪潮智能科技有限公司 设备连接稳定性评价方法、装置和计算机设备和存储介质
CN115291814A (zh) * 2022-10-09 2022-11-04 深圳市安信达存储技术有限公司 嵌入式存储芯数据存储方法、嵌入式存储芯片及存储***
CN116909494A (zh) * 2023-09-12 2023-10-20 苏州浪潮智能科技有限公司 服务器的存储切换方法和装置,以及服务器***
CN116909494B (zh) * 2023-09-12 2024-01-26 苏州浪潮智能科技有限公司 服务器的存储切换方法和装置,以及服务器***

Similar Documents

Publication Publication Date Title
CN111858122A (zh) 一种存储链路的故障检测方法、装置、设备及存储介质
CN109558282B (zh) 一种pcie链路检测方法、***及电子设备和存储介质
CN112286709B (zh) 一种服务器硬件故障的诊断方法、诊断装置及诊断设备
CN110247725B (zh) Otn网络的线路故障排查方法、装置及终端设备
CN108872762B (zh) 电子设备漏电检测方法、装置、电子设备及存储介质
CN106610712B (zh) 基板管理控制器复位***及方法
CN112380089A (zh) 一种数据中心监控预警方法及***
CN113608908B (zh) 服务器故障处理方法、***、设备及可读存储介质
CN115858311A (zh) 运维监控的方法、装置、电子设备及可读存储介质
CN113672306B (zh) 服务器组件自检异常恢复方法、装置、***及介质
CN113832663B (zh) 控制芯片故障记录方法、装置以及控制芯片故障读取方法
CN113868058A (zh) 一种外设组件高速互联设备故障检测方法、装置及服务器
CN115658373B (zh) 基于服务器的内存处理方法和装置、处理器及电子设备
CN111124818B (zh) 一种扩展器Expander的监控方法、装置及设备
CN114564334B (zh) 一种mrpc数据处理方法、***及相关组件
CN115242621B (zh) 网络专线监控方法、装置、设备及计算机可读存储介质
CN113822478A (zh) 一种设备检测方法、装置、电子设备及存储介质
CN110704219B (zh) 一种硬件故障上报方法、装置和计算机存储介质
CN113590203A (zh) 基板管理控制器失效处理方法及***、存储介质及单片机
CN111309532A (zh) Pcie设备异常检测方法、***、电子设备及存储介质
CN110798347A (zh) 服务状态检测方法、装置、设备及存储介质
CN110633176A (zh) 工作***切换方法、立方星和切换装置
CN112670952B (zh) 发电机组的控制方法、设备及可读存储介质
CN113986142B (zh) 磁盘故障监控方法、装置、计算机设备及存储介质
CN114356617B (zh) 注错测试方法、装置、***及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20201030