CN111104239A - 一种分布式存储集群的硬盘故障处理方法、***及装置 - Google Patents

一种分布式存储集群的硬盘故障处理方法、***及装置 Download PDF

Info

Publication number
CN111104239A
CN111104239A CN201911149378.7A CN201911149378A CN111104239A CN 111104239 A CN111104239 A CN 111104239A CN 201911149378 A CN201911149378 A CN 201911149378A CN 111104239 A CN111104239 A CN 111104239A
Authority
CN
China
Prior art keywords
hard disk
target hard
distributed storage
write
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911149378.7A
Other languages
English (en)
Inventor
张大帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Inspur Data Technology Co Ltd
Original Assignee
Beijing Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Inspur Data Technology Co Ltd filed Critical Beijing Inspur Data Technology Co Ltd
Priority to CN201911149378.7A priority Critical patent/CN111104239A/zh
Publication of CN111104239A publication Critical patent/CN111104239A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种分布式存储集群的硬盘故障处理方法,首先获取分布式存储集群内每个存储服务器中各硬盘的读写IO时延信息,然后根据各硬盘的读写IO时延信息相应判断各硬盘是否出现故障,以将出现故障的硬盘从分布式存储集群中进行隔离,从而避免故障盘引起集群数据重构,影响集群业务性能。本发明还公开了一种分布式存储集群的硬盘故障处理***及装置,与上述硬盘故障处理方法具有相同的有益效果。

Description

一种分布式存储集群的硬盘故障处理方法、***及装置
技术领域
本发明涉及分布式存储集群领域,特别是涉及一种分布式存储集群的硬盘故障处理方法、***及装置。
背景技术
目前,分布式存储集群***通常包括多个存储服务器,这些存储服务器组成一个集群统一对外提供存储服务。每个存储服务器均包含多个硬盘,多个硬盘共同实现存储服务器的存储服务。但是,若集群中某个硬盘出现故障,则会引发集群进行数据重构,从而占用集群资源,影响整个集群的业务性能。
因此,如何提供一种解决上述技术问题的方案是本领域的技术人员目前需要解决的问题。
发明内容
本发明的目的是提供一种分布式存储集群的硬盘故障处理方法、***及装置,可将出现故障的硬盘从分布式存储集群中进行隔离,从而避免故障盘引起集群数据重构,影响集群业务性能。
为解决上述技术问题,本发明提供了一种分布式存储集群的硬盘故障处理方法,应用于包含多个存储服务器的分布式存储集群,包括:
获取每个所述存储服务器中各硬盘的读写IO时延信息;
根据目标硬盘的读写IO时延信息判断所述目标硬盘是否出现故障;其中,所述目标硬盘为各所述硬盘中任一硬盘;
若是,则将所述目标硬盘从所述分布式存储集群中进行隔离。
优选地,所述根据目标硬盘的读写IO时延信息判断所述目标硬盘是否出现故障的过程,包括:
根据目标硬盘的读写IO时延信息判断所述目标硬盘是否出现读写IO中断;
若是,则确定所述目标硬盘出现故障。
优选地,所述根据各所述硬盘的读写IO时延信息相应判断各所述硬盘是否出现故障的过程,还包括:
根据目标硬盘的读写IO时延信息判断所述目标硬盘的读写IO时延是否连续N次超过预设时间阈值;其中,N为正整数;
若是,则确定所述目标硬盘出现故障。
优选地,所述将所述目标硬盘从所述分布式存储集群中进行隔离的过程,包括:
将所述目标硬盘所在的存储服务器开启维护模式,并将所述目标硬盘对应的OSD服务从所述分布式存储集群中移除。
优选地,所述硬盘故障处理方法还包括:
在判断出所述目标硬盘出现故障后,向上层管理设备发送所述目标硬盘的故障信息。
优选地,所述向上层管理设备发送所述目标硬盘的故障信息的过程,包括:
根据预设管理邮箱和/或预设手机号码和/或snmp Trap客户端的IP地址,向所述预设管理邮箱发送告警邮件和/或向所述预设手机号码发送告警短信和/或向所述snmpTrap客户端发送告警信息。
为解决上述技术问题,本发明还提供了一种分布式存储集群的硬盘故障处理***,应用于包含多个存储服务器的分布式存储集群,包括:
OSD服务模块,用于获取每个所述存储服务器中各硬盘的读写IO时延信息;
磁盘检测模块,用于根据目标硬盘的读写IO时延信息判断所述目标硬盘是否出现故障;若是,则将所述目标硬盘从所述分布式存储集群中进行隔离;其中,所述目标硬盘为各所述硬盘中任一硬盘。
优选地,所述根据目标硬盘的读写IO时延信息判断所述目标硬盘是否出现故障的过程,包括:
根据目标硬盘的读写IO时延信息,判断所述目标硬盘是否出现读写IO中断或所述目标硬盘的读写IO时延是否连续N次超过预设时间阈值;
若是,则确定所述目标硬盘出现故障。
优选地,所述将所述目标硬盘从所述分布式存储集群中进行隔离的过程,包括:
将所述目标硬盘所在的存储服务器开启维护模式,并将所述目标硬盘对应的OSD服务从所述分布式存储集群中移除。
为解决上述技术问题,本发明还提供了一种分布式存储集群的硬盘故障处理装置,包括:
存储器,用于存储计算机程序;
处理器,用于在执行所述计算机程序时实现上述任一种分布式存储集群的硬盘故障处理方法的步骤。
本发明提供了一种分布式存储集群的硬盘故障处理方法,首先获取分布式存储集群内每个存储服务器中各硬盘的读写IO时延信息,然后根据各硬盘的读写IO时延信息相应判断各硬盘是否出现故障,以将出现故障的硬盘从分布式存储集群中进行隔离,从而避免故障盘引起集群数据重构,影响集群业务性能。
本发明还提供了一种分布式存储集群的硬盘故障处理***及装置,与上述硬盘故障处理方法具有相同的有益效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种分布式存储集群的硬盘故障处理方法的流程图;
图2为本发明实施例提供的一种分布式存储集群的硬盘故障检测机制示意图;
图3为本发明实施例提供的一种分布式存储集群的硬盘故障检测、隔离、告警机制示意图。
具体实施方式
本发明的核心是提供一种分布式存储集群的硬盘故障处理方法、***及装置,可将出现故障的硬盘从分布式存储集群中进行隔离,从而避免故障盘引起集群数据重构,影响集群业务性能。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本发明实施例提供的一种分布式存储集群的硬盘故障处理方法的流程图。
该硬盘故障处理方法应用于包含多个存储服务器的分布式存储集群,包括:
步骤S1:获取每个存储服务器中各硬盘的读写IO时延信息。
具体地,考虑到存储服务器中的硬盘出现故障时,会存在读写IO(Input/Output,输入/输出)中断或读写IO超时,同时考虑到硬盘的读写IO中断或读写IO超时可通过硬盘的读写IO时延信息来体现,所以本申请可获取每个存储服务器中各硬盘的读写IO时延信息,以为后续判断存储服务器中的硬盘是否出现故障打下基础。
更具体地,本申请在分布式存储集群内的每个存储服务器上均添加一个磁盘检测模块,用于实现存储服务器上各硬盘的故障检测和处理功能。已知每个硬盘在加入分布式存储集群后均会对应一个OSD(Object Storage Device,对象存储设备)服务,该OSD服务负责业务数据的读盘和写盘,所以本申请的磁盘检测模块可通过存储服务器的OSD服务模块相应获取存储服务器上各硬盘的读写IO时延信息,即在OSD服务模块中增加硬盘的读写IO时延信息上报功能,使OSD服务模块将对应硬盘每次的读写IO时延信息相应发送至磁盘检测模块,以供磁盘检测模块进行硬盘故障检测和处理。
步骤S2:根据目标硬盘的读写IO时延信息判断目标硬盘是否出现故障;若是,则执行步骤S3。
需要说明的是,步骤S2中的目标硬盘为步骤S1中各硬盘中任一硬盘。
具体地,由于硬盘的读写IO时延信息可体现硬盘的故障情况,所以本申请的磁盘检测模块在获取目标硬盘的读写IO时延信息后,可根据目标硬盘的读写IO时延信息判断目标硬盘是否出现故障。若目标硬盘未出现故障,说明目标硬盘不会引发集群数据重构,影响集群业务性能,则无需对目标硬盘进行故障处理;若目标硬盘出现故障,说明目标硬盘会引发集群数据重构,影响集群业务性能,则需对目标硬盘进行故障处理。
步骤S3:将目标硬盘从分布式存储集群中进行隔离。
具体地,考虑到对故障盘进行隔离处理可避免故障盘引起集群数据重构,所以本申请的磁盘检测模块在判断出目标硬盘出现故障后,将目标硬盘从分布式存储集群中进行隔离,从而避免故障盘影响集群业务性能。
本发明提供了一种分布式存储集群的硬盘故障处理方法,首先获取分布式存储集群内每个存储服务器中各硬盘的读写IO时延信息,然后根据各硬盘的读写IO时延信息相应判断各硬盘是否出现故障,以将出现故障的硬盘从分布式存储集群中进行隔离,从而避免故障盘引起集群数据重构,影响集群业务性能。
在上述实施例的基础上:
作为一种可选的实施例,根据目标硬盘的读写IO时延信息判断目标硬盘是否出现故障的过程,包括:
根据目标硬盘的读写IO时延信息判断目标硬盘是否出现读写IO中断;
若是,则确定目标硬盘出现故障。
具体地,当目标硬盘的读写IO中断时,目标硬盘无法再继续进行IO读写,所以本申请认为:当目标硬盘的读写IO时延超过一定较长时间(如5s)时,说明目标硬盘的读写IO中断。基于此,本申请可根据目标硬盘的读写IO时延信息判断目标硬盘是否出现读写IO中断,若目标硬盘出现读写IO中断,则确定目标硬盘出现故障,需对目标硬盘进行故障处理。
更具体地,本申请可在OSD服务模块中增加检测硬盘的读写IO中断并上报的功能,使OSD服务模块在对应硬盘的读写IO时延超过一定较长时间时,生成故障盘的中断信号并相应发送至磁盘检测模块,以供磁盘检测模块进行硬盘故障判定和处理。
作为一种可选的实施例,根据各硬盘的读写IO时延信息相应判断各硬盘是否出现故障的过程,还包括:
根据目标硬盘的读写IO时延信息判断目标硬盘的读写IO时延是否连续N次超过预设时间阈值;其中,N为正整数;
若是,则确定目标硬盘出现故障。
需要说明的是,本申请的预设是提前设置好的,只需要设置一次,除非根据实际情况需要修改,否则不需要重新设置。
进一步地,当目标硬盘的读写IO超时时,同样认为目标硬盘出现故障,为了避免目标硬盘的读写IO超时的偶然性导致目标硬盘的故障误判,所以本申请认为:当目标硬盘的读写IO时延连续多次(如3次)超过预设时间阈值(如1s)时,认为目标硬盘为慢盘,即目标硬盘出现故障。基于此,本申请可根据目标硬盘的读写IO时延信息判断目标硬盘的读写IO时延是否连续多次超过预设时间阈值,若目标硬盘的读写IO时延连续多次超过预设时间阈值,则确定目标硬盘出现故障,需对目标硬盘进行故障处理;若目标硬盘的读写IO时延未连续多次超过预设时间阈值且目标硬盘未出现读写IO中断,则确定目标硬盘未出现故障,无需对目标硬盘进行故障处理。
作为一种可选的实施例,将目标硬盘从分布式存储集群中进行隔离的过程,包括:
将目标硬盘所在的存储服务器开启维护模式,并将目标硬盘对应的OSD服务从分布式存储集群中移除。
具体地,本申请将目标硬盘从分布式存储集群中进行隔离涉及如下步骤:1)将目标硬盘所在的存储服务器开启维护模式,存储服务器的维护模式主要指将该存储服务器设置为noout模式,即目标硬盘被隔离out,该存储服务器的其他硬盘对应的OSD数据不会发生重构,从而不影响集群业务性能。2)将目标硬盘对应的OSD服务从分布式存储集群中移除,不再参与业务数据读写,从而实现目标硬盘的隔离。
作为一种可选的实施例,硬盘故障处理方法还包括:
在判断出目标硬盘出现故障后,向上层管理设备发送目标硬盘的故障信息。
进一步地,本申请的磁盘检测模块还可在判断出目标硬盘出现故障后,向上层管理设备发送目标硬盘的故障信息,以及时提醒管理员目标硬盘出现故障,需对目标硬盘进行更换。
作为一种可选的实施例,向上层管理设备发送目标硬盘的故障信息的过程,包括:
根据预设管理邮箱和/或预设手机号码和/或snmp Trap客户端的IP地址,向预设管理邮箱发送告警邮件和/或向预设手机号码发送告警短信和/或向snmp Trap客户端发送告警信息。
具体地,本申请可提前设置用于接收告警邮件的管理邮箱,和/或设置用于接收告警短信的手机号码,和/或给出snmp Trap客户端(指的是管理网络中可以管理的资源和设备的客户端)的IP(Internet Protocol,互联网协议)地址,以在判断出目标硬盘出现故障后,根据预设管理邮箱的邮箱地址,向预设管理邮箱发送包含目标硬盘故障信息的告警邮件;和/或根据预设手机号码,向预设手机号码发送包含目标硬盘故障信息的告警短信;和/或根据snmp Trap客户端的IP地址,向snmp Trap客户端发送包含目标硬盘故障信息的告警信息,以实现目标硬盘的故障告警。
比如,请参照图2及图3,图2为本发明实施例提供的一种分布式存储集群的硬盘故障检测机制示意图,图3为本发明实施例提供的一种分布式存储集群的硬盘故障检测、隔离、告警机制示意图。
如图2所示,3个存储服务器(节点1、节点2、节点3)组成一个集群,每个存储服务器上有4个硬盘(OSD 1、OSD 2、OSD 3、OSD 4)。在部署完成集群后,在集群的所有存储服务器上启动磁盘检测模块,每个存储服务器的OSD服务模块实时发送对应硬盘的读写IO时延信息至磁盘检测模块(二者之间的通信协议:Socket,套接字),以供磁盘检测模块实时进行硬盘故障检测和处理。如图3所示,节点1上的磁盘检测模块检测到节点1上的OSD 1出现故障,则将节点1开启节点维护模式(用“.”填充表示),并将OSD 1隔离出集群(“X”号表示),同时上报邮件、短信和snmp告警信息。
本申请还提供了一种分布式存储集群的硬盘故障处理***,应用于包含多个存储服务器的分布式存储集群,包括:
OSD服务模块,用于获取每个存储服务器中各硬盘的读写IO时延信息;
磁盘检测模块,用于根据目标硬盘的读写IO时延信息判断目标硬盘是否出现故障;若是,则将目标硬盘从分布式存储集群中进行隔离;其中,目标硬盘为各硬盘中任一硬盘。
作为一种可选的实施例,根据目标硬盘的读写IO时延信息判断目标硬盘是否出现故障的过程,包括:
根据目标硬盘的读写IO时延信息,判断目标硬盘是否出现读写IO中断或目标硬盘的读写IO时延是否连续N次超过预设时间阈值;
若是,则确定目标硬盘出现故障。
作为一种可选的实施例,将目标硬盘从分布式存储集群中进行隔离的过程,包括:
将目标硬盘所在的存储服务器开启维护模式,并将目标硬盘对应的OSD服务从分布式存储集群中移除。
本申请提供的硬盘故障处理***的介绍请参考上述硬盘故障处理方法的实施例,本申请在此不再赘述。
本申请还提供了一种分布式存储集群的硬盘故障处理装置,包括:
存储器,用于存储计算机程序;
处理器,用于在执行计算机程序时实现上述任一种分布式存储集群的硬盘故障处理方法的步骤。
本申请提供的硬盘故障处理装置的介绍请参考上述硬盘故障处理方法的实施例,本申请在此不再赘述。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种分布式存储集群的硬盘故障处理方法,其特征在于,应用于包含多个存储服务器的分布式存储集群,包括:
获取每个所述存储服务器中各硬盘的读写IO时延信息;
根据目标硬盘的读写IO时延信息判断所述目标硬盘是否出现故障;其中,所述目标硬盘为各所述硬盘中任一硬盘;
若是,则将所述目标硬盘从所述分布式存储集群中进行隔离。
2.如权利要求1所述的分布式存储集群的硬盘故障处理方法,其特征在于,所述根据目标硬盘的读写IO时延信息判断所述目标硬盘是否出现故障的过程,包括:
根据目标硬盘的读写IO时延信息判断所述目标硬盘是否出现读写IO中断;
若是,则确定所述目标硬盘出现故障。
3.如权利要求2所述的分布式存储集群的硬盘故障处理方法,其特征在于,所述根据各所述硬盘的读写IO时延信息相应判断各所述硬盘是否出现故障的过程,还包括:
根据目标硬盘的读写IO时延信息判断所述目标硬盘的读写IO时延是否连续N次超过预设时间阈值;其中,N为正整数;
若是,则确定所述目标硬盘出现故障。
4.如权利要求1所述的分布式存储集群的硬盘故障处理方法,其特征在于,所述将所述目标硬盘从所述分布式存储集群中进行隔离的过程,包括:
将所述目标硬盘所在的存储服务器开启维护模式,并将所述目标硬盘对应的OSD服务从所述分布式存储集群中移除。
5.如权利要求1所述的分布式存储集群的硬盘故障处理方法,其特征在于,所述硬盘故障处理方法还包括:
在判断出所述目标硬盘出现故障后,向上层管理设备发送所述目标硬盘的故障信息。
6.如权利要求5所述的分布式存储集群的硬盘故障处理方法,其特征在于,所述向上层管理设备发送所述目标硬盘的故障信息的过程,包括:
根据预设管理邮箱和/或预设手机号码和/或snmp Trap客户端的IP地址,向所述预设管理邮箱发送告警邮件和/或向所述预设手机号码发送告警短信和/或向所述snmp Trap客户端发送告警信息。
7.一种分布式存储集群的硬盘故障处理***,其特征在于,应用于包含多个存储服务器的分布式存储集群,包括:
OSD服务模块,用于获取每个所述存储服务器中各硬盘的读写IO时延信息;
磁盘检测模块,用于根据目标硬盘的读写IO时延信息判断所述目标硬盘是否出现故障;若是,则将所述目标硬盘从所述分布式存储集群中进行隔离;其中,所述目标硬盘为各所述硬盘中任一硬盘。
8.如权利要求7所述的分布式存储集群的硬盘故障处理***,其特征在于,所述根据目标硬盘的读写IO时延信息判断所述目标硬盘是否出现故障的过程,包括:
根据目标硬盘的读写IO时延信息,判断所述目标硬盘是否出现读写IO中断或所述目标硬盘的读写IO时延是否连续N次超过预设时间阈值;
若是,则确定所述目标硬盘出现故障。
9.如权利要求7所述的分布式存储集群的硬盘故障处理***,其特征在于,所述将所述目标硬盘从所述分布式存储集群中进行隔离的过程,包括:
将所述目标硬盘所在的存储服务器开启维护模式,并将所述目标硬盘对应的OSD服务从所述分布式存储集群中移除。
10.一种分布式存储集群的硬盘故障处理装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于在执行所述计算机程序时实现如权利要求1-6任一项所述的分布式存储集群的硬盘故障处理方法的步骤。
CN201911149378.7A 2019-11-21 2019-11-21 一种分布式存储集群的硬盘故障处理方法、***及装置 Withdrawn CN111104239A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911149378.7A CN111104239A (zh) 2019-11-21 2019-11-21 一种分布式存储集群的硬盘故障处理方法、***及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911149378.7A CN111104239A (zh) 2019-11-21 2019-11-21 一种分布式存储集群的硬盘故障处理方法、***及装置

Publications (1)

Publication Number Publication Date
CN111104239A true CN111104239A (zh) 2020-05-05

Family

ID=70420643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911149378.7A Withdrawn CN111104239A (zh) 2019-11-21 2019-11-21 一种分布式存储集群的硬盘故障处理方法、***及装置

Country Status (1)

Country Link
CN (1) CN111104239A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984481A (zh) * 2020-08-14 2020-11-24 苏州浪潮智能科技有限公司 一种基于分布式存储的慢盘检测方法及装置
CN112035312A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 一种检测Kafka集群中Leader进程的可用状态方法及装置
CN112199046A (zh) * 2020-10-12 2021-01-08 苏州浪潮智能科技有限公司 一种分布式集群性能的优化方法、装置、终端及存储介质
CN112799896A (zh) * 2021-01-29 2021-05-14 中国工商银行股份有限公司 分布式存储硬盘故障处理方法及装置
CN114741220A (zh) * 2022-03-31 2022-07-12 北京志凌海纳科技有限公司 一种磁盘隔离方法、***、设备及存储介质
CN115348157A (zh) * 2021-05-14 2022-11-15 ***通信集团浙江有限公司 分布式存储集群的故障定位方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150149500A1 (en) * 2013-11-26 2015-05-28 Dropbox, Inc. Multi-level lookup architecture to facilitate failure recovery
CN105573888A (zh) * 2015-12-14 2016-05-11 曙光信息产业股份有限公司 一种分布式文件***中的磁盘性能检测方法及装置
CN107577441A (zh) * 2017-10-17 2018-01-12 郑州云海信息技术有限公司 一种osd慢盘处理方法、***、装置及计算机存储介质
CN107832164A (zh) * 2017-11-20 2018-03-23 郑州云海信息技术有限公司 一种基于Ceph的故障硬盘处理的方法及装置
CN107947976A (zh) * 2017-11-20 2018-04-20 新华三云计算技术有限公司 故障节点隔离方法及集群***
CN109684140A (zh) * 2018-12-11 2019-04-26 广东浪潮大数据研究有限公司 一种慢盘检测方法、装置、设备及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150149500A1 (en) * 2013-11-26 2015-05-28 Dropbox, Inc. Multi-level lookup architecture to facilitate failure recovery
CN105573888A (zh) * 2015-12-14 2016-05-11 曙光信息产业股份有限公司 一种分布式文件***中的磁盘性能检测方法及装置
CN107577441A (zh) * 2017-10-17 2018-01-12 郑州云海信息技术有限公司 一种osd慢盘处理方法、***、装置及计算机存储介质
CN107832164A (zh) * 2017-11-20 2018-03-23 郑州云海信息技术有限公司 一种基于Ceph的故障硬盘处理的方法及装置
CN107947976A (zh) * 2017-11-20 2018-04-20 新华三云计算技术有限公司 故障节点隔离方法及集群***
CN109684140A (zh) * 2018-12-11 2019-04-26 广东浪潮大数据研究有限公司 一种慢盘检测方法、装置、设备及计算机可读存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035312A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 一种检测Kafka集群中Leader进程的可用状态方法及装置
CN111984481A (zh) * 2020-08-14 2020-11-24 苏州浪潮智能科技有限公司 一种基于分布式存储的慢盘检测方法及装置
CN112199046A (zh) * 2020-10-12 2021-01-08 苏州浪潮智能科技有限公司 一种分布式集群性能的优化方法、装置、终端及存储介质
CN112799896A (zh) * 2021-01-29 2021-05-14 中国工商银行股份有限公司 分布式存储硬盘故障处理方法及装置
CN115348157A (zh) * 2021-05-14 2022-11-15 ***通信集团浙江有限公司 分布式存储集群的故障定位方法、装置、设备及存储介质
CN115348157B (zh) * 2021-05-14 2023-09-05 ***通信集团浙江有限公司 分布式存储集群的故障定位方法、装置、设备及存储介质
CN114741220A (zh) * 2022-03-31 2022-07-12 北京志凌海纳科技有限公司 一种磁盘隔离方法、***、设备及存储介质
CN114741220B (zh) * 2022-03-31 2023-01-13 北京志凌海纳科技有限公司 一种磁盘隔离方法、***、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111104239A (zh) 一种分布式存储集群的硬盘故障处理方法、***及装置
JP5872731B2 (ja) クラスタの複数のノードのそれぞれに対してリンクの障害の検出を伝えるためのコンピュータ実装方法、非一時的なコンピュータ可読媒体およびコンピュータシステム
KR101513863B1 (ko) 네트워크 요소 서비스 복구를 위한 방법 및 시스템
CN108737132B (zh) 一种告警信息处理方法及装置
CN110535692B (zh) 故障处理方法、装置、计算机设备、存储介质及存储***
US20070168201A1 (en) Formula for automatic prioritization of the business impact based on a failure on a service in a loosely coupled application
CN105610648A (zh) 一种运维监控数据的采集方法及服务器
CN111796959B (zh) 宿主机容器自愈方法、装置及***
WO2018072561A1 (zh) 一种视频切换方法、装置及视频巡逻***
CN112994971A (zh) 一种基于云服务器的设备离线监测方法及相关装置
US11930292B2 (en) Device state monitoring method and apparatus
CN111342986B (zh) 分布式节点管理方法及装置、分布式***、存储介质
CN113965576B (zh) 基于容器的大数据采集方法、装置、存储介质和设备
CN113014640B (zh) 请求处理方法、装置、电子设备及存储介质
US10277484B2 (en) Self organizing network event reporting
US9443196B1 (en) Method and apparatus for problem analysis using a causal map
CN113254245A (zh) 一种存储集群的故障检测方法和***
CN110521233B (zh) 标识中断的方法、接入点、远程配置的方法、***和介质
WO2019241199A1 (en) System and method for predictive maintenance of networked devices
CN113568781B (zh) 一种数据库错误处理方法、装置及数据库集群访问***
CN112905415B (zh) 一种串口日志文件获取方法、装置及相关组件
JP2006285453A (ja) 情報処理装置、情報処理方法、および情報処理プログラム
CN108880994B (zh) 一种重发邮件的方法和装置
CN108449224B (zh) 数据获取方法、装置、设备和存储介质
TW201828087A (zh) 分布式儲存系統的服務節點切換方法及裝置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200505

WW01 Invention patent application withdrawn after publication