CN109274544A - 一种分布式存储***的故障检测方法及装置 - Google Patents

一种分布式存储***的故障检测方法及装置 Download PDF

Info

Publication number
CN109274544A
CN109274544A CN201811511589.6A CN201811511589A CN109274544A CN 109274544 A CN109274544 A CN 109274544A CN 201811511589 A CN201811511589 A CN 201811511589A CN 109274544 A CN109274544 A CN 109274544A
Authority
CN
China
Prior art keywords
node
disk
memory node
state
execution state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811511589.6A
Other languages
English (en)
Other versions
CN109274544B (zh
Inventor
许银龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201811511589.6A priority Critical patent/CN109274544B/zh
Publication of CN109274544A publication Critical patent/CN109274544A/zh
Application granted granted Critical
Publication of CN109274544B publication Critical patent/CN109274544B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种分布式存储***的故障检测方法,在存储节点调用进程向磁盘执行数据操作的过程中,能监测进程的执行状态,并在执行状态为状态异常时判定磁盘发生故障。可见,该方法利用在存储节点向磁盘执行数据操作的过程中,用于执行该操作的进程本身就会返回一个执行状态参数,该执行状态反映了存储节点是否成功向磁盘进行数据操作,因此在存储节点向磁盘进行数据操作的过程中,可以不进行心跳检测,而是依据进程的执行状态,响应式的捕捉到磁盘故障的信号,节省了存储节点的计算资源,还避免了心跳间隔难以精准设置的问题。此外,本发明还提供了一种分布式从存储***的故障检测装置及分布式存储***,其作用与上述方法相对应。

Description

一种分布式存储***的故障检测方法及装置
技术领域
本发明涉及存储领域,特别涉及一种分布式存储***的故障检测方法、装置及分布式存储***。
背景技术
随着云计算技术的兴起和普及,分布式存储***越来越开始受到业界的关注。传统的网络存储***采用集中的存储服务器存放所有数据,存储服务器成为***性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储***采用可扩展的***结构,利用多台存储服务器分担存储负荷,不但提高了***的可靠性、可用性和存取效率,还易于扩展。对分布式存储而言,集群的稳定性和可靠性至关重要。
当分布式***的磁盘或存储节点发生故障时,往往会对集群的稳定性和可靠性参数很大的影响,甚至可能导致存储***暂时不可用。当前的分布式存储***往往采用心跳检测的方式对故障进行检测,当心跳时间检测到超时时,判断为出现故障进行故障处理。
事实上,大多数情况下心跳包的发送是非必要的,因为我们真正关心的是那些发生故障的存储节点或磁盘,因此心跳检测会占用存储节点和监控节点上不必要的计算资源。此外,心跳检测时间的设置也是一个棘手的问题,因为若心跳检测时间过短,容易造成误判,导致***震荡;而心跳时间较长时,在发生故障时需要较长的时间才检测到故障,导致存储***受到较长时间的影响。
发明内容
本发明的目的是提供一种分布式存储***的故障检测方法、装置及分布式存储***,用以解决传统的故障检测方法通过心跳检测方式检测分布式存储***故障,因此会占用存储节点和监控节点上一些非必要的计算资源,且心跳检测时间也较难精准设置的问题。
为解决上述技术问题,本发明提供了一种分布式存储***的故障检测方法,所述分布式存储***包括存储节点,所述存储节点包括用于存储数据的磁盘,所述方法包括:
在存储节点调用进程向磁盘执行数据操作的过程中,监测所述进程的执行状态;
判断所述执行状态是否为状态异常;
若所述执行状态为状态异常,则判定所述磁盘发生故障。
可选的,在所述在存储节点调用进程向磁盘执行数据操作的过程中,监测所述进程的执行状态之前,还包括:
响应于客户端向存储节点发送的操作请求,监测所述客户端与所述存储节点之间的网络连接状态;
判断所述网络连接状态是否异常;
若所述网络连接状态异常,则判定所述存储节点发生故障。
可选的,在所述若所述执行状态为状态异常,则判定所述磁盘发生故障之后,或在所述若所述网络连接状态异常,则判定所述存储节点发生故障之后,还包括:
向分布式存储***中的监控节点发送故障提示信息。
可选的,所述响应于客户端向存储节点发送的操作请求,监测所述客户端与所述存储节点之间的网络连接状态,具体包括:
响应于客户端向存储节点发送的操作请求,断开所述存储节点与所述监控节点之间的心跳连接,并监测所述客户端与所述存储节点之间的网络连接状态,直至所述存储节点执行完与所述操作请求对应的操作。
可选的,在所述向分布式存储***中的监控节点发送磁盘故障提示信息之后,还包括:
更新所述监控节点中存储节点的实时状态或磁盘的实时状态,并重新分配执行所述操作请求的存储节点或磁盘。
此外,本发明还提供了一种分布式存储***的故障检测装置,所述分布式存储***包括存储节点,所述存储节点包括用于存储数据的磁盘,所述装置包括:
执行状态监测模块:用于在存储节点调用进程向磁盘执行数据操作的过程中,监测所述进程的执行状态;
执行状态判断模块:用于判断所述执行状态是否为状态异常;
磁盘故障判定模块:用于若所述执行状态为状态异常,则判定所述磁盘发生故障。
可选的,所述装置还包括:
网络连接状态监测模块:用于响应于客户端向存储节点发送的操作请求,监测所述客户端与所述存储节点之间的网络连接状态;
网络连接状态判断模块:用于判断所述网络连接状态是否异常;
节点故障判定模块:用于若所述网络连接状态异常,则判定所述存储节点发生故障。
可选的,所述装置还包括:
故障提示模块:用于向分布式存储***中的监控节点发送故障提示信息。
最后,本发明还提供了一种分布式存储***,包括存储节点,所述存储节点用于调用进程向磁盘执行数据操作,并在执行过程中监测所述进程的执行状态,还用于在所述执行状态为状态异常时,判定所述磁盘发生故障。
可选的,所述分布式存储***还包括监控节点,所述存储节点用于在判定所述磁盘发生故障时向所述监控节点发送故障提示信息。
本发明所提供的一种分布式存储***的故障检测方法,应用于分布式存储***,该***包括存储节点,存储节点包括用于存储数据的磁盘,该方法包括:在存储节点调用进程向磁盘执行数据操作的过程中,能够监测进程的执行状态,判断执行状态是否为状态异常,并在执行状态为状态异常时,判定磁盘发生故障。可见,该方法利用在存储节点向磁盘执行数据操作的过程中,用于执行该操作的进程本身就会返回一个执行状态参数,该执行状态反映了存储节点是否成功向磁盘进行数据操作,因此在存储节点向磁盘进行数据操作的过程中,可以不进行心跳检测,而是依据进程的执行状态,响应式的捕捉到磁盘故障的信号,节省了存储节点的计算资源,还避免了心跳间隔难以精准设置的问题。
此外,本发明还提供了一种分布式从存储***的故障检测装置及分布式存储***,其作用与上述方法相对应,这里不再赘述。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种分布式存储***的故障检测方法实施例一的实现流程图;
图2为本发明所提供的一种分布式存储***的故障检测方法实施例二的实现流程图;
图3为本发明所提供的一种分布式存储***的故障检测装置实施例的功能框图;
图4为本发明所提供的一种分布式存储***的结构框图。
具体实施方式
本发明的核心是提供一种分布式存储***的故障检测方法、装置及分布式存储***,能够在存储节点向磁盘进行数据操作的过程中,依据进程的执行状态,响应式的捕捉到磁盘故障的信号,节省了存储节点的计算资源,还避免了心跳间隔难以精准设置的问题。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面对本发明提供的一种分布式存储***的故障检测方法实施例一进行介绍,参见图1,实施例一包括:
步骤S101:在存储节点调用进程向磁盘执行数据操作的过程中,监测所述进程的执行状态。
本实施例涉及的分布式存储***包括客户端、存储节点、监控节点,其中客户端用于向存储节点发送操作请求,存储节点用于根据该操作请求对磁盘中的数据执行相应的操作,监控节点用于检测存储节点的故障。上述步骤中的数据操作包括但不限于读操作和写操作,上述进程指的是用于执行上述读操作或写操作的进程,上述进程的执行状态是指反映该进程能否成功对磁盘执行读操作或写操作的状态参数。
步骤S102:判断所述执行状态是否为状态异常。
如上所述,本实施例中进程的执行状态是指反映该进程能否成功对磁盘执行读操作或写操作的状态参数,在该执行状态满足预设要求时,我们认为该进程的状态异常,也就是认为磁盘发生了拨盘或扇区损坏等故障问题。
步骤S103:若所述执行状态为状态异常,则判定所述磁盘发生故障。
在判定磁盘发生故障后,可以生成故障提示信号,并发送到监控节点,因此实现了以信号捕获的方式发现磁盘故障,并将故障提示信号发送到监控节点,以便于故障节点对故障磁盘进行处理。避免了存储节点每隔一定时间间隔就对监控节点广播磁盘状态的过程,或避免了监控节点每隔一定时间间隔就对存储节点进行一次检测的过程,因此节省了存储节点和监控节点的计算资源,实现了响应式发现磁盘故障,提高故障处理效率的目的。
本实施例所提供一种分布式存储***的故障检测方法,在存储节点调用进程向磁盘执行数据操作的过程中,能够监测进程的执行状态,判断执行状态是否为状态异常,并在执行状态为状态异常时,判定磁盘发生故障。可见,该方法利用在存储节点向磁盘执行数据操作的过程中,用于执行该操作的进程本身就会返回一个执行状态参数,该执行状态反映了存储节点是否成功向磁盘进行数据操作,因此在存储节点向磁盘进行数据操作的过程中,可以不进行心跳检测,而是依据进程的执行状态,响应式的捕捉到磁盘故障的信号,节省了存储节点的计算资源,还避免了心跳间隔难以精准设置的问题。
下面开始详细介绍本发明提供的一种分布式存储***的故障检测方法实施例二,实施例二基于实施例一实现,并在实施例一的基础上进行了一定程度上的拓展。
具体的,实施例一只对磁盘故障进行了检测,然而,在实际应用场景中,存储节点本身也会发生断电或网络异常等故障现象,因此,实施例二考虑到上述问题提供了以下实施过程,参见图2,该实施方式包括:
步骤S201:响应于客户端向存储节点发送的操作请求,监测所述客户端与所述存储节点之间的网络连接状态。
具体的,响应于客户端向存储节点发送的操作请求,断开存储节点与监控节点之间的心跳连接,并监测客户端与存储节点之间的网络连接状态,直至存储节点执行完与操作请求对应的操作。对于其他故障场景,保持正常的心跳连接,当心跳连接异常时,再进行故障处理。上述存储节点具体可以为对象存储设备(OSD)。
步骤S202:判断连接状态是否异常,若连接状态异常,进入步骤S203,否则进入步骤S204。
若客户端和存储节点之间的读写发生异常,当读写异常超过一定的阈值时,可以判定该存储节点发生异常时(断电或者网络异常),并主动向监控节点上报存储节点故障的信号。
步骤S203:判定所述存储节点发生故障,并进入步骤S207。
步骤S204:在存储节点调用进程向磁盘执行数据操作的过程中,监测所述进程的执行状态。
步骤S205:判断所述执行状态是否为状态异常,若异常,进入步骤S206。
也就是说,在正常读写过程中,如果某个磁盘发生读写异常(拔盘或者扇区损坏等),那么在对应该磁盘的OSD进程退出前会发出读写异常信号,因此可以通过捕获该异常信号,并主动上报监控节点,以便于监控节点对该异常进行处理。
步骤S206:判定所述磁盘发生故障。
步骤S207:向监控节点发送故障提示消息。
步骤S208:更新监控节点中存储节点的实时状态或磁盘的实时状态,并重新分配执行所述操作请求的存储节点或磁盘。
若收到上报的磁盘故障信号,则监控节点可以立刻将故障磁盘踢出存储集群,保证存储集群正常读写;如果收到节点故障信号,那么监控节点可以立刻将该存储节点踢出集群,同时主动触发切换读写业务节点IP到正常的节点上。
可见,本实施例提供的一种分布式存储***的故障检测方法,当磁盘发生故障时,通过捕获信号的方式,上报监控节点,加快故障处理;当节点发生故障(断电或网络异常),通过客户端和集群的连接辅助检测异常,当读写异常超过一定门限后,上报监控节点,监控节点将主动将故障节点踢出集群,从而加快节点故障场景的处理时间,提高整个集群的可靠性和稳定性。
下面对本发明实施例提供的一种分布式存储***的故障检测装置进行介绍,下文描述的一种分布式存储***的故障检测装置与上文描述的一种分布式存储***的故障检测方法可相互对应参照。
该装置实施例涉及的分布式存储***中包括存储节点,存储节点包括用于存储数据的磁盘,如图3所示,该装置实施例包括:
执行状态监测模块301:用于在存储节点调用进程向磁盘执行数据操作的过程中,监测所述进程的执行状态。
执行状态判断模块302:用于判断所述执行状态是否为状态异常。
磁盘故障判定模块303:用于若所述执行状态为状态异常,则判定所述磁盘发生故障。
作为一种可选的实施方式,所述装置还包括:
网络连接状态监测模块304:用于响应于客户端向存储节点发送的操作请求,监测所述客户端与所述存储节点之间的网络连接状态。
网络连接状态判断模块305:用于判断所述网络连接状态是否异常。
节点故障判定模块306:用于若所述网络连接状态异常,则判定所述存储节点发生故障。
作为一种可选的实施方式,所述装置还包括:
故障提示模块307:用于向分布式存储***中的监控节点发送故障提示信息。
本实施例的一种分布式存储***的故障检测装置用于实现前述的一种分布式存储***的故障检测方法,因此该装置中的具体实施方式可见前文中的一种分布式存储***的故障检测方法的实施例部分,例如,执行状态监测模块301、执行状态判断模块302、磁盘故障判定模块303,分别用于实现上述一种分布式存储***的故障检测方法中步骤S101,S102,S103。所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
另外,由于本实施例的一种分布式存储***的故障检测装置用于实现前述的一种分布式存储***的故障检测方法,因此其作用与上述方法的作用相对应,这里不再赘述。
此外,本发明还提供了一种分布式存储***实施例,下文描述的一种分布式存储***与上文描述的一种分布式存储***的故障检测方法可相互对应参照。
如图4所示,该分布式存储***的组成包括:多个存储节点401、监控节点402、客户端403。各个组成的基本功能在于:客户端403用于通过公共网络向所述存储节点401发送操作请求,存储节点401用于响应于该操作请求调用进程向磁盘进行相应的数据操作,监控节点402用于通过公共网络监测各个存储节点401的状态。
在本实施例中,所述存储节点401用于在调用进程向磁盘执行数据操作的过程中监测所述进程的执行状态,并在所述执行状态为状态异常时,判定所述磁盘发生故障,向监控节点402发送磁盘故障提示消息。
此外,存储节点401还用于响应于客户端403向存储节点401发送的操作请求,监测客户端403与存储节点401之间的网络连接状态,并在所述网络连接状态异常时判定存储节点401发生故障,进而向监控节点402上报节点故障提示消息。具体的,存储节点401响应于客户端403向存储节点401发送的操作请求,断开所述存储节点401与所述监控节点402之间的心跳连接,并监测所述客户端403与所述存储节点401之间的网络连接状态,直至所述存储节点401执行完与所述操作请求对应的操作。
作为一种可选的实施方式,监控节点402用于在接收到故障提示消息后,更新所述监控节点402中存储节点401的实时状态或磁盘的实时状态,并重新分配执行所述操作请求的存储节点401或磁盘。
本实施例的一种分布式存储***用于实现前述的一种分布式存储***的故障检测方法,因此该***的具体实施方式可见前文中的一种分布式存储***的故障检测方法的实施例部分,且其作用与上述方法相对应,这里不再展开介绍。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种分布式存储***的故障检测方法、装置及分布式存储***进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种分布式存储***的故障检测方法,其特征在于,所述分布式存储***包括存储节点,所述存储节点包括用于存储数据的磁盘,所述方法包括:
在存储节点调用进程向磁盘执行数据操作的过程中,监测所述进程的执行状态;
判断所述执行状态是否为状态异常;
若所述执行状态为状态异常,则判定所述磁盘发生故障。
2.如权利要求1所述的方法,其特征在于,在所述在存储节点调用进程向磁盘执行数据操作的过程中,监测所述进程的执行状态之前,还包括:
响应于客户端向存储节点发送的操作请求,监测所述客户端与所述存储节点之间的网络连接状态;
判断所述网络连接状态是否异常;
若所述网络连接状态异常,则判定所述存储节点发生故障。
3.如权利要求2所述的方法,其特征在于,在所述若所述执行状态为状态异常,则判定所述磁盘发生故障之后,或在所述若所述网络连接状态异常,则判定所述存储节点发生故障之后,还包括:
向分布式存储***中的监控节点发送故障提示信息。
4.如权利要求3所述的方法,其特征在于,所述响应于客户端向存储节点发送的操作请求,监测所述客户端与所述存储节点之间的网络连接状态,具体包括:
响应于客户端向存储节点发送的操作请求,断开所述存储节点与所述监控节点之间的心跳连接,并监测所述客户端与所述存储节点之间的网络连接状态,直至所述存储节点执行完与所述操作请求对应的操作。
5.如权利要求3所述的方法,其特征在于,在所述向分布式存储***中的监控节点发送磁盘故障提示信息之后,还包括:
更新所述监控节点中存储节点的实时状态或磁盘的实时状态,并重新分配执行所述操作请求的存储节点或磁盘。
6.一种分布式存储***的故障检测装置,其特征在于,所述分布式存储***包括存储节点,所述存储节点包括用于存储数据的磁盘,所述装置包括:
执行状态监测模块:用于在存储节点调用进程向磁盘执行数据操作的过程中,监测所述进程的执行状态;
执行状态判断模块:用于判断所述执行状态是否为状态异常;
磁盘故障判定模块:用于若所述执行状态为状态异常,则判定所述磁盘发生故障。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
网络连接状态监测模块:用于响应于客户端向存储节点发送的操作请求,监测所述客户端与所述存储节点之间的网络连接状态;
网络连接状态判断模块:用于判断所述网络连接状态是否异常;
节点故障判定模块:用于若所述网络连接状态异常,则判定所述存储节点发生故障。
8.如权利要求7所述的装置,其特征在于,所述装置还包括:
故障提示模块:用于向分布式存储***中的监控节点发送故障提示信息。
9.一种分布式存储***,其特征在于,包括存储节点,所述存储节点用于调用进程向磁盘执行数据操作,并在执行过程中监测所述进程的执行状态,还用于在所述执行状态为状态异常时,判定所述磁盘发生故障。
10.如权利要求9所述的分布式存储***,其特征在于,所述分布式存储***还包括监控节点,所述存储节点用于在判定所述磁盘发生故障时向所述监控节点发送故障提示信息。
CN201811511589.6A 2018-12-11 2018-12-11 一种分布式存储***的故障检测方法及装置 Active CN109274544B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811511589.6A CN109274544B (zh) 2018-12-11 2018-12-11 一种分布式存储***的故障检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811511589.6A CN109274544B (zh) 2018-12-11 2018-12-11 一种分布式存储***的故障检测方法及装置

Publications (2)

Publication Number Publication Date
CN109274544A true CN109274544A (zh) 2019-01-25
CN109274544B CN109274544B (zh) 2021-06-29

Family

ID=65186913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811511589.6A Active CN109274544B (zh) 2018-12-11 2018-12-11 一种分布式存储***的故障检测方法及装置

Country Status (1)

Country Link
CN (1) CN109274544B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110554839A (zh) * 2019-07-30 2019-12-10 华为技术有限公司 分布式存储***访问方法、客户端及计算机程序产品
CN111176916A (zh) * 2019-12-20 2020-05-19 国久大数据有限公司 数据存储故障诊断方法及***
CN111600770A (zh) * 2020-04-08 2020-08-28 贵州大方发电有限公司 Dcs环形网络故障监控***、方法及装置
CN111756571A (zh) * 2020-05-28 2020-10-09 苏州浪潮智能科技有限公司 一种集群节点故障的处理方法、装置、设备及可读介质
CN111817920A (zh) * 2020-07-17 2020-10-23 济南浪潮数据技术有限公司 分布式存储***优化负载的方法、装置、***及存储介质
CN112306781A (zh) * 2020-11-20 2021-02-02 新华三大数据技术有限公司 一种线程故障处理方法、装置、介质及设备
CN112732494A (zh) * 2020-12-29 2021-04-30 北京浪潮数据技术有限公司 一种存储***的坏盘更换方法、装置、设备及介质
CN115629906A (zh) * 2022-12-21 2023-01-20 北京铜牛信息科技股份有限公司 一种恢复云分布式存储数据故障的方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060276173A1 (en) * 2005-06-07 2006-12-07 Lena Srey Wireless communication network security method and system
WO2012112748A1 (en) * 2011-02-18 2012-08-23 Ab Initio Technology Llc Restarting processes
CN103298013A (zh) * 2013-06-24 2013-09-11 京信通信***(中国)有限公司 一种进行业务恢复的方法及装置
CN103823708A (zh) * 2014-02-27 2014-05-28 深圳市深信服电子科技有限公司 虚拟机读写请求处理的方法和装置
CN106970851A (zh) * 2016-01-14 2017-07-21 阿里巴巴集团控股有限公司 用于分布式文件***中磁盘检测处理的方法和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060276173A1 (en) * 2005-06-07 2006-12-07 Lena Srey Wireless communication network security method and system
WO2012112748A1 (en) * 2011-02-18 2012-08-23 Ab Initio Technology Llc Restarting processes
CN103298013A (zh) * 2013-06-24 2013-09-11 京信通信***(中国)有限公司 一种进行业务恢复的方法及装置
CN103823708A (zh) * 2014-02-27 2014-05-28 深圳市深信服电子科技有限公司 虚拟机读写请求处理的方法和装置
CN106970851A (zh) * 2016-01-14 2017-07-21 阿里巴巴集团控股有限公司 用于分布式文件***中磁盘检测处理的方法和设备

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110554839A (zh) * 2019-07-30 2019-12-10 华为技术有限公司 分布式存储***访问方法、客户端及计算机程序产品
CN111176916A (zh) * 2019-12-20 2020-05-19 国久大数据有限公司 数据存储故障诊断方法及***
CN111176916B (zh) * 2019-12-20 2023-04-07 国久大数据有限公司 数据存储故障诊断方法及***
CN111600770A (zh) * 2020-04-08 2020-08-28 贵州大方发电有限公司 Dcs环形网络故障监控***、方法及装置
CN111756571A (zh) * 2020-05-28 2020-10-09 苏州浪潮智能科技有限公司 一种集群节点故障的处理方法、装置、设备及可读介质
US11750437B2 (en) 2020-05-28 2023-09-05 Inspur Suzhou Intelligent Technology Co., Ltd. Cluster node fault processing method and apparatus, and device and readable medium
WO2021238275A1 (zh) * 2020-05-28 2021-12-02 苏州浪潮智能科技有限公司 一种集群节点故障的处理方法、装置、设备及可读介质
CN111756571B (zh) * 2020-05-28 2022-02-18 苏州浪潮智能科技有限公司 一种集群节点故障的处理方法、装置、设备及可读介质
CN111817920A (zh) * 2020-07-17 2020-10-23 济南浪潮数据技术有限公司 分布式存储***优化负载的方法、装置、***及存储介质
CN112306781B (zh) * 2020-11-20 2022-08-19 新华三大数据技术有限公司 一种线程故障处理方法、装置、介质及设备
CN112306781A (zh) * 2020-11-20 2021-02-02 新华三大数据技术有限公司 一种线程故障处理方法、装置、介质及设备
CN112732494A (zh) * 2020-12-29 2021-04-30 北京浪潮数据技术有限公司 一种存储***的坏盘更换方法、装置、设备及介质
CN112732494B (zh) * 2020-12-29 2024-02-13 北京浪潮数据技术有限公司 一种存储***的坏盘更换方法、装置、设备及介质
CN115629906A (zh) * 2022-12-21 2023-01-20 北京铜牛信息科技股份有限公司 一种恢复云分布式存储数据故障的方法及***
CN115629906B (zh) * 2022-12-21 2023-03-21 北京铜牛信息科技股份有限公司 一种恢复云分布式存储数据故障的方法及***

Also Published As

Publication number Publication date
CN109274544B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN109274544A (zh) 一种分布式存储***的故障检测方法及装置
CN105187249B (zh) 一种故障恢复方法及装置
CN103201724B (zh) 在高可用性虚拟机环境中提供高可用性应用程序
CN110515820A (zh) 一种服务器故障维护方法、装置、服务器及存储介质
EP3472971B1 (en) Technique for resolving a link failure
CN107729185B (zh) 一种故障处理方法及装置
US20070168201A1 (en) Formula for automatic prioritization of the business impact based on a failure on a service in a loosely coupled application
CN109710456B (zh) 一种数据恢复方法及装置
CN110321265A (zh) 一种服务器监控管理装置、方法及***
CN112948128A (zh) Target端的选择方法、***及计算机可读介质
CN108924202B (zh) 一种分布式集群的数据容灾方法以及相关装置
JP5753030B2 (ja) キャッシュクラウド構造を利用したキャッシュシステムおよびキャッシングサービスの提供方法
CN115632706B (zh) 一种fc链路管理方法、装置、设备及可读存储介质
CN108776579A (zh) 一种分布式存储集群扩容方法、装置、设备及存储介质
CN111212127A (zh) 一种存储集群及业务数据的维护方法、装置和存储介质
CN110247812A (zh) 一种多集群管理方法、装置、***及相关组件
CN109167690A (zh) 一种分布式***中节点服务的恢复方法、装置及相关设备
CN109766248A (zh) ***故障信号获取方法、装置、服务器及可读存储介质
WO2010113212A1 (ja) メモリリーク監視装置、及び方法
CN111611057A (zh) 分布式重试方法、装置、电子设备和存储介质
CN111342986B (zh) 分布式节点管理方法及装置、分布式***、存储介质
CN105471616B (zh) 缓存***管理方法和***
CN113946487A (zh) 一种故障场景下自主服务降级恢复的实现方法及***
CN114356533B (zh) 微服务无感知发布***、方法、电子设备及存储介质
CN109474694A (zh) 一种基于san存储阵列的nas集群的管控方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant