CN109213637A - 分布式文件***集群节点的数据恢复方法、装置及介质 - Google Patents

分布式文件***集群节点的数据恢复方法、装置及介质 Download PDF

Info

Publication number
CN109213637A
CN109213637A CN201811333895.5A CN201811333895A CN109213637A CN 109213637 A CN109213637 A CN 109213637A CN 201811333895 A CN201811333895 A CN 201811333895A CN 109213637 A CN109213637 A CN 109213637A
Authority
CN
China
Prior art keywords
osd
failure
clustered node
data
file system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811333895.5A
Other languages
English (en)
Other versions
CN109213637B (zh
Inventor
李彦博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201811333895.5A priority Critical patent/CN109213637B/zh
Publication of CN109213637A publication Critical patent/CN109213637A/zh
Application granted granted Critical
Publication of CN109213637B publication Critical patent/CN109213637B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1435Saving, restoring, recovering or retrying at system level using file system or storage system metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Retry When Errors Occur (AREA)

Abstract

本申请公开了一种分布式文件***集群节点的数据恢复方法,包括:当集群节点出现故障时,获取集群节点中的故障OSD;判断故障OSD的数量与集群节点中的OSD总量的比值是否大于或等于预设阈值;若大于或等于,则保持故障OSD的故障状态。相较于现有技术中,当判断出故障OSD之后,则按照预设规则为故障OSD进行数据恢复操作,当存在大量的故障OSD时,需要恢复的数据量很大,从而影响前端业务的读写操作;本方法避免了数据恢复操作占用大量的带宽,进而降低对数据读写操作的影响,因此提高了分布式文件***的稳定性。本申请还公开了一种分布式文件***集群节点的数据恢复装置计算机可读存储介质,均具有上述有益效果。

Description

分布式文件***集群节点的数据恢复方法、装置及介质
技术领域
本发明涉及数据处理领域,特别涉及一种分布式文件***集群节点的数据恢复方法、装置及计算机可读存储介质。
背景技术
近年来,分布式文件***(DFS,Distributed File System)因其能够实现集中管理文件共享而受到越来越广泛的应用。在运行分布式文件***的过程中,集群节点将不可避免地出现故障的情况。现有技术中,当分布式文件***的集群节点出现故障时,如果在预设时间内该集群节点没有恢复正常工作,则将该集群节点中的故障OSD(Object-basedStorage Device,对象存储设备)设置为out状态,并触发数据恢复的流程,使得这些故障OSD在进行数据恢复之后重新添加至集群中。当集群节点中的故障OSD数量较多时,则为这些故障OSD进行数据恢复时,需要恢复的数据量较大,在这种情况下,由于集群带宽是固定的,在进行数据恢复的过程中将占用大量的带宽,从而减少了前端业务的读写操作能够使用的带宽,导致读写操作卡顿,甚至将导致整个分布式文件***的死机。
因此,如何降低集群节点的数据恢复操作对分布式文件***的影响,提高***的稳定性是本领域技术人员目前需要解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种分布式文件***集群节点的数据恢复方法,能够降低集群节点的数据恢复操作对分布式文件***的影响,提高***的稳定性;本发明的另一目的是提供一种分布式文件***集群节点的数据恢复装置及计算机可读存储介质,均具有上述有益效果。
为解决上述技术问题,本发明提供一种分布式文件***集群节点的数据恢复方法,包括:
当集群节点出现故障时,获取所述集群节点中的故障OSD;
判断所述故障OSD的数量与所述集群节点中的OSD总量的比值是否大于或等于预设阈值;
若大于或等于,则保持所述故障OSD的故障状态。
优选地,所述当集群节点出现故障时,获取所述集群节点中的故障OSD具体为:
当集群节点出现故障时,获取所述集群节点中的所述故障OSD并开始计时;
对应的,所述保持所述故障OSD的故障状态具体为:
利用初始计时时间更新所述故障OSD的计时时间以保持所述故障OSD的所述故障状态。
优选地,在所述判断所述故障OSD的数量与所述集群节点中的OSD总量的比值是否大于或等于预设阈值之后,进一步包括:
若小于,则判断所述故障OSD在预设时间阈值内是否开始正常工作;
若否,则复制与所述故障OSD对应的PG中的对象数据;
将所述对象数据存储至所述集群节点中除所述故障OSD之外的其他OSD中。
优选地,在所述判断所述故障OSD是否在预设时间阈值内开始正常工作之后,进一步包括:
若是,则判断与所述故障OSD对应的PG中的对象数据在计时过程中是否发生变化;
若发生变化,则利用增量恢复方法将所述PG中的发生变化的对象数据复制到所述故障OSD中。
优选地,所述判断所述故障OSD的数量与所述集群节点中的OSD总量的比值是否大于预设阈值具体为:
判断所述集群节点中所述故障OSD的数量是否等于所述OSD总量;
若等于,则进入所述保持所述故障OSD的故障状态的步骤。
优选地,在所述保持所述故障OSD的故障状态之后,进一步包括:
为保持所述故障状态的所述故障OSD设置标识信息。
为解决上述技术问题,本发明还提供一种分布式文件***集群节点的数据恢复装置,包括:
获取模块,用于当集群节点出现故障时,获取所述集群节点中的故障OSD;
判断模块,用于判断所述故障OSD的数量与所述集群节点中的OSD总量的比值是否大于或等于预设阈值;
执行模块,用于若大于或等于,则保持所述故障OSD的故障状态。
为解决上述技术问题,本发明还提供另一种分布式文件***集群节点的数据恢复装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任一种分布式文件***集群节点的数据恢复方法的步骤。
为解决上述技术问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种分布式文件***集群节点的数据恢复方法的步骤。
本发明提供的一种分布式文件***集群节点的数据恢复方法,相较于现有技术中,当判断出故障OSD之后,则按照预设规则为故障OSD进行数据恢复操作,当存在大量的故障OSD时,需要恢复的数据量很大,从而影响前端业务的读写操作;本方法是在故障OSD的数量与集群节点中的OSD总量的比值大于或等于预设阈值时,保持故障OSD的故障状态,也即保持集群节点的故障状态,从而避免触发进行数据恢复操作,避免了数据恢复操作占用大量的带宽,进而降低对数据读写操作的影响,因此提高了分布式文件***的稳定性。
为解决上述技术问题,本发明还提供了一种分布式文件***集群节点的数据恢复装置及计算机可读存储介质,均具有上述有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种分布式文件***集群节点的数据恢复方法的流程图;
图2为本发明实施例提供的另一种分布式文件***集群节点的数据恢复方法的流程图;
图3为本发明实施例提供的另一种分布式文件***集群节点的数据恢复方法的流程图;
图4为本发明实施例提供的又一种分布式文件***集群节点的数据恢复方法的流程图;
图5为本发明实施例提供的一种分布式文件***集群节点的数据恢复装置的结构图;
图6为本发明实施例提供的另一种分布式文件***集群节点的数据恢复装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的核心是提供一种分布式文件***集群节点的数据恢复方法,能够降低集群节点的数据恢复操作对分布式文件***的影响,提高***的稳定性;本发明的另一核心是提供一种分布式文件***集群节点的数据恢复装置及计算机可读存储介质,均具有上述有益效果。
为了使本领域技术人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
图1为本发明实施例提供的一种分布式文件***集群节点的数据恢复方法的流程图。如图1所示,一种分布式文件***集群节点的数据恢复方法包括:
S10:当集群节点出现故障时,获取集群节点中的故障OSD。
在本实施例中,首先判断集群节点是否出现故障,然后在检测出集群节点出现故障时,获取集群节点中的故障OSD。可以理解的是,分布式文件***存在多个集群节点,多个集群节点共同维护管理文件,并且一个集群节点中有多个OSD。当某个集群节点出现故障时,有时会造成集群节点中所有OSD故障,有时是集群节点中的部分OSD故障,因此需要通过检测,以获取集群节点中的故障OSD。
需要说明的是,造成集群节点故障的情况多种多样,如计算机故障、网络接口故障、网络故障,或者是高峰活动期等,可以通过在集群节点上运行集群服务跟踪集群节点的状态,以判断集群节点是否存在故障。
S20:判断故障OSD的数量与集群节点中的OSD总量的比值是否大于或等于预设阈值;若大于或等于,则执行S30;
S30:保持故障OSD的故障状态。
具体的,先根据S10获取的故障OSD得出故障OSD的数量,然后计算出集群节点中的故障OSD与集群节点中的OSD总数的比值,并将该比值与预设阈值进行比较,通过判断该比值是否大于或等于预设阈值,以确定对故障OSD执行何种操作。需要说明的是,预设阈值一般根据实际操作经验和实际需求进行设置,本实施例对此不做限定。
具体的,当判断故障OSD的数量与集群节点中的OSD总数的比值大于或等于预设阈值时,则执行S30,也即保持故障OSD的故障状态,也即保持集群节点的故障状态。也就是说,在保障集群节点处于故障状态的同时,避免集群节点被踢出分布式文件***集群,从而避免触发数据恢复操作。
需要说明的是,由于分布式文件***中存在多个集群节点,且多个集群节点之间存在冗余设置,因此,将该集群节点保持故障状态,该集群节点处于不能被使用的状态,但是此时分布式文件***依然能够稳定运行。
本发明实施例提供的一种分布式文件***集群节点的数据恢复方法,相较于现有技术中,当判断出故障OSD之后,则按照预设规则为故障OSD进行数据恢复操作,当存在大量的故障OSD时,需要恢复的数据量很大,从而影响前端业务的读写操作;本方法是在故障OSD的数量与集群节点中的OSD总量的比值大于或等于预设阈值时,保持故障OSD的故障状态,也即保持集群节点的故障状态,从而避免触发进行数据恢复操作,避免了数据恢复操作占用大量的带宽,进而降低对数据读写操作的影响,因此提高了分布式文件***的稳定性。
图2为本发明实施例提供的另一种分布式文件***集群节点的数据恢复方法的流程图。如图2所示,在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,S10:当集群节点出现故障时,获取集群节点中的故障OSD具体为:
S11:当集群节点出现故障时,获取集群节点中的故障OSD并开始计时;
对应的,S30:保持故障OSD的故障状态具体为:
S31:利用初始计时时间更新故障OSD的计时时间以保持故障OSD的故障状态。
具体的,在本实施例中,通过预先设置计时器,当检测到集群节点中的故障OSD时,利用计时器开始计时。计时方式可以是以当前时间为初始计时时间开始计时,也可以是以预先设置其他时间作为初始计时时间并开始计时,本实施例对计时方式不做限定。
由于在实际操作中,当OSD出现故障时,若在预设时间内没有恢复正常工作,则将触发数据恢复操作。因此,在本实施例中,当判断故障OSD的数量与集群节点中的OSD总量的比值大于或等于预设阈值时,通过利用初始计时时间更新故障OSD的计时时间,以避免计时时间达到预设时间,从而避免触发数据恢复操作,从而实现保持故障OSD的故障状态的效果。需要说明的是,在其他的实施例中,也可以通过设置其他的计时方式以避免触发数据恢复操作。例如,可以通过设置第一预设时间,且第一预设时间小于预设时间阈值;当计时时间达到第一预设时间时,则触发重新开始计时,以避免达到预设时间阈值而触发数据恢复操作。
可见,本实施例利用初始计时时间更新故障OSD的计时时间以保持故障OSD的故障状态的方法,操作方式简单易行。
图3为本发明实施例提供的另一种分布式文件***集群节点的数据恢复方法的流程图。如图3所示,在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,在判断故障OSD的数量与集群节点中的OSD总量的比值是否大于或等于预设阈值之后,进一步包括:
S40:若小于,则判断故障OSD在预设时间阈值内是否开始正常工作;
S50:复制与故障OSD对应的PG中的对象数据;
S60:将对象数据存储至集群节点中除故障OSD之外的其他OSD中。
具体的,当判断故障OSD的数量与集群节点中的OSD总量的比值小于预设阈值时,本实施例进一步判断故障OSD是否在预设时间阈值内开始正常工作,若没有开始正常工作,则表示故障OSD属于永久故障。由于故障OSD将使得与故障OSD对应的PG在多个OSD中备份的数据副本不一致,因此需要进行数据恢复,达到所有数据副本一致的状态,因此通过将重新进行PG分布,并在PG分布完成后,触发数据恢复流程。具体的,数据恢复的步骤包括:复制与故障OSD对应的PG中的对象数据;将对象数据存储至集群节点中除故障OSD之外的其他OSD中。也就是说,将与故障OSD对应的PG中的对象数据备份至集群节点中未发生故障的OSD中,以实现PG中的对象数据在各个OSD中的备份副本一致。
在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,在判断故障OSD是否在预设时间阈值内开始正常工作之后,进一步包括:
S70:若是,则判断与故障OSD对应的PG中的对象数据在计时过程中是否发生变化;
S80:若发生变化,则利用增量恢复方法将PG中的发生变化的对象数据复制到故障OSD中。
具体的,若判断出故障OSD在预设时间阈值内开始正常工作,则表示该故障OSD及时恢复正常,再次添加至集群节点中。作为优选的实施方式,在本实施例中,进一步判断在故障OSD的故障期间,与该故障OSD对应的PG中的对象数据是否发生变化,若发生变化,则表示PG在多个对应的OSD中的备份的数据副本发生变化,而由于故障OSD在故障期间没有及时更新数据副本,因此本实施例通过利用增量恢复方法将PG中发生变化的对象数据复制到故障OSD中,从而实现PG的对象数据在各个OSD上的数据副本的统一,并且尽量减少了需要复制的数据数量,也即尽量减少数据恢复过程中需要占用的带宽,从而降低对分布式文件***的影响。
在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,判断故障OSD的数量与集群节点中的OSD总量的比值是否大于预设阈值具体为:
判断集群节点中故障OSD的数量是否等于OSD总量;
若等于,则进入保持故障OSD的故障状态的步骤。
具体的,在本实施例中,是通过判断集群节点中故障OSD的数量是否等于OSD总量,也即判断集群节点中的OSD是否全部处于故障状态,来判断故障OSD的数量与集群节点中的OSD总量的比值是否大于或等于预设阈值,也即当前的预设阈值为1,判断故障OSD的数量与集群节点中的OSD总量的比值是否等于1,从而确定是否执行保持故障OSD的故障状态的步骤。
在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,在保持故障OSD的故障状态之后,进一步包括:
为保持故障状态的故障OSD设置标识信息。
需要说明的是,在本实施例中,作为优选的实施方式,在保持故障OSD的故障状态之后,进一步为保持故障状态的故障OSD设置标识信息。标识信息可以是文字、符号等信息,只要是能够将故障OSD与其他正常的OSD进行区分即可,本实施例对此不做限定。
可见,本实施例通过设置标识信息,一方面能够便于区分故障OSD和其他正常OSD,便于数据处理操作;另一方面也能够更便于用户更直观地查看各故障OSD在集群节点中的分布情况。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面结合实际应用场景对本申请实施例中的技术方案进行详细说明,具体的,如图4所示,为了使得集群节点在故障OSD的数量与集群节点中的OSD总量的比值大于或等于预设阈值/集群节点宕机之后不触发数据恢复操作,处理流程如下:
S41:当集群节点出现故障时,将故障OSD的状态设置为down状态,并标记OSD状态置为down的时间点;
S42:定时器开始计时,累计故障OSD的状态设置为down状态后持续的时间;
S43:判断故障OSD所属的集群节点中的OSD是否全都处于down状态;
S44:若是,则利用当前时间更新计时器的计时时间,以使得故障OSD保持down状态;
S45:若否,则当持续时间超过5分钟时,将故障OSD状态设置为out,从而触发数据恢复操作。
本实施例提供的分布式文件***集群节点的数据恢复方法,当集群节点中的OSD未完全处于故障状态时,则进行数据恢复操作;当集群节点中的OSD全都处于故障状态时,则通过设置故障OSD保持故障状态,使得故障集群节点保持故障状态而避免进行数据恢复操作,从而保障了分布式文件***的稳定性。
上文对于本发明提供的一种分布式文件***集群节点的数据恢复方法的实施例进行了详细的描述,本发明还提供了一种与该方法对应的分布式文件***集群节点的数据恢复装置及计算机可读存储介质,由于装置及计算机可读存储介质部分的实施例与方法部分的实施例相互照应,因此装置及计算机可读存储介质部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
图5为本发明实施例提供的一种分布式文件***集群节点的数据恢复装置的结构图,如图5所示,一种分布式文件***集群节点的数据恢复装置包括:
获取模块51,用于当集群节点出现故障时,获取集群节点中的故障OSD;
判断模块52,用于判断故障OSD的数量与集群节点中的OSD总量的比值是否大于或等于预设阈值;
执行模块53,用于若大于或等于,则保持故障OSD的故障状态。
本发明实施例提供的分布式文件***集群节点的数据恢复装置,具有上述分布式文件***集群节点的数据恢复方法的有益效果。
图6为本发明实施例提供的一种分布式文件***集群节点的数据恢复装置的结构图,如图6所示,一种分布式文件***集群节点的数据恢复装置包括:
存储器61,用于存储计算机程序;
处理器62,用于执行计算机程序时实现如上述分布式文件***集群节点的数据恢复方法的步骤。
本发明实施例提供的分布式文件***集群节点的数据恢复装置,具有上述分布式文件***集群节点的数据恢复方法的有益效果。
为解决上述技术问题,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述分布式文件***集群节点的数据恢复方法的步骤。
本发明实施例提供的计算机可读存储介质,具有上述分布式文件***集群节点的数据恢复方法的有益效果。
以上对本发明所提供的分布式文件***集群节点的数据恢复方法、装置及计算机可读存储介质进行了详细介绍。本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

Claims (9)

1.一种分布式文件***集群节点的数据恢复方法,其特征在于,包括:
当集群节点出现故障时,获取所述集群节点中的故障OSD;
判断所述故障OSD的数量与所述集群节点中的OSD总量的比值是否大于或等于预设阈值;
若大于或等于,则保持所述故障OSD的故障状态。
2.根据权利要求1所述的方法,其特征在于,所述当集群节点出现故障时,获取所述集群节点中的故障OSD具体为:
当集群节点出现故障时,获取所述集群节点中的所述故障OSD并开始计时;
对应的,所述保持所述故障OSD的故障状态具体为:
利用初始计时时间更新所述故障OSD的计时时间以保持所述故障OSD的所述故障状态。
3.根据权利要求2所述的方法,其特征在于,在所述判断所述故障OSD的数量与所述集群节点中的OSD总量的比值是否大于或等于预设阈值之后,进一步包括:
若小于,则判断所述故障OSD在预设时间阈值内是否开始正常工作;
若否,则复制与所述故障OSD对应的PG中的对象数据;
将所述对象数据存储至所述集群节点中除所述故障OSD之外的其他OSD中。
4.根据权利要求3所述的方法,其特征在于,在所述判断所述故障OSD是否在预设时间阈值内开始正常工作之后,进一步包括:
若是,则判断与所述故障OSD对应的PG中的对象数据在计时过程中是否发生变化;
若发生变化,则利用增量恢复方法将所述PG中的发生变化的对象数据复制到所述故障OSD中。
5.根据权利要求3所述的方法,其特征在于,所述判断所述故障OSD的数量与所述集群节点中的OSD总量的比值是否大于预设阈值具体为:
判断所述集群节点中所述故障OSD的数量是否等于所述OSD总量;
若等于,则进入所述保持所述故障OSD的故障状态的步骤。
6.根据权利要求1至5任一项所述的方法,其特征在于,在所述保持所述故障OSD的故障状态之后,进一步包括:
为保持所述故障状态的所述故障OSD设置标识信息。
7.一种分布式文件***集群节点的数据恢复装置,其特征在于,包括:
获取模块,用于当集群节点出现故障时,获取所述集群节点中的故障OSD;
判断模块,用于判断所述故障OSD的数量与所述集群节点中的OSD总量的比值是否大于或等于预设阈值;
执行模块,用于若大于或等于,则保持所述故障OSD的故障状态。
8.一种分布式文件***集群节点的数据恢复装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述的分布式文件***集群节点的数据恢复方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的分布式文件***集群节点的数据恢复方法的步骤。
CN201811333895.5A 2018-11-09 2018-11-09 分布式文件***集群节点的数据恢复方法、装置及介质 Active CN109213637B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811333895.5A CN109213637B (zh) 2018-11-09 2018-11-09 分布式文件***集群节点的数据恢复方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811333895.5A CN109213637B (zh) 2018-11-09 2018-11-09 分布式文件***集群节点的数据恢复方法、装置及介质

Publications (2)

Publication Number Publication Date
CN109213637A true CN109213637A (zh) 2019-01-15
CN109213637B CN109213637B (zh) 2022-03-04

Family

ID=64995772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811333895.5A Active CN109213637B (zh) 2018-11-09 2018-11-09 分布式文件***集群节点的数据恢复方法、装置及介质

Country Status (1)

Country Link
CN (1) CN109213637B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992206A (zh) * 2019-03-27 2019-07-09 新华三技术有限公司成都分公司 数据分布存储方法及相关装置
CN111064801A (zh) * 2019-12-26 2020-04-24 浪潮电子信息产业股份有限公司 一种基于分布式文件***的osd通信方法、装置及介质
CN111104283A (zh) * 2019-11-29 2020-05-05 浪潮电子信息产业股份有限公司 一种分布式存储***的故障检测方法、装置、设备及介质
CN111240894A (zh) * 2019-12-31 2020-06-05 中国建设银行股份有限公司 用于对基于Ceph的对象存储***进行故障分析的***和介质
CN112214466A (zh) * 2019-07-12 2021-01-12 海能达通信股份有限公司 分布式集群***及数据写入方法、电子设备、存储装置
CN112463434A (zh) * 2020-11-19 2021-03-09 苏州浪潮智能科技有限公司 一种基于纠删码的数据重构方法、装置、设备及存储介质
CN113722155A (zh) * 2021-11-01 2021-11-30 苏州浪潮智能科技有限公司 一种分布式文件***内数据备份及修复方法及相关组件
CN114443431A (zh) * 2022-01-25 2022-05-06 苏州浪潮智能科技有限公司 一种分布式存储***故障恢复方法、装置、设备及介质
CN115150415A (zh) * 2022-06-30 2022-10-04 联想(北京)有限公司 一种控制方法、装置、电子设备及存储介质

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090254720A1 (en) * 2005-09-30 2009-10-08 Gladwin S Christopher System for rebuilding dispersed data
CN101706805A (zh) * 2009-10-30 2010-05-12 中国科学院计算技术研究所 对象存储方法及其***
CN103051691A (zh) * 2012-12-12 2013-04-17 华为技术有限公司 分区分配方法、装置以及分布式存储***
CN103580902A (zh) * 2012-08-07 2014-02-12 腾讯科技(深圳)有限公司 一种计算机信息***及其动态容灾方法
CN103744859A (zh) * 2013-12-13 2014-04-23 北京奇虎科技有限公司 一种故障数据的下线方法及设备
CN103916483A (zh) * 2014-04-28 2014-07-09 中国科学院成都生物研究所 一种针对编码冗余存储***的自适应数据存储与重构方法
CN104158843A (zh) * 2014-07-14 2014-11-19 深圳市中博科创信息技术有限公司 分布式文件存储***的存储单元失效检测方法及装置
US20150154079A1 (en) * 2013-12-02 2015-06-04 Qbase, LLC Fault tolerant architecture for distributed computing systems
CN104735107A (zh) * 2013-12-20 2015-06-24 ***通信集团公司 分布式存储***中数据副本恢复方法及装置
US20150309902A1 (en) * 2014-04-25 2015-10-29 Fujitsu Limited Storage control device and data recovery method
CN105897499A (zh) * 2015-12-07 2016-08-24 乐视云计算有限公司 分布式存储***节点状态监控方法、中心节点及***
CN107026708A (zh) * 2016-02-02 2017-08-08 星辰天合(北京)数据科技有限公司 数据处理的方法和装置
CN107391317A (zh) * 2017-09-14 2017-11-24 郑州云海信息技术有限公司 一种数据恢复的方法、装置、设备及计算机可读存储介质
WO2018001110A1 (zh) * 2016-06-29 2018-01-04 中兴通讯股份有限公司 一种基于纠删码的存储数据重构方法和装置、存储节点
CN107729185A (zh) * 2017-10-26 2018-02-23 新华三技术有限公司 一种故障处理方法及装置
CN108287669A (zh) * 2018-01-26 2018-07-17 平安科技(深圳)有限公司 数据存储方法、装置及存储介质
US10049023B1 (en) * 2015-01-15 2018-08-14 Veritas Technologies Llc Optimizing application recovery in unmanaged clusters
CN108512908A (zh) * 2018-03-13 2018-09-07 山东超越数控电子股份有限公司 一种基于Ceph的云存储容错机制和基于Ceph的web管理平台
US20180285477A1 (en) * 2011-04-20 2018-10-04 Google Inc. Data backup in a graph processing system

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090254720A1 (en) * 2005-09-30 2009-10-08 Gladwin S Christopher System for rebuilding dispersed data
CN101706805A (zh) * 2009-10-30 2010-05-12 中国科学院计算技术研究所 对象存储方法及其***
US20180285477A1 (en) * 2011-04-20 2018-10-04 Google Inc. Data backup in a graph processing system
CN103580902A (zh) * 2012-08-07 2014-02-12 腾讯科技(深圳)有限公司 一种计算机信息***及其动态容灾方法
CN103051691A (zh) * 2012-12-12 2013-04-17 华为技术有限公司 分区分配方法、装置以及分布式存储***
US20150154079A1 (en) * 2013-12-02 2015-06-04 Qbase, LLC Fault tolerant architecture for distributed computing systems
CN103744859A (zh) * 2013-12-13 2014-04-23 北京奇虎科技有限公司 一种故障数据的下线方法及设备
CN104735107A (zh) * 2013-12-20 2015-06-24 ***通信集团公司 分布式存储***中数据副本恢复方法及装置
US20150309902A1 (en) * 2014-04-25 2015-10-29 Fujitsu Limited Storage control device and data recovery method
CN103916483A (zh) * 2014-04-28 2014-07-09 中国科学院成都生物研究所 一种针对编码冗余存储***的自适应数据存储与重构方法
CN104158843A (zh) * 2014-07-14 2014-11-19 深圳市中博科创信息技术有限公司 分布式文件存储***的存储单元失效检测方法及装置
US10049023B1 (en) * 2015-01-15 2018-08-14 Veritas Technologies Llc Optimizing application recovery in unmanaged clusters
CN105897499A (zh) * 2015-12-07 2016-08-24 乐视云计算有限公司 分布式存储***节点状态监控方法、中心节点及***
CN107026708A (zh) * 2016-02-02 2017-08-08 星辰天合(北京)数据科技有限公司 数据处理的方法和装置
WO2018001110A1 (zh) * 2016-06-29 2018-01-04 中兴通讯股份有限公司 一种基于纠删码的存储数据重构方法和装置、存储节点
CN107544862A (zh) * 2016-06-29 2018-01-05 中兴通讯股份有限公司 一种基于纠删码的存储数据重构方法和装置、存储节点
CN107391317A (zh) * 2017-09-14 2017-11-24 郑州云海信息技术有限公司 一种数据恢复的方法、装置、设备及计算机可读存储介质
CN107729185A (zh) * 2017-10-26 2018-02-23 新华三技术有限公司 一种故障处理方法及装置
CN108287669A (zh) * 2018-01-26 2018-07-17 平安科技(深圳)有限公司 数据存储方法、装置及存储介质
CN108512908A (zh) * 2018-03-13 2018-09-07 山东超越数控电子股份有限公司 一种基于Ceph的云存储容错机制和基于Ceph的web管理平台

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KATHRIN PETER 等: "Reliability Study of Coding Schemes for Wide-Area Distributed Storage Systems", 《2011 19TH INTERNATIONAL EUROMICRO CONFERENCE ON PARALLEL, DISTRIBUTED AND NETWORK-BASED PROCESSING》 *
周敬利 等: "改进的云存储***数据分布策略", 《计算机应用》 *
廖彬 等: "基于可用性度量的分布式文件***节点失效恢复算法", 《计算机科学》 *
蔺欣: "一种分布式对象存储***的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992206A (zh) * 2019-03-27 2019-07-09 新华三技术有限公司成都分公司 数据分布存储方法及相关装置
CN109992206B (zh) * 2019-03-27 2022-05-10 新华三技术有限公司成都分公司 数据分布存储方法及相关装置
CN112214466A (zh) * 2019-07-12 2021-01-12 海能达通信股份有限公司 分布式集群***及数据写入方法、电子设备、存储装置
CN111104283B (zh) * 2019-11-29 2022-04-22 浪潮电子信息产业股份有限公司 一种分布式存储***的故障检测方法、装置、设备及介质
CN111104283A (zh) * 2019-11-29 2020-05-05 浪潮电子信息产业股份有限公司 一种分布式存储***的故障检测方法、装置、设备及介质
CN111064801A (zh) * 2019-12-26 2020-04-24 浪潮电子信息产业股份有限公司 一种基于分布式文件***的osd通信方法、装置及介质
CN111064801B (zh) * 2019-12-26 2023-06-13 浪潮电子信息产业股份有限公司 一种基于分布式文件***的osd通信方法、装置及介质
CN111240894A (zh) * 2019-12-31 2020-06-05 中国建设银行股份有限公司 用于对基于Ceph的对象存储***进行故障分析的***和介质
CN111240894B (zh) * 2019-12-31 2023-11-14 中国建设银行股份有限公司 用于对基于Ceph的对象存储***进行故障分析的***和介质
CN112463434A (zh) * 2020-11-19 2021-03-09 苏州浪潮智能科技有限公司 一种基于纠删码的数据重构方法、装置、设备及存储介质
CN113722155A (zh) * 2021-11-01 2021-11-30 苏州浪潮智能科技有限公司 一种分布式文件***内数据备份及修复方法及相关组件
CN114443431A (zh) * 2022-01-25 2022-05-06 苏州浪潮智能科技有限公司 一种分布式存储***故障恢复方法、装置、设备及介质
CN114443431B (zh) * 2022-01-25 2024-05-10 苏州浪潮智能科技有限公司 一种分布式存储***故障恢复方法、装置、设备及介质
CN115150415A (zh) * 2022-06-30 2022-10-04 联想(北京)有限公司 一种控制方法、装置、电子设备及存储介质
CN115150415B (zh) * 2022-06-30 2024-04-19 联想(北京)有限公司 一种控制方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109213637B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN109213637A (zh) 分布式文件***集群节点的数据恢复方法、装置及介质
CN105187249B (zh) 一种故障恢复方法及装置
US9773015B2 (en) Dynamically varying the number of database replicas
EP2492813A2 (en) Method And Systems For Validating Accessibility And Currency Of Replicated Data
CN109582502A (zh) 存储***故障处理方法、装置、设备及可读存储介质
CN104935481A (zh) 一种分布式存储下基于冗余机制的数据恢复方法
CN108958991A (zh) 集群节点故障业务快速恢复方法、装置、设备及存储介质
CN108776579A (zh) 一种分布式存储集群扩容方法、装置、设备及存储介质
CN107967195A (zh) 一种基于双控存储的故障修复方法及***
CN109391691A (zh) 一种单节点故障下nas服务的恢复方法及相关装置
CN110659158A (zh) 基于双机热备环境的Influx DB数据备份方法
CN109684338A (zh) 一种存储***的数据更新方法
CN105357042A (zh) 一种高可用集群***及其主节点和从节点
CN106874214A (zh) 云硬盘资源的回收方法及相关装置
CN104516796A (zh) 一种基于命令集的网元备份与恢复方法及装置
CN109167690A (zh) 一种分布式***中节点服务的恢复方法、装置及相关设备
WO2013113220A1 (zh) 一种网管配置数据备份恢复功能的方法及装置
CN108319522A (zh) 一种加强分布式存储***可靠性的方法
CN108958965A (zh) 一种bmc监控可恢复ecc错误的方法、装置及设备
CN110134541A (zh) 存储集群的配置信息的切换方法、***、设备及存储介质
CN110046065A (zh) 一种存储阵列重建方法、装置、设备及存储介质
US20200348858A1 (en) Method, device and computer program product
CN108959547A (zh) 一种pv快照分布式数据库集群恢复方法
US20220045874A1 (en) Charging processing method and system, and related device
CN106713025B (zh) 一种用于信息同步的网络容灾方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant