CN113721848A - 一种基于纠删码的多节点调度修复方法及*** - Google Patents

一种基于纠删码的多节点调度修复方法及*** Download PDF

Info

Publication number
CN113721848A
CN113721848A CN202110956810.4A CN202110956810A CN113721848A CN 113721848 A CN113721848 A CN 113721848A CN 202110956810 A CN202110956810 A CN 202110956810A CN 113721848 A CN113721848 A CN 113721848A
Authority
CN
China
Prior art keywords
node
link
repair
bandwidth
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110956810.4A
Other languages
English (en)
Other versions
CN113721848B (zh
Inventor
冯丹
胡燏翀
周海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202110956810.4A priority Critical patent/CN113721848B/zh
Publication of CN113721848A publication Critical patent/CN113721848A/zh
Application granted granted Critical
Publication of CN113721848B publication Critical patent/CN113721848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0619Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • G06F11/1048Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices using arrangements adapted for a specific error detection or correction feature
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种基于纠删码的多节点调度修复方法及***,属于计算机存储领域,方法包括:获取当前网络带宽状态,包括各个节点之间的带宽;为每个失效节点选择对应的新生节点requestor以存储修复数据,并从所有幸存节点中为每一个失效节点选择k个helper节点;根据带宽大小,对所有候选链路进行从大到小排序;从排序后的候选链路中依次选择带宽最大的候选链路***到纠删码集群中,纠删码集群中最小链路带宽大于等于未***候选链路的带宽;根据候选链路的节点状态确定链路方向,纠删码完成对失效节点的修复任务。本发明可以充分利用带宽资源,提升失效节点的修复效率。

Description

一种基于纠删码的多节点调度修复方法及***
技术领域
本发明属于计算机存储领域,更具体地,涉及一种基于纠删码的多节点调度修复方法及***。
背景技术
随着信息技术的飞速发展,无时无刻都有海量的新数据产生并需要被持久化地存储下来。为了防止故障导致数据不可用,现有的大规模分布式存储***引入了纠删码以保持***可靠性并降低存储成本。
现有的纠删码集群处在一个异构网络中,因此,集群中节点之间的最低带宽链路阻碍了修复进程,并且许多存储设备可能同时出现故障,网络故障可能导致多台服务器断开连接及其数据不可用。因此,加速多节点的恢复也很重要。
传统的多节点修复采用简单的顺序修复方法;该方法存在各个受损节点不能并行修复的问题;当前有一些研究针对在异构的网络环境中实现纠删码的多节点快速修复技术,例如parallel pipeline cross-tree(PPCT),通过与所有的helper分担多个requestor的带宽从而降低修复时间,但是该方法会导致网络的拥塞与竞争问题,修复并行度不高;因此,针对云存储中带宽异构的环境且存在的低带宽链路阻碍修复时间的情况,提出一个快速的多节点修复技术以修复数据,保证云存储中数据的可靠性是十分重要且有意义的。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于纠删码的多节点调度修复方法及***,旨在解决现有的低带宽链路阻碍纠删码快速修复数据,导致数据修复效率较低的问题。
为实现上述目的,一方面,本发明提供了一种基于纠删码的多节点调度修复方法,包括以下步骤:
获取当前网络带宽状态,包括各个节点之间的带宽;
为每个失效节点选择对应的新生节点requestor以存储修复数据,并从所有幸存节点中为每一个失效节点选择k个helper节点;其中,k为原始数据块;
根据带宽大小,对所有候选链路进行从大到小排序;其中,候选链路表示链路的两个节点为失效节点对应的不同helper节点;
从排序后的候选链路中依次选择带宽最大的候选链路***到纠删码集群中,纠删码集群中最小链路带宽大于等于未***候选链路的带宽;
根据候选链路的节点状态确定链路方向,纠删码完成对失效节点的修复任务。
优选地,采用iperf或心跳机制获取当前网络带宽状态;
优选地,根据候选链路的节点状态确定链路方向的方法为:
若候选链路中包含受损节点Nf,则受损节点Nf为下载节点且链路的修复任务为Nf
且若候选链路中的一个节点已经作为上传节点,且修复任务为修复受损节点Nf;则上传节点可继续作为一个下载节点,且修复任务为修复受损节点Nr;其中,Nr≠Nf
优选地,采用空闲节点绕过最低带宽链路,具体方法为:
从候选链路中选取最低带宽链路;
从纠删码集群中条带外的空闲节点中选择满足带宽条件的空闲节点;
利用空闲节点构建候选链路,替代最低带宽链路,利用多级转发绕过最低带宽链路以加速修复失效节点;
满足带宽条件的空闲节点为:对失效节点的第一修复时间小于对失效节点的第二修复时间;第一修复时间为利用空闲节点构建的多级候选链路***纠删码,对失效节点的修复时间;第二修复时间为将最低带宽链路***纠删码,对失效节点的修复时间。
优选地,新生节点的选择方法为:
若失效磁盘可以读写数据时,则失效节点可以作为新生节点requestor;否则,只能选择条带外的节点作为新生节点requestor。
另一方面,本发明提供了一种基于纠删码的多节点调度修复***,包括:
带宽获取模块,用于获取当前网络带宽状态,包括各个节点之间的带宽;
节点选择模块,用于为每个失效节点选择对应的新生节点requestor以存储修复数据,并从所有幸存节点中为每一个失效节点选择k个helper节点;其中,k为原始数据块;
排序模块,用于根据带宽大小,对所有候选链路进行从大到小排序;其中,候选链路表示链路的两个节点为失效节点对应的不同helper节点;
***模块,用于从排序后的候选链路中依次选择带宽最大的候选链路***到纠删码集群中,纠删码集群中最小链路带宽大于等于未***候选链路的带宽;
修复模块,用于根据候选链路的节点状态确定链路方向,纠删码完成对失效节点的修复任务。
优选地,带宽获取模块采用iperf或心跳机制获取当前网络带宽状态。
优选地,修复模块根据候选链路的节点状态确定链路方向的方法为:
若候选链路中包含受损节点Nf,则受损节点Nf为下载节点且链路的修复任务为Nf
且若候选链路中的一个节点已经作为上传节点,且修复任务为修复受损节点Nf;则上传节点可继续作为一个下载节点,且修复任务为修复受损节点Nr;其中,Nr≠Nf
优选地,基于纠删码的多节点调度修复***,还包括空闲节点构建链路模块,用于采用空闲节点绕过最低带宽链路,具体执行过程为:
从候选链路中选取最低带宽链路;
从纠删码集群中条带外的空闲节点中选择满足带宽条件的空闲节点;
利用空闲节点构建候选链路,替代最低带宽链路,利用多级转发绕过最低带宽链路以加速修复失效节点;
满足带宽条件的空闲节点为:对失效节点的第一修复时间小于对失效节点的第二修复时间;第一修复时间为利用空闲节点构建的多级候选链路***纠删码,对失效节点的修复时间;第二修复时间为将最低带宽链路***纠删码,对失效节点的修复时间。
优选地,节点选择模块包括新生节点单元,用于新生节点的选择,其具体执行方法为:
若失效磁盘可以读写数据时,则失效节点可以作为新生节点requestor;否则,只能选择条带外的节点作为新生节点requestor。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明所提供的基于纠删码的多节点调度修复方法,根据带宽大小,对所有候选链路进行从大到小排序,从排序后的候选链路中依次选择带宽最大的候选链路***到纠删码集群中,尽可能使用大的带宽链路以并行修复多个受损节点,根据带宽状态进行修复失效节点可最大化每个时间戳的最小带宽链路,从而可以充分利用带宽资源,提升失效节点的修复效率。
本发明所提供的基于纠删码的多节点调度修复方法,使用空闲节点绕过每个修复方案的最低带宽链路,进一步降低了修复时间,大幅提升了修复性能,提升了整个***的可靠性。
附图说明
图1是本发明实施例提供的各个节点之间的带宽示意图;
图2是本发明实施例提供的修复节点1和节点2的方法示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面介绍下本发明需要了解的基本概念:
在一个基于纠删码RS(n,k)的储存***中,一个文件被分为k个原始数据块,原始数据块通过编码矩阵被编码成n个总数据块,其中,n=m+k;m为校验块个数;n个总数据块的集合称为条带,其中,n个数据块分布在n个存储节点上,可以容忍任何n-k节点故障;同时处于该条带外的节点被称为空闲节点,这些空闲节点并不会参与数据修复过程的编码计算,其带宽资源处于空闲状态。
一方面,本发明提供了一种基于纠删码的多节点调度修复方法,包括以下步骤:
获取当前网络带宽状态,包括各个节点之间的带宽;
为每个失效节点选择对应的新生节点requestor以存储修复数据,并从所有幸存节点中为每一个失效节点选择k个helper节点;其中,k为原始数据块;
根据带宽大小,对所有候选链路进行从大到小排序;其中,候选链路表示链路的两个节点为失效节点对应的不同helper节点;
从排序后的候选链路中依次选择带宽最大的候选链路***到纠删码集群中,纠删码集群中最小链路带宽大于等于未***候选链路的带宽;
根据候选链路的节点状态确定链路方向,纠删码完成对失效节点的修复任务。
优选地,采用iperf或心跳机制获取当前网络带宽状态;
优选地,根据候选链路的节点状态确定链路方向的方法为:
若候选链路中包含受损节点Nf,则受损节点Nf为下载节点且链路的修复任务为Nf
且若候选链路中的一个节点已经作为上传节点,且修复任务为修复受损节点Nf;则上传节点可继续作为一个下载节点,且修复任务为修复受损节点Nr;其中,Nr≠Nf
优选地,采用空闲节点绕过最低带宽链路,具体方法为:
从候选链路中选取最低带宽链路;
从纠删码集群中条带外的空闲节点中选择满足带宽条件的空闲节点;
利用空闲节点构建候选链路,替代最低带宽链路,利用多级转发绕过最低带宽链路以加速修复失效节点;
满足带宽条件的空闲节点为:对失效节点的第一修复时间小于对失效节点的第二修复时间;第一修复时间为利用空闲节点构建的多级候选链路***纠删码,对失效节点的修复时间;第二修复时间为将最低带宽链路***纠删码,对失效节点的修复时间。
优选地,新生节点的选择方法为:
若失效磁盘可以读写数据时,则失效节点可以作为新生节点requestor;否则,只能选择条带外的节点作为新生节点requestor。
另一方面,本发明提供了一种基于纠删码的多节点调度修复***,包括:
带宽获取模块,用于获取当前网络带宽状态,包括各个节点之间的带宽;
节点选择模块,用于为每个失效节点选择对应的新生节点requestor以存储修复数据,并从所有幸存节点中为每一个失效节点选择k个helper节点;其中,k为原始数据块;
排序模块,用于根据带宽大小,对所有候选链路进行从大到小排序;其中,候选链路表示链路的两个节点为失效节点对应的不同helper节点;
***模块,用于从排序后的候选链路中依次选择带宽最大的候选链路***到纠删码集群中,纠删码集群中最小链路带宽大于等于未***候选链路的带宽;
修复模块,用于根据候选链路的节点状态确定链路方向,纠删码完成对失效节点的修复任务。
优选地,带宽获取模块采用iperf或心跳机制获取当前网络带宽状态。
优选地,修复模块根据候选链路的节点状态确定链路方向的方法为:
若候选链路中包含受损节点Nf,则受损节点Nf为下载节点且链路的修复任务为Nf
且若候选链路中的一个节点已经作为上传节点,且修复任务为修复受损节点Nf;则上传节点可继续作为一个下载节点,且修复任务为修复受损节点Nr;其中,Nr≠Nf
优选地,基于纠删码的多节点调度修复***,还包括空闲节点构建链路模块,用于采用空闲节点绕过最低带宽链路,具体执行过程为:
从候选链路中选取最低带宽链路;
从纠删码集群中条带外的空闲节点中选择满足带宽条件的空闲节点;
利用空闲节点构建候选链路,替代最低带宽链路,利用多级转发绕过最低带宽链路以加速修复失效节点;
满足带宽条件的空闲节点为:对失效节点的第一修复时间小于对失效节点的第二修复时间;第一修复时间为利用空闲节点构建的多级候选链路***纠删码,对失效节点的修复时间;第二修复时间为将最低带宽链路***纠删码,对失效节点的修复时间。
优选地,节点选择模块包括新生节点单元,用于新生节点的选择,其具体执行方法为:
若失效磁盘可以读写数据时,则失效节点可以作为新生节点requestor;否则,只能选择条带外的节点作为新生节点requestor。
实施例
如图2所示,是一个RS(6,4)的例子,N1~N2为4个原始数据节点;N5和N6是编码后生成的2个校验节点,一共6个节点构成一个条带;当N1和N2节点失效时,选择原始失效节点N1和N2为requestor节点,从剩余四个节点选择候选链路可以恢复失效节点,本实施例中对于每个失效节点选择N3~N6节点参与修复;
本实施例提供的基于纠删码的多节点调度修复方法,包括以下步骤:
S1:使用iperf或心跳机制以获取当前网络带宽状况,包括各个节点之间的带宽,如图1所示;
S2:为每个失效节点选择一个新生节点requestor以存储修复数据,并从所有幸存节点中为每一个失效节点选择k个helper节点;如图2所示,将N1和N2作为新生节点存储恢复出的数据;
S3:所有候选链路根据带宽从大到小进行排序;其中,候选链路表示链路的两个节点由每个失效节点对应的helper节点构成,在该部链路的修复任务和修复方法尚未确定;
如图2所示,将N3~N6节点之间的候选链路按照带宽从大到小进行排序,例如helper节点3和helper节点4构成的候选链路的带宽为6MB/s,该候选链路的带宽是最大的;
S4:从排序后的候选链路中依次选择带宽最大的链路***到纠删码集群中,使得***后集群中最小链路带宽是最大的;
如图2所示,按照对候选节点的排序,步骤1***helper节点3和helper节点4构成的候选链路3-4,此时链路的方向与修复任务尚未确定;步骤2从排序好的候选链路中选择helper节点2和helper节点4构成的候选链路2-4***到集群中;
通过每次获取最大带宽的候选链路***到集群中,可以保证每次***后集群中最小链路带宽是最大的;
S5:根据候选链路的节点状态确定链路方向,纠删码完成对失效节点的修复任务。
具体地,S5中确定链路方向的方法为:
候选链路中包含受损节点Nf,则Nf为下载节点且链路的修复任务为Nf;如图2中的步骤2,在***由helper节点2和helper节点4构成的候选链路2-4时,由于节点2为受损节点,因此节点2为下载节点,节点4为上传节点,构建的链路方向为由节点4指向节点2;
或候选链路中的一个节点已经作为一个上传(下载)节点,且修复任务为修复Nf,则上述节点可继续作为一个下载(上传)节点,且修复任务为Nr(Nr≠Nf);如图2中的步骤5,在***由helper节点6和helper节点5构成的候选链路6-5,节点5作为候选链路5-1的上传节点,且修复任务为节点1,因此***候选链路6-5时,节点5可以作为下载节点,构建的候选链路6-5的链路方向为节点6指向节点5,同时修复任务为修复节点2;
优选地,采用空闲节点绕过最低带宽链路,具体包括如下步骤:
(1)从所有候选链路中获取最低带宽链路;
例如,图2中的时间戳1生成的修复方案中最低带宽链路为链路5-1,链路带宽为4MB/s;
(2)从集群中条带外的空闲节点中选择满足带宽条件的节点;
例如,在条带外寻找到满足带宽条件的空闲节点I,候选链路A从节点5出发,到达空闲节点I;候选链路B从空闲节点到达节点1;候选链路C从节点5出发到达节点1;候选链路A与候选链路B叠加***纠删码,对失效节点的修复时间为t1;候选链路C***纠删码,对失效节点的修复时间为t2;如果t1<t2,则认为空闲节点I是满足带宽条件的,采用候选链路A与候选链路B叠加的方式替代候选链路C,可以减少修复过程中因最低带宽链路而导致的修复时间;利用空闲节点可以实现多级转发以绕过低带宽链路,加速修复失效节点。
需指出,在本实施例中数据块只是通过空闲节点进行缓冲后转发,并不进行计算等过程。
本实施例在数据发生丢失时,根据当前的网络状况调度多个受损节点的并行修复以及采用空闲节点绕过最低带宽链路进行修复,充分利用了节点的高带宽资源以快速修复数据。
在本实施例中,基于上述纠删码的多节点调度修复方法,可以根据当前的网络状况以生成一个修复方法使得最大化最小带宽链路;
总体而言,本发明所提供的基于纠删码的多节点调度修复方法,可以在带宽异构的网络环境下进行快速的修复。实验表明,相对于当前最优PPCT而言,本发明可以显著提升多节点修复性能。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于纠删码的多节点调度修复方法,其特征在于,包括以下步骤:
获取当前网络带宽状态,包括各个节点之间的带宽;
为每个失效节点选择对应的新生节点requestor以存储修复数据,并从所有幸存节点中为每一个失效节点选择k个helper节点;其中,k为原始数据块;
根据带宽大小,对所有候选链路进行从大到小排序;其中,候选链路表示链路的两个节点为失效节点对应的不同helper节点;
从排序后的候选链路中依次选择带宽最大的候选链路***到纠删码集群中,纠删码集群中最小链路带宽大于等于未***候选链路的带宽;
根据候选链路的节点状态确定链路方向,纠删码完成对失效节点的修复任务。
2.根据权利要求1所述的多节点调度修复方法,其特征在于,采用iperf或心跳机制获取当前网络带宽状态。
3.根据权利要求1或2所述的多节点调度修复方法,其特征在于,根据候选链路的节点状态确定链路方向的方法为:
若候选链路中包含受损节点Nf,则受损节点Nf为下载节点且链路的修复任务为Nf
且若候选链路中的一个节点已经作为上传节点,且修复任务为修复受损节点Nf;则所述上传节点可继续作为一个下载节点,且修复任务为修复受损节点Nr;其中,Nr≠Nf
4.根据权利要求1所述的多节点调度修复方法,其特征在于,采用空闲节点绕过最低带宽链路,方法包括以下步骤:
从候选链路中选取最低带宽链路;
从纠删码集群中条带外的空闲节点中选择满足带宽条件的空闲节点;
利用空闲节点构建候选链路,替代最低带宽链路,利用多级转发绕过最低带宽链路以加速修复失效节点;
满足带宽条件的空闲节点为:对失效节点的第一修复时间小于对失效节点的第二修复时间;第一修复时间为利用空闲节点构建的多级候选链路***纠删码,对失效节点的修复时间;第二修复时间为将最低带宽链路***纠删码,对失效节点的修复时间。
5.根据权利要求1或4所述的多节点调度修复方法,其特征在于,新生节点的选择方法为:
若失效磁盘可以读写数据时,则失效节点可以作为新生节点requestor;否则,只能选择条带外的节点作为新生节点requestor。
6.一种基于纠删码的多节点调度修复***,其特征在于,包括:
带宽获取模块,用于获取当前网络带宽状态,包括各个节点之间的带宽;
节点选择模块,用于为每个失效节点选择对应的新生节点requestor以存储修复数据,并从所有幸存节点中为每一个失效节点选择k个helper节点;其中,k为原始数据块;
排序模块,用于根据带宽大小,对所有候选链路进行从大到小排序;其中,候选链路表示链路的两个节点为失效节点对应的不同helper节点;
***模块,用于从排序后的候选链路中依次选择带宽最大的候选链路***到纠删码集群中,纠删码集群中最小链路带宽大于等于未***候选链路的带宽;
修复模块,用于根据候选链路的节点状态确定链路方向,纠删码完成对失效节点的修复任务。
7.根据权利要求6所述的多节点调度修复***,其特征在于,所述带宽获取模块采用iperf或心跳机制获取当前网络带宽状态。
8.根据权利要求6或7所述的多节点调度修复***,其特征在于,所述修复模块根据候选链路的节点状态确定链路方向的方法为:
若候选链路中包含受损节点Nf,则受损节点Nf为下载节点且链路的修复任务为Nf
且若候选链路中的一个节点已经作为上传节点,且修复任务为修复受损节点Nf;则所述上传节点可继续作为一个下载节点,且修复任务为修复受损节点Nr;其中,Nr≠Nf
9.根据权利要求8所述的多节点调度修复***,其特征在于,还包括空闲节点构建链路模块,用于采用空闲节点绕过最低带宽链路,具体执行过程为:
从候选链路中选取最低带宽链路;
从纠删码集群中条带外的空闲节点中选择满足带宽条件的空闲节点;
利用空闲节点构建候选链路,替代最低带宽链路,利用多级转发绕过最低带宽链路以加速修复失效节点;
满足带宽条件的空闲节点为:对失效节点的第一修复时间小于对失效节点的第二修复时间;第一修复时间为利用空闲节点构建的多级候选链路***纠删码,对失效节点的修复时间;第二修复时间为将最低带宽链路***纠删码,对失效节点的修复时间。
10.根据权利要求6或9所述的多节点调度修复***,其特征在于,所述节点选择模块包括新生节点单元,用于新生节点的选择,其具体执行方法为:
若失效磁盘可以读写数据时,则失效节点可以作为新生节点requestor;否则,只能选择条带外的节点作为新生节点requestor。
CN202110956810.4A 2021-08-19 2021-08-19 一种基于纠删码的多节点调度修复方法及*** Active CN113721848B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110956810.4A CN113721848B (zh) 2021-08-19 2021-08-19 一种基于纠删码的多节点调度修复方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110956810.4A CN113721848B (zh) 2021-08-19 2021-08-19 一种基于纠删码的多节点调度修复方法及***

Publications (2)

Publication Number Publication Date
CN113721848A true CN113721848A (zh) 2021-11-30
CN113721848B CN113721848B (zh) 2024-02-09

Family

ID=78676932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110956810.4A Active CN113721848B (zh) 2021-08-19 2021-08-19 一种基于纠删码的多节点调度修复方法及***

Country Status (1)

Country Link
CN (1) CN113721848B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114143174A (zh) * 2021-11-30 2022-03-04 深信服科技股份有限公司 一种节点修复方法、装置、设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103645861A (zh) * 2013-12-03 2014-03-19 华中科技大学 一种纠删码集群中失效节点的重构方法
CN109889440A (zh) * 2019-02-20 2019-06-14 哈尔滨工程大学 一种基于最大生成树的纠删码失效节点重构路径选择方法
CN110178122A (zh) * 2018-07-10 2019-08-27 深圳花儿数据技术有限公司 分布式存储***的数据同步修复方法及存储介质
US20200348855A1 (en) * 2019-05-02 2020-11-05 Vast Data Ltd. System and method for using free space to improve erasure code locality
CN112445656A (zh) * 2020-12-14 2021-03-05 北京京航计算通讯研究所 分布式存储***中数据的修复方法及装置
CN112714031A (zh) * 2021-03-29 2021-04-27 中南大学 一种基于带宽感知的故障节点快速修复方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103645861A (zh) * 2013-12-03 2014-03-19 华中科技大学 一种纠删码集群中失效节点的重构方法
CN110178122A (zh) * 2018-07-10 2019-08-27 深圳花儿数据技术有限公司 分布式存储***的数据同步修复方法及存储介质
CN109889440A (zh) * 2019-02-20 2019-06-14 哈尔滨工程大学 一种基于最大生成树的纠删码失效节点重构路径选择方法
US20200348855A1 (en) * 2019-05-02 2020-11-05 Vast Data Ltd. System and method for using free space to improve erasure code locality
CN112445656A (zh) * 2020-12-14 2021-03-05 北京京航计算通讯研究所 分布式存储***中数据的修复方法及装置
CN112714031A (zh) * 2021-03-29 2021-04-27 中南大学 一种基于带宽感知的故障节点快速修复方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114143174A (zh) * 2021-11-30 2022-03-04 深信服科技股份有限公司 一种节点修复方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN113721848B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN108540520B (zh) 基于部分重复码的局部性修复编码及节点故障修复方法
US9785498B2 (en) Archival storage and retrieval system
CN103688515B (zh) 一种最小带宽再生码的编码和存储节点修复方法
CN103209210B (zh) 一种提高基于纠删码的存储集群恢复性能的方法
CN107003933B (zh) 部分复制码的构建方法、装置及其数据修复的方法
CN107704728B (zh) 一种基因序列比对的云计算加速方法
CN109491835B (zh) 一种基于动态分组码的数据容错方法
CN112835738B (zh) 一种条带数据存储结构的构建方法
CN110597655B (zh) 迁移和基于纠删码的重构相耦合快速预知修复方法及装置
US9250996B2 (en) Multicore type error correction processing system and error correction processing apparatus
Tebbi et al. A code design framework for multi-rack distributed storage
CN109889440A (zh) 一种基于最大生成树的纠删码失效节点重构路径选择方法
CN110895497B (zh) 一种分布式存储中降低纠删码修复的方法及装置
CN113721848B (zh) 一种基于纠删码的多节点调度修复方法及***
CN107797884A (zh) 一种基于复制和纠删码自适应切换的云存储容错方法
CN108199720B (zh) 一种减小存储开销和提高修复效率的节点修复方法及***
CN108628697B (zh) 一种基于二进制的节点修复方法及***
Li et al. Parallelizing degraded read for erasure coded cloud storage systems using collective communications
CN115061640B (zh) 一种容错分布存储***、方法、电子设备及介质
Li et al. RE-store: Reliable and efficient KV-store with erasure coding and replication
WO2018209541A1 (zh) 基于t-设计的部分重复码的编码结构以及构造方法
CN110781024A (zh) 对称部分重复码的矩阵构造方法及故障节点修复方法
CN112732203B (zh) 一种再生码构造方法、文件重构方法及节点修复方法
Zhao et al. G-update: A group-based update scheme for heterogenous erasure-coded storage systems
CN113504875A (zh) 一种基于多级调度的纠删码***恢复方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant