CN110764690A - 分布式存储***及其领导节点选举方法和装置 - Google Patents

分布式存储***及其领导节点选举方法和装置 Download PDF

Info

Publication number
CN110764690A
CN110764690A CN201810850568.0A CN201810850568A CN110764690A CN 110764690 A CN110764690 A CN 110764690A CN 201810850568 A CN201810850568 A CN 201810850568A CN 110764690 A CN110764690 A CN 110764690A
Authority
CN
China
Prior art keywords
data storage
node
election
information
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810850568.0A
Other languages
English (en)
Other versions
CN110764690B (zh
Inventor
陈希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810850568.0A priority Critical patent/CN110764690B/zh
Publication of CN110764690A publication Critical patent/CN110764690A/zh
Application granted granted Critical
Publication of CN110764690B publication Critical patent/CN110764690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0619Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种分布式存储***及其领导节点选举方法和装置,该分布式存储***包括多个数据存储设备,数据存储设备关联有对应的主控进程,主控进程用于将关联的数据存储设备划分以形成多个数据存储节点,并为各数据存储节点配置相应的控制线程,控制线程用于:若其对应的数据存储节点不是领导节点,且未在时长阈值内、接收到该数据存储节点所属节点组中领导节点发送的心跳消息,则确定该数据存储节点为候选节点,向该节点组中其他数据存储节点发送第一竞选信息,以指示该节点组中其他数据存储节点根据第一竞选信息反馈相应的第一应答信息,并根据第一应答信息,确定该数据存储节点是否被选择为该节点组的领导节点。

Description

分布式存储***及其领导节点选举方法和装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种分布式存储***及其领导节点选举方法和装置。
背景技术
分布式存储***是一种当前较为热门的数据存储技术,分布式存储***中,可以利用位于不同地理位置的多个数据存储设备中的存储空间组建出一个虚拟的存储空间,在该虚拟的存储空间中实现数据存储,以将数据分散的存储在各个数据存储设备中。
随着数据存储量的增大,分布式存储***需要保证高可靠性,比如,当分布式存储***中出现大量的数据存储设备宕机时,分布式存储***需要尽量保证其他数据存储设备的数据存储性能不受影响,以保证上游业务的顺利运行。
基于此,有必要提供一种技术方案,以提高分布式存储***的可靠性。
发明内容
本申请实施例的目的是提供一种分布式存储***及其领导节点选举方法和装置,以提高分布式存储***的可靠性。
为达到上述技术目的,本申请实施例是这样实现的:
第一方面,本申请实施例提供了一种用于分布式存储***的领导节点选举方法,所述分布式存储***包括多个数据存储设备,所述数据存储设备关联有对应的主控进程,所述主控进程用于将关联的数据存储设备划分以形成多个数据存储节点,并为各数据存储节点配置相应的控制线程,所述方法包括:
若所述数据存储节点不是领导节点,且对应的控制线程未在时长阈值内、接收到所述数据存储节点所属节点组中领导节点发送的心跳消息,则确定所述数据存储节点为所属节点组中的候选节点,其中,该节点组中的各数据存储节点用于存储相同的数据并分别位于不同的数据存储设备;
通过所述数据存储节点对应的控制线程,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息,以指示该节点组中其他数据存储节点对应的控制线程根据所述第一竞选信息反馈相应的第一应答信息,并根据反馈的第一应答信息,确定所述数据存储节点是否被选择为该节点组的领导节点。
第二方面,本申请实施例提供了一种分布式存储***,包括:多个数据存储设备,所述数据存储设备关联有对应的主控进程;
所述主控进程,用于将关联的数据存储设备划分以形成多个数据存储节点,并为各数据存储节点配置相应的控制线程;
所述控制线程,用于若对应的数据存储节点不是领导节点,且未在时长阈值内、接收到所述数据存储节点所属节点组中领导节点发送的心跳消息,则确定所述数据存储节点为所属节点组中的候选节点,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息,以指示该节点组中其他数据存储节点对应的控制线程根据所述第一竞选信息反馈相应的第一应答信息,并根据反馈的第一应答信息,确定所述数据存储节点是否被选择为该节点组的领导节点;
其中,该节点组中的各数据存储节点用于存储相同的数据并分别位于不同的数据存储设备。
第三方面,本申请实施例提供了一种用于分布式存储***的领导节点选举装置,所述分布式存储***包括多个数据存储设备,所述数据存储设备关联有对应的主控进程,所述主控进程用于将关联的数据存储设备划分以形成多个数据存储节点,并为各数据存储节点配置相应的控制线程,所述装置包括:
确定模块,用于若所述数据存储节点不是领导节点,且对应的控制线程未在时长阈值内、接收到所述数据存储节点所属节点组中领导节点发送的心跳消息,则确定所述数据存储节点为所属节点组中的候选节点,其中,该节点组中的各数据存储节点用于存储相同的数据并分别位于不同的数据存储设备;
节点选举模块,用于通过所述数据存储节点对应的控制线程,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息,以指示该节点组中其他数据存储节点对应的控制线程根据所述第一竞选信息反馈相应的第一应答信息,并根据反馈的第一应答信息,确定所述数据存储节点是否被选择为该节点组的领导节点。
第四方面,本申请实施例提供了一种用于分布式存储***的领导节点选举设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述第一方面所述的领导节点选举方法。
第五方面,本申请实施例提供了一种存储介质,用于存储计算机可执行指令,所述可执行指令在被执行时实现上述第一方面所述的领导节点选举方法。
通过本实施例中的技术方案,领导节点的选举过程能够由每个数据存储节点对应的控制线程维护,从而达到将领导节点的选举工作下放到每个数据存储设备的效果,保证当领导节点所在的数据存储设备宕机后,其他数据存储设备能够自发的进行领导节点的选举,从而使得分布式存储***的数据存储进程不受影响,提高分布式存储***的可靠性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的分布式存储***的结构示意图;
图2a为本申请一实施例提供的主控进程将关联的数据存储设备划分以形成多个数据存储节点的一个示意图;
图2b为本申请一实施例提供的主控进程将关联的数据存储设备划分以形成多个数据存储节点的另一个示意图;
图3为本申请另一实施例提供的分布式存储***的结构示意图;
图4为本申请一实施例提供的领导节点选举方法的流程示意图
图5a为本申请一实施例提供的领导节点竞选流程示意图,;
图5b为本申请一实施例提供的领导节点竞选流程示意图;
图5为本申请另一实施例提供的分布式存储***的结构示意图;
图6为本申请另一实施例提供的分布式存储***的结构示意图;
图7为本申请一实施例提供的领导节点选举装置的结构示意图;
图8为本申请一实施例提供的领导节点选举设备的结果示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请实施例提供了一种分布式存储***及其领导节点选举方法和装置,以提高分布式存储***的可靠性。
图1为本申请一实施例提供的分布式存储***的结构示意图,如图1所示,该分布式存储***包括多个数据存储设备,如图1中所示的数据存储设备11、12、13、14、15等,数据存储设备关联有对应的主控进程,如图1中的主控进程100,主控进程用于将关联的数据存储设备划分以形成多个数据存储节点,如图1中的数据存储节点1001、1002、1003、1004等,主控进程还为各个数据存储节点配置相应的控制线程,如图1中的控制线程10001、10002、10003、10004等。在一个具体的实施例中,分布式存储***中的每个数据存储设备均关联有对应的主控进程。
在图1所示的***中,数据存储设备具有对应的数据存储空间,主控进程将关联的数据存储设备划分以形成多个数据存储节点,具体可以为,主控进程将关联的数据存储设备的数据存储空间划分为多份,并将每份抽象成一个数据存储节点,从而将关联的数据存储设备划分以形成多个数据存储节点。
图2a为本申请一实施例提供的主控进程将关联的数据存储设备划分以形成多个数据存储节点的一个示意图,图2b为本申请一实施例提供的主控进程将关联的数据存储设备划分以形成多个数据存储节点的另一个示意图,如图2a和图2b所示,主控进程获取关联的数据存储设备的数据存储空间的大小,如10T,主控进程按照每2T存储空间对应一个数据存储节点的方式,将关联的数据存储设备划分以形成5个数据存储节点。
本实施例中,数据存储设备在存储数据时,确定数据对应的数据存储节点,将数据存储在该数据存储节点所对应的数据存储空间中。
本申请实施例中,还将位于不同的数据存储设备中的数据存储节点选取出来组成节点组,该节点组中的某个数据存储节点为领导节点(leader),其余数据存储节点为跟随节点(follower),该节点组中的各个数据存储节点用于存储相同的数据。图3为本申请另一实施例提供的分布式存储***的结构示意图,如图3所示,以三个数据存储设备为例,将这三个数据存储设备中的第一数据存储节点均选取出来,组成第一节点组,并确定其中某个第一数据存储节点为领导节点,以及,将这三个数据存储设备中的第二数据存储节点均选取出来,组成第二节点组,并确定其中某个第二数据存储节点为领导节点,以及,将这三个数据存储设备中的第三数据存储节点均选取出来,组成第三节点组,并确定其中某个第三数据存储节点为领导节点。在进行数据分布式存储时,领导节点在获取到数据存储请求后,在对应的数据存储空间中存储数据,并通知其他的follower数据存储节点同样在对应的数据存储空间中存储相同的数据,从而达到一份数据在不同数据存储设备中分布式存储的目的。
本分布式存储***中,每个数据存储节点均被主控进程配置对应的控制线程,主控进程和其配置的控制线程共享内存,主控进程配置的控制线程可以看作该主控进程生成的线程对象。控制线程用于维护节点组的领导节点选举工作,控制线程可以确定对应的数据存储节点归属的节点组,并在该节点组中不存在领导节点时,维护该节点组的领导节点选举工作。
基于以上介绍的分布式数据存储***,图4为本申请一实施例提供的领导节点选举方法的流程示意图,如图4所示,该流程包括以下步骤:
步骤S402,若数据存储节点不是领导节点,且对应的控制线程未在时长阈值内、接收到该数据存储节点所属节点组中领导节点发送的心跳消息,则确定该数据存储节点为所属节点组中的候选节点,其中,该节点组中的各数据存储节点用于存储相同的数据并分别位于不同的数据存储设备;
步骤S404,通过该数据存储节点对应的控制线程,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息,以指示该节点组中其他数据存储节点对应的控制线程根据第一竞选信息反馈相应的第一应答信息,并根据反馈的第一应答信息,确定该数据存储节点是否被选择为该节点组的领导节点。
本实施例中,各个数据存储设备中的主控进程之间可以进行RPC(RemoteProcedure Call Protocol,远程过程调用协议)通信,当节点组中存在领导节点时,该领导节点对应的主控进程,会定期通过RPC通信,向节点组中的其他数据存储节点所对应的主控进程,发送心跳消息,由于主控进程和其配置的控制线程共享内存,因此该节点组中的其他数据存储节点对应的控制线程,能够获取该心跳消息,从而获知该节点组中存在领导节点。
本实施例中,若数据存储节点不是领导节点,且其对应的控制线程未在时长阈值内,获取到该数据存储节点所属节点组中领导节点发送的心跳消息,则该数据存储节点对应的控制线程确定该数据存储节点为所属节点组中的候选节点。
该数据存储节点对应的控制线程,可以向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息,第一竞选信息包括该数据存储节点对应的已接收数据存储请求的数量和竞选权重,该数据存储节点对应的已接收数据存储请求的数量为该数据存储节点对应的控制线程的已接受数据存储请求的数量,该数据存储节点对应的控制线程还指示该节点组中其他数据存储节点对应的控制线程根据第一竞选信息反馈相应的第一应答信息,第一应答信息包括第一同意子信息或第一拒绝子信息。
指示该节点组中其他数据存储节点对应的控制线程根据第一竞选信息反馈相应的第一应答信息,具体为:指示该节点组中其他数据存储节点对应的控制线程,在确定自身已接收数据存储请求的数量小于该数据存储节点对应的已接收数据存储请求的数量,且自身对应的数据存储节点的竞选权重小于该数据存储节点的竞选权重时,向该数据存储节点对应的控制线程反馈第一同意子信息,反之,向该数据存储节点对应的控制线程反馈第一拒绝子信息。
具体地,其他数据存储节点所对应的控制线程接收到第一竞选信息后,根据第一竞选信息,比较发送第一竞选信息的控制线程的已接收数据存储请求的数量和自身已接收数据存储请求的数量的大小关系,以及比较发送第一竞选信息的控制线程的竞选权重和自身对应的数据存储节点的竞选权重的大小关系,若发送第一竞选信息的控制线程的已接收数据存储请求的数量大于自身已接收数据存储请求的数量,并且,发送第一竞选信息的可控制线程对应的数据存储节点的竞选权重大于自身对应的数据存储节点的竞选权重,则其他数据存储节点所对应的控制线程向发送第一竞选信息的控制线程返回第一同意子信息,否则,返回第一拒绝子信息。其中,第一同意子信息表示同意对应的数据存储节点竞选为领导节点,第一拒绝子信息表示拒绝对应的数据存储节点竞选为领导节点。
本实施例中,在每次存储数据时,均是领导节点对应的控制线程先接收到数据存储请求,领导节点对应的控制线程根据接收的数据存储请求,向所属节点组中的其他数据存储节点对应的控制线程发送数据存储请求,从而实现数据的分布式存储。考虑到节点组中的其他数据存储节点对应的控制线程,可能存在因通信故障而接收不到领导节点对应的控制线程发送的数据存储请求的问题,导致数据存储的可靠性降低,因此为保证选择相对可靠的数据存储节点作为领导节点,这里将已接收数据存储请求的数量作为领导节点选取的依据因素之一,以保证选取出来的领导节点的通信情况较为稳定,保证选取出来的领导节点相对可靠。
本实施例中,竞选权重用于表示数据存储节点参与领导节点竞选的权重,对于控制线程而言,每当其通过对应的主控进程接收到对应的控制线程所属节点组内、其他数据存储节点对应的控制线程发送的其他数据存储节点成为候选节点的通知消息时,该控制线程确定对应的数据存储节点的竞选权重加1,并且,每当该控制线程确定对应的数据存储节点成为候选节点时,该控制线程确定对应的数据存储节点的竞选权重加1,一个实施例中,各个数据存储节点的竞选权重的初始值均为0。
本实施例中,控制线程接收该节点组内的其他数据存储节点对应的控制线程基于第一竞选信息返回的第一应答子信息。控制线程可以根据反馈的第一应答信息,确定对应的数据存储节点是否被选择为该节点组的领导节点,具体地,若控制线程根据反馈的第一应答信息,确定接收到的第一同意子信息的数量不小于数量阈值,则确定该对应的数据存储节点被选择为该节点组的领导节点,反之,则确定该对应的数据存储节点未被选择为该节点组的领导节点。其中,数量阈值可以为该数据存储节点所属节点组中节点数量的一半。
具体地,当控制线程接收到的第一同意子信息的数量不小于数量阈值时,说明不小于数量阈值的数据存储节点同意该控制线程对应的数据存储节点竞选为领导节点,因此该控制线程确定对应的数据存储节点被选择为该节点组的领导节点。反之,若第一同意子信息的数量小于数量阈值,则该控制线程确定该对应的数据存储节点未被选择为该节点组的领导节点。
可见,本申请实施例中,领导节点的选举过程能够由每个数据存储节点对应的控制线程维护,从而达到将领导节点的选举工作下放到每个数据存储设备的效果,保证当领导节点所在的数据存储设备宕机后,其他数据存储设备能够自发的进行领导节点的选举,从而使得分布式存储***的数据存储进程不受影响,提高分布式存储***的可靠性。
本实施例中,各个数据存储设备中的主控进程之间可以进行RPC通信,控制线程向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息,可以为:控制线程通过对应的数据存储节点对应的主控进程和该节点组中其他数据存储节点对应的主控进程之间的通信关系,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息。本实施例中,数据存储节点对应的控制线程还可以通过上述通信关系,接收节点组中其他数据存储节点所对应的控制线程返回的第一应答信息。
具体地,图5a为本申请一实施例提供的领导节点竞选流程示意图,如图5a所示,控制线程对应的主控进程,通过RPC通信将第一竞选信息发送至所属节点组中的其他数据存储节点所对应的主控进程处,并通过RPC通信接收所属节点组中的其他数据存储节点所对应的主控进程返回的第一应答信息。
由于主控进程和其配置的控制线程共享内存,因此主控进程可以从内存中获取控制线程需要发送的第一竞选信息,控制线程可以从内存中获取主控进程接收到的第一应答信息。同理,其他数据存储节点对应的主控进程也可以获取到需要发送的第一应答信息,其他数据存储节点对应的控制线程也可以获取到对应的主控进程接收到的第一竞选信息。
本实施例中,在节点组中其他数据存储节点变为候选节点后,若该数据存储节点对应的控制线程接收到、该节点组中其他数据存储节点对应的控制线程发送的第二竞选信息,则该数据存储节点对应的控制线程根据第二竞选信息,向发出第二竞选信息的控制线程返回第二应答信息,以确定是否同意发出第二竞选信息的数据存储节点竞选为领导节点。其中,其他数据存储节点变为候选节点的过程与前面描述的该数据存储节点变为候选节点的过程相同。
具体地,第二竞选信息包括发出第二竞选信息的控制线程已接收数据存储请求的数量和对应的竞选权重,发出第二竞选信息的控制线程对应的竞选权重为发出第二竞选信息的控制线程对应的数据存储节点的竞选权重,第二应答信息包括第二同意子信息或第二拒绝子信息,该数据存储节点对应的控制线程根据第二竞选信息,向发出第二竞选信息的控制线程返回第二应答信息,包括:
若根据第二竞选信息,确定发出第二竞选信息的控制线程已接收数据存储请求的数量,大于自身已接收数据存储请求的数量,且发出第二竞选信息的控制线程对应的数据存储节点的竞选权重大于自身对应的数据存储节点的竞选权重,则向发出第二竞选信息的控制线程返回第二同意子信息,否则,向发出第二竞选信息的控制线程返回第二拒绝子信息。
相应地,发出第二竞选信息的控制线程若接收到节点组中不小于数量阈值的数据存储节点对应的控制线程返回的第二同意子信息,则确定发出第二竞选信息的控制线程对应的数据存储节点被选举为该节点组的领导节点。
为避免节点组中存在多个候选节点的情况,本实施例中,若控制线程根据接收到的第二竞选信息,确定发出第二竞选信息的控制线程对应的数据存储节点的竞选权重大于自身对应的数据存储节点的竞选权重,则将自身对应的数据存储节点由候选节点降级为跟随节点,并且,调节自身对应的数据存储节点的竞选权重与发出第二竞选信息的控制线程对应的数据存储节点的竞选权重相同。
同理,若上述的其他控制线程根据接收到的第一竞选信息,确定自身对应的数据存储节点的竞选权重小于该数据存储节点对应的竞选权重,则其他控制线程确定自身对应的数据存储节点降级为节点组中的跟随节点,并调节自身对应的数据存储节点的竞选权重与发出第一竞选信息的控制线程对应的数据存储节点的竞选权重相同。
本实施例中,各个数据存储设备中的主控进程之间可以进行RPC通信,控制线程可以通过对应的主控进程和其他数据存储节点所对应的主控进程之间的RPC通信,接收其他数据存储节点对应的控制线程发送的第二竞选信息,并向其他数据存储节点对应的控制线程返回第二应答信息。
具体地,图5b为本申请一实施例提供的领导节点竞选流程示意图,如图5b所示,控制线程对应的主控进程,通过RPC通信接收候选节点对应的主控进程发送的第二竞选信息,并通过RPC通信将第二应答信息发送至候选节点对应的主控进程处。由于主控进程和其配置的控制线程共享内存,因此主控进程可以从内存中获取控制线程需要发送的第二应答信息,控制线程可以从内存中获取主控进程接收到的第二竞选信息。同理,候选节点对应的主控线程也可以获取到需要发送的第二竞选信息,候选节点对应的控制线程也可以获取到第二应答信息。
本实施例中,若数据存储节点被选举为节点组的领导节点,则数据存储节点对应的主控进程还可以,定期通过RPC通信,向该节点组中的除领导节点以外的其他数据存储节点所对应的主控进程发送心跳消息,以使其他数据存储节点对应的控制线程接收到心跳消息,保持领导节点和各个其他数据存储节点之间的心跳连接。
本实施例中,若数据存储节点未被选举为节点组的领导节点,则数据存储节点对应的主控进程还可以,定期通过RPC通信,接受该节点组的领导节点所对应的主控进程发送的心跳消息,从而定期获取来自领导节点的心跳消息。
图6为本申请另一实施例提供的分布式存储***的结构示意图,如图6所示,数据存储设备还关联有对应的数据读写进程,如图6中所示的数据读写进程10005和10006,在数据存储设备中,一个数据读写进程与一个或多个数据存储节点相对应。
该数据读写进程用于,在数据存储节点被选择为该节点组的领导节点后,接收针对该数据存储节点的第一数据存储请求,根据第一数据存储请求,在该数据存储节点所对应的存储空间中进行数据存储,以及,根据第一数据存储请求,向该节点组中其他数据存储节点对应的数据读写进程发送第二数据存储请求,以指示该节点组中其他数据存储节点在对应的存储空间中进行数据存储。
具体地,数据读写进程用于实现分布式存储***中的数据存储和数据读取,如图6所示,可以多个数据存储节点共同对应一个数据读写进程,也可以每个数据存储节点各自对应一个数据读写进程。本实施例中,控制线程通过HTTP((HyperText TransferProtocol,超文本传输协议)通信方式能够从数据读写进程处获取数据存储节点对应的已接收的数据存储请求的数量信息和竞选级别信息,数据读写进程和其对应的数据存储节点所对应的控制线程共享内存。在存储数据时,分布式存储***中用于存储数据的节点首先确定待存储数据对应的节点组,然后向该节点组中每个数据存储节点所对应的数据读写进程发送数据存储请求,该节点组中的领导节点对应的数据读写进程接收到该数据存储请求后,响应该请求,将数据写入领导节点对应的存储空间中,领导节点对应的数据读写进程还向节点组中其他节点对应的数据读写进程发送数据存储请求,使得其他节点对应的数据读写进程同样在对应的存储空间中存储相同的数据,以完成数据的分布式存储。
其中,领导节点对应的数据读写进程向节点组中其他数据存储节点对应的数据读写进程发送数据存储请求,可以通过各个数据存储设备中的主控进程之间的RPC通信实现。
本实施例中,数据存储请求可以用于存储多个待存储数据,上述的数据读写进程还可以在确定各个待存储数据之间不具备依赖关系时,在对应的数据存储节点所对应的存储空间中并行存储各个待存储数据。确定各个待存储数据之间是否具备依赖关系可以为,根据待存储数据是否携带依赖标识,判断各个待存储数据之间是否具备依赖关系。比如,若待存储数据不携带依赖标识,则确定待存储数据不与其他的待存储数据相依赖,若待存储数据携带依赖标识,则将待依赖标识指向的待存储数据,作为该待存储数据依赖的数据,在进行数据存储时,先存储该待存储数据依赖的数据,再存储该待存储数据。
可见,通过本实施例,能够在各个待存储数据之间不具备依赖关系时,在对应的数据存储节点所对应的存储空间中并行存储各个待存储数据,从而实现数据的并行写入,提高数据存储效率。
综上,本申请实施例中的分布式存储***至少具有以下优点:
(1)每个数据存储设备中均具有多个控制线程和独立的主控进程,领导节点的选举过程能够由每个数据存储节点对应的控制线程维护,从而达到将领导节点的选举工作下放到每个数据存储设备的效果,实现了分布式存储***的去中心化,解决了管理设备中心化所带来的瓶颈问题。
(2)当分布式存储***中大量的领导节点所在的数据存储设备宕机后,其他的数据存储设备能够自发的进行领导节点的选举,从而使得分布式存储***的数据存储进程不受影响,提高分布式存储***的效率和可靠性,提高分布式存储***的故障恢复效率。
(3)主控进程和控制线程用于负责各个数据存储节点之间的心跳通信和领导节点的选取,数据读写进程用于负责数据存储和读取,实现了分布式存储***中控制层和数据层的分离,提高了分布式存储***的可用性。
(4)在各个待存储数据之间不具备依赖关系时,数据读写进程能够在对应的数据存储节点所对应的存储空间中并行存储各个待存储数据,从而实现数据的并行写入,提高数据存储效率。
基于以上面描述,本申请实施例还提供了一种分布式存储***,包括:多个数据存储设备,数据存储设备关联有对应的主控进程。主控进程,用于将关联的数据存储设备划分以形成多个数据存储节点,并为各数据存储节点配置相应的控制线程。控制线程,用于若对应的数据存储节点不是领导节点,且未在时长阈值内、接收到该数据存储节点所属节点组中领导节点发送的心跳消息,则确定该数据存储节点为所属节点组中的候选节点,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息,以指示该节点组中其他数据存储节点对应的控制线程根据第一竞选信息反馈相应的第一应答信息,并根据反馈的第一应答信息,确定该数据存储节点是否被选择为该节点组的领导节点。其中,该节点组中的各数据存储节点用于存储相同的数据并分别位于不同的数据存储设备。
可选地,其中,第一竞选信息包括该数据存储节点对应的已接收数据存储请求的数量和竞选权重,第一应答信息包括第一同意子信息或第一拒绝子信息,上述控制线程具体用于:指示该节点组中其他数据存储节点对应的控制线程,在确定自身已接收到数据存储请求的数量小于该数据存储节点对应的已接收数据存储请求的数量,且自身对应的数据存储节点的竞选权重小于该数据存储节点的竞选权重时,向该数据存储节点对应的控制线程反馈第一同意子信息,反之,向该数据存储节点对应的控制线程反馈第一拒绝子信息。
可选地,上述控制线程具体用于:若根据反馈的第一应答信息,确定接收到的第一同意子信息的数量不小于数量阈值,则确定该数据存储节点被选择为该节点组的领导节点,反之,则确定该数据存储节点未被选择为该节点组的领导节点。
可选地,上述控制线程还用于:若接收到该节点组中其他数据存储节点对应的控制线程发送的第二竞选信息,则根据第二竞选信息,向发出第二竞选信息的控制线程返回第二应答信息,以确定是否同意发出第二竞选信息的数据存储节点竞选为领导节点。
可选地,第二竞选信息包括发出第二竞选信息的控制线程已接收数据存储请求的数量和对应的竞选权重,第二应答信息包括第二同意子信息或第二拒绝子信息;上述控制线程还具体用于:若根据第二竞选信息,确定发出第二竞选信息的控制线程已接收数据存储请求的数量,大于上述数据存储节点对应的已接收数据存储请求的数量,且发出第二竞选信息的控制线程对应的竞选权重大于上述数据存储节点的竞选权重,则向发出第二竞选信息的控制线程返回第二同意子信息,否则,向发出第二竞选信息的控制线程返回第二拒绝子信息。
可选地,上述控制线程还用于:若根据第二竞选信息,确定发出第二竞选信息的控制线程对应的竞选权重大于上述数据存储节点的竞选权重,则将上述数据存储节点由候选节点降级为跟随节点。
可选地,上述控制线程具体用于:通过数据存储节点对应的主控进程和该节点组中其他数据存储节点对应的主控进程之间的通信关系,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息;上述控制线程还用于:通过该通信关系,接收该节点组中其他数据存储节点所对应的控制线程返回的第一应答信息。
可选地,数据存储设备还关联有对应的数据读写进程,在数据存储设备中,数据读写进程与多个数据存储节点相对应,数据读写进程用于:在数据存储节点被选择为该节点组的领导节点后,接收针对该数据存储节点的第一数据存储请求,根据第一数据存储请求,在该数据存储节点所对应的存储空间中进行数据存储;以及根据第一数据存储请求,向该节点组中其他数据存储节点对应的数据读写进程发送第二数据存储请求,以指示该节点组中其他数据存储节点在对应的存储空间中进行数据存储。
可选地,第一数据存储请求用于存储多个待存储数据,数据读写进程具体用于:在确定各个待存储数据之间不具备依赖关系时,在对应的数据存储节点所对应的存储空间中并行存储各个待存储数据。
本申请实施例中,领导节点的选举过程能够由每个数据存储节点对应的控制线程维护,从而达到将领导节点的选举工作下放到每个数据存储设备的效果,保证当领导节点所在的数据存储设备宕机后,其他数据存储设备能够自发的进行领导节点的选举,从而使得分布式存储***的数据存储进程不受影响,提高分布式存储***的可靠性。
本实施例的具体过程还可以参考前述方法部分的描述,并具有相同的有益效果,这里不再重复。
进一步地,本申请实施例提供了一种用于分布式存储***的领导节点选举装置,该分布式存储***包括多个数据存储设备,数据存储设备关联有对应的主控进程,主控进程用于将关联的数据存储设备划分以形成多个数据存储节点,并为各数据存储节点配置相应的控制线程,图7为本申请一实施例提供的领导节点选举装置的结构示意图,如图7所示,装置包括:节点确定模块71和节点选举模块72。
节点确定模块71,用于若数据存储节点不是领导节点,且对应的控制线程未在时长阈值内、接收到该数据存储节点所属节点组中领导节点发送的心跳消息,则确定该数据存储节点为所属节点组中的候选节点,其中,该节点组中的各数据存储节点用于存储相同的数据并分别位于不同的数据存储设备。
节点选举模块72,用于通过该数据存储节点对应的控制线程,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息,以指示该节点组中其他数据存储节点对应的控制线程根据第一竞选信息反馈相应的第一应答信息,并根据反馈的第一应答信息,确定该数据存储节点是否被选择为该节点组的领导节点。
本实施例中,第一竞选信息包括该数据存储节点对应的已接收数据存储请求的数量和竞选权重,第一应答信息包括第一同意子信息或第一拒绝子信息,节点选举模块72具体用于:指示该节点组中其他数据存储节点对应的控制线程,在确定自身已接收数据存储请求的数量小于该数据存储节点已接收数据存储请求的数量,且自身对应的数据存储节点的竞选权重小于该数据存储节点的竞选权重时,向该数据存储节点对应的控制线程反馈第一同意子信息,反之,向该数据存储节点对应的控制线程反馈第一拒绝子信息。
本实施例中,节点选举模块72具体用于:若根据反馈的第一应答信息,确定接收到的第一同意子信息的数量不小于数量阈值,则确定该数据存储节点被选择为该节点组的领导节点,反之,则确定该数据存储节点未被选择为该节点组的领导节点。
本实施例中,还包括:信息发送模块,用于若该数据存储节点对应的控制线程接收到该节点组中其他数据存储节点对应的控制线程发送的第二竞选信息,则根据第二竞选信息,向发出第二竞选信息的控制线程返回第二应答信息,以确定是否同意发出第二竞选信息的数据存储节点竞选为领导节点。
本实施例中,第二竞选信息包括发出第二竞选信息的控制线程已接收数据存储请求的数量和对应的竞选权重,第二应答信息包括第二同意子信息或第二拒绝子信息,信息发送模块具体用于:若根据第二竞选信息,确定发出第二竞选信息的控制线程已接收数据存储请求的数量,大于该数据存储节点对应的已接收数据存储请求的数量,且发出第二竞选信息的控制线程对应的竞选权重大于该数据存储节点的竞选权重,则向发出第二竞选信息的控制线程返回第二同意子信息,否则,向发出第二竞选信息的控制线程返回第二拒绝子信息。
本实施例中,还包括:降级模块,用于若根据第二竞选信息,确定发出第二竞选信息的控制线程对应的竞选权重大于该数据存储节点的竞选权重,则将该数据存储节点由候选节点降级为跟随节点。
本实施例中,节点选举模块72具体用于:通过该数据存储节点对应的主控进程和该节点组中其他数据存储节点对应的主控进程之间的通信关系,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息,本装置还包括:信息接收模块,用于通过上述通信关系,接收该节点组中其他数据存储节点所对应的控制线程返回的第一应答信息。
本申请实施例中,领导节点的选举过程能够由每个数据存储节点对应的控制线程维护,从而达到将领导节点的选举工作下放到每个数据存储设备的效果,保证当领导节点所在的数据存储设备宕机后,其他数据存储设备能够自发的进行领导节点的选举,从而使得分布式存储***的数据存储进程不受影响,提高分布式存储***的可靠性。
本实施例的具体过程还可以参考前述方法部分的描述,并具有相同的有益效果,这里不再重复。
进一步地,本申请实施例还提供了一种用于分布式存储***的领导节点选举设备,图8为本申请一实施例提供的领导节点选举设备的结果示意图,如图8所示,领导节点选举设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器901和存储器902,存储器902中可以存储有一个或一个以上存储应用程序或数据。其中,存储器902可以是短暂存储或持久存储。存储在存储器902的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对领导节点选举设备中的一系列计算机可执行指令。更进一步地,处理器901可以设置为与存储器902通信,在领导节点选举设备上执行存储器902中的一系列计算机可执行指令。领导节点选举设备还可以包括一个或一个以上电源903,一个或一个以上有线或无线网络接口904,一个或一个以上输入输出接口905,一个或一个以上键盘906等。
在一个具体的实施例中,领导节点选举设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对领导节点选举设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
若数据存储节点不是领导节点,且对应的控制线程未在时长阈值内、接收到该数据存储节点所属节点组中领导节点发送的心跳消息,则确定该数据存储节点为所属节点组中的候选节点,其中,该节点组中的各数据存储节点用于存储相同的数据并分别位于不同的数据存储设备;
通过该数据存储节点对应的控制线程,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息,以指示该节点组中其他数据存储节点对应的控制线程根据第一竞选信息反馈相应的第一应答信息,并根据反馈的第一应答信息,确定该数据存储节点是否被选择为该节点组的领导节点。
可选地,计算机可执行指令在被执行时,第一竞选信息包括该数据存储节点对应的已接收数据存储请求的数量和竞选权重,第一应答信息包括第一同意子信息或第一拒绝子信息,指示该节点组中其他数据存储节点对应的控制线程根据第一竞选信息反馈相应的第一应答信息,包括:指示该节点组中其他数据存储节点对应的控制线程,在确定自身已接收数据存储请求的数量小于该数据存储节点对应的已接收数据存储请求的数量,且自身对应的数据存储节点的竞选权重小于该数据存储节点的竞选权重时,向该数据存储节点对应的控制线程反馈第一同意子信息,反之,向该数据存储节点对应的控制线程反馈第一拒绝子信息。
可选地,计算机可执行指令在被执行时,根据反馈的第一应答信息,确定该数据存储节点是否被选择为该节点组的领导节点,包括:若根据反馈的第一应答信息,确定接收到的第一同意子信息的数量不小于数量阈值,则确定该数据存储节点被选择为该节点组的领导节点,反之,则确定该数据存储节点未被选择为该节点组的领导节点。
可选地,计算机可执行指令在被执行时,还包括:若该数据存储节点对应的控制线程接收到该节点组中其他数据存储节点对应的控制线程发送的第二竞选信息,则根据第二竞选信息,向发出第二竞选信息的控制线程返回第二应答信息,以确定是否同意发出第二竞选信息的数据存储节点竞选为领导节点。
可选地,计算机可执行指令在被执行时,第二竞选信息包括发出第二竞选信息的控制线程已接收数据存储请求的数量和竞选权重,第二应答信息包括第二同意子信息或第二拒绝子信息,根据第二竞选信息,向发出第二竞选信息的控制线程返回第二应答信息,包括:若根据第二竞选信息,确定发出第二竞选信息的控制线程已接收数据存储请求的数量,大于该数据存储节点对应的已接收数据存储请求的数量,且发出第二竞选信息的控制线程对应的竞选权重大于该数据存储节点的竞选权重,则向发出第二竞选信息的控制线程返回第二同意子信息,否则,向发出第二竞选信息的控制线程返回第二拒绝子信息。
可选地,计算机可执行指令在被执行时,还包括:若根据第二竞选信息,确定发出第二竞选信息的控制线程对应的竞选权重大于该数据存储节点的竞选权重,则将该数据存储节点由候选节点降级为跟随节点。
可选地,计算机可执行指令在被执行时,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息,包括:通过该数据存储节点对应的主控进程和该节点组中其他数据存储节点对应的主控进程之间的通信关系,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息。还包括:数据存储节点对应的控制线程通过上述通信关系,接收该节点组中其他数据存储节点所对应的控制线程返回的第一应答信息。
本申请实施例中,领导节点的选举过程能够由每个数据存储节点对应的控制线程维护,从而达到将领导节点的选举工作下放到每个数据存储设备的效果,保证当领导节点所在的数据存储设备宕机后,其他数据存储设备能够自发的进行领导节点的选举,从而使得分布式存储***的数据存储进程不受影响,提高分布式存储***的可靠性。
本实施例的具体过程还可以参考前述方法部分的描述,并具有相同的有益效果,这里不再重复。
进一步地,本申请实施例还提供了一种存储介质,用于存储计算机可执行指令,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令在被处理器执行时,能实现以下流程:
若数据存储节点不是领导节点,且对应的控制线程未在时长阈值内、接收到该数据存储节点所属节点组中领导节点发送的心跳消息,则确定该数据存储节点为所属节点组中的候选节点,其中,该节点组中的各数据存储节点用于存储相同的数据并分别位于不同的数据存储设备;
通过该数据存储节点对应的控制线程,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息,以指示该节点组中其他数据存储节点对应的控制线程根据第一竞选信息反馈相应的第一应答信息,并根据反馈的第一应答信息,确定该数据存储节点是否被选择为该节点组的领导节点。
可选地,计算机可执行指令在被执行时,第一竞选信息包括该数据存储节点对应的已接收数据存储请求的数量和竞选权重,第一应答信息包括第一同意子信息或第一拒绝子信息,指示该节点组中其他数据存储节点对应的控制线程根据第一竞选信息反馈相应的第一应答信息,包括:指示该节点组中其他数据存储节点对应的控制线程,在确定自身已接收数据存储请求的数量小于该数据存储节点对应的已接收数据存储请求的数量,且自身对应的数据存储节点的竞选权重小于该数据存储节点的竞选权重时,向该数据存储节点对应的控制线程反馈第一同意子信息,反之,向该数据存储节点对应的控制线程反馈第一拒绝子信息。
可选地,计算机可执行指令在被执行时,根据反馈的第一应答信息,确定该数据存储节点是否被选择为该节点组的领导节点,包括:若根据反馈的第一应答信息,确定接收到的第一同意子信息的数量不小于数量阈值,则确定该数据存储节点被选择为该节点组的领导节点,反之,则确定该数据存储节点未被选择为该节点组的领导节点。
可选地,计算机可执行指令在被执行时,还包括:若该数据存储节点对应的控制线程接收到该节点组中其他数据存储节点对应的控制线程发送的第二竞选信息,则根据第二竞选信息,向发出第二竞选信息的控制线程返回第二应答信息,以确定是否同意发出第二竞选信息的数据存储节点竞选为领导节点。
可选地,计算机可执行指令在被执行时,第二竞选信息包括发出第二竞选信息的控制线程已接收数据存储请求的数量和竞选权重,第二应答信息包括第二同意子信息或第二拒绝子信息,根据第二竞选信息,向发出第二竞选信息的控制线程返回第二应答信息,包括:若根据第二竞选信息,确定发出第二竞选信息的控制线程已接收数据存储请求的数量,大于该数据存储节点对应的已接收数据存储请求的数量,且发出第二竞选信息的控制线程对应的竞选权重大于该数据存储节点的竞选权重,则向发出第二竞选信息的控制线程返回第二同意子信息,否则,向发出第二竞选信息的控制线程返回第二拒绝子信息。
可选地,计算机可执行指令在被执行时,还包括:若根据第二竞选信息,确定发出第二竞选信息的控制线程对应的竞选权重大于该数据存储节点的竞选权重,则将该数据存储节点由候选节点降级为跟随节点。
可选地,计算机可执行指令在被执行时,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息,包括:通过该数据存储节点对应的主控进程和该节点组中其他数据存储节点对应的主控进程之间的通信关系,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息。还包括:数据存储节点对应的控制线程通过上述通信关系,接收该节点组中其他数据存储节点所对应的控制线程返回的第一应答信息。
本申请实施例中,领导节点的选举过程能够由每个数据存储节点对应的控制线程维护,从而达到将领导节点的选举工作下放到每个数据存储设备的效果,保证当领导节点所在的数据存储设备宕机后,其他数据存储设备能够自发的进行领导节点的选举,从而使得分布式存储***的数据存储进程不受影响,提高分布式存储***的可靠性。
本实施例的具体过程还可以参考前述方法部分的描述,并具有相同的有益效果,这里不再重复。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (25)

1.一种用于分布式存储***的领导节点选举方法,所述分布式存储***包括多个数据存储设备,所述数据存储设备关联有对应的主控进程,所述主控进程用于将关联的数据存储设备划分以形成多个数据存储节点,并为各数据存储节点配置相应的控制线程,所述方法包括:
若所述数据存储节点不是领导节点,且对应的控制线程未在时长阈值内、接收到所述数据存储节点所属节点组中领导节点发送的心跳消息,则确定所述数据存储节点为所属节点组中的候选节点,其中,该节点组中的各数据存储节点用于存储相同的数据并分别位于不同的数据存储设备;
通过所述数据存储节点对应的控制线程,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息,以指示该节点组中其他数据存储节点对应的控制线程根据所述第一竞选信息反馈相应的第一应答信息,并根据反馈的第一应答信息,确定所述数据存储节点是否被选择为该节点组的领导节点。
2.根据权利要求1所述的方法,其中,所述第一竞选信息包括所述数据存储节点对应的已接收数据存储请求的数量和竞选权重,所述第一应答信息包括第一同意子信息或第一拒绝子信息,所述指示该节点组中其他数据存储节点对应的控制线程根据所述第一竞选信息反馈相应的第一应答信息,包括:
指示该节点组中其他数据存储节点对应的控制线程,在确定自身已接收数据存储请求的数量小于所述数据存储节点对应的已接收数据存储请求的数量,且自身对应的数据存储节点的竞选权重小于所述数据存储节点的竞选权重时,向所述数据存储节点对应的控制线程反馈第一同意子信息,反之,向所述数据存储节点对应的控制线程反馈第一拒绝子信息。
3.根据权利要求2所述的方法,其中,所述根据反馈的第一应答信息,确定所述数据存储节点是否被选择为该节点组的领导节点,包括:
若根据反馈的第一应答信息,确定接收到的第一同意子信息的数量不小于数量阈值,则确定所述数据存储节点被选择为该节点组的领导节点,反之,则确定所述数据存储节点未被选择为该节点组的领导节点。
4.根据权利要求1-3中任一项所述的方法,其中,还包括:
若所述数据存储节点对应的控制线程接收到该节点组中其他数据存储节点对应的控制线程发送的第二竞选信息,则根据所述第二竞选信息,向发出所述第二竞选信息的控制线程返回第二应答信息,以确定是否同意发出所述第二竞选信息的数据存储节点竞选为领导节点。
5.根据权利要求4所述的方法,其中,所述第二竞选信息包括发出所述第二竞选信息的控制线程已接收数据存储请求的数量和对应的竞选权重,所述第二应答信息包括第二同意子信息或第二拒绝子信息,所述根据所述第二竞选信息,向发出所述第二竞选信息的控制线程返回第二应答信息,包括:
若根据所述第二竞选信息,确定发出所述第二竞选信息的控制线程已接收数据存储请求的数量,大于所述数据存储节点对应的已接收数据存储请求的数量,且发出所述第二竞选信息的控制线程对应的竞选权重大于所述数据存储节点的竞选权重,则向发出所述第二竞选信息的控制线程返回第二同意子信息,否则,向发出所述第二竞选信息的控制线程返回第二拒绝子信息。
6.如权利要求5所述的方法,其中,还包括:
若根据所述第二竞选信息,确定发出所述第二竞选信息的控制线程对应的竞选权重大于所述数据存储节点的竞选权重,则将所述数据存储节点由候选节点降级为跟随节点。
7.根据权利要求1所述的方法,其中,所述向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息,包括:
通过所述数据存储节点对应的主控进程和该节点组中其他数据存储节点对应的主控进程之间的通信关系,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息;
所述方法还包括:
所述数据存储节点对应的控制线程通过所述通信关系,接收该节点组中其他数据存储节点所对应的控制线程返回的第一应答信息。
8.一种分布式存储***,包括:多个数据存储设备,所述数据存储设备关联有对应的主控进程;
所述主控进程,用于将关联的数据存储设备划分以形成多个数据存储节点,并为各数据存储节点配置相应的控制线程;
所述控制线程,用于若对应的数据存储节点不是领导节点,且未在时长阈值内、接收到所述数据存储节点所属节点组中领导节点发送的心跳消息,则确定所述数据存储节点为所属节点组中的候选节点,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息,以指示该节点组中其他数据存储节点对应的控制线程根据所述第一竞选信息反馈相应的第一应答信息,并根据反馈的第一应答信息,确定所述数据存储节点是否被选择为该节点组的领导节点;
其中,该节点组中的各数据存储节点用于存储相同的数据并分别位于不同的数据存储设备。
9.根据权利要求8所述的***,其中,所述第一竞选信息包括所述数据存储节点对应的已接收数据存储请求的数量和竞选权重,所述第一应答信息包括第一同意子信息或第一拒绝子信息,所述控制线程具体用于:
指示该节点组中其他数据存储节点对应的控制线程,在确定自身已接收数据存储请求的数量小于所述数据存储节点对应的已接收数据存储请求的数量,且自身对应的数据存储节点的竞选权重小于所述数据存储节点的竞选权重时,向所述数据存储节点对应的控制线程反馈第一同意子信息,反之,向所述数据存储节点对应的控制线程反馈第一拒绝子信息。
10.根据权利要求9所述的***,其中,所述控制线程具体用于:
若根据反馈的第一应答信息,确定接收到的第一同意子信息的数量不小于数量阈值,则确定所述数据存储节点被选择为该节点组的领导节点,反之,则确定所述数据存储节点未被选择为该节点组的领导节点。
11.根据权利要求8-10任一项所述的***,其中,所述控制线程还用于:
若接收到该节点组中其他数据存储节点对应的控制线程发送的第二竞选信息,则根据所述第二竞选信息,向发出所述第二竞选信息的控制线程返回第二应答信息,以确定是否同意发出所述第二竞选信息的数据存储节点竞选为领导节点。
12.根据权利要求11所述的***,其中,所述第二竞选信息包括发出所述第二竞选信息的控制线程已接收数据存储请求的数量和对应的竞选权重,所述第二应答信息包括第二同意子信息或第二拒绝子信息;
所述控制线程还具体用于:
若根据所述第二竞选信息,确定发出所述第二竞选信息的控制线程已接收数据存储请求的数量,大于所述数据存储节点对应的已接收数据存储请求的数量,且发出所述第二竞选信息的控制线程对应的竞选权重大于所述数据存储节点的竞选权重,则向发出所述第二竞选信息的控制线程返回第二同意子信息,否则,向发出所述第二竞选信息的控制线程返回第二拒绝子信息。
13.根据权利要求12所述的***,其中,所述控制线程还用于:
若根据所述第二竞选信息,确定发出所述第二竞选信息的控制线程对应的竞选权重大于所述数据存储节点的竞选权重,则将所述数据存储节点由候选节点降级为跟随节点。
14.根据权利要求8所述的***,其中,所述控制线程具体用于:
通过所述数据存储节点对应的主控进程和该节点组中其他数据存储节点对应的主控进程之间的通信关系,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息;
所述控制线程还用于:通过所述通信关系,接收该节点组中其他数据存储节点所对应的控制线程返回的第一应答信息。
15.根据权利要求8所述的***,其中,所述数据存储设备还关联有对应的数据读写进程,在所述数据存储设备中,所述数据读写进程与多个数据存储节点相对应,所述数据读写进程用于:
在所述数据存储节点被选择为该节点组的领导节点后,接收针对所述数据存储节点的第一数据存储请求,根据所述第一数据存储请求,在所述数据存储节点所对应的存储空间中进行数据存储;以及
根据所述第一数据存储请求,向该节点组中其他数据存储节点对应的数据读写进程发送第二数据存储请求,以指示该节点组中其他数据存储节点在对应的存储空间中进行数据存储。
16.根据权利要求15所述的***,其中,所述第一数据存储请求用于存储多个待存储数据,所述数据读写进程具体用于:
在确定各个所述待存储数据之间不具备依赖关系时,在所述数据存储节点所对应的存储空间中并行存储各个所述待存储数据。
17.一种用于分布式存储***的领导节点选举装置,所述分布式存储***包括多个数据存储设备,所述数据存储设备关联有对应的主控进程,所述主控进程用于将关联的数据存储设备划分以形成多个数据存储节点,并为各数据存储节点配置相应的控制线程,所述装置包括:
节点确定模块,用于若所述数据存储节点不是领导节点,且对应的控制线程未在时长阈值内、接收到所述数据存储节点所属节点组中领导节点发送的心跳消息,则确定所述数据存储节点为所属节点组中的候选节点,其中,该节点组中的各数据存储节点用于存储相同的数据并分别位于不同的数据存储设备;
节点选举模块,用于通过所述数据存储节点对应的控制线程,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息,以指示该节点组中其他数据存储节点对应的控制线程根据所述第一竞选信息反馈相应的第一应答信息,并根据反馈的第一应答信息,确定所述数据存储节点是否被选择为该节点组的领导节点。
18.根据权利要求17所述的装置,其中,所述第一竞选信息包括所述数据存储节点对应的已接收数据存储请求的数量和竞选权重,所述第一应答信息包括第一同意子信息或第一拒绝子信息,所述节点选举模块具体用于:
指示该节点组中其他数据存储节点对应的控制线程,在确定自身已接收数据存储请求的数量小于所述数据存储节点对应的已接收数据存储请求的数量,且自身对应的数据存储节点的竞选权重小于所述数据存储节点的竞选权重时,向所述数据存储节点对应的控制线程反馈第一同意子信息,反之,向所述数据存储节点对应的控制线程反馈第一拒绝子信息。
19.根据权利要求18所述的装置,其中,所述节点选举模块具体用于:
若根据反馈的第一应答信息,确定接收到的第一同意子信息的数量不小于数量阈值,则确定所述数据存储节点被选择为该节点组的领导节点,反之,则确定所述数据存储节点未被选择为该节点组的领导节点。
20.根据权利要求17-19任一项所述的装置,其中,还包括:
信息发送模块,用于若所述数据存储节点对应的控制线程接收到该节点组中其他数据存储节点对应的控制线程发送的第二竞选信息,则根据所述第二竞选信息,向发出所述第二竞选信息的控制线程返回第二应答信息,以确定是否同意发出所述第二竞选信息的数据存储节点竞选为领导节点。
21.根据权利要求20所述的装置,其中,所述第二竞选信息包括发出所述第二竞选信息的控制线程已接收数据存储请求的数量和对应的竞选权重,所述第二应答信息包括第二同意子信息或第二拒绝子信息,所述信息发送模块具体用于:
若根据所述第二竞选信息,确定发出所述第二竞选信息的控制线程已接收数据存储请求的数量,大于所述数据存储节点对应的已接收数据存储请求的数量,且发出所述第二竞选信息的控制线程对应的竞选权重大于所述数据存储节点的竞选权重,则向发出所述第二竞选信息的控制线程返回第二同意子信息,否则,向发出所述第二竞选信息的控制线程返回第二拒绝子信息。
22.根据权利要求21所述的装置,其中,还包括:
降级模块,用于若根据所述第二竞选信息,确定发出所述第二竞选信息的控制线程对应的竞选权重大于所述数据存储节点的竞选权重,则将所述数据存储节点由候选节点降级为跟随节点。
23.根据权利要求17所述的装置,其中,所述节点选举模块具体用于:
通过所述数据存储节点对应的主控进程和该节点组中其他数据存储节点对应的主控进程之间的通信关系,向该节点组中其他数据存储节点所对应的控制线程发送第一竞选信息;
所述装置还包括:
信息接收模块,用于通过所述通信关系,接收该节点组中其他数据存储节点所对应的控制线程返回的第一应答信息。
24.一种用于分布式存储***的领导节点选举设备,包括:
处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行根据权利要求1至7任一项所述的领导节点选举方法。
25.一种存储介质,用于存储计算机可执行指令,所述可执行指令在被执行时实现根据权利要求1至7任一项所述的领导节点选举方法。
CN201810850568.0A 2018-07-28 2018-07-28 分布式存储***及其领导节点选举方法和装置 Active CN110764690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810850568.0A CN110764690B (zh) 2018-07-28 2018-07-28 分布式存储***及其领导节点选举方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810850568.0A CN110764690B (zh) 2018-07-28 2018-07-28 分布式存储***及其领导节点选举方法和装置

Publications (2)

Publication Number Publication Date
CN110764690A true CN110764690A (zh) 2020-02-07
CN110764690B CN110764690B (zh) 2023-04-14

Family

ID=69328950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810850568.0A Active CN110764690B (zh) 2018-07-28 2018-07-28 分布式存储***及其领导节点选举方法和装置

Country Status (1)

Country Link
CN (1) CN110764690B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339059A (zh) * 2020-03-25 2020-06-26 星辰天合(北京)数据科技有限公司 基于分布式存储***Ceph的NAS存储***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929696A (zh) * 2012-09-28 2013-02-13 北京搜狐新媒体信息技术有限公司 一种分布式***中心节点构建、提交、监控方法及装置
CN105512266A (zh) * 2015-12-03 2016-04-20 曙光信息产业(北京)有限公司 一种实现分布式数据库操作一致性的方法及装置
CN106161495A (zh) * 2015-03-25 2016-11-23 中兴通讯股份有限公司 一种主节点选举方法、装置及存储***
CN106533738A (zh) * 2016-10-20 2017-03-22 中国民生银行股份有限公司 分布式批处理的方法、装置和***
WO2017065209A1 (ja) * 2015-10-16 2017-04-20 国立大学法人東北大学 情報処理システム、情報処理装置、情報処理方法、及び、プログラム
CN108183971A (zh) * 2015-03-13 2018-06-19 聚好看科技股份有限公司 一种分布式***中的节点选举方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929696A (zh) * 2012-09-28 2013-02-13 北京搜狐新媒体信息技术有限公司 一种分布式***中心节点构建、提交、监控方法及装置
CN108183971A (zh) * 2015-03-13 2018-06-19 聚好看科技股份有限公司 一种分布式***中的节点选举方法
CN106161495A (zh) * 2015-03-25 2016-11-23 中兴通讯股份有限公司 一种主节点选举方法、装置及存储***
WO2017065209A1 (ja) * 2015-10-16 2017-04-20 国立大学法人東北大学 情報処理システム、情報処理装置、情報処理方法、及び、プログラム
CN105512266A (zh) * 2015-12-03 2016-04-20 曙光信息产业(北京)有限公司 一种实现分布式数据库操作一致性的方法及装置
CN106533738A (zh) * 2016-10-20 2017-03-22 中国民生银行股份有限公司 分布式批处理的方法、装置和***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHAIK SAHIL BABU; ARNAB RAHA; MRINAL KANTI NASKAR; OMAR ALFANDI; DIETER HOGREFE: "\"Fuzzy Logic Election of Node for Routing in WSNs\"" *
杜丽娟;余镇危;: "分布式超级节点选举算法" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339059A (zh) * 2020-03-25 2020-06-26 星辰天合(北京)数据科技有限公司 基于分布式存储***Ceph的NAS存储***

Also Published As

Publication number Publication date
CN110764690B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
CN107450979B (zh) 一种区块链共识方法及装置
KR102262713B1 (ko) 블록체인 합의를 위한 방법, 장치 및 시스템
CN107391527B (zh) 一种基于区块链的数据处理方法及设备
CN107577694B (zh) 一种基于区块链的数据处理方法及设备
TWI694700B (zh) 資料處理方法和裝置、用戶端
CN108628688B (zh) 一种消息处理方法、装置及设备
CN110008018A (zh) 一种批量任务处理方法、装置及设备
CN110597614B (zh) 一种资源调整方法及装置
WO2019033949A1 (zh) 一种数据的迁移方法、装置及设备
CN106878382B (zh) 一种分布式仲裁集群中动态改变集群规模的方法及装置
CN114827165B (zh) 对多个交易进行分组的方法和区块链节点
CN107291720B (zh) 一种实现批量数据处理的方法、***和计算机集群
CN109002357B (zh) 资源分配方法、装置及物联网***
US11102284B2 (en) Service processing methods and systems based on a consortium blockchain network
CN108762913A (zh) 服务处理方法及装置
CN111459724A (zh) 节点切换方法、装置、设备及计算机可读存储介质
CN107578338B (zh) 一种业务发布方法、装置及设备
CN110955720A (zh) 一种数据加载方法、装置及***
CN111930530A (zh) 一种基于物联网的设备消息处理方法、装置及介质
CN111866169A (zh) 一种服务更新方法及装置、***
CN110764690B (zh) 分布式存储***及其领导节点选举方法和装置
CN113126884B (zh) 数据迁移方法、装置、电子设备及计算机存储介质
CN108681492A (zh) 数据处理方法及装置
CN109614388B (zh) 一种预算扣减方法和装置
TW202008153A (zh) 資料處理方法和裝置、伺服器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210908

Address after: Room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: ALIBABA GROUP HOLDING Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211231

Address after: 310000 No. 12, Zhuantang science and technology economic block, Xihu District, Hangzhou City, Zhejiang Province

Applicant after: Aliyun Computing Co.,Ltd.

Address before: 310000 room 508, 5th floor, building 4, No.699 Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant before: Alibaba (China) Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant