CN114610545A - 减少私有云计算的单点故障的方法、***、设备及介质 - Google Patents

减少私有云计算的单点故障的方法、***、设备及介质 Download PDF

Info

Publication number
CN114610545A
CN114610545A CN202210284261.5A CN202210284261A CN114610545A CN 114610545 A CN114610545 A CN 114610545A CN 202210284261 A CN202210284261 A CN 202210284261A CN 114610545 A CN114610545 A CN 114610545A
Authority
CN
China
Prior art keywords
cluster
voting
computing
node
computing node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210284261.5A
Other languages
English (en)
Inventor
王则陆
刘毅枫
马晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Chaoyue Shentai Information Technology Co Ltd
Original Assignee
Xian Chaoyue Shentai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Chaoyue Shentai Information Technology Co Ltd filed Critical Xian Chaoyue Shentai Information Technology Co Ltd
Priority to CN202210284261.5A priority Critical patent/CN114610545A/zh
Publication of CN114610545A publication Critical patent/CN114610545A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明设计云计算技术领域,公开了一种减少私有云计算的单点故障的方法、***、设备及介质。所述方法包括:在集群中的每个计算节点部署管理软件,通过所述管理软件的集群文件***实现所述集群中的每个计算节点的管理信息同步;建立外部投票服务的进程,通过所述外部投票服务从所述集群中选出投票子***;由外部仲裁者从所述投票子***中选出虚拟主节点,以用于执行所述集群中的管理分发的命令;响应于所述虚拟主节点发生单点故障,所述外部仲裁者从所述投票子***中的剩余计算节点中选出一个计算节点作为新虚拟主节点执行任务。本公开的方法有效减少了私有云计算的单点故障。

Description

减少私有云计算的单点故障的方法、***、设备及介质
技术领域
本发明涉及私有云计算技术领域,尤其涉及减少私有云计算的单点故障的方法、***、设备及介质。
背景技术
近年来,随着云计算技术的快速发展,私有云的应用也越来越广泛,私有云是为一个客户单独使用而构建的,因而能够提供对数据、安全性和服务质量的最有效控制。私有云是一套专用基础设施,由统一管理平台实现包含虚拟机、物理机、存储、网络等虚拟及物理设备的管理,其管理平台的稳定性直接决定云平台的稳定性。
对于私有云来说,管理平台的稳定性,目前有热备和冷备两种高可用方式,热备方式是在一个私有云平台中,启动多个管理平台,其中一个为主,另外几个为备,当主管理平台所在的物理机意外宕机或管理平台物理机宕机后,将会从其他备管理中一个升级为主管理,从而实现高可用;冷备方式是一个私有云平台中启动一个管理平台,依靠虚拟化底层不断探测管理平台的状态,当管理平台意外宕机后,虚拟化平台会重启管理平台虚拟机,达到高可用目的。以上两种方式均可以实现高可用,但是管理平台从无法使用到可以正常使用,需要经过3分钟甚至更长时间,其间用户无法登陆管理界面进行操作,由此会影响云平台的调度和用户的管理维护。
发明内容
有鉴于此,本发明提出了一种减少私有云计算的单点故障的方法、***、设备及介质。其中,本发明提出的一种减少私有云计算的单点故障的方法将私有云中的计算节点全部部署管理软件,每个计算节点既作为管理节点又作为计算节点,集群中不再有单独的管理节点,集群中所有的计算节点的地位是相等的,没有主次之分。每一个计算节点可以作为管理节点,而且管理界面相同,从而消除管理节点的单点故障,保证管理节点的持续高可用。
基于以上目的,本发明的实施例的一个方面提供了一种减少私有云计算的单点故障的方法,包括以下步骤:在集群中的每个计算节点部署管理软件,通过所述管理软件的集群文件***实现所述集群中的每个计算节点的管理信息同步;建立外部投票服务的进程,通过所述外部投票服务从所述集群中选出投票子***;由外部仲裁者从所述投票子***中选出虚拟主节点,以用于执行所述集群中的管理分发的命令;响应于所述虚拟主节点发生单点故障,所述外部仲裁者从所述投票子***中的剩余计算节点中选出一个计算节点作为新虚拟主节点执行任务。
在一些实施例中,所述在集群中的每个计算节点部署管理软件,通过所述管理软件的集群文件***实现所述集群中的每个计算节点的管理信息同步包括:响应于用户登陆计算节点进行操作,所述计算节点执行对所述集群中的剩余计算节点的任务分配及发送的操作,并且所述计算节点更新管理信息得到新管理信息,通过所述集群文件***将所述新管理信息同步在所述集群中的剩余计算节点。
在一些实施例中,所述在集群中的每个计算节点部署管理软件,通过所述管理软件的集群文件***实现所述集群中的每个计算节点的管理信息同步包括:所述集群中每个计算节点采用嵌入式数据库sqlite存储管理信息。
在一些实施例中,所述在集群中的每个计算节点部署管理软件,通过所述管理软件的集群文件***实现所述集群中的每个计算节点的管理信息同步还包括:FUSE文件***将计算节点对应的管理信息映射为内存中对应的配置文件,以用于存储所述计算节点对应的管理信息;corosync将所述计算节点对应的配置文件实时同步在所述集群中剩余计算节点,以实现所述集群中的每个计算节点的管理信息同步。
在一些实施例中,所述建立外部投票服务的进程,通过所述外部投票服务从所述集群中选出投票子***包括:所述外部投票服务的进程为所述集群中每个计算节点提供两个投票权;根据所述计算节点的运行情况以及接收到的投票情况确定所述计算节点是否在所述投票子***中,响应于所述计算节点运行正常且接收到除自己本身外的投票,确定所述计算节点在所述投票子***中。
在一些实施例中,所述由外部仲裁者从所述投票子***中选出虚拟主节点,以用于执行所述集群中的管理分发的命令包括:外部仲裁者统计所述投票子***中的每个计算节点的得票数,按照由高到低的顺序进行排序;选择所述得票数位列第一的计算节点作为虚拟主节点,并且由所述虚拟主节点执行所述集群中包括管理分发在内的自动执行的命令。
在一些实施例中,所述响应于所述虚拟主节点发生单点故障,所述外部仲裁者从所述投票子***中的剩余计算节点中选出一个计算节点作为新虚拟主节点执行任务包括:响应于所述虚拟主节点发生单点故障,将所述投票子***中发生单点故障的所述虚拟主节点剔除,得到新投票子***,所述外部投票服务的进程在所述新投票子***中发起新一轮投票,所述外部仲裁者统计所述新投票子***中的每个计算节点的得票数,按照由高到低的顺序进行排序,并且选择所述得票数位列第一的计算节点作为新虚拟主节点。
本发明实施例的另一个方面,还提供了一种减少私有云计算的单点故障的***,包括以下模块:第一模块,配置用于在集群中的每个计算节点部署管理软件,通过所述管理软件的集群文件***实现所述集群中的每个计算节点的管理信息同步;第二模块,配置用于建立外部投票服务的进程,通过所述外部投票服务从所述集群中选出投票子***;第三模块,配置用于由外部仲裁者从所述投票子***中选出虚拟主节点,以用于执行所述集群中的管理分发的命令;以及第四模块,配置用于响应于所述虚拟主节点发生单点故障,所述外部仲裁者从所述投票子***中的剩余计算节点中选出一个计算节点作为新虚拟主节点执行任务。
本发明实施例的另一方面,还提供一种计算机设备,包括至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行时实现上述任一方法的步骤。
本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上任一方法步骤的计算机程序。
本发明至少具有以下有益效果:本发明提出的一种减少私有云计算的单点故障的方法、***、设备及介质,其中,本发明提出的一种减少私有云计算的单点故障的方法通过对集群中每个计算节点部署管理软件,实现集群中每个计算节点的管理信息的同步;建立外部投票服务进程,用于选出集群中的虚拟主节点,用于执行集群中的自动执行的命令,同时避免集群脑裂的发生。集群中每个计算节点既做计算又做管理,有效减少了私有云计算的单点故障。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的实施例。
图1为本发明提供的一种减少私有云计算的单点故障的方法的实施例的示意图;
图2为本发明提供的一种减少私有云计算的单点故障的方法的实施例的集群文件***的示意图;
图3为本发明提供的一种减少私有云计算的单点故障的方法的实施例的集群投票服务的示意图;
图4为本发明提供的一种减少私有云计算的单点故障的方法的实施例的集群管理的示意图;
图5为本发明提供的一种减少私有云计算的单点故障的***的实施例的示意图;
图6为本发明提供的一种计算机设备的实施例的示意图;
图7为本发明提供的一种计算机可读存储介质的实施例的示意图。
具体实施方式
以下描述了本发明的实施例。然而,应该理解,所公开的实施例仅仅是示例,并且其它实施例可以采取各种替代形式。
此外,需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。术语“包括”、“包含”或其任何其它变形旨在涵盖非排他性的包括,以使包含一系列要素的过程、方法、物品或装置不仅包括那些要素,也可以包括未明确列出的或这些过程、方法、物品或装置所固有的要素。
下面将结合附图说明本申请的一个或多个实施例。
基于以上目的,本发明实施例的第一个方面,提出了一种减少私有云计算的单点故障的方法的实施例。图1示出的是本发明提供的一种减少私有云计算的单点故障的方法的实施例的示意图。如图1所示,本发明实施例的一种减少私有云计算的单点故障的方法包括以下步骤:
S1、在集群中的每个计算节点部署管理软件,通过所述管理软件的集群文件***实现所述集群中的每个计算节点的管理信息同步;
S2、建立外部投票服务的进程,通过所述外部投票服务从所述集群中选出投票子***;
S3、由外部仲裁者从所述投票子***中选出虚拟主节点,以用于执行所述集群中的管理分发的命令;
S4、响应于所述虚拟主节点发生单点故障,所述外部仲裁者从所述投票子***中的剩余计算节点中选出一个计算节点作为新虚拟主节点执行任务。
在本发明提供的一种减少私有云计算的单点故障的方法的另一实施例中,基于开源KVM虚拟化技术实现,可以理解的是,在实际应用中,减少私有云计算的单点故障的方法不限制于基于开源KVM虚拟化技术实现,也可以根据其他虚拟化技术实现。
如图2所示,对集群中的每个计算节点部署管理软件,通过一个基于数据库的文件***保存每个计算节点的管理信息,使得集群中的每个计算节点既做计算又做管理,所有计算节点的地位是平等的,没有主次之分,并且所有计算节点的管理界面相同。为了保证性能数据库采用采用嵌入式数据库sqlite,并且通过FUSE文件***,将嵌入式数据库sqlite中保存的该计算节点的管理信息映射为内存中的配置文件,用于保存虚拟机、集群、存储等的配置信息。FUSE文件***一方面将所有管理信息都保存在服务器磁盘的一个数据库文件上,以避免数据丢失;另一方面在内存里也复制了一个副本,以提高性能。通过corosync可以将配置文件实时同步到集群的其他计算节点,实现集群中所有计算节点的管理信息同步,从而消除了管理节点的单点故障,保证集群中的节点持续高可用。
如图3所示,在集群中建立一个外部投票服务进程,通过所述外部投票服务进程选出集群中可以参与投票的投票子***,进一步,从投票子***中选出集群的虚拟主节点,用于执行集群中的包括管理分发的命令在内的自动执行的命令。所述外部投票服务进程通过观测集群中每个计算节点的状态选出可以参与投票的投票子***,集群中每个计算节点都有两个投票权,除了有单点故障的节点,其他节点中只有接收到除了自己本身之外计算节点投票的才可以作为投票子***中的节点,该服务通过网络与集群成员相连接,并向这部分成员提供投票,任意时刻,只能给集群的一部分投票,投票服务进程支持偶数节点数和奇数节点数的集群。外部仲裁者对投票子***中的每个计算节点的得票结果进行统计,并且按照由高到低的得票顺序进行排序,得票数位列第一的计算节点即为由外部仲裁者选出的虚拟主节点。该外部投票服务会将预配置的投票数传递给集群的投票子***,预配置投票数包含了外部仲裁者提供的投票数,其主要作用是提高集群对故障节点数量的容忍度。在整个集群运行过程中,虚拟主节点只有一个,用于执行自动执行的命令。如果所述虚拟主节点意外宕机发生节点故障时,可以通过此投票服务进程选出另一个节点作为虚拟主节点执行任务,有效避免了集群脑裂的发生。其中在选另一个节点作为虚拟主节点是在剔除了该发生节点故障的新投票子***中进行投票选择的,选择虚拟主节点的方式和第一次选择虚拟主节点的方式一样,所以如果投票子***中有运行节点发生节点故障并不会影响集群的投票。
如图4所示,集群中所有计算节点的管理信息存储在数据库中,在整个集群运行过程中,虚拟主节点始终只有一个。如果用户登陆的计算节点不是虚拟主节点,用户所有的操作均由当前登陆的计算节点进行下发,发送给集群中对应的计算节点执行。并且对虚拟机、存储、集群等相关配置文件更新,同步写入当前登陆的计算节点的数据库中,并且由集群文件***将更新后的配置文件同步到集群的其他计算节点上,从而保证管理信息在集群的所有计算节点同步,降低了单点故障的概率。
基于以上目的,本发明的实施例的第二个方面,提出了一种减少私有云计算的单点故障的***,图5示出的是本发明提供的一种减少私有云计算的单点故障的***的实施例的示意图。如图5所示,本发明提供的一种减少私有云计算的单点故障的***,包括以下模块:第一模块011,配置用于在集群中的每个计算节点部署管理软件,通过所述管理软件的集群文件***实现所述集群中的每个计算节点的管理信息同步;第二模块012,配置用于建立外部投票服务的进程,通过所述外部投票服务从所述集群中选出投票子***;第三模块013,配置用于由外部仲裁者从所述投票子***中选出虚拟主节点,以用于执行所述集群中的管理分发的命令;以及第四模块014,配置用于响应于所述虚拟主节点发生单点故障,所述外部仲裁者从所述投票子***中的剩余计算节点中选出一个计算节点作为新虚拟主节点执行任务。
基于以上目的,本发明的实施例的第三个方面,提出了一种计算机设备,图6示出的是本发明提供的一种计算机设备的实施例的示意图。如图6所示,本发明提供的一种计算机设备的实施例,包括以下模块:至少一个处理器021;以及存储器022,存储器022存储有可在处理器021上运行的计算机指令023,所述计算机指令023由所述处理器021执行时实现上述任一方法的步骤。
本发明还提供了一种计算机可读存储介质。图7示出的是本发明提供的一种计算机可读存储介质的实施例的示意图。如图7所示,计算机可读存储介质031存储有被处理器执行时执行如上方法的计算机程序032。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,设置***参数的方法的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及***单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个***的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(D0L)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、D0L或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (10)

1.一种减少私有云计算的单点故障的方法,其特征在于,包括:
在集群中的每个计算节点部署管理软件,通过所述管理软件的集群文件***实现所述集群中的每个计算节点的管理信息同步;
建立外部投票服务的进程,通过所述外部投票服务从所述集群中选出投票子***;
由外部仲裁者从所述投票子***中选出虚拟主节点,以用于执行所述集群中的管理分发的命令;
响应于所述虚拟主节点发生单点故障,所述外部仲裁者从所述投票子***中的剩余计算节点中选出一个计算节点作为新虚拟主节点执行任务。
2.根据权利要求1所述的减少私有云计算的单点故障的方法,所述在集群中的每个计算节点部署管理软件,通过所述管理软件的集群文件***实现所述集群中的每个计算节点的管理信息同步包括:
响应于用户登陆计算节点进行操作,所述计算节点执行对所述集群中的剩余计算节点的任务分配及发送的操作,并且所述计算节点更新管理信息得到新管理信息,通过所述集群文件***将所述新管理信息同步在所述集群中的剩余计算节点。
3.根据权利要求1所述的减少私有云计算的单点故障的方法,所述在集群中的每个计算节点部署管理软件,通过所述管理软件的集群文件***实现所述集群中的每个计算节点的管理信息同步包括:
所述集群中每个计算节点采用嵌入式数据库sqlite存储管理信息。
4.根据权利要求3所述的减少私有云计算的单点故障的方法,所述在集群中的每个计算节点部署管理软件,通过所述管理软件的集群文件***实现所述集群中的每个计算节点的管理信息同步还包括:
FUSE文件***将计算节点对应的管理信息映射为内存中对应的配置文件,以用于存储所述计算节点对应的管理信息;
corosync将所述计算节点对应的配置文件实时同步在所述集群中剩余计算节点,以实现所述集群中的每个计算节点的管理信息同步。
5.根据权利要求1所述的减少私有云计算的单点故障的方法,所述建立外部投票服务的进程,通过所述外部投票服务从所述集群中选出投票子***包括:
所述外部投票服务的进程为所述集群中每个计算节点提供两个投票权;
根据所述计算节点的运行情况以及接收到的投票情况确定所述计算节点是否在所述投票子***中;
响应于所述计算节点运行正常且接收到除自己本身外的投票,确定所述计算节点在所述投票子***中。
6.根据权利要求1所述的减少私有云计算的单点故障的方法,所述由外部仲裁者从所述投票子***中选出虚拟主节点,以用于执行所述集群中的管理分发的命令包括:
外部仲裁者统计所述投票子***中的每个计算节点的得票数,按照由高到低的顺序进行排序;
选择所述得票数位列第一的计算节点作为虚拟主节点,并且由所述虚拟主节点执行所述集群中包括管理分发在内的自动执行的命令。
7.根据权利要求1所述的减少私有云计算的单点故障的方法,所述响应于所述虚拟主节点发生单点故障,所述外部仲裁者从所述投票子***中的剩余计算节点中选出一个计算节点作为新虚拟主节点执行任务包括:
响应于所述虚拟主节点发生单点故障,将所述投票子***中发生单点故障的所述虚拟主节点剔除,得到新投票子***,所述外部投票服务的进程在所述新投票子***中发起新一轮投票,所述外部仲裁者统计所述新投票子***中的每个计算节点的得票数,按照由高到低的顺序进行排序,并且选择所述得票数位列第一的计算节点作为新虚拟主节点。
8.一种减少私有云计算的单点故障的***,其特征在于,包括:
第一模块,配置用于在集群中的每个计算节点部署管理软件,通过所述管理软件的集群文件***实现所述集群中的每个计算节点的管理信息同步;
第二模块,配置用于建立外部投票服务的进程,通过所述外部投票服务从所述集群中选出投票子***;
第三模块,配置用于由外部仲裁者从所述投票子***中选出虚拟主节点,以用于执行所述集群中的管理分发的命令;以及
第四模块,配置用于响应于所述虚拟主节点发生单点故障,所述外部仲裁者从所述投票子***中的剩余计算节点中选出一个计算节点作为新虚拟主节点执行任务。
9.一种计算机设备,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现权利要求1-7任意一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任意一项所述方法的步骤。
CN202210284261.5A 2022-03-22 2022-03-22 减少私有云计算的单点故障的方法、***、设备及介质 Pending CN114610545A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210284261.5A CN114610545A (zh) 2022-03-22 2022-03-22 减少私有云计算的单点故障的方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210284261.5A CN114610545A (zh) 2022-03-22 2022-03-22 减少私有云计算的单点故障的方法、***、设备及介质

Publications (1)

Publication Number Publication Date
CN114610545A true CN114610545A (zh) 2022-06-10

Family

ID=81864512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210284261.5A Pending CN114610545A (zh) 2022-03-22 2022-03-22 减少私有云计算的单点故障的方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN114610545A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115883547A (zh) * 2022-11-15 2023-03-31 浪潮云信息技术股份公司 一种基于DRBD的NiFi高可用部署方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115883547A (zh) * 2022-11-15 2023-03-31 浪潮云信息技术股份公司 一种基于DRBD的NiFi高可用部署方法及***

Similar Documents

Publication Publication Date Title
US10979286B2 (en) Method, device and computer program product for managing distributed system
US9984140B1 (en) Lease based leader election system
CN103460203B (zh) 群集唯一标识符
US8442958B2 (en) Server change management
CN113515499B (zh) 一种数据库服务方法及***
US20080281959A1 (en) Managing addition and removal of nodes in a network
CN110990200B (zh) 一种基于多活数据中心的流量切换方法及装置
CN109845192B (zh) 动态地适配网络的计算机***和方法及计算机可读介质
CN113839814B (zh) 去中心化的Kubernetes集群联邦实现方法及***
EP3648405B1 (en) System and method to create a highly available quorum for clustered solutions
CN103200036A (zh) 一种电力***云计算平台的自动化配置方法
CN112395269B (zh) MySQL高可用组的搭建方法及装置
CN113646749A (zh) Iot分区管理和负载平衡
CN112434008A (zh) 分布式数据库升级方法、设备及介质
CN114610545A (zh) 减少私有云计算的单点故障的方法、***、设备及介质
CN113810216B (zh) 一种集群的故障切换方法、装置及电子设备
EP2110748A2 (en) Cluster control apparatus, control system, control method, and control program
CN104052799B (zh) 一种利用资源环实现高可用存储的方法
EP3349416B1 (en) Relationship chain processing method and system, and storage medium
CN116389233A (zh) 容器云管理平台主备切换***、方法、装置和计算机设备
CN116302716A (zh) 一种集群部署方法、装置、电子设备及计算机可读介质
CN113032107B (zh) 一种云数据库的资源管理方法、装置及***
US11290318B2 (en) Disaster recovery of cloud resources
EP3884648B1 (en) Geo-replicated iot hub
CN114328033A (zh) 保持高可用设备组业务配置一致性的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination