CN104917792A - 民主自治的集群管理方法和*** - Google Patents

民主自治的集群管理方法和*** Download PDF

Info

Publication number
CN104917792A
CN104917792A CN201410090747.0A CN201410090747A CN104917792A CN 104917792 A CN104917792 A CN 104917792A CN 201410090747 A CN201410090747 A CN 201410090747A CN 104917792 A CN104917792 A CN 104917792A
Authority
CN
China
Prior art keywords
node
cluster
chairman
state
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410090747.0A
Other languages
English (en)
Other versions
CN104917792B (zh
Inventor
龚敬群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Baosight Software Co Ltd
Original Assignee
Shanghai Baosight Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Baosight Software Co Ltd filed Critical Shanghai Baosight Software Co Ltd
Priority to CN201410090747.0A priority Critical patent/CN104917792B/zh
Publication of CN104917792A publication Critical patent/CN104917792A/zh
Application granted granted Critical
Publication of CN104917792B publication Critical patent/CN104917792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种民主自治的集群管理方法,包括步骤:步骤1:集群启动;步骤2:集群运行自治;步骤3:集群***自治;步骤4:集群融合自治;步骤5:集群动态伸缩自治;步骤6:集群管理员治理。本发明还提供相应的***。本发明实现了集群在任意单节点异常、多节点异常时,都具备持续的对外服务、集群管理服务提供能力,还可在任意状态下对集群内节点实施检修升级工作和追加服务节点,对Master的选择不需要第三方服务,完成民主自治选取产生支持集群的***自治,提高了容错性和可管理性,本发明还支持管理员的最高管理权限,可广泛应用于需弹性伸缩的、持续服务质量要求高、集群内节点数目大的集群***管理。

Description

民主自治的集群管理方法和***
技术领域
本发明涉及一种集群管理方法,具体涉及基于集群子***间民主自治策略的集群管理***,以提高集群***的可用性、可管理性及可扩展性。
背景技术
随着信息技术的发展,计算机技术的应用已经到达了一种前所未有的广泛程度,***和应用规模成倍增加。在这种情况下,可提供更高并发量访问、更稳定服务质量的***集群技术就应运而生,目前的集群技术多以Master-Slave模式为基础,Master-Slave集群管理方法在集群***中定义一个Mater管理子***(节点)和若干Slave服务提供子***(节点),Master节点可提供集群管理服务(部分集群***也将其设计为可提供业务服务),Slave节点仅能提供业务服务,这种集群模式保证了集群管理的唯一性,同时集群内节点可并行对外提供服务,但这种方案具有以下问题:
1、Master节点存在单点故障的风险。由于为了保障集群管理的唯一性,集群***中仅设计了一个Master(一些改进型Master-Slave集群***设计了备用Master,但也不能避免Master和备用Master都出现故障的情况),而管理功能只由Master提供,所以当Master故障时,整个集群***虽能正常对外提供业务服务,当丧失了管理功能,在Master修复前都不可对集群进行管理;
2、Master-Slave集群***缺乏弹性伸缩的灵活性。Master-Slave集群在集群启动时为每个节点定义了角色,Master仅管理预先定义好的Slave节点,当由于访问量激增而需要临时增加节点以加快服务响应时、或访问量激降而需要临时减少节点以节约资源时,Master-Slave集群管理模式都难以实现对临时节点的管理。
经对现有技术进行检索,发现如下相关文献。
申请号:CN201310058640.3,名称:一种用于分布式服务的集群管理方法和***。该发明公开了一种用于分布式服务的集群管理方法和***,每个服务器向Zookeeper服务发送注册请求;Zookeeper服务根据注册请求对每个服务器进行注册,并根据先后顺序选定其中的一个服务器作为Master;每个已注册的服务器判断是否被选定为Master,如果是则被选定为Master的服务器作为集群管理者对所有的服务器进行管理,并等待其它没有被选定为Master的服务器来注册,否则没有被选定为Master的服务器向选定为Master的服务器进行注册。集群所有服务器启动后首先通过Zookeeper来选举Master,Worker主动联系Master,从而实现Master对集群中所有服务器的管理。
该发明设计了一种集群中Master服务器的管理办法,通过向指定的Zookeeper服务发送注册请求、根据注册先后顺序来确定Master服务器。但该发明对Master的选择需要第三方服务,不能通过民主自治选取产生,需依赖第三方服务,存在第三方服务出现故障时的单点风险;且该发明只能存在一个大集群限制,容错性和可管理性较低。
发明内容
针对现有技术中的缺陷,本发明主要解决的问题是,在保留现有Master-Slave集群管理唯一性、并发提供服务访问的前提下,同时解决集群管理单点故障风险、加强集群***的弹性伸缩灵活性,使得集群***具备更好的可管理性和更高的服务提供质量。
根据本发明提供的一种民主自治的集群管理方法,包括如下步骤:
步骤1:集群启动;
步骤2:集群运行自治;
步骤3:集群***自治;
步骤4:集群融合自治;
步骤5:集群动态伸缩自治;
步骤6:集群管理员治理,其中,集群管理员用户集群管理的最高权限,各节点均提供管理员入口,以执行***节点检修升级、追加服务节点、调整全局策略参数操作。
优选地,所述步骤1包括如下步骤:
步骤101:集群初始化启动时,根据***管理员的指定指令产生***节点,其中,所述指定指令在确定***过程中拥有最高权限;
步骤102:除***节点外,其余节点自动将本节点角色Role置为Slave节点;
步骤103:***节点管理集群的全局配置策略,并将全局策略初始化派送给各Slave节点,其中,所述全局策略初始化包括:全局节点数量、集群标识、各节点名称、各节点角色、各节点监听地址、各节点服务地址、健康检查策略、不信任策略、信息同步策略、信息同步时间间隔、信息同步时间、民主选举策略、各节点当前状态、集群伸缩策略。
优选地,节点状态包括:
启动状态BOOTING:当启动失败时,转入脱离状态;当启动成功时,转入控制状态;
脱离状态DISCONN:当收到信息同步指令时,转入控制状态;
控制状态CONN:当被认为不健康时,转入脱离状态;当收到隔离指令时,转入隔离状态;当收到待机指令时,转入待机状态;当收到关闭指令时,转入关闭进行状态;
关闭进行状态SHUTDOWING:当关闭结束后,转入关闭结束状态;
隔离状态ISOLATED:当收到集合指令时,转入控制状态;
待机状态IDLE:当收到隔离指令时,转入隔离状态;当收到恢复指令时,转入控制状态;当收到关闭指令时,转入关闭进行状态;
未定义状态UNASSIGNED:当收到启动指令时,转入启动状态;当收到信息同步指令时,转入控制状态。
优选地,所述步骤2包括如下步骤:
步骤201:各节点按照信息同步策略及信息同步时间间隔,将自身状态信息块同步给集群中其他节点,其中,所述信息同步策略包括增量同步和海量同步;
步骤202:***节点将全局信息按照信息同步策略及信息同步时间间隔,将集群全局信息同步给所有Slave节点,信息同步策略包括增量同步和海量同步;
步骤203:所有节点接收到其他节点的同步信息后,在BBS中更新相应节点信息存储内存块中;
步骤204:Slave节点在接收到***节点全局同步信息时,更新BBS中***节点信息存储内存块及全局配置变化的参数,比较其余节点更新时间与全局信息包中子项的时间,将BBS中Slave节点信息内存块的信息更新为最新状态值;
步骤205:所有节点按照全局健康检查策略检查各自BBS块中其他节点状态,并维护管理节点状态,其中,健康检查策略由检查周期Th、状态裁定周期n*Th决定;
步骤206:***节点执行步骤205操作,当裁定Slave节点状态为脱离状态DISCONN、或者未定义状态UNASSIGNED时,对Slave执行Boot指令;
步骤207:Slave节点执行步骤205,根据不信任策略,当裁定***节点状态为脱离状态DISCONN时,执行步骤208选举操作;不信任策略为健康检查策略与管理员操作的综合策略;
步骤208:Slave节点根据选举策略进行民主选举:当集群节点数M=2时,Slave节点自动升级为***节点;当集群节点数M=3时,Slave节点IP地址小者升级为***节点;当集群节点数M≥4时,Slave节点向其他Slave节点推举处于控制状态CONN中最小IP者为候选节点,得票多者为为临时***节点,Slave节点等待临时***节点的确认公告信息,并发送认可公告,当临时***节点收到100%的认可后,即成为***节点,否则重复执行步骤208。
优选地,在所述步骤208中,选举策略参数可配置为最小IP优先、或者最大IP优先。
优选地,所述步骤3,包括如下步骤:
步骤301:集群C={N1,N2,N3…Nm},m为集群C中的节点数量,所有节点N1,N2,N3…Nm执行步骤205,将所有非脱离状态DISCONN的节点形成若干个包含本Slave节点的C的真子集SC,,n为集群SC中的节点数量,根据网络特性,约束所有真子集间没有交集,即j≤m,i≤m;
步骤302:含有***节点的真子集形成一个独立的***子集群,进行集群运行自治管理步骤201~步骤208;
步骤303:不含***节点的真子集{SC1,SC2,SC3…SCn}执行步骤208,形成各自独立的***子集群,进行集群运行自治管理。
优选地,所述步骤4包括如下步骤:
步骤401:所有子集群Slave节点执行步骤201、203、204,所有子集群***节点执行步骤202;
步骤402:当Slave节点在执行步骤204时,若收到来自当前子集群标识之外的***节点全局同步信息时,比较两个***节点的IP信息,选择IP较小者加入,并脱离另外一个子集群;
步骤403:当***节点收到来自当前子集群标识之外的***节点全局同步信息时,若该***节点IP小于自身值,则放弃当前***身份,作为Slave节点加入到该子集群。
优选地,所述步骤5包括如下步骤:
步骤501:***节点按周期tl、调整周期数N检查集群内各节点负荷NLmNtl,其中,m为集群节点数,N为负荷调整周期数,tl为负荷周期,当综合负荷CLn满足 CL n < &sigma; | CL n &Element; { &Sigma; i = 1 m NL i 1 tl / m , &Sigma; i = 1 m NL i 2 tl / m , &Sigma; i = 1 m NL i 3 tl / m . . . &Sigma; i = 1 m NL iNtl / m } 时,其中,σ为弹性伸缩下限值,发送待机指令给当前集群内IP最大值Slave节点,并将停止该节点对外服务的消息广播到集群内其他Slave节点,该Slave节点完成当前工作后即处于待机状态IDLE,释放***资源;
步骤502:***节点按周期检查集群内各节点负荷NLmNtl,当综合负荷满足 CL n > &lambda; | CL n &Element; { &Sigma; i = 1 m NL i 1 tl / m , &Sigma; i = 1 m NL i 2 tl / m , &Sigma; i = 1 m NL i 3 tl / m . . . &Sigma; i = 1 m NL iNtl / m } 时,其中,λ为弹性伸缩上限值,查找当前集群内是否存在待机状态IDLE的节点,如果存在,***节点发送启用命令到处于待机状态IDLE中IP值最大的节点,将其重新加入到集群中。
优选地,所述步骤6包括如下步骤:
步骤601:***管理员登录任何一个节点,执行获取***节点管理权指令,当前节点将指令发送给***节点,若获得回复,则修改节点修改角色状态标识ROLE=M以变为***节点,***节点修改角色状态标识ROLE=S以变为Slave节点,当前节点接替成为***节点执行集群管理职责步骤202、步骤206;
步骤602:选择需要检修升级节点之外的其他任意节点,执行步骤601获得管理员***权限,对待检修升级节点执行隔离指令,当该节点处于隔离状态ISOLATED时,对该节点实施检修、升级操作,此时,该节点处于不提供服务状态,当完成检修工作后,执行集合指令恢复;
步骤603:准备好需要追加的集群服务节点执行步骤601,执行追加导入指令(URL_LIST,),其中,URL_LIST为URL列表信息,为对应节点的URL,***节点将全局集群URL列表信息URL_LIST导入到节点同时蒋追加到集群;集群执行步骤402、步骤403。
根据本发明提供的一种民主自治的集群管理***,所述***用于执行上述的民主自治的集群管理方法。
与现有技术相比,本发明具有如下的有益效果:
1、本发明可广泛应用于需弹性伸缩的、持续服务质量要求高、集群内节点数目大的集群***管理。
2、本发明实现了多节点集群的自治管理,使得集群在任意单节点异常、多节点异常时,都具备持续的对外服务、集群管理服务提供能力,极大地提高了多节点集群的可用性和可管理性;同时,还可在任意状态下对集群内节点实施检修升级工作和追加服务节点,满足用户对集群的管理需求;另外,使用本发明的集群具有实际可用的弹性伸缩特性,为用户节约***资源。
3、本发明对Master的选择不需要第三方服务,完成民主自治选取产生,减少了对第三方服务的依赖,且屏蔽了当第三方服务出现故障时的单点风险;同时相对与该发明只能存在一个大集群限制,本发明支持集群的***自治,提高了容错性和可管理性;本发明还支持管理员的最高管理权限。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的节点状态流转示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
基于民主自治的集群基于两点基本原则:
原则a)同一时刻只有一个管理节点,任何节点都可以成为管理节点,管理节点的产生可以通过管理员指定,也可以通过集群选举产生;
原则b)所有节点包括管理节点,在提供服务访问方面是对等的。
步骤1:集群启动
步骤101:集群初始化启动时,***管理员通过‘指定’的方式产生***,‘指定’指令在确定***过程中拥有最高权限;
步骤102:除***节点外,其余节点自动将本节点Role置为Slave节点;
步骤103:***节点管理集群的全局配置策略,并将全局策略初始化派送给各Slave节点,包括:全局节点数量、集群标识、各节点名称、各节点角色、各节点监听地址、各节点服务地址、健康检查策略、不信任策略、信息同步策略、信息同步时间间隔、信息同步时间、民主选举策略、各节点当前状态、集群伸缩策略等。
步骤2:集群运行自治
步骤201:各节点按照信息同步策略及信息同步时间间隔,将自身状态信息块同步给集群中其他节点,信息同步策略包括增量同步和海量同步;
步骤202:***节点将全局信息按照信息同步策略及信息同步时间间隔,将集群全局信息同步给所有Slave节点,信息同步策略包括增量同步和海量同步;
步骤203:所有节点接收到其他节点的同步信息后,在BBS中更新相应节点信息存储内存块中;
步骤204:Slave节点在接收到***节点全局同步信息时,更新BBS中***节点信息存储内存块及全局配置变化的参数,比较其余节点更新时间与全局信息包中子项的时间,将BBS中Slave节点信息内存块的信息更新为最新状态值;
步骤205:所有节点按照全局健康检查策略检查各自BBS块中其他节点状态,并按照图1所示状态流转图维护管理节点状态。健康检查策略由检查周期Th、状态裁定周期n*Th决定;
步骤206:***节点执行步骤205操作,当裁定Slave节点状态为DISCONN、UNASSIGNED状态时,对Slave执行Boot指令;
步骤207:Slave节点执行步骤205,根据不信任策略,当裁定***节点状态为DISCONN状态时,执行步骤208选举操作。不信任策略为健康检查策略与管理员操作的综合策略;
步骤208:Slave节点根据选举策略进行民主选举:当集群节点数M=2时,Slave节点自动升级为***节点;当集群节点数M=3时,Slave节点IP地址小者升级为***节点;当集群节点数M>=4时,Slave节点向其他Slave节点推举CONN状态最小IP者为候选节点,得票多者为为临时***节点,Slave节点等待临时***节点的确认公告信息,并发送认可公告,当临时***节点收到100%的认可后,即成为***节点,否则重复执行步骤208;选举策略参数可配置为最小IP优先、最大IP优先等。
步骤3:集群***自治
集群***自治解决因网络故障而将集群***为多个子网时,集群失去部分管理职能的问题。
步骤301:集群C={N1,N2,N3…Nm},所有节点执行步骤205,将所有非DISCONN状态的节点形成若干个包含本Slave节点的C的真子集SC,根据网络特性,约束所有真子集间没有交集,即j≤m,≤m;
步骤302:含有***节点的真子集形成一个独立的***子集群,进行集群运行自治管理步骤201~步骤208;
步骤303:不含***节点的真子集{SC1,SC2,SC3…SCn}执行步骤208,形成各自独立的***子集群,进行集群运行自治管理。
步骤4:集群融合自治
步骤401:所有子集群Slave节点执行步骤201、203、204,所有子集群***节点执行步骤202;
步骤402:当Slave节点在执行步骤204时,若收到来自当前子集群标识之外的***节点全局同步信息时,比较两个***节点的IP信息,选择IP较小者加入,并脱离另外一个子集群;
步骤403:当***节点收到来自当前子集群标识之外的***节点全局同步信息时,若该***节点IP小于自身值,则放弃当前***身份,作为Slave节点加入到该子集群。
步骤5:集群动态伸缩自治
步骤501:***节点按周期tl、调整周期数N检查集群内各节点负荷NLmNtl(m:集群节点数;N:负荷调整周期数;tl:负荷周期),当综合负荷 CL n < &sigma; | CL n &Element; { &Sigma; i = 1 m NL i 1 tl / m , &Sigma; i = 1 m NL i 2 tl / m , &Sigma; i = 1 m NL i 3 tl / m . . . &Sigma; i = 1 m NL iNtl / m } 时(σ:弹性伸缩下限值),发送待机指令给当前集群内IP最大值Slave节点,并将停止该节点对外服务的消息广播到集群内其他Slave节点,该Slave节点完成当前工作后即处于待机IDLE状态,释放***资源。节点负荷NLmNtl可依据全局资源、关键资源、特性资源综合测算;
步骤502:***节点按周期检查集群内各节点负荷NLmNtl,当综合负荷 CL n > &lambda; | CL n &Element; { &Sigma; i = 1 m NL i 1 tl / m , &Sigma; i = 1 m NL i 2 tl / m , &Sigma; i = 1 m NL i 3 tl / m . . . &Sigma; i = 1 m NL iNtl / m } 时(λ:弹性伸缩上限值),查找当前集群内是否存在IDLE状态的节点,如果存在,***节点发送启用命令到处于IDLE状态IP值最大的节点,将其重新加入到集群中。
步骤6:集群管理员治理
集群管理员用户集群管理的最高权限,各节点均提供管理员入口,以执行***节点检修升级、追加服务节点、调整全局策略参数等操作。
步骤601:***管理员登录任何一个节点,执行获取***节点管理权指令,当前节点将指令发送给***节点,若获得回复,则修改节点修改状态标识ROLE=M,***节点修改状态标识ROLE=S,当前节点接替成为***节点执行集群管理职责步骤202、步骤206;
步骤602:选择需要检修升级节点之外的其他任意节点,执行步骤601获得管理员***权限,对待检修升级节点执行隔离指令,当该节点STATUS=ISOLATED时,及可对该节点实施检修、升级操作,此时,该节点处于不提供服务状态,当完成检修工作后,执行集合指令恢复;
步骤603:准备好需要追加的集群服务节点,执行步骤601,执行追加导入指令(URL_LIST,),***节点将全局集群URL_LIST信息导入到节点,同时将追加到集群。集群执行步骤402、步骤403。
交易中间件iXTOP1.8版本应用了本发明的技术方案,实现了支持分布式交易的集群***管理。该集群默认支持32个服务节点的集群管理,每个节点部署了管理者进程、随机启动管理监听进程、远程管理队列和管理员工具,管理者进程通过远程管理队列与相互之间进行通信和交互,随机启动管理监听进程确保管理者可以在初始状态和SHUTDOWN状态下联络到被管理节点,管理员工具为***管理员提供管理入口。整个集群可自治管理,也可管理人员管理。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (10)

1.一种民主自治的集群管理方法,其特征在于,包括如下步骤:
步骤1:集群启动;
步骤2:集群运行自治;
步骤3:集群***自治;
步骤4:集群融合自治;
步骤5:集群动态伸缩自治;
步骤6:集群管理员治理,其中,集群管理员用户集群管理的最高权限,各节点均提供管理员入口,以执行***节点检修升级、追加服务节点、调整全局策略参数操作。
2.根据权利要求1所述的民主自治的集群管理方法,其特征在于,所述步骤1包括如下步骤:
步骤101:集群初始化启动时,根据***管理员的指定指令产生***节点,其中,所述指定指令在确定***过程中拥有最高权限;
步骤102:除***节点外,其余节点自动将本节点角色Role置为Slave节点;
步骤103:***节点管理集群的全局配置策略,并将全局策略初始化派送给各Slave节点,其中,所述全局策略初始化包括:全局节点数量、集群标识、各节点名称、各节点角色、各节点监听地址、各节点服务地址、健康检查策略、不信任策略、信息同步策略、信息同步时间间隔、信息同步时间、民主选举策略、各节点当前状态、集群伸缩策略。
3.根据权利要求1所述的民主自治的集群管理方法,其特征在于,节点状态包括:
启动状态BOOTING:当启动失败时,转入脱离状态;当启动成功时,转入控制状态;
脱离状态DISCONN:当收到信息同步指令时,转入控制状态;
控制状态CONN:当被认为不健康时,转入脱离状态;当收到隔离指令时,转入隔离状态;当收到待机指令时,转入待机状态;当收到关闭指令时,转入关闭进行状态;
关闭进行状态SHUTDOWING:当关闭结束后,转入关闭结束状态SHUTDOWNED;
隔离状态ISOLATED:当收到集合指令时,转入控制状态;
待机状态IDLE:当收到隔离指令时,转入隔离状态;当收到恢复指令时,转入控制状态;当收到关闭指令时,转入关闭进行状态;
未定义状态UNASSIGNED:当收到启动指令时,转入启动状态;当收到信息同步指令时,转入控制状态。
4.根据权利要求3所述的民主自治的集群管理方法,其特征在于,所述步骤2包括如下步骤:
步骤201:各节点按照信息同步策略及信息同步时间间隔,将自身状态信息块同步给集群中其他节点,其中,所述信息同步策略包括增量同步和海量同步;
步骤202:***节点将全局信息按照信息同步策略及信息同步时间间隔,将集群全局信息同步给所有Slave节点,信息同步策略包括增量同步和海量同步;
步骤203:所有节点接收到其他节点的同步信息后,在BBS中更新相应节点信息存储内存块中;
步骤204:Slave节点在接收到***节点全局同步信息时,更新BBS中***节点信息存储内存块及全局配置变化的参数,比较其余节点更新时间与全局信息包中子项的时间,将BBS中Slave节点信息内存块的信息更新为最新状态值;
步骤205:所有节点按照全局健康检查策略检查各自BBS块中其他节点状态,并维护管理节点状态,其中,健康检查策略由检查周期Th、状态裁定周期n*Th决定;
步骤206:***节点执行步骤205操作,当裁定Slave节点状态为脱离状态DISCONN、或者未定义状态UNASSIGNED时,对Slave执行Boot指令;
步骤207:Slave节点执行步骤205,根据不信任策略,当裁定***节点状态为脱离状态DISCONN时,执行步骤208选举操作;不信任策略为健康检查策略与管理员操作的综合策略;
步骤208:Slave节点根据选举策略进行民主选举:当集群节点数M=2时,Slave节点自动升级为***节点;当集群节点数M=3时,Slave节点IP地址小者升级为***节点;当集群节点数M≥4时,Slave节点向其他Slave节点推举处于控制状态CONN中最小IP者为候选节点,得票多者为为临时***节点,Slave节点等待临时***节点的确认公告信息,并发送认可公告,当临时***节点收到100%的认可后,即成为***节点,否则重复执行步骤208。
5.根据权利要求4所述的民主自治的集群管理方法,其特征在于,在所述步骤208中,选举策略参数可配置为最小IP优先、或者最大IP优先。
6.根据权利要求4所述的民主自治的集群管理方法,其特征在于,所述步骤3,包括如下步骤:
步骤301:集群C={N1,N2,N3…Nm},m为集群C中的节点数量,所有节点N1,N2,N3…Nm执行步骤205,将所有非脱离状态DISCONN的节点形成若干个包含本Slave节点的C的真子集SC,n为集群SC中的节点数量,根据网络特性,约束所有真子集间没有交集,即j≤m,i≤m;
步骤302:含有***节点的真子集形成一个独立的***子集群,进行集群运行自治管理步骤201~步骤208;
步骤303:不含***节点的真子集{SC1,SC2,SC3…SCn}执行步骤208,形成各自独立的***子集群,进行集群运行自治管理。
7.根据权利要求4所述的民主自治的集群管理方法,其特征在于,所述步骤4包括如下步骤:
步骤401:所有子集群Slave节点执行步骤201、203、204,所有子集群***节点执行步骤202;
步骤402:当Slave节点在执行步骤204时,若收到来自当前子集群标识之外的***节点全局同步信息时,比较两个***节点的IP信息,选择IP较小者加入,并脱离另外一个子集群;
步骤403:当***节点收到来自当前子集群标识之外的***节点全局同步信息时,若该***节点IP小于自身值,则放弃当前***身份,作为Slave节点加入到该子集群。
8.根据权利要求4所述的民主自治的集群管理方法,其特征在于,所述步骤5包括如下步骤:
步骤501:***节点按周期tl、调整周期数N检查集群内各节点负荷NLmNtl,其中,m为集群节点数,N为负荷调整周期数,tl为负荷周期,当综合负荷CLn满足 CL n < &sigma; | CL n &Element; { &Sigma; i = 1 m NL i 1 tl / m , &Sigma; i = 1 m NL i 2 tl / m , &Sigma; i = 1 m NL i 3 tl / m . . . &Sigma; i = 1 m NL iNtl / m } 时,其中,σ为弹性伸缩下限值,发送待机指令给当前集群内IP最大值Slave节点,并将停止该节点对外服务的消息广播到集群内其他Slave节点,该Slave节点完成当前工作后即处于待机状态IDLE,释放***资源;
步骤502:***节点按周期检查集群内各节点负荷NLmNtl,当综合负荷满足 CL n > &lambda; | CL n &Element; { &Sigma; i = 1 m NL i 1 tl / m , &Sigma; i = 1 m NL i 2 tl / m , &Sigma; i = 1 m NL i 3 tl / m . . . &Sigma; i = 1 m NL iNtl / m } 时,其中,λ为弹性伸缩上限值,查找当前集群内是否存在待机状态IDLE的节点,如果存在,***节点发送启用命令到处于待机状态IDLE中IP值最大的节点,将其重新加入到集群中。
9.根据权利要求7所述的民主自治的集群管理方法,其特征在于,所述步骤6包括如下步骤:
步骤601:***管理员登录任何一个节点,执行获取***节点管理权指令,当前节点将指令发送给***节点,若获得回复,则修改节点修改角色状态标识ROLE=M以变为***节点,***节点修改角色状态标识ROLE=S以变为Slave节点,当前节点接替成为***节点执行集群管理职责步骤202、步骤206;
步骤602:选择需要检修升级节点之外的其他任意节点,执行步骤601获得管理员***权限,对待检修升级节点执行隔离指令,当该节点处于隔离状态ISOLATED时,对该节点实施检修、升级操作,此时,该节点处于不提供服务状态,当完成检修工作后,执行集合指令恢复;
步骤603:准备好需要追加的集群服务节点执行步骤601,执行追加导入指令(URL_LIST,),其中,URL_LIST为URL列表信息,为对应节点的URL,***节点将全局集群URL列表信息URL_LIST导入到节点同时蒋追加到集群;集群执行步骤402、步骤403。
10.一种民主自治的集群管理***,其特征在于,所述***用于执行权利要求1至9中任一项所述的民主自治的集群管理方法。
CN201410090747.0A 2014-03-12 2014-03-12 民主自治的集群管理方法和*** Active CN104917792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410090747.0A CN104917792B (zh) 2014-03-12 2014-03-12 民主自治的集群管理方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410090747.0A CN104917792B (zh) 2014-03-12 2014-03-12 民主自治的集群管理方法和***

Publications (2)

Publication Number Publication Date
CN104917792A true CN104917792A (zh) 2015-09-16
CN104917792B CN104917792B (zh) 2018-10-30

Family

ID=54086496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410090747.0A Active CN104917792B (zh) 2014-03-12 2014-03-12 民主自治的集群管理方法和***

Country Status (1)

Country Link
CN (1) CN104917792B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106301904A (zh) * 2016-08-08 2017-01-04 无锡天脉聚源传媒科技有限公司 一种集群服务器管理方法及装置
CN106657390A (zh) * 2017-01-22 2017-05-10 郑州云海信息技术有限公司 集群文件***目录隔离方法、装置及***
CN106685688A (zh) * 2016-09-26 2017-05-17 深圳市潮流网络技术有限公司 一种集群计算机设备同步升级方法
CN106790624A (zh) * 2016-12-30 2017-05-31 Tcl集团股份有限公司 新节点加入服务器集群的方法及装置
CN107453929A (zh) * 2017-09-22 2017-12-08 中国联合网络通信集团有限公司 集群***自构建方法、装置及集群***
WO2017215430A1 (zh) * 2016-06-14 2017-12-21 中兴通讯股份有限公司 一种集群内的节点管理方法及节点设备
CN108111337A (zh) * 2017-12-06 2018-06-01 北京天融信网络安全技术有限公司 分布式***仲裁主节点的方法及设备
CN108768749A (zh) * 2018-06-21 2018-11-06 佛山科学技术学院 一种基于区块链的节点隔离自恢复方法及装置
CN108769199A (zh) * 2018-05-29 2018-11-06 郑州云海信息技术有限公司 一种分布式文件存储***主节点管理方法及装置
CN111835534A (zh) * 2019-04-15 2020-10-27 华为技术有限公司 一种集群控制的方法及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1645862A (zh) * 2005-02-01 2005-07-27 北京北方烽火科技有限公司 一种集群中主控节点自适应选举算法
CN101702721A (zh) * 2009-10-26 2010-05-05 北京航空航天大学 一种多集群***的可重组方法
CN102130938A (zh) * 2010-12-03 2011-07-20 中国科学院软件研究所 一种面向Web应用宿主平台的资源供给方法
CN102843259A (zh) * 2012-08-21 2012-12-26 武汉达梦数据库有限公司 集群内中间件自管理热备方法及***
CN103441918A (zh) * 2013-08-29 2013-12-11 哈尔滨工程大学 一种自组织集群服务器***及其自组织方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1645862A (zh) * 2005-02-01 2005-07-27 北京北方烽火科技有限公司 一种集群中主控节点自适应选举算法
CN101702721A (zh) * 2009-10-26 2010-05-05 北京航空航天大学 一种多集群***的可重组方法
CN102130938A (zh) * 2010-12-03 2011-07-20 中国科学院软件研究所 一种面向Web应用宿主平台的资源供给方法
CN102843259A (zh) * 2012-08-21 2012-12-26 武汉达梦数据库有限公司 集群内中间件自管理热备方法及***
CN103441918A (zh) * 2013-08-29 2013-12-11 哈尔滨工程大学 一种自组织集群服务器***及其自组织方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017215430A1 (zh) * 2016-06-14 2017-12-21 中兴通讯股份有限公司 一种集群内的节点管理方法及节点设备
CN107508694B (zh) * 2016-06-14 2021-11-16 中兴通讯股份有限公司 一种集群内的节点管理方法及节点设备
CN107508694A (zh) * 2016-06-14 2017-12-22 中兴通讯股份有限公司 一种集群内的节点管理方法及节点设备
CN106301904A (zh) * 2016-08-08 2017-01-04 无锡天脉聚源传媒科技有限公司 一种集群服务器管理方法及装置
CN106685688A (zh) * 2016-09-26 2017-05-17 深圳市潮流网络技术有限公司 一种集群计算机设备同步升级方法
CN106790624A (zh) * 2016-12-30 2017-05-31 Tcl集团股份有限公司 新节点加入服务器集群的方法及装置
CN106657390A (zh) * 2017-01-22 2017-05-10 郑州云海信息技术有限公司 集群文件***目录隔离方法、装置及***
CN107453929A (zh) * 2017-09-22 2017-12-08 中国联合网络通信集团有限公司 集群***自构建方法、装置及集群***
CN108111337A (zh) * 2017-12-06 2018-06-01 北京天融信网络安全技术有限公司 分布式***仲裁主节点的方法及设备
CN108111337B (zh) * 2017-12-06 2021-04-06 北京天融信网络安全技术有限公司 分布式***仲裁主节点的方法及设备
CN108769199A (zh) * 2018-05-29 2018-11-06 郑州云海信息技术有限公司 一种分布式文件存储***主节点管理方法及装置
CN108768749A (zh) * 2018-06-21 2018-11-06 佛山科学技术学院 一种基于区块链的节点隔离自恢复方法及装置
CN111835534A (zh) * 2019-04-15 2020-10-27 华为技术有限公司 一种集群控制的方法及相关设备

Also Published As

Publication number Publication date
CN104917792B (zh) 2018-10-30

Similar Documents

Publication Publication Date Title
CN104917792A (zh) 民主自治的集群管理方法和***
CN109885389B (zh) 一种基于容器的并行深度学习调度训练方法及***
US11704144B2 (en) Creating virtual machine groups based on request
CN105468450B (zh) 任务调度方法及***
EP2532145B1 (en) Load and backup assignment balancing in high availability systems
WO2017128507A1 (zh) 一种去中心化资源调度方法及***
CN106919445A (zh) 一种在集群中并行调度容器的方法和装置
CN109933338B (zh) 区块链部署方法、装置、计算机设备和存储介质
CN112104723A (zh) 一种多集群的数据处理***及方法
CN111988160B (zh) 一种虚拟化网络功能的部署方法和装置
CN112948063A (zh) 云平台的创建方法、装置、云平台以及云平台实现***
CN105005509A (zh) 一种基于运行时模型的云计算容错机制配置方法
Dadashi Gavaber et al. BADEP: bandwidth and delay efficient application placement in fog‐based IoT systems
CN109067903A (zh) 一种云平台级联***
CN114567584A (zh) 路由信息处理方法、装置、计算机设备和存储介质
CN106254452A (zh) 云平台下的医疗大数据访问方法
CN113672335A (zh) 容器调度方法、装置、电子装置和存储介质
CN112631680A (zh) 微服务容器调度***、方法、装置和计算机设备
Fan et al. Method of maintaining data consistency in microservice architecture
WO2023209414A1 (en) Methods and apparatus for computing resource allocation
CN114860266A (zh) 一种多方安全计算模型的部署方法和***
CN114710350A (zh) 一种可调用资源的分配方法和装置
CN207854192U (zh) 一种基于互联网的多节点实时无线电监测控制***
CN116112499B (zh) 数据采集***的构建方法及数据采集方法
CN116938943B (zh) 云主机调度方法、装置、设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant