CN104917792A - 民主自治的集群管理方法和*** - Google Patents
民主自治的集群管理方法和*** Download PDFInfo
- Publication number
- CN104917792A CN104917792A CN201410090747.0A CN201410090747A CN104917792A CN 104917792 A CN104917792 A CN 104917792A CN 201410090747 A CN201410090747 A CN 201410090747A CN 104917792 A CN104917792 A CN 104917792A
- Authority
- CN
- China
- Prior art keywords
- node
- cluster
- chairman
- state
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供了一种民主自治的集群管理方法,包括步骤:步骤1:集群启动;步骤2:集群运行自治;步骤3:集群***自治;步骤4:集群融合自治;步骤5:集群动态伸缩自治;步骤6:集群管理员治理。本发明还提供相应的***。本发明实现了集群在任意单节点异常、多节点异常时,都具备持续的对外服务、集群管理服务提供能力,还可在任意状态下对集群内节点实施检修升级工作和追加服务节点,对Master的选择不需要第三方服务,完成民主自治选取产生支持集群的***自治,提高了容错性和可管理性,本发明还支持管理员的最高管理权限,可广泛应用于需弹性伸缩的、持续服务质量要求高、集群内节点数目大的集群***管理。
Description
技术领域
本发明涉及一种集群管理方法,具体涉及基于集群子***间民主自治策略的集群管理***,以提高集群***的可用性、可管理性及可扩展性。
背景技术
随着信息技术的发展,计算机技术的应用已经到达了一种前所未有的广泛程度,***和应用规模成倍增加。在这种情况下,可提供更高并发量访问、更稳定服务质量的***集群技术就应运而生,目前的集群技术多以Master-Slave模式为基础,Master-Slave集群管理方法在集群***中定义一个Mater管理子***(节点)和若干Slave服务提供子***(节点),Master节点可提供集群管理服务(部分集群***也将其设计为可提供业务服务),Slave节点仅能提供业务服务,这种集群模式保证了集群管理的唯一性,同时集群内节点可并行对外提供服务,但这种方案具有以下问题:
1、Master节点存在单点故障的风险。由于为了保障集群管理的唯一性,集群***中仅设计了一个Master(一些改进型Master-Slave集群***设计了备用Master,但也不能避免Master和备用Master都出现故障的情况),而管理功能只由Master提供,所以当Master故障时,整个集群***虽能正常对外提供业务服务,当丧失了管理功能,在Master修复前都不可对集群进行管理;
2、Master-Slave集群***缺乏弹性伸缩的灵活性。Master-Slave集群在集群启动时为每个节点定义了角色,Master仅管理预先定义好的Slave节点,当由于访问量激增而需要临时增加节点以加快服务响应时、或访问量激降而需要临时减少节点以节约资源时,Master-Slave集群管理模式都难以实现对临时节点的管理。
经对现有技术进行检索,发现如下相关文献。
申请号:CN201310058640.3,名称:一种用于分布式服务的集群管理方法和***。该发明公开了一种用于分布式服务的集群管理方法和***,每个服务器向Zookeeper服务发送注册请求;Zookeeper服务根据注册请求对每个服务器进行注册,并根据先后顺序选定其中的一个服务器作为Master;每个已注册的服务器判断是否被选定为Master,如果是则被选定为Master的服务器作为集群管理者对所有的服务器进行管理,并等待其它没有被选定为Master的服务器来注册,否则没有被选定为Master的服务器向选定为Master的服务器进行注册。集群所有服务器启动后首先通过Zookeeper来选举Master,Worker主动联系Master,从而实现Master对集群中所有服务器的管理。
该发明设计了一种集群中Master服务器的管理办法,通过向指定的Zookeeper服务发送注册请求、根据注册先后顺序来确定Master服务器。但该发明对Master的选择需要第三方服务,不能通过民主自治选取产生,需依赖第三方服务,存在第三方服务出现故障时的单点风险;且该发明只能存在一个大集群限制,容错性和可管理性较低。
发明内容
针对现有技术中的缺陷,本发明主要解决的问题是,在保留现有Master-Slave集群管理唯一性、并发提供服务访问的前提下,同时解决集群管理单点故障风险、加强集群***的弹性伸缩灵活性,使得集群***具备更好的可管理性和更高的服务提供质量。
根据本发明提供的一种民主自治的集群管理方法,包括如下步骤:
步骤1:集群启动;
步骤2:集群运行自治;
步骤3:集群***自治;
步骤4:集群融合自治;
步骤5:集群动态伸缩自治;
步骤6:集群管理员治理,其中,集群管理员用户集群管理的最高权限,各节点均提供管理员入口,以执行***节点检修升级、追加服务节点、调整全局策略参数操作。
优选地,所述步骤1包括如下步骤:
步骤101:集群初始化启动时,根据***管理员的指定指令产生***节点,其中,所述指定指令在确定***过程中拥有最高权限;
步骤102:除***节点外,其余节点自动将本节点角色Role置为Slave节点;
步骤103:***节点管理集群的全局配置策略,并将全局策略初始化派送给各Slave节点,其中,所述全局策略初始化包括:全局节点数量、集群标识、各节点名称、各节点角色、各节点监听地址、各节点服务地址、健康检查策略、不信任策略、信息同步策略、信息同步时间间隔、信息同步时间、民主选举策略、各节点当前状态、集群伸缩策略。
优选地,节点状态包括:
启动状态BOOTING:当启动失败时,转入脱离状态;当启动成功时,转入控制状态;
脱离状态DISCONN:当收到信息同步指令时,转入控制状态;
控制状态CONN:当被认为不健康时,转入脱离状态;当收到隔离指令时,转入隔离状态;当收到待机指令时,转入待机状态;当收到关闭指令时,转入关闭进行状态;
关闭进行状态SHUTDOWING:当关闭结束后,转入关闭结束状态;
隔离状态ISOLATED:当收到集合指令时,转入控制状态;
待机状态IDLE:当收到隔离指令时,转入隔离状态;当收到恢复指令时,转入控制状态;当收到关闭指令时,转入关闭进行状态;
未定义状态UNASSIGNED:当收到启动指令时,转入启动状态;当收到信息同步指令时,转入控制状态。
优选地,所述步骤2包括如下步骤:
步骤201:各节点按照信息同步策略及信息同步时间间隔,将自身状态信息块同步给集群中其他节点,其中,所述信息同步策略包括增量同步和海量同步;
步骤202:***节点将全局信息按照信息同步策略及信息同步时间间隔,将集群全局信息同步给所有Slave节点,信息同步策略包括增量同步和海量同步;
步骤203:所有节点接收到其他节点的同步信息后,在BBS中更新相应节点信息存储内存块中;
步骤204:Slave节点在接收到***节点全局同步信息时,更新BBS中***节点信息存储内存块及全局配置变化的参数,比较其余节点更新时间与全局信息包中子项的时间,将BBS中Slave节点信息内存块的信息更新为最新状态值;
步骤205:所有节点按照全局健康检查策略检查各自BBS块中其他节点状态,并维护管理节点状态,其中,健康检查策略由检查周期Th、状态裁定周期n*Th决定;
步骤206:***节点执行步骤205操作,当裁定Slave节点状态为脱离状态DISCONN、或者未定义状态UNASSIGNED时,对Slave执行Boot指令;
步骤207:Slave节点执行步骤205,根据不信任策略,当裁定***节点状态为脱离状态DISCONN时,执行步骤208选举操作;不信任策略为健康检查策略与管理员操作的综合策略;
步骤208:Slave节点根据选举策略进行民主选举:当集群节点数M=2时,Slave节点自动升级为***节点;当集群节点数M=3时,Slave节点IP地址小者升级为***节点;当集群节点数M≥4时,Slave节点向其他Slave节点推举处于控制状态CONN中最小IP者为候选节点,得票多者为为临时***节点,Slave节点等待临时***节点的确认公告信息,并发送认可公告,当临时***节点收到100%的认可后,即成为***节点,否则重复执行步骤208。
优选地,在所述步骤208中,选举策略参数可配置为最小IP优先、或者最大IP优先。
优选地,所述步骤3,包括如下步骤:
步骤301:集群C={N1,N2,N3…Nm},m为集群C中的节点数量,所有节点N1,N2,N3…Nm执行步骤205,将所有非脱离状态DISCONN的节点形成若干个包含本Slave节点的C的真子集SC,,n为集群SC中的节点数量,根据网络特性,约束所有真子集间没有交集,即j≤m,i≤m;
步骤302:含有***节点的真子集形成一个独立的***子集群,进行集群运行自治管理步骤201~步骤208;
步骤303:不含***节点的真子集{SC1,SC2,SC3…SCn}执行步骤208,形成各自独立的***子集群,进行集群运行自治管理。
优选地,所述步骤4包括如下步骤:
步骤401:所有子集群Slave节点执行步骤201、203、204,所有子集群***节点执行步骤202;
步骤402:当Slave节点在执行步骤204时,若收到来自当前子集群标识之外的***节点全局同步信息时,比较两个***节点的IP信息,选择IP较小者加入,并脱离另外一个子集群;
步骤403:当***节点收到来自当前子集群标识之外的***节点全局同步信息时,若该***节点IP小于自身值,则放弃当前***身份,作为Slave节点加入到该子集群。
优选地,所述步骤5包括如下步骤:
步骤501:***节点按周期tl、调整周期数N检查集群内各节点负荷NLmNtl,其中,m为集群节点数,N为负荷调整周期数,tl为负荷周期,当综合负荷CLn满足 时,其中,σ为弹性伸缩下限值,发送待机指令给当前集群内IP最大值Slave节点,并将停止该节点对外服务的消息广播到集群内其他Slave节点,该Slave节点完成当前工作后即处于待机状态IDLE,释放***资源;
步骤502:***节点按周期检查集群内各节点负荷NLmNtl,当综合负荷满足 时,其中,λ为弹性伸缩上限值,查找当前集群内是否存在待机状态IDLE的节点,如果存在,***节点发送启用命令到处于待机状态IDLE中IP值最大的节点,将其重新加入到集群中。
优选地,所述步骤6包括如下步骤:
步骤601:***管理员登录任何一个节点,执行获取***节点管理权指令,当前节点将指令发送给***节点,若获得回复,则修改节点修改角色状态标识ROLE=M以变为***节点,***节点修改角色状态标识ROLE=S以变为Slave节点,当前节点接替成为***节点执行集群管理职责步骤202、步骤206;
步骤602:选择需要检修升级节点之外的其他任意节点,执行步骤601获得管理员***权限,对待检修升级节点执行隔离指令,当该节点处于隔离状态ISOLATED时,对该节点实施检修、升级操作,此时,该节点处于不提供服务状态,当完成检修工作后,执行集合指令恢复;
步骤603:准备好需要追加的集群服务节点执行步骤601,执行追加导入指令(URL_LIST,),其中,URL_LIST为URL列表信息,为对应节点的URL,***节点将全局集群URL列表信息URL_LIST导入到节点同时蒋追加到集群;集群执行步骤402、步骤403。
根据本发明提供的一种民主自治的集群管理***,所述***用于执行上述的民主自治的集群管理方法。
与现有技术相比,本发明具有如下的有益效果:
1、本发明可广泛应用于需弹性伸缩的、持续服务质量要求高、集群内节点数目大的集群***管理。
2、本发明实现了多节点集群的自治管理,使得集群在任意单节点异常、多节点异常时,都具备持续的对外服务、集群管理服务提供能力,极大地提高了多节点集群的可用性和可管理性;同时,还可在任意状态下对集群内节点实施检修升级工作和追加服务节点,满足用户对集群的管理需求;另外,使用本发明的集群具有实际可用的弹性伸缩特性,为用户节约***资源。
3、本发明对Master的选择不需要第三方服务,完成民主自治选取产生,减少了对第三方服务的依赖,且屏蔽了当第三方服务出现故障时的单点风险;同时相对与该发明只能存在一个大集群限制,本发明支持集群的***自治,提高了容错性和可管理性;本发明还支持管理员的最高管理权限。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的节点状态流转示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
基于民主自治的集群基于两点基本原则:
原则a)同一时刻只有一个管理节点,任何节点都可以成为管理节点,管理节点的产生可以通过管理员指定,也可以通过集群选举产生;
原则b)所有节点包括管理节点,在提供服务访问方面是对等的。
步骤1:集群启动
步骤101:集群初始化启动时,***管理员通过‘指定’的方式产生***,‘指定’指令在确定***过程中拥有最高权限;
步骤102:除***节点外,其余节点自动将本节点Role置为Slave节点;
步骤103:***节点管理集群的全局配置策略,并将全局策略初始化派送给各Slave节点,包括:全局节点数量、集群标识、各节点名称、各节点角色、各节点监听地址、各节点服务地址、健康检查策略、不信任策略、信息同步策略、信息同步时间间隔、信息同步时间、民主选举策略、各节点当前状态、集群伸缩策略等。
步骤2:集群运行自治
步骤201:各节点按照信息同步策略及信息同步时间间隔,将自身状态信息块同步给集群中其他节点,信息同步策略包括增量同步和海量同步;
步骤202:***节点将全局信息按照信息同步策略及信息同步时间间隔,将集群全局信息同步给所有Slave节点,信息同步策略包括增量同步和海量同步;
步骤203:所有节点接收到其他节点的同步信息后,在BBS中更新相应节点信息存储内存块中;
步骤204:Slave节点在接收到***节点全局同步信息时,更新BBS中***节点信息存储内存块及全局配置变化的参数,比较其余节点更新时间与全局信息包中子项的时间,将BBS中Slave节点信息内存块的信息更新为最新状态值;
步骤205:所有节点按照全局健康检查策略检查各自BBS块中其他节点状态,并按照图1所示状态流转图维护管理节点状态。健康检查策略由检查周期Th、状态裁定周期n*Th决定;
步骤206:***节点执行步骤205操作,当裁定Slave节点状态为DISCONN、UNASSIGNED状态时,对Slave执行Boot指令;
步骤207:Slave节点执行步骤205,根据不信任策略,当裁定***节点状态为DISCONN状态时,执行步骤208选举操作。不信任策略为健康检查策略与管理员操作的综合策略;
步骤208:Slave节点根据选举策略进行民主选举:当集群节点数M=2时,Slave节点自动升级为***节点;当集群节点数M=3时,Slave节点IP地址小者升级为***节点;当集群节点数M>=4时,Slave节点向其他Slave节点推举CONN状态最小IP者为候选节点,得票多者为为临时***节点,Slave节点等待临时***节点的确认公告信息,并发送认可公告,当临时***节点收到100%的认可后,即成为***节点,否则重复执行步骤208;选举策略参数可配置为最小IP优先、最大IP优先等。
步骤3:集群***自治
集群***自治解决因网络故障而将集群***为多个子网时,集群失去部分管理职能的问题。
步骤301:集群C={N1,N2,N3…Nm},所有节点执行步骤205,将所有非DISCONN状态的节点形成若干个包含本Slave节点的C的真子集SC,根据网络特性,约束所有真子集间没有交集,即j≤m,≤m;
步骤302:含有***节点的真子集形成一个独立的***子集群,进行集群运行自治管理步骤201~步骤208;
步骤303:不含***节点的真子集{SC1,SC2,SC3…SCn}执行步骤208,形成各自独立的***子集群,进行集群运行自治管理。
步骤4:集群融合自治
步骤401:所有子集群Slave节点执行步骤201、203、204,所有子集群***节点执行步骤202;
步骤402:当Slave节点在执行步骤204时,若收到来自当前子集群标识之外的***节点全局同步信息时,比较两个***节点的IP信息,选择IP较小者加入,并脱离另外一个子集群;
步骤403:当***节点收到来自当前子集群标识之外的***节点全局同步信息时,若该***节点IP小于自身值,则放弃当前***身份,作为Slave节点加入到该子集群。
步骤5:集群动态伸缩自治
步骤501:***节点按周期tl、调整周期数N检查集群内各节点负荷NLmNtl(m:集群节点数;N:负荷调整周期数;tl:负荷周期),当综合负荷 时(σ:弹性伸缩下限值),发送待机指令给当前集群内IP最大值Slave节点,并将停止该节点对外服务的消息广播到集群内其他Slave节点,该Slave节点完成当前工作后即处于待机IDLE状态,释放***资源。节点负荷NLmNtl可依据全局资源、关键资源、特性资源综合测算;
步骤502:***节点按周期检查集群内各节点负荷NLmNtl,当综合负荷 时(λ:弹性伸缩上限值),查找当前集群内是否存在IDLE状态的节点,如果存在,***节点发送启用命令到处于IDLE状态IP值最大的节点,将其重新加入到集群中。
步骤6:集群管理员治理
集群管理员用户集群管理的最高权限,各节点均提供管理员入口,以执行***节点检修升级、追加服务节点、调整全局策略参数等操作。
步骤601:***管理员登录任何一个节点,执行获取***节点管理权指令,当前节点将指令发送给***节点,若获得回复,则修改节点修改状态标识ROLE=M,***节点修改状态标识ROLE=S,当前节点接替成为***节点执行集群管理职责步骤202、步骤206;
步骤602:选择需要检修升级节点之外的其他任意节点,执行步骤601获得管理员***权限,对待检修升级节点执行隔离指令,当该节点STATUS=ISOLATED时,及可对该节点实施检修、升级操作,此时,该节点处于不提供服务状态,当完成检修工作后,执行集合指令恢复;
步骤603:准备好需要追加的集群服务节点,执行步骤601,执行追加导入指令(URL_LIST,),***节点将全局集群URL_LIST信息导入到节点,同时将追加到集群。集群执行步骤402、步骤403。
交易中间件iXTOP1.8版本应用了本发明的技术方案,实现了支持分布式交易的集群***管理。该集群默认支持32个服务节点的集群管理,每个节点部署了管理者进程、随机启动管理监听进程、远程管理队列和管理员工具,管理者进程通过远程管理队列与相互之间进行通信和交互,随机启动管理监听进程确保管理者可以在初始状态和SHUTDOWN状态下联络到被管理节点,管理员工具为***管理员提供管理入口。整个集群可自治管理,也可管理人员管理。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (10)
1.一种民主自治的集群管理方法,其特征在于,包括如下步骤:
步骤1:集群启动;
步骤2:集群运行自治;
步骤3:集群***自治;
步骤4:集群融合自治;
步骤5:集群动态伸缩自治;
步骤6:集群管理员治理,其中,集群管理员用户集群管理的最高权限,各节点均提供管理员入口,以执行***节点检修升级、追加服务节点、调整全局策略参数操作。
2.根据权利要求1所述的民主自治的集群管理方法,其特征在于,所述步骤1包括如下步骤:
步骤101:集群初始化启动时,根据***管理员的指定指令产生***节点,其中,所述指定指令在确定***过程中拥有最高权限;
步骤102:除***节点外,其余节点自动将本节点角色Role置为Slave节点;
步骤103:***节点管理集群的全局配置策略,并将全局策略初始化派送给各Slave节点,其中,所述全局策略初始化包括:全局节点数量、集群标识、各节点名称、各节点角色、各节点监听地址、各节点服务地址、健康检查策略、不信任策略、信息同步策略、信息同步时间间隔、信息同步时间、民主选举策略、各节点当前状态、集群伸缩策略。
3.根据权利要求1所述的民主自治的集群管理方法,其特征在于,节点状态包括:
启动状态BOOTING:当启动失败时,转入脱离状态;当启动成功时,转入控制状态;
脱离状态DISCONN:当收到信息同步指令时,转入控制状态;
控制状态CONN:当被认为不健康时,转入脱离状态;当收到隔离指令时,转入隔离状态;当收到待机指令时,转入待机状态;当收到关闭指令时,转入关闭进行状态;
关闭进行状态SHUTDOWING:当关闭结束后,转入关闭结束状态SHUTDOWNED;
隔离状态ISOLATED:当收到集合指令时,转入控制状态;
待机状态IDLE:当收到隔离指令时,转入隔离状态;当收到恢复指令时,转入控制状态;当收到关闭指令时,转入关闭进行状态;
未定义状态UNASSIGNED:当收到启动指令时,转入启动状态;当收到信息同步指令时,转入控制状态。
4.根据权利要求3所述的民主自治的集群管理方法,其特征在于,所述步骤2包括如下步骤:
步骤201:各节点按照信息同步策略及信息同步时间间隔,将自身状态信息块同步给集群中其他节点,其中,所述信息同步策略包括增量同步和海量同步;
步骤202:***节点将全局信息按照信息同步策略及信息同步时间间隔,将集群全局信息同步给所有Slave节点,信息同步策略包括增量同步和海量同步;
步骤203:所有节点接收到其他节点的同步信息后,在BBS中更新相应节点信息存储内存块中;
步骤204:Slave节点在接收到***节点全局同步信息时,更新BBS中***节点信息存储内存块及全局配置变化的参数,比较其余节点更新时间与全局信息包中子项的时间,将BBS中Slave节点信息内存块的信息更新为最新状态值;
步骤205:所有节点按照全局健康检查策略检查各自BBS块中其他节点状态,并维护管理节点状态,其中,健康检查策略由检查周期Th、状态裁定周期n*Th决定;
步骤206:***节点执行步骤205操作,当裁定Slave节点状态为脱离状态DISCONN、或者未定义状态UNASSIGNED时,对Slave执行Boot指令;
步骤207:Slave节点执行步骤205,根据不信任策略,当裁定***节点状态为脱离状态DISCONN时,执行步骤208选举操作;不信任策略为健康检查策略与管理员操作的综合策略;
步骤208:Slave节点根据选举策略进行民主选举:当集群节点数M=2时,Slave节点自动升级为***节点;当集群节点数M=3时,Slave节点IP地址小者升级为***节点;当集群节点数M≥4时,Slave节点向其他Slave节点推举处于控制状态CONN中最小IP者为候选节点,得票多者为为临时***节点,Slave节点等待临时***节点的确认公告信息,并发送认可公告,当临时***节点收到100%的认可后,即成为***节点,否则重复执行步骤208。
5.根据权利要求4所述的民主自治的集群管理方法,其特征在于,在所述步骤208中,选举策略参数可配置为最小IP优先、或者最大IP优先。
6.根据权利要求4所述的民主自治的集群管理方法,其特征在于,所述步骤3,包括如下步骤:
步骤301:集群C={N1,N2,N3…Nm},m为集群C中的节点数量,所有节点N1,N2,N3…Nm执行步骤205,将所有非脱离状态DISCONN的节点形成若干个包含本Slave节点的C的真子集SC,n为集群SC中的节点数量,根据网络特性,约束所有真子集间没有交集,即j≤m,i≤m;
步骤302:含有***节点的真子集形成一个独立的***子集群,进行集群运行自治管理步骤201~步骤208;
步骤303:不含***节点的真子集{SC1,SC2,SC3…SCn}执行步骤208,形成各自独立的***子集群,进行集群运行自治管理。
7.根据权利要求4所述的民主自治的集群管理方法,其特征在于,所述步骤4包括如下步骤:
步骤401:所有子集群Slave节点执行步骤201、203、204,所有子集群***节点执行步骤202;
步骤402:当Slave节点在执行步骤204时,若收到来自当前子集群标识之外的***节点全局同步信息时,比较两个***节点的IP信息,选择IP较小者加入,并脱离另外一个子集群;
步骤403:当***节点收到来自当前子集群标识之外的***节点全局同步信息时,若该***节点IP小于自身值,则放弃当前***身份,作为Slave节点加入到该子集群。
8.根据权利要求4所述的民主自治的集群管理方法,其特征在于,所述步骤5包括如下步骤:
步骤501:***节点按周期tl、调整周期数N检查集群内各节点负荷NLmNtl,其中,m为集群节点数,N为负荷调整周期数,tl为负荷周期,当综合负荷CLn满足 时,其中,σ为弹性伸缩下限值,发送待机指令给当前集群内IP最大值Slave节点,并将停止该节点对外服务的消息广播到集群内其他Slave节点,该Slave节点完成当前工作后即处于待机状态IDLE,释放***资源;
步骤502:***节点按周期检查集群内各节点负荷NLmNtl,当综合负荷满足 时,其中,λ为弹性伸缩上限值,查找当前集群内是否存在待机状态IDLE的节点,如果存在,***节点发送启用命令到处于待机状态IDLE中IP值最大的节点,将其重新加入到集群中。
9.根据权利要求7所述的民主自治的集群管理方法,其特征在于,所述步骤6包括如下步骤:
步骤601:***管理员登录任何一个节点,执行获取***节点管理权指令,当前节点将指令发送给***节点,若获得回复,则修改节点修改角色状态标识ROLE=M以变为***节点,***节点修改角色状态标识ROLE=S以变为Slave节点,当前节点接替成为***节点执行集群管理职责步骤202、步骤206;
步骤602:选择需要检修升级节点之外的其他任意节点,执行步骤601获得管理员***权限,对待检修升级节点执行隔离指令,当该节点处于隔离状态ISOLATED时,对该节点实施检修、升级操作,此时,该节点处于不提供服务状态,当完成检修工作后,执行集合指令恢复;
步骤603:准备好需要追加的集群服务节点执行步骤601,执行追加导入指令(URL_LIST,),其中,URL_LIST为URL列表信息,为对应节点的URL,***节点将全局集群URL列表信息URL_LIST导入到节点同时蒋追加到集群;集群执行步骤402、步骤403。
10.一种民主自治的集群管理***,其特征在于,所述***用于执行权利要求1至9中任一项所述的民主自治的集群管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410090747.0A CN104917792B (zh) | 2014-03-12 | 2014-03-12 | 民主自治的集群管理方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410090747.0A CN104917792B (zh) | 2014-03-12 | 2014-03-12 | 民主自治的集群管理方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104917792A true CN104917792A (zh) | 2015-09-16 |
CN104917792B CN104917792B (zh) | 2018-10-30 |
Family
ID=54086496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410090747.0A Active CN104917792B (zh) | 2014-03-12 | 2014-03-12 | 民主自治的集群管理方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104917792B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106301904A (zh) * | 2016-08-08 | 2017-01-04 | 无锡天脉聚源传媒科技有限公司 | 一种集群服务器管理方法及装置 |
CN106657390A (zh) * | 2017-01-22 | 2017-05-10 | 郑州云海信息技术有限公司 | 集群文件***目录隔离方法、装置及*** |
CN106685688A (zh) * | 2016-09-26 | 2017-05-17 | 深圳市潮流网络技术有限公司 | 一种集群计算机设备同步升级方法 |
CN106790624A (zh) * | 2016-12-30 | 2017-05-31 | Tcl集团股份有限公司 | 新节点加入服务器集群的方法及装置 |
CN107453929A (zh) * | 2017-09-22 | 2017-12-08 | 中国联合网络通信集团有限公司 | 集群***自构建方法、装置及集群*** |
WO2017215430A1 (zh) * | 2016-06-14 | 2017-12-21 | 中兴通讯股份有限公司 | 一种集群内的节点管理方法及节点设备 |
CN108111337A (zh) * | 2017-12-06 | 2018-06-01 | 北京天融信网络安全技术有限公司 | 分布式***仲裁主节点的方法及设备 |
CN108768749A (zh) * | 2018-06-21 | 2018-11-06 | 佛山科学技术学院 | 一种基于区块链的节点隔离自恢复方法及装置 |
CN108769199A (zh) * | 2018-05-29 | 2018-11-06 | 郑州云海信息技术有限公司 | 一种分布式文件存储***主节点管理方法及装置 |
CN111835534A (zh) * | 2019-04-15 | 2020-10-27 | 华为技术有限公司 | 一种集群控制的方法及相关设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1645862A (zh) * | 2005-02-01 | 2005-07-27 | 北京北方烽火科技有限公司 | 一种集群中主控节点自适应选举算法 |
CN101702721A (zh) * | 2009-10-26 | 2010-05-05 | 北京航空航天大学 | 一种多集群***的可重组方法 |
CN102130938A (zh) * | 2010-12-03 | 2011-07-20 | 中国科学院软件研究所 | 一种面向Web应用宿主平台的资源供给方法 |
CN102843259A (zh) * | 2012-08-21 | 2012-12-26 | 武汉达梦数据库有限公司 | 集群内中间件自管理热备方法及*** |
CN103441918A (zh) * | 2013-08-29 | 2013-12-11 | 哈尔滨工程大学 | 一种自组织集群服务器***及其自组织方法 |
-
2014
- 2014-03-12 CN CN201410090747.0A patent/CN104917792B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1645862A (zh) * | 2005-02-01 | 2005-07-27 | 北京北方烽火科技有限公司 | 一种集群中主控节点自适应选举算法 |
CN101702721A (zh) * | 2009-10-26 | 2010-05-05 | 北京航空航天大学 | 一种多集群***的可重组方法 |
CN102130938A (zh) * | 2010-12-03 | 2011-07-20 | 中国科学院软件研究所 | 一种面向Web应用宿主平台的资源供给方法 |
CN102843259A (zh) * | 2012-08-21 | 2012-12-26 | 武汉达梦数据库有限公司 | 集群内中间件自管理热备方法及*** |
CN103441918A (zh) * | 2013-08-29 | 2013-12-11 | 哈尔滨工程大学 | 一种自组织集群服务器***及其自组织方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017215430A1 (zh) * | 2016-06-14 | 2017-12-21 | 中兴通讯股份有限公司 | 一种集群内的节点管理方法及节点设备 |
CN107508694B (zh) * | 2016-06-14 | 2021-11-16 | 中兴通讯股份有限公司 | 一种集群内的节点管理方法及节点设备 |
CN107508694A (zh) * | 2016-06-14 | 2017-12-22 | 中兴通讯股份有限公司 | 一种集群内的节点管理方法及节点设备 |
CN106301904A (zh) * | 2016-08-08 | 2017-01-04 | 无锡天脉聚源传媒科技有限公司 | 一种集群服务器管理方法及装置 |
CN106685688A (zh) * | 2016-09-26 | 2017-05-17 | 深圳市潮流网络技术有限公司 | 一种集群计算机设备同步升级方法 |
CN106790624A (zh) * | 2016-12-30 | 2017-05-31 | Tcl集团股份有限公司 | 新节点加入服务器集群的方法及装置 |
CN106657390A (zh) * | 2017-01-22 | 2017-05-10 | 郑州云海信息技术有限公司 | 集群文件***目录隔离方法、装置及*** |
CN107453929A (zh) * | 2017-09-22 | 2017-12-08 | 中国联合网络通信集团有限公司 | 集群***自构建方法、装置及集群*** |
CN108111337A (zh) * | 2017-12-06 | 2018-06-01 | 北京天融信网络安全技术有限公司 | 分布式***仲裁主节点的方法及设备 |
CN108111337B (zh) * | 2017-12-06 | 2021-04-06 | 北京天融信网络安全技术有限公司 | 分布式***仲裁主节点的方法及设备 |
CN108769199A (zh) * | 2018-05-29 | 2018-11-06 | 郑州云海信息技术有限公司 | 一种分布式文件存储***主节点管理方法及装置 |
CN108768749A (zh) * | 2018-06-21 | 2018-11-06 | 佛山科学技术学院 | 一种基于区块链的节点隔离自恢复方法及装置 |
CN111835534A (zh) * | 2019-04-15 | 2020-10-27 | 华为技术有限公司 | 一种集群控制的方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN104917792B (zh) | 2018-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104917792A (zh) | 民主自治的集群管理方法和*** | |
CN109885389B (zh) | 一种基于容器的并行深度学习调度训练方法及*** | |
US11704144B2 (en) | Creating virtual machine groups based on request | |
CN105468450B (zh) | 任务调度方法及*** | |
EP2532145B1 (en) | Load and backup assignment balancing in high availability systems | |
WO2017128507A1 (zh) | 一种去中心化资源调度方法及*** | |
CN106919445A (zh) | 一种在集群中并行调度容器的方法和装置 | |
CN109933338B (zh) | 区块链部署方法、装置、计算机设备和存储介质 | |
CN112104723A (zh) | 一种多集群的数据处理***及方法 | |
CN111988160B (zh) | 一种虚拟化网络功能的部署方法和装置 | |
CN112948063A (zh) | 云平台的创建方法、装置、云平台以及云平台实现*** | |
CN105005509A (zh) | 一种基于运行时模型的云计算容错机制配置方法 | |
Dadashi Gavaber et al. | BADEP: bandwidth and delay efficient application placement in fog‐based IoT systems | |
CN109067903A (zh) | 一种云平台级联*** | |
CN114567584A (zh) | 路由信息处理方法、装置、计算机设备和存储介质 | |
CN106254452A (zh) | 云平台下的医疗大数据访问方法 | |
CN113672335A (zh) | 容器调度方法、装置、电子装置和存储介质 | |
CN112631680A (zh) | 微服务容器调度***、方法、装置和计算机设备 | |
Fan et al. | Method of maintaining data consistency in microservice architecture | |
WO2023209414A1 (en) | Methods and apparatus for computing resource allocation | |
CN114860266A (zh) | 一种多方安全计算模型的部署方法和*** | |
CN114710350A (zh) | 一种可调用资源的分配方法和装置 | |
CN207854192U (zh) | 一种基于互联网的多节点实时无线电监测控制*** | |
CN116112499B (zh) | 数据采集***的构建方法及数据采集方法 | |
CN116938943B (zh) | 云主机调度方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |