CN115102962A - 集群管理方法、装置、计算机设备和存储介质 - Google Patents

集群管理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115102962A
CN115102962A CN202210711547.7A CN202210711547A CN115102962A CN 115102962 A CN115102962 A CN 115102962A CN 202210711547 A CN202210711547 A CN 202210711547A CN 115102962 A CN115102962 A CN 115102962A
Authority
CN
China
Prior art keywords
node
attribute
abnormal
target
cluster system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210711547.7A
Other languages
English (en)
Inventor
陶晓麟
吕灼恒
张晋锋
刘瑞贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Shuguang International Information Industry Co ltd
Qingdao Zhongke Shuguang Technology Service Co ltd
Original Assignee
Zhongke Shuguang International Information Industry Co ltd
Qingdao Zhongke Shuguang Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Shuguang International Information Industry Co ltd, Qingdao Zhongke Shuguang Technology Service Co ltd filed Critical Zhongke Shuguang International Information Industry Co ltd
Priority to CN202210711547.7A priority Critical patent/CN115102962A/zh
Publication of CN115102962A publication Critical patent/CN115102962A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • H04L41/0661Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • H04L67/1048Departure or maintenance mechanisms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及一种集群管理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:监听集群***中各节点的运行状态,根据运行状态确定集群***中的异常节点;若异常节点的节点属性为目标属性,则将异常节点放入隔离区,目标属性表征当前节点正在提供业务服务,隔离区用于阻断集群***对异常节点的修正处理;在除异常节点之外的其他节点中确定第一目标节点,将第一目标节点的节点属性更新为目标属性,得到新的目标属性节点,并通过新的目标属性节点执行业务服务。采用本方法,能够使得集群***不间断的提供业务服务。

Description

集群管理方法、装置、计算机设备和存储介质
技术领域
本申请涉及互联网技术领域,特别是涉及一种集群管理方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着互联网技术的发展,目前的集群***中,集群管理工具会预先配置虚拟IP(Internet Protocol,网际互连协议),用户访问该虚拟IP并发起业务服务请求,然后,由集群***确定目标节点,并通过该目标节点提供该业务服务。因此,为了有效的提供业务服务,需要对目标节点进行异常检测管理。
目前的目标节点异常管理方法,为了保证集群***的多节点保活性(也称为资源保活性),集群***会立即对目标节点进行异常参数检测和修正,直至目标节点恢复,再由目标节点提供该业务服务。
然而,当异常的目标节点功能繁杂,且需要连接较多的外部服务时,对异常的目标节点进行异常检测和修正耗时较长,进而,导致提供业务服务的不连续性。
发明内容
基于此,有必要针对上述技术问题,提供一种集群管理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种集群管理方法。所述方法包括:
监听集群***中各节点的运行状态,根据所述运行状态确定所述集群***中的异常节点;
若所述异常节点的节点属性为目标属性,则将所述异常节点放入隔离区,所述目标属性表征当前节点正在提供业务服务,所述隔离区用于阻断所述集群***对所述异常节点的修正处理;
在除所述异常节点之外的其他节点中确定第一目标节点,将所述第一目标节点的节点属性更新为所述目标属性,得到新的目标属性节点,并通过所述新的目标属性节点执行业务服务。
采用本方法,在集群***中,对各节点进行实时监测,若检测到异常节点的节点属性为目标属性时,则直接将异常节点放入隔离区,然后选举出新的目标属性节点执行业务服务,使得集群***不间断的提供业务服务。
在其中一个实施例中,所述监听集群***中各节点的运行状态,根据所述运行状态确定所述集群***中的异常节点,包括:
监听集群***中各节点发送的心跳信号;
若存在第二目标节点发送的心跳信号未满足预设的心跳信号检测条件,则确定所述第二目标节点为异常节点。
本实施例中,通过心跳检测工具实时监听各节点发送的心跳信号,并通过各节点心跳信号的周期性发送规律,判断集群***中各节点的运行状态,及时发现集群***中的异常节点。
在其中一个实施例中,所述在除所述异常节点之外的其他节点中确定第一目标节点,将所述第一目标节点的节点属性更新为所述目标属性,得到新的目标属性节点,包括:
根据预设的节点选举策略,在除所述异常节点之外的其他节点中,确定第一目标节点;
为所述第一目标节点添加目标属性的属性标签,将所述第一目标节点的节点属性更新为所述目标属性;
根据所述第一目标节点的所述属性标签以及集群虚拟访问地址,将所述集群虚拟访问地址指向所述第一目标节点,得到新的目标属性节点。
本实施例中,选举出的第一目标节点,更新该目标节点的节点属性以及重新确定集群***中虚拟访问地址的指向,得到新的目标属性节点来继续提供业务服务,保证了业务服务的不间断性。
在其中一个实施例中,所述方法还包括:
若所述异常节点的节点属性为非目标属性,则通过预设的异常处理策略,对所述异常节点进行修正处理,得到修正后的非目标属性的节点。
本实施例中,通过检测异常节点的节点属性,确定异常节点为非目标属性的节点,进而不会对集群***提供业务服务造成影响,从而,直接对该异常节点的异常问题进行修正处理,得到修正后的正常运行节点,提高集群***中节点保活性。
在其中一个实施例中,所述若所述异常节点的节点属性为目标属性,则将所述异常节点放入隔离区之后,所述方法还包括:
生成所述目标属性节点异常的告警信息,并将所述告警信息进行输出显示。
本实施例中,当异常节点的节点属性为目标属性时,该异常节点会被放入隔离区,阻止集群管理***对该异常节点进行修正处理,同时也阻止该节点提供业务服务,因此,集群管理工具生成针对目标属性异常节点的告警信息,以及时告知管理人员当前集群***的运营情况,提高该集群管理的管理及时性。
在其中一个实施例中,所述方法还包括:
响应于针对所述隔离区中所述异常节点的解除隔离请求,将所述异常节点的节点属性更新为非目标属性,添加至所述集群***;
在所述集群***中所述异常节点的节点属性为所述非目标属性的情况下,根据预设的异常处理策略,对所述异常节点进行修正处理,得到所述集群***中修正后的所述非目标属性的节点。
本实施例中,通过将隔离区的异常节点重新恢复至集群***中,成为非目标属性的异常节点,进而对该异常节点的处理不会对集群***提供业务服务造成影响,从而,直接对该异常节点的异常问题进行修正处理,得到修正后的正常运行节点,保证了集群***内成活节点的数量,提高集群***中节点保活性。
第二方面,本申请还提供了一种集群管理装置。所述装置包括:
监听模块,用于监听集群***中各节点的运行状态,根据所述运行状态确定所述集群***中的异常节点;
处理模块,用于若所述异常节点的节点属性为目标属性,则将所述异常节点放入隔离区,所述目标属性表征当前节点正在提供业务服务,所述隔离区用于阻断所述集群***对所述异常节点的修正处理;
更新模块,用于在除所述异常节点之外的其他节点中确定第一目标节点,将所述第一目标节点的节点属性更新为所述目标属性,得到新的目标属性节点,并通过所述新的目标属性节点执行业务服务。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
监听集群***中各节点的运行状态,根据所述运行状态确定所述集群***中的异常节点;
若所述异常节点的节点属性为目标属性,则将所述异常节点放入隔离区,所述目标属性表征当前节点正在提供业务服务,所述隔离区用于阻断所述集群***对所述异常节点的修正处理;
在除所述异常节点之外的其他节点中确定第一目标节点,将所述第一目标节点的节点属性更新为所述目标属性,得到新的目标属性节点,并通过所述新的目标属性节点执行业务服务。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
监听集群***中各节点的运行状态,根据所述运行状态确定所述集群***中的异常节点;
若所述异常节点的节点属性为目标属性,则将所述异常节点放入隔离区,所述目标属性表征当前节点正在提供业务服务,所述隔离区用于阻断所述集群***对所述异常节点的修正处理;
在除所述异常节点之外的其他节点中确定第一目标节点,将所述第一目标节点的节点属性更新为所述目标属性,得到新的目标属性节点,并通过所述新的目标属性节点执行业务服务。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
监听集群***中各节点的运行状态,根据所述运行状态确定所述集群***中的异常节点;
若所述异常节点的节点属性为目标属性,则将所述异常节点放入隔离区,所述目标属性表征当前节点正在提供业务服务,所述隔离区用于阻断所述集群***对所述异常节点的修正处理;
在除所述异常节点之外的其他节点中确定第一目标节点,将所述第一目标节点的节点属性更新为所述目标属性,得到新的目标属性节点,并通过所述新的目标属性节点执行业务服务。
上述集群管理方法、装置、计算机设备、存储介质和计算机程序产品,监听集群***中各节点的运行状态,根据所述运行状态确定所述集群***中的异常节点;若所述异常节点的节点属性为目标属性,则将所述异常节点放入隔离区,所述目标属性表征当前节点正在提供业务服务,所述隔离区用于阻断所述集群***对所述异常节点的修正处理;在除所述异常节点之外的其他节点中确定第一目标节点,将所述第一目标节点的节点属性更新为所述目标属性,得到新的目标属性节点,并通过所述新的目标属性节点执行业务服务。采用本方法,在集群***中,对各节点进行实时监测,若检测到异常节点的节点属性为目标属性时,则直接将异常节点放入隔离区,然后选举出新的目标属性节点执行业务服务,使得集群***不间断的提供业务服务。
附图说明
图1为一个实施例中集群管理方法的流程示意图;
图2为一个实施例中异常节点检测步骤的流程示意图;
图3为一个实施例中确定新的目标属性节点步骤的流程示意图;
图4为一个实施例中集群***节点选举示意图;
图5为一个实施例中恢复隔离区异常节点的隔离步骤的流程示意图;
图6为一个实施例中集群管理方法的示例流程示意图;
图7为一个实施例中集群管理装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种集群管理方法,本实施例以该方法应用于分布式集群***进行举例说明,本实施例中,该方法包括以下步骤:
步骤102,监听集群***中各节点的运行状态,根据运行状态确定集群***中的异常节点。
在实施中,在集群***中包含多个分布式节点,这些节点可以执行该集群***上运行的软件程序,为用户提供软件服务(也称为业务服务),并且,集群***中还预先设置有心跳检测工具和集群管理工具,其中,心跳检测工具用于监听集群***中包含的各节点的运行状态,以根据各节点的运行状态确定集群***中是否存在的异常节点。集群管理工具则针对心跳检测工具确定出的异常节点进行处理。
若存在异常节点,则该心跳检测工具可以将检测到的异常节点的信息发送给集群***中的集群管理工具,由集群管理工具对异常节点进行处理。
步骤104,若异常节点的节点属性为目标属性,则将异常节点放入隔离区。
其中,节点属性包含目标属性和非目标属性,目标属性表征当前节点正在提供业务服务,非目标属性表征当前节点未参与业务服务。具体的,集群***中各节点的节点属性是由该节点是否正在提供业务服务确定的。集群***为用户配置统一的虚拟IP(InternetProtocol,网际互连协议)地址(也称为虚拟访问地址),当用户通过访问该虚拟访问地址,发起对目标业务服务的请求时,集群***会响应于该目标业务服务请求,在集群***中选举出至少一个节点作为提供该目标业务服务的节点,然后,集群***将虚拟访问地址指向该选举出的节点来执行目标业务服务,此时,被选举出的用于提供该目标业务服务的节点的节点属性被标记为目标属性,而集群***中未被选举出的其他节点的节点属性则被标记为非目标属性。
在实施中,当心跳检测工具检测到集群***中存在异常节点时,心跳检测工具通知集群***中的集群管理工具该异常节点的信息,然后,由集群管理工具检测该异常节点的节点属性,若该异常节点的节点属性为目标属性,则集群管理工具立即将该异常节点放入隔离区,阻断集群***对异常节点的修正处理,并且,也阻断了该异常节点参与目标业务服务。
可选的,集群***中存在全部节点均为非目标属性节点的情况,即在一段时间内,集群***中未承接任何业务服务,此时,集群***中的各节点均未参加任何业务服务,因此,集群***中的各节点的节点属性均为非目标属性节点。并且,即使在集群***未承接任何业务服务的情况下,心跳检测工具还是保持对集群***中各节点运行状态的检测,以及时发现异常节点。
可选的,目标属性的异常节点的隔离区可以设置在集群***之外的电子设备上,也可以设置在集群***中的线下设备上,本实施例不做限定。该隔离区用于对放入其中的节点进行通信隔离,阻断其中的节点向外提供业务服务,也阻断集群***对该节点的修正处理。
步骤106,在除异常节点之外的其他节点中确定第一目标节点,将第一目标节点的节点属性更新为目标属性,得到新的目标属性节点,并通过新的目标属性节点执行业务服务。
在实施中,集群***中预先存储有各业务服务对应的节点选举策略,针对不同的业务服务对应的节点选举策略也可能不同,例如,当业务服务需要较高的数据处理性能以及请求响应速率时,节点选举策略可以结合节点性能参数、网络可达性等条件对集群***中的各节点进行筛选。被选举出的节点即作为目标属性节点,用于提供业务服务。因此,当目标属性的异常节点被放入隔离区,集群管理工具会根据对应的节点选举策略,重新确定目标属性节点。具体的,集群管理工具在除异常节点之外的其他节点中,根据节点选举策略选举出第一目标节点,将该第一目标节点的节点属性更新为目标属性,使得该第一目标节点作为新的目标属性节点,继续承接业务服务。
集群管理方法中,心跳检测工具监听集群***中各节点的运行状态,根据运行状态确定集群***中的异常节点;若异常节点的节点属性为目标属性,则将异常节点放入隔离区;集群管理工具在除异常节点之外的其他节点中确定第一目标节点,将第一目标节点的节点属性更新为目标属性,得到新的目标属性节点,并通过新的目标属性节点执行业务服务。采用本方法,在集群***中,对各节点进行实时监测,若检测到异常节点,且异常节点的节点属性为目标属性时,则直接将异常节点放入隔离区,阻断集群***对该异常节点修正处理,并选举出新的目标属性节点来执行业务服务,集群***不间断的提供业务服务,提高了业务服务的连续性和完成效率。
在一个实施例中,如图2所示,步骤102的具体处理过程包括以下步骤:
步骤202,监听集群***中各节点发送的心跳信号。
在实施中,心跳检测工具接收来自集群***中包含的各分布式节点(简称为节点)发送的心跳信号,以此监听集群***中的各节点运行状态。具体的,心跳检测工具中预先存储有各节点发送心跳信号的发送周期、心跳信号强度等心跳信号检测条件,心跳检测工具通过该心跳信号检测条件对接收到的各心跳信号进行判别,确定各节点的运行状态是否异常。
步骤204,若存在第二目标节点发送的心跳信号未满足预设的心跳信号检测条件,则确定第二目标节点为异常节点。
在实施中,若存在第二目标节点发送的心跳信号未满足预设的心跳信号检测条件,则心跳检测工具确定该第二目标节点为异常节点,进而可以将该异常节点的信息发送给集群***中的集群管理工具。例如,心跳检测工具未在预设的发送周期内接收到第二目标节点发送的心跳信号,则心跳检测工具确定该第二目标节点为异常节点。其中,针对心跳信号检测条件可以基于各节点设备的实际特性进行设置,本申请实施例不做限定。
本实施例中,通过心跳检测工具实时监听各节点发送的心跳信号,并通过预设的心跳信号的检测条件,判断集群***中各节点的运行状态,提高集群***中的异常节点的发现及时性。
在一个实施例中,在异常节点的节点属性为目标属性时,集群管理工具会直接将该目标属性的异常节点放入隔离区,阻断集群***对当前的目标属性节点的修正处理,同时,也阻断了当前的目标属性节点正在提供的业务服务,因此,集群***中需要选举出新的目标属性的节点,以不间断的提供业务服务,如图3所示,步骤106的具体处理过程包括如下步骤:
步骤302,根据预设的节点选举策略,在除异常节点之外的其他节点中,确定第一目标节点。
其中,节点选举策略中包含的各节点选举标准与所要提供的业务服务中的节点需求相对应,例如,节点选举标准可以包含网络响应速度、节点数据处理性能、存储能力等,本申请实施例不做限定。
在实施中,集群管理工具根据预设的节点选举策略,在除异常节点之外的其他节点中,确定第一目标节点。该第一目标节点为当前集群***中最符合节点选举标准的节点。
步骤304,为第一目标节点添加目标属性的属性标签,将第一目标节点的节点属性更新为目标属性。
在实施中,集群***中各节点的节点属性由属性标签表征,因此,当集群***中选举出新的节点(即第一目标节点),用以继承原始异常的目标属性节点时,集群管理工具会为第一目标节点添加目标属性的属性标签,作为将第一目标节点的节点属性更新为目标属性的操作。
步骤306,根据第一目标节点的属性标签以及集群虚拟访问地址,将集群虚拟访问地址指向第一目标节点,得到新的目标属性节点。
在实施中,在集群***的全部节点中,集群管理工具将虚拟访问地址(虚拟IP地址)指向携带有目标属性的属性标签的第一目标节点,该第一目标节点即作为新的目标属性节点,继续执行当前未完成的业务服务。此后,若用户多次针对同一业务服务发起服务请求,集群***无需每次都进行节点的选举,可以直接基于属性标签与虚拟访问地址的指向关系,确定由该新的目标属性节点来执行该业务服务,提高集群***业务服务效率。
可选的,在集群***中加入新的节点、从隔离区中恢复原始异常节点或者删除部分节点之后,若用户发起业务服务请求,则可以重新对集群***中的节点进行选举,以保证集群***中选举的目标属性节点为当前集群***全部节点中提供业务服务的最优节点。
本实施例中,选举出的第一目标节点,更新该目标节点的节点属性以及重新确定集群***中虚拟访问地址的指向,得到新的目标属性节点来继续提供业务服务,保证了业务服务的不间断性。
在一个实施例中,该集群管理方法还包括:若异常节点的节点属性为非目标属性,则通过预设的异常处理策略,对异常节点进行修正处理,得到修正后的非目标属性的节点。
在实施中,若集群管理工具确定异常节点的节点属性为非目标属性,表征该异常节点当前并未执行任何业务服务,此时对异常节点进行处理,不会影响集群***提供业务服务,因此,无需对将非目标属性的异常节点放入隔离区,集群管理工具通过预设的异常处理策略,直接对该异常节点进行修正处理,通过修改节点参数等操作,恢复异常节点性能,从而得到运行正常的节点,修正处理后该节点的节点属性还保持为非目标属性。如图4所示,集群***中包含A、B、C三个节点,其中节点A为目标属性的节点(即正在提供业务服务的节点),B和C为非目标属性节点,若节点B或者节点C为异常节点时,则直接在集群***中对节点B或者节点C进行修正处理,不影响集群***提供业务服务。
本实施例中,通过检测异常节点的节点属性,确定异常节点为非目标属性的节点,进而不会对集群***提供业务服务造成影响,从而,直接对该异常节点的异常问题进行修正处理,得到修正后的正常运行节点,提高集群***中节点保活性。
在一个实施例中,当目标属性的异常节点被放入隔离区之后,集群***中正常运行的节点数量随之减少,为了保证集群***中成活节点数量,应及时告知集群管理人员集群***中节点异常且节点数量减少信息,因此,在步骤104之后,该集群管理方法还包括:生成目标属性节点异常的告警信息,并将告警信息进行输出显示。
在实施中,在集群管理过程中,若检测到异常节点的节点属性为目标属性时,集群管理工具会生成目标属性节点异常的告警信息,并将告警信息进行输出显示,以告知集群***的管理人员。其中,生成的告警信息可以为文字告警信息和语音告警信息,本申请实施例不做限定。
本实施例中,当异常节点的节点属性为目标属性时,该异常节点会被放入隔离区,阻止集群管理***对该异常节点进行修正处理,同时也阻止该节点提供业务服务,因此,集群管理工具生成针对目标属性异常节点的告警信息,以及时告知管理人员当前集群***的运营情况,提高该集群管理的管理及时性。
在一个实施例中,如图5所示,步骤102的具体处理过程包括以下步骤:
步骤502,响应于针对隔离区中异常节点的解除隔离请求,将异常节点的节点属性更新为非目标属性,添加至集群***。
在实施中,当隔离区中存在异常节点时,为了使集群***中保持更多的可用节点数量,用户可以将隔离区中的异常节点恢复至集群***中。具体地,用户向隔离区所在电子设备发送解除隔离请求,该电子设备响应于解除隔离请求,将隔离区中的异常节点的节点属性由目标属性更新为非目标属性,并将该节点重新添加至集群***中。
步骤504,在集群***中异常节点的节点属性为非目标属性的情况下,根据预设的异常处理策略,对异常节点进行修正处理,得到集群***中修正后的非目标属性的节点。
在实施中,在集群***中,由隔离区恢复的节点的节点属性为非目标属性,此时,在异常节点的节点属性为非目标属性的情况下,集群管理工具可以根据预设的异常处理策略,对异常节点进行修正处理,得到修正后运行状态正常的非目标属性的节点。
如图4所示,隔离区中的异常节点(节点A)重新恢复至集群***,得到运行正常的非目标属性节点,可选的,该非目标属性的节点可以在下一次提供业务服务时,经选举再次成为目标属性节点,以用于提供业务服务。
本实施例中,通过将隔离区的异常节点重新恢复至集群***中,成为非目标属性的异常节点,进而对该异常节点的处理不会对集群***提供业务服务造成影响,从而,直接对该异常节点的异常问题进行修正处理,得到修正后的正常运行节点,保证了集群***内成活节点的数量,提高集群***中节点保活性。
在一个实施例中,如图6所示,提供了一种集群管理方法的示例,该示例包括如下步骤:
步骤601,监听集群***中各节点的运行状态,根据运行状态确定集群***中的异常节点。
步骤602,判断异常节点的节点属性是否为目标属性,若是,则执行步骤603,若否,则执行步骤607。
步骤603,将异常节点放入隔离区。
步骤604,在除异常节点之外的其他节点中确定第一目标节点,将第一目标节点的节点属性更新为目标属性,得到新的目标属性节点。
步骤605,生成目标属性节点异常的告警信息,并将告警信息进行输出显示。
步骤606,响应于针对隔离区中异常节点的解除隔离请求,将异常节点的节点属性更新为非目标属性,添加至集群***。
步骤607,在集群***中异常节点的节点属性为非目标属性的情况下,根据预设的异常处理策略,对异常节点进行修正处理,得到集群***中修正后的非目标属性的节点。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的集群管理方法的集群管理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个集群管理装置实施例中的具体限定可以参见上文中对于集群管理方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种集群管理装置700,包括:监听模块710、处理模块720和更新模块730,其中:
监听模块710,用于监听集群***中各节点的运行状态,根据运行状态确定集群***中的异常节点;
处理模块720,用于若异常节点的节点属性为目标属性,则将异常节点放入隔离区,目标属性表征当前节点正在提供业务服务,隔离区用于阻断集群***对异常节点的修正处理;
更新模块730,用于在除异常节点之外的其他节点中确定第一目标节点,将第一目标节点的节点属性更新为目标属性,得到新的目标属性节点,并通过新的目标属性节点执行业务服务。
采用本装置,在集群***中,对各节点进行实时监测,若检测到异常节点的节点属性为目标属性时,则直接将异常节点放入隔离区,然后选举出新的目标属性节点执行业务服务,使得集群***不间断的提供业务服务。
在其中一个实施例中,监听模块710,还用于监听集群***中各节点发送的心跳信号;
若存在第二目标节点发送的心跳信号未满足预设的心跳信号检测条件,则确定第二目标节点为异常节点。
在其中一个实施例中,更新模块730用于根据预设的节点选举策略,在除异常节点之外的其他节点中,确定第一目标节点;
为第一目标节点添加目标属性的属性标签,将第一目标节点的节点属性更新为目标属性;
根据第一目标节点的属性标签以及集群虚拟访问地址,将集群虚拟访问地址指向第一目标节点,得到新的目标属性节点。
在其中一个实施例中,集群管理装置700还包括:
修正处理模块,用于若异常节点的节点属性为非目标属性,则通过预设的异常处理策略,对异常节点进行修正处理,得到修正后的非目标属性的节点。
在其中一个实施例中,集群管理装置700还包括:
告警模块,用于生成目标属性节点异常的告警信息,并将告警信息进行输出显示。
在其中一个实施例中,集群管理装置700还包括:
解除隔离模块,用于响应于针对隔离区中异常节点的解除隔离请求,将异常节点的节点属性更新为非目标属性,添加至集群***;
修正处理模块,用于在集群***中异常节点的节点属性为非目标属性的情况下,根据预设的异常处理策略,对异常节点进行修正处理,得到集群***中修正后的非目标属性的节点。
上述集群管理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种集群管理方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
监听集群***中各节点的运行状态,根据所述运行状态确定所述集群***中的异常节点;
若所述异常节点的节点属性为目标属性,则将所述异常节点放入隔离区,所述目标属性表征当前节点正在提供业务服务,所述隔离区用于阻断所述异常节点执行业务服务,也阻断所述集群***对所述异常节点的修正处理;
在除所述异常节点之外的其他节点中确定第一目标节点,将所述第一目标节点的节点属性更新为所述目标属性,得到新的目标属性节点,并通过所述新的目标属性节点执行业务服务。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
监听集群***中各节点发送的心跳信号;
若存在第二目标节点发送的心跳信号未满足预设的心跳信号检测条件,则确定所述第二目标节点为异常节点。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据预设的节点选举策略,在除所述异常节点之外的其他节点中,确定第一目标节点;
为所述第一目标节点添加目标属性的属性标签,将所述第一目标节点的节点属性更新为所述目标属性;
根据所述第一目标节点的所述属性标签以及集群虚拟访问地址,将所述集群虚拟访问地址指向所述第一目标节点,得到新的目标属性节点。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
若所述异常节点的节点属性为非目标属性,则通过预设的异常处理策略,对所述异常节点进行修正处理,得到修正后的非目标属性的节点。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
生成所述目标属性节点异常的告警信息,并将所述告警信息进行输出显示。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
响应于针对所述隔离区中所述异常节点的解除隔离请求,将所述异常节点的节点属性更新为非目标属性,添加至所述集群***;
在所述集群***中所述异常节点的节点属性为所述非目标属性的情况下,根据预设的异常处理策略,对所述异常节点进行修正处理,得到所述集群***中修正后的所述非目标属性的节点。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种集群管理方法,其特征在于,所述方法包括:
监听集群***中各节点的运行状态,根据所述运行状态确定所述集群***中的异常节点;
若所述异常节点的节点属性为目标属性,则将所述异常节点放入隔离区,所述目标属性表征当前节点正在提供业务服务,所述隔离区用于阻断所述异常节点执行业务服务,也阻断所述集群***对所述异常节点的修正处理;
在除所述异常节点之外的其他节点中确定第一目标节点,将所述第一目标节点的节点属性更新为所述目标属性,得到新的目标属性节点,并通过所述新的目标属性节点执行业务服务。
2.根据权利要求1所述的方法,其特征在于,所述监听集群***中各节点的运行状态,根据所述运行状态确定所述集群***中的异常节点,包括:
监听集群***中各节点发送的心跳信号;
若存在第二目标节点发送的心跳信号未满足预设的心跳信号检测条件,则确定所述第二目标节点为异常节点。
3.根据权利要求1所述的方法,其特征在于,所述在除所述异常节点之外的其他节点中确定第一目标节点,将所述第一目标节点的节点属性更新为所述目标属性,得到新的目标属性节点,包括:
根据预设的节点选举策略,在除所述异常节点之外的其他节点中,确定第一目标节点;
为所述第一目标节点添加目标属性的属性标签,将所述第一目标节点的节点属性更新为所述目标属性;
根据所述第一目标节点的所述属性标签以及集群虚拟访问地址,将所述集群虚拟访问地址指向所述第一目标节点,得到新的目标属性节点。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述异常节点的节点属性为非目标属性,则通过预设的异常处理策略,对所述异常节点进行修正处理,得到修正后的非目标属性的节点。
5.根据权利要求1所述的方法,其特征在于,所述若所述异常节点的节点属性为目标属性,则将所述异常节点放入隔离区之后,所述方法还包括:
生成所述目标属性节点异常的告警信息,并将所述告警信息进行输出显示。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于针对所述隔离区中所述异常节点的解除隔离请求,将所述异常节点的节点属性更新为非目标属性,添加至所述集群***;
在所述集群***中所述异常节点的节点属性为所述非目标属性的情况下,根据预设的异常处理策略,对所述异常节点进行修正处理,得到所述集群***中修正后的所述非目标属性的节点。
7.一种集群管理装置,其特征在于,所述装置包括:
监听模块,用于监听集群***中各节点的运行状态,根据所述运行状态确定所述集群***中的异常节点;
处理模块,用于若所述异常节点的节点属性为目标属性,则将所述异常节点放入隔离区,所述目标属性表征当前节点正在提供业务服务,所述隔离区用于阻断所述集群***对所述异常节点的修正处理;
更新模块,用于在除所述异常节点之外的其他节点中确定第一目标节点,将所述第一目标节点的节点属性更新为所述目标属性,得到新的目标属性节点,并通过所述新的目标属性节点执行业务服务。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202210711547.7A 2022-06-22 2022-06-22 集群管理方法、装置、计算机设备和存储介质 Pending CN115102962A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210711547.7A CN115102962A (zh) 2022-06-22 2022-06-22 集群管理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210711547.7A CN115102962A (zh) 2022-06-22 2022-06-22 集群管理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN115102962A true CN115102962A (zh) 2022-09-23

Family

ID=83292945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210711547.7A Pending CN115102962A (zh) 2022-06-22 2022-06-22 集群管理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN115102962A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010103695A (ja) * 2008-10-22 2010-05-06 Ntt Data Corp クラスタシステム、クラスタサーバ及びクラスタ制御方法
CN106982259A (zh) * 2017-04-19 2017-07-25 聚好看科技股份有限公司 服务器集群的故障解决方法
CN108092850A (zh) * 2017-12-12 2018-05-29 郑州云海信息技术有限公司 一种基于心跳机制的集群服务器故障诊断方法与***
CN110677480A (zh) * 2019-09-29 2020-01-10 北京浪潮数据技术有限公司 一种节点健康管理方法、装置和计算机可读存储介质
CN111212127A (zh) * 2019-12-29 2020-05-29 浪潮电子信息产业股份有限公司 一种存储集群及业务数据的维护方法、装置和存储介质
US20210136146A1 (en) * 2019-10-31 2021-05-06 Elasticsearch B.V. Node Clustering Configuration
CN113626238A (zh) * 2021-07-23 2021-11-09 济南浪潮数据技术有限公司 ctdb服务健康状态监控方法、***、装置及存储介质
CN114363162A (zh) * 2021-12-31 2022-04-15 支付宝(杭州)信息技术有限公司 区块链日志的生成方法及装置、电子设备、存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010103695A (ja) * 2008-10-22 2010-05-06 Ntt Data Corp クラスタシステム、クラスタサーバ及びクラスタ制御方法
CN106982259A (zh) * 2017-04-19 2017-07-25 聚好看科技股份有限公司 服务器集群的故障解决方法
CN108092850A (zh) * 2017-12-12 2018-05-29 郑州云海信息技术有限公司 一种基于心跳机制的集群服务器故障诊断方法与***
CN110677480A (zh) * 2019-09-29 2020-01-10 北京浪潮数据技术有限公司 一种节点健康管理方法、装置和计算机可读存储介质
US20210136146A1 (en) * 2019-10-31 2021-05-06 Elasticsearch B.V. Node Clustering Configuration
CN111212127A (zh) * 2019-12-29 2020-05-29 浪潮电子信息产业股份有限公司 一种存储集群及业务数据的维护方法、装置和存储介质
CN113626238A (zh) * 2021-07-23 2021-11-09 济南浪潮数据技术有限公司 ctdb服务健康状态监控方法、***、装置及存储介质
CN114363162A (zh) * 2021-12-31 2022-04-15 支付宝(杭州)信息技术有限公司 区块链日志的生成方法及装置、电子设备、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢丽霞;汪子荧;: "一种在线集群异常作业预测方法", 北京邮电大学学报, no. 05 *

Similar Documents

Publication Publication Date Title
US11269718B1 (en) Root cause detection and corrective action diagnosis system
US8656219B2 (en) System and method for determination of the root cause of an overall failure of a business application service
CN109670950B (zh) 基于区块链的交易监听方法、装置、设备和存储介质
EP3384392B1 (en) Error handling during onboarding of a service
US5781737A (en) System for processing requests for notice of events
US11012476B2 (en) Protecting IOT devices by behavioural analysis of their file system
CN108804119A (zh) 配置更新方法、装置、***、配置中心、应用节点及介质
US11416819B2 (en) Connecting contact center resources using DLT for IOT solutions
US5768524A (en) Method for processing requests for notice of events
CN113220540B (zh) 业务管理方法、装置、计算机设备和存储介质
CN107508700B (zh) 容灾方法、装置、设备及存储介质
US5768523A (en) Program product for processing requests for notice of events
CN113489149B (zh) 基于实时状态感知的电网监控***业务主节点选取方法
US20240039782A1 (en) Computer network troubleshooting and diagnostics using metadata
CN114285844A (zh) 服务器接口智能熔断的方法、装置、电子设备及存储介质
CN111342986A (zh) 分布式节点管理方法及装置、分布式***、存储介质
CN115102962A (zh) 集群管理方法、装置、计算机设备和存储介质
CN111414247A (zh) 一种服务器切换方法、装置、管理节点及存储介质
WO2020037607A1 (zh) 一种传输数据的方法和装置
CN115914404A (zh) 集群流量管理方法、装置、计算机设备和存储介质
CN111258860B (zh) 数据告警方法、装置、计算机设备和存储介质
CN110890977B (zh) 云平台的主机节点监控方法、装置和计算机设备
CN111131198B (zh) 网络安全策略配置的更新方法及装置
CN114285722B (zh) 一种分布式存储集群节点通信告警方法、装置、设备及介质
CN109218206B (zh) 一种限制链路状态通告数量的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination