CN112463535A - 多集群异常处理方法及装置 - Google Patents

多集群异常处理方法及装置 Download PDF

Info

Publication number
CN112463535A
CN112463535A CN202011356181.3A CN202011356181A CN112463535A CN 112463535 A CN112463535 A CN 112463535A CN 202011356181 A CN202011356181 A CN 202011356181A CN 112463535 A CN112463535 A CN 112463535A
Authority
CN
China
Prior art keywords
cluster
application container
deployment
task
scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011356181.3A
Other languages
English (en)
Other versions
CN112463535B (zh
Inventor
康凤筠
李彤
沈一帆
白佳乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202011356181.3A priority Critical patent/CN112463535B/zh
Publication of CN112463535A publication Critical patent/CN112463535A/zh
Application granted granted Critical
Publication of CN112463535B publication Critical patent/CN112463535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提供一种多集群异常处理方法及装置,可应用于云计算领域,所述方法包括:接收联邦集群管理平台发送的应用容器部署指令,并根据所述应用容器部署指令中的应用部署总副本数和集群调度策略执行对应的应用容器部署任务;监测各成员集群的资源状态和所述应用容器部署任务的执行情况,并在监测到所述应用容器部署任务执行失败后,根据所述各成员集群的资源状态对所述应用容器部署任务执行对应的任务调度操作;本申请能够有效保障多集群的服务稳定性和高可用性。

Description

多集群异常处理方法及装置
技术领域
本申请涉及云计算领域,具体涉及一种多集群异常处理方法及装置。
背景技术
随着云计算技术普及,云上应用急速增长,容器部署集群的规模和数量越来越大。在一个集群上往往具有成百上千个计算节点,每个计算节点又部署多个容器,当某个集群出现问题时,比如集群master节点故障,会导致整个集群无法编排、调度和部署容器。同时由于部署在集群上的应用越来越多,会对集群造成过大的压力,从而集群剩余资源不足,此时会导致某些应用的容器因资源不足而启动异常。
发明人发现,现有技术中通常的做法是每个业务容器在多个集群上部署,每个集群上部署多个副本,该方式一方面需要应用指定需要部署集群,没有做到业务侧和平台侧的松耦合;另一方面多集群多副本部署在一定程度造成了资源浪费。同时如果一个集群出现问题,全部的访问压力都切换到另一个集群上,会导致该集群上的容器压力过大。
发明内容
针对现有技术中的问题,本申请提供一种多集群异常处理方法及装置,能够有效保障多集群的服务稳定性和高可用性。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种多集群异常处理方法,包括:
接收联邦集群管理平台发送的应用容器部署指令,并根据所述应用容器部署指令中的应用部署总副本数和集群调度策略执行对应的应用容器部署任务;
监测各成员集群的资源状态和所述应用容器部署任务的执行情况,并在监测到所述应用容器部署任务执行失败后,根据所述各成员集群的资源状态对所述应用容器部署任务执行对应的任务调度操作。
进一步地,所述在监测到所述应用容器部署任务执行失败后,根据所述各成员集群的资源状态对所述应用容器部署任务执行对应的任务调度操作,包括:
在监测到所述应用容器部署任务执行失败后,将对应的成员集群进行隔离处理;
根据预设调度规则和所述各成员集群的资源状态,确定目标成员集群,并将执行失败的应用容器部署任务调度至该目标成员集群。
进一步地,所述根据预设调度规则和所述各成员集群的资源状态,确定目标成员集群,并将执行失败的应用容器部署任务调度至该目标成员集群,包括:
根据所述各成员集群的资源状态,确定资源状态符合预设健康状态条件的成员集群为目标成员集群;
将执行失败的应用容器部署任务按照均衡调度规则均匀调度至该目标成员集群。
进一步地,所述根据所述应用容器部署指令中的应用部署总副本数和集群调度策略执行对应的应用容器部署任务,包括:
由主集群根据所述应用容器部署指令中的应用部署总副本数和集群调度策略,确定与所述主集群对应的各成员集群的应用容器副本部署数量;
由所述主集群将所述应用容器副本部署数量下发至对应的各所述成员集群,并由所述成员集群根据所述应用容器副本部署数量执行对应的应用容器部署操作。
第二方面,本申请提供一种多集群异常处理装置,包括:
应用容器部署任务确定模块,用于接收联邦集群管理平台发送的应用容器部署指令,并根据所述应用容器部署指令中的应用部署总副本数和集群调度策略执行对应的应用容器部署任务;
集群异常任务调度模块,用于监测各成员集群的资源状态和所述应用容器部署任务的执行情况,并在监测到所述应用容器部署任务执行失败后,根据所述各成员集群的资源状态对所述应用容器部署任务执行对应的任务调度操作。
进一步地,所述集群异常任务调度模块包括:
异常集群隔离单元,用于在监测到所述应用容器部署任务执行失败后,将对应的成员集群进行隔离处理;
失败任务调度单元,用于根据预设调度规则和所述各成员集群的资源状态,确定目标成员集群,并将执行失败的应用容器部署任务调度至该目标成员集群。
进一步地,所述失败任务调度单元包括:
健康集群确定子单元,用于根据所述各成员集群的资源状态,确定资源状态符合预设健康状态条件的成员集群为目标成员集群;
失败任务均衡调度子单元,用于将执行失败的应用容器部署任务按照均衡调度规则均匀调度至该目标成员集群。
进一步地,所述应用容器部署任务确定模块包括:
主集群决策单元,用于由主集群根据所述应用容器部署指令中的应用部署总副本数和集群调度策略,确定与所述主集群对应的各成员集群的应用容器副本部署数量;
主集群下发单元,用于由所述主集群将所述应用容器副本部署数量下发至对应的各所述成员集群,并由所述成员集群根据所述应用容器副本部署数量执行对应的应用容器部署操作。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的多集群异常处理方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的多集群异常处理方法的步骤。
由上述技术方案可知,本申请提供一种多集群异常处理方法及装置,通过接收联邦集群管理平台发送的应用容器部署指令,并根据所述应用容器部署指令中的应用部署总副本数和集群调度策略执行对应的应用容器部署任务,并且通过监视所有的成员集群的资源状态和所述应用容器部署任务的执行情况以确保当前是否符合预期,当检测到任务失败后,可以将部署在异常集群的部署失败的任务重新调度到另一个正常的集群,以此保障多个集群场景下连续可靠的对外提供服务,有效保障多集群的服务稳定性和高可用性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中的多集群异常处理方法的流程示意图之一;
图2为本申请实施例中的多集群异常处理方法的流程示意图之二;
图3为本申请实施例中的多集群异常处理方法的流程示意图之三;
图4为本申请实施例中的多集群异常处理方法的流程示意图之四;
图5为本申请实施例中的多集群异常处理装置的结构图之一;
图6为本申请实施例中的多集群异常处理装置的结构图之二;
图7为本申请实施例中的多集群异常处理装置的结构图之三;
图8为本申请实施例中的多集群异常处理装置的结构图之四;
图9为本申请一具体实施例中的多集群架构示意图;
图10为本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到现有技术中通常的做法是每个业务容器在多个集群上部署,每个集群上部署多个副本,该方式一方面需要应用指定需要部署集群,没有做到业务侧和平台侧的松耦合;另一方面多集群多副本部署在一定程度造成了资源浪费。同时如果一个集群出现问题,全部的访问压力都切换到另一个集群上,会导致该集群上的容器压力过大的问题,本申请提供一种多集群异常处理方法及装置,通过接收联邦集群管理平台发送的应用容器部署指令,并根据所述应用容器部署指令中的应用部署总副本数和集群调度策略执行对应的应用容器部署任务,并且通过监视所有的成员集群的资源状态和所述应用容器部署任务的执行情况以确保当前是否符合预期,当检测到任务失败后,可以将部署在异常集群的部署失败的任务重新调度到另一个正常的集群,以此保障多个集群场景下连续可靠的对外提供服务,有效保障多集群的服务稳定性和高可用性。
为了能够有效保障多集群的服务稳定性和高可用性,本申请提供一种多集群异常处理方法的实施例,参见图1,所述多集群异常处理方法具体包含有如下内容:
步骤S101:接收联邦集群管理平台发送的应用容器部署指令,并根据所述应用容器部署指令中的应用部署总副本数和集群调度策略执行对应的应用容器部署任务。
参见图9,为本申请的整体架构图,实现多集群高可用的核心功能为联邦集群模块。应用通过PAAS管理平台完成模板的配置,一个模板中包含一个或多个容器,配置信息中包含容器启动的副本数(容器启动的数量)。应用配置完成后启动模板,PAAS管理平台将模板配置信息组成deployment并将任务发送到联邦集群。容器在联邦集群启动完成后,应用可以通过PAAS管理平台看到容器的启动状态。
可以理解的是,用户只需要在PAAS管理平台定义模板部署总数,无需指定集群,PAAS管理平台将用户的实例均匀分布各个成员集群中,这样既保证了集群对用户透明,又保证了集群拥有更高的可用性。Propagation将编排策略同步到指定的集群上,从而将各个工作实例分散到各个集群中。
可以理解的是,本申请技术方案的执行主体可以为一种联邦集群,具体来说,在某个集群上安装和部署集群联邦管理控制组件kubefed,该组件用来管理集群联邦,利用集群联邦的控制面板的join命令可以将集群加入联邦集群,当集群退出时,可以通过unjoin命令将该集群从联邦集群中删除,安装联邦集群的控制面板kubefed,该组件集群联邦的目的是实现单一集群统一管理多个集群的机制,通过集群联邦可以同时部署和运营多个集群。
可以理解的是,将需要部署容器的集群加入该联邦集群,并指定其中一个集群为联邦集群的主集群,剩下的集群为成员集群,优选的,在一个联邦集群中只能有且仅有一个集群为主集群,并且主集群可以随意切换。
可选的,在接收联邦集群管理平台发送的应用容器部署指令并执行应用部署容器工作时,部署策略将会连接到主集群,再由主集群下发到联邦集群的各个成员集群。
步骤S102:监测各成员集群的资源状态和所述应用容器部署任务的执行情况,并在监测到所述应用容器部署任务执行失败后,根据所述各成员集群的资源状态对所述应用容器部署任务执行对应的任务调度操作。
可选的,本申请可以监听各个成员集群的状态是否健康和监听部署的任务状态,当监听到集群状态不可用时,将不可用的集群进行隔离,并将该集群上的失败任务重新部署到联邦中其他健康的集群上。通过监听部署在各个集群上的资源状态,找到对应的deployment资源,当监听到某个集群由于资源不足导致deployment任务部署失败,将失败的任务重新调度到其他可以正常启动任务的集群上。
从上述描述可知,本申请实施例提供的多集群异常处理方法,能够通过接收联邦集群管理平台发送的应用容器部署指令,并根据所述应用容器部署指令中的应用部署总副本数和集群调度策略执行对应的应用容器部署任务,并且通过监视所有的成员集群的资源状态和所述应用容器部署任务的执行情况以确保当前是否符合预期,当检测到任务失败后,可以将部署在异常集群的部署失败的任务重新调度到另一个正常的集群,以此保障多个集群场景下连续可靠的对外提供服务,有效保障多集群的服务稳定性和高可用性。
为了能够在某一成员集群上的应用容器部署任务执行失败后,及时有效的执行异常处理操作,以确保任务的顺利执行,在本申请的多集群异常处理方法的一实施例中,参见图2,在上述步骤S102中还可以具体包含如下内容:
步骤S201:在监测到所述应用容器部署任务执行失败后,将对应的成员集群进行隔离处理。
步骤S202:根据预设调度规则和所述各成员集群的资源状态,确定目标成员集群,并将执行失败的应用容器部署任务调度至该目标成员集群。
可选的,本申请可以监听各个成员集群的状态是否健康和监听部署的任务状态,当监听到集群状态不可用时,将不可用的集群进行隔离,并将该集群上的失败任务重新部署到联邦中其他健康的集群上。通过监听部署在各个集群上的资源状态,找到对应的deployment资源,当监听到某个集群由于资源不足导致deployment任务部署失败,将失败的任务重新调度到其他可以正常启动任务的集群上。
为了能够准确将失败的任务调度至能够顺利执行的其他成员集群,以确保任务的顺利执行,在本申请的多集群异常处理方法的一实施例中,参见图3,上述步骤S202还可以具体包含如下内容:
步骤S301:根据所述各成员集群的资源状态,确定资源状态符合预设健康状态条件的成员集群为目标成员集群。
步骤S302:将执行失败的应用容器部署任务按照均衡调度规则均匀调度至该目标成员集群。
可选的,将执行失败的应用容器部署任务按照均衡调度规则均匀调度至该目标成员集群,最大程度保证了集群的可用性。通常用户通过PAAS管理平台配置模板并指定需要启动的副本数,PAAS平台会将其自动组装成federated deployment类型、部署策略为均衡部署。
为了能够准确、高效得将应用容器部署在联邦集群中,在本申请的多集群异常处理方法的一实施例中,参见图4,上述步骤S101还可以具体包含如下内容:
步骤S401:由主集群根据所述应用容器部署指令中的应用部署总副本数和集群调度策略,确定与所述主集群对应的各成员集群的应用容器副本部署数量。
步骤S402:由所述主集群将所述应用容器副本部署数量下发至对应的各所述成员集群,并由所述成员集群根据所述应用容器副本部署数量执行对应的应用容器部署操作。
具体的,在接收联邦集群管理平台发送的应用容器部署指令并执行应用部署容器工作时,部署策略将会连接到主集群,再由主集群下发到联邦集群的各个成员集群。应用通过联邦集群管理平台(例如一种PAAS管理平台)部署容器时,无需指定部署的集群,只需要指定该模板下需要部署的副本数,部署策略选择平衡调度策略。主集群计算后,进行下发到每个联邦集群的成员集群上,最后在整个联邦集群中,均衡部署应用需要的容器,保证容器数量为应用部署的副本数。
为了能够有效保障多集群的服务稳定性和高可用性,本申请提供一种用于实现所述多集群异常处理方法的全部或部分内容的多集群异常处理装置的实施例,参见图5,所述多集群异常处理装置具体包含有如下内容:
应用容器部署任务确定模块10,用于接收联邦集群管理平台发送的应用容器部署指令,并根据所述应用容器部署指令中的应用部署总副本数和集群调度策略执行对应的应用容器部署任务。
集群异常任务调度模块20,用于监测各成员集群的资源状态和所述应用容器部署任务的执行情况,并在监测到所述应用容器部署任务执行失败后,根据所述各成员集群的资源状态对所述应用容器部署任务执行对应的任务调度操作。
从上述描述可知,本申请实施例提供的多集群异常处理装置,能够通过接收联邦集群管理平台发送的应用容器部署指令,并根据所述应用容器部署指令中的应用部署总副本数和集群调度策略执行对应的应用容器部署任务,并且通过监视所有的成员集群的资源状态和所述应用容器部署任务的执行情况以确保当前是否符合预期,当检测到任务失败后,可以将部署在异常集群的部署失败的任务重新调度到另一个正常的集群,以此保障多个集群场景下连续可靠的对外提供服务,有效保障多集群的服务稳定性和高可用性。
为了能够在某一成员集群上的应用容器部署任务执行失败后,及时有效的执行异常处理操作,以确保任务的顺利执行,在本申请的多集群异常处理装置的一实施例中,参见图6,所述集群异常任务调度模块20包括:
异常集群隔离单元21,用于在监测到所述应用容器部署任务执行失败后,将对应的成员集群进行隔离处理。
失败任务调度单元22,用于根据预设调度规则和所述各成员集群的资源状态,确定目标成员集群,并将执行失败的应用容器部署任务调度至该目标成员集群。
为了能够准确将失败的任务调度至能够顺利执行的其他成员集群,以确保任务的顺利执行,在本申请的多集群异常处理装置的一实施例中,参见图7,所述失败任务调度单元22包括:
健康集群确定子单元221,用于根据所述各成员集群的资源状态,确定资源状态符合预设健康状态条件的成员集群为目标成员集群。
失败任务均衡调度子单元222,用于将执行失败的应用容器部署任务按照均衡调度规则均匀调度至该目标成员集群。
为了能够准确、高效得将应用容器部署在联邦集群中,在本申请的多集群异常处理装置的一实施例中,参见图8,所述应用容器部署任务确定模块10包括:
主集群决策单元11,用于由主集群根据所述应用容器部署指令中的应用部署总副本数和集群调度策略,确定与所述主集群对应的各成员集群的应用容器副本部署数量。
主集群下发单元12,用于由所述主集群将所述应用容器副本部署数量下发至对应的各所述成员集群,并由所述成员集群根据所述应用容器副本部署数量执行对应的应用容器部署操作。
为了更进一步说明本方案,本申请还提供一种应用上述多集群异常处理装置实现多集群异常处理方法的具体应用实例,具体包含有如下内容:
步骤1):在某个集群master节点上安装集群联邦Federation V2,该组件用来管理联邦集群。集群联邦的目的是实现单一集群统一管理多个kubenetes集群的机制,通过集群联邦可以同时部署和运营多个集群。
步骤2):通过Federation将集群加入到该联邦集群,并指定其中一个集群为联邦集群的主集群,剩下的集群为成员集群。在一个联邦集群中只能有且仅有一个集群为主集群,并且主集群可以随意切换,如果主集群发生故障可以快速其他集群作为新的主集群。
步骤3):集群联邦编排策略是通过创建ReplicaSchedulingPreference(RSP),KubeFed RSP Controller监听获取RSP内容将工作负载到指定集群上。在集群资源不足无法启动deployment时,KubeFed RSP Controller监听到变化并获取rsp内容,找到对应的deployment,根据定义重新计算每个集群对应的副本数量,之后将新的副本数同步到联邦集群中。从而将由于集群资源不足而无法启动的deployment调到资源充足的集群上,保证集群提供稳定的服务。
步骤4):federation-controller会收集各个子集群的状态和资源信息,通过监听crd机制来完成联邦资源的同步和调度功能。当监听到集群异常后,将重新根据总的副本数和集群策略来重新对Deployment进行编排,将新的副本数同步到联邦集群上,从而达到将实例重新调度到正常的集群上。
由上述内容可知,本申请至少还可以实现如下技术效果:
通过将多个集群组成集群联邦进行统一管理,并将任务均匀分布到各个集群上,对集群状态和部署在集群上的任务状态进行监听,当某个集群出现问题导致部署在上面的任务失败时,将会自动将失败的任务重新调到正常的集群上,从而保证集群持续稳定地提供服务,最大限度保障了多集群的高可用,具体优点如下:
1、将应用的模板在多个集群组成的联邦上部署,相对于传统单集群多副本冗余部署方式,减小了资源的浪费。
2、自动的多集群负载均衡方式,减少了单集群的压力,提升了服务性能。
3、自动检测到任务失败,并重新将失败任务调度到正常的集群上,保证了多集群的高可用。
4、集群配置信息对应用透明。
从硬件层面来说,为了能够有效保障多集群的服务稳定性和高可用性,本申请提供一种用于实现所述多集群异常处理方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现多集群异常处理装置与核心业务***、用户终端以及相关数据库等相关设备之间的信息传输;该逻辑控制器可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该逻辑控制器可以参照实施例中的多集群异常处理方法的实施例,以及多集群异常处理装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
可以理解的是,所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在实际应用中,多集群异常处理方法的部分可以在如上述内容所述的电子设备侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
图10为本申请实施例的电子设备9600的***构成的示意框图。如图10所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图10是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,多集群异常处理方法功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
步骤S101:接收联邦集群管理平台发送的应用容器部署指令,并根据所述应用容器部署指令中的应用部署总副本数和集群调度策略执行对应的应用容器部署任务。
步骤S102:监测各成员集群的资源状态和所述应用容器部署任务的执行情况,并在监测到所述应用容器部署任务执行失败后,根据所述各成员集群的资源状态对所述应用容器部署任务执行对应的任务调度操作。
从上述描述可知,本申请实施例提供的电子设备,通过接收联邦集群管理平台发送的应用容器部署指令,并根据所述应用容器部署指令中的应用部署总副本数和集群调度策略执行对应的应用容器部署任务,并且通过监视所有的成员集群的资源状态和所述应用容器部署任务的执行情况以确保当前是否符合预期,当检测到任务失败后,可以将部署在异常集群的部署失败的任务重新调度到另一个正常的集群,以此保障多个集群场景下连续可靠的对外提供服务,有效保障多集群的服务稳定性和高可用性。
在另一个实施方式中,多集群异常处理装置可以与中央处理器9100分开配置,例如可以将多集群异常处理装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现多集群异常处理方法功能。
如图10所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图10中所示的所有部件;此外,电子设备9600还可以包括图10中没有示出的部件,可以参考现有技术。
如图10所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的多集群异常处理方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的多集群异常处理方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤S101:接收联邦集群管理平台发送的应用容器部署指令,并根据所述应用容器部署指令中的应用部署总副本数和集群调度策略执行对应的应用容器部署任务。
步骤S102:监测各成员集群的资源状态和所述应用容器部署任务的执行情况,并在监测到所述应用容器部署任务执行失败后,根据所述各成员集群的资源状态对所述应用容器部署任务执行对应的任务调度操作。
从上述描述可知,本申请实施例提供的计算机可读存储介质,通过接收联邦集群管理平台发送的应用容器部署指令,并根据所述应用容器部署指令中的应用部署总副本数和集群调度策略执行对应的应用容器部署任务,并且通过监视所有的成员集群的资源状态和所述应用容器部署任务的执行情况以确保当前是否符合预期,当检测到任务失败后,可以将部署在异常集群的部署失败的任务重新调度到另一个正常的集群,以此保障多个集群场景下连续可靠的对外提供服务,有效保障多集群的服务稳定性和高可用性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种多集群异常处理方法,其特征在于,所述方法包括:
接收联邦集群管理平台发送的应用容器部署指令,并根据所述应用容器部署指令中的应用部署总副本数和集群调度策略执行对应的应用容器部署任务;
监测各成员集群的资源状态和所述应用容器部署任务的执行情况,并在监测到所述应用容器部署任务执行失败后,根据所述各成员集群的资源状态对所述应用容器部署任务执行对应的任务调度操作。
2.根据权利要求1所述的多集群异常处理方法,其特征在于,所述在监测到所述应用容器部署任务执行失败后,根据所述各成员集群的资源状态对所述应用容器部署任务执行对应的任务调度操作,包括:
在监测到所述应用容器部署任务执行失败后,将对应的成员集群进行隔离处理;
根据预设调度规则和所述各成员集群的资源状态,确定目标成员集群,并将执行失败的应用容器部署任务调度至该目标成员集群。
3.根据权利要求2所述的多集群异常处理方法,其特征在于,所述根据预设调度规则和所述各成员集群的资源状态,确定目标成员集群,并将执行失败的应用容器部署任务调度至该目标成员集群,包括:
根据所述各成员集群的资源状态,确定资源状态符合预设健康状态条件的成员集群为目标成员集群;
将执行失败的应用容器部署任务按照均衡调度规则均匀调度至该目标成员集群。
4.根据权利要求1所述的多集群异常处理方法,其特征在于,所述根据所述应用容器部署指令中的应用部署总副本数和集群调度策略执行对应的应用容器部署任务,包括:
由主集群根据所述应用容器部署指令中的应用部署总副本数和集群调度策略,确定与所述主集群对应的各成员集群的应用容器副本部署数量;
由所述主集群将所述应用容器副本部署数量下发至对应的各所述成员集群,并由所述成员集群根据所述应用容器副本部署数量执行对应的应用容器部署操作。
5.一种多集群异常处理装置,其特征在于,包括:
应用容器部署任务确定模块,用于接收联邦集群管理平台发送的应用容器部署指令,并根据所述应用容器部署指令中的应用部署总副本数和集群调度策略执行对应的应用容器部署任务;
集群异常任务调度模块,用于监测各成员集群的资源状态和所述应用容器部署任务的执行情况,并在监测到所述应用容器部署任务执行失败后,根据所述各成员集群的资源状态对所述应用容器部署任务执行对应的任务调度操作。
6.根据权利要求5所述的多集群异常处理装置,其特征在于,所述集群异常任务调度模块包括:
异常集群隔离单元,用于在监测到所述应用容器部署任务执行失败后,将对应的成员集群进行隔离处理;
失败任务调度单元,用于根据预设调度规则和所述各成员集群的资源状态,确定目标成员集群,并将执行失败的应用容器部署任务调度至该目标成员集群。
7.根据权利要求6所述的多集群异常处理装置,其特征在于,所述失败任务调度单元包括:
健康集群确定子单元,用于根据所述各成员集群的资源状态,确定资源状态符合预设健康状态条件的成员集群为目标成员集群;
失败任务均衡调度子单元,用于将执行失败的应用容器部署任务按照均衡调度规则均匀调度至该目标成员集群。
8.根据权利要求5所述的多集群异常处理装置,其特征在于,所述应用容器部署任务确定模块包括:
主集群决策单元,用于由主集群根据所述应用容器部署指令中的应用部署总副本数和集群调度策略,确定与所述主集群对应的各成员集群的应用容器副本部署数量;
主集群下发单元,用于由所述主集群将所述应用容器副本部署数量下发至对应的各所述成员集群,并由所述成员集群根据所述应用容器副本部署数量执行对应的应用容器部署操作。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述的多集群异常处理方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述的多集群异常处理方法的步骤。
CN202011356181.3A 2020-11-27 2020-11-27 多集群异常处理方法及装置 Active CN112463535B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011356181.3A CN112463535B (zh) 2020-11-27 2020-11-27 多集群异常处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011356181.3A CN112463535B (zh) 2020-11-27 2020-11-27 多集群异常处理方法及装置

Publications (2)

Publication Number Publication Date
CN112463535A true CN112463535A (zh) 2021-03-09
CN112463535B CN112463535B (zh) 2024-05-10

Family

ID=74809736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011356181.3A Active CN112463535B (zh) 2020-11-27 2020-11-27 多集群异常处理方法及装置

Country Status (1)

Country Link
CN (1) CN112463535B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905306A (zh) * 2021-03-29 2021-06-04 建信金融科技有限责任公司 多集群容器管理方法、装置、电子设备和存储介质
CN113179331A (zh) * 2021-06-11 2021-07-27 苏州大学 面向移动边缘计算的分布式专用保护业务调度方法
CN113190364A (zh) * 2021-04-30 2021-07-30 平安壹钱包电子商务有限公司 远程调用管理方法、装置、计算机设备及可读存储介质
CN113342552A (zh) * 2021-07-05 2021-09-03 湖南快乐阳光互动娱乐传媒有限公司 数据处理方法及装置、存储介质及电子设备
CN113391902A (zh) * 2021-06-22 2021-09-14 未鲲(上海)科技服务有限公司 一种任务调度方法及设备、存储介质
CN113590256A (zh) * 2021-06-03 2021-11-02 新浪网技术(中国)有限公司 多Kubernetes集群的应用部署方法及装置
CN113626280A (zh) * 2021-06-30 2021-11-09 广东浪潮智慧计算技术有限公司 集群状态控制方法、装置、电子设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105515812A (zh) * 2014-10-15 2016-04-20 中兴通讯股份有限公司 资源的故障处理方法及装置
CN106713056A (zh) * 2017-03-17 2017-05-24 郑州云海信息技术有限公司 一种分布式集群下备机选举切换的方法
WO2020097814A1 (zh) * 2018-11-14 2020-05-22 深圳市互盟科技股份有限公司 一种容器编排引擎的安装方法、装置及电子设备
CN111290834A (zh) * 2020-01-21 2020-06-16 苏州浪潮智能科技有限公司 一种基于云管理平台实现业务高可用的方法、装置及设备
CN111385114A (zh) * 2018-12-28 2020-07-07 华为技术有限公司 Vnf服务实例化方法及装置
CN111800303A (zh) * 2020-09-09 2020-10-20 杭州朗澈科技有限公司 混合云场景下保证可用集群数量的方法、装置及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105515812A (zh) * 2014-10-15 2016-04-20 中兴通讯股份有限公司 资源的故障处理方法及装置
CN106713056A (zh) * 2017-03-17 2017-05-24 郑州云海信息技术有限公司 一种分布式集群下备机选举切换的方法
WO2020097814A1 (zh) * 2018-11-14 2020-05-22 深圳市互盟科技股份有限公司 一种容器编排引擎的安装方法、装置及电子设备
CN111385114A (zh) * 2018-12-28 2020-07-07 华为技术有限公司 Vnf服务实例化方法及装置
CN111290834A (zh) * 2020-01-21 2020-06-16 苏州浪潮智能科技有限公司 一种基于云管理平台实现业务高可用的方法、装置及设备
CN111800303A (zh) * 2020-09-09 2020-10-20 杭州朗澈科技有限公司 混合云场景下保证可用集群数量的方法、装置及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KAIREN BAI: "KubeFed Kubernetes Federation v2 详解", 《KUBERNETES 中文社区》:HTTPS://WWW.KUBERNETES.ORG.CN/5702.HTML, 12 August 2019 (2019-08-12) *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905306A (zh) * 2021-03-29 2021-06-04 建信金融科技有限责任公司 多集群容器管理方法、装置、电子设备和存储介质
CN113190364A (zh) * 2021-04-30 2021-07-30 平安壹钱包电子商务有限公司 远程调用管理方法、装置、计算机设备及可读存储介质
CN113590256A (zh) * 2021-06-03 2021-11-02 新浪网技术(中国)有限公司 多Kubernetes集群的应用部署方法及装置
CN113179331A (zh) * 2021-06-11 2021-07-27 苏州大学 面向移动边缘计算的分布式专用保护业务调度方法
CN113179331B (zh) * 2021-06-11 2022-02-11 苏州大学 面向移动边缘计算的分布式专用保护业务调度方法
CN113391902A (zh) * 2021-06-22 2021-09-14 未鲲(上海)科技服务有限公司 一种任务调度方法及设备、存储介质
CN113626280A (zh) * 2021-06-30 2021-11-09 广东浪潮智慧计算技术有限公司 集群状态控制方法、装置、电子设备及可读存储介质
CN113626280B (zh) * 2021-06-30 2024-02-09 广东浪潮智慧计算技术有限公司 集群状态控制方法、装置、电子设备及可读存储介质
CN113342552A (zh) * 2021-07-05 2021-09-03 湖南快乐阳光互动娱乐传媒有限公司 数据处理方法及装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN112463535B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
CN112463535B (zh) 多集群异常处理方法及装置
CN112445575B (zh) 多集群资源调度方法、装置及***
CN116170317A (zh) 网络***、服务提供与资源调度方法、设备及存储介质
CN106575247B (zh) 计算集群的容错联盟
CN111813601B (zh) 有状态分布式集群的微服务回滚方法及装置
CN112380020A (zh) 一种算力资源分配方法、装置、设备及存储介质
CN111274033B (zh) 一种资源部署方法、装置、服务器以及存储介质
CN113742031A (zh) 节点状态信息获取方法、装置、电子设备及可读存储介质
CN109656691A (zh) 计算资源的处理方法、装置以及电子设备
CN110837407B (zh) 无服务器云服务***及其资源管理方法以及电子设备
CN110875833A (zh) 集群混合云、作业处理方法、装置及电子设备
CN111858007A (zh) 一种基于消息中间件的任务调度方法方法和装置
CN111445331A (zh) 交易撮合方法及装置
CN111858050B (zh) 服务器集群混合部署方法、集群管理节点及相关***
CN110427260B (zh) 主机作业调度方法、装置及***
CN111510493B (zh) 分布式数据传输方法及装置
CN110944067B (zh) 一种负载均衡方法和服务器
CN113326025B (zh) 一种单一集群远程持续发布方法及装置
CN112069154A (zh) etcd分布式数据库自动运维方法及相关装置
CN112905338B (zh) 计算资源自动分配方法及装置
CN114489989A (zh) 一种基于代理客户端并行调度的方法及***
CN117499490A (zh) 基于多集群的网络调度方法及装置
CN113138812A (zh) 航天器任务调度方法及装置
CN111190731A (zh) 基于权重的集群任务调度***
CN113342520B (zh) 一种基于联邦实现的跨集群远程持续发布方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant