CN108512890B - 一种基于机架感知的容器云平台资源调度方法及*** - Google Patents

一种基于机架感知的容器云平台资源调度方法及*** Download PDF

Info

Publication number
CN108512890B
CN108512890B CN201810074298.9A CN201810074298A CN108512890B CN 108512890 B CN108512890 B CN 108512890B CN 201810074298 A CN201810074298 A CN 201810074298A CN 108512890 B CN108512890 B CN 108512890B
Authority
CN
China
Prior art keywords
node
scheduling
resource
data
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810074298.9A
Other languages
English (en)
Other versions
CN108512890A (zh
Inventor
丁建军
覃路
曾志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chalco Steering Intelligent Technology Co ltd
Original Assignee
Chalco Steering Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chalco Steering Intelligent Technology Co ltd filed Critical Chalco Steering Intelligent Technology Co ltd
Priority to CN201810074298.9A priority Critical patent/CN108512890B/zh
Publication of CN108512890A publication Critical patent/CN108512890A/zh
Application granted granted Critical
Publication of CN108512890B publication Critical patent/CN108512890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1042Peer-to-peer [P2P] networks using topology management mechanisms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0213Standardised network management protocols, e.g. simple network management protocol [SNMP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/50Queue scheduling
    • H04L47/62Queue scheduling characterised by scheduling criteria
    • H04L47/625Queue scheduling characterised by scheduling criteria for service slots or service orders
    • H04L47/6275Queue scheduling characterised by scheduling criteria for service slots or service orders based on priority
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1074Peer-to-peer [P2P] networks for supporting data block transmission mechanisms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer And Data Communications (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种基于机架感知的容器云平台资源调度方法及***,其方法包括以下步骤:A.获取用户的服务请求进行分析并定义需要的副本数;B.获取所有节点状态;C.根据资源评分算法进行评分,选择资源评分优先级最高的节点进行调度;D.判断是否有剩余副本需要调度,若没有,则结束调度,若有,则进入步骤E;E.获取集群节点网络拓扑图,选择与步骤C中所述的资源评分优先级最高的节点距离大于2的某一节点;F.获取与步骤E中所述的某一节点距离为2的所有节点状态,并重新进入步骤C。避免了调度过程中,容器副本分布在同一个机架内,降低了应用不可用的风险,同时分散集群内网络流量,避免单一网络端口流量过大的问题。

Description

一种基于机架感知的容器云平台资源调度方法及***
技术领域
本发明涉及云计算资源调度技术领域,尤其涉及一种基于机架感知的容器云平台资源调度方法及***。
背景技术
在容器云平台中,应用作为容器运行在其中,对外提供服务,为了实现负载均衡和高可用,同一个应用需要同时运行多个容器作为副本,共同工作,为了避免容器云平台某个节点宕机之后,服务不可用,需要将容器的多个副本尽可能的运行在互不干扰的不同节点上。
现有情况下,容器的调度方法主要有两种,一种是随机调度方法,一种是基于节点资源评分的优先级调度方法,但是这两种方法都没有考虑节点本身的物理分布情况,在实际环境中,容易出现当某一个机架或者是内部交换机出现问题时,因为应用副本分散度不够,导致应用不可用的问题。
发明内容
针对上述现有技术中的不足之处,本发明提供了一种基于机架感知的容器云平台资源调度方法及***,以解决现有技术中容器副本分布在同一个机架内致使应用不可用风险高的问题。
本发明提供了一种基于机架感知的容器云平台资源调度方法,包括以下步骤:
A.获取用户的服务请求,对获取的所述服务请求进行分析并定义需要的副本数;
B.获取所有节点及其状态信息;
C.根据资源评分方法对获取的所有节点进行评分,选择资源评分优先级最高的节点进行调度;
D.判断是否有剩余副本需要调度,若没有,则结束调度,若有,则进入步骤E;
E.获取集群节点网络拓扑图,选择与步骤C中所述的资源评分优先级最高的节点距离大于2的某一节点;
F.获取与步骤E中所述的某一节点距离为2的所有节点及其状态信息,并重新进入步骤C。
作为本发明的进一步改进,步骤A包括以下分步骤:
A1.获取用户的申请资源的服务请求;
A2.对获取的用户申请资源服务请求解析,得到用户的身份信息和申请的资源信息;
A3.将得到的用户身份信息进行身份验证,验证通过后,则对用户所申请的资源信息进行分析并定义需要的副本数。
作为本发明的进一步改进,步骤B中所述节点状态包括机器负载、CPU占用率、内存占用率、磁盘I O吞吐量、网络I O吞吐量等数据。
作为本发明的进一步改进,步骤C包括以下分步骤:
C1.将采集的节点的机器负载、CPU占用率、内存占用量、磁盘I O吞吐量、网络I O吞吐量数据作为评分指标数据;
C2.将节点按照上述评分指标数据从小到大进行排序,选取第一个节点作为副本调度节点。
作为本发明的进一步改进,步骤E、F中所述的节点距离是以机器到外部设备的跳数作为距离值。
作为本发明的进一步改进,步骤E中集群节点网络拓扑实现方式为直接将拓扑数据录入到集群的管理节点中,当管理节点进行调度时,直接读取相关数据获取节点距离。
作为本发明的进一步改进,步骤E中集群节点网络拓扑实现方式为通过SNMP协议,以管理节点为初始节点,遍历所有的网络接口,获取网络拓扑数据,供管理节点调度时使用。
一种基于机架感知的容器云平台资源调度***,包括AP I服务器模块、资源调度控制模块、节点服务器集群模块、节点网络拓扑信息数据模块;所述AP I服务器模块获取用户的服务请求,对服务请求进行解析,并验证身份,身份验证通过后,定义用户的服务请求所需要的副本数及资源调度请求;所述节点网络拓扑信息数据模块获取节点网络拓扑图并存储数据;所述节点服务器集群模块包含所有节点及其状态数据信息,并根据资源评分方法对所有节点进行评分,所有节点按资源评分的优先级从高到低依次排序;所述资源调度控制模块接受定义的副本数及资源调度请求,获取节点服务器集群模块内的节点信息,调取优先级最高的节点作为第一个副本调度节点,然后判断是否还有剩余副本需要调度,若没有,结束调度,若有,则调用节点服务器集群模块、节点网络拓扑信息数据模块的数据,获取与调用节点距离大于2的所有节点,选择优先级最高的节点作为第二个副本调度节点,然后继续判断是否还有副本需要调度,依次类推,直到没有剩余副本需要调度则结束调度。
进一步的,所述节点服务器集群模块中节点状态信息包括机器负载、CPU占用率、内存占用率、磁盘I O吞吐量、网络I O吞吐量等数据,并根据上述数据进行资源评分。
进一步的,所述节点距离是以机器到外部设备的跳数作为距离值。
本发明在节点资源评分方法的基础上,扩充了机架感知,在调度之前,根据机架感知算法,计算出副本对应分布的节点,然后根据机架内的节点资源评分的优先级,从中选择优先级最高的节点进行调度,然后获取集群节点网络拓扑图,选择节点距离大于2,并且资源评分优先级最高的节点进行调度,避免调度过程中,容器副本分布在同一个机架内,降低了应用不可用的风险,降低了应用因机房设备失效导致不可用的风险,同时分散集群内网络流量,避免单一网络端口流量过大的问题。
附图说明
图1是本发明提供的容器云平台资源调度方法的原理框图;
图2是本发明提供的一种集群节点网络拓扑图;
图3是本发明提供的容器云平台资源调度***的结构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明公开了一种基于机架感知的容器云平台资源调度方法,包括以下步骤:
A.获取用户的服务请求,对获取的所述服务请求进行分析并定义需要的副本数;
B.获取所有节点及其状态信息;
C.根据资源评分方法对获取的所有节点进行评分,选择资源评分优先级最高的节点进行调度;
D.判断是否有剩余副本需要调度,若没有,则结束调度,若有,则进入步骤E;
E.获取集群节点网络拓扑图,选择与步骤C中所述的资源评分优先级最高的节点距离大于2的某一节点;
F.获取与步骤E中所述的某一节点距离为2的所有节点及其状态信息,并重新进入步骤C。
进一步的,步骤A包括以下分步骤:
A1.获取用户的申请资源的服务请求;
A2.对获取的用户申请资源服务请求解析,得到用户的身份信息和申请的资源信息;
A3.将得到的用户身份信息进行身份验证,验证通过后,则对用户所申请的资源信息进行分析并定义需要的副本数。
进一步的,步骤B中所述节点状态包括机器负载、CPU占用率、内存占用率、磁盘I O吞吐量、网络I O吞吐量等数据。
进一步的,步骤C包括以下分步骤:
C1.将采集的节点的机器负载、CPU占用率、内存占用量、磁盘IO吞吐量、网络IO吞吐量数据作为评分指标数据;
C2.将节点按照上述评分指标数据从小到大进行排序,选取第一个节点作为副本调度节点。
进一步的,步骤E、F中所述的节点距离是以机器到外部设备的跳数作为距离值。为了便于理解,这里基于一个网络拓扑案例介绍节点距离,如图2所示,D1、R1都是交换机,最底层是datanode。则H1的rackid=/D1/R1/H1,H1的parent是R1,R1的parent是D1。H1、H2、H3相互之间的距离为2,即H1-R1-H2中间经过了2跳,H1到H4、H5、H6的距离为4,即H1-R1-D1-R2-H4中间经过了4跳。
进一步的,步骤E中集群节点网络拓扑实现方式为直接将拓扑数据录入到集群的管理节点中,当管理节点进行调度时,直接读取相关数据获取节点距离。
进一步的,步骤E中集群节点网络拓扑实现方式为通过SNMP协议,以管理节点为初始节点,遍历所有的网络接口,获取网络拓扑数据,供管理节点调度时使用。
如图3所示,一种基于机架感知的容器云平台资源调度***,包括AP I服务器模块、资源调度控制模块、节点服务器集群模块、节点网络拓扑信息数据模块;所述AP I服务器模块获取用户的服务请求,对服务请求进行解析,并验证身份,身份验证通过后,定义用户的服务请求所需要的副本数及资源调度请求;所述节点网络拓扑信息数据模块获取节点网络拓扑图并存储数据;所述节点服务器集群模块包含所有节点及其状态数据信息,并根据资源评分方法对所有节点进行评分,所有节点按资源评分的优先级从高到低依次排序;所述资源调度控制模块接受定义的副本数及资源调度请求,获取节点服务器集群模块内的节点信息,调取优先级最高的节点作为第一个副本调度节点,然后判断是否还有剩余副本需要调度,若没有,结束调度,若有,则调用节点服务器集群模块、节点网络拓扑信息数据模块的数据,获取与调用节点距离大于2的所有节点,选择优先级最高的节点作为第二个副本调度节点,然后继续判断是否还有副本需要调度,依次类推,直到没有剩余副本需要调度则结束调度。
进一步的,所述节点服务器集群模块中节点状态信息包括机器负载、CPU占用率、内存占用率、磁盘I O吞吐量、网络I O吞吐量等数据,并根据上述数据进行资源评分。
进一步的,所述节点距离是以机器到外部设备的跳数作为距离值,获取节点网络拓扑的方法与上述容器云平台资源调度方法中提到的相同,并将得到数据存储在节点网络拓扑信息数据模块。
本发明在节点资源评分方法的基础上,扩充了机架感知,在调度之前,根据机架感知算法,计算出副本对应分布的节点,然后根据机架内的节点资源评分的优先级,从中选择优先级最高的节点进行调度,然后获取集群节点网络拓扑图,选择节点距离大于2,并且资源评分优先级最高的节点进行调度,避免调度过程中,容器副本分布在同一个机架内,降低了应用不可用的风险,降低了应用因机房设备失效导致不可用的风险,同时分散集群内网络流量,避免单一网络端口流量过大的问题。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (4)

1.一种基于机架感知的容器云平台资源调度方法,其特征在于,包括以下步骤:
A.获取用户的服务请求,对获取的所述服务请求进行分析并定义需要的副本数;
B.获取所有节点及其状态信息;
C.根据资源评分方法对获取的所有节点进行评分,选择资源评分优先级最高的节点进行调度;
D.判断是否有剩余副本需要调度,若没有,则结束调度,若有,则进入步骤E;
E.获取集群节点网络拓扑图,选择与步骤C中所述的资源评分优先级最高的节点距离大于2的某一节点;
F.获取与步骤E中所述的某一节点距离为2的所有节点及其状态信息,并重新进入步骤C;
步骤A包括以下分步骤:
A1.获取用户的申请资源的服务请求;
A2.对获取的用户申请资源服务请求解析,得到用户的身份信息和申请的资源信息;
A3.将得到的用户身份信息进行身份验证,验证通过后,则对用户所申请的资源信息进行分析并定义需要的副本数;
步骤B中所述节点状态信息包括机器负载、CPU占用率、内存占用率、磁盘IO吞吐量、网络IO吞吐量- 数据;
步骤C包括以下分步骤:
C1.将采集的节点的机器负载、CPU占用率、内存占用量、磁盘IO吞吐量、网络IO吞吐量数据作为评分指标数据;
C2.将节点按照上述评分指标数据从小到大进行排序,选取第一个节点作为副本调度节点;
步骤E、F中所述的节点距离是以机器到外部设备的跳数作为距离值,步骤E中集群节点网络拓扑实现方式为直接将拓扑数据录入到集群的管理节点中,当管理节点进行调度时,直接读取相关数据获取节点距离,步骤E中集群节点网络拓扑实现方式为通过SNMP协议,以管理节点为初始节点,遍历所有的网络接口,获取网络拓扑数据,供管理节点调度时使用。
2.一种基于机架感知的容器云平台资源调度***,其特征在于:包括API服务器模块、资源调度控制模块、节点服务器集群模块、节点网络拓扑信息数据模块;所述API服务器模块获取用户的服务请求,对服务请求进行解析,并验证身份,身份验证通过后,定义用户的服务请求所需要的副本数及资源调度请求;所述节点网络拓扑信息数据模块获取节点网络拓扑图并存储数据;所述节点服务器集群模块包含所有节点及其状态数据信息,并根据资源评分方法对所有节点进行评分,所有节点按资源评分的优先级从高到低依次排序;所述资源调度控制模块接受定义的副本数及资源调度请求,获取节点服务器集群模块内的节点信息,调取优先级最高的节点作为第一个副本调度节点,然后判断是否还有剩余副本需要调度,若没有,结束调度,若有,则调用节点服务器集群模块、节点网络拓扑信息数据模块的数据,获取与调用节点距离大于2的所有节点,选择优先级最高的节点作为第二个副本调度节点,然后继续判断是否还有副本需要调度,依次类推,直到没有剩余副本需要调度则结束调度。
3.根据权利要求2所述的基于机架感知的容器云平台资源调度***,其特征在于:所述节点服务器集群模块中节点状态信息包括机器负载、CPU占用率、内存占用率、磁盘IO吞吐量、网络IO吞吐量- 数据,并根据上述数据进行资源评分。
4.根据权利要求2所述的基于机架感知的容器云平台资源调度***,其特征在于:所述节点距离是以机器到外部设备的跳数作为距离值。
CN201810074298.9A 2018-01-25 2018-01-25 一种基于机架感知的容器云平台资源调度方法及*** Active CN108512890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810074298.9A CN108512890B (zh) 2018-01-25 2018-01-25 一种基于机架感知的容器云平台资源调度方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810074298.9A CN108512890B (zh) 2018-01-25 2018-01-25 一种基于机架感知的容器云平台资源调度方法及***

Publications (2)

Publication Number Publication Date
CN108512890A CN108512890A (zh) 2018-09-07
CN108512890B true CN108512890B (zh) 2020-12-29

Family

ID=63374844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810074298.9A Active CN108512890B (zh) 2018-01-25 2018-01-25 一种基于机架感知的容器云平台资源调度方法及***

Country Status (1)

Country Link
CN (1) CN108512890B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109889370B (zh) * 2019-01-10 2021-12-21 ***通信集团海南有限公司 一种网络设备位置确定方法、装置及计算机可读存储介质
CN110221915B (zh) * 2019-05-21 2020-11-10 新华三大数据技术有限公司 节点调度方法和装置
CN110187974A (zh) * 2019-05-31 2019-08-30 北京宝兰德软件股份有限公司 一种负载均衡的处理方法及装置
CN110460647B (zh) * 2019-07-23 2021-10-22 平安科技(深圳)有限公司 网络节点的调度方法、装置、电子设备和存储介质
CN110597701B (zh) * 2019-09-12 2021-03-05 上海道客网络科技有限公司 一种容器云平台的健康稳定运行程度的评分***及方法
CN112445575B (zh) * 2020-11-27 2024-01-26 中国工商银行股份有限公司 多集群资源调度方法、装置及***
CN113313280B (zh) * 2021-03-31 2023-09-19 阿里巴巴新加坡控股有限公司 云平台的巡检方法、电子设备及非易失性存储介质
US11997022B2 (en) * 2021-06-21 2024-05-28 International Business Machines Corporation Service-to-service scheduling in container orchestrators

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095573A (zh) * 2016-06-08 2016-11-09 北京大学 一种工作槽感知的Storm平台作业均分调度方法
CN107370802A (zh) * 2017-07-10 2017-11-21 中国人民解放军国防科学技术大学 一种基于交替方向乘子法的协同存储调度方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095573A (zh) * 2016-06-08 2016-11-09 北京大学 一种工作槽感知的Storm平台作业均分调度方法
CN107370802A (zh) * 2017-07-10 2017-11-21 中国人民解放军国防科学技术大学 一种基于交替方向乘子法的协同存储调度方法

Also Published As

Publication number Publication date
CN108512890A (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
CN108512890B (zh) 一种基于机架感知的容器云平台资源调度方法及***
US11329928B2 (en) Dynamic allocation of network resources using external inputs
CN104092756B (zh) 一种基于dht机制的云存储***的资源动态分配方法
CN112153700A (zh) 一种网络切片资源管理方法及设备
US9825875B2 (en) Method and apparatus for provisioning resources using clustering
US10419437B2 (en) Quasi-agentless cloud resource management
CN108512672B (zh) 业务编排方法、业务管理方法及装置
CN111614657B (zh) 基于模式选择的移动边缘安全服务方法及***
US11652720B2 (en) Allocating cloud resources in accordance with predicted deployment growth
JP2017204712A (ja) 仮想資源自動選択システム及び方法
CN113485792A (zh) 一种kubernetes集群内Pod调度方法、终端设备及存储介质
CN105872082B (zh) 基于容器集群负载均衡算法的细粒度资源响应***
CN108228752B (zh) 数据全量导出方法、数据导出任务分配装置及数据导出节点装置
CN102546652B (zh) 一种服务器负载平衡***及方法
CN116360954A (zh) 基于云边协同技术的工业物联网管控方法和管控***
WO2023091215A1 (en) Mapping an application signature to designated cloud resources
US20210286896A1 (en) Methods and systems for data management in communication network
Midya et al. An adaptive resource placement policy by optimizing live VM migration for ITS applications in vehicular cloud network
CN109600251B (zh) 一种虚拟网络部署方法、***及装置
CN113190347A (zh) 一种边缘云***及任务管理方法
CN110391929B (zh) 一种容错控制方法、装置及容错构件
CN111327666A (zh) 服务管理方法、装置及***、计算机设备、存储介质
CN112486615B (zh) 基于拓扑路径的决策流执行方法、装置、设备及存储介质
WO2024047775A1 (ja) 通信システムに係る所与の予測目的で用いられる機械学習モデルの決定
WO2024047774A1 (ja) 通信システムに係る所与の予測目的で用いられる機械学習モデルの決定

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant