CN114880079A

CN114880079A - 基于强化学习的Kubernetes集群规模调整方法、***及设备

Info

Publication number: CN114880079A
Application number: CN202210742144.9A
Authority: CN
Inventors: 崔思恒; 罗韬
Original assignee: China Asean Information Harbor Co ltd
Current assignee: China Asean Information Harbor Co ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-08-09

Abstract

本发明公开了一种基于强化学习的Kubernetes集群规模调整方法、***及设备，属于云计算技术领域，解决目前不能智能调整集群规模的技术问题。方法包括步骤S1.设置节点资源池；配置集群信息，配置好节点模板和预执行脚本；步骤S2.获取当前集群的状态参数；步骤S3.将状态参数输入强化学习代理中的决策网络得到输出结果；步骤S4.根据输出结果进行扩缩容操作；步骤S5.重新获取配置后的状态参数、即时奖励；将配置前的状态参数、配置动作、即时奖励、配置后的状态参数作为一个训练样本，保存到训练集中；步骤S6.从训练集中随机选取若干个训练样本训练强化学习代理中的训练网络；步骤S7.执行步骤S2～步骤S6，达到设定循环次数后，根据训练网络的参数更新决策网络。

Description

基于强化学习的Kubernetes集群规模调整方法、***及设备

技术领域

本发明涉及云计算技术领域，更具体地说，它涉及一种基于强化学习的Kubernetes集群规模调整方法、***及设备。

背景技术

云计算描述了一种基于互联网的服务新增、使用和交付模式，通常涉及提供动态易扩展、而且一般是虚拟化的资源；是如今最火的互联网计算方式。资源的弹性伸缩是云计算的本质能力之一，是当前环境下服务实现云上降本增效的重要途径，也是衡量云原生成熟度的关键因素。

目前，Kubernetes是最流行的云原生容器编排平台，用于自动部署、扩展和管理容器化应用程序，提供了云计算中Paas的层级。由于容器化应用程序的特性，容器平台天生具备快速扩容缩容的能力，容器环境的扩容分为容器和集群两个层面。在容器层面，Kubernetes提供了容器水平伸缩和垂直伸缩来对应用程序实例进行扩缩容。容器水平伸缩(HPA)是指对容器实例个数进行增加或减少，垂直伸缩(VPA)是指调整单个容器实例可以占用的CPU和内存限制。当Kubernetes容器云平台一定数目的项目开启自动扩缩容之后，容器平台才能腾出更多的空闲资源，在有足够空闲资源时，我们可以进一步把集群节点进行自动扩缩容，即自动地调整集群规模。依托各种云厂商提供的自动化能力，我们可以自动按需启动或者回收虚拟机资源，从而动态的增加或者缩小Kubernetes集群的规模。在众多集群场景下，CPU或内存资源的利用率会根据每天不同时段的请求量波动，在容器缩容导致节点闲置资源变多时，节点资源就应该被回收；如果节点资源达到一定比例，则需要增加节点。目前Kubernetes集群规模调整的方法有CA(Cluster AutoScaler)和Ansible一键自动扩容节点。Ansible一键自动扩容节点属于人工干预的集群规模调整，需要人为的手动触发；CA则是通过容器配置的请求值(request)和限制值(limit)和节点阈值判断，如果某一节点指标长时间少于配置值，则缩容该节点，如果集群资源已经不足以创建新的容器，则新增节点扩大集群的规模。然而CA会带来以下问题：1.节点进行缩容的阈值大小设置难以参考，需要综合考虑历史数据以及一定的专家经验；2.机器规格不统一造成机器利用率百分比的碎片化，比如集群中某些机器时4核4G，有些是8核16G；3.机器利用率使用每个容器的容量规划设置来计算，而不是通过宿主机的实际占用计算。在公司降本增效的长远目标的指导下，需要更加智能的对Kubernetes集群规模进行调整。

发明内容

本发明要解决的技术问题是针对现有技术的上述不足，本发明的目的一是提供一种可以智能调整集群规模的基于强化学习的Kubernetes集群规模调整方法。

本发明的目的二是提供一种可以智能调整集群规模的基于强化学习的Kubernetes集群规模调整***。

本发明的目的三是提供一种计算机设备。

为了实现上述目的一，本发明提供一种基于强化学习的Kubernetes集群规模调整方法，包括以下步骤：

步骤S1.结合云厂商提供的自动化能力，设置按需启动节点资源或者回收节点资源需要使用的节点资源池；配置需要进行规模调整的Kubernetes集群信息，配置好节点模板，设置节点上的预执行脚本；

步骤S2.获取Kubernetes集群中每个节点的相关参数数据，作为当前Kubernetes集群的状态参数；

步骤S3.将所述状态参数输入强化学习代理中的决策网络，获取所述决策网络的输出结果；

步骤S4.根据所述输出结果，调整Kubernetes集群的规模，执行配置动作，进行相应节点的扩缩容操作；

步骤S5.在步骤S4完成后，所述强化学习代理重新获取配置后的Kubernetes集群的状态参数；获取Kubernetes集群指标并计算即时奖励；将配置前的Kubernetes集群的状态参数、本次配置执行的配置动作、即时奖励、配置后的Kubernetes集群的状态参数作为一个训练样本，保存到训练集中；

步骤S6.从所述训练集中随机选取若干个训练样本作为样本标签集，使用所述样本标签集训练所述强化学习代理中的训练网络；

步骤S7.重复执行步骤S2～步骤S6，持续对集群规模进行调整；达到设定循环次数后，所述强化学习代理根据训练网络的参数更新决策网络。

作为进一步地改进，在步骤S2中，所述状态参数包括Kubernetes集群内每个节点实际占用的CPU核数、实际占用的内存、剩余的CPU核数、剩余的内存，以及节点上运行的容器的请求值与限制值的总和。

进一步地，步骤S3包括：

步骤S31.将当前Kubernetes集群的状态参数输入至所述决策网络，所述决策网络输出当前状态参数下与各个集群规模调整方法一一对应的预期即时奖励值和预期配置后集群状态；

步骤S32.根据每个集群规模调整方法对应的预期即时奖励和预期配置后集群状态，计算每个配置方法对应的期望奖励；

步骤S33.从各个期望奖励中，确定最大期望奖励，将最大期望奖励对应的配置动作作为输出结果。

进一步地，在步骤S33中，还可以将除去最大期望奖励之外的其他期望奖励对应的配置动作作为输出结果，以使训练样本更多样化，避免陷入局部最优。

进一步地，步骤S5包括：

步骤S51.所述强化学习代理重新获取配置后的Kubernetes集群的状态参数；

步骤S52.所述强化学习代理获取配置后得到的即时奖励，其中即时奖励与***资源利用率、能耗指标有关，用于衡量当前配置动作的有效性；

步骤S53.设置训练集的上制，如果训练集满了，则需要替换掉保存时间最早的数据。

进一步地，步骤S6包括：

步骤S61.对于任意一个训练样本，将所述训练样本中配置前的Kubernetes集群的状态参数输入所述训练网络，计算出预期即使奖励值和预期配置后集群状态；

S62.基于神经网络算法中的损失函数，将所述训练样本中实际获取的即时奖励值和实际配置后集群状态与神经网络预期值进行比较，获取所述训练网络的损失值；

S63.在得到损失值之后，利用误差反向传播算法更新训练网络的模型参数，完成本次训练。

为了实现上述目的二，本发明提供一种基于强化学习的Kubernetes集群规模调整***，包括：

Kubernetes规模调整组件，用于执行脚本命令、添加或删除节点；还用于与云厂商进行对接，实现及时申请、释放服务器资源的功能；

Kubernetes集群监控组件，用于获取Kubernetes集群的多种监控参数；

强化学习代理组件，用于决定配置动作，并且训练强化学习代理内部的两个神经网络，不断优化配置决策；

所述Kubernetes规模调整组件结合云厂商提供的自动化能力，设置按需启动节点资源或者回收节点资源需要使用的节点资源池；配置需要进行规模调整的Kubernetes集群信息，配置好节点模板，设置节点上的预执行脚本；

Kubernetes集群监控组件获取Kubernetes集群中每个节点的相关参数数据，作为当前Kubernetes集群的状态参数；所述强化学习代理组件根据上述的基于强化学习的Kubernetes集群规模调整方法来实现Kubernetes集群规模的调整。

为了实现上述目的二，本发明提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的基于强化学习的Kubernetes集群规模调整方法的步骤。

有益效果

本发明与现有技术相比，具有的优点为：

本发明可以实现集群规模的按需调整、智能调整，从而提高集群资源利用率，降低服务器成本，解决了目前集群规模调整方法相对静态，需要依靠手动触发或者需要大量经验数据设置门限值，参考的集群指标比较单一，无法做到真正的智能化配置的问题。

附图说明

图1为本发明中强化学习代理与Kubernetes集***互示意图；

图2为本发明中强化学习代理内部结构示意图。

具体实施方式

下面结合附图中的具体实施例对本发明做进一步的说明。

参阅图1～2，一种基于强化学习的Kubernetes集群规模调整方法，包括以下步骤：

步骤S2.获取Kubernetes集群中每个节点的相关参数数据，作为当前Kubernetes集群的状态(State)参数；

步骤S3.将状态参数输入强化学习代理(Agent)中的决策网络，获取决策网络的输出结果；

步骤S4.根据输出结果，调整Kubernetes集群的规模，执行配置动作，进行相应节点的扩缩容操作；

步骤S5.在步骤S4完成后，强化学习代理重新获取配置后的Kubernetes集群的状态参数，即每个节点的相关参数数据；获取Kubernetes集群指标并计算即时奖励；将配置前的Kubernetes集群的状态参数、本次配置执行的配置动作、即时奖励、配置后的Kubernetes集群的状态参数作为一个训练样本，保存到训练集中；

步骤S6.从训练集中随机选取若干个训练样本作为样本标签集，使用样本标签集训练强化学习代理中的训练网络；

步骤S7.重复执行步骤S2～步骤S6，持续对集群规模进行调整；达到设定循环次数后，强化学习代理根据训练网络的参数更新决策网络。强化学习代理从与Kubernetes集群的实时交互中不断学习策略，进而提升自己的调整策略。

在步骤S2中，状态参数包括Kubernetes集群内每个节点实际占用的CPU核数、实际占用的内存、剩余的CPU核数、剩余的内存，以及节点上运行的容器的请求值与限制值的总和。

步骤S3包括：

步骤S31.将当前Kubernetes集群的状态参数输入至决策网络，决策网络输出当前状态参数下与各个集群规模调整方法一一对应的预期即时奖励值和预期配置后集群状态；

进一步地，在步骤S33中，还可以不将最大期望奖励对应的配置动作作为目标配置动作，而是将除去最大期望奖励之外的其他期望奖励对应的配置动作作为输出结果，以使训练样本更多样化，避免陷入局部最优。

步骤S5包括：

步骤S51.强化学习代理重新获取配置后的Kubernetes集群的状态参数；

步骤S52.强化学习代理获取配置后得到的即时奖励，其中即时奖励与***资源利用率、能耗指标有关，用于衡量当前配置动作的有效性；

步骤S53.设置训练集的上制，如果训练集满了，则需要替换掉保存时间最早的数据，可以使训练集中的样本更加优化。

步骤S6包括：

步骤S61.对于任意一个训练样本，将训练样本中配置前的Kubernetes集群的状态参数输入训练网络，计算出预期即使奖励值和预期配置后集群状态；

S62.基于神经网络算法中的损失函数，将训练样本中实际获取的即时奖励值和实际配置后集群状态与神经网络预期值进行比较，获取训练网络的损失值；

一种基于强化学习的Kubernetes集群规模调整***，包括：

Kubernetes规模调整组件结合云厂商提供的自动化能力，设置按需启动节点资源或者回收节点资源需要使用的节点资源池；配置需要进行规模调整的Kubernetes集群信息，配置好节点模板，设置节点上的预执行脚本；Kubernetes集群监控组件获取Kubernetes集群中每个节点的相关参数数据，作为当前Kubernetes集群的状态参数；强化学习代理组件根据上述的基于强化学习的Kubernetes集群规模调整方法来实现Kubernetes集群规模的调整。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述的基于强化学习的Kubernetes集群规模调整方法的步骤。

以上仅是本发明的优选实施方式，应当指出对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些都不会影响本发明实施的效果和专利的实用性。

Claims

1.一种基于强化学习的Kubernetes集群规模调整方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于强化学习的Kubernetes集群规模调整方法，其特征在于，在步骤S2中，所述状态参数包括Kubernetes集群内每个节点实际占用的CPU核数、实际占用的内存、剩余的CPU核数、剩余的内存，以及节点上运行的容器的请求值与限制值的总和。

3.根据权利要求1所述的基于强化学习的Kubernetes集群规模调整方法，其特征在于，步骤S3包括：

4.根据权利要求3所述的基于强化学习的Kubernetes集群规模调整方法，其特征在于，在步骤S33中，还可以将除去最大期望奖励之外的其他期望奖励对应的配置动作作为输出结果，以使训练样本更多样化，避免陷入局部最优。

5.根据权利要求1所述的基于强化学习的Kubernetes集群规模调整方法，其特征在于，步骤S5包括：

6.根据权利要求1所述的基于强化学习的Kubernetes集群规模调整方法，其特征在于，步骤S6包括：

7.一种基于强化学习的Kubernetes集群规模调整***，其特征在于，包括：

Kubernetes集群监控组件获取Kubernetes集群中每个节点的相关参数数据，作为当前Kubernetes集群的状态参数；所述强化学习代理组件根据权利要求1-6任一项所述的基于强化学习的Kubernetes集群规模调整方法来实现Kubernetes集群规模的调整。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-6任一项所述的基于强化学习的Kubernetes集群规模调整方法的步骤。