CN117311984B

CN117311984B - 基于对比服务的服务器负载均衡方法及***

Info

Publication number: CN117311984B
Application number: CN202311459085.5A
Authority: CN
Inventors: 孙庆南; 马小清; 郑沛霖; 徐崇
Original assignee: Beijing Chuangpu Technology Co ltd
Current assignee: Beijing Chuangpu Technology Co ltd
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2024-03-29
Anticipated expiration: 2043-11-03
Also published as: CN117311984A

Abstract

本发明涉及服务器负载均衡领域，公开了一种基于对比服务的服务器负载均衡方法及***，用于提高服务器集群的负载均衡决策智能性。方法包括：通过服务对比模型获取服务器集群的历史服务器性能数据以及历史服务器负载数据；将历史服务器性能数据和历史服务器负载数据输入深度强化学习网络进行参数定义和参数更新，得到初始负载均衡决策模型；对预置的扩展卡尔曼滤波模型和初始负载均衡决策模型进行模型集成和决策训练，得到目标负载均衡决策模型；获取服务器集群的实时服务器性能数据和实时服务器负载数据，并将实时服务器性能数据和实时服务器负载数据输入目标负载均衡决策模型进行负载均衡决策分析，得到目标负载均衡策略。

Description

基于对比服务的服务器负载均衡方法及***

技术领域

本发明涉及服务器负载均衡领域，尤其涉及一种基于对比服务的服务器负载均衡方法及***。

背景技术

在当今信息技术高速发展的背景下，越来越依赖大规模服务器集群来支持其业务和服务。为了提高***的性能、资源利用效率和可扩展性，服务器负载均衡技术显得尤为重要。服务器负载均衡旨在通过智能地分配请求到服务器集群中的不同节点，以实现最优的资源利用和最小的响应时间。

传统的负载均衡方法通常依赖于静态规则或启发式算法，但这些方法往往难以适应动态变化的负载环境，进而导致现有方案的智能性低。

发明内容

本发明提供了一种基于对比服务的服务器负载均衡方法及***，用于提高服务器集群的负载均衡决策智能性。

本发明第一方面提供了一种基于对比服务的服务器负载均衡方法，所述基于对比服务的服务器负载均衡方法包括：

通过预置的服务对比模型获取服务器集群的历史服务器性能数据，并通过预置的负载监控平台获取所述服务器集群的历史服务器负载数据；

将所述历史服务器性能数据和所述历史服务器负载数据输入预置的深度强化学习网络进行参数定义和参数更新，得到初始负载均衡决策模型；

对预置的扩展卡尔曼滤波模型和所述初始负载均衡决策模型进行模型集成和决策训练，得到目标负载均衡决策模型；

获取所述服务器集群的实时服务器性能数据和实时服务器负载数据，并将所述实时服务器性能数据和所述实时服务器负载数据输入所述目标负载均衡决策模型进行负载均衡决策分析，得到目标负载均衡策略。

结合第一方面，在本发明第一方面的第一种实现方式中，所述将所述历史服务器性能数据和所述历史服务器负载数据输入预置的深度强化学习网络进行参数定义和参数更新，得到初始负载均衡决策模型，包括：

对所述历史服务器性能数据和所述历史服务器负载数据进行数据清洗，得到标准服务器性能数据和标准服务器负载数据；

对所述标准服务器性能数据和所述标准服务器负载数据进行特征提取，得到服务器性能数据以及服务器负载特征数据；

基于所述服务器性能数据以及所述服务器负载特征数据，定义所述深度强化学习网络的状态空间S，其中，所述状态空间S包括服务器性能状态以及服务器负载状态；

获取服务器负载均衡***的所有负载均衡操作集合，并根据所述负载均衡操作集合定义动作空间A，其中，所述动作空间A包括服务器权重调整操作动作以及负载任务分配操作动作；

获取计算资源消耗因素、负载均衡平衡性因素及服务器性能因素，并根据所述计算资源消耗因素、所述负载均衡平衡性因素及所述服务器性能因素定义奖励函数R(m，n)表示，其中R表示奖励，m表示状态，n表示动作，m∈S，m表示具体的状态，n∈A，n表示具体的操作动作；

根据所述状态空间S、所述动作空间A以及所述奖励函数R(m，n)，并通过预置的Q-Value函数对所述深度强化学习网络进行参数更新，得到初始负载均衡决策模型。

结合第一方面，在本发明第一方面的第二种实现方式中，所述对所述标准服务器性能数据和所述标准服务器负载数据进行特征提取，得到服务器性能数据以及服务器负载特征数据，包括：

对所述标准服务器性能数据和所述标准服务器负载数据进行曲线拟合，得到服务器性能曲线以及服务器负载曲线；

对所述服务器性能曲线进行均值运算，得到第一均值数据，并对所述服务器负载曲线进行均值运算，得到第二均值数据；

根据所述第一均值数据对所述服务器性能曲线进行特征点提取，得到服务器性能数据，并根据所述第二均值数据对所述服务器负载特征数据进行特征点提取，得到服务器负载特征数据。

结合第一方面，在本发明第一方面的第三种实现方式中，所述根据所述状态空间S、所述动作空间A以及所述奖励函数R(m，n)，并通过预置的Q-Value函数对所述深度强化学习网络进行参数更新，得到初始负载均衡决策模型，包括：

根据所述状态空间S、所述动作空间A以及所述奖励函数R(m，n)，创建Q-Value函数，其中，所述Q-Value函数为：Q(m，n)=E[Σγt*R(mt，nt)|m0=m，n0=n，π]，其中，Q(m，n)表示状态m下采取动作n的Q-Value值，E表示期望操作，γ是折扣因子，t表示时间步，mt表示第t步的状态，nt表示第t步的动作，π是策略函数；

将所述状态空间S输入所述深度强化学习网络，其中，所述深度强化学习网络包括目标网络以及估计网络，所述目标网络包括：第一输入层、多个第一隐藏层以及第一输出层，所述估计网络包括：第二输入层、多个第二隐藏层以及第二输出层；

采用Q-Learning更新所述Q-Value函数的估计，以最小化Q(m，n)与目标Q值之间的差距，目标Q值的计算函数为：targetQ(m，n)=R+γ*max(Q(m'，n'))，targetQ(m，n)表示目标Q值，R表示奖励函数，γ是折扣因子，m'表示下一状态，n'表示下一操作动作；

根据所述目标Q值，使用梯度下降模型更新所述深度强化学习网络的网络参数，得到初始负载均衡决策模型。

结合第一方面，在本发明第一方面的第四种实现方式中，所述对预置的扩展卡尔曼滤波模型和所述初始负载均衡决策模型进行模型集成和决策训练，得到目标负载均衡决策模型，包括：

将所述服务器性能数据以及所述服务器负载特征数据输入所述初始负载均衡决策模型，并通过所述初始负载均衡决策模型中的目标网络对所述服务器性能数据以及所述服务器负载特征数据进行决策分析，得到所述目标网络的第一输出结果；

通过所述初始负载均衡决策模型中的估计网络对所述服务器性能数据以及所述服务器负载特征数据进行决策分析，得到所述估计网络的第二输出结果；

对预置的扩展卡尔曼滤波模型和所述初始负载均衡决策模型进行模型集成，并通过所述扩展卡尔曼滤波模型对所述第一输出结果和所述第二输出结果进行状态反馈参数计算，得到目标状态反馈参数；

将所述目标状态反馈参数输入所述估计网络进行网络状态更新，并对网络状态更新后的估计网络进行决策训练，得到目标负载均衡决策模型。

结合第一方面，在本发明第一方面的第五种实现方式中，所述获取所述服务器集群的实时服务器性能数据和实时服务器负载数据，并将所述实时服务器性能数据和所述实时服务器负载数据输入所述目标负载均衡决策模型进行负载均衡决策分析，得到目标负载均衡策略，包括：

通过所述服务对比模型获取所述服务器集群的实时服务器性能数据和实时服务器负载数据；

对所述实时服务器性能数据和所述实时服务器负载数据进行标准化处理和矩阵转换，得到实时状态参数矩阵；

将所述实时状态参数矩阵输入所述目标负载均衡决策模型进行负载均衡决策分析，输出所述服务器集群的目标负载均衡策略，其中，所述目标负载均衡策略包括服务器权重调整量、服务器资源分配比例以及服务器集群容量调整量。

结合第一方面，在本发明第一方面的第六种实现方式中，所述将所述实时状态参数矩阵输入所述目标负载均衡决策模型进行负载均衡决策分析，输出所述服务器集群的目标负载均衡策略，其中，所述目标负载均衡策略包括服务器权重调整量、服务器资源分配比例以及服务器集群容量调整量，包括：

将所述实时状态参数矩阵输入所述目标负载均衡决策模型，通过所述目标负载均衡决策模型中的深度强化学习网络对所述实时状态参数矩阵进行决策预测，得到初始负载均衡策略；

通过所述目标负载均衡决策模型中的扩展卡尔曼滤波模型，对所述实时状态参数矩阵进行状态估计，得到目标状态估计矩阵；

根据所述初始负载均衡策略，对所述目标状态估计矩阵和所述实时状态参数矩阵进行矩阵融合，得到目标融合状态矩阵；

通过所述目标负载均衡决策模型中的深度强化学习网络，对所述目标融合状态矩阵进行决策预测，输出所述服务器集群的目标负载均衡策略，其中，所述目标负载均衡策略包括服务器权重调整量、服务器资源分配比例以及服务器集群容量调整量。

本发明第二方面提供了一种基于对比服务的服务器负载均衡***，所述基于对比服务的服务器负载均衡***包括：

获取模块，用于通过预置的服务对比模型获取服务器集群的历史服务器性能数据，并通过预置的负载监控平台获取所述服务器集群的历史服务器负载数据；

更新模块，用于将所述历史服务器性能数据和所述历史服务器负载数据输入预置的深度强化学习网络进行参数定义和参数更新，得到初始负载均衡决策模型；

训练模块，用于对预置的扩展卡尔曼滤波模型和所述初始负载均衡决策模型进行模型集成和决策训练，得到目标负载均衡决策模型；

分析模块，用于获取所述服务器集群的实时服务器性能数据和实时服务器负载数据，并将所述实时服务器性能数据和所述实时服务器负载数据输入所述目标负载均衡决策模型进行负载均衡决策分析，得到目标负载均衡策略。

本发明提供的技术方案中，通过服务对比模型获取服务器集群的历史服务器性能数据以及历史服务器负载数据；将历史服务器性能数据和历史服务器负载数据输入深度强化学习网络进行参数定义和参数更新，得到初始负载均衡决策模型；对预置的扩展卡尔曼滤波模型和初始负载均衡决策模型进行模型集成和决策训练，得到目标负载均衡决策模型；获取服务器集群的实时服务器性能数据和实时服务器负载数据，并将实时服务器性能数据和实时服务器负载数据输入目标负载均衡决策模型进行负载均衡决策分析，得到目标负载均衡策略，本发明通过预置的服务对比模型，充分利用了服务器集群的历史性能数据和负载数据。这有助于建立更为全面和准确的初始负载均衡决策模型，提高***对历史趋势的理解和应对能力。采用深度强化学习网络进行负载均衡决策，能够从复杂的状态空间中学习，并在动作空间中找到最优的负载均衡策略。这使得***更具智能化，能够适应不同的工作负载和网络环境。通过将初始负载均衡决策模型与扩展卡尔曼滤波模型集成，方法更好地利用了不同模型的优势。这有助于提高决策的准确性和鲁棒性，使得***更具适应性和稳定性。通过获取实时服务器性能数据和实时服务器负载数据，实现了实时的负载均衡决策。这确保了***能够迅速、精确地应对不断变化的负载情况，提高了***的响应速度和实时性。采用扩展卡尔曼滤波模型进行状态估计，更好地捕捉了***状态的动态变化。状态融合进一步提高了决策的精确性，使得***能够更准确地理解当前状态，有助于做出更为合理的负载均衡决策。通过深度强化学习网络对目标状态进行决策预测，输出了更为智能和全面的目标负载均衡策略。这有助于***在各种情况下做出最优的决策，提高了整体性能和效率，进而提高了服务器集群的负载均衡决策智能性。

附图说明

图1为本发明实施例中基于对比服务的服务器负载均衡方法的一个实施例示意图；

图2为本发明实施例中特征提取的流程图；

图3为本发明实施例中模型集成和决策训练的流程图；

图4为本发明实施例中负载均衡决策分析的流程图；

图5为本发明实施例中基于对比服务的服务器负载均衡***的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于对比服务的服务器负载均衡方法及***，用于提高服务器集群的负载均衡决策智能性。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于对比服务的服务器负载均衡方法的一个实施例包括：

S101、通过预置的服务对比模型获取服务器集群的历史服务器性能数据，并通过预置的负载监控平台获取服务器集群的历史服务器负载数据；

可以理解的是，本发明的执行主体可以为基于对比服务的服务器负载均衡***，还可以是终端或者***，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

具体的，服务对比模型是一种用于对比和评估不同服务器性能的工具，通常基于一组指标或特征，如CPU使用率、内存利用率、磁盘I/O等。这些指标可帮助***了解服务器的工作状态以及存在的性能问题。将每个服务器上的性能数据定期记录并存储在一个历史数据库中。这些数据可以包括服务器的每小时或每分钟的性能快照，例如CPU利用率、内存使用情况、网络吞吐量。这种数据的收集可以使用性能监控工具，如Prometheus、Grafana或Nagios。这些工具可以配置为定期查询服务器的性能数据并将其保存在数据库中。服务对比模型可以通过查询数据库来检索这些数据。该模型可以预先训练，以了解哪些性能指标对于服务器性能的评估特别重要。例如，如果一个服务器经常因内存使用率超过90%而变得不稳定，服务对比模型将能够捕获这一关键信息。通过预置的负载监控平台获取服务器集群的历史服务器负载数据。负载监控平台是一种工具，用于监视服务器的负载情况，包括请求量、并发连接数、响应时间等。这种监控可以帮助***了解服务器集群的负载分布，以及何时需要负载均衡。负载监控平台可以配置为与服务器集群的每个服务器通信，以获取实时负载数据。这些数据可以包括HTTP请求量、数据库查询次数、磁盘读写速度。负载监控平台可以将这些数据存储在历史数据库中，以便将来进行分析。例如，假设***有一个由10台Web服务器组成的集群，***想要了解它们的性能和负载情况。***会配置性能监控工具来收集每台服务器的CPU使用率、内存利用率和网络吞吐量数据，并将这些数据存储在历史数据库中。这将形成服务器的历史性能数据。同时，***还会配置负载监控平台，以获取每台服务器的HTTP请求量、响应时间和并发连接数等负载数据。这些数据也将被记录并存储在历史数据库中，构成服务器集群的历史负载数据。***就可以使用预置的服务对比模型来评估服务器性能，例如，确定哪些服务器在某一时刻性能最佳。此外，***使用历史负载数据来了解服务器集群的负载模式，以确定何时需要进行负载均衡操作。

S102、将历史服务器性能数据和历史服务器负载数据输入预置的深度强化学习网络进行参数定义和参数更新，得到初始负载均衡决策模型；

具体的，***对历史服务器性能数据和历史服务器负载数据进行数据清洗，以获得标准服务器性能数据和标准服务器负载数据。数据清洗是为了处理存在的异常值、缺失数据和噪音，以确保数据的质量。例如，***剔除那些明显错误的性能数据点，如CPU利用率超过100%的数据，或者负载数据中的无效记录。对标准服务器性能数据和标准服务器负载数据进行特征提取。特征提取是将原始数据转化为可用于建立深度强化学***均CPU利用率、内存使用率、网络带宽利用率等。这些特征将构成服务器性能数据以及服务器负载特征数据。基于服务器性能数据和服务器负载特征数据，***定义深度强化学***衡性因素以及服务器性能因素。例如，如果一个负载均衡操作导致了计算资源的有效利用，减少了服务器的负载不平衡，并且提高了整体性能，那么奖励函数可以分配一个积极的奖励值。相反，如果一个操作导致资源浪费或性能下降，奖励函数可以分配一个负面的奖励值。根据状态空间S、动作空间A和奖励函数R(m，n)，***使用深度强化学习方法，如Q-Value函数，对深度强化学习网络进行参数更新。通过学习在不同状态下选择哪些动作可以最大化累积奖励，模型逐渐优化其负载均衡决策能力。这样，***就能够得到初始负载均衡决策模型，可以在实时负载均衡中应用。

其中，***对标准服务器性能数据和标准服务器负载数据进行曲线拟合，以得到服务器性能曲线和服务器负载曲线。曲线拟合是一种数学技术，通过将数据点拟合到一个数学函数或曲线上，以反映数据的整体趋势。例如，可以使用多项式拟合、指数函数拟合或其他曲线拟合方法，来拟合服务器性能数据和服务器负载数据。假设***有一组服务器性能数据，如每小时的CPU利用率数据。通过曲线拟合，***得到一个CPU利用率曲线，该曲线反映了CPU利用率随时间的变化趋势。同样，***也可以对服务器负载数据进行曲线拟合，得到负载曲线，以了解负载的变化模式。***对服务器性能曲线和服务器负载曲线进行均值运算，以得到第一均值数据和第二均值数据。均值运算是为了平滑曲线数据，减少噪音和不必要的波动，从而更好地反映数据的总体趋势。例如，考虑一个服务器的CPU利用率数据。***首先拟合CPU利用率曲线，然后对曲线进行每小时的均值运算。这将产生一个第一均值数据集，其中每个数据点表示每小时的平均CPU利用率。同样，对服务器负载数据进行相似的操作，以获得第二均值数据，其中每个数据点表示每小时的平均负载情况。***从第一均值数据中提取服务器性能数据的特征点，同时从第二均值数据中提取服务器负载特征数据的特征点。这些特征点反映了数据的重要特性，如峰值、下降趋势、稳定性等。例如，对于服务器性能数据，***从第一均值数据中提取特征点，如CPU利用率的最高峰值、平均利用率、波动程度等。这些特征点可以用来描述服务器的性能特征。对于服务器负载特征数据，***从第二均值数据中提取特征点，如峰值负载、平均负载、负载稳定性等。这些特征点有助于了解服务器负载的模式和特性。

其中，***创建Q-Value函数，该函数用于估计在不同状态和动作下的累积奖励值。Q-Value函数的定义如下：Q(m，n)=E[Σγ^t*R(mt，nt)|m0=m，n0=n，π]。其中，Q(m，n)表示在状态m下采取动作n的Q-Value，E表示期望操作，γ是折扣因子，t表示时间步，mt表示第t步的状态，nt表示第t步的动作，π是策略函数。Q-Value函数可以帮助***评估在特定状态下采取不同动作的价值，以指导负载均衡决策。***将状态空间S输入到深度强化学习网络中。深度强化学习网络通常包括目标网络和估计网络。目标网络包括第一输入层、多个第一隐藏层以及第一输出层，而估计网络包括第二输入层、多个第二隐藏层以及第二输出层。这些网络的目的是学习状态和动作之间的映射，以便估计Q-Value函数。采用Q-Learning更新Q-Value函数的估计，以最小化Q(m，n)与目标Q值之间的差距。目标Q值的计算函数如下：targetQ(m，n)=R+γ*max(Q(m'，n'))。其中，targetQ(m，n)表示目标Q值，R表示奖励函数，γ是折扣因子，m'表示下一状态，n'表示下一操作动作。这个公式用于更新Q-Value函数，以使其逐渐逼近真实的Q值。例如，状态空间包括服务器的CPU利用率和内存使用率，动作空间包括调整服务器权重和重新分配负载任务。***已经创建了Q-Value函数，然后在深度强化学习网络中，***传入当前状态(m)以及可以采取的动作(n)。通过Q-Learning更新，***计算目标Q值(targetQ)并使用目标Q值来调整Q-Value函数的估计。根据目标Q值，使用梯度下降等模型更新深度强化学习网络的网络参数。目的是是不断改进网络的估计能力，以更准确地估计Q值，从而得到更好的负载均衡决策。

S103、对预置的扩展卡尔曼滤波模型和初始负载均衡决策模型进行模型集成和决策训练，得到目标负载均衡决策模型；

需要说明的是，***将服务器性能数据和服务器负载特征数据输入到初始负载均衡决策模型。这个模型包括目标网络和估计网络，目标网络用于决策分析。通过输入数据，目标网络会产生第一输出结果，这是根据当前状态和动作预测的负载均衡决策。同时，估计网络也对相同的输入数据进行决策分析，并生成第二输出结果。估计网络通常是一个近似模型，用于更快速地生成决策，尽管它不如目标网络准确。这两个输出结果是在模型集成过程中使用的关键组成部分。例如，假设***的服务器性能数据包括CPU利用率和内存使用率，服务器负载特征数据包括负载均衡权重和任务分配比例。***将这些数据输入到初始负载均衡决策模型，该模型包括目标网络和估计网络。目标网络产生一个决策结果，例如在特定时刻分配更多的负载给服务器A。估计网络也生成一个决策结果，是相似的，但不如目标网络准确。***进行模型集成，结合目标网络和估计网络的输出结果。这是通过使用扩展卡尔曼滤波模型来实现的，该模型对两个输出结果进行融合以获得更准确的决策。通过扩展卡尔曼滤波模型，***计算出目标状态反馈参数，这些参数用于校正决策结果。这些参数反映了两个网络的输出之间的不一致性，以及哪一个网络更可信。例如，如果估计网络通常表现不错，但在某种情况下目标网络更可靠，状态反馈参数将反映这一信息。将目标状态反馈参数输入到估计网络中进行网络状态更新。这个过程可以帮助估计网络更好地适应不同情况，从而提高整体的负载均衡决策准确性。例如，目标网络和估计网络分别决定将请求分配给哪个服务器。目标网络在某些情况下更准确，估计网络在其他情况下更准确。扩展卡尔曼滤波模型根据两者的输出结果和历史性能，计算出目标状态反馈参数，以校正估计网络的决策。这可以确保***在不同负载条件下进行智能决策，以获得更好的性能。

S104、获取服务器集群的实时服务器性能数据和实时服务器负载数据，并将实时服务器性能数据和实时服务器负载数据输入目标负载均衡决策模型进行负载均衡决策分析，得到目标负载均衡策略。

具体的，***获取服务器集群的实时服务器性能数据和实时服务器负载数据。这可以通过服务器监控工具、传感器或其他数据采集方法来实现。实时性能数据包括CPU利用率、内存使用率、磁盘I/O等信息，而实时负载数据可以涉及请求数量、网络流量等。例如，***通过监视工具实时收集每台服务器的CPU利用率、内存使用率以及传入请求的数量和响应时间等数据。***对所获取的实时服务器性能数据和实时服务器负载数据进行标准化处理和矩阵转换，以将其准备为输入目标负载均衡决策模型的形式。标准化处理可以包括数据缩放、归一化或其他数据预处理方法，以确保数据具有相似的尺度和范围。例如，如果***的CPU利用率数据的范围是0到100%，而请求数量范围很大，***使用标准化方法将它们转换为0到1之间的值，以便更好地在模型中处理。将经过标准化和处理的实时数据构建成实时状态参数矩阵。这个矩阵将包含所有服务器的性能和负载数据，每一行代表一个服务器，每一列代表一个不同的性能或负载指标。这将是目标负载均衡决策模型的输入。本实施例中，***创建一个实时状态参数矩阵，其中每行对应不同的服务器，列包括CPU利用率、内存使用率、请求数量等指标。***将实时状态参数矩阵输入到目标负载均衡决策模型中进行负载均衡决策分析。这个模型是基于深度学***台。***将实时收集服务器的性能数据（如CPU和内存利用率）以及负载数据（如请求数量和响应时间）。将这些数据标准化和构建成实时状态参数矩阵。***将这个矩阵输入到负载均衡决策模型中。模型会分析当前服务器的性能状况，以决定是否需要调整服务器的权重、资源分配比例或进行扩容。最终的决策将是一个目标负载均衡策略，以确保在线购物平台的性能和稳定性。

其中，***将实时状态参数矩阵输入到目标负载均衡决策模型中进行负载均衡决策分析。这个模型通常包括深度强化学习网络，它被训练用于预测最佳的负载均衡策略。通过输入实时状态参数矩阵，深度强化学习网络会生成初始的负载均衡策略，包括服务器权重调整量、资源分配比例和集群容量调整量。例如，假设实时状态参数矩阵包括不同服务器的CPU利用率、内存使用率和网络流量等数据。***将这个矩阵输入到负载均衡决策模型，以确定应如何重新分配负载任务以最大化性能和资源利用。通过目标负载均衡决策模型中的扩展卡尔曼滤波模型，对实时状态参数矩阵进行状态估计。扩展卡尔曼滤波是一种递归估计方法，用于估计***的状态变量，即服务器的实际性能和负载状态。状态估计的结果是目标状态估计矩阵。本实施例中，扩展卡尔曼滤波模型可以用于估计服务器的实际CPU利用率、内存使用率和网络流量，以便更准确地了解服务器的性能状态。根据初始负载均衡策略，对目标状态估计矩阵和实时状态参数矩阵进行矩阵融合。这一步骤的目的是将深度强化学习网络的预测结果与实际估计的状态进行融合，以生成更准确的负载均衡策略。通过将初始负载均衡策略与估计的状态信息进行组合，可以更好地考虑实际性能和负载情况，以获得更精细的负载均衡策略。通过目标负载均衡决策模型中的深度强化学习网络，对目标融合状态矩阵进行再次决策预测。这个步骤将生成最终的目标负载均衡策略，其中包括服务器权重调整量、资源分配比例和集群容量调整量。

本发明实施例中，通过预置的服务对比模型，充分利用了服务器集群的历史性能数据和负载数据。这有助于建立更为全面和准确的初始负载均衡决策模型，提高***对历史趋势的理解和应对能力。采用深度强化学习网络进行负载均衡决策，能够从复杂的状态空间中学习，并在动作空间中找到最优的负载均衡策略。这使得***更具智能化，能够适应不同的工作负载和网络环境。通过将初始负载均衡决策模型与扩展卡尔曼滤波模型集成，方法更好地利用了不同模型的优势。这有助于提高决策的准确性和鲁棒性，使得***更具适应性和稳定性。通过获取实时服务器性能数据和实时服务器负载数据，实现了实时的负载均衡决策。这确保了***能够迅速、精确地应对不断变化的负载情况，提高了***的响应速度和实时性。采用扩展卡尔曼滤波模型进行状态估计，更好地捕捉了***状态的动态变化。状态融合进一步提高了决策的精确性，使得***能够更准确地理解当前状态，有助于做出更为合理的负载均衡决策。通过深度强化学习网络对目标状态进行决策预测，输出了更为智能和全面的目标负载均衡策略。这有助于***在各种情况下做出最优的决策，提高了整体性能和效率，进而提高了服务器集群的负载均衡决策智能性。

在一具体实施例中，执行步骤S102的过程可以具体包括如下步骤：

（1）对历史服务器性能数据和历史服务器负载数据进行数据清洗，得到标准服务器性能数据和标准服务器负载数据；

（2）对标准服务器性能数据和标准服务器负载数据进行特征提取，得到服务器性能数据以及服务器负载特征数据；

（3）基于服务器性能数据以及服务器负载特征数据，定义深度强化学习网络的状态空间S，其中，状态空间S包括服务器性能状态以及服务器负载状态；

（4）获取服务器负载均衡***的所有负载均衡操作集合，并根据负载均衡操作集合定义动作空间A，其中，动作空间A包括服务器权重调整操作动作以及负载任务分配操作动作；

（5）获取计算资源消耗因素、负载均衡平衡性因素及服务器性能因素，并根据计算资源消耗因素、负载均衡平衡性因素及服务器性能因素定义奖励函数R(m，n)表示，其中R表示奖励，m表示状态，n表示动作，m∈S，m表示具体的状态，n∈A，n表示具体的操作动作；

（6）根据状态空间S、动作空间A以及奖励函数R(m，n)，并通过预置的Q-Value函数对深度强化学习网络进行参数更新，得到初始负载均衡决策模型。

具体的，***对历史服务器性能数据和历史服务器负载数据进行数据清洗，以确保数据的准确性和一致性。这包括处理缺失值、异常值和噪声数据。数据清洗有助于提高数据的质量，以便后续分析和建模。例如，如果历史性能数据中存在缺失的时间戳或异常的性能值，***使用插值方法填充缺失数据并剔除异常数据，以得到干净的历史性能数据。将清洗后的历史性能数据和历史负载数据标准化，以确保它们具有相似的尺度和范围。标准化可以使用各种方法，如Z-score标准化或最小-最大缩放。例如，如果历史性能数据中包括CPU利用率和内存使用率，它们的范围不同。标准化后，这些数据将在相似的范围内变化，有助于模型的训练。随后，对标准服务器性能数据和标准服务器负载数据进行特征提取。从原始数据中提取有用的特征或属性，以用于状态空间的定义和奖励函数的计算。特征提取可以包括统计特征、时间序列特征、频域特征等。例如，如果***处理网络服务器的历史数据，可以从负载数据中提取平均请求数量、请求响应时间的标准差、CPU利用率的趋势等特征。基于提取的服务器性能数据和服务器负载特征数据，定义深度强化学***衡性因素和服务器性能因素，然后根据这些因素定义奖励函数R(m，n)。奖励函数用于评估在状态m下采取动作n的好坏。这些因素可以包括资源利用率、平衡性度量以及性能指标。例如，奖励函数可以考虑到服务器性能是否达到期望水平，负载分配是否均衡，以及资源是否得到有效利用。根据定义的状态空间S、动作空间A和奖励函数R(m，n)，通过预置的Q-Value函数对深度强化学习网络进行参数更新，以获得初始负载均衡决策模型。Q-Value函数用于估计在状态m下采取动作n的价值，通过不断更新网络参数，模型可以学习如何在不同状态下采取最佳动作以最大化奖励。

在一具体实施例中，如图2所示，执行步骤对标准服务器性能数据和标准服务器负载数据进行特征提取，得到服务器性能数据以及服务器负载特征数据的过程可以具体包括如下步骤：

S201、对标准服务器性能数据和标准服务器负载数据进行曲线拟合，得到服务器性能曲线以及服务器负载曲线；

S202、对服务器性能曲线进行均值运算，得到第一均值数据，并对服务器负载曲线进行均值运算，得到第二均值数据；

S203、根据第一均值数据对服务器性能曲线进行特征点提取，得到服务器性能数据，并根据第二均值数据对服务器负载特征数据进行特征点提取，得到服务器负载特征数据。

具体的，***对标准服务器性能数据和标准服务器负载数据进行曲线拟合。将数据拟合成适当的数学曲线，以更好地理解其变化趋势。曲线拟合可以使用各种数学模型，如多项式、指数函数、线性回归等。例如，如果***有一组标准服务器性能数据，包括CPU利用率随时间变化的数据点，***使用线性回归模型来拟合这些数据，以获得CPU利用率随时间的趋势线。对服务器性能曲线进行均值运算，以得到第一均值数据。均值运算是计算数据点的平均值，用于平滑数据和减少噪音。第一均值数据将有助于更好地理解服务器性能的整体趋势。例如，***对每个时间段的数据进行均值运算，以得到每个时间段的平均性能值。同时，对服务器负载曲线进行均值运算，以得到第二均值数据。这将平滑负载数据并减少变化的影响，从而更好地了解负载的整体趋势。例如，***对每个时间段的数据进行均值运算，以得到平均请求数量。根据第一均值数据，可以进行服务器性能数据的特征点提取。识别曲线中的关键特征，如峰值、谷值、趋势和周期性。这些特征点提取可用于更好地理解服务器性能的特点。例如，***识别高峰的时间点，这表示服务器在某些时间段内特别繁忙。这些峰值时间点可以被视为服务器性能数据的特征点。同时，根据第二均值数据，进行服务器负载特征数据的特征点提取。这将有助于识别负载曲线的特点，如负载峰值、低谷和周期性。例如，***识别请求数量的高峰时间点，这表示负载峰值。这些时间点可以被用作服务器负载特征数据的特征点。

在一具体实施例中，执行步骤根据状态空间S、动作空间A以及奖励函数R(m，n)，并通过预置的Q-Value函数对深度强化学习网络进行参数更新，得到初始负载均衡决策模型的过程可以具体包括如下步骤：

（1）根据状态空间S、动作空间A以及奖励函数R(m，n)，创建Q-Value函数，其中，Q-Value函数为：Q(m，n)=E[Σγt*R(mt，nt)|m0=m，n0=n，π]，其中，Q(m，n)表示状态m下采取动作n的Q-Value值，E表示期望操作，γ是折扣因子，t表示时间步，mt表示第t步的状态，nt表示第t步的动作，π是策略函数；

（2）将状态空间S输入深度强化学习网络，其中，深度强化学习网络包括目标网络以及估计网络，目标网络包括：第一输入层、多个第一隐藏层以及第一输出层，估计网络包括：第二输入层、多个第二隐藏层以及第二输出层；

（3）采用Q-Learning更新Q-Value函数的估计，以最小化Q(m，n)与目标Q值之间的差距，目标Q值的计算函数为：targetQ(m，n)=R+γ*max(Q(m'，n'))，targetQ(m，n)表示目标Q值，R表示奖励函数，γ是折扣因子，m'表示下一状态，n'表示下一操作动作；

（4）根据目标Q值，使用梯度下降模型更新深度强化学习网络的网络参数，得到初始负载均衡决策模型。

具体的，根据状态空间S、动作空间A以及奖励函数R(m，n)，创建Q-Value函数，该函数用于估计在状态m下采取动作n的价值。Q-Value函数的公式如下：Q(m，n)=E[Σγ^t*R(mt，nt)|m0=m，n0=n，π]。其中，Q(m，n)表示状态m下采取动作n的Q-Value值，E表示期望操作，γ是折扣因子，t表示时间步，mt表示第t步的状态，nt表示第t步的动作，π是策略函数。例如，状态m可以表示服务器性能状态和负载状态的组合，动作n可以表示调整服务器权重或分配负载任务的操作。Q-Value函数将估计采取不同操作的长期奖励价值。将状态空间S输入深度强化学习网络。深度强化学习网络通常包括两个部分：目标网络和估计网络。目标网络包括多个隐藏层和输出层，估计网络也包括多个隐藏层和输出层。这些网络将用于学习Q-Value函数的估计。例如，***将状态空间S中的服务器性能和负载信息输入深度强化学习网络，以便网络可以学习如何进行负载均衡决策。采用Q-Learning算法来更新Q-Value函数的估计。Q-Learning是一种经典的强化学习算法，用于更新Q-Value函数以最小化估计Q值与目标Q值之间的差距。目标Q值的计算函数如下：targetQ(m，n)=R+γ*max(Q(m'，n'))。其中，targetQ(m，n)表示目标Q值，R表示奖励函数，γ是折扣因子，m'表示下一状态，n'表示下一操作动作。例如，***已经计算了目标Q值，考虑了奖励（例如，性能提升）以及折扣因子。目标Q值将指导***的学习过程，以使Q-Value函数更准确地估计每个状态-动作对的价值。根据目标Q值，使用梯度下降模型更新深度强化学习网络的网络参数。梯度下降是一种优化方法，用于调整网络参数以最小化预测Q值与目标Q值之间的差距。这将有助于网络更好地逼近真实的Q-Value函数。

在一具体实施例中，如图3所示，执行步骤S103的过程可以具体包括如下步骤：

S301、将服务器性能数据以及服务器负载特征数据输入初始负载均衡决策模型，并通过初始负载均衡决策模型中的目标网络对服务器性能数据以及服务器负载特征数据进行决策分析，得到目标网络的第一输出结果；

S302、通过初始负载均衡决策模型中的估计网络对服务器性能数据以及服务器负载特征数据进行决策分析，得到估计网络的第二输出结果；

S303、对预置的扩展卡尔曼滤波模型和初始负载均衡决策模型进行模型集成，并通过扩展卡尔曼滤波模型对第一输出结果和第二输出结果进行状态反馈参数计算，得到目标状态反馈参数；

S304、将目标状态反馈参数输入估计网络进行网络状态更新，并对网络状态更新后的估计网络进行决策训练，得到目标负载均衡决策模型。

具体的，将服务器性能数据和服务器负载特征数据输入初始负载均衡决策模型。这些数据可以包括服务器的CPU利用率、内存使用率、网络流量、请求响应时间等性能指标，以及负载的请求数量、负载均匀度、负载分布等负载特征。例如，考虑一个云计算环境，服务器性能数据可以包括各个虚拟机的CPU利用率和内存使用率，负载特征数据可以包括虚拟机的请求量和负载分布。通过初始负载均衡决策模型中的目标网络对服务器性能数据和服务器负载特征数据进行决策分析，得到目标网络的第一输出结果。目标网络是一个神经网络或其他决策模型，其目的是根据输入数据来做出负载均衡决策。例如，如果目标网络是一个深度神经网络，它可以学***衡情况，例如某台服务器负载过高，而其他服务器负载较低。第二输出结果可以包括估计的负载均衡性能和负载情况。对预置的扩展卡尔曼滤波模型和初始负载均衡决策模型进行模型集成。扩展卡尔曼滤波模型是一种用于状态估计的滤波器，它可以将第一输出结果和第二输出结果进行融合，并计算出目标状态反馈参数。例如，假设扩展卡尔曼滤波模型将第一输出结果（负载均衡策略）和第二输出结果（负载不平衡估计）融合在一起，以估计服务器负载均衡状态的改进。将目标状态反馈参数输入估计网络，进行网络状态更新。这将帮助估计网络更好地理解***的当前状态，并根据反馈参数来调整其估计。同时，对网络状态更新后的估计网络进行决策训练，以得到目标负载均衡决策模型。这个模型将更准确地预测服务器负载均衡策略，并能够自适应地应对不断变化的环境。

在一具体实施例中，如图4所示，执行步骤S104的过程可以具体包括如下步骤：

S401、通过服务对比模型获取服务器集群的实时服务器性能数据和实时服务器负载数据；

S402、对实时服务器性能数据和实时服务器负载数据进行标准化处理和矩阵转换，得到实时状态参数矩阵；

S403、将实时状态参数矩阵输入目标负载均衡决策模型进行负载均衡决策分析，输出服务器集群的目标负载均衡策略，其中，目标负载均衡策略包括服务器权重调整量、服务器资源分配比例以及服务器集群容量调整量。

具体的，通过服务对比模型获取服务器集群的实时服务器性能数据和实时服务器负载数据。这可以通过监控***、代理程序或传感器来收集数据，这些数据包括服务器的实时CPU利用率、内存使用率、网络流量、请求响应时间等性能指标，以及实时负载的请求数量、负载均匀度、负载分布等信息。对实时服务器性能数据和实时服务器负载数据进行标准化处理和矩阵转换。标准化处理的目的是将不同服务器性能数据和负载数据的度量单位进行统一，以便进一步分析。矩阵转换可以将数据整理成适合输入目标负载均衡决策模型的数据结构。随后，将经过标准化处理和矩阵转换的实时状态参数矩阵输入目标负载均衡决策模型进行负载均衡决策分析。目标负载均衡决策模型通常是一个机器学***衡流量分配。

在一具体实施例中，执行步骤S403的过程可以具体包括如下步骤：

（1）将实时状态参数矩阵输入目标负载均衡决策模型，通过目标负载均衡决策模型中的深度强化学习网络对实时状态参数矩阵进行决策预测，得到初始负载均衡策略；

（2）通过目标负载均衡决策模型中的扩展卡尔曼滤波模型，对实时状态参数矩阵进行状态估计，得到目标状态估计矩阵；

（3）根据初始负载均衡策略，对目标状态估计矩阵和实时状态参数矩阵进行矩阵融合，得到目标融合状态矩阵；

（4）通过目标负载均衡决策模型中的深度强化学习网络，对目标融合状态矩阵进行决策预测，输出服务器集群的目标负载均衡策略，其中，目标负载均衡策略包括服务器权重调整量、服务器资源分配比例以及服务器集群容量调整量。

具体的，将实时状态参数矩阵输入目标负载均衡决策模型，通过目标负载均衡决策模型中的深度强化学习网络对实时状态参数矩阵进行决策预测，得到初始负载均衡策略。目标负载均衡决策模型通常由深度强化学习网络组成，目的是对实时状态参数进行分析和决策预测，以制定初始的负载均衡策略。这些策略包括调整服务器权重、资源分配比例和服务器集群容量等。通过目标负载均衡决策模型中的扩展卡尔曼滤波模型，对实时状态参数矩阵进行状态估计。扩展卡尔曼滤波是一种用于估计***状态的技术，可以结合先验信息和测量数据来更新状态估计值。它会考虑过去的状态信息、观测数据和测量误差，然后生成目标状态估计矩阵。随后，根据初始负载均衡策略，对目标状态估计矩阵和实时状态参数矩阵进行矩阵融合。这一步骤的目的是将深度强化学习网络预测的初始策略与扩展卡尔曼滤波模型估计的实际状态信息进行融合，以生成更精确的目标融合状态矩阵。例如，假设深度强化学习网络建议增加某台服务器的权重，而扩展卡尔曼滤波模型估计该服务器的实际性能状态相对较差。在矩阵融合过程中，这两个信息可以综合考虑，以确定最终的目标融合状态矩阵。通过目标负载均衡决策模型中的深度强化学习网络，对目标融合状态矩阵进行决策预测，以输出服务器集群的目标负载均衡策略。这些策略包括服务器权重调整量、服务器资源分配比例和服务器集群容量调整量，这些策略是根据深度强化学习网络的最终预测结果生成的。

上面对本发明实施例中基于对比服务的服务器负载均衡方法进行了描述，下面对本发明实施例中基于对比服务的服务器负载均衡***进行描述，请参阅图5，本发明实施例中基于对比服务的服务器负载均衡***一个实施例包括：

获取模块501，用于通过预置的服务对比模型获取服务器集群的历史服务器性能数据，并通过预置的负载监控平台获取所述服务器集群的历史服务器负载数据；

更新模块502，用于将所述历史服务器性能数据和所述历史服务器负载数据输入预置的深度强化学习网络进行参数定义和参数更新，得到初始负载均衡决策模型；

训练模块503，用于对预置的扩展卡尔曼滤波模型和所述初始负载均衡决策模型进行模型集成和决策训练，得到目标负载均衡决策模型；

分析模块504，用于获取所述服务器集群的实时服务器性能数据和实时服务器负载数据，并将所述实时服务器性能数据和所述实时服务器负载数据输入所述目标负载均衡决策模型进行负载均衡决策分析，得到目标负载均衡策略。

通过上述各个组成部分的协同合作，通过预置的服务对比模型，充分利用了服务器集群的历史性能数据和负载数据。这有助于建立更为全面和准确的初始负载均衡决策模型，提高***对历史趋势的理解和应对能力。采用深度强化学习网络进行负载均衡决策，能够从复杂的状态空间中学习，并在动作空间中找到最优的负载均衡策略。这使得***更具智能化，能够适应不同的工作负载和网络环境。通过将初始负载均衡决策模型与扩展卡尔曼滤波模型集成，方法更好地利用了不同模型的优势。这有助于提高决策的准确性和鲁棒性，使得***更具适应性和稳定性。通过获取实时服务器性能数据和实时服务器负载数据，实现了实时的负载均衡决策。这确保了***能够迅速、精确地应对不断变化的负载情况，提高了***的响应速度和实时性。采用扩展卡尔曼滤波模型进行状态估计，更好地捕捉了***状态的动态变化。状态融合进一步提高了决策的精确性，使得***能够更准确地理解当前状态，有助于做出更为合理的负载均衡决策。通过深度强化学习网络对目标状态进行决策预测，输出了更为智能和全面的目标负载均衡策略。这有助于***在各种情况下做出最优的决策，提高了整体性能和效率，进而提高了服务器集群的负载均衡决策智能性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于对比服务的服务器负载均衡方法，其特征在于，所述基于对比服务的服务器负载均衡方法包括：

通过预置的服务对比模型获取服务器集群的历史服务器性能数据，并通过预置的负载监控平台获取所述服务器集群的历史服务器负载数据，所述历史服务器性能数据包括：CPU利用率、内存使用情况和网络吞吐量，所述历史服务器负载数据包括：HTTP请求量、数据库查询次数和磁盘读写速度；

将所述历史服务器性能数据和所述历史服务器负载数据输入预置的深度强化学***衡性因素及服务器性能因素，并根据所述计算资源消耗因素、所述负载均衡平衡性因素及所述服务器性能因素定义奖励函数R(m，n)表示，其中R表示奖励，m表示状态，n表示动作，m∈S，m表示具体的状态，n∈A，n表示具体的操作动作；根据所述状态空间S、所述动作空间A以及所述奖励函数R(m，n)，创建Q-Value函数，其中，所述Q-Value函数为：Q(m，n)=E[Σγt*R(mt，nt)|m0=m，n0=n，π]，其中，Q(m，n)表示状态m下采取动作n的Q-Value值，E表示期望操作，γ是折扣因子，t表示时间步，mt表示第t步的状态，nt表示第t步的动作，π是策略函数；将所述状态空间S输入所述深度强化学习网络，其中，所述深度强化学习网络包括目标网络以及估计网络，所述目标网络包括：第一输入层、多个第一隐藏层以及第一输出层，所述估计网络包括：第二输入层、多个第二隐藏层以及第二输出层；采用Q-Learning更新所述Q-Value函数的估计，以最小化Q(m，n)与目标Q值之间的差距，目标Q值的计算函数为：targetQ(m，n)=R+γ*max(Q(m'，n'))，targetQ(m，n)表示目标Q值，R表示奖励函数，γ是折扣因子，m'表示下一状态，n'表示下一操作动作；根据所述目标Q值，使用梯度下降模型更新所述深度强化学习网络的网络参数，得到初始负载均衡决策模型；

对预置的扩展卡尔曼滤波模型和所述初始负载均衡决策模型进行模型集成和决策训练，得到目标负载均衡决策模型；具体包括：将所述服务器性能数据以及所述服务器负载特征数据输入所述初始负载均衡决策模型，并通过所述初始负载均衡决策模型中的目标网络对所述服务器性能数据以及所述服务器负载特征数据进行决策分析，得到所述目标网络的第一输出结果；通过所述初始负载均衡决策模型中的估计网络对所述服务器性能数据以及所述服务器负载特征数据进行决策分析，得到所述估计网络的第二输出结果；对预置的扩展卡尔曼滤波模型和所述初始负载均衡决策模型进行模型集成，并通过所述扩展卡尔曼滤波模型对所述第一输出结果和所述第二输出结果进行状态反馈参数计算，得到目标状态反馈参数；将所述目标状态反馈参数输入所述估计网络进行网络状态更新，并对网络状态更新后的估计网络进行决策训练，得到目标负载均衡决策模型；

2.根据权利要求1所述的基于对比服务的服务器负载均衡方法，其特征在于，所述对所述标准服务器性能数据和所述标准服务器负载数据进行特征提取，得到服务器性能数据以及服务器负载特征数据，包括：

3.根据权利要求1所述的基于对比服务的服务器负载均衡方法，其特征在于，所述获取所述服务器集群的实时服务器性能数据和实时服务器负载数据，并将所述实时服务器性能数据和所述实时服务器负载数据输入所述目标负载均衡决策模型进行负载均衡决策分析，得到目标负载均衡策略，包括：

4.根据权利要求3所述的基于对比服务的服务器负载均衡方法，其特征在于，所述将所述实时状态参数矩阵输入所述目标负载均衡决策模型进行负载均衡决策分析，输出所述服务器集群的目标负载均衡策略，其中，所述目标负载均衡策略包括服务器权重调整量、服务器资源分配比例以及服务器集群容量调整量，包括：

5.一种基于对比服务的服务器负载均衡***，其特征在于，所述基于对比服务的服务器负载均衡***包括：

获取模块，用于通过预置的服务对比模型获取服务器集群的历史服务器性能数据，并通过预置的负载监控平台获取所述服务器集群的历史服务器负载数据，所述历史服务器性能数据包括：CPU利用率、内存使用情况和网络吞吐量，所述历史服务器负载数据包括：HTTP请求量、数据库查询次数和磁盘读写速度；

更新模块，用于将所述历史服务器性能数据和所述历史服务器负载数据输入预置的深度强化学***衡性因素及服务器性能因素，并根据所述计算资源消耗因素、所述负载均衡平衡性因素及所述服务器性能因素定义奖励函数R(m，n)表示，其中R表示奖励，m表示状态，n表示动作，m∈S，m表示具体的状态，n∈A，n表示具体的操作动作；根据所述状态空间S、所述动作空间A以及所述奖励函数R(m，n)，创建Q-Value函数，其中，所述Q-Value函数为：Q(m，n)=E[Σγt*R(mt，nt)|m0=m，n0=n，π]，其中，Q(m，n)表示状态m下采取动作n的Q-Value值，E表示期望操作，γ是折扣因子，t表示时间步，mt表示第t步的状态，nt表示第t步的动作，π是策略函数；将所述状态空间S输入所述深度强化学习网络，其中，所述深度强化学习网络包括目标网络以及估计网络，所述目标网络包括：第一输入层、多个第一隐藏层以及第一输出层，所述估计网络包括：第二输入层、多个第二隐藏层以及第二输出层；采用Q-Learning更新所述Q-Value函数的估计，以最小化Q(m，n)与目标Q值之间的差距，目标Q值的计算函数为：targetQ(m，n)=R+γ*max(Q(m'，n'))，targetQ(m，n)表示目标Q值，R表示奖励函数，γ是折扣因子，m'表示下一状态，n'表示下一操作动作；根据所述目标Q值，使用梯度下降模型更新所述深度强化学习网络的网络参数，得到初始负载均衡决策模型；

训练模块，用于对预置的扩展卡尔曼滤波模型和所述初始负载均衡决策模型进行模型集成和决策训练，得到目标负载均衡决策模型；具体包括：将所述服务器性能数据以及所述服务器负载特征数据输入所述初始负载均衡决策模型，并通过所述初始负载均衡决策模型中的目标网络对所述服务器性能数据以及所述服务器负载特征数据进行决策分析，得到所述目标网络的第一输出结果；通过所述初始负载均衡决策模型中的估计网络对所述服务器性能数据以及所述服务器负载特征数据进行决策分析，得到所述估计网络的第二输出结果；对预置的扩展卡尔曼滤波模型和所述初始负载均衡决策模型进行模型集成，并通过所述扩展卡尔曼滤波模型对所述第一输出结果和所述第二输出结果进行状态反馈参数计算，得到目标状态反馈参数；将所述目标状态反馈参数输入所述估计网络进行网络状态更新，并对网络状态更新后的估计网络进行决策训练，得到目标负载均衡决策模型；