CN118092195A

CN118092195A - 基于协同训练模型改进iql的多智能体协同控制方法

Info

Publication number: CN118092195A
Application number: CN202410508860.XA
Authority: CN
Inventors: 王佐勋; 崔传宇; 隋金雪; 郭长坤; 王傲为
Original assignee: Shandong Technology and Business University
Current assignee: Shandong Technology and Business University
Priority date: 2024-04-26
Filing date: 2024-04-26
Publication date: 2024-05-28
Anticipated expiration: 2044-04-26
Also published as: CN118092195B

Abstract

本发明属于多智能体协同控制技术领域，具体涉及基于协同训练模型改进IQL的多智能体协同控制方法，步骤包括：S1、对传统生成式对抗网络GAN进行改进，建立跨域生成对抗网络CoGAN；S2、构建鱼鳞预测算法，并鱼鳞预测算法将引入CoGAN中；S3、基于鱼鳞预测算法和CoGAN，建立非线性协同***，完成对深度协同对抗训练模型DCATM的构建，即为完成对IQL的改进，获得基于改进IQL的多智能体协同控制方法。本发明通过改进传统GAN、引入鱼鳞预测算法以及建立非线性协同***等手段，有效提升了协同训练效果，使得多智能体的协同得到了准确的训练和优化，从而在多个应用领域中都能取得显著的性能提升和实际效益。

Description

基于协同训练模型改进IQL的多智能体协同控制方法

技术领域

本发明属于多智能体协同控制技术领域，具体涉及基于协同训练模型改进IQL的多智能体协同控制方法。

背景技术

随着工业自动化的发展，多智能体协同控制***已经成为当今控制领域的热点，其应用涵盖多个方面，如机器人***、路径规划、仓库物流、***监测和服务***等。在智能装车领域，更是重中之重，多智能体协同控制***的优劣直接决定其装车速度。但由于多智能体协同控制***本身的高维复杂性，因此其协同控制仍然面临着很多挑战。

近些年，学者们对于多智能体协同技术提出了很多控制策略：

（1）Actor-Critic控制。Actor-Critic控制结合了策略梯度方法和值函数方法，其中Actor负责选择动作，而Critic则负责评估动作的价值。这种方法在多智能体协同控制中可以用于学习每个智能体的策略和价值函数，以实现协同决策和行动。但由于每个智能体的Actor和Critic是独立学习的，忽略了智能体之间的相互影响，导致协同效果不佳。

（2）深度确定性策略梯度算法（DDPG）。DDPG是一种深度强化学习算法，适用于连续动作空间的问题。它通过结合确定性策略梯度和经验回放来学习连续动作空间中的策略。在多智能体协同控制中，DDPG可以用于学习智能体的策略，以实现对环境的合作和协调。但DDPG存在稳定性方面的问题，由于DDPG采用了确定性策略和经验回放，存在训练不稳定的缺点，尤其是在智能体之间的相互影响较大时，该缺点尤为明显。

（3）近端策略优化（PPO）。PPO是一种近端策略优化方法，旨在稳定和提高策略梯度方法的训练效率。PPO通过限制每次更新的策略变化幅度来提高稳定性，并且可以有效地应用于多智能体协同控制中，以学习智能体的策略并实现协同行动。但是由于PPO采用了近端策略优化方法，这会限制每次更新的策略变化幅度，导致智能体之间的协同作用不足。此外，PPO由于对每个智能体的策略进行独立更新，因此忽略了智能体之间的相互影响，导致协同效果不佳。

综上，虽然学者们关于多智能体协同控制提出了很多新方案，但它们的研究基础与IQL（Independent Q-learning）类似，即忽略了智能体之间的影响，而这种影响在实际应用场景中又是不可或缺的。其中，IQL是多智能体强化学习中常用的一种方法，而多智能体强化学习是智能体协同控制中一种新型方法。因此，对IQL进行优化，提出新的协同控制策略势在必行。

发明内容

根据以上现有技术中的不足，本发明提供了基于协同训练模型改进IQL的多智能体协同控制方法，结合了生成式对抗网络和鱼鳞协同训练机制对IQL进行优化，能够有效提升协同训练效果。

为达到以上目的，本发明提供了基于协同训练模型改进IQL的多智能体协同控制方法，包括以下步骤：

S1、对传统生成式对抗网络GAN进行改进，建立跨域生成对抗网络CoGAN，步骤包括：

S11、构建各个智能体的动态过程，其中包括两个智能体之间的相互作用；

S12、对于两个智能体之间的相互作用进行优化；

S13、获取各个智能体在训练过程中的对抗损失函数；

S14、建立关于反向平衡器的虚拟控制***；

S2、构建鱼鳞预测算法，并鱼鳞预测算法将引入CoGAN中；

S3、基于鱼鳞预测算法和CoGAN，建立非线性协同***，完成对深度协同对抗训练模型DCATM的构建，即为完成对IQL的改进，获得基于改进IQL的多智能体协同控制方法。

CoGAN基于反向平衡器建立虚拟控制***，通过每一轮判定完成多智能体状态优化，有效解决协同***中的过拟合和欠拟合问题。鱼鳞预测算法应用于协同训练中，来提高非线性协同***的预测性能和对抗能力，可以有效抑制作用系数和状态增长率的变化，提高训练效果。

所述的S11中，构建各个智能体的动态过程的步骤为：

S111、应用场景下的智能体数量设定为N，智能体集合agent表示为；第i个智能体对应的状态变量为/>，/>；每个智能体对应一个生成器网络/>，用于生成该智能体在当前状态下采取的动作策略，将每个智能体的智能体状态/>作为输入，并生成每个智能体的动作策略/>，其中，/>的参数表示为/>，则/>；

S112、第i个智能体的动态过程表示为：

（1）；

式中，是第i个智能体的状态增长率，用于反映智能体在多智能体协同控制中的动态行为；/>为智能体j对i的作用系数，即为两个智能体之间的相互作用，/>且j≠i；/>和/>分别为第i个智能体的环境容量、自我抑制系数和外部影响系数；t为时间。

公式（1）中，仅表示两个智能体之间的相互作用，它将其余智能体均看作环境信息，忽略了所有智能体之间的相互作用，这一缺点在IQL中更为明显，因此，需要对其进行优化。

所述的S12中，对两个智能体之间的相互作用，即为对进行优化的方法为：

对于第i个智能体，其余N-1个智能体对第i个智能体的综合影响表示为，外部环境对第i个智能体的影响表示为/>，此时的/>表示为：

（2）；

式中，表示外部因素对第i个智能体的作用系数。

所述的S13中，获取各个智能体在训练过程中的对抗损失函数的步骤为：

S131、设定判别器网络为，通过/>评估/>生成的动作策略的质量；/>接收的真实动作记为/>，/>输出的动作策略即为/>；将/>和/>均作为/>的输入，/>的参数用/>表示，则：

（3）；

式中，为/>的判别输出；/>为/>中的真实动作判别输出；/>为中的生成动作判别输出；/>用于调节/>和/>；/>以及/>不断调节/>和/>；

的输出充分考虑了智能体之间的作用和环境因素。在/>的判别输出中， />试图通过足够逼真的动作来欺骗/>，而/>试图准确区分动作的真实性。

S132、第i个智能体在训练过程中的对抗损失函数表示为：

（4）；

式中，为真实动作个数；/>为噪声分布个数；/>和分别为/>和/>的期望；/>是关于/>以及/>的判别；/>是关于/>的判别。判别即为通过/>进行的判别。

的目标就是最小化/>的损失，即最大化生成动作被/>认为是真实动作的概率。但是在对抗过程中由于/>和/>的作用，导致对抗损失函数不稳定和多智能体协同控制***的适应性差。为提高多智能体协同控制***的适应稳定性，建立关于反向平衡器的虚拟控制***。

所述的S14中，建立关于反向平衡器的虚拟控制***的过程为：

S141、将的虚拟控制器设定为/>；/>是智能体在环境容量下，/>输出动作和真实动作的反向平衡器，/>是在/>中引入的生成器网络参数，用于形成虚拟控制器；

S142、关于反向平衡器的虚拟控制***表示为：

（5）；

式中，为第i个智能体的反向平衡器；/>=/>，即同样表示智能体在环境容量下，/>输出动作和真实动作的反向平衡器；此部分其实是一个关于/>和/>的网络，/>和/>像蜘蛛网一样连接，这里的/>和/>其实就是不同分支的两个量，它们相等。

S143、公式（5）使得：

（6）；

（7）；

式中，和/>是第i个智能体的初始判别器网络和初始输出动作；/>是动作策略为/>时的初始判别器网络；/>是关于/>渐近增长率的上限；

S144、由于是/>的输入，因此：

（8）；

（9）；

式中，即为哈密顿算子；

S145、将公式（8）和公式（9）带入公式（6），得到：

（10）；

S146、由于，因此/>的变化会影响/>，/>的变化会导致/>发生变化，此时的/>会加强对来自/>中真实动作的判定，因此，在每一轮判定中/>都会增加，由此得到：

（11）；

式中，为/>在新一轮迭代中的表达式；

S147、的增加会导致/>产生更多的/>，同时/>也将增加，受到来自其余智能体的影响，因此/>的增加幅度不稳定；设定虚拟控制***的临界变化率为/>，则；

当时，虚拟控制***处于过拟合状态，出现不收敛现象（为GAN中的故障状态）；

当时，虚拟控制***处于欠拟合状态（为GAN中的故障状态）；

当时，虚拟控制***处于稳定状态；

其中，为/>变化的时间间隔；/>为/>在内的变化量；

故障状态是GAN中和/>的优化发生同步所造成的，在有限的训练数据情况下，如果先将/>进行优化会导致过度拟合，从而导致模型不收敛。反之会出现拟合不足。

S148、对公式（5）进行移项，得到；通过/>对/>的变化进行控制，得到：

（12）；

式中，为/>在新一轮迭代中的表达式；/>为/>在新一轮迭代中的表达式；/>为/>在新一轮迭代中的表达式；

此过程中，的增加导致/>增大，因此/>会适当减小；

当的判别不足时，即虚拟控制***处于欠拟合状态，那么/>将会增大，/> 相应减小，/>会适当增加。

通过公式（12），利用调节了/>的平衡，有效防止了过拟合和欠拟合状态，完成对于GAN的改进，获得CoGAN。

此过程验证了对抗损失函数在每一轮判定中都会减小，虚拟控制***也将更稳定。CoGAN有效解决了由于和/>的作用导致对抗损失函数不稳定的问题，它在每一轮判定中都将对抗损失函数降到最低。

所述的S2中，构建鱼鳞预测算法的步骤为：

S21、鱼鳞预测算法中，鱼鳞个数为N，即为与智能体的数量相同，每个鱼鳞对应一个智能体，每个鱼鳞的维度为D，所有鱼鳞的初始数据集合表示为：，每个鱼鳞的初始数据都是n个数据的融合，即为D=n；

S22、每个鱼鳞关于调控对象的期望范围为，其中p₁为期望范围的最低标准；p₂为期望范围的最高标准；p₁和p₂的范围根据实际需求而定；

S23、定义鱼鳞预测算法的参数差异为，且；/>为稳态参数，用于调节/>中的/>的稳定性，/>的大小在一个长度为/>的领域范围内，即；因此，当/>时，参数异常；

S24、通过鱼鳞差异矩阵来表示每个参数差异的状态：

（13）；

关于的结构矩阵/>表示为：

（14）；

S25、设定为扰动因子，用于模拟实际应用过程中的干扰信息；建立扰动平衡方程：

（15）；

式中，表示鱼鳞预测算法的抗干扰输出；/>为鱼鳞预测算法的稳态输入参数；为鱼鳞预测算法的控制输入参数；/>为鱼鳞预测算法当前的输入；

S26、迭代后的鱼鳞参数表示为：/>；/>代表每次迭代的学习率；第k个鱼鳞的参数适应度函数/>表示为；

（16）；

（17）；

（18）；

（19）；

式中，为第k−1个鱼鳞的参数适应度函数；/>为第 k 个鱼鳞的分配权重；/>为第 k 个鱼鳞对应参数的稳定误差；/>和/>表示和/>对迭代更新的影响函数；/>为迭代优化后的鱼鳞参数；公式（17）表示隶属于/>；公式（18）和公式（19）为约束条件；公式（18）表示/>满足/>的领域范围之内；/>代表鱼鳞参数的迭代范围；/>代表迭代后所组成的参数向量。

所述的S2中，通过鱼鳞预测算法完成对和/>的实时监测。

鱼鳞预测算法借鉴了鱼类对环境温度变化的生物学反应，它通过模拟鱼鳞在不同温度下的排列方式来实现预测，该算法目的是在迭代次数较少的情况下实现调控对象参数的合理预测，将其控制在期望范围内。这样即可以实现参数的调节，还可以避免异常参数的出现。

鱼鳞预测算法可以单独引入CoGAN中使用，通过产生的对抗策略动态调整虚拟控制***的参数，以维持稳定的协同效果；还可以结合CN117784852A中公开的鱼鳞仿生优化算法，将结合后的算法作为改进算法引入CoGAN中使用；也可以单独使用CN117784852A中公开的鱼鳞仿生优化算法，并将其引入CoGAN中使用，通过初始化鱼鳞群体、计算参数差异、更新鱼鳞状态和交叉变异完成对和/>的实时监测。

所述的S3中，建立非线性协同***，完成对深度协同对抗训练模型DCATM的构建的步骤为：

S31、关于和/>的非线性协同***表示为：

（20）；

式中，和/>分别作为/>的主***和子***，并将/>和/>设置为随时间的变量；/>和/>是关于/>的参数适应度函数；/>是关于/>的参数适应度函数；/>是第i个智能体在/>影响下的状态增长率；/>是环境发生动态变化后外部因素对智能体的作用系数；/>是第i个智能体的平衡参数；状态增长率是智能体状态参数的变化。

S32、关于主***的限定定理为，令，；/>和/>为智能体拥有l个状态变量的扰动集合；若每个状态变量始终小于/>，则存在非负参数适应度函数和/>，在公式（20）的基础上，使得公式（21）成立：

（21）；

式中，和/>作为/>的稳态输入参数；/>作为/>的稳态输入参数；/>表示/>；

S33、在中，假设每个智能体都提供一个关于/>和/>的状态置信系数/>；

通过生成关于/>和/>的抵消参数，以抵抗来自/>和/>变化所引起的非正常主***；/>和/>的最低期望标准为/>；

S34、为便于表示，令；当/>和/>发生过度变化时，会导致/>发生过度变化，使得/>；为达到扰动平衡的目的，根据主***的限定定理，关于/>的扰动平衡方程表示为：

（22）；

式中，为每一次发生动态变化后的抗干扰输出；

S35、和/>的过度变化会导致M中的/>增加，使/>的对抗性增加，则会发生以下变化：

（23）；

式中，是动态变化之后的/>；/>和分别为动态变化前、动态变化后关于/>的变化量；

S36、通过S31-S35可知，当虚拟控制***发生变化时，通过限定定理不断缩放以满足平衡条件，而当过度变化发生时，公式（22）的扰动平衡方程又会根据公式（23）产生反向逆变，即，通过正向和逆向对来自/>和/>的变化进行抵抗；

S37、鱼鳞预测算法的稳态参数为，/>用于调节/>中的的稳定性；/>的大小在一个长度为的领域范围内，则/>满足：

（24）；

（25）；

式中，和/>为动态变化后的/>；/>代表不同的状态（对应l个状态变量的扰动集合）；

S38、通过公式（24）和公式（25）可得，每一次在环境容量的影响下均大于的上限；

若，或者，则/>，即，直到满足公式（24）和公式（25）为止；

S39、对优化后的鱼鳞的各个参数，即为智能体的各个参数进行扩展：

（26）；

（27）；

（28）；

式中，为第k个鱼鳞的参数适应度函数；/>是关于行动为和/>的价值函数；/>是在/>的影响下的/>；l的数值在智能体协同控制过程中不断更新（根据具体任务的不同进行更新）；/>和/>的影响下的/>不断扩展到/>中，对/>和/>进行预测和抵抗。

协同训练在多智能体协同控制中的原理是基于多***的协同训练来提高整体控制性能。在这个过程中，由于智能体之间的作用，导致和/>发生不稳定变化。本发明在CoGAN的基础上引入鱼鳞预测算法，基于/>的输入网络建立非线性协同***。限定定理和扰动平衡方程的引入使/>的抗干扰输出不断缩放以满足平衡条件。优化后的鱼鳞参数（智能体的各个状态参数）在状态置信系数的基础上进行扩展。当出现干扰时，/>就会加强对输入的判断，而限制条件下的价值函数可以良好的追踪/>和/>的变化。因此，多智能体的协同得到准确的训练和优化。

所述的S34中，过度变化为，设置一个阈值变化量FD，若变化量≥FD，则代表过度变化。

本发明涉及的算法可以通过电子设备执行，电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，通过处理器执行软件实现上述的算法。

本发明所具有的有益效果是：

本发明的优势在于对传统生成式对抗网络（GAN）的改进，通过建立跨域生成对抗网络（CoGAN），能够在多个领域实现更加广泛和有效的应用。传统的GAN在处理不同领域之间的数据转换时存在性能下降或模型失效的问题，而通过引入CoGAN，本发明能够更好地处理这些跨域任务，提高协同训练模型的鲁棒性和泛化能力。

本发明在CoGAN的基础上引入了鱼鳞预测算法，这种算法的引入使得协同训练模型具备了更好的优化性能和适应性。鱼鳞预测算法作为一种新颖的优化技术，能够模拟鱼群生物***中的优化行为，通过群体智能的方式来提高优化过程的效率和稳定性，从而进一步增强了协同训练模型的能力。

本发明建立的非线性协同***，即基于改进的IQL，具有更强的学***衡条件，从而保持***的稳定性，同时在过度变化发生时产生反向逆变，通过正向和逆向的动态调整来抵抗变化，保证虚拟控制***的鲁棒性和可靠性。

综上所述，本发明通过改进传统GAN、引入鱼鳞预测算法以及建立非线性协同***等手段，有效提升了协同训练效果，使得多智能体的协同得到了准确的训练和优化，从而在多个应用领域中都能取得显著的性能提升和实际效益。

附图说明

图1是本发明的流程原理图；

图2为建立跨域生成对抗网络CoGAN的流程原理图。

具体实施方式

下面结合附图对本发明的实施例做进一步描述：

如图1和图2所示，基于协同训练模型改进IQL的多智能体协同控制方法，包括以下步骤：

S12、对于两个智能体之间的相互作用进行优化；

S13、获取各个智能体在训练过程中的对抗损失函数；

S14、建立关于反向平衡器的虚拟控制***；

S2、构建鱼鳞预测算法，并鱼鳞预测算法将引入CoGAN中；

S11中，构建各个智能体的动态过程的步骤为：

S111、应用场景下的智能体数量设定为N，智能体集合agent表示为；第i个智能体对应的状态变量为/>，/>；每个智能体对应一个生成器网络/>，用于生成该智能体在当前状态下采取的动作策略，/>将每个智能体的智能体状态/>作为输入，并生成每个智能体的动作策略/>，其中，/>的参数表示为/>，则/>；

S112、第i个智能体的动态过程表示为：

（1）；

S12中，对两个智能体之间的相互作用，即为对进行优化的方法为：

（2）；

式中，表示外部因素对第i个智能体的作用系数。

S13中，获取各个智能体在训练过程中的对抗损失函数的步骤为：

（3）；

S132、第i个智能体在训练过程中的对抗损失函数表示为：

（4）；

式中，为真实动作个数；/>为噪声分布个数；/>和分别为/>和/>的期望；/>是关于/>以及/>的判别；/>是关于/>的判别。

S14中，建立关于反向平衡器的虚拟控制***的过程为：

S141、将的虚拟控制器设定为/>；/>是智能体在环境容量下，/>输出动作和真实动作的反向平衡器，/>是在/>中引入的生成器网络参数，用于形成虚拟控制器；/>

S142、关于反向平衡器的虚拟控制***表示为：

（5）；

式中，为第i个智能体的反向平衡器；/>=/>，即同样表示智能体在环境容量下，/>输出动作和真实动作的反向平衡器；

S143、公式（5）使得：

（6）；

（7）；

S144、由于是/>的输入，因此：

（8）；

（9）；

式中，即为哈密顿算子；

S145、将公式（8）和公式（9）带入公式（6），得到：

（10）；

（11）；

式中，为/>在新一轮迭代中的表达式；/>

S147、的增加会导致/>产生更多的/>，同时/>也将增加，受到来自其余智能体的影响，设定虚拟控制***的临界变化率为/>，则；

当时，虚拟控制***处于过拟合状态，出现不收敛现象；

当时，虚拟控制***处于欠拟合状态；

当时，虚拟控制***处于稳定状态；

其中，为/>变化的时间间隔；/>为/>在内的变化量；

S148、对公式（5）进行移项，得到；通过对/>的变化进行控制，得到：

（12）；

通过公式（12），利用调节了/>的平衡，完成对于GAN的改进，获得CoGAN。

S2中，构建鱼鳞预测算法的步骤为：

S22、每个鱼鳞关于调控对象的期望范围为，其中p₁为期望范围的最低标准；p₂为期望范围的最高标准；

S23、定义鱼鳞预测算法的参数差异为，且；/>为稳态参数，用于调节/>中的的稳定性，/>的大小在一个长度为的领域范围内，即/>；因此，当/>时，参数异常；/>

S24、通过鱼鳞差异矩阵来表示每个参数差异的状态：

（13）；

关于的结构矩阵/>表示为：

（14）；

S25、设定为扰动因子，建立扰动平衡方程：

（15）；

（16）；

（17）；

（18）；

（19）；

S2中，通过鱼鳞预测算法完成对和/>的实时监测。

S3中，建立非线性协同***，完成对深度协同对抗训练模型DCATM的构建的步骤为：

S31、关于和/>的非线性协同***表示为：/>

（20）；

式中，和/>分别作为/>的主***和子***，并将/>和/>设置为随时间的变量；/>和/>是关于/>的参数适应度函数；/>是关于/>的参数适应度函数；/>是第i个智能体在/>影响下的状态增长率；/>是环境发生动态变化后外部因素对智能体的作用系数；/>是第i个智能体的平衡参数；

（21）；

S34、为便于表示，令；当/>和/>发生过度变化（过度变化为，设置一个阈值变化量FD，若变化量≥FD，则代表过度变化）时，会导致/>发生过度变化，使得/>；为达到扰动平衡的目的，根据主***的限定定理，关于/>的扰动平衡方程表示为：

（22）；

式中，为每一次发生动态变化后的抗干扰输出；

（23）；

S37、满足：

（24）；

（25）；

式中，和/>为动态变化后的/>；/>代表不同的状态；

S38、通过公式（24）和公式（25）可得，每一次在环境容量的影响下均大于的上限；/>

S39、对价值函数进行扩展：

（26）；

（27）；

（28）；

式中，是关于行动为/>和/>的价值函数；/>是在/>的影响下的/>；l的数值在智能体协同控制过程中不断更新；/>和/>的影响下的/>不断扩展到/>中，对/>和/>进行预测和抵抗。

关于鱼鳞预测算法在DCATM中的应用，给出一组具体对应关系作为示例：

对应/>；p₁对应/>；p₂对应/>；/>对应； />对应/>和/>；/>对应/>和/>中的干扰；/>对应/>；对应/>；/>对应/>；/>对应/>。

本实施例方法可以在多种应用场景中进行协同控制应用，例如，智能装车***中前端智能体的行为规划，智能体集合中的为N个机械手，用于将某个升降台的货物运输到指定目标位置，在此过程中，智能体需要不断的接收并处理新的环境信息。这些环境信息包括自身的信息，其余智能体的信息、障碍物的信息和目标信息，涉及到行为规划中的协同控制。通过本实施例方法中的DCATM，进行机械手的协同控制，能够有效提升协同控制的稳定性。/>

在智能装车***中，本实施例方法的应用还可以扩展到整个装车过程的协同控制。举例来说，考虑一个大型仓储中心，其中包含多个装载区域和多台运输车辆，需要协调各个智能体的动作以高效地完成货物装载任务。在这种场景下，智能体集合包括装载区域的机械手、运输车辆以及存在的其他自动化设备，它们需要共同协作，按照预定的顺序将货物从仓库中提取并装载到运输车辆上，最终将货物运输到指定目的地。

在这个过程中，每个智能体需要不断地接收来自环境的信息，包括货物的位置和数量、装载区域的状态、其他智能体的动作意图等等。通过本实施例方法中的DCATM，这些智能体可以实现高效的协同控制，以确保整个装车过程的稳定性和高效性。例如，通过优化装载区域机械手的动作规划，可以避免不必要的等待和重复动作，从而提高装载效率；通过协调运输车辆的行驶路径，可以避免拥堵和碰撞，确保货物的安全运输。

此外，本实施例方法还可以应用于其他类似的物流和仓储场景，例如快递分拣中心、生产车间等，其中也存在着多个智能体之间的协同控制需求，并且可以应用于各类多机器人***，实现机器人之间的协同控制。通过将DCATM应用于这些场景，可以实现物流、生产等过程的自动化和智能化，提高整体效率和质量，降低人力成本和错误率，为现代物流和制造业的发展提供有力支撑。

Claims

1.基于协同训练模型改进IQL的多智能体协同控制方法，其特征在于包括以下步骤：

S12、对于两个智能体之间的相互作用进行优化；

S13、获取各个智能体在训练过程中的对抗损失函数；

S14、建立关于反向平衡器的虚拟控制***；

S2、构建鱼鳞预测算法，并鱼鳞预测算法将引入CoGAN中；

2.根据权利要求1所述的基于协同训练模型改进IQL的多智能体协同控制方法，其特征在于：所述的S11中，构建各个智能体的动态过程的步骤为：

S112、第i个智能体的动态过程表示为：

（1）；

式中，是第i个智能体的状态增长率，用于反映智能体在多智能体协同控制中的动态行为；/>为智能体j对i的作用系数，即为两个智能体之间的相互作用，/>且j≠i；和/>分别为第i个智能体的环境容量、自我抑制系数和外部影响系数；t为时间。

3.根据权利要求2所述的基于协同训练模型改进IQL的多智能体协同控制方法，其特征在于：所述的S12中，对两个智能体之间的相互作用，即为对进行优化的方法为：

（2）；

式中，表示外部因素对第i个智能体的作用系数。

4.根据权利要求3所述的基于协同训练模型改进IQL的多智能体协同控制方法，其特征在于：所述的S13中，获取各个智能体在训练过程中的对抗损失函数的步骤为：

（3）；

式中，为/>的判别输出；/>为/>中的真实动作判别输出；/>为/>中的生成动作判别输出；/>用于调节/>和/>；/>以及/>不断调节/>和/>；

S132、第i个智能体在训练过程中的对抗损失函数表示为：

（4）；

5.根据权利要求4所述的基于协同训练模型改进IQL的多智能体协同控制方法，其特征在于：所述的S14中，建立关于反向平衡器的虚拟控制***的过程为：

S142、关于反向平衡器的虚拟控制***表示为：

（5）；

S143、公式（5）使得：

（6）；

（7）；

S144、由于是/>的输入，因此：

（8）；

（9）；

式中，即为哈密顿算子；

S145、将公式（8）和公式（9）带入公式（6），得到：

（10）；

（11）；

式中，为/>在新一轮迭代中的表达式；

S147、的增加会导致/>产生更多的/>，同时/>也将增加，/>受到来自其余智能体的影响，设定虚拟控制***的临界变化率为/>，则；

当时，虚拟控制***处于过拟合状态，出现不收敛现象；

当时，虚拟控制***处于欠拟合状态；

当时，虚拟控制***处于稳定状态；

其中，为/>变化的时间间隔；/>为/>在/>内的变化量；

S148、对公式（5）进行移项，得到；通过/>对的变化进行控制，得到：

（12）；

6.根据权利要求5所述的基于协同训练模型改进IQL的多智能体协同控制方法，其特征在于：所述的S2中，构建鱼鳞预测算法的步骤为：

S23、定义鱼鳞预测算法的参数差异为，且；/>为稳态参数，用于调节/>中的的稳定性，/>的大小在一个长度为的领域范围内，即/>；因此，当/>时，参数异常；

S24、通过鱼鳞差异矩阵来表示每个参数差异的状态：

（13）；

关于的结构矩阵/>表示为：

（14）；

S25、设定为扰动因子，建立扰动平衡方程：

（15）；

式中，表示鱼鳞预测算法的抗干扰输出；/>为鱼鳞预测算法的稳态输入参数；/>为鱼鳞预测算法的控制输入参数；/>为鱼鳞预测算法当前的输入；

（16）；

（17）；

（18）；

（19）；

式中，为第k−1个鱼鳞的参数适应度函数；/>为第 k 个鱼鳞的分配权重；/>为第 k 个鱼鳞对应参数的稳定误差；/>和/>表示/>和对迭代更新的影响函数；/>为迭代优化后的鱼鳞参数；公式（17）表示/>隶属于/>；公式（18）和公式（19）为约束条件；公式（18）表示/>满足/>的领域范围之内；/>代表鱼鳞参数的迭代范围；/>代表迭代后所组成的参数向量。

7.根据权利要求6所述的基于协同训练模型改进IQL的多智能体协同控制方法，其特征在于：所述的S2中，通过鱼鳞预测算法完成对和/>的实时监测。

8.根据权利要求6所述的基于协同训练模型改进IQL的多智能体协同控制方法，其特征在于：所述的S3中，建立非线性协同***，完成对深度协同对抗训练模型DCATM的构建的步骤为：

S31、关于和/>的非线性协同***表示为：

（20）；

（21）；

S33、在中，假设每个智能体都提供一个关于和/>的状态置信系数/>；

通过生成关于/>和/>的抵消参数，以抵抗来自/>和/>变化所引起的非正常主***；和/>的最低期望标准为/>；

（22）；

式中，为每一次发生动态变化后的抗干扰输出；

（23）；

S37、满足：

（24）；

（25）；

式中，和/>为动态变化后的/>；/>代表不同的状态；

S39、对价值函数进行扩展：

（26）；

（27）；

（28）；

式中，是关于行动为/>和/>的价值函数；/>是在的影响下的/>；l的数值在智能体协同控制过程中不断更新；/>和/>的影响下的/>不断扩展到/>中，对/>和/>进行预测和抵抗。

9.根据权利要求8所述的基于协同训练模型改进IQL的多智能体协同控制方法，其特征在于：所述的S34中，过度变化为，设置一个阈值变化量FD，若变化量≥FD，则代表过度变化。