CN113900445A

CN113900445A - 基于多智能体强化学习的无人机协同控制训练方法及***

Info

Publication number: CN113900445A
Application number: CN202111193986.5A
Authority: CN
Inventors: 洪万福; 王旺
Original assignee: Xiamen Yuanting Information Technology Co ltd
Current assignee: Xiamen Yuanting Information Technology Co ltd
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2022-01-07

Abstract

本发明公开了一种基于多智能体强化学习的无人机协同控制训练方法和***。所述方法包括：建立大规模无人机集群任务模型；根据任务模型建立马尔科夫博弈模型；构建MADDPG算法神经网络；调整神经网络的超参数，在通过MADDPG算法训练时，以一定的概率分别从探索环境经验和高质量经验中采集样本，以每个无人机的自身状态信息和环境信息作为神经网络的输入，以多无人机的速度作为输出，完成运动规划策略的训练，实现多无人机在复杂环境下自主避障并安全快速地到达目标位置。本发明的方法可提高策略的鲁棒性，训练出适应性更强和灵活性更高的优秀策略，在多无人机协同运动规划的场景中有很好的应用前景。

Description

基于多智能体强化学习的无人机协同控制训练方法及***

技术领域

本发明属于人工智能、无人机技术领域，尤其涉及一种基于多智能体强化学习的无人机协同控制训练方法及***。

背景技术

近年来，自主集群无人作战成为智能化军事应用的探索趋势，每个无人平台可视为一个智能体，无人作战过程中存在多种不稳定因素，战场态势不断变化，使得对作战态势的动态响应各不相同。由于需要大量训练样本的监督学习训练模型的泛化性能较弱，而深度强化学习方法仅需对当前***运行效果评价信息做出反应，因此，深度强化学习技术具有更高的实时性和鲁棒性，更适用于智能体博弈对抗行为建模。

无人集群***的协同控制包含协调和合作两个方面。协调的目的是确保多无人平台在执行任务过程中不发生冲突，研究的是多无人平台之间的动作控制问题。合作的目的是组织多个无人平台共同完成任务，研究的是高层的组织和决策机制问题。无人集群协同控制涉及无人集群***体系结构设计和无人集群分布式控制等内容。引入强化学***台的自主分布式控制具有更强的适应性和灵活性，提高单个无人平台完成作战任务的能力，同时也可增强无人集群的协调协作，提高集群***的整体性能。无人集群***中，单个无人平台感知的环境信息是局部的，因此通过传统单智能体强化学习算法得到的策略不具有普适性。为了解决该问题，多智能体强化学习在单智能体强化学习的基础上增加了智能体数量，并通过引入分布式协同策略机制使每个智能体具有自主性、目的性和协调性，且具备学习、推理和自组织能力。

发明内容

本发明的目的是提供一种基于多智能体强化学习的无人机协同控制训练方法及***，以解决大规模无人机在执行各种复杂任务和环境时协同决策，充分地学习到大规模无人机中各无人机在训练学习自身动作策略的同时，也学习到了其他智能体的策略，并提高了策略的鲁棒性，训练出适应性更强和灵活性更高的优秀策略，在多无人机协同控制的场景中有很好的应用前景。

为实现上述目的，本发明第一方面提出一种基于多智能体强化学习的无人机协同控制训练方法，包括：

步骤S1：建立大规模无人机集群的任务模型；

步骤S2：根据任务模型建立马尔科夫博弈模型；

步骤S3：构建MADDPG算法神经网络；

步骤S4：训练MADDPG算法神经网络；

步骤S5：将MADDPG算法神经网络加载到无人机群中，执行无人机集群协同控制，将所述神经网络输出的动作映射为对应的无人机的控制指令。

进一步的，所述步骤S1具体包括：

(1)任务描述：描述无人机集群在场景中的协同任务，所述协同任务为无人机集群需要在一定时间内全部到达指定目的地，其中在一定范围内存在建筑群和障碍物；所述无人机集群中的所有无人机都是同构的，拥有相同的性能参数；

(2)环境约束：

初始坐标约束：场景中无人机i在初始区域内随机产生，目标位置与障碍物位置在目标区域一定距离内随机出现；其无人机i在初始时刻到目标区域g的距离d_ig满足：

d_i,g≥d_init

其中，d_init为成功完成任务的有效距离；

高度与边界约束：其飞行高度满足如下约束：

h_min≤h≤h_max

其中，h_min为最低飞行高度，h_max为最大飞行高度；

速度与加速度约束：在三维空间中，无人机的速度和加速度需满足最大值约束：

最大偏航角约束：假设无人机航迹点i的坐标为(x_i,y_i,z_i)，则从点i-1到点i的航迹段的水平投影为α_i＝(x_i-x_i-1,y_i-y_i-1)^T，那么最大偏航角φ约束为：

障碍物约束：无人机与障碍物的距离l满足：

l≥R_saft+l_min+R_UAV，

式中，R_saft为规定的安全距离；l_min为障碍物在无人机方向上的长度；R_UAV为无人机半径。

进一步的，所述步骤S2具体包括：

(1)采用五元组<N,S,A,P,R>表示马尔科夫博弈模型，其中：N＝{1,2,…,n}，表示n个无人机的集合；S为联合状态，S＝s₁×s₂×…×s_n，表示所有无人机的状态的笛卡尔积，其中的S_i代表着无人机i的状态；A为联合动作，A＝a₁×a₂×…×a_n，表示所有无人机的动作的笛卡尔积，其中的a_i表示无人机i的动作；P:S×A×S→[0,1]为状态转移模型，表示所有的无人机在当前状态采取联合动作到达下一状态的概率值；R为联合奖励，即所有无人机奖励函数的笛卡尔积，R＝R₁×R₂×…×R_n，其中的R_i表示无人机i与环境交互获得的奖励值；

(2)设定无人机的状态空间，在极坐标系下设置每个无人机的状态空间；将无人机i中心作为原点，无人机i到自身目标的方向看作正方向建立极坐标系，则无人机i的状态表示为：s_i＝(s,s_U,s_E)，其中，s＝(P_ix,P_iy,P_igx,P_igy)为无人机i和目标的位置信息，P_ix，P_iy为无人机i的位置信息，P_igx，P_igy为无人机i的目标的位置信息；S_U＝(P_jx,P_jy)表示在无人机i的通讯范围内距离无人机i最近的障碍物的位置信息，如果通讯范围内无其他障碍物，则S_E＝(0,0)；

(3)设定无人机的动作空间，对于无人机i，动作空间为a_i＝(ω_it)，ω_it为t时刻无人机i的角速度值；

(4)设定无人机的奖励函数；无人机i的奖励函数具体设置如下：

R₁＝10+R_it，

R₂＝-20，

R₃＝-2^|α|+l-τ，

R₄＝-2^|α|+1，

R_i＝ω₁R₁+ω₂R₂+ω₃R₃+ω₄R₄，

其中，R₁表示无人机到达目标时的奖励值，

表示无人机到达目标消耗时间的惩罚，W_t为惩罚因子，T_i为无人机到达目标位置消耗的具体时间值，

表示无人机以u_i的线速度沿着直线到达目标位置时所需的最短时间，P_io和P_ig分别为无人机的初始位置和目标位置；R₂为无人机碰撞时的惩罚值；R₃为碰撞预警，选取通信距离l的通信范围内距无人机最近的障碍物或者其他无人机作为危险物体，在当前时刻的无人机与前方危险物体之间的欧氏距离小于上一时刻无人机与前方危险物体的欧氏距离时，给予相应的惩罚；R₄为无人机的密集回报函数，惩罚程度随着无人机的目标角速度α的增大而增加；无人机i的奖励R_i由R₁ R₂ R₃ R₄经过不同的权重ω₁ ω₂ ω₃ ω₄加权求和得到。

进一步的，所述步骤S3具体包括：

(1)构建MADDPG算法中的策略网络：无人机i的策略网络μ_i由输入层、隐藏层和输出层组成，输入为无人机i的状态向量s_i，输出为无人机i的动作向量a_i＝μ_i(s_i)；

(2)构建MADDPG算法的评价网络：无人机i的评价网络

由输入层、隐藏层和输出层组成，输入为所有无人机的状态向量x＝(s₁,…,s_n)和所有无人机根据各自的策略网络得到的动作a₁,…,a_n，输出为无人机i的动作值函数，为集中的动作值函数

(3)构建目标神经网络：对于无人机i，将策略网络μ_i和评价网络

的参数复制到各自对应的目标网络中，即

其中

分别表示当前策略网络和评价网络的参数，

分别表示目标策略网络和目标评价网络的参数。

进一步的，所述步骤S4具体包括：

(1)初始化所有网络的参数

清空各自的经验回放集合；

(2)设置训练总回合数，开始迭代；

(3)对于每一架无人机，在当前策略网络基于状态s_i得到

(4)对于每一架无人机执行动作a_i，得到新的状态s′_i和各自的奖励R_i，并且将(s,s′,a₁,…a_n,r₁,…r_n)加入到经验回放集合中；

(5)对于每一架无人机从经验回放集合M中采样m个样本开始更新网络；

(6)通过目标策略网络计算下一时刻采取的最佳的动作

(7)通过目标评价网络计算近似的真实价值，输入为状态和动作，输出为

(8)以

作为损失函数对当前评价网络进行更新；

(9)通过

对当前策略网络进行更新；

(10)如果迭代次数达到网络参数更新的频率，则更新目标评价网络和目标策略网络参数：

更新方式为软更新，其中θ为软更新比例系数。

进一步的，所述步骤S4中神经网络的超参数包括：

策略网络和评价网络，选用全连接神经网络，都采用Adam优化器进行训练；

设置策略网络和评价网络的基础参数，所述基础参数包括：隐藏层层数、激活函数、学习率、批量更新的样本数量和奖励函数中各奖励权重。

进一步的，策略网络设置为：包括两层隐藏层，隐藏层的激活函数都为relu函数，第一层为64个节点，第二层为32个节点，输出层为1个节点，即无人机采取的动作，输出层采用的激活函数为tanh函数，策略网络的学习率为0.001；评价网络设置为：包括两层隐藏层，隐藏层的激活函数都为relu函数，节点数都为64，输出层为1个节点，即Q值函数，输出层的激活函数为线性函数y＝x+b，b为偏置参数，评价网络的学习率为0.0001；设定随机采样经验进行批量更新的样本数量为N＝128。

本发明第二方面提出了一种基于多智能体强化学习的无人机协同控制训练***，用于实现本发明第一方面任一技术方案所述的基于多智能体强化学习的无人机协同控制训练方法，包括：

任务模型数据采集模块，用于对任务中的多无人机环境的数据加工预处理，将环境中的各无人机的观测空间、全局的状态空间进行编码处理，转化为神经网络可识别的向量特征；

神经网络构建模块，用于根据任务模型构建MADDPG神经网络，接收由任务模型数据采集模块传入的向量特征；

参数调整模块，用于设置神经网络的超参数，所述超参数包括隐藏层层数、激活函数、学习率、批量更新的样本数量，及奖励函数中的奖励权重；

和主控单元，用于将MADDPG算法神经网络加载到无人机群中，执行无人机集群协同控制，将所述神经网络输出的动作映射为对应的无人机的控制指令。

本发明的基于多智能体强化学习的无人机协同控制训练方法，提高了策略的鲁棒性，可训练出适应性更强和灵活性更高的优秀策略，在多无人机协同控制的场景中有很好的应用前景。

附图说明

图1为本发明的方法流程示意图。

图2为本发明的***结构示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

如图1所示，本发明提出了一种基于多智能体强化学习的无人机协同控制训练方法，包括以下步骤：

步骤一：建立大规模无人机集群任务模型。

具体包括：设定无人机为圆形的智能体，无人机i的半径为r_i；设定障碍物的形状为圆形，障碍物半径为r_o，无人机与障碍物的碰撞距离为D_io＝r_i+r_o；无人机i的目标位置为一个圆形空间，半径为r_ig，当无人机i接触到目标范围，即无人机i的中心位置与目标范围中心位置的距离D_io≤r_i+r_o时，即判定无人机i成功到达目标位置；

无人机i的位置设置为P_i＝[x_i,y_i]^T，无人机的通信距离表示为L_c，无人机的通信范围以无人机中心为圆心，以L_c为半径的圆形；在无人机的通信范围内，无人机能感知到其他无人机或者障碍物信息。

步骤二：根据任务模型建立马尔科夫博弈模型。

具体包括：

(1)对马尔科夫博弈模型的表示用五元组<N,S,A,P,R>来表示，每个分量具体解释如下：N＝{1,2,...,n}，表示n个无人机的集合；S为联合状态，S＝s₁×s₂×…×s_n，表示所有无人机的状态的笛卡尔积，其中S_i代表着无人机i的状态；A为联合动作，A＝a₁×a₂×...×a_n，表示所有无人机的动作的笛卡尔积，a_i表示无人机i的动作；

P:S×A×S→[0,1]为状态转移模型，表示所有的无人机在当前状态采取联合动作到达下一状态的概率值；为联合奖励，即所有无人机奖励函数的笛卡尔积，R＝R₁×R₂×...×R_n其中R_i表示无人机i与环境交互获得的奖励值；

(3)设定无人机的动作空间，对于无人机i，动作空间为a_i＝(ω_it)，ω_it为t时刻无人机i的角速度值，由于无人机的飞行约束和障碍物的限制，不同时刻的可选择动作是不同的，无人机只能从当前动作空间中选取动作。

R₁＝10+R_it，

R₂＝-20，

R₃＝-2^|α|+l-τ，

R₄＝-2^|α|+1，

R_i＝ω₁R₁+ω₂R₂+ω₃R₃+ω₄R₄，

其中，R₁表示无人机到达目标时的奖励值，

表示无人机以u_i的线速度沿着直线到达目标位置时所需的最短时间，P_io和P_ig分别为无人机的初始位置和目标位置；R₂为无人机碰撞时的惩罚值；R₃为碰撞预警，选取通信距离l的通信范围内距无人机最近的障碍物或者其他无人机作为危险物体，在当前时刻的无人机与前方危险物体之间的欧氏距离小于上一时刻无人机与前方危险物体的欧氏距离时，给予相应的惩罚；R₄为无人机的密集回报函数，惩罚程度随着无人机的目标角速度α的增大而增加；无人机i的奖励R_i由R₁ R₂ R₃ R₄经过不同的权重ω₁ω₂ω₃ω₄加权求和得到。

步骤三：构建MADDPG(多智能体强化学习)算法神经网络。

具体包括：

(1)构建MADDPG算法中的策略网络(Actor)：无人机i的策略网络μ_i由输入层、隐藏层和输出层组成，输入为无人机i的状态向量s_i，输出为无人机i的动作向量a_i＝μ_i(s_i)；

(2)构建MADDPG算法的评价网络(Critic)：无人机i的评价网络

的参数复制到各自对应的目标网络中，即

其中

分别表示当前策略网络和评价网络的参数，

分别表示目标策略网络和目标评价网络的参数。

步骤四：训练MADDPG算法神经网络。

具体包括：

(1)初始化所有网络的参数

清空各自的经验回放集合；

(2)设置训练总回合数，开始迭代；

(3)对于每一架无人机，在当前策略网络基于状态s_i得到

(6)通过目标策略网络计算下一时刻采取的最佳的动作

(8)以

作为损失函数对当前评价网络进行更新；

(9)通过

对当前策略网络进行更新；

更新方式为软更新，其中θ为软更新比例系数。

在训练过程中，需要对神经网络超参数进行设置。

具体包括：

设置策略网络和评价网络的隐藏层层数、激活函数、学习率、批量更新的样本数量等参数，及对奖励函数中各奖励权重进行调整。

以下给出了一组参数设置示例：

策略网络包括两层隐藏层，隐藏层的激活函数都为relu函数，第一层为64个节点，第二层为32个节点，输出层为1个节点，即无人机采取的动作，输出层采用的激活函数为tanh函数，策略网络的学习率为0.001。

评价网络同样包括两层隐藏层，隐藏层的激活函数都为relu函数，节点数都为64，输出层为1个节点，即Q值函数，输出层的激活函数为线性函数y＝x+b，b为偏置参数，评价网络的学习率为0.0001。设定随机采样经验进行批量更新的样本数量为N＝128。

步骤六：将MADDPG算法神经网络加载到无人机群中，执行无人机集群协同控制，将所述神经网络输出的动作映射为对应的无人机的控制指令。具体为：将保存好的策略网络和评价网络参数数据加载至无人机集群中，使多无人机根据训练好的网络执行飞行动作，完成大规模无人机运动规划任务。

如图2所示，本发明还提出了一种用于实现上述实施例所述方法的***，包括：

任务模型数据采集模块10，用于对任务中的多无人机环境的数据加工预处理，将环境中的各无人机的观测空间、全局的状态空间进行编码处理，转化为神经网络可识别的向量特征；

神经网络构建模块20，用于根据任务模型构建MADDPG神经网络，设置隐藏层维度，可接收来自环境的编码信息；

参数调整模块30，用于设置神经网络的超参数，包括：针对网络结构设置不同的隐藏层层数，更换不同激活函数，控制网络的学习率，设置批量更新的样本数量；也可对奖励函数中各奖励权重进行调整提升协同控制效果；

和主控单元40，用于将MADDPG算法神经网络加载到无人机群中，执行无人机集群协同控制，将所述神经网络输出的动作映射为对应的无人机的控制指令。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(***)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

本发明的保护内容不局限于以上实施例。在不违背发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于多智能体强化学习的无人机协同控制训练方法，其特征在于，包括：

步骤S1：建立大规模无人机集群的任务模型；

步骤S2：根据任务模型建立马尔科夫博弈模型；

步骤S3：构建MADDPG算法神经网络；

步骤S4：训练MADDPG算法神经网络；

2.如权利要求1所述的基于多智能体强化学习的无人机协同控制训练方法，其特征在于，所述步骤S1具体包括：

(2)环境约束：

d_i,g≥d_init

其中，d_init为成功完成任务的有效距离；

高度与边界约束：其飞行高度满足如下约束：

h_min≤h≤h_max

其中，h_min为最低飞行高度，h_max为最大飞行高度；

|v_x,y,z|≤v_maxx,y,z，

|a_x,y,z|≤a_maxx,y,z；

障碍物约束：无人机与障碍物的距离l满足：

l≥R_saft+l_min+R_UAV

3.如权利要求1所述的基于多智能体强化学习的无人机协同控制训练方法，其特征在于，所述步骤S2具体包括：

(1)采用五元组<N,S,A,P,R>表示马尔科夫博弈模型，其中：N＝{1,2,...,n}，表示n个无人机的集合；S为联合状态，S＝s₁×s₂×...×s_n，表示所有无人机的状态的笛卡尔积，其中的S_i代表着无人机i的状态；A为联合动作，A＝a₁×a₂×...×a_n，表示所有无人机的动作的笛卡尔积，其中的a_i表示无人机i的动作；P:S×A×S→[0,1]为状态转移模型，表示所有的无人机在当前状态采取联合动作到达下一状态的概率值；R为联合奖励，即所有无人机奖励函数的笛卡尔积，R＝R₁×R₂×...×R_n，其中的R_i表示无人机i与环境交互获得的奖励值；

(4)设定无人机的奖励函数。

4.如权利要求3所述的基于多智能体强化学习的无人机协同控制训练方法，其特征在于，所述步骤(4)中无人机i的奖励函数具体设置如下：

R₁＝10+R_it，

R₂＝-20，

R₃＝-2^|α|+l-τ，

R₄＝-2^|α|+1，

R_i＝ω₁R₁+ω₂R₂+ω₃R₃+ω₄R₄，

其中，R₁表示无人机到达目标时的奖励值，

表示无人机以u_i的线速度沿着直线到达目标位置时所需的最短时间，P_io和P_ig分别为无人机的初始位置和目标位置；R₂为无人机碰撞时的惩罚值；R₃为碰撞预警，选取通信距离l的通信范围内距无人机最近的障碍物或者其他无人机作为危险物体，在当前时刻的无人机与前方危险物体之间的欧氏距离小于上一时刻无人机与前方危险物体的欧氏距离时，给予相应的惩罚；R₄为无人机的密集回报函数，惩罚程度随着无人机的目标角速度α的增大而增加。

5.如权利要求1所述的基于多智能体强化学习的无人机协同控制训练方法，其特征在于，所述步骤S3具体包括：

(2)构建MADDPG算法的评价网络：无人机i的评价网络

的参数复制到各自对应的目标网络中，即

其中

分别表示当前策略网络和评价网络的参数，

分别表示目标策略网络和目标评价网络的参数。

6.如权利要求5所述的一种基于多智能体强化学习的无人机协同控制训练方法，其特征在于，所述步骤S4具体包括：

(1)初始化所有网络的参数

清空各自的经验回放集合；

(2)设置训练总回合数，开始迭代；

(3)对于每一架无人机，在当前策略网络基于状态s_i得到

(6)通过目标策略网络计算下一时刻采取的最佳的动作

(8)以

作为损失函数对当前评价网络进行更新；

(9)通过

对当前策略网络进行更新；

更新方式为软更新，其中

为软更新比例系数。

7.如权利要求1所述的基于多智能体强化学习的无人机协同控制训练方法，其特征在于，所述步骤S4中神经网络的超参数包括：

8.如权利要求7所述的基于多智能体强化学习的无人机协同控制训练方法，其特征在于，策略网络设置为：包括两层隐藏层，隐藏层的激活函数都为relu函数，第一层为64个节点，第二层为32个节点，输出层为1个节点，即无人机采取的动作，输出层采用的激活函数为tanh函数，策略网络的学习率为0.001；评价网络设置为：包括两层隐藏层，隐藏层的激活函数都为relu函数，节点数都为64，输出层为1个节点，即Q值函数，输出层的激活函数为线性函数y＝x+b，b为偏置参数，评价网络的学习率为0.0001；设定随机采样经验进行批量更新的样本数量为N＝128。

9.一种基于多智能体强化学习的无人机协同控制训练***，其特征在于，用于实现权利要求1-8任一项所述的基于多智能体强化学习的无人机协同控制训练方法，包括：