CN112947562A

CN112947562A - 一种基于人工势场法和maddpg的多无人机运动规划方法

Info

Publication number: CN112947562A
Application number: CN202110183956.XA
Authority: CN
Inventors: 万开方; 武鼎威; 高晓光; 胡子剑
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2021-06-11
Anticipated expiration: 2041-02-10
Also published as: CN112947562B

Abstract

本发明公开了一种基于人工势场法和MADDPG的多无人机运动规划方法，该方法在原有多无人机探索环境经验的基础上，增加了通过人工势场法将多无人机成功规划至目标的高质量经验，在通过MADDPG算法训练时，以一定的概率分别从探索环境经验和高质量经验中采集样本，以每个无人机的自身状态信息和环境信息作为神经网络的输入，以多无人机的速度作为输出，完成运动规划策略的训练，实现多无人机在复杂环境下自主避障并安全快速地到达目标位置。本发明方法充分地学习到多无人机在不同状态和不同动作时的Q值，提高了策略的鲁棒性，训练出适应性更强和灵活性更高的优秀策略，在多无人机协同运动规划的场景中有很好的应用前景。

Description

一种基于人工势场法和MADDPG的多无人机运动规划方法

技术领域

本发明属于无人机技术领域，具体涉及一种多无人机运动规划方法。

背景技术

随着科学技术的不断发展和完善，多无人机运动规划技术，即实现多个无人机高效避障的路径规划技术，已经广泛应用在人类生产和生活的各个方面，在军民技术融合和工业效率革新中发挥着重要作用。传统的多无人机运动规划方法致力于在环境完全可知且基本固定，并且无人机定位准确且满足相关的运动轨迹的情况下，利用一些搜索算法和规划算法，计算出一条较优的路径，例如A*算法、人工势场法(Artificial Potential Field，简称APF)及向量场直方图算法(VFH+)等。这些方法通常容易受到无法预料的干扰，任何不完整的感知、有偏差的估计或不正确的模型都将导致性能不佳。此外，多无人机在实际运动的过程中环境处于动态、复杂且未知的状态，此时环境的状态转换模型通常是未知的，同时对运动路径进行规划时要综合考虑多无人机的机动性能、任务时间以及躲避障碍等多种因素，所以基于模型的传统算法无法迅速地根据环境的变化决策出最优的规划动作。因此，发明一种更智能的多无人机运动规划方法，使多无人机在复杂动态环境高效实现相互协调和安全避障具有重要意义。

多智能体深度强化学***稳性问题，为多智能体强化学习提供了优秀的基础框架。然而该算法在应用于数量较多的智能体运动规划时，普遍存在联合空间维数过大的问题，同时训练周期明显加长，难以收敛，甚至存在训练的模型稳定性和动态适应性极差的问题，难以适用于动态复杂的环境，具有一定的局限性。

人工势场法是一种经典的智能体运动规划算法，它将目标和障碍物分别看作对智能体有引力和斥力的物体，使智能体沿引力与斥力的合力来进行运动，可以简单高效地将智能体规划至目标位置。将MADDPG算法和人工势场法的优势相结合，设计一种收敛性和适应性强大的多无人机运动规划方法，对于多无人机在动态复杂的环境中高效地完成运动规划具有重要意义。

发明内容

为了克服现有技术的不足，本发明提供了一种基于人工势场法和MADDPG的多无人机运动规划方法，该方法在原有多无人机探索环境经验的基础上，增加了通过人工势场法将多无人机成功规划至目标的高质量经验，在通过MADDPG算法训练时，以一定的概率分别从探索环境经验和高质量经验中采集样本，以每个无人机的自身状态信息和环境信息作为神经网络的输入，以多无人机的速度作为输出，完成运动规划策略的训练，实现多无人机在复杂环境下自主避障并安全快速地到达目标位置。本发明方法充分地学习到多无人机在不同状态和不同动作时的Q值，提高了策略的鲁棒性，训练出适应性更强和灵活性更高的优秀策略，在多无人机协同运动规划的场景中有很好的应用前景。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1：建立多无人机和障碍物模型；

步骤1-1：设定无人机和障碍物的物理模型：

设定无人机为圆形的智能体，无人机i的半径为r_i；设定障碍物形状为圆形，障碍物半径为r_o，无人机与障碍物的碰撞距离D_io＝r_i+r_o；无人机i的目标位置为一个圆形空间，半径为r_ig，当无人机i接触到目标范围，即无人机i中心位置与目标范围中心位置的距离D_ig≤r_i+r_ig时，即判定无人机i成功到达目标位置；

无人机i的位置设置为P_i＝[x_i y_i]^T，无人机的通信距离表示为L_c，无人机的通信范围为以无人机中心为圆心，以L_c为半径的圆形；在无人机的通信范围内，无人机能感知到其它无人机或障碍物的信息；

无人机i运动的线速度表示为u_i，无人机i与X轴正方向的夹角为ψ_i，ψ_i的范围为(-π,π]；α_i为目标速度角，目标速度角表示以无人机i中心为原点，以无人机i到无人机i的目标的方向为正方向建立极坐标系时的无人机i速度矢量与极坐标正方向的夹角值，α_i范围为(-π,π]；ω_i表示无人机i运动角速度；

步骤1-2：设定无人机和障碍物的运动模型：

设定无人机和障碍物在二维空间中运动，单个无人机的运动模型表示为：

其中，

和

分别为无人机沿X、Y轴的速度分量，

为无人机的角速度，ψ为无人机与X轴正方向的夹角，u为无人机运动的线速度，ω表示无人机运动的角速度；

设定无人机下一时刻位置为P′＝[x′ y′]^T，无人机下一时刻与X轴正方向的夹角为ψ′，运动间隔时间为Δt，则下一时刻无人机的状态如下：

障碍物的运动模型与无人机相同；

步骤2：构建用于多无人机运动规划的马尔科夫博弈模型；

步骤2-1：马尔科夫博弈模型用五元组<N,S,A,P,R>来描述，每个分量具体解释如下：N＝{1,2,…,n}，表示n个无人机的集合；S为联合状态，S＝s₁×s₂×…×s_n，表示所有无人机的状态的笛卡尔积，其中s_i代表着无人机i的状态；A为联合动作，A＝a₁×a₂×…×a_n，表示所有无人机的动作的笛卡尔积，a_i表示无人机i的动作；P:S×A×S→[0,1]为状态转移模型，表示所有的无人机在当前状态采取联合动作到达下一状态的概率值；R为联合奖励，即所有无人机奖励函数的笛卡尔积，R＝R₁×R₂×…×R_n，其中R_i表示无人机i与环境交互获得的奖励值；

步骤2-2：设定无人机的状态空间：

在极坐标系下设置每个无人机的状态空间；

将无人机i中心作为原点，无人机i到自身目标的方向看作正方向建立极坐标系，则无人机i的状态表示为：s_i＝(s,s_U,s_E)，其中，s＝(P_ix,P_iy,P_igx,P_igy)为无人机i和目标的位置信息，P_ix,P_iy为无人机i的位置信息，P_igx,P_igy为无人机i的目标的位置信息；s_U＝(P_jx,P_jy)表示在无人机i的通讯范围内距离它最近的无人机j的位置信息，如果通讯范围内无其他无人机，则s_U＝(0,0)；s_E＝(P_kx,P_ky)表示在无人机i的通讯范围内距离无人机i最近的障碍物的位置信息，如果通讯范围内无其他障碍物，则s_E＝(0,0)；

步骤2-3：设定无人机的动作空间：

将无人机设定为匀速运动状态，无人机i的动作空间设置为：a_i＝(ω_it)，ω_it为t时刻无人机i的角速度值；

步骤2-4：设定无人机的奖励函数：

无人机i的奖励函数具体设置如下：

其中，式(1)表示无人机到达目标时的奖励值，

表示无人机到达目标消耗时间的惩罚值，W_t表示惩罚程度的参数值，T_i为无人机到达目标消耗的具体时间值，

表示无人机以u_i的线速度沿直线到达目标位置时所需的最短时间，P_i0和P_ig分别表示无人机的初始位置和目标位置；式(2)为无人机在碰撞情况下的奖励值；式(3)为碰撞预警，选取通信距离L_c的通信范围内距无人机最近的障碍物或者其他无人机作为危险障碍物，当前时刻无人机与危险障碍物之间的欧氏距离为D_iod，当无人机与危险障碍物之间在下一时刻的欧氏距离D′_iod小于D_iod时，在式(4)的基础上给予负常数τ作为惩罚；式(4)为无人机的密集回报函数，惩罚程度随着无人机的目标速度角α的增大而增加；

步骤3：构建MADDPG算法神经网络：

步骤3-1：构建MADDPG算法中的Actor策略网络：

无人机i的策略网络μ_i由输入层、隐藏层和输出层组成，输入为无人机i的状态向量s_i，输出为无人机i的动作向量a_i＝μ_i(s_i)；

步骤3-2：构建MADDPG算法中的Critic评价网络：

无人机i的评价网络

由输入层、隐藏层和输出层组成，输入为所有无人机的状态向量x＝(s₁,…,s_n)和所有无人机根据各自的策略网络得到的动作a₁,…,a_n，输出为无人机i的动作值函数，为集中的动作值函数

步骤3-3：构建目标神经网络：

对于无人机i，将策略网络μ_i和评价网络

的参数复制到各自对应的目标网络中，即

其中

分别表示当前策略网络和评价网络的参数，

分别表示目标策略网络和目标评价网络的参数；

步骤4：定义MADDPG算法训练多无人机的避障运动策略实现方式；

步骤4-1：设置无人机和障碍物的物理模型和运动模型，设定无人机和障碍物的半径大小和碰撞距离、设定无人机的速度大小和通信距离以及设定目标范围的半径大小，同时设定经验池的容量大小M以及训练步长Δt；

步骤4-2：设定策略网络和评价网络的超参数，包括学习率、网络层数和节点数、激活函数、抽样训练的样本数量N以及训练优化器；

步骤4-3：初始化噪声向量

和训练环境，在设定的训练环境内随机设置无人机和障碍物的初始位置，初始化网络参数和所有无人机的状态信息；设定选取动作方式的概率值p₀并生成一个随机数p，p∈[0,1]；

步骤4-4：对所有无人机选择动作的方式进行判定，如果p≤p₀，则转到步骤4-5；如果p>p₀，则转到步骤4-6；

步骤4-5：根据人工势场法，对于每个无人机通过其状态信息选择动作，最终将所有无人机规划至目标；具体方式为：

计算无人机i在位置P_i＝[x_i y_i]^T时所受到的来自目标位置的引力

同时计算受到通信范围内其他无人机或障碍物对它施加的合斥力

之后计算它受到的合力

表示为：

其中，N_i为无人机i的相邻物体的集合，相邻物体为无人机i通信范围内的其它无人机或者障碍物，σ_ij为碰撞函数，表示相邻物体中的每一个成员对于无人机i所受斥力的影响程度；

获得无人机i受到的合力

之后，设置无人机i的线速度u_i为常数值，根据控制率获得它采取的动作a_i，即无人机i的角速度ω_i，表达式为：

其中k_ω为角速度控制常数，

表示合力

的方向角度，

表示合力

在X方向的分量，

表示合力

在Y方向的分量，

表示在位置P_i时

对时间的导数值，表达式如下：

步骤4-6：根据策略网络，通过每个无人机的状态信息选择动作；具体如下：

对于无人机i，通过其策略网络μ_i，根据无人机i的状态信息s_i选择动作a_i，表达式为：

其中，

代表确定性策略函数；

步骤4-7：根据所有无人机的动作信息与环境交互，对于无人机i，获得其奖励函数值R_i和下一时刻的状态信息s′_i；

步骤4-8：计算所有无人机的状态向量x、下一时刻的状态向量x′、所有动作a以及所有奖励函数值R，将样本(x,a,R,x′)存入经验池；之后更新所有无人机的状态信息，对于无人机i，即s′_i→s_i；

步骤4-9：判断经验池的样本数量M_n是否到达M，如果M_n<M，则转到步骤4-4；如果M_n≥M，则转到步骤4-10；

步骤4-10：从经验池中随机抽取N个样本通过目标神经网络进行训练，对于无人机i，设定网络更新目标为：

其中，R_i为无人机i在该时刻的奖励值，γ为折扣系数，

为目标策略网络集合，

表示根据下一时刻的状态信息集采取策略集μ′采取动作集得到的动作值函数；

步骤4-11：根据最小损失函数更新评价网络参数：

其中

表示Loss损失函数；

步骤4-12：根据梯度下降更新策略网络参数：

其中，

表示在策略网络参数

下的策略梯度，

和

分别表示评价网络动作值函数梯度和策略网络策略函数梯度，μ_i(a_i|s_i)表示策略网络在状态s_i时选取的动作策略得到的动作，

表示状态s_i下采取动作a_i＝μ_i(s_i)时评价网络的动作值函数；

步骤4-13：对目标评价网络和目标策略网络的参数更新，表达式为：

更新方式为软更新，其中

为软更新比例系数；

步骤5：在多无人机运动规划的任务场景中通过MADDPG算法训练多无人机的避障运动策略：

步骤5-1：设定训练回合数E和每个回合内的最大训练时间T；

步骤5-2：令训练时间t加Δt，并对t进行判定：若t<T，进入步骤4-4，继续在当前回合内对所有无人机进行训练；否则，进入步骤5-3；

步骤5-3：令训练回合数e加1，并对e进行判定：若e<E，则进入步骤4-3，在第e+1回合对所有无人机进行训练；否则，进入步骤5-4；

步骤5-4：迭代终止，终止目标神经网络训练过程，并保存当前策略网络和评价网络的参数数据；将保存好的网络数据加载至多个无人机之中，使多无人机根据训练好的网络执行飞行动作，完成多无人机运动规划任务。

优选地，所述步骤4-1中设置无人机和障碍物的物理模型和运动模型，具体为：设定无人机的半径r_i＝0.5m，障碍物的半径r_o＝0.5m，则碰撞距离D_io＝1.0m；设定障碍物为随机运动，在t时刻线速度u_io为[0,0.25m/s]内的随机值，角速度ω_io为

设定目标范围的半径r_ig＝1.0m，则无人机的到达距离D_ig0＝r_i+r_ig为1.5m；设定无人机为在二维空间匀速运动，速度大小为u_i＝1.0m/s，无人机的通信距离L_c＝5m，同时设定经验池的容量大小M＝20000以及训练步长Δt＝0.5s。

优选地，所述步骤4-2中设定策略网络和评价网络的超参数，具体设置为：策略网络和评价网络选用全连接神经网络，都采用Adam优化器进行训练；策略网络包括两层隐藏层，激活函数都为relu函数，第一层为64个节点，第二层为32个节点，输出层为1个节点，即无人机采取的动作，采用的激活函数为tanh函数，策略网络的学习率为0.001；评价网络同样包括两层隐藏层，激活函数都为relu函数，节点数都为64，输出层为1个节点，即Q值函数，激活函数为线性函数y＝x+b，b为偏置参数，评价网络的学习率为0.0001；设定随机采样经验进行批量更新的样本数量为N＝128。

优选地，所述

W_t＝0.1，α∈(-π,π]，τ＝1.0，γ＝0.95，

本发明的有益效果如下：

1、本发明方法有更好的经验生成方式。相比与原始MADDPG算法，本发明方法中无人机不仅仅根据训练的策略选择动作，还会根据人工势场法选择动作，因此，经验池中包含多无人机探索训练经验和人工势场法规划经验，上述的人工势场法已经被证实可以成功将多无人机规划至目的地，会获得较高的奖励值，以及较优的Q值，可作为多无人机学习的正向经验，极大地提升正向反馈在经验池中的比例，加速神经网络的训练速度，加快算法的收敛速率。

2、本发明方法有更好的经验混合策略。在每个训练回合内，会以参数p₀的概率根据人工势场法选择动作，以参数1-p₀的概率根据策略网络选择动作，不仅可以使神经网络学习到比较优秀的策略，而且可以使多无人机全面地探索和认知所处的环境，充分地学习到多无人机在不同状态和不同动作时的Q值，提高策略的鲁棒性，训练出适应性更强和灵活性更高的优秀策略。该过程中的环境较为复杂，在多无人机协同运动规划的场景中有很好的应用前景。

附图说明

图1为本发明基于人工势场法和MADDPG的多无人机运动策略训练流程图。

图2为本发明多无人机和障碍物的运动模型示意图。

图3为本发明基于人工势场法和MADDPG的多无人机运动规划方法结构图。

图4为本发明多无人机训练的环境初始图。

图5为本发明MADDPG和人工势场法辅助的MADDPG两种方法训练过程中多无人机每回合获得的平均奖励变化曲线图。

图6为本发明多无人机在特定环境完成运动规划的轨迹展示图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1所示，一种基于人工势场法和MADDPG的多无人机运动规划方法，包括以下步骤：

步骤1：建立多无人机和障碍物模型，模型示意图如图2所示；

步骤1-1：设定无人机和障碍物的物理模型：

步骤1-2：设定无人机和障碍物的运动模型：

其中，

和

分别为无人机沿X、Y轴的速度分量，

障碍物的运动模型与无人机相同；

步骤2：构建用于多无人机运动规划的马尔科夫博弈模型；

步骤2-2：设定无人机的状态空间：

在极坐标系下设置每个无人机的状态空间；

将无人机i中心作为原点，无人机i到自身目标的方向看作正方向建立极坐标系，则无人机i的状态表示为：s_i＝(s,s_U,s_E)，其中，s＝(P_ix,P_iy,P_igx,P_igy)为无人机i和目标的位置信息，P_ix,P_iy为无人机i的位置信息，P_igx,P_igy为无人机i的目标的位置信息；s_U＝(P_jx,P_jy)表示在无人机i的通讯范围内距离它最近的无人机j的位置信息，如果通讯范围内无其他无人机，则s_U＝(0,0)；s_E＝(P_kx,P_ky)表示在无人机i的通讯范围内距离无人机i最近的障碍物的位置信息，如果通讯范围内无其他障碍物，则s_E＝(0,0)；在设定状态空间时，需根据环境的空间对各个状态分量进行归一化处理；

步骤2-3：设定无人机的动作空间：

无人机的动作空间表示无人机在接受到外界反馈值之后，针对自身状态值所采取的动作集；将无人机设定为匀速运动状态，无人机i的动作空间设置为：a_i＝(ω_it)，ω_it为t时刻无人机i的角速度值；

步骤2-4：设定无人机的奖励函数：

本发明利用传感器获取无人机的状态信息，根据无人机与其目标位置的距离和无人机与通信范围内障碍物的距离设置奖励函数，得到每个无人机的奖励函数，用来表示无人机在当前状态下选取某一动作时所获得的反馈值。由于多无人机的目标都是在避障的同时快速到达目标位置，因此对所有无人机设置相同的奖励函数；

无人机i的奖励函数具体设置如下：

其中，式(1)表示无人机到达目标时的奖励值，

表示无人机以u_i的线速度沿直线到达目标位置时，所需的最短时间，P_i0和P_ig分别表示无人机的初始位置和目标位置；式(2)为无人机在碰撞情况下的奖励值；

式(3)为碰撞预警，选取通信距离L_c的通信范围内距无人机最近的障碍物或者其他无人机作为危险障碍物，当前时刻无人机与危险障碍物之间的欧氏距离为D_iod，当无人机与危险障碍物之间在下一时刻的欧氏距离D′_iod小于D_iod时，在式(4)的基础上给予负常数τ作为惩罚；式(4)为无人机的密集回报函数，惩罚程度随着无人机的目标速度角α的增大而增加；当目标速度角α较小时，无人机得到的奖励值较大，惩罚程度较小，当α较大并且超过1时，无人机得到的奖励值会以指数形式减少，惩罚程度快速增大，其中目标速度角α的取值范围为(-π,π]；

步骤3：构建MADDPG算法神经网络：

步骤3-1：构建MADDPG算法中的Actor策略网络：

步骤3-2：构建MADDPG算法中的Critic评价网络：

无人机i的评价网络

步骤3-3：构建目标神经网络：

对于无人机i，将策略网络μ_i和评价网络

的参数复制到各自对应的目标网络中，即

其中

分别表示当前策略网络和评价网络的参数，

分别表示目标策略网络和目标评价网络的参数；

步骤4：定义MADDPG算法训练多无人机的避障运动策略实现方式，该方法的基本框架结构图如图3所示；

步骤4-1：设置无人机和障碍物的物理模型和运动模型，具体为：设定无人机的半径r_i＝0.5m，障碍物的半径r_o＝0.5m，则碰撞距离D_io＝1.0m；设定障碍物为随机运动，在t时刻线速度u_io为[0,0.25m/s]内的随机值，角速度ω_io为

设定目标范围的半径r_ig＝1.0m，则无人机的到达距离D_ig0＝r_i+r_ig，为1.5m；设定无人机为在二维空间匀速运动，速度大小为u_i＝1.0m/s，无人机的通信距离L_c＝5m，同时设定经验池的容量大小M＝20000以及训练步长△t＝0.5s；

步骤4-2：设定策略网络和评价网络的超参数，具体设置为：策略网络和评价网络选用全连接神经网络，都采用Adam优化器进行训练。策略网络包括两层隐藏层，激活函数都为relu函数，第一层为64个节点，第二层为32个节点，输出层为1个节点，即无人机采取的动作，采用的激活函数为tanh函数，策略网络的学习率为0.001；评价网络同样包括两层隐藏层，激活函数都为relu函数，节点数都为64，输出层为1个节点，即Q值函数，激活函数为线性函数y＝x+b，b为偏置参数，评价网络的学习率为0.0001。设定随机采样经验进行批量更新的样本数量为N＝128；

步骤4-3：初始化噪声向量

和训练环境，设定多无人机运动的环境是半径为50m的圆内，环境初始图如图4所示，图中小型黑色圆表示无人机的位置P_i，较大的黑色圆表示无人机的目标位置P_ig，黑色叉形为障碍物的位置P_io。在设定的环境内随机设置无人机和障碍物的初始位置，如果无人机运动至该环境外，则视为发生碰撞。初始化策略网络和评价网络以及目标策略网络和目标评价网络的参数，根据所有无人机的初始位置得到它们的初始状态信息。设定选取动作方式的概率值p₀，本发明设定p₀＝0.1，并生成一个随机数p，p∈[0,1]；

对于无人机i，计算其在位置P_i＝[x_i y_i]^T时所受到的来自目标位置P_ig＝[x_ig y_ig]^T的引力

表达式如下：

其中||P_i-P_ig||为无人机和目标的欧氏距离，D_ig0＝r_i+r_ig为无人机的到达距离，即为1.5m。对引力求X轴和Y轴的分量，表达式为：

计算引力的同时计算无人机i受到通信范围内相邻物体j对它施加的合斥力

相邻物体为在无人机位置的通信范围内的其他无人机和障碍物的集合。在无人机i的相邻物体中，无人机受到来自相邻物体j的斥力为

在X轴和Y轴的分量表示为：

之后计算它受到的合力

解析表达式如下：

其中，N_i为无人机i的相邻物体的集合，相邻物体为无人机i通信范围内的无人机或者障碍物，σ_ij为碰撞函数，表示相邻物体中的每一个成员对于无人机i所受斥力的影响程度，定义为如下表达式：

d_ig为无人机i与相邻物体j的欧氏距离，d_m为无人机i与相邻物体的最小碰撞距离，d_r为一个常数，取值范围为(d_m,L_c)。表达式中的参数a、b、c、d的计算公式与表达式如下：

获得无人机i受到的合力

之后，设置无人机i的线速度u_i为常数值，根据控制率便可获得它采取的动作a_i，即无人机i的角速度ω_i，表达式为：

其中k_ω为角速度控制常数，ψ_i表示无人机i的角度值，

表示合力

的方向角度，

表示在位置P_i时，

对时间的导数值，表达式如下：

其中，

代表确定性策略函数；

其中，R_i为无人机i在该时刻的奖励值，γ为折扣系数，

为目标策略网络集合，

步骤4-11：根据最小损失函数更新评价网络参数：

其中

表示Loss损失函数；

步骤4-12：根据梯度下降更新策略网络参数：

其中，

表示在策略网络参数

下的策略梯度，

和

更新方式为软更新，其中

为软更新比例系数；

步骤5-1：设定训练回合数E和每个回合内的最大训练时间T；

步骤5-4：迭代终止，终止目标神经网络训练过程，并保存当前策略网络和评价网络的参数数据；选择图4所示的多无人机和障碍物固定初始位置的环境测试多无人机的运动规划策略，将保存好的网络数据加载至多个无人机之中，使多无人机根据训练好的网络执行合理的飞行动作，完成多无人机运动规划任务。

具体实施例：

本发明提出的基于人工势场法和MADDPG的多无人机运动规划方法，在每回合起始时初始化环境和神经网络参数，之后多无人机选择动作进行运动改变位置，得到新的状态，并将每一回合的经验保存于经验池中作为学习样本，不断迭代更新神经网络的参数。训练完成后保存网络参数，在特定环境中加载到多无人机进行测试，用以验证规划策略的适应性和高效性。本发明训练过程中选择动作依赖于参数p，多无人机利用人工势场法选择动作的概率为参数p，利用探索或者策略网络选择动作的概率为参数1-p，将人工势场法成功规划的经验和强化学习探索经验以及通过策略网络获得的经验混合存储于经验池，提高了正向反馈经验的比例，加快了强化学习训练的速度，同时提高了模型的稳定性。

在实际训练中，对比了只使用MADDPG算法和使用人工势场法辅助的MADDPG算法两种训练方式，它们在训练过程中多无人机每回合获得的奖励值变化曲线图如图5所示，其中奖励值为一次训练回合结束后所有无人机获得的所有立即奖励的平均值，虚线表示人工势场法辅助的MADDPG在训练过程中多无人机每回合获得奖励值的变化趋势，实线则表示仅使用MADDPG训练时奖励值的变化趋势。从图5中可以看出，两种方法在训练收敛后奖励值都在小幅度震荡，这是训练过程中动作加入了噪声的原因。图5中MADDPG在训练约3500回合之后才开始收敛，且收敛后获得的奖励值相比该专利方法获得的低，同时奖励值震荡幅度较大，训练的模型稳定性较差；而人工势场法辅助的MADDPG大概训练2500回合后，多无人机在每回合内能够获得高额且稳定的奖励值。同时，在训练过程中的数据能更充分的证明本发明方法的优势。在训练了10000回合之后，MADDPG获得的平均奖励值仅为-0.676，而本发明方法获得的平均奖励值为-0.218，平均奖励值提高了0.458；在两种方法都训练收敛后，MADDPG获得的平均奖励值仅为-0.272，但本发明方法获得的平均奖励值高达0.149，相比MADDPG提高了0.421。以上说明了本发明方法不仅加快了训练的收敛速率，同时还在一定程度上提高了训练模型的收敛值和稳定性，使得模型具有更好的表现效果。对多无人机规划的测试结果如图6所示，可以看出，基于本发明方法训练后的无人机，能够有效规避障碍物，顺利到达各自的目标位置，完成多无人机的运动规划任务。这表明了本发明所提出的将人工势场法成功规划的经验存入经验池并通过神经网络随机抽样训练的方式，能提高MADDPG算法的收敛速度和网络的鲁棒性，进而提升多无人机自主智能运动规划过程的高效性和稳定性。

Claims

1.一种基于人工势场法和MADDPG的多无人机运动规划方法，其特征在于，包括以下步骤：

步骤1：建立多无人机和障碍物模型；

步骤1-1：设定无人机和障碍物的物理模型：

无人机i运动的线速度表示为u_i，无人机i与X轴正方向的夹角为ψ_i，ψ_i的范围为(-π，π]；α_i为目标速度角，目标速度角表示以无人机i中心为原点，以无人机i到无人机i的目标的方向为正方向建立极坐标系时的无人机i速度矢量与极坐标正方向的夹角值，α_i范围为(-π，π]；ω_i表示无人机i运动角速度；

步骤1-2：设定无人机和障碍物的运动模型：

其中，

和

分别为无人机沿X、Y轴的速度分量，

障碍物的运动模型与无人机相同；

步骤2：构建用于多无人机运动规划的马尔科夫博弈模型；

步骤2-1：马尔科夫博弈模型用五元组<N，S，A，P，R>来描述，每个分量具体解释如下：N＝{1，2，...，n}，表示n个无人机的集合；S为联合状态，S＝s₁×s₂×...×s_n，表示所有无人机的状态的笛卡尔积，其中s_i代表着无人机i的状态；A为联合动作，A＝a₁×a₂×...×a_n，表示所有无人机的动作的笛卡尔积，a_i表示无人机i的动作；P：S×A×S→[0，1]为状态转移模型，表示所有的无人机在当前状态采取联合动作到达下一状态的概率值；R为联合奖励，即所有无人机奖励函数的笛卡尔积，R＝R₁×R₂×...×R_n，其中R_i表示无人机i与环境交互获得的奖励值；

步骤2-2：设定无人机的状态空间：

在极坐标系下设置每个无人机的状态空间；

将无人机i中心作为原点，无人机i到自身目标的方向看作正方向建立极坐标系，则无人机i的状态表示为：s_i＝(s，s_U，s_E)，其中，s＝(P_ix，P_iy，P_igx，P_igy)为无人机i和目标的位置信息，P_ix，P_iy为无人机i的位置信息，P_igx，P_igy为无人机i的目标的位置信息；s_U＝(P_jx，P_jy)表示在无人机i的通讯范围内距离它最近的无人机j的位置信息，如果通讯范围内无其他无人机，则s_U＝(0，0)；s_E＝(P_kx，P_ky)表示在无人机i的通讯范围内距离无人机i最近的障碍物的位置信息，如果通讯范围内无其他障碍物，则s_E＝(0，0)；

步骤2-3：设定无人机的动作空间：

步骤2-4：设定无人机的奖励函数：

无人机i的奖励函数具体设置如下：

其中，式(1)表示无人机到达目标时的奖励值，

步骤3：构建MADDPG算法神经网络：

步骤3-1：构建MADDPG算法中的Actor策略网络：

步骤3-2：构建MADDPG算法中的Critic评价网络：

无人机i的评价网络

由输入层、隐藏层和输出层组成，输入为所有无人机的状态向量x＝(s₁，...，s_n)和所有无人机根据各自的策略网络得到的动作a₁，...，a_n，输出为无人机i的动作值函数，为集中的动作值函数

步骤3-3：构建目标神经网络：

对于无人机i，将策略网络μ_i和评价网络

的参数复制到各自对应的目标网络中，即

其中

分别表示当前策略网络和评价网络的参数，

分别表示目标策略网络和目标评价网络的参数；

步骤4-3：初始化噪声向量

和训练环境，在设定的训练环境内随机设置无人机和障碍物的初始位置，初始化网络参数和所有无人机的状态信息；设定选取动作方式的概率值p₀并生成一个随机数p，p∈[0，1]；

步骤4-4：对所有无人机选择动作的方式进行判定，如果p≤p₀，则转到步骤4-5；如果p＞p₀，则转到步骤4-6；

之后计算它受到的合力

表示为：

获得无人机i受到的合力

其中k_ω为角速度控制常数，

表示合力

的方向角度，

表示合力

在X方向的分量，

表示合力

在Y方向的分量，

表示在位置P_i时

对时间的导数值，表达式如下：

其中，

代表确定性策略函数；

步骤4-8：计算所有无人机的状态向量x、下一时刻的状态向量x′、所有动作a以及所有奖励函数值R，将样本(x，a，R，x′)存入经验池；之后更新所有无人机的状态信息，对于无人机i，即s′_i→s_i；

步骤4-9：判断经验池的样本数量M_n是否到达M，如果M_n＜M，则转到步骤4-4；如果M_n≥M，则转到步骤4-10；

其中，R_i为无人机i在该时刻的奖励值，γ为折扣系数，

为目标策略网络集合，

步骤4-11：根据最小损失函数更新评价网络参数：

其中

表示Loss损失函数；

步骤4-12：根据梯度下降更新策略网络参数：

其中，

表示在策略网络参数

下的策略梯度，

和

更新方式为软更新，其中

为软更新比例系数；

步骤5-1：设定训练回合数E和每个回合内的最大训练时间T；

步骤5-2：令训练时间t加Δt，并对t进行判定：若t＜T，进入步骤4-4，继续在当前回合内对所有无人机进行训练；否则，进入步骤5-3；

步骤5-3：令训练回合数e加1，并对e进行判定：若e＜E，则进入步骤4-3，在第e+1回合对所有无人机进行训练；否则，进入步骤5-4；

2.根据权利要求1所述的一种基于人工势场法和MADDPG的多无人机运动规划方法，其特征在于，所述步骤4-1中设置无人机和障碍物的物理模型和运动模型，具体为：设定无人机的半径r_i＝0.5m，障碍物的半径r_o＝0.5m，则碰撞距离D_io＝1.0m；设定障碍物为随机运动，在t时刻线速度u_io为[0，0.25m/s]内的随机值，角速度ω_io为

3.根据权利要求1所述的一种基于人工势场法和MADDPG的多无人机运动规划方法，其特征在于，所述步骤4-2中设定策略网络和评价网络的超参数，具体设置为：策略网络和评价网络选用全连接神经网络，都采用Adam优化器进行训练；策略网络包括两层隐藏层，激活函数都为relu函数，第一层为64个节点，第二层为32个节点，输出层为1个节点，即无人机采取的动作，采用的激活函数为tanh函数，策略网络的学习率为0.001；评价网络同样包括两层隐藏层，激活函数都为relu函数，节点数都为64，输出层为1个节点，即Q值函数，激活函数为线性函数y＝x+b，b为偏置参数，评价网络的学习率为0.0001；设定随机采样经验进行批量更新的样本数量为N＝128。

4.根据权利要求1所述的一种基于人工势场法和MADDPG的多无人机运动规划方法，其特征在于，所述

W_t＝0.1，α∈(-π，π]，τ＝1.0，γ＝0.95，