CN112947562A - 一种基于人工势场法和maddpg的多无人机运动规划方法 - Google Patents

一种基于人工势场法和maddpg的多无人机运动规划方法 Download PDF

Info

Publication number
CN112947562A
CN112947562A CN202110183956.XA CN202110183956A CN112947562A CN 112947562 A CN112947562 A CN 112947562A CN 202110183956 A CN202110183956 A CN 202110183956A CN 112947562 A CN112947562 A CN 112947562A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
network
target
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110183956.XA
Other languages
English (en)
Other versions
CN112947562B (zh
Inventor
万开方
武鼎威
高晓光
胡子剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110183956.XA priority Critical patent/CN112947562B/zh
Publication of CN112947562A publication Critical patent/CN112947562A/zh
Application granted granted Critical
Publication of CN112947562B publication Critical patent/CN112947562B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于人工势场法和MADDPG的多无人机运动规划方法,该方法在原有多无人机探索环境经验的基础上,增加了通过人工势场法将多无人机成功规划至目标的高质量经验,在通过MADDPG算法训练时,以一定的概率分别从探索环境经验和高质量经验中采集样本,以每个无人机的自身状态信息和环境信息作为神经网络的输入,以多无人机的速度作为输出,完成运动规划策略的训练,实现多无人机在复杂环境下自主避障并安全快速地到达目标位置。本发明方法充分地学习到多无人机在不同状态和不同动作时的Q值,提高了策略的鲁棒性,训练出适应性更强和灵活性更高的优秀策略,在多无人机协同运动规划的场景中有很好的应用前景。

Description

一种基于人工势场法和MADDPG的多无人机运动规划方法
技术领域
本发明属于无人机技术领域,具体涉及一种多无人机运动规划方法。
背景技术
随着科学技术的不断发展和完善,多无人机运动规划技术,即实现多个无人机高效避障的路径规划技术,已经广泛应用在人类生产和生活的各个方面,在军民技术融合和工业效率革新中发挥着重要作用。传统的多无人机运动规划方法致力于在环境完全可知且基本固定,并且无人机定位准确且满足相关的运动轨迹的情况下,利用一些搜索算法和规划算法,计算出一条较优的路径,例如A*算法、人工势场法(Artificial Potential Field,简称APF)及向量场直方图算法(VFH+)等。这些方法通常容易受到无法预料的干扰,任何不完整的感知、有偏差的估计或不正确的模型都将导致性能不佳。此外,多无人机在实际运动的过程中环境处于动态、复杂且未知的状态,此时环境的状态转换模型通常是未知的,同时对运动路径进行规划时要综合考虑多无人机的机动性能、任务时间以及躲避障碍等多种因素,所以基于模型的传统算法无法迅速地根据环境的变化决策出最优的规划动作。因此,发明一种更智能的多无人机运动规划方法,使多无人机在复杂动态环境高效实现相互协调和安全避障具有重要意义。
多智能体深度强化学***稳性问题,为多智能体强化学习提供了优秀的基础框架。然而该算法在应用于数量较多的智能体运动规划时,普遍存在联合空间维数过大的问题,同时训练周期明显加长,难以收敛,甚至存在训练的模型稳定性和动态适应性极差的问题,难以适用于动态复杂的环境,具有一定的局限性。
人工势场法是一种经典的智能体运动规划算法,它将目标和障碍物分别看作对智能体有引力和斥力的物体,使智能体沿引力与斥力的合力来进行运动,可以简单高效地将智能体规划至目标位置。将MADDPG算法和人工势场法的优势相结合,设计一种收敛性和适应性强大的多无人机运动规划方法,对于多无人机在动态复杂的环境中高效地完成运动规划具有重要意义。
发明内容
为了克服现有技术的不足,本发明提供了一种基于人工势场法和MADDPG的多无人机运动规划方法,该方法在原有多无人机探索环境经验的基础上,增加了通过人工势场法将多无人机成功规划至目标的高质量经验,在通过MADDPG算法训练时,以一定的概率分别从探索环境经验和高质量经验中采集样本,以每个无人机的自身状态信息和环境信息作为神经网络的输入,以多无人机的速度作为输出,完成运动规划策略的训练,实现多无人机在复杂环境下自主避障并安全快速地到达目标位置。本发明方法充分地学习到多无人机在不同状态和不同动作时的Q值,提高了策略的鲁棒性,训练出适应性更强和灵活性更高的优秀策略,在多无人机协同运动规划的场景中有很好的应用前景。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1:建立多无人机和障碍物模型;
步骤1-1:设定无人机和障碍物的物理模型:
设定无人机为圆形的智能体,无人机i的半径为ri;设定障碍物形状为圆形,障碍物半径为ro,无人机与障碍物的碰撞距离Dio=ri+ro;无人机i的目标位置为一个圆形空间,半径为rig,当无人机i接触到目标范围,即无人机i中心位置与目标范围中心位置的距离Dig≤ri+rig时,即判定无人机i成功到达目标位置;
无人机i的位置设置为Pi=[xi yi]T,无人机的通信距离表示为Lc,无人机的通信范围为以无人机中心为圆心,以Lc为半径的圆形;在无人机的通信范围内,无人机能感知到其它无人机或障碍物的信息;
无人机i运动的线速度表示为ui,无人机i与X轴正方向的夹角为ψi,ψi的范围为(-π,π];αi为目标速度角,目标速度角表示以无人机i中心为原点,以无人机i到无人机i的目标的方向为正方向建立极坐标系时的无人机i速度矢量与极坐标正方向的夹角值,αi范围为(-π,π];ωi表示无人机i运动角速度;
步骤1-2:设定无人机和障碍物的运动模型:
设定无人机和障碍物在二维空间中运动,单个无人机的运动模型表示为:
Figure BDA0002942266280000031
其中,
Figure BDA0002942266280000032
Figure BDA0002942266280000033
分别为无人机沿X、Y轴的速度分量,
Figure BDA0002942266280000034
为无人机的角速度,ψ为无人机与X轴正方向的夹角,u为无人机运动的线速度,ω表示无人机运动的角速度;
设定无人机下一时刻位置为P′=[x′ y′]T,无人机下一时刻与X轴正方向的夹角为ψ′,运动间隔时间为Δt,则下一时刻无人机的状态如下:
Figure BDA0002942266280000035
障碍物的运动模型与无人机相同;
步骤2:构建用于多无人机运动规划的马尔科夫博弈模型;
步骤2-1:马尔科夫博弈模型用五元组<N,S,A,P,R>来描述,每个分量具体解释如下:N={1,2,…,n},表示n个无人机的集合;S为联合状态,S=s1×s2×…×sn,表示所有无人机的状态的笛卡尔积,其中si代表着无人机i的状态;A为联合动作,A=a1×a2×…×an,表示所有无人机的动作的笛卡尔积,ai表示无人机i的动作;P:S×A×S→[0,1]为状态转移模型,表示所有的无人机在当前状态采取联合动作到达下一状态的概率值;R为联合奖励,即所有无人机奖励函数的笛卡尔积,R=R1×R2×…×Rn,其中Ri表示无人机i与环境交互获得的奖励值;
步骤2-2:设定无人机的状态空间:
在极坐标系下设置每个无人机的状态空间;
将无人机i中心作为原点,无人机i到自身目标的方向看作正方向建立极坐标系,则无人机i的状态表示为:si=(s,sU,sE),其中,s=(Pix,Piy,Pigx,Pigy)为无人机i和目标的位置信息,Pix,Piy为无人机i的位置信息,Pigx,Pigy为无人机i的目标的位置信息;sU=(Pjx,Pjy)表示在无人机i的通讯范围内距离它最近的无人机j的位置信息,如果通讯范围内无其他无人机,则sU=(0,0);sE=(Pkx,Pky)表示在无人机i的通讯范围内距离无人机i最近的障碍物的位置信息,如果通讯范围内无其他障碍物,则sE=(0,0);
步骤2-3:设定无人机的动作空间:
将无人机设定为匀速运动状态,无人机i的动作空间设置为:ai=(ωit),ωit为t时刻无人机i的角速度值;
步骤2-4:设定无人机的奖励函数:
无人机i的奖励函数具体设置如下:
Figure BDA0002942266280000041
其中,式(1)表示无人机到达目标时的奖励值,
Figure BDA0002942266280000042
表示无人机到达目标消耗时间的惩罚值,Wt表示惩罚程度的参数值,Ti为无人机到达目标消耗的具体时间值,
Figure BDA0002942266280000043
表示无人机以ui的线速度沿直线到达目标位置时所需的最短时间,Pi0和Pig分别表示无人机的初始位置和目标位置;式(2)为无人机在碰撞情况下的奖励值;式(3)为碰撞预警,选取通信距离Lc的通信范围内距无人机最近的障碍物或者其他无人机作为危险障碍物,当前时刻无人机与危险障碍物之间的欧氏距离为Diod,当无人机与危险障碍物之间在下一时刻的欧氏距离D′iod小于Diod时,在式(4)的基础上给予负常数τ作为惩罚;式(4)为无人机的密集回报函数,惩罚程度随着无人机的目标速度角α的增大而增加;
步骤3:构建MADDPG算法神经网络:
步骤3-1:构建MADDPG算法中的Actor策略网络:
无人机i的策略网络μi由输入层、隐藏层和输出层组成,输入为无人机i的状态向量si,输出为无人机i的动作向量ai=μi(si);
步骤3-2:构建MADDPG算法中的Critic评价网络:
无人机i的评价网络
Figure BDA0002942266280000044
由输入层、隐藏层和输出层组成,输入为所有无人机的状态向量x=(s1,…,sn)和所有无人机根据各自的策略网络得到的动作a1,…,an,输出为无人机i的动作值函数,为集中的动作值函数
Figure BDA0002942266280000045
步骤3-3:构建目标神经网络:
对于无人机i,将策略网络μi和评价网络
Figure BDA0002942266280000051
的参数复制到各自对应的目标网络中,即
Figure BDA0002942266280000052
其中
Figure BDA0002942266280000053
分别表示当前策略网络和评价网络的参数,
Figure BDA0002942266280000054
Figure BDA0002942266280000055
分别表示目标策略网络和目标评价网络的参数;
步骤4:定义MADDPG算法训练多无人机的避障运动策略实现方式;
步骤4-1:设置无人机和障碍物的物理模型和运动模型,设定无人机和障碍物的半径大小和碰撞距离、设定无人机的速度大小和通信距离以及设定目标范围的半径大小,同时设定经验池的容量大小M以及训练步长Δt;
步骤4-2:设定策略网络和评价网络的超参数,包括学习率、网络层数和节点数、激活函数、抽样训练的样本数量N以及训练优化器;
步骤4-3:初始化噪声向量
Figure BDA0002942266280000056
和训练环境,在设定的训练环境内随机设置无人机和障碍物的初始位置,初始化网络参数和所有无人机的状态信息;设定选取动作方式的概率值p0并生成一个随机数p,p∈[0,1];
步骤4-4:对所有无人机选择动作的方式进行判定,如果p≤p0,则转到步骤4-5;如果p>p0,则转到步骤4-6;
步骤4-5:根据人工势场法,对于每个无人机通过其状态信息选择动作,最终将所有无人机规划至目标;具体方式为:
计算无人机i在位置Pi=[xi yi]T时所受到的来自目标位置的引力
Figure BDA0002942266280000057
同时计算受到通信范围内其他无人机或障碍物对它施加的合斥力
Figure BDA0002942266280000058
之后计算它受到的合力
Figure BDA0002942266280000059
表示为:
Figure BDA00029422662800000510
其中,Ni为无人机i的相邻物体的集合,相邻物体为无人机i通信范围内的其它无人机或者障碍物,σij为碰撞函数,表示相邻物体中的每一个成员对于无人机i所受斥力的影响程度;
获得无人机i受到的合力
Figure BDA00029422662800000511
之后,设置无人机i的线速度ui为常数值,根据控制率获得它采取的动作ai,即无人机i的角速度ωi,表达式为:
Figure BDA00029422662800000512
其中kω为角速度控制常数,
Figure BDA00029422662800000513
表示合力
Figure BDA00029422662800000514
的方向角度,
Figure BDA00029422662800000515
表示合力
Figure BDA00029422662800000516
在X方向的分量,
Figure BDA0002942266280000061
表示合力
Figure BDA0002942266280000062
在Y方向的分量,
Figure BDA0002942266280000063
表示在位置Pi
Figure BDA0002942266280000064
对时间的导数值,表达式如下:
Figure BDA0002942266280000065
步骤4-6:根据策略网络,通过每个无人机的状态信息选择动作;具体如下:
对于无人机i,通过其策略网络μi,根据无人机i的状态信息si选择动作ai,表达式为:
Figure BDA0002942266280000066
其中,
Figure BDA0002942266280000067
代表确定性策略函数;
步骤4-7:根据所有无人机的动作信息与环境交互,对于无人机i,获得其奖励函数值Ri和下一时刻的状态信息s′i
步骤4-8:计算所有无人机的状态向量x、下一时刻的状态向量x′、所有动作a以及所有奖励函数值R,将样本(x,a,R,x′)存入经验池;之后更新所有无人机的状态信息,对于无人机i,即s′i→si
步骤4-9:判断经验池的样本数量Mn是否到达M,如果Mn<M,则转到步骤4-4;如果Mn≥M,则转到步骤4-10;
步骤4-10:从经验池中随机抽取N个样本通过目标神经网络进行训练,对于无人机i,设定网络更新目标为:
Figure BDA0002942266280000068
其中,Ri为无人机i在该时刻的奖励值,γ为折扣系数,
Figure BDA0002942266280000069
为目标策略网络集合,
Figure BDA00029422662800000610
表示根据下一时刻的状态信息集采取策略集μ′采取动作集得到的动作值函数;
步骤4-11:根据最小损失函数更新评价网络参数:
Figure BDA00029422662800000611
其中
Figure BDA00029422662800000612
表示Loss损失函数;
步骤4-12:根据梯度下降更新策略网络参数:
Figure BDA00029422662800000613
其中,
Figure BDA0002942266280000071
表示在策略网络参数
Figure BDA0002942266280000072
下的策略梯度,
Figure BDA0002942266280000073
Figure BDA0002942266280000074
分别表示评价网络动作值函数梯度和策略网络策略函数梯度,μi(ai|si)表示策略网络在状态si时选取的动作策略得到的动作,
Figure BDA0002942266280000075
表示状态si下采取动作ai=μi(si)时评价网络的动作值函数;
步骤4-13:对目标评价网络和目标策略网络的参数更新,表达式为:
Figure BDA0002942266280000076
Figure BDA0002942266280000079
更新方式为软更新,其中
Figure BDA0002942266280000077
为软更新比例系数;
步骤5:在多无人机运动规划的任务场景中通过MADDPG算法训练多无人机的避障运动策略:
步骤5-1:设定训练回合数E和每个回合内的最大训练时间T;
步骤5-2:令训练时间t加Δt,并对t进行判定:若t<T,进入步骤4-4,继续在当前回合内对所有无人机进行训练;否则,进入步骤5-3;
步骤5-3:令训练回合数e加1,并对e进行判定:若e<E,则进入步骤4-3,在第e+1回合对所有无人机进行训练;否则,进入步骤5-4;
步骤5-4:迭代终止,终止目标神经网络训练过程,并保存当前策略网络和评价网络的参数数据;将保存好的网络数据加载至多个无人机之中,使多无人机根据训练好的网络执行飞行动作,完成多无人机运动规划任务。
优选地,所述步骤4-1中设置无人机和障碍物的物理模型和运动模型,具体为:设定无人机的半径ri=0.5m,障碍物的半径ro=0.5m,则碰撞距离Dio=1.0m;设定障碍物为随机运动,在t时刻线速度uio为[0,0.25m/s]内的随机值,角速度ωio
Figure BDA0002942266280000078
设定目标范围的半径rig=1.0m,则无人机的到达距离Dig0=ri+rig为1.5m;设定无人机为在二维空间匀速运动,速度大小为ui=1.0m/s,无人机的通信距离Lc=5m,同时设定经验池的容量大小M=20000以及训练步长Δt=0.5s。
优选地,所述步骤4-2中设定策略网络和评价网络的超参数,具体设置为:策略网络和评价网络选用全连接神经网络,都采用Adam优化器进行训练;策略网络包括两层隐藏层,激活函数都为relu函数,第一层为64个节点,第二层为32个节点,输出层为1个节点,即无人机采取的动作,采用的激活函数为tanh函数,策略网络的学习率为0.001;评价网络同样包括两层隐藏层,激活函数都为relu函数,节点数都为64,输出层为1个节点,即Q值函数,激活函数为线性函数y=x+b,b为偏置参数,评价网络的学习率为0.0001;设定随机采样经验进行批量更新的样本数量为N=128。
优选地,所述
Figure BDA0002942266280000081
Wt=0.1,α∈(-π,π],τ=1.0,γ=0.95,
Figure BDA0002942266280000082
本发明的有益效果如下:
1、本发明方法有更好的经验生成方式。相比与原始MADDPG算法,本发明方法中无人机不仅仅根据训练的策略选择动作,还会根据人工势场法选择动作,因此,经验池中包含多无人机探索训练经验和人工势场法规划经验,上述的人工势场法已经被证实可以成功将多无人机规划至目的地,会获得较高的奖励值,以及较优的Q值,可作为多无人机学习的正向经验,极大地提升正向反馈在经验池中的比例,加速神经网络的训练速度,加快算法的收敛速率。
2、本发明方法有更好的经验混合策略。在每个训练回合内,会以参数p0的概率根据人工势场法选择动作,以参数1-p0的概率根据策略网络选择动作,不仅可以使神经网络学习到比较优秀的策略,而且可以使多无人机全面地探索和认知所处的环境,充分地学习到多无人机在不同状态和不同动作时的Q值,提高策略的鲁棒性,训练出适应性更强和灵活性更高的优秀策略。该过程中的环境较为复杂,在多无人机协同运动规划的场景中有很好的应用前景。
附图说明
图1为本发明基于人工势场法和MADDPG的多无人机运动策略训练流程图。
图2为本发明多无人机和障碍物的运动模型示意图。
图3为本发明基于人工势场法和MADDPG的多无人机运动规划方法结构图。
图4为本发明多无人机训练的环境初始图。
图5为本发明MADDPG和人工势场法辅助的MADDPG两种方法训练过程中多无人机每回合获得的平均奖励变化曲线图。
图6为本发明多无人机在特定环境完成运动规划的轨迹展示图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,一种基于人工势场法和MADDPG的多无人机运动规划方法,包括以下步骤:
步骤1:建立多无人机和障碍物模型,模型示意图如图2所示;
步骤1-1:设定无人机和障碍物的物理模型:
设定无人机为圆形的智能体,无人机i的半径为ri;设定障碍物形状为圆形,障碍物半径为ro,无人机与障碍物的碰撞距离Dio=ri+ro;无人机i的目标位置为一个圆形空间,半径为rig,当无人机i接触到目标范围,即无人机i中心位置与目标范围中心位置的距离Dig≤ri+rig时,即判定无人机i成功到达目标位置;
无人机i的位置设置为Pi=[xi yi]T,无人机的通信距离表示为Lc,无人机的通信范围为以无人机中心为圆心,以Lc为半径的圆形;在无人机的通信范围内,无人机能感知到其它无人机或障碍物的信息;
无人机i运动的线速度表示为ui,无人机i与X轴正方向的夹角为ψi,ψi的范围为(-π,π];αi为目标速度角,目标速度角表示以无人机i中心为原点,以无人机i到无人机i的目标的方向为正方向建立极坐标系时的无人机i速度矢量与极坐标正方向的夹角值,αi范围为(-π,π];ωi表示无人机i运动角速度;
步骤1-2:设定无人机和障碍物的运动模型:
设定无人机和障碍物在二维空间中运动,单个无人机的运动模型表示为:
Figure BDA0002942266280000091
其中,
Figure BDA0002942266280000092
Figure BDA0002942266280000093
分别为无人机沿X、Y轴的速度分量,
Figure BDA0002942266280000094
为无人机的角速度,ψ为无人机与X轴正方向的夹角,u为无人机运动的线速度,ω表示无人机运动的角速度;
设定无人机下一时刻位置为P′=[x′ y′]T,无人机下一时刻与X轴正方向的夹角为ψ′,运动间隔时间为Δt,则下一时刻无人机的状态如下:
Figure BDA0002942266280000095
障碍物的运动模型与无人机相同;
步骤2:构建用于多无人机运动规划的马尔科夫博弈模型;
步骤2-1:马尔科夫博弈模型用五元组<N,S,A,P,R>来描述,每个分量具体解释如下:N={1,2,…,n},表示n个无人机的集合;S为联合状态,S=s1×s2×…×sn,表示所有无人机的状态的笛卡尔积,其中si代表着无人机i的状态;A为联合动作,A=a1×a2×…×an,表示所有无人机的动作的笛卡尔积,ai表示无人机i的动作;P:S×A×S→[0,1]为状态转移模型,表示所有的无人机在当前状态采取联合动作到达下一状态的概率值;R为联合奖励,即所有无人机奖励函数的笛卡尔积,R=R1×R2×…×Rn,其中Ri表示无人机i与环境交互获得的奖励值;
步骤2-2:设定无人机的状态空间:
在极坐标系下设置每个无人机的状态空间;
将无人机i中心作为原点,无人机i到自身目标的方向看作正方向建立极坐标系,则无人机i的状态表示为:si=(s,sU,sE),其中,s=(Pix,Piy,Pigx,Pigy)为无人机i和目标的位置信息,Pix,Piy为无人机i的位置信息,Pigx,Pigy为无人机i的目标的位置信息;sU=(Pjx,Pjy)表示在无人机i的通讯范围内距离它最近的无人机j的位置信息,如果通讯范围内无其他无人机,则sU=(0,0);sE=(Pkx,Pky)表示在无人机i的通讯范围内距离无人机i最近的障碍物的位置信息,如果通讯范围内无其他障碍物,则sE=(0,0);在设定状态空间时,需根据环境的空间对各个状态分量进行归一化处理;
步骤2-3:设定无人机的动作空间:
无人机的动作空间表示无人机在接受到外界反馈值之后,针对自身状态值所采取的动作集;将无人机设定为匀速运动状态,无人机i的动作空间设置为:ai=(ωit),ωit为t时刻无人机i的角速度值;
步骤2-4:设定无人机的奖励函数:
本发明利用传感器获取无人机的状态信息,根据无人机与其目标位置的距离和无人机与通信范围内障碍物的距离设置奖励函数,得到每个无人机的奖励函数,用来表示无人机在当前状态下选取某一动作时所获得的反馈值。由于多无人机的目标都是在避障的同时快速到达目标位置,因此对所有无人机设置相同的奖励函数;
无人机i的奖励函数具体设置如下:
Figure BDA0002942266280000101
其中,式(1)表示无人机到达目标时的奖励值,
Figure BDA0002942266280000102
表示无人机到达目标消耗时间的惩罚值,Wt表示惩罚程度的参数值,Ti为无人机到达目标消耗的具体时间值,
Figure BDA0002942266280000111
表示无人机以ui的线速度沿直线到达目标位置时,所需的最短时间,Pi0和Pig分别表示无人机的初始位置和目标位置;式(2)为无人机在碰撞情况下的奖励值;
式(3)为碰撞预警,选取通信距离Lc的通信范围内距无人机最近的障碍物或者其他无人机作为危险障碍物,当前时刻无人机与危险障碍物之间的欧氏距离为Diod,当无人机与危险障碍物之间在下一时刻的欧氏距离D′iod小于Diod时,在式(4)的基础上给予负常数τ作为惩罚;式(4)为无人机的密集回报函数,惩罚程度随着无人机的目标速度角α的增大而增加;当目标速度角α较小时,无人机得到的奖励值较大,惩罚程度较小,当α较大并且超过1时,无人机得到的奖励值会以指数形式减少,惩罚程度快速增大,其中目标速度角α的取值范围为(-π,π];
步骤3:构建MADDPG算法神经网络:
步骤3-1:构建MADDPG算法中的Actor策略网络:
无人机i的策略网络μi由输入层、隐藏层和输出层组成,输入为无人机i的状态向量si,输出为无人机i的动作向量ai=μi(si);
步骤3-2:构建MADDPG算法中的Critic评价网络:
无人机i的评价网络
Figure BDA0002942266280000112
由输入层、隐藏层和输出层组成,输入为所有无人机的状态向量x=(s1,…,sn)和所有无人机根据各自的策略网络得到的动作a1,…,an,输出为无人机i的动作值函数,为集中的动作值函数
Figure BDA0002942266280000113
步骤3-3:构建目标神经网络:
对于无人机i,将策略网络μi和评价网络
Figure BDA0002942266280000114
的参数复制到各自对应的目标网络中,即
Figure BDA0002942266280000115
其中
Figure BDA0002942266280000116
分别表示当前策略网络和评价网络的参数,
Figure BDA0002942266280000117
Figure BDA0002942266280000118
分别表示目标策略网络和目标评价网络的参数;
步骤4:定义MADDPG算法训练多无人机的避障运动策略实现方式,该方法的基本框架结构图如图3所示;
步骤4-1:设置无人机和障碍物的物理模型和运动模型,具体为:设定无人机的半径ri=0.5m,障碍物的半径ro=0.5m,则碰撞距离Dio=1.0m;设定障碍物为随机运动,在t时刻线速度uio为[0,0.25m/s]内的随机值,角速度ωio
Figure BDA0002942266280000119
设定目标范围的半径rig=1.0m,则无人机的到达距离Dig0=ri+rig,为1.5m;设定无人机为在二维空间匀速运动,速度大小为ui=1.0m/s,无人机的通信距离Lc=5m,同时设定经验池的容量大小M=20000以及训练步长△t=0.5s;
步骤4-2:设定策略网络和评价网络的超参数,具体设置为:策略网络和评价网络选用全连接神经网络,都采用Adam优化器进行训练。策略网络包括两层隐藏层,激活函数都为relu函数,第一层为64个节点,第二层为32个节点,输出层为1个节点,即无人机采取的动作,采用的激活函数为tanh函数,策略网络的学习率为0.001;评价网络同样包括两层隐藏层,激活函数都为relu函数,节点数都为64,输出层为1个节点,即Q值函数,激活函数为线性函数y=x+b,b为偏置参数,评价网络的学习率为0.0001。设定随机采样经验进行批量更新的样本数量为N=128;
步骤4-3:初始化噪声向量
Figure BDA0002942266280000123
和训练环境,设定多无人机运动的环境是半径为50m的圆内,环境初始图如图4所示,图中小型黑色圆表示无人机的位置Pi,较大的黑色圆表示无人机的目标位置Pig,黑色叉形为障碍物的位置Pio。在设定的环境内随机设置无人机和障碍物的初始位置,如果无人机运动至该环境外,则视为发生碰撞。初始化策略网络和评价网络以及目标策略网络和目标评价网络的参数,根据所有无人机的初始位置得到它们的初始状态信息。设定选取动作方式的概率值p0,本发明设定p0=0.1,并生成一个随机数p,p∈[0,1];
步骤4-4:对所有无人机选择动作的方式进行判定,如果p≤p0,则转到步骤4-5;如果p>p0,则转到步骤4-6;
步骤4-5:根据人工势场法,对于每个无人机通过其状态信息选择动作,最终将所有无人机规划至目标;具体方式为:
对于无人机i,计算其在位置Pi=[xi yi]T时所受到的来自目标位置Pig=[xig yig]T的引力
Figure BDA0002942266280000121
表达式如下:
Figure BDA0002942266280000122
其中||Pi-Pig||为无人机和目标的欧氏距离,Dig0=ri+rig为无人机的到达距离,即为1.5m。对引力求X轴和Y轴的分量,表达式为:
Figure BDA0002942266280000131
计算引力的同时计算无人机i受到通信范围内相邻物体j对它施加的合斥力
Figure BDA0002942266280000132
相邻物体为在无人机位置的通信范围内的其他无人机和障碍物的集合。在无人机i的相邻物体中,无人机受到来自相邻物体j的斥力为
Figure BDA0002942266280000133
在X轴和Y轴的分量表示为:
Figure BDA0002942266280000134
之后计算它受到的合力
Figure BDA0002942266280000135
解析表达式如下:
Figure BDA0002942266280000136
其中,Ni为无人机i的相邻物体的集合,相邻物体为无人机i通信范围内的无人机或者障碍物,σij为碰撞函数,表示相邻物体中的每一个成员对于无人机i所受斥力的影响程度,定义为如下表达式:
Figure BDA0002942266280000137
dig为无人机i与相邻物体j的欧氏距离,dm为无人机i与相邻物体的最小碰撞距离,dr为一个常数,取值范围为(dm,Lc)。表达式中的参数a、b、c、d的计算公式与表达式如下:
Figure BDA0002942266280000138
获得无人机i受到的合力
Figure BDA0002942266280000139
之后,设置无人机i的线速度ui为常数值,根据控制率便可获得它采取的动作ai,即无人机i的角速度ωi,表达式为:
Figure BDA00029422662800001310
其中kω为角速度控制常数,ψi表示无人机i的角度值,
Figure BDA00029422662800001311
表示合力
Figure BDA00029422662800001312
的方向角度,
Figure BDA00029422662800001313
表示在位置Pi时,
Figure BDA00029422662800001314
对时间的导数值,表达式如下:
Figure BDA0002942266280000141
步骤4-6:根据策略网络,通过每个无人机的状态信息选择动作;具体如下:
对于无人机i,通过其策略网络μi,根据无人机i的状态信息si选择动作ai,表达式为:
Figure BDA0002942266280000142
其中,
Figure BDA0002942266280000143
代表确定性策略函数;
步骤4-7:根据所有无人机的动作信息与环境交互,对于无人机i,获得其奖励函数值Ri和下一时刻的状态信息s′i
步骤4-8:计算所有无人机的状态向量x、下一时刻的状态向量x′、所有动作a以及所有奖励函数值R,将样本(x,a,R,x′)存入经验池;之后更新所有无人机的状态信息,对于无人机i,即s′i→si
步骤4-9:判断经验池的样本数量Mn是否到达M,如果Mn<M,则转到步骤4-4;如果Mn≥M,则转到步骤4-10;
步骤4-10:从经验池中随机抽取N个样本通过目标神经网络进行训练,对于无人机i,设定网络更新目标为:
Figure BDA0002942266280000144
其中,Ri为无人机i在该时刻的奖励值,γ为折扣系数,
Figure BDA0002942266280000145
为目标策略网络集合,
Figure BDA0002942266280000146
表示根据下一时刻的状态信息集采取策略集μ′采取动作集得到的动作值函数;
步骤4-11:根据最小损失函数更新评价网络参数:
Figure BDA0002942266280000147
其中
Figure BDA0002942266280000148
表示Loss损失函数;
步骤4-12:根据梯度下降更新策略网络参数:
Figure BDA0002942266280000149
其中,
Figure BDA00029422662800001410
表示在策略网络参数
Figure BDA00029422662800001411
下的策略梯度,
Figure BDA00029422662800001412
Figure BDA00029422662800001413
分别表示评价网络动作值函数梯度和策略网络策略函数梯度,μi(ai|si)表示策略网络在状态si时选取的动作策略得到的动作,
Figure BDA0002942266280000151
表示状态si下采取动作ai=μi(si)时评价网络的动作值函数;
步骤4-13:对目标评价网络和目标策略网络的参数更新,表达式为:
Figure BDA0002942266280000152
Figure BDA0002942266280000153
更新方式为软更新,其中
Figure BDA0002942266280000154
为软更新比例系数;
步骤5:在多无人机运动规划的任务场景中通过MADDPG算法训练多无人机的避障运动策略:
步骤5-1:设定训练回合数E和每个回合内的最大训练时间T;
步骤5-2:令训练时间t加Δt,并对t进行判定:若t<T,进入步骤4-4,继续在当前回合内对所有无人机进行训练;否则,进入步骤5-3;
步骤5-3:令训练回合数e加1,并对e进行判定:若e<E,则进入步骤4-3,在第e+1回合对所有无人机进行训练;否则,进入步骤5-4;
步骤5-4:迭代终止,终止目标神经网络训练过程,并保存当前策略网络和评价网络的参数数据;选择图4所示的多无人机和障碍物固定初始位置的环境测试多无人机的运动规划策略,将保存好的网络数据加载至多个无人机之中,使多无人机根据训练好的网络执行合理的飞行动作,完成多无人机运动规划任务。
具体实施例:
本发明提出的基于人工势场法和MADDPG的多无人机运动规划方法,在每回合起始时初始化环境和神经网络参数,之后多无人机选择动作进行运动改变位置,得到新的状态,并将每一回合的经验保存于经验池中作为学习样本,不断迭代更新神经网络的参数。训练完成后保存网络参数,在特定环境中加载到多无人机进行测试,用以验证规划策略的适应性和高效性。本发明训练过程中选择动作依赖于参数p,多无人机利用人工势场法选择动作的概率为参数p,利用探索或者策略网络选择动作的概率为参数1-p,将人工势场法成功规划的经验和强化学习探索经验以及通过策略网络获得的经验混合存储于经验池,提高了正向反馈经验的比例,加快了强化学习训练的速度,同时提高了模型的稳定性。
在实际训练中,对比了只使用MADDPG算法和使用人工势场法辅助的MADDPG算法两种训练方式,它们在训练过程中多无人机每回合获得的奖励值变化曲线图如图5所示,其中奖励值为一次训练回合结束后所有无人机获得的所有立即奖励的平均值,虚线表示人工势场法辅助的MADDPG在训练过程中多无人机每回合获得奖励值的变化趋势,实线则表示仅使用MADDPG训练时奖励值的变化趋势。从图5中可以看出,两种方法在训练收敛后奖励值都在小幅度震荡,这是训练过程中动作加入了噪声的原因。图5中MADDPG在训练约3500回合之后才开始收敛,且收敛后获得的奖励值相比该专利方法获得的低,同时奖励值震荡幅度较大,训练的模型稳定性较差;而人工势场法辅助的MADDPG大概训练2500回合后,多无人机在每回合内能够获得高额且稳定的奖励值。同时,在训练过程中的数据能更充分的证明本发明方法的优势。在训练了10000回合之后,MADDPG获得的平均奖励值仅为-0.676,而本发明方法获得的平均奖励值为-0.218,平均奖励值提高了0.458;在两种方法都训练收敛后,MADDPG获得的平均奖励值仅为-0.272,但本发明方法获得的平均奖励值高达0.149,相比MADDPG提高了0.421。以上说明了本发明方法不仅加快了训练的收敛速率,同时还在一定程度上提高了训练模型的收敛值和稳定性,使得模型具有更好的表现效果。对多无人机规划的测试结果如图6所示,可以看出,基于本发明方法训练后的无人机,能够有效规避障碍物,顺利到达各自的目标位置,完成多无人机的运动规划任务。这表明了本发明所提出的将人工势场法成功规划的经验存入经验池并通过神经网络随机抽样训练的方式,能提高MADDPG算法的收敛速度和网络的鲁棒性,进而提升多无人机自主智能运动规划过程的高效性和稳定性。

Claims (4)

1.一种基于人工势场法和MADDPG的多无人机运动规划方法,其特征在于,包括以下步骤:
步骤1:建立多无人机和障碍物模型;
步骤1-1:设定无人机和障碍物的物理模型:
设定无人机为圆形的智能体,无人机i的半径为ri;设定障碍物形状为圆形,障碍物半径为ro,无人机与障碍物的碰撞距离Dio=ri+ro;无人机i的目标位置为一个圆形空间,半径为rig,当无人机i接触到目标范围,即无人机i中心位置与目标范围中心位置的距离Dig≤ri+rig时,即判定无人机i成功到达目标位置;
无人机i的位置设置为Pi=[xi yi]T,无人机的通信距离表示为Lc,无人机的通信范围为以无人机中心为圆心,以Lc为半径的圆形;在无人机的通信范围内,无人机能感知到其它无人机或障碍物的信息;
无人机i运动的线速度表示为ui,无人机i与X轴正方向的夹角为ψi,ψi的范围为(-π,π];αi为目标速度角,目标速度角表示以无人机i中心为原点,以无人机i到无人机i的目标的方向为正方向建立极坐标系时的无人机i速度矢量与极坐标正方向的夹角值,αi范围为(-π,π];ωi表示无人机i运动角速度;
步骤1-2:设定无人机和障碍物的运动模型:
设定无人机和障碍物在二维空间中运动,单个无人机的运动模型表示为:
Figure FDA0002942266270000011
其中,
Figure FDA0002942266270000012
Figure FDA0002942266270000013
分别为无人机沿X、Y轴的速度分量,
Figure FDA0002942266270000014
为无人机的角速度,ψ为无人机与X轴正方向的夹角,u为无人机运动的线速度,ω表示无人机运动的角速度;
设定无人机下一时刻位置为P′=[x′ y′]T,无人机下一时刻与X轴正方向的夹角为ψ′,运动间隔时间为Δt,则下一时刻无人机的状态如下:
Figure FDA0002942266270000015
障碍物的运动模型与无人机相同;
步骤2:构建用于多无人机运动规划的马尔科夫博弈模型;
步骤2-1:马尔科夫博弈模型用五元组<N,S,A,P,R>来描述,每个分量具体解释如下:N={1,2,...,n},表示n个无人机的集合;S为联合状态,S=s1×s2×...×sn,表示所有无人机的状态的笛卡尔积,其中si代表着无人机i的状态;A为联合动作,A=a1×a2×...×an,表示所有无人机的动作的笛卡尔积,ai表示无人机i的动作;P:S×A×S→[0,1]为状态转移模型,表示所有的无人机在当前状态采取联合动作到达下一状态的概率值;R为联合奖励,即所有无人机奖励函数的笛卡尔积,R=R1×R2×...×Rn,其中Ri表示无人机i与环境交互获得的奖励值;
步骤2-2:设定无人机的状态空间:
在极坐标系下设置每个无人机的状态空间;
将无人机i中心作为原点,无人机i到自身目标的方向看作正方向建立极坐标系,则无人机i的状态表示为:si=(s,sU,sE),其中,s=(Pix,Piy,Pigx,Pigy)为无人机i和目标的位置信息,Pix,Piy为无人机i的位置信息,Pigx,Pigy为无人机i的目标的位置信息;sU=(Pjx,Pjy)表示在无人机i的通讯范围内距离它最近的无人机j的位置信息,如果通讯范围内无其他无人机,则sU=(0,0);sE=(Pkx,Pky)表示在无人机i的通讯范围内距离无人机i最近的障碍物的位置信息,如果通讯范围内无其他障碍物,则sE=(0,0);
步骤2-3:设定无人机的动作空间:
将无人机设定为匀速运动状态,无人机i的动作空间设置为:ai=(ωit),ωit为t时刻无人机i的角速度值;
步骤2-4:设定无人机的奖励函数:
无人机i的奖励函数具体设置如下:
Figure FDA0002942266270000021
其中,式(1)表示无人机到达目标时的奖励值,
Figure FDA0002942266270000022
表示无人机到达目标消耗时间的惩罚值,Wt表示惩罚程度的参数值,Ti为无人机到达目标消耗的具体时间值,
Figure FDA0002942266270000023
表示无人机以ui的线速度沿直线到达目标位置时所需的最短时间,Pi0和Pig分别表示无人机的初始位置和目标位置;式(2)为无人机在碰撞情况下的奖励值;式(3)为碰撞预警,选取通信距离Lc的通信范围内距无人机最近的障碍物或者其他无人机作为危险障碍物,当前时刻无人机与危险障碍物之间的欧氏距离为Diod,当无人机与危险障碍物之间在下一时刻的欧氏距离D′iod小于Diod时,在式(4)的基础上给予负常数τ作为惩罚;式(4)为无人机的密集回报函数,惩罚程度随着无人机的目标速度角α的增大而增加;
步骤3:构建MADDPG算法神经网络:
步骤3-1:构建MADDPG算法中的Actor策略网络:
无人机i的策略网络μi由输入层、隐藏层和输出层组成,输入为无人机i的状态向量si,输出为无人机i的动作向量ai=μi(si);
步骤3-2:构建MADDPG算法中的Critic评价网络:
无人机i的评价网络
Figure FDA0002942266270000031
由输入层、隐藏层和输出层组成,输入为所有无人机的状态向量x=(s1,...,sn)和所有无人机根据各自的策略网络得到的动作a1,...,an,输出为无人机i的动作值函数,为集中的动作值函数
Figure FDA0002942266270000032
步骤3-3:构建目标神经网络:
对于无人机i,将策略网络μi和评价网络
Figure FDA0002942266270000033
的参数复制到各自对应的目标网络中,即
Figure FDA0002942266270000034
其中
Figure FDA0002942266270000035
分别表示当前策略网络和评价网络的参数,
Figure FDA0002942266270000036
Figure FDA0002942266270000037
分别表示目标策略网络和目标评价网络的参数;
步骤4:定义MADDPG算法训练多无人机的避障运动策略实现方式;
步骤4-1:设置无人机和障碍物的物理模型和运动模型,设定无人机和障碍物的半径大小和碰撞距离、设定无人机的速度大小和通信距离以及设定目标范围的半径大小,同时设定经验池的容量大小M以及训练步长Δt;
步骤4-2:设定策略网络和评价网络的超参数,包括学习率、网络层数和节点数、激活函数、抽样训练的样本数量N以及训练优化器;
步骤4-3:初始化噪声向量
Figure FDA0002942266270000038
和训练环境,在设定的训练环境内随机设置无人机和障碍物的初始位置,初始化网络参数和所有无人机的状态信息;设定选取动作方式的概率值p0并生成一个随机数p,p∈[0,1];
步骤4-4:对所有无人机选择动作的方式进行判定,如果p≤p0,则转到步骤4-5;如果p>p0,则转到步骤4-6;
步骤4-5:根据人工势场法,对于每个无人机通过其状态信息选择动作,最终将所有无人机规划至目标;具体方式为:
计算无人机i在位置Pi=[xi yi]T时所受到的来自目标位置的引力
Figure FDA0002942266270000041
同时计算受到通信范围内其他无人机或障碍物对它施加的合斥力
Figure FDA0002942266270000042
之后计算它受到的合力
Figure FDA0002942266270000043
表示为:
Figure FDA0002942266270000044
其中,Ni为无人机i的相邻物体的集合,相邻物体为无人机i通信范围内的其它无人机或者障碍物,σij为碰撞函数,表示相邻物体中的每一个成员对于无人机i所受斥力的影响程度;
获得无人机i受到的合力
Figure FDA00029422662700000417
之后,设置无人机i的线速度ui为常数值,根据控制率获得它采取的动作ai,即无人机i的角速度ωi,表达式为:
Figure FDA0002942266270000045
其中kω为角速度控制常数,
Figure FDA0002942266270000046
表示合力
Figure FDA0002942266270000047
的方向角度,
Figure FDA0002942266270000048
表示合力
Figure FDA0002942266270000049
在X方向的分量,
Figure FDA00029422662700000410
表示合力
Figure FDA00029422662700000411
在Y方向的分量,
Figure FDA00029422662700000412
表示在位置Pi
Figure FDA00029422662700000413
对时间的导数值,表达式如下:
Figure FDA00029422662700000414
步骤4-6:根据策略网络,通过每个无人机的状态信息选择动作;具体如下:
对于无人机i,通过其策略网络μi,根据无人机i的状态信息si选择动作ai,表达式为:
Figure FDA00029422662700000415
其中,
Figure FDA00029422662700000416
代表确定性策略函数;
步骤4-7:根据所有无人机的动作信息与环境交互,对于无人机i,获得其奖励函数值Ri和下一时刻的状态信息s′i
步骤4-8:计算所有无人机的状态向量x、下一时刻的状态向量x′、所有动作a以及所有奖励函数值R,将样本(x,a,R,x′)存入经验池;之后更新所有无人机的状态信息,对于无人机i,即s′i→si
步骤4-9:判断经验池的样本数量Mn是否到达M,如果Mn<M,则转到步骤4-4;如果Mn≥M,则转到步骤4-10;
步骤4-10:从经验池中随机抽取N个样本通过目标神经网络进行训练,对于无人机i,设定网络更新目标为:
Figure FDA0002942266270000051
其中,Ri为无人机i在该时刻的奖励值,γ为折扣系数,
Figure FDA0002942266270000052
为目标策略网络集合,
Figure FDA0002942266270000053
表示根据下一时刻的状态信息集采取策略集μ′采取动作集得到的动作值函数;
步骤4-11:根据最小损失函数更新评价网络参数:
Figure FDA0002942266270000054
其中
Figure FDA0002942266270000055
表示Loss损失函数;
步骤4-12:根据梯度下降更新策略网络参数:
Figure FDA0002942266270000056
其中,
Figure FDA0002942266270000057
表示在策略网络参数
Figure FDA0002942266270000058
下的策略梯度,
Figure FDA0002942266270000059
Figure FDA00029422662700000510
分别表示评价网络动作值函数梯度和策略网络策略函数梯度,μi(ai|si)表示策略网络在状态si时选取的动作策略得到的动作,
Figure FDA00029422662700000511
表示状态si下采取动作ai=μi(si)时评价网络的动作值函数;
步骤4-13:对目标评价网络和目标策略网络的参数更新,表达式为:
Figure FDA00029422662700000512
Figure FDA00029422662700000513
更新方式为软更新,其中
Figure FDA00029422662700000514
为软更新比例系数;
步骤5:在多无人机运动规划的任务场景中通过MADDPG算法训练多无人机的避障运动策略:
步骤5-1:设定训练回合数E和每个回合内的最大训练时间T;
步骤5-2:令训练时间t加Δt,并对t进行判定:若t<T,进入步骤4-4,继续在当前回合内对所有无人机进行训练;否则,进入步骤5-3;
步骤5-3:令训练回合数e加1,并对e进行判定:若e<E,则进入步骤4-3,在第e+1回合对所有无人机进行训练;否则,进入步骤5-4;
步骤5-4:迭代终止,终止目标神经网络训练过程,并保存当前策略网络和评价网络的参数数据;将保存好的网络数据加载至多个无人机之中,使多无人机根据训练好的网络执行飞行动作,完成多无人机运动规划任务。
2.根据权利要求1所述的一种基于人工势场法和MADDPG的多无人机运动规划方法,其特征在于,所述步骤4-1中设置无人机和障碍物的物理模型和运动模型,具体为:设定无人机的半径ri=0.5m,障碍物的半径ro=0.5m,则碰撞距离Dio=1.0m;设定障碍物为随机运动,在t时刻线速度uio为[0,0.25m/s]内的随机值,角速度ωio
Figure FDA0002942266270000061
设定目标范围的半径rig=1.0m,则无人机的到达距离Dig0=ri+rig为1.5m;设定无人机为在二维空间匀速运动,速度大小为ui=1.0m/s,无人机的通信距离Lc=5m,同时设定经验池的容量大小M=20000以及训练步长Δt=0.5s。
3.根据权利要求1所述的一种基于人工势场法和MADDPG的多无人机运动规划方法,其特征在于,所述步骤4-2中设定策略网络和评价网络的超参数,具体设置为:策略网络和评价网络选用全连接神经网络,都采用Adam优化器进行训练;策略网络包括两层隐藏层,激活函数都为relu函数,第一层为64个节点,第二层为32个节点,输出层为1个节点,即无人机采取的动作,采用的激活函数为tanh函数,策略网络的学习率为0.001;评价网络同样包括两层隐藏层,激活函数都为relu函数,节点数都为64,输出层为1个节点,即Q值函数,激活函数为线性函数y=x+b,b为偏置参数,评价网络的学习率为0.0001;设定随机采样经验进行批量更新的样本数量为N=128。
4.根据权利要求1所述的一种基于人工势场法和MADDPG的多无人机运动规划方法,其特征在于,所述
Figure FDA0002942266270000062
Wt=0.1,α∈(-π,π],τ=1.0,γ=0.95,
Figure FDA0002942266270000063
CN202110183956.XA 2021-02-10 2021-02-10 一种基于人工势场法和maddpg的多无人机运动规划方法 Expired - Fee Related CN112947562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110183956.XA CN112947562B (zh) 2021-02-10 2021-02-10 一种基于人工势场法和maddpg的多无人机运动规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110183956.XA CN112947562B (zh) 2021-02-10 2021-02-10 一种基于人工势场法和maddpg的多无人机运动规划方法

Publications (2)

Publication Number Publication Date
CN112947562A true CN112947562A (zh) 2021-06-11
CN112947562B CN112947562B (zh) 2021-11-30

Family

ID=76245519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110183956.XA Expired - Fee Related CN112947562B (zh) 2021-02-10 2021-02-10 一种基于人工势场法和maddpg的多无人机运动规划方法

Country Status (1)

Country Link
CN (1) CN112947562B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342047A (zh) * 2021-06-23 2021-09-03 大连大学 未知环境中基于障碍物位置预测改进人工势场法的无人机路径规划方法
CN113467248A (zh) * 2021-07-22 2021-10-01 南京大学 基于强化学习的无人机传感器故障时容错控制方法
CN113741525A (zh) * 2021-09-10 2021-12-03 南京航空航天大学 基于策略集合maddpg多无人机协同攻防对抗方法
CN113900445A (zh) * 2021-10-13 2022-01-07 厦门渊亭信息科技有限公司 基于多智能体强化学习的无人机协同控制训练方法及***
CN114089776A (zh) * 2021-11-09 2022-02-25 南京航空航天大学 一种基于深度强化学习的无人机避障方法
CN114518770A (zh) * 2022-03-01 2022-05-20 西安交通大学 一种电势场和深度强化学习融合的无人机路径规划方法
CN114712151A (zh) * 2022-03-01 2022-07-08 南京伟思医疗科技股份有限公司 一种上肢康复机器人的虚拟避障方法及***
CN114967721A (zh) * 2022-06-08 2022-08-30 西北工业大学 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
CN115562357A (zh) * 2022-11-23 2023-01-03 南京邮电大学 一种面向无人机集群的智能路径规划方法
CN116551703A (zh) * 2023-07-12 2023-08-08 长春工业大学 一种复杂环境下基于机器学习的运动规划方法
CN116736883A (zh) * 2023-05-23 2023-09-12 天津大学 一种无人飞行集群智能协同运动规划的方法
CN117093010A (zh) * 2023-10-20 2023-11-21 清华大学 水下多智能体路径规划方法、装置、计算机设备和介质
CN117437188A (zh) * 2023-10-17 2024-01-23 广东电力交易中心有限责任公司 一种用于智慧电网的绝缘子缺陷检测***
CN117707207A (zh) * 2024-02-06 2024-03-15 中国民用航空飞行学院 基于深度强化学习的无人机对地目标跟踪与避障规划方法
WO2024121588A1 (fr) * 2022-12-08 2024-06-13 Safran Electronics And Defense Procede de commande de vehicule a securite anti-collision amelioree

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180158197A1 (en) * 2016-12-01 2018-06-07 Skydio, Inc. Object tracking by an unmanned aerial vehicle using visual sensors
CN108827312A (zh) * 2018-08-08 2018-11-16 清华大学 一种基于神经网络和人工势场的协同博弈路径规划方法
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN111123963A (zh) * 2019-12-19 2020-05-08 南京航空航天大学 基于强化学习的未知环境自主导航***及方法
FR3090090A1 (fr) * 2018-12-17 2020-06-19 Airbus Operations Procédé et dispositif pour générer une trajectoire verticale optimale destinée à être suivie par un aéronef
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180158197A1 (en) * 2016-12-01 2018-06-07 Skydio, Inc. Object tracking by an unmanned aerial vehicle using visual sensors
CN108827312A (zh) * 2018-08-08 2018-11-16 清华大学 一种基于神经网络和人工势场的协同博弈路径规划方法
FR3090090A1 (fr) * 2018-12-17 2020-06-19 Airbus Operations Procédé et dispositif pour générer une trajectoire verticale optimale destinée à être suivie par un aéronef
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN111123963A (zh) * 2019-12-19 2020-05-08 南京航空航天大学 基于强化学习的未知环境自主导航***及方法
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WAN KAIFANG: "Autonomous Robot Navigation in Dynamic Environment Using Deep Reinforcement Learning", 《2019 IEEE 2ND INTERNATIONAL CONFERENCE ON AUTOMATION, ELECTRONICS AND ELECTRICAL ENGINEERING (AUTEEE)》 *
高晓光: "势场理论的多无人机协同路径规划方法", 《火力与指挥控制》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342047A (zh) * 2021-06-23 2021-09-03 大连大学 未知环境中基于障碍物位置预测改进人工势场法的无人机路径规划方法
CN113342047B (zh) * 2021-06-23 2023-10-17 大连大学 未知环境中基于障碍物位置预测改进人工势场法的无人机路径规划方法
CN113467248A (zh) * 2021-07-22 2021-10-01 南京大学 基于强化学习的无人机传感器故障时容错控制方法
CN113741525A (zh) * 2021-09-10 2021-12-03 南京航空航天大学 基于策略集合maddpg多无人机协同攻防对抗方法
CN113741525B (zh) * 2021-09-10 2024-02-06 南京航空航天大学 基于策略集合maddpg多无人机协同攻防对抗方法
CN113900445A (zh) * 2021-10-13 2022-01-07 厦门渊亭信息科技有限公司 基于多智能体强化学习的无人机协同控制训练方法及***
CN114089776A (zh) * 2021-11-09 2022-02-25 南京航空航天大学 一种基于深度强化学习的无人机避障方法
CN114089776B (zh) * 2021-11-09 2023-10-24 南京航空航天大学 一种基于深度强化学习的无人机避障方法
CN114518770B (zh) * 2022-03-01 2024-05-31 西安交通大学 一种电势场和深度强化学习融合的无人机路径规划方法
CN114712151A (zh) * 2022-03-01 2022-07-08 南京伟思医疗科技股份有限公司 一种上肢康复机器人的虚拟避障方法及***
CN114712151B (zh) * 2022-03-01 2023-09-19 南京伟思医疗科技股份有限公司 一种上肢康复机器人的虚拟避障方法及***
CN114518770A (zh) * 2022-03-01 2022-05-20 西安交通大学 一种电势场和深度强化学习融合的无人机路径规划方法
CN114967721A (zh) * 2022-06-08 2022-08-30 西北工业大学 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
CN114967721B (zh) * 2022-06-08 2024-04-16 西北工业大学 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
CN115562357A (zh) * 2022-11-23 2023-01-03 南京邮电大学 一种面向无人机集群的智能路径规划方法
CN115562357B (zh) * 2022-11-23 2023-03-14 南京邮电大学 一种面向无人机集群的智能路径规划方法
WO2024121588A1 (fr) * 2022-12-08 2024-06-13 Safran Electronics And Defense Procede de commande de vehicule a securite anti-collision amelioree
CN116736883A (zh) * 2023-05-23 2023-09-12 天津大学 一种无人飞行集群智能协同运动规划的方法
CN116736883B (zh) * 2023-05-23 2024-03-08 天津大学 一种无人飞行集群智能协同运动规划的方法
CN116551703B (zh) * 2023-07-12 2023-09-12 长春工业大学 一种复杂环境下基于机器学习的运动规划方法
CN116551703A (zh) * 2023-07-12 2023-08-08 长春工业大学 一种复杂环境下基于机器学习的运动规划方法
CN117437188A (zh) * 2023-10-17 2024-01-23 广东电力交易中心有限责任公司 一种用于智慧电网的绝缘子缺陷检测***
CN117437188B (zh) * 2023-10-17 2024-05-28 广东电力交易中心有限责任公司 一种用于智慧电网的绝缘子缺陷检测***
CN117093010B (zh) * 2023-10-20 2024-01-19 清华大学 水下多智能体路径规划方法、装置、计算机设备和介质
CN117093010A (zh) * 2023-10-20 2023-11-21 清华大学 水下多智能体路径规划方法、装置、计算机设备和介质
CN117707207A (zh) * 2024-02-06 2024-03-15 中国民用航空飞行学院 基于深度强化学习的无人机对地目标跟踪与避障规划方法
CN117707207B (zh) * 2024-02-06 2024-04-19 中国民用航空飞行学院 基于深度强化学习的无人机对地目标跟踪与避障规划方法

Also Published As

Publication number Publication date
CN112947562B (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN112947562B (zh) 一种基于人工势场法和maddpg的多无人机运动规划方法
CN113341958B (zh) 一种混合经验的多智能体强化学习运动规划方法
CN113093802B (zh) 一种基于深度强化学习的无人机机动决策方法
CN113095481B (zh) 一种基于并行自我博弈的空战机动方法
Haarnoja et al. Reinforcement learning with deep energy-based policies
CN113900445A (zh) 基于多智能体强化学习的无人机协同控制训练方法及***
Naveed et al. Trajectory planning for autonomous vehicles using hierarchical reinforcement learning
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
Han et al. Multi-uav automatic dynamic obstacle avoidance with experience-shared a2c
CN116243727A (zh) 一种渐进式深度强化学习的无人载具对抗与避障方法
Diallo et al. Multi-agent pattern formation: a distributed model-free deep reinforcement learning approach
Xin et al. DRL-based improvement for autonomous UAV motion path planning in unknown environments
CN113110101B (zh) 一种生产线移动机器人聚集式回收入库仿真方法及***
Sun et al. Event-triggered reconfigurable reinforcement learning motion-planning approach for mobile robot in unknown dynamic environments
CN116551703B (zh) 一种复杂环境下基于机器学习的运动规划方法
Zhang et al. Multi-UAV cooperative short-range combat via attention-based reinforcement learning using individual reward shaping
Zhu et al. A novel method combining leader-following control and reinforcement learning for pursuit evasion games of multi-agent systems
CN114326826B (zh) 多无人机队形变换方法及***
CN116796843A (zh) 一种基于pso-m3ddpg的无人机多对多追逃博弈方法
CN116203987A (zh) 一种基于深度强化学习的无人机集群协同避障方法
Zhang et al. Target Tracking and Path Planning of Mobile Sensor Based on Deep Reinforcement Learning
CN115933712A (zh) 基于深度强化学习的仿生鱼领导者—跟随者编队控制方法
Xie et al. A distributed multi-agent formation control method based on deep Q learning
CN115097861A (zh) 一种基于cel-maddpg的多无人机围捕策略方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211130

CF01 Termination of patent right due to non-payment of annual fee