CN112947562A - 一种基于人工势场法和maddpg的多无人机运动规划方法 - Google Patents
一种基于人工势场法和maddpg的多无人机运动规划方法 Download PDFInfo
- Publication number
- CN112947562A CN112947562A CN202110183956.XA CN202110183956A CN112947562A CN 112947562 A CN112947562 A CN 112947562A CN 202110183956 A CN202110183956 A CN 202110183956A CN 112947562 A CN112947562 A CN 112947562A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- network
- target
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 230000009471 action Effects 0.000 claims abstract description 91
- 238000012549 training Methods 0.000 claims abstract description 68
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 78
- 238000004891 communication Methods 0.000 claims description 41
- 238000011156 evaluation Methods 0.000 claims description 40
- 230000004888 barrier function Effects 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 239000000126 substance Substances 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000009916 joint effect Effects 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 2
- 239000003795 chemical substances by application Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000002787 reinforcement Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于人工势场法和MADDPG的多无人机运动规划方法,该方法在原有多无人机探索环境经验的基础上,增加了通过人工势场法将多无人机成功规划至目标的高质量经验,在通过MADDPG算法训练时,以一定的概率分别从探索环境经验和高质量经验中采集样本,以每个无人机的自身状态信息和环境信息作为神经网络的输入,以多无人机的速度作为输出,完成运动规划策略的训练,实现多无人机在复杂环境下自主避障并安全快速地到达目标位置。本发明方法充分地学习到多无人机在不同状态和不同动作时的Q值,提高了策略的鲁棒性,训练出适应性更强和灵活性更高的优秀策略,在多无人机协同运动规划的场景中有很好的应用前景。
Description
技术领域
本发明属于无人机技术领域,具体涉及一种多无人机运动规划方法。
背景技术
随着科学技术的不断发展和完善,多无人机运动规划技术,即实现多个无人机高效避障的路径规划技术,已经广泛应用在人类生产和生活的各个方面,在军民技术融合和工业效率革新中发挥着重要作用。传统的多无人机运动规划方法致力于在环境完全可知且基本固定,并且无人机定位准确且满足相关的运动轨迹的情况下,利用一些搜索算法和规划算法,计算出一条较优的路径,例如A*算法、人工势场法(Artificial Potential Field,简称APF)及向量场直方图算法(VFH+)等。这些方法通常容易受到无法预料的干扰,任何不完整的感知、有偏差的估计或不正确的模型都将导致性能不佳。此外,多无人机在实际运动的过程中环境处于动态、复杂且未知的状态,此时环境的状态转换模型通常是未知的,同时对运动路径进行规划时要综合考虑多无人机的机动性能、任务时间以及躲避障碍等多种因素,所以基于模型的传统算法无法迅速地根据环境的变化决策出最优的规划动作。因此,发明一种更智能的多无人机运动规划方法,使多无人机在复杂动态环境高效实现相互协调和安全避障具有重要意义。
多智能体深度强化学***稳性问题,为多智能体强化学习提供了优秀的基础框架。然而该算法在应用于数量较多的智能体运动规划时,普遍存在联合空间维数过大的问题,同时训练周期明显加长,难以收敛,甚至存在训练的模型稳定性和动态适应性极差的问题,难以适用于动态复杂的环境,具有一定的局限性。
人工势场法是一种经典的智能体运动规划算法,它将目标和障碍物分别看作对智能体有引力和斥力的物体,使智能体沿引力与斥力的合力来进行运动,可以简单高效地将智能体规划至目标位置。将MADDPG算法和人工势场法的优势相结合,设计一种收敛性和适应性强大的多无人机运动规划方法,对于多无人机在动态复杂的环境中高效地完成运动规划具有重要意义。
发明内容
为了克服现有技术的不足,本发明提供了一种基于人工势场法和MADDPG的多无人机运动规划方法,该方法在原有多无人机探索环境经验的基础上,增加了通过人工势场法将多无人机成功规划至目标的高质量经验,在通过MADDPG算法训练时,以一定的概率分别从探索环境经验和高质量经验中采集样本,以每个无人机的自身状态信息和环境信息作为神经网络的输入,以多无人机的速度作为输出,完成运动规划策略的训练,实现多无人机在复杂环境下自主避障并安全快速地到达目标位置。本发明方法充分地学习到多无人机在不同状态和不同动作时的Q值,提高了策略的鲁棒性,训练出适应性更强和灵活性更高的优秀策略,在多无人机协同运动规划的场景中有很好的应用前景。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1:建立多无人机和障碍物模型;
步骤1-1:设定无人机和障碍物的物理模型:
设定无人机为圆形的智能体,无人机i的半径为ri;设定障碍物形状为圆形,障碍物半径为ro,无人机与障碍物的碰撞距离Dio=ri+ro;无人机i的目标位置为一个圆形空间,半径为rig,当无人机i接触到目标范围,即无人机i中心位置与目标范围中心位置的距离Dig≤ri+rig时,即判定无人机i成功到达目标位置;
无人机i的位置设置为Pi=[xi yi]T,无人机的通信距离表示为Lc,无人机的通信范围为以无人机中心为圆心,以Lc为半径的圆形;在无人机的通信范围内,无人机能感知到其它无人机或障碍物的信息;
无人机i运动的线速度表示为ui,无人机i与X轴正方向的夹角为ψi,ψi的范围为(-π,π];αi为目标速度角,目标速度角表示以无人机i中心为原点,以无人机i到无人机i的目标的方向为正方向建立极坐标系时的无人机i速度矢量与极坐标正方向的夹角值,αi范围为(-π,π];ωi表示无人机i运动角速度;
步骤1-2:设定无人机和障碍物的运动模型:
设定无人机和障碍物在二维空间中运动,单个无人机的运动模型表示为:
设定无人机下一时刻位置为P′=[x′ y′]T,无人机下一时刻与X轴正方向的夹角为ψ′,运动间隔时间为Δt,则下一时刻无人机的状态如下:
障碍物的运动模型与无人机相同;
步骤2:构建用于多无人机运动规划的马尔科夫博弈模型;
步骤2-1:马尔科夫博弈模型用五元组<N,S,A,P,R>来描述,每个分量具体解释如下:N={1,2,…,n},表示n个无人机的集合;S为联合状态,S=s1×s2×…×sn,表示所有无人机的状态的笛卡尔积,其中si代表着无人机i的状态;A为联合动作,A=a1×a2×…×an,表示所有无人机的动作的笛卡尔积,ai表示无人机i的动作;P:S×A×S→[0,1]为状态转移模型,表示所有的无人机在当前状态采取联合动作到达下一状态的概率值;R为联合奖励,即所有无人机奖励函数的笛卡尔积,R=R1×R2×…×Rn,其中Ri表示无人机i与环境交互获得的奖励值;
步骤2-2:设定无人机的状态空间:
在极坐标系下设置每个无人机的状态空间;
将无人机i中心作为原点,无人机i到自身目标的方向看作正方向建立极坐标系,则无人机i的状态表示为:si=(s,sU,sE),其中,s=(Pix,Piy,Pigx,Pigy)为无人机i和目标的位置信息,Pix,Piy为无人机i的位置信息,Pigx,Pigy为无人机i的目标的位置信息;sU=(Pjx,Pjy)表示在无人机i的通讯范围内距离它最近的无人机j的位置信息,如果通讯范围内无其他无人机,则sU=(0,0);sE=(Pkx,Pky)表示在无人机i的通讯范围内距离无人机i最近的障碍物的位置信息,如果通讯范围内无其他障碍物,则sE=(0,0);
步骤2-3:设定无人机的动作空间:
将无人机设定为匀速运动状态,无人机i的动作空间设置为:ai=(ωit),ωit为t时刻无人机i的角速度值;
步骤2-4:设定无人机的奖励函数:
无人机i的奖励函数具体设置如下:
其中,式(1)表示无人机到达目标时的奖励值,表示无人机到达目标消耗时间的惩罚值,Wt表示惩罚程度的参数值,Ti为无人机到达目标消耗的具体时间值,表示无人机以ui的线速度沿直线到达目标位置时所需的最短时间,Pi0和Pig分别表示无人机的初始位置和目标位置;式(2)为无人机在碰撞情况下的奖励值;式(3)为碰撞预警,选取通信距离Lc的通信范围内距无人机最近的障碍物或者其他无人机作为危险障碍物,当前时刻无人机与危险障碍物之间的欧氏距离为Diod,当无人机与危险障碍物之间在下一时刻的欧氏距离D′iod小于Diod时,在式(4)的基础上给予负常数τ作为惩罚;式(4)为无人机的密集回报函数,惩罚程度随着无人机的目标速度角α的增大而增加;
步骤3:构建MADDPG算法神经网络:
步骤3-1:构建MADDPG算法中的Actor策略网络:
无人机i的策略网络μi由输入层、隐藏层和输出层组成,输入为无人机i的状态向量si,输出为无人机i的动作向量ai=μi(si);
步骤3-2:构建MADDPG算法中的Critic评价网络:
步骤3-3:构建目标神经网络:
步骤4:定义MADDPG算法训练多无人机的避障运动策略实现方式;
步骤4-1:设置无人机和障碍物的物理模型和运动模型,设定无人机和障碍物的半径大小和碰撞距离、设定无人机的速度大小和通信距离以及设定目标范围的半径大小,同时设定经验池的容量大小M以及训练步长Δt;
步骤4-2:设定策略网络和评价网络的超参数,包括学习率、网络层数和节点数、激活函数、抽样训练的样本数量N以及训练优化器;
步骤4-4:对所有无人机选择动作的方式进行判定,如果p≤p0,则转到步骤4-5;如果p>p0,则转到步骤4-6;
步骤4-5:根据人工势场法,对于每个无人机通过其状态信息选择动作,最终将所有无人机规划至目标;具体方式为:
其中,Ni为无人机i的相邻物体的集合,相邻物体为无人机i通信范围内的其它无人机或者障碍物,σij为碰撞函数,表示相邻物体中的每一个成员对于无人机i所受斥力的影响程度;
步骤4-6:根据策略网络,通过每个无人机的状态信息选择动作;具体如下:
对于无人机i,通过其策略网络μi,根据无人机i的状态信息si选择动作ai,表达式为:
步骤4-7:根据所有无人机的动作信息与环境交互,对于无人机i,获得其奖励函数值Ri和下一时刻的状态信息s′i;
步骤4-8:计算所有无人机的状态向量x、下一时刻的状态向量x′、所有动作a以及所有奖励函数值R,将样本(x,a,R,x′)存入经验池;之后更新所有无人机的状态信息,对于无人机i,即s′i→si;
步骤4-9:判断经验池的样本数量Mn是否到达M,如果Mn<M,则转到步骤4-4;如果Mn≥M,则转到步骤4-10;
步骤4-10:从经验池中随机抽取N个样本通过目标神经网络进行训练,对于无人机i,设定网络更新目标为:
步骤4-11:根据最小损失函数更新评价网络参数:
步骤4-12:根据梯度下降更新策略网络参数:
其中,表示在策略网络参数下的策略梯度,和分别表示评价网络动作值函数梯度和策略网络策略函数梯度,μi(ai|si)表示策略网络在状态si时选取的动作策略得到的动作,表示状态si下采取动作ai=μi(si)时评价网络的动作值函数;
步骤4-13:对目标评价网络和目标策略网络的参数更新,表达式为:
步骤5:在多无人机运动规划的任务场景中通过MADDPG算法训练多无人机的避障运动策略:
步骤5-1:设定训练回合数E和每个回合内的最大训练时间T;
步骤5-2:令训练时间t加Δt,并对t进行判定:若t<T,进入步骤4-4,继续在当前回合内对所有无人机进行训练;否则,进入步骤5-3;
步骤5-3:令训练回合数e加1,并对e进行判定:若e<E,则进入步骤4-3,在第e+1回合对所有无人机进行训练;否则,进入步骤5-4;
步骤5-4:迭代终止,终止目标神经网络训练过程,并保存当前策略网络和评价网络的参数数据;将保存好的网络数据加载至多个无人机之中,使多无人机根据训练好的网络执行飞行动作,完成多无人机运动规划任务。
优选地,所述步骤4-1中设置无人机和障碍物的物理模型和运动模型,具体为:设定无人机的半径ri=0.5m,障碍物的半径ro=0.5m,则碰撞距离Dio=1.0m;设定障碍物为随机运动,在t时刻线速度uio为[0,0.25m/s]内的随机值,角速度ωio为设定目标范围的半径rig=1.0m,则无人机的到达距离Dig0=ri+rig为1.5m;设定无人机为在二维空间匀速运动,速度大小为ui=1.0m/s,无人机的通信距离Lc=5m,同时设定经验池的容量大小M=20000以及训练步长Δt=0.5s。
优选地,所述步骤4-2中设定策略网络和评价网络的超参数,具体设置为:策略网络和评价网络选用全连接神经网络,都采用Adam优化器进行训练;策略网络包括两层隐藏层,激活函数都为relu函数,第一层为64个节点,第二层为32个节点,输出层为1个节点,即无人机采取的动作,采用的激活函数为tanh函数,策略网络的学习率为0.001;评价网络同样包括两层隐藏层,激活函数都为relu函数,节点数都为64,输出层为1个节点,即Q值函数,激活函数为线性函数y=x+b,b为偏置参数,评价网络的学习率为0.0001;设定随机采样经验进行批量更新的样本数量为N=128。
本发明的有益效果如下:
1、本发明方法有更好的经验生成方式。相比与原始MADDPG算法,本发明方法中无人机不仅仅根据训练的策略选择动作,还会根据人工势场法选择动作,因此,经验池中包含多无人机探索训练经验和人工势场法规划经验,上述的人工势场法已经被证实可以成功将多无人机规划至目的地,会获得较高的奖励值,以及较优的Q值,可作为多无人机学习的正向经验,极大地提升正向反馈在经验池中的比例,加速神经网络的训练速度,加快算法的收敛速率。
2、本发明方法有更好的经验混合策略。在每个训练回合内,会以参数p0的概率根据人工势场法选择动作,以参数1-p0的概率根据策略网络选择动作,不仅可以使神经网络学习到比较优秀的策略,而且可以使多无人机全面地探索和认知所处的环境,充分地学习到多无人机在不同状态和不同动作时的Q值,提高策略的鲁棒性,训练出适应性更强和灵活性更高的优秀策略。该过程中的环境较为复杂,在多无人机协同运动规划的场景中有很好的应用前景。
附图说明
图1为本发明基于人工势场法和MADDPG的多无人机运动策略训练流程图。
图2为本发明多无人机和障碍物的运动模型示意图。
图3为本发明基于人工势场法和MADDPG的多无人机运动规划方法结构图。
图4为本发明多无人机训练的环境初始图。
图5为本发明MADDPG和人工势场法辅助的MADDPG两种方法训练过程中多无人机每回合获得的平均奖励变化曲线图。
图6为本发明多无人机在特定环境完成运动规划的轨迹展示图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,一种基于人工势场法和MADDPG的多无人机运动规划方法,包括以下步骤:
步骤1:建立多无人机和障碍物模型,模型示意图如图2所示;
步骤1-1:设定无人机和障碍物的物理模型:
设定无人机为圆形的智能体,无人机i的半径为ri;设定障碍物形状为圆形,障碍物半径为ro,无人机与障碍物的碰撞距离Dio=ri+ro;无人机i的目标位置为一个圆形空间,半径为rig,当无人机i接触到目标范围,即无人机i中心位置与目标范围中心位置的距离Dig≤ri+rig时,即判定无人机i成功到达目标位置;
无人机i的位置设置为Pi=[xi yi]T,无人机的通信距离表示为Lc,无人机的通信范围为以无人机中心为圆心,以Lc为半径的圆形;在无人机的通信范围内,无人机能感知到其它无人机或障碍物的信息;
无人机i运动的线速度表示为ui,无人机i与X轴正方向的夹角为ψi,ψi的范围为(-π,π];αi为目标速度角,目标速度角表示以无人机i中心为原点,以无人机i到无人机i的目标的方向为正方向建立极坐标系时的无人机i速度矢量与极坐标正方向的夹角值,αi范围为(-π,π];ωi表示无人机i运动角速度;
步骤1-2:设定无人机和障碍物的运动模型:
设定无人机和障碍物在二维空间中运动,单个无人机的运动模型表示为:
设定无人机下一时刻位置为P′=[x′ y′]T,无人机下一时刻与X轴正方向的夹角为ψ′,运动间隔时间为Δt,则下一时刻无人机的状态如下:
障碍物的运动模型与无人机相同;
步骤2:构建用于多无人机运动规划的马尔科夫博弈模型;
步骤2-1:马尔科夫博弈模型用五元组<N,S,A,P,R>来描述,每个分量具体解释如下:N={1,2,…,n},表示n个无人机的集合;S为联合状态,S=s1×s2×…×sn,表示所有无人机的状态的笛卡尔积,其中si代表着无人机i的状态;A为联合动作,A=a1×a2×…×an,表示所有无人机的动作的笛卡尔积,ai表示无人机i的动作;P:S×A×S→[0,1]为状态转移模型,表示所有的无人机在当前状态采取联合动作到达下一状态的概率值;R为联合奖励,即所有无人机奖励函数的笛卡尔积,R=R1×R2×…×Rn,其中Ri表示无人机i与环境交互获得的奖励值;
步骤2-2:设定无人机的状态空间:
在极坐标系下设置每个无人机的状态空间;
将无人机i中心作为原点,无人机i到自身目标的方向看作正方向建立极坐标系,则无人机i的状态表示为:si=(s,sU,sE),其中,s=(Pix,Piy,Pigx,Pigy)为无人机i和目标的位置信息,Pix,Piy为无人机i的位置信息,Pigx,Pigy为无人机i的目标的位置信息;sU=(Pjx,Pjy)表示在无人机i的通讯范围内距离它最近的无人机j的位置信息,如果通讯范围内无其他无人机,则sU=(0,0);sE=(Pkx,Pky)表示在无人机i的通讯范围内距离无人机i最近的障碍物的位置信息,如果通讯范围内无其他障碍物,则sE=(0,0);在设定状态空间时,需根据环境的空间对各个状态分量进行归一化处理;
步骤2-3:设定无人机的动作空间:
无人机的动作空间表示无人机在接受到外界反馈值之后,针对自身状态值所采取的动作集;将无人机设定为匀速运动状态,无人机i的动作空间设置为:ai=(ωit),ωit为t时刻无人机i的角速度值;
步骤2-4:设定无人机的奖励函数:
本发明利用传感器获取无人机的状态信息,根据无人机与其目标位置的距离和无人机与通信范围内障碍物的距离设置奖励函数,得到每个无人机的奖励函数,用来表示无人机在当前状态下选取某一动作时所获得的反馈值。由于多无人机的目标都是在避障的同时快速到达目标位置,因此对所有无人机设置相同的奖励函数;
无人机i的奖励函数具体设置如下:
其中,式(1)表示无人机到达目标时的奖励值,表示无人机到达目标消耗时间的惩罚值,Wt表示惩罚程度的参数值,Ti为无人机到达目标消耗的具体时间值,表示无人机以ui的线速度沿直线到达目标位置时,所需的最短时间,Pi0和Pig分别表示无人机的初始位置和目标位置;式(2)为无人机在碰撞情况下的奖励值;
式(3)为碰撞预警,选取通信距离Lc的通信范围内距无人机最近的障碍物或者其他无人机作为危险障碍物,当前时刻无人机与危险障碍物之间的欧氏距离为Diod,当无人机与危险障碍物之间在下一时刻的欧氏距离D′iod小于Diod时,在式(4)的基础上给予负常数τ作为惩罚;式(4)为无人机的密集回报函数,惩罚程度随着无人机的目标速度角α的增大而增加;当目标速度角α较小时,无人机得到的奖励值较大,惩罚程度较小,当α较大并且超过1时,无人机得到的奖励值会以指数形式减少,惩罚程度快速增大,其中目标速度角α的取值范围为(-π,π];
步骤3:构建MADDPG算法神经网络:
步骤3-1:构建MADDPG算法中的Actor策略网络:
无人机i的策略网络μi由输入层、隐藏层和输出层组成,输入为无人机i的状态向量si,输出为无人机i的动作向量ai=μi(si);
步骤3-2:构建MADDPG算法中的Critic评价网络:
步骤3-3:构建目标神经网络:
步骤4:定义MADDPG算法训练多无人机的避障运动策略实现方式,该方法的基本框架结构图如图3所示;
步骤4-1:设置无人机和障碍物的物理模型和运动模型,具体为:设定无人机的半径ri=0.5m,障碍物的半径ro=0.5m,则碰撞距离Dio=1.0m;设定障碍物为随机运动,在t时刻线速度uio为[0,0.25m/s]内的随机值,角速度ωio为设定目标范围的半径rig=1.0m,则无人机的到达距离Dig0=ri+rig,为1.5m;设定无人机为在二维空间匀速运动,速度大小为ui=1.0m/s,无人机的通信距离Lc=5m,同时设定经验池的容量大小M=20000以及训练步长△t=0.5s;
步骤4-2:设定策略网络和评价网络的超参数,具体设置为:策略网络和评价网络选用全连接神经网络,都采用Adam优化器进行训练。策略网络包括两层隐藏层,激活函数都为relu函数,第一层为64个节点,第二层为32个节点,输出层为1个节点,即无人机采取的动作,采用的激活函数为tanh函数,策略网络的学习率为0.001;评价网络同样包括两层隐藏层,激活函数都为relu函数,节点数都为64,输出层为1个节点,即Q值函数,激活函数为线性函数y=x+b,b为偏置参数,评价网络的学习率为0.0001。设定随机采样经验进行批量更新的样本数量为N=128;
步骤4-3:初始化噪声向量和训练环境,设定多无人机运动的环境是半径为50m的圆内,环境初始图如图4所示,图中小型黑色圆表示无人机的位置Pi,较大的黑色圆表示无人机的目标位置Pig,黑色叉形为障碍物的位置Pio。在设定的环境内随机设置无人机和障碍物的初始位置,如果无人机运动至该环境外,则视为发生碰撞。初始化策略网络和评价网络以及目标策略网络和目标评价网络的参数,根据所有无人机的初始位置得到它们的初始状态信息。设定选取动作方式的概率值p0,本发明设定p0=0.1,并生成一个随机数p,p∈[0,1];
步骤4-4:对所有无人机选择动作的方式进行判定,如果p≤p0,则转到步骤4-5;如果p>p0,则转到步骤4-6;
步骤4-5:根据人工势场法,对于每个无人机通过其状态信息选择动作,最终将所有无人机规划至目标;具体方式为:
其中||Pi-Pig||为无人机和目标的欧氏距离,Dig0=ri+rig为无人机的到达距离,即为1.5m。对引力求X轴和Y轴的分量,表达式为:
计算引力的同时计算无人机i受到通信范围内相邻物体j对它施加的合斥力相邻物体为在无人机位置的通信范围内的其他无人机和障碍物的集合。在无人机i的相邻物体中,无人机受到来自相邻物体j的斥力为在X轴和Y轴的分量表示为:
其中,Ni为无人机i的相邻物体的集合,相邻物体为无人机i通信范围内的无人机或者障碍物,σij为碰撞函数,表示相邻物体中的每一个成员对于无人机i所受斥力的影响程度,定义为如下表达式:
dig为无人机i与相邻物体j的欧氏距离,dm为无人机i与相邻物体的最小碰撞距离,dr为一个常数,取值范围为(dm,Lc)。表达式中的参数a、b、c、d的计算公式与表达式如下:
步骤4-6:根据策略网络,通过每个无人机的状态信息选择动作;具体如下:
对于无人机i,通过其策略网络μi,根据无人机i的状态信息si选择动作ai,表达式为:
步骤4-7:根据所有无人机的动作信息与环境交互,对于无人机i,获得其奖励函数值Ri和下一时刻的状态信息s′i;
步骤4-8:计算所有无人机的状态向量x、下一时刻的状态向量x′、所有动作a以及所有奖励函数值R,将样本(x,a,R,x′)存入经验池;之后更新所有无人机的状态信息,对于无人机i,即s′i→si;
步骤4-9:判断经验池的样本数量Mn是否到达M,如果Mn<M,则转到步骤4-4;如果Mn≥M,则转到步骤4-10;
步骤4-10:从经验池中随机抽取N个样本通过目标神经网络进行训练,对于无人机i,设定网络更新目标为:
步骤4-11:根据最小损失函数更新评价网络参数:
步骤4-12:根据梯度下降更新策略网络参数:
其中,表示在策略网络参数下的策略梯度,和分别表示评价网络动作值函数梯度和策略网络策略函数梯度,μi(ai|si)表示策略网络在状态si时选取的动作策略得到的动作,表示状态si下采取动作ai=μi(si)时评价网络的动作值函数;
步骤4-13:对目标评价网络和目标策略网络的参数更新,表达式为:
步骤5:在多无人机运动规划的任务场景中通过MADDPG算法训练多无人机的避障运动策略:
步骤5-1:设定训练回合数E和每个回合内的最大训练时间T;
步骤5-2:令训练时间t加Δt,并对t进行判定:若t<T,进入步骤4-4,继续在当前回合内对所有无人机进行训练;否则,进入步骤5-3;
步骤5-3:令训练回合数e加1,并对e进行判定:若e<E,则进入步骤4-3,在第e+1回合对所有无人机进行训练;否则,进入步骤5-4;
步骤5-4:迭代终止,终止目标神经网络训练过程,并保存当前策略网络和评价网络的参数数据;选择图4所示的多无人机和障碍物固定初始位置的环境测试多无人机的运动规划策略,将保存好的网络数据加载至多个无人机之中,使多无人机根据训练好的网络执行合理的飞行动作,完成多无人机运动规划任务。
具体实施例:
本发明提出的基于人工势场法和MADDPG的多无人机运动规划方法,在每回合起始时初始化环境和神经网络参数,之后多无人机选择动作进行运动改变位置,得到新的状态,并将每一回合的经验保存于经验池中作为学习样本,不断迭代更新神经网络的参数。训练完成后保存网络参数,在特定环境中加载到多无人机进行测试,用以验证规划策略的适应性和高效性。本发明训练过程中选择动作依赖于参数p,多无人机利用人工势场法选择动作的概率为参数p,利用探索或者策略网络选择动作的概率为参数1-p,将人工势场法成功规划的经验和强化学习探索经验以及通过策略网络获得的经验混合存储于经验池,提高了正向反馈经验的比例,加快了强化学习训练的速度,同时提高了模型的稳定性。
在实际训练中,对比了只使用MADDPG算法和使用人工势场法辅助的MADDPG算法两种训练方式,它们在训练过程中多无人机每回合获得的奖励值变化曲线图如图5所示,其中奖励值为一次训练回合结束后所有无人机获得的所有立即奖励的平均值,虚线表示人工势场法辅助的MADDPG在训练过程中多无人机每回合获得奖励值的变化趋势,实线则表示仅使用MADDPG训练时奖励值的变化趋势。从图5中可以看出,两种方法在训练收敛后奖励值都在小幅度震荡,这是训练过程中动作加入了噪声的原因。图5中MADDPG在训练约3500回合之后才开始收敛,且收敛后获得的奖励值相比该专利方法获得的低,同时奖励值震荡幅度较大,训练的模型稳定性较差;而人工势场法辅助的MADDPG大概训练2500回合后,多无人机在每回合内能够获得高额且稳定的奖励值。同时,在训练过程中的数据能更充分的证明本发明方法的优势。在训练了10000回合之后,MADDPG获得的平均奖励值仅为-0.676,而本发明方法获得的平均奖励值为-0.218,平均奖励值提高了0.458;在两种方法都训练收敛后,MADDPG获得的平均奖励值仅为-0.272,但本发明方法获得的平均奖励值高达0.149,相比MADDPG提高了0.421。以上说明了本发明方法不仅加快了训练的收敛速率,同时还在一定程度上提高了训练模型的收敛值和稳定性,使得模型具有更好的表现效果。对多无人机规划的测试结果如图6所示,可以看出,基于本发明方法训练后的无人机,能够有效规避障碍物,顺利到达各自的目标位置,完成多无人机的运动规划任务。这表明了本发明所提出的将人工势场法成功规划的经验存入经验池并通过神经网络随机抽样训练的方式,能提高MADDPG算法的收敛速度和网络的鲁棒性,进而提升多无人机自主智能运动规划过程的高效性和稳定性。
Claims (4)
1.一种基于人工势场法和MADDPG的多无人机运动规划方法,其特征在于,包括以下步骤:
步骤1:建立多无人机和障碍物模型;
步骤1-1:设定无人机和障碍物的物理模型:
设定无人机为圆形的智能体,无人机i的半径为ri;设定障碍物形状为圆形,障碍物半径为ro,无人机与障碍物的碰撞距离Dio=ri+ro;无人机i的目标位置为一个圆形空间,半径为rig,当无人机i接触到目标范围,即无人机i中心位置与目标范围中心位置的距离Dig≤ri+rig时,即判定无人机i成功到达目标位置;
无人机i的位置设置为Pi=[xi yi]T,无人机的通信距离表示为Lc,无人机的通信范围为以无人机中心为圆心,以Lc为半径的圆形;在无人机的通信范围内,无人机能感知到其它无人机或障碍物的信息;
无人机i运动的线速度表示为ui,无人机i与X轴正方向的夹角为ψi,ψi的范围为(-π,π];αi为目标速度角,目标速度角表示以无人机i中心为原点,以无人机i到无人机i的目标的方向为正方向建立极坐标系时的无人机i速度矢量与极坐标正方向的夹角值,αi范围为(-π,π];ωi表示无人机i运动角速度;
步骤1-2:设定无人机和障碍物的运动模型:
设定无人机和障碍物在二维空间中运动,单个无人机的运动模型表示为:
设定无人机下一时刻位置为P′=[x′ y′]T,无人机下一时刻与X轴正方向的夹角为ψ′,运动间隔时间为Δt,则下一时刻无人机的状态如下:
障碍物的运动模型与无人机相同;
步骤2:构建用于多无人机运动规划的马尔科夫博弈模型;
步骤2-1:马尔科夫博弈模型用五元组<N,S,A,P,R>来描述,每个分量具体解释如下:N={1,2,...,n},表示n个无人机的集合;S为联合状态,S=s1×s2×...×sn,表示所有无人机的状态的笛卡尔积,其中si代表着无人机i的状态;A为联合动作,A=a1×a2×...×an,表示所有无人机的动作的笛卡尔积,ai表示无人机i的动作;P:S×A×S→[0,1]为状态转移模型,表示所有的无人机在当前状态采取联合动作到达下一状态的概率值;R为联合奖励,即所有无人机奖励函数的笛卡尔积,R=R1×R2×...×Rn,其中Ri表示无人机i与环境交互获得的奖励值;
步骤2-2:设定无人机的状态空间:
在极坐标系下设置每个无人机的状态空间;
将无人机i中心作为原点,无人机i到自身目标的方向看作正方向建立极坐标系,则无人机i的状态表示为:si=(s,sU,sE),其中,s=(Pix,Piy,Pigx,Pigy)为无人机i和目标的位置信息,Pix,Piy为无人机i的位置信息,Pigx,Pigy为无人机i的目标的位置信息;sU=(Pjx,Pjy)表示在无人机i的通讯范围内距离它最近的无人机j的位置信息,如果通讯范围内无其他无人机,则sU=(0,0);sE=(Pkx,Pky)表示在无人机i的通讯范围内距离无人机i最近的障碍物的位置信息,如果通讯范围内无其他障碍物,则sE=(0,0);
步骤2-3:设定无人机的动作空间:
将无人机设定为匀速运动状态,无人机i的动作空间设置为:ai=(ωit),ωit为t时刻无人机i的角速度值;
步骤2-4:设定无人机的奖励函数:
无人机i的奖励函数具体设置如下:
其中,式(1)表示无人机到达目标时的奖励值,表示无人机到达目标消耗时间的惩罚值,Wt表示惩罚程度的参数值,Ti为无人机到达目标消耗的具体时间值,表示无人机以ui的线速度沿直线到达目标位置时所需的最短时间,Pi0和Pig分别表示无人机的初始位置和目标位置;式(2)为无人机在碰撞情况下的奖励值;式(3)为碰撞预警,选取通信距离Lc的通信范围内距无人机最近的障碍物或者其他无人机作为危险障碍物,当前时刻无人机与危险障碍物之间的欧氏距离为Diod,当无人机与危险障碍物之间在下一时刻的欧氏距离D′iod小于Diod时,在式(4)的基础上给予负常数τ作为惩罚;式(4)为无人机的密集回报函数,惩罚程度随着无人机的目标速度角α的增大而增加;
步骤3:构建MADDPG算法神经网络:
步骤3-1:构建MADDPG算法中的Actor策略网络:
无人机i的策略网络μi由输入层、隐藏层和输出层组成,输入为无人机i的状态向量si,输出为无人机i的动作向量ai=μi(si);
步骤3-2:构建MADDPG算法中的Critic评价网络:
无人机i的评价网络由输入层、隐藏层和输出层组成,输入为所有无人机的状态向量x=(s1,...,sn)和所有无人机根据各自的策略网络得到的动作a1,...,an,输出为无人机i的动作值函数,为集中的动作值函数
步骤3-3:构建目标神经网络:
步骤4:定义MADDPG算法训练多无人机的避障运动策略实现方式;
步骤4-1:设置无人机和障碍物的物理模型和运动模型,设定无人机和障碍物的半径大小和碰撞距离、设定无人机的速度大小和通信距离以及设定目标范围的半径大小,同时设定经验池的容量大小M以及训练步长Δt;
步骤4-2:设定策略网络和评价网络的超参数,包括学习率、网络层数和节点数、激活函数、抽样训练的样本数量N以及训练优化器;
步骤4-4:对所有无人机选择动作的方式进行判定,如果p≤p0,则转到步骤4-5;如果p>p0,则转到步骤4-6;
步骤4-5:根据人工势场法,对于每个无人机通过其状态信息选择动作,最终将所有无人机规划至目标;具体方式为:
其中,Ni为无人机i的相邻物体的集合,相邻物体为无人机i通信范围内的其它无人机或者障碍物,σij为碰撞函数,表示相邻物体中的每一个成员对于无人机i所受斥力的影响程度;
步骤4-6:根据策略网络,通过每个无人机的状态信息选择动作;具体如下:
对于无人机i,通过其策略网络μi,根据无人机i的状态信息si选择动作ai,表达式为:
步骤4-7:根据所有无人机的动作信息与环境交互,对于无人机i,获得其奖励函数值Ri和下一时刻的状态信息s′i;
步骤4-8:计算所有无人机的状态向量x、下一时刻的状态向量x′、所有动作a以及所有奖励函数值R,将样本(x,a,R,x′)存入经验池;之后更新所有无人机的状态信息,对于无人机i,即s′i→si;
步骤4-9:判断经验池的样本数量Mn是否到达M,如果Mn<M,则转到步骤4-4;如果Mn≥M,则转到步骤4-10;
步骤4-10:从经验池中随机抽取N个样本通过目标神经网络进行训练,对于无人机i,设定网络更新目标为:
步骤4-11:根据最小损失函数更新评价网络参数:
步骤4-12:根据梯度下降更新策略网络参数:
其中,表示在策略网络参数下的策略梯度,和分别表示评价网络动作值函数梯度和策略网络策略函数梯度,μi(ai|si)表示策略网络在状态si时选取的动作策略得到的动作,表示状态si下采取动作ai=μi(si)时评价网络的动作值函数;
步骤4-13:对目标评价网络和目标策略网络的参数更新,表达式为:
步骤5:在多无人机运动规划的任务场景中通过MADDPG算法训练多无人机的避障运动策略:
步骤5-1:设定训练回合数E和每个回合内的最大训练时间T;
步骤5-2:令训练时间t加Δt,并对t进行判定:若t<T,进入步骤4-4,继续在当前回合内对所有无人机进行训练;否则,进入步骤5-3;
步骤5-3:令训练回合数e加1,并对e进行判定:若e<E,则进入步骤4-3,在第e+1回合对所有无人机进行训练;否则,进入步骤5-4;
步骤5-4:迭代终止,终止目标神经网络训练过程,并保存当前策略网络和评价网络的参数数据;将保存好的网络数据加载至多个无人机之中,使多无人机根据训练好的网络执行飞行动作,完成多无人机运动规划任务。
3.根据权利要求1所述的一种基于人工势场法和MADDPG的多无人机运动规划方法,其特征在于,所述步骤4-2中设定策略网络和评价网络的超参数,具体设置为:策略网络和评价网络选用全连接神经网络,都采用Adam优化器进行训练;策略网络包括两层隐藏层,激活函数都为relu函数,第一层为64个节点,第二层为32个节点,输出层为1个节点,即无人机采取的动作,采用的激活函数为tanh函数,策略网络的学习率为0.001;评价网络同样包括两层隐藏层,激活函数都为relu函数,节点数都为64,输出层为1个节点,即Q值函数,激活函数为线性函数y=x+b,b为偏置参数,评价网络的学习率为0.0001;设定随机采样经验进行批量更新的样本数量为N=128。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110183956.XA CN112947562B (zh) | 2021-02-10 | 2021-02-10 | 一种基于人工势场法和maddpg的多无人机运动规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110183956.XA CN112947562B (zh) | 2021-02-10 | 2021-02-10 | 一种基于人工势场法和maddpg的多无人机运动规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112947562A true CN112947562A (zh) | 2021-06-11 |
CN112947562B CN112947562B (zh) | 2021-11-30 |
Family
ID=76245519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110183956.XA Expired - Fee Related CN112947562B (zh) | 2021-02-10 | 2021-02-10 | 一种基于人工势场法和maddpg的多无人机运动规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112947562B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113342047A (zh) * | 2021-06-23 | 2021-09-03 | 大连大学 | 未知环境中基于障碍物位置预测改进人工势场法的无人机路径规划方法 |
CN113467248A (zh) * | 2021-07-22 | 2021-10-01 | 南京大学 | 基于强化学习的无人机传感器故障时容错控制方法 |
CN113741525A (zh) * | 2021-09-10 | 2021-12-03 | 南京航空航天大学 | 基于策略集合maddpg多无人机协同攻防对抗方法 |
CN113900445A (zh) * | 2021-10-13 | 2022-01-07 | 厦门渊亭信息科技有限公司 | 基于多智能体强化学习的无人机协同控制训练方法及*** |
CN114089776A (zh) * | 2021-11-09 | 2022-02-25 | 南京航空航天大学 | 一种基于深度强化学习的无人机避障方法 |
CN114518770A (zh) * | 2022-03-01 | 2022-05-20 | 西安交通大学 | 一种电势场和深度强化学习融合的无人机路径规划方法 |
CN114712151A (zh) * | 2022-03-01 | 2022-07-08 | 南京伟思医疗科技股份有限公司 | 一种上肢康复机器人的虚拟避障方法及*** |
CN114967721A (zh) * | 2022-06-08 | 2022-08-30 | 西北工业大学 | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 |
CN115562357A (zh) * | 2022-11-23 | 2023-01-03 | 南京邮电大学 | 一种面向无人机集群的智能路径规划方法 |
CN116551703A (zh) * | 2023-07-12 | 2023-08-08 | 长春工业大学 | 一种复杂环境下基于机器学习的运动规划方法 |
CN116736883A (zh) * | 2023-05-23 | 2023-09-12 | 天津大学 | 一种无人飞行集群智能协同运动规划的方法 |
CN117093010A (zh) * | 2023-10-20 | 2023-11-21 | 清华大学 | 水下多智能体路径规划方法、装置、计算机设备和介质 |
CN117437188A (zh) * | 2023-10-17 | 2024-01-23 | 广东电力交易中心有限责任公司 | 一种用于智慧电网的绝缘子缺陷检测*** |
CN117707207A (zh) * | 2024-02-06 | 2024-03-15 | 中国民用航空飞行学院 | 基于深度强化学习的无人机对地目标跟踪与避障规划方法 |
WO2024121588A1 (fr) * | 2022-12-08 | 2024-06-13 | Safran Electronics And Defense | Procede de commande de vehicule a securite anti-collision amelioree |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180158197A1 (en) * | 2016-12-01 | 2018-06-07 | Skydio, Inc. | Object tracking by an unmanned aerial vehicle using visual sensors |
CN108827312A (zh) * | 2018-08-08 | 2018-11-16 | 清华大学 | 一种基于神经网络和人工势场的协同博弈路径规划方法 |
CN109407676A (zh) * | 2018-12-20 | 2019-03-01 | 哈尔滨工业大学 | 基于DoubleDQN网络和深度强化学习的移动机器人避障方法 |
CN109933086A (zh) * | 2019-03-14 | 2019-06-25 | 天津大学 | 基于深度q学习的无人机环境感知与自主避障方法 |
CN111123963A (zh) * | 2019-12-19 | 2020-05-08 | 南京航空航天大学 | 基于强化学习的未知环境自主导航***及方法 |
FR3090090A1 (fr) * | 2018-12-17 | 2020-06-19 | Airbus Operations | Procédé et dispositif pour générer une trajectoire verticale optimale destinée à être suivie par un aéronef |
CN111880563A (zh) * | 2020-07-17 | 2020-11-03 | 西北工业大学 | 一种基于maddpg的多无人机任务决策方法 |
-
2021
- 2021-02-10 CN CN202110183956.XA patent/CN112947562B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180158197A1 (en) * | 2016-12-01 | 2018-06-07 | Skydio, Inc. | Object tracking by an unmanned aerial vehicle using visual sensors |
CN108827312A (zh) * | 2018-08-08 | 2018-11-16 | 清华大学 | 一种基于神经网络和人工势场的协同博弈路径规划方法 |
FR3090090A1 (fr) * | 2018-12-17 | 2020-06-19 | Airbus Operations | Procédé et dispositif pour générer une trajectoire verticale optimale destinée à être suivie par un aéronef |
CN109407676A (zh) * | 2018-12-20 | 2019-03-01 | 哈尔滨工业大学 | 基于DoubleDQN网络和深度强化学习的移动机器人避障方法 |
CN109933086A (zh) * | 2019-03-14 | 2019-06-25 | 天津大学 | 基于深度q学习的无人机环境感知与自主避障方法 |
CN111123963A (zh) * | 2019-12-19 | 2020-05-08 | 南京航空航天大学 | 基于强化学习的未知环境自主导航***及方法 |
CN111880563A (zh) * | 2020-07-17 | 2020-11-03 | 西北工业大学 | 一种基于maddpg的多无人机任务决策方法 |
Non-Patent Citations (2)
Title |
---|
WAN KAIFANG: "Autonomous Robot Navigation in Dynamic Environment Using Deep Reinforcement Learning", 《2019 IEEE 2ND INTERNATIONAL CONFERENCE ON AUTOMATION, ELECTRONICS AND ELECTRICAL ENGINEERING (AUTEEE)》 * |
高晓光: "势场理论的多无人机协同路径规划方法", 《火力与指挥控制》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113342047A (zh) * | 2021-06-23 | 2021-09-03 | 大连大学 | 未知环境中基于障碍物位置预测改进人工势场法的无人机路径规划方法 |
CN113342047B (zh) * | 2021-06-23 | 2023-10-17 | 大连大学 | 未知环境中基于障碍物位置预测改进人工势场法的无人机路径规划方法 |
CN113467248A (zh) * | 2021-07-22 | 2021-10-01 | 南京大学 | 基于强化学习的无人机传感器故障时容错控制方法 |
CN113741525A (zh) * | 2021-09-10 | 2021-12-03 | 南京航空航天大学 | 基于策略集合maddpg多无人机协同攻防对抗方法 |
CN113741525B (zh) * | 2021-09-10 | 2024-02-06 | 南京航空航天大学 | 基于策略集合maddpg多无人机协同攻防对抗方法 |
CN113900445A (zh) * | 2021-10-13 | 2022-01-07 | 厦门渊亭信息科技有限公司 | 基于多智能体强化学习的无人机协同控制训练方法及*** |
CN114089776A (zh) * | 2021-11-09 | 2022-02-25 | 南京航空航天大学 | 一种基于深度强化学习的无人机避障方法 |
CN114089776B (zh) * | 2021-11-09 | 2023-10-24 | 南京航空航天大学 | 一种基于深度强化学习的无人机避障方法 |
CN114518770B (zh) * | 2022-03-01 | 2024-05-31 | 西安交通大学 | 一种电势场和深度强化学习融合的无人机路径规划方法 |
CN114712151A (zh) * | 2022-03-01 | 2022-07-08 | 南京伟思医疗科技股份有限公司 | 一种上肢康复机器人的虚拟避障方法及*** |
CN114712151B (zh) * | 2022-03-01 | 2023-09-19 | 南京伟思医疗科技股份有限公司 | 一种上肢康复机器人的虚拟避障方法及*** |
CN114518770A (zh) * | 2022-03-01 | 2022-05-20 | 西安交通大学 | 一种电势场和深度强化学习融合的无人机路径规划方法 |
CN114967721A (zh) * | 2022-06-08 | 2022-08-30 | 西北工业大学 | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 |
CN114967721B (zh) * | 2022-06-08 | 2024-04-16 | 西北工业大学 | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 |
CN115562357A (zh) * | 2022-11-23 | 2023-01-03 | 南京邮电大学 | 一种面向无人机集群的智能路径规划方法 |
CN115562357B (zh) * | 2022-11-23 | 2023-03-14 | 南京邮电大学 | 一种面向无人机集群的智能路径规划方法 |
WO2024121588A1 (fr) * | 2022-12-08 | 2024-06-13 | Safran Electronics And Defense | Procede de commande de vehicule a securite anti-collision amelioree |
CN116736883A (zh) * | 2023-05-23 | 2023-09-12 | 天津大学 | 一种无人飞行集群智能协同运动规划的方法 |
CN116736883B (zh) * | 2023-05-23 | 2024-03-08 | 天津大学 | 一种无人飞行集群智能协同运动规划的方法 |
CN116551703B (zh) * | 2023-07-12 | 2023-09-12 | 长春工业大学 | 一种复杂环境下基于机器学习的运动规划方法 |
CN116551703A (zh) * | 2023-07-12 | 2023-08-08 | 长春工业大学 | 一种复杂环境下基于机器学习的运动规划方法 |
CN117437188A (zh) * | 2023-10-17 | 2024-01-23 | 广东电力交易中心有限责任公司 | 一种用于智慧电网的绝缘子缺陷检测*** |
CN117437188B (zh) * | 2023-10-17 | 2024-05-28 | 广东电力交易中心有限责任公司 | 一种用于智慧电网的绝缘子缺陷检测*** |
CN117093010B (zh) * | 2023-10-20 | 2024-01-19 | 清华大学 | 水下多智能体路径规划方法、装置、计算机设备和介质 |
CN117093010A (zh) * | 2023-10-20 | 2023-11-21 | 清华大学 | 水下多智能体路径规划方法、装置、计算机设备和介质 |
CN117707207A (zh) * | 2024-02-06 | 2024-03-15 | 中国民用航空飞行学院 | 基于深度强化学习的无人机对地目标跟踪与避障规划方法 |
CN117707207B (zh) * | 2024-02-06 | 2024-04-19 | 中国民用航空飞行学院 | 基于深度强化学习的无人机对地目标跟踪与避障规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112947562B (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112947562B (zh) | 一种基于人工势场法和maddpg的多无人机运动规划方法 | |
CN113341958B (zh) | 一种混合经验的多智能体强化学习运动规划方法 | |
CN113093802B (zh) | 一种基于深度强化学习的无人机机动决策方法 | |
CN113095481B (zh) | 一种基于并行自我博弈的空战机动方法 | |
Haarnoja et al. | Reinforcement learning with deep energy-based policies | |
CN113900445A (zh) | 基于多智能体强化学习的无人机协同控制训练方法及*** | |
Naveed et al. | Trajectory planning for autonomous vehicles using hierarchical reinforcement learning | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN116679719A (zh) | 基于动态窗口法与近端策略的无人车自适应路径规划方法 | |
Han et al. | Multi-uav automatic dynamic obstacle avoidance with experience-shared a2c | |
CN116243727A (zh) | 一种渐进式深度强化学习的无人载具对抗与避障方法 | |
Diallo et al. | Multi-agent pattern formation: a distributed model-free deep reinforcement learning approach | |
Xin et al. | DRL-based improvement for autonomous UAV motion path planning in unknown environments | |
CN113110101B (zh) | 一种生产线移动机器人聚集式回收入库仿真方法及*** | |
Sun et al. | Event-triggered reconfigurable reinforcement learning motion-planning approach for mobile robot in unknown dynamic environments | |
CN116551703B (zh) | 一种复杂环境下基于机器学习的运动规划方法 | |
Zhang et al. | Multi-UAV cooperative short-range combat via attention-based reinforcement learning using individual reward shaping | |
Zhu et al. | A novel method combining leader-following control and reinforcement learning for pursuit evasion games of multi-agent systems | |
CN114326826B (zh) | 多无人机队形变换方法及*** | |
CN116796843A (zh) | 一种基于pso-m3ddpg的无人机多对多追逃博弈方法 | |
CN116203987A (zh) | 一种基于深度强化学习的无人机集群协同避障方法 | |
Zhang et al. | Target Tracking and Path Planning of Mobile Sensor Based on Deep Reinforcement Learning | |
CN115933712A (zh) | 基于深度强化学习的仿生鱼领导者—跟随者编队控制方法 | |
Xie et al. | A distributed multi-agent formation control method based on deep Q learning | |
CN115097861A (zh) | 一种基于cel-maddpg的多无人机围捕策略方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211130 |
|
CF01 | Termination of patent right due to non-payment of annual fee |