CN116774731A - 一种基于强化学习的无人机编队路径规划方法 - Google Patents

一种基于强化学习的无人机编队路径规划方法 Download PDF

Info

Publication number
CN116774731A
CN116774731A CN202310918688.0A CN202310918688A CN116774731A CN 116774731 A CN116774731 A CN 116774731A CN 202310918688 A CN202310918688 A CN 202310918688A CN 116774731 A CN116774731 A CN 116774731A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
parameters
state
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310918688.0A
Other languages
English (en)
Inventor
孙伟
易乃欣
唐恒
孙田野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202310918688.0A priority Critical patent/CN116774731A/zh
Publication of CN116774731A publication Critical patent/CN116774731A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于强化学习的无人机编队路径规划方法,包括以下步骤;步骤S1:根据无人机的运动学方程和状态转移方程建立无人机的运动学模型,更新无人机的运动状态;步骤S2:将步骤S1获得的状态空间的状态参数和动作空间的运动参数代入Actor‑Critic网络模型,根据多智能体双延迟深度确定性策略梯度算法对Actor网络和Critic网络进行参数更新,得到Actor‑Critic网络参数;步骤S3:将步骤S2获得的Actor‑Critic网络参数代入根据奖励函数,获得奖励值;步骤S4:Actor网络和Critic网络循环计算,直至奖励值收敛,根据无人机的状态得到需要执行的动作参数。本发明能够增强***抵抗突发威胁的能力,通过设置动态编队奖励函数,实现了编队结构的稳定性和队形变换自主性。

Description

一种基于强化学习的无人机编队路径规划方法
技术领域
本发明属于无人机编队路径规划技术领域,具体涉及一种基于强化学习的无人机编队路径规划方法。
背景技术
无人机在近些年来被广泛应用于各行各业,单台无人机具备较高的操作性和便捷性,但是也存在着有效载荷能力受限、抗干扰能力弱等突出缺点。其无法适用于复杂任务,在任务执行过程中,若无人机发生故障,则宣布任务的失败。为此,无人机编队的全新架构被逐步运用于任务执行中。依靠无人机编队的集群优势,无人机编队在任务执行中实现功能的互补和能力的叠加,可以显著提高任务的成功率。
在无人机编队的任务执行中,路径规划和编队控制是其中重要的研究内容。已有的编队协同控制方法主要是分层控制的方式,其主要思想是将问题分为上中下三层,上层进行决策,中层传递指令,下层执行任务,从而将问题进行降维处理,简化求解空间。大多数学者运用仿生学方法如遗传算法、模拟退火算法、蚁群优化算法等进行编队问题求解。这类算法虽然求解快速有效,但是其依赖于提前获取环境信息,面对不断变化的动态环境则无能为力。近年来多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)给编队协同控制提供了新的思路,将无人机编队问题建模为马尔科夫决策过程(Markov DecisionProcess,MDP),各无人机自主与环境交互学习经验,通过环境给予的奖惩调整各自的行为,达到协同控制的目的。
Liu等人将长机-僚机法引入到了编队控制中,运用离线的强化学习方法进行训练,实现了五台无人机的编队控制和路径规划问题,但是仅仅考虑了无障碍物环境的情形。Pan等人将分布式的编队控制方法与基于模型的强化学习方法结合,解决了一字型编队在复杂环境中的避障问题,但是未考虑其它更复杂的编队结构。
现有编队控制方法,发现其存在以下问题:
1.现有方法一般将编队控制问题分解为编队保持和编队调整,然后分别采用不同的方法进行处理,这会使得算法复杂度过高,不利于算法快速收敛。
2.现有方法非常依赖于先验环境,同时对环境和编队的各自情况考虑得比较简单,无法对环境中的突发威胁及时进行规避,算法的泛化能力有限。
发明内容
为了克服上述现有技术存在的不足,本发明的目的在于提供一种基于强化学习的无人机编队路径规划方法,通过设置动态障碍物,能够增强***抵抗突发威胁的能力,通过设置动态编队奖励函数,实现了编队结构的稳定性和队形变换自主性。
为了实现上述目的,本发明采用的技术方案是:
一种基于强化学习的无人机编队路径规划方法,包括以下步骤;
步骤S1:根据无人机的运动学方程和状态转移方程建立无人机的运动学模型,更新无人机的运动状态,所述无人机的运动状态包括状态空间和动作空间;
步骤S2:将步骤S1获得的状态空间的状态参数和动作空间的运动参数代入Actor-Critic网络模型,根据多智能体双延迟深度确定性策略梯度算法对Actor网络和Critic网络进行参数更新,得到Actor-Critic网络参数;
步骤S3:将步骤S2获得的Actor-Critic网络参数代入根据奖励函数,获得奖励值;
步骤S4:Actor网络和Critic网络循环计算,直至奖励值收敛,根据无人机的状态得到需要执行的动作参数。
所述S1中,所述无人机的状态空间的状态参数包括无人机的横坐标、纵坐标、飞行角度、速度;
无人机的动作空间的运动参数包括无人机的角速度和加速度。
所述步骤S1中中,根据无人机的运动学方程和状态转移方程,获得第i台无人机t+1时刻的运动状态空间;所述步骤S1中的无人机运动学方程如下:
无人机的状态转移方程如下:
其中,xi表示为各台无人机的横坐标、yi表示各台无人机的纵坐标、ψi表示各台无人机的飞行角度、vi表示各台无人机的速度、ωi表示各台无人机的角速度、ai表示各台无人机的加速度。
所述步骤S2中,采用多智能体双延迟深度确定性策略梯度算法进行参数更新,Actor网络输入无人机的自身状态信息,输出无人机执行的动作,Critic网络输入所有无人机的状态和动作,输出评估Q值,Critic网络有1个输入层,3个隐藏层,1个输出层。
所述输入层输入无人机的状态信息和当前执行的动作;第一个隐藏层为全连接层,有32个神经元,激活函数为ReLU;第二个隐藏层为全连接层,有32个神经元,激活函数为ReLU;第三个隐藏层为全连接层,有1个神经元;输出层为全连接层,有1个神经元,用于输出对应的Q(s,a)作为动作评价;各台无人机每次进行状态转移的数据存储进缓存池中,每次批量获取数据输入进网络中进行参数更新,网络训练收敛之后,输出各台无人机的策略集合。所述步骤S2中,多智能体双延迟深度确定性策略梯度算法采用集中式训练、分布式执行的架构;
对Actor网络输入无人机的自身状态信息,所述无人机的自身状态信息包括无人机当前的位置坐标和状态参数,输出无人机所执行的动作,根据梯度上升法进行参数更新,其所依据的梯度计算公式如下:
其中,θi代表其网络参数,L代表损失函数,N代表数据量大小,q代表无人机的Q值,o代表各台无人机的状态,a代表无人机的动作,wi,j代表Q网络参数,μ代表动作策略;
对Critic网络输入所有无人机的状态和动作,所述无人机的状态和动作包括所有无人机当前的位置坐标、状态参数以及执行的动作参数,输出评估Q值,根据梯度下降法进行参数更新,其损失函数计算公式如下:
其中,wi,j代表其网络参数,L代表损失函数,N代表数据量大小,q代表无人机的Q值,o代表各台无人机的状态,a代表无人机的动作。
所述步骤S3中各台无人机所依据的奖励函数如下:
Ri=α1r12r23r34r45r56r67r7
其中,α1、α2、α3、α4、α5、α6、α7为加权系数,r1、r2、r6为稀疏性奖励,触发稀疏性奖励时无人机会结束本回合训练,r3、r4、r5、r7为引导性奖励,每次状态转移都会获得引导性奖励;
无人机若抵达目的地,获得环境给予的奖励值r1,其定义如下:
其中,Δd代表无人机与目的地之间的欧式距离,d1为距离阈值,Δθ为无人机飞行角度和无人机与目的地所成角度的差值;
无人机在运动过程中如果与障碍物或者边界撞击,则获得负向奖励r2,其定义如下:
r2=-10
无人机每走一步就获得一个负向奖励r3,模拟无人机行驶过程中所消耗的能量:
r3=-1
对于复合障碍物环境,因为需要避开障碍物,所以无人机的运动轨迹一般不是直线,即理解为当无人机与目的地连线中间存在障碍物时,无人机的飞行方向和无人机与终点连线需要存在一定夹角,通过分类讨论无人机、障碍物、目的地的相对位置关系,确定无人机的最佳飞行角度如下:
θbest=θL±θε
其中,θbest为无人机的最佳飞行角,θL为无人机沿障碍物切线方向的角度,θε为偏离切线的角度值;
为此,根据无人机的当前飞行角度和最佳飞行角度确定奖励r4的定义如下:
在无人机避障过程中,无人机可能短暂远离终点,为了加快算法收敛速度,这种情况是可以容忍的,为此提出针对距离目的地远近程度的奖励函数:
无人机之间发生碰撞产生的负向奖励r6定义如下:
稳定的编队结构意味着每两台无人机之间的间距都保持稳定,为此依据每两台无人机之间最优间距和当前间距设计奖励函数,能够保证编队在无障碍物时保持稳定,而在碰到障碍物时进行队形微调;深入分析其意味着每两台无人机之间的距离稳定在一个合理的值附近;为此,以距离为突破口,设置一条关于无人机i和无人机j之间实际距离与最优距离的奖励函数如下:
其中,di(j)为无人机i与无人机j的实际距离,dopt,ij为无人机i与无人机j之间的最优距离。所述奖励值与di(j)/dopt,ij呈二次函数关系,当di(j)/dopt,ij为1时,二次函数取得最大值1,即无人机i与无人机j的实际距离和最优距离相等时,奖励值最大为1;di(j)/dopt,ij与1偏离越远,即无人机i与无人机j的实际距离与最优距离偏离越远,奖励值越小,符合本设计奖励函数的初衷。所述步骤S4中,各台无人机根据下式输出动作at
at=μ(ot;θi)
其中,at为t时刻执行的动作,ot为t时刻状态,μ为策略函数,θi为策略网络的参数;
Critic网络参数θ的梯度运用梯度下降法进行θ参数更新,运用梯度上升法进行Actor网络参数φ更新;根据奖励值函数计算Q值,并与上一轮Q值进行比较,若误差在收敛范围内,模型收敛结束计算,反之继续进行循环计算直至Q值收敛。
本发明的有益效果:
本发明具备对环境中的突发威胁进行应对的能力。同时本发明针对编队结构稳定性和队形变换自主性问题,设计了动态编队奖励函数,提升了编队的协同能力。
本发明由于采用了动态障碍物环境,因此增强了***抵抗突发威胁的能力。
本发明由于拓展了稀疏性奖励函数,因此解决了编队内部避碰问题。
本发明由于采用了动态编队奖励函数,因此同时实现了编队结构稳定性和队形变换自主性。
附图说明
图1是一个实施例中基于强化学习的无人机编队路径规划方法流程图。
图2是一个实施例中多智能体双延迟深度确定性策略梯度算法结构图。
图3是一个动态编队奖励函数示意图。
图4是本发明所涉及的三种方案的成功率曲线图。
图5是本发明所涉及的三种方案的每回合累计奖励图。
图6为三种方案的编队变形率曲线示意图。
图7为无人机编队路径规划实施例示意图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明提出了动态编队奖励函数,获得了较好的优化效果。如图1-图5所示,本发明公开了一种具体的实施例,公开了一种基于强化学习的无人机编队路径规划方法,包含以下步骤:
步骤S1、根据无人机的运动学方程和状态转移方程建立无人机的运动学模型,更新无人机的运动状态,所述无人机的状态空间包括无人机的横坐标、纵坐标、飞行角度、速度;无人机的动作空间包括无人机的角速度和加速度。
运动学方程如下:
无人机的状态转移方程如下:
其中,xi、yi、ψi、vi、ωi、ai分别是各台无人机的横坐标、纵坐标、飞行角度、速度,角速度、加速度。
步骤S2、将步骤S1无人机运动学模型获得的无人机状态参数和运动参数代入Actor-Critic网络模型,根据多智能体双延迟深度确定性策略梯度算法对Actor网络和Critic网络进行参数更新;如图2所示,算法包含1个Actor当前网络、1个Actor目标网络、2个Critic当前网络、2个Critic目标网络,为了避免Q值的高估问题,选取两组Critic网络中的较小值作为目标Q值;Actor网络输入无人机的自身状态信息,输出无人机所执行的动作,根据梯度上升法进行参数更新,其所依据的梯度计算公式如下:
其中,θi代表其网络参数,L代表损失函数,N代表数据量大小,q代表无人机的Q值,o代表各台无人机的状态,a代表无人机的动作,wi,j代表Q网络参数,μ代表动作策略。
Critic网络输入所有无人机的状态和动作,输出评估Q值,根据梯度下降法进行参数更新,其损失函数计算公式如下:
其中,wi,j代表其网络参数,L代表损失函数,N代表数据量大小,q代表无人机的Q值,o代表各台无人机的状态,a代表无人机的动作。
步骤S3、将步骤S2获得的Actor-Critic网络参数代入根据奖励函数,获得奖励值,各台无人机所依据的奖励函数如下:
Ri=α1r12r23r34r45r56r67r7
其中,α1、α2、α3、α4、α5、α6、α7为加权系数,r1、r2、r6为稀疏性奖励,触发稀疏性奖励时无人机会结束本回合训练,r3、r4、r5、r7为引导性奖励,每次状态转移都会获得引导性奖励。
无人机若抵达目的地,获得环境给予的奖励值r1,其定义如下:
其中,Δd代表无人机与目的地之间的欧式距离,d1为距离阈值,Δθ为无人机飞行角度和无人机与目的地所成角度的差值。
无人机在运动过程中如果与障碍物或者边界撞击,则获得负向奖励r2,其定义如下:
r2=-10
无人机每走一步就获得一个负向奖励r3,模拟无人机行驶过程中所消耗的能量。
r3=-1
对于复合障碍物环境,因为需要避开障碍物,所以无人机的运动轨迹一般不是直线,即理解为当无人机与目的地连线中间存在障碍物时,无人机的飞行方向和无人机与终点连线需要存在一定夹角。通过分类讨论无人机、障碍物、目的地的相对位置关系,确定无人机的最佳飞行角度如下:
θbest=θL±θε
其中,θbest为无人机的最佳飞行角,θL为无人机沿障碍物切线方向的角度,θε为偏离切线的角度值。
为此,根据无人机的当前飞行角和最佳飞行角确定奖励r4的定义如下:
在无人机避障过程中,无人机可能短暂远离终点,为了加快算法收敛速度,这种情况是可以容忍的,为此提出针对距离目的地远近程度的奖励函数:
无人机之间发生碰撞产生的负向奖励r6定义如下:
为了保证稳定的编队结构,深入分析稳定的编队结构意味着每两台无人机之间的间距都保持稳定,为此依据每两台无人机之间最优间距和当前间距设计奖励函数,能够保证编队在无障碍物时保持稳定,而在碰到障碍物时进行队形微调。深入分析其意味着每两台无人机之间的距离稳定在一个合理的值附近。为此,以距离为突破口,设置一条关于无人机i和无人机j之间实际距离与最优距离的奖励函数如下:
其中,di(j)为无人机i与无人机j的实际距离,dopt,ij为无人机i与无人机j之间的最优距离。
如图3所示,可以看出奖励值与di(j)/dopt,ij呈二次函数关系,当di(j)/dopt,ij为1时,二次函数取得最大值1,即无人机i与无人机j的实际距离和最优距离相等时,奖励值最大为1;di(j)/dopt,ij与1偏离越远,即无人机i与无人机j的实际距离与最优距离偏离越远,奖励值越小,符合本文设计奖励函数的初衷。
对于无人机i的动态编队奖励,考虑其与编队中其它各台无人机的rd,ij,具体如下:
其中,i、j为无人机编号,rd,ij为无人机i与无人机j之间的距离奖励函数。
步骤S4、Actor网络和Critic网络训练收敛之后,各台无人机根据下式输出动作at
at=μ(ot;θi)
其中,at为t时刻执行的动作,ot为t时刻状态,μ为策略函数,θi为策略网络的参数。
如图4展示了三种方案(多智能体深度确定性策略梯度算法+改进前的奖励函数,多智能体双延迟深度确定性策略梯度算法+改进前的奖励函数、多智能体双延迟深度确定性策略梯度算法+动态编队奖励函数)的成功率曲线,可以明显看出本发明提出的动态编队奖励函数在提升成功率方面具有较大优势。
如图5展示了三种方案的每回合累计奖励变化情况,可以明显看出,本发明提出的动态编队奖励函数在提升算法收敛速度方面具有较大优势。
图5a为MADDPG算法每回合累计奖励;
图5b为MATD3算法每回合累计奖励;
图5c为MATD3-IDFRF算法每回合累计奖励;
如图6展示了三种方案的编队变形率曲线,可以明显看出,动态编队奖励帮助无人机形成稳定的编队结构并适时进行队形变换,所以整个过程中维持较低的编队变形率,显示了其强大优势。
如图7所示,无人机编队路径规划问题描述为在有限的区域内,多台无人机从各自的起点出发,组成特定的编队队形,避开若干障碍物,最终到达终点。同时在编队运动过程中,对于以原有队形无法避开的障碍物,要尽可能小的改变其原有队形。图中三条蓝色实线代表三台无人机的飞行路线,由红色实心点和红色虚线组成的三角形代表无人机组成的编队。

Claims (10)

1.一种基于强化学习的无人机编队路径规划方法,其特征在于,包括以下步骤;
步骤S1:根据无人机的运动学方程和状态转移方程建立无人机的运动学模型,更新无人机的运动状态,所述无人机的运动状态包括状态空间和动作空间;
步骤S2:将步骤S1获得的状态空间的状态参数和动作空间的运动参数代入Actor-Critic网络模型,根据多智能体双延迟深度确定性策略梯度算法对Actor网络和Critic网络进行参数更新,得到Actor-Critic网络参数;
步骤S3:将步骤S2获得的Actor-Critic网络参数代入根据奖励函数,获得奖励值;
步骤S4:Actor网络和Critic网络循环计算,直至奖励值收敛,根据无人机的状态得到需要执行的动作参数。
2.根据权利要求1所述的一种基于强化学习的无人机编队路径规划方法,其特征在于,所述S1中,所述无人机的状态空间的状态参数包括无人机的横坐标、纵坐标、飞行角度、速度;
无人机的动作空间的运动参数包括无人机的角速度和加速度。
3.根据权利要求1所述的一种基于强化学习的无人机编队路径规划方法,其特征在于,所述步骤S1中中,根据无人机的运动学方程和状态转移方程,获得第i台无人机t+1时刻的运动状态空间;所述步骤S1中的无人机运动学方程如下:
无人机的状态转移方程如下:
其中,xi表示为各台无人机的横坐标、yi表示各台无人机的纵坐标、ψi表示各台无人机的飞行角度、vi表示各台无人机的速度、ωi表示各台无人机的角速度、ai表示各台无人机的加速度。
4.根据权利要求1所述的一种基于强化学习的无人机编队路径规划方法,其特征在于,所述步骤S2中,采用多智能体双延迟深度确定性策略梯度算法进行参数更新,Actor网络输入无人机的自身状态信息,输出无人机执行的动作,Critic网络输入所有无人机的状态和动作,输出评估Q值,Critic网络有1个输入层,3个隐藏层,1个输出层。
5.根据权利要求4所述的一种基于强化学习的无人机编队路径规划方法,其特征在于,所述输入层输入无人机的状态信息和当前执行的动作;第一个隐藏层为全连接层,有32个神经元,激活函数为ReLU;第二个隐藏层为全连接层,有32个神经元,激活函数为ReLU;第三个隐藏层为全连接层,有1个神经元;输出层为全连接层,有1个神经元,用于输出对应的Q(s,a)作为动作评价;各台无人机每次进行状态转移的数据存储进缓存池中,每次批量获取数据输入进网络中进行参数更新,网络训练收敛之后,输出各台无人机的策略集合。
6.根据权利要求4所述的一种基于强化学习的无人机编队路径规划方法,其特征在于,所述步骤S2中,多智能体双延迟深度确定性策略梯度算法采用集中式训练、分布式执行的架构;
对Actor网络输入无人机的自身状态信息,所述无人机的自身状态信息包括无人机当前的位置坐标和状态参数,输出无人机所执行的动作,根据梯度上升法进行参数更新,其所依据的梯度计算公式如下:
其中,θi代表其网络参数,L代表损失函数,N代表数据量大小,q代表无人机的Q值,o代表各台无人机的状态,a代表无人机的动作,wi,j代表Q网络参数,μ代表动作策略;
对Critic网络输入所有无人机的状态和动作,所述无人机的状态和动作包括所有无人机当前的位置坐标、状态参数以及执行的动作参数,输出评估Q值,根据梯度下降法进行参数更新,其损失函数计算公式如下:
其中,wi,j代表其网络参数,L代表损失函数,N代表数据量大小,q代表无人机的Q值,o代表各台无人机的状态,a代表无人机的动作。
7.根据权利要求1所述的一种基于强化学习的无人机编队路径规划方法,其特征在于,所述步骤S3中各台无人机所依据的奖励函数如下:
Ri=α1r12r23r34r45r56r67r7
其中,α1、α2、α3、α4、α5、α6、α7为加权系数,r1、r2、r6为稀疏性奖励,触发稀疏性奖励时无人机会结束本回合训练,r3、r4、r5、r7为引导性奖励,每次状态转移都会获得引导性奖励。
8.根据权利要求7所述的一种基于强化学习的无人机编队路径规划方法,其特征在于,无人机若抵达目的地,获得环境给予的奖励值r1,其定义如下:
其中,Δd代表无人机与目的地之间的欧式距离,d1为距离阈值,Δθ为无人机飞行角度和无人机与目的地所成角度的差值;
无人机在运动过程中如果与障碍物或者边界撞击,则获得负向奖励r2,其定义如下:
r2=-10
无人机每走一步就获得一个负向奖励r3,模拟无人机行驶过程中所消耗的能量:
r3=-1
无人机的最佳飞行角度如下:
θbest=θL±θε
其中,θbest为无人机的最佳飞行角,θL为无人机沿障碍物切线方向的角度,θε为偏离切线的角度值;
为此,根据无人机的当前飞行角度和最佳飞行角度确定奖励r4的定义如下:
在无人机避障过程中,针对距离目的地远近程度的奖励函数:
无人机之间发生碰撞产生的负向奖励r6定义如下:
关于无人机i和无人机j之间实际距离与最优距离的奖励函数如下:
其中,di(j)为无人机i与无人机j的实际距离,dopt,ij为无人机i与无人机j之间的最优距离。
9.根据权利要求8所述的一种基于强化学习的无人机编队路径规划方法,其特征在于,所述奖励值与di(j)/dopt,ij呈二次函数关系,当di(j)/dopt,ij为1时,二次函数取得最大值1,即无人机i与无人机j的实际距离和最优距离相等时,奖励值最大为1;di(j)/dopt,ij与1偏离越远,即无人机i与无人机j的实际距离与最优距离偏离越远,奖励值越小。
10.根据权利要求1所述的一种基于强化学习的无人机编队路径规划方法,其特征在于,所述步骤S4中,各台无人机根据下式输出动作at
at=μ(ot;θi)
其中,at为t时刻执行的动作,ot为t时刻状态,μ为策略函数,θi为策略网络的参数;
Critic网络参数θ的梯度运用梯度下降法进行θ参数更新,运用梯度上升法进行Actor网络参数φ更新;根据奖励值函数计算Q值,并与上一轮Q值进行比较,若误差在收敛范围内,模型收敛结束计算,反之继续进行循环计算直至Q值收敛。
CN202310918688.0A 2023-07-25 2023-07-25 一种基于强化学习的无人机编队路径规划方法 Pending CN116774731A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310918688.0A CN116774731A (zh) 2023-07-25 2023-07-25 一种基于强化学习的无人机编队路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310918688.0A CN116774731A (zh) 2023-07-25 2023-07-25 一种基于强化学习的无人机编队路径规划方法

Publications (1)

Publication Number Publication Date
CN116774731A true CN116774731A (zh) 2023-09-19

Family

ID=87986015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310918688.0A Pending CN116774731A (zh) 2023-07-25 2023-07-25 一种基于强化学习的无人机编队路径规划方法

Country Status (1)

Country Link
CN (1) CN116774731A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117970935A (zh) * 2024-04-02 2024-05-03 博创联动科技股份有限公司 一种基于数字乡村的农机自动避障方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117970935A (zh) * 2024-04-02 2024-05-03 博创联动科技股份有限公司 一种基于数字乡村的农机自动避障方法及***
CN117970935B (zh) * 2024-04-02 2024-06-11 博创联动科技股份有限公司 一种基于数字乡村的农机自动避障方法及***

Similar Documents

Publication Publication Date Title
CN110333739B (zh) 一种基于强化学习的auv行为规划及动作控制方法
Ma et al. Multi-robot target encirclement control with collision avoidance via deep reinforcement learning
CN111077909B (zh) 一种基于视觉信息的新型无人机自组群自洽优化控制方法
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN116774731A (zh) 一种基于强化学习的无人机编队路径规划方法
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN114003059B (zh) 运动学约束条件下基于深度强化学习的uav路径规划方法
CN113848974A (zh) 一种基于深度强化学习的飞行器轨迹规划方法及***
CN115903865A (zh) 一种飞行器近距空战机动决策实现方法
CN115167447A (zh) 基于雷达图像端到端深度强化学习的无人艇智能避障方法
CN115688268A (zh) 一种飞行器近距空战态势评估自适应权重设计方法
CN114138022B (zh) 一种基于精英鸽群智能的无人机集群分布式编队控制方法
CN115373415A (zh) 一种基于深度强化学习的无人机智能导航方法
CN114967721A (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
Basile et al. Ddpg based end-to-end driving enhanced with safe anomaly detection functionality for autonomous vehicles
CN116796843A (zh) 一种基于pso-m3ddpg的无人机多对多追逃博弈方法
CN116448119A (zh) 一种面向突发威胁的无人蜂群协同航迹规划方法
CN116385909A (zh) 一种基于深度强化学习的无人机目标跟踪方法
CN113050420B (zh) 基于s面控制和td3的auv路径跟踪方法及***
CN115718497A (zh) 一种多无人艇避碰决策方法
CN113093803B (zh) 一种基于e-sac算法的无人机空战运动控制方法
CN116700353A (zh) 一种基于强化学习的无人机路径规划方法
CN116796505B (zh) 一种基于示例策略约束的空战机动策略生成方法
Ma et al. Trajectory tracking of an underwater glider in current based on deep reinforcement learning
CN115097853B (zh) 一种基于细粒度重复策略的无人机机动飞行控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination