CN110134140B - 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法 - Google Patents

一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法 Download PDF

Info

Publication number
CN110134140B
CN110134140B CN201910437021.2A CN201910437021A CN110134140B CN 110134140 B CN110134140 B CN 110134140B CN 201910437021 A CN201910437021 A CN 201910437021A CN 110134140 B CN110134140 B CN 110134140B
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
potential function
reward
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910437021.2A
Other languages
English (en)
Other versions
CN110134140A (zh
Inventor
丁勇
杨勇
黄鑫城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201910437021.2A priority Critical patent/CN110134140B/zh
Publication of CN110134140A publication Critical patent/CN110134140A/zh
Application granted granted Critical
Publication of CN110134140B publication Critical patent/CN110134140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公布了一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,所述方法首先建立无人机在环境中的状态空间,该状态空间为连续状态空间,包含无人机的无穷多个状态;其次将360度n等分成若干个角度作为无人机的航向角,建立无人机的动作空间;接着计算目标对无人机的势函数奖赏和障碍物对无人机的势函数奖赏,并对两者进行叠加作为无人机总的势函数奖赏;然后利用无人机总的势函数奖赏对Q估计网络进行路径规划训练;最后利用训练后的Q估计网络对无人机进行环境信息未知连续状态下路径规划。该方法主要解决了无人机在无环境模型下的路径规划问题,满足了无人机在执行任务中对于所处环境状态连续的要求,势函数奖赏加快了无人机路径规划的速度,具有很好的适用性。

Description

一种环境信息未知连续状态下基于势函数奖赏DQN的无人机 路径规划方法
技术领域
本发明属于无人机路径规划技术领域,特别是一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法。
技术背景
无人机路径规划是无人机领域长久不衰的热点问题,是指无人机在一定的约束条件下,从起始点到目标点规划出一条最优或次优的无碰撞路径。随着无人机面临的实际环境日益复杂,规划出一条实用有效的飞行路径则是无人机顺利完成各项任务的前提。所谓环境信息未知的路径规划是指无人机在规划路径之前无法预知环境的信息,环境信息的来源需要靠机载的感知***获取。由于无人机只能得到感知***侦测范围内的环境信息,可以尽可能地规划出最优、次优路径或满足约束条件的路径。常用的路径规划方法有人工势场法、D*算法、导航向量场等,这些方法虽然能够动态地规划出无人机的飞行路径,是一种局部路径规划方法,由于需要对具体环境建立模型,缺乏通用性。
近年来随着人工智能技术的飞速发展,深度学习和机器学习在无人机领域展现出巨大潜力。强化学习、DQN(Deep Q-Learning Network)等方法无需对无人机所处的环境进行物理建模,只需通过无人机对所处环境不断地进行离线训练,就可以找出最优、次优或满足限定条件的路径。但目前这些方法中都假设无人机所处的环境为离散的栅格地图,由于这种栅格地图所能容纳的状态有限,要求环境为已知,且网络收敛速度减慢,不能很好地满足当今无人机执行任务过程中所处的环境未知且状态连续的情况。
发明内容
本发明的目的在于提供一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,该方法能够使无人机在环境信息未知连续状态下进行无环境模型路径规划,并且势函数奖赏加快了无人机路径规划的速度,具有很好的适用性。
为实现上述目的,本发明采用以下技术方案:
一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,包括:
步骤一,建立无人机在环境中的状态空间S,该状态空间为连续状态空间,包含无人机的无穷个状态。
步骤二,将360度n等分成若干个角度作为无人机的航向角,角度间隔为
Figure BSA0000183541810000021
建立无人机的动作空间A。
步骤三,计算目标对无人机的势函数奖赏Φa(sk)和障碍物对无人机的势函数奖赏Φo(sk),并对两者进行叠加作为无人机总的势函数奖赏Φ(sk)。
步骤四,利用无人机总的势函数奖赏Φ(sk)对Q估计网络进行路径规划训练。
步骤五,利用训练后的Q估计网络对无人机进行环境信息未知连续状态下路径规划。
进一步的优选方案,所述的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,其特征在于,所述步骤一中建立无人机在环境中的状态空间S,具体为:
S=(da,φa,do,φo) (7)
式中,da为无人机到目标的距离,φa为无人机到目标的连线与x轴正半轴的夹角,do为无人机到最近障碍物的距离,φo为无人机到最近障碍物的连线与x轴正半轴的夹角。
进一步的优选方案,所述的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,其特征在于,所述步骤三中计算目标对无人机的势函数奖赏Φa(sk)和障碍物对无人机的势函数奖赏Φo(sk),并对两者进行叠加作为无人机总的势函数奖赏Φ(sk),具体为:
(3.1)目标对无人机的势函数奖赏Φa(sk),具体如下式所示:
Figure BSA0000183541810000022
式中,
Figure BSA0000183541810000023
表示第k时刻无人机到目标的距离,
Figure BSA0000183541810000024
表示第k+1时刻无人机到目标的距离,η为无人机的飞行步长。
(3.2)障碍物对无人机的势函数奖赏Φo(sk),具体如下式所示:
Figure BSA0000183541810000031
式中,
Figure BSA0000183541810000032
为第k时刻无人机到障碍物的距离,
Figure BSA0000183541810000033
为第k+1时刻无人机到障碍物的距离,dobs为传感器观测的障碍物距离,η为无人机的飞行步长。
(3.3)无人机总的势函数奖赏Φ(sk),具体如下式所示:
Φ(sk)=Φa(sk)+Φo(sk) (10)
式中,Φa(sk)为目标对无人机的势函数奖赏,Φo(sk)为障碍物对无人机的势函数奖赏。
进一步的优选方案,所述的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,其特征在于,所述步骤四中利用无人机总的势函数奖赏Φ(sk)对Q估计网络进行路径规划训练,具体步骤为:
(4.1)初始化经验池D,设置经验池容量及经验最小块Dmin大小。
(4.2)建立Q估计网络,设置Q估计网络隐含层个数、每个隐含层含有的神经元个数、输出层神经元的个数,选择激活函数;随机初始化Q估计网络权重θ,设置神经网络学***滑系数、ε-greedy策略选择概率ε。
(4.3)建立Q目标网络,令初始化目标网络权重θ-=θ。
(4.4)对每一个情节,初始化无人机状态序列s1=(da 1,φa 1,do 1,φo 1)。
(4.5)对该情节中的每一步,在概率ε内选择一个随机动作ak,否则选择动作
Figure BSA0000183541810000034
令k时刻无人机处于状态sk时执行动作ak所获得的回报rk为无人机总的势函数奖赏,即rk=Φ(sk);计算无人机在k+1时刻的状态sk+1=(da k+1,φa k+1,do k+1,φo k+1)。
(4.6)将每一步的样本(sk,ak,rk,sk+1)存储在经验池D中,并从中随机抽取最小经验块Dmin
(4.7)计算k时刻所对应的目标值yk,具体为:
Figure BSA0000183541810000041
对(yk-Q(sk,ak;θ))2执行梯度下降法更新Q估计网络权值θ,每隔C步设置目标网络权值θ-=θ。
(4.8)若所有情节未训练结束完,则跳转到步骤(4.4);若所有情节全部训练完成,则网络训练结束。
进一步的优选方案,所述的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,其特征在于,所述步骤五中利用训练后的Q估计网络对无人机进行环境信息未知连续状态下路径规划,具体步骤为:
(5.1)初始化无人机飞行步长η、路径平滑系数λ。
(5.2)无人机获取当前i时刻目标的位置(xa i,ya i),障碍物的位置(xo i,yo i)和大小,得到无人机当前i时刻的状态si=(da i,φa i,do i,φo i)。
(5.3)将无人机当前i时刻的状态si=(da i,φa i,do i,φo i)输入到训练后的Q估计网络,获取无人机的最优动作值a*∈{0,1,...,n-1},则无人机在i+1时刻的位置(xu i+1,yu i+1)由下式得到,具体为:
Figure BSA0000183541810000042
式中,λ为路径平滑系数,起到了细分动作空间的作用,在一定意义上增加了动作数目,使得规划出的路径更加平滑;(xu i,yu i)为无人机当前i时刻的位置,η为无人机飞行步长,
Figure BSA0000183541810000043
为角度间隔。
(5.4)若无人机未到达目标的位置(xa i,ya i),则跳转到步骤(5.2);若到达目标位置,则路径规划结束。
本发明具有以下优点:
1.本发明建立的状态空间能够表达出无人机在环境中的任意状态,而且该状态空间是连续的,克服了传统DQN路径规划方法中存在的无人机所处环境为离散的栅格地图,容纳的状态有限,且要求环境为已知的问题,满足了无人机在执行任务中对于所处环境未知且状态连续的要求。
2.本发明提出的基于势函数奖赏DQN的无人机路径规划,在DQN训练过程中,目标和障碍物的势函数奖赏根据无人机与目标和障碍物的距离动态调整奖赏值使得无人机趋向目标位置及避开障碍物,势函数奖赏加快了无人机路径规划的速度和收敛效果,实现了无人机在无环境模型下的路径规划,具有较好的适用性。
附图表说明
图1为本发明方法的流程图。
图2为无人机状态空间示意图。
图3为无人机动作空间示意图。
图4为DQN训练过程中无人机探索路径的情况。
图5为基于势函数奖赏DQN的路径规划效果。
图6为简单奖赏和势函数奖赏下DQN平均回报。
图7为简单奖赏和势函数奖赏下DQN训练误差曲线。
具体实施方式
结合所附图表,对本发明的技术方案作具体说明。
如图1所示,本发明的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,具体包括以下步骤:
步骤1建立无人机在环境中的状态空间S,具体过程为:
对无人机所处环境建立笛卡尔坐标系,设无人机在环境中的位置为(xu,yu),目标的位置为(xa,ya),离无人机最近的障碍物的位置为(xo,yo),如图2所示。由图中可以很容易地计算出无人机到目标的距离da、无人机到最近障碍物的距离do、无人机到目标的连线与x轴正半轴的夹角φa、无人机到最近障碍物的连线与x轴正半轴的夹角φo。选取S=(da,φa,do,φo)作为无人机在环境中的状态空间,该状态空间不仅可以表达出无人机在环境中的任意状态,而且为连续的状态空间。
步骤2将360度划分16等份作为无人机的航向角,角度间隔
Figure BSA0000183541810000051
建立无人机的动作空间为A={0,1,...,15},如图3所示。
步骤3计算目标对无人机的势函数奖赏Φa(sk)和障碍物对无人机的势函数奖赏Φo(sk),并对两者进行叠加作为无人机总的势函数奖赏Φ(sk),具体为:
(3.1)目标对无人机的势函数奖赏Φa(sk),具体如下式所示:
Figure BSA0000183541810000061
式中,
Figure BSA0000183541810000062
表示第k时刻无人机到目标的距离,
Figure BSA0000183541810000063
表示第k+1时刻无人机到目标的距离,η为无人机的飞行步长。
(3.2)障碍物对无人机的势函数奖赏Φo(sk),具体如下式所示:
Figure BSA0000183541810000064
式中,
Figure BSA0000183541810000065
为第k时刻无人机到障碍物的距离,
Figure BSA0000183541810000066
为第k+1时刻无人机到障碍物的距离,dobs为传感器观测的障碍物距离,η为无人机的飞行步长。
(3.3)无人机总的势函数奖赏Φ(sk),具体如下式所示:
Φ(sk)=Φa(sk)+Φo(sk) (15)
式中,Φa(sk)为目标对无人机的势函数奖赏,Φo(sk)为障碍物对无人机的势函数奖赏。
步骤4利用无人机总的势函数奖赏Φ(sk)对Q估计网络进行路径规划训练,具体步骤为:
(4.1)初始化经验池D,设置经验池容量大小为20000、经验最小块Dmin大小为500。
(4.2)建立Q估计网络,包含3个隐含层,每个隐含层含有100个神经元,输出层神经元个数为100个,采用ReLu激活函数;随机初始化网络权重θ,设置神经网络学***滑系数为0.75、ε-greedy策略选择概率ε为0.1。
(4.3)建立Q目标网络,令初始化网络权重θ-=θ。
(4.4)对每一个情节,初始化无人机状态序列s1=(da 1,φa 1,do 1,φo 1)。
(4.5)对该情节中的每一步,在概率ε内选择一个随机动作ak,否则选择动作
Figure BSA0000183541810000067
令k时刻无人机处于状态sk时执行动作ak所获得的回报rk为无人机总的势函数奖赏,即rk=Φ(sk);计算无人机k+1时刻的状态sk+1=(da k+1,φa k+1,do k+1,φo k+1)。
(4.6)将每一步的样本(sk,ak,rk,sk+1)存储在经验池D中,并从中随机抽取500个样本作为最小经验块Dmin
(4.7)计算k时刻所对应的目标值yk,具体为:
Figure BSA0000183541810000071
对(yk-Q(sk,ak;θ))2执行梯度下降法更新Q估计网络权值θ,每隔C为300步设置目标网络权值θ-=θ。
(4.8)若所有情节未训练结束完,则跳转到步骤(4.4);若所有情节全部训练完成,则网络训练结束。
步骤5利用训练后的Q估计网络对无人机进行环境信息未知连续状态下路径规划,具体步骤为:
(5.1)初始化无人机飞行步长η为1、路径平滑系数λ为0.6,当前时刻i为1。
(5.2)无人机获取当前i时刻目标的位置(xa i,ya i),障碍物的位置(xo i,yo i)和大小,得到无人机状态si=(da i,φa i,do i,φo i)。
(5.3)将无人机当前i时刻的状态si=(da i,φa i,do i,φo i)输入到训练后的Q估计网络,获取无人机的最优动作值a*∈{0,1,...,n-1},则无人机在i+1时刻的位置(xu i+1,yu i+1)由下式得到,具体为:
Figure BSA0000183541810000072
式中,λ为路径平滑系数,起到了细分动作空间的作用,在一定意义上增加了动作数目,使得规划出的路径更加平滑;(xu i,yu i)为无人机当前i时刻的位置,η为无人机飞行步长,
Figure BSA0000183541810000073
为角度间隔。
(5.4)若无人机未到达目标的位置(xa i,ya i),则i+1,跳转到步骤(5.2);若到达目标的位置,则路径规划结束。
为了验证方法的可行性和有效性,下面结合实例对本发明做进一步详细的描述。
在Ubuntu操作***上,使用python语言在pycharm上搭建仿真环境,DQN框架采用基于数据流编程的网络框架TensorFlow进行仿真实验。仿真环境采用一个1000m×1000m的连续区域,在该区域无人机的起始位置和目标位置随机产生,其中随机产生10个障碍物,无人机感知***对障碍物的感知距离设为100m。
在进行DQN训练过程中,当每个情节训练结束后随机更换障碍物和目标的位置,无人机起始位置每个情节都随机生成,通过大量的训练,以使DQN拟合出几乎所有状态下的动作优劣。
图4展示的是DQN训练过程中无人机探索路径的四种情况,图中实心圆点表示无人机的起始位置,六角星表示目标位置,圆圈表示无人机对障碍物的探测范围,即无人机一旦进入圆圈内就可感知到障碍物的位置。情节1、情节2、情节1000和情节2071中障碍物位置相同,但无人机的起点位置不同,目标的位置只有情节1和情节2相同。在图4情节1中,由于对DQN网络训练刚开始,按照ε-greedy策略,无人机以ε=0.1的概率进行探索,随机选择动作,所选择的动作值最大的动作不是最优的,所以无人机的路径看起来相当漫长且复杂,但经过不停地“摸索”,最终还是找到了目标的位置。在图4情节2中,障碍物和目标位置不变,无人机的起始位置随机产生,由于情节1无人机在遍历很多状态空间后并最终找到目标,Q估计网络已经存储很多正样本,所以情节2中无人机能够较快地找到目标并在一定程度上避开障碍物。图4情节1000情况为更换目标位置后DQN网络训练的初期,和图4情节1相似也需要遍历大量状态才能找到目标。图4情节2071为对当前目标位置进行大量训练后的情况,由图中可明显看出,无人机能很快地避开障碍物并找到目标,但由于在这个过程中无人机仍有ε=0.1的概率对环境进行探索,所以路径还会存在一定概率的“曲折”。
对DQN网络经过大量训练后,我们随机生成10个障碍物,此后障碍物位置固定不动,测试在目标和无人机起始位置随机产生的情况下路径规划效果。图5为基于势函数奖赏DQN的路径规划效果,由图中可以明显看出,DQN通过一定的训练后,能够有效避开障碍到达目标位置。
图6(a)和图6(b)分别为简单奖赏和势函数奖赏规则下,DQN训练过程中前200个情节平均回报曲线。这里简单奖赏规则定义为:当无人机执行下一动作产生的结果是接近目标时,目标对无人机的奖赏给出固定的正奖励值,反之,给出固定的负奖励值。这里固定奖励值设置为无人机的飞行步长η;同理,障碍物对无人机的奖赏也按此规则定义。由图6(a)简单奖赏规则下DQN平均回报曲线可以看出,无人机获得的回报整体趋势波动较大,且平均回报收敛较慢;由图6(b)势函数奖赏规则下DQN平均回报曲线可以看出,无人机能够更快地获得平均回报,且收敛速度明显变快。
图7(a)和7(b)分别为简单奖赏下DQN与势函数奖赏下DQN在7000步训练过程中动作估计值和目标值的误差曲线。由图中可以看出,由于无人机在路径探索过程中,存在ε=0.1的概率随机选择动作,所以误差曲线会出现尖峰的现象,但总体上呈现下降的趋势,直到估计值达到目标值。但图7(a)简单奖赏下DQN网络在训练5000步后才达到收敛状态,而图7(b)势函数奖赏下DQN在训练到3500步时已接近收敛,所以势函数奖赏下DQN比简单奖赏下DQN在路径规划训练过程中网络收敛速度更快。

Claims (4)

1.一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,其特征在于,包括以下步骤:
步骤一,建立无人机在环境中的状态空间S,该状态空间为连续状态空间,包含无人机的无穷个状态;
步骤二,将360度n等分成若干个角度作为无人机的航向角,角度间隔为
Figure FDA0003174528800000011
建立无人机的动作空间A;
步骤三,计算目标对无人机的势函数奖赏Φa(sk)和障碍物对无人机的势函数奖赏Φo(sk),并对两者进行叠加作为无人机总的势函数奖赏Φ(sk),具体为:
(3.1)目标对无人机的势函数奖赏Φa(sk),具体如下式所示:
Figure FDA0003174528800000012
式中,
Figure FDA0003174528800000013
为第k时刻无人机到目标的距离,
Figure FDA0003174528800000014
为第k+1时刻无人机到目标的距离,η为无人机的飞行步长;
(3.2)障碍物对无人机的势函数奖赏Φo(sk),具体如下式所示:
Figure FDA0003174528800000015
式中,
Figure FDA0003174528800000016
为第k时刻无人机到障碍物的距离,
Figure FDA0003174528800000017
为第k+1时刻无人机到障碍物的距离,dobs为传感器观测的障碍物距离,η为无人机的飞行步长;
(3.3)无人机总的势函数奖赏Φ(sk),具体如下式所示:
Φ(sk)=Φa(sk)+Φo(sk) (4)
式中,Φa(sk)为目标对无人机的势函数奖赏,Φo(sk)为障碍物对无人机的势函数奖赏;
步骤四,利用无人机总的势函数奖赏Φ(sk)对Q估计网络进行路径规划训练;
步骤五,利用训练后的Q估计网络对无人机进行环境信息未知连续状态下路径规划。
2.如权利要求1所述的一种环境信息未知连续状态下基于势函数奖赏DQN 的无人机路径规划方法,其特征在于,所述步骤一中建立无人机在环境中的状态空间S,具体为:
S=(daa,doo) (1)
式中,da为无人机到目标的距离,φa为无人机到目标的连线与x轴正半轴的夹角,do为无人机到最近障碍物的距离,φo为无人机到最近障碍物的连线与x轴正半轴的夹角。
3.如权利要求1所述的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,其特征在于,所述步骤四中利用无人机总的势函数奖赏Φ(sk)对Q目标网络进行路径规划训练,具体步骤为:
(4.1)初始化经验池D,设置经验池容量及经验最小块Dmin大小;
(4.2)建立Q估计网络,设置Q估计网络隐含层个数、每个隐含层含有的神经元个数、输出层神经元的个数,选择激活函数;随机初始化Q估计网络权重θ,设置神经网络学***滑系数、ε-greedy策略选择概率ε;
(4.3)建立Q目标网络,令初始化目标网络权重θ-=θ;
(4.4)对每一个情节,初始化无人机状态序列s1=(dt 1t 1,do 1o 1);
(4.5)对该情节中的每一步,在概率ε内选择一个随机动作ak,否则选择动作
Figure FDA0003174528800000021
令k时刻无人机处于状态sk时执行动作ak所获得的回报rk为无人机总的势函数奖赏,即rk=Φ(sk);计算无人机在k+1时刻的状态sk+1=(dt k+1t k+1,do k+1o k+1);
(4.6)将每一步的样本(sk,ak,rk,sk+1)存储在经验池D中,并从中随机抽取最小经验块Dmin
(4.7)计算k时刻所对应的目标值yk,具体为:
Figure FDA0003174528800000022
对(yk-Q(sk,ak;θ))2执行梯度下降法更新Q估计网络权值θ,每隔C步设置目标网络权值θ-=θ;
(4.8)若所有情节未训练结束完,则跳转到步骤(4.4);若所有情节全部训练完成,则网络训练结束。
4.如权利要求1所述的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法,其特征在于,所述步骤五中利用训练后的Q估计网络对无人机进行环境信息未知连续状态下路径规划,具体步骤为:
(5.1)初始化无人机飞行步长η、路径平滑系数λ;
(5.2)无人机获取当前i时刻目标的位置(xa i,ya i)、障碍物的位置(xo i,yo i)和大小,得到无人机当前i时刻的状态si=(da ia i,do io i);
(5.3)将无人机当前i时刻的状态si=(da ia i,do io i)输入到训练后的Q估计网络,获取无人机当前时刻的最优动作值a*∈{0,1,...,n-1},则无人机在i+1时刻的位置(xu i+1,yu i+1)由下式得到,具体为:
Figure FDA0003174528800000031
式中,λ为路径平滑系数,起到了细分动作空间的作用,在一定意义上增加了动作数目,使得规划出的路径更加平滑;(xu i,yu i)为无人机当前i时刻的位置,η为无人机飞行步长,
Figure FDA0003174528800000032
为角度间隔;
(5.4)若无人机未到达目标的位置(xa i,ya i),则i+1,跳转到步骤(5.2);若到达目标的位置,则路径规划结束。
CN201910437021.2A 2019-05-23 2019-05-23 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法 Active CN110134140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910437021.2A CN110134140B (zh) 2019-05-23 2019-05-23 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910437021.2A CN110134140B (zh) 2019-05-23 2019-05-23 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法

Publications (2)

Publication Number Publication Date
CN110134140A CN110134140A (zh) 2019-08-16
CN110134140B true CN110134140B (zh) 2022-01-11

Family

ID=67572828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910437021.2A Active CN110134140B (zh) 2019-05-23 2019-05-23 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法

Country Status (1)

Country Link
CN (1) CN110134140B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110488872B (zh) * 2019-09-04 2023-03-07 中国人民解放军国防科技大学 一种基于深度强化学习的无人机实时路径规划方法
CN110531786B (zh) * 2019-09-10 2022-07-22 西北工业大学 基于dqn的无人机机动策略自主生成方法
CN110673488A (zh) * 2019-10-21 2020-01-10 南京航空航天大学 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法
CN110703766B (zh) * 2019-11-07 2022-01-11 南京航空航天大学 一种基于迁移学习策略深度q网络的无人机路径规划方法
CN110883776B (zh) * 2019-11-29 2021-04-23 河南大学 一种快速搜索机制下改进dqn的机器人路径规划算法
CN111123963B (zh) * 2019-12-19 2021-06-08 南京航空航天大学 基于强化学习的未知环境自主导航***及方法
CN111352419B (zh) * 2020-02-25 2021-06-04 山东大学 基于时序差分更新经验回放缓存的路径规划方法及***
CN113034744A (zh) * 2021-03-05 2021-06-25 五邑大学 无人机安全运输方法、***及存储介质
CN113342029B (zh) * 2021-04-16 2022-06-21 山东师范大学 基于无人机群的最大传感器数据采集路径规划方法及***
CN113359820A (zh) * 2021-05-28 2021-09-07 中国地质大学(武汉) 一种基于dqn的无人机路径规划方法
CN114161416B (zh) * 2021-12-06 2023-04-28 贵州大学 基于势函数的机器人路径规划方法
CN114924587B (zh) * 2022-05-27 2024-03-19 江苏科技大学 一种无人机路径规划方法
CN116501079B (zh) * 2023-03-09 2023-12-01 浙江大学 一种基于强化学习的无人机高空球载投放控制方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106595671A (zh) * 2017-02-22 2017-04-26 南方科技大学 一种基于强化学习的无人机路径规划方法和装置
CN109032168A (zh) * 2018-05-07 2018-12-18 西安电子科技大学 一种基于dqn的多无人机协同区域监视的航路规划方法
CN109059931A (zh) * 2018-09-05 2018-12-21 北京航空航天大学 一种基于多智能体强化学习的路径规划方法
CN109443366A (zh) * 2018-12-20 2019-03-08 北京航空航天大学 一种基于改进q学习算法的无人机群路径规划方法
CN109597425A (zh) * 2018-10-18 2019-04-09 中国航空无线电电子研究所 基于强化学习的无人机导航和避障方法
CN109655066A (zh) * 2019-01-25 2019-04-19 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法
CN109784201A (zh) * 2018-12-24 2019-05-21 中国海洋大学 基于四维风险评估的auv动态避障方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106595671A (zh) * 2017-02-22 2017-04-26 南方科技大学 一种基于强化学习的无人机路径规划方法和装置
CN109032168A (zh) * 2018-05-07 2018-12-18 西安电子科技大学 一种基于dqn的多无人机协同区域监视的航路规划方法
CN109059931A (zh) * 2018-09-05 2018-12-21 北京航空航天大学 一种基于多智能体强化学习的路径规划方法
CN109597425A (zh) * 2018-10-18 2019-04-09 中国航空无线电电子研究所 基于强化学习的无人机导航和避障方法
CN109443366A (zh) * 2018-12-20 2019-03-08 北京航空航天大学 一种基于改进q学习算法的无人机群路径规划方法
CN109784201A (zh) * 2018-12-24 2019-05-21 中国海洋大学 基于四维风险评估的auv动态避障方法
CN109655066A (zh) * 2019-01-25 2019-04-19 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Learning-Based Energy-Efficient Data Collection by Unmanned Vehicles in Smart Cities;Bo Zhang等;《IEEE Transactions on Industrial Informatics 》;IEEE;20171214;第14卷(第4期);第1666-1676页 *
基于激励学习和人工势场法的机器人路径规划;易良;《中国优秀硕士学位论文全文数据库 信息科技辑》;中国学术期刊(光盘版)电子杂志社;20080115(第01期);第9、21-24页 *
基于遗传算法和深度强化学习的多无人机协同区域监视的航路规划;李艳庆;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;中国学术期刊(光盘版)电子杂志社;20190215(第02期);第1-69页 *

Also Published As

Publication number Publication date
CN110134140A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN110134140B (zh) 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法
Tai et al. Virtual-to-real deep reinforcement learning: Continuous control of mobile robots for mapless navigation
CN109655066B (zh) 一种基于Q(λ)算法的无人机路径规划方法
CN109144102B (zh) 一种基于改进蝙蝠算法的无人机航路规划方法
Mac et al. Heuristic approaches in robot path planning: A survey
Wen et al. UAV online path planning algorithm in a low altitude dangerous environment
CN111240356B (zh) 一种基于深度强化学习的无人机集群会合方法
CN111142522A (zh) 一种分层强化学习的智能体控制方法
CN110926477A (zh) 一种无人机航路规划及避障方法
CN108919818B (zh) 基于混沌种群变异pio的航天器姿态轨道协同规划方法
CN110174118A (zh) 基于强化学习的机器人多目标搜索路径规划方法和装置
CN109597425A (zh) 基于强化学习的无人机导航和避障方法
Yue et al. Deep reinforcement learning and its application in autonomous fitting optimization for attack areas of UCAVs
CN113268074B (zh) 一种基于联合优化的无人机航迹规划方法
CN111381600A (zh) 一种基于粒子群算法的uuv路径规划方法
CN115562357B (zh) 一种面向无人机集群的智能路径规划方法
Fang et al. Autonomous underwater vehicle formation control and obstacle avoidance using multi-agent generative adversarial imitation learning
Jin et al. Hierarchical and stable multiagent reinforcement learning for cooperative navigation control
Li et al. A behavior-based mobile robot navigation method with deep reinforcement learning
Katyal et al. High-speed robot navigation using predicted occupancy maps
CN113805609A (zh) 一种混沌迷失鸽群优化机制的无人机群目标搜索方法
CN114721427A (zh) 一种动态环境下的多无人机协同搜救侦察规划方法
Xue et al. Multi-agent deep reinforcement learning for UAVs navigation in unknown complex environment
Parhi et al. Humanoid robot path planning using memory-based gravity search algorithm and enhanced differential evolution approach in a complex environment
CN117387635B (zh) 一种基于深度强化学习和pid控制器的无人机导航方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant