CN112148008A - 一种基于深度强化学习的实时无人机路径预测方法 - Google Patents

一种基于深度强化学习的实时无人机路径预测方法 Download PDF

Info

Publication number
CN112148008A
CN112148008A CN202010988055.3A CN202010988055A CN112148008A CN 112148008 A CN112148008 A CN 112148008A CN 202010988055 A CN202010988055 A CN 202010988055A CN 112148008 A CN112148008 A CN 112148008A
Authority
CN
China
Prior art keywords
matrix
aerial vehicle
unmanned aerial
scene
threat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010988055.3A
Other languages
English (en)
Other versions
CN112148008B (zh
Inventor
曾议芝
丁勇飞
康敏旸
刘博�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Aeronautical Radio Electronics Research Institute
Original Assignee
China Aeronautical Radio Electronics Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Aeronautical Radio Electronics Research Institute filed Critical China Aeronautical Radio Electronics Research Institute
Priority to CN202010988055.3A priority Critical patent/CN112148008B/zh
Publication of CN112148008A publication Critical patent/CN112148008A/zh
Application granted granted Critical
Publication of CN112148008B publication Critical patent/CN112148008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0253Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Electromagnetism (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明属于航路规划领域,涉及一种基于深度强化学习的实时无人机路径预测方法。该方法包括:步骤101、获取无人机的当前探测范围内的威胁矩阵;其中,当前探测范围的中心点位无人机所在位置点;威胁矩阵包括各个位置的威胁系数;步骤102、确定无人机目的地到当前探测范围内各点的距离,将这些距离作为当前距离矩阵;步骤103、根据威胁矩阵、当前距离矩阵和已训练的A3C网络,得到无人机的当前飞行方向和飞到下一时刻的位置;步骤104、无人机沿着当前飞行方向飞到下一时刻的位置;同时,判断下一时刻的位置是否到达目的地;步骤105、若否,执行步骤101。

Description

一种基于深度强化学习的实时无人机路径预测方法
技术领域
本发明属于航路规划领域,涉及一种基于深度强化学习的实时无人机路径预测方法。
背景技术
无人机航路规划的基本目标是自主的获得一条能够避开威胁安全到达目标的飞行路径。近些年来,航路规划问题的技术方法发展迅速,有很多文献对该问题从不同方面提出了建模与求解方法。这些技术按照威胁信息获取方式的不同可以分为两大类:一类是静态航路规划技术,即基于环境先验完全信息的航路规划。无人机根据全局完整环境威胁信息构造出一条起始点和目标点之间的安全、可行、满意的路径;另一类是实时航路规划技术,在这部分工作中假设威胁环境预先完全未知或部分未知。此时,无人机只能获取有限范围(通常是传感器探测范围)内的威胁信息,为了安全到达目标就需要在飞行过程中实时规划航路。如果实时航路规划需要在机载计算机上运行,称为在线实时航路规划。下面分别从静态航路规划和实时航路规划两方面进行讨论。
第一方面是有关静态路径规划的方法。无人机静态路径规划的重点是如何在全部威胁环境已知的情况下计算得出一条全局优化路径。常用的规划方法包括:通过构造Voronoi图的方式搜索可行路径并优化;在学习阶段将威胁区域概率用图的形式描述,并在查询阶段构造两节点间的可行路径,或者采用概率路标法来构造路径;可视图法、Silhouettes等。在已知全部威胁环境的情况下,这些方法可以针对全局威胁环境计算出安全可行或最优的飞行航路。然而,由于飞行区域巨大、无人机探测范围有限、威胁源类型多样以及威胁信息动态变化且难以精确描述等原因,无人机往往无法直接获取飞行区域的完整信息,而必须在飞行过程中实时探测,这就使得静态航路规划方法在实际应用中存在一定的局限性。
第二方面是有关实时航路规划的方法。无人机实时航路规划的重点是如何根据探测的有限环境信息规划出一条从起点到目标点的全局航路。目前的研究主要以机器人路径规划方法为参考,结合无人机性能以及飞行环境的特殊性来进行方法研究。目前,所提出的方法按照建模思想不同可以归为以下几种:
(1)基于概率的方法。Klasing等人采用基于Cell的概率路标(Cell-basedprobabilistic roadmaps)法实时对路径进行重规划;Jun和D’Andrea提出了一种基于威胁概率图的航路规划算法;Zengin和Dogan开发了动态环境下的概率模型框架(Probabilistic modeling framework),为路径规划提供了较为完整的解决方案。
(2)数学规划方法。近来很多文献中给出了一系列利用混合整数规划来实时求解路径的方法;Shi和Wang采用Bayesian决策理论与动态规划算法相结合的方法来求解最优路径;另外,还有基于流函数(Stream Function)的人工势场的方法(Potential fieldapproaches),全局动态窗口方法(Global dynamic window approaches),基于进化计算的方法(Evolutionary computation),边界跟踪方法(Bouncing based methods)等用于实时路径规划;Lan和Wen等人对采用不同规划方法进行路径规划的优缺点进行了分析和比较。
(3)全局路径规划与实时路径调整相结合的方法。Xiao和Gao等人首先采用Dijkstra算法根据改进的Voronoi图生成初始路径,然后在威胁信息变化时采用基于混合动态贝叶斯网络的转换线性动态***对路径重新规划;Yan和Ding等人在给出初始路径的基础上采用基于路标图(Roadmap Diagram)的混合重规划方法(Hybrid path re-planningalgorithm)来实时搜索可行路径;Tarjan还基于有向图(Directed graphs)给出一种通用的可以解决大部分路径问题的一般性方法,并说明了构造路径表达式在某种意义上是最常见的路径问题,但这种方法在求解具体问题时的效率和可行性上都有一定的局限。
除了上述方法,还包括一些由静态方法(A*算法、Voronoi图法等)改进得到的实时方法,例如,Beard等人基于改进的Voronoi图动态生成可行路径;Bernhard等人使用Dijkstra算法给出了一种局部操作迭代步骤方法,进而用于确定每一步的最佳轨迹;Chen等人提出了基于D*算法在未知环境中进行无人战斗机航路规划的方法,其中还考虑了突发威胁。
但在实际应用中,无人机无法以上帝视角获取全部的环境信息,使得以上的静态航路规划具有一定的局限性;同时环境描述的复杂性和局部性的特点以及上述航路规划方法面临实时算法计算量大等问题,使得以上的动态航路规划具有一定的局限性。
发明内容
本发明所要解决的技术问题是:无人机实时航路规划问题是一个连续决策问题,传统的航路规划方法如遗传算法、快速拓展随机树算法面临着实时算法计算量大,环境描述的复杂性和局限性等特点,一直难以真正地应用在实际无人机***中。深度学习方法在解决实际问题中的复杂性和实时性问题有非常好的效果,特别是深度强化学习在解决连续决策问题上有优势,这一方法恰好能解决无人机在复杂环境中实时航路规划的问题。本发明提出了一种基于深度强化学习的无人机路径预测方法,其目的是克服复杂的未知环境以及复杂的实时路径规划模型,能够实时的根据探测到的环境信息自主的进行实时航路预测,提供了一种基于深度强化学习的无人机实时导航和避障功能。
本发明的技术方案是:
一种基于深度强化学习的实时无人机路径预测方法,包括:
步骤101、获取无人机的当前探测范围内的威胁矩阵;
步骤102、确定无人机目的地到当前探测范围内各点的距离,将这些距离作为当前距离矩阵;
步骤103、根据威胁矩阵、当前距离矩阵和已训练的A3C网络,得到无人机的当前飞行方向和飞到下一时刻的位置;
步骤104、无人机沿着当前飞行方向飞到下一时刻的位置;同时,判断下一时刻的位置是否到达目的地;
步骤105、若否,执行步骤101。
进一步的,若否,执行步骤101,包括:
若否,判断当前的执行次数是否大于或等于预设门限;
若是,飞机不再按照A3C网络的预测飞行,飞机返航;若否,执行步骤101。
进一步的,得到无人机的当前飞行方向和飞到下一时刻的位置,包括:
将威胁矩阵和当前距离矩阵输入已训练的A3C网络,预测出飞机飞向各个方向的概率;
将最大概率的飞机飞向的方向作为当前飞行方向;
获取与当前距离矩阵对应的当前探测范围的位置矩阵;
根据无人机所在的位置矩阵的位置,沿当前飞行方向对应的方向跳过M个点,将第M+1个点作为下一时刻的位置点。
进一步的,所述方法还包括:
通过多个场景样本对未训练的A3C网络进行训练,更新A3C网络参数。
进一步的,对于一个场景样本来说,通过多个场景样本对未训练的A3C网络进行训练,包括:
将包括始发地和目的地的场景样本离散化,得到场景矩阵;
根据场景矩阵,得到场景距离矩阵和场景威胁矩阵;场景距离矩阵是场景矩阵中各个点到目的地距离组成的矩阵;场景威胁矩阵包括场景矩阵中各个点的威胁系数;
在场景距离矩阵中获取以始发点为中心的一个子矩阵作为距离矩阵,在场景威胁矩阵中相应的位置获取一个子矩阵作为威胁矩阵;
将两个子矩阵输入未训练的A3C网络,得到当前飞行方向、飞到下一时刻的位置、奖赏值和价值估计值,直到无人机飞到目的地或者超过预设次数还未飞到目的地为止;
根据奖赏值和价值估计值,更新A3C网络的参数。
进一步的,当前探测范围的中心点位于无人机所在位置点。
进一步的,威胁矩阵包括各个位置的威胁系数。
一种计算机可读的存储介质,所述存储介质上存储有计算机程序,所述计算机程序包括用于执行上述任一项所述的方法。
本发明的有益效果是:本发明通过A3C算法学习无人机在当前位置环境下做出何种飞行动作,从而帮助无人机在完全未知的复杂环境下进行下一个位置的路径预测,进而指导无人机的飞行。通过本发明,无人机能完整地实现未知复杂障碍环境下的飞行决策,无人机根据当前位置的环境信息,决定下一时刻的飞行位置,突破了原有航路规划算法实时计算的局限性和复杂性。
附图说明
图1为技术路线;
图2为A3C框架;
图3为Actor-Critic示意图;
图4为A3C算法梯度更新示意图。
具体实施方式
下面根据附图来阐述本发明的具体实施方式。
随着智能技术的发展,深度学习方法在解决实际问题中的复杂性和实时性问题有非常好的效果,其中,深度强化学习能够很好的解决连续决策问题,这一方法恰好能解决无人机在复杂环境中实时航路规划的问题。
本发明提供一种基于深度强化学习的实时无人机路径预测方法,其设计思想是:采用模拟图像像素点的方式,将航路规划场景抽象成多维矩阵,把无人机探测范围内的环境信息(即抽象成多维矩阵的场景信息)作为深度强化学习网络的输入,通过神经网络的训练,输出无人机在当前环境下的飞行动作以及无人机在当前环境下的价值估计,同时无人机根据飞行动作飞行到下一个位置,得到相应的奖赏值,并将下一个位置探测到的环境信息作为深度强化学习网络的输入。如此循环往复,一方面通过相应的准则函数进行网络模型的训练;另一方面,当模型训练好后,可根据无人机当前所处位置探测到的环境信息指导无人机飞行,这样无人机就可在飞行过程中进行实时规划航路。本发明采用的深度强化学习方法为A3C算法(asynchronous advantage actor-critic algorithm),具体流程如图1所示。
(1)A3C算法
A3C算法是深度强化学习算法中的一种,是对AC(Actor-Critic)算法的改进,AC算法架构如图3所示。其中Actor基于策略Policy的输出概率选择动作action,Critic基于Actor的行为评判行为的得分。Critic网络起到的作用是判断当前状态的潜在价值,Critic网络生成的TD error将被用于Actor网络的更新。
AC算法结合了基于策略的强化学习算法和基于估值网的强化学习算法的优势,使得其在高维度和连续动作空间更加有效。如图4所示,A3C算法是AC算法进行并行化处理的算法,将AC算法放到多个线程(或进程)中同步训练,可以有效的利用计算机资源,提升训练效率。
(2)基于深度强化学习的实时无人机航路规划
本发明采用的强化学习方法为A3C算法,一个深度强化学习问题包括三个主要概念,即环境状态(Environment state)、行动(Action)和奖励(Reward)。本发明针对二维场景下的航路规划问题,在基于A3C的无人机航路规划中,采用模拟图像像素点的方式,将航路规划场景抽象成两个二维矩阵——威胁矩阵和距离矩阵。假设场景或者航路规划结果图的面积K×K(m2),据此通过采样,调整矩阵的规模为N×N,无人机的航路规划采样时间为T,则在此时间内其飞行距离D应满足D=K/N。通过这种方式将K×K(m2)的场景映射到为大小为N×N的两个二维矩阵上,即将场景映射为一个N×N的威胁矩阵Threat_matrix、一个大小为N×N的距离矩阵Distance_matrix;其中威胁矩阵是根据场景抽象出来的威胁度矩阵,距离矩阵是指场景中各个采样点与目标点的欧式距离。抽出来的威胁矩阵以及距离矩阵就代表无人机当前飞行的飞行场景,同时与强化学习中的环境(Environment)概念相对应。对于无人机探测范围内的环境信息就可以表示为S=(Mij)k×k,其中Mij=(αijij),αij表示从场景中抽象出来的威胁度,χij表示与目标点的欧式距离,k×k表示无人机的探测范围,S则可理解为无人机当前位置下在场景中探测到的威胁矩阵以及距离矩阵;这样无人机当前位置探测范围内的环境信息S就可以与强化学习中当前的环境状态(state)相对应,并作为无人机当前所处的状态作为深度强化学习算法A3C的输入。在二维场景下的航路规划问题,可以将无人机的飞行操控离散为4个维度的向量,分别表示无人机向前、向后、向左以及向右飞行(即X,Y方向的速度),相当于无人机在当前环境下可以选择向前飞行或者向后飞行或者向左飞行或者向右飞行,这样就可以把飞行方向离散为4个方向,并作为无人机的飞行动作空间。无人机选择完飞行方向后,默认无人机沿着飞行方向飞行一定的距离到达下一个位置。这样飞行离散出来的4个飞行方向以及默认的飞行距离就可以与强化学习中的行动(Action)相对应。至此,就将二维场景下无人机航路规划的问题转换为强化学习的问题,为了使得规划路径合理并具有鲁棒性,需要对奖赏值进行合理的定义。
基于A3C的无人机航路规划将无人机的飞行操控离散成4个维度的向量,任务目标是在到达目标点的前提下获取尽可能多的回报值。在特定时间段内,强化单元都是根据当前无人机所处的环境状态来确定下一步的动作,建立状态集与行为集映射的概率关系,量化标准的回报值越多,执行得越好。
基于A3C的无人机航路规划将无人机是否能够向距离目标更近的方向前进作为回报值(Reward),而将场景环境信息(威胁矩阵和距离矩阵)作为状态信息,无人机的动作空间简化为上文描述的4个飞行动作。基于这样的假设,具体的算法流程如下:
无人机状态之间的改变模式是由无人机的动作决定其下一状态,反过来下一状态影响下一动作。
Figure BDA0002689920740000061
Figure BDA0002689920740000062
其中γ为折扣因子。
A3C的网络框架如图2所示,根据策略网的π(s)以及估值网的V(s)对整个网络进行梯度更新训练,其中策略网π(s)的更新梯度为:
Figure BDA0002689920740000063
其中估值网的更新梯度为:
Figure BDA0002689920740000064
具体算法流程的伪代码如下表1所示。
表1
Figure BDA0002689920740000065
Figure BDA0002689920740000071
(3)奖赏值设计
奖赏值的设计是A3C算法中重要的一环,设计合理的奖赏值是本发明需要关注的工作之一。本发明对与奖赏值的设计如下:
对于无人机所在采样点(即采样后的N×N的场景中的某一个点所在的位置,采样场景包含威胁矩阵和距离矩阵),无人机与目标的距离为di,场景与之对应的威胁度为ti,该采样点和目标之间的归一化距离ri,其中i=1,2,...,N×N,N×N采样点的个数,定义如下:
ri=di×exp(ti) (5)
针对无人机当前所在采样点位置i,根据其所探测范围内的环境信息S选择动作空间中的某个动作action,得到无人机下一个所在采样点位置i+1,计算当前采样点位置i和目标之间归一化距离ri以及下一个位置i+1和目标之间的归一化距离ri+1,通过比较这两个距离来确定无人机当前状态S下选择动作action的奖赏值:
Figure BDA0002689920740000081
此外,奖赏值还应该与是否到达目标点以及到达目标点需要飞行路径的长度相关;本发明默认当无人机与目标点的距离较近时(本发明中这个取值为距离矩阵中按升序排列后的第10个值),则表示无人机能够到达目标点。同时,当无人机通过一系列的连续决策后到达目标点时,奖赏值为100;当连续决策超过某个值tmax后依旧无法到达目标点时,奖赏值为-100。
本发明的工作主要是围绕无人机的实时路径预测展开的,提出了一种基于深度强化学习的无人机实时路径预测方法,实现无人机的实时自主飞行决策。本发明的主要创新点如下:
本发明提出了一种基于A3C模型的无人机实时自主飞行决策方法。利用无人机传感器信息探测到的威胁信息、位置信息等建立多维探测信息矩阵,然后利用训练好的A3C网络确定无人机下一个飞行位置。

Claims (8)

1.一种基于深度强化学习的实时无人机路径预测方法,其特征在于,包括:
步骤101、获取无人机的当前探测范围内的威胁矩阵;
步骤102、确定无人机目的地到当前探测范围内各点的距离,将这些距离作为当前距离矩阵;
步骤103、根据威胁矩阵、当前距离矩阵和已训练的A3C网络,得到无人机的当前飞行方向和飞到下一时刻的位置;
步骤104、无人机沿着当前飞行方向飞到下一时刻的位置;同时,判断下一时刻的位置是否到达目的地;
步骤105、若否,执行步骤101。
2.根据权利要求1所述的方法,其特征在于,若否,执行步骤101,包括:
若否,判断当前的执行次数是否大于或等于预设门限;
若是,飞机不再按照A3C网络的预测飞行,飞机返航;若否,执行步骤101。
3.根据权利要求1所述的方法,其特征在于,得到无人机的当前飞行方向和飞到下一时刻的位置,包括:
将威胁矩阵和当前距离矩阵输入已训练的A3C网络,预测出飞机飞向各个方向的概率;
将最大概率的飞机飞向的方向作为当前飞行方向;
获取与当前距离矩阵对应的当前探测范围的位置矩阵;
根据无人机所在的位置矩阵的位置,沿当前飞行方向对应的方向跳过M个点,将第M+1个点作为下一时刻的位置点。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
通过多个场景样本对未训练的A3C网络进行训练,更新A3C网络参数。
5.根据权利要求4所述的方法,其特征在于,对于一个场景样本来说,通过多个场景样本对未训练的A3C网络进行训练,包括:
将包括始发地和目的地的场景样本离散化,得到场景矩阵;
根据场景矩阵,得到场景距离矩阵和场景威胁矩阵;场景距离矩阵是场景矩阵中各个点到目的地距离组成的矩阵;场景威胁矩阵包括场景矩阵中各个点的威胁系数;
在场景距离矩阵中获取以始发点为中心的一个子矩阵作为距离矩阵,在场景威胁矩阵中相应的位置获取一个子矩阵作为威胁矩阵;
将两个子矩阵输入未训练的A3C网络,得到当前飞行方向、飞到下一时刻的位置、奖赏值和价值估计值,直到无人机飞到目的地或者超过预设次数还未飞到目的地为止;
根据奖赏值和价值估计值,更新A3C网络的参数。
6.根据权利要求1所述的方法,其特征在于,当前探测范围的中心点位于无人机所在位置点。
7.根据权利要求1所述的方法,其特征在于,威胁矩阵包括各个位置的威胁系数。
8.一种计算机可读的存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序包括用于执行如权利要求1-7任一项所述的方法。
CN202010988055.3A 2020-09-18 2020-09-18 一种基于深度强化学习的实时无人机路径预测方法 Active CN112148008B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010988055.3A CN112148008B (zh) 2020-09-18 2020-09-18 一种基于深度强化学习的实时无人机路径预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010988055.3A CN112148008B (zh) 2020-09-18 2020-09-18 一种基于深度强化学习的实时无人机路径预测方法

Publications (2)

Publication Number Publication Date
CN112148008A true CN112148008A (zh) 2020-12-29
CN112148008B CN112148008B (zh) 2023-05-02

Family

ID=73893992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010988055.3A Active CN112148008B (zh) 2020-09-18 2020-09-18 一种基于深度强化学习的实时无人机路径预测方法

Country Status (1)

Country Link
CN (1) CN112148008B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283827A (zh) * 2021-04-16 2021-08-20 北京航空航天大学合肥创新研究院(北京航空航天大学合肥研究生院) 一种基于深度强化学习的两阶段无人机物流路径规划方法
CN113743605A (zh) * 2021-06-16 2021-12-03 温州大学 基于进化方法搜索烟、火检测网络架构的方法
CN114089752A (zh) * 2021-11-11 2022-02-25 深圳市杉川机器人有限公司 机器人的自主探索方法、机器人及计算机可读存储介质
CN114139791A (zh) * 2021-11-24 2022-03-04 北京华能新锐控制技术有限公司 风力发电机组功率预测方法、***、终端及存储介质
CN114355980A (zh) * 2022-01-06 2022-04-15 上海交通大学宁波人工智能研究院 基于深度强化学习的四旋翼无人机自主导航方法与***
CN115235468A (zh) * 2022-06-21 2022-10-25 中国科学院自动化研究所 基于热力图的决策方法、装置、电子设备及存储介质
CN116148862A (zh) * 2023-01-16 2023-05-23 无锡市雷华科技有限公司 一种探鸟雷达飞鸟综合预警评估方法
CN116627181A (zh) * 2023-07-25 2023-08-22 吉林农业大学 一种基于空间推理的植保无人机智能避障方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011009011A1 (en) * 2009-07-15 2011-01-20 Massachusetts Institute Of Technology An integrated framework for vehicle operator assistance based on a trajectory prediction and threat assessment
US20170146991A1 (en) * 2015-11-24 2017-05-25 Northrop Grumman Systems Corporation Spatial-temporal forecasting for predictive situational awareness
CN106873628A (zh) * 2017-04-12 2017-06-20 北京理工大学 一种多无人机跟踪多机动目标的协同路径规划方法
CN108731684A (zh) * 2018-05-07 2018-11-02 西安电子科技大学 一种多无人机协同区域监视的航路规划方法
CN109254591A (zh) * 2018-09-17 2019-01-22 北京理工大学 基于Anytime修复式稀疏A*与卡尔曼滤波的动态航迹规划方法
CN109871031A (zh) * 2019-02-27 2019-06-11 中科院成都信息技术股份有限公司 一种固定翼无人机的轨迹规划方法
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN109992000A (zh) * 2019-04-04 2019-07-09 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN110866887A (zh) * 2019-11-04 2020-03-06 深圳市唯特视科技有限公司 一种基于多传感器的目标态势融合感知方法和***
CN110874578A (zh) * 2019-11-15 2020-03-10 北京航空航天大学青岛研究院 一种基于强化学习的无人机视角车辆识别追踪方法
CN111444786A (zh) * 2020-03-12 2020-07-24 五邑大学 基于无人机群的人群疏散方法、装置、***及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011009011A1 (en) * 2009-07-15 2011-01-20 Massachusetts Institute Of Technology An integrated framework for vehicle operator assistance based on a trajectory prediction and threat assessment
US20170146991A1 (en) * 2015-11-24 2017-05-25 Northrop Grumman Systems Corporation Spatial-temporal forecasting for predictive situational awareness
CN106873628A (zh) * 2017-04-12 2017-06-20 北京理工大学 一种多无人机跟踪多机动目标的协同路径规划方法
CN108731684A (zh) * 2018-05-07 2018-11-02 西安电子科技大学 一种多无人机协同区域监视的航路规划方法
CN109254591A (zh) * 2018-09-17 2019-01-22 北京理工大学 基于Anytime修复式稀疏A*与卡尔曼滤波的动态航迹规划方法
CN109871031A (zh) * 2019-02-27 2019-06-11 中科院成都信息技术股份有限公司 一种固定翼无人机的轨迹规划方法
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN109992000A (zh) * 2019-04-04 2019-07-09 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN110866887A (zh) * 2019-11-04 2020-03-06 深圳市唯特视科技有限公司 一种基于多传感器的目标态势融合感知方法和***
CN110874578A (zh) * 2019-11-15 2020-03-10 北京航空航天大学青岛研究院 一种基于强化学习的无人机视角车辆识别追踪方法
CN111444786A (zh) * 2020-03-12 2020-07-24 五邑大学 基于无人机群的人群疏散方法、装置、***及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高晓静等: "无人机路径规划中的环境和威胁模型研究", 《航空计算技术》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283827A (zh) * 2021-04-16 2021-08-20 北京航空航天大学合肥创新研究院(北京航空航天大学合肥研究生院) 一种基于深度强化学习的两阶段无人机物流路径规划方法
CN113283827B (zh) * 2021-04-16 2024-03-12 北京航空航天大学合肥创新研究院(北京航空航天大学合肥研究生院) 一种基于深度强化学习的两阶段无人机物流路径规划方法
CN113743605A (zh) * 2021-06-16 2021-12-03 温州大学 基于进化方法搜索烟、火检测网络架构的方法
CN114089752A (zh) * 2021-11-11 2022-02-25 深圳市杉川机器人有限公司 机器人的自主探索方法、机器人及计算机可读存储介质
CN114139791A (zh) * 2021-11-24 2022-03-04 北京华能新锐控制技术有限公司 风力发电机组功率预测方法、***、终端及存储介质
CN114355980A (zh) * 2022-01-06 2022-04-15 上海交通大学宁波人工智能研究院 基于深度强化学习的四旋翼无人机自主导航方法与***
CN114355980B (zh) * 2022-01-06 2024-03-08 上海交通大学宁波人工智能研究院 基于深度强化学习的四旋翼无人机自主导航方法与***
CN115235468A (zh) * 2022-06-21 2022-10-25 中国科学院自动化研究所 基于热力图的决策方法、装置、电子设备及存储介质
CN116148862A (zh) * 2023-01-16 2023-05-23 无锡市雷华科技有限公司 一种探鸟雷达飞鸟综合预警评估方法
CN116148862B (zh) * 2023-01-16 2024-04-02 无锡市雷华科技有限公司 一种探鸟雷达飞鸟综合预警评估方法
CN116627181A (zh) * 2023-07-25 2023-08-22 吉林农业大学 一种基于空间推理的植保无人机智能避障方法
CN116627181B (zh) * 2023-07-25 2023-10-13 吉林农业大学 一种基于空间推理的植保无人机智能避障方法

Also Published As

Publication number Publication date
CN112148008B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN112148008B (zh) 一种基于深度强化学习的实时无人机路径预测方法
Tai et al. Virtual-to-real deep reinforcement learning: Continuous control of mobile robots for mapless navigation
Yijing et al. Q learning algorithm based UAV path learning and obstacle avoidence approach
Wu A survey on population-based meta-heuristic algorithms for motion planning of aircraft
Dong et al. A review of mobile robot motion planning methods: from classical motion planning workflows to reinforcement learning-based architectures
CN112650237B (zh) 基于聚类处理和人工势场的船舶路径规划方法和装置
CN109597425B (zh) 基于强化学习的无人机导航和避障方法
CN110514206B (zh) 一种基于深度学习的无人机飞行路径预测方法
Ivanovic et al. Mats: An interpretable trajectory forecasting representation for planning and control
Grigorescu et al. Neurotrajectory: A neuroevolutionary approach to local state trajectory learning for autonomous vehicles
CN110926477A (zh) 一种无人机航路规划及避障方法
Xue et al. Multi-agent deep reinforcement learning for UAVs navigation in unknown complex environment
Xue et al. A UAV navigation approach based on deep reinforcement learning in large cluttered 3D environments
Sonny et al. Q-learning-based unmanned aerial vehicle path planning with dynamic obstacle avoidance
Othman et al. Deep reinforcement learning for path planning by cooperative robots: Existing approaches and challenges
CN110779526B (zh) 一种路径规划方法、装置及存储介质
Chen et al. A study of unmanned path planning based on a double-twin RBM-BP deep neural network
Xie et al. Hybrid AI-based Dynamic Re-routing Method for Dense Low-Altitude Air Traffic Operations
Cui Multi-target points path planning for fixed-wing unmanned aerial vehicle performing reconnaissance missions
Thomas et al. Inverse Reinforcement Learning for Generalized Labeled Multi-Bernoulli Multi-Target Tracking
Chen et al. iA $^* $: Imperative Learning-based A $^* $ Search for Pathfinding
Saeed et al. Domain-aware multiagent reinforcement learning in navigation
Prathyusha et al. Dynamic constraint based multi-route planning and multi-obstacle avoidance model for unmanned aerial vehicles
CN113741416B (zh) 基于改进捕食者猎物模型和dmpc的多机器人全覆盖路径规划方法
Sundarrajan et al. The Smart Coverage Path Planner for Autonomous Drones Using TSP and Tree Selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant