CN111487992A - 基于深度强化学习的无人机感知与避障一体化方法及设备 - Google Patents

基于深度强化学习的无人机感知与避障一体化方法及设备 Download PDF

Info

Publication number
CN111487992A
CN111487992A CN202010320177.5A CN202010320177A CN111487992A CN 111487992 A CN111487992 A CN 111487992A CN 202010320177 A CN202010320177 A CN 202010320177A CN 111487992 A CN111487992 A CN 111487992A
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
obstacle avoidance
network
designing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010320177.5A
Other languages
English (en)
Inventor
蔡志浩
王隆洪
赵江
王英勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202010320177.5A priority Critical patent/CN111487992A/zh
Publication of CN111487992A publication Critical patent/CN111487992A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明的实施方式提供一种基于深度确定性策略梯度的无人机感知与避障控制一体化方法,该方法包括:设计深度确定性策略梯度神经网络;设计训练所需的奖励;在仿真环境中搭建无人机避障的场景;及结合仿真环境进行网络的训练。

Description

基于深度强化学习的无人机感知与避障一体化方法及设备
技术领域
本发明涉及无人机自主控制领域,更具体地,涉及一种基于深度确定性策略梯度的无人机感知与避障控制一体化方法及设备。
背景技术
当前针对无人机自主避障控制问题,主要是传统的航迹规化方法进行避障。例如快速扩展随机树(Rapidly-exploring Random Tree,简称为RRT)和人工势场算法等,但传统方法有其缺点,RRT算法有收敛速度慢、航迹曲折,人工势场法有容易陷入局部极小值和振荡等问题。另外,或是通过图像信息直接输出不连续的方向指令。例如有些方法基于深度Q网络(Deep Q-Network,简称DQN)的层次结构,这些层次Q网络被用作不同阶段中导航的高端控制策略,包括前后左右下降等控制指令。这种方法精确度较低。
发明内容
本发明解决完全基于图像的无人机自主避障控制问题:将处理过的无人机机载相机得到的图像作为输入,经过深度确定性策略梯度网络处理后得到无人机三轴方向的速度,以此实现无人机的感知与避障控制一体化。
本发明的实施方式提供一种无人机感知与避障控制一体化方法,通过输入的图像直接得到连续的无人机控制指令,提高无人机避障的自主性和效率。
为实现上述目的,本发明实例提供了如下的技术方案:
根据本发明的一个实施方式的一种基于深度确定性策略梯度的无人机感知与避障控制一体化方法,包括以下步骤:设计深度确定性策略梯度神经网络;设计训练所需的奖励;在仿真环境中搭建无人机避障的场景;结合仿真环境进行网络的训练。
根据本发明的另一个实施方式提供的基于深度确定性策略梯度的无人机感知与避障控制一体化方法,设计深度确定性策略梯度神经网络的步骤可包括:设计行动者网络,该行动者网络接收当前的图像作为输入且输出无人机在x,y,z三轴方向的速度。
根据本发明的另一个实施方式提供的基于深度确定性策略梯度的无人机感知与避障控制一体化方法,行动者网络包括三层卷积层和三层全连接层。
根据本发明的另一个实施方式提供的基于深度确定性策略梯度的无人机感知与避障控制一体化方法,设计深度确定性策略梯度神经网络的步骤包括:设计评论家网络,该评论家网络接收当前的图像和当前的动作值作为输入且输出Q值。
根据本发明的另一个实施方式提供的基于深度确定性策略梯度的无人机感知与避障控制一体化方法,设计训练所需的奖励步骤包括通过以下无人机避障轨迹规划的端到端奖惩函数实现:
Figure BDA0002461067680000021
其中,Δs为无人机到目标点的距离,Δd为无人机偏离原定轨迹的距离,b,m,n均为常数。
根据本发明的另一个实施方式提供的一种设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中所述处理器运行所述计算机程序时执行以上所述的基于深度确定性策略梯度的无人机感知与避障控制一体化方法。
本发明的实施方式所提供的无人机感知与避障控制一体化方法和设备中,深度确定性策略梯度网络直接将机载照相机得到的图片信息转换为无人机避障所需的连续控制指令。省去了传统方法中的状态估计和路径规划模块,在不提前知道障碍物位置及状态的情况下进行自主避障,能够提高无人机的自主性和避障的效率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。通过参考附图可更好地理解本发明。
图1示出了传统避障算法与根据本发明的实施方式的深度确定性策略梯度算法的区别。
图2示出了根据本发明的实施方式的深度确定性策略梯度网络训练的一体化架构。
图3示出了根据本发明的实施方式的基于深度确定性策略梯度的三维空间无人机感知与避障控制一体化方法网络结构设计。
图4示出了根据本发明的实施方式的无人机避障轨迹控制问题一体化框架。
图5-10示出了使用根据本发明的实施方式的方法进行三维避障的仿真训练所得到的无人机越过障碍的过程图。
图11-13示出了使用根据本发明的实施方式的方法进行三维避障的仿真训练所得到的四次仿真结果示图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
需要注意的是,除非另有说明,本发明使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
传统的自主避障算法一般要分为四个步骤:在环境中得到所需要的观察量,由观察量进行状态估计,建模和预测,最后输入到避障算法中进行避障规划控制,而本发明的实施方式所采用的深度确定性策略梯度算法用网络来代替传统自主避障中的中间步骤,直接由观察量得到避障规划控制。在效率和灵活性方面都优于传统的避障规划方法。图1展示了传统避障算法与根据本发明的实施方式的深度确定性策略梯度算法的区别。
具体就深度确定性策略梯度网络训练而言,根据本发明的实施方式提供了一体化架构,如图2所示。
主控程序可以决定深度确定性策略梯度网络处于何种模式,包括训练模式和离线运行两种模式。在训练模式下,深度确定性策略梯度网络以从仿真软件采集到的模拟数据和在存储模块中的记忆数据作为输入,得出决策值和奖励后存储在记忆模块中,并将决策值传递给仿真软件以得到下一次模拟数据,并连同记忆数据再次作为输入传递给深度确定性策略梯度网络,网络参数也在此过程中不断优化。当网络收敛之后,保存参数和网络。在离线运行模式下,深度确定性策略梯度网络参数不再变化,此时只需要策略网络来进行接收仿真软件模拟数据与产生相应的决策并与仿真软件交互的操作。
基于深度确定性策略梯度的三维空间无人机感知与避障控制一体化方法网络结构设计如图3所示。其中图3的左图为行动者网络(Actor网络),图3的右图为评论家网络(Critic网络)。
根据上述一体化架构,得出无人机避障轨迹控制问题一体化框架,如图4所示。
以一个或多个详细的实施方案对本发明的技术方案进行详细阐述。
本节主要以一个示例性仿真实例对本发明的技术方案进行详细阐述。
(1)设计深度确定性策略梯度网络
参考图3,示出了基于深度确定性策略梯度的三维空间无人机感知与轨迹控制一体化方法网络结构设计。其中左图为行动者网络(Actor网络),右图为评论家网络(Critic网络)。
Actor网络由三层卷积层和三层全连接层构成。首先,大小为64×64×1的图像作为输入,经过三层卷积层,其滤波器大小为5×5,卷积过滤器的数量为32,卷积的横纵向步长均为2,后经过三层全连接层,每层有200个神经单元,最后输出无人机在x,y,z三轴方向的速度。Critic网络除了需要当前的图像作为输入外,还需要加入当前的动作值,来计算得到Q值(状态-动作对的值)。由于无人机避障是在无人机已有预设轨迹的前提下进行的,所以需要在深度确定性策略梯度网络架构中加入无人机与目标位置之间的距离这一输入。
计算评论家(Critic)网络梯度时,需要计算Critic网络的损失。使用类似于监督式学习的方法,定义损失为均方误差(MSE):
Figure BDA0002461067680000051
其中,N表示随机采样的数据量;Q表示在线Q网络;si表示第i个数据的状态量;ai表示第i个数据的动作量;θQ表示在线Q网络参数;yi为标签:
yi=ri+γQ′(si+1,μ′(si+1Q)|θQ′)
基于标准的反向传播(back-propagation)方法,求得L针对θQ的梯度:
Figure BDA0002461067680000052
其中:ri表示第i个数据的在当前状态量和动作量下的奖励;γ为系数;Q'表示目标Q网络;si+1表示第i个数据的下一个时刻的状态量;yi的计算,使用的是目标策略网络μ′和目标Q(target Q)网络Q′,这样做是为了Q网络参数的学习过程更加稳定,易于收敛。这个标签本身依赖于我们正在学习的目标网络,这是区别于监督式学习的地方。
计算行动者(Actor)网络的策略梯度时,策略梯度表示性能目标的函数J针对的θμ梯度。算法如下:
Figure BDA0002461067680000053
其中,
Figure BDA0002461067680000054
表示在状态量s根据分布函数ρβ分布时,
Figure BDA0002461067680000055
的期望值;β表示代理的行为策略,是深度确定性策略梯度方法在训练时所采用的一种为行为的决策机制引入随机噪声的策略;
Figure BDA0002461067680000056
表示在线Q网络对动作量a的梯度,
Figure BDA0002461067680000057
表示动作量a对在线策略网络参数θμ的梯度,μ表示在线策略网络,也即,策略梯度是在s根据ρβ分布时,
Figure BDA0002461067680000058
的期望值。用蒙特卡洛方法来估算这个期望值:
在重放内存缓冲区中存储的(transition):(si,ai,ri,si+1),是基于代理的行为策略β产生的,它们的分布函数(pdf)为ρβ,所以从重放内存缓冲区中随机采样获得小批量数据时,根据蒙特卡洛方法,使用小批量数据代入上述策略梯度公式,可以作为对上述期望值的一个无偏差估计(un-biased estimate),所以策略梯度可以改写为:
Figure BDA0002461067680000061
同时,分别为Actor网络、Critic网络各创建两个神经网络拷贝,一个叫做在线(online),一个叫做目标(target),两个网络的更新策略如下:
Figure BDA0002461067680000062
Figure BDA0002461067680000063
其中,gradient更新表示梯度更新;soft update表示软更新;软更新(softupdate)目标网络μ′和Q′:使用平均运行(running average)的方法,将在线网络的参数,软更新给目标网络的参数:
Figure BDA0002461067680000064
其中,τ表示可调系数;
(2)设计训练所需的奖励
强化学***稳的动作,同时鼓励安全行为。
无人机避障问题中的轨迹规划主要需要考虑的是无人机在避障过程中偏离原定轨迹的距离,这主要是为了保证无人机在避障后不会一直偏离原定轨迹飞行,另外无人机是否碰到障碍物,无人机是否到达终点等也是需要考虑的。综上,可以得到无人机避障轨迹规划的端到端奖惩函数。
Figure BDA0002461067680000071
其中,Δs为无人机到目标点的距离,Δd为无人机偏离原定轨迹的距离,b,m,n均为常数。
(3)在仿真环境中搭建无人机避障的场景
根据本发明的实施方式的进行基于深度确定性策略梯度的无人机感知与避障规划一体化仿真,所有的仿真均在基于Airsim插件的虚幻引擎(unreal engine)中进行。无人机采用Airsim默认的四旋翼模型。仿真环境则根据不同仿真想定在虚幻引擎中进行相应的设计。
针对无人机避障轨迹控制问题,设计如下仿真想定:无人机以(0,0,30)m处为起点,途中经过几处障碍物,最终到达终点(0,200,30)m处。仿真场景设置中x轴方向边界为(-20,20)m,z轴方向边界为(0,50)m。
从而将奖惩函数具体化如下:
Figure BDA0002461067680000072
其中,Δs为无人机到目标点的距离,Δd为无人机偏离原定轨迹的距离,b,m,n均为常数。
(4)结合仿真环境进行网络的训练
三维避障的仿真训练,网络参数在2500个episode(训练)之后收敛,无人机越过障碍的过程图如图5-10所示。
四次仿真结果如图11-13所示。
仿真结果表明,使用根据本发明的实施方式的方法所训练的深度确定性策略梯度网络能够完成三维避障试验。此仿真同样验证了基于端到端的三维空间无人机感知与避障规划一体化方法的可行性。
本发明的实施方式还提供了一种终端设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行根据本发明的实施方式的基于深度确定性策略梯度的无人机感知与避障控制一体化方法。
需要说明的是,附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (6)

1.一种基于深度确定性策略梯度的无人机感知与避障控制一体化方法,该方法包括:
设计深度确定性策略梯度神经网络;
设计训练所需的奖励;
在仿真环境中搭建无人机避障的场景;及
结合仿真环境进行网络的训练。
2.如权利要求1所述的方法,其中所述设计深度确定性策略梯度神经网络的步骤包括:
设计行动者网络,该行动者网络接收当前的图像作为输入且输出无人机在x,y,z三轴方向的速度。
3.如权利要求2所述的方法,其中所述行动者网络包括三层卷积层和三层全连接层。
4.如权利要求1-3中任一项所述的方法,其中所述设计深度确定性策略梯度神经网络的步骤包括:
设计评论家网络,该评论家网络接收当前的图像和当前的动作值作为输入且输出Q值。
5.如权利要求1所述的方法,其中所述设计训练所需的奖励步骤包括通过以下无人机避障轨迹规划的端到端奖惩函数实现:
Figure FDA0002461067670000011
其中,△s为无人机到目标点的距离,△d为无人机偏离原定轨迹的距离,b,m,n均为常数。
6.一种设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1-5中任一项所述的基于深度确定性策略梯度的无人机感知与避障控制一体化方法。
CN202010320177.5A 2020-04-22 2020-04-22 基于深度强化学习的无人机感知与避障一体化方法及设备 Pending CN111487992A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010320177.5A CN111487992A (zh) 2020-04-22 2020-04-22 基于深度强化学习的无人机感知与避障一体化方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010320177.5A CN111487992A (zh) 2020-04-22 2020-04-22 基于深度强化学习的无人机感知与避障一体化方法及设备

Publications (1)

Publication Number Publication Date
CN111487992A true CN111487992A (zh) 2020-08-04

Family

ID=71795342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010320177.5A Pending CN111487992A (zh) 2020-04-22 2020-04-22 基于深度强化学习的无人机感知与避障一体化方法及设备

Country Status (1)

Country Link
CN (1) CN111487992A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112114592A (zh) * 2020-09-10 2020-12-22 南京大学 一种实现无人机自主穿越可移动框形障碍物的方法
CN113110592A (zh) * 2021-04-23 2021-07-13 南京大学 一种无人机避障与路径规划方法
CN114063650A (zh) * 2021-11-17 2022-02-18 中国人民解放军军事科学院国防科技创新研究院 一种面向虚幻引擎的仿真无人机飞行控制方法
CN114564039A (zh) * 2022-01-25 2022-05-31 北京航空航天大学 一种基于深度q网络和快速搜索随机树算法的航迹规划方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BENCHUN ZHOU 等: ""Vision-based Navigation of UAV with Continuous Action Space Using Deep Reinforcement Learning"", 《THE 31TH CHINESE CONTROL AND DECISION CONFERENCE》 *
BOHAO LI 等: ""Path Planning for UAV Ground Target Tracking via Deep Reinforcement Learning"", 《IEEE ACCESS》 *
刘建伟 等: ""基于值函数和策略梯度的深度强化学习综述"", 《计算机学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112114592A (zh) * 2020-09-10 2020-12-22 南京大学 一种实现无人机自主穿越可移动框形障碍物的方法
CN112114592B (zh) * 2020-09-10 2021-12-17 南京大学 一种实现无人机自主穿越可移动框形障碍物的方法
CN113110592A (zh) * 2021-04-23 2021-07-13 南京大学 一种无人机避障与路径规划方法
CN114063650A (zh) * 2021-11-17 2022-02-18 中国人民解放军军事科学院国防科技创新研究院 一种面向虚幻引擎的仿真无人机飞行控制方法
CN114564039A (zh) * 2022-01-25 2022-05-31 北京航空航天大学 一种基于深度q网络和快速搜索随机树算法的航迹规划方法

Similar Documents

Publication Publication Date Title
CN111460650B (zh) 一种基于深度强化学习的无人机端到端控制方法
CN111487992A (zh) 基于深度强化学习的无人机感知与避障一体化方法及设备
Spica et al. A real-time game theoretic planner for autonomous two-player drone racing
CN109655066B (zh) 一种基于Q(λ)算法的无人机路径规划方法
Phung et al. Motion-encoded particle swarm optimization for moving target search using UAVs
Turpin et al. Trajectory design and control for aggressive formation flight with quadrotors
Badgwell et al. Reinforcement learning–overview of recent progress and implications for process control
CN113253733B (zh) 一种基于学习和融合的导航避障方法、装置及***
CN113268074B (zh) 一种基于联合优化的无人机航迹规划方法
Kimmel et al. Maintaining team coherence under the velocity obstacle framework.
CN114521262A (zh) 使用因果正确环境模型来控制智能体
Zhou et al. An efficient deep reinforcement learning framework for uavs
CN115562357A (zh) 一种面向无人机集群的智能路径规划方法
Wang et al. Robust navigation for racing drones based on imitation learning and modularization
Hafez et al. Efficient intrinsically motivated robotic grasping with learning-adaptive imagination in latent space
CN117387635A (zh) 一种基于深度强化学习和pid控制器的无人机导航方法
Liu et al. Her-pdqn: A reinforcement learning approach for uav navigation with hybrid action spaces and sparse rewards
CN117648548A (zh) 基于离线-在线混合强化学习的智能决策方法和装置
CN115826594B (zh) 不依赖动态模型参数的无人潜航器切换拓扑编队控制方法
CN116203987A (zh) 一种基于深度强化学习的无人机集群协同避障方法
Pan et al. Learning navigation policies for mobile robots in deep reinforcement learning with random network distillation
Spica et al. A game theoretic approach to autonomous two-player drone racing
Dang et al. Imitation learning-based algorithm for drone cinematography system
Yoon et al. Learning to communicate: A machine learning framework for heterogeneous multi-agent robotic systems
Berseth et al. Model-based action exploration for learning dynamic motion skills

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200804

RJ01 Rejection of invention patent application after publication