CN110488861A - 基于深度强化学习的无人机轨迹优化方法、装置和无人机 - Google Patents

基于深度强化学习的无人机轨迹优化方法、装置和无人机 Download PDF

Info

Publication number
CN110488861A
CN110488861A CN201910697007.6A CN201910697007A CN110488861A CN 110488861 A CN110488861 A CN 110488861A CN 201910697007 A CN201910697007 A CN 201910697007A CN 110488861 A CN110488861 A CN 110488861A
Authority
CN
China
Prior art keywords
unmanned plane
function
data
moment
deeply
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910697007.6A
Other languages
English (en)
Other versions
CN110488861B (zh
Inventor
许文俊
徐越
吴思雷
张治�
张平
林家儒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910697007.6A priority Critical patent/CN110488861B/zh
Priority to PCT/CN2019/114200 priority patent/WO2021017227A1/zh
Publication of CN110488861A publication Critical patent/CN110488861A/zh
Application granted granted Critical
Publication of CN110488861B publication Critical patent/CN110488861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了基于深度强化学习的无人机轨迹优化方法、装置和无人机,该方法预先构建强化学习网络,在无人机飞行过程中实时产生状态数据、动作决策数据;以状态数据为输入、以所述动作决策数据为输出,以瞬时能量效率为奖励回报,利用PPO算法优化策略参数,输出最优策略。该装置包括构建模块、训练数据收集模块和训练模块。该无人机包括处理器,该处理器用于执行本发明的基于深度强化学习的无人机轨迹优化方法。本发明具备从累积的飞行数据中进行自主学习的能力,可在未知通信场景下,智能决定其最佳飞行速度、加速度、飞行方向与返航时间,归纳出能量效率最优飞行策略,具有较强的环境适应能力与泛化能力。

Description

基于深度强化学习的无人机轨迹优化方法、装置和无人机
技术领域
本发明涉及无线通信技术领域,特别涉及基于深度强化学习的无人机轨迹优化方法、装置和无人机。
背景技术
无人机通信技术被认为是第五代(5G)以及后续演进(5G+)移动通信网络中不可或缺的一个组成部分。但是无人机通信***具有独特的空对地信道模型,高动态的三维飞行能力以及有限的飞行能源,使得无人机通信***相较于传统通信***更加复杂。
目前用于无人机轨迹优化的方法主要有传统凸优化算法和强化学习算法。如有一篇申请号为“201811144956.3”的中国专利申请,公开了一种基于蜂窝网联的无人机移动边缘计算***能耗优化方法。该方法根据无人机数据处理、通信、飞行带来的约束条件,用凸优化算法优化所有时刻无人机的位置、速度和加速度。如一篇申请号为“201811564184.9”的中国专利,公开了一种基于改进Q学习算法的无人机群路径规划方法。该方法将强化学习方法Q学习算法与无人机轨迹优化结合,首先采用栅格法建立离散化的环境模型,其次输入有限的环境状态值,经过强化学习网络部分,查询状态-行为值矩阵输出动作,并从环境中获取回报更新矩阵,最终实现无人机在未知环境下的轨迹规划。
其中,利用凸优化算法在进行无人机轨迹优化时,由于实际场景下的目标方程的形式非常复杂,所以需要简化场景,建立场景假设,并且对无人机的飞行控制优化在离散域进行,才能得到简化的可解的目标问题,得到的结果通常偏离实际最优情况;另一方面,基于凸优化算法的无人机轨迹优化方法,也难以应对动态变化的环境信息。例如,当通信需求动态变化时,原目标方程便无法适用。而现有技术中采用强化学习算法优化无人机轨迹的方案,如Q学习,需要首先建立一个环境状态与行动映射的表格,再通过当前状态值查表选择最大的状态-行动值(Q值)对应的动作。因为状态-行动表格的限制,定义的状态与可采取的行动都是有限的。然而在实际中状态和行动通常是无限或连续的,在转化为有限个数时会有信息损失,而且会有维度***的潜在危机。
可见,现有技术中关于优化无人机飞行轨迹的部分技术方案,适应的飞行场景和提供的飞行动作方案都比较有限,难以应对无人机飞行过程中动态变化的环境信息,偏离无人机的实际飞行需求。
发明内容
本发明的目的是提出一种基于深度强化学习的无人机轨迹优化方法、装置和无人机,以解决上述技术问题。
为实现上述目的,本发明提供了如下方案:
本发明实施例的第一个方面,提供了一种基于深度强化学习的无人机轨迹优化方法,包括如下步骤:
预先构建基于PPO算法的深度强化学习网络;
在无人机飞行过程中实时与环境交互,产生状态数据、动作决策数据,并计算瞬时能量效率;
以所述状态数据为输入、以所述动作决策数据为输出,以所述瞬时能量效率为奖励回报,利用PPO算法对所述深度强化学习网络进行训练,优化策略参数,经过多次迭代更新,输出最优策略。
可选的,预先构建基于PPO算法的深度强化学习网络,包括:
构建包括行动网络和评价网络的深度学习网络结构;
行动网络利用PPO算法和深度神经网络来拟合策略函数,决策飞行动作;所述评价网络利用深度神经网络来拟合状态价值函数,优化策略函数中的策略参数。
可选的,产生状态数据、动作决策数据,包括:
计算无人机与物联网设备间的距离、传输速率和自身剩余能量,作为状态数据;
采集无人机的加速度、飞行方向,作为动作决策数据。
可选的,产生状态数据、动作决策数据,包括:
将状态数据量化表示为其中φ(st)表示状态数据矩阵,st表示t时刻的状态,分别表示在t时刻第1至第N个物联网设备与无人机的欧式距离;分别表示在t时刻第1至第N个物联网设备向无人机传送信息的传输速率;表示无人机在t时刻的自身剩余能量;
将动作决策数据表示为at=[ωt,at]T;其中at表示在t时刻的动作;ωt∈[0,2π],ωt表示在t时刻无人机的飞行操纵角度;at表示在t时刻无人机的加速度大小,at为连续有界数据。
可选的,计算瞬时能量效率,包括按下式计算:
其中r(st,at)表示无人机在t时刻状态为st、动作为at时的瞬时能量效率;为在t时刻物联网设备u向无人机传送数据的最大传输速率;表示自身剩余能量。
可选的,利用PPO算法对深度强化学习网络进行训练,优化策略参数,经过多次迭代更新,输出最优策略,包括:
采用PPO算法,将目标方程改写为:
其中θ为待优化的策略参数,ε为预设的用于控制策略更新幅度的常数,为时刻t的期望值,表示优势函数,clip表示裁剪函数,rt(θ)是一次迭代更新中旧策略函数和新策略函数的比值,可表示为:
其中πθ表示策略函数,πθ(at|st)表示t时刻状态为st、动作为at的新策略函数,表示t时刻状态为st、动作为at的旧策略函数;
求取的优势函数方程为:
其中γ为衰减指数,λ为径迹参数;δt为t时刻的时间差分错误值,δT-1为T-1时刻的时间差分错误值;T为自主飞行总时长;
通过多次迭代更新,求取目标方程最大值,以优化策略函数中的策略参数,将目标方程最大值对应的策略参数作为最优策略输出。
可选的,计算瞬时能量效率,包括:
在无人机返回途中发生能源耗尽情况时,在计算瞬时能量效率的方程后添加预设数值的惩罚项。
本发明实施例的第二个方面,还提供一种基于深度强化学习的无人机轨迹优化装置,包括构建模块、训练数据收集模块和训练模块;
构建模块,用于构建基于PPO算法的深度强化学习网络;
训练数据收集模块,用于在无人机飞行过程中实时与环境交互,产生状态数据、动作决策数据,并计算瞬时能量效率;
训练模块,用于以状态数据为输入、以动作决策数据为输出,以瞬时能量效率为奖励回报,利用PPO算法对深度强化学习网络进行训练,优化策略参数,经过多次迭代更新,输出最优策略。
可选的,构建模块,用于:构建行动网络、评价网络;利用一深度神经网络拟合状态价值函数并传入评价网络,通过评价网络计算优势函数,并将优势函数传入行动网络;利用一深度神经网络通过行动网络拟合策略函数,并将策略函数传入行动网络;
和/或,训练数据收集模块,用于:计算无人机与物联网设备间的距离、传输速率以及自身剩余能量,作为状态数据;采集无人机的加速度、飞行方向,作为动作决策数据。
本发明实施例的第三个方面,还提供一种无人机,包括处理器,处理器用于执行上述基于深度强化学习的无人机轨迹优化方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了基于深度强化学习的无人机轨迹优化方法、装置和无人机,在无人机轨迹优化中引入了深度强化学习技术PPO算法,无人机在飞行过程中实时与环境交互,收集当前飞行轨迹下的状态数据和动作数据作为训练数据,以瞬时能量效率为回报函数,通过PPO算法实时自主学习,实现对决策飞行轨迹的策略参数的不断优化,即赋予无人机在环境中在线自主学习的能力,可以根据需求,适应动态环境的变化;此外,基于PPO算法的自主学习,还具有不受限于学习步长的选择的优点;
并且本发明提出的基于PPO算法的自主学习方法其处理的数据对象可以为三维连续有界数据,例如输入数据、输出数据等不限于离散域,实现了连续域下三维空间内的无人机的飞行控制优化,更贴近现实场景;相比于基于离散域数据或者表格中有限几种应对方案的控制方式,更符合实际飞行环境的需求;
进一步地,将回报函数赋值为无人机飞行瞬时能量效率的同时,在飞机无法顺利返航充电/加油时增加惩罚项,经过不断学习后使得无人机能够即时返航避免损失,提高无人机飞行工作的能量效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于深度强化学习的无人机轨迹优化方法的一个实施例的流程示意图;
图2为本发明基于深度强化学习的无人机轨迹优化方法的另一个实施例中整体结构及相关数据交互示意图;
图3为本发明基于深度强化学习的无人机轨迹优化方法的一个优选实施例的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
深度强化学习技术是一种结合强化学习和深度神经网络的机器学习技术。具体而言,强化学习个体通过与环境交互的方式,收集不同环境状态下采取不同动作的回报信息,并根据收集到的数据,归纳学习出最优的行为策略,从而获得适应未知动态环境的能力。深度神经网络可显著提升算法在高维状态空间和高维行动空间上的泛化能力,从而获得适应更加复杂环境的能力。
本发明实施例1提供了一种基于深度强化学习的无人机轨迹优化方法,如图1所示,该方法包括如下步骤:
S101,预先构建基于PPO算法(近端策略优化算法,Proximal PolicyOptimization)的深度强化学习网络。
该深度强化学习网络模型可在无人机起飞前预先安装在无人机上,也可安装于物联网设备端,无人机在飞行过程中与物联网设备端实时交互数据,实现在线自主学习。
S102,在无人机飞行过程中实时与环境交互,产生状态数据、动作决策数据。
S103,计算瞬时能量效率。
S104,利用PPO算法对所述深度强化学习网络进行训练,优化策略参数。
循环执行步骤S102至步骤S104,利用收集到的数据不断迭代更新网络参数,最终达到最优。
S105,经多次迭代更新后得到训练出的最优策略,输出最优策略。
以状态数据为输入、以动作决策数据为输出,以瞬时能量效率为奖励回报,对深度强化学习网络进行训练,经多次迭代更新,实现对策略参数的优化。
策略参数即决定飞行轨迹的动作参数,最优策略即通过自主学习得到的使能量效率最大化的飞行策略。
实施例2
本发明实施例2提供一种基于深度强化学习的无人机轨迹优化方法的另一个实施例。
在本发明实施例2中,PPO算法采用演员评论家(Actor-Critic)框架的深度强化学习结构,由行动网络和评价网络两个网络构成:行动网络利用PPO算法和深度神经网络来拟合策略函数,决策行动;评价网络利用深度神经网络来拟合状态价值函数,优化策略参数。本发明实施例2提供的优化方法的整体结构及相关数据交互如图2所示。
在本实施例中,使用的无人机通信场景是单一无人机基站为多个固定的物联网设备提供服务,物联网设备被随机激活或周期性激活采集数据并传输至无人机基站。
作为一种可实施方式,无人机将其与物联网设备间的距离、传输速率以及自身剩余能量作为强化学习的状态输入行动网络,将无人机加速度、飞行方向(即飞行操纵角度)作为输出行为,将从环境中获得无人机的瞬时能量效率作为奖励回报。并通过不断与环境交互,产生状态输入、行动决策、奖励回报的数据,作为评价网络与行动网络的训练数据。评价网络利用深度神经网络拟合状态价值函数,为行动网络优化提供优势函数;行动网络利用PPO算法优化策略参数,利用深度神经网络拟合策略函数。经过多次迭代更新的过程,无人机适应环境并得到最优策略。
作为一种可实施方式,本发明实施例2提供的基于深度强化学习的无人机轨迹优化方法可包括如下步骤:
S201,初始化强化学习决策策略及相关参数,以及深度神经网络相关参数。
S202,在预设时长的一段时间内,无人机自主飞行完成任务并记录相关数据。无人机计算与物联网设备的距离、传输速率和自身剩余能量,基于当前策略决策飞行轨迹,接收物联网设备发送的数据,并计算该飞行轨迹下的瞬时能量效率。
S203,通过上述预设时长的一段时间内收集的数据,评价网络拟合状态价值函数,计算优势函数,传入行动网络。分别训练行动网络与评价网络的深度神经网络各参数,更新无人机飞行策略。
S204,重复步骤202、步骤203,直至无人机任务结束。
实施例3
本发明实施例3提供基于深度强化学习的无人机轨迹优化方法的一个优选实施例,通过该实施例对本发明使用的无人机通信建模方法以及基于深度强化学习的无人机高能效轨迹优化方法进行进一步详细的说明。
该实施例建立的无人机通信模型,考虑一个无人机为N个地面物联网设备提供时延容忍服务的场景,物联网设备随机分布且位置固定,周期性或随机性地采集数据并传送至无人机。目标是优化无人机飞行轨迹,在能量有限的条件下最大化累计能量效率。为了完成这个目标,无人机应可以检测自身剩余能量,并决策最优的返航充电/加油时间。
具体建模方法如下:
S301:计算平均路径损耗。
无人机与物联网设备间的通信信道,采用sub-6GHz频段的空对地的链接,视线传输(LoS)在该无线链路中占主导地位。无人机与地面物联网设备u在t时刻的平均路径损耗可以表示为:
fc代表中心频率,代表t时刻无人机与设备u之间的欧氏距离,c代表光速,ηLoS代表LoS链路的附加空间传播损耗,是一个常量。
302:计算信噪比。
无人机与物联网设备u在t时刻的信噪比(SINR)可以表示为:
Pu代表设备u上传链路的传输功率,代表t时刻无人机与设备u之间信道的增益,N0为噪声功率。假定所有设备的传输功率和噪声功率相同,信道增益只受路径损耗决定,所以假设无人机移动带来的多普勒效应可以用现有技术完美补偿,如锁相环技术,因此,设备u向无人机传输的最大速率可以表示为:
B代表信道带宽,假定所有设备的带宽相同。
S303:计算自身剩余能量。
无人机的能量损耗包括推动力造成的飞行能量损耗和通信相关能量损耗。推动力造成的飞行能量消耗让无人机可以保持在空中飞行、改变飞行的轨迹,其功率大小与无人机飞行的速度和加速度相关,因此飞行能量消耗可以表示为飞行轨迹q(t)的方程,为:
其中,E(p(t))为自身能量损耗,表示自身剩余能量,自身剩余能量为初始总能量减去自身能量损耗,即其中E0为无人机本次飞行前的初始总能量。自身能量损耗为瞬时能量损耗从t=0到t=t的积分。
p(t)为瞬时能量损耗,代表无人机的瞬时速度,代表无人机的加速度,c1和c2是两个和无人机自身物理性质相关的常数,如机翼数量和重量。需要说明的是,这里aT表示a的转置,此处“T”为转置符号。
通信相关能量损耗包括辐射、信号处理以及其他电路消耗,其中信号处理造成的能量损耗占主导部分。信号处理造成的能量损耗与无人机飞行无关,是飞行时间的平方的反比例函数,可表示为:
其中,Ecomp即到t时刻的通信相关能量损耗,G表示无人机节点的硬件计算常数,D代表无人机需要处理数据的比特数,t即t时刻。
本发明中,自身能量损耗=飞行能量损耗+通信相关能量损耗;自身剩余能量=初始总能量-自身能量损耗。
S304:从飞行环境中提取状态数据。
状态数据从环境中提取计算获得,可以特征化为如下三部分:i)无人机到每一个物联网设备的距离;ii)每个物联网设备向无人机传送信息的传输速率;iii)自身剩余能量。因此,状态数据可以表示为(此处“T”表示矩阵的转置)。
S305:获取动作数据。
动作由无人机发出,用于控制飞行轨迹,包括如下两部分:i)t时刻无人机的飞行操纵角度ωt∈[0,2π];ii)t时刻无人机的加速度大小at。因此,动作可以综合表示为at=[ωt,at]T(此处“T”表示矩阵的转置)。
需要说明的是,无人机的瞬时飞行速度和加速度都是三维连续有界的。
S306,建立回报函数。
回报函数定义为瞬时的能量效率,即
由于考虑算法需要自动决策无人机的返航充电/加油时间,因此当无人机返回途中能源耗尽时应在回报函数后添加一个较大数值的惩罚项。无人机返回途中能源耗尽,造成无人机坠毁,将回报函数值直接置为较大的负数,例如-100。具体惩罚项的数值可由本领域技术人员根据实际场景具体灵活设置,并不唯一,并发明不逐一列举。
S307:建立策略函数。
基于策略梯度的强化学习方法是将策略参数化,建模形式为一个随机方程,即πθ:S→P(A),代表在状态集S(即状态s的集合)内的任何状态下,采用动作集A(即动作a的集合)中动作的概率,θ∈Rn是需要被优化的策略参数。Rn表示n维实数集合,n的大小等于θ的维数。
S308:建立目标方程。
在强化学习中,状态s在策略πθ下的状态价值函数被定义为长期累积的回报。当其时状态为s,策略为πθ时,状态价值函数如下形式:
γ为折扣因子,取值范围γ∈[0,1]。相似的,在策略πθ下,动作a的状态-动作价值函数可以定义为:
强化学习的目标方程定义为:
其中是在策略πθ下的有折扣的状态访问概率分布。
因此,我们得到最终的基于强化学习的无人机轨迹优化问题为:
C1和C2分别为无人机飞行速度和加速度的限制条件。
策略梯度方法可以应用于优化策略πθ以使目标方程达到最大。目标方程关于自变量θ的梯度可以表示为:
bt是为了减小策略梯度方差而在回报函数中引入的常数基线,在回报函数中引入常数,策略梯度不变而方差减小。特别的,bt通常选择状态值方程Vθ(st)的估计值,Rt-bt则可被看作优势函数A(at,st)=Q(at,st)-V(st)的估计值。
策略梯度算法在使用时策略梯度通常具有较大的方差,因此受参数影响变化较大。而且根据策略梯度算法,参数更新方程式为α为更新步长,当步长不合适时,更新的参数所对应的策略将会是一个更不好的策略。
信赖域系方法TRPO算法(trust region policy optimization)通过限制每次迭代中策略的变化大小来提升算法的鲁棒性。深度强化学习算法PPO,继承了信赖域系方法算法中的优点,同时实现方法更简单,更加通用,并且根据经验具有更好的样本复杂度。
S309:采用PPO算法改写目标方程。
采用PPO算法,目标方程可以改写为:
其中θ为策略函数中的待优化参数,ε为预先设置的固定值,ε=0.1~0.3,目的是控制策略的更新幅度。为数学期望符号,表示对时间t取平均值。rt(θ)是旧策略函数和新策略函数的比值,可表示为:
旧策略函数与新策略函数指在一次迭代更新中,更新后的策略函数即为新策略函数,更新前的策略函数即为旧策略函数。
其中,优势函数方程为:
δt=rt+γV(st+1)-V(st),
γ为衰减指数,是一预先设定的固定值;λ为径迹参数,也为一预先设定的固定值;γ的取值范围为(0,1),λ的取值范围也为(0,1)。δt为t时刻的时间差分错误值(Temporaldifference error),其具体数学表达式参见上式第二行;δT-1为T-1时刻的时间差分错误值,T为自主飞行总时长。
需要注意的是,优势函数需要从当前时刻直到时刻t一段时间内的全部数据。
因此,本发明在两个位置引入深度神经网络,分别用于表示状态-动作价值函数方程Qω(s,a)≈Qπ(s,a)并学习参数ω,以及表示策略函数πθ(s)=π(s)并学习参数θ。
具体地,参见图3所示,本发明实施例中深度强化学习PPO算法的具体流程如下:
初始化深度强化学习神经网络的各个参数,为参数ω和θ随机赋值,自主飞行时长设为T,两个深度神经网络迭代次数分别设为M次和B次,取ε=0.2,γ=0.99,总任务时间设定为L。
For episode=1,L do;执行从第1个时间片段到第L个时间片段的循环;基于当前策略πθ连续自主决策行动T次,同时与环境交互收集元组{st,at,rt}。通过收集到的元组{st,at,rt},并利用深度神经网络估计优势函数
计算目标函数并利用梯度下降法更新参数θ,迭代M次。
计算函数并利用梯度下降法更新参数ω,迭代B次。
End for,结束循环。
本发明实施例提出了一种基于深度强化学习PPO算法的无人机高能效轨迹优化方案。该轨迹优化方案把无人机自身剩余能量考虑入状态值输入强化学习网络,并直接输出无人机飞行的速度、加速度、飞行方向和返航时间。该方案通过在线学习的方式,根据环境变化,动态调整学习到的策略,从而适应环境。同时本方案考虑的是连续域下的控制问题,与实际场景下连续域飞行控制机制相符。另一方面,PPO算法是鲁棒性最好,性能最为突出的连续域控制算法,消除了不易确定合适学习步长的缺点,降低了算法的复杂度。
实施例4
本发明实施例还提供一种基于深度强化学习的无人机轨迹优化装置,包括构建模块、训练数据收集模块和训练模块。
构建模块,用于构建基于PPO算法的深度强化学习网络;训练数据收集模块,用于在无人机飞行过程中实时与环境交互,产生状态数据、动作决策数据,并计算瞬时能量效率;训练模块,用于以状态数据为输入、以动作决策数据为输出,以瞬时能量效率为奖励回报,利用PPO算法对深度强化学习网络进行训练,优化策略参数,经过多次迭代更新,输出最优策略。
实施例5
本发明实施例还提供一种无人机,包括处理器,该处理器用于执行本发明的基于深度强化学习的无人机轨迹优化方法。
综上,本发明引入深度强化学习PPO算法,对环境信息进行自主探索学习,以提升无人机能量效率为目标,智能决策优化飞行轨迹及返航时间。
相比于现有技术,本发明达到了如下技术效果:
首先,本发明在适应场景及环境的能力强于现有技术中采用凸优化算法的方案。由于我们引入强化学习算法,在学习过程中优化策略参数,而不是基于固定的目标方程,因此具有更强的灵活性;而且本发明深度强化学习网络通过输入环境状态,以及获取回报奖励,强化了与外界环境的交互,对于场景和环境的变化能够更快速地应对。
其次,发明相比现有技术中基于Q学习的方案,采用了连续域的无人机轨迹优化方案,强化学习输出的行动连续的速度与加速度,更贴近现实情况,容易进行飞行区域的扩展,在大区域轨迹优化时,不会出现维度***的潜在问题。
现有技术中还有一种方案是采用DDPG算法对机器进行连续域上的控制,该方法存在不易确定合适学习步长的缺点,超参数的选择对优化结果影响大。
本发明融合了深度强化学习与无人机轨迹优化问题,并且首次采用PPO算法解决该问题,相比于采用深度确定策略梯度(DDPG)算法进行更新的优化方案,PPO算法受训练的步长影响更小,解决真实场景下的控制问题时适应性更强,解决了现有技术中采用DDPG算法不易确定学习步长的问题,效率更高。
此外,本发明还考虑了最优返航充电/加油时间,使无人机能在安全返航的情况下,灵活的调整飞行时间和轨迹,尽可能大的提升自身的能量利用效率。
在一个或多个示例性设计中,所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外先、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

Claims (10)

1.基于深度强化学习的无人机轨迹优化方法,其特征在于,包括如下步骤:
预先构建基于PPO算法的深度强化学习网络;
在无人机飞行过程中实时与环境交互,产生状态数据、动作决策数据,并计算瞬时能量效率;
以所述状态数据为输入、以所述动作决策数据为输出,以所述瞬时能量效率为奖励回报,利用PPO算法对所述深度强化学习网络进行训练,优化策略参数,经过多次迭代更新,输出最优策略。
2.根据权利要求1所述的基于深度强化学习的无人机轨迹优化方法,其特征在于,所述步骤预先构建基于PPO算法的深度强化学习网络,包括:
构建包括行动网络和评价网络的深度学习网络结构;
所述行动网络利用PPO算法和深度神经网络来拟合策略函数,决策飞行动作;所述评价网络利用深度神经网络来拟合状态价值函数,优化所述策略函数中的策略参数。
3.根据权利要求1所述的基于深度强化学习的无人机轨迹优化方法,其特征在于,所述步骤产生状态数据、动作决策数据,包括:
计算所述无人机与物联网设备间的距离、传输速率和自身剩余能量,作为状态数据;
采集所述无人机的加速度、飞行方向,作为动作决策数据。
4.根据权利要求3所述的基于深度强化学习的无人机轨迹优化方法,其特征在于,所述步骤产生状态数据、动作决策数据,包括:
将所述状态数据量化表示为其中φ(st)表示状态数据矩阵,st表示t时刻的状态,分别表示在t时刻第1至第N个物联网设备与无人机的欧式距离;分别表示在t时刻第1至第N个物联网设备向无人机传送信息的传输速率;表示无人机在t时刻的自身剩余能量;
将所述动作决策数据表示为at=[ωt,at]T;其中at表示在t时刻的动作;ωt∈[0,2π],ωt表示在t时刻无人机的飞行操纵角度;at表示在t时刻无人机的加速度大小,at为连续有界数据。
5.根据权利要求4所述的基于深度强化学习的无人机轨迹优化方法,其特征在于,所述步骤计算瞬时能量效率,包括按下式计算:
其中r(st,at)表示无人机在t时刻状态为st、动作为at时的瞬时能量效率;为在t时刻物联网设备u向无人机传送数据的最大传输速率;表示自身剩余能量。
6.根据权利要求2所述的基于深度强化学习的无人机轨迹优化方法,其特征在于,所述步骤利用PPO算法对所述深度强化学习网络进行训练,优化策略参数,经过多次迭代更新,输出最优策略,包括:
采用PPO算法,将目标方程改写为:
其中θ为待优化的策略参数,ε为预设的用于控制策略更新幅度的常数,为时刻t的期望值,表示优势函数,clip表示裁剪函数,rt(θ)是一次迭代更新中旧策略函数和新策略函数的比值,可表示为:
其中πθ表示策略函数,πθ(at|st)表示t时刻状态为st、动作为at的新策略函数,表示t时刻状态为st、动作为at的旧策略函数;
求取的优势函数方程为:
其中γ为衰减指数,λ为径迹参数;δt为t时刻的时间差分错误值,δT-1为T-1时刻的时间差分错误值;T为自主飞行总时长;
通过多次迭代更新,求取所述目标方程最大值,以优化策略函数中的策略参数,将所述目标方程最大值对应的策略参数作为最优策略输出。
7.根据权利要求1-6任一项所述的基于深度强化学习的无人机轨迹优化方法,其特征在于,所述步骤计算瞬时能量效率,包括:
在无人机返回途中发生能源耗尽情况时,在计算瞬时能量效率的方程后添加预设数值的惩罚项。
8.基于深度强化学习的无人机轨迹优化装置,其特征在于,包括构建模块、训练数据收集模块和训练模块;
所述构建模块,用于构建基于PPO算法的深度强化学习网络;
所述训练数据收集模块,用于在无人机飞行过程中实时与环境交互,产生状态数据、动作决策数据,并计算瞬时能量效率;
所述训练模块,用于以所述状态数据为输入、以所述动作决策数据为输出,以所述瞬时能量效率为奖励回报,利用PPO算法对所述深度强化学习网络进行训练,优化策略参数,经过多次迭代更新,输出最优策略。
9.根据权利要求8所述的基于深度强化学习的无人机轨迹优化装置,其特征在于:
所述构建模块,用于:构建行动网络、评价网络;利用一深度神经网络拟合状态价值函数并传入所述评价网络,通过评价网络计算优势函数,并将所述优势函数传入所述行动网络;利用一深度神经网络通过所述行动网络拟合策略函数,并将所述策略函数传入所述行动网络;
和/或,所述训练数据收集模块,用于:计算所述无人机与物联网设备间的距离、传输速率以及自身剩余能量,作为状态数据;采集所述无人机的加速度、飞行方向,作为动作决策数据。
10.一种无人机,包括处理器,其特征在于,所述处理器用于执行权利要求1-6任一项所述的基于深度强化学习的无人机轨迹优化方法。
CN201910697007.6A 2019-07-30 2019-07-30 基于深度强化学习的无人机轨迹优化方法、装置和无人机 Active CN110488861B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910697007.6A CN110488861B (zh) 2019-07-30 2019-07-30 基于深度强化学习的无人机轨迹优化方法、装置和无人机
PCT/CN2019/114200 WO2021017227A1 (zh) 2019-07-30 2019-10-30 无人机轨迹优化方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910697007.6A CN110488861B (zh) 2019-07-30 2019-07-30 基于深度强化学习的无人机轨迹优化方法、装置和无人机

Publications (2)

Publication Number Publication Date
CN110488861A true CN110488861A (zh) 2019-11-22
CN110488861B CN110488861B (zh) 2020-08-28

Family

ID=68548830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910697007.6A Active CN110488861B (zh) 2019-07-30 2019-07-30 基于深度强化学习的无人机轨迹优化方法、装置和无人机

Country Status (2)

Country Link
CN (1) CN110488861B (zh)
WO (1) WO2021017227A1 (zh)

Cited By (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110879595A (zh) * 2019-11-29 2020-03-13 江苏徐工工程机械研究院有限公司 一种基于深度强化学习的无人矿卡循迹控制***及方法
CN110958680A (zh) * 2019-12-09 2020-04-03 长江师范学院 面向能量效率的无人机群多智能体深度强化学习优化方法
CN111026147A (zh) * 2019-12-25 2020-04-17 北京航空航天大学 基于深度强化学习的零超调量无人机位置控制方法及装置
CN111132192A (zh) * 2019-12-13 2020-05-08 广东工业大学 一种无人机基站在线轨迹优化方法
CN111123963A (zh) * 2019-12-19 2020-05-08 南京航空航天大学 基于强化学习的未知环境自主导航***及方法
CN111191728A (zh) * 2019-12-31 2020-05-22 中国电子科技集团公司信息科学研究院 基于异步或同步的深度强化学习分布式训练方法及***
CN111314929A (zh) * 2020-01-20 2020-06-19 浙江工业大学 一种基于契约的无人机边缘缓存策略和奖励优化方法
CN111385806A (zh) * 2020-02-18 2020-07-07 清华大学 一种无人机基站路径规划和带宽资源分配方法及装置
CN111381499A (zh) * 2020-03-10 2020-07-07 东南大学 基于三维空间射频地图学习的网联飞行器自适应控制方法
CN111460650A (zh) * 2020-03-31 2020-07-28 北京航空航天大学 一种基于深度强化学习的无人机端到端控制方法
CN111552313A (zh) * 2020-04-29 2020-08-18 南京理工大学 基于边缘计算动态任务到达的多无人机路径规划方法
CN111565065A (zh) * 2020-03-24 2020-08-21 北京邮电大学 一种无人机基站部署方法、装置及电子设备
CN111580544A (zh) * 2020-03-25 2020-08-25 北京航空航天大学 一种基于强化学习ppo算法的无人机目标跟踪控制方法
CN111724001A (zh) * 2020-06-29 2020-09-29 重庆大学 一种基于深度强化学习的飞行器探测传感器资源调度方法
CN111752304A (zh) * 2020-06-23 2020-10-09 深圳清华大学研究院 无人机数据采集方法及相关设备
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN112051863A (zh) * 2020-09-25 2020-12-08 南京大学 一种无人机自主反侦察及躲避敌方攻击的方法
CN112068590A (zh) * 2020-08-21 2020-12-11 广东工业大学 无人机基站飞行规划方法、***、储存介质及无人机基站
CN112097783A (zh) * 2020-08-14 2020-12-18 广东工业大学 基于深度强化学习的电动出租车充电导航路径规划方法
CN112118556A (zh) * 2020-03-02 2020-12-22 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法
CN112180967A (zh) * 2020-04-26 2021-01-05 北京理工大学 基于评判-执行架构的多无人机协同对抗决策方法
CN112198870A (zh) * 2020-06-01 2021-01-08 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN112235810A (zh) * 2020-09-17 2021-01-15 广州番禺职业技术学院 基于强化学习的无人机通信***的多维度优化方法与***
CN112362522A (zh) * 2020-10-23 2021-02-12 浙江中烟工业有限责任公司 一种基于强化学习的烟叶容重测量方法
CN112566209A (zh) * 2020-11-24 2021-03-26 山西三友和智慧信息技术股份有限公司 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法
CN112711271A (zh) * 2020-12-16 2021-04-27 中山大学 基于深度强化学习的自主导航无人机功率优化方法
CN112791394A (zh) * 2021-02-02 2021-05-14 腾讯科技(深圳)有限公司 游戏模型训练方法、装置、电子设备及存储介质
CN112819215A (zh) * 2021-01-26 2021-05-18 北京百度网讯科技有限公司 推荐策略训练方法、装置、电子设备及可读存储介质
CN112865855A (zh) * 2021-01-04 2021-05-28 福州大学 基于无人机中继的高效无线隐蔽传输方法
CN113050673A (zh) * 2021-03-25 2021-06-29 四川大学 用于辅助通信***高能效的无人机的三维轨迹优化方法
CN113110546A (zh) * 2021-04-20 2021-07-13 南京大学 一种基于离线强化学习的无人机自主飞行控制方法
CN113110516A (zh) * 2021-05-20 2021-07-13 广东工业大学 一种深度强化学习的受限空间机器人作业规划方法
CN113110550A (zh) * 2021-04-23 2021-07-13 南京大学 一种基于强化学习与网络模型蒸馏的无人机飞行控制方法
CN113115344A (zh) * 2021-04-19 2021-07-13 中国人民解放***箭军工程大学 基于噪声优化的无人机基站通信资源分配策略预测方法
CN113157002A (zh) * 2021-05-28 2021-07-23 南开大学 一种基于多无人机多基站的空地协同全覆盖轨迹规划方法
CN113159386A (zh) * 2021-03-22 2021-07-23 中国科学技术大学 一种无人机返航状态估计方法及***
CN113239639A (zh) * 2021-06-29 2021-08-10 暨南大学 策略信息生成方法、装置、电子装置和存储介质
CN113255218A (zh) * 2021-05-27 2021-08-13 电子科技大学 无线自供电通信网络的无人机自主导航及资源调度方法
CN113258989A (zh) * 2021-05-17 2021-08-13 东南大学 一种使用强化学习获得无人机中继轨迹的方法
CN113283013A (zh) * 2021-06-10 2021-08-20 北京邮电大学 一种基于深度强化学习的多无人机充电及任务调度方法
CN113283169A (zh) * 2021-05-24 2021-08-20 北京理工大学 一种基于多头注意力异步强化学习的三维群体探索方法
CN113316239A (zh) * 2021-05-10 2021-08-27 北京科技大学 一种基于强化学习的无人机网络发射功率分配方法及装置
CN113359480A (zh) * 2021-07-16 2021-09-07 中国人民解放***箭军工程大学 基于mappo算法多无人机与用户协同通信优化方法
CN113382060A (zh) * 2021-06-07 2021-09-10 北京理工大学 一种物联网数据收集中的无人机轨迹优化方法及***
CN113377131A (zh) * 2021-06-23 2021-09-10 东南大学 一种使用强化学习获得无人机收集数据轨迹的方法
CN113419548A (zh) * 2021-05-28 2021-09-21 北京控制工程研究所 一种航天器深度强化学习莱维飞行控制***
CN113423060A (zh) * 2021-06-22 2021-09-21 广东工业大学 一种无人空中通信平台飞行路线的在线优化方法
CN113507717A (zh) * 2021-06-08 2021-10-15 山东师范大学 一种基于车辆轨迹预测的无人机轨迹优化方法及***
CN113543068A (zh) * 2021-06-07 2021-10-22 北京邮电大学 一种基于层次化分簇的林区无人机网络部署方法与***
CN113639755A (zh) * 2021-08-20 2021-11-12 江苏科技大学苏州理工学院 一种基于深度强化学习的火灾现场逃生-救援联合***
CN113721655A (zh) * 2021-08-26 2021-11-30 南京大学 一种控制周期自适应的强化学习无人机稳定飞行控制方法
CN113776531A (zh) * 2021-07-21 2021-12-10 电子科技大学长三角研究院(湖州) 无线自供电通信网络的多无人机自主导航及任务分配算法
CN113885549A (zh) * 2021-11-23 2022-01-04 江苏科技大学 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法
CN113892070A (zh) * 2020-04-30 2022-01-04 乐天集团股份有限公司 学习装置、信息处理装置、及完成学习的控制模型
CN114117633A (zh) * 2021-11-18 2022-03-01 中国人民解放军国防科技大学 一种无人机信息收集的控制方法及***
CN114142912A (zh) * 2021-11-26 2022-03-04 西安电子科技大学 高动态空中网络时间覆盖连续性保障的资源管控方法
CN114200950A (zh) * 2021-10-26 2022-03-18 北京航天自动控制研究所 一种飞行姿态控制方法
CN114268986A (zh) * 2021-12-14 2022-04-01 北京航空航天大学 一种无人机计算卸载与充电服务效能优化方法
CN114372612A (zh) * 2021-12-16 2022-04-19 电子科技大学 面向无人机移动边缘计算场景的路径规划和任务卸载方法
CN114384931A (zh) * 2021-12-23 2022-04-22 同济大学 一种基于策略梯度的无人机多目标最优控制方法和设备
CN114527737A (zh) * 2020-11-06 2022-05-24 百度在线网络技术(北京)有限公司 用于自动驾驶的速度规划方法、装置、设备、介质和车辆
CN114550540A (zh) * 2022-02-10 2022-05-27 北方天途航空技术发展(北京)有限公司 一种训练机智能监控方法、装置、设备以及介质
CN114741886A (zh) * 2022-04-18 2022-07-12 中国人民解放军军事科学院战略评估咨询中心 一种基于贡献度评价的无人机集群多任务训练方法及***
CN114785397A (zh) * 2022-03-11 2022-07-22 浙江以正通信技术有限公司 无人机基站控制方法、飞行轨迹优化模型构建、训练方法
CN115001002A (zh) * 2022-08-01 2022-09-02 广东电网有限责任公司肇庆供电局 一种求解储能参与削峰填谷的优化调度方法和***
CN115046433A (zh) * 2021-03-09 2022-09-13 北京理工大学 基于深度强化学习的飞行器时间协同制导方法
CN115061371A (zh) * 2022-06-20 2022-09-16 中国航空工业集团公司沈阳飞机设计研究所 一种防止策略抖动的无人机控制策略强化学习生成方法
CN115202377A (zh) * 2022-06-13 2022-10-18 北京理工大学 一种模糊自适应nmpc轨迹跟踪控制和能源管理方法
CN116741019A (zh) * 2023-08-11 2023-09-12 成都飞航智云科技有限公司 一种基于ai的飞行模型训练方法、训练***
CN116736729A (zh) * 2023-08-14 2023-09-12 成都蓉奥科技有限公司 一种抗感知误差的视距内空战机动策略生成方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268074B (zh) * 2021-06-07 2022-05-13 哈尔滨工程大学 一种基于联合优化的无人机航迹规划方法
CN115167506B (zh) * 2022-06-27 2024-06-28 华南师范大学 无人机飞行航线更新规划的方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106168808A (zh) * 2016-08-25 2016-11-30 南京邮电大学 一种基于深度学习的旋翼无人机自动巡航方法及其***
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
KR101813697B1 (ko) * 2015-12-22 2017-12-29 한국항공대학교산학협력단 딥 러닝을 이용한 무인기 비행 제어 시스템 및 방법
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN109343341A (zh) * 2018-11-21 2019-02-15 北京航天自动控制研究所 一种基于深度强化学习的运载火箭垂直回收智能控制方法
CN109443366A (zh) * 2018-12-20 2019-03-08 北京航空航天大学 一种基于改进q学习算法的无人机群路径规划方法
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101002125B1 (ko) * 2008-08-05 2010-12-16 주식회사 케이티 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치및 그 방법
CN106019950B (zh) * 2016-08-09 2018-11-16 中国科学院软件研究所 一种手机卫星自适应姿态控制方法
CN108594638B (zh) * 2018-03-27 2020-07-24 南京航空航天大学 面向多任务多指标优化约束的航天器acs在轨重构方法
CN109445456A (zh) * 2018-10-15 2019-03-08 清华大学 一种多无人机集群导航方法
CN109639377B (zh) * 2018-12-13 2021-03-23 西安电子科技大学 基于深度强化学习的频谱资源管理方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101813697B1 (ko) * 2015-12-22 2017-12-29 한국항공대학교산학협력단 딥 러닝을 이용한 무인기 비행 제어 시스템 및 방법
CN106168808A (zh) * 2016-08-25 2016-11-30 南京邮电大学 一种基于深度学习的旋翼无人机自动巡航方法及其***
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN109343341A (zh) * 2018-11-21 2019-02-15 北京航天自动控制研究所 一种基于深度强化学习的运载火箭垂直回收智能控制方法
CN109443366A (zh) * 2018-12-20 2019-03-08 北京航空航天大学 一种基于改进q学习算法的无人机群路径规划方法
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
EIVIND BØHN,等: "Deep Reinforcement Learning Attitude Control of Fixed-Wing UAVs Using Proximal Policy Optimization", 《2019 INTERNATIONAL CONFERENCE ON UNMANNED AIRCRAFT SYSTEMS (ICUAS)》 *
GUILHERME CANO LOPES,等: "Intelligent Control of a Quadrotor with Proximal Policy Optimization Reinforcement Learning", 《2018 LATIN AMERICAN ROBOTIC SYMPOSIUM, 2018 BRAZILIAN SYMPOSIUM ON ROBOTICS (SBR) AND 2018 WORKSHOP ON ROBOTICS IN EDUCATION (WRE)》 *
URSULA CHALLITA,等: "Deep Reinforcement Learning for Interference-Aware Path Planning of Cellular-Connected UAVs", 《IEEE》 *
李东华,等: "多智能体强化学习飞行路径规划算法", 《电光与控制》 *

Cited By (105)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110879595A (zh) * 2019-11-29 2020-03-13 江苏徐工工程机械研究院有限公司 一种基于深度强化学习的无人矿卡循迹控制***及方法
CN110958680B (zh) * 2019-12-09 2022-09-13 长江师范学院 面向能量效率的无人机群多智能体深度强化学习优化方法
CN110958680A (zh) * 2019-12-09 2020-04-03 长江师范学院 面向能量效率的无人机群多智能体深度强化学习优化方法
CN111132192A (zh) * 2019-12-13 2020-05-08 广东工业大学 一种无人机基站在线轨迹优化方法
CN111132192B (zh) * 2019-12-13 2023-01-17 广东工业大学 一种无人机基站在线轨迹优化方法
CN111123963A (zh) * 2019-12-19 2020-05-08 南京航空航天大学 基于强化学习的未知环境自主导航***及方法
CN111026147A (zh) * 2019-12-25 2020-04-17 北京航空航天大学 基于深度强化学习的零超调量无人机位置控制方法及装置
CN111026147B (zh) * 2019-12-25 2021-01-08 北京航空航天大学 基于深度强化学习的零超调量无人机位置控制方法及装置
CN111191728A (zh) * 2019-12-31 2020-05-22 中国电子科技集团公司信息科学研究院 基于异步或同步的深度强化学习分布式训练方法及***
CN111191728B (zh) * 2019-12-31 2023-05-09 中国电子科技集团公司信息科学研究院 基于异步或同步的深度强化学习分布式训练方法及***
CN111314929B (zh) * 2020-01-20 2023-06-09 浙江工业大学 一种基于契约的无人机边缘缓存策略和奖励优化方法
CN111314929A (zh) * 2020-01-20 2020-06-19 浙江工业大学 一种基于契约的无人机边缘缓存策略和奖励优化方法
CN111385806A (zh) * 2020-02-18 2020-07-07 清华大学 一种无人机基站路径规划和带宽资源分配方法及装置
CN111385806B (zh) * 2020-02-18 2021-10-26 清华大学 一种无人机基站路径规划和带宽资源分配方法及装置
CN112118556B (zh) * 2020-03-02 2022-11-18 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法
CN112118556A (zh) * 2020-03-02 2020-12-22 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法
CN111381499A (zh) * 2020-03-10 2020-07-07 东南大学 基于三维空间射频地图学习的网联飞行器自适应控制方法
CN111565065A (zh) * 2020-03-24 2020-08-21 北京邮电大学 一种无人机基站部署方法、装置及电子设备
CN111565065B (zh) * 2020-03-24 2021-06-04 北京邮电大学 一种无人机基站部署方法、装置及电子设备
CN111580544A (zh) * 2020-03-25 2020-08-25 北京航空航天大学 一种基于强化学习ppo算法的无人机目标跟踪控制方法
CN111460650A (zh) * 2020-03-31 2020-07-28 北京航空航天大学 一种基于深度强化学习的无人机端到端控制方法
CN112180967A (zh) * 2020-04-26 2021-01-05 北京理工大学 基于评判-执行架构的多无人机协同对抗决策方法
CN111552313B (zh) * 2020-04-29 2022-06-28 南京理工大学 基于边缘计算动态任务到达的多无人机路径规划方法
CN111552313A (zh) * 2020-04-29 2020-08-18 南京理工大学 基于边缘计算动态任务到达的多无人机路径规划方法
CN113892070A (zh) * 2020-04-30 2022-01-04 乐天集团股份有限公司 学习装置、信息处理装置、及完成学习的控制模型
CN113892070B (zh) * 2020-04-30 2024-04-26 乐天集团股份有限公司 学习装置、信息处理装置、及完成学习的控制模型
CN112198870B (zh) * 2020-06-01 2022-09-02 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN112198870A (zh) * 2020-06-01 2021-01-08 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN111752304A (zh) * 2020-06-23 2020-10-09 深圳清华大学研究院 无人机数据采集方法及相关设备
CN111752304B (zh) * 2020-06-23 2022-10-14 深圳清华大学研究院 无人机数据采集方法及相关设备
CN111724001B (zh) * 2020-06-29 2023-08-29 重庆大学 一种基于深度强化学习的飞行器探测传感器资源调度方法
CN111724001A (zh) * 2020-06-29 2020-09-29 重庆大学 一种基于深度强化学习的飞行器探测传感器资源调度方法
CN112097783A (zh) * 2020-08-14 2020-12-18 广东工业大学 基于深度强化学习的电动出租车充电导航路径规划方法
CN112097783B (zh) * 2020-08-14 2022-05-20 广东工业大学 基于深度强化学习的电动出租车充电导航路径规划方法
CN112068590A (zh) * 2020-08-21 2020-12-11 广东工业大学 无人机基站飞行规划方法、***、储存介质及无人机基站
CN112235810A (zh) * 2020-09-17 2021-01-15 广州番禺职业技术学院 基于强化学习的无人机通信***的多维度优化方法与***
CN112051863A (zh) * 2020-09-25 2020-12-08 南京大学 一种无人机自主反侦察及躲避敌方攻击的方法
CN112362522B (zh) * 2020-10-23 2022-08-02 浙江中烟工业有限责任公司 一种基于强化学习的烟叶容重测量方法
CN112362522A (zh) * 2020-10-23 2021-02-12 浙江中烟工业有限责任公司 一种基于强化学习的烟叶容重测量方法
CN114527737A (zh) * 2020-11-06 2022-05-24 百度在线网络技术(北京)有限公司 用于自动驾驶的速度规划方法、装置、设备、介质和车辆
CN112566209A (zh) * 2020-11-24 2021-03-26 山西三友和智慧信息技术股份有限公司 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法
CN112711271A (zh) * 2020-12-16 2021-04-27 中山大学 基于深度强化学习的自主导航无人机功率优化方法
CN112865855B (zh) * 2021-01-04 2022-04-08 福州大学 基于无人机中继的高效无线隐蔽传输方法
CN112865855A (zh) * 2021-01-04 2021-05-28 福州大学 基于无人机中继的高效无线隐蔽传输方法
CN112819215A (zh) * 2021-01-26 2021-05-18 北京百度网讯科技有限公司 推荐策略训练方法、装置、电子设备及可读存储介质
CN112819215B (zh) * 2021-01-26 2024-01-12 北京百度网讯科技有限公司 推荐策略训练方法、装置、电子设备及可读存储介质
CN112791394A (zh) * 2021-02-02 2021-05-14 腾讯科技(深圳)有限公司 游戏模型训练方法、装置、电子设备及存储介质
CN112791394B (zh) * 2021-02-02 2022-09-30 腾讯科技(深圳)有限公司 游戏模型训练方法、装置、电子设备及存储介质
CN115046433A (zh) * 2021-03-09 2022-09-13 北京理工大学 基于深度强化学习的飞行器时间协同制导方法
CN113159386A (zh) * 2021-03-22 2021-07-23 中国科学技术大学 一种无人机返航状态估计方法及***
CN113050673A (zh) * 2021-03-25 2021-06-29 四川大学 用于辅助通信***高能效的无人机的三维轨迹优化方法
CN113115344B (zh) * 2021-04-19 2021-12-14 中国人民解放***箭军工程大学 基于噪声优化的无人机基站通信资源分配策略预测方法
CN113115344A (zh) * 2021-04-19 2021-07-13 中国人民解放***箭军工程大学 基于噪声优化的无人机基站通信资源分配策略预测方法
CN113110546A (zh) * 2021-04-20 2021-07-13 南京大学 一种基于离线强化学习的无人机自主飞行控制方法
CN113110550A (zh) * 2021-04-23 2021-07-13 南京大学 一种基于强化学习与网络模型蒸馏的无人机飞行控制方法
CN113316239B (zh) * 2021-05-10 2022-07-08 北京科技大学 一种基于强化学习的无人机网络发射功率分配方法及装置
CN113316239A (zh) * 2021-05-10 2021-08-27 北京科技大学 一种基于强化学习的无人机网络发射功率分配方法及装置
CN113258989A (zh) * 2021-05-17 2021-08-13 东南大学 一种使用强化学习获得无人机中继轨迹的方法
CN113110516B (zh) * 2021-05-20 2023-12-22 广东工业大学 一种深度强化学习的受限空间机器人作业规划方法
CN113110516A (zh) * 2021-05-20 2021-07-13 广东工业大学 一种深度强化学习的受限空间机器人作业规划方法
CN113283169A (zh) * 2021-05-24 2021-08-20 北京理工大学 一种基于多头注意力异步强化学习的三维群体探索方法
CN113283169B (zh) * 2021-05-24 2022-04-26 北京理工大学 一种基于多头注意力异步强化学习的三维群体探索方法
CN113255218B (zh) * 2021-05-27 2022-05-31 电子科技大学 无线自供电通信网络的无人机自主导航及资源调度方法
CN113255218A (zh) * 2021-05-27 2021-08-13 电子科技大学 无线自供电通信网络的无人机自主导航及资源调度方法
CN113157002A (zh) * 2021-05-28 2021-07-23 南开大学 一种基于多无人机多基站的空地协同全覆盖轨迹规划方法
CN113419548A (zh) * 2021-05-28 2021-09-21 北京控制工程研究所 一种航天器深度强化学习莱维飞行控制***
CN113543068A (zh) * 2021-06-07 2021-10-22 北京邮电大学 一种基于层次化分簇的林区无人机网络部署方法与***
CN113382060B (zh) * 2021-06-07 2022-03-22 北京理工大学 一种物联网数据收集中的无人机轨迹优化方法及***
CN113543068B (zh) * 2021-06-07 2024-02-02 北京邮电大学 一种基于层次化分簇的林区无人机网络部署方法与***
CN113382060A (zh) * 2021-06-07 2021-09-10 北京理工大学 一种物联网数据收集中的无人机轨迹优化方法及***
CN113507717A (zh) * 2021-06-08 2021-10-15 山东师范大学 一种基于车辆轨迹预测的无人机轨迹优化方法及***
CN113283013B (zh) * 2021-06-10 2022-07-19 北京邮电大学 一种基于深度强化学习的多无人机充电及任务调度方法
CN113283013A (zh) * 2021-06-10 2021-08-20 北京邮电大学 一种基于深度强化学习的多无人机充电及任务调度方法
CN113423060A (zh) * 2021-06-22 2021-09-21 广东工业大学 一种无人空中通信平台飞行路线的在线优化方法
CN113377131A (zh) * 2021-06-23 2021-09-10 东南大学 一种使用强化学习获得无人机收集数据轨迹的方法
CN113239639A (zh) * 2021-06-29 2021-08-10 暨南大学 策略信息生成方法、装置、电子装置和存储介质
CN113359480B (zh) * 2021-07-16 2022-02-01 中国人民解放***箭军工程大学 基于mappo算法多无人机与用户协同通信优化方法
CN113359480A (zh) * 2021-07-16 2021-09-07 中国人民解放***箭军工程大学 基于mappo算法多无人机与用户协同通信优化方法
CN113776531B (zh) * 2021-07-21 2024-07-19 电子科技大学长三角研究院(湖州) 无线自供电通信网络的多无人机自主导航及任务分配算法
CN113776531A (zh) * 2021-07-21 2021-12-10 电子科技大学长三角研究院(湖州) 无线自供电通信网络的多无人机自主导航及任务分配算法
CN113639755A (zh) * 2021-08-20 2021-11-12 江苏科技大学苏州理工学院 一种基于深度强化学习的火灾现场逃生-救援联合***
CN113721655A (zh) * 2021-08-26 2021-11-30 南京大学 一种控制周期自适应的强化学习无人机稳定飞行控制方法
CN114200950A (zh) * 2021-10-26 2022-03-18 北京航天自动控制研究所 一种飞行姿态控制方法
CN114117633A (zh) * 2021-11-18 2022-03-01 中国人民解放军国防科技大学 一种无人机信息收集的控制方法及***
CN113885549B (zh) * 2021-11-23 2023-11-21 江苏科技大学 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法
CN113885549A (zh) * 2021-11-23 2022-01-04 江苏科技大学 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法
CN114142912A (zh) * 2021-11-26 2022-03-04 西安电子科技大学 高动态空中网络时间覆盖连续性保障的资源管控方法
CN114268986A (zh) * 2021-12-14 2022-04-01 北京航空航天大学 一种无人机计算卸载与充电服务效能优化方法
CN114372612B (zh) * 2021-12-16 2023-04-28 电子科技大学 面向无人机移动边缘计算场景的路径规划和任务卸载方法
CN114372612A (zh) * 2021-12-16 2022-04-19 电子科技大学 面向无人机移动边缘计算场景的路径规划和任务卸载方法
CN114384931B (zh) * 2021-12-23 2023-08-29 同济大学 一种基于策略梯度的无人机多目标最优控制方法和设备
CN114384931A (zh) * 2021-12-23 2022-04-22 同济大学 一种基于策略梯度的无人机多目标最优控制方法和设备
CN114550540A (zh) * 2022-02-10 2022-05-27 北方天途航空技术发展(北京)有限公司 一种训练机智能监控方法、装置、设备以及介质
CN114785397A (zh) * 2022-03-11 2022-07-22 浙江以正通信技术有限公司 无人机基站控制方法、飞行轨迹优化模型构建、训练方法
CN114741886A (zh) * 2022-04-18 2022-07-12 中国人民解放军军事科学院战略评估咨询中心 一种基于贡献度评价的无人机集群多任务训练方法及***
CN114741886B (zh) * 2022-04-18 2022-11-22 中国人民解放军军事科学院战略评估咨询中心 一种基于贡献度评价的无人机集群多任务训练方法及***
CN115202377A (zh) * 2022-06-13 2022-10-18 北京理工大学 一种模糊自适应nmpc轨迹跟踪控制和能源管理方法
CN115061371B (zh) * 2022-06-20 2023-08-04 中国航空工业集团公司沈阳飞机设计研究所 一种防止策略抖动的无人机控制策略强化学习生成方法
CN115061371A (zh) * 2022-06-20 2022-09-16 中国航空工业集团公司沈阳飞机设计研究所 一种防止策略抖动的无人机控制策略强化学习生成方法
CN115001002B (zh) * 2022-08-01 2022-12-30 广东电网有限责任公司肇庆供电局 一种求解储能参与削峰填谷的优化调度方法和***
CN115001002A (zh) * 2022-08-01 2022-09-02 广东电网有限责任公司肇庆供电局 一种求解储能参与削峰填谷的优化调度方法和***
CN116741019A (zh) * 2023-08-11 2023-09-12 成都飞航智云科技有限公司 一种基于ai的飞行模型训练方法、训练***
CN116736729B (zh) * 2023-08-14 2023-10-27 成都蓉奥科技有限公司 一种抗感知误差的视距内空战机动策略生成方法
CN116736729A (zh) * 2023-08-14 2023-09-12 成都蓉奥科技有限公司 一种抗感知误差的视距内空战机动策略生成方法

Also Published As

Publication number Publication date
WO2021017227A1 (zh) 2021-02-04
CN110488861B (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN110488861A (zh) 基于深度强化学习的无人机轨迹优化方法、装置和无人机
Liang et al. A deep reinforcement learning network for traffic light cycle control
CN113132943B (zh) 一种车联网中车边协同的任务卸载调度及资源分配方法
CN108021754A (zh) 一种无人机自主空战决策框架及方法
CN107547457A (zh) 一种基于改进粒子群优化bp神经网络的盲信道均衡方法
CN101706888B (zh) 一种旅行时间预测的方法
Dong et al. Deep reinforcement learning based worker selection for distributed machine learning enhanced edge intelligence in internet of vehicles
CN110380776A (zh) 一种基于无人机的物联网***数据收集方法
CN112804103B (zh) 区块链赋能物联网中联合资源分配与控制的智能计算迁移方法
Chen et al. Ant colony algorithm with Stackelberg game and multi-strategy fusion
CN113382060B (zh) 一种物联网数据收集中的无人机轨迹优化方法及***
Xu et al. Living with artificial intelligence: A paradigm shift toward future network traffic control
CN116321298A (zh) 车联网中一种基于深度强化学习的多目标联合优化任务卸载策略
Zhao et al. Adaptive swarm intelligent offloading based on digital twin-assisted prediction in VEC
CN116774584A (zh) 一种基于多智能体深度强化学习的无人机差异化服务轨迹优化方法
Luo et al. Researches on intelligent traffic signal control based on deep reinforcement learning
CN116847293A (zh) 一种无人机辅助车联网下的联合缓存决策和轨迹优化方法
CN116663637A (zh) 一种多层级智能体同步嵌套训练方法
CN116321237A (zh) 一种基于深度强化学习的无人机辅助车联网数据收集方法
Liu et al. Forward-looking imaginative planning framework combined with prioritized-replay double DQN
CN113449867B (zh) 一种基于知识蒸馏的深度强化学习多智能体协作方法
CN112765892B (zh) 一种异构车联网中的智能切换判决方法
CN114980178B (zh) 一种基于强化学习的分布式pd-noma水声网络通信方法及***
CN114872049B (zh) 一种基于环境交互的机器人实时控制方法
CN118265041A (zh) 基于多智能体深度强化学习的无人机辅助边缘卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant