CN114371724A - 一种飞行器的避障方法及*** - Google Patents
一种飞行器的避障方法及*** Download PDFInfo
- Publication number
- CN114371724A CN114371724A CN202111475098.2A CN202111475098A CN114371724A CN 114371724 A CN114371724 A CN 114371724A CN 202111475098 A CN202111475098 A CN 202111475098A CN 114371724 A CN114371724 A CN 114371724A
- Authority
- CN
- China
- Prior art keywords
- obstacle
- aircraft
- path planning
- avoidance
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 claims abstract description 64
- 230000009471 action Effects 0.000 claims abstract description 23
- 230000004888 barrier function Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 3
- 230000003068 static effect Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 64
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/106—Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及一种飞行器的避障方法及***,首先基于障碍物信息、飞行器信息和目标信息得到***状态、躲避奖励函数和驶向奖励函数;其次基于所述***状态、躲避奖励函数和驶向奖励函数,对路径规划神经网络进行训练,得到训练好的所述路径规划神经网络;最后基于训练好的所述路径规划神经网络实现飞行的最优路径规划。本发明实现了飞行器在连续的状态、动作空间下的不确定环境中的路径规划是的飞行器能准确迅速地躲避静态和动态障碍物,到达目标点。
Description
技术领域
本发明涉及飞行器技术领域,特别是涉及一种飞行器的避障方法及***。
背景技术
不确定环境下的动态避障航路规划是飞行器控制中的难点问题,基于已知环境信息的传统路径规划算法不能适应未知的复杂环境,无法对飞行器的飞行路径进行有效的规划,而现有的基于强化学习的路径规划算法难以处理庞大的状态空间,亦无法取得较好的求解效果。
发明内容
有鉴于此,本发明提供了一种飞行器的避障方法及***,通过对飞行器路径的有效规划,以使飞行器在不确定环境中准确迅速地躲避静态和动态障碍物,安全达到目标点。
为实现上述目的,本发明提供了如下方案:
一种飞行器的避障方法,包括:
基于障碍物信息、飞行器信息和目标信息得到***状态、躲避奖励函数和驶向奖励函数;
基于所述***状态、躲避奖励函数和驶向奖励函数,对路径规划神经网络进行训练,得到训练好的所述路径规划神经网络;
基于训练好的所述路径规划神经网络实现飞行的最优路径规划。
优选地,所述基于障碍物信息、飞行器信息和目标信息得到***状态、躲避奖励函数和驶向奖励函数,包括:
基于障碍物的位置数据与飞行器的位置数据得到初始躲避奖励函数;对所述初始躲避奖励函数进行模糊化,得到所述躲避奖励函数;
基于所述飞行器的位置数据和所述目标位置信息得到初始驶向奖励函数,对所述初始驶向奖励函数进行模糊化,得到所述驶向奖励函数;
基于所述飞行器位置数据、速度数据和航向角以及所述障碍物的位置数据、速度数据和航向角,得到所述***状态;所述障碍物信息包括所述障碍物的位置数据、速度数据和航向角;所述飞行器信息包括所述飞行器位置数据、速度数据和航向角。
优选地,所述基于所述飞行器位置数据、速度数据和航向角以及所述障碍物的位置数据、速度数据和航向角,得到所述***状态,包括:
对每个所述障碍物均执行下述过程,得到每个所述障碍物的编码数据,将每个所述障碍物的编码数据与所述飞行器信息进行整合,得到所述***状态;
基于所述飞行器位置数据和速度数据以及所述障碍物的位置数据和速度数据,建立障碍锥,并得到所述飞行器与所述障碍物之间的位置矢量和相对速度矢量,进一步得到相对速度矢量与位置矢量之间的夹角和障碍锥的半顶角;
对所述夹角与所述半顶角进行比较,若所述夹角大于所述半顶角,则舍弃所述障碍物信息;若所述夹角小于或等于所述半顶角,则获取所述飞行器相对于所述障碍物的最优避障方向,将所述最优避障方向以及所述障碍物的位置数据、速度数据和航向角进行编码,得到所述障碍物的编码数据。
优选地,所述基于所述***状态、躲避奖励函数和驶向奖励函数,对路径规划神经网络进行训练,得到训练好的所述路径规划神经网络,包括:
将所述***状态输入所述路径规划神经网络,得到避障动作;
获取所述飞行器执行所述避障动作后的状态空间;
基于所述目标信息、所述躲避奖励函数和所述驶向奖励函数,得到飞行器执行所述避障动作后的躲避奖励值和驶向奖励值;
基于所述躲避奖励值和驶向奖励值判断是否达到设定需求,若达到,则训练结束,得到训练好的所述路径规划神经网络;若没有达到,则基于所述状态空间、所述躲避奖励值和所述驶向奖励值对所述路径规划神经网络进行优化,得到优化后的所述路径规划神经网络,并将优化后的所述路径规划神经网络替换所述路径规划神经网络,返回至“将所述***状态输入所述路径规划神经网络,得到避障动作”。
本发明还提供了一种飞行器的避障***,包括:
奖励模块,基于障碍物信息、飞行器信息和目标信息得到***状态、躲避奖励函数和驶向奖励函数;
训练模块,基于所述***状态、躲避奖励函数和驶向奖励函数,对路径规划神经网络进行训练,得到训练好的所述路径规划神经网络;
路径模块,基于训练好的所述路径规划神经网络实现飞行的最优路径规划。
优选地,所述奖励模块包括:
躲避奖励单元,基于障碍物的位置数据与飞行器的位置数据得到初始躲避奖励函数;对所述初始躲避奖励函数进行模糊化,得到所述躲避奖励函数;
驶向奖励单元,基于所述飞行器的位置数据和所述目标位置信息得到初始驶向奖励函数,对所述初始驶向奖励函数进行模糊化,得到所述驶向奖励函数;
状态单元,基于所述飞行器位置数据、速度数据和航向角以及所述障碍物的位置数据、速度数据和航向角,得到所述***状态;所述障碍物信息包括所述障碍物的位置数据、速度数据和航向角;所述飞行器信息包括所述飞行器位置数据、速度数据和航向角。
优选地,所述状态单元包括:
执行子单元,对每个所述障碍物均执行角度子单元和判断子单元,得到每个所述障碍物的编码数据,将每个所述障碍物的编码数据与所述飞行器信息进行整合,得到所述***状态;
所述角度子单元基于所述飞行器位置数据和速度数据以及所述障碍物的位置数据和速度数据,建立障碍锥,并得到所述飞行器与所述障碍物之间的位置矢量和相对速度矢量,进一步得到相对速度矢量与位置矢量之间的夹角和障碍锥的半顶角;
所述判断子单元对所述夹角与所述半顶角进行比较,若所述夹角大于所述半顶角,则舍弃所述障碍物信息;若所述夹角小于或等于所述半顶角,则获取所述飞行器相对于所述障碍物的最优避障方向,将所述最优避障方向以及所述障碍物的位置数据、速度数据和航向角进行编码,得到所述障碍物的编码数据。
优选地,所述训练模块包括:
输入单元,将所述***状态输入所述路径规划神经网络,得到避障动作;
空间单元,获取所述飞行器执行所述避障动作后的状态空间;
奖励值单元,基于所述目标信息、所述躲避奖励函数和所述驶向奖励函数,得到飞行器执行所述避障动作后的躲避奖励值和驶向奖励值;
判断单元,基于所述躲避奖励值和驶向奖励值判断是否达到设定需求,若达到,则训练结束,得到训练好的所述路径规划神经网络;若没有达到,则基于所述状态空间、所述躲避奖励值和所述驶向奖励值对所述路径规划神经网络进行优化,得到优化后的所述路径规划神经网络,并将优化后的所述路径规划神经网络替换所述路径规划神经网络,返回至所述输入单元。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明涉及一种飞行器的避障方法及***,首先基于障碍物信息、飞行器信息和目标信息得到***状态、躲避奖励函数和驶向奖励函数;其次基于所述***状态、躲避奖励函数和驶向奖励函数,对路径规划神经网络进行训练,得到训练好的所述路径规划神经网络;最后基于训练好的所述路径规划神经网络实现飞行的最优路径规划。本发明实现了飞行器在连续的状态、动作空间下的不确定环境中的路径规划是的飞行器能准确迅速地躲避静态和动态障碍物,到达目标点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明飞行器的避障方法流程图;
图2为本发明模糊障碍距离示意图;
图3为本发明模糊障碍奖励示意图;
图4为本发明飞行器的避障***结构图。
符号说明:1-奖励模块,2-训练模块,3-路径模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种飞行器的避障方法及***,通过对飞行器路径的有效规划,以使飞行器在不确定环境中准确迅速地躲避静态和动态障碍物,安全达到目标点。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明飞行器的避障方法流程图。如图所示,本发明提供了一种飞行器的避障方法,包括:
步骤S1,基于障碍物信息、飞行器信息和目标信息得到***状态、躲避奖励函数和驶向奖励函数。
具体地,所述步骤S1包括:
步骤S11,基于障碍物的位置数据与飞行器的位置数据得到初始躲避奖励函数;对所述初始躲避奖励函数进行模糊化,得到所述躲避奖励函数。具体为:基于所述障碍物的位置数据与所述飞行器的位置数据得到障碍距离,对所述障碍距离进行模糊化,得到模糊障碍距离。如图2所示,本实施例中,所述模糊障碍距离包括负小、正小、正中和正大;图中,NS表示负小,PS表示正小,PM表示正中,PB表示正大,dsensor为飞行器的最大探测距离。基于所述障碍距离得到障碍奖励,对所述障碍奖励进行模糊化,得到模糊障碍奖励,如图3所示。建立模糊障碍奖励与所述模糊障碍距离之间的映射关系,得到所述躲避奖励函数。所述躲避奖励函数如下:
Rule-01:IF D is NS THEN R is NS
Rule-02:IF D is PS THEN R is PS
Rule-03:IF D is PM THEN R is PM;
Rule-04:IF D is PB THEN R is PB
式中:D为模糊障碍距离,R为模糊障碍奖励,IF代表如果,is代表是,Rule代表规则,THEN代表那么。
步骤S12,基于所述飞行器的位置数据和所述目标位置信息得到初始驶向奖励函数,对所述初始驶向奖励函数进行模糊化,得到所述驶向奖励函数。所述驶向奖励函数的计算方法与所述躲避奖励函数相同,此处不进行赘述。
步骤S13,基于所述飞行器位置数据、速度数据和航向角以及所述障碍物的位置数据、速度数据和航向角,得到所述***状态;所述障碍物信息包括所述障碍物的位置数据、速度数据和航向角;所述飞行器信息包括所述飞行器位置数据、速度数据和航向角。所述步骤S13基于长短时记忆网络(Long Short-Term Memory,简称LSTM)实现。
进一步地,所述步骤S13,包括:
步骤S131,对每个所述障碍物均执行“步骤S132-步骤S133”,得到每个所述障碍物的编码数据,将每个所述障碍物的编码数据与所述飞行器信息进行整合,得到所述***状态。
步骤S132,基于所述飞行器位置数据和速度数据以及所述障碍物的位置数据和速度数据,建立障碍锥,并得到所述飞行器与所述障碍物之间的位置矢量和相对速度矢量,进一步得到所述相对速度矢量与所述位置矢量之间的夹角和所述障碍锥的半顶角。
所述夹角的计算公式为:
所述半顶角的计算公式为:
式中,αi为第i个障碍物的夹角,vui为相对速度矢量,vui=vu-vi,vu为飞行器的速度,vi为第i个障碍物的的速度,Pu为飞行器的位置,Pi为第i个障碍物的位置,PuPi为位置矢量,αui为第i个障碍物的半顶角,dui为飞行器到第i个障碍的距离,Li为第i个障碍物的半径。
步骤S133,对所述夹角与所述半顶角进行比较,若所述夹角大于所述半顶角,则舍弃所述障碍物信息;若所述夹角小于或等于所述半顶角,则获取所述飞行器相对于所述障碍物的最优避障方向,将所述最优避障方向以及所述障碍物的位置数据、速度数据和航向角进行编码,得到所述障碍物的编码数据。
步骤S2,基于所述***状态、躲避奖励函数和驶向奖励函数,对路径规划神经网络进行训练,得到训练好的所述路径规划神经网络。
优选地,所述步骤S2,包括:
步骤S21,将所述***状态输入所述路径规划神经网络,得到避障动作。具体地,所述路径规划神经网络包括actor网络和critic网络。所述actor网络基于所述***状态和随机噪声得到所述避障动作。
步骤S22,所述actor网络获取所述飞行器执行所述避障动作后的状态空间。
步骤S23,所述critic网络基于所述目标信息、所述躲避奖励函数和所述驶向奖励函数,得到飞行器执行所述避障动作后的躲避奖励值和驶向奖励值。
步骤S24,所述critic网络基于所述躲避奖励值和驶向奖励值判断是否达到设定需求,若达到,则训练结束,得到训练好的所述路径规划神经网络。若没有达到,则所述critic网络基于所述状态空间、所述躲避奖励值和所述驶向奖励值,得到最小化损失函数,并基于所述最小化损失函数对所述actor网络进行优化,得到优化后的所述actor网络,并将优化后的所述actor网络替换所述actor网络,返回至“步骤S21”。
即为重复执行“步骤S21-步骤S24”,直至达到设定需求,得到训练好的所述路径规划神经网络。
步骤S3,基于训练好的所述路径规划神经网络实现飞行的最优路径规划。
图4为本发明飞行器的避障***结构图。如图所示,本发明提供了一种飞行器的避障***,包括:奖励模块1、训练模块2和路径模块3。
所述奖励模块1基于障碍物信息、飞行器信息和目标信息得到***状态、躲避奖励函数和驶向奖励函数。
所述训练模块2基于所述***状态、躲避奖励函数和驶向奖励函数,对路径规划神经网络进行训练,得到训练好的所述路径规划神经网络。
所述路径模块3基于训练好的所述路径规划神经网络实现飞行的最优路径规划。
作为一种可选的实施方式,本发明所述奖励模块1包括:躲避奖励单元、驶向奖励单元和状态单元。
所述躲避奖励单元基于障碍物的位置数据与飞行器的位置数据得到初始躲避奖励函数;对所述初始躲避奖励函数进行模糊化,得到所述躲避奖励函数。
所述驶向奖励单元基于所述飞行器的位置数据和所述目标位置信息得到初始驶向奖励函数,对所述初始驶向奖励函数进行模糊化,得到所述驶向奖励函数。
所述状态单元基于所述飞行器位置数据、速度数据和航向角以及所述障碍物的位置数据、速度数据和航向角,得到所述***状态;所述障碍物信息包括所述障碍物的位置数据、速度数据和航向角;所述飞行器信息包括所述飞行器位置数据、速度数据和航向角。
作为一种可选的实施方式,本发明所述状态单元包括:执行子单元、角度子单元和判断子单元。
所述执行子单元对每个所述障碍物均执行所述角度子单元和所述判断子单元,得到每个所述障碍物的编码数据,将每个所述障碍物的编码数据与所述飞行器信息进行整合,得到所述***状态。
所述角度子单元基于所述飞行器位置数据和速度数据以及所述障碍物的位置数据和速度数据,建立障碍锥,并得到所述飞行器与所述障碍物之间的位置矢量和相对速度矢量,进一步得到相对速度矢量与位置矢量之间的夹角和障碍锥的半顶角。
所述判断子单元对所述夹角与所述半顶角进行比较,若所述夹角大于所述半顶角,则舍弃所述障碍物信息;若所述夹角小于或等于所述半顶角,则获取所述飞行器相对于所述障碍物的最优避障方向,将所述最优避障方向以及所述障碍物的位置数据、速度数据和航向角进行编码,得到所述障碍物的编码数据。
作为一种可选的实施方式,本发明所述训练模块2包括:输入单元、空间单元、奖励值单元和判断单元。
所述输入单元将所述***状态输入所述路径规划神经网络,得到避障动作。
所述空间单元获取所述飞行器执行所述避障动作后的状态空间。
所述奖励值单元基于所述目标信息、所述躲避奖励函数和所述驶向奖励函数,得到飞行器执行所述避障动作后的躲避奖励值和驶向奖励值。
所述判断单元基于所述躲避奖励值和驶向奖励值判断是否达到设定需求,若达到,则训练结束,得到训练好的所述路径规划神经网络;若没有达到,则基于所述状态空间、所述躲避奖励值和所述驶向奖励值对所述路径规划神经网络进行优化,得到优化后的所述路径规划神经网络,并将优化后的所述路径规划神经网络替换所述路径规划神经网络,返回至所述输入单元。
本发明为了克服稀疏奖励带来的缺陷,设计了基于模糊算法的引导型奖励函数,该奖励函数能够减小训练时飞行器的奖励周期,提高算法收敛速度。
本发明为了充分利用动态障碍的速度信息,结合速度障碍法提出了基于航向角选择的飞行器避障方法,实现了飞行器在不确定环境中准确迅速地躲避静态和动态障碍物,并安全达到目标点。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种飞行器的避障方法,其特征在于,包括:
基于障碍物信息、飞行器信息和目标信息得到***状态、躲避奖励函数和驶向奖励函数;
基于所述***状态、躲避奖励函数和驶向奖励函数,对路径规划神经网络进行训练,得到训练好的所述路径规划神经网络;
基于训练好的所述路径规划神经网络实现飞行的最优路径规划。
2.根据权利要求1所述的飞行器的避障方法,其特征在于,所述基于障碍物信息、飞行器信息和目标信息得到***状态、躲避奖励函数和驶向奖励函数,包括:
基于障碍物的位置数据与飞行器的位置数据得到初始躲避奖励函数;对所述初始躲避奖励函数进行模糊化,得到所述躲避奖励函数;
基于所述飞行器的位置数据和所述目标位置信息得到初始驶向奖励函数,对所述初始驶向奖励函数进行模糊化,得到所述驶向奖励函数;
基于所述飞行器位置数据、速度数据和航向角以及所述障碍物的位置数据、速度数据和航向角,得到所述***状态;所述障碍物信息包括所述障碍物的位置数据、速度数据和航向角;所述飞行器信息包括所述飞行器位置数据、速度数据和航向角。
3.根据权利要求2所述的飞行器的避障方法,其特征在于,所述基于所述飞行器位置数据、速度数据和航向角以及所述障碍物的位置数据、速度数据和航向角,得到所述***状态,包括:
对每个所述障碍物均执行下述过程,得到每个所述障碍物的编码数据,将每个所述障碍物的编码数据与所述飞行器信息进行整合,得到所述***状态;
基于所述飞行器位置数据和速度数据以及所述障碍物的位置数据和速度数据,建立障碍锥,并得到所述飞行器与所述障碍物之间的位置矢量和相对速度矢量,进一步得到相对速度矢量与位置矢量之间的夹角和障碍锥的半顶角;
对所述夹角与所述半顶角进行比较,若所述夹角大于所述半顶角,则舍弃所述障碍物信息;若所述夹角小于或等于所述半顶角,则获取所述飞行器相对于所述障碍物的最优避障方向,将所述最优避障方向以及所述障碍物的位置数据、速度数据和航向角进行编码,得到所述障碍物的编码数据。
4.根据权利要求2所述的飞行器的避障方法,其特征在于,所述基于所述***状态、躲避奖励函数和驶向奖励函数,对路径规划神经网络进行训练,得到训练好的所述路径规划神经网络,包括:
将所述***状态输入所述路径规划神经网络,得到避障动作;
获取所述飞行器执行所述避障动作后的状态空间;
基于所述目标信息、所述躲避奖励函数和所述驶向奖励函数,得到飞行器执行所述避障动作后的躲避奖励值和驶向奖励值;
基于所述躲避奖励值和驶向奖励值判断是否达到设定需求,若达到,则训练结束,得到训练好的所述路径规划神经网络;若没有达到,则基于所述状态空间、所述躲避奖励值和所述驶向奖励值对所述路径规划神经网络进行优化,得到优化后的所述路径规划神经网络,并将优化后的所述路径规划神经网络替换所述路径规划神经网络,返回至“将所述***状态输入所述路径规划神经网络,得到避障动作”。
5.一种飞行器的避障***,其特征在于,包括:
奖励模块,基于障碍物信息、飞行器信息和目标信息得到***状态、躲避奖励函数和驶向奖励函数;
训练模块,基于所述***状态、躲避奖励函数和驶向奖励函数,对路径规划神经网络进行训练,得到训练好的所述路径规划神经网络;
路径模块,基于训练好的所述路径规划神经网络实现飞行的最优路径规划。
6.根据权利要求5所述的飞行器的避障***,其特征在于,所述奖励模块包括:
躲避奖励单元,基于障碍物的位置数据与飞行器的位置数据得到初始躲避奖励函数;对所述初始躲避奖励函数进行模糊化,得到所述躲避奖励函数;
驶向奖励单元,基于所述飞行器的位置数据和所述目标位置信息得到初始驶向奖励函数,对所述初始驶向奖励函数进行模糊化,得到所述驶向奖励函数;
状态单元,基于所述飞行器位置数据、速度数据和航向角以及所述障碍物的位置数据、速度数据和航向角,得到所述***状态;所述障碍物信息包括所述障碍物的位置数据、速度数据和航向角;所述飞行器信息包括所述飞行器位置数据、速度数据和航向角。
7.根据权利要求6所述的飞行器的避障***,其特征在于,所述状态单元包括:
执行子单元,对每个所述障碍物均执行角度子单元和判断子单元,得到每个所述障碍物的编码数据,将每个所述障碍物的编码数据与所述飞行器信息进行整合,得到所述***状态;
所述角度子单元基于所述飞行器位置数据和速度数据以及所述障碍物的位置数据和速度数据,建立障碍锥,并得到所述飞行器与所述障碍物之间的位置矢量和相对速度矢量,进一步得到相对速度矢量与位置矢量之间的夹角和障碍锥的半顶角;
所述判断子单元对所述夹角与所述半顶角进行比较,若所述夹角大于所述半顶角,则舍弃所述障碍物信息;若所述夹角小于或等于所述半顶角,则获取所述飞行器相对于所述障碍物的最优避障方向,将所述最优避障方向以及所述障碍物的位置数据、速度数据和航向角进行编码,得到所述障碍物的编码数据。
8.根据权利要求6所述的飞行器的避障***,其特征在于,所述训练模块包括:
输入单元,将所述***状态输入所述路径规划神经网络,得到避障动作;
空间单元,获取所述飞行器执行所述避障动作后的状态空间;
奖励值单元,基于所述目标信息、所述躲避奖励函数和所述驶向奖励函数,得到飞行器执行所述避障动作后的躲避奖励值和驶向奖励值;
判断单元,基于所述躲避奖励值和驶向奖励值判断是否达到设定需求,若达到,则训练结束,得到训练好的所述路径规划神经网络;若没有达到,则基于所述状态空间、所述躲避奖励值和所述驶向奖励值对所述路径规划神经网络进行优化,得到优化后的所述路径规划神经网络,并将优化后的所述路径规划神经网络替换所述路径规划神经网络,返回至所述输入单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111475098.2A CN114371724A (zh) | 2021-12-03 | 2021-12-03 | 一种飞行器的避障方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111475098.2A CN114371724A (zh) | 2021-12-03 | 2021-12-03 | 一种飞行器的避障方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114371724A true CN114371724A (zh) | 2022-04-19 |
Family
ID=81139366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111475098.2A Pending CN114371724A (zh) | 2021-12-03 | 2021-12-03 | 一种飞行器的避障方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114371724A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105717942A (zh) * | 2016-01-31 | 2016-06-29 | 中国人民解放军海军航空工程学院 | 一种无人飞行器空间避障方法及相关路径在线规划方法 |
CN110632931A (zh) * | 2019-10-09 | 2019-12-31 | 哈尔滨工程大学 | 动态环境下基于深度强化学习的移动机器人避碰规划方法 |
CN112947592A (zh) * | 2021-03-30 | 2021-06-11 | 北京航空航天大学 | 一种基于强化学习的再入飞行器轨迹规划方法 |
CN113050648A (zh) * | 2021-03-24 | 2021-06-29 | 珠海市一微半导体有限公司 | 一种机器人避障方法和*** |
CN113110592A (zh) * | 2021-04-23 | 2021-07-13 | 南京大学 | 一种无人机避障与路径规划方法 |
-
2021
- 2021-12-03 CN CN202111475098.2A patent/CN114371724A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105717942A (zh) * | 2016-01-31 | 2016-06-29 | 中国人民解放军海军航空工程学院 | 一种无人飞行器空间避障方法及相关路径在线规划方法 |
CN110632931A (zh) * | 2019-10-09 | 2019-12-31 | 哈尔滨工程大学 | 动态环境下基于深度强化学习的移动机器人避碰规划方法 |
CN113050648A (zh) * | 2021-03-24 | 2021-06-29 | 珠海市一微半导体有限公司 | 一种机器人避障方法和*** |
CN112947592A (zh) * | 2021-03-30 | 2021-06-11 | 北京航空航天大学 | 一种基于强化学习的再入飞行器轨迹规划方法 |
CN113110592A (zh) * | 2021-04-23 | 2021-07-13 | 南京大学 | 一种无人机避障与路径规划方法 |
Non-Patent Citations (1)
Title |
---|
李智: "轮式移动机器人最优路径规划与抗滑转轨迹跟踪方法研究", 中国博士学位论文全文数据库信息科技辑, no. 2021, pages 140 - 146 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112668235B (zh) | 基于离线模型预训练学习的ddpg算法的机器人控制方法 | |
US11205124B1 (en) | Method and system for controlling heavy-haul train based on reinforcement learning | |
WO2021135554A1 (zh) | 一种无人车全局路径规划方法和装置 | |
WO2022052406A1 (zh) | 一种自动驾驶训练方法、装置、设备及介质 | |
CN110147101B (zh) | 一种基于深度强化学习的端到端分布式多机器人编队导航方法 | |
CN107168324A (zh) | 一种基于anfis模糊神经网络的机器人路径规划方法 | |
CN112356830A (zh) | 一种基于模型强化学习的智能泊车方法 | |
CN112937564A (zh) | 换道决策模型生成方法和无人车换道决策方法及装置 | |
CN112433525A (zh) | 基于模仿学习及深度强化学习的移动机器人导航方法 | |
CN112180950B (zh) | 一种基于强化学习的智能船舶自主避碰及路径规划方法 | |
CN109784201B (zh) | 基于四维风险评估的auv动态避障方法 | |
CN110525428B (zh) | 一种基于模糊深度强化学习的自动泊车方法 | |
CN111679660B (zh) | 一种融合类人驾驶行为的无人驾驶深度强化学习方法 | |
CN109445440B (zh) | 基于传感器融合与改进q学习算法的动态避障方法 | |
Botteghi et al. | On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach | |
Wang et al. | Autonomous ramp merge maneuver based on reinforcement learning with continuous action space | |
CN114358128A (zh) | 一种训练端到端的自动驾驶策略的方法 | |
CN113359771B (zh) | 一种基于强化学习的智能自动驾驶控制方法 | |
CN116540731B (zh) | 融合堆叠lstm与sac算法的路径规划方法及*** | |
WO2022252457A1 (zh) | 一种自动驾驶控制方法、装置、设备及可读存储介质 | |
Liu et al. | Reinforcement learning-based collision avoidance: Impact of reward function and knowledge transfer | |
CN115547040A (zh) | 安全势场下基于informer神经网络的驾驶行为预测方法 | |
CN115167447A (zh) | 基于雷达图像端到端深度强化学习的无人艇智能避障方法 | |
CN110103960B (zh) | 车辆自适应巡航控制方法、***及车辆 | |
Venkatesh et al. | Connected and automated vehicles in mixed-traffic: Learning human driver behavior for effective on-ramp merging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |