CN114371724A

CN114371724A - 一种飞行器的避障方法及***

Info

Publication number: CN114371724A
Application number: CN202111475098.2A
Authority: CN
Inventors: 杨秀霞; 张毅; 高恒杰; 杨林; 陆巍巍; 褚政; 王宏; 于浩; 姜子劼; 王晨蕾
Original assignee: Naval Aeronautical University
Current assignee: Naval Aeronautical University
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-04-19

Abstract

本发明涉及一种飞行器的避障方法及***，首先基于障碍物信息、飞行器信息和目标信息得到***状态、躲避奖励函数和驶向奖励函数；其次基于所述***状态、躲避奖励函数和驶向奖励函数，对路径规划神经网络进行训练，得到训练好的所述路径规划神经网络；最后基于训练好的所述路径规划神经网络实现飞行的最优路径规划。本发明实现了飞行器在连续的状态、动作空间下的不确定环境中的路径规划是的飞行器能准确迅速地躲避静态和动态障碍物，到达目标点。

Description

一种飞行器的避障方法及***

技术领域

本发明涉及飞行器技术领域，特别是涉及一种飞行器的避障方法及***。

背景技术

不确定环境下的动态避障航路规划是飞行器控制中的难点问题，基于已知环境信息的传统路径规划算法不能适应未知的复杂环境，无法对飞行器的飞行路径进行有效的规划，而现有的基于强化学习的路径规划算法难以处理庞大的状态空间，亦无法取得较好的求解效果。

发明内容

有鉴于此，本发明提供了一种飞行器的避障方法及***，通过对飞行器路径的有效规划，以使飞行器在不确定环境中准确迅速地躲避静态和动态障碍物，安全达到目标点。

为实现上述目的，本发明提供了如下方案：

一种飞行器的避障方法，包括：

基于障碍物信息、飞行器信息和目标信息得到***状态、躲避奖励函数和驶向奖励函数；

基于所述***状态、躲避奖励函数和驶向奖励函数，对路径规划神经网络进行训练，得到训练好的所述路径规划神经网络；

基于训练好的所述路径规划神经网络实现飞行的最优路径规划。

优选地，所述基于障碍物信息、飞行器信息和目标信息得到***状态、躲避奖励函数和驶向奖励函数，包括：

基于障碍物的位置数据与飞行器的位置数据得到初始躲避奖励函数；对所述初始躲避奖励函数进行模糊化，得到所述躲避奖励函数；

基于所述飞行器的位置数据和所述目标位置信息得到初始驶向奖励函数，对所述初始驶向奖励函数进行模糊化，得到所述驶向奖励函数；

基于所述飞行器位置数据、速度数据和航向角以及所述障碍物的位置数据、速度数据和航向角，得到所述***状态；所述障碍物信息包括所述障碍物的位置数据、速度数据和航向角；所述飞行器信息包括所述飞行器位置数据、速度数据和航向角。

优选地，所述基于所述飞行器位置数据、速度数据和航向角以及所述障碍物的位置数据、速度数据和航向角，得到所述***状态，包括：

对每个所述障碍物均执行下述过程，得到每个所述障碍物的编码数据，将每个所述障碍物的编码数据与所述飞行器信息进行整合，得到所述***状态；

基于所述飞行器位置数据和速度数据以及所述障碍物的位置数据和速度数据，建立障碍锥，并得到所述飞行器与所述障碍物之间的位置矢量和相对速度矢量，进一步得到相对速度矢量与位置矢量之间的夹角和障碍锥的半顶角；

对所述夹角与所述半顶角进行比较，若所述夹角大于所述半顶角，则舍弃所述障碍物信息；若所述夹角小于或等于所述半顶角，则获取所述飞行器相对于所述障碍物的最优避障方向，将所述最优避障方向以及所述障碍物的位置数据、速度数据和航向角进行编码，得到所述障碍物的编码数据。

优选地，所述基于所述***状态、躲避奖励函数和驶向奖励函数，对路径规划神经网络进行训练，得到训练好的所述路径规划神经网络，包括：

将所述***状态输入所述路径规划神经网络，得到避障动作；

获取所述飞行器执行所述避障动作后的状态空间；

基于所述目标信息、所述躲避奖励函数和所述驶向奖励函数，得到飞行器执行所述避障动作后的躲避奖励值和驶向奖励值；

基于所述躲避奖励值和驶向奖励值判断是否达到设定需求，若达到，则训练结束，得到训练好的所述路径规划神经网络；若没有达到，则基于所述状态空间、所述躲避奖励值和所述驶向奖励值对所述路径规划神经网络进行优化，得到优化后的所述路径规划神经网络，并将优化后的所述路径规划神经网络替换所述路径规划神经网络，返回至“将所述***状态输入所述路径规划神经网络，得到避障动作”。

本发明还提供了一种飞行器的避障***，包括：

奖励模块，基于障碍物信息、飞行器信息和目标信息得到***状态、躲避奖励函数和驶向奖励函数；

训练模块，基于所述***状态、躲避奖励函数和驶向奖励函数，对路径规划神经网络进行训练，得到训练好的所述路径规划神经网络；

路径模块，基于训练好的所述路径规划神经网络实现飞行的最优路径规划。

优选地，所述奖励模块包括：

躲避奖励单元，基于障碍物的位置数据与飞行器的位置数据得到初始躲避奖励函数；对所述初始躲避奖励函数进行模糊化，得到所述躲避奖励函数；

驶向奖励单元，基于所述飞行器的位置数据和所述目标位置信息得到初始驶向奖励函数，对所述初始驶向奖励函数进行模糊化，得到所述驶向奖励函数；

状态单元，基于所述飞行器位置数据、速度数据和航向角以及所述障碍物的位置数据、速度数据和航向角，得到所述***状态；所述障碍物信息包括所述障碍物的位置数据、速度数据和航向角；所述飞行器信息包括所述飞行器位置数据、速度数据和航向角。

优选地，所述状态单元包括：

执行子单元，对每个所述障碍物均执行角度子单元和判断子单元，得到每个所述障碍物的编码数据，将每个所述障碍物的编码数据与所述飞行器信息进行整合，得到所述***状态；

所述角度子单元基于所述飞行器位置数据和速度数据以及所述障碍物的位置数据和速度数据，建立障碍锥，并得到所述飞行器与所述障碍物之间的位置矢量和相对速度矢量，进一步得到相对速度矢量与位置矢量之间的夹角和障碍锥的半顶角；

所述判断子单元对所述夹角与所述半顶角进行比较，若所述夹角大于所述半顶角，则舍弃所述障碍物信息；若所述夹角小于或等于所述半顶角，则获取所述飞行器相对于所述障碍物的最优避障方向，将所述最优避障方向以及所述障碍物的位置数据、速度数据和航向角进行编码，得到所述障碍物的编码数据。

优选地，所述训练模块包括：

输入单元，将所述***状态输入所述路径规划神经网络，得到避障动作；

空间单元，获取所述飞行器执行所述避障动作后的状态空间；

奖励值单元，基于所述目标信息、所述躲避奖励函数和所述驶向奖励函数，得到飞行器执行所述避障动作后的躲避奖励值和驶向奖励值；

判断单元，基于所述躲避奖励值和驶向奖励值判断是否达到设定需求，若达到，则训练结束，得到训练好的所述路径规划神经网络；若没有达到，则基于所述状态空间、所述躲避奖励值和所述驶向奖励值对所述路径规划神经网络进行优化，得到优化后的所述路径规划神经网络，并将优化后的所述路径规划神经网络替换所述路径规划神经网络，返回至所述输入单元。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明飞行器的避障方法流程图；

图2为本发明模糊障碍距离示意图；

图3为本发明模糊障碍奖励示意图；

图4为本发明飞行器的避障***结构图。

符号说明：1-奖励模块，2-训练模块，3-路径模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种飞行器的避障方法及***，通过对飞行器路径的有效规划，以使飞行器在不确定环境中准确迅速地躲避静态和动态障碍物，安全达到目标点。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明飞行器的避障方法流程图。如图所示，本发明提供了一种飞行器的避障方法，包括：

步骤S1，基于障碍物信息、飞行器信息和目标信息得到***状态、躲避奖励函数和驶向奖励函数。

具体地，所述步骤S1包括：

步骤S11，基于障碍物的位置数据与飞行器的位置数据得到初始躲避奖励函数；对所述初始躲避奖励函数进行模糊化，得到所述躲避奖励函数。具体为：基于所述障碍物的位置数据与所述飞行器的位置数据得到障碍距离，对所述障碍距离进行模糊化，得到模糊障碍距离。如图2所示，本实施例中，所述模糊障碍距离包括负小、正小、正中和正大；图中，NS表示负小，PS表示正小，PM表示正中，PB表示正大，d_sensor为飞行器的最大探测距离。基于所述障碍距离得到障碍奖励，对所述障碍奖励进行模糊化，得到模糊障碍奖励，如图3所示。建立模糊障碍奖励与所述模糊障碍距离之间的映射关系，得到所述躲避奖励函数。所述躲避奖励函数如下：

Rule-01：IF D is NS THEN R is NS

Rule-02：IF D is PS THEN R is PS

Rule-03：IF D is PM THEN R is PM；

Rule-04：IF D is PB THEN R is PB

式中：D为模糊障碍距离，R为模糊障碍奖励，IF代表如果，is代表是，Rule代表规则，THEN代表那么。

步骤S12，基于所述飞行器的位置数据和所述目标位置信息得到初始驶向奖励函数，对所述初始驶向奖励函数进行模糊化，得到所述驶向奖励函数。所述驶向奖励函数的计算方法与所述躲避奖励函数相同，此处不进行赘述。

步骤S13，基于所述飞行器位置数据、速度数据和航向角以及所述障碍物的位置数据、速度数据和航向角，得到所述***状态；所述障碍物信息包括所述障碍物的位置数据、速度数据和航向角；所述飞行器信息包括所述飞行器位置数据、速度数据和航向角。所述步骤S13基于长短时记忆网络(Long Short-Term Memory，简称LSTM)实现。

进一步地，所述步骤S13，包括：

步骤S131，对每个所述障碍物均执行“步骤S132-步骤S133”，得到每个所述障碍物的编码数据，将每个所述障碍物的编码数据与所述飞行器信息进行整合，得到所述***状态。

步骤S132，基于所述飞行器位置数据和速度数据以及所述障碍物的位置数据和速度数据，建立障碍锥，并得到所述飞行器与所述障碍物之间的位置矢量和相对速度矢量，进一步得到所述相对速度矢量与所述位置矢量之间的夹角和所述障碍锥的半顶角。

所述夹角的计算公式为：

所述半顶角的计算公式为：

式中，α_i为第i个障碍物的夹角，v_ui为相对速度矢量，v_ui＝v_u-v_i，v_u为飞行器的速度，v_i为第i个障碍物的的速度，P_u为飞行器的位置，P_i为第i个障碍物的位置，P_uP_i为位置矢量，

α_ui为第i个障碍物的半顶角，d_ui为飞行器到第i个障碍的距离，L_i为第i个障碍物的半径。

步骤S133，对所述夹角与所述半顶角进行比较，若所述夹角大于所述半顶角，则舍弃所述障碍物信息；若所述夹角小于或等于所述半顶角，则获取所述飞行器相对于所述障碍物的最优避障方向，将所述最优避障方向以及所述障碍物的位置数据、速度数据和航向角进行编码，得到所述障碍物的编码数据。

步骤S2，基于所述***状态、躲避奖励函数和驶向奖励函数，对路径规划神经网络进行训练，得到训练好的所述路径规划神经网络。

优选地，所述步骤S2，包括：

步骤S21，将所述***状态输入所述路径规划神经网络，得到避障动作。具体地，所述路径规划神经网络包括actor网络和critic网络。所述actor网络基于所述***状态和随机噪声得到所述避障动作。

步骤S22，所述actor网络获取所述飞行器执行所述避障动作后的状态空间。

步骤S23，所述critic网络基于所述目标信息、所述躲避奖励函数和所述驶向奖励函数，得到飞行器执行所述避障动作后的躲避奖励值和驶向奖励值。

步骤S24，所述critic网络基于所述躲避奖励值和驶向奖励值判断是否达到设定需求，若达到，则训练结束，得到训练好的所述路径规划神经网络。若没有达到，则所述critic网络基于所述状态空间、所述躲避奖励值和所述驶向奖励值，得到最小化损失函数，并基于所述最小化损失函数对所述actor网络进行优化，得到优化后的所述actor网络，并将优化后的所述actor网络替换所述actor网络，返回至“步骤S21”。

即为重复执行“步骤S21-步骤S24”，直至达到设定需求，得到训练好的所述路径规划神经网络。

步骤S3，基于训练好的所述路径规划神经网络实现飞行的最优路径规划。

图4为本发明飞行器的避障***结构图。如图所示，本发明提供了一种飞行器的避障***，包括：奖励模块1、训练模块2和路径模块3。

所述奖励模块1基于障碍物信息、飞行器信息和目标信息得到***状态、躲避奖励函数和驶向奖励函数。

所述训练模块2基于所述***状态、躲避奖励函数和驶向奖励函数，对路径规划神经网络进行训练，得到训练好的所述路径规划神经网络。

所述路径模块3基于训练好的所述路径规划神经网络实现飞行的最优路径规划。

作为一种可选的实施方式，本发明所述奖励模块1包括：躲避奖励单元、驶向奖励单元和状态单元。

所述躲避奖励单元基于障碍物的位置数据与飞行器的位置数据得到初始躲避奖励函数；对所述初始躲避奖励函数进行模糊化，得到所述躲避奖励函数。

所述驶向奖励单元基于所述飞行器的位置数据和所述目标位置信息得到初始驶向奖励函数，对所述初始驶向奖励函数进行模糊化，得到所述驶向奖励函数。

所述状态单元基于所述飞行器位置数据、速度数据和航向角以及所述障碍物的位置数据、速度数据和航向角，得到所述***状态；所述障碍物信息包括所述障碍物的位置数据、速度数据和航向角；所述飞行器信息包括所述飞行器位置数据、速度数据和航向角。

作为一种可选的实施方式，本发明所述状态单元包括：执行子单元、角度子单元和判断子单元。

所述执行子单元对每个所述障碍物均执行所述角度子单元和所述判断子单元，得到每个所述障碍物的编码数据，将每个所述障碍物的编码数据与所述飞行器信息进行整合，得到所述***状态。

所述角度子单元基于所述飞行器位置数据和速度数据以及所述障碍物的位置数据和速度数据，建立障碍锥，并得到所述飞行器与所述障碍物之间的位置矢量和相对速度矢量，进一步得到相对速度矢量与位置矢量之间的夹角和障碍锥的半顶角。

作为一种可选的实施方式，本发明所述训练模块2包括：输入单元、空间单元、奖励值单元和判断单元。

所述输入单元将所述***状态输入所述路径规划神经网络，得到避障动作。

所述空间单元获取所述飞行器执行所述避障动作后的状态空间。

所述奖励值单元基于所述目标信息、所述躲避奖励函数和所述驶向奖励函数，得到飞行器执行所述避障动作后的躲避奖励值和驶向奖励值。

所述判断单元基于所述躲避奖励值和驶向奖励值判断是否达到设定需求，若达到，则训练结束，得到训练好的所述路径规划神经网络；若没有达到，则基于所述状态空间、所述躲避奖励值和所述驶向奖励值对所述路径规划神经网络进行优化，得到优化后的所述路径规划神经网络，并将优化后的所述路径规划神经网络替换所述路径规划神经网络，返回至所述输入单元。

本发明为了克服稀疏奖励带来的缺陷，设计了基于模糊算法的引导型奖励函数，该奖励函数能够减小训练时飞行器的奖励周期，提高算法收敛速度。

本发明为了充分利用动态障碍的速度信息，结合速度障碍法提出了基于航向角选择的飞行器避障方法，实现了飞行器在不确定环境中准确迅速地躲避静态和动态障碍物，并安全达到目标点。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种飞行器的避障方法，其特征在于，包括：

2.根据权利要求1所述的飞行器的避障方法，其特征在于，所述基于障碍物信息、飞行器信息和目标信息得到***状态、躲避奖励函数和驶向奖励函数，包括：

3.根据权利要求2所述的飞行器的避障方法，其特征在于，所述基于所述飞行器位置数据、速度数据和航向角以及所述障碍物的位置数据、速度数据和航向角，得到所述***状态，包括：

4.根据权利要求2所述的飞行器的避障方法，其特征在于，所述基于所述***状态、躲避奖励函数和驶向奖励函数，对路径规划神经网络进行训练，得到训练好的所述路径规划神经网络，包括：

将所述***状态输入所述路径规划神经网络，得到避障动作；

获取所述飞行器执行所述避障动作后的状态空间；

5.一种飞行器的避障***，其特征在于，包括：

6.根据权利要求5所述的飞行器的避障***，其特征在于，所述奖励模块包括：

7.根据权利要求6所述的飞行器的避障***，其特征在于，所述状态单元包括：

8.根据权利要求6所述的飞行器的避障***，其特征在于，所述训练模块包括：