CN116225055A

CN116225055A - 一种复杂环境下基于状态分解的无人机自主航迹规划算法

Info

Publication number: CN116225055A
Application number: CN202310043150.XA
Authority: CN
Inventors: 张莉涓; 彭佳宾; 雷磊; 伊尉国; 林杭; 吕博; 李志林; 曹盼; 宋晓勤
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-06-06

Abstract

本发明公开了一种复杂环境下基于状态分解的无人机自主航迹规划算法。该发明属于无人机控制领域，主要解决了无人机在大规模复杂且障碍物密集的动态环境中实时避障并自主完成航迹规划的问题。所提算法通过将无人机航迹规划问题建模成为马尔可夫决策过程，利用深度强化学***衡。本算法确保了无人机在实现避开障碍物的同时能够自主完成航迹规划，大量的仿真实验证明了该算法的有效性和鲁棒性。

Description

一种复杂环境下基于状态分解的无人机自主航迹规划算法

技术领域

本发明属于无人机控制领域，特别涉及基于深度强化学习的无人机自主航迹规划算法设计。

背景技术

与载人飞行器相比，无人机(Unmanned Aerial Vehicle，UAV)由于其具有体积小、造价低、灵活性高和生存能力强等特点而被广泛的运用在军事领域和民用领域。在军事领域，无人机在目标侦察、地形测绘、精准打击、通信干扰、通信转发以及其他战场态势感知场景下得到了广泛的应用；在民用领域，无人机在灾难救援、航空拍摄、新闻报道、农业灌溉、电力巡检、快递运输等场景发挥着重要作用。

无人机广泛应用的背后离不开航迹规划技术的支持。无人机航迹规划问题是指在综合考虑飞行消耗时间、威胁源、飞行区域、周围环境等因素后，为无人机规划一条全局最优的飞行路径，从而保证无人机能够顺利完成各种任务。在目前的国内外研究现状中，无人机航迹规划主要分为非学习式的传统航迹规划算法和基于人工智能的学习式航迹规划算法。传统航迹规划算法主要包括人工势场法，A^*算法，粒子群算法以及遗传算法等。此类算法对环境信息依赖性强，需要无人机具备较强的感知能力，在环境信息掌握不足，无人机态势感知能力受到干扰的任务背景下，无人机难以表现出良好的航迹规划能力。因此，传统航迹规划算法主要适合一些简单且障碍物稀疏的任务场景。

在大规模复杂的动态环境中，基于人工智能的无人机航迹规划算法表现出了较强的环境适应力。其中深度强化学习由于其适应性高，泛化性强被广泛应用于无人机航迹规划领域。强化学习(Reinforcement Learning，RL)的概念来源于心理学中的试错-学习过程，是早期人工智能的重要研究方向。强化学习的基本过程是智能代理与环境进行交互，得到环境反馈(称为回报或奖励)，做出序列决策并追求最大化累积奖励的过程。而深度强化学习是将强化学习的决策能力和深度学习的感知能力相结合，利用神经网络强大的表示能力解决复杂***的感知决策问题。

基于深度强化学习的无人机自主航迹规划算法主要包括深度Q网络(Deep Q-Network，DQN)，Double DQN(DDQN)和深度确定性策略梯度(Deep Deterministic PolicyGradient，DDPG)等。DQN将深度学习和Q-learning相结合，利用神经网络拟合Q值，解决了传统Q-learning在高维状态空间和动作空间下的表示问题。但是DQN存在过高估计Q值的问题，与真实的Q值存在一定的偏差。为此，DDQN在DQN的基础上，对DQN的目标函数进行了改进，从而在一定程度上降低了Q值的过评估问题，使得Q值的估计值更加接近真实值。然而，不论是DQN还是DDQN，在无人机航迹规划的应用场景中，无人机的动作空间被定义为离散的，而现实中无人机的动作空间通常是连续的，因此，DQN和DDQN在实际应用中存在一定的限制。

DDPG算法的提出解决了动作空间的离散问题。DDPG主要基于“演员-评论家”框架将DQN中的离散动作空间扩展到了连续动作空间。在“演员-评论家”框架中，“演员”利用神经网络输出具体的执行策略，而“评论家”通过学习动作值函数Q对“演员”产生的策略进行评估；“演员”通过“评论家”的评估值来改进策略，而“评论家”也通过不断的学习提高评估的精确度。通过这样的方式，DDPG最终可以学习到一个最优的策略，从而为无人机规划出一条最优的路径。但是，原始的DDPG算法对神经网络的超参数设置特别敏感，参数的设置直接影响了模型收敛的速度。同时，在大规模复杂的动态环境中，DDPG算法表现出了明显的不稳定性，使得将DDPG算法应用到无人机航迹规划任务中存在一定的风险。

考虑无人机广阔的应用前景以及目前无人机航迹规划存在的各种问题，本发明基于深度强化学习，针对大规模复杂动态环境下无人机航迹规划问题，提出了ImDDPG算法。和原始DDPG算法相比，本发明所提算法能够在大规模复杂环境下，为无人机提供更强的航迹规划能力。同时，该算法还表现出了较强的环境适应性和泛化能力。

发明内容

本发明的目的是为无人机在大规模复杂且障碍物密集的动态环境下执行各种任务，提供一种高效且泛化能力强的航迹规划算法。该算法在保障无人机避开障碍物，顺利飞往目的地的同时，赋予了无人机自主规划出一条全局最优飞行路径的能力。为了实现该目的，本发明所采用的步骤是：

步骤1：根据强化学习的相关理论知识，将无人机航迹规划问题建模成为一个马尔可夫决策过程。一个马尔可夫决策过程通常可由一个元组表示：(S，A，P，γ，R)，其中S表示状态空间，A表示动作空间，P∈[0，1]表示智能体从当前状态s转移到一个状态s’的状态转移概率，γ∈[0，1]是折扣因子，R代表奖励函数；

步骤2：建立无人机飞行时的运动学模型。在笛卡尔坐标系中，无人机的初始位置可用(x₀，y₀，z₀)表示；为了方便问题的求解，本发明将无人机的飞行高度固定为一个常数C_H，于是无人机的位置只在x-y平面上变化；考虑无人机连续变化的动作空间，本发明通过定义无人机的速度v和航向角θ，去更新无人机的位置；

步骤3：根据无人机自主航迹规划的任务场景，结合发明人对无人机飞行的领域知识，设计出一套非稀疏的奖励函数，用来加快模型的收敛速度。奖励函数主要包含三部分：第一部分是和障碍物碰撞有关的奖励r₁；第二部分是和目标有关的奖励r₂；第三部分是和训练速度有关的奖励r₃；

步骤4：针对原始DDPG算法存在的各种问题，在原始DDPG算法的基础上，提出一种改进版本的DDPG算法(Improved DDPG，ImDDPG)。所提算法对原算法所用“演员”神经网络进行了改进，即划分出了两个“演员”子网络对输入的部分状态信息进行单独训练，然后再将两个子网络的输出和全局状态信息进行拼接，并输入到全局的“演员”网络中进行训练，得到最终的执行策略。为了解决强化学***衡“探索-利用”之间的关系。同时，针对在大规模复杂动态环境中，为神经网络采集的数据可能出现异常值的问题，本发明用smooth L₁损失函数代替了原论文中的L₂损失函数，以此来稳定神经网络的训练过程。

本发明提出的复杂环境下基于状态分解的无人机自主航迹规划算法的有效性已通过仿真实验得到了验证。附图4给出了本发明所提算法与其它两种基线算法：DDPG和TD3在不同障碍物密度下的性能测试结果图；附图5给出了在所提算法训练得到的模型下，仿真环境面积为1800×1800m²，障碍物密度为0.6时，无人机实际的飞行轨迹图。附图6，附图7以及附图8是无人机在动态环境下的飞行轨迹图。

附图说明

图1是本发明的无人机状态空间示意图；

图2是本发明的神经网络结构示意图；

图3是本发明的算法和另外两种基线算法的收敛速度对比的示意图；

图4是本发明的算法在不同障碍物密度下性能测试的结果图；

图5是本发明的无人机在仿真环境面积为1800×1800m²，障碍物密度为0.6时，实际的飞行轨迹图；

图6是本发明的无人机在动态环境下自主避障的示意图a；

图7是本发明的无人机在动态环境下自主避障的示意图b；

图8是本发明的无人机在动态环境下自主避障的示意图c；

具体实施方式

下面结合附图对本发明作进一步详细描述。

步骤1：将无人机自主航迹规划问题建模成为一个马尔可夫决策过程

1、状态空间的定义

状态空间是无人机做出决策和评估长期累积奖励的基础，并且状态空间设计的好坏直接影响了模型的收敛速度以及无人机航迹规划的性能表现。在本发明中，将无人机的状态空间分成了三部分，即无人机自身内部的状态空间，和障碍物有关的状态空间以及和目标有关的状态空间。无人机的状态空间示意图如附图1所示。

无人机内部的状态空间定义为s_i。它由时刻t时无人机的航向角θ_t和无人机的速度v_t组成。请注意本发明并没有像现有研究一样将无人机的绝对位置加入到无人机内部的状态空间，因此这样做会减弱无人机在不同环境下的泛化能力。

和障碍物有关的状态空间定义为s_o。为了能够使无人机在飞行过程中及时躲避障碍物和其它飞行物的威胁，本发明使用距离测量仪去探测无人机周围的环境信息，并将距离测量仪返回的数据作为判断无人机是否发生碰撞的依据，于是s_o＝[d₁，d₂，...，d₉]。

和目标有关的状态空间定义为

其中，/>

表示t时刻无人机和目标之间的距离，距离数据可以通过无人机的机载GPS数据得到。/>

表示无人机t时刻的航向与目标方向的偏差值。由此，无人机整体的状态空间可表示为：

2、动作空间的定义

动作空间是指无人机可以采取的所有动作的集合。为了实现无人机连续的动作空间，本发明将无人机的动作空间定义为A＝[a_t，φ_t]。其中，a_t∈[-1，1]用来控制无人机的速度变化，φ_t∈[-1，1]用来控制无人机的航向。在本发明中，a_t和φ_t均是通过神经网络的输出得到。

3、状态转移概率

状态转移概率是指给定当前状态s_t和动作A_t，转移到状态s_t+1的概率分布，即

这里的状态转移概率P也可以理解成***模型，强化学习算法常常可以分为无模型强化学习算法和基于模型的强化学习算法。本发明所提算法属于无模型的强化学习算法。

4、折扣因子

折扣因子γ是衰减未来的奖励对当前状态值的贡献，其取值通常在[0，1]之间。当完成一次任务需要的步数越多，折扣因子γ的取值越接近1。在本发明中，将折扣因子γ的值设置为了0.99。

5、奖励函数

奖励函数R是指给定状态s_t，采取动作A_t后，无人机得到的回报，即r＝R(s_t，A_t)。强化学习算法往往对奖励函数R非常敏感，不同的奖励函数对于收敛性和学习速度影响非常大。最简单的做法是将奖励设置为稀疏奖励，即只要当无人机完成指定任务后，才可以获得奖励。这种做法虽然简单，但却会使算法的学习效率较低，并且算法很难收敛。因此，在实际应用中常常采用奖励重塑技术将稀疏奖励变为稠密奖励。这一点将在步骤3进行详细阐述。

步骤2：建立无人机的动力学模型

考虑到现实环境中，无人机自主航迹规划的高复杂性，本发明搭建了一个和现实环境高度匹配的仿真环境。在该仿真环境中，t时刻无人机的位置表示为(x_t，y_t，z_t)。为了方便问题的求解，本发明将无人机的飞行高度固定在一个定值，即z_t＝C_H。此时，无人机的运动被固定在了x-y平面，其动力学方程可表示为：

其中，p_t＝[x_t，y_t]表示无人机在时刻t的位置，θ_t是时刻t无人机的航向，φ_t∈[-1，1]用来控制无人机的航向；v_t是时刻t无人机的速度，a_t∈[-1，1]用来控制无人机的速度变化。

步骤3：重塑奖励函数

奖励函数充当一个信号，评估在特定状态下采取某个行为时的好坏。如前所述，一种简单的做法是将奖励函数定义为稀疏奖励，但采用稀疏奖励会使用无人机在环境中散布密集障碍物时，失去实时避开障碍物的能力。为此，本发明通过奖励重塑技术将稀疏奖励变为非稀疏奖励。奖励重塑在策略不变性的前提下为无人机提供了一种特定形式的非稀疏奖励。具体地，本发明中的非稀疏奖励分为三部分，即和障碍物碰撞有关的奖励r₁：

其中，σ是一个大于0的常数，用来刻画惩罚的程度，在本发明中σ的值设置为50。min(·)表示求距离测量仪返回的距离数据中的最小值，D_r是距离测量仪实际的测量范围，其值设置为100米。可以看到，障碍物惩罚被建模为距离的连续函数而不是离散的惩罚值，当无人机的距离测量仪测量范围内没有障碍物时，即d＝D_r时，r₁＝0；当距离测量仪测量范围内出现障碍物时，无人机离障碍物越近，受到的惩罚越大。这样做可以帮助无人机在复杂环境中，更好地避开各种威胁，并且能更有效地帮助模型收敛。

第二部分是和目标有关的奖励r₂。这部分奖励主要为了鼓励无人机朝目标的方向前进。任何偏离目标的行为都将受到惩罚。r₂的定义如下：

其中，

表示t时刻无人机和目标之间的距离，D₀是一个大于0的常数，用来防止无人机偏离目标太远。在本发明中，D₀的值设置为1000米。

第三部分是固定的时间步惩罚，主要是为了无人机能够尽快飞往目标以完成指定任务。r₃定义为：r₃＝-1。于是，全局的奖励函数定义为：

r＝r₁+r₂+r₃ (6)

步骤4：神经网络设计及算法优化

本发明所提算法主要基于DDPG算法进行改进，DDPG算法采用了“演员-评论家”的神经网络结构，其中，“评论家”网络负责评判“演员”网络产生的行为的质量，“演员”可以根据“评论家”的评判值作出调整，从而产生更高质量的行为。在强化学习中，动作值函数表示在状态s处，采取动作a后转移到状态s′，并从状态s′开始执行策略π所得到的折扣累积回报的期望，其数学定义为：

但是对于实际应用，无人机的状态空间和动作空间维度都是巨大的。动作值函数无法准确获取，因此需要对动作值函数进行参数化，即

为了使参数化的动作值函数更加接近真实的动作值函数，需要利用时间差分误差对/>

进行更新，更新公式为：

其中，α代表学习率，用于控制更新的幅度。

称为时间差分目标，

是时间差分误差。当公式(8)收敛后，便可以得到最优的策略：

在“评论家”网络中，网络的输入为状态S和采样动作A，网络的输出为动作值。利用Q学***方，即

L(s，a|θ^Q)＝[r(s，a)+γQ′(s′，a′|θ^Q′)-Q(s，a|θ^Q)]² (10)

在“演员”网络中，动作值函数被参数化成为一个确定性的策略a＝μ(s|θ^μ)，利用求导的链式规则，“演员”网络参数遵循下式进行更新：

本发明所提算法使用了经验回放的技术，即在无人机每执行完一步动作后，算法会将与环境交互得到的数据(s_t，a_t，r_t，s_t+1)存入到经验池中。当经验池中的数据达到一定数量后，便从经验池中随机抽取N个数据，进行神经网络参数的更新。对于“评论家”网络而言，其是通过最小化损失函数来进行更新的，即

其中，

y_k＝r_k+γQ′(s_k+1，μ′(s_k+1|θ^μ′)|θ^Q′) (13)

公式(12)也被称为L₂损失。在实际应用中，为了防止出现梯度***问题，必须十分小心地调整L₂损失的学习率，并且训练数据中异常值也会对L₂损失造成影响。为此，本发明利用smooth L₁损失替代L₂损失，smooth L₁损失的定义为：

smooth L₁损失结合了L₁损失和L₂损失的优点，使得网络对异常数据更加鲁棒。

为了能够使无人机在大规模复杂且障碍物密集的环境下顺利完成任务，本发明对原始DDPG算法中的“演员”网络进行了重新设计，其网络示意图如附图2所示。

首先，本发明在原始“演员”网络的基础上，增加了两个“演员”子网络，用于生成两个子动作a_g和a_o。对于子网络1而言，网络的输入是无人机状态空间中关于目标部分的状态s_g，经过两层全连接网络后，得到子动作a_g；对于子网络2而言，网络的输入是无人机状态空间中关于障碍物部分的状态s_o，经过两层全连接网络后，得到子动作a_o。接着，本发明将两个子网络的输出和无人机的状态空间进行拼接，作为全局Actor网络的输入，经过两层全连接网络后，得到最终的输出动作A。

使用两个子网络做预训练的动机在于无人机的状态空间由三部分组成，并且每一部分所包含的信息都各不相同。使用单一的网络进行训练，会使网络无法正确辨别每一部分所占权重，最终可能导致网络输出一个比较差的策略。相反地，通过事先将无人机的状态空间进行分解，并分别进行训练，可以帮助无人机更好地提取每一部分状态空间的有用信息，从而输出更有效的行为策略。

由于DDPG算法输出的是确定性的行为策略，算法通过增加Ornstein-Uhlenbeck(OU)过程实现了对环境的小范围探索。至此，用于无人机最终执行的动作可表示为：

a＝μ(s|θ^μ)+N (15)

其中，N□OU(μ，θ，σ)。在实际训练过程中，通常需要对动作值执行clip操作以保证其在合适的大小范围内，即

a＝clip(a，a_low，a_high) (16)

OU过程中σ值的选取可能会导致动作值一直停留在边界值a_low或a_high上，从而降低算法的稳定性和有效性。为此，本发明在OU过程中增加了动态ε衰减策略以平衡强化学习中“探索-利用”之间的关系。具体做法为：

a＝μ(s|θ^μ)+εN (17)

在训练的早期阶段，探索噪声会占据较大的比例以实现对环境的充分探索；随着训练的进行，ε会不断衰减，使噪声所占比例逐渐减小；在“利用”阶段，“演员”网络输出的动作值占主导地位，无人机根据其从环境中学习到策略采取相应行为。

通过这样的方式，无人机会逐渐学会自主决策下一步应该采取什么样的行为，从而实现了在大规模复杂的密集障碍物环境中无人机自主航迹规划的目的。

本发明申请书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种复杂环境下基于状态分解的无人机自主航迹规划算法，所采用的步骤是：

步骤1：将无人机航迹规划问题建模成为一个马尔可夫决策过程；一个马尔可夫决策过程通常可由一个元组表示：(S，A，P，γ，R)，其中S表示状态空间，A表示动作空间，P∈[0，1]表示智能体从当前状态s转移到一个状态s’的状态转移概率，γ∈[0，1]是折扣因子，R代表奖励函数；

步骤2：建立无人机飞行时的运动学模型；在笛卡尔坐标系中，无人机的初始位置可用(x₀，y₀，z₀)表示；为了方便问题的求解，本发明将无人机的飞行高度固定为一个常数C_H，于是无人机的位置只在x-y平面上变化；考虑无人机连续变化的动作空间，本发明通过定义无人机的速度v和航向角θ，去更新无人机的位置；

步骤3：根据无人机自主航迹规划的任务场景，结合发明人对无人机飞行的领域知识，设计出一套非稀疏的奖励函数，用来加快模型的收敛速度；奖励函数主要包含三部分：第一部分是和障碍物碰撞有关的奖励r₁；第二部分是和目标有关的奖励r₂；第三部分是和训练速度有关的奖励r₃；

步骤4：提出基于状态分解的无人机自主航迹规划算法；所提算法对原算法中的“演员”神经网络进行了改进，即划分出了两个“演员”子网络对输入的部分状态信息进行单独训练，然后再将两个子网络的输出和全局状态信息进行拼接，并输入到全局的“演员”网络中进行训练，得到最终的执行策略；为了解决强化学***衡“探索-利用”之间的关系；同时，针对在大规模复杂动态环境中，为神经网络采集的数据可能出现异常值的问题，本发明用smooth L₁损失函数代替了原论文中的L₂损失函数，以此来稳定神经网络的训练过程。

2.根据权利要求1所述的一种复杂环境下基于状态分解的无人机自主航迹规划算法，其特征在于将无人机航迹规划问题建模成为马尔可夫决策过程的具体方法为：

(1)状态空间的定义

状态空间是无人机做出决策和评估长期累积奖励的基础，并且状态空间设计的好坏直接影响了模型的收敛速度以及无人机航迹规划的性能表现；在本发明中，将无人机的状态空间分成了三部分，即无人机自身内部的状态空间，和障碍物有关的状态空间以及和目标有关的状态空间；

无人机内部的状态空间定义为s_i；它由时刻t时无人机的航向角θ_t和无人机的速度v_t组成；请注意本发明并没有像现有研究一样将无人机的绝对位置加入到无人机内部的状态空间，因此这样做会减弱无人机在不同环境下的泛化能力；

和障碍物有关的状态空间定义为s_o；为了能够使无人机在飞行过程中及时躲避障碍物和其它飞行物的威胁，本发明使用距离测量仪去探测无人机周围的环境信息，并将距离测量仪返回的数据作为判断无人机是否发生碰撞的依据，于是s_o＝[d₁，d₂，...，d₉]；

和目标有关的状态空间定义为

其中，/>

表示时刻t无人机和目标之间的距离，距离数据可以通过无人机的机载GPS数据得到；/>

表示无人机在时刻t的航向与目标方向的偏差值；由此，无人机整体的状态空间可表示为：

(2)动作空间的定义

动作空间是指无人机可以采取的所有动作的集合；为了实现无人机连续的动作空间，本发明将无人机的动作空间定义为A＝[a_t，φ_t]；其中，a_t属于[-1，1]用来控制无人机的速度变化，φ_t∈[-1，1]用来控制无人机的航向；在本发明中，a_t和φ_t均是通过神经网络的输出得到；

(3)状态转移概率

这里的状态转移概率P也可以理解成***模型，强化学习算法常常可以分为无模型强化学习算法和基于模型的强化学习算法；本发明所提算法属于无模型的强化学习算法；

(4)折扣因子

折扣因子γ是衰减未来的奖励对当前状态值的贡献，其取值通常在[0，1]之间；当完成一次任务需要的步数越多，折扣因子γ的取值越接近1；在本发明中，将折扣因子γ的值设置为了0.99；

(5)奖励函数

奖励函数R是指给定状态s_t，采取动作A_t后，无人机得到的回报，即r＝R(s_t，A_t)；强化学习算法往往对奖励函数R非常敏感，不同的奖励函数对于收敛性和学习速度影响非常大；最简单的做法是将奖励设置为稀疏奖励，即只要当无人机完成指定任务后，才可以获得奖励；这种做法虽然简单，但却会使算法的学习效率较低，并且算法很难收敛；因此，在实际应用中常常采用奖励重塑技术将稀疏奖励变为稠密奖励。

3.根据权利要求1所述的一种复杂环境下基于状态分解的无人机自主航迹规划算法，其特征在于将无人机飞行时动力学模型构建的具体方法为：

考虑到现实环境中，无人机自主航迹规划的高复杂性，本发明搭建了一个和现实环境高度匹配的仿真环境；在该仿真环境中，t时刻无人机的位置表示为(x_t，y_t，z_t)；为了方便问题的求解，本发明将无人机的飞行高度固定在一个定值，即z_t＝C_H；此时，无人机的运动被固定在了x-y平面，其动力学方程可表示为：

其中，p_t＝[x_t，y_t]表示无人机在时刻t的位置，θ_t是时刻t无人机的航向，φ_t∈[-1，1]用来控制无人机的航向；v_t是时刻t无人机的速度，cos(·)表示速度v在x方向的分量，sin(·)表示速度v在y方向的分量；a_t∈[-1，1]用来控制无人机的速度变化。

4.根据权利要求1所述的一种复杂环境下基于状态分解的无人机自主航迹规划算法，其特征在于奖励函数的重塑的具体方法为：

奖励函数充当一个信号，评估在特定状态下采取某个行为时的好坏；如前所述，一种简单的做法是将奖励函数定义为稀疏奖励，但采用稀疏奖励会使用无人机在环境中散布密集障碍物时，失去实时避开障碍物的能力；为此，本发明通过奖励重塑技术将稀疏奖励变为非稀疏奖励；奖励重塑在策略不变性的前提下为无人机提供了一种特定形式的非稀疏奖励；具体地，本发明中的非稀疏奖励分为三部分，即和障碍物碰撞有关的奖励r₁：

其中，σ是一个大于0的常数，用来刻画惩罚的程度，在本发明中σ的值设置为50；min(·)表示求距离测量仪返回的距离数据中的最小值，D_r是距离测量仪实际的测量范围，其值设置为100米；可以看到，障碍物惩罚被建模为距离的连续函数而不是离散的惩罚值，当无人机的距离测量仪测量范围内没有障碍物时，即d＝D_r时，r₁＝0；当距离测量仪测量范围内出现障碍物时，无人机离障碍物越近，受到的惩罚越大；

第二部分是和目标有关的奖励r₂；这部分奖励主要为了鼓励无人机朝目标的方向前进，任何偏离目标的行为都将受到惩罚；r₂的定义如下：

其中，

表示t时刻无人机和目标之间的距离，D₀是一个大于0的常数，用来防止无人机偏离目标太远；在本发明中，D₀的值设置为1000米；

第三部分是固定的时间步惩罚，主要是为了无人机能够尽快飞往目标以完成指定任务；r₃定义为：r₃＝-1；于是，全局的奖励函数定义为：

r＝r₁+r₂+r₃ (6)

根据公式(6)设置奖励函数。

5.根据权利要求1所述的一种复杂环境下基于状态分解的无人机自主航迹规划算法，其特征在于神经网络结构的搭建以及优化的具体方法为：

本发明所提算法主要基于DDPG算法进行改进，DDPG算法采用了“演员-评论家”的神经网络结构，其中，“评论家”网络负责评判“演员”网络产生的行为的质量，“演员”可以根据“评论家”的评判值作出调整，从而产生更高质量的行为；在强化学习中，动作值函数表示在状态s处，采取动作a后转移到状态s′，并从状态s′开始执行策略π所得到的折扣累积回报的期望，其数学定义为：

但是对于实际应用，无人机的状态空间和动作空间维度都是巨大的；动作值函数无法准确获取，因此需要对动作值函数进行参数化，即

为了使参数化的动作值函数更加接近真实的动作值函数，本发明使用时间差分误差对/>

进行更新，更新公式为：

其中，α代表学习率，用于控制更新的幅度；

称为时间差分目标，

是时间差分误差；当公式(8)收敛后，便可以得到最优的策略：

/>

在“评论家”网络中，网络的输入为状态S和采样动作A，网络的输出为动作值；利用Q学***方，即

L(s，a|θ^Q)＝[r(s，a)+γQ′(s′，a′|θ^Q′)-Q(s，a|θ^Q)]² (10)

本发明所提算法使用了经验回放的技术，即在无人机每执行完一步动作后，算法会将与环境交互得到的数据(s_t，a_t，r_t，s_t+1)存入到经验池中；当经验池中的数据达到一定数量后，便从经验池中随机抽取N个数据，进行神经网络参数的更新；对于“评论家”网络而言，其是通过最小化损失函数来进行更新的，即

其中，

y_k＝r_k+γQ′(s_k+1，μ′(s_k+1|θ^μ′)|θ^Q′) (13)

公式(12)也被称为L₂损失；在实际应用中，为了防止出现梯度***问题，必须十分小心地调整L₂损失的学习率，并且训练数据中异常值也会对L₂损失造成影响；为此，本发明利用smooth L₁损失替代L₂损失，smooth L₁损失的定义为：

smooth L₁损失结合了L₁损失和L₂损失的优点，使得网络对异常数据更加鲁棒；

为了能够使无人机在大规模复杂且障碍物密集的环境下顺利完成任务，本发明在原始“演员”网络的基础上，增加了两个“演员”子网络，用于生成两个子动作a_g和a_o；对于子网络1而言，网络的输入是无人机状态空间中关于目标部分的状态s_g，经过两层全连接网络后，得到子动作a_g；对于子网络2而言，网络的输入是无人机状态空间中关于障碍物部分的状态s_o，经过两层全连接网络后，得到子动作a_o；接着，本发明将两个子网络的输出和无人机的状态空间进行拼接，作为全局“演员”网络的输入，经过两层全连接网络后，得到最终的输出动作A；

使用两个子网络做预训练的动机在于无人机的状态空间由三部分组成，并且每一部分所包含的信息都各不相同；使用单一的网络进行训练，会使网络无法正确辨别每一部分所占权重，最终可能导致网络输出一个比较差的策略；相反地，通过事先将无人机的状态空间进行分解，并分别进行训练，可以帮助无人机更好地提取每一部分状态空间的有用信息，从而输出更有效的行为策略；

由于DDPG算法输出的是确定性的行为策略，算法通过增加Omstein-Uhlenbeck(OU)过程实现了对环境的小范围探索；至此，用于无人机最终执行的动作可表示为：

其中，

在实际训练过程中，通常需要对动作值执行clip操作以保证其在合适的大小范围内，即/>

a＝clip(a，a_low，a_high) (16)

OU过程中σ值的选取可能会导致动作值一直停留在边界值a_low或a_high上，从而降低算法的稳定性和有效性；为此，本发明在OU过程中增加了动态ε衰减策略以平衡强化学习中“探索-利用”之间的关系；具体做法为：