CN109032168B

CN109032168B - 一种基于dqn的多无人机协同区域监视的航路规划方法

Info

Publication number: CN109032168B
Application number: CN201810427968.0A
Authority: CN
Inventors: 王彤; 李艳庆; 张曙光
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-05-07
Filing date: 2018-05-07
Publication date: 2021-06-08
Anticipated expiration: 2038-05-07
Also published as: CN109032168A

Abstract

本发明属于多无人机区域监视航路规划领域，公开了一种基于DQN的多无人机区域监视的航路规划方法，包括：设定无人机群的目标监视区域，包含N架无人机，每架无人机上设置一个机载雷达，每架无人机匀速飞行；对无人机群的航路规划进行建模；确定无人机的状态与动作；建立深度神经网络；得到神经网络的目标值；N架无人机的航路进行规划，得到无人机群飞行过程中的有限个训练样本，通过样本训练深度神经网络，训练好的神经网络可以预测到没有看过的样本。当输入无人机群的当前状态时，通过神经网络就可以知道采取哪一个动作飞行时下一步的监视覆盖率就最大。以此规划出的航路就能够使得无人机群有效地实时覆盖监视区域。

Description

一种基于DQN的多无人机协同区域监视的航路规划方法

技术领域

本发明属于无人机区域监视航路规划领域，尤其涉及一种基于DQN(Deep Q-Network)的多无人机协同区域监视的航路规划方法，适用于无人机群对目标区域进行实时最大覆盖的持续监视问题。

背景技术

无人机(Unmanned Aerial Vehicle，UAV)，是指不需要飞行员驾驶，利用无线电遥控设备和自备的程序控制装置操纵的飞行器。凭借其成本低、机动性强、零伤亡率等特点，在军事领域及民用领域，都发挥着不可替代的作用。在无人机可以完成的各种任务中，区域监视是目前无人机***的一项非常重要的任务，尤其是在承担边境防空警戒任务时，需要监视的区域通常较为广阔，导致单架无人机对目标区域进行监视就越来越困难，常常无法完成所有的空中警戒任务。为了实时、最大化地监视目标区域，需要多架无人机协同完成。所以如何对多架无人机进行航路规划，解决多无人机协同飞行问题，以完成对指定目标区域的有效监视覆盖，是需要认真研究的重要问题。

目前无人机的航路规划算法研究大多是以避开防空导弹等障碍物到达飞行目标点为目的的，主要针对的是无人机和巡航导弹，通过相关的航路规划算法计算和选择次优或最优的航路轨迹，使得最后飞行的航路不仅满足无人机的飞行约束，还要满足能够有效避开敌方威胁等障碍物，顺利到达指定飞行目标点执行攻击或进行其它任务。但是本文研究的航路规划问题是需要多架无人机持续、不间断地监视指定区域，在多无人机协同区域监视的情况下为每架无人机规划出一条可以飞行的最有效的航迹，各无人机沿着各自的航迹飞行即可达到实时最大化地监视整个任务区域的目的

因此如何对多架无人机进行航路规划，解决无人机群协同飞行完成对指定区域的有效监视覆盖，是需要认真研究的重要问题。如果缺乏对无人机群的有效协同飞行，不仅无法完全体现多架无人机协同监视覆盖、探测的优势，而且甚至会出现无人机之间冲突、碰撞的危险。反之，多架无人机通过有效的航路规划，协同工作能够带来更好的作战效能。

发明内容

针对上述问题，本发明的目的在于提供一种基于DQN的多无人机协同区域监视的航路规划方法，能够解决多架无人机的协同飞行问题，并能够实现对目标区域的监视覆盖面积最大、且所要求的航路没有固定起点与终点的航迹规划问题。

为达到上述目的，本发明采用如下技术方案予以实现。

一种基于DQN的多无人机协同区域监视的航路规划方法，其特征在于，所述方法包括如下步骤：

步骤1，设定无人机群的监视区域，所述无人机群包含N架无人机，每架无人机上设置一个机载雷达，N架无人机在同一高度匀速飞行，并设定每架无人机的监视半径R_max；

步骤2，确定每架无人机的最大速度偏转角θ_max，以及每架无人机的位置和速度更新表达式；

步骤3，建立深度神经网络包含N个全连接神经网络，一个全连接神经网络对应一架无人机的航路规划；

步骤4，确定每个全连接神经网络的目标值；

步骤5，训练每个全连接神经网络的网络参数，得到每个训练后的神经网络模型，从而根据所述每个训练后的神经网络模型确定对应无人机的航路规划结果。

本发明技术方案的特点和进一步的改进为：

(1)步骤1中设定每架无人机的监视半径R_max具体为：

每架无人机的监视半径R_max为机载雷达的最大作用距离：

其中，P_t表示机载雷达***峰值功率，G表示机载雷达天线增益，λ表示机载雷达电磁波波长，σ表示目标散射截面积，k表示波尔兹曼常数，T₀表示标准室温，B表示机载雷达接收机带宽，F表示机载雷达噪声系数，L表示机载雷达自身损耗，(S/N)_omin表示机载雷达的最小可检测门限。

(2)步骤2中确定每架无人机的位置和速度更新表达式，具体为：

(2a)确定无人机群的状态：

第n架无人机的状态包含该无人机的位置坐标(x_n，y_n)和该无人机的飞行速度方向

采用行向量

表示第n架无人机的状态，则无人机群的状态表示为：

(2b)确定无人机群中每架无人机的动作：

每架无人机在下一时刻的可行位置为一个光滑圆弧，在所述光滑圆弧上平均取M个节点作为该无人机在下一时刻采取的M个动作，且M为奇数；

(2c)确定第n架无人机的位置和速度更新公式：

x_nm＝x_n+v·Δt·cos(α_nm+v_n)

y_nm＝y_n+v·Δt·sin(α_nm+v_n)

v_nm＝v_n+θ_nm

其中，x_nm和y_nm分别为第n架无人机采取第m个动作飞达下一节点的横坐标和纵坐标；x_n和y_n分别为第n架无人机当前时刻所在节点的横坐标和纵坐标；v为无人机的飞行速度；Δt为固定的时间间隔；α_nm为第n架无人机采取第m个动作飞达下一节点相对于该无人机当前节点的位置偏转角；v_nm为第n架无人机采取第m个动作飞达下一节点处的飞行速度角度；v_n为该无人机在当前节点处的飞行速度角度；θ_nm为第n架无人机采取第m个动作飞达下一节点速度变化的角度，n＝1，...，N，m＝1，...，M。

(3)步骤3具体包括如下子步骤：

(3a)建立N个全连接神经网络，每个全连接神经网络的输入层包含3×N个神经元，用于输入N架无人机的当前状态；每个全连接神经网络的输出层包含M个神经元，用于输出对应无人机的M个动作估值；且每个全连接神经网络还包含两个隐含层；

(3b)每个全连接神经网络的网络参数为w，b，其中，w表示神经网络的权重，b表示神经网络的偏差项，设定每个全连接神经网络的初始网络参数w，b分别服从参数为μ(0，0.1)，μ(0.05，0.01)的正态分布，且设定两个隐含层的激活函数为ReLU；

(3c)在第二个隐藏层之后设置随机失活率为0.5。

(4)步骤4具体为：

(4a)设在t时刻，某一无人机采取动作a_t飞往下一节点，则无人机群从状态s_t转移到s_t+1时，所获得的奖赏值记为r_t+1，则该无人机在无人机群状态为s_t时采取动作a_t的状态-动作Q值Q(s_t，a_t)为：

将所述无人机在无人机群状态为s_t时采取动作a_t的状态-动作Q值Q(s_t，a_t)作为该无人机在无人机群状态为s_t时采取动作a_t的目标值；a_t为M个动作中的任意一个动作；

式中，Q(s_t，a_t)表示某一无人机在无人机群状态为s_t时采取动作a_t的状态-动作Q值，Q(s_t+1，a)表示某一无人机在无人机群状态为s_t+1时采取动作a的状态-动作Q值，a∈A，A为某一无人机在t时刻采取的动作集合，r_t+1表示无人机群到达状态s_t+1时该无人机对应的全连接神经网络所得到的奖赏函数，γ为折扣因子，表示无人机远视的程度，γ∈[0，1)；

(4b)确定全连接神经网络的奖赏函数r＝B*(rate-0.85)；

其中，rate为无人机群的总覆盖率，B为奖赏系数；

无人机群的总覆盖率rate的确定过程为：将无人机群的监视区域均匀划分为二维网格，然后将被无人机的机载雷达监视到的网格标记为1，没被监视到的网格标记为0，其中，如果监视到的网格有重叠，则这个重叠网格一直标记为1；得到无人机群的监视区域内所有被标记为1的网格个数，将所有被标记为1的网格个数与二维网格的总个数的比值记为无人机群的总覆盖率rate；

(4c)建立N个Q目标神经网络，所述N个Q目标神经网络与N个全连接神经网络一一对应，初始时刻时，N个Q目标神经网络与N个全连接神经网络的网络结构及网络参数分别对应相同；其中，每个Q目标神经网络用于得到对应无人机的Q(s_t+1，a)值。

(5)步骤5具体包括如下子步骤：

(5a)设定无人机群的最大飞行步数max_step，将无人机群的初始状态作为起始点，无人机群从起始点开始飞行达到最大飞行步数max_step时作为一个飞行周期；

设定无人机群的初始状态

其中，

表示第n架无人机的初始状态行向量；

(5b)将所述无人机群的初始状态分别作为N个全连接神经网络的输入，得到每个全连接神经网络的输出，所述每个全连接神经网络的输出为该全连接神经网络对应的无人机在下一时刻的M个动作估值；

(5c)对于每个全连接神经网络，从其输出的M个动作估值中选择动作估值最大值对应的动作a_t更新该全连接神经网络对应的无人机的位置和速度，其中，所述动作a_t为无人机飞往下一时刻过程中的速度偏转角；从而得到该无人机采取动作a_t飞行到下一时刻后所述无人机群的总覆盖率，该全连接神经网络的奖赏函数值r_t+1以及该无人机采取动作a_t飞行到下一时刻后整个无人机群的状态s_t+1，从而得到“状态-动作-回报-新状态”序列[s_t，a_t，Q(s_t，a_t)，s_t+1]，将[s_t，a_t，Q(s_t，a_t)，s_t+1]作为一个训练样本向量；其中，s_t表示无人机群当前的状态，a_t为某一无人机选择的动作，s_t+1表示某一无人机选择动作a_t后该无人机状态的改变造成整个无人机群状态变化为s_t+1，Q(s_t，a_t)表示无人机群下一状态的Q值；

(5d)将无人机群的状态s_t+1作为该无人机对应的Q目标神经网络的输入，得到对应无人机的M个输出值，所述M个输出值作为对应无人机的M个Q(s_t+1，a)值，从而根据

得到Q(s_t，a_t)的值；

(5e)对于N个全连接神经网络，通过子步骤(5c)和(5d)，共得到N个训练样本向量，将N架无人机分别飞行到下一时刻后的状态组成无人机群的最新状态，并将所述无人机群的最新状态替换子步骤(5b)中无人机群的初始状态；

(5f)重复执行子步骤(5b)至(5e)，直到无人机群飞行两个飞行周期，从而得到2×N×max_step个训练样本向量，将所述2×N×max_step个训练样本向量存储在样本表中；

(5g)根据所述样本表中的训练样本向量训练每个全连接神经网络的网络参数，得到每个训练后的神经网络模型。

(6)子步骤(5g)具体包括如下子步骤：

(5f1)设定训练次数k，且k的初值为1，k＝1，...，K，K为设定的最大训练次数；

当无人机群的第三个飞行周期开始：

(5f2)从所述样本表中随机选取若干个训练样本向量，将若干个训练样本向量中的任意一个训练样本向量记为[s_t，a_t，Q(s_t，a_t)，s_t+1]，其中，s_t表示无人机群当前的状态，a_t为某一无人机选择的动作，s_t+1表示某一无人机选择动作a_t后该无人机状态的改变造成整个无人机群状态变化为s_t+1，Q(s_t，a_t)表示无人机群下一状态的Q值，将Q(s_t，a_t)作为全连接神经网络中对应动作a_t的目标值；

将所述训练样本向量[s_t，a_t，Q(s_t，a_t)，s_t+1]中的s_t归一化后作为第一架无人机对应的全连接神经网络的输入，经过所述第一架无人机对应的全连接神经网络的前向传播算法得到所述第一架无人机对应的全连接神经网络输出的M个动作估值，将M个动作估值中对应动作a_t的目标值设为Q(s_t，a_t)，其他M-1个动作的目标值为对应的神经网络输出值；

(5f3)从而确定所述第一架无人机对应的全连接神经网络的损失函数：

其中，i表示第i个动作，i＝1，...，M，J(w，b；x，y)为神经网络的损失函数，x对应神经网络输入层的输入，y对应神经网络输出层的输出，w，b为神经网络的网络参数，y_i为神经网络的目标值，h_w，b(x)为神经网络输出的动作估值；

通过神经网络的反向传播算法更新网络参数w，b的值，得到更新后的第一架无人机对应的全连接神经网络；

(5f4)采用所述若干个训练样本向量中的下一个训练样本向量继续对所述更新后的第一架无人机对应的全连接神经网络的网络参数进行训练，直到将所述若干个训练样本向量全部使用完；

(5f5)根据子步骤(5f2)至(5f4)，分别对第二架无人机对应的全连接神经网络的网络参数至第N架无人机对应的全连接神经网络的网络参数进行更新；

(5f6)采用当前N架无人机对应的全连接神经网络分别得到每架无人机下一步的飞行动作，并将每架无人机产生的“状态-动作-回报-新状态”序列作为新的训练样本向量添加到样本表中；

当采用当前N架无人机对应的全连接神经网络指导无人机群飞行p步之后，令k的值加1，并采用当前的样本表中的若干个训练样本向量再次对N架无人机对应的全连接神经网络的网络参数进行更新，直到达到最大训练次数K，得到最终训练好的N个全连接神经网络模型；

(5f7)采用最终训练好的N个全连接神经网络模型对N架无人机进行航路规划。

(7)对N架无人机对应的全连接神经网络的网络参数进行更新之后，还要对N个Q目标神经网络的网络参数进行更新，具体为：每个Q目标神经网络的网络参数为其对应的全连接神经网络延迟设定步数的网络参数。

本发明在角度上使用DQN进行无人机群航路规划，达到了无人机群实时覆盖面积最优的目的。通过将航路规划问题与DQN有效结合，能够解决多无人机协同监视目标区域的问题，即不规定航迹的起点与终点，且要求无人机群以该航路飞行时实现对指定区域的持续监视覆盖范围最大的航迹规划问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于DQN的多无人机协同区域监视的航路规划方法的流程示意图；

图2是确定下一时刻无人机可行位置的示意图；

图3是无人机可采取的动作图；

图4是某一时刻6架无人机对目标区域的覆盖图，其中“*”表示无人机所处位置，一个圆形区域表示单架无人机覆盖区域，所有圆形区域的并集表示无人机群此时覆盖面积；

图5是采用本发明方法进行无人机群航路规划所得到的最终航迹路线图；虚线框表示无人机群监视区域，每条曲线表示每架无人机的规划航迹；

图6是使用本发明方法进行无人机群航迹规划所得到的覆盖率曲线，其中，横坐标为飞行步数，纵坐标为覆盖率。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，为本发明的一种基于DQN的多无人机协同区域监视的航路规划方法流程图，其中包括以下步骤：

步骤1，设置航路规划问题的仿真参数。设定无人机群的监视目标区域；设定一系列无人机运动参数；所述无人预警机群包含N架无人机，每架无人机上设置一个机载雷达，每架无人机假设在同一高度匀速飞行，并根据机载雷达距离方程设定无人机的监视半径R_max。

步骤1可分为如下子步骤：

1.1设定无人机群的目标监视区域，即无人机群机载分布式雷达***待覆盖区域。无人机的飞行任务就是对该指定任务监视区域实现实时最大化监视覆盖，使无人机的机载雷达能够可持续不间断地监视整个指定任务区域。

1.2设定无人机的具体运动参数，无人机运动参数是指无人机在空中飞行时的状态参数，通过状态参数可以确定无人机的运动，与本次航路规划有关的无人机运动参数有：无人机平均飞行速度为v_p，用于表示无人机在一定时间间隔Δt内的飞行速度平均值，假设飞行过程中无人机在航路规划时间间隔Δt内的飞行速度平均值v_p始终保持不变；无人机的偏航角，表示无人机飞行速度与坐标系x轴正方向的夹角；无人机的横滚角，表示无人机机身转弯倾斜角；无人机的转弯角以及无人机的转弯半径。并在无人机上装备一个机载雷达，该雷达既是发射机也是接收机。

1.3设定无人机机载雷达***参数，无人机群航迹规划的最终目的是实时最大化覆盖监视区域，故需要确定机载雷达***作用范围。这里将探测区域简化为一个圆，设雷达***的最大作用距离为R_max，根据雷达方程可以计算雷达最大作用距离：

上式中，P_t表示雷达***峰值功率，G表示天线增益，λ表示电磁波波长，σ表示目标散射截面积，k表示波尔兹曼常数，T₀表示标准室温，B表示接收机带宽，F表示噪声系数，L表示雷达自身损耗，(S/N)_omin表示最小可检测门限。

步骤2，航路规划问题的数学建模。首先，根据无人机在空中飞行时的转弯约束确定每架无人机的最大速度偏转角，即最大转弯角θ_max。每架无人机产生的转弯角要小于最大转弯角，此时的航路才视为可行。根据无人机飞行时的最大转弯角来确定无人机下一时刻的可行位置。

步骤2可分为如下子步骤：

2.1根据无人机在空中飞行时的转弯约束确定每架无人机的最大转弯角θ_max。无人机转弯时依靠副翼进行差动，使得机身倾斜，利用升力的向心分力进行转弯。对无人机进行受力分析：

Lcosγ＝mg

mV_p ²/R＝Lsinγ

上式中L表示升力，γ表示横滚角，即机身转弯倾斜角，m表示无人机机身自重，R表示转弯半径，V_p表示无人机巡航速度，g表示重力加速度，则有：

R＝V_p ²/(g·tanγ)

tanγ在一些文献中成为过载。显然过载越大，转弯半径越小，无人机转弯所受约束越小。然而，无人机过载存在上限，过载最大时，横滚角达到最大，此时可得到最小转弯半径R_min。通过几何关系，由最小转弯半径R_min、无人机飞行速度V_p和飞行时间间隔Δt就可以得到最大转弯角θ_max。最大转弯角θ_max指相邻两个时刻由于无人机速度方向变化产生的最大夹角。无人机的转弯角θ不得大于该无人机的最大转弯角θ_max，即θ≤θ_max；本发明实施例中无人机的滚转角γ＝30°。

2.2确定下一时刻可行位置。当无人机速度偏转角θ未超出最大速度偏转角θ_max时，则产生的航迹可行。当无人机匀速飞行时，根据无人机的速度偏转角不同，可以确定一条不光滑弧线，这条弧线上的每个点都可以认为是可行航迹。为简化处理，可将这条弧线近似为一个圆弧处理。这种近似是合理的，因为无人机沿圆弧飞行飞过的距离和沿弦长飞行飞过的距离近似相等。因此，将下一时刻无人机的航迹位置所组成的不光滑弧线近似为以当前时刻无人机的位置信息为圆心、以无人机的速度V_p飞行Δt时间的飞行距离d为半径的光滑弧线，将所述光滑弧线作为下一时刻无人机在可飞区域内的航迹位置可飞行域，因此无人机飞行Δt时间后能到达的所有位置均位于光滑圆弧上。

如果认为无人机匀速圆周转弯，根据简单的几何知识，可以得到相邻时刻位置产生的位置偏转角

是速度偏转角θ的一半，即

步骤3，确定无人机的状态与动作。在强化学习中，每个状态的改变需要通过智能体采取相应的动作，在无人机航路规划中，也同样需要确定无人机飞行到下一个状态时要采取的动作。以无人机群当前所处位置的坐标(x，y)和飞行速度方向作为当前状态，在下一时刻可行位置上均匀取点作为无人机可采取的动作。

步骤3可分为如下子步骤：

3.1确定无人机群的状态。每架无人机在航路规划中的每一个状态都包含三个元素：无人机的位置坐标(x，y)，无人机飞行速度的方向，用

来表示。将这三个元素用一个行向量来表示：

所以无人机群的每个状态表示为

3.2确定每架无人机的动作。由步骤2可以确定每架无人机在下一时刻的可行位置为一个光滑圆弧，如图2所示，在圆弧上平均取M个节点作为无人机可以采取的M个动作，如图3所示。因为无人机向左转弯与向右转弯时可以飞达的位置完全对称，所以M必须为奇数。

3.3无人机位置-速度更新公式。每架无人机通过采取相应的动作都会改变当前的状态，即位置坐标与飞行速度方向。无人机下一个状态的位置信息与速度方向信息与无人机之前起始点的状态有关，具体的计算公式为：

x_nm＝x_n+v·Δt·cos(α_nm+v_n)

y_nm＝y_n+v·Δt·sin(α_nm+v_n)

v_nm＝v_n+θ_nm

式中，x_nm和y_nm分别为第n个无人机采取第m个动作飞达下一节点的横坐标和纵坐标；x_n和y_n分别为第n个无人机之前的起始点的横坐标和纵坐标；v为无人机的飞行速度；Δt为固定的时间间隔；α_nm为第n个无人机采取第m个动作飞达下一节点相对于该无人机之前起始点的位置偏转角；v_nm为第n个无人机采取第m个动作飞达下一节点处的飞行速度角度；v_n为该无人机在之前起始点处的飞行速度角度；θ_nm为第n个无人机采取第m个动作飞达下一节点速度变化的角度。

步骤4，建立深度神经网络。在强化学习下，由于无人机群拥有高维的状态空间，因此无人机无法通过反复测试遍历到所有的情况，导致当无人机遇到新情况时无法选择正确的动作。因为深度强化学习有刻画高维状态的能力，所以采用深度神经网络估计强化学习的状态-动作估值函数，并且使用梯度下降法代替强化学习的迭代更新。

步骤4可分为如下子步骤：

4.1建立N个(N为无人机的个数)全连接神经网络，输入层为N架无人机的状态，已知每架无人机的当前状态包含3个元素，即

所以输入层包含3×N个神经元；输出层为每架无人机的动作估值，因为每架无人机都有M个动作，所以输出层包含M个神经元；每个神经网络都包含2个隐藏层，其中第一层为l₁层，第二层为l₂层，设定2个隐藏层都包含512个神经元。

4.2设定神经网络参数w，b分别服从于μ(0，0.1)，μ(0.05，0.01)的正态分布。l₁层和l₂层使用的激活函数为Rectified Linear Unit(ReLU)，ReLU是一种近似生物神经激活函数，其具体计算公式如下：

4.3为了防止过拟合，即训练出的神经网络在训练集上有很好的效果，而在验证集上的结果却表现的差强人意。本发明将Dropout加在了第二个隐藏层l₂之后，设置的Dropout率为0.5，即每次更新时会随机的将50％的参数设置为零。Dropout随机丢弃部分参数增强了网络的泛化能力，预防了过拟合的产生。

步骤5，确定神经网络的目标值。通过Q-learning算法得到当前状态的状态-动作函数Q(s，a)，作为步骤4中神经网络的目标值，通过监督学习训练神经网络。

步骤5可分为如下子步骤：

5.1Q-learning算法通常采用数值迭代计算来逼近最优值。设在t时刻，无人机选取动作a_t，环境从状态s_t转移到s_t+1时，所获得的奖赏为r_t+1，则在Q-learning过程中，可以通过优化迭代计算的Q(s，a)函数值来逼近最优值函数，基本更新规则如下：

式中，Q(s_t，a_t)表示无人机在状态为s_t时采取动作a_t的状态-动作Q值。Q(s_t+1，a)表示无人机在状态为s_t+1时采取动作a的状态-动作Q值。a∈A，A为动作集合。r_t+1表示无人机到达状态s_t+1所得到的奖励。γ∈[0，1)为折扣因子，表示无人机远视的程度。

将得到的Q(s_t，a_t)值作为步骤4中深度神经网络的目标值，可以解决强化学习中仅仅是通过对无人机下一时刻的及时回报来衡量策略的好坏，解决了无人机的短视问题。

5.2确定立即奖励，即上式中的r_t+1。本发明采用与无人机机载雷达监视覆盖率有关的函数表示立即奖励，设计如下：

r_t+1＝7*(rate-0.85)

式中，rate为无人机群在状态s_t+1的总覆盖率。可以理解为在状态s_t+1时无人机群总覆盖率大于85％时就奖励，小于85％时则惩罚。式中的常数7则是为了将奖励或惩罚放大，使得算法的收敛速度更快。

无人机群监视面积覆盖率即为每架无人机的监视面积的并集除以目标区域总的面积。将无人机简化成一个没有体积大小的质点，因此在航路规划算法中不必考虑无人机的半径，仿真试验中用圆点表示。各无人机机载雷达的监视范围可由步骤1中给出的雷达方程计算。

求解无人机群监视面积的具体过程如下：将目标区域均匀划分为二维网格，然后将被无人机的机载雷达监视到的网格标记为1，没被监视到的区域标记为0，其中如果监视区域有所重叠，则这个重叠区域最终也只会一直标记为1。最终计算无人机群此时的监视面积时，只需将目标区域内所有被标记为1的网格个数相加即可。需要注意的是，对于正在执行飞行任务的无人机，它的监视范围就是以此时无人机的位置信息为圆心，以该无人机的监视威力为半径的圆；其他无人机的监视范围是以其他无人机此刻所在位置为圆心，以其监视威力为半径的圆；如果有无人机的监视范围在目标区域以外，则以目标区域为边界，超出目标区域的面积不算作无人机的监视面积。

5.3为了拟合Q-learning函数，使用另一个神经网络，该神经网络与步骤4中建立的神经网络结构相同但是参数不同，是为了求得步骤5.1中Q(s_t+1，a)值。步骤4中的神经网络是为了预测产生样本，称为Q估计神经网络；本步骤5.3中使用的神经网络是为了产生Q(s_t+1，a)的目标值，称为Q目标神经网络。Q目标神经网络使用的参数为Q估计神经网络之前的参数，这样做的原因是为了打乱相关性。

设定Q目标神经网络的所有参数w，b相比较Q估计神经网络有一个延迟步数n，也就是说Q估计神经网络训练n次才将原网络的参数更新一次Q目标神经网络。

步骤6，基于DQN的多无人机航路规划。输入当前无人机群的状态，通过步骤4中建立深度神经网络来拟合标签，使得输出的值越大时，采取对应的动作下一步监视覆盖率就越高。使得无人机一直采取能够使得下一步监视覆盖率变大的动作飞行，直至任务结束。

步骤6可分为如下子步骤：

6.1如果已知当前无人机群的状态

通过每架无人机对应的神经网络就可以计算出该无人机的M个动作的估值，从M个动作估值中选择最大值对应的动作a_t[ ]通过步骤3.3中的位置-速度信息更新公式就可以确定无人机群下一时刻的状态s_t+1，根据下一时刻无人机群所处位置就可以求得此时无人机群的监视覆盖面积，然后通过步骤5.2可以求得立即奖励r_t+1值。

6.2将无人机群下一步的状态s_t+1作为每架无人机对应的Q目标神经网络的输入值，经过该神经网络前向传播算法计算得出步骤5.1中Q(s_t+1，a)值，选取其中的最大值再与上一步所得到的Q(s_t，a_t)相加，就可以得到Q-learning中的Q(s_t，a_t)。用此时得到的[s_t，a_t，Q(s_t，a_t)，s_t+1]作为Q估计神经网络的目标值。就可以估计无人机每个状态的未来奖励，解决强化学习的“短视”问题。

6.3建立记忆库，即memory表用于储存之前的经历，将无人机每次与环境交互时得到的“状态-动作-回报-新状态”序列放到memory表中，即得到这样一个向量[s_t，a_t，Q(s_t，a_t)，s_t+1]，其中，s_t表示无人机群当前的状态，a_t为该无人机选择的动作，s_t+1表示该无人机选择动作a_t后该无人机状态的改变造成整个无人机群状态变化为s_t+1，Q(s_t，a_t)表示无人机群下一状态所得到Q值。

6.4设定无人机的最大飞行步数max_step，从无人机起始点起飞开始算起一直飞行达到max_step时算一个飞行周期，每架无人机每飞行一步都产生1个样本[s_t，a_t，Q(s_t，a_t)，s_t+1]，逐行添加到memory表中。在前两次飞行周期中，先不训练Q估计神经网络，只为了得到一些样本。由于此时的Q估计神经网络还未经训练，得到的M个动作估值为随机产生的，此时选择的最大估值对应的动作相当于每架无人机在转弯约束条件下随机飞行的动作，经过前两次飞行周期，可以得到一些样本，保存到此时还被零初始化的memory表中，从第三次飞行周期开始，无人机每飞行3步训练一次神经网络。

6.5开始Q估计训练网络，随机从memory表中抽取一组样本，随机选取样本的原因是深度神经网络算法要求数据分布的独立性假设，如果数据之间有强相关性，直接从这些样本学习是低效的，同时计算出来的模型也会有偏向。

选取样本[s_t，a_t，Q(s_t，a_t)，s_t+1]中的s_t归一化后作为Q估计神经网络的输入，经过Q估计神经网络的前向传播算法计算得到M个动作的输出值，将样本[s_t，a_t，Q(s_t，a_t)，s_t+1]中对应动作a_t的神经网络的目标值赋值为Q(s_t，a_t)，其余动作的目标值仍为输出值。根据下式求得神经网络的损失函数：

式中w，b为Q估计神经网络的目标值，w，b为Q估计神经网络的输出值，w，b为Q估计神经网络的损失函数。然后通过神经网络的反向传播算法不断更新w，b值。

所以每次训练每架无人机对应的神经网络模型时，都是通过提供这样一堆训练样本：每个训练样本既包括输入特征，即无人机群当前的状态；也包括对应的输出(也称作标记)，即每架无人机的奖赏函数。这样就可以用这样的样本去训练每个神经网络模型，让模型既看到提出的每个问题(输入特征)，也看到对应问题的答案(标记)。当模型看到足够多的样本之后，它就能总结出其中的一些规律。然后，就可以预测那些它没看过的输入所对应的答案了。如此训练到最后，当我们输入无人机群当前时刻所处的位置以及飞行角度时，通过每架无人机对应的神经网络就可以得到该无人机采取M个动作后的输出值，选择最大的输出值对应的动作，无人机群的下一时刻的覆盖面积就最大，如此，从起始点一直不断飞行下去即可不断获得无人机的航路节点，将每次得到的目标节点位置信息按顺序进行排列，即可得到各架无人机的飞行航线。

本发明的效果可由以下仿真实验作进一步说明：

1.仿真条件：

仿真假设使用6架监视半径为70km的无人机监视一片200km×200km的矩形区域。各架无人机的起始坐标分别为(50，0)、(150，0)、(200，60)、(200，120)、(0，160)、(50，200)。各无人机的初始速度方向均为垂直边界指向任务区域内。其它参数如表1所示。

假定预测50步的无人机群航迹，使用DQN进行无人机群航迹规划，具体的算法参数如下表所示：

表1航路规划算法仿真参数表

2.仿真内容和结果分析

图4为某一时刻6架无人机对目标区域的覆盖图，由图可见，6架无人机的监视范围可以近似完全覆盖待监视区域

图5给出了采用本发明方法进行无人机群航路规划所得到的最终航迹路线图，虚线框表示无人机群的监视区域。由图可以得出，本算法得出的航迹点都是有效可行的。

图6给出了使用本发明方法进行无人机群航迹规划所得到的覆盖率曲线。由该图可以得出，本发明提出的基于深度强化学习的多无人机协同区域监视的航路规划方法可以实现无人机群对目标区域进行最大范围的持续监视。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于DQN的多无人机协同区域监视的航路规划方法，其特征在于，所述方法包括如下步骤：

步骤4，确定每个全连接神经网络的目标值；

步骤5，训练每个全连接神经网络的网络参数，得到每个训练后的神经网络模型，从而根据所述每个训练后的神经网络模型确定对应无人机的航路规划结果；

步骤5具体包括如下子步骤：

(5a)设定无人机群的最大飞行步数，将无人机群的初始状态作为起始点，无人机群从起始点开始飞行达到最大飞行步数时作为一个飞行周期；

设定无人机群的初始状态，其中，表示第架无人机的初始状态行向量；

(5b)将所述无人机群的初始状态分别作为个全连接神经网络的输入，得到每个全连接神经网络的输出，所述每个全连接神经网络的输出为该全连接神经网络对应的无人机在下一时刻的M个动作估值；

(5c)对于每个全连接神经网络，从其输出的M个动作估值中选择动作估值最大值对应的动作更新该全连接神经网络对应的无人机的位置和速度，其中，所述动作为无人机飞往下一时刻过程中的速度偏转角；从而得到该无人机采取动作飞行到下一时刻后所述无人机群的总覆盖率，该全连接神经网络的奖赏函数值以及该无人机采取动作飞行到下一时刻后整个无人机群的状态，从而得到“状态-动作-回报-新状态”序列，将作为一个训练样本向量；其中，表示无人机群当前的状态，为某一无人机选择的动作，表示某一无人机选择动作后该无人机状态的改变造成整个无人机群状态变化为，表示无人机群下一状态的状态-动作值；

(5d)将无人机群的状态作为该无人机对应的目标神经网络的输入，得到对应无人机的M个输出值，所述M个输出值作为对应无人机的M个值，从而根据得到的值；

(5e)对于个全连接神经网络，通过子步骤(5c)和(5d)，共得到个训练样本向量，将架无人机分别飞行到下一时刻后的状态组成无人机群的最新状态，并将所述无人机群的最新状态替换子步骤(5b)中无人机群的初始状态；

(5f)重复执行子步骤(5b)至(5e)，直到无人机群飞行两个飞行周期，从而得到个训练样本向量，将所述个训练样本向量存储在样本表中；

(5g)根据样本表中存储的训练样本向量训练每个全连接神经网络的网络参数，得到每个训练后的神经网络模型。

2.根据权利要求1所述的一种基于DQN的多无人机协同区域监视的航路规划方法，其特征在于，步骤1中设定每架无人机的监视半径R_max具体为：

每架无人机的监视半径R_max为机载雷达的最大作用距离：

其中，P_t表示机载雷达***峰值功率，G表示机载雷达天线增益，λ表示机载雷达电磁波波长，σ表示目标散射截面积，k表示波尔兹曼常数，T₀表示标准室温，B表示机载雷达接收机带宽，F表示机载雷达噪声系数，L表示机载雷达自身损耗，(S/N)_omin表示机载雷达的最小可检测门限，S为信号功率，N为噪声功率。

3.根据权利要求1所述的一种基于DQN的多无人机协同区域监视的航路规划方法，其特征在于，步骤2中确定每架无人机的位置和速度更新表达式，具体为：

(2a)确定无人机群的状态：

第n架无人机的状态包含当前时刻该无人机所在节点的位置坐标(x_n,y_n)和该无人机的飞行速度方向

采用行向量

表示第n架无人机的状态，则无人机群的状态表示为：

(2b)确定无人机群中每架无人机的动作：

(2c)确定第n架无人机的位置和速度更新公式：

x_nm＝x_n+v·△t·cos(α_nm+v_n)

y_nm＝y_n+v·△t·sin(α_nm+v_n)

v_nm＝v_n+θ_nm

其中，x_nm和y_nm分别为第n架无人机采取第m个动作飞达下一节点的横坐标和纵坐标；x_n和y_n分别为第n架无人机当前时刻所在节点的横坐标和纵坐标；v为无人机的飞行速度；△t为固定的时间间隔；α_nm为第n架无人机采取第m个动作飞达下一节点相对于该无人机当前节点的位置偏转角；v_nm为第n架无人机采取第m个动作飞达下一节点处的飞行速度角度；v_n为第n架无人机在当前节点处的飞行速度角度；θ_nm为第n架无人机采取第m个动作飞达下一节点速度变化的角度，n＝1,...,N，m＝1,...,M。

4.根据权利要求1所述的一种基于DQN的多无人机协同区域监视的航路规划方法，其特征在于，步骤3具体包括如下子步骤：

(3b)每个全连接神经网络的网络参数为w,b，其中，w表示每个全连接神经网络的权重，b表示每个全连接神经网络的偏差项，设定每个全连接神经网络的初始网络参数w,b分别服从参数为μ(0,0.1)，μ(0.05,0.01)的正态分布，且设定两个隐含层的激活函数为ReLU激活函数；

(3c)在第二个隐藏层之后设置随机失活率为0.5。

5.根据权利要求4所述的一种基于DQN的多无人机协同区域监视的航路规划方法，其特征在于，步骤4具体为：

(4a)设在t时刻，某一无人机采取动作a_t飞往下一节点，则无人机群从状态s_t转移到状态s_t+1时，所获得的奖赏值记为r_t+1，则该无人机在无人机群状态为s_t时采取动作a_t的状态-动作Q值Q(s_t,a_t)为：

将所述无人机在无人机群状态为s_t时采取动作a_t的状态-动作Q值Q(s_t,a_t)作为该无人机在无人机群状态为s_t时采取动作a_t的目标值；a_t为M个动作中的任意一个动作；

式中，Q(s_t,a_t)表示某一无人机在无人机群状态为s_t时采取动作a_t的状态-动作Q值，Q(s_t+1,a)表示某一无人机在无人机群状态为s_t+1时采取动作a的状态-动作Q值，a∈A，A为某一无人机在t时刻采取的动作集合，r_t+1表示无人机群到达状态s_t+1时该无人机对应的全连接神经网络所得到的奖赏函数，γ为折扣因子，表示无人机远视的程度，γ∈[0,1)；

(4b)确定全连接神经网络的奖赏函数r＝B*(rate-0.85)；

其中，rate为无人机群的总覆盖率，B为奖赏系数；

无人机群的总覆盖率rate的确定过程为：将无人机群的监视区域均匀划分为二维网格，然后将被无人机的机载雷达监视到的网格标记为1，没被监视到的网格标记为0，其中，如果监视到的网格有重叠，则这个重叠网格一直标记为1；进而得到无人机群的监视区域内所有被标记为1的网格个数，将所有被标记为1的网格个数与二维网格的总个数的比值记为无人机群的总覆盖率rate；

(4c)建立N个Q目标神经网络，所述N个Q目标神经网络与N个全连接神经网络一一对应，初始时刻时，N个Q目标神经网络与N个全连接神经网络的网络结构及网络参数分别对应相同；其中，每个Q目标神经网络用于得到对应无人机的Q(s_t+1,a)值。

6.根据权利要求1所述的一种基于DQN的多无人机协同区域监视的航路规划方法，其特征在于，子步骤(5g)具体包括如下子步骤：

(5f1)设定训练次数k，且k的初值为1，k＝1,...,K，K为设定的最大训练次数；

当无人机群的第三个飞行周期开始：

(5f2)从所述样本表中随机选取若干个训练样本向量，将若干个训练样本向量中的任意一个训练样本向量记为[s_t,a_t,Q(s_t,a_t),s_t+1]，其中，s_t表示无人机群当前的状态，a_t为某一无人机选择的动作，s_t+1表示某一无人机选择动作a_t后该无人机状态的改变造成整个无人机群状态变化，Q(s_t,a_t)表示无人机群下一状态的状态-动作Q值，将Q(s_t,a_t)作为全连接神经网络中对应动作a_t的目标值；

将所述训练样本向量[s_t,a_t,Q(s_t,a_t),s_t+1]中的s_t归一化后作为第一架无人机对应的全连接神经网络的输入，经过所述第一架无人机对应的全连接神经网络的前向传播算法得到所述第一架无人机对应的全连接神经网络输出的M个动作估值，将M个动作估值中对应动作a_t的目标值设为Q(s_t,a_t)，其他M-1个动作的目标值为对应的神经网络输出值；

其中，i表示第i个动作，i＝1,...,M，J(w,b；x,y)为神经网络的损失函数，x对应神经网络输入层的输入，y对应神经网络输出层的输出，w,b为神经网络的网络参数，y_i为神经网络第i个动作的目标值，h_w,b(x)为神经网络输出的动作估值；

通过神经网络的反向传播算法更新网络参数w,b的值，得到更新后的第一架无人机对应的全连接神经网络；

7.根据权利要求6所述的一种基于DQN的多无人机协同区域监视的航路规划方法，其特征在于，对N架无人机对应的全连接神经网络的网络参数进行更新之后，还要对N个Q目标神经网络的网络参数进行更新，具体为：每个Q目标神经网络的网络参数为其对应的全连接神经网络延迟设定步数的网络参数。