CN113342029B

CN113342029B - 基于无人机群的最大传感器数据采集路径规划方法及***

Info

Publication number: CN113342029B
Application number: CN202110411668.5A
Authority: CN
Inventors: 翟临博; 朱秀敏; 杨峰; 赵景梅
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2022-06-21
Anticipated expiration: 2041-04-16
Also published as: CN113342029A

Abstract

本发明属于无人机路径规划领域，提供了一种基于无人机群的最大传感器数据采集路径规划方法及***。该方法包括：获取地面环境信息，采用六边形区域搜索算法判断无人机群各自位置是否有相邻者，生成位置关系矩阵；根据位置关系矩阵和相邻无人机的个数，计算所有无人机的总覆盖区域面积；将局部观测数据和位置关系矩阵输入DQN网络进行训练，基于总覆盖区域面积和实时位置的改变，采用奖励函数调整无人机的路径，最终得到能采集到最大传感器数据的路径规划。

Description

基于无人机群的最大传感器数据采集路径规划方法及***

技术领域

本发明属于无人机路径规划领域，尤其涉及一种基于无人机群的最大传感器数据采集路径规划方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着智能物联网(IoT)的发展，数据存储、采集等问题已成为阻碍万物互联的瓶颈。而无人机由于其灵活性、低成本和易于部署而被广泛应用于公共和民用领域。它们可以用于天气监测、货物运输等，代替人类在危险和困难的环境中工作。然而无人机的飞行路径一直是相关研究的热点。遗传算法等已被应用于解决无人机的路径，但是适用于环境已知或者环境中的障碍已知的情况，对于动态变化、复杂的环境难以适用。随着人工智能的发展，深度强化学习算法被广泛应用于汽车自动驾驶、模式识别等领域。AlphaGo的成功更加促进了深度强化学习的应用。将深度学习与强化学习结合起来，直接从高维的感知输入中去学习最佳策略。这里我们将深度强化学习算法应用于无人机群在动态、未知的环境中进行自主路径规划。

无人机群应用于无线传感器网络的数据采集，可以有效缓解链路不稳定和传输效率低的问题，进而加快数据的采集和传输。但是，当多架无人机同时移动时，存在覆盖区域重叠的问题，这将导致多架无人机在同一区域采集数据，导致效率低下。因此，本发明研究不确定环境下的多无人机在线路径规划问题，以避免多无人机在地面覆盖区域内过度重叠，解决如何有效部署无人机群，实现整体区域中传感数据的最大化收集问题。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于无人机群的最大传感器数据采集路径规划方法及***，其以最大化传感器数据采集为目标，为无人机提供在线路径规划，避免多无人机在地面覆盖区域内过度重叠。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于无人机群的最大传感器数据采集路径规划方法。

基于无人机群的最大传感器数据采集路径规划方法，包括：

获取地面环境信息，采用六边形区域搜索算法判断无人机群各自位置是否有相邻者，生成位置关系矩阵；

根据位置关系矩阵和相邻无人机的个数，计算所有无人机的总覆盖区域面积；

将局部观测数据和位置关系矩阵输入DQN网络进行训练，基于总覆盖区域面积和实时位置的改变，采用奖励函数调整无人机的路径，最终得到能采集到最大传感器数据的路径规划。

本发明的第二个方面提供一种基于无人机群的最大传感器数据采集路径规划方法。

基于无人机群的最大传感器数据采集路径规划方法，包括分布在给定固定区域内收集周围地面环境信息的多个传感器、获取传感器采集信息的无人机群和接收无人机发送数据的地面基站；具体过程包括：

获取传感器采集的地面环境信息，采用六边形区域搜索算法判断无人机群各自位置是否有相邻者，生成位置关系矩阵；

地面基站获取局部观测数据和位置关系矩阵，将局部观测数据和位置关系矩阵输入DQN网络进行训练，基于总覆盖区域面积和无人机群实时位置的改变，采用奖励函数调整无人机的路径，最终得到能采集到最大传感器数据的路径规划。

本发明的第三个方面提供一种基于无人机群的最大传感器数据采集路径规划***。

基于无人机群的最大传感器数据采集路径规划***，包括：

矩阵生成模块，其被配置为：获取地面环境信息，采用六边形区域搜索算法判断无人机群各自位置是否有相邻者，生成位置关系矩阵；

总覆盖区域面积计算模块，其被配置为：根据位置关系矩阵和相邻无人机的个数，计算所有无人机的总覆盖区域面积；

路径规划模块，其被配置为：将局部观测数据和位置关系矩阵输入DQN网络进行训练，基于总覆盖区域面积和实时位置的改变，采用奖励函数调整无人机的路径，最终得到能采集到最大传感器数据的路径规划。

本发明的第四个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的基于无人机群的最大传感器数据采集路径规划方法中的步骤。

本发明的第五个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的基于无人机群的最大传感器数据采集路径规划方法中的步骤。

与现有技术相比，本发明的有益效果是：

采用DQN网络，在总覆盖范围内最大限度地实现无人机群采集数据的最大化，从而量化无人机的覆盖范围，解决了无人机群自主规划路径下最大化覆盖区域数据采集问题。

根据无人机所覆盖的六边形区域的特点和传感器的数据传输特性，包括数据更新速率和新鲜度，以及LOS和NLOS网络传输的路径损耗。提出了一种与DQN相结合的六边形区域搜索(HAS)算法，称为HAS-DQN，用于无人机路径规划。通过限制无人机群的总覆盖，HAS-DQN可以有效避免与无人机的碰撞问题。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例中基于无人机群的最大传感器数据采集路径规划方法的流程图；

图2是本发明实施例中HAS-DQN流程图；

图3是本发明实施例中DQN算法流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图3所示，Deep Q-Network(DQN)是深度强化学习中的主要算法之一。其算法思想是基于值迭代的算法，使用深度卷积网络来拟合一个表示状态-动作对的函数，以此解决状态和动作集较大，且动作连续的问题。由两个结构完全相同但参数不同的神经网络构成。其中一个深度神经网络用来评估当前状态-动作的值函数，另一个作为预测Q现实，通过损失函数训练网络参数。在训练过程中，智能体通过随机抽样的方式收集训练数据，打破数据之间的相关性。在训练过程中使用经验回放技术，以提高收敛性和稳定性能。DQN的大体流程为：智能体基于当前的状态输入执行动作，然后获得相应的奖励和一个新的状态，将原状态、执行的动作、获得的奖励、新的状态存储在记忆池中，不断重复填充记忆池。在训练的过程中，从记忆池中随机抽取数据利用损失函数，通过梯度下降法来训练网络的参数。每隔固定的步数，网络参数会被拷贝到另一个网络中。利用DQN算法的特性，实现无人机在动态的环境中实现自主路径规划，并使采集到的传感器数据最大化。

如图1所示，本实施例提供了一种基于无人机群的最大传感器数据采集路径规划方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和***，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

具体的，在实施过程中，本发明可以包括以下步骤：

步骤1：将整体区域离散化，划分为六边形离散区域。在六边形网格坐标系中，在偏移坐标中使用偏移偶数列。

步骤2：将无人机进行编号，初始化无人机群的位置和地面传感器采集到地面信息，更新缓存器。

步骤3：无人机在当前的位置通过无线传输与地面传感器进行连接获取局部观测数据。

步骤4：使用六边形区域搜索算法判断相邻的无人机的个数，选中编号最大和编号次大的无人机，根据

判断两个无人机是否相邻，若相邻，将标志位变1，否则，标志位变0。

步骤5：重复步骤4,直至所有的无人机判断结束，获得位置矩阵和相邻无人机的个数cnt并计算出所有无人机的覆盖区域面积。

步骤6：将局部观测数据和位置矩阵一起作为DQN算法网络的状态输入。

步骤7：无人机的移动方向根据六边形的特性设置为六个方向，对于每个无人机，根据当前的状态输入，并根据贪婪策略选择概率较大的动作并执行。

步骤8：通过

得到相应的回报，同时获得新的状态输入。

其中

表示正六边形面积的六分之一；

表示无人机覆盖区域面积的六分之一；cnt表示无人机群覆盖区域有重叠的无人机个数。通过无人机群覆盖区域总面积的限制，无人机不会完全分散开，也不会过度聚集。当无人机群的面积在合理的数值范围内，将会收到较大的奖励回报，否则表示无人机群过度聚集，会收到很小的奖励。通过不断地累积，无人机群将会学习出能采集到最大传感器数据地路径。

步骤9：将原状态输入、执行的动作、获得的回报、新的状态一起发送到地面基站并存储，DQN网络在地面基站被训练。

步骤10：从地面基站的存储器中随机抽取训练样本，通过损失函数

来训练网络参数。

步骤11：不断重复步骤3、4、5、6、7、8，直至训练完成，数据收敛。

其中，步骤1所述的整体区域离散化，具体可以描述为：

给定m×n矩形任务区域，将其划分为M×N个六边形网格，用集合表示为Z＝{(i,j)|i＝1,2,...,M,j＝1,2,...,N}，其中(i,j)表示位于第i行第j列的单元。若无人机位置为(x,y)，则对应到区域中的坐标为：

其中，步骤4所述的六边形区域搜索算法，具体可以描述为：

在每个时隙τ_p，K个无人机同时移动，在面积取值范围的限制下，避免无人机的相互碰撞。在这里我们选择第k个无人机，获得在区域中的对应位置，接着判断与第t个无人机是否相邻，根据

如果相邻,则标志L_t,k＝1，否则置0。依次选定次序的无人机与已知位置关系的无人机进行位置判断，不断更新标志位L_k,t。最后会获得位置关系矩阵L，通过累计所有为1的标志位的个数，通过个数计算出面积。

实施例二

本实施例提供了一种基于无人机群的最大传感器数据采集路径规划方法。

基于无人机群的最大传感器数据采集路径规划方法，包括分布在给定固定区域内收集周围地面环境信息的多个传感器、获取传感器采集信息的无人机群和接收无人机发送数据的地面基站，具体包括以下步骤：

具体的，本实施例可以概括为以下步骤：

步骤一：***初始化，包括传感器缓存器，无人机位置、缓存器，地面基站。

步骤二：利用六边形区域搜索算法(HAS)判断无人机群各自的位置是否有相邻者，生成位置关系矩阵，与在当前位置所采集到的数据一起存放到无人机上配载的缓存器中。HAS-DQN算法流程图如图2所示。

步骤三：在深度强化学习算法下，每个无人机根据当前观测到的数据各自选择概率较大的动作，并获得相应的奖励，在覆盖总区域的限制下，即避免碰撞的同时移动到新的位置。

步骤四：奖励函数设置为时变函数，表示所有无人机收集到的平均数据大小。无人机会通过不断获得更大的奖励而不断学习。无人机群将数据发送到地面基站，并从算法中的经验池随机抽样进行DQN网络的训练，最终得到能采集到最大传感器数据的路径。

其中，步骤一所述的***初始化包括地面传感器的数据生成，缓存器数据更新，在无人机覆盖范围内的传感器的数据采集被设为矩阵形式，矩阵的大小根据传感器的位置和无人机的覆盖半径而设。具体的，为了符合DQN输入模式，将无人机在地面的覆盖区域量化分割成N×N的矩阵形式，对在覆盖范围内的传感器位置进行量化，其产生数据作为矩阵的元素进行填充。N的大小根据无人机的覆盖半径、位置和传感器的位置设定。

其中，步骤二所述的当前无人机群的位置信息，每个无人机的四周是否有相邻者。并设置相邻标志位，填充位置矩阵的元素。

其中，步骤四中所述的奖励函数，如下：

s.t.M_sum(τ_p)＝g(P) (1)

M_sum(τ_p)∈[KS，Kπr²) (2)

p_k(τ_p+1)＝p_k(τ_p)+ν_k(τ_p) (4)

其中，M_sum(τ_p)表示无人机群在路径更新时隙τ_p时的总覆盖面积，P表示无人机的路径集。

表示正六边形面积的六分之一。B_k(τ_p)表示表示一个无人采集到的数据大小，v_k(τ_p)表示无人机的移动方向，

限制条件(1)表示，无人机群的总覆盖面积随着路径的改变而变化。限制条件(2)表示，覆盖区域的总面积限制在某一范围。限制条件(3)表示，无人机群采集到的平均数据大小。限制条件(4)表示，无人机群的路径更新。

其中，以最大化无人机群的数据采集为目标，根据深度强化学习算法的流程，无人机群的路径根据其奖励函数自行探索学习，所以奖励函数可以表述为：

其中

表示正六边形面积的六分之一；

其中，步骤二中所述的结合局部环境观测和无人机群的位置关系作为DQN网络的输入。对于无人机群的位置关系，提出六边形区域的搜索算法(HAS)进行判断。具体步骤如下：

步骤1：将给定的区域进行六边形离散化，初始化无人机群的初始位置。

步骤2：获取当前位置下的各无人机的局部观测，即数据矩阵。

步骤3：将无人机群进行编号，选出编号最大的无人机，并获得其具***置。

步骤4：选出剩下的无人机中标号最大的无人机及其位置，与步骤1选出的进行位置比较，根据中心距离判断两个无人机是否相邻，若相邻，将对应的标志位变1；若不相邻，对应的标志位变0，并记录个数。

步骤5：步骤2中判断过的无人机放入与步骤1选出的无人机放进同一个列表里，重复步骤2，将新选中的无人机依次判断与已知位置关系的无人机是否相邻，更新标志位并记录个数。直至获得无人机群的位置关系矩阵。

步骤6：将数据矩阵与位置关系矩阵一起作为DQN的输入，通过DQN网络移动到新的位置并获得相应的奖励。

步骤7：不断重复步骤2，3，4，5，6，直至DQN网络达到收敛，学习过程结束。

示例：

***由两层结构构成，包括地面传感器与无人机群、无人机群与地面基站。地面有L个传感器随机分布在给定的固定区域内收集周围地面环境信息。且将L个传感器用SR＝{sr_l|l＝1,2,...,L}表示，假设传感器之间的距离较远，互相没有重叠的地面覆盖范围。通过无线传输，K个无人机将会获得其覆盖区域内传感器的信息，用W＝{w_k|k＝1,2,...,K}表示无人机。面积m(k)量化每个无人机的覆盖区域。每个无人机会配有小型在线边缘服务器，进行数据的预处理，比如去掉原始数据的冗余。考虑到无人机有限的数据处理能力，无人机将处理后的数据发送给地面基站，地面基站作为服务器，会对无人机处理后的信息进行深一步的分析。假设地面基站可以完全覆盖特定区域，且各个无人机能随时与基站进行连接。

地面传感器sr_l产生的数据就表示周围的环境信息，数据将会被存储在缓存器b_l中。在时隙t中，其中

是***时间集合。传感器sr_l将产生B_l(t)位数据。设数据的大小B_l(t)服从参数为λ_l的泊松分布，且都是相互独立的。每个传感器上的缓存器在每个时隙t都会被更新。我们通过传感器产生的数据和缓存器内数据的更新来量化环境信息的改变。假设第l个传感器sr_l上的缓存器b_l的数据需求是ζ_l，λ_l代表传感器的数据产生，μ_l代表缓存器的数据更新。传感器产生B_l(t)位数据，直接存入缓存器后，缓存器内的数据量会被更新，如果该传感器被覆盖，通过式子

计算更新率，最后计算数据需求参数ζ_l＝μ_lλ_l。

将无人机w_k的位置记为(x_k,y_k,h_k),其中无人机的最佳高度h_k＝tan(θ′)r,θ′是最佳仰角。则无人机在地面的投影坐标变成二维(x_k,y_k)。并将坐标对应到六边形离散网格中的坐标。无人机的覆盖半径为r，假设在覆盖范围r内存在若干传感器，此时每个无人机会获得局部观测数据。路径在τ_p时隙内会被更新，高度不变，对应的在地面的二维坐标为p_k(τ_p)＝(x_k(τ_p),y_k(τ_p))，并通过六边形搜索算法得到无人机群的位置关系。每个无人机会将自己的局部观测数据和所有无人机的位置信息作为DQN的输入，来进行无人机群的路径规划。

获得对于路径的更新是在线方式，即经过时隙τ_p，其中

是无人机路径更新时隙集，且路径更新时隙应比***时隙要大。到下一时隙时路径会根据环境的状态的不同而改变。我们假设无人机的移动速度和步长均为常数，那么到下一时隙无人机在地面的投影位置变为：

p_k(τ_p+1)＝p_k(τ_p)+v_k(τ_p)

为了确保多个无人机覆盖的全面性，使重复覆盖的面积最小化，我们将无人机的运动方向设为六个方向，V是我们给无人机设置的有限离散集合：

每个无人机在每个时隙会同时移动，在移动过程中无人机的覆盖范围会出现重叠。即无人机的总面积会随着每个无人机的路径集P变化而变化，用函数g来表示路径与覆盖面积的关系：

N_sum(τ_p)＝g(P)

N_sum(τ_p)∈[KS，Kπr²)

其中S表示六边形面积。利用DQN算法来拟合函数g。

那么在时隙τ_p，所有无人机收集到的环境数据用B_avg(τ_p)来表示：

将DQN中的奖励函数设为时变奖励函数，每个无人机同时移动一步后，会获得相应的奖励。把环境数据作为智能体的奖励，每次的移动都会导致收集数据B_k(τ_p)的更新和总覆盖面积M_sum(τ_p)的改变，所以奖励函数设为：

通过不断地迭代，探索学习，最大化无人机群对地面分布式传感器的数据采集，即

实施例三

本实施例提供了基于无人机群的最大传感器数据采集路径规划***。

基于无人机群的最大传感器数据采集路径规划***，包括：

实施例四

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于无人机群的最大传感器数据采集路径规划方法中的步骤。

实施例五

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于无人机群的最大传感器数据采集路径规划方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于无人机群的最大传感器数据采集路径规划方法，其特征在于，包括：

将局部观测数据和位置关系矩阵输入DQN网络进行训练，基于总覆盖区域面积和实时位置的改变，采用奖励函数调整无人机的路径，最终得到能采集到最大传感器数据的路径规划；

所述采用六边形区域搜索算法判断无人机群各自位置是否有相邻者，生成位置关系矩阵，以及基于总覆盖区域面积和实时位置的改变，采用奖励函数调整无人机的路径的具体过程包括：

步骤1：将整体区域离散化，划分为六边形离散区域，在六边形网格坐标系中，在偏移坐标中使用偏移偶数列；

步骤2：将无人机进行编号，初始化无人机群的位置和地面传感器采集到地面信息，更新缓存器；

步骤3：无人机在当前的位置通过无线传输与地面传感器进行连接获取局部观测数据；

判断两个无人机是否相邻，若相邻，将标志位变1，否则，标志位变0；

步骤5：重复步骤4,直至所有的无人机判断结束，获得位置矩阵和相邻无人机的个数cnt并计算出所有无人机的覆盖区域面积；

步骤6：将局部观测数据和位置矩阵一起作为DQN算法网络的状态输入；

步骤7：无人机的移动方向根据六边形的特性设置为六个方向，对于每个无人机，根据当前的状态输入，并根据贪婪策略选择概率较大的动作并执行；

步骤8：通过所述奖励函数，得到相应的回报，同时获得新的状态输入；所述奖励函数为：

其中，

表示正六边形面积的六分之一；

表示无人机覆盖区域面积的六分之一；cnt表示无人机群覆盖区域有重叠的无人机个数；

步骤9：将原状态输入、执行的动作、获得的回报、新的状态一起发送到地面基站并存储，DQN网络在地面基站被训练；

来训练网络参数；

2.基于无人机群的最大传感器数据采集路径规划方法，包括分布在给定固定区域内收集周围地面环境信息的多个传感器、获取传感器采集信息的无人机群和接收无人机发送数据的地面基站，其特征在于，

地面基站获取局部观测数据和位置关系矩阵，将局部观测数据和位置关系矩阵输入DQN网络进行训练，基于总覆盖区域面积和无人机群实时位置的改变，采用奖励函数调整无人机的路径，最终得到能采集到最大传感器数据的路径规划；

步骤8：通过

得到相应的回报，同时获得新的状态输入；

其中，

表示正六边形面积的六分之一；

来训练网络参数；

3.根据权利要求2所述的基于无人机群的最大传感器数据采集路径规划方法，其特征在于，在获取传感器采集的地面环境信息之前，包括：初始化传感器缓存的数据、无人机缓存的数据以及地面基站存储的数据。

4.基于无人机群的最大传感器数据采集路径规划***，其特征在于，包括：

路径规划模块，其被配置为：将局部观测数据和位置关系矩阵输入DQN网络进行训练，基于总覆盖区域面积和实时位置的改变，采用奖励函数调整无人机的路径，最终得到能采集到最大传感器数据的路径规划；

步骤8：通过

得到相应的回报，同时获得新的状态输入；

其中，

表示正六边形面积的六分之一；

来训练网络参数；

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1所述的基于无人机群的最大传感器数据采集路径规划方法中的步骤。

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1所述的基于无人机群的最大传感器数据采集路径规划方法中的步骤。