CN117459953A

CN117459953A - 一种多无人机基站航迹规划方法、***、终端及存储介质

Info

Publication number: CN117459953A
Application number: CN202311777710.0A
Authority: CN
Inventors: 史瑶; 原含笑; 吕施媛
Original assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Current assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-01-26
Anticipated expiration: 2043-12-22
Also published as: CN117459953B

Abstract

本发明公开了一种多无人机基站航迹规划方法、***、终端及存储介质，其中，所述方法包括：实时获取目标用户终端的位置和无人机群的位置，构建用户终端节点和无人机节点；进一步生成无人机节点特征和用户终端节点特征；通过目标多层感知器网络生成无人机群中每个无人机的运动轨迹；根据每个无人机的运动轨迹获取每个无人机的第二位置，并采用有限比例公平调度算法给每个目标用户终端分配无人机子信道。本发明通过所述方法，解决了无人机构建基站过程中，目前的航迹规划方法都无法生成较好的飞行轨迹的问题。

Description

一种多无人机基站航迹规划方法、***、终端及存储介质

技术领域

本发明涉及无线通信领域，尤其涉及的是一种多无人机基站航迹规划方法、***、终端及存储介质。

背景技术

目前，无人机基站的协同轨迹规划可以为受灾地区构建低成本，广覆盖面，部署灵活的通信***，被视为一些急需搭建临时通信***场景的重要解决方案。

然而，目前在搭建无人机基站的过程中，传统的航迹规划算法如精准算法，凸优化算法，启发式算法等复杂度较高，需要较多先验知识，不能适应未知、复杂、动态的通信环境，而多智能体强化学***衡环境，从而无法生成较好的飞行轨迹。

因此，现有技术还有待改进和发展。

发明内容

本发明的主要目的在于提供一种多无人机基站航迹规划方法、***、终端及存储介质，旨在解决现有技术中无人机构建基站过程中，目前的航迹规划方法都无法生成较好的飞行轨迹的问题。

为了实现所述目的，本发明第一方面提供一种多无人机基站航迹规划方法，其中，所述一种多无人机基站航迹规划方法包括：

获取目标地区用户终端的移动轨迹数据集，根据所述移动轨迹数据集训练多层感知器网络、第一图注意力网络和第二图注意力网络，得到目标多层感知器网络、目标第一图注意力网络和目标第二图注意力网络；

实时获取所述无人机实时观测到的目标用户终端的位置和无人机群中每个无人机的第一位置，根据所述目标用户终端的位置构建用户终端节点，根据每个无人机的第一位置构建无人机节点；

根据所述无人机节点，通过所述目标第一图注意力网络生成无人机群中每个无人机的无人机节点特征，根据所述用户终端节点，通过所述目标第二图注意力网络生成所述目标地区中每个用户终端的用户终端节点特征；

根据所述无人机节点特征和所述用户终端节点特征，通过所述目标多层感知器网络生成无人机群中每个无人机的运动轨迹；

根据每个无人机的运动轨迹获取每个无人机的第二位置，根据所述目标用户终端的位置和所述第二位置，采用有限比例公平调度算法给每个目标用户终端分配无人机子信道。

可选的，所述获取目标地区用户终端的移动轨迹数据集，根据所述移动轨迹数据集训练多层感知器网络、第一图注意力网络和第二图注意力网络，得到目标多层感知器网络、目标第一图注意力网络和目标第二图注意力网络，具体包括：

获取所述目标地区中第一预设数量个所述用户终端的移动轨迹数据集和所述无人机群中每个无人机的第三位置，根据所述用户终端的移动轨迹数据集和所述第三位置生成样本数据，并将所述样本数据存储到数据库中；

从所述数据库中获取第二预设数量个样本数据，依次采用预设模型计算所述第二预设数量个样本数据中每个样本数据的Q总值，在每次获取到样本数据的Q总值后，根据Q总值计算时序差分损失函数，根据所述时序差分损失函数对所述多层感知器网络、所述第一图注意力网络和所述第二图注意力网络进行一次训练，并根据当前训练得到的多层感知器网络、第一图注意力网络和第二图注意力网络进行下一次训练；

重新多次获取用户终端的移动轨迹数据集和无人机群中每个无人机的位置，生成新的样本数据，并根据所述新的样本数据对所述多层感知器网络、所述第一图注意力网络和所述第二图注意力网络进行多次训练；

当对所述多层感知器网络、所述第一图注意力网络和所述第二图注意力网络的训练次数达到预设次数时，结束训练，并得到目标多层感知器网络、目标第一图注意力网络和目标第二图注意力网络。

可选的，所述获取所述目标地区中第一预设数量个所述用户终端的移动轨迹数据集和所述无人机群中每个无人机的第三位置，根据所述用户终端的移动轨迹数据集和所述第三位置生成样本数据，并将所述样本数据存储到数据库中的步骤包括：

获取所述目标地区中第一预设数量个所述用户终端的移动轨迹数据集和所述无人机群的第三位置；

对所述目标地区中第一预设数量个所述用户终端的移动轨迹数据集中的每个移动轨迹数据集和每个无人机群的第三位置，采用当前多层感知器网络、第一图注意力网络和第二图注意力网络迭代更新无人机的当前运动轨迹；

当迭代次数达到第三预设数量时，停止迭代，获取第一预设数量次迭代过程中无人机运动轨迹对应的全部动作和对应的状态以及奖励值；

根据第一预设数量的迭代过程中无人机运动轨迹对应的全部动作和对应的状态以及奖励值生成第一预设数量个样本数据，并将第一预设数量个样本数据存储到所述数据库中。

可选的，所述从所述数据库中获取第二预设数量个样本数据，依次采用预设模型计算所述第二预设数量个样本数据中每个样本数据的Q总值，在每次获取到样本数据的Q总值后，根据Q总值计算时序差分损失函数，根据所述时序差分损失函数对所述多层感知器网络、所述第一图注意力网络和所述第二图注意力网络进行一次训练，并根据当前训练得到的多层感知器网络、第一图注意力网络和第二图注意力网络进行下一次训练的步骤包括：

从所述数据库中获取第二预设数量个样本数据；

对从数据库中获取的样本数据依次采用所述预设模型计算Q总值，并根据所述Q总值计算时序差分损失函数，根据时序差分损失函数反向传播训练多层感知器网络、第一图注意力网络、第二图注意力网络和预设模型，当反向传播完成后，完成一次训练，其中，所述预设模型包括双工竞争架构，转移网络和混合网络；

根据训练后的多层感知器网络、第一图注意力网络、第二图注意力网络和预设模型进行下一次训练。

可选的，所述实时获取所述无人机实时观测到的目标用户终端的位置和无人机群中每个无人机的第一位置，根据所述目标用户终端的位置构建用户终端节点，根据每个无人机的第一位置构建无人机节点的步骤包括：

实时获取所述无人机实时观测到的目标用户终端的位置和无人机群中每个无人机的第一位置；

基于图生成网络，根据所述目标用户终端的位置构建用户终端节点，根据所述第一位置构建无人机节点。

可选的，所述根据所述无人机节点特征和所述用户终端节点特征，通过所述目标多层感知器网络生成无人机群中每个无人机的运动轨迹的步骤包括：

根据所述无人机节点特征和所述用户终端节点特征，通过所述目标多层感知器网络生成无人机群中无人机的Q值，根据贪婪算法以预设概率阈值选取Q值最大的动作，并将所述动作发送给对应无人机；

根据每个无人机的动作生成每个无人机的运动轨迹。

可选的，所述根据每个无人机的运动轨迹获取每个无人机的第二位置，根据所述目标用户终端的位置和所述第二位置，采用有限比例公平调度算法给每个目标用户终端分配无人机子信道的步骤包括：

获取目标用户终端的数据速率，根据目标用户终端的数据速率对目标用户终端进行排序；

对目标用户终端中的数据速率最小的用户终端，按照预设规则分配无人机子信道；

当分配完成后，将已分配的用户终端从排序中去除，重新选取排序中目标用户终端中的数据速率最小的用户终端，并为当前目标用户终端的数据速率最小的用户终端分配无人机子信道；

持续更新排序，直到排序中所有的用户终端都完成无人机子信道分配。

本发明第二方面提供一种多无人机基站航迹规划***，其中，所述一种多无人机基站航迹规划***包括：

训练模块，用于获取目标地区用户终端的移动轨迹数据集，根据所述移动轨迹数据集训练多层感知器网络、第一图注意力网络和第二图注意力网络，得到目标多层感知器网络、目标第一图注意力网络和目标第二图注意力网络；

节点构建模块，用于实时获取所述无人机实时观测到的目标用户终端的位置和无人机群中每个无人机的第一位置，根据所述目标用户终端的位置构建用户终端节点，根据每个无人机的第一位置构建无人机节点；

节点特征获取模块，用于根据所述无人机节点，通过所述目标第一图注意力网络生成无人机群中每个无人机的无人机节点特征，根据所述用户终端节点，通过所述目标第二图注意力网络生成所述目标地区中每个用户终端的用户终端节点特征；

轨迹生成模块，用于根据所述无人机节点特征和所述用户终端节点特征，通过所述目标多层感知器网络生成无人机群中每个无人机的运动轨迹；

信道分配模块，用于根据每个无人机的运动轨迹获取每个无人机的第二位置，根据所述目标用户终端的位置和所述第二位置，采用有限比例公平调度算法给每个目标用户终端分配无人机子信道。

本发明第三方面提供一种终端，所述终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的一种多无人机基站航迹规划程序，所述一种多无人机基站航迹规划程序被所述处理器执行时实现任意一项所述一种多无人机基站航迹规划方法的步骤。

本发明第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有一种多无人机基站航迹规划程序，所述一种多无人机基站航迹规划程序被处理器执行时实现任意一项所述一种多无人机基站航迹规划方法的步骤。

由上可见，本发明方案中，获取目标地区用户终端的移动轨迹数据集，根据所述移动轨迹数据集训练多层感知器网络、第一图注意力网络和第二图注意力网络，得到目标多层感知器网络、目标第一图注意力网络和目标第二图注意力网络；实时获取所述无人机实时观测到的目标用户终端的位置和无人机群中每个无人机的第一位置，根据所述目标用户终端的位置构建用户终端节点，根据每个无人机的第一位置构建无人机节点；根据所述无人机节点，通过所述目标第一图注意力网络生成无人机群中每个无人机的无人机节点特征，根据所述用户终端节点，通过所述目标第二图注意力网络生成所述目标地区中每个用户终端的用户终端节点特征；根据所述无人机节点特征和所述用户终端节点特征，通过所述目标多层感知器网络生成无人机群中每个无人机的运动轨迹；根据每个无人机的运动轨迹获取每个无人机的第二位置，根据所述目标用户终端的位置和所述第二位置，采用有限比例公平调度算法给每个目标用户终端分配无人机子信道。

与现有技术相比，针对目前无人机构建基站过程中，目前的航迹规划方法都无法生成较好的飞行轨迹的问题，本发明通过结合了显示通信与隐式协作的优势，既扩大了无人机之间的通信范围，又提高了信息的利用效率，增强了单个无人机对于环境的感知能力，又通过集中式训练分布式执行的方法，解决了环境的非平稳问题；并且本发明针对未知动态的地面环境，使用真实用户移动数据进行训练，使无人机基站的航迹规划可以生成更好的飞行轨迹，更适合实际应用场景的需求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种多无人机基站航迹规划方法的流程示意图；

图2是本发明实施例提供的多无人机基站航迹规划方法中网络训练框架示意图；

图3是本发明实施例提供的图模型生成架构图；

图4是本发明实施例提供的一种多无人机基站航迹规划***的组成模块示意图；

图5是本发明实施例提供的一种终端的内部结构原理框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本发明。在其他情况下，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其他情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于分类到”。类似的，短语“如果确定”或“如果分类到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦分类到[所描述的条件或事件]”或“响应于分类到[所描述条件或事件]”。

下面结合本发明实施例的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其他方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

目前，无人机基站的协同轨迹规划可以为受灾地区构建低成本，广覆盖面，部署灵活的通信***，被视为一些急需搭建临时通信***场景的重要解决方案。然而，目前在搭建无人机基站的过程中，传统的航迹规划算法如精准算法，凸优化算法，启发式算法等复杂度较高，需要较多先验知识，不能适应未知、复杂、动态的通信环境，而多智能体强化学***衡环境，从而无法生成较好的飞行轨迹。

为了解决所述多个问题中的至少一个问题，本发明方案提供一种多无人机基站航迹规划方法、***、终端及存储介质，具体的，获取目标地区用户终端的移动轨迹数据集，根据所述移动轨迹数据集训练多层感知器网络、第一图注意力网络和第二图注意力网络，得到目标多层感知器网络、目标第一图注意力网络和目标第二图注意力网络；实时获取所述无人机实时观测到的目标用户终端的位置和无人机群中每个无人机的第一位置，根据所述目标用户终端的位置构建用户终端节点，根据每个无人机的第一位置构建无人机节点；根据所述无人机节点，通过所述目标第一图注意力网络生成无人机群中每个无人机的无人机节点特征，根据所述用户终端节点，通过所述目标第二图注意力网络生成所述目标地区中每个用户终端的用户终端节点特征；根据所述无人机节点特征和所述用户终端节点特征，通过所述目标多层感知器网络生成无人机群中每个无人机的运动轨迹；根据每个无人机的运动轨迹获取每个无人机的第二位置，根据所述目标用户终端的位置和所述第二位置，采用有限比例公平调度算法给每个目标用户终端分配无人机子信道。

本发明通过结合了显示通信与隐式协作的优势，既扩大了无人机之间的通信范围，又提高了信息的利用效率，增强了单个无人机对于环境的感知能力，又通过集中式训练分布式执行的方法，解决了环境的非平稳问题；并且本发明针对未知动态的地面环境，使用真实用户移动数据进行训练，使无人机基站的航迹规划可以生成更好的飞行轨迹，更适合实际应用场景的需求。

示例性方法

如图1所示，本发明实施例提供一种多无人机基站航迹规划方法，具体地，所述一种多无人机基站航迹规划方法包括如下步骤：

步骤S100，获取目标地区用户终端的移动轨迹数据集，根据所述移动轨迹数据集训练多层感知器网络、第一图注意力网络和第二图注意力网络，得到目标多层感知器网络、目标第一图注意力网络和目标第二图注意力网络。

具体的，在本申请实施例中，在根据目标用户终端的位置对应规划无人机的运动轨迹时，要先对其中的多个网络进行训练。需要说明的是，用户终端的移动轨迹数据集包含用户终端一段时间内的GPS移动轨迹，在本申请的一种实施例中，所述目标地区用户终端的移动轨迹数据集可以来源于普渡大学数据集。多层感知器网络（MLP，MultilayerPerceptron）是一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上。第一图注意力网络包含有两层图注意力网络，而第二图注意力网络包含一层图注意力网络。

进一步的，所述获取目标地区用户终端的移动轨迹数据集，根据所述移动轨迹数据集训练多层感知器网络、第一图注意力网络和第二图注意力网络，得到目标多层感知器网络、目标第一图注意力网络和目标第二图注意力网络，具体包括：

具体的，如图2所示，在多无人机基站航迹规划方法的训练过程中，包含多个网络，并且其中的经验池即为数据库。

针对架固定高度飞行的无人机共同服务于/>个移动的地面用户，用于搭建灾后紧急通信***。其中，无人机集合为/>，用户终端集合表示为/>，其中，M和N分别表示无人机和用户的最大数量。针对用户终端的移动轨迹数据集，先进行预处理，其中预处理具体包括：对用户终端的移动轨迹数据集数据以20秒为间隔读取用户位置，滤除重复和超出地图边界的用户轨迹；为了保证用户信息的连续性，对用户数据进行三次样条插值，填补部分空白时段的用户位置。

具体的在针对无人机基站组成的可提供移动通信的***优化的目标是最大化用户终端的数据速率，该问题被表述为如下公式（1）：

；（1）

其中，表示无人机的资源分配关系，/>，/>表示在第/>时隙，第/>个无人机为第/>个用户提供服务；/>表示无人机轨迹集，定义为/>，其中表示第/>个无人机的二维位置。/>表示***时隙的集合，/>表示***总的时隙数量，表示一个时隙，/>是用户的总数量，而/>是用户/>在第/>时隙的数据速率，/>是***总数据速率；/>表示无人机可以服务的最大用户数量；/>表示地图的范围；/>表示无人机的速度，/>表示无人机的可选取的速度的集合；/>表示用户收到的最小数据速率。

并且，更进一步的，在本申请中，预先通过设计观察空间、状态空间、行动空间和奖励空间，将多无人机基站协作的航迹规划问题建模为部分可观察马尔可夫过程。其中，观察空间包括无人机自身的位置，通信范围内的无人机的位置和感知范围内用户的位置和数据速率；状态空间为历史观察空间的集合，包括前几个时刻无人机的位置，用户的位置和数据速率的合集；行动空间包括无人机的可选速度和方向，速度集合定义为m/s，方向集合定义为/>，总的行动空间维度为/>；奖励空间包括每个无人机的奖励函数，即/>，其中/>是奖励因子，而/>是惩罚因子，在本申请的一种实施例中，/>和/>分别设置为10和5；/>是表示在时隙/>无人机是否发生碰撞的二进制变量。

进一步的，所述获取所述目标地区中第一预设数量个所述用户终端的移动轨迹数据集和所述无人机群中每个无人机的第三位置，根据所述用户终端的移动轨迹数据集和所述第三位置生成样本数据，并将所述样本数据存储到数据库中的步骤包括：

具体的，先通过图生成网络将观察空间的数据构建为图模型，其中/>是节点集，/>是边集，则节点集被定义为/>，其中，/>表示无人机节点，其节点特征为无人机本身的位置，即第三位置，/>表示用户终端节点，其节点特征为用户的位置和上一时刻的数据速率，即用户终端的移动轨迹数据集。边集被定义为/>，如果其中一架无人机在另一架无人机的通信范围内，则两架无人机之间建立边/>；另外如果用户在无人机的感知范围内，则用户与无人机之间建立边/>。其图生成网络的模型如图3所示。

对于每个无人机节点，通过第一图注意力网络计算每个相邻无人机节点的权重，并聚合邻居无人机节点的特征，以扩大无人机之间的感知范围与通信效率，其中，具体过程为：计算无人机和相邻无人机/>之间的重要性权重，表示为/>，具体计算如公式（2）所示，其中LeakyReLU是一种激活函数，/>是线性变化的共享参数，/>是无人机/>的节点特征，/>是与其相邻的无人机/>的节点特征，/>是单层前向神经网络的共享权重参数，/>表示拼接操作。

；（2）

通过softmax函数对注意力权重做归一化操作，得到无人机和相邻无人机/>在第时隙的注意力权重归一化结果/>，具体计算如为公式（3），其中/>表示无人机/>的节点特征，/>表示无人机/>感知范围内除了无人机/>之外的其他无人机。

；（3）

聚合相邻的无人机特征到无人机；/>为激活函数，/>为聚合权重参数，则聚合后的无人机/>的节点特征表示为/>，计算如公式（4）所示，其中/>表示当前图神经网络的层数，表示第一图神经网络的总层数，此处设置为2。

；（4）

对于用户终端节点，通过第二图注意力网络聚合感知范围内用户节点的特征，其具体过程为公式（2）和公式（3）所示，由于第二图注意力网络只包含一层图注意力网络，因此对应的对于用户终端节点同样通过公式（2）和（3）处理后，用户终端节点由公式（4）输出，但此时在方式4中神经网络总层数设置为1。

通过MLP网络处理得到的无人机节点特征和用户终端节点特征，并计算单个无人机基站的Q值/>，其中/>是无人机基站/>的观察历史，/>是无人机/>的动作。而其中，无人机依据贪婪策略进行动作选择，根据贪婪算法以预设概率阈值选取Q值最大的动作，从预设的飞行方向和飞行速度中选择方向和速度，并飞行固定的时间，即得到当前运动轨迹。

无人机到达新的位置后，通过有限比例公平调度算法分配无人机的子信道给用户，并更新用户数据速率和子信道干扰情况，其中有限资源调度算法其具体步骤为：获取所有用户终端的数据速率，按照从小到大的顺序排序为，对于/>中的数据速率最小的用户/>，寻找用户周围的无人机，并将这些无人机按照距离从近到远的顺序排序为/>；判断/>中的无人机基站/>是否存在空闲子信道，并且判断与用户/>之间的水平距离/>是否超过无人机基站的覆盖范围；如果无人机/>与用户/>之间的水平距离/>未超过无人机基站的覆盖范围，则寻找/>中的其他无人机，而如果无人机/>与用户/>之间的水平距离/>超过无人机基站的覆盖范围，则排除无人机被占据的子信道，并计算每个空闲子信道受到的同频干扰，并将干扰值最小的子信道将分配给用户/>。之后剔除已分配了信道的用户终端，重复上述分配无人机信道的过程，直到/>中所有的用户都完成分配。

在当前时隙完成信道配后，无人机和用户终端收到当前动作的奖励值。同时，对无人机的当前运动轨迹重复迭代第三预设数量时，停止迭代，获取第一预设数量次迭代过程中无人机运动轨迹对应的全部动作和对应的状态以及奖励值。具体的，在本申请的一种实施方式中，第三预设数量为40次，则对应可以得到无人机在800秒内的轨迹和每一个时隙的资源分配，其中一个时隙的长度为20秒，并可以记录无人机在40个时隙中的得到的观察，状态，行动和奖励。

对应的，根据第一预设数量的迭代过程中无人机运动轨迹对应的全部动作和对应的状态以及奖励值生成第一预设数量个样本数据，并将第一预设数量个样本数据存储到所述数据库中。在本申请的一种实施方式中，设置第一预设数量为10000次，即将得到的样本数据存入回放数据库中，重复获取样本数据，直到得到第一预设数量个样本数据。

进一步的，所述从所述数据库中获取第二预设数量个样本数据，依次采用预设模型计算所述第二预设数量个样本数据中每个样本数据的Q总值，在每次获取到样本数据的Q总值后，根据Q总值计算时序差分损失函数，根据所述时序差分损失函数对所述多层感知器网络、所述第一图注意力网络和所述第二图注意力网络进行一次训练，并根据当前训练得到的多层感知器网络、第一图注意力网络和第二图注意力网络进行下一次训练的步骤包括：

从所述数据库中获取第二预设数量个样本数据；

从所述数据库中获取第二预设数量个样本数据，将采样后的第二预设数量个样本数据通过预设模型处理，其中预设模型包括双工竞争架构、转移网络和混合网络，通过预设模型计算联合Q函数，并通过计算TD-error（时序差分损失函数）更新网络参数。

具体的，从所述数据库中获取第二预设数量个样本数据，在双工竞争架构中将无人机的局部/>函数/>分解为局部价值函数/>与局部优势函数/>，其中局部价值函数和局部优势函数表现为如下公式（5）和公式（6）：

；（5）

；（6）

在转移网络中将局部值函数，优势函数与全局信息结合，获得基于全局观测信息的局部值函数/>，/>，其中/>表示无人机基站的联合观察历史，具体局部价值函数和局部优势函数可以表示为如下公式（7）和公式（8），其中/>是正的权重参数，b_i是偏置参数：

；（7）

；（8）

再通过混合网络获得联合价值函数和联合优势函数/>，其具体计算表示为如公式（9）和（10）：

；（9）

；（10）

其中，为了与贪婪行动策略保持一致，要求，而/>表示不同的无人机基站/>优势函数的分配，其值使用多头注意力机制来确定。

最后，则联合动作价值函数可以表示为如下公式（11）的形式：

；（11）

分别计算前一次训练和当前训练的值，计算TD error，即时序差分损失函数，具体计算为如公式（12）：

；（12）

其中，，/>是在联合观察历史/>下采取动作/>，然后联合观察历史转移到/>的奖励值，/>表示下一时刻无人机基站的联合观察历史，/>表示下一时刻无人机基站的动作，/>表示折扣因子，/>是前一次训练中所有的网络参数，/>是当前训练中所有的网络参数。根据损失函数反向传播所述更新参数，对所述多层感知器网络、第一图注意力网络、第二图注意力网络进行更新，同时更新预设模型中的/>、/>和/>。

当对所述多层感知器网络、所述第一图注意力网络和所述第二图注意力网络的训练次数达到预设次数时，结束训练，并得到目标多层感知器网络、目标第一图注意力网络和目标第二图注意力网络，其中在本申请的一种实施方式中，所述预设次数可以为200次。

通过以上训练过程，可以得到目标多层感知器网络、目标第一图注意力网络和目标第二图注意力网络。

步骤S200，实时获取所述无人机实时观测到的目标用户终端的位置和无人机群中每个无人机的第一位置，根据所述目标用户终端的位置构建用户终端节点，根据每个无人机的第一位置构建无人机节点。

进一步的，在训练得到目标多层感知器网络、目标第一图注意力网络和目标第二图注意力网络后，根据得到的网络可以对目标地区的目标用户终端的位置和无人机群中每个无人机的第一位置进行相应处理。

进一步的，所述实时获取所述无人机实时观测到的目标用户终端的位置和无人机群中每个无人机的第一位置，根据所述目标用户终端的位置构建用户终端节点，根据每个无人机的第一位置构建无人机节点的步骤包括：

具体的，获取目标地区的目标用户终端的位置和无人机群中每个无人机的第一位置，根据图生成网络生成用户终端节点和无人机节点，其中生成用户终端节点和无人机节点的方式与训练过程中生成和/>的方式相同。

步骤S300，根据所述无人机节点，通过所述目标第一图注意力网络生成无人机群中每个无人机的无人机节点特征，根据所述用户终端节点，通过所述目标第二图注意力网络生成所述目标地区中每个用户终端的用户终端节点特征。

具体的，目标第一图注意力网络和第二图注意力网络是经过多次训练得到的，因此其对应可以处理无人机节点和用户终端节点，并得到对应的无人机节点特征和用户终端节点特征。

步骤S400，根据所述无人机节点特征和所述用户终端节点特征，通过所述目标多层感知器网络生成无人机群中每个无人机的运动轨迹。

在训练过程中，采用多层感知器网络得到无人机群中每个无人机的运动轨迹，而在训练完成后，可以根据目标多层感知器网络生成无人机群中每个无人机的运动轨迹。

进一步的，所述根据所述无人机节点特征和所述用户终端节点特征，通过所述目标多层感知器网络生成无人机群中每个无人机的运动轨迹的步骤包括：

根据每个无人机的动作生成每个无人机的运动轨迹。

即在本申请实施例中，在得到目标多层感知器网络后，将无人机节点特征和用户终端节点特征输入到目标多层感知器网络中，从而生成无人机群中无人机的Q值，而由于在本申请实施例中，设置总的行动空间维度为，因此对应的每个无人机包括多个Q值，则根据贪婪算法以预设概率阈值选取Q值最大的动作，并将所述动作发送给对应无人机，无人机根据该Q值最大的动作对应的进行运动，并得到无人机的运动轨迹。其中，根据贪婪算法以预设概率阈值选取Q值最大的动作，具体的随机抽取一个动作的概率，并判断该动作对应的概率是否大于预设概率阈值，若大于则选取Q值最大的动作，若不大于则随机选取动作。

步骤S500，根据每个无人机的运动轨迹获取每个无人机的第二位置，根据所述目标用户终端的位置和所述第二位置，采用有限比例公平调度算法给每个目标用户终端分配无人机子信道。

当无人机运动完后，根据无人机的移动方向和速度可以对应的得到每个无人机的第二位置，通过获取每个无人机的位置以及目标用户终端的位置，可以对应的调整无人机分配给每个目标用户终端的信道。

进一步的，所述根据每个无人机的运动轨迹获取每个无人机的第二位置，根据所述目标用户终端的位置和所述第二位置，采用有限比例公平调度算法给每个目标用户终端分配无人机子信道的步骤包括：

具体的，得到所有用户的数据速率，按照从小到大的顺序排序为；对于/>中的数据速率最小的用户/>，寻找用户周围的无人机，并将这些无人机按照距离从近到远的顺序排序为/>；判断/>中的无人机基站/>是否存在空闲子信道，并且判断与用户/>之间的水平距离/>是否超过无人机基站的覆盖范围；如果无人机/>不满足c的条件，则寻找/>中的其他无人机；如果无人机/>满足c中的条件，则排除无人机被占据的子信道，并计算每个空闲子信道受到的同频干扰，并将干扰值最小的子信道将分配给用户/>。之后剔除已分配了信道的用户终端，重复上述分配无人机信道的过程，直到/>中所有的用户都完成分配。

在无人机移动到下一位置之后，重新实时获取所述无人机实时观测到的目标用户终端的位置和无人机群中每个无人机的第一位置，更新无人机节点特征和所述用户终端节点特征，并根据目标多层感知器网络重新生成每个无人机的轨迹，并重新进行信道分配。重复对无人机位置和用户的位置进行获取，并对应分配信道，直到服务时间结束。

本发明通过以上内容，可以解决紧急救援场景下的临时通信***的构建，设计了多无人机基站航迹规划模型，并且针对未知动态的地面环境，使用真实用户移动数据进行训练，使无人机基站的轨迹设计更适合实际应用场景的需求；同时本发明采用有限的比例公平算法，在无人机的覆盖范围内平衡了***速率需求和用户公平性指标，使搭建的通信网络更能满足地面用户需求；此外，本发明结合了无人机之间的显式通信与隐式协作的优势，使多架无人机基站更好地为动态用户服务。采用图注意力网络扩大无人机的局部观察，提高了无人机的环境感知能力和无人机间通信的信息利用率。

由上可见，与现有技术相比，针对目前无人机构建基站过程中，目前的航迹规划方法都无法生成较好的飞行轨迹的问题，本发明通过结合了显示通信与隐式协作的优势，既扩大了无人机之间的通信范围，又提高了信息的利用效率，增强了单个无人机对于环境的感知能力，又通过集中式训练分布式执行的方法，解决了环境的非平稳问题；并且本发明针对未知动态的地面环境，使用真实用户移动数据进行训练，使无人机基站的航迹规划可以生成更好的飞行轨迹，更适合实际应用场景的需求。

示例性设备

如图4中所示，对应于所述一种多无人机基站航迹规划方法，本发明实施例还提供一种多无人机基站航迹规划***，所述一种多无人机基站航迹规划***包括：

训练模块41，用于获取目标地区用户终端的移动轨迹数据集，根据所述移动轨迹数据集训练多层感知器网络、第一图注意力网络和第二图注意力网络，得到目标多层感知器网络、目标第一图注意力网络和目标第二图注意力网络；

节点构建模块42，用于实时获取所述无人机实时观测到的目标用户终端的位置和无人机群中每个无人机的第一位置，根据所述目标用户终端的位置构建用户终端节点，根据每个无人机的第一位置构建无人机节点；

节点特征获取模块43，用于根据所述无人机节点，通过所述目标第一图注意力网络生成无人机群中每个无人机的无人机节点特征，根据所述用户终端节点，通过所述目标第二图注意力网络生成所述目标地区中每个用户终端的用户终端节点特征；

轨迹生成模块44，用于根据所述无人机节点特征和所述用户终端节点特征，通过所述目标多层感知器网络生成无人机群中每个无人机的运动轨迹；

信道分配模块45，用于根据每个无人机的运动轨迹获取每个无人机的第二位置，根据所述目标用户终端的位置和所述第二位置，采用有限比例公平调度算法给每个目标用户终端分配无人机子信道。

需要说明的是，所述一种多无人机基站航迹规划***及其各个模块或单元的具体结构和实现方式可以参照所述方法实施例中的对应描述，在此不再赘述。

需要说明的是，所述一种多无人机基站航迹规划***的各个模块的划分方式并不唯一，在此也不作为具体限定。

基于所述实施例，本发明还提供了一种终端，其原理框图可以如图5所示。所述终端包括通过***总线连接的处理器10、存储器20、网络接口以及显示屏30。在一种实施例中，当处理器10执行所述存储器20中一种多无人机基站航迹规划程序40时，实现以下步骤：

从所述数据库中获取第二预设数量个样本数据；

根据每个无人机的动作生成每个无人机的运动轨迹。

其中，该终端的处理器用于提供计算和控制能力。该终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和一种多无人机基站航迹规划程序。该内存储器为非易失性存储介质中的操作***和一种多无人机基站航迹规划程序的运行提供环境。该终端的网络接口用于与外部的终端通过网络连接通信。该一种多无人机基站航迹规划程序被处理器执行时实现所述任意一种多无人机基站航迹规划方法的步骤。该终端的显示屏可以是液晶显示屏或者电子墨水显示屏。

本领域技术人员可以理解，图5中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种终端，所述终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的一种多无人机基站航迹规划程序，所述一种多无人机基站航迹规划程序被所述处理器执行时实现本发明实施例提供的任意一种多无人机基站航迹规划方法的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有一种多无人机基站航迹规划程序，所述一种多无人机基站航迹规划程序被处理器执行时实现本发明实施例提供的任意一种多无人机基站航迹规划方法的步骤。

应理解，所述实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以所述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将所述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，所述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。所述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在所述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的***/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的***/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以由另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现所述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现所述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不是相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种多无人机基站航迹规划方法，其特征在于，所述一种多无人机基站航迹规划方法包括：

2.根据权利要求1所述的多无人机基站航迹规划方法，其特征在于，所述获取目标地区用户终端的移动轨迹数据集，根据所述移动轨迹数据集训练多层感知器网络、第一图注意力网络和第二图注意力网络，得到目标多层感知器网络、目标第一图注意力网络和目标第二图注意力网络，具体包括：

3.根据权利要求2所述的多无人机基站航迹规划方法，其特征在于，所述获取所述目标地区中第一预设数量个所述用户终端的移动轨迹数据集和所述无人机群中每个无人机的第三位置，根据所述用户终端的移动轨迹数据集和所述第三位置生成样本数据，并将所述样本数据存储到数据库中的步骤包括：

4.根据权利要求2所述的多无人机基站航迹规划方法，其特征在于，所述从所述数据库中获取第二预设数量个样本数据，依次采用预设模型计算所述第二预设数量个样本数据中每个样本数据的Q总值，在每次获取到样本数据的Q总值后，根据Q总值计算时序差分损失函数，根据所述时序差分损失函数对所述多层感知器网络、所述第一图注意力网络和所述第二图注意力网络进行一次训练，并根据当前训练得到的多层感知器网络、第一图注意力网络和第二图注意力网络进行下一次训练的步骤包括：

从所述数据库中获取第二预设数量个样本数据；

5.根据权利要求1所述的多无人机基站航迹规划方法，其特征在于，所述实时获取所述无人机实时观测到的目标用户终端的位置和无人机群中每个无人机的第一位置，根据所述目标用户终端的位置构建用户终端节点，根据每个无人机的第一位置构建无人机节点的步骤包括：

6.根据权利要求1所述的多无人机基站航迹规划方法，其特征在于，所述根据所述无人机节点特征和所述用户终端节点特征，通过所述目标多层感知器网络生成无人机群中每个无人机的运动轨迹的步骤包括：

根据每个无人机的动作生成每个无人机的运动轨迹。

7.根据权利要求1所述的多无人机基站航迹规划方法，其特征在于，所述根据每个无人机的运动轨迹获取每个无人机的第二位置，根据所述目标用户终端的位置和所述第二位置，采用有限比例公平调度算法给每个目标用户终端分配无人机子信道的步骤包括：

8.一种多无人机基站航迹规划***，其特征在于，所述一种多无人机基站航迹规划***包括：

9.一种终端，其特征在于，所述终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的一种多无人机基站航迹规划程序，所述一种多无人机基站航迹规划程序被所述处理器执行时实现如权利要求1-7任意一项所述一种多无人机基站航迹规划方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有一种多无人机基站航迹规划程序，所述一种多无人机基站航迹规划程序被处理器执行时实现如权利要求1-7任意一项所述一种多无人机基站航迹规划方法的步骤。