CN112256056A

CN112256056A - 基于多智能体深度强化学习的无人机控制方法及***

Info

Publication number: CN112256056A
Application number: CN202011118496.4A
Authority: CN
Inventors: 陈武辉; 杨志华; 郑子彬
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-01-22
Anticipated expiration: 2040-10-19
Also published as: CN112256056B

Abstract

本发明提供了基于多智能体深度强化学习的无人机控制方法及***，其中方法包括：根据无人机群信息采集***的参数建立信息采集任务模型；其中，信息采集任务分为采集子任务和计算子任务；根据任务模型构建深度神经网络模型，利用结合注意力机制的多智能体深度强化学习算法训练深度神经网络模型；利用训练好的深度神经网络模型控制实际环境中的无人机群完成信息采集任务。本发明将每架无人机作为一个智能体，使用带有注意力单元的critic网络对actor网络的性能进行评估，能以更准确的评估值加快actor网络的训练速度；在执行信息采集任务时，每架无人机不需要与其他的智能体进行通信，从而减少了通信时延。

Description

基于多智能体深度强化学习的无人机控制方法及***

技术领域

本发明涉及无线通信技术领域，尤其是涉及基于多智能体深度强化学习的无人机控制方法及***。

背景技术

无人机(unmanned aerial vehicles,UAV)是一种由操作员通过无线电遥控设备进行远程操控或者是由计算机程序自动控制的不载人飞机。无人机的应用大部分为信息采集任务，现有技术中对多无人机***数据采集任务的操控指令主要由两种方法进行求解，分别是启发式的方法和基于机器学习的方法。

其中，启发式的算法需要在接收到任务后需要经过多轮次的计算才能得到最信息采集和计算迁移方案，产生了较大的时延，不利于一些紧急的任务；单智能体的深度强化学习算法在接收到任务后需要通过通信的方式获取所有无人机的状态，产生了一定的时延，同时随着无人机数量增多，单一的深度神经网络达到收敛所需的训练次数也会大幅增加，且得到的策略也难以实现较优的能耗和时耗。

因此，无人机***在面临各种复杂的任务和环境时，难以在较短的时延内做出合适的策略。

发明内容

本发明的目的是提供一种基于多智能体深度强化学习的无人机控制方法及***，以解决无人机***在面临各种复杂的任务和环境时，难以在较短的时延内做出合适策略的技术问题。

本发明的目的，可以通过如下技术方案实现：

基于多智能体深度强化学习的无人机控制方法，包括：

根据无人机群信息采集***的参数建立信息采集任务模型；其中，所述信息采集任务分为采集子任务和计算子任务；

根据所述任务模型构建深度神经网络模型，利用结合注意力机制的多智能体深度强化学习算法训练所述深度神经网络模型；其中，所述智能体为无人机；

利用训练好的所述深度神经网络模型控制实际环境中的无人机群完成信息采集任务。

可选地，根据所述任务模型构建深度神经网络模型之前还包括：

将无人机群信息采集***的参数转化为***的状态空间和智能体的动作空间，并设置即时奖励函数。

可选地，所述深度神经网络模型具体包括：所述深度神经网络模型包括actor网络和critic网络，所述actor网络包含估值actor网络和目标actor网络，所述critic网络包含估值critic网络和目标critic网络，所述critic网络在三层全连接层上嵌入了注意力单元。

可选地，还包括：在训练actor网络时，使用带有注意力单元的critic网络对actor网络的性能进行评估，其具体过程为：

首先，无人机群中无人机的数量为N，将无人机i(1≤i≤N)的观察值o_i和动作值a_i输入单层的全连接层中得到每架无人机的状态动作特征值g(o_i,a_i)，将所有无人机的状态动作特征值输入到注意力单元中；

注意力单元根据无人机i特征值与其余无人机j(j≠i)特征值计算无人机j的注意力权重α_j：

其中，

和W_q为可学习的注意力参数矩阵；

根据注意力权重和其余无人机特征值通过加权和的方式计算其余无人机对无人机i的影响值e_i

将无人机i的状态动作特征值g(o_i,a_i)和影响值e_i输入到双层全连接层网络中得到该无人机的动作状态价值Q_i。

可选地，利用结合注意力机制的多智能体深度强化学习算法训练所述深度神经网络模型具体包括：

S201：随机初始化***状态和神经网络参数；

S202：根据所述***状态和无人机的观察范围获取每架无人机当前时隙的观察值X＝[o₁,o₂,…,o_M]；其中，M为无人机群中无人机的数量；

S203：将每架无人机的观察值o_i输入到对应的actor网络中，得到各无人机对应的动作值a_i；其中，1≤i≤M；

S204：根据***状态和当前时隙所有无人机的动作值A＝[a₀,a₁,…,a_M]得到所有无人机的奖励R＝[r₀,r₁,…,r_M]、***下一个时隙状态S′和观察值X′＝[o₁′,o₂′,…,o′_M]，将经验样本(X,A,R,X′)存放到智能体的经验池中；

S205：重复S202-S204直至经验池样本数量达到设定阈值，从所述经验池中抽取一定数量的经验样本对神经网络参数进行更新，直至actor网络的策略函数收敛。

可选地，利用训练好的所述深度神经网络模型控制实际环境中的无人机群完成信息采集任务具体包括：

将实际环境下无人机***的状态和每架无人机的观察值进行参数化；

将无人机参数化后的观察值输入到训练好的actor网络中得到无人机的动作值；

将所述动作值转换为采集指令和计算指令，无人机根据所述采集指令和计算指令进行信息采集和计算迁移。

本发明还提供了基于多智能体深度强化学习的无人机控制***，包括：

任务模型建立模块，用于根据无人机群信息采集***的参数建立信息采集任务模型；其中，所述信息采集任务分为采集子任务和计算子任务；

深度神经网络构建与训练模型，用于根据所述任务模型构建深度神经网络模型，利用结合注意力机制的多智能体深度强化学习算法训练所述深度神经网络模型；其中，所述智能体为无人机；

信息采集任务执行模块，用于利用训练好的所述深度神经网络模型控制实际环境中的无人机群完成信息采集任务。

可选地，还包括：

***参数转换模块，用于将无人机群信息采集***的参数转化为***的状态空间和智能体的动作空间，并设置即时奖励函数。

本发明还提供了一种计算机可读存储介质，用于保存计算机程序；其中，所述计算机程序被处理器执行时实现所述的基于多智能体深度强化学习的无人机控制方法。

本发明还提供了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现所述的基于多智能体深度强化学习的无人机控制方法。

本发明提供了基于多智能体深度强化学习的无人机控制方法及***，其中，方法包括：根据无人机群信息采集***的参数建立信息采集任务模型；其中，所述信息采集任务分为采集子任务和计算子任务；根据所述任务模型构建深度神经网络模型，利用结合注意力机制的多智能体深度强化学习算法训练所述深度神经网络模型；其中，所述智能体为无人机；利用训练好的所述深度神经网络模型控制实际环境中的无人机群完成信息采集任务。

本发明中将每架无人机视为一个智能体，多智能体深度强化学习仅需要通过每个智能体自身与环境进行交互获取奖励值，从而不断学习改善自己的策略，且在智能体做出决策时不需要通过通信获得***全局的状态信息，因此避免了通信的时延。本发明在训练actor网络时，使用带有注意力单元的critic网络对actor网络的性能进行评估，使得评估时能够更好的关注相似度更高的其他智能体对自身的影响，从而得到更准确的评估值来指导actor网络的训练，加快了actor网络的训练速度。在执行信息采集任务时，每架无人机仅需要将自身的观察值直接输入到已训练好的actor网络中便可得到该任务周期的操控指令，避免了单智能体深度强化学习算法在制定操控指令前需要通过通信来收集所有无人机的状态和观察值，从而降低反应时延。

附图说明

图1为本发明基于多智能体深度强化学习的无人机控制方法及***的神经网络训练的框架示意图；

图2本发明基于多智能体深度强化学习的无人机控制方法及***的方法流程图；

图3本发明基于多智能体深度强化学习的无人机控制方法及***的一个实施例方法流程图。

具体实施方式

术语解释：

计算迁移(Computation offloading):计算卸载是将资源密集型计算任务转移到单独的处理器(如硬件加速器)或外部平台(如云服务器、边缘服务器)上。卸载到协处理器可以用来加速应用程序，包括图像渲染和数学计算。通过网络将计算卸载到外部平台可以提供计算能力并克服设备的硬件限制，例如有限的计算能力、存储和能量。

多智能体深度强化学习(Multi-agent deep reinforcement learning)：在多智能体***中，每个智能体通过与环境进行交互获取奖励值(reward)来学习改善自己的策略，从而获得该环境下最优策略的过程。

注意机制(Attention mechanism)：深度学习中的注意力机制从本质上讲和人类的选择性机制类似，核心目标也是从众多信息中选择出对当前任务目标更关键的信息。目前注意力机制已经被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中，是深度学习技术中最值得关注与深入了解的核心技术之一。

本发明实施例提供了一种基于多智能体深度强化学习的无人机控制方法及***，以解决无人机***在面临各种复杂的任务和环境时，难以在较短的时延内做出合适策略的技术问题。

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

无人机诞生之初主要应用于军事领域，用于替代普通的载人飞机执行“乏味”或“危险”的任务，例如情报侦察和弹药投放等。近年来随着无人机制造技术的提高以及各种功能的无人机问世，无人机应用范围已扩展到多个民用领域，例如地形勘探、交通路况监测、景点航拍和自然灾害观测等。且由于应用的复杂性日渐上升，无人机群协作逐步替代单架无人机以提高***的效率。对于单架无人机而言，最常见的操控方式是进行人工远程操控，但对于多无人机***来说，为每架无人机配置一名操控员进行操控将耗费大量的人力，因此业界往往使用计算机程序进行自动操控。例如在无人机群的飞行表演中，每架无人机飞行都由预设的程序进行控制。但对于复杂多变的环境下，预设的程序往往不能够根据具体情况对无人机下达合适的指令。因此需要一个能够根据不同的具体环境情况，作出不同的飞行操控指令的方法。

无人机的应用大部分可视为信息采集任务，利用无人机配备的高清摄像头、红外线传感器等装置，采集地表的信息数据。同时，用户所需数据结果往往不只是照片等原始的采集数据，而是对采集后的原始数据经过一定计算后的结果。例如对于地形勘探中，用户需要的结果往往是根据采集的数据绘制的3D地形图；而对于交通路况监测，用户需要的结果往往是根据拍摄图片计算得到的车流量等路况数据。因此无人机的信息采集任务可分为采集子任务和计算子任务。随着芯片技术的发展，无人机上搭载的芯片已能够完成一定计算的任务，但由于电量和时间等限制，无人机难以独立完成所有的计算任务。为了解决这样的问题，可以将无人机的部分计算任务进行计算迁移，也就是将无人机的部分计算任务上传到云服务器或边缘服务器，借助计算能力更强的云服务器和边缘服务器来快速完成计算任务。在进行计算迁移时，无人机***需要对消耗的服务器资源进行付费，因此无人机信息采集***的操控程序除了需要作出飞行的操控指令外，还需要根据时间和费用的权衡，作出计算迁移操控指令。

从无人机***的角度来看，它的目标是最小化***的能耗和任务的处理时间。因此无人机***需要根据现实的任务状态和环境状态(例如服务器的状态等)调整自己操控指令，从而达到最优的能耗和任务完成时间，这样的问题可以视为一个联合优化问题。现有的研究中对多无人机***数据采集任务的操控指令主要由两种方法进行求解，分别是启发式的方法和基于机器学习的方法。启发式的算法是先将多无人机信息采集任务建模为NP-hard的联合优化问题，然后利用遗传算法、粒子群算法和模拟退火等算法将随机生成的多种组合解中经过多轮次计算后得到最优信息采集策略。这类传统启发式算法需要在接收到任务后需要经过多轮次的计算才能得到无人机信息采集和计算迁移操控指令，产生了较大的时延，不利于一些紧急任务的执行；深度强化学习作为机器学习方法的一种，可通过训练深度神经网络来作为策略函数，将每个时隙的***状态输入到神经网络中，输出无人机的具体动作，从而来帮助无人机***作出合适的飞行和计算迁移决策。但目前的研究采用的都是基于单智能体的深度强化学习方法，将整个***视为一个智能体，根据中心化的策略网络统一为***中所有的无人机制定飞行和计算迁移策略。这需要无人机***在每个时隙集中收集所有无人机状态，导致一定的通信时延。并且随着无人机数量的增多和环境越复杂，单智能体深度强化学习难以获得最优的策略或者出现神经网络不收敛的问题。针对这样的问题，多智能体深度强化学习仅需要通过每个智能体自身与环境进行交互获取奖励值，从而不断学习改善自己的策略，且在智能体做出决策时不需要通过通信获得***全局的状态信息，因此避免了通信的时延。

请参阅图1-图3，以下为本发明提供了基于多智能体深度强化学习的无人机控制方法包括：

S101：根据无人机群信息采集***的参数建立信息采集任务模型；其中，所述信息采集任务分为采集子任务和计算子任务；

S102：根据所述任务模型构建深度神经网络模型，利用结合注意力机制的多智能体深度强化学习算法训练所述深度神经网络模型；其中，所述智能体为无人机；

S103：利用训练好的所述深度神经网络模型控制实际环境中的无人机群完成信息采集任务。

本实施例中，无人机***中有M架无人机，K个可供无人机接入的边缘服务器。同时将时间离散化为等长的时隙τ，在每个时隙τ中，***会需要进行N个信息采集任务。在使用多智能体的深度强化学习算法前，需要将***模型参数化为***状态空间和智能体动作空间，并设置即时奖励函数。

本实施例对***状态空间进行参数化的具体过程为：

在每个时隙中，***的总状态包括***产生的N个信息采集任务的状态，K个边缘服务器的状态以及M架无人机的状态，分别定义

和

令

为表示为当前时隙第j个信息采集任务的状态，其中，

表示第j个采集任务所在位置的横坐标，

表示第j个采集任务所在位置的纵坐标，b_j表示第j个任务所需采集的数据大小。令

表示当前时隙第k个边缘服务器的状态，其中，

表示第k个边缘计算服务器的计算速率，

表示第k个边缘服务器的上行带宽。令

为当前时隙第i架无人机状态，其中，

表示第i架无人机当前所在位置的横坐标，

表示第i架无人机当前所在位置的纵坐标。

值得说明的是，在多智能体的无人机***中，无人机制定自己当前时隙的具体动作时不需要与其他无人机进行通信交流，因此每架无人机无法获得当前***的全部状态，而是基于***总状态和自身的观察范围得到一个局部观察值

其中T_i为当前时隙无人机i观察范围内所有信息点状态集合，U_i为当前时隙无人机i观察范围内所有其他无人机状态集合，E为***中所有边缘服务器的状态集合。

本实施例对智能体动作空间进行参数化的具体过程为：

在已知每个时隙自身获得的观察值o_i的情况下，每架无人机需要根据自己的策略函数来获得动作。定义第i架无人机在时隙τ策略函数输出的动作为a_i＝[d_i,θ_i,ρ_i,z_i]，其中，d_i为第i架无人机飞行的距离，θ_i为时隙τ中第i架无人机飞行的角度，ρ_i表示为第i架无人机进行计算迁移的比率，z_i为第i架无人机接入的边缘服务器编号。

本实施例设置奖励函数的具体过程为：

对于无人机信息采集***来说，无人机i自身的目标是最大化自己的收益。在无人机i完成信息采集任务后无人机i会获得一定的收益，同时无人机i在完成采集任务过程中的能耗和时间花费也应考虑在内。因此定义一个时隙中单个无人机的奖励函数为

G_i表示无人机i在一个时隙中采集任务完成的收益，

表示在一个时隙内无人机i的时间花销，

表示在一个时隙内无人机i的能耗。

值得说明的是，任务的收益与任务的数据量大小有关，定义为

其中β_ij＝1表示无人机i对信息点j进行了信息采集，β_ij＝0表示无人机i没有对信息点j进行信息采集，b_j为第j个任务的数据总量，g为单位数据的完成收益。

主要由无人机的飞行时间、采集信息的时间、以及进行数据计算的时间相加得来，定义为

其中，d_i为第i架无人机的飞行距离，v_i为第i架无人机的飞行速率，

表示第i架无人机的信息采集速率，

表示第i架无人机的计算速率，而

表示的是无人机i在计算任务j的时间花销；ε_i是无人机i数据上传速率，根据香农定理以及无人机i接入的边缘服务器z_i的带宽

得到，

其中n_zi为同一时隙接入边缘服务器z_i的无人机总数，SNR为信噪比。而

表示的是进行边缘计算的时间花销，这里包含数据上传的时间花销和边缘服务器计算的时间花销，由于无人机在进行计算时本地计算和迁移计算时同时进行，因此无人机计算任务的时间花销应为本地计算和迁移计算时间花销的最大值。

主要是由无人机的飞行能耗，信息采集能耗以及数据计算的能耗相加得来，定义为

其中，

为无人机i飞行的功率，

为无人机i信息采集的功率，

为无人机i本地计算的功率，

无人机i进行数据上传的功率，

为第z_i个边缘服务器的计算功率。

本实施例中的结合注意力机制的多智能体深度强化学习算法主要分为两部分，第一部分是根据信息采集任务模型搭建计算机仿真环境训练深度神经网络；第二部分是利用训练好的深度神经网络获取实际环境中无人机的信息采集和计算迁移操控指令。

本实施例中采用结合注意力机制的多智能体深度强化学习算法训练深度神经网络模型，采用的深度强化学习算法是基于Actor-Critic框架的，深度神经网络分为actor网络和critic网络。actor网络作为智能体的策略函数，用于获取智能体的具体动作；critic网络作为智能体的动作状态价值函数，用于训练过程中评估智能体actor网络的策略性能，也就是Q值。在神经网络训练阶段需要同时训练actor网络和critic网络。值得说明的是，本实施例的深度强化学习算法是多智能体的深度强化学习算法，即每个智能体都有自己的actor网络。

其中，actor网络包含估值actor网络和目标actor网络，actor网络为三层的全连接层深度神经网络，该网络的输入为无人机的观察值o_i，输出为当前时隙无人机i的动作a_i。训练actor网络是为了得到更好的动作策略函数，用于根据实际环境的不同状态输入来得到相应的最优动作。

critic网络同样包含估值critic网络和目标critic网络，为了使得critic网络得到更准确的评估值，critic网络在三层的全连接层深度神经网络的基础上增加了注意力单元，结构如图1所示。

具体做法为：首先，将每架无人机的观察值o_i和动作值a_i输入单层的全连接层深度神经网络(1-layer MLP)中，得到每架无人机的状态动作特征值g(o_i,a_i)；

然后，将所有无人机的状态动作特征值输入到注意力单元中。

在注意力单元中，先根据无人机i特征值与其余无人机j(j≠i)特征值计算每架无人机j的注意力权重α_j，具体注意力权重计算如下：

其中，

和W_q为可学习的注意力参数矩阵，上述公式主要通过状态动作特征值和注意力参数矩阵进行放缩点乘(scaled dot product)得到的注意力系数，再利用softmax函数对注意力系数进行归一化得到无人机j的注意力权重。

接着，根据注意力权重和其余无人机特征值通过加权和的方式计算其余无人机对无人机i的影响值e_i：

其中，W_o为可学习的注意力参数矩阵，h为点乘(dot product)操作。

最后，将无人机i的状态动作特征值g(o_i,a_i)和影响值e_i输入到双层的全连接层深度神经网络(2-layers MLP)中得到该无人机的动作状态价值Q_i。

本实施例中深度神经网络的训练过程如下：首先利用python搭建参数化后的仿真环境模型并初始化***的总状态S，根据当前时隙的***总状态和各无人机自身的观察范围，生成每架无人机当前时隙自身的观察值X＝[o₁,o₂,…,o_M]。把各无人机自身的观察值o_i输入到对应的actor网络中，得到各无人机的动作值a_i。仿真环境根据当前***的总状态和当前时隙所有的无人机的动作值A＝[a₀,a₁,…,a_M]计算得到所有无人机的奖励R＝[r₀,r₁,…,r_M]、***下一个时隙状态S′和观察值X′＝[o′₁,o′₂,…,o′_M]。将一个时隙中的(X,A,R,X′)作为一条经验样本存入智能体的经验池中用于网络参数的更新。在经验池样本数量达到一定阈值后进行网络参数更新，下面以对无人机i的网络参数更新为例，其他无人机网络参数更新步骤相同。

对估值critic网络参数进行更新的过程为：从经验池中随机取出H个经验样本(X^j,A^j,R^j,X′^j),j∈{1,2,…,H}，将每一个样本j中的下一个时隙观察值X′^j分别输入到对应智能体的目标actor网络中得到所有智能体关于该经验样本下一个时隙的动作

将样本j中的下一个时隙的观察值X′^j和动作值A′^j输入到目标critic网络中得到智能体i的目标Q值，

将样本j中的当前时隙的观察值和动作值输入的估值critic网络中得到智能体i的Q值，

对所有智能体重复上述步骤并根据下面公式求出估值critic网络的均方差损失函数，均方差损失函数值越小，说明critic网络得出的评估结果越准确，其中γ为奖励的折扣因子，

为第j条经验样本中智能体i的奖励值。然后利用随机梯度下降方法最小化损失函数来更新critic网络的参数θ^Q。

对估值actor网络参数进行更新的过程为：对每一个智能体i，将采样得到的H条经验样本中的当前时隙观察值和动作值输入到估值critic网络中得到Q值，Q_i(X,a₁,a₂,…,a_M)。actor网络的目标是最大化Q值，其性能函数表示为Q值的期望值，具体公式如下：

其中，E_x,a～D表示为利用抽取的样本计算Q值的期望值，μ_i(o_i)为无人机i的估值actor网络近似的策略函数。在对估值actor网络参数

进行更新时，根据性能函数对actor网络参数

进行求导

并利用随机梯度上升方法来更新。

对目标网络参数继续更新的过程为：最后根据下面公式目标critic网络的参数θ^Q′和所有智能体i(i∈{1,2,…,M})的目标actor网络

进行软更新，其中

为目标网络的学习率：

循环多次上述训练操作直至估值actor网络近似的策略函数收敛。

深度神经网络训练的伪代码如下：

在经过上述深度神经网络的多次训练后即深度神经网络已经训练完成后，可以利用估值actor网络来控制实际环境中无人机群完成信息采集任务，具体步骤如下：

首先，将实际环境下无人机***的状态和每架无人机的观察中进行参数化；然后，将无人机每个任务周期参数化的观察值输入到训练好的actor网络中得到无人机该任务周期的动作值；最后，根据得到的动作值转化为飞行指令和计算迁移指令，无人机根据指令执行飞行动作飞往目标位置，采集范围内所有的信息任务并根据迁移比率对采集的原始数据进行计算迁移完成计算任务。在每个任务周期重复上述步骤。

以下为本发明提供的基于多智能体深度强化学习的无人机控制方法的另一个实施例，包括：

S1：利用参数化后的多无人机信息采集任务模型搭建仿真环境，并随机初始化***状态和神经网络参数；

S2：获取无人机当前时隙的观察值；

S3：根据观察值采用actor网络确定当前时隙无人机的信息采集和计算迁移动作；

S4：根据参数化后的模型计算当前时隙的奖励和下一个时隙无人机的观察值，将该时隙经验样本存放到经验池；重复S2至S4直至经验池样本数量达到一定阈值；

S5：从经验池中随机采样一定数量经验样本，对神经网络参数进行更新，得到更新后的网络参数，重复S2至S5直至策略函数收敛；

S6：对实际环境中的信息采集任务进行参数化，并获取无人机实际的观察值；

S7：根据观察值采用actor网络确定无人机的动作值，并根据动作值控制无人机进行信息采集和计算迁移。

本实施例在具体实现时可以使用多种方法，包含但不限于：

(1)修改深度神经网络的参数更新公式，采用PPO、SAC等深度强化学习算法的更新方式

(2)修改模型中奖励函数R的计算方法

在本发明技术方案的基础上，凡根据本发明原理对算法的个别步骤进行改进和同等变换，均不排除在本发明的保护范围之外。

本实施例对无人机信息采集任务进行建模，将无人机的信息采集任务分解为采集子任务和计算子任务，并对整个无人机***模型进行参数化。本实施例中将每架无人机视为一个智能体，多智能体深度强化学习仅需要通过每个智能体自身与环境进行交互获取奖励值，从而不断学习改善自己的策略，且在智能体做出决策时不需要通过通信获得***全局的状态信息，因此避免了通信的时延。

本实施例在训练actor网络时，结合了注意力机制，使用带有注意力单元的critic网络对actor网络的性能进行评估，使得评估时能够更好的关注相似度更高的其他智能体对自身的影响，从而得到更准确的评估值来指导actor网络的训练，加快了actor网络的训练速度。

与普通的单智能体深度强化学习算法将整个无人机***视为一个智能体相比，本实施例将每架无人机视为一个智能体，在执行信息采集任务时，每架无人机仅需要将自身的观察值直接输入到已训练好的actor网络中便可得到该任务周期的操控指令，避免了单智能体深度强化学习算法在制定操控指令前需要通过通信来收集所有无人机的状态和观察值，从而降低了反应时延。

本发明还提供了基于多智能体深度强化学习的无人机控制***的实施例，包括：

此外，本发明还提供了一种电子设备，包括：

存储器，用于保存计算机程序；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于多智能体深度强化学习的无人机控制方法，其特征在于，包括：

2.根据权利要求1所述的基于多智能体深度强化学习的无人机控制方法，其特征在于，根据所述任务模型构建深度神经网络模型之前还包括：

3.根据权利要求2所述的基于多智能体深度强化学习的无人机控制方法，其特征在于，所述深度神经网络模型具体包括：所述深度神经网络模型包括actor网络和critic网络，所述actor网络包含估值actor网络和目标actor网络，所述critic网络包含估值critic网络和目标critic网络，所述critic网络在三层全连接层上嵌入了注意力单元。

4.根据权利要求3所述的基于多智能体深度强化学习的无人机控制方法，其特征在于，还包括：在训练actor网络时，使用带有注意力单元的critic网络对actor网络的性能进行评估，其具体过程为：

首先，无人机群中无人机的数量为N，将无人机i(1≤i≤N)的观察值o_i和动作值a_i输入单层的全连接层中得到每架无人机的状态动作特征值g(o_i，a_i)，将所有无人机的状态动作特征值输入到注意力单元中；

其中，

和W_q为可学习的注意力参数矩阵；

将无人机i的状态动作特征值g(o_i，a_i)和影响值e_i输入到双层全连接层网络中得到该无人机的动作状态价值Q_i。

5.根据权利要求4所述的基于多智能体深度强化学习的无人机控制方法，其特征在于，利用结合注意力机制的多智能体深度强化学习算法训练所述深度神经网络模型具体包括：

S201：随机初始化***状态和神经网络参数；

S202：根据所述***状态和无人机的观察范围获取每架无人机当前时隙的观察值X＝[o₁，o₂，...，o_M]；其中，M为无人机群中无人机的数量；

S204：根据***状态和当前时隙所有无人机的动作值A＝[a₀，a₁，...，a_M]得到所有无人机的奖励R＝[r₀，r₁，...，r_M]、***下一个时隙状态S′和观察值X′＝[o′₁，o′₂，...，o′_M]，将经验样本(X，A，R，X′)存放到智能体的经验池中；

6.根据权利要求5所述的基于多智能体深度强化学习的无人机控制方法，其特征在于，利用训练好的所述深度神经网络模型控制实际环境中的无人机群完成信息采集任务具体包括：

7.基于多智能体深度强化学习的无人机控制***，其特征在于，包括：

8.根据权利要求7所述的基于多智能体深度强化学习的无人机控制***，其特征在于，还包括：

9.一种计算机可读存储介质，其特征在于，用于保存计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的基于多智能体深度强化学习的无人机控制方法。

10.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至6任一项所述的基于多智能体深度强化学习的无人机控制方法。