CN114520991B - 基于无人机集群的边缘网络自适应部署方法 - Google Patents

基于无人机集群的边缘网络自适应部署方法 Download PDF

Info

Publication number
CN114520991B
CN114520991B CN202210100522.3A CN202210100522A CN114520991B CN 114520991 B CN114520991 B CN 114520991B CN 202210100522 A CN202210100522 A CN 202210100522A CN 114520991 B CN114520991 B CN 114520991B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
user
vehicle cluster
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210100522.3A
Other languages
English (en)
Other versions
CN114520991A (zh
Inventor
鲍宁海
高鹏雷
陈奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210100522.3A priority Critical patent/CN114520991B/zh
Publication of CN114520991A publication Critical patent/CN114520991A/zh
Application granted granted Critical
Publication of CN114520991B publication Critical patent/CN114520991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0226Traffic management, e.g. flow control or congestion control based on location or mobility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0925Management thereof using policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0958Management thereof based on metrics or performance parameters
    • H04W28/0967Quality of Service [QoS] parameters
    • H04W28/0975Quality of Service [QoS] parameters for reducing delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/02Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
    • H04W84/04Large scale networks; Deep hierarchical networks
    • H04W84/08Trunked mobile radio systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Traffic Control Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明请求保护一种基于无人机集群的边缘网络自适应部署方法,属于通信技术领域。针对地面网络设施受损或故障,导致边缘网络资源缺失的问题,提出一种面向地面移动用户的无人机边缘节点自适应部署方法。根据各无人机的有效覆盖范围、地面用户位置分布以及任务卸载需求,采用深度强化学***均任务卸载时延。

Description

基于无人机集群的边缘网络自适应部署方法
技术领域
本发明属于通信技术领域,具体涉及一种基于无人机集群的边缘网络自适应部署方法。
背景技术
无人机作为下一代网络的重要组成部分,在应对复杂场景下的应急通信问题具有显著优势。当地面网络设施遭受破坏或出现故障时,可利用无人机快速建立低空边缘网络平台,有效地为地面移动用户提供必要的通信与计算服务。由于地面移动用户的分布与任务卸载请求具有明显的动态时变特征,低空无人机网络的资源部署也应具备自适应动态调整的能力。近年来,机器学习技术迅速发展,为解决无人机的移动性问题提供了新的途径。机器学习算法能够根据无人机当前的用户分布,无人机自身位置信息自适应巡航,有效解决无人机的路径规划问题。
本发明针对地面网络设施受损或故障,导致边缘网络资源缺失的问题,提出一种面向地面移动用户的无人机边缘节点自适应部署方法。根据各无人机的有效覆盖范围、地面用户位置分布以及任务卸载需求,采用深度强化学***均任务卸载时延。
发明内容
本发明旨在解决以上现有技术的问题。提出一种基于无人机集群的边缘网络自适应部署方法。本发明的技术方案如下:
一种基于无人机集群的边缘网络自适应部署方法,其具体包括以下步骤:
101、设立无人机集群I={i},地面用户集J={j},i、j分别表示无人机i和用户j,将无人机集群巡航时间离散为时隙,设立时隙变量k,构造无人机集群与用户状态向量sk、无人机集群动作向量ak、无人机集群动作收益函数rk,其中,sk,ak,rk均随时隙数k的增加发生相应的转移和变化,初始化时隙变量k=0;
102、在无人机集群控制智能体中,基于双延时深度确定性策略梯度算法思想构建深度强化学习模型,包括无人机集群巡航动作发生模块、无人机集群动作评估模块、无人机集群动作扰动模块、环境参数采集模块、无人机集群机载资源分配与任务卸载调度模块、无人机集群动作收益模块、经验样本存储池、样本集随机抽样模块;
103、令k=k+1,如果无人机集群I在连续n个时隙内未发生三维坐标位置变化,跳转到步骤106,否则,根据每架无人机i的有效覆盖范围及剩余可用计算资源,确定每架无人机i的用户对象集Ji,从而获得无人机集群I的用户对象集{Ji},通过无人机集群机载资源分配与任务卸载调度模块,获得用户集J的任务卸载决策变量集其中/>为k时隙用户j卸载到无人机i的任务量,跳转到104;
104、根据执行用户任务卸载,通过无人机集群动作收益模块获得相应的收益rk,通过无人机集群巡航动作发生模块和无人机集群动作扰动模块获得k时隙无人机集群三维动作向量ak,根据k时隙无人机集群与用户状态向量sk和无人机集群三维动作向量ak计算获得sk+1,将[sk,ak,rk,sk+1]存入经验样本存储池;
105、通过样本集随机抽样模块从经验样本存储池中获得随机样本集X,并将X分别输入无人机集群巡航动作发生模块、无人机集群动作评估模块进行学习训练,跳转到103;
106、算法结束。
进一步的,所述步骤101中构造k时隙无人机集群与用户状态向量sk、无人机集群三维动作向量ak、无人机集群动作收益函数rk,分别如公式(1)、(2)、(3)所示:
公式(1)中,表示无人机i在时隙k的三维坐标位置,/>表示用户j在时隙k的二维坐标位置;公式(2)中,/>表示无人机i在k时隙的水平运动方向,/>表示无人机i在k时隙的垂直运动距离;公式(3)中,ω表示无人机动作奖励函数权重因子,ω∈(0,1),/>表示用户j在k时隙能够进行任务卸载,否则,/>如公式(4)所示,/>表示k时隙用户j的平均单位任务时延,如公式(5)所示:
公式(4)中,表示用户j与无人机i的连接状态,若用户j在k时隙将任务卸载到无人机i执行,则/>否则/>公式(5)中,Δt表示时隙大小,ξ表示时隙,ξ∈[1,k]。
进一步的,所述步骤102中基于双延时深度确定性策略梯度算法思想构建深度强化学习模型,包括无人机集群巡航动作发生模块、无人机集群动作评估模块、无人机集群动作扰动模块、环境参数采集模块、无人机集群机载资源分配与任务卸载调度模块、无人机集群动作收益模块、经验样本存储池、样本集随机抽样模块,具体包括:
无人机集群巡航动作发生模块包含主网络π(skπ)和目标网络π′(skπ′),通过将无人机集群与用户状态sk输入π(skπ),并将π(skπ)的输出导入无人机集群动作扰动模块,获得无人机集群三维动作向量ak;无人机集群动作扰动模块用于无人机集群对周边空域的随机性探索;无人机集群动作评估模块包含主网络和/>以及目标网络/>和/>用于生成在无人机集群与用户状态sk下执行无人机集群三维动作ak的动作评估值q;其中,π(skπ),π′(skπ′), 均为神经网络,分别包含若干层隐藏层,每层隐藏层包含若干个神经元,θπ,θπ′,/>为相应神经网络结构参数;目标网络π′(skπ′)、目标网络/>和/>分别用于增强主网络π(skπ)、主网络/>和/>在训练过程的稳定性;
环境参数采集模块用于收集地面用户的二维坐标位置用户的任务卸载请求、无人机集群的三维坐标位置/>和无人机集群的剩余可用计算资源;无人机集群机载资源分配与任务卸载调度模块用于生成k时隙用户卸载策略,获得任务卸载决策变量集/>无人机集群动作收益模块用于在完成k时隙的卸载任务后,生成无人机集群I在k时隙的动作收益值rk;无人机集群I执行ak动作后,无人机集群与用户状态由sk转移到sk+1;经验样本存储池中增加k时隙经验样本[sk,ak,rk,sk+1];样本集随机抽样模块通过从经验样本存储池中随机抽取相同数量样本,用于无人机集群巡航动作发生模块和无人机集群动作评估模块的学习训练。
进一步的,所述步骤103中确定每架无人机i的用户对象集Ji,从而获得无人机集群I的用户对象集{Ji},通过无人机集群机载资源分配与任务卸载调度模块,获得用户集J的任务卸载决策变量集的方法如下:
1)将J中所有用户j放入集合V中,根据对集合V降序排列;
2)如果依次针对V中的每一个用户j,根据用户j可接入的无人机剩余可用计算资源/>和用户j所需的计算资源,通过多属性排序法分配无人机i的计算资源给用户j,令/>把V中用户j移入无人机i的用户对象集Ji,并根据/>降序排列,跳转到2),否则,跳转到3);
3)对集合I中的无人机,依次为Ji中的每个用户j分配最小单位计算资源并更新/>直到/>得到用户j的计算资源分配集合/>并根据用户j的任务卸载时延,计算用户j卸载到无人机i的任务量/>最终得到用户集J的任务卸载决策变量集
进一步的,所述步骤2)中根据多属性排序法分配无人机i的计算资源给用户j的方法,具体包括:
首先根据对集合I中的无人机降序排列,再根据/>对/>相同的无人机降序排列,最后根据/>对/>与/>均相同的无人机升序排列,选择排序中的第一个无人机i并分配计算资源/>给用户j,其中,/>为无人机i与用户j的距离,计算资源/>的计算方式如公式(6)、(7)所示:
公式(6)中Fi表示无人机i的计算资源总量,ρ表示无人机i的用户对象集Ji中除用户j之外的其他用户,ρ∈(Ji-j);公式(7)中U表示任务单元大小,τj表示用户j的平均单位任务容忍时延,表示用户j的任务复杂度,/>表示k时隙用户j到无人机i上行传输速率,η表示时隙,η∈[1,k-1]。
进一步的,所述步骤3)中用户j卸载到无人机i的任务量的计算方法如公式(8)所示:
进一步的,所述步骤3)中用户j的任务卸载时延如公式(9)所示:
公式(9)中,表示k时隙用户j卸载到无人机i的任务卸载时延,/>表示k时隙用户j卸载任务到无人机i的传输时延,如公式(10)所示;/>表示用户j卸载任务到无人机i的卸载任务计算时延,如公式(11)所示;
公式(10)中,表示k时隙用户j到无人机i的上行传输速率,如公式(12)所示:
公式(12)中,W为用户信道带宽,pj为用户发射功率,σ2为噪声功率,表示k时隙用户j到无人机i的通信信道增益。
进一步的,所述步骤104中通过无人机集群巡航动作发生模块和无人机集群动作扰动模块获得k时隙无人机集群三维动作向量ak,根据k时隙无人机集群与用户状态向量sk和无人机集群三维动作向量ak计算获得sk+1具体包括:
将k时隙无人机集群与用户状态向量输入无人机集群巡航动作发生模块,并经由无人机集群动作扰动模块得到无人机集群三维动作向量计算获得/>其中,L为k时隙无人机i的水平移动距离。
进一步的,所述步骤105中无人机集群巡航动作发生模块、无人机集群动作评估模块学习训练方法为:
对无人机集群动作评估模块中的主网络其网络参数/>采用最速下降法进行更新,如公式(13)所示,其中,/>表示/>和/>
其中为/>的学习率,损失函数/>如公式(14)所示:
其中,a′k+1=ak+1+ε,ε~clip(N(0,σ),-κ,κ),clip(·)表示修剪函数,N表示均值为0,方差为σ的高斯噪声,κ表示修剪参数,γ表示折扣因子,X表示通过样本集随机抽样模块从经验样本存储池中获得随机样本集X={xk},xk=[sk,ak,rk,sk+1];
巡航动作发生模块中π(skπ)网络参数θπ更新如公式(15)所示:
其中μπ为π(skπ)的学习率,π(skπ)的策略梯度如公式(16)所示:
目标网络和π′(skπ′)中网络参数/>和θπ′的更新分别如公式(17)、(18)所示,其中,/>表示/>和/>更新因子/>
本发明的优点及有益效果如下:
本发明针对地面网络设施受损或故障,导致边缘网络资源缺失的问题,提出一种面向地面移动用户的无人机边缘节点自适应部署方法。现有解决方案通常根据当前用户分布最优化目标位置,通过最短路径巡航完成低空无人机网络的部署,忽略了地面移动用户分布及任务卸载请求的动态时变特征,易造成网络服务质量不稳定,资源利用率下降的问题。本发明根据无人机的有效覆盖范围、地面用户的实时位置分布与任务卸载需求,采用深度强化学***均任务卸载时延。
附图说明
图1是本发明提供优选实施例一种基于无人机集群的边缘网络自适应部署方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明内容所涉及的概念和模型如下:
1.***模型:
假设边缘网络小区内用户随机分布,地面网络设施受损或故障,边缘网络资源缺失。小区内配置多架无人机辅助边缘节点,可为其有效覆盖范围内的用户提供任务卸载服务,采用深度强化学***均任务卸载时延。
2.本发明内容所涉及的其他符号说明如下:
sk:***状态向量
ak:无人机集群动作向量
rk:收益函数
π(skπ):无人机集群动作策略网络
无人机集群状态-动作值网络
θ:神经网络结构参数
用户j在k时隙平均单位任务时延
用户j在k时隙是否被服务
无人机i在时隙k为用户j分配的计算资源
用户j在k时隙卸载到无人机i任务单元数
无人机i在k时隙的水平移动方向
无人机i在k时隙的垂直移动距离
用户j在k时隙与无人机i的连接状态
表示k时隙用户j卸载到无人机i的任务卸载时延
表示k时隙用户j卸载任务到无人机i的传输时延
表示用户j卸载任务到无人机i的卸载任务计算时延
Fi:无人机i的计算资源总量
表示k时隙用户j到无人机i的上行传输速率
W:用户信道带宽
pj:用户j发射功率
σ2:噪声功率
表示k时隙用户j到无人机i的通信信道增益
本发明的技术方案说明如下:
1、任务卸载时延
用户j的任务卸载时延如公式(1)所示:
公式(1)中,表示k时隙用户j卸载到无人机i的任务卸载时延,/>表示k时隙用户j卸载任务到无人机i的传输时延,如公式(2)所示;/>表示用户j卸载任务到无人机i的卸载任务计算时延,如公式(3)所示。
其中,表示用户j与无人机i的连接状态,若用户j在k时隙将任务卸载到无人机i执行,则/>否则/>U表示任务单元大小,/>表示k时隙用户j卸载到无人机i的任务量,/>表示k时隙无人机i为用户j分配的计算资源,/>表示用户j的任务复杂度,/>表示k时隙用户j到无人机i的上行传输速率,如公式(4)所示:
公式(4)中,W为用户信道带宽,pj为用户发射功率,σ2为噪声功率,表示k时隙用户j到无人机i的通信信道增益。
2、MDP模型的状态向量、动作向量、收益函数
k时隙无人机集群与用户状态向量sk、无人机集群动作向量ak、无人机集群动作收益函数rk,分别如公式(5)、(6)、(7)所示:
公式(5)中,表示无人机i在时隙k的三维坐标位置,/>表示用户j在时隙k的二维坐标位置,I表示无人机集合,J表示用户集合,公式(6)中,/>表示无人机i在k时隙的水平运动方向,/>表示无人机i在k时隙的垂直运动距离。公式(7)中,ω表示无人机动作奖励函数权重因子,ω∈(0,1),/>表示用户j在k时隙被无人机i服务,否则,如公式(8)所示,/>表示k时隙用户j的平均单位任务时延如公式(9)所示:
公式(9)中ξ表示时隙,ξ∈[1,k]。
3、基于双延时深度确定性策略梯度算法思想构建的深度强化学习模型
将无人机集群的巡航过程划分为若干个大小相等的时隙,且在任意时隙k(∈K)内,无人机集群与地面用户的相对位置关系与连接状态不变。
将无人机集群控制器作为智能体,基于双延时深度确定性策略梯度算法思想构建深度强化学习模型,其中,双延时深度确定性策略梯度算法思想源于文献Fujimoto S,HoofH V,Meger D.Addressing Function Approximation Error in Actor-CriticMethods.35th International Conference on Machine Learning,ICML2018,July 10,2018-July 15,2018。该深度强化学习模型包括无人机集群巡航动作发生模块、无人机集群动作评估模块、无人机集群动作扰动模块、环境参数采集模块、无人机集群机载资源分配与任务卸载调度模块、无人机集群动作收益模块、经验样本存储池、样本集随机抽样模块。
无人机集群巡航动作发生模块包含主网络π(skπ)和目标网络π′(skπ′),通过将无人机集群与用户状态sk输入π(skπ),并将π(skπ)的输出导入无人机集群动作扰动模块,获得无人机集群三维动作向量ak。π(skπ)和π′(skπ′)可采用两层隐藏层,分别配置256、128个神经元的神经网络,神经元激活函数可采用Relu函数;无人机集群动作扰动模块用于无人机集群对周边空域的随机性探索;无人机集群动作评估模块包含主网络和/>以及目标网络/>和/>用于生成在无人机集群与用户状态sk下执行无人机集群三维动作ak的动作评估值q;其中,无人机集群动作评估模块中的主网络和目标网络可采用三层隐藏层,分别配置256、128、128个神经元的神经网络,神经元激活函数可采用Relu函数;θπ,θπ′,/>为相应神经网络结构参数;目标网络π′(skπ′)、目标网络/>和/>分别用于增强主网络π(skπ)、主网络/>和/>在训练过程的稳定性;
环境参数采集模块用于收集地面用户的二维坐标位置用户的任务卸载请求、无人机集群的三维坐标位置/>和无人机集群的剩余可用计算资源;无人机集群机载资源分配与任务卸载调度模块用于生成k时隙用户卸载策略,获得任务卸载决策变量集/>无人机集群动作收益模块用于在完成k时隙的卸载任务后,生成无人机集群I在k时隙的动作收益值rk;无人机集群I执行ak动作后,无人机集群与用户状态由sk转移到sk+1;经验样本存储池中增加k时隙经验样本[sk,ak,rk,sk+1];样本集随机抽样模块通过从经验样本存储池中随机抽取相同数量样本,用于无人机集群巡航动作发生模块和无人机集群动作评估模块的学习训练。
4、多属性排序法
多属性排序法分配无人机i的计算资源给用户j的方法:
首先根据对集合I中的无人机降序排列,再根据/>对/>相同的无人机降序排列,最后根据/>对/>与/>均相同的无人机升序排列,选择排序中的第一个无人机i并分配计算资源/>给用户j,其中,/>为无人机i与用户j的距离,计算资源/>的计算方式如公式(10)、(11)所示:
公式(10)中表示无人机i剩余计算资源,Fi表示无人机i的计算资源总量,ρ表示无人机i的用户对象集Ji中除用户j之外的其他用户,ρ∈(Ji-j);公式(11)中τj表示用户j的平均单位任务容忍时延,η表示时隙,η∈[1,k-1]。
5、用户卸载任务量计算
用户j卸载到无人机i的任务量的计算方法如公式(12)所示:
6、获得用户集J的任务卸载决策变量集的方法
1)将J中所有用户j放入集合V中,根据对集合V降序排列;
2)如果依次针对V中的每一个用户j,根据用户j可接入的无人机剩余可用计算资源/>和用户j所需的计算资源,通过多属性排序法分配无人机i的计算资源给用户j,令/>把V中用户j移入无人机i的用户对象集Ji,并根据/>降序排列,跳转到2),否则,跳转到3);
3)对集合I中的无人机,依次为Ji中的每个用户j分配最小单位计算资源并更新/>直到/>得到用户j的计算资源分配集合/>并根据用户j的任务卸载时延,计算用户j卸载到无人机i的任务量/>最终得到用户集J的任务卸载决策变量集
7、无人机集群与用户状态向量sk与无人机集群动作向量ak计算获得sk+1方法
将k时隙无人机集群与用户状态向量输入无人机集群巡航动作发生模块,并经由无人机集群动作扰动模块得到无人机集群三维动作向量计算获得/>其中,L为k时隙无人机i的水平移动距离。
8、无人机集群巡航动作发生模块、无人机集群动作评估模块学习训练方法
对无人机集群动作评估模块中的主网络其网络参数/>采用最速下降法进行更新,如公式(13)所示,其中,/>表示/>和/>
其中为/>的学习率,损失函数/>如公式(14)所示:/>
其中,a′k+1=ak+1+ε,ε~clip(N(0,σ),-κ,κ),clip(·)表示修剪函数,N表示均值为0,方差为σ的高斯噪声,κ表示修剪参数,γ表示折扣因子,X表示通过样本集随机抽样模块从经验样本存储池中获得随机样本集X={xk},xk=[sk,ak,rk,sk+1];
巡航动作发生模块中π(skπ)网络参数θπ更新如公式(15)所示:
其中μπ为π(skπ)的学习率,π(skπ)的策略梯度如公式(16)所示:
目标网络和π′(skπ′)中网络参数/>和θπ′的更新如公式(17)、(18)所示,其中,/>表示/>和/>更新因子/>
一种基于深度强化学习的无人机边缘网络自适应部署方法,其具体实施方法包括以下步骤:
步骤1:设立无人机集群I={i},地面用户集J={j},i、j分别表示无人机i和用户j,将无人机集群巡航时间离散为时隙,设立时隙变量k,构造无人机集群与用户状态向量sk、无人机集群动作向量ak、无人机集群动作收益函数rk,其中,sk,ak,rk均随时隙数k的增加发生相应的转移和变化,初始化时隙变量k=0;
步骤2:在无人机集群控制智能体中,基于双延时深度确定性策略梯度算法思想构建深度强化学习模型,包括无人机集群巡航动作发生模块、无人机集群动作评估模块、无人机集群动作扰动模块、环境参数采集模块、无人机集群机载资源分配与任务卸载调度模块、无人机集群动作收益模块、经验样本存储池、样本集随机抽样模块;
步骤3:令k=k+1,如果无人机集群I在连续n个时隙内未发生三维坐标位置变化,跳转到步骤6,否则,根据每架无人机i的有效覆盖范围及剩余可用计算资源,确定每架无人机i的用户对象集Ji,从而获得无人机集群I的用户对象集{Ji},通过无人机集群机载资源分配与任务卸载调度模块,获得用户集J的任务卸载决策变量集其中/>为k时隙用户j卸载到无人机i的任务量,跳转到步骤4;
步骤4:根据执行用户任务卸载,通过无人机集群动作收益模块获得相应的收益rk,通过无人机集群巡航动作发生模块和无人机集群动作扰动模块获得k时隙无人机集群三维动作向量ak,根据k时隙无人机集群与用户状态向量sk和无人机集群三维动作向量ak计算获得sk+1,将[sk,ak,rk,sk+1]存入经验样本存储池;/>
步骤5:通过样本集随机抽样模块从经验样本存储池中获得随机样本集X,并将X分别输入无人机集群巡航动作发生模块、无人机集群动作评估模块进行学习训练,跳转到步骤3;
步骤6:算法结束。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (7)

1.一种基于无人机集群的边缘网络自适应部署方法,其特征在于,具体包括以下步骤:
101、设立无人机集群I={i},地面用户集J={j},i、j分别表示无人机i和用户j,将无人机集群巡航时间离散为时隙,设立时隙变量k,构造无人机集群与用户状态向量sk、无人机集群动作向量ak、无人机集群动作收益函数rk,其中,sk,ak,rk均随时隙数k的增加发生相应的转移和变化,初始化时隙变量k=0;
102、在无人机集群控制智能体中,基于双延时深度确定性策略梯度算法思想构建深度强化学习模型,包括无人机集群巡航动作发生模块、无人机集群动作评估模块、无人机集群动作扰动模块、环境参数采集模块、无人机集群机载资源分配与任务卸载调度模块、无人机集群动作收益模块、经验样本存储池、样本集随机抽样模块;
103、令k=k+1,如果无人机集群I在连续n个时隙内未发生三维坐标位置变化,跳转到步骤106,否则,根据每架无人机i的有效覆盖范围及剩余可用计算资源,确定每架无人机i的用户对象集Ji,从而获得无人机集群I的用户对象集{Ji},通过无人机集群机载资源分配与任务卸载调度模块,获得用户集J的任务卸载决策变量集其中/> 为k时隙用户j卸载到无人机i的任务量,跳转到104;
104、根据执行用户任务卸载,通过无人机集群动作收益模块获得相应的收益rk,通过无人机集群巡航动作发生模块和无人机集群动作扰动模块获得k时隙无人机集群三维动作向量ak,根据k时隙无人机集群与用户状态向量sk和无人机集群三维动作向量ak计算获得sk+1,将[sk,ak,rk,sk+1]存入经验样本存储池;
105、通过样本集随机抽样模块从经验样本存储池中获得随机样本集X,并将X分别输入无人机集群巡航动作发生模块、无人机集群动作评估模块进行学习训练,跳转到103;
106、算法结束;
所述步骤101中构造k时隙无人机集群与用户状态向量sk、无人机集群三维动作向量ak、无人机集群动作收益函数rk,分别如公式(1)、(2)、(3)所示:
公式(1)中,表示无人机i在时隙k的三维坐标位置,/>表示用户j在时隙k的二维坐标位置;公式(2)中,/>表示无人机i在k时隙的水平运动方向,/>表示无人机i在k时隙的垂直运动距离;公式(3)中,ω表示无人机动作奖励函数权重因子,ω∈(0,1),表示用户j在k时隙能够进行任务卸载,否则,/>如公式(4)所示,/>表示k时隙用户j的平均单位任务时延,如公式(5)所示:
公式(4)中,表示用户j与无人机i的连接状态,若用户j在k时隙将任务卸载到无人机i执行,则/>否则/>公式(5)中,Δt表示时隙大小,ξ表示时隙,ξ∈[1,k];
所述步骤103中确定每架无人机i的用户对象集Ji,从而获得无人机集群I的用户对象集{Ji},通过无人机集群机载资源分配与任务卸载调度模块,获得用户集J的任务卸载决策变量集的方法如下:
1)将J中所有用户j放入集合V中,根据对集合V降序排列;
2)如果依次针对V中的每一个用户j,根据用户j可接入的无人机剩余可用计算资源/>和用户j所需的计算资源,通过多属性排序法分配无人机i的计算资源/>给用户j,令/>把V中用户j移入无人机i的用户对象集Ji,并根据/>降序排列,跳转到2),否则,跳转到3);
3)对集合I中的无人机,依次为Ji中的每个用户j分配最小单位计算资源并更新直到/>得到用户j的计算资源分配集合/>并根据用户j的任务卸载时延,计算用户j卸载到无人机i的任务量/>最终得到用户集J的任务卸载决策变量集/>
2.根据权利要求1所述的一种基于无人机集群的边缘网络自适应部署方法,其特征在于,所述步骤102中基于双延时深度确定性策略梯度算法思想构建深度强化学习模型,包括无人机集群巡航动作发生模块、无人机集群动作评估模块、无人机集群动作扰动模块、环境参数采集模块、无人机集群机载资源分配与任务卸载调度模块、无人机集群动作收益模块、经验样本存储池、样本集随机抽样模块,具体包括:
无人机集群巡航动作发生模块包含主网络π(skπ)和目标网络π′(skπ′),通过将无人机集群与用户状态sk输入π(skπ),并将π(skπ)的输出导入无人机集群动作扰动模块,获得无人机集群三维动作向量ak;无人机集群动作扰动模块用于无人机集群对周边空域的随机性探索;无人机集群动作评估模块包含主网络和/>以及目标网络/>和/>用于生成在无人机集群与用户状态sk下执行无人机集群三维动作ak的动作评估值q;其中,π(skπ),π′(skπ′), 均为神经网络,分别包含若干层隐藏层,每层隐藏层包含若干个神经元,θπ,θπ′,/>为相应神经网络结构参数;目标网络π′(skπ′)、目标网络/>和/>分别用于增强主网络π(skπ)、主网络/>和/>在训练过程的稳定性;
环境参数采集模块用于收集地面用户的二维坐标位置用户的任务卸载请求、无人机集群的三维坐标位置/>和无人机集群的剩余可用计算资源;无人机集群机载资源分配与任务卸载调度模块用于生成k时隙用户卸载策略,获得任务卸载决策变量集/>无人机集群动作收益模块用于在完成k时隙的卸载任务后,生成无人机集群I在k时隙的动作收益值rk;无人机集群I执行ak动作后,无人机集群与用户状态由sk转移到sk+1;经验样本存储池中增加k时隙经验样本[sk,ak,rk,sk+1];样本集随机抽样模块通过从经验样本存储池中随机抽取相同数量样本,用于无人机集群巡航动作发生模块和无人机集群动作评估模块的学习训练。
3.根据权利要求1所述的一种基于无人机集群的边缘网络自适应部署方法,其特征在于,所述步骤2)中根据多属性排序法分配无人机i的计算资源给用户j的方法,具体包括:
首先根据对集合I中的无人机降序排列,再根据/>对/>相同的无人机降序排列,最后根据/>对/>与/>均相同的无人机升序排列,选择排序中的第一个无人机i并分配计算资源/>给用户j,其中,/>为无人机i与用户j的距离,计算资源/>的计算方式如公式(6)、(7)所示:
公式(6)中Fi表示无人机i的计算资源总量,ρ表示无人机i的用户对象集Ji中除用户j之外的其他用户,ρ∈(Ji-j);公式(7)中U表示任务单元大小,τj表示用户j的平均单位任务容忍时延,表示用户j的任务复杂度,/>表示k时隙用户j到无人机i上行传输速率,η表示时隙,η∈[1,k-1]。
4.根据权利要求1所述的一种基于无人机集群的边缘网络自适应部署方法,其特征在于,所述步骤3)中用户j卸载到无人机i的任务量的计算方法如公式(8)所示:
5.根据权利要求1所述的一种基于无人机集群的边缘网络自适应部署方法,其特征在于,所述步骤3)中用户j的任务卸载时延如公式(9)所示:
公式(9)中,表示k时隙用户j卸载到无人机i的任务卸载时延,/>表示k时隙用户j卸载任务到无人机i的传输时延,如公式(10)所示;/>表示用户j卸载任务到无人机i的卸载任务计算时延,如公式(11)所示;
公式(10)中,表示k时隙用户j到无人机i的上行传输速率,如公式(12)所示:
公式(12)中,W为用户信道带宽,pj为用户发射功率,σ2为噪声功率,表示k时隙用户j到无人机i的通信信道增益。
6.根据权利要求1所述的一种基于无人机集群的边缘网络自适应部署方法,其特征在于,所述步骤104中通过无人机集群巡航动作发生模块和无人机集群动作扰动模块获得k时隙无人机集群三维动作向量ak,根据k时隙无人机集群与用户状态向量sk和无人机集群三维动作向量ak计算获得sk+1具体包括:
将k时隙无人机集群与用户状态向量输入无人机集群巡航动作发生模块,并经由无人机集群动作扰动模块得到无人机集群三维动作向量计算获得/>其中,L为k时隙无人机i的水平移动距离。
7.根据权利要求1所述的一种基于无人机集群的边缘网络自适应部署方法,其特征在于,所述步骤105中无人机集群巡航动作发生模块、无人机集群动作评估模块学习训练方法为:
对无人机集群动作评估模块中的主网络其网络参数/>采用最速下降法进行更新,如公式(13)所示,其中,/>表示/>和/>
其中为/>的学习率,损失函数/>如公式(14)所示:
其中,a′k+1=ak+1+ε,ε~clip(N(0,σ),-κ,κ),clip(·)表示修剪函数,N表示均值为0,方差为σ的高斯噪声,κ表示修剪参数,γ表示折扣因子,X表示通过样本集随机抽样模块从经验样本存储池中获得随机样本集X={xk},xk=[sk,ak,rk,sk+1];
巡航动作发生模块中π(skπ)网络参数θπ更新如公式(15)所示:
其中μπ为π(skπ)的学习率,π(skπ)的策略梯度如公式(16)所示:
目标网络和π′(skπ′)中网络参数/>和θπ′的更新分别如公式(17)、(18)所示,其中,/>表示/>和/>更新因子/>
CN202210100522.3A 2022-01-27 2022-01-27 基于无人机集群的边缘网络自适应部署方法 Active CN114520991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210100522.3A CN114520991B (zh) 2022-01-27 2022-01-27 基于无人机集群的边缘网络自适应部署方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210100522.3A CN114520991B (zh) 2022-01-27 2022-01-27 基于无人机集群的边缘网络自适应部署方法

Publications (2)

Publication Number Publication Date
CN114520991A CN114520991A (zh) 2022-05-20
CN114520991B true CN114520991B (zh) 2023-07-28

Family

ID=81597300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210100522.3A Active CN114520991B (zh) 2022-01-27 2022-01-27 基于无人机集群的边缘网络自适应部署方法

Country Status (1)

Country Link
CN (1) CN114520991B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114995917B (zh) * 2022-07-15 2022-10-25 南京邮电大学 一种基于车辆聚类的车联网边缘计算任务卸载方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766159A (zh) * 2019-09-29 2020-02-07 南京理工大学 基于改进遗传算法的多uav服务边缘计算的任务分配方法
CN111787509A (zh) * 2020-07-14 2020-10-16 中南大学 边缘计算中基于强化学习的无人机任务卸载方法及***
CN112835715A (zh) * 2021-02-01 2021-05-25 哈尔滨工业大学(深圳) 基于强化学习的无人机任务卸载策略的确定方法和装置
CN112911618A (zh) * 2021-01-29 2021-06-04 重庆邮电大学 一种基于资源退出场景的无人机服务器任务卸载调度方法
CN112995913A (zh) * 2021-03-08 2021-06-18 南京航空航天大学 一种无人机轨迹、用户关联和资源分配联合优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109803344B (zh) * 2018-12-28 2019-10-11 北京邮电大学 一种无人机网络拓扑及路由联合构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766159A (zh) * 2019-09-29 2020-02-07 南京理工大学 基于改进遗传算法的多uav服务边缘计算的任务分配方法
CN111787509A (zh) * 2020-07-14 2020-10-16 中南大学 边缘计算中基于强化学习的无人机任务卸载方法及***
CN112911618A (zh) * 2021-01-29 2021-06-04 重庆邮电大学 一种基于资源退出场景的无人机服务器任务卸载调度方法
CN112835715A (zh) * 2021-02-01 2021-05-25 哈尔滨工业大学(深圳) 基于强化学习的无人机任务卸载策略的确定方法和装置
CN112995913A (zh) * 2021-03-08 2021-06-18 南京航空航天大学 一种无人机轨迹、用户关联和资源分配联合优化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Distributed Deep Learning-based Task Offloading for UAV-enabled Mobile Edge Computing;M. Mukherjee;《IEEE INFOCOM 2020 - IEEE Conference on Computer Communications Workshops (INFOCOM WKSHPS)》;全文 *
空地协同下移动边缘计算***的联合多无人机轨迹和卸载策略优化;姚叶;崔岩;;通信技术(第09期);全文 *
面向智能通信的深度强化学习方法;谭俊杰;梁应敞;;电子科技大学学报(第02期);全文 *

Also Published As

Publication number Publication date
CN114520991A (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
Yu et al. Multi-objective optimization for UAV-assisted wireless powered IoT networks based on extended DDPG algorithm
Wang et al. Deep reinforcement learning based dynamic trajectory control for UAV-assisted mobile edge computing
CN113032904B (zh) 模型构建方法、任务分配方法、装置、设备及介质
CN113395654A (zh) 一种边缘计算***的多无人机任务卸载和资源分配的方法
CN113254188B (zh) 调度优化方法和装置、电子设备及存储介质
CN116451934B (zh) 多无人机边缘计算路径优化与依赖任务调度优化方法及***
CN113485409B (zh) 一种面向地理公平性的无人机路径规划分配方法及***
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN114520991B (zh) 基于无人机集群的边缘网络自适应部署方法
Wei et al. Joint UAV trajectory planning, DAG task scheduling, and service function deployment based on DRL in UAV-empowered edge computing
CN116887355A (zh) 一种多无人机公平协作和任务卸载优化方法及***
CN114785397A (zh) 无人机基站控制方法、飞行轨迹优化模型构建、训练方法
Hua et al. Drl-based energy efficient communication coverage control in hierarchical hap-lap network
Parvaresh et al. A continuous actor–critic deep Q-learning-enabled deployment of UAV base stations: Toward 6G small cells in the skies of smart cities
Cui et al. Model-free based automated trajectory optimization for UAVs toward data transmission
CN116208968B (zh) 基于联邦学习的轨迹规划方法及装置
CN117119489A (zh) 一种基于多无人机辅助的无线供能网络的部署和资源优化方法
CN114513814A (zh) 基于无人机辅助节点的边缘网络计算资源动态优化方法
CN116847293A (zh) 一种无人机辅助车联网下的联合缓存决策和轨迹优化方法
CN116882270A (zh) 一种基于深度强化学习的多无人机无线充电与边缘计算联合优化方法及***
CN116321181A (zh) 一种多无人机辅助边缘计算的在线轨迹及资源优化方法
CN116249202A (zh) 一种物联网设备的联合定位与计算支持方法
CN115967430A (zh) 一种基于深度强化学习的成本最优空地网络任务卸载方法
CN115766478A (zh) 一种空地协同边缘计算服务器的卸载方法
Wang et al. Knowledge distillation based cooperative reinforcement learning for connectivity preservation in uav networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant