CN117750505A

CN117750505A - 一种空天地一体化切片网络资源分配方法

Info

Publication number: CN117750505A
Application number: CN202311741513.3A
Authority: CN
Inventors: 朱奎正; 裴二荣; 邓炳光
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-12-18
Filing date: 2023-12-18
Publication date: 2024-03-22

Abstract

本发明涉及一种空天地一体化切片网络资源分配方法，属于无线通信领域。该方法包括：建立空天地一体化网络模型；根据不同类型业务的服务质量目标与各个设备拥有的资源量规定约束，建立各类业务的收入与成本之间的数学模型；根据各个切片的带宽资源资源分配、上行用户设备的发射功率、上行用户设备的带宽资源分配以及空中节点选择性接入，构建一个混合整数非线性优化问题以保证运营商收益；将混合整数非线性优化问题分解成用户关联和功率控制问题以及切片与用户间带宽资源分配问题；最后根据Double‑HASAC多智能体算法对建立的优化问题进行交替迭代求解。本发明能够适应大范围的通信带宽资源分配问题，并以较快的速度响应和收敛。

Description

一种空天地一体化切片网络资源分配方法

技术领域

本发明属于无线通信领域，涉及一种空天地一体化切片网络资源分配方法。

背景技术

随着第六代(6G)通信时代的来临，用户设备和服务类别的激增使得传统的陆地无线通信网络面临巨大挑战。由此，空间-空中-地面一体化网络(Space-Air-GroundIntegrated Networks，SAGIN)概念应运而生，其旨在为用户提供无缝的全球覆盖和增强的数据传输能力。具体而言，卫星网络可向偏远地区如山区、沙漠和海域等提供连续接入服务。作为补充，空中网络能够快速响应灾害区域的紧急通信需求，或对高流量密集区域提供服务增强。与此同时，高密度部署的陆地网络能在城市地区提供高速的数据传输服务。这三种网络的综合优势，使得SAGIN能够构成一个提供无缝连接服务的异质三维无线通信架构。

然而，SAGIN所面向的服务场景类型正在不断增加，这意味着多样化的服务需求将共同竞争底层的频谱资源，从而难以确保各异构应用的服务质量目标(Quality ofService，QoS)。这些服务具有不同的流量特征，且在资源受限的情况下可能会对彼此产生显著影响。例如，对带宽需求高的服务可能会占用大量信道资源，进而对延时敏感的轻量级服务造成高延时影响。显而易见，关于如何在SAGIN中适应服务多样性的研究还很不足。作为下一代无线网络的使能技术，无线电接入网络(Radio Access Network，RAN)切片提供了一种在同一物理网络基础设施和资源上构建独立的虚拟逻辑子网的可能性，其中每个逻辑子网都专门针对特定服务类型进行定制。然而，这些网络切片彼此之间是相互隔离的。因此，RAN切片技术可用于在多种资源约束条件下，支持SAGIN中的各种定制服务。

RAN的各类切片是为支持各种服务而构思的，因此基于单一标准来优化一个切片网络是不恰当的。例如，带宽密集型切片旨在为用户提供高吞吐量服务，而对时延敏感的切片则旨在确保超低时延。然而，维持高吞吐量和超低时延的目标往往相互冲突。为了规避这种冲突，可以站在运营商的视角下，以运营商的净收益为优化目标。

目前关于天地一体化***中切片网络资源分配问题的研究较少，经检索，现有研究未涉及空天地一体化网络下针对5G典型的三类通信业务在RAN切片网络中进行资源分配优化的问题。专利申请号CN202310142265.4，申请日期为2023年2月21日，公开了一种空天地一体化车联网中基于切片的协作式任务卸载方法方法；专利申请号CN202310741479.3，申请日期为2023年6月20日，公开了一种空天地一体化的电网切片架构及其资源优化方法。上述专利均未考虑5G中三类不同业务的QoS差异且未使用非正交多址接入(Non-OrthgonalMultiple Access，NOMA)技术，无法应对大规模机器通信接入的情况。

大部分的天地一体化通信场景中没有考虑到不同通信业务的QoS存在互相冲突的问题，在资源受限的情况下可能会对彼此产生显著影响。例如，对带宽需求高的服务可能会占用大量信道资源，进而对延时敏感的轻量级服务造成高延时。

此外，从运营商的利益优化角度出发，运营商通过完成用户的通信业务获得收入，而设备运行、切片重置与通信业务失败会带来成本。优化目标是一个混合整数非线性(Mixed-Integer NonLinear Programming，MINLP)优化问题，对现有的启发式方法来说是难以处理的。困难主要有两方面。一方面，每个时间步的优化目标是NP难题且非凸的，因此像分支定界和割平面法这样的凸MINLP问题的解决方法不能直接应用。另一方面，由于通信模型随时间变化，长期优化目标的完整形式是一个混合整数非线性动态优化问题。非凸MINLP问题的扩展方法(例如，空间分支定界，分支削减)可以将它们分解成子问题，并找到接近最优解。然而，使用这些方法来解决本方法构建的问题需要在每个时间步计算最优解，这在计算上是昂贵的，并且难以满足低延迟的要求。

发明内容

有鉴于此，本发明的目的在于提供一种基于相同的底层物理SAGIN同时建立了三种典型的RAN切片，即增强型移动宽带eMBB、超可靠低时延通信URLLC以及海量机器类通信mMTC，并使用NOMA技术来提高带宽利用率以满足各类业务的QoS。本方法为联合优化频带资源的利用率、资源使用的成本、切片配置成本与业务未完成的QoS惩罚制定了一个长期收益优化问题。这是通过在切片间动态分配子信道资源，以及动态控制用户发射功率和信道接入来实现的。为了解决上述优化问题，本方法提出了一种Double-HASAC多智能体算法。

为达到上述目的，本发明提供如下技术方案：

一种空天地一体化切片网络资源分配方法，其包括：

S1、建立面向RAN切片技术和NOMA技术、服务三类典型业务的空天地一体化网络模型；

S2、基于空天地一体化网络模型，根据不同类型业务的服务质量目标与各个设备拥有的资源量规定约束，建立各类业务的收入与成本之间的数学模型；其中，成本包括QoS惩罚成本、运行成本以及切片配置成本；

S3、根据各个切片的带宽资源资源分配、上行用户设备的发射功率、上行用户设备的带宽资源分配以及空中节点选择性接入，构建一个混合整数非线性优化问题以保证运营商收益；

S4、将混合整数非线性优化问题分解成用户关联和功率控制问题以及切片与用户间带宽资源分配问题；并针对两个子问题设定各自的智能体、观测、奖励、动作，从而根据Double-HASAC多智能体算法对建立的优化问题进行交替迭代求解。

进一步地，在S1中建立的空天地一体化网络模型包含V个LEO、N个HAP和K个地面用户，其中LEO的集合为v∈V＝{1,...,V}；HAP的集合为n∈N＝{1,...,N}；地面用户的集合为k∈K＝{1,...,K}；HAPs以LEOs为支撑作为空中基站；将HAPs和LEOs总称为空中节点，表示为集合m∈M＝{1,...,N,N+1,...,N+V}，其中，前N个代表HAPs，其余代表LEOs。

进一步地，在步骤S2中，规定约束规则约束包括：定义用户k的通信任务为其中C_k(t)是任务大小，T_k ^MAX(t)是最大可容忍时延，q_k(t)∈Q是用户的任务类型；任务M_k(t)完成时延为T_k(t)，则T_k(t)满足条件：当完成时延T_k(t)满足约束：/>时，则代表任务M_k(t)符合QoS的要求。

进一步地，在步骤S2中，各类业务的收入与成本之间的数学模型包括：

(1)收入：在时隙t内，用户k完成了q类业务，则指示函数I_k,q(t)＝1，否则为0；设为完成q类业务的收益系数，则运营商在时间T内的总收益为：/>

(2)运行成本：每次用户信道接入都会带来运行成本的增加，设为空中节点m子信道l的接入成本系数则有：/>

(3)切片配置成本：切片运行在虚拟机上由SDN控制器进行自适应调整，改变切片的资源配置需要产生成本，即：其中，I(·)是指示函数，当前后时隙子信道l分配结果不一致时为1，否则为0；/>代表空中节点m的信道资源配置成本系数；

(4)QoS惩罚成本：对q类切片所提供的服务未达到服务质量目标的惩罚系数为则惩罚成本可以表示为：/>

进一步地，在步骤3中，混合整数非线性优化问题为：

其中Ξ^UE(t)、Ξ^SLICE(t)是子信道分配决策矩阵，Φ(t)是空中节点关联决策矩阵，P(t)是用户发射功率决策矩阵。

进一步地，在步骤S4中，针对用户关联和功率控制问题的HASAC算法的智能体、行动、状态和奖励被定义如下：

智能体：LEO-HAP-NOMA网络中的每个地面用户被视为一个智能体；

观测：设地面用户k受高空平台n管辖，且其在时隙t上有通信任务，则地面用户k的观测空间表示为：其中λ_n,m,q代表切片a_n,m,q的繁忙度，由下式度量：

式中的分母代表切片a_n,m,q被分配到的子信道数，分子代表切片a_n,m,q所服务的用户的速率总和，K_n,m,q是被分配到切片a_n,m,q的用户集合；

动作：地面用户k的动作空间可以表示为决定与HAP或LEO关联的对象，ρ_k(t)是功率控制因子；

奖励：每个地面用户K在时隙t内的奖励设置为

全局状态：全局状态用来进行中心化训练，设为智能体观测的集合

进一步地，在步骤S4中，针对切片与用户间带宽资源分配问题的HASAC算法的智能体、行动、状态和奖励被定义为：

智能体：LEO-HAP-NOMA网络中的每个高空平台n被视为一个智能体。

观测：设地面用户k受高空平台n管辖，且其在时隙t上有通信任务，则高空平台n的观测空间可以表示为

动作：高空平台n的动作空间可以表示为决定子信道在切片间分配方式，/>决定对地面用户的子信道资源分配方式；

奖励：每个地面用户N在时隙t内的奖励设置为：

进一步地，在步骤S4中，基于针对用户关联和功率控制问题和切片与用户间带宽资源分配问题的两种HASAC算法的解，进而根据Double-HASAC多智能体算法对建立的优化问题进行交替迭代求解的过程包括：

初始化各项超参数；

初始化评论家网络φ₁,φ₂、智能体演员网络{θⁱ}_i∈K、回放缓存B，并将主网络参数值赋予目标网络参数值；

对每次迭代执行：1)智能体k观察局部状态选择动作/>2)从环境获得和奖励r_t，并将转移样本/>***回放缓存中；3)从回放缓存中抽取一个批次的转化数据集；4)通过下式进行训练：

其中y_t是批评家网络的目标值，可通过下式求得：

对每个智能体执行，通过下列式子更新actor网络权重：

当φ₁,φ₂经过多次训练后，通过下列式子对目标网络权重进行平滑更新：

φ_targ,i←ρφ_targ,i+(1-ρ)φ_i for i＝1,2。

本发明的有益效果在于：

大部分的天地一体化通信场景中没有考虑到不同通信业务的QoS存在互相冲突的问题，在资源受限的情况下可能会对彼此产生显著影响。例如，对带宽需求高的服务可能会占用大量信道资源，进而对延时敏感的轻量级服务造成高延时。因此本发明首次将无线接入网络切片技术(RAN)与NOMA技术相结合用于解决资源受限情况下，不同业务QoS相互冲突的问题，并使得运营商收益最大化。

本发明考虑到空天地一体化场景下，协同困难的问题，提出了一种不需要在决策过程中进行信息交换的中心化训练、分散部署的最大熵异构多智能体强化学习方法，能够适应大范围的通信带宽资源分配问题，以较快的速度相应，并且能较快的收敛。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明实施例提供的一种天地一体化SAGIN切片网络；

图2为本发明实施例提供的Double-HASAC算法框图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图2，为一种空天地一体化切片网络资源分配方法。

实施例1

本方法设计了一个由低轨道卫星(LEOs)和高空平台(HAPs)组成的双层物理无线接入网(RAN)，即一个天地一体化***模型，如图1所示，其包含V个LEO、N个HAP和K个地面用户，其中LEO的集合为v∈V＝{1,...,V}；HAP的集合为n∈N＝{1,...,N}；地面用户的集合为k∈K＝{1,...,K}；HAPs作为空中基站，以LEOs为支撑，增强服务质量。将HAPs和LEOs总称为空中节点，表示为集合m∈M＝{1,...,N,N+1,...,N+V}，其中，前N个代表HAPs，其余代表LEOs。本方法聚焦于上行链路，假设所有LEOs和HAPs的上行链路均工作在5GHz的C波段，通过频段隔离以规避层间干扰。两层RAN的带宽均被设为B Hz，并进一步划分为L个等宽子信道l∈L＝{1,...,L}，每个子信道宽度为B/LHz。

鉴于LEOs具有高速运动特性，而HAPs能够长时间驻留、离地面用户近并拥有充足的能源，故认为由HAPs负责通信带宽资源协调是合理的。假定通过软件定义网络(SDN)实现资源的虚拟化，但会导致信令迅速增长。为提升SAGIN网络的反应速度，本方法提出了一种决策过程不依赖HAPs间信息交换的边缘控制架构，并简化了LEOs与HAPs间通信的考量。

为了满足增强型移动宽带(eMBB)、超可靠低时延通信(URLLC)和海量机器类通信(mMTC)这三种不同类型业务的QoS，分别设计三种切片q∈Q＝{1,2,3}。每个HAP通过边缘控制器在自身和LEOs上分别部署三类切片，切片集合记为A＝{a_n,m,q|n∈N,m∈M,q∈Q}，其中a_n,m,q代表HAPn在空中节点m上部署的q类切片。HAPs分别根据实时信息，灵活调配通信带宽资源，并控制用户是由HAP服务还是由LEO服务，以及确定用户的发射功率。在此，假设每个HAP和其控制的LEOs资源组成虚拟资源池VRP(Virtual resource pool)，其索引一一对应于HAP，表示为

网络的服务周期被划分为T个时间段[t,t+1),t∈T＝{1,...,T}，每个时间段时长为δ。模型假定每个时间段内LEOs和用户位置固定，在时间段之间用户位置随机变动；LEOs沿预定轨道移动；HAPs位置则保持不变。LEOs的索引在总生命周期T内保持恒定[27]。因此，HAPs、LEOs和用户的三维坐标分别表示为和其中地面用户的高度坐标/>恒为零。

本方法还包括建立一个通信模型。首先，定义用户子信道分配集合其中/> 表示在时隙t内将子信道l分配给用户，反之则不分配。同时，采用载波聚合技术使得每个用户可以使用多个子信道共同传输数据以适应不同业务的要求。当子信道l被分配个多个用户即∑_k∈Kξ_k,l(t)≥2时，代表对子信道l采用NOMA技术；当∑_k∈Kξ_k,l(t)＝1时，则采用的是OFDMA技术；若∑_k∈Kξ_k,l(t)＝0则代表子信道l在时隙t处于空闲状态。

接着，定义切片子信道分配集合为需满足约束：

这表明，在时隙t内空中节点m的子信道l只能分配给一个切片，表示将子信道l分配给切片a_n,m,q。

然后，定义网络组件关联指标集合为表示由HAP管理n的用户k在时隙t内与空中节点m相关联。本方法假设一个用户在一个时隙内只能与一个空中节点m连接，即：

接下来，设g_k,m,l(t)为用户k在时隙t与空中节点m在子信道l上的信道增益，并且时间上是独立同分布(i.i.d.)的，表示为：

g_k,m,l(t)＝h_k,m,l(t)[d_k,m(t)]^-α

其中，信道衰落h_k,m,l(t)遵循均值为一的指数分布，α是路径损耗指数，d_k,m(t)是用户k在时隙t与空中节点m之间的距离：

最后，设为用户k的最大发射功率；用户k在时隙t被分配使用/>个信道；设用户发射功率比例集合P(t)＝{ρ_k(t)|k∈K}，其中ρ_k(t)为时隙t时用户k的发射功率比例，满足条件：

则用户k在子信道l上的发射功率为则在时隙t内，与空中节点m相关联的用户k在子信道l速率r_k,m,l(t)可以表示为：

其中，N₀是加性白高斯噪声(AWGN)的功率谱密度，IF_k,m,l(t)为在时隙t内，与空中节点m相关联的用户k在子信道l的同频干扰。以空中节点m的信道增益顺序对用户进行排序：g_1,m,l(t)≥...≥g_k,m,l(t)≥...，则：

因此，在时隙t内，用户k的总速率r_k(t)为：

进一步地，本方法还包括根据上述模型建立的各种任务模型和相关约束。定义用户k的通信任务为其中C_k(t)是任务大小(以比特为单位)，是最大可容忍时延，q_k(t)∈Q是用户的任务类型。假设任务M_k(t)完成时延为T_k(t)，则T_k(t)满足条件：

当完成时延T_k(t)满足约束：时，则代表任务M_k(t)符合QoS的要求。

不同任务有不同的QoS要求，具体包括：

eMBB业务要求最低速率大于R^e：

URLLC业务要求最大容忍时延不高于T^u：

mMTC业务通常有较小的C_k(t)和较大的但是会有大量的设备产生mMTC业务。

本实施例按照上述方式建立面向RAN切片技术和NOMA技术的、服务三类典型业务的的空天地一体化网络模型，以便于后续针对不同类型业务的QoS与各个设备拥有的资源量规定约束，建立各类业务的完成收入与QoS违反成本(惩罚成本)、资源的使用成本(运行成本)与切片的资源重配置成本(切片配置成本)的数学模型。

实施例2

本实施例从运营商的角度建立了一个利益优化问题，利益与收入正相关，与成本负相关。运营商通过完成用户的通信业务获得收入，而设备运行、切片重置与通信业务失败会带来成本。

定义收入：假设在时隙t内，用户k完成了q类业务，则指示函数I_k,q(t)＝1，否则为0。

设为完成q类业务的收益系数，则运营商在时间T内的总收益为：

定义运行成本：每次用户信道接入都会带来运行成本的增加，设为空中节点m子信道l的接入成本系数则有：/>

定义切片配置成本：切片运行在虚拟机上由SDN控制器进行自适应调整，改变切片的资源配置会产生一定的成本，这与前后两个时隙的资源变化情况相关，可以表示为：其中，I(·)是指示函数，当前后时隙子信道l分配结果不一致时为1，否则为0；/>代表空中节点m的信道资源配置成本系数。

定义QoS惩罚成本：假设对q类切片所提供的服务未达到QoS的惩罚系数为则惩罚成本可以表示为：/>

考虑运营商的长期利益，优化问题可以公式化为：

其中Ξ^UE(t)、Ξ^SLICE(t)是子信道分配决策矩阵，Φ(t)是空中节点关联决策决策矩阵，P(t)是用户发射功率决策矩阵。需要动态调整上述决策矩阵来使得优化目标最大化。

优化目标是一个混合整数非线性(MINLP)优化问题，对现有的启发式方法来说是难以处理的。困难主要有两方面。一方面，每个时间步的优化目标是NP-hard且非凸的，因此像分支定界和割平面法这样的凸MINLP问题的解决方法不能直接应用。另一方面，由于通信模型随时间变化，长期优化目标的完整形式是一个混合整数非线性动态优化问题。非凸MINLP问题的扩展方法(例如，空间分支定界，分支削减)可以将它们分解成子问题，并找到接近最优解。然而，使用这些方法来解决本方法构建的问题需要在每个时间步计算最优解，这在计算上是昂贵的，并且难以满足低延迟的要求。因此，本方法利用DRL来解决资源分配问题。与其直接在每个时间步迭代算法，不如让代理学习一个策略，指导如何在任何观察到的状态下采取行动。训练后的DRL能够通过深度神经网络泛化理解未见过的状态，并且在执行过程中无需为任何特定的输入状态重新迭代解决方案。然而，由于本方法的场景中包含URLLC切片，其低时延约束使得资源分配任务比其他场景更加复杂和要求严格。因此，本方法使用了一种去中心化的基于最大熵异构智能体镜像学习(MEHAML)的SAGIN切片网络通信资源分配算法来解决上述问题。

实施例3

本实施例将介绍一种HASAC方法来解决优化问题。HASAC框架将被引入以最大化目标函数，并应用于集成的LEO-HAP-NOMA通信网络。优化过程包含两部分：用户关联和功率控制、切片与用户间带宽资源分配。基于HASAC的两种算法被提出来解决这两个问题。在这两种算法中巧妙地选择了不同的智能体。

强化学习(RL)不需要数据集，它从每个回合中从环境中接收奖励信息，学习并更新模型的参数。RL中的智能体可以与环境互动，观察行动的奖励，然后学习如何改变它们的行动以获得更高的奖励。智能体在尝试和错误的过程中不断进步。

在这个集成的LEO-HAP-NOMA通信网络场景中，环境中有许多智能体。当智能体数量增加时，传统的单智能体强化学习将面临不稳定和动态的环境，这将导致智能体过度适应其竞争对手的强策略。这里使用的HASAC算法可以处理复杂的多智能体场景，并实现更好的优化性能。

集成的LEO-HAP-NOMA网络的运营商收益优化问题可以被建模为马尔可夫博弈。它被视为多智能体强化学习情形中的MDP的扩展，典型表示为元组<N,S,O,A,r,P,γ,d>。其中N＝{1,...,n}是所有智能体的集合，S是状态空间，O＝{O₁,…,O_n}是所有智能体的观测空间集合。对于任意时间步t，状态s_t∈S表示环境的全局状态，而每个智能体的观测是s_t的子集，即/>假设状态不包含任何智能体无法观测的信息，即/> 是所有智能体的行动空间集合。r:/>是联合奖励函数。P:S×A×S→[0,1]是状态转移概率函数。γ∈[0,1)是折扣因子。每个智能体根据自己的策略函数选取自身动作/>所有智能体的联合动作为/>

根据优化问题，构建基于Double-HASAC算法的天地一体化切片网络通信资源分配算法的架构模型，如图2所示，其包括如下具体步骤：

将原优化问题分解成两个子问题：用户关联和功率控制问题、切片与用户间带宽资源分配问题。下面分别将两个子问题构建成部分可观测马尔可夫过程，设定各自的智能体、观测、奖励、动作。

作为智能体，每个用户可以观察环境并获取观察结果，然后从行动空间中选择行动并执行。接下来，执行行动后将获得奖励。在本发明中，两种算法的智能体、行动、状态和奖励被定义如下：

(1)用户关联和功率控制的HASAC算法：智能体、行动、状态和奖励被定义如下：

智能体：LEO-HAP-NOMA网络中的每个地面用户被视为一个智能体。

观测：设地面用户k受高空平台n管辖，且其在时隙t上有通信任务，则地面用户k的观测空间可以表示为：

其中λ_n,m,q代表切片a_n,m,q的繁忙度，由下式度量：

式中的分母代表切片a_n,m,q被分配到的子信道数，分子代表切片a_n,m,q所服务的用户的速率总和，K_n,m,q是被分配到切片a_n,m,q的用户集合。

动作：地面用户k的动作空间可以表示为

决定与哪个HAP或LEO关联，ρ_k(t)是功率控制因子。

奖励：由于HASAC算法属于中心化训练分散执行的多智能体强化学习，因此每个地面用户k的奖励在时隙t内都是相同的，这里将奖励设置为用户合作提高服务的完成率。

(2)切片信道资源分配的HASAC算法：在用户关联和功率控制的HASAC算法的基础上使用此算法进行切片间信道资源的分配，因此智能体、行动、状态和奖励与用户关联和功率控制的HASAC算法不同：

观测：设地面用户k受高空平台n管辖，且其在时隙t上有通信任务。则高空平台n的观测空间可以表示为

动作：高空平台n的动作空间可以表示为

决定了子信道在切片间如何分配。/>决定了分配给地面用户多少子信道资源。

奖励：与算法(1)中的用户只关心业务完成率不同，算法(2)需要全面考虑各项影响运营商收益的因素，因此，将奖励定义为：用户合作提高服务的完成率。

由于智能体的动作为连续变量或者二元决策变量(也可以松弛为连续变量)，所以本方法使用可以解决连续动作空间的软演员评论家(SAC，soft actor-critic)算法。此外，由于上述问题为N个智能体的马尔可夫博弈，因此将SAC推广至多智能体领域，可以用于解决这个问题。

SAC算法设有Actor网络和Critic网络，其中Actor网络用于得到智能体的动作，Critic网络用于评估动作的好坏。由于采用CTDE范式，多智能体算法HASAC设置一个全局Critic网络包含四个神经网络权重参数φ_targ,1,φ₁,φ_targ,2,φ₂。φ_targ,1,φ_targ,2分别是φ₁,φ₂的目标函数。SAGIN网络中有N个智能体，将智能体n的Actor网络的参数表示为θⁱ。在训练时，会随机在经验回放池中采样，然后基于这些样本对网络进行更新。

与一般的多智能体算法不同，为了提高每个智能体的探索性和稳健性，通过将每个智能体策略的预期熵的总和与目标相结合，本方法将联合最大熵目标定义为：

定义状态-动作Q_π(s,a)和状态值函数V_π(s)如下：

可以训练集中的状态-动作值函数参数，使贝尔曼残差最小化：

可以通过下列随机梯度进行优化：

其中y_t是批评家网络的目标值，可通过下式求得：

批评家网络权重由下式进行更新：

φ_targ,i←ρφ_targ,i+(1-ρ)φ_i for i＝1,2；

Actor网络的权重由下式更新：

首先，算法初始化神经网络的参数。同时，初始化重放记忆。actor网络基于概率选择行为，critic网络评估actor网络选择的行为。然后actor根据critic网络的评估改变概率。其次，算法给出了SAGIN切片网络的HASAC算法迭代过程中智能体的初始状态。接下来，在一个回合的每个步骤中，每个智能体观察到其新状态，这个新状态在资源分配上比它在上一回合更深入。然后智能体基于探索和策略选择行动。在每个智能体执行行动后，它获得了这个行动的奖励并得到新状态。最后，将上述值存储在重放记忆中。上述两个算法交替迭代使得运营商的长期收益收敛到最大值。

基于上述步骤，分别对两个部分可观测马尔可夫过程使用多智能体强化学习算法HASAC算法，其中上述算法(1)和(2)的解的基础上进行，下面是HASAC算法的具体过程：

初始化各项超参数；

其中y_t是批评家网络的目标值，可通过下式求得：

对每个智能体执行，通过下列式子更新actor网络权重：

φ_targ,i←ρφ_targ,i+(1-ρ)φ_i for i＝1,2。

本发明基于HASAC多智能体深度强化学***台和地面用户均建模为智能体，将所有对运营商收入和成本产生影响的参数建模为环境状态，将最大化运营商的长期收益转化为最大化运营商的奖励(即时收益)，根据环境获得的奖励反馈不断优化训练网络，从而得到切片与地面用户的带宽资源分配、用户接入与发射功率的最优策略。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种空天地一体化切片网络资源分配方法，其特征在于：所述方法包括：

2.根据权利要求1所述的一种空天地一体化切片网络资源分配方法，其特征在于：在S1中建立的空天地一体化网络模型包含V个LEO、N个HAP和K个地面用户，其中LEO的集合为v∈V＝{1,...,V}；HAP的集合为n∈N＝{1,...,N}；地面用户的集合为k∈K＝{1,...,K}；HAPs以LEOs为支撑作为空中基站；将HAPs和LEOs总称为空中节点，表示为集合m∈M＝{1,...,N,N+1,...,N+V}，其中，前N个代表HAPs，其余代表LEOs。

3.根据权利要求1所述的一种空天地一体化切片网络资源分配方法，其特征在于：在步骤S2中，规定约束规则约束包括：定义用户k的通信任务为其中C_k(t)是任务大小，/>是最大可容忍时延，q_k(t)∈Q是用户的任务类型；任务M_k(t)完成时延为T_k(t)，则T_k(t)满足条件：/>

4.根据权利要求3所述的一种空天地一体化切片网络资源分配方法，其特征在于：在步骤S2中，各类业务的收入与成本之间的数学模型包括：

收入：在时隙t内，用户k完成了q类业务，则指示函数I_k,q(t)＝1，否则为0；设为完成q类业务的收益系数，则运营商在时间T内的总收益为：/>

运行成本：每次用户信道接入都会带来运行成本的增加，设为空中节点m子信道l的接入成本系数则有：/>

切片配置成本：切片运行在虚拟机上由SDN控制器进行自适应调整，改变切片的资源配置需要产生成本，即：其中，I(·)是指示函数，当前后时隙子信道l分配结果不一致时为1，否则为0；/>代表空中节点m的信道资源配置成本系数；

QoS惩罚成本：对q类切片所提供的服务未达到服务质量目标的惩罚系数为则惩罚成本可以表示为：/>

5.根据权利要求1所述的一种空天地一体化切片网络资源分配方法，其特征在于：在步骤3中，混合整数非线性优化问题为：

6.根据权利要求1所述的一种空天地一体化切片网络资源分配方法，其特征在于：在步骤S4中，针对用户关联和功率控制问题的HASAC算法的智能体、行动、状态和奖励被定义如下：

奖励：每个地面用户K在时隙t内的奖励设置为

7.根据权利要求6所述的一种空天地一体化切片网络资源分配方法，其特征在于：在步骤S4中，针对切片与用户间带宽资源分配问题的HASAC算法的智能体、行动、状态和奖励被定义为：

奖励：每个地面用户N在时隙t内的奖励设置为：

8.根据权利要求7所述的一种空天地一体化切片网络资源分配方法，其特征在于：在步骤S4中，基于针对用户关联和功率控制问题和切片与用户间带宽资源分配问题的两种HASAC算法的解，进而根据Double-HASAC多智能体算法对建立的优化问题进行交替迭代求解的过程包括：

初始化各项超参数；

对每次迭代执行：1)智能体k观察局部状态选择动作/>2)从环境获得/>和奖励r_t，并将转移样本/>***回放缓存中；3)从回放缓存中抽取一个批次的转化数据集；4)通过下式进行训练：

其中y_t是批评家网络的目标值，可通过下式求得：

对每个智能体执行，通过下列式子更新actor网络权重：

φ_targ,i←ρφ_targ,i+(1-ρ)φ_i for i＝1,2。