CN114867030A

CN114867030A - 双时间尺度智能无线接入网切片方法

Info

Publication number: CN114867030A
Application number: CN202210649530.3A
Authority: CN
Inventors: 李佳珉; 王洁; 叶枫; 朱鹏程; 盛彬; 尤肖虎
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2022-08-05
Anticipated expiration: 2042-06-09

Abstract

本发明公开了一种双时间尺度智能无线接入网切片方法。该方法基于无蜂窝小区分布式大规模MIMO***架构，并结合非正交多址接入和海量终端动态多连接，针对网络状态长期变化的特点，在两个时间尺度上利用强化学习算法分别进行物理资源块分配和功率分配，以实现在不同时间和资源粒度下的自适应资源配置。本发明相对于现有技术，设置上下层联合配置资源，给定上层各片的物理资源块数量配置，下层控制根据小时间尺度内物理层的环境变化对每个用户进行物理资源块分配和功率分配并且动态选择链路，提高***的频谱效率，满足了未来6G海量流量超高可靠性、超低延迟服务的需求，对研究移动场景下的实时资源分配具有十分重要的意义。

Description

双时间尺度智能无线接入网切片方法

技术领域

本发明涉及一种基于无蜂窝小区分布式大规模MIMO***架构的双时间尺度智能无线接入网切片方法，属于移动通信技术领域。

背景技术

随着移动互联网的迅速发展，通信业务规模不断扩大，用户需求的差异性越来越高，不仅有限的频谱变得越来越紧缺，而且对高***吞吐量，超低延迟，超高可靠性和实时连接的需求进一步提高，传统的无线通信***需要进一步改进。无蜂窝分布式大规模MIMO是一种创新的可扩展的网络MIMO，在一个区域内分布的大量AP在同一时频资源中为所有用户服务。无蜂窝分布式大规模MIMO具有非常高的频谱效率、能量效率和覆盖率。此外，通过无蜂窝的结构，解决了蜂窝网络中的用户位置的移动性问题，无蜂窝分布式大规模MIMO***相比于集中式***具有信道多样性、无切换、覆盖率更高、无需在特定区域部署小区等优点。此外，多连通可以有效减少单链路情况下重传错传造成的延迟，满足6G***对海量服务的高可靠性要求和无蜂窝分布式大规模MIMO***的特点；非正交多址接入支持有限频谱资源的海量用户访问，进一步开发功率域提高***的吞吐量。

为了满足未来的6G大规模业务提供定制化服务，6G***更加注重有限资源的利用率，因此利用网络虚拟化技术而实现资源共享的网络切片技术应运而生。网络切片利用独立灵活的虚拟资源切片，将物理资源抽象为适用于不同场景的虚拟逻辑网络，为QoS提供了强有力的保证。关于核心网络切片的研究较为全面，主要集中于网络切片的配置与管理上；而关于无线接入网络切片的研究较少，现有的无线接入网络切片技术结合了多粒度网络资源的自我优化，并提出了分层切片的架构，然而都是在蜂窝网络中提出的，无蜂窝网络和网络切片技术也是高度契合的，一方面，无蜂窝分布式大规模MIMO***可以减少网络切片中无线信道的随机性，另一方面，网络切片使得无蜂窝分布式大规模MIMO***中的应用更加灵活。因此无蜂窝分布式大规模MIMO***与网络切片的结合研究变得越来越重要，对于满足未来6G中的多样性需求以及实现有限资源的动态分配具有重要的意义。

发明内容

技术问题：有鉴于此，本发明的目的是提供一种基于无蜂窝小区分布式大规模MIMO***架构的双时间尺度智能无线接入网切片方法，用以在无蜂窝小区分布式大规模MIMO***架构中结合网络切片技术实现有限资源的高效应用以及动态分配。

技术方案：本发明在无蜂窝小区分布式大规模MIMO***架构中针对上行用户进行的PRB分配以及功率分配，在保证用户队列时延，满足切片最低平均速率需求和用户速率中断概率等约束下，给出一种双时间尺度下的算法联合优化用户的QoS，即一种双时间尺度智能无线接入网切片方法，具体步骤如下：

该方法基于无蜂窝小区分布式大规模MIMO***架构，在所述的分布式大规模MIMO***中，一共有J个接入点AP连接到中央处理单元，J＝{1,2,...,j}，每个AP有M根天线，根据服务需求将覆盖范围内的用户分到不同的切片中，其覆盖范围中的切片集Ι＝{1,2,...,i}，切片i中的用户为U_i＝{1,2,...,u_i}；在双时间尺度网络切片结构内，小尺度时间维度为Δt＝1ms的传输时间间隔TTI，大尺度时间k维度上包括ΔT个TTI，在每个TTI中，总带宽W被划分为所有AP共享的F个物理资源块PRB，即F＝{1,2,...,f}，每个PRB分配的带宽为B＝W/F；所述方法具体包括如下步骤：

步骤S1、建立分布式大规模MIMO***的信道模型和上行链路信号传输模型，得到上行信道传输表达式以及增强型移动宽带eMBB用户、高可靠和低延迟通信URLLC用户的传输速率表达式；

步骤S2、建立切片模型，每种切片的用户在每个AP上引入一个根据先到先得策略传输的缓冲数据队列，由此可以将用户的数据包时延分为处理时延、传输时延和排队时延，并得到服务质量QoS的两个指标，即通信可靠性和包延迟的表达性；

步骤S3、在保证用户队列时延，满足切片最低平均速率需求和用户速率中断概率等约束下，建立分层优化模型；

步骤S4、提出双时间尺度接入网络切片方法，首先上层控制器利用深度Q网络DQN算法观察大尺度时间内的用户业务流量，为每个切片分配不同数量的PRB；基于上层控制器得到的切片配置方法，下层控制器利用多智能体深度确定性策略梯度MADDPG算法根据小尺度时间内的信道信息，继而对切片内的每个用户进行特定PRB分配和功率分配。

其中所述步骤S1具体包括：

步骤S101、考虑一个多连接场景下的衰落信道，第t个TTI中用户u_i与第f个PRB上与第j个AP间的上行信道增益建模为

公式(1)中

表示从第j个AP到用户u_i之间的大尺度衰落，

表示从用户u_i到第j个AP的距离，ζ是路径损失指数，

是对数衰落变量，

表示小尺度衰落，其元素服从标准瑞利分布

步骤S102、在分布式架构中考虑两种切片类型，一种是eMBB切片，其数据传输速率符合香农容量理论，第t个TTI中eMBB用户的数据传输速率可建模为

另外一种是URLLC切片，其数据速率用有限块长度理论来近似，在第t个TTI中URLLC用户的数据传输速率可建模为

公式(2)和公式(3)中的

表示信噪比，Δt指一个TTI，B是带宽；公式(3)中的

表示信道色散，ρ_i是切片i的平均数据包长度，Q^-1(·)为反高斯Q函数，ε为有效解码错误概率。

所述步骤S2具体包括：

步骤S201、将用户的数据包时延分为处理时延、传输时延和排队时延，在第t个TTI中切片i的总时延D_i,t为

公式(4)中

分别表示切片i的传输时延、传输时延、排队时延；

步骤S202、将第i个切片的丢包率定义为切片i中的包的总延迟超过预定义的最大切片延迟阈值的概率；那么，在第t个TTI中的第i个切片的数据包下降率，即丢包率δ_i,t可表示为

公式(5)中D_i,t是切片i的总时延，

表示切片i可接受的最大数据包延迟，Pr是概率符号；数据包延迟和可靠性将作为评价QoS性能的两个关键指标。

所述步骤S3具体包括：

步骤S301、上层控制策略π_C将业务流量的动态变化和QoS性能观察的动态变化转化为每个切片的PRB数量分配，因此上层控制策略π_C可以表示为第k个大尺度时间中从整个网络S_k的全局状态到切片中适当的PRB数量配置C_k的映射，可建模为

公式(6)中A_i表示切片i中用户的数据包到达率，

是切片i在的所有活跃用户的平均数据包延迟，

是在切片i的所有活动用户的平均丢包率，C_i,k是切片i的PRB数量配置；

步骤S302、在第k个大尺度时间的第t个TTI中，下层控制器将观察到的用户信息X_t和PRB数量配置信息C_k映射到物理层中的整体无线资源分配方法E_t，下层控制策略π_E可建模为

公式(7)中C_k是每个切片的PRB数量配置，ΔT是一个大尺度时间长度，

是切片i中的用户队列长度，

是用户的信道状态信息，

是一个二进制用户关联因子，表示AP关联和PRB分配，

表示分配给用户ui的功率可以是Z个不同的功率级别之一；

步骤S303、为了使所提出的分层网络切片优化***的整体效用最大化，将***的效用函数设置为包括上层控制和下层控制两部分，因此，在第k个大尺度时间中的第i个切片的效用函数U_i,k可建模为

公式(8)中的

是关于切片i的QOS效用函数，由切片i中所有活动用户的平均延迟

和平均包丢弃率

决定；

是关于切片i的频谱效率效用函数，由切片i中所有活动用户的数据速率和r_i,t决定，ΔT是一个大尺度时间长度，α_i,1、α_i,2、α_i,3是正加权因子；

分层网络切片架构的目标是在满足无线资源约束的基础上实现最优的***性能，因此，分层网络切片中的优化问题可以设计如下：

公式(9)中max是最大化函数，π_E是下层控制策略，π_C是上层控制策略，π是联合策略，U_i,n是切片i关于指标n的效用函数，X是一个折扣因子，当n足够大时，Xⁿ趋于零，该优化问题具有以下约束条件:

1)将分配给每个AP的总功率限制为小于所有AP的总功率

公式(10)中

为APj的总功率；

2)每个切片的数据速率的最小约束：

公式(11)中的

是u_i关联第j个AP和第f个PRB的传输速率，

为切片的最小数据速率；

3)在一个AP的每个切片的总数据处理速率小于该AP可以实现的最大数据处理速率：

公式(12)中R_j,i表示第j个AP在切片i上的总数据处理速率，

表示第j个AP的最大数据处理速率；

4)每个切片的数据包延迟约束：

公式(13)中的D_i,t是切片i的总时延，

表示最大的数据包延迟；

5)每个切片的丢包率约束：

公式(14)中的δ_i,t是切片i的丢包率，

表示最小的丢包率；

6)

公式(15)确保每个AP只能为一个用户分配一个PRB，这使每个AP能够提供尽可能多的用户，并减少在同一AP上的资源重用，以减少干扰；

7)

公式(16)确保不同的AP不能为相同的用户分配相同的PRB，

分别表示在t个TTI中针对同一个PRB,两个不同的AP对用户u_i的关联因子；

8)

公式(17)确保同一个AP可以为不同的用户分配不同的PRB，

分别表示在t个TTI中两个针对同一个AP,不同的PRB对用户u_i的分配因子；

9)

公式(18)确保***中的活动用户必须连接到至少一个AP和已分配的资源，

表示在第t个TTI中APj对用户u_i的关联因子。

所述步骤S4具体包括：

步骤S401、在每个切片C_k∈C的PRB数量配置下，下层控制策略学习的目标是找到一个能够获得所有状态的最大期望奖励的最优策略

因此下层控制策略的优化问题如下设计，以获得最大期望累积奖励；

公式(19)中π_E是下层控制策略，C_k是切片的PRB数量配置；

步骤S402、利用MADDPG算法可以解决下层控制策略的优化问题，AP和通信网络可以分别作为智能体和环境；对于下层控制器，所观察到的物理层应动态地执行无线资源分配的动作，以获得***的最大期望累积奖励；

因此，对于一个智能体

1)状态s_j：连接到智能体的用户信道状态信息H_j(t)和用户队列信息Q_j(t)；

s_j＝{Q_j(t),H_j(t)} (20)

2)动作a_j：对于APj，动作对应于一个无线资源分配方法，包括功率分配和PRB分配，因此，智能体在当前时刻t的作用表示为

3)奖励r_j：将智能体的奖励函数定义为每个AP在约束下分配PRB和功率后AP处频谱效率的和，否则定义为负反馈，因此，每个智能体的奖励函数可以表示为

公式(22)中r_reg表示一个固定值；

步骤S403、利用DQN算法可以解决上层控制策略的优化问题，对于上层控制器，每个切片中的PRB数量应该根据服务流量进行动态配置，以最大化***的整体效用；

因此，对于上层控制器

1)状态s_k：全局状态信息包括用户的平均到达率A_i、平均延迟率

和平均丢包率

2)动作a_k：上层控制器的动作空间对应于每个切片的PRB数量分配C_k，C_i,k是切片i的PRB配置数量；由于***中总共有一个I个切片，因此动作空间可以用I维向量来表示；

3)奖励r_k：在给定的下层最优控制策略

下，上层控制策略的收敛目标是使***的整体效用最大化，因此，将奖励函数定义为满足约束的***的效用，而不满足约束的***是负反馈，具体表示为

公式(25)示一个固定值，U_i,k是第k个大尺度时间中的第i个切片的效用函数。

有益效果：本发明在无蜂窝小区分布式大规模MIMO架构中提出一种双时间尺度无线接入网络切片方法，该方法从蜂窝小区架构中的网络切片方法扩展到无蜂窝架构中，并结合分层时间模型，有效提高了有限资源的利用率，增强了资源分配的实时性，可以满足未来6G中需求的多样性。

附图说明

图1是下层控制器在分配给URLLC切片(切片0)和eMBB切片(切片1)的PRB数为2:4时的频谱效率图，其中红色图线代表静态资源分配法的频谱效率；

图2是下层控制器在分配给URLLC切片(切片0)和eMBB切片(切片1)的PRB数为3:3时的频谱效率图，其中红色图线代表静态资源分配法的频谱效率；

图3是下层控制器在分配给URLLC切片(切片0)和eMBB切片(切片1)的PRB数为4:2时的频谱效率图，其中红色图线代表静态资源分配法的频谱效率；

图4是上层控制器控制切片PRB数量配置的仿真结果。

具体实施方式

下面结合实例，对本发明进行详细的描述：

假设一个0.5×0.5m²的无蜂窝分布式大规模MIMO***，有2个AP，每个AP有50根天线。在这个覆盖区域内有两种具有不同服务类型的用户类型，即将具有高可靠性、超低延迟传输服务需求的用户划分为URLLC切片，即切片0；将需要高数据速率服务的用户划分为eMBB切片，即切片1。

信道模型由三部分组成：路径损耗、阴影衰落和小尺度衰落，可以表示为

其中

令路径衰落因子α＝3.6，参考距离为1，

为满足指数正态分布的阴影衰落变量，

表示小尺度衰落，其元素服从标准瑞利分布

在双时间尺度网络切片结构内，小尺度时间t维度为Δt＝1ms传输时间间隔，大尺度时间k维度上包括ΔT个TTI，ΔT＝10ms，在每个TTI中，总带宽W被划分为所有AP共享的6个PRB，F＝{1,2,...,6}个PRB平均分配的带宽为B＝180kHz。其特征在于，所述方法具体包括如下步骤：

步骤S1、建立分布式大规模MIMO***的信道模型和上行链路信号传输模型，得到上行信道传输表达式以及两种类型(URLLC、emBB)用户的传输速率表达式。

在本实施例中，步骤S1具体包括：

步骤S11、考虑一个多连接场景下的衰落信道，第t个TTI中用户u_i与第f个PRB上与第j个AP间的上行信道增益建模为

步骤S12、eMBB切片，其数据传输速率符合香农容量理论，第t个TTI中eMBB用户的数据传输速率可建模为

公式(3)中的

表示信道色散，Q^-1(·)为反高斯Q函数，ρ_i是切片i的平均数据包长度，ε为有效解码错误概率，设置为0.05；公式(2)和公式(3)中的

表示信噪比，可建模为

公式(4)中的加性高斯白噪声功率σ²＝-174dBm/Hz；

是表示第t个TTI中第f个PRB上的切片i中从APj分配给用户u_i的功率，可以选择0，9，19，29的功率。

步骤S2、建立切片模型，每种切片的用户在每个AP上引入一个根据先到先得策略传输的缓冲数据队列，得到服务质量的两个指标，即通信可靠性和包延迟的表达性。

在本实施例中，步骤S2具体包括：

步骤S21、假设每个用户在AP上都有一个数据队列来缓冲传入的数据包，表示切片i中的总数据包长度为Ω_i，其中设置Ω₀＝1000Byte，Ω₁＝5000Byte，并且该数据队列根据先到先得策略进行传递。在第t个TTI中，在切片i中用户u_i的缓冲区中等待发送的队列长度为Q_ui(t)，那么用户u_i的队列更新过程为

公式(5)中A_i表示切片i中用户的数据包到达率，其中设置A₀＝0.2packets/s，A₁＝1packets/s，

是用户u_i的传输速率。

步骤S22、将用户的数据包时延分为处理时延、传输时延和排队时延，在第t个TTI中切片i的总时延为

1)传输延迟是指在AP和切片之间的链路上传输数据包所需的时间。因此，第t个TTI中切片i的传输延迟

可以表示为

公式(7)中的r_i,t是切片i的总传输速率；

2)处理延迟是指AP接收到相应用户的数据请求后，处理数据包所需的时间。第t个TTI中切片i的处理延迟

可以表示为

公式(8)中R_j,i表示第j个AP在切片i上的总数据处理速率，其中设置R_j,0＝1Mbit/s，R_j,1＝0.5Mbit/s；

3)根据排队理论，切片i中数据包到达的平均等待时间(包括等待时间和服务时间)，即TTI内切片i的排队延迟

为

公式(9)中μ_i表示切片i中用户的服务率，θ_i为切片i中每个PRB的平均服务速率，设置为θ₀＝50bit/s，θ₁＝30bit/s，C_i是切片i的PRB配置，U_i是切片i的用户数量，设置成3个。

步骤S23、将第i个切片的丢包率定义为切片i中的包的总延迟超过预定义的最大切片延迟阈值的概率。那么，在第t个TTI中的第i个切片的数据包下降率，即丢包率可表示为

公式(10)中D_i，t是切片i的总时延，

步骤S3、在保证用户队列时延，满足切片最低平均速率需求和用户速率中断概率等约束下，建立分层优化模型。

在本实施例中，步骤S3具体包括：

步骤S31、上层控制策略π_C将业务流量的动态变化和QoS性能观察的动态变化转化为每个切片的PRB数量分配，因此上层控制策略π_C可以表示为从整个网络S_k的全局状态到切片中适当的PRB数量配置C_k的映射，可建模为

公式(11)中A_i表示切片i中用户的数据包到达率，

是切片i用户的平均数据包延迟，

是在切片i用户的平均丢包率，C_i,k是切片i的PRB数量配置。

步骤S32、在第k个大尺度时间的每个TTI中，下层控制器将观察到的用户信息X_t和PRB数量配置信息C_k映射到物理层中的整体无线资源分配方法E_t，下层控制策略π_E可建模为

公式(12)中C_k是每个切片的PRB数量配置，ΔT是一个大尺度时间长度，

是切片i中的用户队列长度，

是用户的信道状态信息。

是一个二进制用户关联因子，表示AP关联和PRB分配，

表示分配给用户u_i的功率可以是Z个不同的功率级别之一。

步骤S33、为了使所提出的分层网络切片优化***的整体效用最大化，将***的效用函数设置为包括上层控制和下层控制两部分，因此，在第k个大尺度时间中的第i个切片的效用函数可建模为

公式(13)中的的

和平均包丢弃率

决定；

是关于切片i的频谱效率效用函数，由切片i中所有活动用户的数据速率和r_i，t决定，ΔT是一个大尺度时间长度，α_i，1、α_i，2、α_i，3是正加权因子，分别设置为1，10⁶，10⁵。

分层网络切片架构的目标是在满足无线资源约束的基础上实现最优的***性能。因此，分层网络切片中的优化问题可以设计如下：

公式(14)中π_E是下层控制策略，π_C是上层控制策略，π是联合策略，U_i，n是切片i关于指标n的效用函数，X是一个折扣因子，当n足够大时，Xⁿ趋于零。该优化问题具有以下约束条件:

1)将分配给每个AP的总功率限制为小于所有AP的总功率

公式(15)中的

为所有AP的总功率；

2)每个切片的数据速率的最小约束：

公式(16)中的

是u_i关联第j个AP和第f个PRB的传输速率，

为切片的最小数据速率，其中设置

公式(17)中R_j,i表示第j个AP在切片i上的总数据处理速率，

表示第j个AP的最大数据处理速率，其中设置

4)每个切片的数据包延迟约束：

公式(18)中的D_i，t是切片i的总时延，

表示最大的数据包延迟，其中设置

5)每个切片的丢包率约束：

公式(19)中的的δ_i，t是切片i的丢包率，

表示最小的丢包率，其中设置

6)

公式(20)确保每个AP只能为一个用户分配一个PRB，这使每个AP能够提供尽可能多的用户，并减少在同一AP上的资源重用，以减少干扰；

7)

公式(21)确保不同的AP不能为相同的用户分配相同的PRB，

分别表示在t个TTI中针对同一个PRB，两个不同的AP对用户u_i的关联因子；

8)

公式(22)确保同一个AP可以为不同的用户分配不同的PRB，

分别表示在t个TTI中针对同一个AP，两个不同的PRB对用户u_i的分配因子；

9)

公式(23)确保***中的活动用户必须连接到至少一个AP和已分配的资源，

表示在第t个TTI中APj对用户u_i的关联因子。

步骤S4、提出双时间尺度网络切片方法，首先上层控制器利用DQN算法观察大尺度时间内的用户业务流量为每个切片分配不同数量的PRB，使得切片之间可以共享PRB资源；基于上层控制器得到的切片配置方法，下层控制器利用MADDPG算法根据小尺度时间内的信道状态以及用户队列信息，继而对切片内的每个用户进行特定PRB分配和功率分配。

在本实施例中，步骤S4具体包括：

步骤S41、在每个切片C_k∈C的PRB数量配置下，下层控制策略学习的目标是找到一个能够获得所有状态的最大期望奖励的最优策略

步骤S42、利用MADDPG算法可以解决下层控制策略的优化问题，AP和通信网络可以分别作为智能体和环境。对于下层控制器，所观察到的物理层应动态地执行无线资源分配的动作，以获得***的最大期望累积奖励。

因此，对于一个智能体

1)状态s_j：考虑到设置的每个切片的数据包到达率总是相同的，并且用户队列保持在相同的状态，因此，可以将智能体在当前时刻t的状态公式简化为

2)动作a_j：对于APj，动作对应于一个无线资源分配方法，包括功率分配和PRB分配。因此，智能体在当前时刻t的作用表示为

3)奖励r_j：将智能体的奖励函数定义为每个AP在约束下分配PRB和功率后AP处频谱效率的和，否则定义为负反馈。因此，每个智能体的奖励函数可以表示为

公式(27)中r_reg表示一个固定值。

步骤S43、下层控制器利用MADDPG算法分配PRB和功率，包括以下步骤：

1)用随机参数初始化神经网络，设置training_episode＝1；

2)每次训练时初始化环境状态，所有的AP观察初始状态s，设置time_slot＝1；

3)在每个TTI中所有的AP根据观察的状态进行动作选择a，即对用户进行PRB分配和功率分配，进而环境根据动作是否满足约束条件给予智能体奖励r，环境进入下一个状态s’；

4)将所有AP传输的状态转换序列(s,a,r,s’)后，将其存储在经验缓冲区中；

5)下层控制器通过

更新批评网络，并计算所有智能体的动作梯度，其中

为智能体j的动作值函数，

为动作值函数的损失函数；

6)所有AP根据

接收动作网络更新的动作梯度；

7)遍历time_slot 1-T_L，time_slot＝time_slot+1，更新用户位置，返回执行3)；

8)遍历training_episode 1-K_L，training_episode＝training_episode+1，返回执行2)，直到算法收敛。

步骤S44、在收敛的下层控制策略

下，将上层控制策略

的优化问题如下设计，以学习到最优的上层控制策略；

步骤S45、利用DQN算法可以解决上层控制策略的优化问题，对于上层控制器，每个切片中的PRB数量应该根据服务流量进行动态配置，以最大化***的整体效用。

因此，对于上层控制器

1)状态s_k：由于每个切片的用户分组到达率是一个固定值，并且平均丢包率由平均延迟决定，因此状态可以简化为

2)动作a_k：上层控制器的动作空间对应于每个切片的PRB数量分配C_k，C_i，k是切片i的PRB配置数量。由于***中总共有一个I个切片，因此动作空间可以用I维向量来表示；

3)奖励r_k：在给定的下层最优控制策略

下，上层控制策略的收敛目标是使***的整体效用最大化。因此，将奖励函数定义为满足约束的***的效用，而不满足约束的***是负反馈，具体表示为

公式(31)中r_reg表示一个固定值。

步骤S46、上层控制器利用DQN算法控制每个切片的PRB数量配置，包括以下步骤：

1)用随机参数初始化神经网络，设置training_episode＝1；

2)每次训练时初始化环境状态，上层控制器观察初始状态s，设置time_slot＝1；

3)上层控制器根据观察的状态采取一个基于ε-贪婪算法的动作a，并获得相应的奖励r，环境进入下一个状态s’；

4)将所有状态转换序列(s,a,r,s’)后，将其存储在经验缓冲区中；

5)通过执行随机梯度下降来更新DQN中Q函数的权值

以最小化损失函数

6)遍历time_slot 1-T_U，time_slot＝time_slot+1,返回执行3)；

7)遍历training_episode 1-K_U，training_episode＝training_episode+1，返回执行2)，直到算法收敛。

以上展现了利用本发明所述方法进行无蜂窝大规模MIMO无线接入网络的动态资源分配的整个过程。

图1是下层控制器在分配给URLLC切片(切片0)和eMBB切片(切片1)的PRB数为2:4时的频谱效率图，其中红色图线代表静态资源分配法(SRA)的频谱效率；

图2是下层控制器在分配给URLLC切片(切片0)和eMBB切片(切片1)的PRB数为3:3时的频谱效率图，其中红色图线代表静态资源分配法(SRA)的频谱效率；

图3是下层控制器在分配给URLLC切片(切片0)和eMBB切片(切片1)的PRB数为4:2时的频谱效率图，其中红色图线代表静态资源分配法(SRA)的频谱效率；

从上图中可以看出，当使用MADDPG算法来学习下层控制策略时，可以在所有的PRB数配置中学习到最优性能。下层控制策略学习收敛在10000episode左右，其性能几乎是SRA策略的两倍。

图4是上层控制器控制切片PRB数量配置的仿真结果，即***效用。从图中可以看出，随着学习步数的迭代，DQN算法收敛到奖励最高的动作，根据设置的权重选择使***总效用最大化的PRB资源配置，将6个PRB分配到URLLC片和eMBB片。因此，上层控制策略利用DQN算法求解切片的上层PRB量配置可以得到最优方法。

本发明在无蜂窝小区分布式大规模MIMO架构中提出一种双时间尺度无线接入网络切片方法，该方法从蜂窝小区架构中的网络切片方法扩展到无蜂窝架构中，并结合分层时间模型，有效提高了有限资源的利用率，增强了资源分配的实时性，可以满足未来6G中需求的多样性，服务于多种通信场景，具有一定的使用价值与再研究价值。

Claims

1.一种双时间尺度智能无线接入网切片方法，其特征在于，该方法基于无蜂窝小区分布式大规模MIMO***架构，在所述的分布式大规模MIMO***中，一共有J个接入点AP连接到中央处理单元，J＝{1,2,...,j}，每个AP有M根天线，根据服务需求将覆盖范围内的用户分到不同的切片中，其覆盖范围中的切片集Ι＝{1,2,...,i}，切片i中的用户为U_i＝{1,2,...,u_i}；在双时间尺度网络切片结构内，小尺度时间维度为Δt＝1ms的传输时间间隔TTI，大尺度时间k维度上包括ΔT个TTI，在每个TTI中，总带宽W被划分为所有AP共享的F个物理资源块PRB，即F＝{1,2,...,f}，每个PRB分配的带宽为B＝W/F；所述方法具体包括如下步骤：

2.根据权利要求1所述的一种双时间尺度智能无线接入网切片方法，其特征在于，所述步骤S1具体包括：