CN112533274A

CN112533274A - 一种室内太赫兹bwp和功率调度方法及装置

Info

Publication number: CN112533274A
Application number: CN202011187720.5A
Authority: CN
Inventors: 张海君; 刘向南; 隆克平
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-03-19
Anticipated expiration: 2040-10-29
Also published as: US11444730B2; US20220140961A1; CN112533274B

Abstract

本发明公开了一种室内太赫兹BWP和功率调度方法及装置，利用智能反射表面IRS和NOMA补偿太赫兹波不适合在室内传输的缺点，将太赫兹配合IRS传播的室内环境转化为信道模型，将室内太赫兹IRS辅助***中的最佳无线资源调度转换为具有随机约束的功能优化设计；采用PPO来训练策略和相应的动作，以调度功率和带宽，演员部分产生连续的功率调度，评论者部分产生离散的带宽调度；同时采用梯度辅助原始对偶求解得到这两种资源调度的最优解，然后提出了迭代联合带宽和功率调度方法来最大限度地提高信息传输速率以及经济效益。本发明不仅能够实现对室内带宽和功率资源的合理调度，而且能够实现经济效益和能量有效性的最大化。

Description

一种室内太赫兹BWP和功率调度方法及装置

技术领域

本发明涉及移动通信技术领域，特别涉及一种IRS辅助场景下基于PPO对偶训练的室内太赫兹BWP和功率调度方法及装置。

背景技术

在无线通信技术的发展中，频谱资源一直是稀缺和宝贵的资源。如今，毫米波作为无线通信的关键技术之一，受到了业界和学术界的广泛关注。在即将到来的6G时代，太赫兹将以其更高的带宽和更窄的波束引发科学技术的革命性发展。但是，太赫兹波在空气中传播时，水分子会造成传输损耗，因此太赫兹通信更适合于短距离通信。但是，在室内环境中有许多障碍，例如家具，电器和移动的人，而太赫兹波的波长非常短。因此，室内的通信阻断效果非常大。

为解决上述问题，智能反射表面(IRS)是一项全新的技术，可以通过在平面上集成大量相对便宜的无源反射元件来智能地重新配置发射信号，从而显著改善反射率无线通信网络的性能。一些研究提出要建立一个IRS辅助的同时无线信息和功率传输***，以提高能量收集性能。同时，与传统的正交多路访问技术相比，非正交多址接入技术(NOMA)可以提供更多的吞吐量负载和用户要求，从而提高整个***的性能。

然而，在资源调度方面，现有技术主要针对功率的调度，而忽略了对带宽部分(BWP)的考虑，从射频信号处理的角度来看，使用宽带宽可能会导致不必要的功耗，导致资源难以合理利用，进而影响经济效益。

发明内容

本发明的目的在于提供一种室内太赫兹BWP和功率调度方法及装置，利用近似策略优化算法(PPO)的演员-评论者(Actual-Critic)结构来实现功率和带宽两种资源调度，并引入原始对偶加快训练速度，从而实现对室内带宽和功率资源的合理调度，同时保证设备供应商的经济效益和能量有效性的最大化。

为解决上述技术问题，本发明的实施例提供如下方案：

一方面，提供一种室内太赫兹BWP和功率调度方法，包括以下步骤：

S1、初始化无线接入设备、用户以及智能反射表面的各项参数及状态，包括最初的发射功率p₀，策略参数θ₀:＝{μ₀,σ₀}，拉格朗日乘子λ₀,φ₀；

S2、从一个截断的标准正态分布里抽取样本

S3、计算太赫兹路损L(f,d)以及信道增益h_j,k，包括无线接入设备到每个用户的传输路径和无线接入设备经过智能反射表面再反射到用户的传输路径；

S4、将初始条件送入资源调度通式中；

S5、将从信道状态矩阵H_JK得到的信道状态送入PPO算法中；

S6、根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计；

S7、利用原始对偶优化算法更新原始对偶的变量，直至奖励达到收敛；

S8、输出学习后的动作，调度的带宽因子β和功率p，以及最后的***性能函数g₀(x)；

S9、遍历所有用户，重复步骤S2到步骤S7，完成对于所有用户的调度；

S10、终止方法进程，取出数据。

优选地，在所述步骤S3中，对信道估计进行整合处理：

将存在的两种传输路径统一成一种情况；

其中，H_j,k是无线接入设备到用户的信道增益，H_r,k是智能反射表面到用户的信道增益，H_j,r是无线接入设备到智能反射表面的信道增益，Φ是相位转移矩阵，H_LOS,j,k是不经过智能反射表面的信道增益。

优选地，在所述步骤S4中，所述资源调度通式表示为：一个利用遍历平均值x捕获***的长期的瞬时***性能函数：x≤E[f(h,p(h))]，其中，f(h,p(h))是瞬时性能函数。

优选地，在所述步骤S5中，将信道状态送入到PPO算法中的演员部分和评论者部分，演员部分产生一个新的策略函数，选择高斯策略输出对于动作的调度的选择，评论者部分根据原有的Q值函数产生一个新的动作，对于带宽因子进行调度。

优选地，在所述步骤S6中，根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计：

其中，x₀是给定点，

是采样点，α₁,α₂,α₃分别是梯度估计的迭代因子，h是信道状态，

是分配策略，

是瞬时的***性能函数的观察值，

是约束函数的观察值，

是目标函数的观察值，

是计算得到的梯度观察值；

在所述步骤S7中，由步长γ₁,γ₂,γ₃,γ₄更新拉格朗日算子λ_k+1和φ_k+1，拉格朗日算子更新公式为：

θ_k+1＝θ_k+γ₁▽_θE[f₁(h,π(h,θ))λ_k]，

x_k+1＝x_k+γ₂(▽f₀(x_k)+▽f₁(x_k)φ_k-1)，

λ_k+1＝λ_k-γ₃(E_hf₁(π(h,θ_k+1),h)-x_k+1)，

φ_k+1＝φ_k-γ₄f₁(x_k+1)，

其中，h是信道状态，f₁(h,p(h))是瞬时数据传输速率，p(h)是瞬时发射功率，θ_k是第k次循环的参数集合，x_k是第k次循环的遍历平均值，λ_k,φ_k是第k次的拉格朗日乘子。

另一方面，提供一种室内太赫兹BWP和功率调度装置，包括：

初始化模块，用于初始化无线接入设备、用户以及智能反射表面的各项参数及状态，包括最初的发射功率p₀，策略参数θ₀:＝{μ₀,σ₀}，拉格朗日乘子λ₀,φ₀；

样本抽取模块，用于从一个截断的标准正态分布里抽取样本

路损及信道增益计算模块，用于计算太赫兹路损L(f,d)以及信道增益h_j,k，包括无线接入设备到每个用户的传输路径和无线接入设备经过智能反射表面再反射到用户的传输路径；

初始条件输入模块，用于将初始条件送入资源调度通式中；

信道状态输入模块，用于将从信道状态矩阵H_JK得到的信道状态送入PPO算法中；

梯度估计模块，用于根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计；

策略更新模块，用于利用原始对偶优化算法更新原始对偶的变量，直至奖励达到收敛；

输出模块，用于输出学习后的动作，调度的带宽因子β和功率p，以及最后的***性能函数g₀(x)；

遍历模块，用于遍历所有用户，完成对于所有用户的调度；

终止模块，用于终止方法进程，取出数据。

优选地，所述路损及信道增益计算模块具体用于对信道估计进行整合处理：

将存在的两种传输路径统一成一种情况；

优选地，所述资源调度通式表示为：一个利用遍历平均值x捕获***的长期的瞬时***性能函数：

其中，f(h,p(h))是瞬时性能函数。

优选地，所述信道状态输入模块具体用于：将信道状态送入到PPO算法中的演员部分和评论者部分，演员部分产生一个新的策略函数，选择高斯策略输出对于动作的调度的选择，评论者部分根据原有的Q值函数产生一个新的动作，对于带宽因子进行调度。

优选地，所述梯度估计模块具体用于：根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计：

其中，x₀是给定点，

是分配策略，

是瞬时的***性能函数的观察值，

是约束函数的观察值，

是目标函数的观察值，

是计算得到的梯度观察值；

所述策略更新模块中，由步长γ₁,γ₂,γ₃,γ₄更新拉格朗日算子λ_k+1和φ_k+1，拉格朗日算子更新公式为：

θ_k+1＝θ_k+γ₁▽_θE[f₁(h,π(h,θ))λ_k]，

x_k+1＝x_k+γ₂(▽f₀(x_k)+▽f₁(x_k)φ_k-1)，

λ_k+1＝λ_k-γ₃(E_hf₁(π(h,θ_k+1),h)-x_k+1)，

φ_k+1＝φ_k-γ₄f₁(x_k+1)，

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明采用近似策略优化算法的演员-评论者结构来联合解决对于连续功率和离散带宽的优化设计，并采用梯度辅助原始对偶求解得到这两种资源调度的最优解，然后，提出了迭代联合带宽和功率调度算法来最大限度地提高信息传输速率以及经济效益。本发明不仅能够实现对室内带宽和功率资源的合理调度，而且能够实现经济效益和能量有效性的最大化。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种室内太赫兹BWP和功率调度方法的流程图；

图2是本发明实施例的应用场景示意图；

图3是本发明实施例提供的一种室内太赫兹BWP和功率调度装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明的实施例首先提供了一种室内太赫兹BWP和功率调度方法，如图1所示，该方法包括以下步骤：

S1、初始化无线接入设备(AP)、用户以及智能反射表面(IRS)的各项参数及状态，包括最初的发射功率p₀，策略参数θ₀:＝{μ₀,σ₀}，拉格朗日乘子λ₀,φ₀；

S2、从一个截断的标准正态分布里抽取样本

S4、将初始条件送入资源调度通式中；

S5、将从信道状态矩阵H_JK得到的信道状态送入PPO算法中；

S10、终止方法进程，取出数据。

本发明针对6G无线室内网络未来发展，提出了一种新颖的联合资源调度机制，采用近似策略优化算法(PPO)的演员-评论者(Actual-Critic)结构来联合解决对于连续功率和离散带宽的优化问题，并采用梯度辅助原始对偶求解得到这两种资源调度的最优解，然后，提出了迭代联合带宽和功率调度算法来最大限度地提高信息传输速率以及经济效益。本发明方法不仅能够实现对室内带宽和功率资源的合理调度，而且能够实现经济效益和能量有效性的最大化。

具体地，在本发明的***中，考虑了一个带有若干天线的AP和若干室内用户。如图2所示，为同时包括配备若干天线的AP，室内的若干用户，以及预设的IRS。集合J是天线数，集合K是用户数。考虑室内AP与用户之间利用IRS进行通信的应用场景(下行链路)，使用的频段为1THz，接入技术选择NOMA。

从AP到用户k的初始信号为s_k，相应的预编码矩阵定义为F_k，可以得到来自AP的发射信号x是：

然后考虑通过IRS接收到的信号，在这种情况下，将有两个传输链路，H_LOS,j,k是直接传输而不通过IRS，而H_j,rΦH_r,k是通过IRS平面的间接传输，这两个传输链接表征了已建立的***状况。

显然，与后者相比，H_LOS,j,k由于太赫兹的高频而微弱。经过链路传输后，对应的第k个用户的接收信号y_k的信号为：

其中H_j,k是AP到用户的信道增益，而H_r,k是IRS到用户的信道增益，H_j,r是AP到IRS的信道增益，Φ是相位转移矩阵，H_LOS,j,k是不经过IRS的信道增益，n_k是高斯白噪声，满足

为了后面方便计算用户的信息传输速率R_k，下面做一下简化处理：

由于IRS是一个平面，因此应根据均匀的平面阵列而不是均匀的线性阵列来计算其天线响应矢量。因此，其转向向量，IRS中元素具有单位能量的响应可以写为如下公式：

其中，m和n是天线元素指数，λ是波长，φ和θ分别代表了信号入射的方位角和仰角，N代表的是天线总数(智能反射面反射因子数)，d是天线间隔，一般都设置

其中，N_t代表发送天线数，N_r代表接收天线数，α_il代表的是信道的衰落系数，N_clu和

分别是方形天线阵列的簇和每个簇内的路径。

联系上述公式的关系，信道增益将通过下列的方式表征出来：

每行代表AP的天线的索引，每列代表当前用户的索引。

另外，太赫兹的分子吸收损失不能忽略。因此，直接路径收益来自扩散损失L_spread和分子吸收损失L_abs，

L(f,d)＝L_spread(f,d)L_abs(f,d)

其中

和

从分子方面看，L_abs由传输介质的情况决定。

使用遍历平均值捕获***，可以将无线资源调度问题转换为长期瞬时性能函数：

其中f(h,p(h))是瞬时性能函数。***设计的目标是选择资源调度p(h)以最大化遍历变量x。平均变量x反映了无线通信***在很长一段时间内的性能，并受瞬时资源调度的影响。

在本发明的***设计中，h是信道状态，p(h)是瞬时发射功率，f₁(h,p(h))是瞬时数据传输速率。设计目标是在功率约束下最大化功率调度p(h)的遍历速率平均向量x。

maxf_o(x)

在接收端，串行干扰消除(SIC)技术用于多用户检测。在发送端，通过功率复用技术将同一子信道上的不同用户进行传输，并根据相关算法调度不同用户的信号功率，使得到达接收端的每个用户的信号功率不同。接收机根据不同的信号功率以一定的顺序执行干扰消除，以实现正确的解调。SIC技术还可以达到区分不同用户的目的。瞬时响应函数_1,k(h_k,p_k(h_k))是关于容量的计算，

对于限定的函数f₂(x)需要规定为，

所以问题变成了，

max∑_ilog(xⁱ)

x∈χ,p∈P

对于上述的***，强化学习中Value-based的方法对受限状态下的问题处理能力不足。在使用特征来描述状态空间中的某一个状态时，有可能因为个体观测的限制或者建模的局限，导致真实环境下本来不同的两个状态却在建模后拥有相同的特征描述，进而很有可能导致Value-based方法无法得到最优解。因此，本发明中主要以Policy-based为主，Value-based为辅。

传统的Policy-based解决办法是：

这种传统方法的缺陷在于更新步长γ₁，当步长选的不合适的时候更新的参数会更差，因此很容易导致越学越差。因此需要找到一种合适的步长，使每次更新时都能保证回报函数单调递增。这时PPO在策略更新上，通过引入相对熵解决这个问题。

PPO是一套Actor-Critic结构，Actor想最大化J_PPO(θ)：

但Actor需要旧的策略上根据优势函数A(h,θ)修改新的策略，优势A(h,θ)大的时候，修改幅度大，让新策略更可能发生。而且附加了一个KL惩罚项，λ在该方法中设定为0.95。

对应的优势函数A(h,θ)为，表达在状态h下，某动作p相对于平均而言的优势，

其中f₁'(π(h,θ),h)为针对信道状态h的新一步调度功率后计算下的瞬时性能函数，而f₁(π(h,θ),h)为在信道状态h下的原调度功率下的瞬时性能函数。

在Actor的惩罚函数的选择上，本发明采用PPO2：

其

在这种情况下可以保证两次更新之间的分布差距不大。

对于Critic部分，该罚命中则是对于输出的动作计算得到的瞬时性能函数的值进行BWP的调度，因为Critic部分采用的是深度Q学习网络的思路，所以需要将输出的瞬时性能函数进行离散化，具体的原则如下：

β＝{β₁,β₂,...,β_n}

其中β是可供调度的物理资源块(PRB)个数，更新条件考虑如下原则，对输出的性能函数f₁(·)，满足：

β_n+1←β_n,f₁(·)≥β_nR₀

其中R₀是单位PRB下可供传输的平均数据速率。

用户的请求访问速率可以通过ZipF分布来表示，如下式：

R_request＝1/n^αf₁(·)

对之前的***引入参数化会变成，

maxf_o(x)

效用函数f₀(x)考虑为加权操作，

f₀(x)＝∑_kw_k(x_k)

对于限定的函数f₂(x)需要规定为：

为了表示方便，对于***仍然用其拉格朗日函数为：

对四个参数依次求梯度：

x_k+1＝x_k+γ₂(▽f₀(x_k)+▽f₁(x_k)φ_k-1)

φ_k+1＝φ_k-γ₄f₁(x_k+1)

然后，利用零阶梯度更新替换原始度偶变量公式中的更新。零阶梯度估计可以通过有限差分的方式完成，其中通过随机观测构造给定点的无偏梯度估计。可以使用给定点x₀，θ₀和采样点

下的函数观测值构造具有有限差分的梯度估计，

其中α₁,α₂,α₃分别是梯度估计的迭代因子，而γ₁,γ₂,γ₃,γ₄是主要的原始对偶的迭代因子。

本发明采用近似策略优化算法的演员-评论者结构来联合解决对于连续功率和离散带宽的优化设计，并采用梯度辅助原始对偶求解得到这两种资源调度的最优解，然后，提出了迭代联合带宽和功率调度算法来最大限度地提高信息传输速率以及经济效益。本发明方法不仅能够实现对室内带宽和功率资源的合理调度，而且能够实现经济效益和能量有效性的最大化。

相应地，本发明的实施例还提供一种室内太赫兹BWP和功率调度装置，如图3所示，该装置包括：

样本抽取模块，用于从一个截断的标准正态分布里抽取样本

初始条件输入模块，用于将初始条件送入资源调度通式中；

遍历模块，用于遍历所有用户，完成对于所有用户的调度；

终止模块，用于终止方法进程，取出数据。

进一步地，所述路损及信道增益计算模块具体用于对信道估计进行整合处理：

将存在的两种传输路径统一成一种情况；

进一步地，所述资源调度通式表示为：一个利用遍历平均值x捕获***的长期的瞬时***性能函数：

其中，f(h,p(h))是瞬时性能函数。

进一步地，所述信道状态输入模块具体用于：将信道状态送入到PPO算法中的演员部分和评论者部分，演员部分产生一个新的策略函数，选择高斯策略输出对于动作的调度的选择，评论者部分根据原有的Q值函数产生一个新的动作，对于带宽因子进行调度。

进一步地，所述梯度估计模块具体用于：根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计：

其中，x₀是给定点，

是分配策略，

是瞬时的***性能函数的观察值，

是约束函数的观察值，

是目标函数的观察值，

是计算得到的梯度观察值；

θ_k+1＝θ_k+γ₁▽_θE[f₁(h,π(h,θ))λ_k]，

x_k+1＝x_k+γ₂(▽f₀(x_k)+▽f₁(x_k)φ_k-1)，

λ_k+1＝λ_k-γ₃(E_hf₁(π(h,θ_k+1),h)-x_k+1)，

φ_k+1＝φ_k-γ₄f₁(x_k+1)，

本发明提供的室内太赫兹BWP和功率调度装置不仅能够实现对室内带宽和功率资源的合理调度，而且能够实现经济效益和能量有效性的最大化。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种室内太赫兹BWP和功率调度方法，其特征在于，包括以下步骤：

S2、从一个截断的标准正态分布里抽取样本

S4、将初始条件送入资源调度通式中；

S5、将从信道状态矩阵H_JK得到的信道状态送入PPO算法中；

S10、终止方法进程，取出数据。

2.根据权利要求1所述的室内太赫兹BWP和功率调度方法，其特征在于，在所述步骤S3中，对信道估计进行整合处理：

将存在的两种传输路径统一成一种情况；

3.根据权利要求1所述的室内太赫兹BWP和功率调度方法，其特征在于，在所述步骤S4中，所述资源调度通式表示为：一个利用遍历平均值x捕获***的长期的瞬时***性能函数：

其中，f(h,p(h))是瞬时性能函数。

4.根据权利要求1所述的室内太赫兹BWP和功率调度方法，其特征在于，在所述步骤S5中，将信道状态送入到PPO算法中的演员部分和评论者部分，演员部分产生一个新的策略函数，选择高斯策略输出对于动作的调度的选择，评论者部分根据原有的Q值函数产生一个新的动作，对于带宽因子进行调度。

5.根据权利要求1所述的室内太赫兹BWP和功率调度方法，其特征在于，在所述步骤S6中，根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计：

其中，x₀是给定点，

是分配策略，

是瞬时的***性能函数的观察值，

是约束函数的观察值，

是目标函数的观察值，

是计算得到的梯度观察值；

λ_k+1＝λ_k-γ₃(E_hf₁(π(h,θ_k+1),h)-x_k+1)，

φ_k+1＝φ_k-γ₄f₁(x_k+1)，

6.一种室内太赫兹BWP和功率调度装置，其特征在于，包括：

样本抽取模块，用于从一个截断的标准正态分布里抽取样本

初始条件输入模块，用于将初始条件送入资源调度通式中；

遍历模块，用于遍历所有用户，完成对于所有用户的调度；

终止模块，用于终止方法进程，取出数据。

7.根据权利要求6所述的室内太赫兹BWP和功率调度装置，其特征在于，所述路损及信道增益计算模块具体用于对信道估计进行整合处理：

将存在的两种传输路径统一成一种情况；

8.根据权利要求6所述的室内太赫兹BWP和功率调度装置，其特征在于，所述资源调度通式表示为：一个利用遍历平均值x捕获***的长期的瞬时***性能函数：

其中，f(h,p(h))是瞬时性能函数。

9.根据权利要求6所述的室内太赫兹BWP和功率调度装置，其特征在于，所述信道状态输入模块具体用于：将信道状态送入到PPO算法中的演员部分和评论者部分，演员部分产生一个新的策略函数，选择高斯策略输出对于动作的调度的选择，评论者部分根据原有的Q值函数产生一个新的动作，对于带宽因子进行调度。

10.根据权利要求6所述的室内太赫兹BWP和功率调度装置，其特征在于，所述梯度估计模块具体用于：根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计：

其中，x₀是给定点，

是分配策略，

是瞬时的***性能函数的观察值，

是约束函数的观察值，

是目标函数的观察值，

是计算得到的梯度观察值；

λ_k+1＝λ_k-γ₃(E_hf₁(π(h,θ_k+1),h)-x_k+1)，

φ_k+1＝φ_k-γ₄f₁(x_k+1)，