CN112533274A - 一种室内太赫兹bwp和功率调度方法及装置 - Google Patents

一种室内太赫兹bwp和功率调度方法及装置 Download PDF

Info

Publication number
CN112533274A
CN112533274A CN202011187720.5A CN202011187720A CN112533274A CN 112533274 A CN112533274 A CN 112533274A CN 202011187720 A CN202011187720 A CN 202011187720A CN 112533274 A CN112533274 A CN 112533274A
Authority
CN
China
Prior art keywords
scheduling
power
terahertz
indoor
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011187720.5A
Other languages
English (en)
Other versions
CN112533274B (zh
Inventor
张海君
刘向南
隆克平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202011187720.5A priority Critical patent/CN112533274B/zh
Priority to US17/138,949 priority patent/US11444730B2/en
Publication of CN112533274A publication Critical patent/CN112533274A/zh
Application granted granted Critical
Publication of CN112533274B publication Critical patent/CN112533274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/241TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account channel quality metrics, e.g. SIR, SNR, CIR, Eb/lo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L5/00Arrangements affording multiple use of the transmission path
    • H04L5/0001Arrangements for dividing the transmission path
    • H04L5/0014Three-dimensional division
    • H04L5/0023Time-frequency-space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/242TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account path loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L5/00Arrangements affording multiple use of the transmission path
    • H04L5/0001Arrangements for dividing the transmission path
    • H04L5/0003Two-dimensional division
    • H04L5/0005Time-frequency
    • H04L5/0007Time-frequency the frequencies being orthogonal, e.g. OFDM(A), DMT
    • H04L5/001Time-frequency the frequencies being orthogonal, e.g. OFDM(A), DMT the frequencies being arranged in component carriers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L5/00Arrangements affording multiple use of the transmission path
    • H04L5/003Arrangements for allocating sub-channels of the transmission path
    • H04L5/0037Inter-user or inter-terminal allocation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L5/00Arrangements affording multiple use of the transmission path
    • H04L5/003Arrangements for allocating sub-channels of the transmission path
    • H04L5/0058Allocation criteria
    • H04L5/006Quality of the received signal, e.g. BER, SNR, water filling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/30TPC using constraints in the total amount of available transmission power
    • H04W52/34TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading
    • H04W52/346TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading distributing total power among users or channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/38TPC being performed in particular situations
    • H04W52/50TPC being performed in particular situations at the moment of starting communication in a multiple access environment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/535Allocation or scheduling criteria for wireless resources based on resource usage policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/542Allocation or scheduling criteria for wireless resources based on quality criteria using measured or perceived quality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种室内太赫兹BWP和功率调度方法及装置,利用智能反射表面IRS和NOMA补偿太赫兹波不适合在室内传输的缺点,将太赫兹配合IRS传播的室内环境转化为信道模型,将室内太赫兹IRS辅助***中的最佳无线资源调度转换为具有随机约束的功能优化设计;采用PPO来训练策略和相应的动作,以调度功率和带宽,演员部分产生连续的功率调度,评论者部分产生离散的带宽调度;同时采用梯度辅助原始对偶求解得到这两种资源调度的最优解,然后提出了迭代联合带宽和功率调度方法来最大限度地提高信息传输速率以及经济效益。本发明不仅能够实现对室内带宽和功率资源的合理调度,而且能够实现经济效益和能量有效性的最大化。

Description

一种室内太赫兹BWP和功率调度方法及装置
技术领域
本发明涉及移动通信技术领域,特别涉及一种IRS辅助场景下基于PPO对偶训练的室内太赫兹BWP和功率调度方法及装置。
背景技术
在无线通信技术的发展中,频谱资源一直是稀缺和宝贵的资源。如今,毫米波作为无线通信的关键技术之一,受到了业界和学术界的广泛关注。在即将到来的6G时代,太赫兹将以其更高的带宽和更窄的波束引发科学技术的革命性发展。但是,太赫兹波在空气中传播时,水分子会造成传输损耗,因此太赫兹通信更适合于短距离通信。但是,在室内环境中有许多障碍,例如家具,电器和移动的人,而太赫兹波的波长非常短。因此,室内的通信阻断效果非常大。
为解决上述问题,智能反射表面(IRS)是一项全新的技术,可以通过在平面上集成大量相对便宜的无源反射元件来智能地重新配置发射信号,从而显著改善反射率无线通信网络的性能。一些研究提出要建立一个IRS辅助的同时无线信息和功率传输***,以提高能量收集性能。同时,与传统的正交多路访问技术相比,非正交多址接入技术(NOMA)可以提供更多的吞吐量负载和用户要求,从而提高整个***的性能。
然而,在资源调度方面,现有技术主要针对功率的调度,而忽略了对带宽部分(BWP)的考虑,从射频信号处理的角度来看,使用宽带宽可能会导致不必要的功耗,导致资源难以合理利用,进而影响经济效益。
发明内容
本发明的目的在于提供一种室内太赫兹BWP和功率调度方法及装置,利用近似策略优化算法(PPO)的演员-评论者(Actual-Critic)结构来实现功率和带宽两种资源调度,并引入原始对偶加快训练速度,从而实现对室内带宽和功率资源的合理调度,同时保证设备供应商的经济效益和能量有效性的最大化。
为解决上述技术问题,本发明的实施例提供如下方案:
一方面,提供一种室内太赫兹BWP和功率调度方法,包括以下步骤:
S1、初始化无线接入设备、用户以及智能反射表面的各项参数及状态,包括最初的发射功率p0,策略参数θ0:={μ00},拉格朗日乘子λ00
S2、从一个截断的标准正态分布里抽取样本
Figure BDA0002751891280000021
S3、计算太赫兹路损L(f,d)以及信道增益hj,k,包括无线接入设备到每个用户的传输路径和无线接入设备经过智能反射表面再反射到用户的传输路径;
S4、将初始条件送入资源调度通式中;
S5、将从信道状态矩阵HJK得到的信道状态送入PPO算法中;
S6、根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计;
S7、利用原始对偶优化算法更新原始对偶的变量,直至奖励达到收敛;
S8、输出学习后的动作,调度的带宽因子β和功率p,以及最后的***性能函数g0(x);
S9、遍历所有用户,重复步骤S2到步骤S7,完成对于所有用户的调度;
S10、终止方法进程,取出数据。
优选地,在所述步骤S3中,对信道估计进行整合处理:
Figure BDA0002751891280000022
将存在的两种传输路径统一成一种情况;
其中,Hj,k是无线接入设备到用户的信道增益,Hr,k是智能反射表面到用户的信道增益,Hj,r是无线接入设备到智能反射表面的信道增益,Φ是相位转移矩阵,HLOS,j,k是不经过智能反射表面的信道增益。
优选地,在所述步骤S4中,所述资源调度通式表示为:一个利用遍历平均值x捕获***的长期的瞬时***性能函数:x≤E[f(h,p(h))],其中,f(h,p(h))是瞬时性能函数。
优选地,在所述步骤S5中,将信道状态送入到PPO算法中的演员部分和评论者部分,演员部分产生一个新的策略函数,选择高斯策略输出对于动作的调度的选择,评论者部分根据原有的Q值函数产生一个新的动作,对于带宽因子进行调度。
优选地,在所述步骤S6中,根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计:
Figure BDA0002751891280000031
Figure BDA0002751891280000032
Figure BDA0002751891280000033
其中,x0是给定点,
Figure BDA0002751891280000034
是采样点,α123分别是梯度估计的迭代因子,h是信道状态,
Figure BDA0002751891280000035
是分配策略,
Figure BDA0002751891280000036
是瞬时的***性能函数的观察值,
Figure BDA0002751891280000037
是约束函数的观察值,
Figure BDA0002751891280000038
是目标函数的观察值,
Figure BDA0002751891280000039
是计算得到的梯度观察值;
在所述步骤S7中,由步长γ1234更新拉格朗日算子λk+1和φk+1,拉格朗日算子更新公式为:
θk+1=θk1θE[f1(h,π(h,θ))λk],
xk+1=xk2(▽f0(xk)+▽f1(xkk-1),
λk+1=λk3(Ehf1(π(h,θk+1),h)-xk+1),
φk+1=φk4f1(xk+1),
其中,h是信道状态,f1(h,p(h))是瞬时数据传输速率,p(h)是瞬时发射功率,θk是第k次循环的参数集合,xk是第k次循环的遍历平均值,λkk是第k次的拉格朗日乘子。
另一方面,提供一种室内太赫兹BWP和功率调度装置,包括:
初始化模块,用于初始化无线接入设备、用户以及智能反射表面的各项参数及状态,包括最初的发射功率p0,策略参数θ0:={μ00},拉格朗日乘子λ00
样本抽取模块,用于从一个截断的标准正态分布里抽取样本
Figure BDA00027518912800000310
路损及信道增益计算模块,用于计算太赫兹路损L(f,d)以及信道增益hj,k,包括无线接入设备到每个用户的传输路径和无线接入设备经过智能反射表面再反射到用户的传输路径;
初始条件输入模块,用于将初始条件送入资源调度通式中;
信道状态输入模块,用于将从信道状态矩阵HJK得到的信道状态送入PPO算法中;
梯度估计模块,用于根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计;
策略更新模块,用于利用原始对偶优化算法更新原始对偶的变量,直至奖励达到收敛;
输出模块,用于输出学习后的动作,调度的带宽因子β和功率p,以及最后的***性能函数g0(x);
遍历模块,用于遍历所有用户,完成对于所有用户的调度;
终止模块,用于终止方法进程,取出数据。
优选地,所述路损及信道增益计算模块具体用于对信道估计进行整合处理:
Figure BDA0002751891280000041
将存在的两种传输路径统一成一种情况;
其中,Hj,k是无线接入设备到用户的信道增益,Hr,k是智能反射表面到用户的信道增益,Hj,r是无线接入设备到智能反射表面的信道增益,Φ是相位转移矩阵,HLOS,j,k是不经过智能反射表面的信道增益。
优选地,所述资源调度通式表示为:一个利用遍历平均值x捕获***的长期的瞬时***性能函数:
Figure BDA0002751891280000042
其中,f(h,p(h))是瞬时性能函数。
优选地,所述信道状态输入模块具体用于:将信道状态送入到PPO算法中的演员部分和评论者部分,演员部分产生一个新的策略函数,选择高斯策略输出对于动作的调度的选择,评论者部分根据原有的Q值函数产生一个新的动作,对于带宽因子进行调度。
优选地,所述梯度估计模块具体用于:根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计:
Figure BDA0002751891280000043
Figure BDA0002751891280000044
Figure BDA0002751891280000045
其中,x0是给定点,
Figure BDA0002751891280000046
是采样点,α123分别是梯度估计的迭代因子,h是信道状态,
Figure BDA0002751891280000047
是分配策略,
Figure BDA0002751891280000048
是瞬时的***性能函数的观察值,
Figure BDA0002751891280000049
是约束函数的观察值,
Figure BDA00027518912800000410
是目标函数的观察值,
Figure BDA00027518912800000411
是计算得到的梯度观察值;
所述策略更新模块中,由步长γ1234更新拉格朗日算子λk+1和φk+1,拉格朗日算子更新公式为:
θk+1=θk1θE[f1(h,π(h,θ))λk],
xk+1=xk2(▽f0(xk)+▽f1(xkk-1),
λk+1=λk3(Ehf1(π(h,θk+1),h)-xk+1),
φk+1=φk4f1(xk+1),
其中,h是信道状态,f1(h,p(h))是瞬时数据传输速率,p(h)是瞬时发射功率,θk是第k次循环的参数集合,xk是第k次循环的遍历平均值,λkk是第k次的拉格朗日乘子。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明采用近似策略优化算法的演员-评论者结构来联合解决对于连续功率和离散带宽的优化设计,并采用梯度辅助原始对偶求解得到这两种资源调度的最优解,然后,提出了迭代联合带宽和功率调度算法来最大限度地提高信息传输速率以及经济效益。本发明不仅能够实现对室内带宽和功率资源的合理调度,而且能够实现经济效益和能量有效性的最大化。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种室内太赫兹BWP和功率调度方法的流程图;
图2是本发明实施例的应用场景示意图;
图3是本发明实施例提供的一种室内太赫兹BWP和功率调度装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明的实施例首先提供了一种室内太赫兹BWP和功率调度方法,如图1所示,该方法包括以下步骤:
S1、初始化无线接入设备(AP)、用户以及智能反射表面(IRS)的各项参数及状态,包括最初的发射功率p0,策略参数θ0:={μ00},拉格朗日乘子λ00
S2、从一个截断的标准正态分布里抽取样本
Figure BDA0002751891280000061
S3、计算太赫兹路损L(f,d)以及信道增益hj,k,包括无线接入设备到每个用户的传输路径和无线接入设备经过智能反射表面再反射到用户的传输路径;
S4、将初始条件送入资源调度通式中;
S5、将从信道状态矩阵HJK得到的信道状态送入PPO算法中;
S6、根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计;
S7、利用原始对偶优化算法更新原始对偶的变量,直至奖励达到收敛;
S8、输出学习后的动作,调度的带宽因子β和功率p,以及最后的***性能函数g0(x);
S9、遍历所有用户,重复步骤S2到步骤S7,完成对于所有用户的调度;
S10、终止方法进程,取出数据。
本发明针对6G无线室内网络未来发展,提出了一种新颖的联合资源调度机制,采用近似策略优化算法(PPO)的演员-评论者(Actual-Critic)结构来联合解决对于连续功率和离散带宽的优化问题,并采用梯度辅助原始对偶求解得到这两种资源调度的最优解,然后,提出了迭代联合带宽和功率调度算法来最大限度地提高信息传输速率以及经济效益。本发明方法不仅能够实现对室内带宽和功率资源的合理调度,而且能够实现经济效益和能量有效性的最大化。
具体地,在本发明的***中,考虑了一个带有若干天线的AP和若干室内用户。如图2所示,为同时包括配备若干天线的AP,室内的若干用户,以及预设的IRS。集合J是天线数,集合K是用户数。考虑室内AP与用户之间利用IRS进行通信的应用场景(下行链路),使用的频段为1THz,接入技术选择NOMA。
从AP到用户k的初始信号为sk,相应的预编码矩阵定义为Fk,可以得到来自AP的发射信号x是:
Figure BDA0002751891280000062
然后考虑通过IRS接收到的信号,在这种情况下,将有两个传输链路,HLOS,j,k是直接传输而不通过IRS,而Hj,rΦHr,k是通过IRS平面的间接传输,这两个传输链接表征了已建立的***状况。
显然,与后者相比,HLOS,j,k由于太赫兹的高频而微弱。经过链路传输后,对应的第k个用户的接收信号yk的信号为:
Figure BDA0002751891280000071
其中Hj,k是AP到用户的信道增益,而Hr,k是IRS到用户的信道增益,Hj,r是AP到IRS的信道增益,Φ是相位转移矩阵,HLOS,j,k是不经过IRS的信道增益,nk是高斯白噪声,满足
Figure BDA0002751891280000072
为了后面方便计算用户的信息传输速率Rk,下面做一下简化处理:
Figure BDA0002751891280000073
由于IRS是一个平面,因此应根据均匀的平面阵列而不是均匀的线性阵列来计算其天线响应矢量。因此,其转向向量,IRS中元素具有单位能量的响应可以写为如下公式:
Figure BDA0002751891280000074
其中,m和n是天线元素指数,λ是波长,φ和θ分别代表了信号入射的方位角和仰角,N代表的是天线总数(智能反射面反射因子数),d是天线间隔,一般都设置
Figure BDA0002751891280000075
Figure BDA0002751891280000076
其中,Nt代表发送天线数,Nr代表接收天线数,αil代表的是信道的衰落系数,Nclu
Figure BDA00027518912800000710
分别是方形天线阵列的簇和每个簇内的路径。
联系上述公式的关系,信道增益将通过下列的方式表征出来:
Figure BDA0002751891280000077
每行代表AP的天线的索引,每列代表当前用户的索引。
另外,太赫兹的分子吸收损失不能忽略。因此,直接路径收益来自扩散损失Lspread和分子吸收损失Labs
L(f,d)=Lspread(f,d)Labs(f,d)
其中
Figure BDA0002751891280000078
Figure BDA0002751891280000079
从分子方面看,Labs由传输介质的情况决定。
使用遍历平均值捕获***,可以将无线资源调度问题转换为长期瞬时性能函数:
Figure BDA0002751891280000081
其中f(h,p(h))是瞬时性能函数。***设计的目标是选择资源调度p(h)以最大化遍历变量x。平均变量x反映了无线通信***在很长一段时间内的性能,并受瞬时资源调度的影响。
在本发明的***设计中,h是信道状态,p(h)是瞬时发射功率,f1(h,p(h))是瞬时数据传输速率。设计目标是在功率约束下最大化功率调度p(h)的遍历速率平均向量x。
maxfo(x)
Figure BDA0002751891280000082
在接收端,串行干扰消除(SIC)技术用于多用户检测。在发送端,通过功率复用技术将同一子信道上的不同用户进行传输,并根据相关算法调度不同用户的信号功率,使得到达接收端的每个用户的信号功率不同。接收机根据不同的信号功率以一定的顺序执行干扰消除,以实现正确的解调。SIC技术还可以达到区分不同用户的目的。瞬时响应函数1,k(hk,pk(hk))是关于容量的计算,
Figure BDA0002751891280000083
对于限定的函数f2(x)需要规定为,
Figure BDA0002751891280000084
所以问题变成了,
max∑ilog(xi)
Figure BDA0002751891280000085
Figure BDA0002751891280000086
x∈χ,p∈P
对于上述的***,强化学习中Value-based的方法对受限状态下的问题处理能力不足。在使用特征来描述状态空间中的某一个状态时,有可能因为个体观测的限制或者建模的局限,导致真实环境下本来不同的两个状态却在建模后拥有相同的特征描述,进而很有可能导致Value-based方法无法得到最优解。因此,本发明中主要以Policy-based为主,Value-based为辅。
传统的Policy-based解决办法是:
Figure BDA0002751891280000091
这种传统方法的缺陷在于更新步长γ1,当步长选的不合适的时候更新的参数会更差,因此很容易导致越学越差。因此需要找到一种合适的步长,使每次更新时都能保证回报函数单调递增。这时PPO在策略更新上,通过引入相对熵解决这个问题。
PPO是一套Actor-Critic结构,Actor想最大化JPPO(θ):
Figure BDA0002751891280000092
但Actor需要旧的策略上根据优势函数A(h,θ)修改新的策略,优势A(h,θ)大的时候,修改幅度大,让新策略更可能发生。而且附加了一个KL惩罚项,λ在该方法中设定为0.95。
对应的优势函数A(h,θ)为,表达在状态h下,某动作p相对于平均而言的优势,
Figure BDA0002751891280000093
其中f1'(π(h,θ),h)为针对信道状态h的新一步调度功率后计算下的瞬时性能函数,而f1(π(h,θ),h)为在信道状态h下的原调度功率下的瞬时性能函数。
在Actor的惩罚函数的选择上,本发明采用PPO2:
Figure BDA0002751891280000094
Figure BDA0002751891280000095
在这种情况下可以保证两次更新之间的分布差距不大。
对于Critic部分,该罚命中则是对于输出的动作计算得到的瞬时性能函数的值进行BWP的调度,因为Critic部分采用的是深度Q学习网络的思路,所以需要将输出的瞬时性能函数进行离散化,具体的原则如下:
β={β12,...,βn}
其中β是可供调度的物理资源块(PRB)个数,更新条件考虑如下原则,对输出的性能函数f1(·),满足:
βn+1←βn,f1(·)≥βnR0
其中R0是单位PRB下可供传输的平均数据速率。
用户的请求访问速率可以通过ZipF分布来表示,如下式:
Rrequest=1/nαf1(·)
对之前的***引入参数化会变成,
maxfo(x)
Figure BDA0002751891280000101
效用函数f0(x)考虑为加权操作,
f0(x)=∑kwk(xk)
对于限定的函数f2(x)需要规定为:
Figure BDA0002751891280000102
为了表示方便,对于***仍然用其拉格朗日函数为:
Figure BDA0002751891280000103
对四个参数依次求梯度:
Figure BDA0002751891280000104
xk+1=xk2(▽f0(xk)+▽f1(xkk-1)
Figure BDA0002751891280000109
φk+1=φk4f1(xk+1)
然后,利用零阶梯度更新替换原始度偶变量公式中的更新。零阶梯度估计可以通过有限差分的方式完成,其中通过随机观测构造给定点的无偏梯度估计。可以使用给定点x0,θ0和采样点
Figure BDA0002751891280000105
下的函数观测值构造具有有限差分的梯度估计,
Figure BDA0002751891280000106
Figure BDA0002751891280000107
Figure BDA0002751891280000108
其中α123分别是梯度估计的迭代因子,而γ1234是主要的原始对偶的迭代因子。
本发明采用近似策略优化算法的演员-评论者结构来联合解决对于连续功率和离散带宽的优化设计,并采用梯度辅助原始对偶求解得到这两种资源调度的最优解,然后,提出了迭代联合带宽和功率调度算法来最大限度地提高信息传输速率以及经济效益。本发明方法不仅能够实现对室内带宽和功率资源的合理调度,而且能够实现经济效益和能量有效性的最大化。
相应地,本发明的实施例还提供一种室内太赫兹BWP和功率调度装置,如图3所示,该装置包括:
初始化模块,用于初始化无线接入设备、用户以及智能反射表面的各项参数及状态,包括最初的发射功率p0,策略参数θ0:={μ00},拉格朗日乘子λ00
样本抽取模块,用于从一个截断的标准正态分布里抽取样本
Figure BDA0002751891280000111
路损及信道增益计算模块,用于计算太赫兹路损L(f,d)以及信道增益hj,k,包括无线接入设备到每个用户的传输路径和无线接入设备经过智能反射表面再反射到用户的传输路径;
初始条件输入模块,用于将初始条件送入资源调度通式中;
信道状态输入模块,用于将从信道状态矩阵HJK得到的信道状态送入PPO算法中;
梯度估计模块,用于根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计;
策略更新模块,用于利用原始对偶优化算法更新原始对偶的变量,直至奖励达到收敛;
输出模块,用于输出学习后的动作,调度的带宽因子β和功率p,以及最后的***性能函数g0(x);
遍历模块,用于遍历所有用户,完成对于所有用户的调度;
终止模块,用于终止方法进程,取出数据。
进一步地,所述路损及信道增益计算模块具体用于对信道估计进行整合处理:
Figure BDA0002751891280000112
将存在的两种传输路径统一成一种情况;
其中,Hj,k是无线接入设备到用户的信道增益,Hr,k是智能反射表面到用户的信道增益,Hj,r是无线接入设备到智能反射表面的信道增益,Φ是相位转移矩阵,HLOS,j,k是不经过智能反射表面的信道增益。
进一步地,所述资源调度通式表示为:一个利用遍历平均值x捕获***的长期的瞬时***性能函数:
Figure BDA0002751891280000121
其中,f(h,p(h))是瞬时性能函数。
进一步地,所述信道状态输入模块具体用于:将信道状态送入到PPO算法中的演员部分和评论者部分,演员部分产生一个新的策略函数,选择高斯策略输出对于动作的调度的选择,评论者部分根据原有的Q值函数产生一个新的动作,对于带宽因子进行调度。
进一步地,所述梯度估计模块具体用于:根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计:
Figure BDA0002751891280000122
Figure BDA0002751891280000123
Figure BDA0002751891280000124
其中,x0是给定点,
Figure BDA0002751891280000125
是采样点,α123分别是梯度估计的迭代因子,h是信道状态,
Figure BDA0002751891280000126
是分配策略,
Figure BDA0002751891280000127
是瞬时的***性能函数的观察值,
Figure BDA0002751891280000128
是约束函数的观察值,
Figure BDA0002751891280000129
是目标函数的观察值,
Figure BDA00027518912800001210
是计算得到的梯度观察值;
所述策略更新模块中,由步长γ1234更新拉格朗日算子λk+1和φk+1,拉格朗日算子更新公式为:
θk+1=θk1θE[f1(h,π(h,θ))λk],
xk+1=xk2(▽f0(xk)+▽f1(xkk-1),
λk+1=λk3(Ehf1(π(h,θk+1),h)-xk+1),
φk+1=φk4f1(xk+1),
其中,h是信道状态,f1(h,p(h))是瞬时数据传输速率,p(h)是瞬时发射功率,θk是第k次循环的参数集合,xk是第k次循环的遍历平均值,λkk是第k次的拉格朗日乘子。
本发明提供的室内太赫兹BWP和功率调度装置不仅能够实现对室内带宽和功率资源的合理调度,而且能够实现经济效益和能量有效性的最大化。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种室内太赫兹BWP和功率调度方法,其特征在于,包括以下步骤:
S1、初始化无线接入设备、用户以及智能反射表面的各项参数及状态,包括最初的发射功率p0,策略参数θ0:={μ00},拉格朗日乘子λ00
S2、从一个截断的标准正态分布里抽取样本
Figure FDA0002751891270000011
S3、计算太赫兹路损L(f,d)以及信道增益hj,k,包括无线接入设备到每个用户的传输路径和无线接入设备经过智能反射表面再反射到用户的传输路径;
S4、将初始条件送入资源调度通式中;
S5、将从信道状态矩阵HJK得到的信道状态送入PPO算法中;
S6、根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计;
S7、利用原始对偶优化算法更新原始对偶的变量,直至奖励达到收敛;
S8、输出学习后的动作,调度的带宽因子β和功率p,以及最后的***性能函数g0(x);
S9、遍历所有用户,重复步骤S2到步骤S7,完成对于所有用户的调度;
S10、终止方法进程,取出数据。
2.根据权利要求1所述的室内太赫兹BWP和功率调度方法,其特征在于,在所述步骤S3中,对信道估计进行整合处理:
Figure FDA0002751891270000012
将存在的两种传输路径统一成一种情况;
其中,Hj,k是无线接入设备到用户的信道增益,Hr,k是智能反射表面到用户的信道增益,Hj,r是无线接入设备到智能反射表面的信道增益,Φ是相位转移矩阵,HLOS,j,k是不经过智能反射表面的信道增益。
3.根据权利要求1所述的室内太赫兹BWP和功率调度方法,其特征在于,在所述步骤S4中,所述资源调度通式表示为:一个利用遍历平均值x捕获***的长期的瞬时***性能函数:
Figure FDA0002751891270000013
其中,f(h,p(h))是瞬时性能函数。
4.根据权利要求1所述的室内太赫兹BWP和功率调度方法,其特征在于,在所述步骤S5中,将信道状态送入到PPO算法中的演员部分和评论者部分,演员部分产生一个新的策略函数,选择高斯策略输出对于动作的调度的选择,评论者部分根据原有的Q值函数产生一个新的动作,对于带宽因子进行调度。
5.根据权利要求1所述的室内太赫兹BWP和功率调度方法,其特征在于,在所述步骤S6中,根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计:
Figure FDA0002751891270000021
Figure FDA0002751891270000022
Figure FDA0002751891270000023
其中,x0是给定点,
Figure FDA0002751891270000024
是采样点,α123分别是梯度估计的迭代因子,h是信道状态,
Figure FDA0002751891270000025
是分配策略,
Figure FDA0002751891270000026
是瞬时的***性能函数的观察值,
Figure FDA0002751891270000027
是约束函数的观察值,
Figure FDA0002751891270000028
是目标函数的观察值,
Figure FDA0002751891270000029
是计算得到的梯度观察值;
在所述步骤S7中,由步长γ1234更新拉格朗日算子λk+1和φk+1,拉格朗日算子更新公式为:
Figure FDA00027518912700000210
Figure FDA00027518912700000211
λk+1=λk3(Ehf1(π(h,θk+1),h)-xk+1),
φk+1=φk4f1(xk+1),
其中,h是信道状态,f1(h,p(h))是瞬时数据传输速率,p(h)是瞬时发射功率,θk是第k次循环的参数集合,xk是第k次循环的遍历平均值,λkk是第k次的拉格朗日乘子。
6.一种室内太赫兹BWP和功率调度装置,其特征在于,包括:
初始化模块,用于初始化无线接入设备、用户以及智能反射表面的各项参数及状态,包括最初的发射功率p0,策略参数θ0:={μ00},拉格朗日乘子λ00
样本抽取模块,用于从一个截断的标准正态分布里抽取样本
Figure FDA00027518912700000212
路损及信道增益计算模块,用于计算太赫兹路损L(f,d)以及信道增益hj,k,包括无线接入设备到每个用户的传输路径和无线接入设备经过智能反射表面再反射到用户的传输路径;
初始条件输入模块,用于将初始条件送入资源调度通式中;
信道状态输入模块,用于将从信道状态矩阵HJK得到的信道状态送入PPO算法中;
梯度估计模块,用于根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计;
策略更新模块,用于利用原始对偶优化算法更新原始对偶的变量,直至奖励达到收敛;
输出模块,用于输出学习后的动作,调度的带宽因子β和功率p,以及最后的***性能函数g0(x);
遍历模块,用于遍历所有用户,完成对于所有用户的调度;
终止模块,用于终止方法进程,取出数据。
7.根据权利要求6所述的室内太赫兹BWP和功率调度装置,其特征在于,所述路损及信道增益计算模块具体用于对信道估计进行整合处理:
Figure FDA0002751891270000031
将存在的两种传输路径统一成一种情况;
其中,Hj,k是无线接入设备到用户的信道增益,Hr,k是智能反射表面到用户的信道增益,Hj,r是无线接入设备到智能反射表面的信道增益,Φ是相位转移矩阵,HLOS,j,k是不经过智能反射表面的信道增益。
8.根据权利要求6所述的室内太赫兹BWP和功率调度装置,其特征在于,所述资源调度通式表示为:一个利用遍历平均值x捕获***的长期的瞬时***性能函数:
Figure FDA0002751891270000032
其中,f(h,p(h))是瞬时性能函数。
9.根据权利要求6所述的室内太赫兹BWP和功率调度装置,其特征在于,所述信道状态输入模块具体用于:将信道状态送入到PPO算法中的演员部分和评论者部分,演员部分产生一个新的策略函数,选择高斯策略输出对于动作的调度的选择,评论者部分根据原有的Q值函数产生一个新的动作,对于带宽因子进行调度。
10.根据权利要求6所述的室内太赫兹BWP和功率调度装置,其特征在于,所述梯度估计模块具体用于:根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计:
Figure FDA0002751891270000033
Figure FDA0002751891270000034
Figure FDA0002751891270000041
其中,x0是给定点,
Figure FDA0002751891270000042
是采样点,α123分别是梯度估计的迭代因子,h是信道状态,
Figure FDA0002751891270000043
是分配策略,
Figure FDA0002751891270000044
是瞬时的***性能函数的观察值,
Figure FDA0002751891270000045
是约束函数的观察值,
Figure FDA0002751891270000046
是目标函数的观察值,
Figure FDA0002751891270000047
是计算得到的梯度观察值;
所述策略更新模块中,由步长γ1234更新拉格朗日算子λk+1和φk+1,拉格朗日算子更新公式为:
Figure FDA0002751891270000048
Figure FDA0002751891270000049
λk+1=λk3(Ehf1(π(h,θk+1),h)-xk+1),
φk+1=φk4f1(xk+1),
其中,h是信道状态,f1(h,p(h))是瞬时数据传输速率,p(h)是瞬时发射功率,θk是第k次循环的参数集合,xk是第k次循环的遍历平均值,λkk是第k次的拉格朗日乘子。
CN202011187720.5A 2020-10-29 2020-10-29 一种室内太赫兹bwp和功率调度方法及装置 Active CN112533274B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011187720.5A CN112533274B (zh) 2020-10-29 2020-10-29 一种室内太赫兹bwp和功率调度方法及装置
US17/138,949 US11444730B2 (en) 2020-10-29 2020-12-31 Bandwidth part (BWP) and power scheduling method and apparatus for indoor terahertz

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011187720.5A CN112533274B (zh) 2020-10-29 2020-10-29 一种室内太赫兹bwp和功率调度方法及装置

Publications (2)

Publication Number Publication Date
CN112533274A true CN112533274A (zh) 2021-03-19
CN112533274B CN112533274B (zh) 2021-08-20

Family

ID=74979224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011187720.5A Active CN112533274B (zh) 2020-10-29 2020-10-29 一种室内太赫兹bwp和功率调度方法及装置

Country Status (2)

Country Link
US (1) US11444730B2 (zh)
CN (1) CN112533274B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114286369A (zh) * 2021-12-28 2022-04-05 杭州电子科技大学 一种ris辅助通信***的ap和ris联合选择方法
CN114786189A (zh) * 2022-04-25 2022-07-22 西安科技大学 一种智能超表面辅助的室内通信方法
US11444730B2 (en) * 2020-10-29 2022-09-13 University Of Science And Technology Beijing Bandwidth part (BWP) and power scheduling method and apparatus for indoor terahertz

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115278707B (zh) * 2022-06-15 2023-12-15 东莞理工学院 基于智能反射面辅助的noma太赫兹网络能效优化方法
CN115442816B (zh) * 2022-08-31 2024-04-23 兰州大学 一种智能反射面辅助的非正交多址接入短包通信实现方法
CN115426690A (zh) * 2022-09-02 2022-12-02 西安交通大学 能量收集无线物联网QoS驱动的用户调度和功率分配方法
CN116232453B (zh) * 2023-03-20 2023-08-15 中国人民解放军军事科学院***工程研究院 一种卫星太赫兹通信信道大气传输损耗计算方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140300955A1 (en) * 2011-07-13 2014-10-09 National Institute For Materials Science Optical Element for Terahertz Waves
CN111106859A (zh) * 2019-11-28 2020-05-05 东南大学 毫米波/太赫兹网络大规模mimo无线传输方法
CN111163511A (zh) * 2019-12-20 2020-05-15 北京邮电大学 智能反射表面辅助的毫米波通信中延迟受限的上行功率分配方法
CN111246491A (zh) * 2020-03-10 2020-06-05 电子科技大学 一种智能反射表面辅助的太赫兹通信***设计方法
CN111355520A (zh) * 2020-03-10 2020-06-30 电子科技大学 一种智能反射表面辅助的太赫兹安全通信***设计方法
CN111355519A (zh) * 2020-03-10 2020-06-30 电子科技大学 智能反射表面协助的室内太赫兹mimo通信***设计方法
CN111787558A (zh) * 2020-07-29 2020-10-16 重庆大学 一种mimome***及其安全速率优化方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4922426B2 (ja) * 2010-03-30 2012-04-25 株式会社エヌ・ティ・ティ・ドコモ 反射板装置、無線基地局及び無線通信方法
KR20210067469A (ko) * 2019-11-29 2021-06-08 삼성전자주식회사 무선 통신 시스템에서 신호를 송수신하는 방법 및 장치
WO2021221183A1 (ko) * 2020-04-27 2021-11-04 엘지전자 주식회사 반사 모듈을 이용한 빔 관리 방법
KR20210145514A (ko) * 2020-05-25 2021-12-02 삼성전자주식회사 네트워크 에너지 최적화를 위한 전력 제어 방법 및 장치
CN112533274B (zh) * 2020-10-29 2021-08-20 北京科技大学 一种室内太赫兹bwp和功率调度方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140300955A1 (en) * 2011-07-13 2014-10-09 National Institute For Materials Science Optical Element for Terahertz Waves
CN111106859A (zh) * 2019-11-28 2020-05-05 东南大学 毫米波/太赫兹网络大规模mimo无线传输方法
CN111163511A (zh) * 2019-12-20 2020-05-15 北京邮电大学 智能反射表面辅助的毫米波通信中延迟受限的上行功率分配方法
CN111246491A (zh) * 2020-03-10 2020-06-05 电子科技大学 一种智能反射表面辅助的太赫兹通信***设计方法
CN111355520A (zh) * 2020-03-10 2020-06-30 电子科技大学 一种智能反射表面辅助的太赫兹安全通信***设计方法
CN111355519A (zh) * 2020-03-10 2020-06-30 电子科技大学 智能反射表面协助的室内太赫兹mimo通信***设计方法
CN111787558A (zh) * 2020-07-29 2020-10-16 重庆大学 一种mimome***及其安全速率优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XINYING MA等: "Joint Channel Estimation and Data Rate Maximization for Intelligent Reflecting Surface Assisted Terahertz MIMO Communication Systems", 《IEEE ACCESS》 *
谢莎等: "太赫兹通信技术综述", 《通信学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11444730B2 (en) * 2020-10-29 2022-09-13 University Of Science And Technology Beijing Bandwidth part (BWP) and power scheduling method and apparatus for indoor terahertz
CN114286369A (zh) * 2021-12-28 2022-04-05 杭州电子科技大学 一种ris辅助通信***的ap和ris联合选择方法
CN114286369B (zh) * 2021-12-28 2024-02-27 杭州电子科技大学 一种ris辅助通信***的ap和ris联合选择方法
CN114786189A (zh) * 2022-04-25 2022-07-22 西安科技大学 一种智能超表面辅助的室内通信方法
CN114786189B (zh) * 2022-04-25 2023-01-24 西安科技大学 一种智能超表面辅助的室内通信方法

Also Published As

Publication number Publication date
US11444730B2 (en) 2022-09-13
US20220140961A1 (en) 2022-05-05
CN112533274B (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
CN112533274B (zh) 一种室内太赫兹bwp和功率调度方法及装置
CN112865893B (zh) 智能反射面辅助的sm-noma***资源分配方法
CN109005551B (zh) 一种非理想信道状态信息的多用户noma下行功率分配方法
CN101867402B (zh) 一种自适应天线选择的mimo***及其应用方法
CN109861866A (zh) 携能多载波noma***中基于发射功率最小化的资源分配方法
CN112039564B (zh) 一种卫星大规模mimo广覆盖预编码传输方法
CN113596785A (zh) 基于深度q网络的d2d-noma通信***资源分配方法
CN110191476B (zh) 一种基于可重构天线阵列的非正交多址接入方法
CN115173901A (zh) 基于irs辅助的miso无线携能通信***的能效最大化方法
CN116033461B (zh) 一种基于star-ris辅助的共生无线电传输方法
CN114844538B (zh) 一种基于宽学习的毫米波mimo用户增量协作波束选择方法
CN115379478B (zh) 一种基于ris辅助数能同传网络鲁棒能耗优化方法
CN116419245A (zh) 一种基于智能反射面辅助的速率分割多址接入的多小区通信***能效优化方法
CN115242335B (zh) 一种ofdm雷达通信一体化信号联合优化设计与处理方法
CN116321186A (zh) Irs辅助认知swipt***最大和速率资源优化方法
CN115802466A (zh) 一种基于分布式ris辅助多用户***的联合功率分配和相移设计方法
CN114513235B (zh) 基于b5g通信***中的平面轨道角动量传输与资源分配方法、***、介质及设备
Zhang et al. Primal dual PPO learning resource allocation in indoor IRS-aided networks
CN114173415A (zh) 一种noma***资源分配方法、***及存储介质
Chen et al. CSI of each subcarrier is a fingerprint: Multi-carrier cumulative learning based positioning in massive MIMO systems
CN107070624B (zh) 一种基于大尺度衰落和多路径到达角的多用户导频调度方法
Wu et al. Joint energy and information precoding for NOMA-based WPCNs aided by reconfigurable intelligent surface
CN114158123B (zh) 一种智能反射面Massive MIMO***资源分配方法
Ashraf et al. Reflecting Surface Assisted Energy Harvesting with Optimized NOMA Downlink Transmissions
Guo et al. Hybrid MRT and ZF Learning for Energy-Efficient Transmission in Multi-RIS-Assisted Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant