CN114980293A - 一种面向大规模ofdm***的智能自适应功率控制方法 - Google Patents
一种面向大规模ofdm***的智能自适应功率控制方法 Download PDFInfo
- Publication number
- CN114980293A CN114980293A CN202210494452.4A CN202210494452A CN114980293A CN 114980293 A CN114980293 A CN 114980293A CN 202210494452 A CN202210494452 A CN 202210494452A CN 114980293 A CN114980293 A CN 114980293A
- Authority
- CN
- China
- Prior art keywords
- ofdm system
- power
- time slot
- current time
- adaptive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L25/00—Baseband systems
- H04L25/02—Details ; arrangements for supplying electrical power along data transmission lines
- H04L25/0202—Channel estimation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L27/00—Modulated-carrier systems
- H04L27/26—Systems using multi-frequency codes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/24—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
- H04W52/241—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account channel quality metrics, e.g. SIR, SNR, CIR, Eb/lo
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/24—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
- H04W52/242—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account path loss
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0473—Wireless resource allocation based on the type of the allocated resource the resource being transmission power
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/53—Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Power Engineering (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种面向大规模OFDM***的智能自适应功率控制方法。目的是根据实时信道估计得到的OFDM***子载波的CSI向量控制当前时隙的发射功率,实现OFDM***长期平均误码率最小化的同时,满足长期平均发射功率约束的基站节能需求。在该***中,采取“两步走”的方式对OFDM***进行发射功率控制:首先采用DRL中的DDPG算法对***进行当前时隙的发射功率控制,然后采用凸优化的方法将当前时隙发射功率分配给***的每个子载波。本发明的优点在于可以处理大规模OFDM***子载波的情况,具有可拓展性,即无论OFDM***选择传输多少个子载波,本方案只需要训练一个神经网络。
Description
技术领域
本发明属于无线通信网络技术领域,具体涉及一种面向大规模OFDM***的智能自适应功率控制方法。
背景技术
随着6G时代的逐步开启,人工智能(AI)赋能传统通信物理层技术是当前十分有前景的研究方向。数据驱动的深度学习算法对于物理层通信来说是很有潜力的技术,因为即便无线通信领域的专家通过几十年的深入研究,他们所获得的领域知识仍然有限的,所得到的数学模型依然是简化的和不准确的。而数据驱动的深度学习算法避免了模型驱动方法的缺点,降低了对物理世界进行精确数学建模的要求。可以根据现实世界采集到的数据,利用数据驱动的方法拟合出模型。因此在传统物理层技术的基础上引入AI,有望更全面的把握无线信道的特征和变化趋势,从而有助于提升无线通信物理层的性能。
深度强化学习(DRL)结合了深度学习的拟合能力与强化学习的决策能力,能够解决大规模空间中的序贯决策问题。DRL算法可以应用于无线通信物理层中的资源分配问题上,并且与传统算法相比,该算法具有优越性。在相关研究中,通信***对信道转移概率已知的假设是不合理的,因为真实物理信道是时变的且难以准确估计的。而DRL智能体不需要知道信道转移概率的先验知识,可以在与信道环境的交互过程中动态地学习信道的相关性,最终找到最优的资源分配策略。
发明内容
本发明的目的是在长期平均发射功率的约束下,根据实时信道估计得到的正交频分复用(OFDM)***的子载波信道状态信息(CSI)向量来控制当前时隙发射功率,实现OFDM***长期平均误码率最小化。在具体的实施方案中,以“两步走”的方式对OFDM***进行功率控制:首先采用DRL中的深度确定性策略梯度(DDPG)算法对OFDM***进行当前时隙的发射功率控制,然后采用凸优化的方法将当前时隙发射功率分配给OFDM***的每个子载波。
本发明的技术方案为:
一种面向大规模OFDM***的智能自适应功率控制方法,包括:确定功率自适应控制的OFDM***与时间相关性信道;确定采用DDPG算法进行自适应功率控制;确定采用凸优化的方法进行子载波内功率分配;确定OFDM***功率自适应控制完整流程。
进一步地,一种面向大规模OFDM***的智能自适应功率控制方法,包括以下步骤:
S1、构建功率自适应控制的OFDM***,确定时间相关性信道;
S2、设计DDPG智能体,并给出与环境进行交互训练,学习最优功率分配策略的方法;
S3、设计分配当前时隙发射功率给OFDM***每个子载波的凸优化方法;
S4、根据实时信道估计得到的OFDM***子载波CSI向量,利用训练完毕的DDPG智能体对OFDM***进行当前时隙的发射功率控制,然后采用凸优化的方式将当前时隙的发射功率分配给OFDM***的每个子载波。
进一步地,功率自适应控制的OFDM***包括三个模块,分别是时隙功率自适应控制模块、OFDM***子载波内功率分配模块和射频前端模块。
进一步地,采用分幕式任务的DDPG算法作为对OFDM***进行自适应功率控制的方法,它的状态、动作、奖励函数以及折扣因子设计为:
A1、状态为s(t)=[h(t),Pt_remained(t)],其中h(t)为当前时隙OFDM***子载波CSI向量平均值,Pt_remained(t)为当前时隙本幕剩余发射功率;
A2、动作为a(t)=[Pt(t)],其中Pt(t)为当前时隙发射功率;
A3、奖励函数为r(t)=-1000*BER(t),其中BER(t)当前时隙OFDM***子载波误码率的平均值;
A4、折扣因子γ大小设置为1。
进一步地,采用凸优化方法进行OFDM***子载波内功率分配,包括以下步骤:
B1、列出OFDM***子载波内功率分配优化问题;
B2、列出上述凸优化问题的KKT条件;
B3、采用数值迭代方法求解KKT条件形成的超越方程组,得到OFDM***子载波发射功率组成的向量组。
进一步地,确定OFDM***功率自适应控制完整流程,包括以下步骤:
C1、时隙功率自适应控制模块中的DDPG智能体加载训练好的神经网络参数;
C2、进行信道估计,得到当前时隙OFDM***的子载波CSI向量;
C3、根据当前时隙的信道信息与本幕剩余功率信息构建当前状态s(t),将s(t)送入DDPG智能体中的Actor网络,得到当前时隙发射功率Pt(t);
C4、采用凸优化的数值迭代算法将当前时隙发射功率分配给OFDM***的每个子载波;
C5、基站发射OFDM***的信号,更新本幕剩余发射功率,回到步骤C2。
进一步地,步骤S2中交互训练过程分为以下步骤:
1)当前状态s(t)送入Actor评估网络fμ中,得到当前发射功率a(t)=fμ(s(t));
2)将a(t)送入步骤S3进行子载波内功率分配,计算得到OFDM***子载波平均误码率BER(t)并更新本幕剩余功率Pt_remained(t),计算得当前奖励r(t),并根据下一时隙的CSI向量平均值h(t+1)和更新后的本幕剩余功率Pt_remained(t+1)构建下一时隙的状态s(t+1),将[s(t),a(t),r(t),s(t+1)]四元组存入经验回放池中;
3)在经验回放池中批量抽取N个四元组,其中一个四元组为[s(i),a(i),r(i),s(i+1)];
4)抽取出来的状态s(i)与动作a(i)送入Critic评估网络Qθ,根据Qθ(s(i),a(i))采用确定性策略梯度算法训练Actor评估网络;
5)抽取出来的状态s(i+1)送入Actor目标网络fμ′生成策略fμ′(s(i+1)),然后将状态s(i+1)与策略fμ′(s(i+1))送入Critic目标网络Qθ′,采用梯度下降算法最小化Qθ(s(i),a(i))与r(i)+γQθ′(s(i+1),fμ′(s(i+1)))之间差值,更新Critic评估网络;
6)利用N个四元组训练Actor和Critic的评估网络完毕后,采用软更新的方式更新目标网络的参数,其中τ为更新因子:
本发明的有益效果是:本发明主要由DDPG算法驱动的时隙功率自适应控制方案和凸优化方法驱动的OFDM***子载波内功率分配方案两部分组成,形成了面向降低OFDM***误码率的AI与凸优化联合解决方案。本发明在满足通信***长期平均发射功率约束的节能需求同时,降低OFDM***的长期平均误码率。除此之外,本发明可以处理大规模OFDM子载波的情况,具有优秀的拓展性,即无论OFDM***选择传输多少个子载波,本方案只需要训练一个神经网络。
附图说明
图1为本发明的面向大规模OFDM***的智能自适应功率控制方法流程图。
图2为本发明实施例的***框架图。
图3为DDPG智能体与环境交互训练的***图。
具体实施方式
下面结合附图对本发明的实施例作进一步的说明。如图1所示,一种面向大规模OFDM***的智能自适应功率控制方法,包括以下步骤:
S1、构建功率自适应控制的OFDM***,确定时间相关性信道。
本实施例考虑的是一个智能发射基站和一个用户组成的点对点OFDM***,它们均为单天线设备。其中OFDM***具有n个子载波,且每个子载波都采用MQAM的调制方式。如图2所示,该***主要抽象为三个模块,分别是时隙功率自适应控制模块、OFDM***子载波内功率分配模块和射频前端模块。***对信道的相关剖面(信道的跃迁概率分布)未知,但***的基站发射机通过信道估计可以得到当前时隙的完备CSI信息。
本实施例考虑的信道是时间相关性信道,这里给出可用于仿真的时间相关性信道。假设该无线信道为路径损耗、阴影效应与信道衰落共同构成的信道模型。
无线信道在自由空间的路径损耗的表达式为:
其中,d为发射机与接收机之间距离,f为电磁波频率,c为光速,k为路径损耗系数。
当前时隙的阴影效应因子为ψ(t),该因子满足对数正态分布:
ψdB(t)=10log10(ψ(t))
信道衰落为时间相关瑞利块衰落(CSCG),即信道衰落系数在一个时隙内保持不变,在下一个时隙发生改变。更新公式为:
其中v(t)为当前时隙的信道衰落系数,v(t-1)为上一时隙的信道衰落系数,Δv定义为信道衰落系数的增量因子,三者均服从单位方差的瑞利分布。为信道的相关系数,J0为零阶贝塞尔函数,fd为最大多普勒频偏,Ts为传输周期长度。
综上,当前时隙信道因子L(t)表达式为:
L(t)=-10log10(Ω(d))+ψdB(t)+10log10(v(t))
S2、设计DDPG智能体,并给出与环境进行交互训练,学习最优功率分配策略的方法。
在该步骤中,DDPG智能体对信道跃迁的概率分布未知,只知道由信道估计得到的当前时隙的OFDM***子载波CSI向量。在未知信道转移概率的情况下,DDPG智能体通过与环境的交互训练,学习到根据当前时隙信道信息来进行最优功率分配的策略。
带平均发射功率限制的自适应功率控制算法的优化数学模型如下,优化目标为最小化***的长期平均误码率:
其中Pt(t)为OFDM***当前时隙发射功率,BER(t)为当前时隙OFDM***子载波的平均误码率,为OFDM***子载波的长期平均误码率,为OFDM***长期平均总发射功率,为平均发射功率目标,T为该***经历的时隙数目。
优化问题的特点是控制的变量与约束的变量是相同的。智能体根据当前时隙CSI向量的平均值自适应地选择当前时隙的***发射功率:当前时隙CSI向量的平均值较小的时候,智能体选择较高的***发射功率,使当前时隙的子载波平均误码率降低,但由于存在长期平均发射功率的约束,该时隙***发射功率的提高意味着后面时隙的***发射功率降低,即后面时隙的子载波平均误码率升高。
上述的过程是子载波平均误码率在不同时隙此消彼长的过程,设计DRL智能体的目标为:在上述此消彼长的过程中找到最小化所有时隙子载波平均误码率之和的策略,即在当前时隙提升发射功率而降低的子载波平均误码率应远大于后面时隙降低发射功率而提升的子载波平均误码率。
对DDPG智能体的设计主要分为三部分,分别是状态State、动作Action与奖励Reward。本发明将该任务视为存在终止状态的分幕式强化学***均发射功率的约束,因此一幕中W个时隙的***发射功率之和不能超过设计智能体时需要考虑此特点。
本实施例的信道信息为包含路径损耗、多径衰落和阴影效应的OFDM***的子载波CSI向量H(t),该信道信息会直接影响到当前时隙子载波的误码率。而每一幕的剩余总功率Pt_remained(t)会影响到后面时隙的子载波误码率,在每一幕的开始前赋初值OFDM***子载波长期平均误码率为本实施例的优化目标,因此需要在状态State中反映信道信息与本幕剩余功率信息,状态State的设计如下所示:
s(t)=[h(t),Pt_remained(t)]
Pt_remained(t+1)=Pt_remained(t)-Pt(t)
a(t)=[Pt(t)]
在DRL的分幕式任务中,智能体的目标是最大化该幕中的回报:
其中γ为折扣因子,G(t)为当前幕的回报,在本实施例中,将奖励r(t)设计为:
r(t)=-1000*BER(t)
当前时隙OFDM***子载波的平均误码率BER(t)如下:
其中BERi(t)为当前时隙OFDM***第i个子载波的误码率,n为OFDM***传输的子载波数目,Q(·)为Q函数,Hi(t)为当前时隙OFDM***第i个子载波的CSI,M为QAM的调制阶数,N0为噪声功率,Pa(t)为当前时隙发射功率P(t)经过步骤S3后得到的子载波发射功率n维向量。智能体的目标为最小化OFDM***长期平均误码率,即要最大化一幕中的所有奖励之和,因此设折扣因子γ=1。
DDPG智能体与环境的交互训练过程如图3所示。DDPG智能体主要分为Actor和Critic两种深度神经网络,而Actor和Critic又分别与目标网络和评估网络相结合,以提高训练的稳定性。一个完整的交互训练过程分为以下步骤:
1)当前状态s(t)送入Actor评估网络fμ中,得到当前发射功率a(t)=fμ(s(t));
2)将a(t)送入步骤S3进行子载波内功率分配,计算得到OFDM***子载波平均误码率BER(t)并更新本幕剩余功率Pt_remained(t),计算得当前奖励r(t),并根据下一时隙的CSI向量平均值h(t+1)和更新后的本幕剩余功率Pt_remained(t+1)构建下一时隙的状态s(t+1),将[s(t),a(t),r(t),s(t+1)]四元组存入经验回放池中;
3)在经验回放池中批量抽取N个四元组,其中一个四元组为[s(i),a(i),r(i),s(i+1)];
4)抽取出来的状态s(i)与动作a(i)送入Critic评估网络Qθ,根据Qθ(s(i),a(i))采用确定性策略梯度算法训练Actor评估网络;
5)抽取出来的状态s(i+1)送入Actor目标网络fμ′生成策略fμ′(s(i+1)),然后将状态s(i+1)与策略fμ′(s(i+1))送入Critic目标网络Qθ′,采用梯度下降算法最小化Qθ(s(i),a(i))与r(i)+γQθ′(s(i+1),fμ′(s(i+1)))之间差值,更新Critic评估网络;
6)利用N个四元组训练Actor和Critic的评估网络完毕后,采用软更新的方式更新目标网络的参数,其中τ为更新因子:
S3、设计分配当前时隙发射功率给OFDM***每个子载波的凸优化方法。
在该步骤中,已经知道由DDPG智能体决策得到的当前时隙发射功率与由实时信道估计得到的当前时隙OFDM***子载波CSI向量。根据CSI向量H(t)与发射功率Pt(t),利用凸优化的方法为子载波分配发射功率,达到最小化当前时隙OFDM***子载波总误码率的目的。
带总发射功率限制的OFDM***子载波内功率分配的优化数学模型如下:
s.t.p1+p2...+pn=Pt(t)
pi≥0,i=1,2,3...n
其中,n为OFDM***子载波数目,pi为第i个子载波的发射功率,Pt(t)为当前时隙发射功率,BERi(t)为当前时隙OFDM***第i个子载波的误码率:
上述公式中,Q(·)为Q函数,M为QAM的调制阶数,N0为噪声功率,Hi(t)为当前时隙OFDM***第i个子载波的CSI。
观察上述优化问题可知,BERi(t)是关于pi的凸函数,则是关于向量(p1,p2...pn)的凸函数,且容易得知两个约束均为凸约束。所以OFDM***子载波内功率分配问题是凸优化问题,该问题的KKT条件如下:
整理KKT条件可得:
观察上述整理后的KKT条件可知,该方程组为超越方程组,无法得出闭式表达式,因此只能采用如下数值迭代的算法求解:
输入:当前时隙OFDM***子载波CSI向量H(t),发射功率Pt(t)。
输出:OFDM***子载波发射功率的n维向量组Pa(t)
初始化v*=v0>0,g(v)>δ
while|g(v)|>δdo
for i=1:n
end for
end while
S4、根据实时信道估计得到的OFDM***子载波CSI向量,利用训练完毕的DDPG智能体对OFDM***进行当前时隙的发射功率控制,然后采用凸优化的方法将当前时隙的发射功率分配给OFDM***的每个子载波。
OFDM***功率自适应控制过程分为以下几个分步骤,如图2所示:
S41、时隙功率自适应控制模块中的DDPG智能体加载训练好的神经网络参数;
S42、进行信道估计,得到当前时隙OFDM***的子载波CSI向量;
S43、根据当前时隙的信道信息与本幕剩余功率信息构建当前状态s(t),将s(t)送入DDPG智能体中的Actor网络,得到当前时隙发射功率Pt(t);
S44、采用凸优化的数值迭代算法将当前时隙的发射功率分配给OFDM***的每个子载波;
S45、基站发射OFDM***的信号,更新本幕剩余发射功率,回到步骤S42。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (7)
1.一种面向大规模OFDM***的智能自适应功率控制方法,其特征在于,包括:确定功率自适应控制的OFDM***与时间相关性信道;确定采用DDPG算法进行自适应功率控制;确定采用凸优化的方法进行子载波内功率分配;确定OFDM***功率自适应控制完整流程。
2.根据权利要求1所述的一种面向大规模OFDM***的智能自适应功率控制方法,其特征在于,包括以下步骤:
S1、构建功率自适应控制的OFDM***,确定时间相关性信道;
S2、设计DDPG智能体,并给出与环境进行交互训练,学习最优功率分配策略的方法;
S3、设计分配当前时隙发射功率给OFDM***每个子载波的凸优化方法;
S4、根据实时信道估计得到的OFDM***子载波CSI向量,利用训练完毕的DDPG智能体对OFDM***进行当前时隙的发射功率控制,然后采用凸优化的方式将当前时隙的发射功率分配给OFDM***的每个子载波。
3.根据权利要求1所述的一种面向大规模OFDM***的智能自适应功率控制方法,其特征在于,功率自适应控制的OFDM***包括三个模块,分别是时隙功率自适应控制模块、OFDM***子载波内功率分配模块和射频前端模块。
4.根据权利要求1所述的一种面向大规模OFDM***的智能自适应功率控制方法,其特征在于,采用分幕式任务的DDPG算法作为对OFDM***进行自适应功率控制的方法,它的状态、动作、奖励函数以及折扣因子设计为:
A1、状态为s(t)=[h(t),Pt_remained(t)],其中h(t)为当前时隙OFDM***子载波CSI向量平均值,Pt_remained(t)为当前时隙本幕剩余发射功率;
A2、动作为a(t)=[Pt(t)],其中Pt(t)为当前时隙发射功率;
A3、奖励函数为r(t)=-1000*BER(t),其中BER(t)当前时隙OFDM***子载波误码率的平均值;
A4、折扣因子γ大小设置为1。
5.根据权利要求1所述的一种面向大规模OFDM***的智能自适应功率控制方法,其特征在于,采用凸优化方法进行OFDM***子载波内功率分配,包括以下步骤:
B1、列出OFDM***子载波内功率分配优化问题;
B2、列出上述凸优化问题的KKT条件;
B3、采用数值迭代方法求解KKT条件形成的超越方程组,得到OFDM***子载波发射功率组成的向量组。
6.根据权利要求1所述的一种面向大规模OFDM***的智能自适应功率控制方法,其特征在于,确定OFDM***功率自适应控制完整流程,包括以下步骤:
C1、时隙功率自适应控制模块中的DDPG智能体加载训练好的神经网络参数;
C2、进行信道估计,得到当前时隙OFDM***的子载波CSI向量;
C3、根据当前时隙的信道信息与本幕剩余功率信息构建当前状态s(t),将s(t)送入DDPG智能体中的Actor网络,得到当前时隙发射功率Pt(t);
C4、采用凸优化的数值迭代算法将当前时隙发射功率分配给OFDM***的每个子载波;
C5、基站发射OFDM***的信号,更新本幕剩余发射功率,回到步骤C2。
7.根据权利要求2所述的一种面向大规模OFDM***的智能自适应功率控制方法,其特征在于,步骤S2中交互训练过程分为以下步骤:
1)当前状态s(t)送入Actor评估网络fu中,得到当前发射功率a(t)=fu(s(t));
2)将a(t)送入步骤S3进行子载波内功率分配,计算得到OFDM***子载波平均误码率BER(t)并更新本幕剩余功率Pt_remained(t),计算得当前奖励r(t),并根据下一时隙的CSI向量平均值h(t+1)和更新后的本幕剩余功率Pt_remained(t+1)构建下一时隙的状态s(t+1),将[s(t),a(t),r(t),s(t+1)]四元组存入经验回放池中;
3)在经验回放池中批量抽取N个四元组,其中一个四元组为[s(i),a(i),r(i),s(i+1)];
4)抽取出来的状态s(i)与动作a(i)送入Critic评估网络Qθ,根据Qθ(s(i),a(i))采用确定性策略梯度算法训练Actor评估网络;
5)抽取出来的状态s(i+1)送入Actor目标网络fμ′生成策略fμ′(s(i+1)),然后将状态s(i+1)与策略fμ′(s(i+1))送入Critic目标网络Qθ′,采用梯度下降算法最小化Qθ(s(i),a(i))与r(i)+γQθ′(s(i+1),fμ′(s(i+1)))之间差值,更新Critic评估网络;
6)利用N个四元组训练Actor和Critic的评估网络完毕后,采用软更新的方式更新目标网络的参数,其中τ为更新因子:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210494452.4A CN114980293B (zh) | 2022-05-07 | 2022-05-07 | 一种面向大规模ofdm***的智能自适应功率控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210494452.4A CN114980293B (zh) | 2022-05-07 | 2022-05-07 | 一种面向大规模ofdm***的智能自适应功率控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114980293A true CN114980293A (zh) | 2022-08-30 |
CN114980293B CN114980293B (zh) | 2023-08-11 |
Family
ID=82981270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210494452.4A Active CN114980293B (zh) | 2022-05-07 | 2022-05-07 | 一种面向大规模ofdm***的智能自适应功率控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114980293B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110128927A1 (en) * | 2009-11-27 | 2011-06-02 | Samsung Electronics Co. Ltd. | Method and apparatus for adaptively allocating resources in multi-user ofdm system |
CN106936555A (zh) * | 2017-03-01 | 2017-07-07 | 南通大学 | 基于ofdm的双向中继***比特分配和功率控制方法 |
US20190253292A1 (en) * | 2018-02-15 | 2019-08-15 | Huawei Technologies Co., Ltd. | Ofdm communications system with method for determination of subcarrier offset for ofdm symbol generation |
CN111491358A (zh) * | 2020-04-23 | 2020-08-04 | 电子科技大学 | 基于能量采集的自适应调制和功率控制***与优化方法 |
CN112492691A (zh) * | 2020-11-26 | 2021-03-12 | 辽宁工程技术大学 | 一种深度确定性策略梯度的下行noma功率分配方法 |
CN113795049A (zh) * | 2021-09-15 | 2021-12-14 | 马鞍山学院 | 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法 |
-
2022
- 2022-05-07 CN CN202210494452.4A patent/CN114980293B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110128927A1 (en) * | 2009-11-27 | 2011-06-02 | Samsung Electronics Co. Ltd. | Method and apparatus for adaptively allocating resources in multi-user ofdm system |
CN106936555A (zh) * | 2017-03-01 | 2017-07-07 | 南通大学 | 基于ofdm的双向中继***比特分配和功率控制方法 |
US20190253292A1 (en) * | 2018-02-15 | 2019-08-15 | Huawei Technologies Co., Ltd. | Ofdm communications system with method for determination of subcarrier offset for ofdm symbol generation |
CN111491358A (zh) * | 2020-04-23 | 2020-08-04 | 电子科技大学 | 基于能量采集的自适应调制和功率控制***与优化方法 |
CN112492691A (zh) * | 2020-11-26 | 2021-03-12 | 辽宁工程技术大学 | 一种深度确定性策略梯度的下行noma功率分配方法 |
CN113795049A (zh) * | 2021-09-15 | 2021-12-14 | 马鞍山学院 | 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法 |
Non-Patent Citations (1)
Title |
---|
王茜;杨连初;: "单用户OFDM***中自适应调制和功率分配算法", no. 03 * |
Also Published As
Publication number | Publication date |
---|---|
CN114980293B (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109302262B (zh) | 一种基于深度确定梯度强化学习的通信抗干扰方法 | |
CN112804107B (zh) | 一种物联网设备能耗自适应控制的分层联邦学习方法 | |
CN111491358B (zh) | 基于能量采集的自适应调制和功率控制***与优化方法 | |
CN109547076B (zh) | 一种毫米波大规模mimo***中的混合预编码方法 | |
Guo et al. | Deep reinforcement learning optimal transmission algorithm for cognitive Internet of Things with RF energy harvesting | |
Zhang et al. | DRL based data offloading for intelligent reflecting surface aided mobile edge computing | |
CN112492691A (zh) | 一种深度确定性策略梯度的下行noma功率分配方法 | |
CN111212438B (zh) | 一种无线携能通信技术的资源分配方法 | |
CN116456493A (zh) | 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质 | |
CN109391315B (zh) | 一种数据模型双驱动的mimo接收机 | |
CN111277308A (zh) | 基于机器学习的波宽控制方法 | |
CN114499601A (zh) | 一种基于深度学习的大规模mimo信号检测方法 | |
CN114980293A (zh) | 一种面向大规模ofdm***的智能自适应功率控制方法 | |
CN112087749B (zh) | 基于强化学习实现多***的合作主动窃听方法 | |
CN114051252A (zh) | 无线接入网中多用户智能发射功率控制方法 | |
Mishra et al. | Raddpg: Resource allocation in cognitive radio with deep reinforcement learning | |
CN117615419A (zh) | 基于任务调度与资源分配的分布式数据卸载方法 | |
CN107682934A (zh) | Ofdm多用户***中一种自适应资源改进分配方案 | |
CN116542319A (zh) | 边缘计算环境中基于数字孪生的自适应联邦学习方法及*** | |
CN111556511B (zh) | 一种基于智能边缘缓存的部分机会性干扰对齐方法 | |
CN116073856A (zh) | 一种基于深度确定性策略的跳频智能抗干扰决策方法 | |
Han et al. | MAB-based two-tier learning algorithms for joint channel and power allocation in stochastic underwater acoustic communication networks | |
Zhang et al. | Beyond supervised power control in massive MIMO network: Simple deep neural network solutions | |
Liao et al. | Ultra-reliable intelligent link scheduling based on DRL for manned/unmanned aerial vehicle cooperative scenarios | |
Zhao et al. | Smart handover scheme for a 5G-enabled ambulance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |