CN114980293A

CN114980293A - 一种面向大规模ofdm***的智能自适应功率控制方法

Info

Publication number: CN114980293A
Application number: CN202210494452.4A
Authority: CN
Inventors: 胡杰; 梁广明; 车畅; 于秦; 杨鲲
Original assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2022-08-30
Anticipated expiration: 2042-05-07
Also published as: CN114980293B

Abstract

本发明公开了一种面向大规模OFDM***的智能自适应功率控制方法。目的是根据实时信道估计得到的OFDM***子载波的CSI向量控制当前时隙的发射功率，实现OFDM***长期平均误码率最小化的同时，满足长期平均发射功率约束的基站节能需求。在该***中，采取“两步走”的方式对OFDM***进行发射功率控制：首先采用DRL中的DDPG算法对***进行当前时隙的发射功率控制，然后采用凸优化的方法将当前时隙发射功率分配给***的每个子载波。本发明的优点在于可以处理大规模OFDM***子载波的情况，具有可拓展性，即无论OFDM***选择传输多少个子载波，本方案只需要训练一个神经网络。

Description

一种面向大规模OFDM***的智能自适应功率控制方法

技术领域

本发明属于无线通信网络技术领域，具体涉及一种面向大规模OFDM***的智能自适应功率控制方法。

背景技术

随着6G时代的逐步开启，人工智能(AI)赋能传统通信物理层技术是当前十分有前景的研究方向。数据驱动的深度学习算法对于物理层通信来说是很有潜力的技术，因为即便无线通信领域的专家通过几十年的深入研究，他们所获得的领域知识仍然有限的，所得到的数学模型依然是简化的和不准确的。而数据驱动的深度学习算法避免了模型驱动方法的缺点，降低了对物理世界进行精确数学建模的要求。可以根据现实世界采集到的数据，利用数据驱动的方法拟合出模型。因此在传统物理层技术的基础上引入AI，有望更全面的把握无线信道的特征和变化趋势，从而有助于提升无线通信物理层的性能。

深度强化学习(DRL)结合了深度学习的拟合能力与强化学习的决策能力，能够解决大规模空间中的序贯决策问题。DRL算法可以应用于无线通信物理层中的资源分配问题上，并且与传统算法相比，该算法具有优越性。在相关研究中，通信***对信道转移概率已知的假设是不合理的，因为真实物理信道是时变的且难以准确估计的。而DRL智能体不需要知道信道转移概率的先验知识，可以在与信道环境的交互过程中动态地学习信道的相关性，最终找到最优的资源分配策略。

发明内容

本发明的目的是在长期平均发射功率的约束下，根据实时信道估计得到的正交频分复用(OFDM)***的子载波信道状态信息(CSI)向量来控制当前时隙发射功率，实现OFDM***长期平均误码率最小化。在具体的实施方案中，以“两步走”的方式对OFDM***进行功率控制：首先采用DRL中的深度确定性策略梯度(DDPG)算法对OFDM***进行当前时隙的发射功率控制，然后采用凸优化的方法将当前时隙发射功率分配给OFDM***的每个子载波。

本发明的技术方案为：

一种面向大规模OFDM***的智能自适应功率控制方法，包括：确定功率自适应控制的OFDM***与时间相关性信道；确定采用DDPG算法进行自适应功率控制；确定采用凸优化的方法进行子载波内功率分配；确定OFDM***功率自适应控制完整流程。

进一步地，一种面向大规模OFDM***的智能自适应功率控制方法，包括以下步骤：

S1、构建功率自适应控制的OFDM***，确定时间相关性信道；

S2、设计DDPG智能体，并给出与环境进行交互训练，学习最优功率分配策略的方法；

S3、设计分配当前时隙发射功率给OFDM***每个子载波的凸优化方法；

S4、根据实时信道估计得到的OFDM***子载波CSI向量，利用训练完毕的DDPG智能体对OFDM***进行当前时隙的发射功率控制，然后采用凸优化的方式将当前时隙的发射功率分配给OFDM***的每个子载波。

进一步地，功率自适应控制的OFDM***包括三个模块，分别是时隙功率自适应控制模块、OFDM***子载波内功率分配模块和射频前端模块。

进一步地，采用分幕式任务的DDPG算法作为对OFDM***进行自适应功率控制的方法，它的状态、动作、奖励函数以及折扣因子设计为：

A1、状态为s(t)＝[h(t)，P_t_remained(t)]，其中h(t)为当前时隙OFDM***子载波CSI向量平均值，P_t_remained(t)为当前时隙本幕剩余发射功率；

A2、动作为a(t)＝[P_t(t)]，其中P_t(t)为当前时隙发射功率；

A3、奖励函数为r(t)＝-1000*BER(t)，其中BER(t)当前时隙OFDM***子载波误码率的平均值；

A4、折扣因子γ大小设置为1。

进一步地，采用凸优化方法进行OFDM***子载波内功率分配，包括以下步骤：

B1、列出OFDM***子载波内功率分配优化问题；

B2、列出上述凸优化问题的KKT条件；

B3、采用数值迭代方法求解KKT条件形成的超越方程组，得到OFDM***子载波发射功率组成的向量组。

进一步地，确定OFDM***功率自适应控制完整流程，包括以下步骤：

C1、时隙功率自适应控制模块中的DDPG智能体加载训练好的神经网络参数；

C2、进行信道估计，得到当前时隙OFDM***的子载波CSI向量；

C3、根据当前时隙的信道信息与本幕剩余功率信息构建当前状态s(t)，将s(t)送入DDPG智能体中的Actor网络，得到当前时隙发射功率P_t(t)；

C4、采用凸优化的数值迭代算法将当前时隙发射功率分配给OFDM***的每个子载波；

C5、基站发射OFDM***的信号，更新本幕剩余发射功率，回到步骤C2。

进一步地，步骤S2中交互训练过程分为以下步骤：

1)当前状态s(t)送入Actor评估网络f_μ中，得到当前发射功率a(t)＝f_μ(s(t))；

2)将a(t)送入步骤S3进行子载波内功率分配，计算得到OFDM***子载波平均误码率BER(t)并更新本幕剩余功率P_t_remained(t)，计算得当前奖励r(t)，并根据下一时隙的CSI向量平均值h(t+1)和更新后的本幕剩余功率P_t_remained(t+1)构建下一时隙的状态s(t+1)，将[s(t)，a(t)，r(t)，s(t+1)]四元组存入经验回放池中；

3)在经验回放池中批量抽取N个四元组，其中一个四元组为[s(i)，a(i)，r(i)，s(i+1)]；

4)抽取出来的状态s(i)与动作a(i)送入Critic评估网络Q_θ，根据Q_θ(s(i)，a(i))采用确定性策略梯度算法训练Actor评估网络；

5)抽取出来的状态s(i+1)送入Actor目标网络f_μ′生成策略f_μ′(s(i+1))，然后将状态s(i+1)与策略f_μ′(s(i+1))送入Critic目标网络Q_θ′，采用梯度下降算法最小化Q_θ(s(i)，a(i))与r(i)+γQ_θ′(s(i+1)，f_μ′(s(i+1)))之间差值，更新Critic评估网络；

6)利用N个四元组训练Actor和Critic的评估网络完毕后，采用软更新的方式更新目标网络的参数，其中τ为更新因子：

本发明的有益效果是：本发明主要由DDPG算法驱动的时隙功率自适应控制方案和凸优化方法驱动的OFDM***子载波内功率分配方案两部分组成，形成了面向降低OFDM***误码率的AI与凸优化联合解决方案。本发明在满足通信***长期平均发射功率约束的节能需求同时，降低OFDM***的长期平均误码率。除此之外，本发明可以处理大规模OFDM子载波的情况，具有优秀的拓展性，即无论OFDM***选择传输多少个子载波，本方案只需要训练一个神经网络。

附图说明

图1为本发明的面向大规模OFDM***的智能自适应功率控制方法流程图。

图2为本发明实施例的***框架图。

图3为DDPG智能体与环境交互训练的***图。

具体实施方式

下面结合附图对本发明的实施例作进一步的说明。如图1所示，一种面向大规模OFDM***的智能自适应功率控制方法，包括以下步骤：

S1、构建功率自适应控制的OFDM***，确定时间相关性信道。

本实施例考虑的是一个智能发射基站和一个用户组成的点对点OFDM***，它们均为单天线设备。其中OFDM***具有n个子载波，且每个子载波都采用MQAM的调制方式。如图2所示，该***主要抽象为三个模块，分别是时隙功率自适应控制模块、OFDM***子载波内功率分配模块和射频前端模块。***对信道的相关剖面(信道的跃迁概率分布)未知，但***的基站发射机通过信道估计可以得到当前时隙的完备CSI信息。

本实施例考虑的信道是时间相关性信道，这里给出可用于仿真的时间相关性信道。假设该无线信道为路径损耗、阴影效应与信道衰落共同构成的信道模型。

无线信道在自由空间的路径损耗的表达式为：

其中，d为发射机与接收机之间距离，f为电磁波频率，c为光速，k为路径损耗系数。

当前时隙的阴影效应因子为ψ(t)，该因子满足对数正态分布：

ψ_dB(t)＝10log₁₀(ψ(t))

其中，ψ_dB(t)为ψ(t)的dB值，ψ_dB(t)服从均值为0，方差为

的正态分布。

信道衰落为时间相关瑞利块衰落(CSCG)，即信道衰落系数在一个时隙内保持不变，在下一个时隙发生改变。更新公式为：

其中v(t)为当前时隙的信道衰落系数，v(t-1)为上一时隙的信道衰落系数，Δv定义为信道衰落系数的增量因子，三者均服从单位方差的瑞利分布。

为信道的相关系数，J₀为零阶贝塞尔函数，f_d为最大多普勒频偏，T_s为传输周期长度。

综上，当前时隙信道因子L(t)表达式为：

L(t)＝-10log₁₀(Ω(d))+ψ_dB(t)+10log₁₀(v(t))

S2、设计DDPG智能体，并给出与环境进行交互训练，学习最优功率分配策略的方法。

在该步骤中，DDPG智能体对信道跃迁的概率分布未知，只知道由信道估计得到的当前时隙的OFDM***子载波CSI向量。在未知信道转移概率的情况下，DDPG智能体通过与环境的交互训练，学习到根据当前时隙信道信息来进行最优功率分配的策略。

带平均发射功率限制的自适应功率控制算法的优化数学模型如下，优化目标为最小化***的长期平均误码率：

其中P_t(t)为OFDM***当前时隙发射功率，BER(t)为当前时隙OFDM***子载波的平均误码率，

为OFDM***子载波的长期平均误码率，

为OFDM***长期平均总发射功率，

为平均发射功率目标，T为该***经历的时隙数目。

优化问题的特点是控制的变量与约束的变量是相同的。智能体根据当前时隙CSI向量的平均值自适应地选择当前时隙的***发射功率：当前时隙CSI向量的平均值较小的时候，智能体选择较高的***发射功率，使当前时隙的子载波平均误码率降低，但由于存在长期平均发射功率的约束，该时隙***发射功率的提高意味着后面时隙的***发射功率降低，即后面时隙的子载波平均误码率升高。

上述的过程是子载波平均误码率在不同时隙此消彼长的过程，设计DRL智能体的目标为：在上述此消彼长的过程中找到最小化所有时隙子载波平均误码率之和的策略，即在当前时隙提升发射功率而降低的子载波平均误码率应远大于后面时隙降低发射功率而提升的子载波平均误码率。

对DDPG智能体的设计主要分为三部分，分别是状态State、动作Action与奖励Reward。本发明将该任务视为存在终止状态的分幕式强化学***均发射功率的约束，因此一幕中W个时隙的***发射功率之和不能超过

设计智能体时需要考虑此特点。

本实施例的信道信息为包含路径损耗、多径衰落和阴影效应的OFDM***的子载波CSI向量H(t)，该信道信息会直接影响到当前时隙子载波的误码率。而每一幕的剩余总功率P_t_remained(t)会影响到后面时隙的子载波误码率，在每一幕的开始前赋初值

OFDM***子载波长期平均误码率为本实施例的优化目标，因此需要在状态State中反映信道信息与本幕剩余功率信息，状态State的设计如下所示：

s(t)＝[h(t)，P_t_remained(t)]

其中

为CSI向量H(t)的平均值，H_i(t)为当前时隙OFDM***第i个子载波的CSI，而每一幕剩余总功率P_t_remained(t)的更新公式如下：

P_t_remained(t+1)＝P_t_remained(t)-P_t(t)

由于DDPG算法中Actor网络输出的动作为在一个区间里面连续的动作，因此动作a(t)为当前时隙的发射功率P_t(t)，取值范围设计为

a(t)＝[P_t(t)]

在DRL的分幕式任务中，智能体的目标是最大化该幕中的回报：

其中γ为折扣因子，G(t)为当前幕的回报，在本实施例中，将奖励r(t)设计为：

r(t)＝-1000*BER(t)

当前时隙OFDM***子载波的平均误码率BER(t)如下：

其中BER_i(t)为当前时隙OFDM***第i个子载波的误码率，n为OFDM***传输的子载波数目，Q(·)为Q函数，H_i(t)为当前时隙OFDM***第i个子载波的CSI，M为QAM的调制阶数，N₀为噪声功率，P^a(t)为当前时隙发射功率P(t)经过步骤S3后得到的子载波发射功率n维向量。智能体的目标为最小化OFDM***长期平均误码率，即要最大化一幕中的所有奖励之和，因此设折扣因子γ＝1。

DDPG智能体与环境的交互训练过程如图3所示。DDPG智能体主要分为Actor和Critic两种深度神经网络，而Actor和Critic又分别与目标网络和评估网络相结合，以提高训练的稳定性。一个完整的交互训练过程分为以下步骤：

S3、设计分配当前时隙发射功率给OFDM***每个子载波的凸优化方法。

在该步骤中，已经知道由DDPG智能体决策得到的当前时隙发射功率与由实时信道估计得到的当前时隙OFDM***子载波CSI向量。根据CSI向量H(t)与发射功率P_t(t)，利用凸优化的方法为子载波分配发射功率，达到最小化当前时隙OFDM***子载波总误码率的目的。

带总发射功率限制的OFDM***子载波内功率分配的优化数学模型如下：

s.t.p₁+p₂...+p_n＝P_t(t)

p_i≥0，i＝1，2，3...n

其中，n为OFDM***子载波数目，p_i为第i个子载波的发射功率，P_t(t)为当前时隙发射功率，BER_i(t)为当前时隙OFDM***第i个子载波的误码率：

上述公式中，Q(·)为Q函数，M为QAM的调制阶数，N₀为噪声功率，H_i(t)为当前时隙OFDM***第i个子载波的CSI。

观察上述优化问题可知，BER_i(t)是关于p_i的凸函数，则

是关于向量(p₁，p₂...p_n)的凸函数，且容易得知两个约束均为凸约束。所以OFDM***子载波内功率分配问题是凸优化问题，该问题的KKT条件如下：

其中，

为第i个子载波的最优发射功率，

为第i个不等式约束的拉格朗日乘子，v^*为等式约束的拉格朗日乘子。

整理KKT条件可得：

观察上述整理后的KKT条件可知，该方程组为超越方程组，无法得出闭式表达式，因此只能采用如下数值迭代的算法求解：

输入：当前时隙OFDM***子载波CSI向量H(t)，发射功率P_t(t)。

输出：OFDM***子载波发射功率的n维向量组P^a(t)

初始化误差容限δ＞0，更新步长

初始化v^*＝v₀＞0，g(v)＞δ

while|g(v)|＞δdo

for i＝1：n

根据整理后的KKT条件(1)，采用二分法解超越方程来计算

end for

计算

更新

end while

S4、根据实时信道估计得到的OFDM***子载波CSI向量，利用训练完毕的DDPG智能体对OFDM***进行当前时隙的发射功率控制，然后采用凸优化的方法将当前时隙的发射功率分配给OFDM***的每个子载波。

OFDM***功率自适应控制过程分为以下几个分步骤，如图2所示：

S41、时隙功率自适应控制模块中的DDPG智能体加载训练好的神经网络参数；

S42、进行信道估计，得到当前时隙OFDM***的子载波CSI向量；

S43、根据当前时隙的信道信息与本幕剩余功率信息构建当前状态s(t)，将s(t)送入DDPG智能体中的Actor网络，得到当前时隙发射功率P_t(t)；

S44、采用凸优化的数值迭代算法将当前时隙的发射功率分配给OFDM***的每个子载波；

S45、基站发射OFDM***的信号，更新本幕剩余发射功率，回到步骤S42。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种面向大规模OFDM***的智能自适应功率控制方法，其特征在于，包括：确定功率自适应控制的OFDM***与时间相关性信道；确定采用DDPG算法进行自适应功率控制；确定采用凸优化的方法进行子载波内功率分配；确定OFDM***功率自适应控制完整流程。

2.根据权利要求1所述的一种面向大规模OFDM***的智能自适应功率控制方法，其特征在于，包括以下步骤：

S1、构建功率自适应控制的OFDM***，确定时间相关性信道；

3.根据权利要求1所述的一种面向大规模OFDM***的智能自适应功率控制方法，其特征在于，功率自适应控制的OFDM***包括三个模块，分别是时隙功率自适应控制模块、OFDM***子载波内功率分配模块和射频前端模块。

4.根据权利要求1所述的一种面向大规模OFDM***的智能自适应功率控制方法，其特征在于，采用分幕式任务的DDPG算法作为对OFDM***进行自适应功率控制的方法，它的状态、动作、奖励函数以及折扣因子设计为：

A2、动作为a(t)＝[P_t(t)]，其中P_t(t)为当前时隙发射功率；

A4、折扣因子γ大小设置为1。

5.根据权利要求1所述的一种面向大规模OFDM***的智能自适应功率控制方法，其特征在于，采用凸优化方法进行OFDM***子载波内功率分配，包括以下步骤：

B1、列出OFDM***子载波内功率分配优化问题；

B2、列出上述凸优化问题的KKT条件；

6.根据权利要求1所述的一种面向大规模OFDM***的智能自适应功率控制方法，其特征在于，确定OFDM***功率自适应控制完整流程，包括以下步骤：

C2、进行信道估计，得到当前时隙OFDM***的子载波CSI向量；

7.根据权利要求2所述的一种面向大规模OFDM***的智能自适应功率控制方法，其特征在于，步骤S2中交互训练过程分为以下步骤：

1)当前状态s(t)送入Actor评估网络f_u中，得到当前发射功率a(t)＝f_u(s(t))；