CN111491358B

CN111491358B - 基于能量采集的自适应调制和功率控制***与优化方法

Info

Publication number: CN111491358B
Application number: CN202010325108.3A
Authority: CN
Inventors: 杨佳雨; 胡杰; 杨鲲; 冷甦鹏
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2021-10-26
Anticipated expiration: 2040-04-23
Also published as: CN111491358A

Abstract

本发明公开一种基于能量采集的自适应调制和功率控制***与优化方法，应用于无线通信网络技术领域，本发明的***包括：发射机、接收机、瑞利衰落信道以及信道估计模块；所述发射机根据信道估计模块的反馈信息，在平均功率限制、平均误码率限制、平均能量收割限制的约束下，自适应地调整其发射功率和调制方式；接收机自适应调节功率分割因子；所述接收机包括可充电电池，接收机采用功率分割的方式将一部分接收到的能量存储到电池中，剩余的能量通过瑞利衰落信道向发射机传输数据；有效的解决了未来物联网低功耗接收机的能源供应问题，实现绿色网络的愿景。

Description

基于能量采集的自适应调制和功率控制***与优化方法

技术领域

本发明属于无线通信网络技术领域，特别涉及一种应用于SWIPT***的自适应链路技术。

背景技术

近年来，同时无线信息和功率传输(SWIPT)已受到相当大的关注，以延长能量受限节点的寿命。在SWIPT应用场景下，发射器通过无线信道将信息和能量发送到接收器。传统的传输方案中，调制模式、发射功率是固定的，这称为非自适应方案。该方案不能充分利用时变衰落信道。并且它为了确保在时变信道的各个状态下的可靠传输，是根据信道状态的最坏情况设计的非自适应***。该***的设计原理会导致无法充分利用信道容量。为了在不同信道条件下可以获得最大的吞吐量，将自适应链路技术(包括自适应调制、自适应功率控制、自适应能量传输控制)引入到SWIPT***中是很有必要的。

此外，人工智能技术正炙手可热。其凭借可以使得机器设备等像人类一样比较智能的感知与环境做出一定的反馈的特性，目前已经被各大领域加以应用。在通信领域，人工智能技术也被应用于各个通信层。例如，物理层可以采用深度学习进行智能的调制与编码，MAC层可以依据强化学习进行一定的资源分配，而网络层则可以智能的帮助各个设备寻找最优路由。通信与机器学习的结合，正在使得网络更加智能化。

和传统的自适应链路技术不同，在SWIPT***中，因为接收器仅使用从无线信道接收的能量信号中收集的能量进行操作，信息传输量和能量传输量之间存在折衷，因此自适应链路控制方案的设计除了考虑吞吐量的优化以外，还必须同时优化收集到的能量，以此保证***的性能和稳定。在传统的优化方法中，虽然考虑了时变信道，但相关研究中对信道转移概率在***中已知的假设却是不合理的，因为在现实世界中难以准确地估计信道转移概率。

发明内容

为解决上述技术问题，本发明提出一种基于能量采集与深度强化学习的自适应调制和功率控制方案与优化方法。

本发明采用的技术方案为：一种自适应调制链路控制***，包括：发射机、接收机、瑞利衰落信道以及信道估计模块；

所述发射机根据信道估计模块的反馈信息，在平均功率限制、平均误码率限制、平均能量收割限制的约束下，自适应地调整其发射功率和调制方式；

所述接收机包括可充电电池，接收机采用功率分割的方式将一部分接收到的能量存储到电池中，剩余的能量通过瑞利衰落信道向发射机传输数据。

所述发射机维护两个深度神经网络，所述两个神经网络分别记为：目标网络和评估网络，所述目标网络用于选取动作策略，并输出所选取动作策略对应的预期回报值

表示回报函数，评估网络用于对当前时刻值函数Q(s_t,a_t)进行估计。所述动作策略指调制方式。

本发明采用的技术方案之二为：一种基于深度强化学习的深度神经网络优化方法，包括：

B1、随机初始化评估网络权重参数θ和目标网络的权重θ^-；

B2、发射机依据当前的评估网络，得到具有最大Q(s_t,a_t)的动作a_t，目标网络以1-ε的概率执行动作a_t，以ε的概率随机从动作候选集中选取动作进行探索；

B3、每种动作对应一个回报函数，并且使得发射机的状态从s_t转移到s_t+1；

B4、采用滑动窗口控制存入经验池的样本(s_t,a_t,r_t,s_t+1)，s_t表示发射机在t时刻的状态，s_t+1表示发射机在t+1时刻的状态，r_t表示t时刻回报函数值；

B5、评估网络和目标网络从经验池中取出样本，进行基于梯度下降的反向传播算法，更新网络参数；

B6、将评估网络的权重参数赋值给目标网络，使得θ^-＝θ。

步骤B2所述动作候选集具体为：发射机根据评估网络得到最大值函数Q(s_t,a_t)对应的动作策略a_t，选择与该动作策略具有相同或者相邻阶数的动作策略，组成动作候选集。

步骤B3所述回报函数根据包括平均功率限制、平均误码率限制、平均能量收割限制的约束进行设定。

当约束满足时，回报函数取值为执行该动作对应的频谱利用率；

在约束不满足时，回报函数取值等于约束不满足的程度的负值。

所述步骤B4还包括初始时滑动窗口取值为2。

本发明的有益效果：本发明将能量采集技术与无线通信技术相结合，有效的解决了未来物联网低功耗接收机的能源供应问题，实现绿色网络的愿景。同时基于深度强化学习技术，为网络中的智能节点进行智能的决策，使用优先经验生成(PEG，PrioritizedExperience Generation)技术提高深度强化学习算法收敛性，让强化学习算法能够在数能一体化传输场景下能够收敛并学习到性能较高的策略。将此策略应用于数能一体化协同传输场景，使得无线网络更加智能化。

附图说明

图1为本发明提供的基于能量采集与深度强化学习的自适应链路控制设计与优化方法流程图。

图2为本发明自适应调制、自适应功率控制和自适应能量控制的***框图。

图3为本发明在强化学习算法中和实施PEG的位置，并与传统优先经验回放(PER)做对比；

其中，图3(a)为当好经验与坏经验占比平衡时，优先经验回放机制能够生效；图3(b)为PER失效的情况，当经验池里全是坏经验时，就算使用PER依然不能实现有效的学习；图3(c)为本发明提出的优先经验生成(PEG)的作用原理。

图4为本发明实例的深度强化学习DQN算法框架。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图1-4对本发明内容进一步阐释。

为便于理解本发明的内容，首先对以下名词的释义进行说明：

WPT：无线能量传输。

WIT：无线信息传输。

h：信道增益。

(s_t,a_t,r_t,s_t+1)：强化学习算法的transitions格式。

ε-greedy策略：原始DQN的探索策略。

γ：瞬时信噪比。

：平均误码率性能。

：平均能量收割性能。

：平均发射功率。

ρ_PS：功率分割因子。

Mod：调制方式。

P₀：平均收割能量的约束目标值。

P_t0：平均发射功率约束的目标值。

BER₀：平均误码率的约束目标值。

在信道转移概率未知的情况下，基于强化学习的方法可能会非常有效。在强化学习方法中，通过反复与环境(即信道)交互来学习最优控制策略，而无需假设信道转换概率的先验信息。

本发明提供了一种基于能量采集与深度强化学习的自适应链路控制设计与优化方法，如图1所示，包括以下步骤：

S1、基于能量采集技术构建自适应链路控制***(包括：自适应功率控制、自适应调制、自适应能量控制)；

本实施例中考虑由一个智能发射机和一个接收机组成的点对点SWIPT***。它们都只有一个天线。假设接收器有一个可充电的电池。接收机采用功率分割的方式将一部分接收到的能量存储到电池中，剩余的能量用于向发射机传输数据。发射机根据信道估计的反馈信息，在平均功率限制、平均误码率限制、平均能量收割限制的约束下，自适应地调整自己的发射功率和调制方式，接收机自适应调制功率分割因子。例如，发射机根据当前的***运行各项性能指标，做出发射功率的调整，根据策略选择适合的调制方式，并且通过对功率进行分割，一部分用于能量传输，一部分用于数据传输，自适应的调节分割时的比例(自适应功率分割因子控制)，将平均性能指标稳定在性能约束的范围内。

我们认为发射机具有完备的信道状态信息(CSI)，并且假设无线信道为准静态衰落和瑞利平坦衰落，则发射机到接收机的下行信道增益可表示为

g＝|h|²α

此处α表示大尺度衰落的成分，包括路径衰落和对数正态阴影衰落，它们将在多个时隙中保持不变。基于一阶高斯-马尔可夫过程，本发明考虑了小尺度瑞利衰落分量h变化的相关性时变衰落信道。

h^t＝ρh^t-1+e^t

其中，h～CN(0,1)为单位方差的循环对称复高斯函数(CSCG)，信道更新过程e¹,e²,……由具有分布的独立恒等分布的CSCG随机变量组成，满足CN(0,1-ρ²)，相关系数ρ＝J₀(2πf_dT)，这里J₀(·)为第一类零阶贝塞尔函数，f_d为最大多普勒频率。

假设信道的相关剖面(即，信道跃迁的概率分布)对***未知。发射机和接收机之间的距离为d，路径损耗系数为λ。假设发射机发射功率为P_t，能量接收平均接收功率为P_r，功率分割因子为ρ_PS，噪声功率为σ²，接收到的信噪比(SINR)可表示为

对于能量收割，我们采用通用线性模型，假设EH电路转换效率作为一个常数η。为了便于分析，将符号周期设为1。考虑EH功率阈值，EH电路输出功率P_EH由下式决定。其中P_th表示接收功率阈值，(a)⁺表示max(a,0)。

P_EH＝η(P_r-P_th)⁺

S2、根据传统深度强化学习中存在的不足，设计适用于自适应调制场景的强化学习改进技术PEG。优先经验生成包括两个部分，一是让智能发射机在训练时进行高效探索。二是控制下一个经历的状态s_t+1。

让智能发射机在训练时进行高效探索：在执行动作时，只选择那些可能成为最优策略的动作(这些动作不会让平均性能出现太大波动)，不考虑那些明显不好的动作(造成平均性能指标发生较大偏移的动作)。所以对于那些很糟糕的动作策略，无需浪费计算能力去试错学习。所以相比于原始的DQN算法，我们在探索时不再采用ε-greedy策略进行探索。结合自适应调制场景的规律，在获得了一个比较符合当前性能约束的动作策略后，如果要探索得到具有更高性能的动作策略，只可能选择与当前动作策略具有相同或者相邻阶数的调制方式。我们根据自适应调制场景的以上特点，设计了新的探索动作策略，每次先得到当前最优策略α_t，按概率ε进行探索(在探索初期，ε可取较大的值来加强探索，例如0.4；之后随着训练的进行，ε逐渐减小，最终衰减到0.05)。按照上述规律去更新动作候选集(即选择与当前动作策略具有相同或者相邻阶数的调制方式)。最后再在缩小的动作候选集中随机选取动作策略进行训练。当算法已经学到一个较好的决策之后，采用上述探索策略我们可以缩小需要探索的动作空间，加快算法寻找最优决策方案的过程。这里的动作候选集为动作空间的子集。

调制方式的选择包括BPSK，4QPSK，8QAM，16QAM，64QAM和256QAM等码型若当前α_t对应的调制方式为64QAM，则本实施例中动作候选集由16QAM、64QAM和256QAM组成；4QAM由于阶数差别太大，所以不会被选择。

控制下一个经历的状态s_t+1，减少生成过多偏离最优策略的transition：在本实施例的场景中，我们希望训练过程中所经历的状态序列都是满足性能约束条件的。对性能指标附近的经验进行学***均误码率性能偏离了约束范围，在几次状态转移之后，滑动窗口中将该动作移除(在探索初期，由于算法没有学***均误码率性能又将回到比较符合约束的状态。这样就能实现，让算法能够在短时间内自主跳出坏的状态，在经验池中出现更多满足性能约束的状态转移。

不同的经验对于算法的影响是不一样的，符合当前约束的经验能让智能发射机更好地学***衡时，优先经验回放(PER)机制能够生效，即通过对好经验进行更高频率的采样，来优化学习效果；图3(b)为PER失效的情况，当经验池里全是坏经验时，就算使用PER依然不能实现有效的学习；图3(c)为本发明提出的优先经验生成(PEG)的作用原理，使用简单的经验回放(ER)，并且修改智能体对环境的探索(图3(c)中的①)以及修改从环境中生成样本并放入经验池的过程(图3(c)中的②)，来使得更多符合当前约束条件的经验被放入经验池。

S3、针对***中的智能发射机进行基于深度强化学习的优化决策。该步骤具体包括以下分步骤：

S31、确定接收机误码率性能、能量收割性能；

S32、确定发射机的深度强化学习的状态值与状态空间；

从本实施例的优化问题可以看到，优化目标(即平均信道容量)是和当前信噪比密切相关的，信噪比γ和当前的信道质量h以及功率分割因子ρ_PS有关。此外，由于有平均功率、平均误码率等约束，在设计State时，需要在State中反映出这些环境和状态的变化信息。状态如下，

S33、确定发射机的深度强化学习的动作值与动作空间；

在时隙t，发射机决定t时刻信号的调制方式Mod^(t)，发射功率大小P_t ^(t)以及功率分割因子

S34、确定发射机的深度强化学习的回报函数；

当约束满足时，奖励为执行该动作对应的频谱利用率R(s,a)＝C。

在约束不满足时，奖励等于约束不满足的程度的负值，具体公式如下。

R(s,a)＝R_PEH+R_BER+R_PT

其中(·)⁺表示取绝对值。

S35、基于能量采集的自适应链路控制发射机进行深度强化学习并决策。

智能发射机自身维护两个深度神经网络，分别为目标网络与评估网络，评估网络负责对***回报进行估计，目标网络则负责选取一定的动作值。在时刻t起始，智能发射机首先输入自身当前状态s_t至动作网络，目标网络然后输出每个动作的预期回报值，然后智能发射机选取预期回报值最大的动作a_t。然后智能发射机计算当前的平均误码率、平均发射功率、平均能量收集功率，得到下一个状态值s_t+1。然后智能发射将本时刻状态-动作-回报-下一时刻状态组(s_t,a_t,r_t,s_t+1)存入记忆缓存，记忆缓存大小可选取1000，即保存1000步的状态转移样本。然后从记忆缓存中选取一定mini-batch的数据，例如64个样本，使用小批量梯度下降，通过反向传播更新神经网络的权重参数θ。神经网络选取的是具有3个隐藏层的全连接神经网络，激活函数使用双切正弦函数tanh。智能发射机的深度强化学习流程如图4所示。

深度强化学***均性能参数进行更新时的控制)。当得到整个(s_t,a_t,r_t,s_t+1)后，将其存入经验池。评估网络和目标网络从经验池中取出样本，进行基于梯度下降的反向传播算法，更新网络参数。例如每100步探索之后，将评估网络的参数赋值给目标网络，使得θ^-＝θ。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种自适应调制链路控制***，其特征在于，包括：发射机、接收机、瑞利衰落信道以及信道估计模块；

所述接收机包括可充电电池，接收机采用功率分割的方式将一部分接收到的能量存储到电池中，剩余的能量通过瑞利衰落信道向发射机传输数据；

基于自适应调制链路控制***的自适应调制链路控制的过程为：

A1、确定接收机误码率性能、能量收割性能；

A2、确定发射机的深度强化学习的状态值与状态空间；状态值记为s_t，

其中，h_t-1表示时隙t-1对应的信道质量，h_t表示时隙t对应的信道质量，

表示时隙t-1对应的发射功率大小，Mod^(t-1)表示时隙t-1对应的调制方式，γ^(t-1)表示时隙t-1对应的信噪比，

表示时隙t-1对应的平均能量收割性能，

表示时隙t-1对应的平均误码率性能，

表示时隙t-1对应的平均发射功率；

A3、确定发射机的深度强化学习的动作值与动作空间；

则时隙t发射机的动作空间为：

A4、确定发射机的深度强化学习的奖励值r_t；

当约束满足时，奖励值r_t为执行该动作对应的频谱利用率R(s_t,a_t)＝C_t；

在约束不满足时，奖励值r_t等于约束不满足的程度的负值；

A5、基于改进的优先经验生成方法进行深度强化学习并决策；所述发射机维护两个深度神经网络，所述两个深度神经网络分别记为：目标网络和评估网络，所述目标网络用于选取动作策略，并输出所选取动作策略对应的预期奖励值r_t+αmaxQ(s_t+1,a_t+1)，评估网络用于对当前时刻值函数Q(s_t,a_t)进行估计；

步骤A5具体包括以下步骤：

B1、随机初始化评估网络权重参数θ和目标网络的权重θ^-；

B2、发射机依据当前的评估网络，得到具有最大Q(s_t,a_t)的动作a_t，目标网络以1-ε的概率执行动作a_t，以ε的概率随机从动作候选集中选取动作进行探索；步骤B2所述动作候选集具体为：发射机根据评估网络得到最大值函数Q(s_t,a_t)对应的动作策略a_t，选择与该动作策略具有相同或者相邻阶数的动作策略，组成动作候选集；

B3、每种动作对应一个奖励值r_t，并且使得智能发射机的状态从s_t转移到s_t+1；

B4、采用滑动窗口控制存入经验池的样本(s_t,a_t,r_t,s_t+1)，s_t表示发射机在t时刻的状态，s_t+1表示发射机在t+1时刻的状态；

B6、将评估网络的参数赋值给目标网络，使得θ^-＝θ。

2.根据权利要求1所述的一种自适应调制链路控制***，其特征在于，步骤B3所述奖励值r_t根据包括平均功率限制、平均误码率限制、平均能量收割限制的约束进行设定。

3.根据权利要求2所述的一种自适应调制链路控制***，其特征在于，所述步骤B4还包括初始时滑动窗口取值为2。