CN111491358B - 基于能量采集的自适应调制和功率控制***与优化方法 - Google Patents
基于能量采集的自适应调制和功率控制***与优化方法 Download PDFInfo
- Publication number
- CN111491358B CN111491358B CN202010325108.3A CN202010325108A CN111491358B CN 111491358 B CN111491358 B CN 111491358B CN 202010325108 A CN202010325108 A CN 202010325108A CN 111491358 B CN111491358 B CN 111491358B
- Authority
- CN
- China
- Prior art keywords
- transmitter
- action
- power
- average
- receiver
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/26—TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service]
- H04W52/262—TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service] taking into account adaptive modulation and coding [AMC] scheme
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开一种基于能量采集的自适应调制和功率控制***与优化方法,应用于无线通信网络技术领域,本发明的***包括:发射机、接收机、瑞利衰落信道以及信道估计模块;所述发射机根据信道估计模块的反馈信息,在平均功率限制、平均误码率限制、平均能量收割限制的约束下,自适应地调整其发射功率和调制方式;接收机自适应调节功率分割因子;所述接收机包括可充电电池,接收机采用功率分割的方式将一部分接收到的能量存储到电池中,剩余的能量通过瑞利衰落信道向发射机传输数据;有效的解决了未来物联网低功耗接收机的能源供应问题,实现绿色网络的愿景。
Description
技术领域
本发明属于无线通信网络技术领域,特别涉及一种应用于SWIPT***的自适应链路技术。
背景技术
近年来,同时无线信息和功率传输(SWIPT)已受到相当大的关注,以延长能量受限节点的寿命。在SWIPT应用场景下,发射器通过无线信道将信息和能量发送到接收器。传统的传输方案中,调制模式、发射功率是固定的,这称为非自适应方案。该方案不能充分利用时变衰落信道。并且它为了确保在时变信道的各个状态下的可靠传输,是根据信道状态的最坏情况设计的非自适应***。该***的设计原理会导致无法充分利用信道容量。为了在不同信道条件下可以获得最大的吞吐量,将自适应链路技术(包括自适应调制、自适应功率控制、自适应能量传输控制)引入到SWIPT***中是很有必要的。
此外,人工智能技术正炙手可热。其凭借可以使得机器设备等像人类一样比较智能的感知与环境做出一定的反馈的特性,目前已经被各大领域加以应用。在通信领域,人工智能技术也被应用于各个通信层。例如,物理层可以采用深度学习进行智能的调制与编码,MAC层可以依据强化学习进行一定的资源分配,而网络层则可以智能的帮助各个设备寻找最优路由。通信与机器学习的结合,正在使得网络更加智能化。
和传统的自适应链路技术不同,在SWIPT***中,因为接收器仅使用从无线信道接收的能量信号中收集的能量进行操作,信息传输量和能量传输量之间存在折衷,因此自适应链路控制方案的设计除了考虑吞吐量的优化以外,还必须同时优化收集到的能量,以此保证***的性能和稳定。在传统的优化方法中,虽然考虑了时变信道,但相关研究中对信道转移概率在***中已知的假设却是不合理的,因为在现实世界中难以准确地估计信道转移概率。
发明内容
为解决上述技术问题,本发明提出一种基于能量采集与深度强化学习的自适应调制和功率控制方案与优化方法。
本发明采用的技术方案为:一种自适应调制链路控制***,包括:发射机、接收机、瑞利衰落信道以及信道估计模块;
所述发射机根据信道估计模块的反馈信息,在平均功率限制、平均误码率限制、平均能量收割限制的约束下,自适应地调整其发射功率和调制方式;
所述接收机包括可充电电池,接收机采用功率分割的方式将一部分接收到的能量存储到电池中,剩余的能量通过瑞利衰落信道向发射机传输数据。
所述发射机维护两个深度神经网络,所述两个神经网络分别记为:目标网络和评估网络,所述目标网络用于选取动作策略,并输出所选取动作策略对应的预期回报值表示回报函数,评估网络用于对当前时刻值函数Q(st,at)进行估计。所述动作策略指调制方式。
本发明采用的技术方案之二为:一种基于深度强化学习的深度神经网络优化方法,包括:
B1、随机初始化评估网络权重参数θ和目标网络的权重θ-;
B2、发射机依据当前的评估网络,得到具有最大Q(st,at)的动作at,目标网络以1-ε的概率执行动作at,以ε的概率随机从动作候选集中选取动作进行探索;
B3、每种动作对应一个回报函数,并且使得发射机的状态从st转移到st+1;
B4、采用滑动窗口控制存入经验池的样本(st,at,rt,st+1),st表示发射机在t时刻的状态,st+1表示发射机在t+1时刻的状态,rt表示t时刻回报函数值;
B5、评估网络和目标网络从经验池中取出样本,进行基于梯度下降的反向传播算法,更新网络参数;
B6、将评估网络的权重参数赋值给目标网络,使得θ-=θ。
步骤B2所述动作候选集具体为:发射机根据评估网络得到最大值函数Q(st,at)对应的动作策略at,选择与该动作策略具有相同或者相邻阶数的动作策略,组成动作候选集。
步骤B3所述回报函数根据包括平均功率限制、平均误码率限制、平均能量收割限制的约束进行设定。
当约束满足时,回报函数取值为执行该动作对应的频谱利用率;
在约束不满足时,回报函数取值等于约束不满足的程度的负值。
所述步骤B4还包括初始时滑动窗口取值为2。
本发明的有益效果:本发明将能量采集技术与无线通信技术相结合,有效的解决了未来物联网低功耗接收机的能源供应问题,实现绿色网络的愿景。同时基于深度强化学习技术,为网络中的智能节点进行智能的决策,使用优先经验生成(PEG,PrioritizedExperience Generation)技术提高深度强化学习算法收敛性,让强化学习算法能够在数能一体化传输场景下能够收敛并学习到性能较高的策略。将此策略应用于数能一体化协同传输场景,使得无线网络更加智能化。
附图说明
图1为本发明提供的基于能量采集与深度强化学习的自适应链路控制设计与优化方法流程图。
图2为本发明自适应调制、自适应功率控制和自适应能量控制的***框图。
图3为本发明在强化学习算法中和实施PEG的位置,并与传统优先经验回放(PER)做对比;
其中,图3(a)为当好经验与坏经验占比平衡时,优先经验回放机制能够生效;图3(b)为PER失效的情况,当经验池里全是坏经验时,就算使用PER依然不能实现有效的学习;图3(c)为本发明提出的优先经验生成(PEG)的作用原理。
图4为本发明实例的深度强化学习DQN算法框架。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,下面结合附图1-4对本发明内容进一步阐释。
为便于理解本发明的内容,首先对以下名词的释义进行说明:
WPT:无线能量传输。
WIT:无线信息传输。
h:信道增益。
(st,at,rt,st+1):强化学习算法的transitions格式。
ε-greedy策略:原始DQN的探索策略。
γ:瞬时信噪比。
ρPS:功率分割因子。
Mod:调制方式。
P0:平均收割能量的约束目标值。
Pt0:平均发射功率约束的目标值。
BER0:平均误码率的约束目标值。
在信道转移概率未知的情况下,基于强化学习的方法可能会非常有效。在强化学习方法中,通过反复与环境(即信道)交互来学习最优控制策略,而无需假设信道转换概率的先验信息。
本发明提供了一种基于能量采集与深度强化学习的自适应链路控制设计与优化方法,如图1所示,包括以下步骤:
S1、基于能量采集技术构建自适应链路控制***(包括:自适应功率控制、自适应调制、自适应能量控制);
本实施例中考虑由一个智能发射机和一个接收机组成的点对点SWIPT***。它们都只有一个天线。假设接收器有一个可充电的电池。接收机采用功率分割的方式将一部分接收到的能量存储到电池中,剩余的能量用于向发射机传输数据。发射机根据信道估计的反馈信息,在平均功率限制、平均误码率限制、平均能量收割限制的约束下,自适应地调整自己的发射功率和调制方式,接收机自适应调制功率分割因子。例如,发射机根据当前的***运行各项性能指标,做出发射功率的调整,根据策略选择适合的调制方式,并且通过对功率进行分割,一部分用于能量传输,一部分用于数据传输,自适应的调节分割时的比例(自适应功率分割因子控制),将平均性能指标稳定在性能约束的范围内。
我们认为发射机具有完备的信道状态信息(CSI),并且假设无线信道为准静态衰落和瑞利平坦衰落,则发射机到接收机的下行信道增益可表示为
g=|h|2α
此处α表示大尺度衰落的成分,包括路径衰落和对数正态阴影衰落,它们将在多个时隙中保持不变。基于一阶高斯-马尔可夫过程,本发明考虑了小尺度瑞利衰落分量h变化的相关性时变衰落信道。
ht=ρht-1+et
其中,h~CN(0,1)为单位方差的循环对称复高斯函数(CSCG),信道更新过程e1,e2,……由具有分布的独立恒等分布的CSCG随机变量组成,满足CN(0,1-ρ2),相关系数ρ=J0(2πfdT),这里J0(·)为第一类零阶贝塞尔函数,fd为最大多普勒频率。
假设信道的相关剖面(即,信道跃迁的概率分布)对***未知。发射机和接收机之间的距离为d,路径损耗系数为λ。假设发射机发射功率为Pt,能量接收平均接收功率为Pr,功率分割因子为ρPS,噪声功率为σ2,接收到的信噪比(SINR)可表示为
对于能量收割,我们采用通用线性模型,假设EH电路转换效率作为一个常数η。为了便于分析,将符号周期设为1。考虑EH功率阈值,EH电路输出功率PEH由下式决定。其中Pth表示接收功率阈值,(a)+表示max(a,0)。
PEH=η(Pr-Pth)+
S2、根据传统深度强化学习中存在的不足,设计适用于自适应调制场景的强化学习改进技术PEG。优先经验生成包括两个部分,一是让智能发射机在训练时进行高效探索。二是控制下一个经历的状态st+1。
让智能发射机在训练时进行高效探索:在执行动作时,只选择那些可能成为最优策略的动作(这些动作不会让平均性能出现太大波动),不考虑那些明显不好的动作(造成平均性能指标发生较大偏移的动作)。所以对于那些很糟糕的动作策略,无需浪费计算能力去试错学习。所以相比于原始的DQN算法,我们在探索时不再采用ε-greedy策略进行探索。结合自适应调制场景的规律,在获得了一个比较符合当前性能约束的动作策略后,如果要探索得到具有更高性能的动作策略,只可能选择与当前动作策略具有相同或者相邻阶数的调制方式。我们根据自适应调制场景的以上特点,设计了新的探索动作策略,每次先得到当前最优策略αt,按概率ε进行探索(在探索初期,ε可取较大的值来加强探索,例如0.4;之后随着训练的进行,ε逐渐减小,最终衰减到0.05)。按照上述规律去更新动作候选集(即选择与当前动作策略具有相同或者相邻阶数的调制方式)。最后再在缩小的动作候选集中随机选取动作策略进行训练。当算法已经学到一个较好的决策之后,采用上述探索策略我们可以缩小需要探索的动作空间,加快算法寻找最优决策方案的过程。这里的动作候选集为动作空间的子集。
调制方式的选择包括BPSK,4QPSK,8QAM,16QAM,64QAM和256QAM等码型若当前αt对应的调制方式为64QAM,则本实施例中动作候选集由16QAM、64QAM和256QAM组成;4QAM由于阶数差别太大,所以不会被选择。
控制下一个经历的状态st+1,减少生成过多偏离最优策略的transition:在本实施例的场景中,我们希望训练过程中所经历的状态序列都是满足性能约束条件的。对性能指标附近的经验进行学***均误码率性能偏离了约束范围,在几次状态转移之后,滑动窗口中将该动作移除(在探索初期,由于算法没有学***均误码率性能又将回到比较符合约束的状态。这样就能实现,让算法能够在短时间内自主跳出坏的状态,在经验池中出现更多满足性能约束的状态转移。
不同的经验对于算法的影响是不一样的,符合当前约束的经验能让智能发射机更好地学***衡时,优先经验回放(PER)机制能够生效,即通过对好经验进行更高频率的采样,来优化学习效果;图3(b)为PER失效的情况,当经验池里全是坏经验时,就算使用PER依然不能实现有效的学习;图3(c)为本发明提出的优先经验生成(PEG)的作用原理,使用简单的经验回放(ER),并且修改智能体对环境的探索(图3(c)中的①)以及修改从环境中生成样本并放入经验池的过程(图3(c)中的②),来使得更多符合当前约束条件的经验被放入经验池。
S3、针对***中的智能发射机进行基于深度强化学习的优化决策。该步骤具体包括以下分步骤:
S31、确定接收机误码率性能、能量收割性能;
S32、确定发射机的深度强化学习的状态值与状态空间;
从本实施例的优化问题可以看到,优化目标(即平均信道容量)是和当前信噪比密切相关的,信噪比γ和当前的信道质量h以及功率分割因子ρPS有关。此外,由于有平均功率、平均误码率等约束,在设计State时,需要在State中反映出这些环境和状态的变化信息。状态如下,
S33、确定发射机的深度强化学习的动作值与动作空间;
S34、确定发射机的深度强化学习的回报函数;
当约束满足时,奖励为执行该动作对应的频谱利用率R(s,a)=C。
在约束不满足时,奖励等于约束不满足的程度的负值,具体公式如下。
R(s,a)=RPEH+RBER+RPT
其中(·)+表示取绝对值。
S35、基于能量采集的自适应链路控制发射机进行深度强化学习并决策。
智能发射机自身维护两个深度神经网络,分别为目标网络与评估网络,评估网络负责对***回报进行估计,目标网络则负责选取一定的动作值。在时刻t起始,智能发射机首先输入自身当前状态st至动作网络,目标网络然后输出每个动作的预期回报值,然后智能发射机选取预期回报值最大的动作at。然后智能发射机计算当前的平均误码率、平均发射功率、平均能量收集功率,得到下一个状态值st+1。然后智能发射将本时刻状态-动作-回报-下一时刻状态组(st,at,rt,st+1)存入记忆缓存,记忆缓存大小可选取1000,即保存1000步的状态转移样本。然后从记忆缓存中选取一定mini-batch的数据,例如64个样本,使用小批量梯度下降,通过反向传播更新神经网络的权重参数θ。神经网络选取的是具有3个隐藏层的全连接神经网络,激活函数使用双切正弦函数tanh。智能发射机的深度强化学习流程如图4所示。
深度强化学***均性能参数进行更新时的控制)。当得到整个(st,at,rt,st+1)后,将其存入经验池。评估网络和目标网络从经验池中取出样本,进行基于梯度下降的反向传播算法,更新网络参数。例如每100步探索之后,将评估网络的参数赋值给目标网络,使得θ-=θ。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (3)
1.一种自适应调制链路控制***,其特征在于,包括:发射机、接收机、瑞利衰落信道以及信道估计模块;
所述发射机根据信道估计模块的反馈信息,在平均功率限制、平均误码率限制、平均能量收割限制的约束下,自适应地调整其发射功率和调制方式;
所述接收机包括可充电电池,接收机采用功率分割的方式将一部分接收到的能量存储到电池中,剩余的能量通过瑞利衰落信道向发射机传输数据;
基于自适应调制链路控制***的自适应调制链路控制的过程为:
A1、确定接收机误码率性能、能量收割性能;
A2、确定发射机的深度强化学习的状态值与状态空间;状态值记为st,
其中,ht-1表示时隙t-1对应的信道质量,ht表示时隙t对应的信道质量,表示时隙t-1对应的发射功率大小,Mod(t-1)表示时隙t-1对应的调制方式,γ(t-1)表示时隙t-1对应的信噪比,表示时隙t-1对应的平均能量收割性能,表示时隙t-1对应的平均误码率性能,表示时隙t-1对应的平均发射功率;
A3、确定发射机的深度强化学习的动作值与动作空间;
A4、确定发射机的深度强化学习的奖励值rt;
当约束满足时,奖励值rt为执行该动作对应的频谱利用率R(st,at)=Ct;
在约束不满足时,奖励值rt等于约束不满足的程度的负值;
A5、基于改进的优先经验生成方法进行深度强化学习并决策;所述发射机维护两个深度神经网络,所述两个深度 神经网络分别记为:目标网络和评估网络,所述目标网络用于选取动作策略,并输出所选取动作策略对应的预期奖励值rt+αmaxQ(st+1,at+1),评估网络用于对当前时刻值函数Q(st,at)进行估计;
步骤A5具体包括以下步骤:
B1、随机初始化评估网络权重参数θ和目标网络的权重θ-;
B2、发射机依据当前的评估网络,得到具有最大Q(st,at)的动作at,目标网络以1-ε的概率执行动作at,以ε的概率随机从动作候选集中选取动作进行探索;步骤B2所述动作候选集具体为:发射机根据评估网络得到最大值函数Q(st,at)对应的动作策略at,选择与该动作策略具有相同或者相邻阶数的动作策略,组成动作候选集;
B3、每种动作对应一个奖励值rt,并且使得智能发射机的状态从st转移到st+1;
B4、采用滑动窗口控制存入经验池的样本(st,at,rt,st+1),st表示发射机在t时刻的状态,st+1表示发射机在t+1时刻的状态;
B5、评估网络和目标网络从经验池中取出样本,进行基于梯度下降的反向传播算法,更新网络参数;
B6、将评估网络的参数赋值给目标网络,使得θ-=θ。
2.根据权利要求1所述的一种自适应调制链路控制***,其特征在于,步骤B3所述奖励值rt根据包括平均功率限制、平均误码率限制、平均能量收割限制的约束进行设定。
3.根据权利要求2所述的一种自适应调制链路控制***,其特征在于,所述步骤B4还包括初始时滑动窗口取值为2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010325108.3A CN111491358B (zh) | 2020-04-23 | 2020-04-23 | 基于能量采集的自适应调制和功率控制***与优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010325108.3A CN111491358B (zh) | 2020-04-23 | 2020-04-23 | 基于能量采集的自适应调制和功率控制***与优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111491358A CN111491358A (zh) | 2020-08-04 |
CN111491358B true CN111491358B (zh) | 2021-10-26 |
Family
ID=71813667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010325108.3A Active CN111491358B (zh) | 2020-04-23 | 2020-04-23 | 基于能量采集的自适应调制和功率控制***与优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111491358B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102278037B1 (ko) * | 2019-10-22 | 2021-07-15 | 성균관대학교산학협력단 | 듀얼 모드로 동작하는 무선전력/정보 동시전송을 위해 송신기가 수행하는 수신기 제어 방법, 기계학습 기반 적응형 모드 전환 방법 및 이를 수행하는 장치 |
CN112508172A (zh) * | 2020-11-23 | 2021-03-16 | 北京邮电大学 | 基于q学习和srnn模型的航天测控自适应调制方法 |
CN114126021B (zh) * | 2021-11-26 | 2024-04-09 | 福州大学 | 一种基于深度强化学习的绿色认知无线电的功率分配方法 |
CN114533321A (zh) * | 2022-04-18 | 2022-05-27 | 深圳市宏丰科技有限公司 | 一种洗牙器控制电路及方法 |
CN114980293B (zh) * | 2022-05-07 | 2023-08-11 | 电子科技大学长三角研究院(湖州) | 一种面向大规模ofdm***的智能自适应功率控制方法 |
CN117579136B (zh) * | 2024-01-17 | 2024-04-02 | 南京控维通信科技有限公司 | Tdma中网控***对反向突发的aupc及acm控制方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101340592A (zh) * | 2008-08-14 | 2009-01-07 | 上海交通大学 | 混合无线环境下视频传输的能量控制*** |
KR101710012B1 (ko) * | 2015-11-10 | 2017-02-24 | 성균관대학교산학협력단 | 수신기에서의 에너지 하베스팅 방법 및 상기 방법을 사용하는 수신기, 및 이를 위한 블라인드 변조방식 검출 방법 및 장치 |
CN108449803A (zh) * | 2018-04-02 | 2018-08-24 | 太原理工大学 | 可充电无线传感器网络中的可预测能量管理和任务规划算法 |
CN110691422A (zh) * | 2019-10-06 | 2020-01-14 | 湖北工业大学 | 一种基于深度强化学习的多信道智能接入方法 |
-
2020
- 2020-04-23 CN CN202010325108.3A patent/CN111491358B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101340592A (zh) * | 2008-08-14 | 2009-01-07 | 上海交通大学 | 混合无线环境下视频传输的能量控制*** |
KR101710012B1 (ko) * | 2015-11-10 | 2017-02-24 | 성균관대학교산학협력단 | 수신기에서의 에너지 하베스팅 방법 및 상기 방법을 사용하는 수신기, 및 이를 위한 블라인드 변조방식 검출 방법 및 장치 |
CN108449803A (zh) * | 2018-04-02 | 2018-08-24 | 太原理工大学 | 可充电无线传感器网络中的可预测能量管理和任务规划算法 |
CN110691422A (zh) * | 2019-10-06 | 2020-01-14 | 湖北工业大学 | 一种基于深度强化学习的多信道智能接入方法 |
Non-Patent Citations (3)
Title |
---|
Joint Interleaver and Modulation Design For Multi-User SWIPT-NOMA;Yizhe Zhao等;《IEEE TRANSACTIONS ON COMMUNICATIONS》;20191031;第67卷(第10期);全文 * |
Optimal Power Splitting for Simultaneous Wireless Information and Power Transfer in Amplify-and-Forward Multiple-Relay Systems;DEREK KWAKU POBI ASIEDU等;《IEEE》;20180130;全文 * |
一种具有顽健性的无线数能网络的时隙资源分配和多用户选择算法;杨佳雨等;《物联网学报》;20190930;第3卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111491358A (zh) | 2020-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111491358B (zh) | 基于能量采集的自适应调制和功率控制***与优化方法 | |
Ortiz et al. | Reinforcement learning for energy harvesting point-to-point communications | |
Ortiz et al. | Reinforcement learning for energy harvesting decode-and-forward two-hop communications | |
CN112383922B (zh) | 一种基于优先经验重放的深度强化学习频谱共享方法 | |
CN111666149A (zh) | 基于深度强化学习的超密边缘计算网络移动性管理方法 | |
Chen et al. | Genetic algorithm-based optimization for cognitive radio networks | |
CN108075975B (zh) | 一种物联网环境中的路由传输路径的确定方法及确定*** | |
CN114513855B (zh) | 基于无线携能通信的边缘计算卸载决策与资源分配方法 | |
CN105519030A (zh) | 通信***中进行快速链路自适应的装置与计算机程序产品 | |
CN110267274A (zh) | 一种根据用户间社会信誉度选择传感用户的频谱共享方法 | |
Mashhadi et al. | Deep reinforcement learning based adaptive modulation with outdated CSI | |
Ji et al. | Reconfigurable intelligent surface enhanced device-to-device communications | |
CN115065678A (zh) | 一种基于深度强化学习的多智能设备任务卸载决策方法 | |
CN115065728A (zh) | 一种基于多策略强化学习的多目标内容存储方法 | |
CN112738849B (zh) | 应用于多跳环境反向散射无线网络的负载均衡调控方法 | |
Gao et al. | A continuous policy learning approach for hybrid offloading in backscatter communication | |
Zhang et al. | Deep Deterministic Policy Gradient for End-to-End Communication Systems without Prior Channel Knowledge | |
CN109951239B (zh) | 基于贝叶斯分类器的能量采集中继***自适应调制方法 | |
Huang et al. | Joint AMC and resource allocation for mobile wireless networks based on distributed MARL | |
Prasad et al. | Deep learning based integrated information and energy relaying in RF powered communication | |
Cui et al. | Hierarchical learning approach for age-of-information minimization in wireless sensor networks | |
Alajmi et al. | An efficient Actor Critic DRL Framework for Resource Allocation in Multi-cell Downlink NOMA | |
CN111556511B (zh) | 一种基于智能边缘缓存的部分机会性干扰对齐方法 | |
CN105007582B (zh) | 基于pomdp的受控无线网络***动态资源分配方法 | |
CN113747386A (zh) | 认知无线电网络频谱共享中的智能功率控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |