CN113395757A - 基于改进回报函数的深度强化学习认知网络功率控制方法 - Google Patents

基于改进回报函数的深度强化学习认知网络功率控制方法 Download PDF

Info

Publication number
CN113395757A
CN113395757A CN202110647638.4A CN202110647638A CN113395757A CN 113395757 A CN113395757 A CN 113395757A CN 202110647638 A CN202110647638 A CN 202110647638A CN 113395757 A CN113395757 A CN 113395757A
Authority
CN
China
Prior art keywords
neural network
secondary user
network
transmission
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110647638.4A
Other languages
English (en)
Other versions
CN113395757B (zh
Inventor
汤春瑞
张维思
张音捷
李一兵
郝向宁
栾磊
张驰
贺平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Air Force Communication Sergeant School Of Pla
Original Assignee
Air Force Communication Sergeant School Of Pla
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Air Force Communication Sergeant School Of Pla filed Critical Air Force Communication Sergeant School Of Pla
Priority to CN202110647638.4A priority Critical patent/CN113395757B/zh
Publication of CN113395757A publication Critical patent/CN113395757A/zh
Application granted granted Critical
Publication of CN113395757B publication Critical patent/CN113395757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/28TPC being performed according to specific parameters using user profile, e.g. mobile speed, priority or network state, e.g. standby, idle or non transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/30TPC using constraints in the total amount of available transmission power
    • H04W52/34TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种基于改进回报函数的深度强化学***方差,次用户进行新的互动之后,最新的序列样本会取代最旧的序列样本;每经过一定次数迭代,将表现网络参数赋予目标网络;完成所有迭代循环后获得完整神经网络模型,效果是次用户能够智能调整自己功率保证主次用户都能成功进行数据传输。

Description

基于改进回报函数的深度强化学习认知网络功率控制方法
技术领域
本发明属于认知无线电技术领域,具体涉及基于改进回报函数的深度强化学习认知网络功率控制。
背景技术
随着5G技术和物联网技术的快速发展,新技术对于频谱资源的需求量急速增多。而现行静态分割,独占式的频谱管理规则过于限制频谱接入机会,严重阻碍了无线通信网络的部署和运行。因此,如何提高频谱资源的利用率成为目前研究重点。认知无线电于1999由John Mitola提出,通过频谱复用的方式,在保证主用户正常使用频段的前提下,次用户动态地使用频谱,提高频谱资源的利用率。
在主次用户频谱复用下,由于主用户发射功率并非一成不变,极有可能随着时间环境进行调整以满足自己的通信需求,因此次用户需要在未知主用户功率策略的前提下,短时间内调整自己的发射功率来同时保证主用户与自己的顺利传输。深度强化学习可以在未知主用户功率策略的条件下,通过次用户与环境动态交互,从过往经验中进行学习。然而在深度学习中经常遇到由于回报函数设计不合理而造成的稀疏回报问题,进而导致学习速率慢,学习效果差,最终难以收敛,在认知网络中功率控制体现的是,次用户无法在规定的时间内调整至合适的功率,最终难以实现有效传输,甚至影响主用户的传输。因此针对主次用户复用的功率控制问题设计合理的回报函数也十分重要。
现有技术中,公开号为CN102333362A提出了一种基于分布式价格算法的认知无线电功率控制的方法,但是其需知主用户发射功率,以及次用户在不对主用户造成干扰的最大发射功率等先验信息。公开号CN107947878A提出了一种基于能效和谱效联合优化的认知无线电功率分配的方法,然而其设定主用户所能忍受的最大干扰功率不变,实际环境中随着主用户功率的变化,主用户对干扰的容忍程度也会变化。Li Xingjian等人发表于《IEEEAccess》的“Intelligent Power Control for Spectrum Sharing in CognitiveRadios:ADeep Reinforcement LearningApproach”一文中次用户通过强化学习动态调整发射功率保证双方成功传输,但是其回报函数设计存在不足,容易造成稀疏回报问题。
发明内容
针对功率控制问题,本发明的提出一种基于改进回报函数的深度强化学习认知网络功率控制方法,对回报函数进行合理优化设计,次用户能够在未知主用户功率策略的前提下,通过深度强化学习与环境进行互动进行学习,最终次用户能够智能调整自己功率保证主次用户都能成功进行数据传输,最终增加频谱利用率。
本发明的目的是这样实现的:一种基于改进回报函数的深度强化学习认知网络功率控制方法,步骤如下:
步骤1:***环境与两个神经网络参数初始化,两个神经网络是表现神经网络和目标神经网络;
步骤2:次用户通过辅助传感器获得环境状态,次用户通过辅助传感节点与环境互动进行学习,并根据改进回报函数取得相应回报,从而获得序列样本,并将序列样本存储至记忆库;
步骤3:从记忆库中均匀采样获得序列样本用于训练表现神经网络参数,表现神经网络目标为表现神经网络输出与目标神经网络输出的平方差最小化;
步骤4:每经过若干轮迭代,序列样本达到记忆库存储量,将表现神经网络的参数赋予目标神经网络;
进行下一阶段学习:次用户通过辅助传感节点与环境产生新互动进行学习,根据改进回报函数取得相应回报,从而获得新的序列样本,并将新的序列样本存储至记忆库,最新的序列样本取代最旧的序列样本;
步骤5:循环执行步骤3和步骤4,直至完成所有循环次数后,获得完整神经网络模型。
进一步的,步骤1具体包括:
步骤1.1:神经网络初始化包括两个网络,表现神经网络的参数为θ与目标神经网络的参数为θ-,目标神经网络与表现神经网络结构相同。
进一步的,目标神经网络与表现神经网络,其网络结构包含三个隐藏层,其中一个网络的神经元数目为100,激活函数为线性整流函数;另一个网络的神经元数目为200,激活函数为双曲正切函数。
进一步的,步骤2具体包括:
步骤2.1:次用户通过辅助传感器来获得环境状态s(k),
Figure BDA0003109780870000021
其中
Figure BDA0003109780870000022
表示第n个辅助传感器接受到的功率;
步骤2.2:次用户与环境互动具体为:次用户在环境状态是s(k)下,通过表现神经网络获得L2个输出,其中L2为次用户可选择的功率数目,其为一个有限集合;
次用户以εk的概率选择在L2个输出中值最大的功率作为发射功率,
或者
次用户以(1-εk)的概率随机选择发射功率,
设次用户选择的发射功率为a(k),其中εk初始为0,随着时隙数不断增大,在达到时隙数一定后不变;
步骤2.3:根据回报函数获得回报r(k),并达到下一个状态s(k+1),回报函数为:
Figure BDA0003109780870000031
其中SINR1和SINR2分别为主用户和次用户的信干噪比,η1和η2为传输门限,只有SINR大于传输门限才能进行数据传输;T为单个时隙次用户调整发射功率的最大次数;
其中
a=10表示双方传输成功时次用户获得正反馈;
b=-10表示双方传输失败次用户获得负反馈;
c=0.01表示虽然次用户传输失败,但主用户传输成功,依然给予少量正反馈,相较于传输成功的正反馈,数值较小,用于保护主用户;
d=-0.01表示虽然次用户传输失败,但是主用户传输失败,给予少量负反馈惩罚,相较于传输失败的负反馈,数值较小,也用于保护主用户;
因为信道传输时间有限,若在规定次数T内次用户未调整至使得双方成功传输功率,也给予负反馈惩罚,其值等于双方传输失败的负反馈。
进一步的,
Figure BDA0003109780870000032
进一步的,步骤3目标神经网络输出Qtarget为:
Figure BDA0003109780870000033
其中表现神经网络其参数为θ、目标神经网络其参数为θ-、γ为回报延迟,
表现网络训练的目标函数为:
Figure BDA0003109780870000034
其中,Q(s(k),a(k);θ)为表现神经网络输出。
本发明具有的有益效果:本发明中次用户首先基于改进后的回报函数与环境交互获得序列样本。改进后的回报函数使得在主用户功率不断变化的时候,次用户每个发射功率都有细致的正负反馈,以此避免稀疏回报问题。本发明中次用户能够在未知主用户功率策略的前提下,基于深度强化学习通过与环境进行互动进行学习,并且针对功率控制问题对回报函数进行合理优化设计,最终次用户能够智能调整自己功率保证主次用户都能成功进行数据传输。
附图说明
图1为本发明方法流程图;
图2为本发明提出的改进回报函数和传统回报函数的每五个时隙平均收敛次数的比较,为了使仿真结果更加清晰,图2经过平滑化处理。
图3为本发明提出的改进回报函数和传统回报函数的每五个时隙平均回报的比较。
具体实施方式
下面结合附图和具体实施例对本文作进一步具体说明:
如图1所示,本发明基于改进回报函数的深度强化学习认知网络功率控制,方法流程图包括以下步骤:
步骤1:***环境与神经网络参数初始化。
步骤1.1:初始化分为环境初始化和神经网络初始化两个部分。其中环境初始化部分包括设置辅助传感器位置,其随机分布于环境内;初始化主次用户发射功率,在各自功率集合P1和P2随机选择作为初始发射功率。神经网络初始化包括两个网络,表现神经网络其参数为θ与目标神经网络其参数为θ-,目标神经网络与表现神经网络结构相同,其中包含三个隐藏层,其神经元个数目和激活函数分别为100,线性整流函数;100,线性整流函数;200,双曲正切。
步骤2:次用户通过辅助传感节点与环境互动进行学习,根据改进回报函数获得相应回报,获得序列样本d(k)={s(k),a(k),r(k),s(k+1)},并将序列样本存储至记忆库D。
步骤2.1:次用户通过辅助传感器获得环境状态s(k)。
Figure BDA0003109780870000041
其中
Figure BDA0003109780870000042
表示第n个辅助传感器接受到的功率。p1(k)和p2(k)分别代表主用户和次用户在第k个时隙的发射功率。wn(k)表示在第n个辅助感知器在第k个时隙收到的均值为0,方差为
Figure BDA0003109780870000043
高斯白噪声。g1n和g2n分别代表第n个辅助传感器到主用户和次用户之间的路径衰落,则路径衰落gin
Figure BDA0003109780870000044
对于公式(2)中,λ为信号波长,din为第n个辅助传感器到主用户或次用户的距离。
环境状态s(k)表示为:
Figure BDA0003109780870000051
步骤2.2:次用户与环境互动具体为:次用户在环境状态是s(k)下,通过表现神经网络获得L2个输出,其中L2为次用户可选择的功率数目,其为一个有限集合。次用户以εk的概率选择在L2个输出中值最大的功率作为发射功率,或者以(1-εk)的概率随机选择发射功率,设其选择的发射功率为a(k)。
其中εk初始为0,随着时隙数不断增大,并且达到一定时隙数后不变。
Figure BDA0003109780870000052
步骤2.3:根据回报函数获得回报r(k),并达到下一个状态s(k+1)。其中回报函数为:
Figure BDA0003109780870000053
其中SINR1和SINR2分别为主用户和次用户的信干噪比,η1和η2为传输门限,只有SINR大于传输门限才能进行数据传输。T为单个时隙次用户调整发射功率的最大次数。其中a=10表示双方传输成功时次用户获得正反馈;b=-10表示双方传输失败次用户获得负反馈;c=0.01表示虽然次用户传输失败,但主用户传输成功,依然给予少量正反馈,用于保护主用户;d=-0.01表示虽然次用户传输失败,但是主用户传输失败,给予少量负反馈惩罚,也用于保护主用户;因为信道传输时间有限,若在规定次数T内次用户未调整至使得双方成功传输功率,也给予负反馈惩罚,其值等于传输失败的负反馈。
其中SINR由下式计算获得:
Figure BDA0003109780870000054
式中p1,p2分别表示主次用户的发射功率,hij表示主(次)用户到次(主)用户之间的信道增益,Ni表示用户收到的噪声功率。
步骤2.3:由上述步骤获得序列样本d(k)={s(k),a(k),r(k),s(k+1)},并将序列样本存储至记忆库D。
步骤3:从记忆库D中均匀采样获得Nbatch个样本用于训练表现神经网络参数,表现神经网络目标为表现神经网络输出与目标网络输出的平方差最小化。
步骤4:对于上述步骤,每经过M轮迭代,序列样本达到记忆库D存储量,将表现神经网络的参数赋予目标神经网络,并进行下一阶段的学习。
在下一阶段学习中,通过步骤2.1-2.3,次用户与环境进行新的互动学习之后,最新的序列样本会取代最旧的序列样。即只有序列样本达到记忆库存储量时进入下一阶段开始学习,并且进行新的互动后,会产生新的序列样本,使用最新的序列样本代替最旧的序列样本,保证学习样本的时效性。
其中表现网络训练的目标函数为:
Figure BDA0003109780870000061
其中Qtarget,Q(s(k),a(k);θ)分别为目标网络输出和表现神经网络输出。目标网络输出可由下式表示:
Figure BDA0003109780870000062
其中γ为回报延迟,用于控制历史回报对下一步动作的影响;Q(s(k+1),a(k+1);θ-)为目标神经网络输出,目标神经网络输出后经过公式(8)计算后作为最后的目标网络输出。
该步骤中,定期更新目标网络参数减少模型本身波动性,使得模型能够更快收敛。
步骤5:完成所有循环次数后,获得完整神经网络模型。
在一种方案中,基于改进回报函数的深度强化学习认知网络功率控制方法的具体参数设置为:
主次用户功率集合分别为P1={4.0,4.5,5.0,...,8.0}和P2={1.0,1.5,2.0,...,6.0},单位为W;主用户与次用户受到的噪声功率为N1=N2=0.05W.为了不失一般性,表示主(次)用户到次(主)用户之间的信道增益hij设为1.主用户与次用户SINR门限分别为η1=1.2和η2=0.7。辅助传感器数量为10,其至主次用户的距离服从为米的均匀分布。
表现网络其参数为θ与目标网络其参数为θ-,目标网络与表现网络结构相同,其中包含三个隐藏层,其神经元个数目和激活函数分别为1100,线性整流函数;100,线性整流函数;200,双曲正切。线性整流函数函数在输入小于0时取0,否则输出原数值。记忆库D的容量为400,进行抽样学习的Nbatch=256。整体时隙循环数为1000,单个时隙内能尝试的最多次数T为35。
从图2改进回报函数和传统回报函数的每五个时隙平均收敛次数的比较中可以看出在迭代500次后,本发明提出的改进回报函数比传统回报函数在单个时隙内达到收敛的步数更少;从图3改进回报函数和传统回报函数的每五个时隙平均回报的比较中可以看出,在迭代500次后,本发明提出的改进回报函数已经收敛,而传统回报函数还存在较大的波动性。
综上,本发明提供的一种基于改进回报函数的深度强化学***方差;每经过一定次数迭代,将表现网络参数赋予目标网络;完成所有迭代循环后获得完整神经网络模型。本发明有着更广泛的使用范围,次用户能够快速智能调整自身发射功率,减少认知无线电***中次用户对主用户的干扰,使得双方都能成功进行数据传输。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。

Claims (6)

1.一种基于改进回报函数的深度强化学习认知网络功率控制方法,其特征步骤如下:
步骤1:***环境与两个神经网络参数初始化,两个神经网络是表现神经网络和目标神经网络;
步骤2:次用户通过辅助传感器获得环境状态,次用户通过辅助传感节点与环境互动进行学习,并根据改进回报函数取得相应回报,从而获得序列样本,并将序列样本存储至记忆库;
步骤3:从记忆库中均匀采样获得序列样本用于训练表现神经网络参数,表现神经网络目标为表现神经网络输出与目标神经网络输出的平方差最小化;
步骤4:每经过若干轮迭代,序列样本达到记忆库存储量,将表现神经网络的参数赋予目标神经网络;
进行下一阶段学习:次用户通过辅助传感节点与环境产生新互动进行学习,根据改进回报函数取得相应回报,从而获得新的序列样本,并将新的序列样本存储至记忆库,最新的序列样本取代最旧的序列样本;
步骤5:循环执行步骤3和步骤4,直至完成所有循环次数后,获得完整神经网络模型。
2.根据权利要求书1所述的基于改进回报函数的深度强化学习认知网络功率控制方法,其特征在于,步骤1具体包括:
步骤1.1:神经网络初始化包括两个网络,表现神经网络的参数为θ与目标神经网络的参数为θ-,目标神经网络与表现神经网络结构相同。
3.根据权利要求书2所述的基于改进回报函数的深度强化学习认知网络功率控制方法,其特征在于,目标神经网络与表现神经网络,其网络结构包含三个隐藏层,其中一个网络的神经元数目为100,激活函数为线性整流函数;另一个网络的神经元数目为200,激活函数为双曲正切函数。
4.根据权利要求书1所述的基于改进回报函数的深度强化学习认知网络功率控制方法,其特征在于,步骤2具体包括:
步骤2.1:次用户通过辅助传感器来获得环境状态s(k),
Figure FDA0003109780860000011
其中
Figure FDA0003109780860000021
表示第n个辅助传感器接受到的功率;
步骤2.2:次用户与环境互动具体为:次用户在环境状态是s(k)下,通过表现神经网络获得L2个输出,其中L2为次用户可选择的功率数目,其为一个有限集合;
次用户以εk的概率选择在L2个输出中值最大的功率作为发射功率,
或者
次用户以(1-εk)的概率随机选择发射功率,
设次用户选择的发射功率为a(k),其中εk初始为0,随着时隙数不断增大,在达到时隙数一定后不变;
步骤2.3:根据回报函数获得回报r(k),并达到下一个状态s(k+1),回报函数为:
Figure FDA0003109780860000022
其中SINR1和SINR2分别为主用户和次用户的信干噪比,η1和η2为传输门限,只有SINR大于传输门限才能进行数据传输;T为单个时隙次用户调整发射功率的最大次数;
其中
a=10表示双方传输成功时次用户获得正反馈;
b=-10表示双方传输失败次用户获得负反馈;
c=0.01表示虽然次用户传输失败,但主用户传输成功,依然给予少量正反馈,相较于传输成功的正反馈,数值较小,用于保护主用户;
d=-0.01表示虽然次用户传输失败,但是主用户传输失败,给予少量负反馈惩罚,相较于传输失败的负反馈,数值较小,也用于保护主用户;
因为信道传输时间有限,若在规定次数T内次用户未调整至使得双方成功传输功率,也给予负反馈惩罚,其值等于双方传输失败的负反馈。
5.根据权利要求书4所述的基于改进回报函数的深度强化学习认知网络功率控制方法,其特征在于,
Figure FDA0003109780860000031
6.根据权利要求书4所述的基于改进回报函数的深度强化学习认知网络功率控制方法,其特征在于,步骤3目标神经网络输出Qtarget为:
Figure FDA0003109780860000032
其中表现神经网络其参数为θ、目标神经网络其参数为θ-、γ为回报延迟,
表现网络训练的目标函数为:
Figure FDA0003109780860000033
其中,Q(s(k),a(k);θ)为表现神经网络输出。
CN202110647638.4A 2021-06-10 2021-06-10 基于改进回报函数的深度强化学习认知网络功率控制方法 Active CN113395757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110647638.4A CN113395757B (zh) 2021-06-10 2021-06-10 基于改进回报函数的深度强化学习认知网络功率控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110647638.4A CN113395757B (zh) 2021-06-10 2021-06-10 基于改进回报函数的深度强化学习认知网络功率控制方法

Publications (2)

Publication Number Publication Date
CN113395757A true CN113395757A (zh) 2021-09-14
CN113395757B CN113395757B (zh) 2023-06-30

Family

ID=77620237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110647638.4A Active CN113395757B (zh) 2021-06-10 2021-06-10 基于改进回报函数的深度强化学习认知网络功率控制方法

Country Status (1)

Country Link
CN (1) CN113395757B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114126021A (zh) * 2021-11-26 2022-03-01 福州大学 一种基于深度强化学习的绿色认知无线电的功率分配方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180089553A1 (en) * 2016-09-27 2018-03-29 Disney Enterprises, Inc. Learning to schedule control fragments for physics-based character simulation and robots using deep q-learning
CN109474980A (zh) * 2018-12-14 2019-03-15 北京科技大学 一种基于深度增强学习的无线网络资源分配方法
CN111726811A (zh) * 2020-05-26 2020-09-29 国网浙江省电力有限公司嘉兴供电公司 一种用于认知无线网络的切片资源分配方法及***
CN112383922A (zh) * 2019-07-07 2021-02-19 东北大学秦皇岛分校 一种基于优先经验重放的深度强化学习频谱共享方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180089553A1 (en) * 2016-09-27 2018-03-29 Disney Enterprises, Inc. Learning to schedule control fragments for physics-based character simulation and robots using deep q-learning
CN109474980A (zh) * 2018-12-14 2019-03-15 北京科技大学 一种基于深度增强学习的无线网络资源分配方法
CN112383922A (zh) * 2019-07-07 2021-02-19 东北大学秦皇岛分校 一种基于优先经验重放的深度强化学习频谱共享方法
CN111726811A (zh) * 2020-05-26 2020-09-29 国网浙江省电力有限公司嘉兴供电公司 一种用于认知无线网络的切片资源分配方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114126021A (zh) * 2021-11-26 2022-03-01 福州大学 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN114126021B (zh) * 2021-11-26 2024-04-09 福州大学 一种基于深度强化学习的绿色认知无线电的功率分配方法

Also Published As

Publication number Publication date
CN113395757B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN109962728B (zh) 一种基于深度增强学习的多节点联合功率控制方法
CN110167176B (zh) 一种基于分布式机器学习的无线网络资源分配方法
CN111162888B (zh) 分布式天线***、远程接入单元、功率分配方法和介质
CN113596785B (zh) 基于深度q网络的d2d-noma通信***资源分配方法
CN110233755B (zh) 一种物联网中雾计算的计算资源和频谱资源分配方法
CN113038612B (zh) 基于深度学习的认知无线电功率控制方法
CN105792218A (zh) 具有射频能量收集能力的认知无线电网络的优化方法
CN113473580B (zh) 异构网络中基于深度学习的用户关联联合功率分配方法
Zhang et al. A dynamic power allocation scheme in power-domain NOMA using actor-critic reinforcement learning
CN112954807A (zh) 一种基于网络切片的异构Massive MIMO***多元资源配置方法
CN111787543A (zh) 一种基于改进灰狼优化算法的5g通信***资源分配方法
CN113395757A (zh) 基于改进回报函数的深度强化学习认知网络功率控制方法
Han et al. Balancing fairness and energy efficiency in SWIPT-based D2D networks: Deep reinforcement learning based approach
CN117119486B (zh) 一种保障多小区蜂窝网长期用户速率的深度无监督学习资源分配方法
CN111930501B (zh) 一种面向多小区网络的基于无监督学习的无线资源分配方法
Song et al. Maximizing packets collection in wireless powered IoT networks with charge-or-data time slots
Xu et al. Resource allocation for cellular zero-touch deterministic industrial M2M networks: A reinforcement learning-based scheme
AU2021101111A4 (en) Multivariate Resource Allocation Method for Heterogeneous Massive MIMO System Based on Network Slicing
Liang et al. Energy efficient transmission in underlay CR-NOMA networks enabled by reinforcement learning
CN115915454A (zh) Swipt辅助的下行资源分配方法及装置
CN113595609B (zh) 一种基于强化学习的蜂窝移动通信***协作式信号发送方法
Do et al. Actor-critic deep learning for efficient user association and bandwidth allocation in dense mobile networks with green base stations
CN114258138A (zh) 基于负载感知的网络辅助全双工模式优化方法
Anzaldo et al. Buffer transference strategy for power control in B5G-ultra-dense wireless cellular networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant