CN109729528A - 一种基于多智能体深度强化学习的d2d资源分配方法 - Google Patents

一种基于多智能体深度强化学习的d2d资源分配方法 Download PDF

Info

Publication number
CN109729528A
CN109729528A CN201910161391.8A CN201910161391A CN109729528A CN 109729528 A CN109729528 A CN 109729528A CN 201910161391 A CN201910161391 A CN 201910161391A CN 109729528 A CN109729528 A CN 109729528A
Authority
CN
China
Prior art keywords
communication
user
link
resource allocation
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910161391.8A
Other languages
English (en)
Other versions
CN109729528B (zh
Inventor
郭彩丽
李政
宣一荻
冯春燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Publication of CN109729528A publication Critical patent/CN109729528A/zh
Application granted granted Critical
Publication of CN109729528B publication Critical patent/CN109729528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于多智能体深度强化学习的D2D资源分配方法,属于无线通信领域。首先构建蜂窝网络与D2D通信共享频谱的异构网络模型,基于其存在的干扰,建立D2D接收用户的信干噪比SINR以及蜂窝用户的SINR,然后分别计算蜂窝链路和D2D链路的单位带宽通信速率后,以将最大化***容量为优化目标,构建异构网络中的D2D资源分配优化模型;针对时隙t,在D2D资源分配优化模型的基础上,构建每一个D2D通信对的深度强化学习模型;分别对后续时隙中的每个D2D通信对提取各自的状态特征矢量,输入训练好的深度强化学习模型中,得到各个D2D通信对的资源分配方案。本发明优化了频谱分配和传输功率,最大化了***容量,提供了低复杂度的资源分配算法。

Description

一种基于多智能体深度强化学习的D2D资源分配方法
技术领域
本发明属于无线通信领域,涉及异构蜂窝网络***,具体是一种基于多智能体深度强化学习的D2D资源分配方法。
背景技术
智能终端的普及以及移动互联网业务的井喷式发展,对无线通信网络的数据传输能力提出了更高的要求。在当前的大趋势下,现有的蜂窝网络存在频谱资源短缺以及基站负载过重等问题,不能满足未来无线网络的传输需求。
设备到设备(D2D,Device-to-Device)通信允许邻近用户建立直接链路进行通信,因为其具有提升频谱效率、节约能耗和卸载基站负载等优势,成为了未来无线通信网络中一种很有潜力的技术。在蜂窝网络中引入D2D通信,一方面可以节约能耗、改善边缘用户的性能,另一方面D2D通信共享蜂窝用户的频谱可以极大的提升频谱利用率。
然而,D2D通信复用蜂窝网络的频谱会对蜂窝通信链路造成跨层干扰,蜂窝用户作为蜂窝频段的主用户通信质量应该得到保证,同时在D2D通信密集部署的情况下,多个D2D通信链路复用相同的频谱会造成彼此之间的同层干扰,所以蜂窝网络与D2D通信共存时的干扰管理问题是一个亟待解决的问题。无线网络资源分配旨在通过合理的资源配置来缓解干扰,提升频谱资源利用效率,是解决上述干扰管理问题的有效途径。
现有的对于蜂窝网络中D2D通信资源分配的研究可以分为集中式和分布式两类。集中式方法假定基站具有即时的全局信道状态信息(CSI,Channel State Information),由基站控制D2D用户的资源分配,但是基站要获取全局信道状态信息需要巨大的信令开销,在未来海量的无线设备场景下,基站很难拥有即时的全局信息,所以在未来通信设备密集的场景下,集中式算法不再适用。
分布式方法让D2D用户自主进行无线网络资源的选择,现有的研究主要基于博弈论和强化学习。博弈论方法将D2D用户建模为博弈玩家进行竞争博弈,直到纳什均衡状态,但是求解纳什均衡状态需要用户间大量的信息交换,而且需要大量的迭代才能收敛。基于强化学习的资源分配研究主要基于Q学习,比如深度Q网络(DQN,Deep Q Network),将D2D用户看做智能体,自主学习策略进行无线网络资源的选择。但是在多个智能体学习训练时,每个智能体的策略都在变化,会造成训练环境不稳定,训练不易收敛。因此需要研究一种收敛性好、复杂度低的分布式资源分配算法来解决蜂窝网络中D2D通信的干扰管理问题。
发明内容
本发明为了解决上述问题,基于深度强化学习理论,提供了一种基于多智能体深度强化学习的D2D资源分配方法,优化了D2D用户的频谱分配和传输功率,实现了蜂窝网络和D2D通信的***容量最大化,并且保证了蜂窝用户的通信质量。
具体步骤包括:
步骤一、构建蜂窝网络与D2D通信共享频谱的异构网络模型;
异构网络模型包括蜂窝基站BS、M个蜂窝下行用户以及N个D2D通信对。
设定第m个蜂窝用户为Cm,其中1≤m≤M;第n个D2D通信对为Dn,其中1≤n≤N。D2D通信对Dn中的发射用户和接收用户分别用表示。
蜂窝下行通信链路和D2D链路通信都采用正交频分复用技术,每个蜂窝用户占用一个通信资源块RB,任意两个蜂窝链路之间没有干扰;同时允许一个蜂窝用户与多个D2D用户共享相同的RB,由D2D用户自主选择通信资源块RB和传输功率。
步骤二、基于异构网络模型中存在的干扰,建立D2D接收用户的信干噪比SINR以及蜂窝用户的SINR;
干扰包括三种类型:1)蜂窝用户受到的来自共享相同RB的每个D2D通信对中的发射用户的干扰;2)每个D2D通信对中的接收用户受到的来自基站的干扰;3)每个D2D通信对中的接收用户受到的来自其他所有共享相同RB的D2D通信对中发射用户的干扰。
蜂窝用户Cm接收到的来自基站的第k个通信资源块RB上的信号SINR为:
PB表示基站的固定发射功率;为基站到蜂窝用户Cm的下行目标链路的信道增益;Dk代表共享第k个RB的所有D2D通信对组成的集合;表示D2D通信对Dn中发射用户的发射功率;为当多个链路共享RB时,D2D通信对Dn中发射用户到蜂窝用户Cm的干扰链路的信道增益;N0代表加性高斯白噪声的功率谱密度。
D2D通信对Dn的接收用户在第k个RB上的接收信号的SINR为:
为D2D通信对Dn的发射用户到接收用户的D2D目标链路的信道增益;为当多个链路共享RB时,基站到D2D通信对Dn的接收用户的干扰链路的信道增益;表示D2D通信对Di中发射用户的发射功率;为当多个链路共享RB时,D2D通信对Di中发射用户到接收用户的干扰链路的信道增益;
步骤三、利用蜂窝用户的SINR以及D2D接收用户的SINR分别计算蜂窝链路和D2D链路的单位带宽通信速率;
蜂窝链路的单位带宽通信速率计算公式为:
D2D链路的单位带宽通信速率计算公式为:
步骤四、利用蜂窝链路和D2D链路的单位带宽通信速率计算***容量,并将最大化***容量为优化目标,构建异构网络中的D2D资源分配优化模型;
优化模型如下所示:
BN×K=[bn,k]为D2D通信对的通信资源块RB的分配矩阵,bn,k为D2D通信对Dn的RB选择参数,为所有D2D通信对的发射功率共同组成的功率控制向量。
约束条件C1表示每个蜂窝用户的SINR都要大于蜂窝用户接收SINR的最小门限保证蜂窝用户的通信质量;约束条件C2表征D2D链路频谱分配约束条件,每个D2D用户对最多只能分配一个通信资源块RB;约束条件C3表征每个D2D通信对的发射用户的发射功率不能超过最大发射功率门限Pmax
步骤五、针对时隙t,在D2D资源分配优化模型的基础上,构建每一个D2D通信对的深度强化学习模型;
具体构建步骤如下:
步骤501、针对某个D2D通信对Dp,构建在时隙t的状态特征矢量st
为D2D通信链路的瞬时信道状态信息;为基站到该D2D通信对Dp中接收用户的干扰链路的瞬时信道状态信息;It-1为上一个时隙t-1该D2D通信对Dp中接收用户收到的干扰功率值;为上一个时隙t-1该D2D通信对Dp的邻近D2D通信对所占用的RB;为上一个时隙t-1该D2D通信对Dp的邻近蜂窝用户所占用的RB。
步骤502、同时构建该D2D通信对Dp在时隙t的回报函数rt
rn为负回报,rn<0;
步骤503、利用该D2D通信对的状态特征矢量构建多智能体马尔可夫博弈模型的状态特征;为优化马尔可夫博弈模型,利用该D2D通信对的回报函数建立多智能体行动者评论家深度强化学习模型中的回报函数;
每个智能体马尔可夫博弈模型Γ为:
其中,是状态空间,是动作空间,rj是第j个D2D通信对的回报函数对应的回报的回报值,j∈{1,...,N};p是整个环境的状态转移概率,γ是折扣系数。
每一个D2D通信对学习的目标都是最大化该D2D通信对的总折扣回报;
总折扣回报计算公式为:
T是时间范围;γt是折扣系数的t次方;是第j个D2D通信对的回报函数在时隙t的回报值。
行动者评论家强化学习模型,由行动者(Actor)和评论家(Critic)组成;
训练过程中,行动者的策略使用深度神经网络做拟合,使用如下的确定性策略梯度公式进行更新,以取得最大的期望回报。
令μ={μ1,...,μN}表示所有智能体的确定性策略,θ={θ1,...,θN}表示策略所包含的参数,第j个智能体期望回报的梯度公式为:
s包含了所有智能体的状态信息,s={s1,...,sN};a包含了所有智能体的动作信息,a={a1,...,aN};是经验重放缓冲区;
评论家也使用深度神经网络来做拟合,通过最小化集中式动作-价值函数的损失函数来更新:
其中,每个样本以元组(st,at,rt,st+1)的形式记录所有智能体的历史数据,包括了所有智能体在时隙t的回报。
步骤504、使用历史通信数据对深度强化学习模型进行线下训练,获得求解该D2D通信Dp资源分配问题的模型。
步骤六、分别对后续时隙中的每个D2D通信对提取各自的状态特征矢量,输入训练好的深度强化学习模型中,得到各个D2D通信对的资源分配方案。
资源分配方案包括选取合适的通信资源块RB和传输功率。
本发明的优点在于:
(1)一种基于多智能体深度强化学习的D2D资源分配方法,优化了D2D用户的频谱分配和传输功率,在保证蜂窝用户通信质量的同时,最大化了***容量;
(2)一种基于多智能体深度强化学习的D2D资源分配方法,设计了异构蜂窝网络中D2D分布式资源分配算法,极大地降低了为获得全局即时信道状态信息产生的信令开销;
(3)一种基于多智能体深度强化学习的D2D资源分配方法,创新的引入了集中训练、分布执行的多智能体强化学习模型,解决了多D2D通信对资源分配问题,获得了良好的训练收敛性能,提供了低复杂度的资源分配算法。
附图说明
图1为本发明构建的蜂窝网络与D2D通信共享频谱的异构网络模型示意图;
图2为本发明一种基于多智能体深度强化学习的D2D资源分配方法的流程图;
图3为本发明用于D2D通信资源分配的深度强化学习模型示意图;
图4为本发明单智能体行动者评论家强化学习模型图;
图5为本发明多智能体行动者评论家强化学习模型图;
图6为本发明与基于DQN的D2D资源分配方法和D2D随机资源分配方法的蜂窝用户中断率对比图。
图7为本发明与基于DQN的D2D资源分配方法和D2D随机资源分配方法的***总容量性能对比图。
图8为本发明的总回报函数和***容量收敛性能图示意图;
图9为本发明基于DQN的D2D资源分配方法总回报函数和***容量收敛性能图。
具体实施方式
为了使本发明能够更加清楚地理解其技术原理,下面结合附图具体、详细地阐述本发明实施例。
一种基于多智能体深度强化学习的D2D资源分配方法(MADRL,Multi-Agent DeepReinforcement Learning based Device-to-Device Resource Allocation Method)应用于蜂窝网络与D2D通信共存的异构网络中;首先分别建立D2D接收用户以及蜂窝用户的信干噪比和单位带宽通信速率表达式,以最大化***容量为优化目标,以蜂窝用户的SINR大于最小SINR门限、D2D链路频谱分配约束条件和D2D发射用户的发射功率小于最大发射功率门限为优化条件,构建异构网络中的D2D资源分配优化模型;
根据优化模型,构建用于D2D资源分配的多智能体深度强化学习模型的状态特征矢量和回报函数;基于部分可观察马尔可夫博弈模型和行动者评论家强化学习理论,建立用于D2D资源分配的多智能体行动者评论家深度强化学习模型;
使用仿真平台得到的历史通信数据进行线下训练;
根据D2D链路的瞬时信道状态信息、基站到D2D接收用户的干扰链路的瞬时信道状态信息、上一时隙该D2D接收用户收到的干扰功率值、上一时隙该D2D链路邻近的D2D链路占用的通信资源块(RB,Resource Block)以及上一时隙该D2D链路邻近的蜂窝用户通信所占用的RB,使用训练得到的资源分配策略,选取合适的RB和传输功率。
如图2所示,整体包括建立***模型,提出优化问题建立优化模型,建立多智能体强化学习模型,训练模型和执行算法五个步骤;其中,建立多智能体强化学习模型包括构建状态特征,设计回报函数和建立多智能体行动者评论家强化学习模型;
具体步骤如下:
步骤一、构建蜂窝网络与D2D通信共享频谱的异构网络模型;
如图1所示,异构网络模型包括蜂窝基站(BS,Base Station)、M个蜂窝下行用户以及N个D2D通信对。
设定第m个蜂窝用户为Cm,其中1≤m≤M;第n个D2D通信对为Dn,其中1≤n≤N。D2D通信对Dn中的发射用户和接收用户分别用表示。
蜂窝下行通信链路和D2D链路通信都采用正交频分复用(OFDM,OrthogonalFrequency Division.Modulation)技术,每个蜂窝用户占用一个通信资源块RB,任意两个蜂窝链路之间没有干扰;在***模型中,允许一个蜂窝用户与多个D2D用户同时共享相同的RB,由D2D用户自主选择通信资源块RB和传输功率。
步骤二、基于异构网络模型中存在的干扰,建立D2D接收用户的信干噪比SINR(Signal to Interference plus Noise Ratio)以及蜂窝用户的SINR;
干扰包括三种类型:1)蜂窝用户受到的来自共享相同RB的每个D2D通信对中的发射用户的干扰;2)每个D2D通信对中的接收用户受到的来自基站的干扰;3)每个D2D通信对中的接收用户受到的来自其他所有共享相同RB的D2D通信对中发射用户的干扰。
蜂窝用户Cm接收到的来自基站的第k个通信资源块RB上的信号SINR为:
PB表示基站的固定发射功率;为基站到蜂窝用户Cm的下行目标链路的信道增益;Dk代表共享第k个RB的所有D2D通信对组成的集合;表示D2D通信对Dn中发射用户的发射功率;为当多个链路共享RB时,D2D通信对Dn中发射用户到蜂窝用户Cm的干扰链路的信道增益;N0代表加性高斯白噪声(AWGN,Additive White Gaussian Noise)的功率谱密度。
D2D通信对Dn的接收用户在第k个RB上的接收信号的SINR为:
为D2D通信对Dn的发射用户到接收用户的D2D目标链路的信道增益;为当多个链路共享RB时,基站到D2D通信对Dn的接收用户的干扰链路的信道增益;表示D2D通信对Di中发射用户的发射功率;为当多个链路共享RB时,D2D通信对Di中发射用户到接收用户的干扰链路的信道增益;
步骤三、利用蜂窝用户的SINR以及D2D接收用户的SINR分别计算蜂窝链路和D2D链路的单位带宽通信速率;
基于香农公式,蜂窝链路的单位带宽通信速率计算公式为:
D2D链路的单位带宽通信速率计算公式为:
步骤四、利用蜂窝链路和D2D链路的单位带宽通信速率计算***容量,并将最大化***容量为优化目标,构建异构网络中的D2D资源分配优化模型;
由于需要在保障蜂窝用户通信质量的前提下,通过优化D2D通信对的通信资源块RB的分配矩阵BN×K=[bn,k]和所有D2D通信对的发射功率共同组成的功率控制向量最大化***容量,建立优化模型如下所示:
bn,k为D2D通信对Dn的RB选择参数。
约束条件C1表征蜂窝用户的SINR约束条件,表示每个蜂窝用户的SINR都要大于蜂窝用户接收SINR的最小门限保证蜂窝用户的通信质量;约束条件C2表征D2D链路频谱分配约束条件,每个D2D用户对最多只能分配一个通信资源块RB;约束条件C3表征每个D2D通信对的发射用户的发射功率不能超过最大发射功率门限Pmax
步骤五、针对时隙t,在D2D资源分配优化模型的基础上,构建每一个D2D通信对的深度强化学习模型;
建立用于D2D资源分配的强化学习模型,如图3所示,原理是:在一个时隙t,每一个D2D通信对作为一个智能体,从状态空间中观察到一个状态st,然后根据策略π和当前状态从动作空间中选择一个动作at,即D2D通信对选择使用的RB和传输功率;执行动作at后,D2D通信对观察到环境转移到一个新状态st+1,并得到一个回报rt,D2D通信对根据获得的回报rt,调整策略π,以获得更高的回报。具体构建步骤如下:
步骤501、针对某个D2D通信对Dp,构建在时隙t的状态特征矢量st
每一个D2D通信对观察到的状态特征包含以下几个方面:
为D2D通信链路的瞬时信道状态信息;为基站到该D2D通信对Dp中接收用户的干扰链路的瞬时信道状态信息;It-1为上一个时隙t-1该D2D通信对Dp中接收用户收到的干扰功率值;为上一个时隙t-1该D2D通信对Dp的邻近D2D通信对所占用的RB;为上一个时隙t-1该D2D通信对Dp的邻近蜂窝用户所占用的RB。
步骤502、同时根据优化目标,构建该D2D通信对Dp在时隙t的回报函数rt
设计回报函数需要同时考虑蜂窝用户的最低接收SINR门限和D2D通信对的单位带宽速率。如果与D2D通信对共享频谱的蜂窝用户接收SINR能够满足蜂窝用户信噪比约束条件,则会得到一个正回报;反之,将会得到一个负回报rn,rn<0。为了提升D2D通信链路的容量,将正的回报设置为D2D链路的单位带宽通信速率:
因此,回报函数如下所示:
步骤503、利用该D2D通信对的状态特征矢量构建多智能体马尔可夫博弈模型的状态特征;为优化马尔可夫博弈模型,利用该D2D通信对的回报函数建立多智能体行动者评论家深度强化学习模型中的回报函数;
每个智能体都使用行动者评论家强化学习模型,由行动者(Actor)和评论家(Critic)两部分组成,如图4所示,行动者和评论家两部分的策略使用深度神经网络拟合得到。D2D行动者网络输入环境状态st,输出动作at,即选择RB和传输功率;评论家网络输入环境状态矢量st和选择的动作at,输出基于Q值计算得到的时间差分误差(TD error,Temporal-Difference error),由时间差分误差来驱动两个网络的学习。
异构蜂窝网络中,多个D2D通信对的资源分配是一个多智能体的强化学习问题,可以建模为部分可观察的马尔可夫博弈模型,N个智能体的马尔可夫博弈模型Γ为:
其中,是状态空间,是动作空间,rj是第j个智能体的回报,取值为第j个D2D通信对的回报函数对应的回报值,j∈{1,...,N};p是整个环境的状态转移概率,γ是折扣系数。
每一个智能体学习的目标都是最大化它的总折扣回报;
总折扣回报计算公式为:
T是时间范围;γt是折扣系数的t次方;是第j个D2D通信对的回报函数在时隙t的回报值。
针对马尔可夫博弈模型,将行动者评论家强化学习模型扩展到多智能体场景,构建多智能体的深度强化学习模型,如图5所示。在训练时,评论家部分使用历史全局信息,指导行动者部分更新策略;但在执行时,单智能体只使用观察得到的部分环境信息,使用训练得到的行动者策略做出动作选择,实现集中训练、分布执行。
集中训练过程中,N个智能体的策略用π={π1,...,πN}表示,θ={θ1,...,θN}表示策略所包含的参数,其中第j个智能体期望回报的梯度为:
这里,s包含了所有智能体的状态信息,s={s1,...,sN};a包含了所有智能体的动作信息,a={a1,...,aN};是一个集中式动作-价值函数,将所有智能体的状态信息和动作作为输入,输出第j个智能体的Q值。
将以上描述扩展到确定性策略,考虑确定性策略(简写为μj),令μ={μ1,...,μN}表示所有智能体的确定性策略,第j个智能体期望回报的梯度为:
这里是经验重放缓冲区,其中每个样本以元组(st,at,rt,st+1)的形式记录所有智能体的历史数据,这里包括了所有智能体在时隙t的回报。行动者部分的策略使用深度神经网络来做拟合,上述梯度公式是行动者网络的更新方法,使用梯度上升方法进行更新,以取得最大的期望回报。
评论家网络也使用深度神经网络来做拟合,通过最小化集中式动作-价值函数的损失函数来更新:
其中,
步骤504、使用历史通信数据对深度强化学习模型进行线下训练,获得求解该D2D通信Dp资源分配问题的模型。
训练步骤如下所示:
(1)使用通信仿真平台初始化蜂窝小区、基站、蜂窝链路和D2D链路;
(2)初始化所有智能体的策略模型π和参数θ,初始化通信仿真时隙数T;
(3)初始化通信仿真时隙t←0;
(4)所有D2D通信对观察环境获得状态信息st,基于st和π选择动作at,获得回报rt,t←t+1;
(5)将(st,at,rt,st+1)存入经验重放缓冲区
(6)从中采样小型批处理数据;
(7)使用小型批处理数据进行训练,更新策略π的参数θ;
(8)返回步骤(4),直至t=T,训练结束;
(9)返回参数θ;
步骤六、分别对后续时隙中的每个D2D通信对提取各自的状态特征矢量,输入训练好的深度强化学习模型中,得到各个D2D通信对的资源分配方案。
资源分配方案包括选取合适的通信资源块RB和传输功率。
执行步骤如下所示:
(1)使用通信仿真平台初始化蜂窝小区、基站、蜂窝链路、D2D链路;
(2)初始化所有智能体的策略模型π,将训练好的参数θ导入模型π,初始化通信仿真时隙数T;
(3)初始化通信仿真时隙t←0;
(4)所有D2D通信对观察环境获得状态信息st,基于st和π选择动作at,即RB和发射功率,统计D2D接收用户的SINR和***容量;
(5)t←t+1,仿真平台更新环境,所有D2D通信对观察环境获得st+1
(6)返回步骤4,直至t=T。
通过将本发明基于多智能体的D2D资源分配方法与基于DQN的D2D资源分配方法和D2D随机资源分配方法分别做对比;
如图6所示,MADRL表示本发明的方法,DQN表示基于深度Q网络的D2D资源分配方法,Random表示基于随机分配的D2D资源分配方法,三种方法分别对蜂窝用户通信质量的影响,由图可知,本发明所提算法MADRL在不同的D2D用户数时,都可以达到最低的蜂窝用户中断概率;
如图7所示,为三种方法对***的总容量的影响,随着D2D通信对数量的增长,本发明所提算法MADRL取得了最大的***容量。
如图8所示,表示本发明的总回报函数和***容量收敛性能;如图9所示,为基于DQN的D2D资源分配方法总回报函数和***容量收敛性,两者相比,得益于本发明将全局信息引入训练过程进行集中式训练,使得训练环境更加稳定,收敛性能更好。由此可以得出结论:MADRL可以在保护蜂窝用户通信质量的同时,获得比Random和DQN更高的***吞吐量,同时相比于DQN具有更好的收敛性能。
综上所述,通过实施本发明一种基于多智能体强化学习的D2D资源分配法,可以在保护蜂窝用户通信质量的同时,最大化***吞吐量;相比于集中式算法,本发明所设计的分布式资源分配算法,减小了信令开销;相比于其他基于Q学习的资源分配算法,本发明所设计的算法具有更好的收敛性能。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (4)

1.一种基于多智能体深度强化学习的D2D资源分配方法,其特征在于,具体步骤包括:
步骤一、构建蜂窝网络与D2D通信共享频谱的异构网络模型;
异构网络模型包括蜂窝基站BS、M个蜂窝下行用户以及N个D2D通信对;
设定第m个蜂窝用户为Cm,其中1≤m≤M;第n个D2D通信对为Dn,其中1≤n≤N;D2D通信对Dn中的发射用户和接收用户分别用表示;
蜂窝下行通信链路和D2D链路通信都采用正交频分复用技术,每个蜂窝用户占用一个通信资源块RB,任意两个蜂窝链路之间没有干扰;同时允许一个蜂窝用户与多个D2D用户共享相同的RB,由D2D用户自主选择通信资源块RB和传输功率;
步骤二、基于异构网络模型中存在的干扰,建立D2D接收用户的信干噪比SINR以及蜂窝用户的SINR;
蜂窝用户Cm接收到的来自基站的第k个通信资源块RB上的信号SINR为:
PB表示基站的固定发射功率;为基站到蜂窝用户Cm的下行目标链路的信道增益;Dk代表共享第k个RB的所有D2D通信对组成的集合;表示D2D通信对Dn中发射用户的发射功率;为当多个链路共享RB时,D2D通信对Dn中发射用户到蜂窝用户Cm的干扰链路的信道增益;N0代表加性高斯白噪声的功率谱密度;
D2D通信对Dn的接收用户在第k个RB上的接收信号的SINR为:
为D2D通信对Dn的发射用户到接收用户的D2D目标链路的信道增益;为当多个链路共享RB时,基站到D2D通信对Dn的接收用户的干扰链路的信道增益;表示D2D通信对Di中发射用户的发射功率;为当多个链路共享RB时,D2D通信对Di中发射用户到接收用户的干扰链路的信道增益;
步骤三、利用蜂窝用户的SINR以及D2D接收用户的SINR分别计算蜂窝链路和D2D链路的单位带宽通信速率;
蜂窝链路的单位带宽通信速率计算公式为:
D2D链路的单位带宽通信速率计算公式为:
步骤四、利用蜂窝链路和D2D链路的单位带宽通信速率计算***容量,并将最大化***容量为优化目标,构建异构网络中的D2D资源分配优化模型;
优化模型如下所示:
BN×K=[bn,k]为D2D通信对的通信资源块RB的分配矩阵,bn,k为D2D通信对Dn的RB选择参数,为所有D2D通信对的发射功率共同组成的功率控制向量;
约束条件C1表示每个蜂窝用户的SINR都要大于蜂窝用户接收SINR的最小门限保证蜂窝用户的通信质量;约束条件C2表征D2D链路频谱分配约束条件,每个D2D用户对最多只能分配一个通信资源块RB;约束条件C3表征每个D2D通信对的发射用户的发射功率不能超过最大发射功率门限Pmax
步骤五、针对时隙t,在D2D资源分配优化模型的基础上,构建每一个D2D通信对的深度强化学习模型;
具体构建步骤如下:
步骤501、针对某个D2D通信对Dp,构建在时隙t的状态特征矢量st
为D2D通信链路的瞬时信道状态信息;为基站到该D2D通信对Dp中接收用户的干扰链路的瞬时信道状态信息;It-1为上一个时隙t-1该D2D通信对Dp中接收用户收到的干扰功率值;为上一个时隙t-1该D2D通信对Dp的邻近D2D通信对所占用的RB;为上一个时隙t-1该D2D通信对Dp的邻近蜂窝用户所占用的RB;
步骤502、同时构建该D2D通信对Dp在时隙t的回报函数rt
rn为负回报,rn<0;
步骤503、利用该D2D通信对的状态特征矢量构建多智能体马尔可夫博弈模型的状态特征;为优化马尔可夫博弈模型,利用该D2D通信对的回报函数建立多智能体行动者评论家深度强化学习模型中的回报函数;
每个智能体马尔可夫博弈模型Γ为:
其中,是状态空间,是动作空间,rj是第j个D2D通信对的回报函数对应的回报的回报值,j∈{1,...,N};p是整个环境的状态转移概率,γ是折扣系数;
每一个D2D通信对学习的目标都是最大化该D2D通信对的总折扣回报;
总折扣回报计算公式为:
T是时间范围;γt是折扣系数的t次方;rt j是第j个D2D通信对的回报函数在时隙t的回报值;
步骤504、使用历史通信数据对深度强化学习模型进行线下训练,获得求解该D2D通信Dp资源分配问题的模型;
步骤六、分别对后续时隙中的每个D2D通信对提取各自的状态特征矢量,输入训练好的深度强化学习模型中,得到各个D2D通信对的资源分配方案。
2.如权利要求1所述的一种基于多智能体深度强化学习的D2D资源分配方法,其特征在于,步骤二所述的干扰包括三种类型:1)蜂窝用户受到的来自共享相同RB的每个D2D通信对中的发射用户的干扰;2)每个D2D通信对中的接收用户受到的来自基站的干扰;3)每个D2D通信对中的接收用户受到的来自其他所有共享相同RB的D2D通信对中发射用户的干扰。
3.如权利要求1所述的一种基于多智能体深度强化学习的D2D资源分配方法,其特征在于,步骤503中所述的行动者评论家强化学习模型,由行动者和评论家组成;
训练过程中,行动者的策略使用深度神经网络做拟合,使用如下的确定性策略梯度公式进行更新,以取得最大的期望回报;
令μ={μ1,...,μN}表示所有智能体的确定性策略,θ={θ1,...,θN}表示策略所包含的参数,第j个智能体期望回报的梯度公式为:
s包含了所有智能体的状态信息,s={s1,...,sN};a包含了所有智能体的动作信息,a={a1,...,aN};是经验重放缓冲区;
评论家也使用深度神经网络来做拟合,通过最小化集中式动作-价值函数的损失函数来更新:
其中,每个样本以元组(st,at,rt,st+1)的形式记录所有智能体的历史数据,rt={rt 1,...,rt N}包括了所有智能体在时隙t的回报。
4.如权利要求1所述的一种基于多智能体深度强化学习的D2D资源分配方法,其特征在于,步骤六中所述的资源分配方案包括选取合适的通信资源块RB和传输功率。
CN201910161391.8A 2018-12-21 2019-03-04 一种基于多智能体深度强化学习的d2d资源分配方法 Active CN109729528B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2018115721684 2018-12-21
CN201811572168 2018-12-21

Publications (2)

Publication Number Publication Date
CN109729528A true CN109729528A (zh) 2019-05-07
CN109729528B CN109729528B (zh) 2020-08-18

Family

ID=66300856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910161391.8A Active CN109729528B (zh) 2018-12-21 2019-03-04 一种基于多智能体深度强化学习的d2d资源分配方法

Country Status (1)

Country Link
CN (1) CN109729528B (zh)

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110049474A (zh) * 2019-05-17 2019-07-23 北京邮电大学 一种无线资源分配方法、装置及基站
CN110267338A (zh) * 2019-07-08 2019-09-20 西安电子科技大学 一种d2d通信中联合资源分配和功率控制方法
CN110267274A (zh) * 2019-05-09 2019-09-20 广东工业大学 一种根据用户间社会信誉度选择传感用户的频谱共享方法
CN110582072A (zh) * 2019-08-16 2019-12-17 北京邮电大学 蜂窝车联网中基于模糊匹配的资源分配方法及装置
CN110769514A (zh) * 2019-11-08 2020-02-07 山东师范大学 一种异构蜂窝网络d2d通信资源分配方法及***
CN110784882A (zh) * 2019-10-28 2020-02-11 南京邮电大学 一种基于强化学习的能量采集d2d通信资源分配方法
CN110856268A (zh) * 2019-10-30 2020-02-28 西安交通大学 一种无线网络动态多信道接入方法
CN111026549A (zh) * 2019-11-28 2020-04-17 国网甘肃省电力公司电力科学研究院 一种电力信息通信设备自动化测试资源调度方法
CN111065102A (zh) * 2019-12-16 2020-04-24 北京理工大学 基于q学习的免授权频谱下5g多***共存资源分配方法
CN111526592A (zh) * 2020-04-14 2020-08-11 电子科技大学 一种用于无线干扰信道中的非协作多智能体功率控制方法
CN111556572A (zh) * 2020-04-21 2020-08-18 北京邮电大学 一种基于强化学习的频谱资源和计算资源联合分配方法
CN111787624A (zh) * 2020-06-28 2020-10-16 重庆邮电大学 D2d辅助的蜂窝网络中的一种基于深度学习的可变维度资源分配算法
CN112118632A (zh) * 2020-09-22 2020-12-22 电子科技大学 面向微小蜂窝基站的自适应功率分配***、方法和介质
CN112188505A (zh) * 2019-07-02 2021-01-05 中兴通讯股份有限公司 一种网络优化方法和装置
CN112272353A (zh) * 2020-10-09 2021-01-26 山西大学 一种基于强化学习的设备到设备的邻近服务方法
CN112383922A (zh) * 2019-07-07 2021-02-19 东北大学秦皇岛分校 一种基于优先经验重放的深度强化学习频谱共享方法
CN112533237A (zh) * 2020-11-16 2021-03-19 北京科技大学 工业互联网中支持大规模设备通信的网络容量优化方法
CN112584347A (zh) * 2020-09-28 2021-03-30 西南电子技术研究所(中国电子科技集团公司第十研究所) Uav异构网络多维资源动态管理方法
CN112633491A (zh) * 2019-10-08 2021-04-09 华为技术有限公司 训练神经网络的方法与装置
CN112752266A (zh) * 2020-12-28 2021-05-04 中国人民解放军陆军工程大学 一种d2d触觉通信中联合频谱接入和功率控制方法
CN112822781A (zh) * 2021-01-20 2021-05-18 重庆邮电大学 一种基于q学习的资源分配方法
CN113115355A (zh) * 2021-04-29 2021-07-13 电子科技大学 一种d2d***中基于深度强化学习的功率分配方法
CN113115451A (zh) * 2021-02-23 2021-07-13 北京邮电大学 基于多智能体深度强化学习的干扰管理和资源分配方案
CN113473419A (zh) * 2021-05-20 2021-10-01 南京邮电大学 基于强化学习的机器类通信设备接入蜂窝数据网络的方法
CN113543271A (zh) * 2021-06-08 2021-10-22 西安交通大学 一种面向有效容量的资源分配方法及***
CN113596786A (zh) * 2021-07-26 2021-11-02 广东电网有限责任公司广州供电局 一种端到端通信的资源分配分组优化方法
CN113766661A (zh) * 2021-08-30 2021-12-07 北京邮电大学 用于无线网络环境的干扰控制方法及***
CN113810910A (zh) * 2021-09-18 2021-12-17 大连理工大学 基于深度强化学习的4g与5g网络间动态频谱共享方法
CN113867178A (zh) * 2021-10-26 2021-12-31 哈尔滨工业大学 面向多机器人对抗的虚实迁移训练***
CN114245401A (zh) * 2021-11-17 2022-03-25 航天科工微电子***研究院有限公司 一种多信道的通信决策方法及***
CN114363938A (zh) * 2021-12-21 2022-04-15 重庆邮电大学 一种蜂窝网络流量卸载方法
CN114423070A (zh) * 2022-02-10 2022-04-29 吉林大学 一种基于d2d的异构无线网络功率分配方法及***
CN114900827A (zh) * 2022-05-10 2022-08-12 福州大学 基于深度强化学习在d2d异构蜂窝网络中的隐蔽通信***
CN114928549A (zh) * 2022-04-20 2022-08-19 清华大学 基于强化学习的非授权频段的通信资源分配方法及装置
CN115173922A (zh) * 2022-06-30 2022-10-11 重庆邮电大学 基于cmaddqn网络的多波束卫星通信***资源分配方法
CN115442812A (zh) * 2022-11-08 2022-12-06 湖北工业大学 一种基于深度强化学习的物联网频谱分配优化方法及***
CN115544899A (zh) * 2022-11-23 2022-12-30 南京邮电大学 基于多智能体深度强化学习的水厂取水泵站节能调度方法
CN115811788A (zh) * 2022-11-23 2023-03-17 齐齐哈尔大学 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法
WO2023054776A1 (ko) * 2021-10-01 2023-04-06 엘지전자 주식회사 엣지 인퍼런스를 위한 프로그레시브 피처 전송 방법 및 장치
CN116155991A (zh) * 2023-01-30 2023-05-23 杭州滨电信息技术有限公司 一种基于深度强化学习的边缘内容缓存与推荐方法及***
CN116193405A (zh) * 2023-03-03 2023-05-30 中南大学 基于dona框架的异构v2x网络数据传输方法
CN116489683A (zh) * 2023-06-21 2023-07-25 北京邮电大学 空天地网络中的计算任务卸载方法、装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104995851A (zh) * 2013-03-08 2015-10-21 英特尔公司 针对d2d通信的分布式功率控制
CN108834109A (zh) * 2018-05-03 2018-11-16 中国人民解放军陆军工程大学 全双工主动窃听下基于q学习的d2d协同中继功率控制方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104995851A (zh) * 2013-03-08 2015-10-21 英特尔公司 针对d2d通信的分布式功率控制
CN108834109A (zh) * 2018-05-03 2018-11-16 中国人民解放军陆军工程大学 全双工主动窃听下基于q学习的d2d协同中继功率控制方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SHIWEN NIE等: "Q-Learning Based Power Control Algorithm for D2D Communication", 《IEEE》 *
YING HE等,: "SECURE SOCIAL NETVUORKS IN 5G SYSTEMS WITH MOBILE EDGE COMPUTING,CACHING, AND DEVICE-TO-DEVICE CONINIUNICATIONS", 《IEEE》 *
ZHENG LI等: "Location-Aware Hypergraph Coloring Based Spectrum Allocation for D2D Communication", 《IEEE》 *
王倩: "D2D通信中基于Q学习的联合资源分配与功率控制算法", 《南京大学学报》 *

Cited By (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110267274A (zh) * 2019-05-09 2019-09-20 广东工业大学 一种根据用户间社会信誉度选择传感用户的频谱共享方法
CN110267274B (zh) * 2019-05-09 2022-12-16 广东工业大学 一种根据用户间社会信誉度选择传感用户的频谱共享方法
CN110049474A (zh) * 2019-05-17 2019-07-23 北京邮电大学 一种无线资源分配方法、装置及基站
CN110049474B (zh) * 2019-05-17 2020-07-17 北京邮电大学 一种无线资源分配方法、装置及基站
CN112188505B (zh) * 2019-07-02 2024-05-10 中兴通讯股份有限公司 一种网络优化方法和装置
CN112188505A (zh) * 2019-07-02 2021-01-05 中兴通讯股份有限公司 一种网络优化方法和装置
CN112383922B (zh) * 2019-07-07 2022-09-30 东北大学秦皇岛分校 一种基于优先经验重放的深度强化学习频谱共享方法
CN112383922A (zh) * 2019-07-07 2021-02-19 东北大学秦皇岛分校 一种基于优先经验重放的深度强化学习频谱共享方法
CN110267338B (zh) * 2019-07-08 2020-05-22 西安电子科技大学 一种d2d通信中联合资源分配和功率控制方法
CN110267338A (zh) * 2019-07-08 2019-09-20 西安电子科技大学 一种d2d通信中联合资源分配和功率控制方法
CN110582072A (zh) * 2019-08-16 2019-12-17 北京邮电大学 蜂窝车联网中基于模糊匹配的资源分配方法及装置
CN112633491A (zh) * 2019-10-08 2021-04-09 华为技术有限公司 训练神经网络的方法与装置
CN110784882A (zh) * 2019-10-28 2020-02-11 南京邮电大学 一种基于强化学习的能量采集d2d通信资源分配方法
CN110784882B (zh) * 2019-10-28 2022-06-28 南京邮电大学 一种基于强化学习的能量采集d2d通信资源分配方法
CN110856268A (zh) * 2019-10-30 2020-02-28 西安交通大学 一种无线网络动态多信道接入方法
CN110856268B (zh) * 2019-10-30 2021-09-07 西安交通大学 一种无线网络动态多信道接入方法
CN110769514A (zh) * 2019-11-08 2020-02-07 山东师范大学 一种异构蜂窝网络d2d通信资源分配方法及***
CN110769514B (zh) * 2019-11-08 2023-05-12 山东师范大学 一种异构蜂窝网络d2d通信资源分配方法及***
CN111026549A (zh) * 2019-11-28 2020-04-17 国网甘肃省电力公司电力科学研究院 一种电力信息通信设备自动化测试资源调度方法
CN111065102A (zh) * 2019-12-16 2020-04-24 北京理工大学 基于q学习的免授权频谱下5g多***共存资源分配方法
CN111065102B (zh) * 2019-12-16 2022-04-19 北京理工大学 基于q学习的免授权频谱下5g多***共存资源分配方法
CN111526592A (zh) * 2020-04-14 2020-08-11 电子科技大学 一种用于无线干扰信道中的非协作多智能体功率控制方法
CN111526592B (zh) * 2020-04-14 2022-04-08 电子科技大学 一种用于无线干扰信道中的非协作多智能体功率控制方法
CN111556572A (zh) * 2020-04-21 2020-08-18 北京邮电大学 一种基于强化学习的频谱资源和计算资源联合分配方法
CN111787624A (zh) * 2020-06-28 2020-10-16 重庆邮电大学 D2d辅助的蜂窝网络中的一种基于深度学习的可变维度资源分配算法
CN111787624B (zh) * 2020-06-28 2022-04-26 重庆邮电大学 一种基于深度学习的可变维度资源分配方法
CN112118632A (zh) * 2020-09-22 2020-12-22 电子科技大学 面向微小蜂窝基站的自适应功率分配***、方法和介质
CN112118632B (zh) * 2020-09-22 2022-07-29 电子科技大学 面向微小蜂窝基站的自适应功率分配***、方法和介质
CN112584347A (zh) * 2020-09-28 2021-03-30 西南电子技术研究所(中国电子科技集团公司第十研究所) Uav异构网络多维资源动态管理方法
CN112584347B (zh) * 2020-09-28 2022-07-08 西南电子技术研究所(中国电子科技集团公司第十研究所) Uav异构网络多维资源动态管理方法
CN112272353A (zh) * 2020-10-09 2021-01-26 山西大学 一种基于强化学习的设备到设备的邻近服务方法
CN112533237B (zh) * 2020-11-16 2022-03-04 北京科技大学 工业互联网中支持大规模设备通信的网络容量优化方法
CN112533237A (zh) * 2020-11-16 2021-03-19 北京科技大学 工业互联网中支持大规模设备通信的网络容量优化方法
CN112752266B (zh) * 2020-12-28 2022-05-24 中国人民解放军陆军工程大学 一种d2d触觉通信中联合频谱接入和功率控制方法
CN112752266A (zh) * 2020-12-28 2021-05-04 中国人民解放军陆军工程大学 一种d2d触觉通信中联合频谱接入和功率控制方法
CN112822781B (zh) * 2021-01-20 2022-04-12 重庆邮电大学 一种基于q学习的资源分配方法
CN112822781A (zh) * 2021-01-20 2021-05-18 重庆邮电大学 一种基于q学习的资源分配方法
CN113115451A (zh) * 2021-02-23 2021-07-13 北京邮电大学 基于多智能体深度强化学习的干扰管理和资源分配方案
CN113115355B (zh) * 2021-04-29 2022-04-22 电子科技大学 一种d2d***中基于深度强化学习的功率分配方法
CN113115355A (zh) * 2021-04-29 2021-07-13 电子科技大学 一种d2d***中基于深度强化学习的功率分配方法
CN113473419A (zh) * 2021-05-20 2021-10-01 南京邮电大学 基于强化学习的机器类通信设备接入蜂窝数据网络的方法
CN113473419B (zh) * 2021-05-20 2023-07-07 南京邮电大学 基于强化学习的机器类通信设备接入蜂窝数据网络的方法
CN113543271A (zh) * 2021-06-08 2021-10-22 西安交通大学 一种面向有效容量的资源分配方法及***
CN113596786A (zh) * 2021-07-26 2021-11-02 广东电网有限责任公司广州供电局 一种端到端通信的资源分配分组优化方法
CN113596786B (zh) * 2021-07-26 2023-11-14 广东电网有限责任公司广州供电局 一种端到端通信的资源分配分组优化方法
CN113766661A (zh) * 2021-08-30 2021-12-07 北京邮电大学 用于无线网络环境的干扰控制方法及***
CN113766661B (zh) * 2021-08-30 2023-12-26 北京邮电大学 用于无线网络环境的干扰控制方法及***
CN113810910A (zh) * 2021-09-18 2021-12-17 大连理工大学 基于深度强化学习的4g与5g网络间动态频谱共享方法
CN113810910B (zh) * 2021-09-18 2022-05-20 大连理工大学 基于深度强化学习的4g与5g网络间动态频谱共享方法
WO2023054776A1 (ko) * 2021-10-01 2023-04-06 엘지전자 주식회사 엣지 인퍼런스를 위한 프로그레시브 피처 전송 방법 및 장치
CN113867178B (zh) * 2021-10-26 2022-05-31 哈尔滨工业大学 面向多机器人对抗的虚实迁移训练***
CN113867178A (zh) * 2021-10-26 2021-12-31 哈尔滨工业大学 面向多机器人对抗的虚实迁移训练***
CN114245401B (zh) * 2021-11-17 2023-12-05 航天科工微电子***研究院有限公司 一种多信道的通信决策方法及***
CN114245401A (zh) * 2021-11-17 2022-03-25 航天科工微电子***研究院有限公司 一种多信道的通信决策方法及***
CN114363938A (zh) * 2021-12-21 2022-04-15 重庆邮电大学 一种蜂窝网络流量卸载方法
CN114363938B (zh) * 2021-12-21 2024-01-26 深圳千通科技有限公司 一种蜂窝网络流量卸载方法
CN114423070A (zh) * 2022-02-10 2022-04-29 吉林大学 一种基于d2d的异构无线网络功率分配方法及***
CN114423070B (zh) * 2022-02-10 2024-03-19 吉林大学 一种基于d2d的异构无线网络功率分配方法及***
CN114928549A (zh) * 2022-04-20 2022-08-19 清华大学 基于强化学习的非授权频段的通信资源分配方法及装置
CN114900827A (zh) * 2022-05-10 2022-08-12 福州大学 基于深度强化学习在d2d异构蜂窝网络中的隐蔽通信***
CN114900827B (zh) * 2022-05-10 2024-05-31 福州大学 基于深度强化学习在d2d异构蜂窝网络中的隐蔽通信***
CN115173922B (zh) * 2022-06-30 2024-03-15 深圳泓越信息科技有限公司 基于cmaddqn网络的多波束卫星通信***资源分配方法
CN115173922A (zh) * 2022-06-30 2022-10-11 重庆邮电大学 基于cmaddqn网络的多波束卫星通信***资源分配方法
CN115442812B (zh) * 2022-11-08 2023-04-07 湖北工业大学 一种基于深度强化学习的物联网频谱分配优化方法及***
CN115442812A (zh) * 2022-11-08 2022-12-06 湖北工业大学 一种基于深度强化学习的物联网频谱分配优化方法及***
CN115811788A (zh) * 2022-11-23 2023-03-17 齐齐哈尔大学 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法
CN115544899A (zh) * 2022-11-23 2022-12-30 南京邮电大学 基于多智能体深度强化学习的水厂取水泵站节能调度方法
CN116155991B (zh) * 2023-01-30 2023-10-10 杭州滨电信息技术有限公司 一种基于深度强化学习的边缘内容缓存与推荐方法及***
CN116155991A (zh) * 2023-01-30 2023-05-23 杭州滨电信息技术有限公司 一种基于深度强化学习的边缘内容缓存与推荐方法及***
CN116193405B (zh) * 2023-03-03 2023-10-27 中南大学 基于dona框架的异构v2x网络数据传输方法
CN116193405A (zh) * 2023-03-03 2023-05-30 中南大学 基于dona框架的异构v2x网络数据传输方法
CN116489683B (zh) * 2023-06-21 2023-08-18 北京邮电大学 空天地网络中的计算任务卸载方法、装置和电子设备
CN116489683A (zh) * 2023-06-21 2023-07-25 北京邮电大学 空天地网络中的计算任务卸载方法、装置和电子设备

Also Published As

Publication number Publication date
CN109729528B (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN109729528A (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
Zhang et al. Incomplete CSI based resource optimization in SWIPT enabled heterogeneous networks: A non-cooperative game theoretic approach
CN106358308A (zh) 一种超密集网络中的强化学习的资源分配方法
CN107426773A (zh) 无线异构网络中面向能效的分布式资源分配方法和装置
CN107613555A (zh) 非正交多址接入蜂窝和终端直通密集网络资源管控方法
Hoffmann et al. Increasing energy efficiency of massive-MIMO network via base stations switching using reinforcement learning and radio environment maps
Dong et al. Energy efficiency optimization and resource allocation of cross-layer broadband wireless communication system
CN107613556A (zh) 一种基于功率控制的全双工d2d干扰管理方法
Wang et al. Multi-agent reinforcement learning-based user pairing in multi-carrier NOMA systems
CN114363908A (zh) 基于a2c的非授权频谱资源共享方法
CN104640185A (zh) 一种基于基站协作的小区休眠节能方法
Perlaza et al. On the base station selection and base station sharing in self-configuring networks
Sun et al. Distributed power control for device-to-device network using stackelberg game
Xiao et al. Power allocation for device-to-multi-device enabled HetNets: A deep reinforcement learning approach
Wang et al. Resource allocation in multi-cell NOMA systems with multi-agent deep reinforcement learning
Eliodorou et al. User association coalition games with zero-forcing beamforming and NOMA
Liu et al. Spectrum allocation optimization for cognitive radio networks using binary firefly algorithm
Vatsikas et al. A distributed algorithm for wireless resource allocation using coalitions and the nash bargaining solution
Liu et al. Primal–Dual Learning for Cross-Layer Resource Management in Cell-Free Massive MIMO IIoT
Li et al. Distributed power control for two-tier femtocell networks with QoS provisioning based on Q-learning
Rauniyar et al. A reinforcement learning based game theoretic approach for distributed power control in downlink NOMA
Lv et al. Energy-efficient joint power control and resource allocation for D2D-aided heterogeneous networks
Qiao et al. Joint optimization of resource allocation and user association in multi-frequency cellular networks assisted by RIS
CN114423070A (zh) 一种基于d2d的异构无线网络功率分配方法及***
Kamel et al. Average downlink rate in Ultra-Dense Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant