CN115412936A - 一种基于多智能体dqn的irs辅助d2d***资源分配方法 - Google Patents

一种基于多智能体dqn的irs辅助d2d***资源分配方法 Download PDF

Info

Publication number
CN115412936A
CN115412936A CN202210869229.3A CN202210869229A CN115412936A CN 115412936 A CN115412936 A CN 115412936A CN 202210869229 A CN202210869229 A CN 202210869229A CN 115412936 A CN115412936 A CN 115412936A
Authority
CN
China
Prior art keywords
irs
transmission rate
agent
user
dqn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210869229.3A
Other languages
English (en)
Inventor
朱政宇
巩梦飞
赵航冉
宁梦珂
王宏旭
梁静
宋灿
孙钢灿
郝万明
侯庚旺
李铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Original Assignee
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University filed Critical Zhengzhou University
Priority to CN202210869229.3A priority Critical patent/CN115412936A/zh
Publication of CN115412936A publication Critical patent/CN115412936A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0215Traffic management, e.g. flow control or congestion control based on user or device properties, e.g. MTC-capable devices
    • H04W28/0221Traffic management, e.g. flow control or congestion control based on user or device properties, e.g. MTC-capable devices power availability or consumption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0231Traffic management, e.g. flow control or congestion control based on communication conditions
    • H04W28/0236Traffic management, e.g. flow control or congestion control based on communication conditions radio quality, e.g. interference, losses or delay
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • H04W28/18Negotiating wireless communication parameters
    • H04W28/22Negotiating communication rate
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一个智能反射面(IRS)辅助设备到设备(D2D)通信中复用上行链路频谱资源的场景,提出一种基于多智能体DQN的IRS辅助D2D***资源分配方法,用以提升蜂窝用户最大传输速率。本发明通过满足D2D用户最小传输速率和能量接收机最低能量采集的约束,联合优化D2D用户发射功率和IRS相移,构建最大化蜂窝用户信息传输速率模型。提出一种多智能体DQN资源分配算法,每个DQN网络只负责一个agent的学习并输出D2D功率和IRS相移。仿真结果表明,与其他方法相比,所提出的资源分配算法可以从环境中学习并不断改善行为,在较低的复杂度下显著提高蜂窝用户最大传输速率,同时拥有良好的收敛效果。

Description

一种基于多智能体DQN的IRS辅助D2D***资源分配方法
技术领域
本发明涉及通信技术领域,具体涉及一个智能反射面(IRS)辅助设备到设备(D2D)通信中复用上行链路频谱资源的场景,提出一种基于深度强化学习的多智能体DQN资源分配方法。
背景技术
设备到设备(D2D)通信被认为是第五代无线通信(5G)中具有前景的技术之一。D2D通信技术通过让D2D用户复用蜂窝用户的频谱资源,实现D2D用户间的信息传输并提升***频谱利用率。但是D2D通信方式也会给***引入新的干扰源,增加对蜂窝用户的干扰,严重影响通信质量甚至无法正常通信。
智能反射面(IRS)被认为是第六代无线通信(6G)潜在技术之一,能实现能量和频谱的高效利用。IRS是由大量低成本无源反射元件构成的智能平面,每个反射单元能够对入射信号的幅度和相位做出调整并反射。因此,通过在无线通信网络中部署IRS,可以在发射端和接收端之间重构一条可控的通信链路来增强所需信号并抑制干扰。
目前已有学者对IRS辅助D2D通信进行了相关的研究,其中,哈尔滨工业大学和深圳大学科研团队合作针对IRS辅助D2D通信***,提出一个优化问题:在满足蜂窝用户最低传输速率前提下最大化D2D用户传输速率。然后采用块坐标下降法将原问题分解为四个子问题,最终求解波束赋形、功率分配和相移矩阵,验证了IRS提高D2D用户传输速率的有效性。文献″Mao S,Chu X,Wu Q,et al.Intelligent reflecting surface enhanced D2Dcooperative computing[J].IEEE Wireless Communications Letters,2021,10(7):1419-1423.″研究了一个D2D协作通信***,用户可以借助IRS将计算任务卸载给附近的空闲用户。通过联合优化计算任务分配、发射功率、频率分配和IRS相移最小化计算时延,并提出一种交替优化算法求解此问题。与传统D2D协同计算策略相比,IRS辅助D2D的协同计算方案能够获得更低的计算时延。
强化学习作为机器学习领域一个重要的分支,在某些场景中已经取得极为瞩目的成果,如围棋、游戏、无人驾驶等。强化学习的基本思想是令agent与周围环境交互,根据当前所处的状态采取相应动作并获得奖励,通过不断学习得到一个控制策略或规则来解决具体的问题。现有对IRS辅助D2D的研究大多基于交替优化的方法,使用复杂的数学公式,难以真正解决多变量实时联合优化问题。针对上述难题,本发明提出了基于深度强化学习的多智能体DQN算法,联合优化IRS相移、DT发射功率,具有较低复杂度的同时具有较好的收敛效果。
发明内容
本发明公开了一个智能反射面(IRS)辅助设备到设备(D2D)通信中复用上行链路频谱资源的场景,提出一种基于深度强化学习的资源分配方法,在保证D2D用户最小传输速率和能量接收机最低能量采集约束下,通过对IRS相移、DT发射功率进行联合设计,提升蜂窝用户最大传输速率。
为实现上述目标,本发明的技术方法具体步骤如下:
步骤1,设置基站、IRS、蜂窝用户、K对D2D用户和能量接收机的位置;对蜂窝用户到BS、IRS、接收用户(D2D Receiver,DR)、EHR的信道,发射用户(D2D Transmitter,DT)到DR、IRS、BS、EHR的信道,IRS到BS、DR、EHR的信道进行建模并得到信道增益;
步骤2,根据步骤1中的信道增益,构建蜂窝用户最大传输速率问题;
步骤2.1,蜂窝用户向基站发送的信号的最大传输速率可以表示为Rc
步骤2.2,***目标是在满足D2D用户最小传输速率、EHR最低能量采集约束条件下,针对IRS相移矩阵、DT发射功率进行优化,构建蜂窝用户最大传输速率问题;
步骤3,根据***中的IRS相移矩阵,DT发射功率分配,D2D用户最小传输速率,EHR能量采集,分别对深度强化学习的三大要素:状态、动作及奖励进行定义与设计;
步骤4,利用多智能体DQN算法优化强化学习网络模型。并根据优化后的网络模型获得蜂窝用户最大传输速率。
具体的,步骤1中所述通信***中的信道增益具体包括:
使用准静态平坦衰落信道模型,所有的信道增益为理想信道状态信息(ChannelState Information,CSI)模式,其中,蜂窝用户到BS、IRS、DR、EHR的信道增益分别为
Figure BDA0003759870550000034
Figure BDA0003759870550000035
DT到DR、IRS、BS、EHR的信道增益分别为
Figure BDA0003759870550000036
Figure BDA0003759870550000037
IRS到BS、DR、EHR的信道增益分别为
Figure BDA0003759870550000038
具体的,步骤2.1中所述蜂窝用户传输速率问题具体包括:
在上行链路中,基站接收到的信号为蜂窝用户的传输信号、IRS的反射信号和复用蜂窝用户频谱的D2D用户产生的同频干扰信号。因此,蜂窝用户传输速率可以表示为:
Figure BDA0003759870550000031
其中,PC
Figure BDA0003759870550000032
分别为蜂窝用户和第i个DT的发射功率,Θ为IRS相移矩阵,满足
Figure BDA0003759870550000033
主对角线θn=(0,2π)表示第n(1≤n≤N)个反射元素的相移,σ2代表噪声。
具体的,步骤2.2中所述构建蜂窝用户最大传输速率问题具体包括:
每个D2D用户的信息传输速率可以表示为:
Figure BDA0003759870550000041
EHR采集的能量表示为:
Figure BDA0003759870550000042
其中,η为能量转换效率。
因此,蜂窝用户最大化传输速率的问题可以建模为:
Figure BDA0003759870550000043
s.t.C1:
Figure BDA0003759870550000044
C2:
Figure BDA0003759870550000045
C3:E≥Emin
C4:
Figure BDA0003759870550000046
其中,
Figure BDA0003759870550000047
C1是D2D用户传输速率约束,Rmin为D2D用户可以正常通信的最小传输速率;C2是IRS恒模约束;C3是能量采集约束,Emin为EHR最低能量采集限制;C4是DT发射功率约束,Pmax为DT最大发射功率。
具体的,步骤3中所述状态、动作及奖励的定义与设计具体包括:
状态:DQN网络需要根据当前所处状态选择最佳的动作,以此来获得更多的奖励,从而能够在保证在满足D2D用户最小传输速率条件下最大化蜂窝用户的传输速率。针对这一目标,状态空间S被定义为D2D用户的SINR,因此,在t时刻智能体所处的状态为:
Figure BDA0003759870550000048
其中,SINRi(t)为第i个智能体在t时刻的信干噪比。
动作:DQN算法中,每输入一个状态,DQN网络会根据ε-greedy策略来选择一个动作,agent执行这个动作获得一个奖励值并到达下一个状态。ε-greedy策略表示为:
Figure BDA0003759870550000051
其中,0<ε<1。
针对本章所提IRS辅助D2D通信***,动作空间A应包含所有的功率选择和IRS相移选择。因此,t时刻的动作at定义为:
Figure BDA0003759870550000052
其中,
Figure BDA0003759870550000053
A1和A2分别表示D2D用户功率分配空间和IRS反射元素相移选择空间。
奖励函数:本模型采用蜂窝用户的速率作为瞬时奖励,考虑D2D用户的最低传输速率约束,奖励值rt定义为:
Figure BDA0003759870550000054
则长期累积的奖励值为:
Figure BDA0003759870550000055
其中,γ∈[0,1]为折扣因子,表示agent对未来奖励的关注程度。当γ=0时,agent只关注当前时刻的奖励值,γ越大,则表示agent越关注未来的奖励,这种远视能力通常有助于agent更加明智的选择动作。
具体的,步骤4中所述利用多智能体DQN算法优化强化学习网络模型具体包括:
整个算法由在线决策和离线训练两部分组成:
在线决策阶段,首先初始化当前环境,得到初始状态st,根据ε-greedy(o<ε<1)策略选择一个动作,然后计算奖励值并到达下一个状态st+1,然后将(st,at,rt,st+1)作为数据样本存入经验池中。
离线训练阶段,从经验池中随机抽取一批数据,根据以下定义计算出真实的Q值:
yt=rt+γmaxQ(st+1,at+1;θ)
其中,θ为网络中的参数,通过训练当前值网路,更新参数θ,让网络预测的Q值无接近真实的Q值,因此,损失函数表示为:
ψ(t)=(yt-Q(st,at;θ))2
本算法中,采用Adam优化器最小化损失函数,然后反向传播更新网络中的参数。训练一段时间后,将当前值网络中的权值参数复制到目标值网络。由上述技术方案可知,本发明提供的基于IRS辅助D2D***通信的方法,通过对IRS相移、DT发射功率进行联合设计,解决了在保证D2D用户最小传输速率和能量接收机最低能量采集约束下蜂窝用户信息传输速率最大化的问题。
本发明具有以下优点:
1、公开了一个IRS辅助D2D通信中复用上行链路频谱资源的场景,在保证D2D用户最小传输速率和能量接收机最低能量采集约束下最大化蜂窝用户信息传输速率。与传统D2D协同计算策略相比,IRS辅助D2D的协同计算方案能够获得更低的计算时延。
2、本发明首次在IRS辅助D2D通信中引入多智能体DQN网络框架,相比于传统的数学优化算法,解决了多参数难以实时联合优化的问题。提出的多智能体DQN算法中单个agent只负责学习一对D2D用户的功率分配策略。它们可以分布式学习,彼此交互。这将显著降低单个agent的动作空间,使网络更容易收敛,提升模型鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是基于IRS辅助D2D通信***模型示意图;
图2是多智能体DQN网络模型;
图3是多智能体DQN算法流程图;
图4是能量采集与IRS反射元素数量N的关系;
图5是能量采集与D2D用户数量K的关系;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例,都属于本发明保护的范围。
具体步骤如下:
步骤1,设置基站、IRS、蜂窝用户、K对D2D用户和能量接收机的位置;对蜂窝用户到BS、IRS、接收用户(D2D Receiver,DR)、EHR的信道,发射用户(D2D Transmitter,DT)到DR、IRS、BS、EHR的信道,IRS到BS、DR、EHR的信道进行建模并得到信道增益;
步骤2,根据步骤1中的信道增益,构建蜂窝用户最大传输速率问题;
步骤2.1,蜂窝用户向基站发送的信号的最大传输速率可以表示为Rc;
步骤2.2,***目标是在满足D2D用户最小传输速率、EHR最低能量采集约束条件下,针对IRS相移矩阵、DT发射功率进行优化,构建蜂窝用户最大传输速率问题;
步骤3,根据***中的IRS相移矩阵,DT发射功率分配,D2D用户最小传输速率,EHR能量采集,分别对深度强化学习的三大要素:状态、动作及奖励进行定义与设计;
步骤4,利用多智能体DQN算法优化强化学习网络模型。并根据优化后的网络模型获得蜂窝用户最大传输速率。
本实施例中,步骤1具体过程如下:
如图1所示,IRS辅助D2D通信***模型包括:一个基站(BaseStation,BS),周围分布一个蜂窝用户、对D2D用户和一个EHR,其中每对D2D用户包含一个发射用户和一个接收用户。同时,在小区内部署了由大量内置可编程元器件组成的IRS,通过反射定向波束至目标接收器,起到增强有益信号并抑制干扰的作用。在通信过程中,接收端不仅可以通过直接链路接收发送端传输的信号,还可以通过IRS反射链路接收反射信号。考虑实际成本及可行性,对IRS的反射相位取离散值,其中,IRS包含N个反射单元,假设每个反射单元的相移离散为4-bit,相移范围为[0,2π],IRS发射单元的振幅为1,即经过IRS反射的信号没有能量损失。在Saleh-Valenzula理论信道中,所有的信道增益为理想信道状态信息(Channel StateInformation,CSI)模式,其中,蜂窝用户到BS、IRS、DR、EHR的信道增益分别为
Figure BDA0003759870550000082
Figure BDA0003759870550000083
DT到DR、IRS、BS、EHR的信道增益分别为
Figure BDA0003759870550000084
IRS到BS、DR、EHR的信道增益分别为
Figure BDA0003759870550000085
本实施例中,步骤2具体过程如下:
具体的,步骤2.1中所述蜂窝用户传输速率问题包括:
在上行链路中,基站接收到的信号为蜂窝用户的传输信号、IRS的反射信号和复用蜂窝用户频谱的D2D用户产生的同频干扰信号。因此,蜂窝用户传输速率可以表示为:
Figure BDA0003759870550000081
其中,PC
Figure BDA0003759870550000091
分别为蜂窝用户和第i个DT的发射功率,Θ为IRS相移矩阵,满足
Figure BDA0003759870550000092
主对角线θn=(0,2π)表示第n(1≤n≤N)个反射元素的相移,σ2代表噪声。
具体的,步骤2.2中所述构建蜂窝用户最大传输速率问题包括:
每个D2D用户的信息传输速率可以表示为:
Figure BDA0003759870550000093
EHR采集的能量表示为:
Figure BDA0003759870550000094
其中,η为能量转换效率。
蜂窝用户最大化传输速率的问题可以建模为:
Figure BDA0003759870550000095
s.t.C1:
Figure BDA0003759870550000096
C2:
Figure BDA0003759870550000097
C3:E≥Emin
C4:
Figure BDA0003759870550000098
其中,
Figure BDA0003759870550000099
C1是D2D用户传输速率约束,Rmin为D2D用户可以正常通信的最小传输速率;C2是IRS恒模约束;C3是能量采集约束,Emin为EHR最低能量采集限制;C4是DT发射功率约束,Pmax为DT最大发射功率。
本实施例中,步骤3具体过程如下:
如图2所示,给出多智能体DQN网络的马尔可夫决策过程,具体的三要素:状态、动作、奖励由下面所述:
状态:DQN网络需要根据当前所处状态选择最佳的动作,以此来获得更多的奖励,从而能够在保证在满足D2D用户最小传输速率条件下最大化蜂窝用户的传输速率。针对这一目标,状态空间S被定义为D2D用户的SINR,因此,在t时刻智能体所处的状态为:
Figure BDA0003759870550000101
其中,SINRi(t)为第i个智能体在t时刻的信干噪比。
动作:DQN算法中,每输入一个状态,DQN网络会根据ε-greedy策略来选择一个动作,agent执行这个动作获得一个奖励值并到达下一个状态。ε-greedy策略表示为:
Figure BDA0003759870550000102
其中,0<ε<1。
针对本章所提IRS辅助D2D通信***,动作空间A应包含所有的功率选择和IRS相移选择。因此,t时刻的动作at定义为:
Figure BDA0003759870550000103
其中,
Figure BDA0003759870550000104
A1和A2分别表示D2D用户功率分配空间和IRS反射元素相移选择空间。
奖励函数:本模型采用蜂窝用户的速率作为瞬时奖励,考虑D2D用户的最低传输速率约束,奖励值rt定义为:
Figure BDA0003759870550000105
则长期累积的奖励值为:
Figure BDA0003759870550000106
其中,γ∈[0,1]为折扣因子,表示agent对未来奖励的关注程度。当γ=0时,agent只关注当前时刻的奖励值,γ越大,则表示agent越关注未来的奖励,这种远视能力通常有助于agent更加明智的选择动作。
本实施例中,步骤4具体过程如下:
如图3所示,给出多智能体DQN算法的算法流程图。整个算法由在线决策和离线训练两部分组成:
在线决策阶段,首先初始化当前环境,得到初始状态st,根据ε-greedy(0<ε<1)策略选择一个动作,然后计算奖励值并到达下一个状态st+1,然后将(st,at,rt,st+1)作为数据样本存入经验池中。
离线训练阶段,从经验池中随机抽取一批数据,根据以下定义计算出真实的Q值:
yt=rt+γmaxQ(st+1,at+1;θ)
其中,θ为网络中的参数,通过训练当前值网路,更新参数θ,让网络预测的Q值无接近真实的Q值,因此,损失函数表示为:
ψ(t)=(yt-Q(st,at;θ))2
本算法中,采用Adam优化器最小化损失函数,然后反向传播更新网络中的参数。训练一段时间后,将当前值网络中的权值参数复制到目标值网络。
下面将给出本发明的能量采集方案与现有的其它方案的比较,以使本发明的优势及特征更加明显。
图4为蜂窝用户最大传输速率与IRS反射元素数量的关系图,D2D用户数量K=6,从图中可知,本发明所提多智能体DQN算法性能最优。IRS辅助通信方案的性能明显优于无IRS方案,且随着IRS反射元素数量的增加,蜂窝用户的最大传输速率呈递增趋势,证明了所提算法的有效性和IRS应用于D2D通信***的优势。
图5为蜂窝用户最大传输速率与D2D用户数量的关系,其中IRS反射元素数量N=40,随着D2D用户数量K增加,蜂窝用户最大传输速率降低,原因在于随着复用蜂窝用户频谱资源的D2D用户数量增加,对蜂窝用户产生的干扰也会加重,从而影响了蜂窝用户的传输速率。但所提强化学习算法仍然优于其它三种基准方案。
由此可见,本实施例提出的一种基于多智能体DQN的IRS辅助D2D***资源分配方法,在保证D2D用户最小传输速率和能量接收机最低能量采集约束下,通过对IRS相移、DT发射功率进行联合设计,能够最大化蜂窝用户的传输速率,而且不需要复杂的数学公式推导。
以上所述,仅为本发明的具体实施方式,但是,本发明的保护范围不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替代,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (6)

1.一种基于多智能体DQN的IRS辅助D2D***资源分配方法,其特征在于,步骤如下:
步骤1,设置基站、IRS、蜂窝用户、K对D2D用户和能量接收机(Energy HarvestingReceiver,EHR)的位置;对蜂窝用户到BS、IRS、接收用户(D2D Receiver,DR)、EHR的信道,发射用户(D2D Transmitter,DT)到DR、IRS、BS、EHR的信道,IRS到BS、DR、EHR的信道进行建模并得到信道增益;
步骤2,根据步骤1中的信道增益,构建蜂窝用户最大传输速率问题;
步骤2.1,蜂窝用户向基站发送的信号的最大传输速率可以表示为Rc
步骤2.2,***目标是在满足D2D用户最小传输速率、EHR最低能量采集约束条件下,针对IRS相移矩阵、DT发射功率进行优化,构建蜂窝用户最大传输速率问题;
步骤3,根据***中的IRS相移矩阵,DT发射功率分配,D2D用户最小传输速率,EHR能量采集,分别对深度强化学习的三大要素:状态、动作及奖励进行定义与设计;
步骤4,利用多智能体DQN算法优化强化学习网络模型。并根据优化后的网络模型获得蜂窝用户最大传输速率。
2.根据权利要求1所述的一种基于多智能体DQN的IRS辅助D2D***资源分配方法,其特征在于:步骤1中所述信道增益具体包括:
使用准静态平坦衰落信道模型,所有的信道增益为理想信道状态信息(Channel StateInformation,CSI)模式,其中,蜂窝用户到BS、IRS、DR、EHR的信道增益分别为
Figure FDA0003759870540000011
Figure FDA0003759870540000012
DT到DR、IRS、BS、EHR的信道增益分别为
Figure FDA0003759870540000013
Figure FDA0003759870540000014
IRS到BS、DR、EHR的信道增益分别为
Figure FDA0003759870540000026
3.根据权利要求1所述的一种基于多智能体DQN的IRS辅助D2D***资源分配方法,其特征在于:步骤2.1中所述蜂窝用户传输速率问题具体包括:
在上行链路中,基站接收到的信号为蜂窝用户的传输信号、IRS的反射信号和复用蜂窝用户频谱的D2D用户产生的同频干扰信号。因此,蜂窝用户传输速率可以表示为:
Figure FDA0003759870540000021
其中,PC
Figure FDA0003759870540000022
分别为蜂窝用户和第i个DT的发射功率,Θ为IRS相移矩阵,满足
Figure FDA0003759870540000023
主对角线θn=(0,2π)表示第n(1≤n≤N)个反射元素的相移,σ2代表噪声。
4.根据权利要求1所述的一种基于多智能体DQN的IRS辅助D2D***资源分配方法,其特征在于:步骤2.2中所述构建蜂窝用户最大传输速率问题具体包括:
每个D2D用户的信息传输速率可以表示为:
Figure FDA0003759870540000024
EHR采集的能量表示为:
Figure FDA0003759870540000025
其中,η为能量转换效率。
因此,蜂窝用户最大化传输速率的问题可以建模为::
Figure FDA0003759870540000031
s.t.C1:Ri D≥Rmin
Figure FDA0003759870540000032
C2:|vn|=1,
Figure FDA0003759870540000033
C3:E≥Emin
C4:
Figure FDA0003759870540000038
其中,
Figure FDA0003759870540000035
C1是D2D用户传输速率约束,Rmin为D2D用户可以正常通信的最小传输速率;C2是IRS恒模约束;C3是能量采集约束,Emin为EHR最低能量采集限制;C4是DT发射功率约束,Pmax为DT最大发射功率。
5.根据权利要求1所述的一种基于多智能体DQN的IRS辅助D2D***资源分配方法,其特征在于:步骤3中所述状态、动作及奖励的定义与设计具体包括:
状态:DQN网络需要根据当前所处状态选择最佳的动作,以此来获得更多的奖励,从而能够在保证在满足D2D用户最小传输速率条件下最大化蜂窝用户的传输速率。针对这一目标,状态空间S被定义为D2D用户的SINR,因此,在t时刻智能体所处的状态为:
Figure FDA0003759870540000036
其中,SINRi(t)为第i个智能体在t时刻的信干噪比,即传输速率。
动作:DQN算法中,每输入一个状态,DQN网络会根据ε-greedy策略来选择一个动作,agent执行这个动作获得一个奖励值并到达下一个状态。ε-greedy策略表示为:
Figure FDA0003759870540000037
其中,0<ε<1。
针对本章所提IRS辅助D2D通信***,动作空间A应包含所有的功率选择和IRS相移选择。因此,t时刻的动作at定义为:
Figure FDA0003759870540000041
其中,
Figure FDA0003759870540000042
Figure FDA0003759870540000043
A1和A2分别表示D2D用户功率分配空间和IRS反射元素相移选择空间。
奖励函数:本模型采用蜂窝用户的速率作为瞬时奖励,考虑D2D用户的最低传输速率约束,奖励值rt定义为:
Figure FDA0003759870540000044
则长期累积的奖励值为:
Figure FDA0003759870540000045
其中,γ∈[0,1]为折扣因子,表示agent对未来奖励的关注程度。当γ=0时,agent只关注当前时刻的奖励值,γ越大,则表示agent越关注未来的奖励,这种远视能力通常有助于agent更加明智的选择动作。
6.根据权利要求1所述的一种基于多智能体DQN的IRS辅助D2D***资源分配方法,其特征在于:步骤4中所述利用多智能体DQN算法优化强化学习网络模型具体包括:
整个算法由在线决策和离线训练两部分组成:
在线决策阶段,首先初始化当前环境,得到初始状态st,根据ε-greedy(0<ε<1)策略选择一个动作,然后计算奖励值并到达下一个状态st+1,然后将(st,at,rt,st+1)作为数据样本存入经验池中。
离线训练阶段,从经验池中随机抽取一批数据,根据以下定义计算出真实的Q值:
yt=rt+γmaxQ(st+1,at+1;θ)
其中,θ为网络中的参数,通过训练当前值网路,更新参数θ,让网络预测的Q值无接近真实的Q值,因此,损失函数表示为:
ψ(t)=(yt-Q(st,at;θ))2
本算法中,采用Adam优化器最小化损失函数,然后反向传播更新网络中的参数。训练一段时间后,将当前值网络中的权值参数复制到目标值网络。
CN202210869229.3A 2022-07-22 2022-07-22 一种基于多智能体dqn的irs辅助d2d***资源分配方法 Pending CN115412936A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210869229.3A CN115412936A (zh) 2022-07-22 2022-07-22 一种基于多智能体dqn的irs辅助d2d***资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210869229.3A CN115412936A (zh) 2022-07-22 2022-07-22 一种基于多智能体dqn的irs辅助d2d***资源分配方法

Publications (1)

Publication Number Publication Date
CN115412936A true CN115412936A (zh) 2022-11-29

Family

ID=84157624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210869229.3A Pending CN115412936A (zh) 2022-07-22 2022-07-22 一种基于多智能体dqn的irs辅助d2d***资源分配方法

Country Status (1)

Country Link
CN (1) CN115412936A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116471613A (zh) * 2023-04-28 2023-07-21 南京邮电大学 一种多用户mimo***能效优化方法及装置
CN116527178A (zh) * 2023-04-11 2023-08-01 南京邮电大学 一种智能反射面辅助的智能语义通信***资源分配方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116527178A (zh) * 2023-04-11 2023-08-01 南京邮电大学 一种智能反射面辅助的智能语义通信***资源分配方法
CN116471613A (zh) * 2023-04-28 2023-07-21 南京邮电大学 一种多用户mimo***能效优化方法及装置
CN116471613B (zh) * 2023-04-28 2023-10-10 南京邮电大学 一种多用户mimo***能效优化方法及装置

Similar Documents

Publication Publication Date Title
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN115412936A (zh) 一种基于多智能体dqn的irs辅助d2d***资源分配方法
CN114389678B (zh) 一种基于决策性能评估的多波束卫星资源分配方法
CN110769514B (zh) 一种异构蜂窝网络d2d通信资源分配方法及***
Diamanti et al. Energy efficient multi-user communications aided by reconfigurable intelligent surfaces and UAVs
CN108541001B (zh) 一种用于能量可收集双向协作通信的中断率优化方法
CN114867030B (zh) 双时间尺度智能无线接入网切片方法
CN113225794B (zh) 一种基于深度强化学习的全双工认知通信功率控制方法
Hashima et al. Energy-aware hybrid RF-VLC multiband selection in D2D communication: A stochastic multiarmed bandit approach
CN114040415A (zh) 智能反射面辅助的基于dqn-ddpg的资源分配方法
CN114501355B (zh) 一种适应园区电碳信息转换的保密容量保障***及方法
CN114641018B (zh) 一种ris辅助的d2d通信***及其性能优化方法
CN113115451A (zh) 基于多智能体深度强化学习的干扰管理和资源分配方案
CN115243295A (zh) 一种基于深度强化学习的irs辅助swipt-d2d***资源分配方法
Dai et al. Distributed user association with grouping in satellite–terrestrial integrated networks
CN110536321B (zh) 5g iot通信中权衡能量效率和频谱效率的优化方法
Luo et al. Federated deep reinforcement learning for RIS-assisted indoor multi-robot communication systems
CN108449737B (zh) 分布式天线***中基于d2d的下行链路高能效功率分配方法
Liu et al. Power allocation in ultra-dense networks through deep deterministic policy gradient
CN113507716A (zh) 一种基于swipt的cr-noma网络中断与能效的优化方法
CN116390056B (zh) Star-ris辅助的车联网sr***链路优化方法
CN116506918A (zh) 一种基于缓存区预测的中继选择方法
Xu et al. Energy efficiency optimization of NOMA IoT communication for 5G
CN114760642B (zh) 一种基于速率分割多址的智能工厂时延抖动控制方法
CN116321236A (zh) Ris辅助的安全无蜂窝大规模mimo***能效优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination