CN113904704B - 一种基于多智能体深度强化学习的波束预测方法 - Google Patents

一种基于多智能体深度强化学习的波束预测方法 Download PDF

Info

Publication number
CN113904704B
CN113904704B CN202111132541.6A CN202111132541A CN113904704B CN 113904704 B CN113904704 B CN 113904704B CN 202111132541 A CN202111132541 A CN 202111132541A CN 113904704 B CN113904704 B CN 113904704B
Authority
CN
China
Prior art keywords
agent
formula
action
channel
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111132541.6A
Other languages
English (en)
Other versions
CN113904704A (zh
Inventor
姜静
岳志宇
梁彦霞
何华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Posts and Telecommunications
Original Assignee
Xian University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Posts and Telecommunications filed Critical Xian University of Posts and Telecommunications
Priority to CN202111132541.6A priority Critical patent/CN113904704B/zh
Publication of CN113904704A publication Critical patent/CN113904704A/zh
Application granted granted Critical
Publication of CN113904704B publication Critical patent/CN113904704B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • H04B7/0426Power distribution
    • H04B7/043Power distribution using best eigenmode, e.g. beam forming or beam steering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • H04B7/0456Selection of precoding matrices or codebooks, e.g. using matrices antenna weighting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Power Engineering (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本公开实施例是关于一种基于多智能体深度强化学习的波束预测方法。该基于多智能体深度强化学习的波束预测方法包括:深度神经网络利用瞬时信道状态信息学习无线信道的关键传播特性;Q网络利用所述深度神经网络输出估计动作‑值函数,计算网络参数梯度,并让每个智能体依次做出下一次波束预测;利用所述Q网络输出参数更新所述深度神经网络权值,实现对动态用户的精准波束预测。本公开实施例利用深度神经网络获取多个能反映信道特征的关键值,使多天线(MIMO)***的波束预测更符合动态用户信道的时变特性,提高波束切换成功率,减小大规模多天线(MIMO)***的反馈开销,从而提高和速率。

Description

一种基于多智能体深度强化学习的波束预测方法
技术领域
本公开实施例涉及无线通讯技术领域,尤其涉及一种基于多智能体深度强化学习的波束预测方法。
背景技术
大规模多天线(Massive Multi-Input Multi-Output,MIMO)***作为5G移动通信的关键技术之一,通过部署大规模天线阵列获得高信道增益,并结合精准波束成形等技术实现多用户空间复用以获得干扰抑制增益,使得小区总频谱效率和边缘用户的频谱效率得到了极大的提升。
5G将频谱扩展到毫米波波段,在带来了极宽的带宽同时波束在大气中的传播衰减十分严重;毫米波***的用户高速移动时受多普勒效应影响波束切换更加频繁,切换失败率更高。传统的波束预测方法通常为求解一个基于模型的动态规划问题,这类问题通常为NP-hard(non-deterministic polynomial-time hard),计算复杂度高且易陷入局部最优解。另外,用户在移动过程中,信道难以通过单一模型来建模,使用传统波束预测算法会导致预测误差较大,通信质量下降。
因此,有必要改善上述相关技术方案中存在的一个或者多个问题。
需要注意的是,本部分旨在为权利要求书中陈述的本公开的技术方案提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
发明内容
本公开实施例的目的在于提供一种基于多智能体深度强化学习的波束预测方法,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本公开实施例提供的一种基于多智能体深度强化学习的波束预测方法,该方法包括:
深度神经网络利用瞬时信道状态信息学习无线信道的关键传播特性;
Q网络利用所述深度神经网络输出估计动作-值函数,计算网络参数梯度,并让每个智能体依次做出下一次波束预测;
利用所述Q网络输出参数更新所述深度神经网络权值,实现对动态用户的精准波束预测。
本公开的一实施例中,所述瞬时信道状态信息获取为所述智能体根据数字基带参数获取角度信息,并构建信道样本;
所述智能体设置M根天线,同时与K个单天线用户进行通信,所述智能体与所述用户间的信道为:
H=[h1,h2,...hK]   (1)
其中,hk,k∈{1,2,...,K}为所述用户与所述智能体间的信道,所述用户与所述智能体间的信道公式为:
Figure GDA0003327680840000021
其中,
Figure GDA0003327680840000022
表示导向向量,gk表示所述智能体与用户k之间的空间信道向量;
所述导向向量
Figure GDA0003327680840000023
公式为:
Figure GDA0003327680840000024
其中,i为波束索引,Γ表示波束索引集合,
Figure GDA0003327680840000025
为波束方向;
所述智能体与所述用户k之间的空间信道向量gk公式为:
Figure GDA0003327680840000026
其中,ρLOS
Figure GDA0003327680840000027
分别表示视线传输(LOS)和非视线传输(NLOS)信道的增益系数;φLOS
Figure GDA0003327680840000028
分别为视线传输(LOS)和非视线传输(NLOS)的离去角。
本公开的一实施例中,将所述信道样本作为所述深度神经网络的输入,得到接收信号功率,所述接收信号功率归一化满足
Figure GDA0003327680840000029
其中E[·]是期望运算符,I是单位矩阵;所述接收功率为||y||2,其中,y为用户接收信号;
用户接收信号公式为:
y=HGPq+n   (5)
其中,G为波束选择矩阵,所述波束选择矩阵G元素为0或1,
Figure GDA0003327680840000031
是具有独立同分布(i.i.d)的加性高斯白噪声,H为波束信道矩阵,P为预编码矩阵,且||P||2=1,q为智能体向用户发送的下行信号。
本公开的一实施例中,将信道矩阵和波束索引矩阵设置为同等大小,同时设置适当的学习率,并用随机参数初始化动作-值函数和概率矩阵,每个所述智能体的初始化参数都是相互独立的。
本公开的一实施例中,根据目标函数寻得当前迭代的最优动作,以概率1-ε执行,随机选择一个动作at,并以概率ε执行,执行动作后得到奖励函数rt,预测准确的波束会在每次迭代过程中强化动作;
所述奖励函数为最大化用户和速率,公式为:
Figure GDA0003327680840000032
其中,σ2表示噪声的功率;
所述智能体的转移概率ε公式为:
Figure GDA0003327680840000033
其中,1(·)为指示函数,
Figure GDA0003327680840000034
为波束i的估计值。
本公开的一实施例中,所述动作-值函数为所述智能体在状态s时采取动作a的奖励;
所述值函数公式为:
Figure GDA0003327680840000035
则所述动作-值函数公式为:
Figure GDA0003327680840000041
最优策略通过贝尔曼等式获得,所述最优策略公式为:
Figure GDA0003327680840000042
其中,π表示状态st映射到动作at的策略,s0为初始状态,γt表示第t步的折现系数,
Figure GDA0003327680840000043
表示累计折现奖励。
本公开的一实施例中,获得当前迭代的动作、状态和奖励函数后观察下一状态st+1,将所有智能体数据保存在经验缓存池中。
本公开的一实施例中,从所述经验缓存池中选取最小批尺寸的数据输入
Figure GDA0003327680840000044
计算损失函数,并更新训练参数,在所述Q网络训练中,采用所述Q网络估计动作-值函数;
所述损失函数公式为:
L(θ)=E{(yt-Q(st+1,a;θ))2}   (11)
其中,θ表示所述深度神经网络的参数;
则第t次迭代的目标输出公式为:
Figure GDA0003327680840000045
其中,θ1和θ2分别表示两层所述深度神经网络的不同参数。
本公开的一实施例中,基于所述损失函数,利用随机梯度下降法来更新权值θ,所述损失函数的梯度表示为:
Figure GDA0003327680840000046
其中,L(θ)为所述损失函数。
本公开的一实施例中,在下一迭代中选取动作at+1,并和状态、训练参数共同作为输入根据式(9)求解估计动作-值函数,同时依据式(10)和功率约束条件
Figure GDA0003327680840000047
其中Pthreshold表示智能体功率阈值,超过该值表明移动用户需要进行切换,得到最优策略(动作-值映射)和式(13)后可得到权值并返回所述深度神经网络进行更新。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开的实施例中,通过上述方法,利用深度神经网络获取多个能反映信道特征的关键值,使多天线(MIMO)***的波束预测更符合动态用户信道的时变特性,提高波束切换成功率,减小大规模多天线(MIMO)***的反馈开销,从而提高和速率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开示例性实施例中基于多智能体深度强化学习流程图;
图2示出本公开示例性实施例中动态用户波束预测示意图;
图3示出本公开示例性实施例中基于多智能体深度强化学习示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开实施例的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
本示例实施方式中首先提供了一种基于多智能体深度强化学习的波束预测方法,参考图1中所示,该方法可以包括:步骤S101~步骤S103。
步骤S101:深度神经网络利用瞬时信道状态信息学习无线信道的关键传播特性;
步骤S102:Q网络利用所述深度神经网络输出估计动作-值函数,计算网络参数梯度,并让每个智能体依次做出下一次波束预测;
步骤S103:利用所述Q网络输出参数更新所述深度神经网络权值,实现对动态用户的精准波束预测。
通过上述方法,利用深度神经网络获取多个能反映信道特征的关键值,使多天线(MIMO)***的波束预测更符合动态用户信道的时变特性,提高波束切换成功率,减小大规模多天线(MIMO)***的反馈开销,从而提高和速率。
下面,将参考图1至图3对本示例实施方式中的上述基于多智能体深度强化学习的波束预测方法的各个步骤进行更详细的说明。
在步骤S101中,深度神经网络利用瞬时信道状态信息学习无线信道的关键传播特性;
具体的,首先获取瞬时信道状态信息,每个基站根据各自的数字基带参数获取角度信息
Figure GDA0003327680840000061
并构建信道样本
Figure GDA0003327680840000062
将其作为DNN的输入,接收信号功率为||y||2
考虑大规模MIMO***的下行通信,配备M根天线的基站(BS)同时与K个单天线用户进行通信。在二维平面内,基站与用户间的信道可以表示为:
H=[h1,h2,...hK]   (1)
其中,hk,k∈{1,2,...,K}为所述用户与所述智能体间的信道,所述用户与所述智能体间的信道公式为:
Figure GDA0003327680840000063
其中,
Figure GDA0003327680840000064
表示导向向量,gk表示所述智能体与用户k之间的空间信道向量;
所述导向向量
Figure GDA0003327680840000065
公式为:
Figure GDA0003327680840000066
其中,i为波束,j表示与第k个用户之外的其他用户索引,Γ表示波束索引集合,
Figure GDA0003327680840000067
为波束方向;
所述智能体与所述用户k之间的空间信道向量gk公式为:
Figure GDA0003327680840000071
其中,ρLOS
Figure GDA0003327680840000072
分别表示视线传输(LOS)和非视线传输(NLOS)信道的增益系数;φLOS
Figure GDA0003327680840000073
分别为视线传输(LOS)和非视线传输(NLOS)的离去角。
假设信号功率归一化满足
Figure GDA0003327680840000074
其中E[·]是期望运算符,I是单位矩阵,则用户接收信号y表示为:
y=HGPq+n   (5)
其中,G为波束选择矩阵,所述波束选择矩阵G元素为0或1,
Figure GDA0003327680840000075
是具有独立同分布(i.i.d)的加性高斯白噪声,H为波束信道矩阵,P为预编码矩阵,且||P||2=1,q为智能体向用户发送的下行信号,接收信号功率为||y||2
步骤S102中,Q网络利用所述深度神经网络输出估计动作-值函数,计算网络参数梯度,并让每个智能体依次做出下一次波束预测;
具体的,将信道矩阵和波束索引矩阵设置为同等大小,同时设置适当的学习率,并用随机参数初始化动作-值函数Qπ(s,a)和概率矩阵,每个基站的初始化参数都是相互独立的;对于多智能体深度强化学习,本发明视基站为智能体,其状态用st表示,状态空间S可以表示为波束信道矩阵H和波束索引矩阵组成的张量并用1或0分别表示信道的好坏。智能体的动作at为选择波束的过程,动作空间A可以表示为在波束选择矩阵中选择具有最大接收功率的波束,并且每次迭代时最多只选择一个波束。
根据目标函数寻得当前迭代的最优工作,以概率at执行,随机选择一个动作at,并以概率ε执行。执行动作后得到奖励函数rt,预测准确的波束会在每次迭代过程中强化动作。
奖励函数rt为最大化用户和速率,公式为:
Figure GDA0003327680840000081
其中,j表示与第k个用户之外的其他用户索引,σ2表示噪声的功率;
所述智能体的转移概率ε公式为:
Figure GDA0003327680840000082
其中,1(·)为指示函数,
Figure GDA0003327680840000083
为波束i的估计值。
所述动作-值函数为所述智能体在状态s时采取动作a的奖励;
所述值函数公式为:
Figure GDA0003327680840000084
其中,π表示状态st到动作at的策略,s0为初始状态,γt表示第t步的折现系数,
Figure GDA0003327680840000085
表示累计折现奖励;
则所述动作-值函数公式为:
Figure GDA0003327680840000086
最优策略通过贝尔曼等式获得,所述最优策略公式为:
Figure GDA0003327680840000087
步骤S103:利用所述Q网络输出参数更新所述深度神经网络权值,实现对动态用户的精准波束预测。
具体的,先获得当前迭代的动作、状态和奖励函数后观察下一状态st+1,将所有基站数据保存在经验缓存池(Experience Buffer Replay)中;
从经验缓存池中选取最小批尺寸的数据输入
Figure GDA0003327680840000088
计算损失函数,并更新训练参数θ。在线训练阶段中,采用深度Q网络估计动作-值函数;Q网络旨在最小化损失函数:
L(θ)=E{(yt-Q(st+1,a;θ))2}   (11)
其中,θ表示所述深度神经网络的参数;
则第t次迭代的目标输出公式为:
Figure GDA0003327680840000091
其中,θ1和θ2分别表示两层所述深度神经网络的不同参数。
基于所述损失函数L(θ),利用随机梯度下降法来更新权值θ,所述损失函数的梯度可以表示为:
Figure GDA0003327680840000092
然后在下一迭代中选取动作at+1,并和状态、训练参数共同作为输入根据式(9)求解估计动作-值函数,同时依据式(10)和功率约束条件
Figure GDA0003327680840000093
其中Pthreshold表示基站功率阈值,超过该值表明移动用户需要进行切换;得到最优策略(动作-值映射)和式(13)后可得到权值并返回DNN进行更新。
通过上述方法,利用深度神经网络获取多个能反映信道特征的关键值,使多天线(MIMO)***的波束预测更符合动态用户信道的时变特性,提高波束切换成功率,减小大规模多天线(MIMO)***的反馈开销,从而提高和速率。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

Claims (8)

1.一种基于多智能体深度强化学习的波束预测方法,其特征在于,该方法包括:
深度神经网络利用瞬时信道状态信息学习无线信道的关键传播特性;
Q网络利用所述深度神经网络输出估计动作-值函数,计算网络参数梯度,并让每个智能体依次做出下一次波束预测;
利用所述Q网络输出参数更新所述深度神经网络权值,实现对动态用户的精准波束预测;
其中,所述瞬时信道状态信息获取为所述智能体根据数字基带参数获取角度信息,并构建信道样本;
所述智能体设置M根天线,同时与K个单天线用户进行通信,所述智能体与所述用户间的信道为:
H=[h1,h2,...hK]                          (1)
式中,hk,k∈{1,2,…,K}为所述用户与所述智能体间的信道,所述用户与所述智能体间的信道公式为:
Figure FDA0003834534080000011
式中,
Figure FDA0003834534080000012
表示导向向量,gk表示所述智能体与用户k之间的空间信道向量;
所述导向向量
Figure FDA0003834534080000013
公式为:
Figure FDA0003834534080000014
式中,i为波束索引,Γ表示波束索引集合,
Figure FDA0003834534080000015
为波束方向;
所述智能体与所述用户k之间的空间信道向量gk公式为:
Figure FDA0003834534080000016
式中,ρLOS
Figure FDA0003834534080000017
分别表示视线传输(LOS)和非视线传输(NLOS)信道的增益系数;φLOS
Figure FDA0003834534080000018
分别为视线传输(LOS)和非视线传输(NLOS)的离去角;
将所述信道样本作为所述深度神经网络的输入,得到接收信号功率,所述接收信号功率归一化满足
Figure FDA0003834534080000021
其中E[·]是期望运算符,I是单位矩阵;所述接收信号功率为||y||2,其中,y为用户接收信号;
用户接收信号公式为:
y=HGPq+n                       (5)
式中,G为波束选择矩阵,所述波束选择矩阵G元素为0或1,
Figure FDA0003834534080000022
是具有独立同分布(i.i.d)的加性高斯白噪声,H为波束信道矩阵,P为预编码矩阵,且||P||2=1,q为智能体向用户发送的下行信号。
2.根据权利要求1所述基于多智能体深度强化学习的波束预测方法,其特征在于,将信道矩阵和波束索引矩阵设置为同等大小,同时设置适当的学习率,并用随机参数初始化动作-值函数和概率矩阵,每个所述智能体的初始化参数都是相互独立的。
3.根据权利要求2所述基于多智能体深度强化学习的波束预测方法,其特征在于,根据目标函数寻得当前迭代的最优动作,以概率1-ε执行,随机选择一个动作at,并以概率ε执行,执行动作后得到奖励函数rt,预测准确的波束会在每次迭代过程中强化动作;
所述奖励函数为最大化用户和速率,公式为:
Figure FDA0003834534080000023
其中,σ2表示噪声的功率;
所述智能体的转移概率ε公式为:
Figure FDA0003834534080000024
其中,1(·)为指示函数,
Figure FDA0003834534080000025
为波束i的估计值。
4.根据权利要求1所述基于多智能体深度强化学习的波束预测方法,其特征在于,所述动作-值函数为所述智能体在状态s时采取动作a的奖励;
所述值函数公式为:
Figure FDA0003834534080000031
则所述动作-值函数公式为:
Figure FDA0003834534080000032
最优策略通过贝尔曼等式获得,所述最优策略公式为:
Figure FDA0003834534080000033
其中,π表示状态st映射到动作at的策略,s0为初始状态,γt表示第t步的折现系数,
Figure FDA0003834534080000034
表示累计折现奖励。
5.根据权利要求4所述基于多智能体深度强化学习的波束预测方法,其特征在于,获得当前迭代的动作、状态和奖励函数后观察下一状态st+1,将所有智能体数据保存在经验缓存池中。
6.根据权利要求5所述基于多智能体深度强化学习的波束预测方法,其特征在于,从所述经验缓存池中选取最小批尺寸的数据输入
Figure FDA0003834534080000035
计算损失函数,并更新训练参数,在所述Q网络训练中,采用所述Q网络估计动作-值函数;
所述损失函数公式为:
L(θ)=E{(yt-Q(st+1,a;θ))2}         (11)
其中,θ表示所述深度神经网络的参数;
则第t次迭代的目标输出公式为:
Figure FDA0003834534080000036
其中,θ1和θ2分别表示两层所述深度神经网络的不同参数。
7.根据权利要求6所述基于多智能体深度强化学习的波束预测方法,其特征在于,基于所述损失函数,利用随机梯度下降法来更新权值θ,所述损失函数的梯度表示为:
Figure FDA0003834534080000037
其中,L(θ)为所述损失函数。
8.根据权利要求7所述基于多智能体深度强化学习的波束预测方法,其特征在于,在下一迭代中选取动作at+1,并和状态、训练参数共同作为输入根据式(9)求解估计动作-值函数,同时依据式(10)和功率约束条件
Figure FDA0003834534080000041
其中Pthreshold表示智能体功率阈值,超过该值表明移动用户需要进行切换,得到最优策略和式(13)后可得到权值并返回所述深度神经网络进行更新。
CN202111132541.6A 2021-09-27 2021-09-27 一种基于多智能体深度强化学习的波束预测方法 Active CN113904704B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111132541.6A CN113904704B (zh) 2021-09-27 2021-09-27 一种基于多智能体深度强化学习的波束预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111132541.6A CN113904704B (zh) 2021-09-27 2021-09-27 一种基于多智能体深度强化学习的波束预测方法

Publications (2)

Publication Number Publication Date
CN113904704A CN113904704A (zh) 2022-01-07
CN113904704B true CN113904704B (zh) 2023-04-07

Family

ID=79029426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111132541.6A Active CN113904704B (zh) 2021-09-27 2021-09-27 一种基于多智能体深度强化学习的波束预测方法

Country Status (1)

Country Link
CN (1) CN113904704B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112368950A (zh) * 2018-06-28 2021-02-12 诺基亚技术有限公司 使用深度学习的多用户多输入多输出波束选择和用户配对的方法和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106899524B (zh) * 2017-03-21 2019-10-11 电子科技大学 基于信道预测和用户QoS的安全接入方法
US10638482B2 (en) * 2017-12-15 2020-04-28 Qualcomm Incorporated Methods and apparatuses for dynamic beam pair determination
US10911266B2 (en) * 2018-05-18 2021-02-02 Parallel Wireless, Inc. Machine learning for channel estimation
WO2020094630A1 (en) * 2018-11-05 2020-05-14 Nokia Solutions And Networks Oy One shot multi-user multiple-input multiple-output (mu-mimo) resource pairing using reinforcement learning based deep q network (dqn)
CN109617584B (zh) * 2019-01-08 2021-12-21 南京邮电大学 一种基于深度学习的mimo***波束成形矩阵设计方法
US11973708B2 (en) * 2019-04-16 2024-04-30 Samsung Electronics Co., Ltd. Method and apparatus for reporting channel state information
CN110417444B (zh) * 2019-07-08 2020-08-04 东南大学 一种基于深度学习的毫米波信道波束训练方法
CN111181619B (zh) * 2020-01-03 2022-05-13 东南大学 基于深度强化学习的毫米波混合波束成形设计方法
CN113411110B (zh) * 2021-06-04 2022-07-22 东南大学 一种基于深度强化学习的毫米波通信波束训练方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112368950A (zh) * 2018-06-28 2021-02-12 诺基亚技术有限公司 使用深度学习的多用户多输入多输出波束选择和用户配对的方法和装置

Also Published As

Publication number Publication date
CN113904704A (zh) 2022-01-07

Similar Documents

Publication Publication Date Title
US10014918B2 (en) Systems and methods for beam selection for hybrid beamforming
Ge et al. Deep reinforcement learning for distributed dynamic MISO downlink-beamforming coordination
CN113411110B (zh) 一种基于深度强化学习的毫米波通信波束训练方法
KR101507088B1 (ko) 다중 입출력 무선통신 시스템에서 상향링크 빔 성형 및 공간분할 다중 접속 장치 및 방법
JP5649661B2 (ja) マルチセルマルチユーザ基盤のプリコーディング方法及び通信装置
Kim et al. Multi-IRS-assisted multi-cell uplink MIMO communications under imperfect CSI: A deep reinforcement learning approach
Shen et al. Design and implementation for deep learning based adjustable beamforming training for millimeter wave communication systems
JP2007159130A (ja) 分散型アンテナ移動通信システムにおける上り受信方法及び装置
US6734822B2 (en) Transmission system and method on a forward link
CN113438002A (zh) 基于lstm的模拟波束切换方法、装置、设备及介质
CN115412134A (zh) 基于离线强化学习的以用户为中心的无蜂窝大规模mimo功率分配方法
CN114302487B (zh) 基于自适应粒子群功率分配的能效优化方法、装置及设备
Li et al. Radio resource management for cellular-connected UAV: a learning approach
US20220368393A1 (en) Method of performing beam training based on reinforcement learning and wireless communication device performing the same
CN113437999B (zh) 一种抑制毫米波通信***中波束漂移效应的自适应波束宽度调制方法
JP2024512358A (ja) 情報報告方法、装置、第1機器及び第2機器
KR101242177B1 (ko) 다중 입력 단일 출력에서 빔포밍 설계 장치 및 방법
CN114268348A (zh) 一种基于深度强化学习的无蜂窝大规模mimo功率分配方法
CN113904704B (zh) 一种基于多智能体深度强化学习的波束预测方法
Eskandari et al. Statistical CSI-based Beamforming for RIS-Aided Multiuser MISO Systems using Deep Reinforcement Learning
Li et al. MU-MIMO downlink scheduling based on users' correlation and fairness
Akbarpour-Kasgari et al. Deep Reinforcement Learning in mmW-NOMA: Joint Power Allocation and Hybrid Beamforming
CN113472472B (zh) 基于分布式强化学习的多小区协同波束赋形方法
Feng et al. Multi-robot enhanced intelligent multi-user millimeter-wave mimo systems under uncertain environment
Dahal et al. Multi-agent Deep Reinforcement Learning for Multi-Cell Interference Mitigation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant