CN113904704B - 一种基于多智能体深度强化学习的波束预测方法 - Google Patents
一种基于多智能体深度强化学习的波束预测方法 Download PDFInfo
- Publication number
- CN113904704B CN113904704B CN202111132541.6A CN202111132541A CN113904704B CN 113904704 B CN113904704 B CN 113904704B CN 202111132541 A CN202111132541 A CN 202111132541A CN 113904704 B CN113904704 B CN 113904704B
- Authority
- CN
- China
- Prior art keywords
- agent
- formula
- action
- channel
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/02—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
- H04B7/04—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
- H04B7/0413—MIMO systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/02—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
- H04B7/04—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
- H04B7/0413—MIMO systems
- H04B7/0426—Power distribution
- H04B7/043—Power distribution using best eigenmode, e.g. beam forming or beam steering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/02—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
- H04B7/04—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
- H04B7/0413—MIMO systems
- H04B7/0456—Selection of precoding matrices or codebooks, e.g. using matrices antenna weighting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Power Engineering (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本公开实施例是关于一种基于多智能体深度强化学习的波束预测方法。该基于多智能体深度强化学习的波束预测方法包括:深度神经网络利用瞬时信道状态信息学习无线信道的关键传播特性;Q网络利用所述深度神经网络输出估计动作‑值函数,计算网络参数梯度,并让每个智能体依次做出下一次波束预测;利用所述Q网络输出参数更新所述深度神经网络权值,实现对动态用户的精准波束预测。本公开实施例利用深度神经网络获取多个能反映信道特征的关键值,使多天线(MIMO)***的波束预测更符合动态用户信道的时变特性,提高波束切换成功率,减小大规模多天线(MIMO)***的反馈开销,从而提高和速率。
Description
技术领域
本公开实施例涉及无线通讯技术领域,尤其涉及一种基于多智能体深度强化学习的波束预测方法。
背景技术
大规模多天线(Massive Multi-Input Multi-Output,MIMO)***作为5G移动通信的关键技术之一,通过部署大规模天线阵列获得高信道增益,并结合精准波束成形等技术实现多用户空间复用以获得干扰抑制增益,使得小区总频谱效率和边缘用户的频谱效率得到了极大的提升。
5G将频谱扩展到毫米波波段,在带来了极宽的带宽同时波束在大气中的传播衰减十分严重;毫米波***的用户高速移动时受多普勒效应影响波束切换更加频繁,切换失败率更高。传统的波束预测方法通常为求解一个基于模型的动态规划问题,这类问题通常为NP-hard(non-deterministic polynomial-time hard),计算复杂度高且易陷入局部最优解。另外,用户在移动过程中,信道难以通过单一模型来建模,使用传统波束预测算法会导致预测误差较大,通信质量下降。
因此,有必要改善上述相关技术方案中存在的一个或者多个问题。
需要注意的是,本部分旨在为权利要求书中陈述的本公开的技术方案提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
发明内容
本公开实施例的目的在于提供一种基于多智能体深度强化学习的波束预测方法,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本公开实施例提供的一种基于多智能体深度强化学习的波束预测方法,该方法包括:
深度神经网络利用瞬时信道状态信息学习无线信道的关键传播特性;
Q网络利用所述深度神经网络输出估计动作-值函数,计算网络参数梯度,并让每个智能体依次做出下一次波束预测;
利用所述Q网络输出参数更新所述深度神经网络权值,实现对动态用户的精准波束预测。
本公开的一实施例中,所述瞬时信道状态信息获取为所述智能体根据数字基带参数获取角度信息,并构建信道样本;
所述智能体设置M根天线,同时与K个单天线用户进行通信,所述智能体与所述用户间的信道为:
H=[h1,h2,...hK] (1)
其中,hk,k∈{1,2,...,K}为所述用户与所述智能体间的信道,所述用户与所述智能体间的信道公式为:
所述智能体与所述用户k之间的空间信道向量gk公式为:
用户接收信号公式为:
y=HGPq+n (5)
本公开的一实施例中,将信道矩阵和波束索引矩阵设置为同等大小,同时设置适当的学习率,并用随机参数初始化动作-值函数和概率矩阵,每个所述智能体的初始化参数都是相互独立的。
本公开的一实施例中,根据目标函数寻得当前迭代的最优动作,以概率1-ε执行,随机选择一个动作at,并以概率ε执行,执行动作后得到奖励函数rt,预测准确的波束会在每次迭代过程中强化动作;
所述奖励函数为最大化用户和速率,公式为:
其中,σ2表示噪声的功率;
所述智能体的转移概率ε公式为:
本公开的一实施例中,所述动作-值函数为所述智能体在状态s时采取动作a的奖励;
所述值函数公式为:
则所述动作-值函数公式为:
最优策略通过贝尔曼等式获得,所述最优策略公式为:
本公开的一实施例中,获得当前迭代的动作、状态和奖励函数后观察下一状态st+1,将所有智能体数据保存在经验缓存池中。
所述损失函数公式为:
L(θ)=E{(yt-Q(st+1,a;θ))2} (11)
其中,θ表示所述深度神经网络的参数;
则第t次迭代的目标输出公式为:
其中,θ1和θ2分别表示两层所述深度神经网络的不同参数。
本公开的一实施例中,基于所述损失函数,利用随机梯度下降法来更新权值θ,所述损失函数的梯度表示为:
其中,L(θ)为所述损失函数。
本公开的一实施例中,在下一迭代中选取动作at+1,并和状态、训练参数共同作为输入根据式(9)求解估计动作-值函数,同时依据式(10)和功率约束条件其中Pthreshold表示智能体功率阈值,超过该值表明移动用户需要进行切换,得到最优策略(动作-值映射)和式(13)后可得到权值并返回所述深度神经网络进行更新。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开的实施例中,通过上述方法,利用深度神经网络获取多个能反映信道特征的关键值,使多天线(MIMO)***的波束预测更符合动态用户信道的时变特性,提高波束切换成功率,减小大规模多天线(MIMO)***的反馈开销,从而提高和速率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开示例性实施例中基于多智能体深度强化学习流程图;
图2示出本公开示例性实施例中动态用户波束预测示意图;
图3示出本公开示例性实施例中基于多智能体深度强化学习示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开实施例的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
本示例实施方式中首先提供了一种基于多智能体深度强化学习的波束预测方法,参考图1中所示,该方法可以包括:步骤S101~步骤S103。
步骤S101:深度神经网络利用瞬时信道状态信息学习无线信道的关键传播特性;
步骤S102:Q网络利用所述深度神经网络输出估计动作-值函数,计算网络参数梯度,并让每个智能体依次做出下一次波束预测;
步骤S103:利用所述Q网络输出参数更新所述深度神经网络权值,实现对动态用户的精准波束预测。
通过上述方法,利用深度神经网络获取多个能反映信道特征的关键值,使多天线(MIMO)***的波束预测更符合动态用户信道的时变特性,提高波束切换成功率,减小大规模多天线(MIMO)***的反馈开销,从而提高和速率。
下面,将参考图1至图3对本示例实施方式中的上述基于多智能体深度强化学习的波束预测方法的各个步骤进行更详细的说明。
在步骤S101中,深度神经网络利用瞬时信道状态信息学习无线信道的关键传播特性;
考虑大规模MIMO***的下行通信,配备M根天线的基站(BS)同时与K个单天线用户进行通信。在二维平面内,基站与用户间的信道可以表示为:
H=[h1,h2,...hK] (1)
其中,hk,k∈{1,2,...,K}为所述用户与所述智能体间的信道,所述用户与所述智能体间的信道公式为:
所述智能体与所述用户k之间的空间信道向量gk公式为:
y=HGPq+n (5)
其中,G为波束选择矩阵,所述波束选择矩阵G元素为0或1,是具有独立同分布(i.i.d)的加性高斯白噪声,H为波束信道矩阵,P为预编码矩阵,且||P||2=1,q为智能体向用户发送的下行信号,接收信号功率为||y||2。
步骤S102中,Q网络利用所述深度神经网络输出估计动作-值函数,计算网络参数梯度,并让每个智能体依次做出下一次波束预测;
具体的,将信道矩阵和波束索引矩阵设置为同等大小,同时设置适当的学习率,并用随机参数初始化动作-值函数Qπ(s,a)和概率矩阵,每个基站的初始化参数都是相互独立的;对于多智能体深度强化学习,本发明视基站为智能体,其状态用st表示,状态空间S可以表示为波束信道矩阵H和波束索引矩阵组成的张量并用1或0分别表示信道的好坏。智能体的动作at为选择波束的过程,动作空间A可以表示为在波束选择矩阵中选择具有最大接收功率的波束,并且每次迭代时最多只选择一个波束。
根据目标函数寻得当前迭代的最优工作,以概率at执行,随机选择一个动作at,并以概率ε执行。执行动作后得到奖励函数rt,预测准确的波束会在每次迭代过程中强化动作。
奖励函数rt为最大化用户和速率,公式为:
其中,j表示与第k个用户之外的其他用户索引,σ2表示噪声的功率;
所述智能体的转移概率ε公式为:
所述动作-值函数为所述智能体在状态s时采取动作a的奖励;
所述值函数公式为:
则所述动作-值函数公式为:
最优策略通过贝尔曼等式获得,所述最优策略公式为:
步骤S103:利用所述Q网络输出参数更新所述深度神经网络权值,实现对动态用户的精准波束预测。
具体的,先获得当前迭代的动作、状态和奖励函数后观察下一状态st+1,将所有基站数据保存在经验缓存池(Experience Buffer Replay)中;
L(θ)=E{(yt-Q(st+1,a;θ))2} (11)
其中,θ表示所述深度神经网络的参数;
则第t次迭代的目标输出公式为:
其中,θ1和θ2分别表示两层所述深度神经网络的不同参数。
基于所述损失函数L(θ),利用随机梯度下降法来更新权值θ,所述损失函数的梯度可以表示为:
然后在下一迭代中选取动作at+1,并和状态、训练参数共同作为输入根据式(9)求解估计动作-值函数,同时依据式(10)和功率约束条件其中Pthreshold表示基站功率阈值,超过该值表明移动用户需要进行切换;得到最优策略(动作-值映射)和式(13)后可得到权值并返回DNN进行更新。
通过上述方法,利用深度神经网络获取多个能反映信道特征的关键值,使多天线(MIMO)***的波束预测更符合动态用户信道的时变特性,提高波束切换成功率,减小大规模多天线(MIMO)***的反馈开销,从而提高和速率。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
Claims (8)
1.一种基于多智能体深度强化学习的波束预测方法,其特征在于,该方法包括:
深度神经网络利用瞬时信道状态信息学习无线信道的关键传播特性;
Q网络利用所述深度神经网络输出估计动作-值函数,计算网络参数梯度,并让每个智能体依次做出下一次波束预测;
利用所述Q网络输出参数更新所述深度神经网络权值,实现对动态用户的精准波束预测;
其中,所述瞬时信道状态信息获取为所述智能体根据数字基带参数获取角度信息,并构建信道样本;
所述智能体设置M根天线,同时与K个单天线用户进行通信,所述智能体与所述用户间的信道为:
H=[h1,h2,...hK] (1)
式中,hk,k∈{1,2,…,K}为所述用户与所述智能体间的信道,所述用户与所述智能体间的信道公式为:
所述智能体与所述用户k之间的空间信道向量gk公式为:
用户接收信号公式为:
y=HGPq+n (5)
2.根据权利要求1所述基于多智能体深度强化学习的波束预测方法,其特征在于,将信道矩阵和波束索引矩阵设置为同等大小,同时设置适当的学习率,并用随机参数初始化动作-值函数和概率矩阵,每个所述智能体的初始化参数都是相互独立的。
5.根据权利要求4所述基于多智能体深度强化学习的波束预测方法,其特征在于,获得当前迭代的动作、状态和奖励函数后观察下一状态st+1,将所有智能体数据保存在经验缓存池中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111132541.6A CN113904704B (zh) | 2021-09-27 | 2021-09-27 | 一种基于多智能体深度强化学习的波束预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111132541.6A CN113904704B (zh) | 2021-09-27 | 2021-09-27 | 一种基于多智能体深度强化学习的波束预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113904704A CN113904704A (zh) | 2022-01-07 |
CN113904704B true CN113904704B (zh) | 2023-04-07 |
Family
ID=79029426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111132541.6A Active CN113904704B (zh) | 2021-09-27 | 2021-09-27 | 一种基于多智能体深度强化学习的波束预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113904704B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112368950A (zh) * | 2018-06-28 | 2021-02-12 | 诺基亚技术有限公司 | 使用深度学习的多用户多输入多输出波束选择和用户配对的方法和装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106899524B (zh) * | 2017-03-21 | 2019-10-11 | 电子科技大学 | 基于信道预测和用户QoS的安全接入方法 |
US10638482B2 (en) * | 2017-12-15 | 2020-04-28 | Qualcomm Incorporated | Methods and apparatuses for dynamic beam pair determination |
US10911266B2 (en) * | 2018-05-18 | 2021-02-02 | Parallel Wireless, Inc. | Machine learning for channel estimation |
WO2020094630A1 (en) * | 2018-11-05 | 2020-05-14 | Nokia Solutions And Networks Oy | One shot multi-user multiple-input multiple-output (mu-mimo) resource pairing using reinforcement learning based deep q network (dqn) |
CN109617584B (zh) * | 2019-01-08 | 2021-12-21 | 南京邮电大学 | 一种基于深度学习的mimo***波束成形矩阵设计方法 |
US11973708B2 (en) * | 2019-04-16 | 2024-04-30 | Samsung Electronics Co., Ltd. | Method and apparatus for reporting channel state information |
CN110417444B (zh) * | 2019-07-08 | 2020-08-04 | 东南大学 | 一种基于深度学习的毫米波信道波束训练方法 |
CN111181619B (zh) * | 2020-01-03 | 2022-05-13 | 东南大学 | 基于深度强化学习的毫米波混合波束成形设计方法 |
CN113411110B (zh) * | 2021-06-04 | 2022-07-22 | 东南大学 | 一种基于深度强化学习的毫米波通信波束训练方法 |
-
2021
- 2021-09-27 CN CN202111132541.6A patent/CN113904704B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112368950A (zh) * | 2018-06-28 | 2021-02-12 | 诺基亚技术有限公司 | 使用深度学习的多用户多输入多输出波束选择和用户配对的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113904704A (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10014918B2 (en) | Systems and methods for beam selection for hybrid beamforming | |
Ge et al. | Deep reinforcement learning for distributed dynamic MISO downlink-beamforming coordination | |
CN113411110B (zh) | 一种基于深度强化学习的毫米波通信波束训练方法 | |
KR101507088B1 (ko) | 다중 입출력 무선통신 시스템에서 상향링크 빔 성형 및 공간분할 다중 접속 장치 및 방법 | |
JP5649661B2 (ja) | マルチセルマルチユーザ基盤のプリコーディング方法及び通信装置 | |
Kim et al. | Multi-IRS-assisted multi-cell uplink MIMO communications under imperfect CSI: A deep reinforcement learning approach | |
Shen et al. | Design and implementation for deep learning based adjustable beamforming training for millimeter wave communication systems | |
JP2007159130A (ja) | 分散型アンテナ移動通信システムにおける上り受信方法及び装置 | |
US6734822B2 (en) | Transmission system and method on a forward link | |
CN113438002A (zh) | 基于lstm的模拟波束切换方法、装置、设备及介质 | |
CN115412134A (zh) | 基于离线强化学习的以用户为中心的无蜂窝大规模mimo功率分配方法 | |
CN114302487B (zh) | 基于自适应粒子群功率分配的能效优化方法、装置及设备 | |
Li et al. | Radio resource management for cellular-connected UAV: a learning approach | |
US20220368393A1 (en) | Method of performing beam training based on reinforcement learning and wireless communication device performing the same | |
CN113437999B (zh) | 一种抑制毫米波通信***中波束漂移效应的自适应波束宽度调制方法 | |
JP2024512358A (ja) | 情報報告方法、装置、第1機器及び第2機器 | |
KR101242177B1 (ko) | 다중 입력 단일 출력에서 빔포밍 설계 장치 및 방법 | |
CN114268348A (zh) | 一种基于深度强化学习的无蜂窝大规模mimo功率分配方法 | |
CN113904704B (zh) | 一种基于多智能体深度强化学习的波束预测方法 | |
Eskandari et al. | Statistical CSI-based Beamforming for RIS-Aided Multiuser MISO Systems using Deep Reinforcement Learning | |
Li et al. | MU-MIMO downlink scheduling based on users' correlation and fairness | |
Akbarpour-Kasgari et al. | Deep Reinforcement Learning in mmW-NOMA: Joint Power Allocation and Hybrid Beamforming | |
CN113472472B (zh) | 基于分布式强化学习的多小区协同波束赋形方法 | |
Feng et al. | Multi-robot enhanced intelligent multi-user millimeter-wave mimo systems under uncertain environment | |
Dahal et al. | Multi-agent Deep Reinforcement Learning for Multi-Cell Interference Mitigation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |