CN113411110B - 一种基于深度强化学习的毫米波通信波束训练方法 - Google Patents

一种基于深度强化学习的毫米波通信波束训练方法 Download PDF

Info

Publication number
CN113411110B
CN113411110B CN202110623890.1A CN202110623890A CN113411110B CN 113411110 B CN113411110 B CN 113411110B CN 202110623890 A CN202110623890 A CN 202110623890A CN 113411110 B CN113411110 B CN 113411110B
Authority
CN
China
Prior art keywords
channel
time
matrix
training
millimeter wave
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110623890.1A
Other languages
English (en)
Other versions
CN113411110A (zh
Inventor
戚晨皓
姜国力
王宇杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110623890.1A priority Critical patent/CN113411110B/zh
Publication of CN113411110A publication Critical patent/CN113411110A/zh
Application granted granted Critical
Publication of CN113411110B publication Critical patent/CN113411110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0617Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal for beam forming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/08Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the receiving station
    • H04B7/0837Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the receiving station using pre-detection combining
    • H04B7/0842Weighted combining
    • H04B7/086Weighted combining using weights depending on external parameters, e.g. direction of arrival [DOA], predetermined weights or beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Variable-Direction Aerials And Aerial Arrays (AREA)
  • Radio Transmission System (AREA)

Abstract

本发明公开了一种基于深度强化学习的毫米波通信波束训练方法,该方法通过定义强化学习模型中的状态、目标、奖励等要素在波束训练这一实际问题中的具体表示来对毫米波信道进行追踪;将状态定义为图像的形式,使用卷积神经网络对强化学习中的值函数进行近似,动作定义为基于上一时刻信道最优波束组合的移动方向、距离以及波束覆盖范围的三元组形式;在设计奖励函数时,将一个时间片内有效的数据可达速率作为目标值;在神经网络的训练过程中,使用了Q学习的方法来更新网络参数;利用训练的深度Q网络进行预测,选择Q值最大的动作,该动作对应下一时刻需要测试的波束组合。

Description

一种基于深度强化学习的毫米波通信波束训练方法
技术领域
本发明涉及毫米波无线通信技术领域,特别是涉及一种基于深度强化学习的毫米波通信波束训练方法。
背景技术
随着无线通信技术的不断发展,一些频段较低的频谱资源几乎已全部被占用。为了满足通信性能的要求,获得更多的频谱资源,人们的关注点转移到频段更高的频带上,即毫米波频段。该频段是指频率在30~300GHz范围内的频带,频带内的频谱资源丰富、传输速率较高,能够满足一些带宽需求较高的应用的需要。然而由于毫米波信号的传播特性,与微波信道相比,毫米波信道的路损较高。考虑到毫米波信号的波长相比于微波信号较短,而天线的间隔与信号波长通常是正相关的,所以可以将大量的天线集中于较小的空间内形成大规模的天线阵来提高较高的增益。大规模MIMO技术与毫米波通信是互相补充的,毫米波通信解决了大规模MIMO技术的频谱资源短缺问题,同时大规模MIMO技术弥补了毫米波通信的路径损耗,因此毫米波大规模MIMO通信的应用前景十分广阔。
在现有的研究工作中,通常会在发送端和接收端均预先设定一个码本,码本中包含若干波束成形矢量(也称码字),收发端遍历码本中的码字来收发导频信号,将接收功率最大的码字组合作为正式发送和接收信号的波束成形矢量组合,该过程称为波束训练。然而,大规模天线阵列和定向窄波束的使用导致这种遍历码本的训练算法是非常耗时的。尤其是在动态的场景中,毫米波信道是不断变化的,实现频繁而精确的波束对准十分困难,到目前为止都是一个非常具有挑战性的问题。因此如果能够使波束训练的过程感知到信道环境的变化,并根据该变化及时调整训练的波束,那么将会大大减小训练的开销,节约通信***的资源。
为减少波束训练开销,文献[1]“使用自适应分层码本进行毫米波大规模MIMO同步多用户波束训练”(Chen K,Qi C,Dobre O A,et al.Simultaneous multiuser beamtraining using adaptive hierarchical codebook for mmWave massive MIMO[C]//2019 IEEE Global Communications Conference(GLOBECOM).IEEE,2019:1-6.)采用自适应的方式设计分层码本,根据上一层的波束训练结果设计当前层的码字,从而为不同用户使用相同的分层码本进行波束训练。除底层外,所设计的自适应分层码本每层只有两个码字,无论BS服务多少个用户,都只需要对所有用户同时进行两次波束训练。该项工作的难点在于码字的设计问题,因为波束训练的分层码本开始不是固定的,而是在波束训练过程中不断构建的,因此码本的构造较为复杂,增加训练的难度。
文献[2]“基于深度强化学习的毫米波通信智能波束训练”(Zhang J,Huang Y,Wang J,et al.Intelligent beam training for millimeter-wave communications viadeep reinforcement learning[C]//2019 IEEE Global CommunicationsConference.IEEE,2019:1-7.)提出了一种基于环境感知的深度强化学习波束训练算法。该算法能够感知环境的变化,从环境中学习所需的潜在概率信息,以较低的开销实现对波束的智能训练。此外,该算法不需要任何动态信道建模的先验知识,因此适用于各种复杂的场景。但是该方法只适用于接收端单天线的情况,适用范围比较小,不支持类似基站之间的毫米波通信等。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度强化学习的毫米波通信波束训练方法,该方法在波束训练中引入强化学习的框架,使训练的波束随信道的变化及时做出调整,对信道的状态进行追踪,在有效减少了波束训练开销的同时保证了波束训练的性能,解决了现有波束训练方法训练开销大、硬件复杂度及功耗大的技术问题,同时支持收发端均为多天线的通信场景。
为实现上述目的,本发明采用的方案为:
一种基于深度强化学习的毫米波通信波束训练方法,包括如下步骤:
步骤S1、构建用户端与基站端之间的毫米波通信信道模型;
步骤S2、设计用户端与基站端的码本,根据设计的码本构建最终接收信号的模型,再根据该模型对波束训练过程进行数学建模;
步骤S3、定义状态、动作和奖励在波束训练中的表示;
步骤S4、将步骤S3中定义的状态视为多通道的图像,输入至构建好的卷积神经网络中,得到状态对应的所有动作的值。
进一步的,所述步骤S1具体包括:
设置一个针对于单用户的毫米波大规模MIMO***,该***中,用户端有Nr根天线,基站端有Nt根天线,天线的排列方式均采用均匀线性阵列,所述毫米波通信信道模型建模为:
Figure GDA0003218930120000021
公式(1)中,L、αl
Figure GDA0003218930120000022
θl分别表示路径数、第l条路径的信道增益、信道的到达角和信道的离开角;定义
Figure GDA0003218930120000023
Figure GDA0003218930120000024
Θl和Ψl为空间域的到达角和离开角,均服从[0,π]内的均匀分布,dt和dr分别表示基站端和用户端阵列天线的间隔,λ为毫米波信号的波长,u(·)表示信道导向矢量;信道的导向角在相邻时间间隔内的变化量服从高斯分布,表达式为:
Figure GDA0003218930120000031
公式(2)中,θ0~u(0,π)表示t=0时刻随机的初始信道导向角,θt表示t时刻的信道导向角,
Figure GDA0003218930120000032
表示信道导向角的变化量。
进一步的,在所述步骤S2中,所述用户端与基站端的码本的表达式为:
Figure GDA0003218930120000033
Figure GDA0003218930120000034
在公式(3)和公式(4)中,
Figure GDA0003218930120000035
Figure GDA0003218930120000036
所述最终接收信号的表达式为:
Figure GDA0003218930120000037
在公式(5),P、
Figure GDA0003218930120000038
Figure GDA0003218930120000039
Figure GDA00032189301200000310
分别表示基站端的发送功率、用户端的接收码字、基站端的发送码字以及信道噪声矢量,并且‖w‖2=‖f‖2=1,|x|2=1;
因此,接收信号矩阵的表达式为:
Figure GDA00032189301200000311
在公式(6)中,
Figure GDA00032189301200000312
Figure GDA00032189301200000313
分别表示接收端和发送端的DFT码本,
Figure GDA00032189301200000314
表示信道矩阵,x、P分别表示发送的信号和信号的功率,
Figure GDA00032189301200000315
表示信道噪声矩阵,
Figure GDA00032189301200000316
表示接收信号矩阵,矩阵中第m行、第n列的元素Y(m,n)表示发送端使用码本F中的第n(n=1,2,…,Nt)个码字发送、接收端使用码本W中的第m(m=1,2,…,Nr)个码字接收所得到的信号;波束训练过程表示为以下优化问题:
Figure GDA00032189301200000317
进一步的,在所述步骤S3中,定义状态在波束训练中的表示,具体包括:
设t时刻信道矩阵为Ht,与其对应的接收信号矩阵为Yt,定义矩阵Zt为Yt的模,将连续几个时刻的接收信号强度矩阵Zt定义为一个状态St,具体表示如下:
St(i)=Zt+i-C,i=1,2,…,C (7)
公式(7)中,St是一个三维矩阵,第三维度大小为C,C表示连续时刻的数目,Zt+i-C表示在时刻t+i-C时的接收信号强度矩阵。
进一步的,在所述步骤S3中,定义动作在波束训练中的表示,具体包括:
定义所述矩阵Zt中最大元素对应的位置为
Figure GDA00032189301200000318
其中,
Figure GDA00032189301200000319
分别表示t时刻最优发射和接收波束在码本F和W中的索引;
当前时刻的最优波束组合为
Figure GDA0003218930120000041
其中,
Figure GDA0003218930120000042
Figure GDA0003218930120000043
将t时刻的动作定义为:
At=(d,o,r) (8)
在公式(8)中,d、o、r分别表示相对于t时刻最优波束位置t+1时刻波束搜索的方向、偏移量以及覆盖范围;其中,d∈D={0,1,2,3,4},有5个可取的方向:0代表不移动,1、2、3、4分别代表以it所在的位置为基点向上、下、左、右四个方向移动;o∈O={0,1,2,…,M-1},有M个可选的偏移量,偏移量定义为t+1时刻波束搜索的中心位置与it所在位置的距离;r∈R={1,2,…,N},有N个可选的半径,半径定义为以t+1时刻波束搜索的中心位置为基点的覆盖半径。
进一步的,在所述步骤S3中,定义奖励在波束训练中的表示,具体包括:
Figure GDA0003218930120000044
在公式(9)中,Bt+1表示为t时刻代理执行动作At得到下一时刻用于测试的波束组合的集合,ts表示测试一个波束组合的时间,tp表示为波束训练的一个时间步中的预编码阶段,Ts表示为波束训练的一个时间步,
Figure GDA0003218930120000045
表示为t+1时刻最优波束组合对应的数据可达速率。
进一步的,所述卷积神经网络具体包括两个卷积层、两个池化层、一个扁平层、一个全连接层以及一个输出层;在所述状态输入神经网络之前将其归一化,具体是将每个通道代表的二维图像归一化。
进一步的,使用卷积神经网络对输入的状态进行更新,将Q学习的预测值作为目标进行卷积神经网络参数的更新,利用训练好的网络进行预测,选择Q值最大的动作,使用该动作对应的波束组合簇进行测试来减小训练的开销。
一种基于深度强化学习的毫米波通信波束训练装置,所述装置包括:
波束选择模块,根据执行的动作获取接收波束集合和发送波束集合;
信道样本生成模块,用于生成随机变化的若干信道矩阵,计算每个信道矩阵的最佳收发波束组合;
接收信号矩阵模块,用于计算波束选择模块中收发波束对集合对应的接收信号强度;
状态更新模块,使用接收信号强度矩阵更新当前的状态;
最优收发波束组合确定模块,用于获取信道对应的最优收发波束组合,当执行某一动作之后,根据该动作可以得到下一时刻的波束搜索范围,用该范围内的所有波束组合进行测试,选择接收信号强度最大的波束组合作为最优波束组合;
奖励计算模块,利用得到的最优波束组合以及其他参数计算执行该动作的奖励值;
参数设置模块,用于设置神经网络的参数以及波束训练过程中其他参数;
经历存储模块,用于将波束训练过程中的经历存储到集合中;
神经网络训练模块,神经网络的输入为状态矩阵,输出为该状态对应的所有动作值,从记忆库中选取若干条经历来更新网络参数;
目标值设置模块,使用Q学习的更新策略来计算每条经历对应的目标值;
神经网络预测模块,利用已训练的网络预测输入状态对应的所有动作值,选取Q值最大的动作作为最优的动作。
本发明的有益效果是:
1、本发明在波束训练中引入强化学习的框架,使训练的波束随信道的变化及时做出调整,对信道的状态进行追踪,从而比较准确地对未知信道的最佳收发波束组合进行预测,在有效减少了波束训练开销的同时保证了波束训练的性能。
2、不同于传统的波束扫描等训练方式,在不同的信道状态下,每次测试的波束组合的数目不是固定不变的,而是动态变化的,因此有效减少了波束训练的开销。
3、在收发波束设计上,本发明仅采用窄波束,大大减少了硬件复杂度。
附图说明
图1为实施例1中神经网络的输入输出示意图;
图2为实施例1中接收信号强度矩阵的图像表示;
图3为实施例1中强化学习的状态(矩阵)示意图;
图4为实施例1中动作的具体执行过程示意图,其中,图4a表示τ时刻的接收信号强度矩阵Zτ,图4b-图4f分别表示采取不同动作
Figure GDA0003218930120000051
得到τ+1时刻的接受信号强度矩阵
Figure GDA0003218930120000052
j=1,…,5;
图5为实施例1中波束训练的时间片示意图;
图6表示为信道路径数不同时波束搜索成功率的比较示意图;
图7表示为信道路径数不同时用户可达速率的比较示意图;
图8表示为实施例1提出的波束训练方法与波束扫描、基于分层码本的波束训练方法在波束搜索成功率方面的比较示意图;
图9表示为实施例1提出的波束训练方法与波束扫描、基于分层码本的波束训练方法在用户可达速率方面的比较示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见图1-图5,本实施例提供一种基于深度强化学习的毫米波通信波束训练方法,具体包括:
考虑一个针对于单用户的毫米波大规模MIMO***,用户处有Nr根天线,基站处有Nt根天线,天线的排列方式均采用均匀线性阵列(Uniform Linear Array,ULA)形式放置。根据广泛使用的Saleh-Valenzuela模型,下行链路的毫米波信道可以建模为:
Figure GDA0003218930120000061
其中,L、αl
Figure GDA0003218930120000062
θl分别表示路径数、第l条路径的信道增益、信道的到达角和信道的离开角。通常l=1的路径为LOS径,其他路径为NLOS径。定义
Figure GDA0003218930120000063
Figure GDA0003218930120000064
Θl和Ψl为空间域的到达角和离开角,均服从[0,π]内的均匀分布。dt和dr分别表示基站端和用户端阵列天线的间隔,λ为毫米波信号的波长,一般情况下,
Figure GDA0003218930120000065
u(·)表示信道导向矢量,定义如下:
Figure GDA0003218930120000066
由于本发明中波束训练考虑的信道是时变的,因此需要对信道进行动态建模。在实际的通信环境中,信道的变化一般是随机的,本发明中采用高斯随机游走作为信道的变化形式,即信道的导向角(离开角和到达角)在相邻时间间隔内的变化量服从高斯分布,具体表示如下:
Figure GDA0003218930120000067
其中,θ0~u(0,π)表示t=0时刻随机的初始信道导向角,θt表示t时刻的信道导向角,
Figure GDA0003218930120000068
表示信道导向角的变化量。
在波束训练之前,发送端和接收端均需定义一个码本,每个码本中包含一系列的码字,每个码字表示一个波束成形向量。在本发明中,使用离散傅立叶变换(DiscreteFourier Transform,DFT)码本作为收发端的码本,DFT码本的本质是一个根据天线数目所确定的二维复数矩阵,矩阵中的每一个元素的模值是恒定的。因为构成模拟波束成形部分的移相器网络只改变发送信号的相位,不提供功率的增益,因此DFT码本非常适合用于模拟波束的训练。
将发送端和接收端的DFT码本分别定义为F和W。其中,
Figure GDA0003218930120000071
包含Nt个码字,
Figure GDA0003218930120000072
包含Nr个码字。两个码本中包含的码字均表示指向空间中不同方向的信道导向矢量,表示如下:
Figure GDA0003218930120000073
Figure GDA0003218930120000074
假设发送端使用码字f发送信号x,接收端用码字w接收信号,中间要经过信道矩阵H的传输,最终接收信号可以表示为:
Figure GDA0003218930120000075
其中,P、
Figure GDA0003218930120000076
Figure GDA0003218930120000077
Figure GDA0003218930120000078
分别表示基站的发送功率、用户端的接收码字、基站端的发送码字以及信道噪声矢量。发送和接收码字均不提供功率增益,即‖w‖2=‖f‖2=1,发送信号x具有归一化的功率,|x|2=1。
用户可达速率可以表示为:
Figure GDA0003218930120000079
在波束训练的过程中,发送端和接收端分别测试码本F和W中的每一个码字,来找到能够最佳匹配信道H的发送端波束成形向量f和接收端波束成形向量w。因此,波束训练问题可以等价为以下优化问题:
Figure GDA00032189301200000710
在波束训练时,信号的发射功率P和信道噪声的方差σ2是给定的,因此上述优化问题可以简化为:
Figure GDA00032189301200000711
然而在实际情况下,信道H通常是未知的,无法直接求解得到最优的f和w。一般的做法是通过测量接收信号y的强度值来找到f和w的最佳组合,因此波束训练过程可以表示为以下优化问题:
Figure GDA00032189301200000712
由于信道噪声η的存在,以上两个优化问题的最优解可能是不同的。如果两者相同,则表示波束训练成功,否则为失败。假定一共进行了Ntotal次波束训练,成功了Nsuc次,则波束搜索的成功率可以表示为:
Figure GDA0003218930120000081
t时刻的接收信号矩阵为:
Figure GDA0003218930120000082
其中,
Figure GDA0003218930120000083
Figure GDA0003218930120000084
分别表示接收端和发送端的DFT码本,
Figure GDA0003218930120000085
表示t时刻的信道矩阵,x、P分别表示发送的信号和信号的功率,
Figure GDA0003218930120000086
表示t时刻的信道噪声矩阵,定义接收信号强度矩阵Zt为Yt的模:
Zt(m,n)=|Yt(m,n)|,
如图2所示,在本实例中,将Zt看成一幅二维图像,图像的两个维度分别表示收发端码字的索引,图像中的每个网格对应一个收发波束组合。该图像描述了收发端使用不同的波束进行测试时对应接收信号强度的分布情况,图像中灰度值较大的像素位置对应接收信号强度高的波束组合。由于毫米波信道稀疏性的特点,图像Zt的大部分元素都接近于0,那些非零元素的位置对应了当前信道下导向角的分布,Zt中最大元素的位置对应搜索到的最优波束组合。如果能够对这些非零元素的位置进行动态追踪,那么将会及时感知到信道的变化情况,大大减小训练的开销。为了捕捉到动态变化的信道,我们将连续的几幅图像定义为一个状态St,即:
St(i)=Zt+i-C,i=1,2,…,C,
其中,St是一个三维矩阵,第三维度大小为C,表明一个状态矩阵St共包含C个二维矩阵Z。St中第i个二维矩阵对应t+i-C时刻的接收信号强度矩阵Zt+i-C,并且St中最后一个二维矩阵为t时刻的接收信号强度矩阵Zt。如图3所示,也可以将状态矩阵St看成一幅多通道的图像,因此可以用卷积神经网络进行训练。
根据以上定义t时刻的状态矩阵St包含的最后一个二维矩阵为Zt,定义Zt中最大元素对应的位置为:
Figure GDA0003218930120000087
其中
Figure GDA0003218930120000088
分别表示t时刻最优发射和接收波束在码本F和W中的索引,因此可以得到当前时刻的最优波束组合为
Figure GDA0003218930120000089
其中
Figure GDA00032189301200000810
Figure GDA00032189301200000811
为了得到t+1时刻的状态矩阵St+1,将t时刻的动作定义为一个三元组:
At=(d,o,r),
其中,d、o、r分别表示相对于t时刻最优波束位置t+1时刻波束搜索的方向、偏移量以及覆盖范围。d∈D={0,1,2,3,4},有5个可取的方向:0代表不移动,1、2、3、4分别代表以it所在的位置为基点向上、下、左、右四个方向移动。o∈O={0,1,2,…,M-1},有M个可选的偏移量,偏移量定义为t+1时刻波束搜索的中心位置与it所在位置的距离。r∈R={1,2,…,N},有N个可选的半径,半径定义为以t+1时刻波束搜索的中心位置为基点的覆盖半径,例如r=1表示波束搜索的覆盖范围为边长为3的正方形区域。
动作的具体执行过程如图4所示,每幅图像均表示某一时刻的接收信号强度矩阵Z,图像中每个像素点的灰度值均表示用对应波束组合进行测试得到的接收信号的模值。其中着色网格的位置对应需要训练的波束组合,灰度值大于0;其他位置的波束组合则无需进行波束的训练,灰度值置为0。假设图(a)表示τ时刻的接收信号强度矩阵Zτ,深色网格位置表示经过波束训练确定的最优波束组合的索引iτ=(4,5),图(b-f)分别表示采取不同动作
Figure GDA0003218930120000091
得到τ+1时刻的接受信号强度矩阵
Figure GDA0003218930120000092
例如图(b)表示采取动作
Figure GDA0003218930120000093
得到的τ+1时刻的接受信号强度矩阵
Figure GDA0003218930120000094
根据以上动作的定义,波束训练的覆盖范围为r=1(边长为3)的正方形区域,该区域的中心位置(深色网格)就是上一时刻最优波束组合索引iτ的位置,图(c-f)也是类似得到的。
假定t时刻代理执行动作At得到下一时刻用于测试的波束组合的集合为
Figure GDA0003218930120000095
Figure GDA0003218930120000096
其中I表示用于训练的波束组合的总数,将集合Bt+1中包含的元素作为收发波束逐一测试,由此得到t+1时刻的接受信号强度矩阵Zt+1,根据Zt+1可以构造t+1时刻的状态矩阵St+1
Figure GDA0003218930120000097
选取矩阵Zt+1最大值
Figure GDA0003218930120000098
对应的波束组合作为t+1时刻的最优波束组合
Figure GDA0003218930120000099
然后再执行动作At+1以此类推。
综合考虑到信道可达速率和波束训练的开销,本发明中将奖励函数定义为如下形式:
Figure GDA00032189301200000910
其中,Ts表示一个时间片的大小,td表示一个时间片内有效的数据传输时间,
Figure GDA00032189301200000911
定义为t+1时刻最优波束组合对应的数据可达速率:
Figure GDA00032189301200000912
奖励函数可以理解为在一个时间片内有效的数据可达速率(因为一个时间片除了传输数据还要进行波束训练和预编码)。
图5为时间片的定义,由图可知td=Ts-tb-tp=Ts-Its-tp,其中I=|Bt+1|表示执行动作At得到的t+1时刻用于测试的波束集合大小,ts表示测试一个波束组合的时间。
因此,最终可以将奖励函数Rt表示成如下形式:
Figure GDA0003218930120000101
因为状态S可以表示为一幅多通道的图像,所以本发明使用卷积神经网络来进行处理。网络的结构如图1所示,其中包含两个卷积层、两个池化层、一个扁平层、一个全连接层以及一个输出层。卷积层是经过卷积操作的结果,池化层是采样操作的结果,扁平层是将多维矩阵转化为一维的向量。网络的输入为状态矩阵St,输出为该状态对应的所有动作值Q(St,At),输出层的维度为动作空间A的大小。
为了加快模型的收敛,在St输入神经网络之前需要将其归一化,即将每个通道代表的二维图像归一化:
Figure GDA0003218930120000102
其中,max(St(i))表示St的第i个二维图像的最大灰度值。
基于深度强化学习的波束训练主要包括以下步骤:
步骤1、输入动作空间A,折扣因子γ,学习率α。
步骤2、初始化DQN参数,具体包括:随机初始化预测目标神经网络参数θ,设置目标神经网络参数θ′=θ,设置记忆库的大小。
步骤3、进行波束训练,首先设置训练的episode的总数以及每个episode包含的时间步数T。在每个episode的开始阶段,随机产生C个时变信道Ht,以波束扫描的方式初始化起始状态
Figure GDA0003218930120000103
在每个时间步中依次执行以下步骤:
步骤3.1、假设t时刻的状态为St,根据ε-greey策略从动作空间A中选择动作At
步骤3.2、执行动作At,确定t+1时刻用于测试波束组合的集合
Figure GDA0003218930120000104
计算该集合中所有元素对应的接收信号强度
Figure GDA0003218930120000105
未测试的波束组合对应的接收信号置为0,由此得到接收信号强度矩阵Zt+1
步骤3.3、更新t+1时刻的状态St+1
步骤3.4、选取矩阵Zt+1最大值
Figure GDA0003218930120000106
对应的波束组合作为t+1时刻的最优波束组合
Figure GDA0003218930120000107
步骤3.5、计算最优波束组合
Figure GDA0003218930120000108
对应的用户可达速率
Figure GDA0003218930120000109
步骤3.6、计算奖励函数Rt
步骤4、更新DQN参数,主要包括以下步骤:
步骤4.1、将此次经历Et=(St,At,Rt,St+1)存入记忆库中。
步骤4.2、从记忆库中随机选取N条经历E={sj,aj,rj,s′j},j=1,2,…,N,设置每条经历对应的目标值:
Figure GDA0003218930120000111
步骤4.3、对参数θ进行随机梯度下降,进行神经网络的训练。
步骤4.4、经过T个时间步,更新目标神经网络的参数θ′=θ。
步骤5、输出Q网络Q(s,a;θ)
具体的说,在上述训练步骤中:
t时刻信道Ht实际对应的最优波束组合是如下优化问题的最优解:
Figure GDA0003218930120000112
上述问题实际上就是在码本F和W中找到是目标函数值最大的波束组合,假设问题的最优解(实际最优波束组合)为
Figure GDA0003218930120000113
根据之前定义经过波束训练得到的最优波束组合为
Figure GDA0003218930120000114
如果
Figure GDA0003218930120000115
表示此次波束训练成功,否则为失败。因为信道的变化是随机的,在某些时间点可能无法准确地捕捉到信道的状态,导致波束训练的失败。在这种情况下,已经无法追踪到信道的位置,如果仍然使用这种样本来更新DQN,那么会导致误差的不断传播,造成算法的失效,因此需要重新定义St
St(C)=WHHtF,
其中,W、F分别表示收发端的DFT码本。根据以上定义,t时刻的状态矩阵St中只有最后一个二维矩阵发生变化,其他位置不变。因为之前St的最后一个二维矩阵为t时刻的接收信号强度矩阵Zt,而
Figure GDA0003218930120000116
正是根据Zt得出的,当
Figure GDA0003218930120000117
时,需要将Zt从At中剔除,使算法重新定位到当前信道的状态下。
实施例2
本实施例在实施例1的基础之上,提供一种基于深度强化学习的毫米波通信波束训练装置,装置包括:
波束选择模块,根据t时刻执行的动作At得到下一时刻用于测试的波束组合的集合为
Figure GDA0003218930120000118
其中I表示用于训练的波束组合的总数,
Figure GDA0003218930120000119
表示第i个收发波束组合。
信道样本生成模块,根据信道导向角的随机变化生成若干时变的信道矩阵Ht,用波束扫描的方法确定每个信道矩阵Ht对应的最佳收发波束组合
Figure GDA00032189301200001110
接收信号矩阵模块,用集合Bt+1中的波束依次进行测试,得到每个波束组合
Figure GDA00032189301200001111
对应的接受信号强度zt+1,其他未测试的波束组合对应的接收信号置为0,由此得到接收信号强度的矩阵Zt+1
状态更新模块,根据t+1时刻的接受信号强度矩阵Zt+1构造t+1时刻的状态矩阵St+1,更新当前的状态。
最优收发波束组合确定模块,选取矩阵Zt+1最大值
Figure GDA0003218930120000121
对应的波束组合作为t+1时刻的最优波束组合
Figure GDA0003218930120000122
其中
Figure GDA0003218930120000123
为最佳发送波束,
Figure GDA0003218930120000124
为最佳接收波束(经过波束训练得到的)。
奖励计算模块,利用得到的最优波束组合
Figure GDA0003218930120000125
发送信号功率P以及信道噪声方差σ2计算执行动作At的奖励值。
参数设置模块,用于设置神经网络的参数以及波束训练过程中其他参数等。
经历存储模块,用于将波束训练过程中的经历Et=(St,At,Rt,St+1)存入记忆库中。
神经网络训练模块,神经网络的输入为状态矩阵St,输出为该状态对应的所有动作值Q(St,At),从记忆库中选取若干条经历E={sj,aj,rj,s′j},j=1,2,…,N来更新预测神经网络参数θ。
目标值设置模块,使用Q学习的更新策略来计算每条经历对应的目标值:
Figure GDA0003218930120000126
神经网络预测模块,利用已训练的网络预测输入状态St对应的所有动作值Q(St,a),a∈A,选取Q值最大的动作At=argmaxa∈A Q(St,a)作为最优的动作。
下面结合仿真条件与结果对本发明做进一步的描述:
设置状态图像St的深度C=6,动作的三元组集合D={0,1,2,3,4},O={2,4},R={1,3},时间片大小Ts=20ms,训练一个波束组合的时间ts=0.1ms,预编码的时间tp=2ms,学***的作用是将三维的矩阵转化为一维向量,全连接层包括128个神经元,输出层的维度对应动作空间的大小。
考虑一个单用户毫米波大规模MIMO通信***的下行链路,基站端天线数目Nt=16,用户端天线数目Nr=16,天线阵列均采用ULA形式放置。假设毫米波信号的传播路径数目L=3,LOS径信道增益
Figure GDA0003218930120000127
即服从方差为1,均值为0的复高斯分布;两条NLOS径信道增益
Figure GDA0003218930120000128
即服从方差为0.01,均值为0的复高斯分布。为了便于处理,假定信道噪声的方差σ2=1,信道导向角的变化量
Figure GDA0003218930120000131
发送信号的功率P=1,发送的信号x=1。图6-图7为考虑毫米波信道多条传播途径的基于DQN的波束训练的仿真结果。从图中可以看出,随着接受信噪比的增加,无论是波束搜索的成功率还是可达速率都呈现出不断增大的趋势。当考虑NLOS路径增加时,信道的状态变化更加复杂,相应的波束搜索成功率和可达速率都有一定程度的下降,但是下降的程度较小。说明了毫米波信道的多径效应对于算法的影响较小,基于深度强化学习的波束训练算法在多径场景下仍然保持了较高的性能。
考虑一个单用户毫米波大规模MIMO通信***的下行链路,基站端和用户端天线数目Nt=Nr=16,天线阵列均采用ULA形式放置。只考虑毫米波信道的LOS径,信道增益
Figure GDA0003218930120000132
信道噪声的方差σ2=1,信道导向角的变化量
Figure GDA0003218930120000133
发送信号的功率P=1,发送的信号x=1。分层码本采用文献[1]中的码本构造方式,根据上一层的波束训练结果来构造当前层的码字,波束扫描使用的是DFT码本。图8-图9比较了本发明提出的基于DQN的波束训练算法(Beam training based on DQN,BT-DQN)与波束扫描(Beam sweeping,BS)、基于分层码本的波束训练算法(Beam training based on hierarchical codebook,BT-HC)的性能。从图8可以看出,在三种波束训练方案中,不同信噪比下BS的成功率都是最高的。在低信噪比和高信噪比区域BT-DQN的搜索成功率与BT-HC接近,略高于BT-HC;在中间区域BT-DQN的成功率要高于BT-HC。从图9中可以看出,在不同信噪比情况下,BS的可达速率仍然是最高的,BT-DQN次之,BT-HC最低。
尽管BS的搜索成功率和可达速率在三者中都是最高的,但是它每次都需要训练更多的波束,花费更多的时间,因此开销更大。表1对比了三种不同波束训练方案的开销,其中假定训练一个波束组合的时间为ts,一次波束训练的时间为t。从表中可以看出,BS的开销是BT-HC开销的10倍还要多,搜索成功率和可达速率的提高是以巨大的开销为代价的。BT-DQN的平均开销相比BT-HC要低,减少了21%左右。
表1
算法名称 平均开销(t/t<sub>s</sub>)
波束扫描(BS) 256
基于分层码本的波束训练(BT-HC) 24
基于DQN的波束训练(BT-DQN) 19
根据以上的仿真结果,本发明提出的波束训练方案及装置在动态的信道环境下,波束搜索的成功率和可达速率均高于基于码本的波束训练方案,并且训练的开销也较小。虽然性能不如波束扫描的方式,但是波束扫描需要巨大的训练开销,以此来换取高成功率和可达速率在大多数情况下是得不偿失的。因此在时变信道的场景下,本发明提出的基于深度Q网络的波束训练方案能够在保证较高性能的前提下,大大降低波束训练的开销。
本发明未详述之处,均为本领域技术人员的公知技术。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (4)

1.一种基于深度强化学习的毫米波通信波束训练方法,其特征在于,包括如下步骤:
步骤S1、构建用户端与基站端之间的毫米波通信信道模型;
步骤S2、设计用户端与基站端的码本,根据设计的码本构建最终接收信号的模型,再根据该模型对波束训练过程进行数学建模;
步骤S3、定义状态、动作和奖励在波束训练中的表示;
在所述步骤S3中,定义状态在波束训练中的表示,具体包括:
设t时刻信道矩阵为Ht,与其对应的接收信号矩阵为Yt,定义矩阵Zt为Yt的模,将连续几个时刻的接收信号强度矩阵Zt定义为一个状态St,具体表示如下:
St(i)=Zt+i-C,i=1,2,…,C (1)
公式(1)中,St是一个三维矩阵,第三维度大小为C,C表示连续时刻的数目,Zt+i-C表示在时刻t+i-C时的接收信号强度矩阵;
定义动作在波束训练中的表示,具体包括:
定义所述矩阵Zt中最大元素对应的位置为
Figure FDA0003653426830000011
其中,
Figure FDA0003653426830000012
分别表示t时刻最优发射和接收波束在码本F和W中的索引;
当前时刻的最优波束组合为
Figure FDA0003653426830000013
其中,
Figure FDA0003653426830000014
Figure FDA0003653426830000015
将t时刻的动作定义为:
At=(d,o,r) (2)
在公式(2)中,d、o、r分别表示相对于t时刻最优波束位置t+1时刻波束搜索的方向、偏移量以及覆盖范围;其中,d∈D={0,1,2,3,4},有5个可取的方向:0代表不移动,1、2、3、4分别代表以it所在的位置为基点向上、下、左、右四个方向移动;o∈O={0,1,2,…,M-1},有M个可选的偏移量,偏移量定义为t+1时刻波束搜索的中心位置与it所在位置的距离;r∈R={1,2,…,N},有N个可选的半径,半径定义为以t+1时刻波束搜索的中心位置为基点的覆盖半径;
定义奖励在波束训练中的表示,具体包括:
Figure FDA0003653426830000016
在公式(3)中,Bt+1表示为t时刻代理执行动作At得到下一时刻用于测试的波束组合的集合,ts表示测试一个波束组合的时间,tp表示为波束训练的一个时间步中的预编码阶段,Ts表示为波束训练的一个时间步,
Figure FDA0003653426830000017
表示为t+1时刻最优波束组合对应的数据可达速率;
步骤S4、将步骤S3中定义的状态视为多通道的图像,输入至构建好的卷积神经网络中,得到状态对应的所有动作的值;
其中,使用卷积神经网络对输入的状态进行更新,将Q学习的预测值作为目标进行卷积神经网络参数的更新,利用训练好的网络进行预测,选择Q值最大的动作,使用该动作对应的波束组合簇进行测试来减小训练的开销。
2.根据权利要求1所述一种基于深度强化学习的毫米波通信波束训练方法,其特征在于,所述步骤S1具体包括:
设置一个针对于单用户的毫米波MIMO通信***,该***中,用户端有Nr根天线,基站端有Nt根天线,天线的排列方式均采用均匀线性阵列,所述毫米波通信信道模型建模为:
Figure FDA0003653426830000021
公式(4)中,L、αl
Figure FDA0003653426830000022
θl分别表示路径数、第l条路径的信道增益、信道的到达角和信道的离开角;定义
Figure FDA0003653426830000023
Θl和Ψl为空间域的到达角和离开角,均服从[0,π]内的均匀分布,dt和dr分别表示基站端和用户端阵列天线的间隔,λ为毫米波信号的波长,u(·)表示信道导向矢量;信道的导向角在相邻时间间隔内的变化量服从高斯分布,表达式为:
Figure FDA0003653426830000024
公式(5)中,θ0~u(0,π)表示t=0时刻随机的初始信道导向角,θt表示t时刻的信道导向角,
Figure FDA0003653426830000025
表示信道导向角的变化量。
3.根据权利要求1所述一种基于深度强化学习的毫米波通信波束训练方法,其特征在于,在所述步骤S2中,所述用户端与基站端的码本的表达式为:
Figure FDA0003653426830000026
Figure FDA0003653426830000027
在公式(6)和公式(7)中,
Figure FDA0003653426830000028
所述最终接收信号的表达式为:
Figure FDA0003653426830000029
在公式(8),P、
Figure FDA00036534268300000210
分别表示基站端的发送功率、用户端的接收码字、基站端的发送码字以及信道噪声矢量,并且||w||2=||f||2=1,|x|2=1;
因此,接收信号矩阵的表达式为:
Figure FDA0003653426830000031
在公式(9)中,
Figure FDA0003653426830000032
分别表示接收端和发送端的DFT码本,
Figure FDA0003653426830000033
表示信道矩阵,x、P分别表示发送的信号和信号的功率,
Figure FDA0003653426830000034
Figure FDA0003653426830000035
表示信道噪声矩阵,
Figure FDA0003653426830000036
表示接收信号矩阵,矩阵中第m行、第n列的元素Y(m,n)表示发送端使用码本F中的第n(n=1,2,…,Nt)个码字发送、接收端使用码本W中的第m(m=1,2,…,Nr)个码字接收所得到的信号;波束训练过程表示为以下优化问题:
Figure FDA0003653426830000037
4.根据权利要求3所述一种基于深度强化学***层、一个全连接层以及一个输出层;在所述状态输入神经网络之前将其归一化,具体是将每个通道代表的二维图像归一化。
CN202110623890.1A 2021-06-04 2021-06-04 一种基于深度强化学习的毫米波通信波束训练方法 Active CN113411110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110623890.1A CN113411110B (zh) 2021-06-04 2021-06-04 一种基于深度强化学习的毫米波通信波束训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110623890.1A CN113411110B (zh) 2021-06-04 2021-06-04 一种基于深度强化学习的毫米波通信波束训练方法

Publications (2)

Publication Number Publication Date
CN113411110A CN113411110A (zh) 2021-09-17
CN113411110B true CN113411110B (zh) 2022-07-22

Family

ID=77676276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110623890.1A Active CN113411110B (zh) 2021-06-04 2021-06-04 一种基于深度强化学习的毫米波通信波束训练方法

Country Status (1)

Country Link
CN (1) CN113411110B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113904704B (zh) * 2021-09-27 2023-04-07 西安邮电大学 一种基于多智能体深度强化学习的波束预测方法
WO2023071760A1 (zh) * 2021-10-29 2023-05-04 中兴通讯股份有限公司 波束域的划分方法及装置、存储介质及电子装置
CN114021987A (zh) * 2021-11-08 2022-02-08 深圳供电局有限公司 微网能量调度策略确定方法、装置、设备及存储介质
CN114567525B (zh) * 2022-01-14 2023-07-28 北京邮电大学 一种信道估计方法及装置
CN114499605B (zh) * 2022-02-25 2023-07-04 北京京东方传感技术有限公司 信号传输方法、装置、电子设备、存储介质
CN117035018A (zh) * 2022-04-29 2023-11-10 中兴通讯股份有限公司 波束度量参数反馈方法和接收方法及装置
CN114844538B (zh) * 2022-04-29 2023-05-05 东南大学 一种基于宽学习的毫米波mimo用户增量协作波束选择方法
CN115066019A (zh) * 2022-06-10 2022-09-16 东南大学 一种基于梯度掩膜的智能波束选择性能提升方法
CN115065981B (zh) * 2022-08-16 2022-11-01 新华三技术有限公司 一种波束追踪方法及装置
CN115426007B (zh) * 2022-08-22 2023-09-01 电子科技大学 一种基于深度卷积神经网络的智能波束对准方法
CN115580879A (zh) * 2022-09-07 2023-01-06 重庆邮电大学 一种基于联邦强化学习的毫米波网络波束管理方法
CN117692014B (zh) * 2024-02-01 2024-04-23 北京雷格讯电子股份有限公司 一种微波毫米波通信方法及通信***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110417444B (zh) * 2019-07-08 2020-08-04 东南大学 一种基于深度学习的毫米波信道波束训练方法
CN110401476B (zh) * 2019-08-05 2022-07-08 东南大学 一种基于码本的毫米波通信多用户并行波束训练方法
CN110971279B (zh) * 2019-12-30 2021-09-21 东南大学 一种毫米波通信***中智能波束训练方法及预编码***
CN112073106B (zh) * 2020-08-14 2022-04-22 清华大学 毫米波波束预测方法及装置、电子设备、可读存储介质

Also Published As

Publication number Publication date
CN113411110A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN113411110B (zh) 一种基于深度强化学习的毫米波通信波束训练方法
Taha et al. Deep reinforcement learning for intelligent reflecting surfaces: Towards standalone operation
US11626909B2 (en) Method and device for enhancing power of signal in wireless communication system using IRS
KR102154481B1 (ko) 딥러닝을 이용한 대규모 mimo 시스템의 빔포밍 장치 및 방법
CN110113088B (zh) 一种分离型数模混合天线***波达角智能化估计方法
CN113438002B (zh) 基于lstm的模拟波束切换方法、装置、设备及介质
Shen et al. Design and implementation for deep learning based adjustable beamforming training for millimeter wave communication systems
CN113193893B (zh) 毫米波大规模mimo智能混合波束成形设计方法
CN112448742A (zh) 一种非均匀量化下基于卷积神经网络的混合预编码方法
Zhang et al. Intelligent beam training for millimeter-wave communications via deep reinforcement learning
Nguyen et al. Deep unfolding hybrid beamforming designs for THz massive MIMO systems
CN113169777A (zh) 波束对准
Chafaa et al. Federated channel-beam mapping: from sub-6ghz to mmwave
Elbir et al. Cognitive learning-aided multi-antenna communications
Abdallah et al. Multi-agent deep reinforcement learning for beam codebook design in RIS-aided systems
CN113872655A (zh) 一种多播波束赋形快速计算方法
CN114844538B (zh) 一种基于宽学习的毫米波mimo用户增量协作波束选择方法
CN114866126B (zh) 智能反射面辅助毫米波***的低开销信道估计方法
CN112242860B (zh) 自适应天线分组的波束成型方法、装置及大规模mimo***
CN114598574A (zh) 一种基于深度学习的毫米波信道估计方法
CN115604824A (zh) 一种用户调度方法及***
Wang et al. New Environment Adaptation with Few Shots for OFDM Receiver and mmWave Beamforming
CN115102590B (zh) 一种毫米波波束空间混合波束赋形方法及装置
CN113904704B (zh) 一种基于多智能体深度强化学习的波束预测方法
CN117220738A (zh) 模型训练方法、多基站协作波束跟踪预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant