CN109831236B - 一种基于蒙特卡洛树搜索辅助的波束选择方法 - Google Patents

一种基于蒙特卡洛树搜索辅助的波束选择方法 Download PDF

Info

Publication number
CN109831236B
CN109831236B CN201811346507.7A CN201811346507A CN109831236B CN 109831236 B CN109831236 B CN 109831236B CN 201811346507 A CN201811346507 A CN 201811346507A CN 109831236 B CN109831236 B CN 109831236B
Authority
CN
China
Prior art keywords
vehicle
tree
node
optimal path
updating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811346507.7A
Other languages
English (en)
Other versions
CN109831236A (zh
Inventor
陈特
董彬虹
陈延涛
张存林
曹蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201811346507.7A priority Critical patent/CN109831236B/zh
Publication of CN109831236A publication Critical patent/CN109831236A/zh
Application granted granted Critical
Publication of CN109831236B publication Critical patent/CN109831236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)
  • Traffic Control Systems (AREA)

Abstract

该发明公开了一种基于蒙特卡洛树搜索辅助的波束选择方法,属于毫米波车辆通信***领域,主要涉及在毫米波基站与动态移动的车辆之间进行最优波束选择的方法。本发明针对背景技术存在的缺陷,提出了一种基于蒙特卡洛树搜索辅助的联系上下文多臂***波束选择的方法。该方法是一种在线学习方法,可以有效解决毫米波传送中性能损失与环境拥塞的问题,且适用于车辆与毫米波基站之间通信。首先,本发明利用了车辆***的上下文信息特征,有效地解决了毫米波通信性能易衰减的特性;并且,本发明所采用的蒙特卡洛树搜索方法可以很好地处理网络大数据,更加符合实际通信环境的需求。

Description

一种基于蒙特卡洛树搜索辅助的波束选择方法
技术领域
本发明属于毫米波车辆通信***领域,主要涉及在毫米波基站与动态移动的车辆之间进行最优波束选择的方法
背景技术
近年来,在关于新一代车辆-基站通信的研究中,研究人员着重关注了如何设计multi-Gbps 链路,该项技术被认为是实现5G vehicle-to-everything(V2X)通信的关键。Multi-Gbps links 能够获得高数据速率,从而能使车辆通信***能够获取准确的传感数据(例如,超高清实时地图等),这对于(半)自动驾驶车辆至关重要。目前,我们使用的4GLTE-A***(低于6GH 频段)经常会在通信期间发生拥塞状况,这会造成通信中断等障碍。目前,正在研发中的5G 通信***计划采用未开发利用的毫米波频段(10-300GHz)来克服该障碍。毫米波通信具有高频段、短波长等特性,与传统信道相比,毫米波信道存在更高的路径损耗和穿透损耗等缺陷。最新的关于车载通信***研究表明:(1)定向传输和波束成形是能弥补毫米波通信高路径损耗的解决技术方案,(2)部署高密度的基站能够弥补毫米波段(100-150米)短通信范围不够的缺点。这些解决方案保证了毫米波通信的可行性。但是,我们在毫米波通信***设计时也面对了许多新的挑战。首先,传统上6GHz以下的频段,一般采用的是全向传输的方式,但是对于毫米波频段,则需要在基站和车辆之间进行精确的波束对准。其次,毫米波通信信号由于高穿透损耗而易于堵塞(例如外部环境:建筑物,树叶)。由于上述这些缺陷限制,毫米波通信***的性能会因不准确的波束选择而受到严重阻碍。因此,如果能使基站基于其周围环境执行动态地波束选择(例如,以避免阻塞),可以有效地减少性能下降。
传统的波束方向测量方式上,我们采用实际测量的数据来分析波束选择的方向,然而这种人工测量的方式对于未来高密集部署的5G蜂窝基站来说是耗时且不可扩展的。另外,这种方法无法有效解决移动车辆和环境阻塞的情景。基于上述提到的种种缺陷,我们认为基站应该具备自主探索,学习和适应它们的环境的特点,以便能进行准确的波束选择。为此目的,我们提出在基站中利用一种基于蒙特卡洛树搜索的方法,该方法通过利用搜集的上下文信息来自主地表征其周围环境。特别地,如何将信息(例如,用户车辆的位置)与其决定结果(例如,波束选择)关联起来是做出最佳决策的关键。为了更好地应对5G网络的大规模密集化,我们将波束选择问题建模为联系上下文多臂***问题,并提出了一种用于毫米波基站的具有低复杂度的蒙特卡洛树搜索的在线学习算法。该算法能使毫米波基站能够自主地从先前的决策与可用的上下文信息的关系中学习决策,这种方式能够很好适用于动态***,例如堵塞的出现和交通方式的变化。
发明内容
本发明针对背景技术存在的缺陷,提出了一种基于蒙特卡洛树搜索辅助的联系上下文多臂***波束选择的方法。该方法是一种在线学习方法,可以有效解决毫米波传送中性能损失与环境拥塞的问题,且适用于车辆与毫米波基站之间通信。
为了方便地描述本发明的内容,首先对本发明所使用的模型进行介绍,对本发明所使用的术语进行定义。
***模型介绍:在无线电覆盖区域中,毫米波基站(mmWave Base Station,mmWBS)是终端之间进行信息传输的无线收发电台。本发明考虑在基站中配置具有选择波束能力的处理器,对毫米波基站发射的大规模天线进行定向选择。假设波束集合为F={f1,f2,...},且所有波束的大小相同。考虑在大规模MIMO下的应用场景,波束集合由大规模天线数确定,因此波束集合的大小|F|假设为无限大。毫米波基站的的波束选择可描述为可选择最优的M个波束。同时,本发明考虑车辆的流动性,用N(t)表示当前时刻基站所服务的车辆数量,其中 t=1,2,...T,为时间序号,T表示时间终点,也可表示时隙长度。本发明的目的在于最优化每个时刻的最优波束集合,使得车辆对每个时刻的选择最优的波束。
定义1、如图(1)所示,车辆的特征空间用AT表示,
Figure RE-RE-GDA0001993485490000021
其中mT表示划分出的子空间的数量,即车辆类型的数量;其中,ai表示第i类车辆的特征空间。
定义2、如图(1)所示,车辆特征空间中心点的集合可以表示为
Figure RE-RE-GDA0001993485490000022
其中vi表示第i类子车辆特征空间ai的中心,
Figure RE-RE-GDA0001993485490000023
du表示车辆上下文特征的维度。
定义3、本发明中所采用的蒙特卡洛树为二叉树,其上节点可以表示为(ai,h,n)的形式,其中ai为子车辆特征空间类型,即树的标号;h为树的深度,n表示在深度为h的所有节点中,标号为n的节点。每个节点中所包含的波束集合用
Figure RE-RE-GDA0001993485490000024
表示,并满足以下性质:
1.
Figure RE-RE-GDA0001993485490000025
2.
Figure RE-RE-GDA0001993485490000026
3.
Figure RE-RE-GDA0001993485490000031
本发明通过波束特征聚类的方式将波束放入蒙特卡洛树的各个节点中,并且每个节点中的波束特征相差不大。
为了更清晰地展示本发明所采用的蒙特卡洛树结构以及其节点上的波束聚类情况,图(2) 展示了一棵蒙特卡洛树,图(3)则表示在图(2)的树中各个节点上的波束聚类情况。
定义4、
Figure RE-RE-GDA00019934854900000313
表示截止t时刻,树节点(ai,h,n)被利用的总次数,即截止t时刻时,该节点中波束被车辆选择的总次数。
定义5、在t时刻,树节点(ai,h,n)的实际奖励可以表示为
Figure RE-RE-GDA0001993485490000032
rm表示在第m次被选中时的奖励。
定义6、考虑到多臂***自身特性—探索与利用的平衡,本发明中,第t时刻,树节点 (ai,h,n)奖励将被定义为:
Figure RE-RE-GDA0001993485490000033
其中c,l1>0,0<ρ<1,均为常数。
定义7、本发明在考虑多臂***特性的同时,考虑到在蒙特卡洛树中,父亲节点与其儿子节点的关系,故而将第t时刻,树节点(ai,h,n)的奖励上界
Figure RE-RE-GDA0001993485490000034
定义为:当节点(ai,h,n) 为叶子节点时,
Figure RE-RE-GDA0001993485490000035
Figure RE-RE-GDA0001993485490000036
时,
Figure RE-RE-GDA0001993485490000037
Emax表示当前时刻的最大奖励值;其余情况下,
Figure RE-RE-GDA0001993485490000038
定义8、在树
Figure RE-RE-GDA0001993485490000039
中进行最优路径搜索的步骤如下:
步骤1、初始化最优路径Path=(ai,0,1)以及当前最优路径的起点(ai,h,n)=(ai,0,1),
Figure RE-RE-GDA00019934854900000310
步骤2、迭代判断:若当前最优路径的起点(ai,h,n)不是叶子节点且
Figure RE-RE-GDA00019934854900000311
同时成立,执行步骤3;否则,执行步骤4。
步骤3、若
Figure RE-RE-GDA00019934854900000312
成立,则将当前最优路径的起点更新为:
(ai,h,n)=(ai,h+1,2n),并将树节点(ai,h+1,2n)添加到最优路径中,即 Path=Path∪(ai,h+1,2n),返回步骤2;若
Figure RE-RE-GDA0001993485490000041
成立,则将当前最优路径的起点更新为(ai,h,n)=(ai,h+1,2n-1),并将树节点(ai,h+1,2n-1)添加到最优路径中,即Path=Path∪(ai,h+1,2n-1),返回步骤2。
步骤4、输出最优路径Path以及当前最优路径的起点(ai,h,n),此时的起点即为最优路径上唯一的叶子节点。
为了更清晰地描述最优路径搜索,附图(4)展示了在图(2)的蒙特卡洛树上进行最优路径搜索的过程。
定义9、在树
Figure RE-RE-GDA0001993485490000042
中沿最优路径反向更新的步骤如下:
步骤1、在树
Figure RE-RE-GDA0001993485490000043
中找到其最优路径Path及最优路径上唯一的叶子节点(ai,hmax,n), hmax为当前时刻树
Figure RE-RE-GDA0001993485490000044
的最大深度。迭代次数初始化设置为1,此时迭代出发点为叶子节点 (ai,h,n)。最大迭代次数为hmax
步骤2、当迭代次数为k时,更新节点为(ai,h,n*),且
Figure RE-RE-GDA0001993485490000045
其中 h=hmax-k表示当前更新节点的深度。统计该节点中被选择的波束在t时刻被请求的次数,并将统计次数总和作为该时刻的波束选择的奖励
Figure RE-RE-GDA0001993485490000046
具体可以表示为
Figure RE-RE-GDA0001993485490000047
步骤3、更新该节点的实际平均奖励:
Figure RE-RE-GDA0001993485490000048
步骤4、更新该节点在波束选择过程中被利用的次数:
Figure RE-RE-GDA0001993485490000049
步骤5、根据定义5,更新该节点的波束选择的奖励
Figure RE-RE-GDA00019934854900000410
步骤6、根据定义6,更新该节点的波束选择奖励上界
Figure RE-RE-GDA00019934854900000411
步骤7、迭代次数k=k+1;若k>hmax,则迭代终止并结束对树
Figure RE-RE-GDA00019934854900000412
进行反向更新的过程;否则,执行步骤2。
为了更清晰地描述最优路径搜索,附图(5)展示了在图(4)的最优路径上进行回溯更新的过程。
定义10、叶子拓展的门限ηh(t)表示为
Figure RE-RE-GDA0001993485490000051
叶子节点拓展的步骤如下:
步骤1、最大迭代次数表示为|Λa(t)|,即该集合中树的数量。初始化迭代次数设置为1。
步骤2、迭代次数为i时,计算树
Figure RE-RE-GDA0001993485490000052
的树拓展门限
Figure RE-RE-GDA0001993485490000053
步骤3、若
Figure RE-RE-GDA0001993485490000054
并且
Figure RE-RE-GDA0001993485490000055
是树
Figure RE-RE-GDA0001993485490000056
的叶子节点,则对该叶子节点进行拓展,即更新树
Figure RE-RE-GDA0001993485490000057
的结构:
Figure RE-RE-GDA0001993485490000058
同时将节点
Figure RE-RE-GDA0001993485490000059
和节点
Figure RE-RE-GDA00019934854900000510
的奖励设置为:
Figure RE-RE-GDA00019934854900000511
步骤4、迭代次数更新i=i+1。
步骤5、若i>|Λa(t)|,则迭代终止;否则,执行步骤3。
本发明的技术方案如下:
该方法具体为一种采用蒙特卡洛树搜索辅助的利用联系上下文多臂***模型进行在线学习的波束选择方法。方法的核心是基于蒙特卡洛树搜索辅助的联系上下文多臂***算法,其过程主要包括最优路径搜索、最优波束选择、最优路径的回溯更新以及蒙特卡洛树的拓展四部分。在这之前,车辆上下文特征空间划分和蒙特卡洛树的初始化设置可以看作本发明方法的预处理部分。
本发明技术方案为一种基于蒙特卡洛树搜索辅助的波束选择方法,该方法包括:
步骤1、用户上下文特征空间划分;
根据所有车辆的上下文特征将车辆特征空间AT划分成mT个子车辆特征空间;
步骤2、蒙特卡洛树的初始化设置;
在t=1时,初始化mT棵二叉树
Figure RE-RE-GDA00019934854900000512
Figure RE-RE-GDA00019934854900000513
其中
Figure RE-RE-GDA00019934854900000514
表示车辆特征空间ai的二叉树,(ai,0,1)表示二叉树的根节点,(ai,1,1),(ai,1,2)表示二叉树的两个叶子节点;初始化节点(ai,1,1)和节点(ai,1,2)的奖励值,
Figure RE-RE-GDA00019934854900000515
Emax表示当前时刻的最大奖励值;
步骤3、在t时刻,先观测毫米波基站所服务的车辆数量N(t),并提取其中每一个车辆的上下文特征x(t)并将其矢量化,其中第j个车辆的上下文特征可以表示为xj(t),
Figure RE-RE-GDA0001993485490000061
du表示车辆上下文特征的维度;
步骤4、根据提取到的车辆上下文特征,每个车辆将选择自己的车辆类型;选择标准为假设第j个车辆属于车辆子特征空间ai,则有
Figure RE-RE-GDA0001993485490000062
成立,||·||2表示二范数,其中车辆特征空间中心点的集合表示为
Figure RE-RE-GDA0001993485490000063
其中vi表示第i类子车辆特征空间ai的中心,
Figure RE-RE-GDA0001993485490000064
步骤5、若第j个车辆属于车辆子特征空间ai,则在树
Figure RE-RE-GDA0001993485490000065
上做最优路径搜索,得到第j个车辆的奖励值最高的叶子节点,即该叶子节点上的所有波束将作为第t时刻第j个车辆的推荐最优波束;重复步骤5,直到遍历完当前时刻毫米波基站服务的所有车辆;
步骤6、在所有车辆的推荐最优波束中,选择M个性能最好的波束放入当前时刻波束选择的集合C,表示为C={c1(t),c2(t),...,cM(t)};
步骤7、统计每个车辆在第t时刻向波束选择集合C中每一个波束的请求次数;其中第j 个车辆向波束选择集合C的波束m的请求次数可以表示为dj,m,j=1,2,...,N(t), m=1,2,...,M;
步骤8、对第j个车辆而言,在其对应的特征空间ai的树
Figure RE-RE-GDA0001993485490000066
上,节点的奖励值以及被波束选择的次数将沿最优路径进行沿最优路径反向更新算法;重复步骤8,直到遍历完所有车辆;
步骤9、在a(t)=(ai(t)),i=1,2,...,N(t)中,
选择不重复的车辆特征子空间集合Λa(t)
步骤10、在Λa(t)中,对其中每个特征子空间ai所对应的树
Figure RE-RE-GDA0001993485490000067
是否进行叶子节点的拓展进行判断;重复步骤10,直到遍历完特征子空间Λa(t)上所有的树;
步骤11、返回步骤3,t=t+1。
进一步的,所述步骤5中最优路径搜索的步骤如下:
步骤5.1、初始化最优路径Path=(ai,0,1)以及当前最优路径的起点(ai,h,n)=(ai,0,1),
Figure RE-RE-GDA0001993485490000071
步骤5.2、迭代判断:若当前最优路径的起点(ai,h,n)不是叶子节点且
Figure RE-RE-GDA0001993485490000072
同时成立,执行步骤5.3;否则,执行步骤5.4;
步骤5.3、若
Figure RE-RE-GDA0001993485490000073
成立,则将当前最优路径的起点更新为:
(ai,h,n)=(ai,h+1,2n),并将树节点(ai,h+1,2n)添加到最优路径中,即 Path=Path∪(ai,h+1,2n),返回步骤5.2;若
Figure RE-RE-GDA0001993485490000074
成立,则将当前最优路径的起点更新为(ai,h,n)=(ai,h+1,2n-1),并将树节点(ai,h+1,2n-1)添加到最优路径中,即Path=Path∪(ai,h+1,2n-1),返回步骤5.2;
步骤5.4、输出最优路径Path以及当前最优路径的起点(ai,h,n),此时的起点即为最优路径上唯一的叶子节点。
进一步的,所述步骤8中在树
Figure RE-RE-GDA0001993485490000075
中沿最优路径反向更新的步骤如下:
步骤8.1、在树
Figure RE-RE-GDA0001993485490000076
中找到其最优路径Path及最优路径上唯一的叶子节点(ai,hmax,n), hmax为当前时刻树
Figure RE-RE-GDA0001993485490000077
的最大深度;迭代次数初始化设置为1,此时迭代出发点为叶子节点 (ai,h,n);最大迭代次数为hmax
步骤8.2、当迭代次数为k时,更新节点为(ai,h,n*),且
Figure RE-RE-GDA0001993485490000078
其中 h=hmax-k表示当前更新节点的深度;统计该节点中被选择的波束在t时刻被请求的次数,并将统计次数总和作为该时刻的奖励
Figure RE-RE-GDA0001993485490000079
具体可以表示为
Figure RE-RE-GDA00019934854900000710
C为波束选择的集合。
步骤8.3、更新该节点的实际平均奖励:
Figure RE-RE-GDA00019934854900000711
步骤8.4、更新该节点在选择波束过程中被利用的次数:
Figure RE-RE-GDA00019934854900000712
步骤8.5、更新该节点的选择波束奖励
Figure RE-RE-GDA00019934854900000713
步骤8.6、更新该节点的选择波束奖励上界
Figure RE-RE-GDA0001993485490000081
步骤8.7、迭代次数k=k+1;若k>hmax,则迭代终止并结束对树
Figure RE-RE-GDA0001993485490000082
进行反向更新的过程;否则,执行步骤8.2。
进一步的,所述步骤10中是否进行叶子节点的拓展的判断方法为:
叶子拓展的门限为
Figure RE-RE-GDA0001993485490000083
步骤10.1、最大迭代次数表示为|Λa(t)|,即该集合中树的数量;初始化迭代次数设置为1;
步骤10.2、迭代次数为i时,计算树
Figure RE-RE-GDA0001993485490000084
的树拓展门限
Figure RE-RE-GDA0001993485490000085
步骤10.3、若
Figure RE-RE-GDA0001993485490000086
并且
Figure RE-RE-GDA0001993485490000087
是树
Figure RE-RE-GDA0001993485490000088
的叶子节点,则对该叶子节点进行拓展,即更新树
Figure RE-RE-GDA0001993485490000089
的结构:
Figure RE-RE-GDA00019934854900000810
同时将节点
Figure RE-RE-GDA00019934854900000811
和节点
Figure RE-RE-GDA00019934854900000812
的奖励设置为:
Figure RE-RE-GDA00019934854900000813
步骤10.4、迭代次数更新i=i+1;
步骤10.5、若i>|Λa(t)|,则迭代终止;否则,执行步骤10.3。
本发明的有益效果:首先,本发明利用了车辆***的上下文信息特征,有效地解决了毫米波通信性能易衰减的特性;并且,本发明所采用的蒙特卡洛树搜索方法可以很好地处理网络大数据,更加符合实际通信环境的需求。
附图说明
图1为车辆特征空间划分示意图;
图2为本发明中蒙特卡洛树结构示意图;
图3为波束选择特征划分示意图;
图4为蒙特卡洛树最优路径方法示意图;
图5为蒙特卡洛树回溯更新方法示意图;
图6为本发明的波束选择方法流程图。
具体实施方式
下面根据一个具体实施例详述本发明的技术方案。但不应将此理解为本发明上述主体的范围仅限于以下实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
首先对本发明的具体实施例所采用的数据进行介绍。本发明采用的数据来自于一个名为 MoviesLens的数据库。数据来源于是2000年到2003年间,由6040个用户对3952部电影进行的共计1000209次评价。本发明将其中每个用户对每个电影的评价看作是每辆车对毫米波基站的波束定向选择。
其次,根据实际情况,本发明中具体实施例的参数初始化设置如下:
时隙长度T设置为8760个小时,其中每个时隙之间相差1小时。用户的上下文特征仅考虑年龄和性别,分别是成年和未成年、男和女,即车辆的特征空间AT划分成mT=4个子车辆特征空间。电影的特征根据隐语意算法划分成10个特征。基站波束选择数M设置为16,即最大可以选择16个波束。树节点的最大波束选择的奖励Emax=∞。
定义5中的三个常数分别设置为:
Figure RE-RE-GDA0001993485490000091
ρ=0.5以及
Figure RE-RE-GDA0001993485490000092
如图(6)所示是本发明的所提方法的实施流程图。包括以下步骤:
步骤1、用户上下文特征空间划分:将车辆的特征空间AT划分成4个子车辆特征空间。
步骤2、蒙特卡洛树的初始化设置:在t=1时,初始化4棵二叉树Γ,其中
Figure RE-RE-GDA0001993485490000093
表示车辆特征空间ai的二叉树,
Figure RE-RE-GDA0001993485490000094
同时,初始化节点(ai,1,1)和节点 (ai,1,2)的奖励值,
Figure RE-RE-GDA0001993485490000095
步骤3、在t时刻,先观测毫米波基站所服务的车辆数量N(t),并提取其中每一个车辆的上下文特征x(t)并将其矢量化,即第j个车辆的上下文特征可以表示为xj(t),
Figure RE-RE-GDA0001993485490000096
步骤4、根据提取到的车辆上下文特征,每个车辆将选择自己的子空间类型。
步骤5、若第j个车辆属于类型ai,则在树
Figure RE-RE-GDA0001993485490000097
上做最优路径搜索。重复步骤5,直到遍历完当前时刻毫米波基站服务的所有车辆。
步骤6、在所有车辆的推荐最优波束选择中,选择M个出现频率最高的波束放入当前时刻选择波束集合C,可以表示为C={c1(t),c2(t),...,cM(t)}。
步骤7、统计每个波束在第t时刻向最优波束选择集合C中每一个波束的请求次数。其中第j个波束向最优波束选择集合C的波束m的请求次数可以表示为dj,m,j=1,2,...,N(t), m=1,2,...,M。
步骤8、对第j个波束而言,在其对应的特征空间ai的树
Figure RE-RE-GDA0001993485490000101
上,节点的奖励值以及被波束选择次数将沿最优路径进行回溯更新。重复步骤8、直到遍历完当前时刻毫米波基站服务的所有车辆。
步骤9、在a(t)=(ai(t)),i=1,2,...,N(t)中,
选择不重复的车辆特征子空间集合Λa(t)
步骤10、在Λa(t)中,对其中每个特征子空间ai所对应的树
Figure RE-RE-GDA0001993485490000102
是否进行叶子节点的拓展进行判断。直到遍历完特征子空间Λa(t)上所有的树。
步骤11、若t<8760,t=t+1,并返回步骤3;否则,退出循环。

Claims (4)

1.一种基于蒙特卡洛树搜索辅助的波束选择方法,该方法包括:
步骤1、用户上下文特征空间划分;
根据所有车辆的上下文特征将车辆特征空间AT划分成mT个子车辆特征空间;
步骤2、蒙特卡洛树的初始化设置;
在t=1时,初始化mT棵二叉树
Figure FDA0002987458570000011
Figure FDA0002987458570000012
其中
Figure FDA0002987458570000013
表示车辆特征空间ai的二叉树,(ai,0,1)表示二叉树的根节点,(ai,1,1),(ai,1,2)表示二叉树的两个叶子节点;初始化节点(ai,1,1)和节点(ai,1,2)的奖励值,
Figure FDA0002987458570000014
Emax表示当前时刻的最大奖励值;
步骤3、在t时刻,先观测毫米波基站所服务的车辆数量N(t),并提取其中每一个车辆的上下文特征x(t)并将其矢量化,其中第j个车辆的上下文特征可以表示为xj(t),
Figure FDA0002987458570000015
du表示车辆上下文特征的维度;
步骤4、根据提取到的车辆上下文特征,每个车辆将选择自己的车辆类型;选择标准为假设第j个车辆属于车辆子特征空间ai,则有
Figure FDA0002987458570000016
成立,||·||2表示二范数,其中车辆特征空间中心点的集合表示为
Figure FDA0002987458570000017
其中vi表示第i类子车辆特征空间ai的中心,
Figure FDA0002987458570000018
步骤5、若第j个车辆属于车辆子特征空间ai,则在树
Figure FDA0002987458570000019
上做最优路径搜索,得到第j个车辆的奖励值最高的叶子节点,即该叶子节点上的所有波束将作为第t时刻第j个车辆的推荐最优波束;重复步骤5,直到遍历完当前时刻毫米波基站服务的所有车辆;
步骤6、在所有车辆的推荐最优波束中,选择M个性能最好的波束放入当前时刻波束选择的集合C,表示为C={c1(t),c2(t),...,cM(t)};
步骤7、统计每个车辆在第t时刻向波束选择集合C中每一个波束的请求次数;其中第j个车辆向波束选择集合C的波束m的请求次数可以表示为dj,m,j=1,2,...,N(t),m=1,2,...,M;
步骤8、对第j个车辆而言,在其对应的特征空间ai的树
Figure FDA0002987458570000021
上,节点的奖励值以及被波束选择的次数将沿最优路径进行沿最优路径反向更新算法;重复步骤8,直到遍历完所有车辆;
步骤9、在a(t)=(ai(t)),i=1,2,...,N(t)中,
选择不重复的车辆特征子空间集合Λa(t)
步骤10、在Λa(t)中,对其中每个特征子空间ai所对应的树
Figure FDA0002987458570000022
是否进行叶子节点的拓展进行判断;重复步骤10,直到遍历完特征子空间Λa(t)上所有的树;
步骤11、返回步骤3,t=t+1。
2.如权利要求1所述的一种基于蒙特卡洛树搜索辅助的波束选择方法,其特征在于所述步骤5中最优路径搜索的步骤如下:
步骤5.1、初始化最优路径Path=(ai,0,1)以及当前最优路径的起点(ai,h,n)=(ai,0,1),
Figure FDA0002987458570000023
步骤5.2、迭代判断:若当前最优路径的起点(ai,h,n)不是叶子节点且
Figure FDA0002987458570000024
同时成立,执行步骤5.3;否则,执行步骤5.4;
步骤5.3、若
Figure FDA0002987458570000025
成立,
则将当前最优路径的起点更新为(ai,h,n)=(ai,h+1,2n),并将树节点(ai,h+1,2n)添加到最优路径中,即Path=Path∪(ai,h+1,2n),返回步骤5.2;
Figure FDA0002987458570000026
成立,则将当前最优路径的起点更新为(ai,h,n)=(ai,h+1,2n-1),并将树节点(ai,h+1,2n-1)添加到最优路径中,
即Path=Path∪(ai,h+1,2n-1),返回步骤5.2;
步骤5.4、输出最优路径Path以及当前最优路径的起点(ai,h,n),此时的起点即为最优路径上唯一的叶子节点。
3.如权利要求1所述的一种基于蒙特卡洛树搜索辅助的波束选择方法,其特征在于所述步骤8中在树
Figure FDA0002987458570000027
中沿最优路径反向更新的步骤如下:
步骤8.1、在树
Figure FDA0002987458570000031
中找到其最优路径Path及最优路径上唯一的叶子节点(ai,hmax,n),hmax为当前时刻树
Figure FDA0002987458570000032
的最大深度;迭代次数初始化设置为1,此时迭代出发点为叶子节点(ai,h,n);最大迭代次数为hmax
步骤8.2、当迭代次数为k时,更新节点为(ai,h,n*),且
Figure FDA0002987458570000033
其中h=hmax-k表示当前更新节点的深度;统计该节点中被选择的波束在t时刻被请求的次数,并将统计次数总和作为该时刻的奖励
Figure FDA0002987458570000034
具体可以表示为
Figure FDA0002987458570000035
C为波束选择的集合;
步骤8.3、更新该节点的实际平均奖励:
Figure FDA0002987458570000036
步骤8.4、更新该节点在选择波束过程中被利用的次数:
Figure FDA0002987458570000037
步骤8.5、更新该节点的选择波束奖励
Figure FDA0002987458570000038
步骤8.6、更新该节点的选择波束奖励上界
Figure FDA0002987458570000039
步骤8.7、迭代次数k=k+1;若k>hmax,则迭代终止并结束对树
Figure FDA00029874585700000310
进行反向更新的过程;否则,执行步骤8.2。
4.如权利要求1所述的一种基于蒙特卡洛树搜索辅助的波束选择方法,其特征在于所述步骤10中是否进行叶子节点的拓展的判断方法为:
叶子拓展的门限为
Figure FDA00029874585700000311
步骤10.1、最大迭代次数表示为|Λa(t)|,即该集合中树的数量;初始化迭代次数设置为1;
步骤10.2、迭代次数为i时,计算树
Figure FDA00029874585700000312
的树拓展门限
Figure FDA00029874585700000313
步骤10.3、若
Figure FDA00029874585700000314
并且
Figure FDA00029874585700000315
是树
Figure FDA00029874585700000316
的叶子节点,则对该叶子节点进行拓展,即更新树
Figure FDA00029874585700000317
的结构:
Figure FDA00029874585700000318
同时将节点
Figure FDA00029874585700000319
和节点
Figure FDA00029874585700000320
的奖励设置为:
Figure FDA0002987458570000041
步骤10.4、迭代次数更新i=i+1;
步骤10.5、若i>|Λa(t)|,则迭代终止;否则,执行步骤10.3。
CN201811346507.7A 2018-11-13 2018-11-13 一种基于蒙特卡洛树搜索辅助的波束选择方法 Active CN109831236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811346507.7A CN109831236B (zh) 2018-11-13 2018-11-13 一种基于蒙特卡洛树搜索辅助的波束选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811346507.7A CN109831236B (zh) 2018-11-13 2018-11-13 一种基于蒙特卡洛树搜索辅助的波束选择方法

Publications (2)

Publication Number Publication Date
CN109831236A CN109831236A (zh) 2019-05-31
CN109831236B true CN109831236B (zh) 2021-06-01

Family

ID=66859211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811346507.7A Active CN109831236B (zh) 2018-11-13 2018-11-13 一种基于蒙特卡洛树搜索辅助的波束选择方法

Country Status (1)

Country Link
CN (1) CN109831236B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110365375B (zh) * 2019-06-26 2021-06-08 东南大学 一种毫米波通信***中波束对准和跟踪方法及计算机设备
CN111446999A (zh) * 2020-03-26 2020-07-24 上海无线通信研究中心 基于多臂强盗的位置辅助波束对准方法及其***
CN111526499B (zh) * 2020-04-17 2022-05-17 中南大学 基于在线学习和毫米波束选择的车载终端通信方法
CN111645687A (zh) * 2020-06-11 2020-09-11 知行汽车科技(苏州)有限公司 变道策略确定方法、装置及存储介质
CN111865446B (zh) * 2020-07-29 2021-04-06 中南大学 利用网络环境上下文信息实现的智能波束配准方法与装置
FI20215133A1 (en) 2021-02-10 2022-04-01 Nokia Solutions & Networks Oy RADIO RADIATION SELECTION FOR CELLULAR ACCESS NODES
CN114609589B (zh) * 2022-03-09 2023-08-11 电子科技大学 一种基于启发式回溯的实时相控阵雷达波束驻留调度方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101572574A (zh) * 2009-06-01 2009-11-04 中国民航大学 基于最小二乘—最小均方的智能天线自适应干扰抑制方法
CN105959044A (zh) * 2016-04-21 2016-09-21 北京航空航天大学 联合方法的层次码本结构设计方法
CN107329136A (zh) * 2017-06-13 2017-11-07 电子科技大学 基于可变分析时刻的mimo雷达多目标自适应跟踪方法
CN107689922A (zh) * 2017-08-31 2018-02-13 青岛大学 基于微粒群算法的Steiner最优树计算方法及装置
CN108738045A (zh) * 2018-04-17 2018-11-02 浙江工业大学 一种基于深度确定性策略梯度方法的移动边缘计算速率最大化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101572574A (zh) * 2009-06-01 2009-11-04 中国民航大学 基于最小二乘—最小均方的智能天线自适应干扰抑制方法
CN105959044A (zh) * 2016-04-21 2016-09-21 北京航空航天大学 联合方法的层次码本结构设计方法
CN107329136A (zh) * 2017-06-13 2017-11-07 电子科技大学 基于可变分析时刻的mimo雷达多目标自适应跟踪方法
CN107689922A (zh) * 2017-08-31 2018-02-13 青岛大学 基于微粒群算法的Steiner最优树计算方法及装置
CN108738045A (zh) * 2018-04-17 2018-11-02 浙江工业大学 一种基于深度确定性策略梯度方法的移动边缘计算速率最大化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"A Survey of Monte Carlo Tree Search Methods";Cameron B. Browne等;《IEEE TRANSACTIONS ON COMPUTATIONAL INTELLIGENCE AND AI IN GAMES》;20120301;全文 *
"基于串行策略的SCMA多用户检测算法";董彬虹等;《电子与信息学报》;20160524;全文 *

Also Published As

Publication number Publication date
CN109831236A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN109831236B (zh) 一种基于蒙特卡洛树搜索辅助的波束选择方法
CN113162679B (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
CN109327252B (zh) 一种基于联系上下文的在线学习波束选择方法
US20230239037A1 (en) Space-air-ground integrated uav-assisted iot data collectioncollection method based on aoi
Gao et al. MetaLoc: Learning to learn wireless localization
CN111865446B (zh) 利用网络环境上下文信息实现的智能波束配准方法与装置
JP2018142957A (ja) 管理装置、コンピュータに実行させるためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
ElHalawany et al. Leveraging machine learning for millimeter wave beamforming in beyond 5G networks
Morocho-Cayamcela et al. Breaking wireless propagation environmental uncertainty with deep learning
Chiroma et al. Large scale survey for radio propagation in developing machine learning model for path losses in communication systems
CN112866904A (zh) 基于波束索引地图的免信道训练大维通信波束对齐方法
Guan et al. MAPPO-based cooperative UAV trajectory design with long-range emergency communications in disaster areas
Lou et al. Terrain-based UAV deployment: Providing coverage for outdoor users
CN116867025A (zh) 无线传感器网络中传感器节点分簇方法及装置
CN112765892B (zh) 一种异构车联网中的智能切换判决方法
Wu et al. Research on RSS based indoor location method
Li et al. Piecewise-drl: Joint beamforming optimization for ris-assisted mu-miso communication system
Zheng et al. An intelligent wireless communication model based on multi-feature fusion and quantile regression neural network
Mukhtar et al. Satellite image and received signal-based outdoor localization using deep neural networks
Zhang et al. A Joint UAV Trajectory, User Association, and Beamforming Design Strategy for Multi-UAV Assisted ISAC Systems
CN116321219B (zh) 自适应蜂窝基站联邦形成方法、联邦学习方法及装置
CN112118596B (zh) 基于路径序列回归的短程无线信号强度预测方法
Yu et al. A Small Range Ergodic Beamforming Method Based on Binocular Vision Positioning
Singh et al. Multi-level fuzzy inference system based handover decision model for unmanned vehicles
Zeng et al. Two‐Stage Channel Adaptive Algorithm for Unmanned Aerial Vehicles Localization with Cellular Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant