CN113709701A - 一种毫米波车联网联合波束分配和中继选择方法 - Google Patents

一种毫米波车联网联合波束分配和中继选择方法 Download PDF

Info

Publication number
CN113709701A
CN113709701A CN202110997198.5A CN202110997198A CN113709701A CN 113709701 A CN113709701 A CN 113709701A CN 202110997198 A CN202110997198 A CN 202110997198A CN 113709701 A CN113709701 A CN 113709701A
Authority
CN
China
Prior art keywords
vehicle
relay
base station
information
millimeter wave
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110997198.5A
Other languages
English (en)
Other versions
CN113709701B (zh
Inventor
俱莹
陈宇超
王浩宇
裴庆祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110997198.5A priority Critical patent/CN113709701B/zh
Publication of CN113709701A publication Critical patent/CN113709701A/zh
Application granted granted Critical
Publication of CN113709701B publication Critical patent/CN113709701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/44Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/22Communication route or path selection, e.g. power-based or shortest path routing using selective relaying for reaching a BTS [Base Transceiver Station] or an access point
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/046Wireless resource allocation based on the type of the allocated resource the resource being in the space domain, e.g. beams

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于毫米波车联网通信技术领域,公开了一种毫米波车联网联合波束分配和中继选择方法,所述毫米波车联网联合波束分配和中继选择方法包括:构建单基站的毫米波车联网通信场景;对通信过程、优化目标、容量阈值约束和联合优化问题进行建模;获取当前时刻的状态信息,作为深度强化学习的状态输入;为目标车辆选择直连传输链路或中继传输链路;设计奖励机制和神经网络的结构;提取当前状态的输入特征,得到各种输入状态下不同动作的Q值,训练和更新神经网络参数;将Q值最大的动作作为当前状态下目标车辆的链路选择、波束分配和中继车辆的策略。本发明能够使得毫米波基站对复杂环境有着很强的适应能力,并且其性能明显优于基准方案。

Description

一种毫米波车联网联合波束分配和中继选择方法
技术领域
本发明属于毫米波车联网通信技术领域,尤其涉及一种毫米波车联网联合波束分配和中继选择方法。
背景技术
目前,新兴的毫米波通信和V2X(Vehicle-t-everything)通信技术为车联网和智能交通提供了各种数据传输服务。毫米波较小的波长能够集成大量天线支持超高的数据传输速率,并且通过特定的天线调制为信号发射方向提供更多的复用增益和波束形成增益。由于毫米波信号传输过程存在严重的路径损耗和阻塞效应,使得基站在为车辆提供服务的时候,其***性能和覆盖范围受到严重的影响,而毫米波通信***的中继方案能有效扩大通信覆盖范围和克服阻塞效应。当基站向超出范围和被障碍物阻挡的车辆用户发射信号时,可以利用空闲的中继节点将信号转发给目标用户,因此通过选择合适的中继节点能够有效地提高目标用户的信噪比。
然而当前的车联网中继方案主要集中在微波频段,无法适用于车联网毫米波的通信场景,并且考虑的多数为车联网全向广播的场景,使得在多用户通信场景下会产生严重的干扰。实际车联网场景中由于随机阻塞出现和车辆高速移动的特性,基站需要在不断地进行波束切换来为用户提供稳定的、高质量的数据传输服务。然而现有的波束选择方案无法有效地对抗随机阻塞带来的性能衰减。
现有的技术中,中继方案和波束方案往往被分离开来研究,并且主要考虑单用户的场景或多用户静态场景,这是由于将两种方案联合研究的复杂度高和车联网场景的动态性,无法用数学方法推理出低复杂度的最优解方案。而在实际的场景中,将中继方案和波束方案有机地结合起来能够有效地对抗阻塞效应和大幅度提升***的性能。
在实际的车联网多用户服务场景中,多个用户可能会竞争同一优质波束资源或中继资源,这将导致中继选择和波束分配的竞争博弈问题。同时在性能优化时,也存在***整体性能的提升和个体车辆的服务质量间的权衡问题。
因此,如何将中继选择和波束选择有机地联合起来,使得在有效对抗实际场景中的阻塞效应的同时,利用波束形成为发射信号提供更多的复用增益和波束增益;如何适应车联网中动态场景的快速变化和解决多用户通信的问题,并且满足车联网动态场景中快速决策的需求是毫米波车联网通信技术发展亟待解决的问题。
而近年来,各类具有较强计算和拟合能力的深度学习算法被应用到具体的通信场景中,可以有效解决***优化过程中的随机性、动态性和复杂性带来的挑战。因此,亟需一种毫米波车联网联合波束分配和中继选择方法。
通过上述分析,现有技术存在的问题及缺陷为:
(1)由于毫米波信号传输过程存在严重的路径损耗和阻塞效应,使得基站在为车辆提供服务的时候,其***性能和覆盖范围受到严重的影响。
(2)当前车联网中继方案主要集中在微波频段,无法适用于车联网毫米波的通信场景,并且考虑的多数为车联网全向广播的场景,使得在多用户通信场景下会产生严重的干扰。
(3)现有的波束选择方案无法有效地对抗随机阻塞带来的性能衰减;现有的技术中,由于将中继方案和波束方案联合研究的复杂度高和车联网场景的动态性,无法用数学方法推理出低复杂度的最优解方案。
解决以上问题及缺陷的难度为:在实际的车联网场景中,由于随机阻塞的出现和车辆高速移动的特性,使得在进行建模和分析时,无法用数学方法表征车联网场景的动态性和推理出低复杂度的最优方案。受到静态环境的限制,传统方案的决策时间较长,无法满足车联网动态场景中快速有效决策的需求。在多用户场景中,多个用户可能会竞争同一优质波束资源或中继资源,将导致中继选择和波束分配的竞争博弈问题;同时在性能优化时,也存在***整体性能的提升和个体车辆的服务质量间的权衡问题。
解决以上问题及缺陷的意义为:本发明提出了一种基于深度强化学习的联合波束分配和终极选择方法,能够突破静态环境的限制,克服由于随机阻塞的出现和车辆的高速移动性带来的性能衰减,满足车联网动态场景中快速有效决策的需求。在通信数据量不断增长的现状下,本发明在保证每个用户的通信质量的同时,显著提升***的总能效,使之能适用于动态车联网场景中的毫米波通信***和大容量通信场景,满足了日新月异的车联网通信技术的发展需求。
发明内容
针对现有技术存在的问题,本发明提供了一种毫米波车联网联合波束分配和中继选择方法,尤其涉及一种基于深度强化学习的毫米波车联网联合波束分配和中继选择方法、***、设备。
本发明是这样实现的,一种毫米波车联网联合波束分配和中继选择方法,所述毫米波车联网联合波束分配和中继选择方法包括以下步骤:
步骤一,构建单基站的毫米波车联网通信场景,所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务;为本发明搭建了动态车联网场景,以便于后续的建模和分析。
步骤二,针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模;为本发明后续进行的联合波束分配和中继选择奠定了基础。
步骤三,基站通过与周围的环境信息作用,获取当前时刻的状态信息,包括目标车辆和潜在中继车辆的信息,波束信息和阻塞信息,作为深度强化学习的状态输入;其中,所述深度强化学习采用DQN算法;为本发明后续进行快速决策奠定了基础。
步骤四,基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路;当前状态的动作为传输链路、波束分配和中继车辆的组合方案;该步骤为模型的训练奠定了基础。
步骤五,根据步骤二构建的模型和策略,设计奖励机制和神经网络的结构;该步骤为模型的收敛性和收敛时间提供了保证。
步骤六,利用步骤五的DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各种输入状态下不同动作的Q值,根据∈-greedy策略选择当前状态下的动作,并结合步骤五的奖励机制训练和更新神经网络参数;为本发明模型训练的核心步骤。
步骤七,基站利用训练好的DQN网络,将当前环境的状态信息作为状态输入,输出当前状态下采用相应动作的Q值序列,将Q值最大的动作作为当前状态下目标车辆的链路选择,波束分配和中继车辆的策略。为本发明的方案验证和分析。
进一步,步骤一中,所述构建单基站的毫米波车联网通信场景,包括:
(1)利用排队论对车辆的到达过程进行建模,车辆到达的时间间隔t服从负指数分数,概率密度函数如下所示:
Figure BDA0003234227810000041
(2)在某个时隙,道路上有Nv辆车在行驶,其中有
Figure BDA0003234227810000044
辆需要提供服务的目标车辆;基站拥有一个正交波束的有限集合B={Bk,k=1,2,...,NB},同时选择
Figure BDA0003234227810000043
个波束为多个用户提供数据传输服务,其中
Figure BDA0003234227810000042
并且每个波束只能为一个用户提供服务。
(3)考虑临时性随机阻塞和永久性阻塞对***性能的影响,且当毫米波基站不能为目标车辆提供可靠的直连链路传输时,选择空闲车辆作为中继节点,实现信息转发的过程。
进一步,步骤二中,所述针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模,包括:
(1)在城市场景中,采用路径损耗模型来近似毫米波信号在传输过程中的路径损耗L(Ti,Rj):
L(Ti,Rj)=μ1log10fc2log10d3D3
其中,fc为载波频率;d3D为发射端和接收端的欧几里得距离;μi是路径损耗参数,与不同通信场景有关。
(2)发射端和接收端间的信道增益为gTR,包括下行链路信道增益gTR,1和中继转发信道增益gTR,2
gTR=LTRαTR
其中,αTR为阻塞的穿透系数,包括两种阻塞影响:永久性阻塞和随机阻塞。
(3)利用二维扇区模型来模拟毫米波基站的天线方向图,基站和车辆的的天线增益GB(θ)和Gb(θ):
Figure BDA0003234227810000051
Figure BDA0003234227810000052
其中,θB和θb分别为基站波束的主瓣宽度和车辆波束的主瓣宽度。
(4)利用放大转发AF的中继策略降低车辆的计算复杂度,保证信息传输的超低实验;其中,所述AF放大增益为βR为:
Figure BDA0003234227810000053
其中,PtR为中继车辆的发射功率,PrR为中继车辆的接收功率。
(5)目标车辆
Figure BDA0003234227810000054
通过直连链路传输ξ1或中继传输链路ξ2接收到的信干噪比SINR分别为:ξ1和ξ2;考虑两种类型的干扰:基站下行链路传输过程和其他目标车辆的中继转发过程,每种干扰包括波束的主瓣干扰和旁瓣干扰;
Figure BDA0003234227810000055
Figure BDA0003234227810000056
其中,PtB为基站的发射功率,
Figure BDA0003234227810000061
为信道噪声功率;I1和I2分别为目标车辆通过直连链路和中继转发链路传输时所受到的干扰:
Figure BDA0003234227810000062
Figure BDA0003234227810000063
其中,ρB,k为基站波束选择的二进制指示器,当ρB,k=1时表明第k个波束为目标车辆v*服务,ρB,k=0则表明不服务;ρI,i为二进制的干扰指示器,ρI,i=1表明目标车辆v*收到其他中继车辆的传输过程的干扰。
(6)经过不同传输链路得到的信道容量为:
C1=Wlog(1+ξ1)
C2=Wlog(1+ξ2);
其中,W为频谱带宽,进而得到目标车辆
Figure BDA0003234227810000064
的信道容量为:
Figure BDA0003234227810000065
其中,ρl为二进制的链路指示器;ρl=1表明基站为目标车辆
Figure BDA0003234227810000066
选择直连传输链路,ρl=0则表明基站为目标车辆选择中继传输链路。
(7)目标车辆服务所需的容量门限为γ,满足以下条件:
Figure BDA0003234227810000067
进而得到***的传输概率为:
Figure BDA0003234227810000068
(8)最大化所有目标车辆的总容量的同时保证每个目标车辆的通信质量和可靠性,目标函数为:
Figure BDA0003234227810000069
Subject to
Figure BDA0003234227810000071
Figure BDA0003234227810000072
Figure BDA0003234227810000073
其中,C1表明一个目标车辆被一个波束所服务,C2表明一个波束只能服务一辆目标车辆,并且基站只能同时为
Figure BDA0003234227810000074
辆车提供服务;C3表明每个目标车辆的服务质量均需大于容量门限阈值。
进一步,步骤三中,所述目标车辆和潜在中继车辆的信息,包括车辆速度、位置坐标、当前状态和容量阈值;所述波束信息,包括波束分配信息、波束宽度、波束角度和波束覆盖区域;所述阻塞信息,包括阻塞分布信息、阻塞覆盖区域和阻塞穿透系数。
进一步,步骤四中,所述基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路,包括:
(1)动作空间采用一个三维坐标系来表示,x轴代表链路的选择,y轴代表潜在中继的选择,z轴代表可选波束的选择;设潜在中继的车辆为NR,得到动作空间的维度为2×NR×NB,其中2表明基站可以为目标车辆选择直连链路传输或中继链路传输。
(2)采用∈-greedy策略来权衡训练过程和利用过程;在t时刻,基站以1-∈的概率选择让Q函数最大的动作,以∈的概率从状态空间A中选择一个动作。
进一步,步骤五中,所述根据构建的模型和策略,设计奖励机制和神经网络的结构,包括:
(1)根据目标车辆的容量值的大小将奖励划分为Nω个档位。
(2)当基站作出一个不好的动作,导致波束或中继车辆冲突的动作时,目标车辆的容量值为0,故设置容量奖励{rc,i}为一个负值;当目标车辆的容量值没有满足阈值条件约束时,将容量奖励{rc,i}设置为0,进而得到基站处在不同的状态{St}下获得的返回奖励{rt}。
进一步,步骤六中,所述利用DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各种输入状态下不同动作的Q值,根据∈-greedy策略选择当前状态下的动作,并结合奖励机制训练和更新神经网络参数,包括:
(1)初始化环境信息和Q网络参数,生成车辆运行数据。
(2)在每个训练回合,更新并获取当前车辆位置和环境状态,重置中继选择和波束分配策略。
(3)根据当前的状态信息和贪心算法为目标车辆选择一个动作,即链路选择,波束分配和中继车辆的组合方案,并更新环境的信息。
(4)获得所有目标车辆的动作组合方案,进而获得与容量相关的奖励值rc,i和返回的奖励值{rt}。
(5)将t时刻状态,动作,奖励和下一状态作为一个样本存储进经验池中。
(6)当经验池样本数足够多时,开始学习;从经验池中随机抽取小批量样本(st,at,rt,st+1),进行网络参数的训练,并更新目标网络权重。
本发明的另一目的在于提供一种应用所述毫米波车联网联合波束分配和中继选择方法的毫米波车联网联合波束分配和中继选择***,所述毫米波车联网联合波束分配和中继选择***包括:
通信场景构建模块,用于构建单基站的毫米波车联网通信场景,所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务;
模型构建模块,用于针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模;
状态信息获取模块,用于基站通过与周围的环境信息作用,获取当前时刻的状态信息,包括目标车辆和潜在中继车辆的信息,波束信息和阻塞信息,作为深度强化学习的状态输入;其中,所述深度强化学习采用DQN算法;
传输链路选择模块,用于基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路;其中,所述当前状态的动作为传输链路、波束分配和中继车辆的组合方案;
结构设计模块,用于根据模型构建模块构建的模型和策略,设计奖励机制和神经网络的结构;
更新模块,用于利用结构设计模块的DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各种输入状态下不同动作的Q值,根据∈-greedy策略选择当前状态下的动作,结合结构设计模块的奖励机制训练和更新神经网络参数;
策略确定模块,用于通过基站利用训练好的DQN网络,将当前环境的状态信息作为状态输入,输出当前状态下采用相应动作的Q值序列,将Q值最大的动作作为当前状态下目标车辆的链路选择、波束分配和中继车辆的策略。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
构建单基站的毫米波车联网通信场景,所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务;针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模;基站通过与周围的环境信息作用,获取当前时刻的状态信息,包括目标车辆和潜在中继车辆的信息,波束信息和阻塞信息,作为深度强化学习的状态输入;其中,所述深度强化学习采用DQN算法;
基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路;当前状态的动作为传输链路、波束分配和中继车辆的组合方案;根据构建的模型和策略,设计奖励机制和神经网络的结构;利用DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各种输入状态下不同动作的Q值,根据∈-greedy策略选择当前状态下的动作,并结合奖励机制训练和更新神经网络参数;
基站利用训练好的DQN网络,将当前环境的状态信息作为状态输入,输出当前状态下采用相应动作的Q值序列,将Q值最大的动作作为当前状态下目标车辆的链路选择,波束分配和中继车辆的策略。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述毫米波车联网联合波束分配和中继选择***。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的毫米波车联网联合波束分配和中继选择方法,能够突破静态车联网分析场景的限制,克服了动态场景中由于障碍物阻塞和车辆的高速移动带来的性能衰减,满足动态车联网通信场景中的快速有效决策的需求。在通信数据量不断增长的现状下,本发明在保证每个用户的通信质量的同时,显著提升***的总能效,使之能适用于动态车联网场景中的毫米波通信***和大容量通信场景,填补了车联网通信技术的空白,满足了日新月异的车联网通信技术的发展需求,推动了车联网行业的发展和落地应用。本发明首先将联合优化问题建模为顺序决策问题,并利用深度Q学习方法进行求解;其次,在联合方案的设计中引入了信道容量的阈值限制,保证了各目标车辆的服务质量,避免了不合理的优化;最后,本发明利用排队论对车辆的动态过程进行了建模,以解决道路上永久性和随机阻塞的问题,使之更加接近实际场景。该方法能够使得毫米波基站对复杂环境有着很强的适应能力,能够迅速找到一个合理高效的策略,并且其性能优于基准方案。
本发明研究了毫米波车辆下多用户服务问题,通过联合设计,提出了一个基于DRL的JoBARS策略,能够帮助毫米波基站仅根据当前的交通模式快速做出最优决策,以最大化***整体的通信能力。模型中,本发明考虑了车辆的高速移动特性,波束分配和中继选择过程中的竞争博弈,个体用户的通信需求和***整体性能的冲突,以及多用户通信场景下的干扰等问题。并且模型的仿真结果表明,本发明提出的方法能显著地提升包括***总容量,个体车辆用户容量,服务连接概率等方面的性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的毫米波车联网联合波束分配和中继选择方法的流程图。
图2是本发明实施例提供的毫米波车联网联合波束分配和中继选择方法的原理图。
图3是本发明实施例提供的毫米波车联网联合波束分配和中继选择***的结构框图;
图中:1、通信场景构建模块;2、模型构建模块;3、状态信息获取模块;4、传输链路选择模块;5、结构设计模块;6、更新模块;7、策略确定模块。
图4是本发明实施例提供的车联网毫米波多用户通信场景示意图。
图5是本发明实施例提供的DQN网络示意图。
图6是本发明实施例提供的不同方案在不同的交通图案下的***性能和各车辆性能对比示意图。
图7是本发明实施例提供的不同方案在不同容量阈值限制下的平均连接概率示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种毫米波车联网联合波束分配和中继选择方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的毫米波车联网联合波束分配和中继选择方法包括以下步骤:
S101,构建单基站的毫米波车联网通信场景,所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务;
S102,针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模;
S103,基站通过与周围的环境信息作用,获取当前时刻的状态信息,包括目标车辆和潜在中继车辆的信息,波束信息和阻塞信息,作为深度强化学习的状态输入;其中,所述深度强化学习采用DQN算法;
S104,基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路;当前状态的动作为传输链路、波束分配和中继车辆的组合方案;
S105,根据S102构建的模型和策略,设计奖励机制和神经网络的结构;
S106,利用S105的DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各种输入状态下不同动作的Q值,根据∈-greedy策略选择当前状态下的动作,并结合S105的奖励机制训练和更新神经网络参数;
S107,基站利用训练好的DQN网络,将当前环境的状态信息作为状态输入,输出当前状态下采用相应动作的Q值序列,将Q值最大的动作作为当前状态下目标车辆的链路选择,波束分配和中继车辆的策略。
本发明实施例提供的毫米波车联网联合波束分配和中继选择方法的原理图如图2所示。
如图3所示,本发明实施例提供的毫米波车联网联合波束分配和中继选择***包括:
通信场景构建模块1,用于构建单基站的毫米波车联网通信场景,所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务;
模型构建模块2,用于针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模;
状态信息获取模块3,用于通过基站利用与周围的环境信息作用,获取当前时刻的状态信息,包括目标车辆和潜在中继车辆的信息,波束信息和阻塞信息,作为深度强化学习的状态输入;其中,所述深度强化学习采用DQN算法;
传输链路选择模块4,用于基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路;其中,所述当前状态的动作为传输链路、波束分配和中继车辆的组合方案;
结构设计模块5,用于根据模型构建模块构建的模型和策略,设计奖励机制和神经网络的结构;
更新模块6,用于利用结构设计模块的DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各输入状态下不同动作的Q值,根据∈-greedy策略选择当前状态下的动作,结合结构设计模块的奖励机制训练和更新神经网络参数;
策略确定模块7,用于通过基站利用训练好的DQN网络,将当前环境的状态信息作为状态输入,输出当前状态下采用相应动作的Q值序列,将Q值最大的动作作为当前状态下目标车辆的链路选择、波束分配和中继车辆的策略。
下面结合具体实施例对本发明的技术方案作进一步描述。
本发明针对现有研究技术的不足,提出了一种基于深度强化学习的联合波束分配和中继选择方法,该方法能够克服由于障碍物阻塞和车辆的高速移动带来的性能衰减,并且在保证每个服务用户的通信的同时,提高***的总能效。首先将联合优化问题建模为顺序决策问题,并利用深度Q学习方法进行求解。其次,本发明在联合方案的设计中引入了信道容量的阈值限制,保证了各目标车辆的服务质量,避免了不合理的优化。最后,本发明利用排队论对车辆的动态过程进行了建模,以解决道路上永久性和随机阻塞的问题,使之更加接近实际场景。该方法能够使得毫米波基站对复杂环境有着很强的适应能力,能够迅速找到一个合理高效的策略,并且其性能优于基准方案。
本发明所采用技术方案包括以下步骤:
S1、构建一个单基站的毫米波车联网通信场景,基站需要同时为一个双向多车道上的多个车辆用户提供数据传输服务。
S2、针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模。
S3、基站通过与周围的环境信息作用,获取当前时刻的状态信息,包括目标车辆和潜在中继车辆的信息(包括车辆速度、位置坐标、当前状态、容量阈值),波束信息(包括波束分配信息,波束宽度,波束角度,波束覆盖区域)和阻塞信息(包括阻塞分布信息,阻塞覆盖区域,阻塞穿透系数),作为深度强化学习的状态输入。其中深度强化学习采用DQN算法。
S4、基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路。当前状态的动作为传输链路、波束分配和中继车辆的组合方案。
S5、根据S2中构建的模型和策略,设计奖励机制和神经网络的结构。
S6、利用S5中的DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各种输入状态下不同动作的Q值,根据∈-greedy策略选择当前状态下的动作,并结合S5中的奖励机制训练和更新神经网络参数。
S7、基站利用训练好的DQN网络,将当前环境的状态信息作为状态输入,输出当前状态下采用相应动作的Q值序列,将Q值最大的动作作为当前状态下目标车辆的链路选择,波束分配和中继车辆的策略。
本发明的车联网毫米波多用户通信场景示意图如图4所示。
进一步的,所述S1步骤过程如下:
S1.1、利用排队论对车辆的到达过程进行建模,车辆到达的时间间隔t服从车辆到达率为λ的负指数分布,其概率密度函数如下所示:
Figure BDA0003234227810000141
S1.2、在某个时隙,道路上有Nv辆车在行驶,其中有
Figure BDA0003234227810000142
辆需要提供服务的目标车辆。基站拥有一个正交波束的有限集合B={Bk,k=1,2,...,NB},能够同时选择
Figure BDA0003234227810000143
个波束为多个用户提供数据传输服务(其中
Figure BDA0003234227810000144
),并且每个波束只能为一个用户提供服务。
S1.3、考虑临时性随机阻塞和永久性阻塞对***性能的影响,以更好地逼近实际的复杂的通信环境。并且当毫米波基站不能为目标车辆提供可靠的直连链路传输时,可以选择空闲车辆作为中继节点,实现信息转发的过程。
进一步的,所述S2步骤过程如下:
S2.1、在城市场景中,采用路径损耗模型来近似毫米波信号在传输过程中的路径损耗L(Ti,Rj)。
L(Ti,Rj)=μ1log10fc2log10d3D3
其中fc为载波频率;d3D为发射端和接收端的欧几里得距离;μi是路径损耗参数,与不同通信场景有关。
S2.2、发射端和接收端间的信道增益为gTR(分为下行链路信道增益gTR,1和中继转发信道增益gTR,2)。
gTR=LTRαTR
其中αTR为阻塞的穿透系数,考虑两种阻塞的影响:永久性阻塞(比如建筑物)和随机阻塞(比如:大型公交车的暂时阻挡)。
S2.3、利用二维扇区模型来模拟毫米波基站的天线方向图,基站和车辆的的天线增益GB(θ)和Gb(θ)。
Figure BDA0003234227810000151
Figure BDA0003234227810000152
其中θB和θb分别为基站波束的主瓣宽度和车辆波束的主瓣宽度。
S2.4、利用放大转发(AF)的中继策略降低车辆的计算复杂度,保证信息传输的超低实验。AF放大增益为βR为:
Figure BDA0003234227810000153
其中,PtR为中继车辆的发射功率,PrR为中继车辆的接收功率。
S2.5目标车辆
Figure BDA0003234227810000154
通过直连链路传输ξ1或中继传输链路ξ2接收到的信干噪比(SINR)分别为:ξ1和ξ2。并且考虑两种类型的干扰:基站下行链路传输过程和其他目标车辆的中继转发过程,每种干扰包括波束的主瓣干扰和旁瓣干扰。
Figure BDA0003234227810000161
Figure BDA0003234227810000162
其中ptB为基站的发射功率,
Figure BDA0003234227810000163
为信道噪声功率。I1和I2分别为目标车辆通过直连链路和中继转发链路传输时所受到的干扰。
Figure BDA0003234227810000164
Figure BDA0003234227810000165
其中ρB,k为基站波束选择的二进制指示器,当ρB,k=1时表明第k个波束为目标车辆v*服务,ρB,k=0则表明不服务。ρI,i为二进制的干扰指示器,ρI,i=1表明目标车辆v*收到其他中继车辆的传输过程的干扰。
S2.6、经过不同传输链路得到的信道容量为:
C1=Wlog(1+ξ1)
C2=Wlog(1+ξ2)
其中W为频谱带宽。进而可以得到目标车辆
Figure BDA0003234227810000166
的信道容量为:
Figure BDA0003234227810000167
其中ρl为二进制的链路指示器。ρl=1表明基站为目标车辆
Figure BDA0003234227810000168
选择了直连传输链路,ρl=0则表明基站为目标车辆选择了中继传输链路。
S2.7、目标车辆服务所需的容量门限为γ,满足以下条件:
Figure BDA0003234227810000169
进而可以得到***的传输概率为:
Figure BDA00032342278100001610
S2.8、最大化所有目标车辆的总容量的同时保证每个目标车辆的通信质量和可靠性,目标函数为:
Figure BDA0003234227810000171
Subject to:
Figure BDA0003234227810000172
Figure BDA0003234227810000173
Figure BDA0003234227810000174
其中,C1表明一个目标车辆被一个波束所服务,C2表明一个波束只能服务一辆目标车辆,并且基站只能同时为
Figure BDA0003234227810000175
辆车提供服务。C3表明每个目标车辆的服务质量都需要大于容量门限阈值。
进一步的,所述S4步骤过程如下:
S4.1、动作空间采用一个三维坐标系来表示,x轴代表链路的选择,y轴代表潜在中继的选择,z轴代表可选波束的选择。设潜在中继的车辆为NR,可以得到动作空间的维度为2×NR×NB,其中2表明基站可以为目标车辆选择直连链路传输或中继链路传输。
S4.2、采用∈-greedy策略来权衡训练过程和利用过程。在t时刻,基站以1-∈的概率选择让Q函数最大的动作,以∈的概率从状态空间A中选择一个动作。
进一步的,所述S5步骤过程如下:
S5.1、根据目标车辆的容量值的大小将奖励划分为Nω个档位。
S5.2、当基站作出一个不好的动作,导致波束或中继车辆冲突的动作时,目标车辆的容量值为0,因此设置其容量奖励{rc,i}为一个负值。而当目标车辆的容量值没有满足阈值条件约束时,将容量奖励{rc,i}设置为0。进而可以得到基站处在不同的状态{St}下获得的返回奖励{rt}。
进一步的,所述S6步骤中的神经网络训练过程如下:
S6.1初始化环境信息和Q网络参数,生成车辆运行数据。
S6.2在每个训练回合,更新并获取当前车辆位置和环境状态,重置中继选择和波束分配策略。
S6.3、根据当前的状态信息和贪心算法为目标车辆选择一个动作,即链路选择,波束分配和中继车辆的组合方案,并更新环境的信息。
S6.4、获得所有目标车辆的动作组合方案,进而获得与容量相关的奖励值rc,i和返回的奖励值{rt}。
S6.5、将t时刻状态,动作,奖励和下一状态作为一个样本存储进经验池中。
S6.6、当经验池样本数足够多时,开始学习。从经验池中随机抽取小批量样本(st,at,rt,st+1),进行网络参数的训练,并更新目标网络权重。
本发明DQN网络示意图如图5所示。
图6为本发明不同方案在不同的交通图案下的***性能和各车辆性能对比示意图。其中永久性阻塞的穿透系数为0.3,临时性阻塞的穿透系数为0.8。通过随机生成15种不同的交通模式和环境条件,对比分析了4辆随机服务车辆在不同方案下的***总容量性能。最大容量方案为通过遍历所有波束和中继车辆的可用组合,选择实现最大总容量的最优策略,JoBARS策略为本发明所提出的方案,随机中继策略为随机在所有可选波束和中继车辆组合中选择一个组合,直连传输策略为基站根据现请求先服务的原则,依照目标车辆的位置分配特定的波束。显然,JoBARS策略的性能远优于随机中继策略和直连传输策略,并且该方案与最大容量方案非常接近,说明了该方案的有效性和鲁棒性。另一方面,图中通过随机选取若干交通图案来进行性能对比,相比于最大容量策略需要耗费大量时间遍历所有的可能性,基于DRL的JoBARS策略能够快速地适应车联网环境时变的特性,说明了该方案的高效性。
直连传输方案的曲线表明了在直线传输路径存在严重的阻塞的情况下,性能将急剧下降(如第1个交通图案)。而即使直连传输没有被阻塞,JoBARS策略的传输性能也优于直连传输策略(如第2个交通图案)。同时,图中还使用两个子图分别描述了在15个随机交通图案下每个目标车辆的性能。可以看出,JoBARS策略在作出使所有车辆的总容量最大化的决策时,不会过多的牺牲每辆车的性能,而最大容量方案优势会牺牲掉部分车辆的服务质量以使***总容量达到最大(如第6个交通图案)。
图7为本发明不同方案在不同容量阈值限制下的平均连接概率。通过给每个车辆设立不同的服务传输质量要求,分析四种方案在不同传输容量阈值下的性能。从图中可以看出,随着容量阈值的不断增加,随机中继方案和直连传输方案的平均连接概率先缓慢下降后急剧下降,而JoBARS策略和最大容量策略的平均连接概率先保持不变后缓慢下降。当容量阈值小于12Gbps时,JoBARS策略也能为所有服务车辆提供稳定的通信过程,平均中断概率性能优于最大容量方案。并且及时在高速率的业务中,JoBARS方案也能实现接近最大容量方案的稳定通信。正如前文所示,这是因为JoBARS的目标是在最大化总容量的同时保证每辆车的通信质量,而最大容量方案值关注于总容量的最大化,因此在一些交通图案下会牺牲部分车辆的服务质量。
本发明对于现有技术具有的优点及效果:本发明研究了毫米波车辆下多用户服务问题,通过联合设计,提出了一个基于DRL的JoBARS策略,能够帮助毫米波基站仅根据当前的交通模式快速做出最优决策,以最大化***整体的通信能力。模型中,本发明考虑了车辆的高速移动特性,波束分配和中继选择过程中的竞争博弈,个体用户的通信需求和***整体性能的冲突,以及多用户通信场景下的干扰等问题。并且模型的仿真结果表明,本发明提出的方法能显著地提升包括***总容量,个体车辆用户容量,服务连接概率等方面的性能。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种毫米波车联网联合波束分配和中继选择方法,其特征在于,所述毫米波车联网联合波束分配和中继选择方法包括以下步骤:
步骤一,构建单基站的毫米波车联网通信场景,所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务;
步骤二,针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模;
步骤三,基站通过与周围的环境信息作用,获取当前时刻的状态信息,包括目标车辆和潜在中继车辆的信息,波束信息和阻塞信息,作为深度强化学习的状态输入;其中,所述深度强化学习采用DQN算法;
步骤四,基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路;当前状态的动作为传输链路、波束分配和中继车辆的组合方案;
步骤五,根据步骤二构建的模型和策略,设计奖励机制和神经网络的结构;
步骤六,利用步骤五的DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各种输入状态下不同动作的Q值,根据∈-greedy策略选择当前状态下的动作,并结合步骤五的奖励机制训练和更新神经网络参数;
步骤七,基站利用训练好的DQN网络,将当前环境的状态信息作为状态输入,输出当前状态下采用相应动作的Q值序列,将Q值最大的动作作为当前状态下目标车辆的链路选择,波束分配和中继车辆的策略。
2.如权利要求1所述毫米波车联网联合波束分配和中继选择方法,其特征在于,步骤一中,所述构建单基站的毫米波车联网通信场景,包括:
(1)利用排队论对车辆的到达过程进行建模,车辆到达的时间间隔t服从负指数分数,概率密度函数如下所示:
Figure FDA0003234227800000011
(2)在某个时隙,道路上有Nv辆车在行驶,其中有
Figure FDA0003234227800000012
辆需要提供服务的目标车辆;基站拥有一个正交波束的有限集合B={Bk,k=1,2,...,NB},同时选择
Figure FDA0003234227800000023
个波束为多个用户提供数据传输服务,其中
Figure FDA0003234227800000024
并且每个波束只能为一个用户提供服务;
(3)临时性随机阻塞和永久性阻塞对***性能的影响,且当毫米波基站不能为目标车辆提供可靠的直连链路传输时,选择空闲车辆作为中继节点,实现信息转发的过程。
3.如权利要求1所述毫米波车联网联合波束分配和中继选择方法,其特征在于,步骤二中,所述针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模,包括:
(1)在城市场景中,采用路径损耗模型来近似毫米波信号在传输过程中的路径损耗L(Ti,Rj):
L(Ti,Rj)=μ1log10fc2log10d3D3
其中,fc为载波频率;d3D为发射端和接收端的欧几里得距离;μi是路径损耗参数,与不同通信场景有关;
(2)发射端和接收端间的信道增益为gTR,包括下行链路信道增益gTR,1和中继转发信道增益gTR,2
gTR=LTRαTR
其中,αTR为阻塞的穿透系数,包括两种阻塞影响:永久性阻塞和随机阻塞;
(3)利用二维扇区模型模拟毫米波基站的天线方向图,基站和车辆的的天线增益GB(θ)和Gb(θ):
Figure FDA0003234227800000021
Figure FDA0003234227800000022
其中,θB和θb分别为基站波束的主瓣宽度和车辆波束的主瓣宽度;
(4)利用放大转发AF的中继策略降低车辆的计算复杂度,保证信息传输的超低时延;其中,所述AF放大增益为βR为:
Figure FDA0003234227800000031
其中,PtR为中继车辆的发射功率,PrR为中继车辆的接收功率;
(5)目标车辆
Figure FDA0003234227800000039
通过直连链路传输或中继传输链路接收到的信干噪比SINR分别为:ξ1和ξ2;两种类型的干扰:基站下行链路传输过程和其他目标车辆的中继转发过程,每种干扰包括波束的主瓣干扰和旁瓣干扰;
Figure FDA0003234227800000032
Figure FDA0003234227800000033
其中,PtB为基站的发射功率,
Figure FDA0003234227800000034
为信道噪声功率;I1和I2分别为目标车辆通过直连链路和中继转发链路传输时所受到的干扰:
Figure FDA0003234227800000035
Figure FDA0003234227800000036
其中,ρB,k为基站波束选择的二进制指示器,当ρB,k=1时表明第k个波束为目标车辆v*服务,ρB,k=0则表明不服务;ρI,i为二进制的干扰指示器,ρI,i=1表明目标车辆v*收到其他中继车辆的传输过程的干扰;
(6)经过不同传输链路得到的信道容量为:
C1=Wlog(1+ξ1)
C2=Wlog(1+ξ2);
其中,W为频谱带宽,进而得到目标车辆
Figure FDA0003234227800000037
的信道容量为:
Figure FDA00032342278000000310
其中,ρl为二进制的链路指示器;ρl=1表明基站为目标车辆
Figure FDA0003234227800000038
选择直连传输链路,ρl=0则表明基站为目标车辆选择中继传输链路;
(7)目标车辆服务所需的容量门限为γ,满足以下条件:
Figure FDA0003234227800000045
进而得到***的传输概率为:
Figure FDA0003234227800000046
(8)最大化所有目标车辆的总容量的同时保证每个目标车辆的通信质量和可靠性,目标函数为:
Figure FDA0003234227800000041
Subject to:
Figure FDA0003234227800000042
Figure FDA0003234227800000043
Figure FDA0003234227800000044
其中,C1表明一个目标车辆被一个波束所服务,C2表明一个波束只能服务一辆目标车辆,并且基站只能同时为
Figure FDA0003234227800000047
辆车提供服务;C3表明每个目标车辆的服务质量均需大于容量门限阈值。
4.如权利要求1所述毫米波车联网联合波束分配和中继选择方法,其特征在于,步骤三中,所述目标车辆和潜在中继车辆的信息,包括车辆速度、位置坐标、当前状态和容量阈值;所述波束信息,包括波束分配信息、波束宽度、波束角度和波束覆盖区域;所述阻塞信息,包括阻塞分布信息、阻塞覆盖区域和阻塞穿透系数。
5.如权利要求1所述毫米波车联网联合波束分配和中继选择方法,其特征在于,步骤四中,所述基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路,包括:
(1)动作空间采用一个三维坐标系来表示,x轴代表链路的选择,y轴代表潜在中继的选择,z轴代表可选波束的选择;设潜在中继的车辆为NR,得到动作空间的维度为2×NR×NB,其中2表明基站可以为目标车辆选择直连链路传输或中继链路传输;
(2)采用∈-greedy策略来权衡训练过程和利用过程;在t时刻,基站以1-∈的概率选择让Q函数最大的动作,以∈的概率从状态空间A中选择一个动作。
6.如权利要求1所述毫米波车联网联合波束分配和中继选择方法,其特征在于,步骤五中,所述根据构建的模型和策略,设计奖励机制和神经网络的结构,包括:
(1)根据目标车辆的容量值的大小将奖励划分为Nω个档位;
(2)当基站作出一个不好的动作,导致波束或中继车辆冲突的动作时,目标车辆的容量值为0,故设置容量奖励{rc,i}为一个负值;当目标车辆的容量值没有满足阈值条件约束时,将容量奖励{rc,i}设置为0,进而得到基站处在不同的状态{St}下获得的返回奖励{rt}。
7.如权利要求1所述毫米波车联网联合波束分配和中继选择方法,其特征在于,步骤六中,所述利用DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各种输入状态下不同动作的Q值,根据∈-greedy策略选择当前状态下的动作,并结合奖励机制训练和更新神经网络参数,包括:
(1)初始化环境信息和Q网络参数,生成车辆运行数据;
(2)在每个训练回合,更新并获取当前车辆位置和环境状态,重置中继选择和波束分配策略;
(3)根据当前的状态信息和贪心算法为目标车辆选择一个动作,即链路选择,波束分配和中继车辆的组合方案,并更新环境的信息;
(4)获得所有目标车辆的动作组合方案,进而获得与容量相关的奖励值rc,i和返回的奖励值{rt};
(5)将t时刻状态,动作,奖励和下一状态作为一个样本存储进经验池中;
(6)当经验池样本数足够多时,开始学习;从经验池中随机抽取小批量样本(st,at,rt,st+1),进行网络参数的训练,并更新目标网络权重。
8.一种实施权利要求1~7任意一项所述毫米波车联网联合波束分配和中继选择方法的毫米波车联网联合波束分配和中继选择***,其特征在于,所述毫米波车联网联合波束分配和中继选择***包括:
通信场景构建模块,用于构建单基站的毫米波车联网通信场景,所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务;
模型构建模块,用于针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模;
状态信息获取模块,用于基站通过与周围的环境信息作用,获取当前时刻的状态信息,包括目标车辆和潜在中继车辆的信息,波束信息和阻塞信息,作为深度强化学习的状态输入;其中,所述深度强化学习采用DQN算法;
传输链路选择模块,用于基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路;其中,所述当前状态的动作为传输链路、波束分配和中继车辆的组合方案;
结构设计模块,用于根据模型构建模块构建的模型和策略,设计奖励机制和神经网络的结构;
更新模块,用于利用结构设计模块的DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各种输入状态下不同动作的Q值,根据∈-greedy策略选择当前状态下的动作,结合结构设计模块的奖励机制训练和更新神经网络参数;
策略确定模块,用于通过基站利用训练好的DQN网络,将当前环境的状态信息作为状态输入,输出当前状态下采用相应动作的Q值序列,将Q值最大的动作作为当前状态下目标车辆的链路选择、波束分配和中继车辆的策略。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
构建单基站的毫米波车联网通信场景,所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务;针对不同链路的传输过程,对通信过程、优化目标、容量阈值约束和联合优化问题进行建模;基站通过与周围的环境信息作用,获取当前时刻的状态信息,包括目标车辆和潜在中继车辆的信息,波束信息和阻塞信息,作为深度强化学习的状态输入;其中,所述深度强化学习采用DQN算法;
基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路;当前状态的动作为传输链路、波束分配和中继车辆的组合方案;根据构建的模型和策略,设计奖励机制和神经网络的结构;利用DQN神经网络提取当前状态的输入特征,拟合Q函数,得到各种输入状态下不同动作的Q值,根据∈-greedy策略选择当前状态下的动作,并结合奖励机制训练和更新神经网络参数;
基站利用训练好的DQN网络,将当前环境的状态信息作为状态输入,输出当前状态下采用相应动作的Q值序列,将Q值最大的动作作为当前状态下目标车辆的链路选择,波束分配和中继车辆的策略。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求8所述毫米波车联网联合波束分配和中继选择***。
CN202110997198.5A 2021-08-27 2021-08-27 毫米波车联网联合波束分配和中继选择方法、***及设备 Active CN113709701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110997198.5A CN113709701B (zh) 2021-08-27 2021-08-27 毫米波车联网联合波束分配和中继选择方法、***及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110997198.5A CN113709701B (zh) 2021-08-27 2021-08-27 毫米波车联网联合波束分配和中继选择方法、***及设备

Publications (2)

Publication Number Publication Date
CN113709701A true CN113709701A (zh) 2021-11-26
CN113709701B CN113709701B (zh) 2022-06-17

Family

ID=78656133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110997198.5A Active CN113709701B (zh) 2021-08-27 2021-08-27 毫米波车联网联合波束分配和中继选择方法、***及设备

Country Status (1)

Country Link
CN (1) CN113709701B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114362888A (zh) * 2022-01-24 2022-04-15 厦门大学 一种提升无线通信下行链路传输性能的方法
CN114845332A (zh) * 2022-05-05 2022-08-02 东南大学 基于视觉信息融合的毫米波通信链路阻塞预测方法
CN115580879A (zh) * 2022-09-07 2023-01-06 重庆邮电大学 一种基于联邦强化学习的毫米波网络波束管理方法
CN115866559A (zh) * 2022-11-25 2023-03-28 西安电子科技大学 一种非正交多址接入辅助的车联网低能耗安全卸载方法
CN116193528A (zh) * 2022-11-11 2023-05-30 深圳市摩尔环宇通信技术有限公司 一种毫米波通信方法及相关存储介质和程序产品
CN116866824A (zh) * 2023-01-09 2023-10-10 广州世炬网络科技有限公司 毫米波中继设备组网的连接控制方法、装置、设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109803344A (zh) * 2018-12-28 2019-05-24 北京邮电大学 一种无人机网络拓扑及路由联合构建方法
US20190372644A1 (en) * 2018-06-01 2019-12-05 Samsung Electronics Co., Ltd. Method and apparatus for machine learning based wide beam optimization in cellular network
CN110636523A (zh) * 2019-09-20 2019-12-31 中南大学 一种基于q学习的毫米波移动回程链路能量效率稳定方案
CN110784852A (zh) * 2019-10-15 2020-02-11 中国科学院自动化研究所 基于在线链路持续时间预测的v2v路由选择方法
CN110995858A (zh) * 2019-12-17 2020-04-10 大连理工大学 一种基于深度q网络的边缘网络请求调度决策方法
CN111431646A (zh) * 2020-03-31 2020-07-17 北京邮电大学 一种毫米波***中的动态资源分配方法
CN111885671A (zh) * 2020-07-17 2020-11-03 燕山大学 一种基于深度强化学习的水下联合中继选择和功率分配方法
WO2021058583A1 (en) * 2019-09-25 2021-04-01 Deepmind Technologies Limited Training action selection neural networks using q-learning combined with look ahead search
CN112910534A (zh) * 2021-01-18 2021-06-04 广州大学 基于数据驱动的中继选择方法、***、装置及介质
CN112995950A (zh) * 2021-02-07 2021-06-18 华南理工大学 一种车联网中基于深度强化学习的资源联合分配方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190372644A1 (en) * 2018-06-01 2019-12-05 Samsung Electronics Co., Ltd. Method and apparatus for machine learning based wide beam optimization in cellular network
CN109803344A (zh) * 2018-12-28 2019-05-24 北京邮电大学 一种无人机网络拓扑及路由联合构建方法
CN110636523A (zh) * 2019-09-20 2019-12-31 中南大学 一种基于q学习的毫米波移动回程链路能量效率稳定方案
WO2021058583A1 (en) * 2019-09-25 2021-04-01 Deepmind Technologies Limited Training action selection neural networks using q-learning combined with look ahead search
CN110784852A (zh) * 2019-10-15 2020-02-11 中国科学院自动化研究所 基于在线链路持续时间预测的v2v路由选择方法
CN110995858A (zh) * 2019-12-17 2020-04-10 大连理工大学 一种基于深度q网络的边缘网络请求调度决策方法
CN111431646A (zh) * 2020-03-31 2020-07-17 北京邮电大学 一种毫米波***中的动态资源分配方法
CN111885671A (zh) * 2020-07-17 2020-11-03 燕山大学 一种基于深度强化学习的水下联合中继选择和功率分配方法
CN112910534A (zh) * 2021-01-18 2021-06-04 广州大学 基于数据驱动的中继选择方法、***、装置及介质
CN112995950A (zh) * 2021-02-07 2021-06-18 华南理工大学 一种车联网中基于深度强化学习的资源联合分配方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A. DIMAS;K. DIAMANTARAS;A. P. PETROPULU: "Q-Learning Based Predictive Relay Selection for Optimal Relay Beamforming", 《ICASSP 2020 - 2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
H. ZHANG;S. CHONG;X. ZHANG;N. LIN: "A Deep Reinforcement Learning Based D2D Relay Selection and Power Level Allocation in mmWave Vehicular Networks", 《IEEE WIRELESS COMMUNICATIONS LETTERS》 *
潘安劼: "毫米波MassiveMIMO***中的波束分配算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑(2018年第11期)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114362888A (zh) * 2022-01-24 2022-04-15 厦门大学 一种提升无线通信下行链路传输性能的方法
CN114362888B (zh) * 2022-01-24 2024-01-19 厦门大学 一种提升无线通信下行链路传输性能的方法
CN114845332A (zh) * 2022-05-05 2022-08-02 东南大学 基于视觉信息融合的毫米波通信链路阻塞预测方法
CN115580879A (zh) * 2022-09-07 2023-01-06 重庆邮电大学 一种基于联邦强化学习的毫米波网络波束管理方法
CN116193528A (zh) * 2022-11-11 2023-05-30 深圳市摩尔环宇通信技术有限公司 一种毫米波通信方法及相关存储介质和程序产品
CN116193528B (zh) * 2022-11-11 2023-09-05 深圳市摩尔环宇通信技术有限公司 一种毫米波通信方法及相关存储介质和程序产品
CN115866559A (zh) * 2022-11-25 2023-03-28 西安电子科技大学 一种非正交多址接入辅助的车联网低能耗安全卸载方法
CN115866559B (zh) * 2022-11-25 2024-04-30 西安电子科技大学 一种非正交多址接入辅助的车联网低能耗安全卸载方法
CN116866824A (zh) * 2023-01-09 2023-10-10 广州世炬网络科技有限公司 毫米波中继设备组网的连接控制方法、装置、设备及介质
CN116866824B (zh) * 2023-01-09 2024-04-02 广东世炬网络科技有限公司 毫米波中继设备组网的连接控制方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113709701B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN113709701B (zh) 毫米波车联网联合波束分配和中继选择方法、***及设备
CN112616189B (zh) 一种静态和动态相结合的毫米波波束资源分配与优化方法
CN109068391B (zh) 基于边缘计算和Actor-Critic算法的车联网通信优化算法
Qiao et al. Proactive caching for mobile video streaming in millimeter wave 5G networks
CN110753319B (zh) 异构车联网中面向异质业务的分布式资源分配方法及***
CN114142907B (zh) 一种通信终端设备的信道筛选优化方法及***
CN112911555B (zh) 基于信息年龄的无线网络通信资源调度方法和***
CN114205791A (zh) 一种基于深度q学习的社交感知d2d协同缓存方法
CN112929944B (zh) 一种基于模糊逻辑和联盟图博弈的车联网协作内容分发方法
CN114867030B (zh) 双时间尺度智能无线接入网切片方法
CN116744311B (zh) 基于per-ddqn的用户组频谱接入方法
Ju et al. Deep reinforcement learning based joint beam allocation and relay selection in mmWave vehicular networks
CN114024639B (zh) 一种无线多跳网络中分布式信道分配方法
CN111083708A (zh) 一种基于干扰感知多图的v2v通信异质频谱分配方法
CN117412391A (zh) 一种基于增强型双深度q网络的车联网无线资源分配方法
Ju et al. DRL-based beam allocation in relay-aided multi-user mmWave vehicular networks
CN117460034A (zh) 一种智能反射面中继辅助的车联网功率分配和用户调度方法、***、设备及介质
CN113923743A (zh) 电力地下管廊的路由选择方法、装置、终端及存储介质
CN114615640A (zh) 基于中继激励机制的车联网协作通信方法、***及终端
CN116634450A (zh) 一种基于强化学习的动态空地异构网络用户关联增强方法
CN116505998A (zh) 基于深度强化学习的多波束卫星通信资源分配***及方法
CN115118783A (zh) 基于异构通信技术超可靠低时延强化学习的任务卸载方法
Zhu et al. Effective-capacity based auctions for relay selection over wireless cooperative communications networks
CN110475230A (zh) 蜂窝网络中d2d用户的资源分配方法、存储介质和终端
Toroujeni Game theory for multi-hop broadcast in wireless networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant