CN113709701A

CN113709701A - 一种毫米波车联网联合波束分配和中继选择方法

Info

Publication number: CN113709701A
Application number: CN202110997198.5A
Authority: CN
Inventors: 俱莹; 陈宇超; 王浩宇; 裴庆祺
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-26
Anticipated expiration: 2041-08-27
Also published as: CN113709701B

Abstract

本发明属于毫米波车联网通信技术领域，公开了一种毫米波车联网联合波束分配和中继选择方法，所述毫米波车联网联合波束分配和中继选择方法包括：构建单基站的毫米波车联网通信场景；对通信过程、优化目标、容量阈值约束和联合优化问题进行建模；获取当前时刻的状态信息，作为深度强化学习的状态输入；为目标车辆选择直连传输链路或中继传输链路；设计奖励机制和神经网络的结构；提取当前状态的输入特征，得到各种输入状态下不同动作的Q值，训练和更新神经网络参数；将Q值最大的动作作为当前状态下目标车辆的链路选择、波束分配和中继车辆的策略。本发明能够使得毫米波基站对复杂环境有着很强的适应能力，并且其性能明显优于基准方案。

Description

一种毫米波车联网联合波束分配和中继选择方法

技术领域

本发明属于毫米波车联网通信技术领域，尤其涉及一种毫米波车联网联合波束分配和中继选择方法。

背景技术

目前，新兴的毫米波通信和V2X(Vehicle-t-everything)通信技术为车联网和智能交通提供了各种数据传输服务。毫米波较小的波长能够集成大量天线支持超高的数据传输速率，并且通过特定的天线调制为信号发射方向提供更多的复用增益和波束形成增益。由于毫米波信号传输过程存在严重的路径损耗和阻塞效应，使得基站在为车辆提供服务的时候，其***性能和覆盖范围受到严重的影响，而毫米波通信***的中继方案能有效扩大通信覆盖范围和克服阻塞效应。当基站向超出范围和被障碍物阻挡的车辆用户发射信号时，可以利用空闲的中继节点将信号转发给目标用户，因此通过选择合适的中继节点能够有效地提高目标用户的信噪比。

然而当前的车联网中继方案主要集中在微波频段，无法适用于车联网毫米波的通信场景，并且考虑的多数为车联网全向广播的场景，使得在多用户通信场景下会产生严重的干扰。实际车联网场景中由于随机阻塞出现和车辆高速移动的特性，基站需要在不断地进行波束切换来为用户提供稳定的、高质量的数据传输服务。然而现有的波束选择方案无法有效地对抗随机阻塞带来的性能衰减。

现有的技术中，中继方案和波束方案往往被分离开来研究，并且主要考虑单用户的场景或多用户静态场景，这是由于将两种方案联合研究的复杂度高和车联网场景的动态性，无法用数学方法推理出低复杂度的最优解方案。而在实际的场景中，将中继方案和波束方案有机地结合起来能够有效地对抗阻塞效应和大幅度提升***的性能。

在实际的车联网多用户服务场景中，多个用户可能会竞争同一优质波束资源或中继资源，这将导致中继选择和波束分配的竞争博弈问题。同时在性能优化时，也存在***整体性能的提升和个体车辆的服务质量间的权衡问题。

因此，如何将中继选择和波束选择有机地联合起来，使得在有效对抗实际场景中的阻塞效应的同时，利用波束形成为发射信号提供更多的复用增益和波束增益；如何适应车联网中动态场景的快速变化和解决多用户通信的问题，并且满足车联网动态场景中快速决策的需求是毫米波车联网通信技术发展亟待解决的问题。

而近年来，各类具有较强计算和拟合能力的深度学习算法被应用到具体的通信场景中，可以有效解决***优化过程中的随机性、动态性和复杂性带来的挑战。因此，亟需一种毫米波车联网联合波束分配和中继选择方法。

通过上述分析，现有技术存在的问题及缺陷为：

(1)由于毫米波信号传输过程存在严重的路径损耗和阻塞效应，使得基站在为车辆提供服务的时候，其***性能和覆盖范围受到严重的影响。

(2)当前车联网中继方案主要集中在微波频段，无法适用于车联网毫米波的通信场景，并且考虑的多数为车联网全向广播的场景，使得在多用户通信场景下会产生严重的干扰。

(3)现有的波束选择方案无法有效地对抗随机阻塞带来的性能衰减；现有的技术中，由于将中继方案和波束方案联合研究的复杂度高和车联网场景的动态性，无法用数学方法推理出低复杂度的最优解方案。

解决以上问题及缺陷的难度为：在实际的车联网场景中，由于随机阻塞的出现和车辆高速移动的特性，使得在进行建模和分析时，无法用数学方法表征车联网场景的动态性和推理出低复杂度的最优方案。受到静态环境的限制，传统方案的决策时间较长，无法满足车联网动态场景中快速有效决策的需求。在多用户场景中，多个用户可能会竞争同一优质波束资源或中继资源，将导致中继选择和波束分配的竞争博弈问题；同时在性能优化时，也存在***整体性能的提升和个体车辆的服务质量间的权衡问题。

解决以上问题及缺陷的意义为：本发明提出了一种基于深度强化学习的联合波束分配和终极选择方法，能够突破静态环境的限制，克服由于随机阻塞的出现和车辆的高速移动性带来的性能衰减，满足车联网动态场景中快速有效决策的需求。在通信数据量不断增长的现状下，本发明在保证每个用户的通信质量的同时，显著提升***的总能效，使之能适用于动态车联网场景中的毫米波通信***和大容量通信场景，满足了日新月异的车联网通信技术的发展需求。

发明内容

针对现有技术存在的问题，本发明提供了一种毫米波车联网联合波束分配和中继选择方法，尤其涉及一种基于深度强化学习的毫米波车联网联合波束分配和中继选择方法、***、设备。

本发明是这样实现的，一种毫米波车联网联合波束分配和中继选择方法，所述毫米波车联网联合波束分配和中继选择方法包括以下步骤：

步骤一，构建单基站的毫米波车联网通信场景，所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务；为本发明搭建了动态车联网场景，以便于后续的建模和分析。

步骤二，针对不同链路的传输过程，对通信过程、优化目标、容量阈值约束和联合优化问题进行建模；为本发明后续进行的联合波束分配和中继选择奠定了基础。

步骤三，基站通过与周围的环境信息作用，获取当前时刻的状态信息，包括目标车辆和潜在中继车辆的信息，波束信息和阻塞信息，作为深度强化学习的状态输入；其中，所述深度强化学习采用DQN算法；为本发明后续进行快速决策奠定了基础。

步骤四，基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路；当前状态的动作为传输链路、波束分配和中继车辆的组合方案；该步骤为模型的训练奠定了基础。

步骤五，根据步骤二构建的模型和策略，设计奖励机制和神经网络的结构；该步骤为模型的收敛性和收敛时间提供了保证。

步骤六，利用步骤五的DQN神经网络提取当前状态的输入特征，拟合Q函数，得到各种输入状态下不同动作的Q值，根据∈-greedy策略选择当前状态下的动作，并结合步骤五的奖励机制训练和更新神经网络参数；为本发明模型训练的核心步骤。

步骤七，基站利用训练好的DQN网络，将当前环境的状态信息作为状态输入，输出当前状态下采用相应动作的Q值序列，将Q值最大的动作作为当前状态下目标车辆的链路选择，波束分配和中继车辆的策略。为本发明的方案验证和分析。

进一步，步骤一中，所述构建单基站的毫米波车联网通信场景，包括：

(1)利用排队论对车辆的到达过程进行建模，车辆到达的时间间隔t服从负指数分数，概率密度函数如下所示：

(2)在某个时隙，道路上有N_v辆车在行驶，其中有

辆需要提供服务的目标车辆；基站拥有一个正交波束的有限集合B＝{B_k，k＝1，2，...，N_B}，同时选择

个波束为多个用户提供数据传输服务，其中

并且每个波束只能为一个用户提供服务。

(3)考虑临时性随机阻塞和永久性阻塞对***性能的影响，且当毫米波基站不能为目标车辆提供可靠的直连链路传输时，选择空闲车辆作为中继节点，实现信息转发的过程。

进一步，步骤二中，所述针对不同链路的传输过程，对通信过程、优化目标、容量阈值约束和联合优化问题进行建模，包括：

(1)在城市场景中，采用路径损耗模型来近似毫米波信号在传输过程中的路径损耗L(T_i，R_j)：

L(T_i，R_j)＝μ₁log₁₀f_c+μ₂log₁₀d_3D+μ₃；

其中，f_c为载波频率；d_3D为发射端和接收端的欧几里得距离；μ_i是路径损耗参数，与不同通信场景有关。

(2)发射端和接收端间的信道增益为g_TR，包括下行链路信道增益g_TR，1和中继转发信道增益g_TR，2：

g_TR＝L_TRα_TR；

其中，α_TR为阻塞的穿透系数，包括两种阻塞影响：永久性阻塞和随机阻塞。

(3)利用二维扇区模型来模拟毫米波基站的天线方向图，基站和车辆的的天线增益G_B(θ)和G_b(θ)：

其中，θ_B和θ_b分别为基站波束的主瓣宽度和车辆波束的主瓣宽度。

(4)利用放大转发AF的中继策略降低车辆的计算复杂度，保证信息传输的超低实验；其中，所述AF放大增益为β_R为：

其中，P_tR为中继车辆的发射功率，P_rR为中继车辆的接收功率。

(5)目标车辆

通过直连链路传输ξ₁或中继传输链路ξ₂接收到的信干噪比SINR分别为：ξ₁和ξ₂；考虑两种类型的干扰：基站下行链路传输过程和其他目标车辆的中继转发过程，每种干扰包括波束的主瓣干扰和旁瓣干扰；

其中，P_tB为基站的发射功率，

为信道噪声功率；I₁和I₂分别为目标车辆通过直连链路和中继转发链路传输时所受到的干扰：

其中，ρ_B，k为基站波束选择的二进制指示器，当ρ_B，k＝1时表明第k个波束为目标车辆v^*服务，ρ_B，k＝0则表明不服务；ρ_I，i为二进制的干扰指示器，ρ_I，i＝1表明目标车辆v^*收到其他中继车辆的传输过程的干扰。

(6)经过不同传输链路得到的信道容量为：

C₁＝Wlog(1+ξ₁)

C₂＝Wlog(1+ξ₂)；

其中，W为频谱带宽，进而得到目标车辆

的信道容量为：

其中，ρ_l为二进制的链路指示器；ρ_l＝1表明基站为目标车辆

选择直连传输链路，ρ_l＝0则表明基站为目标车辆选择中继传输链路。

(7)目标车辆服务所需的容量门限为γ，满足以下条件：

进而得到***的传输概率为：

(8)最大化所有目标车辆的总容量的同时保证每个目标车辆的通信质量和可靠性，目标函数为：

Subject to

其中，C1表明一个目标车辆被一个波束所服务，C2表明一个波束只能服务一辆目标车辆，并且基站只能同时为

辆车提供服务；C3表明每个目标车辆的服务质量均需大于容量门限阈值。

进一步，步骤三中，所述目标车辆和潜在中继车辆的信息，包括车辆速度、位置坐标、当前状态和容量阈值；所述波束信息，包括波束分配信息、波束宽度、波束角度和波束覆盖区域；所述阻塞信息，包括阻塞分布信息、阻塞覆盖区域和阻塞穿透系数。

进一步，步骤四中，所述基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路，包括：

(1)动作空间采用一个三维坐标系来表示，x轴代表链路的选择，y轴代表潜在中继的选择，z轴代表可选波束的选择；设潜在中继的车辆为N_R，得到动作空间的维度为2×N_R×N_B，其中2表明基站可以为目标车辆选择直连链路传输或中继链路传输。

(2)采用∈-greedy策略来权衡训练过程和利用过程；在t时刻，基站以1-∈的概率选择让Q函数最大的动作，以∈的概率从状态空间A中选择一个动作。

进一步，步骤五中，所述根据构建的模型和策略，设计奖励机制和神经网络的结构，包括：

(1)根据目标车辆的容量值的大小将奖励划分为N_ω个档位。

(2)当基站作出一个不好的动作，导致波束或中继车辆冲突的动作时，目标车辆的容量值为0，故设置容量奖励{r_c，i}为一个负值；当目标车辆的容量值没有满足阈值条件约束时，将容量奖励{r_c，i}设置为0，进而得到基站处在不同的状态{S_t}下获得的返回奖励{r_t}。

进一步，步骤六中，所述利用DQN神经网络提取当前状态的输入特征，拟合Q函数，得到各种输入状态下不同动作的Q值，根据∈-greedy策略选择当前状态下的动作，并结合奖励机制训练和更新神经网络参数，包括：

(1)初始化环境信息和Q网络参数，生成车辆运行数据。

(2)在每个训练回合，更新并获取当前车辆位置和环境状态，重置中继选择和波束分配策略。

(3)根据当前的状态信息和贪心算法为目标车辆选择一个动作，即链路选择，波束分配和中继车辆的组合方案，并更新环境的信息。

(4)获得所有目标车辆的动作组合方案，进而获得与容量相关的奖励值r_c，i和返回的奖励值{r_t}。

(5)将t时刻状态，动作，奖励和下一状态作为一个样本存储进经验池中。

(6)当经验池样本数足够多时，开始学习；从经验池中随机抽取小批量样本(s_t，a_t，r_t，s_t+1)，进行网络参数的训练，并更新目标网络权重。

本发明的另一目的在于提供一种应用所述毫米波车联网联合波束分配和中继选择方法的毫米波车联网联合波束分配和中继选择***，所述毫米波车联网联合波束分配和中继选择***包括：

通信场景构建模块，用于构建单基站的毫米波车联网通信场景，所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务；

模型构建模块，用于针对不同链路的传输过程，对通信过程、优化目标、容量阈值约束和联合优化问题进行建模；

状态信息获取模块，用于基站通过与周围的环境信息作用，获取当前时刻的状态信息，包括目标车辆和潜在中继车辆的信息，波束信息和阻塞信息，作为深度强化学习的状态输入；其中，所述深度强化学习采用DQN算法；

传输链路选择模块，用于基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路；其中，所述当前状态的动作为传输链路、波束分配和中继车辆的组合方案；

结构设计模块，用于根据模型构建模块构建的模型和策略，设计奖励机制和神经网络的结构；

更新模块，用于利用结构设计模块的DQN神经网络提取当前状态的输入特征，拟合Q函数，得到各种输入状态下不同动作的Q值，根据∈-greedy策略选择当前状态下的动作，结合结构设计模块的奖励机制训练和更新神经网络参数；

策略确定模块，用于通过基站利用训练好的DQN网络，将当前环境的状态信息作为状态输入，输出当前状态下采用相应动作的Q值序列，将Q值最大的动作作为当前状态下目标车辆的链路选择、波束分配和中继车辆的策略。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

构建单基站的毫米波车联网通信场景，所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务；针对不同链路的传输过程，对通信过程、优化目标、容量阈值约束和联合优化问题进行建模；基站通过与周围的环境信息作用，获取当前时刻的状态信息，包括目标车辆和潜在中继车辆的信息，波束信息和阻塞信息，作为深度强化学习的状态输入；其中，所述深度强化学习采用DQN算法；

基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路；当前状态的动作为传输链路、波束分配和中继车辆的组合方案；根据构建的模型和策略，设计奖励机制和神经网络的结构；利用DQN神经网络提取当前状态的输入特征，拟合Q函数，得到各种输入状态下不同动作的Q值，根据∈-greedy策略选择当前状态下的动作，并结合奖励机制训练和更新神经网络参数；

基站利用训练好的DQN网络，将当前环境的状态信息作为状态输入，输出当前状态下采用相应动作的Q值序列，将Q值最大的动作作为当前状态下目标车辆的链路选择，波束分配和中继车辆的策略。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述毫米波车联网联合波束分配和中继选择***。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的毫米波车联网联合波束分配和中继选择方法，能够突破静态车联网分析场景的限制，克服了动态场景中由于障碍物阻塞和车辆的高速移动带来的性能衰减，满足动态车联网通信场景中的快速有效决策的需求。在通信数据量不断增长的现状下，本发明在保证每个用户的通信质量的同时，显著提升***的总能效，使之能适用于动态车联网场景中的毫米波通信***和大容量通信场景，填补了车联网通信技术的空白，满足了日新月异的车联网通信技术的发展需求，推动了车联网行业的发展和落地应用。本发明首先将联合优化问题建模为顺序决策问题，并利用深度Q学习方法进行求解；其次，在联合方案的设计中引入了信道容量的阈值限制，保证了各目标车辆的服务质量，避免了不合理的优化；最后，本发明利用排队论对车辆的动态过程进行了建模，以解决道路上永久性和随机阻塞的问题，使之更加接近实际场景。该方法能够使得毫米波基站对复杂环境有着很强的适应能力，能够迅速找到一个合理高效的策略，并且其性能优于基准方案。

本发明研究了毫米波车辆下多用户服务问题，通过联合设计，提出了一个基于DRL的JoBARS策略，能够帮助毫米波基站仅根据当前的交通模式快速做出最优决策，以最大化***整体的通信能力。模型中，本发明考虑了车辆的高速移动特性，波束分配和中继选择过程中的竞争博弈，个体用户的通信需求和***整体性能的冲突，以及多用户通信场景下的干扰等问题。并且模型的仿真结果表明，本发明提出的方法能显著地提升包括***总容量，个体车辆用户容量，服务连接概率等方面的性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的毫米波车联网联合波束分配和中继选择方法的流程图。

图2是本发明实施例提供的毫米波车联网联合波束分配和中继选择方法的原理图。

图3是本发明实施例提供的毫米波车联网联合波束分配和中继选择***的结构框图；

图中：1、通信场景构建模块；2、模型构建模块；3、状态信息获取模块；4、传输链路选择模块；5、结构设计模块；6、更新模块；7、策略确定模块。

图4是本发明实施例提供的车联网毫米波多用户通信场景示意图。

图5是本发明实施例提供的DQN网络示意图。

图6是本发明实施例提供的不同方案在不同的交通图案下的***性能和各车辆性能对比示意图。

图7是本发明实施例提供的不同方案在不同容量阈值限制下的平均连接概率示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种毫米波车联网联合波束分配和中继选择方法，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的毫米波车联网联合波束分配和中继选择方法包括以下步骤：

S101，构建单基站的毫米波车联网通信场景，所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务；

S102，针对不同链路的传输过程，对通信过程、优化目标、容量阈值约束和联合优化问题进行建模；

S103，基站通过与周围的环境信息作用，获取当前时刻的状态信息，包括目标车辆和潜在中继车辆的信息，波束信息和阻塞信息，作为深度强化学习的状态输入；其中，所述深度强化学习采用DQN算法；

S104，基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路；当前状态的动作为传输链路、波束分配和中继车辆的组合方案；

S105，根据S102构建的模型和策略，设计奖励机制和神经网络的结构；

S106，利用S105的DQN神经网络提取当前状态的输入特征，拟合Q函数，得到各种输入状态下不同动作的Q值，根据∈-greedy策略选择当前状态下的动作，并结合S105的奖励机制训练和更新神经网络参数；

S107，基站利用训练好的DQN网络，将当前环境的状态信息作为状态输入，输出当前状态下采用相应动作的Q值序列，将Q值最大的动作作为当前状态下目标车辆的链路选择，波束分配和中继车辆的策略。

本发明实施例提供的毫米波车联网联合波束分配和中继选择方法的原理图如图2所示。

如图3所示，本发明实施例提供的毫米波车联网联合波束分配和中继选择***包括：

通信场景构建模块1，用于构建单基站的毫米波车联网通信场景，所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务；

模型构建模块2，用于针对不同链路的传输过程，对通信过程、优化目标、容量阈值约束和联合优化问题进行建模；

状态信息获取模块3，用于通过基站利用与周围的环境信息作用，获取当前时刻的状态信息，包括目标车辆和潜在中继车辆的信息，波束信息和阻塞信息，作为深度强化学习的状态输入；其中，所述深度强化学习采用DQN算法；

传输链路选择模块4，用于基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路；其中，所述当前状态的动作为传输链路、波束分配和中继车辆的组合方案；

结构设计模块5，用于根据模型构建模块构建的模型和策略，设计奖励机制和神经网络的结构；

更新模块6，用于利用结构设计模块的DQN神经网络提取当前状态的输入特征，拟合Q函数，得到各输入状态下不同动作的Q值，根据∈-greedy策略选择当前状态下的动作，结合结构设计模块的奖励机制训练和更新神经网络参数；

策略确定模块7，用于通过基站利用训练好的DQN网络，将当前环境的状态信息作为状态输入，输出当前状态下采用相应动作的Q值序列，将Q值最大的动作作为当前状态下目标车辆的链路选择、波束分配和中继车辆的策略。

下面结合具体实施例对本发明的技术方案作进一步描述。

本发明针对现有研究技术的不足，提出了一种基于深度强化学习的联合波束分配和中继选择方法，该方法能够克服由于障碍物阻塞和车辆的高速移动带来的性能衰减，并且在保证每个服务用户的通信的同时，提高***的总能效。首先将联合优化问题建模为顺序决策问题，并利用深度Q学习方法进行求解。其次，本发明在联合方案的设计中引入了信道容量的阈值限制，保证了各目标车辆的服务质量，避免了不合理的优化。最后，本发明利用排队论对车辆的动态过程进行了建模，以解决道路上永久性和随机阻塞的问题，使之更加接近实际场景。该方法能够使得毫米波基站对复杂环境有着很强的适应能力，能够迅速找到一个合理高效的策略，并且其性能优于基准方案。

本发明所采用技术方案包括以下步骤：

S1、构建一个单基站的毫米波车联网通信场景，基站需要同时为一个双向多车道上的多个车辆用户提供数据传输服务。

S2、针对不同链路的传输过程，对通信过程、优化目标、容量阈值约束和联合优化问题进行建模。

S3、基站通过与周围的环境信息作用，获取当前时刻的状态信息，包括目标车辆和潜在中继车辆的信息(包括车辆速度、位置坐标、当前状态、容量阈值)，波束信息(包括波束分配信息，波束宽度，波束角度，波束覆盖区域)和阻塞信息(包括阻塞分布信息，阻塞覆盖区域，阻塞穿透系数)，作为深度强化学习的状态输入。其中深度强化学习采用DQN算法。

S4、基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路。当前状态的动作为传输链路、波束分配和中继车辆的组合方案。

S5、根据S2中构建的模型和策略，设计奖励机制和神经网络的结构。

S6、利用S5中的DQN神经网络提取当前状态的输入特征，拟合Q函数，得到各种输入状态下不同动作的Q值，根据∈-greedy策略选择当前状态下的动作，并结合S5中的奖励机制训练和更新神经网络参数。

S7、基站利用训练好的DQN网络，将当前环境的状态信息作为状态输入，输出当前状态下采用相应动作的Q值序列，将Q值最大的动作作为当前状态下目标车辆的链路选择，波束分配和中继车辆的策略。

本发明的车联网毫米波多用户通信场景示意图如图4所示。

进一步的，所述S1步骤过程如下：

S1.1、利用排队论对车辆的到达过程进行建模，车辆到达的时间间隔t服从车辆到达率为λ的负指数分布，其概率密度函数如下所示：

S1.2、在某个时隙，道路上有N_v辆车在行驶，其中有

辆需要提供服务的目标车辆。基站拥有一个正交波束的有限集合B＝{B_k，k＝1，2，...，N_B}，能够同时选择

个波束为多个用户提供数据传输服务(其中

)，并且每个波束只能为一个用户提供服务。

S1.3、考虑临时性随机阻塞和永久性阻塞对***性能的影响，以更好地逼近实际的复杂的通信环境。并且当毫米波基站不能为目标车辆提供可靠的直连链路传输时，可以选择空闲车辆作为中继节点，实现信息转发的过程。

进一步的，所述S2步骤过程如下：

S2.1、在城市场景中，采用路径损耗模型来近似毫米波信号在传输过程中的路径损耗L(T_i，R_j)。

L(T_i，R_j)＝μ₁log₁₀f_c+μ₂log₁₀d_3D+μ₃

其中f_c为载波频率；d_3D为发射端和接收端的欧几里得距离；μ_i是路径损耗参数，与不同通信场景有关。

S2.2、发射端和接收端间的信道增益为g_TR(分为下行链路信道增益g_TR，1和中继转发信道增益g_TR，2)。

g_TR＝L_TRα_TR

其中α_TR为阻塞的穿透系数，考虑两种阻塞的影响：永久性阻塞(比如建筑物)和随机阻塞(比如：大型公交车的暂时阻挡)。

S2.3、利用二维扇区模型来模拟毫米波基站的天线方向图，基站和车辆的的天线增益G_B(θ)和G_b(θ)。

其中θ_B和θ_b分别为基站波束的主瓣宽度和车辆波束的主瓣宽度。

S2.4、利用放大转发(AF)的中继策略降低车辆的计算复杂度，保证信息传输的超低实验。AF放大增益为β_R为：

S2.5目标车辆

通过直连链路传输ξ₁或中继传输链路ξ₂接收到的信干噪比(SINR)分别为：ξ₁和ξ₂。并且考虑两种类型的干扰：基站下行链路传输过程和其他目标车辆的中继转发过程，每种干扰包括波束的主瓣干扰和旁瓣干扰。

其中p_tB为基站的发射功率，

为信道噪声功率。I₁和I₂分别为目标车辆通过直连链路和中继转发链路传输时所受到的干扰。

其中ρ_B，k为基站波束选择的二进制指示器，当ρ_B，k＝1时表明第k个波束为目标车辆v^*服务，ρ_B，k＝0则表明不服务。ρ_I，i为二进制的干扰指示器，ρ_I，i＝1表明目标车辆v^*收到其他中继车辆的传输过程的干扰。

S2.6、经过不同传输链路得到的信道容量为：

C₁＝Wlog(1+ξ₁)

C₂＝Wlog(1+ξ₂)

其中W为频谱带宽。进而可以得到目标车辆

的信道容量为：

其中ρ_l为二进制的链路指示器。ρ_l＝1表明基站为目标车辆

选择了直连传输链路，ρ_l＝0则表明基站为目标车辆选择了中继传输链路。

S2.7、目标车辆服务所需的容量门限为γ，满足以下条件：

进而可以得到***的传输概率为：

S2.8、最大化所有目标车辆的总容量的同时保证每个目标车辆的通信质量和可靠性，目标函数为：

Subject to：

辆车提供服务。C3表明每个目标车辆的服务质量都需要大于容量门限阈值。

进一步的，所述S4步骤过程如下：

S4.1、动作空间采用一个三维坐标系来表示，x轴代表链路的选择，y轴代表潜在中继的选择，z轴代表可选波束的选择。设潜在中继的车辆为N_R，可以得到动作空间的维度为2×N_R×N_B，其中2表明基站可以为目标车辆选择直连链路传输或中继链路传输。

S4.2、采用∈-greedy策略来权衡训练过程和利用过程。在t时刻，基站以1-∈的概率选择让Q函数最大的动作，以∈的概率从状态空间A中选择一个动作。

进一步的，所述S5步骤过程如下：

S5.1、根据目标车辆的容量值的大小将奖励划分为N_ω个档位。

S5.2、当基站作出一个不好的动作，导致波束或中继车辆冲突的动作时，目标车辆的容量值为0，因此设置其容量奖励{r_c，i}为一个负值。而当目标车辆的容量值没有满足阈值条件约束时，将容量奖励{r_c，i}设置为0。进而可以得到基站处在不同的状态{S_t}下获得的返回奖励{r_t}。

进一步的，所述S6步骤中的神经网络训练过程如下：

S6.1初始化环境信息和Q网络参数，生成车辆运行数据。

S6.2在每个训练回合，更新并获取当前车辆位置和环境状态，重置中继选择和波束分配策略。

S6.3、根据当前的状态信息和贪心算法为目标车辆选择一个动作，即链路选择，波束分配和中继车辆的组合方案，并更新环境的信息。

S6.4、获得所有目标车辆的动作组合方案，进而获得与容量相关的奖励值r_c，i和返回的奖励值{r_t}。

S6.5、将t时刻状态，动作，奖励和下一状态作为一个样本存储进经验池中。

S6.6、当经验池样本数足够多时，开始学习。从经验池中随机抽取小批量样本(s_t，a_t，r_t，s_t+1)，进行网络参数的训练，并更新目标网络权重。

本发明DQN网络示意图如图5所示。

图6为本发明不同方案在不同的交通图案下的***性能和各车辆性能对比示意图。其中永久性阻塞的穿透系数为0.3，临时性阻塞的穿透系数为0.8。通过随机生成15种不同的交通模式和环境条件，对比分析了4辆随机服务车辆在不同方案下的***总容量性能。最大容量方案为通过遍历所有波束和中继车辆的可用组合，选择实现最大总容量的最优策略，JoBARS策略为本发明所提出的方案，随机中继策略为随机在所有可选波束和中继车辆组合中选择一个组合，直连传输策略为基站根据现请求先服务的原则，依照目标车辆的位置分配特定的波束。显然，JoBARS策略的性能远优于随机中继策略和直连传输策略，并且该方案与最大容量方案非常接近，说明了该方案的有效性和鲁棒性。另一方面，图中通过随机选取若干交通图案来进行性能对比，相比于最大容量策略需要耗费大量时间遍历所有的可能性，基于DRL的JoBARS策略能够快速地适应车联网环境时变的特性，说明了该方案的高效性。

直连传输方案的曲线表明了在直线传输路径存在严重的阻塞的情况下，性能将急剧下降(如第1个交通图案)。而即使直连传输没有被阻塞，JoBARS策略的传输性能也优于直连传输策略(如第2个交通图案)。同时，图中还使用两个子图分别描述了在15个随机交通图案下每个目标车辆的性能。可以看出，JoBARS策略在作出使所有车辆的总容量最大化的决策时，不会过多的牺牲每辆车的性能，而最大容量方案优势会牺牲掉部分车辆的服务质量以使***总容量达到最大(如第6个交通图案)。

图7为本发明不同方案在不同容量阈值限制下的平均连接概率。通过给每个车辆设立不同的服务传输质量要求，分析四种方案在不同传输容量阈值下的性能。从图中可以看出，随着容量阈值的不断增加，随机中继方案和直连传输方案的平均连接概率先缓慢下降后急剧下降，而JoBARS策略和最大容量策略的平均连接概率先保持不变后缓慢下降。当容量阈值小于12Gbps时，JoBARS策略也能为所有服务车辆提供稳定的通信过程，平均中断概率性能优于最大容量方案。并且及时在高速率的业务中，JoBARS方案也能实现接近最大容量方案的稳定通信。正如前文所示，这是因为JoBARS的目标是在最大化总容量的同时保证每辆车的通信质量，而最大容量方案值关注于总容量的最大化，因此在一些交通图案下会牺牲部分车辆的服务质量。

本发明对于现有技术具有的优点及效果：本发明研究了毫米波车辆下多用户服务问题，通过联合设计，提出了一个基于DRL的JoBARS策略，能够帮助毫米波基站仅根据当前的交通模式快速做出最优决策，以最大化***整体的通信能力。模型中，本发明考虑了车辆的高速移动特性，波束分配和中继选择过程中的竞争博弈，个体用户的通信需求和***整体性能的冲突，以及多用户通信场景下的干扰等问题。并且模型的仿真结果表明，本发明提出的方法能显著地提升包括***总容量，个体车辆用户容量，服务连接概率等方面的性能。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种毫米波车联网联合波束分配和中继选择方法，其特征在于，所述毫米波车联网联合波束分配和中继选择方法包括以下步骤：

步骤一，构建单基站的毫米波车联网通信场景，所述基站同时为一个双向多车道上的多个车辆用户提供数据传输服务；

步骤二，针对不同链路的传输过程，对通信过程、优化目标、容量阈值约束和联合优化问题进行建模；

步骤三，基站通过与周围的环境信息作用，获取当前时刻的状态信息，包括目标车辆和潜在中继车辆的信息，波束信息和阻塞信息，作为深度强化学习的状态输入；其中，所述深度强化学习采用DQN算法；

步骤四，基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路；当前状态的动作为传输链路、波束分配和中继车辆的组合方案；

步骤五，根据步骤二构建的模型和策略，设计奖励机制和神经网络的结构；

步骤六，利用步骤五的DQN神经网络提取当前状态的输入特征，拟合Q函数，得到各种输入状态下不同动作的Q值，根据∈-greedy策略选择当前状态下的动作，并结合步骤五的奖励机制训练和更新神经网络参数；

步骤七，基站利用训练好的DQN网络，将当前环境的状态信息作为状态输入，输出当前状态下采用相应动作的Q值序列，将Q值最大的动作作为当前状态下目标车辆的链路选择，波束分配和中继车辆的策略。

2.如权利要求1所述毫米波车联网联合波束分配和中继选择方法，其特征在于，步骤一中，所述构建单基站的毫米波车联网通信场景，包括：

(2)在某个时隙，道路上有N_v辆车在行驶，其中有

个波束为多个用户提供数据传输服务，其中

并且每个波束只能为一个用户提供服务；

(3)临时性随机阻塞和永久性阻塞对***性能的影响，且当毫米波基站不能为目标车辆提供可靠的直连链路传输时，选择空闲车辆作为中继节点，实现信息转发的过程。

3.如权利要求1所述毫米波车联网联合波束分配和中继选择方法，其特征在于，步骤二中，所述针对不同链路的传输过程，对通信过程、优化目标、容量阈值约束和联合优化问题进行建模，包括：

L(T_i，R_j)＝μ₁log₁₀f_c+μ₂log₁₀d_3D+μ₃；

其中，f_c为载波频率；d_3D为发射端和接收端的欧几里得距离；μ_i是路径损耗参数，与不同通信场景有关；

g_TR＝L_TRα_TR；

其中，α_TR为阻塞的穿透系数，包括两种阻塞影响：永久性阻塞和随机阻塞；

(3)利用二维扇区模型模拟毫米波基站的天线方向图，基站和车辆的的天线增益G_B(θ)和G_b(θ)：

其中，θ_B和θ_b分别为基站波束的主瓣宽度和车辆波束的主瓣宽度；

(4)利用放大转发AF的中继策略降低车辆的计算复杂度，保证信息传输的超低时延；其中，所述AF放大增益为β_R为：

其中，P_tR为中继车辆的发射功率，P_rR为中继车辆的接收功率；

(5)目标车辆

通过直连链路传输或中继传输链路接收到的信干噪比SINR分别为：ξ₁和ξ₂；两种类型的干扰：基站下行链路传输过程和其他目标车辆的中继转发过程，每种干扰包括波束的主瓣干扰和旁瓣干扰；

其中，P_tB为基站的发射功率，

其中，ρ_B，k为基站波束选择的二进制指示器，当ρ_B，k＝1时表明第k个波束为目标车辆v^*服务，ρ_B，k＝0则表明不服务；ρ_I，i为二进制的干扰指示器，ρ_I，i＝1表明目标车辆v^*收到其他中继车辆的传输过程的干扰；

(6)经过不同传输链路得到的信道容量为：

C₁＝Wlog(1+ξ₁)

C₂＝Wlog(1+ξ₂)；

其中，W为频谱带宽，进而得到目标车辆

的信道容量为：

选择直连传输链路，ρ_l＝0则表明基站为目标车辆选择中继传输链路；

(7)目标车辆服务所需的容量门限为γ，满足以下条件：

进而得到***的传输概率为：

Subject to：

4.如权利要求1所述毫米波车联网联合波束分配和中继选择方法，其特征在于，步骤三中，所述目标车辆和潜在中继车辆的信息，包括车辆速度、位置坐标、当前状态和容量阈值；所述波束信息，包括波束分配信息、波束宽度、波束角度和波束覆盖区域；所述阻塞信息，包括阻塞分布信息、阻塞覆盖区域和阻塞穿透系数。

5.如权利要求1所述毫米波车联网联合波束分配和中继选择方法，其特征在于，步骤四中，所述基于当前的状态信息基站为目标车辆选择直连传输链路或中继传输链路，包括：

(1)动作空间采用一个三维坐标系来表示，x轴代表链路的选择，y轴代表潜在中继的选择，z轴代表可选波束的选择；设潜在中继的车辆为N_R，得到动作空间的维度为2×N_R×N_B，其中2表明基站可以为目标车辆选择直连链路传输或中继链路传输；

6.如权利要求1所述毫米波车联网联合波束分配和中继选择方法，其特征在于，步骤五中，所述根据构建的模型和策略，设计奖励机制和神经网络的结构，包括：

(1)根据目标车辆的容量值的大小将奖励划分为N_ω个档位；

7.如权利要求1所述毫米波车联网联合波束分配和中继选择方法，其特征在于，步骤六中，所述利用DQN神经网络提取当前状态的输入特征，拟合Q函数，得到各种输入状态下不同动作的Q值，根据∈-greedy策略选择当前状态下的动作，并结合奖励机制训练和更新神经网络参数，包括：

(1)初始化环境信息和Q网络参数，生成车辆运行数据；

(2)在每个训练回合，更新并获取当前车辆位置和环境状态，重置中继选择和波束分配策略；

(3)根据当前的状态信息和贪心算法为目标车辆选择一个动作，即链路选择，波束分配和中继车辆的组合方案，并更新环境的信息；

(4)获得所有目标车辆的动作组合方案，进而获得与容量相关的奖励值r_c，i和返回的奖励值{r_t}；

(5)将t时刻状态，动作，奖励和下一状态作为一个样本存储进经验池中；

8.一种实施权利要求1～7任意一项所述毫米波车联网联合波束分配和中继选择方法的毫米波车联网联合波束分配和中继选择***，其特征在于，所述毫米波车联网联合波束分配和中继选择***包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求8所述毫米波车联网联合波束分配和中继选择***。