CN116193405B

CN116193405B - 基于dona框架的异构v2x网络数据传输方法

Info

Publication number: CN116193405B
Application number: CN202310198765.XA
Authority: CN
Inventors: 桂劲松; 林丽艳
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-10-27
Anticipated expiration: 2043-03-03
Also published as: CN116193405A

Abstract

本发明公开了一种基于DONA框架的异构V2X网络数据传输方法，包括获取网络参数信息；构建异构V2X网络数据传输模型；基于DONA框架构建深度强化学习模型；训练深度强化学习模型，采用训练后的模型求解数据传输模型；根据求解结果进行数据传输；实时重复以上步骤并完成目标异构V2X网络的实时数据传输。本发明考虑了多种C‑V2X基本通信模式和无线接口技术，形成了多种可选通信模式，充分利用了不同无线接口技术的优势，能够为多类型消息的传输提供服务质量保障并提高无线网络资源利用率，而且本发明的可靠性高、效率高且资源占用较少。

Description

基于DONA框架的异构V2X网络数据传输方法

技术领域

本发明属于通信技术领域，具体涉及一种基于DONA框架的异构V2X网络数据传输方法。

背景技术

随着经济技术的发展和人们生活水平的提高，车辆已经广泛应用于人们生产和生活当中。城市车辆数量的急增，导致交通拥堵加剧。为了满足车辆用户对道路安全、驾驶体验、交通效率和信息娱乐体验的日益提升的要求，研究人员提出了车辆对一切(vehicle toeverything,V2X)技术，以支持智能交通***(intelligent transport system,ITS)的相关应用。到目前为止，主要有两种支持V2X通信的候选技术：专用短程通信(dedicatedshort-range communication,DSRC)和蜂窝V2X(cellular V2X,C-V2X)。DSRC标准是为车辆网络开发的第一个标准，但其在高移动环境中的通信性能较差。因此，研究人员提出了C-V2X标准；C-V2X标准因其强大的蜂窝基础设施支撑和清晰的演进路线，受到了广泛关注。由于C-V2X最初建立在长期演进(long term evolution,LTE)网络的基础上，因此C-V2X的第一代标准被称为LTE-V2X。与基于IEEE 802.11p的DSRC相比，LTE-V2X可以作为“远程传感器”的连接技术，支持车辆节点感知几英里之外的各种道路状况和紧急事件。

随着蜂窝通信***从***(4G)发展到第五代(5G)，C-V2X也随之产生了第二个标准NR-V2X。特别是，该标准采用了毫米波(millimeter wave,mmWave)频段。在不久的将来，太赫兹(terahertz,THz)作为6G的关键技术将被引入C-V2X***。因此，C-V2X将包括LTE-V2X、NR-V2X和THz-V2X三种接口技术。

基于C-V2X的***主要关注三种基础通信模式：车对车(vehicle-to-vehicle，V2V)、车对基础设施(vehicle-to-infrastructure，V2I)、车辆对网络(vehicle-to-network，V2N)。通常，V2V和V2I采用ITS频段，V2N则采用蜂窝频段。特别是，为了充分利用频谱资源，V2V和V2I链路可以复用由V2N链路占用(或未占用)的蜂窝资源块(resourceblock，RB)。

V2X应用主要依赖两种类型消息的支持，它们分别是安全相关消息和高容量消息。前者包括道路安全方面的信息，而后者涉及提高驾驶体验和交通优化方面的信息。通常，由于实时性要求，安全相关消息往往会通过V2V模式转发给附近的车辆，而高容量消息由于需要频繁访问互联网或V2X服务器，则以V2N模式传输。实际上，由于车辆网络的高动态性，V2V链路容易受到遮挡，因而无法保证长时间的可靠通信，因此安全相关消息的发送还需要考虑其它通信模式。现有的相关工作集中于处理不同通信模式下V2V对之间的资源共享问题，并采用深度强化学习(deep reinforcement learning,DRL)工具来解决这些问题。然而，这些工作局限于传统的C-V2X环境，而未考虑最新的C-V2X技术。

而且，与传统的C-V2X环境相比，异构V2X网络中存在更多的通信模式，并且通信模式选择和资源分配之间的耦合关系更加复杂。当多种C-V2X技术共存时，如何设计一种通信模式选择和资源分配方法，以满足多类型消息传输的服务质量要求并最大化***的频谱能量效率，就成为了现今的研究热点。目前，传统的技术方案采用的是DRL(DeepReinforcement Learning，深度强化学习)和FL(Federated Learning，联邦学习)的组合方案；这种方式虽然取得了一定的效果，但其在异构V2X网络中的应用中，依旧面临着一些问题：首先，现有技术无法充分利用异构V2X网络中多种通信模式的优势，取得最优的***频谱能量效率；其次，不同消息类型的复杂多样的资源需求以及时变的资源占用状态将导致大量的同频信道干扰，现有技术在处理这个问题时，其效果并不理想。最后，现有技术所采用的DRL和FL的模型训练架构，其效率相对较低，而且资源占用较多。

发明内容

本发明的目的在于提供一种可靠性高、效率高且资源占用较少的基于DONA框架的异构V2X网络数据传输方法。

本发明提供的这种基于DONA框架的异构V2X网络数据传输方法，包括如下步骤：

S1.获取目标异构V2X网络的参数信息；

S2.根据步骤S1获取的参数信息，基于数据传输过程中的数据率要求、延时要求、可靠性要求和通信限制，以网络总数据率、网络总功耗和网络总频带资源消耗为综合目标，构建异构V2X网络数据传输模型；

S3.针对步骤S2构建的数据传输模型，基于DONA框架构建深度强化学习模型；

S4.对步骤S3构建的深度强化学习模型进行训练，并采用训练后的模型对步骤S2构建的数据传输模型进行求解；

S5.根据步骤S4得到的结果，目标异构V2X网络进行数据传输；

S6.实时重复以上步骤，完成目标异构V2X网络的实时数据传输。

步骤S1所述的目标异构V2X网络的参数信息，具体包括如下内容：

目标异构V2X网络包括一个宏基站、若干个小基站、若干个路边基础设施和若干个车辆用户设备；所述宏基站、小基站、路边基础设施和车辆用户设备均拥有三种C-V2X接口；三种C-V2X接口为LTE-V2X接口、NR-V2X接口和THz-V2X接口，其中LTE-V2X接口为C-V2X接口的第一代标准接口，NR-V2X接口为毫米波频段接口，THz-V2X接口为太赫兹频段接口；

宏基站的信号覆盖整个异构V2X网络，小基站和路边基础设施的信号覆盖异构V2X网络的部分区域；

目标异构V2X网络仅传输安全相关消息和高容量消息；所述安全相关消息包括定期广播的信标消息和由事件触发的紧急消息，所述高容量消息包括电子地图下载的消息和用于娱乐的多媒体信息；所述信标消息用于传输车辆状态信息，所述紧急消息用于传输道路上的设定的紧急情况信息；其中，信标消息通过单跳广播的方式传输到设定范围内的其他车辆用户，适用于V2V(Vehicle-to-Vehicle，车辆对车辆)模式传输，且若V2V模式传输链路不符合设定的要求，则信标消息能够使用V2I(Vehicle-to-Infrastructure，车辆对基础设施)模式或V2N(Vehicle-to-Network，车辆对网络)模式进行传输；紧急消息通过多跳广播发送到设定范围外的其他车辆用户，适用于V2V和V2I组合模式或V2V和V2N组合模式传输；高容量消息适用于V2N模式传输；

宏基站能够管理设定数量的蜂窝频段资源，而且能够按照设定的要求协调所有基站的上下行通信的同步，从而避免上下行链路之间的相互干扰；所述蜂窝频段资源包括LTE频段、毫米波频段和太赫兹频段，且每个频段能够被划分为若干个蜂窝资源块；LTE频段表示为F_lte＝{1,2,...,|F_lte|}，毫米波频段表示为F_mm＝{1,2,...,|F_mm|}，太赫兹频段表示为F_thz＝{1,2,...,|F_thz|}，其中|F_lte|为LTE频段资源块的数量，|F_mm|为毫米波频段资源块的数量，|F_thz|为太赫兹频段资源块的数量；小基站集合表示为S＝{1,2,...,s,...,|S|}，s为第s个小基站，|S|为小基站的数量；路边基础设施集合表示为R＝{1,2,...,r,...,|R|}，r为第r个路边基础设施，|R|为路边基础设施的数量；车辆用户表示为V＝{1,2,...,v,...,|V|}，v为第v个车辆用户，|V|为车辆用户的数量；所述蜂窝频段资源能够在所有小基站之间复用，蜂窝资源块分配给请求V2N传输服务的车辆用户；所有路边基础设施能够复用蜂窝频段资源，并为车辆用户提供V2I传输服务；每个车辆用户能够选择采用蜂窝用户占用或未占用的蜂窝资源块实现V2V传输服务，且若干个车辆用户能够彼此复用相同的蜂窝资源块；车辆用户能够复用上行或下行的蜂窝资源块；

设定宏基站、小基站、路边基础设施和车辆用户只能获得链路的设定尺度的信道增益；定义F为所有蜂窝资源块且F＝F_lte∪F_mm∪F_thz；以变量表示车辆用户v采用蜂窝资源块f与另一车辆用户v'通信的信道增益；以变量/>表示车辆用户v采用蜂窝资源块f与小基站s通信的信道增益；以变量/>表示车辆用户v采用蜂窝资源块f与路边基础设施r通信的信道增益；以二进制变量/>表示小基站s是否将蜂窝资源块f分配给V2N链路，且/>表示小基站s将蜂窝资源块f分配给V2N链路，/>表示小基站s未将蜂窝资源块f分配给V2N链路；以二进制变量/>表示蜂窝资源块f是否被V2I链路复用，且若/>表示蜂窝资源块f被V2I链路复用，/>表示蜂窝资源块f未被V2I链路复用；以二进制变量/>表示蜂窝资源块f是否被V2V链路复用，且若/>表示蜂窝资源块f被V2V链路复用，/>表示蜂窝资源块f未被V2V链路复用；

设定所有车辆用户的高容量消息传输时对数据率的要求是相同的，所有车辆用户对信标消息的延迟要求是相同的，所有车辆用户对信标消息的可靠性要求是相同的，所有车辆用户对紧急消息的延迟要求是相同的，所有车辆用户对紧急消息的可靠性要求是相同的，所有车辆用户在相同的无线电接口技术下具有相同数量的发射功率等级；仅考虑V2V链路，V2I路径和V2N路径的传输延迟。

所述的步骤S2，具体包括如下步骤：

采用如下算式作为异构V2X网络数据传输模型的优化目标：

max_{v,v'∈V；r∈R；s∈S} S_EE

式中S_EE为***平均频谱能量效率，且R为网络总数据率，P为网络总功耗，W为网络总频带资源消耗；

网络总数据率R的计算公式为R_v为与车辆用户v相关联的数据率；

其中V\v表示集合V中除去元素v后的集合；为蜂窝V2N通信模式下，车辆用户v通过蜂窝资源块f向小基站s发送高容量消息时的上行链路数据率，且wf为蜂窝资源块f的带宽；/>为蜂窝V2N通信模式下，车辆用户v通过蜂窝资源块f向小基站s发送高容量消息时，小基站s处的上行链路信号干扰噪声比，且/>的计算式为为小基站s处的噪声功率，/>为表示小基站s是否将蜂窝资源块f分配给V2N链路的二进制变量，/>为车辆用户v通过蜂窝资源块f发射信号到小基站s处使用的发射功率，/>表示车辆用户v采用蜂窝资源块f与小基站s通信的信道增益；/>为蜂窝V2I通信模式下，车辆用户v通过蜂窝资源块f向路边基础设施r发送安全相关信息时的上行链路数据率，且为蜂窝V2I通信模式下，车辆用户v通过蜂窝资源块f向路边基础设施r发送安全相关信息时，路边基础设施r处的上行链路信号干扰噪声比，且的计算公式为为路边基础设施r处的噪声功率，/>为表示蜂窝资源块f是否被V2V或V2I链路复用的二进制变量，/>为车辆用户v通过蜂窝资源块f发射信号到路边基础设施r处使用的发射功率，/>为车辆用户v采用蜂窝资源块f与路边基础设施r通信的信道增益；/>为蜂窝V2V通信模式下，车辆用户v通过蜂窝资源块f向附近设定范围内的其他车辆广播时，车辆用户v'处的链路数据率，且/> 为蜂窝V2V通信模式下，车辆用户v通过蜂窝资源块f向附近设定范围内的其他车辆广播时，车辆用户v'处的信号干扰噪声比，且/>的计算公式为/> 为蜂窝资源块f是否被V2V链路复用的二进制变量，/>为车辆用户v通过蜂窝资源块f发射信号到车辆用户v'处使用的发射功率，/>为车辆用户v采用蜂窝资源块f与另一车辆用户v'通信的信道增益；

网络总功耗P的计算公式为P_v为与车辆用户v相关联的功耗，且

网络总频带资源消耗W为W_v为与车辆用户v相关联的频带资源消耗，且/>f(v,f)为第一二值函数，取值规则为当任何小基站都没有将蜂窝资源块f分配给车辆用户v使用时f(v,f)＝1，否则f(v,f)＝0，并表示为/>g(v,f)为第二二值函数，取值规则为当任何小基站都没有将蜂窝资源块f分配给车辆用户v使用且任何路边设施也没有使用蜂窝资源块f与车辆用户v通信时g(v,f)＝1，否则g(v,f)＝0，并表示为

采用如下算式作为异构V2X网络数据传输模型的约束条件：

约束条件1：

约束条件2：

约束条件3：

约束条件4：

约束条件5：

约束条件6：

约束条件7：

约束条件8：

约束条件9：

约束条件10：

约束条件11：

约束条件12：

约束条件13：式中/>为车辆用户v的当前所达到的链路数据率，且/> 为V2N链路的最低数据率要求；为车辆用户v的信标消息的当前延迟度量，且/> 为V2V链路的传输延迟，且/>L_v为以比特为单位的信标消息的大小；/>为V2I路径的传输延迟，且/> 为路边设施r通过蜂窝资源块f向车辆用户v'发送安全相关消息时的下行链路数据率，且/> 为路边设施r通过蜂窝资源块f向车辆用户v'发送安全相关消息时车辆用户v'处的下行链路信号干扰噪声比，且/> 为V2N路径的传输延迟，且/> 为小基站s通过蜂窝资源块f向车辆用户v'发送高容量数据时下行链路的数据率，且/> 为小基站s通过蜂窝资源块f向车辆用户v'发送高容量数据时车辆用户v'处的下行链路信号干扰噪声比，且/>的计算公式为为信标消息和紧急消息的最大可容忍延迟；/>为车辆用户v的紧急消息的多跳传输路径中最长传输路径上的延迟，且/> 为第n条传输链路的延迟值，N为最长传输路径上的传输路径的总条数；/>为车辆用户v的信标消息的当前比特误码率度量，且为V2V链路v→v'上发送消息L_v时的比特误码率，且为V2I路径v→r→v'上发送消息L_v时的比特误码率，且为V2N路径v→s→v'上发送消息L_v时的比特误码率，且/> 为信标消息和紧急消息的最大可容忍比特误码率；/>为车辆用户v的紧急消息的多跳传输路径中最长传输路径上的可靠性度量，且/> 为第n条链路的比特误码率值；/>为车辆用户LTE接口的最大传输功率；/>为车辆用户毫米波接口的最大传输功率；/>为车辆用户太赫兹接口的最大传输功率。

步骤S3所述的基于DONA框架构建深度强化学习模型，具体包括如下步骤：

构建的深度强化学习模型部署在每辆车上并作为智能体；

将步骤S2构建的数据传输模型的求解问题，视为基于DONA框架的马尔可夫决策过程，并用五元组(SS,AA,PP,EE,{g_t}_t≥0)表示；其中，SS为全局状态空间，且描述为{SS^v}_v∈V，SS^v为车辆用户智能体v的局部观察空间；AA为所有智能体的联合动作空间，且描述为AA^v为车辆用户智能体v的动作空间；PP为状态转移概率矩阵，且表示为PP:SS×AA×SS→[0,1]；EE为所有智能体的奖励函数集合，且表示为{EE^v}_v∈V，其中EE^v:SS×AA→RR为车辆用户智能体v的本地奖励函数；{g_t}_t≥0为时变的通信网络；

将时间TT划分为若干相等的时间间隔，在每个时间间隔中，每个智能体根据基站分发的顺序，异步选择一个动作并广播选择结果；根据智能体选择动作的顺序，后续智能体观察在自身接收范围内的前序智能体的动作广播结果；将观察到的动作选择结果添加到智能体自身的观察空间中；

构建的深度强化学习模型包括在线Q网络和目标Q网络；在线Q网络的模型参数θ_v通过最小化以下损失函数来进行更新：

式中为本次动作选择后获得的即时回报值与目标Q网络对未来回报的估计值之和，且/> 为车辆用户智能体v在t时刻获得的即时奖励；γ为折扣系数；/>为车辆用户智能体v在t时刻的局部观察；/>为车辆用户智能体v在t时刻所采取的动作；/>为目标Q网络的参数，且周期性地从在线Q网络的模型参数θ_v中复制；

构建深度强化学习模型时，关注如下三个要素：

动作空间要素：

对于t时刻的每个车辆用户智能体v∈V，对应的动作包括如下内容：

式中表示频带资源块选择结果，/>为资源块的选择结果向量，符号×表示两个集合的笛卡尔积；/>表示智能体选择的通信模式，/>为通信模式的选择结果向量，若车辆用户智能体选择了V2N模式则m_V2N∈S且m_V2N表示具体的基站序号，若车辆用户智能体未选择V2N模式则m_V2N＝0，若车辆用户智能体选择了V2I模式则m_V2I∈R且m_V2I表示具体的路边基础设施的序号，若车辆用户智能体未选择V2I模式则m_V2I＝0，若车辆用户智能体选择了V2V模式则m_V2V＝1，若车辆用户智能体未选择V2V模式则m_V2V＝0；/>表示功率选择结果，/>为功率的选择结果向量；在t时刻，车辆用户智能体v管理的一组动作/>表示为在t时刻，所有|V|个车辆用户智能体的联合动作aa_t表示为/>aa_t∈AA；

局部观察空间要素：

车辆用户智能体v在t时刻的局部观察包括如下内容：

在t时刻所有无线电接口技术的资源块上，车辆用户智能体与其接收范围内潜在的通信终端之间的大规模信道增益采用如下算式表示：

式中为在t时刻车辆用户智能体v通过资源块c与小基站s通信时的信道增益；为在t时刻车辆用户智能体v通过所有资源块与所有小基站通信时的信道增益集合；/>为在t时刻车辆用户智能体v通过资源块c与路边基础设施r通信时的信道增益；/>为在t时刻车辆用户智能体v通过所有资源块与所有路边基础设施通信时的信道增益集合；/>为在t时刻车辆用户智能体v通过资源块c与另一车辆用户v'通信时的信道增益；/>为在t时刻车辆用户智能体v通过所有资源块与所有其余车辆通信时的信道增益集合；所述通信终端包括小基站、路边基础设施和其他车辆用户智能体；

指示在当前时刻是否存在需要车辆用户智能体v接收的消息的变量采用如下算式表示：

式中为二值变量，且若存在消息要从小基站s通过资源块c发送到车辆用户智能体v则/>否则/>为车辆用户智能体v是否需要接收小基站发出的消息的指示变量集合；/>为二值变量，且若存在消息要从路边基础设施r通过资源块c发送到车辆用户智能体v则/>否则/>为车辆用户智能体v是否需要接收路边基础设施发出的消息的指示变量集合；/>为二值变量，且若存在消息要从车辆用户v'通过资源块c发送到车辆用户智能体v，则/>否则为车辆用户智能体v是否需要接收其他车辆发出的消息的指示变量集合；

车辆用户智能体v接收范围内的前序智能体的动作采用如下算式表示：

式中V_v为车辆用户智能体v的接收范围；

待发送信息距离违反时延约束的剩余时间T_t ^v；

三元组Y_t ^v，表示为Y_t ^v＝(M_B,M_E,M_H)，其中M_B为用于表示车辆用户智能体v在当前时刻是否要发送信标消息的二值变量，若车辆用户智能体v在当前时刻要发送信标消息则M_B＝1，否则M_B＝0；M_E为用于表示车辆用户智能体v在当前时刻是否要发送紧急消息的二值变量，若车辆用户智能体v在当前时刻要发送紧急消息则M_E＝1，否则M_E＝0；M_H为用于表示车辆用户智能体v在当前时刻是否要发送高容量消息的二值变量，若车辆用户智能体v在当前时刻要发送高容量消息则M_H＝1，否则M_H＝0；

最后，得到车辆用户智能体v观察到的状态空间为

即时奖励要素：

当所有车辆用户智能体对目标异构V2X网络采取***aa_t时，各个车辆用户智能体将各自获得对应的即时奖励；

采用如下算式计算车辆用户智能体v在时刻t获取的即时奖励

式中δ₁为设定的第一权重；R_v为车辆用户智能体v的数据率；P_v为车辆用户智能体v的功耗；W_v为车辆用户智能体v的频带资源消耗；H₁()为分段函数且计算式为为车辆用户智能体v在时刻t获取的个体奖励，且表示为其中δ₂为设定的第二权重，δ₃为设定的第三权重，H₂()为分段函数且计算式为/>A为设定的非负参数，H₃()为分段函数且计算式为/>B为设定的非负参数。

所述的深度强化学***衡缓冲区和普通缓冲区；在训练过程中，平衡缓冲区和普通缓冲区用于存放不同类型的样本，并根据设定时间段内收集的样本的比例，动态调整在两个回放缓冲区中采样的比例。

所述的步骤S4，具体包括如下步骤：

在训练过程中，将获取的即时奖励为正的样本视为优秀样本，并保存到平衡缓冲区，同时将剩余样本保存到普通缓冲区；在训练过程中，根据设定时间段内收集的样本的比例，动态调整在两个回放缓冲区中采样的比例，从而实现训练样本的动态均衡。

所述的步骤S4，还包括如下步骤：

基于联邦学习框架，在训练过程中进行若干个智能体的强化学习；

宏基站作为联邦学习框架的中心参数聚合服务器，所有车辆用户智能体作为联邦学习框架的客户端设备并执行本地模型的训练；只有宏基站覆盖范围内的新激活的车辆用户智能体从宏基站请求基础模型，已经开始执行本地模型训练的车辆用户智能体则仅采用自身训练的模型；同时，已经开始执行本地模型训练的车辆用户智能体，在自身模型训练到设定的精度后，将自身模型发送到宏基站，从而进行模型聚合；

采用联邦平均算法作为宏基站的模型聚合算法；

宏基站不需要按照设定的周期将当前聚合的模型参数分发给车辆用户智能体；

宏基站存储历史模型参数，以便随机采样后进行后续的模型参数训练；

基于|V|个车辆用户的局部模型，全局模型参数采用如下算式进行更新：

式中θ^r+1为宏基站更新的全局Q网络的参数；为车辆用户智能体v在协同训练的第r+1轮的本地Q网络的参数；l为随机抽样后的历史样本长度；/>为设定的权重系数，且/>

所述的基于DONA框架的异构V2X网络数据传输方法，具体包括数据传输算法和训练算法；

每个车辆用户v均独自运行所述数据传输算法；所述数据传输算法包括：

训练过程：包括训练步骤和决策步骤；

训练步骤包括：

输入为：随机选择动作的首轮概率ε₁和末轮概率ε₂；折扣系数γ；在一个Epoch中的网络模型训练时长TT；目标Q网络模型参数更新间隔N_r；基础网络模型参数θ；

输出为：车辆用户v的在线Q网络模型参数θ_v；

A1：初始化训练时间步指示变量和目标Q网络模型参数更新时间步指示变量t_cnt为0；

A2：使用基础网络模型参数θ初始化在线网络模型参数θ_v和目标Q网络模型参数

A3：计算随机选择动作概率的递减步长初始化ε＝ε₁；/>

A4：初始化平衡缓冲区BB和普通缓冲区CB，大小都为M＝1000；

A5：判断训练时间步指示变量是否达到网络模型训练时长TT，若是，结束本次训练过程，否则转到A6；

A6：根据车辆用户v的局部观察结果，更新信道增益集合接收消息优先集合满足延时约束的剩余时长向量T_t ^v、待发送消息类型向量Y_t ^v；

A7：根据车辆用户v的局部观察结果，获得车辆用户v能够观察到的其它车辆用户的动作集合并更新局部观察/>

A8：获取车辆用户v在时间间隔t的所有可用动作集合；

A9：基于局部观察通过在线Q网络获取不同动作对应的Q值；

A10：使用ε-greedy算法，生成一个[0,1)的随机数，若该随机数不大于ε，则在所有可用动作中随机选择一个动作若该随机数大于等于ε，则从在线Q网络的输出中选择最大Q值所对应的动作/>

A11：将动作选择结果广播到邻居智能体；

A12：从网络环境中观察到新的局部观察并获得即时奖励/>

A13：若则将样本/>保存到平衡缓冲区BB中，否则保存到普通缓冲区CB中；

A14：若缓冲区已满，则根据先入先出原则，将最早进入缓冲区的样本舍弃并执行A15；

A15：根据前一个Epoch内统计的好坏样本比例，确定双缓冲区的抽样比例ρ₁和ρ₂，且ρ₁≥0.5，ρ₁+ρ₂＝1；

A16：将双缓冲区中抽取的样本混合组合成一个训练样本批次batch；

A17：针对抽取的batch计算并根据损失函数值估算公式/>计算梯度值，并更新在线Q网络参数θ_v；

A18：判断是否到达目标Q网络模型参数更新轮次：若是，使用在线Q网络的参数以更新目标Q网络的参数，表示为以及将ε-Δε作为新的ε值；

A19：训练轮次指示变量和目标Q网络模型参数更新轮次指示变量t_cnt都增1，并转到A5；

决策步骤包括：

输入：局部观察

输出：动作选择结果

根据局部观察利用在线Q网络模型θ_v，获得对应的动作选择结果/>

所述的训练算法，包括客户端部分和服务器端部分，服务器端部分在宏基站运行，客户端部分在每个车辆用户上运行；

服务器端部分：

B1:初始化在线Q网络的基础模型参数θ为随机值；

B2:将初始化的基础模型参数θ分发给宏基站覆盖区域内所有车辆用户；

B3:等待车辆用户运行所述数据传输算法，并上传个体模型参数θ_v；

B4:等待特定时间后，将收到的个体模型参数利用公式进行联邦平均，得出更新后的基础模型参数θ；

B5:若有新进入宏基站覆盖区域的车辆智能体，则将最新的平均模型参数分发给新智能体；

B6.转到步骤B3；

客户端部分：

C1:若是新进入宏基站覆盖区域的车辆智能体，则利用宏基站发送的基础模型参数初始化本地的模型参数θ_v；

C2:运行所述的数据传输算法；

C3:若接到服务器发出的联邦训练命令，则将本地模型参数θ_v以及训练数据集的大小发送到宏基站；

C4:转到步骤C2。

本发明提供的这种基于DONA框架的异构V2X网络数据传输方法，考虑了多种C-V2X基本通信模式和无线接口技术，形成了多种可选通信模式，充分利用了不同无线接口技术的优势，能够为多类型消息的传输提供服务质量保障并提高无线网络资源利用率，而且本发明的可靠性高、效率高且资源占用较少。

附图说明

图1为本发明的方法流程示意图。

图2为本发明的异构V2X网络的网络示意图。

图3为本发明的实施例的模型训练过程中***频谱能量效率的变化示意图。

图4为本发明的实施例的模型训练过程中信息满意率的变化示意图。

图5为本发明的实施例的模型训练过程中多跳信息满意率的变化示意图。

图6为本发明的实施例的模型训练过程中服务质量要求的满足情况示意图。

具体实施方式

如图1所示为本发明的方法流程示意图：本发明提供的这种基于DONA框架的异构V2X网络数据传输方法，包括如下步骤：

S1.获取目标异构V2X网络的参数信息；具体包括如下内容：

异构V2X网络的网络示意图如图2所示，其中，MBs表示宏基站；SBs表示小基站；RSU表示路边基础设施；

目标异构V2X网络包括一个宏基站、若干个小基站、若干个路边基础设施和若干个车辆用户设备；所述宏基站、小基站、路边基础设施和车辆用户设备均拥有三种C-V2X接口；三种C-V2X接口为LTE-V2X接口、NR-V2X接口和THz-V2X接口，其中LTE-V2X接口为C-V2X接口的第一代标准接口，NR-V2X接口为毫米波频段接口，THz-V2X接口为太赫兹接口；

设定所有车辆用户的高容量消息传输时对数据率的要求是相同的，所有车辆用户对信标消息的延迟要求是相同的，所有车辆用户对信标消息的可靠性要求是相同的，所有车辆用户对紧急消息的延迟要求是相同的，所有车辆用户对紧急消息的可靠性要求是相同的，所有车辆用户在相同的无线电接口技术下具有相同数量的发射功率等级；仅考虑V2V链路，V2I路径和V2N路径的传输延迟；

S2.根据步骤S1获取的参数信息，基于数据传输过程中的数据率要求、延时要求、可靠性要求和通信限制，以网络总数据率、网络总功耗和网络总频带资源消耗为综合目标，构建异构V2X网络数据传输模型；具体包括如下步骤：

总体目标是寻找一个最优的模式选择和资源分配方案，使得该方案可以在满足每条V2N链路的数据率要求、每条V2V链路(或V2I/V2N路径)的延迟和可靠性要求、以及每个车辆用户的最长传输路径的延迟和可靠性要求的基础上，最大化***的频谱能量效率；因此，采用如下算式作为异构V2X网络数据传输模型的优化目标：

max_{v,v'∈V；r∈R；s∈S} S_EE

其中V\v表示集合V中除去元素v后的集合；为蜂窝V2N通信模式下，车辆用户v通过蜂窝资源块f向小基站s发送高容量消息时的上行链路数据率，且w_f为蜂窝资源块f的带宽；/>为蜂窝V2N通信模式下，车辆用户v通过蜂窝资源块f向小基站s发送高容量消息时，小基站s处的上行链路信号干扰噪声比，且/>的计算式为为小基站s处的噪声功率，/>为表示小基站s是否将蜂窝资源块f分配给V2N链路的二进制变量，/>为车辆用户v通过蜂窝资源块f发射信号到小基站s处使用的发射功率，/>表示车辆用户v采用蜂窝资源块f与小基站s通信的信道增益；/>为蜂窝V2I通信模式下，车辆用户v通过蜂窝资源块f向路边基础设施r发送安全相关信息时的上行链路数据率，且为蜂窝V2I通信模式下，车辆用户v通过蜂窝资源块f向路边基础设施r发送安全相关信息时，路边基础设施r处的上行链路信号干扰噪声比，且的计算公式为为路边基础设施r处的噪声功率，/>为表示蜂窝资源块f是否被V2V或V2I链路复用的二进制变量，/>为车辆用户v通过蜂窝资源块f发射信号到路边基础设施r处使用的发射功率，/>为车辆用户v采用蜂窝资源块f与路边基础设施r通信的信道增益；/>为蜂窝V2V通信模式下，车辆用户v通过蜂窝资源块f向附近设定范围内的其他车辆广播时，车辆用户v'处的链路数据率，且/> 为蜂窝V2V通信模式下，车辆用户v通过蜂窝资源块f向附近设定范围内的其他车辆广播时，车辆用户v'处的信号干扰噪声比，且/>的计算公式为/> 为蜂窝资源块f是否被V2V链路复用的二进制变量，/>为车辆用户v通过蜂窝资源块f发射信号到车辆用户v'处使用的发射功率，/>为车辆用户v采用蜂窝资源块f与另一车辆用户v'通信的信道增益；

采用如下算式作为异构V2X网络数据传输模型的约束条件：

约束条件1：

约束条件2：

约束条件3：

约束条件4：

约束条件5：

约束条件6：

约束条件7：

约束条件8：

约束条件9：

约束条件10：

约束条件11：

约束条件12：

约束条件13：式中/>为车辆用户v的当前所达到的链路数据率，且/> 为V2N链路的最低数据率要求；/>为车辆用户v的信标消息的当前延迟度量，且/> 为V2V链路的传输延迟，且/>L_v为以比特为单位的信标消息的大小；/>为V2I路径的传输延迟，且/> 为路边设施r通过蜂窝资源块f向车辆用户v'发送安全相关消息时的下行链路数据率，且/> 为路边设施r通过蜂窝资源块f向车辆用户v'发送安全相关消息时车辆用户v'处的下行链路信号干扰噪声比，且/> 为V2N路径的传输延迟，且/> 为小基站s通过蜂窝资源块f向车辆用户v'发送高容量数据时下行链路的数据率，且/> 为小基站s通过蜂窝资源块f向车辆用户v'发送高容量数据时车辆用户v'处的下行链路信号干扰噪声比，且/>的计算公式为为信标消息和紧急消息的最大可容忍延迟；/>为车辆用户v的紧急消息的多跳传输路径中最长传输路径上的延迟，且/> 为第n条传输链路的延迟值，N为最长传输路径上的传输路径的总条数；/>为车辆用户v的信标消息的当前比特误码率度量，且/> 为V2V链路v→v'上发送消息L_v时的比特误码率，且为V2I路径v→r→v'上发送消息L_v时的比特误码率，且为V2N路径v→s→v'上发送消息L_v时的比特误码率，且/> 为信标消息和紧急消息的最大可容忍比特误码率；/>为车辆用户v的紧急消息的多跳传输路径中最长传输路径上的可靠性度量，且/> 为第n条链路的比特误码率值；/>为车辆用户LTE接口的最大传输功率；/>为车辆用户毫米波接口的最大传输功率；/>为车辆用户太赫兹接口的最大传输功率；

其中约束条件1为车辆用户的数据率要求约束；约束条件2为车辆用户的延迟要求约束；约束条件3为车辆用户的可靠性要求约束；约束条件1～3一同用于保证服务质量，从而保证用户的舒适体验；约束条件4～6为小基站最多向车辆用户分配一个资源块的约束；约束条件7～9为路边基础设施最多采用一个蜂窝资源块与车辆用户通信的约束；约束条件10为车辆用户的一条V2V链路只能使用一个蜂窝资源块的约束；约束条件11为车辆用户v的LTE接口的传输功率约束；约束条件12为车辆用户v的毫米波接口的传输功率约束；约束条件13为车辆用户v的太赫兹接口的传输功率约束；

S3.针对步骤S2构建的数据传输模型，基于DONA框架构建深度强化学习模型；具体包括如下步骤：

由于步骤S2构建的数据传输模型是一个混合整数非线性规划问题，难以直接求解，原因在于：约束条件1～3和约束条件11～13产生了非凸问题，而约束条件4～10产生了组合问题。因此，严格的数学建模方法很难解决这类问题。然而基于深度强化学***均频谱能量效率)和个体奖励(即数据率、延迟和可靠性)。

在针对混合合作和竞争任务的MADRL的研究工作中，有两个典型的框架受到大量关注。一种是集中式训练分布式执行框架(centralized training with decentralizedexecution,CTDE)，而另一种是基于网络连接的分布式智能体框架(decentralized onewith networked agents,DONA)。前者在应对数量大的智能体和离散的动作空间时很容易陷入模型参数过大的困境，这会使得训练模型变得困难且耗时。而后者不仅可以通过分布式训练模式来减小模型参数的体量，还可以通过智能体之间的通信来增强模型的稳定性，以扩大智能体的观察范围。

因此，本发明基于DONA框架提出了以上数据传输模型的解决方案，即基于DONA框架构建深度强化学习模型；

构建的深度强化学习模型部署在每辆车上并作为智能体；

构建深度强化学习模型时，关注如下三个要素：

动作空间要素：

对于t时刻的每个车辆用户智能体v∈V，对应的动作包括如下内容：/>

局部观察空间要素：

车辆用户智能体v在t时刻的局部观察包括如下内容：

式中为在t时刻车辆用户智能体v通过资源块c与小基站s通信时的信道增益；/>为在t时刻车辆用户智能体v通过所有资源块与所有小基站通信时的信道增益集合；/>为在t时刻车辆用户智能体v通过资源块c与路边基础设施r通信时的信道增益；/>为在t时刻车辆用户智能体v通过所有资源块与所有路边基础设施通信时的信道增益集合；/>为在t时刻车辆用户智能体v通过资源块c与另一车辆用户v'通信时的信道增益；/>为在t时刻车辆用户智能体v通过所有资源块与所有其余车辆通信时的信道增益集合；所述通信终端包括小基站、路边基础设施和其他车辆用户智能体；

式中V_v为车辆用户智能体v的接收范围；

待发送信息距离违反时延约束的剩余时间T_t ^v；

最后，得到车辆用户智能体v观察到的状态空间为

即时奖励要素：

当所有车辆用户智能体对目标异构V2X网络采取***aa_t时，各个车辆用户智能体将各自获得对应的即时奖励；由于本申请的设计目标是最大化***平均频谱能量效率，同时满足每个车辆用户在数据率、延迟和可靠性方面的要求，因此本发明提出了一种两段式的即时奖励函数；

采用如下算式计算车辆用户智能体v在时刻t获取的即时奖励

该计算式中，第一部分由所有智能体共享，是一个公共奖励函数用来衡量所有|V|个车辆用户智能体的总体性能，该函数旨在最大化***平均频谱能量效率；第二部分是一个衡量车辆用户智能体自身行为的个体奖励，以保证个体的基本服务质量要求；式中δ₁为设定的第一权重；R_v为车辆用户智能体v的数据率；P_v为车辆用户智能体v的功耗；W_v为车辆用户智能体v的频带资源消耗；H₁()为分段函数且计算式为为车辆用户智能体v在时刻t获取的个体奖励，表示为其中第一部分表示满足V2N链路的最低数据率要求的奖励以及违反约束的惩罚，而第二部分表示V2V链路或V2I路径的延迟和可靠性要求的奖励和惩罚，δ₂为设定的第二权重，δ₃为设定的第三权重，H₂()为分段函数且计算式为/>A为设定的非负参数，H₃()为分段函数且计算式为/>B为设定的非负参数；

权重δ₁～δ₃旨在平衡不同约束对最终奖励的影响；同时，H₁函数表示只有在满足个体约束(即，个体奖励值非负，意味着智能体自身的服务质量要求得到满足)时才会获得频谱能效奖励，否则不会获得奖励；H₂函数意味着V2N链路违反约束时，惩罚会随着违反约束的程度的增加而增加，但当约束得到满足时，只给予一个恒定的奖励；H₃函数将延迟和可靠性约束绑定，表示只有在同时满足延迟和可靠性要求时，才会给予奖励，否则，只会对于违反约束的部分进行处罚；设定的参数A和B意味着不鼓励无限制地提高自身的性能；这是因为在复用频段资源的情况下无限制提高个体性能可能导致***总体性能下降；函数H₁、H₂和H₃的多重约束条件旨在加强整体约束，扩大不同智能体的奖励差异，通过对每个智能体的动作给予特定的奖励和惩罚，具有多重约束的差异化即时奖励可以更准确地指导智能体的训练过程；

具体实施时，由于多智能体深度强化学***衡，并对正奖励样本的表达不充分；因此，本申请提出的深度强化学***衡缓冲区和普通缓冲区；在训练过程中，平衡缓冲区和普通缓冲区用于存放不同类型的样本，并根据设定时间段内收集的样本的比例，动态调整在两个回放缓冲区中采样的比例；

S4.对步骤S3构建的深度强化学习模型进行训练，并采用训练后的模型对步骤S2构建的数据传输模型进行求解；具体包括如下步骤：

在训练过程中，将获取的即时奖励为正的样本视为优秀样本，并保存到平衡缓冲区，同时将剩余样本保存到普通缓冲区；在训练过程中，根据设定时间段内收集的样本的比例，动态调整在两个回放缓冲区中采样的比例，从而实现训练样本的动态均衡；

具体实施时，还包括如下步骤：

由于高度动态的车辆通信环境以及训练数据的局部性特点，车辆智能体在进入新的环境时需要重新进行耗时的训练过程；如果进入特定区域的新车辆有合适的基础模型，车辆智能体可以通过从基础模型开始，使用本发明方法快速训练个性化模型；联邦学习框架允许多个设备在中央服务器的协调下松散联合，以参与全局基础模型训练；其初衷是保护训练数据集的隐私，但它也减少了中央服务器的模型训练负担；尽管分布式训练的本地模型参数需要传输到集中式服务器以更新全局基础模型参数，但与将分散的原始数据集聚合到集中服务器相比，通信开销可忽略不计；因此，联邦学习框架是训练全局基础模型的合适框架；因此，本申请基于联邦学习框架，在训练过程中进行若干个智能体的强化学习；

采用联邦平均算法作为宏基站的模型聚合算法；

S5.根据步骤S4得到的结果，目标异构V2X网络进行数据传输；

以下，对于所述的基于DONA框架的异构V2X网络数据传输方法，提出可用于具体实施的算法，具体包括数据传输算法和训练算法；

训练过程：包括训练步骤和决策步骤；

训练步骤包括：

输出为：车辆用户v的在线Q网络模型参数θ_v；

A3：计算随机选择动作概率的递减步长初始化ε＝ε₁；

A4：初始化平衡缓冲区BB和普通缓冲区CB，大小都为M＝1000；

A8：获取车辆用户v在时间间隔t的所有可用动作集合；

A9：基于局部观察通过在线Q网络获取不同动作对应的Q值；

A11：将动作选择结果广播到邻居智能体；

A12：从网络环境中观察到新的局部观察并获得即时奖励/>

决策步骤包括：

输入：局部观察

输出：动作选择结果

根据局部观察利用在线Q网络模型θ_v，获得对应的动作选择结果

服务器端部分：

B1:初始化在线Q网络的基础模型参数θ为随机值；

B6.转到步骤B3；

客户端部分：

C2:运行所述的数据传输算法；

C4:转到步骤C2。

以下，结合一个实施例，对本发明方法的效果进行进一步说明：

本实施例考虑使用和不使用动态均衡策略两种情况以展示本发明方法的效果。该实施例将车辆用户数目设置为10，资源块总数设置为9。

在本实施例中，时间按照调度周期划分，而每个车辆用户会获得一个由基站分发的顺序，该顺序决定车辆用户动作选择的顺序。在每个调度周期中，车辆用户会随机产生待发送消息和确定需要协同转发消息。它们会首先收集局部观察，并监听附近车辆广播的动作选择信息。接下来，车辆用户使用数据传输算法，根据本训练轮次收集的局部观察信息预测应该采取的动作，并把自己的动作选择信息进行广播。联邦学***均以训练公共基础模型，该模型主要用来激活新加入的车辆智能体。仿真实验的仿真参数如表1所示，深度强化学习的仿真参数如表2所示。

表1仿真参数示意表

/>

表2深度强化学习仿真参数示意表

/>

本实施例使用python+pytorch工具实现上述方案，并得到如图2至图5所示的结果。

图3至图6显示了使用和不使用动态均衡策略时的模型收敛情况。从图中可以看出，当使用动态均衡策略时，模型的***性能和收敛速度都得到了提高。从图3至图5中，可以看到，与不使用动态均衡策略相比，***频谱能量效率提高了92.17％，满意度提高了0.68％，多跳消息满意度提高了0.55％。此外，可以从图6中个体奖励的变化分析得到，当使用动态均衡策略时，训练前期能够更快地满足多种消息的基础要求，进而可以更充分地训练模型。并且相比于不使用动态均衡策略时，图形后期的突刺更少，这也反映出了模型的稳定性。

上述现象的出现主要是因为动态均衡策略可以记录探索过程中的正反馈历史并动态的调整样本比例。因此，它确保了在初期用于训练的样本的均匀，使模型训练更加稳定和平衡。随着训练轮次的增加，非负奖励的出现频率提高，该策略可以动态调整批次中的样本比例，以确保样本的多样性。因此，本发明方法能够保持对正负样本的表达能力，并且不会受到早期稀疏的非负奖励的影响。同时也可以观察到，当不使用均衡策略时，模型虽然可以收敛，然而由于早期探索中缺乏对好坏样本的区分与记录，过多的负奖励使得模型在早期阶段训练失衡，失去了对部分非负样本的表达能力，因此在各种性能指标上均差于使用了动态均衡策略的方案。

本发明构建了一个在异构V2X网络和多类型消息传输环境中的通信模式选择与资源分配问题，该问题以最大化***频谱能量效率为优化目标，并考虑了安全相关消息的时延和可靠性要求以及高容量消息的最低数据率约束；本发明设计了一种多智能体深度强化学习方法以求解面向频谱能量效率优化的通信模式选择与资源分配问题。该方法将服务质量保障约束和频谱能量效率优化目标转换为多约束奖励函数用来指导智能体的动作，并设计了训练样本的动态均衡策略以加速模型训练并提高模型性能；本发明设计了一种基于联邦学习的基础模型训练算法以加速模型训练并减少新激活的智能体的训练开销。

因此，本发明考虑了多种C-V2X基本通信模式和无线接口技术，形成了多种可选通信模式，充分利用了不同无线接口技术的优势，为多类型消息的传输提供服务质量保障并提高无线网络资源利用率。

Claims

1.一种基于DONA框架的异构V2X网络数据传输方法，包括如下步骤：

S1.获取目标异构V2X网络的参数信息；

目标异构V2X网络仅传输安全相关消息和高容量消息；所述安全相关消息包括定期广播的信标消息和由事件触发的紧急消息，所述高容量消息包括电子地图下载的消息和用于娱乐的多媒体信息；所述信标消息用于传输车辆状态信息，所述紧急消息用于传输道路上的设定的紧急情况信息；其中，信标消息通过单跳广播的方式传输到设定范围内的其他车辆用户，适用于V2V模式传输，且若V2V模式传输链路不符合设定的要求，则信标消息能够使用V2I模式或V2N模式进行传输；紧急消息通过多跳广播发送到设定范围外的其他车辆用户，适用于V2V和V2I组合模式或V2V和V2N组合模式传输；高容量消息适用于V2N模式传输；

采用如下算式作为异构V2X网络数据传输模型的优化目标：

max_{v,v'∈V；r∈R；s∈S}S_EE

其中V\v表示集合V中除去元素v后的集合；为蜂窝V2N通信模式下，车辆用户v通过蜂窝资源块f向小基站s发送高容量消息时的上行链路数据率，且w_f为蜂窝资源块f的带宽；/>为蜂窝V2N通信模式下，车辆用户v通过蜂窝资源块f向小基站s发送高容量消息时，小基站s处的上行链路信号干扰噪声比，且/>的计算式为为第/>个车辆用户；/>为第/>个小基站；/>为小基站/>是否将蜂窝资源块f分配给车辆/>到小基站/>的V2N链路的二进制变量；/>为车辆用户/>通过蜂窝资源块f发射信号到小基站/>处使用的发射功率；/>为车辆用户/>采用蜂窝资源块f与小基站/>通信的信道增益；/>为蜂窝资源块f是否被车辆/>到v'的V2V链路复用的二进制变量；/>为车辆用户/>通过蜂窝资源块f发射信号到车辆用户v'处使用的发射功率；/>为车辆用户/>采用蜂窝资源块f与另一车辆用户v'通信的信道增益；/>为蜂窝资源块f是否被车辆/>到路边基础设施r的V2I链路复用的二进制变量；/>为车辆用户/>通过蜂窝资源块f发射信号到路边基础设施r处使用的发射功率；/>为车辆用户/>采用蜂窝资源块f与路边基础设施r通信的信道增益；/>为小基站s处的噪声功率，/>为小基站s是否将蜂窝资源块f分配给V2N链路的二进制变量，/>为车辆用户v通过蜂窝资源块f发射信号到小基站s处使用的发射功率，/>表示车辆用户v采用蜂窝资源块f与小基站s通信的信道增益；/>为蜂窝V2I通信模式下，车辆用户v通过蜂窝资源块f向路边基础设施r发送安全相关信息时的上行链路数据率，且为蜂窝V2I通信模式下，车辆用户v通过蜂窝资源块f向路边基础设施r发送安全相关信息时，路边基础设施r处的上行链路信号干扰噪声比，且的计算公式为为第/>个路边基础设施；/>为小基站s是否将蜂窝资源块f分配给车辆/>到小基站s的V2N链路的二进制变量；/>为车辆用户/>通过蜂窝资源块f发射信号到小基站s处使用的发射功率；/>为车辆用户/>采用蜂窝资源块f与小基站s通信的信道增益；/>为蜂窝资源块f是否被车辆/>到路边基础设施/>的V2I链路复用的二进制变量；/>为车辆用户/>通过蜂窝资源块f发射信号到路边基础设施/>处使用的发射功率；/>为车辆用户/>采用蜂窝资源块f与路边基础设施/>通信的信道增益；/>为路边基础设施r处的噪声功率，/>为蜂窝资源块f是否被V2I链路复用的二进制变量，/>为车辆用户v通过蜂窝资源块f发射信号到路边基础设施r处使用的发射功率，/>为车辆用户v采用蜂窝资源块f与路边基础设施r通信的信道增益；/>为蜂窝V2V通信模式下，车辆用户v通过蜂窝资源块f向附近设定范围内的其他车辆广播时，车辆用户v'处的链路数据率，且/> 为蜂窝V2V通信模式下，车辆用户v通过蜂窝资源块f向附近设定范围内的其他车辆广播时，车辆用户v'处的信号干扰噪声比，且/>的计算公式为为第个车辆用户；/>为蜂窝资源块f是否被车辆/>到/>的V2V链路复用的二进制变量；/>为车辆用户/>通过蜂窝资源块f发射信号到车辆用户/>处使用的发射功率；/>为车辆用户/>采用蜂窝资源块f与另一车辆用户/>通信的信道增益；/>为小基站s通过蜂窝资源块v发射信号到车辆用户/>处使用的发射功率；/>为小基站s采用蜂窝资源块f与车辆用户/>通信的信道增益；/>为小基站s是否将蜂窝资源块f分配给车辆/>到小基站s的V2N链路的二进制变量；/>为路边基础设施r通过蜂窝资源块f发射信号到车辆用户/>处使用的发射功率；/>为路边基础设施r采用蜂窝资源块f与车辆用户/>通信的信道增益；/>为车辆用户v'处的噪声功率；/>为蜂窝资源块f是否被V2V链路复用的二进制变量，/>为车辆用户v通过蜂窝资源块f发射信号到车辆用户v'处使用的发射功率，/>为车辆用户v采用蜂窝资源块f与另一车辆用户v'通信的信道增益；

网络总频带资源消耗W为W_v为与车辆用户v相关联的频带资源消耗，且f(v,f)为第一二值函数，取值规则为当任何小基站都没有将蜂窝资源块f分配给车辆用户v使用时f(v,f)＝1，否则f(v,f)＝0，并表示为/>g(v,f)为第二二值函数，取值规则为当任何小基站都没有将蜂窝资源块f分配给车辆用户v使用且任何路边设施也没有使用蜂窝资源块f与车辆用户v通信时g(v,f)＝1，否则g(v,f)＝0，并表示为

采用如下算式作为异构V2X网络数据传输模型的约束条件：

约束条件1：

约束条件2：

约束条件3：

约束条件4：

约束条件5：

约束条件6：

约束条件7：

约束条件8：

约束条件9：

约束条件10：

约束条件11：

约束条件12：

约束条件13：

式中为车辆用户v的当前所达到的链路数据率，且/> 为V2N链路的最低数据率要求；/>为车辆用户v的信标消息的当前延迟度量，且为V2V链路的传输延迟，且/>L_v为以比特为单位的信标消息的大小；/>为V2I路径的传输延迟，且/> 为路边设施r通过蜂窝资源块f向车辆用户v'发送安全相关消息时的下行链路数据率，且为路边设施r通过蜂窝资源块f向车辆用户v'发送安全相关消息时车辆用户v'处的下行链路信号干扰噪声比，且为蜂窝资源块f是否被路边基础设施r到车辆v'的V2I链路复用的二进制变量；/>为路边基础设施r通过蜂窝资源块f发射信号到车辆用户v'处使用的发射功率；/>为路边基础设施r采用蜂窝资源块f与车辆用户v'通信的信道增益；/>为小基站/>通过蜂窝资源块f发射信号到车辆用户/>处使用的发射功率；/>为小基站/>采用蜂窝资源块f与车辆用户/>通信的信道增益；为蜂窝资源块f是否被车辆/>到v的V2V链路复用的二进制变量；/>为车辆用户/>通过蜂窝资源块f发射信号到车辆用户v处使用的发射功率；/>为车辆用户/>采用蜂窝资源块f与另一车辆用户v通信的信道增益；/>为路边基础设施/>通过蜂窝资源块f发射信号到车辆用户/>处使用的发射功率；/>为路边基础设施/>采用蜂窝资源块f与车辆用户/>通信的信道增益；/>为V2N路径的传输延迟，且/> 为小基站s通过蜂窝资源块f向车辆用户v'发送高容量数据时下行链路的数据率，且为小基站s通过蜂窝资源块f向车辆用户v'发送高容量数据时车辆用户v'处的下行链路信号干扰噪声比，且/>的计算公式为为小基站s是否将蜂窝资源块f分配给车辆v'到小基站s的V2N链路的二进制变量；/>为小基站s通过蜂窝资源块f发射信号到车辆用户v'处使用的发射功率；/>为小基站s采用蜂窝资源块f与车辆用户v'通信的信道增益；/>为信标消息和紧急消息的最大可容忍延迟；/>为车辆用户v的紧急消息的多跳传输路径中最长传输路径上的延迟，且/> 为第n条传输链路的延迟值，N为最长传输路径上的传输路径的总条数；/>为车辆用户v的信标消息的当前比特误码率度量，且/> 为V2V链路v→v'上发送消息L_v时的比特误码率，且/> 为V2I路径v→r→v'上发送消息L_v时的比特误码率，且/> 为V2N路径v→s→v'上发送消息L_v时的比特误码率，且/> 为信标消息和紧急消息的最大可容忍比特误码率；/>为车辆用户v的紧急消息的多跳传输路径中最长传输路径上的可靠性度量，且/> 为第n条链路的比特误码率值；/>为车辆用户LTE接口的最大传输功率；/>为车辆用户毫米波接口的最大传输功率；/>为车辆用户太赫兹接口的最大传输功率；

构建的深度强化学习模型部署在每辆车上并作为智能体；

将步骤S2构建的数据传输模型的求解问题，视为基于DONA框架的马尔可夫决策过程，并用五元组(SS,AA,PP,EE,{g_t}_t≥0)表示；其中，SS为全局状态空间，且描述为{SS^v}_v∈V，SS^v为车辆用户智能体v的局部观察观察空间；AA为所有智能体的联合动作空间，且描述为AA^v为车辆用户智能体v的动作空间；PP为状态转移概率矩阵，且表示为PP:SS×AA×SS'→[0,1]，即在状态SS下执行动作AA转换到另一状态SS'的概率PP的取值范围为[0,1]；EE为所有智能体的奖励函数集合，且表示为{EE^v}_v∈V，其中EE^v:SS×AA→RR为车辆用户智能体v的本地奖励函数，表示在状态SS下执行动作AA时获得本地奖励EE^v的取值范围为实数集RR；{g_t}_t≥0为时变的通信网络；

式中函数Q()为在线Q网络的状态-动作值函数；为本次动作选择后获得的即时回报值与目标Q网络对未来回报的估计值之和，且/>函数/>为目标Q网络的状态-动作值函数，/>为车辆用户智能体v在t时刻获得的即时奖励；γ为折扣系数；/>为车辆用户智能体v在t时刻的局部观察；/>为车辆用户智能体v在t时刻所采取的动作；/>为目标Q网络的参数，且周期性地从在线Q网络的模型参数θ_v中复制；

构建深度强化学习模型时，关注如下三个要素：

动作空间要素：

式中为LTE技术的功率分级的个数；/>为毫米波技术的功率分级的个数；/>为太赫兹技术的功率分级的个数；/>表示频带资源块选择结果，/>为资源块的选择结果向量，符号×表示两个集合的笛卡尔积；/>表示智能体选择的通信模式，/>为通信模式的选择结果向量，若车辆用户智能体选择了V2N模式则m_V2N∈S且m_V2N表示具体的基站序号，若车辆用户智能体未选择V2N模式则m_V2N＝0，若车辆用户智能体选择了V2I模式则m_V2I∈R且m_V2I表示具体的路边基础设施的序号，若车辆用户智能体未选择V2I模式则m_V2I＝0，若车辆用户智能体选择了V2V模式则m_V2V＝1，若车辆用户智能体未选择V2V模式则m_V2V＝0；/>表示功率选择结果，/>为功率的选择结果向量；在t时刻，车辆用户智能体v管理的一组动作/>表示为在t时刻，所有|V|个车辆用户智能体的联合动作aa_t表示为/>

局部观察空间要素：

车辆用户智能体v在t时刻的局部观察包括如下内容：

在t时刻所有无线电接口技术的资源块上，车辆用户智能体与其接收范围内潜在的通信终端之间的信道增益集合采用如下算式表示：

接收消息优先集合采用如下算式表示：

式中为二值变量，且若存在消息要从小基站s通过资源块c发送到车辆用户智能体v则/>否则/> 为车辆用户智能体v是否需要接收小基站发出的消息的指示变量集合；/>为二值变量，且若存在消息要从路边基础设施r通过资源块c发送到车辆用户智能体v则/>否则/> 为车辆用户智能体v是否需要接收路边基础设施发出的消息的指示变量集合；/>为二值变量，且若存在消息要从车辆用户v'通过资源块c发送到车辆用户智能体v，则/>否则/> 为车辆用户智能体v是否需要接收其他车辆发出的消息的指示变量集合；

式中V_v\v为车辆用户智能体v的接收范围内排除车辆v本身的车辆用户智能体集合；V_v为车辆用户智能体v的接收范围；

待发送信息距离违反时延约束的剩余时间T_t ^v；

待发送消息类型向量Y_t ^v，表示为Y_t ^v＝(M_B,M_E,M_H)，其中M_B为用于表示车辆用户智能体v在当前时刻是否要发送信标消息的二值变量，若车辆用户智能体v在当前时刻要发送信标消息则M_B＝1，否则M_B＝0；M_E为用于表示车辆用户智能体v在当前时刻是否要发送紧急消息的二值变量，若车辆用户智能体v在当前时刻要发送紧急消息则M_E＝1，否则M_E＝0；M_H为用于表示车辆用户智能体v在当前时刻是否要发送高容量消息的二值变量，若车辆用户智能体v在当前时刻要发送高容量消息则M_H＝1，否则M_H＝0；

最后，得到车辆用户智能体v观察到的状态空间为/>

即时奖励要素：

当所有车辆用户智能体对目标异构V2X网络采取联合动作aa_t时，各个车辆用户智能体将各自获得对应的即时奖励；

采用如下算式计算车辆用户智能体v在时刻t获取的即时奖励

式中δ₁为设定的第一权重；R_v为车辆用户智能体v的数据率；P_v为车辆用户智能体v的功耗；W_v为车辆用户智能体v的频带资源消耗；H₁()为分段函数且计算式为为车辆用户智能体v在时刻t获取的个体奖励，且表示为其中δ₂为设定的第二权重，δ₃为设定的第三权重，H₂()为分段函数且计算式为/>A为设定的非负参数，H₃()为分段函数且计算式为/>B为设定的非负参数；

S5.根据步骤S4得到的结果，目标异构V2X网络进行数据传输；

2.根据权利要求1所述的基于DONA框架的异构V2X网络数据传输方法，其特征在于所述的深度强化学***衡缓冲区和普通缓冲区；在训练过程中，平衡缓冲区和普通缓冲区用于存放不同类型的样本，并根据设定时间段内收集的样本的比例，动态调整在两个回放缓冲区中采样的比例。

3.根据权利要求2所述的基于DONA框架的异构V2X网络数据传输方法，其特征在于所述的步骤S4，具体包括如下步骤：

4.根据权利要求3所述的基于DONA框架的异构V2X网络数据传输方法，其特征在于所述的步骤S4，还包括如下步骤：

采用联邦平均算法作为宏基站的模型聚合算法；

式中θ^r+1为宏基站更新的全局Q网络的参数；为车辆用户智能体v在协同训练的第r+1轮的本地Q网络的参数；l为随机抽样后的历史样本长度；/>为设定的权重系数，且

5.根据权利要求1～4之一所述的基于DONA框架的异构V2X网络数据传输方法，其特征在于所述的基于DONA框架的异构V2X网络数据传输方法，具体包括数据传输算法和训练算法；

训练过程：包括训练步骤和决策步骤；

训练步骤包括：

输出为：车辆用户v的在线Q网络模型参数θ_v；

A2：使用基础网络模型参数θ初始化在线Q网络模型参数θ_v和目标Q网络模型参数

A3：计算随机选择动作概率的递减步长初始化ε＝ε₁；

A4：初始化平衡缓冲区BB和普通缓冲区CB，大小都为M＝1000；

A6：根据车辆用户v的局部观察结果，更新信道增益集合接收消息优先集合/>待发送信息距离违反时延约束的剩余时间T_t ^v、待发送消息类型向量Y_t ^v；

A7：根据车辆用户v的局部观察结果，获得车辆用户智能体v接收范围内的前序智能体的动作并更新车辆用户智能体v观察到的状态空间/>

A8：获取车辆用户v在时间间隔t的所有可用动作集合；

A9：基于局部观察通过在线Q网络获取不同动作对应的Q值；

A11：将动作选择结果广播到邻居智能体；

A12：从网络环境中观察到新的局部观察并获得即时奖励/>

决策步骤包括：

输入：局部观察

输出：动作选择结果

服务器端部分：

B1:初始化在线Q网络的基础模型参数θ为随机值；

B6.转到步骤B3；

客户端部分：

C2:运行所述的数据传输算法；

C4:转到步骤C2。