CN116193405B - 基于dona框架的异构v2x网络数据传输方法 - Google Patents

基于dona框架的异构v2x网络数据传输方法 Download PDF

Info

Publication number
CN116193405B
CN116193405B CN202310198765.XA CN202310198765A CN116193405B CN 116193405 B CN116193405 B CN 116193405B CN 202310198765 A CN202310198765 A CN 202310198765A CN 116193405 B CN116193405 B CN 116193405B
Authority
CN
China
Prior art keywords
vehicle user
resource block
base station
vehicle
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310198765.XA
Other languages
English (en)
Other versions
CN116193405A (zh
Inventor
桂劲松
林丽艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202310198765.XA priority Critical patent/CN116193405B/zh
Publication of CN116193405A publication Critical patent/CN116193405A/zh
Application granted granted Critical
Publication of CN116193405B publication Critical patent/CN116193405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/44Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/06Selective distribution of broadcast services, e.g. multimedia broadcast multicast service [MBMS]; Services to user groups; One-way selective calling services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/46Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for vehicle-to-vehicle communication [V2V]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于DONA框架的异构V2X网络数据传输方法,包括获取网络参数信息;构建异构V2X网络数据传输模型;基于DONA框架构建深度强化学习模型;训练深度强化学习模型,采用训练后的模型求解数据传输模型;根据求解结果进行数据传输;实时重复以上步骤并完成目标异构V2X网络的实时数据传输。本发明考虑了多种C‑V2X基本通信模式和无线接口技术,形成了多种可选通信模式,充分利用了不同无线接口技术的优势,能够为多类型消息的传输提供服务质量保障并提高无线网络资源利用率,而且本发明的可靠性高、效率高且资源占用较少。

Description

基于DONA框架的异构V2X网络数据传输方法
技术领域
本发明属于通信技术领域,具体涉及一种基于DONA框架的异构V2X网络数据传输方法。
背景技术
随着经济技术的发展和人们生活水平的提高,车辆已经广泛应用于人们生产和生活当中。城市车辆数量的急增,导致交通拥堵加剧。为了满足车辆用户对道路安全、驾驶体验、交通效率和信息娱乐体验的日益提升的要求,研究人员提出了车辆对一切(vehicle toeverything,V2X)技术,以支持智能交通***(intelligent transport system,ITS)的相关应用。到目前为止,主要有两种支持V2X通信的候选技术:专用短程通信(dedicatedshort-range communication,DSRC)和蜂窝V2X(cellular V2X,C-V2X)。DSRC标准是为车辆网络开发的第一个标准,但其在高移动环境中的通信性能较差。因此,研究人员提出了C-V2X标准;C-V2X标准因其强大的蜂窝基础设施支撑和清晰的演进路线,受到了广泛关注。由于C-V2X最初建立在长期演进(long term evolution,LTE)网络的基础上,因此C-V2X的第一代标准被称为LTE-V2X。与基于IEEE 802.11p的DSRC相比,LTE-V2X可以作为“远程传感器”的连接技术,支持车辆节点感知几英里之外的各种道路状况和紧急事件。
随着蜂窝通信***从***(4G)发展到第五代(5G),C-V2X也随之产生了第二个标准NR-V2X。特别是,该标准采用了毫米波(millimeter wave,mmWave)频段。在不久的将来,太赫兹(terahertz,THz)作为6G的关键技术将被引入C-V2X***。因此,C-V2X将包括LTE-V2X、NR-V2X和THz-V2X三种接口技术。
基于C-V2X的***主要关注三种基础通信模式:车对车(vehicle-to-vehicle,V2V)、车对基础设施(vehicle-to-infrastructure,V2I)、车辆对网络(vehicle-to-network,V2N)。通常,V2V和V2I采用ITS频段,V2N则采用蜂窝频段。特别是,为了充分利用频谱资源,V2V和V2I链路可以复用由V2N链路占用(或未占用)的蜂窝资源块(resourceblock,RB)。
V2X应用主要依赖两种类型消息的支持,它们分别是安全相关消息和高容量消息。前者包括道路安全方面的信息,而后者涉及提高驾驶体验和交通优化方面的信息。通常,由于实时性要求,安全相关消息往往会通过V2V模式转发给附近的车辆,而高容量消息由于需要频繁访问互联网或V2X服务器,则以V2N模式传输。实际上,由于车辆网络的高动态性,V2V链路容易受到遮挡,因而无法保证长时间的可靠通信,因此安全相关消息的发送还需要考虑其它通信模式。现有的相关工作集中于处理不同通信模式下V2V对之间的资源共享问题,并采用深度强化学习(deep reinforcement learning,DRL)工具来解决这些问题。然而,这些工作局限于传统的C-V2X环境,而未考虑最新的C-V2X技术。
而且,与传统的C-V2X环境相比,异构V2X网络中存在更多的通信模式,并且通信模式选择和资源分配之间的耦合关系更加复杂。当多种C-V2X技术共存时,如何设计一种通信模式选择和资源分配方法,以满足多类型消息传输的服务质量要求并最大化***的频谱能量效率,就成为了现今的研究热点。目前,传统的技术方案采用的是DRL(DeepReinforcement Learning,深度强化学习)和FL(Federated Learning,联邦学习)的组合方案;这种方式虽然取得了一定的效果,但其在异构V2X网络中的应用中,依旧面临着一些问题:首先,现有技术无法充分利用异构V2X网络中多种通信模式的优势,取得最优的***频谱能量效率;其次,不同消息类型的复杂多样的资源需求以及时变的资源占用状态将导致大量的同频信道干扰,现有技术在处理这个问题时,其效果并不理想。最后,现有技术所采用的DRL和FL的模型训练架构,其效率相对较低,而且资源占用较多。
发明内容
本发明的目的在于提供一种可靠性高、效率高且资源占用较少的基于DONA框架的异构V2X网络数据传输方法。
本发明提供的这种基于DONA框架的异构V2X网络数据传输方法,包括如下步骤:
S1.获取目标异构V2X网络的参数信息;
S2.根据步骤S1获取的参数信息,基于数据传输过程中的数据率要求、延时要求、可靠性要求和通信限制,以网络总数据率、网络总功耗和网络总频带资源消耗为综合目标,构建异构V2X网络数据传输模型;
S3.针对步骤S2构建的数据传输模型,基于DONA框架构建深度强化学习模型;
S4.对步骤S3构建的深度强化学习模型进行训练,并采用训练后的模型对步骤S2构建的数据传输模型进行求解;
S5.根据步骤S4得到的结果,目标异构V2X网络进行数据传输;
S6.实时重复以上步骤,完成目标异构V2X网络的实时数据传输。
步骤S1所述的目标异构V2X网络的参数信息,具体包括如下内容:
目标异构V2X网络包括一个宏基站、若干个小基站、若干个路边基础设施和若干个车辆用户设备;所述宏基站、小基站、路边基础设施和车辆用户设备均拥有三种C-V2X接口;三种C-V2X接口为LTE-V2X接口、NR-V2X接口和THz-V2X接口,其中LTE-V2X接口为C-V2X接口的第一代标准接口,NR-V2X接口为毫米波频段接口,THz-V2X接口为太赫兹频段接口;
宏基站的信号覆盖整个异构V2X网络,小基站和路边基础设施的信号覆盖异构V2X网络的部分区域;
目标异构V2X网络仅传输安全相关消息和高容量消息;所述安全相关消息包括定期广播的信标消息和由事件触发的紧急消息,所述高容量消息包括电子地图下载的消息和用于娱乐的多媒体信息;所述信标消息用于传输车辆状态信息,所述紧急消息用于传输道路上的设定的紧急情况信息;其中,信标消息通过单跳广播的方式传输到设定范围内的其他车辆用户,适用于V2V(Vehicle-to-Vehicle,车辆对车辆)模式传输,且若V2V模式传输链路不符合设定的要求,则信标消息能够使用V2I(Vehicle-to-Infrastructure,车辆对基础设施)模式或V2N(Vehicle-to-Network,车辆对网络)模式进行传输;紧急消息通过多跳广播发送到设定范围外的其他车辆用户,适用于V2V和V2I组合模式或V2V和V2N组合模式传输;高容量消息适用于V2N模式传输;
宏基站能够管理设定数量的蜂窝频段资源,而且能够按照设定的要求协调所有基站的上下行通信的同步,从而避免上下行链路之间的相互干扰;所述蜂窝频段资源包括LTE频段、毫米波频段和太赫兹频段,且每个频段能够被划分为若干个蜂窝资源块;LTE频段表示为Flte={1,2,...,|Flte|},毫米波频段表示为Fmm={1,2,...,|Fmm|},太赫兹频段表示为Fthz={1,2,...,|Fthz|},其中|Flte|为LTE频段资源块的数量,|Fmm|为毫米波频段资源块的数量,|Fthz|为太赫兹频段资源块的数量;小基站集合表示为S={1,2,...,s,...,|S|},s为第s个小基站,|S|为小基站的数量;路边基础设施集合表示为R={1,2,...,r,...,|R|},r为第r个路边基础设施,|R|为路边基础设施的数量;车辆用户表示为V={1,2,...,v,...,|V|},v为第v个车辆用户,|V|为车辆用户的数量;所述蜂窝频段资源能够在所有小基站之间复用,蜂窝资源块分配给请求V2N传输服务的车辆用户;所有路边基础设施能够复用蜂窝频段资源,并为车辆用户提供V2I传输服务;每个车辆用户能够选择采用蜂窝用户占用或未占用的蜂窝资源块实现V2V传输服务,且若干个车辆用户能够彼此复用相同的蜂窝资源块;车辆用户能够复用上行或下行的蜂窝资源块;
设定宏基站、小基站、路边基础设施和车辆用户只能获得链路的设定尺度的信道增益;定义F为所有蜂窝资源块且F=Flte∪Fmm∪Fthz;以变量表示车辆用户v采用蜂窝资源块f与另一车辆用户v'通信的信道增益;以变量/>表示车辆用户v采用蜂窝资源块f与小基站s通信的信道增益;以变量/>表示车辆用户v采用蜂窝资源块f与路边基础设施r通信的信道增益;以二进制变量/>表示小基站s是否将蜂窝资源块f分配给V2N链路,且/>表示小基站s将蜂窝资源块f分配给V2N链路,/>表示小基站s未将蜂窝资源块f分配给V2N链路;以二进制变量/>表示蜂窝资源块f是否被V2I链路复用,且若/>表示蜂窝资源块f被V2I链路复用,/>表示蜂窝资源块f未被V2I链路复用;以二进制变量/>表示蜂窝资源块f是否被V2V链路复用,且若/>表示蜂窝资源块f被V2V链路复用,/>表示蜂窝资源块f未被V2V链路复用;
设定所有车辆用户的高容量消息传输时对数据率的要求是相同的,所有车辆用户对信标消息的延迟要求是相同的,所有车辆用户对信标消息的可靠性要求是相同的,所有车辆用户对紧急消息的延迟要求是相同的,所有车辆用户对紧急消息的可靠性要求是相同的,所有车辆用户在相同的无线电接口技术下具有相同数量的发射功率等级;仅考虑V2V链路,V2I路径和V2N路径的传输延迟。
所述的步骤S2,具体包括如下步骤:
采用如下算式作为异构V2X网络数据传输模型的优化目标:
maxv,v'∈V;r∈R;s∈S SEE
式中SEE为***平均频谱能量效率,且R为网络总数据率,P为网络总功耗,W为网络总频带资源消耗;
网络总数据率R的计算公式为Rv为与车辆用户v相关联的数据率;
其中V\v表示集合V中除去元素v后的集合;为蜂窝V2N通信模式下,车辆用户v通过蜂窝资源块f向小基站s发送高容量消息时的上行链路数据率,且wf为蜂窝资源块f的带宽;/>为蜂窝V2N通信模式下,车辆用户v通过蜂窝资源块f向小基站s发送高容量消息时,小基站s处的上行链路信号干扰噪声比,且/>的计算式为 为小基站s处的噪声功率,/>为表示小基站s是否将蜂窝资源块f分配给V2N链路的二进制变量,/>为车辆用户v通过蜂窝资源块f发射信号到小基站s处使用的发射功率,/>表示车辆用户v采用蜂窝资源块f与小基站s通信的信道增益;/>为蜂窝V2I通信模式下,车辆用户v通过蜂窝资源块f向路边基础设施r发送安全相关信息时的上行链路数据率,且 为蜂窝V2I通信模式下,车辆用户v通过蜂窝资源块f向路边基础设施r发送安全相关信息时,路边基础设施r处的上行链路信号干扰噪声比,且的计算公式为 为路边基础设施r处的噪声功率,/>为表示蜂窝资源块f是否被V2V或V2I链路复用的二进制变量,/>为车辆用户v通过蜂窝资源块f发射信号到路边基础设施r处使用的发射功率,/>为车辆用户v采用蜂窝资源块f与路边基础设施r通信的信道增益;/>为蜂窝V2V通信模式下,车辆用户v通过蜂窝资源块f向附近设定范围内的其他车辆广播时,车辆用户v'处的链路数据率,且/> 为蜂窝V2V通信模式下,车辆用户v通过蜂窝资源块f向附近设定范围内的其他车辆广播时,车辆用户v'处的信号干扰噪声比,且/>的计算公式为/> 为蜂窝资源块f是否被V2V链路复用的二进制变量,/>为车辆用户v通过蜂窝资源块f发射信号到车辆用户v'处使用的发射功率,/>为车辆用户v采用蜂窝资源块f与另一车辆用户v'通信的信道增益;
网络总功耗P的计算公式为Pv为与车辆用户v相关联的功耗,且
网络总频带资源消耗W为Wv为与车辆用户v相关联的频带资源消耗,且/>f(v,f)为第一二值函数,取值规则为当任何小基站都没有将蜂窝资源块f分配给车辆用户v使用时f(v,f)=1,否则f(v,f)=0,并表示为/>g(v,f)为第二二值函数,取值规则为当任何小基站都没有将蜂窝资源块f分配给车辆用户v使用且任何路边设施也没有使用蜂窝资源块f与车辆用户v通信时g(v,f)=1,否则g(v,f)=0,并表示为
采用如下算式作为异构V2X网络数据传输模型的约束条件:
约束条件1:
约束条件2:
约束条件3:
约束条件4:
约束条件5:
约束条件6:
约束条件7:
约束条件8:
约束条件9:
约束条件10:
约束条件11:
约束条件12:
约束条件13:式中/>为车辆用户v的当前所达到的链路数据率,且/> 为V2N链路的最低数据率要求;为车辆用户v的信标消息的当前延迟度量,且/> 为V2V链路的传输延迟,且/>Lv为以比特为单位的信标消息的大小;/>为V2I路径的传输延迟,且/> 为路边设施r通过蜂窝资源块f向车辆用户v'发送安全相关消息时的下行链路数据率,且/> 为路边设施r通过蜂窝资源块f向车辆用户v'发送安全相关消息时车辆用户v'处的下行链路信号干扰噪声比,且/> 为V2N路径的传输延迟,且/> 为小基站s通过蜂窝资源块f向车辆用户v'发送高容量数据时下行链路的数据率,且/> 为小基站s通过蜂窝资源块f向车辆用户v'发送高容量数据时车辆用户v'处的下行链路信号干扰噪声比,且/>的计算公式为 为信标消息和紧急消息的最大可容忍延迟;/>为车辆用户v的紧急消息的多跳传输路径中最长传输路径上的延迟,且/> 为第n条传输链路的延迟值,N为最长传输路径上的传输路径的总条数;/>为车辆用户v的信标消息的当前比特误码率度量,且 为V2V链路v→v'上发送消息Lv时的比特误码率,且 为V2I路径v→r→v'上发送消息Lv时的比特误码率,且 为V2N路径v→s→v'上发送消息Lv时的比特误码率,且/> 为信标消息和紧急消息的最大可容忍比特误码率;/>为车辆用户v的紧急消息的多跳传输路径中最长传输路径上的可靠性度量,且/> 为第n条链路的比特误码率值;/>为车辆用户LTE接口的最大传输功率;/>为车辆用户毫米波接口的最大传输功率;/>为车辆用户太赫兹接口的最大传输功率。
步骤S3所述的基于DONA框架构建深度强化学习模型,具体包括如下步骤:
构建的深度强化学习模型部署在每辆车上并作为智能体;
将步骤S2构建的数据传输模型的求解问题,视为基于DONA框架的马尔可夫决策过程,并用五元组(SS,AA,PP,EE,{gt}t≥0)表示;其中,SS为全局状态空间,且描述为{SSv}v∈V,SSv为车辆用户智能体v的局部观察空间;AA为所有智能体的联合动作空间,且描述为AAv为车辆用户智能体v的动作空间;PP为状态转移概率矩阵,且表示为PP:SS×AA×SS→[0,1];EE为所有智能体的奖励函数集合,且表示为{EEv}v∈V,其中EEv:SS×AA→RR为车辆用户智能体v的本地奖励函数;{gt}t≥0为时变的通信网络;
将时间TT划分为若干相等的时间间隔,在每个时间间隔中,每个智能体根据基站分发的顺序,异步选择一个动作并广播选择结果;根据智能体选择动作的顺序,后续智能体观察在自身接收范围内的前序智能体的动作广播结果;将观察到的动作选择结果添加到智能体自身的观察空间中;
构建的深度强化学习模型包括在线Q网络和目标Q网络;在线Q网络的模型参数θv通过最小化以下损失函数来进行更新:
式中为本次动作选择后获得的即时回报值与目标Q网络对未来回报的估计值之和,且/> 为车辆用户智能体v在t时刻获得的即时奖励;γ为折扣系数;/>为车辆用户智能体v在t时刻的局部观察;/>为车辆用户智能体v在t时刻所采取的动作;/>为目标Q网络的参数,且周期性地从在线Q网络的模型参数θv中复制;
构建深度强化学习模型时,关注如下三个要素:
动作空间要素:
对于t时刻的每个车辆用户智能体v∈V,对应的动作包括如下内容:
式中表示频带资源块选择结果,/>为资源块的选择结果向量,符号×表示两个集合的笛卡尔积;/>表示智能体选择的通信模式,/>为通信模式的选择结果向量,若车辆用户智能体选择了V2N模式则mV2N∈S且mV2N表示具体的基站序号,若车辆用户智能体未选择V2N模式则mV2N=0,若车辆用户智能体选择了V2I模式则mV2I∈R且mV2I表示具体的路边基础设施的序号,若车辆用户智能体未选择V2I模式则mV2I=0,若车辆用户智能体选择了V2V模式则mV2V=1,若车辆用户智能体未选择V2V模式则mV2V=0;/>表示功率选择结果,/>为功率的选择结果向量;在t时刻,车辆用户智能体v管理的一组动作/>表示为在t时刻,所有|V|个车辆用户智能体的联合动作aat表示为/>aat∈AA;
局部观察空间要素:
车辆用户智能体v在t时刻的局部观察包括如下内容:
在t时刻所有无线电接口技术的资源块上,车辆用户智能体与其接收范围内潜在的通信终端之间的大规模信道增益采用如下算式表示:
式中为在t时刻车辆用户智能体v通过资源块c与小基站s通信时的信道增益;为在t时刻车辆用户智能体v通过所有资源块与所有小基站通信时的信道增益集合;/>为在t时刻车辆用户智能体v通过资源块c与路边基础设施r通信时的信道增益;/>为在t时刻车辆用户智能体v通过所有资源块与所有路边基础设施通信时的信道增益集合;/>为在t时刻车辆用户智能体v通过资源块c与另一车辆用户v'通信时的信道增益;/>为在t时刻车辆用户智能体v通过所有资源块与所有其余车辆通信时的信道增益集合;所述通信终端包括小基站、路边基础设施和其他车辆用户智能体;
指示在当前时刻是否存在需要车辆用户智能体v接收的消息的变量采用如下算式表示:
式中为二值变量,且若存在消息要从小基站s通过资源块c发送到车辆用户智能体v则/>否则/>为车辆用户智能体v是否需要接收小基站发出的消息的指示变量集合;/>为二值变量,且若存在消息要从路边基础设施r通过资源块c发送到车辆用户智能体v则/>否则/>为车辆用户智能体v是否需要接收路边基础设施发出的消息的指示变量集合;/>为二值变量,且若存在消息要从车辆用户v'通过资源块c发送到车辆用户智能体v,则/>否则为车辆用户智能体v是否需要接收其他车辆发出的消息的指示变量集合;
车辆用户智能体v接收范围内的前序智能体的动作采用如下算式表示:
式中Vv为车辆用户智能体v的接收范围;
待发送信息距离违反时延约束的剩余时间Tt v
三元组Yt v,表示为Yt v=(MB,ME,MH),其中MB为用于表示车辆用户智能体v在当前时刻是否要发送信标消息的二值变量,若车辆用户智能体v在当前时刻要发送信标消息则MB=1,否则MB=0;ME为用于表示车辆用户智能体v在当前时刻是否要发送紧急消息的二值变量,若车辆用户智能体v在当前时刻要发送紧急消息则ME=1,否则ME=0;MH为用于表示车辆用户智能体v在当前时刻是否要发送高容量消息的二值变量,若车辆用户智能体v在当前时刻要发送高容量消息则MH=1,否则MH=0;
最后,得到车辆用户智能体v观察到的状态空间
即时奖励要素:
当所有车辆用户智能体对目标异构V2X网络采取***aat时,各个车辆用户智能体将各自获得对应的即时奖励;
采用如下算式计算车辆用户智能体v在时刻t获取的即时奖励
式中δ1为设定的第一权重;Rv为车辆用户智能体v的数据率;Pv为车辆用户智能体v的功耗;Wv为车辆用户智能体v的频带资源消耗;H1()为分段函数且计算式为 为车辆用户智能体v在时刻t获取的个体奖励,且表示为其中δ2为设定的第二权重,δ3为设定的第三权重,H2()为分段函数且计算式为/>A为设定的非负参数,H3()为分段函数且计算式为/>B为设定的非负参数。
所述的深度强化学***衡缓冲区和普通缓冲区;在训练过程中,平衡缓冲区和普通缓冲区用于存放不同类型的样本,并根据设定时间段内收集的样本的比例,动态调整在两个回放缓冲区中采样的比例。
所述的步骤S4,具体包括如下步骤:
在训练过程中,将获取的即时奖励为正的样本视为优秀样本,并保存到平衡缓冲区,同时将剩余样本保存到普通缓冲区;在训练过程中,根据设定时间段内收集的样本的比例,动态调整在两个回放缓冲区中采样的比例,从而实现训练样本的动态均衡。
所述的步骤S4,还包括如下步骤:
基于联邦学习框架,在训练过程中进行若干个智能体的强化学习;
宏基站作为联邦学习框架的中心参数聚合服务器,所有车辆用户智能体作为联邦学习框架的客户端设备并执行本地模型的训练;只有宏基站覆盖范围内的新激活的车辆用户智能体从宏基站请求基础模型,已经开始执行本地模型训练的车辆用户智能体则仅采用自身训练的模型;同时,已经开始执行本地模型训练的车辆用户智能体,在自身模型训练到设定的精度后,将自身模型发送到宏基站,从而进行模型聚合;
采用联邦平均算法作为宏基站的模型聚合算法;
宏基站不需要按照设定的周期将当前聚合的模型参数分发给车辆用户智能体;
宏基站存储历史模型参数,以便随机采样后进行后续的模型参数训练;
基于|V|个车辆用户的局部模型,全局模型参数采用如下算式进行更新:
式中θr+1为宏基站更新的全局Q网络的参数;为车辆用户智能体v在协同训练的第r+1轮的本地Q网络的参数;l为随机抽样后的历史样本长度;/>为设定的权重系数,且/>
所述的基于DONA框架的异构V2X网络数据传输方法,具体包括数据传输算法和训练算法;
每个车辆用户v均独自运行所述数据传输算法;所述数据传输算法包括:
训练过程:包括训练步骤和决策步骤;
训练步骤包括:
输入为:随机选择动作的首轮概率ε1和末轮概率ε2;折扣系数γ;在一个Epoch中的网络模型训练时长TT;目标Q网络模型参数更新间隔Nr;基础网络模型参数θ;
输出为:车辆用户v的在线Q网络模型参数θv
A1:初始化训练时间步指示变量和目标Q网络模型参数更新时间步指示变量tcnt为0;
A2:使用基础网络模型参数θ初始化在线网络模型参数θv和目标Q网络模型参数
A3:计算随机选择动作概率的递减步长初始化ε=ε1;/>
A4:初始化平衡缓冲区BB和普通缓冲区CB,大小都为M=1000;
A5:判断训练时间步指示变量是否达到网络模型训练时长TT,若是,结束本次训练过程,否则转到A6;
A6:根据车辆用户v的局部观察结果,更新信道增益集合接收消息优先集合满足延时约束的剩余时长向量Tt v、待发送消息类型向量Yt v
A7:根据车辆用户v的局部观察结果,获得车辆用户v能够观察到的其它车辆用户的动作集合并更新局部观察/>
A8:获取车辆用户v在时间间隔t的所有可用动作集合;
A9:基于局部观察通过在线Q网络获取不同动作对应的Q值;
A10:使用ε-greedy算法,生成一个[0,1)的随机数,若该随机数不大于ε,则在所有可用动作中随机选择一个动作若该随机数大于等于ε,则从在线Q网络的输出中选择最大Q值所对应的动作/>
A11:将动作选择结果广播到邻居智能体;
A12:从网络环境中观察到新的局部观察并获得即时奖励/>
A13:若则将样本/>保存到平衡缓冲区BB中,否则保存到普通缓冲区CB中;
A14:若缓冲区已满,则根据先入先出原则,将最早进入缓冲区的样本舍弃并执行A15;
A15:根据前一个Epoch内统计的好坏样本比例,确定双缓冲区的抽样比例ρ1和ρ2,且ρ1≥0.5,ρ12=1;
A16:将双缓冲区中抽取的样本混合组合成一个训练样本批次batch;
A17:针对抽取的batch计算并根据损失函数值估算公式/>计算梯度值,并更新在线Q网络参数θv
A18:判断是否到达目标Q网络模型参数更新轮次:若是,使用在线Q网络的参数以更新目标Q网络的参数,表示为以及将ε-Δε作为新的ε值;
A19:训练轮次指示变量和目标Q网络模型参数更新轮次指示变量tcnt都增1,并转到A5;
决策步骤包括:
输入:局部观察
输出:动作选择结果
根据局部观察利用在线Q网络模型θv,获得对应的动作选择结果/>
所述的训练算法,包括客户端部分和服务器端部分,服务器端部分在宏基站运行,客户端部分在每个车辆用户上运行;
服务器端部分:
B1:初始化在线Q网络的基础模型参数θ为随机值;
B2:将初始化的基础模型参数θ分发给宏基站覆盖区域内所有车辆用户;
B3:等待车辆用户运行所述数据传输算法,并上传个体模型参数θv
B4:等待特定时间后,将收到的个体模型参数利用公式进行联邦平均,得出更新后的基础模型参数θ;
B5:若有新进入宏基站覆盖区域的车辆智能体,则将最新的平均模型参数分发给新智能体;
B6.转到步骤B3;
客户端部分:
C1:若是新进入宏基站覆盖区域的车辆智能体,则利用宏基站发送的基础模型参数初始化本地的模型参数θv
C2:运行所述的数据传输算法;
C3:若接到服务器发出的联邦训练命令,则将本地模型参数θv以及训练数据集的大小发送到宏基站;
C4:转到步骤C2。
本发明提供的这种基于DONA框架的异构V2X网络数据传输方法,考虑了多种C-V2X基本通信模式和无线接口技术,形成了多种可选通信模式,充分利用了不同无线接口技术的优势,能够为多类型消息的传输提供服务质量保障并提高无线网络资源利用率,而且本发明的可靠性高、效率高且资源占用较少。
附图说明
图1为本发明的方法流程示意图。
图2为本发明的异构V2X网络的网络示意图。
图3为本发明的实施例的模型训练过程中***频谱能量效率的变化示意图。
图4为本发明的实施例的模型训练过程中信息满意率的变化示意图。
图5为本发明的实施例的模型训练过程中多跳信息满意率的变化示意图。
图6为本发明的实施例的模型训练过程中服务质量要求的满足情况示意图。
具体实施方式
如图1所示为本发明的方法流程示意图:本发明提供的这种基于DONA框架的异构V2X网络数据传输方法,包括如下步骤:
S1.获取目标异构V2X网络的参数信息;具体包括如下内容:
异构V2X网络的网络示意图如图2所示,其中,MBs表示宏基站;SBs表示小基站;RSU表示路边基础设施;
目标异构V2X网络包括一个宏基站、若干个小基站、若干个路边基础设施和若干个车辆用户设备;所述宏基站、小基站、路边基础设施和车辆用户设备均拥有三种C-V2X接口;三种C-V2X接口为LTE-V2X接口、NR-V2X接口和THz-V2X接口,其中LTE-V2X接口为C-V2X接口的第一代标准接口,NR-V2X接口为毫米波频段接口,THz-V2X接口为太赫兹接口;
宏基站的信号覆盖整个异构V2X网络,小基站和路边基础设施的信号覆盖异构V2X网络的部分区域;
目标异构V2X网络仅传输安全相关消息和高容量消息;所述安全相关消息包括定期广播的信标消息和由事件触发的紧急消息,所述高容量消息包括电子地图下载的消息和用于娱乐的多媒体信息;所述信标消息用于传输车辆状态信息,所述紧急消息用于传输道路上的设定的紧急情况信息;其中,信标消息通过单跳广播的方式传输到设定范围内的其他车辆用户,适用于V2V(Vehicle-to-Vehicle,车辆对车辆)模式传输,且若V2V模式传输链路不符合设定的要求,则信标消息能够使用V2I(Vehicle-to-Infrastructure,车辆对基础设施)模式或V2N(Vehicle-to-Network,车辆对网络)模式进行传输;紧急消息通过多跳广播发送到设定范围外的其他车辆用户,适用于V2V和V2I组合模式或V2V和V2N组合模式传输;高容量消息适用于V2N模式传输;
宏基站能够管理设定数量的蜂窝频段资源,而且能够按照设定的要求协调所有基站的上下行通信的同步,从而避免上下行链路之间的相互干扰;所述蜂窝频段资源包括LTE频段、毫米波频段和太赫兹频段,且每个频段能够被划分为若干个蜂窝资源块;LTE频段表示为Flte={1,2,...,|Flte|},毫米波频段表示为Fmm={1,2,...,|Fmm|},太赫兹频段表示为Fthz={1,2,...,|Fthz|},其中|Flte|为LTE频段资源块的数量,|Fmm|为毫米波频段资源块的数量,|Fthz|为太赫兹频段资源块的数量;小基站集合表示为S={1,2,...,s,...,|S|},s为第s个小基站,|S|为小基站的数量;路边基础设施集合表示为R={1,2,...,r,...,|R|},r为第r个路边基础设施,|R|为路边基础设施的数量;车辆用户表示为V={1,2,...,v,...,|V|},v为第v个车辆用户,|V|为车辆用户的数量;所述蜂窝频段资源能够在所有小基站之间复用,蜂窝资源块分配给请求V2N传输服务的车辆用户;所有路边基础设施能够复用蜂窝频段资源,并为车辆用户提供V2I传输服务;每个车辆用户能够选择采用蜂窝用户占用或未占用的蜂窝资源块实现V2V传输服务,且若干个车辆用户能够彼此复用相同的蜂窝资源块;车辆用户能够复用上行或下行的蜂窝资源块;
设定宏基站、小基站、路边基础设施和车辆用户只能获得链路的设定尺度的信道增益;定义F为所有蜂窝资源块且F=Flte∪Fmm∪Fthz;以变量表示车辆用户v采用蜂窝资源块f与另一车辆用户v'通信的信道增益;以变量/>表示车辆用户v采用蜂窝资源块f与小基站s通信的信道增益;以变量/>表示车辆用户v采用蜂窝资源块f与路边基础设施r通信的信道增益;以二进制变量/>表示小基站s是否将蜂窝资源块f分配给V2N链路,且/>表示小基站s将蜂窝资源块f分配给V2N链路,/>表示小基站s未将蜂窝资源块f分配给V2N链路;以二进制变量/>表示蜂窝资源块f是否被V2I链路复用,且若/>表示蜂窝资源块f被V2I链路复用,/>表示蜂窝资源块f未被V2I链路复用;以二进制变量/>表示蜂窝资源块f是否被V2V链路复用,且若/>表示蜂窝资源块f被V2V链路复用,/>表示蜂窝资源块f未被V2V链路复用;
设定所有车辆用户的高容量消息传输时对数据率的要求是相同的,所有车辆用户对信标消息的延迟要求是相同的,所有车辆用户对信标消息的可靠性要求是相同的,所有车辆用户对紧急消息的延迟要求是相同的,所有车辆用户对紧急消息的可靠性要求是相同的,所有车辆用户在相同的无线电接口技术下具有相同数量的发射功率等级;仅考虑V2V链路,V2I路径和V2N路径的传输延迟;
S2.根据步骤S1获取的参数信息,基于数据传输过程中的数据率要求、延时要求、可靠性要求和通信限制,以网络总数据率、网络总功耗和网络总频带资源消耗为综合目标,构建异构V2X网络数据传输模型;具体包括如下步骤:
总体目标是寻找一个最优的模式选择和资源分配方案,使得该方案可以在满足每条V2N链路的数据率要求、每条V2V链路(或V2I/V2N路径)的延迟和可靠性要求、以及每个车辆用户的最长传输路径的延迟和可靠性要求的基础上,最大化***的频谱能量效率;因此,采用如下算式作为异构V2X网络数据传输模型的优化目标:
maxv,v'∈V;r∈R;s∈S SEE
式中SEE为***平均频谱能量效率,且R为网络总数据率,P为网络总功耗,W为网络总频带资源消耗;
网络总数据率R的计算公式为Rv为与车辆用户v相关联的数据率;
其中V\v表示集合V中除去元素v后的集合;为蜂窝V2N通信模式下,车辆用户v通过蜂窝资源块f向小基站s发送高容量消息时的上行链路数据率,且wf为蜂窝资源块f的带宽;/>为蜂窝V2N通信模式下,车辆用户v通过蜂窝资源块f向小基站s发送高容量消息时,小基站s处的上行链路信号干扰噪声比,且/>的计算式为 为小基站s处的噪声功率,/>为表示小基站s是否将蜂窝资源块f分配给V2N链路的二进制变量,/>为车辆用户v通过蜂窝资源块f发射信号到小基站s处使用的发射功率,/>表示车辆用户v采用蜂窝资源块f与小基站s通信的信道增益;/>为蜂窝V2I通信模式下,车辆用户v通过蜂窝资源块f向路边基础设施r发送安全相关信息时的上行链路数据率,且 为蜂窝V2I通信模式下,车辆用户v通过蜂窝资源块f向路边基础设施r发送安全相关信息时,路边基础设施r处的上行链路信号干扰噪声比,且的计算公式为 为路边基础设施r处的噪声功率,/>为表示蜂窝资源块f是否被V2V或V2I链路复用的二进制变量,/>为车辆用户v通过蜂窝资源块f发射信号到路边基础设施r处使用的发射功率,/>为车辆用户v采用蜂窝资源块f与路边基础设施r通信的信道增益;/>为蜂窝V2V通信模式下,车辆用户v通过蜂窝资源块f向附近设定范围内的其他车辆广播时,车辆用户v'处的链路数据率,且/> 为蜂窝V2V通信模式下,车辆用户v通过蜂窝资源块f向附近设定范围内的其他车辆广播时,车辆用户v'处的信号干扰噪声比,且/>的计算公式为/> 为蜂窝资源块f是否被V2V链路复用的二进制变量,/>为车辆用户v通过蜂窝资源块f发射信号到车辆用户v'处使用的发射功率,/>为车辆用户v采用蜂窝资源块f与另一车辆用户v'通信的信道增益;
网络总功耗P的计算公式为Pv为与车辆用户v相关联的功耗,且
网络总频带资源消耗W为Wv为与车辆用户v相关联的频带资源消耗,且/>f(v,f)为第一二值函数,取值规则为当任何小基站都没有将蜂窝资源块f分配给车辆用户v使用时f(v,f)=1,否则f(v,f)=0,并表示为/>g(v,f)为第二二值函数,取值规则为当任何小基站都没有将蜂窝资源块f分配给车辆用户v使用且任何路边设施也没有使用蜂窝资源块f与车辆用户v通信时g(v,f)=1,否则g(v,f)=0,并表示为
采用如下算式作为异构V2X网络数据传输模型的约束条件:
约束条件1:
约束条件2:
约束条件3:
约束条件4:
约束条件5:
约束条件6:
约束条件7:
约束条件8:
约束条件9:
约束条件10:
约束条件11:
约束条件12:
约束条件13:式中/>为车辆用户v的当前所达到的链路数据率,且/> 为V2N链路的最低数据率要求;/>为车辆用户v的信标消息的当前延迟度量,且/> 为V2V链路的传输延迟,且/>Lv为以比特为单位的信标消息的大小;/>为V2I路径的传输延迟,且/> 为路边设施r通过蜂窝资源块f向车辆用户v'发送安全相关消息时的下行链路数据率,且/> 为路边设施r通过蜂窝资源块f向车辆用户v'发送安全相关消息时车辆用户v'处的下行链路信号干扰噪声比,且/> 为V2N路径的传输延迟,且/> 为小基站s通过蜂窝资源块f向车辆用户v'发送高容量数据时下行链路的数据率,且/> 为小基站s通过蜂窝资源块f向车辆用户v'发送高容量数据时车辆用户v'处的下行链路信号干扰噪声比,且/>的计算公式为 为信标消息和紧急消息的最大可容忍延迟;/>为车辆用户v的紧急消息的多跳传输路径中最长传输路径上的延迟,且/> 为第n条传输链路的延迟值,N为最长传输路径上的传输路径的总条数;/>为车辆用户v的信标消息的当前比特误码率度量,且/> 为V2V链路v→v'上发送消息Lv时的比特误码率,且 为V2I路径v→r→v'上发送消息Lv时的比特误码率,且 为V2N路径v→s→v'上发送消息Lv时的比特误码率,且/> 为信标消息和紧急消息的最大可容忍比特误码率;/>为车辆用户v的紧急消息的多跳传输路径中最长传输路径上的可靠性度量,且/> 为第n条链路的比特误码率值;/>为车辆用户LTE接口的最大传输功率;/>为车辆用户毫米波接口的最大传输功率;/>为车辆用户太赫兹接口的最大传输功率;
其中约束条件1为车辆用户的数据率要求约束;约束条件2为车辆用户的延迟要求约束;约束条件3为车辆用户的可靠性要求约束;约束条件1~3一同用于保证服务质量,从而保证用户的舒适体验;约束条件4~6为小基站最多向车辆用户分配一个资源块的约束;约束条件7~9为路边基础设施最多采用一个蜂窝资源块与车辆用户通信的约束;约束条件10为车辆用户的一条V2V链路只能使用一个蜂窝资源块的约束;约束条件11为车辆用户v的LTE接口的传输功率约束;约束条件12为车辆用户v的毫米波接口的传输功率约束;约束条件13为车辆用户v的太赫兹接口的传输功率约束;
S3.针对步骤S2构建的数据传输模型,基于DONA框架构建深度强化学习模型;具体包括如下步骤:
由于步骤S2构建的数据传输模型是一个混合整数非线性规划问题,难以直接求解,原因在于:约束条件1~3和约束条件11~13产生了非凸问题,而约束条件4~10产生了组合问题。因此,严格的数学建模方法很难解决这类问题。然而基于深度强化学***均频谱能量效率)和个体奖励(即数据率、延迟和可靠性)。
在针对混合合作和竞争任务的MADRL的研究工作中,有两个典型的框架受到大量关注。一种是集中式训练分布式执行框架(centralized training with decentralizedexecution,CTDE),而另一种是基于网络连接的分布式智能体框架(decentralized onewith networked agents,DONA)。前者在应对数量大的智能体和离散的动作空间时很容易陷入模型参数过大的困境,这会使得训练模型变得困难且耗时。而后者不仅可以通过分布式训练模式来减小模型参数的体量,还可以通过智能体之间的通信来增强模型的稳定性,以扩大智能体的观察范围。
因此,本发明基于DONA框架提出了以上数据传输模型的解决方案,即基于DONA框架构建深度强化学习模型;
构建的深度强化学习模型部署在每辆车上并作为智能体;
将步骤S2构建的数据传输模型的求解问题,视为基于DONA框架的马尔可夫决策过程,并用五元组(SS,AA,PP,EE,{gt}t≥0)表示;其中,SS为全局状态空间,且描述为{SSv}v∈V,SSv为车辆用户智能体v的局部观察空间;AA为所有智能体的联合动作空间,且描述为AAv为车辆用户智能体v的动作空间;PP为状态转移概率矩阵,且表示为PP:SS×AA×SS→[0,1];EE为所有智能体的奖励函数集合,且表示为{EEv}v∈V,其中EEv:SS×AA→RR为车辆用户智能体v的本地奖励函数;{gt}t≥0为时变的通信网络;
将时间TT划分为若干相等的时间间隔,在每个时间间隔中,每个智能体根据基站分发的顺序,异步选择一个动作并广播选择结果;根据智能体选择动作的顺序,后续智能体观察在自身接收范围内的前序智能体的动作广播结果;将观察到的动作选择结果添加到智能体自身的观察空间中;
构建的深度强化学习模型包括在线Q网络和目标Q网络;在线Q网络的模型参数θv通过最小化以下损失函数来进行更新:
式中为本次动作选择后获得的即时回报值与目标Q网络对未来回报的估计值之和,且/> 为车辆用户智能体v在t时刻获得的即时奖励;γ为折扣系数;/>为车辆用户智能体v在t时刻的局部观察;/>为车辆用户智能体v在t时刻所采取的动作;/>为目标Q网络的参数,且周期性地从在线Q网络的模型参数θv中复制;
构建深度强化学习模型时,关注如下三个要素:
动作空间要素:
对于t时刻的每个车辆用户智能体v∈V,对应的动作包括如下内容:/>
式中表示频带资源块选择结果,/>为资源块的选择结果向量,符号×表示两个集合的笛卡尔积;/>表示智能体选择的通信模式,/>为通信模式的选择结果向量,若车辆用户智能体选择了V2N模式则mV2N∈S且mV2N表示具体的基站序号,若车辆用户智能体未选择V2N模式则mV2N=0,若车辆用户智能体选择了V2I模式则mV2I∈R且mV2I表示具体的路边基础设施的序号,若车辆用户智能体未选择V2I模式则mV2I=0,若车辆用户智能体选择了V2V模式则mV2V=1,若车辆用户智能体未选择V2V模式则mV2V=0;/>表示功率选择结果,/>为功率的选择结果向量;在t时刻,车辆用户智能体v管理的一组动作/>表示为在t时刻,所有|V|个车辆用户智能体的联合动作aat表示为/>aat∈AA;
局部观察空间要素:
车辆用户智能体v在t时刻的局部观察包括如下内容:
在t时刻所有无线电接口技术的资源块上,车辆用户智能体与其接收范围内潜在的通信终端之间的大规模信道增益采用如下算式表示:
式中为在t时刻车辆用户智能体v通过资源块c与小基站s通信时的信道增益;/>为在t时刻车辆用户智能体v通过所有资源块与所有小基站通信时的信道增益集合;/>为在t时刻车辆用户智能体v通过资源块c与路边基础设施r通信时的信道增益;/>为在t时刻车辆用户智能体v通过所有资源块与所有路边基础设施通信时的信道增益集合;/>为在t时刻车辆用户智能体v通过资源块c与另一车辆用户v'通信时的信道增益;/>为在t时刻车辆用户智能体v通过所有资源块与所有其余车辆通信时的信道增益集合;所述通信终端包括小基站、路边基础设施和其他车辆用户智能体;
指示在当前时刻是否存在需要车辆用户智能体v接收的消息的变量采用如下算式表示:
式中为二值变量,且若存在消息要从小基站s通过资源块c发送到车辆用户智能体v则/>否则/>为车辆用户智能体v是否需要接收小基站发出的消息的指示变量集合;/>为二值变量,且若存在消息要从路边基础设施r通过资源块c发送到车辆用户智能体v则/>否则/>为车辆用户智能体v是否需要接收路边基础设施发出的消息的指示变量集合;/>为二值变量,且若存在消息要从车辆用户v'通过资源块c发送到车辆用户智能体v,则/>否则为车辆用户智能体v是否需要接收其他车辆发出的消息的指示变量集合;
车辆用户智能体v接收范围内的前序智能体的动作采用如下算式表示:
式中Vv为车辆用户智能体v的接收范围;
待发送信息距离违反时延约束的剩余时间Tt v
三元组Yt v,表示为Yt v=(MB,ME,MH),其中MB为用于表示车辆用户智能体v在当前时刻是否要发送信标消息的二值变量,若车辆用户智能体v在当前时刻要发送信标消息则MB=1,否则MB=0;ME为用于表示车辆用户智能体v在当前时刻是否要发送紧急消息的二值变量,若车辆用户智能体v在当前时刻要发送紧急消息则ME=1,否则ME=0;MH为用于表示车辆用户智能体v在当前时刻是否要发送高容量消息的二值变量,若车辆用户智能体v在当前时刻要发送高容量消息则MH=1,否则MH=0;
最后,得到车辆用户智能体v观察到的状态空间
即时奖励要素:
当所有车辆用户智能体对目标异构V2X网络采取***aat时,各个车辆用户智能体将各自获得对应的即时奖励;由于本申请的设计目标是最大化***平均频谱能量效率,同时满足每个车辆用户在数据率、延迟和可靠性方面的要求,因此本发明提出了一种两段式的即时奖励函数;
采用如下算式计算车辆用户智能体v在时刻t获取的即时奖励
该计算式中,第一部分由所有智能体共享,是一个公共奖励函数用来衡量所有|V|个车辆用户智能体的总体性能,该函数旨在最大化***平均频谱能量效率;第二部分是一个衡量车辆用户智能体自身行为的个体奖励,以保证个体的基本服务质量要求;式中δ1为设定的第一权重;Rv为车辆用户智能体v的数据率;Pv为车辆用户智能体v的功耗;Wv为车辆用户智能体v的频带资源消耗;H1()为分段函数且计算式为 为车辆用户智能体v在时刻t获取的个体奖励,表示为其中第一部分表示满足V2N链路的最低数据率要求的奖励以及违反约束的惩罚,而第二部分表示V2V链路或V2I路径的延迟和可靠性要求的奖励和惩罚,δ2为设定的第二权重,δ3为设定的第三权重,H2()为分段函数且计算式为/>A为设定的非负参数,H3()为分段函数且计算式为/>B为设定的非负参数;
权重δ1~δ3旨在平衡不同约束对最终奖励的影响;同时,H1函数表示只有在满足个体约束(即,个体奖励值非负,意味着智能体自身的服务质量要求得到满足)时才会获得频谱能效奖励,否则不会获得奖励;H2函数意味着V2N链路违反约束时,惩罚会随着违反约束的程度的增加而增加,但当约束得到满足时,只给予一个恒定的奖励;H3函数将延迟和可靠性约束绑定,表示只有在同时满足延迟和可靠性要求时,才会给予奖励,否则,只会对于违反约束的部分进行处罚;设定的参数A和B意味着不鼓励无限制地提高自身的性能;这是因为在复用频段资源的情况下无限制提高个体性能可能导致***总体性能下降;函数H1、H2和H3的多重约束条件旨在加强整体约束,扩大不同智能体的奖励差异,通过对每个智能体的动作给予特定的奖励和惩罚,具有多重约束的差异化即时奖励可以更准确地指导智能体的训练过程;
具体实施时,由于多智能体深度强化学***衡,并对正奖励样本的表达不充分;因此,本申请提出的深度强化学***衡缓冲区和普通缓冲区;在训练过程中,平衡缓冲区和普通缓冲区用于存放不同类型的样本,并根据设定时间段内收集的样本的比例,动态调整在两个回放缓冲区中采样的比例;
S4.对步骤S3构建的深度强化学习模型进行训练,并采用训练后的模型对步骤S2构建的数据传输模型进行求解;具体包括如下步骤:
在训练过程中,将获取的即时奖励为正的样本视为优秀样本,并保存到平衡缓冲区,同时将剩余样本保存到普通缓冲区;在训练过程中,根据设定时间段内收集的样本的比例,动态调整在两个回放缓冲区中采样的比例,从而实现训练样本的动态均衡;
具体实施时,还包括如下步骤:
由于高度动态的车辆通信环境以及训练数据的局部性特点,车辆智能体在进入新的环境时需要重新进行耗时的训练过程;如果进入特定区域的新车辆有合适的基础模型,车辆智能体可以通过从基础模型开始,使用本发明方法快速训练个性化模型;联邦学习框架允许多个设备在中央服务器的协调下松散联合,以参与全局基础模型训练;其初衷是保护训练数据集的隐私,但它也减少了中央服务器的模型训练负担;尽管分布式训练的本地模型参数需要传输到集中式服务器以更新全局基础模型参数,但与将分散的原始数据集聚合到集中服务器相比,通信开销可忽略不计;因此,联邦学习框架是训练全局基础模型的合适框架;因此,本申请基于联邦学习框架,在训练过程中进行若干个智能体的强化学习;
宏基站作为联邦学习框架的中心参数聚合服务器,所有车辆用户智能体作为联邦学习框架的客户端设备并执行本地模型的训练;只有宏基站覆盖范围内的新激活的车辆用户智能体从宏基站请求基础模型,已经开始执行本地模型训练的车辆用户智能体则仅采用自身训练的模型;同时,已经开始执行本地模型训练的车辆用户智能体,在自身模型训练到设定的精度后,将自身模型发送到宏基站,从而进行模型聚合;
采用联邦平均算法作为宏基站的模型聚合算法;
宏基站不需要按照设定的周期将当前聚合的模型参数分发给车辆用户智能体;
宏基站存储历史模型参数,以便随机采样后进行后续的模型参数训练;
基于|V|个车辆用户的局部模型,全局模型参数采用如下算式进行更新:
式中θr+1为宏基站更新的全局Q网络的参数;为车辆用户智能体v在协同训练的第r+1轮的本地Q网络的参数;l为随机抽样后的历史样本长度;/>为设定的权重系数,且/>
S5.根据步骤S4得到的结果,目标异构V2X网络进行数据传输;
S6.实时重复以上步骤,完成目标异构V2X网络的实时数据传输。
以下,对于所述的基于DONA框架的异构V2X网络数据传输方法,提出可用于具体实施的算法,具体包括数据传输算法和训练算法;
每个车辆用户v均独自运行所述数据传输算法;所述数据传输算法包括:
训练过程:包括训练步骤和决策步骤;
训练步骤包括:
输入为:随机选择动作的首轮概率ε1和末轮概率ε2;折扣系数γ;在一个Epoch中的网络模型训练时长TT;目标Q网络模型参数更新间隔Nr;基础网络模型参数θ;
输出为:车辆用户v的在线Q网络模型参数θv
A1:初始化训练时间步指示变量和目标Q网络模型参数更新时间步指示变量tcnt为0;
A2:使用基础网络模型参数θ初始化在线网络模型参数θv和目标Q网络模型参数
A3:计算随机选择动作概率的递减步长初始化ε=ε1
A4:初始化平衡缓冲区BB和普通缓冲区CB,大小都为M=1000;
A5:判断训练时间步指示变量是否达到网络模型训练时长TT,若是,结束本次训练过程,否则转到A6;
A6:根据车辆用户v的局部观察结果,更新信道增益集合接收消息优先集合满足延时约束的剩余时长向量Tt v、待发送消息类型向量Yt v
A7:根据车辆用户v的局部观察结果,获得车辆用户v能够观察到的其它车辆用户的动作集合并更新局部观察/>
A8:获取车辆用户v在时间间隔t的所有可用动作集合;
A9:基于局部观察通过在线Q网络获取不同动作对应的Q值;
A10:使用ε-greedy算法,生成一个[0,1)的随机数,若该随机数不大于ε,则在所有可用动作中随机选择一个动作若该随机数大于等于ε,则从在线Q网络的输出中选择最大Q值所对应的动作/>
A11:将动作选择结果广播到邻居智能体;
A12:从网络环境中观察到新的局部观察并获得即时奖励/>
A13:若则将样本/>保存到平衡缓冲区BB中,否则保存到普通缓冲区CB中;
A14:若缓冲区已满,则根据先入先出原则,将最早进入缓冲区的样本舍弃并执行A15;
A15:根据前一个Epoch内统计的好坏样本比例,确定双缓冲区的抽样比例ρ1和ρ2,且ρ1≥0.5,ρ12=1;
A16:将双缓冲区中抽取的样本混合组合成一个训练样本批次batch;
A17:针对抽取的batch计算并根据损失函数值估算公式/>计算梯度值,并更新在线Q网络参数θv
A18:判断是否到达目标Q网络模型参数更新轮次:若是,使用在线Q网络的参数以更新目标Q网络的参数,表示为以及将ε-Δε作为新的ε值;
A19:训练轮次指示变量和目标Q网络模型参数更新轮次指示变量tcnt都增1,并转到A5;
决策步骤包括:
输入:局部观察
输出:动作选择结果
根据局部观察利用在线Q网络模型θv,获得对应的动作选择结果
所述的训练算法,包括客户端部分和服务器端部分,服务器端部分在宏基站运行,客户端部分在每个车辆用户上运行;
服务器端部分:
B1:初始化在线Q网络的基础模型参数θ为随机值;
B2:将初始化的基础模型参数θ分发给宏基站覆盖区域内所有车辆用户;
B3:等待车辆用户运行所述数据传输算法,并上传个体模型参数θv
B4:等待特定时间后,将收到的个体模型参数利用公式进行联邦平均,得出更新后的基础模型参数θ;
B5:若有新进入宏基站覆盖区域的车辆智能体,则将最新的平均模型参数分发给新智能体;
B6.转到步骤B3;
客户端部分:
C1:若是新进入宏基站覆盖区域的车辆智能体,则利用宏基站发送的基础模型参数初始化本地的模型参数θv
C2:运行所述的数据传输算法;
C3:若接到服务器发出的联邦训练命令,则将本地模型参数θv以及训练数据集的大小发送到宏基站;
C4:转到步骤C2。
以下,结合一个实施例,对本发明方法的效果进行进一步说明:
本实施例考虑使用和不使用动态均衡策略两种情况以展示本发明方法的效果。该实施例将车辆用户数目设置为10,资源块总数设置为9。
在本实施例中,时间按照调度周期划分,而每个车辆用户会获得一个由基站分发的顺序,该顺序决定车辆用户动作选择的顺序。在每个调度周期中,车辆用户会随机产生待发送消息和确定需要协同转发消息。它们会首先收集局部观察,并监听附近车辆广播的动作选择信息。接下来,车辆用户使用数据传输算法,根据本训练轮次收集的局部观察信息预测应该采取的动作,并把自己的动作选择信息进行广播。联邦学***均以训练公共基础模型,该模型主要用来激活新加入的车辆智能体。仿真实验的仿真参数如表1所示,深度强化学习的仿真参数如表2所示。
表1仿真参数示意表
/>
表2深度强化学习仿真参数示意表
/>
本实施例使用python+pytorch工具实现上述方案,并得到如图2至图5所示的结果。
图3至图6显示了使用和不使用动态均衡策略时的模型收敛情况。从图中可以看出,当使用动态均衡策略时,模型的***性能和收敛速度都得到了提高。从图3至图5中,可以看到,与不使用动态均衡策略相比,***频谱能量效率提高了92.17%,满意度提高了0.68%,多跳消息满意度提高了0.55%。此外,可以从图6中个体奖励的变化分析得到,当使用动态均衡策略时,训练前期能够更快地满足多种消息的基础要求,进而可以更充分地训练模型。并且相比于不使用动态均衡策略时,图形后期的突刺更少,这也反映出了模型的稳定性。
上述现象的出现主要是因为动态均衡策略可以记录探索过程中的正反馈历史并动态的调整样本比例。因此,它确保了在初期用于训练的样本的均匀,使模型训练更加稳定和平衡。随着训练轮次的增加,非负奖励的出现频率提高,该策略可以动态调整批次中的样本比例,以确保样本的多样性。因此,本发明方法能够保持对正负样本的表达能力,并且不会受到早期稀疏的非负奖励的影响。同时也可以观察到,当不使用均衡策略时,模型虽然可以收敛,然而由于早期探索中缺乏对好坏样本的区分与记录,过多的负奖励使得模型在早期阶段训练失衡,失去了对部分非负样本的表达能力,因此在各种性能指标上均差于使用了动态均衡策略的方案。
本发明构建了一个在异构V2X网络和多类型消息传输环境中的通信模式选择与资源分配问题,该问题以最大化***频谱能量效率为优化目标,并考虑了安全相关消息的时延和可靠性要求以及高容量消息的最低数据率约束;本发明设计了一种多智能体深度强化学习方法以求解面向频谱能量效率优化的通信模式选择与资源分配问题。该方法将服务质量保障约束和频谱能量效率优化目标转换为多约束奖励函数用来指导智能体的动作,并设计了训练样本的动态均衡策略以加速模型训练并提高模型性能;本发明设计了一种基于联邦学习的基础模型训练算法以加速模型训练并减少新激活的智能体的训练开销。
因此,本发明考虑了多种C-V2X基本通信模式和无线接口技术,形成了多种可选通信模式,充分利用了不同无线接口技术的优势,为多类型消息的传输提供服务质量保障并提高无线网络资源利用率。

Claims (5)

1.一种基于DONA框架的异构V2X网络数据传输方法,包括如下步骤:
S1.获取目标异构V2X网络的参数信息;
目标异构V2X网络包括一个宏基站、若干个小基站、若干个路边基础设施和若干个车辆用户设备;所述宏基站、小基站、路边基础设施和车辆用户设备均拥有三种C-V2X接口;三种C-V2X接口为LTE-V2X接口、NR-V2X接口和THz-V2X接口,其中LTE-V2X接口为C-V2X接口的第一代标准接口,NR-V2X接口为毫米波频段接口,THz-V2X接口为太赫兹频段接口;
宏基站的信号覆盖整个异构V2X网络,小基站和路边基础设施的信号覆盖异构V2X网络的部分区域;
目标异构V2X网络仅传输安全相关消息和高容量消息;所述安全相关消息包括定期广播的信标消息和由事件触发的紧急消息,所述高容量消息包括电子地图下载的消息和用于娱乐的多媒体信息;所述信标消息用于传输车辆状态信息,所述紧急消息用于传输道路上的设定的紧急情况信息;其中,信标消息通过单跳广播的方式传输到设定范围内的其他车辆用户,适用于V2V模式传输,且若V2V模式传输链路不符合设定的要求,则信标消息能够使用V2I模式或V2N模式进行传输;紧急消息通过多跳广播发送到设定范围外的其他车辆用户,适用于V2V和V2I组合模式或V2V和V2N组合模式传输;高容量消息适用于V2N模式传输;
宏基站能够管理设定数量的蜂窝频段资源,而且能够按照设定的要求协调所有基站的上下行通信的同步,从而避免上下行链路之间的相互干扰;所述蜂窝频段资源包括LTE频段、毫米波频段和太赫兹频段,且每个频段能够被划分为若干个蜂窝资源块;LTE频段表示为Flte={1,2,...,|Flte|},毫米波频段表示为Fmm={1,2,...,|Fmm|},太赫兹频段表示为Fthz={1,2,...,|Fthz|},其中|Flte|为LTE频段资源块的数量,|Fmm|为毫米波频段资源块的数量,|Fthz|为太赫兹频段资源块的数量;小基站集合表示为S={1,2,...,s,...,|S|},s为第s个小基站,|S|为小基站的数量;路边基础设施集合表示为R={1,2,...,r,...,|R|},r为第r个路边基础设施,|R|为路边基础设施的数量;车辆用户表示为V={1,2,...,v,...,|V|},v为第v个车辆用户,|V|为车辆用户的数量;所述蜂窝频段资源能够在所有小基站之间复用,蜂窝资源块分配给请求V2N传输服务的车辆用户;所有路边基础设施能够复用蜂窝频段资源,并为车辆用户提供V2I传输服务;每个车辆用户能够选择采用蜂窝用户占用或未占用的蜂窝资源块实现V2V传输服务,且若干个车辆用户能够彼此复用相同的蜂窝资源块;车辆用户能够复用上行或下行的蜂窝资源块;
设定宏基站、小基站、路边基础设施和车辆用户只能获得链路的设定尺度的信道增益;定义F为所有蜂窝资源块且F=Flte∪Fmm∪Fthz;以变量表示车辆用户v采用蜂窝资源块f与另一车辆用户v'通信的信道增益;以变量/>表示车辆用户v采用蜂窝资源块f与小基站s通信的信道增益;以变量/>表示车辆用户v采用蜂窝资源块f与路边基础设施r通信的信道增益;以二进制变量/>表示小基站s是否将蜂窝资源块f分配给V2N链路,且/>表示小基站s将蜂窝资源块f分配给V2N链路,/>表示小基站s未将蜂窝资源块f分配给V2N链路;以二进制变量/>表示蜂窝资源块f是否被V2I链路复用,且若/>表示蜂窝资源块f被V2I链路复用,/>表示蜂窝资源块f未被V2I链路复用;以二进制变量/>表示蜂窝资源块f是否被V2V链路复用,且若/>表示蜂窝资源块f被V2V链路复用,/>表示蜂窝资源块f未被V2V链路复用;
设定所有车辆用户的高容量消息传输时对数据率的要求是相同的,所有车辆用户对信标消息的延迟要求是相同的,所有车辆用户对信标消息的可靠性要求是相同的,所有车辆用户对紧急消息的延迟要求是相同的,所有车辆用户对紧急消息的可靠性要求是相同的,所有车辆用户在相同的无线电接口技术下具有相同数量的发射功率等级;仅考虑V2V链路,V2I路径和V2N路径的传输延迟;
S2.根据步骤S1获取的参数信息,基于数据传输过程中的数据率要求、延时要求、可靠性要求和通信限制,以网络总数据率、网络总功耗和网络总频带资源消耗为综合目标,构建异构V2X网络数据传输模型;具体包括如下步骤:
采用如下算式作为异构V2X网络数据传输模型的优化目标:
maxv,v'∈V;r∈R;s∈SSEE
式中SEE为***平均频谱能量效率,且R为网络总数据率,P为网络总功耗,W为网络总频带资源消耗;
网络总数据率R的计算公式为Rv为与车辆用户v相关联的数据率;
其中V\v表示集合V中除去元素v后的集合;为蜂窝V2N通信模式下,车辆用户v通过蜂窝资源块f向小基站s发送高容量消息时的上行链路数据率,且wf为蜂窝资源块f的带宽;/>为蜂窝V2N通信模式下,车辆用户v通过蜂窝资源块f向小基站s发送高容量消息时,小基站s处的上行链路信号干扰噪声比,且/>的计算式为 为第/>个车辆用户;/>为第/>个小基站;/>为小基站/>是否将蜂窝资源块f分配给车辆/>到小基站/>的V2N链路的二进制变量;/>为车辆用户/>通过蜂窝资源块f发射信号到小基站/>处使用的发射功率;/>为车辆用户/>采用蜂窝资源块f与小基站/>通信的信道增益;/>为蜂窝资源块f是否被车辆/>到v'的V2V链路复用的二进制变量;/>为车辆用户/>通过蜂窝资源块f发射信号到车辆用户v'处使用的发射功率;/>为车辆用户/>采用蜂窝资源块f与另一车辆用户v'通信的信道增益;/>为蜂窝资源块f是否被车辆/>到路边基础设施r的V2I链路复用的二进制变量;/>为车辆用户/>通过蜂窝资源块f发射信号到路边基础设施r处使用的发射功率;/>为车辆用户/>采用蜂窝资源块f与路边基础设施r通信的信道增益;/>为小基站s处的噪声功率,/>为小基站s是否将蜂窝资源块f分配给V2N链路的二进制变量,/>为车辆用户v通过蜂窝资源块f发射信号到小基站s处使用的发射功率,/>表示车辆用户v采用蜂窝资源块f与小基站s通信的信道增益;/>为蜂窝V2I通信模式下,车辆用户v通过蜂窝资源块f向路边基础设施r发送安全相关信息时的上行链路数据率,且 为蜂窝V2I通信模式下,车辆用户v通过蜂窝资源块f向路边基础设施r发送安全相关信息时,路边基础设施r处的上行链路信号干扰噪声比,且的计算公式为 为第/>个路边基础设施;/>为小基站s是否将蜂窝资源块f分配给车辆/>到小基站s的V2N链路的二进制变量;/>为车辆用户/>通过蜂窝资源块f发射信号到小基站s处使用的发射功率;/>为车辆用户/>采用蜂窝资源块f与小基站s通信的信道增益;/>为蜂窝资源块f是否被车辆/>到路边基础设施/>的V2I链路复用的二进制变量;/>为车辆用户/>通过蜂窝资源块f发射信号到路边基础设施/>处使用的发射功率;/>为车辆用户/>采用蜂窝资源块f与路边基础设施/>通信的信道增益;/>为路边基础设施r处的噪声功率,/>为蜂窝资源块f是否被V2I链路复用的二进制变量,/>为车辆用户v通过蜂窝资源块f发射信号到路边基础设施r处使用的发射功率,/>为车辆用户v采用蜂窝资源块f与路边基础设施r通信的信道增益;/>为蜂窝V2V通信模式下,车辆用户v通过蜂窝资源块f向附近设定范围内的其他车辆广播时,车辆用户v'处的链路数据率,且/> 为蜂窝V2V通信模式下,车辆用户v通过蜂窝资源块f向附近设定范围内的其他车辆广播时,车辆用户v'处的信号干扰噪声比,且/>的计算公式为 为第个车辆用户;/>为蜂窝资源块f是否被车辆/>到/>的V2V链路复用的二进制变量;/>为车辆用户/>通过蜂窝资源块f发射信号到车辆用户/>处使用的发射功率;/>为车辆用户/>采用蜂窝资源块f与另一车辆用户/>通信的信道增益;/>为小基站s通过蜂窝资源块v发射信号到车辆用户/>处使用的发射功率;/>为小基站s采用蜂窝资源块f与车辆用户/>通信的信道增益;/>为小基站s是否将蜂窝资源块f分配给车辆/>到小基站s的V2N链路的二进制变量;/>为路边基础设施r通过蜂窝资源块f发射信号到车辆用户/>处使用的发射功率;/>为路边基础设施r采用蜂窝资源块f与车辆用户/>通信的信道增益;/>为车辆用户v'处的噪声功率;/>为蜂窝资源块f是否被V2V链路复用的二进制变量,/>为车辆用户v通过蜂窝资源块f发射信号到车辆用户v'处使用的发射功率,/>为车辆用户v采用蜂窝资源块f与另一车辆用户v'通信的信道增益;
网络总功耗P的计算公式为Pv为与车辆用户v相关联的功耗,且
网络总频带资源消耗W为Wv为与车辆用户v相关联的频带资源消耗,且f(v,f)为第一二值函数,取值规则为当任何小基站都没有将蜂窝资源块f分配给车辆用户v使用时f(v,f)=1,否则f(v,f)=0,并表示为/>g(v,f)为第二二值函数,取值规则为当任何小基站都没有将蜂窝资源块f分配给车辆用户v使用且任何路边设施也没有使用蜂窝资源块f与车辆用户v通信时g(v,f)=1,否则g(v,f)=0,并表示为
采用如下算式作为异构V2X网络数据传输模型的约束条件:
约束条件1:
约束条件2:
约束条件3:
约束条件4:
约束条件5:
约束条件6:
约束条件7:
约束条件8:
约束条件9:
约束条件10:
约束条件11:
约束条件12:
约束条件13:
式中为车辆用户v的当前所达到的链路数据率,且/> 为V2N链路的最低数据率要求;/>为车辆用户v的信标消息的当前延迟度量,且 为V2V链路的传输延迟,且/>Lv为以比特为单位的信标消息的大小;/>为V2I路径的传输延迟,且/> 为路边设施r通过蜂窝资源块f向车辆用户v'发送安全相关消息时的下行链路数据率,且 为路边设施r通过蜂窝资源块f向车辆用户v'发送安全相关消息时车辆用户v'处的下行链路信号干扰噪声比,且 为蜂窝资源块f是否被路边基础设施r到车辆v'的V2I链路复用的二进制变量;/>为路边基础设施r通过蜂窝资源块f发射信号到车辆用户v'处使用的发射功率;/>为路边基础设施r采用蜂窝资源块f与车辆用户v'通信的信道增益;/>为小基站/>通过蜂窝资源块f发射信号到车辆用户/>处使用的发射功率;/>为小基站/>采用蜂窝资源块f与车辆用户/>通信的信道增益;为蜂窝资源块f是否被车辆/>到v的V2V链路复用的二进制变量;/>为车辆用户/>通过蜂窝资源块f发射信号到车辆用户v处使用的发射功率;/>为车辆用户/>采用蜂窝资源块f与另一车辆用户v通信的信道增益;/>为路边基础设施/>通过蜂窝资源块f发射信号到车辆用户/>处使用的发射功率;/>为路边基础设施/>采用蜂窝资源块f与车辆用户/>通信的信道增益;/>为V2N路径的传输延迟,且/> 为小基站s通过蜂窝资源块f向车辆用户v'发送高容量数据时下行链路的数据率,且 为小基站s通过蜂窝资源块f向车辆用户v'发送高容量数据时车辆用户v'处的下行链路信号干扰噪声比,且/>的计算公式为 为小基站s是否将蜂窝资源块f分配给车辆v'到小基站s的V2N链路的二进制变量;/>为小基站s通过蜂窝资源块f发射信号到车辆用户v'处使用的发射功率;/>为小基站s采用蜂窝资源块f与车辆用户v'通信的信道增益;/>为信标消息和紧急消息的最大可容忍延迟;/>为车辆用户v的紧急消息的多跳传输路径中最长传输路径上的延迟,且/> 为第n条传输链路的延迟值,N为最长传输路径上的传输路径的总条数;/>为车辆用户v的信标消息的当前比特误码率度量,且/> 为V2V链路v→v'上发送消息Lv时的比特误码率,且/> 为V2I路径v→r→v'上发送消息Lv时的比特误码率,且/> 为V2N路径v→s→v'上发送消息Lv时的比特误码率,且/> 为信标消息和紧急消息的最大可容忍比特误码率;/>为车辆用户v的紧急消息的多跳传输路径中最长传输路径上的可靠性度量,且/> 为第n条链路的比特误码率值;/>为车辆用户LTE接口的最大传输功率;/>为车辆用户毫米波接口的最大传输功率;/>为车辆用户太赫兹接口的最大传输功率;
S3.针对步骤S2构建的数据传输模型,基于DONA框架构建深度强化学习模型;具体包括如下步骤:
构建的深度强化学习模型部署在每辆车上并作为智能体;
将步骤S2构建的数据传输模型的求解问题,视为基于DONA框架的马尔可夫决策过程,并用五元组(SS,AA,PP,EE,{gt}t≥0)表示;其中,SS为全局状态空间,且描述为{SSv}v∈V,SSv为车辆用户智能体v的局部观察观察空间;AA为所有智能体的联合动作空间,且描述为AAv为车辆用户智能体v的动作空间;PP为状态转移概率矩阵,且表示为PP:SS×AA×SS'→[0,1],即在状态SS下执行动作AA转换到另一状态SS'的概率PP的取值范围为[0,1];EE为所有智能体的奖励函数集合,且表示为{EEv}v∈V,其中EEv:SS×AA→RR为车辆用户智能体v的本地奖励函数,表示在状态SS下执行动作AA时获得本地奖励EEv的取值范围为实数集RR;{gt}t≥0为时变的通信网络;
将时间TT划分为若干相等的时间间隔,在每个时间间隔中,每个智能体根据基站分发的顺序,异步选择一个动作并广播选择结果;根据智能体选择动作的顺序,后续智能体观察在自身接收范围内的前序智能体的动作广播结果;将观察到的动作选择结果添加到智能体自身的观察空间中;
构建的深度强化学习模型包括在线Q网络和目标Q网络;在线Q网络的模型参数θv通过最小化以下损失函数来进行更新:
式中函数Q()为在线Q网络的状态-动作值函数;为本次动作选择后获得的即时回报值与目标Q网络对未来回报的估计值之和,且/>函数/>为目标Q网络的状态-动作值函数,/>为车辆用户智能体v在t时刻获得的即时奖励;γ为折扣系数;/>为车辆用户智能体v在t时刻的局部观察;/>为车辆用户智能体v在t时刻所采取的动作;/>为目标Q网络的参数,且周期性地从在线Q网络的模型参数θv中复制;
构建深度强化学习模型时,关注如下三个要素:
动作空间要素:
对于t时刻的每个车辆用户智能体v∈V,对应的动作包括如下内容:
式中为LTE技术的功率分级的个数;/>为毫米波技术的功率分级的个数;/>为太赫兹技术的功率分级的个数;/>表示频带资源块选择结果,/>为资源块的选择结果向量,符号×表示两个集合的笛卡尔积;/>表示智能体选择的通信模式,/>为通信模式的选择结果向量,若车辆用户智能体选择了V2N模式则mV2N∈S且mV2N表示具体的基站序号,若车辆用户智能体未选择V2N模式则mV2N=0,若车辆用户智能体选择了V2I模式则mV2I∈R且mV2I表示具体的路边基础设施的序号,若车辆用户智能体未选择V2I模式则mV2I=0,若车辆用户智能体选择了V2V模式则mV2V=1,若车辆用户智能体未选择V2V模式则mV2V=0;/>表示功率选择结果,/>为功率的选择结果向量;在t时刻,车辆用户智能体v管理的一组动作/>表示为 在t时刻,所有|V|个车辆用户智能体的联合动作aat表示为/>
局部观察空间要素:
车辆用户智能体v在t时刻的局部观察包括如下内容:
在t时刻所有无线电接口技术的资源块上,车辆用户智能体与其接收范围内潜在的通信终端之间的信道增益集合采用如下算式表示:
式中为在t时刻车辆用户智能体v通过资源块c与小基站s通信时的信道增益;为在t时刻车辆用户智能体v通过所有资源块与所有小基站通信时的信道增益集合;/>为在t时刻车辆用户智能体v通过资源块c与路边基础设施r通信时的信道增益;/>为在t时刻车辆用户智能体v通过所有资源块与所有路边基础设施通信时的信道增益集合;/>为在t时刻车辆用户智能体v通过资源块c与另一车辆用户v'通信时的信道增益;/>为在t时刻车辆用户智能体v通过所有资源块与所有其余车辆通信时的信道增益集合;所述通信终端包括小基站、路边基础设施和其他车辆用户智能体;
接收消息优先集合采用如下算式表示:
式中为二值变量,且若存在消息要从小基站s通过资源块c发送到车辆用户智能体v则/>否则/> 为车辆用户智能体v是否需要接收小基站发出的消息的指示变量集合;/>为二值变量,且若存在消息要从路边基础设施r通过资源块c发送到车辆用户智能体v则/>否则/> 为车辆用户智能体v是否需要接收路边基础设施发出的消息的指示变量集合;/>为二值变量,且若存在消息要从车辆用户v'通过资源块c发送到车辆用户智能体v,则/>否则/> 为车辆用户智能体v是否需要接收其他车辆发出的消息的指示变量集合;
车辆用户智能体v接收范围内的前序智能体的动作采用如下算式表示:
式中Vv\v为车辆用户智能体v的接收范围内排除车辆v本身的车辆用户智能体集合;Vv为车辆用户智能体v的接收范围;
待发送信息距离违反时延约束的剩余时间Tt v
待发送消息类型向量Yt v,表示为Yt v=(MB,ME,MH),其中MB为用于表示车辆用户智能体v在当前时刻是否要发送信标消息的二值变量,若车辆用户智能体v在当前时刻要发送信标消息则MB=1,否则MB=0;ME为用于表示车辆用户智能体v在当前时刻是否要发送紧急消息的二值变量,若车辆用户智能体v在当前时刻要发送紧急消息则ME=1,否则ME=0;MH为用于表示车辆用户智能体v在当前时刻是否要发送高容量消息的二值变量,若车辆用户智能体v在当前时刻要发送高容量消息则MH=1,否则MH=0;
最后,得到车辆用户智能体v观察到的状态空间为/>
即时奖励要素:
当所有车辆用户智能体对目标异构V2X网络采取联合动作aat时,各个车辆用户智能体将各自获得对应的即时奖励;
采用如下算式计算车辆用户智能体v在时刻t获取的即时奖励
式中δ1为设定的第一权重;Rv为车辆用户智能体v的数据率;Pv为车辆用户智能体v的功耗;Wv为车辆用户智能体v的频带资源消耗;H1()为分段函数且计算式为 为车辆用户智能体v在时刻t获取的个体奖励,且表示为其中δ2为设定的第二权重,δ3为设定的第三权重,H2()为分段函数且计算式为/>A为设定的非负参数,H3()为分段函数且计算式为/>B为设定的非负参数;
S4.对步骤S3构建的深度强化学习模型进行训练,并采用训练后的模型对步骤S2构建的数据传输模型进行求解;
S5.根据步骤S4得到的结果,目标异构V2X网络进行数据传输;
S6.实时重复以上步骤,完成目标异构V2X网络的实时数据传输。
2.根据权利要求1所述的基于DONA框架的异构V2X网络数据传输方法,其特征在于所述的深度强化学***衡缓冲区和普通缓冲区;在训练过程中,平衡缓冲区和普通缓冲区用于存放不同类型的样本,并根据设定时间段内收集的样本的比例,动态调整在两个回放缓冲区中采样的比例。
3.根据权利要求2所述的基于DONA框架的异构V2X网络数据传输方法,其特征在于所述的步骤S4,具体包括如下步骤:
在训练过程中,将获取的即时奖励为正的样本视为优秀样本,并保存到平衡缓冲区,同时将剩余样本保存到普通缓冲区;在训练过程中,根据设定时间段内收集的样本的比例,动态调整在两个回放缓冲区中采样的比例,从而实现训练样本的动态均衡。
4.根据权利要求3所述的基于DONA框架的异构V2X网络数据传输方法,其特征在于所述的步骤S4,还包括如下步骤:
基于联邦学习框架,在训练过程中进行若干个智能体的强化学习;
宏基站作为联邦学习框架的中心参数聚合服务器,所有车辆用户智能体作为联邦学习框架的客户端设备并执行本地模型的训练;只有宏基站覆盖范围内的新激活的车辆用户智能体从宏基站请求基础模型,已经开始执行本地模型训练的车辆用户智能体则仅采用自身训练的模型;同时,已经开始执行本地模型训练的车辆用户智能体,在自身模型训练到设定的精度后,将自身模型发送到宏基站,从而进行模型聚合;
采用联邦平均算法作为宏基站的模型聚合算法;
宏基站不需要按照设定的周期将当前聚合的模型参数分发给车辆用户智能体;
宏基站存储历史模型参数,以便随机采样后进行后续的模型参数训练;
基于|V|个车辆用户的局部模型,全局模型参数采用如下算式进行更新:
式中θr+1为宏基站更新的全局Q网络的参数;为车辆用户智能体v在协同训练的第r+1轮的本地Q网络的参数;l为随机抽样后的历史样本长度;/>为设定的权重系数,且
5.根据权利要求1~4之一所述的基于DONA框架的异构V2X网络数据传输方法,其特征在于所述的基于DONA框架的异构V2X网络数据传输方法,具体包括数据传输算法和训练算法;
每个车辆用户v均独自运行所述数据传输算法;所述数据传输算法包括:
训练过程:包括训练步骤和决策步骤;
训练步骤包括:
输入为:随机选择动作的首轮概率ε1和末轮概率ε2;折扣系数γ;在一个Epoch中的网络模型训练时长TT;目标Q网络模型参数更新间隔Nr;基础网络模型参数θ;
输出为:车辆用户v的在线Q网络模型参数θv
A1:初始化训练时间步指示变量和目标Q网络模型参数更新时间步指示变量tcnt为0;
A2:使用基础网络模型参数θ初始化在线Q网络模型参数θv和目标Q网络模型参数
A3:计算随机选择动作概率的递减步长初始化ε=ε1
A4:初始化平衡缓冲区BB和普通缓冲区CB,大小都为M=1000;
A5:判断训练时间步指示变量是否达到网络模型训练时长TT,若是,结束本次训练过程,否则转到A6;
A6:根据车辆用户v的局部观察结果,更新信道增益集合接收消息优先集合/>待发送信息距离违反时延约束的剩余时间Tt v、待发送消息类型向量Yt v
A7:根据车辆用户v的局部观察结果,获得车辆用户智能体v接收范围内的前序智能体的动作并更新车辆用户智能体v观察到的状态空间/>
A8:获取车辆用户v在时间间隔t的所有可用动作集合;
A9:基于局部观察通过在线Q网络获取不同动作对应的Q值;
A10:使用ε-greedy算法,生成一个[0,1)的随机数,若该随机数不大于ε,则在所有可用动作中随机选择一个动作若该随机数大于等于ε,则从在线Q网络的输出中选择最大Q值所对应的动作/>
A11:将动作选择结果广播到邻居智能体;
A12:从网络环境中观察到新的局部观察并获得即时奖励/>
A13:若则将样本/>保存到平衡缓冲区BB中,否则保存到普通缓冲区CB中;
A14:若缓冲区已满,则根据先入先出原则,将最早进入缓冲区的样本舍弃并执行A15;
A15:根据前一个Epoch内统计的好坏样本比例,确定双缓冲区的抽样比例ρ1和ρ2,且ρ1≥0.5,ρ12=1;
A16:将双缓冲区中抽取的样本混合组合成一个训练样本批次batch;
A17:针对抽取的batch计算并根据损失函数值估算公式/>计算梯度值,并更新在线Q网络参数θv
A18:判断是否到达目标Q网络模型参数更新轮次:若是,使用在线Q网络的参数以更新目标Q网络的参数,表示为以及将ε-Δε作为新的ε值;
A19:训练轮次指示变量和目标Q网络模型参数更新轮次指示变量tcnt都增1,并转到A5;
决策步骤包括:
输入:局部观察
输出:动作选择结果
根据局部观察利用在线Q网络模型θv,获得对应的动作选择结果/>
所述的训练算法,包括客户端部分和服务器端部分,服务器端部分在宏基站运行,客户端部分在每个车辆用户上运行;
服务器端部分:
B1:初始化在线Q网络的基础模型参数θ为随机值;
B2:将初始化的基础模型参数θ分发给宏基站覆盖区域内所有车辆用户;
B3:等待车辆用户运行所述数据传输算法,并上传个体模型参数θv
B4:等待特定时间后,将收到的个体模型参数利用公式进行联邦平均,得出更新后的基础模型参数θ;
B5:若有新进入宏基站覆盖区域的车辆智能体,则将最新的平均模型参数分发给新智能体;
B6.转到步骤B3;
客户端部分:
C1:若是新进入宏基站覆盖区域的车辆智能体,则利用宏基站发送的基础模型参数初始化本地的模型参数θv
C2:运行所述的数据传输算法;
C3:若接到服务器发出的联邦训练命令,则将本地模型参数θv以及训练数据集的大小发送到宏基站;
C4:转到步骤C2。
CN202310198765.XA 2023-03-03 2023-03-03 基于dona框架的异构v2x网络数据传输方法 Active CN116193405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310198765.XA CN116193405B (zh) 2023-03-03 2023-03-03 基于dona框架的异构v2x网络数据传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310198765.XA CN116193405B (zh) 2023-03-03 2023-03-03 基于dona框架的异构v2x网络数据传输方法

Publications (2)

Publication Number Publication Date
CN116193405A CN116193405A (zh) 2023-05-30
CN116193405B true CN116193405B (zh) 2023-10-27

Family

ID=86436406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310198765.XA Active CN116193405B (zh) 2023-03-03 2023-03-03 基于dona框架的异构v2x网络数据传输方法

Country Status (1)

Country Link
CN (1) CN116193405B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN114826454A (zh) * 2022-04-25 2022-07-29 南京邮电大学 一种mec辅助的车联网通信***中智能资源管理方法
CN114885426A (zh) * 2022-05-05 2022-08-09 南京航空航天大学 一种基于联邦学习和深度q网络的5g车联网资源分配方法
CN114900225A (zh) * 2022-04-24 2022-08-12 南京大学 一种基于低轨巨星座的民航互联网业务管理与接入资源分配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021003059A1 (en) * 2019-07-01 2021-01-07 Intel Corporation Resource allocation management for co-channel co-existence in intelligent transport systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN114900225A (zh) * 2022-04-24 2022-08-12 南京大学 一种基于低轨巨星座的民航互联网业务管理与接入资源分配方法
CN114826454A (zh) * 2022-04-25 2022-07-29 南京邮电大学 一种mec辅助的车联网通信***中智能资源管理方法
CN114885426A (zh) * 2022-05-05 2022-08-09 南京航空航天大学 一种基于联邦学习和深度q网络的5g车联网资源分配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Transfer Learning in Multi-Agent Reinforcement Learning with Double Q-Networks for Distributed Resource Sharing in V2X Communication;Hammad Zafar等;WSA 2021;全文 *
一种基于预留-重用联合的C-V2X通信Q学习型半持续调度算法;王萍等;电子与信息学报;第44卷(第8期);全文 *

Also Published As

Publication number Publication date
CN116193405A (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
Zhang et al. Beyond D2D: Full dimension UAV-to-everything communications in 6G
Zhou et al. Energy-efficient edge computing service provisioning for vehicular networks: A consensus ADMM approach
Nguyen et al. A survey on adaptive multi-channel MAC protocols in VANETs using Markov models
Wu et al. Delay-minimized edge caching in heterogeneous vehicular networks: A matching-based approach
CN112954651B (zh) 一种基于深度强化学习的低时延高可靠性v2v资源分配方法
Zheng et al. Dynamic performance analysis of uplink transmission in cluster-based heterogeneous vehicular networks
CN101341681B (zh) 用于无线自组网络或个域网的分布式智能调度补偿优化(disco)的***和方法
US20070066315A1 (en) Method of setting a path suitable for a wireless mesh network using an evaluation parameter
Ni et al. Vehicular beacon broadcast scheduling based on age of information (AoI)
CN114142907B (zh) 一种通信终端设备的信道筛选优化方法及***
CN110062017B (zh) 一种动态变化的车联网场景中的内容分发基站及方法
Leng et al. Age of information minimization for wireless ad hoc networks: A deep reinforcement learning approach
Lin et al. Integrated message dissemination and traffic regulation for autonomous VANETs
Chen et al. The upper bounds of cellular vehicle-to-vehicle communication latency for platoon-based autonomous driving
CN114024639B (zh) 一种无线多跳网络中分布式信道分配方法
CN116866974A (zh) 一种基于深度强化学习的联邦学习客户选择方法
Qiu et al. Maintaining links in the highly dynamic fanet using deep reinforcement learning
Bhadauria et al. QoS based deep reinforcement learning for V2X resource allocation
Cao et al. Multi-tier collaborative deep reinforcement learning for non-terrestrial network empowered vehicular connections
Tian et al. Asynchronous federated learning empowered computation offloading in collaborative vehicular networks
Huang et al. A hierarchical pseudonyms management approach for software-defined vehicular networks
Zhao et al. DRL Connects Lyapunov in Delay and Stability Optimization for Offloading Proactive Sensing Tasks of RSUs
CN116193405B (zh) 基于dona框架的异构v2x网络数据传输方法
CN110505604B (zh) 一种d2d通信***接入频谱的方法
Yacheur et al. Efficient DRL-Based Selection Strategy in Hybrid Vehicular Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant