CN117412391A - 一种基于增强型双深度q网络的车联网无线资源分配方法 - Google Patents

一种基于增强型双深度q网络的车联网无线资源分配方法 Download PDF

Info

Publication number
CN117412391A
CN117412391A CN202311322831.6A CN202311322831A CN117412391A CN 117412391 A CN117412391 A CN 117412391A CN 202311322831 A CN202311322831 A CN 202311322831A CN 117412391 A CN117412391 A CN 117412391A
Authority
CN
China
Prior art keywords
link
network
delay
agent
kth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311322831.6A
Other languages
English (en)
Inventor
张文静
宋晓勤
张莉涓
雷磊
吴志豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202311322831.6A priority Critical patent/CN117412391A/zh
Publication of CN117412391A publication Critical patent/CN117412391A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/14Spectrum sharing arrangements between different networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/46Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for vehicle-to-vehicle communication [V2V]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/40Resource management for direct mode communication, e.g. D2D or sidelink
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/535Allocation or scheduling criteria for wireless resources based on resource usage policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/541Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/542Allocation or scheduling criteria for wireless resources based on quality criteria using measured or perceived quality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/543Allocation or scheduling criteria for wireless resources based on quality criteria based on requested quality, e.g. QoS

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提出了一种基于增强型双深度Q网络的车联网无线资源分配方法,该方法适用于高动态车载环境中的城市道路资源分配场景。通过引入优先经验回放和多步学习等技巧到多智能体双深度Q网络中,优化V2V链路的子带与功率分配策略。该算法能够在满足用户时延和可靠性等约束条件下,最小化网络的总成本。本发明所使用的EDDQN算法可根据干扰情况动态地分布式分配资源,并在车载环境中具有良好的收敛性,有效地解决了V2V链路信道分配和功率选择的联合优化问题,在不同负载和链路数量下具有良好的可靠性和鲁棒性。

Description

一种基于增强型双深度Q网络的车联网无线资源分配方法
技术领域
本发明涉及一种车联网技术,尤其涉及一种车联网的无线资源分配方法,更具体地说,涉及一种基于增强型双深度Q网络(EDDQN,Enhanced Double Deep Q-Network)的车联网无线资源分配方法。
背景技术
伴随着人工智能、大数据和移动通信等领域新技术的不断突破,车载网络正呈现出蓬勃发展的态势。车联网作为新一代智能交通***(ITS,intelligent transportationsystem)的信息承载平台,对于提升道路安全、运输效率和互联网接入等方面交通管理能力至关重要,同时也为自动驾驶等新型应用提供行车安全保障和实时路况监测等信息。第三代合作伙伴计划3GPP引入了车联万物(V2X,Vehicle-to-Everything)的新型车载基础设施架构,包括车辆与周围环境和基础设施之间的通信,包括车辆与其他车辆(V2V,Vehicle-to-vehicle)、车辆与道路基础设施、车辆与行人以及车辆与网络等,为车辆提供无线通信服务,并在最新的Release 17版本中进一步增强和优化了车联网通信能力。因此,车联网作为物联网技术在智能交通***中的关键应用,可实现车与车和基础设施等之间的智能协同,大幅度提高道路的安全性,同时提升交通管理效率。
然而,车辆通信***在处理海量大数据时面临这严峻的挑战。由于车辆间通信资源有限,无法满足实时传输大量数据的需求,这给通信车辆节点之间的信息传输带来冲突问题。此外,由于车联网中的车辆具有不同的需求和优先级,通信资源在分配过程中存在不均衡的问题,导致一些重要数据的传输延迟增加。在复杂的交通环境中,车辆高速移动所引起的多普勒效应、信道状态信息的快速变化以及大量V2X用户共享频谱所产生的多用户间干扰,对数据传输的可靠性和传输时延带来较大影响,极易造成车载用户通信传输性能下降。因此,在车联网中合理高效地分配无线通信资源显得尤为重要。
本发明提出一种基于EDDQN的分布式多目标联合优化的车联网无线资源分配算法,该方法针对高动态车载环境中的城市道路资源分配场景,以最小化网络总成本为优化目标。同时,该方法引入优先经验回放和多步学习等技巧到双深度Q网络(DDQN,DoubleDeep Q-Network)中,优化V2V链路的子带和功率分配策略,具有良好的可靠性和鲁棒性。
发明内容
发明目的:针对现有技术存在的上述问题,提出一种基于增强型双深度Q网络的车联网无线资源分配方法。该方法针对高动态车载环境中的城市道路资源分配场景,拟采用DDQN的深度强化学习模型,同时在该模型中引入优先经验回放和多步学习技术,在满足时延限制和信噪比门限的条件下,实现***中联合总时延和能耗的加权和最小化。
技术方案:针对高动态车载环境中的城市道路资源分配场景,以合理高效的资源分配达到网络的时延和能耗的加权和最小化的目的。为降低***成本同时提升频谱利用率,在有限的频谱资源和一定的通信密度下,V2V链路共享信道资源。与相邻车辆直接进行链路通信的V2V用户(VUE,Vehicle User)通过PC5接口接入网络,共享有限的频谱资源,实现低延时、高可靠性的直连通信,并高效地交换传输车辆距离、速度等与行车安全相关的重要信息。采用分布式的资源分配方法,可以无需基站集中调度信道状态信息,每条V2V链路被视为一个智能体,通过观察本地状态信息和基站广播的信道信息来选择信道和发射功率。构建基于DDQN的多智能体深度强化学习模型,然后引入优先经验回放和多步学习技巧优化深度强化学习模型。根据优化后的EDDQN模型,得到最优的V2V用户发射功率和信道分配策略。完成上述发明通过以下技术方案实现:一种基于增强型双深度Q网络的车联网无线资源分配方法,包括步骤如下:
(1)构建具有车辆运动和信道时变特征的车联网无线资源分配***,以满足城区双向道路环境下V2V通信业务的低延迟和高可靠性要求;
(2)为了以合理高效的方式为每条V2V链路联合分配无线资源(传输功率和子带),建立包含K对V2V链路和M个子带的通信模型;
(3)计算每条V2V链路网络时延和能耗,并综合考虑网络时延和能耗的加权和,得到网络总成本,在满足V2V链路延迟和可靠性的条件下,以最小化网络总成本为优化目标;
(4)根据优化目标,构建基于DDQN的多智能体深度强化学习模型;
(5)为了增强深度强化学习模型性能,引入优先经验回放和多步学习技巧到多智能体DDQN;
(6)训练优化后的深度强化学习模型;
(7)在执行阶段,每个V2V链路根据当前的本地观察获得状态,并加载已训练好的模型得到最优的V2V用户发射功率和信道分配策略;
进一步的,所述步骤(1)包括如下具体步骤:
(1a),建立V2V用户资源分配***模型,该模型环境为城区双向道路,引入道路方向和网络拓扑信息,同时对道路容量做出限制;
(1b),在***模型中,车辆用户的位置遵循空间泊松分布随机产生,并为车辆按照车道规定了前进方向。
(1c),与相邻车辆直接进行链路通信的V2V用户通过PC5接口接入网络,共享有限的频谱资源,实现低延时、高可靠性的直连通信,并高效地交换传输车辆距离、速度等与行车安全相关的重要信息。
进一步的,所述步骤(2)包括如下具体步骤:
(2a)建立车联网资源分配的通信模型,***包括M个子带和K对V2V链路,分别用集合和/>表示,V2V链路的用户设备通过uRLLC切片请求服务。总的授权带宽W0被等分成M个带宽为W的子信道。该模型采用正交频分复用(OFDM,orthogonal frequency division multiplexing)技术进行信道传输,子带之间相互正交且不产生干扰。但相同子带可以被多个用户共用,从而共享同一子带的V2V链路用户之间就会产生干扰,进而影响信号的传输速率;
(2b),在每个子带内,信道功率增益是平坦的。信道功率增益g[m]包含大尺度衰落和小尺度衰落,表示为:
g[m]=α|h[m]|2 表达式1
其中,α为大尺度衰落,包括路径损耗和阴影衰落,在子带内是平稳不变的;|h[m]|2为小尺度衰落,在子带内和非相关时间上是按照瑞利衰落变化的;
(2c),第k条V2V链路在第m个子带上的SINR表示为:
其中,Pk[m]表示第k个V2V链路用户的发射功率,gk[m]表示第k个V2V链路所使用信道的信道功率增益,σ2表示***噪声功率;Ik[m]表示第k个V2V的链路受到干扰;
(2d),第k条V2V链路在第m个子带上受到的干扰表示为:
其中,ρk′[m]表示子带的分配指示符,ρk′[m]=1表示第k′个V2V链路用户复用第m个子带频谱,否则ρk′[m]=0;Pk′[m]表示第k′个V2V链路用户的发射功率;表示第k′条V2V链路对第k条V2V链路的信道干扰功率增益;
对于第k条V2V链路,其子带的选择信息表示为:
ρk={ρk[1],ρk[2],...,ρk[m]...,ρk[M]} 表达式4
规定每个链路在一个时刻内仅能选择一个资源块进行传输,即一个时刻内
(2e),第k条V2V链路在第m个子带上的传输速率表示为:
Rk[m]=W log(1+γk[m]) 表达式5
进一步的,所述步骤(3)包括如下具体步骤:
(3a),计算通信模型中每条V2V链路的传输时延,***中网络总传输时延由所有V2V链路的传输时延构成,表示为:
其中,Tk表示第k条V2V链路的传输时延;Dk为第k条V2V链路需要传输的总负载;
(3b),相应地,V2V链路的总传输能耗表示为:
其中,Ek表示第k条V2V链路的传输能耗;
(3c),综合考虑V2V链路的成本,优化目标网络总成本被定义为V2V链路总传输时延和总传输能耗的加权和,网络总成本表示为:
ζ=λ1T+λ2E 表达式8
其中,λ1为V2V链路传输时延的权重,λ2为V2V链路传输能耗的权重,λ12=1,利用加权衡量传输时延和传输能耗的重要性;由于时延和能耗的数量级可能不等,需根据经验调整λ1和λ2,确保将时延和能耗统一在同一个数量级下;
(3d),在考虑V2V链路用户端去中心化的资源分配时,仅考虑传输时延作为V2V链路的时延,而不考虑MAC层的其他调度时延。因此,V2V链路对时延的约束表示为:
其中,Tmax表示第k条V2V链路的最大可容忍时延;
(3e),V2V通信的可靠性约束条件表示为:
其中,γth表示第k条V2V链路的用户信噪比门限;
(3f),综上,可以建立如下的目标函数和约束条件:
其中,目标函数是最小化网络的总成本,约束条件C1和C2是对V2V链路的时延约束和可靠性约束,约束条件C3说明V2V链路的用户端在所有子带上发射的总功率不能超过最大额定发射功率,约束条件C4和C5意味着每条V2V链路同一时刻内只能分配一个子带,同一时刻下同一个子带允许多条V2V链路的接入;
进一步的,所述步骤(4)包括如下具体步骤:
(4a),每个V2V链路被视为一个智能体,在每个时刻t,每个V2V链路根据本地观察从状态空间S中获取当前状态,第k个V2V链路获取当前状态为然后智能体会利用DDQN的动作价值函数/>制定策略π,从动作空间A中选择行动/>行动选择包括选择传输子带和相应的发射功率,根据所有V2V链路的策略选择,环境将转移到新的状态/>同时每个智能体都共享一个即时奖励ri
(4b),定义状态空间S为与资源分配有关的本地观察信息以及低维度指纹信息,包括子信道m上链路的本地瞬时信道信息集合Gk[m],每个子带共享相同子带的所有V2V链路的总干扰功率Ik[m],V2V用户需要传输的总负载Dk和剩余负载Bk以及每个智能体训练回合数e和ε-贪心算法中的随机探索变量ε,状态表示为:
(4c),定义动作空间A为智能体选择的发射功率Pk和子带Ck,Pk∈{1,2,...,p}为V2V链路用户的发射功率,Ck∈{1,2,...,M}表示V2V链路用户接入的子信道,动作表示为:
(4d),定义联合奖励函数ri,资源分配的目标是在考虑链路的SINR门限值和时延限制的前提下,最小化网络的总成本,因此每个智能体的奖励函数表示为:
其中,C和A1为两个固定的较大常数值,λ3和λ4为衡量信噪比和时延重要性的权重值;
其中,A2为一个常数;
奖励函数的设置使得V2V链路的负载被传输完时,获得的奖励最大;而在链路传输过程中,较小的网络成本会获得较大的奖励,而不满足要求的信噪比和传输时延会获得惩罚;
(4e),依据建立好的状态,动作和奖励,在Q学习的基础上建立深度强化学习模型,采用DDQN算法,在更新网络时,每个智能体都需要最小化损失函数实现梯度下降,损失函数表示为:
其中,D为样本空间,β∈[0,1]是折扣因子,β→1表示对未来的奖励给予重视,而β→0表示对当前的奖励更为注重,和/>分别是第k个智能体在t时刻的现实网络和目标网络参数;
进一步,所述步骤(5)包括如下具体步骤:
(5a),引入优先经验回放和多步学习等技巧到多智能体DDQN,缓解Q值过度估计的问题,其中,多步学习将从一个动作中获得的即时奖励与对该动作的n步估计奖励相结合,多步学习的累积折扣奖励表示为:
相应地,将损失函数进一步调整,多步损失函数表示为:
其中,wt表示第t时刻样本的重要性权重;N表示多步学习时的学习步长;
wt=(xt+ε) 表达式19
其中,xt表示t时刻样本的优先级,使用经验的TD误差作为度量;ε是一个小常数,用于避免权重值为0;σ是一个超参数,用于控制样本的采样概率,通常取值在[0,1]之间;
(5b),每间隔一定迭代次数将目标网络数据更新为现实网络数据,参数更新表示为:
其中,为第k个智能体的计算梯度;η为学习率,是一个超参数;
进一步的,所述步骤(6)包括如下具体步骤:
(6a),启动环境模拟器,产生车辆和链路,计算信道衰落等相关参数,并对所有V2V链路设置初始负载Dk=D和Tmax=Γ,初始化每个智能体的现实网络参数θk和目标网络参数θ′k
(6b),初始化训练回合数P;
(6c),更新车辆位置、信道大尺度衰落、总负载等参数,并初始化P回合中的时间步t,更新信道小尺度衰落、剩余负载等参数;
(6d),每个智能体异步地根据输入状态输出动作/>获取即时奖励/>同时环境转到下一状态/>从而获得训练数据/>
(6e),当t>N,计算N步奖励将训练数据/>存入各自的经验池中;
(6f),每个智能体计算自身样本的TD误差和优先级xt
(6g),每个智能体归一化自身经验池内所有样本优先级xt并得到对应的概率分布
(6h),每个智能体以一定的概率从经验池中随机抽取一个小批量构成数据集D,输入现实网络θk
(6i),每个智能体通过现实网络和目标网络计算出损失值采用小批量梯度下降策略,通过神经网络的反向传播算法来更新智能体的现实网络θk的参数;
(6j),训练次数达到目标网络更新间隔,根据现实网络参数θk更新目标网络参数θk′;
(6k),判断是否满足t<K,K为p回合中的总时间步,若是,t=t+1,进入步骤(6c),否则,进入步骤(61);
(61),判断是否满足p<1,I为训练回合数设定阈值,若是,p=p+1,进入步骤(6c),否则,优化结束,得到优化后的深度强化学习模型;
进一步的,所述步骤(7)包括如下具体步骤:
(7a),每个V2V链路根据当前的本地观察获得状态将/>输入已经优化训练好的EDDQN深度强化学习模型;
(7b),输出最优动作策略得到最优的V2V用户发射功率Pk和分配信道Ck,输出最优动作策略。
有益效果:本发明提出的一种基于增强型双深度Q网络的车联网无线资源分配方法,该方法针对高动态车载环境中的城市道路资源分配场景,引入优先经验回放和多步学习技巧,利用优化后的深度强化学习模型获得最优的V2V链路信道分配和发射功率联合优化策略,V2V用户通过选择合适的发射功率和分配信道,在满足用户时延和可靠性等约束条件下,最小化网络的总成本。本发明使用算法可根据干扰情况动态地分配资源,并在车载环境中具有良好的收敛性。
综上所述,在保证资源分配合理,V2V链路间低干扰以及计算复杂度低的情况下,本发明提出的一种基于增强型双深度Q网络的分布式多目标联合优化的车联网无线资源分配方法在最小化网络成本方面是优越的。
附图说明
图1为本发明实施例提供的引入优先经验回放和多步学习技巧的DDQN深度强化学习算法框架示意图;
图2为本发明实施例提供的EDDQN算法下深度Q网络训练收敛结果图;
图3为本发明实施例提供的EDDQN算法下网络总成本与负载关系的仿真结果图。
具体实施方式
本发明的核心思想在于:针对高动态车载环境中的城市道路资源分配场景,将每个V2V链路视作智能体,通过引入优先经验回放和多步学习技巧到多智能体双深度Q网络中,利用优化后的深度强化学习模型获得最优的V2V链路信道分配和发射功率联合优化策略。V2V链路用户通过选择合适的发射功率和分配信道,在满足用户时延和可靠性等约束条件下,达到最小化网络总成本的目的。
下面对本发明做进一步详细描述。
步骤(1),构建具有车辆运动和信道时变特征的车联网无线资源分配***,以满足城区双向道路环境下V2V通信业务的低延迟和高可靠性要求,具体为:
(1a),建立V2V用户资源分配***模型,该模型环境为城区双向道路,引入道路方向和网络拓扑信息,同时对道路容量做出限制;
(1b),在***模型中,车辆用户的位置遵循空间泊松分布随机产生,并为车辆按照车道规定了前进方向;
(1c),与相邻车辆直接进行链路通信的V2V用户通过PC5接口接入网络,共享有限的频谱资源,实现低延时、高可靠性的直连通信,并高效地交换传输车辆距离、速度等与行车安全相关的重要信息;
步骤(2),为了以合理高效的方式为每条V2V链路联合分配无线资源(传输功率和子带),建立包含K对V2V链路和M个子带的通信模型,具体为:
(2a),建立车联网资源分配的通信模型,***包括M个子带和K对V2V链路,分别用集合和/>表示,V2V链路的用户设备通过uRLLC切片请求服务。总的授权带宽W0被等分成M个带宽为W的子信道。该模型采用正交频分复用技术进行信道传输,子带之间相互正交且不产生干扰。但相同子带可以被多个用户共用,从而共享同一子带的VUE之间就会产生干扰,进而影响信号的传输速率;
(2b),在每个子带内,信道功率增益是平坦的。信道功率增益g[m]包含大尺度衰落和小尺度衰落,表示为:
g[m]=α|h[m]|2 表达式1
其中,α为大尺度衰落,包括路径损耗和阴影衰落,在子带内是平稳不变的;|h[m]|2为小尺度衰落,在子带内和非相关时间上是按照瑞利衰落变化的;
(2c),第k条V2V链路在第m个子带上的SINR表示为:
其中,Pk[m]表示第k个V2V链路用户的发射功率,gk[m]表示第k个V2V链路所使用信道的信道功率增益,σ2表示***噪声功率;Ik[m]表示第k个V2V的链路受到干扰;
(2d),第k条V2V链路在第m个子带上受到的干扰表示为:
其中,ρk′[m]表示子带的分配指示符,ρk′[m]=1表示第k′个V2V链路用户复用第m个子带频谱,否则ρk′[m]=0;Pk′[m]表示第k′个V2V链路用户的发射功率;表示第k′条V2V链路对第k条V2V链路的信道干扰功率增益;
对于第k条V2V链路,其子带的选择信息表示为:
ρk={ρk[1],ρk[2],...,ρk[m]...,ρk[M]} 表达式4
规定每个链路在一个时刻内仅能选择一个资源块进行传输,即一个时刻内
(2e),第k条V2V链路在第m个子带上的传输速率表示为:
Rk[m]=W log(1+γk[m]) 表达式5
步骤(3),计算每条V2V链路网络时延和能耗,并综合考虑网络时延和能耗的加权和,得到网络总成本,在满足V2V链路延迟和可靠性的条件下,以最小化网络总成本为优化目标,包括如下步骤:
(3a),计算通信模型中每条V2V链路的传输时延,***中网络总传输时延由所有V2V链路的传输时延构成,表示为:
其中,Tk表示第k条V2V链路的传输时延;Dk为第k条V2V链路需要传输的负载;
(3b),相应地,V2V链路的总传输能耗可以表示为:
其中,Ek表示第k条V2V链路的传输能耗;
(3c),综合考虑V2V链路的成本,优化目标网络总成本被定义为V2V链路传输时延和传输能耗的加权和,网络总成本可以表示为:
ζ=λ1T+λ2E 表达式8
其中,λ1为V2V链路传输时延的权重,λ2为V2V链路传输能耗的权重,λ12=1,用加权衡量传输时延和传输能耗的重要性;由于时延和能耗的数量级可能不等,需根据经验调整λ1和λ2,确保将时延和能耗统一在同一个数量级下;
(3d),在考虑V2V链路用户端去中心化的资源分配时,仅考虑传输时延作为V2V链路的时延,而不考虑MAC层的其他调度时延。因此,V2V链路对时延的约束表示为:
其中,Tmax表示第k条V2V链路的最大可容忍时延;
(3e),V2V通信的可靠性约束条件表示为:
其中,γth表示第k条V2V链路的用户信噪比门限;
(3f),综上,可以建立如下的目标函数和约束条件:
其中,目标函数是最小化网络的总成本,约束条件C1和C2是对V2V链路的时延约束和可靠性约束,约束条件C3说明V2V链路用户端在所有子带上发射的总功率不能超过最大额定发射功率,约束条件C4和C5意味着每条V2V链路同一时刻内只能分配到一个子带,但是同一时刻下同一个子带允许多条V2V链路的接入;
步骤(4),根据优化目标,构建基于DDQN的多智能体深度强化学习模型,具体为:
(4a),每个V2V链路被视为一个智能体,在每个时刻t,每个V2V链路根据本地观察从状态空间S中获取当前状态,第k个V2V链路获取当前状态为然后智能体会利用DDQN的动作价值函数/>制定策略π,从动作空间A中选择行动/>行动选择包括选择传输子带和相应的发射功率,根据所有V2V链路的策略选择,环境将转移到新的状态/>同时每个智能体都共享一个即时奖励ri
(4b),定义状态空间S为与资源分配有关的本地观察信息以及低维度指纹信息,包括子信道m上链路的本地瞬时信道信息集合Gk[m],每个子带共享相同子带的所有V2V链路的总干扰功率Ik[m],V2V用户需要传输的总负载Dk和剩余负载Bk以及智能体训练回合数e和ε-贪心算法中的随机探索变量ε,状态表示为:
(4c),定义动作空间A为智能体选择的发射功率Pk和子带Ck,Pk∈{1,2,...,p}为V2V链路用户的发射功率,Ck∈{1,2,...,M}表示V2V链路用户接入的子信道,动作表示为:
(4d),定义联合奖励函数rt,资源分配的目标是在考虑链路的SINR门限值和时延限制的前提下,最小化网络的总成本,因此每个智能体的奖励函数表示为:
其中,C和A1为两个固定的较大常数值;λ3和λ4为衡量信噪比和时延重要性的权重值;
其中,A2为一个常数。奖励函数的设置使得V2V链路的负载被传输完时,获得的奖励最大;而在链路传输过程中,较小的网络成本会获得较大的奖励,而不满足要求的信干噪比和传输时延会获得惩罚。
(4e),依据建立好的状态,动作和奖励,在Q学习的基础上建立深度强化学习模型,采用DDQN算法,在更新网络时,每个智能体都需要最小化损失函数实现梯度下降,损失函数表示为:
其中,D为样本空间,β∈[0,1]是折扣因子,β→1表示对未来的奖励给予重视,而β→0表示对当前的奖励更为注重,和/>分别是第k个智能体在t时刻的现实网络和目标网络参数;
步骤(5),为了增强深度强化学习模型性能,引入优先经验回放和多步学习等技巧到多智能体DDQN,包括如下步骤:
(5a),引入优先经验回放和多步学习等技巧到多智能体DDQN,缓解Q值过度估计的问题,其中,多步学习将从一个动作中获得的即时奖励与对该动作的n步估计奖励相结合,多步学习的累积折扣奖励表示为:
相应地,将损失函数进一步调整,多步损失函数表示为:
其中,wt表示第t时刻样本的重要性权重;N表示多步学习时的步长;
wt=(xt+ε) 表达式19
其中,xt表示t时刻样本的优先级,使用经验的TD误差作为度量;ε是一个小常数,用于避免权重值为0;σ是一个超参数,用于控制样本的采样概率,通常取值在[0,1]之间;
(5b),每间隔一定迭代次数将目标网络数据更新为现实网络数据,参数更新表示为:
其中,为第k个智能体的计算梯度,η表示学习率,是一个超参数;
步骤(6)训练优化后的强化学习模型,具体包括如下步骤:
(6a),启动环境模拟器,产生车辆和链路,计算信道衰落等相关参数,并对所有V2V链路设置初始负载Dk=D和Tmax=Γ,初始化每个智能体的现实网络参数θk和目标网络参数θ′k
(6b),初始化训练回合数P;
(6c),更新车辆位置、信道大尺度衰落、总负载等参数,并初始化P回合中的时间步t,更新信道小尺度衰落、剩余负载等参数;
(6d),每个智能体异步地根据输入状态输出动作/>并获取即时奖励/>同时环境转到下一状态/>从而获得训练数据/>
(6e),当t>N,计算N步奖励将训练数据/>存入各自的经验池中;/>
(6f),每个智能体计算其自身样本的TD误差和优先级xt
(6g),每个智能体归一化自身经验池内所有样本优先级xt并得到对应的概率分布;
(6h),每个智能体以一定的概率从经验中随机抽取一个小批量构成数据集D,输入现实网络θk
(6i),每个智能体通过现实网络和目标网络计算出损失值采用小批量梯度下降策略,通过神经网络的反向传播算法来更新现实网络θk的参数;
(6j),训练次数达到目标网络更新间隔,根据现实网络参数θk更新目标网络参数θk′;
(6k),判断是否满足t<K,K为p回合中的总时间步,若是,t=t+1,进入步骤(6c),否则,进入步骤(61);
(61),判断是否满足p<I,I为训练回合数设定阈值,若是,p=p+1,进入步骤(6c),否则,优化结束,得到优化后的深度强化学习模型;
步骤(7),在执行阶段,每个V2V链路根据当前的本地观察获得状态并加载已训练好的模型得到最优的V2V用户发射功率和信道分配策略,包括如下步骤:
(7a),每个V2V链路根据当前的本地观察获得状态将/>输入到已优化训练好的EDDQN深度强化学习模型;
(7b),输出最优动作策略得到最优的V2V用户发射功率Pk和分配信道Ck,输出最优动作策略。
在图1中,描述了引入优先经验回放和多步学习技巧的DDQN深度强化学习算法框架示意图,可以看出V2V链路作为智能体在存放样本和取出样本时考虑样本的优先级,从而实现优先经验回放,在损失函数计算和样本处理时考虑N个时刻的样本信息,从而实现多步学习。
在图2中,描述了EDDQN算法下深度Q网络训练收敛结果图,可以看出优化后的深度Q网络平均奖励随着迭代次数的增长逐渐趋于平稳达到收敛的过程。
在图3中,描述了EDDQN算法下网络总成本与负载关系的仿真结果图,可以看出在不同V2V链路负载情况下,相比D3QN算法,EDDQN算法能够将网络成本降低约4%,相比于DDQN,能够将网络成本降低约11%,相比随机算法,能降低约47%以上。
根据对本发明的说明,本领域的技术人员应该不难看出,本发明的基于增强型双深度Q网络的分布式多目标联合优化的车联网无线资源分配方法有效地解决了V2V链路信道分配和功率选择的联合优化问题。
本发明申请书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (1)

1.一种基于增强型双深度Q网络的车联网无线资源分配方法,其特征在于,包括步骤如下:
(1)构建具有车辆运动和信道时变特征的车联网无线资源分配***,以满足城区双向道路环境下车与车(V2V)之间通信业务的低延迟和高可靠性要求;
(2)为了以合理高效的方式为每条V2V链路联合分配无线资源(传输功率和子带),建立包含K对V2V链路和M个子带的通信模型;
(3)计算每条V2V链路网络时延和能耗,并综合考虑网络时延和能耗的加权和,得到网络总成本,在满足V2V链路延迟和可靠性的条件下,以最小化网络总成本为优化目标;
(4)根据优化目标,构建基于双深度Q网络(DDQN)的多智能体深度强化学习模型;
(5)为了增强深度强化学习模型的性能,引入优先经验回放和多步学习技巧到多智能体DDQN;
(6)训练优化后的深度强化学习模型;
(7)在执行阶段,每个V2V链路根据当前的本地观察获得状态,并加载已训练好的模型得到最优的V2V用户发射功率和信道分配策略;
进一步,所述步骤(4)包括如下具体步骤:
(4a)每个V2V链路被视为一个智能体,在每个时刻t,每个V2V链路根据本地观察从状态空间S中获取当前状态,第k个V2V链路获取当前状态为然后智能体会利用DDQN的动作价值函数/>制定策略π,从动作空间A中选择行动/>行动选择包括选择传输子带和相应的发射功率,根据所有V2V链路的策略选择,环境将转移到新的状态/>同时每个智能体都共享一个即时奖励rt
(4b)定义状态空间S为与资源分配有关的本地观察信息以及低维度指纹信息,包括子信道m上链路的本地瞬时信道信息集合Gk[m],每个子带共享相同子带的所有V2V链路的总干扰功率Ik[m],V2V链路用户需要传输的总负载Dk和剩余负载Bk以及智能体训练回合数e和ε-贪心算法中的随机探索变量ε,状态表示为:
其中,为子信道集合;
(4c)定义动作空间A为智能体选择的发射功率Pk和子带Ck,Pk∈{1,2,...,p}为V2V链路用户的发射功率,Ck∈{1,2,...,M}表示V2V链路用户接入的子信道,动作表示为:
(4d)定义联合奖励函数rt,资源分配的目标是在考虑链路的SINR门限值和时延限制的前提下,最小化网络的总成本,因此每个智能体的奖励函数表示为:
其中,C和A1为两个固定的较大常数值,ζ为网络总成本,λ3和λ4为衡量信噪比和时延重要性的权重值,K和M分别为V2V链路总数和子带总数,ρk[m]表示子带的分配指示符,ρk[m]=1表示第k个V2V链路用户复用第m个子带频谱,否则ρk[m]=0,γk为第k条V2V链路的信噪比,γth表示第k条V2V链路的用户信噪比门限,Tk表示第k条V2V链路的传输时延,Tmax表示第k条V2V链路的最大可容忍时延;
其中,A2为一个常数;
奖励函数的设置使得V2V链路的负载被传输完时,获得的奖励最大;而在链路传输过程中,较小的网络成本会获得较大的奖励,而不满足要求的信噪比和传输时延会获得惩罚;
(4e)依据建立好的状态,动作和奖励,在Q学习的基础上建立深度强化学习模型,采用DDQN算法,在更新网络时,每个智能体都需要最小化损失函数实现梯度下降,损失函数表示为:
其中,D为样本空间,β∈[0,1]是折扣因子,β→1表示对未来的奖励给予重视,而β→0表示对当前的奖励更为注重,和/>分别是第k个智能体在t时刻的现实网络参数和目标网络参数。
CN202311322831.6A 2023-10-12 2023-10-12 一种基于增强型双深度q网络的车联网无线资源分配方法 Pending CN117412391A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311322831.6A CN117412391A (zh) 2023-10-12 2023-10-12 一种基于增强型双深度q网络的车联网无线资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311322831.6A CN117412391A (zh) 2023-10-12 2023-10-12 一种基于增强型双深度q网络的车联网无线资源分配方法

Publications (1)

Publication Number Publication Date
CN117412391A true CN117412391A (zh) 2024-01-16

Family

ID=89488195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311322831.6A Pending CN117412391A (zh) 2023-10-12 2023-10-12 一种基于增强型双深度q网络的车联网无线资源分配方法

Country Status (1)

Country Link
CN (1) CN117412391A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117793801A (zh) * 2024-02-26 2024-03-29 北京理工大学 基于混合强化学习的车载任务卸载调度方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117793801A (zh) * 2024-02-26 2024-03-29 北京理工大学 基于混合强化学习的车载任务卸载调度方法及***
CN117793801B (zh) * 2024-02-26 2024-04-23 北京理工大学 基于混合强化学习的车载任务卸载调度方法及***

Similar Documents

Publication Publication Date Title
CN112995951B (zh) 一种采用深度确定性策略梯度算法的5g车联网v2v资源分配方法
CN111970733B (zh) 超密集网络中基于深度强化学习的协作式边缘缓存算法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN114389678B (zh) 一种基于决策性能评估的多波束卫星资源分配方法
CN113543074B (zh) 一种基于车路云协同的联合计算迁移和资源分配方法
CN114499629B (zh) 基于深度强化学习的跳波束卫星***资源动态分配方法
CN110769514B (zh) 一种异构蜂窝网络d2d通信资源分配方法及***
Zhang et al. Team learning-based resource allocation for open radio access network (O-RAN)
Park et al. Network resource optimization with reinforcement learning for low power wide area networks
CN105379412B (zh) 一种控制多个无线接入节点的***和方法
Wang et al. Joint resource allocation and power control for D2D communication with deep reinforcement learning in MCC
CN111083668A (zh) 一种在车联网中基于联盟博弈算法的d2d资源分配方法
CN114885426B (zh) 一种基于联邦学习和深度q网络的5g车联网资源分配方法
CN114885420A (zh) 一种noma-mec***中的用户分组和资源分配方法及装置
CN115278707B (zh) 基于智能反射面辅助的noma太赫兹网络能效优化方法
CN114867030B (zh) 双时间尺度智能无线接入网切片方法
Vu et al. Multi-agent reinforcement learning for channel assignment and power allocation in platoon-based C-V2X systems
CN116456493A (zh) 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质
CN111629352B (zh) 一种5G蜂窝网中基于Underlay模式的V2X资源分配方法
CN109819422B (zh) 一种基于Stackelberg博弈的异构车联网多模通信方法
CN117412391A (zh) 一种基于增强型双深度q网络的车联网无线资源分配方法
CN115866787A (zh) 融合终端直传通信和多接入边缘计算的网络资源分配方法
CN116582860A (zh) 一种基于信息年龄约束的链路资源分配方法
CN116546462A (zh) 一种基于联邦学习的多智能体空地网络资源分配方法
CN115173922A (zh) 基于cmaddqn网络的多波束卫星通信***资源分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination