CN116208619A - 一种智能反射表面辅助的车联网安全计算卸载方法、***、设备及介质 - Google Patents

一种智能反射表面辅助的车联网安全计算卸载方法、***、设备及介质 Download PDF

Info

Publication number
CN116208619A
CN116208619A CN202310276875.3A CN202310276875A CN116208619A CN 116208619 A CN116208619 A CN 116208619A CN 202310276875 A CN202310276875 A CN 202310276875A CN 116208619 A CN116208619 A CN 116208619A
Authority
CN
China
Prior art keywords
mec
ris
network
target
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310276875.3A
Other languages
English (en)
Inventor
俱莹
白皓文
王浩宇
裴庆祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202310276875.3A priority Critical patent/CN116208619A/zh
Publication of CN116208619A publication Critical patent/CN116208619A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1074Peer-to-peer [P2P] networks for supporting data block transmission mechanisms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种智能反射表面辅助的车联网安全计算卸载方法、***、设备及介质,方法包括:构建RIS辅助MEC车辆网络通信场景;构建RIS辅助的安全通信场景;构建RIS辅助MEC车辆网络场景的优化目标函数;构建深度强化学习算法模型;构建深度强化学习训练模型,设置训练模型的状态、动作及奖励,对优化目标进行模型训练;RIS辅助MEC车辆网络决策模型,得到车联网安全计算卸载方案;***、设备及介质用于实现一种智能反射表面辅助的车联网安全计算卸载方法;本发明通过联合设计RIS相移矩阵和实时分配MEC计算资源来最小化最大的MEC服务时间,解决了动态车联网场景下任务卸载延迟及安全问题,满足通信链路安全,提升MEC整体服务质量,使车联网服务质量和安全性能得到保证。

Description

一种智能反射表面辅助的车联网安全计算卸载方法、***、设 备及介质
技术领域
本发明属于无线通信技术领域,具体涉及一种智能反射表面辅助的车联网安全计算卸载方法、***、设备及介质。
背景技术
随着5G移动通信技术的不断革新,新兴的车联网(V2X)技术正在愈发成熟,其中V代表车辆,X代表任何与车辆进行信息交互的对象,可以是车、人、交通设施和网络。车联网的广泛应用推动了大量数据需求和延迟敏感服务,这都需要大量的计算资源来处理。而传统的云计算由于目标用户与服务器之间距离较长,使得计算的时延会增大,不适用于新兴的V2X技术。为了解决云计算的不足,移动边缘计算(MEC)作为一种新型计算范式变得具有重要意义。MEC可以很好地与车联网结合起来,利用网络边缘丰富的计算资源,将资源有限的车辆用户从繁重的计算任务中解放出来。在车联网中部署MEC服务器,多个车辆可以同时将其任务卸载到MEC服务器,并获得高速计算服务,降低任务的处理时延,提高用户的体验。然而,由于拥挤的城市环境中信道衰落严重,任务卸载率可能较低,从而延长了卸载延迟。此外,由于无线信号的广播特性,无线链路容易受到窃听等安全威胁。因此,从安全通信的角度提升MEC车载网络的服务质量和数据安全性至关重要。
目前智能反射面(RIS)被认为是提高无线传输质量和覆盖范围的有前途的技术。通过设计智能反射面的元素,设计信号反射来增强所需信号的功率,同时减轻多用户干扰。先前的研究表明,通过利用无线信道中固有的随机性,物理层安全(PLS)可以成为保护复杂无线网络安全的有效替代或补充解决方案。然而,当窃听者比合法用户离基站(BS)更近时,或者当合法用户和窃听者具有相关信道时,许多PLS技术将严重退化。针对这些严峻的挑战,RIS结合PLS为设计一种鲁棒的安全传输机制带来了希望,因为它能够实时灵活地重建信道环境,因此RIS和MEC联合研究来实现安全服务的技术被提出。然而RIS和MEC联合研究的方案具有高复杂度,无法用数学方法推理出低复杂度的最优解方案,而深度强化学习作为一种强大的状态估计和函数逼近工具,能够适应各种动态网络和解决复杂的优化问题。基于此,提出了利用深度强化学习算法来优化RIS和MEC资源分配,以实现最优安全服务。
文献[Y.Liu,W.Wang,H.-H.Chen,F.Lyu,L.Wang,W.Meng,and X.Shen,“PhysicalLayer Security Assisted Computation Offloading in Intelligently ConnectedVehicle Networks,”IEEE Transactions on Wireless Communications,vol.20,no.6,pp.3555–3570,2021.]中,作者提出了一种车辆网络中的安全计算卸载方案,集中于优化目标车辆的安全MEC服务延迟,其中加入人工噪声来抵抗潜在的窃听者,实现车辆网络的安全通信。然而,该方案是在静态车联网场景下优化目标车辆的安全移动边缘计算服务延迟问题,不能应用于具有繁重计算任务的动态车联网场景中。
文献[Y.Ju,Y.Chen,Z.Cao,H.Wang,L.Liu,Q.Pei,and N.Kumar,“Learning Basedand Physical-layer Assisted Secure Computation Offloading in VehicularSpectrum Sharing Networks,”in IEEE INFOCOM 2022-IEEE Conference on ComputerCommunications Workshops(INFOCOMWKSHPS),2022.]中,作者在动态车联网场景下提出了一种基于深度强化学习实现安全MEC服务的方案,但该方案是通过物理层安全技术来实现安全服务的,具有局限性,没有探索智能反射面的潜在好处。
综上所述,现有技术目前还存在着以下缺点:
(1)现有技术是在静态车联网场景下优化目标车辆的安全移动边缘计算服务延迟问题,不适用于具有繁重计算任务的动态移动边缘计算车辆网络。
(2)现有技术只有当所有目标车辆给配有移动边缘计算服务器的基站传送完任务时,基站才会为目标车辆分配MEC计算资源,这大大加重了车联网服务延迟。
(3)在动态车联网场景下,现有技术在进行移动边缘计算安全服务延迟问题的研究时,并未考虑智能反射面的潜在好处。
在实时变化的信道下,如何选择合适的深度强化学习算法来应对高维度的状态空间;如何利用深度强化学习来优化RIS和MEC等都是RIS辅助MEC安全服务技术要解决的关键问题。
发明内容
为了克服上述现有技术的不足,本发明的目的在于提供一种智能反射表面辅助的车联网安全计算卸载方法、***、设备及介质,基于深度确定性策略梯度算法(Deepdeterministic policy gradient)的通信方案来优化MEC服务,通过联合设计RIS相移矩阵和实时分配MEC计算资源来最小化最大的MEC服务时间,以实现最优MEC安全服务,解决了动态车联网场景下任务卸载延迟以及安全问题,可以在满足通信链路安全的前提下,提升MEC整体服务质量,使车联网的服务质量和安全性能得到保证。
为了实现上述目的,本发明采用的技术方案为:
一种智能反射表面辅助的车联网安全计算卸载方法,包括以下步骤:
步骤1:构建RIS辅助MEC车辆网络通信场景,同时加入窃听者模型;
步骤2:构建RIS辅助的安全通信场景;
步骤3:对步骤1中构建的RIS辅助MEC车辆网络场景的优化目标进行建模,构建模型求解时的目标函数;
步骤4:根据步骤3提出的优化目标构建深度强化学习算法模型;
步骤5:根据步骤4提出的深度强化学习算法模型构建深度强化学习训练模型,结合步骤1、步骤2以及步骤3中的通信场景和目标函数,设置训练模型的状态、动作及奖励,对RIS辅助MEC车辆网络通信场景的优化目标进行模型训练;
步骤6:根据步骤5的训练模型得到RIS辅助MEC车辆网络决策模型,得到优化问题的最优解,即得到车联网安全计算卸载方案。
所述步骤1的具体方法为:
BS同时与不同正交子频带中的车辆用户建立多个通信链路,资源受限的目标车辆可以将其计算任务卸载到配备MEC服务器的BS,从而获取MEC计算资源,获取计算服务的目标车辆表示为:
Figure BDA0004136578610000041
/>
其中,UserM表示第M个目标车辆用户;
未被服务的车辆被认为是潜在的窃听者,可以表示为:
E={Eve1,Eve2,…,EveE}
其中,EveE表示第E个潜在窃听者。
所述步骤2的具体方法为:
步骤2.1:假设RIS的第n个元素的反射系数表示为:
Figure BDA0004136578610000051
其中,φn∈[0,2π),RIS反射系数矩阵定义为:
Θ=diag([θ12,...,θN])
由不存在带内干扰,通过最大比合并技术设计接收波束形成,其可表示为:
Figure BDA0004136578610000052
其中,fM表示第M个V2I链路的波束形成向量;
步骤2.2:通信信道建模;
在MEC车辆网络中,信道包括:第m个V2I链路
Figure BDA0004136578610000053
第m个目标车辆和RIS之间的链路/>
Figure BDA0004136578610000054
第m个目标车辆到第e个潜在窃听者的链路/>
Figure BDA0004136578610000055
RIS到第e个潜在窃听者之间的链路/>
Figure BDA0004136578610000056
RIS到BS的链路/>
Figure BDA0004136578610000057
RIS到BS的信道服从Rician分布,表示为:
Figure BDA0004136578610000058
其中,κi,b是Rician因子,ρ是参考距离d0=1m处的路径损耗,di,b是RIS和BS之间的距离,αi,b为RIS到BS链路的路径损耗指数,非LOS分量
Figure BDA0004136578610000059
的每个元素遵循具有零均值和单位方差的复高斯分布,同样hm,e,hm,b,hm,i,hi,e遵循Rician分布,由于拥挤的城市环境和车辆之间的阻塞效应,κm,b和κm,e均为零;
步骤2.3:信号接收过程建模;
BS处的第m个V2I链路接收信号可以表示为:
Figure BDA00041365786100000510
其中,Pm是第m个目标车辆的发射功率,sm表示与计算任务相关联的单位能量信号样本,噪声向量nm可以表示为:
nm=[n1,...nK]T
其中,
Figure BDA0004136578610000061
BS处的第m个V2I链路的上行链路信干噪比SINR由下式给出:
Figure BDA0004136578610000062
相似的,第e辆窃听车辆处的第m个V2I链路的窃听信号表示为:
Figure BDA0004136578610000063
/>
其中,
Figure BDA0004136578610000064
第e辆窃听车辆处的第m个V2I链路的SINR可以表示为:
Figure BDA0004136578610000065
因此,第m个V2I链路的容量和第e个窃听车辆到第m个V2I链路的窃听容量可以分别表示为:
Cm=log(1+ηm)
Ce,m=log(1+ηe,m)
在MEC车辆网络中,一旦用户完成卸载过程,BS就根据任务的大小灵活地分配MEC服务器的计算资源,MEC服务器的每个CPU周期都可以处理一定数量的数据位,假设总计算能力为ζbit/s。
所述步骤3的具体方法为:
步骤3.1:安全过程建模;
任何未经服务的车辆都可以窃听任何V2I链路,为了保护任务数据不被窃听,用于保护机密信息的冗余可以表示为:
max{0,Rb-RS}
其中,Rb为码字率,RS为机密信息的目标保密率;
如果窃听者的容量Ce大于Rb-RS,则会发送保密中断,用容量Cb近似Rb,因此第m个V2I链路的保密传输速率可以表示为:
RS,m=[0,(Cm-maxCe,m)]+,e∈ε
其中,[x]+=max{0,x};
第m个V2I链路的MEC服务时间(卸载和计算时间)可以表示为:
Figure BDA0004136578610000071
其中,Sm是任务大小,ζm是分配的计算资源;
步骤3.2:优化目标建模;
优化目标是通过为不同的计算任务设计RIS反射系数矩阵Θ和MEC资源分配
Figure BDA0004136578610000072
来最小化服务时间,前者将影响传输时间,而后者将决定计算时间,考虑到整个MEC服务周期由所有V2I链路的最大服务时间决定,将上述目标转化为以下最小-最大问题:
Figure BDA0004136578610000073
Figure BDA0004136578610000074
Figure BDA0004136578610000075
其中,约束C1表示分配给不同目标车辆的计算资源总和为固定值,约束C2表示RIS反射系数的模数约束为单位模。
所述步骤4的具体方法为:
DDPG是一种无模型model-free、异策略off-policy的Actor-Critic架构的算法,Actor网络用于预测动作,Critic网络用于评估当前状态下采取该动作的未来收益,Actor网络和Critic网络都由两个深度神经网络DNN网络组成:训练网络和目标网络,Actor网络的训练和目标网络参数分别为θa和θa′,Critic网络的训练和目标网络参数分别为θc和θc′
在时隙t,Actor训练网络将St作为输入,并输出动作at,Critic训练网络将St和at作为输入并输出状态-动作函数值state-action value Qπ(St,at∣θc),其可表示为:
Qπ(St,at∣θc)=Eπ[Rt∣St,at,π]
其中,E[·]表示期望函数,π表示Actor训练网络的策略,当在经验回放池D中累计了足够的四元组(St,at,rt,St+1)时,模型优化器通过从经验回放池中随机抽取大小为Nd的样本来更新Actor和Critic的训练网络,第k个元组yk的目标状态-动作函数值Q′可以表示为:
yk=rk+γQ′π′(Sk+1,π′(Sk+1∣θa′)∣θc′)
其中,π′表示Actor目标网络的策略;
Critic训练网络使用均方误差MSE函数更新网络,可以由下式表示:
Figure BDA0004136578610000081
Figure BDA0004136578610000082
Actor训练网络使用确定性策略梯度函数来更新网络,可以表示为:
Figure BDA0004136578610000083
Figure BDA0004136578610000084
Actor和Critic目标网络的更新如下:
θc′=τcθc+(1-τcc′
θa′=τaθa+(1-τaa′
其中,τc和τa是软更新系数,其满足τca∈[0,1]。
所述步骤5的具体方法为:
步骤5.1:状态空间设置;
在时隙t,第m个V2I链路的状态
Figure BDA0004136578610000091
包括保密速率/>
Figure BDA0004136578610000092
剩余卸载任务量/>
Figure BDA0004136578610000093
剩余计算任务量/>
Figure BDA0004136578610000094
占用的MEC资源量/>
Figure BDA0004136578610000095
全局信道状态信息/>
Figure BDA0004136578610000096
其可表示为:
Figure BDA0004136578610000097
综上,将第m个V2I链路的状态表示为:
Figure BDA0004136578610000098
在时隙t,M个V2I链路的总环境可以表示为:
Figure BDA0004136578610000099
步骤5.2:动作空间设置;
基于当前的状态St,BS将设计RIS相移矩阵和MEC资源分配,在每个时隙t,动作空间可以表示为:
at={Θtt}
其中,
Figure BDA00041365786100000910
是计算资源分配;
步骤5.3:奖励函数设置;
在时隙t,对应于当前动作at的奖励可以表示为:
Figure BDA00041365786100000911
其中,
Figure BDA00041365786100000912
表示时隙t处的第m个V2I链路的安全MEC服务时间,tm,1是当前消耗的时间,tm,2是基于当前动作估计的剩余时间,其包含剩余传输时间和剩余计算时间,估计剩余时间有三种情况:
(1)所有目标车辆都在任务卸载过程中,每个目标车辆的剩余传输时间基于当前动作,每个目标车辆的剩余计算时间采取将计算资源平均分配给所有目标车辆的策略来计算,即ζmin
(2)一些目标车辆在任务卸载过程中,其他目标车辆在任务计算过程中,对于在任务卸载过程中的目标车辆,基于当前动作计算每个用户卸载过程中的剩余传输时间,并且基于计算资源为
Figure BDA0004136578610000101
的策略估计剩余计算时间,其中ζmin是任务计算过程中目标车辆的最小计算资源,对于在任务计算过程中的目标车辆,只需要基于当前动作估计剩余计算时间;
(3)所有目标车辆都在任务计算过程中,基于当前动作估计所有目标车辆的剩余计算时间;
为了提高保密传输速率,将惩罚因子表示为:
Figure BDA0004136578610000102
若当前动作能够满足第m条链路的保密速率要求
Figure BDA0004136578610000103
那么νm=0,否则νm=ν*,ν*是一个可以人为设置的参数,其为负数;
基于奖励函数的设定,DDPG算法将在给定的约束内不断学习以减少最大安全MEC服务时间为方向的行动策略,总的累计奖励可以表示为:
Figure BDA0004136578610000104
其中γ为折扣因子。
所述步骤6的具体方法为:
步骤6.1:初始化;
随机初始化Actor和Critic训练网络的参数θa、θc,将Actor目标网络的参数θa′初始化为θa,将Critic目标网络的参数θc′初始化为θc,清空经验回放池D;
步骤6.2:训练阶段;
随机初始化目标车辆和窃听车辆的位置,初始化目标车辆的请求服务的任务量;
在每个时隙t,BS与动态环境进行交互,得到状态St,基于当前的状态,BS从第M个V2I链路的Actor网络中得到动作at,从而为目标车辆设置反射系数矩阵和MEC资源分配;
BS从变化的环境中获得下一个时隙t+1的状态St+1,并计算在做出动作at后从环境中获得的奖励rt
将上述过程中的状态、动作、奖励存储为元组(St,at,rt,St+1),并将该元组存储在经验回放池D中,同时从Critic网络中获取状态-动作函数Qπ(St,at∣θc);
当经验回放池中的元组足够多的时候,从中采取Nd大小的样本来更新Critic和Actor网络的参数,当所有目标车辆的任务量都已被计算完成后,一次模型训练结束,不断重复上述的过程,直至模型训练收敛;
步骤6.3:决策阶段
将训练收敛的决策模型使用在随机的动态车辆网络场景中,在每个时隙都决策出最优的RIS反射系数矩阵和MEC资源分配,使得整个过程中的最大MEC服务时间最小化,最终得到优化目标的最优解。
本发明还提供了一种用于实现所述智能反射表面辅助的车联网安全计算卸载方法的***,包括:
RIS辅助MEC车辆网络通信模块:用于实现RIS辅助MEC车辆网络通信场景的构建,该模块中,基站与动态车辆建立多个通信链路;
RIS辅助的安全通信模块:用于实现RIS辅助的安全通信场景的构建,该模块中,RIS技术为动态车辆通信的安全性提供保障;
安全计算服务优化目标模块:用于实现RIS辅助MEC车辆网络场景的优化目标的构建;
深度强化学习算法选择模块:用于实现基于优化目标构建深度强化学习算法模型;
深度强化学习模型训练模块:用于实现深度强化学习训练模型的构建,该模块中,对RIS辅助MEC车辆网络场景的优化目标进行模型训练;
深度强化学习决策模型模块:用于实现RIS辅助MEC车辆网络决策模型,该模块中,得到动态车联网场景下最优的RIS系数矩阵和MEC资源分配。
本发明还提供了一种智能反射表面辅助的车联网安全计算卸载设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现所述的一种智能反射表面辅助的车联网安全计算卸载方法。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够对一种智能反射表面辅助的车联网安全进行计算卸载。
相较于现有技术,本发明的有益效果为:
1.目前没有研究在动态场景下,利用深度强化学习算法来优化智能反射面的反射系数矩阵和移动边缘计算资源的分配;本发明提供的方案能够在高维度连续状态空间下,决策出多个连续的最优动作,降低车辆网络服务延迟,同时为通信的安全性提供保障。
2.本发明将基站视为智能体,其可以根据周围不断变化的状态进行决策,对于具有高动态性的车联网场景具有很高的适应性,同时只要有目标车辆完成任务卸载后,基站就会为其分配计算资源,这使得空闲的MEC资源得到有效利用。
3.目前在车联网场景中的安全问题,都是基于物理层安全技术来解决的,这具有局限性。本发明提供的智能反射面技术结合物理层安全技术来实现安全服务的方案,其解决了当窃听用户比目标用户更接近基站、窃听用户和目标用户具有相关信道时,物理层安全技术无法抵抗窃听用户的问题。
4.本发明中步骤1、步骤2提供的RIS辅助MEC车辆网络安全通信场景,能够与实际的动态车联网安全通信场景相关联,为实际场景下的安全服务问题,提供了解决方案,具有应用性较强的优点。
5.本发明中步骤4提供的深度强化学习算法,能够解决复杂的高维度连续状态空间问题,并能根据连续的状态空间输出连续的动作值,具有适应动态场景、解决非凸问题的优点。
综上所述,与现有技术相比,本发明具有利用深度强化学习算法解决动态场景下联合优化智能反射面和移动边缘计算实现安全服务、并降低服务延迟的优势。
附图说明
图1是本发明的流程图。
图2是本发明实施例提供的智能反射面辅助移动边缘计算场景示意图。
图3是本发明实施例提供的深度强化学习训练模型架构图。
图4是本发明实例提供的在不同窃听级别下,DDPG算法与其他算法进行对比分析平均MEC服务时间、MEC成功服务概率、平均MEC服务保密中断概率的仿真结果图。
图5是本发明实例提供的在目标车辆处于不同的任务范围下,DDPG算法与其他算法进行对比分析平均MEC服务时间、MEC成功服务概率的仿真结果图。
具体实施方式
下面结合附图对本发明的技术方案作进一步的描述。
本发明提供了一种智能反射表面辅助的车联网安全计算卸载方法、***、设备及介质,该方案首先对RIS辅助MEC车辆网络场景进行建模,其中基站同时与不同子频带中的车辆用户建立多个通信链路,以实现高速数据速率传输服务,在MEC场景中,资源受限的目标车辆通过车辆-基站(V2I)链路将其计算任务卸载到配备MEC服务器的基站(BS),BS为不同的任务请求灵活的分配MEC资源,然后将结果反馈给目标用户,对RIS辅助的安全通信进行建模,通信信道服从莱斯分布(Rician),所有的车辆都配备单根全向天线,BS具有K根天线均匀线阵。智能反射面是具有N个反射元素的对角矩阵。由于不存在带内干扰,BS对每个V2I链路采用最大比合并(MRC)的方式设计波束形成。其次为了实现MEC场景下的安全服务,提出了通过联合设计RIS反射系数矩阵和MEC资源分配来最小化最大MEC服务时间的优化问题。该优化问题是非凸的,也是一个具有高动态性的长期决策过程,因此采用深度强化学习算法来进行求解,实现最优的MEC服务,通过对深度强化学习算法的状态、动作以及奖励进行设计,将动态车辆的位置信息以及任务量等参数作为智能体决策的依据,最终训练得到最优的RIS反射系数矩阵和MEC资源分配,实现安全的、低延迟的MEC服务。
如图1所示,基于深度强化学习的智能反射表面辅助车联网安全计算卸载方案的流程图。
一种智能反射表面辅助的车联网安全计算卸载方法,其步骤是:
步骤1:构建RIS辅助MEC车辆网络通信场景,为发送计算服务请求的车辆进行服务,同时加入窃听者模型,以便后续的建模和分析;进一步,所述步骤1的具体方法为:
如图2所示,为智能反射面辅助移动边缘计算场景,BS同时与不同正交子频带中的车辆用户建立多个通信链路,资源受限的车辆可以将其计算任务卸载到配备MEC服务器的BS,BS为不同的任务请求灵活分配MEC资源,然后将结果反馈给车辆用户。在本发明中,假设相对于满足计算任务所需的时间,反馈延迟的时间可以忽略不计。由于BS处的资源有限,只能为发送计算服务请求的车辆提供服务,获取计算服务的目标车辆表示为:
Figure BDA0004136578610000151
其中,UserM表示第M个目标车辆用户。
未被服务的车辆被认为是潜在的窃听者,可以表示为:
ε={Eve1,Eve2,…,EveE}
其中,EveE表示第E个潜在窃听者。
步骤2:构建RIS辅助的安全通信场景,为本发明后续使用的通信信道奠定基础;
进一步,所述步骤2的具体方法为:
步骤2.1:假设RIS的第n个元素的反射系数表示为:
Figure BDA0004136578610000152
其中φn∈[0,2π),RIS反射系数矩阵定义为:
Θ=diag([θ12,...,θN])
由于不存在带内干扰,通过最大比合并技术设计接收波束形成,其可表示为:
Figure BDA0004136578610000153
其中,fM表示第M个V2I链路的波束形成向量。
步骤2.2:通信信道建模;
在MEC车辆网络中,信道包括:第m个V2I链路
Figure BDA0004136578610000161
第m个目标车辆和RIS之间的链路/>
Figure BDA0004136578610000162
第m个目标车辆到第e个潜在窃听者的链路/>
Figure BDA0004136578610000163
RIS到第e个潜在窃听者之间的链路/>
Figure BDA0004136578610000164
RIS到BS的链路/>
Figure BDA0004136578610000165
RIS到BS的信道服从Rician分布,表示为:
Figure BDA0004136578610000166
其中,κi,b是Rician因子,ρ是参考距离d0=1m处的路径损耗,di,b是RIS和BS之间的距离,αi,b为RIS到BS链路的路径损耗指数。非LOS分量
Figure BDA0004136578610000167
的每个元素遵循具有零均值和单位方差的复高斯分布。同样hm,e,hm,b,hm,i,hi,e遵循Rician分布。由于拥挤的城市环境和车辆之间的阻塞效应,κm,b和κm,e均为零。
步骤2.3:信号接收过程建模;
BS处的第m个V2I链路接收信号可以表示为:
Figure BDA0004136578610000168
其中,Pm是第m个目标车辆的发射功率,sm表示与计算任务相关联的单位能量信号样本,噪声向量nm可以表示为:
nm=[n1,...nK]T
其中,
Figure BDA0004136578610000169
BS处的第m个V2I链路的上行链路信干噪比(SINR)由下式给出:
Figure BDA00041365786100001610
相似的,第e辆窃听车辆处的第m个V2I链路的窃听信号表示为:
Figure BDA0004136578610000171
其中,
Figure BDA0004136578610000172
第e辆窃听车辆处的第m个V2I链路的SINR可以表示为:
Figure BDA0004136578610000173
因此,第m个V2I链路的容量和第e个窃听车辆到第m个V2I链路的窃听容量可以分别表示为:
Cm=log(1+ηm)
Ce,m=log(1+ηe,m)
在MEC车辆网络中,一旦用户完成卸载过程,BS就根据任务的大小灵活地分配MEC服务器的计算资源。MEC服务器的每个CPU周期都可以处理一定数量的数据位,假设总计算能力为ζbit/s。为了提供稳定的服务,BS旨在最大限度地缩短整个MEC服务的时间,同时确保所有用户的任务卸载安全。
步骤3:对步骤1中构建的RIS辅助MEC车辆网络场景的优化目标进行建模,构建模型求解时的目标函数,为本发明后续利用深度强化学习进行模型求解奠定基础;
进一步,所述步骤3的具体方法为:
步骤3.1:安全过程建模;
本发明考虑了最坏的安全威胁的情况,在这种情况下,任何未经服务的车辆都可以窃听任何V2I链路。为了保护任务数据不被窃听,发射端对数据进行编码,然后在传输之前需要确定两个码率,即码字率Rb和机密信息的目标保密率RS。因此用于保护机密信息的冗余可以表示为:
max{0,Rb-RS}
其中,Rb为码字率,RS为机密信息的目标保密率。
如果窃听者的容量Ce大于Rb-RS,则会发送保密中断。在本发明中,我们用容量Cb近似Rb。因此第m个V2I链路的保密传输速率可以表示为:
RS,m=[0,(Cm-maxCe,m)]+,e∈ε
其中,[x]+=max{0,x}。
第m个V2I链路的MEC服务时间(卸载和计算时间)可以表示为:
Figure BDA0004136578610000181
其中,Sm是任务大小,ζm是分配的计算资源。
步骤3.2优化目标建模;
本发明的优化目标是通过为不同的计算任务设计RIS反射系数矩阵Θ和MEC资源分配
Figure BDA0004136578610000182
来最小化服务时间。前者将影响传输时间,而后者将决定计算时间。考虑到整个MEC服务周期由所有V2I链路的最大服务时间决定,我们将上述目标转化为以下最小-最大问题:
Figure BDA0004136578610000183
Figure BDA0004136578610000184
Figure BDA0004136578610000185
其中,约束C1表示分配给不同目标车辆的计算资源总和为固定值,约束C2表示RIS反射系数的模数约束为单位模。
步骤4:根据步骤3提出的优化目标构建深度强化学习算法模型,为所要解决的实际问题奠定理论基础,降低优化问题的求解难度;
进一步,所述步骤4的具体方法为:
整个MEC服务的RIS反射系数矩阵和MEC资源分配的联合设计可以建模为马尔可夫决策过程(MDP)。该过程由多个时间段及其具体行动组成,每个行动都会影响未来的收益。本发明的优化问题是非凸的,并且是一个具有高动态性的长期决策问题,难以用显示的数学表达式来表示,因此本发明采用了一种深度确定性策略梯度(DDPG)的深度强化学习(DRL)算法。该算法可以根据连续的状态空间来训练出合适的参数,从而设计得到期望的RIS系数矩阵和MEC资源分配,实现最小化服务时间。
如图3所示,DDPG是一种无模型(model-free)、异策略(off-policy)的Actor-Critic架构的算法。Actor网络用于预测动作,Critic网络用于评估当前状态下采取该动作的未来收益。Actor网络和Critic网络都由两个深度神经网络(DNN)网络组成:训练网络和目标网络。Actor网络的训练和目标网络参数分别为θa和θa′,Critic网络的训练和目标网络参数分别为θc和θc′。DDPG深度强化学习训练模型架构。
在时隙t,Actor训练网络将St作为输入,并输出动作at,Critic训练网络将St和at作为输入并输出状态-动作函数值(state-action value)Qπ(St,at∣θc),其可表示为:
Qπ(St,at∣θc)=Eπ[Rt∣St,at,π]
其中,E[·]表示期望函数,π表示Actor训练网络的策略。当在经验回放池D中累计了足够的四元组(St,at,rt,St+1)时,模型优化器通过从经验回放池中随机抽取大小为Nd的样本来更新Actor和Critic的训练网络。第k个元组yk的目标状态-动作函数值Q′可以表示为:
yk=rk+γQ′π′(Sk+1,π′(Sk+1∣θa′)∣θc′)
其中,π′表示Actor目标网络的策略。
Critic训练网络使用均方误差(MSE)函数更新网络,可以由下式表示:
Figure BDA0004136578610000201
Figure BDA0004136578610000202
Actor训练网络使用确定性策略梯度函数来更新网络,可以表示为:
Figure BDA0004136578610000203
Figure BDA0004136578610000204
Actor和Critic目标网络的更新如下:
θc′=τcθc+(1-τcc′
θa′=τaθa+(1-τaa′
其中,τc和τa是软更新系数,其满足τca∈[0,1];
步骤5:根据步骤4提出的深度强化学习算法模型构建深度强化学习训练模型,结合步骤1、步骤2以及步骤3中的通信场景和目标函数,设置训练模型的状态、动作及奖励,对RIS辅助MEC车辆网络通信场景的优化目标进行模型训练,为后续得到决策模型奠定基础;
进一步,所述步骤5的具体方法为:
步骤5.1:状态空间设置;
在时隙t,第m个V2I链路的状态
Figure BDA0004136578610000205
包括保密速率/>
Figure BDA0004136578610000206
剩余卸载任务量/>
Figure BDA0004136578610000207
剩余计算任务量/>
Figure BDA0004136578610000208
占用的MEC资源量/>
Figure BDA0004136578610000209
全局信道状态信息/>
Figure BDA00041365786100002010
其可表示为:
Figure BDA00041365786100002011
综上,将第m个V2I链路的状态表示为:
Figure BDA0004136578610000211
在时隙t,M个V2I链路的总环境可以表示为:
Figure BDA0004136578610000212
步骤5.2:动作空间设置;
基于当前的状态St,BS将设计RIS相移矩阵和MEC资源分配,在每个时隙t,动作空间可以表示为:
at={Θtt}
其中,
Figure BDA0004136578610000213
是计算资源分配;/>
步骤5.3:奖励函数设置
在时隙t,对应于当前动作at的奖励可以表示为:
Figure BDA0004136578610000214
其中,
Figure BDA0004136578610000215
表示时隙t处的第m个V2I链路的安全MEC服务时间,tm,1是当前消耗的时间,tm,2是基于当前动作估计的剩余时间,其包含剩余传输时间和剩余计算时间。估计剩余时间有三种情况:
(1)所有目标车辆都在任务卸载过程中。每个目标车辆的剩余传输时间基于当前动作,每个目标车辆的剩余计算时间采取将计算资源平均分配给所有目标车辆的策略来计算,即ζmin
(2)一些目标车辆在任务卸载过程中,其他目标车辆在任务计算过程中。对于在任务卸载过程中的目标车辆,基于当前动作计算每个用户卸载过程中的剩余传输时间,并且基于计算资源为
Figure BDA0004136578610000216
的策略估计剩余计算时间,其中ζmin是任务计算过程中目标车辆的最小计算资源。对于在任务计算过程中的目标车辆,只需要基于当前动作估计剩余计算时间。
(3)所有目标车辆都在任务计算过程中。基于当前动作估计所有目标车辆的剩余计算时间。
为了提高保密传输速率,将惩罚因子表示为:
Figure BDA0004136578610000221
如果当前动作能够满足第m条链路的保密速率要求
Figure BDA0004136578610000223
那么νm=0,否则νm=ν*,ν*是一个可以人为设置的参数,其为负数。
基于奖励函数的设定,DDPG算法将在给定的约束内不断学习以减少最大安全MEC服务时间为方向的行动策略。总的累计奖励可以表示为:
Figure BDA0004136578610000222
其中,γ为折扣因子;
步骤6:根据步骤5的训练模型得到RIS辅助MEC车辆网络决策模型,得到优化问题的最优解,即得到车联网安全计算卸载方案;
进一步,所述步骤6的具体方法为:
步骤6.1:初始化;
随机初始化Actor和Critic训练网络的参数θa、θc,将Actor目标网络的参数θa′初始化为θa,将Critic目标网络的参数θc′初始化为θc。清空经验回放池D;
步骤6.2:训练阶段;
随机初始化目标车辆和窃听车辆的位置,初始化目标车辆的请求服务的任务量;
在每个时隙t,BS与动态环境进行交互,得到状态St,基于当前的状态,BS从第M个V2I链路的Actor网络中得到动作at,从而为目标车辆设置反射系数矩阵和MEC资源分配;
BS从变化的环境中获得下一个时隙t+1的状态St+1,并计算在做出动作at后从环境中获得的奖励rt
将上述过程中的状态、动作、奖励存储为元组(St,at,rt,St+1),并将该元组存储在经验回放池D中,同时从Critic网络中获取状态-动作函数Qπ(St,at∣θc);
当经验回放池中的元组足够多的时候,从中采取Nd大小的样本来更新Critic和Actor网络的参数。当所有目标车辆的任务量都已被计算完成后,一次模型训练结束。不断重复上述的过程,直至模型训练收敛;
步骤6.3:决策阶段;
将训练收敛的决策模型使用在随机的动态车辆网络场景中,在每个时隙都决策出最优的RIS反射系数矩阵和MEC资源分配,使得整个过程中的最大MEC服务时间最小化,最终得到优化目标的最优解。
如图4所示,其表示在不同窃听级别下,DDPG算法与其他算法进行对比分析平均MEC服务时间、MEC成功服务概率、平均MEC服务保密中断概率的仿真结果。可以看出,基于DDPG的方法显著减少了平均最大MEC服务时间,同时提高了MEC成功概率,实现了安全MEC服务,并降低了服务延迟。
如图5所示,其表示在目标车辆处于不同的任务范围下,DDPG算法与其他算法进行对比分析平均MEC服务时间、MEC成功服务概率的仿真结果图。从对比仿真分析图可以看出,基于DDPG深度强化学习算法可以很好的解决高维度非凸问题,可以在复杂和动态的通信场景中成功学习有效的策略,并得到最优RIS反射系数和MEC资源分配。
本发明还提供了一种用于实现所述智能反射表面辅助的车联网安全计算卸载方法的***,包括:
RIS辅助MEC车辆网络通信模块:用于实现步骤1中的RIS辅助MEC车辆网络通信场景的构建,该模块中,基站与动态车辆建立多个通信链路;
RIS辅助的安全通信模块:用于实现步骤2中的RIS辅助的安全通信场景的构建,该模块中,RIS技术为动态车辆通信的安全性提供保障;
安全计算服务优化目标模块:用于实现步骤3中的RIS辅助MEC车辆网络场景的优化目标的构建;
深度强化学习算法选择模块:用于实现步骤4中基于优化目标构建深度强化学习算法模型;
深度强化学习模型训练模块:用于实现步骤5中深度强化学习训练模型的构建,该模块中,对RIS辅助MEC车辆网络场景的优化目标进行模型训练;
深度强化学习决策模型模块:用于实现步骤6中RIS辅助MEC车辆网络决策模型,该模块中,得到动态车联网场景下最优的RIS系数矩阵和MEC资源分配。
本发明还提供了一种智能反射表面辅助的车联网安全计算卸载设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现所述的一种智能反射表面辅助的车联网安全计算卸载方法。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够对一种智能反射表面辅助的车联网安全进行计算卸载。

Claims (10)

1.一种智能反射表面辅助的车联网安全计算卸载方法,其特征在于:包括以下步骤:
步骤1:构建RIS辅助MEC车辆网络通信场景,同时加入窃听者模型;
步骤2:构建RIS辅助的安全通信场景;
步骤3:对步骤1中构建的RIS辅助MEC车辆网络场景的优化目标进行建模,构建模型求解时的目标函数;
步骤4:根据步骤3提出的优化目标构建深度强化学习算法模型;
步骤5:根据步骤4提出的深度强化学习算法模型构建深度强化学习训练模型,结合步骤1、步骤2以及步骤3中的通信场景和目标函数,设置训练模型的状态、动作及奖励,对RIS辅助MEC车辆网络通信场景的优化目标进行模型训练;
步骤6:根据步骤5的训练模型得到RIS辅助MEC车辆网络决策模型,得到优化问题的最优解,即得到车联网安全计算卸载方案。
2.根据权利要求1所述的一种智能反射表面辅助的车联网安全计算卸载方法,其特征在于:所述步骤1的具体方法为:
BS同时与不同正交子频带中的车辆用户建立多个通信链路,资源受限的目标车辆可以将其计算任务卸载到配备MEC服务器的BS,从而获取MEC计算资源,获取计算服务的目标车辆表示为:
Figure FDA0004136578600000011
其中,UserM表示第M个目标车辆用户;
未被服务的车辆被认为是潜在的窃听者,可以表示为:
ε={Eve1,Eve2,…,EveE}
其中,EveE表示第E个潜在窃听者。
3.根据权利要求1所述的一种智能反射表面辅助的车联网安全计算卸载方法,其特征在于:所述步骤2的具体方法为:
步骤2.1:假设RIS的第n个元素的反射系数表示为:
Figure FDA0004136578600000021
其中,φn∈[0,2π),RIS反射系数矩阵定义为:
Θ=diag([θ12,...,θN])
由不存在带内干扰,通过最大比合并技术设计接收波束形成,其可表示为:
Figure FDA0004136578600000022
其中,fM表示第M个V2I链路的波束形成向量;
步骤2.2:通信信道建模;
在MEC车辆网络中,信道包括:第m个V2I链路
Figure FDA0004136578600000023
第m个目标车辆和RIS之间的链路/>
Figure FDA0004136578600000024
第m个目标车辆到第e个潜在窃听者的链路/>
Figure FDA0004136578600000025
RIS到第e个潜在窃听者之间的链路/>
Figure FDA0004136578600000026
RIS到BS的链路/>
Figure FDA0004136578600000027
RIS到BS的信道服从Rician分布,表示为:
Figure FDA0004136578600000028
/>
其中,κi,b是Rician因子,ρ是参考距离d0=1m处的路径损耗,di,b是RIS和BS之间的距离,αi,b为RIS到BS链路的路径损耗指数,非LOS分量
Figure FDA0004136578600000029
的每个元素遵循具有零均值和单位方差的复高斯分布,同样hm,e,hm,b,hm,i,hi,e遵循Rician分布,由于拥挤的城市环境和车辆之间的阻塞效应,κm,b和κm,e均为零;
步骤2.3:信号接收过程建模;
BS处的第m个V2I链路接收信号可以表示为:
Figure FDA00041365786000000210
其中,Pm是第m个目标车辆的发射功率,sm表示与计算任务相关联的单位能量信号样本,噪声向量nm可以表示为:
nm=[n1,...nK]T
其中,
Figure FDA0004136578600000031
BS处的第m个V2I链路的上行链路信干噪比SINR由下式给出:
Figure FDA0004136578600000032
相似的,第e辆窃听车辆处的第m个V2I链路的窃听信号表示为:
Figure FDA0004136578600000033
其中,
Figure FDA0004136578600000034
第e辆窃听车辆处的第m个V2I链路的SINR可以表示为:
Figure FDA0004136578600000035
因此,第m个V2I链路的容量和第e个窃听车辆到第m个V2I链路的窃听容量可以分别表示为:
Cm=log(1+ηm)
Ce,m=log(1+ηe,m)
在MEC车辆网络中,一旦用户完成卸载过程,BS就根据任务的大小灵活地分配MEC服务器的计算资源,MEC服务器的每个CPU周期都可以处理一定数量的数据位,假设总计算能力为ζbit/s。
4.根据权利要求1所述的一种智能反射表面辅助的车联网安全计算卸载方法,其特征在于:所述步骤3的具体方法为:
步骤3.1:安全过程建模;
任何未经服务的车辆都可以窃听任何V2I链路,为了保护任务数据不被窃听,用于保护机密信息的冗余可以表示为:
max{0,Rb-RS}
其中,Rb为码字率,RS为机密信息的目标保密率;
如果窃听者的容量Ce大于Rb-RS,则会发送保密中断,用容量Cb近似Rb,因此第m个V2I链路的保密传输速率可以表示为:
RS,m=[0,(Cm-maxCe,m)]+,e∈ε
其中,[x]+=max{0,x};
第m个V2I链路的MEC服务时间(卸载和计算时间)可以表示为:
Figure FDA0004136578600000041
其中,Sm是任务大小,ζm是分配的计算资源;
步骤3.2:优化目标建模;
优化目标是通过为不同的计算任务设计RIS反射系数矩阵Θ和MEC资源分配
Figure FDA0004136578600000042
来最小化服务时间,前者将影响传输时间,而后者将决定计算时间,考虑到整个MEC服务周期由所有V2I链路的最大服务时间决定,将上述目标转化为以下最小-最大问题:
Figure FDA0004136578600000043
C1:
Figure FDA0004136578600000044
C2:
Figure FDA0004136578600000045
其中,约束C1表示分配给不同目标车辆的计算资源总和为固定值,约束C2表示RIS反射系数的模数约束为单位模。
5.根据权利要求1所述的一种智能反射表面辅助的车联网安全计算卸载方法,其特征在于:所述步骤4的具体方法为:
DDPG是一种无模型model-free、异策略off-policy的Actor-Critic架构的算法,Actor网络用于预测动作,Critic网络用于评估当前状态下采取该动作的未来收益,Actor网络和Critic网络都由两个深度神经网络DNN网络组成:训练网络和目标网络,Actor网络的训练和目标网络参数分别为θa和θa′,Critic网络的训练和目标网络参数分别为θc和θc′
在时隙t,Actor训练网络将St作为输入,并输出动作at,Critic训练网络将St和at作为输入并输出状态-动作函数值state-action value Qπ(St,at∣θc),其可表示为:
Qπ(St,at∣θc)=Eπ[Rt∣St,at,π]
其中,E[·]表示期望函数,π表示Actor训练网络的策略,当在经验回放池D中累计了足够的四元组(St,at,rt,St+1)时,模型优化器通过从经验回放池中随机抽取大小为N d 的样本来更新Actor和Critic的训练网络,第k个元组yk的目标状态-动作函数值Q′可以表示为:
yk=rk+γQ′π′(Sk+1,π′(Sk+1∣θa′)∣θc′)
其中,π′表示Actor目标网络的策略;
Critic训练网络使用均方误差MSE函数更新网络,可以由下式表示:
Figure FDA0004136578600000051
Figure FDA0004136578600000052
Actor训练网络使用确定性策略梯度函数来更新网络,可以表示为:
Figure FDA0004136578600000053
Figure FDA0004136578600000054
Actor和Critic目标网络的更新如下:
θc′=τcθc+(1-τcc′
θa′=τaθa+(1-τaa′
其中,τc和τa是软更新系数,其满足τca∈[0,1]。
6.根据权利要求1所述的一种智能反射表面辅助的车联网安全计算卸载方法,其特征在于:所述步骤5的具体方法为:
步骤5.1:状态空间设置;
在时隙t,第m个V2I链路的状态
Figure FDA0004136578600000061
包括保密速率/>
Figure FDA0004136578600000062
剩余卸载任务量/>
Figure FDA0004136578600000063
剩余计算任务量/>
Figure FDA0004136578600000064
占用的MEC资源量/>
Figure FDA0004136578600000065
全局信道状态信息/>
Figure FDA0004136578600000066
其可表示为:
Figure FDA0004136578600000067
综上,将第m个V2I链路的状态表示为:
Figure FDA0004136578600000068
在时隙t,M个V2I链路的总环境可以表示为:
Figure FDA0004136578600000069
步骤5.2:动作空间设置;
基于当前的状态St,BS将设计RIS相移矩阵和MEC资源分配,在每个时隙t,动作空间可以表示为:
at={Θtt}
其中,
Figure FDA00041365786000000610
是计算资源分配;
步骤5.3:奖励函数设置;
在时隙t,对应于当前动作at的奖励可以表示为:
Figure FDA00041365786000000611
其中,
Figure FDA00041365786000000612
表示时隙t处的第m个V2I链路的安全MEC服务时间,tm,1是当前消耗的时间,tm,2是基于当前动作估计的剩余时间,其包含剩余传输时间和剩余计算时间,估计剩余时间有三种情况:
(1)所有目标车辆都在任务卸载过程中,每个目标车辆的剩余传输时间基于当前动作,每个目标车辆的剩余计算时间采取将计算资源平均分配给所有目标车辆的策略来计算,即ζmin
(2)一些目标车辆在任务卸载过程中,其他目标车辆在任务计算过程中,对于在任务卸载过程中的目标车辆,基于当前动作计算每个用户卸载过程中的剩余传输时间,并且基于计算资源为
Figure FDA0004136578600000071
的策略估计剩余计算时间,其中ζmin是任务计算过程中目标车辆的最小计算资源,对于在任务计算过程中的目标车辆,只需要基于当前动作估计剩余计算时间;
(3)所有目标车辆都在任务计算过程中,基于当前动作估计所有目标车辆的剩余计算时间;
为了提高保密传输速率,将惩罚因子表示为:
Figure FDA0004136578600000072
若当前动作能够满足第m条链路的保密速率要求
Figure FDA0004136578600000073
那么νm=0,否则νm=ν*,ν*是一个可以人为设置的参数,其为负数;
基于奖励函数的设定,DDPG算法将在给定的约束内不断学习以减少最大安全MEC服务时间为方向的行动策略,总的累计奖励可以表示为:
Figure FDA0004136578600000074
其中γ为折扣因子。
7.根据权利要求1所述的一种智能反射表面辅助的车联网安全计算卸载方法,其特征在于:所述步骤6的具体方法为:
步骤6.1:初始化;
随机初始化Actor和Critic训练网络的参数θa、θc,将Actor目标网络的参数θa′初始化为θa,将Critic目标网络的参数θc′初始化为θc,清空经验回放池D;
步骤6.2:训练阶段;
随机初始化目标车辆和窃听车辆的位置,初始化目标车辆的请求服务的任务量;
在每个时隙t,BS与动态环境进行交互,得到状态St,基于当前的状态,BS从第M个V2I链路的Actor网络中得到动作at,从而为目标车辆设置反射系数矩阵和MEC资源分配;
BS从变化的环境中获得下一个时隙t+1的状态St+1,并计算在做出动作at后从环境中获得的奖励rt
将上述过程中的状态、动作、奖励存储为元组(St,at,rt,St+1),并将该元组存储在经验回放池D中,同时从Critic网络中获取状态-动作函数Qπ(St,at∣θc);
当经验回放池中的元组足够多的时候,从中采取Nd大小的样本来更新Critic和Actor网络的参数,当所有目标车辆的任务量都已被计算完成后,一次模型训练结束,不断重复上述的过程,直至模型训练收敛;
步骤6.3:决策阶段;
将训练收敛的决策模型使用在随机的动态车辆网络场景中,在每个时隙都决策出最优的RIS反射系数矩阵和MEC资源分配,使得整个过程中的最大MEC服务时间最小化,最终得到优化目标的最优解。
8.一种用于实现权利要求1至7任意一项权利要求所述的一种智能反射表面辅助的车联网安全计算卸载方法的***,其特征在于:包括:
RIS辅助MEC车辆网络通信模块:用于实现RIS辅助MEC车辆网络通信场景的构建,该模块中,基站与动态车辆建立多个通信链路;
RIS辅助的安全通信模块:用于实现RIS辅助的安全通信场景的构建,该模块中,RIS技术为动态车辆通信的安全性提供保障;
安全计算服务优化目标模块:用于实现RIS辅助MEC车辆网络场景的优化目标的构建;
深度强化学习算法选择模块:用于实现基于优化目标构建深度强化学习算法模型;
深度强化学习模型训练模块:用于实现深度强化学习训练模型的构建,该模块中,对RIS辅助MEC车辆网络场景的优化目标进行模型训练;
深度强化学习决策模型模块:用于实现RIS辅助MEC车辆网络决策模型,该模块中,得到动态车联网场景下最优的RIS系数矩阵和MEC资源分配。
9.一种智能反射表面辅助的车联网安全计算卸载设备,其特征在于:包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1-8任一项所述的一种智能反射表面辅助的车联网安全计算卸载方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够对一种智能反射表面辅助的车联网安全进行计算卸载。
CN202310276875.3A 2023-03-21 2023-03-21 一种智能反射表面辅助的车联网安全计算卸载方法、***、设备及介质 Pending CN116208619A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310276875.3A CN116208619A (zh) 2023-03-21 2023-03-21 一种智能反射表面辅助的车联网安全计算卸载方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310276875.3A CN116208619A (zh) 2023-03-21 2023-03-21 一种智能反射表面辅助的车联网安全计算卸载方法、***、设备及介质

Publications (1)

Publication Number Publication Date
CN116208619A true CN116208619A (zh) 2023-06-02

Family

ID=86519214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310276875.3A Pending CN116208619A (zh) 2023-03-21 2023-03-21 一种智能反射表面辅助的车联网安全计算卸载方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN116208619A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116963183A (zh) * 2023-07-31 2023-10-27 中国矿业大学 一种智能反射面辅助的矿山物联网安全卸载方法
CN117156494A (zh) * 2023-10-31 2023-12-01 南京邮电大学 一种ris辅助无线通信的三端融合任务调度模型与方法
CN118042493A (zh) * 2024-04-11 2024-05-14 华东交通大学 基于反射元件的车联网感知通信计算联合优化方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116963183A (zh) * 2023-07-31 2023-10-27 中国矿业大学 一种智能反射面辅助的矿山物联网安全卸载方法
CN116963183B (zh) * 2023-07-31 2024-03-08 中国矿业大学 一种智能反射面辅助的矿山物联网安全卸载方法
CN117156494A (zh) * 2023-10-31 2023-12-01 南京邮电大学 一种ris辅助无线通信的三端融合任务调度模型与方法
CN117156494B (zh) * 2023-10-31 2024-01-19 南京邮电大学 一种ris辅助无线通信的三端融合任务调度模型与方法
CN118042493A (zh) * 2024-04-11 2024-05-14 华东交通大学 基于反射元件的车联网感知通信计算联合优化方法

Similar Documents

Publication Publication Date Title
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN116208619A (zh) 一种智能反射表面辅助的车联网安全计算卸载方法、***、设备及介质
CN109068391B (zh) 基于边缘计算和Actor-Critic算法的车联网通信优化算法
Chen et al. Intelligent ubiquitous computing for future UAV-enabled MEC network systems
CN109617584B (zh) 一种基于深度学习的mimo***波束成形矩阵设计方法
Hua et al. Reconfigurable intelligent surface for green edge inference in machine learning
Shang et al. Deep learning-assisted energy-efficient task offloading in vehicular edge computing systems
CN114143346B (zh) 一种车联网任务卸载和服务缓存的联合优化方法及***
Shi et al. A novel deep Q-learning-based air-assisted vehicular caching scheme for safe autonomous driving
Zhang et al. Energy-efficient power control in wireless networks with spatial deep neural networks
CN110856259A (zh) 移动边缘计算环境中自适应数据块大小的资源分配和卸载方法
Huang et al. Dynamic compression ratio selection for edge inference systems with hard deadlines
Ji et al. Reconfigurable intelligent surface enhanced device-to-device communications
Dai et al. Deep reinforcement learning for edge computing and resource allocation in 5G beyond
CN112788764A (zh) 针对noma超密集网络任务卸载和资源分配方法及***
Su et al. Semantic communication-based dynamic resource allocation in d2d vehicular networks
Mahmoud et al. Federated learning resource optimization and client selection for total energy minimization under outage, latency, and bandwidth constraints with partial or no CSI
Gupta et al. LSTM-based energy-efficient wireless communication with reconfigurable intelligent surfaces
Lakew et al. Adaptive partial offloading and resource harmonization in wireless edge computing-assisted IoE networks
Jiao et al. Deep reinforcement learning-based optimization for RIS-based UAV-NOMA downlink networks
Hwang et al. Deep reinforcement learning approach for uav-assisted mobile edge computing networks
Alajmi et al. Intelligent resource allocation in backscatter-NOMA networks: A soft actor critic framework
Han et al. Multi-step reinforcement learning-based offloading for vehicle edge computing
CN116390056B (zh) Star-ris辅助的车联网sr***链路优化方法
Hua et al. On sum-rate maximization in downlink UAV-aided RSMA systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination