CN116193396A

CN116193396A - 空天地一体化车联网中基于切片的协作式任务卸载方法

Info

Publication number: CN116193396A
Application number: CN202310142265.4A
Authority: CN
Inventors: 沈航; 田一博; 王天荆; 白光伟
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-05-30

Abstract

一种空天地一体化车联网中基于切片的协作式任务卸载方法，设计步骤包括：首先设计面向服务的RAN切片框架；然后把最大化长期任务完成数问题被解耦为切片窗口时长划分问题、资源分配问题和协作式工作流调度问题；MEC控制器收集当前切片窗口内的工作流调度决策用于决定下一切片窗口的资源分配策略；在当前切片窗口开始时，根据前一切片窗口内的工作流调度决策分配各基站资源；在切片窗口内的各个调度时隙开始时，控制器将采集到的任务转交给不同基站处理；在每个切片窗口结束时，控制器收集本窗口内的工作流调度决策供下次资源分配使用。仿真结果表明，相比基准方法，所提方案在适应性、任务完成率和控制开销方面展现了优越性。

Description

空天地一体化车联网中基于切片的协作式任务卸载方法

技术领域

本发明属于车联网技术领域，具体是一种空天地一体化车联网(Space-Air-Ground integrated Vehicular Networks,SAGVNs)中基于切片的协作式任务卸载机制。

背景技术

5G网络的高带宽、毫秒级延迟和超高密度连接为车联网发展提供了先决条件。车联网技术将车辆、基站和服务提供商连接为一个有机的整体，实现全方信息实时获取[1]。车载设备计算和存储能力有限，难以满足复杂度高、数据密集、延迟敏感的应用需求。一个可行的应对方法是MEC辅助的任务卸载。车辆发布的任务被卸载至基站(Base Station,BS)或路侧单元(Road Side Unit,RSU)上的MEC服务器，处理完的结果被回传至车辆，以实现低延迟和高敏捷的车辆服务。然而，地面RANs难以覆盖所有的路网，并存在网络结构僵化、服务响应慢等问题[2]。车辆高移动性、城市路网复杂性、任务需求差异性加剧了任务卸载和资源分配的难度。

空天地一体化车联网(Space-Air-Ground integrated Vehicular Networks,SAGVNs)可以为车辆用户提供无缝信息服务，满足全时全域的服务需求[3]。这种网络以地基网络为基础，天基和空基网络为补充和延伸，为广域空间范围的车辆提供全方位信息保障[5]。地基网络由BS和RSU组成，为人流车流密集区域提供服务；空基网络由无人机基站组成，具有机动部署和视距通信(Light-of-Sight,LoS)等优势；天基网络包含由低轨卫星构成的天基接入网，是实现全域覆盖、泛在连接的必要设施。无人机和低轨卫星均可充当空中MEC平台[5]，为地基网络覆盖边缘或缺乏基础设施区域的车辆提供网络接入和任务卸载机会。

随着智能交通和自动驾驶的发展，新型车载应用不断涌现，大致可分为延迟敏感型(如自动驾驶、路径规划、碰撞预警)和延迟容忍型(如地图下载、视频分发[6])。网络切片[7]技术可以将共享的物理RAN分割成多个相互隔离的虚拟网络(即：RAN切片)，为不同类型应用提供定制化服务。RAN切片是为车联网任务卸载提供差异化QoS保证的关键使能技术。控制器为依据任务流量等信息为RAN切片配置计算和通信资源。在切片化的车联网中，卸载策略根据任务属性、基站负载、车速和方向等信息决定将任务卸载至何处。在SAGVN的演进过程中，一个自然的步骤是将RAN切片从地基网络“拓展”至空基和天基网络，以支持泛在和多样化车联网应用。

SAGVN是一个动态环境，具有多种网络融合、车辆高速移动等特点，使得RAN切片和任务卸载面临许多挑战性问题：

(1)切片窗口长度动态调节。

这是一个基础性问题，是平衡开销和QoS的关键。由于网络动态性、任务流量的时变性，切片的服务提供能力会随时间推移逐渐弱化。MEC控制器必须周期性地对RAN切片进行资源重分配。若缩小切片窗口时长，资源重分配会被频繁触发，带来巨大控制和计算代价；若延长切片窗口，任务流量波动可能导致切片性能隔离被破坏。文献[9]研究了一种面向车联网的动态RAN切片框架，将时间划分为多个等长的切片窗口，并为每个窗口的计算最佳资源分配策略。文献[11]提出一种支持差异化QoS的分层软切片框架，在大时间尺度和小时间尺度上分别执行网络层面和基站层面的资源切片。这些方案在固定的切片窗口时长下进行资源分配。

(2)面向多层(multi-tier)网络的多维资源编排。

路网中车流在时域和空域分布不匀。不同类型基站的部署、覆盖和所配备资源均存在较大差异。资源分配受业务变化和车辆移动的双重影响。异构网络中资源耦合性加剧了决策的复杂性。现有工作大多考虑地面网络或单一类型的资源切片。Ye等提出异构无线网络下行频谱资源切片框架，为机器类型设备和用户设备提供差异化QoS保障[12]。文献[13]进一步融入了发射功率调节机制，设计基于多接入边缘计算的频谱切片策略。一种面向RAN切片的频谱和计算资源切片框架在[14]中被提出，满足车联网中差异化QoS需求的任务卸载。文献[21]结合深度确定策略梯度(deep deterministic policy gradient,DDPG))和层次化学习(hierarchical learning)决策车载网络中的多维资源联合分配。

(3)异构基站之间的协作。

高速移动中的车辆与BS之间的交互十分短暂。车辆行驶速度、方向和道路形态都会影响任务卸载效果。空-地、天-地、空-天基站间的协作是降低延迟、提高任务完成率的关键。传统模型优化和启发式方法[15][16][17]难以处理动态场景下的实时任务卸载问题。融合了强化学习RL的决策优势和深度学习DL的感知优势，深度强化学习(Deepreinforcement learning,DRL)[18]让个体感知环境并建立与之匹配的动作，使之能处理更高维的状态-动作空间。现有面向车联网的边缘协作大多考虑地面网络环境。Kai等提出了基于pipeline的卸载方案[19]。移动设备和边缘节点可以根据自身的计算和通信能力将任务卸载至边缘节点或云端。Li等提出一种面向车联网的任务划分和调度算法[20]，通过预先选择边缘服务器保持服务持续性并通过边缘侧协作减少计算延迟。

发明内容

为了解决现有技术中的如上问题，本发明提出一种空天地一体化车联网(Space-Air-Ground integrated Vehicular Networks,SAGVNs)中基于切片的协作式任务卸载方法，为高速车辆的任务卸载提供差异化QoS保证的同时最大化任务完成数量。

本发明方法还提出：

一种面向服务的RAN切片框架，它支持切片窗口时长自适应，频谱和计算资源编排以及异构基站间的协作。基于M/M/1排队模型，无线接入网(Radio Access Network,RAN)切片和任务卸载联合决策被建模为一个最大化长期任务完成数问题。该问题被解耦为切片窗口时长划分、资源分配和协作式工作流调度三个子问题：

由一个多接入边缘计算(Multi-Access Edge Computing,MEC)控制器交替求解，形成一个以切片窗口为周期的闭环。每当一个新切片窗口到来，控制器通过一种任务流量感知的策略确定窗口时长，并通过一种最优化方法为切片分配资源。

由一种基于双深度Q学习(Double Deep Q-Learning Network,DDQN)的方法决策切片窗口内小时间尺度的工作流调度。

仿真结果表明，相比基准方法，本方法在适应性、任务完成率和控制开销方面展现了优越性。

附图说明

图1表示SAGVNs场景；

图2表示RAN切片框架；

图3(a)和图3(b)表示协作式工作流调度案例，其中图3(a)表示延迟敏感型任务调度(案例-1)，图3(b)表示延迟容忍型任务调度(案例-2)；

图4表示MEC控制器状态机；

图5(a)和图5(b)表示任务流量增长与最佳切片窗口长度的拟合，其中图5(a)表示任务流量持续下降的情况，图5(b)表示任务流量持续增长的情况；

图6表示基于DDQN的协作式工作路调度决策；

图7表示奖励获取；

图8(a)～图8(c)表示训练轮次增加对***性能的影响，其中：图8(a)表示***任务完成奖励，图8(b)表示任务完成数量，图8(c)表示任务失败率；

图9(a)和图9(b)表示静态窗口与动态窗口对比图，其中：图9(a)表示任务失败率，图9(b)表示切片窗口个数；

图10(a)和图10(b)表示不同类型资源数量对任务失败率的影响，其中：图10(a)表示频谱资源增加，图10(b)表示计算资源增加；

图11(a)和图11(b)表示负载变化对性能的影响，其中：图11(a)表示任务失败率与任务数量，图11(b)表示任务完成率与延迟敏感型任务占比。

具体实施方式

1概述

为了解决现有技术中存在的问题，本发明面向SAGVNs提出一种基于切片的协作式任务卸载方法，为车辆任务卸载提供差异化QoS保证，并最大化任务完成数量。主要包括三方面技术贡献：

·设计一种面向服务的异构RAN切片框架，支持切片窗口时长动态划分，频谱和计算资源编排以及协作式任务卸载。基于M/M/1排队模型，面向RAN切片和任务卸载联合决策被建模为一个耦合约束和资源约束下的最大化长期任务完成数的优化问题。

·为了平衡QoS和信令开销，设计一种RAN切片窗口时长自适应策略/方法。在车流量高峰期，切片窗口时长被缩小，以促进资源重分配。在空闲时段，窗口时长扩大，以减少开销。针对每个切片窗口，一种最优化方法被用于求解带约束的切片资源分配问题。

·设计一种基于双深度Q学***衡全网负载。该方法综合考虑了车速与行驶方向、关联模式、基站资源、任务类型等因素。仿真结果证明了所提方案在适应性、资源利用率和任务完成率等指标上优于基准方法。

2***模型

本部分介绍RAN切片框架、通信模型和协作式工作流调度框架。

如图1所示，考虑一个包含低轨卫星群、地面基站和无人机的SAGVN场景。地面基站和无人机覆盖范围有限，而卫星可无缝覆盖整个路网。车辆配备三种信号收发器，可连接卫星、地面基站或无人机，但同一时隙内只能连接唯一的基站。卫星通过地面工作站连接核心网；地面(无人机)基站通过有线(无线)同核心网连接。一个MEC辅助的控制器通过核心网连接各类基站，负责对RAN侧的资源和任务进行分配与调度。

2.1 RAN切片框架

考虑一种面向服务的RAN切片框架。各卫星/地面/无人机基站的物理资源被编排为2个RAN切片，命名为切片1和切片2，分别用于处理延迟敏感型和延迟容忍型任务。任务类型o＝1(o＝2)代表延迟敏感(延迟容忍)型任务。前者包含无人驾驶汽车编队控制[14]等应用，延迟约束为100-150ms；后者对应自动驾驶汽车高清地图下载[24]等，延迟要求较宽松。卫星,地面基站和无人机基站的集合分别被表示为

和/>

基站/>

持有频谱资源和计算资源数量分别被记为c_j和s_j。基站j分配给切片o∈{1,2}的频谱资源和计算资源数量表示为c_j,o和s_j,o。

切片窗口时长可根据网络态势自适应调整。如图2所示，时间被划分为一系列不等长的切片窗口。每个切片窗口包含多个的调度时隙。切片窗口w包含的调度时隙集合被表示为

切片窗口w的时长被表示为f^(w)。控制器收集切片窗口w内的工作流调度决策用于决定切片窗口w+1的资源分配策略。在切片窗口w开始时，根据窗口w-1内的工作流调度决策切分各基站的频谱资源和计算资源。RAN切片决策持续至切片窗口w结束。在调度时隙/>

开始时，控制器将采集到的任务转交给不同基站处理。基站为任务分配资源并将处理完的结果传回原车辆。在每个切片窗口结束时，控制器收集本窗口内的工作流调度决策供下次资源切分使用。

2.2通信模型

由于卫星与车辆相距甚远，在局部范围内车辆位置变化对车辆到卫星信道增益的影响可忽略不计。车辆i在基站j覆盖范围内的平均信道增益被表示为g_i,j，采用[25]中的方法量化。

车辆i和基站j的发射功率表示为p_i和p_j。与基站j交互的过程中，车辆i会受到来自其他基站干扰。切片中的频谱资源以正交的形式被分配给车辆。若基站j分配给车辆i产生的任务m的带宽为c_i,j,m，σ²表示平均背景噪声，车辆i向基站j提交任务m时的上行传输速率被计算为

其中σ²代表平均背景噪声。从基站j回传任务m到车辆i的下行传输速率为

2.3工作流调度框架

针对车辆的高速移动性，本发明设计一种协作式的工作流调度方法。任务调度不再依赖单个基站，而是允许任务的卸载与处理在不同的基站执行。每个基站包含两个队列，命名为处理队列1和2，用以缓存采集到的延迟敏感型和延迟容忍型任务。MEC控制器也包含与之对应的两个队列，命名为卸载队列1和2，用于缓存转自采集基站的两类任务。综合多源信息，卸载队列中的任务被转交给不同的基站协作处理。下面给出案例以便理解：

1)延迟敏感型任务调度：如图3(a)所示，车辆产生任务时位于卫星和地面基站b₁的覆盖范围内。按就近原则，任务被基站b₁采集，接着被转移至MEC控制器的卸载队列1。根据车辆行驶方向和速度，卫星、无人机和基站b₂被选为候选协作基站。由于低延迟需求，控制器选择负载低的基站b₂处理任务。基站b₂遵循先到先服务(first come first service,FCFS)规则为任务分配资源并将处理完的结果传回车辆；

2)延迟容忍型任务调度：如图3(b)所示，车辆产生任务时处于卫星、无人机和基站b₂的覆盖范围内。按就近原则无人机被选为接收基站。无人机将收到的任务转入控制器的卸载队列2。根据车速和行驶方向，卫星或基站b₁被列为候选的协作基站。控制器选择负载更低的卫星来处理任务。

由上述案例可知，协作式工作流调度需要综合考虑车辆位置、速度、行驶方向和基站负载等因素。本发明基于排队论[26]量化任务排队延时，为工作流调度提供依据。任务m的数据量(bits)、所需计算资源数目和延迟约束分别被表示为ε_m,τ_m,d_m。

2.3.1卸载延迟计算

卸载延迟指一个任务从被发布到被基站提交至控制器卸载队列所花费的时长。

在切片窗口w内，车辆集合被表示为

基站j采集到的类型为o的任务集合和该集合的cardinality表示为/>

和/>

其中o＝1(o＝2)代表延迟敏感(延迟容忍)型任务。令α_i,m＝1代表任务m由车辆i上载，否则α_i,m为0。根据式(1)，类型为o的任务从车辆传输到基站的平均时长被计算为

单个车辆和基站的任务到达均被建模为泊松过程。令二元变量

代表车辆i与基站j建立了任务上载连接(相当于图3(a)和图3(b)中步骤①)，否则/>

为0。控制器卸载队列o的任务到达率被表示为

其中

代表在窗口w车辆i产生类型为o的任务的到达率。

卸载队列每次只处理一个任务。任务卸载过程被建模为M/M/1队列模型。卸载队列o的服务强度被定义为

进队由任务到达率决定，出队由任务分配速率决定。当进队列速率大于出队速率时，不断累积的任务可能导致队列溢出。为了保持队列稳定性(防止溢出)，式(5)需要满足

任务m到卸载队列后，排在任务m之前的任务索引集合被表示为Ω(m)。车辆i产生的任务m被基站j转发至控制器的延迟表示为ζ_i,j,m。该任务的卸载延迟被计算为

2.3.2处理延迟计算

处理延迟指一个任务从进入协作基站处理队列到被处理完所花费的时长。

基站按需为各个任务分配计算资源。假设基站j′的最大CPU周期为

Hz(每秒)。在切片窗口w，该基站中处理队列o的任务平均处理时长被计算为

控制器卸载队列中的任务被分发到不同基站的处理队列中。处理队列中任务的到达也服从泊松过程。基站j′分配给切片o的频谱资源数量在所有同类型切片的频谱资源中的占比为

协作基站j′中处理队列o的任务到达率为

任务处理过程被建模为M/M/1队列模型。基于(4)、(8)和(9),协作基站j′中处理队列o的服务强度被定义为

为了保持处理队列o的稳定性，式(10)需要满足

在基站j′的处理队列中，排在任务m之前的任务索引集合被表示为Ψ_j′(m)。任务m的处理延迟被计算为

2.3.3移交延迟计算

每个任务在协作基站j′的处理队列中完成计算后，由该基站将结果传回车辆(对应图3(a)和图3(b)中的步骤⑤)。车辆i产生的任务m被处理完成后的结果数据体积记为θ_i,m。基于式(2)，基站j′将任务m的处理结果移交给车辆i的延迟被表示为

车辆i产生的任务m的服务延迟D_i,m是式(7)、(12)和(13)的累加，即

令二元变量

代表控制器将车辆i产生的任务转交给协作基站j′处理(对应图3(a)和图3(b)中步骤⑤)，否则为0。假设从车辆i发布任务m到驶出基站j′覆盖范围的行驶距离为ω_i,j′,m，行驶速度为/>

车辆i从提交任务m到驶出基站j′覆盖范围的时长为

综合该时长和任务本身的延迟约束，车辆i产生的任务m的时延d_i,m需求被重新表示为

这是结果成功回传需要满足的条件之一，但不是唯一的条件。车辆的行驶速度和方向的变化可能导致车辆未能与协作基站j′“如期相遇”。在这种情况下，即使是任务在时长(如式(15))内被协作基站j′处理完成，结果也无法回传至车辆i。

3问题建模

本部分将RAN切片和协作式工作流调度联合优化建模为一个带约束的随机优化问题。

结合(14)和(15)，定义如下二元变量

e_i,j′,m＝1当且仅当协作基站j′在规定时间内将任务m的处理结果传回车辆i。

定义1在切片窗口w内，***因完成任务获得的平均奖励被定义为

其中u_j′,o∈(0,1)代表协作基站j′类型为o的任务在上成功完成的奖励因子。

定义2在切片窗口w内，***因未完成任务造成的平均损失被定义为

其中h_j′,o∈(0,1)代表类型为o的任务在协作基站j′上未能完成的损失因子。

在所提框架中，一个挑战性问题是RAN切片资源编排和协作式工作流调度的联合优化。在切片窗口w，频谱和计算资源分配策略的集合分别被表示为

和

协作式工作流调度策略集合被表示为

其中

代表时隙/>

内的协作式工作流调度策略集。切片窗口索引集合及集合的cardinality被表示为/>

和W。长期累积时间下的任务完成数最大化问题P1被建模为

/>

(6)and(11) (19e)

P1实质是以在线决策的方式，分配各切片的频谱、计算资源，平衡各基站负载，最大化***长时的平均任务完成数。约束(19a)保证每个基站持有一定数量的频谱资源供分配。每个基站分配给车辆的频谱和计算资源数量不应超过自身持有的资源总量，对应约束(19b)和(19c)。约束(19d)意味着每个车辆只能连接唯一的基站。约束(19e)是保持队列稳定性的条件。资源分配和工作流调度决策都会影响队列稳定性。

问题P1的目标是一个长时的非光滑极大值函数。约束(19d)包含两个二元整数变量，约束(19e)中的变量也相互耦合。因此，问题P1在传统优化方法下很难得到一个精确的最优解。

4解决方案

为了便于处理，P1被解耦为3个子问题：

1)切片窗口时长划分；

2)资源分配(大时间尺度)；

3)协作式工作流调度(小时间尺度)。

这些子问题由MEC控制器交替求解，形成一个连续运行的闭环。MEC控制器的行为被抽象为一个状态机，包含3个状态。每个状态对应一个子问题求解模块。每当***运行至一个状态时，相应的功能模块被激活:

·切片窗口时长自适应(状态1)：切片窗口w-1结束时，控制器根据任务流量波动确定切片窗口长度f^(w)(4.1节介绍具体细节)。

·资源分配(状态2)：切片窗口w的时长确定后，切片窗口w-1内的工作流调度决策

成为确定窗口w的资源分配决策/>

和/>

的给定条件(4.2节具体探讨)。面向RAN切片的资源分配决策在窗口w开始时由控制器决定，一直保持不变直至切片窗口w结束。

·协作式工作流调度(状态3)：切片窗口w划分被分为多个等长的调度时隙。在每个调度时隙开始时，

被输入设计的DDQN算法，以确定工作流调度决策(4.3节介绍实现细节)。在最后一个调度时隙结束时，切片窗口w内所有调度决策被保存为/>

后续被用于计算/>

和/>

4.1切片窗口时长划分

切片窗口时长划分子问题旨在通过动态划分切片窗口时长来最大化任务完成数，即

考到RAN切分的间隔时间较长，加之网络动态性，切片窗口w-1结束时获得的历史任务流量信息被用于确定窗口w的时长。P1.1被简化为

/>

现实中，车辆请求的发布具有时变性和不确定性。若在固定时间窗口下进行RAN切片资源分配，RAN切片的资源调度将无法应对请求到达的波动。在车流量高峰期，各类任务的占比会出现持续且明显的波动。此时缩小窗口时长可以促进资源重分配，适应任务流量波动。在空闲时段，各类任务占比相对稳定^[27]。此时窗口时长可适当扩大，以减少不必要的开销。

通过实验方法探寻任务流量波动与切片窗口时长之间的最佳匹配。窗口长度调节的最小粒度为10分钟。***预设一个较短的窗口时长，此后试探性地增加窗口长度。多个初始时间点被选取，采集任务流量波动和最佳切片窗口时长的数值对。构建如下函数拟合这些数值对

y＝αlog₂x+β (20)

拟合过程是寻找能最小化残差平方和的参数α和β。两条拟合曲线被生成。图5(a)、图5(b)对应任务流量持续下降(增长)的情况,其中切片窗口时长随流量的下降(上升)逐渐增长(缩小)。可见，任务流量波动越剧烈，最佳切片窗口长度越小。这种规律符合预期。

在切片窗口w-1结束时，ARIMA-ANN模型^[27]被用来预测下一窗口w开始阶段的任务流量，预测值被表示为

ARIMA和ANN模型分别适合处理线性和非现性特征的历史数据，两者协同可提升预测准确性。基于(20)和/>

切片窗口w的时长被确定为

其中γ是代表切片窗口长度最小单位的常数，

和/>

代表向上和向下取整。

4.2资源分配

资源分配子问题通过分配各RAN切片的频谱和计算资源来最大化任务完成数，描述为

s.t.(19a),(19b),(19c)

根据式(17)和(18)，每个切片窗口的决策是独立的且窗口内的各任务被独立地分配资源。现实中，车流量不会出现连续的剧烈波动，且相邻切片窗口内的车流量存在相似性。基于上切片窗口w-1内工作流调度决策，控制器可以推算出窗口w内每切片所需的通信和计算资源数量。据此，P1.2被转化为最大化每个窗口内的任务完成数的one-shot优化问题，即

s.t.(19a),(19b)and(19c)

P1.2a属于一个多约束多元函数极值问题。Lagrange Multiplier被用于问题求解，它将一个有多变量多约束优化问题转化为一个多变量无约束的极值问题。令

和/>

成为该极值问题的参数，问题P1.2a被转化为

关于P1.2b的最优资源分配方案可以通过梯度下降法得到。

4.3协作式工作流调度

协作式工作流调度子问题通过为收集到的任务选择合适的协作基站，在延迟约束下最大化任务完成数量，即

s.t.(19d),(6),(11)

如4.2节所述，P1.1中面向各切片窗口的资源编排操作相互独立。在资源分配被确定的情况下，各个切片窗口内的协作式工作流调度操作也相互独立。因此，P1.3中的长期优化问题可以被分解为面向单个切片窗口的短期优化问题，属于一个有限视界的Markovdecision问题。

单个切片窗口内的协作式工作流调度子问题被构建为一个Markov decisionprocess(MDP)。MEC控制器被抽象为一个agent。训练回合

的环境状态表示为/>

控制器根据/>

做出工作流调度动作/>

环境给予的奖励表示为/>

控制器根据状态转移概率

将环境状态更新为/>

状态、动作、奖励的表达如下：

·状态空间S：工作流调度需要考虑任务参数、车辆信息、各基站的资源及负载等。基站j中处理队列o的任务数量为

车辆i位置为l_i。训练回合/>

的状态被表示为

·动作空间A：***在训练回合

做出的工作流调度动作表示为

其中

代表训练回合/>

内的工作流调度决策集合，即控制器将一组任务分配给不同的协作基站。在(19d)下，每个动作对应的决策变量为0或1，由当前状态决定。

·奖励R：奖励体现在某个状态下所做动作的优劣。***目标由最大化任务完成数量转化为最大化奖励获得。基于(20)和(21)，奖励被表示为

其中，

代表为在训练回合/>

内因完成任务获得的奖励总和。/>

代表在训练回合/>

内

任务未能完成的损失总和。工作流调度的动作决定基站的任务处理。若一个任务被处理完，环境会提供奖励来肯定这次动作。同时，***引入了惩罚机制，阻止可能导致基站面临高负载或破坏处理队列稳定性的决策。

在MDP中，工作流调度指控制器通过将卸载队列中的任务分配给不同的协作基站来获得最多的奖励，即

其中，Π是所有可能的分配策略集合，

是在epoch/>

的折扣因子。由于请求发布的不可预知性，状态转移很难确定。问题_P1.2a无法通过传统model-based方法(如：值迭代法和策略迭代法^[28])求解。一个现实方案是采用不依赖状态转移概率的model-free方案。然而，由于协作式工作流调度的复杂性，传统model-free RL算法难以应对复杂的动作和状态空间。Deep Q-Learning Network(DQN)作为Q-learning的改进，不依赖先验知识，可适应庞大的动作和状态空间。DDQN又将DQN中的预测网络和目标网络分开训练，避免由bootstrapping带来的过估。因此，本小节设计基于DDQN的方法处理协作式工作流调度子问题。

Q-learning的核心在于构造一个Q表。在状态空间下，每个动作获得的奖励被估计并存储到Q表中。动作价值函数表示为

Q表中每个状态的奖励最大值代表未来可能获得的最大回报。通过查询Q表，每个状态下最大收益的动作被确定为

对式(25)运用Bellman Equation，可以得到Q表中的值，计算过程为

上式中φ代表学习速率，υ代表贪心概率。

如图6所示，基于DDQN的工作流调度方案使用两个结构相同的神经网络(预测网络和目标网络)进行训练。Q-learning和均方误差法被用于构造损失函数。基于DDQN的协作式工作流调度被描述为算法1。该方案相较于DQN增加了经验回放池和目标网络。经验回放机制构建了一个数据池。每次训练时从数据池随机抽取一组数据，提高了数据利用率也减少了训练相关性。DDQN的参数更新依赖

和/>

目标网络和评估网络共同完成参数更新，从而避免了过估。

Algorithm1：基于DDQN的工作流调度算法

5性能评价

采用仿真方法验证所提方案有效性。考虑一条长1000米的四车道高速道路。坐标原点为道路的起始点。场景中包含2个宏基站、3架无人机和1个卫星基站。卫星覆盖整条道路，两个宏基站各覆盖约500m长的道路。无人机悬停于道路上方，有效覆盖半径为80m。卫星、宏基站和无人机的发射功率分别为27w,40dBm和0.1w。车流量数据选取自OpenITS开放数据平台①。道路中车辆密度被设置为0.4(辆/m2)。无人车编队控制和自动驾驶高清地图下载被用于模拟延迟敏感型和延迟容忍型任务。其它仿真参数如表1所示。

四种基准方法被选取。与所提方案一致，每种基准方法包含切片窗口调节、资源分配和工作流调度三个功能模块。这些模块被融合到如图4所示的框架中。表2给出了不同方法的实现细节。

5.1收敛性分析

在DRL中，学习速度和训练效果受更新周期和学习率的影响。智能体对长期和短期奖励的倾向程度受到cumulative discounted reward中折扣率的影响。本组仿真观察当初始学习率分别被设置为0.1、0.005和0.001时，所提方法的奖励获取及收敛情况。

奖励值与任务完成数量之间是正比关系。如图7所示，当学习率处于高位0.1时，奖励极大值收敛至1500左右。整个过程奖励值的波动性较为明显。当学习率为较小的0.001时，奖励极大值收敛至约2700。此时***陷入了局部最优点，即使增加训练轮次也很难提升训练效果。学习率为折中的0.005时的性能优于前两种设置。不仅获得了最多的奖励，训练效果也会随轮次的增加稳步提升。当训练至100个回合时，奖励值上升至3157。

5.2训练轮次对性能的影响

接下来观察训练轮数对性能的影响。基于DRL的方案采用相同的设置，处理对象为相同的4000条数据。baseline-4仅考虑链路质量，不涉及模型训练，它的结果仅作为参考基准线。

如图8(a)所示，在前20轮训练中，获得的奖励呈现快速增长趋势，之后增长趋于缓慢。由于参数是随机选取的，智能体在初期无法适应环境，只有经过大数据量的学习，才能捕获数据相关性并更新参数直至收敛。图8(b)展示了不同方案所完成的任务数量。在训练5轮后，所提方案和Baseline-3完成的任务数量开始超过Baseline-4，之后继续稳步上升。所提方案完成的任务数始终高于Baseline-3。图8(c)中，Baseline-4的任务失败率始终维持在29％。作为DQN的变体，DDQN降低了数据相关性，学习和收敛效果更优。经过100轮训练，所提方法和Baseline-1的任务失败率约为21％和25％。前者始终优于后者。

5.3任务完成效果分析

本组仿真旨在验证提出的切片窗口自适应策略对性能的提升作用。在图9(a)中，随着延迟敏感型任务占比的不断增加，采用静态窗口模式的方案(baseline-1和baseline-2)的任务失败率呈现上升趋势，但采用动态窗口模式的方案(所提方案和baseline-3)的任务失败率较为平稳，表明动态窗口模式对负载波动的适应性较强。图9(b)统计2小时内不同方法产生的切片窗口数量。每当新窗口到来，控制器会触发RAN切片的资源重分配，产生巨大信令开销。综合图9(a)和图9(b)可知,所提方法窗口数量和任务失败率均低于baseline-1，意味着所提方法能以更低的开销提供更高质量的服务，证明了动态窗口模式的有效性。

图10(a)展示了计算资源数目固定为15时，频谱资源增加对任务失败率的影响。各方案的任务失败率不断降低，且差距逐步缩小，最终都稳定在10％左右。充足的频谱资源使得控制器有更大的决策空间，是性能提升重要条件，但不是唯一条件。接下来考察当子信道数量固定为20时，增加计算资源的对性能的提升作用。如图10(b)所示，任务失败率在初始阶段快速下降，但当计算资源数量达到15时，继续增加计算资源已无助于提升性能，此时的性能瓶颈在于频谱资源。

现在模拟一小时内任务发布数量持续增加的情况。如11(a)所示，由于资源受限，任务失败率总体呈现上升趋势。由于Max-SINR方案缺乏灵活性，Baseline-4的任务失败率由35％增加至52％。基于DQN的baseline-2和baseline-3的则由20％增加至31％。得益于异构基站的协同，所提方法的任务失败率在由18％增加至28％的过程中始终低于其它方案。延迟敏感型任务占比的增加也会带来任务完成率的下降。如图11(b)所示，这类任务占比为0.2时，baseline-4的任务完成率为52％，baseline-3和所提方案的任务完成率分别为78％和85％；占比为0.8时，所提方案，baseline-3和baseline-4的任务完成率为58％，53％和26％。所提方案产生的工作流调度策略相比其它基准方法更合理。

参考文献

[1]Zhuang,W.,Ye,Q.,Lyu,F.,Cheng,N.,&Ren,J.SDN/NFV empowered futureIoV with enhanced communication,computing,and caching.Proceedings of theIEEE,2020,108(2):274-291.

[2]Zhang,W.,Zhang,Z.,&Chao,H.C.Cooperative fog computing for dealingwith big data in the internet of vehicles:Architecture and hierarchicalresource management.IEEE Communications Magazine,2017,55(12):60-67.

[3]Liu,J.,Shi,Y.,Fadlullah,Z.M.,&Kato,N.Space-air-ground integratednetwork:A survey.IEEE Communications Surveys&Tutorials,2018,20(4):2714-2741.

[4]Zeng Y,Zhang R,Lim T J.Wireless communications with unmannedaerial vehicles:Opportunities and challenges[J].IEEE Communications Magazine,2016,54(5):36-42.

[5]董超,陶婷,冯斯梦,等.面向无人机自组网和车联网的媒体接入控制协议研究综述[J].电子与信息学报,2022,44:1-13.

[6]Ning,Z.,Hu,X.,Chen,Z.,Zhou,M.,Hu,B.,Cheng,J.,&Obaidat,M.S.Acooperative quality-aware service access system for social Internet ofvehicles.IEEE Internet of Things Journal,2017,5(4):2506-2517.

[7]Sexton,C.,Marchetti,N.,&DaSilva,L.A.Customization and tradeoffs in5G RAN slicing.IEEE Communications Magazine,2019,57(4):116-122.

[8]董超,陶婷,冯斯梦,等.面向无人机自组网和车联网的媒体接入控制协议研究综述[J].电子与信息学报,2022,44:1-13.

[9]Zhang N,Zhang S,Yang P.Software defined space-air-groundintegrated vehicular networks:Challenges and solutions.IEEE CommunicationsMagazine,2017,55(7):101-109.

[10]Lyu F,Yang P,Wu H,et al.Service-oriented dynamic resource slicingand optimization for space-air-ground integrated vehicular networks[J].IEEETransactions on Intelligent Transportation Systems,2021.

[11]Li J,Shi W,Yang P.A hierarchical soft RAN slicing framework fordifferentiated service provisioning[J].IEEE Wireless Communications,2020,27(6):90-97.

[12]Ye Q,Zhuang W,Zhang S,Jin AL,Shen X,Li X.Dynamic radio resourceslicing for a two-tier heterogeneous wireless network.IEEE Transactions onVehicular Technology,2018,67(10):9896-9910.

[13]Peng,H.,Ye,Q.,&Shen,X.Spectrum management for multi-access edgecomputing in autonomous vehicular networks.IEEE Transactions on IntelligentTransportation Systems,2019,21(7):3001-3012.

[14]Wu,W.,Chen,N.,Zhou,C.,Li,M.,Shen,X.,Zhuang,W.,&Li,X.Dynamic RANslicing for service-oriented vehicular networks via constrained learning.IEEEJournal on Selected Areas in Communications,2020,39(7),2076-2089.

[15]Chen,M.,Hao,Y.,Hu,L.,Huang,K.,&Lau,V.K.Green and mobility-awarecaching in 5G networks.IEEE Transactions on Wireless Communications,2017,16(12),8347-8361.

[16]Ji,J.,Zhu,K.,Niyato,D.,&Wang,R.Joint cache placement,flighttrajectory,and transmission power optimization for multi-UAV assistedwireless networks.IEEE Transactions on wireless communications,2020,19(8),5389-5403.

[17]Sun X,Ansari N.Jointly optimizing drone-mounted base stationplacement and user association in heterogeneous networks.IEEE InternationalConference on Communications 2018:1-6.

[18]Lim W Y B,Luong N C,Hoang D T.Federated learning in mobile edgenetworks:A comprehensive survey[J].IEEE Communications Surveys&Tutorials,2020,22(3):2031-2063.

[19]C.Kai,H.Zhou,Y.Yi and W.Huang,Collaborative Cloud-Edge-End TaskOffloading in Mobile-Edge Computing Networks With Limited CommunicationCapability,IEEE Transactions on Cognitive Communications and Networking,2021,7(2):624-634.

[20]Mushu Li,Jie Gao,Lian Zhao,Xuemin Shen.Deep ReinforcementLearning for Collaborative Edge Computing in Vehicular Networks,IEEETransactions on Cognitive Communications and Networking,2020,6(4):1122–1135.

[21]Peng H,Shen X.Deep reinforcement learning based resourcemanagement for multi-access edge computing in vehicular networks.IEEETransactions on Network Science and Engineering,2020,7(4):2416-2428.

[22]许小龙,方子介,齐连永,等.车联网边缘计算环境下基于深度强化学习的分布式服务卸载方法[J].计算机学报,2021.

[23]朱政泽,周海鹰,付勇智,等.基于延迟补偿的网联式自主驾驶车辆协同控制[J].***仿真学报,2019,31(7):1448.

[24]Javanmardi,E.,Gu,Y.,Javanmardi,M.,&Kamijo,S.Autonomous vehicleself-localization based on abstract map and multi-channel LiDAR in urbanarea.IATSS research,2019,43(1):1-13.

[25]Erceg,V.,Greenstein,L.J.,Tjandra,S.Y.,Parkoff,S.R.,Gupta,A.,Kulic,B.,...&Bianchi,R.An empirically based path loss model for wirelesschannels in suburban environments.IEEE Journal on selected areas incommunications,1999,17(7):1205-1211.

[26]Xue,J.,Wang,Z.,Zhang,Y.,&Wang,L.Task allocation optimizationscheme based on queuing theory for mobile edge computing in 5G heterogeneousnetworks.Mobile Information Systems,2019,62(2):1-3.

[27]Zeng D,Xu J,Gu J.Short term traffic flow prediction using hybridARIMA and ANN models.IEEE Workshop on Power Electronics and IntelligentTransportation System.,2008,621-625.

[28]MNIH,Volodymyr,et al.Playing atari with deep reinforcementlearning.arXiv preprint arXiv:1312.5602,2013.

[29]GOLCHI,Mahya Mohammadi；SARAEIAN,Shideh；HEYDARI,Mehrnoosh.A hybridof firefly and improved particle swarm optimization algorithms for loadbalancing in cloud environments:Performance evaluation.Computer Networks,2019,162:106860.

[30]Ye,Q.,Shi,W.,Qu,K.,He,H.,Zhuang,W.,&Shen,X.Joint RAN slicing andcomputation offloading for autonomous vehicular networks:A learning-assistedhierarchical approach.IEEE Open Journal of Vehicular Technology,2021,2:272-288.

[31]PENG,Haixia；YE,Qiang；SHEN,Xuemin.Spectrum management for multi-access edge computing in autonomous vehicular networks.IEEE Transactions onIntelligent Transportation Systems,2019,21.7:3001-3012.

[32]ZHANG,Chuanting.Dual attention-based federated learning forwireless traffic prediction.In:IEEE INFOCOM 2021-IEEE conference on computercommunications.IEEE,2021.p.1-10.

[33]Ye,Q.,Zhuang,W.,Zhang,S.,Jin,A.L.,Shen,X.,&Li,X.Dynamic radioresource slicing for a two-tier heterogeneous wireless network.IEEETransactions on Vehicular Technology,2018,67(10):9896-9910.

Claims

1.一种空天地一体化车联网中基于切片的协作式任务卸载方法，所述空天地一体化车联网SAGVNs场景包括低轨卫星群、地面基站和无人机基站，卫星作为卫星基站，以下简称卫星；无人机基站以下简称无人机；卫星无缝覆盖整个路网；车辆配备的信号收发器分别连接卫星、地面基站和无人机，且同一时隙内仅连接唯一的基站；卫星通过地面工作站连接核心网；地面基站和无人机也与核心网连接；MEC控制器通过核心网连接各类基站，负责对无线接入网RAN侧的资源和任务进行分配与调度；资源包括频谱资源和计算资源；

其特征是协作式任务卸载方法的设计步骤包括：

首先，设计面向服务的RAN切片框架，它支持切片窗口时长自适应，频谱和计算资源编排以及异构基站间的协作；

在这个RAN切片框架中，基于M/M/1排队模型，RAN切片和任务卸载联合决策被建模为一个最大化长期任务完成数问题；

然后，把最大化长期任务完成数问题被解耦为切片窗口时长划分问题、资源分配问题和协作式工作流调度问题这三个子问题，采用MEC控制器交替求解，形成一个以切片窗口为周期的闭环；

MEC控制器的行为被抽象为包含3个状态的状态机，每个状态对应一个子问题求解模块；每当一个状态到来时，相应的求解模块被激活：

切片窗口时长划分问题的求解方法为：通过任务流量感知的策略确定窗口时长；

资源分配问题的求解方法为：通过最优化方法为切片分配资源；

协作式工作流调度问题的求解方法为：采用DDQN方法决策切片窗口内的任务调度，确定把任务卸载给相应基站处理；

MEC控制器收集当前切片窗口内的工作流调度决策用于决定下一切片窗口的资源分配策略；在当前切片窗口开始时，根据前一切片窗口内的工作流调度决策分配各基站资源；在切片窗口内的各个调度时隙开始时，控制器将采集到的任务转交给不同基站处理；基站为任务分配资源并将处理完的结果传回原车辆；在每个切片窗口结束时，控制器收集本窗口内的工作流调度决策供下次资源分配使用。

2.根据权利要求1所述的空天地一体化车联网中基于切片的协作式任务卸载方法，其特征是在RAN切片框架中，各卫星、地以及无人机基站的物理资源被编排为2个RAN切片分别用于处理延迟敏感型任务o＝1和延迟容忍型任务o＝2；o表示任务类型；

卫星、地面基站和无人机站的集合分别被表示为

和/>

基站/>

持有频谱资源和计算资源数量分别被记为c_j和s_j；基站j分配给切片o∈{1，2}的频谱资源和计算资源数量表示为c_j，o和s_j，o；

切片窗口时长根据网络态势自适应调整；时间被划分为一系列不等长的切片窗口，每个切片窗口包含多个的调度时隙；切片窗口w包含的调度时隙集合表示为

切片窗口w的时长被表示为f^(w)；

任务调度时，允许任务的卸载与处理在不同的基站执行；每个基站包含两个处理队列，分别缓存采集到的延迟敏感型和延迟容忍型任务，MEC控制器包含对应的两个卸载队列，分别缓存转自采集基站的的延迟敏感型和延迟容忍型任务；综合多源信息，卸载队列中的任务被转交给不同的基站协作处理。

3.根据权利要求2所述的空天地一体化车联网中基于切片的协作式任务卸载方法，其特征是RAN切片和任务卸载联合决策被建模为最大化长期任务完成数问题P1：

定义二元变量

e_i，j′，m＝1当且仅当协作基站j′在规定时间内将任务m的处理结果传回车辆i；

定义1在切片窗口w内，因完成任务获得的平均奖励被定义为

其中u_j′，o∈(0，1)代表协作基站j′类型为o的任务在上成功完成的奖励因子；

定义2在切片窗口w内，因未完成任务造成的平均损失被定义为

其中h_j′，o∈(0，1)代表类型为o的任务在协作基站j′上未能完成的损失因子；

RAN切片资源编排和协作式工作流调度的联合优化：

在切片窗口w，频谱和计算资源分配策略的集合分别表示为

和

协作式工作流调度策略集合被表示为

其中

代表时隙/>

内的协作式工作流调度策略集；切片窗口索引集合及集合的cardinality表示为/>

和W；

P1建模为P1:

卸载队列o的服务强度

协作基站j′中处理队列o的服务强度

约束(a)保证每个基站持有一定数量的频谱资源供分配；

约束(b)和(c)保证每个基站分配给车辆的频谱和计算资源数量不应超过自身持有的资源总量；

约束(d)保证每个车辆只能连接唯一的基站；

约束(e)和(f)保证保持队列稳定性。

4.根据权利要求3所述的空天地一体化车联网中基于切片的协作式任务卸载方法，其特征是切片窗口时长划分子问题：

P1.1:

由于RAN切分窗口的间隔时间较长以及网络动态性，下一切片窗口w-1结束时获得的历史任务流量信息被用于确定窗口w的时长，则P1.1被简化为

P1.1a:

采集任务流量波动和最佳切片窗口时长的数值对，构建函数y＝αlog₂x+β拟合这些数值对，寻找最小化残差平方和的参数α和β；

在上一切片窗口w-1结束时，采用ARIMA-ANN模型预测窗口w开始时的任务流量，任务流量的预测值表示为

上一切片窗口w-1任务流量值表示为/>

切片窗口w的时长f^(w)为

其中γ是代表切片窗口长度最小单位的常数，

和/>

分别代表向上和向下取整，α₁和β₁、α₂和β₂分别表示相应函数的最小化残差平方和的参数。

5.根据权利要求3所述的空天地一体化车联网中基于切片的协作式任务卸载方法，其特征是资源分配子问题：

资源分配子问题通过分配各RAN切片的频谱和计算资源来最大化任务完成数，表示为

P1.2:

每个切片窗口的决策是独立的且窗口内的各任务被独立地分配资源；由于车流量不会出现连续的剧烈波动，且相邻切片窗口内的车流量存在相似性；由上一切片窗口w-1内工作流调度决策，可以推算出窗口w内每切片所需的资源数量，则P1.2被转化为最大化每个窗口内的任务完成数的one-shot优化问题，即

P1.2a:

采用Lagrange Multiplier用于问题求解，将一个有多变量多约束优化问题转化为一个多变量无约束的极值问题；令

和/>

成为该极值问题的参数，问题P1.2a被转化为

P1.2b:

关于P1.2b的最优资源分配方案可以通过梯度下降法求得。

6.根据权利要求3所述的空天地一体化车联网中基于切片的协作式任务卸载方法，其特征是协作式工作流调度子问题：

协作式工作流调度子问题是通过为收集到的任务选择合适的协作基站，在延迟约束下最大化任务完成数量，即

P1.3:

面向各切片窗口的资源编排操作相互独立，在资源分配被确定的情况下，各个切片窗口内的协作式工作流调度操作也相互独立，则P1.3中的长期优化问题被分解为面向单个切片窗口的短期优化问题，属于一个有限视界的Markov decision问题；

单个切片窗口内的协作式工作流调度子问题被构建为一个马尔可夫决策过程(Markovdecision process，MDP)，MEC控制器被抽象为一个agen；训练回合

的环境状态表示为/>

控制器根据/>

做出工作流调度动作/>

环境给予的奖励表示为/>

控制器根据状态转移概率/>

将环境状态更新为/>

则状态、动作、奖励的表达为：

·状态空间S：基站j中处理队列o的任务数量为

车辆i位置为l_i，训练回合/>

的状态被表示为

·动作空间A：在训练回合

做出的工作流调度动作表示为/>

其中

代表训练回合/>

内的工作流调度决策集合，即控制器将一组任务分配给不同的协作基站；在约束/>

下，每个动作对应的决策变量为0或1，由当前状态决定；

·奖励R：奖励体现在某个状态下所做动作的优劣；目标由最大化任务完成数量转化为最大化奖励获得；基于任务流量波动和最佳切片窗口时长以及切片窗口w的时长，奖励被表示为

其中，

代表为在训练回合/>

内因完成任务获得的奖励总和；/>

代表在训练回合/>

内任务未能完成的损失总和；工作流调度的动作决定基站的任务处理；若一个任务被处理完，则提供奖励来肯定这次动作；同时，还引入了惩罚机制，阻止可能导致基站面临高负载或破坏处理队列稳定性的决策；

P1.3a:

其中，_Π是所有可能的分配策略集合，

是在epoch/>

的折扣因子；

由于车辆请求的发布不可预知性，采用基于DDQN的方法处理协作式工作流调度子问题；基于DDQN的协作式工作流调度方法的输入包括任务的信息、基站持有的物理资源、队列的信息，输出为最优的工作流调度方案；

在状态空间下，每个动作获得的奖励被估计并存储到Q表中；动作价值函数表示为

Q表中每个状态的奖励最大值代表未来可能获得的最大回报；通过查询Q表，每个状态下最大收益的动作a^*被确定为

采用Bellman Equation得到Q表中的值，计算过程为：

式中φ代表学习速率，_υ代表贪心概率；

基于DDQN的工作流调度方法使用结构相同的预测网络和目标网络进行训练；Q-learning和均方误差法被用于构造损失函数。

7.根据权利要求6所述的空天地一体化车联网中基于切片的协作式任务卸载方法，其特征是基于DDQN的协作式工作流调度的算法伪代码描述为；

/>