CN115002409A

CN115002409A - 一种面向视频检测与追踪的动态任务调度方法

Info

Publication number: CN115002409A
Application number: CN202210551198.7A
Authority: CN
Inventors: 王晓飞; 王义兰; 刘志成; 赵云凤; 仇超; 张程
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-09-02
Anticipated expiration: 2042-05-20
Also published as: CN115002409B

Abstract

本发明公开了一种面向视频检测与追踪的动态任务调度方法，包括：构建包括若干个终端设备和一个边缘服务器的实时目标检测***，终端设备中设有目标***，边缘服务器中设有目标检测器；将实时目标检测***中的视频帧卸载决策、信道决策和帧间隔决策的联合优化问题，构建为马尔科夫决策问题；每个决策时隙槽，各个终端设备将跟踪精度、队首帧信息、视频内容变化率发送到边缘服务器，边缘服务器利用DDQN的深度强化学习算法构建联合决策模型；以最大化收益函数为目标，利用联合决策模型对联合优化问题进行求解，终端设备根据边缘服务器输出的视频帧卸载决策、信道决策和帧间隔决策执行。本发明实现了在延迟限制下最大化视频帧检测的精度。

Description

一种面向视频检测与追踪的动态任务调度方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种面向视频检测与追踪的动态任务调度方法。

背景技术

将先进的机器视觉引入物联网终端设备，可以实现广泛的自主深度视觉应用，如交通监控、自动驾驶、无人机场景分析和机器人视觉等。在这些应用中，至关重要的是终端从捕获的视频帧中检测对象的能力。然而，为了实现精确的目标检测，目标检测模型通常具有复杂的结构和众多的参数，对终端设备本身的计算和存储要求很高。因此在资源有限的终端设备上运行全尺寸的目标检测模型是一项挑战，通常难以满足实时性的要求，甚至会遇到散热问题。同时若本地运行压缩模型，虽可以极大的减少深度学习(DL,DeepLearning)模型的工作量，然而，由于模型尺寸和模型精度之间的基本权衡，这些技术常常会导致模型精度的降低。

随着5G网络的出现，将计算密集型的目标检测任务卸载到边缘服务器进行执行成为一种有前途的解决方案。边缘服务器运行大型模型，从而实现准确的检测，最后再将检测的结果传回终端设备。最近的一些工作采用了基于跟踪的检测(DBT，Detection basedTracking)方法，具体来说就是周期性的在一些视频帧上运行目标检测器，同时使用轻量级的目标***处理中间的这些帧。因此基于DBT的框架实现实时的视频帧检测分析受到了越来越多的关注。但是，现有的基于DBT的大多数方案在设计卸载策略时，考虑一个边缘服务器服务于单个终端设备，并且有足够传输资源的场景，而忽略了一个边缘服务器服务于多个终端设备，并且有限的通信资源对于竞争的终端设备卸载性能的负面影响的场景；另外，现有基于DBT的大多数方案在设计终端设备跟踪策略时，采用的是跟踪每一帧，忽略了跟踪每一帧带来的时延对于检测结果的错误累积；再者，现有基于DBT的技术方案完全是基于实验评估来实现协同检测，较少通过理论建模来实现***优化，并不能对终端设备和边缘服务器协同检测进行具体的模型封装、建模和表述。

发明内容

针对以上技术问题，本发明提出了一种面向视频检测与追踪的动态任务调度方法。为解决以上技术问题，本发明所采用的技术方案如下：

一种面向视频检测与追踪的动态任务调度方法，包括如下步骤：

S1，构建包括若干个终端设备和一个边缘服务器的实时目标检测***，终端设备中设有目标***，边缘服务器中设有目标检测器；

S2，将实时目标检测***中的视频帧卸载决策、信道决策和帧间隔决策的联合优化问题，构建为马尔科夫决策问题；

所述视频帧卸载决策是指终端设备的队首帧在每个决策时隙槽时是继续在终端设备的本地队列中等待、立即卸载到边缘服务器检测还是直接输出跟踪结果，信道决策是指边缘服务器输出的终端设备是否有分配到信道，帧间隔决策是指边缘服务器输出的终端设备当前决策时隙槽时下一决策时隙槽队首帧与当前决策时隙槽下队首帧之间间隔的帧数；

S3，每个决策时隙槽，各个终端设备将跟踪精度、队首帧信息、视频内容变化率发送到边缘服务器，边缘服务器利用DDQN的深度强化学习算法构建联合决策模型；

S4，以最大化收益函数为目标，利用步骤S3所构建的联合决策模型对联合优化问题进行求解，终端设备根据边缘服务器输出的视频帧卸载决策、信道决策和帧间隔决策执行。

所述步骤S2包括如下步骤：

S2.1，构建状态空间，状态空间的表达式为：

S_n(t)＝(M_n(t)，h_n(t)，p_n(t)，v_n(t))；

式中，M_n(t)表示决策时隙槽t时终端设备n的本地队列的队首帧信息，h_n(t)表示终端设备n和边缘服务器之间的信道收益，v_n(t)表示决策时隙槽t时终端设备n的视频内容变化率，S_n(t)表示终端设备n在决策时隙槽t时的状态空间，p_n(t)表示t决策时隙槽时终端设备n的队首帧的跟踪精度；

S2.2，构建动作空间，动作空间的表达式为：

A_n(t)＝(a_n(t)，C_n(t)，I_n(t))；

式中，A_n(t)表示决策时隙槽t时终端设备n的动作空间，a_n(t)表示边缘服务器输出的终端设备n的本地队列的队首帧在决策时隙槽t时的视频帧卸载决策也即是继续在本地队列中等待、立即卸载到边缘服务器还是直接输出跟踪结果，C_n(t)表示边缘服务器输出的终端设备n在决策时隙槽t时的信道决策，I_n(t)表示边缘服务器输出的终端设备n在决策时隙槽t时下一决策时隙槽队首帧与当前决策时隙槽下队首帧之间间隔的帧数也即帧间隔决策；

S2.3，构建奖励函数，所述奖励函数的表达式为：

式中，R_n(t)表示终端设备n在决策时隙槽t时的奖励函数也即增益函数，Acc表示终端设备n在决策时隙槽t时队首帧的检测精度或是跟踪精度，β表示权重系数，且β＞0，

表示在决策时隙槽t时终端设备n中队首帧的处理时间，α为性能改善因子，且α＞0，T_max表示视频帧检测时延理想范围的最大值。

在步骤S2.1中，所述决策时隙槽t时终端设备n的本地队列的队首帧信息M_n(t)的表达式为：

式中，s_n(t)表示决策时隙槽t时终端设备n的本地队列的队首帧的帧大小，

表示终端设备n的本地队列的队首帧的到达时间，

表示决策时隙槽t时终端设备n的本地队列的队首帧在处理前已经等待的时间。

在步骤S2.1中，所述终端设备n和边缘服务器之间的信道收益h_n(t)的计算公式为：

式中，γ_n(t)表示符合瑞利分布的随机的信道衰落因子，

表示终端设备n的平均信道增益；

所述终端设备n的平均信道增益

的计算公式为：

式中，A_d表示终端设备的天线增益，δ表示路径损失系数，d_n表示终端设备n到边缘服务器的距离。

在步骤S2.1中，所述跟踪精度p_n(t)的计算公式：

式中，G表示目标真实的位置区域，Y_n(t)表示t决策时隙槽时终端设备n运行跟踪算法检测出的目标的位置区域。

在步骤S2.1中，所述时隙t时终端设备n的视频内容变化率v_n(t)的计算公式为：

式中，

表示决策时隙槽t时终端设备n的本地队列中第i帧的第k个特征的像素位置，

表示决策时隙槽t时终端设备n的本地队列中第j帧的第k个特征的像素位置，m表示决策时隙槽t时终端设备n的本地队列中视频帧的特征数，且j-i≥1。

在步骤S2.3中，如果队首帧直接输出跟踪结果，则队首帧的处理时间

的计算公式为：

式中，

表示决策时隙槽t时终端设备n中队首帧的跟踪时间，

表示决策时隙槽t时终端设备n的本地队列的队首帧在处理前已经等待的时间；

如果队首帧立即卸载，且信道可用，则队首帧的处理时间

的计算公式为：

式中，T_e表示边缘服务器进行目标检测的时间，

表示决策时隙槽t时终端设备n中队首帧通过信道传输的时间；

如果队首帧决定等待，或者是决定立即卸载但此时终端设备和边缘服务器之间的无线网络不可用，队首帧需继续在本地队列中等待，直到信道可用，再卸载到边缘服务器，则队首帧的处理时间

的计算公式为：

式中，

表示队首帧开始传输的决策时隙槽，

表示决策时隙槽

时终端设备n中队首帧通过信道传输的时间，

表示预估的从决策时隙槽t到决策时隙槽

的时间槽数。

所述步骤S3包括如下步骤：

S3.1，设置总训练轮次M，对经验回放内存D和评价网络的参数θ进行初始化，并将评价网络的参数θ赋值给目标网络的参数θ′；

S3.2，设定训练周期数episode＝1；

S3.3，对状态空间S_n(t)进行初始化，即S_n(t)＝S_n(0)，其中，S_n(t)表示终端设备n在决策时隙槽t时的状态空间；

S3.4，设定决策时隙槽数T；

S3.5，执行t＝t+1；

S3.6，根据概率ε选择动作A_n(t)，其表达式为：

式中，A表示使得Q(S_n(t)，A_n(t)；θ)取最大值时的动作，A_n(t)表示决策时隙槽t时终端设备n的动作空间；

S3.7，根据步骤S3.3选择的动作A_n(t)获取奖励R_n(t)和下一步的状态空间S_n(t+1)；

S3.8，将经验(S_n(t)，A_n(t)，R_n(t)，S_n(t+1))存储在经验回放内存D中；

S3.9，从经验回放内存D中随机取出G个经验(S_n(t′)，A_n(t′)，R_n(t′)，S_n(t′+1))；

S3.10，根据步骤S3.9取出的经验预测收益，其表达式为：

式中，R_n(t′)表示终端设备n在决策时隙槽t′时的奖励函数，γ表示折扣因子，A′表示使得

取得最大值的动作，

表示t′+1决策时隙槽时的最大收益，S_n(t′+1)表示终端设备n在决策时隙槽t′+1时的状态空间；

S3.11，基于梯度下降法更新评价网络的参数θ；

S3.12，每C步将评价网络的参数θ赋值给目标网络的参数θ′；

S3.13，判断t＜T，若是，返回步骤S3.5，否则执行步骤S3.14；

S3.14，执行episode＝episode+1，判断episode＜M，若是，返回步骤S3.3，否则输出包含目标网络的联合决策模型。

在步骤S4中，所述最大化收益函数的表达式为：

s.t.C₁(t)+C₂(t)+...+C_n(t)+...+C_N(t)≤1；

a_n(t)∈{0，1，2}；

I_n(t)∈{1，2，3}；

式中，a_n(t)表示边缘服务器输出的终端设备n的本地队列的队首帧在决策时隙槽t时的视频帧卸载决策也即是继续在本地队列中等待、立即卸载到边缘服务器还是直接输出跟踪结果，当a_n(t)＝0时，表示终端设备n的队首帧等待下一个决策时隙槽，当a_n(t)＝1时，表示将终端设备n的队首帧立即卸载到边缘服务器，当a_n(t)＝2时，表示终端设备n直接输出跟踪结果，C_n(t)表示边缘服务器输出的终端设备n在决策时隙槽t时的信道决策，当C_n(t)＝0时，表示终端设备n在决策时隙槽t没有分配到信道，当C_n(t)＝1时，表示终端设备n在决策时隙槽t分配到信道，I_n(t)表示边缘服务器输出的终端设备n在决策时隙槽t时下一决策时隙槽队首帧与当前时隙下队首帧之间间隔的帧数也即帧间隔决策，R_n(t)表示终端设备n在决策时隙槽t时的奖励函数也即增益函数，N表示终端设备的总数。

本发明的有益效果：

本发明基于DBT的实时目标检测框架，主要面向具有延迟约束的连续视频帧场景，建立了基于动态变化的网络条件和视频内容的终端设备和边缘服务器协同检测的目标检测***，通过该***，可以进一步分析基于DBT框架下多个终端设备场景下实时目标检测的特点；引入了视频内容变化率的影响，终端设备基于视频内容变化率选择不同的跟踪频率，而不是传统的跟踪每一帧，通过设计收益函数构成一个优化问题，实现了在延迟限制下最大化视频帧检测的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程示意图。

图2为不同帧间隔下跟踪精度的示意图。

图3为帧间隔变化时平均跟踪精度的变化示意图。

图4为本申请与其它算法的效果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种面向视频检测与追踪的动态任务调度方法，如图1所示，包括如下步骤：

S1，构建包括若干个终端设备和一个边缘服务器的实时目标检测***，终端设备中设有目标***，边缘服务器中设有目标检测器，且每个终端设备均通过无线网络和边缘服务器通信连接；

所有终端设备的集合采用N表示，N＝{1，...，n，...，N}，第n个终端设备所捕获的视频帧的集合采用F_n表示，所有终端设备所捕获的视频帧集采用F表示，F＝{F₁，...，F_n，...，F_N}。终端设备运行轻量级的目标***，边缘服务器运行大型的目标检测器，以实现对捕获的视频帧中目标的实时检测。然而，跟踪的性能会随着时间和视频内容的变化而下降，因此，在跟踪性能下降至过低也即跟踪阈值之前，应将新的视频帧发送给边缘服务器检测以获得新的检测结果，以提高终端设备目标跟踪的精度。

每个终端设备均维护一个本地队列用于缓存等待处理的视频帧，处于本地队列中的视频帧依据先来先服务的原则等待处理，将***时间划分为连续的时隙槽，假设时隙槽足够小，对于每个终端设备，在每个时隙槽最多只能有一帧到达本地队列。在每个决策时隙槽t，也即本地队列中有视频帧等待的时间槽，首先考虑每个终端设备处于队列首的视频帧也称为队首帧，由于目标***需要使用边缘服务器检测的包围框(bounding box)进行初始化。因此终端设备在开始跟踪前，需要先将第一帧发送给边缘服务器进行检测，获取到第一帧的检测结果即包围框，然后终端设备基于此在后续的队首帧上运行目标***进行跟踪，跟踪后终端设备将帧信息和跟踪精度发送到边缘服务器，边缘服务器基于全局做出信道分配、视频帧卸载及跟踪频率也即跟踪帧间隔的决策并将此决策发送给终端设备；终端设备最后根据边缘服务器的决策做出相应的动作。由于边缘服务器输出的结果相比于帧本身而言，数据量少很多，所以本申请忽略结果返回的时间，只考虑整个***的上行链路的帧传输过程。若是卸载决策为本地跟踪的话，则直接输出跟踪的结果。若卸载决策为立即卸载且信道可用的话，则可以卸载给边缘服务器进行检测，边缘服务器检测后再将检测结果返回给对应的终端设备。若是卸载决策为等待亦或是直接卸载但信道不可用的话，则需要在本地队列中等待下一个决策时隙槽。

由于无线网络资源的有限性，无线网络带宽可能成为终端设备卸载视频帧到边缘服务器的瓶颈。本申请采用两种方法来应对这一挑战：一方面，跟踪性能可靠的视频帧直接输出跟踪结果以节省带宽；另一方面，对于跟踪性能较低的视频帧，由于带宽资源的限制和终端设备的竞争，在决策时隙槽t可能出现没有可用的无线信道的情况，视频帧会在终端设备的本地队列中等待，直到信道可用。

S2，将实时目标检测***中的视频帧卸载决策、信道决策和帧间隔决策的联合优化问题，构建为MDP问题(Markov Decision Problem，马尔科夫决策问题)，包括如下步骤：

S2.1，构建状态空间，状态空间的表达式为：

S_n(t)＝(M_n(t)，h_n(t)，p_n(t)，v_n(t))；

式中，M_n(t)表示决策时隙槽t时终端设备n的本地队列的队首帧信息，h_n(t)表示终端设备n和边缘服务器之间的信道收益，v_n(t)表示决策时隙槽t时终端设备n的视频内容变化率，S_n(t)表示终端设备n在决策时隙槽t时的状态空间，p_n(t)表示t决策时隙槽时终端设备n的队首帧的跟踪精度。

所述决策时隙槽t时终端设备n的本地队列的队首帧信息M_n(t)的表达式为：

表示终端设备n的本地队列的队首帧的到达时间，

所述终端设备n和边缘服务器之间的信道收益h_n(t)符合瑞利衰落信道模型，其计算公式为：

式中，γ_n(t)表示符合瑞利分布的随机的信道衰落因子，

表示终端设备n的平均信道增益。

所述终端设备n的平均信道增益

符合自由空间路径损失模型，其计算公式为：

每个决策时隙槽结束前，终端设备的本地队列会进行更新，t决策时隙槽时终端设备n的本地队列中缓存的视频帧帧数采用X_n(t)表示，X_n(t+1)的演变依赖于新视频帧的到来和旧视频帧的离开，其更新的表达式为：

式中，

是一个随机的二进制变量，表示在决策时隙槽t是否会有一个新视频帧到达终端设备n，O_n(t)∈{0，-1}也是一个随机的二进制变量，表示在决策时隙槽t处于队列首的视频帧是否会离开终端设备n的本地队列，X_n(t+1)表示时隙t+1时终端设备n的本地队列缓存的视频帧帧数。O_n(t)＝0表示在决策时隙槽t终端设备n的本地队列的队首帧会继续等待直到下一决策时隙槽，O_n(t)＝-1表示决策时隙槽t终端设备n的本地队列的队首帧在下一个决策时隙槽将离开本地队列，比如直接输出视频帧的跟踪结果，或者是卸载到边缘服务器进行检测。

基于实验发现终端设备跟踪一帧中的单个目标耗时约10ms左右，跟踪整帧的时长会随着帧中的目标个数的增加而成比例增加。因此，为了提供实时的视频分析处理，必须在跟踪过程中跳过一些帧，以赶上终端设备如摄像机的帧捕获速度，因此，采用I_n(t)表示在决策时隙槽t时确定的帧间隔。因此，决策时隙槽t+1时终端设备n的本地队列缓存的视频帧帧数X_n(t+1)可以更新为：

式中，O_n(t)的取值变为{0，-I_n(t)}，0表示队首帧继续在本地队列中等待。

如图2所示，实验测量连续的50帧视频帧，I_n(t)取值最小为1，最大为10。从图中可以看出无论I_n(t)取何种值，跟踪的精度都会随着跟踪帧数的增加而降低，且I_n(t)取值越大，跟踪的精度下降的越快，所以不能为了提供实时处理，而无限增大I_n(t)的值。本实施例的I_n(t)∈{1，2，3}，如图3所示，连续跟踪50帧的情况下，平均跟踪精度保持在0.5以上的I_n(t)的取值为1，2，3。

在相同I_n(t)的情况下，若是视频内容变化的较快，那么跟踪的两视频帧之间的位移就比较大，跟踪精度就会更加不可靠。因此为了保证终端设备更加可靠的跟踪精度，I_n(t)的确定应该引入视频内容变化率的影响，评价视频内容变化率的度量必须是轻量级的，以保证其计算不影响实时目标检测***的跟踪操作。本申请利用跟踪的中间结果来衡量视频内容的变化率，这样几乎不会增加额外的计算，使用从相邻两帧中提取的所有特征的平均移动速度作为视频内容的变化率，所述时隙t时终端设备n的视频内容变化率v_n(t)的计算公式为：

式中，

表示决策时隙槽t时终端设备n的本地队列中第j帧的第k个特征的像素位置，m表示决策时隙槽t时终端设备n的本地队列中视频帧的特征数，且j-i≥1，这是由于在进行目标跟踪时跳过了一些视频帧。通过计算相邻两帧特征之间的移动速度可以得到视频内容变化率，一个高的移动速度意味着视频内容变化迅速，即现有对象快速移出，新对象可能频繁出现。

本申请基于Lucas-Kanade方法进行帧的目标跟踪，由于跟踪精度会随着时间和视频内容的变化而下降，同时终端设备跟踪性能可靠的队首帧更倾向直接输出跟踪结果，从而节省带宽。以下将计算跟踪的结果和真实结果的交并比来衡量跟踪的性能，对应的表达式为：

式中，Y_n(t)表示t决策时隙槽时终端设备n运行跟踪算法检测出的目标的位置区域，G表示目标真实的位置区域。

S2.2，构建动作空间，动作空间的表达式为：

A_n(t)＝(a_n(t)，C_n(t)，I_n(t))；

式中，A_n(t)表示决策时隙槽t时终端设备n的动作空间，a_n(t)表示边缘服务器输出的终端设备n的本地队列的队首帧在决策时隙槽t时的视频帧卸载决策也即是继续在本地队列中等待、立即卸载到边缘服务器还是直接输出跟踪结果，当a_n(t)＝0时，表示终端设备n的队首帧等待下一个决策时隙槽，当a_n(t)＝1时，表示将终端设备n的队首帧立即卸载到边缘服务器，当a_n(t)＝2时，表示终端设备n直接输出跟踪结果，C_n(t)表示边缘服务器输出的终端设备n在决策时隙槽t时的信道决策，当C_n(t)＝0时，表示终端设备n在决策时隙槽t没有分配到信道，当C_n(t)＝1时，表示终端设备n在决策时隙槽t分配到信道，I_n(t)表示边缘服务器输出的终端设备n在决策时隙槽t时下一决策时隙槽队首帧与当前决策时隙槽下队首帧之间间隔的帧数也即帧间隔决策。

S2.3，构建奖励函数，所述奖励函数的表达式为：

式中，R_n(t)表示终端设备n在决策时隙槽t时的奖励函数也即增益函数，Acc表示终端设备n在决策时隙槽t时队首帧的检测精度或是跟踪精度p_n(t)，检测精度设置为1.0，β表示权重系数，且β＞0，调整β可以平衡帧处理和帧传输之间的时间权重，α为性能改善因子，且α＞0，通过该因子可以体现奖励函数中调整推理性能的重要性，T_max表示视频帧检测时延理想范围的最大值，所述视频帧检测时延理想范围是指在满足要求的检测时延的条件下，所能忍受的检测一帧的最大时延，

表示在决策时隙槽t时终端设备n中队首帧的处理时间。

在决策时隙槽t时，如果队首帧直接输出跟踪结果，则队首帧的处理时间

包含跟踪时间和在队列中的等待时间，其计算公式为：

式中，

表示决策时隙槽t时终端设备n中队首帧的跟踪时间。

在决策时隙槽t时，如果队首帧立即卸载，且信道可用的话，则队首帧的处理时间

的计算公式为：

式中，T_e表示边缘服务器进行目标检测的时间，

表示决策时隙槽t时终端设备n中队首帧通过信道传输的时间。

决策时隙槽t时终端设备n中队首帧通过信道传输的时间

的计算公式为:

式中，s_n(t)表示决策时隙槽t时终端设备n中队首帧的帧大小即数据量，r_n(t)表示t决策时隙槽时边缘服务器分配终端设备n信道的情况下二者之间的传输速率。

考虑到信道的路径损失和瑞利衰落，基于香农定理，t决策时隙槽时边缘服务器分配终端设备n信道的情况下，二者之间的传输速率r_n(t)的计算公式为：

式中，w表示信道带宽，h_n(t)表示终端设备n随决策时隙槽t变化的信道增益，P_n表示终端设备n的传输功率，N₀表示背景噪音功率。

由于为了有效的利用带宽资源，如果无线网络不可用或无线网络恶化，队首帧在本地队列中等待下一决策时隙槽t，这些帧往往被传输到边缘服务器进行检测，而不是直接输出跟踪结果，否则，帧不应该被决策为等待。因此，在决策时隙槽t时，如果队首帧决定等待，或者是决定立即卸载但此时无线网络不可用，队首帧需要继续在本地队列中等待，直到信道可用，再卸载到边缘服务器，则队首帧的处理时间

的计算公式为：

式中，

表示队首帧开始传输的决策时隙槽，

表示决策时隙槽

时终端设备n中队首帧通过信道传输的时间，

表示预估的从决策时隙槽t到决策时隙槽

的时间槽数，且

为正整数。

S3，在每个决策时隙槽，各个终端设备将跟踪精度p_n(t)、队首帧信息M_n(t)、视频内容变化率v_n(t)发送到边缘服务器，边缘服务器利用DDQN(Double Deep Q Network)的深度强化学习(Deep Reinforcement Learning,DRL)的算法构建联合决策模型，包括如下步骤：

S3.2，设定训练周期数episode＝1；

S3.3，对状态空间S_n(t)进行初始化，即S_n(t)＝S_n(0)；

S3.4，设定决策时隙槽数T；

S3.5，执行t＝t+1；

S3.6，根据概率ε选择动作A_n(t)，其表达式为：

式中，θ表示评价网络的参数，A表示使得Q(S_n(t)，A_n(t)；θ)取最大值时的动作，该式中的随机是指从动作空间中随机选择动作。

S3.9，从经验回放内存D中随机取出G个经验(S_n(t′)，A_n(t′)，R_n(t′)，S_n(t′+1))，其中，S_n(t′)表示终端设备n在决策时隙槽t′时的状态空间，A_n(t′)表示决策时隙槽t′时终端设备n的动作空间；

S3.10，根据步骤S3.9取出的经验预测收益，其表达式为：

式中，R_n(t′)表示终端设备n在决策时隙槽t′时的奖励函数，γ表示折扣因子，用于平衡当前收益和长期奖励，A′表示使得

取得最大值的动作，

表示t′+1决策时隙槽时的最大收益，S_n(t′+1)表示终端设备n在决策时隙槽t′+1时的状态空间。

S3.11，基于梯度下降法更新评价网络的参数θ；

S3.12，每C步将评价网络的参数θ赋值给目标网络的参数θ′，且C为t的整数倍，C＜T；

S3.13，判断t＜T，若是，返回步骤S3.5，否则执行步骤S3.14；

DDQN算法中包括参数为θ的评价网络和参数为θ′的目标网络，评价网络用于通过降低损失函数更新参数，目标网络用于计算目标Q值，每隔一定的步数通过评价网络更新目标网络参数。同时DDQN会维护一段经验回放内存D，存放过去的一些经验，当经验回放内存D存满时对其中存放的经验进行更新。

S4，以最大化收益函数为目标，利用步骤S3所构建的联合决策模型对联合优化问题进行求解，终端设备根据边缘服务器输出的视频帧卸载决策、信道决策和帧间隔决策执行；

所述最大化收益函数的表达式为：

s.t.C₁(t)+C₂(t)+...+C_n(t)+...+C_N(t)≤1；

a_n(t)∈{0，1，2}；

I_n(t)∈{1，2，3}。

以下以Jetson Nano为终端设备，运行Lucas-Kanade目标***，并以Jetson AGXXavier为边缘服务器，运行YOLOX为目标检测器，真实测量终端设备跟踪一帧的时间和边缘服务器检测一帧的时间，然后基于此建立仿真环境。***被划分为一个个的时隙槽，假设时隙槽足够小，因此，每个时隙槽时终端设备最多只有一个新帧到达本地队列，帧的到达率符合参数为P的伯努利过程。网络的仿真采用无线信道瑞利衰落模型，其中每个终端设备天线本身的增益设置为4.11，终端设备和边缘服务器之间的距离符合U(2.5,5.2)的均匀分布，终端设备传输的功率为0.03，背景噪音为10e-10，路径损失系数为2.8，上行链路的带宽为2MHZ。使用python实现基于pytorch1.7的DDQN算法，并设置D的大小为1000，总训练轮次设置为400，批量大小为32，学习率为0.0001，γ设置为0.9，ε设置为0.9。

为了展示本申请在连续的视频帧场景中的优越性，将本申请和随机算法Random、贪婪算法Greedy进行比较，评价指标为***平均奖励。随机算法是在不考虑任何环境信息的情况下随机选择一种决策，它的性能总是最差的。贪婪算法是根据当前状态做出最优决策，但不考虑相邻任务之间的交互。如图4所示，P为每个时隙槽视频帧的到达率，P越大，说明视频帧率越大，任务越密集；p越小，说明视频帧率越小，任务越稀疏。可以发现无论P值如何波动，本申请的算法都优于随机算法和贪婪算法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。