CN115082845A

CN115082845A - 一种基于深度强化学习的监控视频目标检测任务调度方法

Info

Publication number: CN115082845A
Application number: CN202210450859.7A
Authority: CN
Inventors: 杨松; 侯彪; 李凡
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-09-20

Abstract

本发明涉及一种基于深度强化学习的监控视频目标检测任务调度方法，属于边缘计算技术领域。首先抽取监控视频关键帧压缩待处理视频规模，使用残差U‑Net神经网络对监控视频的关键帧进行显著性目标检测，识别有价值的目标信息。同时，采用云边协作架构，根据云服务器和边缘设备的可用资源，使用深度强化学习异步优势行动者评论家A3C算法优化调度残差U‑Net网络，将残差U‑Net网络目标检测任务根据当前***可用资源，自适应地卸载在云服务器或边缘设备执行，从而减小***时延，提高实时性能。

Description

一种基于深度强化学习的监控视频目标检测任务调度方法

技术领域

本发明涉及一种基于深度强化学习的监控视频目标检测任务调度方法，属于边缘计算技术领域。

背景技术

近年来，随着智慧城市建设的不断深入，人工智能等技术在监控视频***中不断集成，越来越多的监控设备被部署到城市中的各个角落。监控视频行业正以惊人的速度持续扩张，监控视频流量也随之不断增长。随着深度强化学习、边缘计算等技术在监控视频行业的深度融合，根据用户需求提出端到端的监控视频解决方案，将进一步促进未来监控视频行业的发展。

边缘计算技术，是指从数据产生源到云数据中心路径之间的任意计算资源和网络资源，提供了一种就近处理数据的新范式。传统监控视频***前端监控摄像机的内置计算能力较低，而现有的智能监控视频***的智能处理能力不足。基于传统云服务架构的网络监控视频技术降低了用户的成本，集中式的计算和存储模式也提高了监控视频数据的安全性与可靠性。针对日益增长的非结构化监控视频数据，将监控视频数据上传云中心服务器进行检测对网络性能要求较高，实时性能无法得到保证；视频数据处理分析任务集中在云服务器执行，增加了云计算中心的计算负载，同时存储和管理大量的监控视频数据，导致关键目标信息的漏检率较高且检测效率低，增加了存储设备能量消耗等问题。边缘计算技术在视频业务的应用和提升用户观看体验质量方面具有无可比拟的优势。因此，基于边缘计算的端到端监控视频目标检测技术有着广泛的应用前景。

监控视频图像目标检测方法，是将视频图像中关键目标信息与用户不感兴趣的部分进行辨别，判断目标是否存在、确定目标位置、识别目标种类的一种计算机视觉任务。目前，针对目标检测与识别的研究，主要分为基于传统机器学习算法与基于深度学习算法的视频图像处理方法。随着人工智能技术的迅猛发展，计算机视觉的主流研究与应用方向是基于深度学习方法的目标检测与识别算法，主要分为以下三类：

(1)基于目标区域的算法，如R-CNN、Fast R-CNN算法等；

(2)基于回归方法的算法，如YOLO、SSD算法等；

(3)基于搜索的算法，如AttentionNet等。

上述方法主要是从视频中里检测是否存在图像目标和识别目标位置与种类两个过程，该任务的挑战之处在于目标区域的检测与候选框的识别。在监控视频***中，应用目标检测与识别算法能够有效提升监控视频处理分析效率。

深度学习是以神经网络为基础发展的一种表示学习，是人工智能领域一个崭新的研究领域。强化学习主要针对序列决策问题，抽象建模为马尔科夫过程，即代理必须在环境中使用不同动作决策策略，以取得最大的累积奖励。不同于使用样本数据集训练机器学习模型的监督学习，强化学习通过一系列正确的决策逐渐强化模型，找到长期累积奖励最大化的动作策略。在每个时间片，代理通过深度学习观察与环境交互得到的状态动作，使用强化学习优化动作策略是累积奖励最大化，不断循环上述过程，最终得到优化目标的最优策略。作为一个端到端的感知与决策***，深度强化学习既具有深度学习的特征抽取能力，又兼有强化学习的决策能力，二者优势互补，为复杂***的优化提供了新的解决思路。

边缘计算技术赋能的新型监控视频***具有高度的复杂性。然而，现有的使用边缘计算架构的监控视频目标检测方法都存在某些方面的不足。例如，中国发明专利申请“CN111901573A”提出了一种基于边缘计算的细粒度实时监管***，包含智能视频监控装置、边缘计算模块、边缘计算节点和云计算中心。智能视频监控装置负责采集监控视频，边缘计算模块负责对监控视频数据流预处理，边缘节点负责将将边缘模块数据上传云计算中心，云计算中心对监控视频数据进行最终的分析。但是，大量的监控视频数据上传云计算中心对该***是一个巨大的挑战。此外，对监控视频进行实时目标检测分析，辅助用户快速找到关键目标，可以更有效地提升用户的检测效率。

目前，基于深度强化学习的监控视频目标检测任务调度方法，尚未见到有相关文献或专利公开。

发明内容

本发明的目的是针对当前复杂网络环境下进行监控视频实时目标检测任务调度的技术问题，创新性地提出一种云边协作架构下基于深度强化学习的实时监控视频目标检测任务调度方法，旨在提高监控视频目标检测的实时性、降低***时延。

本发明的创新点在于：首先抽取监控视频关键帧(I帧)压缩待处理视频规模，使用残差U-Net神经网络对监控视频的关键帧进行显著性目标检测，识别有价值的目标信息。同时，采用云边协作架构，根据云服务器和边缘设备的可用资源，使用深度强化学习异步优势行动者评论家A3C算法优化调度残差U-Net网络，将残差U-Net网络目标检测任务根据当前***可用资源，自适应地卸载在云服务器或边缘设备执行，从而减小***时延，提高实时性能。

本发明的目的是通过下述技术方案实现的。

一种基于深度强化学习的监控视频目标检测任务调度方法，包括以下步骤：

步骤1：分析识别出监控视频中的关键目标信息。

首先，根据监控视频的时空特征，分析并提取出监控视频中的关键帧。

然后，使用残差U-Net网络对监控视频的关键帧进行显著性目标检测，识别出关键目标信息。

步骤2：采用基于边缘计算的云边协作架构，根据云服务器和边缘设备的可用资源，使用深度强化学习异步优势行动者评论家A3C算法来优化调度残差U-Net网络目标检测任务。

步骤3：根据步骤2学习到的异步优势行动者评论家A3C模型，确定下一个目标检测残差U-Net任务的执行位置，即，是将目标检测任务卸载在云服务器或还是在边缘设备。

然后，继续利用深度强化学习执行调度策略，决策下一个残差U-Net目标检测任务的卸载执行位置。

有益效果

本发明，对比现有技术，具有以下优点：

1.本发明提出的基于深度强化学习算法是一种离线训练在线验证方法。通过分析监控视频抽取关键帧，压缩了监控视频数据传输规模；使用残差U-Net网络对抽取的监控视频关键帧进行显著性目标检测，提高了视频处理分析效率；使用深度强化学习异步优势行动者评论家A3C算法优化残差U-Net任务调度决策模型，根据当前可用资源，基于云边协作架构，能够自适应地卸载在云服务器或边缘设备执行，降低了***延迟，提高了实时性能。

2.本发明既考虑了监控视频目标检测的精确度，也考虑了端到端的监控视频***时延。在云边协作机制下监控视频***牺牲一定的***时延，可以保证实时目标检测任务较好的精确率，证明了在监控视频***采用基于边缘计算技术的云边协作机制的可行性与优越性。

附图说明

图1为本发明的监控视频***的云边协作架构；

图2为本发明的监控视频***视频任务调度工作示意图；

图3为本发明的监控视频***视频抽取关键帧示意图；

图4为本发明的执行目标检测任务的残差U-Net网络结构；

图5为本发明的执行任务调度的异步优势行动者评论家A3C算法网络结构；

图6为本发明的监控视频不同任务卸载模式的时延；

图7为本发明的监控视频不同任务卸载模式的平均时延和平均精确度；

图8为本发明的监控视频抽取视频关键帧阈值对目标检测准确率的影响。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式做进一步详细说明。

实施例

本实施例中，监控视频***采用了边缘计算技术的云边协作架构，分为云服务器-边缘设备-监控摄像机三层架构，如图1所示。其中，监控摄像机负责录制监控视频，然后回传到边缘设备。边缘设备对监控视频进行预处理，决定目标检测任务是在边缘设备或者在云服务器执行。如图2所示，为监控视频***视频目标检测任务调度工作示意图。

监控视频经过抽取关键帧I帧的处理之后，任务调度器根据深度强化学习异步优势行动者评论家A3C算法生成不同的任务调度策略，根据当前***可用资源，将任务卸载在边缘设备或者云服务器，执行监控视频目标检测任务。

步骤1：分析识别出监控视频中的关键目标信息。

首先，分析监控视频的时空特征，提取出监控视频中的关键帧。

在一段监控视频中，拥有完整视频图像帧的编码是I帧，也称为关键帧，它保留了视频图像内容的完整信息，不需要参考其他信息，一般所占数据的信息量较大。B帧是双向差别帧，记录了本帧与前后视频帧的区别，是根据前后的视频帧信息来预测的。P帧是前向预测帧编码，记录的是这一帧与前一帧的差别，P帧的内容是以I帧为基础预测。

在H.264编码标准中，会将几帧图像分为一个画面组，画面组中的基础视频帧是I帧，P帧的内容是以I帧的信息预测的，B帧的信息则是由I帧和P帧的数据信息来预测。在视频传输时，将I帧与其他预测信息整合之后传输，极大地减少了待传输视频数据量。因此，可以使用H.264标准编码监控视频，抽取监控视频的关键帧，如图3所示，使用FFmpeg工具抽取监控视频关键帧，用作监控视频目标检测任务的输入，可以有效地降低待处理的视频规模，提升监控视频数据处理效率。

具体地，本发明使用的残差U-Net模型为卷积网络结构，通过对输入图片的每个像素进行分类，能够快速定位与区分边界。该网络结构是对称的，包括两个部分：左侧部分称为收缩路径，该路径由卷积层构成；右侧部分是扩展路径，该路径由转置的卷积层构成，也可以将其视为上采样技术。残差U-Net模型的主体采用全卷积神经网络。鉴于全连接层必须使用固定大小的输入图像而卷积层则不用，因此，使用卷积层代替全连接层。这种网络策略的优点是用户可以输入任意尺寸大小的图像。

针对监控视频显著性目标检测任务，本发明提出的残差U-Net网络结构是对称的，形似英文字母“U”。如图4所示，在残差U-Net网络结构图中，由不同面积的矩形与不同类型的箭头组成，不同面积大小的矩形代表了监控视频图像特征图，不同箭头分别表示特征提取的卷积操作、降低维度的池化操作，恢复图片维度的上采样操作，以及特征融合的残差操作，从而得到最终的目标检测的结果。

与原始的U-Net模型相似，残差U-Net模型也是由局部特征提取的输入卷积层、对称编码器和解码器结构，以及通过求和融合局部和不同尺度特征的残差连接组成。本发明对原始的U-Net网络进行了改进，通过在U-Net网络中添加残差连接，在目标检测过程中融合特征，改善了反向传播过程中的梯度消散问题，从而提升监控视频图像显著性目标检测算法的鲁棒性。

步骤2：采用基于边缘计算的云边协作架构，根据云服务器与边缘设备的可用资源，使用深度强化学习异步优势行动者评论家A3C算法来优化调度残差U-Net网络任务，将其自适应地卸载在云服务器或边缘设备执行。

如图5所示，为本发明设计的执行目标检测任务调度决策的异步优势行动者评论家A3C算法的网络结构。

在基于云边协作架构的监控视频***中，包括N种不同类型的资源(如存储资源，网络带宽等)。监控视频的残差U-Net网络目标检测任务以离散时间的方式到达监控视频***中。在每个时间片内，任务调度程序选择若干个等待任务调度到云服务器或者边缘设备卸载执行。

设每个任务的资源需求在到达时是已知的。更具体地说，每个残差U-Net任务α的资源需求由向量R_α＝(r_α,1,r_α,2,…,r_α,n)给出，r_α,n表示第n个到达的残差U-Net目标检测任务的资源需求。

为了简便，假设采用云边协作的监控视频***不具备抢占式调度功能，这意味着任务从开始执行到完成时，***必须连续分配向量R_α中所需的所有资源，否则该目标检测任务不能执行。上述假设对于任务调度程序来说非常重要，可以通过深度强化学习模型捕捉多资源情况下的任务卸载的基本信息。

本发明使用任务周转时间作为A3C算法优化的主要目标。具体地，对于每个残差U-Net任务α，计算时延比例S_a由

计算得出，

表示任务的计算时间，即分配目标检测任务所需的全部资源后，从任务开始计算到执行完成的时间。T_α是任务的持续时间，即从任务到达***，到任务执行完成的持续时间。通过目标检测任务的计算时间来规范任务的持续时间，可以防止任务等待时间太长，从而更及时地在云服务器或者边缘设备卸载目标检测任务，降低***时延。

A3C算法包括状态空间、动作空间、奖励函数，如图5所示。

状态空间：根据基于云边协作机制的监控视频***的状态，当前云服务器与边缘设备之间的可用资源(如GPU，带宽、存储等)，以及等待调度执行的残差U-Net任务所需求的资源。在每一轮的任务决策之后，代理能够观察到当前状态S_t，S_t＝(B_t,C_c,t,C_e,t,O_e,t,O_c,t,L_t),B_t表示边缘节点与云服务器之间的链路带宽，C_c,t和C_e,t分别表示云服务器与边缘节点的计算能力，O_c,t和O_e,t分别代表云服务器与边缘节点的存储资源，L_t是边缘节点与云服务器之间的网络延迟。

动作空间：在每一个时间片，调度程序会根据当前的可用资源选择若干个等待执行的任务将其卸载在云服务器或者边缘节点执行。为减小***的动作空间a_t，使用x_fα来表示选择的结果，当x_fα＝0时，表示将视频处理任务卸载到云服务器执行，当x_fα＝1时，表示将视频处理任务调度卸载到边缘设备执行。

奖励函数：通过奖励函数r_t的反馈，使代理加速优化目标函数的过程。具体地，将每一个训练轮次的奖励函数设置为

T_α表示任务的持续时间，T表示总训练轮次。在每一轮的决策后，代理都会收到奖励函数的反馈信号，通过奖励函数的累积和，最终可以实现时延最小的目标。

首先，生成一个将样本批量转换为(S(t),a(t),R(t),S(t+1))的格式形成回放缓冲经验池，其中S(t)代表t时刻的状态，a(t)代表t时刻采取的动作，R(t)表示S(t)下采取a(t)获得的奖励，S(t+1)代表下一个状态。

然后，从历史缓冲池中小批量地取出部分样本，异步训练actor网络和critic网络，更新全局网络参数。

本实施例给出了异步优势行动者评论家A3C算法一种具体的处理流程，包括如下：

S1：随机初始化actor网络与critic网络；

S2：初始化参数值，包括奖励Reward、时间片t，并初始化State：S₀；

其中，State表示监控视频***的云和边缘设备可用资源的状态，S₀表示初始时的***可用资源状态；

reward值是通过agent在环境中执行行动得到的反馈，通过这种方式对奖励进行积累。任务调度器的目标是尽可能获取最大化奖励以及满足监控视频目标检测实时处理任务请求。因此，将动作能否带来奖励和是否满足***时延要求，作为影响reward值的标准；

S3：接收State:S₀；

S4：根据环境为每个节点选择动作：

S41：for t∈[1:T*episode]

S42：for t∈[1:T]

其中，T表示时间周期，episode是运行周期数；

S5：通过actor网络生成Action:a(t)；其中，Action表示调度器将目标检测任务卸载执行位置的决策；

S6：执行Action:a(t)，更新环境和历史经验回放池；

S7：判断时间片是否结束，如果为否，执行S8；

S8：更新Reward的值；

S9：判断动作选择是否正确，以及是否有请求被完成；

如果动作选择正确，并且有请求被完成，则将Reward值增大；

如果动作选择不正确，则将Reward值减小；

S10：判断时间片是否结束；

如果未结束，则返回S4；如果结束，则重置时间片t，并输出一个时间周期内的Reward，然后返回S4；

为训练任务调度决策算法，过去的状态集合传递给一个具有128个滤波器的卷积层，每个滤波器的大小为4，步长为1，然后将这些层的结果与其他输入汇总到一个隐藏层中。评论家网络使用相同神经网络结构，其最终输出是一个线性神经元。在训练过程中，可设置折扣因子γ＝0.99，演员和评论家的学习率分别是是0.0001和0.001，熵因子σ设置在100次迭代中从1衰减到0.1，在整个训练过程中保持所有的超参数固定。

步骤3：根据步骤2学习到的A3C模型，确定下一个目标检测残差U-Net任务的执行位置。

根据步骤2的学习结果，确定云服务器和边缘设备网络整体奖励，决定是在云服务器或者在边缘设备执行监控视频目标检测任务放置。

当有新的监控视频目标检测任务到达时，利用A3C模型决策目标检测任务执行位置。具体地，在调度程序中，目标检测任务卸载执行位置用二值变量x_fα来表示，若此时x_fα＝0，表示目标检测任务被成功卸载在云服务器上执行；若x_fα＝1，表示目标检测任务被成功卸载在边缘节点上执行。

利用A3C模型的Reward反馈，选择最优的监控视频目标检测任务执行位置。

实例验证

为进一步验证本发明的有益效果，本发明构建了基于云边协作的监控视频原型***，对实施例进行了评估验证。本发明分别使用了服务器、英伟达Jeston Nano B01和树莓派Raspberry Pi 4B设备作为边缘设备，树莓派摄像头Raspberry Pi Camera v2作为监控摄像机，从YouTube Live收集了大量真实的监控视频数据以便进行监控视频***的性能评估与结果分析。具体地，收集了14个不同监控摄像机监测生成的1080p分辨率和30fps帧速率的170多条监控视频数据，涵盖了多种不同的日常生活场景，例如十字路口，学校和街道等。然后将这些监控视频数据集进行混合，随机选取1个小时的监控视频数据抽取关键帧，标注关键目标信息数据，以便用于后续显著性目标检测算法的性能评估。通过对基于深度强化学习的监控视频目标检测任务调度方法的进行实验验证，得到了图6、图7与图8的验证结果。

针对监控视频***采用云边协作机制的任务调度决策，根据云服务器和边缘设备的***可用资源调度视频目标检测任务，卸载在云服务器或者边缘节点执行。本专利设计了三种不同的实验环境运行监控视频目标检测任务调度决策算法，分别是：

(1)云边协作模式：在监控视频***中，使用深度强化学习A3C算法优化任务调度算法，根据当前***的可用资源，将目标检测残差U-Net任务智能地卸载到云服务器或边缘设备执行。

(2)边缘节点模式；对于边缘节点模式，除不需要任务调度程序之外，其他的均与云边协作模式的配置一样。在此情况下，监控视频的显著性目标检测残差U-Net任务仅能在边缘设备执行。

(3)云计算模式：对于云计算模式，所有的配置与云边协作模式一样，只不过在此情况下，需要将所有的视频数据上传云服务器，监控视频的显著性目标检测残差U-Net任务仅能在云服务器中执行。

为了展示监控视频***采用云边协作机制的优越性，随机选取了一段66帧的监控视频片段，使用上述三种方式进行视频目标检测任务调度，结果如图6所示，基于云计算模式的平均时延最大，采用仅边缘节点模式的平均时延最低，采用云边协作模式介于两者之间，与仅在云端执行相比平均时延减少61.06％。在云边协作架构下，使用基于深度强化学习A3C算法的优化监控视频目标检测任务调度方法，可以极大地提升监控视频目标检测效率。

图7表明，基于云计算模式的处理方式目标检测任务平均准确率最高、但同时也消耗大量的网络带宽资源，受网络带宽限制，平均时延也比较大。采用仅边缘节点模式执行的残差U-Net目标检测任务，本地化的处理虽然不需要消耗带宽资源、平均时延也比较小，但受限于边缘设备计算能力，检测任务的平均精确率较低。采用云边协作机制则对二者做了很好的折中，通过使用A3C算法智能调度决策目标检测任务的执行位置，这样在既保证检测任务平均准确率良好的情况下，又降低了平均时延与带宽需求。

监控视频数据通过抽取关键帧能够有效地减少待处理视频数据量。使用公开的道路监控视频数据集，通过对每个场景下产生的不同时间段的监控视频数据进行抽取关键帧操作，比较抽取关键帧前后的视频数据量。如图8所示，左侧为未抽取关键帧的原始监控视频数据，右侧为抽取关键帧的数据量，发现抽取视频关键帧之后，待传输的监控数据量平均减少82.35％至93.34％之间。随着帧抽取阈值的增加，不可避免地会丢弃一些视频帧，从而导致监控视频中目标数量减少，因此权衡目标检测准确率与数据量规模进而选择合适的阈值。

通过使用真实的监控视频和公开监控视频数据集对监控视频***进行了多维度的评估验证，表明了监控视频在云边协作机制下牺牲一定的***时延，通过使用深度强化学习A3C算法优化目标检测任务调度，能够使目标检测任务结果可以保持较高的精确率，也证明了在监控视频***采用基于边缘计算技术的云边协作机制的可行性与优越性。

综上所述，本发明方法，适应于边缘计算下动态复杂的监控视频目标检测场景，可以满足随时间变化的任务处理需求。此外，本发明基本满足了对于端到端延迟要求较高的监控视频目标检测任务的调度。

以上所述的具体实例是对本发明的进一步解释说明，并不用于限定本发明的保护范围，凡在本发明原则和精神之内，所做的更改和等同替换都应是本发明的保护范围之内。

Claims

1.一种基于深度强化学习的监控视频目标检测任务调度方法，其特征在于，包括以下步骤：

步骤1：分析识别出监控视频中的关键目标信息；

首先，根据监控视频的时空特征，分析并提取出监控视频中的关键帧；

然后，使用残差U-Net网络对监控视频的关键帧进行显著性目标检测，识别出关键目标信息；

步骤2：采用基于边缘计算的云边协作架构，根据云服务器和边缘设备的可用资源，使用深度强化学习异步优势行动者评论家A3C算法来优化调度残差U-Net网络目标检测任务；

步骤3：根据步骤2学习到的异步优势行动者评论家A3C模型，确定下一个目标检测残差U-Net任务的执行位置，即，是将目标检测任务卸载在云服务器还是在边缘设备；

2.如权利要求1所述的一种基于深度强化学习的监控视频目标检测任务调度方法，其特征在于，步骤1中，使用H.264标准编码监控视频，抽取监控视频的关键帧；使用FFmpeg工具抽取监控视频关键帧，用作监控视频目标检测任务的输入。

3.如权利要求1所述的一种基于深度强化学习的监控视频目标检测任务调度方法，其特征在于，步骤1中，使用的残差U-Net模型为卷积网络结构，通过对输入图片的每个像素进行分类，能够快速定位与区分边界；

该网络结构是对称的，包括两个部分：左侧部分称为收缩路径，该路径由卷积层构成；右侧部分是扩展路径，该路径由转置的卷积层构成；

残差U-Net模型主体采用全卷积神经网络，使用卷积层代替全连接层，由局部特征提取的输入卷积层、对称编码器和解码器结构，以及通过求和融合局部和不同尺度特征的残差连接组成。

4.如权利要求1所述的一种基于深度强化学习的监控视频目标检测任务调度方法，其特征在于，步骤2中，监控视频的残差U-Net网络目标检测任务以离散时间的方式到达监控视频***中；在每个时间片内，任务调度程序选择若干个等待任务调度到云服务器或者边缘设备卸载执行；

设每个任务的资源需求在到达时是已知的，每个残差U-Net任务α的资源需求由向量R_α＝(r_α,1,r_α,2,…,r_α,n)给出，r_α,n表示第n个到达的残差U-Net目标检测任务的资源需求；

设采用云边协作的监控视频***不具备抢占式调度功能；任务从开始执行到完成时，***必须连续分配向量R_α中所需的所有资源，否则该目标检测任务不能执行；

对于每个残差U-Net任务α，计算时延比例S_a由

计算得出，

表示任务的计算时间，即分配目标检测任务所需的全部资源后，从任务开始计算到执行完成的时间；T_α是任务的持续时间，即从任务到达***，到任务执行完成的持续时间；

A3C算法包括状态空间、动作空间、奖励函数，其中：

状态空间：根据基于云边协作机制的监控视频***的状态，当前云服务器与边缘设备之间的可用资源，以及等待调度执行的残差U-Net任务所需求的资源；在每一轮的任务决策之后，代理能够观察到当前状态S_t，S_t＝(B_t,C_c,t,C_e,t,O_e,t,O_c,t,L_t),B_t表示边缘节点与云服务器之间的链路带宽，C_c,t和C_e,t分别表示云服务器与边缘节点的计算能力，O_c,t和O_e,t分别代表云服务器与边缘节点的存储资源，L_t是边缘节点与云服务器之间的网络延迟；

动作空间：在每一个时间片，调度程序会根据当前的可用资源选择若干个等待执行的任务将其卸载在云服务器或者边缘节点执行；为减小***的动作空间a_t，使用x_fα来表示选择的结果，当x_fα＝0时，表示将视频处理任务卸载到云服务器执行，当x_fα＝1时，表示将视频处理任务调度卸载到边缘设备执行；

奖励函数：通过奖励函数r_t的反馈，使代理加速优化目标函数的过程；具体地，将每一个训练轮次的奖励函数设置为

T_α表示任务的持续时间，T表示总训练轮次；在每一轮的决策后，代理都会收到奖励函数的反馈信号，通过奖励函数的累积和，最终可以实现时延最小的目标；

首先，生成一个将样本批量转换为(S(t),a(t),R(t),S(t+1))的格式形成回放缓冲经验池，其中S(t)代表t时刻的状态，a(t)代表t时刻采取的动作，R(t)表示S(t)下采取a(t)获得的奖励，S(t+1)代表下一个状态；

5.如权利要求4所述的一种基于深度强化学习的监控视频目标检测任务调度方法，其特征在于，异步优势行动者评论家A3C算法的处理流程，包括如下：

S1：随机初始化actor网络与critic网络；

reward值是通过agent在环境中执行行动得到的反馈，通过这种方式对奖励进行积累；

将动作能否带来奖励和是否满足***时延要求，作为影响reward值的标准；

S3：接收State:S₀；

S4：根据环境为每个节点选择动作：

S41：for t∈[1:T*episode]

S42：for t∈[1:T]

其中，T表示时间周期，episode是运行周期数；

S6：执行Action:a(t)，更新环境和历史经验回放池；

S7：判断时间片是否结束，如果为否，执行S8；

S8：更新Reward的值；

S9：判断动作选择是否正确，以及是否有请求被完成；

如果动作选择正确，并且有请求被完成，则将Reward值增大；

如果动作选择不正确，则将Reward值减小；

S10：判断时间片是否结束；

如果未结束，则返回S4；如果结束，则重置时间片t，并输出一个时间周期内的Reward，然后返回S4。

6.如权利要求4所述的一种基于深度强化学习的监控视频目标检测任务调度方法，其特征在于，为训练任务调度决策算法，过去的状态集合传递给一个具有128个滤波器的卷积层，每个滤波器的大小为4，步长为1，然后将这些层的结果与其他输入汇总到一个隐藏层中。

7.如权利要求4所述的一种基于深度强化学习的监控视频目标检测任务调度方法，其特征在于，在训练过程中，设置折扣因子γ＝0.99，演员和评论家的学习率分别为0.0001和0.001，熵因子σ设置在100次迭代中从1衰减到0.1，在整个训练过程中保持所有的超参数固定；

评论家网络使用相同神经网络结构，其最终输出是一个线性神经元。

8.如权利要求1所述的一种基于深度强化学习的监控视频目标检测任务调度方法，其特征在于，步骤3中，根据步骤2的学习结果，确定云服务器和边缘设备网络整体奖励，决定是在云服务器上还是在边缘设备上执行监控视频目标检测任务放置；

当有新的监控视频目标检测任务到达时，利用A3C模型确定执行位置；在调度程序中，目标检测任务卸载执行位置用二值变量x_fα来表示，若此时x_fα＝0表示目标检测任务被成功卸载在云服务器上执行，若x_fα＝1表示目标检测任务被成功卸载在边缘节点上执行；

利用A3C模型的Reward反馈选择最优的监控视频目标检测任务执行位置。