WO2021022643A1

WO2021022643A1 - 一种视频目标检测与跟踪方法及装置

Info

Publication number: WO2021022643A1
Application number: PCT/CN2019/108080
Authority: WO
Inventors: 江浩; 李亚; 费晓天; 任少卿; 朱望江; 董维山
Original assignee: 初速度（苏州）科技有限公司
Priority date: 2019-08-08
Filing date: 2019-09-26
Publication date: 2021-02-11
Also published as: CN112347817B; CN112347817A

Abstract

本发明实施例公开一种视频目标检测与跟踪方法及装置。该方法包括：在当前视频帧图像进行全图目标检测的情况下，将上一视频帧图像的检测结果与当前视频帧图像的检测结果进行合并，并通过全图-局部交替检测的方式，在进行全图目标检测后继续进行局部目标检测，由此考虑到了前后视频帧图像之间的关系，提高了目标检测的检测准确率，又由于是基于全图目标检测模型和局部目标检测模型对各个视频帧图像进行目标检测，可以检测出视频帧中新出现的目标，同时，可以得到上一视频帧图像与当前视频帧图像之间的同一目标的对应关系，以及上一视频帧图像与当前视频帧图像之间匹配成功的目标，由此，可以实现对新出现的目标进行跟踪。

Description

一种视频目标检测与跟踪方法及装置

技术领域

本发明涉及计算机视觉技术领域，具体而言，涉及一种视频目标检测与跟踪方法及装置。

背景技术

目前，对采集设备采集的视频中的目标进行跟踪和检测是计算机视觉的主要内容，例如：在自动驾驶场景中，自车为了进行自动驾驶，需要获知自车周围的行驶环境，因此，需要通过自车的采集设备对自车周围环境进行目标检测与跟踪。

目前的目标检测方法仅对视频中的单帧图像中的目标进行目标检测，未考虑前后帧之间的关系，使得目标检测的检测准确率较低。目前的目标跟踪方法，仅针对视频中的第一帧图像中出现的各个目标进行跟踪，当在视频中出现新的目标时，无法对新的目标进行跟踪。因此，目前亟需一种检测准确率较高且可以对新出现的目标进行跟踪的视频目标检测与跟踪方法。

发明内容

本发明提供了一种视频目标检测与跟踪方法及装置，以提高目标检测的检测准确率以及对新出现的目标进行跟踪。具体的技术方案如下。

第一方面，本发明实施例提供了一种视频目标检测与跟踪方法，该方法包括：

检测是否接收到采集设备实时采集的周围环境的当前视频帧图像；

如果接收到当前视频帧图像，判断所述当前视频帧图像与上一次进行全图目标检测的视频帧图像之间的帧数间隔是否为预设间隔；

如果是预设间隔，根据预先建立的全图目标检测模型对所述当前视频帧图像进行全图目标检测；

当检测得到检出目标的位置和类别且当前视频帧图像的上一视频帧图像不存在检出目标时，将当前视频帧图像的检出目标作为第一检出目标，对于每个第一检出目标，基于该第一检出目标的位置确定该第一检出目标在当前视频帧图像中对应的矩形图像区域，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入所述局部目标检测模型中得到第二检出目标的位置和类别，返回执行所述检测是否接收到采集设备实时采集的周围环境的当前视频帧图像的步骤；

当未检测出检出目标且当前视频帧图像的上一视频帧图像存在检出目标时，将所述上一视频帧图像存在的检出目标作为第三检出目标，对于每个第三检出目标，确定该第三检出目标在当前视频帧图像中对应的矩形图像区域，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入所述局部目标检测模型中得到第四检出目标的位置和类别，建立所述第四检出目标与该第三检出目标的对应关系，返回执行所述检测是否接收到采集设备实时采集的周围环境的当前视频帧图像的步骤；

当检测得到检出目标的位置和类别且当前视频帧图像的上一视频帧图像存在检出目标时，将当前视频帧图像的检出目标和上一视频帧图像存在的检出目标作为第五检出目标，对于每个第五检出目标，确定该第五检出目标在该第五检出目标所在视频帧图像中对应的矩形图像区域，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入所述局部目标检测模型中得到第六检出目标的位置和类别，对多个第六检出目标进行目标匹配，得到当前视频帧图像与上一视频帧图像之间匹配成功的目标和匹配不成功的目标，返回执行所述检测是否接收到采集设备实时采集的周围环境的当前视频帧图像的步骤。

第二方面，本发明实施例提供了一种视频目标检测与跟踪装置，该装置包括：

检测模块，用于检测是否接收到采集设备实时采集的周围环境的当前视频帧图像；

判断模块，用于如果接收到当前视频帧图像，判断所述当前视频帧图像与上一次进行全图目标检测的视频帧图像之间的帧数间隔是否为预设间隔，如果是，触发全图目标检测模块；

所述全图目标检测模块，用于根据预先建立的全图目标检测模型对所述当前视频帧图像进行全图目标检测；

第一检测结果模块，用于当检测得到检出目标的位置和类别且当前视频帧图像的上一视频帧图像不存在检出目标时，将当前视频帧图像的检出目标作为第一检出目标，对于每个第一检出目标，基于该第一检出目标的位置确定该第一检出目标在当前视频帧图像中对应的矩形图像区域，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入所述局部目标检测模型中得到第二检出目标的位置和类别，触发所述检测模块；

第二检测结果模块，用于当未检测出检出目标且当前视频帧图像的上一视频帧图像存在检出目标时，将所述上一视频帧图像存在的检出目标作为第三检出目标，对于每个第三检出目标，确定该第三检出目标在当前视频帧图像中对应的矩形图像区域，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入所述局部目标检测模型中得到第四检出目标的位置和类别，建立所述第四检出目标与该第三检出目标的对应关系，触发所述检测模块；

第三检测结果模块，用于当检测得到检出目标的位置和类别且当前视频帧图像的上一视频帧图像存在检出目标时，将当前视频帧图像的检出目标和上一视频帧图像存在的检出目标作为第五检出目标，对于每个第五检出目标，确定该第五检出目标在该第五检出目标所在视频帧图像中对应的矩形图像区域，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入所述局部目标检测模型中得到第六检出目标的位置和类别，对多个第六检出目标进行目标匹配，得到当前视频帧图像与上一视频帧图像之间匹配成功的目标和匹配不成功的目标，触发所述检测模块。

由上述内容可知，本实施例可以在当前视频帧图像进行全图目标检测的情况下，将上一视频帧图像的检测结果与当前视频帧图像的检测结果进行合并，并通过全图-局部交替检测的方式，在进行全图目标检测后继续进行局部目标检测，由此考虑到了前后视频帧图像之间的关系，提高了目标检测的检测准确率，又由于本发明实施例中是基于全图目标检测模型和局部目标检测模型对各个视频帧图像进行目标检测，使得存在于每个视频帧图像中的目标均可以被检测出，因此，可以检测出视频帧中新出现的目标，同时，在局部检测后可以得到上一视频帧图像与当前视频帧图像之间的同一目标的对应关系，以及上一视频帧图像与当前视频帧图像之间匹配成功的目标，由此，可以实现对新出现的目标进行跟踪，而不是仅针对视频中的第一视频帧图像中出现的各个目标进行跟踪。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

本发明实施例的创新点包括：

1、在当前视频帧图像进行全图目标检测的情况下，将上一视频帧图像的检测结果与当前视频帧图像的检测结果进行合并，并通过全图-局部交替检测的方式，在进行全图目标检测后继续进行局部目标检测，由此考虑到了前后视频帧图像之间的关系，提高了目标检测的检测准确率，又由于本发明实施例中是基于全图目标检测模型和局部目标检测模型对各个视频帧图像进行目标检测，使得存在于每个视频帧图像中的目标均可以被检测出，因此，可以检测出视频帧中新出现的目标，同时，在局部检测后可以得到上一视频帧图像与当前视频帧图像之间的同一目标的对应关系，以及上一视频帧图像与当前视频帧图像之间匹配成功的目标，由此，可以实现对新出现的目标进行跟踪，而不是仅针对视频中的第一视频帧图像中出现的各个目标进行跟踪。

2、本发明实施例中并不是针对每一视频帧都进行全图目标检测，而是采用间隔预设帧数间隔进行一次全图目标检测，其他视频帧进行局部目标检测的方式，由于局部目标检测的计算量远远小于全图目标检测，因此，采用本发明实施例间隔预设帧数间隔进行一次全图目标检测的方式，计算量可以显著的下降。

3、过对第一初始网络模型进行训练，可以得到使得第一样本图像和检测框内的目标的位置和类别相关联的全图目标检测模型，通过该全图目标检测模型可以对视频帧图像进行全图目标检测以便得到视频帧图像中的目标的位置和类别。

4、通过第一检出目标在当前视频帧图像中的左上角点的坐标、右下角点的坐标、预设坐标变换系数以及预先建立的局部目标检测模型输入图像的宽度和高度，将第一检出目标在当前视频帧图像中对应的矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，为后续进行局部目标检测做了准备。

5、通过对第二初始网络模型进行训练，可以得到使得第二样本图像和检测框内的目标的位置和类别相关联的局部目标检测模型，通过该局部目标检测模型可以对进行全图目标检测得到的检出目标再进行局部目标检测以便修正检出目标的位置和类别，得到视频帧图像中的目标的精准的位置和类别。

6、通过计算IoU的方式，考虑到了前后视频帧之间的关系，得到当前视频帧图像与上一视频帧图像之间匹配成功的目标和匹配不成功的目标，得到的匹配成功的目标就是将上一视频帧图像与当前视频帧图像中的同一目标一一对应起来，可以获知同一目标在上一视频帧图像的位置，以及在当前视频帧中的位置，起到了对同一目标进行跟踪的目的也起到了对同一目标进行目标检测的目的，得到的匹配不成功的目标，起到了对不同目标进行目标检测的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视频目标检测与跟踪方法的一种流程示意图；

图2为本发明实施例提供的视频目标检测与跟踪装置的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例及附图中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含的一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本发明实施例公开了一种视频目标检测与跟踪方法，能够考虑前后视频帧之间的关系，提高目标检测的检测准确率，同时，能够对新出现的目标进行跟踪。下面对本发明实施例进行详细说明。

图1为本发明实施例提供的视频目标检测与跟踪方法的一种流程示意图。该方法应用于电子设备。该方法具体包括以下步骤S110～S160：

S110：检测是否接收到采集设备实时采集的周围环境的当前视频帧图像，如果是，执行步骤S120。

在计算视觉计算领域中，为了实现相应的功能，电子设备需要对采集设备实时采集的周围环境的视频进行目标跟踪与检测，例如：在自动驾驶场景中，自车为了进行自动驾驶，需要获知自车周围的行驶环境，例如：道路上的其他车辆的运行情况以及行人的行走路线等，因此，需要通过自车的采集设备对自车周围环境进行视频采集。

集设备实时采集视频后，将采集得到的视频发送至电子设备，例如：在自动驾驶场景中，自车的采集设备实时采集视频后，将采集得到的视频发送至自车的电子设备，该电子设备可以为车辆的处理器。电子设备检测是否接收到采集设备实时采集的周围环境的当前视频帧图像，并根据检测结果执行后续步骤。

S120：判断当前视频帧图像与上一次进行全图目标检测的视频帧图像之间的帧数间隔是否为预设间隔，如果是，执行步骤S130。

由于如果针对每一视频帧图像都进行全图目标检测，将使得计算量巨大，因此，为了减少计算量，本发明实施例中不再针对每一视频帧图像都进行全图目标检测，而是采用每隔预设帧数间隔进行全图目标检测的方式，因此，当电子设备检测接收到自车采集设备实时采集的车辆周围环境的当前视频帧图像时，需要判断当前视频帧图像与上一次进行全图目标检测的视频帧图像之间的帧数间隔是否为预设间隔，并根据检测结果执行后续步骤。

S130：根据预先建立的全图目标检测模型对当前视频帧图像进行全图目标检测。

当前视频帧图像与上一次进行全图目标检测的视频帧图像之间的帧数间隔为预设间隔时，说明当前视频帧图像为需要进行全图目标检测的视频帧图像，此时，根据预先建立的全图目标检测模型对当前视频帧图像进行全图目标检测。

其中，全图目标检测模型的训练过程可以为：

获取训练集中的第一样本图像以及第一样本图像包含的检测框内的目标对应的第一位置和第一类别；

将第一样本图像以及第一样本图像包含的检测框内的目标对应的第一位置和第一类别输入到第一初始网络模型中，其中，第一初始网络模型包括第一特征提取层、区域生成网络层和第一回归层；

通过第一特征提取层的第一模型参数，确定第一样本图像中的全图特征向量；

通过区域生成网络层的第二模型参数对全图特征向量进行特征计算，得到包含第一参考目标的候选区域的特征信息；

通过第一回归层的第三模型参数，对特征信息进行回归，得到第一参考目标所属的第一参考类别和第一参考目标在第一样本图像中的第一参考位置；

计算第一参考类别与第一类别之间的第一差异值，计算第一参考位置与第一位置之间的第二差异值；

基于第一差异值和第二差异值调整第一模型参数、第二模型参数和第三模型参数，返回执行获取训练集中的第一样本图像以及第一样本图像包含的检测框内的目标对应的第一位置和第一类别的步骤；

当迭代次数达到第一预设次数时，完成训练，得到使得第一样本图像与检测框内的目标的位置和类别相关联的全图目标检测模型。

在建立全图目标检测模型时，需要获取训练集中的第一样本图像以及第一样本图像包含的检测框内的目标对应的第一位置和第一类别。

可以理解的是，电子设备首先需要构建一个第一初始网络模型，然后对其进行训练，进而得到全图目标检测模型。在一种实现方式中，可以利用caffe工具构建一个包括第一特征提取层、区域生成网络层和第一回归层的第一初始网络模型。示例性的，第一初始网络模型可以为Faster R-CNN(Faster RegionConvolutional Neural Networks，快速区域卷积神经网络)，R-FCN(Region-based Fully Convolutional Networks，基于区域的全卷积网络)、YOLO算法或SSD算法。

在获取了训练集中的第一样本图像以及第一样本图像包含的检测框内的目标对应的第一位置和第一类别后，将第一样本图像以及第一样本图像包含的检测框内的目标对应的第一位置和第一类别输入到第一初始网络模型中进行训练。

具体来说，将第一样本图像输入到第一特征提取层，通过第一特征提取层的第一模型参数，确定第一样本图像中的全图特征向量。然后将所确定的全图特征向量输入到区域生成网络层，通过区域生成网络层的第二模型参数对全图特征向量进行特征计算，得到包含第一参考目标的候选区域的特征信息。然后将特征信息输入到第一回归层，通过第一回归层的第三模型参数，对特征信息进行回归，得到第一参考目标所属的第一参考类别和第一参考目标在第一样本图像中的第一参考位置。

在得到第一参考类别和第一参考位置后，分别与第一类别和第一位置进行对比，可以分别通过预先定义的目标函数计算第一参考类别与第一类别之间的第一差异值，计算第一参考位置与第一位置之间的第二差异值。当迭代次数未达到第一预设次数时，说明此时的第一初始网络模型还未能适应大部分的第一样本图像，此时，需要基于第一差异值和第二差异值通过反向传播法调整第一模型参数、第二模型参数和第三模型参数，返回执行获取训练集中的第一样本图像以及第一样本图像包含的检测框内的目标对应的第一位置和第一类别的步骤。

在训练过程中，可以循环遍历所有的第一样本图像，并不断调整第一初始网络模型的第一模型参数、第二模型参数和第三模型参数。当迭代次数达到第一预设次数时，说明此时的第一初始网络模型能适应大部分的第一样本图像，获得准确的结果，此时，确定第一初始网络模型训练完成，得到全图目标检测模型。可以理解的是，训练得到的全图目标检测模型使得第一样本图像与检测框内的目标的位置和类别相关联，且，全图目标检测模型是将全图作为输入，获得检出目标的位置和类别的模型。

可见，通过上述训练方式对第一初始网络模型进行训练，可以得到使得第一样本图像和检测框内的目标的位置和类别相关联的全图目标检测模型，通过该全图目标检测模型可以对视频帧图像进行全图目标检测以便得到视频帧图像中的目标的位置和类别。

S140：当检测得到检出目标的位置和类别且当前视频帧图像的上一视频帧图像不存在检出目标时，将当前视频帧图像的检出目标作为第一检出目标，对于每个第一检出目标，基于该第一检出目标的位置确定该第一检出目标在当前视频帧图像中对应的矩形图像区域，将矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入局部目标检测模型中得到第二检出目标的位置和类别，返回执行步骤S110。

本发明实施例为了考虑前后视频帧之间的关系，需要将当前视频帧的检测结果与上一视频帧的检测结果合并，当通过全图目标检测模型检测得到检出目标的位置和类别且当前视频帧图像的上一视频帧图像不存在检出目标时，将当前视频帧图像的检出目标作为第一检出目标。

由于在利用预先建立的全图目标检测模型对当前视频帧图像进行全图目标检测并得到检出目标的位置和类别的同时，还会得到检出目标的得分，得分大于预设阈值说明检出目标的准确率较高，因此，还可以在得到检出目标的位置和类别且当前视频帧图像的上一视频帧图像不存在检出目标时，将当前视频帧图像的检出目标中得分大于预设阈值的检出目标作为第一检出目标。

由于全图目标检测的结果可能出现误差，为了更精准的进行目标检测，本发明实施例中提出了通过全图-局部交替检测的方法，也就是在进行全图目标检测后，对第一检出目标继续进行局部目标检测。其中，进行局部目标检测的方式为通过预先建立的局部目标检测模型进行局部目标检测。

由于预先建立的局部目标检测模型的输入图像一般为整张图像的局部，因此，输入图像的尺寸是预设尺寸，且预设尺寸通常较小，因此，在进行局部目标检测前，需要将进行局部目标检测的图像的尺寸缩放至预设尺寸。即对于每个第一检出目标，基于该第一检出目标的位置确定该第一检出目标在当前视频帧图像中对应的矩形图像区域，将矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入局部目标检测模型中得到第二检出目标的位置和类别。然后，返回执行步骤S110。由于在进行局部目标检测时，每一次仅输入一个缩放后的矩形图像区域，使得计算量较小，进一步使得误检的发生概率减小，

提高了目标检测的准确率。

由于在利用预先建立的局部目标检测模型对缩放后得到的矩形图像区域进行局部目标检测得到检出目标的位置和类别的同时，还会得到检出目标的得分，得分大于预设阈值说明检出目标的准确率较高，因此，将缩放后得到的矩形图像区域输入局部目标检测模型中得到第二检出目标的位置和类别，可以包括：将缩放后得到的矩形图像区域输入局部目标检测模型中得到候选检出目标的位置和类别以及候选检出目标的得分，将候选检出目标中得分大于预设阈值的候选检出目标作为第二检出目标。

其中，对于每个第一检出目标，基于该第一检出目标的位置确定该第一检出目标在当前视频帧图像中对应的矩形图像区域，将矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度的步骤，可以包括：

对于每个第一检出目标，基于该第一检出目标的位置确定该第一检出目标在当前视频帧图像中的左上角点的坐标和右下角点的坐标，在当前视频帧图像中得到以左上角点和右下角点为对角线的矩形图像区域；

根据左上角点的坐标、右下角点的坐标、预设坐标变换系数以及预先建立的局部目标检测模型输入图像的宽度和高度计算得到左上交点缩放后的坐标和右下角点缩放后的坐标；

基于左上角点的坐标、右下角点的坐标、左上交点缩放后的坐标和右下角点缩放后的坐标，将矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度。

对于每个第一检出目标，得到了该第一检出目标的位置，那么该第一检出目标在当前视频帧图像中的左上角点的坐标和右下角点的坐标就是已知的，为了可以进行局部目标检测，在当前视频帧图像中得到以左上角点和右下角点为对角线的矩形图像区域。

然后根据左上角点的坐标、右下角点的坐标、预设坐标变换系数以及预先建立的局部目标检测模型输入图像的宽度和高度计算得到左上角点缩放后的坐标和右下角点缩放后的坐标。其中，左上角点的坐标包括左上角点的横坐标和左上角点的纵坐标，右下角点的坐标包括右下角点的横坐标和右下角点的纵坐标，预设坐标变换系数包括第一预设横坐标变换系数、第一预设纵坐标变换系数、第二预设横坐标变换系数、第二预设纵坐标变换系数。

其中，左上角点缩放后的坐标和右下角点缩放后的坐标可以通过以下公式计算：

其中，a _x为第一预设横坐标变换系数，a _y为第一预设纵坐标变换系数，d _x为第二预设横坐标变换系数，d _y为第二预设纵坐标变换系数，x _lt为左上角点的横坐标，y _lt为左上角点的纵坐标，x _rb为右下角点的横坐标，y _rb为右下角点的纵坐标，F _w为左上角点缩放后的横坐标，F _h为左上角点缩放后的纵坐标，H为局部目标检测模型输入图像的高度，W为局部目标检测模型输入图像的宽度。

在得到左上角点缩放后的坐标和右下角点缩放后的坐标后，通过分别与左上角点的坐标和右下角点的坐标进行对比，就可以获知需要对矩形图像区域的宽度和高度分别缩放多少缩放量才能达到预先建立的局部目标检测模型输入图像的宽度和高度，然后按照缩放量分别对宽度和高度进行缩放即可，即基于左上角点的坐标、右下角点的坐标、左上交点缩放后的坐标和右下角点缩放后的坐标，将矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度。

由此，通过第一检出目标在当前视频帧图像中的左上角点的坐标、右下角点的坐标、预设坐标变换系数以及预先建立的局部目标检测模型输入图像的宽度和高度，将第一检出目标在当前视频帧图像中对应的矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，为后续进行局部目标检测做了准备。

其中，局部目标检测模型的训练过程可以为：

获取训练集中的第二样本图像以及第二样本图像包含的检测框内的目标对应的第二位置和第二类别；

将第二样本图像以及第二样本图像包含的检测框内的目标对应的第二位置和第二类别输入到第二初始网络模型中，其中，第二初始网络模型包括第二特征提取层和第二回归层；

通过第二特征提取层的第四模型参数，确定第二样本图像中的特征向量；

通过第二回归层的第五模型参数，对特征向量进行回归，得到第二参考目标所属的第二参考类别和第二参考目标在第二样本图像中的第二参考位置；

计算第二参考类别与第二类别之间的第三差异值，计算第二参考位置与第二位置之间的第四差异值；

基于第三差异值和第四差异值调整第四模型参数和第五模型参数，返回执行获取训练集中的第二样本图像以及第二样本图像包含的检测框内的目标对应的第二位置和第二类别的步骤；

当迭代次数达到第二预设次数时，完成训练，得到使得第二样本图像与检测框内的目标的位置和类别相关联的局部目标检测模型。

在建立局部目标检测模型时，需要获取训练集中的第二样本图像以及第二样本图像包含的检测框内的目标对应的第二位置和第二类别。

可以理解的是，电子设备首先需要构建一个第二初始网络模型，然后对其进行训练，进而得到局部目标检测模型。在一种实现方式中，可以利用caffe工具构建一个包括第二特征提取层和第二回归层的第二初始网络模型。示例性的，第二初始网络模型可以为Faster R-CNN(Faster RegionConvolutional Neural Networks，快速区域卷积神经网络)，R-FCN(Region-based Fully Convolutional Networks，基于区域的全卷积网络)、YOLO算法或SSD算法。

在获取了训练集中的第二样本图像以及第二样本图像包含的检测框内的目标对应的第二位置和第二类别后，将第二样本图像以及第二样本图像包含的检测框内的目标对应的第二位置和第二类别输入到第二初始网络模型中进行训练。

具体来说，将第二样本图像输入到第二特征提取层，通过第二特征提取层的第四模型参数，确定第二样本图像中的特征向量。然后将所确定的特征向量输入到第二回归层，通过第二回归层的第五模型参数，对特征向量进行回归，得到第二参考目标所属的第二参考类别和第二参考目标在第二样本图像中的第二参考位置。

在得到第二参考类别和第二参考位置后，分别与第二类别和第二位置进行对比，可以分别通过预先定义的目标函数计算第二参考类别与第二类别之间的第三差异值，计算第二参考位置与第二位置之间的第四差异值。当迭代次数未达到第二预设次数时，说明此时的第二初始网络模型还未能适应大部分的第二样本图像，此时，需要基于第三差异值和第四差异值通过反向传播法调整第四模型参数和第五模型参数，返回执行获取训练集中的第二样本图像以及第二样本图像包含的检测框内的目标对应的第二位置和第二类别的步骤。

在训练过程中，可以循环遍历所有的第二样本图像，并不断调整第二初始网络模型的第四模型参数和第五模型参数。当迭代次数达到第二预设次数时，说明此时的第二初始网络模型能适应大部分的第二样本图像，获得准确的结果，此时，确定第二初始网络模型训练完成，得到局部目标检测模型。可以理解的是，训练得到的局部目标检测模型使得第二样本图像与检测框内的目标的位置和类别相关联，且，局部目标检测模型是将局部图像作为输入，获得检出目标的位置和类别的模型。

可见，通过上述训练方式对第二初始网络模型进行训练，可以得到使得第二样本图像和检测框内的目标的位置和类别相关联的局部目标检测模型，通过该局部目标检测模型可以对进行全图目标检测得到的检出目标再进行局部目标检测以便修正检出目标的位置和类别，得到视频帧图像中的目标的精准的位置和类别。

S150：当未检测出检出目标且当前视频帧图像的上一视频帧图像存在检出目标时，将上一视频帧图像存在的检出目标作为第三检出目标，对于每个第三检出目标，确定该第三检出目标在当前视频帧图像中对应的矩形图像区域，将矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入局部目标检测模型中得到第四检出目标的位置和类别，建立第四检出目标与该第三检出目标的对应关系，返回执行步骤S110。

当通过全图目标检测模型未检测出检出目标且当前视频帧图像的上一视频帧图像存在检出目标时，将上一视频帧图像存在的检出目标作为第三检出目标。

其中，通过全图目标检测模型未检测出检出目标的情况有多种，包括但不限于当前视频帧图像确实不存在目标，例如：在自动驾驶领域，自车停放在停车场，自车的采集设备对准墙壁的情景，以及，当前视频帧图像存在目标，但全图目标检测模型未能检测出。

由于全图目标检测的结果可能出现误差，为了更精准的进行目标检测，本发明实施例中提出了通过全图-局部交替检测的方法，也就是在进行全图目标检测后，对第三检出目标继续进行局部目标检测。其中，进行局部目标检测的方式为通过预先建立的局部目标检测模型进行局部目标检测。其中，局部目标检测模型的训练过程可以参见步骤S140中的描述，在此不再赘述。

由于预先建立的局部目标检测模型的输入图像一般为整张图像的局部，因此，输入图像的尺寸是预设尺寸，且预设尺寸通常较小，因此，在进行局部目标检测前，需要将进行局部目标检测的图像的尺寸缩放至预设尺寸。即对于每个第三检出目标，确定该第三检出目标在当前视频帧图像中对应的矩形图像区域，将矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入局部目标检测模型中得到第四检出目标的位置和类别，建立第四检出目标与该第三检出目标的对应关系，返回执行步骤S110。

其中，确定该第三检出目标在当前视频帧图像中对应的矩形图像区域，可以包括：确定该第三检出目标在上一视频帧图像中的第一目标位置，在当前视频帧中确定与该第一目标位置相同的第一参考位置，基于该第一参考位置确定该第三检出目标在当前视频帧图像中对应的矩形图像区域。

由于该第三检出目标在前后两个视频帧图像中的位置不会发生太大的变化，因此，可以假设在当前视频帧图像中，该第三检出目标仍然在上一视频帧图像的第一目标位置，然后将当前视频帧图像中与该第一目标位置相同的第一参考位置对应的矩形图像区域作为该第三检出目标在当前视频帧图像中对应的矩形图像区域。然后将该第三检出目标在当前视频帧图像中对应的矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入局部目标检测模型中得到第四检出目标的位置和类别，由此，即可获得该第三检出目标在当前视频帧图像中的位置即第四检出目标的位置。

在得到第四检出目标的位置和类别后，建立第四检出目标与该第三检出目标的对应关系，并返回执行步骤S110。建立第四检出目标与该第三检出目标的对应关系，也就是将上一视频帧图像与当前视频帧图像中的同一目标对应起来，可以获知同一目标在上一视频帧图像的位置，以及在当前视频帧中的位置，起到了对同一目标进行跟踪的目的。

S160：当检测得到检出目标的位置和类别且当前视频帧图像的上一视频帧图像存在检出目标时，将当前视频帧图像的检出目标和上一视频帧图像存在的检出目标作为第五检出目标，对于每个第五检出目标，确定该第五检出目标在该第五检出目标所在视频帧图像中对应的矩形图像区域，将矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入局部目标检测模型中得到第六检出目标的位置和类别，对多个第六检出目标进行目标匹配，得到当前视频帧图像与上一视频帧图像之间匹配成功的目标和匹配不成功的目标，返回执行步骤S110。

当检测得到检出目标的位置和类别且当前视频帧图像的上一视频帧图像存在检出目标时，将当前视频帧图像的检出目标和上一视频帧图像存在的检出目标作为第五检出目标。

由于全图目标检测的结果可能出现误差，为了更精准的进行目标检测，本发明实施例中提出了通过全图-局部交替检测的方法，也就是在进行全图目标检测后，对第五检出目标继续进行局部目标检测。其中，进行局部目标检测的方式为通过预先建立的局部目标检测模型进行局部目标检测。其中，局部目标检测模型的训练过程可以参见步骤S140中的描述，在此不再赘述。

由于预先建立的局部目标检测模型的输入图像一般为整张图像的局部，因此，输入图像的尺寸是预设尺寸，且预设尺寸通常较小，因此，在进行局部目标检测前，需要将进行局部目标检测的图像的尺寸缩放至预设尺寸。即对于每个第五检出目标，确定该第五检出目标在该第五检出目标所在视频帧图像中对应的矩形图像区域，将矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入局部目标检测模型中得到第六检出目标的位置和类别，

其中，确定该第五检出目标在该第五检出目标所在视频帧图像中对应的矩形图像区域，将矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度的方式可以参考步骤S140中确定第一检出目标在当前视频帧图像中对应的矩形图像区域，将矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度的方式，在此不再赘述。

由于第六检出目标中既包括上一视频帧图像的检出目标又包括当前视频帧图像的检出目标，为了对目标进行检测和跟踪，在得到第六检出目标的位置和类别后，对多个第六检出目标进行目标匹配，得到当前视频帧图像与上一视频帧图像之间匹配成功的目标和匹配不成功的目标，返回执行步骤S110。

其中，对多个第六检出目标进行目标匹配，得到当前视频帧图像与上一视频帧图像之间匹配成功的目标和匹配不成功的目标的步骤，可以包括：

对于当前视频帧图像的每个第六检出目标，确定该第六检出目标与上一视频帧图像的每个第六检出目标之间的重叠区域以及相交区域，并计算重叠区域的面积与相交区域的面积的商；

将商中不小于预设阈值的商对应的当前视频帧图像的第六检出目标以及上一视频帧图像的第六检出目标作为匹配成功的目标，将商中小于预设阈值的商对应的当前视频帧图像的第六检出目标以及上一视频帧图像的第六检出目标作为匹配不成功的目标。

本发明实施例中通过计算IoU的方式来对多个第六检出目标进行目标匹配，其中，IoU(Intersection over Union，交并比)指两个几何图形相交部分的面积除以二者相并的面积的商。IoU越高，说明重叠的部分越多，说明两个目标越相似。因此，在得到第六检出目标的位置和类别后，对于当前视频帧图像的每个第六检出目标，确定该第六检出目标与上一视频帧图像的每个第六检出目标之间的重叠区域以及相交区域，并计算重叠区域的面积与相交区域的面积的商。

在得到商后，将商与预设阈值进行对比，如果大于等于预设阈值，说明两个第六检出目标较为相似，如果小于预设阈值，说明两个第六检出目标不相似，因此，将商中不小于预设阈值的商对应的当前视频帧图像的第六检出目标以及上一视频帧图像的第六检出目标作为匹配成功的目标，将商中小于预设阈值的商对应的当前视频帧图像的第六检出目标以及上一视频帧图像的第六检出目标作为匹配不成功的目标。

存在匹配不成功的目标的原因可能是全图目标检测模型未能检测到当前视频帧图像新出现的目标，也可能是上一视频帧图像和当前视频帧图像中均存在的目标，在上一视频帧图像中检测到了该目标，但通过全图目标检测模型未能在当前视频帧图像中检测到该目标，当然原因并不只限于此。

由此，通过计算IoU的方式，考虑到了前后视频帧之间的关系，得到当前视频帧图像与上一视频帧图像之间匹配成功的目标和匹配不成功的目标，得到的匹配成功的目标就是将上一视频帧图像与当前视频帧图像中的同一目标一一对应起来，可以获知同一目标在上一视频帧图像的位置，以及在当前视频帧中的位置，起到了对同一目标进行跟踪的目的也起到了对同一目标进行目标检测的目的，得到的匹配不成功的目标，起到了对不同目标进行目标检测的目的。

由上述内容可知，本实施例可以在当前视频帧图像进行全图目标检测的情况下，将上一视频帧图像的检测结果与当前视频帧图像的检测结果进行合并，并通过全图-局部交替检测的方式，在进行全图目标检测后继续进行局部目标检测，由此考虑到了前后视频帧图像之间的关系，提高了目标检测的检测准确率，又由于本发明实施例中是基于全图目标检测模型和局部目标检测模型对各个视频帧图像进行目标检测，使得存在于每个视频帧图像中的目标均可以被检测出，因此，可以检测出视频帧中新出现的目标，同时，在局部检测后可以得到上一视频帧图像与当前视频帧图像之间的同一目标的对应关系，以及上一视频帧图像与当前视频帧图像之间匹配成功的目标，由此，可以实现对新出现的目标进行跟踪，而不是仅针对视频中的第一视频帧图像中出现的各个目标进行跟踪。

本发明实施例可以应用于自动驾驶中，自车的电子设备通过对自车的采集设备实时采集的自车周围环境中的目标进行检测和跟踪，以便于实现自动驾驶。

在图1所示方法的基础上，在步骤S110之后，检测未接收到自车采集设备实时采集的车辆周围环境的当前视频帧图像时，本发明实施例提供的一种用于自动驾驶的视频目标检测与跟踪方法还可以包括：

输出当前视频帧图像的上一视频帧图像存在的检出目标的位置和类别以及各检出目标的对应关系。

当检测未接收到自车采集设备实时采集的车辆周围环境的当前视频帧图像时，说明自车采集设备不再采集图像，此时，算法结束，需要将之前检测到的目标以及跟踪结果输出，即需要将当前视频帧图像的上一视频帧图像存在的检出目标的位置和类别以及各检出目标的对应关系输出。

由此，在检测未接收到自车采集设备实时采集的车辆周围环境的当前视频帧图像时，通过输出当前视频帧图像的上一视频帧图像存在的检出目标的位置和类别以及各检出目标的对应关系的方式实现目标检测与跟踪。

在图1所示方法的基础上，在步骤S120之后，判断当前视频帧图像与上一次进行全图目标检测的视频帧图像之间的帧数间隔不为预设间隔时，本发明实施例提供的一种用于自动驾驶的视频目标检测与跟踪方法还可以包括：

在当前视频帧图像的上一视频帧图像存在检出目标时，将上一视频帧图像存在的检出目标作为第七检出目标，对于每个第七检出目标，确定该第七检出目标在当前视频帧图像中对应的矩形图像区域，将矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入局部目标检测模型中得到第八检出目标的位置和类别，建立第八检出目标与该第七检出目标的对应关系，返回执行步骤S110。

在当前视频帧图像与上一次进行全图目标检测的视频帧图像之间的帧数间隔不为预设间隔时，说明当前视频帧图像不需要进行全图目标检测，此时，如果当前视频帧图像的上一视频帧图像不存在检出目标，则不做任何处理，如果当前视频帧图像的上一视频帧图像存在检出目标，将上一视频帧图像存在的检出目标作为第七检出目标。

为了更精准的进行目标检测，在得到第七检出目标后，对第七检出目标进行局部目标检测。其中，进行局部目标检测的方式为通过预先建立的局部目标检测模型进行局部目标检测。其中，局部目标检测模型的训练过程可以参见步骤S140中的描述，在此不再赘述。

由于预先建立的局部目标检测模型的输入图像一般为整张图像的局部，因此，输入图像的尺寸是预设尺寸，且预设尺寸通常较小，因此，在进行局部目标检测前，需要将进行局部目标检测的图像的尺寸缩放至预设尺寸。即对于每个第七检出目标，确定该第七检出目标在当前视频帧图像中对应的矩形图像区域，将矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入局部目标检测模型中得到第八检出目标的位置和类别，建立第八检出目标与该第七检出目标的对应关系，返回执行步骤S110。

其中，确定该第七检出目标在当前视频帧图像中对应的矩形图像区域，可以包括：确定该第七检出目标在上一视频帧图像中的第二目标位置，在当前视频帧中确定与该第二目标位置相同的第二参考位置，基于该第二参考位置确定该第七检出目标在当前视频帧图像中对应的矩形图像区域。

由于该第七检出目标在前后两个视频帧图像中的位置不会发生太大的变化，因此，可以假设在当前视频帧图像中，该第七检出目标仍然在上一视频帧图像的第二目标位置，然后将当前视频帧图像中与该第二目标位置相同的第二参考位置对应的矩形图像区域作为该第七检出目标在当前视频帧图像中对应的矩形图像区域。然后将该第七检出目标在当前视频帧图像中对应的矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入局部目标检测模型中得到第八检出目标的位置和类别，由此，即可获得该第七检出目标在当前视频帧图像中的位置即第八检出目标的位置。

在得到第八检出目标的位置和类别后，建立第八检出目标与该第七检出目标的对应关系，并返回执行步骤S110。建立第八检出目标与该第七检出目标的对应关系，也就是将上一视频帧图像与当前视频帧图像中的同一目标对应起来，可以获知同一目标在上一视频帧图像的位置，以及在当前视频帧中的位置，起到了对同一目标进行跟踪的目的。

本发明实施例中并不是针对每一视频帧都进行全图目标检测，而是采用间隔预设帧数间隔进行一次全图目标检测，其他视频帧进行局部目标检测的方式，由于局部目标检测的计算量远远小于全图目标检测，因此，采用本发明实施例间隔预设帧数间隔进行一次全图目标检测的方式，计算量可以显著的下降。

图2为本发明实施例提供的视频目标检测与跟踪装置的一种结构示意图。该装置可以包括：

检测模块210，用于检测是否接收到采集设备实时采集的周围环境的当前视频帧图像；

判断模块220，用于如果接收到当前视频帧图像，判断所述当前视频帧图像与上一次进行全图目标检测的视频帧图像之间的帧数间隔是否为预设间隔，如果是，触发全图目标检测模块230；

所述全图目标检测模块230，用于根据预先建立的全图目标检测模型对所述当前视频帧图像进行全图目标检测；

第一检测结果模块240，用于当检测得到检出目标的位置和类别且当前视频帧图像的上一视频帧图像不存在检出目标时，将当前视频帧图像的检出目标作为第一检出目标，对于每个第一检出目标，基于该第一检出目标的位置确定该第一检出目标在当前视频帧图像中对应的矩形图像区域，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入所述局部目标检测模型中得到第二检出目标的位置和类别，触发所述检测模块210；

第二检测结果模块250，用于当未检测出检出目标且当前视频帧图像的上一视频帧图像存在检出目标时，将所述上一视频帧图像存在的检出目标作为第三检出目标，对于每个第三检出目标，确定该第三检出目标在当前视频帧图像中对应的矩形图像区域，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入所述局部目标检测模型中得到第四检出目标的位置和类别，建立所述第四检出目标与该第三检出目标的对应关系，触发所述检测模块210；

第三检测结果模块260，用于当检测得到检出目标的位置和类别且当前视频帧图像的上一视频帧图像存在检出目标时，将当前视频帧图像的检出目标和上一视频帧图像存在的检出目标作为第五检出目标，对于每个第五检出目标，确定该第五检出目标在该第五检出目标所在视频帧图像中对应的矩形图像区域，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入所述局部目标检测模型中得到第六检出目标的位置和类别，对多个第六检出目标进行目标匹配，得到当前视频帧图像与上一视频帧图像之间匹配成功的目标和匹配不成功的目标，触发所述检测模块210。

在本发明的另一实施例中，上述装置还可以包括：

输出模块，用于在所述检测是否接收到采集设备实时采集的周围环境的当前视频帧图像之后，如果未接收到当前视频帧图像，输出所述当前视频帧图像的上一视频帧图像存在的检出目标的位置和类别以及各检出目标的对应关系。

在本发明的另一实施例中，上述装置还可以包括：

第四检测结果模块，用于在所述判断所述当前视频帧图像与上一次进行全图目标检测的视频帧图像之间的帧数间隔是否为预设间隔之后，如果不是预设间隔，在当前视频帧图像的上一视频帧图像存在检出目标时，将所述上一视频帧图像存在的检出目标作为第七检出目标，对于每个第七检出目标，确定该第七检出目标在当前视频帧图像中对应的矩形图像区域，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入所述局部目标检测模型中得到第八检出目标的位置和类别，建立所述第八检出目标与该第七检出目标的对应关系，触发所述检测模块。

在本发明的另一实施例中，上述装置还可以包括第一训练模块，所述第一训练模块用于训练得到所述全图目标检测模型，所述第一训练模块可以包括：

第一获取子模块，用于获取训练集中的第一样本图像以及所述第一样本图像包含的检测框内的目标对应的第一位置和第一类别；

第一输入子模块，用于将所述第一样本图像以及所述第一样本图像包含的检测框内的目标对应的第一位置和第一类别输入到第一初始网络模型中，其中，所述第一初始网络模型包括第一特征提取层、区域生成网络层和第一回归层；

全图特征向量确定子模块，用于通过所述第一特征提取层的第一模型参数，确定所述第一样本图像中的全图特征向量；

特征信息确定子模块，用于通过所述区域生成网络层的第二模型参数对所述全图特征向量进行特征计算，得到包含第一参考目标的候选区域的特征信息；

第一生成子模块，用于通过所述第一回归层的第三模型参数，对所述特征信息进行回归，得到所述第一参考目标所属的第一参考类别和所述第一参考目标在所述第一样本图像中的第一参考位置；

第一差异计算子模块，用于计算所述第一参考类别与所述第一类别之间的第一差异值，计算所述第一参考位置与所述第一位置之间的第二差异值；

第一调整子模块，用于基于所述第一差异值和所述第二差异值调整所述第一模型参数、所述第二模型参数和所述第三模型参数，触发所述第一获取子模块；

第一训练完成子模块，用于当迭代次数达到第一预设次数时，完成训练，得到使得第一样本图像与检测框内的目标的位置和类别相关联的全图目标检测模型。

在本发明的另一实施例中，所述第一检测结果模块240，可以具体用于：

对于每个第一检出目标，基于该第一检出目标的位置确定该第一检出目标在当前视频帧图像中的左上角点的坐标和右下角点的坐标，在当前视频帧图像中得到以所述左上角点和所述右下角点为对角线的矩形图像区域；

根据所述左上角点的坐标、所述右下角点的坐标、预设坐标变换系数以及预先建立的局部目标检测模型输入图像的宽度和高度计算得到所述左上角点缩放后的坐标和所述右下角点缩放后的坐标；

基于所述左上角点的坐标、所述右下角点的坐标、所述左上角点缩放后的坐标和所述右下角点缩放后的坐标，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度。

在本发明的另一实施例中，上述装置还可以包括第二训练模块，所述第二训练模块用于训练得到所述局部目标检测模型，所述第二训练模块可以包括：

第二获取子模块，用于获取训练集中的第二样本图像以及所述第二样本图像包含的检测框内的目标对应的第二位置和第二类别；

第二输入子模块，用于将所述第二样本图像以及所述第二样本图像包含的检测框内的目标对应的第二位置和第二类别输入到第二初始网络模型中，其中，所述第二初始网络模型包括第二特征提取层和第二回归层；

特征向量确定子模块，用于通过所述第二特征提取层的第四模型参数，确定所述第二样本图像中的特征向量；

第二生成子模块，用于通过所述第二回归层的第五模型参数，对所述特征向量进行回归，得到第二参考目标所属的第二参考类别和所述第二参考目标在所述第二样本图像中的第二参考位置；

第二差异计算子模块，用于计算所述第二参考类别与所述第二类别之间的第三差异值，计算所述第二参考位置与所述第二位置之间的第四差异值；

第二调整子模块，用于基于所述第三差异值和所述第四差异值调整所述第四模型参数和所述第五模型参数，返回执行所述获取训练集中的第二样本图像以及所述第二样本图像包含的检测框内的目标对应的第二位置和第二类别的步骤；

第二训练完成子模块，用于当迭代次数达到第二预设次数时，完成训练，得到使得第二样本图像与检测框内的目标的位置和类别相关联的局部目标检测模型。

在本发明的另一实施例中，所述第三检测结果模块260，可以具体用于：

对于当前视频帧图像的每个第六检出目标，确定该第六检出目标与上一视频帧图像的每个第六检出目标之间的重叠区域以及相交区域，并计算所述重叠区域的面积与所述相交区域的面积的商；

将所述商中不小于预设阈值的商对应的当前视频帧图像的第六检出目标以及上一视频帧图像的第六检出目标作为匹配成功的目标，将所述商中小于预设阈值的商对应的当前视频帧图像的第六检出目标以及上一视频帧图像的第六检出目标作为匹配不成功的目标。

上述装置实施例与方法实施例相对应，与该方法实施例具有同样的技术效果，具体说明参见方法实施例。装置实施例是基于方法实施例得到的，具体的说明可以参见方法实施例部分，此处不再赘述。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

一种视频目标检测与跟踪方法，其特征在于，包括：

检测是否接收到采集设备实时采集的周围环境的当前视频帧图像；

如果接收到当前视频帧图像，判断所述当前视频帧图像与上一次进行全图目标检测的视频帧图像之间的帧数间隔是否为预设间隔；

如果是预设间隔，根据预先建立的全图目标检测模型对所述当前视频帧图像进行全图目标检测；

当检测得到检出目标的位置和类别且当前视频帧图像的上一视频帧图像不存在检出目标时，将当前视频帧图像的检出目标作为第一检出目标，对于每个第一检出目标，基于该第一检出目标的位置确定该第一检出目标在当前视频帧图像中对应的矩形图像区域，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入所述局部目标检测模型中得到第二检出目标的位置和类别，返回执行所述检测是否接收到采集设备实时采集的周围环境的当前视频帧图像的步骤；

当未检测出检出目标且当前视频帧图像的上一视频帧图像存在检出目标时，将所述上一视频帧图像存在的检出目标作为第三检出目标，对于每个第三检出目标，确定该第三检出目标在当前视频帧图像中对应的矩形图像区域，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入所述局部目标检测模型中得到第四检出目标的位置和类别，建立所述第四检出目标与该第三检出目标的对应关系，返回执行所述检测是否接收到采集设备实时采集的周围环境的当前视频帧图像的步骤；

当检测得到检出目标的位置和类别且当前视频帧图像的上一视频帧图像存在检出目标时，将当前视频帧图像的检出目标和上一视频帧图像存在的检出目标作为第五检出目标，对于每个第五检出目标，确定该第五检出目标在该第五检出目标所在视频帧图像中对应的矩形图像区域，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入所述局部目标检测模型中得到第六检出目标的位置和类别，对多个第六检出目标进行目标匹配，得到当前视频帧图像与上一视频帧图像之间匹配成功的目标和匹配不成功的目标，返回执行所述检测是否接收到采集设备实时采集的周围环境的当前视频帧图像的步骤。
如权利要求1所述的方法，其特征在于，在所述检测是否接收到采集设备实时采集的周围环境的当前视频帧图像的步骤之后，所述方法还包括：

如果未接收到当前视频帧图像，输出所述当前视频帧图像的上一视频帧图像存在的检出目标的位置和类别以及各检出目标的对应关系。
如权利要求1所述的方法，其特征在于，在所述判断所述当前视频帧图像与上一次进行全图目标检测的视频帧图像之间的帧数间隔是否为预设间隔的步骤之后，所述方法还包括：

如果不是预设间隔，在当前视频帧图像的上一视频帧图像存在检出目标时，将所述上一视频帧图像存在的检出目标作为第七检出目标，对于每个第七检出目标，确定该第七检出目标在当前视频帧图像中对应的矩形图像区域，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入所述局部目标检测模型中得到第八检出目标的位置和类别，建立所述第八检出目标与该第七检出目标的对应关系，返回执行所述检测是否接收到采集设备实时采集的周围环境的当前视频帧图像的步骤。
如权利要求1所述的方法，其特征在于，所述全图目标检测模型的训练过程为：

获取训练集中的第一样本图像以及所述第一样本图像包含的检测框内的目标对应的第一位置和第一类别；

将所述第一样本图像以及所述第一样本图像包含的检测框内的目标对应的第一位置和第一类别输入到第一初始网络模型中，其中，所述第一初始网络模型包括第一特征提取层、区域生成网络层和第一回归层；

通过所述第一特征提取层的第一模型参数，确定所述第一样本图像中的全图特征向量；

通过所述区域生成网络层的第二模型参数对所述全图特征向量进行特征计算，得到包含第一参考目标的候选区域的特征信息；

通过所述第一回归层的第三模型参数，对所述特征信息进行回归，得到所述第一参考目标所属的第一参考类别和所述第一参考目标在所述第一样本图像中的第一参考位置；

计算所述第一参考类别与所述第一类别之间的第一差异值，计算所述第一参考位置与所述第一位置之间的第二差异值；

基于所述第一差异值和所述第二差异值调整所述第一模型参数、所述第二模型参数和所述第三模型参数，返回执行所述获取训练集中的第一样本图像以及所述第一样本图像包含的检测框内的目标对应的第一位置和第一类别的步骤；

当迭代次数达到第一预设次数时，完成训练，得到使得第一样本图像与检测框内的目标的位置和类别相关联的全图目标检测模型。
如权利要求1所述的方法，其特征在于，所述对于每个第一检出目标，基于该第一检出目标的位置确定该第一检出目标在当前视频帧图像中对应的矩形图像区域，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度的步骤，包括：

对于每个第一检出目标，基于该第一检出目标的位置确定该第一检出目标在当前视频帧图像中的左上角点的坐标和右下角点的坐标，在当前视频帧图像中得到以所述左上角点和所述右下角点为对角线的矩形图像区域；

根据所述左上角点的坐标、所述右下角点的坐标、预设坐标变换系数以及预先建立的局部目标检测模型输入图像的宽度和高度计算得到所述左上角点缩放后的坐标和所述右下角点缩放后的坐标；

基于所述左上角点的坐标、所述右下角点的坐标、所述左上角点缩放后的坐标和所述右下角点缩放后的坐标，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度。
如权利要求1所述的方法，其特征在于，所述局部目标检测模型的训练过程为：

获取训练集中的第二样本图像以及所述第二样本图像包含的检测框内的目标对应的第二位置和第二类别；

将所述第二样本图像以及所述第二样本图像包含的检测框内的目标对应的第二位置和第二类别输入到第二初始网络模型中，其中，所述第二初始网络模型包括第二特征提取层和第二回归层；

通过所述第二特征提取层的第四模型参数，确定所述第二样本图像中的特征向量；

通过所述第二回归层的第五模型参数，对所述特征向量进行回归，得到第二参考目标所属的第二参考类别和所述第二参考目标在所述第二样本图像中的第二参考位置；

计算所述第二参考类别与所述第二类别之间的第三差异值，计算所述第二参考位置与所述第二位置之间的第四差异值；

基于所述第三差异值和所述第四差异值调整所述第四模型参数和所述第五模型参数，返回执行所述获取训练集中的第二样本图像以及所述第二样本图像包含的检测框内的目标对应的第二位置和第二类别的步骤；

当迭代次数达到第二预设次数时，完成训练，得到使得第二样本图像与检测框内的目标的位置和类别相关联的局部目标检测模型。
如权利要求1所述的方法，其特征在于，所述对多个第六检出目标进行目标匹配，得到当前视频帧图像与上一视频帧图像之间匹配成功的目标和匹配不成功的目标的步骤，包括：

对于当前视频帧图像的每个第六检出目标，确定该第六检出目标与上一视频帧图像的每个第六检出目标之间的重叠区域以及相交区域，并计算所述重叠区域的面积与所述相交区域的面积的商；

将所述商中不小于预设阈值的商对应的当前视频帧图像的第六检出目标以及上一视频帧图像的第六检出目标作为匹配成功的目标，将所述商中小于预设阈值的商对应的当前视频帧图像的第六检出目标以及上一视频帧图像的第六检出目标作为匹配不成功的目标。
一种视频目标检测与跟踪装置，其特征在于，包括：

检测模块，用于检测是否接收到采集设备实时采集的周围环境的当前视频帧图像；

判断模块，用于如果接收到当前视频帧图像，判断所述当前视频帧图像与上一次进行全图目标检测的视频帧图像之间的帧数间隔是否为预设间隔，如果是，触发全图目标检测模块；

所述全图目标检测模块，用于根据预先建立的全图目标检测模型对所述当前视频帧图像进行全图目标检测；

第一检测结果模块，用于当检测得到检出目标的位置和类别且当前视频帧图像的上一视频帧图像不存在检出目标时，将当前视频帧图像的检出目标作为第一检出目标，对于每个第一检出目标，基于该第一检出目标的位置确定该第一检出目标在当前视频帧图像中对应的矩形图像区域，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入所述局部目标检测模型中得到第二检出目标的位置和类别，触发所述检测模块；

第二检测结果模块，用于当未检测出检出目标且当前视频帧图像的上一视频帧图像存在检出目标时，将所述上一视频帧图像存在的检出目标作为第三检出目标，对于每个第三检出目标，确定该第三检出目标在当前视频帧图像中对应的矩形图像区域，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入所述局部目标检测模型中得到第四检出目标的位置和类别，建立所述第四检出目标与该第三检出目标的对应关系，触发所述检测模块；

第三检测结果模块，用于当检测得到检出目标的位置和类别且当前视频帧图像的上一视频帧图像存在检出目标时，将当前视频帧图像的检出目标和上一视频帧图像存在的检出目标作为第五检出目标，对于每个第五检出目标，确定该第五检出目标在该第五检出目标所在视频帧图像中对应的矩形图像区域，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入所述局部目标检测模型中得到第六检出目标的位置和类别，对多个第六检出目标进行目标匹配，得到当前视频帧图像与上一视频帧图像之间匹配成功的目标和匹配不成功的目标，触发所述检测模块。
如权利要求8所述的装置，其特征在于，所述装置还包括：

输出模块，用于在所述检测是否接收到采集设备实时采集的周围环境的当前视频帧图像之后，如果未接收到当前视频帧图像，输出所述当前视频帧图像的上一视频帧图像存在的检出目标的位置和类别以及各检出目标的对应关系。
如权利要求8所述的装置，其特征在于，所述装置还包括：

第四检测结果模块，用于在所述判断所述当前视频帧图像与上一次进行全图目标检测的视频帧图像之间的帧数间隔是否为预设间隔之后，如果不是预设间隔，在当前视频帧图像的上一视频帧图像存在检出目标时，将所述上一视频帧图像存在的检出目标作为第七检出目标，对于每个第七检出目标，确定该第七检出目标在当前视频帧图像中对应的矩形图像区域，将所述矩形图像区域的宽度和高度分别缩放至预先建立的局部目标检测模型输入图像的宽度和高度，将缩放后得到的矩形图像区域输入所述局部目标检测模型中得到第八检出目标的位置和类别，建立所述第八检出目标与该第七检出目标的对应关系，触发所述检测模块。