CN107808122B

CN107808122B - 目标跟踪方法及装置

Info

Publication number: CN107808122B
Application number: CN201710920018.7A
Authority: CN
Inventors: 杨依凡; 王宇庆; 杨航
Original assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Current assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2020-08-11
Anticipated expiration: 2037-09-30
Also published as: CN107808122A

Abstract

本申请实施例公开了一种目标跟踪方法及装置，将两层卷积神经网络与时间递归神经网络模型相结合，解决了对于小目标的检测率低的问题。而且，提取背景中与目标关联的信息进行目标检测，提高了目标跟踪模型在视频目标检测中的速度与准确率。

Description

目标跟踪方法及装置

技术领域

本申请涉及目标检测技术领域，更具体地说，涉及一种目标跟踪方法及装置。

背景技术

目标跟踪一直是计算机视觉，模式识别领域中的热点问题，它在视频监控，人机交互，车辆导航等方面都有广泛的应用。发明人在实现本申请的过程中发现，目前的目标跟踪方法，对于很小的群体检测效果较差。

因此，如何提高目标检测结果的准确率成为亟待解决的问题。

发明内容

本申请的目的是提供一种目标跟踪方法及装置，以提高目标检测结果的准确率。

为实现上述目的，本申请提供了如下技术方案：

一种目标跟踪方法，通过预先训练好的目标跟踪模型对视频流中每一帧图像进行目标检测，包括：

所述目标跟踪模型中的第一卷积神经网络对所述图像进行目标检测，得到检测到的目标在所述图像中的位置，以及所检测到的目标的类别；

所述目标跟踪模型中的第二卷积神经网络对所述图像进行基于背景的目标检测，得到背景中与不同类别的目标相关联的信息；

所述目标跟踪模型中的时间递归神经网络基于所述背景中与不同类别的目标相关联的信息，将检测到的目标在不同时刻和不同的背景进行关联，得到目标检测结果。

上述方法，优选的，所述第一卷积神经网络对图像进行目标检测的过程，包括：

将所述图像划分为n*n个网格；

在每个网格预测若干个包围盒，并记录每个包围盒的位置、大小，以及每个包围盒对应的信任值和类别值；

基于每个包围盒对应的信任值和类别值，计算每个包围盒对所属类别的信任值分数；

将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除，并对所有保留的不同类别的包围盒分别进行非极大值抑制，得到目标的位置及类别信息。

按照L种不同的划分粒度将所述图像划分m*m个网格，m有L个不同的取值；

对应每一种划分粒度，在每个网格中预测若干个包围盒，并记录每个包围盒的位置、大小，以及每个包围盒对应的信任值和类别值；

基于网格中每个包围盒对应的信任值和类别值，计算每个包围盒对所属类别的信任值分数；

将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除，并对不同划分粒度下所保留下来的不同类别的包围盒分别进行非极大值抑制，得到目标的位置及类别信息。

上述方法，优选的，时间递归神经网络基于所述背景中与不同类别的目标相关联的信息，将检测到的目标在不同时刻和不同的背景进行关联，得到目标检测结果，包括：

时间递归神经网络通过预先学习到的不同时刻同一类型的目标与不同背景之间的关联关系，将检测到的目标在不同时刻和不同的背景进行关联，得到目标检测结果。

上述方法，优选的，所述目标跟踪模型的训练过程包括：

将YOLO卷积神经网络中的卷积层的参数的权值赋值给所述第一卷积神经网络，所述第一卷积神经网络的其它参数的权值选用高斯随机分布进行权值初始化；在目标检测及分类任务上对所述第一卷积神经网络进行端到端的训练，得到第一卷积神经网络模型；

将第一卷积神经网络中卷积层的参数的权值赋值给所述第二卷积神经网络，所述第二卷积神经网络的其它参数的权值选用高斯随机分布进行权值初始化；在基于背景的目标类型检测任务上对所述第二卷积神经网络进行端到端的训练，得到第二卷积神经网络模型；

将所述第二卷积神经网络模型的卷积层的权值的参数赋值给所述第一卷积神经网络模型的卷积层，再次通过如上步骤进行训练，如此循环两次，得到最终的第一卷积神经网络模型和第二卷积神经网络模型；

通过预先选取的视频训练集在将目标在不同时刻下同一类型的目标与不同背景进行关联的任务上对时间递归神经网络进行训练，得到时间递归神经网络模型；所述视频训练集中包括数量相等的第一类视频和第二类视频，所述第一类视频和所述第二类视频的时长相同，所述第一类视频中目标的变化幅度大于所述第二视频中目标的变化幅度；

构造初始的目标跟踪模型：将第一卷积神经网络模型的全部卷积层通过第一全连接层连入所述时间递归神经网络模型，将所述第二卷积神经网络模型的卷积层的至少一部分(例如，可以是全部的卷积层，也可以是前12层)通过第二全连接层连入所述时间递归神经网络模型，将所述时间递归神经网络模型的输出端与所述第一全连接层和第二全连接层的输入端，以及第三全连接层的输入端连接，

对所述初始的目标跟踪模型在预置的目标检测任务上进行训练，得到所述目标跟踪模型。

上述方法，优选的，所述在目标检测及分类任务上对所述第一卷积神经网络进行端到端的训练，包括：第一卷积神经网络通过如下方式进行目标检测及分类：

将图像划分为n*n个网格；

在每个网格中预测若干个包围盒，并记录每个包围盒的位置、大小，以及每个包围盒对应的信任值和类别值；

将所述网格中对所属类别信息的信任值分数小于预设阈值的包围盒删除，并对所有网格中保留的不同类别的包围盒分别进行非极大值抑制，得到目标检测结果；

通过预置损失函数计算所述第一卷积神经网络的目标检测结果的错误程度，所述损失函数为：

其中，Loss为第一卷积神经网络的目标检测结果的错误程度，λ₁为坐标预测损失的损失权重，λ₁的取值可以为5，λ₂为没有目标的包围盒的信任值损失的损失权重，λ₂的取值可以为0.5，λ₃为含有目标的包围盒的信任值损失和类别损失的损失权重，λ₃的取值可以为1；i用于区分不同的网格，j用于区分不同的包围盒；x_ij，y_ij，w_ij，h_ij，C_ij表示预测值，

表示标定值，S²表示所划分的网格数，B表示某个网格中的包围盒的个数，C_ij表示第i个网格中的第j个包围盒的信任值分数，p_i(c)表示第i个网格中c类别的目标出现的概率；若预先标定的包围盒与第i个网格中的第j个包围盒检测的物品类别是一样的，则

取1；否则

取0；若预先标定的包围盒与第i个网格中的第j个包围盒检测的物品类别是一样的，则

取0；否则

取1；

若错误程度大于或等于预设阈值，采用反向传播算法和Adam update方法进行权值更新，并输入训练库中未使用过得数据进行下一次训练，直至损失程度与所述损失函数的最小值的差值小于预设门限。

一种目标检测装置，包括：

第一检测模块，用于通过第一卷积神经网络对视频流中每一帧图像进行目标检测，得到检测到的目标在所述图像中的位置，以及所检测到的目标的类别；

第二检测模块，用于通过第二卷积神经网络对所述图像进行基于背景的目标检测，得到背景中与不同类别的目标相关联的信息；

关联模块，用于基于所述背景中与不同类别的目标相关联的信息，将检测到的目标在不同时刻和不同的背景进行关联，得到目标检测结果。

上述装置，优选的，所述第一检测模块具体用于，通过第一卷积神经网络将所述图像划分为n*n个网格；在每个网格预测若干个包围盒，并记录每个包围盒的位置、大小，以及每个包围盒对应的信任值和类别值；基于每个包围盒对应的信任值和类别值，计算每个包围盒对所属类别的信任值分数；将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除，并对所有保留的不同类别的包围盒分别进行非极大值抑制，得到目标的位置及类别信息。

上述装置，优选的，所述第一检测模块具体用于，通过第一卷积神经网络按照L种不同的划分粒度将所述图像划分m*m个网格，m有L个不同的取值；对应每一种划分粒度，在每个网格中预测若干个包围盒，并记录每个包围盒的位置、大小，以及每个包围盒对应的信任值和类别值；基于网格中每个包围盒对应的信任值和类别值，计算每个包围盒对所属类别的信任值分数；将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除，并对不同划分粒度下所保留下来的不同类别的包围盒分别进行非极大值抑制，得到目标的位置及类别信息。

上述装置，优选的，所述关联模块具体用于，

通过预先学习到的不同时刻同一类型的目标与不同背景之间的关联关系，将检测到的目标在不同时刻和不同的背景进行关联，得到目标检测结果。

通过以上方案可知，本申请提供的一种目标跟踪方法及装置，将两层卷积神经网络与时间递归神经网络模型相结合，解决了对于小目标的检测率低的问题。而且，提取背景中与目标关联的信息进行目标检测，提高了目标跟踪模型在视频目标检测中的速度与准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的目标跟踪模型的示例图；

图2为本申请实施例提供的目标跟踪方法的一种实现流程图；

图3为本申请实施例提供的目标检测装置的一种实现流程图。

说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示的以外的顺序实施。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本申请实施例提供的目标跟踪模型的示例图，本申请提供的目标跟踪模型包括两个卷积神经网络(Convolutional Neural Networks，CNN)和一个时间递归神经网络LSTM(Long Short-Term Memory)。其中，卷积网络1为其中一个卷积神经网络(为便于区分，以下简称第一卷积神经网络)的卷积层，卷积网络2为另一个卷积神经网络(为便于区分，以下简称第二卷积神经网络)的卷积层。

下面首先说明目标跟踪模型的训练过程。

本申请实施例中，先对两个卷积神经网络和时间递归神经网络分别进行独立训练，然后，基于各自训练得到的结果构造本申请的初始的目标跟踪模型，然后对初始的目标跟踪模型进行训练，得到最终的目标跟踪模型。

本申请实施例中，第一卷积神经网络主要负责提取目标，并标记目标的类别及位置。第一卷积神经网络包括24层卷积层和2层全连接层。可以在YOLO(You Only Look Once)卷积神经网络的基础上进行训练得到。具体的，将YOLO卷积神经网络中的卷积层的参数的权值赋值给第一卷积神经网络的卷积层，所述第一卷积神经网络的全连接层的权值选用高斯随机分布(例如，可以是均值为零，方差为0.01的高斯随机分布)进行权值初始化；在目标检测及分类任务上对所述第一卷积神经网络进行端到端的训练，得到第一卷积神经网络初始模型；

在训练过程中，第一卷积神经网络执行目标检测及分类任务的一种方式可以为：

将训练用视频中的各帧图像划分为n*n个网格，n为正整数。在一可选的实施例中，n的取值可以为7。该训练用视频中的每一帧图像中都标定有目标的位置、及类别值。

在每个网格中预测若干个包围盒(通常为矩形框，用于标记检测到的目标)，并记录预测的每个包围盒的位置、大小，以及每个包围盒对应的信任值和类别值；其中，类别值表征包围盒内目标的类别，信任值代表了所预测的包围盒中含有目标的置信度和这个包围盒预测的准确性这两条重要信息，信任值的计算公式如下：

式中，Pr(Object)的取值根据目标是否落在包围盒内而定，当有目标落在一个包围盒中时，Pr(Object)的值为1，否则Pr(Object)的值为0。

表示预测的包围盒与标定的目标包围盒之间的IOU(Intersection-over-Union,交集并集之比)值。其中，目标是否落在包围盒内可以根据标定值判断，目标落在包围盒内包括：目标全部落在包围盒内，以及目标部分落在包围盒内。

通常，包围盒的位置即为包围盒的左上角的坐标，包围盒的大小即为包围盒的长度和宽度。

基于每个包围盒对应的信任值和类别值，计算每个包围盒对所属类别的信任值分数。

将每个包围盒对应的信任值和类别值相乘，得到每个包围盒的特定类信任值分数，即每个包围盒对所属类别的信任值分数。

将所述网格中对所属类别的信任值分数小于预设分数阈值的包围盒删除，并对网格中保留的包围盒中属于同一类别的包围盒进行非极大值抑制，得到每个网格的目标检测结果。

每个网格的处理方式相同，这里不再一一赘述。

在一可选的实施例中，预设分数阈值可以为0.6。

在得到每个网格的目标检测结果以后，对整个图像中属于同一类别的包围盒进行非极大值抑制，得到最终的目标检测结果。

对网格中保留的包围盒中属于同一类别的包围盒进行非极大值抑制的过程可以为：

确定同一类别的包围盒中信任值分数最高的包围盒(为便于叙述记为第一包围盒)；

计算同一类别的其它包围盒(为便于叙述记为第二包围盒)与第一包围盒的重合率，若重合率高于一设定值，则删除第二包围盒，否则，保留第二包围盒。

通过预置损失函数计算所述第一卷积神经网络的目标检测结果的错误程度，损失程度表征预测值(即检测结果)与标定值之间的误差，所述损失函数为：

其中，Loss为第一卷积神经网络的目标检测结果的错误程度，λ₁为坐标预测损失的损失权重，λ₁的取值可以为5，λ₂为没有目标的包围盒的信任值损失的损失权重，λ₂的取值可以为0.5，λ₃为含有目标的包围盒的信任值损失和类别损失的损失权重，λ₃的取值可以为1；i用于区分不同的网格，j用于区分不同的包围盒。x_ij，y_ij，w_ij，h_ij，C_ij表示预测值，x_ij和y_ij为预测的第i个网格中第j个包围盒的坐标，w_ij为预测的第i个网格中第j个包围盒的宽度，h_ij为预测的第i个网格中第j个包围盒的高度，

表示标定值，

和

为标定的第i个网格中第j个包围盒的坐标，

为标定的第i个网格中第j个包围盒的宽度，

为标定的第i个网格中第j个包围盒的高度，S²表示所划分的网格数，B表示某个网格中的包围盒的个数，C_ij表示预测的第i个网格中的第j个包围盒的信任值分数，

表示标定的第i个网格中的第j个包围盒的信任值分数，p_i(c)表示预测的第i个网格中c类别的包围盒的概率；

表示标定的第i个网格中c类别的包围盒的概率。第i个网格中c类别的包围盒出现的概率即为第i个网格中c类别的包围盒的数量与第i个包围盒中所有包围盒总数的商值。

的取值根据第i个网格中的第j个包围盒是否包含设定的检测目标而定，如果预先标定的包围盒与第i个网格中的第j个包围盒检测的物品类别是一样的，则

取1；否则取0。

表示含有目标的包围盒的信任值预测损失与损失权重的乘积；

表示不含目标的包围盒的信任值预测损失与损失权重的乘积；

取0；否则

取1。

表示是否有目标中心落在网格i中的类别预测损失与损失权重的乘积。其中，若有目标中心落在网格i中，则

的取值为1，否则，

取值为0。c表示类别。

为了既要检测到小的目标，又要检测到大的目标，本申请实施例中，为了使得损失函数中各个损失更均衡，坐标预测损失通过欧拉距离表征，这样在对第一卷积神经网络优化的过程中，只对坐标进行微调即可，解决目标误检及目标漏检、多检问题。

若错误程度大于或等于预设阈值，采用BP反向传播算法和Adam update方法进行权值更新，并输入数据库的其他数据进行下一次训练，直至错误程度小于所述预设阈值。

在训练过程中，第一卷积神经网络执行目标检测及分类任务的另一种方式可以为：

按照L种不同的划分粒度将所述图像划分m*m个网格，m有L个不同的取值；在一可选的实施例中，L的取值可以为4，m的4种取值可以分别为7，5，3，1。对应每一种划分粒度，

在每个网格中预测若干个包围盒，并记录预测的每个包围盒的位置、大小，以及每个包围盒对应的信任值和类别值；

将所述网格中对所属类别信息的信任值分数小于预设阈值的包围盒删除，并对网格中保留的不同类别的包围盒分别进行非极大值抑制，即对网格中保留的包围盒中属于同一类别的包围盒进行非极大值抑制，得到每个网格的目标检测结果。

每个网格的处理方式相同，这里不再一一赘述。

在得到每个网格的目标检测结果以后，对整个图像中不同类别的包围盒分别进行非极大值抑制，即对整个图像中属于同一类别的包围盒进行非极大值抑制，得到最终的目标检测结果。

通过预置损失函数计算所述第一卷积神经网络的目标检测结果的错误程度。

上述每一种划分粒度下的目标检测和分类过程可以参看前述过程，也就是说，将图像划分为7*7的网格时，执行一次上述目标检测过程，将图像划分为5*5的网格时，执行一次上述目标检测过程，依次类推，直至每个划分粒度下均进行如上目标检测。这里不再一一赘述各个粒度下的目标检测过程。

每次训练过程中，所有粒度下的检测结果的并集即为该次训练过程中最终目标检测结果。

本申请实施例中，通过多种划分粒度进行目标检测和分类，使得目标检测的准确率更高。

第二卷积神经网络主要负责提取背景中与不同类别的目标相关联的信息。第二卷积神经网络与第一卷积神经网络的结构相同，但是第二卷积神经网络执行的任务及输出不同，第二卷积神经网络执行的任务为基于背景的目标类型检测，第二卷积神经网络的输出为背景中与不同类别的目标相关联的信息，第二卷积神经网络将Softmax函数作为损失函数进行优化，参数更新过程与第一卷积网络相同。

在对第二卷积神经网络进行训练时，将训练好的第一卷积神经网络中卷积层的参数的权值赋值给第二卷积神经网络，第二卷积神经网络的全连接层的参数的权值选用高斯随机分布进行权值初始化；在基于背景的目标类型检测任务上对第二卷积神经网络进行端到端的训练，得到第二卷积神经网络模型；基于背景的目标类型检测可以使用常用的检测方法。

将第二卷积神经网络模型的卷积层的权值的参数赋值给第一卷积神经网络模型的卷积层的参数，再次通过前述方法对第一卷积神经网络模型和第二卷积神经网络模型进行训练，如此循环两次(即一共进行三次训练)，得到最终的第一卷积神经网络模型和第二卷积神经网络模型。

本申请实施例中，第一卷积神经网络和第二卷积神经网络进行联合训练，提高了训练过程中的计算速度。

由前述两个卷积神经网络的训练过程可知，第一卷积神经网络和第二卷积神经网络的卷积层参数相同。为了减少计算时间，上述第一卷积神经网络和第二卷积神经网络可以共享卷积层参数，这样还可以减少占用的存储空间。

时间递归神经网络主要用于将检测目标在不同时刻和不同背景进行关联，提高在视频中的目标检测准确率。

本申请实施例中，选用包含两类视频的训练集对时间递归神经网络进行训练。其中，第一类视频和第二类视频的数量相等，第一类视频和第二类视频的时长相同，第一类视频中目标的变化幅度大于第二视频中目标的变化幅度；目标的变化幅度大可以是指目标突然出现、突然消失，或者姿态等出现大的变化。目标的变化幅度小可以是指目标变化缓慢，不会出现突然出现或消失，姿态变化小等。

时间递归神经网络分析每个视频中同一目标在不同时刻与不同背景之间的关联关系，通过机器学习得到不同时刻同一类型的目标与不同背景之间的关联关系。

在训练过程中，根据时间反向传播算法和Adam update方法进行权值更新。

前边已经说明卷积神经网络和时间递归神经网络的各自的训练过程。下面说明对通过上述训练好的卷积神经网络和时间递归神经网络构成的目标跟踪模型进行训练的过程。

通过上述训练好的两个卷积神经网络模型和时间递归神经网络模型构造初始的目标跟踪模型：将第一卷积神经网络模型的全部卷积层通过第一全连接层连入时间递归神经网络模型相连，将第二卷积神经网络模型的至少部分卷积层通过第二全连接层连入所述时间递归神经网络模型，所述时间递归神经网络模型的输出端还与上述两个第一全连接层的输入端，以及第三全连接层的输入端连接。

上述预置的目标检测任务可以是：

第一卷积神经网络对图像进行目标检测，得到检测到的目标在所述图像中的位置，以及所检测到的目标的类别；

第二卷积神经网络对所述图像进行基于背景的目标检测，得到背景中与不同类别的目标相关联的信息；

时间递归神经网络基于所述背景中与不同类别的目标相关联的信息，将检测到的目标在不同时刻和不同的背景进行关联，得到目标检测结果，将目标检测结果通过第三全连接层输出。

在一优选的实施例中，时间递归神经网络在得到目标检测结果后，先不输出结果，而是将目标检测结果反馈给卷积神经网络，具体是反馈给卷积神经网络全连接层，前一级的全连接层将卷积网络输出的数据与LSTM反馈的数据进行随机选取，将随机选取的数值经过时间递归神经网的处理，得到最终的目标检测结果，将该最终的目标检测结果通过最后的全连接层输出。本申请实施例中，通过反馈机制，提高了目标检测精度。

目标跟踪模型训练过程中，采用BP反向传播算法和Adam update方法对卷积神经网络中参数的权值进行更新，采用时间反向传播算法和Adam update方法对时间递归神经网络中的参数的权值进行更新。

在一可选的实施例中，第一卷积神经网络对图像进行目标检测的过程可以包括：

将所述图像划分为n*n个网格；

将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除，并对网格中保留的属于同一类别的包围盒进行非极大值抑制，得到网格中目标的位置及类别信息。

对应每一种划分粒度，在每个网格中预预测若干个包围盒，并记录每个包围盒的位置、大小，以及每个包围盒对应的信任值和类别值；

基于每个包围盒对应的信任值和类别值，计算每个包围盒对所属类别信息的信任值分数；

将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除，并对网格中保留的包围盒中属于同一类别的包围盒进行非极大值抑制，得到目标的位置及类别信息。

每个划分粒度下均通过如上方法进行目标检测。

训练好目标跟踪模型后，就可以利用目标跟踪模型进行目标检测了。

请参阅图2，图2为本申请实施例提供的目标跟踪方法的一种实现流程图可以包括：

步骤S21：第一卷积神经网络对所述图像进行目标检测，得到检测到的目标在所述图像中的位置，以及所检测到的目标的类别；

步骤S22：第二卷积神经网络对所述图像进行基于背景的目标检测，得到背景中与不同类别的目标相关联的信息；

步骤S22：时间递归神经网络基于所述背景中与不同类别的目标相关联的信息，将检测到的目标在不同时刻和不同的背景进行关联，得到目标检测结果。

其中，第一卷积神经网络对图像进行目标检测的过程，可以包括：

将所述图像划分为n*n个网格；

将所述网格中对所属类别信息的信任值分数小于预设阈值的包围盒删除，并对网格保留的包围盒属于同一类别的包围盒进行非极大值抑制，得到每个网格中目标的位置及类别信息。

在另一可选的实施例中，第一卷积神经网络对图像进行目标检测的过程，可以包括：

将所述网格中对所属类别信息的信任值分数小于预设阈值的包围盒删除，并对网格中保留的包围盒中属于同一类别的包围盒进行非极大值抑制，得到每个网格中目标的位置及类别信息。

每个划分粒度下，目标检测的过程相同，这里不一一赘述。

在一可选的实施例中，时间递归神经网络基于所述背景中与不同类别的目标相关联的信息，将检测到的目标在不同时刻和不同的背景进行关联，得到目标检测结果，可以包括：

与方法实施例相对应，本申请还提供一种目标检测装置，本申请实施例提供的目标检测装置的一种实现流程图如图3所示，可以包括：

第一检测模块31，第二检测模块32和关联模块33；其中，

第一检测模块31用于通过第一卷积神经网络对视频流中每一帧图像进行目标检测，得到检测到的目标在所述图像中的位置，以及所检测到的目标的类别；

第二检测模块32用于通过第二卷积神经网络对所述图像进行基于背景的目标检测，得到背景中与不同类别的目标相关联的信息；

关联模块33用于基于所述背景中与不同类别的目标相关联的信息，将检测到的目标在不同时刻和不同的背景进行关联，得到目标检测结果。

本申请提供的目标检测装置，将两层卷积神经网络与时间递归神经网络模型相结合，解决了对于小目标的检测率低的问题。而且，提取背景中与目标关联的信息进行目标检测，提高了目标跟踪模型在视频目标检测中的速度与准确率。

在一可选的实施例中，上述第一检测模块31具体可以用于，通过第一卷积神经网络将所述图像划分为n*n个网格；在每个网格预测若干个包围盒，并记录每个包围盒的位置、大小，以及每个包围盒对应的信任值和类别值；基于每个包围盒对应的信任值和类别值，计算每个包围盒对所属类别的信任值分数；将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除，并对所有保留的不同类别的包围盒分别进行非极大值抑制，得到目标的位置及类别信息。

在另一可选的实施例中，第一检测模块31具体可以用于，通过第一卷积神经网络按照L种不同的划分粒度将所述图像划分m*m个网格，m有L个不同的取值；对应每一种划分粒度，在每个网格中预测若干个包围盒，并记录每个包围盒的位置、大小，以及每个包围盒对应的信任值和类别值；基于网格中每个包围盒对应的信任值和类别值，计算每个包围盒对所属类别的信任值分数；将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除，并对不同划分粒度下所保留下来的不同类别的包围盒分别进行非极大值抑制，得到目标的位置及类别信息。

在一可选的实施例中，关联模块33具体可以用于，

在一可选的实施例中，目标检测装置还可以包括：

训练模块，用于训练目标跟踪模型，具体用于，将YOLO卷积神经网络中的卷积层的参数的权值赋值给所述第一卷积神经网络，所述第一卷积神经网络的其它参数的权值选用高斯随机分布进行权值初始化；在目标检测及分类任务上对所述第一卷积神经网络进行端到端的训练，得到第一卷积神经网络模型；

构造初始的目标跟踪模型：将第一卷积神经网络模型的全部卷积层通过第一全连接层连入所述时间递归神经网络模型，将所述第二卷积神经网络模型的卷积层的至少一部分(例如，可以是全部的卷积层，也可以是前12层)通过第二全连接层连入所述时间递归神经网络模型，将所述时间递归神经网络模型的输出端与所述第一全连接层和第二全连接层的输入端，以及第三全连接层的输入端连接。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

应当理解，本申请实施例中，从权、各个实施例、特征可以互相组合结合，都能实现解决前述技术问题。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种目标跟踪方法，其特征在于，通过预先训练好的目标跟踪模型对视频流中每一帧图像进行目标检测，包括：

所述目标跟踪模型中的时间递归神经网络基于所述背景中与不同类别的目标相关联的信息，将检测到的目标在不同时刻和不同的背景进行关联，得到目标检测结果；

时间递归神经网络在得到目标检测结果后，将目标检测结果反馈给第一卷积神经网络的第一全连接层和第二卷积神经网络的第二全连接层，第一全连接层和第二全连接层将卷积网络输出的数据与时间递归神经网络反馈的数据进行随机选取，将随机选取的数值经过时间递归神经网的处理，得到最终的目标检测结果，将该最终的目标检测结果通过第三全连接层输出；

所述目标跟踪模型的训练过程包括：

将YOLO卷积神经网络中的卷积层的权值参数赋值给所述第一卷积神经网络，所述第一卷积神经网络的其它的权值参数选用高斯随机分布进行权值初始化；在目标检测及分类任务上对所述第一卷积神经网络进行端到端的训练，得到第一卷积神经网络模型；

将第一卷积神经网络中卷积层的权值参数赋值给所述第二卷积神经网络，所述第二卷积神经网络的其它的权值参数选用高斯随机分布进行权值初始化；在基于背景的目标类型检测任务上对所述第二卷积神经网络进行端到端的训练，得到第二卷积神经网络模型；

将所述第二卷积神经网络模型的卷积层的权值参数赋值给所述第一卷积神经网络模型的卷积层，再次通过如上步骤进行训练，如此循环两次，得到最终的第一卷积神经网络模型和第二卷积神经网络模型；

通过预先选取的视频训练集在将目标在不同时刻下同一类型的目标与不同背景进行关联的任务上对时间递归神经网络进行训练，得到时间递归神经网络模型；所述视频训练集中包括数量相等的第一类视频和第二类视频，所述第一类视频和所述第二类视频的时长相同，所述第一类视频中目标的变化幅度大于所述第二类视频中目标的变化幅度；

构造初始的目标跟踪模型：将第一卷积神经网络模型的全部卷积层通过第一全连接层连入所述时间递归神经网络模型，将所述第二卷积神经网络模型的卷积层的至少一部分通过第二全连接层连入所述时间递归神经网络模型，将所述时间递归神经网络模型的输出端与所述第一全连接层和第二全连接层的输入端，以及第三全连接层的输入端连接；

2.根据权利要求1所述的方法，其特征在于，所述第一卷积神经网络对图像进行目标检测的过程，包括：

将所述图像划分为n*n个网格；

3.根据权利要求1所述的方法，其特征在于，所述第一卷积神经网络对图像进行目标检测的过程，包括：

4.根据权利要求1所述的方法，其特征在于，时间递归神经网络基于所述背景中与不同类别的目标相关联的信息，将检测到的目标在不同时刻和不同的背景进行关联，得到目标检测结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述在目标检测及分类任务上对所述第一卷积神经网络进行端到端的训练，包括：第一卷积神经网络通过如下方式进行目标检测及分类：

将图像划分为n*n个网格；

其中，Loss为第一卷积神经网络的目标检测结果的错误程度，

为坐标预测损失的损失权重，

的取值可以为5，

为没有目标的包围盒的信任值损失的损失权重，

的取值可以为0.5，

为含有目标的包围盒的信任值损失和类别损失的损失权重，

的取值可以为1；i用于区分不同的网格，j用于区分不同的包围盒；

，

，

，

，

表示预测值，

和

为预测的第i个网格中第j个包围盒的坐标，

为预测的第i个网格中第j个包围盒的宽度，

为预测的第i个网格中第j个包围盒的高度，

，

，

，

，

表示标定值，

和

为标定的第i个网格中第j个包围盒的坐标，

为标定的第i个网格中第j个包围盒的宽度，

为标定的第i个网格中第j个包围盒的高度，

表示所划分的网格数，B表示某个网格中的包围盒的个数，

表示第i个网格中的第j个包围盒的信任值分数，

表示标定的第i个网格中的第j个包围盒的信任值分数，

表示第i个网格中c 类别的目标出现的概率；

表示标定的第i个网格中c类别的包围盒的概率；若预先标定的包围盒与第i个网格中的第j个包围盒检测的物品类别是一样的，则

取1；否则

取0；否则

取1；

6.一种目标检测装置，其特征在于，包括：

第一检测模块，用于通过目标跟踪模型中的第一卷积神经网络对视频流中每一帧图像进行目标检测，得到检测到的目标在所述图像中的位置，以及所检测到的目标的类别；

第二检测模块，用于通过目标跟踪模型中的第二卷积神经网络对所述图像进行基于背景的目标检测，得到背景中与不同类别的目标相关联的信息；

关联模块，用于通过目标跟踪模型中的时间递归神经网络基于所述背景中与不同类别的目标相关联的信息，将检测到的目标在不同时刻和不同的背景进行关联，得到目标检测结果；时间递归神经网络在得到目标检测结果后，将目标检测结果反馈给第一卷积神经网络的第一全连接层和第二卷积神经网络的第二全连接层，第一全连接层和第二全连接层将卷积网络输出的数据与时间递归神经网络反馈的数据进行随机选取，将随机选取的数值经过时间递归神经网的处理，得到最终的目标检测结果，将该最终的目标检测结果通过第三全连接层输出；

训练模块，用于训练目标跟踪模型，具体训练过程为，将YOLO卷积神经网络中的卷积层的权值参数赋值给所述第一卷积神经网络，所述第一卷积神经网络的其它的权值参数选用高斯随机分布进行权值初始化；在目标检测及分类任务上对所述第一卷积神经网络进行端到端的训练，得到第一卷积神经网络模型；

7.根据权利要求6所述的装置，其特征在于，所述第一检测模块具体用于，通过第一卷积神经网络将所述图像划分为n*n个网格；在每个网格预测若干个包围盒，并记录每个包围盒的位置、大小，以及每个包围盒对应的信任值和类别值；基于每个包围盒对应的信任值和类别值，计算每个包围盒对所属类别的信任值分数；将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除，并对所有保留的不同类别的包围盒分别进行非极大值抑制，得到目标的位置及类别信息。

8.根据权利要求6所述的装置，其特征在于，所述第一检测模块具体用于，通过第一卷积神经网络按照L种不同的划分粒度将所述图像划分m*m个网格，m有L个不同的取值；对应每一种划分粒度，在每个网格中预测若干个包围盒，并记录每个包围盒的位置、大小，以及每个包围盒对应的信任值和类别值；基于网格中每个包围盒对应的信任值和类别值，计算每个包围盒对所属类别的信任值分数；将所述网格中对所属类别的信任值分数小于预设阈值的包围盒删除，并对不同划分粒度下所保留下来的不同类别的包围盒分别进行非极大值抑制，得到目标的位置及类别信息。

9.根据权利要求6所述的装置，其特征在于，所述关联模块具体用于，