CN110827320B

CN110827320B - 基于时序预测的目标跟踪方法和装置

Info

Publication number: CN110827320B
Application number: CN201910876398.8A
Authority: CN
Inventors: 明悦; 张润清; 崔泽鹏
Original assignee: Byzoro Networks Ltd; Beijing University of Posts and Telecommunications
Current assignee: Byzoro Networks Ltd; Beijing University of Posts and Telecommunications
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2022-05-20
Anticipated expiration: 2039-09-17
Also published as: CN110827320A

Abstract

本发明提供了一种基于时序预测的目标跟踪方法和装置，该方法包括：采集得到包含目标的视频帧图片；采用多个并行的LSTM模块组成时序预测网络，在时序预测网络中输入t‑1时刻的目标的运动状态变化量得到t时刻的目标的运动状态变化量，再结合t‑1时刻的目标的运动状态量得到t时刻的目标的运动状态量的时序预测结果；空间预测模型基于t时刻的待检测区域通过卷积神经网络提取出t时刻的图片特征，将图片特征进行相关滤波定位处理，得到t时刻的目标的运动状态量的最终预测结果。本发明通过将目标的时序模型和目标的空间模型相结合，将时序模型的输出转化为空间模型的输入，使得空间模型的待检测区域更加准确，能够获得更加高效、准确的目标定位结果。

Description

基于时序预测的目标跟踪方法和装置

技术领域

本发明涉及图片处理技术领域，尤其涉及一种基于时序预测的目标跟踪方法和装置。

背景技术

随着智能信息技术的普遍发展，图像、视频媒体人工智能技术越来越贴近我们的日常生活，人脸身份验证、车牌进出识别、视频智能监控等都为我们带来了便利和安全。作为图像、视频媒体人工智能的重要研究方向之一，目标跟踪的主要任务是从一段视频中检测出某个或者某几个已知目标的准确位置。随着视频媒体任务的处理需求越来越大，目标跟踪算法受到越来越多的关注。

目标跟踪***的模型大致包括两大模型，包含时序模型和空间模型。空间模型描述目标的外观信息，将外观信息通过目标跟踪算法转化成空间位置信息。时序模型用来描述目标空间位置信息在时间上变化的规律，预测目标在下一时刻可能出现的位置。从***结构上来看，目标跟踪***大致可以分为视频帧输入、目标跟踪和结果显示三个模块。视频帧输入模块用来读取视频数据，按帧送入目标跟踪模块。目标跟踪模块是***的核心功能模块，用于在输入的视频帧中寻找已知外观的目标，获取该目标的具***置和大小。结果显示模块将目标跟踪模块得到的目标具***置和大小与图片帧相结合，合成带有标记框的视频帧图片输出给用户。对目标跟踪***的性能评价主要在准确性和实时性两方面。评价准确性的主要指标包括平均重叠期望、准确率和鲁棒性。准确率主要评价跟踪结果和目标实际位置的像素差距，平均重叠期望主要评价跟踪结果和目标实际大小的区域面积差异。鲁棒性主要评价跟踪结果在跟踪失败后恢复正确跟踪的能力。目标跟踪***的准确性受到诸多因素的影响。在给定的目标只有第一帧中的外观、位置信息的条件下，目标本身的形变、旋转、放缩都会影响目标跟踪模块的性能。此外，目标所处的环境也会存在光照变化、遮挡物等因素，影响目标跟踪模块的性能。视频拍摄过程中的模糊、拍摄角度变化也会成为目标跟踪不准确的原因。除了准确性，实时性在目标跟踪***中也是非常重要的指标。对于跟踪结果的视频播放速率最低要求要在24FPS以上，才能满足实时性要求。而在实际应用中，目标跟踪算法由于复杂的建模、图片处理计算等问题，往往达不到实时的性能。

目标跟踪模块本质上是一个按视频顺序输入的图片目标检测器，需要在输入的图片区域检测出指定目标的具***置和大小信息。其主要分为时序预测、特征提取、目标定位和目标模型更新四个子模块。时序预测模块用来获取当前帧可能会出现目标的图片区域，以此减少目标跟踪算法在图片上检测的工作量，提升跟踪效率。对于目标跟踪算法，特征提取子模块用于对目标进行建模，考虑到跟踪的准确性，目标图片并不能直接用于目标跟踪，需要将图片进行特征提取成特征向量，用特征向量构建目标模型。特征提取的方式主要分为基于传统图像特征的提取方法和基于深度学习的特征提取方法。传统的特征提取方法有着速度快的特点，但是精度上比基于深度学习的特征要低很多。而基于深度学习的特征提取方法，由于需要的图片量多，模型复杂，参数量大等问题，往往不能满足实时性的要求。目标定位子模块将提取的图片特征进行处理，识别出哪些像素区域属于目标，哪些像素区域不属于目标，从而确定目标的具***置和大小。当前常用的目标定位模型包括卷积层和相关滤波器。其中卷积层的计算量大，耗时长。而相关滤波器虽然速度上有优势，但是实际中存在着模型退化的问题。目标模型更新子模块用来更新目标的具体模型，随着跟踪的进行，目标的外观会发生变化，而此时初始的目标模型已经不能保证跟踪的准确性，因此需要对目标的模型进行更新。通常，目标跟踪***根据每一帧的预测结果在每一帧都对目标模型进行更新，这样的更新花费大量的计算时间。此外，更新模板本身具有不可靠性，更新过程可能引入背景信息，使得模型被错误建模，这会导致模型随着跟踪的进行与正确模型的差距越来越大，从而导致跟踪漂移。在跟踪时，目前的目标跟踪***都没有对新模型进行检测，导致在模型更新时，很多更新都是无效的。事实上，大多数帧的目标模型都是稳定的，此时的更新时冗余的，只有当目标外观发生变化时，目标的模型更新才是有效的。但是，检测目标模型外观是否发生变化需要耗费大量的计算资源和时间，使得***整体处理目标跟踪任务的时间增加。

现有技术中的一种基于粒子滤波器的目标跟踪***的技术方案的处理步骤包括：

步骤1、按帧读取视频数据，并进行简单的数据预处理。

步骤2、在第一帧确定目标在当前帧的位置。

步骤3、在下一帧图片帧中放置粒子滤波器，处于当前帧目标所在位置的粒子滤波器权重大，处于背景处的粒子权重小，根据粒子的分布重采样，选取粒子所在区域作为下一帧目标预测区域。

步骤4、根据预测区域预测出目标所在位置。

重复3)～4)步骤，直到视频帧输入完毕。

上述现有技术中的基于粒子滤波器的目标跟踪***的技术方案的缺点为：

1.为了保证算法的准确性，粒子数量越多越好，因此计算量大。在粒子滤波算法中，每一个粒子都对应一块待检测的图片块，为了保证算法的准确性，粒子的数量一般在2000以上。因此每跟踪一帧图片，都需要对2000个图片块进行目标检测，这种大样本的检测方法效率极低，尤其是当所用的目标检测算法本身比较复杂计算时间长时，该方法完全无法达到实时性要求。

2.样本分布比例失调。在重采样之后得到的图片样本，绝大多数都是负样本，并且是弱负样本，强负样本都因权重太低被新的粒子取代，而实际上的正样本只有目标正确位置的一个样本。对于在线学习的目标跟踪算法，这样的正负样本比例是失调的。强负样本的缺失会使得背景信息不够，而正样本的数量不足同样会导致模型的鲁棒性降低。

现有技术中的一种基于历史目标位置的目标跟踪***设计方案的原理示意图如图1所示，具体处理步骤包括：

步骤1、读入第一帧图片和目标位置数据，并对目标进行建模。

步骤2、读入下一帧图片，在上一帧的目标位置扩大一部分作为检测区域。

步骤3、在检测区域定位出目标的位置，并对目标图片建模。

重复2)～3)，直到视频帧输入完毕。

上述现有技术中的基于历史目标位置的目标跟踪***设计方案的缺点为：

当目标运动速度过大时，目标会运动出检测区域，导致检测目标位置错误。该方法采用上一帧的目标位置中心作为当前帧的目标检测区域中心，这种方法是基于目标运动速度较小的假设上的。当目标运动速度过大时，当前帧的目标就很可能不存在于检测区域中，从而无法检测到目标，导致跟踪失败。

发明内容

本发明的实施例提供了一种基于时序预测的目标跟踪方法和装置，以克服现有技术的问题。

为了实现上述目的，本发明采取了如下技术方案。

根据本发明的一个方面，提供了一种基于时序预测的目标跟踪方法，包括：

对目标图片的检测应用场景进行视频数据采集，对视频数据进行转码、分帧处理得到包含目标的视频帧图片；

采用多个并行的单层长短期记忆网络LSTM模块组成时序预测网络，在当前t时刻，在所述时序预测网络中输入t-1时刻的目标的运动状态变化量得到t时刻的目标的运动状态变化量，再结合t-1时刻的目标的运动状态量得到t时刻的目标的运动状态量的时序预测结果；

将所述t时刻的目标的运动状态量的时序预测结果转化为空间预测模型的t时刻的待检测区域；

所述空间预测模型基于所述t时刻的待检测区域通过卷积神经网络提取出t时刻的图片特征，将所述t时刻的图片特征和已知的起始时刻的图片特征进行相关滤波定位处理，得到t时刻的目标的运动状态量的最终预测结果。

优选地，所述的方法还包括：

将待跟踪的目标在t时刻处于图片中的运动状态记为z_t，用四个运动状态量表示为Z_t(x_t，y_t，h_t，w_t)，其中，四个运动状态量分别为目标图像块左上角在图片中的横纵坐标(x_t，y_t)、目标的像素尺寸的长和宽(h_t，w_t)，起始时刻的视频帧图片中目标的状态量Z₁(x₁，y₁，h₁，w₁)表示指定目标在图片中的左上角坐标x，y和目标的高宽h，w，根据起始时刻的视频帧图片中目标的状态量Z₁(x₁，y₁，h₁，w₁)通过目标跟踪得到当前时刻t时刻之前的各个时刻的目标的运动状态量，将t-1时刻的目标的运动状态量Z_t-1(x_t-1，y_t-1，h_t-1，w_t-1)与t-2时刻的目标的运动状态量Z_t-2(x_t-2，y_t-2，h_t-2，w_t-2)相减，得到t-1时刻的目标的运动状态变化量ΔZ_t-1。

优选地，所述的采用多个并行的单层长短期记忆网络LSTM模块组成时序预测网络，在t时刻，在所述时序预测网络中输入t-1时刻的目标的运动状态量得到t时刻的目标的运动状态变化量，再结合t-1时刻的目标的运动状态量得到t时刻的目标的运动状态量的预测结果，包括：

采用四个并行的单层LSTM模块组成时序预测网络，对目标的运动状态变化量进行预测，四个LSTM模块分别预测(x_t，y_t)和(h_t，w_t)，用来预测(x_t，y_t)的两个LSTM模块共享相同的参数矩阵，用来预测(h_t，w_t)的两个LSTM模块共享相同的参数矩阵；

在t时刻，在所述时序预测网络中输入t-1时刻的目标的运动状态变化量ΔZ_t-1，所述时序预测网络输出t时刻的目标的运动状态变化量ΔZ_t(Δx_t，Δy_t，Δh_t，Δw_t)，再将t时刻的目标的运动状态变化量ΔZ_t(Δx_t，Δy_t，Δh_t，Δw_t)与t-1时刻的目标的运动状态量Z_t-1(x_t-1，y_t-1，h_t-1，w_t-1)相加，得到t时刻的目标的运动状态的时序预测结果Z_t(x_ty_t，h_t，w_t)。

优选地，所述的将所述t时刻的目标的运动状态量的时序预测结果转化为空间预测模型的t时刻的待检测区域，包括：

在得到了t时刻的目标的运动状态的时序预测结果Z_t(x_t，y_t，h_t，w_t)后，将空间预测模型的t时刻的待检测区域确定为左上角坐标为(x_t，y_t)，大小为4倍(h_t，w_t)的图片区域。

优选地，所述的空间预测模型基于所述t时刻的待检测区域通过卷积神经网络提取出t时刻的图片特征，将所述t时刻的图片特征和已知的起始时刻的图片特征进行相关滤波定位处理，得到t时刻的目标的运动状态量的最终预测结果，包括：

采用Siamese网络构建空间预测模型，采用基于Siamese网络对t时刻的待检测区域进行特征提取，根据所述t时刻的目标的运动状态的时序预测结果Z_t(x_t，y_t，h_t，w_t)从整帧图像中切出待检测区域图像块，把待检测区域图像块输入到Siamese网络中的第一个分支，该第一个分支提取t时刻的待检测区域的图片特征；Siamese网络中的第二个分支对起始时刻的视频帧图片中的已知目标提取图片特征，Siamese网络框架将所述第一个分支、所述第二个分支提取出的图片特征进行相关滤波，计算二者的相关性，得到相关卷积响应值，将相关卷积响应值最高的位置确定为t时刻的目标的运动状态量的最终预测结果Z'_t(x_t,y_t,h_t,w_t)。

根据本发明的另一个方面，提供了一种基于时序预测的目标跟踪装置，包括：

视频数据读入模块，用于对目标图片的检测应用场景进行视频数据采集，对视频数据进行转码、分帧处理得到包含目标的视频帧图片；

目标跟踪模块，用于采用多个并行的单层长短期记忆网络LSTM模块组成时序预测网络，在当前t时刻，在所述时序预测网络中输入t-1时刻的目标的运动状态变化量得到t时刻的目标的运动状态变化量，再结合t-1时刻的目标的运动状态量得到t时刻的目标的运动状态量的时序预测结果；将所述t时刻的目标的运动状态量的时序预测结果转化为空间预测模型的t时刻的待检测区域；通过所述空间预测模型基于所述t时刻的待检测区域通过卷积神经网络提取出t时刻的图片特征，将所述t时刻的图片特征和已知的起始时刻的图片特征进行相关滤波定位处理，得到当前t时刻的目标的运动状态量的最终预测结果；

显示处理模块，用于对所述当前t时刻的目标的运动状态量的最终预测结果和视频帧图片一起进行显示。

将以定位框坐标的形式从目标跟踪模块中输出。在用户界面模块，该跟踪结果被转化为图片的形式与视频帧相结合，得到带目标定位框的视频图片展示给用户。

优选地，所述目标跟踪模块包括：

初始处理模块，用于将待跟踪的目标在t时刻处于图片中的运动状态记为Z_t，用四个运动状态量表示为Z_t(x_t，y_t，h_t，w_t)，其中，四个运动状态量分别为目标图像块左上角在图片中的横纵坐标(x_t，y_t)、目标的像素尺寸的长和宽(h_t，w_t)，起始时刻的视频帧图片中目标的状态量Z₁(x₁，y₁，h₁，w₁)表示指定目标在图片中的左上角坐标x，y和目标的高宽h，w，根据起始时刻的视频帧图片中目标的状态量Z₁(x₁，y₁，h₁，w₁)通过目标跟踪得到当前时刻t时刻之前的各个时刻的目标的运动状态量，将t-1时刻的目标的运动状态量Z_t-1(x_t-1，y_t-1，h_t-1，w_t-1)与t-2时刻的目标的运动状态量Z_t-2(x_t-2，y_t-2，h_t-2，w_t-2)相减，得到t-1时刻的目标的运动状态变化量ΔZ_t-1。

优选地，所述目标跟踪模块还包括：

时序预测处理模块，用于采用四个并行的单层LSTM模块组成时序预测网络，对目标的运动状态变化量进行预测，四个LSTM模块分别预测(x_ty_t)和(h_t，w_t)，用来预测(x_ty_t)的两个LSTM模块共享相同的参数矩阵，用来预测(h_t，w_t)的两个LSTM模块共享相同的参数矩阵；

在t时刻，在所述时序预测网络中输入t-1时刻的目标的运动状态变化量ΔZ_t-1，所述时序预测网络输出t时刻的目标的运动状态变化量ΔZ_t(Δx_t，Δy_t，Δh_t，Δw_t)，再将t时刻的目标的运动状态变化量ΔZ_t(Δx_t，Δy_t，Δh_t，Δw_t)与t-1时刻的目标的运动状态量Z_t-1(x_t-1，y_t-1，h_t-1，w_t-1)相加，得到t时刻的目标的运动状态的时序预测结果Z_t(x_t，y_t，h_t，w_t)。

优选地，所述目标跟踪模块还包括：

空间预测处理模块，用于在得到了t时刻的目标的运动状态的时序预测结果Z_t(x_t，y_t，h_t，w_t)后，将空间预测模型的t时刻的待检测区域确定为左上角坐标为(x_t，y_t)，大小为4倍(h_t，w_t)的图片区域；

优选地，所述显示处理模块，用于将所述当前t时刻的目标的运动状态量的最终预测结果以定位框坐标的形式从目标跟踪模块中输出，在用户界面模块，将所述当前t时刻的目标的运动状态量的最终预测结果转化为图片的形式，并与当前t时刻的视频帧图片相结合，得到带目标定位框的当前t时刻的视频帧图片并展示给用户。

由上述本发明的实施例提供的技术方案可以看出，本发明通过将目标的时序模型和目标的空间模型相结合，将时序模型的输出转化为空间模型的输入。时序模型的输出使得空间模型的待检测区域更加准确，能够获得更加高效、准确的目标定位结果。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中的一种基于历史目标位置的目标跟踪***设计方案的原理示意图；

图2为本发明实施例提供的一种基于相似模板更新的目标跟踪方法的处理流程图；

图3为本发明实施例提供的一种时序网络的示意图；

图4为本发明实施例提供的一种将时序预测结果转化为空间预测模型的待检测区域的示意图。

图5为本发明实施例提供的一种基于相似模板更新的目标跟踪装置的结构图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例对于当前的目标跟踪***，由于粒子滤波等时序建模的方法在时间上的花费太大，往往不对物体的状态进行建模，而重点在目标的空间模型上。本发明采用简单高效的时序预测模型，几乎不占用目标跟踪算法的执行时间，先使用时序预测得到目标的待检测区域，然后再用检测算法在待检测区域上得到目标在新一帧图片的空间位置。得到目标在新一帧图片的空间位置后，再将位置信息反馈入时间模型进行下一帧的预测。整个***包含时序模型和空间模型两个部分，时序模型能够促进空间模型定位更加准确，空间模型的结果反馈入时序模型进行在线训练，使得下一帧的时序预测更加准确。

本发明可应用于自然条件下的某种特定目标实时跟踪任务之中，例如自动驾驶的车辆目标定位、虚拟现实的人体手势跟踪、智能交通监控、视频行为识别等等。***搭建容易，安装简单，且成本低廉。

实施例一

该实施例提供的一种基于时序预测的目标跟踪方法的处理流程如图2所示，包括如下的处理步骤：

步骤S21：对图片目标的检测应用场景进行视频数据采集，对视频数据进行转码、分帧处理得到视频帧图片。

用于通过摄像头对图片目标的检测应用场景进行视频数据采集，对视频数据进行转码、分帧处理得到视频帧图片，再对视频帧图片进行预处理操作，将预处理后的视频帧图片传输给目标跟踪模块，该预处理包括直方图均衡化，图片大小调整等等。

步骤S22：采用四个并行的单层LSTM模块组成时序预测网络，在t时刻，时序预测网络输入t-1时刻的目标的运动状态变化量得到t时刻的目标的运动状态变化量，再结合t-1时刻的目标的运动状态量得到t时刻的目标的运动状态量的预测结果。

目标跟踪模块中的时序预测模块将历史帧的目标运动状态作为输入，经过归一化处理后得到较小的输入数据，减少预测结果的误差。时序预测模块通过时序神经网络结构预测出下一帧的目标运动状态。

本发明实施例将待跟踪目标在t时刻处于图片中的运动状态记为Z_t，用四个运动状态量表示为Z_t(x_t，y_t，h_t，w_t)，其中，四个运动状态量分别为目标图像左上角在图片中的横纵坐标(x_t，y_t)、目标的像素尺寸大小(长、宽)(h_t，w_t)，每个数值经过差值归一化后转变为大小在[0，1]区间内的数值，以此提高预测准确性。起始时刻(即第一帧)的视频帧图片中目标的状态量Z₁(x₁，y₁，h₁，w₁)表示指定目标在图片中的左上角坐标x，y，和目标的高宽h，w，由目标跟踪任务直接给定第t-1帧的状态量，由图像检测模块预测直接得到结果Z_t(x_t，y_t，h_t，w_t)。

根据起始时刻的视频帧图片中目标的状态量Z₁(x₁，y₁，h₁，w₁)通过目标跟踪得到当前时刻t时刻之前的各个时刻的目标的运动状态量，将t-1时刻的目标的运动状态量Z_t-1(x_t-1，y_t-1，h_t-1，w_t-1)与t-2时刻的目标的运动状态量Z_t-2(x_t-2，y_t-2，h_t-2，w_t-2)相减，得到t-1时刻的目标的运动状态变化量ΔZ_t-1。

对于每个视频帧中的目标运动状态Z_t(x_t，y_t，h_t，w_t)，其数值大小一般在几十到几百像素数量级，而对于视频中的目标发生运动时，其运动状态变化的常规数值ΔZ_t(Δx_t，Δy_t，Δh_t，Δw_t)＝Z_t(x_t，y_t，h_t，w_t)-Z_t-1(x_t-1，y_t-1，h_t-1，w_t-1)大小一般在个位数像素数量级，相比而言，采用运动状态变化量ΔZ_t，在预测结果时产生的误差更小。

本发明实施例采用四个并行的单层LSTM模块组成时序预测网络，对目标的运动状态变化量进行预测。如图3所示，这四个LSTM模块分别预测(x_t，y_t)和(h_t，w_t)，由于(x_t，y_t)都是描述物体的运动方向的，有着相同的变化规律，所以预测(x_t，y_t)的两个LSTM模块共享相同的参数矩阵。而(h_t，w_t)是描述物体变化大小的，也有着相同的变化规律，用来预测(h_t，w_t)的两个LSTM模块同样共享相同的参数矩阵。

在t时刻，时序预测网络输入t-1时刻的目标的运动状态变化量ΔZ_t-1，输出得到t时刻的目标的运动状态变化量ΔZ_t(Δx_t，Δy_t，Δh_t，Δw_t)。第一帧到第二帧的变化量ΔZ₁，由第二帧的运动状态Z₂与第一帧的运动状态Z₁做差得到。以此类推。再将t时刻的目标的运动状态变化量ΔZ_t(Δx_t，Δy_t，Δh_t，Δw_t)与上一时刻t-1时刻的目标的运动状态量Z_t-1(x_t-1，y_t-1，h_t-1，w_t-1)相加得到t时刻的目标的运动状态的时序预测结果Z_t(x_t，y_t，h_t，w_t)。

步骤S23：将t时刻的目标的运动状态量转化为空间预测模型的待检测区域。

在得到了t时刻的目标的运动状态的时序预测结果Z_t(x_t，y_t，h_t，w_t)后，待检测区域即为中心为(x_t，y_t)，大小为4倍(h_t，w_t)的图片区域。图4为本发明实施例提供的一种将时序预测结果转化为空间预测模型的待检测区域的示意图。

步骤S24、空间预测模型在上述t时刻的待检测区域的基础上，将图片通过卷积神经网络转化为卷积特征，再通过卷积响应检测出t时刻的视频帧图片中的目标的准确位置。

空间预测模型在上述待检测区域的基础上，将t时刻的视频帧图片通过卷积神经网络转化为卷积特征，再通过卷积响应检测出目标的准确位置。将目标的位置转化为视频帧上的坐标框，显示于用户界面上。

Siamese网络是一种双分支网络的统称，网络中的卷积层数和卷积核大小可以自己调整。在本发明实施例中，采用基于Siamese网络的方法对t时刻的待检测区域进行特征提取，Siamese网络框架是一种双分支的网络框架。其中第一个分支在t时刻提取待检测区域的图片特征，根据前一模块时序预测网络的预测得到的t时刻的目标的运动状态的时序预测结果Z_t(x_t，y_t，h_t，w_t)从整帧图像中切出待检测区域图像块，把待检测区域图像块输入到Siamese网络中的第一个分支，该第一个分支提取t时刻的待检测区域的图片特征；第二个分支对已知图片中的目标提取图片特征，上述已知图片是第一帧的给定图片，该图片中的目标位置已知。Siamese网络框架将所述第一个分支、所述第二个分支提取出的图片特征进行相关滤波，计算二者的相关性，得到相关卷积响应值，将相关卷积响应值最高的位置确定为t时刻的目标的运动状态量的最终预测结果Z′_t(x_t，y_t，h_t，w_t)，即得到准确的目标位置。

所述Siamese双分支网络中，每个分支采用相同的网络结构，包含两个卷积核大小为3×3的卷积层，每个卷积层的通道数为32个。对于第一个分支，输入图片为t时刻待检测区域的图片，其坐标描述为Z_t(x_t，y_t，h_t，w_t)，其实际是尺寸为h_t×w_t的图片。在所述Siamese双分支网络的第一个分支中，该图片首先经过图片放缩，转为大小为125×125的图像，对于彩色图像块，本身色彩通道数为3，因此经过处理后，实际的图像数据是一个125×125×3的矩阵数据。将该矩阵数据与第一层的卷积核进行卷积操作，得到125×125×32的矩阵数据，再与第二层的卷积核进行卷积，得到125×125×32的卷积特征F_t。同样的，在所述的Siamese双分支网络的第二个分支中，输入图片为已知目标信息的第一帧视频图片，即原模板。假设已知目标在第一帧中的坐标描述为Z₀(x₀，y₀，h₀，w₀)，经过与第一分支相同结构的第二分支之后，得到125×125×32的卷积特征F₀。

将所述t时刻的卷积特征F_t与卷积特征F₀，通过相关滤波器进行相关计算，即M_t＝∑_x∑_yF_tF₀，M_t即为相关计算的结果矩阵，其大小为125×125，其中每一个数值表示在该位置对应的图像区域与原目标的相关度，数值越大，相关度越大。因此，我们采用归一化的方法，将该矩阵的数值映射到[0，1]区间内，从而将相关度转化为相似度百分比。

在本发明的实际操作中，我们通过一个简单的矩阵乘法得到相关矩阵M_t＝wF_t，对于所述相关滤波器的输出M_t，希望得到的矩阵

为目标中心的位置峰值为1的二维高斯分布。为了尽量贴近希望得到的矩阵结果

即使得

最小，我们采用脊回归的方法对目标模型进行建模，此外，为了使w的矩阵数值尽量小从而减小误差，最小化模型为

其解为

通过w，即可计算得到相关结果矩阵M_t＝wF_t。

当t时刻的目标位置的预测、定位过程完成了之后，在进行下一时刻t+1的目标位置的预测、定位时，时序预测网络需要新的输入ΔZ_t+1。此时输入时序预测网络的输入不是ΔZ_t(Δx_t，Δy_t，Δh_t，Δw_t)，而是ΔZ′_t(x_t，y_t，h_t，w_t)。因为Z′_t(x_t，y_t，h_t，w_t)是用图片特征校正的目标位置，是在算法中得到的准确结果。而使用ΔZ_t(Δx_t，Δy_t，Δh_t，Δw_t)会因为结果不准确，而导致预测的结果越来越不准确。

变化量ΔZ′_t(x_t，y_t，h_t，w_t)＝Z’_t(x_t，y_t，h_t，w_t)-Z’_t(X_t-1，y_t-1，h_t-1，w_t-1)。

本技术方案采用时序模型与空间模型相结合的跟踪策略，可以根据实际情况采用不同的目标定位算法。如在仅含CPU的计算机中采用传统特征的目标定位算法，或者在包含GPU的计算机中采用深度特征的目标跟踪算法，更可以结合深度相机在深度图像上进行定位。此外，由于边缘效应等现象的影响，一些目标跟踪的定位算法对于检测区域要求较高，如基于相关滤波器的目标跟踪的定位算法。对于这些定位算法，本***的空间定位模型前的时序预测模块，可以为空间预测提供更加准确的待检测区域，使得空间预测模型获得更准确的检测结果。

实施例二

本发明实施例提供的一种基于时序预测的目标跟踪装置的结构图如图5所示，包括：

视频数据读入模块51，用于对目标图片的检测应用场景进行视频数据采集，对视频数据进行转码、分帧处理得到包含目标的视频帧图片；

目标跟踪模块52，用于采用多个并行的单层长短期记忆网络LSTM模块组成时序预测网络，在当前t时刻，在所述时序预测网络中输入t-1时刻的目标的运动状态变化量得到t时刻的目标的运动状态变化量，再结合t-1时刻的目标的运动状态量得到t时刻的目标的运动状态量的时序预测结果；将所述t时刻的目标的运动状态量的时序预测结果转化为空间预测模型的t时刻的待检测区域；通过所述空间预测模型基于所述t时刻的待检测区域通过卷积神经网络提取出t时刻的图片特征，将所述t时刻的图片特征和已知的起始时刻的图片特征进行相关滤波定位处理，得到当前t时刻的目标的运动状态量的最终预测结果；

显示处理模块53，用于对所述当前t时刻的目标的运动状态量的最终预测结果和视频帧图片一起进行显示。

优选地，所述目标跟踪模块52具体包括：

初始处理模块521，用于将待跟踪的目标在t时刻处于图片中的运动状态记为Z_t，用四个运动状态量表示为Z_t(x_t，y_t，h_t，w_t)，其中，四个运动状态量分别为目标图像块左上角在图片中的横纵坐标(x_t，y_t)、目标的像素尺寸的长和宽(h_t，w_t)，起始时刻的视频帧图片中目标的状态量Z₁(x₁，y₁，h₁，w₁)表示指定目标在图片中的左上角坐标x，y和目标的高宽h，w，根据起始时刻的视频帧图片中目标的状态量Z₁(x₁，y₁，h₁，w₁)通过目标跟踪得到当前时刻t时刻之前的各个时刻的目标的运动状态量，将t-1时刻的目标的运动状态量Z_t-1(x_t-1，y_t-1，h_t-1，w_t-1)与t-2时刻的目标的运动状态量Z_t-2(x_t-2，y_t-2，h_t-2，w_t-2)相减，得到t-1时刻的目标的运动状态变化量ΔZ_t-1。

时序预测处理模块522，用于采用四个并行的单层LSTM模块组成时序预测网络，对目标的运动状态变化量进行预测，四个LSTM模块分别预测(x_t，y_t)和(h_t，w_t)，用来预测(x_t，y_t)的两个LSTM模块共享相同的参数矩阵，用来预测(h_t，w_t)的两个LSTM模块共享相同的参数矩阵；

空间预测处理模块523，用于在得到了t时刻的目标的运动状态的时序预测结果Z_t(x_t，y_t，h_t，w_t)后，将空间预测模型的t时刻的待检测区域确定为左上角坐标为(x_t，y_t)，大小为4倍(h_t，w_t)的图片区域；

优选地，所述显示处理模块53，用于将所述当前t时刻的目标的运动状态量的最终预测结果以定位框坐标的形式从目标跟踪模块中输出，在用户界面模块，将所述当前t时刻的目标的运动状态量的最终预测结果转化为图片的形式，并与当前t时刻的视频帧图片相结合，得到带目标定位框的当前t时刻的视频帧图片并展示给用户。

用本发明实施例的装置进行基于时序预测的目标跟踪的具体过程与前述方法实施例类似，此处不再赘述。

综上所述，本发明实施例通过将目标的时序模型和目标的空间模型相结合，将时序模型的输出转化为空间模型的输入。时序模型的输出使得空间模型的待检测区域更加准确，能够获得更加高效、准确的目标定位结果。空间模型的输出作为时序模型的输入，为时序模型增加新的时序信息，以此得到下一次时序模型的预测结果。

相关滤波模型在定位的过程中，需要对待检测图像进行循环位移，会放大背景图像区域对目标图像区域的干扰，导致其本身有边缘效应。本发明利用时序网络预测得到的待检测区域，大大减少了背景图像区域在总待检测区域的占比，从而减少边缘效应，使得预测更加准确。同时，时序网络直接预测得到目标的运动状态，也就是目标的位置和运动速度。这些信息可以用于别的***的信息交换，如运动轨迹分析***、三维建模***等等。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于时序预测的目标跟踪方法，其特征在于，包括：

所述空间预测模型基于所述t时刻的待检测区域通过卷积神经网络提取出t时刻的图片特征，将所述t时刻的图片特征和已知的起始时刻的图片特征进行相关滤波定位处理，得到t时刻的目标的运动状态量的最终预测结果；

2.根据权利要求1所述的方法，其特征在于，所述的采用多个并行的单层长短期记忆网络LSTM模块组成时序预测网络，在t时刻，在所述时序预测网络中输入t-1时刻的目标的运动状态量得到t时刻的目标的运动状态变化量，再结合t-1时刻的目标的运动状态量得到t时刻的目标的运动状态量的预测结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述的将所述t时刻的目标的运动状态量的时序预测结果转化为空间预测模型的t时刻的待检测区域，包括：

4.根据权利要求3所述的方法，其特征在于，所述的空间预测模型基于所述t时刻的待检测区域通过卷积神经网络提取出t时刻的图片特征，将所述t时刻的图片特征和已知的起始时刻的图片特征进行相关滤波定位处理，得到t时刻的目标的运动状态量的最终预测结果，包括：

采用Siamese网络构建空间预测模型，采用基于Siamese网络对t时刻的待检测区域进行特征提取，根据所述t时刻的目标的运动状态的时序预测结果Z_t(x_t，y_t，h_t，w_t)从整帧图像中切出待检测区域图像块，把待检测区域图像块输入到Siamese网络中的第一个分支，该第一个分支提取t时刻的待检测区域的图片特征；Siamese网络中的第二个分支对起始时刻的视频帧图片中的已知目标提取图片特征，Siamese网络框架将所述第一个分支、所述第二个分支提取出的图片特征进行相关滤波，计算二者的相关性，得到相关卷积响应值，将相关卷积响应值最高的位置确定为t时刻的目标的运动状态量的最终预测结果Z′_t(x_t，y_t，h_t，w_t)。

5.一种基于时序预测的目标跟踪装置，其特征在于，包括：

显示处理模块，用于对所述当前t时刻的目标的运动状态量的最终预测结果和视频帧图片一起进行显示；

将最终预测结果以定位框坐标的形式从目标跟踪模块中输出，在用户界面模块，该最终预测结果被转化为图片的形式与视频帧相结合，得到带目标定位框的视频图片展示给用户；

所述目标跟踪模块包括：

6.根据权利要求5所述的装置，其特征在于，所述目标跟踪模块还包括：

时序预测处理模块，用于采用四个并行的单层LSTM模块组成时序预测网络，对目标的运动状态变化量进行预测，四个LSTM模块分别预测(x_t，y_t)和(h_t，w_t)，用来预测(x_t，y_t)的两个LSTM模块共享相同的参数矩阵，用来预测(h_t，w_t)的两个LSTM模块共享相同的参数矩阵；

7.根据权利要求6所述的装置，其特征在于，所述目标跟踪模块还包括：

8.根据权利要求7所述的装置，其特征在于：

所述显示处理模块，用于将所述当前t时刻的目标的运动状态量的最终预测结果以定位框坐标的形式从目标跟踪模块中输出，在用户界面模块，将所述当前t时刻的目标的运动状态量的最终预测结果转化为图片的形式，并与当前t时刻的视频帧图片相结合，得到带目标定位框的当前t时刻的视频帧图片并展示给用户。