CN107274433B

CN107274433B - 基于深度学习的目标跟踪方法、装置及存储介质

Info

Publication number: CN107274433B
Application number: CN201710474118.1A
Authority: CN
Inventors: 王欣; 石祥文
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2017-06-21
Filing date: 2017-06-21
Publication date: 2020-04-03
Anticipated expiration: 2037-06-21
Also published as: CN107274433A

Abstract

一种基于深度学***稳设定中心点位置，并得到搜索区域；将目标区域与搜索区域输入卷积神经网络计算得到当前帧目标区域；计算得到当前帧相对于前一帧目标的帧间位移；判断当前帧是否为最后一帧，以判断是否继续进行迭代的目标跟踪。本发明通过判断目标物体在图像中运动快速的快慢，来实现对当前帧裁剪区域的中心点位置的预测，相对于已有算法，在基本保持了原有的高的跟踪速度的前提下，提高了目标跟踪准确率和目标重合度，并且具有较好的跟踪鲁棒性。

Description

基于深度学习的目标跟踪方法、装置及存储介质

技术领域

本发明涉及图像处理领域，具体的，涉及一种在图像处理中基于深度学习的目标跟踪方法、装置及存储介质。

背景技术

目标跟踪在计算机视觉领域是一项富有挑战性的研究课题，因其在安防、交通、军事、虚拟现实、医学影像等众多领域都有其广泛地应用，而成为一个研究热点。目标跟踪目的是在有序图像序列中确定目标物体的连续位置，以便于进行进一步分析和处理，从而实现对目标物体运动行为的分析和理解。进入二十一世纪以来，信息技术得以高速发展，计算机的计算性能以及摄像机等图像采集设备的采集质量都在逐步提高，加上人们对于自身以及财产安全的日趋重视，越来越多的专家学者投身于研究目标跟踪相关技术。

目标跟踪技术是计算机视觉领域的核心研究课题之一，它包含了计算机图形学、目标识别、人工智能以及自动控制等多方面技术。目标跟踪技术起源于上世纪50年代，经过60多年的不断发展，目前已经提出了多种跟踪算法，比如均值漂移算法(Mean Shift)、背景差分法(Background difference method)、背景建模法(Background modeling)、光流法(optical flow method)、卡尔曼滤波器(Kalman Filter)、粒子滤波器(Particle Filter)以及以上述算法为基础的各种改进算法等，但是这些算法基本上都存在一定的问题和缺陷，比如跟踪精度较低或者实时性较差，难以满足现实场景应用的各种需求。

自从2006年深度学习(Deep Learning)的概念提出以后，深度学习的研究开始变得流行起来，越来越多的专家学者投身到深度学习的研究中来，深度学习在许多领域都取得了突破性进展，也得到了广泛应用，比如计算机视觉、图像处理、自然语言处理、信息分类、搜索以及大数据等领域。自然而然地，人们开始尝试采用深度学习的方法来解决目标跟踪问题。但是，采用深度学习的方式研究目标跟踪的算法，由于庞大的计算量，往往都比较慢，实时性较差，难以满足实际应用的要求。

因此，如何在目标跟踪中既提高跟踪精度又提高跟踪效率，成为现有技术亟需解决的技术问题。

发明内容

本发明的目的在于提出一种基于深度学习的目标跟踪方法、装置及存储介质，对输入视频逐帧处理，实现对目标物体的精确跟踪，通过大量带标签数据的离线训练，使得神经网络具有较强的特征泛化能力，提高了跟踪精度，通过剪裁和GPU加速等手段，加快了运算速度，提高了跟踪效率。

为达此目的，本发明采用以下技术方案：

一种基于深度学习的目标跟踪方法，包括如下步骤：

图片读取步骤S110：连续读取两帧图片，包括前一帧图片和当前帧图片，所述前一帧图片具有已计算得知的目标位置，所述当前帧图片需要计算目标位置；

区域设定步骤S120：分别设定并裁剪前一帧的目标区域和当前帧的搜索区域；

所述设定并裁剪前一帧的目标区域具体为：根据前一帧已知目标的中心点位置c＝(c_x,c_y)作为中心点，以矩形框作为第一包围盒对目标物体进行标记，第一包围盒的高度为h，宽度为w，经过剪裁后得到的目标区域的高度和宽度分别为k₁h和k₁w。参数k₁用于控制目标区域的大小；

所述设定并裁剪当前帧的搜索区域具体为：判断物体在图像中运动是否平稳，如果速度稳定，则当前帧的搜索区域的中心点位置 c'＝(c'_x,c'_y)等于前一帧的已知目标的中心点位置c＝(c_x,c_y)加上前两帧图像目标的帧间位移S，如果速度剧烈变化，例如迅速减小或者增大，则当前帧的搜索区域的中心点位置c'＝(c'_x,c'_y)为前一帧的已知目标的中心点位置c＝(c_x,c_y)，即以前一帧的目标中心点位置作为当前帧的剪裁中心，以矩形框作为第二包围盒进行标记，第二包围盒的高度为h，宽度为w，经过剪裁后得到的搜索区域的高度和宽度分别为k₂h和 k₂w。参数k₂用于控制搜索区域的大小；

特征提取及对比步骤S130：将目标区域与搜索区域输入卷积神经网络(CNN)，进行特征提取和特征对比，计算得到当前帧的目标区域；

帧间位移计算步骤S140：利用当前帧的目标区域和前一帧的目标区域，计算得到当前帧相对于前一帧目标的帧间位移；

判断步骤S150：判断当前帧是否为最后一帧，如果是，则跟踪结束，否则进入图片读取步骤S110，继续读取连续两帧图片，继续进行迭代的目标跟踪。

优选的，在区域设定步骤S120中，判断目标物体在图像中是否运动平稳为：比较在当前帧之前的连续三帧中相邻两帧的目标的帧间位移，如果连续三帧中相邻两帧的帧间位移相差较小，则认为运动稳定；如果连续三帧中相邻两帧的帧间位移相差较大，则认为运动速度剧烈变化。

优选的，在区域设定步骤S120中，判断连续三帧中相邻两帧的帧间位移相差较小是，是否小于前两帧帧间位移的1/3；

控制区域大小的k₂和k₁均取值为2。

优选的，在区域设定步骤S120中，为了避免由于运动速度变化过快，而导致当前帧目标的实际位置超出第二包围盒的情况，当速度发生剧烈变化时，增大第二包围盒的大小，即增大k₂的数值。

优选的，特征提取及对比步骤S130具体为，首先在卷积层对目标区域和搜索区域进行特征提取，然后将提取到的特征输入到全连接层，在全连接层对目标区域和搜索区域进行特征比较，最后计算后得到当前帧的目标区域。

本发明进一步公开了一种基于深度学习的目标跟踪装置，包括如下：

图片读取单元：连续读取两帧图片，包括前一帧图片和当前帧图片，所述前一帧图片具有已计算得知的目标位置，所述当前帧图片需要计算目标位置；

区域设定单元：分别设定并裁剪前一帧的目标区域和当前帧的搜索区域；

所述设定并裁剪当前帧的搜索区域具体为：判断物体在图像中运动是否平稳，如果速度稳定，则当前帧的搜索区域的中心点位置 c'＝(c'_x,c'_y)等于前一帧的已知目标的中心点位置c＝(c_x,c_y)加上前两帧图像目标的帧间位移S，如果速度剧烈变化，例如迅速减小或者增大，则当前帧的搜索区域的中心点位置c'＝(c'_x,c'_y)为前一帧的已知目标的中心点位置c＝(c_x,c_y)，即以前一帧的目标中心点位置作为当前帧的剪裁中心，以矩形框作为第二包围盒进行标记，第二包围盒的高度为h，宽度为w，经过剪裁后得到的搜索区域的高度和宽度分别为k₂h和k₂w。参数k₂用于控制搜索区域的大小；

特征提取及对比步骤：将目标区域与搜索区域输入卷积神经网络 (CNN)，进行特征提取和特征对比，计算得到当前帧的目标区域；

帧间位移计算单元：利用当前帧的目标区域和前一帧的目标区域，计算得到当前帧相对于前一帧目标的帧间位移；

判断单元：判断当前帧是否为最后一帧，如果是，则跟踪结束，否则继续由图片读取单元读取连续两帧图片，进行迭代的目标跟踪。

优选的，在区域设定单元中，判断物体在图像中是否运动平稳为：比较在当前帧之前的连续三帧中相邻两帧的目标的帧间位移，如果连续三帧中相邻两帧的帧间位移相差较小，则认为运动稳定；如果连续三帧中相邻两帧的帧间位移相差较大，则认为运动速度剧烈变化。

优选的，在区域设定单元中，判断连续三帧中相邻两帧的帧间位移相差较小是，是否小于前两帧帧间位移的1/3；

控制区域大小的k₂和k₁均取值为2。

优选的，在区域设定单元(220)中，为了避免由于运动速度变化过快，而导致当前帧目标的实际位置超出第二包围盒的情况，当速度发生剧烈变化时，增大第二包围盒的大小，即增大k₂的数值；和/或

特征提取及对比单元(230)首先在卷积层对目标区域和搜索区域进行特征提取，然后将提取到的特征输入到全连接层，在全连接层对目标区域和搜索区域进行特征比较，最后计算后得到当前帧的目标区域。

一种存储介质，用于存储计算机可执行指令，

所述计算机可执行指令在被处理器执行时执行如上述的目标跟踪方法。

本发明通过判断物体在图像中是否快速运动，或者说运动时是否平稳，从而通过上一帧目标中心点的位置来设定当前帧裁剪区域的中心点位置，相对于已有算法提高了目标跟踪准确率，目标重合度高，并基本保持了原有的高的跟踪速度，且具有较好的算法鲁棒性。

附图说明

图1是根据本发明具体实施例的基于深度学习的目标跟踪方法的原理示意图；

图2是根据本发明具体实施例的基于深度学习的目标跟踪方法的流程示意图；

图3是根据本发明具体实施例的基于深度学习的目标跟踪方法的运动模型示意图；

图4是根据本发明具体实施例的目标跟踪方法的跟踪鲁棒性的对比示例；

图5是根据本发明具体实施例的目标跟踪方法的跟踪鲁棒性的另一个对比示例

图6是根据本发明的基于深度学习的目标跟踪装置的模块图.

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

参见图1，示出了根据本发明的基于深度学习的目标跟踪方法的网络构架图。

本发明是一种迭代循环的方法，在前一帧中已知目标的位置，包括其目标中心，以目标位置为中心设定矩形框作为第一包围盒对目标物体进行标记，并扩大化后剪裁得到目标区域；通过前一帧的目标位置预测当前帧的搜索位置，并以搜索位置为中心设定矩形框作为第二包围盒，并扩大化后剪裁得到搜索区域，目标区域与搜索区域的大小可以相同也可以不同，然后输入卷积神经网络(CNN)进行计算从而得到当前帧的目标位置。

在本发明中优选使用Caffe(Convolution Architecture For FeatureExtraction)框架进行计算，网络的卷积层采用的是CaffeNet的前5个卷积层，后面3层是全连接层，每个全连接层具有4096个神经节点，全连接层最后的输出层具有4个神经节点，分别输出跟踪目标的左上和右下两对坐标值，从而计算得到当前帧的目标位置。

进一步的参见图2，示出了根据本发明的基于深度学习的目标跟踪方法的流程图，包括如下步骤：

图片读取步骤S110：连续读取两帧图片，包括前一帧图片和当前帧图片，所述前一帧图片具有已计算得知的目标位置，所述当前帧图片需要计算目标位置。

如上所述，本发明是一种循环迭代的算法，在步骤S110中，每次读取的连续两帧图片都有一张是重复上一次的，比如：本次读取了第t-1帧和第t帧，则第t-1的目标位置已知，需要计算第t帧的目标位置；下次读取的就是第t帧和第t+1帧，接着计算第t+1帧的剪裁中心。

所述设定并裁剪前一帧的目标区域具体为：根据前一帧已知目标的中心点位置c＝(c_x,c_y)，以矩形框作为第一包围盒对目标物体进行标记，第一包围盒的高度为h，宽度为w，经过剪裁后得到的目标区域的高度和宽度分别为k₁h和k₁w。参数k₁用于控制目标区域的大小；

所述设定并裁剪当前帧的搜索区域具体为：判断物体在图像中的运动是否平稳，如果运动稳定，则当前帧的搜索区域的中心点位置 c'＝(c'_x,c'_y)等于前一帧的已知目标的中心点位置c＝(c_x,c_y)加上前两帧图像目标的帧间位移S，如果速度剧烈变化，例如迅速减小或者增大，则当前帧的搜索区域的中心点位置c'＝(c'_x,c'_y)为前一帧的已知目标的中心点位置c＝(c_x,c_y)，即以前一帧的目标中心点位置作为当前帧的剪裁中心，以矩形框作为第二包围盒进行标记，第二包围盒的高度为h，宽度为w，经过剪裁后得到的搜索区域的高度和宽度分别为k₂h和 k₂w。参数k₂用于控制搜索区域的大小。

在一个实施例中，k₂和k₁均取值为2。

进一步的，判断物体在图像中是否运动平稳为：比较在当前帧之前的连续三帧中相邻两帧的目标的帧间位移，如果连续三帧中相邻两帧的帧间位移相差较小，例如小于前两帧帧间位移的1/3，则认为运动即速度稳定；如果连续三帧中相邻两帧的帧间位移相差较大，例如大于前两帧帧间位移的1/3，则认为速度剧烈变化。所述帧间位移即指的是目标连续两帧在图像中的相对位置的变化。

具体而言，首先将前一帧图片(第t-1帧)进行剪裁，跟踪目标位于剪裁后的图像块中间位置。在跟踪过程中，用矩形框作为第一包围盒对目标物体进行标记，设包围盒的中心点坐标为c＝(c_x,c_y)，高度为h，宽度为w，经过剪裁后得到的图片的高度和宽度分别为k₁h和k₁w。参数k₁用于控制目标区域的大小，决定了剪裁后的图片中背景信息的多少，k₁值越大，则剪裁的图片面积也就越大，所包含的背景信息相应增多；同样的，k₁值取的越小，则剪裁的图片面积随之变小，所包含的背景信息也就越少。对于运动速度剧烈变化的物体，应该增加k₁的值来扩大目标区域，本发明的实验环境下k₁的值取2。

对于当前帧而言，现实场景中，不同的物体一般具有不同的运动速度，有些物体的运动速度会非常快，可能还会剧烈变化(迅速减小或者迅速增大)。快速运动的目标物体经摄像机捕捉拍摄成视频并切分成帧之后，连续的两帧图片之间，目标物体在图片中位置(并非在场景中的绝对位置)会存在一定的帧间差，运动速度较低帧间差较小，运动速度较高则帧间差相应增大。

首先参见图3，示出了根据本发明具体实施例的基于深度学习的目标跟踪方法的运动模型示意图。

假设当前帧(第t帧)目标位于x_t位置处，第t-1帧目标位于x_t-1位置处，第t-2帧位于x_t-2位置处，第t-3帧位于x_t-3位置处，第t+1 帧位于x_t+1位置处，令：

s_t-2＝x_t-2-x_t-3……………………………(1)

s_t-1＝x_t-1-x_t-2………………………………(2) 其中，s_t-2表示第t-3帧与第t-2帧间的位移，方向为x_t-3指向x_t-2；s_t-1表示第t-2帧与第t-1帧间的位移，方向为x_t-2指向x_t-1。

下面将目标物体的运动速度分为减速和加速两个过程进行分别讨论：

(1)当目标物体的运动处于减速过程时，如x_t-3到x_t+1段的运动轨迹所示。

其中，x_t-3到x_t-1段的速度变化不明显，即s_t-2和s_t-1的大小相差不大；而x_t-1到x_t+1段，速度快速降为0。对于目标运动速度变化的快慢程度，经多次实验，本发明取

作为判断标准。

当

时，即连续三帧目标的位移量相差较小，表明目标物体的运动速度变化不大，如x_t-3到x_t段。此时，当前帧的剪裁中心x_t'的值按下式求得：

x_t'＝x_t-1+s_t-1…………………………(3)

由图3中可以看出，剪裁中心x_t'的位置与当前帧(第t帧)的实际位置x_t之间的距离远小于前一帧(第t-1帧)的实际位置x_t-1与当前帧(第t帧)的实际位置x_t之间的距离，说明本发明提出的这种运动模型对于快速运动的目标物体的跟踪，具有更加明显的优势。

当

时，即连续两帧的位移相差较大，表明目标物体的运动速度变化较大，如x_t-1到x_t+1段。此时，当前帧的剪裁中心x_t' 按下式求得：

x_t'＝x_t………………………………(4)

即这里，当速度剧烈变化时，把前一帧(第t-1帧)的目标中心作为当前帧(第t帧)的剪裁中心。另外，本发明中t的取值范围是 t≥4，对于第2帧和第3帧的跟踪，也同样适用于公式4。

(2)当目标物体的运动处于加速过程时，如x_t+1到x_t+5段的运动轨迹所示。其中，x_t+1到x_t+3段的速度由0快速增加，此时的剪裁中心对照x_t-1到x_t+1段进行求解；而x_t+3到x_t+5段的速度变化不明显，此时的剪裁中心对照x_t-3到x_t-1段进行求解。

假设当前帧图片(第t帧)中目标物体的中心点坐标为c'＝(c'_x,c'_y)，根据公式(3)和公式(4)计算得到当前帧的剪裁中心，并以此位置为中心，高度为h，宽度为w设定第二包围盒，然后以k₂h和k₂w设定搜索区域，k₂和k₁一样，同样取值为2。

因此，在本步骤中，首先通过相邻三帧的帧间位移来判断物体运动是否平稳，如果帧间位移的差值较小，即物体运动较为稳定时，则当前帧(第t帧)的剪裁中心由前一帧(第t-1帧)的目标位置加上之前两帧(第t-2和t-1帧)间的位移S求得；当其速度剧烈变化时(迅速减小或者增大)，帧间位移变化较大，仍然采用目标位置加上之前两帧间的位移S来预测当前帧的剪裁中心已经不具备参考意义，可能还会带来更大误差，因此，为了更加准确的预测当前帧的剪裁中心，在这里把前一帧(第t-1帧)的目标位置作为当前帧(第t帧) 的剪裁中心来进行计算。

进一步的，为了避免由于运动速度变化过快，而导致当前帧目标的实际位置超出第二包围盒的情况，当速度发生剧烈变化时，能够增大第二包围盒的大小，即增大k₂的数值，这样从而增加搜索比较的区域，以避免上述情况的发生。

特征提取及对比步骤S130：将目标区域与搜索区域输入卷积神经网络(CNN)，进行特征提取和特征对比，计算得到当前帧的目标区域。

具体的，首先在卷积层对目标区域和搜索区域进行特征提取，然后将提取到的特征输入到全连接层，在全连接层对目标区域和搜索区域进行特征比较，最后计算后得到当前帧的目标区域。

该步骤是使用卷积神经网络进行当前帧目标区域的获取，在使用之前，该卷积神经网络应当利用视频和/或图片进行深度学习，即训练。

帧间位移计算步骤S140：利用当前帧的目标区域和前一帧的目标区域，计算得到当前帧相对于前一帧目标的帧间位移。

该步骤是用于迭代计算中，在区域设定步骤中用于计算物体是否是运动速度发生剧烈变化，以及计算搜索区域的中心位置。

判断步骤S150：判断当前帧是否为最后一帧，如果是，则跟踪结束，否则，进入图片读取步骤S110，继续读取连续两帧图片，继续进行迭代的目标跟踪。

该步骤是用于判断目标跟踪是否已经结束还是应当继续进行。

本发明的网络训练采用如下方法：

1.训练集

训练集包括视频和图片两部分，其中视频来自于ALOV300++数据集，图片来自于ImageNet2012数据集。

ALOV300++数据集是一个视频数据集，常被用来检测各种目标跟踪算法的性能，其网址为：http://alov300pp.joomlafree.it/。 ALOV300++数据集中共有314段视频，包含14个类型的视频：Light、 SurfaceCover、Specularity、Transparency、Shape、MotionSmoothness、MotionCoherence、Clutter、Confusion、 LowContrast、Occlusion、MovingCamera、ZoomingCamera、 LongDuration，分别针对光照改变、遮挡、目标形变、摄像机移动等问题进行分类，可以有效的针对这些问题对神经网络进行训练，以更好的应对和处理这些难题。除了第14类LongDuration包含10段1-2 分钟的长视频外，其他视频都比较短，平均时长9.2秒每段，最大时长35秒。这些视频被切分成帧，以图片形式呈现，共约15万帧图片，包含314种不同类型的目标物体，所有图片中目标物体的位置均被手工标记了Ground Truth。

本发明将这314段视频序列分成两部分，划分方法是每隔5段视频抽取1段。例如，Light类型的视频共33段，抽取编号为1、6、 11、16、21、26、31共7段视频，其他类型的视频同样按照该方法进行划分。划分完成后，第一部分251段视频序列，包含11.8万张图片，用于训练网络；第二部分64段视频序列，包含3.2万张图片，用作验证集，用于神经网络超参数微调(hyper-parameter tuning)。

ImageNet2012数据集是一个海量的图片数据集，包含135万张图片，其中训练集120万张，验证集5万张，测试集10万张。鉴于 ImageNet2012数据集庞大的数据量，无法全部将其用于训练网络，将其中的测试集图片10万张作为本发明的训练集。本发明用该图片训练集对神经网络进行预训练，以充分利用ImageNet2012数据集海量的图片信息，增加神经网络的分类识别能力，使网络学会目标物体的表观模型。

2.测试集

测试集用的是VOT2016数据集，这也是一个视频数据集，共60 段视频，包含2.1万张图片，所有图片中目标物体的位置均被手工标记了Ground Truth，网址：http://www.votchallenge.net/vot2016/dataset.html。VOT2016数据集是一个目标跟踪标准数据集，使用它可以同目前最先进的各种目标跟踪算法进行对比和量化。VOT2016数据集包含丰富的物体种类，针对目标跟踪中的遮挡、光照改变、目标形变、相机移动等难题，均设有针对性的检测标签，所以，本发明采用该数据集对本发明算法的神经网络进行测试。

3.训练策略

先用ImageNet2012数据集中的部分图片对神经网络进行预训练，训练神经网络在已知图像A中目标物体的特征时，在图像B中准确定位目标物***置的能力，使网络学会目标物体的表观模型；接着用训练集中251段视频序列对神经网络进行训练，让神经网络学习不同种类物体的连续运动，让其获得跟踪视频序列中运动物体的能力，使网络学会目标物体的运动模型；最后用验证集中64段视频序列再次对神经网络进行训练，不断调整神经网络超参数(hyper-parameter tuning)，使其获得优秀的目标识别和跟踪能力。

实施例1：

在本实施例中，示出了利用本发明的方法与其他目标跟踪方法的对比示例。

目前，采用深度学习方法研究目标跟踪问题的算法大多较慢，最快的是2016年提出的基于回归网络的通用目标跟踪算法GOTURN (Generic Object Tracking UsingRegression Networks)。为了更加准确、客观的评价本发明算法的性能，本发明设计了多组对比实验和GOTURN算法进行对比，针对目标跟踪算法的准确性、实时性和鲁棒性三个方面的性能进行评价：用跟踪准确率和重合度对跟踪准确性进行量化，用跟踪速度对实时性进行量化，对于鲁棒性的评价本实验进行定性分析。

本发明所设计的对比实验使用的PC机的配置如表1所示：

表1实验装置参数配置

(1)目标跟踪的难点与挑战

测试集VOT2016包含60段视频序列，限于篇幅，本发明没有将 60段视频序列全部列出，而是挑选了8段有挑战性的视频进行展示。这8段视频序列包含了大部分目标跟踪问题中常出现的各种挑战和困难，比如相机抖动、光照改变、运动模糊、遮挡、目标尺度变化等，具体情况如表2所示：

表2视频序列中的各种挑战和困难

(2)跟踪准确性

本发明定义的目标跟踪准确性是这样计算的：首先计算跟踪结果和Ground Truth之间的中心点误差S_error，然后计算中心点误差S_error小于设定阈值t₀(本发明取t₀＝20像素)的跟踪目标帧数F_t和视频帧总数F的比值E，比值E称为目标跟踪的准确性，计算公式如下：

中心点误差S_error通过跟踪结果和Ground Truth之间的平均欧氏距离来计算，计算公式如下：

上式中，x和y分别表示跟踪结果在x方向和y方向上的坐标值；x_g和 y_g分别表示跟踪目标在x方向和y方向上坐标值的Ground Truth。

本发明在测试集VOT2016上做的8组对比实验的数据如表3所示：

表3跟踪准确率(％)

视频序列名称	GOTURN算法	本发明算法
			ball1	87.34	91.75
gymnastics2	89.91	95.06
			gymnastics3	50.07	81.40
hand	37.85	77.28
			leaves	24.60	63.18
motocross1	92.59	94.30
			road	71.36	83.86
soccer2	45.77	71.56

表3是GOTURN算法与本发明算法在测试集VOT2016上的跟踪准确率对比实验的部分统计结果。其中，对于ball1、gymnastics2和 motocross1三段序列的跟踪，GOTURN算法已经取得了不错的效果，但是本发明算法的表现更优秀，将跟踪准确率提高了几个百分点。剩余5段视频的跟踪，GOTURN算法的表现不佳，尤其是对于hand序列和leaves序列的跟踪，出现了严重的丢帧现象。由于目标物体较小，剪裁得到的搜索区域也相对较小，对于移动速度较快的物体，帧间位移过大导致目标“跑出”搜索区域，GOTURN算法的跟踪失效。而本发明算法在考虑了帧间位移的影响后，将跟踪准确率提高了较大幅度，其中hand序列和leaves序列的跟踪准确率提高了近40％。

(3)跟踪重合度

本发明定义的跟踪重合度是指目标物体的跟踪框和Ground Truth的标记框之间的比值，计算公式如下：

上式中，S表示跟踪重合度；R_g表示Ground Truth的跟踪框的区域大小；R表示目标物体的跟踪框的区域大小；符号∩表示取交集操作；符号∪表示取并集操作。根据公式7，可以看出跟踪重合度越高表明算法的跟踪准确性也就越高。表4列出了8种不同算法在测试集VOT2016中的跟踪重合度。

表4跟踪重合度(％)

表4是GOTURN算法与本发明算法在测试集VOT2016上的跟踪重合度对比实验的部分统计结果。上一小节中介绍的跟踪准确率衡量的是跟踪目标与Ground Truth之间距离的远近程度，而本小节中的跟踪重合度衡量的是跟踪目标的跟踪框与Ground Truth的标记框之间重合程度。一般来说，相距越近，则重合度也就越高，所以表4中的数据总体上和表3呈现出一致性。对于ball1、gymnastics2和 motocross1三段序列的跟踪，两种算法的表现都相对较好，而对于 hand序列和leaves序列的跟踪，两种算法的表现都不甚理想，但是本发明算法较GOTURN算法的跟踪重合度更高，表明本发明算法比 GOTURN算法更优秀。

(4)跟踪速度

本发明定义的跟踪速度是指某段被跟踪的视频帧总数与跟踪时间的比值，计算公式如下：

上式中，V表示跟踪速度；N表示某段被跟踪视频的总帧数；T表示跟踪这段视频的时长。表5列出了不同算法在测试集VOT2016中的跟踪速度。

表5跟踪速度(帧/秒)

本发明算法和GOTURN算法最大的区别是所采用的运动模型不同，GOTURN算法采用的运动模型过于简单，在跟踪快速运动的目标时表现不佳，本发明构建的运动模型主要用于解决快速运动目标的跟踪问题。本发明设计的运动模型只涉及到一些简单的帧间坐标运算，不涉及复杂的图像操作，算法复杂度增加不大，因此在提高了跟踪准确性的同时，基本上没有降低跟踪速度，基本保持了和GOTURN算法相当的跟踪速度。

(5)跟踪鲁棒性

对于运动速度较慢或者目标物体相对较大的视频序列的跟踪，本发明算法和GOTURN算法的表现相当。为了说明本发明算法的跟踪效果，同时又限于篇幅，挑选了2组运动速度较快或者目标物体相对较小的视频序列的跟踪结果，其中实线框表示GOTURN算法的跟踪结果，虚线框表示本文算法的跟踪结果。

两段视频包括足球和运动的摩托车，这两段视频序列包含了目标跟踪过程中大部分常见困难，同时，目标物体相对较小而且运动速度较快，这些问题给目标的正确跟踪带来了极大挑战。对于足球序列，足球体积相对较小，在被击打或者撞击地面后，其运动速度是很快的，使得目标物体“跑出”搜索区域，导致GOTURN算法跟踪失败。对于运动的摩托车，摩托车的运动速度相当快，而且拍摄距离比较远，使得拍到的图片中目标区域相对较小，这些问题对于GOTURN算法来说相当有挑战性。本发明算法在考虑了帧间差对于目标跟踪的影响后，构建了基于帧间差的运动模型，实验表明本发明算法和GOTURN算法相比具有较好的鲁棒性。

参见图6，本发明进一步公开了一种基于深度学习的目标跟踪装置，包括如下：

图片读取单元210：连续读取两帧图片，包括前一帧图片和当前帧图片，所述前一帧图片具有已计算得知的目标位置，所述当前帧图片需要计算目标位置；

区域设定单元220：分别设定并裁剪前一帧的目标区域和当前帧的搜索区域；

特征提取及对比单元230：将目标区域与搜索区域输入卷积神经网络(CNN)，进行特征提取和特征对比，计算得到当前帧的目标区域；

帧间位移计算单元240：利用当前帧的目标区域和前一帧的目标区域，计算得到当前帧相对于前一帧目标的帧间位移；

判断单元250：判断当前帧是否为最后一帧，如果是，则跟踪结束，否则继续由图片读取单元读取连续两帧图片，进行迭代的目标跟踪。

进一步的，在区域设定单元220中，判断物体在图像中是否运动平稳为：比较在当前帧之前的连续三帧中相邻两帧的目标的帧间位移，如果连续三帧中相邻两帧的帧间位移相差较小，则认为运动稳定；如果连续三帧中相邻两帧的帧间位移相差较大，则认为运动速度剧烈变化。

进一步的，在区域设定单元220中，判断连续三帧中相邻两帧的帧间位移相差较小是，是否小于前两帧帧间位移的1/3；

控制区域大小的k₂和k₁均取值为2。

进一步的，在区域设定单元220中，为了避免由于运动速度变化过快，而导致当前帧目标的实际位置超出第二包围盒的情况，当速度发生剧烈变化时，增大第二包围盒的大小，即增大k₂的数值；和/或

特征提取及对比单元230首先在卷积层对目标区域和搜索区域进行特征提取，然后在全连接层对目标区域和搜索区域进行特征比较，最后计算后得到当前帧的目标区域。

本发明还进一步公开了一种存储介质，用于存储计算机可执行指令，

所述计算机可执行指令在被处理器执行时执行上述的方法。

如本领域技术人员将意识到的，本发明的各个方面可以被实现为***、方法或计算机程序产品。因此，本发明的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“***”的将软件方面与硬件方面相结合的实施方式。此外，本发明的方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体***、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器 (RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本文件的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行***、设备或装置使用的程序或结合指令执行***、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行***、设备或装置使用的或结合指令执行***、设备或装置使用的程序进行通信、传播或传输。

可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。

用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网 (LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims

1.一种基于深度学习的目标跟踪方法，包括如下步骤：

所述设定并裁剪前一帧的目标区域具体为：根据前一帧已知目标的中心点位置c＝(c_x,c_y)，作为中心点，以矩形框作为第一包围盒对目标物体进行标记，第一包围盒的高度为h，宽度为w，经过剪裁后得到的目标区域的高度和宽度分别为k₁h和k₁w，参数k₁用于控制目标区域的大小；

所述设定并裁剪当前帧的搜索区域具体为：判断物体在图像中运动是否平稳，如果速度稳定，则当前帧的搜索区域的中心点位置c′＝(c′_x,c′_y)等于前一帧的已知目标的中心点位置c＝(c_x,c_y)加上前两帧图像目标的帧间位移S，如果速度剧烈变化，则当前帧的搜索区域的中心点位置c′＝(c′_x,c′_y)为前一帧的已知目标的中心点位置c＝(c_x,c_y)，即以前一帧的目标中心点位置作为当前帧的剪裁中心，以矩形框作为第二包围盒进行标记，第二包围盒的高度为h，宽度为w，经过剪裁后得到的搜索区域的高度和宽度分别为k₂h和k₂w，参数k₂用于控制搜索区域的大小；

判断步骤S150：判断当前帧是否为最后一帧，如果是，则跟踪结束，否则进入图片读取步骤S110，继续读取连续两帧图片，继续进行迭代的目标跟踪；

在区域设定步骤S120中，判断目标物体在图像中是否运动平稳为：比较在当前帧之前的连续三帧中相邻两帧的目标的帧间位移，如果连续三帧中相邻两帧的帧间位移相差较小，则认为运动稳定；如果连续三帧中相邻两帧的帧间位移相差较大，则认为运动速度剧烈变化；

在区域设定步骤S120中，判断连续三帧中相邻两帧的帧间位移相差较小是，是否小于前两帧帧间位移的1/3；

控制区域大小的k₂和k₁均取值为2。

2.根据权利要求1所述的目标跟踪方法，其特征在于：

在区域设定步骤S120中，为了避免由于运动速度变化过快，而导致当前帧目标的实际位置超出第二包围盒的情况，当速度发生剧烈变化时，增大第二包围盒的大小，即增大k₂的数值。

3.根据权利要求1所述的目标跟踪方法，其特征在于：

特征提取及对比步骤S130具体为，首先在卷积层对目标区域和搜索区域进行特征提取，然后将提取到的特征输入到全连接层，在全连接层对目标区域和搜索区域进行特征比较，最后计算后得到当前帧的目标区域。

4.一种基于深度学习的目标跟踪装置，包括如下：

图片读取单元(210)：连续读取两帧图片，包括前一帧图片和当前帧图片，所述前一帧图片具有已计算得知的目标位置，所述当前帧图片需要计算目标位置；

区域设定单元(220)：分别设定并裁剪前一帧的目标区域和当前帧的搜索区域；

特征提取及对比步骤(230)：将目标区域与搜索区域输入卷积神经网络(CNN)，进行特征提取和特征对比，计算得到当前帧的目标区域；

帧间位移计算单元(240)：利用当前帧的目标区域和前一帧的目标区域，计算得到当前帧相对于前一帧目标的帧间位移；

判断单元(250)：判断当前帧是否为最后一帧，如果是，则跟踪结束，否则继续由图片读取单元读取连续两帧图片，进行迭代的目标跟踪；

在区域设定单元(220)中，判断物体在图像中是否运动平稳为：比较在当前帧之前的连续三帧中相邻两帧的目标的帧间位移，如果连续三帧中相邻两帧的帧间位移相差较小，则认为运动稳定；如果连续三帧中相邻两帧的帧间位移相差较大，则认为运动速度剧烈变化；

在区域设定单元(220)中，判断连续三帧中相邻两帧的帧间位移相差较小是，是否小于前两帧帧间位移的1/3；

控制区域大小的k₂和k₁均取值为2。

5.根据权利要求4所述的目标跟踪装置，其特征在于：

在区域设定单元(220)中，为了避免由于运动速度变化过快，而导致当前帧目标的实际位置超出第二包围盒的情况，当速度发生剧烈变化时，增大第二包围盒的大小，即增大k₂的数值；和/或

6.一种存储介质，用于存储计算机可执行指令，

所述计算机可执行指令在被处理器执行时执行如权利要求1-3中任一项所述的目标跟踪方法。