CN107452025A

CN107452025A - 目标跟踪方法、装置及电子设备

Info

Publication number: CN107452025A
Application number: CN201710710392.4A
Authority: CN
Inventors: 陈志超; 马骁; 周剑
Original assignee: Chengdu Tongjia Youbo Technology Co Ltd
Current assignee: Chengdu Tongjia Youbo Technology Co Ltd
Priority date: 2017-08-18
Filing date: 2017-08-18
Publication date: 2017-12-08

Abstract

本发明涉及图像处理技术领域，提供一种目标跟踪方法、装置及电子设备，所述方法包括：首先获取视频的前一帧图像，标记出前一帧图像中的待跟踪目标的位置，然后通过将待跟踪目标的特征图与后一帧图像的特征图进行图像通道连接，并进行待跟踪目标的位置回归，确定出待跟踪目标在后一帧图像中的位置坐标，实现目标跟踪。与现有的基于图像的局部搜索方法相比，本发明支持全图搜索，而与现有的基于Edge box的目标跟踪方法相比，本发明通过端到端的全图搜索实现目标跟踪，并不依赖于目标本身，能够在目标丢失之后快速找回，有效实现目标跟踪。

Description

目标跟踪方法、装置及电子设备

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种目标跟踪方法、装置及电子设备。

背景技术

在单目标跟踪中，如何在跟踪算法丢失目标后重新找回，一直是单目标跟踪的难点。现有的许多目标跟踪方法都是基于图像的局部搜索方法，例如粒子滤波、相关滤波等，这种跟踪方法实现的条件是目标必须出现在局部区域内部，当目标不出现在局部区域内部的时候，跟踪方法就会失效。近年来，出现了一些使用全图搜索的跟踪算法，例如2016的CVPR(Conference on Computer Vision and Pattern Recognition，国际计算机视觉与模式识别会议)提出的基于Edge box(边缘信息)的目标跟踪方法，但是这种方法非常依赖目标的质量，因此，在许多情况下，仍然无法检测出丢失的目标。

发明内容

本发明的目的在于提供一种目标跟踪方法、装置及电子设备，用以改善上述问题。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明提供了一种目标跟踪方法，所述方法包括：获取视频的前一帧图像，标记出前一帧图像中的待跟踪目标的位置；根据待跟踪目标的位置，利用预设的卷积神经网络获取第一特征图，其中，第一特征图为待跟踪目标的特征图；根据视频的后一帧图像，利用预设的卷积神经网络获取第二特征图，其中，后一帧图像为视频中与前一帧图像连续的图像，第二特征图为后一帧图像的特征图；将第一特征图和第二特征图进行图像通道连接，得到第三特征图，其中，第三特征图的图像通道数为第一特征图的图像通道数和第二特征图的图像通道数之和；在第三特征图中，进行待跟踪目标的位置回归，得到待跟踪目标在后一帧图像中的位置坐标。

第二方面，本发明提供了一种目标跟踪装置，所述装置包括第一图像获取模块、第一特征图获取模块、第二特征图获取模块、图像通道连接模块及位置回归模块。其中，第一图像获取模块用于获取视频的前一帧图像，标记出前一帧图像中的待跟踪目标的位置；第一特征图获取模块用于根据待跟踪目标的位置，利用预设的卷积神经网络获取第一特征图，其中，第一特征图为待跟踪目标的特征图；第二特征图获取模块用于根据视频的后一帧图像，利用预设的卷积神经网络获取第二特征图，其中，后一帧图像为视频中与前一帧图像连续的图像，第二特征图为后一帧图像的特征图；图像通道连接模块，用于将第一特征图和第二特征图进行图像通道连接，得到第三特征图，其中，第三特征图的图像通道数为第一特征图的图像通道数和第二特征图的图像通道数之和；位置回归模块，用于在第三特征图中，进行待跟踪目标的位置回归，得到待跟踪目标在后一帧图像中的位置坐标。

第三方面，本发明提供了一种电子设备，所述电子设备包括存储器、处理器、以及目标跟踪装置，所述装置存储于所述存储器中并包括一个或多个由所述处理器执行的软件功能模组。所述装置包括第一图像获取模块、第一特征图获取模块、第二特征图获取模块、图像通道连接模块及位置回归模块。其中，第一图像获取模块用于获取视频的前一帧图像，标记出前一帧图像中的待跟踪目标的位置；第一特征图获取模块用于根据待跟踪目标的位置，利用预设的卷积神经网络获取第一特征图，其中，第一特征图为待跟踪目标的特征图；第二特征图获取模块用于根据视频的后一帧图像，利用预设的卷积神经网络获取第二特征图，其中，后一帧图像为视频中与前一帧图像连续的图像，第二特征图为后一帧图像的特征图；图像通道连接模块，用于将第一特征图和第二特征图进行图像通道连接，得到第三特征图，其中，第三特征图的图像通道数为第一特征图的图像通道数和第二特征图的图像通道数之和；位置回归模块，用于在第三特征图中，进行待跟踪目标的位置回归，得到待跟踪目标在后一帧图像中的位置坐标。

相对现有技术，本发明具有以下有益效果：本发明提供的一种目标跟踪方法、装置及电子设备，首先获取视频的前一帧图像，标记出前一帧图像中的待跟踪目标的位置，然后通过将待跟踪目标的特征图与后一帧图像的特征图进行图像通道连接，并进行待跟踪目标的位置回归，确定出待跟踪目标在后一帧图像中的位置坐标，实现目标跟踪。与现有的基于图像的局部搜索方法相比，本发明提供的目标跟踪方法支持全图搜索，而与现有的基于Edge box的目标跟踪方法相比，本发明通过端到端的全图搜索实现目标跟踪，并不依赖于目标本身，能够在目标丢失之后快速找回，有效实现目标跟踪。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的电子设备的方框示意图。

图2示出了本发明实施例提供的目标跟踪方法流程图。

图3为图2示出的步骤S103的子步骤流程图。

图4为图2示出的步骤S107的子步骤流程图。

图5示出了本发明实施例提供的目标跟踪装置的方框示意图。

图6为图5示出的目标跟踪装置中微调模块的方框示意图。

图7为图5示出的目标跟踪装置中位置回归模块的方框示意图。

图标：100-电子设备；101-存储器；102-存储控制器；103-处理器；104-外设接口；105-显示屏；200-目标跟踪装置；201-第一图像获取模块；202-预训练模块；203-微调模块；2031-人脸检测单元；2032-训练样本生成单元；2033-微调单元；204-第一特征图获取模块；205-第二特征图获取模块；206-图像通道连接模块；207-位置回归模块；2071-特征图划分单元；2072-位置回归单元。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参照图1，图1示出了本发明实施例提供的电子设备100的方框示意图。电子设备100可以是，但不限于智能手机、平板电脑、膝上型便携计算机、车载电脑、个人数字助理(personal digital assistant，PDA)、穿戴式移动终端等等。所述电子设备100包括目标跟踪装置200、存储器101、存储控制器102、处理器103、外设接口104和显示屏105。

所述存储器101、存储控制器102、处理器103、外设接口104和显示屏105各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述目标跟踪装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器101中或固化在所述电子设备100的操作***(operating system，OS)中的软件功能模块。所述处理器103用于执行存储器101中存储的可执行模块，例如所述目标跟踪装置200包括的软件功能模块或计算机程序。

其中，存储器101可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器101用于存储程序，所述处理器103在接收到执行指令后，执行所述程序，本发明任一实施例揭示的流程定义的服务器所执行的方法可以应用于处理器103中，或者由处理器103实现。

处理器103可以是一种集成电路芯片，具有信号处理能力。上述的处理器103可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)、语音处理器以及视频处理器等；还可以是数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器103也可以是任何常规的处理器等。

所述外设接口104用于将各种输入/输出装置耦合至处理器103以及存储器101。在一些实施例中，外设接口104、处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

显示屏105用于实现用户与电子设备100之间的交互，具体可以是，但不限于显示屏105将需要进行目标跟踪的视频或图像进行显示。

第一实施例

请参照图2，图2示出了本发明实施例提供的目标跟踪方法流程图。目标跟踪方法包括以下步骤：

步骤S101，获取视频的前一帧图像，标记出前一帧图像中的待跟踪目标的位置。

在本发明实施例中，前一帧图像可以是视频的起始帧图像，也可以是视频中除起始帧以外的任意一帧图像。待跟踪目标可以是，但不限于人脸。

步骤S102，利用监督式方法，对包含多个人脸图像的离线人脸数据集进行预训练，得到卷积神经网络。

在本发明实施例中，离线人脸数据集可以是包含多个人脸图像的数据集，这些人脸图像可以预先从网络上下载得到。卷积神经网络用于进行特征提取，其结构可以是：输入层-卷积和采样层-输出层，其中，输入层是输入的人脸图像，卷积和采样层包括卷积处理和Max Pooling处理，输出层的每个神经元对应一个人脸特征。

在本发明实施例中，由于人脸图像的特征主要由曲线和直线构成，而曲线也可以由许多类似圆弧的特征来表示，再加上矩形的直角正交特征，因此二维图像的形状特征分为三类：圆弧、矩形、直线，故采用三层模糊卷积神经网络对这三类特征进行提取，因为三层卷积神经网络既不会加大工作量，又能较好的进行特征识别。

作为一种实施方式，在建立卷积神经网络时，要考虑输入数据的类型，由于在本发明实施例中输入数据的类型为图像，图像不易量化为模糊型数据，故引入模糊集对输入的人脸图像进行处理。对人脸图像进行模糊化的方法可以是采用隶属函数，在隶属函数的作用下，将人脸图像的图像信息分成高、中、低三个部分，作为卷积神经网络输入层的三个节点，从卷积神经网络的输入层将图像信息输入进行训练。另外，由于引入了模糊集，故需要给每个输入节点一个相应的模糊加权算子，的模糊加权算子的范围在[0，1]之间，由模糊隶属度和特征矩阵组成。

构架模糊加权算子可以采用公式W＝{w₁,w₂,w₃}，其中，W可以是直线、圆弧、直角归一化的模糊特征隶属度，A为直线、圆弧、直角对应的特征矩阵。

特征矩阵的计算方法可以是：首先，在直角坐标系下进行解析表示；第二，在水平和垂直方向对离散点的二阶差分表示；第三，通过将前面两个步骤得到的表示式进行联立确定特征判别表达式；第四，由特征判别表达式提取特征矩阵。

步骤S103，对卷积神经网络进行微调，得到微调后的卷积神经网络。

在本发明实施例中，对包含多个人脸图像的离线人脸数据集进行预训练得到卷积神经网络之后，需要对卷积神经网络进行微调，得到用于特征提取的微调后的卷积神经网络，作为一种实施方式，对卷积神经网络进行微调的方法可以是：首先，使用人脸检测器对视频中的每一帧图像进行人脸检测，得到训练数据；其次，根据每一帧图像中的每个像素点与人脸的位置关系，对每一帧图像中的像素点进行区分，生成正负两类训练样本；最后，以获得的正负训练样本作为输入，使用Siamese网络对步骤S102中预训练的卷积神经网络进行微调，在线学习更具区分性和适应性的人脸特征。

在本实施例中，Siamese网络由结构相同且权值共享的两个卷积神经网络组成，以两张人脸图像作为输入，使用对比损失函数对步骤S102中预训练的卷积神经网络进行微调。Siamese网络中，人脸特征提取的过程可以表示为f(x)＝Conv(x,w)，其中，Conv为映射函数，x是输入的人脸图像，f(x)表示提取到的特征向量。

请参照图3，步骤S103还包括以下子步骤：

子步骤S1031，对视频中的每一帧图像进行人脸检测，得到训练数据。

子步骤S1032，在训练数据中，对搜索区域的位置点进行区分，生成正负两类训练样本。

在本发明实施例中，对视频中的每一帧图像进行人脸检测，得到训练数据之后，对于视频中的每一帧图像，根据图像中每个像素点与人脸的位置关系，对像素点进行区分，生成正负两类训练样本。像素点区分的方法可以是：以人脸为中心，将人脸预设范围内的像素点作为正训练样本，将这个范围以外的其它像素点作为负训练样本，预设范围可以根据人脸在图像中的具***置及大小来确定。

子步骤S1033，以获得的正负训练样本作为输入，使用Siamese网络对预训练的卷积神经网络进行微调，得到微调后的卷积神经网络，其中，Siamese网络由结构相同且权值共享的两个卷积神经网络组成。

步骤S104，根据待跟踪目标的位置，利用预设的卷积神经网络获取第一特征图，其中，第一特征图为待跟踪目标的特征图。

在本发明实施例中，预设的卷积神经网络可以是利用步骤S103得到的微调后的卷积神经网络，根据待跟踪目标的位置，获取第一特征图的方法可以是：利用微调后的卷积神经网络，对待跟踪目标进行特征提取，得到第一特征图。

步骤S105，根据视频的后一帧图像，利用预设的卷积神经网络获取第二特征图，其中，后一帧图像为视频中与前一帧图像连续的图像，第二特征图为后一帧图像的特征图。

在本发明实施例中，预设的卷积神经网络可以是利用步骤S103得到的微调后的卷积神经网络，根据视频的后一帧图像，获取第二特征图的方法可以是：利用微调后的卷积神经网络，对后一帧图像进行特征提取，得到第二特征图。

步骤S106，将第一特征图和第二特征图进行图像通道连接，得到第三特征图，其中，第三特征图的图像通道数为第一特征图的图像通道数和第二特征图的图像通道数之和。

在本发明实施例中，得到第一特征图和第二特征图之后，将第一特征图和第二特征图进行图像通道连接，得到第三特征图的方法可以是：获取第一特征图每个像素点的图像通道，并获取第二特征图每个像素点的图像通道，然后将第一特征图每个像素点的图像通道和第二特征图每个像素点的图像通道进行像素级图像通道连接，就能得倒第三特征图，第三特征图的图像通道数为第一特征图的图像通道数和第二特征图的图像通道数之和，像素级通道连接的方法能够有效避免目标跟踪过程中的重检测问题。

步骤S107，在第三特征图中，进行待跟踪目标的位置回归，得到待跟踪目标在后一帧图像中的位置坐标。

在本发明实施例中，采用基于YOLO的目标位置回归方法，在第三特征图中进行待跟踪目标的位置回归。采用基于YOLO的目标位置回归方法可以是：首先，将第三特征图划分成S×S个(例如，7×7)网格；其次，对于每个网格，都预测2个边框，其中，每个边框是待跟踪目标的置信度以及每个边框区域在多个类别上的概率；最后，根据上一步可以预测出7*7*2个目标窗口，去除可能性比较低的目标窗口，对待跟踪目标的位置进行直接回归，再根据待跟踪目标的位置确定出后一帧图像中的位置坐标，即可完成目标跟踪。

在本发明实施例中，YOLO使用均方和误差作为LOSS函数计算第三特征图中每个像素点的损失，即最终输出的第三特征图中与真实的后一帧图像中的对应的每个像素点的误差。LOSS函数可以根据下式来表示：

其中，x、y、c、p为预测值；x、y、w、为标注值；表示待跟踪目标落入网格i中，表示待跟踪目标落入网格i的第j个bounding box内；表示表示待跟踪目标未落入网格i的第j个包围盒内；α_coord＝5；α_noobj＝0.5；B表示每个网格可以预测的B个boundingbox。

请参照图4，步骤S107还包括以下子步骤：

子步骤S1071，将第三特征图分成S×S个网格。

子步骤S1072，每个网格对待跟踪目标的位置进行预测回归，得到待跟踪目标在后一帧图像中的位置坐标。

需要说明的是，如果前一帧图像不是起始帧图像，则前一帧图像中的待跟踪目标的位置也是利用以上方法确定的。换句话说，如果要确定第四帧图像中待跟踪目标的位置，则首先从起始帧开始，将起始帧图像作为前一帧图像，将第二帧图像作为后一帧图像，利用以上方法确定出第二帧图像中的待跟踪目标的位置；接下来，将第二帧图像作为前一帧图像，将第三帧图像作为后一帧图像，利用以上方法确定出第三帧图像中的待跟踪目标的位置；再接下来，将第三帧图像作为前一帧图像，将第四帧图像作为后一帧图像，利用以上方法确定出第四帧图像中的待跟踪目标的位置，这样利用端到端的方法，就能最终确定第四帧图像中待跟踪目标的位置。

在本发明实施例中，首先，对数据集进行预训练，得到卷积神经网络，再对卷积神经网络进行微调，用微调后的卷积神经网络提取待跟踪目标的特征及后一帧图像全图的特征，提升了目标跟踪的效率和处理效果；其次，通过将待跟踪目标的特征图与后一帧图像的特征图进行像素级图像通道连接，能够有效避免目标跟踪过程中的重检测问题；最后，进行待跟踪目标的位置回归，最终确定出待跟踪目标在后一帧图像中的位置坐标；利用YOLO方法进行待跟踪目标的位置回归，确定出待跟踪目标在后一帧图像中的位置坐标，实现目标跟踪，提高了目标跟踪的速度。

第二实施例

请参照图5，图5示出了本发明实施例提供的目标跟踪装置200的方框示意图。目标跟踪装置200包括第一图像获取模块201、预训练模块202、微调模块203、第一特征图获取模块204、第二特征图获取模块205、图像通道连接模块206及位置回归模块207。

第一图像获取模块201，用于获取视频的前一帧图像，标记出前一帧图像中的待跟踪目标的位置。

在本发明实施例中，第一图像获取模块201可以用于执行步骤S101。

预训练模块202，用于利用监督式方法，对包含多个人脸图像的离线人脸数据集进行预训练，得到卷积神经网络。

在本发明实施例中，预训练模块202可以用于执行步骤S102。

微调模块203，用于对卷积神经网络进行微调，得到微调后的卷积神经网络。

在本发明实施例中，微调模块203可以用于执行步骤S103。

请参照图6，图6为图5示出的目标跟踪装置200中微调模块203的方框示意图。微调模块203包括人脸检测单元2031、训练样本生成单元2032及微调单元2033。

人脸检测单元2031，用于对视频中的每一帧图像进行人脸检测，得到训练数据。

在本发明实施例中，人脸检测单元2031可以用于执行子步骤S1031。

训练样本生成单元2032，用于在训练数据中，对搜索区域的位置点进行区分，生成正负两类训练样本。

在本发明实施例中，训练样本生成单元2032可以用于执行子步骤S1032。

微调单元2033，用于以获得的正负训练样本作为输入，使用Siamese网络对预训练的卷积神经网络进行微调，得到微调后的卷积神经网络，其中，Siamese网络由结构相同且权值共享的两个卷积神经网络组成。

在本发明实施例中，微调单元2033可以用于执行子步骤S1033。

第一特征图获取模块204，用于根据待跟踪目标的位置，利用预设的卷积神经网络获取第一特征图，其中，第一特征图为待跟踪目标的特征图。

在本发明实施例中，第一特征图获取模块204可以用于执行步骤S104。

第二特征图获取模块205，用于根据视频的后一帧图像，利用预设的卷积神经网络获取第二特征图，其中，后一帧图像为视频中与前一帧图像连续的图像，第二特征图为后一帧图像的特征图。

在本发明实施例中，第二特征图获取模块205可以用于执行步骤S105。

图像通道连接模块206，用于将第一特征图和第二特征图进行图像通道连接，得到第三特征图，其中，第三特征图的图像通道数为第一特征图的图像通道数和第二特征图的图像通道数之和。

在本发明实施例中，图像通道连接模块206可以用于执行步骤S106。

位置回归模块207，用于在第三特征图中，进行待跟踪目标的位置回归，得到待跟踪目标在后一帧图像中的位置坐标。

在本发明实施例中，位置回归模块207可以用于执行步骤S107。

请参照图7，图7为图5示出的目标跟踪装置200中位置回归模块207的方框示意图。位置回归模块207包括特征图划分单元2071及位置回归单元2072。

特征图划分单元2071，用于将第三特征图分成S×S个网格。

在本发明实施例中，特征图划分单元2071可以用于执行子步骤S1071。

位置回归单元2072，用于每个网格对待跟踪目标的位置进行预测回归，得到待跟踪目标在后一帧图像中的位置坐标。

在本发明实施例中，位置回归单元2072可以用于执行子步骤S1072。

综上所述，本发明提供的一种目标跟踪方法、装置及电子设备，所述方法包括：获取视频的前一帧图像，标记出前一帧图像中的待跟踪目标的位置；根据待跟踪目标的位置，利用预设的卷积神经网络获取第一特征图，其中，第一特征图为待跟踪目标的特征图；根据视频的后一帧图像，利用预设的卷积神经网络获取第二特征图，其中，后一帧图像为视频中与前一帧图像连续的图像，第二特征图为后一帧图像的特征图；将第一特征图和第二特征图进行图像通道连接，得到第三特征图，其中，第三特征图的图像通道数为第一特征图的图像通道数和第二特征图的图像通道数之和；在第三特征图中，进行待跟踪目标的位置回归，得到待跟踪目标在后一帧图像中的位置坐标。与现有的基于图像的局部搜索方法相比，本发明提供的目标跟踪方法支持全图搜索，而与现有的基于Edge box的目标跟踪方法相比，本发明通过端到端的全图搜索实现目标跟踪，并不依赖于目标本身，能够在目标丢失之后快速找回，有效实现目标跟踪。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.一种目标跟踪方法，其特征在于，所述方法包括：

获取视频的前一帧图像，标记出所述前一帧图像中的待跟踪目标的位置；

根据所述待跟踪目标的位置，利用预设的卷积神经网络获取第一特征图，其中，所述第一特征图为所述待跟踪目标的特征图；

根据所述视频的后一帧图像，利用预设的卷积神经网络获取第二特征图，其中，所述后一帧图像为所述视频中与前一帧图像连续的图像，所述第二特征图为所述后一帧图像的特征图；

将所述第一特征图和所述第二特征图进行图像通道连接，得到第三特征图，其中，所述第三特征图的图像通道数为所述第一特征图的图像通道数和所述第二特征图的图像通道数之和；

在所述第三特征图中，进行所述待跟踪目标的位置回归，得到所述待跟踪目标在所述后一帧图像中的位置坐标。

2.如权利要求1所述的方法，其特征在于，所述根据所述待跟踪目标的位置，利用预设的卷积神经网络获取第一特征图的步骤之前，还包括：

利用监督式方法，对包含多个人脸图像的离线人脸数据集进行预训练，得到卷积神经网络；

对所述卷积神经网络进行微调，得到微调后的卷积神经网络。

3.如权利要求2所述的方法，其特征在于，所述对所述卷积神经网络进行微调，得到微调后的卷积神经网络的步骤，包括：

对所述视频中的每一帧图像进行人脸检测，得到训练数据；

在所述训练数据中，对搜索区域的位置点进行区分，生成正负两类训练样本；

以获得的正负训练样本作为输入，使用Siamese网络对预训练的卷积神经网络进行微调，得到微调后的卷积神经网络，其中，所述Siamese网络由结构相同且权值共享的两个卷积神经网络组成。

4.如权利要求2所述的方法，其特征在于，所述根据所述待跟踪目标的位置，利用预设的卷积神经网络获取第一特征图的步骤，包括：

利用微调后的卷积神经网络对所述待跟踪目标进行特征提取，得到第一特征图。

5.如权利要求2所述的方法，其特征在于，所述根据所述视频的后一帧图像，利用预设的卷积神经网络获取第二特征图的步骤，包括：

利用微调后的卷积神经网络对所述后一帧图像进行特征提取，得到第二特征图。

6.如权利要求1所述的方法，其特征在于，对所述第三特征图进行所述待跟踪目标的位置回归，得到所述待跟踪目标在所述后一帧图像中的位置坐标的步骤，包括：

将所述第三特征图分成S×S个网格；

每个所述网格对所述待跟踪目标的位置进行预测回归，得到所述待跟踪目标在所述后一帧图像中的位置坐标。

7.一种目标跟踪装置，其特征在于，所述装置包括：

第一图像获取模块，用于获取视频的前一帧图像，标记出所述前一帧图像中的待跟踪目标的位置；

第一特征图获取模块，用于根据所述待跟踪目标的位置，利用预设的卷积神经网络获取第一特征图，其中，所述第一特征图为所述待跟踪目标的特征图；

第二特征图获取模块，用于根据所述视频的后一帧图像，利用预设的卷积神经网络获取第二特征图，其中，所述后一帧图像为所述视频中与前一帧图像连续的图像，所述第二特征图为所述后一帧图像的特征图；

图像通道连接模块，用于将所述第一特征图和所述第二特征图进行图像通道连接，得到第三特征图，其中，所述第三特征图的图像通道数为所述第一特征图的图像通道数和所述第二特征图的图像通道数之和；

位置回归模块，用于在所述第三特征图中，进行所述待跟踪目标的位置回归，得到所述待跟踪目标在所述后一帧图像中的位置坐标。

8.如权利要求7所述的装置，其特征在于，所述装置还包括：

预训练模块，用于利用监督式方法，对包含多个人脸图像的离线人脸数据集进行预训练，得到卷积神经网络；

微调模块，用于对所述卷积神经网络进行微调，得到微调后的卷积神经网络。

9.如权利要求7所述的装置，其特征在于，所述位置回归模块包括：

特征图划分单元，用于将所述第三特征图分成S×S个网格；

位置回归单元，用于每个所述网格对所述待跟踪目标的位置进行预测回归，得到所述待跟踪目标在所述后一帧图像中的位置坐标。

10.一种电子设备，其特征在于，所述电子设备包括：

存储器；

处理器；以及

目标跟踪装置，所述装置存储于所述存储器中并包括一个或多个由所述处理器执行的软件功能模组，其包括：