CN108960086B

CN108960086B - 基于生成对抗网络正样本增强的多姿态人体目标跟踪方法

Info

Publication number: CN108960086B
Application number: CN201810635079.3A
Authority: CN
Inventors: 周雪; 周琦栋; 邹见效; 徐红兵
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2021-06-04
Anticipated expiration: 2038-06-20
Also published as: CN108960086A

Abstract

本发明公开了一种基于生成对抗网络正样本增强的多姿态人体目标跟踪方法，分别对StarGAN网络模型和MDNet算法模型进行预训练，然后采用首帧标定的人体目标的目标矩形框对MDNet算法模型进行初始化，持续采用MDNet算法模型进行跟踪，提取上一帧跟踪结果对应的目标矩形框图像并添加姿态标签输入StarGAN网络模型，将StarGAN网络模型中生成器网络的输出作为正样本，作为MDNet算法模型更新训练时所采用的正样本的一部分，在跟踪过程中根据需要对MDNet算法模型进行更新训练。本发明能够提高MDNet算法模型对人体目标跟踪的准确度，抑制跟踪漂移。

Description

基于生成对抗网络正样本增强的多姿态人体目标跟踪方法

技术领域

本发明属于目标跟踪技术领域，更为具体地讲，涉及一种基于生成对抗网络正样本增强的多姿态人体目标跟踪方法。

背景技术

人体目标跟踪任务中，人体姿态变化会导致跟踪漂移或者失败，其原因是当人体发生形变或者角度变化时，其表观特征会发生变化，与初始跟踪时的目标有较大差异。针对此问题，一般传统的跟踪方法会根据先验知识选用对姿态变化较为鲁棒的目标特征，例如颜色特征及轮廓特征。大多数具有模型更新环节的跟踪算法利用人体目标运动的连续性，跟踪算法的模型更新基于对历史帧图像目标周围的采样训练，使得跟踪模型能够较好地跟踪变化平滑缓慢的人体目标，学习并适应目标的变化。而基于分类原理的***往往是通过丰富预训练样本来提高对人体目标变化的鲁棒性，即在预训练中就加入多姿态变化的训练样本，使得跟踪模型学习到多姿态变化目标的一般属性，进而完成对跟踪任务中具体目标的跟踪。

上述的跟踪方法除了选用对姿态变化鲁棒的特征外，都是被动地应对姿态变化问题，只是依赖人体目标的连续性或提取姿态变化的一般属性来维持对目标的跟踪，而并没有主动地去解决姿态变化问题，当人体目标运动较快变化较大时依然会导致跟踪漂移及跟踪失败。而使用鲁棒的目标特征也常常因为特征表达不足或姿态变化中目标特征变化过大而跟踪失败。

图像转换是图像处理与计算机视觉领域的经典问题，其目的是通过给定充足的训练数据，学习输入图像到输出图像的映射关系，从而将一幅输入图像转换为对应指定的输出图像。也可以理解为多域转换问题，即具有相同属性特征的图像属于同一个域，那么图像的转换就是不同域图像之间的转换。传统的图像转换方法都是基于像素到像素的映射或预测的思想，随着深度学习的迅速发展，卷积神经网络成为解决图像转换问题的常用方法，使用卷积神经网络的方法去学习减小衡量结果质量的损失函数，但是在图像转换任务中使用卷积神经网络去实现输出锐利、逼真的图像是很困难的，这需要大量先验知识。

生成对抗网络在2014年被提出后迅速成为研究热点，其在图像转换领域同样有许多应用。例如Deepak Pathak等人提出的语义编码器(context-encoders)利用卷积神经网络加生成对抗网络完成图像修复任务，Yipin Zhou等人使用生成对抗网络对物体未来状态进行描述，从而实现对时滞(time-lapse)视频中物体变化的预测。上述基于生成对抗网络的图像转换方法都是基于无条件的，即网络的设计训练没有添加先验条件，Phillip Isola等人提出基于条件生成对抗网络的图像转换方法“pix2pix”，使得输出对输入具有条件性。

现有的图像转换方法大多基于有监督体系，使用图像对数据集作为训练样本。然而成对的训练数据难以获得，构建一个成对的数据集十分困难而且耗时耗力，现有满足条件的数据库很少而且体量较小。针对此问题，人们研究出了一些基于非图像对数据集的图像转换方法。CycleGAN、DualGAN及DiscoGAN三种方法都是借助生成对抗网络实现两个域的数据迁移，即图像转换问题。以CycleGAN为例，其网络模型基于循环一致性(CycleConsistency)理论，在训练生成对抗网络时加入循环一致性损失函数。在将一类图片转换成另一类图片的任务中，CycleGAN网络模型的训练仅需要两类图片的样本空间，即两类图片的数据集，而不需要指明两个数据集之前的图片对应关系，即图像对。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于生成对抗网络正样本增强的多姿态人体目标跟踪方法，使用生成对抗网络生成跟踪目标的多姿态样本，并将其作为训练正样本，添加到MDNet算法模型的模型更新环节，对MDNet算法模型进行在线更新训练，提高在具有多姿态变化的人体目标跟踪任务中的跟踪准确度，抑制跟踪漂移。

为实现上述发明目的，本发明基于生成对抗网络正样本增强的多姿态人体目标跟踪方法，包括以下步骤：

S1：采用人体目标多姿态样本训练集对StarGAN网络模型进行预训练，采用人体目标跟踪样本训练集对MDNet算法模型进行预训练；

S2：在首帧包含人体目标的图像中标定人体目标的目标矩形框，根据目标矩形框在首帧图像上采集得到若干正样本和负样本，对MDNet算法模型进行初始化；分别从以上正样本和负样本中选择部分样本添加至MDNet算法模型的样本队列S；

S3：如果上一帧跟踪成功，则提取上一帧跟踪结果对应的目标矩形框图像，根据需要设置若干姿态标签，每次将目标矩形框图像和1个姿态标签作为StarGAN网络模型的输入，将StarGAN网络模型中生成器网络输出的图像作为正样本，将得到的所有正样本添加至样本队列S，如果上一帧跟踪失败，则不作任何操作；

S4：采用MDNet算法模型对当前帧图像进行人体目标跟踪；

S5：判断步骤S4中是否跟踪成功，如果是，进入步骤S6，否则进入步骤S8；

S6：根据跟踪结果采集获得若干正样本和若干负样本添加至样本队列S；

S7：判断是否达到MDNet算法模型的长期更新周期，如果未到达，则不作任何操作，否则利用样本队列S中的全部样本对MDNet算法模型进行长期更新训练，返回步骤S3；

S8：如果跟踪失败，采用样本队列S中的部分样本对MDNet算法模型进行更新训练，返回步骤S3。

本发明基于生成对抗网络正样本增强的多姿态人体目标跟踪方法，分别对StarGAN网络模型和MDNet算法模型进行预训练，然后采用首帧标定的人体目标的目标矩形框对MDNet算法模型进行初始化，持续采用MDNet算法模型进行跟踪，提取上一帧跟踪结果对应的目标矩形框图像并添加姿态标签输入StarGAN网络模型，将StarGAN网络模型中生成器网络的输出作为正样本，作为MDNet算法模型更新训练时所采用的正样本的一部分，在跟踪过程中根据需要对MDNet算法模型进行更新训练。

本发明将人体目标跟踪中的姿态变化转化为不同域图像之间的交叉转换，使用生成对抗网络中的StarGAN网络模型生成人体目标的多姿态正样本，作为MDNet算法模型更新训练正样本的一部分，可以提高MDNet算法模型对人体目标跟踪的准确度，抑制跟踪漂移。

附图说明

图1是本发明基于生成对抗网络正样本增强的多姿态人体目标跟踪方法的具体实施方式流程图；

图2是本实施例中所采用的StarGAN网络模型结构图；

图3是本实施例中残差学习模块的结构图；

图4是本实施例中人体目标旋转的8个角度划分示意图；

图5是本实施例中StarGAN网络模型的训练过程图；

图6是本实施例中四种方法在OTB人体目标跟踪测试集的区域重合率统计对比图；

图7是本实施例中四种方法在OTB人体目标跟踪测试集的中心位置误差统计对比图；

图8是本实施例中两种正样本增强在OTB人体目标跟踪测试集的区域重合率统计对比图；

图9是本实施例中两种正样本增强在OTB人体目标跟踪测试集的中心位置误差统计对比图；

图10是本实施例中TLD算法在视频序列中的目标矩形框跟踪结果图；

图11是本实施例中KCF算法在视频序列中的目标矩形框跟踪结果图

图12是本实施例中MDNet算法在视频序列中的目标矩形框跟踪结果图

图13是本实施例中本发明在视频序列中的目标矩形框跟踪结果图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于生成对抗网络正样本增强的多姿态人体目标跟踪方法的具体实施方式流程图。如图1所示，本发明基于生成对抗网络正样本增强的多姿态人体目标跟踪方法的具体步骤包括：

S101：模型预训练：

采用人体目标多姿态样本训练集对StarGAN网络模型进行预训练，采用人体目标跟踪样本训练集对MDNet算法模型进行预训练。

StarGAN网络模型主要分为两部分，一部分是生成器网络，另一部分是判别器网络。生成器网络的作用是根据输入的原始域图像及指定域的标签信息，生成对应指定域指定的图像。而判别器网络的作用是对输入的图像进行分类，判断其是真实图像还是生成图像，并输出其所属域信息。

图2是本实施例中所采用的StarGAN网络模型结构图。如图2所示，本实施例中StarGAN网络模型的生成器网络主要使用卷积、反卷积及残差网络结构搭建而成，其中卷积及反卷积结构为深度学习中常用的结构，互为相反操作，而残差网络主要用来解决深层网络的退化(degradation)问题。本实施例中StarGAN网络模型的生成器网络包括四层卷积层(Conv1～Conv4)、残差网络和两层反卷积层(Deconv1、Deconv2)。

前三层卷积层依次连接，每层包括卷积、实例规范化(Instance Normalization)以及ReLU激活函数，第一层卷积层的的输入为一个大小为128*128的三通道彩色图像以及指定域的标签信息，第一层卷积层中卷积核大小为7*7，卷积核移动步幅为1，特征图边界填充为3，无偏置，后两层卷积层中卷积核大小为4*4，卷积核移动步幅为2，特征图边界填充为1，无偏置。经过三层卷积层处理后输出维度分别为1*64*128*128、1*128*64*64、1*256*32*32的特征图，然后输入到残差网络中。

残差网络由6个依次连接的残差学习模块构成。图3是本实施例中残差学习模块的结构图。如图3所示，残差学习模块包含两层卷积层，第一层卷积层包括卷积、实例规范化和ReLU激活函数，第二层卷积层包括卷积和实例规范化，两层卷积结构参数相同，卷积核大小为3*3，卷积核移动步幅为1，特征图边界填充为1，无偏置。经过残差网络处理后输出维度为1*256*32*32的特征图，输入到第一层反卷积层。

两层反卷积层依次连接，每层包括卷积、实例规范化处理以及ReLU激活函数，两层反卷积参数相同，卷积核大小4*4，卷积核移动步幅为2，特征图边界填充为1，无偏置。经过两层反卷积操作后输出维度分别为1*128*64*64及1*64*128*128的特征图。将第二层反卷积层的特征图输入至最后一层卷积层中。

最后一层卷积层包括卷积和Tanh激活函数，卷积相关参数与第一层卷积结构相同，即卷积核大小为7*7，卷积核移动步幅为1，特征图边界填充为3，无偏置，最后一层卷积层输出一张大小为128*128、对应指定域信息的彩色图像。

StarGAN网络模型的判别器网络主要使用卷积结构搭建而成，输入为生成器网络的输出，即大小为128*128的3通道彩色图像。判别器网络共有七层依次连接的卷积层(Conv1～Conv7)，前六层卷积层包括卷积和LeakyReLU激活函数，卷积核大小为4*4，卷积核移动步幅为2，特征图边界填充为1，无偏置，LeakyReLU参数设置为0.01，最后一层卷积层有两个分支结构(Conv7_1，Conv7_2)，第一个分支卷积核大小为3*3，卷积核移动步幅为1，特征图边界填充为1，无偏置，第二个分支卷积核大小为2*2，无边界填充和偏置。经过前六层卷积结构处理，输出维度分别为1*64*64*64、1*128*32*32、1*256*16*16、1*512*8*8、1*1024*4*4，1*2048*2*2的特征图。然后经过最后一层具有分支结构的卷积层操作处理，输出维度为1*1*2*2及1*8*1*1的两个特征图。

根据以上描述可知，本实施例中StarGAN网络模型输入为128*128的三通道彩色图像以及指定域的标签信息，输出为两个图像。

MDNet算法模型本实施例中直接采用的经典模型，其详细说明请见参考文献“Hyeonseob Nam and Bohyung Han,Learning Multi-Domain Convolutional NeuralNetworks for Visual Tracking,IEEE Conference on Computer Vision and PatternRecognition(CVPR),Las Vegas,NV,2016”。

在构建好两个模型后，需要对其进行预训练。本实施例中StarGAN预训练使用的人体目标多姿态样本训练集为中国科学院自动化研究所的CASIA步态数据库中的Dataset A数据集以及以电子科技大学主楼附近为场景的数据集(以下简称为主楼数据集)。本发明中主要对人体姿态变化中人体的旋转进行研究。本实施例中将人体目标的旋转划分为相对于摄像机等图像采集设备的8个角度变化，即8种姿态。图4是本实施例中人体目标旋转的8个角度划分示意图。如图4所示，本实施例中人体目标旋转的8个角度包括相对于图像采集设备的0度、45度、90度、135度、180度、225度、270度、315度，图中给出了各个角度人体目标的两幅图像示例。按照上述对人体旋转方向的划分，Dataset A数据集包含了0度、45度、90度、180度、225度及270度6个方向的图像序列，而主楼数据集图像序列覆盖了0度、45度、90度、135度及180度5个方向。为了达到上面人体目标旋转8个角度的要求，对这两个数据集进行数据预处理，利用图像翻转的方式补全8个角度中对应方向缺失的图像序列。经过数据预处理后用于StarGAN网络模型离线预训练的Dataset A数据集共有26853张样本图像，主楼数据集共有21516张样本图像，总计48369张。StarGAN网络模型预训练需要样本对应域标签信息，其中标签信息使用独热编码(one-hot encoding)，如下为对应人体目标8个角度的编码向量。

[1,0,0,0,0,0,0,0],[0,0,0,0,1,0,0,0]

[0,1,0,0,0,0,0,0],[0,0,0,0,0,1,0,0]

[0,0,1,0,0,0,0,0],[0,0,0,0,0,0,1,0]

[0,0,0,1,0,0,0,0],[0,0,0,0,0,0,0,1]

本实施例在StarGAN网络模型的预训练中，将训练集图片尺寸统一调整为128*128大小，网络的训练学习率为0.0001，批训练集大小为16，网络训练迭代200次。网络训练优化采用Adam优化算法，其中学习率为0.0001，梯度相关参数均值为0.5，均方差0.999。

为了使生成图像区别于真实图像，StarGAN网络模型训练中采用对抗损失函数如下：

其中，E_x表示输入图像x的期望，生成器网络G基于输入图像x和目标域标签c生成图像G(x,c)，E_x,c表示生成图像G(x,c)的期望，判别器网络D试图去区分真假图像，D_src(x)表示判别器网络对输入图像x输出的概率分布，D_src(G(x,c)表示判别器网络对生成图像G(x,c)输出的概率分布。生成器网络试图去最小化这个目标损失，而判别器网络试图将其最大化。为了获得稳定的训练过程，生成更高质量的图像，StarGAN网络模型在损失函数中引入了梯度惩罚项，则其对抗损失函数变为：

其中

为在真实样本集中区域与生成样本集中区域中间均匀随机采样得到的图像，

表示图像

的期望。避免维度灾难问题，λ_gp为梯度惩罚项的权重值，在实验中设置λ_gp＝10。

表示将判别器的梯度的范数限制在常数1附近。

同时StarGAN网络模型引入了辅助分类器，使得生成器网络生成的图像能被正确地分类为其所属域类别。StarGAN网络模型设计了域分类损失(domain classificationloss)函数，其中包含两部分，一部分为优化判别器网络时使用的对真实图像的域分类损失函数

另一部分为优化生成器网络时使用的对生成图像的域分类损失函数。

对真实图像的域分类损失函数

的具体定义如下：

其中，D_cls(c'|x)表示判别器基于域标签输出的概率分布，E_x,c'表示基于输入图像x和目标域标签c′生成图像G(x,c′)的期望。通过最小化该损失函数使得判别器学习如何将一幅真实图像x分类为其对应原始域c'，其中输入图像及域标签对(x,c')由训练集提供。

对生成图像的域分类损失函数

的具体定义如下：

其中，D_cls(c|G(x,c)表示判别器网络判断生成图像属于目标域的概率分布。

生成器网络通过最小化该损失函数来学习生成会被分类为目标域c的图像。通过最小化上述对抗及分类损失函数，可以训练生成器网络生成逼真且可被分类为其正确目标域的图像，这也极大简化了模型的复杂度，使其在处理人体姿态变化的交叉域转换问题时只需要一个生成器网络与判别器网络。

为保证转换后图像只改变与输入图像域相关部分(domain-related part)而保留输入图像其他内容，StarGAN网络模型引入了循环一致性理论，其循环一致性损失函数如下：

其中生成器G将转换后图像G(x,c)与原始域标签c'作为输入并试图重构原始图像x。使用循环一致性理论也使得我们不需要针对人体目标姿态变化问题人工标定数据对。

最后结合上述提及的所有StarGAN网络模型使用的损失函数，最终StarGAN网络模型中优化判别器与生成器的损失函数分别为：

其中λ_cls与λ_rec是域分类损失和重构损失的权重参数，在本实施例中设置为λ_cls＝1，λ_rec＝10。

StarGAN网络模型的训练采用梯度交替更新策略最小化各部分的损失函数，其中判别器网络每训练五次后进行一次生成器网络的训练。图5是本实施例中StarGAN网络模型的训练过程图。如图5所示，图5(a)表示在训练判别器网络时输入真实及生成的图像输出图像的真假判断与所属域标签信息，然后按照损失函数对网络进行优化。生成器网络的训练如图5(b)所示，先输入真实图像及随机生成的目标域标签信息，然后输出对应域的生成图像，在5(c)中再将生成图像及原真实图像域标签信息输入到生成器网络中，输出生成的重构图像，图5(d)中所示则是将图5(b)中生成器网络输入的生成图像输入到判别器网络中，输出图像真假判断及所属域信息，然后按照损失函数进行网络优化。

MDNet算法模型预训练的人体目标跟踪样本训练集采用VOT(Visual ObjectTracking)数据集，VOT数据集是基于VOT竞赛的目标跟踪数据集，仅包含彩色图像序列，分辨率普遍较高。MDNet算法模型的预训练使用了VOT数据集中的58个视频序列，网络共迭代5800次，卷积层学习率为0.0001，全连接层学习率为0.001。训练中批训练的构成是从某一视频序列中随机采8帧图片，在这8帧图片上随机采集32个正样本和96个负样本，即批训练是由某一视频序列的128个样本图像构成。

完成StarGAN网络模型和MDNet算法模型的模型预训练后，需要将两者进行融合，得到基于StarGAN正样本增强的人体目标跟踪算法。StarGAN网络模型需要融合到MDNet算法模型的模型更新环节，原MDNet算法模型的模型训练使用的正负样本是通过对目标周围图像按照高斯及均匀分布采样获得，添加了StarGAN网络模型之后，MDNet算法模型更新使用的正样本还包括了StarGAN网络模型生成器网络生成的目标多姿态负样本。下面具体描述融合StarGAN网络模型及MDNet算法模型的具体流程。

S102：模型初始化：

在首帧包含人体目标的图像中标定人体目标的目标矩形框，根据目标矩形框在首帧图像上采集得到若干正样本和负样本，对MDNet算法模型进行初始化。在采集样本时采用三种方法获取：分别按照高斯和均匀分布采集若干正样本和若干负样本，然后随机采集若干正样本和若干负样本。MDNet算法模型的初始化包括两个部分，一是通过正样本训练目标矩形框的回归模型，二是采用以上所有正样本和负样本对MDNet算法模型参数进行更新训练。分别从以上正样本和负样本中选择部分样本添加至样本队列S。

本实施例中，在首帧图像上采集500个正样本和5000个负样本，MDNet算法模型参数进行更新训练时，其中卷积层参数固定不变，全连接层共迭代30次，第四层和第五层全连接层学习率为0.0001，第六层学习率为0.001。从首帧图像的样本中选择50个正样本及200个负样本添加至样本队列S。

S103：StarGAN网络模型生成正样本：

对当前帧进行跟踪之前，如果上一帧跟踪成功，则提取上一帧跟踪结果对应的目标矩形框图像，根据需要设置若干姿态标签，每次将目标矩形框图像和1个姿态标签作为StarGAN网络模型的输入，将StarGAN网络模型中生成器网络输出的图像作为正样本，将得到的所有正样本添加至样本队列S，如果跟踪失败，则不作任何操作。

本实施例中StarGAN网络模型训练时的人体目标的姿态角度有8个，因此本步骤在设置姿态标签时标签数量有16个，每个姿态角度对应2个，因此1个目标矩形框图像可以生成16个正样本。

S104：MDNet算法模型进行人体目标跟踪：

采用MDNet算法模型对当前帧图像进行人体目标跟踪。本实施例中在采用MDNet算法模型对当前帧图像进行人体目标跟踪时，根据上一帧图像的目标位置信息，对当前帧图像生成按照高斯分布的256个目标候选区域，输入MDNet算法模型获得得分，当最高的5个得分的均值大于阈值时，则判断跟踪成功，则将5个目标矩形框融合，并对其进行回归得到当前帧的跟踪结果，否则判断跟踪失败。

S105：判断步骤S104中是否跟踪成功，如果是，进入步骤S106，否则进入步骤S108。

S106：采集新样本：

根据跟踪结果采集获取获得若干正样本和若干负样本添加至样本队列S。本实施例中按照高斯及均匀分布采集新样本，对跟踪成功的图像采集50个正样本和200个负样本。一般来说样本队列会存在一定容量，本实施例中样本队列可以保存100帧图像的正样本和20帧图像的负样本，当样本数量超出容量时，会根据样本添加的先后进行删除，保留较新的样本。

S107：MDNet算法模型长期更新：

判断是否达到MDNet算法模型的长期更新周期，本实施例中长期更新周期设置为10帧，如果未到达，则不作任何操作，否则利用样本队列中的全部样本S对MDNet算法模型进行更新训练。然后返回步骤S103。

S108：MDNet算法模型短期更新：

跟踪失败则会触发MDNet算法模型的短期更新，即采用样本队列S中的部分样本对MDNet算法模型进行更新训练。本实施例中采用前20帧的正样本和全部负样本(同样为前20帧)对MDNet算法模型进行短期更新训练。然后返回步骤S103。

本实施例中MDNet算法模型进行长期更新和短期更新的训练迭代次数为10次，卷积层参数同样保持不变，全连接层学习率为初始化学习率的三倍。动量和梯度衰减参数设置为0.9和0.0005。在实际应用中，每次训练的批数据可以只采用所选样本中的部分，数量根据实际需要设置。本实施例中每次训练的批数据包含32个正样本和96个经过难例挖掘方法筛选的负样本。

显然，只要用户不结束人体目标跟踪，或者视频流不结束，会循环执行步骤S103至步骤S108，持续进行人体目标跟踪。

为了更好地说明本发明的技术效果，采用一个OTB数据集对本发明进行实验验证。本次实验验证采用OTB数据集中8个具有显著旋转变化的人体目标跟踪序列作为测试集。

本次实验选用了TLD(Tracking-Learning-Detection)、KCF(High-speedTracking With Kernelized Correlation Filters)以及原MDNet算法这三种算法作为对比方法。各方法跟踪效果的评价方式选用OPE(one-pass evaluation)一次性测评，即在实验的算法程序中预先给定随机种子，去除算法的随机性，然后一次性完成测试。OPE中包含了矩形区域重合率和中心位置误差两个算法评价指标，其中以矩形区域重合率为主，OPE结果曲线分别是对矩形区域重合率和中心位置误差进行统计描述。其中关于目标矩形区域重合率的统计分析结果曲线图，横坐标代表不同的目标矩形区域重合率阈值，纵坐标为大于对应阈值的跟踪帧数占总实验帧数的百分比，称之为成功率(success rate)，一般重合率固定阈值选择0.5。中心位置误差的统计分析结果曲线图，其横坐标代表不同的目标中心位置误差阈值，纵坐标为小于对应阈值的跟踪帧数占总实验帧数的百分比，称之为精度(precision)，一般中心位置误差阈值选择20像素。

图6是本实施例中四种方法在OTB人体目标跟踪测试集的区域重合率统计对比图。图7是本实施例中四种方法在OTB人体目标跟踪测试集的中心位置误差统计对比图。图6和图7中算法标签中对应的值是根据两个算法评价指标选择的固定阈值得到的。从图6和图7中可以看出，本发明在具有显著旋转变化的跟踪任务中表现十分优异，其重合率统计相比原MDNet算法提高了22％，其实验结果相对于其他对比算法都有显著的提升。这个实验结果说明本发明的跟踪结果更加准确，跟踪漂移程度更小。

为了进一步验证本发明所使用的基于生成对抗网络的正样本增强方法在具有显著姿态变化的人体目标跟踪算法中的有效性，对原MDNet算法的模型更新环节中额外添加了16个正样本，与本发明进行对比。图8是本实施例中两种正样本增强在OTB人体目标跟踪测试集的区域重合率统计对比图。图9是本实施例中两种正样本增强在OTB人体目标跟踪测试集的中心位置误差统计对比图。从图8和图9中可以看出，在具有旋转变化的跟踪视频序列中，本发明对跟踪性能的优化和提升明显优于额外添加正样本的MDNet算法，额外添加正样本的MDNet算法在重合率统计中相比原MDNet算法只提高了2％，而本发明提高了22％。这说明了使用STARGAN生成器网络生成的多角度人体目标样本能够使更新训练的观测模型对具有旋转变化的人体目标有更强的分类能力，因此跟踪效果更好。

为了直观地展示本发明和三种对比方法的跟踪效果，接下来列出四种方法在几个跟踪视频序列中的跟踪结果图。图10是本实施例中TLD算法在视频序列中的目标矩形框跟踪结果图。图11是本实施例中KCF算法在视频序列中的目标矩形框跟踪结果图。图12是本实施例中MDNet算法在视频序列中的目标矩形框跟踪结果图。图13是本实施例中本发明在视频序列中的目标矩形框跟踪结果图。如图10至图13所示，本实施例中包含了Gym、Skating1和Skating2三个视频序列，图中每幅图像的右上角数字代表视频序列的帧数。可以看出在具有显著旋转变化的人体跟踪视频序列中，当目标发生旋转变化时，本发明的跟踪目标矩形框更加接近人体目标的真实位置，出现跟踪漂移的程度更小。

通过在OTB人体目标跟踪数据集上的测试，可以发现本发明对多姿态人体目标的跟踪效果有了显著的提升，可以有效地提高跟踪算法观测模型的分类能力，针对具有显著姿态变化的人体目标，改进的跟踪算法有更好的跟踪效果，降低了跟踪过程中的跟踪漂移。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于生成对抗网络正样本增强的多姿态人体目标跟踪方法，其特征在于，包括以下步骤：

S4：采用MDNet算法模型对当前帧图像进行人体目标跟踪；

2.根据权利要求1所述的跟踪方法，其特征在于，所述StarGAN网络模型包括生成器网络和判别器网络，其中：

生成器网络包括四层卷积层、残差网络和两层反卷积层，前三层卷积层依次连接，每层包括卷积、实例规范化以及ReLU激活函数，第一层卷积层的的输入为一个大小为128*128的三通道彩色图像以及指定域的标签信息，第一层卷积层中卷积核大小为7*7，卷积核移动步幅为1，特征图边界填充为3，无偏置，后两层卷积层中卷积核大小为4*4，卷积核移动步幅为2，特征图边界填充为1，无偏置；三层卷积层得到的特征图输入到残差网络中；

残差网络由6个依次连接的残差学习模块构成，每个残差学习模块包含两层卷积层，第一层卷积层包括卷积、实例规范化和ReLU激活函数，第二层卷积层包括卷积和实例规范化，两层卷积结构参数相同，卷积核大小为3*3，卷积核移动步幅为1，特征图边界填充为1，无偏置；残差网络得到的特征图输入到第一层反卷积层；

两层反卷积层依次连接，每层包括卷积、实例规范化处理以及ReLU激活函数，两层反卷积参数相同，卷积核大小4*4，卷积核移动步幅为2，特征图边界填充为1，无偏置；第二层反卷积层的特征图输入至最后一层卷积层中；

最后一层卷积层包括卷积和Tanh激活函数，卷积核大小为7*7，卷积核移动步幅为1，特征图边界填充为3，无偏置；

判别器网络包括七层依次连接的卷积层，前六层卷积层包括卷积和LeakyReLU激活函数，卷积核大小为4*4，卷积核移动步幅为2，特征图边界填充为1，无偏置，LeakyReLU参数设置为0.01；最后一层卷积层有两个分支结构，第一个分支卷积核大小为3*3，卷积核移动步幅为1，特征图边界填充为1，无偏置，第二个分支卷积核大小为2*2，无边界填充和偏置。