CN112837344B

CN112837344B - 一种基于条件对抗生成孪生网络的目标跟踪方法

Info

Publication number: CN112837344B
Application number: CN202011489615.7A
Authority: CN
Inventors: 宋建辉; 张甲; 刘砚菊; 于洋
Original assignee: Shenyang Ligong University
Current assignee: Shenyang Ligong University
Priority date: 2019-12-18
Filing date: 2020-12-16
Publication date: 2024-03-29
Anticipated expiration: 2040-12-16
Also published as: CN112837344A

Abstract

一种基于条件对抗生成孪生网络的目标跟踪方法，其特征在于：所述方法包括下列步骤：（1）、获取实时视频数据进行数据预处理；（2）、将（1）步骤中预处理的数据输入至由条件对抗生成去模糊网络模块和全卷积孪生跟踪网络两部分组成的条件对抗生成孪生跟踪网络中；（3）、将对抗优化完成的条件对抗生成去模糊网络模块嵌入到反馈更新后的全卷积孪生跟踪网络框架中，使用线上组合完成的条件对抗生成孪生跟踪网络对预处理之后的实时视频数据，进行目标跟踪，获取目标位置。增强了跟踪网络的动态调节能力，提高了***的鲁棒性，采用迁移学习的方式对跟踪网络进行分离训练，防止了过拟合现象的出现，减少了训练时间，提高了跟踪网络的泛化能力。

Description

一种基于条件对抗生成孪生网络的目标跟踪方法

技术领域

本发明涉及机器视觉与目标跟踪技术领域，更具体的是涉及一种基于条件对抗生成孪生网络的目标跟踪方法。

背景技术

目标跟踪是计算机视觉领域的重要研究课题之一，其主要任务是获取视频序列中感兴趣的目标的位置信息，实现对运动目标行为的分析和理解，为进一步的语义层分析(动作识别、场景识别等)提供基础，以便完成更高级的任务。目标跟踪作为计算机视觉领域中的中层和高层处理阶段，是对视频内容进行智能分析的重要技术手段，通过对视频帧序列中的感兴趣目标进行高维特征提取和空间坐标定位，获取感兴趣目标的运动规律，为深层次视频语义解析提供决策性依据。

现有目标跟踪算法中主要分为基于人工特征的传统经典目标跟踪算法和基于深度特征的深度网络目标跟踪算法。传统目标跟踪算法广泛采用的人工特征总体可以分为灰度特、颜色特征和梯度特征。灰度特征是最简单和直观的特征表达方式，具有极高的计算效率，Bolme等提出MOSS目标跟踪算法，使用了灰度特征，速度达到了惊人的699FPS。颜色特征拥有丰富的表现力和较高的辨识度，目标姿态、尺度的变化不敏感。Danelljan的CN算法将颜色特征用于相关滤波跟踪算法中，并采用自适应降维的策略，将11维颜色特征降为2维，在保证高效跟踪的同时，提高了算法性能。梯度特征通过统计目标图像局部的梯度分布来表征外观。目标跟踪算法中广泛应用的梯度特征是HOG特征。HOG特征的核心思想是充分利用分块单元对图像的梯度信息进行提取，使局部目标的表象和形状能够被梯度或边缘的方向密度分布很好地描述。而且其对光照变化具有良好的不变性。Henriques等提出的KCF算法，通过HOG特征使得适用范围从灰度图扩大到了多通道有色图，使目标的表面纹理特征和轮廓形状能够很好地被HOG特征描述，跟踪效果得到了极大的提升，跟踪速度也达到了172FPS。

上述人工特征虽然具有丰富的目标信息，但是无法提取到更高级的语义信息，而且需要很强的先验信息，在特定的场景下具有很强的适应性，但在复杂场景下，很难实现对目标的鲁棒性跟踪。近年来，深度神经网络因其优秀的特征学***衡。

视觉运动目标跟踪在计算机视觉领域中具有极高的实用价值和研究意义，是一个集特征提取、运动目标检测和目标运动信息分析等的综合性课题。在无人驾驶、视频监控、智能交通以及军事侦察等领域得到了广泛应用，然而目标在复杂的现实场景中很容易受到运动模糊、低分辨率、光照尺度变化、遮挡形变等干扰因素的干扰，因而设计一个稳健的跟踪算法实现对目标的鲁棒实时性跟踪依然是一个很大的挑战。

发明内容

发明目的：

本发明的目的在于解决被跟踪目标在快速剧烈运动时，因运动模糊和低分辨率使模型发生漂移，导致***跟踪效果差甚至跟踪失败的技术问题。本发明对全卷积孪生跟踪网络进行改进，在全卷积孪生跟踪网络框架中嵌入条件对抗生成去模糊模块，提出了一种基于条件对抗生成孪生网络的目标跟踪方法。增强了跟踪网络的动态调节能力，提高***的跟踪性能。

技术方案

一种基于条件对抗生成孪生网络的目标跟踪方法，其特征在于：所述方法包括下列步骤：

(1)、获取实时视频数据进行数据预处理；

(2)、将(1)步骤中预处理的数据输入至由条件对抗生成去模糊网络模块和全卷积孪生跟踪网络两部分组成的条件对抗生成孪生跟踪网络中；

(3)、将对抗优化完成的条件对抗生成去模糊网络模块嵌入到反馈更新后的全卷积孪生跟踪网络框架中，使用线上组合完成的条件对抗生成孪生跟踪网络对预处理之后的实时视频数据，进行目标跟踪，获取目标位置。

(2)步骤中的条件对抗生成孪生跟踪网络构建方法如下：

(2.1)获取历史视频数据集并对数据集进行数据预处理，得到所需要的训练数据；

(2.2)构建条件对抗生成孪生跟踪网络，条件对抗生成孪生跟踪网络由条件对抗生成去模糊网络模块和全卷积孪生跟踪网络两部分组成；

(2.3)采用迁移训练的方式对构建的条件对抗生成孪生跟踪网络进行线下分离训练，条件对抗生成去模糊网络模块使用联合损失函数对去模糊模块进行对抗博弈优化，全卷积孪生跟踪网络使用逻辑损失函数对跟踪网络参数进行迭代反馈更新。

步骤(2.1)包括：

(2.1.1)选取ILSVRC VID2015视频数据集作为全卷积孪生跟踪网络框架的训练数据，对其进行预处理后得到模板图像和搜索图像对，选取GoPro模糊数据集作为条件对抗生成去模糊网络模块的训练数据，对其进行预处理得到清晰图像和模糊图像对。

ILSVRC VID2015视频数据集预处理方法：，将ILSVRC VID2015视频数据集中视频帧的尺寸大小裁剪缩放到127×127(分辨率)，作为预处理之后的模板图像，具体步骤如下：

首先，对原始视频帧(ILSVRC VID2015视频数据中的原始视频帧)进行标注(标注就是把目标在视频帧中框出来，包含的信息就是目标的中心位置和目标边界框大小，即标注时把目标在视频帧中框出来，根据标注框就可以确定目标的中心位置和目标边界框的大小)，根据标注框确定目标的中心位置和目标边界框的大小，然后在该原始视频帧上以目标中心位置为中心截取正方形区域，该正方形区域的尺寸大小为(w,h)(w、h分别代表正方形区域的长和宽，也就是标注框的长和宽)，若选定的正方形区域大小超过了视频帧的边界范围，超出区域则以当前帧图像的RGB三通道均值(提取图像的R通道、G通道、B通道、三个通道的像素值，然后求均值)进行填充，最后以尺度变换因子s缩放选定的正方形区域得到大小为127×127(分辨率)的模板图像。

ILSVRC VID2015视频数据集预处理方法：将ILSVRC VID2015视频数据集中视频帧的尺寸大小裁剪缩放到255×255(分辨率)，作为预处理之后的搜索图像对，具体步骤如下：

首先需要在对应模板图像的边框上以当前帧图像RGB均值填充，增加额外的背景图像，得到尺寸大小为(w+2p)×(h+2p)+2×pad的正方形区域，其中pad＝(255-127)/2s，最后以相同的尺度变换因子s对选定的正方形区域进行缩放得到尺寸大小为255×255的搜索图像，其中，缩放因子s为：s×(w+2p)+s×(h+2p)＝127²，p为目标上下文余量，大小为p＝(w+h)/4。(这里是针对前面若选定的正方形区域大小超过了视频帧的边界范围来说，如果没有超过则不产生此步骤的搜索图像对)

GoPro模糊数据集预处理方法：首先将GoPro模糊数据集中尺寸大小为1280×720(分辨率)的原始清晰和模糊图像随机裁剪为尺寸大小为256×256(分辨率)的输入图像对，然后通过图像处理的归一化方法(图像处理的归一化方法，把图像原来像素从0-255，归一化到0-1)将随机裁剪得到输入图像对中的RGB三通道像素值归一化到之间[-1,1]，最后得到所需的清晰/模糊图像对。

步骤(2.2)构建条件对抗生成孪生跟踪网络包括：

(2.1)将条件对抗生成去模糊网络模块嵌入到全卷积孪生跟踪网络框架中；

(2.2)条件对抗生成去模糊网络模块对输入的运动模糊和低分辨率图像进行去模糊化，得到清晰图像：

(2.3)卷积神经网络对重建后的清晰图像进行特征提取，得到模板特征图和搜索特征图；

(2.4)将模板特征图和搜索特征图进行相似性计算，得到得分图(将得分最高区域映射到搜索图像再映射到原视频，从而得到目标新的位置)。

步骤(2.3)包括：

(3.1)将模板图像和搜索图像输入到全卷积孪生跟踪网络中，并使用逻辑损失函数对跟踪网络进行迭代反馈更新，优化网络参数，当迭代步数和训练精度达到要求，全卷积孪生跟踪网络参数优化完成；其中逻辑损失函数如下：

其中，y∈(+1,-1)为正负样本标签，v为得分图中每个位置的得分值，u为网络模型输出的得分图，为得分图中的各个位置，且u∈D；(D：得分图各个位置u的集合，也就是整个得分图)

(3.2)将清晰图像和模糊图像对输入到条件对抗生成去模糊网络模块中，使用联合损失函数对去模糊网络模块进行对抗博弈优化，当判别器模型无法判断输入的清晰图像是生成的样本图像还是真实清晰图像时，条件对抗生成去模糊模块收敛到最佳；其中联合损失函数由对抗损失函数和感知损失函数组成；对抗损失函数如下所示：

其中代表生成器，/>代表判别器，I_B为模糊图像；

感知损失函数如下所示：

其中，φ_i,j为VGG-19网络中第i层最大池化层之前第j层卷积层的特征映射，W_i,j和H_i,j是特征映射的维度；x和y分别是W维度上和H维度求和初始量，X为没有实际意义，只是表示Lx为感知损失函数；

联合损失函数是对抗损失与感知损失之和；联合损失函数如下所示：

L＝L_GAN+λ·L_X

式中λ为超参数，取值100，用于平衡两个损失函数。

步骤(3)中包括：

(3.1)条件对抗生成去模糊网络模块对输入的运动模糊和低分辨视频帧(需要跟踪的目标视频)去模糊化；

(3.2)卷积神经网络对重建后的清晰视频帧进行特征提取，得到具有空间结构的特征映射；

(3.3)使用离线训练好的相似度函数f(z,x)进行相关性计算，输出一个在有限网格区域17×17(分辨率)大小的得分图；相似度函数为其中x为搜索图像，z为模板图像，/>表示卷积内嵌函数，*表示相关卷积计算，b为得分图上每个位置的不同偏置值，f为经过大量已标注视频帧训练得出的最优参数相似度函数；

(3.4)对得分图进行16倍双三次插值上采样得到272×272(分辨率)大小的上采样得分图，并对其核窗惩罚后找到上采样得分图中得分最高的区域；

(3.5)将得分最高区域映射到搜索图像再映射到原视频，从而得到目标新的位置。

优点效果：

一种基于条件对抗生成孪生网络的目标跟踪方法，步骤如下：

(1)获取数据集并对数据集进行数据预处理，得到所需要的训练数据；

(2)构建条件对抗生成孪生跟踪网络，条件对抗生成孪生跟踪网络由条件对抗生成去模糊网络模块和全卷积孪生跟踪网络两部分组成；

(3)采用迁移训练的方式对构建的条件对抗生成孪生跟踪网络进行线下分离训练，条件对抗生成去模糊网络模块使用联合损失函数对去模糊模块进行对抗博弈优化，全卷积孪生跟踪网络使用逻辑损失函数对跟踪网络参数进行迭代反馈更新；

(4)将对抗优化完成的条件对抗生成去模糊网络模块嵌入到反馈更新后的全卷积孪生跟踪网络框架中，使用线上组合完成的条件对抗生成孪生跟踪网络进行目标跟踪，获取目标位置。

在一种优选的技术方案中，步骤(1)中，包含以下步骤：

(1.1)选取ILSVRC VID2015视频数据集和GoPro模糊数据集作为全卷积孪生跟踪网络框架和条件对抗生成去模糊网络模块的训练数据，并对其进行预处理得到模板/搜索图像对和清晰/模糊图像对；

(1.2)ILSVRC VID2015视频数据集预处理方法：对于模板图像将训练集中视频帧的尺寸大小裁剪缩放到127×127。首先根据视频帧标注信息确定目标的中心位置和目标边界框的大小，然后在原始视频帧上以目标中心位置为中心截取正方形区域，该正方形区域的尺寸大小为(w,h)，若选定的正方形区域大小超过了视频帧的边界范围，超出区域则以当前帧图像的RGB三通道均值进行填充，最后以尺度变换因子s缩放选定的正方形区域得到大小为127×127的模板图像。对于搜索图像首先需要在对应模板图像的边框上以当前帧图像RGB均值填充，增加额外的背景图像，得到尺寸大小为(w+2p)×(h+2p)+2×pad的正方形区域，其中pad＝(255-127)/2s，最后以相同的尺度变换因子s对选定的正方形区域进行缩放得到尺寸大小为255×255的搜索图像。其中，缩放因子s为：s×(w+2p)+s×(h+2p)＝127²，p为目标上下文余量，大小为p＝(w+h)/4；

(1.3)GoPro模糊数据集预处理方法：首先将尺寸大小为1280×720的原始清晰和模糊图像随机裁剪为尺寸大小为256×256的输入图像对，然后通过图像处理的方法将随机裁剪得到输入图像对中的RGB三通道像素值归一化到之间[-1,1]，最后得到所需的清晰/模糊图像对。

在一种优选的技术方案中，步骤(2)构建条件对抗生成孪生跟踪网络中，具体包括以下步骤：

(2.1)将条件对抗生成去模糊网络模块嵌入到全卷积孪生跟踪网络框架中，整体跟踪网络结构由五个卷积层、两个最大池化层以及一个条件对抗生成模块组成。五个卷积层除最后一层没有批量归一化层和ReLU非线性激活函数外，其余层均先经过批量归一化层再过ReLU非线性激活函数，并且每层卷积层均不使用填充；

(2.2)条件对抗生成去模糊网络模块对输入的运动模糊和低分辨率图像进行去模糊化，得到清晰图像；

(2.4)将模板特征图和搜索特征图进行相似性计算，得到得分图。

在一种优选的技术方案中，步骤(3)中，包括：

(3.1)训练全卷积孪生跟踪网络：将模板图像和搜索图像输入到全卷积孪生跟踪网络中，并使用逻辑损失函数对跟踪网络进行迭代反馈更新，优化网络参数。其中逻辑损失函数如下：

其中，y∈(+1,-1)为正负样本标签，v为得分图中每个位置的得分值，u为网络模型输出的得分图，为得分图中的各个位置，且u∈D；

(3.2)训练对抗生成去模糊网络模块：将清晰图像和模糊图像输入到条件对抗生成去模糊网络模块中，使用联合损失函数对去模糊网络模块进行对抗博弈优化。其中联合损失函数由对抗损失函数和感知损失函数组成。联合损失函数如下所示：

L＝L_GAN+λ·L_X

式中λ为超参数，取值100，用于平衡两个损失函数。

在一种优选的技术方案中，步骤(3.1)的训练全卷积孪生跟踪网络中，包括以下步骤：

(3.1.1)输入模板图像和搜索图像；

(3.1.2)输入的模板\搜索图像对前向传播，通过相似性度量计算得到目标位置；

(3.1.3)计算预测目标位置与标注目标位置的误差，并将所得误差反向传播；

(3.1.4)重复迭代(3.1.2)、(3.1.3)步骤，通过计算逻辑损失函数，反馈更新网络参数，其中逻辑损失函数由得分图点损失函数平均化所得出，得分图点损失函数如下所示：

l(y,v)＝log(1+exp(-yv))

其中，v为一对模板图像和搜索图像的相似性度量值，y为其对应候选区域的标签值，且y∈(+1,-1)，分别代表正负样本。

取得分图上所有得分值对应损失函数的平均值作为逻辑损失函数，最后通过随机梯度下降(SDG)最小化逻辑损失函数，来对网络模型进行训练，从而得到网络模型的参数，其数学表示如下式所示：

argmin_θE_x,y,zL(y,f(z,x:θ))

式中θ为全卷积孪生网络的网络参数；

(3.1.5)当迭代步数和训练精度达到一定要求时，全卷积孪生跟踪网络参数优化到最佳，训练完成。

在一种优选的技术方案中，步骤(3.2)练训练对抗生成去模糊网络模块中，包括以下步骤：

(3.2.1)输入清晰图像和模糊图像；

(3.2.2)固定生成器模型参数，训练判别器模型；

(3.2.3)固定判别器模型参数，训练生成器模型；

(3.2.4)重复迭代(3.2.2)、(3.2.3)步骤，通过计算联合损失函数，对抗博弈优化网络模型，其中联合损失函数是对抗损失函数及感知损失函数二者之和。对抗损失函数如下所示：

其中代表生成器，/>代表判别器，I_B为模糊图像；

感知损失函数如下所示：

其中，φ_i,j为VGG-19网络中第i层最大池化层之前第j层卷积层的特征映射，W_i,j和H_i,j是特征映射的维度；

(3.2.5)当判别器模型无法判断输入的清晰图像是生成的样本图像还是真实清晰图像时，条件对抗生成去模糊模块收敛到最佳。

在一种优选的技术方案中，步骤(4)中，包括以下步骤：

(4.1)条件对抗生成去模糊模块对输入的运动模糊和低分辨视频帧去模糊化；

(4.2)卷积神经网络对重建后的清晰视频帧进行特征提取，得到具有空间结构的特征映射；

(4.3)使用离线训练好的相似度函数f(z,x)进行相关性计算，输出一个在有限网格区域17×17大小的得分图。相似度函数为其中x为搜索图像，z为模板图像，/>表示卷积内嵌函数，*表示相关卷积计算，b为得分图上每个位置的不同偏置值，f为经过大量已标注视频帧训练得出的最优参数相似度函数；

(4.4)对得分图进行16倍双三次插值上采样得到272×272大小的上采样得分图，并对其核窗惩罚后找到上采样得分图中得分最高的区域；

(4.5)将得分最高区域映射到搜索图像再映射到原视频，从而得到目标新的位置。

具体优点效果如下：

本发明有以下良好的效果：通过在全卷积孪生跟踪网络框架中嵌入条件对抗生成去模糊网络模块，增强了跟踪网络的动态调节能力，提高了***的鲁棒性，很好地解决了运动模糊和低分辨率场景下***易发生模型漂移，导致跟踪失败的问题。同时，采用迁移学习的方式对跟踪网络进行分离训练，防止了过拟合现象的出现，减少了训练时间，提高了跟踪网络的泛化能力。

附图说明

图1为本发明实施例提供的条件对抗生成跟踪网络训练流程图；

图2为本发明实施例提供的条件对抗生成跟踪网络结构图；

图3为本发明实施例提供的条件对抗生成去模糊网络模块结构图；

图4为本发明实施例提供的运动模糊属性跟踪结果对比图；

图5为本发明实施例提供的运动模糊属性跟踪结果对比图。

具体实施方式

(1)、获取实时视频数据进行数据预处理；

(2)步骤中的条件对抗生成孪生跟踪网络构建方法如下：

步骤(2.1)包括：

步骤(2.2)构建条件对抗生成孪生跟踪网络包括：

步骤(2.3)包括：

其中代表生成器，/>代表判别器，I_B为模糊图像；

感知损失函数如下所示：

L＝L_GAN+λ·L_X

式中λ为超参数，取值100，用于平衡两个损失函数。

步骤(3)中包括：

(3.5)将得分最高区域映射到搜索图像再映射到原视频，从而得到目标新的位置。以下将结合附图和具体实施方式，对本发明作进一步的详细说明。

一种基于条件对抗生成孪生网络的目标跟踪方法，如图1、图2和图3所示，包括以下步骤：

(1)搭建相关环境，获取数据集并对数据集进行数据预处理。包括如下步骤：

(1.1)环境搭建：在硬件设备上搭建本发明跟踪网络训练和测试所需的整体环境架构以及相关软件运行环境；

(1.2)根据不同的网络模型以及不同的任务需求选取合适的训练集，然后根据网络模型的输入参数要求对训练集中图像进行相关预处理操作，得到训练全卷积跟踪网络训练所需的模板\搜索图像对和条件对抗生成去模糊网络模块训练所需的清晰\模糊图像对。

其中步骤(1.2)中包括如下步骤(1.2.1)～(1.2.3)：

(1.2.1)选取ILSVRC VID2015视频数据集和GoPro模糊数据集作为全卷积孪生跟踪网络框架和条件对抗生成去模糊网络模块的训练数据，并对其进行与处理得到模板/搜索图像对和清晰/模糊图像对；

(1.2.2)ILSVRC VID2015视频数据集预处理方法：对于模板图像将训练集中视频帧的尺寸大小裁剪缩放到127×127。首先根据视频帧标注信息确定目标的中心位置和目标边界框的大小，然后在原始视频帧上以目标中心位置为中心截取正方形区域，该正方形区域的尺寸大小为(w,h)，若选定的正方形区域大小超过了视频帧的边界范围，超出区域则以当前帧图像的RGB三通道均值进行填充，最后以尺度变换因子s缩放选定的正方形区域得到大小为127×127的模板图像。对于搜索图像首先需要在对应模板图像的边框上以当前帧图像RGB均值填充，增加额外的背景图像，得到尺寸大小为(w+2p)×(h+2p)+2×pad的正方形区域，其中pad＝(255-127)/2s，最后以相同的尺度变换因子s对选定的正方形区域进行缩放得到尺寸大小为255×255的搜索图像。其中，缩放因子s为：s×(w+2p)+s×(h+2p)＝127²，p为目标上下文余量，大小为p＝(w+h)/4；

(1.2.3)GoPro模糊数据集预处理方法：首先将尺寸大小为1280×720的原始清晰和模糊图像随机裁剪为尺寸大小为256×256的输入图像对，然后通过图像处理的方法将随机裁剪得到输入图像对中的RGB三通道像素值归一化到之间[-1,1]，最后得到所需的清晰/模糊图像对。

(2)构建条件对抗生成孪生跟踪网络，条件对抗生成孪生跟踪网络由条件对抗生成去模糊网络模块和全卷积孪生跟踪网络两部分组成，包括如下步骤：

(2.1)将条件对抗生成去模糊网络模块嵌入到全卷积孪生跟踪网络框架中，整体跟踪网络结构由五个卷积层、两个最大池化层以及一个条件对抗生成模块组成。五个卷积层除最后一层没有批量归一化层和ReLU非线性激活函数外，其余层均先经过批量归一化层再过ReLU非线性激活函数，并且每层卷积层均不使用填充。条件对抗生成模块由判别器子网络和生成器子网络组成，且采用全卷积网络结构；

(2.2)条件对抗生成去模糊网络模块对输入的运动模糊和低分辨率视频帧进行去模糊化，得到清晰视频帧；

(2.3)卷积神经网络对重建后的清晰视频帧进行特征提取，得到模板特征图和搜索特征图；

(3)采用迁移训练的方式对构建的条件对抗生成孪生跟踪网络进行线下分离训练，条件对抗生成去模糊网络模块使用联合损失函数对去模糊模块进行对抗博弈优化，全卷积孪生跟踪网络使用逻辑损失函数对跟踪网络参数进行迭代反馈更新，包括如下步骤：

L＝L_GAN+λ·L_X

式中λ为超参数，取值100，用于平衡两个损失函数。

(3.3)将(3.1)中对抗优化条件对抗生成去模糊网络模块嵌入到(3.2)中反馈更新后的全卷积孪生跟踪网络中，完成条件对抗生成孪生跟踪网络的整体训练。

其中步骤(3.1)中包括如下步骤(3.1.1)～(3.1.5)：

(3.1.1)输入模板图像和搜索图像；

l(y,v)＝log(1+exp(-yv))

argmin_θE_x,y,zL(y,f(z,x:θ))

式中θ为全卷积孪生网络的网络参数；

其中步骤(3.2)中包括如下步骤(3.2.1)～(3.2.5)：

(3.2.1)输入清晰图像和模糊图像；

(3.2.2)固定生成器模型参数，训练判别器模型；

(3.2.3)固定判别器模型参数，训练生成器模型；

/>

其中代表生成器，/>代表判别器，I_B为模糊图像

感知损失函数如下所示：

(4)将对抗优化完成的条件对抗生成去模糊网络模块嵌入到反馈更新后的全卷积孪生跟踪网络框架中，使用线上组合完成的条件对抗生成孪生跟踪网络进行目标跟踪，获取目标位置，包括如下步骤：

(4.1)条件对抗生成去模糊模块对输入的运动模糊和低分辨视频帧去模糊化，得到大小为127×127清晰模板视频帧和大小为255×255的清晰搜索视频帧；

(4.2)卷积神经网络对重建后的清晰视频帧进行特征提取，得到具有空间特征映射的模板特征图和搜索特征图，尺寸大小分别为6×6和22×22；

图4为本发明实施例提供的运动模糊属性跟踪结果对比图，由图4可知***从第141帧开始分化，从140帧到143帧本发明跟踪网络可以有效的跟踪目标，而全卷积孪生跟踪网络从第140帧跟踪效果开始变差，从141帧到143已经无法跟踪目标，跟踪失败。从特征图也可以看出本文算法一直可以有效提取目标特征而全卷积孪生跟踪网络受背景干扰无法有效提取目标特征。这表明条件对抗生成孪生跟踪网络的判别能力与全卷积孪生跟踪网络相比有了极大的提升，在运动模糊情况下可以将目标和背景分辨出来。

图5为本发明实施例提供的运动模糊属性跟踪结果对比图，由图5可知***的跟踪效果在第16帧开始发生变化，从第17帧到第19帧全卷积孪生跟踪网络已经跟踪失败，而本发明跟踪网络不仅能够成功跟踪目标，而且红色跟踪框与绿色标注框重叠比率极高。从特征图可以看出本发明跟踪网络的特征提取效果远远好于全卷积孪生跟踪网络。因此表明条件对抗生成孪生跟踪网络对低分辨率运动目标具有良好的处理能力。

上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于条件对抗生成孪生网络的目标跟踪方法，其特征在于：所述方法包括下列步骤：

(1)、获取实时视频数据进行数据预处理；

(3)、将对抗优化完成的条件对抗生成去模糊网络模块嵌入到反馈更新后的全卷积孪生跟踪网络框架中，使用线上组合完成的条件对抗生成孪生跟踪网络对预处理之后的实时视频数据，进行目标跟踪，获取目标位置；

步骤(2)中的条件对抗生成孪生跟踪网络构建方法如下：

(2.3)采用迁移训练的方式对构建的条件对抗生成孪生跟踪网络进行线下分离训练，条件对抗生成去模糊网络模块使用联合损失函数对去模糊模块进行对抗博弈优化，全卷积孪生跟踪网络使用逻辑损失函数对跟踪网络参数进行迭代反馈更新；

步骤(2.2)构建条件对抗生成孪生跟踪网络包括：

(2.2.1)将条件对抗生成去模糊网络模块嵌入到全卷积孪生跟踪网络框架中；

(2.2.2)条件对抗生成去模糊网络模块对输入的运动模糊和低分辨率图像进行去模糊化，得到清晰图像：

(2.2.3)卷积神经网络对重建后的清晰图像进行特征提取，得到模板特征图和搜索特征图；

(2..2.4)将模板特征图和搜索特征图进行相似性计算，得到得分图；

步骤(2.3)包括：

(2.3.1)将模板图像和搜索图像对输入到全卷积孪生跟踪网络中，并使用逻辑损失函数对跟踪网络进行迭代反馈更新，优化网络参数，当迭代步数和训练精度达到要求，全卷积孪生跟踪网络参数优化完成；其中逻辑损失函数如下：

(2.3.2)将清晰图像和模糊图像对输入到条件对抗生成去模糊网络模块中，使用联合损失函数对去模糊网络模块进行对抗博弈优化，当判别器模型无法判断输入的清晰图像是生成的样本图像还是真实清晰图像时，条件对抗生成去模糊模块收敛到最佳；其中联合损失函数由对抗损失函数和感知损失函数组成；对抗损失函数如下所示：

其中代表生成器，/>代表判别器，I_B为模糊图像；

感知损失函数如下所示：

L＝L_GAN+λ·L_X

式中λ为超参数，取值100，用于平衡两个损失函数。

2.根据权利要求书1中所述的一种基于条件对抗生成孪生网络的目标跟踪方法，其特征在于：步骤(2.1)包括：

3.根据权利要求书2中所述的一种基于条件对抗生成孪生网络的目标跟踪方法，其特征在于：

ILSVRC VID2015视频数据集预处理方法：，将ILSVRC VID2015视频数据集中视频帧的尺寸大小裁剪缩放到127×127，作为预处理之后的模板图像，具体步骤如下：

首先，对原始视频帧(ILSVRC VID2015视频数据中的原始视频帧)进行标注，根据标注框确定目标的中心位置和目标边界框的大小，然后在该原始视频帧上以目标中心位置为中心截取正方形区域，该正方形区域的尺寸大小为(w,h)，若选定的正方形区域大小超过了视频帧的边界范围，超出区域则以当前帧图像的RGB三通道均值进行填充，最后以尺度变换因子s缩放选定的正方形区域得到大小为127×127的模板图像。

4.根据权利要求书3所述的一种基于条件对抗生成孪生网络的目标跟踪方法，其特征在于：ILSVRC VID2015视频数据集预处理方法：将ILSVRC VID2015视频数据集中视频帧的尺寸大小裁剪缩放到255×255，作为预处理之后的搜索图像对，具体步骤如下：

首先需要在对应模板图像的边框上以当前帧图像RGB均值填充，增加额外的背景图像，得到尺寸大小为(w+2p)×(h+2p)+2×pad的正方形区域，其中pad＝(255-127)/2s，最后以相同的尺度变换因子s对选定的正方形区域进行缩放得到尺寸大小为255×255的搜索图像，其中，缩放因子s为：s×(w+2p)+s×(h+2p)＝127²，p为目标上下文余量，大小为p＝(w+h)/4。

5.根据权利要求书2中所述的一种基于条件对抗生成孪生网络的目标跟踪方法，其特征在于：GoPro模糊数据集预处理方法：首先将GoPro模糊数据集中尺寸大小为1280×720的原始清晰和模糊图像随机裁剪为尺寸大小为256×256的输入图像对，然后通过图像处理的归一化方法将随机裁剪得到输入图像对中的RGB三通道像素值归一化到之间[-1,1]，最后得到所需的清晰/模糊图像对。

6.根据权利要求书1中所述的一种基于条件对抗生成孪生网络的目标跟踪方法，，其特征在于：

步骤(3)中包括：

(3.1)条件对抗生成去模糊网络模块对输入的运动模糊和低分辨视频帧去模糊化；

(3.3)使用离线训练好的相似度函数f(z,x)进行相关性计算，输出一个在有限网格区域17×17大小的得分图；相似度函数为其中x为搜索图像，z为模板图像，/>表示卷积内嵌函数，*表示相关卷积计算，b为得分图上每个位置的不同偏置值，f为经过大量已标注视频帧训练得出的最优参数相似度函数；

(3.4)对得分图进行16倍双三次插值上采样得到272×272大小的上采样得分图，并对其核窗惩罚后找到上采样得分图中得分最高的区域；

(3.5)将得分最高区域映射到搜索图像对再映射到原视频，从而得到目标新的位置。