CN109711354A

CN109711354A - 一种基于视频属性表示学习的目标跟踪方法

Info

Publication number: CN109711354A
Application number: CN201811626841.8A
Authority: CN
Inventors: 齐元凯; 张盛平; 张维刚; 苏荔; 黄庆明; 杨明玄
Original assignee: Harbin Institute of Technology Weihai
Current assignee: Harbin Institute of Technology Weihai
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-05-03

Abstract

本发明公开了一种基于视频属性表示学习的目标跟踪方法，包括以下步骤：构建具有多属性分支的深度卷积神经网络模型；将训练数据按照视频属性进行分组；在训练数据中选取目标样本和背景样本；按照两阶段训练策略训练深度卷积神经网络模型；使用训练后的深度卷积神经网络模型对目标进行跟踪。使用不同分支学习不同属性下的表示降低了每个分支的学习难度，使得每个分支所需求的训练数据数量也降低。这些表示被自适应地融合后用于分类，提高了特征表示的判别力，使得本提案的方法可以应对复杂的跟踪场景。两阶段训练策略保证了多视频属性分支卷积神经网络可以达到预期目的。

Description

一种基于视频属性表示学习的目标跟踪方法

技术领域

本发明涉及图像处理和模式识别技术领域，尤其是一种基于视频属性表示学习的目标跟踪方法。

背景技术

目前，现有的目标跟踪技术中基于深度卷积神经网络的方法取得了较好的跟踪结果。大部分这类方法将目标跟踪看作一个目标/背景二分类任务，通过在跟踪数据集上微调在图像分类数据集上预训练的模型来获得分类器。然而，由于目标跟踪数据集的数据数量远远小于图像分类数据集的图像数量，使得这类方法的模型不能得到充分地训练，进而不能学习到具有强判别能力的特征表示，最终限制了跟踪准确性。

发明内容

本发明的目的是提供一种基于视频属性表示学习的目标跟踪方法，解决在当前训练数据数量匮乏的情况下深度卷积神经网络的强判别力表示学习问题。

为实现上述目的，本发明采用下述技术方案：

一种基于视频属性表示学习的目标跟踪方法，包括以下步骤：

构建具有多属性分支的深度卷积神经网络模型；

将训练数据按照视频属性进行分组；

在训练数据中选取目标样本和背景样本；

按照两阶段训练策略训练深度卷积神经网络模型；

使用训练后的深度卷积神经网络模型对目标进行跟踪。

进一步地，所述构建具有多属性分支的深度卷积神经网络模型为构建包括光照变化分支、物体遮挡分支、物体大小变化分支、物体运动分支以及相机运动分支的深度卷积神经网络模型。

进一步地，所述深度卷积神经网络模型包括第一卷积层、第二卷积层、第三卷积层、属性分支单元、第一连接层和第二连接层；所述属性分支单元包括五个属性分支模块；每个属性分支模块包括第四卷积层、第一卷积通路、第二卷积通路和拼接层，第四卷积层的输出分别与第一卷积通路和第二卷积通路的输入端连接，第一卷积通路和第二卷积通路的输出与拼接层连接，拼接层依次与第一连接层和第二连接层连接。

进一步地，所述将训练数据按照视频属性进行分组具体包括：根据训练数据集VOT具有的属性标签，将视频每一帧划分到属性分组中。

进一步地，所述在训练数据中选取目标样本和背景样本，具体包括：在训练数据的每一帧按照目标样本与背景样本的数量比值1：3且正样本数量在20个以上进行采样。

进一步地，所述按照两阶段训练策略训练深度卷积神经网络模型，具体包括：

分别使用属性分组中的训练数据训练深度卷积神经网络模型对应的属性分支；

将不同属性分组的训练数据合并，固定属性分支参数，训练用于特征融合和分类的全连接层。

进一步地，所述使用训练后的深度卷积神经网络模型对目标进行跟踪，具体包括：

在跟踪视频的起始帧采集目标样本和背景样本；

微调深度卷积神经网络模型；

根据高斯分布对后续帧进行目标候选采集；

使用微调后的模型对每个目标候选计算其成为目标的置信度；

选取置信度最高的前五个目标候选的平均值为最终的跟踪结果。

进一步地，所述在跟踪视频的起始帧采集目标样本和背景样本，具体包括：在起始帧按照目标样本和背景样本数量比1:10且正样本数量在100个以上进行采样。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

1、相较于传统基于卷积神经网络的方法仅用一个主干网络来学习物体在所有视频属性下的特征表示，具有多属性分支的网络结构使用不同分支学习不同属性下的表示，这降低了每个分支的学习难度，使得每个分支所需求的训练数据数量也降低。

2、具有多属性分支的卷积神经网络可以同时获得物体在不同视频属性下的表示，这些表示被自适应地融合后用于分类，提高了特征表示的判别力，使得本提案的方法可以应对复杂的跟踪场景。

3、两阶段训练策略在第一阶段将训练数据按照视频属性进行分组，每组数据用于训练卷积神经网络对应的属性分支。在第二阶段，将分组数据合并，固定属性分支的参数，训练用于特征融合和分类的全连接层。这种训练策略保证了本提案所提出的多视频属性分支卷积神经网络可以达到预期目的。

附图说明

图1是本发明实施例方法流程图；

图2是本发明构建的多属性深度卷积神经网络示意图；

图3是本发明属性分支模块示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

如图1所示，基于视频属性表示学习的目标跟踪方法，包括以下步骤：

S1、构建具有多属性分支的深度卷积神经网络模型；

S2、将训练数据按照视频属性进行分组；

S3、在训练数据中选取目标样本和背景样本；

S4、分别使用属性分组中的训练数据训练深度卷积神经网络模型对应的属性分支，此为两阶段训练策略的第一阶段；

S5、将不同属性分组的训练数据合并，固定属性分支参数，训练用于特征融合和分类的全连接层，此为两阶段训练策略的第二阶段；

S6、在跟踪视频的起始帧采集目标样本和背景样本；

S7、微调深度卷积神经网络模型；

S8、根据高斯分布对后续帧进行目标候选采集。高斯分布的均值为上一帧目标的位置，方差为物体宽与高的均值；

S9、使用微调后的模型对每个目标候选计算其成为目标的置信度；

S10、选取置信度最高的前五个目标候选的平均值作为最终的跟踪结果。

步骤S1中，构建具有多属性分支的深度卷积神经网络模型为构建包括光照变化分支、物体遮挡分支、物体大小变化分支、物体运动分支以及相机运动分支的深度卷积神经网络模型。

如图2、图3所示，深度卷积神经网络模型包括第一卷积层CONV1、第二卷积层CONV2、第三卷积层CONV3、属性分支单元、第一连接层FC1和第二连接层FC2；属性分支单元包括五个属性分支模块；每个属性分支模块包括第四卷积层CONV4、第一卷积通路、第二卷积通路和拼接层Concatenation，第四卷积层CONV4的输出分别与第一卷积通路和第二卷积通路的输入端连接，第一卷积通路和第二卷积通路的输出与拼接层Concatenation连接，拼接层Concatenation依次与第一连接层FC1和第二连接层FC2连接。第一卷积通路包括两层卷积层，第二卷积通路包括三层卷积层。具体的参数详见表1。

表1网络模型参数配置

步骤S2中，将训练数据按照视频属性进行分组，具体包括：根据训练数据集VOT具有的属性标签，将视频每一帧划分到属性分组中。

步骤S3中，在训练数据中选取目标样本和背景样本，具体包括：在训练数据的每一帧按照目标样本与背景样本的数量比值1：3且正样本数量在20个以上进行采样。这里随机采取32个目标样本和96个背景样本，其中目标样本与指定跟踪区域交并比大于0.7，所述背景样本与指定跟踪区域交并比小于0.5。交并比为两个图像区域的交集所包含的像素数除以他们的并集所包含的像素数。每一个样本缩放到107x107大小并将每一个通道的像素值减去128作为深度卷积神经网络的输入。

步骤S4和步骤S5中，在这两个阶段均使用随机梯度下降法进行训练，动量和权重衰减因子为0.9和0.0005，学习率为0.001，第一阶段迭代200次后模型收敛，第二阶段迭代150次后模型稳定。

步骤S6中，在跟踪视频的起始帧采集目标样本和背景样本，具体包括：在起始帧按照目标样本和背景样本数量比1:10且正样本数量在100个以上进行采样。这里随机采集500个目标样本和5000个背景样本，其中目标样本与指定的跟踪目标区域交并比大于0.7，背景样本与指定的跟踪区域交并比小于0.5。

步骤S7中，微调是指使用随机梯度下降法进行训练，动量和权重衰减因子为0.9和0.0005，学习率为0.0001，模型在迭代100次后稳定。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于视频属性表示学习的目标跟踪方法，其特征是，包括以下步骤：

构建具有多属性分支的深度卷积神经网络模型；

将训练数据按照视频属性进行分组；

在训练数据中选取目标样本和背景样本；

按照两阶段训练策略训练深度卷积神经网络模型；

使用训练后的深度卷积神经网络模型对目标进行跟踪。

2.如权利要求1所述的基于视频属性表示学习的目标跟踪方法，其特征是，所述构建具有多属性分支的深度卷积神经网络模型为构建包括光照变化分支、物体遮挡分支、物体大小变化分支、物体运动分支以及相机运动分支的深度卷积神经网络模型。

3.如权利要求2所述的基于视频属性表示学习的目标跟踪方法，其特征是，所述深度卷积神经网络模型包括第一卷积层、第二卷积层、第三卷积层、属性分支单元、第一连接层和第二连接层；所述属性分支单元包括五个属性分支模块；每个属性分支模块包括第四卷积层、第一卷积通路、第二卷积通路和拼接层，第四卷积层的输出分别与第一卷积通路和第二卷积通路的输入端连接，第一卷积通路和第二卷积通路的输出与拼接层连接，拼接层依次与第一连接层和第二连接层连接。

4.如权利要求1所述的基于视频属性表示学习的目标跟踪方法，其特征是，所述将训练数据按照视频属性进行分组具体包括：根据训练数据集VOT具有的属性标签，将视频每一帧划分到属性分组中。

5.如权利要求1所述的基于视频属性表示学习的目标跟踪方法，其特征是，所述在训练数据中选取目标样本和背景样本，具体包括：在训练数据的每一帧按照目标样本与背景样本的数量比值1：3且正样本数量在20个以上进行采样。

6.如权利要求1所述的基于视频属性表示学习的目标跟踪方法，其特征是，所述按照两阶段训练策略训练深度卷积神经网络模型，具体包括：

7.如权利要求1所述的基于视频属性表示学习的目标跟踪方法，其特征是，所述使用训练后的深度卷积神经网络模型对目标进行跟踪，具体包括：

在跟踪视频的起始帧采集目标样本和背景样本；

微调深度卷积神经网络模型；

根据高斯分布对后续帧进行目标候选采集；

8.如权利要求7所述的基于视频属性表示学习的目标跟踪方法，其特征是，所述在跟踪视频的起始帧采集目标样本和背景样本，具体包括：在起始帧按照目标样本和背景样本数量比1:10且正样本数量在100个以上进行采样。