CN109711354A - 一种基于视频属性表示学习的目标跟踪方法 - Google Patents

一种基于视频属性表示学习的目标跟踪方法 Download PDF

Info

Publication number
CN109711354A
CN109711354A CN201811626841.8A CN201811626841A CN109711354A CN 109711354 A CN109711354 A CN 109711354A CN 201811626841 A CN201811626841 A CN 201811626841A CN 109711354 A CN109711354 A CN 109711354A
Authority
CN
China
Prior art keywords
attribute
target
training
branch
neural networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811626841.8A
Other languages
English (en)
Inventor
齐元凯
张盛平
张维刚
苏荔
黄庆明
杨明玄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Weihai
Original Assignee
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology Weihai filed Critical Harbin Institute of Technology Weihai
Priority to CN201811626841.8A priority Critical patent/CN109711354A/zh
Publication of CN109711354A publication Critical patent/CN109711354A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视频属性表示学习的目标跟踪方法,包括以下步骤:构建具有多属性分支的深度卷积神经网络模型;将训练数据按照视频属性进行分组;在训练数据中选取目标样本和背景样本;按照两阶段训练策略训练深度卷积神经网络模型;使用训练后的深度卷积神经网络模型对目标进行跟踪。使用不同分支学习不同属性下的表示降低了每个分支的学习难度,使得每个分支所需求的训练数据数量也降低。这些表示被自适应地融合后用于分类,提高了特征表示的判别力,使得本提案的方法可以应对复杂的跟踪场景。两阶段训练策略保证了多视频属性分支卷积神经网络可以达到预期目的。

Description

一种基于视频属性表示学习的目标跟踪方法
技术领域
本发明涉及图像处理和模式识别技术领域,尤其是一种基于视频属性表示学习的目标跟踪方法。
背景技术
目前,现有的目标跟踪技术中基于深度卷积神经网络的方法取得了较好的跟踪结果。大部分这类方法将目标跟踪看作一个目标/背景二分类任务,通过在跟踪数据集上微调在图像分类数据集上预训练的模型来获得分类器。然而,由于目标跟踪数据集的数据数量远远小于图像分类数据集的图像数量,使得这类方法的模型不能得到充分地训练,进而不能学习到具有强判别能力的特征表示,最终限制了跟踪准确性。
发明内容
本发明的目的是提供一种基于视频属性表示学习的目标跟踪方法,解决在当前训练数据数量匮乏的情况下深度卷积神经网络的强判别力表示学习问题。
为实现上述目的,本发明采用下述技术方案:
一种基于视频属性表示学习的目标跟踪方法,包括以下步骤:
构建具有多属性分支的深度卷积神经网络模型;
将训练数据按照视频属性进行分组;
在训练数据中选取目标样本和背景样本;
按照两阶段训练策略训练深度卷积神经网络模型;
使用训练后的深度卷积神经网络模型对目标进行跟踪。
进一步地,所述构建具有多属性分支的深度卷积神经网络模型为构建包括光照变化分支、物体遮挡分支、物体大小变化分支、物体运动分支以及相机运动分支的深度卷积神经网络模型。
进一步地,所述深度卷积神经网络模型包括第一卷积层、第二卷积层、第三卷积层、属性分支单元、第一连接层和第二连接层;所述属性分支单元包括五个属性分支模块;每个属性分支模块包括第四卷积层、第一卷积通路、第二卷积通路和拼接层,第四卷积层的输出分别与第一卷积通路和第二卷积通路的输入端连接,第一卷积通路和第二卷积通路的输出与拼接层连接,拼接层依次与第一连接层和第二连接层连接。
进一步地,所述将训练数据按照视频属性进行分组具体包括:根据训练数据集VOT具有的属性标签,将视频每一帧划分到属性分组中。
进一步地,所述在训练数据中选取目标样本和背景样本,具体包括:在训练数据的每一帧按照目标样本与背景样本的数量比值1:3且正样本数量在20个以上进行采样。
进一步地,所述按照两阶段训练策略训练深度卷积神经网络模型,具体包括:
分别使用属性分组中的训练数据训练深度卷积神经网络模型对应的属性分支;
将不同属性分组的训练数据合并,固定属性分支参数,训练用于特征融合和分类的全连接层。
进一步地,所述使用训练后的深度卷积神经网络模型对目标进行跟踪,具体包括:
在跟踪视频的起始帧采集目标样本和背景样本;
微调深度卷积神经网络模型;
根据高斯分布对后续帧进行目标候选采集;
使用微调后的模型对每个目标候选计算其成为目标的置信度;
选取置信度最高的前五个目标候选的平均值为最终的跟踪结果。
进一步地,所述在跟踪视频的起始帧采集目标样本和背景样本,具体包括:在起始帧按照目标样本和背景样本数量比1:10且正样本数量在100个以上进行采样。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
1、相较于传统基于卷积神经网络的方法仅用一个主干网络来学习物体在所有视频属性下的特征表示,具有多属性分支的网络结构使用不同分支学习不同属性下的表示,这降低了每个分支的学习难度,使得每个分支所需求的训练数据数量也降低。
2、具有多属性分支的卷积神经网络可以同时获得物体在不同视频属性下的表示,这些表示被自适应地融合后用于分类,提高了特征表示的判别力,使得本提案的方法可以应对复杂的跟踪场景。
3、两阶段训练策略在第一阶段将训练数据按照视频属性进行分组,每组数据用于训练卷积神经网络对应的属性分支。在第二阶段,将分组数据合并,固定属性分支的参数,训练用于特征融合和分类的全连接层。这种训练策略保证了本提案所提出的多视频属性分支卷积神经网络可以达到预期目的。
附图说明
图1是本发明实施例方法流程图;
图2是本发明构建的多属性深度卷积神经网络示意图;
图3是本发明属性分支模块示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,基于视频属性表示学习的目标跟踪方法,包括以下步骤:
S1、构建具有多属性分支的深度卷积神经网络模型;
S2、将训练数据按照视频属性进行分组;
S3、在训练数据中选取目标样本和背景样本;
S4、分别使用属性分组中的训练数据训练深度卷积神经网络模型对应的属性分支,此为两阶段训练策略的第一阶段;
S5、将不同属性分组的训练数据合并,固定属性分支参数,训练用于特征融合和分类的全连接层,此为两阶段训练策略的第二阶段;
S6、在跟踪视频的起始帧采集目标样本和背景样本;
S7、微调深度卷积神经网络模型;
S8、根据高斯分布对后续帧进行目标候选采集。高斯分布的均值为上一帧目标的位置,方差为物体宽与高的均值;
S9、使用微调后的模型对每个目标候选计算其成为目标的置信度;
S10、选取置信度最高的前五个目标候选的平均值作为最终的跟踪结果。
步骤S1中,构建具有多属性分支的深度卷积神经网络模型为构建包括光照变化分支、物体遮挡分支、物体大小变化分支、物体运动分支以及相机运动分支的深度卷积神经网络模型。
如图2、图3所示,深度卷积神经网络模型包括第一卷积层CONV1、第二卷积层CONV2、第三卷积层CONV3、属性分支单元、第一连接层FC1和第二连接层FC2;属性分支单元包括五个属性分支模块;每个属性分支模块包括第四卷积层CONV4、第一卷积通路、第二卷积通路和拼接层Concatenation,第四卷积层CONV4的输出分别与第一卷积通路和第二卷积通路的输入端连接,第一卷积通路和第二卷积通路的输出与拼接层Concatenation连接,拼接层Concatenation依次与第一连接层FC1和第二连接层FC2连接。第一卷积通路包括两层卷积层,第二卷积通路包括三层卷积层。具体的参数详见表1。
表1网络模型参数配置
步骤S2中,将训练数据按照视频属性进行分组,具体包括:根据训练数据集VOT具有的属性标签,将视频每一帧划分到属性分组中。
步骤S3中,在训练数据中选取目标样本和背景样本,具体包括:在训练数据的每一帧按照目标样本与背景样本的数量比值1:3且正样本数量在20个以上进行采样。这里随机采取32个目标样本和96个背景样本,其中目标样本与指定跟踪区域交并比大于0.7,所述背景样本与指定跟踪区域交并比小于0.5。交并比为两个图像区域的交集所包含的像素数除以他们的并集所包含的像素数。每一个样本缩放到107x107大小并将每一个通道的像素值减去128作为深度卷积神经网络的输入。
步骤S4和步骤S5中,在这两个阶段均使用随机梯度下降法进行训练,动量和权重衰减因子为0.9和0.0005,学习率为0.001,第一阶段迭代200次后模型收敛,第二阶段迭代150次后模型稳定。
步骤S6中,在跟踪视频的起始帧采集目标样本和背景样本,具体包括:在起始帧按照目标样本和背景样本数量比1:10且正样本数量在100个以上进行采样。这里随机采集500个目标样本和5000个背景样本,其中目标样本与指定的跟踪目标区域交并比大于0.7,背景样本与指定的跟踪区域交并比小于0.5。
步骤S7中,微调是指使用随机梯度下降法进行训练,动量和权重衰减因子为0.9和0.0005,学习率为0.0001,模型在迭代100次后稳定。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (8)

1.一种基于视频属性表示学习的目标跟踪方法,其特征是,包括以下步骤:
构建具有多属性分支的深度卷积神经网络模型;
将训练数据按照视频属性进行分组;
在训练数据中选取目标样本和背景样本;
按照两阶段训练策略训练深度卷积神经网络模型;
使用训练后的深度卷积神经网络模型对目标进行跟踪。
2.如权利要求1所述的基于视频属性表示学习的目标跟踪方法,其特征是,所述构建具有多属性分支的深度卷积神经网络模型为构建包括光照变化分支、物体遮挡分支、物体大小变化分支、物体运动分支以及相机运动分支的深度卷积神经网络模型。
3.如权利要求2所述的基于视频属性表示学习的目标跟踪方法,其特征是,所述深度卷积神经网络模型包括第一卷积层、第二卷积层、第三卷积层、属性分支单元、第一连接层和第二连接层;所述属性分支单元包括五个属性分支模块;每个属性分支模块包括第四卷积层、第一卷积通路、第二卷积通路和拼接层,第四卷积层的输出分别与第一卷积通路和第二卷积通路的输入端连接,第一卷积通路和第二卷积通路的输出与拼接层连接,拼接层依次与第一连接层和第二连接层连接。
4.如权利要求1所述的基于视频属性表示学习的目标跟踪方法,其特征是,所述将训练数据按照视频属性进行分组具体包括:根据训练数据集VOT具有的属性标签,将视频每一帧划分到属性分组中。
5.如权利要求1所述的基于视频属性表示学习的目标跟踪方法,其特征是,所述在训练数据中选取目标样本和背景样本,具体包括:在训练数据的每一帧按照目标样本与背景样本的数量比值1:3且正样本数量在20个以上进行采样。
6.如权利要求1所述的基于视频属性表示学习的目标跟踪方法,其特征是,所述按照两阶段训练策略训练深度卷积神经网络模型,具体包括:
分别使用属性分组中的训练数据训练深度卷积神经网络模型对应的属性分支;
将不同属性分组的训练数据合并,固定属性分支参数,训练用于特征融合和分类的全连接层。
7.如权利要求1所述的基于视频属性表示学习的目标跟踪方法,其特征是,所述使用训练后的深度卷积神经网络模型对目标进行跟踪,具体包括:
在跟踪视频的起始帧采集目标样本和背景样本;
微调深度卷积神经网络模型;
根据高斯分布对后续帧进行目标候选采集;
使用微调后的模型对每个目标候选计算其成为目标的置信度;
选取置信度最高的前五个目标候选的平均值为最终的跟踪结果。
8.如权利要求7所述的基于视频属性表示学习的目标跟踪方法,其特征是,所述在跟踪视频的起始帧采集目标样本和背景样本,具体包括:在起始帧按照目标样本和背景样本数量比1:10且正样本数量在100个以上进行采样。
CN201811626841.8A 2018-12-28 2018-12-28 一种基于视频属性表示学习的目标跟踪方法 Pending CN109711354A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811626841.8A CN109711354A (zh) 2018-12-28 2018-12-28 一种基于视频属性表示学习的目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811626841.8A CN109711354A (zh) 2018-12-28 2018-12-28 一种基于视频属性表示学习的目标跟踪方法

Publications (1)

Publication Number Publication Date
CN109711354A true CN109711354A (zh) 2019-05-03

Family

ID=66257948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811626841.8A Pending CN109711354A (zh) 2018-12-28 2018-12-28 一种基于视频属性表示学习的目标跟踪方法

Country Status (1)

Country Link
CN (1) CN109711354A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113256685A (zh) * 2021-06-25 2021-08-13 南昌工程学院 基于卷积神经网络字典对学习的目标跟踪方法与***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056628A (zh) * 2016-05-30 2016-10-26 中国科学院计算技术研究所 基于深度卷积神经网络特征融合的目标跟踪方法及***
CN107330396A (zh) * 2017-06-28 2017-11-07 华中科技大学 一种基于多属性和多策略融合学习的行人再识别方法
CN107491761A (zh) * 2017-08-23 2017-12-19 哈尔滨工业大学(威海) 一种基于深度学习特征和点到集合距离度量学习的目标跟踪方法
CN108229290A (zh) * 2017-07-26 2018-06-29 北京市商汤科技开发有限公司 视频物体分割方法和装置、电子设备、存储介质和程序

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056628A (zh) * 2016-05-30 2016-10-26 中国科学院计算技术研究所 基于深度卷积神经网络特征融合的目标跟踪方法及***
CN107330396A (zh) * 2017-06-28 2017-11-07 华中科技大学 一种基于多属性和多策略融合学习的行人再识别方法
CN108229290A (zh) * 2017-07-26 2018-06-29 北京市商汤科技开发有限公司 视频物体分割方法和装置、电子设备、存储介质和程序
CN107491761A (zh) * 2017-08-23 2017-12-19 哈尔滨工业大学(威海) 一种基于深度学习特征和点到集合距离度量学习的目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭志影: "基于深度学习的室外监控场景下行人属性识别", 《中国优秀硕士学位论文库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113256685A (zh) * 2021-06-25 2021-08-13 南昌工程学院 基于卷积神经网络字典对学习的目标跟踪方法与***
CN113256685B (zh) * 2021-06-25 2021-09-24 南昌工程学院 基于卷积神经网络字典对学习的目标跟踪方法与***

Similar Documents

Publication Publication Date Title
CN105678216A (zh) 基于深度学习的时空数据流视频行为识别方法
CN110533084A (zh) 一种基于自注意力机制的多尺度目标检测方法
CN103578119B (zh) 基于超像素的Codebook动态场景中目标检测方法
CN110110599B (zh) 一种基于多尺度特征融合的遥感图像目标检测方法
CN111192291B (zh) 一种基于级联回归与孪生网络的目标跟踪方法
CN105590099B (zh) 一种基于改进卷积神经网络的多人行为识别方法
CN110070107A (zh) 物体识别方法及装置
CN109558942A (zh) 一种基于浅度学习的神经网络迁移方法
CN110188863B (zh) 一种适用于资源受限设备的卷积神经网络的卷积核压缩方法
US20230368497A1 (en) Image Recognition Method and System of Convolutional Neural Network Based on Global Detail Supplement
CN114841244B (zh) 一种基于鲁棒采样和混合注意力金字塔的目标检测方法
CN105825191A (zh) 基于人脸多属性信息的性别识别方法、***及拍摄终端
CN111462230A (zh) 一种基于深度强化学习的台风中心定位方法
CN109146924A (zh) 一种基于热力图的目标跟踪方法及装置
CN109766465A (zh) 一种基于机器学习的图文融合图书推荐方法
CN109800795A (zh) 一种果蔬识别方法及***
CN111046821A (zh) 一种视频行为识别方法、***及电子设备
CN107463881A (zh) 一种基于深度增强学习的人物图像搜索方法
CN113887517B (zh) 基于并行注意力机制的农作物遥感图像语义分割方法
CN106649663A (zh) 一种基于紧凑视频表征的视频拷贝检测方法
CN107085723A (zh) 一种基于深度学习模型的车牌字符整体识别方法
CN109978074A (zh) 基于深度多任务学习的图像美感和情感联合分类方法及***
CN117830788B (zh) 一种多源信息融合的图像目标检测方法
CN109597998A (zh) 一种视觉特征和语义表征联合嵌入的图像特征构建方法
CN110110812A (zh) 一种用于视频动作识别的串流深度网络模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190503