CN111192288A - 基于形变样本生成网络的目标跟踪算法 - Google Patents
基于形变样本生成网络的目标跟踪算法 Download PDFInfo
- Publication number
- CN111192288A CN111192288A CN201811354655.3A CN201811354655A CN111192288A CN 111192288 A CN111192288 A CN 111192288A CN 201811354655 A CN201811354655 A CN 201811354655A CN 111192288 A CN111192288 A CN 111192288A
- Authority
- CN
- China
- Prior art keywords
- deformation
- network
- target
- classifier
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 230000007774 longterm Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 4
- 210000005036 nerve Anatomy 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 241000195940 Bryophyta Species 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
基于形变样本生成网络的目标跟踪算法,利用卷积神经需要大数据集训练的特性,提出一种形变生成对抗网络,来增加训练的形变样本,从而使得***更好地分辨形变目标,达到较高的准确度和鲁棒性,该***能适应多种场景,有着广泛的应用前景。
Description
技术领域
本发明属于计算机视觉的目标跟踪领域,更具体地,涉及一种深度学习方法来对形变目标自适应的目标跟踪算法即基于形变样本生成网络的目标跟踪算法。
背景技术
随着计算机网络、信息存储技术、成像技术、计算机处理能力和数字通信等相关科学的迅速发展,使得现实世界的信息可以通过计算机视觉***将其转变为计算机可以处理的数字信息。一个典型的计算机视觉***一般分为目标检测、目标跟踪、目标行为识别和目标行为分析这四个步骤。其中目标跟踪是其中一个十分重要的研究方向,并且被应用于多个领域中,如:无人驾驶,人机交互和视频监控等方面。
目前常用的目标跟踪算法主要分为两类:生成式和判别式目标跟踪算法。生成式目标跟踪算法是指利用上一帧得到的信息,在视频的下一帧,通过匹配的方法,来选择与目标最相似的候选样本,相似度最高的最为本帧跟踪的目标。判别式方法可以看做是一个二分类问题,即将目标与背景信息分开,从而获得我们要跟踪的目标物体。Henriques 等人利用了核相关滤波器(KCF)实现了一个很好的跟踪性能;Bolme 等人利用最小输出误差平方和(MOSSE)方法在实现较好的跟踪的特征的时候也实现了很快的跟踪速度。但是这些方法利用的都是一些低层次的手工特征,会造成目标特征提取不充分的情况。深度学习的出现解决了这个问题。Krizhevsky 等人利用在大数据集上训练好的深层卷积神经网络实现了优异的跟踪性能。MDNet 等方法利用视频序列去训练卷积神经网络,取得了很明显的进步,然而目标跟踪领域依然有很多难以克服的困难,如:遮挡,形变,光照变化等,这些挑战在大数据集和视频序列中出现的频率并不是很高,我们没有充分的困难样本去训练卷积神经网络,从而获得更好的性能。因此,增加训练样本,这是目前需要我们解决的问题之一。
发明内容
为了解决现有技术存在的问题,本发明提出一种基于形变样本生成网络的目标跟踪算法,利用卷积神经需要大数据集训练的特性,提出一种形变生成对抗网络,来增加训练的形变样本,从而使得***更好地分辨形变目标,达到较高的准确度和鲁棒性,该***能适应多种场景,有着广泛的应用前景。
该***由三部分组成,第一部分是利用三层卷积层形成的特征提取网络,主要用来提取目标的特征,第二部分是形变样本生成网络,这一部分主要是利用生成对抗的思想,将第一部分得到的特征图进行形变,从而使得分类器更加难判断,从而训练分类器的性能。第三部分是分类器,主要是利用全连接层对目标和本经来进行分类,最后得到想要跟踪的目标的位置。
基于形变样本生成网络的目标跟踪算法,主要分为训练部分和测试部分:
1、训练过程如下:
(1)特征提取
在特征提取部分,我们采用了VGG-M网络,采用三层卷积层对输入的视频帧提取特征图,输入图片的大小为107×107(单位为像素)。
在此次的算法中,对于负样本的筛选要处理应用了难例挖掘的思想。在跟踪检测中,大多数的负样本通常是冗余的,只有很少的具有代表性的负样本是对于训练***有用的。对于平常的随机梯度下降方法,很容易造成***的漂移问题。对于解决这个问题,最常用的就是难例挖掘的思想。
(2)形变样本生成(这一部分内容是想要申请保护的创新性内容部分)
利用前三层卷积层生成目标的特征图,输入到我们提出的形变样本生成网络(DSGN)。
形变样本生成网络的主体是由三部分组成,第一部分是三层全连接层。用于生成形变样本参数,第二部分是网格生成器,主要用于将生成的形变样本参数生成网格;第三部分是采样器,用于将生成的网格与输入的特征图结合,从而生成形变样本。
这一部分训练主要是训练三个全连接层,利用与最后分类器相反的损失函数(loss),对这一部分网络进行训练。
分类器损失函数为:
其中,y为真值,X为输入图片的特征图,f(x)为分类器的输入。
那么,形变样本生成网络这一部分的训练loss为:
具体做法为:交替训练形变样本生成网络和分类器,将最后训练分类器的loss的负数作为训练形变样本生成网络的loss,这样的目的是当形变样本生成网络生成的形变样本容易被分类器分类时,分类器会产生一个较小的loss,传给形变生成网络时为-loss,此时会对形变样本生成网络产生一个较大的loss,从而令形变样本生成网络生成更难分辨的形变样本,当更难分辨的形变样本传到分类器时,会令分类器产生一个较大的loss,此时形变样本生成网络的loss就会变小(因为这一部分loss为分类器loss的负数)。依据这个过程进行对抗交替训练,从而训练出更好性能的分类器。
(3)边界框回归模型
采用边界框回归技术,用来修正跟踪的边界框的位置,从而提高目标位置的精度。在测试序列中,此模型只在第一帧的时候被训练。当给定第一帧,使用三层卷积网络来训练一个简单的线性回归模型来预测目标的位置。在随后的视频序列的每一帧中,我们使用回归模型来调整目标的边界框的位置。
(4)长短更新策略
在跟踪过程当中,跟踪的目标有可能出现丢失的情况,针对这一情况,采用长短更新策略。长期更新策略采用的是有规律的间隔。在跟踪目标的时候,一旦发现我们跟丢了,就使用短期的跟新策略,在短期跟新策略中,用于更新网络的正样本还是这一段时间内采集到的正样本;而当长期处于丢失跟踪目标的情况下,我们将一段时间内收集到的正样本用来重新更新网络。两个更新策略中所使用的负样本都使用的短期更新模型中所收集到的负样本。我们规定和是两个帧索引集,短期设定为=20,长期设定为=100。
采用这一个策略的目的就是使得样本可以保持为最“新鲜”的,这样对于跟踪结果更有利。
2、测试过程
在模型训练好了之后,我们将加入的形变样本生成网络模块去除,将剩下的特征提取模块和分类模块作为我们的测试网络:
将训练好的网络的参数导入到测试网络中,然后将测试视频序列输入网络,开始测试。边界框回归技术和长短根性策略与训练部分一样。
我们利用最后分类器输出的分类分数来判断哪一个候选样本是我们要跟踪的目标,跟踪目标判断公式如下:
选择得分最高的候选样本作为要跟踪的目标。
在线跟踪算法如下:
在线更新算法
2.利用第一帧图片训练一个边界框回归模型
6.重复
其他情况
直到序列结束
基于形变样本生成网络的目标跟踪算法,能够在环境复杂的情况下,利用卷积神经网络,自适应调节网络的参数,尤其对形变的目标物体有很高的鲁棒性,使得***在多种跟踪场景都有很高的准确率。
附图说明
图1为本专利跟踪算法的基本框架图;
图2为形变样本生成网络示例图。
具体实施方式
在图1的框图中,包含三部分内容,第一部分为目标特征提取网络,由三层卷积层组成。将视频帧图片输入网络后,最后一层卷积层输出的为提取好的特征图。将得到的特征图输入到形变样本生成网络,通过对抗训练的方法,生成分类器难以判别的形变样本,将输出的形变样本输入到第三部分:分类网络,从而得到要跟踪的目标。
图2为形变样本生成网络的具体网络结构示意图。首先将输入网络的特征图输入到三个全连接层中,最后一个全连接层输入的为一个2*3的矩阵,代表了形变的参数,然后将参数输入到转换器中生成采样网格,然后将网格作用于最开始输入的特征图上,此时可以得到形变的特征图。
下面对专利提出的目标跟踪算法进行验证。同时,通过仿真实验比较该算法的预测结果与当前领先的***结果,通过大量的实验结果来证实算法的有效性。实验结果以中心位置误差(CLE)的形式表示:
CLE表示***的跟踪结果与理想跟踪结果之间的坐标欧式距离。
下表中,our表示我们的算法,Py-mdnet,SINT,ACFN,siamFC表示目标别人提出的主流的目标跟踪算法。
实验结果:
表1 我们实验结果与其他***的结果对比
表2 在形变特性下的结果对比:
由表一我们可以看出,我们的算法与目前效果较好的算法相比,仍然表现的效果很好。表明我们的算法的优异性。
由表二可以看出,我们提出的网络结构在对测试序列的形变特性中表现很好,可以对形变特性表现出很好的鲁棒性,证明了我们提出的形变样本生成网络对算法的效果提升有很好的提升。
Claims (1)
1.基于形变样本生成网络的目标跟踪算法,其特征在于:具体方案如下:
训练过程如下:
(1)特征提取
在特征提取部分,采用VGG-M网络,采用三层卷积层对输入的视频帧提取特征图,输入图片的大小为107×107(单位为像素);
(2)形变样本生成
利用前三层卷积层生成目标的特征图,输入到形变样本生成网络(DSGN);
形变样本生成网络的主体是由三部分组成,第一部分是三层全连接层,用于生成形变样本参数;第二部分是网格生成器,主要用于将生成的形变样本参数生成网格;第三部分是采样器,用于将生成的网格与输入的特征图结合,从而生成形变样本;
利用与最后分类器相反的损失函数(loss),对网络进行训练;
分类器损失函数为:
其中,y为真值,X为输入图片的特征图,f(x)为分类器的输入;
形变样本生成网络这一部分的训练loss为:
具体做法为:交替训练形变样本生成网络和分类器,将最后训练分类器的loss的负数作为训练形变样本生成网络的loss,这样的目的是当形变样本生成网络生成的形变样本容易被分类器分类时,分类器会产生一个较小的loss,传给形变生成网络时为-loss,此时会对形变样本生成网络产生一个较大的loss,从而令形变样本生成网络生成更难分辨的形变样本,当更难分辨的形变样本传到分类器时,会令分类器产生一个较大的loss,此时形变样本生成网络的loss就会变小,依据这个过程进行对抗交替训练,从而训练出更好性能的分类器;
(3)边界框回归模型
采用边界框回归技术,用来修正跟踪的边界框的位置,从而提高目标位置的精度;
(4)长短更新策略
针对跟踪的目标有可能出现丢失的情况,采用长短更新策略,长期更新策略采用的是有规律的间隔,在跟踪目标的时候,一旦发现跟丢了,就使用短期的跟新策略,在短期跟新策略中,用于更新网络的正样本还是这一段时间内采集到的正样本;而当长期处于丢失跟踪目标的情况下,将一段时间内收集到的正样本用来重新更新网络;两个更新策略中所使用的负样本都使用的短期更新模型中所收集到的负样本;规定和是两个帧索引集,短期设定为=20,长期设定为=100;
跟踪测试过程:
在模型训练好了之后,将加入的形变样本生成网络模块去除,将剩下的特征提取模块和分类模块作为测试网络;
将训练好的网络的参数导入到测试网络中,然后将测试视频序列输入网络,开始测试;
利用最后分类器输出的分类分数来判断哪一个候选样本是要跟踪的目标,跟踪目标判断公式如下:
选择得分最高的候选样本作为要跟踪的目标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811354655.3A CN111192288B (zh) | 2018-11-14 | 2018-11-14 | 基于形变样本生成网络的目标跟踪算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811354655.3A CN111192288B (zh) | 2018-11-14 | 2018-11-14 | 基于形变样本生成网络的目标跟踪算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111192288A true CN111192288A (zh) | 2020-05-22 |
CN111192288B CN111192288B (zh) | 2023-08-04 |
Family
ID=70707064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811354655.3A Active CN111192288B (zh) | 2018-11-14 | 2018-11-14 | 基于形变样本生成网络的目标跟踪算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111192288B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100313229A1 (en) * | 2009-06-09 | 2010-12-09 | Paul Michael Martini | Threshold Based Computer Video Output Recording Application |
CN104574445A (zh) * | 2015-01-23 | 2015-04-29 | 北京航空航天大学 | 一种目标跟踪方法及装置 |
CN106709936A (zh) * | 2016-12-14 | 2017-05-24 | 北京工业大学 | 一种基于卷积神经网络的单目标跟踪方法 |
CN107154024A (zh) * | 2017-05-19 | 2017-09-12 | 南京理工大学 | 基于深度特征核相关滤波器的尺度自适应目标跟踪方法 |
CN107945210A (zh) * | 2017-11-30 | 2018-04-20 | 天津大学 | 基于深度学习和环境自适应的目标跟踪算法 |
CN108346159A (zh) * | 2018-01-28 | 2018-07-31 | 北京工业大学 | 一种基于跟踪-学习-检测的视觉目标跟踪方法 |
CN108596958A (zh) * | 2018-05-10 | 2018-09-28 | 安徽大学 | 一种基于困难正样本生成的目标跟踪方法 |
-
2018
- 2018-11-14 CN CN201811354655.3A patent/CN111192288B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100313229A1 (en) * | 2009-06-09 | 2010-12-09 | Paul Michael Martini | Threshold Based Computer Video Output Recording Application |
CN104574445A (zh) * | 2015-01-23 | 2015-04-29 | 北京航空航天大学 | 一种目标跟踪方法及装置 |
CN106709936A (zh) * | 2016-12-14 | 2017-05-24 | 北京工业大学 | 一种基于卷积神经网络的单目标跟踪方法 |
CN107154024A (zh) * | 2017-05-19 | 2017-09-12 | 南京理工大学 | 基于深度特征核相关滤波器的尺度自适应目标跟踪方法 |
CN107945210A (zh) * | 2017-11-30 | 2018-04-20 | 天津大学 | 基于深度学习和环境自适应的目标跟踪算法 |
CN108346159A (zh) * | 2018-01-28 | 2018-07-31 | 北京工业大学 | 一种基于跟踪-学习-检测的视觉目标跟踪方法 |
CN108596958A (zh) * | 2018-05-10 | 2018-09-28 | 安徽大学 | 一种基于困难正样本生成的目标跟踪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111192288B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112308158B (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
CN111354017B (zh) | 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 | |
Jiang et al. | SP-NAS: Serial-to-parallel backbone search for object detection | |
CN108830252B (zh) | 一种融合全局时空特征的卷积神经网络人体动作识别方法 | |
Jie et al. | Tree-structured reinforcement learning for sequential object localization | |
Wang et al. | Transferring rich feature hierarchies for robust visual tracking | |
CN112184752A (zh) | 一种基于金字塔卷积的视频目标跟踪方法 | |
CN109993100B (zh) | 基于深层特征聚类的人脸表情识别的实现方法 | |
CN108399435B (zh) | 一种基于动静特征的视频分类方法 | |
CN109685037B (zh) | 一种实时动作识别方法、装置及电子设备 | |
CN105160310A (zh) | 基于3d卷积神经网络的人体行为识别方法 | |
CN109977895B (zh) | 一种基于多特征图融合的野生动物视频目标检测方法 | |
CN113688894B (zh) | 一种融合多粒度特征的细粒度图像分类方法 | |
CN107945210B (zh) | 基于深度学习和环境自适应的目标跟踪方法 | |
Wang et al. | Describe and attend to track: Learning natural language guided structural representation and visual attention for object tracking | |
CN109087337B (zh) | 基于分层卷积特征的长时间目标跟踪方法及*** | |
Chen et al. | Using FTOC to track shuttlecock for the badminton robot | |
CN111414875B (zh) | 基于深度回归森林的三维点云头部姿态估计*** | |
CN111191535B (zh) | 基于深度学习的行人检测模型构建方法及行人检测方法 | |
CN114332166A (zh) | 基于模态竞争协同网络的可见光红外目标跟踪方法及装置 | |
CN116229112A (zh) | 一种基于多重注意力的孪生网络目标跟踪方法 | |
Firouznia et al. | Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking | |
CN117576753A (zh) | 基于面部关键点的注意力特征融合的微表情识别方法 | |
Li et al. | GIN: Generative invariant shape prior for amodal instance segmentation | |
CN111783526A (zh) | 一种利用姿势不变和图结构对齐的跨域行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |