CN107945210B - 基于深度学习和环境自适应的目标跟踪方法 - Google Patents
基于深度学习和环境自适应的目标跟踪方法 Download PDFInfo
- Publication number
- CN107945210B CN107945210B CN201711237457.4A CN201711237457A CN107945210B CN 107945210 B CN107945210 B CN 107945210B CN 201711237457 A CN201711237457 A CN 201711237457A CN 107945210 B CN107945210 B CN 107945210B
- Authority
- CN
- China
- Prior art keywords
- target
- samples
- frame
- positive
- positive sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习和环境自适应的目标跟踪算法,该跟踪算法由两部分组成,一部分是预处理,对跟踪视频的每一帧图像来提取信息,然后通过显著性检测、卷积神经网络算法来对采取的正负样本进行进一步的筛选;另外一部分是实现VGG模型的卷积神经网络:首先利用三层的卷积网络来提取目标特征,其次利用全连接层来对目标和背景来进行分类,最后得到想要跟踪的目标的位置,再开始下一帧的跟踪流程。现有技术相比,本发明(1)能够在降低计算复杂度的同时,精确使用图像的预处理信息,使得跟踪效果更加精确,因此,本发明内容具有独创性;(2)该***能适应多种环境复杂的场景,有着广泛的应用前景。
Description
技术领域
本发明涉及计算机视觉的目标跟踪领域,更具体地,涉及一种基于深度学习方法来对环境自适应的目标跟踪算法。
背景技术
人类是通过感觉来与外界联系和沟通的,但是人的精力和视野是非常有限的。因此在各个领域的应用中,人类的视觉是受到了很大的限制甚至低效的。在数字计算机技术飞速发展的今天,计算机视觉也越来越引起人们的广泛关注,人们意图用计算机来代替人的“眼睛”,使之具有智能化,让计算机能够处理视觉信息、完善人类视觉上的诸多短板。计算机视觉是融合了人工神经网络、心理学、物理学、计算机图形学以及数学等众多领域的一门交叉性很强的学科。
目前在计算机视觉领域,目标跟踪是非常活跃的课题之一,人们也越来越把注意点放在了这个领域上。目标跟踪的应用领域非常广泛,例如,动作分析、行为识别、监控和人机交互等都用到了这方面的知识,在科学和工程中有着重要的研究价值与极大的应用前景,吸引着国内外大批研究者的兴趣。
深度学习已经很好的应用于图像处理方向当中,为目标跟踪方向提供了一种新的解决思路。在目标跟踪领域,利用深度学习的深层架构自动地从获取的样本中学习更加抽象和本质的特征,从而来测试新的序列。结合深度学习方法的跟踪技术,在性能上逐渐超越了传统的跟踪方法,成为了这一领域的一个新趋势。
迄今为止,在国内外公开发表的论文和文献中尚未见开展有关基于深度学习和环境自适应的目标跟踪算法。
发明内容
基于上述现有技术,本发明提提出一种基于深度学习和环境自适应的目标跟踪方法,利用卷积神经网络,自适应调节网络的参数,使得***在多种跟踪场景都有很高的准确率结合显著性检测的预处理优势。
本发明的一种基于深度学习和环境自适应的目标跟踪方法,该方法包括以下步骤:
步骤1、采用107×107像素点大小的图片作为输入;
步骤2、预处理包括正样本预处理和负样本的处理,包括正样本预处理和负样本预处理;其中,正样本预处理的步骤包括:首先,执行采样流程:根据groundtruth值在正样本中的目标周围取一个比目标的groundtruth值大的矩形,作为采样框,计算正样本的显著图占整个采样框的比例,若是比例大于设定的某个阈值,当成纯正的正样本,若是比设定的阈值小,则予以丢弃;然后,利用显著性检测算法检测出目标的形状,得到显著图,将得到的显著图二值化后,用二值化后的显著图代替原来的那一帧图像,再根据前面的采样的流程对二值化之后的整帧图像来进行采样;负样本预处理的步骤包括:使用难例挖掘算法对于负样本进行筛选,将采样的样本在卷积神经网络中进行一次正向传播,将loss比较大的样本按照顺序排列,并将前面的选出来loss比较大的样本作为“难例”,用这部分样本来训练网络;其中:离线多域训练时,从每一帧中采用50个正样本和200个负样本,正样本和负样本分别和ground-truth的框有≥0.7和≤0.5的重合率,根据这个标准来分别选取正负样本的;同样的,对于在线学习,收集个正样本和负样本,并且遵循上边的采样重合率标准;
步骤3、在第一帧被训练时采用边界框回归模型,具体处理包括:对于测试的视频序列中所给定第一帧,使用三层卷积网络来训练一个线性的边界框回归模型来预测目标的位置、提取目标特征;在随后的视频序列的每一帧中,使用边界框回归模型来调整预测对应目标的边界框的位置。
与现有技术相比,本发明具有以下效果:
(1)能够在降低计算复杂度的同时,精确使用图像的预处理信息,使得跟踪效果更加精确,因此,本发明内容具有独创性;
(2)该***能适应多种环境复杂的场景,有着广泛的应用前景。
附图说明
图1为本发明的基于深度学习和环境自适应的目标跟踪方法整体框架;图1(a)为本文跟踪算法的基本模型;图1(b)为显著性检测模型;图1(c)深度学习跟踪模型;
图2为Diving序列跟踪测试结果
图3为ball序列跟踪测试结果
具体实施方式
本发明的基于深度学习和环境自适应的目标跟踪方法,该跟踪方法由两部分组成,一部分是预处理,对跟踪视频的每一帧图像来提取信息,然后通过显著性检测、卷积神经网络算法来对采取的正负样本进行进一步的筛选;另外一部分是实现VGG模型的卷积神经网络:首先利用三层的卷积网络来提取目标特征,其次利用全连接层来对目标和背景来进行分类,最后得到想要跟踪的目标的位置,再开始下一帧的跟踪流程。
具体流程详细描述如下:
步骤1、采用107×107像素点大小的图片作为输入;为了保证卷积层输出的特征图与输入的大小相匹配,要保证输入全卷积层的为一维向量;
步骤2、预处理包括正样本预处理和负样本的处理
(1)正样本预处理:一般的方法采取的正样本有的时候是包含了大部分背景的负样本,这样的“正样本”对于卷积神经网络中的训练是会造成一定误差的。因此,本发明对所采取的的正样本进行一定的筛选,使得正样本更加的纯正。具体的实现方法如下:
首先,根据groundtruth值在正样本中的目标周围取一个矩形,矩形一定要比目标的groundtruth值大;计算显著图占整个采样框的比例,若是比例大于设定的某个阈值,就可以当成纯正的正样本来输入进网络,若是比设定的阈值小,则予以丢弃。这样可以用来保证得到的正样本都几乎是纯正的。
然后,进行“显著性”检测,即对于在一个区域内显著的物体进行检测。具体作法是利用显著性检测算法大致的检测出目标的形状,然后将得到的显著图二值化,将其插回原来的一帧的图像中,再根据前面的采样的流程对二值化之后的整帧图像来进行采样,后面要利用“显著性”方法来对目标进行检验。
本步骤中的正样本筛选,在大多数的跟踪算法中是一个通用的正样本筛选方法;将这个思想用到了预训练的网络中,可以对于整个网络的参数有一定的影响。
(2)负样本预处理
在跟踪检测中,大多数的负样本通常是冗余的,只有很少的具有代表性的负样本是对于训练***有用的。对于平常的SGD方法,很容易造成***的漂移问题。对于解决这个问题,最常用的就是难例挖掘的思想。对于负样本的筛选应用难例挖掘的思想,将采样的样本在卷积神经网络中进行一次正向传播,将loss比较大的样本按照顺序排列,并将前面的选出来,因为这部分样本与正样本足够接近,同时又不是正样本,因此被称为“难例”,用这部分样本来训练网络,可以使网络更好的学习到正负样本之间的差别。
步骤3、在第一帧被训练时采用边界框回归模型,具体处理包括:对于测试的视频序列中所给定第一帧,使用三层卷积网络来训练一个线性回归模型来预测目标的位置、提取目标特征;在随后的视频序列的每一帧中,使用回归模型来调整目标的边界框的位置,利用全连接层对图像中的目标和背景进行分类,得到目标概率大的图像块,将该图像块视为要跟踪的目标,即可得到要跟踪目标的位置,再开始下一帧的跟踪流程。
在正样本预处理中,还可以采用长短更新策略:利用一段时间内收集到的正样本来重新更新网络。在跟踪目标的时候,一旦发现跟丢了,就使用短期的更新策略,在短期更新策略中,用于更新网络的正样本还是这一段时间内采集到的正样本。两个更新策略中所使用的负样本都使用的短期更新模型中所收集到的负样本。规定Ts和Tl是两个帧索引集,短期设定为Ts=20帧,长期设定为Tl=100帧。采用这一个策略的目的就是使得样本保持为最“新鲜”的,这样对于跟踪结果更有利。
在离线训练好神经网络之后,对于需要测试的视频序列,是在线跟踪的。因此在整体跟踪算法中,需要有在线跟踪算法部分。在线跟踪的算法具体实现过程如下:
输入:预训练卷积神经网络CNN的滤波器{w1,...,w5}
初始化目标的状态x1
(1)随机初始化第6个全连接层的权重w6,使得w6获得一个随机的初始值;
(2)训练一个边界框回归模型;
(4)利用显著性网络对正样本进行筛选,
(6)设置长短更新初始值:Ts←{1}和Tl←{1};
(7)重复以下操作:
Ts←Ts∪{t},Tl←Tl∪{t}
其中,t表示第t帧,Ts和Tl分别代表短和长的索引集。将t与Ts和Tl的最大值分别的赋给Ts和Tl,更新两个帧索引集的值;
其他情况,使用短期模型中的正样本和负样本来更新权重{w4,w5,w6}。
下面将结合附图对本发明的实施方式作进一步的详细描述。
下面对专利提出的基于深度学习和环境自适应的目标跟踪方法进行验证。同时,通过仿真实验比较该算法的训练误差与未改进前的算法的训练误差进行对比,通过大量的实验结果来证实算法的有效性。实验结果以跟踪的目标框的形式表示。
候选目标生成为了在每一帧中生成候选目标,选取N=256个样本,
训练数据:在离线多域训练时,从每一帧中采用50个正样本和200个负样本,正样本和负样本分别和ground-truth的框有≥0.7和≤0.5的重合率,就是根据这个标准来分别选取正负样本的。同样的,对于在线学习,收集个正样本和个负样本,并且遵循上边的采样重合率标准。但是第一帧采样时,我们采取正样本负样本对于边界框回归u,我们使用1000个训练样本。
网络学习:对于训练K个分支的多域网络学习,把卷积层的学习率参数设置为0.0001,把全连接层的学习率设置为0.001。最开始训练全连接层的时候,我们迭代30次,全连接层4和5的学习率设置为0.0001,第六个全连接层学习率设置为0.001。
表1为改进算法是加入“显著性”预处理网络,表2为未改进算法是没加入预处理网络的实验结果。
表1、改进算法后的训练结果
表2、未改进算法的训练结果
Claims (1)
1.一种基于深度学习和环境自适应的目标跟踪方法,其特征在于,该方法包括以下步骤:
步骤(1)、采用107×107像素点大小的图片作为输入;
步骤(2)、预处理包括正样本预处理和负样本的处理,包括正样本预处理和负样本预处理;其中,正样本预处理的步骤包括:首先,执行采样流程:根据groundtruth值在正样本中的目标周围取一个比目标的groundtruth值大的矩形,作为采样框,计算正样本的显著图占整个采样框的比例,若是比例大于设定的某个阈值,当成纯正的正样本,若是比设定的阈值小,则予以丢弃;然后,利用显著性检测算法检测出目标的形状,得到显著图,将得到的显著图二值化后,用二值化后的显著图代替原来的那一帧图像,再根据前面的采样的流程对二值化之后的整帧图像来进行采样;负样本预处理的步骤包括:使用难例挖掘算法对于负样本进行筛选,将采样的样本在卷积神经网络中进行一次正向传播,将loss比较大的样本按照顺序排列,并将前面的选出来loss比较大的样本作为“难例”,用这部分样本来训练网络;其中:离线多域训练时,从每一帧中采用50个正样本和200个负样本,正样本和负样本分别和ground-truth的框有≥0.7和≤0.5的重合率,根据这个标准来分别选取正负样本的;同样的,对于在线学习,收集个正样本和负样本,并且遵循上边的采样重合率标准;
步骤(3)、在第一帧被训练时采用边界框回归模型,具体处理包括:对于测试的视频序列中所给定第一帧,使用三层卷积网络来训练一个线性的边界框回归模型来预测目标的位置、提取目标特征;在随后的视频序列的每一帧中,使用边界框回归模型来调整预测对应目标的边界框的位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711237457.4A CN107945210B (zh) | 2017-11-30 | 2017-11-30 | 基于深度学习和环境自适应的目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711237457.4A CN107945210B (zh) | 2017-11-30 | 2017-11-30 | 基于深度学习和环境自适应的目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107945210A CN107945210A (zh) | 2018-04-20 |
CN107945210B true CN107945210B (zh) | 2021-01-05 |
Family
ID=61946958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711237457.4A Active CN107945210B (zh) | 2017-11-30 | 2017-11-30 | 基于深度学习和环境自适应的目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107945210B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109345559B (zh) * | 2018-08-30 | 2021-08-06 | 西安电子科技大学 | 基于样本扩充和深度分类网络的运动目标跟踪方法 |
CN109344793B (zh) | 2018-10-19 | 2021-03-16 | 北京百度网讯科技有限公司 | 用于识别空中手写的方法、装置、设备以及计算机可读存储介质 |
CN111192288B (zh) * | 2018-11-14 | 2023-08-04 | 天津大学青岛海洋技术研究院 | 基于形变样本生成网络的目标跟踪算法 |
CN109682392B (zh) * | 2018-12-28 | 2020-09-01 | 山东大学 | 基于深度强化学习的视觉导航方法及*** |
TWI749870B (zh) * | 2020-04-08 | 2021-12-11 | 四零四科技股份有限公司 | 處理視訊內容分析的裝置 |
CN113538507B (zh) * | 2020-04-15 | 2023-11-17 | 南京大学 | 一种基于全卷积网络在线训练的单目标跟踪方法 |
CN112465862B (zh) * | 2020-11-24 | 2024-05-24 | 西北工业大学 | 一种基于跨域深度卷积神经网络的视觉目标跟踪方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955718A (zh) * | 2014-05-15 | 2014-07-30 | 厦门美图之家科技有限公司 | 一种图像主体对象的识别方法 |
CN104915972A (zh) * | 2014-03-13 | 2015-09-16 | 欧姆龙株式会社 | 图像处理装置、图像处理方法以及程序 |
CN106709936A (zh) * | 2016-12-14 | 2017-05-24 | 北京工业大学 | 一种基于卷积神经网络的单目标跟踪方法 |
EP3229206A1 (en) * | 2016-04-04 | 2017-10-11 | Xerox Corporation | Deep data association for online multi-class multi-object tracking |
CN107369166A (zh) * | 2017-07-13 | 2017-11-21 | 深圳大学 | 一种基于多分辨率神经网络的目标跟踪方法及*** |
-
2017
- 2017-11-30 CN CN201711237457.4A patent/CN107945210B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915972A (zh) * | 2014-03-13 | 2015-09-16 | 欧姆龙株式会社 | 图像处理装置、图像处理方法以及程序 |
CN103955718A (zh) * | 2014-05-15 | 2014-07-30 | 厦门美图之家科技有限公司 | 一种图像主体对象的识别方法 |
EP3229206A1 (en) * | 2016-04-04 | 2017-10-11 | Xerox Corporation | Deep data association for online multi-class multi-object tracking |
CN106709936A (zh) * | 2016-12-14 | 2017-05-24 | 北京工业大学 | 一种基于卷积神经网络的单目标跟踪方法 |
CN107369166A (zh) * | 2017-07-13 | 2017-11-21 | 深圳大学 | 一种基于多分辨率神经网络的目标跟踪方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN107945210A (zh) | 2018-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107945210B (zh) | 基于深度学习和环境自适应的目标跟踪方法 | |
CN109543502B (zh) | 一种基于深度多尺度神经网络的语义分割方法 | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
Liu et al. | Learning converged propagations with deep prior ensemble for image enhancement | |
EP3620990A1 (en) | Capturing network dynamics using dynamic graph representation learning | |
CN110048827B (zh) | 一种基于深度学习卷积神经网络的类模板攻击方法 | |
EP3477550A1 (en) | Vehicle license plate classification method and system based on deep learning, electronic apparatus, and storage medium | |
CN107636691A (zh) | 用于识别图像中的文本的方法和设备 | |
CN112507990A (zh) | 视频时空特征学习、抽取方法、装置、设备及存储介质 | |
CN113011357A (zh) | 基于时空融合的深度伪造人脸视频定位方法 | |
CN113344206A (zh) | 融合通道与关系特征学习的知识蒸馏方法、装置及设备 | |
CN108320306B (zh) | 融合tld和kcf的视频目标跟踪方法 | |
Alqahtani et al. | Pruning CNN filters via quantifying the importance of deep visual representations | |
US20220092407A1 (en) | Transfer learning with machine learning systems | |
CN113448843B (zh) | 基于缺陷分析的图像识别软件测试数据增强方法及装置 | |
CN111489803B (zh) | 基于自回归模型的报告单编码模型生成方法、***和设备 | |
CN116152554A (zh) | 基于知识引导的小样本图像识别*** | |
CN113283524A (zh) | 一种基于对抗攻击的深度神经网络近似模型分析方法 | |
CN114417975A (zh) | 基于深度pu学习与类别先验估计的数据分类方法及*** | |
CN114399661A (zh) | 一种实例感知主干网络训练方法 | |
Fonseca et al. | Model-agnostic approaches to handling noisy labels when training sound event classifiers | |
US20230297823A1 (en) | Method and system for training a neural network for improving adversarial robustness | |
CN115861625A (zh) | 一种处理噪声标签的自标签修改方法 | |
Masilamani et al. | Art classification with pytorch using transfer learning | |
CN112053386B (zh) | 基于深度卷积特征自适应集成的目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |