CN106651915B - 基于卷积神经网络的多尺度表达的目标跟踪方法 - Google Patents
基于卷积神经网络的多尺度表达的目标跟踪方法 Download PDFInfo
- Publication number
- CN106651915B CN106651915B CN201611201895.0A CN201611201895A CN106651915B CN 106651915 B CN106651915 B CN 106651915B CN 201611201895 A CN201611201895 A CN 201611201895A CN 106651915 B CN106651915 B CN 106651915B
- Authority
- CN
- China
- Prior art keywords
- network
- model
- scale
- target
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明属于图像处理技术领域,提供基于卷积神经网络的多尺度表达的目标跟踪方法,包括:多尺度卷积神经网络结构预训练;利用多尺度特征表达构建多示例分类器;改进多示例在线跟踪;多步差模型更新。该算法利用卷积神经网络的自动学习深层特征的能力,可以获取涉及语义信息的深层图像表达,同时利用拉普拉斯金字塔构建图像的多尺度表达,训练多尺度的卷积神经网络结构。结合改进的多示例学习算法,构建在线***,实现目标的稳定跟踪。
Description
技术领域
本发明涉及基于卷积神经网络的多尺度表达的目标跟踪方法,属于图像处理技术领域。
背景技术
近些年来,随着大量目标跟踪算法的提出,目标跟踪技术得到了快速地发展,但是由于在实际跟踪中,目标跟踪任务存在很多现实困难,例如物体遮挡、视角变化、目标形变、周围光照变化以及难以预料的复杂的背景情况,造成了现有算法的很多问题。在基于判别模型的目标跟踪算法中,通常利用目标和背景的差异构建外观模型,训练二分类器,从而把目标从背景中分离出来。现有的大多数跟踪算法依赖手工设计的特征构建目标的外观模型,不能有效表达目标的本质信息,尤其在复杂条件下,对目标的外观模型的表达能力有限,造成目标模型的失效。在跟踪过程中,由于目标的错误跟踪引入的误差,逐渐累积会造成漂移问题。基于多示例学习的跟踪算法能够一定程度上解决漂移问题,但是由于模型函数自身容易饱和,使得模型的区分能力下降,对跟踪性能造成限制。
发明内容
针对现有技术存在的问题,本发明利用拉普拉斯金字塔对图像进行多尺度分解,提供一种基于卷积神经网络的多尺度表达的目标跟踪算法。该算法利用卷积神经网络的自动学习深层特征的能力,可以获取涉及语义信息的深层图像表达,同时利用拉普拉斯金字塔构建图像的多尺度表达,训练多尺度的卷积神经网络结构。结合改进的多示例学习算法,构建在线***,实现目标的稳定跟踪。
本发明的技术方案为:
基于卷积神经网络的多尺度表达的目标跟踪方法,包括以下步骤:
第一步,多尺度卷积神经网络结构预训练;
第二步,利用多尺度特征表达构建多示例分类器;
第三步,改进多示例在线跟踪;
第四步,多步差模型更新。
本发明有益效果:自然图像中存在多尺度的结构信息,图像的粗尺度通常反映图像的整体结构,图像的精细尺度包含较多的图像细节。利用拉普拉斯金字塔对图像进行多尺度分解,提出了基于卷积神经网络的多尺度表达的目标跟踪算法。该方法能够提取多尺度的卷积特征,构成表达能力更强的外观模型。同时结合改进的多示例学习算法,解决模型易饱和造成的模型区分能力下降的问题。与现有的目标跟踪算法相比,该方法能实现更加稳定的跟踪,准确度更高。
附图说明
图1为卷积神经网络结构示意图;
图2为多尺度卷积神经网络训练示意图;
图3为不同中心误差距离的百分比;
图4为成功跟踪帧百分比。
具体实施方式
以下对本发明做进一步说明。
基于卷积神经网络的多尺度表达的目标跟踪方法,包括以下步骤:
第一步,多尺度卷积神经网络模型预训练
对图像做拉普拉斯变换,构建图像的金字塔空间,然后提取拉普拉斯金字塔的三种尺度下的图像作为网络模型的输入;利用Lasagne深度学习框架搭建多尺度卷积神经网络模型,构成网络模型池;每一个网络模型包括三个卷积层,两个全连接层以及一个softmax层;网络模型如图1所示。同时采用VGG-net的浅层结构初始化网络参数。
在预训练过程中,使用部分标准跟踪数据集不断优化网络参数;每种尺度图像分别对应粗尺度网络,中间尺度网络和精细尺度网络,不同尺度间网络共享参数,尺度由粗到细进行训练。为了获取不同类别物体信息,针对不同类别视频集构建对应不同的网络,为捕获不同类别物体的共性特征,网络间除最后一层外共享网络参数迭代训练,如图2所示。在训练过程中,采用交叉熵作为损失函数L,其定义形式为:
L=-∑itilog(pi) (1)
其中,ti为第i个图像块的真实标记(目标或者背景),pi为第i个图像块的预测概率。在训练过程中使用梯度下降法(SGD)不断优化网络参数,直到所有样本得到充分训练,最后保留三种尺度的网络参数,得到预训练好的多尺度卷积神经网络模型。
第二步,利用多尺度特征表达构建多示例分类器
移除预训练好的多尺度卷积模型的最后一层,重新添加一个随机初始化的softmax层,利用图像第一帧给定的目标对网络参数进行微调。然后从三种尺度的网络中分别提取卷积三层的特征图作为卷积特征。同时提取精细尺度网络的卷积二层的特征共同组成外观模型的多尺度表达。为了减小特征的数据维度,采用最大池化对卷积二层特征图进行降维。将所有卷积特征连接构成目标的多尺度外观模型。
为了实现目标的在线更新,需要对目标模型实时更新。将得到的卷积特征作为特征池,利用多示例学习算法学习一个二分类器。该分类器是一个由多个弱分类器组成的强分类器。其实现方法为:采用增强学习的方式,最大化目标函数即对数似然函数,依次选择K个弱分类器,并将各个弱分类器加权求和,从而构建出多示例分类器。
第三步,改进多示例在线跟踪
在多示例学习算法中,每个示例的似然概率表示为:
p(y|x)=σ(H(x)) (2)
其中,x为图像的特征空间表达,y为一个二分变量,用于指示图像中是否存在目标,H(x)为多个弱分类组成的强分类器,σ(x)为Sigmoid函数,即
由Sigmoid函数的性质可知,当x逐渐增大或逐渐减小时,函数很容易饱和。当选取弱分类构成强分类器时,很容易造成过拟合问题。为了解决这个问题,我们在Sigmoid函数中引入一个惩罚因子来减缓函数饱和,改进后的Sigmoid函数为:
其中,k为组成强分类器的弱分类器个数。当弱分类器的个数逐渐增多时,惩罚因子可以快速抑制自变量的大小到一个合理的范围,减慢函数饱和的速度,同时能够确保函数收敛。
第四步,多步差模型更新
在跟踪过程中,采用多步差模型更新的方式来更新多尺度卷积神经网络模型。
对于粗尺度网络模型,采用快更新的方式来更新网络模型参数,以及时适应模型的外观变化;对于精细尺度网络模型,采用慢更新的方式来更新网络模型参数,能够避免模型改变可能引入的误差噪音和错误更新;对于中间尺度网络模型,更新频率介于二者之间。通过这种方式,使得模型能够及时适应目标的外观变化,同时能够抵制错误跟踪对模型更新的影响。
当有新的一帧图像输入时,在上一帧目标位置的周围选取n个候选目标框{x1,…,xn},根据p(y|x)=σ(H(x)),选择似然概率的最大响应位置为此帧的目标结果,如公式(5)所示。
我们从两个方面对提出的基于卷积神经网络的多尺度表达的目标跟踪方法进行分析验证。首先是跟踪算法的精确率,其次是算法的成功率。并使用目标跟踪标准数据集(OTB)的部分图片序列进行测试,选取经典的MIL、TLD、Struck、SCM、KCF和TGPR方法作为对照。
就算法的精确率方面,我们使用跟踪目标与真实位置的中心误差来评价算法的精确度,计算跟踪目标与真实位置的欧氏距离,设置不同的距离作为阈值,统计达到不同阈值要求的百分比,并选取阈值20对应的百分比为最终分数。结果如图3所示,从图中可见我们的方法获得更高的分数,这说明基于卷积神经网络的多尺度表达的目标跟踪方法跟踪的精确率更高。
就算法的成功率方面,我们按照公式(6)计算跟踪目标和真实位置的重合率
其中,rt为跟踪目标的面积,ro为真实目标的面积,∩代表交集操作,∪代表并集操作。以重合率为阈值,统计不同阈值下的成功的百分比,并以AUC面积大小作为最终分数。结果如图4所示,从图中可见我们的方法获得更高的AUC值,这说明基于卷积神经网络的多尺度表达的目标跟踪方法跟踪的成功率更高。
Claims (1)
1.一种基于卷积神经网络的多尺度表达的目标跟踪方法,其特征在于以下步骤:
第一步,多尺度卷积神经网络模型预训练
对图像做拉普拉斯变换,构建图像的金字塔空间,提取拉普拉斯金字塔的三种尺度下的图像作为网络模型的输入;利用Lasagne深度学习框架搭建多尺度卷积神经网络模型,构成网络模型池;每一个网络模型包括三个卷积层,两个全连接层以及一个softmax层;同时采用VGG-net的浅层结构初始化网络参数;
在预训练过程中,跟踪数据集,并不断优化网络参数;每种尺度图像分别对应粗尺度网络、中间尺度网络和精细尺度网络;不同尺度间网络共享参数,尺度由粗到细进行训练;
针对不同类别视频集构建不同的网络,用于获取不同类别物体信息;网络间除最后一层外共享网络参数迭代训练,用于捕获不同类别物体的共性特征;在训练过程中,采用交叉熵作为损失函数L,其定义形式为:
L=-∑itilog(pi) (1)
其中,ti为第i个图像块的真实标记,即目标或者背景;pi为第i个图像块的预测概率;
在训练过程中使用梯度下降法SGD不断优化网络参数,直到所有样本得到充分训练,最后保留三种尺度的网络参数,得到预训练好的多尺度卷积神经网络模型;
第二步,利用多尺度特征表达构建多示例分类器
移除预训练好的多尺度卷积模型的最后一层,重新添加一个随机初始化的softmax层,利用图像第一帧给定的目标对网络参数进行微调;然后从三种尺度的网络中分别提取卷积三层的特征图作为卷积特征;同时提取精细尺度网络的卷积二层的特征共同组成外观模型的多尺度表达;采用最大池化对卷积二层特征图进行降维,减小特征的数据维度;将所有卷积特征连接构成目标的多尺度外观模型;
将得到的卷积特征作为特征池,利用多示例学习算法学习一个二分类器;采用增强学习的方式,最大化目标函数即对数似然函数,依次选择k个弱分类器,并将各个弱分类器加权求和,构建多示例分类器;
第三步,改进多示例在线跟踪
在多示例学习算法中,每个示例的似然概率表示为:
p(y|x)=σ(H(x)) (2)
其中,x为图像的特征空间表达,y为一个二分变量,用于指示图像中是否存在目标,H(x)为多个弱分类组成的强分类器,σ(x)为Sigmoid函数,即
在Sigmoid函数中引入一个惩罚因子减缓函数饱和,改进后的Sigmoid函数为:
其中,k为组成强分类器的弱分类器个数;
第四步,在跟踪过程中,采用多步差模型更新多尺度卷积神经网络模型
对于粗尺度网络模型,采用快更新的方式来更新网络模型参数,以及时适应模型的外观变化;对于精细尺度网络模型,采用慢更新的方式更新网络模型参数,避免模型改变引入的误差噪音和错误更新;对于中间尺度网络模型,更新频率介于二者之间;通过这种方式,使得模型能够及时适应目标的外观变化,同时能够抵制错误跟踪对模型更新的影响;
当有新的一帧图像输入时,在上一帧目标位置的周围选取n个候选目标框{x1,...,xn},根据p(y|x)=σ(H(x)),选择似然概率的最大响应位置为此帧的目标结果,如公式(5)所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611201895.0A CN106651915B (zh) | 2016-12-23 | 2016-12-23 | 基于卷积神经网络的多尺度表达的目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611201895.0A CN106651915B (zh) | 2016-12-23 | 2016-12-23 | 基于卷积神经网络的多尺度表达的目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106651915A CN106651915A (zh) | 2017-05-10 |
CN106651915B true CN106651915B (zh) | 2019-08-09 |
Family
ID=58828084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611201895.0A Active CN106651915B (zh) | 2016-12-23 | 2016-12-23 | 基于卷积神经网络的多尺度表达的目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106651915B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107622507B (zh) * | 2017-08-09 | 2020-04-07 | 中北大学 | 一种基于深度学习的空中目标跟踪方法 |
CN108682022B (zh) * | 2018-04-25 | 2020-11-24 | 清华大学 | 基于对抗迁移网络的视觉跟踪方法及*** |
CN108876754A (zh) * | 2018-05-31 | 2018-11-23 | 深圳市唯特视科技有限公司 | 一种基于深度卷积神经网络的遥感图像缺失数据重建方法 |
CN108985365B (zh) * | 2018-07-05 | 2021-10-01 | 重庆大学 | 基于深度子空间切换集成学习的多源异构数据融合方法 |
CN109284680B (zh) * | 2018-08-20 | 2022-02-08 | 北京粉笔蓝天科技有限公司 | 一种渐进式图像识别方法、装置、***及存储介质 |
CN111260536B (zh) * | 2018-12-03 | 2022-03-08 | 中国科学院沈阳自动化研究所 | 可变参数的数字图像多尺度卷积处理器及其实现方法 |
WO2020142620A1 (en) * | 2019-01-04 | 2020-07-09 | Sony Corporation Of America | Multi-forecast networks |
CN111259930B (zh) * | 2020-01-09 | 2023-04-25 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN111681263B (zh) * | 2020-05-25 | 2022-05-03 | 厦门大学 | 基于三值量化的多尺度对抗性目标跟踪算法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103325125A (zh) * | 2013-07-03 | 2013-09-25 | 北京工业大学 | 基于改进多示例学习算法的运动目标跟踪方法 |
CN105741316A (zh) * | 2016-01-20 | 2016-07-06 | 西北工业大学 | 基于深度学习和多尺度相关滤波的鲁棒目标跟踪方法 |
CN105956532A (zh) * | 2016-04-25 | 2016-09-21 | 大连理工大学 | 一种基于多尺度卷积神经网络的交通场景分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8345984B2 (en) * | 2010-01-28 | 2013-01-01 | Nec Laboratories America, Inc. | 3D convolutional neural networks for automatic human action recognition |
-
2016
- 2016-12-23 CN CN201611201895.0A patent/CN106651915B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103325125A (zh) * | 2013-07-03 | 2013-09-25 | 北京工业大学 | 基于改进多示例学习算法的运动目标跟踪方法 |
CN105741316A (zh) * | 2016-01-20 | 2016-07-06 | 西北工业大学 | 基于深度学习和多尺度相关滤波的鲁棒目标跟踪方法 |
CN105956532A (zh) * | 2016-04-25 | 2016-09-21 | 大连理工大学 | 一种基于多尺度卷积神经网络的交通场景分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106651915A (zh) | 2017-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106651915B (zh) | 基于卷积神经网络的多尺度表达的目标跟踪方法 | |
US11195051B2 (en) | Method for person re-identification based on deep model with multi-loss fusion training strategy | |
CN109145939B (zh) | 一种小目标敏感的双通道卷积神经网络语义分割方法 | |
Li et al. | Action unit detection with region adaptation, multi-labeling learning and optimal temporal fusing | |
Yang et al. | Knowledge distillation in generations: More tolerant teachers educate better students | |
CN107203753A (zh) | 一种基于模糊神经网络和图模型推理的动作识别方法 | |
CN109492529A (zh) | 一种多尺度特征提取及全局特征融合的人脸表情识别方法 | |
CN107506740A (zh) | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 | |
CN108304826A (zh) | 基于卷积神经网络的人脸表情识别方法 | |
CN108133188A (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN107229904A (zh) | 一种基于深度学习的目标检测与识别方法 | |
CN107122798A (zh) | 基于深度卷积网络的引体向上计数检测方法及装置 | |
CN109815826A (zh) | 人脸属性模型的生成方法及装置 | |
CN112801040B (zh) | 嵌入高阶信息的轻量级无约束人脸表情识别方法及*** | |
CN107066559A (zh) | 一种基于深度学习的三维模型检索方法 | |
CN104636732B (zh) | 一种基于序列深信度网络的行人识别方法 | |
CN106372581A (zh) | 构建及训练人脸识别特征提取网络的方法 | |
CN106407986A (zh) | 一种基于深度模型的合成孔径雷达图像目标识别方法 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN103778414A (zh) | 基于深度神经网络的实时人脸识别方法 | |
CN109145871B (zh) | 心理行为识别方法、装置与存储介质 | |
CN109086660A (zh) | 多任务学习深度网络的训练方法、设备及存储介质 | |
CN109993102A (zh) | 相似人脸检索方法、装置及存储介质 | |
CN109033953A (zh) | 多任务学习深度网络的训练方法、设备及存储介质 | |
CN110321862B (zh) | 一种基于紧致三元损失的行人再识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |