CN110929848B - 基于多挑战感知学习模型的训练、跟踪方法 - Google Patents
基于多挑战感知学习模型的训练、跟踪方法 Download PDFInfo
- Publication number
- CN110929848B CN110929848B CN201911128508.9A CN201911128508A CN110929848B CN 110929848 B CN110929848 B CN 110929848B CN 201911128508 A CN201911128508 A CN 201911128508A CN 110929848 B CN110929848 B CN 110929848B
- Authority
- CN
- China
- Prior art keywords
- module
- challenge
- layer
- tracking
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 title claims abstract description 51
- 230000008447 perception Effects 0.000 title claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 25
- 238000005070 sampling Methods 0.000 claims abstract description 5
- 230000002776 aggregation Effects 0.000 claims description 55
- 238000004220 aggregation Methods 0.000 claims description 55
- 230000006870 function Effects 0.000 claims description 37
- 230000000007 visual effect Effects 0.000 claims description 26
- 230000003044 adaptive effect Effects 0.000 claims description 24
- 230000004913 activation Effects 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 9
- 239000000654 additive Substances 0.000 claims description 8
- 230000000996 additive effect Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 230000007774 longterm Effects 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 230000002779 inactivation Effects 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims 3
- 238000005286 illumination Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000669244 Unaspis euonymi Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及基于多挑战感知学习模型的训练及实时跟踪方法,依次包括模型训练过程、通过预先训练的模型进行的跟踪过程两个部分,其中,S11、构建网络模型S12、使用标定好目标的VOT数据集来训练整个所述的网络模型;S21、输入当前跟踪的视频帧,在前一帧预测的目标位置周围用高斯采样获取当前帧的候选样本;S22、获取候选样本的的特征图;S23、将所述特征图输入到分类器模块中,预测目标位置;S24、判断当前帧是否跟踪成功;本发明能够有效的增加特征表达的丰富性,提高了跟踪的鲁棒性,并达到了实时的跟踪性能。
Description
技术领域
本发明涉及计算机视觉领域,尤其涉及基于多挑战感知学习模型的训练、跟踪方法。
背景技术
视觉跟踪是计算机视觉领域中一个基础的研究问题,其目的是在给定视频序列第一帧中跟踪目标初始状态(如大小和位置)的情况下,估计后续视频帧中目标的状态。目前,视觉跟踪技术已广泛应用于智能视频监控、无人驾驶、增强现实等领域,对社会安全和文化娱乐等领域的发展有着重要的研究意义。
随着计算机硬件性能的不断提高和大规模视觉数据集(如ImageNet,大规模图像分类数据集)的引入,基于深度学习特别是深层卷积神经网络的方法在多个计算机视觉任务上(如图片分类、目标检测)都取得了显著的成功。目前基于深度学习检测方法的视觉跟踪模型,实质上是学习跟踪目标的深度特征表示,再送入一个二分类器中对目标和背景进行分类。但是这种方法在处理视觉跟踪任务时仍具有一定局限性,其中一个关键的原因是深层卷积神经网络算法的性能依赖于大规模标注的训练数据集的离线学习。然而,由于视觉跟踪任务的目标是任意的,很难得到足够的训练数据来学习有效的基于目标实例的深度特征表示。
为了解决训练数据不充分的问题,现有的方法在最后一个卷积层后添加了一个Inception-like模块,并使用该模块和VOT(Visual Object Tracking,视觉目标跟踪)数据集中标注的挑战属性来学习基于挑战感知的具有高级语义信息的深度特征表示;如申请号为“CN201710863151.3”的专利,利用了训练模型Inception模块进行处理。
然而,我们观察到,一些挑战(如光照变化)在浅层有着很好的特征表示,而一些挑战(如尺度变化)的特征在中层可以表现的很好。因此,现有方法采用的使用Inception-like结构提取不同属性的具有高级语义信息的深度特征表示,不能很好的提取多层次的挑战信息,从而使得挑战属性的特征表达不够丰富。
发明内容
本发明所要解决的技术问题在于提供基于多挑战感知学习模型的训练、跟踪方法,以解决多层次的挑战信息提取不佳的问题。
本发明通过以下技术手段实现解决上述技术问题的:
基于多挑战感知学习模型的训练方法,包括以下步骤;
S11、构建网络模型;
所述网络模型包括依次串联的第一级挑战模块、所述第二级挑战模块、第三级挑战模块、Adaptive RoI Align(自适应感兴趣区域对准操作)层、分类器模块;其中,
所述第一级挑战模块包括第一卷积层模块、第一多挑战感知器模块、第一concatenate函数层、第一聚合层模块,将候选样本分别输入至第一卷积层模块、第一多挑战感知器模块中,第一卷积层模块用来提取通用的目标特征,第一多挑战感知器模块提取不同挑战属性下的目标特征表示,然后第一多挑战感知器模块的输出结果通过第一concatenate(拼接)函数层进行通道维度的拼接,并输送至第一聚合层模块,第一聚合层模块将得到的多挑战特征进行聚合处理解决跟踪过程中挑战不可知的问题,第一聚合层模块处理的结果与第一卷积层模块提取的目标特征进行相加融合,输送至所述第二级挑战模块处;
所述所述第二级挑战模块包括第二卷积层模块、第二多挑战感知器模块、第二concatenate函数层、第二聚合层模块,所述第二卷积层模块、第二多挑战感知器模块接收到第一级挑战模块输出的相加融合的结果;第二多挑战感知器模块提取不同挑战属性下的目标特征表示,然后第二多挑战感知器模块的输出结果通过concatenate函数层进行通道维度的拼接,并输送至第二聚合层模块,第二聚合层模块将得到的多挑战特征进行聚合处理解决跟踪过程中挑战不可知的问题,第二聚合层模块处理的结果与第二卷积层模块提取的目标特征进行相加融合;输送至第三级挑战模块处;
所述第三级挑战模块包括第三卷积层模块、第三多挑战感知器模块、第三concatenate函数层、第三聚合层模块,所述第三卷积层模块、第三多挑战感知器模块接收到所述第二级挑战模块输出的相加融合的结果;第三多挑战感知器模块提取不同挑战属性下的目标特征表示,然后第三多挑战感知器模块的输出结果通过concatenate函数层进行通道维度的拼接,并输送至第三聚合层模块,第三聚合层模块将得到的多挑战特征进行聚合处理解决跟踪过程中挑战不可知的问题,第三聚合层模块处理的结果与第三卷积层模块提取的目标特征进行相加融合;输送到达Adaptive RoI Align层,Adaptive RoI Align层加快跟踪过程中候选区域的特征提取过程,根据不同候选样本提取对应位置的深度特征得到最终的特征图,再输送至分类器模块,分类器模块进行计算得到每个候选样本的得分,最后取最高正样本得分的样本位置作为当前帧预测的视觉跟踪结果;
S12、使用标定好目标的VOT数据集来训练整个所述的网络模型;
通过引入多层次与主干网络模块并行的多挑战感知器模块学习不同层次的挑战特征,引入聚合层模块来解决跟踪过程中挑战不可知的问题,引入Adaptive RoI Align层来加快跟踪过程中候选区域的特征提取过程;有效的增加了特征表达的丰富性,提高了跟踪的鲁棒性,并达到了实时的跟踪性能。
作为本发明进一步的方案:并截取前三层卷积层作为主干网络,所述第一卷积层模块、第二卷积层模块、第三卷积层模块作为主干网络模块,通过使用ImageNet数据集进行预训练分类网络VGG-M,并将这个网络的原有参数作为主干网络模块的初始化参数;
所述多挑战感知器模块由依次串联的卷积层、ReLU激活函数层、批归一化层、随机失活层、最大池化层组成;
所述聚合层模块由依次串联的卷积层、ReLU激活函数层、局部响应归一化层组成;
所述分类器模块是由依次串联的两个全连接层和一个带由softmax层的全连接层所组成。
作为本发明进一步的方案:第一卷积层模块由依次串联的第一卷积层、ReLU激活函数层、局部响应归一化层、最大池化层组成;
所述第二卷积层模块由依次串联的第二卷积层、ReLU激活函数层、局部响应归一化层组成;
第三卷积层模块由依次串联的第三卷积层、ReLU激活函数层组成;
所述第一卷积层、第二卷积层、第三卷积层的卷积核大小分别为7*7、5*5、3*3,第一卷积层、第二卷积层操作步长为2,第三卷积层是操作步长为1、空洞率为3的空洞卷积。
作为本发明进一步的方案:所述步骤S12包括;
S1201、在每一帧中根据给定的真值框选取S+=50(IOU≥0.7)和S-=200(IOU≤0.5)的样本数;其中,S+表示正样本,S-表示负样本,IOU表示采集样本与真值框之间的交并比;
S1202、通过采集的正负样本,使用随机梯度下降法进行1000次迭代训练,每次迭代训练根据以下方法处理:设K表示VOT数据集中的视频序列的个数,K为正整数,为每个视频序列构建一个新的随机初始化的FC6全连接层;
S1203、训练分为两个阶段,第一阶段提取VOT数据集中每个视频序列不同挑战帧的集合,用这些数据训练与主干网络模块并行的多挑战感知器模块;
第二阶段使用整个VOT数据集训练聚合层模块,得到最终的训练模型,用来进行视觉目标跟踪。
基于多挑战感知学习模型的实时视觉跟踪方法,包括以下步骤:
S21、输入当前跟踪的视频帧,在前一帧预测的目标位置周围用高斯采样获取当前帧的候选样本;
S22、获取候选样本的的特征图;
S23、将所述特征图输入到分类器模块中,预测目标位置;
S24、判断当前帧是否跟踪成功,正样本的得分大于0时,跟踪成功,执行步骤1);正样本的得分小于0时,即跟踪失败,执行步骤2)。
为本发明进一步的方案:所述步骤S21还包括;
由待跟踪视频序列的提供的第一帧图像作为前一帧;由前一帧和框定目标位置区域的真值框,按照高斯分布随机产生样本,使用该样本初始化跟踪模型;
初始化完成后;以前一帧目标位置为均值,以(0.09r2,0.09r2,0.25)为协方差,产生候选样本,其中:r为前一帧目标框的宽和高的平均值。
作为本发明进一步的方案:所述步骤S22包括;
将候选样本分别输入至第一卷积层模块、第一多挑战感知器模块中,第一卷积层模块用来提取通用的目标特征,第一多挑战感知器模块提取不同挑战属性下的目标特征表示,然后第一多挑战感知器模块的输出结果通过第一concatenate函数层进行通道维度的拼接,并输送至第一聚合层模块,第一聚合层模块将得到的多挑战特征进行聚合处理解决跟踪过程中挑战不可知的问题,第一聚合层模块处理的结果与第一卷积层模块提取的目标特征进行相加融合,输送至第二卷积层模块以及第二多挑战感知器模块处,依次传递,直至到达Adaptive RoI Align层,Adaptive RoI Align层加快跟踪过程中候选区域的特征提取过程,根据不同候选样本提取对应位置的深度特征得到最终的特征图。
作为本发明进一步的方案:所述步骤S23包括;最终的特征图输入分类器模块中,通过FC6获得每个候选样本被判定为正样本和负样本的得分,分别设为f+(xi)和f-(xi),利用公式确定当前帧的目标位置,其中xi表示采样的第i个样本,f+(xi)表示获取的正样本得分,f-(xi)表示获取的负样本得分;x*为预测的目标位置。
作为本发明进一步的方案:所述步骤1)为;跟踪成功时,在当前帧的预测位置周围采集正样本和负样本,将这些样本以Adaptive RoI Align后的特征保存至总的正负样本数据集中;
所述步骤2)为;跟踪失败时,进行短期更新,短期更新包括:从总正负样本数据集中抽出最近20帧跟踪成功收集的正负样本进行迭代训练;设定FC4、FC5的学习率为0.0003,FC6的学习率为0.003,batchsize为128,其中包含32个正样本和96个负样本,共迭代15次,微调FC4、FC5、FC6的权重参数。
作为本发明进一步的方案:所述步骤S24还包括长期更新,其更新规则为固定每隔若干帧执行更新。长期更新规则为规则为固定每隔10帧进行更新一次;在对最终跟踪模型进行更新后,判断当前帧是否为最后一帧,若是最后一帧,目标识别及跟踪结束,否则跟踪继续。
本发明的优点在于:
1、本发明中的模型由依次串联的多级挑战模块、Adaptive RoI Align层、分类器模块组成;多级挑战模块能够学习不同层次的挑战特征,引入Adaptive RoI Align层来加快跟踪过程中候选区域的特征提取过程;有效的增加了特征表达的丰富性,提高了跟踪的鲁棒性,并达到了实时的跟踪性能。
2、本发明的多级挑战模块中,引入多层次与主干网络模块并行的多挑战感知器模块学习不同层次的挑战特征,引入聚合层模块来解决跟踪过程中挑战不可知的问题,引入Adaptive RoI Align层来加快跟踪过程中候选区域的特征提取过程;有效的增加了特征表达的丰富性,提高了跟踪的鲁棒性,并达到了实时的跟踪性能。
3、本发明并行的多挑战感知器模块能够很好的提取多层次的挑战信息,从而使得挑战属性的特征表达足够丰富,同时保证特征的准确性。
附图说明
图1为网络模型结构示意图。
图2为本发明中实施例1的流程方框图。
图3为本发明中实施例2的流程方框图。
图4为是基于多挑战感知学习模型的实时视觉跟踪方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1,图1为网络模型结构示意图;基于多挑战感知学习模型的训练方法,包括以下步骤;
S11、构建网络模型;
获取当前跟踪视频序列的第一帧,通过给定的第一帧中目标的真值框,以真值框的中心点为均值进行高斯分布采样获取候选样本,本实施例中以(0.09r2,0.09r2,0.25)为协方差,产生256个候选样本;
其中:r为前一帧目标宽和高和的平均值,
获取当前跟踪视频序列为现有技术,如通过摄像机等获取,此处不再进行详细描述,同时高斯分布采样也为现有技术。
如图2,所述网络模型包括依次串联的用于获取候选样本特征图的多级挑战模块、Adaptive RoI Align层、分类器模块;具体的本实施例中,
所述多级挑战模块为第一级挑战模块、所述第二级挑战模块、第三级挑战模块、Adaptive RoI Align层、分类器模块;其中,
所述第一级挑战模块包括第一卷积层模块、第一多挑战感知器模块、第一concatenate函数层、第一聚合层模块,将候选样本分别输入至第一卷积层模块、第一多挑战感知器模块中,第一卷积层模块用来提取通用的目标特征,第一多挑战感知器模块提取不同挑战属性下的目标特征表示,包括Scale change(尺度变化)、Target Motion(目标运动)、Camera Motion(相机移动)、Occlusion(遮挡)、Illumination variation(光照变化),然后第一多挑战感知器模块的输出结果通过concatenate函数层进行通道维度的拼接,并输送至第一聚合层模块,第一聚合层模块将得到的多挑战特征进行聚合处理解决跟踪过程中挑战不可知的问题,第一聚合层模块处理的结果与第一卷积层模块提取的目标特征进行相加融合,输送至所述第二级挑战模块处;
图2中的Scale(即为Scale change)、Target Motion、Camera Motion、Occlusion、Illumination(即Illumination variation)即为第一多挑战感知器模块提取不同挑战属性下的目标特征表示。
所述所述第二级挑战模块包括第二卷积层模块、第二多挑战感知器模块、第二concatenate函数层、第二聚合层模块,所述第二卷积层模块、第二多挑战感知器模块接收到第一级挑战模块输出的相加融合的结果;第二多挑战感知器模块提取不同挑战属性下的目标特征表示,然后第二多挑战感知器模块的输出结果通过concatenate函数层进行通道维度的拼接,并输送至第二聚合层模块,第二聚合层模块将得到的多挑战特征进行聚合处理解决跟踪过程中挑战不可知的问题,第二聚合层模块处理的结果与第二卷积层模块提取的目标特征进行相加融合;输送至第三级挑战模块处;
所述第三级挑战模块包括第三卷积层模块、第三多挑战感知器模块、第三concatenate函数层、第三聚合层模块,所述第三卷积层模块、第三多挑战感知器模块接收到所述第二级挑战模块输出的相加融合的结果;第三多挑战感知器模块提取不同挑战属性下的目标特征表示,然后第三多挑战感知器模块的输出结果通过concatenate函数层进行通道维度的拼接,并输送至第三聚合层模块,第三聚合层模块将得到的多挑战特征进行聚合处理解决跟踪过程中挑战不可知的问题,第三聚合层模块处理的结果与第三卷积层模块提取的目标特征进行相加融合;输送到达Adaptive RoI Align层,Adaptive RoI Align层加快跟踪过程中候选区域的特征提取过程,根据不同候选样本提取对应位置的深度特征得到最终的特征图,再输送至分类器模块,分类器模块进行计算得到每个候选样本的得分,最后取最高正样本得分的样本位置作为当前帧预测的视觉跟踪结果。
优选的,所述第一卷积层模块、第二卷积层模块、第三卷积层模块作为主干网络模块,通过使用ImageNet数据集进行预训练分类网络VGG-M,并将这个网络的原有参数作为主干网络模块的初始化参数;
且第一卷积层模块由依次串联的第一卷积层、ReLU(Rectified Linear Unit,线性整流函数)激活函数层、局部响应归一化层(LRN,Local Response Normalization)、池化核尺寸为3*3的最大池化层(max pooloing)组成;
所述第二卷积层模块由依次串联的第二卷积层、ReLU激活函数层、局部响应归一化层(LRN)组成;
第三卷积层模块由依次串联的第三卷积层、ReLU激活函数层组成。
进一步的,本实施例中,其中第一卷积层、第二卷积层、第三卷积层的卷积核大小分别为7*7、5*5、3*3,第一卷积层、第二卷积层操作步长为2,第三卷积层是操作步长为1、空洞率为3的空洞卷积。
所述多挑战感知器模块由依次串联的卷积层、ReLU激活函数层、批归一化层、随机失活层、最大池化层组成。
其中,所述聚合层模块由依次串联的卷积层、ReLU激活函数层、局部响应归一化层组成。
同时,所述分类器模块是由依次串联的两个全连接层和一个带由softmax层的全连接层所组成。
本实施例中,两个全连接层为FC(fully connected,全连接层)4、FC5,且所述FC4、FC5带有随机失活层(图中未画出)和ReLU激活函数层(图中未画出)。
S12、使用标定好目标的VOT数据集来训练整个所述的网络模型;训练过程包括;
S1201、在第一帧中根据给定的真值框选取S+=50(IOU≥0.7)和S-=200(IOU≤0.5)的样本数;其中,S+表示正样本,S-表示负样本,IOU表示采集样本与真值框之间的交并比;
S1202、通过采集的正负样本,使用随机梯度下降法进行1000次迭代训练,每次迭代训练根据以下方法处理:设K表示VOT数据集中的视频序列的个数(K为正整数),为每个视频序列构建一个新的随机初始化的FC6全连接层。
需要说明的是,随机梯度下降法以及构建新的FC6全连接层为现有技术,此处不再详细说明。
在迭代训练过程中,每次迭代都需要保证每个全连接层使用的是与其对应的视频序列来进行训练,因此在第x轮迭代中的minibatch(batchsize(批尺寸)=128)是从(x modK)第个视频序列中随机抽取8帧图像通过高斯分布采集正负样本产生,其中包含32个正样本和96个负样本,使用对应的全连接层计算每个样本的前景和背景得分;
其中,mod代表求余函数;
S1203、训练分为两个阶段,第一阶段提取VOT数据集中每个视频序列不同挑战帧的集合,用这些数据训练多挑战感知器模块,其中每个多挑战感知器模块都是单独训练的,主干网络模型的初始化参数为在ImageNet数据集上预训练的VGG-M前三个卷积层的参数,FC4,FC5随机初始化,在这个阶段中主干网络模块的参数保持不动,每个多挑战感知器模块的学习率均为0.0005,FC4,FC5,FC6的学习率为0.0001,训练过程步骤S1202所示,保存每个多挑战感知器模块分支训练的模型,用于第二阶段的训练;其中,FC4,FC5随机初始化为现有技术,此处不再说明。第二阶段使用整个VOT数据集训练聚合层模块,主干网络模块、FC4、FC5参数设定方式和第一阶段训练相同,并行的多挑战感知器模块的参数为第一阶段训练的参数,在这个阶段保持并行的多挑战感知器模块的参数固定不动,主干网络模块、FC4、FC5、FC6的学习率设置均为0.0001,聚合层模块的学习率设置为0.0005,训练过程如步骤S1202所示,第二阶段训练结束后,得到最终的训练模型,用来进行视觉目标跟踪。
实施例2
如图1、图3、图4,图1为网络模型结构示意图;图3为本发明中实施例2的流程方框图;图4为是基于多挑战感知学习模型的实时视觉跟踪方法的流程图;
基于多挑战感知学习模型的实时视觉跟踪方法,包括以下步骤;
S21、输入当前跟踪的视频帧,在前一帧预测的目标位置周围用高斯采样获取当前帧的候选样本;
由待跟踪视频序列的提供的第一帧图像作为前一帧;由前一帧和框定目标位置区域的真值框,按照高斯分布随机产生5500个样本,S+=500(IOU≥0.7)和S-=5000(IOU≤0.3);
使用5500个样本初始化跟踪模型,将这些样本设为batchsize=128大小的minibatch进行初始化训练,构建新的FC6层;其中包含32个正样本和96个负样本;
初始化过程中,固定第一卷积层、第二卷积层、第三卷积层的参数,设定FC6层的学习率为0.001,FC4、FC5学习率设定为0.0005,共迭代50次,完成初始化;
初始化完成后;以前一帧的目标位置为均值,以(0.09r2,0.09r2,0.25)为协方差,产生256对候选样本,其中:r为前一帧目标框的宽和高的平均值;
S22、获取候选样本的的特征图;
将候选样本送入到主干网络模块和与其并行的多挑战感知器模块中,依次传递至Adaptive RoI Align层中,根据不同候选样本提取对应位置的深度特征得到最终的特征图;
S23、将所述特征图输入到分类器模块中,预测目标位置;
通过FC6获得每个候选样本被判定为正样本和负样本的得分,分别设为f+(xi)和f-(xi),而利用公式确定当前帧的目标位置,其中xi表示采样的第i个样本,f+(xi)表示获取的正样本得分,f-(xi)表示获取的负样本得分;x*为预测的目标位置。
S24、判断当前帧是否跟踪成功,正样本的得分大于0时,跟踪成功,执行步骤1);正样本的得分小于0时,即跟踪失败,执行步骤2);
所述步骤1)为:在当前帧的预测位置周围采集50个正样本(IOU≥0.6)和200个负样本(IOU≤0.3),并加入总的正负样本数据集中,由于第一卷积层、第二卷积层、第三卷积层和Adaptive RoI Align层的参数在跟踪过程中参数不变,故我们可将这些样本以Adaptive RoI Align后的特征保存至总的正负样本数据集中;用于进行模型更新。
其中,本实施例中,总的正样本集保存最近100次跟踪成功帧的正样本,总的负样本集保存最近20次跟踪成功帧的负样本。
所述步骤2)为:并进行短期更新,短期更新为:从总的正负样本数据集中抽出最近20帧跟踪成功收集的正负样本进行迭代训练;设定FC4、FC5的学习率为0.0003,FC6的学习率为0.003,batchsize为128,其中包含32个正样本和96个负样本,共迭代15次,微调FC4、FC5、FC6的权重参数。
值得注意的是,本发明中,在整个跟踪过程中会设定长期更新,其更新规则为固定每隔若干帧执行更新;
本实施例中,固定每隔10帧进行长期更新一次;长期更新为:收集训练样本进行迭代训练,训练样本是由最近100帧成功跟踪收集的正样本和最近20帧成功跟踪收集的负样本所组成;同样设定前两个全连接层的学习率为0.0003,最后一个全连接层的学习率为0.003,batchsize为128,其中包含32个正样本和96个负样本,共迭代15次,微调全连接层的权重参数。
在对最终跟踪模型进行更新后,判断当前帧是否为最后一帧,若是最后一帧,目标识别及跟踪结束,否则跟踪继续。
如下表1和表2,,表1和表2是本发明的实验结果图,分别在公开的数据集UAV-Traffic和GOT-10K上进行了测试,并将测试结果与其他的***在SR(成功率)、PR(准确度)和AO(平均重叠率)上进行了评估。其中HCAT表示本发明的跟踪结果精度,可以很明显的看到相比于其他方法,其跟踪性能均匀较大程度的提升,此外本发明的跟踪方法还可以达到实时的跟踪性能(29fps),对跟踪任务来说有着重要的意义。
表1和表2中,SINT为Siamese instance search for tracking;
HDT:Hedged deep tracking;
CCOT:Beyond correlation filters:Learning continuous convolutionoperators for visual tracking;
CFNet:End-to-end representation learning for correlation filter basedtracking;
SiamFC:Fully-convolutional siamese networks for object tracking.
ECO:Eco:Efficient convolution operators for tracking;
RT-MDNet:Real-time mdnet.
MDNet:Learning multi-domain convolutional neural networks for visualtracking.
ANT:Learning attribute-specific representations for visual tracking.
HCAT:Learning Hierarchical Challenge-Aware Representations for Real-Time Visual Tracking(即本发明的方法)
Trackers | SINT | HDT | CCOT | CFNet | SiamFC | ECO | RT-MDNet | MDNet | ANT | HCAT |
PR | 57.0 | 59.6 | 65.9 | 68.0 | 68.1 | 70.2 | 71.4 | 72.5 | 77.0 | 77.5 |
SR | 29.0 | 30.3 | 40.9 | 42.8 | 44.7 | 45.1 | 44.2 | 46.4 | 46.3 | 46.4 |
表1
表2
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.基于多挑战感知学习模型的训练方法,其特征在于,包括以下步骤:
S11、构建网络模型;
所述网络模型由依次串联的用于获取候选样本特征图的多级挑战模块、Adaptive RoIAlign层、分类器模块组成;
其中,所述多级挑战模块包括第一级挑战模块、第二级挑战模块、第三级挑战模块;
所述第一级挑战模块包括第一卷积层模块、第一多挑战感知器模块、第一concatenate函数层、第一聚合层模块,将候选样本分别输入至第一卷积层模块、第一多挑战感知器模块中,第一卷积层模块用来提取通用的目标特征,第一多挑战感知器模块提取不同挑战属性下的目标特征表示,然后第一多挑战感知器模块的输出结果通过concatenate函数层进行通道维度的拼接,并输送至第一聚合层模块,第一聚合层模块将得到的多挑战特征进行聚合处理,第一聚合层模块处理的结果与第一卷积层模块提取的目标特征进行相加融合,输送至所述第二级挑战模块处;
所述第二级挑战模块包括第二卷积层模块、第二多挑战感知器模块、第二concatenate函数层、第二聚合层模块,所述第二卷积层模块、第二多挑战感知器模块接收到第一级挑战模块输出的相加融合的结果;第二多挑战感知器模块提取不同挑战属性下的目标特征表示,然后第二多挑战感知器模块的输出结果通过concatenate函数层进行通道维度的拼接,并输送至第二聚合层模块,第二聚合层模块将得到的多挑战特征进行聚合处理,第二聚合层模块处理的结果与第二卷积层模块提取的目标特征进行相加融合;输送至第三级挑战模块处;
所述第三级挑战模块包括第三卷积层模块、第三多挑战感知器模块、第三concatenate函数层、第三聚合层模块,所述第三卷积层模块、第三多挑战感知器模块接收到所述第二级挑战模块输出的相加融合的结果;第三多挑战感知器模块提取不同挑战属性下的目标特征表示,然后第三多挑战感知器模块的输出结果通过concatenate函数层进行通道维度的拼接,并输送至第三聚合层模块,第三聚合层模块将得到的多挑战特征进行聚合处理,第三聚合层模块处理的结果与第三卷积层模块提取的目标特征进行相加融合;
其中,所述第一多挑战感知器模块、所述第二多挑战感知器模块和所述第三多挑战感知器模块均由依次串联的卷积层、ReLU激活函数层、批归一化层、随机失活层、最大池化层组成;
所述第一聚合层模块、所述第二聚合层模块和所述第三聚合层模块均由依次串联的卷积层、ReLU激活函数层、局部响应归一化层组成;
S12、使用标定好目标的VOT数据集来训练所述的网络模型;
所述步骤S12包括;
S1201、在每一帧中根据给定的真值框选取S+=50,IOU≥0.7时和S-=200,IOU≤0.5时的样本数;其中,S+表示正样本,S-表示负样本,IOU表示采集样本与真值框之间的交并比;
S1202、通过采集的正负样本,使用随机梯度下降法进行迭代训练,每次迭代训练根据以下方法处理:VOT数据集中的视频序列的个数为K,K为正整数,并为每个视频序列构建一个新的随机初始化的FC6全连接层;
S1203、训练分为两个阶段,第一阶段提取VOT数据集中每个视频序列不同挑战帧的集合,用不同挑战帧的集合训练多挑战感知器模块;
第二阶段使用整个VOT数据集训练聚合层模块,得到最终的用来进行视觉目标跟踪的训练模型。
2.根据权利要求1所述的基于多挑战感知学习模型的训练方法,其特征在于,所述步骤S11中;
所述多级挑战模块输送到达Adaptive RoI Align层,Adaptive RoI Align层加快跟踪过程中候选区域的特征提取过程,根据不同候选样本提取对应位置的深度特征得到最终的特征图,再输送至分类器模块,分类器模块进行计算得到每个候选样本的得分。
3.根据权利要求2所述的基于多挑战感知学习模型的训练方法,其特征在于,
所述第一卷积层模块、第二卷积层模块、第三卷积层模块作为主干网络模块,通过使用ImageNet数据集进行预训练分类网络VGG-M,并将这个网络的原有参数作为主干网络模块的初始化参数;
所述分类器模块是由依次串联的两个全连接层和一个带由softmax层的全连接层所组成;
第一卷积层模块由依次串联的第一卷积层、ReLU激活函数层、局部响应归一化层、最大池化层组成;
所述第二卷积层模块由依次串联的第二卷积层、ReLU激活函数层、局部响应归一化层组成;
第三卷积层模块由依次串联的第三卷积层、ReLU激活函数层组成。
4.基于权利要求1-3任一所述的多挑战感知学习模型的训练方法的实时视觉跟踪方法,其特征在于,包括以下步骤:
S21、输入当前跟踪的视频帧,在前一帧预测的目标位置周围用高斯采样获取当前帧的候选样本;
S22、获取候选样本的特征图;
S23、将所述特征图输入到分类器模块中,预测目标位置;
S24、判断当前帧是否跟踪成功,正样本的得分大于0时,跟踪成功,执行步骤1);正样本的得分小于0时,即跟踪失败,执行步骤2)。
5.根据权利要求4所述的基于多挑战感知学习模型的实时视觉跟踪方法,其特征在于,所述步骤S21还包括;
由待跟踪视频序列的提供的第一帧图像作为前一帧;由前一帧和框定目标位置区域的真值框,按照高斯分布随机产生样本,使用该样本初始化跟踪模型;
初始化完成后;以前一帧目标位置为均值,以(0.09r2,0.09r2,0.25)为协方差,通过高斯分布进行采样产生候选样本,其中:r为前一帧目标框的宽和高的平均值。
6.根据权利要求4所述的基于多挑战感知学习模型的实时视觉跟踪方法,其特征在于,所述步骤S22包括;
将候选样本分别输入至多级挑战模块中,直至到达Adaptive RoI Align层,AdaptiveRoI Align层加快跟踪过程中候选区域的特征提取过程,根据不同候选样本提取对应位置的深度特征得到最终的特征图。
8.根据权利要求6所述的基于多挑战感知学习模型的实时视觉跟踪方法,其特征在于,
所述步骤1)为;跟踪成功时,在当前帧的预测位置周围采集正样本和负样本,将这些样本以Adaptive RoI Align后的特征保存至总的正负样本数据集中;
所述步骤2)为;跟踪失败时,进行短期更新,短期更新包括:从总正负样本数据集中抽出最近20帧跟踪成功收集的正负样本进行迭代训练。
9.根据权利要求7所述的基于多挑战感知学习模型的实时视觉跟踪装置,其特征在于,所述步骤S24还包括长期更新,其更新规则为固定每隔若干帧执行更新;在对模型进行更新后,判断当前帧是否为最后一帧,若是最后一帧,目标识别及跟踪结束,否则跟踪继续。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911128508.9A CN110929848B (zh) | 2019-11-18 | 2019-11-18 | 基于多挑战感知学习模型的训练、跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911128508.9A CN110929848B (zh) | 2019-11-18 | 2019-11-18 | 基于多挑战感知学习模型的训练、跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110929848A CN110929848A (zh) | 2020-03-27 |
CN110929848B true CN110929848B (zh) | 2023-03-31 |
Family
ID=69854117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911128508.9A Active CN110929848B (zh) | 2019-11-18 | 2019-11-18 | 基于多挑战感知学习模型的训练、跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929848B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476823B (zh) * | 2020-05-09 | 2023-04-11 | 安徽大学 | 基于多挑战交互学习的实时rgbt跟踪方法及装置 |
CN112132810B (zh) * | 2020-09-24 | 2023-09-12 | 西安电子科技大学 | 基于感知逻辑和特征对比的图像显著性检测方法 |
CN112801182B (zh) * | 2021-01-27 | 2022-11-04 | 安徽大学 | 一种基于困难样本感知的rgbt目标跟踪方法 |
CN112949451B (zh) * | 2021-02-24 | 2022-09-09 | 安徽大学 | 通过模态感知特征学习的跨模态目标跟踪方法及*** |
CN113077491B (zh) * | 2021-04-02 | 2023-05-02 | 安徽大学 | 基于跨模态共享和特定表示形式的rgbt目标跟踪方法 |
CN113837296B (zh) * | 2021-09-28 | 2024-05-31 | 安徽大学 | 一种基于两阶段融合结构搜索的rgbt视觉跟踪方法及*** |
CN114444597B (zh) * | 2022-01-26 | 2024-03-15 | 安徽大学 | 基于渐进式融合网络的视觉跟踪方法及装置 |
CN117092612B (zh) * | 2023-10-18 | 2024-01-26 | 湘潭大学 | 基于激光雷达的自动驾驶导航方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543615A (zh) * | 2018-11-23 | 2019-03-29 | 长沙理工大学 | 一种基于多级特征的双学习模型目标跟踪方法 |
CN109671102A (zh) * | 2018-12-03 | 2019-04-23 | 华中科技大学 | 一种基于深度特征融合卷积神经网络的综合式目标跟踪方法 |
CN110349179A (zh) * | 2019-07-12 | 2019-10-18 | 安徽大学 | 一种基于多适配器的可见光红外视觉跟踪方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10902243B2 (en) * | 2016-10-25 | 2021-01-26 | Deep North, Inc. | Vision based target tracking that distinguishes facial feature targets |
-
2019
- 2019-11-18 CN CN201911128508.9A patent/CN110929848B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543615A (zh) * | 2018-11-23 | 2019-03-29 | 长沙理工大学 | 一种基于多级特征的双学习模型目标跟踪方法 |
CN109671102A (zh) * | 2018-12-03 | 2019-04-23 | 华中科技大学 | 一种基于深度特征融合卷积神经网络的综合式目标跟踪方法 |
CN110349179A (zh) * | 2019-07-12 | 2019-10-18 | 安徽大学 | 一种基于多适配器的可见光红外视觉跟踪方法及装置 |
Non-Patent Citations (2)
Title |
---|
Position Detection and Direction Prediction for Arbitrary-Oriented Ships via Multitask Rotation Region Convolutional Neural Network;Xue Yang et al.;《IEEE Access》;20180913;50839-50849 * |
基于多层卷积特征融合的目标尺度自适应稳健跟踪;王鑫;《光学学报》;20171130;1-12 * |
Also Published As
Publication number | Publication date |
---|---|
CN110929848A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929848B (zh) | 基于多挑战感知学习模型的训练、跟踪方法 | |
CN108681752B (zh) | 一种基于深度学习的图像场景标注方法 | |
CN113255694B (zh) | 训练图像特征提取模型和提取图像特征的方法、装置 | |
CN113326731B (zh) | 一种基于动量网络指导的跨域行人重识别方法 | |
CN111198964B (zh) | 图像检索方法及*** | |
CN110874590B (zh) | 基于适配器互学习模型的训练及可见光红外视觉跟踪方法 | |
CN111506773B (zh) | 一种基于无监督深度孪生网络的视频去重方法 | |
CN112016601B (zh) | 基于知识图谱增强小样本视觉分类的网络模型构建方法 | |
CN111931505A (zh) | 一种基于子图嵌入的跨语言实体对齐方法 | |
CN113361710B (zh) | 学生模型训练方法、图片处理方法、装置及电子设备 | |
CN107832753B (zh) | 一种基于四值权重与多重分类的人脸特征提取方法 | |
CN116229112A (zh) | 一种基于多重注意力的孪生网络目标跟踪方法 | |
CN113822419A (zh) | 一种基于结构信息的自监督图表示学习运行方法 | |
CN114139631B (zh) | 一种面向多目标训练对象可选择的灰盒的对抗样本生成方法 | |
CN107633527B (zh) | 基于全卷积神经网络的目标追踪方法及装置 | |
CN111291785A (zh) | 目标检测的方法、装置、设备及存储介质 | |
CN109002808B (zh) | 一种人体行为识别方法及*** | |
CN114333062A (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
Mund et al. | Active online confidence boosting for efficient object classification | |
CN112200862A (zh) | 目标检测模型的训练方法、目标检测方法及装置 | |
CN116416212B (zh) | 路面破损检测神经网络训练方法及路面破损检测神经网络 | |
CN116977859A (zh) | 基于多尺度图像切割和实例困难度的弱监督目标检测方法 | |
CN111160077A (zh) | 一种大规模人脸动态聚类方法 | |
CN110210311B (zh) | 一种基于通道特征融合稀疏表示的人脸识别方法 | |
CN115205573A (zh) | 图像处理方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |