CN112560656B - 一种联合注意力机制端到端训练的行人多目标跟踪方法 - Google Patents
一种联合注意力机制端到端训练的行人多目标跟踪方法 Download PDFInfo
- Publication number
- CN112560656B CN112560656B CN202011453228.8A CN202011453228A CN112560656B CN 112560656 B CN112560656 B CN 112560656B CN 202011453228 A CN202011453228 A CN 202011453228A CN 112560656 B CN112560656 B CN 112560656B
- Authority
- CN
- China
- Prior art keywords
- sample
- search area
- attention mechanism
- network
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012549 training Methods 0.000 title claims abstract description 48
- 230000007246 mechanism Effects 0.000 title claims abstract description 42
- 238000004364 calculation method Methods 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 21
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 57
- 239000013598 vector Substances 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 238000004806 packaging method and process Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000010438 heat treatment Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种联合注意力机制端到端训练的行人多目标跟踪方法,收集带标签的视频序列的行人数据集,并利用标签中每个视频的第一帧真实边界框作为模板样本,再根据样本的中心在第二帧中裁剪出正搜索区域样本,以及在不是同类目标的区域裁剪出负搜索区域样本,组成三元组数据输入,然后利用卷积神经网络提取样本的特征信息,再使用注意力机制模块指导网络模型倾向重要的特征信息,最后计算相似度和数据关联。本发明将基于孪生网络的单目标跟踪和关联网络集成到统一的网络结构中,并结合注意力机制是网络偏重学习有意义的特征信息,提高网络模型的特征表达能力,提高计算效率,简化训练过程。
Description
技术领域
本发明属于计算机视觉的技术领域,具体涉及一种联合注意力机制端到端训练的行人多目标跟踪方法。
背景技术
随着深度学习和计算机算力地快速发展,计算机视觉领域变成计算机科学学科中非常重要的研究分支,而且许多研究方法得到了落地,衍生出产品加快了社会的智能化进程。在现实生活中行人多目标跟踪是计算机视觉领域中应用较多的方向,如智能视频监控、人机交互、监护机器人等等方面。
行人多目标跟踪是通过对视频序列的图像进行处理和分析,获取图像中多个行人的位置信息、运动轨迹,并对目标类别进行区分的视觉任务。行人多目标跟踪过程易受环境、行人姿态、行人外貌等外界因素影响,跟踪方法的稳定性、性能还存在非常大的挑战性。
行人多目标跟踪算法主要分为四个步骤:行人检测、特征提取或运动轨迹预测、计算相似度以及数据关联。早期出现的算法大多数采用相关滤波技术,经典算法有KCF、CSK,这类算法是使用滤波技术从历史帧图像和当前帧图像中搜索感兴趣区域,但是该类算法容易被边界效应的影响,目前还需不断改进。后期,卷积深度特征的出现颠覆了手工特征的地位,并且以其对目标更强的特征表达能力得到了更多领域技术的青睐,基于深度学习的行人多目标跟踪方法主要使用卷积神经网络提取行人目标的特征信息,然后计算检测结果的相似度,最后再将同类目标进行关联,得到行人的运动轨迹,如基于孪生网络的跟踪算法的系列算法,该类算法取得了更好的跟踪效果。
目前,基于深度学习的行人多目标跟踪方法大多数是将行人跟踪算法分成跟踪部分和数据关联部分分开训练计算的,使整个计算过程变得复杂,增加了冗余的计算量和内存开销。因此,急需提出一种结构简洁、训练方便的行人多目标跟踪方法,将目标跟踪网络和关联网络集成到统一的网络结构中,并结合注意力机制是网络偏重学习有意义的特征信息,提高网络模型的特征表达能力,提高计算效率,简化训练过程。
发明内容
本发明的目的在于提供一种联合注意力机制端到端训练的行人多目标跟踪方法,旨在解决上述问题。
本发明主要通过以下技术方案实现:
一种联合注意力机制端到端训练的行人多目标跟踪方法,包括以下步骤:
步骤S100:收集带标签的视频序列的行人数据集,并利用标签中每个视频的第一帧真实边界框初始化跟踪框,作为模板样本,再根据跟踪框的中心在第二帧中裁剪出正搜索区域样本,以及在不是同类目标的区域裁剪出负搜索区域样本;所述模板样本、正搜索区域样本、负搜索区域样本组成三元组,以作为训练样本输入至深度神经网络模型;
步骤S200:构建深度神经网络模型,利用卷积神经网络部分提取样本的特征信息,再使用注意力机制模块指导网络模型倾向重要的特征信息,最后计算相似度和数据关联;
步骤S300:设定指导网络模型训练的损失函数分为验证损失函数、单目标追踪损失函数以及数据对损失函数;
步骤S400:预先制定优化策略衰减损失值,以及设定相关超参数,重复计算,直至损失值收敛,精度最优。
本发明包括以下步骤:
收集带标签的视频序列的行人数据集,并利用标签中每个视频的第一帧真实边界框作为模板样本,再根据样本的中心在第二帧中裁剪出正搜索区域样本,以及在不是同类目标的区域裁剪出负搜索区域样本,组成三元组数据输入,然后利用卷积神经网络提取样本的特征信息,再使用注意力机制模块指导网络模型倾向重要的特征信息,最后计算相似度和数据关联;其中所述的注意力机制取值范围在0-1之间,反映每个特征点对模型的贡献,数值越大越重要;所述的相似度是通过关联网络部分计算特征向量之间的卷积值得到的。
本发明将基于孪生网络的单目标跟踪和关联网络集成到统一的网络结构中,并结合注意力机制是网络偏重学习有意义的特征信息,提高网络模型的特征表达能力,提高计算效率,简化训练过程。
为了更好地实现本发明,进一步地,所述步骤S200包括以下步骤:
步骤S201:构建分别处理模板样本、正搜索区域样本、负搜索区域样本的模板样本分支、正搜索区域样本分支、负搜索样本分支的三个网络结构分支,所述模板样本分支、正搜索区域样本分支、负搜索样本分支的主干网络结构相同,并共享权重参数;
步骤S202:所述正搜索区域样本分支和负搜索样本分支都采用感兴趣区域对齐层下采样特征点信息,所述正搜索区域样本分支和负搜索样本分支的主干网络与感兴趣区域对齐层之间设置有注意力机制模块,实现在训练过程中更加关注行人出现的区域;
步骤S203:最后模板样本分支、正搜索区域样本分支、负搜索样本分支都采用全局平均池化层压缩成一维特征向量。
为了更好地实现本发明,进一步地,所述步骤S201中模板样本分支、正搜索区域样本分支、负搜索样本分支的主干网络结构依次包括:从前至后将卷积层、批标准化层、激活函数层封装成卷积模块;从前至后将卷积模块、深度可分离卷积层、批标准化层、激活函数层、卷积层构成线性瓶颈模块,最后由预设个数和不同超参数的线性瓶颈模块组成倒残差模块。
为了更好地实现本发明,进一步地,所述模板样本分支、正搜索区域样本分支、负搜索样本分支的主干网络结构中包含3个倒残差模块,每个倒残差模块分别包含1、2、3个线性瓶颈模块。
为了更好地实现本发明,进一步地,所述激活函数层采用参数修正线性单元层。
为了更好地实现本发明,进一步地,所述步骤S202中的注意力机制模块包括两个连续的第一卷积层、第二卷积层,所述第一卷积层对特征信息进行整合,第二卷积层对特征信息的通道数进行改变得到注意力图;然后使用S型激活函数将注意力图归一化到0-1之间,最后将注意图与原特征信息进行融合。
为了更好地实现本发明,进一步地,所述步骤S203中通过向量运算计算出相似度,选择与候选检测结果相似度最高的预测跟踪结果,并将对应的目标身份标识号分配给跟踪结果。S300和S400都是为了提高网络模型训练的性能,通过这些设置能增强模型的表达能力,使相似度计算准确度增高。
为了更好地实现本发明,进一步地,所述步骤S300中的验证损失函数采用柔性最大值损失函数,计算公式如下:
其中:zi、xi、xj分别表示模板样本、正搜索区域样本、负搜索区域样本;
分别表示模板样本预测概率值、正搜索区域样本预测概率值、负搜索区域样本预测概率值;
通过最小化验证损失函数增加模型的分类能力;
单目标跟踪损失函数是对主干网络部分输出的特征图作卷积得到的热力图进行计算,计算公式如下:
其中:p为热力图上某个特征点,
P为特征图,
vp表示特征点p的响应值,
yp是热力图上特征点对应的真实标签值;
单目标跟踪损失函数用于指导模型准确找到目标所在的区域;
数据对损失函数是指导模型学习能计算出每组数据之间最优的相似度的权重参数,计算公式如下:
其中:wxj、wzi、wxi分别表示正搜索区域样本提取的一维特征向量、模板样本提取的一维特征向量、负搜索区域样本提取的一维特征向量,
是wzi向量的转置。
为了更好地实现本发明,进一步地,所述步骤S400的优化策略采用预热余弦学习率下降法衰减学习率,并利用随机下降法优化损失值。
为了更好地实现本发明,进一步地,所述步骤S400中的相关超参数是将学习率设为0.001,批处理大小参数设为256,总迭代次数设为100000、L2惩罚权重衰减率设为0.001。该参数设置是通过人为经验得到的,将这些参数设为描述中提及的具体数值能使发明提出的网络模型的性能最优。
本发明的有益效果:
(1)本发明将基于孪生网络的单目标跟踪和关联网络集成到统一的网络结构中,并结合注意力机制使网络偏重学习有意义的特征信息,提高网络模型的特征表达能力,提高计算效率,简化训练过程;
(2)本发明在行人多目标跟踪中融入注意力机制模块,帮助网络模型在训练过程中更加关注行人出现的区域,减弱复杂环境对目标的干扰,提高模型对遮挡行人的跟踪性能;
(3)本发明将单目标跟踪网络和关联网络集成统一的网络模型,并参数共享主干网络部分,大大提高特征信息的辨别能力,简化训练过程,减少计算开销;
(4)主干网络输出的正搜索区域样本分支特征和负搜索样本特征都使用注意力机制模块,帮助网络模型在训练过程中更加关注行人出现的区域,从而提高性能;
(5)所述的注意力机制采用两个连续的卷积层实现,第一个卷积层对特征信息进行整合,第二个卷积层对特征信息的通道数进行改变得到注意力图,然后使用S型激活函数将注意力图归一化到0-1之间,最后将注意图与原特征信息进行融合,加大对模型训练贡献多的特征点信息的权重。
附图说明
图1为整体网络结构示意图;
图2为主干网络结构示意图;
图3为线性瓶颈模块示意图。
具体实施方式
实施例1:
一种联合注意力机制端到端训练的行人多目标跟踪方法,如图1所示,包括以下步骤:步骤S100:收集带标签的视频序列的行人数据集,并利用标签中每个视频的第一帧真实边界框初始化跟踪框,作为模板样本,再根据跟踪框的中心在第二帧中裁剪出正搜索区域样本,以及在不是同类目标的区域裁剪出负搜索区域样本;所述模板样本、正搜索区域样本、负搜索区域样本组成三元组,以作为训练样本输入至深度神经网络模型;
步骤S200:构建深度神经网络模型,利用卷积神经网络部分提取样本的特征信息,再使用注意力机制模块指导网络模型倾向重要的特征信息,最后计算相似度和数据关联;
步骤S300:设定指导网络模型训练的损失函数分为验证损失函数、单目标追踪损失函数以及数据对损失函数;
步骤S400:预先制定优化策略衰减损失值,以及设定相关超参数,重复计算,直至损失值收敛,精度最优。
本发明将基于孪生网络的单目标跟踪和关联网络集成到统一的网络结构中,并结合注意力机制使网络偏重学习有意义的特征信息,提高网络模型的特征表达能力,提高计算效率,简化训练过程。
实施例2:
本实施例是在实施例1的基础上进行优化,如图1、图2所示,所述步骤S200包括以下步骤:
步骤S201:构建分别处理模板样本、正搜索区域样本、负搜索区域样本的模板样本分支、正搜索区域样本分支、负搜索样本分支的三个网络结构分支,所述模板样本分支、正搜索区域样本分支、负搜索样本分支的主干网络结构相同,并共享权重参数;
步骤S202:所述正搜索区域样本分支和负搜索样本分支都采用感兴趣区域对齐层下采样特征点信息,所述正搜索区域样本分支和负搜索样本分支的主干网络与感兴趣区域对齐层之间设置有注意力机制模块,实现在训练过程中更加关注行人出现的区域;
步骤S203:最后模板样本分支、正搜索区域样本分支、负搜索样本分支都采用全局平均池化层压缩成一维特征向量。
进一步地,如图2、图3所示,所述步骤S201中模板样本分支、正搜索区域样本分支、负搜索样本分支的主干网络结构依次包括:从前至后将卷积层、批标准化层、激活函数层封装成卷积模块;从前至后将卷积模块、深度可分离卷积层、批标准化层、激活函数层、卷积层构成线性瓶颈模块,最后由预设个数和不同超参数的线性瓶颈模块组成倒残差模块。
进一步地,所述模板样本分支、正搜索区域样本分支、负搜索样本分支的主干网络结构中包含3个倒残差模块,每个倒残差模块分别包含1、2、3个线性瓶颈模块。
进一步地,所述激活函数层采用参数修正线性单元层。
进一步地,所述步骤S202中的注意力机制模块包括两个连续的第一卷积层、第二卷积层,所述第一卷积层对特征信息进行整合,第二卷积层对特征信息的通道数进行改变得到注意力图;然后使用S型激活函数将注意力图归一化到0-1之间,最后将注意图与原特征信息进行融合。
进一步地,所述步骤S203中通过向量运算计算出相似度,选择与候选检测结果相似度最高的预测跟踪结果,并将对应的目标身份标识号分配给跟踪结果。
本发明将单目标跟踪网络和关联网络集成统一的网络模型,并参数共享主干网络部分,大大提高特征信息的辨别能力,简化训练过程,减少计算开销。本发明在行人多目标跟踪中融入注意力机制模块,帮助网络模型在训练过程中更加关注行人出现的区域,减弱复杂环境对目标的干扰,提高模型对遮挡行人的跟踪性能。
本实施例的其他部分与实施例1相同,故不再赘述。
实施例3:
本实施例是在实施例1或2的基础上进行优化,所述步骤S300中的验证损失函数采用柔性最大值损失函数,计算公式如下:
其中:zi、xi、xj分别表示模板样本、正搜索区域样本、负搜索区域样本;
分别表示模板样本预测概率值、正搜索区域样本预测概率值、负搜索区域样本预测概率值;
通过最小化验证损失函数增加模型的分类能力;
单目标跟踪损失函数是对主干网络部分输出的特征图作卷积得到的热力图进行计算,计算公式如下:
其中:p为热力图上某个特征点,
P为特征图,
vp表示特征点p的响应值,
yp是热力图上特征点对应的真实标签值;
单目标跟踪损失函数用于指导模型准确找到目标所在的区域;
数据对损失函数是指导模型学习能计算出每组数据之间最优的相似度的权重参数,计算公式如下:
其中:wxj、wzi、wxi分别表示正搜索区域样本提取的一维特征向量、模板样本提取的一维特征向量、负搜索区域样本提取的一维特征向量,
是wzi向量的转置。
本实施例的其他部分与上述实施例1或2相同,故不再赘述。
实施例4:
本实施例是在实施例1-3任一个的基础上进行优化,所述步骤S400的优化策略采用预热余弦学习率下降法衰减学习率,并利用随机下降法优化损失值。
进一步地,所述步骤S400中的相关超参数是将学习率设为0.001,批处理大小参数设为256,总迭代次数设为100000、L2惩罚权重衰减率设为0.001。
本实施例的其他部分与上述实施例实施例1-3任一个相同,故不再赘述。
实施例5:
目前,已有的行人多目标跟踪方法就是将目标跟踪网络部分和关联网络部分分开进行训练处理的,使训练过程变得更加繁琐,并且没有充分利用两部分网络之间的联系。为了克服这个缺点,如图1至图3所示,本实施例提供了一种联合注意力机制端到端训练的行人多目标跟踪方法,联合注意力机制增强网络对重要特征的学习,提高网络模型的特征表达能力,提高计算效率,简化训练过程。包括以下步骤:
图1为本发明的搭建的整体网络模型结构示意图,分为三个分支,分别处理模板样本、正搜索区域样本、负搜索区域样本,三个分支的主干部分采用同样的结构,并共享权重参数。
如图2所示,主干结构依次包括:从前至后将卷积层、批归一化层、激活函数层封装成卷积模块;从前至后将卷积模块、深度可分离卷积层、批归一化层、激活函数层、卷积层构成线性瓶颈模块。
如图3所示,最后由预设个数和不同超参数的线性瓶颈模块组成倒残差模块。然后正搜索区域样本分支和负搜索样本分支都采用感兴趣区域对齐层下采样特征点信息,最后三个分支都采用全局平均池化层压缩成一维特征向量。其次,主干网络输出的正搜索区域样本分支特征和负搜索样本特征都使用注意力机制模块,帮助网络模型在训练过程中更加关注行人出现的区域。最后通过向量运算计算出相似度,选择与候选检测结果相似度最高的预测跟踪结果,并将对应的目标身份标识号分配给跟踪结果,完成行人多目标跟踪。
如图1-图3所示,Backbone表示主干网络部分、Attention_block表示注意力机制模块、ROI_align表示感兴趣区域对齐层、GAP表示全局平均池化层、C表示卷积层、BN表示批标准化层、PR表示参数修正线性单元层、Line_bottleneck表示线性瓶颈模块、DC表示深度可分离卷积层、Add表示特征相加层。
进一步地,注意力机制模块采用两个连续的卷积层实现,第一个卷积层对特征信息进行整合,第二个卷积层对特征信息的通道数进行改变得到注意力图,然后使用S型激活函数将注意力图归一化到0-1之间,最后将注意图与原特征信息进行融合,加大对模型训练贡献多的特征点信息的权重。
进一步地,指导网络模型训练的损失函数分为验证损失函数、单目标追踪损失函数以及数据对损失函数,如图1所示。验证损失函数采用柔性最大值损失函数,损失函数公式为:
其中:zi、xi、xj分别表示模板样本、正搜索区域样本、负搜索区域样本;
分别表示模板样本预测概率值、正搜索区域样本预测概率值、负搜索区域样本预测概率值;通过最小化验证损失函数增加模型的分类能力。
进一步地,单目标跟踪损失函数是对主干网络部分输出的特征图作卷积得到的热力图进行计算的,计算公式如下:
其中:p为热力图上某个特征点,
P为特征图,
vp表示特征点p的响应值,
yp是热力图上特征点对应的真实标签值;
单目标跟踪损失函数用于指导模型准确找到目标所在的区域。
最后,数据对损失函数是指导模型学习能计算出每组数据之间最优的相似度的权重参数,计算公式如下:
其中:wxj、wzi、wxi分别表示正搜索区域样本提取的一维特征向量、模板样本提取的一维特征向量、负搜索区域样本提取的一维特征向量,
是wzi向量的转置。
综上所述,本发明通过将单目标跟踪网络和关联网络集成在统一的网络模型里,简化了行人多目标跟踪方法的训练过程,去除了冗余的计算开销,并且联合注意力机制增强增强网络对重要特征的学习,提高网络模型的特征表达能力。由实验结果可得,本发明提出的方法使用参数共享的方式训练网络模型的主干部分,获取到更具有区分性的特征信息,并实现了端到端的网络结构,提高行人多目标跟踪模型的性能,提高计算效率,简化训练过程。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。
Claims (9)
1.一种联合注意力机制端到端训练的行人多目标跟踪方法,其特征在于,包括以下步骤:
步骤S100:收集带标签的视频序列的行人数据集,并利用标签中每个视频的第一帧真实边界框初始化跟踪框,作为模板样本,再根据跟踪框的中心在第二帧中裁剪出正搜索区域样本,以及在不是同类目标的区域裁剪出负搜索区域样本;所述模板样本、正搜索区域样本、负搜索区域样本组成三元组,以作为训练样本输入至深度神经网络模型;
步骤S200:构建深度神经网络模型,利用卷积神经网络部分提取样本的特征信息,再使用注意力机制模块指导网络模型倾向重要的特征信息,最后计算相似度和数据关联;
步骤S201:构建分别处理模板样本、正搜索区域样本、负搜索区域样本的模板样本分支、正搜索区域样本分支、负搜索样本分支的三个网络结构分支,所述模板样本分支、正搜索区域样本分支、负搜索样本分支的主干网络结构相同,并共享权重参数;
步骤S202:所述正搜索区域样本分支和负搜索样本分支都采用感兴趣区域对齐层下采样特征点信息,所述正搜索区域样本分支和负搜索样本分支的主干网络与感兴趣区域对齐层之间设置有注意力机制模块,实现在训练过程中更加关注行人出现的区域;
步骤S203:最后模板样本分支、正搜索区域样本分支、负搜索样本分支都采用全局平均池化层压缩成一维特征向量;
步骤S300:设定指导网络模型训练的损失函数分为验证损失函数、单目标追踪损失函数以及数据对损失函数;
步骤S400:预先制定优化策略衰减损失值,以及设定相关超参数,重复计算,直至损失值收敛,精度最优。
2.根据权利要求1所述的一种联合注意力机制端到端训练的行人多目标跟踪方法,其特征在于,所述步骤S201中模板样本分支、正搜索区域样本分支、负搜索样本分支的主干网络结构依次包括:从前至后将卷积层、批标准化层、激活函数层封装成卷积模块;从前至后将卷积模块、深度可分离卷积层、批标准化层、激活函数层、卷积层构成线性瓶颈模块,最后由预设个数和不同超参数的线性瓶颈模块组成倒残差模块。
3.根据权利要求2所述的一种联合注意力机制端到端训练的行人多目标跟踪方法,其特征在于,所述模板样本分支、正搜索区域样本分支、负搜索样本分支的主干网络结构中包含3个倒残差模块,每个倒残差模块分别包含1、2、3个线性瓶颈模块。
4.根据权利要求2所述的一种联合注意力机制端到端训练的行人多目标跟踪方法,其特征在于,所述激活函数层采用参数修正线性单元层。
5.根据权利要求1所述的一种联合注意力机制端到端训练的行人多目标跟踪方法,其特征在于,所述步骤S202中的注意力机制模块包括两个连续的第一卷积层、第二卷积层,所述第一卷积层对特征信息进行整合,第二卷积层对特征信息的通道数进行改变得到注意力图;然后使用S型激活函数将注意力图归一化到0-1之间,最后将注意图与原特征信息进行融合。
6.根据权利要求1所述的一种联合注意力机制端到端训练的行人多目标跟踪方法,其特征在于,所述步骤S203中通过向量运算计算出相似度,选择与候选检测结果相似度最高的预测跟踪结果,并将对应的目标身份标识号分配给跟踪结果。
7.根据权利要求1所述的一种联合注意力机制端到端训练的行人多目标跟踪方法,其特征在于,所述步骤S300中的验证损失函数采用柔性最大值损失函数,计算公式如下:
其中:zi、xi、xj分别表示模板样本、正搜索区域样本、负搜索区域样本;
分别表示模板样本预测概率值、正搜索区域样本预测概率值、负搜索区域样本预测概率值;
通过最小化验证损失函数增加模型的分类能力;
单目标跟踪损失函数是对主干网络部分输出的特征图作卷积得到的热力图进行计算,计算公式如下:
其中:p为热力图上某个特征点,
P为特征图,
vp表示特征点p的响应值,
yp是热力图上特征点对应的真实标签值;
单目标跟踪损失函数用于指导模型准确找到目标所在的区域;
数据对损失函数是指导模型学习能计算出每组数据之间最优的相似度的权重参数,计算公式如下:
其中:wxj、wzi、wxi分别表示正搜索区域样本提取的一维特征向量、模板样本提取的一维特征向量、负搜索区域样本提取的一维特征向量,
是wzi向量的转置。
8.根据权利要求1所述的一种联合注意力机制端到端训练的行人多目标跟踪方法,其特征在于,所述步骤S400的优化策略采用预热余弦学习率下降法衰减学习率,并利用随机下降法优化损失值。
9.根据权利要求1或8所述的一种联合注意力机制端到端训练的行人多目标跟踪方法,其特征在于,所述步骤S400中的相关超参数是将学习率设为0.001,批处理大小参数设为256,总迭代次数设为100000、L2惩罚权重衰减率设为0.001。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011453228.8A CN112560656B (zh) | 2020-12-11 | 2020-12-11 | 一种联合注意力机制端到端训练的行人多目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011453228.8A CN112560656B (zh) | 2020-12-11 | 2020-12-11 | 一种联合注意力机制端到端训练的行人多目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112560656A CN112560656A (zh) | 2021-03-26 |
CN112560656B true CN112560656B (zh) | 2024-04-02 |
Family
ID=75061175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011453228.8A Active CN112560656B (zh) | 2020-12-11 | 2020-12-11 | 一种联合注意力机制端到端训练的行人多目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112560656B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990116B (zh) * | 2021-04-21 | 2021-08-06 | 四川翼飞视科技有限公司 | 基于多注意力机制融合的行为识别装置、方法和存储介质 |
CN113240709B (zh) * | 2021-04-23 | 2022-05-20 | 中国人民解放军32802部队 | 基于对比学习的孪生网络目标跟踪方法 |
CN113112525B (zh) * | 2021-04-27 | 2023-09-01 | 北京百度网讯科技有限公司 | 目标跟踪方法、网络模型及其训练方法、设备和介质 |
CN113379793B (zh) * | 2021-05-19 | 2022-08-12 | 成都理工大学 | 基于孪生网络结构和注意力机制的在线多目标跟踪方法 |
CN113344932B (zh) * | 2021-06-01 | 2022-05-03 | 电子科技大学 | 一种半监督的单目标视频分割方法 |
CN113496210B (zh) * | 2021-06-21 | 2024-02-02 | 西安理工大学 | 基于注意力机制的光伏组串跟踪及故障跟踪方法 |
CN113379788B (zh) * | 2021-06-29 | 2024-03-29 | 西安理工大学 | 一种基于三元组网络的目标跟踪稳定性方法 |
CN113592915B (zh) * | 2021-10-08 | 2021-12-14 | 湖南大学 | 端到端旋转框目标搜索方法、***及计算机可读存储介质 |
CN114240996B (zh) * | 2021-11-16 | 2024-05-07 | 灵译脑科技(上海)有限公司 | 一种基于目标运动预测的多目标追踪方法 |
CN114399533B (zh) * | 2022-01-17 | 2024-04-16 | 中南大学 | 一种基于多层次注意力机制的单目标追踪方法 |
CN114880775B (zh) * | 2022-05-10 | 2023-05-09 | 江苏大学 | 一种基于主动学习Kriging模型的可行域搜索方法及装置 |
CN114783000B (zh) * | 2022-06-15 | 2022-10-18 | 成都东方天呈智能科技有限公司 | 一种明厨亮灶场景下工作人员着装规范检测方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223324A (zh) * | 2019-06-05 | 2019-09-10 | 东华大学 | 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法 |
CN110675423A (zh) * | 2019-08-29 | 2020-01-10 | 电子科技大学 | 一种基于孪生神经网络和注意力模型的无人机跟踪方法 |
CN110738146A (zh) * | 2019-09-27 | 2020-01-31 | 华中科技大学 | 一种目标重识别神经网络及其构建方法和应用 |
CN110781838A (zh) * | 2019-10-28 | 2020-02-11 | 大连海事大学 | 一种复杂场景下行人的多模态轨迹预测方法 |
CN111027505A (zh) * | 2019-12-19 | 2020-04-17 | 吉林大学 | 一种基于显著性检测的分层多目标跟踪方法 |
CN111192292A (zh) * | 2019-12-27 | 2020-05-22 | 深圳大学 | 基于注意力机制与孪生网络的目标跟踪方法及相关设备 |
CN111354017A (zh) * | 2020-03-04 | 2020-06-30 | 江南大学 | 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 |
CN111639551A (zh) * | 2020-05-12 | 2020-09-08 | 华中科技大学 | 基于孪生网络和长短期线索的在线多目标跟踪方法和*** |
CN111832413A (zh) * | 2020-06-09 | 2020-10-27 | 天津大学 | 基于时空多尺度网络的人流密度图估计、定位和跟踪方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11138469B2 (en) * | 2019-01-15 | 2021-10-05 | Naver Corporation | Training and using a convolutional neural network for person re-identification |
-
2020
- 2020-12-11 CN CN202011453228.8A patent/CN112560656B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223324A (zh) * | 2019-06-05 | 2019-09-10 | 东华大学 | 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法 |
CN110675423A (zh) * | 2019-08-29 | 2020-01-10 | 电子科技大学 | 一种基于孪生神经网络和注意力模型的无人机跟踪方法 |
CN110738146A (zh) * | 2019-09-27 | 2020-01-31 | 华中科技大学 | 一种目标重识别神经网络及其构建方法和应用 |
CN110781838A (zh) * | 2019-10-28 | 2020-02-11 | 大连海事大学 | 一种复杂场景下行人的多模态轨迹预测方法 |
CN111027505A (zh) * | 2019-12-19 | 2020-04-17 | 吉林大学 | 一种基于显著性检测的分层多目标跟踪方法 |
CN111192292A (zh) * | 2019-12-27 | 2020-05-22 | 深圳大学 | 基于注意力机制与孪生网络的目标跟踪方法及相关设备 |
CN111354017A (zh) * | 2020-03-04 | 2020-06-30 | 江南大学 | 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 |
CN111639551A (zh) * | 2020-05-12 | 2020-09-08 | 华中科技大学 | 基于孪生网络和长短期线索的在线多目标跟踪方法和*** |
CN111832413A (zh) * | 2020-06-09 | 2020-10-27 | 天津大学 | 基于时空多尺度网络的人流密度图估计、定位和跟踪方法 |
Non-Patent Citations (6)
Title |
---|
Near-Online Multi-Pedestrian Tracking via Combining Multiple Consistent Appearance Cues;Feng Weijiang 等;《IEEE Transactions on Circuits and Systems for Video Technology》;20200629;第31卷(第04期);1540-1554 * |
Siamese Network Combined with Attention Mechanism for Object Tracking;Zhang D 等;《The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences》;20200814;第43卷;1315-1322 * |
Visual Object Tracking by Hierarchical Attention Siamese Network;Shen Jianbing 等;《IEEE Transactions on Cybernetics》;20190912;第50卷(第07期);3068-3080 * |
基于多注意力图的孪生网络视觉目标跟踪;齐天卉 等;《信号处理》;20200925;第36卷(第09期);1557-1566 * |
基于深度学习的实时多目标跟踪关键技术的研究;李沐雨;《中国博士学位论文全文数据库 (信息科技辑)》;20200815(第08期);I138-14 * |
基于深度学习的行人多目标跟踪算法研究;王溜;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20200815(第08期);I138-453 * |
Also Published As
Publication number | Publication date |
---|---|
CN112560656A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112560656B (zh) | 一种联合注意力机制端到端训练的行人多目标跟踪方法 | |
CN110414432B (zh) | 对象识别模型的训练方法、对象识别方法及相应的装置 | |
CN112926396B (zh) | 一种基于双流卷积注意力的动作识别方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
Li et al. | Adaptive deep convolutional neural networks for scene-specific object detection | |
Karim et al. | A dynamic spatial-temporal attention network for early anticipation of traffic accidents | |
CN112395442B (zh) | 移动互联网上的低俗图片自动识别与内容过滤方法 | |
CN110598586A (zh) | 一种目标检测方法及*** | |
CN113269089B (zh) | 基于深度学习的实时手势识别方法及*** | |
CN111767847A (zh) | 一种集成目标检测和关联的行人多目标跟踪方法 | |
CN112801059B (zh) | 图卷积网络***和基于图卷积网络***的3d物体检测方法 | |
CN113362368B (zh) | 一种基于多层次时空图神经网络的人群轨迹预测方法 | |
CN115375737B (zh) | 基于自适应时间与序列化时空特征的目标跟踪方法与*** | |
Doha et al. | Deep learning based crop row detection with online domain adaptation | |
CN115457082A (zh) | 一种基于多特征融合增强的行人多目标跟踪算法 | |
CN114882351B (zh) | 一种基于改进YOLO-V5s的多目标检测与跟踪方法 | |
CN113870312B (zh) | 基于孪生网络的单目标跟踪方法 | |
Kadim et al. | Deep-learning based single object tracker for night surveillance. | |
CN116229112A (zh) | 一种基于多重注意力的孪生网络目标跟踪方法 | |
CN114066844A (zh) | 一种基于注意力叠加与特征融合的肺炎x光片图像分析模型及分析方法 | |
Duan | [Retracted] Deep Learning‐Based Multitarget Motion Shadow Rejection and Accurate Tracking for Sports Video | |
CN115731517B (zh) | 一种基于Crowd-RetinaNet网络的拥挤人群检测方法 | |
Fan et al. | Discriminative siamese complementary tracker with flexible update | |
Zhang et al. | Machine Learning‐Based Multitarget Tracking of Motion in Sports Video | |
CN114862914A (zh) | 一种基于检测跟踪一体式的行人跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |