CN112560656B

CN112560656B - 一种联合注意力机制端到端训练的行人多目标跟踪方法

Info

Publication number: CN112560656B
Application number: CN202011453228.8A
Authority: CN
Inventors: 闫超; 黄俊洁; 韩强
Original assignee: Chengdu Dongfang Tiancheng Intelligent Technology Co ltd
Current assignee: Chengdu Dongfang Tiancheng Intelligent Technology Co ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2024-04-02
Anticipated expiration: 2040-12-11
Also published as: CN112560656A

Abstract

本发明公开了一种联合注意力机制端到端训练的行人多目标跟踪方法，收集带标签的视频序列的行人数据集，并利用标签中每个视频的第一帧真实边界框作为模板样本，再根据样本的中心在第二帧中裁剪出正搜索区域样本，以及在不是同类目标的区域裁剪出负搜索区域样本，组成三元组数据输入，然后利用卷积神经网络提取样本的特征信息，再使用注意力机制模块指导网络模型倾向重要的特征信息，最后计算相似度和数据关联。本发明将基于孪生网络的单目标跟踪和关联网络集成到统一的网络结构中，并结合注意力机制是网络偏重学习有意义的特征信息，提高网络模型的特征表达能力，提高计算效率，简化训练过程。

Description

一种联合注意力机制端到端训练的行人多目标跟踪方法

技术领域

本发明属于计算机视觉的技术领域，具体涉及一种联合注意力机制端到端训练的行人多目标跟踪方法。

背景技术

随着深度学习和计算机算力地快速发展，计算机视觉领域变成计算机科学学科中非常重要的研究分支，而且许多研究方法得到了落地，衍生出产品加快了社会的智能化进程。在现实生活中行人多目标跟踪是计算机视觉领域中应用较多的方向，如智能视频监控、人机交互、监护机器人等等方面。

行人多目标跟踪是通过对视频序列的图像进行处理和分析，获取图像中多个行人的位置信息、运动轨迹，并对目标类别进行区分的视觉任务。行人多目标跟踪过程易受环境、行人姿态、行人外貌等外界因素影响，跟踪方法的稳定性、性能还存在非常大的挑战性。

行人多目标跟踪算法主要分为四个步骤：行人检测、特征提取或运动轨迹预测、计算相似度以及数据关联。早期出现的算法大多数采用相关滤波技术，经典算法有KCF、CSK，这类算法是使用滤波技术从历史帧图像和当前帧图像中搜索感兴趣区域，但是该类算法容易被边界效应的影响，目前还需不断改进。后期，卷积深度特征的出现颠覆了手工特征的地位，并且以其对目标更强的特征表达能力得到了更多领域技术的青睐，基于深度学习的行人多目标跟踪方法主要使用卷积神经网络提取行人目标的特征信息，然后计算检测结果的相似度，最后再将同类目标进行关联，得到行人的运动轨迹，如基于孪生网络的跟踪算法的系列算法，该类算法取得了更好的跟踪效果。

目前，基于深度学习的行人多目标跟踪方法大多数是将行人跟踪算法分成跟踪部分和数据关联部分分开训练计算的，使整个计算过程变得复杂，增加了冗余的计算量和内存开销。因此，急需提出一种结构简洁、训练方便的行人多目标跟踪方法，将目标跟踪网络和关联网络集成到统一的网络结构中，并结合注意力机制是网络偏重学习有意义的特征信息，提高网络模型的特征表达能力，提高计算效率，简化训练过程。

发明内容

本发明的目的在于提供一种联合注意力机制端到端训练的行人多目标跟踪方法，旨在解决上述问题。

本发明主要通过以下技术方案实现：

一种联合注意力机制端到端训练的行人多目标跟踪方法，包括以下步骤：

步骤S100：收集带标签的视频序列的行人数据集，并利用标签中每个视频的第一帧真实边界框初始化跟踪框，作为模板样本，再根据跟踪框的中心在第二帧中裁剪出正搜索区域样本，以及在不是同类目标的区域裁剪出负搜索区域样本；所述模板样本、正搜索区域样本、负搜索区域样本组成三元组，以作为训练样本输入至深度神经网络模型；

步骤S200：构建深度神经网络模型，利用卷积神经网络部分提取样本的特征信息，再使用注意力机制模块指导网络模型倾向重要的特征信息，最后计算相似度和数据关联；

步骤S300：设定指导网络模型训练的损失函数分为验证损失函数、单目标追踪损失函数以及数据对损失函数；

步骤S400：预先制定优化策略衰减损失值，以及设定相关超参数，重复计算，直至损失值收敛，精度最优。

本发明包括以下步骤：

收集带标签的视频序列的行人数据集，并利用标签中每个视频的第一帧真实边界框作为模板样本，再根据样本的中心在第二帧中裁剪出正搜索区域样本，以及在不是同类目标的区域裁剪出负搜索区域样本，组成三元组数据输入，然后利用卷积神经网络提取样本的特征信息，再使用注意力机制模块指导网络模型倾向重要的特征信息，最后计算相似度和数据关联；其中所述的注意力机制取值范围在0-1之间，反映每个特征点对模型的贡献，数值越大越重要；所述的相似度是通过关联网络部分计算特征向量之间的卷积值得到的。

本发明将基于孪生网络的单目标跟踪和关联网络集成到统一的网络结构中，并结合注意力机制是网络偏重学习有意义的特征信息，提高网络模型的特征表达能力，提高计算效率，简化训练过程。

为了更好地实现本发明，进一步地，所述步骤S200包括以下步骤：

步骤S201：构建分别处理模板样本、正搜索区域样本、负搜索区域样本的模板样本分支、正搜索区域样本分支、负搜索样本分支的三个网络结构分支，所述模板样本分支、正搜索区域样本分支、负搜索样本分支的主干网络结构相同，并共享权重参数；

步骤S202：所述正搜索区域样本分支和负搜索样本分支都采用感兴趣区域对齐层下采样特征点信息，所述正搜索区域样本分支和负搜索样本分支的主干网络与感兴趣区域对齐层之间设置有注意力机制模块，实现在训练过程中更加关注行人出现的区域；

步骤S203：最后模板样本分支、正搜索区域样本分支、负搜索样本分支都采用全局平均池化层压缩成一维特征向量。

为了更好地实现本发明，进一步地，所述步骤S201中模板样本分支、正搜索区域样本分支、负搜索样本分支的主干网络结构依次包括：从前至后将卷积层、批标准化层、激活函数层封装成卷积模块；从前至后将卷积模块、深度可分离卷积层、批标准化层、激活函数层、卷积层构成线性瓶颈模块，最后由预设个数和不同超参数的线性瓶颈模块组成倒残差模块。

为了更好地实现本发明，进一步地，所述模板样本分支、正搜索区域样本分支、负搜索样本分支的主干网络结构中包含3个倒残差模块，每个倒残差模块分别包含1、2、3个线性瓶颈模块。

为了更好地实现本发明，进一步地，所述激活函数层采用参数修正线性单元层。

为了更好地实现本发明，进一步地，所述步骤S202中的注意力机制模块包括两个连续的第一卷积层、第二卷积层，所述第一卷积层对特征信息进行整合，第二卷积层对特征信息的通道数进行改变得到注意力图；然后使用S型激活函数将注意力图归一化到0-1之间，最后将注意图与原特征信息进行融合。

为了更好地实现本发明，进一步地，所述步骤S203中通过向量运算计算出相似度，选择与候选检测结果相似度最高的预测跟踪结果，并将对应的目标身份标识号分配给跟踪结果。S300和S400都是为了提高网络模型训练的性能，通过这些设置能增强模型的表达能力，使相似度计算准确度增高。

为了更好地实现本发明，进一步地，所述步骤S300中的验证损失函数采用柔性最大值损失函数，计算公式如下：

其中：z_i、x_i、x_j分别表示模板样本、正搜索区域样本、负搜索区域样本；

分别表示模板样本预测概率值、正搜索区域样本预测概率值、负搜索区域样本预测概率值；

通过最小化验证损失函数增加模型的分类能力；

单目标跟踪损失函数是对主干网络部分输出的特征图作卷积得到的热力图进行计算，计算公式如下：

其中：p为热力图上某个特征点，

P为特征图，

v_p表示特征点p的响应值，

y_p是热力图上特征点对应的真实标签值；

单目标跟踪损失函数用于指导模型准确找到目标所在的区域；

数据对损失函数是指导模型学习能计算出每组数据之间最优的相似度的权重参数，计算公式如下：

其中：w_xj、w_zi、w_xi分别表示正搜索区域样本提取的一维特征向量、模板样本提取的一维特征向量、负搜索区域样本提取的一维特征向量，

是w_zi向量的转置。

为了更好地实现本发明，进一步地，所述步骤S400的优化策略采用预热余弦学习率下降法衰减学习率，并利用随机下降法优化损失值。

为了更好地实现本发明，进一步地，所述步骤S400中的相关超参数是将学习率设为0.001，批处理大小参数设为256，总迭代次数设为100000、L2惩罚权重衰减率设为0.001。该参数设置是通过人为经验得到的，将这些参数设为描述中提及的具体数值能使发明提出的网络模型的性能最优。

本发明的有益效果：

(1)本发明将基于孪生网络的单目标跟踪和关联网络集成到统一的网络结构中，并结合注意力机制使网络偏重学习有意义的特征信息，提高网络模型的特征表达能力，提高计算效率，简化训练过程；

(2)本发明在行人多目标跟踪中融入注意力机制模块，帮助网络模型在训练过程中更加关注行人出现的区域，减弱复杂环境对目标的干扰，提高模型对遮挡行人的跟踪性能；

(3)本发明将单目标跟踪网络和关联网络集成统一的网络模型，并参数共享主干网络部分，大大提高特征信息的辨别能力，简化训练过程，减少计算开销；

(4)主干网络输出的正搜索区域样本分支特征和负搜索样本特征都使用注意力机制模块，帮助网络模型在训练过程中更加关注行人出现的区域，从而提高性能；

(5)所述的注意力机制采用两个连续的卷积层实现，第一个卷积层对特征信息进行整合，第二个卷积层对特征信息的通道数进行改变得到注意力图，然后使用S型激活函数将注意力图归一化到0-1之间，最后将注意图与原特征信息进行融合，加大对模型训练贡献多的特征点信息的权重。

附图说明

图1为整体网络结构示意图；

图2为主干网络结构示意图；

图3为线性瓶颈模块示意图。

具体实施方式

实施例1：

一种联合注意力机制端到端训练的行人多目标跟踪方法，如图1所示，包括以下步骤：步骤S100：收集带标签的视频序列的行人数据集，并利用标签中每个视频的第一帧真实边界框初始化跟踪框，作为模板样本，再根据跟踪框的中心在第二帧中裁剪出正搜索区域样本，以及在不是同类目标的区域裁剪出负搜索区域样本；所述模板样本、正搜索区域样本、负搜索区域样本组成三元组，以作为训练样本输入至深度神经网络模型；

本发明将基于孪生网络的单目标跟踪和关联网络集成到统一的网络结构中，并结合注意力机制使网络偏重学习有意义的特征信息，提高网络模型的特征表达能力，提高计算效率，简化训练过程。

实施例2：

本实施例是在实施例1的基础上进行优化，如图1、图2所示，所述步骤S200包括以下步骤：

进一步地，如图2、图3所示，所述步骤S201中模板样本分支、正搜索区域样本分支、负搜索样本分支的主干网络结构依次包括：从前至后将卷积层、批标准化层、激活函数层封装成卷积模块；从前至后将卷积模块、深度可分离卷积层、批标准化层、激活函数层、卷积层构成线性瓶颈模块，最后由预设个数和不同超参数的线性瓶颈模块组成倒残差模块。

进一步地，所述模板样本分支、正搜索区域样本分支、负搜索样本分支的主干网络结构中包含3个倒残差模块，每个倒残差模块分别包含1、2、3个线性瓶颈模块。

进一步地，所述激活函数层采用参数修正线性单元层。

进一步地，所述步骤S202中的注意力机制模块包括两个连续的第一卷积层、第二卷积层，所述第一卷积层对特征信息进行整合，第二卷积层对特征信息的通道数进行改变得到注意力图；然后使用S型激活函数将注意力图归一化到0-1之间，最后将注意图与原特征信息进行融合。

进一步地，所述步骤S203中通过向量运算计算出相似度，选择与候选检测结果相似度最高的预测跟踪结果，并将对应的目标身份标识号分配给跟踪结果。

本发明将单目标跟踪网络和关联网络集成统一的网络模型，并参数共享主干网络部分，大大提高特征信息的辨别能力，简化训练过程，减少计算开销。本发明在行人多目标跟踪中融入注意力机制模块，帮助网络模型在训练过程中更加关注行人出现的区域，减弱复杂环境对目标的干扰，提高模型对遮挡行人的跟踪性能。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例3：

本实施例是在实施例1或2的基础上进行优化，所述步骤S300中的验证损失函数采用柔性最大值损失函数，计算公式如下：

通过最小化验证损失函数增加模型的分类能力；

其中：p为热力图上某个特征点，

P为特征图，

v_p表示特征点p的响应值，

y_p是热力图上特征点对应的真实标签值；

是w_zi向量的转置。

本实施例的其他部分与上述实施例1或2相同，故不再赘述。

实施例4：

本实施例是在实施例1-3任一个的基础上进行优化，所述步骤S400的优化策略采用预热余弦学习率下降法衰减学习率，并利用随机下降法优化损失值。

进一步地，所述步骤S400中的相关超参数是将学习率设为0.001，批处理大小参数设为256，总迭代次数设为100000、L2惩罚权重衰减率设为0.001。

本实施例的其他部分与上述实施例实施例1-3任一个相同，故不再赘述。

实施例5：

目前，已有的行人多目标跟踪方法就是将目标跟踪网络部分和关联网络部分分开进行训练处理的，使训练过程变得更加繁琐，并且没有充分利用两部分网络之间的联系。为了克服这个缺点，如图1至图3所示，本实施例提供了一种联合注意力机制端到端训练的行人多目标跟踪方法，联合注意力机制增强网络对重要特征的学习，提高网络模型的特征表达能力，提高计算效率，简化训练过程。包括以下步骤：

图1为本发明的搭建的整体网络模型结构示意图，分为三个分支，分别处理模板样本、正搜索区域样本、负搜索区域样本，三个分支的主干部分采用同样的结构，并共享权重参数。

如图2所示，主干结构依次包括：从前至后将卷积层、批归一化层、激活函数层封装成卷积模块；从前至后将卷积模块、深度可分离卷积层、批归一化层、激活函数层、卷积层构成线性瓶颈模块。

如图3所示，最后由预设个数和不同超参数的线性瓶颈模块组成倒残差模块。然后正搜索区域样本分支和负搜索样本分支都采用感兴趣区域对齐层下采样特征点信息，最后三个分支都采用全局平均池化层压缩成一维特征向量。其次，主干网络输出的正搜索区域样本分支特征和负搜索样本特征都使用注意力机制模块，帮助网络模型在训练过程中更加关注行人出现的区域。最后通过向量运算计算出相似度，选择与候选检测结果相似度最高的预测跟踪结果，并将对应的目标身份标识号分配给跟踪结果，完成行人多目标跟踪。

如图1-图3所示，Backbone表示主干网络部分、Attention_block表示注意力机制模块、ROI_align表示感兴趣区域对齐层、GAP表示全局平均池化层、C表示卷积层、BN表示批标准化层、PR表示参数修正线性单元层、Line_bottleneck表示线性瓶颈模块、DC表示深度可分离卷积层、Add表示特征相加层。

进一步地，注意力机制模块采用两个连续的卷积层实现，第一个卷积层对特征信息进行整合，第二个卷积层对特征信息的通道数进行改变得到注意力图，然后使用S型激活函数将注意力图归一化到0-1之间，最后将注意图与原特征信息进行融合，加大对模型训练贡献多的特征点信息的权重。

进一步地，指导网络模型训练的损失函数分为验证损失函数、单目标追踪损失函数以及数据对损失函数，如图1所示。验证损失函数采用柔性最大值损失函数，损失函数公式为：

分别表示模板样本预测概率值、正搜索区域样本预测概率值、负搜索区域样本预测概率值；通过最小化验证损失函数增加模型的分类能力。

进一步地，单目标跟踪损失函数是对主干网络部分输出的特征图作卷积得到的热力图进行计算的，计算公式如下：

其中：p为热力图上某个特征点，

P为特征图，

v_p表示特征点p的响应值，

y_p是热力图上特征点对应的真实标签值；

单目标跟踪损失函数用于指导模型准确找到目标所在的区域。

最后，数据对损失函数是指导模型学习能计算出每组数据之间最优的相似度的权重参数，计算公式如下：

是w_zi向量的转置。

综上所述，本发明通过将单目标跟踪网络和关联网络集成在统一的网络模型里，简化了行人多目标跟踪方法的训练过程，去除了冗余的计算开销，并且联合注意力机制增强增强网络对重要特征的学习，提高网络模型的特征表达能力。由实验结果可得，本发明提出的方法使用参数共享的方式训练网络模型的主干部分，获取到更具有区分性的特征信息，并实现了端到端的网络结构，提高行人多目标跟踪模型的性能，提高计算效率，简化训练过程。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种联合注意力机制端到端训练的行人多目标跟踪方法，其特征在于，包括以下步骤：

步骤S203：最后模板样本分支、正搜索区域样本分支、负搜索样本分支都采用全局平均池化层压缩成一维特征向量；

2.根据权利要求1所述的一种联合注意力机制端到端训练的行人多目标跟踪方法，其特征在于，所述步骤S201中模板样本分支、正搜索区域样本分支、负搜索样本分支的主干网络结构依次包括：从前至后将卷积层、批标准化层、激活函数层封装成卷积模块；从前至后将卷积模块、深度可分离卷积层、批标准化层、激活函数层、卷积层构成线性瓶颈模块，最后由预设个数和不同超参数的线性瓶颈模块组成倒残差模块。

3.根据权利要求2所述的一种联合注意力机制端到端训练的行人多目标跟踪方法，其特征在于，所述模板样本分支、正搜索区域样本分支、负搜索样本分支的主干网络结构中包含3个倒残差模块，每个倒残差模块分别包含1、2、3个线性瓶颈模块。

4.根据权利要求2所述的一种联合注意力机制端到端训练的行人多目标跟踪方法，其特征在于，所述激活函数层采用参数修正线性单元层。

5.根据权利要求1所述的一种联合注意力机制端到端训练的行人多目标跟踪方法，其特征在于，所述步骤S202中的注意力机制模块包括两个连续的第一卷积层、第二卷积层，所述第一卷积层对特征信息进行整合，第二卷积层对特征信息的通道数进行改变得到注意力图；然后使用S型激活函数将注意力图归一化到0-1之间，最后将注意图与原特征信息进行融合。

6.根据权利要求1所述的一种联合注意力机制端到端训练的行人多目标跟踪方法，其特征在于，所述步骤S203中通过向量运算计算出相似度，选择与候选检测结果相似度最高的预测跟踪结果，并将对应的目标身份标识号分配给跟踪结果。

7.根据权利要求1所述的一种联合注意力机制端到端训练的行人多目标跟踪方法，其特征在于，所述步骤S300中的验证损失函数采用柔性最大值损失函数，计算公式如下：

通过最小化验证损失函数增加模型的分类能力；

其中：p为热力图上某个特征点，

P为特征图，

v_p表示特征点p的响应值，

y_p是热力图上特征点对应的真实标签值；

是w_zi向量的转置。

8.根据权利要求1所述的一种联合注意力机制端到端训练的行人多目标跟踪方法，其特征在于，所述步骤S400的优化策略采用预热余弦学习率下降法衰减学习率，并利用随机下降法优化损失值。

9.根据权利要求1或8所述的一种联合注意力机制端到端训练的行人多目标跟踪方法，其特征在于，所述步骤S400中的相关超参数是将学习率设为0.001，批处理大小参数设为256，总迭代次数设为100000、L2惩罚权重衰减率设为0.001。