CN115457082A

CN115457082A - 一种基于多特征融合增强的行人多目标跟踪算法

Info

Publication number: CN115457082A
Application number: CN202211067913.6A
Authority: CN
Inventors: 周彦; 陈俊宇; 王冬丽; 杜镇楠
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2022-12-09

Abstract

本发明公开了一种基于多特征融合增强的行人多目标跟踪算法，该算法将特征提取、目标检测、数据关联三大模块集成于一个网络架构。本算法首先通过以连续两帧作为一个链节点作为输入，为了对resnet50骨干网进行加强，将传统卷积替换为Inception卷积，增强特征提取网络的感受野；为了增强对目标形变的适应性，将提取的特征经过加权双向金字塔融合处理，对重要的特征信息进行更多地关注；为了让网络对拥挤场景下的行人目标进行更好地处理，通过加入上下文敏感预测模块到网络中，将更宽和更深的卷积预测模块放置在具有不同步长层的顶部来对信息进行增强；最后回归出相邻帧中的相同目标边界框对并在公共帧中进行相似度对比，使用IOU匹配来进行数据关联，输出跟踪轨迹。本发明算法提高了多目标跟踪的精度，可满足视频监控领域对行人目标跟踪的需求。

Description

一种基于多特征融合增强的行人多目标跟踪算法

技术领域

本发明涉及智能监控技术领域，具体涉及一种多特征融合增强的行人多目标跟踪算法。

背景技术

随着人们生活水平的不断提高，以及人口的增长，导致我国城市监控面临着诸多问题，例如商场人群中可能存在违法分子以及后续的追踪，保证社会的稳定便成为城市监控部门面临的一个重要问题。行人跟踪是解决城市安全的关键基础技术，在真实场景中有着很丰富研究价值，通过检测行人目标，并正后续中跟踪行人，能给城市安全提供重要信息，因此行人多目标跟踪成为城市安全需要解决的关键问题。

过去多目标跟踪发展很快，也取得很大的进步，但是现有的多目标跟踪领域解决方案中，大部分是基于两阶段模型的检测跟踪范式，该范式将多目标跟踪分成两个独立的任务，即检测和关联。首先通过现有的检测器获取每一帧中物体的边界框，然后通过数据关联跨帧链接，形成轨迹，在关联过程中嵌入身份来区分对象。这样的两步过程揭示了两种提高跟踪性能的方法，一种是增强检测，另一种是通过增强数据关联。跟踪过程存在遮挡的影响会导致对象重叠而导致漏检，并增加数据关联的难度。连续视频帧中目标检测很难生成稳定和可靠的结果，上下帧之间的时间联系容易丢失。将两个任务分割开，虽然性能是不错但是实时性很差，并不满足实际场景的使用。在既满足模型简易且要求计算成本低的情况下，基于深度学习的多目标跟踪方法可以有效地满足实时性要求，来提高跟踪性能。

发明内容

有鉴于此，本发明的目的在于避免现有技术中的不足而提供一种多特征融合增强的行人多目标跟踪算法，其提高了行人多目标跟踪的效率，可满足城市监控领域的需求。

本发明的目的通过以下技术方案实现：提供一种多特征融合增强的行人多目标跟踪算法，所述算法包括以下步骤：

S1、对行人视频集的视频帧序列进行图像预处理，进行提取特征信息；

S2、在提取到的特征信息需要进一步特征融合，获得更丰富的目标特征；

S3、使用上下文敏感预测模块，能很好的处理拥挤场景下的行人目标，对信息进行增强。

S4、计算出相邻帧中同一目标的回归框对，并进行IOU相似度匹配，输出跟踪轨迹。

作为进一步的改进，所述的步骤S1中图像预处理包括了提取特征信息的改进，加入了Inception卷积来代替传统卷积，以更灵活的搜索空间来加强感知区域，可提升GNN的搜索能力，使得模型能够具备将有效感受野。

作为进一步的改进，所述步骤改进特征信息提取，采用Inception卷积为：

式中，

和

是滤波器在第i个输出通道上x轴和y轴上从1到d_max的膨胀，C^out为输出通道数。

作为进一步的改进，所述的步骤S2中特征融合包括了加权双向特征金字塔结构。首先，删除只有一个输入的节点，如果一个节点只存在一个输入边界，那么该节点在特征融合的过程并没有很大作用，删除多余的节点可以简化网络；第二，在原始输入节点和输出节点直接增加一条边，在不增加太多计算成本的情况下融合更多有用的特征信息；第三，采用自上而下和自下而上的多尺度融合，多次重复堆叠能有效地学习到不同特征的重要性，实现更高层次的特征融合。

作为进一步的改进，所述的步骤改进特征融合，采用加权双向特征金字塔。多尺度特征层

其中

表示l_i的特征，通过一个聚合不同特征的操作f，并输出新特征

以第6层为例，计算公式为：

式中，

为自上而下的中间特征，

为自下而上的输出特征，设定ε＝0.0001，以避免计算过程中数值不稳定，其余特征均采用类似的操作方式来计算。

作为进一步的改进，所述的步骤S3中包括了上下文敏感预测模块。在拥挤的场景下，行人目标在外观上差异不易区分，通过将更宽和更深的卷积预测模块放置在具有不同步长层的顶部来增加感受野，从而使预测模块获得更好的分类和本地化功能，对信息进行增强。

作为进一步改进，所述的步骤S4中是形成最终的跟踪轨迹，具体表现在相邻帧中的同一目标回归框对进行IOU匹配，相似度高的目标便可确认为同一目标，输出跟踪轨迹。

针对上述研究，本发明提出一种多特征融合增强的行人多目标跟踪算法。首先采用基于Inception卷积的Resnet50作为主干网络来提取特征信息，将提取到的特征信息送到加权双向特征金字塔生成多尺度特征表示，再对多尺度特征进行上下文敏感预测增强操作。为了关联相邻帧中的相同目标，对主干网中生成的相邻多尺度特征图串联在一起，然后将其送入预测网络，回归出边界框对。对所有地面真值边界框上进行K-均值聚类，将每个聚类分配到相应金字塔层，用于后续特定规模的预测。预测网络包含了三个分支，其中有分类分支、身份验证分支和回归框对回归分支。分类分支通过目标检测框预测前景区域置信度分数来判断该区域是目标还是背景，身份验证分支用于判断检测框对是否属于同一目标，回归分支预测相同目标框对的坐标。在这三个分支上使用了联合注意力，分类分支和身份验证分支的预测置信图作为注意力图，这样操作的好处在于可以把两个分支的注意力进行互补以达到更关注有效的信息，然后将注意力图与组合的特征相乘再输入到回归分支，促使回归过程中更关注行人目标来避免回归框对在匹配过程中被无关信息的干扰，一定程度上保证了相同目标检测框对的准确性。本发明算法提高了行人多目标跟踪的准确精度，可应用于日常的场景下进行跟踪行人。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1是一种多特征增强的行人多目标跟踪算法的总体框架图；

图2是Inception卷积的结构图。

图3是加权双向特征金字塔的结构图。

图4是上下文敏感预测模块结构图。

图5是本发明算法在固定镜头下跟踪效果图。

图6是本发明算法在移动镜头下跟踪效果图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施例对本发明作进一步详细的描述，需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

参见图1为算法的总体框架图，本发明实施提供的一种多特征增强的行人多目标跟踪算法，包括以下步骤：

本步骤图像预处理包括了提取特征信息的改进，加入了Inception卷积来代替传统卷积，Inception卷积的结构图参见图2。该卷积以更灵活的搜索空间来加强感知区域，可提升GNN的搜索能力，使得模型能够具备将有效感受野。

具体地，在Inception卷积空间中包含了多种的膨胀模式，每个轴、每个通道和每个卷积层的膨胀都是独立的，以提供一个密集的有效感受野的范围。 Inception卷积对每个通道中的两个轴有独立的膨胀，其形式上表示为：

式中，

和

本步骤的特征融合包括了加权双向特征金字塔结构，加权双向特征金字塔的结构图参见图3。首先，删除只有一个输入的节点，如果一个节点只存在一个输入边界，那么该节点在特征融合的过程并没有很大作用，删除多余的节点可以简化网络；第二，在原始输入节点和输出节点直接增加一条边，在不增加太多计算成本的情况下融合更多有用的特征信息；第三，采用自上而下和自下而上的多尺度融合，多次重复堆叠能有效地学习到不同特征的重要性，实现更高层次的特征融合。

具体地，本步骤改进特征融合，采用加权双向特征金字塔重复三次堆叠。多尺度特征层

其中

以第6层为例，计算公式为：

式中，

为自上而下的中间特征，

本步骤包括了上下文敏感预测模块，模型结构图可参见图4。在拥挤的场景下，行人目标在外观上差异不易区分，通过将更宽和更深的卷积预测模块放置在具有不同步长层的顶部来增加感受野，从而使预测模块获得更好的分类和本地化功能，对信息进行增强。

具体地，在模块中加入了多个3×3和1×1的卷积操作，增加网络的异步长度所对应的接受场。通过让网络输出共同享受更广泛和更深网络的收益，使预测模块变得更深和更宽，可以获得更好的特征用来进行后续子任务。

本步骤包括了形成最终的跟踪轨迹，具体表现在相邻帧中的同一目标回归框对进行IOU匹配，相似度高的目标便可确认为同一目标，输出跟踪轨迹。

具体地，在相邻帧上同一目标的边界框，仅存在微小的变化，通过计算IOU 来获得亲和力矩阵，应用匈牙利算法来实现相同目标检测框的最优匹配，对于成功匹配目标所在轨迹进行更新。

综上所述，本发明一种多特征增强的行人多目标跟踪算法，具有如下优点：

1)在图像预处理步骤中，通过Inception卷积来代替传统卷积，提升了骨干网络的搜索能力，能使网络将有效感受野拟合到视频数据集中。

2)在图像特征融合步骤中，采用高效的加权双向特征金字塔网络，有效地解决了特征信息在传递过程中容易丢失，对目标的识别和定位是不利等问题，实现更高层次的特征融合。

3)在处理拥挤场景下的行人目标步骤中，采用上下文敏感预测模块。考虑到检测的对象的性质和大小，容易受到环境因素等影响，特别是拥挤的场景下，行人目标在外观上差异不易区分，此模块能很好地对信息进行增强，解决上述问题。

上面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，不能理解为对本发明保护范围的限制。

总之，本发明虽然列举了上述优选实施方式，但是应该说明，虽然本领域的技术人员可以进行各种变化和改型，除非这样的变化和改型偏离了本发明的范围，否则都应该包括在本发明的保护范围内。

Claims

1.一种基于多特征融合增强的行人多目标跟踪算法，其特征在于，所述算法包括以下步骤：

2.根据权利要求1所述的多特征融合增强的行人多目标跟踪算法，其特征在于，所述的步骤S1中图像预处理包括了提取特征信息的改进，加入了Inception卷积来代替传统卷积，以更灵活的搜索空间来加强感知区域，可提升GNN的搜索能力，使得模型能够具备将有效感受野。

3.根据权力要求2所述的行人多目标跟踪算法，其特征在于，所述步骤改进特征信息提取，采用Inception卷积为：

式中，

和

4.根据权利要求1所述的多特征融合增强的行人多目标跟踪算法，其特征在于，所述步骤S2中特征融合包括了加权双向特征金字塔结构。首先，删除只有一个输入的节点，如果一个节点只存在一个输入边界，那么该节点在特征融合的过程并没有很大作用，删除多余的节点可以简化网络；第二，在原始输入节点和输出节点直接增加一条边，在不增加太多计算成本的情况下融合更多有用的特征信息；第三，采用自上而下和自下而上的多尺度融合，多次重复堆叠能有效地学习到不同特征的重要性，实现更高层次的特征融合。

5.根据权力要求4所述的行人多目标跟踪算法，其特征在于，所述步骤改进特征融合，采用加权双向特征金字塔。多尺度特征层

其中

以第6层为例，计算公式为：

式中，

为自上而下的中间特征，

6.根据权利要求1所述的多特征融合增强的行人多目标跟踪算法，其特征在于，所述步骤S3中包括了上下文敏感预测模块。在拥挤的场景下，行人目标在外观上差异不易区分，通过将更宽和更深的卷积预测模块放置在具有不同步长层的顶部来增加感受野，从而使预测模块获得更好的分类和本地化功能，对信息进行增强。

7.根据权利要求1所述的多特征融合增强的行人多目标跟踪算法，其特征在于，所述步骤S4中是形成最终的跟踪轨迹，具体表现在相邻帧中的同一目标回归框对进行IOU匹配，相似度高的目标便可确认为同一目标，输出跟踪轨迹。