CN115457082A - 一种基于多特征融合增强的行人多目标跟踪算法 - Google Patents
一种基于多特征融合增强的行人多目标跟踪算法 Download PDFInfo
- Publication number
- CN115457082A CN115457082A CN202211067913.6A CN202211067913A CN115457082A CN 115457082 A CN115457082 A CN 115457082A CN 202211067913 A CN202211067913 A CN 202211067913A CN 115457082 A CN115457082 A CN 115457082A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- feature
- target
- feature fusion
- target tracking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于多特征融合增强的行人多目标跟踪算法,该算法将特征提取、目标检测、数据关联三大模块集成于一个网络架构。本算法首先通过以连续两帧作为一个链节点作为输入,为了对resnet50骨干网进行加强,将传统卷积替换为Inception卷积,增强特征提取网络的感受野;为了增强对目标形变的适应性,将提取的特征经过加权双向金字塔融合处理,对重要的特征信息进行更多地关注;为了让网络对拥挤场景下的行人目标进行更好地处理,通过加入上下文敏感预测模块到网络中,将更宽和更深的卷积预测模块放置在具有不同步长层的顶部来对信息进行增强;最后回归出相邻帧中的相同目标边界框对并在公共帧中进行相似度对比,使用IOU匹配来进行数据关联,输出跟踪轨迹。本发明算法提高了多目标跟踪的精度,可满足视频监控领域对行人目标跟踪的需求。
Description
技术领域
本发明涉及智能监控技术领域,具体涉及一种多特征融合增强的行人多目标跟踪算法。
背景技术
随着人们生活水平的不断提高,以及人口的增长,导致我国城市监控面临着诸多问题,例如商场人群中可能存在违法分子以及后续的追踪,保证社会的稳定便成为城市监控部门面临的一个重要问题。行人跟踪是解决城市安全的关键基础技术,在真实场景中有着很丰富研究价值,通过检测行人目标,并正后续中跟踪行人,能给城市安全提供重要信息,因此行人多目标跟踪成为城市安全需要解决的关键问题。
过去多目标跟踪发展很快,也取得很大的进步,但是现有的多目标跟踪领域解决方案中,大部分是基于两阶段模型的检测跟踪范式,该范式将多目标跟踪分成两个独立的任务,即检测和关联。首先通过现有的检测器获取每一帧中物体的边界框,然后通过数据关联跨帧链接,形成轨迹,在关联过程中嵌入身份来区分对象。这样的两步过程揭示了两种提高跟踪性能的方法,一种是增强检测,另一种是通过增强数据关联。跟踪过程存在遮挡的影响会导致对象重叠而导致漏检,并增加数据关联的难度。连续视频帧中目标检测很难生成稳定和可靠的结果,上下帧之间的时间联系容易丢失。将两个任务分割开,虽然性能是不错但是实时性很差,并不满足实际场景的使用。在既满足模型简易且要求计算成本低的情况下,基于深度学习的多目标跟踪方法可以有效地满足实时性要求,来提高跟踪性能。
发明内容
有鉴于此,本发明的目的在于避免现有技术中的不足而提供一种多特征融合增强的行人多目标跟踪算法,其提高了行人多目标跟踪的效率,可满足城市监控领域的需求。
本发明的目的通过以下技术方案实现:提供一种多特征融合增强的行人多目标跟踪算法,所述算法包括以下步骤:
S1、对行人视频集的视频帧序列进行图像预处理,进行提取特征信息;
S2、在提取到的特征信息需要进一步特征融合,获得更丰富的目标特征;
S3、使用上下文敏感预测模块,能很好的处理拥挤场景下的行人目标,对信息进行增强。
S4、计算出相邻帧中同一目标的回归框对,并进行IOU相似度匹配,输出跟踪轨迹。
作为进一步的改进,所述的步骤S1中图像预处理包括了提取特征信息的改进,加入了Inception卷积来代替传统卷积,以更灵活的搜索空间来加强感知区域,可提升GNN的搜索能力,使得模型能够具备将有效感受野。
作为进一步的改进,所述步骤改进特征信息提取,采用Inception卷积为:
作为进一步的改进,所述的步骤S2中特征融合包括了加权双向特征金字塔结构。首先,删除只有一个输入的节点,如果一个节点只存在一个输入边界,那么该节点在特征融合的过程并没有很大作用,删除多余的节点可以简化网络;第二,在原始输入节点和输出节点直接增加一条边,在不增加太多计算成本的情况下融合更多有用的特征信息;第三,采用自上而下和自下而上的多尺度融合,多次重复堆叠能有效地学习到不同特征的重要性,实现更高层次的特征融合。
作为进一步的改进,所述的步骤S3中包括了上下文敏感预测模块。在拥挤的场景下,行人目标在外观上差异不易区分,通过将更宽和更深的卷积预测模块放置在具有不同步长层的顶部来增加感受野,从而使预测模块获得更好的分类和本地化功能,对信息进行增强。
作为进一步改进,所述的步骤S4中是形成最终的跟踪轨迹,具体表现在相邻帧中的同一目标回归框对进行IOU匹配,相似度高的目标便可确认为同一目标,输出跟踪轨迹。
针对上述研究,本发明提出一种多特征融合增强的行人多目标跟踪算法。首先采用基于Inception卷积的Resnet50作为主干网络来提取特征信息,将提取到的特征信息送到加权双向特征金字塔生成多尺度特征表示,再对多尺度特征进行上下文敏感预测增强操作。为了关联相邻帧中的相同目标,对主干网中生成的相邻多尺度特征图串联在一起,然后将其送入预测网络,回归出边界框对。对所有地面真值边界框上进行K-均值聚类,将每个聚类分配到相应金字塔层,用于后续特定规模的预测。预测网络包含了三个分支,其中有分类分支、身份验证分支和回归框对回归分支。分类分支通过目标检测框预测前景区域置信度分数来判断该区域是目标还是背景,身份验证分支用于判断检测框对是否属于同一目标,回归分支预测相同目标框对的坐标。在这三个分支上使用了联合注意力,分类分支和身份验证分支的预测置信图作为注意力图,这样操作的好处在于可以把两个分支的注意力进行互补以达到更关注有效的信息,然后将注意力图与组合的特征相乘再输入到回归分支,促使回归过程中更关注行人目标来避免回归框对在匹配过程中被无关信息的干扰,一定程度上保证了相同目标检测框对的准确性。本发明算法提高了行人多目标跟踪的准确精度,可应用于日常的场景下进行跟踪行人。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是一种多特征增强的行人多目标跟踪算法的总体框架图;
图2是Inception卷积的结构图。
图3是加权双向特征金字塔的结构图。
图4是上下文敏感预测模块结构图。
图5是本发明算法在固定镜头下跟踪效果图。
图6是本发明算法在移动镜头下跟踪效果图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合附图和具体实施例对本发明作进一步详细的描述,需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
参见图1为算法的总体框架图,本发明实施提供的一种多特征增强的行人多目标跟踪算法,包括以下步骤:
S1、对行人视频集的视频帧序列进行图像预处理,进行提取特征信息;
本步骤图像预处理包括了提取特征信息的改进,加入了Inception卷积来代替传统卷积,Inception卷积的结构图参见图2。该卷积以更灵活的搜索空间来加强感知区域,可提升GNN的搜索能力,使得模型能够具备将有效感受野。
具体地,在Inception卷积空间中包含了多种的膨胀模式,每个轴、每个通道和每个卷积层的膨胀都是独立的,以提供一个密集的有效感受野的范围。 Inception卷积对每个通道中的两个轴有独立的膨胀,其形式上表示为:
S2、在提取到的特征信息需要进一步特征融合,获得更丰富的目标特征;
本步骤的特征融合包括了加权双向特征金字塔结构,加权双向特征金字塔的结构图参见图3。首先,删除只有一个输入的节点,如果一个节点只存在一个输入边界,那么该节点在特征融合的过程并没有很大作用,删除多余的节点可以简化网络;第二,在原始输入节点和输出节点直接增加一条边,在不增加太多计算成本的情况下融合更多有用的特征信息;第三,采用自上而下和自下而上的多尺度融合,多次重复堆叠能有效地学习到不同特征的重要性,实现更高层次的特征融合。
S3、使用上下文敏感预测模块,能很好的处理拥挤场景下的行人目标,对信息进行增强。
本步骤包括了上下文敏感预测模块,模型结构图可参见图4。在拥挤的场景下,行人目标在外观上差异不易区分,通过将更宽和更深的卷积预测模块放置在具有不同步长层的顶部来增加感受野,从而使预测模块获得更好的分类和本地化功能,对信息进行增强。
具体地,在模块中加入了多个3×3和1×1的卷积操作,增加网络的异步长度所对应的接受场。通过让网络输出共同享受更广泛和更深网络的收益,使预测模块变得更深和更宽,可以获得更好的特征用来进行后续子任务。
S4、计算出相邻帧中同一目标的回归框对,并进行IOU相似度匹配,输出跟踪轨迹。
本步骤包括了形成最终的跟踪轨迹,具体表现在相邻帧中的同一目标回归框对进行IOU匹配,相似度高的目标便可确认为同一目标,输出跟踪轨迹。
具体地,在相邻帧上同一目标的边界框,仅存在微小的变化,通过计算IOU 来获得亲和力矩阵,应用匈牙利算法来实现相同目标检测框的最优匹配,对于成功匹配目标所在轨迹进行更新。
综上所述,本发明一种多特征增强的行人多目标跟踪算法,具有如下优点:
1)在图像预处理步骤中,通过Inception卷积来代替传统卷积,提升了骨干网络的搜索能力,能使网络将有效感受野拟合到视频数据集中。
2)在图像特征融合步骤中,采用高效的加权双向特征金字塔网络,有效地解决了特征信息在传递过程中容易丢失,对目标的识别和定位是不利等问题,实现更高层次的特征融合。
3)在处理拥挤场景下的行人目标步骤中,采用上下文敏感预测模块。考虑到检测的对象的性质和大小,容易受到环境因素等影响,特别是拥挤的场景下,行人目标在外观上差异不易区分,此模块能很好地对信息进行增强,解决上述问题。
上面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,不能理解为对本发明保护范围的限制。
总之,本发明虽然列举了上述优选实施方式,但是应该说明,虽然本领域的技术人员可以进行各种变化和改型,除非这样的变化和改型偏离了本发明的范围,否则都应该包括在本发明的保护范围内。
Claims (7)
1.一种基于多特征融合增强的行人多目标跟踪算法,其特征在于,所述算法包括以下步骤:
S1、对行人视频集的视频帧序列进行图像预处理,进行提取特征信息;
S2、在提取到的特征信息需要进一步特征融合,获得更丰富的目标特征;
S3、使用上下文敏感预测模块,能很好的处理拥挤场景下的行人目标,对信息进行增强。
S4、计算出相邻帧中同一目标的回归框对,并进行IOU相似度匹配,输出跟踪轨迹。
2.根据权利要求1所述的多特征融合增强的行人多目标跟踪算法,其特征在于,所述的步骤S1中图像预处理包括了提取特征信息的改进,加入了Inception卷积来代替传统卷积,以更灵活的搜索空间来加强感知区域,可提升GNN的搜索能力,使得模型能够具备将有效感受野。
4.根据权利要求1所述的多特征融合增强的行人多目标跟踪算法,其特征在于,所述步骤S2中特征融合包括了加权双向特征金字塔结构。首先,删除只有一个输入的节点,如果一个节点只存在一个输入边界,那么该节点在特征融合的过程并没有很大作用,删除多余的节点可以简化网络;第二,在原始输入节点和输出节点直接增加一条边,在不增加太多计算成本的情况下融合更多有用的特征信息;第三,采用自上而下和自下而上的多尺度融合,多次重复堆叠能有效地学习到不同特征的重要性,实现更高层次的特征融合。
6.根据权利要求1所述的多特征融合增强的行人多目标跟踪算法,其特征在于,所述步骤S3中包括了上下文敏感预测模块。在拥挤的场景下,行人目标在外观上差异不易区分,通过将更宽和更深的卷积预测模块放置在具有不同步长层的顶部来增加感受野,从而使预测模块获得更好的分类和本地化功能,对信息进行增强。
7.根据权利要求1所述的多特征融合增强的行人多目标跟踪算法,其特征在于,所述步骤S4中是形成最终的跟踪轨迹,具体表现在相邻帧中的同一目标回归框对进行IOU匹配,相似度高的目标便可确认为同一目标,输出跟踪轨迹。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211067913.6A CN115457082A (zh) | 2022-09-01 | 2022-09-01 | 一种基于多特征融合增强的行人多目标跟踪算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211067913.6A CN115457082A (zh) | 2022-09-01 | 2022-09-01 | 一种基于多特征融合增强的行人多目标跟踪算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115457082A true CN115457082A (zh) | 2022-12-09 |
Family
ID=84301808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211067913.6A Pending CN115457082A (zh) | 2022-09-01 | 2022-09-01 | 一种基于多特征融合增强的行人多目标跟踪算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115457082A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115620242A (zh) * | 2022-12-19 | 2023-01-17 | 城云科技(中国)有限公司 | 多行人目标重识别方法、装置及应用 |
CN117853759A (zh) * | 2024-03-08 | 2024-04-09 | 山东海润数聚科技有限公司 | 一种多目标跟踪方法、***、设备和存储介质 |
-
2022
- 2022-09-01 CN CN202211067913.6A patent/CN115457082A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115620242A (zh) * | 2022-12-19 | 2023-01-17 | 城云科技(中国)有限公司 | 多行人目标重识别方法、装置及应用 |
CN117853759A (zh) * | 2024-03-08 | 2024-04-09 | 山东海润数聚科技有限公司 | 一种多目标跟踪方法、***、设备和存储介质 |
CN117853759B (zh) * | 2024-03-08 | 2024-05-10 | 山东海润数聚科技有限公司 | 一种多目标跟踪方法、***、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dai et al. | TIRNet: Object detection in thermal infrared images for autonomous driving | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
Yuan et al. | Anomaly detection in traffic scenes via spatial-aware motion reconstruction | |
CN112560656B (zh) | 一种联合注意力机制端到端训练的行人多目标跟踪方法 | |
CN110288627B (zh) | 一种基于深度学习和数据关联的在线多目标跟踪方法 | |
CN115457082A (zh) | 一种基于多特征融合增强的行人多目标跟踪算法 | |
CN105069434B (zh) | 一种视频中人体动作行为识别方法 | |
CN111862145B (zh) | 一种基于多尺度行人检测的目标跟踪方法 | |
Zhang et al. | Coarse-to-fine object detection in unmanned aerial vehicle imagery using lightweight convolutional neural network and deep motion saliency | |
CN113792606B (zh) | 基于多目标追踪的低成本自监督行人重识别模型构建方法 | |
CN113808166B (zh) | 基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法 | |
CN115830075A (zh) | 一种面向行人多目标跟踪的分级关联匹配方法 | |
CN110619268A (zh) | 基于时空分析与深度特征的行人再识别方法及装置 | |
CN113920472A (zh) | 一种基于注意力机制的无监督目标重识别方法及*** | |
CN105957103B (zh) | 一种基于视觉的运动特征提取方法 | |
CN114511878A (zh) | 一种基于多模态关系聚合的可见光红外行人重识别方法 | |
CN111291785A (zh) | 目标检测的方法、装置、设备及存储介质 | |
Ji et al. | A hybrid model of convolutional neural networks and deep regression forests for crowd counting | |
Kim et al. | Novel on-road vehicle detection system using multi-stage convolutional neural network | |
Duan | [Retracted] Deep Learning‐Based Multitarget Motion Shadow Rejection and Accurate Tracking for Sports Video | |
CN115731517B (zh) | 一种基于Crowd-RetinaNet网络的拥挤人群检测方法 | |
CN116721398A (zh) | 一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法 | |
Zhang et al. | Bus passenger flow statistics algorithm based on deep learning | |
CN116245913A (zh) | 基于层次化上下文引导的多目标跟踪方法 | |
CN113379794B (zh) | 基于注意力-关键点预测模型的单目标跟踪***及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |