CN117372900A - 一种基于无人机的交通路口旋转多目标跟踪方法及*** - Google Patents

一种基于无人机的交通路口旋转多目标跟踪方法及*** Download PDF

Info

Publication number
CN117372900A
CN117372900A CN202311279151.0A CN202311279151A CN117372900A CN 117372900 A CN117372900 A CN 117372900A CN 202311279151 A CN202311279151 A CN 202311279151A CN 117372900 A CN117372900 A CN 117372900A
Authority
CN
China
Prior art keywords
frame
target
detection
tracking
target tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311279151.0A
Other languages
English (en)
Inventor
刘春生
苗朝阳
常发亮
黄一鸣
郝鹏辉
周君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202311279151.0A priority Critical patent/CN117372900A/zh
Publication of CN117372900A publication Critical patent/CN117372900A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于无人机的交通路口旋转多目标跟踪方法及***,输入交通视频流,逐帧进行旋转目标检测,训练旋转注意力相似性学习模块,提取目标对象的特征;计算第t与第t‑1帧目标跟踪对象的特征之间的余弦距离;计算第t帧目标检测对象的检测框与第t帧目标跟踪对象的预测框之间的欧式距离和面积交并比;根据欧式距离划分邻近检测框和疏远检测框;针对邻近检测框,将第一代价矩阵输入到匈牙利算法中,得到第一次跟踪轨迹;针对疏远检测框和第一次匹配失败的目标跟踪对象,将第二代价矩阵输入到匈牙利算法中,得到第二次跟踪轨迹;将第一次和第二次跟踪轨迹合并,得到第t帧图像的目标跟踪对象的跟踪轨迹,更新目标跟踪对象列表。

Description

一种基于无人机的交通路口旋转多目标跟踪方法及***
技术领域
本发明涉及复杂交通场景下的多目标跟踪技术领域,特别是涉及一种基于无人机的交通路口旋转多目标跟踪方法及***。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
基于视觉的多目标跟踪在智能交通***中发挥着越来越重要的作用,而无人机凭借机动性高、灵活性强的优势,已经广泛应用于智能交通监控***。无人机航拍视频中包含丰富的交通信息,对航拍视频进行处理以自动提取有效信息具有重要意义。基于无人机航拍视频的多目标跟踪是交通监控***的重要组成部分,对交通管理、安防监控、自动驾驶等起到了重要作用。
基于无人机的交通路口旋转多目标跟踪具有一些特殊的挑战。
1)交通路口场景中交通参与者存在大量转弯行为,无人机视角下车辆的朝向和行人的姿态发生较大的变化。
2)无人机可以在三维空间中运动并跟踪目标,而交通路口场景中目标密集,车辆、行人目标的特征较少,给目标检测和ReID带来了困难。
3)无人机视角下,交通路口场景中的树木、交通信号灯、高架桥等会对车辆和行人造成长时间遮挡,给多目标跟踪带来挑战。
不管实施平台如何,交通参与者多目标跟踪的核心思想是通过目标检测和ReID来有效关联相邻帧中的目标。BoT-SORT算法中提出基于相机运动的补偿策略,有效缓解了相机运动的问题;SMILEtrack算法中提出了基于Transformer的相似性学***检测框的多目标跟踪算法已经比较成熟,但在无人机航拍交通路口场景下,由于车辆和行人目标密集,水平目标检测框之间存在着大量的冗余和重叠,而且在应对无人机航拍交通路口多目标跟踪特殊挑战时,传统的多目标跟踪方法在长时间跟踪时容易失败,通常无法获得良好的性能。
发明内容
为了解决现有技术的不足,本发明提供了一种基于无人机的交通路口旋转多目标跟踪方法及***,解决了现有技术在无人机航拍交通路口场景下长时间跟踪性能较差的问题,提高了车辆、行人等交通参与者的跟踪准确性。
一方面,提供了一种基于无人机的交通路口旋转多目标跟踪方法,包括:
将交通视频流逐帧输入旋转目标检测器,将每一帧图像的所有交通参与者均视为目标检测对象,得到每一帧图像每一个目标检测对象的旋转检测框;对每一个检测框中的目标检测对象图像进行旋转对齐操作,将旋转对齐操作后的目标检测对象输入到训练后的旋转注意力相似性学习网络中,提取出目标检测对象的特征;将第t-1帧目标跟踪对象的历史轨迹输入到卡尔曼滤波算法中,得到第t帧图像的目标跟踪对象的预测框;
计算第t帧目标检测对象的特征与第t-1帧目标跟踪对象的特征之间的余弦距离;计算第t帧图像的目标检测对象的检测框与第t帧图像的目标跟踪对象的预测框之间的欧式距离;计算第t帧图像的目标检测对象的检测框与第t帧图像的目标跟踪对象的预测框之间的面积交并比;
当欧式距离小于设定阈值,则将第t帧图像的目标检测对象的检测框认定为邻近检测框;当欧式距离大于设定阈值,则将第t帧图像的目标检测对象的检测框认定为疏远检测框;
根据所述欧式距离和所述面积交并比,确定第一代价矩阵;针对邻近检测框,将第一代价矩阵输入到匈牙利算法中,得到第一次跟踪轨迹;根据所述面积交并比和所述余弦距离,确定第二代价矩阵;针对疏远检测框和第一次匹配失败的目标跟踪对象,将第二代价矩阵输入到匈牙利算法中,得到第二次跟踪轨迹;将第一次跟踪轨迹和第二次跟踪轨迹合并,得到第t帧图像的目标跟踪对象的跟踪轨迹,更新目标跟踪对象列表。
另一方面,提供了一种基于无人机的交通路口旋转多目标跟踪***,包括:
检测框和预测框获取模块,其被配置为:将交通视频流逐帧输入旋转目标检测器,将每一帧图像的所有交通参与者均视为目标检测对象,得到每一帧图像目标检测对象的检测框;对每一个检测框中的目标检测对象图像进行旋转对齐,将对齐后的目标检测对象输入到训练后的旋转注意力相似性学习网络中,提取出目标检测对象的特征;将第t-1帧目标跟踪对象的历史轨迹输入到卡尔曼滤波算法中,得到第t帧目标跟踪对象的预测框;
计算模块,其被配置为:计算第t帧目标检测对象的特征与第t-1帧目标跟踪对象的特征之间的余弦距离;计算第t帧图像的目标检测对象的检测框与第t帧图像的目标跟踪对象的预测框之间的欧式距离;计算第t帧图像的目标检测对象的检测框与第t帧图像的目标跟踪对象的预测框之间的面积交并比;
比较模块,其被配置为:当欧式距离小于设定阈值,则将第t帧图像的目标检测对象的检测框认定为邻近检测框;当欧式距离大于设定阈值,则将第t帧图像的目标检测对象的检测框认定为疏远检测框;
输出模块,其被配置为:根据所述欧式距离和所述面积交并比,确定第一代价矩阵;针对邻近检测框,将第一代价矩阵输入到匈牙利算法中,得到第一次跟踪轨迹;根据所述面积交并比和所述余弦距离,确定第二代价矩阵;针对疏远检测框和第一次匹配失败的目标跟踪对象,将第二代价矩阵输入到匈牙利算法中,得到第二次跟踪轨迹;将第一次跟踪轨迹和第二次跟踪轨迹合并,得到第t帧图像的目标跟踪对象的跟踪轨迹,更新目标跟踪对象列表。
再一方面,还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
再一方面,还提供了一种存储介质,非暂时性存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
再一方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
上述技术方案中的一个技术方案具有如下优点或有益效果:
为了减小交通参与者频繁转弯及无人机拍摄动作的影响,设计了一个姿态矫正模块来统一交通参与者姿态,以减少车辆朝向不同、行人姿态不同的影响,并采用更精确的旋转检测框表示跟踪结果。
为了应对交通路口中目标密集且目标特征少的问题,设计了基于旋转自注意力机制的相似性学习模块(RA-SLM),有效提高了交通路口场景中车辆和行人的重识别准确率。
为了缓解复杂交通场景下的长时间遮挡问题,提出了基于欧氏距离、面积交并比和余弦距离的三元二次级联匹配策略(TCM),提高了交通路口场景中车辆和行人的长时间跟踪性能。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为实施例一的基于旋转自注意力和三元二次级联匹配的无人机多目标跟踪网络;
图2为实施例一的目标检测框姿态校正图;
图3为实施例一的基于旋转自注意力机制的相似性学习模块RA--SLM网络整体结构;
图4为实施例一的CSA特征提取模块网络结构图;
图5为实施例一的三元二次级联匹配流程图;
图6(a)和图6(b)为实施例一的三元二次级联匹配策略TCM中的两次级联匹配示意图;
图7为实施例一的两次匹配流程图;
图8(a)和图8(b)为实施例一的多目标跟踪结果展示图;
其中,①表示第一目标跟踪对象;②表示第二目标跟踪对象。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
如图1所示,本发明提出了一种新颖的基于无人机的交通路口旋转多目标跟踪结构,该结构具有精确的包围框和更强的鲁棒性。
首先,为了减小交通参与者转弯时跟踪丢失及无人机拍摄动作的影响,设计了一个基于旋转目标检测结果的姿态矫正模块来统一车辆姿态,并提出了一种基于旋转自注意力的相似性学习模块(RA--SLM,Rotational Attention Similarity Learning Module)来提取目标的外观特征。
其次,为了缓解复杂交通场景下的长时间遮挡问题,提出了一种基于欧氏距离、面积交并比和余弦距离的三元二次级联匹配策略(TCM,Ternary Cascade Matching)。先将目标旋转检测框按照与估计状态的欧氏距离,分为邻近检测框和疏远检测框,然后根据融合后的代价矩阵进行两次级联匹配。
实施例一
本实施例提供了一种基于无人机的交通路口旋转多目标跟踪方法;
如图7所示,一种基于无人机的交通路口旋转多目标跟踪方法,包括:
S101:将交通视频流逐帧输入旋转目标检测器,将每一帧图像的所有交通参与者均视为目标检测对象,得到每一帧图像每一个目标检测对象的旋转检测框;对每一个检测框中的目标检测对象图像进行旋转对齐操作,将旋转对齐操作后的目标检测对象输入到训练后的旋转注意力相似性学习网络中,提取出目标检测对象的特征;将第t-1帧目标跟踪对象的历史轨迹输入到卡尔曼滤波算法中,得到第t帧图像的目标跟踪对象的预测框;
S102:计算第t帧目标检测对象的特征与第t-1帧目标跟踪对象的特征之间的余弦距离;计算第t帧图像的目标检测对象的检测框与第t帧图像的目标跟踪对象的预测框之间的欧式距离;计算第t帧图像的目标检测对象的检测框与第t帧图像的目标跟踪对象的预测框之间的面积交并比;
S103:当欧式距离小于设定阈值,则将第t帧图像的目标检测对象的检测框认定为邻近检测框;当欧式距离大于设定阈值,则将第t帧图像的目标检测对象的检测框认定为疏远检测框;
S104:根据所述欧式距离和所述面积交并比,确定第一代价矩阵;针对邻近检测框,将第一代价矩阵输入到匈牙利算法中,得到第一次跟踪轨迹;根据所述面积交并比和所述余弦距离,确定第二代价矩阵;针对疏远检测框和第一次匹配失败的目标跟踪对象,将第二代价矩阵输入到匈牙利算法中,得到第二次跟踪轨迹;将第一次跟踪轨迹和第二次跟踪轨迹合并,得到第t帧图像的目标跟踪对象的跟踪轨迹,更新目标跟踪对象列表。
应理解地,所述目标检测对象,是指每一帧图像中所有交通参与者的检测框中的图像;所述目标跟踪对象,是指目标跟踪对象列表中的对象。
进一步地,如图2所示,S101:将交通视频流逐帧输入旋转目标检测器,将每一帧图像的所有交通参与者均视为目标检测对象,得到每一帧图像目标检测对象的旋转检测框,包括:
对交通视频流中的多个目标进行旋转检测框识别,每个目标识别出一个旋转检测框,每一帧图像均识别出若干个旋转检测框。
示例性地,如果某一帧图像中有P个交通参与者,则会对应出现P个旋转检测框。
在本发明实施例中,旋转检测框的识别采用开源的旋转目标检测模型GlidingVertex来实现。
进一步地,所述S101:交通视频流,是通过无人机进行采集的。
进一步地,所述S101:对每一个检测框中的目标检测对象图像进行旋转对齐,具体包括:
将每个旋转检测框进行裁剪,将裁剪出来的每个检测框进行姿态矫正,使检测框的长边平行或垂直于水平面。
进一步地,如图3所示,所述S101:将对齐后的目标检测对象输入到训练后的旋转注意力相似性学习网络中,提取出目标检测对象的特征,训练后的旋转注意力相似性学习网络,用于:
首先将第t帧中对齐后的目标检测对象resize到同一大小32*64,将其输入经过旋转卷积核搭建的OR-ResNet1 8,得到特征图,将特征提取网络输出的特征图,按照通道拆分成若干切片;
对每一个切片,加上位置编码,得到具有位置编码的特征图序列;
将具有位置编码的特征图序列输入到注意力机制模块中;
将注意力机制模块的输出值进行串联拼接,得到拼接特征;
将拼接特征输入到全连接层中,得到第t帧图像的当前目标对象的特征向量;得到目标检测对象的特征。
同理,对第t帧图像的所有目标对象均进行特征向量提取,得到第t帧图像的所有目标对象对应的特征向量。
进一步地,所述旋转注意力相似性学习网络,包括:
将两张不同的图像同时输入,首先它们会经过一个共享权重的CSA特征提取模块,并使用全连接层对特征进行聚合,得到长度为1024特征向量,然后计算出两张图像的余弦相似度,余弦距离越小,目标特征关联度越高。
进一步地,如图4所示,所述CSA特征提取模块,包括:
依次连接的由旋转卷积核搭建的OR-ResNet18、通道拆分模块、位置编码模块、自注意力机制模块、串联拼接模块和全连接层;
OR-ResNet18,用于实现特征图的提取;
通道拆分模块,用于实现将所提取的特征图,按照通道拆分成若干切片;
位置编码模块,用于实现对每一个切片,加上位置编码,得到具有位置编码的特征图序列;
自注意力机制模块,用于实现对具有位置编码的特征图序列进行处理;
串联拼接模块,用于实现将注意力机制模块的输出值进行串联拼接,得到拼接特征;
全连接层,用于对拼接特征进行处理,得到第t帧图像的当前目标对象的特征向量;得到目标检测对象的特征。
进一步地,经过旋转卷积核搭建的OR-ResNet18,是对原有ResNet18的7*7卷积核替换为3*3卷积核,然后将卷积核全部替换为旋转卷积核。
进一步地,由旋转卷积核搭建的OR-ResNet18,是对原有ResNet18的7*7卷积核替换为3*3卷积核,以减少参数量,提升网络的速度;然后将卷积核替换为旋转卷积核,以适应旋转对齐后多朝向的目标图像ReID。可学习的通道数量与ResNet-18中通道数量相比缩小了4倍,参数量也缩小了4倍,本发明将改进后的ResNet18称为OR-ResNet18,OR-ResNet18的整体网络结构如表1所示。在实际应用中,可根据数据集的复杂程度增大卷积层通道数量以获取更好的特征提取效果,使不同姿态的同一目标具有更高的相似度。
表1 OR-ResNet-18网络结构表
为了充分融合多朝向的同一目标的关系,在经过OR-ResNet18最后一层后,将512通道的特征图按照旋转卷积核的顺序拆分为4个128通道的Patch,然后对于每一个切片,分别加上Position Embedding,每个Patch可以表示为以下方程:
Si=Si+Ep,i=A,B,C,D,Ep=1,2,3,4#
最后应用得到具有位置信息的特征图序列S={SA~SD},作为Attention Block的输入。
Transformer通过将queries打包到矩阵Q中来计算注意力函数,还将keys和values打包到矩阵K和V中。注意力的计算表示为
其中dk是关键向量的维度。为了生成注意力块的queries、keys和values,本发明为每个切片patch应用全连接层。每个patch在通过Q-K-V注意块之后具有输出Si。本发明将通过Q-K-V注意力块的每个patch的输出S={SA~SD}表示为以下等式:
SA=SA(QS1,KS1,VS1)+CA(QS1,KS2,VS2)+CA(QS1,KS3,VS3)+CA(QS1,KS4,VS4)
SB=SA(QS2,KS2,VS2)+CA(QS2,KS1,VS1)+CA(QS2,KS3,VS3)+CA(QS2,KS4,VS4)
SC=SA(QS3,KS3,VS3)+CA(QS3,KS1,VS1)+CA(QS3,KS2,VS2)+CA(QS3,KS4,VS4)
SD=SA(QS4,KS4,VS4)+CA(QS4,KS1,VS1)+CA(QS4,KS2,VS2)+CA(QS4,KS3,VS3)
其中QSi表示Si的query矩阵,KSi表示Si的key矩阵,VSi表示Si的value矩阵,SA表示自注意力self-attention,CA表示交叉注意力cross-attention。SA、SB、SC、SD分别表示四个切片的特征向量。
图像输入OR-ResNet18网络中得到特征图,将特征图按照通道顺序拆分成4个Patch。特征图Patch经过Attention block进行注意力计算,并做Concate输出,得到图像的注意力特征。
进一步地,所述训练后的旋转注意力相似性学习网络,训练过程包括:
构建训练集,所述训练集为由目标跟踪对象图像组成的ReID数据集;
将训练集,输入到旋转注意力相似性学习网络中,对网络进行训练,当网络的损失函数值不再下降时,或迭代次数超过设定次数时,停止训练,得到训练后的旋转注意力相似性学习网络。
进一步地,S102:计算第t帧目标检测对象的特征与第t-1帧目标跟踪对象的特征之间的余弦距离,具体包括:
其中,Ma(A,B)表示第t帧图像中目标检测对象A的特征向量与目标跟踪对象B的特征向量之间的余弦距离,Ai表示目标检测对象A的特征向量第i维度,Bi表示目标跟踪对象B特征向量第i维度,n表示特征向量维度。
应理解地,余弦距离是一种相似度度量方式,可以用来衡量不同个体在维度之间的差异。本发明在匹配阶段生成对应车辆或行人目标的特征向量,并将其存储在跟踪目标的位置信息之后。
进一步地,S102:计算第t帧图像的目标检测对象的检测框与第t帧图像的目标跟踪对象的预测框之间的欧式距离:
其中,Ms(x,y)表示欧式距离,n表示向量维度,xi指的是目标检测对象x当前观测坐标的第i维度,yi指的是目标跟踪对象y当前观测坐标的第i维度。
欧式距离越小,则对应的跟踪目标的预测框与检测框的运动差异越小。
应理解地,欧式距离是常见的距离度量,用于衡量个体在空间上存在的距离,距离越远说明个体间的差异越大。本发明使用欧式距离计算跟踪目标的预测框与检测框之间的距离。
进一步地,S102:计算第t帧图像的目标检测对象的检测框与第t帧图像的目标跟踪对象的预测框之间的面积交并比:
Mm(i,j)=1-RIOU(i,j)*Score
其中,RIOU(i,j)表示预测框和检测框之间的面积交并比,Mm(i,j)表示面积交并比代价,Score表示检测框置信度,Area(I)表示预测框和检测框的重叠面积,Area(Ri)表示预测框未重叠面积,Area(Rj)表示检测框未重叠面积。
图5中展示了级联匹配策略的示意图,首先确定第t帧中的目标检测框Rbbox,然后根据其与预测轨迹的欧氏距离,将其划分为Nearby Rbbox和Distant Rbbox两部分,然后将目标检测对象与目标跟踪对象根据代价矩阵先后进行两次级联匹配。
进一步地,所述S103:当欧式距离小于设定阈值,则将第t帧图像的目标检测对象的检测框认定为邻近检测框;当欧式距离大于设定阈值,则将第t帧图像的目标检测对象的检测框认定为疏远检测框,其中设定阈值,具体是指像素距离25。
如图6(a)和图6(b)中,虚线框代表预测框,实线框代表检测框。图6(a)中,第一目标跟踪对象①的预测框有邻近检测框,进行第一次级联匹配,首先在临近检测框内进行匹配,成功匹配到第一检测框;图6(b)中,第二目标跟踪对象②的预测框无邻近检测框,直接进行第二次级联匹配,在疏远检测框内成功匹配到第二检测框。
进一步地,所述S104还包括:
Stage1:计算得到第一代价矩阵Cnearby;利用匈牙利算法结合代价矩阵Cnearby完成先行匹配。邻近检测框Dnearby中未能完成匹配的目标和TL中未能完成匹配的轨迹放入第一次未匹配成功的检测框Dremain和第一次未匹配成功的跟踪对象TLremain中。
Stage2:第二阶段首先计算得到疏远检测框Ddistant和第一次未匹配成功的跟踪对象TLremain的第二代价矩阵Cdistant,然后进行第二次级联匹配。
接下来与第一阶段相同,疏远检测框Ddistant中未能完成匹配的目标和TLremain中未能完成匹配的轨迹放入第二次未匹配成功的检测框Drremain和第二次未匹配成功的跟踪对象TLrremain中。
在完成目标关联阶段后,本发明设置了一个阈值H=0.7来初始化新的轨迹。Dremain和Drremain中置信度高于0.7的未匹配检测框可以初始化新的轨迹,并将TLrremain中连续超过100帧未匹配成功的跟踪对象删除,最终得到旋转包围框表示的跟踪结果。
进一步地,所述S104还包括:
如果第一次匹配成功,则将第t帧的目标检测对象的邻近检测框与第t-1帧的目标跟踪对象连线,得到第一次跟踪轨迹;如果第一次匹配失败,则将置信度高于设定阈值的邻近检测框认为是新增候选跟踪对象,将新增候选跟踪对象存储到暂存表中;
如果第二次匹配成功,则将第t帧的目标检测对象的疏远检测框与第t-1帧的目标跟踪对象连线,得到第二次跟踪轨迹;如果第二次匹配失败,则将置信度高于设定阈值的疏远检测框认为是新增候选跟踪对象,将新增候选跟踪对象存储到暂存表中。
进一步地,S104:根据所述欧式距离和所述面积交并比,确定第一代价矩阵;其中,第一代价矩阵,计算过程为:
Cnearby=Mm+Ms
其中,Ms表示欧式距离矩阵,Mm表示面积交并比代价矩阵,α表示平衡系数1/25,θseu表示欧氏距离阈值25,θiou表示面积交并比阈值0.5,Cnearby表示第一代价矩阵。
进一步地,所述根据所述面积交并比和所述余弦距离,确定第二代价矩阵,其中,所述第二代价矩阵,计算过程为:
取Ma(i,j)和Mm(i,j)中较小者组成第二代价矩阵:
Cdistant=min{Ma,Mm}
其中,Mm表示面积交并比代价矩阵,Ma表示余弦距离矩阵。图8(a)和图8(b)为实施例一的多目标跟踪结果展示图。
进一步地,所述S104:更新目标跟踪对象列表,具体包括:
对于首帧图像,所有的目标检测对象均被视为候选跟踪对象,将候选跟踪对象存储到暂存表中,判断暂存表中的候选跟踪对象在后续连续两帧中是否再次出现,如果再次出现,则将候选跟踪对象认定为目标跟踪对象,将目标跟踪对象的特征以及编号均存储到目标跟踪对象列表中;否则,将候选跟踪对象从暂存表中删除;
对于非首帧图像,判断每一个目标检测对象的跟踪轨迹是否已经匹配成功,如果是,则表示当前目标检测对象已经是目标跟踪对象,并在目标跟踪列表中添加当前目标的检测框及其特征;如果不是,则表示当前目标检测对象为新增候选跟踪对象;将新增候选跟踪对象存储到暂存表中,判断暂存表中的新增候选跟踪对象在后续连续两帧中是否再次出现,如果再次出现,则将新增候选跟踪对象认定为目标跟踪对象,将目标跟踪对象的历史轨迹、特征以及编号均存储到目标跟踪对象列表中;如果没有再次出现,则将新增候选跟踪对象从暂存表中删除;
其中,目标跟踪对象列表中的每一个目标跟踪对象,如果连续100帧均未出现,则将其从目标跟踪对象列表中删除。
应理解地,所述判断暂存表中的候选跟踪对象在后续连续两帧中是否再次出现,是根据候选跟踪对象是否与目标检测对象匹配成功判断,如果候选跟踪对象在连续三帧图像内匹配成功,则表示候选跟踪对象在后续连续两帧中再次出现。
实施例二
本实施例提供了一种基于无人机的交通路口旋转多目标跟踪***,包括:
检测框和预测框获取模块,其被配置为:将交通视频流逐帧输入旋转目标检测器,将每一帧图像的所有交通参与者均视为目标检测对象,得到每一帧图像目标检测对象的检测框;对每一个检测框中的目标检测对象图像进行旋转对齐,将对齐后的目标检测对象输入到训练后的旋转注意力相似性学习网络中,提取出目标检测对象的特征;将第t-1帧目标跟踪对象的历史轨迹输入到卡尔曼滤波算法中,得到第t帧目标跟踪对象的预测框;
计算模块,其被配置为:计算第t帧目标检测对象的特征与第t-1帧目标跟踪对象的特征之间的余弦距离;计算第t帧图像的目标检测对象的检测框与第t帧图像的目标跟踪对象的预测框之间的欧式距离;计算第t帧图像的目标检测对象的检测框与第t帧图像的目标跟踪对象的预测框之间的面积交并比;
比较模块,其被配置为:当欧式距离小于设定阈值,则将第t帧图像的目标检测对象的检测框认定为邻近检测框;当欧式距离大于设定阈值,则将第t帧图像的目标检测对象的检测框认定为疏远检测框;
输出模块,其被配置为:根据所述欧式距离和所述面积交并比,确定第一代价矩阵;针对邻近检测框,将第一代价矩阵输入到匈牙利算法中,得到第一次跟踪轨迹;根据所述面积交并比和所述余弦距离,确定第二代价矩阵;针对疏远检测框和第一次匹配失败的目标跟踪对象,将第二代价矩阵输入到匈牙利算法中,得到第二次跟踪轨迹;将第一次跟踪轨迹和第二次跟踪轨迹合并,得到第t帧图像的目标跟踪对象的跟踪轨迹,更新目标跟踪对象列表。
此处需要说明的是,上述检测框和预测框获取模块、计算模块、比较模块、和输出模块对应于实施例一中的步骤S101至S104,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的***,可以通过其他的方式实现。例如以上所描述的***实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个***,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于无人机的交通路口旋转多目标跟踪方法,其特征是,包括:
计算第t帧目标检测对象的特征与第t-1帧目标跟踪对象的特征之间的余弦距离;计算第t帧图像的目标检测对象的检测框与第t帧图像的目标跟踪对象的预测框之间的欧式距离;计算第t帧图像的目标检测对象的检测框与第t帧图像的目标跟踪对象的预测框之间的面积交并比;
当欧式距离小于设定阈值,则将第t帧图像的目标检测对象的检测框认定为邻近检测框;当欧式距离大于设定阈值,则将第t帧图像的目标检测对象的检测框认定为疏远检测框;
根据所述欧式距离和所述面积交并比,确定第一代价矩阵;针对邻近检测框,将第一代价矩阵输入到匈牙利算法中,得到第一次跟踪轨迹;根据所述面积交并比和所述余弦距离,确定第二代价矩阵;针对疏远检测框和第一次匹配失败的目标跟踪对象,将第二代价矩阵输入到匈牙利算法中,得到第二次跟踪轨迹;将第一次跟踪轨迹和第二次跟踪轨迹合并,得到第t帧图像的目标跟踪对象的跟踪轨迹,更新目标跟踪对象列表。
2.如权利要求1所述一种基于无人机的交通路口旋转多目标跟踪方法,其特征是,计算第t帧目标检测对象的特征与第t-1帧目标跟踪对象的特征之间的余弦距离之前,还包括:
将交通视频流逐帧输入旋转目标检测器,将每一帧图像的所有交通参与者均视为目标检测对象,得到每一帧图像目标检测对象的旋转检测框;对每一个检测框中的目标检测对象图像进行旋转对齐,将对齐后的目标检测对象输入到训练后的旋转注意力相似性学习网络中,提取出目标检测对象的特征;将第t-1帧目标跟踪对象的历史轨迹输入到卡尔曼滤波算法中,得到第t帧目标跟踪对象的预测框。
3.如权利要求2所述一种基于无人机的交通路口旋转多目标跟踪方法,其特征是,将对齐后的目标检测对象输入到训练后的旋转注意力相似性学习网络中,提取出目标检测对象的特征,具体包括:
对第t帧图像的每个目标对象进行特征提取,得到特征图;
将特征提取网络输出的特征图,按照通道拆分成若干切片;
对每一个切片,加上位置编码,得到具有位置编码的特征图序列;
将具有位置编码的特征图序列输入到自注意力机制模块中;
将自注意力机制模块的输出值进行串联拼接,得到拼接特征;
将拼接特征输入到全连接层中,得到第t帧图像的当前目标对象的特征向量;
同理,对第t帧图像的所有目标对象均进行特征向量提取,得到第t帧图像的所有目标对象对应的特征向量。
4.如权利要求1所述一种基于无人机的交通路口旋转多目标跟踪方法,其特征是,更新目标跟踪对象列表,具体包括:
对于首帧图像,所有的目标检测对象均被视为候选跟踪对象,将候选跟踪对象存储到暂存表中,判断暂存表中的候选跟踪对象在后续连续两帧中是否再次出现,如果再次出现,则将候选跟踪对象认定为目标跟踪对象,将目标跟踪对象的特征以及编号均存储到目标跟踪对象列表中;否则,将候选跟踪对象从暂存表中删除;
对于非首帧图像,判断每一个目标检测对象是否已经匹配成功,如果是,则表示当前目标检测对象已经是目标跟踪对象,并在目标跟踪列表中添加当前目标的检测框及其特征;如果不是,则表示当前目标检测对象为新增候选跟踪对象;将新增候选跟踪对象存储到暂存表中,判断暂存表中的新增候选跟踪对象在后续连续两帧中是否再次出现,如果再次出现,则将新增候选跟踪对象认定为目标跟踪对象,将目标跟踪对象的历史轨迹、特征以及编号均存储到目标跟踪对象列表中;如果没有再次出现,则将新增候选跟踪对象从暂存表中删除;
其中,目标跟踪对象列表中的每一个目标跟踪对象,如果连续M帧均未出现,则将其从目标跟踪对象列表中删除,M为正整数。
5.如权利要求1所述一种基于无人机的交通路口旋转多目标跟踪方法,其特征是,所述得到第一次跟踪轨迹,还包括:如果第一次匹配成功,则将第t帧的目标检测对象的邻近检测框与第t-1帧的目标跟踪对象连线,得到第一次跟踪轨迹;如果第一次匹配失败,则将置信度高于设定阈值的邻近检测框认为是新增候选跟踪对象,将新增候选跟踪对象存储到暂存表中;
所述得到第二次跟踪轨迹,还包括:如果第二次匹配成功,则将第t帧的目标检测对象的疏远检测框与第t-1帧的目标跟踪对象连线,得到第二次跟踪轨迹;如果第二次匹配失败,则将置信度高于设定阈值的疏远检测框认为是新增候选跟踪对象,将新增候选跟踪对象存储到暂存表中。
6.如权利要求1所述一种基于无人机的交通路口旋转多目标跟踪方法,其特征是,根据所述欧式距离和所述面积交并比,确定第一代价矩阵;其中,第一代价矩阵,计算过程为:
Cnearby=Mm+Ms
其中,Ms表示欧式距离矩阵,Mm表示面积交并比代价矩阵,α表示平衡系数,θseu表示欧氏距离阈值,θiou表示面积交并比阈值,Cnearby表示第一代价矩阵。
7.如权利要求1所述一种基于无人机的交通路口旋转多目标跟踪方法,其特征是,所述根据所述面积交并比和所述余弦距离,确定第二代价矩阵,其中,所述第二代价矩阵,计算过程为:
取Ma(i,j)和Mm(i,j)中较小者组成第二代价矩阵Cdistant
Cdistant=min{Ma,Mm}
其中,Mm表示面积交并比代价矩阵,Ma表示余弦距离矩阵。
8.一种基于无人机的交通路口旋转多目标跟踪***,其特征是,包括:
检测框和预测框获取模块,其被配置为:将交通视频流逐帧输入旋转目标检测器,将每一帧图像的所有交通参与者均视为目标检测对象,得到每一帧图像目标检测对象的检测框;对每一个检测框中的目标检测对象图像进行旋转对齐,将对齐后的目标检测对象输入到训练后的旋转注意力相似性学习网络中,提取出目标检测对象的特征;将第t-1帧目标跟踪对象的历史轨迹输入到卡尔曼滤波算法中,得到第t帧目标跟踪对象的预测框;
计算模块,其被配置为:计算第t帧目标检测对象的特征与第t-1帧目标跟踪对象的特征之间的余弦距离;计算第t帧图像的目标检测对象的检测框与第t帧图像的目标跟踪对象的预测框之间的欧式距离;计算第t帧图像的目标检测对象的检测框与第t帧图像的目标跟踪对象的预测框之间的面积交并比;
比较模块,其被配置为:当欧式距离小于设定阈值,则将第t帧图像的目标检测对象的检测框认定为邻近检测框;当欧式距离大于设定阈值,则将第t帧图像的目标检测对象的检测框认定为疏远检测框;
输出模块,其被配置为:根据所述欧式距离和所述面积交并比,确定第一代价矩阵;针对邻近检测框,将第一代价矩阵输入到匈牙利算法中,得到第一次跟踪轨迹;根据所述面积交并比和所述余弦距离,确定第二代价矩阵;针对疏远检测框和第一次匹配失败的目标跟踪对象,将第二代价矩阵输入到匈牙利算法中,得到第二次跟踪轨迹;将第一次跟踪轨迹和第二次跟踪轨迹合并,得到第t帧图像的目标跟踪对象的跟踪轨迹,更新目标跟踪对象列表。
9.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-7任一项所述的方法。
10.一种存储介质,其特征是,非暂时性存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行权利要求1-7任一项所述方法的指令。
CN202311279151.0A 2023-09-28 2023-09-28 一种基于无人机的交通路口旋转多目标跟踪方法及*** Pending CN117372900A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311279151.0A CN117372900A (zh) 2023-09-28 2023-09-28 一种基于无人机的交通路口旋转多目标跟踪方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311279151.0A CN117372900A (zh) 2023-09-28 2023-09-28 一种基于无人机的交通路口旋转多目标跟踪方法及***

Publications (1)

Publication Number Publication Date
CN117372900A true CN117372900A (zh) 2024-01-09

Family

ID=89399484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311279151.0A Pending CN117372900A (zh) 2023-09-28 2023-09-28 一种基于无人机的交通路口旋转多目标跟踪方法及***

Country Status (1)

Country Link
CN (1) CN117372900A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117576167A (zh) * 2024-01-16 2024-02-20 杭州华橙软件技术有限公司 多目标跟踪方法、多目标跟踪装置及计算机存储介质
CN117649737A (zh) * 2024-01-30 2024-03-05 云南电投绿能科技有限公司 一种园区的设备监控方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117576167A (zh) * 2024-01-16 2024-02-20 杭州华橙软件技术有限公司 多目标跟踪方法、多目标跟踪装置及计算机存储介质
CN117576167B (zh) * 2024-01-16 2024-04-12 杭州华橙软件技术有限公司 多目标跟踪方法、多目标跟踪装置及计算机存储介质
CN117649737A (zh) * 2024-01-30 2024-03-05 云南电投绿能科技有限公司 一种园区的设备监控方法、装置、设备及存储介质
CN117649737B (zh) * 2024-01-30 2024-04-30 云南电投绿能科技有限公司 一种园区的设备监控方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN117372900A (zh) 一种基于无人机的交通路口旋转多目标跟踪方法及***
CN108960211B (zh) 一种多目标人体姿态检测方法以及***
CN109492580B (zh) 一种基于全卷积网络的邻域显著性参照的多尺寸航拍图像定位方法
CN111213155A (zh) 图像处理方法、设备、可移动平台、无人机及存储介质
CN111767847B (zh) 一种集成目标检测和关联的行人多目标跟踪方法
CN101950426A (zh) 一种多摄像机场景下车辆接力跟踪方法
CN113033364B (zh) 轨迹预测方法、行驶控制方法、装置、电子设备及存储介质
Xing et al. DE‐SLAM: SLAM for highly dynamic environment
Jiang et al. Dfnet: Semantic segmentation on panoramic images with dynamic loss weights and residual fusion block
CN109584299B (zh) 一种定位方法、定位装置、终端及存储介质
CN111797688A (zh) 一种基于光流和语义分割的视觉slam方法
CN115731266A (zh) 跨相机多目标跟踪方法、装置、设备及可读存储介质
Getahun et al. A deep learning approach for lane detection
Barroso-Laguna et al. Hdd-net: Hybrid detector descriptor with mutual interactive learning
Li et al. Lr-fpn: Enhancing remote sensing object detection with location refined feature pyramid network
Xiao et al. Road extraction from point clouds of open-pit mine using LPFE-Net
CN116817887B (zh) 语义视觉slam地图构建方法、电子设备及存储介质
Zhang et al. An improved YOLO algorithm for rotated object detection in remote sensing images
CN113256683A (zh) 目标跟踪方法及相关设备
CN116734834A (zh) 应用于动态场景的定位建图方法、装置和智能设备
Cheng et al. G-Fusion: LiDAR and Camera Feature Fusion on the Ground Voxel Space
CN110532890A (zh) 一种基于云端、边缘端和设备端的分布式孪生卷积神经网络行人重识别方法
Zhang et al. Adaptive wasserstein hourglass for weakly supervised hand pose estimation from monocular RGB
Wu et al. Centralized motion-aware enhancement for single object tracking on point clouds
CN115100565A (zh) 一种基于空间相关性与光流配准的多目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination