CN114820699B - 多目标跟踪方法、装置、设备及介质 - Google Patents

多目标跟踪方法、装置、设备及介质 Download PDF

Info

Publication number
CN114820699B
CN114820699B CN202210325675.8A CN202210325675A CN114820699B CN 114820699 B CN114820699 B CN 114820699B CN 202210325675 A CN202210325675 A CN 202210325675A CN 114820699 B CN114820699 B CN 114820699B
Authority
CN
China
Prior art keywords
target
video frame
pose information
tracker
tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210325675.8A
Other languages
English (en)
Other versions
CN114820699A (zh
Inventor
刘洋
赵雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Automobile Technology Co Ltd
Original Assignee
Xiaomi Automobile Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Automobile Technology Co Ltd filed Critical Xiaomi Automobile Technology Co Ltd
Priority to CN202210325675.8A priority Critical patent/CN114820699B/zh
Publication of CN114820699A publication Critical patent/CN114820699A/zh
Application granted granted Critical
Publication of CN114820699B publication Critical patent/CN114820699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种多目标跟踪方法,用以解决现有技术中多模型调用效率不可控,特征提取、识别效率低,易丢失目标和目标跟踪准确性低的技术问题,该方法包括:获取第一视频帧和第二视频帧,其中,第一视频帧为当前视频帧,第二视频帧为与第一视频帧相邻的前一视频帧;通过目标检测网络分别对第一视频帧和第二视频帧进行处理,确定第一视频帧中的多个第一目标、第二视频帧中的多个第二目标,并得到每个第一目标和第二目标对应的位姿信息;根据多个第二目标对应的位姿信息分别计算每个第二目标在第一视频帧中的预测位姿信息;基于预测位姿信息和多个第一目标对应的位姿信息,进行目标匹配,并根据目标匹配结果进行跟踪。

Description

多目标跟踪方法、装置、设备及介质
技术领域
本发明涉及视频图像处理、计算机视觉等技术领域,尤其涉及一种多目标跟踪方法、装置、设备及介质。
背景技术
排序算法(Simple Online And Realtime Tracking,Sort)算法是一种传统的在线实时跟踪算法,该算法将多目标跟踪问题分解为目标检测、状态预测和数据关联部分。Sort算法中的检测部分通常采用快速迁移学习目标检测(Faster-Region-CNN,Faster-RCNN)目标检测算法,该算法的优点在于状态预测和数据关联部分的运行速度很快,可实现在线跟踪。但没有考虑到每个目标的外观特征仅使用交并比(IntersecTIon over Union,IOU)进行匹配,这会导致在实际使用中经常会发生id标签切换的现象,而且丢失后的目标不能够再被找回。
现有技术中,为解决上述问题,有如下两种解决方案:
(一)两阶段方法:
基于深度学习的两阶段跟踪方法在sort算法的基础上引入卷积神经网络进行目标表观特征提取,并加入级联匹配策略。两阶段的方法虽然提高了目标跟踪的精度,但因为需要两个网络串联计算,消耗的时间为两个网络时间之和加上跟踪模块的时间,且表观特征提取模型调用的次数随着目标数量的增加而成倍增加,所以该类方法的运行时间受到了限制。
(二)单阶段方法:
联合检测与嵌入方法(Joint Detection and Embedding,JDE)将目标检测算法和目标重识别算法集中到一个网络中,使用同一个主干网络提取特征,使网络同时输出目标的位置信息和表观特征向量。但使用同一网络同时训练目标检测和行人重识别reid特征,由于二者任务的不平衡性导致模型难以达到比较高的精度。
因此,需要一种能够快速实现跟踪,且易于调整重识别特征与目标检测平衡的多目标跟踪方法,以解决识别效率低,易丢失目标的问题。
发明内容
本发明提供一种多目标跟踪方法、装置、设备及介质,用以解决现有技术中多模型调用效率不可控,特征提取、识别效率低,易丢失目标和目标跟踪准确性低的技术问题。
第一方面,本发明实施例提供一种多目标跟踪方法,应用于汽车中,该方法包括:
获取第一视频帧和第二视频帧,其中,第一视频帧为当前视频帧,第二视频帧为与第一视频帧相邻的前一视频帧;
通过目标检测网络分别对第一视频帧和第二视频帧进行处理,确定第一视频帧中的多个第一目标、第二视频帧中的多个第二目标,并得到每个第一目标和第二目标对应的位姿信息;
根据多个第二目标对应的位姿信息分别计算每个第二目标在第一视频帧中的预测位姿信息;
基于预测位姿信息和多个第一目标对应的位姿信息,进行目标匹配,并根据目标匹配结果进行跟踪。
在一种可能实施的方式中,本发明实施例提供的方法中,通过目标检测网络对第一视频帧和第二视频帧进行处理,确定第一视频帧中的多个第一目标、第二视频帧中的多个第二目标,并得到每个第一目标和第二目标对应的位姿信息,包括:
通过目标检测网络对第二视频帧进行处理,以确定多个第二目标,并得到每个第二目标对应的位姿信息和重识别特征;
通过目标检测网络对第一视频帧进行处理,确定多个第一目标,并得到每个第一目标对应的位姿信息和重识别特征。
在一种可能实施的方式中,本发明实施例提供的方法中,基于预测位姿信息和多个第一目标对应的位姿信息,进行目标匹配,包括:
基于预测位姿信息和多个第一目标对应的位姿信息,确定与任一第一目标的距离小于预设目标阈值的第二目标为第三目标;
若第三目标的重识别特征与第一目标的重识别特征匹配,则确定第三目标与第一目标匹配。
在一种可能实施的方式中,本发明实施例提供的方法中,方法还包括:
利用第一目标对应的位姿信息更新与第一目标匹配的第二目标的位姿信息。
在一种可能实施的方式中,本发明实施例提供的方法中,方法还包括:
将未匹配的第二目标确定为丢失的目标;
停止追踪丢失的目标,并将丢失的目标对应的位姿信息删除。
在一种可能实施的方式中,本发明实施例提供的方法中,目标检测网络通过如下方法进行训练:
从预先获取的包含目标的视频帧样本中通过标注获得目标的位姿信息;
利用目标的位姿信息对目标检测网络进行训练。
在一种可能实施的方式中,本发明实施例提供的方法中,训练方法还包括:
冻结目标检测网络的主干,对目标检测网络的重识别特征提取分支进行尺度融合。
第二方面,本发明实施例提供一种多目标跟踪装置,其特征在于,包括:
获取单元,用于获取第一视频帧和第二视频帧,其中,第一视频帧为当前视频帧,第二视频帧为与第一视频帧相邻的前一视频帧;
处理单元,用于通过目标检测网络分别对第一视频帧和第二视频帧进行处理,确定第一视频帧中的多个第一目标、第二视频帧中的多个第二目标,并得到每个第一目标和第二目标对应的位姿信息;
计算单元,用于根据多个第二目标对应的位姿信息分别计算每个第二目标在第一视频帧中的预测位姿信息;
匹配单元,用于基于预测位姿信息和多个第一目标对应的位姿信息,进行目标匹配,并根据目标匹配结果进行跟踪。
在一种可能实施的方式中,本发明实施例提供的装置中,处理单元具体用于:
通过目标检测网络对第二视频帧进行处理,以确定多个第二目标,并得到每个第二目标对应的位姿信息和重识别特征;
通过目标检测网络对第一视频帧进行处理,确定多个第一目标,并得到每个第一目标对应的位姿信息和重识别特征。
在一种可能实施的方式中,本发明实施例提供的装置中,匹配单元具体用于:
基于预测位姿信息和多个第一目标对应的位姿信息,确定与任一第一目标的距离小于预设目标阈值的第二目标为第三目标;
若第三目标的重识别特征与第一目标的重识别特征匹配,则确定第三目标与第一目标匹配。
在一种可能实施的方式中,本发明实施例提供的装置中,匹配单元还用于:
利用第一目标对应的位姿信息更新与第一目标匹配的第二目标的位姿信息。
在一种可能实施的方式中,本发明实施例提供的装置中,匹配单元具体用于:
将未匹配的第二目标确定为丢失的目标;
停止追踪丢失的目标,并将丢失的目标对应的位姿信息删除。
在一种可能实施的方式中,本发明实施例提供的装置中,处理单元通过如下方法训练目标检测网络:
从预先获取的包含目标的视频帧样本中通过标注获得目标的位姿信息;
利用目标的位姿信息对目标检测网络进行训练。
在一种可能实施的方式中,本发明实施例提供的装置中,处理单元还用于:
冻结目标检测网络的主干,对目标检测网络的重识别特征提取分支进行尺度融合。
第三方面,本发明实施例提供一种电子设备,包括:至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令,当计算机程序指令被处理器执行时实现如本发明实施例第一方面所提供的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序指令,当计算机程序指令被处理器执行时实现如本发明实施例第一方面所提供的方法。
本发明实施例中,先获取第一视频帧和第二视频帧,然后通过目标检测网络分别对第一视频帧和第二视频帧进行处理,确定第一视频帧中的多个第一目标、第二视频帧中的多个第二目标,并得到每个第一目标和第二目标对应的位姿信息,再根据多个第二目标对应的位姿信息分别计算每个第二目标在第一视频帧中的预测位姿信息,最后基于预测位姿信息和多个第一目标对应的位姿信息,进行目标匹配,并根据目标匹配结果进行跟踪。与现有技术相比,解决了多模型调用效率不可控,特征提取、识别效率低,易丢失目标和目标跟踪准确性低的问题,在保证整体算法运行速度的基础上,跟踪效率稳定且鲁棒,能够在自动驾驶过程中有效感知外界目标,从而做出有效交互,保障行车安全。
附图说明
图1为本发明实施例提供的一种多目标跟踪方法的流程示意图;
图2为本发明实施例提供的多目标跟踪中目标检测网络的训练方法的流程示意图;
图3为本发明实施例提供的尺度融合前特征示意图;
图4为本发明实施例提供的尺度融合后特征示意图;
图5为本发明实施例提供的多目标跟踪中目标位置预测方法的流程示意图;
图6本发明实施例提供的多目标跟踪中的匹配跟踪方法的流程示意图;
图7为本发明实施例提供的一种多目标跟踪方法的具体流程示意图;
图8为本发明实施例提供的一种多目标跟踪装置的结构示意图;
图9为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面对文中出现的一些词语进行解释:
1、本发明实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
2、行人重识别(re-identification,reid)是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。
3、多目标跟踪(Multiple Object Tracking,MOT)是对连续视频画面中多个目标进行跟踪,跟踪的本质是关联视频前后帧中同一物体(目标),并赋予唯一TrackID。其主要任务是给定一个图像序列,找到图像序列中运动的物体,并将不同帧中的运动物体一一对应,然后给出不同物体的运动轨迹。这些物体可以是任意的,如行人、车辆、各种动物等等。在计算机视觉的三层结构中,目标跟踪属于中间层,是其他的高层任务(如动作识别,行为分析等)的基础。目标跟踪包括单目标跟踪和多目标跟踪。多目标跟踪问题,除了单目标跟踪会遇到的光照、形变、遮挡等问题外,还需要目标之间的关联匹配。另外,在多目标跟踪任务重经常会碰到目标的频繁遮挡、轨迹开始和终止时刻未知、目标尺度变化较大、表观相似、目标间交互、低帧率等等问题。
4、排序算法(Simple Online And Realtime Tracking,Sort),是一种传统的在线实时跟踪算法,将多目标跟踪问题分解为目标检测、状态预测和数据关联部分。
5、快速迁移学习目标检测(Faster-Region-CNN,Faster-RCNN)是第一个成功将深度学习应用到目标检测上的算法。R-CNN基于卷积神经网络(CNN),线性回归,和支持向量机(SVM)等算法,实现目标检测技术。
6、交并比(IntersecTIon over Union,IOU)是目标检测算法性能的一个重要函数,函数值等于“预测的边框”和“真实的边框”的交集和并集的比值。
7、联合检测与嵌入方法(Joint Detection and Embedding,JDE)是基于anchor-based的目标检测,特点是将目标检测和嵌入学习融合在同一个网络中,速度快。
8、无损卡尔曼滤波又称无迹卡尔曼滤波(Unscented Kalman Filter,UKF),是无损变换(Unscented Transform,UT)与标准卡尔曼滤波体系的结合,通过无损变换变换使非线性***方程适用于线性假设下的标准卡尔曼体系。
排序算法(Simple Online And Realtime Tracking,Sort)算法是一种传统的在线实时跟踪算法,该算法将多目标跟踪问题分解为目标检测、状态预测和数据关联部分。Sort算法中的检测部分采用Faster-RCNN目标检测算法,输入的图片经过目标检测算法输出目标的位置和类别,再通过卡尔曼滤波对每个检测到的目标进行状态预测和更新,最后使用匈牙利对预测后的目标和当前帧检测到的目标以iou作为代价矩阵进行匹配。Sort的优点在于状态预测和数据关联部分的运行速度很快,可实现在线跟踪。但该方法没有考虑到每个目标的外观特征仅使用IOU进行匹配,在实际使用中经常会发生id标签切换的现象,而且丢失后的目标不能够再被找回。
现有技术中,为解决上述问题,有如下两种解决方案:
(一)两阶段方法:
基于深度学习的两阶段跟踪方法在sort算法的基础上引入卷积神经网络进行目标表观特征提取,并加入级联匹配策略。具体实现是在目标检测网络之外,单独训练一个目标重识别网络。级联匹配方法有效地解决了目标因为遮挡等原因而暂时消失的问题。后续的改进方向主要是采用高性能的目标检测方法,从而降低指标中的误检和漏检,其次在模型和损失函数上改进目标表观特征提取网络,从而保证同一id内的距离足够小。两阶段的方法虽然提高了目标跟踪的精度,但因为需要两个网络串联计算,消耗的时间为两个网络时间之和加上跟踪模块的时间,且表观特征提取模型调用的次数随着目标数量的增加而成倍增加,所以该类方法的运行时间受到了限制。
(二)单阶段方法:
联合检测与嵌入方法(Joint Detection and Embedding,JDE)将目标检测算法和目标重识别算法集中到一个网络中,使用同一个主干网络提取特征,使网络同时输出目标的位置信息和表观特征向量。这种方法有效提高了算法的运行速度。FairMOT方法基于JDE方法的思想,结合不需要设置锚框的目标检测算法CenterNet,直接对目标的中心位置、宽高、中心点偏移和reid特征进行学***衡性导致模型难以达到比较高的精度。
因此,需要一种能够快速实现跟踪,且易于调整重识别特征与目标检测平衡的多目标跟踪方法,以解决识别效率低,易丢失目标的问题。
本技术方案在行车过程中,包含视频图像处理,3d目标检测、reid特征提取、无迹卡尔曼滤波预测、多目标跟踪功能,主要用于自动驾驶功能,下面结合附图和实施例对本发明提供的多目标跟踪方法、装置、设备及介质进行更详细地说明。
本发明实施例提供一种多目标跟踪方法,如图1所示,包括:
步骤101,获取第一视频帧和第二视频帧。
具体实施时,通过车载的摄像头或其他拍摄设备实时获取视频帧,第一视频帧为当前视频帧,第二视频帧为与第一视频帧相邻的前一视频帧。
步骤102,通过目标检测网络分别对第一视频帧和第二视频帧进行处理,确定第一视频帧中的多个第一目标、第二视频帧中的多个第二目标,并得到每个第一目标和第二目标对应的位姿信息。
具体实施时,通过目标检测网络对第二视频帧进行处理,以确定多个第二目标,并得到每个第二目标对应的位姿信息和重识别特征,相同的通过目标检测网络对第一视频帧进行处理,确定多个第一目标,并得到每个第一目标对应的位姿信息和重识别特征。
在本步骤中,通过目标检测网络获取位姿信息和重识别特征,重识别特征也即reid特征在多目标跟踪中能有有效解决目标出现遮挡、漏检、方向突变等情况时的id变号问题。
步骤103,根据多个第二目标对应的位姿信息分别计算每个第二目标在第一视频帧中的预测位姿信息。
具体实施时,通过目标预测方法,得到多个第二目标对应的位姿信息,并以此预测每个第二目标在第一视频帧中的预测位姿信息。
步骤104,基于预测位姿信息和多个第一目标对应的位姿信息,进行目标匹配,并根据目标匹配结果进行跟踪。
具体实施时,基于预测位姿信息和多个第一目标对应的位姿信息,确定与任一第一目标的距离小于预设目标阈值的第二目标为第三目标,若第三目标的重识别特征与第一目标的重识别特征匹配,则确定第三目标与第一目标匹配,然后根据目标匹配结果进行跟踪,即利用第一目标对应的位姿信息更新与第一目标匹配的第二目标的位姿信息,并将未匹配的第二目标确定为丢失的目标,
对丢失的目标停止追踪,并将丢失的目标对应的位姿信息删除。
如图2所示,本发明实施例提供的多目标跟踪中目标检测网络的训练过程,可以包括如下步骤:
步骤201,从预先获取的包含目标的视频帧样本中通过标注获得目标的位姿信息。
步骤202,利用目标的位姿信息对目标检测网络进行训练。
步骤203,冻结目标检测网络的主干,对目标检测网络的重识别特征提取分支进行尺度融合。
具体实施时,在训练reid分支时,将步骤202中训练的检测模型作为预训练模型输入,同时冻结主干网络部分,只更新尺度融合及reid相关部分参数,保证不影响检测精度的同时提取出有辨别力的reid特征。如图3所示为尺度融合前特征,图4为尺度融合后特征,从图3图4可看出,特征尺度融合后可以增强语义特征。
在跟踪中的目标预测阶段,常用的方法是卡尔曼滤波,但由于其线性的推导和计算过程,使其不能够很好的应用于非线性***。由于自动驾驶场景下行人的运动是非线性的,尤其在帧率较低时,非线性特性更加明显,为了增加目标位置预测的准确性,本方案采用了无迹卡尔曼滤波(UKF)的方法,如图5所示,本发明实施例提供的多目标跟踪中目标位置预测方法,可以包括如下步骤:
步骤501,初始化数据。
具体实施时,初始化状态向量和状态协方差矩阵P0,公式如下:
步骤502,进行目标预测。
由无损变换得到状态估计的Sigma点、均值的权值Wi m和协方差的权值Wi c
然后进行状态更新,公式如下:
再更新观测方程,公式如下:
其中Pk分别为最新的滤波结果、滤波协方差。通过上述公式进行无迹卡尔曼滤波,实现目标的位姿预测。
在位姿预测之后,基于预测位姿信息和多个第一目标对应的位姿信息,进行目标匹配,并根据目标匹配结果进行跟踪,如图6所示,本发明实施例提供的多目标跟踪中的匹配跟踪过程,可以包括如下步骤:
步骤601,对每个目标初始化一个***。
具体实施时,通常对第一帧进行处理,由检测网络得到目标位置及表观特征向量,然后对每个目标初始化一个***。
步骤602,预测目标在当前帧的位置并匹配。
具体实施时,对***中的目标进行UKF预测其在当前帧的位置;由检测网络得到当前帧目标位置信息及reid特征;计算当前目标和***中目标的reid代价矩阵和3d距离代价矩阵,并将距离值大于阈值Td的外观代价值赋值为无穷大inf;利用匈牙利算法对当前目标及***中目标进行匹配。对***中成功匹配的目标进行位置、状态及特征更新。
步骤603,进行二次匹配。
具体实施时,计算步骤602中未匹配到的检测和跟踪目标的3d距离代价矩阵,匈牙利算法进行二次匹配,对能够匹配的目标更新其在***中的位置、状态及特征矩阵。
步骤604,进行三次匹配。
具体实施时,计算步骤603中未匹配到的检测和未确认状态的跟踪目标的3d距离代价矩阵,匈牙利算法匹配,对能够匹配上的目标更新其在***中的位置、状态及特征矩阵。
步骤605,标记丢失。
具体实施时,对于***中一直未匹配到的目标,标记其跟踪状态为丢失,丢失状态大于阈值Tt帧后视为该目标消失,对于一直未匹配到的检测目标,将其加入到***设定状态为待确认。
如图7所示,对本发明实施例中提供的多目标跟踪方法进行详细说明。
步骤701,获取第一视频帧和第二视频帧。
具体实施时,通过车载的摄像头或其他拍摄设备实时获取视频帧,第一视频帧为当前视频帧,第二视频帧为与第一视频帧相邻的前一视频帧。
步骤702,通过目标检测网络对第二视频帧进行处理,以确定多个第二目标,并得到每个第二目标对应的位姿信息和重识别特征。
步骤703,通过目标检测网络对第一视频帧进行处理,确定多个第一目标,并得到每个第一目标对应的位姿信息和重识别特征。
具体实施时,在步骤702和步骤703中,通过目标检测网络获取位姿信息和重识别特征,重识别特征也即reid特征在多目标跟踪中能有有效解决目标出现遮挡、漏检、方向突变等情况时的id变号问题。
在本步骤中,采用Anchor-free的目标检测网络,将目标检测问题变成一个关键点回归的问题,即用目标box的中心点来表示这个目标,预测目标的中心点偏移量(offset),宽高(size)来得到物体实际box,用heatmap表示分类信息。该网络可以应用在2D目标检测中,同时扩展到3D目标检测任务重,即输出目标的深度、长宽高及角度等信息,即位姿信息。同时也使用该网络获取重识别特征,即reid特征,使用如图2所示的目标检测网络的训练方法,针对性训练重识别特征,具体过程在此不再赘述。
步骤704,根据多个第二目标对应的位姿信息分别计算每个第二目标在第一视频帧中的预测位姿信息。
具体实施时,通过目标预测方法,得到多个第二目标对应的位姿信息,并以此预测每个第二目标在第一视频帧中的预测位姿信息。在本步骤中,选用如图5所示的目标预测方法进行预测,在此不再赘述。
步骤705,基于预测位姿信息和多个第一目标对应的位姿信息,进行目标匹配。
具体实施时,基于预测位姿信息和多个第一目标对应的位姿信息,确定与任一第一目标的距离小于预设目标阈值的第二目标为第三目标,若第三目标的重识别特征与第一目标的重识别特征匹配,则确定第三目标与第一目标匹配。
步骤706,根据目标匹配结果进行跟踪。
具体实施时,根据目标匹配结果进行跟踪,即利用第一目标对应的位姿信息更新与第一目标匹配的第二目标的位姿信息,并将未匹配的第二目标确定为丢失的目标。
步骤707,对丢失的目标停止追踪,并将丢失的目标对应的位姿信息删除。
如图8所示,基于多目标跟踪方法同样的发明构思,本发明还提供一种多目标跟踪装置,包括:
获取单元801,用于获取第一视频帧和第二视频帧,其中,第一视频帧为当前视频帧,第二视频帧为与第一视频帧相邻的前一视频帧;
处理单元802,用于通过目标检测网络分别对第一视频帧和第二视频帧进行处理,确定第一视频帧中的多个第一目标、第二视频帧中的多个第二目标,并得到每个第一目标和第二目标对应的位姿信息;
计算单元803,用于根据多个第二目标对应的位姿信息分别计算每个第二目标在第一视频帧中的预测位姿信息;
匹配单元804,用于基于预测位姿信息和多个第一目标对应的位姿信息,进行目标匹配,并根据目标匹配结果进行跟踪。
在一种可能实施的方式中,本发明实施例提供的装置中,处理单元802具体用于:
通过目标检测网络对第二视频帧进行处理,以确定多个第二目标,并得到每个第二目标对应的位姿信息和重识别特征;
通过目标检测网络对第一视频帧进行处理,确定多个第一目标,并得到每个第一目标对应的位姿信息和重识别特征。
在一种可能实施的方式中,本发明实施例提供的装置中,匹配单元804具体用于:
基于预测位姿信息和多个第一目标对应的位姿信息,确定与任一第一目标的距离小于预设目标阈值的第二目标为第三目标;
若第三目标的重识别特征与第一目标的重识别特征匹配,则确定第三目标与第一目标匹配。
在一种可能实施的方式中,本发明实施例提供的装置中,匹配单元804还用于:
利用第一目标对应的位姿信息更新与第一目标匹配的第二目标的位姿信息。
在一种可能实施的方式中,本发明实施例提供的装置中,匹配单元804具体用于:
将未匹配的第二目标确定为丢失的目标;
停止追踪丢失的目标,并将丢失的目标对应的位姿信息删除。
在一种可能实施的方式中,本发明实施例提供的装置中,处理单元802通过如下方法训练目标检测网络:
从预先获取的包含目标的视频帧样本中通过标注获得目标的位姿信息;
利用目标的位姿信息对目标检测网络进行训练。
在一种可能实施的方式中,本发明实施例提供的装置中,处理单元802还用于:
冻结目标检测网络的主干,对目标检测网络的重识别特征提取分支进行尺度融合。
另外,结合图2-图8描述的本发明实施例的多目标跟踪方法和装置可以由电子设备来实现。图9示出了本发明实施例提供的电子设备的硬件结构示意图。
电子设备可以包括处理器901以及存储有计算机程序指令的存储器902。
具体地,上述处理器901可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器902可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器902可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器902可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器902可在数据处理装置的内部或外部。在特定实施例中,存储器902是非易失性固态存储器。在特定实施例中,存储器902包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器901通过读取并执行存储器902中存储的计算机程序指令,以实现上述实施例中的任意一种多目标跟踪方法。
在一个示例中,电子设备还可包括通信接口903和总线910。其中,如图9所示,处理器901、存储器902、通信接口903通过总线910连接并完成相互间的通信。
通信接口903,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线910包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、***组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线910可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
该电子设备可以基于接收到的视频帧,执行本发明实施例中的多目标跟踪方法,从而实现结合图2-图8描述的多目标跟踪方法和装置。
另外,结合上述实施例中的电子设备,本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种多目标跟踪方法。
本发明实施例中,先获取第一视频帧和第二视频帧,然后通过目标检测网络分别对第一视频帧和第二视频帧进行处理,确定第一视频帧中的多个第一目标、第二视频帧中的多个第二目标,并得到每个第一目标和第二目标对应的位姿信息,再根据多个第二目标对应的位姿信息分别计算每个第二目标在第一视频帧中的预测位姿信息,最后基于预测位姿信息和多个第一目标对应的位姿信息,进行目标匹配,并根据目标匹配结果进行跟踪。与现有技术相比,解决了多模型调用效率不可控,特征提取、识别效率低,易丢失目标和目标跟踪准确性低的问题,在保证整体算法运行速度的基础上,跟踪效率稳定且鲁棒,能够在自动驾驶过程中有效感知外界目标,从而做出有效交互,保障行车安全。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种多目标跟踪方法,其特征在于,包括:
获取第一视频帧和第二视频帧,其中,所述第一视频帧为当前视频帧,所述第二视频帧为与所述第一视频帧相邻的前一视频帧;
通过目标检测网络分别对所述第一视频帧和所述第二视频帧进行处理,确定所述第一视频帧中的多个第一目标、所述第二视频帧中的多个第二目标,并得到每个所述第一目标和所述第二目标对应的位姿信息,其中,通过所述目标检测网络对所述第二视频帧进行处理,以确定多个第二目标,并得到每个所述第二目标对应的位姿信息和重识别特征;通过所述目标检测网络对所述第一视频帧进行处理,以确定多个第一目标,并得到每个所述第一目标对应的位姿信息和重识别特征;
根据所述多个第二目标对应的位姿信息分别计算每个所述第二目标在所述第一视频帧中的预测位姿信息;
基于所述预测位姿信息和所述多个第一目标对应的位姿信息,进行目标匹配,并根据所述目标匹配结果进行跟踪;
所述基于所述预测位姿信息和所述多个第一目标对应的位姿信息,进行目标匹配,并根据所述目标匹配结果进行跟踪,包括:
对每个第二目标初始化一个***;
对所述***中的第二目标采用无迹卡尔曼滤波方法预测其在第一视频帧的位置;由目标检测网络得到第一视频帧中第一目标对应的位姿信息及重识别特征,计算第一目标和***中第二目标的重识别代价矩阵和3D距离代价矩阵,并利用匈牙利算法对第一目标及所述***中的第二目标进行匹配,对所述***中成功匹配的第二目标进行位置、状态及特征矩阵更新;
对未匹配到的第一目标和所述***中的第二目标的3D距离代价矩阵进行计算,并利用匈牙利算法进行二次匹配,对能够匹配的第二目标更新其在***中的位置、状态及特征矩阵;
对未匹配到的第一目标和未确认状态的第二目标的3D距离代价矩阵进行计算,并利用匈牙利算法进行三次匹配,对能够匹配的第二目标更新其在***中的位置、状态及特征矩阵;
对于所述***中一直未匹配到的第二目标,标记其跟踪状态为丢失,对丢失的目标停止跟踪,并将丢失的目标对应的位姿信息删除;对于一直未匹配到的第一目标,将其加入到***设定状态为待确认。
2.根据权利要求1所述的多目标跟踪方法,其特征在于,所述目标检测网络通过如下方法进行训练:
从预先获取的包含目标的视频帧样本中通过标注获得目标的位姿信息;
利用所述目标的位姿信息对所述目标检测网络进行训练。
3.根据权利要求2所述的多目标跟踪方法,其特征在于,训练方法还包括:
冻结所述目标检测网络的主干,对目标检测网络的重识别特征提取分支进行尺度融合。
4.一种多目标跟踪装置,其特征在于,包括:
获取单元,用于获取第一视频帧和第二视频帧,其中,所述第一视频帧为当前视频帧,所述第二视频帧为与所述第一视频帧相邻的前一视频帧;
处理单元,用于通过目标检测网络分别对所述第一视频帧和所述第二视频帧进行处理,确定所述第一视频帧中的多个第一目标、所述第二视频帧中的多个第二目标,并得到每个所述第一目标和所述第二目标对应的位姿信息,其中,通过所述目标检测网络对所述第二视频帧进行处理,以确定多个第二目标,并得到每个所述第二目标对应的位姿信息和重识别特征;通过所述目标检测网络对所述第一视频帧进行处理,以确定多个第一目标,并得到每个所述第一目标对应的位姿信息和重识别特征;
计算单元,用于根据所述多个第二目标对应的位姿信息分别计算每个所述第二目标在所述第一视频帧中的预测位姿信息;
匹配单元,用于基于所述预测位姿信息和所述多个第一目标对应的位姿信息,进行目标匹配,并根据所述目标匹配结果进行跟踪;
所述匹配单元具体用于:
对每个第二目标初始化一个***;
对所述***中的第二目标采用无迹卡尔曼滤波方法预测其在第一视频帧的位置;由目标检测网络得到第一视频帧中第一目标对应的位姿信息及重识别特征,计算第一目标和***中第二目标的重识别代价矩阵和3D距离代价矩阵,并利用匈牙利算法对第一目标及所述***中的第二目标进行匹配,对所述***中成功匹配的第二目标进行位置、状态及特征矩阵更新;
对未匹配到的第一目标和所述***中的第二目标的3D距离代价矩阵进行计算,并利用匈牙利算法进行二次匹配,对能够匹配的第二目标更新其在***中的位置、状态及特征矩阵;
对未匹配到的第一目标和未确认状态的第二目标的3D距离代价矩阵进行计算,并利用匈牙利算法进行三次匹配,对能够匹配的第二目标更新其在***中的位置、状态及特征矩阵;
对于所述***中一直未匹配到的第二目标,标记其跟踪状态为丢失,对丢失的目标停止跟踪,并将丢失的目标对应的位姿信息删除;对于一直未匹配到的第一目标,将其加入到***设定状态为待确认。
5.根据权利要求4所述的多目标跟踪装置,其特征在于,所述处理单元通过如下方法训练所述目标检测网络:
从预先获取的包含目标的视频帧样本中通过标注获得目标的位姿信息;
利用所述目标的位姿信息对所述目标检测网络进行训练。
6.根据权利要求5所述的多目标跟踪装置,其特征在于,所述处理单元还用于:
冻结所述目标检测网络的主干,对目标检测网络的重识别特征提取分支进行尺度融合。
7.一种电子设备,其特征在于,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如权利要求1-3中任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求1-3中任一项所述的方法。
CN202210325675.8A 2022-03-29 2022-03-29 多目标跟踪方法、装置、设备及介质 Active CN114820699B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210325675.8A CN114820699B (zh) 2022-03-29 2022-03-29 多目标跟踪方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210325675.8A CN114820699B (zh) 2022-03-29 2022-03-29 多目标跟踪方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN114820699A CN114820699A (zh) 2022-07-29
CN114820699B true CN114820699B (zh) 2023-07-18

Family

ID=82532726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210325675.8A Active CN114820699B (zh) 2022-03-29 2022-03-29 多目标跟踪方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114820699B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908498B (zh) * 2022-12-27 2024-01-02 清华大学 一种基于类别最优匹配的多目标跟踪方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399808A (zh) * 2019-07-05 2019-11-01 桂林安维科技有限公司 一种基于多目标跟踪的人体行为识别方法及***
CN113139620A (zh) * 2021-05-14 2021-07-20 重庆理工大学 基于目标关联学习的端到端多目标检测与跟踪联合方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11144761B2 (en) * 2016-04-04 2021-10-12 Xerox Corporation Deep data association for online multi-class multi-object tracking
CN110276783B (zh) * 2019-04-23 2021-01-08 上海高重信息科技有限公司 一种多目标跟踪方法、装置及计算机***
CN110197502B (zh) * 2019-06-06 2021-01-22 山东工商学院 一种基于身份再识别的多目标跟踪方法及***
CN110516556B (zh) * 2019-07-31 2023-10-31 平安科技(深圳)有限公司 基于Darkflow-DeepSort的多目标追踪检测方法、装置及存储介质
CN111914664A (zh) * 2020-07-06 2020-11-10 同济大学 基于重识别的车辆多目标检测和轨迹跟踪方法
CN112419368A (zh) * 2020-12-03 2021-02-26 腾讯科技(深圳)有限公司 运动目标的轨迹跟踪方法、装置、设备及存储介质
CN112767443A (zh) * 2021-01-18 2021-05-07 深圳市华尊科技股份有限公司 目标跟踪方法、电子设备及相关产品
CN113313736B (zh) * 2021-06-10 2022-05-17 厦门大学 统一目标运动感知和重识别网络的在线多目标跟踪方法
CN113343985B (zh) * 2021-06-28 2023-04-18 展讯通信(上海)有限公司 车牌识别方法和装置
CN113807187B (zh) * 2021-08-20 2024-04-02 北京工业大学 基于注意力特征融合的无人机视频多目标跟踪方法
CN113724293A (zh) * 2021-08-23 2021-11-30 上海电科智能***股份有限公司 一种基于视觉的智能网联公交场景下目标跟踪方法及***
CN114067270B (zh) * 2021-11-18 2022-09-09 华南理工大学 一种车辆追踪方法和装置、计算机设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399808A (zh) * 2019-07-05 2019-11-01 桂林安维科技有限公司 一种基于多目标跟踪的人体行为识别方法及***
CN113139620A (zh) * 2021-05-14 2021-07-20 重庆理工大学 基于目标关联学习的端到端多目标检测与跟踪联合方法

Also Published As

Publication number Publication date
CN114820699A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
Hassaballah et al. Vehicle detection and tracking in adverse weather using a deep learning framework
Neven et al. Towards end-to-end lane detection: an instance segmentation approach
CN112966697B (zh) 基于场景语义的目标检测方法、装置、设备及存储介质
KR101912914B1 (ko) 전방 카메라를 이용한 속도제한 표지판 인식 시스템 및 방법
CN112750150A (zh) 基于车辆检测和多目标跟踪的车流量统计方法
CN114155284A (zh) 基于多目标行人场景的行人跟踪方法、装置、设备及介质
CN112084833A (zh) 图像识别装置
CN111582126B (zh) 基于多尺度行人轮廓分割融合的行人重识别方法
CN112738470B (zh) 一种高速公路隧道内停车检测的方法
CN112529934B (zh) 多目标追踪方法、装置、电子设备和存储介质
Salarian et al. A vision based system for traffic lights recognition
CN114820699B (zh) 多目标跟踪方法、装置、设备及介质
CN114972410A (zh) 一种多级匹配视频赛车追踪方法及***
Jiang et al. Online pedestrian tracking with multi-stage re-identification
CN107256382A (zh) 基于图像识别的虚拟保险杠控制方法和***
CN116434150A (zh) 面向拥挤场景的多目标检测跟踪方法、***及存储介质
Zhang et al. An efficient and flexible approach for multiple vehicle tracking in the aerial video sequence
Nguyen et al. An algorithm using YOLOv4 and DeepSORT for tracking vehicle speed on highway
Fu et al. Enhanced detection reliability for human tracking based video analytics
Kozel et al. Real-Time Traffic Lights Identification using YOLOv3 Algorithm For Autonomous Vehicles
EP4254267A1 (en) Methods and systems for object tracking
CN114820700B (zh) 对象跟踪方法及装置
US20230410532A1 (en) Object detection device, monitoring device, training device, and model generation method
CN105719315A (zh) 用于在移动终端中跟踪视频图像中的物体的方法
CN113496188A (zh) 处理视频内容分析的装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant