CN114998999B - 一种基于多帧输入与轨迹平滑的多目标跟踪方法和装置 - Google Patents

一种基于多帧输入与轨迹平滑的多目标跟踪方法和装置 Download PDF

Info

Publication number
CN114998999B
CN114998999B CN202210856428.0A CN202210856428A CN114998999B CN 114998999 B CN114998999 B CN 114998999B CN 202210856428 A CN202210856428 A CN 202210856428A CN 114998999 B CN114998999 B CN 114998999B
Authority
CN
China
Prior art keywords
track
target
frame
pedestrian
target tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210856428.0A
Other languages
English (en)
Other versions
CN114998999A (zh
Inventor
张文广
徐晓刚
虞舒敏
曹卫强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Zhejiang Lab
Original Assignee
Zhejiang Gongshang University
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University, Zhejiang Lab filed Critical Zhejiang Gongshang University
Priority to CN202210856428.0A priority Critical patent/CN114998999B/zh
Publication of CN114998999A publication Critical patent/CN114998999A/zh
Application granted granted Critical
Publication of CN114998999B publication Critical patent/CN114998999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于多帧输入与轨迹平滑的多目标跟踪方法和装置,方法包括:步骤S1:获取行人视频数据集并进行行人坐标以及行人轨迹的标注,并生成片段型轨迹数据;步骤S2:构造并训练基于多帧输入与轨迹平滑的行人多目标跟踪网络模型;步骤S3:基于训练得到的行人多目标跟踪网络模型进行推理,获取当前帧行人目标检测与特征提取结果以及其前几帧的行人目标检测与特征提取结果,即获取得到多帧图像目标的坐标及外观特征;步骤S4:利用多帧图像目标的坐标及外观特征进行最短特征距离匹配,并利用轨迹曲率平滑函数进行轨迹平滑,最终得到当前帧的轨迹。本发明具有耗时低,且对同类目标的遮挡问题鲁棒性较好的优点。

Description

一种基于多帧输入与轨迹平滑的多目标跟踪方法和装置
技术领域
本发明涉及图像识别技术领域,尤其涉及一种基于多帧输入与轨迹平滑的多目标跟踪方法和装置。
背景技术
随着城市公共区域监控相机的广泛部署,基于公共安全及紧急求援的需求,针对感兴趣目标的在线检测及多目标跟踪技术具有重大的学术与商业价值。
当前的大部分针对行人等目标的跟踪算法均是先利用检测网络得到感兴趣目标位置,然后利用ReID网络提取目标的外观特征,最后基于特征空间的距离度量利用匈牙利算法或者贪心算法进行匹配。但是这种方法有明显的缺陷:1.目标匹配时仅仅与前一帧或者前几帧进行特征匹配,同类目标的遮挡极易由于其特征相似而导致身份识别号互换;2.固定特征距离阈值的选取,极易导致新出现的目标由于没有匹配上激活的轨迹而匹配上历史已经消失的轨迹。
基于以上两个问题,学术界目前主要依靠提出一个检测性能更优秀的网络和提出一个特征表达鲁棒性能更强的网络来解决,但是如附图3所示的这种情况,由于同类目标的遮挡确实会导致本目标的一部分外观特征被其他目标的外观特征覆盖,在两个人相遇时,一个人对另一个人进行了遮挡,在遮挡的瞬间,被遮挡者的外观特征也变成了遮挡者的特征,因此在基于特征匹配的方式中,目标的身份ID极其容易导致互换,从而产生如附图3中的B指示线所示的那种错接轨迹,真实情况应该是图3中的A指示线所示的轨迹,这一问题一直没有得到很好的解决。
基于此,需要提供一种运行效率较高,抗同类目标遮挡且性能优异的行人多目标跟踪方法。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种基于多帧输入与轨迹平滑的多目标跟踪方法和装置,其具体技术方案如下:
一种基于多帧输入与轨迹平滑的多目标跟踪方法,包括以下步骤:
步骤S1:获取行人视频数据集并进行行人坐标以及行人轨迹的标注,并生成片段型轨迹数据;
步骤S2:构造并训练基于多帧输入与轨迹平滑的行人多目标跟踪网络模型;
步骤S3:基于训练得到的行人多目标跟踪网络模型进行推理,获取当前帧行人目标检测与特征提取结果以及其前几帧的行人目标检测与特征提取结果,即获取得到多帧图像目标的坐标及外观特征;
步骤S4:利用多帧图像目标的坐标及外观特征进行最短特征距离匹配,并利用轨迹曲率平滑函数进行轨迹平滑,最终得到当前帧的轨迹。
进一步地,所述步骤S1,具体为:对获取的开源行人视频,利用标注软件对行人视频序列帧中的行人进行标注,包括标注目标框以及目标的身份识别ID号,ID号从1开始累加;然后对行人视频以固定的长度进行切割捆绑生成轨迹片段,轨迹片段由2m+1个图像序列帧组成,即该轨迹片段的数据由从某时刻图像帧之前m个图像帧至之后m个图像帧组成,m为正整数。
进一步地,所述行人多目标跟踪网络模型由Yolov5-L主网络与多尺度特征提取模块组合而成,所述多尺度特征提取模块与Yolov5-L主网络的目标检测头并行排列且输入相同,所述多尺度特征提取模块由一个3*3*256卷积层和一个1*1*256*3的卷积层组成;输入图像经过Yolov5-L主网络后再经过多尺度特征提取模块输出一张与输入图像尺寸一样的外观特征图,再基于目标检测头检测得到的目标框所属的预设边框,在外观特征图中截取得到目标框对应的外观特征。
进一步地,所述行人多目标跟踪网络模型的训练是采用所述片段型轨迹数据进行训练,将片段型轨迹数据的图像序列帧同时送入行人多目标跟踪网络模型进行推理,计算得到目标的坐标即目标框,以及外观特征,并基于所述目标的坐标与外观特征采用最短特征距离与轨迹曲率平滑函数进行匹配,同时利用总的损失函数求梯度进行行人多目标跟踪网络模型的后向推理。
进一步地,所述总的损失函数是联合轨迹特征距离与拟合的损失函数与轨迹检测的平均L1损失函数加权平均的损失函数
Figure 367742DEST_PATH_IMAGE002
Figure 231793DEST_PATH_IMAGE004
表示联合轨迹特征距离与拟合的损失函数,
Figure 249427DEST_PATH_IMAGE006
表示轨迹片段目标检测的平均L1损失函数。
进一步地,所述联合轨迹特征距离与拟合的损失函数由轨迹特征距离损失函数与轨迹曲率平滑损失函数加权平均得到,对行人多目标跟踪网络模型的特征提取与轨迹匹配进行训练学习;
所述轨迹特征距离损失函数表示为:
Figure 540731DEST_PATH_IMAGE008
其中,
Figure 276606DEST_PATH_IMAGE010
,i∈[1,2m+1],表示第i个图像帧中的目标框
Figure 100002_DEST_PATH_IMAGE012
与第i个图像帧真实标签目标框
Figure 911725DEST_PATH_IMAGE014
的特征距离,采用特征向量夹角的余弦函数表示,2m+1为轨迹片段的图像序列帧个数;
所述轨迹曲率平滑损失函数表示为:
Figure 49445DEST_PATH_IMAGE016
其中,x表示在轨迹片段中形成的目标轨迹个数,
Figure 511650DEST_PATH_IMAGE018
为预测的第j个目标的轨迹在2m+1帧图像的平均轨迹曲率,
Figure 100002_DEST_PATH_IMAGE020
为对应的真实标签轨迹的曲率,j∈[1,x],
Figure 100002_DEST_PATH_IMAGE022
为预测的目标轨迹与真实标签轨迹的平均轨迹曲率差值;所述匹配具体为预测目标轨迹与真实标签轨迹的匹配采用曲线前端、中端、后端IOU匹配的规则进行匹配;
因此,所述联合轨迹特征距离与拟合的损失函数表示为:
Figure 100002_DEST_PATH_IMAGE024
Figure 100002_DEST_PATH_IMAGE026
其中
Figure 100002_DEST_PATH_IMAGE028
Figure 100002_DEST_PATH_IMAGE030
均为加权的权重,基于
Figure 100002_DEST_PATH_IMAGE032
来监督行人多目标跟踪网络模型在特征提取和轨迹匹配上的学习。
进一步地,所述轨迹片段目标检测的平均L1损失函数表示为:
Figure 100002_DEST_PATH_IMAGE034
其中,
Figure 100002_DEST_PATH_IMAGE036
表示第i帧图像的目标检测的平均L1损失函数,2m+1为轨迹片段的图像序列帧个数。
进一步地,所述步骤S4具体为:采用训练好的行人多目标跟踪网络模型,利用多帧图像目标的坐标及外观特征进行最短特征距离匹配,并进行轨迹平滑,匹配得到的轨迹使得目标与其前2m帧的轨迹目标的平均特征距离与轨迹曲率加权和最小,加权和表示为:
Figure 100002_DEST_PATH_IMAGE038
Figure 100002_DEST_PATH_IMAGE040
其中
Figure 100002_DEST_PATH_IMAGE042
表示当前预测的图像帧k与其前2m帧中的第i个图像帧的外观特征距离,
Figure DEST_PATH_IMAGE043
Figure 100002_DEST_PATH_IMAGE044
均为加权的权重。
一种基于多帧输入与轨迹平滑的多目标跟踪装置,包括一个或多个处理器,用于实现所述的基于多帧输入与轨迹平滑的多目标跟踪方法。
一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现所述的基于多帧输入与轨迹平滑的多目标跟踪方法。
与现有的技术相比,本发明的有益效果为:1.通过构建片段型轨迹数据集可以使得多张图像中的同一个目标的不同角度同时监督特征提取模块的学***滑可以很好地过滤由于同类目标遮挡导致误匹配而带来的轨迹跳变;3.通过送入一段训练轨迹数据集,使得检测模块可以同时学习同一个目标在不同时刻的目标信息,在一定程度上提升了检测性能;4.通过特征与检测结果共享缓存模式,使得在部署时仅需要推理1帧图片而达到2m+1帧图片输入的效果。
附图说明
图1为本发明实施例提供的一种基于多帧输入与轨迹平滑的多目标跟踪方法流程示意图;
图2为本发明实施例提供的一种基于多帧输入与轨迹平滑的多目标跟踪方法的整体网络框架示意图;
图3为目前的存在身份互换问题的实施例示意图;
图4为本发明实施例提供的一种基于多帧输入与轨迹平滑的多目标跟踪装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
本发明提供一种基于多帧输入与轨迹平滑的多目标跟踪方法,以解决现有多目标跟踪算法由于同类目标遮挡导致的轨迹错接问题。本发明提出了基于多帧输入的检测与ReID特征提取的单阶段网络,采用Yolov5-L作为网络模型的主干,在网络尾端添加目标特征提取模块,通过单阶段网络同时获取行人目标的坐标以及外观特征;采用多帧输入,多帧目标特征匹配,在线轨迹平滑来降低错接率。
如图1所示,该方法具体包括以下步骤内容:
步骤S1:获取行人视频数据集并进行行人坐标以及行人轨迹的标注,并生成片段型轨迹数据;
具体地,所述进行行人坐标以及行人轨迹的标注是指利用专业标注软件对视频序列帧中的行人进行标注,包括标注目标框以及目标的身份识别ID号,ID号从1开始累加;
所述生成片段型轨迹数据是指对历史视频数据以固定的长度进行切割捆绑生成轨迹片段,轨迹片段之间可以有重叠帧也可以没有重叠帧,假设历史某时刻前后的一个轨迹片段由2m+1个图像序列帧组成,即该轨迹片段的数据由从某时刻图像帧之前m个图像帧至之后m个图像帧组成,m为正整数,片段型轨迹数据仅对图像帧序列号进行捆绑,不需要涉及图像的重复拷贝。
步骤S2:构造并训练基于多帧输入与轨迹平滑的行人多目标跟踪网络模型;
具体地,如图2所示,一种多帧输入的基于最短特征距离与轨迹平滑匹配的行人多目标跟踪网络模型主要由Yolov5-L主网络与多尺度特征提取模块组合而成,网络模型的输入图片尺寸为960*960,所述多尺度特征提取模块与Yolov5-L主网络的目标检测头Detect并行排列,所述Yolov5-L主网络通过目标检测头对输入图像进行目标检测,所述多尺度特征提取模块与目标检测头的输入相同,所述多尺度特征提取模块由一个3*3*256卷积层和一个1*1*256*3的卷积层组成,对目标进行特征提取;输入图像经过Yolov5-L主网络后再经过多尺度特征提取模块最终得到一张与输入图像尺寸一样的外观特征图,最终基于目标检测头Detect检测得到的目标框所属的预设边框,在外观特征图中截取得到目标框对应的外观特征,单个目标的外观特征维度为256维。
所述行人多目标跟踪网络模型的训练是采用所述片段型轨迹数据进行训练,将片段型轨迹数据的图像序列帧同时送入行人多目标跟踪网络模型进行推理,计算得到目标的坐标即目标框,以及外观特征,并基于所述目标的坐标与外观特征采用最短特征距离与轨迹曲率平滑函数进行匹配,同时通过总的损失函数求梯度进行行人多目标跟踪网络模型的后向推理。
所述行人多目标跟踪网络模型的特征提取与轨迹的匹配训练采用一种联合轨迹特征距离与拟合的损失函数来监督网络模型特征提取与轨迹匹配的学***滑损失函数加权平均得到。
对于特征空间的距离,采用特征向量夹角的余弦函数表示,则第i个图像帧中的目标框
Figure DEST_PATH_IMAGE045
与第i个图像帧真实标签目标框
Figure 92411DEST_PATH_IMAGE014
的特征距离表示为:
Figure DEST_PATH_IMAGE046
,i∈[1,2m+1],
当特征向量夹角越趋近于0度,则平均预测值越接近真实值,特征距离
Figure DEST_PATH_IMAGE048
也越趋近于0,否则特征距离
Figure DEST_PATH_IMAGE049
越趋近于1;因此,轨迹片段的轨迹特征距离损失函数表示为:
Figure 439210DEST_PATH_IMAGE008
假设所述轨迹片段一共形成x个目标的轨迹,计算第j个目标的轨迹在2m+1帧图像的平均轨迹曲率为
Figure 431436DEST_PATH_IMAGE018
,j∈[1,x],计算预测的目标轨迹与真实标签轨迹的平均轨迹曲率差值为
Figure DEST_PATH_IMAGE050
,其中
Figure 798964DEST_PATH_IMAGE020
为对应的真实标签轨迹的曲率,预测轨迹与真实标签轨迹的匹配采用曲线前端、中端、后端IOU匹配的规则进行匹配,即,在预测轨迹中取第一次目标出现的坐标以及中间出现的坐标和最后消失时的坐标与真实标签轨迹相应的第一次、中间、最后时段的坐标进行IOU匹配,如果平均IOU最大,则认为预测轨迹与真实轨迹为同一个轨迹,并基于所述平均轨迹曲率差值的计算公式计算预测轨迹与真实标签轨迹的拟合的损失函数即轨迹曲率平滑损失函数:
Figure DEST_PATH_IMAGE051
最终所述联合轨迹特征距离与拟合的损失函数表示为:
Figure 482667DEST_PATH_IMAGE024
Figure 23370DEST_PATH_IMAGE026
其中
Figure DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE053
均为加权的权重,基于
Figure 73365DEST_PATH_IMAGE032
来监督行人多目标跟踪网络模型在特征提取和轨迹匹配上的学习。
行人多目标跟踪网络模型检测训练常用的单帧目标检测模型中的L1损失函数,假设第i帧图像的目标检测的平均L1损失函数表示
Figure 611794DEST_PATH_IMAGE036
,则轨迹片段的所有图像的目标检测的平均L1损失函数用
Figure DEST_PATH_IMAGE054
表示。
最终行人多目标跟踪网络模型训练的总损失函数表示为
Figure 278399DEST_PATH_IMAGE002
步骤S3:基于训练得到的行人多目标跟踪网络模型进行推理,获取当前帧行人检测与特征提取结果以及其前几帧的行人检测与特征提取结果,即获取得到多帧图像目标的坐标及外观特征;
具体地,使用训练好的行人多目标跟踪网络模型检测得到的帧图像的行人目标框和其对应的外观特征,训练过程中采用前后m帧图像构成轨迹片段,但是在实际应用部署中采用前2m帧图像构成2m+1推理轨迹片段匹配,如此在实际推理中不需要每次对模型推理2m+1次,仅仅需要推理1次,而前2m帧的结果由之前的缓存得到。
步骤S4:利用多帧图像目标的坐标及外观特征进行最短特征距离匹配,并利用轨迹曲率平滑函数进行轨迹平滑,最终得到当前帧的轨迹。
具体地,基于2m+1帧的图像推理结果,基于最短特征距离匹配与轨迹曲率平滑原则,即匹配得到的轨迹使得当前预测的目标与其前2m帧的轨迹目标的平均特征距离与轨迹曲率加权和最小,加权和表示为:
Figure DEST_PATH_IMAGE055
Figure 793432DEST_PATH_IMAGE040
其中
Figure DEST_PATH_IMAGE056
表示当前预测的图像帧k与其前2m帧中的第i个图像帧的外观特征距离,
Figure 229092DEST_PATH_IMAGE043
Figure DEST_PATH_IMAGE057
均为加权的权重。
与前述基于多帧输入与轨迹平滑的多目标跟踪方法的实施例相对应,本发明还提供了基于多帧输入与轨迹平滑的多目标跟踪装置的实施例。
参见图4,本发明实施例提供的一种基于多帧输入与轨迹平滑的多目标跟踪装置,包括一个或多个处理器,用于实现上述实施例中的基于多帧输入与轨迹平滑的多目标跟踪方法。
本发明基于多帧输入与轨迹平滑的多目标跟踪装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明基于多帧输入与轨迹平滑的多目标跟踪装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于多帧输入与轨迹平滑的多目标跟踪方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于多帧输入与轨迹平滑的多目标跟踪方法,其特征在于,包括以下步骤:
步骤S1:获取行人视频数据集并进行行人坐标以及行人轨迹的标注,并生成片段型轨迹数据;
步骤S2:构造并训练基于多帧输入与轨迹平滑的行人多目标跟踪网络模型;
具体的,所述行人多目标跟踪网络模型的训练是采用所述片段型轨迹数据进行训练,将片段型轨迹数据的图像序列帧同时送入行人多目标跟踪网络模型进行推理,计算得到目标的坐标即目标框,以及外观特征,并基于所述目标的坐标与外观特征采用最短特征距离与轨迹曲率平滑函数进行匹配,同时利用总的损失函数求梯度进行行人多目标跟踪网络模型的后向推理;
所述总的损失函数是联合轨迹特征距离与拟合的损失函数与轨迹检测的平均L1损失函数加权平均的损失函数
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
表示联合轨迹特征距离与拟合的损失函数,
Figure DEST_PATH_IMAGE006
表示轨迹片段目标检测的平均L1损失函数;
所述联合轨迹特征距离与拟合的损失函数由轨迹特征距离损失函数与轨迹曲率平滑损失函数加权平均得到,对行人多目标跟踪网络模型的特征提取与轨迹匹配进行训练学习;
所述轨迹特征距离损失函数表示为:
Figure DEST_PATH_IMAGE008
其中,
Figure DEST_PATH_IMAGE010
,i∈[1,2m+1],表示第i个图像帧中的目标框
Figure DEST_PATH_IMAGE012
与第i个图像帧真实标签目标框
Figure DEST_PATH_IMAGE014
的特征距离,采用特征向量夹角的余弦函数表示,2m+1为轨迹片段的图像序列帧个数;
所述轨迹曲率平滑损失函数表示为:
Figure DEST_PATH_IMAGE016
其中,x表示在轨迹片段中形成的目标轨迹个数,
Figure DEST_PATH_IMAGE018
为预测的第j个目标的轨迹在2m+1帧图像的平均轨迹曲率,
Figure DEST_PATH_IMAGE020
为对应的真实标签轨迹的曲率,j∈[1,x],
Figure DEST_PATH_IMAGE022
为预测的目标轨迹与真实标签轨迹的平均轨迹曲率差值;所述匹配具体为预测目标轨迹与真实标签轨迹的匹配,采用曲线前端、中端、后端IOU匹配的规则进行匹配;
因此,所述联合轨迹特征距离与拟合的损失函数表示为:
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE026
其中
Figure DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE030
均为加权的权重,基于
Figure DEST_PATH_IMAGE032
来监督行人多目标跟踪网络模型在特征提取和轨迹匹配上的学习;
步骤S3:基于训练得到的行人多目标跟踪网络模型进行推理,获取当前帧行人目标检测与特征提取结果以及其前几帧的行人目标检测与特征提取结果,即获取得到多帧图像目标的坐标及外观特征;
步骤S4:利用多帧图像目标的坐标及外观特征进行最短特征距离匹配,并利用轨迹曲率平滑函数进行轨迹平滑,最终得到当前帧的轨迹,具体为:采用训练好的行人多目标跟踪网络模型,利用多帧图像目标的坐标及外观特征进行最短特征距离匹配,并进行轨迹平滑,匹配得到的轨迹使得目标与其前2m帧的轨迹目标的平均特征距离与轨迹曲率加权和最小,加权和表示为:
Figure DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE036
其中
Figure DEST_PATH_IMAGE038
表示当前预测的图像帧k与其前2m帧中的第i个图像帧的外观特征距离,
Figure DEST_PATH_IMAGE039
Figure DEST_PATH_IMAGE040
均为加权的权重。
2.如权利要求1所述的一种基于多帧输入与轨迹平滑的多目标跟踪方法,其特征在于,所述步骤S1,具体为:对获取的开源行人视频,利用标注软件对行人视频序列帧中的行人进行标注,包括标注目标框以及目标的身份识别ID号,ID号从1开始累加;然后对行人视频以固定的长度进行切割捆绑生成轨迹片段,轨迹片段由2m+1个图像序列帧组成,即该轨迹片段的数据由从某时刻图像帧之前m个图像帧至之后m个图像帧组成,m为正整数。
3.如权利要求1所述的一种基于多帧输入与轨迹平滑的多目标跟踪方法,其特征在于,所述行人多目标跟踪网络模型由Yolov5-L主网络与多尺度特征提取模块组合而成,所述多尺度特征提取模块与Yolov5-L主网络的目标检测头并行排列且输入相同,所述多尺度特征提取模块由一个3*3*256卷积层和一个1*1*256*3的卷积层组成;输入图像经过Yolov5-L主网络后再经过多尺度特征提取模块输出一张与输入图像尺寸一样的外观特征图,再基于目标检测头检测得到的目标框所属的预设边框,在外观特征图中截取得到目标框对应的外观特征。
4.如权利要求1所述的一种基于多帧输入与轨迹平滑的多目标跟踪方法,其特征在于,所述轨迹片段目标检测的平均L1损失函数表示为:
Figure DEST_PATH_IMAGE042
其中,
Figure DEST_PATH_IMAGE044
表示第i帧图像的目标检测的平均L1损失函数,2m+1为轨迹片段的图像序列帧个数。
5.一种基于多帧输入与轨迹平滑的多目标跟踪装置,其特征在于,包括一个或多个处理器,用于实现权利要求1至4中任一项所述的基于多帧输入与轨迹平滑的多目标跟踪方法。
6.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1至4中任一项所述的基于多帧输入与轨迹平滑的多目标跟踪方法。
CN202210856428.0A 2022-07-21 2022-07-21 一种基于多帧输入与轨迹平滑的多目标跟踪方法和装置 Active CN114998999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210856428.0A CN114998999B (zh) 2022-07-21 2022-07-21 一种基于多帧输入与轨迹平滑的多目标跟踪方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210856428.0A CN114998999B (zh) 2022-07-21 2022-07-21 一种基于多帧输入与轨迹平滑的多目标跟踪方法和装置

Publications (2)

Publication Number Publication Date
CN114998999A CN114998999A (zh) 2022-09-02
CN114998999B true CN114998999B (zh) 2022-12-06

Family

ID=83021963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210856428.0A Active CN114998999B (zh) 2022-07-21 2022-07-21 一种基于多帧输入与轨迹平滑的多目标跟踪方法和装置

Country Status (1)

Country Link
CN (1) CN114998999B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115342822B (zh) * 2022-10-18 2022-12-23 智道网联科技(北京)有限公司 路口轨迹数据渲染方法、装置及***
CN115880338B (zh) * 2023-03-02 2023-06-02 浙江大华技术股份有限公司 标注方法、标注装置及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135314A (zh) * 2019-05-07 2019-08-16 电子科技大学 一种基于深度轨迹预测的多目标跟踪方法
CN110349187A (zh) * 2019-07-18 2019-10-18 深圳大学 基于tsk模糊分类器的目标跟踪方法、装置及存储介质
CN111767847A (zh) * 2020-06-29 2020-10-13 佛山市南海区广工大数控装备协同创新研究院 一种集成目标检测和关联的行人多目标跟踪方法
CN111797738A (zh) * 2020-06-23 2020-10-20 同济大学 基于视频识别的多目标交通行为快速提取方法
CN114677633A (zh) * 2022-05-26 2022-06-28 之江实验室 基于多部件特征融合的行人检测多目标跟踪***及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103854273B (zh) * 2012-11-28 2017-08-25 天佑科技股份有限公司 一种近正向俯视监控视频行人跟踪计数方法和装置
US11341512B2 (en) * 2018-12-20 2022-05-24 Here Global B.V. Distinguishing between pedestrian and vehicle travel modes by mining mix-mode trajectory probe data
CN110378259A (zh) * 2019-07-05 2019-10-25 桂林电子科技大学 一种面向监控视频的多目标行为识别方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135314A (zh) * 2019-05-07 2019-08-16 电子科技大学 一种基于深度轨迹预测的多目标跟踪方法
CN110349187A (zh) * 2019-07-18 2019-10-18 深圳大学 基于tsk模糊分类器的目标跟踪方法、装置及存储介质
CN111797738A (zh) * 2020-06-23 2020-10-20 同济大学 基于视频识别的多目标交通行为快速提取方法
CN111767847A (zh) * 2020-06-29 2020-10-13 佛山市南海区广工大数控装备协同创新研究院 一种集成目标检测和关联的行人多目标跟踪方法
CN114677633A (zh) * 2022-05-26 2022-06-28 之江实验室 基于多部件特征融合的行人检测多目标跟踪***及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Fusion Approach for Multi-Frame Optical Flow Estimation;Zhile Ren 等;《2019 IEEE Winter Conference on Applications of Computer Vision (WACV)》;20190307;全文 *
Aerial image object detection based on improved YOLOv5;Qing Wen 等;《2022 2nd International Conference on Consumer Electronics and Computer Engineering (ICCECE)》;20220221;全文 *
基于YOLOv3与卡尔曼滤波的多目标跟踪算法;任珈民等;《计算机应用与软件》;20200512(第05期);全文 *

Also Published As

Publication number Publication date
CN114998999A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN114998999B (zh) 一种基于多帧输入与轨迹平滑的多目标跟踪方法和装置
Sakaridis et al. Map-guided curriculum domain adaptation and uncertainty-aware evaluation for semantic nighttime image segmentation
CN111627045B (zh) 单镜头下的多行人在线跟踪方法、装置、设备及存储介质
Han et al. Mat: Motion-aware multi-object tracking
Shin Yoon et al. Pixel-level matching for video object segmentation using convolutional neural networks
CN109426805B (zh) 用于对象检测的方法、设备和计算机程序产品
CN113034541B (zh) 目标跟踪方法、装置、计算机设备和存储介质
US9754178B2 (en) Long-term static object detection
CN109614910B (zh) 一种人脸识别方法和装置
Rajasegaran et al. Tracking people by predicting 3d appearance, location and pose
CN111754541A (zh) 目标跟踪方法、装置、设备及可读存储介质
CN106803263A (zh) 一种目标跟踪方法及装置
CN113159006B (zh) 基于人脸识别的考勤方法、***、电子设备和存储介质
CN111027555B (zh) 一种车牌识别方法、装置及电子设备
CN110298867A (zh) 一种视频目标跟踪方法
CN114677633A (zh) 基于多部件特征融合的行人检测多目标跟踪***及方法
Tao et al. An adaptive frame selection network with enhanced dilated convolution for video smoke recognition
Yang et al. Combining YOLOV3-tiny model with dropblock for tiny-face detection
Liu et al. Real-time anomaly detection on surveillance video with two-stream spatio-temporal generative model
CN111382606A (zh) 摔倒检测方法、摔倒检测装置和电子设备
Muhammad et al. Domain generalization via ensemble stacking for face presentation attack detection
CN110378515A (zh) 一种突发事件的预测方法、装置、存储介质和服务器
Choudhury et al. Scale aware deep pedestrian detection
Saif et al. Aggressive action estimation: a comprehensive review on neural network based human segmentation and action recognition
CN113762027B (zh) 一种异常行为的识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant