CN114743130A - 多目标行人跟踪方法及*** - Google Patents

多目标行人跟踪方法及*** Download PDF

Info

Publication number
CN114743130A
CN114743130A CN202210264036.5A CN202210264036A CN114743130A CN 114743130 A CN114743130 A CN 114743130A CN 202210264036 A CN202210264036 A CN 202210264036A CN 114743130 A CN114743130 A CN 114743130A
Authority
CN
China
Prior art keywords
target detection
track
target
result
detection frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210264036.5A
Other languages
English (en)
Inventor
刘海英
郑太恒
邓立霞
孙凤乾
王超平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202210264036.5A priority Critical patent/CN114743130A/zh
Publication of CN114743130A publication Critical patent/CN114743130A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了多目标行人跟踪方法及***,其中所述方法,包括:获取待处理视频;对待处理视频第一帧的多个目标行人进行标注;对待处理视频的非首帧进行目标检测,得到目标检测框;对目标检测框内的图像进行特征提取;对目标检测框进行状态预测和轨迹生成;基于特征提取结果、状态预测结果和轨迹生成结果,确定关联成本;将关联成本大于设定阈值的轨迹和目标检测框,进行匹配得到初步匹配结果;将未匹配的轨迹和未匹配的目标检测框,再次进行匹配;最后确定跟踪结果,完成多目标行人的跟踪任务。在保持精度的同时缩小模型权重大小。

Description

多目标行人跟踪方法及***
技术领域
本发明涉及多目标跟踪技术领域,特别是涉及多目标行人跟踪方法及***。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
目标跟踪一直是机器视觉领域比较富有挑战性的研究方向,近年来多目标跟踪变成了许多研究者的重点研究对象,多目标跟踪是为视频中不同物体赋予相应ID,并在后面所有帧中跟踪物体,不同物体具有不同ID,相同物体ID理论上一直不会变。与目标检测不同的是,目标跟踪可以在后续帧中精准查找同一物体,还可以实现物体的轨迹预测,这些特性使得多目标跟踪在自动驾驶、智能监控等方面有着大量应用空间。
近年来随着GPU设备不断更新换代,深度学习变成了研究热门,基于深度学习的目标跟踪有着与传统方法相比更高的准确率和实时性。其中经典的DeepSort多目标跟踪算法已经应用于许多方面,它对多目标跟踪中ID SWITCH,实时性差等问题提出了一系列解决方案。
传统DeepSort中检测器和特征提取器采用大规模神经网络,有着精度高,实时性强,漏检率、ID SWITCH少等优点。但同时使用成本较高,对于一些硬件条件差的小设备、移动端等没有足够的存储空间、GPU、散热来支撑算法运行。
发明内容
为了解决现有技术的不足,本发明提供了多目标行人跟踪方法及***;目标检测部分使用最新的yolov5,目标跟踪使用deepsort,在***中修改传统deepsort的特征提取网络,使用更加轻量化的ShuffleNetV2代替,在保持精度的同时缩小模型权重大小。
第一方面,本发明提供了多目标行人跟踪方法;
多目标行人跟踪方法,包括:
获取待处理视频;对待处理视频第一帧的多个目标行人进行标注;
对待处理视频的非首帧进行目标检测,得到目标检测框;
对目标检测框内的图像进行特征提取;
对目标检测框进行状态预测和轨迹生成;
基于特征提取结果、状态预测结果和轨迹生成结果,确定关联成本;
将关联成本大于设定阈值的轨迹和目标检测框,进行匹配得到初步匹配结果;将未匹配的轨迹和未匹配的目标检测框,再次进行匹配;最后确定跟踪结果,完成多目标行人的跟踪任务。
第二方面,本发明提供了多目标行人跟踪***;
多目标行人跟踪***,包括:
获取模块,其被配置为:获取待处理视频;对待处理视频第一帧的多个目标行人进行标注;
目标检测模块,其被配置为:对待处理视频的非首帧进行目标检测,得到目标检测框;
特征提取模块,其被配置为:对目标检测框内的图像进行特征提取;
状态预测和轨迹生成模块,其被配置为:对目标检测框进行状态预测和轨迹生成;
关联成本确定模块,其被配置为:基于特征提取结果、状态预测结果和轨迹生成结果,确定关联成本;
跟踪模块,其被配置为:将关联成本大于设定阈值的轨迹和目标检测框,进行匹配得到初步匹配结果;将未匹配的轨迹和未匹配的目标检测框,再次进行匹配;最后确定跟踪结果,完成多目标行人的跟踪任务。
第三方面,本发明还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
第四方面,本发明还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
第五方面,本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
与现有技术相比,本发明的有益效果是:
本发明使用基于上述原则提出的ShuffleNetV2网络于传统DeepSort结合,替换DeepSort***中的特征提取网络,大大降低了模型复杂程度、权重参数大小,ShuffleNetV2在ShuffleNetV1的基础上做了大量修改,修改了逐点卷积和瓶颈结构这种会增加内存访问成本的操作等。修改后的DeepSort可以实现在硬件设备差的低性能嵌入式终端设备上运行,增大了算法的应用性。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明的方法流程图;
图2(a)和图2(b)为ShuffleNetV2网络结构中block和下采样层结构示意图;
图3(a)和图3(b)为两种网络模型的大小对比;
图4为最终检测效果示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
实施例一
本实施例提供了多目标行人跟踪方法;
如图1所示,多目标行人跟踪方法,包括:
S101:获取待处理视频;对待处理视频第一帧的多个目标行人进行标注;
S102:对待处理视频的非首帧进行目标检测,得到目标检测框;
S103:对目标检测框内的图像进行特征提取;
S104:对目标检测框进行状态预测和轨迹生成;
S105:基于特征提取结果、状态预测结果和轨迹生成结果,确定关联成本;
S106:将关联成本大于设定阈值的轨迹和目标检测框,进行匹配得到初步匹配结果;将未匹配的轨迹和未匹配的目标检测框,再次进行匹配;最后确定跟踪结果,完成多目标行人的跟踪任务。
进一步地,所述S102:对待处理视频的非首帧进行目标检测,得到目标检测框;是采用训练后的Yolov5s目标检测网络来进行目标检测。
进一步地,Yolov5s目标检测网络,包括:依次连接的用于特征提取的CSPNet网络和用于特征融合的PANET网络。
进一步地,所述训练后的Yolov5s目标检测网络,训练过程包括:
构建第一训练集;其中,第一训练集为已知目标检测框的视频;
将第一训练集输入到Yolov5s目标检测网络中,对网络进行训练,得到训练后的Yolov5s目标检测网络。
示例性的,采用Yolov5s目标检测算法作为跟踪***的检测器,用于获得目标的BoudingBox,使用该算法能够保证跟踪***的精度、速度和可靠性;
所采用的yolov5s是通过减小Conv模块和CSPNet模块在整个神经网络中的数量,从而缩小了yolov5默认网络结构的宽度(width_multiple)和深度(depth_multiple),使检测器更加轻量、运行速度更快。相较于传统的跟踪算法所采用的基于人工特征提取的检测器或基于深度学习的two-stage、yolov3和改良的yolov3等检测器,本发明使用的yolov5s具备更好的性能和更快的速度,可以满足行人跟踪***在各种轻量化和嵌入式场景的需求。
yolov5s的网络结构分为主干网络(backbone)和特征融合网络(head),其中主干网络的使用CSPNet(Cross Stage Partial Networks)跨阶段局部网络模块,该模块的模型复杂度低,通过较小的计算量可以实现的梯度组合丰富。yolov5s的特征融合网络使用了路径聚合网络(PANET),将backbone层中的信息进行进一步的加工和处理,增强了对异常尺度目标的检测能力。在本发明中,通过配置pytorch的.yaml文件来拼接神经网络的各个模块,通过深度学习训练得到最终可用的检测器。
进一步地,所述S103:对目标检测框内的图像进行特征提取;具体包括:
采用训练后的特征提取网络ShuffleNet V2,对目标检测框内的图像进行特征提取。
进一步地,所述训练后的特征提取网络ShuffleNet V2;训练过程包括:
构建第二训练集;其中,第二训练集为已知特征标签的图像;
将第二训练集,输入到特征提取网络ShuffleNet V2,对网络进行训练,得到训练后的特征提取网络ShuffleNet V2。
示例性地,使用ShuffleNetV2作为骨干网络代替DeepSort原ReID网络中的特征提取网络对检测器中获得目标BoundingBox中图像进行特征提取。
进一步地,所述ShuffleNetV2网络是由Stage1-Stage7依次连接组成;
Stage1由卷积核大小为3*3步距为2的卷积层和步距为2的最大池化层组成;
Stage2由一层下采样和三层Block层组成;
Stage3由一层下采样和七层Block层组成;
Stage4由一层下采样和三层Block层组成;
Stage5由卷积核大小为1*1的卷积层组成;
Stage6由全局池化层组成;
Stage7由全连接层组成。
如图2(a)所示,在ShuffleNetV2网络结构中。
Block层引入Channel Split运算,在Block层接收到来自上一层的输出后,c个通道的输入被划分成两个分支,分别有c′和c-c′个通道。其中一个分支为恒等函数,另一个分支由三个卷积组成:两个1*1卷积和一个逐通道卷积。两分支最后经Concat拼接,从而保证通道数量保持不变,最后进行Channel Shuffle操作保证两分支间能进行信息交流。
如图2(b)所示,下采样层是对Block层进行了修改,删除了Channel Split运算,由一条经逐通道卷积层、1*1卷积层的分支与另一条经1*1卷积层、逐通道卷积层、1*1卷积层的分支Concat拼接后进行Channel Shuffle组成的。
进一步地,所述S104:对目标检测框进行状态预测和轨迹生成;具体包括:
采用卡尔曼滤波算法,对目标检测框进行状态预测;
结合卡尔曼滤波算法的结果,对目标检测框进行轨迹生成。
进一步地,采用卡尔曼滤波算法,对目标检测框进行状态预测;具体包括:
定义八维的状态空间
Figure BDA0003551920440000081
其中(u,v)为BoundingBox的中心坐标,γ为纵横比,h为BoundingBox的高,
Figure BDA0003551920440000082
为图像坐标中相应的速度。把BoundingBox坐标作为物体状态的直接测量,使用卡尔曼滤波器完成目标的状态估计。卡尔曼滤波器的输入值:每个轨迹的均值和方差。卡尔曼滤波器的输出值:返回给定状态估计的投影平均值和协方差矩阵。
进一步地,结合卡尔曼滤波算法的结果,对目标检测框进行轨迹生成;具体包括:
统计每个轨迹距离上次匹配成功的帧数ak,当卡尔曼滤波器预测轨迹(track)在下一帧的位置时,ak=ak+1,若某一轨迹在下一帧与检测的位置信息和外观特征关联上,则ak置0。
设置一个预定义的最大寿命值Amax,当ak>Amax时,删除轨迹;当ak≤Amax时,保留轨迹。
当检测的位置信息和外观特征不能与轨迹相匹配时,暂时定义它为一个新轨迹,试用期为3帧,若3帧内没有与之匹配的检测,删除轨迹。
进一步地,所述S105:基于特征提取结果、状态预测结果和轨迹生成结果,确定关联成本;具体包括:
计算预测状态与目标检测框之间的第一距离;
计算轨迹中已存储的特征向量与目标检测框内图像特征向量之间的第二距离;
对第一、第二距离进行加权求和,将求和结果作为关联成本。
进一步地,所述第一距离为马氏距离;第二距离为余弦距离。
示例性地,基于特征提取结果、状态预测结果和轨迹生成结果,确定关联成本;具体包括:
(1)合并运动信息时,计算卡尔曼预测状态和新检测目标框之间的马氏距离。
Figure BDA0003551920440000091
i表示第i个轨迹,j表示第j个检测。马氏距离通过测算检测与平均轨迹位置的距离超过多少标准差来考虑状态估计的不确定性。通过逆卡方分布计算阈值,排除可能性小的关联。
(2)合并外观信息时,在外观空间中计算轨迹和检测之间的最小余弦距离。
Figure BDA0003551920440000092
计算每一个检测经过ShuffleNetV2提取得到的特征向量与轨迹中已储存的特征向量计算余弦距离,其中轨迹中存储的特征向量数量通过budget参数设置,默认为100,每个检测与轨迹之间有budget个余弦距离,在此取数值最小的余弦距离作为检测与轨迹之间的余弦距离。
(3)关联问题的成本函数为以上两指标的加权和:
ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j)
当运动不确定性低时,马氏距离才能发挥效果,但在图像空间问题中,运用线性运动***估计的卡尔曼预测的状态分布只能提供粗略估计,所以当计算关联成本时,可以将参数λ看作无限小,仅使用外观信息进行关联。但基于外观信息的余弦距离和基于运动信息的马氏距离都必须小于其规定的阈值。
进一步地,所述S106:将关联成本大于设定阈值的轨迹和目标检测框,进行匹配得到初步匹配结果;将未匹配的轨迹和未匹配的目标检测框,再次进行匹配;最后确定跟踪结果,完成多目标行人的跟踪任务;具体包括:
采用匈牙利算法进行匹配得到初次匹配结果;
采用交并比IOU(Intersection over Union)匹配算法,对未匹配的轨迹和未匹配的目标检测框,再次进行匹配;最后确定跟踪结果,完成多目标行人的跟踪任务。
示例性地,级联匹配使用外观特征的余弦距离和马氏距离作为度量方法,级联匹配中一个轨迹的不确定性会随着它未匹配次数的增加而增加,因此要将最近匹配上的轨迹比其他轨迹有更高的匹配优先级。
检测和轨迹经过马氏距离和余弦距离处理过后生成的代价矩阵作为匈牙利算法的输入,得到线性匹配结果;
将未匹配的轨迹、未匹配的检测、未确认的卡尔曼预测结果再次进行IOU匹配。最后确定跟踪结果,完成多目标跟踪过程。
其中,一个轨迹在以往帧匹配上检测超过三次,转为确认状态;轨迹匹配检测低于三次视为未确认状态。
示例性地,所述方法还包括:制作数据集,用来训练算法中的检测器和特征提取器,对数据集进行预处理;
算法训练ReID特征提取网络时使用的数据集为行人重识别的Market-1501数据集。该数据集由清华大学采集,包括1501个行人,其中训练集包括751人,包含12936张图像,测试机包括750人,包含19732张图像;
对数据集进行数据预处理,原数据集中目录下即为具体图片文件,并没有体现id,利用数据预处理脚本文件将同一id的图像(同一个人)放在同一文件夹内,并将该文件夹命名为此人id。例如将Maket-1501中bounding_box_train下所有0001开头的图片放在预处理后的0001文件夹下,bounding_box_test下所有图片文件同理;
经过数据处理后,数据集大体分为训练集、验证集、Query、Gallery。通过训练集训练后得到的模型可以对Query和Gallery内图片提取特征并计算相似度,对于每个Query在Gallery中找出与其相似的图片。
示例性地,所述方法还包括:配置用于神经网络模型训练和测试的Python和Pytorch编程环境:
通过Anaconda创建虚拟环境,Pycharm作为集成开发环境。Anaconda是一个开源的Python发行版本,包含大量安装好的软件包可供深度学习开发使用。其中conda是一个开源的包、环境管理器,可实现在一台机器上便捷的安装不同的软件包、使用多个环境并在多环境间进行自由切换的功能。
使用pytorch深度学习框架。使用conda创建一个使用python3.7版本,名为torch1.7的环境,进入环境后安装pytorch1.7、CUDA、CUDNN以及运行程序所需的相关依赖包;
相关算法设计、训练通过NVIDIA RTX3060 GPU进行。为解决大量并行计算加快运行速度,需要安装NVIDIA推出的用于自家GPU的并行计算框架CUDA,同时安装用于深度神经网络的GPU加速库CUDNN。本发明所用CUDA和CUDNN版本均为11.0。
示例性地,所述方法包括:对轻量化后的模型进行测试,确保效果真实有效;
采用经过预处理后的数据集;
修改deepsort.yaml文件中REID_CKPT的路径为使用新模型重新训练后得到的权重地址;
修改特征提取器中模型为ShuffleNetV2,更改model_path和权重路径等参数,运行可执行文件观察实验结果。
使用yolov5s模型作为DeepSort的检测器,使用改进后的ShuffleNetV2替换DeepSort***中的特征提取网络,保证精度的前提下,把权重文件大小降低,使得内存小、无gpu、散热等硬件条件差的小设备也可以达到实时跟踪效果。
示例性地,数据集的收集与预处理;所述的数据集的收集与预处理,使用Market-1501数据集重新训练追踪器中的特征提取网络,首先使用dataset.py脚本将数据集中图片划分为训练集和测试集,并分别将数据集和测试集中同一id的图片放入同一文件夹下。
示例性地,配置虚拟环境,安装依赖包;所述的配置虚拟环境,安装依赖包,通过Anaconda创建虚拟环境,在虚拟环境中安装pytorch、cuda、cudnn以及运行程序所需相关依赖。使用Pycharm作为IDE,并调用conda创建的虚拟环境torch1.7。
示例性地,检测器和***的训练,使用改进后的ShuffleNetV2作为deepsort***中的特征提取网络,导入新模型,并将原模型删除,使用训练脚本文件train.py对新的特征提取网络进行训练,通过设置合适的epoch和batch size进行回归训练,直至损失收敛,保存当前的权值文件。
示例性地,测试模型效果中所述的测试模型效果,在特征提取器脚本文件导入修改后的ShuffleNetV2模型,修改特征提取器中所需的特征提取网络权重路径,使用此时修改后的deepsort用于多目标行人追踪,测试模型效果,观察ID Switch情况。
示例性地,本实验训练、测试的平台为红米RedmiG,具体硬件配置为NVIDIAGeForce RTX 3060(6G)、AMD Ryzen 7 5800H with Radeon Graphics。
示例性地,本实验采用python作为编译语言,采用pytorch深度学习框架,项目代码整体结构主要包括deep、sort、configs、yolov5、demo.py、tracker.py、requirements.txt等文件。其中sort文件夹用来存储追踪器所需要的一些工具,如kalman_filter.py存放卡尔曼滤波器相关代码、nn_matching.py通过计算马氏距离余弦距离等来计算最近邻距离、track.py存储轨迹信息等。configs文件目录下的deep_sort.yaml用来存放deepsort算法中一些重要参数。deep文件夹下用来存放特征提取网络模型结构、特征提取器、特征提取网络训练脚本文件等。requirements.txt用来下载运行程序的依赖包。
首先对数据集进行数据预处理,原数据集中目录下即为具体图片文件,利用数据预处理脚本文件dataset.py将同一id的图像(同一个人)放在同一文件夹内,并将该文件夹命名为此人id。例如将Maket-1501中bounding_box_train下所有0001开头的图片放在预处理后的0001文件夹下,经过数据处理后,数据集大体分为训练集、验证集、Query、Gallery。通过训练集训练后得到的模型可以对Query和Gallery内图片提取特征并计算相似度,对于每个Query在Gallery中找出与其相似的图片。运行数据预处理脚本后,在数据集文件夹内生成一个名为pytorch的文件夹,其中包含训练测试新网络模型用的train、val、query、gallery等文件夹,将其移动至deepsort的deep文件夹下。
打开deep文件夹内train.py文件,导入ShuffleNetV2模型结构,将数据集路径改为数据预处理后的名为pytorch的文件夹路径,设置训练轮数为100,batch-size设为24,num_workers设为0,在终端运行python-train.py开始训练。
在deep/checkpoint文件夹下找到名为ckpt.t8的权重文件,将根目录下configs内deep_sort.yaml文件中REID_CKPT权重文件路径修改为ckpt.t8的路径,继续更改deep文件夹下feature_extractor.py文件,导入ShuffleNetV2模型,更改model_path和权重路径等参数。运行测试可执行文件,得到实验结果,将实验结果和改进前网络训练的结果进行对比。
图3(a)和图3(b)为两种网络模型的大小对比;图4为最终检测效果示意图。
表1 ShuffleNetV2的网络结构示意图
Figure BDA0003551920440000141
实施例二
本实施例提供了多目标行人跟踪***;
多目标行人跟踪***,包括:
获取模块,其被配置为:获取待处理视频;对待处理视频第一帧的多个目标行人进行标注;
目标检测模块,其被配置为:对待处理视频的非首帧进行目标检测,得到目标检测框;
特征提取模块,其被配置为:对目标检测框内的图像进行特征提取;
状态预测和轨迹生成模块,其被配置为:对目标检测框进行状态预测和轨迹生成;
关联成本确定模块,其被配置为:基于特征提取结果、状态预测结果和轨迹生成结果,确定关联成本;
跟踪模块,其被配置为:将关联成本大于设定阈值的轨迹和目标检测框,进行匹配得到初步匹配结果;将未匹配的轨迹和未匹配的目标检测框,再次进行匹配;最后确定跟踪结果,完成多目标行人的跟踪任务。
此处需要说明的是,上述获取模块、目标检测模块、特征提取模块、状态预测和轨迹生成模块、关联成本确定模块和跟踪模块对应于实施例一中的步骤S101至S106,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的***,可以通过其他的方式实现。例如以上所描述的***实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个***,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.多目标行人跟踪方法,其特征是,包括:
获取待处理视频;对待处理视频第一帧的多个目标行人进行标注;
对待处理视频的非首帧进行目标检测,得到目标检测框;
对目标检测框内的图像进行特征提取;
对目标检测框进行状态预测和轨迹生成;
基于特征提取结果、状态预测结果和轨迹生成结果,确定关联成本;
将关联成本大于设定阈值的轨迹和目标检测框,进行匹配得到初步匹配结果;将未匹配的轨迹和未匹配的目标检测框,再次进行匹配;最后确定跟踪结果,完成多目标行人的跟踪任务。
2.如权利要求1所述的多目标行人跟踪方法,其特征是,对待处理视频的非首帧进行目标检测,得到目标检测框;是采用训练后的Yolov5s目标检测网络来进行目标检测;Yolov5s目标检测网络,包括:依次连接的用于特征提取的CSPNet网络和用于特征融合的PANET网络。
3.如权利要求1所述的多目标行人跟踪方法,其特征是,对目标检测框内的图像进行特征提取;具体包括:
采用训练后的特征提取网络ShuffleNet V2,对目标检测框内的图像进行特征提取;
所述ShuffleNetV2网络是由Stage1-Stage7依次连接组成;Stage1由卷积核大小为3*3步距为2的卷积层和步距为2的最大池化层组成;Stage2由一层下采样和三层Block层组成;Stage3由一层下采样和七层Block层组成;Stage4由一层下采样和三层Block层组成;Stage5由卷积核大小为1*1的卷积层组成;Stage6由全局池化层组成;Stage7由全连接层组成;
Block层引入Channel Split运算,在Block层接收到来自上一层的输出后,c个通道的输入被划分成两个分支,分别有c′和c-c′个通道;其中一个分支为恒等函数,另一个分支由三个卷积组成:两个1*1卷积和一个逐通道卷积;两分支最后经Concat拼接,从而保证通道数量保持不变,最后进行Channel Shuffle操作保证两分支间能进行信息交流;
下采样层是对Block层进行了修改,删除了Channel Split运算,由一条经逐通道卷积层、1*1卷积层的分支与另一条经1*1卷积层、逐通道卷积层、1*1卷积层的分支Concat拼接后进行Channel Shuffle组成的。
4.如权利要求1所述的多目标行人跟踪方法,其特征是,对目标检测框进行状态预测和轨迹生成;具体包括:
采用卡尔曼滤波算法,对目标检测框进行状态预测;
结合卡尔曼滤波算法的结果,对目标检测框进行轨迹生成;
采用卡尔曼滤波算法,对目标检测框进行状态预测;具体包括:
定义八维的状态空间
Figure FDA0003551920430000021
其中(u,v)为BoundingBox的中心坐标,γ为纵横比,h为BoundingBox的高,
Figure FDA0003551920430000022
为图像坐标中相应的速度;把BoundingBox坐标作为物体状态的直接测量,使用卡尔曼滤波器完成目标的状态估计;卡尔曼滤波器的输入值:每个轨迹的均值和方差;卡尔曼滤波器的输出值:返回给定状态估计的投影平均值和协方差矩阵;
结合卡尔曼滤波算法的结果,对目标检测框进行轨迹生成;具体包括:
统计每个轨迹距离上次匹配成功的帧数ak,当卡尔曼滤波器预测轨迹在下一帧的位置时,ak=ak+1,若某一轨迹在下一帧与检测的位置信息和外观特征关联上,则ak置0;设置一个预定义的最大寿命值Amax,当ak>Amax时,删除轨迹;当ak≤Amax时,保留轨迹;当检测的位置信息和外观特征不能与轨迹相匹配时,暂时定义它为一个新轨迹,试用期为3帧,若3帧内没有与之匹配的检测,删除轨迹。
5.如权利要求1所述的多目标行人跟踪方法,其特征是,基于特征提取结果、状态预测结果和轨迹生成结果,确定关联成本;具体包括:
计算预测状态与目标检测框之间的第一距离;
计算轨迹中已存储的特征向量与目标检测框内图像特征向量之间的第二距离;
对第一、第二距离进行加权求和,将求和结果作为关联成本;
所述第一距离为马氏距离;第二距离为余弦距离。
6.如权利要求1所述的多目标行人跟踪方法,其特征是,将关联成本大于设定阈值的轨迹和目标检测框,进行匹配得到初步匹配结果;将未匹配的轨迹和未匹配的目标检测框,再次进行匹配;最后确定跟踪结果,完成多目标行人的跟踪任务;具体包括:
采用匈牙利算法进行匹配得到初次匹配结果;
采用交并比IOU匹配算法,对未匹配的轨迹和未匹配的目标检测框,再次进行匹配;最后确定跟踪结果,完成多目标行人的跟踪任务。
7.如权利要求1所述的多目标行人跟踪方法,其特征是,所述方法还包括:配置用于神经网络模型训练和测试的Python和Pytorch编程环境:
配置虚拟环境,安装依赖包;所述的配置虚拟环境,安装依赖包,通过Anaconda创建虚拟环境,在虚拟环境中安装pytorch、cuda、cudnn以及运行程序所需相关依赖;使用Pycharm作为IDE,并调用conda创建的虚拟环境torch1.7。
8.多目标行人跟踪***,其特征是,包括:
获取模块,其被配置为:获取待处理视频;对待处理视频第一帧的多个目标行人进行标注;
目标检测模块,其被配置为:对待处理视频的非首帧进行目标检测,得到目标检测框;
特征提取模块,其被配置为:对目标检测框内的图像进行特征提取;
状态预测和轨迹生成模块,其被配置为:对目标检测框进行状态预测和轨迹生成;
关联成本确定模块,其被配置为:基于特征提取结果、状态预测结果和轨迹生成结果,确定关联成本;
跟踪模块,其被配置为:将关联成本大于设定阈值的轨迹和目标检测框,进行匹配得到初步匹配结果;将未匹配的轨迹和未匹配的目标检测框,再次进行匹配;最后确定跟踪结果,完成多目标行人的跟踪任务。
9.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-7任一项所述的方法。
10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行权利要求1-7任一项所述方法的指令。
CN202210264036.5A 2022-03-17 2022-03-17 多目标行人跟踪方法及*** Pending CN114743130A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210264036.5A CN114743130A (zh) 2022-03-17 2022-03-17 多目标行人跟踪方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210264036.5A CN114743130A (zh) 2022-03-17 2022-03-17 多目标行人跟踪方法及***

Publications (1)

Publication Number Publication Date
CN114743130A true CN114743130A (zh) 2022-07-12

Family

ID=82277239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210264036.5A Pending CN114743130A (zh) 2022-03-17 2022-03-17 多目标行人跟踪方法及***

Country Status (1)

Country Link
CN (1) CN114743130A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523970A (zh) * 2023-07-05 2023-08-01 之江实验室 基于二次隐式匹配的动态三维目标跟踪方法及装置
CN117576167A (zh) * 2024-01-16 2024-02-20 杭州华橙软件技术有限公司 多目标跟踪方法、多目标跟踪装置及计算机存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523970A (zh) * 2023-07-05 2023-08-01 之江实验室 基于二次隐式匹配的动态三维目标跟踪方法及装置
CN116523970B (zh) * 2023-07-05 2023-10-20 之江实验室 基于二次隐式匹配的动态三维目标跟踪方法及装置
CN117576167A (zh) * 2024-01-16 2024-02-20 杭州华橙软件技术有限公司 多目标跟踪方法、多目标跟踪装置及计算机存储介质
CN117576167B (zh) * 2024-01-16 2024-04-12 杭州华橙软件技术有限公司 多目标跟踪方法、多目标跟踪装置及计算机存储介质

Similar Documents

Publication Publication Date Title
Akyon et al. Slicing aided hyper inference and fine-tuning for small object detection
Zuraimi et al. Vehicle detection and tracking using YOLO and DeepSORT
Jana et al. YOLO based Detection and Classification of Objects in video records
US20180129742A1 (en) Natural language object tracking
CN106845430A (zh) 基于加速区域卷积神经网络的行人检测与跟踪方法
CN114743130A (zh) 多目标行人跟踪方法及***
CN112734803B (zh) 基于文字描述的单目标跟踪方法、装置、设备及存储介质
CN111461212A (zh) 一种用于点云目标检测模型的压缩方法
Ciberlin et al. Object detection and object tracking in front of the vehicle using front view camera
CN110598586A (zh) 一种目标检测方法及***
CN112132130B (zh) 一种面向全场景的实时性车牌检测方法及***
KR20230123880A (ko) 컴퓨터 비전 시스템에서 이중 값 주의 및 인스턴스 경계 인식 회귀를 위한 시스템 및 방법
CN114998601B (zh) 基于Transformer的在线更新目标跟踪方法及***
KR20220098312A (ko) 이미지 내 관련 대상 검출 방법, 장치, 디바이스 및 기록 매체
US20220300774A1 (en) Methods, apparatuses, devices and storage media for detecting correlated objects involved in image
CN114764870A (zh) 对象定位模型处理、对象定位方法、装置及计算机设备
CN114792401A (zh) 行为识别模型的训练方法、装置、设备及存储介质
CN116958873A (zh) 行人跟踪方法、装置、电子设备及可读存储介质
Park et al. Intensity classification background model based on the tracing scheme for deep learning based CCTV pedestrian detection
CN116168438A (zh) 关键点检测方法、装置及电子设备
CN113609948B (zh) 一种视频时序动作的检测方法、装置及设备
Albouchi et al. Deep Learning-Based Object Detection Approach for Autonomous Vehicles
CN114612520A (zh) 一种多目标跟踪方法、装置及***
CN114329070A (zh) 视频特征提取方法、装置、计算机设备和存储介质
Jokela Person counter using real-time object detection and a small neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination