CN112183450B - 一种多目标跟踪方法 - Google Patents
一种多目标跟踪方法 Download PDFInfo
- Publication number
- CN112183450B CN112183450B CN202011103327.3A CN202011103327A CN112183450B CN 112183450 B CN112183450 B CN 112183450B CN 202011103327 A CN202011103327 A CN 202011103327A CN 112183450 B CN112183450 B CN 112183450B
- Authority
- CN
- China
- Prior art keywords
- formula
- feature
- frame
- loss
- target tracking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000005070 sampling Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000005516 engineering process Methods 0.000 claims abstract description 8
- 238000001514 detection method Methods 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 2
- 238000013139 quantization Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 7
- 239000010410 layer Substances 0.000 description 7
- 238000011176 pooling Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 241001239379 Calophysus macropterus Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多目标跟踪方法,属于目标跟踪技术领域。本发明包括以下步骤:搜集开源的目标跟踪数据集并创建多类多目标跟踪数据集MCMOUD;以MCMOT算法框架创建多类多目标跟踪模型,在MCMOUD上训练和验证多类多目标跟踪模型;在MCMOUD上评估MCMOT算法的性能。通过创新性的身份重识别特征采样技术和类别不可知的实例级特征提取技术,解决现有多目标跟踪方法耗时过大、或者跟踪精度较低,无法进行多类别多目标跟踪等问题。
Description
技术领域
本发明涉及目标跟踪技术领域,尤其是一种多目标跟踪方法。
背景技术
多目标跟踪是计算机视觉领域非常重要的分支之一,其目的是获取视频中任意数量目标的轨迹,并预测目标将来的运动趋势。多目标跟踪也是行为识别、公共安全、体育视频分析、老年人照料、人机交互等下游视觉任务的重要基石之一,其性能直接影响整个计算机视觉***的性能。
多目标跟踪多采用检测然后跟踪的策略来实现,即先检测出每一帧的所有目标,然后采用数据关联算法实现不同帧同一目标的关联。近年来,随着深度学习在计算机视觉领域的广泛应用,目标检测和数据关联算法均取得了巨大的进步,间接推动了多目标跟踪技术的进步。
然而,这类方法没有共享特征机制,需要构建独立的模型分别实现检测和跟踪,所以很难以实时帧率运算。这严重限制了这类多目标跟踪算法在实际业务场景的商业化运行。最近多任务学习技术的进展给多目标跟踪领域引入了新的思路。
JDE作为联合训练检测和嵌入的早期算法,采用了多任务特征共享机制,第一次实现了实时的多目标跟踪。然而这类检测并学习重识别特征的方法,和检测然后跟踪之类的方法比,其跟踪精度普遍偏低,有几方面的原因。
一是这类方法存在锚框和重识别特征不对齐的问题。为了平衡精度和速度,最终的特征图经过了数倍的下采样,锚框中心和该中心提取的重识别特征存在一定程度的不匹配,导致目标身份预测的精度不高。
二是目标检测和目标跟踪的分类存在一定程度的冲突。分类要求类内差距尽可能小,类间差距尽可能大。对于目标检测,类指的是语义类;对于目标跟踪,类指的是实例类(不同帧的同一个目标属于同一类)。跟踪的不同目标可能属于同一语义类,可见检测和跟踪任务中分类器的学习目标存在冲突。
更为关键的问题是,上述两种主流的多目标跟踪策略,目前都侧重于解决单类多目标跟踪问题,对多类多目标跟踪问题的研究非常欠缺,尚无成熟的解决方案。
发明内容
本发明专利提出了一种多目标跟踪方法,通过创新性的身份重识别特征采样技术和类别不可知的实例级特征提取技术,解决现有多目标跟踪方法耗时过大、或者跟踪精度较低,无法进行多类别多目标跟踪等问题。
为了实现上述目的,本发明采用以下技术方案:
一种多目标跟踪方法,包括以下步骤:
搜集开源的目标跟踪数据集并创建多类多目标跟踪数据集MCMOUD;
以MCMOT算法框架创建多类多目标跟踪模型,在MCMOUD上训练和验证多类多目标跟踪模型;
在MCMOUD上评估MCMOT算法的性能。
进一步的,所述搜集开源的目标跟踪数据集并创建多类多目标跟踪数据集MCMOUD,包括:从互联网上获取Caltech Pedestrian、CityPersons、CUHK-SYSU、PRW、ETHZ、MOT-16、MOT-17、MOT-20目标跟踪数据集;
将所有图像或视频的标注数据转换为MCMOUD数据集标注数据格式并汇总形成所述数据集MCMOUD。
进一步的,所述MCMOUD数据集标注数据格式,结构如下:
MCMOUD数据集标注数据格式
进一步的,所述MCMOT算法框架包括骨干网、任务头和损失三个部分,骨干网采用以ResNet-50为核心的特征金字塔网络;任务头包括跟踪所需的嵌入特征学习和检测所需的分类回归分别由独立的分支负责,检测和跟踪任务仅共享骨干网和FPN部分的特征;损失包括基于身份重识别特征采样方法的类别损失、边框损失及嵌入特征损失。
进一步的,所述骨干网采用以ResNet-50的数据结构如下:
ResNet50骨干网配置
进一步的,所述Conv3x、Conv4x、Conv5x各自后续残差模块均保持特征图分辨率和输出通道不变,所有的残差模块的第一个卷积将特征图通道数压缩为模块期望输出通道数的四分之一,第二个卷积作为瓶颈层保持特征图的通道数不变,第三个卷积将特征图的通道数扩张为模块期望输出的通道数。
进一步的,所述特征金字塔网络的构建方法如下:在自底向上的过程中,Conv2x、Conv3x、Conv4x和Conv5x的最后一层的输出作为构建FPN的参考特征图,各自经一个3×3、步长为1的卷积运算将通道数固定为256通道;
在自顶向下过程中,上一级金字塔特征图经上采样将大小扩增两倍,然后和下一级参考特征图逐点相加融合,作为当前级的金字塔特征图,采用同样的方法获取下面所有等级的金字塔特征图构成特征金字塔网络。
进一步的,所述任务头预测输出的计算方法如公式1、公式2和公式3所示:
公式(1)计算类别概率预测值,θcls、φcls、φcls是类别分支不同阶段卷积核参数,不同锚框以及不同任务头中这部分参数是共享的;公式(2)计算目标的边框参数预测值,θbox、φbox、φbox是边框分支不同阶段卷积核参数,不同锚框以及不同任务头中这部分参数是共享的;公式(3)计算跟踪的嵌入特征预测值,αemb和βemb是检测分支不同阶段卷积核参数,不同锚框以及不同任务头中这部分参数同样地是共享的;Fi(i=0,1,2,3)是FPN输出的特征图经一个3×3、步长为1的卷积运算之后的特征图;
进一步的,所述类别损失的计算方法如公式9,其中的αt和γ是超参;边框损失的计算方法如公式10,嵌入特征损失的计算方法如公式11,最后的损失为四个任务头的K个锚框各自的类别损失、边框损失和嵌入损失之和;
进一步的,所述在MCMOUD上训练和验证多类多目标跟踪模型,包括:在包括类别和边框的检测分支,对于每个锚框,如果和某个基准框的交并面积比大于0.5,就将该锚框视分配给该基准框,否则将该锚框视为背景;对于每一个基准框,将交并面积比最大的锚框分配给它;在跟踪分支,对于每个锚框,如果和某个基准框的交并面积比大于0.7,就将该锚框视分配给该基准框,否则将该锚框视为背景。
本发明与现有技术相比具有的有益效果是:
(1)以创新性的身份重识别特征采样技术取代传统的量化特征采样技术,彻底解决锚框和重识别特征不对齐的问题;
(2)以实例级特征提取技术取代传统的类别和嵌入特征协同提取技术,彻底解决目标检测和目标跟踪分类学习存在冲突的问题;
(3)创新性的类别不可知重识别特征提取技术,解决了当前多目标跟踪技术无法处理多类别跟踪的问题。
附图说明
图1是实施例中MCMOT特征金字塔构建方法。
图2是实施例中MCMOT任务头结构。
图3是实施例中身份重识别特征采样方法。
具体实施方式
下面结合实施例对本发明作进一步的描述,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域的普通技术人员在没有做出创造性劳动前提下所获得的其他所用实施例,都属于本发明的保护范围。
实施例1:
如图1-3所示,一种多目标跟踪方法,包括以下步骤:
一种多目标跟踪方法,包括以下步骤:
搜集开源的目标跟踪数据集并创建多类多目标跟踪数据集MCMOUD;
以MCMOT算法框架创建多类多目标跟踪模型,在MCMOUD上训练和验证多类多目标跟踪模型;
在MCMOUD上评估MCMOT算法的性能。
具体实施方法如下:
创建多类多目标跟踪数据集MCMOUD。从互联网上获取Caltech Pedestrian、CityPersons、CUHK-SYSU、PRW、ETHZ、MOT-16、MOT-17、MOT-20等8个目标跟踪数据集,将所有图像或视频的标注数据转换为如表1所示的格式。汇总所有的图像或视频及转换了格式的标注数据形成所述数据集MCMOUD,该数据集包含行人、车辆等多类运动目标。
表1 MCMOUD数据集标注数据格式
构建多类多目标跟踪算法框架MCMOT。MCMOT算法框架主要包括骨干网、任务头和损失三个部分。骨干网采用以ResNet-50为核心的特征金字塔网络(Feature PyramidNetwork,FPN)。ResNet-50的详细配置参见表2。Conv1是单层卷积,卷积核大小为7,卷积核数量为64,卷积步长为2,将输入图像的分辨率从1024×1024降低到512×512。Conv2x包括一层最大池化和3组残差模块,最大池化的池化核大小为3,池化步长为2,将Conv1的输出大小降低两倍,随后的残差模块不改变特征图的分辨率。Conv2x的输出特征有256个通道。Conv3x、Conv4x、Conv5x各自的第一个残差模块执行2倍下采样,分别将特征图的大小降低到128、64和32,通道数却分别扩增为512、1024和2048。Conv3x、Conv4x、Conv5x各自后续残差模块均保持特征图分辨率和输出通道不变。所有的残差模块的第一个卷积将特征图通道数压缩为模块期望输出通道数的四分之一,第二个卷积作为瓶颈层保持特征图的通道数不变,第三个卷积将特征图的通道数扩张为模块期望输出的通道数。
表2 ResNet50骨干网配置
特征金字塔的构建方法如图1所示。在自底向上的过程中,Conv2x、Conv3x、Conv4x和Conv5x的最后一层的输出作为构建FPN的参考特征图,各自经一个3×3、步长为1的卷积运算将通道数固定为256通道。在自顶向下过程中,上一级金字塔特征图经上采样将大小扩增两倍,然后和下一级参考特征图逐点相加融合,作为当前级的金字塔特征图,采用同样的方法获取下面所有等级的金字塔特征图。这种不同细粒度特征图融合的策略,结合了低层特征富含细节信息和高层特征富含语义信息的优点,有助于提高多尺度目标的检测和跟踪精度。
任务头的设计是本发明专利重要的创新之处。不同于传统的检测和重识别特征联合学习方法,本发明专利提出的类别不可知的实例级特征提取技术,将不同锚框的检测和跟踪任务学习解耦,同时将检测任务中的分类和跟踪任务中的重识别特征提取彻底解耦,避免检测和跟踪任务中分类器学习目标冲突的问题,同时该方法可支持多类别多目标跟踪,解决当前的多目标跟踪算法无法处理多类跟踪的问题。
如图2所示是本发明专利提出的任务头结构。图中的Fi(i=0,1,2,3)是FPN输出的特征图经一个3×3、步长为1的卷积运算之后的特征图,这个卷积层的作用是减轻上采样引入的混叠和失真效应。从任务头输入Fi开始,跟踪所需的嵌入特征学习和检测所需的分类回归分别由独立的分支负责,检测和跟踪任务仅共享骨干网和FPN部分的特征。图2中的K表示该任务头每个点的锚框个数,*m1表示m1个3×3卷积,*m2和*m3的含义类似。检测的类别、边框两个分支,以及跟踪分支的最后一层是3×3卷积,将各自特征图的通道数规范到指定的数值。
如果需要跟踪的类别数量为#classes,那么类别分支最终输出的通道数就是#classes。边框分支需要预测横坐标、纵坐标、宽度和长度,所以该分支的最终输出通道数是4。记嵌入特征的维度为dim_embed,那么嵌入分支最终输出的通道数为dim_embed。任务头预测输出的计算方法如公式(1)、公式(2)和公式(3)所示。公式(1)计算类别概率预测值,θcls、φcls、φcls是类别分支不同阶段卷积核参数,不同锚框以及不同任务头中这部分参数是共享的。公式(2)计算目标的边框参数预测值,θbox、φbox、φbox是边框分支不同阶段卷积核参数,不同锚框以及不同任务头中这部分参数是共享的。公式(3)计算跟踪的嵌入特征预测值,αemb和βemb是检测分支不同阶段卷积核参数,不同锚框以及不同任务头中这部分参数同样地是共享的;表示类别概率预测值;/>表示边框参数预测值;/>表示嵌入特征预测值;i表示头标号,k表示锚框标号。
除了任务头结构的创新性设计以外,新型身份重识别特征采样技术同样非常重要。和传统的基于量化坐标的特征最近邻采样法不同,本发明专利提出的身份重识别特征采样技术,采用实数坐标而不是量化坐标来获取特征值。当采用实数坐标提取特征值时,需要同时考虑其周边的四个有效坐标的特征值,如图所3示。
假设某个目标经下采样后中心坐标为(x,y),(x,y)是相对最终的特征图坐标系而言的坐标。由于(x,y)是实数坐标,特征图的网格是量化之后的整数网格,无法直接提取此处的特征。采用逐通道双线性插值的方法计算(x,y)之处的特征。按照公式(4)、公式(5)、公式(6)和公式(7)计算离(x,y)最近的四个整数坐标,并提取各自的特征向量。公式(4)和公式(5)中的s表示下采样率。假设(x1,y1)的特征向量为E1,(x2,y1)的特征向量为E2,(x1,y2)的特征向量为E3,(x2,y2)的特征向量为E4,(x,y)的特征向量为E,那么按照公式(8)计算E。E12,E24为中间变量,E是特征向量。
x2=x1+1 (公式6)
y2=y1+1 (公式7)
任务头需要配备类别、边框及嵌入特征三个分支的损失函数。类别损失采用FocalLoss,其计算方法参考公式(9),其中的αt和γ是超参,p表示类别概率预测值。边框损失采用Smooth L1,其计算方法参考公式(10),Xi表示边框参数预测值,Yi表示边框参数真实值。将嵌入特征的学习视为分类问题,采用交叉熵计算其损失,计算方法参考公式(11),公式(11)中,Xi,xj为嵌入特征预测值。最后的总损失为四个任务头的K个锚框各自的类别、边框和嵌入损失之和。
在MCMOUD数据集上训练和验证多类多目标跟踪模型。在包括类别和边框的检测分支,对于每个锚框,如果和某个基准框的交并面积比大于0.5,就将该锚框视分配给该基准框,否则将该锚框视为背景;对于每一个基准框,将交并面积比最大的锚框分配给它。在跟踪分支,对于每个锚框,如果和某个基准框的交并面积比大于0.7,就将该锚框视分配给该基准框,否则将该锚框视为背景。
在PyTorch框架下利用冲量随机梯度下降法训练MCMOT模型(多类多目标跟踪模型),权重衰减率设定为0.00004,冲量设置为0.9。训练的批次大小设定为32,#classes设置为MCMOUD数据集中的类别数量(包括背景),dim_embed设定为256,αt和γ分别设置为0.25和2。训练分为两阶段,第一阶段先移除嵌入分支,在COCO数据集上预训练;第二阶段用预训练模型初始化MCMOT模型参数,采用线性学习率预热策略,在最初的1000个批次逐步将学习率增长到基准学习率0.001,然后在第25和37个周期分别将学习率衰减10倍,总共训练50个周期。预训练模型指的是在COCO数据集上预训练得到的模型。
在MCMOUD数据集上评估MCMOT算法的性能。在MCMOT算法的推理阶段,模型的预测输出包括{C1×#classes×i×j,B1×4×i×j,E1×dim_embed×i×j},其中的(i,j)∈{(32,32),(64,64),(128,128),(256,256)},C表示类别概率预测值,B表示边框参数预测值,E表示嵌入特征预测值。在类别概率C上获取所有非背景、类别概率大于0.5的点的坐标,然后以该坐标提取B上相应位置的边框参数、提取E上同样位置的嵌入特征向量。将预测的目标表示为(#classes+4+dim_embed)维向量,汇总所有目标为集合{Ti,i∈1,2,...,N}。采用非最大值抑制算法移除多余的重叠目标,然后综合考虑嵌入特征距离和空间距离,建立目标的动力学模型,采用卡尔曼滤波算法关联不同帧的同一个目标,形成该目标的轨迹。最后利用开源的MOT开发工具包评估MCMOT算法的MOTA、IDF1、MT、ML、IDs、FPSD、FPSA和FPS等指标。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种多目标跟踪方法,其特征在于,包括以下步骤:
搜集开源的目标跟踪数据集并创建多类多目标跟踪数据集MCMOUD;
以MCMOT算法框架创建多类多目标跟踪模型,在MCMOUD上训练和验证多类多目标跟踪模型;
在MCMOUD上评估MCMOT算法的性能;所述MCMOT算法框架包括骨干网、任务头和损失三个部分,骨干网采用以ResNet-50为核心的特征金字塔网络;任务头包括跟踪所需的嵌入特征学习和检测所需的分类回归分别由独立的分支负责,检测和跟踪任务仅共享骨干网和FPN部分的特征;损失包括基于身份重识别特征采样方法的类别损失、边框损失及嵌入特征损失;
所述任务头预测输出的计算方法如公式(1)、公式(2)和公式(3)所示:
公式(1)计算类别概率预测值,θcls、φcls是类别分支不同阶段卷积核参数,不同锚框以及不同任务头中这部分参数是共享的;公式(2)计算目标的边框参数预测值,θbox、φbox是边框分支不同阶段卷积核参数,不同锚框以及不同任务头中这部分参数是共享的;公式(3)计算跟踪的嵌入特征预测值,αemb和βemb是检测分支不同阶段卷积核参数,不同锚框以及不同任务头中这部分参数同样地是共享的;Fi(i=0,1,2,3)是FPN输出的特征图经一个3×3、步长为1的卷积运算之后的特征图;
身份重识别特征采样技术,采用实数坐标而不是量化坐标来获取特征值;当采用实数坐标提取特征值时,需要同时考虑其周边的四个有效坐标的特征值;
假设某个目标经下采样后中心坐标为(x,y),(x,y)是相对最终的特征图坐标系而言的坐标;由于(x,y)是实数坐标,特征图的网格是量化之后的整数网格,无法直接提取此处的特征;采用逐通道双线性插值的方法计算(x,y)之处的特征;按照公式(4)、公式(5)、公式(6)和公式(7)计算离(x,y)最近的四个整数坐标,并提取各自的特征向量;公式(4)和公式(5)中的s表示下采样率;假设(x1,y1)的特征向量为E1,(x2,y1)的特征向量为E2,(x1,y2)的特征向量为E3,(x2,y2)的特征向量为E4,(x,y)的特征向量为E,那么按照公式(8)计算E,E13,E24为中间变量,E是特征向量;
x2=x1+1公式(6)
y2=y1+1公式(7)
2.根据权利要求1所述的一种多目标跟踪方法,其特征在于,所述搜集开源的目标跟踪数据集并创建多类多目标跟踪数据集MCMOUD,包括:从互联网上获取Caltech Pedestrian、CityPersons、CUHK-SYSU、PRW、ETHZ、MOT-16、MOT-17、MOT-20目标跟踪数据集;
将所有图像或视频的标注数据转换为MCMOUD数据集标注数据格式并汇总形成所述数据集MCMOUD。
3.根据权利要求2所述的一种多目标跟踪方法,其特征在于,所述MCMOUD数据集标注数据格式,数据结构如下:
MCMOUD数据集标注数据格式
4.根据权利要求1所述的一种多目标跟踪方法,其特征在于,所述骨干网采用以ResNet-50的数据结构如下:
ResNet50骨干网配置
5.根据权利要求4所述的一种多目标跟踪方法,其特征在于,所述Conv3x、Conv4x、Conv5x各自后续残差模块均保持特征图分辨率和输出通道不变,所有的残差模块的第一个卷积将特征图通道数压缩为模块期望输出通道数的四分之一,第二个卷积作为瓶颈层保持特征图的通道数不变,第三个卷积将特征图的通道数扩张为模块期望输出的通道数。
6.根据权利要求5所述的一种多目标跟踪方法,其特征在于,所述特征金字塔网络的构建方法如下:在自底向上的过程中,Conv2x、Conv3x、Conv4x和Conv5x的最后一层的输出作为构建FPN的参考特征图,各自经一个3×3、步长为1的卷积运算将通道数固定为256通道;
在自顶向下过程中,上一级金字塔特征图经上采样将大小扩增两倍,然后和下一级参考特征图逐点相加融合,作为当前级的金字塔特征图,采用同样的方法获取下面所有等级的金字塔特征图构成特征金字塔网络。
7.根据权利要求1所述的一种多目标跟踪方法,其特征在于,所述类别损失的计算方法如公式(9),其中的αt和γ是超参;边框损失的计算方法如公式(10),嵌入特征损失的计算方法如公式(11),最后的损失为四个任务头的K个锚框各自的类别损失、边框损失和嵌入损失之和;
任务头需要配备类别、边框及嵌入特征三个分支的损失函数;类别损失采用FocalLoss,其计算方法参考公式(9),其中的αt和γ是超参,p表示类别概率预测值;边框损失采用Smooth L1,其计算方法参考公式(10),Xi表示边框参数预测值,Yi表示边框参数真实值;将嵌入特征的学习视为分类问题,采用交叉熵计算其损失,计算方法参考公式(11),公式(11)中,Xi,xj为嵌入特征预测值;最后的总损失为四个任务头的K个锚框各自的类别、边框和嵌入损失之和;
8.根据权利要求1所述的一种多目标跟踪方法,其特征在于,所述在MCMOUD上训练和验证多类多目标跟踪模型,包括:在包括类别和边框的检测分支,对于每个锚框,如果和某个基准框的交并面积比大于0.5,就将该锚框视分配给该基准框,否则将该锚框视为背景;对于每一个基准框,将交并面积比最大的锚框分配给它;在跟踪分支,对于每个锚框,如果和某个基准框的交并面积比大于0.7,就将该锚框视分配给该基准框,否则将该锚框视为背景。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011103327.3A CN112183450B (zh) | 2020-10-15 | 2020-10-15 | 一种多目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011103327.3A CN112183450B (zh) | 2020-10-15 | 2020-10-15 | 一种多目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112183450A CN112183450A (zh) | 2021-01-05 |
CN112183450B true CN112183450B (zh) | 2024-05-28 |
Family
ID=73949625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011103327.3A Active CN112183450B (zh) | 2020-10-15 | 2020-10-15 | 一种多目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183450B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112785627A (zh) * | 2021-02-02 | 2021-05-11 | 电子科技大学 | 一种基于重识别技术的多目标跟踪方法 |
CN113132931B (zh) * | 2021-04-16 | 2022-01-28 | 电子科技大学 | 一种基于参数预测的深度迁移室内定位方法 |
CN113627269B (zh) * | 2021-07-16 | 2023-04-28 | 中国科学院合肥物质科学研究院 | 基于解耦分类和回归特征最优层技术的害虫目标检测方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6956569B1 (en) * | 2000-03-30 | 2005-10-18 | Nec Corporation | Method for matching a two dimensional image to one of a plurality of three dimensional candidate models contained in a database |
CN104020466A (zh) * | 2014-06-17 | 2014-09-03 | 西安电子科技大学 | 基于变结构多模型的机动目标跟踪方法 |
CN104268857A (zh) * | 2014-09-16 | 2015-01-07 | 湖南大学 | 一种基于机器视觉的快速亚像素边缘检测与定位方法 |
KR20190023389A (ko) * | 2017-08-29 | 2019-03-08 | 인하대학교 산학협력단 | 변화점 검출을 활용한 다중클래스 다중물체 추적 방법 |
CN109977978A (zh) * | 2017-12-28 | 2019-07-05 | 中兴通讯股份有限公司 | 一种多目标检测方法、装置及存储介质 |
CN110378348A (zh) * | 2019-07-11 | 2019-10-25 | 北京悉见科技有限公司 | 视频实例分割方法、设备及计算机可读存储介质 |
KR102031503B1 (ko) * | 2018-11-23 | 2019-11-08 | 유니셈(주) | 다중 객체 검출 시스템 및 방법 |
CN110533684A (zh) * | 2019-08-22 | 2019-12-03 | 杭州德适生物科技有限公司 | 一种染色体核型图像切割方法 |
CN110619658A (zh) * | 2019-09-16 | 2019-12-27 | 北京地平线机器人技术研发有限公司 | 对象跟踪方法、对象跟踪装置和电子设备 |
EP3620966A1 (en) * | 2018-09-07 | 2020-03-11 | Baidu Online Network Technology (Beijing) Co., Ltd. | Object detection method and apparatus for object detection |
CN111008603A (zh) * | 2019-12-08 | 2020-04-14 | 中南大学 | 面向大尺度遥感图像的多类目标快速检测方法 |
CN111222368A (zh) * | 2018-11-26 | 2020-06-02 | 北京金山办公软件股份有限公司 | 一种识别文档段落的方法、装置及电子设备 |
-
2020
- 2020-10-15 CN CN202011103327.3A patent/CN112183450B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6956569B1 (en) * | 2000-03-30 | 2005-10-18 | Nec Corporation | Method for matching a two dimensional image to one of a plurality of three dimensional candidate models contained in a database |
CN104020466A (zh) * | 2014-06-17 | 2014-09-03 | 西安电子科技大学 | 基于变结构多模型的机动目标跟踪方法 |
CN104268857A (zh) * | 2014-09-16 | 2015-01-07 | 湖南大学 | 一种基于机器视觉的快速亚像素边缘检测与定位方法 |
KR20190023389A (ko) * | 2017-08-29 | 2019-03-08 | 인하대학교 산학협력단 | 변화점 검출을 활용한 다중클래스 다중물체 추적 방법 |
CN109977978A (zh) * | 2017-12-28 | 2019-07-05 | 中兴通讯股份有限公司 | 一种多目标检测方法、装置及存储介质 |
EP3620966A1 (en) * | 2018-09-07 | 2020-03-11 | Baidu Online Network Technology (Beijing) Co., Ltd. | Object detection method and apparatus for object detection |
KR102031503B1 (ko) * | 2018-11-23 | 2019-11-08 | 유니셈(주) | 다중 객체 검출 시스템 및 방법 |
CN111222368A (zh) * | 2018-11-26 | 2020-06-02 | 北京金山办公软件股份有限公司 | 一种识别文档段落的方法、装置及电子设备 |
CN110378348A (zh) * | 2019-07-11 | 2019-10-25 | 北京悉见科技有限公司 | 视频实例分割方法、设备及计算机可读存储介质 |
CN110533684A (zh) * | 2019-08-22 | 2019-12-03 | 杭州德适生物科技有限公司 | 一种染色体核型图像切割方法 |
CN110619658A (zh) * | 2019-09-16 | 2019-12-27 | 北京地平线机器人技术研发有限公司 | 对象跟踪方法、对象跟踪装置和电子设备 |
CN111008603A (zh) * | 2019-12-08 | 2020-04-14 | 中南大学 | 面向大尺度遥感图像的多类目标快速检测方法 |
Non-Patent Citations (4)
Title |
---|
"Quick retrieval method of massive face images based on global feature and local feature fusion";W. Yu等;《2017 10th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI)》;20180226;第1-6页 * |
"Multi-class multi-object tracking using changing point detection";Lee, B等;《In Computer Vision–ECCV 2016 Workshops》;第1-5节 * |
"Towards Real-Time Multi-Object Tracking";Wang Z等;《arXiv》;正文1-7页 * |
"基于深度学习的无人机航拍图像目标检测";卢伟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200715(第7期);I138-577 * |
Also Published As
Publication number | Publication date |
---|---|
CN112183450A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112183450B (zh) | 一种多目标跟踪方法 | |
CN107273800B (zh) | 一种基于注意机制的卷积递归神经网络的动作识别方法 | |
Jin et al. | Pedestrian detection with super-resolution reconstruction for low-quality image | |
Hashmi et al. | An exploratory analysis on visual counterfeits using conv-lstm hybrid architecture | |
Deep et al. | Leveraging CNN and transfer learning for vision-based human activity recognition | |
Xian et al. | Evaluation of low-level features for real-world surveillance event detection | |
Li et al. | A lightweight multi-scale aggregated model for detecting aerial images captured by UAVs | |
Zhang et al. | Global context aware RCNN for object detection | |
Kumar et al. | Artificial Emotional Intelligence: Conventional and deep learning approach | |
Basha et al. | An information-rich sampling technique over spatio-temporal CNN for classification of human actions in videos | |
CN116721414A (zh) | 一种医学图像细胞分割与跟踪方法 | |
CN115797827A (zh) | 一种基于双流网络架构的ViT的人体行为识别方法 | |
Huang et al. | Pedestrian detection using RetinaNet with multi-branch structure and double pooling attention mechanism | |
Hou et al. | M-YOLO: an object detector based on global context information for infrared images | |
Shaikh et al. | Real-Time Multi-Object Detection Using Enhanced Yolov5-7S on Multi-GPU for High-Resolution Video | |
Ameri et al. | A systematic review of deep learning approaches for surface defect detection in industrial applications | |
Ma et al. | Layn: Lightweight multi-scale attention yolov8 network for small object detection | |
Gong et al. | Deep learning-based microexpression recognition: a survey | |
Huang et al. | A detection method of individual fare evasion behaviours on metros based on skeleton sequence and time series | |
Chen et al. | MAFNet: a multi-attention fusion network for RGB-T crowd counting | |
Tang et al. | A micro-expression recognition algorithm based on feature enhancement and attention mechanisms | |
Zhao et al. | Context-aware and part alignment for visible-infrared person re-identification | |
Abed et al. | Semantic heads segmentation and counting in crowded retail environment with convolutional neural networks using top view depth images | |
Zhou et al. | Masked autoencoders in computer vision: A comprehensive survey | |
Chen et al. | Sequential transformer for end-to-end person search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |