CN114973141A - 一种基于稀疏检测的端到端的行人搜索方法 - Google Patents

一种基于稀疏检测的端到端的行人搜索方法 Download PDF

Info

Publication number
CN114973141A
CN114973141A CN202210678356.5A CN202210678356A CN114973141A CN 114973141 A CN114973141 A CN 114973141A CN 202210678356 A CN202210678356 A CN 202210678356A CN 114973141 A CN114973141 A CN 114973141A
Authority
CN
China
Prior art keywords
pedestrian
model
feature
branch
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210678356.5A
Other languages
English (en)
Other versions
CN114973141B (zh
Inventor
胡景博
李祥泰
童云海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202210678356.5A priority Critical patent/CN114973141B/zh
Publication of CN114973141A publication Critical patent/CN114973141A/zh
Application granted granted Critical
Publication of CN114973141B publication Critical patent/CN114973141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公布了一种基于稀疏预测的端到端的行人搜索方法,构建行人搜索模型,基于目标检测模型设计行人重识别分支,使用行人边界框在特征金字塔网络中进行感兴趣区对齐操作,得到对应行人的固定大小的特征图,再采用线性层从特征图中抽取出用于行人重识别的特征;且在目标检测中使用特征金字塔网络的所有输出特征,而在行人重识别中则只使用特征金字塔网络中分辨率最高的最底层的输出特征,使得行人搜索效果达到最优;利用训练图像数据集训练行人搜索模型;使用训练好的行人搜索模型对待搜索的图像进行行人搜索。本发明方法流程简单、方法高效,且行人搜索实时性良好。

Description

一种基于稀疏检测的端到端的行人搜索方法
技术领域
本发明属于图像处理技术领域,涉及基于图像的行人检测技术,尤其涉及一种基于稀疏检测的端到端的行人搜索方法。
背景技术
行人搜索(Person Search)是一项具有挑战性的任务,它的目标是同时实现行人检测和行人重识别两个不同的任务,即在原始图像中为每个行人分配一个边界框,并抽取行人重识别特征,同时判断不同图像里的行人是否为同一个体。
该任务最为主要的问题来自行人检测和行人重识别两个任务之间的冲突,因为行人检测要求模型学习行人之间的相似之处,而行人重识别则要求模型学习行人之间的不同之处。行人搜索技术有着广阔的应用前景,能够协助城市智慧管理的提升,例如追踪特定行人在不同摄像头间的移动,或者比如检测人群聚集。因此,行人搜索技术在治安和安防领域有着重要的应用。
现有的行人搜索方法中,一部分方法采用了二阶段的思路,即先使用一个目标检测模型,在原始图像中预测出每个行人的边界框,然后将行人从原始图像中裁剪出来,再使用另一个行人重识别模型抽取行人的特征,从而实现重识别。这种二阶段的思路的问题在于,目标检测模型和行人重识别模型分别需要一个骨干网络,那么在整个***中就会有两个骨干网络,这样就会导致整个***的计算量较大,实时性较差。另一部分方法采用了一阶段的思路,即采用单个端到端的模型联合实现行人检测和行人重识别特征的抽取。现有的一阶段行人搜索方法一般是对目标检测模型进行改造,使其具有抽取行人重识别特征抽取的能力,因此模型内存在检测分支和重识别分支。这些方法存在两个问题。第一个问题是,它们所使用的目标检测模型一般为稠密预测(dense prediction),如FCOS模型,或是稠密到稀疏的预测(dense-to-sparse prediction),如Faster R-CNN模型。这些模型在设计上依赖锚框、区域提案网络、非最大抑制等组件,对于超参数的选择较为敏感,且参数量多、计算复杂度高。第二个问题是,行人检测需要学***衡二者之间的冲突。
最近,图像目标检测模型Sparse R-CNN的基于稀疏检测(sparse prediction)的目标检测方法有了极大的进展。这些方法极大地简化了目标检测问题中的繁琐手工设计,并且使原本单张图片上数以十万计甚至百万计的边界框预测减少到了数以百计。然而,以这些基于稀疏检测的目标检测方法为基础的行人搜索技术还很滞后,尚未出现能够利用稀疏检测、且能够很好平衡行人检测与行人重识别二者冲突的可行的行人搜索技术方案。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于稀疏检测的端到端的行人搜索方法,可同时解决现有的端到端图像目标检测的行人搜索方法的两个问题(一是在模型设计上依赖锚框、区域提案网络、非最大抑制等组件,对于超参数的选择较为敏感,且参数量多、计算复杂度高;二是一阶段行人搜索方法没有很好地分离行人检测和行人重识别,也没有很好地平衡二者之间的冲突),能够实现分离行人检测和行人重识别任务,提升行人搜索的效果。
本发明提供的技术方案是:
一种基于稀疏预测的端到端的行人搜索方法,基于目标检测模型设计一个行人重识别分支,使用行人边界框在特征金字塔网络FPN中进行感兴趣区对齐Roi-Align操作,得到对应行人的固定大小的特征图,再采用线性层从特征图中抽取出用于行人重识别的特征;且在目标检测中使用FPN的所有输出特征,而在行人重识别中则只使用FPN中最底层的分辨率最高的输出特征,使得行人搜索效果达到最优;包括如下步骤:
1)构建行人搜索模型;
模型输入为图像,模型输出为图像中每个行人的边界框和重识别特征;模型结构可以包括:骨干网络,特征金字塔网络(Feature Pyramid Network,FPN),检测分支和重识别分支。
11)骨干网络,用于从输入的图像中抽取得到多层次的特征图;
使用Swin Transformer(出自Swin Transformer:Hierarchical VisionTransformer using Shifted Windows,ICCV 2021)作为骨干网络,从输入的图像中抽取多层次的特征图,得到的特征图记为{F1,F2,F3,F4};
12)特征金字塔网络,用于将特征图进行进一步的融合,得到新的特征图:
特征图{F1,F2,F3,F4}在特征金字塔中进行进一步的融合,得到的结果是与{F1,F2,F3,F4}尺寸相同的新的特征图,记作{P1,P2,P3,P4}。
13)检测分支,用于输出图像中每个行人的边界框;
使用Sparse R-CNN作为检测分支,对输入图像的特征图{P1,P2,P3,P4}进行回归预测,得出图像中的行人的边界框。Sparse R-CNN检测分支使用了一组查询向量(ObjectQuery)和查询框(Query Box)来对输入的特征图{P1,P2,P3,P4}进行行人的检测。其中每个查询向量和每个查询框一一对应,即每个查询向量对应一个目标检测的结果。查询向量和查询框内的图像特征通过Sparse R-CNN中的动态卷积(Dynamic Convolution)进行交互,以增强目标的特征,动态卷积是指使用查询框对应的图像特征去动态地生成卷积核,然后对每个查询向量进行加权。
14)重识别分支,包含感兴趣区对齐(Region-of-Interest Align,RoI-Align)和线性层结构,根据输入的行人边界框,从特征金字塔网络FPN的输出特征中提取出用于重识别的行人特征;
具体包括如下过程:
141)对于FPN输出特征图的某一层,对行人的边界框进行感兴趣区对齐操作,得到对应于每个行人的固定尺寸的二维特征,然后拉平二维特征,变成一维特征,最后使用线性层压缩维度,得到每个行人在该层的重识别特征。
142)扩展到多层特征图:在两层特征图上分别采用步骤141)的方法,抽取出两层特征图相应的两个重识别特征,再将两个重识别特征求和、归一化,作为最终输出的重识别特征。
2)训练步骤1)构建的行人搜索模型;
利用训练图像数据集对构建的行人搜索模型进行训练,采用行人搜索领域常用的在线实例匹配(Online Instance Matching,OIM)作为模型训练的损失函数。
本发明采用了独特的方法来训练行人搜索模型中的重识别分支。在模型训练的前半周期,同时使用输入图像中真实标注的行人边界框和经模型检测分支输出的行人边界框来训练重识别分支;在模型训练的后半周期,则只使用检测分支输出的行人边界框来训练重识别分支。在模型训练的前半周期,用真实标注的边界框来弥补检测分支输出的边界框质量不高的不足;在训练的后半周期,则过渡到和测试期相同的模式,也就是只将检测分支输出的边界框作为重识别分支的输入,这样可以避免模型训练期和测试期的隔阂。
3)评估模型的效果:在训练结束后,以mAP和Top-1为指标,在测试集上评估模型的行人搜索效果。
4)使用训练好的行人搜索模型对待测搜索的图像进行行人搜索,包括:
41)通过行人搜索模型中的Sparse R-CNN检测分支进行行人检测:
42)使用行人搜索模型中的独立的重识别分支进行行人重识别特征的抽取;
5)使用模型输出的行人边界框和行人重识别特征,通过计算行人重识别特征之间的余弦相似度,判定相应的行人边界框内是否为同一个行人,从而实现行人搜索。
与现有技术相比,本发明的有益效果是:
本发明提供一种基于稀疏检测的端到端的行人搜索方法,首次将稀疏检测技术引入行人搜索中,设计重识别分支以及模型训练方法;使用Sparse R-CNN实现行人检测,并通过独立的行人重识别分支进行重识别特征的抽取,平衡了两个任务的冲突。与现有技术相比,本发明方法的技术优势包括:
(一)相比于之前的技术,本方法使得整个行人搜索的流程更加简单。本方法简化了之前方法中的一些特定的设计,比如目标检测中的RPN和后处理中的NMS模块,计算复杂度较低,对超参数的设定更有鲁棒性。
(二)本方法使用了学习能力更强的Swin Transformer骨干网络,学习能力更强。
(三)本方法设计了独立的且简洁的行人重识别分支,平衡了行人检测和行人重识别两个任务之间的冲突。
(四)本方法设计了独特的重识别分支训练策略,改善了模型的整体性能。
(五)本方法在国际数据集CUHK-SYSU上取得了比之前的使用复杂流程的一些方法更好的行人搜索结果,且达到了比较良好的实时性。
附图说明
图1为本发明基于稀疏检测的端到端行人搜索方法的流程框图。骨干网络和FPN对于输入的原始图像进行特征抽取,得到多层的特征图{P1,P2,P3,P4}。然后,多层的特征图输入到检测分支中,得到每个行人的边界框。最后,多层的特征图和行人边界框一起输入到重识别分支中,得到每个行人的重识别特征。
图2为本发明具体实施中行人重识别分支中对于单层特征图进行重识别特征抽取的流程框图。首先,根据每个行人的边界框在单层特征图上进行感兴趣区对齐(Region-of-Interest Align,RoI-Align)操作,得到对应于每个行人的固定尺寸的二维特征,然后拉平这个二维特征,变成一维特征,最后使用线性层压缩维度,得到每个行人在这一层的重识别特征。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供基于稀疏检测的端到端的行人搜索方法,包括:1、设计并构建和实现一个基于稀疏检测的端到端的行人搜索模型;2、在国际公开数据集CUHK-SYSU的训练集上训练构建的行人搜索模型;3、在CUHK-SYSU的测试集上评估这个行人搜索模型的性能;4、在实际的应用场景中使用训练好的模型。本发明核心点包括:第一,如何对Sparse R-CNN这一基于稀疏检测的目标检测方法进行改进,使其应用于行人搜索任务。第二,如何分离行人检测和行人重识别,减少二者在模型中的耦合,平衡这两个任务之间的冲突,使得最终的行人搜索效果达到最优。
针对第一个问题,我们基于Sparse R-CNN设计了一个行人重识别分支,用每个行人的边界框从特征金字塔网络FPN模块中进行Roi-Align操作,得到对应行人的固定大小的特征图,之后采用线性层结构从特征图中抽取出用于行人重识别的特征。针对第二个问题,我们在目标检测中使用FPN的所有输出特征,而在行人重识别中则只使用FPN中最底层的输出特征,这层输出特征的分辨率最高,而且在反向传播时更容易减少两个任务之间的冲突;此外,我们还使用了Swin Transformer作为骨干网络,这个骨干网络相比之前的行人搜索方法所使用的ResNet来说有着更好的学习能力,可以减轻目标检测任务和行人重识别任务对于模型表达能力的竞争。
其中,基于查询向量的行人检测框架是基于文献(Sparse R-CNN:End-to-EndObject Detection with Learnable Proposals)中记载的目标检测器Sparse R-CNN。这种检测器可以很快地收敛,并且可以实现端到端的检测。为此,本发明基于该检测器搭建一个端到端的行人搜索模型。整个流程由图1所示。对于输入的图像(Input Image),我们使用Swin Transformer骨干网络和特征金字塔网络(Feature Pyramid Network,FPN)获得图像的特征(features)。然后在Sparse R-CNN的检测头中,通过一组查询向量和查询框动态交互后,预测出行人的边界框。之后我们使用独立于检测分支的行人重识别分支,根据行人边界框从FPN的输出特征中提取出用于重识别的特征。
本发明在国际数据集CUHK-SYSU上取得领先的效果。其中,我们采用mAP和top-1指标来表示在数据集中给定检索图像(query image)和待检图像(gallery image)中进行行人搜索的效果,我们的方法在CUHK-SYSU的测试集上在相同的实验条件下相比于先前的工作均取得了较好的结果。
本发明提供一种基于稀疏预测的端到端的行人搜索方法,包括:
1)首先介绍我们设计的行人搜索模型。这个模型对于输入的图像,可以输出每个行人的边界框和重识别特征。模型的整体结构可以分为四部分:骨干网络,特征金字塔网络(Feature Pyramid Network,FPN),检测分支,和重识别分支。其中骨干网络和检测分支的设计是基于计算机视觉中其他领域的技术,但这些技术在之前的行人搜索领域还没有探索和应用;特征金字塔网络是其他行人搜索方法中已有的常见设计;重识别分支是本发明的原创设计。
11)骨干网络:
我们使用Swin Transformer(出自Swin Transformer:Hierarchical VisionTransformer using Shifted Windows,ICCV 2021)作为骨干网络,从输入的图像中抽取多层次的特征图,得到的特征图记为{F1,F2,F3,F4}。Swin Transformer是一个最近提出的、较为先进的骨干网络,还没有被之前的行人搜索方法探索和应用过。相比于之前的行人搜索方法中常用的骨干网络ResNet,Swin Transformer具备更强的学***衡后续的行人检测和行人重识别之间的冲突,使得整体的行人搜索效果得到提升。在行人搜索方法中应用Swin Transformer,一个主要难点在于Swin Transformer的计算量较大,可能会导致模型整体的实时性下降。对于这个问题,我们在检测分支和重识别分支上采用了计算量较小的设计,以维持整体上良好的实时性。
12)特征金字塔网络:
多层次特征图{F1,F2,F3,F4}会在特征金字塔中进行进一步的融合,得到的结果是与{F1,F2,F3,F4}尺寸相同的新的多层次特征图,记作{P1,P2,P3,P4}。
13)检测分支;
我们使用Sparse R-CNN作为检测分支,对输入图像的多层次特征图{P1,P2,P3,P4}进行回归预测,得出图像中的行人的边界框。该检测器使用了一组查询向量(ObjectQuery)和查询框(Query Box)来对输入的特征图{P1,P2,P3,P4}进行行人的检测。其中每个查询向量和每个查询框一一对应,即每个查询向量对应一个目标检测的结果。查询向量和查询框内的图像特征会通过动态卷积(Dynamic Convolution)进行交互,以增强目标的特征,这里的动态卷积是指使用查询框对应的图像特征去动态地生成卷积核,然后对每个查询向量进行加权。假设该Sparse R-CNN检测器里面有N个查询向量,代表整个场景中最多有N个行人,一般N取值为100,足够包含图像中所有的行人。
14)重识别分支;
经过检测分支输出图像中每个行人的边界框,此外,我们还需要对于每个行人进行进一步的特征抽取,用于行人重识别任务。因此,我们设计了一个与检测分支分离、且较为简洁的重识别分支,可以根据行人边界框从FPN的输出特征中提取出用于重识别的行人特征。我们将这个重识别分支的设计命名为Simple-RoI-ReID,具体包括如下过程:
首先,采用图2所示的结构,对于FPN输出特征图的某一单层特征图Pi,我们根据行人的边界框对其进行感兴趣区对齐(Region-of-Interest Align,RoI-Align)操作,得到对应于每个行人的固定尺寸的二维特征,然后拉平这个二维特征,变成一维特征,最后使用线性层压缩维度,得到每个行人在Pi这一层的重识别特征。
其次,图2的结构可以扩展到多层特征图上。假设我们希望从{P1,P2,P3,P4}中选择某几层进行重识别特征的抽取。那么可以采用图2的结构,在每一层上分别得到一个一维特征,并将这些一维特征逐元素相加,然后将相加的结果进行L2归一化,就得到了重识别分支最终输出的行人重识别特征。在具体实施时,选择了{P1,P2}这两层特征图进行重识别特征的抽取。
这样独立的行人重识别分支的设计,可以有效地减弱行人检测和行人重识别两个任务的冲突。行人检测比较依赖抽象的、语义层次较高的特征,这些特征主要由P3,P4表达;行人重识别比较依赖原始的、语义层次较低的特征,这些特征主要由P1,P2表达。因此,本方法的设计可以减弱行人检测和行人重识别的冲突。
2)本发明提出的行人搜索模型,在国际公开数据集CUHK-SYSU的训练集上进行训练,采用行人搜索领域常用的在线实例匹配(Online Instance Matching,OIM)作为损失函数。
本发明采用了独特的策略来训练重识别分支。在训练的前半周期,我们同时使用真实标注的行人边界框和检测分支输出的行人边界框来训练重识别分支;在训练的后半周期,则只使用检测分支输出的行人边界框。这样的训练策略是考虑到,在训练的前半周期,检测分支还没有充分地被训练好,输出的边界框质量很差,会对重识别分支的训练产生一定的负面影响,所以用真实标注的边界框来弥补;在训练的后半周期,则过渡到和测试期相同的模式,也就是只将检测分支输出的边界框作为重识别分支的输入,这样可以避免训练期和测试期的隔阂。
3)在CUHK-SYSU的数据集上测试,评估模型的性能。我们会对于给定的一张检索图像和若干张待检图像分别进行预测,并计算检索图像中的目标行人与待检图像中每一个行人的特征两两之间的余弦相似度。然后,我们采用mAP和top-1这两个行人搜索领域的常用指标,评估模型的性能。
4)在实际的项目部署时,维护已经出现过的所有行人的中心特征;对于每张输入的图像,将其输入模型,得到预测的边界框和重识别特征,并于已经出现过的所有行人的重识别特征进行对比,如果相似度高于某一阈值,则认为当前图像中的行人是之前见过的个体,否则认为是新个体。
本发明具体实施包括如下步骤:
1)获得输入图像的特征:
对于输入的图像(Input Image),使用Swin Transformer Tiny骨干网络和特征金字塔网络(Feature Pyramid Network,FPN)获得图像的特征{P1,P2,P3,P4}。
2)使用Sparse R-CNN检测分支进行行人检测:
该检测器使用了一组查询向量(Object Query)和查询框(Query Box)来对输入的特征{P1,P2,P3,P4}进行行人的检测。其中每个向量和每个查询框是一一对应,即每个向量对应一个目标检测的结果,该目标检测的结果即为预测的行人边界框。查询向量和查询框内的特征会通过动态卷积(Dynamic Convolution)进行交互,以增强目标的特征,这里的动态卷积模块是指使用查询框对应的特征去动态地生成卷积核,然后对每个查询向量进行加权求和操作。假设模型里面有N个查询向量,代表整个场景中最多有N个行人,我们取N为100,足够包含图像中所有的行人。
3)设计了独立的重识别分支进行行人重识别特征的抽取;
经过检测分支输出图像中每个行人的边界框,此外,我们还需要对于每个行人进行进一步的特征抽取,用于行人重识别任务。因此,我们设计了一个与检测分支分离、且较为简洁的重识别分支,可以根据行人边界框从FPN的输出特征中提取出用于重识别的行人特征。我们将这个重识别分支的设计命名为Simple-RoI-ReID,具体包括如下过程:
首先,采用图2所示的结构,对于FPN输出特征图的某一层Pi,我们根据行人的边界框对其进行感兴趣区对齐(Region-of-Interest Align,RoI-Align)操作,得到对应于每个行人的固定尺寸的二维特征,然后拉平这个二维特征,变成一维特征,最后使用线性层压缩维度,得到每个行人在Pi这一层的重识别特征。
其次,图2的结构可以扩展到多层特征图上。具体来说,我们在P1和P2这两层特征图上分别采用此结构,抽取出两个重识别特征,再将它们求和、归一化,作为最终输出的重识别特征。
4)使用模型输出的行人边界框和行人重识别特征,通过计算行人重识别特征之间的余弦相似度,判定相应的行人边界框内是否为同一个行人,从而实现行人搜索;
在训练期,我们将行人重识别特征输入在线实例匹配(Online InstanceMatching,OIM)损失函数中,得到行人重识别的损失。我们共训练36个周期。在前18个周期中,由于检测分支尚未训练好,输出的行人检测框质量较低,可能会影响重识别分支的训练,因此我们用真实标注的边界框作为重识别分支额外的输入。具体来说,在每一步的训练中,我们将检测分支输出的预测框和真实标注的边界框合并起来,输入到行人重识别分支中,得到行人重识别特征,并计算损失。在后18个周期中,我们只采用检测分支的输出预测框。我们经过实验发现,这样的设置相比于只采用输出的预测框或真实边界框可以达到更好的模型整体性能。
在测试期,我们对比多个图像的多个行人之间的行人重识别特征,以特征之间的余弦相似度作为依据,判定相应的边界框内是否为同一个行人。具体来说,在CUHK-SYSU数据集上测试时,我们会对于给定的一张搜索图像和若干张待搜索图像分别进行预测,并计算搜索图像中的目标行人与待搜索图像中每一个行人的特征两两之间的余弦相似度。在实际的项目部署时,我们会维护已经出现过的所有行人的中心特征;对于每张输入的图像,我们会将其输入模型,得到预测的边界框和重识别特征,并于已经出现过的所有行人进行对比。
具体实施时,我们采用Pytorch实现上述基于稀疏检测的端到端的行人搜索方法。我们使用开源的检测框架MMDetection来进行实现本发明创建的基于稀疏检测的端到端的行人搜索模型的训练与测试对比。我们的方法主要是标准国际图像数据集CUHK-SYSU进行训练和测试,其中方法实施采用的设置和已有工作是保持一致的,以方便公平对比。测试的指标是mAP和Top-1,该两个指标综合衡量了数据集上的行人搜索效果,因此所有的对比方法都使用这个指标来公平对比。
表1
Figure BDA0003697318710000101
表1是我们提出的基于稀疏检测的端到端的行人搜索方法在CUHK-SYSU的测试集上的实验结果。我们使用标准的行人搜索的评估指标mAP和Top-1来对比不同方法的结果。从表1的结果可见,本发明方法得到的行人搜索结果相比其他方法取得了领先的结果。
Figure BDA0003697318710000102
表2是几个一阶段方法的实时性对比,以RTX 3090平台上单张图像的处理时延为指标。
从表2结果可见,本发明方法的实时性非常良好,只比最快的AlignPS方法慢了2毫秒。
Figure BDA0003697318710000103
表3是三种重识别分支训练策略的对比。其中“仅预测边界框”是之前的行人搜索方法常用的策略。从表3结果可见,本发明方法所采用的训练策略确实是对性能有改进的。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (7)

1.一种基于稀疏预测的端到端的行人搜索方法,构建行人搜索模型,基于目标检测模型设计行人重识别分支,使用行人边界框在特征金字塔网络中进行感兴趣区对齐操作,得到对应行人的固定大小的特征图,再采用线性层从特征图中抽取出用于行人重识别的特征;且在目标检测中使用特征金字塔网络的所有输出特征,而在行人重识别中则只使用特征金字塔网络中分辨率最高的最底层的输出特征,使得行人搜索效果达到最优;利用训练图像数据集训练行人搜索模型;使用训练好的行人搜索模型对待搜索的图像进行行人搜索;包括如下步骤:
1)构建行人搜索模型;
行人搜索模型的输入为图像,模型输出为图像中每个行人的边界框和重识别特征;构建模型结构包括:骨干网络、特征金字塔网络、检测分支和重识别分支;重识别分支包含感兴趣区对齐和线性层结构;
11)骨干网络用于从输入的图像中抽取得到多层次的特征图;
12)特征金字塔网络用于将特征图进行进一步的融合,得到新的特征图:
13)检测分支使用一组查询向量和查询框对特征图进行行人检测,输出图像中每个行人的边界框;
14)重识别分支根据行人边界框从特征金字塔网络的输出特征中提取和输出用于重识别的行人特征;包括如下过程:
141)首先,对于特征金字塔网络输出的特征图的某层中的行人边界框进行感兴趣区对齐操作,得到对应于每个行人的固定尺寸的二维特征;然后将二维特征拉平,变成一维特征;再使用线性层压缩维度,得到每个行人在该层的重识别特征;
142)扩展到多层特征图:
在两层特征图上分别采用步骤141)的方法,抽取出两层特征图相应的两个重识别特征,再将两个重识别特征求和、归一化,作为输出的重识别特征;
2)利用训练图像数据集训练步骤1)构建的行人搜索模型,采用在线实例匹配OIM作为模型训练的损失函数;
训练行人搜索模型中的重识别分支时,包括:
在模型训练的前半周期,同时使用输入图像中真实标注的行人边界框和经模型检测分支输出的行人边界框训练重识别分支;
在模型训练的后半周期,只使用检测分支输出的行人边界框作为重识别分支的输入,来训练重识别分支;
3)使用训练好的行人搜索模型对待测搜索的图像进行行人搜索,包括:
31)通过行人搜索模型中的检测分支进行行人检测:
32)使用行人搜索模型中的独立的重识别分支进行行人重识别特征的抽取;
4)使用模型输出的行人边界框和行人重识别特征,通过计算行人重识别特征之间的余弦相似度,判定相应的行人边界框内是否为同一个行人,从而实现行人搜索。
2.如权利要求1所述基于稀疏预测的端到端的行人搜索方法,其特征是,步骤1)中,具体是:
使用Swin Transformer作为骨干网络,从输入的图像中抽取多层次的特征图,得到的特征图,记为{F1,F2,F3,F4}。
3.如权利要求1所述基于稀疏预测的端到端的行人搜索方法,其特征是,将特征图{F1,F2,F3,F4}在特征金字塔网络中进行融合,得到与{F1,F2,F3,F4}尺寸相同的新的特征图,记作{P1,P2,P3,P4}。
4.如权利要求3所述基于稀疏预测的端到端的行人搜索方法,其特征是,具体是使用Sparse R-CNN作为检测分支,对特征图{P1,P2,P3,P4}进行回归预测,得出图像中的行人的边界框;Sparse R-CNN检测分支中每个查询向量和每个查询框一一对应;查询向量和查询框内的图像特征通过Sparse R-CNN中的动态卷积进行交互,即使用查询框对应的图像特征动态地生成卷积核,再对每个查询向量进行加权。
5.如权利要求1所述基于稀疏预测的端到端的行人搜索方法,其特征是,步骤2)在训练行人搜索模型中的重识别分支时,在前半周期中,具体是采用真实标注的边界框作为重识别分支额外的输入,即在每一步的训练中,将检测分支输出的预测框和真实标注的边界框合并后输入到行人重识别分支中,得到行人重识别特征,并计算损失。
6.如权利要求1所述基于稀疏预测的端到端的行人搜索方法,其特征是,具体是采用Pytorch实现所述行人搜索方法。
7.如权利要求6所述基于稀疏预测的端到端的行人搜索方法,其特征是,具体是使用开源的检测框架MMDetection对构建的行人搜索模型进行训练与测试。
CN202210678356.5A 2022-06-16 2022-06-16 一种基于稀疏检测的端到端的行人搜索方法 Active CN114973141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210678356.5A CN114973141B (zh) 2022-06-16 2022-06-16 一种基于稀疏检测的端到端的行人搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210678356.5A CN114973141B (zh) 2022-06-16 2022-06-16 一种基于稀疏检测的端到端的行人搜索方法

Publications (2)

Publication Number Publication Date
CN114973141A true CN114973141A (zh) 2022-08-30
CN114973141B CN114973141B (zh) 2024-06-18

Family

ID=82963756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210678356.5A Active CN114973141B (zh) 2022-06-16 2022-06-16 一种基于稀疏检测的端到端的行人搜索方法

Country Status (1)

Country Link
CN (1) CN114973141B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110222781A1 (en) * 2010-03-15 2011-09-15 U.S. Government As Represented By The Secretary Of The Army Method and system for image registration and change detection
CN113591825A (zh) * 2021-10-08 2021-11-02 湖南大学 基于超分辨网络的目标搜索重建方法、装置及存储介质
CN114332921A (zh) * 2021-12-14 2022-04-12 长讯通信服务有限公司 基于改进聚类算法的Faster R-CNN网络的行人检测方法
CN114550161A (zh) * 2022-01-20 2022-05-27 北京大学 一种端到端的三维目标稀疏检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110222781A1 (en) * 2010-03-15 2011-09-15 U.S. Government As Represented By The Secretary Of The Army Method and system for image registration and change detection
CN113591825A (zh) * 2021-10-08 2021-11-02 湖南大学 基于超分辨网络的目标搜索重建方法、装置及存储介质
CN114332921A (zh) * 2021-12-14 2022-04-12 长讯通信服务有限公司 基于改进聚类算法的Faster R-CNN网络的行人检测方法
CN114550161A (zh) * 2022-01-20 2022-05-27 北京大学 一种端到端的三维目标稀疏检测方法

Also Published As

Publication number Publication date
CN114973141B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN111582092B (zh) 一种基于人体骨架的行人异常行为检测方法
CN110298297A (zh) 火焰识别方法和装置
CN111696136B (zh) 一种基于编解码结构的目标跟踪方法
CN111723600B (zh) 一种基于多任务学习的行人重识别特征描述子
CN113221770B (zh) 基于多特征混合学习的跨域行人重识别方法及***
WO2023159898A1 (zh) 一种动作识别***、方法、装置及模型训练方法、装置、计算机设备及计算机可读存储介质
CN103164856A (zh) 一种基于稠密sift流的视频复制粘贴盲检测方法
Liu et al. Extended faster R-CNN for long distance human detection: Finding pedestrians in UAV images
Xu et al. Research on intelligent system of multimodal deep learning in image recognition
Anwer et al. Accident vehicle types classification: a comparative study between different deep learning models
CN112613474B (zh) 一种行人重识别的方法和装置
Yin et al. Road Damage Detection and Classification based on Multi-level Feature Pyramids.
Zhang et al. Visual Object Tracking via Cascaded RPN Fusion and Coordinate Attention.
CN115393788B (zh) 一种基于增强全局信息注意力的多尺度监控行人重识别方法
CN113298037B (zh) 一种基于胶囊网络的车辆重识别方法
CN114973141B (zh) 一种基于稀疏检测的端到端的行人搜索方法
CN115393802A (zh) 一种基于小样本学习的铁路场景不常见入侵目标识别方法
CN114463844A (zh) 一种基于自注意力双流网络的跌倒检测方法
Zhang et al. A review of small target detection based on deep learning
Srivastav et al. A Convolution Neural Network-Based System for Licensed Number Plate Recognition
Kinattukara et al. Clustering based neural network approach for classification of road images
CN111353353A (zh) 跨姿态的人脸识别方法及装置
Yan et al. Object Detection Method Based On Improved SSD Algorithm For Smart Grid
CN117173423B (zh) 图像小目标检测方法、***、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant