CN116453168A - 一种基于特征融合的细粒度图像生成的行人搜索方法 - Google Patents

一种基于特征融合的细粒度图像生成的行人搜索方法 Download PDF

Info

Publication number
CN116453168A
CN116453168A CN202310605161.2A CN202310605161A CN116453168A CN 116453168 A CN116453168 A CN 116453168A CN 202310605161 A CN202310605161 A CN 202310605161A CN 116453168 A CN116453168 A CN 116453168A
Authority
CN
China
Prior art keywords
image
pedestrian
identity
feature
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310605161.2A
Other languages
English (en)
Inventor
王辉兵
蒋依民
赵鹏
崔添翔
姚铭泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Maritime University
Original Assignee
Dalian Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Maritime University filed Critical Dalian Maritime University
Priority to CN202310605161.2A priority Critical patent/CN116453168A/zh
Publication of CN116453168A publication Critical patent/CN116453168A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于特征融合的细粒度图像生成的行人搜索方法,主要包括:利用残差网络对所述行人图像进行特征处理;基于置信度阈值对区域建议网络输出的特征候选框进行筛选;将筛选后的特征候选框输入检测头,使用边界框回归获取精细的行人框;根据身份相似性分数将检测结果中的身份标注为标记和未标记;将标记过身份的裁剪图像输入生成对抗网络的生成器,将输入图像的外观信息和结构信息两进行随机相互结合;将新生成的图像送入鉴别器的教师网络中附加软标签;把附加过软标签的图像送入鉴别器中进行鉴别,鉴别器利用鉴别特征提取层来完成行人的重新识别,然后输出结果。本发明解决了现有行人搜索方法无法在实际场景中获取高精度特征的问题。

Description

一种基于特征融合的细粒度图像生成的行人搜索方法
技术领域
本发明涉及行人搜索技术领域,具体而言,尤其涉及一种基于特征融合的细粒度图像生成的行人搜索方法。
背景技术
在计算机视觉领域,行人搜索一直是一项具有挑战性的任务,其目的是从真实的摄像机中搜索特定的行人。一般来说,现有的行人搜索方法采用手工裁剪的视频,使得行人边界框干净且噪音更小,但需要对来自实际监控视频的具有大量行人的整个图像进行处理,过程复杂,导致消耗巨大,无法在真实场景中推广使用。此外,检测阶段需要检测出图片出所有的人,所以检测需要提取人的共性,才能正确检测出所有的人。重新识别阶段,就是确定检测出的人的具体身份,即解决“这个人是谁?”的问题,所以他需要每个人之间的差异性来确定人的身份。即在检测阶段需要提取特征的共性,而重新识别阶段需要提取特征之间的差异性,这进一步影响了行人搜索的性能。在大规模智能监控***中,上述两个问题给现有的行人搜索方法完成实时目标搜索任务带来了挑战。现有用于训练的监控视频只包含了每个行人的几张照片,且其中大多数都有相同的背景和衣服,导致训练出的模型无法保证在真实场景中学习的用于行人搜索的辨别特征的精确度。
发明内容
本发明提供一种基于特征融合的细粒度图像生成的行人搜索方法,以解决现有行人搜索方法无法在实际场景中获取高精度特征的结束问题。
本发明采用的技术手段如下:
一种基于特征融合的细粒度图像生成的行人搜索方法,包括以下步骤:
由街景监控视频获取行人图像,并利用残差网络对所述行人图像进行特征处理,获取行人图像特征;
将所述行人图像特征输入区域建议网络,基于置信度阈值对区域建议网络输出的特征候选框进行筛选;
对特征候选框内的内容进行感兴趣区域对齐,从而获得长度一致的身份特征图;
将所述身份特征图输入检测头,所述检测头用于判断是否是行人,当确认为行人时,使用边界框回归对粗略的行人框进行微调,从而获取精细的行人框;
获取查询目标,计算查询目标和检测结果之间的身份相似度,并根据身份相似性分数将检测结果中的身份标注为标记和未标记的身份,所述检测结果为具有精细的行人框的监控图像;所述身份相似度的计算公式为:
其中q是查询目标的身份特征向量,g是检测结果的身份特征向量;
将标记过身份的裁剪图像输入到生成对抗网络的生成器中,生成器的外观信息抽取器提取裁剪图像的人物外观信息,生成器的结构信息抽取器提取裁剪图像的人物结构信息;生成器的信息融合器将外观信息和结构信息进行两两随机融,生成新的图像;
将新生成的图像送入鉴别器的教师网络中利用教师网络为生成的新图像附加软标签;
把附加过软标签的图像送入鉴别器中进行鉴别,鉴别器利用鉴别特征提取层来完成行人的重新识别,然后输出结果。
进一步地,所述用残差网络包含五个卷积层,逐层对输入图像进行处理,最后将输入图像提取为2048维的特征向量。
进一步地,使用边界框回归对粗略的行人框进行微调,包括使用训练后的边界框回归模型调节粗略的行人框,所述边界框回归模型使用边界框回归损失监督模型训练,所述边界框回归损失为:
其中,xi为输入样本,Si为每个输入类别属于真实类别的概率,T为样本数量。
进一步地,计算查询目标和检测结果之间的身份相似性分数,并根据身份相似性分数将检测结果中的身份标注为标记和未标记的身份,包括:
将检测结果和查询目标输入训练后的身份特征引导模型,所述身份特征引导模型通过计算查询目标和检测结果之间的身份相似性分数,对检测结果中的行人进行身份标注,标注结果包括标记和未标记,其中,标记的身份为本次目标图像,未标记的身份不是本次目标图像;
所述身份特征引导模型根据由身份特征引导损失训练训练,所述身份特征引导损失为:
其中N为样本个数,δ是控制硬负样本比率的阈值,表示第k个负样本,K为硬负样本的数量,根据以下计算获取:
进一步地,将标记过身份的裁剪图像输入生成对抗网络的生成器,所述生成器用于将输入图像的外观信息和结构信息两进行随机相互结合,生成新的图像,包括:使用像素级L1损失对重建后的图像进行监督:
其中,E[||·||1]表示L1损失函数,表示图片xi的外观信息,/>表示图片xj的结构信息,Lapp表示外观信息抽取器的损失,Lstr表示结构信息抽取器的损失,Eapp表示外观信息抽取器,Estr表示结构信息抽取器,D表示生成对抗网络;
识别损失为:
其中p(yi|xji)是xji属于xi的真值yi的预测概率,xji是合成新的图像;
采用生成对抗网络的对抗性损失将合成图像的分布与真实数据分布相匹配,生成对抗网络的对抗性损失为:
其中表示分布函数。
进一步地,将新生成的图像送入鉴别器的教师网络中利用教师网络为生成的新图像附加软标签,包括:
教师网络按照水平方向将合成图像的特征空间分成6个条带区域,再对区域进行卷积得到6个通道的张量,最后针对每个通道做Softmax分类,从而为合成的图像分配软标签。
进一步地,把附加过软标签的图像送入鉴别器中进行鉴别,鉴别器利用鉴别特征提取层来完成行人的重新识别,然后输出结果,包括:
使用KL散列来最小化鉴别器的预测概率分布p(xji)和由教师网络预测的概率分配q(xji),KL散列的公式为:
其中M是身份的数量,q(m|xji)是最小化鉴别器预测xji的身份为m的概率,p(m|xji)是教师网络预测xji的身份为m的概率。
进一步地,把附加过软标签的图像送入鉴别器中进行鉴别,鉴别器利用鉴别特征提取层来完成行人的重新识别,然后输出结果,还包括:
利用身份损失,使鉴别器对教师网络输出的软标签图像进行判别特征学习,所述身份损失被定义为:
其中,p(yi|xji)是教师网络预测xji的身份为yi的概率。
较现有技术相比,本发明具有以下优点:
本发明采用生成对抗网络进行合成图像用于训练更具鲁棒性的人物搜索网络。检测部分由残差网络构建的特征提取网络在进行区域建议网络进行筛选,同时利用本文提出的身份特征引导模块进行辅助提取特征。将提取的特征馈送到本文提出的生成对抗网络合成图像模块中,进行生成对抗训练,生成器对原图像进行特征重构融合,从而生成高质量的跨身份人物图像,再将新的图像送入鉴别器中进行特征辨别,从而降低检测阶段和重识别阶段之间的分歧,提高人物搜索的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于特征融合的细粒度图像生成的行人搜索方法流程图。
图2为实施例中行人搜索方法详细执行流程。
图3为实施例中行人检测网络模型结构图。
图4为实施例中行人再识别网络模型结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
如图1所示,本发明提供了一种基于特征融合的细粒度图像生成的行人搜索方法,包括以下步骤:
S1、由街景监控视频获取行人图像,并利用残差网络对所述行人图像进行特征处理,获取行人图像特征;
S2、将所述行人图像特征输入区域建议网络,基于置信度阈值对区域建议网络输出的特征候选框进行筛选;
S3、将筛选后的特征候选框输入检测头,获取粗略的行人框,使用边界框回归对粗略的行人框进行微调,从而获取精细的行人框;
S4、计算查询目标和检测结果之间的身份相似性分数,并根据身份相似性分数将检测结果中的身份标注为标记和未标记的身份;
S5、将标记过身份的裁剪图像输入生成对抗网络的生成器,所述生成器用于将输入图像的外观信息和结构信息两进行随机相互结合,生成新的图像;
S6、将新生成的图像送入鉴别器的教师网络中利用教师网络为生成的新图像附加软标签;
S7、把附加过软标签的图像送入鉴别器中进行鉴别,鉴别器利用鉴别特征提取层来完成行人的重新识别,然后输出结果。
下面通过具体的应用实例,对本发明的方案和效果做进一步说明。
如图2-4所示,本实施例提供了一种基于特征融合的细粒度图像生成的行人搜索方法,该方法包括以下步骤:
步骤1、监控摄像对人群街景进行采集,通过对视频进行处理,得到多个人物图像。本发明中对视频进行处理包括把监控中视频的每一帧解码成图片。
步骤2、利用特征提取网络对输入的包括多个人物的图像进行处理,从而获得输入图像特征,其中特征提取网络采用残差卷积网络,包含五个卷积层,逐层对输入图像进行处理,最后将输入图像提取为2048维的特征;
步骤3、将提取的特征向量送入区域建议网络,区域建议网络如图3中所示,提出多个包括人体的候选框,然后使用非最大值抑制来去除掉置信度低于给定阈值的候选框,以获得高质量的候选框。
步骤4、对候选框中的内容进行感兴趣区域对齐操作,从而获得长度一致的特征向量。
步骤5、将特征向量送入检测头,检测该特征向量是否是行人的特征向量,而后使用边界框回归对其进行微调,从而获得更加精细的行人框。本步骤中,通过检测头用来确定每个候选框框出的到底是不是一个人。
步骤6、通过身份特征引块将检测头输出的判断结果中的身份分离为标记和未标记的。身份特征引导主要通过身份特征引导损失来进行训练,用以计算查询目标和检测结果之间的身份相似性分数。
步骤7、身份特征引导输出比其他边界框更接近标记的身份的裁剪图像,馈送到生成对抗网络合成图像模块。生成对抗网络架构如图4所示。
步骤8、生成对抗网络合成图像模块利用生成器模块将输入图像分为外观信息和结构信息两部分。本发明中外观信息包括衣服/鞋子的颜色、质地和风格、其他与身份证相关的线索等。结构信息包括体型、头发、携带、姿势、背景、位置、视点等。
步骤9、生成器模块通过将两个不同人群的两部分信息进行相互结合,生成新的图像;
步骤10、将生成的图像送入鉴别器的教师网络中,教师网络为其附加软标签;
步骤11、把附加过软标签的图像送入鉴别器中进行判别,鉴别器利用辨别特征提取层来完成人的重新识别,然后输出结果。
在具体实施例中,感兴趣区域对齐利用双线性内插法对大小不一致的区域特征图进行分割从而对齐特征。在获取到预测边界框之后,检测头由几种损失函数进行监督,分别是边界框回归损失、分类损失和本文所提出的身份特征引导损失,这三种损失对边界框的检测进行优化。身份特征引导模块将不同图像中的正面示例拉得更近,这样来自同一个人的图像可以获得较高的相似度分数,边界框回归由交并比来衡量即预测框与真实框的重叠程度,识别损失规定为:
其中xi为输入样本,Si为每个输入类别属于真实类别的概率,T为样本数量。
在具体实施例中,通过步骤5中身份特征引导对输入的图像特征进行处理,通过计算查询目标和检测结果之间的身份相似性分数,将检测结果中的身份分离为标记和未标记的。其中,标记的身份为本次目标图像,未标记的身份不是本次目标图像,这为重新识别阶段产生高质量的正样本。身份特征引导损失函数具体规定为:
其中N为样本个数,K为硬负样本的数量,我们充分考虑了硬负样本在提高网络辨别能力方面的积极作用,并通过以下方式设置硬负样本的数量:
其中λ是控制硬负样本比率的阈值。
在具体实施例中,所述步骤7中生成对抗网络合成图像模块包括生成器和鉴别器两部分,其中生成器采用编码器-解码器范式。生成对抗网络合成图像模块接收到输入特征,将特征信息分解为外观信息和结构信息两部分,然后,编码器将给定的两幅图片xi和xj分别提取信息,将xi的外观信息提取为将xj的结构信息提取为/>在将这两部分送入生成器中的解码器模块。本发明中使用外观信息抽取器提取外观信息,使用结构信息抽取器提取结构信息。
在具体实例中,所述步骤8中生成器中的解码器将和/>进行结合,从而生成新的图像,将其表示为xji,j表示提供结构代码的图像,i表示提供外观代码的图像。对于重建后的图像,使用像素级L1损失进行监督:
其中E[||·||1]表示L1损失函数。并且利用识别损失来强制合成图像保持其身份一致性。识别损失为:
其中p(yi|xji)是属于xi的基础真值类yi的xji的预测概率,它在合成xji时提供了外观代码。之后,采用GAN对抗性损失将合成图像的分布与真实数据分布相匹配,损失为:
其中表示分布函数,分布函数为GAN网络在生成图像过程中根据先验分布来拟合一个新的图像,从而生成合成图像的一个过程。是GAN网络中所提出的知识,属于本领域现有技术。
在具体实施例中,所述步骤9,在鉴别器中,构建的教师网络按照水平方向将合成图像的特征空间分成6个条带区域,再对区域进行卷积得到6个通道的张量,最后针对每个通道做Softmax分类,从而为合成的图像分配软标签,以更好的指导鉴别器能够更有效的完成重新识别任务。其中教师网络模型由原始的数据集进行训练。软标签为Saftmax分类后,所属类别的名称就是合成图像的软标签。
在具体实施例中,为了更好的合成图像,进一步的使用KL散列来最小化鉴别模块的预测概率分布p(xji)和由教师预测的概率分配q(xji),KL散列公式为:
其中M是身份的数量。
在具体实施例中,利用身份损失,使鉴别器对教师网络输出的软标签图像进行判别特征学习,经过前期交换外观和结构信息的合成人物图像,使鉴别器能够挖掘更具区分性和精细的特征,并学习对身份属性的关注。其中身份损失被定义为:
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种基于特征融合的细粒度图像生成的行人搜索方法,其特征在于,包括以下步骤:
由街景监控视频获取行人图像,并利用残差网络对所述行人图像进行特征处理,获取行人图像特征;
将所述行人图像特征输入区域建议网络,基于置信度阈值对区域建议网络输出的特征候选框进行筛选;
对特征候选框内的内容进行感兴趣区域对齐,从而获得长度一致的身份特征图;
将所述身份特征图输入检测头,所述检测头用于判断是否是行人,当确认为行人时,使用边界框回归对粗略的行人框进行微调,从而获取精细的行人框;
获取查询目标,计算查询目标和检测结果之间的身份相似度,并根据身份相似性分数将检测结果中的身份标注为标记和未标记的身份,所述检测结果为具有精细的行人框的监控图像;所述身份相似度的计算公式为:
其中q是查询目标的身份特征向量,g是检测结果的身份特征向量;
将标记过身份的裁剪图像输入到生成对抗网络的生成器中,生成器的外观信息抽取器提取裁剪图像的人物外观信息,生成器的结构信息抽取器提取裁剪图像的人物结构信息;生成器的信息融合器将外观信息和结构信息进行两两随机融,生成新的图像;
将新生成的图像送入鉴别器的教师网络中利用教师网络为生成的新图像附加软标签;
把附加过软标签的图像送入鉴别器中进行鉴别,鉴别器利用鉴别特征提取层来完成行人的重新识别,然后输出结果。
2.根据权利要求1所述的一种基于特征融合的细粒度图像生成的行人搜索方法,其特征在于,所述用残差网络包含五个卷积层,逐层对输入图像进行处理,最后将输入图像提取为2048维的特征向量。
3.根据权利要求1所述的一种基于特征融合的细粒度图像生成的行人搜索方法,其特征在于,使用边界框回归对粗略的行人框进行微调,包括使用训练后的边界框回归模型调节粗略的行人框,所述边界框回归模型使用边界框回归损失监督模型训练,所述边界框回归损失为:
其中,xi为输入样本,Si为每个输入类别属于真实类别的概率,T为样本数量。
4.根据权利要求1所述的一种基于特征融合的细粒度图像生成的行人搜索方法,其特征在于,计算查询目标和检测结果之间的身份相似性分数,并根据身份相似性分数将检测结果中的身份标注为标记和未标记的身份,包括:
将检测结果和查询目标输入训练后的身份特征引导模型,所述身份特征引导模型通过计算查询目标和检测结果之间的身份相似性分数,对检测结果中的行人进行身份标注,标注结果包括标记和未标记,其中,标记的身份为本次目标图像,未标记的身份不是本次目标图像;
所述身份特征引导模型根据由身份特征引导损失训练训练,所述身份特征引导损失为:
其中N为样本个数,δ是控制硬负样本比率的阈值,ak-表示第k个负样本,K为硬负样本的数量,根据以下计算获取:
5.根据权利要求1所述的一种基于特征融合的细粒度图像生成的行人搜索方法,其特征在于,将标记过身份的裁剪图像输入生成对抗网络的生成器,所述生成器用于将输入图像的外观信息和结构信息两进行随机相互结合,生成新的图像,包括:使用像素级L1损失对重建后的图像进行监督:
其中,E[||·||1]表示L1损失函数,表示图片xi的外观信息,/>表示图片xj的结构信息,Lapp表示外观信息抽取器的损失,Lstr表示结构信息抽取器的损失,Eapp表示外观信息抽取器,Estr表示结构信息抽取器,D表示生成对抗网络;
识别损失为:
其中p(yi|xji)是xji属于xi的真值yi的预测概率,xji是合成新的图像;
采用生成对抗网络的对抗性损失将合成图像的分布与真实数据分布相匹配,生成对抗网络的对抗性损失为:
其中F[]表示分布函数。
6.根据权利要求1所述的一种基于特征融合的细粒度图像生成的行人搜索方法,其特征在于,将新生成的图像送入鉴别器的教师网络中利用教师网络为生成的新图像附加软标签,包括:
教师网络按照水平方向将合成图像的特征空间分成6个条带区域,再对区域进行卷积得到6个通道的张量,最后针对每个通道做Softmax分类,从而为合成的图像分配软标签。
7.根据权利要求1所述的一种基于特征融合的细粒度图像生成的行人搜索方法,其特征在于,把附加过软标签的图像送入鉴别器中进行鉴别,鉴别器利用鉴别特征提取层来完成行人的重新识别,然后输出结果,包括:
使用KL散列来最小化鉴别器的预测概率分布p(xji)和由教师网络预测的概率分配q(xji),KL散列的公式为:
其中M是身份的数量,q(m|xji)是最小化鉴别器预测xji的身份为m的概率,p(m|xji)是教师网络预测xji的身份为m的概率。
8.根据权利要求1所述的一种基于特征融合的细粒度图像生成的行人搜索方法,其特征在于,把附加过软标签的图像送入鉴别器中进行鉴别,鉴别器利用鉴别特征提取层来完成行人的重新识别,然后输出结果,还包括:
利用身份损失,使鉴别器对教师网络输出的软标签图像进行判别特征学习,所述身份损失被定义为:
其中,p(yi|xji)是教师网络预测xji的身份为yi的概率。
CN202310605161.2A 2023-05-25 2023-05-25 一种基于特征融合的细粒度图像生成的行人搜索方法 Pending CN116453168A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310605161.2A CN116453168A (zh) 2023-05-25 2023-05-25 一种基于特征融合的细粒度图像生成的行人搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310605161.2A CN116453168A (zh) 2023-05-25 2023-05-25 一种基于特征融合的细粒度图像生成的行人搜索方法

Publications (1)

Publication Number Publication Date
CN116453168A true CN116453168A (zh) 2023-07-18

Family

ID=87127572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310605161.2A Pending CN116453168A (zh) 2023-05-25 2023-05-25 一种基于特征融合的细粒度图像生成的行人搜索方法

Country Status (1)

Country Link
CN (1) CN116453168A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117850579A (zh) * 2023-09-06 2024-04-09 山东依鲁光电科技有限公司 一种基于人体姿态的无接触控制***与方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117850579A (zh) * 2023-09-06 2024-04-09 山东依鲁光电科技有限公司 一种基于人体姿态的无接触控制***与方法

Similar Documents

Publication Publication Date Title
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN108520226B (zh) 一种基于躯体分解和显著性检测的行人重识别方法
CN109644255B (zh) 标注包括一组帧的视频流的方法和装置
US8467570B2 (en) Tracking system with fused motion and object detection
CN110807434B (zh) 一种基于人体解析粗细粒度结合的行人重识别***及方法
Singh et al. Muhavi: A multicamera human action video dataset for the evaluation of action recognition methods
Zhang et al. Learning semantic scene models by object classification and trajectory clustering
CN110263712B (zh) 一种基于区域候选的粗精行人检测方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN114067143B (zh) 一种基于双子网络的车辆重识别方法
CN108564598B (zh) 一种改进的在线Boosting目标跟踪方法
US20100111375A1 (en) Method for Determining Atributes of Faces in Images
CN112990120B (zh) 一种利用相机风格分离域信息的跨域行人重识别方法
CN113963032A (zh) 一种融合目标重识别的孪生网络结构目标跟踪方法
CN115527269B (zh) 一种人体姿态图像智能识别方法及***
CN113221770B (zh) 基于多特征混合学习的跨域行人重识别方法及***
CN112801019B (zh) 基于合成数据消除无监督车辆再识别偏差的方法及***
CN104463232A (zh) 一种基于hog特征和颜色直方图特征的密度人群计数的方法
CN111738048A (zh) 一种行人再识别的方法
CN116453168A (zh) 一种基于特征融合的细粒度图像生成的行人搜索方法
Yang et al. Bottom-up foreground-aware feature fusion for practical person search
Huerta et al. Combining where and what in change detection for unsupervised foreground learning in surveillance
CN115482595B (zh) 一种基于语义分割的特定人物视觉伪造检测与鉴别方法
Vural et al. Multi-view fast object detection by using extended haar filters in uncontrolled environments
CN114937248A (zh) 用于跨相机的车辆跟踪方法、装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination