CN114419529A - 一种基于分布空间对齐的跨模态行人再识别方法及*** - Google Patents

一种基于分布空间对齐的跨模态行人再识别方法及*** Download PDF

Info

Publication number
CN114419529A
CN114419529A CN202111401063.4A CN202111401063A CN114419529A CN 114419529 A CN114419529 A CN 114419529A CN 202111401063 A CN202111401063 A CN 202111401063A CN 114419529 A CN114419529 A CN 114419529A
Authority
CN
China
Prior art keywords
modal
pedestrian
sharing model
training
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111401063.4A
Other languages
English (en)
Inventor
赖剑煌
刘伟鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202111401063.4A priority Critical patent/CN114419529A/zh
Publication of CN114419529A publication Critical patent/CN114419529A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于分布空间对齐的跨模态行人再识别方法及***,该方法包括:构建特征提取器并基于第一训练样本训练特征提取器;获取模态图像并基于训练完成的特征提取器提取行人模态特征;根据行人模态特征对待测图像进行聚类;构建模态共享模型并基于带伪标注的数据集训练模态共享模型;基于第二训练样本训练第一模态共享模型;根据训练完成的模态共享模型对输入图像进行识别。该***包括:第一构建模块、特征提取模块、聚类模块、第二构建模块和识别模块。通过使用本发明,能够在可见光‑红外两种模态下进行跨模态的行人再识别任务。本发明作为一种基于分布空间对齐的跨模态行人再识别方法及***,可广泛应用于计算机视觉领域。

Description

一种基于分布空间对齐的跨模态行人再识别方法及***
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于分布空间对齐的跨模态行人再识别方法及***。
背景技术
基于可见光的单模态行人再识别只适用于光照充足的场景,在光线不足时需要用红外摄像机拍摄红外行人图片,因而需要解决可见光-红外的跨模态行人再识别问题,需要面对可见光图像与红外图像差异大的问题。并且有监督模型需要大量人工标注的跨模态数据集,而跨模态行人身份的标注比单模态的成本非常高,任务难度更大。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于分布空间对齐的跨模态行人再识别方法及***,能够在可见光-红外两种模态下进行跨模态的行人再识别任务,在复杂环境下提供识别能力。
本发明所采用的第一技术方案是:一种基于分布空间对齐的跨模态行人再识别方法,包括以下步骤:
构建特征提取器并基于第一训练样本训练特征提取器,得到训练完成的特征提取器;
获取模态图像并基于训练完成的特征提取器提取行人模态特征;
根据行人模态特征对待测图像进行聚类,得到带伪标注的数据集;
构建模态共享模型并基于带伪标注的数据集训练模态共享模型,得到第一模态共享模型;
基于第二训练样本训练第一模态共享模型,得到训练完成的模态共享模型;
根据训练完成的模态共享模型对输入图像进行识别,完成行人再识别任务。
进一步,所述第一训练样本为带真实标注的训练样本,所述构建特征提取器并基于第一训练样本训练特征提取器,得到训练完成的特征提取器这一步骤,其具体包括:
基于ResNet50构建可见光、红外模态特征提取器;
基于第一训练样本训练特征提取器并根据特征损失函数调整模型参数,得到训练完成的特征提取器。
进一步,所述可见光、红外模态特征提取器分别包括三个不同颗粒度的分支网络,所述分支网络共享ResNet50骨干网络,所述获取模态图像并基于训练完成的特征提取器提取行人模态特征这一步骤,其具体包括:
获取可见光和红外对应模态的数据集图像,并通过骨干网络得到卷积特征;
将卷积特征分别传入三个颗粒度不同的分支网络进行最大池化,得到对应颗粒度的分块特征;
将对应颗粒度的分块特征通过1x1x256的卷积核进行降维,得到降维后的特征;
将降维后的特征分别输入分支网络末尾的全连接层进行分类,输出行人模态特征。
进一步,所述根据行人模态特征对待测图像进行聚类,得到带伪标注的数据集这一步骤,其具体包括:
根据行人模态特征和密度聚类算法对模态图像进行聚类,得到模态图像的伪标注;
根据模态图像的伪标注和对应的模态图像生成带伪标注的数据集。
进一步,所述构建模态共享模型并基于带伪标注的数据集训练模态共享模型,得到第一模态共享模型这一步骤,其具体包括:
构建模态共享模型并基于带伪标注的数据集训练模态共享模型,得到对应的模态分类输出和行人深度特征;
基于模态分类输出计算交叉熵损失函数;
基于行人深度特征计算三元组损失函数;
基于行人深度特征计算模态分布空间对齐损失函数;
结合交叉熵损失函数、三元组损失函数和模态分布空间对齐损失函数调整模态共享模型的参数,得到第一模态共享模型。
进一步,所述交叉熵损失函数的计算公式如下:
Figure BDA0003371051350000021
上式中,F(·)表示模态共享模型的分类输出,所述C表示行人类别数量,X表示输入图像,y表示自监督阶段生成的行人伪标注,j表示图像对应的行人伪标注,e表示自然常数。
进一步,所述基于行人深度特征计算模态分布空间对齐损失函数的公式表示如下:
Figure BDA0003371051350000022
上式中,||·||p表示p阶范数,Φ(F(XRGB),F(XIR))表示包含所有
Figure BDA0003371051350000023
Figure BDA0003371051350000024
的以F(XRGB),F(XIR)为边界分布的联合分布全体的集合,XRGB表示可见光模态样本,XIR表示近红外模态样本,p表示范数,x表示可见光模态分布空间的样本,x'表示近红外模态分布空间的样本。
进一步,所述基于第二训练样本为带真实标注的训练样本,所述基于第二训练样本训练第一模态共享模型,得到训练完成的模态共享模型这一步骤,其具体包括:
基于第一模态共享模型生成伪正样本对;
根据伪正样本对初步修正第一模态共享模型,得到初步修正的模态共享模型;
基于第二训练样本对初步修正的模态共享模型进行训练,得到训练完成的模态共享模型。
进一步,所述基于第一模态共享模型生成伪正样本对这一步骤,其具体包括:
根据第一模态共享模型得到同模态样本间的距离矩阵和跨模态样本间的距离矩阵;
选择两张跨模态样本图像并根据同模态样本间的距离矩阵和跨模态样本间的距离矩阵计算所选样本的k个同模态内的最近邻居和k个跨模态的最近邻居,得到红外模态样本图像的 k个红外模态邻居、红外模态样本图像的k个可见光模态邻居、可见光模态样本图像的k个红外模态邻居和可见光模态样本图像的k个可见光模态邻居;
计算红外模态样本图像的k个红外模态邻居与可见光模态样本图像的k个红外模态邻居的Jaccard相似度、红外模态样本图像的k个可见光模态邻居与可见光模态样本图像的k个可见光模态邻居的Jaccard相似度,并加权得到跨模态样本对总Jaccard相似度;
根据跨模态样本对总Jaccard相似度排序,得到每个样本的跨模态邻居序列;
根据每个样本的跨模态邻居序列取出预设数量图片,得到跨模态伪正样本对。
本发明所采用的第二技术方案是:一种基于分布空间对齐的跨模态行人再识别***,包括:
第一构建模块,用于构建特征提取器并基于第一训练样本训练特征提取器,得到训练完成的特征提取器;
特征提取模块,用于获取模态图像并基于训练完成的特征提取器提取行人模态特征;
聚类模块,用于根据行人模态特征对待测图像进行聚类,得到带伪标注的数据集;
第二构建模块,用于构建模态共享模型并基于带伪标注的数据集训练模态共享模型,得到第一模态共享模型,基于第二训练样本训练第一模态共享模型,得到训练完成的模态共享模型;
识别模块,用于根据训练完成的模态共享模型对输入图像进行识别,完成行人再识别任务。
本发明方法及***的有益效果是:本发明通过将弱监督可见光-红外跨模态行人再识别问题拆解成两阶段子问题:自监督阶段解决对视角不变性特征表示的学习和跨模态阶段解决对模态不变性特征表示的学习。通过对跨模态行人深度特征空间分布进行对齐,最大程度减少可见光模态与红外模态之间的分布距离,在度量层面上显示对齐两个模态,并且使用少量带真实标注数据对自监督阶段、跨模态阶段的模型进行修正,解决现实跨模态场景下图像风格差异巨大导致的识别率下降的问题,提高跨模态行人再识别方法模型的抗干扰能力和识别能力。
附图说明
图1是本发明一种基于分布空间对齐的跨模态行人再识别方法的步骤流程图;
图2是本发明一种基于分布空间对齐的跨模态行人再识别***的结构框图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
本发明弱监督可见光-红外跨模态行人再识别是一个弱监督的、跨域的检索任务,把该检索任务分解成两阶段任务:自监督阶段通过“聚类-微调”的方式训练拟合两种模态行人数据集的特征提取器,并使用少量带真实标注的数据修正模型,学习视角不变性特征表示并为训练数据打上伪标注;跨模态阶段通过行人深度特征以及将两个模态分类器输出作为预测标签,根据模态分类器输出计算交叉熵损失函数,根据行人深度特征计算三元组损失函数、模态分布空间对齐损失函数,对齐两种模态分布,再根据跨模态伪正样本以及少量带真实标注的跨模态正样本对修正模型,提高了跨模态行人匹配的精确度。
参照图1,本发明提供了一种基于分布空间对齐的跨模态行人再识别方法,该方法包括以下步骤:
自监督阶段:
S1、构建特征提取器并基于第一训练样本训练特征提取器,得到训练完成的特征提取器;
S2、获取模态图像并基于训练完成的特征提取器提取行人模态特征;
S3、根据行人模态特征对待测图像进行聚类,得到带伪标注的数据集;
跨模态阶段:
S4、构建模态共享模型并基于带伪标注的数据集训练模态共享模型,得到第一模态共享模型;
S5、基于第二训练样本训练第一模态共享模型,得到训练完成的模态共享模型;
S6、根据训练完成的模态共享模型对输入图像进行识别,完成行人再识别任务。
进一步作为本方法的优选实施例,所述第一训练样本为带真实标注的训练样本,所述构建特征提取器并基于第一训练样本训练特征提取器,得到训练完成的特征提取器这一步骤,其具体包括:
基于ResNet50构建可见光、红外模态特征提取器;
基于第一训练样本训练特征提取器并根据特征损失函数调整模型参数,得到训练完成的特征提取器。
具体地,使用大规模单模态行人再识别数据集Market1501分别对两个模态的特征提取器进行预训练,基于特征提取器输出对应的行人身份特征和行人模态特征,对行人身份特征计算交叉熵损失函数,对模态特征计算三元组损失函数,将交叉熵损失函数和三元组损失函数之和的最小值作为目标优化训练模型,每轮在使用带伪标注的数据训练完成后,再加载少量带真实标注样本进行训练,进一步修正模型。
进一步作为本方法的优选实施例,以可见光模态特征提取器为例,所述计算交叉熵损失函数这一步骤,其表达式如下:
Figure BDA0003371051350000051
上式中,所述C表示行人类别数量,所述N表示不同颗粒度分支,FRGB(·)表示RGB模态共享模型的分类输出,X表示输入图像,
Figure BDA0003371051350000053
表示自监督阶段生成的行人伪标注,j表示图像对应的行人伪标注,e表示自然常数。
进一步作为本方法的优选实施例,以可见光模态特征提取器为例,所述计算三元组特征损失函数这一步骤,其表达式如下:
Figure BDA0003371051350000052
上式中,所述Xa表示选择的样本实例,Xp表示所选择样本的正样本,Xn表示所选择样本的负样本,所述FRGB (i)(Xa)表示选择的实例对应的行人模态特征,所述FRGB (i)(Xp)表示选择的实例的正样本对应的行人模态特征,所述FRGB (i)(Xn)表示选择的实例的负样本对应的行人模态特征,所述P表示选择的个体数量,所述K表示每个个体的实例图片数量,所述α表示选择样本与正负样本距离的最小阈值。
自监督阶段的总特征损失函数表达式如下:
L=argmin(αLc+βLt)pseudo+argmin(αLc+βLt)true
所述α、β表示可以手动优化调节的超参数,Lc表示交叉熵损失,Lt表示三元组特征损失。
进一步作为本方法的优选实施例,所述可见光、红外模态特征提取器分别包括三个不同颗粒度的分支网络,所述分支网络共享ResNet50骨干网络,所述获取模态图像并基于训练完成的特征提取器提取行人模态特征这一步骤,其具体包括:
获取可见光和红外对应模态的数据集图像,并通过骨干网络得到卷积特征;
将卷积特征分别传入三个颗粒度不同的分支网络进行最大池化,得到对应颗粒度的分块特征;
将对应颗粒度的分块特征通过1x1x256的卷积核进行降维,得到降维后的特征;
将降维后的特征分别输入分支网络末尾的全连接层进行分类,输出行人模态特征。
进一步作为本方法的优选实施例,所述根据行人模态特征对待测图像进行聚类,得到带伪标注的数据集这一步骤,其具体包括:
根据行人模态特征和密度聚类算法对模态图像进行聚类,得到模态图像的伪标注;
聚类表达式如下:
Figure BDA0003371051350000061
所述X表示输入图像,所述
Figure BDA0003371051350000062
表示无监督阶段生成的伪标注,所述FRGB表示可见光模态特征提取器,所述Π表示聚类目标式,在本方法中采用密度聚类算法,所述J表示聚类算法对应的聚类损失函数。
具体地,聚类得到两个模态每个样本的伪标注,和行人图像结合构成新的带标注的数据集,再输入到对应的模态特征提取器,计算特征损失函数继续优化微调模型,进行多次迭代“聚类-微调”。
根据模态图像的伪标注和对应的模态图像生成带伪标注的数据集。
进一步作为本方法优选实施例,所述构建模态共享模型并基于带伪标注的数据集训练模态共享模型,得到第一模态共享模型这一步骤,其具体包括:
构建模态共享模型并基于带伪标注的数据集训练模态共享模型,得到对应的模态分类输出和行人深度特征;
基于模态分类输出计算交叉熵损失函数;
基于行人深度特征计算三元组损失函数;
基于行人深度特征计算模态分布空间对齐损失函数;
结合交叉熵损失函数、三元组损失函数和模态分布空间对齐损失函数调整模态共享模型的参数,得到第一模态共享模型。
进一步作为本方法优选实施例,所述交叉熵损失函数的计算公式如下:
Figure BDA0003371051350000071
上式中,F(·)表示模态共享模型的分类输出,所述C表示行人类别数量,X表示输入图像,y表示自监督阶段生成的行人伪标注,j表示图像对应的行人伪标注,e表示自然常数。
进一步作为本方法优选实施例,所述三元组损失函数的计算公式如下:
Figure BDA0003371051350000072
上式中,所述Xa表示选择的样本实例,Xp表示所选择样本的正样本,Xn表示所选择样本的负样本,所述F(i)(Xa)表示选择的实例经过模态共享模型提取的行人深度特征,所述F(i)(Xp) 表示选择的实例的正样本经过模态共享模型提取的行人深度特征,所述F(i)(Xn)表示选择的实例的负样本经过模态共享模型提取的行人深度特征,所述P表示选择的个体数量,所述K表示每个个体的实例图片数量,所述α表示选择样本与正负样本距离的最小阈值。
进一步作为本方法优选实施例,所述基于行人深度特征计算模态分布空间对齐损失函数的公式表示如下:
Figure BDA0003371051350000073
上式中,||·||p表示p阶范数,Φ(F(XRGB),F(XIR))表示包含所有
Figure BDA0003371051350000074
Figure BDA0003371051350000075
的以 F(XRGB),F(XIR)为边界分布的联合分布全体的集合,XRGB表示可见光模态样本,XIR表示近红外模态样本,p表示范数,x表示可见光模态分布空间的样本,x'表示近红外模态分布空间的样本。
具体地,计算可见光-红外两个模态行人深度特征地分布距离,通过模态分布空间对齐损失函数,把两个模态的行人深度特征分布拉近,解决了跨模态图像风格差距过大导致的行人深度特征分布距离过大的问题。
进一步作为本方法优选实施例,所述基于第二训练样本为带真实标注的训练样本,所述基于第二训练样本训练第一模态共享模型,得到训练完成的模态共享模型这一步骤,其具体包括:
基于第一模态共享模型生成伪正样本对;
根据伪正样本对初步修正第一模态共享模型,得到初步修正的模态共享模型;
基于第二训练样本对初步修正的模态共享模型进行训练,得到训练完成的模态共享模型。
进一步作为本方法的优选实施例,所述基于第一模态共享模型生成伪正样本对这一步骤,其具体包括:
根据第一模态共享模型得到同模态样本间的距离矩阵和跨模态样本间的距离矩阵;
选择两张跨模态样本图像并根据同模态样本间的距离矩阵和跨模态样本间的距离矩阵计算所选样本的k个同模态内的最近邻居和k个跨模态的最近邻居,得到红外模态样本图像的 k个红外模态邻居、红外模态样本图像的k个可见光模态邻居、可见光模态样本图像的k个红外模态邻居和可见光模态样本图像的k个可见光模态邻居;
计算红外模态样本图像的k个红外模态邻居与可见光模态样本图像的k个红外模态邻居的Jaccard相似度、红外模态样本图像的k个可见光模态邻居与可见光模态样本图像的k个可见光模态邻居的Jaccard相似度,并加权得到跨模态样本对总Jaccard相似度;
根据跨模态样本对总Jaccard相似度排序,得到每个样本的跨模态邻居序列;
根据每个样本的跨模态邻居序列取出预设数量图片,得到跨模态伪正样本对。
如图2所示,一种基于分布空间对齐的跨模态行人再识别***,包括:
第一构建模块,用于构建特征提取器并基于第一训练样本训练特征提取器,得到训练完成的特征提取器;
特征提取模块,用于获取模态图像并基于训练完成的特征提取器提取行人模态特征;
聚类模块,用于根据行人模态特征对待测图像进行聚类,得到带伪标注的数据集;
第二构建模块,用于构建模态共享模型并基于带伪标注的数据集训练模态共享模型,得到第一模态共享模型,基于第二训练样本训练第一模态共享模型,得到训练完成的模态共享模型;
识别模块,用于根据训练完成的模态共享模型对输入图像进行识别,完成行人再识别任务。
上述方法实施例中的内容均适用于本***实施例中,本***实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种基于分布空间对齐的跨模态行人再识别方法,其特征在于,包括以下步骤:
构建特征提取器并基于第一训练样本训练特征提取器,得到训练完成的特征提取器;
获取模态图像并基于训练完成的特征提取器提取行人模态特征;
根据行人模态特征对待测图像进行聚类,得到带伪标注的数据集;
构建模态共享模型并基于带伪标注的数据集训练模态共享模型,得到第一模态共享模型;
基于第二训练样本训练第一模态共享模型,得到训练完成的模态共享模型;
根据训练完成的模态共享模型对输入图像进行识别,完成行人再识别任务。
2.根据权利要求1所述一种基于分布空间对齐的跨模态行人再识别方法,其特征在于,所述第一训练样本为带真实标注的训练样本,所述构建特征提取器并基于第一训练样本训练特征提取器,得到训练完成的特征提取器这一步骤,其具体包括:
基于ResNet50构建可见光、红外模态特征提取器;
基于第一训练样本训练特征提取器并根据特征损失函数调整模型参数,得到训练完成的特征提取器。
3.根据权利要求2所述一种基于分布空间对齐的跨模态行人再识别方法,其特征在于,所述可见光、红外模态特征提取器分别包括三个不同颗粒度的分支网络,所述分支网络共享ResNet50骨干网络,所述获取模态图像并基于训练完成的特征提取器提取行人模态特征这一步骤,其具体包括:
获取可见光和红外对应模态的数据集图像,并通过骨干网络得到卷积特征;
将卷积特征分别传入三个颗粒度不同的分支网络进行最大池化,得到对应颗粒度的分块特征;
将对应颗粒度的分块特征通过1x1x256的卷积核进行降维,得到降维后的特征;
将降维后的特征分别输入分支网络末尾的全连接层进行分类,输出行人模态特征。
4.根据权利要求3所述一种基于分布空间对齐的跨模态行人再识别方法,其特征在于,所述根据行人模态特征对待测图像进行聚类,得到带伪标注的数据集这一步骤,其具体包括:
根据行人模态特征和密度聚类算法对模态图像进行聚类,得到模态图像的伪标注;
根据模态图像的伪标注和对应的模态图像生成带伪标注的数据集。
5.根据权利要求4所述一种基于分布空间对齐的跨模态行人再识别方法,其特征在于,所述构建模态共享模型并基于带伪标注的数据集训练模态共享模型,得到第一模态共享模型这一步骤,其具体包括:
构建模态共享模型并基于带伪标注的数据集训练模态共享模型,得到对应的模态分类输出和行人深度特征;
基于模态分类输出计算交叉熵损失函数;
基于行人深度特征计算三元组损失函数;
基于行人深度特征计算模态分布空间对齐损失函数;
结合交叉熵损失函数、三元组损失函数和模态分布空间对齐损失函数调整模态共享模型的参数,得到第一模态共享模型。
6.根据权利要求5所述一种基于分布空间对齐的跨模态行人再识别方法,其特征在于,所述交叉熵损失函数的计算公式如下:
Figure FDA0003371051340000021
上式中,F(·)表示模态共享模型的分类输出,所述C表示行人类别数量,X表示输入图像,y表示自监督阶段生成的行人伪标注,j表示图像对应的行人伪标注,e表示自然常数。
7.根据权利要求6所述一种基于分布空间对齐的跨模态行人再识别方法,其特征在于,所述基于行人深度特征计算模态分布空间对齐损失函数的公式表示如下:
Figure FDA0003371051340000022
上式中,||·||p表示p阶范数,Φ(F(XRGB),F(XIR))表示包含所有
Figure FDA0003371051340000023
Figure FDA0003371051340000024
的以F(XRGB),F(XIR)为边界分布的联合分布全体的集合,XRGB表示可见光模态样本,XIR表示近红外模态样本,p表示范数,x表示可见光模态分布空间的样本,x′表示近红外模态分布空间的样本。
8.根据权利要求7所述一种基于分布空间对齐的跨模态行人再识别方法,其特征在于,所述基于第二训练样本为带真实标注的训练样本,所述基于第二训练样本训练第一模态共享模型,得到训练完成的模态共享模型这一步骤,其具体包括:
基于第一模态共享模型生成伪正样本对;
根据伪正样本对初步修正第一模态共享模型,得到初步修正的模态共享模型;
基于第二训练样本对初步修正的模态共享模型进行训练,得到训练完成的模态共享模型。
9.根据权利要求8所述一种基于分布空间对齐的跨模态行人再识别方法,其特征在于,所述基于第一模态共享模型生成伪正样本对这一步骤,其具体包括:
根据第一模态共享模型得到同模态样本间的距离矩阵和跨模态样本间的距离矩阵;
选择两张跨模态样本图像并根据同模态样本间的距离矩阵和跨模态样本间的距离矩阵计算所选样本的k个同模态内的最近邻居和k个跨模态的最近邻居,得到红外模态样本图像的k个红外模态邻居、红外模态样本图像的k个可见光模态邻居、可见光模态样本图像的k个红外模态邻居和可见光模态样本图像的k个可见光模态邻居;
计算红外模态样本图像的k个红外模态邻居与可见光模态样本图像的k个红外模态邻居的Jaccard相似度、红外模态样本图像的k个可见光模态邻居与可见光模态样本图像的k个可见光模态邻居的Jaccard相似度,并加权得到跨模态样本对总Jaccard相似度;
根据跨模态样本对总Jaccard相似度排序,得到每个样本的跨模态邻居序列;
根据每个样本的跨模态邻居序列取出预设数量图片,得到跨模态伪正样本对。
10.一种基于分布空间对齐的跨模态行人再识别***,其特征在于,包括:
第一构建模块,用于构建特征提取器并基于第一训练样本训练特征提取器,得到训练完成的特征提取器;
特征提取模块,用于获取模态图像并基于训练完成的特征提取器提取行人模态特征;
聚类模块,用于根据行人模态特征对待测图像进行聚类,得到带伪标注的数据集;
第二构建模块,用于构建模态共享模型并基于带伪标注的数据集训练模态共享模型,得到第一模态共享模型,基于第二训练样本训练第一模态共享模型,得到训练完成的模态共享模型;
识别模块,用于根据训练完成的模态共享模型对输入图像进行识别,完成行人再识别任务。
CN202111401063.4A 2021-11-24 2021-11-24 一种基于分布空间对齐的跨模态行人再识别方法及*** Pending CN114419529A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111401063.4A CN114419529A (zh) 2021-11-24 2021-11-24 一种基于分布空间对齐的跨模态行人再识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111401063.4A CN114419529A (zh) 2021-11-24 2021-11-24 一种基于分布空间对齐的跨模态行人再识别方法及***

Publications (1)

Publication Number Publication Date
CN114419529A true CN114419529A (zh) 2022-04-29

Family

ID=81265907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111401063.4A Pending CN114419529A (zh) 2021-11-24 2021-11-24 一种基于分布空间对齐的跨模态行人再识别方法及***

Country Status (1)

Country Link
CN (1) CN114419529A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114841970A (zh) * 2022-05-09 2022-08-02 北京字节跳动网络技术有限公司 检查图像的识别方法、装置、可读介质和电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114841970A (zh) * 2022-05-09 2022-08-02 北京字节跳动网络技术有限公司 检查图像的识别方法、装置、可读介质和电子设备

Similar Documents

Publication Publication Date Title
CN108460356B (zh) 一种基于监控***的人脸图像自动处理***
CN107203753B (zh) 一种基于模糊神经网络和图模型推理的动作识别方法
CN108960245B (zh) 轮胎模具字符的检测与识别方法、装置、设备及存储介质
CN110033007B (zh) 基于深度姿态预估和多特征融合的行人衣着属性识别方法
US10445602B2 (en) Apparatus and method for recognizing traffic signs
CN108520226B (zh) 一种基于躯体分解和显著性检测的行人重识别方法
CN109359608B (zh) 一种基于深度学习模型的人脸识别方法
CN107330397B (zh) 一种基于大间隔相对距离度量学习的行人重识别方法
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
CN109740679B (zh) 一种基于卷积神经网络和朴素贝叶斯的目标识别方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN110807434A (zh) 一种基于人体解析粗细粒度结合的行人重识别***及方法
CN110728694B (zh) 一种基于持续学习的长时视觉目标跟踪方法
CN109447123B (zh) 一种基于标签一致性约束与拉伸正则化字典学习的行人再识别方法
CN111738048B (zh) 一种行人再识别的方法
CN110796018A (zh) 一种基于深度图像和彩色图像的手部运动识别方法
CN112364791B (zh) 一种基于生成对抗网络的行人重识别方法和***
CN113673482B (zh) 基于动态标签分配的细胞抗核抗体荧光识别方法及***
CN114821014A (zh) 基于多模态与对抗学习的多任务目标检测识别方法及装置
Shah et al. Efficient portable camera based text to speech converter for blind person
CN114677687A (zh) 一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法
CN115862055A (zh) 基于对比学习和对抗训练的行人重识别方法及装置
CN111695531A (zh) 一种基于异构卷积网络的跨域行人再识别方法
CN110992301A (zh) 一种气体轮廓识别方法
CN114419529A (zh) 一种基于分布空间对齐的跨模态行人再识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination