CN113743544A - 一种跨模态神经网络构建方法、行人检索方法及*** - Google Patents

一种跨模态神经网络构建方法、行人检索方法及*** Download PDF

Info

Publication number
CN113743544A
CN113743544A CN202111302766.1A CN202111302766A CN113743544A CN 113743544 A CN113743544 A CN 113743544A CN 202111302766 A CN202111302766 A CN 202111302766A CN 113743544 A CN113743544 A CN 113743544A
Authority
CN
China
Prior art keywords
image
visible light
infrared
cross
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111302766.1A
Other languages
English (en)
Inventor
张德馨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongkezhiwei Technology Tianjin Co ltd
Original Assignee
Zhongkezhiwei Technology Tianjin Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongkezhiwei Technology Tianjin Co ltd filed Critical Zhongkezhiwei Technology Tianjin Co ltd
Priority to CN202111302766.1A priority Critical patent/CN113743544A/zh
Publication of CN113743544A publication Critical patent/CN113743544A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种跨模态神经网络构建方法、行人检索方法及***,属于数据分析检索技术领域,能够解决跨模态识别精度较低,行人识别效果较差的问题。所述方法包括:获取可见光样本图像和近红外样本图像,并对可见光样本图像和近红外样本图像进行预处理,得到可见光块序列数据和近红外块序列数据;将可见光块序列数据输入至第一自注意力机制模块中,获得可见光全局特征和可见光局部特征;并将近红外块序列数据输入至第二自注意力机制模块中,获得近红外全局特征和近红外局部特征;利用可见光全局特征、可见光局部特征、近红外全局特征和近红外局部特征训练第一神经网络,得到跨模态神经网络。本发明用于跨模态图像识别。

Description

一种跨模态神经网络构建方法、行人检索方法及***
技术领域
本发明涉及一种跨模态神经网络构建方法、行人检索方法及***,属于数据分析检索技术领域。
背景技术
近些年来人工智能技术在不断进步,尤其是在计算机视觉领域,从传统提取特征到现在的深度学习技术,不断推进学术界与工业界的发展。行人重识别技术是继人脸识别技术以来又一重要的以人为中心的研究领域,该领域在现实社会中具有非常重要的现实意义和商业转化前景。行人再识别(Person re-identification)目标是依托遍布各地、各场景的监控设备实现跨摄像头的行人特征提取和检索。
传统的行人重识别研究方法大多聚焦于可见光条件下人体姿态、背景、光照等的问题。此类方法主要采用行人特征提取或基于生成式的方式来实现行人再识别。而在实际的监控***中,特别是在光照不足或者黑暗的条件下,摄像机通常需要切换到红外模式来采集行人或者目标图像,从而不得不面对日常的可见光下的行人图像与近红外跨模态下的行人再识别问题。跨模态行人检索即是对可见光状态下(自然状态)和近红外状态下(摄像机所捕捉到行人不同光谱的状态)的行人进行识别和比对。目前,该方向主要有两种思路:一种是基于近红外和可见光模态下的行人特征提取方法,比如有多个子网络分别负责近红外和可见光的图像输入,然后融合到一个共享网络,学习到融合特征;另一种是基于生成式的方式(Generative adversarial networks,GANs)将两种不同模态下的行人图像转换成同一种模态,以转化成同一个模态行人重识别过程。然而在实际应用中,上述两种方法的识别精度都不高,从而导致行人识别效果较差。
发明内容
本发明提供了一种跨模态神经网络构建方法、行人检索方法及***,能够解决现有技术中跨模态识别精度较低,行人识别效果较差的问题。
一方面,本发明提供了一种跨模态神经网络构建方法,所述方法包括:
步骤11、获取可见光样本图像和近红外样本图像,并对所述可见光样本图像和所述近红外样本图像进行预处理,得到可见光块序列数据和近红外块序列数据;
步骤12、将所述可见光块序列数据输入至第一自注意力机制模块中,获得可见光全局特征和可见光局部特征;并将所述近红外块序列数据输入至第二自注意力机制模块中,获得近红外全局特征和近红外局部特征;
步骤13、利用所述可见光全局特征、所述可见光局部特征、所述近红外全局特征和所述近红外局部特征训练第一神经网络,得到跨模态神经网络。
可选的,所述对所述可见光样本图像和所述近红外样本图像进行预处理,得到可见光块序列数据和近红外块序列数据,具体包括:
将所述可见光样本图像和所述近红外样本图像分别拆分成多个图像块,以形成可见光块序列集和近红外块序列集;其中,所述可见光样本图像和所述近红外样本图像的图像块拆分规则相同;
将所述可见光块序列集输入至第一线性投射模块中,得到包含每个可见光图像块位置信息的可见光块序列数据;并将所述近红外块序列集输入至第二线性投射模块中,得到包含每个近红外图像块位置信息的近红外块序列数据。
可选的,所述步骤13具体包括:
将所述可见光全局特征输入至第一神经网络中,训练第一预设映射矩阵,得到可见光全局映射矩阵;
将所述可见光局部特征输入至第一神经网络中,训练第二预设映射矩阵,得到可见光局部映射矩阵;
将所述近红外全局特征输入至第一神经网络中,训练第三预设映射矩阵,得到近红外全局映射矩阵;
将所述近红外局部特征输入至第一神经网络中,训练第四预设映射矩阵,得到近红外局部映射矩阵;
根据所述可见光全局映射矩阵、所述可见光局部映射矩阵、所述近红外全局映射矩阵、所述近红外局部映射矩阵构建跨模态神经网络。
可选的,所述跨模态神经网络的损失函数为:
Figure 613935DEST_PATH_IMAGE001
其中,L2是对输入的两个向量求取L2损失;
Figure 580754DEST_PATH_IMAGE002
为可见光全局映射矩阵;
Figure 945876DEST_PATH_IMAGE003
为可见光全局特征;
Figure 630935DEST_PATH_IMAGE004
为近红外全局映射矩阵;
Figure 90604DEST_PATH_IMAGE005
为近红外全局特征,
Figure 911930DEST_PATH_IMAGE006
为可见光局部映射矩阵;
Figure 182374DEST_PATH_IMAGE007
为可见光局部特征;
Figure 89150DEST_PATH_IMAGE008
为近红外局部映射矩阵;
Figure 40926DEST_PATH_IMAGE009
为近红外局部特征;j=1,…,k k为拆分的图像块的数量。
可选的,所述第一自注意力机制模块的损失函数为:
Figure 592124DEST_PATH_IMAGE010
其中,
Figure 174415DEST_PATH_IMAGE011
为可见光全局损失;
Figure 693121DEST_PATH_IMAGE012
为可见光局部损失;
所述第二自注意力机制模块的损失函数为:
Figure 120691DEST_PATH_IMAGE013
其中,
Figure 290510DEST_PATH_IMAGE014
为近红外全局损失;
Figure 43703DEST_PATH_IMAGE015
为近红外局部损失。
可选的,所述近红外全局损失、所述近红外局部损失,所述可见光全局损失和所述可见光局部损失均采用交叉熵损失或局部三元组损失计算方式计算。
另一方面,本发明提供了一种跨模态行人检索方法,所述方法包括:
步骤21、获取目标行人图像,并对所述目标行人图像进行预处理,得到目标图像块序列数据;所述目标行人图像为可见光图像或近红外图像;
步骤22、将所述目标图像块序列数据输入至与所述目标行人图像的图像类型对应的自注意力机制模块中,获得目标图像全局特征和目标图像局部特征;
步骤23、将所述目标图像全局特征和所述目标图像局部特征输入至跨模态神经网络中,得到跨模态全局特征和跨模态局部特征;其中,所述跨模态神经网络为上述任一种所述的跨模态神经网络;
步骤24、利用所述跨模态全局特征和/或所述跨模态局部特征在含有目标行人的视频集中进行特征匹配检索,得到跨模态检索结果。
可选的,所述对所述目标行人图像进行预处理,得到目标图像块序列数据,具体包括:
将所述目标行人图像拆分成多个图像块,以形成目标图像块序列集;
将所述目标图像块序列集输入至与所述目标行人图像的图像类型对应的线性投射模块中,得到包含每个目标图像块位置信息的目标图像块序列数据。
可选的,若所述目标行人图像为可见光图像,则所述步骤23具体包括:
将所述目标图像全局特征输入至所述跨模态神经网络中,利用可见光全局映射矩阵对所述目标图像全局特征进行映射,得到跨模态全局特征;
将所述目标图像局部特征输入至所述跨模态神经网络中,利用可见光局部映射矩阵对所述目标图像局部特征进行映射,得到跨模态局部特征;
若所述目标行人图像为近红外图像,则所述步骤23具体包括:
将所述目标图像全局特征输入至所述跨模态神经网络中,利用近红外全局映射矩阵对所述目标图像全局特征进行映射,得到跨模态全局特征;
将所述目标图像局部特征输入至所述跨模态神经网络中,利用近红外局部映射矩阵对所述目标图像局部特征进行映射,得到跨模态局部特征。
再一方面,本发明提供了一种跨模态行人检索***,所述***包括:
预处理模块,用于获取目标行人图像,并对所述目标行人图像进行预处理,得到目标图像块序列数据;所述目标行人图像为可见光图像或近红外图像;
第一特征提取模块,用于将所述目标图像块序列数据输入至与所述目标行人图像的图像类型对应的自注意力机制模块中,获得目标图像全局特征和目标图像局部特征;
第二特征提取模块,用于将所述目标图像全局特征和所述目标图像局部特征输入至跨模态神经网络中,得到跨模态全局特征和跨模态局部特征;其中,所述跨模态神经网络为上述任一种所述的跨模态神经网络;
检索模块,用于利用所述跨模态全局特征和/或所述跨模态局部特征在含有目标行人的视频集中进行特征匹配检索,得到跨模态检索结果。
可选的,所述预处理模块具体用于:
将所述目标行人图像拆分成多个图像块,以形成目标图像块序列集;
将所述目标图像块序列集输入至与所述目标行人图像的图像类型对应的线性投射模块中,得到包含每个目标图像块位置信息的目标图像块序列数据。
本发明能产生的有益效果包括:
本发明提供的跨模态行人检索方法,通过将序列化的图像块送入到transformer模块中,得到各自模态的全局特征和局部特征,再将这些特征送入特征提取网络,可以同时获取对跨模态行人的跨模态全局特征和跨模态局部特征,利用跨模态全局特征和跨模态局部特征进行目标行人的检索,能够提升跨模态检索的性能。此外学习到的局部特征为特定场景的行人检索提供了便利,比如在遮挡、模糊等行人图像不完整的场景,局部特征的使用利于跨模态检索精度的进一步提升。
附图说明
图1为本发明实施例提供的跨模态神经网络构建方法流程图;
图2为本发明实施例提供的跨模态行人检索方法流程图;
图3为本发明实施例提供的跨模态行人检索方法原理示意图;
图4为本发明实施例提供的跨模态神经网络特征提取原理示意图。
具体实施方式
下面结合实施例详述本发明,但本发明并不局限于这些实施例。
本发明实施例提供了一种跨模态神经网络构建方法,如图1所示,所述方法包括:
步骤11、获取可见光样本图像和近红外样本图像,并对可见光样本图像和近红外样本图像进行预处理,得到可见光块序列数据和近红外块序列数据。
具体包括:将可见光样本图像和近红外样本图像分别拆分成多个图像块,以形成可见光块序列集和近红外块序列集;
将可见光块序列集输入至第一线性投射模块中,得到包含每个可见光图像块位置信息的可见光块序列数据;并将近红外块序列集输入至第二线性投射模块中,得到包含每个近红外图像块位置信息的近红外块序列数据。
其中,所述可见光样本图像和所述近红外样本图像的图像块拆分规则相同。
步骤12、将可见光块序列数据输入至第一自注意力机制模块中,获得可见光全局特征和可见光局部特征;并将近红外块序列数据输入至第二自注意力机制模块中,获得近红外全局特征和近红外局部特征。
自注意力机制模块(即transformer结构)是***在17年的Attention Is AllYou Need论文中提出,在自然语言处理的多个任务上取得了非常好的效果,其将句子中的分词(token) 通过变换得到嵌入特征,然后利用自注意力机制结构获取增加了注意力结构之后的信息,接着通过多层堆叠的transformer 结构,形成了自然语言处理中的encoder和 decoder 结构,以此完成相应任务。近几年也有不少人引入到了计算机视觉中,尤其是以Vision Transformer的方法最为有效,通过引入了transformer 结构和在大数据集上面的预训练模型,在ImageNet上面微调,从而取得了令人瞩目的成绩。
步骤13、利用可见光全局特征、可见光局部特征、近红外全局特征和近红外局部特征训练第一神经网络,得到跨模态神经网络。
具体的:将可见光全局特征输入至第一神经网络中,训练第一预设映射矩阵,得到可见光全局映射矩阵;
将可见光局部特征输入至第一神经网络中,训练第二预设映射矩阵,得到可见光局部映射矩阵;
将近红外全局特征输入至第一神经网络中,训练第三预设映射矩阵,得到近红外全局映射矩阵;
将近红外局部特征输入至第一神经网络中,训练第四预设映射矩阵,得到近红外局部映射矩阵;
根据可见光全局映射矩阵、可见光局部映射矩阵、近红外全局映射矩阵、近红外局部映射矩阵构建跨模态神经网络。
本发明另一实施例提供一种跨模态行人检索方法,如图2所示,所述方法包括:
步骤21、获取目标行人图像,并对目标行人图像进行预处理,得到目标图像块序列数据;所述目标行人图像为可见光图像或近红外图像。
具体包括:将目标行人图像拆分成多个图像块,以形成目标图像块序列集;
将目标图像块序列集输入至与所述目标行人图像的图像类型对应的线性投射模块中,得到包含每个目标图像块位置信息的目标图像块序列数据。
示例的,当目标行人图像为可见光图像时,将该目标图像块序列集输入至第一线性投射模块中;当目标行人图像为近红外图像时,将该目标图像块序列集输入至第二线性投射模块中。
步骤22、将目标图像块序列数据输入至与目标行人图像的图像类型对应的自注意力机制模块中,获得目标图像全局特征和目标图像局部特征。
示例的,当目标行人图像为可见光图像时,将该目标图像块序列数据输入至第一自注意力机制模块中;当目标行人图像为近红外图像时,将该目标图像块序列数据输入至第二自注意力机制模块中。
步骤23、将目标图像全局特征和目标图像局部特征输入至跨模态神经网络中,得到跨模态全局特征和跨模态局部特征;其中,所述跨模态神经网络为上述任一种所述的跨模态神经网络。
示例的,若目标行人图像为可见光图像,则步骤23具体包括:
将目标图像全局特征输入至跨模态神经网络中,利用可见光全局映射矩阵对目标图像全局特征进行映射,得到跨模态全局特征;
将目标图像局部特征输入至跨模态神经网络中,利用可见光局部映射矩阵对目标图像局部特征进行映射,得到跨模态局部特征;
若目标行人图像为近红外图像,则步骤23具体包括:
将目标图像全局特征输入至跨模态神经网络中,利用近红外全局映射矩阵对目标图像全局特征进行映射,得到跨模态全局特征;
将目标图像局部特征输入至跨模态神经网络中,利用近红外局部映射矩阵对目标图像局部特征进行映射,得到跨模态局部特征。
步骤24、利用跨模态全局特征和/或跨模态局部特征在含有目标行人的视频集中进行特征匹配检索,得到跨模态检索结果。
参考图3所示,在图像的预处理阶段,将不同模态的图像,即可见光图像(图3中所示为灰度图像,实际中一般为彩色图像)和近红外图像,拆分成若干个块,这些块可以不重叠,也可以重叠,但是保证不同模态拆分的规则是一致的,形成各自模态图像的块序列。基于传统的transformer的方法,将两个模态的序列图像集送入各自线性投射模块中,随后再加入各个图像块的位置信息后送入各自transformer模块,获得各自模态的全局特征和局部特征。这里可学习嵌入到上述块信息中的模块,其对应输出的分类信息编码层即为全图像的全局特征,对应的每一块经过编码层后输出为全图像的含有位置信息的局部特征。可见光和近红外的全局特征和局部特征送入到跨模态神经网络中进行特征学习,以进一步提取到适应于跨模态检索的特征集合,即跨模态全局特征和跨模态局部特征。
在此过程中,首先在各自模态的训练中,需要各自模态的全局特征和局部特征收敛,即:
第一自注意力机制模块的损失函数为:
Figure 784126DEST_PATH_IMAGE016
其中,
Figure 280966DEST_PATH_IMAGE017
为可见光全局损失;
Figure 806756DEST_PATH_IMAGE018
为可见光局部损失;
所述第二自注意力机制模块的损失函数为:
Figure 527588DEST_PATH_IMAGE019
其中,
Figure 896252DEST_PATH_IMAGE020
为近红外全局损失;
Figure 55838DEST_PATH_IMAGE021
为近红外局部损失。
其中,近红外模态用“
Figure 560769DEST_PATH_IMAGE022
”表示,可见光模态用“
Figure 764086DEST_PATH_IMAGE023
”表示,
Figure 354467DEST_PATH_IMAGE024
为图像分块的数量,损失计算用“
Figure 989848DEST_PATH_IMAGE025
”表示。而损失计算中可以采用交叉熵损失、局部三元组损失等组合,以提升特征的表征能力。
在跨模态的特征集合中,需要考虑的是如何从两个模态的全局特征和局部特征中映射出共享的更优全局特征和局部特征,即需要通过各自的一个全局映射矩阵
Figure 739498DEST_PATH_IMAGE026
Figure 84023DEST_PATH_IMAGE027
来映射到同一空间,而局部特征的映射特征也是类似的
Figure 958438DEST_PATH_IMAGE028
。参考图4所示,
Figure 335193DEST_PATH_IMAGE029
为跨模态学习到的适应于跨模态检索的全局特征,d1为全局特征的维度,
Figure 939349DEST_PATH_IMAGE030
为跨模态学习到的适应于跨模态检索的局部特征,d2为局部特征的维度。则可以得到
Figure 110568DEST_PATH_IMAGE031
所以跨模态神经网络的损失函数可以定义为:
Figure 72880DEST_PATH_IMAGE032
其中,L2是对输入的两个向量求取L2损失;
Figure 253326DEST_PATH_IMAGE033
为可见光全局映射矩阵;
Figure 977568DEST_PATH_IMAGE034
为可见光全局特征;
Figure 585267DEST_PATH_IMAGE035
为近红外全局映射矩阵;
Figure 247324DEST_PATH_IMAGE036
为近红外全局特征,
Figure 28198DEST_PATH_IMAGE037
为可见光局部映射矩阵;
Figure 482313DEST_PATH_IMAGE038
为可见光局部特征;
Figure 385547DEST_PATH_IMAGE039
为近红外局部映射矩阵;
Figure 393954DEST_PATH_IMAGE040
为近红外局部特征;j=1,…,k k为拆分的图像块的数量。
希望通过优化上述目标函数获得对应的映射矩阵,实现更优特征子集的学习,需要说明的是,在跨模态的特征学习中,可见光和近红外图像的全局特征和局部特征协同学习,可以获取更优的适配于跨模态识别的特征集合,以提升跨模态的检索性能。
在整体的跨模态的特征学习中,考虑到各自模态内部的transformer网络的学习,总体的loss函数
Figure 290104DEST_PATH_IMAGE041
则定义为如下:
Figure 598725DEST_PATH_IMAGE042
其中,
Figure 344964DEST_PATH_IMAGE043
为损失权重,用于平衡和调整自模态的损失和跨模态损失的度量。
本发明采用全局特征和局部特征同时检索,可以提升跨模态检索的精度。另外,在某些复杂场景,比如可能存在遮挡、模糊等情况,导致行人的全局信息不完整,而造成的全局特征无效的时候,可以采用局部特征有针对性的进行检索。即在获得一幅检索图像时,可以指定该检索图像的某一局部区域,在提取完该图像全局和局部特征之后,可以采用对应的局部特征在跨模态的数据库中查询与该局部特征相似的图像集合,返回查询结果。本发明可以灵活的应用局部特征来进行跨模态检索,提升了整体***的检索精度和检索灵活性。
本发明再一实施例提供一种跨模态行人检索***,所述***包括:
预处理模块,用于获取目标行人图像,并对目标行人图像进行预处理,得到目标图像块序列数据;所述目标行人图像为可见光图像或近红外图像;
第一特征提取模块,用于将目标图像块序列数据输入至与目标行人图像的图像类型对应的自注意力机制模块中,获得目标图像全局特征和目标图像局部特征;
第二特征提取模块,用于将目标图像全局特征和目标图像局部特征输入至跨模态神经网络中,得到跨模态全局特征和跨模态局部特征;其中,所述跨模态神经网络为上述任一种所述的跨模态神经网络;
检索模块,用于利用跨模态全局特征和/或跨模态局部特征在含有目标行人的视频集中进行特征匹配检索,得到跨模态检索结果。
进一步的,预处理模块具体用于:
将目标行人图像拆分成多个图像块,以形成目标图像块序列集;
将目标图像块序列集输入至与目标行人图像的图像类型对应的线性投射模块中,得到包含每个目标图像块位置信息的目标图像块序列数据。
上述检索***中各模块的功能解释可以参考检索方法中对各步骤的解释说明,在此不再赘述。
以上所述,仅是本申请的几个实施例,并非对本申请做任何形式的限制,虽然本申请以较佳实施例揭示如上,然而并非用以限制本申请,任何熟悉本专业的技术人员,在不脱离本申请技术方案的范围内,利用上述揭示的技术内容做出些许的变动或修饰均等同于等效实施案例,均属于技术方案范围内。

Claims (10)

1.一种跨模态神经网络构建方法,其特征在于,所述方法包括:
步骤11、获取可见光样本图像和近红外样本图像,并对所述可见光样本图像和所述近红外样本图像进行预处理,得到可见光块序列数据和近红外块序列数据;
步骤12、将所述可见光块序列数据输入至第一自注意力机制模块中,获得可见光全局特征和可见光局部特征;并将所述近红外块序列数据输入至第二自注意力机制模块中,获得近红外全局特征和近红外局部特征;
步骤13、利用所述可见光全局特征、所述可见光局部特征、所述近红外全局特征和所述近红外局部特征训练第一神经网络,得到跨模态神经网络。
2.根据权利要求1所述的方法,其特征在于,所述对所述可见光样本图像和所述近红外样本图像进行预处理,得到可见光块序列数据和近红外块序列数据,具体包括:
将所述可见光样本图像和所述近红外样本图像分别拆分成多个图像块,以形成可见光块序列集和近红外块序列集;其中,所述可见光样本图像和所述近红外样本图像的图像块拆分规则相同;
将所述可见光块序列集输入至第一线性投射模块中,得到包含每个可见光图像块位置信息的可见光块序列数据;并将所述近红外块序列集输入至第二线性投射模块中,得到包含每个近红外图像块位置信息的近红外块序列数据。
3.根据权利要求1所述的方法,其特征在于,所述步骤13具体包括:
将所述可见光全局特征输入至第一神经网络中,训练第一预设映射矩阵,得到可见光全局映射矩阵;
将所述可见光局部特征输入至第一神经网络中,训练第二预设映射矩阵,得到可见光局部映射矩阵;
将所述近红外全局特征输入至第一神经网络中,训练第三预设映射矩阵,得到近红外全局映射矩阵;
将所述近红外局部特征输入至第一神经网络中,训练第四预设映射矩阵,得到近红外局部映射矩阵;
根据所述可见光全局映射矩阵、所述可见光局部映射矩阵、所述近红外全局映射矩阵、所述近红外局部映射矩阵构建跨模态神经网络。
4.根据权利要求1所述的方法,其特征在于,所述跨模态神经网络的损失函数为:
Figure 362426DEST_PATH_IMAGE001
其中,L2是对输入的两个向量求取L2损失;
Figure 184889DEST_PATH_IMAGE002
为可见光全局映射矩阵;
Figure 45397DEST_PATH_IMAGE003
为可见光全局特征;
Figure 447560DEST_PATH_IMAGE004
为近红外全局映射矩阵;
Figure 959181DEST_PATH_IMAGE005
为近红外全局特征,
Figure 686966DEST_PATH_IMAGE006
为可见光局部映射矩阵;
Figure 769192DEST_PATH_IMAGE007
为可见光局部特征;
Figure 240624DEST_PATH_IMAGE008
为近红外局部映射矩阵;
Figure 842638DEST_PATH_IMAGE009
为近红外局部特征;j=1,…,kk为拆分的图像块的数量。
5.根据权利要求1所述的方法,其特征在于,所述第一自注意力机制模块的损失函数为:
Figure 741324DEST_PATH_IMAGE010
其中,
Figure 576425DEST_PATH_IMAGE011
为可见光全局损失;
Figure 585969DEST_PATH_IMAGE012
为可见光局部损失;
所述第二自注意力机制模块的损失函数为:
Figure 9866DEST_PATH_IMAGE013
其中,
Figure 204087DEST_PATH_IMAGE014
为近红外全局损失;
Figure 136271DEST_PATH_IMAGE015
为近红外局部损失。
6.一种跨模态行人检索方法,其特征在于,所述方法包括:
步骤21、获取目标行人图像,并对所述目标行人图像进行预处理,得到目标图像块序列数据;所述目标行人图像为可见光图像或近红外图像;
步骤22、将所述目标图像块序列数据输入至与所述目标行人图像的图像类型对应的自注意力机制模块中,获得目标图像全局特征和目标图像局部特征;
步骤23、将所述目标图像全局特征和所述目标图像局部特征输入至跨模态神经网络中,得到跨模态全局特征和跨模态局部特征;其中,所述跨模态神经网络为权利要求1至5中任一项所述的跨模态神经网络;
步骤24、利用所述跨模态全局特征和/或所述跨模态局部特征在含有目标行人的视频集中进行特征匹配检索,得到跨模态检索结果。
7.根据权利要求6所述的方法,其特征在于,所述对所述目标行人图像进行预处理,得到目标图像块序列数据,具体包括:
将所述目标行人图像拆分成多个图像块,以形成目标图像块序列集;
将所述目标图像块序列集输入至与所述目标行人图像的图像类型对应的线性投射模块中,得到包含每个目标图像块位置信息的目标图像块序列数据。
8.根据权利要求6所述的方法,其特征在于,若所述目标行人图像为可见光图像,则所述步骤23具体包括:
将所述目标图像全局特征输入至所述跨模态神经网络中,利用可见光全局映射矩阵对所述目标图像全局特征进行映射,得到跨模态全局特征;
将所述目标图像局部特征输入至所述跨模态神经网络中,利用可见光局部映射矩阵对所述目标图像局部特征进行映射,得到跨模态局部特征;
若所述目标行人图像为近红外图像,则所述步骤23具体包括:
将所述目标图像全局特征输入至所述跨模态神经网络中,利用近红外全局映射矩阵对所述目标图像全局特征进行映射,得到跨模态全局特征;
将所述目标图像局部特征输入至所述跨模态神经网络中,利用近红外局部映射矩阵对所述目标图像局部特征进行映射,得到跨模态局部特征。
9.一种跨模态行人检索***,其特征在于,所述***包括:
预处理模块,用于获取目标行人图像,并对所述目标行人图像进行预处理,得到目标图像块序列数据;所述目标行人图像为可见光图像或近红外图像;
第一特征提取模块,用于将所述目标图像块序列数据输入至与所述目标行人图像的图像类型对应的自注意力机制模块中,获得目标图像全局特征和目标图像局部特征;
第二特征提取模块,用于将所述目标图像全局特征和所述目标图像局部特征输入至跨模态神经网络中,得到跨模态全局特征和跨模态局部特征;其中,所述跨模态神经网络为权利要求1至5中任一项所述的跨模态神经网络;
检索模块,用于利用所述跨模态全局特征和/或所述跨模态局部特征在含有目标行人的视频集中进行特征匹配检索,得到跨模态检索结果。
10.根据权利要求9所述的***,其特征在于,所述预处理模块具体用于:
将所述目标行人图像拆分成多个图像块,以形成目标图像块序列集;
将所述目标图像块序列集输入至与所述目标行人图像的图像类型对应的线性投射模块中,得到包含每个目标图像块位置信息的目标图像块序列数据。
CN202111302766.1A 2021-11-05 2021-11-05 一种跨模态神经网络构建方法、行人检索方法及*** Pending CN113743544A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111302766.1A CN113743544A (zh) 2021-11-05 2021-11-05 一种跨模态神经网络构建方法、行人检索方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111302766.1A CN113743544A (zh) 2021-11-05 2021-11-05 一种跨模态神经网络构建方法、行人检索方法及***

Publications (1)

Publication Number Publication Date
CN113743544A true CN113743544A (zh) 2021-12-03

Family

ID=78727537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111302766.1A Pending CN113743544A (zh) 2021-11-05 2021-11-05 一种跨模态神经网络构建方法、行人检索方法及***

Country Status (1)

Country Link
CN (1) CN113743544A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663839A (zh) * 2022-05-12 2022-06-24 中科智为科技(天津)有限公司 一种遮挡行人重识别方法及***
CN114693977A (zh) * 2022-04-06 2022-07-01 北京百度网讯科技有限公司 图像处理方法、模型训练方法、装置、设备及介质
CN114694185A (zh) * 2022-05-31 2022-07-01 浪潮电子信息产业股份有限公司 一种跨模态目标重识别方法、装置、设备及介质
CN115050044A (zh) * 2022-04-02 2022-09-13 广西科学院 一种基于MLP-Mixer的跨模态行人重识别方法
CN117576520A (zh) * 2024-01-16 2024-02-20 中国科学技术大学 目标检测模型的训练方法、目标检测方法及电子设备
CN117934309A (zh) * 2024-03-18 2024-04-26 昆明理工大学 基于模态字典和特征匹配的未配准红外可见图像融合方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
CN110598654A (zh) * 2019-09-18 2019-12-20 合肥工业大学 多粒度交叉模态特征融合行人再识别方法和再识别***
US20210056764A1 (en) * 2018-05-22 2021-02-25 Magic Leap, Inc. Transmodal input fusion for a wearable system
CN112434796A (zh) * 2020-12-09 2021-03-02 同济大学 一种基于局部信息学习的跨模态行人再识别方法
CN112528866A (zh) * 2020-12-14 2021-03-19 奥比中光科技集团股份有限公司 跨模态人脸识别方法、装置、设备及存储介质
CN113487609A (zh) * 2021-09-06 2021-10-08 北京字节跳动网络技术有限公司 组织腔体的定位方法、装置、可读介质和电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210056764A1 (en) * 2018-05-22 2021-02-25 Magic Leap, Inc. Transmodal input fusion for a wearable system
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
CN110598654A (zh) * 2019-09-18 2019-12-20 合肥工业大学 多粒度交叉模态特征融合行人再识别方法和再识别***
CN112434796A (zh) * 2020-12-09 2021-03-02 同济大学 一种基于局部信息学习的跨模态行人再识别方法
CN112528866A (zh) * 2020-12-14 2021-03-19 奥比中光科技集团股份有限公司 跨模态人脸识别方法、装置、设备及存储介质
CN113487609A (zh) * 2021-09-06 2021-10-08 北京字节跳动网络技术有限公司 组织腔体的定位方法、装置、可读介质和电子设备

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115050044A (zh) * 2022-04-02 2022-09-13 广西科学院 一种基于MLP-Mixer的跨模态行人重识别方法
CN114693977A (zh) * 2022-04-06 2022-07-01 北京百度网讯科技有限公司 图像处理方法、模型训练方法、装置、设备及介质
CN114663839A (zh) * 2022-05-12 2022-06-24 中科智为科技(天津)有限公司 一种遮挡行人重识别方法及***
CN114663839B (zh) * 2022-05-12 2022-11-04 中科智为科技(天津)有限公司 一种遮挡行人重识别方法及***
CN114694185A (zh) * 2022-05-31 2022-07-01 浪潮电子信息产业股份有限公司 一种跨模态目标重识别方法、装置、设备及介质
CN114694185B (zh) * 2022-05-31 2022-11-04 浪潮电子信息产业股份有限公司 一种跨模态目标重识别方法、装置、设备及介质
CN117576520A (zh) * 2024-01-16 2024-02-20 中国科学技术大学 目标检测模型的训练方法、目标检测方法及电子设备
CN117576520B (zh) * 2024-01-16 2024-05-17 中国科学技术大学 目标检测模型的训练方法、目标检测方法及电子设备
CN117934309A (zh) * 2024-03-18 2024-04-26 昆明理工大学 基于模态字典和特征匹配的未配准红外可见图像融合方法
CN117934309B (zh) * 2024-03-18 2024-05-24 昆明理工大学 基于模态字典和特征匹配的未配准红外可见图像融合方法

Similar Documents

Publication Publication Date Title
Ahila Priyadharshini et al. A deep learning approach for person identification using ear biometrics
CN113743544A (zh) 一种跨模态神经网络构建方法、行人检索方法及***
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
CN106919920B (zh) 基于卷积特征和空间视觉词袋模型的场景识别方法
CN110135249B (zh) 基于时间注意力机制和lstm的人体行为识别方法
Ferreira et al. Physiological inspired deep neural networks for emotion recognition
WO2021155792A1 (zh) 一种处理装置、方法及存储介质
Zhang et al. Image-to-video person re-identification with temporally memorized similarity learning
Komorowski et al. Minkloc++: lidar and monocular image fusion for place recognition
CN112307995B (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN112651262B (zh) 一种基于自适应行人对齐的跨模态行人重识别方法
Gou et al. Cascade learning from adversarial synthetic images for accurate pupil detection
CN110222718B (zh) 图像处理的方法及装置
CN110135277B (zh) 一种基于卷积神经网络的人体行为识别方法
CN113870160A (zh) 一种基于变换器神经网络的点云数据处理方法
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
Hu et al. A spatio-temporal integrated model based on local and global features for video expression recognition
Li et al. Multi-view-based siamese convolutional neural network for 3D object retrieval
CN113343966B (zh) 一种红外与可见光图像文本描述生成方法
Guo et al. Facial expression recognition: a review
Sajid et al. Facial asymmetry-based feature extraction for different applications: a review complemented by new advances
Cui et al. Multisource learning for skeleton-based action recognition using deep LSTM and CNN
Hashim et al. An Optimized Image Annotation Method Utilizing Integrating Neural Networks Model and Slantlet Transformation
Zhao et al. Research on human behavior recognition in video based on 3DCCA
CN117036658A (zh) 一种图像处理方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211203

RJ01 Rejection of invention patent application after publication