CN113743544A

CN113743544A - 一种跨模态神经网络构建方法、行人检索方法及***

Info

Publication number: CN113743544A
Application number: CN202111302766.1A
Authority: CN
Inventors: 张德馨
Original assignee: Zhongkezhiwei Technology Tianjin Co ltd
Current assignee: Zhongkezhiwei Technology Tianjin Co ltd
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2021-12-03

Abstract

本发明公开了一种跨模态神经网络构建方法、行人检索方法及***，属于数据分析检索技术领域，能够解决跨模态识别精度较低，行人识别效果较差的问题。所述方法包括：获取可见光样本图像和近红外样本图像，并对可见光样本图像和近红外样本图像进行预处理，得到可见光块序列数据和近红外块序列数据；将可见光块序列数据输入至第一自注意力机制模块中，获得可见光全局特征和可见光局部特征；并将近红外块序列数据输入至第二自注意力机制模块中，获得近红外全局特征和近红外局部特征；利用可见光全局特征、可见光局部特征、近红外全局特征和近红外局部特征训练第一神经网络，得到跨模态神经网络。本发明用于跨模态图像识别。

Description

一种跨模态神经网络构建方法、行人检索方法及***

技术领域

本发明涉及一种跨模态神经网络构建方法、行人检索方法及***，属于数据分析检索技术领域。

背景技术

近些年来人工智能技术在不断进步，尤其是在计算机视觉领域，从传统提取特征到现在的深度学习技术，不断推进学术界与工业界的发展。行人重识别技术是继人脸识别技术以来又一重要的以人为中心的研究领域，该领域在现实社会中具有非常重要的现实意义和商业转化前景。行人再识别(Person re-identification)目标是依托遍布各地、各场景的监控设备实现跨摄像头的行人特征提取和检索。

传统的行人重识别研究方法大多聚焦于可见光条件下人体姿态、背景、光照等的问题。此类方法主要采用行人特征提取或基于生成式的方式来实现行人再识别。而在实际的监控***中，特别是在光照不足或者黑暗的条件下，摄像机通常需要切换到红外模式来采集行人或者目标图像，从而不得不面对日常的可见光下的行人图像与近红外跨模态下的行人再识别问题。跨模态行人检索即是对可见光状态下(自然状态)和近红外状态下(摄像机所捕捉到行人不同光谱的状态)的行人进行识别和比对。目前，该方向主要有两种思路:一种是基于近红外和可见光模态下的行人特征提取方法，比如有多个子网络分别负责近红外和可见光的图像输入，然后融合到一个共享网络，学习到融合特征；另一种是基于生成式的方式(Generative adversarial networks，GANs)将两种不同模态下的行人图像转换成同一种模态，以转化成同一个模态行人重识别过程。然而在实际应用中，上述两种方法的识别精度都不高，从而导致行人识别效果较差。

发明内容

本发明提供了一种跨模态神经网络构建方法、行人检索方法及***，能够解决现有技术中跨模态识别精度较低，行人识别效果较差的问题。

一方面，本发明提供了一种跨模态神经网络构建方法，所述方法包括：

步骤11、获取可见光样本图像和近红外样本图像，并对所述可见光样本图像和所述近红外样本图像进行预处理，得到可见光块序列数据和近红外块序列数据；

步骤12、将所述可见光块序列数据输入至第一自注意力机制模块中，获得可见光全局特征和可见光局部特征；并将所述近红外块序列数据输入至第二自注意力机制模块中，获得近红外全局特征和近红外局部特征；

步骤13、利用所述可见光全局特征、所述可见光局部特征、所述近红外全局特征和所述近红外局部特征训练第一神经网络，得到跨模态神经网络。

可选的，所述对所述可见光样本图像和所述近红外样本图像进行预处理，得到可见光块序列数据和近红外块序列数据，具体包括：

将所述可见光样本图像和所述近红外样本图像分别拆分成多个图像块，以形成可见光块序列集和近红外块序列集；其中，所述可见光样本图像和所述近红外样本图像的图像块拆分规则相同；

将所述可见光块序列集输入至第一线性投射模块中，得到包含每个可见光图像块位置信息的可见光块序列数据；并将所述近红外块序列集输入至第二线性投射模块中，得到包含每个近红外图像块位置信息的近红外块序列数据。

可选的，所述步骤13具体包括：

将所述可见光全局特征输入至第一神经网络中，训练第一预设映射矩阵，得到可见光全局映射矩阵；

将所述可见光局部特征输入至第一神经网络中，训练第二预设映射矩阵，得到可见光局部映射矩阵；

将所述近红外全局特征输入至第一神经网络中，训练第三预设映射矩阵，得到近红外全局映射矩阵；

将所述近红外局部特征输入至第一神经网络中，训练第四预设映射矩阵，得到近红外局部映射矩阵；

根据所述可见光全局映射矩阵、所述可见光局部映射矩阵、所述近红外全局映射矩阵、所述近红外局部映射矩阵构建跨模态神经网络。

可选的，所述跨模态神经网络的损失函数为：

；

其中，L2是对输入的两个向量求取L2损失；

为可见光全局映射矩阵；

为可见光全局特征；

为近红外全局映射矩阵；

为近红外全局特征，

为可见光局部映射矩阵；

为可见光局部特征；

为近红外局部映射矩阵；

为近红外局部特征；j=1,…,k ；k为拆分的图像块的数量。

可选的，所述第一自注意力机制模块的损失函数为：

；

其中，

为可见光全局损失；

为可见光局部损失；

所述第二自注意力机制模块的损失函数为：

；

其中，

为近红外全局损失；

为近红外局部损失。

可选的，所述近红外全局损失、所述近红外局部损失，所述可见光全局损失和所述可见光局部损失均采用交叉熵损失或局部三元组损失计算方式计算。

另一方面，本发明提供了一种跨模态行人检索方法，所述方法包括：

步骤21、获取目标行人图像，并对所述目标行人图像进行预处理，得到目标图像块序列数据；所述目标行人图像为可见光图像或近红外图像；

步骤22、将所述目标图像块序列数据输入至与所述目标行人图像的图像类型对应的自注意力机制模块中，获得目标图像全局特征和目标图像局部特征；

步骤23、将所述目标图像全局特征和所述目标图像局部特征输入至跨模态神经网络中，得到跨模态全局特征和跨模态局部特征；其中，所述跨模态神经网络为上述任一种所述的跨模态神经网络；

步骤24、利用所述跨模态全局特征和/或所述跨模态局部特征在含有目标行人的视频集中进行特征匹配检索，得到跨模态检索结果。

可选的，所述对所述目标行人图像进行预处理，得到目标图像块序列数据，具体包括：

将所述目标行人图像拆分成多个图像块，以形成目标图像块序列集；

将所述目标图像块序列集输入至与所述目标行人图像的图像类型对应的线性投射模块中，得到包含每个目标图像块位置信息的目标图像块序列数据。

可选的，若所述目标行人图像为可见光图像，则所述步骤23具体包括：

将所述目标图像全局特征输入至所述跨模态神经网络中，利用可见光全局映射矩阵对所述目标图像全局特征进行映射，得到跨模态全局特征；

将所述目标图像局部特征输入至所述跨模态神经网络中，利用可见光局部映射矩阵对所述目标图像局部特征进行映射，得到跨模态局部特征；

若所述目标行人图像为近红外图像，则所述步骤23具体包括：

将所述目标图像全局特征输入至所述跨模态神经网络中，利用近红外全局映射矩阵对所述目标图像全局特征进行映射，得到跨模态全局特征；

将所述目标图像局部特征输入至所述跨模态神经网络中，利用近红外局部映射矩阵对所述目标图像局部特征进行映射，得到跨模态局部特征。

再一方面，本发明提供了一种跨模态行人检索***，所述***包括：

预处理模块，用于获取目标行人图像，并对所述目标行人图像进行预处理，得到目标图像块序列数据；所述目标行人图像为可见光图像或近红外图像；

第一特征提取模块，用于将所述目标图像块序列数据输入至与所述目标行人图像的图像类型对应的自注意力机制模块中，获得目标图像全局特征和目标图像局部特征；

第二特征提取模块，用于将所述目标图像全局特征和所述目标图像局部特征输入至跨模态神经网络中，得到跨模态全局特征和跨模态局部特征；其中，所述跨模态神经网络为上述任一种所述的跨模态神经网络；

检索模块，用于利用所述跨模态全局特征和/或所述跨模态局部特征在含有目标行人的视频集中进行特征匹配检索，得到跨模态检索结果。

可选的，所述预处理模块具体用于：

本发明能产生的有益效果包括：

本发明提供的跨模态行人检索方法，通过将序列化的图像块送入到transformer模块中，得到各自模态的全局特征和局部特征，再将这些特征送入特征提取网络，可以同时获取对跨模态行人的跨模态全局特征和跨模态局部特征，利用跨模态全局特征和跨模态局部特征进行目标行人的检索，能够提升跨模态检索的性能。此外学习到的局部特征为特定场景的行人检索提供了便利，比如在遮挡、模糊等行人图像不完整的场景，局部特征的使用利于跨模态检索精度的进一步提升。

附图说明

图1为本发明实施例提供的跨模态神经网络构建方法流程图；

图2为本发明实施例提供的跨模态行人检索方法流程图；

图3为本发明实施例提供的跨模态行人检索方法原理示意图；

图4为本发明实施例提供的跨模态神经网络特征提取原理示意图。

具体实施方式

下面结合实施例详述本发明，但本发明并不局限于这些实施例。

本发明实施例提供了一种跨模态神经网络构建方法，如图1所示，所述方法包括：

步骤11、获取可见光样本图像和近红外样本图像，并对可见光样本图像和近红外样本图像进行预处理，得到可见光块序列数据和近红外块序列数据。

具体包括：将可见光样本图像和近红外样本图像分别拆分成多个图像块，以形成可见光块序列集和近红外块序列集；

将可见光块序列集输入至第一线性投射模块中，得到包含每个可见光图像块位置信息的可见光块序列数据；并将近红外块序列集输入至第二线性投射模块中，得到包含每个近红外图像块位置信息的近红外块序列数据。

其中，所述可见光样本图像和所述近红外样本图像的图像块拆分规则相同。

步骤12、将可见光块序列数据输入至第一自注意力机制模块中，获得可见光全局特征和可见光局部特征；并将近红外块序列数据输入至第二自注意力机制模块中，获得近红外全局特征和近红外局部特征。

自注意力机制模块（即transformer结构）是***在17年的Attention Is AllYou Need论文中提出，在自然语言处理的多个任务上取得了非常好的效果，其将句子中的分词(token) 通过变换得到嵌入特征，然后利用自注意力机制结构获取增加了注意力结构之后的信息，接着通过多层堆叠的transformer 结构，形成了自然语言处理中的encoder和 decoder 结构，以此完成相应任务。近几年也有不少人引入到了计算机视觉中，尤其是以Vision Transformer的方法最为有效，通过引入了transformer 结构和在大数据集上面的预训练模型，在ImageNet上面微调，从而取得了令人瞩目的成绩。

步骤13、利用可见光全局特征、可见光局部特征、近红外全局特征和近红外局部特征训练第一神经网络，得到跨模态神经网络。

具体的：将可见光全局特征输入至第一神经网络中，训练第一预设映射矩阵，得到可见光全局映射矩阵；

将可见光局部特征输入至第一神经网络中，训练第二预设映射矩阵，得到可见光局部映射矩阵；

将近红外全局特征输入至第一神经网络中，训练第三预设映射矩阵，得到近红外全局映射矩阵；

将近红外局部特征输入至第一神经网络中，训练第四预设映射矩阵，得到近红外局部映射矩阵；

根据可见光全局映射矩阵、可见光局部映射矩阵、近红外全局映射矩阵、近红外局部映射矩阵构建跨模态神经网络。

本发明另一实施例提供一种跨模态行人检索方法，如图2所示，所述方法包括：

步骤21、获取目标行人图像，并对目标行人图像进行预处理，得到目标图像块序列数据；所述目标行人图像为可见光图像或近红外图像。

具体包括：将目标行人图像拆分成多个图像块，以形成目标图像块序列集；

将目标图像块序列集输入至与所述目标行人图像的图像类型对应的线性投射模块中，得到包含每个目标图像块位置信息的目标图像块序列数据。

示例的，当目标行人图像为可见光图像时，将该目标图像块序列集输入至第一线性投射模块中；当目标行人图像为近红外图像时，将该目标图像块序列集输入至第二线性投射模块中。

步骤22、将目标图像块序列数据输入至与目标行人图像的图像类型对应的自注意力机制模块中，获得目标图像全局特征和目标图像局部特征。

示例的，当目标行人图像为可见光图像时，将该目标图像块序列数据输入至第一自注意力机制模块中；当目标行人图像为近红外图像时，将该目标图像块序列数据输入至第二自注意力机制模块中。

步骤23、将目标图像全局特征和目标图像局部特征输入至跨模态神经网络中，得到跨模态全局特征和跨模态局部特征；其中，所述跨模态神经网络为上述任一种所述的跨模态神经网络。

示例的，若目标行人图像为可见光图像，则步骤23具体包括：

将目标图像全局特征输入至跨模态神经网络中，利用可见光全局映射矩阵对目标图像全局特征进行映射，得到跨模态全局特征；

将目标图像局部特征输入至跨模态神经网络中，利用可见光局部映射矩阵对目标图像局部特征进行映射，得到跨模态局部特征；

若目标行人图像为近红外图像，则步骤23具体包括：

将目标图像全局特征输入至跨模态神经网络中，利用近红外全局映射矩阵对目标图像全局特征进行映射，得到跨模态全局特征；

将目标图像局部特征输入至跨模态神经网络中，利用近红外局部映射矩阵对目标图像局部特征进行映射，得到跨模态局部特征。

步骤24、利用跨模态全局特征和/或跨模态局部特征在含有目标行人的视频集中进行特征匹配检索，得到跨模态检索结果。

参考图3所示，在图像的预处理阶段，将不同模态的图像，即可见光图像（图3中所示为灰度图像，实际中一般为彩色图像）和近红外图像，拆分成若干个块，这些块可以不重叠，也可以重叠，但是保证不同模态拆分的规则是一致的，形成各自模态图像的块序列。基于传统的transformer的方法，将两个模态的序列图像集送入各自线性投射模块中，随后再加入各个图像块的位置信息后送入各自transformer模块，获得各自模态的全局特征和局部特征。这里可学习嵌入到上述块信息中的模块，其对应输出的分类信息编码层即为全图像的全局特征，对应的每一块经过编码层后输出为全图像的含有位置信息的局部特征。可见光和近红外的全局特征和局部特征送入到跨模态神经网络中进行特征学习，以进一步提取到适应于跨模态检索的特征集合，即跨模态全局特征和跨模态局部特征。

在此过程中，首先在各自模态的训练中，需要各自模态的全局特征和局部特征收敛，即：

第一自注意力机制模块的损失函数为：

；

其中，

为可见光全局损失；

为可见光局部损失；

所述第二自注意力机制模块的损失函数为：

；

其中，

为近红外全局损失；

为近红外局部损失。

其中，近红外模态用“

”表示，可见光模态用“

”表示，

为图像分块的数量，损失计算用“

”表示。而损失计算中可以采用交叉熵损失、局部三元组损失等组合，以提升特征的表征能力。

在跨模态的特征集合中，需要考虑的是如何从两个模态的全局特征和局部特征中映射出共享的更优全局特征和局部特征，即需要通过各自的一个全局映射矩阵

，

来映射到同一空间，而局部特征的映射特征也是类似的

。参考图4所示，

为跨模态学习到的适应于跨模态检索的全局特征，d1为全局特征的维度，

为跨模态学习到的适应于跨模态检索的局部特征，d2为局部特征的维度。则可以得到

。

所以跨模态神经网络的损失函数可以定义为：

；

其中，L2是对输入的两个向量求取L2损失；

为可见光全局映射矩阵；

为可见光全局特征；

为近红外全局映射矩阵；

为近红外全局特征，

为可见光局部映射矩阵；

为可见光局部特征；

为近红外局部映射矩阵；

为近红外局部特征；j=1,…,k ；k为拆分的图像块的数量。

希望通过优化上述目标函数获得对应的映射矩阵，实现更优特征子集的学习，需要说明的是，在跨模态的特征学习中，可见光和近红外图像的全局特征和局部特征协同学习，可以获取更优的适配于跨模态识别的特征集合，以提升跨模态的检索性能。

在整体的跨模态的特征学习中，考虑到各自模态内部的transformer网络的学习，总体的loss函数

则定义为如下：

；

其中，

为损失权重，用于平衡和调整自模态的损失和跨模态损失的度量。

本发明采用全局特征和局部特征同时检索，可以提升跨模态检索的精度。另外，在某些复杂场景，比如可能存在遮挡、模糊等情况，导致行人的全局信息不完整，而造成的全局特征无效的时候，可以采用局部特征有针对性的进行检索。即在获得一幅检索图像时，可以指定该检索图像的某一局部区域，在提取完该图像全局和局部特征之后，可以采用对应的局部特征在跨模态的数据库中查询与该局部特征相似的图像集合，返回查询结果。本发明可以灵活的应用局部特征来进行跨模态检索，提升了整体***的检索精度和检索灵活性。

本发明再一实施例提供一种跨模态行人检索***，所述***包括：

预处理模块，用于获取目标行人图像，并对目标行人图像进行预处理，得到目标图像块序列数据；所述目标行人图像为可见光图像或近红外图像；

第一特征提取模块，用于将目标图像块序列数据输入至与目标行人图像的图像类型对应的自注意力机制模块中，获得目标图像全局特征和目标图像局部特征；

第二特征提取模块，用于将目标图像全局特征和目标图像局部特征输入至跨模态神经网络中，得到跨模态全局特征和跨模态局部特征；其中，所述跨模态神经网络为上述任一种所述的跨模态神经网络；

检索模块，用于利用跨模态全局特征和/或跨模态局部特征在含有目标行人的视频集中进行特征匹配检索，得到跨模态检索结果。

进一步的，预处理模块具体用于：

将目标行人图像拆分成多个图像块，以形成目标图像块序列集；

将目标图像块序列集输入至与目标行人图像的图像类型对应的线性投射模块中，得到包含每个目标图像块位置信息的目标图像块序列数据。

上述检索***中各模块的功能解释可以参考检索方法中对各步骤的解释说明，在此不再赘述。

以上所述，仅是本申请的几个实施例，并非对本申请做任何形式的限制，虽然本申请以较佳实施例揭示如上，然而并非用以限制本申请，任何熟悉本专业的技术人员，在不脱离本申请技术方案的范围内，利用上述揭示的技术内容做出些许的变动或修饰均等同于等效实施案例，均属于技术方案范围内。