CN114998934B

CN114998934B - 基于多模态智能感知和融合的换衣行人重识别和检索方法

Info

Publication number: CN114998934B
Application number: CN202210742934.7A
Authority: CN
Inventors: 高赞; 龚丽敏; 宋健明; 张蕊; 陶瑞涛; 聂礼强
Original assignee: Suzhou Calmcar Vision Electronic Technology Co ltd; Shandong University; Qingdao Haier Smart Technology R&D Co Ltd; Shandong Institute of Artificial Intelligence
Current assignee: Suzhou Calmcar Vision Electronic Technology Co ltd; Shandong University; Qingdao Haier Smart Technology R&D Co Ltd; Shandong Institute of Artificial Intelligence
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2023-01-03
Anticipated expiration: 2042-06-27
Also published as: CN114998934A

Abstract

本发明提供一种基于多模态智能感知和融合的换衣行人重识别和检索方法、***、电子设备及存储介质，属于计算机视觉技术领域，通过对原始的行人图像进行像素采样，并根据人体解析图对所获取的像素进行修改获得换衣后的行人图像；然后分别对原始的行人图像和换衣后的行人图像进行2D特征提取，对点云数据进行3D特征提取；最后根据提取的特征进行行人身份识别。最终达到了高效、精准地行人换衣重识别的技术效果。

Description

基于多模态智能感知和融合的换衣行人重识别和检索方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于多模态智能感知和融合的换衣行人重识别和检索方法。

背景技术

随着机器学习技术和深度学习模型在计算机视觉领域的发展，在安防场景中，基于深度学习方法的人体识别也获得了越来越广泛的应用。其中，以行人重识别(PersonReID)为人体识别代表的技术在行人跟踪、跨摄像头行人检索中被广泛应用，也可以作为人脸识别失效时的有效替代技术。行人重识别任务的目的是解决跨摄像头检索目标行人的问题，具体来讲就是基于计算机视觉技术来确定不同摄像机拍摄的图像或视频序列中是否存在特定的行人。行人重识别可以与人员检测和人员跟踪技术相结合，在城市规划和智能监控等场景中发挥重要的作用。行人重识别需要以天网摄像头或智能监控采集的视频或图像内容为媒介，受拍摄距离远、图像像素低等因素的影响，而且，背景的巨大变化，光照条件的变化、姿势的变换以及摄像头视角的变化经常同时发生，使得行人重识别成为一个具有挑战性的任务。

目前，行人重识别已经取得了稳定的识别效果。但是，现有的行人重识别都是建立在行人在短时间内衣着外观不发生变化的前提下进行的。现有的换衣行人重识别，都是基于图像进行的，比如Yang et al.在等高线草图上引入空间极坐标变换来学习形状特征(PRCC)、Qian et al.利用人体关键点消除外观的影响(LTCC)以及Hong et al.提出了一个细粒度的形状-外观相互学习框架-工作(FSAM)；虽然基本实现了换衣重识别的目的，但是，仍然存在以下弊端：

1)因为图像基本来源于视频监控中，视频监控图像中的人的面部可能会模糊不清，此时几乎提供不了有效的识别信息；而如果只使用视频监控图像中人的身体形状、身体轮廓图等来提取特征，则会忽略原图像上其他与服装无关的特征信息；

2)在现有的图像特征提取过程中，所获取的仅仅是2D图像数据，缺少图像中人体的三维特征，导致换衣行人重识别模型学习的特征缺乏区别性和鲁棒性。

因此，亟需一种基于多模态智能感知和融合的换衣行人重识别和检索方法。

发明内容

本发明提供一种基于多模态智能感知和融合的换衣行人重识别和检索方法、***、电子设备及存储介质，用以克服现有技术中存在的至少一个技术问题。

为实现上述目的，本发明提供一种基于多模态智能感知和融合的换衣行人重识别和检索方法，方法包括：

获取待识别的行人图像，并根据行人图像获取相对应的人体解析图和点云数据；其中，点云数据包括三维坐标信息以及RGB像素信息；

将原始的行人图像、人体解析图和点云数据输入预训练的换衣行人重识别模型；

对原始的行人图像分别进行上衣采样和裤子采样，获取上衣像素和裤子像素，根据人体解析图的像素信息改变所获取的上衣像素和裤子像素以获取换衣后的行人图像；

对换衣后的行人图像和原始的行人图像以及点云数据分别进行特征提取，并将所提取的特征进行融合获得行人的身份特征；

对行人的身份特征进行分类识别，确定待识别的行人的身份。

进一步，优选的，根据人体解析图的像素信息改变所获取的上衣像素和裤子像素以获取换衣后的行人图像的方法，包括：

利用人体解析图获取上衣像素集合和上衣的所有向量表示，其中，人体解析图是通过预训练的人体解析模型获取的，其语义结果描述为S＝[S₁，S₂，...，S_B]；其中，S_i的形状为1*H*W；对原始的行人图像X＝[X₁，X₂，...，X_B].进行随机处理获取

假设X的所有向量像素表示为

其中，

表示上衣部分的像素值，M表示总的像素值，且，M＝B·H·W；对所述随机处理的原始的行人图像进行语义分割并获取语义分割结果

根据所获取的语义分割结果获得上衣的像素向量，进而根据所述上衣的像素向量获取上衣像素集合

利用所述上衣像素集合改变所述上衣的所有向量表示；

根据人体解析图获取裤子像素集合和裤子的所有向量表示，并利用所述裤子像素集合改变所述裤子的所有向量表示；

通过改变后的上衣的所有向量表示和改变后的裤子的所有向量表示，获取换衣后的行人图像。

进一步，优选的，对所述换衣后的行人图像和原始的行人图像以及所述点云数据分别进行特征提取，并将所提取的特征进行融合获得行人的身份特征的方法，包括：

对所述换衣后的行人图像和原始的行人图像进行特征提取获取2D特征图，对所述点云数据进行特征提取获取3D特征图；

将所述2D特征图和所述3D特征图分别输入注意力机制网络，并获取第三2D特征图和第三3D特征图；其中，根据所述2D特征图通过通道注意力模块获取第一2D特征图；将2D特征图和第一2D特征图按通道相乘，通过空间注意力模块获取第二2D特征图；将2D特征图和第二2D特征图相乘获得第三2D特征图；另，通过通道注意力模块获取第一3D特征图；将3D特征图和第一3D特征图按通道相乘，通过空间注意力模块获取第二3D特征图；将3D特征图和第二3D特征图相乘获得第三3D特征图；

将所获取的第三2D特征图和第三3D特征图相加，获得行人的身份特征。

进一步，优选的，对所述换衣后的行人图像和原始的行人图像进行特征提取通过ResNet-50神经网络实现；

对所述点云数据进行特征提取通过图卷积网络实现。

进一步，优选的，根据所述2D特征图通过通道注意力模块获取第一2D特征图的方法，包括：

对所述2D特征图分别经过最大池化和平均池化，形成两个权重向量；

将所述两个权重向量经过权重共享，映射成每个通道的权重；

将映射后的权重相加，并进行归一化处理，确定通道权重；

根据所述通道权重和所述2D特征图，获取第一2D特征图。

进一步，优选的，所述换衣行人重识别模型利用损失函数进行训练约束，所述损失函数通过以下公式实现：

L＝L_mse+L_i+L_t

其中，所述L_mse表示均方误差损失，L_i表示交叉熵损失，L_t表示三元组损失。

进一步，优选的，所述均方误差损失函数通过以下公式实现：

其中，||·||表示L₂范数，f_i表示X的第i个特征，f_i′表示换衣后的特征。

为了解决上述问题，本发明还提供一种基于多模态智能感知和融合的换衣行人重识别和检索***，包括：

数据获取单元，用于获取待识别的行人图像，并根据所述行人图像获取相对应的人体解析图和点云数据；其中，所述点云数据包括三维坐标信息以及RGB像素信息；

特征提取单元，用于将所述原始的行人图像、人体解析图和点云数据输入预训练的换衣行人重识别模型；对所述原始的行人图像分别进行上衣采样和裤子采样，获取上衣像素和裤子像素，根据所述人体解析图的像素信息改变所获取的上衣像素和裤子像素以获取换衣后的行人图像；对所述换衣后的行人图像和原始的行人图像以及所述点云数据分别进行特征提取，并将所提取的特征进行融合获得行人的身份特征；

身份识别单元，用于对所述行人的身份特征进行分类识别，确定所述待识别的行人的身份。

为了解决上述问题，本发明还提供一种电子设备，电子设备包括：存储器，存储至少一个指令；及处理器，执行存储器中存储的指令以实现上述的基于多模态智能感知和融合的换衣行人重识别和检索方法中的步骤。

本发明还保护一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上述的基于多模态智能感知和融合的换衣行人重识别和检索方法。

本发明的一种基于多模态智能感知和融合的换衣行人重识别和检索方法、***、电子设备以及存储介质，具有有益效果如下：

1)通过构建包括2D图像处理网络以及点云数据处理网络的双流网络结构，实现可同时利用人体平面图像给出的视觉信息以及3维空间中人体的结构信息的目的。通过将双流网络获取的特征信息进行融合，即实现了2D图像特征和3D图像特征的特征信息的融合，进而获得一种既丰富又鲁棒稳定的多模态特征，为换衣行人重识别提供了有力的信息支持。

2)另外，还将注意力模块整合到整个换衣行人重识别模型的网络中，让换衣行人重识别模型去学习与身份特征更相关的区域。本发明的基于多模态智能感知和融合的换衣行人重识别和检索方法，在相关的换衣行人重识别数据集上能达到一个不错的效果。

附图说明

图1为根据本发明实施例的基于多模态智能感知和融合的换衣行人重识别和检索方法的流程示意图；

图2为根据本发明实施例的基于多模态智能感知和融合的换衣行人重识别和检索方法的原理示意图；

图3为根据本发明实施例的基于多模态智能感知和融合的换衣行人重识别和检索方法的换衣前后效果示意图；

图4为根据本发明实施例的基于多模态智能感知和融合的换衣行人重识别和检索***的逻辑结构框图；

图5为根据本发明实施例的实现基于多模态智能感知和融合的换衣行人重识别和检索方法的电子设备的内部结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例可以基于人工智能技术和计算机视觉技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

具体的，作为示例，图1为本发明一实施例提供的基于多模态智能感知和融合的换衣行人重识别和检索方法的流程示意图。参照图1所示，本发明提供一种基于多模态智能感知和融合的换衣行人重识别和检索方法，该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。基于多模态智能感知和融合的换衣行人重识别和检索方法，包括步骤S110～S140。

具体地说，S110、获取待识别的行人图像，并根据行人图像获取相对应的人体解析图和点云数据；其中，点云数据包括三维坐标信息以及RGB像素信息；S120、将原始的行人图像、人体解析图和点云数据输入预训练的换衣行人重识别模型；对原始的行人图像分别进行上衣采样和裤子采样，获取上衣像素和裤子像素，根据人体解析图的像素信息改变所获取的上衣像素和裤子像素以获取换衣后的行人图像；S130、对换衣后的行人图像和原始的行人图像以及点云数据分别进行特征提取，并将所提取的特征进行融合获得行人的身份特征；S140、对行人的身份特征进行分类识别，确定待识别的行人的身份。

图2为根据本发明实施例的基于多模态智能感知和融合的换衣行人重识别和检索方法的原理示意图；如图2所示，包括数据获取、特征提取、注意力模块和损失函数约束训练四个步骤。首先，分别获取原始的行人图像、原始的行人图像经过解析获取的人体解析图和点云数据，分别输入原始的行人图像、人体解析图和人体重建的3D点云数据。其次，就是利用双流网络对原始的行人图像、人体解析图和人体重建的3D点云数据进行特征提取，其中，原始的行人图像和人体解析图作为2D数据共同使用一种骨干网络进行特征提取，而点云数据作为3D数据使用另一种骨干网络进行特征提取。具体地说，将原始的行人图像输入到上衣采样模块和裤子采样模块对对象服装进行像素采样，并利用人体解析图将原始的行人图像的上衣和裤子的像素进行修改；对原始图像及换装后的图像采用ResNet-50作为主干网络提取特征；对3D点云数据采用图卷积神经网络来提取特征。第三，将ResNet-50骨干网络提取到的特征和将图卷积神经网络提取到的特征分别输入注意力模块进行处理；依据所得的图像特征和点云特征进行特征融合，得到多模态的特征信息；依据多模态特征信息，进行行人身份的再识别。最后，利用损失函数对搭建好的换衣行人重识别模型进行约束训练。具体地说，整个损失函数模块由3部分组成：交叉熵损失、均方误差损失和三元组损失。整个训练过程都受损失函数的约束与引导，通过这三个损失的引导与约束，使得整个网络学习更加鲁棒，表达性更强的特征。

总之，整体的换衣行人重识别框架包含两个分支：2D图像特征提取网络和3D点云数据处理网络；在开始训练前，通过使用现有的人体解析模型，把RGB图像转换为人体解析图，并把分割出的部件组合为6个部分：背景、头部、手臂、上衣、裤子和腿；把原始的行人图像在上衣像素采样和裤子像素采样模块，按人体解析图的位置改变像素值并保存修改后的图像；在之后的训练中，原始的行人图像与改变像素值后的图像均参与训练；使用这两类图像，可以使网络学习更多与布料无关但是又有判别性的身份特征，例如头发，面部和腿部等；而点云数据包含待识别的行人的人体的立体结构信息，这也是随布料变化而不变的特征；同时训练这两个网络，分别提取相关特征，再将特征图输入到注意力机制中，经由注意力模块，可以使网络更专注于布料无关的特征；最后再将注意力模块输出的特征图进行一个融合，得到最终的身份特征。

另外，现有的行人重识别主要学***面图像，而忽略人处在一个3维的世界中，人体的结构等先验信息不会随外观的变化而变化，因而利用点云数据在3维空间中学习一些与布料无关的身份特征，可以在一定程度上缓解换衣带来的问题；所以将这些特征融合到一个体系结构可以获得更强大的特征表示。

在具体的实施过程中，基于多模态智能感知和融合的换衣行人重识别和检索方法包括步骤S110～S140。

S110、获取待识别的行人图像，并根据行人图像获取相对应的人体解析图和点云数据；其中，点云数据包括三维坐标信息以及RGB像素信息。

需要说明的是人体解析图是利用现有的人体解析模型图像进行解析，并把部件组合为6个部分：背景、头部、手臂、上衣、裤子和腿，描述为S＝[S₁，S₂，...，S_B]，其像素值属于{0，1，2，3，4，5}。3D点云数据也是根据现有的网络模型对原始的行人图像进行解析获得。也就是说，人体解析图是为生成换衣后的行人图像做像素参照使用。而3D点云数据包括含三维XYZ坐标信息以及RGB像素信息，是为了提供行人图像的3D信息。其中，这两类信息分别处理，XYZ坐标用来建立Graph，RGB主要用来运算特征。

S120、将原始的行人图像、人体解析图和点云数据输入预训练的换衣行人重识别模型；对原始的行人图像分别进行上衣采样和裤子采样，获取上衣像素和裤子像素，根据人体解析图的像素信息改变所获取的上衣像素和裤子像素以获取换衣后的行人图像。

需要说明的是，换衣行人重识别模型是预先训练好的。获取训练数据集，其中，训练数据集包括行人图像，行人图像对应的人体解析图以及点云数据。然后利用像素采样和根据人体解析图的像素混淆获取各个行人图像相对应的换衣后的图像。然后，将原始的行人图像和换衣后的混淆图像输入主干网络进行特征提取；将点云数据输入另一个主干网络进行特征提取；将两个主干网络所提取的特征各自输入注意力机制，注意力特征图输出融合后得到行人的身份特征，获取训练好的换衣行人重识别模型。

其中，本发明的换衣行人重识别模型的整个训练过程都受损失函数的约束与引导；整个损失函数模块由3部分组成：交叉熵损失、均方误差损失和三元组损失。通过这三个损失的引导与约束，使得整个网络学习更加鲁棒，表达性更强的特征。

具体地说，在2D图像的训练阶段，为了使网络学习布料无关的身份特征，使用均方误差损失MSE来约束，所述均方差损失函数通过以下公式实现：

交叉熵损失表达如下：

L_i表示一种分类损失，y_i表示样本x_i的真实标签，P(x_i)表示样本x_i的预测标签。B表示样本数。

因此，整个网络的总损失函数由交叉熵损失、均方误差损失和三元组损失构成，其表达如下：L＝L_mse+L_i+L_t

在一个具体地实施例中，对所述换衣后的行人图像和原始的行人图像进行特征提取通过ResNet-50神经网络实现；对所述点云数据进行特征提取通过图卷积网络实现。具体地说，Resnet-50深度神经网络主要是由卷积层和批归一化层叠加而成。原始的行人图像与换衣更改后的行人图像均参与训练，将原始的行人图像与换衣更改后的行人图像输入到主干网络提取行人特征；在本实例中使用ResNet-50网络作为骨干网络；在行人重识别任务中，衣服所占像素比例非常大，而在更改过像素的图像与原图像的外观上发生较大的变化，因此，为了让网络学习与布料无关的线索，利用均方误差来约束学习。

另外，点云数据利用图卷积网络(Parameter-Efficient Person Re-identification in the 3D Space.Zhedong Zheng，Nenggan Zheng，Yi Yang.arXiv：2006.04569)来进行学习，在这个网络中，提供抽取多尺度的信息，同时采用了residual的形式，结合了不同层的点云特征，丰富了最后特征的表达能力。

根据人体解析图的像素信息改变所获取的上衣像素和裤子像素以获取换衣后的行人图像的方法，包括：S121、利用人体解析图获取上衣像素集合和上衣的所有向量表示，其中，人体解析图是通过预训练的人体解析模型获取的，其语义结果描述为S＝[S₁，S₂，...，S_B]；其中，S_i的形状为1*H*W；对原始的行人图像X＝[X₁，X₂，...，X_B]进行随机处理获取

假设X的所有向量像素表示为

其中，

S122、利用所述上衣像素集合改变所述上衣的所有向量表示；S123、根据人体解析图获取裤子像素集合和裤子的所有向量表示，并利用所述裤子像素集合改变所述裤子的所有向量表示。对于根据人体解析图获取裤子像素集合和裤子的所有向量表示，并利用所述裤子像素集合改变所述裤子的所有向量表示的具体的实现方式参照步骤S121-S122。S124、通过改变后的上衣的所有向量表示和改变后的裤子的所有向量表示，获取换衣后的行人图像。

图3为根据本发明实施例的基于多模态智能感知和融合的换衣行人重识别和检索方法的换衣前后效果示意图；如图3所示，经过上衣像素采样模块和裤子像素采样模块对衣服进行像素采集，用随机采集的像素值替换原有衣服的像素值并保存更改像素值后的图像，即为换衣后的行人图像。也就是说，在图3中的3个不同的行人图像，均根据其各自对应的人体解析图进行了上衣像素改变和裤子像素改变，即各自生成了各自换衣以后的图像。

S130、对换衣后的行人图像和原始的行人图像以及点云数据分别进行特征提取，并将所提取的特征进行融合获得行人的身份特征。

在一个具体地实施例中，对所述换衣后的行人图像和原始的行人图像以及所述点云数据分别进行特征提取，并将所提取的特征进行融合获得行人的身份特征的方法，包括：S131、对所述换衣后的行人图像和原始的行人图像进行特征提取获取2D特征图，对所述点云数据进行特征提取获取3D特征图；S132、将所述2D特征图和所述3D特征图分别输入注意力机制网络，并获取第三2D特征图和第三3D特征图；其中，根据所述2D特征图通过通道注意力模块获取第一2D特征图；将2D特征图和第一2D特征图按通道相乘，通过空间注意力模块获取第二2D特征图；将2D特征图和第二2D特征图相乘获得第三2D特征图；另，通过通道注意力模块获取第一3D特征图；将3D特征图和第一3D特征图按通道相乘，通过空间注意力模块获取第二3D特征图；将3D特征图和第二3D特征图相乘获得第三3D特征图；S133、将所获取的第三2D特征图和第三3D特征图相加，获得行人的身份特征。

其中，需要说明的是，在步骤S132中，根据所述2D特征图通过通道注意力模块获取第一2D特征图的方法，包括：对所述2D特征图分别经过最大池化和平均池化，形成两个权重向量；将所述两个权重向量经过权重共享，映射成每个通道的权重；将映射后的权重相加，并进行归一化处理，确定通道权重；根据所述通道权重和所述2D特征图，获取第一2D特征图。

也就是说，将两个分支的输出都输入到注意力机制中，该注意力机制由通道注意力和空间注意力两部分构成；如果将由原始的行人图像与换衣更改后的行人图像组成的2D特征图所提取的特征图以特征图A来表示；将由点云数据组成的3D特征图所提取的特征图以体征图B来表示。那么，将特征图A和B分别输入到注意力机制中，特征图A经通道注意力模块得到通道注意力特征A1，输入特征图A与通道注意力特征图A1按通道相乘输入空间注意力中得到空间注意力特征A2，最后A2与该模块输入的特征图相乘得到最终的注意力特征A3，特征图B过程类似得到注意力特征B3，最后将特征A3与B3相加得到网络最终的身份特征。

需要说明的是，通道注意力模块包括：对原始输入的特征图A分别经过MaxPool和AvgPool，形成两个[C,1,1]的权重向量，两个权重向量分别经过同一个MLP网络(权重共享)，映射成每个通道的权重，将映射后的权重相加，后接Sigmoid输出，将得到的通道权重与原始特征图A按通道相乘，得到通道注意力输出特征A1。另外，空间注意力模块包括：对输入特征图A1进行按通道最大池化和平均池化，将得到两张特征图进行堆叠；在经过一层卷积层，得到空间权重，将空间权重与输入特征图A1相乘，得到最后注意力特征图A3。

总之，原始图像的输入包含了非常丰富的视觉信息，经过衣物像素混淆的换装图像让网络学习更多与布料无关的特征，降低换衣带来的干扰。而在3D数据中，包含了人体的立体结构信息，利用它可以提取一些针对不同行人的判别特征，因而将2D图像学习的特征与3D提取的特征信息融合起来，去学习一个既丰富又鲁棒稳定的多模态特征，在换衣行人重识别领域非常有价值。

S140、对行人的身份特征进行分类识别，确定待识别的行人的身份。

在具体的实施过程，对行人的身份特征进行识别是较为成熟的现有技术，对于具体的实现方式不做限定。

综上，本发明的一种基于多模态智能感知和融合的换衣行人重识别和检索方法，通过构建包括2D图像处理网络以及点云数据处理网络的双流网络结构，实现可同时利用人体平面图像给出的视觉信息以及3维空间中人体的结构信息的目的。通过将双流网络获取的特征信息进行融合，即实现了2D图像特征和3D图像特征的特征信息的融合，进而获得一种既丰富又鲁棒稳定的多模态特征，为换衣行人重识提供了有力的信息支持。另外，还将注意力模块整合到整个换衣行人重识别模型的网络中，让换衣行人重识别模型去学习与身份特征更相关的区域。本发明的基于多模态智能感知和融合的换衣行人重识别和检索方法,在相关的换衣行人重识别数据集上能达到一个不错的效果。

与上述基于多模态智能感知和融合的换衣行人重识别和检索方法相对应，本发明还提供一种基于多模态智能感知和融合的换衣行人重识别和检索***。图4示出了根据本发明实施例的基于多模态智能感知和融合的换衣行人重识别和检索***的功能模块。

如图4所示，本发明提供的基于多模态智能感知和融合的换衣行人重识别和检索***400可以安装于电子设备中。根据实现的功能，所述基于多模态智能感知和融合的换衣行人重识别和检索***400可以包括数据获取单元410、特征提取单元420和身份识别单元430。本发明所述单元也可以称之为模块，指的是一种能够被电子设备的处理器所执行，并且能够完成某一固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

数据获取单元410，用于获取待识别的行人图像，并根据所述行人图像获取相对应的人体解析图和点云数据；其中，所述点云数据包括三维坐标信息以及RGB像素信息；

特征提取单元420，用于将所述原始的行人图像、人体解析图和点云数据输入预训练的换衣行人重识别模型；对所述原始的行人图像分别进行上衣采样和裤子采样，获取上衣像素和裤子像素，根据所述人体解析图的像素信息改变所获取的上衣像素和裤子像素以获取换衣后的行人图像；对所述换衣后的行人图像和原始的行人图像以及所述点云数据分别进行特征提取，并将所提取的特征进行融合获得行人的身份特征；

身份识别单元430，用于对所述行人的身份特征进行分类识别，确定所述待识别的行人的身份。

本发明所提供的上述基于多模态智能感知和融合的换衣行人重识别和检索***的更为具体的实现方式，均可以参照上述对基于多模态智能感知和融合的换衣行人重识别和检索方法的实施例表述，在此不再一一列举。

本发明所提供的上述基于多模态智能感知和融合的换衣行人重识别和检索***，通过对原始图像和换衣后的图像进行2D特征提取，以及对点云数据进行3D特征提取，获得了既丰富又鲁棒的融合性特征，进而实现了高效精准的换衣行人的身份识别。

如图5所示，本发明提供一种基于多模态智能感知和融合的换衣行人重识别和检索方法的电子设备5。

该电子设备5可以包括处理器50、存储器51和总线，还可以包括存储在存储器51中并可在所述处理器50上运行的计算机程序，如基于多模态智能感知和融合的换衣行人重识别和检索程序52。

其中，所述存储器51至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器51在一些实施例中可以是电子设备5的内部存储单元，例如该电子设备5的移动硬盘。所述存储器51在另一些实施例中也可以是电子设备5的外部存储设备，例如电子设备5上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括电子设备5的内部存储单元也包括外部存储设备。所述存储器51不仅可以用于存储安装于电子设备5的应用软件及各类数据，例如基于多模态智能感知和融合的换衣行人重识别和检索程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器50在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器50是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器51内的程序或者模块(例如基于多模态智能感知和融合的换衣行人重识别和检索程序等)，以及调用存储在所述存储器51内的数据，以执行电子设备5的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器51以及至少一个处理器50等之间的连接通信。

图5仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图5示出的结构并不构成对所述电子设备5的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备5还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器50逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备5还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备5还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备5与其他电子设备之间建立通信连接。

可选地，该电子设备5还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备5中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备5中的所述存储器51存储的基于多模态智能感知和融合的换衣行人重识别和检索程序52是多个指令的组合，在所述处理器50中运行时，可以实现：S110、获取待识别的行人图像，并根据行人图像获取相对应的人体解析图和点云数据；其中，点云数据包括三维坐标信息以及RGB像素信息；S120、将原始的行人图像、人体解析图和点云数据输入预训练的换衣行人重识别模型；对原始的行人图像分别进行上衣采样和裤子采样，获取上衣像素和裤子像素，根据人体解析图的像素信息改变所获取的上衣像素和裤子像素以获取换衣后的行人图像；S130、对换衣后的行人图像和原始的行人图像以及点云数据分别进行特征提取，并将所提取的特征进行融合获得行人的身份特征；S140、对行人的身份特征进行分类识别，确定待识别的行人的身份。

具体地，所述处理器50对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。需要强调的是，为进一步保证上述基于多模态智能感知和融合的换衣行人重识别和检索程序的私密和安全性，上述基于多模态智能感知和融合的换衣行人重识别和检索程序存储于本服务器集群所处区块链的节点中。

进一步地，所述电子设备5集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本发明实施例还提供一种计算机可读存储介质，所述存储介质可以是非易失性的，也可以是易失性的，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现：S110、获取待识别的行人图像，并根据行人图像获取相对应的人体解析图和点云数据；其中，点云数据包括三维坐标信息以及RGB像素信息；S120、将原始的行人图像、人体解析图和点云数据输入预训练的换衣行人重识别模型；对原始的行人图像分别进行上衣采样和裤子采样，获取上衣像素和裤子像素，根据人体解析图的像素信息改变所获取的上衣像素和裤子像素以获取换衣后的行人图像；S130、对换衣后的行人图像和原始的行人图像以及点云数据分别进行特征提取，并将所提取的特征进行融合获得行人的身份特征；S140、对行人的身份特征进行分类识别，确定待识别的行人的身份。

具体地，所述计算机程序被处理器执行时具体实现方法可参考实施例基于多模态智能感知和融合的换衣行人重识别和检索方法中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等，区块链可以存储医疗数据，如个人健康档案、厨房、检查报告等。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于多模态智能感知和融合的换衣行人重识别和检索方法，其特征在于，包括：

获取待识别的行人图像，并根据所述行人图像获取相对应的人体解析图和点云数据；其中，所述点云数据包括三维坐标信息以及RGB像素信息；

对所述原始的行人图像分别进行上衣采样和裤子采样，获取上衣像素和裤子像素，根据所述人体解析图的像素信息改变所获取的上衣像素和裤子像素以获取换衣后的行人图像；

对所述换衣后的行人图像和原始的行人图像以及所述点云数据分别进行特征提取，并将所提取的特征进行融合获得行人的身份特征；

对所述行人的身份特征进行分类识别，确定所述待识别的行人的身份；

根据所述人体解析图的像素信息改变所获取的上衣像素和裤子像素以获取换衣后的行人图像的方法，包括：

利用人体解析图获取上衣像素集合和上衣的所有向量表示，其中，人体解析图是通过预训练的人体解析模型获取的，其语义结果描述为

；其中，S _i的形状为1*H*W；对原始的行人图像

进行随机处理获取

，假设X的所有向量像素表示为

；其中，

表示上衣部分的像素，M表示总的像素值，且，M = B·H·W；对所述随机处理的原始的行人图像进行语义分割并获取语义分割结果

；根据所获取的语义分割结果获得上衣的像素向量，进而根据所述上衣的像素向量获取上衣像素集合

；

利用所述上衣像素集合改变所述上衣的所有向量表示；

2.如权利要求1所述的基于多模态智能感知和融合的换衣行人重识别和检索方法，其特征在于，对所述换衣后的行人图像和原始的行人图像以及所述点云数据分别进行特征提取，并将所提取的特征进行融合获得行人的身份特征的方法，包括：

3.如权利要求2所述的基于多模态智能感知和融合的换衣行人重识别和检索方法，其特征在于，

对所述换衣后的行人图像和原始的行人图像进行特征提取通过ResNet-50神经网络实现；

对所述点云数据进行特征提取通过图卷积网络实现。

4.如权利要求2中所述的基于多模态智能感知和融合的换衣行人重识别和检索方法，其特征在于，根据所述2D特征图通过通道注意力模块获取第一2D特征图的方法，包括：

将映射后的权重相加，并进行归一化处理，确定通道权重；

根据所述通道权重和所述2D特征图，获取第一2D特征图。

5.如权利要求1中所述的基于多模态智能感知和融合的换衣行人重识别和检索方法，其特征在于，所述换衣行人重识别模型利用损失函数进行训练约束，所述损失函数通过以下公式实现：

L=L _mse +L _i +L _t

其中，所述L _mse表示均方误差损失，L _i表示交叉熵损失，L _t表示三元组损失。

6.如权利要求5中所述的基于多模态智能感知和融合的换衣行人重识别和检索方法，其特征在于，所述均方误差损失函数通过以下公式实现：

其中，

表示L₂范数，f _i表示X的第i个特征，f _i '表示换衣后的特征。

7.一种基于多模态智能感知和融合的换衣行人重识别和检索***，其特征在于，包括：

特征提取单元，用于将原始的行人图像、人体解析图和点云数据输入预训练的换衣行人重识别模型；对所述原始的行人图像分别进行上衣采样和裤子采样，获取上衣像素和裤子像素，根据所述人体解析图的像素信息改变所获取的上衣像素和裤子像素以获取换衣后的行人图像；对所述换衣后的行人图像和原始的行人图像以及所述点云数据分别进行特征提取，并将所提取的特征进行融合获得行人的身份特征；

身份识别单元，用于对所述行人的身份特征进行分类识别，确定所述待识别的行人的身份；