WO2022160773A1

WO2022160773A1 - 基于虚拟样本的行人重识别方法

Info

Publication number: WO2022160773A1
Application number: PCT/CN2021/122343
Authority: WO
Inventors: 杜博; 郭小洋; 林雨恬; 张超; 王正
Original assignee: 武汉大学
Priority date: 2021-01-28
Filing date: 2021-09-30
Publication date: 2022-08-04
Also published as: CN112784783B; CN112784783A; US20230334895A1; US11837007B2

Abstract

一种基于虚拟样本的行人重识别方法，包括以下步骤：获取游戏引擎生成的虚拟人物进行预处理后通过多因素变分生成网络融合目标数据集的背景和真实人物姿态生成得到一批带有人物标签的虚拟样本；根据光照情况对生成的虚拟样本进行渲染；根据人物属性对渲染后的虚拟样本进行抽样；根据抽样得到的虚拟样本构造训练数据集对行人重识别模型进行训练，并对训练得到的模型进行识别效果验证。所述方法通过集翻译-渲染-抽样于一体的虚拟图像生成框架拉近虚拟图像与真实图像之间的分布以生成一批虚拟样本，并进行行人重识别模型训练，可以有效地应用于真实场景下的行人数据集，实现在隐私保护下学习到有效的行人重识别模型。

Description

基于虚拟样本的行人重识别方法

技术领域

本发明属于行人重识别技术领域，具体涉及一种基于虚拟样本的行人重识别方法。

背景技术

行人重识别旨在匹配每个人来自部署在不同位置的多个不重叠摄像机下拍摄的图像。最近几年，行人重识别技术迅猛发展，存在着丰富的应用场景，如找感兴趣的人(例如迷路的孩子或犯罪分子)和对特定人员进行追踪等，这使得行人重识别技术得到了深入的研究。受益于深度卷积神经网络，提出的许多行人重识别方法取得了非常高的表现性能。然而，这些行人重识别方法依赖大量行人监控视频中的图像进行训练，这将暴露个人隐私信息并可能进一步招致安全问题。由于隐私问题得到越来越广泛地关注，部分真实行人数据集被要求撤销，甚至要求不能以任何形式的出版物显示有关数据集的图像。

在行人重识别领域，无监督域自适应方法在不依赖目标域行人标签的情况下，仍然可以借助源域数据集学***台上，这是一个迫切需要引起人们重视的问题，并亟需提出有效的解决方案来应对这一现象给行人重识别领域带来的挑战。

发明内容

本发明的目的在于针对现有技术的不足之处，提供一种基于虚拟样本的行人重识别方法，通过虚拟样本实现隐私保护下的行人重识别，解决了现有技术中在隐私保护下的行人重识别任务面临的目标图像的行人外观缺失以及虚拟图像与真实图像之间存在巨大域鸿沟的挑战的难题。

为解决上述技术问题，本发明采用如下技术方案：

一种基于虚拟样本的行人重识别方法，包括以下步骤：

步骤S1、获取游戏引擎生成的虚拟人物进行预处理，并通过多因素变分生成网络融合目标数据集的背景和真实人物姿态生成得到一批带有人物标签的虚拟样本；

步骤S2、根据目标数据集的光照情况对生成的虚拟样本进行渲染；

步骤S3、根据目标数据集的人物属性对渲染后的虚拟样本进行抽样；

步骤S4、根据抽样得到的虚拟样本构造训练数据集对行人重识别模型进行训练，并对训练得到的模型进行识别效果验证。

进一步地，所述步骤S1包括：

步骤S11、从游戏引擎生成的虚拟数据集中提取k个人物和从真实行人数据集中提取l个背景，分别为{c ₁，...，c _k}和{b ₁，...，b _l}，将两者直接合成得到关于虚拟人物和真实背景融合的n个虚拟图像作为训练样本{x ₁，...，x _n}；

步骤S12、分别提取每个训练样本的人物姿态，将其与训练样本和对应的背景作为所构建的基于变分自编码器的深度神经网络即多因素变分生成网络的输入，构造目标函数训练让网络学习得到合成图像关于人物、背景和姿态的变换规律；

步骤S13、根据目标数据集的人物分辨率对虚拟人物的分辨率进行调整；

步骤S14、将调整后的虚拟人物、真实背景和从目标数据集中提取到的姿态作为网络的输入，通过网络生成得到一批带有人物标签的虚拟样本。

进一步地，在所述步骤S12中，所述目标函数为

其中，x代表输入的训练样本，z _(x，b)代表联合隐变量，D _θ代表作为生成器的解码器网络，Φ _i代表不同网络层次提取的特征参数，q _φ代表后验分布参数，p _θ代表先验分布参数，KL代表Kullback-Leibler散度，i和λ _i是预先设置的超参数，用于控制不同网络层次的对于总损失的贡献。

进一步地，在所述步骤S13中，分别计算虚拟数据集和真实行人数据集的人物在图像中的像素占比，通过缩放虚拟数据集的人物来调整虚拟人物的分辨率并使其具有与目标数据集相似的分辨率。

进一步地，在所述步骤S2中，将每个图像转换为HSV格式，提取V通道并计算V通道的平均值作为图像的亮度值，所述图像的亮度值范围为0～255，从而获取目标数据集的光照情况。

进一步地，在所述步骤S3中，选定上半身衣服的颜色和下半身衣服的颜色的两个属性作为抽样的基础属性以进行数据集的属性分布统计。

进一步地，在所述步骤S4中，识别验证过程包括：将训练得到的模型用来匹配检索图片在图库中判定为同一身份标识的图片，并按照可能性依次输出对应的图片索引，与真实标签做对比。

与现有技术相比，本发明的有益效果为：

基于真实场景下行人在不同摄像头下的多种背景和多种姿态变换下导致已有行人重识别模型鲁棒性差的问题、行人与摄像头之间的距离关系导致分辨率不一致的问题、不同光照情况下导致的图像亮度差异问题以及可能由于季节性变换导致的着装不同带来的属性分布不一致问题，本发明通过集翻译-渲染-抽样于一体的虚拟图像生成框架尽可能拉近虚拟图像与真实图像之间的分布并生成一批新的虚拟样本，进一步将这批虚拟样本用于训练得到的行人重识别模型，可以切实有效地应用于真实场景下的行人数据集，从而实现在不获取目标域真实行人数据集人物外观的条件下学习到有效的行人重识别模型，完成隐私保护下的行人重识别任务。具体包括如下几方面：

(1)为了实现对行人的隐私保护，对于目标场景，仅需数据提供方提供与行人隐私无关的信息，而不需要任何真实行人的外观以及身份判别信息，通过采用游戏引擎生成的虚拟人物来替代真实行人进行行人重识别模型的训练即可。

(2)充分利用目标场景的真实世界信息，本发明定义了三种与隐私无关的信息，具体包括内容信息即背景和姿态等、成像信息即分辨率和光照情况等以及描述信息即衣服颜色等人的属性。

(3)为了克服虚拟样本与真实图像之间存在的巨大域鸿，本发明采用集图像翻译-渲染-抽样于一体的虚拟图像生成框架对游戏引擎中生成的虚拟数据进行处理从而得到虚拟样本，有效实现虚拟样本到真实图像的域分布逼近。

(4)本发明具有适应度高、图像翻译灵活性强的特点，提出了一种基于变分自编码器的深度神经网络——多因素变分生成网络，该网络实现了对多种与隐私无关的因素进行编码融合，可以有效生成融合了虚拟人物与真实世界信息的虚拟样本。

附图说明

图1为本发明的实施例中基于虚拟样本的行人重识别方法的流程图。

图2为本发明的实施例中多因素变分生成网络的深度神经网络结构示意图。

具体实施方式

下面结合附图所示的实施例对本发明作进一步说明。

本实施例公开了一种基于虚拟样本的行人重识别方法，目的是提供一个隐私保护下的行人重识别方案。由于无法获取真实行人的外观，本方案将游戏引擎生成的虚拟图像用作提取人物特征的源数据集。然而，如果简单地采用虚拟源数据集X _s进行行人重识别模型的训练，并将其直接应用于真实行人目标数据集X _t，但由于虚拟源数据集与真实行人数据集存在着巨大的域鸿沟，该方法无法学习到目标数据集中真实行人的有效判别特征表示，这将导致模型效果远远达不到实际需求。进一步，为了更好地将从虚拟样本中学习到的模型适配到真实的目标域，本方案引入了三种类型与隐私无关的信息，具体包括内容信息(背景和姿态等)、成像信息(前景分辨率和光照情况等)和描述信息(衣服颜色等人的属性)等。内容信息蕴含了真实世界的信息和真实行人的肢体状态，成像信息迫使图像风格趋近于目标域，描述信息使得数据集的整体属性分布具备统计上的语义一致性。

如附图1所示，该基于虚拟样本的行人重识别方法具体包括以下步骤：

步骤S1、获取游戏引擎生成的虚拟数据并对其进行预处理从而得到一批带有人物标签的虚拟样本。具体地，该步骤S1包括以下步骤：

步骤S11、从游戏引擎生成的虚拟数据集中提取k个人物和从真实行人数据集中提取l个背景，分别为{c ₁，...，c _k}和{b ₁，...，b _l}，将两者直接合成得到关于虚拟人物和真实背景融合的n个虚拟图像作为训练样本{x ₁，...，x _n}。

步骤S12、分别提取每个训练样本的人物姿态，将其与训练样本和对应的背景作为所构建的基于变分自编码器的深度神经网络即多因素变分生成网络的输入，构造目标函数训练让网络学习得到合成图像关于人物、背景和姿态的变换规律。

在步骤S12中，目标函数为

步骤S13、根据目标数据集的人物分辨率对虚拟人物的分辨率进行调整。

在步骤S13中，分别计算虚拟数据集和真实行人数据集的人物在图像中的像素占比，通过缩放虚拟数据集的人物来调整虚拟人物的分辨率并使其具有与目标数据集相似的分辨率。

步骤S2、根据目标数据集的光照情况对生成的虚拟样本进行渲染。

在步骤S2中，将每个图像转换为HSV格式，提取V通道并计算V通道的平均值作为图像的亮度值，从而获取目标数据集的光照情况。这里，图像的亮度值范围为0-255。

步骤S3、根据目标数据集的人物属性对渲染后的虚拟样本进行抽样。

在步骤S3中，选定上半身衣服的颜色和下半身衣服的颜色的两个属性作为抽样的基础属性以进行数据集的属性分布统计。

步骤S4、根据抽样得到的虚拟样本构造训练数据集对行人重识别模型进行训练，并对训练得到的模型进行识别效果验证。这里，具体的识别验证过程包括：将训练得到的模型用来匹配检索图片在图库中判定为同一身份标识的图片，并按照可能性依次输出对应的图片索引，与真实标签做对比。

根据本实施例的行人重识别方法，在隐私受保护的行人重识别设置下我们无法获取目标域真实行人数据集中的行人外观，转向由游戏引擎生成的虚拟人物替代真实人物作为前景信息来提取行人的身份判别特征，基于该策略融合虚拟人物和真实背景生成一批新的虚拟样本用作行人重识别模型的训练集。通过本实施例提供的方法训练得到的模型能有效地保护行人的隐私不受侵犯，并尽可能地利用目标域中不涉及隐私的相关信息拉近与目标域分布的距离，借助目标域真实行人数据集的内容信息(背景和姿态等)实现虚拟人物的基本变换，再从目标域真实行人数据集中提取成像信息(前景分辨率和光照情况等)应用到虚拟样本和采用图像抽样的方式根据描述信息(衣服颜色等人的属性)对虚拟样本进行抽样，从而实现有效的行人重识别。在模型训练期间只提供对生成的虚拟样本的访问权限，并在黑盒条件下完成模型应用于真实行人数据集的识别效果的测试评估，从而实现了隐私保护下进行行人重识别的目标。

以下结合实际算法实现进行阐述：

步骤S1、由于虚拟样本缺少真实世界的信息，因此从真实世界数据集中引入与隐私无关的内容以生成更真实的图像，因此需要预先准备虚拟数据集X _s和真实行人数据集X _t。行人图像通常包含两个部分的内容，即背景和作为前景的行人。在传统的行人重识别任务中，许多方法提出通过注意力机制，通过分段或基于局部特征提取的方法来减少背景的影响，以使模型更多地关注到行人本身。但是，在隐私保护下的行人重识别任务中，向虚拟数据集中的行人图像学习将使模型无法确定行人在真实场景中的焦点，而且将纯粹的虚拟数据用于训练将削弱行人重识别模型的泛化能力。为了缓解此问题，本方案提出将虚拟数据集的虚拟人物与目标域数据集的真实背景进行图像融合。

具体实现时采用自校正的人体解析网络提取每个图像中的人物掩码，进一步地将掩码覆盖的区域从行人图像中抹除，从而避免了涉及行人隐私的外观信息泄露。为了获得完整的图像背景，将移除了行人的背景图片使用循环特征推理网络进行图像修补以获得完整的背景图像。在修补过程中，通过自校正的人体解析网络获得的人物掩码边缘不完整，因此采用膨胀和腐蚀技术填充丢失的像素，以进一步提高人物掩码的完整性。这里，值得一提的是，真实行人图像的人物抹除过程应由图像提供者完成以避免隐私泄露。与真实数据集的复杂现实场景不同，本实施例采用抠图脚本从纯色背景的虚拟图像中提取出虚拟人物，更加快速便捷地实现虚拟人物与其背景的分离。

设从由游戏引擎生成的虚拟数据集中提取k个人物和从真实行人数据集中提取l个背景，分别为{c ₁，...，c _k}和{b ₁，...，b _l},将两者直接合成得到关于虚拟人物和真实背景融合的n个虚拟图像作为训练样本{x ₁，...，x _n}。

进一步，分别提取每个训练样本的人物姿态，将其与训练样本和对应的背景作为所构建的基于变分自编码器的深度神经网络即多因素变分生成网络的输入，构造目标函数训练让网络学习得到合成图像关于人物、背景和姿态的变换规律。如图2所示，所述多因素变分生成网络采用了多种与隐私无关的因素(如背景、姿态等)输入到编码器网络当中得到相应的编码，通过自回归组建模对编码进行联合隐变量的建模，再通过解码器网络生成具有目标图像内容的虚拟样本。具体建模过程如下：

假设训练样本图像x由前景人物c和背景b融合而成，为了控制c和b构造最大化概率分布p(x|c，b)作为生成器，一种有效的方法是使用变分自编码器来建模p(x|z)，其中z表示隐变量，而p(z)表示变分自编码器框架中标准正态分布的先验。但是，在不能保证在此先验条件下，隐变量c和b在潜在空间中是分开的。因此，为了对z进行建模能够表达出空间信息c和b并保持信息不会在编码过程中丢失，将z表示为联合隐变量z _(c，b)。由于人物c这部分前景内容信息包含在融合图像x中，因此使用x编码c。随着目标转变为学习p(x|z _(x，b))，需要最大化给定的观测数据即输入的训练样本x的对数似然性，并使用神经网络推断从x和b编码得到的隐变量z。于是有：

其中q(z _(x，b)|x)是编码器上的近似后验分布。为避免难以求解的积分，可以根据log p(x)写出变分下界

为：

其中KL表示Kullback-Leibler散度。

如上所述，传统的用于变分自编码器的编码器-解码器结构不适用于学习具有多个隐变量的解缠表示。为此，本方案提出了一种新颖的多因素变分生成网络。如图2所示，多因素变分生成网络将人物、背景和姿态分别输入到编码器网络中以获得其低维特征编码。在与人物编码融合之前，多因素变分生成网络将与目标域相关的编码拼接为联合编码。同时为了提高变分自编码器的表达能力，多因素变分生成网络采用自回归组建模构造z _(x，b)的联合隐变量表示。根据变分下界

和给定先验的p(z _(x，b))，可以通过训练上述多因素变分生成网络学习到生成模型所需的参数。本实施例假设先验分布和后验分布的参数分别是θ和φ。本实施例建模p(z _(x，b))为高斯分布，参数θ和φ由神经网络进行推断。由此可以推导出训练的损失函数如下所示：

在此基础上，本实施例结合了感知函数Φ来提取更符合视觉直观上的特征，用于计算原始图像输入与解码器网络生成的图像之间的感知损失。因此，本方案的最终损失函数定义如下：

其中Φ _i表示从视觉感知网络的每一层中提取的特征，i和λ _i是用于控制视觉感知网络的不同层次对总损失贡献的超参数，D _θ表示作为生成器的解码器网络；

进一步、在确保行人隐私不被侵犯即在黑盒条件下提取目标数据集中行人的姿态并调整虚拟人物分辨率。人物分辨率是指图像中前景行人的像素数，在真实场景下，不同行人图像通常根据摄像机的位置和视点而有所不同，而在由游戏引擎获取的虚拟数据集中，在相同尺寸下的虚拟图像每个人物占用的像素数基本相同。因此，人物分辨率的分布在虚拟源域和目标真实域之间存在较大差距。本实施例通过缩放源域中的人物，以使整个图像中的人物像素比例可以更接近目标域。首先通过自校正的人体解析网络获得人物在每个图像中的掩码，然后将人物掩码所占据的像素数除以整个图像的像素数以获取百分比。分别计算虚拟数据集和目标数据集的人物在图像中的像素占比，据此缩放虚拟数据集的人物以调整虚拟人物的人物分辨率使其具有与目标域相似的百分比。

最后，将调整后的虚拟人物、真实背景和从目标数据集中提取到的行人姿态作为深度神经网络的输入，生成一批带有人物标签的虚拟样本。

步骤S2、根据目标数据集的光照情况对生成的虚拟样本进行渲染。考虑到在不同的时间、背景、视点等条件下拍摄的图像，光照情况在各个数据集之间可能会有很大不同。有些数据集仅具有特定的光照情况，例如在夜间捕获的数据集。由于存在巨大的亮度差异，因此学***均值作为图像的亮度值，其范围为0-255。通过计算来自虚拟源域和真实目标域的图像的亮度值，本实施例对每个图像乘以相同的系数来调整源域的光照情况，以使两个域的亮度分布具有相似的峰值分布。

步骤S3、根据目标数据集的人物属性对渲染后的虚拟样本进行抽样。抽样过程根据描述信息如衣服样式、年龄、性别等从目标域中抽取虚拟样本。对于虚拟数据集，人物的属性可以人工设定以确保多样性，借助强大的游戏引擎，虚拟人物的描述信息通常具有多种多样的特征。而在真实场景中，数据集的图像通常是在有限的时间段内在特定区域中捕获的，如有的真实行人数据集是在夏天的校园中捕获的，存在大量行人穿着T恤和背包的现象。本实施例根据真实目标域的描述信息对虚拟图像进行抽样，使得虚拟人物的属性特征与真实场景尽可能保持一致，从而让学习到的行人重识别模型更好地适应目标域。为了简化数据集的属性分布统计过程，选定两个属性作为抽样的基础属性，包括上半身衣服的颜色和下半身衣服的颜色。

步骤S4、验证识别效果，通过抽样得到的虚拟样本构造训练数据集对行人重识别模型进行训练，将训练得到的模型用来匹配检索图片在图库中判定为同一身份标识的图片并按照可能性依次输出对应的图片索引，与真实标签做对比。

本实施例的实现平台是pycharm软件，数据读写、基本数学运算、优化求解等基础是本技术领域的公知技术，在此不作赘述。具体实施时，可采用软件方式实现流程的自动运行。

本发明的保护范围不限于上述的实施例，显然，本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的范围和精神。倘若这些改动和变形属于本发明权利要求及其等同技术的范围，则本发明的意图也包含这些改动和变形在内。

Claims

一种基于虚拟样本的行人重识别方法，其特征在于，包括以下步骤：

步骤S1、获取游戏引擎生成的虚拟人物进行预处理，并通过多因素变分生成网络融合目标数据集的背景和真实人物姿态生成得到一批带有人物标签的虚拟样本；

步骤S2、根据目标数据集的光照情况对生成的虚拟样本进行渲染；

步骤S3、根据目标数据集的人物属性对渲染后的虚拟样本进行抽样；

步骤S4、根据抽样得到的虚拟样本构造训练数据集对行人重识别模型进行训练，并对训练得到的模型进行识别效果验证。
根据权利要求1所述的基于虚拟样本的行人重识别方法，其特征在于：

所述步骤S1包括：

步骤S11、从游戏引擎生成的虚拟数据集中提取k个人物和从真实行人数据集中提取l个背景，分别为{c ₁，...，c _k}和{b ₁，...，b _l}，将两者直接合成得到关于虚拟人物和真实背景融合的n个虚拟图像作为训练样本{x ₁，...，x _n}；

步骤S12、分别提取每个训练样本的人物姿态，将其与训练样本和对应的背景作为所构建的基于变分自编码器的深度神经网络即多因素变分生成网络的输入，构造目标函数训练让网络学习得到合成图像关于人物、背景和姿态的变换规律；

步骤S13、根据目标数据集的人物分辨率对虚拟人物的分辨率进行调整；

步骤S14、将调整后的虚拟人物、真实背景和从目标数据集中提取到的姿态作为网络的输入，通过网络生成得到一批带有人物标签的虚拟样本。
根据权利要求2所述的基于虚拟样本的行人重识别方法，其特征在于：

在所述步骤S12中，所述目标函数为

其中，x代表输入的训练样本，z _(x，b)代表联合隐变量，D _θ代表作为生成器的解码器网络，Φ _i代表不同网络层次提取的特征参数，q _φ代表后验分布参数，p _θ代表先验分布参数，KL代表Kullback-Leibler散度，i和λ _i是预先设置的超参数，用于控制不同网络层次的对于总损失的贡献。
根据权利要求2所述的基于虚拟样本的行人重识别方法，其特征在于：

在所述步骤S13中，分别计算虚拟数据集和真实行人数据集的人物在图像中的像素占比，通过缩放虚拟数据集的人物来调整虚拟人物的分辨率并使其具有与目标数据集相似的分辨率。
根据权利要求1所述的基于虚拟样本实的行人重识别方法，其特征在于：

在所述步骤S2中，将每个图像转换为HSV格式，提取V通道并计算V通道的平均值作为图像的亮度值，该通道亮度值范围为0～255，从而获取目标数据集的光照情况。
根据权利要求1所述的基于虚拟样本的行人重识别方法，其特征在于：

在所述步骤S3中，选定上半身衣服的颜色和下半身衣服的颜色的两个属性作为抽样的基础属性以进行数据集的属性分布统计。
根据权利要求1所述的基于虚拟样本的行人重识别方法，其特征在于：

在所述步骤S4中，识别验证过程包括：将训练得到的模型用来匹配检索图片在图库中判定为同一身份标识的图片，并按照可能性依次输出对应的图片索引，与真实标签做对比。