WO2023060918A1

WO2023060918A1 - 一种基于语义和姿态图引导的图片匿名化方法

Info

Publication number: WO2023060918A1
Application number: PCT/CN2022/097530
Authority: WO
Inventors: 张继东; 吕超; 曹靖城; 吴宇松
Original assignee: 天翼数字生活科技有限公司
Priority date: 2021-10-14
Filing date: 2022-06-08
Publication date: 2023-04-20
Also published as: CN113919998B; CN113919998A

Abstract

本发明涉及一种基于语义和姿态图引导的图片匿名化方法。本发明还涉及一种基于语义图和姿态图引导的图片匿名化***（100）。在***中，图片语义匿名化模块（101）配置为首先对图片进行语义分割以得到语义图，随后使用对抗生成网络在语义图的引导下生成一个具有相同语义但不同内容的场景图。人物姿态匿名化模块（102）被配置为在图片语义匿名化模块的基础上对图片中的人物进行进一步引导生成，首先对人物进行姿态估计得到姿态图，随后使用对抗生成网络在姿态图的引导下生成一个具有相同姿态但不同人物的新的人像图。叠加模块（103）被配置为将图片语义匿名化模块（100）生成的场景图与人物姿态匿名化模块（102）生成的新的人像图根据语义图进行叠加，以得到最终的匿名化图片。

Description

一种基于语义和姿态图引导的图片匿名化方法

技术领域

本发明涉及视频应用领域，主要涉及视频应用领域中对图片进行匿名化。

背景技术

视频监控摄像机的发展，是由最初的闭路电视监控***即第一代模拟电视监控***到后来半数字时代的基于PC机插卡式的视频监控***，最后进入到现在的以嵌入式技术为依托，以网络、通信技术为平台，以智能图像分析为特色的网络视频监控***为主的数字时代。

由于机器学习和人工智能技术的发展和不断进步，智能视频监控技术的应用也越来越普遍。目前的智能视频分析技术主要针对实时的视频图像进行分析，以达到预警的作用。网络传播的发达使得用户对个人隐私的重视程度越来越高，而图片作为一种丰富的信息载体对于用户而言更为敏感。早期的图片匿名化工作只是对敏感信息使用掩蔽、模糊化或像素化等方法。虽然这些方法有很高的易用性，但在面对当前流行的深度学习识别方法时基本是无效的。近年来，逐渐有研究者提出了更复杂有效的方法：例如使用k-same算法进行人脸匿名，使用生成对抗网络(GAN)框架去实现图片匿名化。

专利“基于生成对抗网络的人脸匿名隐私保护方法”(CN111242837A)公开了一种基于生成对抗网络的人脸匿名隐私保护方法。该发明首先对人脸图像数据预处理；然后构建生成对抗网络结构；再建立人脸区域匿名的目标函数；然后建立场景内容区域保留的目标函数；随后进行人脸匿名与场景保留的目标函数的结合；最后采用公开数据集进行训练及测试，输出最终结果。本方法对图像中人脸区域进行合成脸的替换而达到人脸匿名的效果，相对以往的马赛克遮挡的方法更高效并且在视觉上更友好。但该方法只对人脸进行替换，人脸以外的身体部分以及图片上其他场景并不做处理，对于家庭室内场景的图片匿名化，该方法仍然存在用户隐私方面的风险。同时该方法依赖于人脸检测的准确性，存在匿名化失败的可能。

专利“基于生成式对抗网络的服务机器人视觉图片隐私保护方法”(CN110363183A)公开了一种基于生成式对抗网络的服务机器人视觉图片隐私保护方法，该发明由视觉数据的采集端采集的数据首先进行数据预处理，然后由隐私识别模块判定输入的预处理数据是否存在隐私，如果判定为涉及隐私的图片，进行图片转换，转换成不涉及隐私的图片数据并进行存储；训练数据生长与特征学习是用于训练数据集的更新，并基于训练数据集，通过改进的Cycle-GAN算法获取特征模型，用于所述图片转换。本发明能从源头上使图片数据本身不涉及隐私内容，但该发明直接使用Cycle-GAN对原图片进行迁移，缺少固定的引导机制，可能导致不同的处理结果之间风格差异较大，不适合作为训练测试数据使用。

因此，需要一种改进的技术来对图片进行匿名化，同时保持图片原有的语义信息和人物的姿态信息。

发明内容

提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

本发明针对视频监控场景，使用引导式对抗生成网络，实现图片的全局匿名化，最大程度地保护用户隐私。此外，本发明能够尽量保持图片数据的可用性，能够同时满足用户隐私保护和开发实际需求。

根据本发明的一个实施例，公开了一种基于语义图和姿态图引导的图片匿名化方法，包括：对原始图片进行语义分割以得到语义图；使用图片语义匿名化对抗生成网络在所述语义图的引导下生成一个与所述原始图片具有相同语义但不同内容的场景图；将所述语义图中的人像部分作为掩膜从所述原始图片中截取人像图；对所述人像图中的人物姿态进行提取和估计以生成姿态图；使用人物姿态匿名化对抗生成网络在所述姿态图的引导下生成一个与所述人像图具有相同姿态但不同人物的新的人像图；将所述场景图与所述新的人像图根据所述语义图进行叠加，以得到最终的匿名化图片。

根据本发明的一个实施例，公开了一种基于语义图和姿态图引导的图片匿名化***，包括：图片语义匿名化模块，人物姿态匿名化模块和叠加模块。所述图片语义匿名化模块被配置为：对原始图片进行语义分割以得到语义图；使用图片语义匿名化对抗生成网络在所述语义图的引导下生成一个与所述原始图片具有相同语义但不同内容的场景图。所述人物姿态匿名化模块被配置为：将所述语义图中的人像部分作为掩膜从所述原始图片中截取人像图；对所述人像图中的人物姿态进行提取和估计以生成姿态图；使用人物姿态匿名化对抗生成网络在所述姿态图的引导下生成一个与所述人像图具有相同姿态但不同人物的新的人像图。所述叠加模块被配置为：将所述场景图与所述新的人像图根据所述语义图进行叠加，以得到最终的匿名化图片。

根据本发明的另一个实施例，公开了一种用于基于语义图和姿态图引导的图片匿名化的计算设备，包括：处理器；存储器，所述存储器存储有指令，所述指令在被所述处理器执行时能执行如上所述的方法。

通过阅读下面的详细描述并参考相关联的附图，这些及其他特点和优点将变得显而易见。应该理解，前面的概括说明和下面的详细描述只是说明性的，不会对所要求保护的各方面形成限制。

附图说明

为了能详细地理解本发明的上述特征所用的方式，可以参照各实施例来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中示出。然而应该注意，附图仅示出了本发明的某些典型方面，故不应被认为限定其范围，因为该描述可以允许有其它等同有效的方面。

图1示出了根据本发明的一个实施例的用于基于语义图和姿态图引导的图片匿名化***100的框图；

图2示出了根据本发明的一个实施例的进一步描述图片语义匿名化模块101功能的示图200；

图3示出了根据本发明的一个实施例的多通道注意力选择模型300的示图；

图4示出了根据本发明的一个实施例的进一步描述人物姿态匿名化模块 102功能的示图400；

图5示出了根据本发明的一个实施例的用于基于语义图和姿态图引导的图片匿名化过程的数据流图500；

图6示出了根据本发明的一个实施例的用于基于语义图和姿态图引导的图片匿名化方法600的流程图；以及

图7出了根据本发明的一个实施例的示例性计算设备的框图700。

具体实施方式

下面结合附图详细描述本发明，本发明的特点将在以下的具体描述中得到进一步的显现。

家用摄像头领域的用户需求越来越丰富，而很多AI功能的准确性都依赖于相关图片视频训练数据的丰富度。虽然在用户使用过程中积累了大量极具价值的真实数据，但出于隐私保护等原因，在实际开发中这些数据都不能被使用。隐私保护和模型训练数据短缺之间的矛盾一直困扰着开发者。

本发明使用语义图引导和姿态图引导的方法对用户的原始图片进行全局匿名化，既能保证用户隐私不被泄露，又能保持图片原有的语义信息和人物的姿态信息。本发明能为开发优化人形检测、运动检测等对人脸要求不高的AI算法模型提供可用的训练数据，同时也能为用户提供一种主动匿名化加密的隐私保护机制。

图1示出了根据本发明的一个实施例的用于基于语义图和姿态图引导的图片匿名化***100的框图。如图1中示出的，该***100按模块进行划分，各模块之间通过本领域已知的方式进行通信和数据交换。在本发明中，各模块可通过软件或硬件或其组合的方式来实现。该***100包括图片语义匿名化模块101、人物姿态匿名化模块102和叠加模块103。

根据本发明的一个实施例，图片语义匿名化模块101被配置为首先对图片进行语义分割以得到语义图，随后使用对抗生成网络在语义图的引导下生成一个具有相同语义但不同内容的场景图。

根据本发明的一个实施例，人物姿态匿名化模块102被配置为在图片语义匿名化模块101的基础上对图片中的人物进行进一步引导生成，首先对人物进行姿态估计得到人体关键点姿态图，随后使用对抗生成网络在姿态图的引导下生成一个具有相同姿态但不同人物的新的人像图。

根据本发明的一个实施例，叠加模块103被配置为将图片语义匿名化模块101生成的场景图与人物姿态匿名化模块102生成的新的人像图根据语义图进行叠加，以得到最终的匿名化图片。通过语义分割可以得到人物在图片上的位置信息，通过该信息实现最终的匿名化图片的叠加。

本领域的技术人员可知，本发明中涉及的智能视频监控技术中所采用的摄像头一般指智能家居领域中所涉及的家用摄像头，智慧城市领域中所涉及的监控探头，以及一般安装在公共场所起到监控作用的摄像设备。此种监控设备能对场景进行拍照、摄像，并将获取的图像数据存储在本机进行后续处理或将数据发送到远程设备(例如，智能家居控制平台、中央控制平台、其他计算设备等)进行处理。本文并未对监控设备与远程设备之间的连接和通信方式进行限制，而是认为可采用本领域已知的各种方式来进行。根据本发明的一个实施例，***100可被实现在监控设备中，也可被实现在远程设备上。根据本发明的另一个实施例，***100中的一个或多个模块可被分开地实现在监控设备和远程设备中。

图2示出了根据本发明的一个实施例的进一步描述图片语义匿名化模块101功能的示图200。图片语义匿名化模块101被配置为实现语义分割、语义引导重建和图片优化三个阶段。

如图2所示，在语义分割阶段，使用ShuffleNet作为骨干网络搭建的自编解码机来作为语义生成器，对输入的原始图片Ig进行推理得到场景语义图Sg。

在本发明的上下文中，语义引导重建阶段和图片优化阶段两者可在逻辑上/功能上构成了级联语义引导下的基于多通道注意力选择机制的图片语义匿名化对抗生成网络。在该图片语义匿名化对抗生成网络中，语义引导重建阶段用于采用级联语义引导产生粗粒度级的图片语义匿名化结果，而图片优化阶段用于通过多通道注意力选择机制产生更细致的结果。

在语义引导重建阶段，将从场景纹理图片库中随机选取一个目标纹理图片Ir作为条件图像，并将该随机选取的目标纹理图片Ir与语义分割阶段得到的场景语义图片Sg进行级联，并将级联后的结果输入生成器Gi以推理得到生成图像I′g，其中生成器Gi是基于RefineNet构建的U-Net模型，训练中通过优化生成图像I′g的语义图S′g与原始场景语义图Sg的损失函数对生成器Gi进行优化。其中，L1-L4为计算损失函数时的四个分量。

图片优化阶段使用多通道注意力选择模型对上一阶段的生成图片I′g进行优化，以得到最终的场景图I″g。使用多通道注意力选择模型的目的是从更大的生成空间中产生更加细粒度级的结果，并且生成不确定映射去引导优化像素损失。图3示出了根据本发明的一个实施例的多通道注意力选择模型300的示图。

多通道注意力选择模型300包括多尺度空间池化部分和多通道注意力选择部分。多尺度空间池化部分使用一组不同的大小和步幅来在相同的输入特征上执行全局平均池化，获得了具有不同接受域的多尺度特征来感知不同的空间背景。多通道注意力选择部分利用生成一系列不同中间图片并组合成最终输出。

参考图2和图3，多通道注意力选择模型300选取条件图像Ir、生成图像I′g、生成器Gi和语义分割阶段中最后一个卷积层输出的特征图级联为特征输入多尺度空间池化部分中，该多尺度空间池化部分对进行不同规模的平均池化从而获取多尺度的空间上下文特征。为了保留有用信息将经过不同尺度池化后的特征与输入特征相乘，该结果经过卷积后产生新的多尺度特征并作为多通道注意力选择部分的输入。多通道注意力选择部分通过卷积网络扩大图像的通道表示，并且结合注意力映射产生更合理的结果。

具体而言，进一步参考图2和图3，多通道注意力选择模型300选取条件图像I _r、生成图像I′g、生成器Gi和语义分割阶段中最后一个卷积层输出的特征图F _i和F _s级联为特征输入多尺度空间池化部分中，生成的多尺度特征作为多通道注意力选择部分的输入。多通道注意力选择部分通过卷积网络扩大图像的通道表示，其中中间图片

和对应的注意力图片

的计算方法如公式(1)所示：

最后，利用学习到的注意力图片对每个中间图片进行选择，计算方法如公式(2)所示：

同时，通过学习不确定性映射(uncertainty maps)，可以使像素级Loss(损失函数)优化计算更加鲁棒。

根据本发明的一个实施例，图片语义匿名化模块101使用indoor09室内场景数据集对生成器Gi和多注意力选择模型300进行训练。

图4示出了根据本发明的一个实施例的进一步描述人物姿态匿名化模块102功能的示图400。如图4所示，人物姿态匿名化模块102功能的实现与图片语义匿名化模块101类似，不同的是用openPose模型提取的姿态图替代了语义图，并在公开的人像图片数据集中随机选择一张图片作为条件图像。人物姿态匿名化模块102使用CUHK03人形数据集进行训练。

具体而言，人物姿态匿名化模块102被配置为实现姿态估计、姿态引导重建和图片优化三个阶段。

如图4所示，在姿态估计阶段，将图片语义匿名化模块101得到的语义图中的人像部分作为掩膜，从原始输入图片中截取原始人像图Ig，并用openPose模型对该原始人像图Ig中的人物姿态进行提取和估计，以生成姿态图Sg。

在本发明的上下文中，姿态引导重建阶段和图片优化阶段两者可在逻辑上/功能上构成了级联姿态引导下的基于多通道注意力选择机制的人物姿态匿名化对抗生成网络。在该人物姿态匿名化对抗生成网络中，姿态引导重建阶段用于产生粗粒度级的人物姿态匿名化结果，而图片优化阶段用于通过多通道注意力选择机制产生更细致的结果。

在姿态引导重建阶段，将从人像图片数据集中随机选取一个人像图片Ir来作为条件图像，并将该随机选取的人像图片Ir与姿态估计阶段得到的姿态图Sg进行级联，并将级联后的结果输入生成器Gi以推理得到生成图像I′g，其中生成器Gi是基于RefineNet构建的U-Net模型，训练中通过优化生成图像I′g的姿态图S′g与原始姿态图Sg的损失函数对生成器Gi进行优化。其中，L1-L4为计算损失函数时的四个分量。

图片优化阶段使用多通道注意力选择模型对上一阶段的生成图片I′g进行优化，以得到最终的人像图I″g。多通道注意力选择模型的具体描述请参见以上对于图3的描述。

图5示出了根据本发明的一个实施例的用于基于语义图和姿态图引导的图片匿名化过程的数据流图500。该数据流图500可分为图片语义匿名化阶段501、人物姿态匿名化阶段502和叠加阶段503。

参考图5，在图片语义匿名化阶段501中，输入图片经过语义分割形成了语义图，该语义图通过如上所述的图片语义匿名化对抗生成网络生成场景图。同时，在形成语义图之后，人物姿态匿名化阶段502可启动，在该阶段中，首先将语义图中的人像部分作为掩膜从输入图片中截取原始人像图。对该原始人像图进行姿态提取和估计以生成姿态图。该姿态图通过如上所述的人物姿态匿名化对抗生成网络生成新的人像图。在图片语义匿名化阶段501和人物姿态匿名化阶段502完成之后，叠加阶段503可启动，在该阶段中，将图片语义匿名化阶段501生成的场景图与人物姿态匿名化阶段502生成的新的人像图根据语义图进行叠加以形成以供输出的匿名化的图片。

图6示出了根据本发明的一个实施例的用于基于语义图和姿态图引导的图片匿名化方法600的流程图。

在步骤601，对原始图片进行语义分割，以得到语义图。根据本发明的一个实施例，该原始图片可以是由监控摄像头拍摄的图片，或者是由监控摄像头拍摄的视频中的某一帧，或者是由用户选取的图片。根据本发明的一个实施例，使用ShuffleNet作为骨干网络搭建的自编解码机来作为语义生成器，对原始图片进行推理以得到语义图。根据本发明的一个实施例，语义图可以指示人物在原始图片上的位置信息。

在步骤602，使用图片语义匿名化对抗生成网络在语义图的引导下生成一个与原始图片具有相同语义但不同内容的场景图。根据本发明的一个实施例，图片语义匿名化对抗生成网络包括语义引导重建阶段和图片优化阶段，其中语义引导重建阶段用于基于语义图采用级联语义引导来产生粗粒度级的图片语义匿名化结果，并且图片优化阶段用于通过多通道注意力选择机制对语义引导重建阶段产生的图片语义匿名化结果进行优化，以得到具有更细致粒度级的最终的场景图。

在步骤603，将步骤601中得到的语义图中的人像部分作为掩膜从原始图片中截取原始人像图。

在步骤604，对原始人像图中的人物姿态进行提取和估计，以生成姿态图。根据本发明的一个实施例，使用openPose模型对步骤603中得到的原始人像图中的人物姿态进行提取和估计，以生成姿态图。

在步骤605，使用人物姿态匿名化对抗生成网络在姿态图的引导下生成一个与原始人像图具有相同姿态但不同人物的新的人像图。根据本发明的一个实施例，人物姿态匿名化对抗生成网络包括姿态引导重建阶段和图片优化阶段，其中姿态引导重建阶段用于基于姿态图采用级联姿态引导来产生粗粒度级的人物姿态匿名化结果，而图片优化阶段用于通过多通道注意力选择机制对姿态引导重建阶段产生的人物姿态匿名化结果进行优化，以得到具有更细致粒度级的最终的人像图。

在步骤606，将步骤602生成的场景图与步骤605中生成的新的人像图根据步骤601中得到的语义图进行叠加，以得到最终的匿名化图片。根据本发明的一个实施例，通过语义分割可以得到人物在原始图片上的位置信息，通过该信息实现场景图和新的人像图的叠加。

综上，本发明和现有技术相比，主要优势在于：(1)对图片全局进行匿名化处理，原图只有抽象的语义图和人物姿态图保留在生成图片中，人脸，人身，背景都被完全替换，能够最大程度降低隐私泄露风险；(2)在完全匿名化的基础上，能够保持图片原有的语义信息、人物姿态信息和物体运动信息能为开发优化人形检测、运动检测等非身份认证的AI算法模型提供大量可用的训练数据；(3)使用多通道注意力模型进一步优化对抗生成网络输出的初始结果，使得输出图片的质量更高。

此外，在实际应用中，本发明还具有以下优势，例如，用类似技术的在线试穿应用，本发明不仅能对服装进行调整，还能把脸部信息和背景信息进行替换，最大程度保护用户隐私。

图7出了根据本发明的一个实施例的示例性计算设备的框图700，该计算设备是可应用于本发明的各方面的硬件设备的一个示例。例如，上文提及的监控设备、远程设备、与用户相关联的计算设备均可被实现为图7中的计算设备。计算设备700可以是可被配置成用于实现处理和/或计算的任何机器，可以是但并不局限于工作站、服务器、桌面型计算机、膝上型计算机、平板计算机、个人数字处理、智能手机、车载计算机或者它们的任何组合。计算设备700可包括可经由一个或多个接口和总线702连接或通信的组件。例如，计算设备700可包括总线702、一个或多个处理器704、一个或多个输入设备706以及一个或多个输出设备708。该一个或多个处理器704可以是任何类型的处理器并且可包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如，专门的处理芯片)。输入设备706可以是任何类型的能够向计算设备输入信息的设备并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或远程控制器。输出设备708可以是任何类型的能够呈现信息的设备并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备700也可以包括非瞬态存储设备710或者与所述非瞬态存储设备相连接，所述非瞬态存储设备可以是非瞬态的并且能够实现数据存储的任何存储设备，并且所述非瞬态存储设备可以包括但不限于磁盘驱动器、光存储设备、固态存储器、软盘、软磁盘、硬盘、磁带或任何其它磁介质、光盘或任何其它光介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何存储芯片或盒式磁带、和/或计算机可从其读取数据、指令和/或代码的任何其它介质。非瞬态存储设备710可从接口分离。非瞬态存储设备710可具有用于实施上述方法和步骤的数据/指令/代码。计算设备700也可包括通信设备712。通信设备712可以是任何类型的能够实现与内部装置通信和/或与网络通信的设备或***并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组，例如蓝牙设备、IEEE 1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似设备。

总线702可以包括但不限于工业标准结构(ISA)总线、微通道结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线和外部设备互连(PCI)总线。

计算设备700还可包括工作存储器714，该工作存储器714可以是任何类型的能够存储有利于处理器704的工作的指令和/或数据的工作存储器并且可以包括但不限于随机存取存储器和/或只读存储设备。

软件组件可位于工作存储器714中，这些软件组件包括但不限于操作***716、一个或多个应用程序718、驱动程序和/或其它数据和代码。用于实现本发明上述方法和步骤的指令可包含在所述一个或多个应用程序718中，并且可通过处理器704读取和执行所述一个或多个应用程序718的指令来实现本发明的上述方法600。

也应该认识到可根据具体需求而做出变化。例如，也可使用定制硬件、和/或特定组件可在硬件、软件、固件、中间件、微代码、硬件描述语音或其任何组合中实现。此外，可采用与其它计算设备、例如网络输入/输出设备等的连接。例如，可通过具有汇编语言或硬件编程语言(例如，VERILOG、VHDL、C++)的编程硬件(例如，包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)利用根据本发明的逻辑和算法来实现所公开的方法和设备的部分或全部。

尽管目前为止已经参考附图描述了本发明的各方面，但是上述方法和设备仅是示例，并且本发明的范围不限于这些方面，而是仅由所附权利要求及其等同物来限定。各种组件可被省略或者也可被等同组件替代。另外，也可以在与本发明中描述的顺序不同的顺序实现所述步骤。此外，可以按各种方式组合各种组件。也重要的是，随着技术的发展，所描述的组件中的许多组件可被之后出现的等同组件所替代。

Claims

一种基于语义图和姿态图引导的图片匿名化方法，包括：

对原始图片进行语义分割以得到语义图；

使用图片语义匿名化对抗生成网络在所述语义图的引导下生成一个与所述原始图片具有相同语义但不同内容的场景图；

将所述语义图中的人像部分作为掩膜从所述原始图片中截取人像图；

对所述人像图中的人物姿态进行提取和估计以生成姿态图；

使用人物姿态匿名化对抗生成网络在所述姿态图的引导下生成一个与所述人像图具有相同姿态但不同人物的新的人像图；

将所述场景图与所述新的人像图根据所述语义图进行叠加，以得到最终的匿名化图片。
如权利要求1所述的方法，其特征在于，所述图片语义匿名化对抗生成网络包括语义引导重建阶段和图片优化阶段，其中所述语义引导重建阶段用于基于所述语义图采用级联语义引导来产生粗粒度级的图片语义匿名化结果，并且所述图片优化阶段用于通过多通道注意力选择机制对所述语义引导重建阶段产生的所述图片语义匿名化结果进行优化，以得到具有更细致粒度级的场景图。
如权利要求1所述的方法，其特征在于，所述人物姿态匿名化对抗生成网络包括姿态引导重建阶段和图片优化阶段，其中所述姿态引导重建阶段用于基于所述姿态图采用级联姿态引导来产生粗粒度级的人物姿态匿名化结果，而所述图片优化阶段用于通过多通道注意力选择机制对所述姿态引导重建阶段产生的所述人物姿态匿名化结果进行优化，以得到具有更细致粒度级的人像图。
如权利要求1所述的方法，其特征在于，所述对原始图片进行语义分割以得到语义图进一步包括：使用ShuffleNet作为骨干网络搭建的自编解码机来作为语义生成器，对所述原始图片进行推理以得到所述语义图。
如权利要求1所述的方法，其特征在于，对所述人像图中的人物姿态进行提取和估计以生成姿态图进一步包括：使用openPose模型对所述原始人像图中的人物姿态进行提取和估计，以生成所述姿态图。
一种基于语义图和姿态图引导的图片匿名化***，包括：

图片语义匿名化模块，所述图片语义匿名化模块被配置为：

对原始图片进行语义分割以得到语义图；

使用图片语义匿名化对抗生成网络在所述语义图的引导下生成一个与所述原始图片具有相同语义但不同内容的场景图；

人物姿态匿名化模块，所述人物姿态匿名化模块被配置为：

将所述语义图中的人像部分作为掩膜从所述原始图片中截取人像图；

对所述人像图中的人物姿态进行提取和估计以生成姿态图；

使用人物姿态匿名化对抗生成网络在所述姿态图的引导下生成一个与所述人像图具有相同姿态但不同人物的新的人像图；

叠加模块，所述叠加模块被配置为：

将所述场景图与所述新的人像图根据所述语义图进行叠加，以得到最终的匿名化图片。
如权利要求6所述的***，其特征在于，所述图片语义匿名化对抗生成网络包括语义引导重建阶段和图片优化阶段，其中所述语义引导重建阶段用于基于所述语义图采用级联语义引导来产生粗粒度级的图片语义匿名化结果，并且所述图片优化阶段用于通过多通道注意力选择机制对所述语义引导重建阶段产生的所述图片语义匿名化结果进行优化，以得到具有更细致粒度级的场景图。
如权利要求6所述的***，其特征在于，所述人物姿态匿名化对抗生成网络包括姿态引导重建阶段和图片优化阶段，其中所述姿态引导重建阶段用于基于所述姿态图采用级联姿态引导来产生粗粒度级的人物姿态匿名化结果，而所述图片优化阶段用于通过多通道注意力选择机制对所述姿态引导重建阶段产生的所述人物姿态匿名化结果进行优化，以得到具有更细致粒度级的人像图。
如权利要求6所述的***，其特征在于，所述对原始图片进行语义分割以得到语义图进一步包括：使用ShuffleNet作为骨干网络搭建的自编解码机来作为语义生成器，对所述原始图片进行推理以得到所述语义图；

对所述人像图中的人物姿态进行提取和估计以生成姿态图进一步包括：使用openPose模型对所述原始人像图中的人物姿态进行提取和估计，以生成所述姿态图。
一种用于基于语义图和姿态图引导的图片匿名化的计算设备，包括：

处理器；

存储器，所述存储器存储有指令，所述指令在被所述处理器执行时能执行如权利要求1-5任一所述的方法。