CN113139424A

CN113139424A - 面向人体高保真视觉内容的多特征协同生成***及方法

Info

Publication number: CN113139424A
Application number: CN202110256691.1A
Authority: CN
Inventors: 王毅刚; 寇思敏; 尹学松
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-07-20

Abstract

本发明公开了一种面向人体高保真视觉内容的多特征协同生成***及方法。本发明步骤如下：步骤1、数据集的解析、选择与调整；步骤2、人体视觉内容协同生成网络模型的搭建；步骤3、对人体视觉内容协同生成网络模型的训练；步骤4、生成结果的有效性评估。本发明在改善与解决了现有方法的低质生成效果，包括人体形状描述不准确、人像外观呈现模糊化、人体运动姿态错位与表达不连贯，为电影特效制作、人机互动娱乐、游戏与广告设计、图像与视频数据集增强等工作提供了良好的视觉素材，且通过该方法训练得到的判别器可以用于伪造图像或视频的鉴别，对于个人隐私、社会安定与国家安全能够起到一定的保护作用。

Description

面向人体高保真视觉内容的多特征协同生成***及方法

技术领域

本发明属于计算机视觉与多媒体技术领域，特别涉及一种面向人体高保真视觉内容的多特征协同生成***及方法。

背景技术

作为推动计算机视觉发展的关键技术，视觉知识的表达与操作是基于计算机图形学与计算机视觉两大领域进行融合与重构而实现的，一方面用于3D图形结构的重建，另一方面用于视觉内容的识别、分析与生成，是计算机图形学、计算机视觉及多媒体技术领域的重要研究问题。本发明集中解决高保真的视觉内容生成问题，内容对象为人体图像与视频。

面向人体的高保真视觉内容生成是通过学习人体结构与运动特征表示，实现从特征表示到人物图像或者视频帧的空间生成映射，该工作的最终目标是生成高精度且逼真的整个人体的图像与视频，关键之处在于视觉内容生成策略的制定与人体结构及人物动作特征表示方法的探究。其中，面向人体的高保真视觉内容可以概括为人体结构、人物外观与人体运动特征三个方面，本发明主要设计一个基于人体多重特征的协同生成模型，用于生成真实感、多样性与连贯性表达良好的针对人体的图像与视频内容，以解决目前相关研究工作中出现的人体形状(高矮胖瘦、四肢等)描述不准确、人像外观(衣服、皮肤等)呈现模糊化、人体运动姿态错位与表达不连贯的实际效果问题。本发明的核心在于，利用对人体结构、外观与运动的分析，进行特征的提取、融合及视觉内容的表达。

从图像内容生成上来看，近年来，随着深度学习的快速发展，使得依照某种或者某些特征条件进行图像生成任务的跨域图像转换效果得到了很大的提升。尤其是生成对抗网络GAN的引入，使得图像生成任务达到了令人惊艳的效果，进而逐步成为图像生成技术的首选方法之一。但是由于人体铰链结构的空间多变性与人眼对人体真实图像分辨的强先验敏感性，使得针对整个人体图像与视频的生成工作非常具有挑战性，为了从根本上提高该工作的表达效果，本发明提出了一种面向人体高保真视觉内容的多特征协同生成方法。

发明内容

本发明的目的是提出一种面向人体高保真视觉内容的多特征协同生成***及方法，用于生成真实感、多样性与连贯性表达良好的针对人体的图像与视频内容，以解决目前研究工作中出现的人体形状(高矮胖瘦、四肢等)描述不准确、人像外观(衣服、皮肤等)呈现模糊化、人体运动姿态错位与表达不连贯的实际效果问题。

为实现上述目的，本发明的技术方案如下：

步骤1、数据集的解析、选择与调整；

步骤2、人体视觉内容协同生成网络模型的搭建；

步骤3、对人体视觉内容协同生成网络模型的训练；

步骤4、生成结果的有效性评估。

进一步的，步骤1具体实现过程如下：

1-1.选择并获取关于人体的图像数据集Ⅰ和与人体运动的视频数据集Ⅱ；

1-2.图像数据集Ⅰ用于提取人体形状特征表示，且同时该图像数据集Ⅰ能够用于人物外观纹理的生成；图像数据集Ⅰ的要求是能够利用人体解析工具获取人体部位分割掩码或者直接提供分割信息的高清人体图像数据集；

1-3.视频数据集Ⅱ用于人体姿态/动作信息提取，且是能够利用姿态检测器清晰识别人体姿态骨架或者直接带有2D关节点标签的单人视频数据集。

进一步的，所述的图像数据集Ⅰ中的每张人体图像均包含高清人体图像和义分割掩码图。

进一步的，为满足生成任务的可行性与普适性，需要选取具有不同特点和量级的多组数据集，一个图像数据集Ⅰ和与人体运动的视频数据集Ⅱ记为一组。

进一步的，步骤2所述的该协同生成网络模型包括三个基本特征模块：姿态特征模块、形状特征模块和纹理特征模块；姿态特征模块、形状特征模块和纹理特征模块分别是针对人体运动/动作信息的姿态特征解析、针对人体形状的语义特征解析与针对人体外观的纹理特征解析；三个基本特征模块从不同的属性出发，协同引导人体视觉内容的生成，共同组成最终的生成网络模型。

进一步的，所述的姿态特征模块用于对动作、骨骼和相机视角的特征融合，其中动作取自视频，骨骼与相机视角取自图像；将动作、骨骼和相机视角合并解码后得到所需生成内容的人体姿态骨架序列图，将该骨架序列输入到姿态编码器中，通过卷积神经网络对其进行编码，将其映射到高维空间中，作为视觉内容生成的姿态引导。

进一步的，形状特征模块用于对输入人体图像的语义分割掩码图进行编码，将人体形状特征映射到生成空间，以引导形状特征模块在已知姿态特征的基础上进行人体各个部位的形状生成。

进一步的，纹理特征模块是生成器的最后一个属性来源模块，纹理特征模块用于对输入的高清人体图像进行编码，得到高清人体图像的纹理特征；最后将纹理特征与姿态特征、形状特征进行融合，生成最终的人体视觉内容并送入协同生成网络模型的判别器中；此外判别器还需针对骨架序列图、掩码图与高清人体图像三个组成进行真伪鉴别，以反馈内容生成器所生成视觉内容的真实感，经过训练提高生成器的生成效果。

进一步的，步骤3具体实现如下：由于人体视觉内容协同生成网络模型为多阶段生成对抗网络结构，整个网络模型先进行三个基本特征模块的编解码训练；然后将三个基本特征模进行融合，生成器输出最终的人体视觉内容并送入协同生成网络模型的判别器中；而后联合多特征判别器进行人体视觉内容的生成对抗训练，直到鉴别概率接近或达到0.5，完成训练。

与现有面向人体的视觉内容生成方法相比，使用本发明面向人体高保真视觉内容的多特征协同生成方法所带来的有益效果如下：

(1)可迁移性：现有大多数方法存在明显的过拟合现象，即仅对当前提供的数据集中易学的部分有很好的表达效果，换作其他输入测试数据则得到的效果通常不佳，这体现了现有很多方法的局限性与不可拓展的特点。本发明首先从形成人体图像的根本出发，通过三种姿态特征(动作、骨骼和相机视角)的融合调整，使得面向人体的视觉内容生成的姿态骨架引导能够高保真地适配当前需要生成的人物，而后再通过得到的姿态骨架生成轮廓形状，最后在姿态与形状两个信息的引导下生成纹理较为合理真实的人物，整个方法降低了对数据集本身的依赖，在一定程度上体现了较好的可迁移性。

(2)高保真性：本发明的目的是改善现有方法所得的低质结果，核心贡献在于通过合理严密的多特征协同工作方法，在一定程度上解决了人体形状描述不准确、人像外观呈现模糊化、人体运动姿态错位与表达不连贯的问题，得到了较为高保真的人体视觉内容，包括具有真实感的目标人体图像与视频帧的生成，用于电影制作、游戏及广告设计、数据集增强等。

(3)安全保障性：随着信息社会的不断推进，生成与人体行为动作有关的图像或视频技术也在不断发展，但有一部分使用者并非将该技术用于视觉设计及特效、科研探索等正面任务中，而是用于伪造事实真相等不正当的行为中，这对个人、社会甚至国家的信息安全造成了一定威胁。本发明所提面向人体高保真视觉内容的多特征协同生成方法涉及一个辅助判别模块，该模块是通过对抗训练得到的判别模型，其针对人体图像或视频的真伪具有较好的鉴别作用，可对个人隐私、社会安定与国家安全起到一定的保护作用。

附图说明

图1是本发明面向人体高保真视觉内容的多特征协同生成方法的功能实施模块构成图。

图2是本发明面向人体高保真视觉内容的多特征协同生成方法的具体实施流程图。

具体实施方式

下面将参考附图并结合实施例，对本发明的技术方案进行清楚、完整地描述，进一步详细介绍本发明的具体功能实施模块、运行方式和实现方法。需要强调的是，以下实施例是本发明的优选实施例，而非全部实施例，仅用以解释本发明，而不是想要限制本发明的范围。如图1所示，面向人体高保真视觉内容的多特征协同生成***，包括数据预处理模块、视觉内容生成模块、辅助判别模块和结果评估模块，其中数据预处理模块用于人体图像与视频数据集的预处理；视觉内容生成模块用于生成高保真的人体视觉内容的核心架构；辅助判别模块用于针对骨架图、掩码图与高清人体图像三个组成进行真伪鉴别；结果评估模块，用于对单次训练得到的生成模型进行有效性验证。

所述数据预处理模块，是整个***的先决模块，其虽然对本发明的核心方法不产生影响，但在方法的具体实施中是需要注意与合理把握的。在选择待输入的人体图像与视频数据集后，由于数据集的类型为彩色图像与视频内容，且数据集内数据尺寸可能存在不统一的现象，需要先进行缩放、裁剪、归一化等操作，以方便调参与保证模型的稳定性。

所述视觉内容生成模块包括姿态特征模块、形状特征模块与纹理特征模块。其中姿态特征模块：提取动作、骨骼与相机视角信息，得到合理的目标骨架序列图；形状特征模块：提取表达人物轮廓形状的特征，得到合理的人体各部位形状掩码图；纹理特征模块：提取表现人物外观的纹理特征。

所述姿态特征模块，进行决定人体姿态特征的动作、骨骼和相机视角三个特征信息的提取与保真融合，动作与相机视角提取自人体视频，骨骼提取自单人图像，将三者合理融合并解码后得到所需生成内容的人体姿态序列，将该序列输入到姿态编码器中，通过卷积神经网络对其进行编码，从而将其映射到高维隐式空间中，作为视觉内容生成的姿态引导模块。

所述形状特征模块，是针对人体形状的语义特征进行解析，目的是得到能够合理表达人体各部位形状特征的掩码图，具体实施方式是对输入的人体图像的语义分割掩码进行编码，将人体形状特征从数据空间映射到隐式生成空间，以引导网络在已知姿态特征的基础上进行人体各个部位的合理形状生成。

纹理特征是生成模型的最后一个属性来源，其根据输入的高清人体图像进行编码，而后依照顺序融合上述姿态与形状特征模块传播的特征信息，并通过判别模型的在骨架图、掩码图与高清人体图像三个方面的反馈更新参数，实现生成模型的对抗训练，同时得到目标输出。

所示的辅助判别模块，可以描述为是生成器的辅助，其根据生成器传入的当前目标输出判断真伪，更新自身网络参数的同时为下次内容生成器的训练提供结果反馈，能够较好的帮助内容生成器学习有利于面向人体的高保真视觉内容生成的特征，从而促进内容生成器的正向发展，同时间接促进姿态特征模块与形状特征模块的参数学习。

所示的结果评估模块，先使用结构相似度与以假乱真度两个定量指标进行结果测试，该模块的输入为内容生成模块的当前目标输出(即判别器的输入)，输出为对应的结构相似度与以假乱真度的数值，得到的数值越高，在一定程度上能够说明内容生成模型学习地越好，但不能成为绝对评价结果，在经过多次训练后，两个定量指标相对较高时，需要用户调查作为定性指标辅助评价。

如图2所示，本发明面向人体高保真视觉内容的多特征协同生成方法具体实施流程如下：

步骤1、数据集的解析、选择与调整；

步骤2、人体视觉内容协同生成网络模型的搭建；

步骤3、对人体视觉内容协同生成网络模型的训练；

步骤4、生成结果的有效性评估。

进一步的，所述步骤1数据集的解析、选择与调整，是视觉内容生成任务的先决基础，也是所提出生成网络模型的学习资源。考虑本发明的目标，需要选择并获取关于人体图像与视频两个部分的数据集。步骤1具体实现过程如下：

1-2.图像数据集Ⅰ用于提取人体形状特征表示，且同时该图像数据集Ⅰ能够用于人物外观纹理的生成；图像数据集Ⅰ的要求是能够利用人体解析工具获取人体部位分割掩码或者直接提供分割信息的高清人体图像数据集。考虑到生成模型对人物外观纹理的清晰度与完整度的要求，最好选用可面对复杂场景与大幅度姿态变化的大型人体图像数据集，如最大的时尚数据集DeepFashion基准数据集等。

所述的图像数据集Ⅰ中的每张人体图像均包含高清人体图像和义分割掩码图。

1-3.视频数据集Ⅱ用于人体姿态/动作信息提取，且是能够利用OpenPose等姿态检测器清晰识别人体姿态骨架或者直接带有2D关节点标签的单人视频数据集。

为了满足生成任务的可行性与普适性，需要选取具有不同特点和量级的多组数据集，一个图像数据集Ⅰ和与人体运动的视频数据集Ⅱ记为一组。如轻量级随机姿态数据集iPER、用于视频动作识别的大型多变化数据集UCF-101等。

进一步，步骤2所述人体视觉内容协同生成网络模型的搭建，是本发明所提方法得以实施的关键，此模型相当于一个隐式函数，将输入的数据集生成为目标视觉内容，并学习到相应的参数。面向人体高保真视觉内容的协同生成网络模型的构建需要考虑人体视觉内容的特点，将动态与静态特征分离，因此该协同生成网络模型包括三个基本特征模块：姿态特征模块、形状特征模块和纹理特征模块；姿态特征模块、形状特征模块和纹理特征模块分别是针对人体运动/动作信息的姿态特征解析、针对人体形状的语义特征解析与针对人体外观的纹理特征解析；三个基本特征模块从不同的属性出发，协同引导人体视觉内容的生成，共同组成最终的生成网络模型。

进一步地，三个基本特征模块的详细表述如下：

①姿态特征模块用于对动作、骨骼和相机视角的特征融合，其中动作取自视频，骨骼与相机视角取自图像；将动作、骨骼和相机视角合并解码后得到所需生成内容的人体姿态骨架序列图，将该骨架序列输入到姿态编码器中，通过卷积神经网络对其进行编码，将其映射到高维空间中，作为视觉内容生成的姿态引导。

本发明通使用OpenPose等姿态检测器提取视频中的动作信息，即获取到每帧人像的骨骼关键点信息,得到由关键点二维坐标与时间组成的三维动作信息矩阵A,将A通过姿态的动态编码器映射到高维特征空间,得到目标动作特征向量A′。同理，使用OpenPose等姿态检测器提取所给图像的骨骼关键点信息,得到目标骨骼信息矩阵S,并将S通过身高肩宽指数的正常阈值判定得到相机视角信息向量p。

所述身高肩宽指数为身高与肩宽的比值，计算步骤为：根据目标骨骼信息矩阵S分别计算目标人物的身高及肩宽,身高为头部关键点与双脚平均关键点间的距离,肩宽为左右肩部关键点间的距离,二者取商得到目标人体的身高肩宽指数。

所述相机视角信息向量p获取的正常阈值，判定条件为身高肩宽指数在0.20-0.24内，即将相机接近正向垂直拍摄人体时看作是正常指数,该指数值偏离正常阈值边界越大可以近似表明相机偏离正向拍摄的角度越大，正视角度设为90，小于下界按照水平视角进行偏移插值，大于上界按照俯仰视角进行偏移插值，最终得到的角度信息作为相机视角特征的表达。

②形状特征模块用于对输入人体图像的语义分割掩码图进行编码，将人体形状特征映射到生成空间，以引导形状特征模块在已知姿态特征的基础上进行人体各个部位的形状生成。

③纹理特征模块是生成器的最后一个属性来源模块，纹理特征模块用于对输入的高清人体图像进行编码，得到高清人体图像的纹理特征；

最后将纹理特征与姿态特征、形状特征进行融合，生成最终的人体视觉内容并送入协同生成网络模型的判别器中。此外判别器还需针对骨架序列图、掩码图与高清人体图像三个组成进行真伪鉴别，以反馈内容生成器所生成视觉内容的真实感，经过训练提高生成器的生成效果。

进一步，步骤3所述对人体视觉内容协同生成网络模型的训练，具体实现如下：

经过步骤1的输入准备与步骤2的人体视觉内容协同生成网络模搭建，模型需要通过深度学习的方式进行对抗训练，以得到最终的高保真视觉内容输出与相应的模型参数。本发明涉及的人体视觉内容协同生成网络模型为多阶段生成对抗网络结构，整个网络模型先进行三个基本特征模块的编解码训练；然后将三个基本特征模块(纹理特征与姿态特征、形状特征)进行融合，生成器输出生成最终的人体视觉内容并送入协同生成网络模型的判别器中。而后联合多特征判别器进行人体视觉内容的生成对抗训练，直到鉴别概率接近或达到0.5，完成训练。上述训练过程先在轻量级的数据集上进行，获取到初步的生成内容后，依照下述步骤(4)进行小规模的效果评估，而后通过对评估结果的分析进行模型参数与数据集的调整，反复训练，根据多次实验结果，保留生成效果最好的网络模型结构。

进一步的，步骤4所述的生成结果的有效性评估，具体实现如下：

该步骤是本发明所提面向人体高保真视觉内容的多特征协同生成方法的验证环节。对于生成的人体视觉内容需要从定性与定量两个方面进行评估。

由于图像或视频生成任务所获结果的有效性受人眼主观感受影响较大,所以从定性角度需要通过用户调查来判断本发明所提多特征协同生成方法所获结果的真实感与用户偏爱度。为了遵从合理性与真实性,需要选择不同职业、不同年龄的多位志愿者,对于每种生成方法,随机选择10张图像在1秒钟内直接判断真伪,志愿者能够正确辨别所给图像真伪的概率在70％-85％之间能够表明所述方法在主观上的有效性。本发明所提方法在iPER与Fashiona数据集上能够被志愿者快速辨别真伪的概率为82.65％在可接受的有效性区间内。此外，从图像生成及质量评价的角度来看，可以通过LPIPS、SSIM与PSNR三个定量指标在一定程度上评估所建模型的有效性。具体来讲，LPIPS值越低、SSIM与PSNR值越高证明生成的图像质量越好，证明有效性的范围分别为LPIPS在0.01-0.1之间、SSIM在0.6-1.0之间、PSNR的下界是10.0。本发明所提方法在iPER与Fashiona数据集上的结果为LPIPS是0.0269、SSIM是0.9614、PSNR是21.4746。

实施例1：

首先，选取单人视频数据集iPER与图像数据集ATR作为优选实施例的数据集，并进行初始化与各种参数及超参数设置。其次，对所选数据集中的视觉数据进行缩放、裁剪与归一化处理，使得原始数据集转换成尺寸为224*224，数据取值为[0,1]的数据集合。接着，在姿态特征模块，对输入的图像与视频数据进行人体动作、骨骼与相机视角三个特征信息的提取，得到合理的骨架序列图，并将该特征信息与经过数据预处理的图像数据传播给形状特征模块。形状特征模块根据输入的姿态特征信息与自身卷积网络提取到的形状特征信息，得到人体各部位的合理形状掩码图。而后，将上述过程得到的姿态及形状特征信息与经过数据预处理的图像数据传播给内容生成模块，内容生成模块根据姿态与形状特征信息及当前网络模型，得到初步目标视觉内容，特别强调此时内容生成模块处于冻结状态，即不进行参数更新；将得到的初步目标视觉内容传播给辅助判别模块，判别模块更新自身网络参数并输出判别结果；接着将得到的判别结果反馈给内容生成模块，内容生成模块根据姿态及形状特征信息与判别反馈结果，合理更新自身网络参数，并输出目标高保真视觉内容，同时使得迭代次数加一，重复上述生成对抗训练流程，直到当前迭代次数大于或等于初始设置的最大迭代次数，模型训练结束，最终得到面向人体的合理的高保真视觉内容、姿态特征提取器、形状特征提取器、面向人体的视觉内容生成器及鉴别视觉内容真伪的判别器。

本发明实施例使用iPER与ATR两个轻量数据集，通过深度协同网络的训练，克服了现有方法结果的低质性，得到了在人体姿态、形状与外观上均具有一定真实感的高保真视觉内容，为图像与视频数据集的增强提供了部分视觉素材，并训练得到了可用于鉴别伪造人体图像与视频的判别网络模型。

以上仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不偏离本发明的构思或者超越本权利要求书所定义范围的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.面向人体高保真视觉内容的多特征协同生成方法，其特征在于包括如下步骤：

步骤1、数据集的解析、选择与调整；

步骤2、人体视觉内容协同生成网络模型的搭建；

步骤3、对人体视觉内容协同生成网络模型的训练；

步骤4、生成结果的有效性评估。

2.根据权利要求1所述的面向人体高保真视觉内容的多特征协同生成方法，其特征在于步骤1具体实现过程如下：

3.根据权利要求1所述的面向人体高保真视觉内容的多特征协同生成方法，其特征在于所述的图像数据集Ⅰ中的每张人体图像均包含高清人体图像和义分割掩码图。

4.根据权利要求1所述的面向人体高保真视觉内容的多特征协同生成方法，其特征在于为满足生成任务的可行性与普适性，需要选取具有不同特点和量级的多组数据集，一个图像数据集Ⅰ和与人体运动的视频数据集Ⅱ记为一组。

5.根据权利要求1所述的面向人体高保真视觉内容的多特征协同生成方法，其特征在于步骤2所述的该协同生成网络模型包括三个基本特征模块：姿态特征模块、形状特征模块和纹理特征模块；姿态特征模块、形状特征模块和纹理特征模块分别是针对人体运动/动作信息的姿态特征解析、针对人体形状的语义特征解析与针对人体外观的纹理特征解析；三个基本特征模块从不同的属性出发，协同引导人体视觉内容的生成，共同组成最终的生成网络模型。

6.根据权利要求5所述的面向人体高保真视觉内容的多特征协同生成方法，其特征在于所述的姿态特征模块用于对动作、骨骼和相机视角的特征融合，其中动作取自视频，骨骼与相机视角取自图像；将动作、骨骼和相机视角合并解码后得到所需生成内容的人体姿态骨架序列图，将该骨架序列输入到姿态编码器中，通过卷积神经网络对其进行编码，将其映射到高维空间中，作为视觉内容生成的姿态引导。

7.根据权利要求5或6所述的面向人体高保真视觉内容的多特征协同生成方法，其特征在于形状特征模块用于对输入人体图像的语义分割掩码图进行编码，将人体形状特征映射到生成空间，以引导形状特征模块在已知姿态特征的基础上进行人体各个部位的形状生成。

8.根据权利要求7所述的面向人体高保真视觉内容的多特征协同生成方法，其特征在于纹理特征模块是生成器的最后一个属性来源模块，纹理特征模块用于对输入的高清人体图像进行编码，得到高清人体图像的纹理特征；最后将纹理特征与姿态特征、形状特征进行融合，生成最终的人体视觉内容并送入协同生成网络模型的判别器中；此外判别器还需针对骨架序列图、掩码图与高清人体图像三个组成进行真伪鉴别，以反馈内容生成器所生成视觉内容的真实感，经过训练提高生成器的生成效果。

9.根据权利要求8所述的面向人体高保真视觉内容的多特征协同生成方法，其特征在于步骤3具体实现如下：由于人体视觉内容协同生成网络模型为多阶段生成对抗网络结构，整个网络模型先进行三个基本特征模块的编解码训练；然后将三个基本特征模进行融合，生成器输出最终的人体视觉内容并送入协同生成网络模型的判别器中；而后联合多特征判别器进行人体视觉内容的生成对抗训练，直到鉴别概率接近或达到0.5，完成训练。