CN116012501A

CN116012501A - 基于风格内容自适应归一化姿态引导的图像生成方法

Info

Publication number: CN116012501A
Application number: CN202211590853.6A
Authority: CN
Inventors: 魏巍; 杨霞
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-04-25

Abstract

本发明提供一种基于风格内容自适应归一化姿态引导的图像生成方法，属于图像合成技术领域，输入人物图像，在人物图像中选取源图像和目标图像，生成与源图像风格一致，与目标图像姿态相同的目标人物图像，首先，通过使用对齐的多尺度内容转移网络预测目标边缘图预先进行姿态信息转移，不仅保留纹理内容还能够缓解空间错位。其次，利用风格纹理转移网络将源风格特征逐步转移到目标姿态并实现合理的排布，这将由风格自适应归一化生成器来实现，将源风格特征、目标姿态和边缘映射在同一个隐空间，通过自适应的调节源风格和目标姿态来增强风格纹理和内容的一致性，从而保留源风格特征增强目标生成的纹理细节。

Description

基于风格内容自适应归一化姿态引导的图像生成方法

技术领域

本发明属于图像合成技术领域，具体为一种基于风格内容自适应归一化姿态引导的图像生成方法。

背景技术

姿态引导的人物图像变换是以人物源图像为条件合成任意目标姿态的图像生成任务。这项课题拥有许多潜在的应用，如视频生成和虚拟试穿等。此外，随着利用深度学习对人类行为的研究越来越深入，使得人物数据的需求激增，因而人体姿态迁移为这些研究提供相应的数据，为进一步的人物行为研究提供大量的数据。

近几年，利用条件GAN将源图像转换为目标姿态取得了明显的成效。这些方法都是以条件GAN为基础，***多个重复的模块，通过神经网络学习位姿之间的对应关系，将源图像特征重新组合为目标姿势的图像。但是，这些方法无法保留源风格和空间上下文之间的关系，很难预测清晰合理的目标图像。为解决此问题，基于流的方法预测源与目标之间位置的偏移量，指导源特征扭曲为合理的目标姿态，得到了更加精确真实的纹理图像，但源与目标位姿变化较大，会产生明显的伪影。为了缓解较大姿态变化引起的错位问题，一些方法引入人体解析映射来提供与目标姿态对应的语义关系合成接近源样式的目标图像。这些方法虽然合成了较为满意的人物图像，但仍然没有生成真实纹理细节。

发明内容

为了解决现有技术中存在的问题，本发明提供一种基于风格内容自适应归一化姿态引导的图像生成方法，旨在提高姿态转移的准确性和人物外观的真实性，有效合成了逼真的人物外观图像，在保证图像质量的前提下，减少训练时间，加快了收敛的速度。

本发明为解决其技术问题所采用的技术方案是：一种基于风格内容自适应归一化姿态引导的图像生成方法，输入人物图像，在人物图像中选取源图像和目标图像，生成与源图像风格一致，与目标图像姿态相同的目标人物图像，具体包括如下步骤：

S1：对人物图像进行人体关键点检测，得到姿态热图；

S2：提取人物图像中人体的边缘映射信息，得到边缘图；

S3：从人物图像中随机选取两张分别作为源图像和目标图像，根据得到的边缘图和姿态热图，通过对齐的多尺度内容转移网络预测目标图像边缘图；

S4：将源图像与目标图像的姿态热图输入至光流估计模型中，获得源图像与目标图像之间的光流图和遮挡掩码信息；

S5：将所述光流图、遮挡掩码信息、目标图像姿态热图、源图像输入到局部注意模型中，获得粗糙的目标人物图像；

S6：将上述粗糙的目标人物图像、目标图像边缘图和源图像输入到风格自适应归一化生成器中，获得最终的姿态迁移的目标人物图像。

进一步的，在步骤S1中，利用openpose方法估计人物图像的18个通道的姿态热图，包含18个关键点，鼻子、脖子、左肩膀、左肘、左手腕、右肩膀、右肘、右手腕、左胯部、左膝盖、左脚踝、右胯部、右膝盖、右脚踝、左眼睛、右眼睛、左耳朵和右耳朵，每一个关键点由一个通道来表示，关键点之间相互关联形成人体的骨骼结构。

进一步的，在步骤S2中，使用扩展高斯差分边缘监测方法提取人物图像的边缘映射信息，得到人物图像中人体的黑白灰度源边缘图。

进一步的，步骤S3中所述对齐的多尺度内容转移网络由对齐多尺度转移解码器和三个编码器组成；每个编码器均由一个下采样层、一个实例归一化层、一个激活层和一个残差块组成；对齐多尺度转移解码器由反卷积层、实例归一化层、激活函数以及残差块组成，反卷积层使用4X4的卷积核，步长为2，边距为1；将源图像边缘图、源图像姿态热图、目标图像姿态热图分别输入到编码器中得到通道数为256，大小为32X32的特征图，经过注意计算后解码得到目标边缘映射。

进一步的，所述编码器，其下采样层使用4X4的卷积核，步长为2，边距为1；残差块由两个卷积层、两个实例归一化层和一个激活层构成，卷积层使用3x3的卷积核，步长为1，边距为1；每一个卷积层后加一个实例归一化层，在第一个实例归一化层后添加RELU激活函数。

进一步的，步骤S4中所述光流估计模型由一个编码器和一个解码器组成，编码器由一个上采样层、一个卷积层组成，每一个层前都有一个实例归一化层和一个激活函数层，上采样层使用4X4的卷积核，步长为2，卷积层使用3X3的卷积核，步长为1；将源图像、源图像姿势热图和目标图像姿势热图在通道维度融合后经过编码器得到通道数为256，大小为32X32的特征图，经过解码器输出通道数为2的二维流场光流图和通道数为1的遮挡掩码信息。

进一步的，在步骤S5中，根据流场从源图像与目标图像中提取局部特征补丁对，利用核预测网络计算上下文感知采样核，最后对源特征进行采样，得到采样位置的扭曲结果。其中使用3X3的卷积核提取局部特征补丁对，核预测网络由卷积层、激活层、softmax组成，得到局部源与目标的局部相关性，指导源局部特征的变形。

进一步的，步骤S6中所述的风格自适应归一化生成器由姿态编码器、风格编码器、残差块、风格自适应归一化模块和残差解码器组成；姿态编码器由一个4X4的卷积核、步长为2的上采样层和一个3X3的卷积核、步长为1的卷积层组成，每一个层前都有一个实例归一化层和一个激活函数层；风格编码器由一个4X4的卷积核、步长为2的上采样层和一个3X3的卷积核、步长为1卷积与自注意力相结合的层，每一个层前都有一个实例归一化层和一个激活函数层；残差块由两个卷积层构成，每一个卷积层由激活层、实例归一化层和3X3卷积核的卷积层构成；残差解码器由一个3x3卷积核的卷积层和4X4卷积核的转置卷积层构成；风格自适应归一化模块由三个区域自适应归一化层构成，每一个归一化层由两个空间自适应归一化的参数来调制输入的特征参数。

本发明的有益效果包括：1)利用边缘映射作为姿态热图的额外约束来解决内容信息不足的问题，从而引导网络增强纹理细节生成更加逼真的人物图像。

2)基于风格自适应归一化生成器将源图像风格特征显式的分布到目标姿态，逐特征层注入源风格样式，保留了真实的纹理信息。

3)提出了新的对齐的多尺度内容转移网络，能够在特征级上扭曲和合理的重新组合输入数据，不仅能够生成新的内容，并能够增强网络的收敛速度。

附图说明

图1为本发明整体方法流程图；

图2为本发明整体模型结构图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于风格内容自适应归一化姿态引导的图像生成方法，首先，通过使用对齐的多尺度内容转移网络预测目标边缘图预先进行姿态信息转移，不仅保留纹理内容还能够缓解空间错位。其次，利用风格纹理转移网络将源风格特征逐步转移到目标姿态并实现合理的排布，这将由风格自适应归一化生成器来实现，将源风格特征、目标姿态和边缘映射在同一个隐空间，通过自适应的调节源风格和目标姿态来增强风格纹理和内容的一致性，从而保留源风格特征增强目标生成的纹理细节。

实施例1

基于风格内容自适应归一化姿态引导的图像生成方法，输入人物图像，在人物图像中选取一张源图像和一张目标图像，生成一张与源图像风格一致，与目标图像姿态相同的目标人物图像。

如图1所示，首先提取人物图像中人物的关键点坐标，即姿态热图，再提取人物图像的边缘图；从人物图像中选取源图像和目标图像，根据源图像的姿态热图、边缘图和目标图像姿态热图生成新的目标图像边缘图；根据源图像和目标图像的关键点坐标计算姿态之间的对应关系输出得到相应的光流图和遮挡掩码信息；根据光流图和遮挡掩码信息、源图像以及目标图像姿态热图生成粗糙的目标人物图像；再将目标图像姿态热图、生成的目标图像边缘图和源图像细化粗糙的目标人物图像，得到逼真的目标人物图像。具体的：

1)在人物图像的训练集中，提取所有人物图像的姿势热图和边缘图。使用openpose方法提取人物图像的18个关键点信息，每一个关键点信息代表了人体的关节部位。使用扩展高斯差分边缘监测方法，提取人物图像的边缘信息，利用黑白这种明暗对比突出图像的纹理细节信息。从训练集中选取一对图像，作为源图像和目标图像。

2)将得到的人物图像的关键点信息用不同的颜色渲染得到姿态热图。其中鼻子、脖子、左肩膀、左肘、左手腕、右肩膀、右肘、右手腕、左胯部、左膝盖、左脚踝、右胯部、右膝盖、右脚踝、左眼睛、右眼睛、左耳朵和右耳朵都有不同的颜色并使用相应的线条来链接形成一个接近人体的骨骼结构图。

3)如图2所示，提取分辨率为256X256的源图像姿态热图、边缘图和目标图像姿态热图的特征信息，经过输入层得到通道数为64，分辨率为128X128的特征图，经过卷积核为4，步长为2的上采样层和卷积核为3，步长为1的卷积层，得到通道数为128，分辨率为64X64的特征图,同样再经过上采样层和卷积层得到通道数为256，分辨率为32X32的特征图。将32X32相同大小的源图像姿态和目标图像姿态的特征图执行加权求和结果为一个关系矩阵，该矩阵与相同大小的源图像边缘特征图加权求和得到粗略的目标图像边缘特征图，再与源图像边缘特征图像素相加。将计算得到的结果输入到卷积核大小为4，步长为2的反卷积层，得到通道数为128，分辨率为64X64的目标图像边缘特征图。将64X64相同大小的源图像姿态和目标图像姿态的特征图执行上述相同的操作得到通道数为64，分辨率为128X128的目标图像边缘特征图，再经过一层反卷积、5层卷积核为3，步长为1的残差卷积层和卷积核为1，步长为1的输出层，经过Tanh()函数输出生成目标图像边缘图。

4)将源图像、源图像姿态热图和目标图像姿态热图在通道维度特征融合为通道数为39，分辨率为256X256特征图，经过上采样层使用4X4的卷积核，步长为2，卷积层使用3X3的卷积核，步长为1，得到通道数为32，分辨率大小为128X128的特征图，重复此操作得到通道数为64，分辨率大小为64X64的特征图、通道数为128，分辨率大小为32X32的特征图、通道数为256，分辨率大小为16X16的特征图和通道数为256，分辨率大小为8X8的特征图。

将通道数为256，分辨率大小为8X8的特征图，经过卷积核为3，步长为1的残差卷积层后与通道数为256，分辨率大小为16X16的特征图经过卷积核为3，步长为2的反卷积层相加再分别执行卷积核为3，步长为1，输出通道数为2大小为16X16的流场信息和通道数为1，再执行sigmoid()函数得到遮挡掩码。通道数为256，分辨率大小为16X16的特征图经过卷积核为3，步长为2的反卷积层得到通道数为128，分辨率大小为32X32的特征图与下采样得到的同样大小的特征图相加，再次执行反卷积输出大小为64X64的流场和遮挡掩码。

5)分别使用4X4卷积核，步长为2的上采样层提取源图像和目标图像姿态特征，得到大小为64X64和32X32的特征图，利用双线性差值法扭曲源特征图，将扭曲的源图像特征图和目标图像姿态特征通道维度融合后经过卷积核为3，步长为1的卷积层和Softmax()函数得到注意矩阵，扭曲的源特征图与注意矩阵加权求和后执行平均池化。

6)将粗糙的目标人物图像作为输入，经过三个残差卷积层，再利用区域自适应归一化层中的源图像、目标图像和目标图像边缘图对其外观和内容进行调制解调。将大小为32X32,64X64和128X128的源图像和目标图像边缘图依次利用卷积核为3X3,步长为1的卷积层得到调制参数，同理利用源图像和目标图像姿态热图调制参数，将粗糙的目标人物图像特征与调制参数相乘相加得到调制后的目标特征。最后，分别经过三次卷积核大小为3X3的转置卷积层和卷积核大小为1X1，步长为1的输出层以及Tanh()函数得到最终的目标人物图像。

综上，本发明公开的一种基于风格内容自适应归一化姿态引导的图像生成方法，1)提出了一个新的两阶段网络来解耦风格和内容，旨在提高姿态转移的准确性和人物外观的真实性。2)通过使用对齐的多尺度内容转移网络预测目标图像边缘图预先进行姿态信息转移，不仅保留纹理内容还能够缓解空间错位。3)利用风格纹理转移网络将源风格特征逐步转移到目标姿态并实现合理的排布，由风格自适应归一化生成器来实现，将源风格特征、目标姿态和边缘映射在同一个隐空间，通过自适应的调节源风格和目标姿态来增强风格纹理和内容的一致性，从而保留源风格特征增强目标生成的纹理细节。本发明生成了与目标姿态一致并保留了源图像风格纹理的人物图像，减少了训练的难度，加速模型的收敛。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于风格内容自适应归一化姿态引导的图像生成方法，其特征在于，输入人物图像，在人物图像中选取源图像和目标图像，生成与源图像风格一致，与目标图像姿态相同的目标人物图像，具体包括如下步骤：

S1：对人物图像进行人体关键点检测，得到姿态热图；

S2：提取人物图像中人体的边缘映射信息，得到边缘图；

2.根据权利要求1所述的基于风格内容自适应归一化姿态引导的图像生成方法，其特征在于，在步骤S1中，利用openpose方法估计人物图像的18个通道的姿态热图，包含18个关键点，鼻子、脖子、左肩膀、左肘、左手腕、右肩膀、右肘、右手腕、左胯部、左膝盖、左脚踝、右胯部、右膝盖、右脚踝、左眼睛、右眼睛、左耳朵和右耳朵，每一个关键点由一个通道来表示，关键点之间相互关联形成人体的骨骼结构。

3.根据权利要求1所述的基于风格内容自适应归一化姿态引导的图像生成方法，其特征在于，在步骤S2中，使用扩展高斯差分边缘监测方法提取人物图像的边缘映射信息，得到人物图像中人体的黑白灰度源边缘图。

4.根据权利要求1所述的基于风格内容自适应归一化姿态引导的图像生成方法，其特征在于，步骤S3中所述对齐的多尺度内容转移网络由对齐多尺度转移解码器和三个编码器组成；每个编码器均由一个下采样层、一个实例归一化层、一个激活层和一个残差块组成；对齐多尺度转移解码器由反卷积层、实例归一化层、激活函数以及残差块组成，反卷积层使用4X4的卷积核，步长为2，边距为1；将源图像边缘图、源图像姿态热图、目标图像姿态热图分别输入到编码器中得到通道数为256，大小为32X32的特征图，经过注意计算后解码得到目标图像边缘图。

5.根据权利要求4所述的基于风格内容自适应归一化姿态引导的图像生成方法，其特征在于，所述编码器，其下采样层使用4X4的卷积核，步长为2，边距为1；残差块由两个卷积层、两个实例归一化层和一个激活层构成，卷积层使用3x3的卷积核，步长为1，边距为1；每一个卷积层后加一个实例归一化层，在第一个实例归一化层后添加RELU激活函数。

6.根据权利要求1所述的基于风格内容自适应归一化姿态引导的图像生成方法，其特征在于，步骤S4中所述光流估计模型由一个编码器和一个解码器组成，编码器由一个上采样层、一个卷积层组成，每一个层前都有一个实例归一化层和一个激活函数层，上采样层使用4X4的卷积核，步长为2，卷积层使用3X3的卷积核，步长为1；将源图像、源图像姿势热图和目标图像姿势热图在通道维度融合后经过编码器得到通道数为256，大小为32X32的特征图，经过解码器输出通道数为2的二维流场光流图和通道数为1的遮挡掩码信息。

7.根据权利要求6所述的基于风格内容自适应归一化姿态引导的图像生成方法，其特征在于，在步骤S5中，根据流场从源图像与目标图像中提取局部特征补丁对，利用核预测网络计算上下文感知采样核，最后对源特征进行采样，得到采样位置的扭曲结果。

8.根据权利要求7所述的基于风格内容自适应归一化姿态引导的图像生成方法，其特征在于，使用3X3的卷积核提取局部特征补丁对，核预测网络由卷积层、激活层、softmax组成。

9.根据权利要求1所述的基于风格内容自适应归一化姿态引导的图像生成方法，其特征在于，步骤S6中所述的风格自适应归一化生成器由姿态编码器、风格编码器、残差块、风格自适应归一化模块和残差解码器组成；姿态编码器由一个4X4的卷积核、步长为2的上采样层和一个3X3的卷积核、步长为1的卷积层组成，每一个层前都有一个实例归一化层和一个激活函数层；风格编码器由一个4X4的卷积核、步长为2的上采样层和一个3X3的卷积核、步长为1卷积与自注意力相结合的层，每一个层前都有一个实例归一化层和一个激活函数层；残差块由两个卷积层构成，每一个卷积层由激活层、实例归一化层和3X3卷积核的卷积层构成；残差解码器由一个3x3卷积核的卷积层和4X4卷积核的转置卷积层构成；风格自适应归一化模块由三个区域自适应归一化层构成，每一个归一化层由两个空间自适应归一化的参数来调制输入的特征参数。