CN113706650A

CN113706650A - 一种基于注意力机制和流模型的图像生成方法

Info

Publication number: CN113706650A
Application number: CN202110993967.4A
Authority: CN
Inventors: 任俞睿; 吴玉博; 龙仕强
Original assignee: Instritute Of Intelligent Video Audio Technology Longgang Shenzhen
Current assignee: Instritute Of Intelligent Video Audio Technology Longgang Shenzhen
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-26

Abstract

本发明的基于注意力机制和流模型的图像生成方法，包括以下步骤：S1.训练数据预处理；S2.将预处理后的训练数据进入子任务一，使用注意力机制提取相关矩阵，用于生成有准确结构信息的中间结果；S3.训练数据进入子任务二，使用流模型预测流场，用于生成具有丰富细节信息的中间结果；S4.将子任务一生成的相关矩阵与子任务二生成的流场在不同尺度下一一对应地输入到子任务三中，使用内容感知网络生成权重图；以及S5.子任务一、子任务二、子任务三的生成结果和训练数据进入主任务，使用编码器‑解码器的网络生成人体图像，输出图像。本发明方法能够兼顾结构信息和细节信息，从而获得更佳的生成质量。

Description

一种基于注意力机制和流模型的图像生成方法

技术领域

本发明涉及图像生成和生成对抗网络领域，具体地，涉及一种基于注意力机制和流模型的图像生成方法。

背景技术

随着深度学习和神经网络的不断发展，计算机视觉和图像处理领域受到了广泛的关注。其中，近年来兴起的姿态引导的人体图像生成任务是计算机视觉领域中的一个比较有挑战性和实际功用的课题。它的核心任务是将给定图像中的人物通过一系列的空间变换转换成目标姿态中的样子。这一任务有着诸多的难点，例如生成图像中的结构信息不完整，纹理信息的缺失等等。

在人体图像生成任务刚提出时，大多数方法使用简单的编码器-解码器结构。但由于缺少高效的转换模块，大量有用的信息会在卷积过程中丢失，导致生成图像的质量较低。近几年的人体图像生成方法可以大致分为两种类型。

第一种是基于流的方法，即借助从源图像到目标图像的流场将源图像的像素扭曲到目标姿态对应的位置。这种方法可以更好地保留源图像的纹理细节并生成更逼真的输出。然而，虽然基于流的方法可以对相邻区域的变形建立联系，但很难对长期相关性进行建模，同时，由于有些部位并没有出现在原图像中，这就会导致生成图像的结构并不准确。

另一种方法是使用信息注入的方式，通过将源图像的人体属性解耦为各个语义部位，并提取中每个语义部位的特征，之后将特征解码到目标姿态中对应位置的方式来生成图像。这种方法通常可以生成较为准确的结构，但难以保留原图像各语义部位的清晰纹理。

总而言之，现行的方法虽然可以在某些方面有比较好的表现，但大多难以同时兼顾纹理信息和结构信息。

发明内容

本发明提供了一种基于注意力机制和流模型的图像生成方法，能够兼顾结构信息和细节信息，从而获得更佳的生成质量。

本发明的技术方案如下：

本发明的基于注意力机制和流模型的图像生成方法，包括以下步骤：S1.训练数据预处理；S2.将预处理后的训练数据进入子任务一，使用注意力机制提取相关矩阵，用于生成有准确结构信息的中间结果；S3.训练数据进入子任务二，使用流模型预测流场，用于生成具有丰富细节信息的中间结果；S4.将子任务一生成的相关矩阵与子任务二生成的流场在不同尺度下一一对应地输入到子任务三中，使用内容感知网络生成权重图；以及S5.子任务一、子任务二、子任务三的生成结果和训练数据进入主任务，使用编码器-解码器的网络生成人体图像，输出图像。

优选的，在上述基于注意力机制和流模型的图像生成方法中，在步骤S1中，输入图像，进行数据预处理，将训练数据处理为模型需要的大小和格式，生成原图像和目标图像的姿态图。

优选的，在上述基于注意力机制和流模型的图像生成方法中，在步骤S2中，将原图像和目标图像的姿态图输入到子任务一中，使用基于注意力机制的相关矩阵提取器提取不同尺度下原图像和目标图像的姿态图之间的相关矩阵，以平均绝对误差作为损失函数，生成有准确结构信息的中间结果。

优选的，在上述基于注意力机制和流模型的图像生成方法中，在步骤S3中，将原图像、原图像的姿态图和目标图像的姿态图输入到子任务二中，使用流模型预测器预测不同尺度下从原图像到目标图像的姿态图的流场，以采样正确性损失和正则化损失作为损失函数，用于生成具有丰富细节信息的中间结果。

优选的，在上述基于注意力机制和流模型的图像生成方法中，在步骤S4中，步骤S2和步骤S3中所提取的相关矩阵与流场是多尺度的，并且在不同尺度下一一对应地作为子任务三的输入。

优选的，在上述基于注意力机制和流模型的图像生成方法中，在步骤S5中，将原图像和目标图像的姿态图以及子任务一、子任务二和子任务三的生成结果输入到主任务中，生成人体图像。

优选的，在上述基于注意力机制和流模型的图像生成方法中，在步骤S5中，使用相关矩阵和流场对特征图进行扭曲，之后使用权重图对扭曲后的特征图进行逐元素相乘，再将两结果进行逐元素相加；之后将扭曲后的特征图输入到解码器中，为目标姿态特征添加真实的纹理信息，生成具有准确结构信息和丰富纹理细节的人体图像。

根据本发明的技术方案，产生的有益效果是:

本发明的基于注意力机制的相关矩阵提取器，能够有效地学习到目标图像的结构信息，使生成图像具有更准确的结构；基于流模型的流场预测器，能够有效地保留原图像的细节信息。同时权重图生成器，将注意力机制和流模型的优点结合到了一起，生成同时具有准确结构信息和丰富细节信息的结果，提升了生成图的质量。

为了更好地理解和说明本发明的构思、工作原理和发明效果，下面结合附图，通过具体实施例，对本发明进行详细说明如下：

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明的基于注意力机制和流模型的图像生成方法的流程图；

图2为本发明的基于注意力机制和流模型的图像生成方法的子任务的网络架构图。

图3为本发明的基于注意力机制和流模型的图像生成方法的主任务的网络架构图。

具体实施方式

为使本发明的目的、技术方法及优点更加清晰，下面结合附图及具体实例，对本发明做进一步的详细说明。这些实例仅仅是说明性的，而并非对本发明的限制。

本发明的基于注意力机制和流模型的图像生成方法使用了三个子任务来提取结构信息并且保留细节信息。其中主任务使用了子任务。

本发明方法的工作原理为：子任务一.构造一个相关矩阵提取器以提取原图与目标姿态间的相关矩阵用以提取结构信息；子任务二.构造一个基于流模型的流场预测器以预测从原图到目标姿态的流场用以保留细节信息；以及子任务三.构造一个权重图生成器以将相关矩阵提取器和流场预测器生成的中间结果作为输入，预测权重用以综合二者的优势。最后将三个子任务的结果输入到主任务中指导生成具有准确结构和丰富细节的结果。

如附图1所示，本发明的基于注意力机制和流模型的图像生成方法，主要包括以下步骤：

S1.训练数据预处理。输入图像，进行数据预处理，将训练数据处理为模型需要的大小和格式，同时使用现有方法生成原图像和目标图像的姿态图。

S2.预处理后的训练数据进入子任务一，使用注意力机制提取相关矩阵c(如图3所示)，用于生成有准确结构信息的中间结果。具体地，如附图2左侧所示，将原图像和目标图像的姿态图(即图2中的目标姿态图)输入到子任务一中，使用基于注意力机制的相关矩阵提取器提取不同尺度下原图像和目标图像的姿态图之间的相关矩阵，以平均绝对误差作为损失函数，生成有准确结构信息的中间结果。

S3.训练数据进入子任务二，使用流模型预测流场w(如图3所示)，用于生成具有丰富细节信息的中间结果。具体地，如附图2右侧所示，将原图像、原图像的姿态图和目标图像的姿态图输入到子任务二中，使用流模型预测器预测不同尺度下从原图像到目标图像的姿态图(目标姿态图)的流场，以采样正确性损失和正则化损失作为损失函数，用于生成具有丰富细节信息的中间结果。

在此步骤中，假设所有借助流场的形变都应该是仿射变换。

其中正则化损失的定义如下：

其中R_l为以位置l为中心的n×n图像块，S_l是经过流场扭曲的图像块，可表示为：

其中

为R_l的齐次坐标。

为线性方程R_l＝A_lS_l的最小二乘解。可表示为：

S4.将子任务一生成的相关矩阵与子任务二生成的流场在不同尺度下一一对应地输入到子任务三中，使用内容感知网络生成权重图m(如图3所示)，用于选择注意力机制和流模型结果的权重，用以同时保留两种方法的优势。其中，步骤S2和步骤S3中所提取的相关矩阵与流场可以是多尺度的，并且在不同尺度下一一对应地作为子任务三的输入。

S5.子任务一、子任务二、子任务三的生成结果和训练数据进入主任务，使用编码器-解码器的网络生成人体图像，输出图像。具体地，如附图3所示，将原图像和目标图像的姿态图(目标姿态图)以及子任务一、子任务二和子任务三的生成结果输入到主任务中，生成人体图像。具体地，以子任务一、子任务二和子任务三中分别生成的相关矩阵、流场和权重图作为指导，在扭曲模块中对原图像提取出的特征图进行扭曲。具体地，使用相关矩阵和流场对特征图进行扭曲；之后使用权重图对扭曲后的特征图进行逐元素相乘，再将两结果进行逐元素相加；之后将扭曲后的特征图输入到解码器中，为目标姿态特征添加真实的纹理信息，生成具有准确结构信息和丰富纹理细节的人体图像。

本发明对生成图和真实的目标图像之间使用了感知损失函数从特征相似度上进行了约束，使用了风格损失函数在特征量上进行了约束。同时使用了面部重建损失对生成图的任务面部进行约束，使得生成图中的人脸更接近真实人脸。

本发明提出的方法与现有的图像生成方法相比，在主观和客观方面都具有更好的生成质量，同时具有较强的泛化能力，可以将此方法迁移到其他任务上。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上说明是依据发明的构思和工作原理的最佳实施例。上述实施例不应理解为对本权利要求保护范围的限制，依照本发明构思的其他实施方式和实现方式的组合均属于本发明的保护范围。

Claims

1.一种基于注意力机制和流模型的图像生成方法，其特征在于，包括以下步骤：

S1.训练数据预处理；

S2.将预处理后的训练数据进入子任务一，使用注意力机制提取相关矩阵，用于生成有准确结构信息的中间结果；

S3.训练数据进入子任务二，使用流模型预测流场，用于生成具有丰富细节信息的中间结果；

S4.将子任务一生成的相关矩阵与子任务二生成的流场在不同尺度下一一对应地输入到子任务三中，使用内容感知网络生成权重图；以及

S5.子任务一、子任务二、子任务三的生成结果和训练数据进入主任务，使用编码器-解码器的网络生成人体图像，输出图像。

2.根据权利要求1所述的基于注意力机制和流模型的图像生成方法，其特征在于，在步骤S1中，输入图像，进行数据预处理，将所述训练数据处理为模型需要的大小和格式，生成原图像和目标图像的姿态图。

3.根据权利要求1所述的基于注意力机制和流模型的图像生成方法，其特征在于，在步骤S2中，将所述原图像和所述目标图像的姿态图输入到子任务一中，使用基于注意力机制的相关矩阵提取器提取不同尺度下所述原图像和所述目标图像的姿态图之间的相关矩阵，以平均绝对误差作为损失函数，生成有准确结构信息的中间结果。

4.根据权利要求1所述的基于注意力机制和流模型的图像生成方法，其特征在于，在步骤S3中，将原图像、原图像的姿态图和目标图像的姿态图输入到子任务二中，使用流模型预测器预测不同尺度下从原图像到目标图像的姿态图的流场，以采样正确性损失和正则化损失作为损失函数，用于生成具有丰富细节信息的中间结果。

5.根据权利要求1所述的基于注意力机制和流模型的图像生成方法，其特征在于，在步骤S4中，步骤S2和步骤S3中所提取的相关矩阵与流场是多尺度的，并且在不同尺度下一一对应地作为所述子任务三的输入。

6.根据权利要求1所述的基于注意力机制和流模型的图像生成方法，其特征在于，在步骤S5中，将所述原图像和所述目标图像的姿态图以及所述子任务一、所述子任务二和所述子任务三的生成结果输入到所述主任务中，生成人体图像。

7.根据权利要求1所述的基于注意力机制和流模型的图像生成方法，其特征在于，在步骤S5中，使用所述相关矩阵和所述流场对特征图进行扭曲，之后使用所述权重图对扭曲后的特征图进行逐元素相乘，再将两结果进行逐元素相加；之后将扭曲后的特征图输入到解码器中，为目标姿态特征添加真实的纹理信息，生成具有准确结构信息和丰富纹理细节的人体图像。