CN110634101A

CN110634101A - 一种基于随机重构的无监督图像到图像的转换方法

Info

Publication number: CN110634101A
Application number: CN201910839912.0A
Authority: CN
Inventors: 张笑钦; 肖智恒; 王涛; 蒋润华; 赵丽
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2019-12-31
Anticipated expiration: 2039-09-06
Also published as: CN110634101B

Abstract

本发明公开了一种基于随机重构的无监督图像到图像的转换方法，包括以下步骤：通过残差注意力网络生成粗糙结果，对粗糙结果进行加工，通过对抗损失更新生成器及判别器，通过随机重构更新生成器。此技术方案，有效的随机特征重构损失来保留源域的内容信息，能够很好的将源域的内容和目标域的风格相融合；生成的图像细节更加丰富，图像纹理清晰；提高了生成对抗网络的稳定性。可以广泛的应用于多种图像转换任务当中，具有广泛的应用前景。

Description

一种基于随机重构的无监督图像到图像的转换方法

技术领域

本发明涉及计算机图形学、计算机视觉与深度学习技术领域，具体涉及一种基于随机重构的无监督图像到图像的转换方法。

背景技术

图像到图像的转换是一类视觉和图形学的问题，在计算机图像学及计算机视觉领域很多问题都可以认为是将一张输入图片转换为相应的输出图片，包括语义风格，风格迁移，图像去模糊，图像增强等。有监督的图像到图像转换需要大量的一一对应的数据集来进行训练，但很多时候，我们无法获取成对的数据集用于训练图像到图像的转换模型，比如我们永远也无法拍到梵高当初看到的星空，在这种场景下无监督的图像到图像的转换就具有特殊的意义。

基于学习的图像到图像的转换大致可以分为两类：成对的模型和不成对的模型。Pix2Pix是第一个图像到图像转换的统一框架，并且广泛的运用于超像素分辨中。最近的有一些关于不成对的图像到图像的转换模型，其主要想法就是在源域和目标域之间建立一个映射。CoGAN通过一个权重共享策略来学习一个共享的跨域表示，SimGAN通过自正则的方式来保持输入和输出有相同的内容，并通过对抗损失来学习目标域的分布。CycleGAN通过循环一致损失将整个模型约束成两个自编码，可以实现两个域的图像的互相转换。UNIT通过共享两个域的隐空间来实现图像的跨域转换。MUNIT在隐空间中加入了随机的编码，可以实现多个领域的图像转化。

随着研究的深入，无监督的图像到图像的转换技术已经取得了一定发展，然而，目前仍存在一些关键问题尚待解决。目前的图像到图像的转换模型生成的图像内容与风格的融合不够真实，缺乏细节，而图像到图像的转换必须有丰富的细节。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种基于随机重构的无监督图像到图像的转换方法，该转换方法实现图像到图像的转换，并通过随机重构输入图像的深层特征来消除图像风格与内容的融合不真实，通过增强模块来丰富生成图像的细节。

为实现上述目的，本发明提供了如下技术方案：一种基于随机重构的无监督图像到图像的转换方法，包括以下步骤：

(1)将源域图片x输入到一个残差注意力网络G中，用于生成粗糙的图像G(x)，将生成的粗糙图像再输入到一个增强模块中用于对粗糙结果的精加工得到

并通过生成对抗损失来学习目标图像的分布，再通过随机重构损失来保持原图像的内容特征；

(2)将生成的粗糙结果G(x)及精细结果

分别输入到两个判别器中来指导残差注意力网络及增强模块的更新；

(3)通过预训练的VGG16网络来分别提取输出图片和源域图像x的高层特征，然后随机挑选一部分特征进行重构来保持源域的信息。

作为优选的，步骤(1)，包括以下子步骤：

(1.1)将源域图像分别输入到一个主分支网络中和掩码分支网络中去，主分支网络和掩码分支网络都由一个卷积前端和一个转置卷积后端构成，主分支网络用来学习一个源域到目标域的映射，掩码网络用学习一个掩码权重对主分支网络进行加权修正，以此来提高主分支网络的特征表达能力；

(1.2)将粗糙结果G(x)输入到增强模块，对生成结果进行加工；

(1.3)增强模块由两个DenseASPP模块构成，极大的丰富生成图像的细节。

作为优选的，步骤(2)，包括以下子步骤：

(2.1)将粗糙结果G(x)和目标域图像y分别送入判别器D₁，跟新判别器D₁和残差注意力网络G，其目标函数为：

(2.2)将精细结果

和目标域图像y分别送入判别器D₂，用来跟新判别器、残差注意力网络以及增强模块，其目标函数为：

其中，

代表由残差注意力网络和增强模块构成的整个生成网络。

作为优选的，步骤(3)，包括以下子步骤：

(3.1)将粗糙结果G(x)和源域图像x分别送入预训练的VGG16网络用来提取深层特征，再随机挑选一部分特征，定义为R_i(x)，通过最小化粗糙结果G(x)和源域图像x的随机特征更新残差注意力网络，损失函数为：

(3.2)对精细结果

和源域图像x分别送入预训练的VGG16网络用来提取深层特征，再随机挑选一部分特征，定义为R_i(x)，通过最小化精细结果

和源域图像x的随机特征更新残差注意力网络，损失函数为：

其中，C，H，W分别表示随机提取的特征的深度，长度以及宽度。

作为优选的，步骤(2)，判别器D₁的输入是粗糙结果G(x)及目标域的图像y，判别器D₂的输入是精细结果

及目标域的图像y。

作为优选的，步骤(3)，输出图片为粗糙结果G(x)及精细结果)。

本发明的优点是：与现有技术相比，本发明基于随机重构的无监督图像到图像的转换方法更加合理：

1、本发明基于随机重构的转换方法可以很好的实现图像到图像的转换；

2、本发明随机重构损失可以用来保留源域的内容信息，使得图像的内容和风格更好的融合；

3、本发明所提到的增强模块可以很好的丰富生成图像的细节；

4、本发明所所提到的训练策略可以很好的用来更新增强模块及提高生成对抗网络的稳定性。

下面结合说明书附图和具体实施例对本发明作进一步说明。

附图说明

图1为本发明实施例基于随机重构的无监督图像到图像转换的模型框架示意图；

图2为本发明实施例增强模块示意图；

图3为本发明实施例随机重构损失的原理图。

具体实施方式

参见图1、图2和图3，本发明公开的一种基于随机重构的无监督图像到图像的转换方法，包括以下步骤：

(2)将生成的粗糙结果G(x)及精细结果

VGG16网络：VGG是牛津Visual Geometry Group的简写，16表示网络的层数。

作为优选的，步骤(1)，包括以下子步骤：

(1.2)将粗糙结果G(x)输入到增强模块，对生成结果进行加工；

作为优选的，所述DenseASPP模块全称是密集空洞卷积金字塔Densely connectedatrous spatial pyramid pooling模块。具体来说，生成的图像先经过7×7的卷积，然后输出的特征再通过空洞率为3，6，12，18，24的空洞卷积，将这些特征密集连接在一起。

作为优选的，步骤(2)，包括以下子步骤：

(2.2)将精细结果

其中，代表由残差注意力网络和增强模块构成的整个生成网络。

作为优选的，步骤(3)，包括以下子步骤：

(3.2)对精细结果

和源域图像x的随机特征更新残差注意力网络，损失函数为：

及目标域的图像y。

作为优选的，步骤(3)，输出图片为粗糙结果G(x)及精细结果

)。

本发明具体运行的硬件和编程语言并不限制，用任何语言编写都可以完成，为此，其它工作模式不再赘述。

本实施例是采用一台具有Inter Xeno Silver 4114中央处理器，8G字节内存和单个NVIDIA GTX1080ti GPU现存为8G字节的计算机，并用Python语言编制了基于随机重构的无监督图像到图像的转换模型的工作程序，实现了本次发明的模型算法。

本发明主要包括以下四个步骤：通过残差注意力网络生成粗糙结果，对粗糙结果进行加工，通过对抗损失更新生成器及判别器，通过随机重构更新生成器。

本发明提出了一种有效的随机特征重构损失来保留源域的内容信息，能够很好的将源域的内容和目标域的风格相融合；生成的图像细节更加丰富，图像纹理清晰，并且本发明提出的训练策略提高了生成对抗网络的稳定性，可以广泛的应用于多种图像转换任务当中，具有广泛的应用前景。

上述实施例对本发明的具体描述，只用于对本发明进行进一步说明，不能理解为对本发明保护范围的限定，本领域的技术工程师根据上述发明的内容对本发明作出一些非本质的改进和调整均落入本发明的保护范围之内。

Claims

1.一种基于随机重构的无监督图像到图像的转换方法，其特征在于：包括以下步骤：

(1)将源域图片x输入到一个残差注意力网络G中，用于生成粗糙的图像G(x)，将生成的粗糙图像再输入到一个增强模块中用于对粗糙结果的精加工得到并通过生成对抗损失来学习目标图像的分布，再通过随机重构损失来保持原图像的内容特征；

(2)将生成的粗糙结果G(x)及精细结果分别输入到两个判别器中来指导残差注意力网络及增强模块的更新；

2.根据权利要求1所述的一种基于随机重构的无监督图像到图像的转换方法，其特征在于：步骤(1)，包括以下子步骤：

(1.2)将粗糙结果G(x)输入到增强模块，对生成结果进行加工；

3.根据权利要求1所述的一种基于随机重构的无监督图像到图像的转换方法，其特征在于：步骤(2)，包括以下子步骤：

(2.2)将精细结果和目标域图像y分别送入判别器D₂，用来跟新判别器、残差注意力网络以及增强模块，其目标函数为：

4.根据权利要求1所述的一种基于随机重构的无监督图像到图像的转换方法，其特征在于：步骤(3)，包括以下子步骤：

(3.2)对精细结果

和源域图像x的随机特征更新残差注意力网络，损失函数为：

5.根据权利要求1所述的一种基于随机重构的无监督图像到图像的转换方法，其特征在于：步骤(2)，判别器D₁的输入是粗糙结果G(x)及目标域的图像y，判别器D₂的输入是精细结果

及目标域的图像y。

6.根据权利要求1所述的一种基于随机重构的无监督图像到图像的转换方法，其特征在于：步骤(3)，输出图片为粗糙结果G(x)及精细结果