CN110852937A

CN110852937A - 基于内容与样式解耦的形变物品图像生成方法

Info

Publication number: CN110852937A
Application number: CN201910982440.4A
Authority: CN
Inventors: 曾明; 许文康; 吴雨璇; 李祺; 王湘晖
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2020-02-28
Anticipated expiration: 2039-10-16
Also published as: CN110852937B

Abstract

本发明涉及一种基于内容与样式解耦的高逼真形变物体的图像生成方法，包括下列步骤：采集图像作为生成网络的数据集：依据图像是否发生形变将数据集分为X类和Y类，X指形变图像，Y指规范图像；构建网络鉴别器、编码器和生成器；训练网络，包含两次图像转换过程；将待处理规范图像输入到已训练好的网络中，内容编码器提取该图像的内容特征后，和由高斯分布所生成的风格编码进行concat连接后输入到生成器中，最终生成形变图像。

Description

基于内容与样式解耦的形变物品图像生成方法

技术领域

本发明涉及物品图像的自动生成方法，涉及一种基于内容与样式解耦的高逼真形变物体的图像生成方法。

背景技术

近些年兴起的深度学***，大规模数据集的存在是深度学习技术在物体检测识别等领域取得巨大成功的原因之一。

目前国际上比较流行的用于深度学习视觉检测和识别研究的图像数据集有：MNIST、Caltech256、Tiny Images、PASCAL VOC、SUN、ImageNet、MS COCO、Places、OpenImages。这些数据集的图片数量从几千张到数百万张不等且都是针对特定的视觉检测和识别任务而构建，例如特定的手写字符数据集，典型城市场景图片集(包含建筑物、车辆、行人等)。但目前没有一个专门的日常生活物品数据集，这类数据集的应用需求非常大，例如无人超市购买物品自动结算***、生活垃圾自动识别，物品自动配送等。但构建这类数据集难度非常大，原因在于：1)日常的生活物品种类多，至少有几千种；2)生活物品在使用过程中会出现各种无规律的扭曲形变。获得未使用过的规则的物品图像相对容易，但获取扭曲形变的物品图像非常困难。为此，本发明将采用计算机图像自动生成的方法生成高逼真的形变物品图像。

现有的计算机自动图像生成方法可分为两大类：有监督学习方法和无监督学习方法。PLDT(Pixel-level Domain Transfer)是一种经典的有监督学习方法，该方法通过鉴别器来判断不同域的一对图像是否相互关联。无监督的Cycle GAN方法主要考虑了循环重构损失。无监督的UNIT(Unsupervised Image-to-Image Translation)算法提出利用VAE(Variational Autoencode)和权重分享实现图像到图像的转换。这些方法主要在图像风格转换应用中表现较好，但风格转换生成的图像少，最多只有几张。而形变图像通常需要生成几十张到几百张不等，因此现有的图像生成方法都不能用于构建大规模虚拟生活物品数据集。

发明内容

为了构建大规模虚拟生活物品数据集，生成大量高逼真的形变物品图像，本发明提出一种基于内容与样式解耦的图像生成方法。该解耦方法可以将形变物体的形变风格特征和物体本身分离开来，通过不断改变风格参数，可生成大量同一类物品不同样式的形变图像，技术方案如下：

一种基于内容与样式解耦的高逼真形变物体的图像生成方法，包括下列步骤：

1)采集图像作为生成网络的数据集：依据图像是否发生形变将数据集分为X类和Y类，X指形变图像，Y指规范图像；

2)构建网络鉴别器、编码器和生成器。方法如下：

鉴别器，包括内容鉴别器以及域鉴别器，其中内容鉴别器用于鉴别内容编码和风格编码是否分离；域鉴别器，用于约束重建图像信息以及鉴别形变类和规范类物体；

编码器，包括内容编码器和风格编码器，内容编码器用于提取图像中的物体特征，风格编码器用于提取该物体的形变信息；

生成器，包括生成器X和生成器Y，分别依据内容编码器和风格编码器所提取到的编码信息来输出生成图像；

3)依据1)中收集到的数据集以及2)中构建的鉴别器、编码器以及生成器，训练网络，包含两次图像转换过程，图像转换过程如下：

第一次图像转换过程如下：将形变图像和规范图像分别输入到内容编码器和风格编码器中，得到各自的内容编码和风格编码；将高斯噪声输入到风格编码器中得到虚假高斯噪声风格编码，交叉互换两类图像的编码信息，输入到对应的生成器中，分别得到虚假的图像fake_X以及fake_Y，完成第一次转换；

第二次图像转换过程如下：将fake_X和fake_Y再次输入到内容编码器和风格编码器中，得到各自的内容编码和风格编码；又一次交叉各自编码信息，并输入到生成器中，分别得到X和Y的重建图像，通过域鉴别器来约束重建图像和原始输入图像的相似性；

4)将待处理规范图像输入到已训练好的网络中，内容编码器提取该图像的内容特征后，和由高斯分布所生成的风格编码进行concat连接后输入到生成器中，最终生成形变图像。

优选地，内容鉴别器由4个LeakyReLUConv2d以及1个Conv2d层组成；域鉴别器包括LeakyReLU 层以及谱归一化层。

内容编码器由LeakReLUConv2d块、ReLUINSConv2d以及INSResBlock组成，其中LeakReLUConv2d 包括ReflectionPad2d层、谱归一化层以及LeakyReLU层；所述的风格编码器网络架构包含4个 ReflectionPad2d层、Conv2d层、ReLU层，以及AdaptiveAvgPool2d层以及Conv2d层，共14层。

两个生成器模型架构一致，均包含4个MisINSResBlock块、3个ReLUINSConvTranspose2d块、以及 Tanh层。

现有的图像生成方法主要用于图像风格转换，生成的图像数量很少。本发明方法将形变物体的样式特征和物体本身内容进行解耦处理，这样一方面可以通过变化样式特征参数，很容易生成大量形变的图像，另一方面这种解耦处理能保证生成的图像非常逼真。

利用本发明可构建大规模虚拟形变物品图像数据集，这类数据集将为计算机视觉研究的基本问题(如图像分类、目标检测)提供一类全新的且非常具有挑战性的测试数据集，这将有助于提高计算机视觉在特殊物体分类、识别等方面的准确性，并将有力地推动相关计算机视觉技术的升级与发展。

附图说明

图1为本发明算法的流程图

具体实施方式

为使本发明的技术方案更加清楚，下面结合附图对本专利的基于内容与样式解耦的高逼真形变物品图像生成方法的具体实施方案做出详细说明，具体的流程图由图1给出：

1)采集形变物体图像作为生成网络的数据集，所采用的数据集是采集的3000张日常生活中所遇到的物品图像，每张图像仅含有单个物体。依据图像是否发生形变将数据集分为X类和Y类(X指形变图像，Y指规范图像)，将图像数据集按照9：1的比例分为训练集和测试集，即分别为trainX、trainY、testX 和testY；

2)构建网络鉴别器、编码器和生成器，方法如下：

鉴别器包括内容鉴别器以及域鉴别器，其中内容鉴别器由4个LeakyReLUConv2d以及1个Conv2d 层组成，用于鉴别内容编码和风格编码是否分离；域鉴别器包括LeakyReLU层以及谱归一化层，用于约束重建图像信息以及鉴别形变类和规范类物体；

编码器包括内容编码器和风格编码器，内容编码器用于提取图像中的物体特征，风格编码器用于提取该物体的形变信息，如撕裂、扭曲、破损等。其中内容编码器由LeakReLUConv2d块、ReLUINSConv2d 以及INSResBlock组成，其中LeakReLUConv2d包括ReflectionPad2d层、谱归一化层以及LeakyReLU层；所述的风格编码器网络架构包含4个ReflectionPad2d层、Conv2d层、ReLU层，以及AdaptiveAvgPool2d 层以及Conv2d层，共14层；

生成器包括生成器X和生成器Y，依据内容编码器和风格编码器所提取到的编码信息来输出生成图像。两个生成器模型架构一致，包含4个MisINSResBlock块、3个ReLUINSConvTranspose2d块、以及 Tanh层；

3)依据1)中收集到的数据集以及2)中构建的鉴别器、编码器以及生成器，网络包含两次图像转换过程，具体图像转换过程如下：

第一次图像转换过程如下：将形变图像和规范图像分别输入到内容编码器和风格编码器中，得到各自的内容编码和风格编码。同时将高斯噪声输入到风格编码器中得到虚假高斯噪声风格编码，交叉互换两类图像的编码信息，输入到对应的生成器中，得到虚假的图像fake_X以及fake_Y，完成第一次转换；

第二次图像转换过程如下：将fake_X和fake_Y再次输入到内容编码器和风格编码器中，得到各自的内容编码和风格编码。又一次交叉各自编码信息，并输入到生成器中，得到X和Y的重建图像，通过域鉴别器来约束重建图像和原始输入图像的相似性；

训练网络，具体网络参数设置如下：

预处理图像数据集，将图像裁剪为960*960尺寸并随机裁剪后输入到生成网络中，训练网络参数设置如下：batch_size设为2，每隔5个epoch保存一次生成图像，每隔10个epoch保存一次网络模型。域鉴别器采用谱归一化层，epoch设为1200，学习率设为0.0001，内容鉴别器的学习率设为0.0004，每隔3个 epoch更新一次内容鉴别器。优化器采用Adam优化器，损失函数采用L1损失。最终得到训练好的神经网络模型。

4)将待处理的规范图像输入到已训练好的神经网络模型中，由提取到的内容编码和高斯噪声生成的风格编码信息输入到生成器中，输出形变图像。输出图像数量可以自定义设置。

Claims

1.一种基于内容与样式解耦的高逼真形变物体的图像生成方法，包括下列步骤：

2)构建网络鉴别器、编码器和生成器。方法如下：

2.根据权利要求1所述的方法，其特征在于，内容鉴别器由4个LeakyReLUConv2d以及1个Conv2d层组成；域鉴别器包括LeakyReLU层以及谱归一化层。

3.根据权利要求1所述的方法，其特征在于，内容编码器由LeakReLUConv2d块、ReLUINSConv2d以及INSResBlock组成，其中LeakReLUConv2d包括ReflectionPad2d层、谱归一化层以及LeakyReLU层；所述的风格编码器网络架构包含4个ReflectionPad2d层、Conv2d层、ReLU层，以及AdaptiveAvgPool2d层以及Conv2d层，共14层。

4.根据权利要求1所述的方法，其特征在于，两个生成器模型架构一致，均包含4个MisINSResBlock块、3个ReLUINSConvTranspose2d块、以及Tanh层。