CN110852937B - 基于内容与样式解耦的形变物品图像生成方法 - Google Patents

基于内容与样式解耦的形变物品图像生成方法 Download PDF

Info

Publication number
CN110852937B
CN110852937B CN201910982440.4A CN201910982440A CN110852937B CN 110852937 B CN110852937 B CN 110852937B CN 201910982440 A CN201910982440 A CN 201910982440A CN 110852937 B CN110852937 B CN 110852937B
Authority
CN
China
Prior art keywords
image
content
encoder
style
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910982440.4A
Other languages
English (en)
Other versions
CN110852937A (zh
Inventor
曾明
许文康
吴雨璇
李祺
王湘晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910982440.4A priority Critical patent/CN110852937B/zh
Publication of CN110852937A publication Critical patent/CN110852937A/zh
Application granted granted Critical
Publication of CN110852937B publication Critical patent/CN110852937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于内容与样式解耦的高逼真形变物体的图像生成方法,包括下列步骤:采集图像作为生成网络的数据集:依据图像是否发生形变将数据集分为X类和Y类,X指形变图像,Y指规范图像;构建网络鉴别器、编码器和生成器;训练网络,包含两次图像转换过程;将待处理规范图像输入到已训练好的网络中,内容编码器提取该图像的内容特征后,和由高斯分布所生成的风格编码进行concat连接后输入到生成器中,最终生成形变图像。

Description

基于内容与样式解耦的形变物品图像生成方法
技术领域
本发明涉及物品图像的自动生成方法,涉及一种基于内容与样式解耦的高逼真形变物体的图像生成方法。
背景技术
近些年兴起的深度学***,大规模数据集的存在是深度学习技术在物体检测识别等领域取得巨大成功的原因之一。
目前国际上比较流行的用于深度学习视觉检测和识别研究的图像数据集有:MNIST、Caltech256、Tiny Images、PASCAL VOC、SUN、ImageNet、MS COCO、Places、OpenImages。这些数据集的图片数量从几千张到数百万张不等且都是针对特定的视觉检测和识别任务而构建,例如特定的手写字符数据集,典型城市场景图片集(包含建筑物、车辆、行人等)。但目前没有一个专门的日常生活物品数据集,这类数据集的应用需求非常大,例如无人超市购买物品自动结算***、生活垃圾自动识别,物品自动配送等。但构建这类数据集难度非常大,原因在于:1)日常的生活物品种类多,至少有几千种;2)生活物品在使用过程中会出现各种无规律的扭曲形变。获得未使用过的规则的物品图像相对容易,但获取扭曲形变的物品图像非常困难。为此,本发明将采用计算机图像自动生成的方法生成高逼真的形变物品图像。
现有的计算机自动图像生成方法可分为两大类:有监督学习方法和无监督学习方法。PLDT(Pixel-level Domain Transfer)是一种经典的有监督学习方法,该方法通过鉴别器来判断不同域的一对图像是否相互关联。无监督的Cycle GAN方法主要考虑了循环重构损失。无监督的UNIT(Unsupervised Image-to-Image Translation)算法提出利用VAE(Variational Autoencode)和权重分享实现图像到图像的转换。这些方法主要在图像风格转换应用中表现较好,但风格转换生成的图像少,最多只有几张。而形变图像通常需要生成几十张到几百张不等,因此现有的图像生成方法都不能用于构建大规模虚拟生活物品数据集。
发明内容
为了构建大规模虚拟生活物品数据集,生成大量高逼真的形变物品图像,本发明提出一种基于内容与样式解耦的图像生成方法。该解耦方法可以将形变物体的形变风格特征和物体本身分离开来,通过不断改变风格参数,可生成大量同一类物品不同样式的形变图像,技术方案如下:
一种基于内容与样式解耦的高逼真形变物体的图像生成方法,包括下列步骤:
1)采集图像作为生成网络的数据集:依据图像是否发生形变将数据集分为X类和Y类,X指形变图像,Y指规范图像;
2)构建网络鉴别器、编码器和生成器。方法如下:
鉴别器,包括内容鉴别器以及域鉴别器,其中内容鉴别器用于鉴别内容编码和风格编码是否分离;域鉴别器,用于约束重建图像信息以及鉴别形变类和规范类物体;
编码器,包括内容编码器和风格编码器,内容编码器用于提取图像中的物体特征,风格编码器用于提取该物体的形变信息;
生成器,包括生成器X和生成器Y,分别依据内容编码器和风格编码器所提取到的编码信息来输出生成图像;
3)依据1)中收集到的数据集以及2)中构建的鉴别器、编码器以及生成器,训练网络,包含两次图像转换过程,图像转换过程如下:
第一次图像转换过程如下:将形变图像和规范图像分别输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码;将高斯噪声输入到风格编码器中得到虚假高斯噪声风格编码,交叉互换两类图像的编码信息,输入到对应的生成器中,分别得到虚假的图像fake_X以及fake_Y,完成第一次转换;
第二次图像转换过程如下:将fake_X和fake_Y再次输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码;又一次交叉各自编码信息,并输入到生成器中,分别得到X和Y的重建图像,通过域鉴别器来约束重建图像和原始输入图像的相似性;
4)将待处理规范图像输入到已训练好的网络中,内容编码器提取该图像的内容特征后,和由高斯分布所生成的风格编码进行concat连接后输入到生成器中,最终生成形变图像。
优选地,内容鉴别器由4个LeakyReLUConv2d以及1个Conv2d层组成;域鉴别器包括LeakyReLU 层以及谱归一化层。
内容编码器由LeakReLUConv2d块、ReLUINSConv2d以及INSResBlock组成,其中LeakReLUConv2d 包括ReflectionPad2d层、谱归一化层以及LeakyReLU层;所述的风格编码器网络架构包含4个 ReflectionPad2d层、Conv2d层、ReLU层,以及AdaptiveAvgPool2d层以及Conv2d层,共14层。
两个生成器模型架构一致,均包含4个MisINSResBlock块、3个ReLUINSConvTranspose2d块、以及 Tanh层。
现有的图像生成方法主要用于图像风格转换,生成的图像数量很少。本发明方法将形变物体的样式特征和物体本身内容进行解耦处理,这样一方面可以通过变化样式特征参数,很容易生成大量形变的图像,另一方面这种解耦处理能保证生成的图像非常逼真。
利用本发明可构建大规模虚拟形变物品图像数据集,这类数据集将为计算机视觉研究的基本问题(如图像分类、目标检测)提供一类全新的且非常具有挑战性的测试数据集,这将有助于提高计算机视觉在特殊物体分类、识别等方面的准确性,并将有力地推动相关计算机视觉技术的升级与发展。
附图说明
图1为本发明算法的流程图
具体实施方式
为使本发明的技术方案更加清楚,下面结合附图对本专利的基于内容与样式解耦的高逼真形变物品图像生成方法的具体实施方案做出详细说明,具体的流程图由图1给出:
1)采集形变物体图像作为生成网络的数据集,所采用的数据集是采集的3000张日常生活中所遇到的物品图像,每张图像仅含有单个物体。依据图像是否发生形变将数据集分为X类和Y类(X指形变图像,Y指规范图像),将图像数据集按照9:1的比例分为训练集和测试集,即分别为trainX、trainY、testX 和testY;
2)构建网络鉴别器、编码器和生成器,方法如下:
鉴别器包括内容鉴别器以及域鉴别器,其中内容鉴别器由4个LeakyReLUConv2d以及1个Conv2d 层组成,用于鉴别内容编码和风格编码是否分离;域鉴别器包括LeakyReLU层以及谱归一化层,用于约束重建图像信息以及鉴别形变类和规范类物体;
编码器包括内容编码器和风格编码器,内容编码器用于提取图像中的物体特征,风格编码器用于提取该物体的形变信息,如撕裂、扭曲、破损等。其中内容编码器由LeakReLUConv2d块、ReLUINSConv2d 以及INSResBlock组成,其中LeakReLUConv2d包括ReflectionPad2d层、谱归一化层以及LeakyReLU层;所述的风格编码器网络架构包含4个ReflectionPad2d层、Conv2d层、ReLU层,以及AdaptiveAvgPool2d 层以及Conv2d层,共14层;
生成器包括生成器X和生成器Y,依据内容编码器和风格编码器所提取到的编码信息来输出生成图像。两个生成器模型架构一致,包含4个MisINSResBlock块、3个ReLUINSConvTranspose2d块、以及 Tanh层;
3)依据1)中收集到的数据集以及2)中构建的鉴别器、编码器以及生成器,网络包含两次图像转换过程,具体图像转换过程如下:
第一次图像转换过程如下:将形变图像和规范图像分别输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码。同时将高斯噪声输入到风格编码器中得到虚假高斯噪声风格编码,交叉互换两类图像的编码信息,输入到对应的生成器中,得到虚假的图像fake_X以及fake_Y,完成第一次转换;
第二次图像转换过程如下:将fake_X和fake_Y再次输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码。又一次交叉各自编码信息,并输入到生成器中,得到X和Y的重建图像,通过域鉴别器来约束重建图像和原始输入图像的相似性;
训练网络,具体网络参数设置如下:
预处理图像数据集,将图像裁剪为960*960尺寸并随机裁剪后输入到生成网络中,训练网络参数设置如下:batch_size设为2,每隔5个epoch保存一次生成图像,每隔10个epoch保存一次网络模型。域鉴别器采用谱归一化层,epoch设为1200,学习率设为0.0001,内容鉴别器的学习率设为0.0004,每隔3个 epoch更新一次内容鉴别器。优化器采用Adam优化器,损失函数采用L1损失。最终得到训练好的神经网络模型。
4)将待处理的规范图像输入到已训练好的神经网络模型中,由提取到的内容编码和高斯噪声生成的风格编码信息输入到生成器中,输出形变图像。输出图像数量可以自定义设置。

Claims (4)

1.一种基于内容与样式解耦的高逼真形变物体的图像生成方法,包括下列步骤:1)采集图像作为生成网络的数据集:依据图像是否发生形变将数据集分为X类和Y类,X指形变图像,Y指规范图像;2)构建网络鉴别器、编码器和生成器,方法如下:鉴别器,包括内容鉴别器以及域鉴别器,其中内容鉴别器用于鉴别内容编码和风格编码是否分离;域鉴别器,用于约束重建图像信息以及鉴别形变类和规范类物体;编码器,包括内容编码器和风格编码器,内容编码器用于提取图像中的物体特征,风格编码器用于提取该物体的形变信息;生成器,包括生成器X和生成器Y,分别依据内容编码器和风格编码器所提取到的编码信息来输出生成图像;3)依据1)中收集到的数据集以及2)中构建的鉴别器、编码器以及生成器,训练网络,包含两次图像转换过程,图像转换过程如下:第一次图像转换过程如下:将形变图像和规范图像分别输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码;将高斯噪声输入到风格编码器中得到虚假高斯噪声风格编码,交叉互换两类图像的编码信息,输入到对应的生成器中,分别得到虚假的图像fake_X以及fake_Y,完成第一次转换;第二次图像转换过程如下:将fake_X和fake_Y再次输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码;又一次交叉各自编码信息,并输入到生成器中,分别得到X和Y的重建图像,通过域鉴别器来约束重建图像和原始输入图像的相似性;4)将待处理规范图像输入到已训练好的网络中,内容编码器提取该图像的内容特征后,和由高斯分布所生成的风格编码进行concat连接后输入到生成器中,最终生成形变图像。
2.根据权利要求1所述的方法,其特征在于,内容鉴别器由4个LeakyReLUConv2d以及1个Conv2d层组成;域鉴别器包括LeakyReLU层以及谱归一化层。
3.根据权利要求1所述的方法,其特征在于,内容编码器由LeakReLUConv2d块、ReLUINSConv2d以及INSResBlock组成,其中LeakReLUConv2d包括ReflectionPad2d层、谱归一化层以及LeakyReLU层;所述的风格编码器网络架构包含4个ReflectionPad2d层、Conv2d层、ReLU层,以及AdaptiveAvgPool2d层以及Conv2d层,共14层。
4.根据权利要求1所述的方法,其特征在于,两个生成器模型架构一致,均包含4个MisINSResBlock块、3个ReLUINSConvTranspose2d块、以及Tanh层。
CN201910982440.4A 2019-10-16 2019-10-16 基于内容与样式解耦的形变物品图像生成方法 Active CN110852937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910982440.4A CN110852937B (zh) 2019-10-16 2019-10-16 基于内容与样式解耦的形变物品图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910982440.4A CN110852937B (zh) 2019-10-16 2019-10-16 基于内容与样式解耦的形变物品图像生成方法

Publications (2)

Publication Number Publication Date
CN110852937A CN110852937A (zh) 2020-02-28
CN110852937B true CN110852937B (zh) 2023-06-02

Family

ID=69596388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910982440.4A Active CN110852937B (zh) 2019-10-16 2019-10-16 基于内容与样式解耦的形变物品图像生成方法

Country Status (1)

Country Link
CN (1) CN110852937B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348819A (zh) * 2020-10-30 2021-02-09 上海商汤智能科技有限公司 模型训练方法、图像处理及配准方法以及相关装置、设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671018A (zh) * 2018-12-12 2019-04-23 华东交通大学 一种基于生成式对抗网络和ResNets技术的图像转换方法及***
CN110263865A (zh) * 2019-06-24 2019-09-20 北方民族大学 一种半监督多模态多类别的图像翻译方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671018A (zh) * 2018-12-12 2019-04-23 华东交通大学 一种基于生成式对抗网络和ResNets技术的图像转换方法及***
CN110263865A (zh) * 2019-06-24 2019-09-20 北方民族大学 一种半监督多模态多类别的图像翻译方法

Also Published As

Publication number Publication date
CN110852937A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
Gao et al. Deep leaf‐bootstrapping generative adversarial network for structural image data augmentation
CN110555368B (zh) 基于三维卷积神经网络的跌倒行为识别方法
Liu et al. Learning discriminative representations from RGB-D video data
CN103793718B (zh) 一种基于深度学习的人脸表情识别方法
CN108416266B (zh) 一种利用光流提取运动目标的视频行为快速识别方法
Yu et al. Mixed pooling for convolutional neural networks
CN109902583B (zh) 一种基于双向独立循环神经网络的骨架手势识别方法
CN110059768A (zh) 用于街景理解的融合点与区域特征的语义分割方法及***
CN111538761A (zh) 基于注意力机制的点击率预测方法
CN110059769B (zh) 用于街景理解的基于像素重排重建的语义分割方法及***
CN108108751A (zh) 一种基于卷积多特征和深度随机森林的场景识别方法
CN113989890A (zh) 基于多通道融合和轻量级神经网络的人脸表情识别方法
CN110782427B (zh) 基于可分离空洞卷积的磁共振脑肿瘤自动分割方法
CN110175551A (zh) 一种手语识别方法
CN105550712B (zh) 基于优化卷积自动编码网络的极光图像分类方法
CN112949560B (zh) 双通道特征融合下长视频表情区间连续表情变化识别方法
CN109062811B (zh) 一种基于神经风格迁移的测试用例生成方法
CN109785409A (zh) 一种基于注意力机制的图像-文本数据融合方法和***
CN109522953A (zh) 基于网络嵌入算法和cnn对图结构数据进行分类的方法
CN109543744A (zh) 一种基于龙芯派的多类别深度学习图像识别方法及其应用
CN110852937B (zh) 基于内容与样式解耦的形变物品图像生成方法
Hu et al. Deep learning for distinguishing computer generated images and natural images: A survey
CN116910294A (zh) 一种基于情感分析的图像滤镜生成方法
CN116740362A (zh) 一种基于注意力的轻量化非对称场景语义分割方法及***
CN109583406B (zh) 基于特征关注机制的人脸表情识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant