CN110852937A - 基于内容与样式解耦的形变物品图像生成方法 - Google Patents

基于内容与样式解耦的形变物品图像生成方法 Download PDF

Info

Publication number
CN110852937A
CN110852937A CN201910982440.4A CN201910982440A CN110852937A CN 110852937 A CN110852937 A CN 110852937A CN 201910982440 A CN201910982440 A CN 201910982440A CN 110852937 A CN110852937 A CN 110852937A
Authority
CN
China
Prior art keywords
image
content
encoder
style
discriminator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910982440.4A
Other languages
English (en)
Other versions
CN110852937B (zh
Inventor
曾明
许文康
吴雨璇
李祺
王湘晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910982440.4A priority Critical patent/CN110852937B/zh
Publication of CN110852937A publication Critical patent/CN110852937A/zh
Application granted granted Critical
Publication of CN110852937B publication Critical patent/CN110852937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于内容与样式解耦的高逼真形变物体的图像生成方法,包括下列步骤:采集图像作为生成网络的数据集:依据图像是否发生形变将数据集分为X类和Y类,X指形变图像,Y指规范图像;构建网络鉴别器、编码器和生成器;训练网络,包含两次图像转换过程;将待处理规范图像输入到已训练好的网络中,内容编码器提取该图像的内容特征后,和由高斯分布所生成的风格编码进行concat连接后输入到生成器中,最终生成形变图像。

Description

基于内容与样式解耦的形变物品图像生成方法
技术领域
本发明涉及物品图像的自动生成方法,涉及一种基于内容与样式解耦的高逼真形变物体的图像生成方法。
背景技术
近些年兴起的深度学***,大规模数据集的存在是深度学习技术在物体检测识别等领域取得巨大成功的原因之一。
目前国际上比较流行的用于深度学习视觉检测和识别研究的图像数据集有:MNIST、Caltech256、Tiny Images、PASCAL VOC、SUN、ImageNet、MS COCO、Places、OpenImages。这些数据集的图片数量从几千张到数百万张不等且都是针对特定的视觉检测和识别任务而构建,例如特定的手写字符数据集,典型城市场景图片集(包含建筑物、车辆、行人等)。但目前没有一个专门的日常生活物品数据集,这类数据集的应用需求非常大,例如无人超市购买物品自动结算***、生活垃圾自动识别,物品自动配送等。但构建这类数据集难度非常大,原因在于:1)日常的生活物品种类多,至少有几千种;2)生活物品在使用过程中会出现各种无规律的扭曲形变。获得未使用过的规则的物品图像相对容易,但获取扭曲形变的物品图像非常困难。为此,本发明将采用计算机图像自动生成的方法生成高逼真的形变物品图像。
现有的计算机自动图像生成方法可分为两大类:有监督学习方法和无监督学习方法。PLDT(Pixel-level Domain Transfer)是一种经典的有监督学习方法,该方法通过鉴别器来判断不同域的一对图像是否相互关联。无监督的Cycle GAN方法主要考虑了循环重构损失。无监督的UNIT(Unsupervised Image-to-Image Translation)算法提出利用VAE(Variational Autoencode)和权重分享实现图像到图像的转换。这些方法主要在图像风格转换应用中表现较好,但风格转换生成的图像少,最多只有几张。而形变图像通常需要生成几十张到几百张不等,因此现有的图像生成方法都不能用于构建大规模虚拟生活物品数据集。
发明内容
为了构建大规模虚拟生活物品数据集,生成大量高逼真的形变物品图像,本发明提出一种基于内容与样式解耦的图像生成方法。该解耦方法可以将形变物体的形变风格特征和物体本身分离开来,通过不断改变风格参数,可生成大量同一类物品不同样式的形变图像,技术方案如下:
一种基于内容与样式解耦的高逼真形变物体的图像生成方法,包括下列步骤:
1)采集图像作为生成网络的数据集:依据图像是否发生形变将数据集分为X类和Y类,X指形变图像,Y指规范图像;
2)构建网络鉴别器、编码器和生成器。方法如下:
鉴别器,包括内容鉴别器以及域鉴别器,其中内容鉴别器用于鉴别内容编码和风格编码是否分离;域鉴别器,用于约束重建图像信息以及鉴别形变类和规范类物体;
编码器,包括内容编码器和风格编码器,内容编码器用于提取图像中的物体特征,风格编码器用于提取该物体的形变信息;
生成器,包括生成器X和生成器Y,分别依据内容编码器和风格编码器所提取到的编码信息来输出生成图像;
3)依据1)中收集到的数据集以及2)中构建的鉴别器、编码器以及生成器,训练网络,包含两次图像转换过程,图像转换过程如下:
第一次图像转换过程如下:将形变图像和规范图像分别输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码;将高斯噪声输入到风格编码器中得到虚假高斯噪声风格编码,交叉互换两类图像的编码信息,输入到对应的生成器中,分别得到虚假的图像fake_X以及fake_Y,完成第一次转换;
第二次图像转换过程如下:将fake_X和fake_Y再次输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码;又一次交叉各自编码信息,并输入到生成器中,分别得到X和Y的重建图像,通过域鉴别器来约束重建图像和原始输入图像的相似性;
4)将待处理规范图像输入到已训练好的网络中,内容编码器提取该图像的内容特征后,和由高斯分布所生成的风格编码进行concat连接后输入到生成器中,最终生成形变图像。
优选地,内容鉴别器由4个LeakyReLUConv2d以及1个Conv2d层组成;域鉴别器包括LeakyReLU 层以及谱归一化层。
内容编码器由LeakReLUConv2d块、ReLUINSConv2d以及INSResBlock组成,其中LeakReLUConv2d 包括ReflectionPad2d层、谱归一化层以及LeakyReLU层;所述的风格编码器网络架构包含4个 ReflectionPad2d层、Conv2d层、ReLU层,以及AdaptiveAvgPool2d层以及Conv2d层,共14层。
两个生成器模型架构一致,均包含4个MisINSResBlock块、3个ReLUINSConvTranspose2d块、以及 Tanh层。
现有的图像生成方法主要用于图像风格转换,生成的图像数量很少。本发明方法将形变物体的样式特征和物体本身内容进行解耦处理,这样一方面可以通过变化样式特征参数,很容易生成大量形变的图像,另一方面这种解耦处理能保证生成的图像非常逼真。
利用本发明可构建大规模虚拟形变物品图像数据集,这类数据集将为计算机视觉研究的基本问题(如图像分类、目标检测)提供一类全新的且非常具有挑战性的测试数据集,这将有助于提高计算机视觉在特殊物体分类、识别等方面的准确性,并将有力地推动相关计算机视觉技术的升级与发展。
附图说明
图1为本发明算法的流程图
具体实施方式
为使本发明的技术方案更加清楚,下面结合附图对本专利的基于内容与样式解耦的高逼真形变物品图像生成方法的具体实施方案做出详细说明,具体的流程图由图1给出:
1)采集形变物体图像作为生成网络的数据集,所采用的数据集是采集的3000张日常生活中所遇到的物品图像,每张图像仅含有单个物体。依据图像是否发生形变将数据集分为X类和Y类(X指形变图像,Y指规范图像),将图像数据集按照9:1的比例分为训练集和测试集,即分别为trainX、trainY、testX 和testY;
2)构建网络鉴别器、编码器和生成器,方法如下:
鉴别器包括内容鉴别器以及域鉴别器,其中内容鉴别器由4个LeakyReLUConv2d以及1个Conv2d 层组成,用于鉴别内容编码和风格编码是否分离;域鉴别器包括LeakyReLU层以及谱归一化层,用于约束重建图像信息以及鉴别形变类和规范类物体;
编码器包括内容编码器和风格编码器,内容编码器用于提取图像中的物体特征,风格编码器用于提取该物体的形变信息,如撕裂、扭曲、破损等。其中内容编码器由LeakReLUConv2d块、ReLUINSConv2d 以及INSResBlock组成,其中LeakReLUConv2d包括ReflectionPad2d层、谱归一化层以及LeakyReLU层;所述的风格编码器网络架构包含4个ReflectionPad2d层、Conv2d层、ReLU层,以及AdaptiveAvgPool2d 层以及Conv2d层,共14层;
生成器包括生成器X和生成器Y,依据内容编码器和风格编码器所提取到的编码信息来输出生成图像。两个生成器模型架构一致,包含4个MisINSResBlock块、3个ReLUINSConvTranspose2d块、以及 Tanh层;
3)依据1)中收集到的数据集以及2)中构建的鉴别器、编码器以及生成器,网络包含两次图像转换过程,具体图像转换过程如下:
第一次图像转换过程如下:将形变图像和规范图像分别输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码。同时将高斯噪声输入到风格编码器中得到虚假高斯噪声风格编码,交叉互换两类图像的编码信息,输入到对应的生成器中,得到虚假的图像fake_X以及fake_Y,完成第一次转换;
第二次图像转换过程如下:将fake_X和fake_Y再次输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码。又一次交叉各自编码信息,并输入到生成器中,得到X和Y的重建图像,通过域鉴别器来约束重建图像和原始输入图像的相似性;
训练网络,具体网络参数设置如下:
预处理图像数据集,将图像裁剪为960*960尺寸并随机裁剪后输入到生成网络中,训练网络参数设置如下:batch_size设为2,每隔5个epoch保存一次生成图像,每隔10个epoch保存一次网络模型。域鉴别器采用谱归一化层,epoch设为1200,学习率设为0.0001,内容鉴别器的学习率设为0.0004,每隔3个 epoch更新一次内容鉴别器。优化器采用Adam优化器,损失函数采用L1损失。最终得到训练好的神经网络模型。
4)将待处理的规范图像输入到已训练好的神经网络模型中,由提取到的内容编码和高斯噪声生成的风格编码信息输入到生成器中,输出形变图像。输出图像数量可以自定义设置。

Claims (4)

1.一种基于内容与样式解耦的高逼真形变物体的图像生成方法,包括下列步骤:
1)采集图像作为生成网络的数据集:依据图像是否发生形变将数据集分为X类和Y类,X指形变图像,Y指规范图像;
2)构建网络鉴别器、编码器和生成器。方法如下:
鉴别器,包括内容鉴别器以及域鉴别器,其中内容鉴别器用于鉴别内容编码和风格编码是否分离;域鉴别器,用于约束重建图像信息以及鉴别形变类和规范类物体;
编码器,包括内容编码器和风格编码器,内容编码器用于提取图像中的物体特征,风格编码器用于提取该物体的形变信息;
生成器,包括生成器X和生成器Y,分别依据内容编码器和风格编码器所提取到的编码信息来输出生成图像;
3)依据1)中收集到的数据集以及2)中构建的鉴别器、编码器以及生成器,训练网络,包含两次图像转换过程,图像转换过程如下:
第一次图像转换过程如下:将形变图像和规范图像分别输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码;将高斯噪声输入到风格编码器中得到虚假高斯噪声风格编码,交叉互换两类图像的编码信息,输入到对应的生成器中,分别得到虚假的图像fake_X以及fake_Y,完成第一次转换;
第二次图像转换过程如下:将fake_X和fake_Y再次输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码;又一次交叉各自编码信息,并输入到生成器中,分别得到X和Y的重建图像,通过域鉴别器来约束重建图像和原始输入图像的相似性;
4)将待处理规范图像输入到已训练好的网络中,内容编码器提取该图像的内容特征后,和由高斯分布所生成的风格编码进行concat连接后输入到生成器中,最终生成形变图像。
2.根据权利要求1所述的方法,其特征在于,内容鉴别器由4个LeakyReLUConv2d以及1个Conv2d层组成;域鉴别器包括LeakyReLU层以及谱归一化层。
3.根据权利要求1所述的方法,其特征在于,内容编码器由LeakReLUConv2d块、ReLUINSConv2d以及INSResBlock组成,其中LeakReLUConv2d包括ReflectionPad2d层、谱归一化层以及LeakyReLU层;所述的风格编码器网络架构包含4个ReflectionPad2d层、Conv2d层、ReLU层,以及AdaptiveAvgPool2d层以及Conv2d层,共14层。
4.根据权利要求1所述的方法,其特征在于,两个生成器模型架构一致,均包含4个MisINSResBlock块、3个ReLUINSConvTranspose2d块、以及Tanh层。
CN201910982440.4A 2019-10-16 2019-10-16 基于内容与样式解耦的形变物品图像生成方法 Active CN110852937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910982440.4A CN110852937B (zh) 2019-10-16 2019-10-16 基于内容与样式解耦的形变物品图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910982440.4A CN110852937B (zh) 2019-10-16 2019-10-16 基于内容与样式解耦的形变物品图像生成方法

Publications (2)

Publication Number Publication Date
CN110852937A true CN110852937A (zh) 2020-02-28
CN110852937B CN110852937B (zh) 2023-06-02

Family

ID=69596388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910982440.4A Active CN110852937B (zh) 2019-10-16 2019-10-16 基于内容与样式解耦的形变物品图像生成方法

Country Status (1)

Country Link
CN (1) CN110852937B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022088572A1 (zh) * 2020-10-30 2022-05-05 上海商汤智能科技有限公司 模型训练方法、图像处理及配准方法、装置、设备、介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671018A (zh) * 2018-12-12 2019-04-23 华东交通大学 一种基于生成式对抗网络和ResNets技术的图像转换方法及***
CN110263865A (zh) * 2019-06-24 2019-09-20 北方民族大学 一种半监督多模态多类别的图像翻译方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671018A (zh) * 2018-12-12 2019-04-23 华东交通大学 一种基于生成式对抗网络和ResNets技术的图像转换方法及***
CN110263865A (zh) * 2019-06-24 2019-09-20 北方民族大学 一种半监督多模态多类别的图像翻译方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022088572A1 (zh) * 2020-10-30 2022-05-05 上海商汤智能科技有限公司 模型训练方法、图像处理及配准方法、装置、设备、介质

Also Published As

Publication number Publication date
CN110852937B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
Pei et al. Does haze removal help cnn-based image classification?
Nguyen et al. Innovation engines: Automated creativity and improved stochastic optimization via deep learning
CN114882421B (zh) 一种基于时空特征增强图卷积网络的骨架行为识别方法
CN109902583B (zh) 一种基于双向独立循环神经网络的骨架手势识别方法
CN110321910A (zh) 面向点云的特征提取方法、装置及设备
CN109218134B (zh) 一种基于神经风格迁移的测试用例生成***
CN110059768A (zh) 用于街景理解的融合点与区域特征的语义分割方法及***
CN110175248B (zh) 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN109063164A (zh) 一种基于深度学习的智能问答方法
CN107292249A (zh) 一种基于结构化分段网络的时间动作检测方法
CN109062811B (zh) 一种基于神经风格迁移的测试用例生成方法
CN112037228A (zh) 一种基于双倍注意力的激光雷达点云目标分割方法
CN109543744B (zh) 一种基于龙芯派的多类别深度学习图像识别方法及其应用
CN111291695B (zh) 人员违章行为识别模型训练方法、识别方法及计算机设备
CN114821204A (zh) 一种基于元学习嵌入半监督学习图像分类方法与***
CN114463837A (zh) 基于自适应时空卷积网络的人体行为识别方法及***
CN116309536A (zh) 一种路面裂缝检测方法及存储介质
CN110852937B (zh) 基于内容与样式解耦的形变物品图像生成方法
CN113822134A (zh) 一种基于视频的实例跟踪方法、装置、设备及存储介质
CN113312924A (zh) 一种基于nlp高精解析标签的风险规则分类方法及装置
CN113887330A (zh) 一种基于遥感图像的目标检测***
CN116910294A (zh) 一种基于情感分析的图像滤镜生成方法
CN113554655B (zh) 基于多特征增强的光学遥感图像分割方法及装置
CN113378722B (zh) 基于3d卷积和多级语义信息融合的行为识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant