CN110852937B - 基于内容与样式解耦的形变物品图像生成方法 - Google Patents
基于内容与样式解耦的形变物品图像生成方法 Download PDFInfo
- Publication number
- CN110852937B CN110852937B CN201910982440.4A CN201910982440A CN110852937B CN 110852937 B CN110852937 B CN 110852937B CN 201910982440 A CN201910982440 A CN 201910982440A CN 110852937 B CN110852937 B CN 110852937B
- Authority
- CN
- China
- Prior art keywords
- image
- content
- encoder
- style
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000006243 chemical reaction Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 6
- 238000010606 normalization Methods 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 208000033830 Hot Flashes Diseases 0.000 description 1
- 206010060800 Hot flush Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种基于内容与样式解耦的高逼真形变物体的图像生成方法,包括下列步骤:采集图像作为生成网络的数据集:依据图像是否发生形变将数据集分为X类和Y类,X指形变图像,Y指规范图像;构建网络鉴别器、编码器和生成器;训练网络,包含两次图像转换过程;将待处理规范图像输入到已训练好的网络中,内容编码器提取该图像的内容特征后,和由高斯分布所生成的风格编码进行concat连接后输入到生成器中,最终生成形变图像。
Description
技术领域
本发明涉及物品图像的自动生成方法,涉及一种基于内容与样式解耦的高逼真形变物体的图像生成方法。
背景技术
近些年兴起的深度学***,大规模数据集的存在是深度学习技术在物体检测识别等领域取得巨大成功的原因之一。
目前国际上比较流行的用于深度学习视觉检测和识别研究的图像数据集有:MNIST、Caltech256、Tiny Images、PASCAL VOC、SUN、ImageNet、MS COCO、Places、OpenImages。这些数据集的图片数量从几千张到数百万张不等且都是针对特定的视觉检测和识别任务而构建,例如特定的手写字符数据集,典型城市场景图片集(包含建筑物、车辆、行人等)。但目前没有一个专门的日常生活物品数据集,这类数据集的应用需求非常大,例如无人超市购买物品自动结算***、生活垃圾自动识别,物品自动配送等。但构建这类数据集难度非常大,原因在于:1)日常的生活物品种类多,至少有几千种;2)生活物品在使用过程中会出现各种无规律的扭曲形变。获得未使用过的规则的物品图像相对容易,但获取扭曲形变的物品图像非常困难。为此,本发明将采用计算机图像自动生成的方法生成高逼真的形变物品图像。
现有的计算机自动图像生成方法可分为两大类:有监督学习方法和无监督学习方法。PLDT(Pixel-level Domain Transfer)是一种经典的有监督学习方法,该方法通过鉴别器来判断不同域的一对图像是否相互关联。无监督的Cycle GAN方法主要考虑了循环重构损失。无监督的UNIT(Unsupervised Image-to-Image Translation)算法提出利用VAE(Variational Autoencode)和权重分享实现图像到图像的转换。这些方法主要在图像风格转换应用中表现较好,但风格转换生成的图像少,最多只有几张。而形变图像通常需要生成几十张到几百张不等,因此现有的图像生成方法都不能用于构建大规模虚拟生活物品数据集。
发明内容
为了构建大规模虚拟生活物品数据集,生成大量高逼真的形变物品图像,本发明提出一种基于内容与样式解耦的图像生成方法。该解耦方法可以将形变物体的形变风格特征和物体本身分离开来,通过不断改变风格参数,可生成大量同一类物品不同样式的形变图像,技术方案如下:
一种基于内容与样式解耦的高逼真形变物体的图像生成方法,包括下列步骤:
1)采集图像作为生成网络的数据集:依据图像是否发生形变将数据集分为X类和Y类,X指形变图像,Y指规范图像;
2)构建网络鉴别器、编码器和生成器。方法如下:
鉴别器,包括内容鉴别器以及域鉴别器,其中内容鉴别器用于鉴别内容编码和风格编码是否分离;域鉴别器,用于约束重建图像信息以及鉴别形变类和规范类物体;
编码器,包括内容编码器和风格编码器,内容编码器用于提取图像中的物体特征,风格编码器用于提取该物体的形变信息;
生成器,包括生成器X和生成器Y,分别依据内容编码器和风格编码器所提取到的编码信息来输出生成图像;
3)依据1)中收集到的数据集以及2)中构建的鉴别器、编码器以及生成器,训练网络,包含两次图像转换过程,图像转换过程如下:
第一次图像转换过程如下:将形变图像和规范图像分别输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码;将高斯噪声输入到风格编码器中得到虚假高斯噪声风格编码,交叉互换两类图像的编码信息,输入到对应的生成器中,分别得到虚假的图像fake_X以及fake_Y,完成第一次转换;
第二次图像转换过程如下:将fake_X和fake_Y再次输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码;又一次交叉各自编码信息,并输入到生成器中,分别得到X和Y的重建图像,通过域鉴别器来约束重建图像和原始输入图像的相似性;
4)将待处理规范图像输入到已训练好的网络中,内容编码器提取该图像的内容特征后,和由高斯分布所生成的风格编码进行concat连接后输入到生成器中,最终生成形变图像。
优选地,内容鉴别器由4个LeakyReLUConv2d以及1个Conv2d层组成;域鉴别器包括LeakyReLU 层以及谱归一化层。
内容编码器由LeakReLUConv2d块、ReLUINSConv2d以及INSResBlock组成,其中LeakReLUConv2d 包括ReflectionPad2d层、谱归一化层以及LeakyReLU层;所述的风格编码器网络架构包含4个 ReflectionPad2d层、Conv2d层、ReLU层,以及AdaptiveAvgPool2d层以及Conv2d层,共14层。
两个生成器模型架构一致,均包含4个MisINSResBlock块、3个ReLUINSConvTranspose2d块、以及 Tanh层。
现有的图像生成方法主要用于图像风格转换,生成的图像数量很少。本发明方法将形变物体的样式特征和物体本身内容进行解耦处理,这样一方面可以通过变化样式特征参数,很容易生成大量形变的图像,另一方面这种解耦处理能保证生成的图像非常逼真。
利用本发明可构建大规模虚拟形变物品图像数据集,这类数据集将为计算机视觉研究的基本问题(如图像分类、目标检测)提供一类全新的且非常具有挑战性的测试数据集,这将有助于提高计算机视觉在特殊物体分类、识别等方面的准确性,并将有力地推动相关计算机视觉技术的升级与发展。
附图说明
图1为本发明算法的流程图
具体实施方式
为使本发明的技术方案更加清楚,下面结合附图对本专利的基于内容与样式解耦的高逼真形变物品图像生成方法的具体实施方案做出详细说明,具体的流程图由图1给出:
1)采集形变物体图像作为生成网络的数据集,所采用的数据集是采集的3000张日常生活中所遇到的物品图像,每张图像仅含有单个物体。依据图像是否发生形变将数据集分为X类和Y类(X指形变图像,Y指规范图像),将图像数据集按照9:1的比例分为训练集和测试集,即分别为trainX、trainY、testX 和testY;
2)构建网络鉴别器、编码器和生成器,方法如下:
鉴别器包括内容鉴别器以及域鉴别器,其中内容鉴别器由4个LeakyReLUConv2d以及1个Conv2d 层组成,用于鉴别内容编码和风格编码是否分离;域鉴别器包括LeakyReLU层以及谱归一化层,用于约束重建图像信息以及鉴别形变类和规范类物体;
编码器包括内容编码器和风格编码器,内容编码器用于提取图像中的物体特征,风格编码器用于提取该物体的形变信息,如撕裂、扭曲、破损等。其中内容编码器由LeakReLUConv2d块、ReLUINSConv2d 以及INSResBlock组成,其中LeakReLUConv2d包括ReflectionPad2d层、谱归一化层以及LeakyReLU层;所述的风格编码器网络架构包含4个ReflectionPad2d层、Conv2d层、ReLU层,以及AdaptiveAvgPool2d 层以及Conv2d层,共14层;
生成器包括生成器X和生成器Y,依据内容编码器和风格编码器所提取到的编码信息来输出生成图像。两个生成器模型架构一致,包含4个MisINSResBlock块、3个ReLUINSConvTranspose2d块、以及 Tanh层;
3)依据1)中收集到的数据集以及2)中构建的鉴别器、编码器以及生成器,网络包含两次图像转换过程,具体图像转换过程如下:
第一次图像转换过程如下:将形变图像和规范图像分别输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码。同时将高斯噪声输入到风格编码器中得到虚假高斯噪声风格编码,交叉互换两类图像的编码信息,输入到对应的生成器中,得到虚假的图像fake_X以及fake_Y,完成第一次转换;
第二次图像转换过程如下:将fake_X和fake_Y再次输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码。又一次交叉各自编码信息,并输入到生成器中,得到X和Y的重建图像,通过域鉴别器来约束重建图像和原始输入图像的相似性;
训练网络,具体网络参数设置如下:
预处理图像数据集,将图像裁剪为960*960尺寸并随机裁剪后输入到生成网络中,训练网络参数设置如下:batch_size设为2,每隔5个epoch保存一次生成图像,每隔10个epoch保存一次网络模型。域鉴别器采用谱归一化层,epoch设为1200,学习率设为0.0001,内容鉴别器的学习率设为0.0004,每隔3个 epoch更新一次内容鉴别器。优化器采用Adam优化器,损失函数采用L1损失。最终得到训练好的神经网络模型。
4)将待处理的规范图像输入到已训练好的神经网络模型中,由提取到的内容编码和高斯噪声生成的风格编码信息输入到生成器中,输出形变图像。输出图像数量可以自定义设置。
Claims (4)
1.一种基于内容与样式解耦的高逼真形变物体的图像生成方法,包括下列步骤:1)采集图像作为生成网络的数据集:依据图像是否发生形变将数据集分为X类和Y类,X指形变图像,Y指规范图像;2)构建网络鉴别器、编码器和生成器,方法如下:鉴别器,包括内容鉴别器以及域鉴别器,其中内容鉴别器用于鉴别内容编码和风格编码是否分离;域鉴别器,用于约束重建图像信息以及鉴别形变类和规范类物体;编码器,包括内容编码器和风格编码器,内容编码器用于提取图像中的物体特征,风格编码器用于提取该物体的形变信息;生成器,包括生成器X和生成器Y,分别依据内容编码器和风格编码器所提取到的编码信息来输出生成图像;3)依据1)中收集到的数据集以及2)中构建的鉴别器、编码器以及生成器,训练网络,包含两次图像转换过程,图像转换过程如下:第一次图像转换过程如下:将形变图像和规范图像分别输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码;将高斯噪声输入到风格编码器中得到虚假高斯噪声风格编码,交叉互换两类图像的编码信息,输入到对应的生成器中,分别得到虚假的图像fake_X以及fake_Y,完成第一次转换;第二次图像转换过程如下:将fake_X和fake_Y再次输入到内容编码器和风格编码器中,得到各自的内容编码和风格编码;又一次交叉各自编码信息,并输入到生成器中,分别得到X和Y的重建图像,通过域鉴别器来约束重建图像和原始输入图像的相似性;4)将待处理规范图像输入到已训练好的网络中,内容编码器提取该图像的内容特征后,和由高斯分布所生成的风格编码进行concat连接后输入到生成器中,最终生成形变图像。
2.根据权利要求1所述的方法,其特征在于,内容鉴别器由4个LeakyReLUConv2d以及1个Conv2d层组成;域鉴别器包括LeakyReLU层以及谱归一化层。
3.根据权利要求1所述的方法,其特征在于,内容编码器由LeakReLUConv2d块、ReLUINSConv2d以及INSResBlock组成,其中LeakReLUConv2d包括ReflectionPad2d层、谱归一化层以及LeakyReLU层;所述的风格编码器网络架构包含4个ReflectionPad2d层、Conv2d层、ReLU层,以及AdaptiveAvgPool2d层以及Conv2d层,共14层。
4.根据权利要求1所述的方法,其特征在于,两个生成器模型架构一致,均包含4个MisINSResBlock块、3个ReLUINSConvTranspose2d块、以及Tanh层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910982440.4A CN110852937B (zh) | 2019-10-16 | 2019-10-16 | 基于内容与样式解耦的形变物品图像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910982440.4A CN110852937B (zh) | 2019-10-16 | 2019-10-16 | 基于内容与样式解耦的形变物品图像生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110852937A CN110852937A (zh) | 2020-02-28 |
CN110852937B true CN110852937B (zh) | 2023-06-02 |
Family
ID=69596388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910982440.4A Active CN110852937B (zh) | 2019-10-16 | 2019-10-16 | 基于内容与样式解耦的形变物品图像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852937B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348819A (zh) * | 2020-10-30 | 2021-02-09 | 上海商汤智能科技有限公司 | 模型训练方法、图像处理及配准方法以及相关装置、设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109671018A (zh) * | 2018-12-12 | 2019-04-23 | 华东交通大学 | 一种基于生成式对抗网络和ResNets技术的图像转换方法及*** |
CN110263865A (zh) * | 2019-06-24 | 2019-09-20 | 北方民族大学 | 一种半监督多模态多类别的图像翻译方法 |
-
2019
- 2019-10-16 CN CN201910982440.4A patent/CN110852937B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109671018A (zh) * | 2018-12-12 | 2019-04-23 | 华东交通大学 | 一种基于生成式对抗网络和ResNets技术的图像转换方法及*** |
CN110263865A (zh) * | 2019-06-24 | 2019-09-20 | 北方民族大学 | 一种半监督多模态多类别的图像翻译方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110852937A (zh) | 2020-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | Deep leaf‐bootstrapping generative adversarial network for structural image data augmentation | |
CN110555368B (zh) | 基于三维卷积神经网络的跌倒行为识别方法 | |
Liu et al. | Learning discriminative representations from RGB-D video data | |
CN103793718B (zh) | 一种基于深度学习的人脸表情识别方法 | |
CN108416266B (zh) | 一种利用光流提取运动目标的视频行为快速识别方法 | |
Yu et al. | Mixed pooling for convolutional neural networks | |
CN109902583B (zh) | 一种基于双向独立循环神经网络的骨架手势识别方法 | |
CN110059768A (zh) | 用于街景理解的融合点与区域特征的语义分割方法及*** | |
CN111538761A (zh) | 基于注意力机制的点击率预测方法 | |
CN110059769B (zh) | 用于街景理解的基于像素重排重建的语义分割方法及*** | |
CN108108751A (zh) | 一种基于卷积多特征和深度随机森林的场景识别方法 | |
CN113989890A (zh) | 基于多通道融合和轻量级神经网络的人脸表情识别方法 | |
CN110782427B (zh) | 基于可分离空洞卷积的磁共振脑肿瘤自动分割方法 | |
CN110175551A (zh) | 一种手语识别方法 | |
CN105550712B (zh) | 基于优化卷积自动编码网络的极光图像分类方法 | |
CN112949560B (zh) | 双通道特征融合下长视频表情区间连续表情变化识别方法 | |
CN109062811B (zh) | 一种基于神经风格迁移的测试用例生成方法 | |
CN109785409A (zh) | 一种基于注意力机制的图像-文本数据融合方法和*** | |
CN109522953A (zh) | 基于网络嵌入算法和cnn对图结构数据进行分类的方法 | |
CN109543744A (zh) | 一种基于龙芯派的多类别深度学习图像识别方法及其应用 | |
CN110852937B (zh) | 基于内容与样式解耦的形变物品图像生成方法 | |
Hu et al. | Deep learning for distinguishing computer generated images and natural images: A survey | |
CN116910294A (zh) | 一种基于情感分析的图像滤镜生成方法 | |
CN116740362A (zh) | 一种基于注意力的轻量化非对称场景语义分割方法及*** | |
CN109583406B (zh) | 基于特征关注机制的人脸表情识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |