CN113222114A - 一种图像数据增广方法及装置 - Google Patents
一种图像数据增广方法及装置 Download PDFInfo
- Publication number
- CN113222114A CN113222114A CN202110436901.5A CN202110436901A CN113222114A CN 113222114 A CN113222114 A CN 113222114A CN 202110436901 A CN202110436901 A CN 202110436901A CN 113222114 A CN113222114 A CN 113222114A
- Authority
- CN
- China
- Prior art keywords
- image
- label
- real
- virtual
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000013434 data augmentation Methods 0.000 title claims abstract description 66
- 238000013508 migration Methods 0.000 claims abstract description 42
- 230000005012 migration Effects 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 39
- 230000003190 augmentative effect Effects 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 26
- 238000005070 sampling Methods 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 16
- 238000009826 distribution Methods 0.000 claims description 12
- 230000003416 augmentation Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000003709 image segmentation Methods 0.000 abstract description 11
- 238000002372 labelling Methods 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 24
- 239000000463 material Substances 0.000 description 19
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 13
- 230000003321 amplification Effects 0.000 description 8
- 238000003199 nucleic acid amplification method Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 229910052742 iron Inorganic materials 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004088 simulation Methods 0.000 description 6
- 210000001787 dendrite Anatomy 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 229910000858 La alloy Inorganic materials 0.000 description 2
- ZWOQODLNWUDJFT-UHFFFAOYSA-N aluminum lanthanum Chemical compound [Al].[La] ZWOQODLNWUDJFT-UHFFFAOYSA-N 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000010791 quenching Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图像数据增广方法及装置,该方法包括:获取真实图像及其真实标注;构建标注生成网络和风格迁移网络;其中,标注生成网络用于根据真实标注生成虚拟标注;风格迁移网络用于将虚拟标注转换成虚拟图像;将标注生成网络与风格迁移网络合并成图像数据增广网络;并基于真实图像及其真实标注,采用基于生成器和判别器的损失函数训练图像数据增广网络;利用训练好的图像数据增广网络生成虚拟图像和虚拟标注,实现图像数据增广。本发明能够在增强真实图像及其标注数据多样性的同时,节省人工标注成本,显著提高后续图像分割模型训练所需的数据量,从而提高图像分割模型的精度。
Description
技术领域
本发明涉及人工智能和材料科学技术领域,特别涉及一种图像数据增广方法及装置。
背景技术
在材料科学领域中,材料的内部微观结构与材料的加工处理技术、组织演变、物理和力学性能等息息相关。因此,材料微观结构的科学定量表征是材料科学领域内的核心问题。由于材料的微观结构通常以非结构化图像数据的形式展现,所以通过图像处理方法准确智能地提取材料显微图像中的关键信息成为计算机科学与材料科学间多学科交叉研究的热点和重点发展方向。
依托于强有效的特征提取能力,深度学习成为目前计算机视觉领域的主流方法。但在材料科学领域,小样本的训练数据造成模型训练困难成为阻碍材料显微图像高精度分析的瓶颈问题。
当前基于监督学习的深度学习模型需要大量具有标注的数据训练模型,而由于材料样本制备过程复杂且标注过程繁琐耗时,通常难以获得大量显微图像数据满足深度学习模型的需要。即使是用于实验研究的微小纯铁金属样品(1×1×1mm),在微米尺度(分辨率为0.5×0.5×1.0μm)下也具有海量的数据(尺寸为2000×2000像素的1000张截面图像),需要大量的人力参与进行样品制备、采集和数据标注等工作。因此,亟需研发可靠的小样本学习策略降低深度学习模型对大量训练数据的依赖。
数据增广方法可利用计算机技术扩充训练模型的数据量。使用数据增广方法不仅可以增加训练集的多样性,减少过拟合并提高模型的泛化能力,而且不需要对模型进行修改,其泛用性较高。班晓娟针对上述问题,提出了一种基于风格迁移的数据增广方法[班晓娟,魏晓燕,马博渊,黄海友,王浩,薛维华.一种显微图像数据增强方法及装置:中国,ZL201910253002.6[P].2019-03-28],通过风格迁移融合模拟仿真模型中的晶粒结构信息和真实图像中的纹理信息创建合成图像,以此扩充用于训练图像分割模型的数据集。实验结果表明,提出的数据增广策略可为材料显微图像分割任务带来性能增益,该增益效果在小数据集上尤为明显,其增益效果超过了传统图像增广方法和基于预训练-微调的迁移学习方法。但该方法依赖模拟仿真模型生成模拟数据,具有两点限制因素:一是时间和计算成本,其复杂的模拟数据建模过程,显著增大生成模拟数据所需的时间,限制了方法的泛化能力。二是理论模型的准确性和可行性,模拟仿真方法依赖严重依赖先验知识构建模拟数据,其先验知识的准确性严重影响后续数据增广方法带来的增益效果。
因此,通过深度学习模型自动的学习图像中知识,同时生成成对的标注和图像,以此避免复杂的模拟数据建模过程,提高方法的泛化能力,是下一步研究的发展方向,也是突破目前该研究领域研究瓶颈的关键。
发明内容
本发明提供了一种图像数据增广方法及装置,以解决现有技术时间和计算成本高,泛化能力低,准确性和可行性不够理想的技术问题。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供了一种图像数据增广方法,包括:
获取真实图像及每一真实图像所对应的与其逐像素对应的真实标注;
构建标注生成网络和风格迁移网络;其中,所述标注生成网络用于根据真实标注,生成虚拟标注;所述风格迁移网络用于将虚拟标注转换成虚拟图像;
以所述标注生成网络的输出作为所述风格迁移网络的输入,将所述标注生成网络与所述风格迁移网络合并成图像数据增广网络,并基于真实图像及其真实标注,采用基于生成器和判别器的损失函数,训练所述图像数据增广网络;
利用训练好的图像数据增广网络,生成待增广的真实图像及其真实标注所对应的虚拟图像和虚拟标注,作为待增广的真实图像及其真实标注的数据增广。
进一步地,所述标注生成网络包括多尺度标注生成器和带有多尺度连接的标注判别器;其中,
所述标注生成器用于生成多尺度的虚拟标注;
所述标注判别器用于计算判别分数,判别真实标注和虚拟标注。
进一步地,所述标注生成器生成多尺度的虚拟标注的过程,包括:
从多维高斯分布中随机采样初始隐变量;使用转置卷积和3×3卷积对初始隐变量做上采样操作,将初始隐变量的特征尺寸扩大为4×4大小,再依次经过连续卷积和插值上采样层,逐渐扩大特征图尺度,并采用1×1卷积将生成过程中不同尺度的特征转化为单通道的虚拟标注,最终获得多尺度的虚拟标注。
进一步地,所述标注判别器计算判别分数,判别真实标注和虚拟标注的过程,包括:
将待判别的标注数据经过1×1卷积转化,得到多尺度多维特征;
将所述多尺度多维特征分别在不同尺度下与特征图经过平均池化下采样后的特征进行通道级联,再分别经过3x3卷积层进行特征融合,最后经过全连接层获得标注的1维高层特征;
将标注的1维高层特征经过判别函数获得判别分数,以判别当前待判别的标注数据为真实标注还是虚拟标注;其中,所述判别函数为SoftMax或SVM。
进一步地,所述风格迁移网络包括多尺度图像生成器和带有多尺度连接的图像判别器;其中,
所述图像生成器用于生成与虚拟标注具有相同底层语义结构的虚拟图像;
所述图像判别器用于计算判别分数,判别真实图像和虚拟图像。
进一步地,所述图像生成器生成与虚拟标注具有相同底层语义结构的虚拟图像的过程,包括:
从多维高斯分布中随机采样初始隐变量,使用转置卷积和3×3卷积对初始隐变量做上采样操作,将初始隐变量的特征尺寸扩大为4×4大小;并使用自适应正则化模块将不同尺度的虚拟标注作为输入,送入所述图像生成器中,进行特征归一化;再依次经过连续卷积和插值上采样层,使得特征分辨率依次扩大,最终输出与虚拟标注具有相同底层语义结构的虚拟图像。
进一步地,所述图像判别器计算判别分数,判别真实图像和虚拟图像的过程,包括:
将最大尺度待判别图像及其标注数据进行通道级联,并经过多次3x3卷积层和下采样层进行特征提取,最后经过全连接层获得图像的1维高层特征;
将图像的1维高层特征经过判别函数获得判别分数,以判别当前待判别图像为真实图像还是虚拟图像;其中,所述判别函数为SoftMax或SVM。
进一步地,所述基于生成器和判别器的损失函数的表达式为:
其中,L表示损失函数,LGANL和LGANI分别表示所述标注生成网络和所述风格迁移网络的梯度损失;λ1和λ2为两个不小于零的超参数;
LGANL包括标注生成器损失LGL和标注判别器损失LDL;
其中,xr为真实标注,xf为经过所述标注生成器生成的虚拟标注,E(·)表示求解期望值,表示经过调整后,当输入为虚拟标注xf时,标注判别器认为来自真实标注的概率,表示经过调整后,当输入为真实标注xr时,标注判别器认为来自真实标注的概率,D(xf)表示当输入为虚拟标注xf时,标注判别器认为来自真实标注的概率,D(xr)表示当输入为真实标注xr时,标注判别器认为来自真实标注的概率;
LGANI包括图像生成器损失LGI和图像判别器损失LDI;
LDI=E(max(0,1-D(xr′)))+E(max(0,1+D(xf′)))
LGI=-E(D(xf′))
其中,xr′表示真实图像,xf′表示经过所述图像生成器生成的虚拟图像,D(xr′)表示当输入为真实图像xr′时,所述图像判别器认为来自真实图像的概率,D(xf′)表示当输入为虚拟图像xf′时,所述图像判别器认为来自真实图像的概率;
Lms为模式寻找损失,用于避免网络训练过程中的模式崩溃。
进一步地,Lms定义为:
其中,G(z1)表示第1个隐变量对应的样本1,G(z2)表示第2个隐变量对应的样本2,z1表示第1个隐变量,z2表示第2个隐变量,maxG(·)表示针对输入样本G的最大值,minG(·)表示针对输入样本G的最小值。
另一方面,本发明还提供了一种图像数据增广装置,包括:
采集模块,用于获取真实图像及每一真实图像所对应的与其逐像素对应的真实标注;
生成模块,用于构建标注生成网络和风格迁移网络,并以所述标注生成网络的输出作为所述风格迁移网络的输入,将所述标注生成网络与所述风格迁移网络合并成图像数据增广网络;其中,所述标注生成网络用于根据真实标注,生成虚拟标注;所述风格迁移网络用于将虚拟标注转换成虚拟图像;
训练模块,用于基于所述采集模块获取的真实图像及其真实标注,采用基于生成器和判别器的损失函数,训练所述生成模块生成的图像数据增广网络;
增广模块,用于利用经过所述训练模块训练好的图像数据增广网络,生成待增广的真实图像及其真实标注所对应的虚拟图像和虚拟标注,作为待增广的真实图像及其真实标注的数据增广。
本发明提供的技术方案带来的有益效果至少包括:
本发明通过获取真实图像及与其逐像素对应的真实标注;构建标注生成网络和风格迁移网络;以标注生成网络的输出作为风格迁移网络的输入,将标注生成网络与风格迁移网络合并成图像数据增广网络,并基于真实图像及其真实标注,采用基于生成器和判别器的损失函数,训练图像数据增广网络;利用训练好的图像数据增广网络,生成待增广的真实图像及其真实标注所对应的虚拟图像和虚拟标注,作为待增广的真实图像及其真实标注的数据增广。从而能够在增强真实图像及其标注数据多样性的同时,节省人工标注成本,显著提高用于后续图像分割模型训练所需的数据量,最终提高后续图像分割模型的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的图像数据增广方法的流程图;
图2为本发明实施例提供的材料显微组织微观图像和语义标注图像示意图;
图3为本发明实施例提供的自适应正则化特征方法原理示意图;
图4为本发明实施例提供的图像数据增广网络的结构示意图;
图5为本发明实施例提供的图像数据增广装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
第一实施例
本实施例提供了一种图像数据增广方法,可应用于材料微观组织图像,在增强原始材料微观组织数据多样性的同时,节省人工标注成本,提升合成数据的真实性。该图像数据增广方法可以由电子设备实现,该电子设备可以是终端或者服务器。该图像数据增广方法的执行流程如图1所示,包括以下步骤:
S1,获取真实图像及每一真实图像所对应的与其逐像素对应的真实标注;
S2,构建标注生成网络和风格迁移网络;其中,标注生成网络用于根据真实标注,生成虚拟标注;风格迁移网络用于将虚拟标注转换成虚拟图像;
S3,以标注生成网络的输出作为风格迁移网络的输入,将标注生成网络与风格迁移网络合并成图像数据增广网络,并基于真实图像及其真实标注,采用基于生成器和判别器的损失函数,训练图像数据增广网络;
S4,利用训练好的图像数据增广网络生成待增广的真实图像及其真实标注对应的虚拟图像和虚拟标注,作为待增广的真实图像及其真实标注的数据增广。
具体地,在本实施例中,材料微观组织图像与标注图像由显微镜拍摄及人工标注得来。如图2中纯铁晶粒显微组织微观图像与语义标注图像所示。
上述S1的实现过程如下:
S11,通过手工拍摄材料组织微观截面图像,获取真实图像,针对每幅图像,采用图像标注方法对真实图像进行逐像素二分类标注,获得真实标注图像;
S12,将每幅图像进行裁剪缩放预处理,调整为512*512大小;
S13,将材料真实图像和人工标注的真实语义图像组成图像对,按照预设的比例分为训练集与验证集;其中,在本实施例中,按照S11、S12处理后共得到140对纯铁晶粒微观组织图像和标注图像、288对铝镧合金枝晶微观组织图像和标注图像,并按照预设的比例(1:3)分为训练集与验证集。
上述标注生成网络包括多尺度标注生成器和带有多尺度连接的标注判别器;其中,多尺度标注生成器用于生成多尺度的虚拟标注;带有多尺度连接的标注判别器用于计算判别分数,判别真实标注和虚拟标注。
具体地,上述标注生成器生成多尺度的虚拟标注的过程,包括:
从多维高斯分布中随机采样初始隐变量z;使用转置卷积和3×3卷积对初始隐变量z做上采样操作,将初始隐变量z的特征尺寸扩大为4×4大小,再依次经过连续卷积和插值上采样层,逐渐扩大特征图尺度,并采用1×1卷积将生成过程中不同尺度的特征转化为单通道的虚拟标注,最终获得多尺度的虚拟标注。
上述标注判别器计算判别分数,判别真实标注和虚拟标注的过程,包括:
将多尺度虚拟标注或真实标注分别经过1×1卷积转化得到多尺度多维特征;
将多尺度多维特征分别在不同尺度下与特征图经过平均池化下采样后的特征进行通道级联,再分别经过3x3卷积层进行特征融合,最后经过全连接层获得标注的1维高层特征;
将标注的1维高层特征经过判别函数获得判别分数,以判别真实标注或虚拟标注;其中,此处所使用的判别函数可以为SoftMax或SVM。
上述风格迁移网络包括多尺度图像生成器和带有多尺度连接的图像判别器;其中,多尺度图像生成器用于生成与虚拟标注具有相同底层语义结构的虚拟图像;图像判别器用于计算判别分数,判别真实图像和虚拟图像。
具体地,上述图像生成器生成虚拟图像的过程,包括:
从多维高斯分布中随机采样初始隐变量z,使用转置卷积和3×3卷积对初始隐变量z做上采样操作,将初始隐变量z的特征尺寸扩大为4×4大小;
使用如图3所示的自适应正则化(Spatially-Adaptive,SPADE)模块将不同尺度的虚拟标注作为输入送入图像生成器,通过对虚拟标注提取特征计算,得出反映特征的通道、宽和高维度三个维度的参数,从空间变化的语义特征图进行图像合成。在SPADE模块中,首先将语义特征图投影到低维向量空间,然后进行卷积产生调制参数γ和β,不同于常用的批归一化方法,γ和β不是向量,而是具有空间维度的张量,其含义为待学***移(shift)参数,用于控制样本分布的方差和均值。训练产生的γ和β会与卷积特征图相乘,并加到归一化激活元素中;再依次经过连续卷积和插值上采样层,使得特征分辨率依次扩大,最终输出与虚拟标注具有相同底层语义结构的虚拟图像。
上述图像判别器计算判别分数,判别真实图像和虚拟图像的过程,包括:
将最大尺度虚拟图像和虚拟标注,或最大尺度真实图像和真实标注,进行通道级联,并经过多次3x3卷积层和下采样层进行特征提取,最后经过全连接层获得图像的1维高层特征;
将图像的1维高层特征经过判别函数获得判别分数,以判别真实图像或虚拟图像。其中,此处所使用的判别函数为SoftMax或SVM。
上述图像数据增广网络是通过将标注生成网络生成的多尺度虚拟标注作为风格迁移网络中虚拟标注的输入而合并得到,其结构如图4所示。
上述标注生成器(G_Label)和上述图像生成器(G_Image)使用多尺度特征连接,来自G_Label的特征经过1x1卷积后转换为多尺度标注,G_Image网络特征经过SPADE模块分别与对应分辨率的标注特征合成,最终两个生成器(标注生成器、图像生成器)输出成对的标注和图像。在训练过程中,标注判别器(D_Label)同样接收多尺度的标注作为输入,为G_Label提供多尺度的梯度传播。图像判别器(D_Image)不仅要区分输入图像来自生成器输出还是真实数据,还要判断图像和其标注是否一致,所以D_Image使用了成对的数据输入,来自G_Label和G_Image的成对输出或者来自真实分布的成对数据,即通过对抗训练拉近了生成数据联合分布与真实联合分布的距离。
具体地,在本实施例中,上述基于生成器和判别器的损失函数的表达式为:
其中,L表示损失函数,LGANL和LGANI分别表示标注生成网络和风格迁移网络的梯度损失;λ1和λ2为两个实验超参数(λ1≥0,λ2≥0)。
LGANL包括标注生成器损失LGL和标注判别器损失LDL;
其中,xr为真实标注,xf为经过所述标注生成器生成的虚拟标注,E(·)表示求解期望值,表示经过调整后,当输入为虚拟标注xf时,标注判别器认为来自真实标注的概率,表示经过调整后,当输入为真实标注xr时,标注判别器认为来自真实标注的概率,D(xf)表示当输入为虚拟标注xf时,标注判别器认为来自真实标注的概率,D(xr)表示当输入为真实标注xr时,标注判别器认为来自真实标注的概率;
LGANI包括图像生成器损失LGI和图像判别器损失LDI;
LDI=E(max(0,1-D(xr′)))+E(max(0,1+D(xf′)))
LGI=-E(D(xf′))
其中,xr′表示真实图像,xf′表示经过所述图像生成器生成的虚拟图像,D(xr′)表示当输入为真实图像xr′时,所述图像判别器认为来自真实图像的概率,D(xf′)表示当输入为虚拟图像xf′时,所述图像判别器认为来自真实图像的概率;
此外,需要说明的是,GAN训练的另一大问题是模式崩溃,图像生成多样性差,生成器没有根据输入隐变量的变化来产生变化的输出结果,生成样本只接近真实数据中的常见样本。产生的原因是真实数据的分布可分为多种模式,不同模式数据的分布概率不同,采样可能性也不同,但是生成器生成出现概率较大的样本,便可以欺骗判别器,因此造成生成器越来越趋向于生成某一种图像。通过给损失函数加入正则化项,使用L1正则化计算z1和z2的距离,以及对应生成的两个样本G(z1)和G(z2)间的距离。为此,定义模式寻找损失Lms为:
其中,G(z1)表示第1个隐变量对应的样本1,G(z2)表示第2个隐变量对应的样本2,z1表示第1个隐变量,z2表示第2个隐变量,maxG(·)表示针对输入样本G的最大值,minG(·)表示针对输入样本G的最小值。
通过上述基于生成器和判别器的函数L可使得生成的虚拟图像和虚拟标注具有相同的底层语义结构,并使得虚拟图像在纹理信息上与真实图像相似,同时使得虚拟标注在底层语义结构上与真实标注相似,从而满足使用需求。
通过上述技术方案,可以利用训练好的图像数据增广网络生成待增广的真实图像及其真实标注对应的虚拟图像和虚拟标注,作为待增广的真实图像及其真实标注的数据增广,用于后续图像分割模型的训练。
具体地,训练时使用虚拟图像和虚拟标注预先训练图像分割模型,再使用真实图像和真实标注对预先训练的图像分割模型进行微调。
本实施例中,图像数据增广网络训练的超参数设置如下:统一使用单块1080Ti 8GGPU,batchsize设置为2,采用adam优化器训练。网络输入隐变量维度为256,输出图像大小为512*512。网络损失超参数设置λ1=10和λ2=5,初始标注生成器和图像生成器学习率分别为0.002和0.0002,并使用lambda学习率衰减策略,保持前100轮初始学习率,再使用衰减学习率继续训练400轮。采用的数据集中,共得到140对纯铁晶粒微观组织图像和语义标注图像、288对铝镧合金枝晶微观组织图像和语义标注图像,并按照预设的比例(1∶3)分为训练集与验证集,采用统一的数据作为验证集。
在本实施例中,通过收集纯铁晶粒和铝镧枝晶两种图像进行测试,以本领域内常用的2种评估方法mAP、ARI为评估指标(上述指标越高则代表图像合成方法的性能越高),对虚拟数据进行测试,同时输出可视化的合成图像、合成标注,与真实图像、真实标注作对比,得到评估结果如下表1、表2所示。
表1纯铁晶粒数据集评估结果
数据集 | 数据量 | mAP↑ | ARI↑ |
真实数据 | 140 | 0.4737 | 0.7498 |
数据增强(真) | 1120 | 0.5450 | 0.8329 |
虚拟数据+数据增强 | 10000 | 0.5641 | 0.8519 |
表2铝镧枝晶数据集评估结果
数据集 | 数据量 | mAP↑ | ARI↑ |
真实数据 | 72 | 0.5265 | 0.8692 |
数据增强(真) | 576 | 0.5746 | 0.8927 |
数据增强(真)+合成数据 | 10000 | 0.6173 | 0.8971 |
由表1可得,本实施例提供的方法在仅有140张真实纯铁晶粒数据样本做训练集时,使用1000张测试图片做测试集,传统数据增强较真实数据,可提升mAP约7个百分点,提升ARI约8个百分点;数据增强效果明显,但传统数据增强图像变换方法受限制,数据扩增数量有限。本实施例的方法提供的10000个合成数据样本混合真实数据做数据增强后,语义分割模型提升mAP约10%,ARI约10%,获得了更优语义分割模型。
由表2可得,本实施例提供的方法在铝镧枝晶数据集中,合成数据(10000张)样本扩增原始数据集(72张)约140倍,相比传统数据增强(576张)约17倍。相比原始语义分割模型,传统数据增强提升模型约5%mAP和2%ARI指标,而合成数据可提升约9%mAP和3%ARI指标。
由上可知,本实施例提供的方法在多个不同指标下均取得了性能优异的结果,达到了最优模型表现,说明本实施例提供的方法可有效应用于实践。
综上,本实施例通过获取真实图像及其真实标注数据;构建标注生成网络和风格迁移网络;以标注生成网络的输出作为风格迁移网络的输入,将标注生成网络与风格迁移网络合并成图像数据增广网络,并基于真实图像及其真实标注,采用基于生成器和判别器的损失函数,训练图像数据增广网络;利用训练好的图像数据增广网络,生成待增广的真实图像及其真实标注所对应的虚拟图像和虚拟标注,作为待增广的真实图像及其真实标注的数据增广。从而能够在增强真实图像及其标注数据多样性的同时,节省人工标注成本,显著提高用于后续图像分割模型训练所需的数据量,最终提高后续图像分割模型的准确性。
第二实施例
本实施例提供了一种图像数据增广装置,其结构如图5所示,包括:
采集模块11,用于获取真实图像及每一真实图像所对应的与其逐像素对应的真实标注;
生成模块12,用于构建标注生成网络和风格迁移网络,并以标注生成网络的输出作为风格迁移网络的输入,将标注生成网络与风格迁移网络合并成图像数据增广网络;其中,标注生成网络用于根据真实标注,生成虚拟标注;风格迁移网络用于将虚拟标注转换成虚拟图像;
训练模块13,用于基于采集模块11获取的真实图像及其真实标注,采用基于生成器和判别器的损失函数,训练生成模块12生成的图像数据增广网络;
增广模块14,用于利用经过训练模块13训练好的图像数据增广网络,生成待增广的真实图像及其真实标注所对应的虚拟图像和虚拟标注,作为待增广的真实图像及其真实标注的数据增广。
本实施例的图像数据增广装置与上述第一实施例的图像数据增广方法相对应;其中,本实施例的图像数据增广装置中的各功能模块所实现的功能与上述第一实施例的图像数据增广方法中的各流程步骤一一对应;故,在此不再赘述。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
Claims (10)
1.一种图像数据增广方法,其特征在于,包括:
获取真实图像及每一真实图像所对应的与其逐像素对应的真实标注;
构建标注生成网络和风格迁移网络;其中,所述标注生成网络用于根据真实标注,生成虚拟标注;所述风格迁移网络用于将虚拟标注转换成虚拟图像;
以所述标注生成网络的输出作为所述风格迁移网络的输入,将所述标注生成网络与所述风格迁移网络合并成图像数据增广网络,并基于真实图像及其真实标注,采用基于生成器和判别器的损失函数,训练所述图像数据增广网络;
利用训练好的图像数据增广网络,生成待增广的真实图像及其真实标注所对应的虚拟图像和虚拟标注,作为待增广的真实图像及其真实标注的数据增广。
2.如权利要求1所述的图像数据增广方法,其特征在于,所述标注生成网络包括多尺度标注生成器和带有多尺度连接的标注判别器;其中,
所述标注生成器用于生成多尺度的虚拟标注;
所述标注判别器用于计算判别分数,判别真实标注和虚拟标注。
3.如权利要求2所述的图像数据增广方法,其特征在于,所述标注生成器生成多尺度的虚拟标注的过程,包括:
从多维高斯分布中随机采样初始隐变量;使用转置卷积和3×3卷积对初始隐变量做上采样操作,将初始隐变量的特征尺寸扩大为4×4大小,再依次经过连续卷积和插值上采样层,逐渐扩大特征图尺度,并采用1×1卷积将生成过程中不同尺度的特征转化为单通道的虚拟标注,最终获得多尺度的虚拟标注。
4.如权利要求2所述的图像数据增广方法,其特征在于,所述标注判别器计算判别分数,判别真实标注和虚拟标注的过程,包括:
将待判别的标注数据经过1×1卷积转化,得到多尺度多维特征;
将所述多尺度多维特征分别在不同尺度下与特征图经过平均池化下采样后的特征进行通道级联,再分别经过3x3卷积层进行特征融合,最后经过全连接层获得标注的1维高层特征;
将标注的1维高层特征经过判别函数获得判别分数,以判别当前待判别的标注数据为真实标注还是虚拟标注;其中,所述判别函数为SoftMax或SVM。
5.如权利要求2所述的图像数据增广方法,其特征在于,所述风格迁移网络包括多尺度图像生成器和带有多尺度连接的图像判别器;其中,
所述图像生成器用于生成与虚拟标注具有相同底层语义结构的虚拟图像;
所述图像判别器用于计算判别分数,判别真实图像和虚拟图像。
6.如权利要求5所述的图像数据增广方法,其特征在于,所述图像生成器生成与虚拟标注具有相同底层语义结构的虚拟图像的过程,包括:
从多维高斯分布中随机采样初始隐变量,使用转置卷积和3×3卷积对初始隐变量做上采样操作,将初始隐变量的特征尺寸扩大为4×4大小;并使用自适应正则化模块将不同尺度的虚拟标注作为输入,送入所述图像生成器中,进行特征归一化;再依次经过连续卷积和插值上采样层,使得特征分辨率依次扩大,最终输出与虚拟标注具有相同底层语义结构的虚拟图像。
7.如权利要求5所述的图像数据增广方法,其特征在于,所述图像判别器计算判别分数,判别真实图像和虚拟图像的过程,包括:
将最大尺度待判别图像及其标注数据进行通道级联,并经过多次3x3卷积层和下采样层进行特征提取,最后经过全连接层获得图像的1维高层特征;
将图像的1维高层特征经过判别函数获得判别分数,以判别当前待判别图像为真实图像还是虚拟图像;其中,所述判别函数为SoftMax或SVM。
8.如权利要求5所述的图像数据增广方法,其特征在于,所述基于生成器和判别器的损失函数的表达式为:
其中,L表示损失函数,LGANL和LGANI分别表示所述标注生成网络和所述风格迁移网络的梯度损失;λ1和λ2为两个不小于零的超参数;
LGANL包括标注生成器损失LGL和标注判别器损失LDL;
其中,xr为真实标注,xf为经过所述标注生成器生成的虚拟标注,E(.)表示求解期望值,表示经过调整后,当输入为虚拟标注xf时,标注判别器认为来自真实标注的概率,表示经过调整后,当输入为真实标注xr时,标注判别器认为来自真实标注的概率,D(xf)表示当输入为虚拟标注xf时,标注判别器认为来自真实标注的概率,D(xr)表示当输入为真实标注xr时,标注判别器认为来自真实标注的概率;
LGANI包括图像生成器损失LGI和图像判别器损失LDI;
LDI=E(max(0,1-D(xr′)))+E(max(0,1+D(xf′)))
LGI=-E(D(xf′))
其中,xr′表示真实图像,xf′表示经过所述图像生成器生成的虚拟图像,D(xr′)表示当输入为真实图像xr′时,所述图像判别器认为来自真实图像的概率,D(xf′)表示当输入为虚拟图像xf′时,所述图像判别器认为来自真实图像的概率;
Lms为模式寻找损失,用于避免网络训练过程中的模式崩溃。
10.一种图像数据增广装置,其特征在于,包括:
采集模块,用于获取真实图像及每一真实图像所对应的与其逐像素对应的真实标注;
生成模块,用于构建标注生成网络和风格迁移网络,并以所述标注生成网络的输出作为所述风格迁移网络的输入,将所述标注生成网络与所述风格迁移网络合并成图像数据增广网络;其中,所述标注生成网络用于根据真实标注,生成虚拟标注;所述风格迁移网络用于将虚拟标注转换成虚拟图像;
训练模块,用于基于所述采集模块获取的真实图像及其真实标注,采用基于生成器和判别器的损失函数,训练所述生成模块生成的图像数据增广网络;
增广模块,用于利用经过所述训练模块训练好的图像数据增广网络,生成待增广的真实图像及其真实标注所对应的虚拟图像和虚拟标注,作为待增广的真实图像及其真实标注的数据增广。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110436901.5A CN113222114B (zh) | 2021-04-22 | 2021-04-22 | 一种图像数据增广方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110436901.5A CN113222114B (zh) | 2021-04-22 | 2021-04-22 | 一种图像数据增广方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113222114A true CN113222114A (zh) | 2021-08-06 |
CN113222114B CN113222114B (zh) | 2023-08-15 |
Family
ID=77088655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110436901.5A Active CN113222114B (zh) | 2021-04-22 | 2021-04-22 | 一种图像数据增广方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113222114B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116310348A (zh) * | 2023-05-18 | 2023-06-23 | 安徽农业大学 | 一种基于cgan的语义分割数据集增广的方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110009028A (zh) * | 2019-03-28 | 2019-07-12 | 北京科技大学 | 一种显微图像数据增强方法及装置 |
CN110135366A (zh) * | 2019-05-20 | 2019-08-16 | 厦门大学 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
US20190295302A1 (en) * | 2018-03-22 | 2019-09-26 | Northeastern University | Segmentation Guided Image Generation With Adversarial Networks |
CN110458750A (zh) * | 2019-05-31 | 2019-11-15 | 北京理工大学 | 一种基于对偶学习的无监督图像风格迁移方法 |
CN111242064A (zh) * | 2020-01-17 | 2020-06-05 | 山东师范大学 | 基于摄像头风格迁移和单标注的行人重识别方法及*** |
CN111340745A (zh) * | 2020-03-27 | 2020-06-26 | 成都安易迅科技有限公司 | 一种图像生成方法、装置、存储介质及电子设备 |
CN111382686A (zh) * | 2020-03-04 | 2020-07-07 | 上海海事大学 | 一种基于半监督生成对抗网络的车道线检测方法 |
CN111539467A (zh) * | 2020-04-17 | 2020-08-14 | 北京工业大学 | 基于生成对抗网络为医疗影像数据集做数据增广的gan网络架构及方法 |
CN111833359A (zh) * | 2020-07-13 | 2020-10-27 | 中国海洋大学 | 基于生成对抗网络的脑瘤分割数据增强方法 |
CN111861906A (zh) * | 2020-06-22 | 2020-10-30 | 长安大学 | 一种路面裂缝图像虚拟增广模型建立及图像虚拟增广方法 |
WO2021068487A1 (zh) * | 2019-10-12 | 2021-04-15 | 深圳壹账通智能科技有限公司 | 人脸识别模型构建方法、装置、计算机设备和存储介质 |
-
2021
- 2021-04-22 CN CN202110436901.5A patent/CN113222114B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190295302A1 (en) * | 2018-03-22 | 2019-09-26 | Northeastern University | Segmentation Guided Image Generation With Adversarial Networks |
CN110009028A (zh) * | 2019-03-28 | 2019-07-12 | 北京科技大学 | 一种显微图像数据增强方法及装置 |
CN110135366A (zh) * | 2019-05-20 | 2019-08-16 | 厦门大学 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
CN110458750A (zh) * | 2019-05-31 | 2019-11-15 | 北京理工大学 | 一种基于对偶学习的无监督图像风格迁移方法 |
WO2021068487A1 (zh) * | 2019-10-12 | 2021-04-15 | 深圳壹账通智能科技有限公司 | 人脸识别模型构建方法、装置、计算机设备和存储介质 |
CN111242064A (zh) * | 2020-01-17 | 2020-06-05 | 山东师范大学 | 基于摄像头风格迁移和单标注的行人重识别方法及*** |
CN111382686A (zh) * | 2020-03-04 | 2020-07-07 | 上海海事大学 | 一种基于半监督生成对抗网络的车道线检测方法 |
CN111340745A (zh) * | 2020-03-27 | 2020-06-26 | 成都安易迅科技有限公司 | 一种图像生成方法、装置、存储介质及电子设备 |
CN111539467A (zh) * | 2020-04-17 | 2020-08-14 | 北京工业大学 | 基于生成对抗网络为医疗影像数据集做数据增广的gan网络架构及方法 |
CN111861906A (zh) * | 2020-06-22 | 2020-10-30 | 长安大学 | 一种路面裂缝图像虚拟增广模型建立及图像虚拟增广方法 |
CN111833359A (zh) * | 2020-07-13 | 2020-10-27 | 中国海洋大学 | 基于生成对抗网络的脑瘤分割数据增强方法 |
Non-Patent Citations (5)
Title |
---|
BOYUAN MA等: "Data augmentation in microscopic images for material data mining", NPI COMPUTATIONAL MATERIALS, pages 1 - 9 * |
HAOQI SHI等: "A Novel Data Augmentation Method Using Style-Based GAN for Robust Pulmonary Nodule Segmentation", 2020 CHINESE CONTROL AND DECISION CONFERENCE (CCDC), pages 2486 - 2491 * |
杨昌东等: "基于AT-PGGAN的增强数据车辆型号精细识别", 中国图象图形学报, no. 3, pages 179 - 190 * |
柴梦婷: "生成式对抗网络研究与应用进展", 计算机工程, vol. 45, no. 9, pages 222 - 234 * |
马博渊: "小样本复杂三维材料组织图像分割方法研究与应用", 中国博士学位论文全文数据库 工程科技I辑, no. 4, pages 020 - 38 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116310348A (zh) * | 2023-05-18 | 2023-06-23 | 安徽农业大学 | 一种基于cgan的语义分割数据集增广的方法 |
CN116310348B (zh) * | 2023-05-18 | 2023-08-22 | 安徽农业大学 | 一种基于cgan的语义分割数据集增广的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113222114B (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106228185B (zh) | 一种基于神经网络的通用图像分类识别***及方法 | |
CN110276745B (zh) | 一种基于生成对抗网络的病理图像检测算法 | |
CN111046917B (zh) | 基于深度神经网络的对象性增强目标检测方法 | |
Liang et al. | Comparison detector for cervical cell/clumps detection in the limited data scenario | |
CN109919145B (zh) | 一种基于3d点云深度学习的矿卡检测方法及*** | |
CN113096096B (zh) | 一种融合形态特征的显微图像骨髓细胞计数方法与*** | |
CN107784288A (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN114091628B (zh) | 基于双分支网络的三维点云上采样方法及*** | |
CN111008650B (zh) | 一种基于深度卷积对抗神经网络的金相组织自动评级方法 | |
CN115222998B (zh) | 一种图像分类方法 | |
CN111899259A (zh) | 一种基于卷积神经网络的***癌组织微阵列分级方法 | |
CN116310466A (zh) | 基于局部无关区域筛选图神经网络的小样本图像分类方法 | |
CN113222114A (zh) | 一种图像数据增广方法及装置 | |
CN108876776A (zh) | 一种分类模型生成方法、眼底图像分类方法及装置 | |
CN117351371A (zh) | 一种基于深度学习的遥感图像目标检测方法 | |
CN116597275A (zh) | 一种基于数据增强的高速移动目标识别方法 | |
CN110659724A (zh) | 一种基于目标尺度范围的目标检测卷积神经网络构建方法 | |
CN116071331A (zh) | 一种基于改进ssd算法的工件表面缺陷检测方法 | |
CN113780335B (zh) | 一种小样本商品图像分类方法、装置、设备及存储介质 | |
Anggoro et al. | Classification of Solo Batik patterns using deep learning convolutional neural networks algorithm | |
Zhang et al. | Deep photographic style transfer guided by semantic correspondence | |
Liu et al. | Zero-shot ultrasound nondestructive testing image super-resolution based on reflection projection | |
CN113449817B (zh) | 基于幻影梯度的图像分类隐式模型加速训练方法 | |
CN114708513B (zh) | 一种顾及角点特征的边缘建筑物提取方法及*** | |
CN117237984B (zh) | 基于标签一致性的mt腿部识别方法、***、介质和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |