CN111832570A - 一种图像语义分割模型训练方法及*** - Google Patents
一种图像语义分割模型训练方法及*** Download PDFInfo
- Publication number
- CN111832570A CN111832570A CN202010634052.XA CN202010634052A CN111832570A CN 111832570 A CN111832570 A CN 111832570A CN 202010634052 A CN202010634052 A CN 202010634052A CN 111832570 A CN111832570 A CN 111832570A
- Authority
- CN
- China
- Prior art keywords
- image
- semantic segmentation
- label
- training
- training data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 159
- 230000011218 segmentation Effects 0.000 title claims abstract description 131
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000007246 mechanism Effects 0.000 claims abstract description 27
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 47
- 238000003786 synthesis reaction Methods 0.000 claims description 47
- 238000000605 extraction Methods 0.000 claims description 28
- 238000005070 sampling Methods 0.000 claims description 28
- 230000004927 fusion Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 18
- 230000003044 adaptive effect Effects 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 17
- 239000002131 composite material Substances 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 230000001902 propagating effect Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000003709 image segmentation Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 4
- 230000004913 activation Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000011521 glass Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种图像语义分割模型训练方法及***。该方法包括:获取用于训练分割网络的训练数据;将所述训练数据输入至图像语义分割网络,进行目标域图像语义分割网络的训练;其中所述训练数据是由预先训练好的训练数据合成网络和合成的伪标签所得到。本发明实施例通过采用生成对抗网络合成目标任务上的语义分割标签,采用基于领域自适应机制的训练数据合成网络生成训练数据,采用基于注意力机制的图像分割网络,来优化目标语义区域的分割效果。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像语义分割模型训练方法及***。
背景技术
图像语义分割是一项具有挑战性的识别任务,它指的是给图像中每个像素值指定一个其所属语义实体的类别。一般弱监督语义分割采用的弱监督信息为image-level的类别信息,并没有像素级的语义分割标签。
目前的半监督学习方法,准确率并不理想,即获取具有良好泛化性能的分割模型通常需要在监督学习的情况下完成,这需要规模庞大且专业的数据标注,语义分割标注是逐像素的,标注工作量大,标注周期长,因此需要提出一种新型的在半监督学习的情况下进行语义分割的方法。
已有的基于合成图像技术的半监督分割方法,首先合成目标任务上的影像,之后利用现有数据的标签,分割模型通过半监督学习进行训练,其基本思想是通过拉近输入数据的边缘分布,来适应不同领域的预测,合成目标域影像的方法大致有基于人工定义的度量和基于生成对抗网络两种,然而这两种合成方法在保留语义方面均不够理想。
发明内容
本发明实施例提供一种图像语义分割模型训练方法及***,用以解决现有技术中存在的缺陷。
第一方面,本发明实施例提供一种图像语义分割模型训练方法,包括:
获取用于训练分割网络的训练数据;
将所述训练数据输入至图像语义分割网络,进行目标域图像语义分割网络的训练;其中所述训练数据是由预先训练好的训练数据合成网络和合成的伪标签所得到。
进一步地,所述获取用于训练分割网络的训练数据,之前包括:构建语义分割标签合成网络、基于领域自适应机制的训练数据合成网络和基于注意力机制的图像语义分割网络;其中:
所述语义分割标签合成网络包括自编码器和鉴别器,其中所述自编码器包括编码器和解码器;
所述训练数据合成网络包括两个生成器、图像鉴别器和域鉴别器;
所述图像语义分割网络包括下采样编码阶段、上采样编码阶段和基于注意力机制的跳层连接。
进一步地,所述编码器的输入为随机噪声,所述解码器的输入为所述编码器的最后全连接层输出,所述解码器的输出为所述伪标签,所述鉴别器的输入为所述自编码器输出的预测图像或真实语义分割标签;
所述生成器包括特征提取阶段、自适应特征融合阶段和上采样阶段,所述特征提取阶段用于对预处理后输入的图像进行特征抽取与编码,所述自适应融合阶段用于对所述特征提取阶段产生的特征图进行再编码,完成具体语义信息与抽象语义信息的整合,所述上采样阶段用于完成由特征编码到输出合成图像的转换,所述图像鉴别器和所述域鉴别器均包括特征提取模块和预测模块,所述预测模块为一步卷积操作,用于将所述特征提取模块得到的特征图转换为预测图;
所述跳层连接包括将所述下采样编码阶段的若干最大池化操作输出的特征图,分别通过注意力门与所述上采样解码阶段的若干反卷积输入特征图进行通道上的级联。
进一步地,所述构建语义分割标签合成网络,进一步包括训练所述语义分割标签合成网络,具体包括:
获取目标任务的若干语义分割标签,根据所述目标任务对所述若干语义分割标签进行数据增强;
获取预设数量训练数据,所述预设数量训练数据包括高斯随机噪声和数据增强后真实标签;
将所述高斯随机噪声输入到所述自编码器,由所述自编码器输出预测伪标签,由所述鉴别器对所述预测伪标签进行鉴别,计算对抗损失并反向传播,优化所述自编码器;
计算鉴别损失并反向传播,优化所述鉴别器;
重复以上过程,直至所述训练数据合成网络满足第一预设收敛条件。
进一步地,所述伪标签是通过将随机高斯噪声输入至所述语义分割标签合成网络所得到,对应地,将所述伪标签进行存储。
进一步地,所述基于领域自适应机制的训练数据合成网络,进一步包括训练所述训练数据合成网络,具体包括:
获取相同数量的所述伪标签和无标签目标任务训练数据,所述无标签目标任务训练数据包括真实图像;
将所述伪标签输入至第一生成器,输出具有标签语义信息的合成图像,将所述真实图像输入至第二生成器,输出具有图像语义信息的合成标签;
将所述具有标签语义信息的合成图像输入至第一鉴别器,将所述具有图像语义信息的合成标签输入至第二鉴别器,暂停所述第一鉴别器和所述第二鉴别器的更新,并基于标签到图像的映射和图像到标签的映射计算得到对抗损失;
获取所述标签到图像的映射再次经过到标签的映射得到的重建标签,以及所述图像到标签的映射再次经过到图像的映射得到的重建图像,基于所述重建标签和所述重建图像计算得到重建损失;
暂停所述域鉴别器的更新,获取所述第一生成器和所述第二生成器的各自特征提取阶段操作和公共特征融合阶段操作,基于所述各自特征提取阶段操作和所述公共特征融合阶段操作计算得到领域自适应损失;
整合所述对抗损失、所述重建损失和所述领域自适应损失,得到损失函数,基于所述损失函数计算损失并反向传播,更新所述第一生成器和所述第二生成器;
计算所述第一鉴别器和所述第二鉴别器损失并反向传播,更新所述第一鉴别器和所述第二鉴别器;
计算所述域鉴别器损失并反向传播,更新所述域鉴别器;
重复以上过程,直至所述语义分割标签合成网络满足第一预设收敛条件。
进一步地,所述训练数据是基于所述伪标签和所述训练数据合成网络所得到的。
进一步地,所述将所述训练数据输入至图像语义分割网络,进行目标域图像语义分割网络的训练,具体包括:
获取相同数量的所述合成图像和所述合成图像对应的伪标签;
基于所述合成图像和所述伪标签计算分割损失;
重复以上过程,直至所述图像语义分割网络满足第二预设收敛条件。
第二方面,本发明实施例提供一种图像语义分割模型训练***,包括:
获取模块,用于获取用于训练分割网络的训练数据;
处理模块,用于将所述训练数据输入至图像语义分割网络,进行目标域图像语义分割网络的训练;其中所述训练数据是由预先训练好的训练数据合成网络和合成的伪标签所得到。
第三方面,本发明实施例提供一种电子设备,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述图像语义分割模型训练方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现任一项所述图像语义分割模型训练方法的步骤。
本发明实施例提供的图像语义分割模型训练方法及***,通过采用生成对抗网络合成目标任务上的语义分割标签,采用基于领域自适应机制的训练数据合成网络生成训练数据,采用基于注意力机制的图像分割网络,来优化目标语义区域的分割效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种图像语义分割模型训练方法流程图;
图2为本发明实施例提供的基于领域自适应机制的训练数据合成网络示意图;
图3为本发明实施例提供的基于注意力机制的图像分割网络示意图;
图4为本发明实施例提供的一种图像语义分割模型训练***结构图;
图5为本发明实施例提供的电子设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对现有技术中存在的问题,本发明实施例提出一种基于合成数据技术的弱监督图像语义分割模型及训练方法。
图1为本发明实施例提供的一种图像语义分割模型训练方法流程图,如图1所示,包括:
S1,获取用于训练分割网络的训练数据;
S2,将所述训练数据输入至图像语义分割网络,进行目标域图像语义分割网络的训练;其中所述训练数据是由预先训练好的训练数据合成网络和合成的伪标签所得到。
具体地,本发明实施例提出的一种基于合成数据技术的弱监督图像语义分割模型构建及训练方法,用于构建模型,并训练标签合成网络,基于领域自适应机制的训练数据合成网络以及基于注意力机制的图像分割模型。
本发明实施例通过采用生成对抗网络合成目标任务上的语义分割标签,采用基于领域自适应机制的训练数据合成网络生成训练数据,采用基于注意力机制的图像分割网络,来优化目标语义区域的分割效果。
基于上述实施例,所述获取用于训练分割网络的训练数据,之前包括:构建语义分割标签合成网络、基于领域自适应机制的训练数据合成网络和基于注意力机制的图像语义分割网络;其中:
所述语义分割标签合成网络包括自编码器和鉴别器,其中所述自编码器包括编码器和解码器;
所述训练数据合成网络包括两个生成器、图像鉴别器和域鉴别器;
所述图像语义分割网络包括下采样编码阶段、上采样编码阶段和基于注意力机制的跳层连接。
其中,所述编码器的输入为随机噪声,所述解码器的输入为所述编码器的最后全连接层输出,所述解码器的输出为所述伪标签,所述鉴别器的输入为所述自编码器输出的预测图像或真实语义分割标签;
所述生成器包括特征提取阶段、自适应特征融合阶段和上采样阶段,所述特征提取阶段用于对预处理后输入的图像进行特征抽取与编码,所述自适应融合阶段用于对所述特征提取阶段产生的特征图进行再编码,完成具体语义信息与抽象语义信息的整合,所述上采样阶段用于完成由特征编码到输出合成图像的转换,所述图像鉴别器和所述域鉴别器均包括特征提取模块和预测模块,所述预测模块为一步卷积操作,用于将所述特征提取模块得到的特征图转换为预测图;
所述跳层连接包括将所述下采样编码阶段的若干最大池化操作输出的特征图,分别通过注意力门与所述上采样解码阶段的若干反卷积输入特征图进行通道上的级联。
具体地,在进行网络模型训练之前,首先构建语义分割标签合成网络,基于领域自适应机制的训练数据合成网络,以及基于注意力机制的图像语义分割网络。
其中,构建的语义分割标签合成网络包含一个生成器和一个鉴别器,生成器为一个自编码器(Auto encoder),鉴别器为一个卷积分类网络;
此处,自编码器包含一个编码器和一个解码器;
编码器定义如下:
输入为随机噪声,包括四个隐藏层和两个全连接层,每个隐藏层包括一步卷积操作和一步线性整流函数激活操作;
解码器定义如下:
输入为编码器最后的全连接层的输出,包括五个隐藏层,每个隐藏层包括一步反卷积操作和一步线性整流函数激活操作,最后一步反卷积操作后输出与真实语义分割标签同样大小的预测图像(伪标签);
鉴别器定义如下:
输入为自编码器输出的预测图像,或真实语义分割标签,包括4个隐层和一个全连接层,每个隐藏层包括一步卷积操作和一步线性整流函数激活操作。
进一步地,基于领域自适应机制的训练数据合成网络包括两个结构一致的生成器、图像鉴别器、域鉴别器。
生成器包括特征提取阶段e,自适应特征融合阶段f,上采样阶段u,其中自适应特征融合阶段由两个生成器共享权重;
特征提取阶段用于对预处理后输入的图像进行特征抽取与编码,该阶段包括两个隐藏层,每个隐藏层包含一步卷积操作,一步层归一化操作,一步线性整流函数激活操作。
进一步地,特征融合阶段将特征提取阶段产生的特征图进行再编码,完成不同感受野下具体语义信息与抽象语义信息的整合,包括5个隐藏层,每个隐藏层包含一步卷积操作,一步层归一化操作,一步线性整流函数激活操作;
上采样阶段u完成由特征编码到输出合成图像的转换,包括两个隐藏层,每个隐藏层包含一步反卷积操作,一步层归一化操作,一步tanh函数激活操作;
所述鉴别器,包含特征提取模块以及预测模块:其中,特征提取模块包括5个隐藏层,每个隐藏层包含一步卷积操作,一步层归一化操作,一步线性整流函数操作,预测模块为一步卷积操作,用于将特征抽取模块得到的特征图转换为预测图。
再有就是图像语义分割网络包括基础分割网络和注意力连接:
所述的分割模型,包括下采样编码阶段和上采样解码阶段,以及基于注意力机制的跳层连接;
其中,下采样编码阶段包括5个隐藏层以及4次最大池化操作,每个隐藏层包含两步卷积以及线性整流函数操作激活操作;
上采样解码阶段包括4次反卷积操作,以及一个1x1卷积,用于输出与输入图像尺寸一致的语义分割结果;
跳层连接定义如下:
下采样编码阶段的第1个、第2个、第3个、第4个最大池化操作输出的特征图,分别通过注意力门,与上采样解码阶段的第4个、第3个、第2个、第1个反卷积输入特征图进行通道上的级联;
所述注意力门如下:
具有更大感受野的小尺寸特征图捕获全局语义上下文关系,具有更小感受野的大尺寸特征图捕获具体语义特征,二者进行特征融合操作如下:
其中,xa是大尺寸特征图,xb是小尺寸特征图,conv1x1指针对相应特征图的1x1卷积,1x1卷积用于统一不同特征图的通道数,conv指卷积操作,用于缩小xa的尺寸至与xb同样大小,指特征图之间同一位置元素的相加操作,σ1指线性整流函数激活操作;
将融合的特征编码为注意力系数:
a=up(σ2(conv1x1(feature))) (2)
其中,σ1指Sigmoid激活操作,up指上采样操作,用于将系数采样到与xa同样的尺寸。
基于上述任一实施例,所述构建语义分割标签合成网络,进一步包括训练所述语义分割标签合成网络,具体包括:
获取目标任务的若干语义分割标签,根据所述目标任务对所述若干语义分割标签进行数据增强;
获取预设数量训练数据,所述预设数量训练数据包括高斯随机噪声和数据增强后真实标签;
将所述高斯随机噪声输入到所述自编码器,由所述自编码器输出预测伪标签,由所述鉴别器对所述预测伪标签进行鉴别,计算对抗损失并反向传播,优化所述自编码器;
计算鉴别损失并反向传播,优化所述鉴别器;
重复以上过程,直至所述训练数据合成网络满足第一预设收敛条件,此处,第一预设收敛条件设置为训练500轮。
具体地,在上述实施例的基础上,训练语义分割标签合成网络,需要少量目标任务上的语义分割标签,获取目标任务的少量语义分割标签,并根据任务特点进行合理的数据增强;
训练模型需要进行多次的反向传播与参数更新,每次更新前向模型输入同样批大小的训练数据,每批训练数据包含高斯随机噪声r,以及数据增强后的真实标签;
将高斯随机噪声r输入到自编码器A,自编码器输出预测的伪标签,鉴别器C进行鉴别,计算对抗损失如下并反向传播,优化自编码器A:
其中,ltrue为数据增强后的真实标签。
切断A(r)的梯度,计算以下鉴别损失并反向传播,优化鉴别器C
重复以上过程,直到达到模型满足第一预设收敛条件,此处,第一预设收敛条件设置为训练500轮。
基于上述任一实施例,所述伪标签是通过将随机高斯噪声输入至所述语义分割标签合成网络所得到,对应地,将所述伪标签进行存储。
具体地,输入为随机的高斯噪声,输出合成的伪标签,并将合成的伪标签存储。
基于上述任一实施例,所述基于领域自适应机制的训练数据合成网络,进一步包括训练所述训练数据合成网络,具体包括:
获取相同数量的所述伪标签和无标签目标任务训练数据,所述无标签目标任务训练数据包括真实图像;
将所述伪标签输入至第一生成器,输出具有标签语义信息的合成图像,将所述真实图像输入至第二生成器,输出具有图像语义信息的合成标签;
将所述具有标签语义信息的合成图像输入至第一鉴别器,将所述具有图像语义信息的合成标签输入至第二鉴别器,暂停所述第一鉴别器和所述第二鉴别器的更新,并基于标签到图像的映射和图像到标签的映射计算得到对抗损失;
获取所述标签到图像的映射再次经过到标签的映射得到的重建标签,以及所述图像到标签的映射再次经过到图像的映射得到的重建图像,基于所述重建标签和所述重建图像计算得到重建损失;
暂停所述域鉴别器的更新,获取所述第一生成器和所述第二生成器的各自特征提取阶段操作和公共特征融合阶段操作,基于所述各自特征提取阶段操作和所述公共特征融合阶段操作计算得到领域自适应损失;
整合所述对抗损失、所述重建损失和所述领域自适应损失,得到损失函数,基于所述损失函数计算损失并反向传播,更新所述第一生成器和所述第二生成器;
计算所述第一鉴别器和所述第二鉴别器损失并反向传播,更新所述第一鉴别器和所述第二鉴别器;
计算所述域鉴别器损失并反向传播,更新所述域鉴别器;
重复以上过程,直至所述语义分割标签合成网络满足第一预设收敛条件。
具体地,如图2所示,需要将上述实施例中得到并存储伪标签以及无标签的目标任务训练数据。训练模型需要进行多次的反向传播与参数更新,每次更新前向模型输入同样批大小的训练数据,每批训练数据包含同样批大小的伪标签l和真实图像i。
伪标签l输入到生成器Gl,真实图像输入到生成器Gi,生成器Gl输出为ifake,生成器Gi输出为lfake;
ifake输入鉴别器Di,lfake输入鉴别器Dl,暂停鉴别器更新,计算两个对抗损失如下:
ifake=Gl(l) (5)
lfake=Gi(i) (6)
其中,Gl进行由标签到图像的映射,Gi进行由图像到标签的映射,ifake是有标签l语义信息的合成图像,lfake是有图像i语义信息的合成标签。
计算重建损失如下:
lrec=Gi(Gl(l)) (9)
irec=Gl(Gi(i)) (10)
其中,irec为图像i映射为伪标签lfake后再次经过Gl映射得到的重建图像,lrec为标签l映射为伪图像ifake后再次经过Gi映射得到的重建标签。
暂停域鉴别器更新,计算领域自适应损失如下:
fi(i)=fusion(ei(i)) (12)
fl(l)=fusion(el(1)) (13)
其中,fi和fl分别为两个生成器各自的特征提取阶段以及两个生成器公共的特征融合阶段操作,D为领域鉴别器。
最终,整合对抗损失、重建损失、领域自适应损失,得到损失函数如下,计算损失并反向传播,更新两个生成器Gi和Gl:
切断lfake和ifake的梯度,计算鉴别器损失并反向传播,更新鉴别器
计算域鉴别器损失,将损失反向传播,更新域鉴别器D:
其中,yi为图像的领域标签(其形状与领域鉴别器的输出量一致,其元素值为1),yl为合成标签的领域标签(其形状与领域鉴别器的输出量一致,其元素值为0)。
重复以上过程,直至所述训练数据合成网络网络满足第一预设收敛条件,此处,第一预设收敛条件设置为训练500轮。基于上述任一实施例,所述训练数据是基于所述伪标签和所述训练数据合成网络所得到的。
具体地,利用上述实施例中训练好的数据合成网络以及伪标签,生成用于训练分割网络的训练数据。
基于上述任一实施例,所述将所述训练数据输入至图像语义分割网络,进行目标域图像语义分割网络的训练,具体包括:
获取相同数量的所述合成图像和所述合成图像对应的伪标签;
基于所述合成图像和所述伪标签计算分割损失;
重复以上过程,直至所述图像语义分割网络满足第二预设收敛条件。
具体地,如图3所示,训练模型需要进行多次的反向传播与参数更新,每次更新前向模型输入同样批大小的训练数据,每批训练数据包含同样批大小的生成的合成图像ifake和其相应的伪标签l;
计算分割损失如下:
其中,y为合成语义分割标签,x为由合成语义分割标签再合成的训练集图像;
重复以上过程,直到达到模型满足第二预设收敛条件,此处第二预设收敛条件为连续十轮训练后在验证集上评估mIOU指标不再增加。
图4为本发明实施例提供的一种图像语义分割模型训练***结构图,如图4所示,包括:获取模块41和处理模块42;其中:
获取模块41用于获取用于训练分割网络的训练数据;处理模块42用于将所述训练数据输入至图像语义分割网络,进行目标域图像语义分割网络的训练;其中所述训练数据是由预先训练好的训练数据合成网络和合成的伪标签所得到。
本发明实施例提供的***用于执行上述对应的方法,其具体的实施方式与方法的实施方式一致,涉及的算法流程与对应的方法算法流程相同,此处不再赘述。
本发明实施例通过采用生成对抗网络合成目标任务上的语义分割标签,采用基于领域自适应机制的训练数据合成网络生成训练数据,采用基于注意力机制的图像分割网络,来优化目标语义区域的分割效果。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行如下方法:获取用于训练分割网络的训练数据;将所述训练数据输入至图像语义分割网络,进行目标域图像语义分割网络的训练;其中所述训练数据是由预先训练好的训练数据合成网络和合成的伪标签所得到。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:获取用于训练分割网络的训练数据;将所述训练数据输入至图像语义分割网络,进行目标域图像语义分割网络的训练;其中所述训练数据是由预先训练好的训练数据合成网络和合成的伪标签所得到。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种图像语义分割模型训练方法,其特征在于,包括:
获取用于训练分割网络的训练数据;
将所述训练数据输入至图像语义分割网络,进行目标域图像语义分割网络的训练;其中所述训练数据是由预先训练好的训练数据合成网络和合成的伪标签所得到。
2.根据权利要求1所述的图像语义分割模型训练方法,其特征在于,所述获取用于训练分割网络的训练数据,之前包括:构建语义分割标签合成网络、基于领域自适应机制的训练数据合成网络和基于注意力机制的图像语义分割网络;其中:
所述语义分割标签合成网络包括自编码器和鉴别器,其中所述自编码器包括编码器和解码器;
所述训练数据合成网络包括两个生成器、图像鉴别器和域鉴别器;
所述图像语义分割网络包括下采样编码阶段、上采样编码阶段和基于注意力机制的跳层连接。
3.根据权利要求2所述的图像语义分割模型训练方法,其特征在于,所述编码器的输入为随机噪声,所述解码器的输入为所述编码器的最后全连接层输出,所述解码器的输出为所述伪标签,所述鉴别器的输入为所述自编码器输出的预测图像或真实语义分割标签;
所述生成器包括特征提取阶段、自适应特征融合阶段和上采样阶段,所述特征提取阶段用于对预处理后输入的图像进行特征抽取与编码,所述自适应融合阶段用于对所述特征提取阶段产生的特征图进行再编码,完成具体语义信息与抽象语义信息的整合,所述上采样阶段用于完成由特征编码到输出合成图像的转换,所述图像鉴别器和所述域鉴别器均包括特征提取模块和预测模块,所述预测模块为一步卷积操作,用于将所述特征提取模块得到的特征图转换为预测图;
所述跳层连接包括将所述下采样编码阶段的若干最大池化操作输出的特征图,分别通过注意力门与所述上采样解码阶段的若干反卷积输入特征图进行通道上的级联。
4.根据权利要求2所述的图像语义分割模型训练方法,其特征在于,所述构建语义分割标签合成网络,进一步包括训练所述语义分割标签合成网络,具体包括:
获取目标任务的若干语义分割标签,根据所述目标任务对所述若干语义分割标签进行数据增强;
获取预设数量训练数据,所述预设数量训练数据包括高斯随机噪声和数据增强后真实标签;
将所述高斯随机噪声输入到所述自编码器,由所述自编码器输出预测伪标签,由所述鉴别器对所述预测伪标签进行鉴别,计算对抗损失并反向传播,优化所述自编码器;
计算鉴别损失并反向传播,优化所述鉴别器;
重复以上过程,直至所述训练数据合成网络满足第一预设收敛条件。
5.根据权利要求2所述的图像语义分割模型训练方法,其特征在于,所述伪标签是通过将随机高斯噪声输入至所述语义分割标签合成网络所得到,对应地,将所述伪标签进行存储。
6.根据权利要求2所述的图像语义分割模型训练方法,其特征在于,所述基于领域自适应机制的训练数据合成网络,进一步包括训练所述训练数据合成网络,具体包括:
获取相同数量的所述伪标签和无标签目标任务训练数据,所述无标签目标任务训练数据包括真实图像;
将所述伪标签输入至第一生成器,输出具有标签语义信息的合成图像,将所述真实图像输入至第二生成器,输出具有图像语义信息的合成标签;
将所述具有标签语义信息的合成图像输入至第一鉴别器,将所述具有图像语义信息的合成标签输入至第二鉴别器,暂停所述第一鉴别器和所述第二鉴别器的更新,并基于标签到图像的映射和图像到标签的映射计算得到对抗损失;
获取所述标签到图像的映射再次经过到标签的映射得到的重建标签,以及所述图像到标签的映射再次经过到图像的映射得到的重建图像,基于所述重建标签和所述重建图像计算得到重建损失;
暂停所述域鉴别器的更新,获取所述第一生成器和所述第二生成器的各自特征提取阶段操作和公共特征融合阶段操作,基于所述各自特征提取阶段操作和所述公共特征融合阶段操作计算得到领域自适应损失;
整合所述对抗损失、所述重建损失和所述领域自适应损失,得到损失函数,基于所述损失函数计算损失并反向传播,更新所述第一生成器和所述第二生成器;
计算所述第一鉴别器和所述第二鉴别器损失并反向传播,更新所述第一鉴别器和所述第二鉴别器;
计算所述域鉴别器损失并反向传播,更新所述域鉴别器;
重复以上过程,直至所述语义分割标签合成网络满足第一预设收敛条件。
7.根据权利要求2所述的图像语义分割模型训练方法,其特征在于,所述训练数据是基于所述伪标签和所述训练数据合成网络所得到的。
8.根据权利要求6所述的图像语义分割模型训练方法,其特征在于,所述将所述训练数据输入至图像语义分割网络,进行目标域图像语义分割网络的训练,具体包括:
获取相同数量的所述合成图像和所述合成图像对应的伪标签;
基于所述合成图像和所述伪标签计算分割损失;
重复以上过程,直至所述图像语义分割网络满足第二预设收敛条件。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述图像语义分割模型训练方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至8任一项所述图像语义分割模型训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010634052.XA CN111832570A (zh) | 2020-07-02 | 2020-07-02 | 一种图像语义分割模型训练方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010634052.XA CN111832570A (zh) | 2020-07-02 | 2020-07-02 | 一种图像语义分割模型训练方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111832570A true CN111832570A (zh) | 2020-10-27 |
Family
ID=72900145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010634052.XA Pending CN111832570A (zh) | 2020-07-02 | 2020-07-02 | 一种图像语义分割模型训练方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111832570A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287834A (zh) * | 2020-10-29 | 2021-01-29 | 上海高仙自动化科技发展有限公司 | 机器人的巡检清洁方法、装置、机器人和存储介质 |
CN112381098A (zh) * | 2020-11-19 | 2021-02-19 | 上海交通大学 | 基于目标分割领域自学习的半监督学习方法和*** |
CN112381831A (zh) * | 2020-11-26 | 2021-02-19 | 南开大学 | 基于图像间语义辅助的个性化图像分割方法及*** |
CN113052369A (zh) * | 2021-03-15 | 2021-06-29 | 北京农业智能装备技术研究中心 | 智能农机作业管理方法及*** |
CN113283434A (zh) * | 2021-04-13 | 2021-08-20 | 北京工业大学 | 一种基于分割网络优化的图像语义分割方法及*** |
CN113409326A (zh) * | 2021-05-31 | 2021-09-17 | 北京工业大学 | 图像分割方法及*** |
CN113610212A (zh) * | 2021-07-05 | 2021-11-05 | 宜通世纪科技股份有限公司 | 一种多模态传感器数据的合成方法、装置及存储介质 |
CN114359269A (zh) * | 2022-03-09 | 2022-04-15 | 广东工业大学 | 基于神经网络的虚拟食品盒缺陷生成方法及*** |
CN114998330A (zh) * | 2022-07-28 | 2022-09-02 | 季华实验室 | 无监督的晶圆缺陷检测方法、装置、设备及存储介质 |
CN115424119A (zh) * | 2022-11-04 | 2022-12-02 | 之江实验室 | 基于语义分形的可解释gan的图像生成训练方法及装置 |
CN115471662A (zh) * | 2022-11-03 | 2022-12-13 | 深圳比特微电子科技有限公司 | 语义分割模型的训练方法、识别方法、装置和存储介质 |
CN115496990A (zh) * | 2022-11-18 | 2022-12-20 | 武汉纺织大学 | 一种基于深度学习的服装图像解析方法 |
CN116681790A (zh) * | 2023-07-18 | 2023-09-01 | 脉得智能科技(无锡)有限公司 | 一种超声造影图像生成模型的训练方法及图像的生成方法 |
CN116993976A (zh) * | 2023-07-17 | 2023-11-03 | 中国科学院自动化研究所 | 引用图像分割模型训练方法及引用图像分割方法 |
GB2622238A (en) * | 2022-09-07 | 2024-03-13 | Samsung Electronics Co Ltd | A method and device for personalised image segmentation and processing |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062753A (zh) * | 2017-12-29 | 2018-05-22 | 重庆理工大学 | 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法 |
CN109190707A (zh) * | 2018-09-12 | 2019-01-11 | 深圳市唯特视科技有限公司 | 一种基于对抗学习的域自适应图像语义分割方法 |
CN109580215A (zh) * | 2018-11-30 | 2019-04-05 | 湖南科技大学 | 一种基于深度生成对抗网络的风电传动***故障诊断方法 |
-
2020
- 2020-07-02 CN CN202010634052.XA patent/CN111832570A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062753A (zh) * | 2017-12-29 | 2018-05-22 | 重庆理工大学 | 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法 |
CN109190707A (zh) * | 2018-09-12 | 2019-01-11 | 深圳市唯特视科技有限公司 | 一种基于对抗学习的域自适应图像语义分割方法 |
CN109580215A (zh) * | 2018-11-30 | 2019-04-05 | 湖南科技大学 | 一种基于深度生成对抗网络的风电传动***故障诊断方法 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287834A (zh) * | 2020-10-29 | 2021-01-29 | 上海高仙自动化科技发展有限公司 | 机器人的巡检清洁方法、装置、机器人和存储介质 |
CN112381098A (zh) * | 2020-11-19 | 2021-02-19 | 上海交通大学 | 基于目标分割领域自学习的半监督学习方法和*** |
CN112381831B (zh) * | 2020-11-26 | 2022-08-16 | 南开大学 | 基于图像间语义辅助的个性化图像分割方法及*** |
CN112381831A (zh) * | 2020-11-26 | 2021-02-19 | 南开大学 | 基于图像间语义辅助的个性化图像分割方法及*** |
CN113052369A (zh) * | 2021-03-15 | 2021-06-29 | 北京农业智能装备技术研究中心 | 智能农机作业管理方法及*** |
CN113052369B (zh) * | 2021-03-15 | 2024-05-10 | 北京农业智能装备技术研究中心 | 智能农机作业管理方法及*** |
CN113283434A (zh) * | 2021-04-13 | 2021-08-20 | 北京工业大学 | 一种基于分割网络优化的图像语义分割方法及*** |
CN113409326A (zh) * | 2021-05-31 | 2021-09-17 | 北京工业大学 | 图像分割方法及*** |
CN113610212A (zh) * | 2021-07-05 | 2021-11-05 | 宜通世纪科技股份有限公司 | 一种多模态传感器数据的合成方法、装置及存储介质 |
CN113610212B (zh) * | 2021-07-05 | 2024-03-05 | 宜通世纪科技股份有限公司 | 一种多模态传感器数据的合成方法、装置及存储介质 |
CN114359269A (zh) * | 2022-03-09 | 2022-04-15 | 广东工业大学 | 基于神经网络的虚拟食品盒缺陷生成方法及*** |
CN114998330A (zh) * | 2022-07-28 | 2022-09-02 | 季华实验室 | 无监督的晶圆缺陷检测方法、装置、设备及存储介质 |
GB2622238A (en) * | 2022-09-07 | 2024-03-13 | Samsung Electronics Co Ltd | A method and device for personalised image segmentation and processing |
CN115471662A (zh) * | 2022-11-03 | 2022-12-13 | 深圳比特微电子科技有限公司 | 语义分割模型的训练方法、识别方法、装置和存储介质 |
CN115424119A (zh) * | 2022-11-04 | 2022-12-02 | 之江实验室 | 基于语义分形的可解释gan的图像生成训练方法及装置 |
CN115496990A (zh) * | 2022-11-18 | 2022-12-20 | 武汉纺织大学 | 一种基于深度学习的服装图像解析方法 |
CN116993976A (zh) * | 2023-07-17 | 2023-11-03 | 中国科学院自动化研究所 | 引用图像分割模型训练方法及引用图像分割方法 |
CN116681790A (zh) * | 2023-07-18 | 2023-09-01 | 脉得智能科技(无锡)有限公司 | 一种超声造影图像生成模型的训练方法及图像的生成方法 |
CN116681790B (zh) * | 2023-07-18 | 2024-03-22 | 脉得智能科技(无锡)有限公司 | 一种超声造影图像生成模型的训练方法及图像的生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111832570A (zh) | 一种图像语义分割模型训练方法及*** | |
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN112634296A (zh) | 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端 | |
JP2023533907A (ja) | 自己注意ベースのニューラルネットワークを使用した画像処理 | |
CN116342884B (zh) | 图像分割及模型训练的方法、服务器 | |
Chen et al. | Residual pyramid learning for single-shot semantic segmentation | |
CN114418030A (zh) | 图像分类方法、图像分类模型的训练方法及装置 | |
CN114049280A (zh) | 图像消除修复方法及其装置、设备、介质、产品 | |
CN116797787A (zh) | 基于跨模态融合与图神经网络的遥感影像语义分割方法 | |
CN112364933A (zh) | 图像分类方法、装置、电子设备和存储介质 | |
CN115082306A (zh) | 一种基于蓝图可分离残差网络的图像超分辨率方法 | |
CN111768326A (zh) | 一种基于gan扩增图像前景物体的高容量数据保护方法 | |
CN114708465A (zh) | 图像分类方法、装置、电子设备与存储介质 | |
CN114781499A (zh) | 一种构建基于ViT模型的密集预测任务适配器的方法 | |
CN114581789A (zh) | 一种高光谱图像分类方法及*** | |
Zhang et al. | Deep joint neural model for single image haze removal and color correction | |
CN117474796A (zh) | 一种图像生成方法、装置、设备及计算机可读存储介质 | |
Huang et al. | Underwater image enhancement via LBP‐based attention residual network | |
CN116993987A (zh) | 一种基于轻量级神经网络模型的图像语义分割方法及*** | |
CN117314808A (zh) | 一种结合Transformer与CNN双编码器的红外与可见光图像融合方法 | |
CN116612416A (zh) | 一种指代视频目标分割方法、装置、设备及可读存储介质 | |
CN115082840B (zh) | 基于数据组合和通道相关性的动作视频分类方法和装置 | |
CN116597263A (zh) | 图像合成模型的训练方法及相关装置 | |
CN116051593A (zh) | 服装图像提取方法及其装置、设备、介质、产品 | |
CN113554655B (zh) | 基于多特征增强的光学遥感图像分割方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |