CN111832570A

CN111832570A - 一种图像语义分割模型训练方法及***

Info

Publication number: CN111832570A
Application number: CN202010634052.XA
Authority: CN
Inventors: 李建强; 付光晖; 董大强; 吴敬怡
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2020-10-27

Abstract

本发明实施例提供一种图像语义分割模型训练方法及***。该方法包括：获取用于训练分割网络的训练数据；将所述训练数据输入至图像语义分割网络，进行目标域图像语义分割网络的训练；其中所述训练数据是由预先训练好的训练数据合成网络和合成的伪标签所得到。本发明实施例通过采用生成对抗网络合成目标任务上的语义分割标签，采用基于领域自适应机制的训练数据合成网络生成训练数据，采用基于注意力机制的图像分割网络，来优化目标语义区域的分割效果。

Description

一种图像语义分割模型训练方法及***

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像语义分割模型训练方法及***。

背景技术

图像语义分割是一项具有挑战性的识别任务，它指的是给图像中每个像素值指定一个其所属语义实体的类别。一般弱监督语义分割采用的弱监督信息为image-level的类别信息，并没有像素级的语义分割标签。

目前的半监督学习方法，准确率并不理想，即获取具有良好泛化性能的分割模型通常需要在监督学习的情况下完成，这需要规模庞大且专业的数据标注，语义分割标注是逐像素的，标注工作量大，标注周期长，因此需要提出一种新型的在半监督学习的情况下进行语义分割的方法。

已有的基于合成图像技术的半监督分割方法，首先合成目标任务上的影像，之后利用现有数据的标签，分割模型通过半监督学习进行训练，其基本思想是通过拉近输入数据的边缘分布，来适应不同领域的预测，合成目标域影像的方法大致有基于人工定义的度量和基于生成对抗网络两种，然而这两种合成方法在保留语义方面均不够理想。

发明内容

本发明实施例提供一种图像语义分割模型训练方法及***，用以解决现有技术中存在的缺陷。

第一方面，本发明实施例提供一种图像语义分割模型训练方法，包括：

获取用于训练分割网络的训练数据；

将所述训练数据输入至图像语义分割网络，进行目标域图像语义分割网络的训练；其中所述训练数据是由预先训练好的训练数据合成网络和合成的伪标签所得到。

进一步地，所述获取用于训练分割网络的训练数据，之前包括：构建语义分割标签合成网络、基于领域自适应机制的训练数据合成网络和基于注意力机制的图像语义分割网络；其中：

所述语义分割标签合成网络包括自编码器和鉴别器，其中所述自编码器包括编码器和解码器；

所述训练数据合成网络包括两个生成器、图像鉴别器和域鉴别器；

所述图像语义分割网络包括下采样编码阶段、上采样编码阶段和基于注意力机制的跳层连接。

进一步地，所述编码器的输入为随机噪声，所述解码器的输入为所述编码器的最后全连接层输出，所述解码器的输出为所述伪标签，所述鉴别器的输入为所述自编码器输出的预测图像或真实语义分割标签；

所述生成器包括特征提取阶段、自适应特征融合阶段和上采样阶段，所述特征提取阶段用于对预处理后输入的图像进行特征抽取与编码，所述自适应融合阶段用于对所述特征提取阶段产生的特征图进行再编码，完成具体语义信息与抽象语义信息的整合，所述上采样阶段用于完成由特征编码到输出合成图像的转换，所述图像鉴别器和所述域鉴别器均包括特征提取模块和预测模块，所述预测模块为一步卷积操作，用于将所述特征提取模块得到的特征图转换为预测图；

所述跳层连接包括将所述下采样编码阶段的若干最大池化操作输出的特征图，分别通过注意力门与所述上采样解码阶段的若干反卷积输入特征图进行通道上的级联。

进一步地，所述构建语义分割标签合成网络，进一步包括训练所述语义分割标签合成网络，具体包括：

获取目标任务的若干语义分割标签，根据所述目标任务对所述若干语义分割标签进行数据增强；

获取预设数量训练数据，所述预设数量训练数据包括高斯随机噪声和数据增强后真实标签；

将所述高斯随机噪声输入到所述自编码器，由所述自编码器输出预测伪标签，由所述鉴别器对所述预测伪标签进行鉴别，计算对抗损失并反向传播，优化所述自编码器；

计算鉴别损失并反向传播，优化所述鉴别器；

重复以上过程，直至所述训练数据合成网络满足第一预设收敛条件。

进一步地，所述伪标签是通过将随机高斯噪声输入至所述语义分割标签合成网络所得到，对应地，将所述伪标签进行存储。

进一步地，所述基于领域自适应机制的训练数据合成网络，进一步包括训练所述训练数据合成网络，具体包括：

获取相同数量的所述伪标签和无标签目标任务训练数据，所述无标签目标任务训练数据包括真实图像；

将所述伪标签输入至第一生成器，输出具有标签语义信息的合成图像，将所述真实图像输入至第二生成器，输出具有图像语义信息的合成标签；

将所述具有标签语义信息的合成图像输入至第一鉴别器，将所述具有图像语义信息的合成标签输入至第二鉴别器，暂停所述第一鉴别器和所述第二鉴别器的更新，并基于标签到图像的映射和图像到标签的映射计算得到对抗损失；

获取所述标签到图像的映射再次经过到标签的映射得到的重建标签，以及所述图像到标签的映射再次经过到图像的映射得到的重建图像，基于所述重建标签和所述重建图像计算得到重建损失；

暂停所述域鉴别器的更新，获取所述第一生成器和所述第二生成器的各自特征提取阶段操作和公共特征融合阶段操作，基于所述各自特征提取阶段操作和所述公共特征融合阶段操作计算得到领域自适应损失；

整合所述对抗损失、所述重建损失和所述领域自适应损失，得到损失函数，基于所述损失函数计算损失并反向传播，更新所述第一生成器和所述第二生成器；

计算所述第一鉴别器和所述第二鉴别器损失并反向传播，更新所述第一鉴别器和所述第二鉴别器；

计算所述域鉴别器损失并反向传播，更新所述域鉴别器；

重复以上过程，直至所述语义分割标签合成网络满足第一预设收敛条件。

进一步地，所述训练数据是基于所述伪标签和所述训练数据合成网络所得到的。

进一步地，所述将所述训练数据输入至图像语义分割网络，进行目标域图像语义分割网络的训练，具体包括：

获取相同数量的所述合成图像和所述合成图像对应的伪标签；

基于所述合成图像和所述伪标签计算分割损失；

重复以上过程，直至所述图像语义分割网络满足第二预设收敛条件。

第二方面，本发明实施例提供一种图像语义分割模型训练***，包括：

获取模块，用于获取用于训练分割网络的训练数据；

处理模块，用于将所述训练数据输入至图像语义分割网络，进行目标域图像语义分割网络的训练；其中所述训练数据是由预先训练好的训练数据合成网络和合成的伪标签所得到。

第三方面，本发明实施例提供一种电子设备，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述图像语义分割模型训练方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现任一项所述图像语义分割模型训练方法的步骤。

本发明实施例提供的图像语义分割模型训练方法及***，通过采用生成对抗网络合成目标任务上的语义分割标签，采用基于领域自适应机制的训练数据合成网络生成训练数据，采用基于注意力机制的图像分割网络，来优化目标语义区域的分割效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种图像语义分割模型训练方法流程图；

图2为本发明实施例提供的基于领域自适应机制的训练数据合成网络示意图；

图3为本发明实施例提供的基于注意力机制的图像分割网络示意图；

图4为本发明实施例提供的一种图像语义分割模型训练***结构图；

图5为本发明实施例提供的电子设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对现有技术中存在的问题，本发明实施例提出一种基于合成数据技术的弱监督图像语义分割模型及训练方法。

图1为本发明实施例提供的一种图像语义分割模型训练方法流程图，如图1所示，包括：

S1，获取用于训练分割网络的训练数据；

S2，将所述训练数据输入至图像语义分割网络，进行目标域图像语义分割网络的训练；其中所述训练数据是由预先训练好的训练数据合成网络和合成的伪标签所得到。

具体地，本发明实施例提出的一种基于合成数据技术的弱监督图像语义分割模型构建及训练方法，用于构建模型，并训练标签合成网络，基于领域自适应机制的训练数据合成网络以及基于注意力机制的图像分割模型。

本发明实施例通过采用生成对抗网络合成目标任务上的语义分割标签，采用基于领域自适应机制的训练数据合成网络生成训练数据，采用基于注意力机制的图像分割网络，来优化目标语义区域的分割效果。

基于上述实施例，所述获取用于训练分割网络的训练数据，之前包括：构建语义分割标签合成网络、基于领域自适应机制的训练数据合成网络和基于注意力机制的图像语义分割网络；其中：

其中，所述编码器的输入为随机噪声，所述解码器的输入为所述编码器的最后全连接层输出，所述解码器的输出为所述伪标签，所述鉴别器的输入为所述自编码器输出的预测图像或真实语义分割标签；

具体地，在进行网络模型训练之前，首先构建语义分割标签合成网络，基于领域自适应机制的训练数据合成网络，以及基于注意力机制的图像语义分割网络。

其中，构建的语义分割标签合成网络包含一个生成器和一个鉴别器，生成器为一个自编码器(Auto encoder)，鉴别器为一个卷积分类网络；

此处，自编码器包含一个编码器和一个解码器；

编码器定义如下：

输入为随机噪声，包括四个隐藏层和两个全连接层，每个隐藏层包括一步卷积操作和一步线性整流函数激活操作；

解码器定义如下：

输入为编码器最后的全连接层的输出，包括五个隐藏层，每个隐藏层包括一步反卷积操作和一步线性整流函数激活操作，最后一步反卷积操作后输出与真实语义分割标签同样大小的预测图像(伪标签)；

鉴别器定义如下：

输入为自编码器输出的预测图像，或真实语义分割标签，包括4个隐层和一个全连接层，每个隐藏层包括一步卷积操作和一步线性整流函数激活操作。

进一步地，基于领域自适应机制的训练数据合成网络包括两个结构一致的生成器、图像鉴别器、域鉴别器。

生成器包括特征提取阶段e，自适应特征融合阶段f，上采样阶段u，其中自适应特征融合阶段由两个生成器共享权重；

特征提取阶段用于对预处理后输入的图像进行特征抽取与编码，该阶段包括两个隐藏层，每个隐藏层包含一步卷积操作，一步层归一化操作，一步线性整流函数激活操作。

进一步地，特征融合阶段将特征提取阶段产生的特征图进行再编码，完成不同感受野下具体语义信息与抽象语义信息的整合，包括5个隐藏层，每个隐藏层包含一步卷积操作，一步层归一化操作，一步线性整流函数激活操作；

上采样阶段u完成由特征编码到输出合成图像的转换，包括两个隐藏层，每个隐藏层包含一步反卷积操作，一步层归一化操作，一步tanh函数激活操作；

所述鉴别器，包含特征提取模块以及预测模块:其中，特征提取模块包括5个隐藏层，每个隐藏层包含一步卷积操作，一步层归一化操作，一步线性整流函数操作，预测模块为一步卷积操作，用于将特征抽取模块得到的特征图转换为预测图。

再有就是图像语义分割网络包括基础分割网络和注意力连接：

所述的分割模型，包括下采样编码阶段和上采样解码阶段，以及基于注意力机制的跳层连接；

其中，下采样编码阶段包括5个隐藏层以及4次最大池化操作，每个隐藏层包含两步卷积以及线性整流函数操作激活操作；

上采样解码阶段包括4次反卷积操作，以及一个1x1卷积，用于输出与输入图像尺寸一致的语义分割结果；

跳层连接定义如下：

下采样编码阶段的第1个、第2个、第3个、第4个最大池化操作输出的特征图，分别通过注意力门，与上采样解码阶段的第4个、第3个、第2个、第1个反卷积输入特征图进行通道上的级联；

所述注意力门如下：

具有更大感受野的小尺寸特征图捕获全局语义上下文关系，具有更小感受野的大尺寸特征图捕获具体语义特征，二者进行特征融合操作如下：

其中，x_a是大尺寸特征图，x_b是小尺寸特征图，conv_1x1指针对相应特征图的1x1卷积，1x1卷积用于统一不同特征图的通道数，conv指卷积操作，用于缩小x_a的尺寸至与x_b同样大小，

指特征图之间同一位置元素的相加操作，σ₁指线性整流函数激活操作；

将融合的特征编码为注意力系数：

a＝up(σ₂(conv_1x1(feature))) (2)

其中，σ₁指Sigmoid激活操作，up指上采样操作，用于将系数采样到与x_a同样的尺寸。

基于上述任一实施例，所述构建语义分割标签合成网络，进一步包括训练所述语义分割标签合成网络，具体包括：

计算鉴别损失并反向传播，优化所述鉴别器；

重复以上过程，直至所述训练数据合成网络满足第一预设收敛条件，此处，第一预设收敛条件设置为训练500轮。

具体地，在上述实施例的基础上，训练语义分割标签合成网络，需要少量目标任务上的语义分割标签，获取目标任务的少量语义分割标签，并根据任务特点进行合理的数据增强；

训练模型需要进行多次的反向传播与参数更新，每次更新前向模型输入同样批大小的训练数据，每批训练数据包含高斯随机噪声r，以及数据增强后的真实标签；

将高斯随机噪声r输入到自编码器A，自编码器输出预测的伪标签，鉴别器C进行鉴别，计算对抗损失如下并反向传播，优化自编码器A：

其中，l_true为数据增强后的真实标签。

切断A(r)的梯度，计算以下鉴别损失并反向传播，优化鉴别器C

其中，

为交叉熵损失函数。

重复以上过程，直到达到模型满足第一预设收敛条件，此处，第一预设收敛条件设置为训练500轮。

基于上述任一实施例，所述伪标签是通过将随机高斯噪声输入至所述语义分割标签合成网络所得到，对应地，将所述伪标签进行存储。

具体地，输入为随机的高斯噪声，输出合成的伪标签，并将合成的伪标签存储。

基于上述任一实施例，所述基于领域自适应机制的训练数据合成网络，进一步包括训练所述训练数据合成网络，具体包括：

计算所述域鉴别器损失并反向传播，更新所述域鉴别器；

具体地，如图2所示，需要将上述实施例中得到并存储伪标签以及无标签的目标任务训练数据。训练模型需要进行多次的反向传播与参数更新，每次更新前向模型输入同样批大小的训练数据，每批训练数据包含同样批大小的伪标签l和真实图像i。

伪标签l输入到生成器G_l，真实图像输入到生成器G_i，生成器G_l输出为i_fake，生成器G_i输出为l_fake；

i_fake输入鉴别器D_i，l_fake输入鉴别器D_l，暂停鉴别器更新，计算两个对抗损失如下：

i_fake＝G_l(l) (5)

l_fake＝G_i(i) (6)

其中，G_l进行由标签到图像的映射，G_i进行由图像到标签的映射，i_fake是有标签l语义信息的合成图像，l_fake是有图像i语义信息的合成标签。

计算重建损失如下：

l_rec＝G_i(G_l(l)) (9)

i_rec＝G_l(G_i(i)) (10)

其中，i_rec为图像i映射为伪标签l_fake后再次经过G_l映射得到的重建图像，l_rec为标签l映射为伪图像i_fake后再次经过G_i映射得到的重建标签。

暂停域鉴别器更新，计算领域自适应损失如下：

f_i(i)＝fusion(e_i(i)) (12)

f_l(l)＝fusion(e_l(1)) (13)

其中，f_i和f_l分别为两个生成器各自的特征提取阶段以及两个生成器公共的特征融合阶段操作，D为领域鉴别器。

最终，整合对抗损失、重建损失、领域自适应损失，得到损失函数如下，计算损失并反向传播，更新两个生成器G_i和G_l：

切断l_fake和i_fake的梯度，计算鉴别器损失并反向传播，更新鉴别器

计算域鉴别器损失，将损失反向传播，更新域鉴别器D：

其中，y_i为图像的领域标签(其形状与领域鉴别器的输出量一致，其元素值为1)，y_l为合成标签的领域标签(其形状与领域鉴别器的输出量一致，其元素值为0)。

公式(16)、(17)和(18)中，

为交叉熵损失函数。

重复以上过程，直至所述训练数据合成网络网络满足第一预设收敛条件，此处，第一预设收敛条件设置为训练500轮。基于上述任一实施例，所述训练数据是基于所述伪标签和所述训练数据合成网络所得到的。

具体地，利用上述实施例中训练好的数据合成网络以及伪标签，生成用于训练分割网络的训练数据。

基于上述任一实施例，所述将所述训练数据输入至图像语义分割网络，进行目标域图像语义分割网络的训练，具体包括：

基于所述合成图像和所述伪标签计算分割损失；

具体地，如图3所示，训练模型需要进行多次的反向传播与参数更新，每次更新前向模型输入同样批大小的训练数据，每批训练数据包含同样批大小的生成的合成图像i_fake和其相应的伪标签l；

计算分割损失如下：

其中，y为合成语义分割标签，x为由合成语义分割标签再合成的训练集图像；

重复以上过程，直到达到模型满足第二预设收敛条件，此处第二预设收敛条件为连续十轮训练后在验证集上评估mIOU指标不再增加。

图4为本发明实施例提供的一种图像语义分割模型训练***结构图，如图4所示，包括：获取模块41和处理模块42；其中：

获取模块41用于获取用于训练分割网络的训练数据；处理模块42用于将所述训练数据输入至图像语义分割网络，进行目标域图像语义分割网络的训练；其中所述训练数据是由预先训练好的训练数据合成网络和合成的伪标签所得到。

本发明实施例提供的***用于执行上述对应的方法，其具体的实施方式与方法的实施方式一致，涉及的算法流程与对应的方法算法流程相同，此处不再赘述。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行如下方法：获取用于训练分割网络的训练数据；将所述训练数据输入至图像语义分割网络，进行目标域图像语义分割网络的训练；其中所述训练数据是由预先训练好的训练数据合成网络和合成的伪标签所得到。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：获取用于训练分割网络的训练数据；将所述训练数据输入至图像语义分割网络，进行目标域图像语义分割网络的训练；其中所述训练数据是由预先训练好的训练数据合成网络和合成的伪标签所得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像语义分割模型训练方法，其特征在于，包括：

获取用于训练分割网络的训练数据；

2.根据权利要求1所述的图像语义分割模型训练方法，其特征在于，所述获取用于训练分割网络的训练数据，之前包括：构建语义分割标签合成网络、基于领域自适应机制的训练数据合成网络和基于注意力机制的图像语义分割网络；其中：

3.根据权利要求2所述的图像语义分割模型训练方法，其特征在于，所述编码器的输入为随机噪声，所述解码器的输入为所述编码器的最后全连接层输出，所述解码器的输出为所述伪标签，所述鉴别器的输入为所述自编码器输出的预测图像或真实语义分割标签；

4.根据权利要求2所述的图像语义分割模型训练方法，其特征在于，所述构建语义分割标签合成网络，进一步包括训练所述语义分割标签合成网络，具体包括：

计算鉴别损失并反向传播，优化所述鉴别器；

5.根据权利要求2所述的图像语义分割模型训练方法，其特征在于，所述伪标签是通过将随机高斯噪声输入至所述语义分割标签合成网络所得到，对应地，将所述伪标签进行存储。

6.根据权利要求2所述的图像语义分割模型训练方法，其特征在于，所述基于领域自适应机制的训练数据合成网络，进一步包括训练所述训练数据合成网络，具体包括：

计算所述域鉴别器损失并反向传播，更新所述域鉴别器；

7.根据权利要求2所述的图像语义分割模型训练方法，其特征在于，所述训练数据是基于所述伪标签和所述训练数据合成网络所得到的。

8.根据权利要求6所述的图像语义分割模型训练方法，其特征在于，所述将所述训练数据输入至图像语义分割网络，进行目标域图像语义分割网络的训练，具体包括：

基于所述合成图像和所述伪标签计算分割损失；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述图像语义分割模型训练方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至8任一项所述图像语义分割模型训练方法的步骤。