CN112801104A

CN112801104A - 基于语义分割的图像像素级伪标签确定方法及***

Info

Publication number: CN112801104A
Application number: CN202110074943.9A
Authority: CN
Inventors: 于哲舟; 张哲�; 王碧琳; 李志远; 王兰亭; 赵凤志
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-05-14
Anticipated expiration: 2041-01-20
Also published as: CN112801104B

Abstract

本发明涉及一种基于语义分割的图像像素级伪标签确定方法及***，该方法包括：获取第一图像并对其进行特征提取，得到第一特征图；根据第一特征图得到第二特征图和多个第三特征图；进而得到多个第一像素关系测量矩阵以及第二像素关系测量矩阵；根据第二特征图和第二像素关系测量矩阵得到第四特征图；进而得到张量矩阵以及张量矩阵与图像输出概率的函数关系；根据函数关系对应的损失函数训练分类网络；根据训练后的分类网络和第四特征图得到目标位置图和背景目标图；根据第一图像、目标位置图和背景目标图对语义分割网络模型进行训练；将待测图像输入训练后的语义分割网络模型得到图像像素级伪标签。本发明能够得到分割网络的像素级伪标签。

Description

基于语义分割的图像像素级伪标签确定方法及***

技术领域

本发明涉及图像语义分割领域，特别是涉及一种基于语义分割的图像像素级伪标签确定方法及***。

背景技术

由于语义分割标签需要对图像的每一个像素进行标注，这导致了大量的耗时和费力。训练数据集的生成已经成为语义分割研究的瓶颈。因此，如何以廉价、高效的方式获得给定图像的像素级标注，是未来语义分割的一个很有前途的方向。

发明内容

本发明的目的是提供一种基于语义分割的图像像素级伪标签确定方法及***，能够通过分类网络的图像及标签得到分割网络的像素级伪标签。

为实现上述目的，本发明提供了如下方案：

一种基于语义分割的图像像素级伪标签确定方法，包括：

获取初始图像并对所述初始图像进行预处理，得到第一图像；

利用特征提取器对所述第一图像进行特征提取，得到第一特征图；

将所述第一特征图输入空洞卷积像素关系模型，得到第二特征图和多个第三特征图；

对所述第二特征图和每一个第三特征图分别进行矩阵乘积运算，对应得到多个第一像素关系测量矩阵；

对所述多个第一像素关系测量矩阵进行平均融合得到第二像素关系测量矩阵；

对所述第二特征图和第二像素关系测量矩阵进行矩阵乘积运算，得到第四特征图；

将所述第四特征图输入全局平均池化层，得到张量矩阵；

将所述张量矩阵输入softmax分类层进行分类，得到所述张量矩阵与图像输出概率的函数关系；

根据所述函数关系对应的损失函数训练分类网络，得到训练后的分类网络；

根据所述训练后的分类网络和第四特征图得到目标位置图和背景目标图；

获取语义分割网络模型；

根据所述第一图像、目标位置图和背景目标图对所述语义分割网络模型进行训练，得到训练后的语义分割网络模型；

将待测图像输入所述训练后的语义分割网络模型得到图像像素级伪标签。

可选的，对初始图像以[321,481]范围随机缩放，然后将图片裁剪到尺寸为321*321，得到第一图像。

可选的，所述特征提取器为去除VGG-16模型结构中最后两个池层的改进型VGG-16网络模型。

可选的，所述张量矩阵与图像输出概率的函数关系为

其中，

表示对于类n,F_C的权重参数，P_n表示类n的图像输出概率，F_C表示张量矩阵。

可选的，所述语义分割网络模型为DeepLab-ASPP网络模型。

可选的，所述初始图像采用PASCAL VOC 2012数据集。

可选的，在将所述第一特征图输入空洞卷积像素关系模型，得到第二特征图和多个第三特征图步骤之后，对所述第二特征图和每一个第三特征图分别进行矩阵乘积运算，对应得到多个第一像素关系测量矩阵步骤之前，还包括：

对所述第二特征图和多个第三特征图进行尺寸重塑。

可选的，所述第一特征图是通过改进型VGG-16网络模型的conv5_3层获得。

可选的，所述第一特征图尺寸为C*H*W，其中C为通道数量，W,H分别为特征图尺寸。

一种基于语义分割的图像像素级伪标签确定***，包括：

预处理模块，用于获取初始图像并对所述初始图像进行预处理，得到第一图像；

特征提取模块，用于利用特征提取器对所述第一图像进行特征提取，得到第一特征图；

第一输入模块，用于将所述第一特征图输入空洞卷积像素关系模型，得到第二特征图和多个第三特征图；

第一矩阵乘积运算模块，用于对所述第二特征图和每一个第三特征图分别进行矩阵乘积运算，对应得到多个第一像素关系测量矩阵；

矩阵融合模块，用于对所述多个第一像素关系测量矩阵进行平均融合得到第二像素关系测量矩阵；

第二矩阵乘积运算模块，用于对所述第二特征图和第二像素关系测量矩阵进行矩阵乘积运算，得到第四特征图；

第二输入模块，用于将所述第四特征图输入全局平均池化层，得到张量矩阵；

分类模块，用于将所述张量矩阵输入softmax分类层进行分类，得到所述张量矩阵与图像输出概率的函数关系；

第一网络训练模块，用于根据所述函数关系对应的损失函数训练分类网络，得到训练后的分类网络；

目标位置图和背景目标图确定模块，用于根据所述训练后的分类网络和第四特征图得到目标位置图和背景目标图；

模型获取模块，用于获取语义分割网络模型；

第二网络训练模块，用于根据所述第一图像、目标位置图和背景目标图对所述语义分割网络模型进行训练，得到训练后的语义分割网络模型；

伪标签确定模块，用于将待测图像输入所述训练后的语义分割网络模型得到图像像素级伪标签。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明通过设计深度神经分类网络为分割网络提供高质伪标签训练分割网络，从而进行图像语义分割。提出空洞卷积像素关系网络，在分类网络中结合空洞卷积于与注意力机制产生空洞卷积特征图与一般卷积特征图之间的像素关系模型，促进分类网产生的类激励图可以高亮更完整的目标区域，从而产生更高质量的分割网络伪标签，提高分割网络的分割能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明语义分割的图像像素级伪标签确定方法流程图；

图2为本发明空洞卷积像素关系网络结构图；

图3为本发明空洞卷积像素关系模型图；

图4为本发明语义分割的图像像素级伪标签确定***模块图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明公开了一种语义分割的图像像素级伪标签确定方法，包括：

步骤101：获取初始图像并对所述初始图像进行预处理，得到第一图像。

步骤102：利用特征提取器对所述第一图像进行特征提取，得到第一特征图。

步骤103：将所述第一特征图输入空洞卷积像素关系模型，得到第二特征图和多个第三特征图。

步骤104：对所述第二特征图和每一个第三特征图分别进行矩阵乘积运算，对应得到多个第一像素关系测量矩阵。

步骤105：对所述多个第一像素关系测量矩阵进行平均融合得到第二像素关系测量矩阵。

步骤106：对所述第二特征图和第二像素关系测量矩阵进行矩阵乘积运算，得到第四特征图。

步骤107：将所述第四特征图输入全局平均池化层，得到张量矩阵。

步骤108：将所述张量矩阵输入softmax分类层进行分类，得到所述张量矩阵与图像输出概率的函数关系。

步骤109：根据所述函数关系对应的损失函数训练分类网络，得到训练后的分类网络。

步骤110：根据所述训练后的分类网络和第四特征图得到目标位置图和背景目标图。

步骤111：获取语义分割网络模型。

步骤112：根据所述第一图像、目标位置图和背景目标图对所述语义分割网络模型进行训练，得到训练后的语义分割网络模型。

步骤113：将待测图像输入所述训练后的语义分割网络模型得到图像像素级伪标签。

步骤101具体包括：

采用PASCAL VOC 2012数据集(20个前景类和一个背景类)，其中包括1464张图片作为训练集，1449张图片作为验证集，1456张图片作为测试集。

将图片以[321,481]范围随机缩放，然后将图片裁剪到尺寸为321*321作为网络的输入图像集A。

步骤102具体包括：

2.1将在ImagNet数据库上进行预训练的VGG-16模型作为特征提取器。

2.2去除VGG-16模型结构中最后两个池化层以提高特征地图的分辨率。

2.3将输入图像集A传入改变的VGG-16模型中进行特征提取。

2.4在VGG-16模型conv5_3层获得尺寸为C*H*W的特征图Z，其中C为通道数量，W，H分别为特征图尺寸。

步骤103-106具体包括：

3.1将改进型VGG-16的获得的特征图传入空洞卷积像素关系模型(DCPAM)。

3.2DCPAM将特征图Z(第一特征图)分别代入空洞卷积单元和标准卷积单元，分别得到特征图D∈R^C×H×W(第三特征图)和S∈R^C×H×W(第二特征图)。

3.3将S和D重塑尺寸为R^C×N，其中N＝H×W，是S和D特征图中位置的总数。

3.4通过对重塑的特征图S和D之间进行矩阵乘积来获得其之间的第一像素关系测量矩阵A∈R^N×N。A的特征值表示为

其中i和j为重塑的特征图S和D位置索引，S_i和D_j为重塑的特征图S和D在i位置和j位置的特征值。

3.5通过softmax层对ai,j进行归一化操作

3.6将标准卷积单元输出的特征图(第二特征图)与空洞卷积单元中不同空洞率卷积核输出的特征图(第三特征图)之间的多个第一像素关系测量矩阵进行平均融合，得到第二像素关系测量矩阵

其中d表示空洞卷积率，A^d表示标准卷积单元输出的特征图与空洞卷积率为d的卷积核输出的特征图之间的第一像素关系测量矩阵。

3.7用第二像素关系测量矩阵A加强标准卷积单元生成的重塑特征图S，执行S和A之间的矩阵乘法，然后我们将结果重整为R^C×H×W，并用S进行元素求和，以获得增强的特征图(第四特征图)E∈R^C×H×W，

其中λ初始化为0并通过训练逐渐学习。

步骤107具体包括：

将获得的加强特征图(第四特征图)传入平均池化层中，对于通道C执行全局平均池化层的结果为

最终得到张量矩阵R^C×H×W∈R^C×1×1作为图像表示。

步骤108具体包括：

将图像表示张量矩阵代入softmax分类层进行分类,对于类n，softmax输出为

其中

表示对于类n,FC的权重参数，P_n表示类n的图像输出概率，F_C表示张量矩阵。。

步骤109具体包括：

通过图像类别标签进行Cross-Entropy loss损失函数的计算，训练分类网络，其中损失函数为

y_n表示数据集的标签，n标示类别。这个损失函数通过随机梯度下降优化分类网络。

步骤110具体包括：

7.1将训练好的分类网络中的GAP层与分类层之间权重参数

传入分类网络中的加强特征图E(第四特征图)进行操作得到目标位置图：

M_n(i,j)表示属于类别n的目标位置图。

7.2根据分类网络中概率最低的类的位置图高亮与目标无关的区域，我们采用前x个概率最低的类别作为背景目标，

其中b(x)为平衡融合函数：

步骤111-112是将目标位置图作为分割网络伪标签训练分割网络，以下是训练分割网络的超参数设置。

具体包括：

8.1采用DeepLab-ASPP作为语义分割网络模型。

8.2取子步骤7.1中目标位置图中的像素值最高的前20％作为前景目标。

8.3取子步骤7.2中背景目标位置图中的像素值最高的前30％作为背景目标，设置p＝3,q＝数据集类别数量-p。

8.4训练过程中忽略所有未分配和冲突的像素。

8.5用PASCAL VOC 2012数据集作为分割网络的训练数据，定义为G，对于任何训练图像g∈G。

8.6定义标签集为N＝n^fg∪n^bg,其中n^fg为前景标签，n^bg为背景标签。

8.7将分割网络模型定义为f(g；θ)，其中θ为可优化参数。f_u,c(g；θ)表示分割模型对特定类置信度图的任意位置u处的任何标签c的条件概率进行的建模。

8.8定义平衡种子损失函数：

Hc表示有目标位置图Mn(i,j)生成的像素级分割伪标签，|·|表示像素的数量。

8.9定义辅助种子损失函数：

表示图像由分割模型在线预测的目标位置标签。

8.10通过条件随机场(CRF)定义边界约束损失函数：

其中Ru,c(i,f(i；θ))为全连接CRF的输出概率图。

8.11最终模型的损失函数定义为：L＝L_seed+L_seg+L_boundary。

8.12将mini-batch设置为10张图像，动量为0.9，重量衰减为0.0005。初始学习率为5e-3，每2000次迭代将其降低10倍，并且训练在10000次迭代后终止。

经过步骤112之后就得到了训练后的语义分割网络模型，后续可以直接将待测图像输入训练后的语义分割网络模型就可以得到图像像素级伪标签。

1、此外，本发明还公开了供一种基于语义分割的图像像素级伪标签确定***，如图4所示，一种基于语义分割的图像像素级伪标签确定***，包括：

预处理模块201，用于获取初始图像并对所述初始图像进行预处理，得到第一图像。

特征提取模块202，用于利用特征提取器对所述第一图像进行特征提取，得到第一特征图。

第一输入模块203，用于将所述第一特征图输入空洞卷积像素关系模型，得到第二特征图和多个第三特征图。

第一矩阵乘积运算模块204，用于对所述第二特征图和每一个第三特征图分别进行矩阵乘积运算，对应得到多个第一像素关系测量矩阵。

矩阵融合模块205，用于对所述多个第一像素关系测量矩阵进行平均融合得到第二像素关系测量矩阵。

第二矩阵乘积运算模块206，用于对所述第二特征图和第二像素关系测量矩阵进行矩阵乘积运算，得到第四特征图。

第二输入模块207，用于将所述第四特征图输入全局平均池化层，得到张量矩阵。

分类模块208，用于将所述张量矩阵输入softmax分类层进行分类，得到所述张量矩阵与图像输出概率的函数关系。

第一网络训练模块209，用于根据所述函数关系对应的损失函数训练分类网络，得到训练后的分类网络。

目标位置图和背景目标图确定模块210，用于根据所述训练后的分类网络和第四特征图得到目标位置图和背景目标图。

模型获取模块211，用于获取语义分割网络模型。

第二网络训练模块212，用于根据所述第一图像、目标位置图和背景目标图对所述语义分割网络模型进行训练，得到训练后的语义分割网络模型。

伪标签确定模块213，用于将待测图像输入所述训练后的语义分割网络模型得到图像像素级伪标签。

本发明还公开了如下技术效果：

1、本发明通过分类网络结合空洞卷积和注意力机制的优点，可以有效地扩大高亮的目标区域同时，也可以增强类相关目标区域抑制类不相关区域的产生，得到更高质量的语义分割为标签，从而提高分割网络的分割能力。

2、本发明通过设计深度神经分类网络为分割网络提供高质伪标签训练分割网络，从而进行图像语义分割。提出空洞卷积像素关系网络，在分类网络中结合空洞卷积于与注意力机制产生空洞卷积特征图与一般卷积特征图之间的像素关系模型，促进分类网产生的类激励图可以高亮更完整的目标区域，从而产生更高质量的分割网络伪标签，也能够提高分割网络的分割能力。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于语义分割的图像像素级伪标签确定方法，其特征在于，包括：

将所述第四特征图输入全局平均池化层，得到张量矩阵；

获取语义分割网络模型；

2.根据权利要求1所述的基于语义分割的图像像素级伪标签确定方法，其特征在于，对初始图像以[321,481]范围随机缩放，然后将图片裁剪到尺寸为321*321，得到第一图像。

3.根据权利要求1所述的基于语义分割的图像像素级伪标签确定方法，其特征在于，所述特征提取器为去除VGG-16模型结构中最后两个池化层的改进型VGG-16网络模型。

4.根据权利要求1所述的基于语义分割的图像像素级伪标签确定方法，其特征在于，所述张量矩阵与图像输出概率的函数关系为

其中，

5.根据权利要求1所述的基于语义分割的图像像素级伪标签确定方法，其特征在于，所述语义分割网络模型为DeepLab-ASPP网络模型。

6.根据权利要求1所述的基于语义分割的图像像素级伪标签确定方法，其特征在于，所述初始图像采用PASCAL VOC 2012数据集。

7.根据权利要求1所述的基于语义分割的图像像素级伪标签确定方法，其特征在于，在将所述第一特征图输入空洞卷积像素关系模型，得到第二特征图和多个第三特征图步骤之后，对所述第二特征图和每一个第三特征图分别进行矩阵乘积运算，对应得到多个第一像素关系测量矩阵步骤之前，还包括：

对所述第二特征图和多个第三特征图进行尺寸重塑。

8.根据权利要求3所述的基于语义分割的图像像素级伪标签确定方法，其特征在于，所述第一特征图是通过改进型VGG-16网络模型的conv5_3层获得。

9.根据权利要求1或8所述的基于语义分割的图像像素级伪标签确定方法，其特征在于，所述第一特征图尺寸为C*H*W，其中C为通道数量，W,H分别为特征图尺寸。

10.一种基于语义分割的图像像素级伪标签确定***，其特征在于，包括：

模型获取模块，用于获取语义分割网络模型；