CN110929744B

CN110929744B - 一种基于层次联合卷积网络特征弱监督图像语义分割方法

Info

Publication number: CN110929744B
Application number: CN201811103919.8A
Authority: CN
Inventors: 朱策; 文宏雕; 段昶; 徐榕键
Original assignee: Chengdu Tubiyou Technology Co ltd
Current assignee: Chengdu Tubiyou Technology Co ltd
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2023-04-28
Anticipated expiration: 2038-09-20
Also published as: CN110929744A

Abstract

本发明属于计算机视觉技术领域，涉及卷积神经网络、图像语义分割、弱监督学习和特征融合等方面，具体为一种基于层次联合卷积网络特征弱监督图像语义分割方法。本发明包括层次掩盖矩阵生成、层次卷积神经网络建立、层次卷积网络特征联合以及层次与联合图像分类损失函数建立并优化等创新性技术。通过将前一层次卷积网络用于分类的显著性区域进行掩盖，迫使后一层次卷积网络提取相对不明显的区域特征并识别目标非主要部分。重复上述步骤，得到多个层次卷积网络分别负责不同显著性区域特征挖掘，然后将各自输出特征图连接到一起组成联合特征图实现更加完整和准确的区域特征挖掘模型。

Description

一种基于层次联合卷积网络特征弱监督图像语义分割方法

技术领域

本发明属于计算机视觉技术领域，涉及卷积神经网络、图像语义分割、弱监督学习和特征融合等方面，具体为一种基于层次联合卷积网络特征的弱监督图像语义分割方法。

背景技术

图像语义分割是计算机视觉中的三大基本任务之一。图像语义分割的定义是对出现的所有像素一一进行分类。而由于它是像素级的分类任务，因此相对图像分类和目标识别的难度要大很多。目前，领先的语义分割算法大多数都通过卷积神经网络(Convolutional Neural Network，CNN)特征提取。虽然CNN相对传统模型具有极大的优势，但是要想较好地拟合深层CNN需要大量标签数据。然而像素级别图像语义分割标签的制作会消耗大量的人力和物力，使得全监督的语义分割模型很难进行快速扩展，基于弱监督学习的图像语义分割技术受到越来越多的关注。其中基于图像类别标签的弱监督图像语义分割最受关注。

如何联系图像分类与语义分割是基于图像类别标签实现弱监督图像语义分割的研究焦点之一，因为图像分类只需要典型特征的支持，它们往往分布于目标的部分区域。通常直接通过图像分类网络得到的分割结果不够准确完整。首先，Singh等人提出一种将输入图像进行掩盖从而迫使网络学习弱势特征实现弱监督目标定位以及行为定位的模型(Singh K K,Lee YJ.Hide-and-Seek:Forcing a Network to be Meticulous forWeakly-supervised Object and Action Localization[J].2017.)。后来，魏等人提出一种基于多实体对抗擦除显著性区域完成弱监督语义分割的方法(Wei Y,Feng J,Liang X,et al.Object Region Mining with Adversarial Erasing:A Simple Classificationto Semantic Segmentation Approach[J].2017:6488-6496.)。其缺点是需要训练多个相同结构的网络分别负责识别与定位不同显著性的区域特征。且多个实体之间相互独立，并没有显示地相互关联进而动态调整。而利用单个网络同时自动掩盖不同显著性区域特征，实现更全面且完整的区域特征挖掘的弱监督语义分割方法还没有被提出和应用。

发明内容

为了丰富卷积网络特征的多样性，提高弱监督图像语义分割中次显著特征的识别能力，本发明提供了一种基于层次联合卷积网络特征的弱监督语义分割方法。

本发明采用的技术方案具体如下：

步骤1：确定图像X和对应的输出类别标签y。选择卷积神经网络Φ作为基础模型,图像X输入网络Φ后得到基本特征图

F＝Φ(X) (1)

其中h，w和c分别代表基本特征图的长，宽和通道数。

步骤2：将基本特征图F分k个层次掩盖。第i个层次的掩盖矩阵为

当前层次以前的所有掩盖矩阵的叠乘与基本特征图进行逐通道的乘积得到掩盖特征图：

其中⊙即为哈达玛乘积。除例外情况，本说明书后文表达式将默认为所有k个个层次。

第1个层次掩盖矩阵的值全部为1：

其它层次掩盖矩阵的值计算方法见步骤7。

步骤3：掩盖特征图分k个层次卷积。第i个层次的卷积网络以H_i表示，相应生成层次特征图

FH_i＝H_i(FM_i) (4)

步骤4：层次特征图经过一次卷积得到分割特征图

其中c_o表示目标类别的数量，假设第i层分割卷积核为Kseg_i，那么分割特征图的计算方法为：

Fseg_i＝FH_i*Kseg_i (5)

其中*表示卷积操作。

步骤5：分割特征图再经过一次卷积得到分类特征图

假设第i层分类卷积核为Kcls_i，则分类特征图的表达式为：

Fcls_i＝Fseg_i*Kcls_i (6)

步骤6：分类特征图通过全局池化得到分类激活向量

若全局池化操作以Ρ表示，分类激活向量为：

Acls_i＝Ρ(Fcls_i) (7)

当池化为全局平均池化时，分类激活向量为：

当池化为全局最大池化时，分类激活向量为：

步骤7：再经过Softmax函数映射为分类概率向量Aprob_i。第j类的概率为：

步骤8：以分割特征图生成第i+1个层次的掩盖矩阵

首先规范第i个层次分割特征图的值至区间0到1，得到规范特征图

其中ε的作用是保证除法的稳定性。

然后将规范特征图进行阈值分离，得到分离特征图

小于阈值的区域将被保留，大于阈值的区域将被掩盖：

其中阈值以γ表示。

最后将分离特征图在类别维度求最大值得到下一层次的掩盖矩阵：

步骤9：完成层次卷积网络的建立。判断当前层次等级是否达到最大等级数量k。若满足终止层次卷积，否则重复步骤2-8。

步骤10：联合层次卷积网络。将全部层次卷积网络输出的层次特征图连接到一起得到联合特征图

Fcomb＝concate(FH₁,FH₂,...,FH_k) (14)

其中concate表示特征图连接操作，此处在特征图通道维进行。

步骤11：利用联合特征图依次得到联合分割特征图，联合分类特征图，联合分类激活向量和联合分类概率向量。假设联合分割卷积核与联合分类卷积核分别为Kcomb_seg和Kcomb_cls。操作方式与步骤4-7一致：

其中

步骤12：建立图像分类目标函数。目标函数包含层次分类损失函数和联合分类损失函数。两种分类损失函数都是通过各自分类激活向量与类别标签的交叉熵计算得到。层次分类损失函数取平均后与联合分类损失函数权重各为一个单位。具体如下：

其中类比标签y是经过one-hot编码的，仅仅在图像存在目标时取1，其它情况下均取0。

步骤13：以式子为目标函数计算误差损失，通过反向传播算法调整网络Φ，H_i,Kseg_i,Kcls_i，Kcomb_seg和Kcomb_cls，以Ψ表示以上全部网络和参数组成的模型。其中i介于1到k之间。重复训练s个步长。

步骤14：用训练完成的模型Ψ预测分割结果图

在联合分割特征图的类别通道维度取最大索引作为预测：

Pseg＝argmax(Fcomb_seg) (17)

其中argmax作用的维度是第三维，也就是类别维度，因而最终预测分割图降低成二维矩阵。

附图说明

图1为基于层次联合卷积网络特征的弱监督图像语义分割模型；

图2为本发明的层次联合卷积网络示意图，该处以层次数量为4进行展示；

图3为本发明的基于层次联合卷积网络特征的弱监督图像语义分割方法流程图；

图4为本发明提出的基于层次联合卷积网络特征的弱监督图像语义分割方法效果对比图。其中第1到4列分别表示输入图像、真分割标签、原模型分割和新提出模型分割。

具体实施方式

下面结合附图和实际例子说明本发明的操作步骤。

步骤1：确定图像X和对应的输出类别标签y。本发明以PASCAL VOC(Everingham,M.,Eslami,S.M.A.,Van Gool,L.,Williams,C.K.I.,Winn,J.and Zisserman,A.International Journal of Computer Vision,111(1),98-136,2015)作为训练及测评数据集，选择经典卷积神经网络VGG-16作为基础模型提取深度特征,图像X输入网络Φ后得到基本特征图

基本特征图的长宽和通道数分别为40，40和512。

步骤2：将基本特征图F分4个层次掩盖。第i个层次的掩盖矩阵为

其中第1个层次掩盖矩阵的值全部为1：

其它层次掩盖矩阵的值计算方法见步骤7。具体示意见说明书附图中的图2。

步骤3：掩盖特征图分4个层次卷积。第i个层次的卷积网络以H_i表示，相应生成层次特征图

FH_i＝H_i(FM_i)

此处全部层次特征图的通道数都设为256。

步骤4：层次特征图经过一次卷积得到分割特征图

其中PASCALVOC的目标类别数量为20，多的一个通道特征图表示背景。假设第i层分割卷积核为Kseg_i，那么分割特征图的计算方法为：

Fseg_i＝FH_i*Kseg_i

其中*表示卷积操作。

步骤5：分割特征图再经过一次卷积得到分类特征图

假设第i层分类卷积核为Kcls_i，则分类特征图的表达式为：

Fcls_i＝Fseg_i*Kcls_i

步骤6：分类特征图通过全局池化得到分类激活向量

若全局池化操作以Ρ表示，分类激活向量为：

Acls_i＝Ρ(Fcls_i)

本发明以池化为例进行具体说明时，那么分类激活向量为：

步骤8：以分割特征图生成第i+1个层次的掩盖矩阵

将ε的值选定为1e-7。然后将规范特征图进行阈值分离，得到分离特征图

小于阈值的区域将被保留，大于阈值的区域将被掩盖：

其中阈值γ设定为0.9。

步骤9：完成层次卷积网络的建立。判断当前层次等级是否达到最大等级数量4。若满足终止层次卷积，否则重复步骤2-8。

Fcomb＝concate(FH₁,FH₂,...,FH₄)

其中concate表示特征图连接操作，它在特征图通道维进行。

其中

步骤13：以式子为目标函数计算误差损失，通过反向传播算法调整网络Φ，H_i,Kseg_i,Kcls_i，Kcomb_seg和Kcomb_cls，以Ψ表示以上全部网络和参数组成的模型。其中i介于1到4之间。重复训练30000个步长。

步骤14：用训练完成的模型Ψ预测分割结果图

在联合分割特征图的类别通道维度取最大索引作为预测：

Pseg＝argmax(Fcomb_seg)

其中argmax作用的维度是第三维，也就是类别维度，因而最终预测分割图降低成二维矩阵。以平均交并比(mIoU)作为评价指标,基于层次联合卷积网络特征的弱监督图像语义分割方法在PASCAL VOC验证集的性能对比如下表：

表1.层次联合卷积网络特征性能对比

模型特征	mIoU(％)
		单层卷积网络特征	53.9
层次联合卷积网络特征	55.4

如表1所示，基于层次联合卷积网络特征的模型在验证集的mIoU指标高出1.5％。进一步结合附图4关于提出方法的图像语义分割效果对比图，从实际效果方面也说明了本发明提出的基于层次联合卷积网络特征的弱监督图像语义分割方法的有效性。

Claims

1.一种基于层次联合卷积网络特征弱监督图像语义分割方法，其技术方案如下：

步骤1：确定图像X和对应的输出类别标签y；选择卷积神经网络Φ作为基础模型，图像X输入网络Φ后得到基本特征图

F＝Φ(X)(1)

其中h，w和c分别代表基本特征图的长，宽和通道数；

步骤2：将基本特征图F分k个层次掩盖；第i个层次的掩盖矩阵为

掩盖矩阵与基本特征图进行逐通道的乘积得到掩盖特征图：

FM_i＝F⊙M_i，i＝1，2，...，k(2)

其中⊙即为哈达玛乘积，所有表达式将默认为k个层次；

第1个层次掩盖矩阵的值全部为1：

其它层次掩盖矩阵的值计算方法见步骤7；

步骤3：掩盖特征图分k个层次卷积；第i个层次的卷积网络以H_i表示，相应生成层次特征图

FH_i＝H_i(FM_i)(4)

步骤4：层次特征图经过一次卷积得到分割特征图

Fseg_i＝FH_i*Kseg_i(5)

其中*表示卷积操作；

步骤5：分割特征图再经过一次卷积得到分类特征图

假设第i层分类卷积核为Kclsi，则分类特征图的表达式为：

Fcls_i＝Fseg_i*Kcls_i(6)

步骤6：分类特征图通过全局池化得到分类激活向量

若全局池化操作以P表示，分类激活向量为：

Acls_i＝P(Fcls_i)(7)

当池化为全局平均池化时，分类激活向量为：

当池化为全局最大池化时，分类激活向量为：

步骤7：再经过Softmax函数映射为分类概率向量Aprob_i；第j类的概率为：

步骤8：以分割特征图生成第i+1个层次的掩盖矩阵

其中ε的作用是保证除法的稳定性；

然后将规范特征图进行阈值分离，得到分离特征图

小于阈值的区域将被保留，大于阈值的区域将被掩盖：

其中阈值以γ表示；

步骤9：完成层次卷积网络的建立；判断当前层次等级是否达到最大等级数量k；若满足终止层次卷积，否则重复步骤2-8；

步骤10：联合层次卷积网络；将全部层次卷积网络输出的层次特征图连接到一起得到联合特征图

Fcomb＝concate(FH₁，FH₂，...，FH_k)(14)

其中concate表示特征图连接操作，此处在特征图通道维进行；

步骤11：利用联合特征图依次得到联合分割特征图，联合分类特征图，联合分类激活向量和联合分类概率向量；假设联合分割卷积核与联合分类卷积核分别为Kcomb_seg和Kcomb_cls；操作方式与步骤4-7一致：

其中

步骤12：建立图像分类目标函数；目标函数包含层次分类损失函数和联合分类损失函数；两种分类损失函数都是通过各自分类激活向量与类别标签的交叉熵计算得到；层次分类损失函数取平均后与联合分类损失函数权重各为一个单位；具体如下：

其中类比标签y是经过one-hot编码的，仅仅在图像存在目标时取1，其它情况下均取0；

步骤13：以式子为目标函数计算误差损失，通过反向传播算法调整网络Φ，H_i，Kseg_i，Kcls_i，Kcomb_seg和Kcomb_cls，以Ψ表示以上全部网络和参数组成的模型；其中i介于1到k之间；重复训练s个步长；

步骤14：用训练完成的模型Ψ预测分割结果图

在联合分割特征图的类别通道维度取最大索引作为预测：

Pseg＝argmax(Fcomb_seg)(17)