CN110929744B - 一种基于层次联合卷积网络特征弱监督图像语义分割方法 - Google Patents
一种基于层次联合卷积网络特征弱监督图像语义分割方法 Download PDFInfo
- Publication number
- CN110929744B CN110929744B CN201811103919.8A CN201811103919A CN110929744B CN 110929744 B CN110929744 B CN 110929744B CN 201811103919 A CN201811103919 A CN 201811103919A CN 110929744 B CN110929744 B CN 110929744B
- Authority
- CN
- China
- Prior art keywords
- feature map
- hierarchical
- classification
- joint
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉技术领域,涉及卷积神经网络、图像语义分割、弱监督学习和特征融合等方面,具体为一种基于层次联合卷积网络特征弱监督图像语义分割方法。本发明包括层次掩盖矩阵生成、层次卷积神经网络建立、层次卷积网络特征联合以及层次与联合图像分类损失函数建立并优化等创新性技术。通过将前一层次卷积网络用于分类的显著性区域进行掩盖,迫使后一层次卷积网络提取相对不明显的区域特征并识别目标非主要部分。重复上述步骤,得到多个层次卷积网络分别负责不同显著性区域特征挖掘,然后将各自输出特征图连接到一起组成联合特征图实现更加完整和准确的区域特征挖掘模型。
Description
技术领域
本发明属于计算机视觉技术领域,涉及卷积神经网络、图像语义分割、弱监督学习和特征融合等方面,具体为一种基于层次联合卷积网络特征的弱监督图像语义分割方法。
背景技术
图像语义分割是计算机视觉中的三大基本任务之一。图像语义分割的定义是对出现的所有像素一一进行分类。而由于它是像素级的分类任务,因此相对图像分类和目标识别的难度要大很多。目前,领先的语义分割算法大多数都通过卷积神经网络(Convolutional Neural Network,CNN)特征提取。虽然CNN相对传统模型具有极大的优势,但是要想较好地拟合深层CNN需要大量标签数据。然而像素级别图像语义分割标签的制作会消耗大量的人力和物力,使得全监督的语义分割模型很难进行快速扩展,基于弱监督学习的图像语义分割技术受到越来越多的关注。其中基于图像类别标签的弱监督图像语义分割最受关注。
如何联系图像分类与语义分割是基于图像类别标签实现弱监督图像语义分割的研究焦点之一,因为图像分类只需要典型特征的支持,它们往往分布于目标的部分区域。通常直接通过图像分类网络得到的分割结果不够准确完整。首先,Singh等人提出一种将输入图像进行掩盖从而迫使网络学习弱势特征实现弱监督目标定位以及行为定位的模型(Singh K K,Lee YJ.Hide-and-Seek:Forcing a Network to be Meticulous forWeakly-supervised Object and Action Localization[J].2017.)。后来,魏等人提出一种基于多实体对抗擦除显著性区域完成弱监督语义分割的方法(Wei Y,Feng J,Liang X,et al.Object Region Mining with Adversarial Erasing:A Simple Classificationto Semantic Segmentation Approach[J].2017:6488-6496.)。其缺点是需要训练多个相同结构的网络分别负责识别与定位不同显著性的区域特征。且多个实体之间相互独立,并没有显示地相互关联进而动态调整。而利用单个网络同时自动掩盖不同显著性区域特征,实现更全面且完整的区域特征挖掘的弱监督语义分割方法还没有被提出和应用。
发明内容
为了丰富卷积网络特征的多样性,提高弱监督图像语义分割中次显著特征的识别能力,本发明提供了一种基于层次联合卷积网络特征的弱监督语义分割方法。
本发明采用的技术方案具体如下:
F=Φ(X) (1)
其中h,w和c分别代表基本特征图的长,宽和通道数。
其中⊙即为哈达玛乘积。除例外情况,本说明书后文表达式将默认为所有k个个层次。
第1个层次掩盖矩阵的值全部为1:
其它层次掩盖矩阵的值计算方法见步骤7。
FHi=Hi(FMi) (4)
Fsegi=FHi*Ksegi (5)
其中*表示卷积操作。
Fclsi=Fsegi*Kclsi (6)
Aclsi=Ρ(Fclsi) (7)
当池化为全局平均池化时,分类激活向量为:
当池化为全局最大池化时,分类激活向量为:
步骤7:再经过Softmax函数映射为分类概率向量Aprobi。第j类的概率为:
其中ε的作用是保证除法的稳定性。
其中阈值以γ表示。
最后将分离特征图在类别维度求最大值得到下一层次的掩盖矩阵:
步骤9:完成层次卷积网络的建立。判断当前层次等级是否达到最大等级数量k。若满足终止层次卷积,否则重复步骤2-8。
Fcomb=concate(FH1,FH2,...,FHk) (14)
其中concate表示特征图连接操作,此处在特征图通道维进行。
步骤11:利用联合特征图依次得到联合分割特征图,联合分类特征图,联合分类激活向量和联合分类概率向量。假设联合分割卷积核与联合分类卷积核分别为Kcomb_seg和Kcomb_cls。操作方式与步骤4-7一致:
步骤12:建立图像分类目标函数。目标函数包含层次分类损失函数和联合分类损失函数。两种分类损失函数都是通过各自分类激活向量与类别标签的交叉熵计算得到。层次分类损失函数取平均后与联合分类损失函数权重各为一个单位。具体如下:
其中类比标签y是经过one-hot编码的,仅仅在图像存在目标时取1,其它情况下均取0。
步骤13:以式子为目标函数计算误差损失,通过反向传播算法调整网络Φ,Hi,Ksegi,Kclsi,Kcomb_seg和Kcomb_cls,以Ψ表示以上全部网络和参数组成的模型。其中i介于1到k之间。重复训练s个步长。
Pseg=argmax(Fcomb_seg) (17)
其中argmax作用的维度是第三维,也就是类别维度,因而最终预测分割图降低成二维矩阵。
附图说明
图1为基于层次联合卷积网络特征的弱监督图像语义分割模型;
图2为本发明的层次联合卷积网络示意图,该处以层次数量为4进行展示;
图3为本发明的基于层次联合卷积网络特征的弱监督图像语义分割方法流程图;
图4为本发明提出的基于层次联合卷积网络特征的弱监督图像语义分割方法效果对比图。其中第1到4列分别表示输入图像、真分割标签、原模型分割和新提出模型分割。
具体实施方式
下面结合附图和实际例子说明本发明的操作步骤。
步骤1:确定图像X和对应的输出类别标签y。本发明以PASCAL VOC(Everingham,M.,Eslami,S.M.A.,Van Gool,L.,Williams,C.K.I.,Winn,J.and Zisserman,A.International Journal of Computer Vision,111(1),98-136,2015)作为训练及测评数据集,选择经典卷积神经网络VGG-16作为基础模型提取深度特征,图像X输入网络Φ后得到基本特征图基本特征图的长宽和通道数分别为40,40和512。
其中第1个层次掩盖矩阵的值全部为1:
其它层次掩盖矩阵的值计算方法见步骤7。具体示意见说明书附图中的图2。
FHi=Hi(FMi)
此处全部层次特征图的通道数都设为256。
Fsegi=FHi*Ksegi
其中*表示卷积操作。
Fclsi=Fsegi*Kclsi
Aclsi=Ρ(Fclsi)
本发明以池化为例进行具体说明时,那么分类激活向量为:
步骤7:再经过Softmax函数映射为分类概率向量Aprobi。第j类的概率为:
其中阈值γ设定为0.9。
最后将分离特征图在类别维度求最大值得到下一层次的掩盖矩阵:
步骤9:完成层次卷积网络的建立。判断当前层次等级是否达到最大等级数量4。若满足终止层次卷积,否则重复步骤2-8。
Fcomb=concate(FH1,FH2,...,FH4)
其中concate表示特征图连接操作,它在特征图通道维进行。
步骤11:利用联合特征图依次得到联合分割特征图,联合分类特征图,联合分类激活向量和联合分类概率向量。假设联合分割卷积核与联合分类卷积核分别为Kcomb_seg和Kcomb_cls。操作方式与步骤4-7一致:
步骤12:建立图像分类目标函数。目标函数包含层次分类损失函数和联合分类损失函数。两种分类损失函数都是通过各自分类激活向量与类别标签的交叉熵计算得到。层次分类损失函数取平均后与联合分类损失函数权重各为一个单位。具体如下:
其中类比标签y是经过one-hot编码的,仅仅在图像存在目标时取1,其它情况下均取0。
步骤13:以式子为目标函数计算误差损失,通过反向传播算法调整网络Φ,Hi,Ksegi,Kclsi,Kcomb_seg和Kcomb_cls,以Ψ表示以上全部网络和参数组成的模型。其中i介于1到4之间。重复训练30000个步长。
Pseg=argmax(Fcomb_seg)
其中argmax作用的维度是第三维,也就是类别维度,因而最终预测分割图降低成二维矩阵。以平均交并比(mIoU)作为评价指标,基于层次联合卷积网络特征的弱监督图像语义分割方法在PASCAL VOC验证集的性能对比如下表:
表1.层次联合卷积网络特征性能对比
模型特征 | mIoU(%) |
单层卷积网络特征 | 53.9 |
层次联合卷积网络特征 | 55.4 |
如表1所示,基于层次联合卷积网络特征的模型在验证集的mIoU指标高出1.5%。进一步结合附图4关于提出方法的图像语义分割效果对比图,从实际效果方面也说明了本发明提出的基于层次联合卷积网络特征的弱监督图像语义分割方法的有效性。
Claims (1)
1.一种基于层次联合卷积网络特征弱监督图像语义分割方法,其技术方案如下:
步骤1:确定图像X和对应的输出类别标签y;选择卷积神经网络Φ作为基础模型,图像X输入网络Φ后得到基本特征图
F=Φ(X)(1)
其中h,w和c分别代表基本特征图的长,宽和通道数;
步骤2:将基本特征图F分k个层次掩盖;第i个层次的掩盖矩阵为
掩盖矩阵与基本特征图进行逐通道的乘积得到掩盖特征图:
FMi=F⊙Mi,i=1,2,...,k(2)
其中⊙即为哈达玛乘积,所有表达式将默认为k个层次;
第1个层次掩盖矩阵的值全部为1:
其它层次掩盖矩阵的值计算方法见步骤7;
步骤3:掩盖特征图分k个层次卷积;第i个层次的卷积网络以Hi表示,相应生成层次特征图
FHi=Hi(FMi)(4)
步骤4:层次特征图经过一次卷积得到分割特征图
其中co表示目标类别的数量,假设第i层分割卷积核为Ksegi,那么分割特征图的计算方法为:
Fsegi=FHi*Ksegi(5)
其中*表示卷积操作;
步骤5:分割特征图再经过一次卷积得到分类特征图
假设第i层分类卷积核为Kclsi,则分类特征图的表达式为:
Fclsi=Fsegi*Kclsi(6)
步骤6:分类特征图通过全局池化得到分类激活向量
若全局池化操作以P表示,分类激活向量为:
Aclsi=P(Fclsi)(7)
当池化为全局平均池化时,分类激活向量为:
当池化为全局最大池化时,分类激活向量为:
步骤7:再经过Softmax函数映射为分类概率向量Aprobi;第j类的概率为:
步骤8:以分割特征图生成第i+1个层次的掩盖矩阵
首先规范第i个层次分割特征图的值至区间0到1,得到规范特征图
其中ε的作用是保证除法的稳定性;
然后将规范特征图进行阈值分离,得到分离特征图
小于阈值的区域将被保留,大于阈值的区域将被掩盖:
其中阈值以γ表示;
最后将分离特征图在类别维度求最大值得到下一层次的掩盖矩阵:
步骤9:完成层次卷积网络的建立;判断当前层次等级是否达到最大等级数量k;若满足终止层次卷积,否则重复步骤2-8;
步骤10:联合层次卷积网络;将全部层次卷积网络输出的层次特征图连接到一起得到联合特征图
Fcomb=concate(FH1,FH2,...,FHk)(14)
其中concate表示特征图连接操作,此处在特征图通道维进行;
步骤11:利用联合特征图依次得到联合分割特征图,联合分类特征图,联合分类激活向量和联合分类概率向量;假设联合分割卷积核与联合分类卷积核分别为Kcomb_seg和Kcomb_cls;操作方式与步骤4-7一致:
其中
步骤12:建立图像分类目标函数;目标函数包含层次分类损失函数和联合分类损失函数;两种分类损失函数都是通过各自分类激活向量与类别标签的交叉熵计算得到;层次分类损失函数取平均后与联合分类损失函数权重各为一个单位;具体如下:
其中类比标签y是经过one-hot编码的,仅仅在图像存在目标时取1,其它情况下均取0;
步骤13:以式子为目标函数计算误差损失,通过反向传播算法调整网络Φ,Hi,Ksegi,Kclsi,Kcomb_seg和Kcomb_cls,以Ψ表示以上全部网络和参数组成的模型;其中i介于1到k之间;重复训练s个步长;
步骤14:用训练完成的模型Ψ预测分割结果图
在联合分割特征图的类别通道维度取最大索引作为预测:
Pseg=argmax(Fcomb_seg)(17)
其中argmax作用的维度是第三维,也就是类别维度,因而最终预测分割图降低成二维矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811103919.8A CN110929744B (zh) | 2018-09-20 | 2018-09-20 | 一种基于层次联合卷积网络特征弱监督图像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811103919.8A CN110929744B (zh) | 2018-09-20 | 2018-09-20 | 一种基于层次联合卷积网络特征弱监督图像语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110929744A CN110929744A (zh) | 2020-03-27 |
CN110929744B true CN110929744B (zh) | 2023-04-28 |
Family
ID=69856438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811103919.8A Active CN110929744B (zh) | 2018-09-20 | 2018-09-20 | 一种基于层次联合卷积网络特征弱监督图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929744B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111916B (zh) * | 2021-03-15 | 2023-06-23 | 中国科学院计算技术研究所 | 一种基于弱监督的医学图像语义分割方法和*** |
CN115082657A (zh) * | 2022-04-14 | 2022-09-20 | 华南理工大学 | 基于软擦除的弱监督目标定位算法 |
CN114677515B (zh) * | 2022-04-25 | 2023-05-26 | 电子科技大学 | 基于类间相似性的弱监督语义分割方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106530305A (zh) * | 2016-09-23 | 2017-03-22 | 北京市商汤科技开发有限公司 | 语义分割模型训练和图像分割方法及装置、计算设备 |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
CN108132968A (zh) * | 2017-12-01 | 2018-06-08 | 西安交通大学 | 网络文本与图像中关联语义基元的弱监督学习方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106327469B (zh) * | 2015-06-29 | 2019-06-18 | 北京航空航天大学 | 一种语义标签引导的视频对象分割方法 |
-
2018
- 2018-09-20 CN CN201811103919.8A patent/CN110929744B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106530305A (zh) * | 2016-09-23 | 2017-03-22 | 北京市商汤科技开发有限公司 | 语义分割模型训练和图像分割方法及装置、计算设备 |
CN108132968A (zh) * | 2017-12-01 | 2018-06-08 | 西安交通大学 | 网络文本与图像中关联语义基元的弱监督学习方法 |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110929744A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song et al. | Seednet: Automatic seed generation with deep reinforcement learning for robust interactive segmentation | |
CN105095862B (zh) | 一种基于深度卷积条件随机场的人体动作识别方法 | |
CN110929744B (zh) | 一种基于层次联合卷积网络特征弱监督图像语义分割方法 | |
CN112836687B (zh) | 视频行为分割方法、装置、计算机设备及介质 | |
EP2568429A1 (en) | Method and system for pushing individual advertisement based on user interest learning | |
CN113255915B (zh) | 基于结构化实例图的知识蒸馏方法、装置、设备和介质 | |
CN111428771B (zh) | 视频场景分类方法、装置和计算机可读存储介质 | |
CN109002755B (zh) | 基于人脸图像的年龄估计模型构建方法及估计方法 | |
CN104462494A (zh) | 一种基于无监督特征学习的遥感图像检索方法及*** | |
CN113313173B (zh) | 基于图表示和改进Transformer的人体解析方法 | |
CN107506792B (zh) | 一种半监督的显著对象检测方法 | |
CN114549913B (zh) | 一种语义分割方法、装置、计算机设备和存储介质 | |
CN112183295A (zh) | 行人重识别方法、装置、计算机设备及存储介质 | |
CN113469092B (zh) | 字符识别模型生成方法、装置、计算机设备和存储介质 | |
CN111667001A (zh) | 目标重识别方法、装置、计算机设备和存储介质 | |
Ros et al. | Unsupervised image transformation for outdoor semantic labelling | |
Furlán et al. | Rock detection in a Mars-like environment using a CNN | |
CN111612024A (zh) | 特征提取方法、装置、电子设备及计算机可读存储介质 | |
Avi-Aharon et al. | Deephist: Differentiable joint and color histogram layers for image-to-image translation | |
CN113505797A (zh) | 模型训练方法、装置、计算机设备和存储介质 | |
CN113705596A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN111309923B (zh) | 对象向量确定、模型训练方法、装置、设备和存储介质 | |
CN104732534A (zh) | 一种图像中显著目标的抠取方法及*** | |
Huang et al. | A fully-automatic image colorization scheme using improved CycleGAN with skip connections | |
CN113012188A (zh) | 图像融合方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |