CN110443818A - 一种基于涂鸦的弱监督语义分割方法与*** - Google Patents

一种基于涂鸦的弱监督语义分割方法与*** Download PDF

Info

Publication number
CN110443818A
CN110443818A CN201910588880.1A CN201910588880A CN110443818A CN 110443818 A CN110443818 A CN 110443818A CN 201910588880 A CN201910588880 A CN 201910588880A CN 110443818 A CN110443818 A CN 110443818A
Authority
CN
China
Prior art keywords
semantic segmentation
current image
scribble
boundary
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910588880.1A
Other languages
English (en)
Other versions
CN110443818B (zh
Inventor
唐胜
王斌
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201910588880.1A priority Critical patent/CN110443818B/zh
Publication of CN110443818A publication Critical patent/CN110443818A/zh
Application granted granted Critical
Publication of CN110443818B publication Critical patent/CN110443818B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于涂鸦的弱监督语义分割方法与***,包括:获取多张训练图片,训练图片均对应有涂鸦标记和边缘图;选取训练图片作为当前图片,将当前图片输入至语义分割网络,得到当前图片的高层语义特征;将高层语义特征输入至预测修正网络,得到当前图片的分割结果图,并根据当前图片的涂鸦标记,得到当前图片中涂鸦标记区域的交叉熵损失;将高层语义特征输入至边界回归网络,得到当前图片中目标的边界图,并根据当前图片的边缘图,得到边界图中边界区域的均值方差损失;构建总损失函数,并判断总损失函数是否收敛,若是,则将当前预测修正网络作为语义分割模型;将待语义分割的图片输入至语义分割模型,得到待语义分割的图片的分割结果图。

Description

一种基于涂鸦的弱监督语义分割方法与***
技术领域
本方法属于机器学习和计算机视觉领域,特别涉及面向计算机视觉中弱监督语义分割的机器学习问题。
背景技术
目前流行的场景分割方法主要基于全卷积网络(Fully Convolutional Network,FCN)及其变形。这些方法均结合了迁移学习的想法,利用在大规模图像分类数据集上预训练好的卷积神经网络,将其调整为全卷积网络结构并在弱监督语义分割数据集上进行重训练。对于精细标注的训练,这种方式可以取到很好的分割结果。然而,当仅提供弱标记训练网络时,这类方法主要存在以下问题:(1)分割结果中常常出现不一致、不连续的问题,(2)目标的分割边界常常是不精准、不连贯的。
目前深度学习,特别是卷积神经网络(Convolutional Neural Network,CNNs),使人工智能和计算机视觉的众多领域取得了巨大的进展。语义分割领域,FCN、deeplab-v2等分割模型被相继提出。基于精细标注的语义分割算法取得了很好的分割结果。然而,精细分割标注相对于分类和检测的标注十分耗时耗力。为了缓解语义分割算法对于精细标注的依赖,弱监督语义分割算法被提出,并逐渐成为新的研究热点。
弱监督语义分割大体可以分为以下四个类别:1、基于图像的弱监督语义分割,2、基于点标记的弱监督语义分割,3、基于包围框的弱监督语义分割,4、基于涂鸦的弱监督语义分割。对于基于图像级别和基于点标记的弱监督语义分割算法,极度有限的标记信息使得训练高精度的语义分割网络非常困难。相比之下,基于涂鸦和包围框的语义标记包含了更多有价值的信息,可以更有效地训练语义分割网络。基于包围框的语义分割算法,通常结合一些候选区域算法迭代地更新目标对应的语义掩码。结合一些图算法和目标候选区域,这种算法的分割精度可以得到提升。然而,在候选区域掩码不精确的情况下,使用逐像素的交叉熵损失会使包围框中不确定的区域误导分割网络的训练,从而不能得到准确的分割结果。本发明选用涂鸦标记作为弱监督标签来训练分割网络。
对基于涂鸦的弱监督语义分割算法,ScribbleSup基于图割算法对目标分割掩码进行迭代更新。Tang等人通过设计归一化损失函数有效地提升了分割性能。然而,这些算法没有充分研究和利用涂鸦标记本身的特性,也没有考虑改进网络结构来提升分割性能。我们发现,涂鸦标记可以被当做一种监督信息来训练分割网络。与此同时,图像的边缘图隐含了语义的边界信息,利用这种信息可以让网络在语义预测边界进行扩充和收缩,从而使预测语义边界与目标真实的边界对齐。基于这种观察,我们设计了一种网络结构,这种网络架构可以有效地利用涂鸦标记和图像边缘信息。
涂鸦标记简单地划几笔作为目标或者背景的标记。直接利用涂鸦标记训练的分割模型只能产生粗糙的分割结果,主要是因为涂鸦标记仅包含部分语义信息,没有提供精细的边界信息来指引模型对每个目标进行准确的分割。最后,我们设计了一种新颖的分割模型——边界感知引导(Boundary Perception Guidance,BPG),该算法通过结合图像的边缘结构有效地平衡了涂鸦弱监督分割的问题。实验证明这种框架可以产生高分辨率具有清晰语义边界的准确分割结果。
发明内容
本发明提供一种基于涂鸦标记的弱监督语义分割模型——边界感知引导模型,该模型包括两个网络分支,分别是“预测修正网络”和“边界回归网络”。
具体来说,本发明提出一种基于涂鸦的弱监督语义分割方法,包括:
步骤1、获取由多张训练图片构成的训练集,其中每张该训练图片均对应有涂鸦标记和边缘图;
步骤2、从该训练集中选取训练图片作为当前图片,将该当前图片输入至语义分割网络,得到该当前图片的高层语义特征;
步骤3、将该高层语义特征输入至预测修正网络,得到该当前图片的分割结果图,并根据该当前图片的涂鸦标记,得到该当前图片中涂鸦标记区域的交叉熵损失;
步骤4、将该高层语义特征输入至边界回归网络,得到该当前图片中目标的边界图,并根据该当前图片的边缘图,得到该边界图中边界区域的均值方差损失;
步骤5、以该交叉熵损失和该均值方差损失,构建总损失函数,并判断该总损失函数是否收敛,若是,则将当前该预测修正网络作为语义分割模型,否则继续执行该步骤2;
步骤6、将待语义分割的图片输入至该语义分割模型,得到该待语义分割的图片的分割结果图。
所述的基于涂鸦的弱监督语义分割方法,其中该预测修正网络包括:
将当前图片下采样两倍后进行多次卷积操作得到通道数为1的高分辨率低层特征,拼接该高分辨率低层特征和该高层语义特征得到融合特征,将该融合特征包含的多维特征图通过卷积层进行特征融合,得到中间特征图,上采样该中间特征图后继续与该高分辨率低层特征拼接融合,得到最终特征图,上采样该最终特征图得到与该当前图片同样尺寸的该分割结果图;
所述的基于涂鸦的弱监督语义分割方法,其中该边界回归网络包括:
将该高层语义特征经过归一化操作获得初始置信度图,对该初始置信度图中目标类别的通道进行最大值池化操作获得前景置信度图;将该初始置信度图中非目标类别的通道作为背景置信度图;拼接该前景置信图与该背景置信度图得到掩码特征图,该掩码特征图经过卷积层进行特征转换得到目标特征图,上采样该目标特征图获得与该当前图片同样尺寸的边界图。
所述的基于涂鸦的弱监督语义分割方法,其中该交叉熵损失为:
其中p代表第p个像素,是参数为θ1的预测修正网络的预测概率值,lscri(p)是像素点p处的涂鸦标记类别,PCE为交叉熵损失函数;
该均值方差损失为:
其中是参数为θ2的边界回归网络的预测概率,ledge(p)是边缘图中像素点p处的边缘标记,MSE是逐像素的均值方差损失函数;
该总损失函数为:Ltotal=Lsemantic+λLboundary
所述的基于涂鸦的弱监督语义分割方法,其中该语义分割网络为deeplab-v2网络。
本发明还提出了一种基于涂鸦的弱监督语义分割***,其中包括:
模块1、获取由多张训练图片构成的训练集,其中每张该训练图片均对应有涂鸦标记和边缘图;
模块2、从该训练集中选取训练图片作为当前图片,将该当前图片输入至语义分割网络,得到该当前图片的高层语义特征;
模块3、将该高层语义特征输入至预测修正网络,得到该当前图片的分割结果图,并根据该当前图片的涂鸦标记,得到该当前图片中涂鸦标记区域的交叉熵损失;
模块4、将该高层语义特征输入至边界回归网络,得到该当前图片中目标的边界图,并根据该当前图片的边缘图,得到该边界图中边界区域的均值方差损失;
模块5、以该交叉熵损失和该均值方差损失,构建总损失函数,并判断该总损失函数是否收敛,若是,则将当前该预测修正网络作为语义分割模型,否则继续执行该模块2;
模块6、将待语义分割的图片输入至该语义分割模型,得到该待语义分割的图片的分割结果图。
所述的基于涂鸦的弱监督语义分割***,其中该预测修正网络包括:
将当前图片下采样两倍后进行多次卷积操作得到通道数为1的高分辨率低层特征,拼接该高分辨率低层特征和该高层语义特征得到融合特征,将该融合特征包含的多维特征图通过卷积层进行特征融合,得到中间特征图,上采样该中间特征图后继续与该高分辨率低层特征拼接融合,得到最终特征图,上采样该最终特征图得到与该当前图片同样尺寸的该分割结果图;
所述的基于涂鸦的弱监督语义分割***,其中该边界回归网络包括:
将该高层语义特征经过归一化操作获得初始置信度图,对该初始置信度图中目标类别的通道进行最大值池化操作获得前景置信度图;将该初始置信度图中非目标类别的通道作为背景置信度图;拼接该前景置信图与该背景置信度图得到掩码特征图,该掩码特征图经过卷积层进行特征转换得到目标特征图,上采样该目标特征图获得与该当前图片同样尺寸的边界图。
所述的基于涂鸦的弱监督语义分割***,其中该交叉熵损失为:
其中p代表第p个像素,是参数为θ1的预测修正网络的预测概率值,lscri(p)是像素点p处的涂鸦标记类别,PCE为交叉熵损失函数;
该均值方差损失为:
其中是参数为θ2的边界回归网络的预测概率,ledge(p)是边缘图中像素点p处的边缘标记,MSE是逐像素的均值方差损失函数;
该总损失函数为:Ltotal=Lsemantic+λLboundary
所述的基于涂鸦的弱监督语义分割***,其中该语义分割网络为deeplab-v2网络。
由以上方案可知,本发明的优点在于:
本发明提出的“预测修正网络”主要用于解决当前语义分割模型直接上采样引起的小目标,困难样本分割失效,分割边界粗糙等问题。该网络既可以提取图像的高层语义特征,也能捕捉图像的边缘纹理等高分辨率细节信息。迭代地上采样特征融合方法使得高层语义信息和低层高分辨率细节信息有效地融合,从而提升语义分割性能。
本发明提出的“边界回归网络”主要用于解决目前弱监督语义分割中常常出现的分割边界粗糙,与真实边界不对齐的问题。该网络先将类别相关的语义特征转换为前景/背景特征图,然后利用这种特征图回归得到图像的边缘。这种设计结构使得语义特征图不会过拟合地生成图像边缘图而忽视语义分割结果,而是只关注于前景和背景交界处的边缘回归(目标语义边界),使得语义分割结果具有清晰的边界轮廓。
为同时使用上述两个网络,本发明提出的边界感知模型将其作为分割主干网络后的两个分支网络,该方法可将两个网络方便地添加到各种语义分割网络进行端到端的训练,改模型结合多层语义进行特征提取,并将基于涂鸦的弱监督标记及粗糙边缘图有效地融合利用,引导分割网络获得更精确的结果。
附图说明
图1为全监督/弱监督分割样例示意图;
图2为边界感知引导模型架构图;
图3为语义特征图与前景特征图最大池化层前向/反向传播示意图;
图4为弱监督分割消融实验示意图;
图5为不同设置下边界回归网络的分割/边缘预测对比图;
图6为PASCAL VOC 2012验证集分割结果展示;
图7为预测修正网络结构图;
图8为边界回归网络结构图。
具体实施方式
本发明提出了一种创新的边界感知引导模型处理基于涂鸦的弱监督语义分割任务。边界感知引导模型包含两个组件:(1)边界修正网络,同时结合高层语义信息和低层边缘/纹理信息,使用迭代上采样策略代替粗糙的直接8倍上采样操作,可以生成精细的特征图。(2)边界回归网络,可以引导网络在不同语义区域间获得清晰地边界。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
为了解决以上两大问题,本发明充分挖掘图像的高层语义特征和低层高分辨率细节特征,提出了预测修正网络提升分割鲁棒性。同时从弱标记本身的特性出发进行分析,提出了边界回归网络,可以让网络隐式地从包含大量噪声的边缘图中学习语义边界,从而提升分割精度。这两种网络均可单独使用,也可以在主干网络后进行并联进行端到端学习,即本发明提出的边界感知引导网络。
(1)预测修正网络:
由于deeplab-v2网络本身具有很好的分割效果,很多研究者以此作为弱监督分割任务的主干网络。为了与已有弱监督分割算法进行公平对比,本发明同样使用deeplab-v2网络作为分割主干网络。然而,我们发现这种网络结构存在两个缺点:1)最后的卷积层特征仅包含了语义分割的高层语义信息,对于小目标、难分样本及目标细节处的分割是不充分的。2)deeplab-v2网络直接将卷积层特征上采样8倍预测每个像素的标签,这种方式会产生粗糙的语义分割边界。为了处理这些问题,我们设计了预测修正网络使这些难分区域生成清晰的边界。
如图2上半部分所示,预测修正网络实现了三个主要的改进。首先,我们使用浅层的网络对输入图像提取高分辨率的卷积层特征,并将这些低层高分辨率特征与每个通道的高层语义的特征进行合并。因为提取的低层特征包含了高分辨率细节信息,结合高层语义信息可使每个语义区域得到精细的分割结果。接下来,在每次对高层语义特征和低层高分辨率特征上采样之后,利用一系列的卷积层对增强特征进行微调,使高层语义特征依据低层细节信息进行逐步修正。最后,我们使用了残差网络的跨层连接结构加快网络的收敛速度。
相比于一些已有的具有修正机制的分割网络(例如U-Net),我们提出的边界修正网络有一下几个优点:首先,我们仅使用了具有5个卷积层的操作获取低层特征;其次,在每个高层语义特征图上我们仅添加了单通道的低层特征。所以我们的修正网络仅引入少量的计算量和内存,这种设计对计算量和内存要求高的情形更有价值。
预测修正的损失函数为:
其中p代指某个像素,是参数为θ1的预测修正网络的预测概率值,lscri(p)是像素点p处的涂鸦标记类别,PCE指的是部分交叉熵损失,即只在有标记的区域计算损失。
详细的网络结构如图7所示,输入图像经过基于101层的残差网络的deeplab-v2主干网络获得高层语义特征conv_feat。另外将图像下采样两倍后进行5次卷积操作得到通道数为1的高分辨率低层特征conv1;之后将conv1和conv_feat进行特征拼接OP1,OP1指的是将conv1与高层语义conv_feat的每个通道单独拼接,融合后的特征总共包含21+21×1=42维的特征图fuse1,fuse1特征图经过两个卷积层进行特征融合得到conv2特征,conv2上采样2倍继续与低层特征conv1拼接融合,最终得到conv3特征图,上采样两倍后得到与原图像同样大小的置信度特征图,以此与涂鸦标记计算交叉熵损失并更新网络。
(2)边界回归网络:
局部在给定精细分割标注的情形下,逐像素的交叉熵损失可以训练非常好的语义分割网络。然而,对于涂鸦标记来说,只有目标内部很小的区域被标记,目标的边界信息并没有明确地给出。在这种设置下,使用经典的语义分割网络很难产生清晰的目标分割边界。为此,我们设计了一个边界回归网络分支,这种结构可以隐式地从容易获得的图像粗糙边缘图中提取目标重要的边界信息。本发明使用HED算法进行边缘图的提取,因为这种算法已经在一些弱监督分割算法中展现了其有效性。
尽管上边的思路是非常直接的,然而在弱监督语义分割任务中设计有效的边界回归模型仍然是个挑战。因为HED生成的边缘图并不是目标真正的边界,而是同时包含背景及目标内部的大量边缘,这对于语义边界来说相当于噪声,会误导分割网络的学习。
实际上,直接使用经典K+1维通道的卷积层特征预测边缘不仅不会使网络获得边界区分能力,还会破坏分割结果。原因如下:在基于涂鸦的弱监督标注的监督训练下,K+1维的置信度图会生成具有粗糙目标边界的分割结果。在这种情况下,如果给出每个目标精确的边界来指导边界回归,那么分割结果将会很容易提升。然而实际上只有粗糙的图像边缘可以获得(既包含了目标边界的边缘,也包含了背景和目标内部的边缘),这些非边界的标记会迫使原来的特征图打碎成一些错误的块来回归这些噪声边缘。所以,为了保证语义结果的完整性,我们设计了边界回归网络结构,将K+1维的语义特征图转换为前景、背景两个通道来消除这些噪声边缘的消极影响。仅利用合成的目标/背景掩码图来回归噪声边缘,从而最小化每个语义通道受噪声边缘便签的影响。
网络的基本结构如图2下半部分所示。不同于直接使用deeplab-v2的K+1维通道特征进行边界预测,我们将语义特征图先转换为前景和背景特征,然后将其回归到边缘预测图。如图3所示,当边缘损失从类别无关的目标置信度图回传到语义特征图的每个位置时,只有那些置信度最大的通道会计算梯度并更新参数。换句话说,其他的K-1维语义特征图不会受到噪声边缘的影响。
其中dCi表示第i个语义特征图的梯度,dout表示前景特征图的梯度。通过更新少部分的参数,只有前景目标附近的特征学习适应边缘图中的真正目标边界,那些噪声边缘不会对K维语义图造成很大的消极影响。
边界回归网络的损失函数为:
其中是参数为θ2的边界回归网络的预测概率,ledge(p)是像素点p处的边缘标记,MSE是逐像素的均值方差损失。
边界回归网络的网络结构如图8所示,经过deeplab-v2提取的高层语义特征(维度=20+1)先经过Softmax操作获得每个类别的置信度图conv1,conv是指的卷积层操作,“1”指的是网络第一层输出;之后目标类别的20个通道进行最大值池化操作获得前景的置信度图conv1_3,之后将前景置信图conv1_3与背景置信度图conv1_1拼接作为掩码特征图;掩码特征图经过3个卷积层进行特征转换得到conv3,最后将conv3上采样8倍获得与输入同样大小的边界置信度图,同给定边缘图计算均值方差损失并更新网络参数。
为了同时使用预测修正网络和边界回归网络以更好地提升分割精度,我们提出了总的边界感知引导模型,如图2所示,主干分割网络后并联预测修正网络和边界回归网络,总的损失函数为:
Ltotal=Lsemantic+λLboundary (4)
为了同时使用预测修正网络和边界回归网络提升语义分割精度,我们提出了端到端的边界感知引导模型。训练过程中,边界回归子网络依赖设计的网络结构和边缘标记进行模型更新,可以使deeplabV2网络输出的K+1维特征也具有边界区分能力,这种具有边界区分力的特征输入到预测修正网络可以得到良好的边界分割结果。
我们使用PyTorch重新训练了基于ResNet101的deeplab-v2分割网络并以此作为我们的基准网络。提出的弱监督语义分割网络利用单尺度输入图像进行训练。与deeplab-v2的设置相同,我们使用了“poly”学习率策略,输入图像批量大小为10张图像,初始学习率为0.00025。动量设置为0.9,权值衰减项设置为0.0005。等式(4)中的超参数λ设置为1.0。我们使用NVIDIATitanX 1080ti GPU训练了25个周期,总共需要大约10个小时。测试阶段,我们使用了[0.5,0.75,1.0,1.25]四种尺度的输入,并使用了左右翻转输入和特征均值投票机制。
(3)实验效果:
为了验证本发明方法的有效性,我们在现在PASCAL VOC 2012数据集上分别进行实验验证。
PASCAL VOC 2012数据集包含了20个前景目标类,其他的都视为背景类。原始的数据集包含1,461个训练图像,1,449个验证图像以及1,456个测试样例。统一于弱监督语义分割相关文献,我们使用了文献(Hariharan B,Arbeláez P,BourdevL,et al.Semanticcontours from inverse detectors[C]//2011International Conference on ComputerVision.IEEE,2011:991-998.)中提供的增强数据集,总共包含了10,582张训练图像。训练标记来自于文献(Lin D,Dai J,Jia J,et al.Scribblesup:Scribble-supervisedconvolutional networks for semantic segmentation[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2016:3159-3167),用来做弱监督语义分割的涂鸦标记。
表格1:PASCAL VOC 2012验证集上不同网络结构结果对比(IoU)
(1)本发明方法在PASCAL VOC 2012数据集的有效性
我们在PASCAL VOC 2012语义分割数据上使用不同的网络结构进行实验。如图1所示,仅使用deeplab-v2的网络结构,模型可以达到69.9%的平均精度。只添加预测修正网络分支可以使平均精度提高1.5%。将deeplab-v2结合边界回归子网络可以使精度提升2.5%。本发明提出的基于deeplab-v2边界感知引导框架,同时引入预测修正网络和边界回顾网络可以使弱监督语义分割精度提升到73.2%,达到了目前最好的性能。从表1我们可以看到在所有的语义类别上,分割精度均有提升(提升1.2%到9.4%不等),证明了所提出网络架构的有效性。此外,如果进一步结合条件随机场后处理,分割精度可以提升至76.0%,接近于使用精细标注的全监督训练的模型精度(76.4%)。
图4展示了使用不同网络结构弱监督分割结果样例。从图中我们可以看到仅使用deeplab-v2主干网络得到的分割结果语义边界十分粗糙,边界没有很好地与目标真实边界对齐。相比之下,添加了预测修正网络的模型分割结果得到了较好提升,结合了边界回归网络分支的模型得到了更精细的分割边缘。同时结合两个子网络的边界感知引导网络得到了相当好的分割结果。
表格2:PASCAL VOC 2012验证集边界回归网络不同设置对比(IoU)
(2)本发明边界回归网络的有效性
为了进一步验证本发明提出的边界回归网络的有效性,我们添加更多的实验验证不同网络设置对于分割精度的影响。如表2所示,直接使用K+1维通道特征图回归目标边界,训练最后一次迭代边缘损失仅仅为0.026,但是此时使得语义分割平均精度降低了0.6%,这是因为边缘回归分支过拟合,影响了语义分割分支的性能。
相比之下,本发明提出的边界回归网络结构(先将K+1维语义特征图转化为前景/背景特征图),边缘损失是前者的两倍之多,但是语义分割精度有了明显的提升。图5所示的语义分割结果图可以更直观的帮助理解。从图中我们可以看到直接使用C=K+1的网络结构,边缘预测的结果非常接近于给定的边缘标签,但是这种设置下,语义分割的结果并不好:样例1的分割结果语义边界依然很粗糙,样例2的语义分割结果包含很多错误的预测。相反的,我们的边界回归网络虽然预测的边缘与给定边缘标签相差大(主要是预测语义边界处边缘),但是可以使得语义分割的边界非常清晰,忽视了对那些噪声边缘的预测。
表3:PASCAL VOC 2012验证集与已知最好算法对比
(3)与已知最好算法的对比
为了进一步验证本发明方法的语义分割性能,我们同当前一些最好的算法进行了对比。如表3所示,可以看到我们提出的边界感知引导模型性能远高于ScibbleSup算法。NormalCut和KernelCut是CVPR2018和ECCV2018的两篇优秀的工作,通过改进损失函数提升涂鸦弱监督语义分割性能。相比于这两个工作,我们的方法依然取得了最好的结果。图6给出了一些使用本发明方法的一些分割样例,可以看出边界感知引导模型可以取得具有精细语义边界的分割结果。
以下为与上述方法实施例对应的***实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于涂鸦的弱监督语义分割***,其中包括:
模块1、获取由多张训练图片构成的训练集,其中每张该训练图片均对应有涂鸦标记和边缘图;
模块2、从该训练集中选取训练图片作为当前图片,将该当前图片输入至语义分割网络,得到该当前图片的高层语义特征;
模块3、将该高层语义特征输入至预测修正网络,得到该当前图片的分割结果图,并根据该当前图片的涂鸦标记,得到该当前图片中涂鸦标记区域的交叉熵损失;
模块4、将该高层语义特征输入至边界回归网络,得到该当前图片中目标的边界图,并根据该当前图片的边缘图,得到该边界图中边界区域的均值方差损失;
模块5、以该交叉熵损失和该均值方差损失,构建总损失函数,并判断该总损失函数是否收敛,若是,则将当前该预测修正网络作为语义分割模型,否则继续执行该模块2;
模块6、将待语义分割的图片输入至该语义分割模型,得到该待语义分割的图片的分割结果图。
所述的基于涂鸦的弱监督语义分割***,其中该预测修正网络包括:
将当前图片下采样两倍后进行多次卷积操作得到通道数为1的高分辨率低层特征,拼接该高分辨率低层特征和该高层语义特征得到融合特征,将该融合特征包含的多维特征图通过卷积层进行特征融合,得到中间特征图,上采样该中间特征图后继续与该高分辨率低层特征拼接融合,得到最终特征图,上采样该最终特征图得到与该当前图片同样尺寸的该分割结果图;
所述的基于涂鸦的弱监督语义分割***,其中该边界回归网络包括:
将该高层语义特征经过归一化操作获得初始置信度图,对该初始置信度图中目标类别的通道进行最大值池化操作获得前景置信度图;将该初始置信度图中非目标类别的通道作为背景置信度图;拼接该前景置信图与该背景置信度图得到掩码特征图,该掩码特征图经过卷积层进行特征转换得到目标特征图,上采样该目标特征图获得与该当前图片同样尺寸的边界图。
所述的基于涂鸦的弱监督语义分割***,其中该交叉熵损失为:
其中p代表第p个像素,是参数为θ1的预测修正网络的预测概率值,lscri(p)是像素点p处的涂鸦标记类别,PCE为交叉熵损失函数;
该均值方差损失为:
其中是参数为θ2的边界回归网络的预测概率,ledge(p)是边缘图中像素点p处的边缘标记,MSE是逐像素的均值方差损失函数;
该总损失函数为:Ltotal=Lsemantic+λLboundary
所述的基于涂鸦的弱监督语义分割***,其中该语义分割网络为deeplab-v2网络。

Claims (10)

1.一种基于涂鸦的弱监督语义分割方法,其特征在于,包括:
步骤1、获取由多张训练图片构成的训练集,其中每张该训练图片均对应有涂鸦标记和边缘图;
步骤2、从该训练集中选取训练图片作为当前图片,将该当前图片输入至语义分割网络,得到该当前图片的高层语义特征;
步骤3、将该高层语义特征输入至预测修正网络,得到该当前图片的分割结果图,并根据该当前图片的涂鸦标记,得到该当前图片中涂鸦标记区域的交叉熵损失;
步骤4、将该高层语义特征输入至边界回归网络,得到该当前图片中目标的边界图,并根据该当前图片的边缘图,得到该边界图中边界区域的均值方差损失;
步骤5、以该交叉熵损失和该均值方差损失,构建总损失函数,并判断该总损失函数是否收敛,若是,则将当前该预测修正网络作为语义分割模型,否则继续执行该步骤2;
步骤6、将待语义分割的图片输入至该语义分割模型,得到该待语义分割的图片的分割结果图。
2.如权利要求1所述的基于涂鸦的弱监督语义分割方法,其特征在于,该预测修正网络包括:
将当前图片下采样两倍后进行多次卷积操作得到通道数为1的高分辨率低层特征,拼接该高分辨率低层特征和该高层语义特征得到融合特征,将该融合特征包含的多维特征图通过卷积层进行特征融合,得到中间特征图,上采样该中间特征图后继续与该高分辨率低层特征拼接融合,得到最终特征图,上采样该最终特征图得到与该当前图片同样尺寸的该分割结果图。
3.如权利要求1或2所述的基于涂鸦的弱监督语义分割方法,其特征在于,该边界回归网络包括:
将该高层语义特征经过归一化操作获得初始置信度图,对该初始置信度图中目标类别的通道进行最大值池化操作获得前景置信度图;将该初始置信度图中非目标类别的通道作为背景置信度图;拼接该前景置信图与该背景置信度图得到掩码特征图,该掩码特征图经过卷积层进行特征转换得到目标特征图,上采样该目标特征图获得与该当前图片同样尺寸的边界图。
4.如权利要求3所述的基于涂鸦的弱监督语义分割方法,其特征在于,该交叉熵损失为:
其中p代表第p个像素,是参数为θ1的预测修正网络的预测概率值,lscri(p)是像素点p处的涂鸦标记类别,PCE为交叉熵损失函数;
该均值方差损失为:
其中是参数为θ2的边界回归网络的预测概率,ledge(p)是边缘图中像素点p处的边缘标记,MSE是逐像素的均值方差损失函数;
该总损失函数为:Ltotal=Lsemantic+λLboundary
5.如权利要求1所述的基于涂鸦的弱监督语义分割方法,其特征在于,该语义分割网络为deeplab-v2网络。
6.一种基于涂鸦的弱监督语义分割***,其特征在于,包括:
模块1、获取由多张训练图片构成的训练集,其中每张该训练图片均对应有涂鸦标记和边缘图;
模块2、从该训练集中选取训练图片作为当前图片,将该当前图片输入至语义分割网络,得到该当前图片的高层语义特征;
模块3、将该高层语义特征输入至预测修正网络,得到该当前图片的分割结果图,并根据该当前图片的涂鸦标记,得到该当前图片中涂鸦标记区域的交叉熵损失;
模块4、将该高层语义特征输入至边界回归网络,得到该当前图片中目标的边界图,并根据该当前图片的边缘图,得到该边界图中边界区域的均值方差损失;
模块5、以该交叉熵损失和该均值方差损失,构建总损失函数,并判断该总损失函数是否收敛,若是,则将当前该预测修正网络作为语义分割模型,否则继续执行该模块2;
模块6、将待语义分割的图片输入至该语义分割模型,得到该待语义分割的图片的分割结果图。
7.如权利要求6所述的基于涂鸦的弱监督语义分割***,其特征在于,该预测修正网络包括:
将当前图片下采样两倍后进行多次卷积操作得到通道数为1的高分辨率低层特征,拼接该高分辨率低层特征和该高层语义特征得到融合特征,将该融合特征包含的多维特征图通过卷积层进行特征融合,得到中间特征图,上采样该中间特征图后继续与该高分辨率低层特征拼接融合,得到最终特征图,上采样该最终特征图得到与该当前图片同样尺寸的该分割结果图。
8.如权利要求6或7所述的基于涂鸦的弱监督语义分割***,其特征在于,该边界回归网络包括:
将该高层语义特征经过归一化操作获得初始置信度图,对该初始置信度图中目标类别的通道进行最大值池化操作获得前景置信度图;将该初始置信度图中非目标类别的通道作为背景置信度图;拼接该前景置信图与该背景置信度图得到掩码特征图,该掩码特征图经过卷积层进行特征转换得到目标特征图,上采样该目标特征图获得与该当前图片同样尺寸的边界图。
9.如权利要求8所述的基于涂鸦的弱监督语义分割***,其特征在于,该交叉熵损失为:
其中p代表第p个像素,是参数为θ1的预测修正网络的预测概率值,lscri(p)是像素点p处的涂鸦标记类别,PCE为交叉熵损失函数;
该均值方差损失为:
其中是参数为θ2的边界回归网络的预测概率,ledge(p)是边缘图中像素点p处的边缘标记,MSE是逐像素的均值方差损失函数;
该总损失函数为:Ltotal=Lsemantic+λLboundary
10.如权利要求6所述的基于涂鸦的弱监督语义分割***,其特征在于,该语义分割网络为deeplab-v2网络。
CN201910588880.1A 2019-07-02 2019-07-02 一种基于涂鸦的弱监督语义分割方法与*** Active CN110443818B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910588880.1A CN110443818B (zh) 2019-07-02 2019-07-02 一种基于涂鸦的弱监督语义分割方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910588880.1A CN110443818B (zh) 2019-07-02 2019-07-02 一种基于涂鸦的弱监督语义分割方法与***

Publications (2)

Publication Number Publication Date
CN110443818A true CN110443818A (zh) 2019-11-12
CN110443818B CN110443818B (zh) 2021-09-07

Family

ID=68429007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910588880.1A Active CN110443818B (zh) 2019-07-02 2019-07-02 一种基于涂鸦的弱监督语义分割方法与***

Country Status (1)

Country Link
CN (1) CN110443818B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930417A (zh) * 2019-11-26 2020-03-27 腾讯科技(深圳)有限公司 图像分割模型的训练方法和装置、图像分割方法和装置
CN111027455A (zh) * 2019-12-06 2020-04-17 重庆紫光华山智安科技有限公司 行人特征提取方法、装置、电子设备及存储介质
CN111246098A (zh) * 2020-01-19 2020-06-05 深圳市人工智能与机器人研究院 机器人拍照方法、装置、计算机设备和存储介质
CN111583287A (zh) * 2020-04-23 2020-08-25 浙江大学 一种用于精细人像图片分割的深度学习模型训练方法
CN111612803A (zh) * 2020-04-30 2020-09-01 杭州电子科技大学 一种基于图像清晰度的车辆图像语义分割方法
CN111612802A (zh) * 2020-04-29 2020-09-01 杭州电子科技大学 一种基于现有图像语义分割模型的再优化训练方法及应用
CN111652137A (zh) * 2020-06-03 2020-09-11 上海眼控科技股份有限公司 违法车辆检测方法、装置、计算机设备和存储介质
CN111915627A (zh) * 2020-08-20 2020-11-10 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 语义分割方法、网络、设备及计算机存储介质
CN111931782A (zh) * 2020-08-12 2020-11-13 中国科学院上海微***与信息技术研究所 语义分割方法、***、介质及装置
CN112116599A (zh) * 2020-08-12 2020-12-22 南京理工大学 基于弱监督学习的痰涂片结核杆菌语义分割方法及***
CN112651981A (zh) * 2020-12-23 2021-04-13 浙江工业大学 一种显著边缘特征提取模块引导网络的肠道疾病分割方法
CN113076902A (zh) * 2021-04-12 2021-07-06 华南理工大学 一种多任务融合的人物细粒度分割***和方法
CN113128386A (zh) * 2021-04-13 2021-07-16 深圳市锐明技术股份有限公司 一种障碍物识别方法、障碍物识别装置及电子设备
CN113313720A (zh) * 2021-06-30 2021-08-27 上海商汤科技开发有限公司 对象分割方法和装置
CN113706562A (zh) * 2020-07-08 2021-11-26 腾讯科技(深圳)有限公司 图像分割方法、装置、***及细胞分割方法
WO2021243787A1 (zh) * 2020-06-05 2021-12-09 中国科学院自动化研究所 基于类内判别器的弱监督图像语义分割方法、***、装置
CN113971216A (zh) * 2021-10-22 2022-01-25 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储器
CN114419020A (zh) * 2022-01-26 2022-04-29 深圳大学 医学图像分割方法、装置、计算机设备及存储介质
WO2022242485A1 (zh) * 2021-05-21 2022-11-24 上海交通大学 一种基于迁移学习的弱监督目标检测方法及***
CN116129126A (zh) * 2023-04-04 2023-05-16 整数智能信息技术(杭州)有限责任公司 分割预测模型的构建方法、图片语义分割标注方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820990A (zh) * 2015-05-15 2015-08-05 北京理工大学 一种交互式图像抠图***
CN108846795A (zh) * 2018-05-30 2018-11-20 北京小米移动软件有限公司 图像处理方法及装置
CN109255790A (zh) * 2018-07-27 2019-01-22 北京工业大学 一种弱监督语义分割的自动图像标注方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820990A (zh) * 2015-05-15 2015-08-05 北京理工大学 一种交互式图像抠图***
CN108846795A (zh) * 2018-05-30 2018-11-20 北京小米移动软件有限公司 图像处理方法及装置
CN109255790A (zh) * 2018-07-27 2019-01-22 北京工业大学 一种弱监督语义分割的自动图像标注方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DI LIN 等: "ScribbleSup:Scribble-Supervised Convolutional Networks for Semantic Segmentation", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
田萱 等: "基于深度学习的图像语义分割方法综述", 《软件学报》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930417A (zh) * 2019-11-26 2020-03-27 腾讯科技(深圳)有限公司 图像分割模型的训练方法和装置、图像分割方法和装置
CN110930417B (zh) * 2019-11-26 2023-08-08 腾讯科技(深圳)有限公司 图像分割模型的训练方法和装置、图像分割方法和装置
CN111027455A (zh) * 2019-12-06 2020-04-17 重庆紫光华山智安科技有限公司 行人特征提取方法、装置、电子设备及存储介质
CN111027455B (zh) * 2019-12-06 2021-01-26 重庆紫光华山智安科技有限公司 行人特征提取方法、装置、电子设备及存储介质
CN111246098A (zh) * 2020-01-19 2020-06-05 深圳市人工智能与机器人研究院 机器人拍照方法、装置、计算机设备和存储介质
CN111246098B (zh) * 2020-01-19 2022-02-22 深圳市人工智能与机器人研究院 机器人拍照方法、装置、计算机设备和存储介质
CN111583287A (zh) * 2020-04-23 2020-08-25 浙江大学 一种用于精细人像图片分割的深度学习模型训练方法
CN111612802A (zh) * 2020-04-29 2020-09-01 杭州电子科技大学 一种基于现有图像语义分割模型的再优化训练方法及应用
CN111612803B (zh) * 2020-04-30 2023-10-17 杭州电子科技大学 一种基于图像清晰度的车辆图像语义分割方法
CN111612803A (zh) * 2020-04-30 2020-09-01 杭州电子科技大学 一种基于图像清晰度的车辆图像语义分割方法
CN111652137A (zh) * 2020-06-03 2020-09-11 上海眼控科技股份有限公司 违法车辆检测方法、装置、计算机设备和存储介质
US11887354B2 (en) 2020-06-05 2024-01-30 Institute Of Automation, Chinese Academy Of Sciences Weakly supervised image semantic segmentation method, system and apparatus based on intra-class discriminator
WO2021243787A1 (zh) * 2020-06-05 2021-12-09 中国科学院自动化研究所 基于类内判别器的弱监督图像语义分割方法、***、装置
CN113706562A (zh) * 2020-07-08 2021-11-26 腾讯科技(深圳)有限公司 图像分割方法、装置、***及细胞分割方法
CN113706562B (zh) * 2020-07-08 2023-04-07 腾讯医疗健康(深圳)有限公司 图像分割方法、装置、***及细胞分割方法
CN111931782A (zh) * 2020-08-12 2020-11-13 中国科学院上海微***与信息技术研究所 语义分割方法、***、介质及装置
CN111931782B (zh) * 2020-08-12 2024-03-01 中国科学院上海微***与信息技术研究所 语义分割方法、***、介质及装置
CN112116599B (zh) * 2020-08-12 2022-10-28 南京理工大学 基于弱监督学习的痰涂片结核杆菌语义分割方法及***
CN112116599A (zh) * 2020-08-12 2020-12-22 南京理工大学 基于弱监督学习的痰涂片结核杆菌语义分割方法及***
CN111915627A (zh) * 2020-08-20 2020-11-10 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 语义分割方法、网络、设备及计算机存储介质
CN112651981A (zh) * 2020-12-23 2021-04-13 浙江工业大学 一种显著边缘特征提取模块引导网络的肠道疾病分割方法
CN112651981B (zh) * 2020-12-23 2024-04-19 浙江工业大学 一种显著边缘特征提取模块引导网络的肠道疾病分割方法
CN113076902B (zh) * 2021-04-12 2023-07-18 华南理工大学 一种多任务融合的人物细粒度分割***和方法
CN113076902A (zh) * 2021-04-12 2021-07-06 华南理工大学 一种多任务融合的人物细粒度分割***和方法
CN113128386B (zh) * 2021-04-13 2024-02-09 深圳市锐明技术股份有限公司 一种障碍物识别方法、障碍物识别装置及电子设备
CN113128386A (zh) * 2021-04-13 2021-07-16 深圳市锐明技术股份有限公司 一种障碍物识别方法、障碍物识别装置及电子设备
WO2022242485A1 (zh) * 2021-05-21 2022-11-24 上海交通大学 一种基于迁移学习的弱监督目标检测方法及***
CN113313720A (zh) * 2021-06-30 2021-08-27 上海商汤科技开发有限公司 对象分割方法和装置
CN113313720B (zh) * 2021-06-30 2024-03-29 上海商汤科技开发有限公司 对象分割方法和装置
CN113971216A (zh) * 2021-10-22 2022-01-25 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储器
CN114419020A (zh) * 2022-01-26 2022-04-29 深圳大学 医学图像分割方法、装置、计算机设备及存储介质
CN116129126A (zh) * 2023-04-04 2023-05-16 整数智能信息技术(杭州)有限责任公司 分割预测模型的构建方法、图片语义分割标注方法及装置

Also Published As

Publication number Publication date
CN110443818B (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN110443818A (zh) 一种基于涂鸦的弱监督语义分割方法与***
Mou et al. RiFCN: Recurrent network in fully convolutional network for semantic segmentation of high resolution remote sensing images
Tu et al. Learning superpixels with segmentation-aware affinity loss
CN113240691B (zh) 一种基于u型网络的医学图像分割方法
CN110335277A (zh) 图像处理方法、装置、计算机可读存储介质和计算机设备
BR112020001110A2 (pt) interpretação sísmica automatizada usando redes neurais totalmente convolucionais
CN108319938A (zh) 用于高性能人脸识别***的高质量训练数据准备***
CN110428428A (zh) 一种图像语义分割方法、电子设备和可读存储介质
CN110378348A (zh) 视频实例分割方法、设备及计算机可读存储介质
CN111612008A (zh) 基于卷积网络的图像分割方法
CN110443805A (zh) 一种基于像素密切度的语义分割方法
CN109948707A (zh) 模型训练方法、装置、终端及存储介质
CN110852393A (zh) 一种遥感图像的分割方法及***
CN109919059B (zh) 基于深度网络层次化与多任务训练的显著性物体检测方法
US20220398737A1 (en) Medical image segmentation method based on u-network
KR102305230B1 (ko) 객체 경계정보의 정확도 개선방법 및 장치
CN108230330B (zh) 一种快速的高速公路路面分割和摄像机定位的方法
CN113223068A (zh) 一种基于深度全局特征的多模态图像配准方法及***
Yang et al. Handwriting text recognition based on faster R-CNN
CN109753853A (zh) 一种同时完成行人检测与行人重识别的方法
CN111881716A (zh) 一种基于多视角生成对抗网络的行人重识别方法
CN116863319B (zh) 基于跨尺度建模和交替细化的复制移动篡改检测方法
CN110008900A (zh) 一种由区域到目标的可见光遥感图像候选目标提取方法
Petrovai et al. Multi-task network for panoptic segmentation in automated driving
CN110598537A (zh) 一种基于深度卷积网络的视频显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant