CN110837836A - 基于最大化置信度的半监督语义分割方法 - Google Patents
基于最大化置信度的半监督语义分割方法 Download PDFInfo
- Publication number
- CN110837836A CN110837836A CN201911071629.4A CN201911071629A CN110837836A CN 110837836 A CN110837836 A CN 110837836A CN 201911071629 A CN201911071629 A CN 201911071629A CN 110837836 A CN110837836 A CN 110837836A
- Authority
- CN
- China
- Prior art keywords
- loss
- class probability
- image
- network
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000012360 testing method Methods 0.000 claims abstract description 5
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 230000008485 antagonism Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims 1
- 238000010200 validation analysis Methods 0.000 description 9
- 238000013459 approach Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 230000000052 comparative effect Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000002860 competitive effect Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于最大化置信度的半监督语义分割方法,包括:从已有训练数据集中选取一部分图像作为已标记图像,剩余图像作为未标记图像;构建网络模型,通过网络模型中的分割网络来预测已标记图像与未标记图像的预测类概率图;采用有监督学习和生成对抗的方式来最大化已标记图像预测类概率图的置信度;采用无监督学习方式来预测未标记图像预测类概率图中的分割错误区域;结合有监督学习的损失与无监督学习的损失,对网络模型进行训练;测试阶段,将待分割的未标记图像,输入至训练好的网络模型中,获得分割后的语义图像。本发明实施例上述方案,可以准确对未标记图像进行语义分割。
Description
技术领域
本发明涉及图像语义分割领域,尤其涉及一种基于最大化置信度的半监督语义分割方法。
背景技术
图像分割是指根据灰度、彩色、空间纹理、几何形状等特征把图像划分成若干个互不相交的区域,使得这些特征在同一区域内表现出一致性或相似性,而在不同区域间表现出明显的不同。简单的说就是在一副图像中,把不同的目标从背景中分离出来,从分割结果可以清楚的知道分割出来的是什么物体。整体而言,语义分割是一种旨在于场景理解的高难度任务。场景理解作为计算机视觉的核心问题,在当今信息社会得到了广泛的应用。这些应用包括:自动驾驶、人机交互、计算机摄影、图像搜索引擎、及增强现实。这些问题已经尝试使用多种计算机视觉及机器学习的方法来解决。
最近,使用卷积神经网络的方法已经在图像语义分割中实现了最先进的性能。这些方法在大规模像素级注释的数据集上训练的模型来提取神经网络的特征。例如,PSPNet(PyramidSceneParsingNetwork,金字塔场景分析网络),FCN(Fully ConvolutionalNetworks,全卷积神经网络)等。然而,在大规模数据上注释精确的像素级标签是非常耗时耗力而且效率低下的。为了减少构建精确的像素级注释数据集的需要,无监督学习方法似乎是一种更合适的方法。然而,到目前为止,由于缺乏关于语义分割任务的详细信息,无监督学习方法未能取得成功。因此,弱监督和半监督学习方法也被提出用于语义分割。这些方法通常使用未标记或弱标记的数据,有时它们也使用额外的完全注释数据来提高性能。弱标记的图像会有部分注释,但都会以某种有限的区域注释方式,如图像级注释,方框注释,涂鸦注释,等等。但这种方式也有其不可忽视的缺点,比如:
1)由于缺乏详细的边界位置信息,弱监督方法的表现要远远逊色于完全监督的方法。
2)一些半监督学习方法由于忽略了大量可用的错误分类信息,因此在使用未标记数据方面效率十分低下。
发明内容
本发明的目的是提供一种基于最大化置信度的半监督语义分割方法,可以准确对未标记图像进行语义分割。
本发明的目的是通过以下技术方案实现的:
一种基于最大化置信度的半监督语义分割方法,包括:
利用指定比例的已标记图像与未标记图像构建训练数据集;
构建网络模型,通过网络模型中的分割网络来预测已标记图像与未标记图像的预测类概率图;采用有监督学习的方式来最大化已标记图像预测类概率图的置信度;采用无监督学习方式来预测未标记图像预测类概率图中的分割错误区域;
结合有监督学习的损失与无监督学习的损失,对网络模型进行训练,获得训练好的分割网络;
测试阶段,将待分割的未标记图像,输入至训练好的分割网络模型中,得到预测的类概率图后,寻找预测的类概率图中在通道维度上最大值的索引获得分割后的语义图像。
由上述本发明提供的技术方案可以看出,本发明从增强类概率图置信度的角度,以及关注错误分类的区域来提高语义分割的准确性,并通过分割网络研究未标记数据的数据分布,以对未标记图像产生更可靠的预测结果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的验证集与训练集的信息熵比对示意图;
图2为本发明实施例提供的一种基于最大化置信度的半监督语义分割方法的流程图;
图3为本发明实施例提供的网络模型示意图;
图4为本发明实施例提供的标签错误图与预测的分割错误图的示意图;
图5为本发明实施例提供的参与对比实验的方案在PASCAL VOC 2012验证集上的表现结果示意图;
图6为本发明实施例提供的参与对比实验的方案在PASCAL-CONTEXT验证集上的表现结果示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于最大化置信度的半监督语义分割方法,该方法提出了一个半监督学习框架,它结合了有监督学习和无监督学习,该方法从增强类概率图的置信度的角度来解决问题。同时,更加关注错误分类的区域,特别是在边界区域。并且,通过分割网络研究未标记数据的数据分布,以对未标记图像产生更可靠的预测。
本发明实施例中,对于已标记图像,构建了一个生成对抗框架。分割网络被视为生成器,它将图像作为输入并输出预测类概率图。识别器以全卷积方式构造,并用于区分输入是来自预测已标记图像预测类概率图还是由标签图生成的0和1组成的类概率图;生成器和识别器相互对抗,目标为最大化预测类概率图的置信度(即分割网络的置信度)。对于未标记的数据,在对抗性学习的帮助下,使用已标记图像训练的分割网络对于正确分类的像素实现高置信度。因此,将具有高不确定性的已分类像素视为分割错误像素。接着,计算表示分割概率图的信息熵以推断分割错误图。当像素的信息熵最大化时,其预测类概率近似于均匀概率分布,表明所研究的特征不能对该像素进行分类,并且应该优化模型的权重以获得更具代表性的特征。
图1中的(a)部分示出了验证集上的信息熵,图1中的(b)部分示出了训练集上的信息熵,显然,验证集上的信息熵大于训练集上的信息熵,这表明在没有事先训练的情况下预测图像时,特别是在边界区域,分割网络不太可信。在这项工作中,计算未标记数据的错误分类区域中的平均信息熵并将其用作附加监督学习信号以优化分割网络。因此,本发明更加关注错误分类的区域,特别是在边界区域。分割网络研究未标记数据的数据分布,以对未标记图像产生更可靠的预测。
如图2所示,为本发明实施例提供的一种基于最大化置信度的半监督语义分割方法的流程图;其主要包括:
步骤1、利用指定比例的已标记图像与未标记图像构建训练数据集。
通常情况下,利用少量的已标记图像与大量的未标记图像来构建训练数据集,所使用的图像可以来自已有训练数据集。已标记图像与未标记图像的具体比例可以由用户根据实际情况自行设定。
示例性的,可以选取比较具有挑战性的数据集:PASCAL VOC 2012和PASCALCONTEXT。PASCAL VOC 2012数据集包括20个前景对象类和一个背景类,它包含分别用于训练,测试和验证的1464,1456和1449像素级注释图像,此外,还利用了来自分割边界数据集(SBD)的额外注释图像用于增强数据集,共得到了10582个训练图像。PASCAL-CONTEXT数据集在两个对象(例如汽车)和填充物(例如天空)上提供详细的像素级注释,本发明在该数据集中最频繁的59个类和一个背景类别上进行评估,得到了4998张训练图像。最后,从训练数据集中随机抽取10%,30%和50%的图像作为已标记图像,并将剩余数据用于未标记图像。值得注意的是,此处提到的数据集以及已标记图像与未标记图像的比例均为举例,并非构成限制。
步骤2、构建网络模型,通过网络模型中的分割网络来预测已标记图像与未标记图像的预测类概率图;采用有监督学习的方式来最大化已标记图像预测类概率图的置信度;采用无监督学习方式来预测未标记图像预测类概率图中的分割错误区域。
如图3所示,为构建网络模型结构示意图。网络模型分为一个主网络和一个子网络。主网络是分割网络,也就是生成对抗网络中的生成器,其输入是已标记图像与未标记图像并且其输出是预测类概率图。子网络是全卷积的识别器,也就是生成对抗网络中的识别器,识别器将分割网络输出的预测类概率图或由标签图生成的0和1组成的类概率图作为输入,并输出双通道类概率图以区分输入是来自预测类概率图还是由标签图生成的0和1组成的类概率图。
下面针对分割网络与全卷积神经网络进行介绍。
1)分割网络:在本发明实例中,在MSCOCO和ImageNet数据集上预训练的Deeplab-v2模型作为基线网络。然而,为了简化实验并减少内存消耗,不使用条件随机场(CRF)和最大化融合的多尺度输入,只保留了ASPP输出层(Atrous Spatial PyramidPooling膨胀空间金字塔池化层)。为了匹配输入图像的大小,应用上采样层和Softmax函数来预测最终的类概率图。
2)全卷积神经网络:在本发明实例中,全卷积神经网络的输入有两个,一个是标签图经过下采样和Onehot编码后生成的类概率图,一个是已标记图像经过分割网络和Softmax后生成的预测类概率图。全卷积神经网络作为识别器,由5个含有3×3卷积核和{64,128,256,512,2}通道的步长为1的膨胀卷积层组成,在每一层中膨胀率被分别设置为{1,1,2,4,1}。另外除了最后一层之外,每个膨胀卷积层之后都要经过一个ReLU激活函数。
值得注意的是,以上针对分割网络与全卷积神经网络的介绍中所涉及的结构形式、以及相关参数数值均为举例,并非构成限制。
下面针对有监督学习的方式、无监督学习方式及相关损失函数进行介绍。
1)有监督学习的方式及相关损失函数。
有监督学习主要有两个目标:第一个是为每个像素分配语义标签的基本任务,第二个目标是使用生成对抗的方式最大化预测类概率图的置信度。为此,构建了一个生成对抗框架,其中生成器是分割网络,识别器是全卷积神经网络。生成对抗网络中,分割网络作为生成器,预测已标记图像预测类概率图;全卷积神经网络作为识别器,它的输入为已标记图像预测类概率图,以及标签图经过下采样与onehot编码(独热编码)后生成的0和1组成的类概率图,通过识别器来识别输入的类型;生成器和识别器相互对抗,目标为最大化预测类概率图的置信度。
在生成器网络中,空间多类交叉熵损失用于促使分割网络独立预测每个像素位置处的正确语义标签类别,表示为:
其中,xn为输入至分割网络的已标记图像,yn为相应已标记图像的onehot编码标签图,(h1,w1,c1)为图中像素的位置坐标,预测的类概率图的大小为H1×W1×C1,H1、W1分别表示图像的高、宽,C1表示类别(通道)数目;S(xn)为分割网络预测的已标记图像xn的预测类概率图。
在识别器中,采用空间二进制类熵损失来区分输入是预测的已标记图像预测类概率图,还是由标签图生成的类概率图,空间二进制类熵损失表示为:
Yn=one_hot(ones(H2,W2)×SG)
其中,pn表示预测的已标记图像预测类概率图或者由标签图生成的类概率图,D(·)表示识别器,Yn是用于区分输入来源的注释,C2=2,因为识别器是二进制分类网络;one_hot(·)是onehot编码函数,ones(H2,W2)用于生成大小为H2×W2的矩阵,H2、W2分别表示矩阵的行、列数目,其中所有元素的值都为1;SG=0,表示识别器输入为预测的已标记图像的预测类概率图;SG=1,表示识别器输入为由标签图生成的0和1组成的类概率图;上述空间二进制类熵损失主要用来训练识别器。
将对抗性损失添加到分割网络中,促进它将预测的类概率增加到接近1。对抗性损失可以写成如下:
本发明实施例中,当输入来自分割网络时,会计算lossadv。另外,为了混淆识别网络,SG设置为1。
2)无监督学习的方式及相关损失函数。
未标记图像类概率图的信息熵表征了该图像的分割结果的不确定性,这恰恰与图像的分割错误图密切相关。因此,本发明使用预测到的类概率图的信息熵来推断分割错误图,图4显示了标签错误图和预测的分割错误图。错误分类的像素主要位于边界周围,这意味着分割错误图包含丰富的分类信息,尤其是在边界区域中。图4的(a)部分为原图,(b)部分为错误图的标签,(c)部分为预测的分割错误图;图4中的原图来自数据集PASCAL VOC2012。在获得分割错误图之后,将错误分类区域中的平均信息熵计算为无监督损失。
给定大小为H1×W1×3的未标记图像xn',分割网络预测的未标记图像xn'的预测类概率图为S(xn'),通过以下方式计算信息熵图H(xn'):
其中E[·]表示对所有C1类别的期望;
信息熵指示分割网络预测的不确定性,给定不确定性阈值T,获得二进制映射,用于表示分割错误图EM(xn'),表示为:
where h1∈H1,w1∈W1
通过信息熵图H(xn')和分割错误图EM(xn')得到无监督损失,并回馈到分割网络,无监督损失表示为:
本发明实施例中,使用混合损失函数,混合损失函数结合了空间多类熵损失,对抗性损失和无监督损失。混合损失量计算如下:
lossseg=lossmce+λadvlossadv+λinflossinf
其中,lossmce,lossadv和lossinf分别表示空间多类熵损失,对抗性损失和最大化无标记图像预测类概率图的无监督损失;λadv和λinf是平衡相应损失的两个权重。lossmce和lossadv用于指导有监督学习,而lossinf被用作无监督学习信号来研究未标记图像的数据分布。
步骤3、结合有监督学习的损失与无监督学习的损失,对网络模型进行训练,获得训练好的分割网络。
将已标记图像与未标记图像按照批量尺寸组合一起作为输入,设置网络模型的各项超参数,设置权值初始化方式,并有监督学习的损失与无监督学习的损失,利用随机梯度下降法(stochastic gradient descent,SGD)和多边形学习率策略来训练分割网络,利用Adam优化器和指数衰减学习速率策略来训练识别器,保存训练好的模型权重。
示例性的,下面给出一些网络模型训练的具体设置:
在GPU(Tesla V100)上运行的Tensor-Flow框架来实现所提出的网络。前述步骤1中得到的训练图像随机缩放并且裁剪为321×321像素大小,按照批量尺寸(Batch Size)为10组合一起作为输入,训练模型进行20K次迭代。关于所提出方法的超参数,λadv设置为0.02并且λinf设置为0.1。此外,用于获得分割错误图的阈值T被设置为0.2。
训练分割网络时,应用随机梯度下降(Stochastic Gradient Descent,SGD)优化,使用0.9的动量和5E-4的权重衰减。保存训练好的模型权重。
训练识别网络时,采用Adam优化器:初始学习率设置为1E-4。保存训练好的模型权重。
步骤4、测试阶段,将待分割的未标记图像,输入至训练好的分割网络模型中,得到预测的类概率图后,寻找预测的类概率图中在通道维度上最大值的索引获得分割后的语义图像。
本发明实施例上述方案,获得如下有益效果:
1)本发明开发了一个生成对抗框架,将分割网络视为生成器,并使用全卷积网络作为识别器。在这种生成对抗框架的帮助下,分割网络可以生成具有更高置信度的类概率图。
2)本发明提出了一种无监督学习方法来研究未标记图像的数据分布。为了将无监督学习信号聚焦在错误分类的区域上,特别是在边界区域,预测未标记图像的分割错误区域,而不是预测潜在的可信赖区域,然后,最小化未标记图像预测的不确定性。
3)我们提出了一个半监督学习框架,它结合了有监督学习和无监督学习。在PASCAL VOC 2012和PASCAL-CONTEXT数据集上的实验结果表明,本发明所提出的半监督学习方法具有竞争力。
为了应证本发明上述方案的性能,下面进行了对比实验。
本次实验中,采用类似步骤1的方式来选取图像,构成验证集。例如,在PASCAL VOC2012数据集中得到标准验证集1449张图像来评估训练好的网络模型,在PASCAL-CONTEXT数据集中用了标准验证集5105张图像来评估训练好的网络模型。
参与对比实验的方案包括:(1)基线网络;(2)基线网络+lossadv;(3)基线网络+lossadv+lossinf。
实验结果分析:
1)PASCAL VOC 2012上的结果。本方法在PASCAL VOC 2012验证集上的定量结果显示在表1中。一些样品图像的定性结果显示在图5中。图5中的(a)部分表示原图,(b)部分表示语义分割图像的标签。(c)~(e)部分依次对应于方案(1)~(3)。
表1在PASCAL VOC 2012验证集上的结果
如表1所示,对抗性损失lossadv使得mIOU(平均交并比)改善了1.1%至1.4%。这表明,对抗性损失lossadv能通过提高预测对标记图像的置信度能改善分割性能。结合无监督损失lossinf,最小化未标记图像上预测的不确定性,本发明所提出的方法比基线网络获得1.9%至2.7%的改善。图5中给出的定性结果表明,使用对抗损失和无监督损失的模型在基线网络错误分类的区域中实现了一些改进,特别是在一些边界区域。
2)PASCAL-CONTEXT的结果。在PASCAL CONTEXT数据集上的定量评估结果显示在表2中。此外,一些样本图像的定性结果在图6中可视化。图6中的(a)部分表示原图,(b)部分表示语义分割图像标签。(c)~(e)部分依次对应于方案(1)~(3)。
数据量 | 10% | 30% | 50% | 100% |
基线网络 | 34.6 | 38.0 | 40.1 | 42.3 |
基线网络+loss<sub>adv</sub> | 35.1 | 38.7 | 40.8 | 42.9 |
基线网络+loss<sub>adv</sub>+loss<sub>inf</sub> | 35.9 | 39.6 | 41.3 | — |
表2在PASCAL-CONTEXT验证集上的结果
可以发现所提出的方法仍然有效,复杂的场景中,本发明所提出的方法将平均交叉结合提高了1.2%至1.6%,其中对抗性损失占性能改进的约0.5%至0.7%。PASCAL-CONTEXT数据集的性能评估比PASCAL VOC 2012数据集上的性能评估差。这是因为包含对象和填充注释的PASCAL-CONTEXT数据集更复杂,导致提议的方法无法准确推断标签错误映射。
3)与最先进的方法进行比较。首先将本发明所提出的方法与几种弱监督的最先进方法进行比较。所有这些弱监督方法都使用基于ResNet-101的DeepLab-v2作为基线网络。使用图像级注释在PASCAL VOC 2012数据集上训练弱监督方法,而使用440像素级注释图像和10142个未标记图像在相同数据集上训练所提出的方法。如表3所示,本发明所提出的方法的mIOU(平均交并比)为68.9%,优于所有弱监督方法至少4.0%。这些大的改进可归因于所提出的方法获取边界区域的更详细信息。弱监督学习方法直接使用图像级注释,这导致难以定位边界区域。相比之下,本发明所提出的方法首先利用有限的像素级注释来学习如何通过对抗性学习来定位边界区域;然后,它预测未标记图像的分割错误区域,使无监督学习信号更多地关注误分类区域,特别是在边界区域。因此,与弱监督方法相比,本发明所提出的方法实现了更具竞争力的性能。
表3本发明方法在PASCAL VOC 2012验证集上与先进弱监督方法进行比较的结果
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (6)
1.一种基于最大化置信度的半监督语义分割方法,其特征在于,包括:
利用指定比例的已标记图像与未标记图像构建训练数据集;
构建网络模型,通过网络模型中的分割网络来预测已标记图像与未标记图像的预测类概率图;采用有监督学习的方式来最大化已标记图像预测类概率图的置信度;采用无监督学习方式来预测未标记图像预测类概率图中的分割错误区域;
结合有监督学习的损失与无监督学习的损失,对网络模型进行训练,获得训练好的分割网络;
测试阶段,将待分割的未标记图像,输入至训练好的分割网络模型中,得到预测的类概率图后,寻找预测的类概率图中在通道维度上最大值的索引获得分割后的语义图像。
2.根据权利要求1所述的一种基于最大化置信度的半监督语义分割方法,其特征在于,对于已标记图像采用有监督学习来最大化预测类概率图的置信度包括:
对于已标记图像,采用一个生成对抗网络,通过有监督学习中的生成对抗方式来最大化预测类概率图的置信度;
所述生成对抗网络由网络模型中的分割网络与全卷积神经网络构成;
生成对抗网络中,分割网络作为生成器,预测已标记图像的类概率图;全卷积神经网络作为识别器,它的输入为已标记图像预测类概率图,以及标签图经过下采样与onehot编码后生成的类概率图,通过识别器来识别输入的类型;
生成器和识别器相互对抗,目标为最大化预测类概率图的置信度。
3.根据权利要求2所述的一种基于最大化置信度的半监督语义分割方法,其特征在于,有监督学习的损失包括:多类交叉熵损失与对抗性损失;
所述空间多类交叉熵损失,用于促使分割网络独立预测每个像素位置处的正确语义标签类别,表示为:
其中,xn为输入至分割网络的已标记图像,yn为相应已标记图像的onehot编码标签图,(h1,w1,c1)为图中像素的位置坐标,预测的类概率图的大小为H1×W1×C1,H1、W1分别表示图像的高、宽,C1表示类别数目,类别数目也即也即通道数目;S(xn)为分割网络预测的已标记图像xn的预测类概率图;
在识别器中,采用空间二进制类熵损失来区分输入是预测的已标记图像预测类概率图,还是由标签图生成的类概率图,空间二进制类熵损失表示为:
Yn=one_hot(ones(H2,W2)×SG)
其中,pn表示预测的已标记图像预测类概率图或者由标签图生成的类概率图,D(·)表示识别器,Yn是用于区分输入来源的注释,C2=2,one_hot(·)是一个onehot编码函数,ones(H2,W2)用于生成大小为H2×W2的矩阵,H2、W2分别表示矩阵的行、列数目,其中所有元素的值都为1;SG=0,表示识别器输入为预测的已标记图像预测类概率图;SG=1,表示识别器输入为由标签图生成的类概率图;上述所述空间二进制类熵损失用来训练识别器;
对抗性损失表示为:
4.根据权利要求1所述的一种基于最大化置信度的半监督语义分割方法,其特征在于,所述对于未标记图像采用无监督学习方式来预测类概率图中的分割错误区域包括:
未标记图像类概率图的信息熵表征了相应图像的分割结果的不确定性,这分割错误图相关;
使用预测到的类概率图的信息熵来推断分割错误图,在获得分割错误图之后,将错误分类区域中的平均信息熵计算为无监督损失;
给定大小为H1×W1×C1的未标记图像xn',分割网络预测的未标记图像xn'的预测类概率图为S(xn'),通过以下方式计算信息熵图H(xn'):
其中E[·]表示对所有C1类别的期望;
信息熵指示分割网络预测的不确定性,给定不确定性阈值T,获得二进制映射,用于表示分割错误图EM(xn'),表示为:
where h1∈H1,w1∈W1
其中,(h1,w1)表示像素点的位置坐标;
通过信息熵图H(xn')和分割错误图EM(xn')得到无监督损失,并回馈到分割网络,无监督损失表示为:
5.根据权利要求1所述的一种基于最大化置信度的半监督语义分割方法,其特征在于,有监督学习的损失与无监督学习的损失构成了网络模型的总损失,表示为:
lossseg=lossmce+λadvlossadv+λinflossinf
其中,有监督学***衡相应损失的两个权重。
6.根据权利要求2所述的一种基于最大化置信度的半监督语义分割方法,其特征在于,
将已标记图像与未标记图像按照批量尺寸组合一起作为输入,设置网络模型的各项超参数,设置权值初始化方式,并有监督学习的损失与无监督学习的损失,利用随机梯度下降法和多边形学习率策略来训练分割网络,利用Adam优化器和Poly学习速率策略来训练识别器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911071629.4A CN110837836B (zh) | 2019-11-05 | 2019-11-05 | 基于最大化置信度的半监督语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911071629.4A CN110837836B (zh) | 2019-11-05 | 2019-11-05 | 基于最大化置信度的半监督语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110837836A true CN110837836A (zh) | 2020-02-25 |
CN110837836B CN110837836B (zh) | 2022-09-02 |
Family
ID=69576198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911071629.4A Active CN110837836B (zh) | 2019-11-05 | 2019-11-05 | 基于最大化置信度的半监督语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110837836B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111612010A (zh) * | 2020-05-21 | 2020-09-01 | 京东方科技集团股份有限公司 | 图像处理方法、装置、设备以及计算机可读存储介质 |
CN111651998A (zh) * | 2020-05-07 | 2020-09-11 | 中国科学技术大学 | 虚拟现实与增强现实场景下弱监督深度学习语义解析方法 |
CN111666953A (zh) * | 2020-06-04 | 2020-09-15 | 电子科技大学 | 一种基于语义分割的潮汐带测绘方法及设备 |
CN111798471A (zh) * | 2020-07-27 | 2020-10-20 | 中科智脑(北京)技术有限公司 | 图像语义分割网络的训练方法 |
CN111870279A (zh) * | 2020-07-31 | 2020-11-03 | 西安电子科技大学 | 超声图像左室心肌的分割方法、***及应用 |
CN112132149A (zh) * | 2020-09-10 | 2020-12-25 | 武汉汉达瑞科技有限公司 | 一种遥感影像语义分割方法及装置 |
CN112419327A (zh) * | 2020-12-10 | 2021-02-26 | 复旦大学附属肿瘤医院 | 一种基于生成对抗网络的图像分割方法、***和装置 |
CN112801107A (zh) * | 2021-02-01 | 2021-05-14 | 联想(北京)有限公司 | 一种图像分割方法和电子设备 |
CN113269197A (zh) * | 2021-04-25 | 2021-08-17 | 南京三百云信息科技有限公司 | 基于语义分割的证件图像顶点坐标回归***和识别方法 |
CN113516130A (zh) * | 2021-07-19 | 2021-10-19 | 闽江学院 | 基于熵最小化的半监督图像语义分割方法 |
CN113537365A (zh) * | 2021-07-20 | 2021-10-22 | 北京航空航天大学 | 一种基于信息熵动态赋权的多任务学***衡方法 |
CN113610807A (zh) * | 2021-08-09 | 2021-11-05 | 西安电子科技大学 | 基于弱监督多任务学习的新冠肺炎分割方法 |
CN114004817A (zh) * | 2021-11-03 | 2022-02-01 | 深圳大学 | 一种分割网络半监督训练方法、***、设备及存储介质 |
CN114118167A (zh) * | 2021-12-04 | 2022-03-01 | 河南大学 | 一种针对行为识别的基于自监督少样本学习的动作序列分割方法 |
CN114565755A (zh) * | 2022-01-17 | 2022-05-31 | 北京新氧科技有限公司 | 图像分割方法、装置、设备及存储介质 |
CN114565812A (zh) * | 2022-03-01 | 2022-05-31 | 北京地平线机器人技术研发有限公司 | 语义分割模型的训练方法、装置和图像的语义分割方法 |
CN115100491A (zh) * | 2022-08-25 | 2022-09-23 | 山东省凯麟环保设备股份有限公司 | 一种面向复杂自动驾驶场景的异常鲁棒分割方法与*** |
CN116403074A (zh) * | 2023-04-03 | 2023-07-07 | 上海锡鼎智能科技有限公司 | 基于主动标注的半自动图像标注方法及标注装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104091333A (zh) * | 2014-07-01 | 2014-10-08 | 黄河科技学院 | 基于区域可信融合的多类无监督彩色纹理图像分割方法 |
CN104537676A (zh) * | 2015-01-12 | 2015-04-22 | 南京大学 | 一种基于在线学习的渐进式图像分割方法 |
US20180129912A1 (en) * | 2016-11-07 | 2018-05-10 | Nec Laboratories America, Inc. | System and Method for Learning Random-Walk Label Propagation for Weakly-Supervised Semantic Segmentation |
CN108062753A (zh) * | 2017-12-29 | 2018-05-22 | 重庆理工大学 | 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法 |
US20180260957A1 (en) * | 2017-03-08 | 2018-09-13 | Siemens Healthcare Gmbh | Automatic Liver Segmentation Using Adversarial Image-to-Image Network |
CN108549895A (zh) * | 2018-04-17 | 2018-09-18 | 深圳市唯特视科技有限公司 | 一种基于对抗网络的半监督语义分割方法 |
US20180276825A1 (en) * | 2017-03-23 | 2018-09-27 | Petuum, Inc. | Structure Correcting Adversarial Network for Chest X-Rays Organ Segmentation |
CN109409240A (zh) * | 2018-09-28 | 2019-03-01 | 北京航空航天大学 | 一种结合随机游走的SegNet遥感图像语义分割方法 |
CN109614921A (zh) * | 2018-12-07 | 2019-04-12 | 安徽大学 | 一种基于对抗生成网络的半监督学习的细胞分割方法 |
CN109741332A (zh) * | 2018-12-28 | 2019-05-10 | 天津大学 | 一种人机协同的图像分割与标注方法 |
CN109993770A (zh) * | 2019-04-09 | 2019-07-09 | 西南交通大学 | 一种自适应时空学习与状态识别的目标跟踪方法 |
US10430946B1 (en) * | 2019-03-14 | 2019-10-01 | Inception Institute of Artificial Intelligence, Ltd. | Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques |
CN110363772A (zh) * | 2019-08-22 | 2019-10-22 | 西南大学 | 基于对抗网络的心脏mri分割方法及*** |
-
2019
- 2019-11-05 CN CN201911071629.4A patent/CN110837836B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104091333A (zh) * | 2014-07-01 | 2014-10-08 | 黄河科技学院 | 基于区域可信融合的多类无监督彩色纹理图像分割方法 |
CN104537676A (zh) * | 2015-01-12 | 2015-04-22 | 南京大学 | 一种基于在线学习的渐进式图像分割方法 |
US20180129912A1 (en) * | 2016-11-07 | 2018-05-10 | Nec Laboratories America, Inc. | System and Method for Learning Random-Walk Label Propagation for Weakly-Supervised Semantic Segmentation |
US20180260957A1 (en) * | 2017-03-08 | 2018-09-13 | Siemens Healthcare Gmbh | Automatic Liver Segmentation Using Adversarial Image-to-Image Network |
US20180276825A1 (en) * | 2017-03-23 | 2018-09-27 | Petuum, Inc. | Structure Correcting Adversarial Network for Chest X-Rays Organ Segmentation |
CN108062753A (zh) * | 2017-12-29 | 2018-05-22 | 重庆理工大学 | 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法 |
CN108549895A (zh) * | 2018-04-17 | 2018-09-18 | 深圳市唯特视科技有限公司 | 一种基于对抗网络的半监督语义分割方法 |
CN109409240A (zh) * | 2018-09-28 | 2019-03-01 | 北京航空航天大学 | 一种结合随机游走的SegNet遥感图像语义分割方法 |
CN109614921A (zh) * | 2018-12-07 | 2019-04-12 | 安徽大学 | 一种基于对抗生成网络的半监督学习的细胞分割方法 |
CN109741332A (zh) * | 2018-12-28 | 2019-05-10 | 天津大学 | 一种人机协同的图像分割与标注方法 |
US10430946B1 (en) * | 2019-03-14 | 2019-10-01 | Inception Institute of Artificial Intelligence, Ltd. | Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques |
CN109993770A (zh) * | 2019-04-09 | 2019-07-09 | 西南交通大学 | 一种自适应时空学习与状态识别的目标跟踪方法 |
CN110363772A (zh) * | 2019-08-22 | 2019-10-22 | 西南大学 | 基于对抗网络的心脏mri分割方法及*** |
Non-Patent Citations (5)
Title |
---|
HONGZHEN WANG 等: "Gated Convolutional Neural Network for Semantic Segmentation in High-Resolution Images", 《REMOTE SENSING 》 * |
TUAN-HUNG VU 等: "ADVENT: Adversarial Entropy Minimization for Domain Adaptation in Semantic Segmentation", 《ARXIV:1811.12833V2》 * |
WEI-CHIH HUNG 等: "Adversarial Learning for Semi-Supervised Semantic Segmentation", 《ARXIV:1802.07934V2》 * |
吴飞 等: "深度学习的可解释性", 《航空兵器》 * |
张桂梅 等: "基于自适应对抗学习的半监督图像语义分割", 《南昌航空大学学报:自然科学版》 * |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111651998A (zh) * | 2020-05-07 | 2020-09-11 | 中国科学技术大学 | 虚拟现实与增强现实场景下弱监督深度学习语义解析方法 |
US20220292805A1 (en) * | 2020-05-21 | 2022-09-15 | Boe Technology Group Co., Ltd. | Image processing method and apparatus, and device, storage medium, and image segmentation method |
CN111612010A (zh) * | 2020-05-21 | 2020-09-01 | 京东方科技集团股份有限公司 | 图像处理方法、装置、设备以及计算机可读存储介质 |
CN111666953A (zh) * | 2020-06-04 | 2020-09-15 | 电子科技大学 | 一种基于语义分割的潮汐带测绘方法及设备 |
CN111798471A (zh) * | 2020-07-27 | 2020-10-20 | 中科智脑(北京)技术有限公司 | 图像语义分割网络的训练方法 |
CN111798471B (zh) * | 2020-07-27 | 2024-04-02 | 中科智脑(北京)技术有限公司 | 图像语义分割网络的训练方法 |
CN111870279A (zh) * | 2020-07-31 | 2020-11-03 | 西安电子科技大学 | 超声图像左室心肌的分割方法、***及应用 |
CN112132149A (zh) * | 2020-09-10 | 2020-12-25 | 武汉汉达瑞科技有限公司 | 一种遥感影像语义分割方法及装置 |
CN112132149B (zh) * | 2020-09-10 | 2023-09-05 | 武汉汉达瑞科技有限公司 | 一种遥感影像语义分割方法及装置 |
CN112419327A (zh) * | 2020-12-10 | 2021-02-26 | 复旦大学附属肿瘤医院 | 一种基于生成对抗网络的图像分割方法、***和装置 |
CN112419327B (zh) * | 2020-12-10 | 2023-08-04 | 复旦大学附属肿瘤医院 | 一种基于生成对抗网络的图像分割方法、***和装置 |
CN112801107A (zh) * | 2021-02-01 | 2021-05-14 | 联想(北京)有限公司 | 一种图像分割方法和电子设备 |
CN113269197A (zh) * | 2021-04-25 | 2021-08-17 | 南京三百云信息科技有限公司 | 基于语义分割的证件图像顶点坐标回归***和识别方法 |
CN113269197B (zh) * | 2021-04-25 | 2024-03-08 | 南京三百云信息科技有限公司 | 基于语义分割的证件图像顶点坐标回归***和识别方法 |
CN113516130B (zh) * | 2021-07-19 | 2024-01-05 | 闽江学院 | 基于熵最小化的半监督图像语义分割方法 |
CN113516130A (zh) * | 2021-07-19 | 2021-10-19 | 闽江学院 | 基于熵最小化的半监督图像语义分割方法 |
CN113537365A (zh) * | 2021-07-20 | 2021-10-22 | 北京航空航天大学 | 一种基于信息熵动态赋权的多任务学***衡方法 |
CN113537365B (zh) * | 2021-07-20 | 2024-02-06 | 北京航空航天大学 | 一种基于信息熵动态赋权的多任务学***衡方法 |
CN113610807A (zh) * | 2021-08-09 | 2021-11-05 | 西安电子科技大学 | 基于弱监督多任务学习的新冠肺炎分割方法 |
CN113610807B (zh) * | 2021-08-09 | 2024-02-09 | 西安电子科技大学 | 基于弱监督多任务学习的新冠肺炎分割方法 |
CN114004817A (zh) * | 2021-11-03 | 2022-02-01 | 深圳大学 | 一种分割网络半监督训练方法、***、设备及存储介质 |
CN114004817B (zh) * | 2021-11-03 | 2024-04-02 | 深圳大学 | 一种分割网络半监督训练方法、***、设备及存储介质 |
CN114118167B (zh) * | 2021-12-04 | 2024-02-27 | 河南大学 | 一种针对行为识别的基于自监督少样本学习的动作序列分割方法 |
CN114118167A (zh) * | 2021-12-04 | 2022-03-01 | 河南大学 | 一种针对行为识别的基于自监督少样本学习的动作序列分割方法 |
CN114565755A (zh) * | 2022-01-17 | 2022-05-31 | 北京新氧科技有限公司 | 图像分割方法、装置、设备及存储介质 |
CN114565812A (zh) * | 2022-03-01 | 2022-05-31 | 北京地平线机器人技术研发有限公司 | 语义分割模型的训练方法、装置和图像的语义分割方法 |
CN115100491B (zh) * | 2022-08-25 | 2022-11-18 | 山东省凯麟环保设备股份有限公司 | 一种面向复杂自动驾驶场景的异常鲁棒分割方法与*** |
CN115100491A (zh) * | 2022-08-25 | 2022-09-23 | 山东省凯麟环保设备股份有限公司 | 一种面向复杂自动驾驶场景的异常鲁棒分割方法与*** |
US11954917B2 (en) | 2022-08-25 | 2024-04-09 | Shandong Kailin Environmental Protection Equipment Co., Ltd. | Method of segmenting abnormal robust for complex autonomous driving scenes and system thereof |
CN116403074A (zh) * | 2023-04-03 | 2023-07-07 | 上海锡鼎智能科技有限公司 | 基于主动标注的半自动图像标注方法及标注装置 |
CN116403074B (zh) * | 2023-04-03 | 2024-05-14 | 上海锡鼎智能科技有限公司 | 基于主动标注的半自动图像标注方法及标注装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110837836B (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837836B (zh) | 基于最大化置信度的半监督语义分割方法 | |
CN109934293B (zh) | 图像识别方法、装置、介质及混淆感知卷积神经网络 | |
US10410353B2 (en) | Multi-label semantic boundary detection system | |
CN110619369B (zh) | 基于特征金字塔与全局平均池化的细粒度图像分类方法 | |
US11670071B2 (en) | Fine-grained image recognition | |
Hu et al. | Qs-attn: Query-selected attention for contrastive learning in i2i translation | |
Kao et al. | Hierarchical aesthetic quality assessment using deep convolutional neural networks | |
Xiao et al. | A weakly supervised semantic segmentation network by aggregating seed cues: the multi-object proposal generation perspective | |
Everingham et al. | The pascal visual object classes challenge: A retrospective | |
CN111126488B (zh) | 一种基于双重注意力的图像识别方法 | |
CN112100346B (zh) | 基于细粒度图像特征和外部知识相融合的视觉问答方法 | |
US7672915B2 (en) | Method and system for labelling unlabeled data records in nodes of a self-organizing map for use in training a classifier for data classification in customer relationship management systems | |
US20210326638A1 (en) | Video panoptic segmentation | |
CN109063719B (zh) | 一种联合结构相似性和类信息的图像分类方法 | |
CN112800292B (zh) | 一种基于模态特定和共享特征学习的跨模态检索方法 | |
Guan et al. | A unified probabilistic model for global and local unsupervised feature selection | |
CN110826609B (zh) | 一种基于强化学习的双流特征融合图像识别方法 | |
CN114332544B (zh) | 一种基于图像块评分的细粒度图像分类方法和装置 | |
CN116844179A (zh) | 基于多模态交叉注意力机制图文融合的情感分析方法 | |
Wickramanayake et al. | Explanation-based data augmentation for image classification | |
Liu et al. | Learn from each other to classify better: Cross-layer mutual attention learning for fine-grained visual classification | |
CN112528058A (zh) | 基于图像属性主动学习的细粒度图像分类方法 | |
CN113298184B (zh) | 用于小样本图像识别的样本抽取、扩充方法及存储介质 | |
Sun et al. | Perceptual multi-channel visual feature fusion for scene categorization | |
CN113762041A (zh) | 视频分类方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231227 Address after: 230026 Jinzhai Road, Baohe District, Hefei, Anhui Province, No. 96 Patentee after: University of Science and Technology of China Patentee after: Zhu Changan Patentee after: Jin Yi Address before: 230026 Jinzhai Road, Baohe District, Hefei, Anhui Province, No. 96 Patentee before: University of Science and Technology of China |
|
TR01 | Transfer of patent right |