CN110322445B - 基于最大化预测和标签间相关性损失函数的语义分割方法 - Google Patents

基于最大化预测和标签间相关性损失函数的语义分割方法 Download PDF

Info

Publication number
CN110322445B
CN110322445B CN201910505928.8A CN201910505928A CN110322445B CN 110322445 B CN110322445 B CN 110322445B CN 201910505928 A CN201910505928 A CN 201910505928A CN 110322445 B CN110322445 B CN 110322445B
Authority
CN
China
Prior art keywords
picture
prediction
loss function
label
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910505928.8A
Other languages
English (en)
Other versions
CN110322445A (zh
Inventor
赵帅
蔡登�
武伯熹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910505928.8A priority Critical patent/CN110322445B/zh
Publication of CN110322445A publication Critical patent/CN110322445A/zh
Application granted granted Critical
Publication of CN110322445B publication Critical patent/CN110322445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于最大化预测和标签间相关性损失函数的语义分割方法,包括:(1)将真实场景图片输入分割模型,获得预测图片;(2)用一个高斯核函数在预测图片和标签图片上进行滑动卷积,获得局部统计特征;(3)根据得到的局部统计特征,计算预测图片和标签图片中对应区域间的线性相关性强弱;(4)将线性相关性强弱的指标作为权重,调整图片中像素点的交叉熵损失的值并进行困难样本挖掘;(5)根据获得的损失值更新分割模型中的权重参数;(6)重复上述步骤直到训练结束,并进行语义分割的应用。利用本发明,可以使得分割模型在训练过程中,更多的关注那些导致预测和标签间低相关性的点,从而提升分割模型的图像分割效果。

Description

基于最大化预测和标签间相关性损失函数的语义分割方法
技术领域
本发明属于计算机视觉中的图像语义分割领域,尤其是涉及一种基于最大化预测和标签间相关性损失函数的语义分割方法。
背景技术
语义分割是计算机视觉领域的一个基本问题,在无人驾驶、医疗影像分析、地理信息***、机器人等领域中具有广泛的应用场景。实际中,图像的语义分割通常被考虑为图像中点的多分类问题,目标是将既定的语义标签分配给图像中的每个像素点。近年来,随着卷积神经网络的发展和各种具有较强学***均分类损失来进行训练和优化。最常用的语义分割损失函数是softmax交叉熵损失函数:
Figure GDA0002910022280000011
其中,N是图片中像素点的数目,C是待分类物体的类别数目,y∈{0,1}是类标签,代表着像素点的真实类别,p∈[0,1]是分割模型预测的概率,p通常由softmax操作给出。从以上公式可以看出,逐像素的交叉熵损失将图像中的点当作相互独立的样本,并将所有点的平均交叉熵损失作为模型预测结果的总损失。然而,图像中的点存在很强的依赖性,这些点与点之间的依赖关系隐藏着物体的结构信息。由于逐像素的损失函数忽略了点与点之间的关系,当前景的视觉特征较微弱或当像素点属于具有较小空间结构的物体时,由逐像素的损失函数监督所训练出的语义分割模型的分割效果通常不太理想。
为了利用图像中所包含的物体的结构信息,在2012年第26届神经信息处理***进展大会Conference on Neural Information Processing Systems上的文章《EfficientInference in Fully Connected CRFs with Gaussian Edge Potentials》提出了一种高效的全连接条件随机场(Conditional Random Field,CRF)来拟合图像中的点与点之间的关系,并且驱使在真实图像中具有相似视觉外观的点的预测结果更加一致。但是,在CRF被当做一个后处理步骤时,它通常具有耗时的迭代推理过程并且对视觉外观变化敏感。
在2016年第30届神经信息处理***进展大会关于对抗学习的研讨会Conferenceon Neural Information Processing Systems Workshop on Adversarial Training上的文章《Semantic Segmentation using Adversarial Networks》提出用对抗学习网络(GAN)的思想来训练分割模型,用一个额外的判别器网络来判断分割模型的预测图片与标签图片是否具有高层次的结构一致性。然而,GAN通常难以训练,并且在训练阶段需要较多的内存来同时存放深层的生成器网络和判别器网络。
在2018年的欧洲计算机视觉国际会议European Conference on ComputerVision上的文章《Adaptive Affinity Fields for Semantic Segmentation》提出了一种关联邻域损失(Affinity Field Loss)函数,这个损失函数对那些属于同一类别物体的邻居点的预测施加一个趋同的力,使得这些点的预测趋向相似;对不属于同一类物体的邻居点的预测施加一个分散的力,使得这些点的预测趋向不相似。由此可以增大邻居的同类点的预测相似度以及邻居的不同类点的不相似度,达到较好的分割效果。然而这种方法在计算损失函数的值时,需要保存邻居点对矩阵,一般需要数倍于原来计算损失函数值所需的内存空间。
发明内容
基于现有技术的不足,本发明提出了一种基于最大化预测和标签间相关性损失函数的语义分割方法,使分割模型输出的预测图片与标签图片间的相关性最大化,从而使二者达到较高的结构相似性,提高分割模型的分割效果。
一种基于最大化预测和标签间相关性损失函数的语义分割方法,包括:
(1)将真实场景图片输入分割模型,获得预测图片;
(2)用一个高斯核函数在预测图片和标签图片上进行滑动卷积,获得局部统计特征,包括局部的均值和方差;
(3)根据得到的局部统计特征,计算预测图片和标签图片中对应区域间的线性相关性强弱;
(4)将线性相关性强弱的指标作为权重,调整图片中像素点的交叉熵损失的值并进行困难样本挖掘;
(5)计算每个训练批次中困难样本的结构损失函数,并进一步计算用于优化分割模型的总损失函数,更新分割模型中的权重参数;
(6)重复上述步骤(1)至步骤(5),达到预设训练次数后结束训练,并将训练完毕的模型进行语义分割的应用。
对于两张图片或者图片块x和y而言,结构相似性指标SSIM常用的形式如下:
Figure GDA0002910022280000031
其中,3个部分分别是光照强度相似度的衡量、对比度相似度的衡量和结构相似度的衡量,μx、σx和σxy分别是x的均值、x的方差以及x与y的协方差,C1、C2和C3是用来稳定每个分量的正数,它们的值极小。当约束C3=C2/2时,又可进一步获得SSIM的另外一种简化形式。从上面的公式中可以看出,SSIM能够衡量图片结构相似性的关键在于其第三个部分,而这部分实际上就是变量x和y之间的皮尔逊相关系数:
Figure GDA0002910022280000041
然而,SSIM并不适合直接用来作为语义分割模型的损失函数,因为在语义分割的语境中,SSIM并不是一个凸函数,因此它并不易于优化,模型可能并不会收敛于一个局部的极小值点。基于以上分析,本发明提出了适用于语义分割的最大化预测图片和标签图片相关性的结构损失函数。
步骤(2)中,采用一个标准差为1.5的高斯核函数w={wi|i=1,2,...,k2}(权重的值被归一化到1,
Figure GDA0002910022280000042
)来估计局部统计特征:
Figure GDA0002910022280000043
Figure GDA0002910022280000044
其中,μy
Figure GDA0002910022280000045
分别为标签图片的局部均值和局部方差,yi∈{0,1}代表标签图片中像素点的值。预测图片的局部均值和方差的计算公式和上述公式一样。
利用这个高斯核函数在分割模型的预测图片和标签图片中逐像素的进行滑动卷积,就可以获得图片的局部统计特征。利用这种方式获得的局部统计特征具有各向同性,有利于后续步骤的进一步操作。
步骤(3)中,对于一个形状为H×W×C的标签图片(H、W和C分别是这个标签图片的高、宽和通道数目),它被视为C张二值图像。基于此,用于衡量预测图片和标签图片间线性相关性强弱的指标为:
Figure GDA0002910022280000046
其中,误差e为两个局部区域间相关性强弱的表征,e越小,相关性越强;μy和σy分别是标签图片的局部均值和局部标准差,标签y对应的像素点位于这个局部区域的中心,p是分割模型预测的概率,C4=0.01是一个稳定因子。两个局部区域间的总的误差e可用来衡量这两个区域间的线性相关程度,总的误差e越小,两个局部区域间越有可能是正相关关系,这也意味着这两个区域的结构极有可能是一致的;反之当误差e较大,说明两个区域之间的结构极有可能是不一致的。因此,误差e可以被视为两个局部区域的结构差异性的衡量。
因为标签图片y取值范围为{0,1},这意味着y2=y,将这个结果带入方差计算公式可得,
Figure GDA0002910022280000051
因而可进一步得到:
Figure GDA0002910022280000052
其中,ynor是局部归一化后的值。假如我们求ynor关于μy的导数,我们就可以比较明显的发现,当y=1且局部区域中其他点值为0时,ynor取得极大值
Figure GDA0002910022280000053
当y=0且局部区域中其他点值为1时,ynor取得极小值
Figure GDA0002910022280000054
预测图片p的分布往往不如标签图片y的分布极端,其归一化后的值pnor的极值
Figure GDA0002910022280000055
Figure GDA0002910022280000056
的绝对值的大小,分别小于对应的
Figure GDA0002910022280000057
Figure GDA0002910022280000058
的绝对值。
图像的统计特征在空间上常常是不稳定的,经常会有突变的情况。此外,全局的均值和方差是旋转不变的,一张图片旋转前后它的均值和方差并不会产生变化,这对于衡量两张图片的结构相似性而言并不理想。因此,为了更好地捕捉图像的局部细节,本发明采用了局部统计特征而不是全局统计特征。
步骤(4)中,调整图片中像素点的交叉熵损失的值并进行困难样本挖掘所使用的公式如下:
fn,c=1{en,c>βemax},
Figure GDA0002910022280000059
其中,n和c代表当前像素点在图片中的坐标,emax是误差e的理论最大值;当内部条件为真时,1{·}等于1,反之为0;β∈[0,1)是用来选择要被抛弃的样本的权重因子,yn,c和pn,c分别是当前像素点对应的标签和预测概率,
Figure GDA0002910022280000061
是常规的sigmoid交叉熵损失函数,
Figure GDA0002910022280000062
是可以最大化预测和标签间相关性的结构损失函数。实际中,β的值被设置为0.1,这是一个经验值。将误差e当做权重来调整图像中像素点的常规的交叉熵损失的值,是为了让分割模型在训练时,将更多的注意力集中在那些可能会导致预测图片和标签图片不一致的预测上,增强预测图片和标签图片的一致性。在这里,我们仍然沿用了交叉熵损失函数,这是因为对数函数损失在一些文献中,已被实验性的证明是一个非常适用于深度神经网络分类器的损失函数。
在重新调整权重的同时,本发明所提出的损失函数抛弃了那些具有较低误差值的样本点。这是因为在训练过程中,一个批次中的图像可能包含数百万甚至数千万的样本点。在训练的后期阶段,分割模型通常可以获得一个较高的像素精度值(例如,96%)和一个相对较低的平均交叉联合(mean intersection-over-union,mIoU)分数(例如,78%)。这种现象表明,容易分类的样本主导了损失并使的分割模型的训练效率变得低下。因此,我们将具有较小结构差异性e的样本视为简单样本,并在训练期间抛弃它们,也就是说这些简单样本并不参与最后的结构损失函数值的计算。最后的结果就是,导致标签图片y和预测图片p之间产生低线性相关性的困难样本(结构差异性e较大的样本)进一步得到更多关注。这在一些文献中被称为困难样本挖掘(online hard example mining,OHEM)策略。
还有一点值得注意的是,本发明所提出的损失函数提取了局部的统计特征作为额外的监督信息。因此,本发明所提出的损失函数,是一个逐区域的损失函数,这与一般的逐像素的损失函数有着本质上的区别。而采用本发明所提出的损失函数进行训练的模型,训练时也将处于局部的统计特征信息的监督下。
步骤(5)中,单个批次中困难样本的结构损失函数为:
Figure GDA0002910022280000071
其中,
Figure GDA0002910022280000072
是困难样本的数目,当位于图片坐标(n,c)的像素点为困难样本时,fn,c为1,反之,其值为0,N是图片中总的像素点数目,C代表物体的类别数目。累加并平均每个像素的结构损失函数值,即可得到当前训练批次的总的结构损失函数值。由于在计算结构差异性时,标签图片每个通道的二值图片和其对应的预测图片的差异性是独立计算的。这意味不同通道的二值图片被视为是相互独立的,不同二值图片中的点自然也是相互独立的,因此在计算结构损失函数的值时,我们选用了sigmoid操作而不是softmax操作,在选取和计算困难样本的数目时,也是在整个二值图片中所有的样本点的范围内进行。
最后,用于优化分割模型的总损失函数为:
Figure GDA0002910022280000073
其中,λ∈[0,1]是一个权重因子,用来调节常规的交叉熵损失
Figure GDA0002910022280000074
和结构相似性损失
Figure GDA0002910022280000075
的相对重要程度,实际中λ的值被设为0.5。常规的交叉熵损失可衡量预测图片和标签图片间像素强度的相似性,而结构相似性损失可衡量预测图片和标签图片间的结构相似性。上式中,逐像素的交叉熵损失的角色类似于SSIM中衡量光照强度相似度的部分,本发明所提出的结构相似性损失的角色类似于SSIM中衡量结构相似度的部分。值得注意的是,此处采用的是sigmoid交叉熵损失。这意味着,语义分割问题在本发明中,并不像大多数常见的方法一样,被视为一个图像中像素点的多分类问题来考虑,而是被视为多个像素点的二分类问题,再由多个二分类器来组合成一个多分类器。
与现有技术相比,本发明具有以下有益效果:
1、本发明提出结构损失函数,提供了一种非常直观的方法来衡量两个图像之间的结构相似性;可以比较容易地用卷积的方式来实现,而且只在训练期间需要较少的额外计算资源。因此本发明提出的方法可被轻易的结合到任何现有的分割框架中。
2、本发明提出的语义分割方法,分割模型易于训练,不需要额外的推理步骤或者额外的网络结构;通过大量实验证明,使用本发明提出方法训练的分割模型,能得到优于基准算法和一些其他同类方法的表现。
附图说明
图1为本发明的整体框架和流程示意图;
图2为本发明实施例中标签图片和预测图片归一化后的示意图;
图3为本发明实施例中归一化后的标签图片和预测图片的统计值示意图;图4为训练过程中困难样本占总体样本数目的示意图;
图5为本发明实施例在PASCAL VOC 2012验证集上定性的分割结果。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示,一种基于最大化预测和标签间相关性损失函数的语义分割方法,在得到分割模型输出的预测图片之后,将预测图片和标签图片进行局部归一化,然后计算得到预测图片和标签图片相关性的强弱,得到结构差异性的值,并根据结构差异性的值对原始的交叉熵损失进行权重调整,同时进行困难样本挖掘。然后根据得到的损失函数值更新模型参数,重复这些过程直到训练停止。此时就可以得到一个性能较好的图像语义分割模型。
如图2所示,展示了原始的预测图片和标签图片归一化前后像素点值的变化,以及由此带来的交叉熵损失值的变化。在归一化之前,原始的预测图片和标签图片之间的sigmoid交叉熵损失值约为2.805左右。其中,中心点被错分类,中心点的交叉熵损失值约占总交叉熵损失值的57%左右。而在归一化后和用结构相似差异的值对原始的交叉熵损失值进行权重调整之后,归一化后的预测图片和标签图片之间的sigmoid交叉熵损失值约为3.060左右。其中,被错分类的中心点的交叉熵损失值约占总的交叉熵损失值的91%左右。由此可以看出,在进行归一化之后,两个局部区域之间不一致的点的损失被放大,分割模型在产生不一致的预测点时将受到更多的惩罚,由此将引导分割模型往一个更好的局部收敛点前进。
图3中,记录了一次训练过程中,归一化后的标签图片和归一化后的预测图片的极大值、极小值、均值、中值以及结构差异性的最大值,其使用的高斯核函数的高斯核大小为3。从图3中可以看出,对于归一化的预测图片pnor,其
Figure GDA0002910022280000091
Figure GDA0002910022280000092
的值分别小于对应的归一化的标签图片ynor
Figure GDA0002910022280000093
Figure GDA0002910022280000094
的值。而结构差异性的最大值emax的值要明显大于
Figure GDA0002910022280000095
Figure GDA0002910022280000096
的值。结构差异性的均值emean和中值emedian都接近于0,同一时刻,emean的值要大于emedian的值。
为了进一步分析本发明所提出的结构损失函数中所采取的困难样本挖掘的策略的影响,在图4中,记录了用于选取困难样本的阈值参数β取不同值时其对应的困难样本数目占总体样本数目的比例,及这个比例在一次训练过程中的变化。
如图4所示,困难样本的比例对于选取困难样本的阈值参数β是非常敏感的,β的变动会对困难样本的比例产生较大影响,因此其选择是较为关键的,本发明中采用的β数值为0.1。
图5中,展示了采用本发明算法和采用常规方法训练的分割模型的分割效果。可以明显看出,采用本发明算法训练的分割模型的分割结果,相对于常规的方法训练的分割模型的分割结果,在视觉感受效果上获得了较大的提升。这定性地证明了本发明算法的有效性。
下面将本发明提出的方法应用到实际例子当中,同时与其他同类型的方法进行对比,以体现本发明的技术效果和优越性。
本发明所采用的分割模型是当前前沿的DeepLabv3和DeepLabv3+语义分割模型,本发明将会比较使用本发明提出的方法和使用常规的交叉熵损失时,分割模型的表现。
本发明在两个大型公开数据集PASCAL VOC 2012和Cityscapes上做了测试。PASCAL VOC 2012数据集分为三个部分:训练集、验证集和测试集,分别有1464、1449和1456张图片。本发明在训练时采用的是PASCAL VOC 2012的一个增强数据集,包含有10582张图片。Cityscapes数据集是一个高分辨率数据集,其中图像的大小均为2048×1046,训练集、验证集和测试集分别包含2975、500和1525张图片。
本发明所使用的评判指标是mean intersection-over-union(mIoU)分数,即预测分割图片和标签图片中物体的交集和并集的比。本发明先在PASCAL VOC 2012验证集上验证了算法的效果,结果如表1所示。如表1所示,CE和BCE分别是常规的softmax和sigmoid交叉熵损失,高斯核函数的高斯核大小,也就是采用的局部区域的大小。从表中可以看出,采用本发明提出的算法训练的分割模型要比传统的方法具有更好的性能。表1中也展示了本发明提出的算法效果和高斯核函数的高斯核大小的关系。
除此之外,本发明同样在PASCAL VOC 2012验证集上对比了所提出方法和一些同类型的方法的性能。对比结果如表2所示。
如表2所示,展示了基于GAN的方法相对基准算法(Base)的提升,还有CRF方法和Affinity方法相对基准算法(CE、BCE)的提升。相比这些方法,本发明所提出的算法展现了相对基准算法最大的提升效果。此外,由于实验设置发生了变化,表2中的mIoU分数并不与表1一致。
表1
Figure GDA0002910022280000111
表2
Figure GDA0002910022280000112
更进一步,本发明同样在Cityscapes验证集上验证了所提出算法的有效性,结果如表3所示。
表3
Figure GDA0002910022280000121
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于最大化预测和标签间相关性损失函数的语义分割方法,其特征在于,包括:
(1)将真实场景图片输入分割模型,获得预测图片;
(2)用一个高斯核函数在预测图片和标签图片上进行滑动卷积,获得局部统计特征,包括局部的均值和方差;
(3)根据得到的局部统计特征,计算预测图片和标签图片中对应区域间的线性相关性强弱;
(4)将线性相关性强弱的指标作为权重,调整预测图片中像素点的交叉熵损失的值并进行困难样本挖掘;
(5)计算每个训练批次中困难样本的结构损失函数,并进一步计算用于优化分割模型的总损失函数,更新分割模型中的权重参数;
(6)重复上述步骤(1)至步骤(5),达到预设训练次数后结束训练,并将训练完毕的模型进行语义分割的应用。
2.根据权利要求1所述的基于最大化预测和标签间相关性损失函数的语义分割方法,其特征在于,步骤(2)中,采用标准差为1.5的高斯核函数w={wi|i=1,2,…,k2}来获得局部统计特征,其中,k是预先设置的常量,代表高斯核的大小,k2表示高斯核中的元素个数,标签图片的局部统计特征如下:
Figure FDA0003020602560000011
Figure FDA0003020602560000012
其中,
Figure FDA0003020602560000013
μy
Figure FDA0003020602560000014
分别为标签图片的局部均值和局部方差,yi∈{0,1}代表标签图片中像素点的值。
3.根据权利要求1所述的基于最大化预测和标签间相关性损失函数的语义分割方法,其特征在于,步骤(3)中,计算预测图片和标签图片中对应区域间的线性相关性强弱的指标为:
Figure FDA0003020602560000021
其中,误差e为两个局部区域间相关性强弱的表征,e越小,相关性越强;μy和σy分别是标签图片的局部均值和局部标准差,标签y对应的像素点位于这个局部区域的中心,μp和σp分别为预测图片的局部均值和局部标准差,p是分割模型对于预测图片中像素点的类别归属的预测概率,C4=0.01是一个稳定因子。
4.根据权利要求1所述的基于最大化预测和标签间相关性损失函数的语义分割方法,其特征在于,步骤(4)中,调整预测图片中像素点的交叉熵损失的值并进行困难样本挖掘所使用的公式如下:
fn,c=1{en,c>βemax},
Figure FDA0003020602560000022
其中,n和c代表当前像素点在预测图片中的坐标,emax是误差e的理论最大值,误差e为步骤(3)中得到的两个局部区域间相关性强弱的表征值,en,c表示在预测图片中坐标(n,c)处计算得到的表征相关性强弱的具体数值;当内部条件为真时,1{·}等于1,反之为0;β∈[0,1)是用来选择要被抛弃的样本的权重因子,yn,c和pn,c分别是当前像素点对应的标签和预测概率,
Figure FDA0003020602560000023
是sigmoid交叉熵损失函数,
Figure FDA0003020602560000024
是最大化预测和标签间相关性的结构损失函数。
5.根据权利要求4所述的基于最大化预测和标签间相关性损失函数的语义分割方法,其特征在于,β的值设置为0.1。
6.根据权利要求4所述的基于最大化预测和标签间相关性损失函数的语义分割方法,其特征在于,步骤(5)中,每个训练批次中困难样本的结构损失函数的公式为:
Figure FDA0003020602560000031
其中,
Figure FDA0003020602560000032
是困难样本的数目,当位于预测图片坐标(n,c)的像素点为困难样本时,fn,c为1,反之,其值为0;y表示预测图片中像素点的标签,p表示分割模型对于预测图片中像素点的类别归属的预测概率,yn,c表示坐标为(n,c)的像素点对应的标签,pn,c表示分割模型对于坐标为(n,c)的像素点给出的类别归属概率预测值,
Figure FDA0003020602560000033
表示步骤(4)中得到的最大化预测和标签间相关性的结构损失函数值;N是预测图片中总的像素点数目,C代表物体的类别数目;累加并平均每个像素的结构损失函数值,即可得到当前训练批次的总的结构损失函数值。
7.根据权利要求6所述的基于最大化预测和标签间相关性损失函数的语义分割方法,其特征在于,总损失函数的公式为:
Figure FDA0003020602560000034
其中,y表示预测图片中像素点的标签,p表示分割模型对于预测图片图像中像素点的类别归属的预测概率,λ∈[0,1]是一个权重因子,用来调节交叉熵损失
Figure FDA0003020602560000035
和结构损失函数
Figure FDA0003020602560000036
的相对重要程度,交叉熵损失
Figure FDA0003020602560000037
用于衡量预测图片和标签图片间像素强度的相似性,而结构损失函数
Figure FDA0003020602560000038
用于衡量预测图片和标签图片间的结构相似性。
8.根据权利要求7所述的基于最大化预测和标签间相关性损失函数的语义分割方法,其特征在于,λ的值设置为0.5。
CN201910505928.8A 2019-06-12 2019-06-12 基于最大化预测和标签间相关性损失函数的语义分割方法 Active CN110322445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910505928.8A CN110322445B (zh) 2019-06-12 2019-06-12 基于最大化预测和标签间相关性损失函数的语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910505928.8A CN110322445B (zh) 2019-06-12 2019-06-12 基于最大化预测和标签间相关性损失函数的语义分割方法

Publications (2)

Publication Number Publication Date
CN110322445A CN110322445A (zh) 2019-10-11
CN110322445B true CN110322445B (zh) 2021-06-22

Family

ID=68119517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910505928.8A Active CN110322445B (zh) 2019-06-12 2019-06-12 基于最大化预测和标签间相关性损失函数的语义分割方法

Country Status (1)

Country Link
CN (1) CN110322445B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110992365B (zh) * 2019-11-04 2023-04-18 杭州电子科技大学 一种基于图像语义分割的损失函数及其设计方法
CN111739027B (zh) * 2020-07-24 2024-04-26 腾讯科技(深圳)有限公司 一种图像处理方法、装置、设备及可读存储介质
CN111931782B (zh) * 2020-08-12 2024-03-01 中国科学院上海微***与信息技术研究所 语义分割方法、***、介质及装置
CN112215803B (zh) * 2020-09-15 2022-07-12 昆明理工大学 一种基于改进生成对抗网络的铝板电涡流检测图像缺陷分割方法
CN113688915B (zh) * 2021-08-24 2023-07-25 北京玖安天下科技有限公司 一种面向内容安全的困难样本挖掘方法及装置
CN113920079A (zh) * 2021-09-30 2022-01-11 中国科学院深圳先进技术研究院 一种困难样本挖掘方法、***、终端以及存储介质
CN115222940B (zh) * 2022-07-07 2023-06-09 北京邮电大学 一种语义分割方法、***、设备和存储介质
CN115797642B (zh) * 2023-02-13 2023-05-16 华东交通大学 基于一致性正则化与半监督领域自适应图像语义分割算法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826204B (zh) * 2009-03-04 2012-09-26 中国人民解放军63976部队 基于改进的水线算法的快速颗粒图像分割方法
CN101493887B (zh) * 2009-03-06 2012-03-28 北京工业大学 基于半监督学习和哈希索引的眉毛图像分割方法
US9501837B2 (en) * 2014-10-01 2016-11-22 Lyrical Labs Video Compression Technology, LLC Method and system for unsupervised image segmentation using a trained quality metric
CN105957063B (zh) * 2016-04-22 2019-02-15 北京理工大学 基于多尺度加权相似性测度的ct图像肝脏分割方法及***
CN106548478B (zh) * 2016-10-28 2019-06-28 中国科学院苏州生物医学工程技术研究所 基于局部拟合图像的活动轮廓图像分割方法
CN107945269A (zh) * 2017-12-26 2018-04-20 清华大学 基于多视点视频的复杂动态人体对象三维重建方法及***
CN109359603A (zh) * 2018-10-22 2019-02-19 东南大学 一种基于级联卷积神经网络的车辆驾驶员人脸检测方法
CN109685807A (zh) * 2018-11-16 2019-04-26 广州市番禺区中心医院(广州市番禺区人民医院、广州市番禺区心血管疾病研究所) 基于深度学习的下肢深静脉血栓自动分割方法及***
CN109685802B (zh) * 2018-12-13 2023-09-15 泸州禾苗通信科技有限公司 一种低延迟的视频分割实时预览方法

Also Published As

Publication number Publication date
CN110322445A (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
CN110322445B (zh) 基于最大化预测和标签间相关性损失函数的语义分割方法
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN108830285B (zh) 一种基于Faster-RCNN的加强学习的目标检测方法
CN111369572B (zh) 一种基于图像修复技术的弱监督语义分割方法和装置
CN109684922B (zh) 一种基于卷积神经网络的多模型对成品菜的识别方法
CN110598598A (zh) 基于有限样本集的双流卷积神经网络人体行为识别方法
CN110738647B (zh) 融合多感受野特征映射与高斯概率模型的老鼠检测方法
CN112396027A (zh) 基于图卷积神经网络的车辆重识别方法
CN111027493A (zh) 一种基于深度学习多网络软融合的行人检测方法
CN109165658B (zh) 一种基于Faster-RCNN的强负样本水下目标检测方法
CN109801305B (zh) 基于深度胶囊网络的sar图像变化检测方法
CN112381030B (zh) 一种基于特征融合的卫星光学遥感图像目标检测方法
CN111986126B (zh) 一种基于改进vgg16网络的多目标检测方法
CN112418261B (zh) 一种基于先验原型注意力机制的人体图像多属性分类方法
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
CN114723010B (zh) 一种异步事件数据的自动学习增强方法及***
Golestaneh et al. No-reference image quality assessment via feature fusion and multi-task learning
CN113807176A (zh) 一种基于多知识融合的小样本视频行为识别方法
CN115984223A (zh) 基于PCANet及多分类器融合的图像溢油检测方法
CN115810149A (zh) 基于超像素与图卷积的高分辨率遥感图像建筑物提取方法
CN114882423A (zh) 一种基于改进Yolov5m模型和DeepSort的货车入库货物识别方法
CN111104855A (zh) 一种基于时序行为检测的工作流识别方法
CN111738237B (zh) 一种基于异构卷积的多核迭代rpn的目标检测方法
CN105678798A (zh) 一种结合局部空间信息的多目标模糊聚类图像分割方法
CN111652265A (zh) 一种基于自调整图的鲁棒半监督稀疏特征选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant