CN111798471A - 图像语义分割网络的训练方法 - Google Patents

图像语义分割网络的训练方法 Download PDF

Info

Publication number
CN111798471A
CN111798471A CN202010731266.9A CN202010731266A CN111798471A CN 111798471 A CN111798471 A CN 111798471A CN 202010731266 A CN202010731266 A CN 202010731266A CN 111798471 A CN111798471 A CN 111798471A
Authority
CN
China
Prior art keywords
pixel
meta
training
domain
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010731266.9A
Other languages
English (en)
Other versions
CN111798471B (zh
Inventor
谢洪涛
张勇东
徐海
黄福玉
李宏亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Research Institute
Zhongke Zhinao Beijing Technology Co ltd
University of Science and Technology of China USTC
Original Assignee
Beijing Zhongke Research Institute
Zhongke Zhinao Beijing Technology Co ltd
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Research Institute, Zhongke Zhinao Beijing Technology Co ltd, University of Science and Technology of China USTC filed Critical Beijing Zhongke Research Institute
Priority to CN202010731266.9A priority Critical patent/CN111798471B/zh
Publication of CN111798471A publication Critical patent/CN111798471A/zh
Application granted granted Critical
Publication of CN111798471B publication Critical patent/CN111798471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像语义分割网络的训练方法,基于不确定性的域分割方法,根据图像的不确定性在像素层面将输入图像分成两个域,元训练域和元测试域,元训练域由不确定度高的像素组成,元测试域由不确定度低的像素组成;基于元学习的模型优化方法,模型首先在元训练域上更新,然后再元测试域上进行更新方向的微调;通过以上两个方面,不仅提升分割效果还提升了网络模型的鲁棒性。

Description

图像语义分割网络的训练方法
技术领域
本发明涉及语义分割技术领域,尤其涉及一种图像语义分割网络的训练方法。
背景技术
语义分割致力于对给定的输入图像进行像素级别的预测,这就要求对训练数据集中的图像进行像素级别的标注。然而像素级别标注是一件费时费力的工作,且由于标注人员认知上的差异,往往存在标注不一致的情况。如图1所示,第一行和第二行中同一辆车被赋予了不同的标签,第一行中标记为‘truck’,然而第二行中标记为‘car’;第三行左边图中‘motorcycle’被标记为‘bike’,而右边图中骑自行车的人应该被标位‘rider’但却被标位了‘person’。
另外,数据集中类别不平衡问题也是限制语义分割的一个重要因素,如图2所示,在Cityscapes数据集中类别分布极度不均衡,占比最高的前五个类别占整个数据集像素的90%以上,这将会导致训练过程被这些主要类别主导,以至于少数类别的分割效果差且不稳定。
针对以上数据集类别不平衡和标签噪声的情况,目前还没有较为有效的解决方案。
发明内容
本发明的目的是提供一种图像语义分割网络的训练方法,能够减轻语义分割中数据集缺陷(类别不平衡和标签噪声)带来的对语义分割算法的负面影响,以提升分割效果和增强模型鲁棒性。
本发明的目的是通过以下技术方案实现的:
一种图像语义分割网络的训练方法,包括:
每一次迭代训练过程中,利用图像语义分割网络对输入图像的每一个像素类别进行预测得到预测概率图;
基于预测概率图判断输入图像中的每一像素是否为边界像素,统计每一像素周围的边界像素的数目,从而将每一像素划分为训练域或者元测试域;
利用元训练域对网络参数进行更新,之后,再利用元测试域对更新后的网络参数做二次更新。
由上述本发明提供的技术方案可以看出,1)基于不确定性的域分割方法,根据图像的不确定性在像素层面将输入图像分成两个域,元训练域和元测试域,元训练域由不确定度高的像素组成,元测试域由不确定度低的像素组成;2)基于元学习的模型优化方法,模型首先在元训练域上更新,然后再元测试域上进行更新方向的微调;通过以上两个方面,不仅提升分割效果还提升了网络模型的鲁棒性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明背景技术提供的数据集标注不一致的示意图;
图2为本发明背景技术提供的Cityscapes数据集中类别分布图;
图3为本发明实施例提供的图像语义分割网络的训练方法的框架图;
图4为本发明实施例提供的图像边缘标签内在噪声的示意图;
图5为本发明实施例提供的在多种数据集中的分割效果示意图;
图6为本发明实施例提供的在多种数据集中的分割效果示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种对数据集类别不平衡和标签噪声鲁棒的图像语义分割网络的训练方法。该方法最大的亮点就是将标签噪声纳入了分割网络的训练过程的考虑范围内,由于错误标注和图像模糊而导致的标签不确定性使得训练受到潜在的噪声干扰,为了减轻数据集的自身缺陷对模型能力的影响,提升模型的泛化能力,是本方法的目的和关键所在。通过设计的域划分(Domain Division)和域泛化(Domain Generalization)的元学习优化策略,在三个数据集上实验验证了本方法能有效提升模型的分割性能,且好于其他的优化方法。
如图3所示,为训练过程的网络框架,每一次迭代训练过程的主要流程主要包括如下两个部分:
一、域划分。
图像分割数据集中类别不均衡(图2)导致传统的优化目标函数--交叉熵(crossentropy)容易被占比高的类别主导,难样本挖掘的方法可以一定程度上减轻这种不平衡的影响,但依靠正确预测概率去筛选难样本容易受离群点和标签噪声影响。本发明基于样本不确定性度量的思想,在优化过程中赋予对于当前模型来说信息量大的像素更高的权重,太简单或者太难的样本对于提升当前模型能力来说作用都不大,在判决边界附近的样本是当前迭代过程中模型应该侧重的。基于此,本方法提出了域划分的思想,根据样本的信息量将图像划分成两个域,信息量大的元训练域和信息量相对较低的元测试域。
域划分部分主要包括:利用图像语义分割网络对输入图像的每一个像素类别进行预测得到预测概率图;基于预测概率图判断输入图像中的每一像素是否为边界像素,统计每一像素周围的边界像素的数目,从而将每一像素划分为训练域或者元测试域。优选实施方式如下:
1、对于训练数据集中的每一图像I∈RC*H*W,C表示图像的通道数,H,W分别代表图像的高和宽,经过预处理(例如,缩放,裁剪、添加高斯噪声等)后,送入域划分部分。
2、输入图像I经过全卷积分割网络DeepLab-v3(图像语义分割网络,也即图3中的base model)进行特征提取,对将图像的特征上采样到输入图像的大小后,通过Softmax预测层对每一个像素类别进行预测得到预测概率图,完成对每一像素所属类别的预测。
3、根据预测的概率图,将图像域分成两个不同的域,划分的依据是该像素是否落在判决边界附近,本发明实施例中中使用K-领域内是否包含不同的预测类别进行近似,由此将图像分成元训练域(Meta-train domain)和元测试域(Meta-test domain)。
1)判断像素是否落在判决边界附近的方式为:如果当前像素i与其K-邻域内像素的预测类别出现不一致的情况(即包含两种以上的预测类别),则当前像素为边界像素(boundary Pixel),公式化表达如下:
Figure BDA0002603432170000041
其中,t表示第t次迭代,pi表示当前像素i的预测类别,Nb(i)表示当前像素i的K-邻域内像素集合,pj表示集合Nb(i)中像素j的预测类别;
Figure BDA0002603432170000042
是一个二元判决子,pj=pi则为1,否则为0。
2)统计当前像素i的K-邻域内像素中边界像素的个数,并作为当前像素i的权重,如果当前像素i的K-邻域内像素中没有边界像素,则赋予权重为1,表示为:
Figure BDA0002603432170000043
其中,t表示第t次迭代,Wt(i)表示当前当前像素i的权重,Ft(j)表示当前像素i的K-邻域内像素集合中像素j是否为边界像素;
3)根据当前像素i的权重大小,将其划分为元训练域Dtr或者元测试域Dte,表示为:
Dtr={(xs,ys)|Wt(xs,ys)>1}
Dte={(xt,yt)|Wt(xt,yt)=1}
其中,(xs,ys)、(xt,yt)表示元训练域Dtr、元测试域Dte中对应位置的像素。
通过以上的域划分策略,元训练域将更关注于当前模型判决能力的边界,决定了模型更新的主方向,而元测试域则由受噪声影响更小的区域组成,可以用来微调模型更新方向
二、域泛化。
如果只在元训练域上进行网络训练,会有两点不足:一方面是,会导致信息丢失,元测试域的信息将无法反馈到网络优化过程中;另一方面是,随着训练进行,元训练域将逐步拟合到物体边界区域,而边界附近像素标签噪声很大,尤其是在医学影像中,如图4所示,受限于成像质量和标注专家的认知差异,边缘附近的标签具有明显的内在噪声;图4中最右边一列图像是中间一幅图像方框区域的放大显示,两幅图中的划线表示的是不同人员的标注结果,这幅图是为了说明不同标注人员标注结果的差异性,用来说明label的不准确性。而物体内部区域即元测试域受标签影响较小,因此提出一种域泛化的方法对模型更新方向进行微调。
首先,网络参数θt在元训练域上进行粗更新得到θt′,元训练域由信息量大的像素组成,但同时受噪声影响程度大,因此这一步更新之后利用噪声更少的元测试域对网络更新方向进行微调,得到更新后的参数θt+1,使得模型更鲁棒。
Figure BDA0002603432170000051
Figure BDA0002603432170000052
其中,t、t+1表示第t次、t+1次迭代;θ′t为利用元训练域Dtr更新后的网络参数,θt+1表示利用元测试域Dte二次更新后的网络参数,(xs,ys)、(xt,yt)对应的表示元训练域Dtr、元测试域Dte中像素的位置;α、β分别表示两次更新过程中的更新速率(即学习率),
Figure BDA0002603432170000053
分别为参数θt、θt′的梯度(即导数),
Figure BDA0002603432170000054
分别为元训练域、元测试域的损失函数。
通常情况下,达到设定好的训练次数上限且损失不再下降,则认为收敛,此时,可以认为图1中的图像语义分割网络训练完毕,其输出的预测概率图即为图像语义分割结果。
基于本发明实施例上述方案优化后的图像语义分割网络可以应用在多种语义分割业务场景,如道路场景分割,也可以集成到医疗影像云平台,提供云端的线上AI智能分割。
为了说明本发明实施例上述方案的效果,下面结合实验进行说明。
1、数据集和图像预处理
本发明上述方案在多个数据集上得到验证,分别是城市场景分割数据集Cityscapes,X光胸片数据集(JSRT),和脑胶质瘤数据集(BRATS 2018)。
Cityscapes(城市场景)
Cityscapes数据集是奔驰公司采集的不同城市街景的图像数据,且对图像进行了像素级别的标注。数据集包含5000张细标注的图像,每张图像的分辨率为1024*2048,数据集被划分成2975,500,和1525张分别用于训练,验证和测试。
JSRT(X光胸片)
JSRT是The Japanese Society of Radiological Technology的缩写,这个数据集包含247例分辨率为2048*2048的X光胸片,胸片中给出肺部,心脏和锁骨的分割标签,实验中我们主要关注心脏和肺部的分割,数据集被划分成124例训练集和123例测试集。
BRATS 2018(脑胶质瘤数据集)
脑胶质瘤数据集来源于BRATS2018Challenge,分为训练集和测试集,训练集中包含285例病人MRI数据,其中210例为高级别胶质瘤,75例低级别胶质瘤,测试集中包含66例未标明级别的胶质瘤。每一例数据中包含四种序列的MRI数据,分别是T1,T2,T2-Flair和T1Gd,所有的图像都被配准到标准脑上,图像大小为240*240*155。
所有实验过程中,为了网络训练,输入数据都经过标准化以获得一个较好的初始数据分布。另外,受限于数据样本的数目,实验中采取了随机平移,旋转,缩放和增加随机扰动的方式进行了数据扩充,同时一定程度上防止实验过拟合。
2、损失函数。
为了验证本发明实施例提出的优化策略,比较了传统优化方法和基于难样本挖掘的优化方法。同时对比了多种损失函数,包含传统的交叉熵损失(Cross Entropy Loss),医学分割中常用的Dice Loss,为了缓解样本不均衡问题的Focal loss,以及对边界加权的Boundary Loss;本发明实施例中,主要关注的是更新策略,前述更新公式中所涉及的损失函数可以使用传统的交叉熵损失。
3、实验结果
通过三个数据集实验表明,本发明上述方案可以显著提升分割模型的效果,且大大超过对比的其他方法。图5~图6为实验结果;两幅图中第一列为输入图像,第二列为标注图像,第三列为现有方案的分割结果,第四列为本发明训练的网络获得的分割结果。图5中,用虚线框标识了本发明明显提升的区域。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (5)

1.一种图像语义分割网络的训练方法,其特征在于,包括:
每一次迭代训练过程中,利用图像语义分割网络对输入图像的每一个像素类别进行预测得到预测概率图;
基于预测概率图判断输入图像中的每一像素是否为边界像素,统计每一像素周围的边界像素的数目,从而将每一像素划分为训练域或者元测试域;
利用元训练域对网络参数进行更新,之后,再利用元测试域对更新后的网络参数做二次更新。
2.根据权利要求1所述的一种图像语义分割网络的训练方法,其特征在于,对输入图像的每一个像素类别进行预测得到预测概率图的步骤包括:
利用图像语义分割网络对输入图像进行特征提取,对将图像的特征上采样到输入图像的大小后,通过Softmax预测层对每一个像素类别进行预测得到预测概率图,完成对每一像素所属类别的预测。
3.根据权利要求1所述的一种图像语义分割网络的训练方法,其特征在于,所述基于预测概率图判断输入图像中的每一像素是否为边界像素的方式包括:
如果当前像素i与其K-邻域内像素的预测类别出现不一致的情况,则当前像素为边界像素,公式化表达如下:
Figure FDA0002603432160000011
其中,t表示第t次迭代,pi表示当前像素i的预测类别,Nb(i)表示当前像素i的K-邻域内像素集合,pj表示集合Nb(i)中像素j的预测类别;
Figure FDA0002603432160000012
是一个二元判决子,pj=pi则为1,否则为0。
4.根据权利要求1或3所述的一种图像语义分割网络的训练方法,其特征在于,所述统计每一像素周围的边界像素的数目,从而将每一像素划分为训练域或者元测试域的方式包括:
统计当前像素i的K-邻域内像素中边界像素的个数,并作为当前像素i的权重,如果当前像素i的K-邻域内像素中没有边界像素,则赋予权重为1,表示为:
Figure FDA0002603432160000013
其中,t表示第t次迭代,Wt(i)表示当前像素i的权重,Ft(j)表示当前像素i的K-邻域内像素集合中像素j是否为边界像素;
根据当前像素i的权重大小,将其划分为元训练域Dtr或者元测试域Dte,表示为:
Dtr={(xs,ys)|Wt(xs,ys)>1}
Dte={(xt,yt)|Wt(xt,yt)=1}
其中,(xs,ys)、(xt,yt)表示元训练域Dtr、元测试域Dte中对应位置的像素。
5.根据权利要求1所述的一种图像语义分割网络的训练方法,其特征在于,利用元训练域与元测试域对网络参数进行更新的公式为:
Figure FDA0002603432160000021
Figure FDA0002603432160000022
其中,t、t+1表示第t次、t+1次迭代;θ t为利用元训练域Dtr更新后的网络参数,θt+1表示利用元测试域Dte二次更新后的网络参数,(xs,ys)、(xt,yt)对应的表示元训练域Dtr、元测试域Dte中像素的位置;α、β分别表示两次更新过程中的更新速率,
Figure FDA0002603432160000023
分别为参数θt、θ′t的梯度,
Figure FDA0002603432160000024
分别为元训练域、元测试域的损失函数。
CN202010731266.9A 2020-07-27 2020-07-27 图像语义分割网络的训练方法 Active CN111798471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010731266.9A CN111798471B (zh) 2020-07-27 2020-07-27 图像语义分割网络的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010731266.9A CN111798471B (zh) 2020-07-27 2020-07-27 图像语义分割网络的训练方法

Publications (2)

Publication Number Publication Date
CN111798471A true CN111798471A (zh) 2020-10-20
CN111798471B CN111798471B (zh) 2024-04-02

Family

ID=72827391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010731266.9A Active CN111798471B (zh) 2020-07-27 2020-07-27 图像语义分割网络的训练方法

Country Status (1)

Country Link
CN (1) CN111798471B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283434A (zh) * 2021-04-13 2021-08-20 北京工业大学 一种基于分割网络优化的图像语义分割方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170287137A1 (en) * 2016-03-31 2017-10-05 Adobe Systems Incorporated Utilizing deep learning for boundary-aware image segmentation
GB201910720D0 (en) * 2019-07-26 2019-09-11 Tomtom Global Content Bv Generative adversarial Networks for image segmentation
CN110503654A (zh) * 2019-08-01 2019-11-26 中国科学院深圳先进技术研究院 一种基于生成对抗网络的医学图像分割方法、***及电子设备
CN110837836A (zh) * 2019-11-05 2020-02-25 中国科学技术大学 基于最大化置信度的半监督语义分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170287137A1 (en) * 2016-03-31 2017-10-05 Adobe Systems Incorporated Utilizing deep learning for boundary-aware image segmentation
GB201910720D0 (en) * 2019-07-26 2019-09-11 Tomtom Global Content Bv Generative adversarial Networks for image segmentation
CN110503654A (zh) * 2019-08-01 2019-11-26 中国科学院深圳先进技术研究院 一种基于生成对抗网络的医学图像分割方法、***及电子设备
CN110837836A (zh) * 2019-11-05 2020-02-25 中国科学技术大学 基于最大化置信度的半监督语义分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姚建华;吴加敏;杨勇;施祖贤;: "全卷积神经网络下的多光谱遥感影像分割", 中国图象图形学报, no. 01 *
张桂梅;潘国峰;刘建新;: "域自适应城市场景语义分割", 中国图象图形学报, no. 05 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283434A (zh) * 2021-04-13 2021-08-20 北京工业大学 一种基于分割网络优化的图像语义分割方法及***

Also Published As

Publication number Publication date
CN111798471B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
US20190042888A1 (en) Training method, training apparatus, region classifier, and non-transitory computer readable medium
CN114120102A (zh) 边界优化的遥感图像语义分割方法、装置、设备及介质
CN111582008B (zh) 训练分类模型的装置和方法及利用分类模型分类的装置
CN111723585A (zh) 一种风格可控的图像文本实时翻译与转换方法
CN111738055B (zh) 多类别文本检测***和基于该***的票据表单检测方法
CN107085726A (zh) 基于多方法去噪和连通区域分析的甲骨拓片单字定位方法
CN110334709B (zh) 基于端到端多任务深度学习的车牌检测方法
CN114092917B (zh) 一种基于mr-ssd的被遮挡交通标志检测方法及***
CN112488229A (zh) 一种基于特征分离和对齐的域自适应无监督目标检测方法
CN114266794A (zh) 基于全卷积神经网络的病理切片图像癌症区域分割***
CN113836850A (zh) 模型获得方法及***及装置及介质及产品缺陷检测方法
CN111611933A (zh) 文档图像的信息提取方法及***
CN115019039A (zh) 一种结合自监督和全局信息增强的实例分割方法及***
CN111798471B (zh) 图像语义分割网络的训练方法
Sun et al. Roadway crack segmentation based on an encoder-decoder deep network with multi-scale convolutional blocks
Cheng et al. Correcting and reweighting false label masks in brain tumor segmentation
Yang et al. PDNet: Improved YOLOv5 nondeformable disease detection network for asphalt pavement
CN113570540A (zh) 一种基于检测-分割架构的图像篡改盲取证方法
Castellanos et al. Region-based layout analysis of music score images
CN114943888A (zh) 基于多尺度信息融合的海面小目标检测方法、电子设备及计算机可读介质
Zhu et al. A transformer–CNN for deep image inpainting forensics
Luo et al. FIN: Feature integrated network for object detection
CN117437423A (zh) 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置
CN114067221B (zh) 一种遥感影像林地提取方法及***及装置及介质
CN106295484A (zh) 提取文档边界的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant