CN111798471B - 图像语义分割网络的训练方法 - Google Patents

图像语义分割网络的训练方法 Download PDF

Info

Publication number
CN111798471B
CN111798471B CN202010731266.9A CN202010731266A CN111798471B CN 111798471 B CN111798471 B CN 111798471B CN 202010731266 A CN202010731266 A CN 202010731266A CN 111798471 B CN111798471 B CN 111798471B
Authority
CN
China
Prior art keywords
pixel
meta
domain
training
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010731266.9A
Other languages
English (en)
Other versions
CN111798471A (zh
Inventor
谢洪涛
张勇东
徐海
黄福玉
李宏亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Research Institute
Zhongke Zhinao Beijing Technology Co ltd
University of Science and Technology of China USTC
Original Assignee
Beijing Zhongke Research Institute
Zhongke Zhinao Beijing Technology Co ltd
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Research Institute, Zhongke Zhinao Beijing Technology Co ltd, University of Science and Technology of China USTC filed Critical Beijing Zhongke Research Institute
Priority to CN202010731266.9A priority Critical patent/CN111798471B/zh
Publication of CN111798471A publication Critical patent/CN111798471A/zh
Application granted granted Critical
Publication of CN111798471B publication Critical patent/CN111798471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像语义分割网络的训练方法,基于不确定性的域分割方法,根据图像的不确定性在像素层面将输入图像分成两个域,元训练域和元测试域,元训练域由不确定度高的像素组成,元测试域由不确定度低的像素组成;基于元学习的模型优化方法,模型首先在元训练域上更新,然后再元测试域上进行更新方向的微调;通过以上两个方面,不仅提升分割效果还提升了网络模型的鲁棒性。

Description

图像语义分割网络的训练方法
技术领域
本发明涉及语义分割技术领域,尤其涉及一种图像语义分割网络的训练方法。
背景技术
语义分割致力于对给定的输入图像进行像素级别的预测,这就要求对训练数据集中的图像进行像素级别的标注。然而像素级别标注是一件费时费力的工作,且由于标注人员认知上的差异,往往存在标注不一致的情况。如图1所示,第一行和第二行中同一辆车被赋予了不同的标签,第一行中标记为‘truck’,然而第二行中标记为‘car’;第三行左边图中‘motorcycle’被标记为‘bike’,而右边图中骑自行车的人应该被标位‘rider’但却被标位了‘person’。
另外,数据集中类别不平衡问题也是限制语义分割的一个重要因素,如图2所示,在Cityscapes数据集中类别分布极度不均衡,占比最高的前五个类别占整个数据集像素的90%以上,这将会导致训练过程被这些主要类别主导,以至于少数类别的分割效果差且不稳定。
针对以上数据集类别不平衡和标签噪声的情况,目前还没有较为有效的解决方案。
发明内容
本发明的目的是提供一种图像语义分割网络的训练方法,能够减轻语义分割中数据集缺陷(类别不平衡和标签噪声)带来的对语义分割算法的负面影响,以提升分割效果和增强模型鲁棒性。
本发明的目的是通过以下技术方案实现的:
一种图像语义分割网络的训练方法,包括:
每一次迭代训练过程中,利用图像语义分割网络对输入图像的每一个像素类别进行预测得到预测概率图;
基于预测概率图判断输入图像中的每一像素是否为边界像素,统计每一像素周围的边界像素的数目,从而将每一像素划分为训练域或者元测试域;
利用元训练域对网络参数进行更新,之后,再利用元测试域对更新后的网络参数做二次更新。
由上述本发明提供的技术方案可以看出,1)基于不确定性的域分割方法,根据图像的不确定性在像素层面将输入图像分成两个域,元训练域和元测试域,元训练域由不确定度高的像素组成,元测试域由不确定度低的像素组成;2)基于元学习的模型优化方法,模型首先在元训练域上更新,然后再元测试域上进行更新方向的微调;通过以上两个方面,不仅提升分割效果还提升了网络模型的鲁棒性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明背景技术提供的数据集标注不一致的示意图;
图2为本发明背景技术提供的Cityscapes数据集中类别分布图;
图3为本发明实施例提供的图像语义分割网络的训练方法的框架图;
图4为本发明实施例提供的图像边缘标签内在噪声的示意图;
图5为本发明实施例提供的在多种数据集中的分割效果示意图;
图6为本发明实施例提供的在多种数据集中的分割效果示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种对数据集类别不平衡和标签噪声鲁棒的图像语义分割网络的训练方法。该方法最大的亮点就是将标签噪声纳入了分割网络的训练过程的考虑范围内,由于错误标注和图像模糊而导致的标签不确定性使得训练受到潜在的噪声干扰,为了减轻数据集的自身缺陷对模型能力的影响,提升模型的泛化能力,是本方法的目的和关键所在。通过设计的域划分(Domain Division)和域泛化(Domain Generalization)的元学习优化策略,在三个数据集上实验验证了本方法能有效提升模型的分割性能,且好于其他的优化方法。
如图3所示,为训练过程的网络框架,每一次迭代训练过程的主要流程主要包括如下两个部分:
一、域划分。
图像分割数据集中类别不均衡(图2)导致传统的优化目标函数--交叉熵(crossentropy)容易被占比高的类别主导,难样本挖掘的方法可以一定程度上减轻这种不平衡的影响,但依靠正确预测概率去筛选难样本容易受离群点和标签噪声影响。本发明基于样本不确定性度量的思想,在优化过程中赋予对于当前模型来说信息量大的像素更高的权重,太简单或者太难的样本对于提升当前模型能力来说作用都不大,在判决边界附近的样本是当前迭代过程中模型应该侧重的。基于此,本方法提出了域划分的思想,根据样本的信息量将图像划分成两个域,信息量大的元训练域和信息量相对较低的元测试域。
域划分部分主要包括:利用图像语义分割网络对输入图像的每一个像素类别进行预测得到预测概率图;基于预测概率图判断输入图像中的每一像素是否为边界像素,统计每一像素周围的边界像素的数目,从而将每一像素划分为训练域或者元测试域。优选实施方式如下:
1、对于训练数据集中的每一图像I∈RC*H*W,C表示图像的通道数,H,W分别代表图像的高和宽,经过预处理(例如,缩放,裁剪、添加高斯噪声等)后,送入域划分部分。
2、输入图像I经过全卷积分割网络DeepLab-v3(图像语义分割网络,也即图3中的base model)进行特征提取,对将图像的特征上采样到输入图像的大小后,通过Softmax预测层对每一个像素类别进行预测得到预测概率图,完成对每一像素所属类别的预测。
3、根据预测的概率图,将图像域分成两个不同的域,划分的依据是该像素是否落在判决边界附近,本发明实施例中中使用K-领域内是否包含不同的预测类别进行近似,由此将图像分成元训练域(Meta-train domain)和元测试域(Meta-test domain)。
1)判断像素是否落在判决边界附近的方式为:如果当前像素i与其K-邻域内像素的预测类别出现不一致的情况(即包含两种以上的预测类别),则当前像素为边界像素(boundary Pixel),公式化表达如下:
其中,t表示第t次迭代,pi表示当前像素i的预测类别,Nb(i)表示当前像素i的K-邻域内像素集合,pj表示集合Nb(i)中像素j的预测类别;是一个二元判决子,pj=pi则为1,否则为0。
2)统计当前像素i的K-邻域内像素中边界像素的个数,并作为当前像素i的权重,如果当前像素i的K-邻域内像素中没有边界像素,则赋予权重为1,表示为:
其中,t表示第t次迭代,Wt(i)表示当前当前像素i的权重,Ft(j)表示当前像素i的K-邻域内像素集合中像素j是否为边界像素;
3)根据当前像素i的权重大小,将其划分为元训练域Dtr或者元测试域Dte,表示为:
Dtr={(xs,ys)|Wt(xs,ys)>1}
Dte={(xt,yt)|Wt(xt,yt)=1}
其中,(xs,ys)、(xt,yt)表示元训练域Dtr、元测试域Dte中对应位置的像素。
通过以上的域划分策略,元训练域将更关注于当前模型判决能力的边界,决定了模型更新的主方向,而元测试域则由受噪声影响更小的区域组成,可以用来微调模型更新方向
二、域泛化。
如果只在元训练域上进行网络训练,会有两点不足:一方面是,会导致信息丢失,元测试域的信息将无法反馈到网络优化过程中;另一方面是,随着训练进行,元训练域将逐步拟合到物体边界区域,而边界附近像素标签噪声很大,尤其是在医学影像中,如图4所示,受限于成像质量和标注专家的认知差异,边缘附近的标签具有明显的内在噪声;图4中最右边一列图像是中间一幅图像方框区域的放大显示,两幅图中的划线表示的是不同人员的标注结果,这幅图是为了说明不同标注人员标注结果的差异性,用来说明label的不准确性。而物体内部区域即元测试域受标签影响较小,因此提出一种域泛化的方法对模型更新方向进行微调。
首先,网络参数θt在元训练域上进行粗更新得到θt′,元训练域由信息量大的像素组成,但同时受噪声影响程度大,因此这一步更新之后利用噪声更少的元测试域对网络更新方向进行微调,得到更新后的参数θt+1,使得模型更鲁棒。
其中,t、t+1表示第t次、t+1次迭代;θ′t为利用元训练域Dtr更新后的网络参数,θt+1表示利用元测试域Dte二次更新后的网络参数,(xs,ys)、(xt,yt)对应的表示元训练域Dtr、元测试域Dte中像素的位置;α、β分别表示两次更新过程中的更新速率(即学习率),分别为参数θt、θt′的梯度(即导数),/>分别为元训练域、元测试域的损失函数。
通常情况下,达到设定好的训练次数上限且损失不再下降,则认为收敛,此时,可以认为图1中的图像语义分割网络训练完毕,其输出的预测概率图即为图像语义分割结果。
基于本发明实施例上述方案优化后的图像语义分割网络可以应用在多种语义分割业务场景,如道路场景分割,也可以集成到医疗影像云平台,提供云端的线上AI智能分割。
为了说明本发明实施例上述方案的效果,下面结合实验进行说明。
1、数据集和图像预处理
本发明上述方案在多个数据集上得到验证,分别是城市场景分割数据集Cityscapes,X光胸片数据集(JSRT),和脑胶质瘤数据集(BRATS 2018)。
Cityscapes(城市场景)
Cityscapes数据集是奔驰公司采集的不同城市街景的图像数据,且对图像进行了像素级别的标注。数据集包含5000张细标注的图像,每张图像的分辨率为1024*2048,数据集被划分成2975,500,和1525张分别用于训练,验证和测试。
JSRT(X光胸片)
JSRT是The Japanese Society of Radiological Technology的缩写,这个数据集包含247例分辨率为2048*2048的X光胸片,胸片中给出肺部,心脏和锁骨的分割标签,实验中我们主要关注心脏和肺部的分割,数据集被划分成124例训练集和123例测试集。
BRATS 2018(脑胶质瘤数据集)
脑胶质瘤数据集来源于BRATS2018Challenge,分为训练集和测试集,训练集中包含285例病人MRI数据,其中210例为高级别胶质瘤,75例低级别胶质瘤,测试集中包含66例未标明级别的胶质瘤。每一例数据中包含四种序列的MRI数据,分别是T1,T2,T2-Flair和T1Gd,所有的图像都被配准到标准脑上,图像大小为240*240*155。
所有实验过程中,为了网络训练,输入数据都经过标准化以获得一个较好的初始数据分布。另外,受限于数据样本的数目,实验中采取了随机平移,旋转,缩放和增加随机扰动的方式进行了数据扩充,同时一定程度上防止实验过拟合。
2、损失函数。
为了验证本发明实施例提出的优化策略,比较了传统优化方法和基于难样本挖掘的优化方法。同时对比了多种损失函数,包含传统的交叉熵损失(Cross Entropy Loss),医学分割中常用的Dice Loss,为了缓解样本不均衡问题的Focal loss,以及对边界加权的Boundary Loss;本发明实施例中,主要关注的是更新策略,前述更新公式中所涉及的损失函数可以使用传统的交叉熵损失。
3、实验结果
通过三个数据集实验表明,本发明上述方案可以显著提升分割模型的效果,且大大超过对比的其他方法。图5~图6为实验结果;两幅图中第一列为输入图像,第二列为标注图像,第三列为现有方案的分割结果,第四列为本发明训练的网络获得的分割结果。图5中,用虚线框标识了本发明明显提升的区域。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (3)

1.一种图像语义分割网络的训练方法,其特征在于,包括:
每一次迭代训练过程中,利用图像语义分割网络对输入图像的每一个像素类别进行预测得到预测概率图;
基于预测概率图判断输入图像中的每一像素是否为边界像素,统计每一像素周围的边界像素的数目,从而将每一像素划分为训练域或者元测试域;
利用元训练域对网络参数进行更新,之后,再利用元测试域对更新后的网络参数做二次更新;
其中,所述基于预测概率图判断输入图像中的每一像素是否为边界像素的方式包括:
如果当前像素i与其K-邻域内像素的预测类别出现不一致的情况,则当前像素为边界像素,公式化表达如下:
其中,t表示第t次迭代,pi表示当前像素i的预测类别,Nb(i)表示当前像素i的K-邻域内像素集合,pj表示集合Nb(i)中像素j的预测类别;是一个二元判决子,pj=pi则为1,否则为0;
所述统计每一像素周围的边界像素的数目,从而将每一像素划分为训练域或者元测试域的方式包括:
统计当前像素i的K-邻域内像素中边界像素的个数,并作为当前像素i的权重,如果当前像素i的K-邻域内像素中没有边界像素,则赋予权重为1,表示为:
其中,t表示第t次迭代,Wt(i)表示当前像素i的权重,Ft(j)表示当前像素i的K-邻域内像素集合中像素j是否为边界像素;
根据当前像素i的权重大小,将其划分为元训练域Dtr或者元测试域Dte,表示为:
Dtr={(xs,ys)|Wt(xs,ys)>1}
Dte={(xt,yt)[Wt(xt,yt)=1}
其中,(xs,ys)、(xt,yt)表示元训练域Dtr、元测试域Dte中对应位置的像素。
2.根据权利要求1所述的一种图像语义分割网络的训练方法,其特征在于,对输入图像的每一个像素类别进行预测得到预测概率图的步骤包括:
利用图像语义分割网络对输入图像进行特征提取,对将图像的特征上采样到输入图像的大小后,通过Softmax预测层对每一个像素类别进行预测得到预测概率图,完成对每一像素所属类别的预测。
3.根据权利要求1所述的一种图像语义分割网络的训练方法,其特征在于,利用元训练域与元测试域对网络参数进行更新的公式为:
其中,t、t+1表示第t次、t+1次迭代;θ′t为利用元训练域Dtr更新后的网络参数,θt+1表示利用元测试域Dte二次更新后的网络参数,(xs,ys)、(xt,yt)对应的表示元训练域Dtr、元测试域Dte中像素的位置;α、β分别表示两次更新过程中的更新速率,分别为参数θt、θt′的梯度,/>分别为元训练域、元测试域的损失函数。
CN202010731266.9A 2020-07-27 2020-07-27 图像语义分割网络的训练方法 Active CN111798471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010731266.9A CN111798471B (zh) 2020-07-27 2020-07-27 图像语义分割网络的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010731266.9A CN111798471B (zh) 2020-07-27 2020-07-27 图像语义分割网络的训练方法

Publications (2)

Publication Number Publication Date
CN111798471A CN111798471A (zh) 2020-10-20
CN111798471B true CN111798471B (zh) 2024-04-02

Family

ID=72827391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010731266.9A Active CN111798471B (zh) 2020-07-27 2020-07-27 图像语义分割网络的训练方法

Country Status (1)

Country Link
CN (1) CN111798471B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283434B (zh) * 2021-04-13 2024-06-21 北京工业大学 一种基于分割网络优化的图像语义分割方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201910720D0 (en) * 2019-07-26 2019-09-11 Tomtom Global Content Bv Generative adversarial Networks for image segmentation
CN110503654A (zh) * 2019-08-01 2019-11-26 中国科学院深圳先进技术研究院 一种基于生成对抗网络的医学图像分割方法、***及电子设备
CN110837836A (zh) * 2019-11-05 2020-02-25 中国科学技术大学 基于最大化置信度的半监督语义分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9972092B2 (en) * 2016-03-31 2018-05-15 Adobe Systems Incorporated Utilizing deep learning for boundary-aware image segmentation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201910720D0 (en) * 2019-07-26 2019-09-11 Tomtom Global Content Bv Generative adversarial Networks for image segmentation
CN110503654A (zh) * 2019-08-01 2019-11-26 中国科学院深圳先进技术研究院 一种基于生成对抗网络的医学图像分割方法、***及电子设备
CN110837836A (zh) * 2019-11-05 2020-02-25 中国科学技术大学 基于最大化置信度的半监督语义分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
全卷积神经网络下的多光谱遥感影像分割;姚建华;吴加敏;杨勇;施祖贤;;中国图象图形学报(01);全文 *
域自适应城市场景语义分割;张桂梅;潘国峰;刘建新;;中国图象图形学报(05);全文 *

Also Published As

Publication number Publication date
CN111798471A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
CN109800698B (zh) 基于深度学习的图标检测方法、图标检测***和存储介质
Zhu et al. Fine-grained land use classification at the city scale using ground-level images
CN111738055B (zh) 多类别文本检测***和基于该***的票据表单检测方法
CN109711448A (zh) 基于判别关键域和深度学习的植物图像细粒度分类方法
CN103679191B (zh) 基于静态图片的自动***检测方法
Sun et al. Encoding spectral and spatial context information for hyperspectral image classification
CN111461039A (zh) 基于多尺度特征融合的地标识别方法
CN111798471B (zh) 图像语义分割网络的训练方法
CN117423126B (zh) 一种基于数据分析的票据图文识别方法及***
CN113836850A (zh) 模型获得方法及***及装置及介质及产品缺陷检测方法
Wu et al. Reversible contrast enhancement for medical images with background segmentation
Hoyer et al. Domain adaptive and generalizable network architectures and training strategies for semantic image segmentation
Zhu et al. A transformer–CNN for deep image inpainting forensics
CN115033721A (zh) 基于大数据的图像检索方法
CN114842507A (zh) 一种基于组优化奖励的强化行人属性识别方法
Sun et al. Roadway crack segmentation based on an encoder-decoder deep network with multi-scale convolutional blocks
Zhong et al. Coarse-to-fine spatial-channel-boundary attention network for image copy-move forgery detection
Divya et al. A more generalizable DNN based Automatic Segmentation of Brain Tumors from Multimodal low-resolution 2D MRI
CN116128866A (zh) 基于USRNet与改进MobileNet-SSD算法的输电线路绝缘子故障检测方法
Liu et al. Solar Filament Segmentation Based on Improved U-Nets
CN114549833A (zh) 一种实例分割方法、装置、电子设备及存储介质
CN115082778A (zh) 一种基于多分支学习的宅基地识别方法及***
US20240070808A1 (en) Enhancement of coarse resolution imagery using super-resolution and convolution neural networks to be used for fit-for-purpose systematic land titling and land valuation
CN114202765A (zh) 一种图像文本识别方法和存储介质
CN110443817A (zh) 一种提高图像分割精度的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant