CN111798471B

CN111798471B - 图像语义分割网络的训练方法

Info

Publication number: CN111798471B
Application number: CN202010731266.9A
Authority: CN
Inventors: 谢洪涛; 张勇东; 徐海; 黄福玉; 李宏亮
Original assignee: Beijing Zhongke Research Institute; Zhongke Zhinao Beijing Technology Co ltd; University of Science and Technology of China USTC
Current assignee: Beijing Zhongke Research Institute; Zhongke Zhinao Beijing Technology Co ltd; University of Science and Technology of China USTC
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2024-04-02
Anticipated expiration: 2040-07-27
Also published as: CN111798471A

Abstract

本发明公开了一种图像语义分割网络的训练方法，基于不确定性的域分割方法，根据图像的不确定性在像素层面将输入图像分成两个域，元训练域和元测试域，元训练域由不确定度高的像素组成，元测试域由不确定度低的像素组成；基于元学习的模型优化方法，模型首先在元训练域上更新，然后再元测试域上进行更新方向的微调；通过以上两个方面，不仅提升分割效果还提升了网络模型的鲁棒性。

Description

图像语义分割网络的训练方法

技术领域

本发明涉及语义分割技术领域，尤其涉及一种图像语义分割网络的训练方法。

背景技术

语义分割致力于对给定的输入图像进行像素级别的预测，这就要求对训练数据集中的图像进行像素级别的标注。然而像素级别标注是一件费时费力的工作，且由于标注人员认知上的差异，往往存在标注不一致的情况。如图1所示，第一行和第二行中同一辆车被赋予了不同的标签，第一行中标记为‘truck’，然而第二行中标记为‘car’；第三行左边图中‘motorcycle’被标记为‘bike’，而右边图中骑自行车的人应该被标位‘rider’但却被标位了‘person’。

另外，数据集中类别不平衡问题也是限制语义分割的一个重要因素，如图2所示，在Cityscapes数据集中类别分布极度不均衡，占比最高的前五个类别占整个数据集像素的90％以上，这将会导致训练过程被这些主要类别主导，以至于少数类别的分割效果差且不稳定。

针对以上数据集类别不平衡和标签噪声的情况，目前还没有较为有效的解决方案。

发明内容

本发明的目的是提供一种图像语义分割网络的训练方法，能够减轻语义分割中数据集缺陷(类别不平衡和标签噪声)带来的对语义分割算法的负面影响，以提升分割效果和增强模型鲁棒性。

本发明的目的是通过以下技术方案实现的：

一种图像语义分割网络的训练方法，包括：

每一次迭代训练过程中，利用图像语义分割网络对输入图像的每一个像素类别进行预测得到预测概率图；

基于预测概率图判断输入图像中的每一像素是否为边界像素，统计每一像素周围的边界像素的数目，从而将每一像素划分为训练域或者元测试域；

利用元训练域对网络参数进行更新，之后，再利用元测试域对更新后的网络参数做二次更新。

由上述本发明提供的技术方案可以看出，1)基于不确定性的域分割方法，根据图像的不确定性在像素层面将输入图像分成两个域，元训练域和元测试域，元训练域由不确定度高的像素组成，元测试域由不确定度低的像素组成；2)基于元学习的模型优化方法，模型首先在元训练域上更新，然后再元测试域上进行更新方向的微调；通过以上两个方面，不仅提升分割效果还提升了网络模型的鲁棒性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明背景技术提供的数据集标注不一致的示意图；

图2为本发明背景技术提供的Cityscapes数据集中类别分布图；

图3为本发明实施例提供的图像语义分割网络的训练方法的框架图；

图4为本发明实施例提供的图像边缘标签内在噪声的示意图；

图5为本发明实施例提供的在多种数据集中的分割效果示意图；

图6为本发明实施例提供的在多种数据集中的分割效果示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种对数据集类别不平衡和标签噪声鲁棒的图像语义分割网络的训练方法。该方法最大的亮点就是将标签噪声纳入了分割网络的训练过程的考虑范围内，由于错误标注和图像模糊而导致的标签不确定性使得训练受到潜在的噪声干扰，为了减轻数据集的自身缺陷对模型能力的影响，提升模型的泛化能力，是本方法的目的和关键所在。通过设计的域划分(Domain Division)和域泛化(Domain Generalization)的元学习优化策略，在三个数据集上实验验证了本方法能有效提升模型的分割性能，且好于其他的优化方法。

如图3所示，为训练过程的网络框架，每一次迭代训练过程的主要流程主要包括如下两个部分：

一、域划分。

图像分割数据集中类别不均衡(图2)导致传统的优化目标函数--交叉熵(crossentropy)容易被占比高的类别主导，难样本挖掘的方法可以一定程度上减轻这种不平衡的影响，但依靠正确预测概率去筛选难样本容易受离群点和标签噪声影响。本发明基于样本不确定性度量的思想，在优化过程中赋予对于当前模型来说信息量大的像素更高的权重，太简单或者太难的样本对于提升当前模型能力来说作用都不大，在判决边界附近的样本是当前迭代过程中模型应该侧重的。基于此,本方法提出了域划分的思想，根据样本的信息量将图像划分成两个域，信息量大的元训练域和信息量相对较低的元测试域。

域划分部分主要包括：利用图像语义分割网络对输入图像的每一个像素类别进行预测得到预测概率图；基于预测概率图判断输入图像中的每一像素是否为边界像素，统计每一像素周围的边界像素的数目，从而将每一像素划分为训练域或者元测试域。优选实施方式如下：

1、对于训练数据集中的每一图像I∈R^C*H*W，C表示图像的通道数，H,W分别代表图像的高和宽，经过预处理(例如，缩放，裁剪、添加高斯噪声等)后，送入域划分部分。

2、输入图像I经过全卷积分割网络DeepLab-v3(图像语义分割网络，也即图3中的base model)进行特征提取，对将图像的特征上采样到输入图像的大小后，通过Softmax预测层对每一个像素类别进行预测得到预测概率图，完成对每一像素所属类别的预测。

3、根据预测的概率图，将图像域分成两个不同的域，划分的依据是该像素是否落在判决边界附近，本发明实施例中中使用K-领域内是否包含不同的预测类别进行近似，由此将图像分成元训练域(Meta-train domain)和元测试域(Meta-test domain)。

1)判断像素是否落在判决边界附近的方式为：如果当前像素i与其K-邻域内像素的预测类别出现不一致的情况(即包含两种以上的预测类别)，则当前像素为边界像素(boundary Pixel)，公式化表达如下：

其中，t表示第t次迭代，p_i表示当前像素i的预测类别，Nb(i)表示当前像素i的K-邻域内像素集合，p_j表示集合Nb(i)中像素j的预测类别；是一个二元判决子，p_j＝p_i则为1，否则为0。

2)统计当前像素i的K-邻域内像素中边界像素的个数，并作为当前像素i的权重，如果当前像素i的K-邻域内像素中没有边界像素，则赋予权重为1，表示为：

其中，t表示第t次迭代，W_t(i)表示当前当前像素i的权重，F_t(j)表示当前像素i的K-邻域内像素集合中像素j是否为边界像素；

3)根据当前像素i的权重大小，将其划分为元训练域D_tr或者元测试域D_te，表示为：

D_tr＝{(x_s,y_s)|W_t(x_s,y_s)＞1}

D_te＝{(x_t,y_t)|W_t(x_t,y_t)＝1}

其中，(x_s,y_s)、(x_t,y_t)表示元训练域D_tr、元测试域D_te中对应位置的像素。

通过以上的域划分策略，元训练域将更关注于当前模型判决能力的边界，决定了模型更新的主方向，而元测试域则由受噪声影响更小的区域组成，可以用来微调模型更新方向

二、域泛化。

如果只在元训练域上进行网络训练，会有两点不足：一方面是，会导致信息丢失，元测试域的信息将无法反馈到网络优化过程中；另一方面是，随着训练进行，元训练域将逐步拟合到物体边界区域，而边界附近像素标签噪声很大，尤其是在医学影像中，如图4所示，受限于成像质量和标注专家的认知差异，边缘附近的标签具有明显的内在噪声；图4中最右边一列图像是中间一幅图像方框区域的放大显示，两幅图中的划线表示的是不同人员的标注结果，这幅图是为了说明不同标注人员标注结果的差异性，用来说明label的不准确性。而物体内部区域即元测试域受标签影响较小，因此提出一种域泛化的方法对模型更新方向进行微调。

首先，网络参数θ_t在元训练域上进行粗更新得到θ_t′，元训练域由信息量大的像素组成，但同时受噪声影响程度大，因此这一步更新之后利用噪声更少的元测试域对网络更新方向进行微调，得到更新后的参数θ_t+1，使得模型更鲁棒。

其中，t、t+1表示第t次、t+1次迭代；θ′_t为利用元训练域D_tr更新后的网络参数，θ_t+1表示利用元测试域D_te二次更新后的网络参数，(x_s,y_s)、(x_t,y_t)对应的表示元训练域D_tr、元测试域D_te中像素的位置；α、β分别表示两次更新过程中的更新速率(即学习率)，分别为参数θ_t、θ_t′的梯度(即导数)，/>分别为元训练域、元测试域的损失函数。

通常情况下，达到设定好的训练次数上限且损失不再下降，则认为收敛，此时，可以认为图1中的图像语义分割网络训练完毕，其输出的预测概率图即为图像语义分割结果。

基于本发明实施例上述方案优化后的图像语义分割网络可以应用在多种语义分割业务场景，如道路场景分割，也可以集成到医疗影像云平台，提供云端的线上AI智能分割。

为了说明本发明实施例上述方案的效果，下面结合实验进行说明。

1、数据集和图像预处理

本发明上述方案在多个数据集上得到验证，分别是城市场景分割数据集Cityscapes，X光胸片数据集(JSRT)，和脑胶质瘤数据集(BRATS 2018)。

Cityscapes(城市场景)

Cityscapes数据集是奔驰公司采集的不同城市街景的图像数据，且对图像进行了像素级别的标注。数据集包含5000张细标注的图像，每张图像的分辨率为1024*2048，数据集被划分成2975，500，和1525张分别用于训练，验证和测试。

JSRT(X光胸片)

JSRT是The Japanese Society of Radiological Technology的缩写，这个数据集包含247例分辨率为2048*2048的X光胸片,胸片中给出肺部,心脏和锁骨的分割标签,实验中我们主要关注心脏和肺部的分割,数据集被划分成124例训练集和123例测试集。

BRATS 2018(脑胶质瘤数据集)

脑胶质瘤数据集来源于BRATS2018Challenge，分为训练集和测试集，训练集中包含285例病人MRI数据，其中210例为高级别胶质瘤，75例低级别胶质瘤，测试集中包含66例未标明级别的胶质瘤。每一例数据中包含四种序列的MRI数据，分别是T1，T2，T2-Flair和T1Gd，所有的图像都被配准到标准脑上，图像大小为240*240*155。

所有实验过程中，为了网络训练，输入数据都经过标准化以获得一个较好的初始数据分布。另外,受限于数据样本的数目，实验中采取了随机平移，旋转，缩放和增加随机扰动的方式进行了数据扩充，同时一定程度上防止实验过拟合。

2、损失函数。

为了验证本发明实施例提出的优化策略，比较了传统优化方法和基于难样本挖掘的优化方法。同时对比了多种损失函数，包含传统的交叉熵损失(Cross Entropy Loss)，医学分割中常用的Dice Loss，为了缓解样本不均衡问题的Focal loss，以及对边界加权的Boundary Loss；本发明实施例中，主要关注的是更新策略，前述更新公式中所涉及的损失函数可以使用传统的交叉熵损失。

3、实验结果

通过三个数据集实验表明，本发明上述方案可以显著提升分割模型的效果，且大大超过对比的其他方法。图5～图6为实验结果；两幅图中第一列为输入图像，第二列为标注图像，第三列为现有方案的分割结果，第四列为本发明训练的网络获得的分割结果。图5中，用虚线框标识了本发明明显提升的区域。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种图像语义分割网络的训练方法，其特征在于，包括：

利用元训练域对网络参数进行更新，之后，再利用元测试域对更新后的网络参数做二次更新；

其中，所述基于预测概率图判断输入图像中的每一像素是否为边界像素的方式包括：

如果当前像素i与其K-邻域内像素的预测类别出现不一致的情况，则当前像素为边界像素，公式化表达如下：

其中，t表示第t次迭代，p_i表示当前像素i的预测类别，Nb(i)表示当前像素i的K-邻域内像素集合，p_j表示集合Nb(i)中像素j的预测类别；是一个二元判决子，p_j＝p_i则为1，否则为0；

所述统计每一像素周围的边界像素的数目，从而将每一像素划分为训练域或者元测试域的方式包括：

统计当前像素i的K-邻域内像素中边界像素的个数，并作为当前像素i的权重，如果当前像素i的K-邻域内像素中没有边界像素，则赋予权重为1，表示为：

其中，t表示第t次迭代，W_t(i)表示当前像素i的权重，F_t(j)表示当前像素i的K-邻域内像素集合中像素j是否为边界像素；

根据当前像素i的权重大小，将其划分为元训练域D_tr或者元测试域D_te，表示为：

D_tr＝{(x_s,y_s)|W_t(x_s,y_s)>1}

D_te＝{(x_t,y_t)[W_t(x_t,y_t)＝1}

2.根据权利要求1所述的一种图像语义分割网络的训练方法，其特征在于，对输入图像的每一个像素类别进行预测得到预测概率图的步骤包括：

利用图像语义分割网络对输入图像进行特征提取，对将图像的特征上采样到输入图像的大小后，通过Softmax预测层对每一个像素类别进行预测得到预测概率图，完成对每一像素所属类别的预测。

3.根据权利要求1所述的一种图像语义分割网络的训练方法，其特征在于，利用元训练域与元测试域对网络参数进行更新的公式为：

其中，t、t+1表示第t次、t+1次迭代；θ′_t为利用元训练域D_tr更新后的网络参数，θ_t+1表示利用元测试域D_te二次更新后的网络参数，(x_s,y_s)、(x_t,y_t)对应的表示元训练域D_tr、元测试域D_te中像素的位置；α、β分别表示两次更新过程中的更新速率，分别为参数θ_t、θ_t′的梯度，/>分别为元训练域、元测试域的损失函数。