CN114066899A

CN114066899A - 图像分割模型训练、图像分割方法、装置、设备及介质

Info

Publication number: CN114066899A
Application number: CN202111333309.9A
Authority: CN
Inventors: 丁宁; 李南; 张晓光; 夏轩; 马琳; 潘喜洲; 何星; 张爱东
Original assignee: Shenzhen Institute of Artificial Intelligence and Robotics
Current assignee: Shenzhen Institute of Artificial Intelligence and Robotics
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2022-02-18

Abstract

本申请公开了图像分割模型训练方法、图像分割方法、装置、电子设备及计算机可读存储介质，包括：获取训练图像和对应的标签；将训练图像输入初始模型，得到分割结果；利用分割结果与标签得到损失值，并利用损失值对初始模型进行参数调节；若检测到满足训练完成条件，则将参数调节后的初始模型确定为图像分割模型；该方法采用了一种具有二元树形特征融合结构的初始模型训练得到图像分割模型。该模型中，相邻特征提取深度的分支网络中具有二元属性特征融合结构；通过该结构，对相邻分支网络上同阶段的特征提取操作的输出进行融合，使得深层的分支网络上的特征信息能够持续传递给浅层的分支网络，进而提高图像分割模型的精细程度，降低算法复杂度。

Description

图像分割模型训练、图像分割方法、装置、设备及介质

技术领域

本申请涉及图像处理技术领域，特别涉及图像分割模型训练方法、图像分割方法、图像分割模型训练装置、电子设备及计算机可读存储介质。

背景技术

分割图像中的目标(或称为前景)与背景是计算机视觉领域的经典任务，是大多数图像分析和理解过程的第一步，也是图像处理中最困难的问题之一。图像目标分割技术被广泛地应用自动驾驶、工业生产、精准农业、移动机器人、图像编辑等生产和生活场景。基于数字图像处理技术和传统机器学***台上进行部署并进行实时推理。

因此，相关技术存在的分割效果差，计算复杂度大的问题，是本领域技术人员需要解决的技术问题。

发明内容

有鉴于此，本申请的目的在于提供一种图像分割模型训练方法、图像分割模型训练装置、电子设备及计算机可读存储介质，在提高分割精细程度的同时，降低了算法复杂度。

为解决上述技术问题，本申请提供了一种图像分割模型训练方法，包括：

获取训练图像和对应的标签；

将所述训练图像输入初始模型，得到分割结果；

利用所述分割结果与所述标签得到损失值，并利用所述损失值对所述初始模型进行参数调节；

若检测到满足训练完成条件，则将参数调节后的所述初始模型确定为图像分割模型；

其中，所述初始模型包括一个主干网络和若干个分支网络，所述主干网络包括多个串联的主干特征提取模块；每个所述主干特征提取模块对应于一个所述分支网络，各个分支网络具有若干个串联的分支特征提取模块，各个所述主干特征提取模块以及对应的所述分支网络分别对应于不同的特征提取深度；特征提取深度大的分支网络中所述分支特征提取模块的数量，不大于特征提取深度小的分支网络中所述分支特征提取模块的数量；

第二分支网络中第二目标模块的输入数据，由所述第二目标模块的前序模块的第二输出数据，以及所述前序模块位置对应的第一分支网络中第一目标模块的第一输出数据构成，所述第二分支网络的特征提取深度为所述第一分支网络的特征提取深度减一。

可选地，所述将所述训练图像输入初始模型，得到分割结果，包括：

将所述训练图像输入所述主干网络，分别利用各个主干特征提取网络对输入的主干输入数据进行特征提取，得到主干输出数据；

将各个所述主干输出数据，分别输入对应的所述分支网络，分别利用各个所述分支网络中的目标分支模块对输入的分支输入数据进行特征提取，得到分支输出数据；

将所述分支输出数据输入所述目标分支模块对应的后序分支模块，以及相邻分支网络中与所述后序分支模块位置对应的相邻分支模块；

分别利用各个所述分支网络中的尾部分支模块生成第一分割数据；

对各个所述第一分割数据进行结果融合处理，得到所述分割结果。

可选地，所述对各个所述第一分割数据进行结果融合处理，得到所述分割结果，包括：

对图像尺寸与所述训练图像不同的第一分割数据进行上采样处理或反卷积处理，得到第二分割数据；

将所述第二分割数据进行融合处理，得到所述分割结果。

可选地，所述利用所述分割结果与所述标签得到损失值，包括：

利用所述分割结果与所述标签计算得到交叉熵损失值和二极化分布损失值；

对所述交叉熵损失值和所述二极化分布损失值进行加权求和处理，得到所述损失值；

其中，所述二极化分布损失值的生成过程，包括：

利用所述标签确定背景像素比例和前景像素比例；

利用所述背景像素比例和所述前景像素比例，计算所述分割结果中预测值处于预设中间区间的目标像素对应的像素损失值；

对所有的所述像素损失值进行平均值计算，得到所述二极化分布损失值。

可选地，所述利用所述标签确定背景像素比例和前景像素比例，包括：

利用

得到所述背景像素比例和前景像素比例，其中，n_b和n_o分别为所述标签中属于背景和前景的像素数，ω_b为所述前景像素比例，ω_o为所述背景像素比例；

相应的，利用所述背景像素比例和所述前景像素比例，计算所述分割结果中预测值处于预设中间区间的目标像素对应的像素损失值，包括：

利用

得到所述像素损失值；其中，L_b ⁽ⁱ⁾为输入图像中第i个像素的像素损失值，z_i为输入图像中第i个像素点对应的标签值，z_i＝0表示背景像素，z_i＝1表示前景像素；y_i为所述预测值，y_i∈(k₁，k₂)，k₁和k₂为所述预设中间区间的下限值和上限值，k₁、k₂∈(0,1),且k₁<k₂。

相应的，对所有的所述像素损失值进行平均值计算，得到所述二极化分布损失值，包括：

利用

得到所述二极化分布损失值；其中，n表示目标像素的数量，L_b表示所述二极化分布损失值。

可选地，所述主干特征提取模块和/或所述分支特征提取模块具有轻量化卷积模块和/或注意力模块。

本申请还提供了一种图像分割方法，包括：

获取待分割图像；

将所述待分割图像输入图像分割模型，得到分割结果；

其中，所述图像分割模型根据权利要求1至7任一项所述的图像分割模型训练方法生成。

本申请还提供了一种图像分割模型训练装置，包括：

训练获取模块，用于获取训练图像和对应的标签；

输入模块，用于将所述训练图像输入初始模型，得到分割结果；

参数调节模块，用于利用所述分割结果与所述标签得到损失值，并利用所述损失值对所述初始模型进行参数调节；

模块确定模块，用于若检测到满足训练完成条件，则将参数调节后的所述初始模型确定为图像分割模型；

本申请还提供了一种电子设备，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现上述的图像分割模型训练方法，和/或，上述的图像分割方法。

本申请还提供了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时以实现上述的图像分割模型训练方法，和/或，上述的图像分割方法。

本申请提供的图像分割模型训练方法，获取训练图像和对应的标签；将训练图像输入初始模型，得到分割结果；利用分割结果与标签得到损失值，并利用损失值对初始模型进行参数调节；若检测到满足训练完成条件，则将参数调节后的初始模型确定为图像分割模型；其中，初始模型包括一个主干网络和若干个分支网络，主干网络包括多个串联的主干特征提取模块；每个主干特征提取模块对应于一个分支网络，各个分支网络具有若干个串联的分支特征提取模块，各个主干特征提取模块以及对应的分支网络分别对应于不同的特征提取深度；特征提取深度大的分支网络中分支特征提取模块的数量，不大于特征提取深度小的分支网络中分支特征提取模块的数量；第二分支网络中第二目标模块的输入数据，由第二目标模块的前序模块的第二输出数据，以及前序模块位置对应的第一分支网络中第一目标模块的第一输出数据构成，第二分支网络的特征提取深度为第一分支网络的特征提取深度减一。

可见，该方法采用了一种具有二元树形特征融合结构的初始模型训练得到图像分割模型。该模型中，相邻特征提取深度的分支网络中具有二元属性特征融合结构，其体现于：第二分支网络中第二目标模块的输入数据，由第二目标模块的前序模块的第二输出数据，以及前序模块位置对应的第一分支网络中第一目标模块的第一输出数据构成，第二分支网络的特征提取深度为第一分支网络的特征提取深度减一。通过该结构，对相邻分支网络上同阶段的特征提取操作的输出进行融合，使得深层的分支网络上的特征信息能够持续传递给浅层的分支网络，使得不同尺度上的特征能够充分融合，进而提高图像分割模型的精细程度。此外，整个图像分割模型的结构简单，算法复杂程度低，在提高分割精细程度的同时，降低了算法复杂度，使得其适合在机器人、智能汽车、无人机、手机等算力有限的移动平台部署并进行实时推理。

此外，本申请还提供了一种图像分割模型训练装置、电子设备及计算机可读存储介质，同样具有上述有益效果。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种图像分割模型训练方法流程图；

图2为本申请实施例提供的一种具体的图像分割模型的结构示意图；

图3为本申请实施例提供的一种具体的数据处理流程图；

图4为本申请实施例提供的一种模型训练及应用流程图；

图5为本申请实施例提供的测试图像、标签以及对应的分割结果示意图；

图6为本申请实施例提供的一种图像分割模型训练装置的结构示意图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例提供的一种图像分割模型训练方法流程图。该方法包括：

S101：获取训练图像和对应的标签。

其中，训练图像是指用于对初始模型进行训练的图像，其经过标记处理后，具有对应的标签。标记处理具体可以为人工标记处理，或者可以为利用神经网络等对训练图像进行标记。标记处理可以预先完成，或者可以在获取到用于对初始模型进行训练的训练图像后执行，得到标签。

S102：将训练图像输入初始模型，得到分割结果。

在本实施例中，初始模型中相邻特征提取深度的分支网络中具有二元属性特征融合结构。具体的，初始模型包括一个主干网络和若干个分支网络，主干网络包括多个串联的主干特征提取模块，串联的主干特征提取模块，是指前一个主干特征提取模块的输出数据为下一个主干特征提取模块的输入数据。此外，每个主干特征提取模块对应于一个分支网络，具体是指该主干特征提取模块的输出数据为该分支网络的输入数据。各个分支网络具有若干个串联的分支特征提取模块，分支特征提取模块的串联方式与主干特征提取模块的串联方式相同。各个主干特征提取模型依次对输入的训练图像进行不同深度的特征提取，并利用对应的分支网络对特征提取后的数据进行处理，因此各个主干特征提取模块以及该主干网络特征提取模块对应的分支网络分别对应于不同的特征提取深度。即，不同的主干特征提取模块对应的特征提取深度不同，分支网络的特征提取深度与其对应的主干特征提取模块相同。此外，为了保证特征提取效果，同一个训练图像从主干网络的输入层输入，到从各个分支网络的输出层输出，所经历的特征提取操作的阶段数应当基本一致。对于特征提取深度大的分支网络，由于其对应的主干特征提取模块的特征提取深度大，即该主干特征提取模块之前具有较多数量的其他树干特征提取模块，因此该分支网络的输入数据在主干网络中经历的特征提取操作的次数较多，进而使得其本身对输入数据的特征提取特征次数不能比特征提取深度小的分支网络的次数更多。因此在本申请中，特征提取深度大的分支网络中分支特征提取模块的数量，不大于特征提取深度小的分支网络中分支特征提取模块的数量。

此外，本申请中设计了特殊的二元属性特征融合结构，其表现为：第二分支网络中第二目标模块的输入数据，由第二目标模块的前序模块的第二输出数据，以及前序模块位置对应的第一分支网络中第一目标模块的第一输出数据构成，第二分支网络的特征提取深度为第一分支网络的特征提取深度减一。其中，第一分支网络和第二分支网络可以为任意符合特征提取深度条件的两个分支网络，若某一分支网络为特征提取深度最小的分支网络，则其无法作为第一分支网络，相应的，若某一分支网络为特征提取深度最大的分支网络，则其无法作为第二分支网络。第二目标模块，是指从两个其他的分支特征提取模块处获取数据作为自身的输入数据的分支特征提取模块，可以参考图2，图2中的ConvS4_2、ConvS3_3、ConvS2_2等均为第二目标模块。前序模块，是指与第二目标模块相邻，用于向第二目标模块输出数据的分支特征提取模块。位置对应，是指按照从分支网络的输入端开始到输出端结尾的顺序，第一目标模块在第一分支网络中的序号与第二目标模块在第二分支网络中的序号相同。即，特征提取深度较小的分支网络中，其中的第二目标模块的输入数据，不仅具有本分支网络中该第二目标模块的前序模块的输出数据(即第二输出数据)，还包括了与该前序模块在特征提取深度较大的分支网络中对应位置的第一目标模块的输出数据相关的信息。通过上述方式，可以对相邻分支网络上同阶段的特征提取操作的输出进行融合，使得深层的分支网络上的特征信息能够持续传递给浅层的分支网络，使得不同尺度上的特征能够充分融合，进而提高图像分割模型的精细程度。

具体的，请参考图2，图2为本申请实施例提供的一种具体的图像分割模型的结构示意图。其中，ConvB1、ConvB2、ConvB3、ConvB4、ConvB5分别为五个构成主干网络的主干特征提取模块，其中，ConvB1的特征提取深度最小，ConvB5的特征提取深度最大。每个主干特征提取模块均对应于不同的分支网络。可以看出，特征提取深度较大的分支网络，比特征提取深度较小的分支网络的分支特征提取模块的数量少1，使得同一个图像，从主干网络的ConvB1输入后，从各个分支网络输出时经历的特征提取操作完全相同。

具体的，对于ConvB1这一主干特征提取模块来说，其对应的分支网络由ConvS1_1、ConvS1_2、ConvS1_3、ConvS1_4、ConvS1_5、ConvS1_6共六个分支特征提取模块构成，因此该分支网络输出的数据经过了ConvB1一次特征提取以及分支网络中六个分支特征提取模块的六次特征提取，共经过了7次特征提取。相应的。对于ConvB2这一主干特征提取模块来做，其对应的分支网络由ConvS2_1、ConvS2_2、ConvS2_3、ConvS2_4、ConvS2_5共五个分支特征提取模块构成，因此该分支网络输出的数据经过了ConvB1、ConvB2两次特征提取以及分支网络中五个分支特征提取模块的五次特征提取，共经过了7次特征提取。在其他的实施方式中，同一个图像，从主干网络的ConvB1输入后，从各个分支网络输出时经历的特征提取操作可以无需完全相同。例如为了进一步提高数据处理速度，减小模型复杂度，可以将ConvS1_6这一分支特征提取模块去除，在这种情况下，ConvB1对应的分支网络与ConvB2对应的分支网络中的分支特征提取模块数量相同，使得两条路径的特征提取操作的数量保持基本一致。

在此基础上，继续参考图2，从图2中可以看出，对于ConvS1_1、ConvS1_2、ConvS1_3、ConvS1_4、ConvS1_5，以及其他分支网络中类似的分支特征提取模块(即非第一个也非最后一个)来说，其输入的数据与两部分数据相关。以ConvS1_2为例，其输入的数据不仅包括ConvS1_1的输出数据，还包括了ConvS2_1输出数据经过上采样操作的数据，这使得ConvS1_2在进行卷积处理时，能够对相邻分支网络上同阶段的特征提取操作的输出进行融合，使得深层的分支网络上的特征信息能够持续传递给浅层的分支网络，使得不同尺度上的特征能够充分融合，进而提高图像分割模型的精细程度。

初始模型，是指参数调节未完毕的模型，在参数调节完毕后，其即可被确定为图像分割模型。因此在得到训练图像后，通过将其输入初始模型，可以得到对应的分割结果，以便后续根据其进行参数调节。在一种实施方式中，S102的过程可以进一步包括如下步骤：

步骤11：将训练图像输入主干网络，分别利用各个主干特征提取网络对输入的主干输入数据进行特征提取，得到主干输出数据。

步骤12：将各个主干输出数据，分别输入对应的分支网络，分别利用各个分支网络中的目标分支模块对输入的分支输入数据进行特征提取，得到分支输出数据。

步骤13：将分支输出数据输入目标分支模块对应的后序分支模块，以及相邻分支网络中与后序分支模块位置对应的相邻分支模块。

步骤14：分别利用各个分支网络中的尾部分支模块生成第一分割数据。

步骤15：对各个第一分割数据进行结果融合处理，得到分割结果。

其中，目标分支模块与尾部分支模块均是分支特征提取模块，二者的区别在于，目标分支模块的分别向两个其他的分支特征提取模块输出数据，而尾部分支模块仅输出一份数据。需要说明的是，一个分支特征提取模块可以是目标分支模块，例如图2中的ConvS2_1；或者可以是上述的第二目标模块，例如图2中的ConvS1_5；或者既不是目标分支模块，也不是第二目标模块，例如图2中的ConvS1_1以及尾部分支模块；或者既可以是目标分支模块，也是第二目标模块。具体的，当某一分支特征提取模块从两个其他的分支特征提取模块处获取数据作是输入数据，并向另外两个分支特征提取模块输出数据，则该分支特征提取模块既可以是目标分支模块，也是第二目标模块。例如图2中的ConvS2_2、ConvS2_3、ConvS2_4。训练图像输入主干网络后，各个主干特征提取网络会对该训练图像进行深度递增的特征提取处理，每个主干特征提取网络在完成对输入数据的处理后，得到自身的主干输出数据，并将该主干输出数据作为串联顺序的下一个主干特征提取模块的输入数据。每个主干特征提取模块除了将自身的主干输出数据发送至下一个主干特征提取模块外，还将其发送至自身对应的分支网络，分支网络中具有目标分支模块和尾部分支模块。对于目标分支模块来说，其对输入的分支输入数据进行特征提取后，得到分支输出数据，该数据可以用于输入尾部分支模块，或者可以输入下一个目标分支模块，即后序分支模块可以为目标分支模块或尾部分支模块。此外，分支输出数据还用于输出给与后序分支模块位置对应的相邻分支模块。相邻分支模块，是指在特征提取深度减一的分支网络中，与后序分支模块位置相对应的分支特征提取模块。例如，对于ConvS2_1来说，其对应的后序分支模块为ConvS2_2，相邻分支模块为ConvS1_2。最后，利用各个分支网络中的尾部分支模块对输入的数据进行处理，得到用于输出的第一分割数据。各个分支网络的第一分割数据相融合，即可得到分割结果。具体的，可以利用激活函数层对第一分割数据进行处理，得到各个分支网络的图像分割结果，并将图像分割结果做加权平均后再次利用激活函数层进行处理，得到综合数据。该综合数据表现为通道数为1，像素值分布于[0,1]中的热度图，在改热度图上通过设置阈值并进行二值化操作节课得到二值化的分割结果。本实施例并不限定激活函数的具体类型，例如可以选择二分类的sigmoid函数，或者可以为多分类的softmax函数。

具体的，在一种实施方式中，每个主干特征提取模块包括多个卷积层、激活层、批归一化层的组合，每个主干特征提取模块在特征提取阶段的结尾利用滑动步长为2的池化操作或卷积操作对特征图进行降采样处理，使得特征图的长和宽变为原来的一半，但是特征图通道数增加，从而实现对特征的逐级抽象化表示。例如，原始训练图像可以为512*384的RGB图像，其中，w×h×c分别表示长×宽×通道数。或者，请参考图2，对于ConvB1来说，其输入的图像的尺寸为400*300*3的训练图像。

可以理解的是，由此可见，各个分支网络上输入数据的尺寸不同，因此在进行分支网络间的数据传输，以便形成二元树形特征融合结构时，需要对特征提取深度较大的分支特征提取模块所输出的输出数据进行上采样处理或反卷积处理，使得其与特征提取深度较小的分支特征提取模块的输出数据的尺寸相同(即特征图的分辨率一致)，进而进行融合。例如，对于ConvS2_1来说，其在向深度较浅的ConvS1_2传输数据时，需要进行上采样或反卷积处理，处理完毕后得到的数据与ConvS1_1的输出数据相融合，得到ConvS1_2的输入数据。相应的，在输出分割结果时，需要将各种分辨率的第一分割数据调整至分辨率一致。具体的，对各个所述第一分割数据进行结果融合处理，得到所述分割结果的过程，具体可以包括如下步骤：

步骤21：对图像尺寸与训练图像不同的第一分割数据进行上采样处理或反卷积处理，得到第二分割数据。

步骤22：将第二分割数据进行融合处理，得到分割结果。

其中，上采样处理和反卷积处理均可以使得第一分割数据的分辨率上升。请参考图2，不同尺寸的第一分割数据经过上采样处理或反卷积处理后进行融合，得到尺寸为400*300*1的分割结果。本实施例并不限定融合的具体方式，例如可以采用特征图拼接或对应元素求和的方式进行融合。

进一步的，为了使得网络结构更加轻量化，同时减小网络计算复杂度和空间复杂度，主干特征提取模块和/或分支特征提取模块可以具有轻量化卷积模块和/或注意力模块。其中，轻量化卷积模块可以为MobileNet系列网络的深度可分离卷积或者ShuffleNet系列网络的通道混洗卷积等轻量化卷积模块，注意力模块可以为即插即用的注意力模块(如Squeeze-and-Excitation模块),进一步提高网络对图像特征的表示能力。

请参考图3，图3为本申请实施例提供的一种具体的数据处理流程图，其应用于分支特征提取模块。其中，在获取到较浅层分支网络的特征图(即本分支特征提取模块的前序模块生成的第二输出数据)，以及较深层分支网络特征图(即前序模块对应的第一分支网络中第一目标模块的第一输出数据)经过上采样得到特征图后，将二者进行拼接，然后经过注意力模块的分配，得到注意力分配后的特征图，进而对其进行卷积操作，得到本分支特征提取模块的输出特征图。

S103：利用分割结果与标签得到损失值，并利用损失值对初始模型进行参数调节。

在得到分割结果后，可以利用其与训练图像对应的标签进行卷积计算，得到损失值，并利用其进行参数调节。本实施例并不限定损失值的具体生成方式，例如可以为交叉熵损失值，或者可以为其他损失值，或者可以为多种损失值加权计算后得到的损失值。在一种实施方式中，为了改善网络对边缘像素的分割效果，提高网络对细小结构的分割精度，可以采用特殊的二极化分布损失函数进行损失值计算，在这种情况下，损失值的计算过程可以包括如下步骤：

步骤31：利用分割结果与标签计算得到交叉熵损失值和二极化分布损失值:。

步骤32：对交叉熵损失值和二极化分布损失值进行加权求和处理，得到损失值。

在一种实施方式中，交叉熵损失值包括各个分支网络的子损失值和整个网络的融合损失值。具体的，以图2为例，可以利用

得到每个分支网络对应的子损失值。其中，

表示第m个分支网络输出的分割结果上计算得到的子损失值。其中W表示主干网络上的可训练参数矩阵，w^(m)表示第m个分支网络上的可训练参数矩阵。X表示训练图像，Z＝{z_j,j＝1,2,…,|Z|}表示训练图像对应的标签，z_j表示训练图像上第j个像素。Pr(z_j＝1|X；W；w^(m))表示z_j被预测为目标(即前景)类别的概率。则各个分支网络的总损失为：

其中，α_i为加权系数，可称为第一加权系数，可调节。综上，整个网络的融合损失值为：

其中，λ_i为第二加权系数，A^(m) _side为第m个分支网络的输出特征图(未通过最终的激活函数层之前，由于本实施方式中采用了二极化分布损失值，因此激活函数为sigmoid函数)，h表示激活函数，σ表示交叉熵损失计算函数，其形式如同子损失值的计算函数。在此技术上，本实施方式中的交叉熵损失函数即为L_fuse和L_side的和。

其中，二极化分布损失值的生成过程，包括：

步骤33：利用标签确定背景像素比例和前景像素比例。

步骤34：利用背景像素比例和前景像素比例，计算分割结果中预测值处于预设中间区间的目标像素对应的像素损失值。

步骤35：对所有的像素损失值进行平均值计算，得到二极化分布损失值。

其中，二极化分布损失值能够在前景较大的情况下突出背景，在北京较大的情况下突出前景，将预测值处于预测中间区间的目标像素视为不易被分辨为前景还是背景的像素，针对其进行进一步的损失在计算，以便提高模型对该类像素的分类能力。具体的，利用标签确定背景像素比例和前景像素比例的过程，包括如下步骤：

步骤41：利用

得到背景像素比例和前景像素比例，其中，n_b和n_o分别为标签中属于背景和前景的像素数，ω_b为前景像素比例，ω_o为背景像素比例；

相应的，利用背景像素比例和前景像素比例，计算分割结果中预测值处于预设中间区间的目标像素对应的像素损失值的过程，包括如下步骤：

步骤42：利用

得到像素损失值；其中，L_b ⁽ⁱ⁾为输入图像中第i个像素的像素损失值，z_i为输入图像中第i个像素点对应的标签值，z_i＝0表示背景像素，z_i＝1表示前景像素；y_i为预测值，y_i∈(k₁，k₂)，k₁和k₂为预设中间区间的下限值和上限值，k₁、k₂∈(0,1),且k₁<k₂。需要说明的是，本实施例并不限定k₁和k₂的大小，可以根据需要进行设置，例如可以为0.3和0.7，或者可以为0.2和0.8。

相应的，对所有的像素损失值进行平均值计算，得到二极化分布损失值，的过程，包括如下步骤：

步骤43：利用

得到二极化分布损失值；其中，n表示目标像素的数量，L_b表示二极化分布损失值。

综上，则损失值可以表示为：

L_total＝L_side+L_fuse+β*L_b

其中，β为加权系数，具体大小不过限定，例如可以为4，L_total为损失值。

S104：若检测到满足训练完成条件，则将参数调节后的初始模型确定为图像分割模型。

训练完成条件，是指表示初始模型参数调节完毕的条件，其具体内容不做限定，例如可以为损失值阈值条件，即当损失值小于损失值阈值时触发的条件；或者可以为训练轮次条件，即当训练轮次大于轮次阈值时触发的条件。若门族训练完成条件，则说明初始模型已得到足够的训练，因此将其确定为图像分割模型。

综上，请参考图4，图4为本申请实施例提供的一种模型训练及应用流程图。在构建数据集的阶段，可以采集未标注的数据进行像素级的数据标注得到对应的标签，或者采集已标注的数据。进行数据划分，得到训练集、验证集和测试集，其中训练集中的为训练图像。当数据不足时，可以通过随机翻转、随机裁剪、添加白噪声等方式进行数据增强。设置网络超参数并初始化网络，将训练集中的图像分批次送入初始网络进行训练，通过反向传播算法最小化训练集损失，优化模型参数。在训练过程中，每隔一定迭代次数，利用验证集数据对当前网络的训练效果进行验证，便于网络模型超参数的调节，确保网络不产生严重的过拟合现象。经过若干轮的训练，使得训练集和验证集的损失曲线下降趋于平稳，结束训练并保存网络模型文件。导入训练好的网络模型，在测试集上对其进行测试，可采用图像分割任务中常用的评价指标(如平均绝对误差(MAE，Mean Absolute Error)、交并比(IoU，intersection over union)、F值(F-measure))对网络输出结果进行评估，若未达到预期则调节网络超参数，重新训练直至达到预期。若达到预期，则将网络部署到目标计算设备上，在实际场景中进行应用。

具体的，在应用中，图像分割模型用于进行前景和背景的分割。应用过程包括：

步骤51：获取待分割图像。

步骤52：将待分割图像输入图像分割模型，得到分割结果。

其中，图像分割模型根据上述的图像分割模型训练方法生成。请参考图5，图5为本申请实施例提供的测试图像、标签以及对应的分割结果示意图，其中，(a)、(d)、(g)为测试图像，(b)、(e)、(h)为标签，(c)、(f)、(i)为分割结果。

应用本申请实施例提供的图像分割模型训练方法，采用了一种具有二元树形特征融合结构的初始模型训练得到图像分割模型。该模型中，相邻特征提取深度的分支网络中具有二元属性特征融合结构，其体现于：第二分支网络中第二目标模块的输入数据，由第二目标模块的前序模块的第二输出数据，以及前序模块位置对应的第一分支网络中第一目标模块的第一输出数据构成，第二分支网络的特征提取深度为第一分支网络的特征提取深度减一。通过该结构，对相邻分支网络上同阶段的特征提取操作的输出进行融合，使得深层的分支网络上的特征信息能够持续传递给浅层的分支网络，使得不同尺度上的特征能够充分融合，进而提高图像分割模型的精细程度。此外，整个图像分割模型的结构简单，算法复杂程度低，在提高分割精细程度的同时，降低了算法复杂度，使得其适合在机器人、智能汽车、无人机、手机等算力有限的移动平台部署并进行实时推理。

下面对本申请实施例提供的图像分割模型训练装置进行介绍，下文描述的图像分割模型训练装置与上文描述的图像分割模型训练方法可相互对应参照。

请参考图6，图6为本申请实施例提供的一种图像分割模型训练装置的结构示意图，包括：

训练获取模块110，用于获取训练图像和对应的标签；

输入模块120，用于将所述训练图像输入初始模型，得到分割结果；

参数调节模块130，用于利用所述分割结果与所述标签得到损失值，并利用所述损失值对所述初始模型进行参数调节；

模块确定模块140，用于若检测到满足训练完成条件，则将参数调节后的所述初始模型确定为图像分割模型；

可选地，输入模块120，包括：

主干输入单元，用于将所述训练图像输入所述主干网络，分别利用各个主干特征提取网络对输入的主干输入数据进行特征提取，得到主干输出数据；

分支输入单元，用于将各个所述主干输出数据，分别输入对应的所述分支网络，分别利用各个所述分支网络中的目标分支模块对输入的分支输入数据进行特征提取，得到分支输出数据；

分支间传输单元，用于将所述分支输出数据输入所述目标分支模块对应的后序分支模块，以及相邻分支网络中与所述后序分支模块位置对应的相邻分支模块；

分支输出单元，用于分别利用各个所述分支网络中的尾部分支模块生成第一分割数据；

融合单元，用于对各个所述第一分割数据进行结果融合处理，得到所述分割结果。

可选地，融合单元，包括：

尺寸变换单元，用于对图像尺寸与所述训练图像不同的第一分割数据进行上采样处理或反卷积处理，得到第二分割数据；

融合单元，用于将所述第二分割数据进行融合处理，得到所述分割结果。

可选地，参数调节模块130，包括：

计算单元，用于利用所述分割结果与所述标签计算得到交叉熵损失值和二极化分布损失值；

加权求和单元，用于对所述交叉熵损失值和所述二极化分布损失值进行加权求和处理，得到所述损失值；

其中，计算单元，包括：

比例确定子单元，用于利用所述标签确定背景像素比例和前景像素比例；

损失计算子单元，用于利用所述背景像素比例和所述前景像素比例，计算所述分割结果中预测值处于预设中间区间的目标像素对应的像素损失值；

平均处理子单元，用于对所有的所述像素损失值进行平均值计算，得到所述二极化分布损失值。

可选地，比例确定子单元，包括：

第一计算子单元，用于利用

相应的，损失计算子单元，包括：

第二计算子单元，用于利用

相应的，平均处理子单元，包括：

第三计算子单元，用于利用

此外，本申请实施例还提供了一种图像分割装置，包括：

待分割获取模块，用于获取待分割图像；

分割模块，用于将所述待分割图像输入图像分割模型，得到分割结果；

其中，所述图像分割模型根据上述的图像分割模型训练方法生成。

下面对本申请实施例提供的电子设备进行介绍，下文描述的电子设备与上文描述的图像分割模型训练方法可相互对应参照。

请参考图7，图7为本申请实施例提供的一种电子设备的结构示意图。其中电子设备100可以包括处理器101和存储器102，还可以进一步包括多媒体组件103、信息输入/信息输出(I/O)接口104以及通信组件105中的一种或多种。

其中，处理器101用于控制电子设备100的整体操作，以完成上述的图像分割模型训练方法中的全部或部分步骤；存储器102用于存储各种类型的数据以支持在电子设备100的操作，这些数据例如可以包括用于在该电子设备100上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、只读存储器(Read-OnlyMemory，ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。

多媒体组件103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或通过通信组件105发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口104为处理器101和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件105用于电子设备100与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件105可以包括：Wi-Fi部件，蓝牙部件，NFC部件。

电子设备100可以被一个或多个应用专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field ProgrammableGate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述实施例给出的图像分割模型训练方法。

下面对本申请实施例提供的计算机可读存储介质进行介绍，下文描述的计算机可读存储介质与上文描述的图像分割模型训练方法可相互对应参照。

本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述的图像分割模型训练方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应该认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语包括、包含或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像分割模型训练方法，其特征在于，包括：

获取训练图像和对应的标签；

将所述训练图像输入初始模型，得到分割结果；

2.根据权利要求1所述的图像分割模型训练方法，其特征在于，所述将所述训练图像输入初始模型，得到分割结果，包括：

3.根据权利要求2所述的图像分割模型训练方法，其特征在于，所述对各个所述第一分割数据进行结果融合处理，得到所述分割结果，包括：

将所述第二分割数据进行融合处理，得到所述分割结果。

4.根据权利要求1所述的图像分割模型训练方法，其特征在于，所述利用所述分割结果与所述标签得到损失值，包括：

其中，所述二极化分布损失值的生成过程，包括：

利用所述标签确定背景像素比例和前景像素比例；

5.根据权利要求4所述的图像分割模型训练方法，其特征在于，所述利用所述标签确定背景像素比例和前景像素比例，包括：

利用

利用

得到所述像素损失值；其中，L_b ⁽ⁱ⁾为输入图像中第i个像素的像素损失值，z_i为输入图像中第i个像素点对应的标签值，z_i＝0表示背景像素，z_i＝1表示前景像素；y_i为所述预测值，y_i∈(k₁，k₂)，k₁和k₂为所述预设中间区间的下限值和上限值，k₁、k₂∈(0,1),且k₁<k₂；

利用

6.根据权利要求1所述的图像分割模型训练方法，其特征在于，所述主干特征提取模块和/或所述分支特征提取模块具有轻量化卷积模块和/或注意力模块。

7.一种图像分割方法，其特征在于，包括：

获取待分割图像；

将所述待分割图像输入图像分割模型，得到分割结果；

8.一种图像分割模型训练装置，其特征在于，包括：

训练获取模块，用于获取训练图像和对应的标签；

9.一种电子设备，其特征在于，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现如权利要求1至6任一项所述的图像分割模型训练方法，和/或，如权利要求7所述的图像分割方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时以实现如权利要求1至6任一项所述的图像分割模型训练方法，和/或，如权利要求7所述的图像分割方法。