CN115063591B

CN115063591B - 一种基于边缘度量关系的rgb图像语义分割方法及装置

Info

Publication number: CN115063591B
Application number: CN202210883738.1A
Authority: CN
Inventors: 张健; 李月华; 朱世强; 陈烨恒
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2022-11-29
Anticipated expiration: 2042-07-26
Also published as: CN115063591A

Abstract

本发明公开了一种基于边缘度量关系的RGB图像语义分割方法及装置，该方法包括：构建语义分割网络的网络主体；从所述网络主体中提取可分离的中间层特征，构建边缘度量关系模块；组合所述网络主体与所述边缘度量关系模块，构建基于边缘度量关系的语义分割网络；对所述基于边缘度量关系的语义分割网络进行训练；输入待测RGB图像至训练后的语义分割网络，得到所述待测RGB图像的各语义类别分类得分和根据最高得分对应的类别生成的语义分割图像。

Description

一种基于边缘度量关系的RGB图像语义分割方法及装置

技术领域

本发明属于计算机图像处理技术领域，尤其涉及一种基于边缘度量关系的RGB图像语义分割方法及装置。

背景技术

语义分割是计算机视觉领域的常见任务，面向RGB图像的分割任务更是其中重要分支，被广泛运用于机器人作业、自动驾驶、安防监控等领域。现阶段，大部分的RGB语义分割算法模型是以深度学习框架为基础，如FCN、UNet、DeepLab、PSPNet等。

目前，诸如上述的RGB语义分割网络在KIITI、MSRC、Coco等公开数据集上取得了较好的表现，但相应了带来了样本尺寸大、网络模型参数量多、设备算力需求高等问题。实际工程任务中，受限于光线条件复杂、待分割目标种类多、场景层次性丰富等条件，目标边缘的语义分类往往表现不佳。

在实现本发明的过程中，发明人发现现有技术中至少存在如下问题：

为降低网络的推理开销，常用的方法包括模型压缩、参数量化、输入裁剪等方法。其中，模型压缩涉及大量的模型重构工作与复杂的多阶段训练要求；参数量化与输入裁剪则会带来精度的下降。针对目标边缘表现不佳的问题，使用传统的Canny算子提取目标的边缘信息作为额外的监督信息，但带来了额外的模型推理开销。

发明内容

针对现有技术的不足，本申请实施例的目的是提供一种基于边缘度量关系的RGB图像语义分割方法及装置。

根据本申请实施例的第一方面，提供一种基于边缘度量关系的RGB图像语义分割方法，包括：

构建语义分割网络的网络主体；

从所述网络主体中提取出可分离的中间层特征图，构建边缘度量关系模块；

组合所述网络主体与所述边缘度量关系模块，构建基于边缘度量关系的语义分割网络；

对所述基于边缘度量关系的语义分割网络进行训练；

输入待测RGB图像至训练后的语义分割网络，得到所述待测RGB图像的各语义类别分类得分和根据最高得分对应的类别生成的语义分割图像。

进一步地，所述中间层特征为所述网络主体中解码器最后一层的输出特征。

进一步地，从所述网络主体中提取可分离的中间层特征，构建边缘度量关系模块，包括：

S21：选取所述中间层特征对应的特征图中的第一个点作为当前目标点；

S22：以所述当前目标点为中心，构建预定邻域扩张系数的邻域区间；

S23：判断所述当前目标点是否为边缘冲突点；

S24：若所述当前目标点为边缘冲突点，则计算所述当前目标点与所述邻域区间内其他点之间的相对距离，得到距离集合；若所述当前目标点不为边缘冲突点，则选取下一个点作为当前目标点，并返回步骤S22；

S25：在所述边缘冲突点和所述边缘冲突点的邻域区间内，获取与所述边缘冲突点距离最近的负样本和距离最远的正样本；

S26：根据所述距离最近的负样本和距离最远的正样本，为所述边缘冲突点构建度量关系；

S27：若所述边缘冲突点不是所述特征图中的最后一个点，则选取下一个点作为当前目标点，并返回步骤S22；若所述边缘冲突点是所述特征图中的最后一个点，则所述边缘度量关系模块构建完成。

进一步地，所述边缘冲突点为包含若干种语义类别的点。

进一步地，所述边缘关系度量模块的损失为所述特征图中所有边缘冲突点的度量关系的平均值。

进一步地，对所述基于边缘度量关系的语义分割网络进行训练，包括：

获取语义分割数据集；

将所述语义分割数据集划分为训练集和测试集，其中所述测试集用于对训练后的所述语义分割网络的有效性进行验证；

对所述训练集进行数据增强；

将增强后的训练集输入所述基于边缘度量关系的语义分割网络中，基于反向传播算法与随机梯度下降法更新网络参数，直至所述基于边缘度量关系的语义分割网络的损失不再下降或已达预设的迭代次数。

进一步地，所述基于边缘度量关系的语义分割网络的损失通过对所述网络主体的损失和所述边缘关系度量模块的损失进行加权求和得到。

根据本申请实施例的第二方面，提供一种基于边缘度量关系的RGB图像语义分割装置，包括：

第一构建模块，用于构建语义分割网络的网络主体；

第二构建模块，用于从所述网络主体中提取可分离的中间层特征，构建边缘度量关系模块；

第三构建模块，用于组合所述网络主体与所述边缘度量关系模块，构建基于边缘度量关系的语义分割网络；

训练模块，用于对所述基于边缘度量关系的语义分割网络进行训练；

推理模块，用于输入待测RGB图像至训练后的语义分割网络，得到所述待测RGB图像的各语义类别分类得分和根据最高得分对应的类别生成的语义分割图像。

根据本申请实施例的第三方面，提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的基于边缘度量关系的RGB图像语义分割方法。

根据本申请实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面所述的基于边缘度量关系的RGB图像语义分割方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本申请在现有的语义分割网络模型的基础上，创新性地提取网络中间层特征图以构建边缘度量关系，提升任务表现。在自动驾驶、机器人探测、地外考察等任务场景中，本申请算法能够广泛应用于其中的语义分割功能模块的优化。尤其是在算力、存储等受限的移动端平台，邻域度量关系模块不增加模型推理开销的特性，将更具有竞争力。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种基于边缘度量关系的RGB图像语义分割方法的流程图。

图2是根据一示例性实施例示出的步骤S12的示意图。

图3是根据一示例性实施例示出的步骤S13的示意图。

图4是根据一示例性实施例示出的一种基于边缘度量关系的RGB图像语义分割方法的效果示意图，其中（a）为RGB图像示意图，（b）为语义真值示意图，（c）为

推理结果示意图，（d）为

推理结果示意图。

图5是根据一示例性实施例示出的一种基于边缘度量关系的RGB图像语义分割装置的框图。

图6是根据一示例性实施例示出的电子设备的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

图1是根据一示例性实施例示出的一种基于边缘度量关系的RGB图像语义分割方法的流程图，如图1所示，该方法应用于终端中，可以包括以下步骤：

步骤S11：构建语义分割网络的网络主体；

步骤S12：从所述网络主体中提取可分离的中间层特征，构建边缘度量关系模块；

步骤S13：组合所述网络主体与所述边缘度量关系模块，构建基于边缘度量关系的语义分割网络；

步骤S14：对所述基于边缘度量关系的语义分割网络进行训练；

步骤S15：输入待测RGB图像至训练后的语义分割网络，得到所述待测RGB图像的各语义类别分类得分和根据最高得分对应的类别生成的语义分割图像。

具体地，完整的工程流程，可以细分为基础网络构建、边缘度量关系模块构建、网络训练与推理、对比实验以及性能验证等步骤。以公开的语义分割网络为基础，引入边缘度量关系实现对比实验，通过指标性能提升、以及可视化效果，直观反映本文申请方法的有效性。

在步骤S11的具体实施中，构建语义分割网络的网络主体；

具体地，语义分割网络的网络主体的构建，可以使用任意的、中间层特征图可分离的语义分割模型，如FCN、Deep-Lab、U-Net等。上述列举模型为业界常见的、公开的语义分割模型框架，其性能表现在相应任务上都已经得到验证，此处不作赘述。

本申请实施例基于开源的深度学习框架Pytorch，以及开源的 Deeplab-v3模型，实现网络主体

的部署。具体地，使用的Deeplab-v3中解码器部分采用Resnet-50（记为

），编码器（记为

）部分采用多尺度空洞卷积（ASPP）模块。其中，Resnet结构中包含了4组可分离的中间层特征，记为

。

具体地，给定输入上述语义分割网络的RGB图片

，以及对应的语义标签

。其中，语义标签包括了n组不同的目标语义类别，表示为

。则当前的语义分割网络的输出结果为

，相应的网络损失记为

，公式如下：

其中，

表示归一化指数函数，

表示交叉熵损失函数。

步骤S11中，选用了公开的语义分割模型作为基础网络，并在相应数据集上进行训练与测试，后续与本文所提的边缘度量关系模块共同组成了对比实验。同时，引入可分离的中间层特征，为邻域度量关系模块的构建提供了更多的、不同层级的输入特征。

在步骤S12的具体实施中，从所述网络主体中提取可分离的中间层特征，构建边缘度量关系模块；

具体地，如图2所示，此步骤可以包括以下子步骤：

步骤S21：选取所述中间层特征对应的特征图中的第一个点作为当前目标点；

具体地，本申请实施例中所述中间层特征为所述网络主体中解码器最后一层的输出特征，对应的特征图

，其所有空间位置点共对应

组特征向量

，特征图

表示为：

其中，

表示为该特征图的高度、宽度以及通道数，其实际大小为原始RGB图片与语义标签的1/4。

在本步骤中，选取第一个点

作为当前目标点。此外，本步骤中还需要将边缘冲突点的数量count初始化为0，以记录边缘冲突点的数量，作用于后续损失的归一化。

步骤S22：以所述当前目标点为中心，构建预定邻域扩张系数的邻域区间；

具体地，当前目标点

对应的特征向量记为

，对应语义标签记为

。以当前目标点为中心构建扩张系数为

的邻域区间

，具体表示为：

其中，

为自然数，分别表示为高度与宽度方向的邻域扩张系数。

本申请以邻域扩张区间的方式，取代传统的Canny算子以发掘边缘冲突点。可以通过调整中心扩张系数的方式，将少量的边缘有效目标样本进行扩充。

步骤S23：判断所述当前目标点是否为边缘冲突点；

具体地，所述边缘冲突点为包含若干种语义类别的点，其判别公式表示为：

上述步骤S22~S23中，实现了对当前点

是否为边缘冲突点的判断。以目标点邻域内的类别分类情况为判别标准，实施流程便捷且贴合真实的数据分布情况。

步骤S24：若所述当前目标点为边缘冲突点，则计算所述当前目标点与所述邻域区间内其他点之间的相对距离，得到距离集合；若所述当前目标点不为边缘冲突点，则选取下一个点作为当前目标点，并返回步骤S22；

具体地，若

，即目标点

为边缘冲突点，更新计数函数

，并进一步计算目标点

与其邻域

内所有其他点之间的相对距离，所有的距离集合记为

，公式表示为：

其中，选用了

距离来衡量两个向量之间的距离，并使用向量的维度d来归一化。

若

，选取下一个点作为当前目标点，并返回步骤S22；

步骤S21~S24中，引入了边缘冲突点的概念以及判断，使得边缘度量关系模块更加关注易错分的边缘像素点，并有效了降低了边缘度量关系模块的计算量。

步骤S25：在所述边缘冲突点和所述边缘冲突点的邻域区间内，获取与中心点距离最近的负样本和距离最远的正样本；

具体地，从边缘冲突点

的邻域

内，分别寻找与中心点距离最近的负样本（不同语义类别）点

、以及距离最远的正样本（相同语义类别）点

，判别公式如下：

边缘冲突点的邻域区间内存在大量与中心点相对应的正、负样本，而选取其中的最近距离负样本、最远距离负样本，具有更好的代表意义、并能够提升网络的更新速度。

步骤S26：根据所述距离最近的负样本和距离最远的正样本，为所述边缘冲突点构建度量关系；

具体地，以最近负样本点、最远正样本点，构建度量关系

，

由上述两点的距离差值构成，并引入可调节的阈值参数

进一步转变为相对距离关系，具体的计算方式表达为：

其中，

表示为正样本点与负样本点之间的关系阈值，

。

上述步骤中，以正负样本之间的相对距离构建度量关系，可以避免网络受单边距离的影响而过于偏向某一类样本。同时，引入

函数，对度量关系

进行裁剪，也是基于加速网络更新速度的考量。

步骤S27：若所述边缘冲突点不是所述特征图中的最后一个点，则选取下一个点作为当前目标点，并返回步骤S22；若所述边缘冲突点是所述特征图中的最后一个点，则所述边缘度量关系模块构建完成。

具体地，若

，则所述边缘冲突点不是所述特征图中的最后一个点，选取下一个点作为当前目标点，并返回步骤S22；若

，则当前特征图

的边缘度量关系构建完成，即边缘度量关系模块

构建完成。

边缘度量关系模块的损失为所述特征图中所有边缘冲突点的度量关系的平均值，记为

：

在步骤S13的具体实施中，组合所述网络主体与所述边缘度量关系模块，构建基于边缘度量关系的语义分割网络；

具体地，组合语义分割网络主体与边缘度量关系模块，构建出完整的基于边缘度量关系的语义分割网络

。本申请中，后续还会以基于边缘度量关系的语义分割网络

、以及网络主体

构建对比实验，以验证边缘度量关系模块的有效性。

在步骤S14的具体实施中，对所述基于边缘度量关系的语义分割网络进行训练；

具体地，如图3所示，此步骤可以包括以下子步骤：

步骤S31：获取语义分割数据集；

在一实施例中，选用公开的NYU-depth v2语义分割数据集进行训练，其包含带标注的RGB-D图像1449张。该数据集为典型的室内场景，其中样本存在目标样本前后遮挡、目标边缘不清晰、环境光线不统一等挑战。

步骤S32：将所述语义分割数据集划分为训练集和测试集，其中所述测试集用于对训练后的所述语义分割网络的有效性进行验证；

在本实施例中，参照数据集官方定义，分别划分795、645张作为训练集与测试集，划分的数量为本领域内的常规设置，此处不作赘述。在测试集的验证过程中，所述测试集中的所有样本将分别输入所述网络主体和训练后的基于边缘度量关系的语义分割网络进行推理，以构建对比试验，验证训练后的基于边缘度量关系的语义分割网络相较于所述网络主体的更优性。

步骤S33：对所述训练集进行数据增强；

具体地，记输入网络

的RGB训练数据集为

，相应的语义标签图为

。训练过程中，在线使用随机翻转、剪裁、gamma值变换方法进行数据增强。上述数据增强方法，能够确保在数据样本数目有限的条件下，模拟出更多的样本分布情况，提升模型在测试集上的表现。

步骤S34：将增强后的训练集输入所述基于边缘度量关系的语义分割网络中，基于反向传播算法与随机梯度下降法更新网络参数，直至所述基于边缘度量关系的语义分割网络的损失不再下降或已达预设的迭代次数。

具体地，所述基于边缘度量关系的语义分割网络的损失通过对所述网络主体的损失和所述边缘关系度量模块的损失进行加权求和得到，表示为

：

其中，

分别表示为语义分割损失与度量关系损失的权重因子，

表示上述一系列在线增强方法对应的接口函数。

训练过程中，语义分割网络的编码器部分所用的Resnet-50结构加载了ImageNet 的预训练参数。网络的更新则以

为目标，并采用反向传播算法与随机梯度下降法更新网络参数，直至损失

不再下降或已达预设的迭代次数。在一实施例中，更新过程中的初始学习率为0.01，并隔16次迭代，学习率乘以系数0.1。

在步骤S15的具体实施中，输入待测RGB图像至训练后的语义分割网络，得到所述待测RGB图像的各语义类别分类得分和根据最高得分对应的类别生成的语义分割图像。

具体地，模型地推理过程中，边缘度量关系模块将不参与计算，其开销与基础的语义分割网络保持一致。如图4中的(a)所示，输入待测试的RGB图像

，模型将输出各语义类别分类得分

，并以最高得分对应的类别生成如图4中的(b)所示的语义分割图像

，公式如下：

其中，l表示待测试图片的序号；n=40表示NYU-depth v2数据集中的40类语义标注。

在本实施例中，如步骤S13的具体实施部分，分别围绕网络主体

与基于边缘度量关系的语义分割网络

进行对比实验，验证边缘度量关系的有效性。待步骤S15中所有的测试样本推理完毕，统计其输出结果并与真实标签进行对比，以平均交并比（m-IOU）指标评估模型的性能。验证结果表明，边缘度量关系模块的引入给当前的语义分割任务带来了显著的提升，

，相较于只使用主体网络提升了3.52%。进一步地，对比图4中的(c)所示主体网络

的结果，以及图4中的(d)所示的引入边缘度量关系的

网络结果，后者在边缘上表现出了更好的性能。至此，完成了结果验证以及可视化分析。

与前述的基于边缘度量关系的RGB图像语义分割方法的实施例相对应，本申请还提供了基于边缘度量关系的RGB图像语义分割装置的实施例。

图5是根据一示例性实施例示出的一种基于边缘度量关系的RGB图像语义分割装置框图。参照图5，该装置可以包括：

第一构建模块21，用于构建语义分割网络的网络主体；

第二构建模块22，用于从所述网络主体中提取可分离的中间层特征，构建边缘度量关系模块；

第三构建模块23，用于组合所述网络主体与所述边缘度量关系模块，构建基于边缘度量关系的语义分割网络；

训练模块24，用于对所述基于边缘度量关系的语义分割网络进行训练；

推理模块25，用于输入待测RGB图像至训练后的语义分割网络，得到所述待测RGB图像的各语义类别分类得分和根据最高得分对应的类别生成的语义分割图像。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的基于边缘度量关系的RGB图像语义分割方法。如图6所示，为本发明实施例提供的一种基于边缘度量关系的RGB图像语义分割方法所在任意具备数据处理能力的设备的一种硬件结构图，除了图6所示的处理器、内存以及网络接口之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的基于边缘度量关系的RGB图像语义分割方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（FlashCard）等。进一步的，所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种基于边缘度量关系的RGB图像语义分割方法，其特征在于，包括：

构建语义分割网络的网络主体；

对所述基于边缘度量关系的语义分割网络进行训练；

输入待测RGB图像至训练后的语义分割网络，得到所述待测RGB图像的各语义类别分类得分和根据最高得分对应的类别生成的语义分割图像；

其中，从所述网络主体中提取可分离的中间层特征，构建边缘度量关系模块，包括：

S23：判断所述当前目标点是否为边缘冲突点；

2.根据权利要求1所述的方法，其特征在于，所述中间层特征为所述网络主体中解码器最后一层的输出特征。

3.根据权利要求1所述的方法，其特征在于，所述边缘冲突点为包含若干种语义类别的点。

4.根据权利要求1所述的方法，其特征在于，所述边缘度量关系模块的损失为所述特征图中所有边缘冲突点的度量关系的平均值。

5.根据权利要求1所述的方法，其特征在于，对所述基于边缘度量关系的语义分割网络进行训练，包括：

获取语义分割数据集；

对所述训练集进行数据增强；

6.根据权利要求1所述的方法，其特征在于，所述基于边缘度量关系的语义分割网络的损失通过对所述网络主体的损失和所述边缘度量关系模块的损失进行加权求和得到。

7.一种基于边缘度量关系的RGB图像语义分割装置，其特征在于，包括：

第一构建模块，用于构建语义分割网络的网络主体；

推理模块，用于输入待测RGB图像至训练后的语义分割网络，得到所述待测RGB图像的各语义类别分类得分和根据最高得分对应的类别生成的语义分割图像；

S23：判断所述当前目标点是否为边缘冲突点；

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6任一项所述的基于边缘度量关系的RGB图像语义分割方法。

9.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-6中任一项所述的基于边缘度量关系的RGB图像语义分割方法的步骤。