CN116229461A

CN116229461A - 一种基于多尺度细化的室内场景图像实时语义分割方法

Info

Publication number: CN116229461A
Application number: CN202310046888.1A
Authority: CN
Inventors: 叶昊晖; 武伟; 徐百生; 向德强; 马腾飞
Original assignee: Southwest University
Current assignee: Southwest University
Priority date: 2023-01-31
Filing date: 2023-01-31
Publication date: 2023-06-06

Abstract

一种基于多尺度细化的室内场景图像实时语义分割方法，包括如下步骤：S1：处理***获取城市街景数据集，将该数据集划分为训练集和验证集；S2：处理***对训练集预处理和数据增强，加深训练集对现实场景的拟合度；S3：构建轻量级分类网络STDC模块作为实时语义分割网络编码器，该网络编码器在不同阶段生成不同分辨率网络特征图；S4：构建双边金字塔池化模块以及特征对齐金字塔模块作为实时语义分割网络解码器；S5：构建多尺度细节优化模块，得到近似二值图，将近似二值图与细节标签计算损失并反向传播，优化多尺度目标的细节提取效果；S6：得到分割预测图，将分割预测图与真实标签计算损失后反向传播，更新网络，得到训练模型。在保证模型精度与速度的前提下，实现了图像的多尺度细节优化，达到街景图像的实时语义分割任务的性能要求。

Description

一种基于多尺度细化的室内场景图像实时语义分割方法

技术领域

本发明涉及计算机领域，具体涉及一种基于多尺度细化的室内场景图像实时语义分割方法。

背景技术

语义分割是计算机视觉的基础任务之一，目的在于为图像的每个像素都提供一个类别标签。近年来，伴随着深度学习的高速发展，语义分割被广泛应用于自动驾驶、机器人感知等领域。然而，这些领域往往不仅需要算法精度高，还对算法响应速度有较高要求。由此，需要在普通语义分割任务基础上，设计满足分割精度和速度的实时语义分割模型。

语义分割问题的核心在于理解图像语义信息和空间信息。现有语义分割模型大多基于编码器-解码器架构，通过编码器提取图像特征，理解图像语义，通过解码器还原编码器造成的空间信息损失。虽然深层次、大容量的编码器可以提高语义理解能力，但难免造成信道冗余。此外，为减小下采样过程中的空间信息损失，需要保持特征图的分辨率，难以达到实时效果。

为解决上述问题，现有实时语义分割模型普遍采用双边结构，分别提取语义信息和空间信息。其中，语义分支采用轻量级编码器减少信道冗余，保证实时性，空间细节分支将特征图保持在一个较高的分辨率，减少空间信息的丢失。最新的实时语义分割模型依然采用类似结构，STDC-Seg设计了一个针对语义分割任务的编码器；DDRNet将HRNet轻量化，保持特征图的高分辨率；PP-LiteSeg提出轻量级解码块FLD，通过统一注意力融合语义特征与细节特征。

已有模型存在如下问题：

问题1：现有模型并未有效整合多尺度特征与全局上下文信息，语义理解能力仍有提升空间。

问题2：在低维(空间)特征与高维(语义)特征时，低维特征容易被高维特征淹没，无法对齐。现有模型大多采用注意力机制融合高低维特征，并不能有效改善此问题。

问题3：现有模型在空间分支保持较高分辨率，但缺乏对细节的有效引导，并未充分利用空间细节信息。

发明内容

本发明目的在于，第一，整合图像多尺度信息和全局上下文信息，提高对图像语义信息理解能力。

第二，改善空间信息与语义信息融合时的不对齐情况。

第三，加强对空间细节信息的引导，对多尺度目标的细节优化。

第四，实现语义分割精度和速度的较佳平衡，达到实时分割性能要求。

因此，针对上述目的，提出一种基于多尺度细化的室内场景图像实时语义分割方法，具体技术方案如下：

一种基于多尺度细化的室内场景图像实时语义分割方法，其特征在于：

包括如下步骤：

S1：处理***获取室内场景数据集，将该数据集划分为训练集和验证集；

S2：处理***对训练集预处理和数据增强，加深训练集对现实场景的拟合度；

S3：构建轻量级分类网络STDC模块作为实时语义分割网络编码器，该网络编码器在不同阶段生成不同分辨率网络特征图；

S4：构建双边金字塔池化模块以及特征对齐金字塔模块作为实时语义分割网络解码器；

S5：构建多尺度细节优化模块；

将网络编码器第三阶段特征图以及特征对齐模块的结果输入多尺度细节优化模块，进行自适应阈值学习，得到近似二值图；

将近似二值图与细节标签计算损失并反向传播，优化多尺度目标的细节提取效果；

S6：特征对齐金字塔模块最后阶段所得特征图上采样8倍，输入至分割模块，得到分割预测图，将分割预测图与真实标签计算损失后反向传播，更新网络，得到训练模型。

为更好的实现本发明，可进一步地：

在S6后还包括如下步骤：

S7：将训练得到的模型转换为ONNX，进而转换为TensorRT和NCNN，便于部署在GPU以及边缘设备芯片端；

S8：将测试集图像输入至网络得到推理结果。

进一步：

在所述S3中，每个STDC模块包含五个Block，Block1含有一个1x1卷积层、一个批归一层以及一个非线性激活层；

Block2、Block3、Block4包含一个3x3卷积层，一个批归一层、一个非线性层；

STDC模块在Block1中通过1x1卷积调整输出特征图大小，并在后续的Block中，特征图通道数依次减少，降低通道冗余；

在模块输出前，Block1、Block2、Block3与Block4的特征图按通道方向拼接得到模块输出特征图。

进一步：

所述双边金字塔池化模块包括多尺度信息分支和全局上下文信息分支组成；多尺度信息分支由三个最大池化层串联而成；

全局上下文分支由三个自适应全局平均池化层并联而成，分别将特征图下采样至4x4,2x2以及1x1大小；

多尺度信息分支与全局上下文分支内部各层之间均采用分层残差的方式相融合，并在两分支的输出将分支内部各层相加，最后将两分支结果拼接得到双边金字塔池化模块的输出。

进一步：

所述特征对齐金字塔模块由特征对齐模块与特征选取模块组成；

特征选取模块使用SE模块对编码器该阶段的特征图进行特征选取；

特征对齐模块的输入分为两部分，其一是特征选取模块的结果，再者是将解码器上一阶段的输出上采样2倍得到

后与特征选取模块结果/>

的拼接；特征对齐模块通过可形变卷积将两个输入对齐，提升高低维特征融合时的效果；特征对齐模块首先利用一个卷积核大小为3x3，输出通道数为18的卷积层f_o求得上一阶段特征图与特征选取模块结果的偏移量Δ_i，再由一个普通卷积f_a调整特征选取模块结果，得到对齐结果/>

进一步：

为准确区分目标细节与背景，细节优化模块设计两条分支，一个分支学习概率图P，另一个分支学习阈值图T，最后通过如下可微分二值化操作，将概率图转换为近似二值图B作为细节的预测；

细节标签通过使用拉普拉斯卷积核的二维卷积与1x1卷积生成，真实标签经过不同步长的拉普拉斯卷积后，生成不同尺度的细节特征图，上采样至原图大小后，由1x1卷积层实现融合；

最后，设置阈值为0.1，将细节特征图转换为细节二值图作为细节标签，将细节预测图与细节标签计算损失后反向传播，实现多尺度目标的细化。

进一步：

所述分割模块由一个卷积核大小为3x3，步距为1的卷积层，一个批归一层，一个非线性激活层以及一个1x1卷积层组成；

1x1卷积层将输出特征图通道数调整为类别数，得到模型的分割预测图。

本发明的有益效果为：本发明设计一个双边金字塔池化模块整合多尺度信息与全局上下文信息，加强语义信息的理解。采用特征池化金字塔结构强化不同尺度特征的对齐效果，有效避免了细节信息的丢失。在训练阶段，多尺度细节优化模块采用自适应分割阈值的方式，提高细节的分割效果。在保证模型精度与速度的前提下，实现了图像的多尺度细节优化，达到室内场景图像的实时语义分割任务的性能要求。

附图说明

图1为本发明的工作流程图；

图2为模型整体结构；

图3为双边金字塔池化模块；

图4为特征对齐金字塔。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1至图4所示：

一种基于多尺度细化的室内场景图像实时语义分割方法，

包括如下步骤：

S1：处理***获取室内场景数据集SUN RGBD，将该数据集划分为训练集和验证集；

S1具体过程如下所述，采用SUN RGBD室内场景图像数据集，。该数据集包含10335张室内场景图像，每张RGB图像均有对应的深度图及语义标签，包括146,617个2D多边形和58,657个具有精确对象方向的3D边框，以及一个3D房间布局和场景类别。该发明仅使用数据集中RGB图像作为训练数据，将37个语义类别作为分割对象，并遵循数据集划分方法，划分为5285张训练集以及5050张测试集。

S2具体过程如下所述，本实施例采用常规数据增强与特殊数据增强结合的方式，提高数据集对现实街景的拟合程度。

在预处理阶段将图像调整为适配显存大小的尺寸，并对图像标准化，转换为张量格式。

常规数据增强采用AutoAugment策略，AutoAugment数据增强在ImageNet数据集上求得五组最有效的增强策略，每组增强策包含五个子策略组，每个子策略组包含连续两个数据增强方法。

特殊数据增强采用随机掩码(MAE)策略。MAE将图片整分为若干个patch，随机选择其中25％个patch进行遮掩，将遮挡后的图片放入训练。、

S3：构建轻量级分类网络STDC作为实时语义分割网络编码器，该网络编码器在不同阶段生成不同分辨率网络特征图；

S3具体过程如下所述，采用轻量级分类网络STDC作为实时语义分割网络编码器。

STDC网络划分为六个阶段，每阶段输出不同分辨率特征图。

为适配于语义分割任务，只保留STDC网络中负责下采样提取特征的前五个阶段，舍弃第六阶段。

STDC网络的第一、二阶段均由一个卷积核大小为3x3，步距为2的卷积层、一个批归一层以及一个非线性激活层串联而成。

第三、四、五阶段均由多个短期密集级联模块(STDC Module)组成，STDC Module包含五个Block，Block1包含一个卷积核大小为1x1，步距为1的卷积层，一个批归一层以及一个非线性层。

Block2、Block3、Block4包含包含一个卷积核大小为3x3，步距为1的卷积层，一个批归一层、一个非线性层以及一个融合层。

其中，Block1中的1x1卷积层将该阶段输入特征图的通道数调整为该阶段输出特征图通道数的1/2，Block2与Block3依次将特征图的通道数下采样2倍，得到的特征图大小分别为该阶段输出特征图通道数的1/4与1/8，Block4不改变特征图的通道数。

融合层将Block1、Block2、Block3与Block4的特征图拼接，得到STDC模型的输出特征图。

STDC网络划分为六个阶段，为适配于语义分割任务，只保留STDC网络中的前五个阶段作为实时语义分割网络编码器。

其中，Block2的卷积层步距可以为1或2，当步距为2时，该STDC模型的输出特征图较输入特征图下采样两倍，Block1的特征图在融合层与其它Block的特征图拼接前需要进行平均池化操作下采样2倍，保证各个Block的特征图大小统一。

S4具体过程如下所述，双边金字塔池化模块由多尺度特征分支和全局上下文信息分支组成。

多尺度特征分支由三个最大池化层串联而成，每个最大池化层的池化核大小为5，步距为1，填充为2。每个最大池化层均不改变特征图大小，三个池化层串联后感受野依次为5x5，9x9与13x13，可以捕捉多个尺度的特征信息。

多尺度特征之间采用层次残差方式进行融合。双边金字塔模块的输入特征图经过1x1卷积调整通道后，直接输入至多尺度特征分支。

随后，依次经过三个3x3大小的最大池化层，多尺度特征分支输入特征图m1与第一个最大池化层输出特征图相加后通过3x3卷积融合得到m2，并将得到的特征图与第二个最大池化层输出特征图相加。

接着，两特征图相加结果再通过3x3卷积进行融合m3，并将结果与第三个最大池化层特征图相加后通过3x3卷积融合m4。

最后，将特征图m2、m3以及m4相加，得到多尺度特征分支的输出特征图。

全局上下文信息分支由三个自适应平均池化层并联而成，三个自适应平均池化层分别将特征图下采样至4x4，2x2和1x1大小，提取特征图的全局上下文信息。

每个自适应池化平均层之后，通过1x1卷积调整特征图通道数，并上采样至输入特征图大小。三个自适应平均池化层同样采用层次残差的方式进行融合。双边金字塔模块的输入特征图经过1x1卷积调整通道后，直接输入至全局上下文信息分支。随后，并行输入至三个自适应平均池化层，并将结果上采样至输入特征图大小。

接着，将第一个自适应平均池化层上采样结果c1与第二个自适应平均池化层上采样结果相加后通过3x3卷积融合得到特征图c2，将c2与第三个自适应平均池化层上采样结果相加后通过3x3卷积融合得到特征图c3。

最后，将特征图c1、c2和c3相加，得到全局上下文信息分支的输出特征图。

最后，将多尺度特征分支的输出特征图和全局上下文信息分支的输出特征图拼接，得到双边金字塔池化模块输出。

特征对齐金字塔共三层，金字塔每层都由一个特征选择模块与一个特征对齐模块组成。

特征选择模块的输入为该层所对应的编码器特征图，特征选取使用SE模块，首先进行Squeeze操作，使用全局平均池化将特征图每个特征通道变成一个实数，通道数保持不变。

其次是Excitation操作，通过两次1x1卷积，为每个特征通道生成权重，最后将权重与输入特征图相乘，完成在通道维度上的对原始特征的重标定。

特征对齐模块的输入分为两部分，其中一个输入为特征选取模块的结果，另一个输入为特征对齐金字塔上一层的输出，若为金字塔的顶层，则输入为双边金字塔池化模块的输出。

特征对齐模块首先将两个输入拼接，随即使用一个卷积核大小为3x3，卷积核个数为18的卷积层求得拼接结果的偏移量。根据偏移量计算得到每个卷积核元素应该作用的像素点坐标，然后使用双线性插值从特征图中获取相应的像素值，并将获取的像素值输入真正的卷积层进行卷积，完成对齐。

最后将特征提取模块和特征对齐模块的输出逐点相加，得到特征对齐金字塔池化模块的输出。

S5：构建多尺度细节优化模块；

S5具体过程如下所述，高分辨率的特征图含有更多空间信息，利于细节信息的提取。

因此，将特征对齐金字塔模块的第三阶段特征图输入至概率图分支，将编码器第三阶段的特征图输入至阈值图分支。

概率图分支与阈值图分支结构相同，首先经过一个卷积核大小为3x3，步距为1的卷积层，将特征图通道压缩至输入的1/8，随后经过三个双线性插值，每次上采样2倍，最终上采样至原图大小。

最后通过一个1x1卷积层，将特征图通道数调整为1，并使用sigmoid函数将特征图中的值调整至(0,1)。在概率图分支与阈值图分支之后，使用可微分二值化求得近似二值图。

其中P代表概率图，T代表阈值图，B为生成的近似二值图，k为缩放因子，设为50。

细节标签通过使用拉普拉斯卷积核的二维卷积与1x1卷积生成。真实标签经过不同步长的拉普拉斯卷积后，生成不同尺度的细节特征图，上采样至原图大小后，由1x1卷积层实现融合。

最后，设置阈值为0.1，将细节特征图转换为细节二值图作为细节标签。

S6：特征对齐金字塔模块最后阶段所得特征图上采样8倍，输入至分割模块，得到分割预测图，将分割预测图与真实标签计算损失后反向传播，更新网络，得到训练模型；

S6具体过程如下所述，特征对齐金字塔模块在经过细节优化模块的反向传播后，含有多尺度的细节信息，特征图大小为原图的1/8。将特征图上采样至原图大小后输入至分割模块，进一步融合特征。

分割模块由一个卷积核大小为3x3，步距为1的卷积层，一个批归一层，一个非线性激活层以及一个1x1卷积层组成。1x1卷积层将输出特征图通道数调整为类别数。最后将分割预测图与真实标签计算损失，损失函数采用交叉熵损失。

S7：将训练得到的模型转换为ONNX，进而转换为TensorRT和NCNN，便于部署在GPU以及边缘设备芯片端。

S7具体过程如下所述，ONNX为AI模型提供了一种通配格式，内部定义了一个可扩展的计算图模型，支持多种深度学习框架的相互操作，便于算法模型的部属。

TensorRT将训练好的模型进行优化，将网络模型进行解析，从深度学习框架映射至TensorRT的对应层中，并针对NVIDIA的GPU实施优化策略，实现部属加速。

NCNN是一个为边缘设备端极致优化的高性能神经网络前向计算框架，无第三方依赖，跨平台，可将算法模型移植至边缘设备中高效执行。

S8：将测试集图像输入至网络得到推理结果。

S8具体过程如下所述，将测试集中的图片直接输入至训练好的网络模型中，得到推理结果。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。