CN113095330A

CN113095330A - 一种用于语义分割像素组的压缩注意力模型

Info

Publication number: CN113095330A
Application number: CN202110482353.XA
Authority: CN
Inventors: 叶松发; 齐向明; 王晓龙; 刘强; 严萍萍; 李健林
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-07-09

Abstract

本发明公开了一种用于语义分割像素组的压缩注意力模型，该模型利用有效的压缩注意力(SA)模块来解决语义分割中像素组的两个独特特征：(1)像素组注意力和(2)逐像素预测。具体而言，提出的SA模型通过引入“注意力”卷积通道将像素组注意力强加于常规卷积上，从而以有效的方式考虑了空间通道的相互依赖性。与现有的注意力模型不同，使用通过池化层实现的下采样通道来聚合多尺度特征并同时生成的压缩全局注意力模型(SA)。因此，SA模型增强了像素级密集预测的目标，并考虑了被忽略的像素组注意力的问题。本发明相较于其他方法都有显著提高，在PASCAL数据集上的测试结果表明新方法的PAcc和mIoU高于FCN50、FCN101等经典方法。

Description

一种用于语义分割像素组的压缩注意力模型

技术领域

本发明属于语义分割的技术领域，尤其涉及一种用于语义分割像素组的压缩注意力模型。

背景技术

卷积网络(FCN)是从抽象的特征中恢复出每个像素所属的类别。即从图像级别的分类进一步延伸到像素级别的分类。采用反卷积层对最后一个卷积层的feature map进行上采样，使它恢复到输入图像相同的尺寸，从而可以对每个像素都产生了一个预测，同时保留了原始输入图像中的空间信息，最后在上采样的特征图上进行逐像素分类。但主要主要集中于从像素级别提高分割性能，但很大程度上忽略了像素分组的隐式任务。

多尺度空间非对称重新校准(MS-SAR)，证明了不完全压缩的模块对于图像分类是有效的，且边际计算成本较高。由于空间非对称重新校准(SAR)模块生成的权重是矢量，因此它们不能直接用于分割。

发明内容

为了克服现有技术中的不足，本发明所解决的技术问题在于提供一种用于语义分割像素组的压缩注意力模型，解决在于考虑被忽略的像素组注意力的问题。

为了解决上述技术问题，本发明通过以下技术方案来实现：本发明提供一种用于语义分割像素组的压缩注意力模型，通过考虑本地和全局方面的重新加权机制来学习语义分割任务的更多代表性功能；

首先以残差网络作为基础的残差块；

通过重新校准特征图通道；

采用重新加权机制对通道进行加权，并且对未完全压缩的空间信息进行解析。

优选的，对未完全压缩的空间信息进行解析表示如下：

x_out＝x_attn*x_res+x_attn

和Up(·)用于扩展关注通道输出的上采样函数；

其中

表示注意力卷积通道F_attn(·)的输出，该输出由θ_attn和注意力卷积层的结构ψ_attn进行参数化；平均池化层APool(·)用于执行未完全压缩的操作，然后对注意力通道

的输出进行上采样，以匹配主卷积通道x_res的输出。

进一步的，使用通过池化层实现的下采样通道来聚合多尺度特征并同时生成的压缩全局注意力模型。

由上，本发明针对于语义分割像素组的问题，提出了一种新颖的压缩注意力模型，可以处理单个像素的多尺度密集预测，又可以处理像素组的空间注意，具有以下优点：

1、增强了像素级密集预测。

2、解决了大部分被忽略的像素组注意问题。

3、达到更好的语义分割效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下结合优选实施例，并配合附图，详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍。

图1为本发明的用于语义分割像素组的压缩注意力模型的结构图。

具体实施方式

下面结合附图详细说明本发明的具体实施方式，其作为本说明书的一部分，通过实施例来说明本发明的原理，本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中，不同的图中相同或相似的部件使用相同的附图标号来表示。

如图1所示，本发明的用于语义分割像素组的压缩注意力模型包括：

以通过考虑本地和全局方面的重新加权机制来学习语义分割任务的更多代表性功能。

SA模型首先以残差网络(ResNets)作为基础的残差块，传统的残基表示如(1)：

F(·)表示残差函数，用θ，

表示卷积层结构，x_out∈R^C×H×W和x_in∈R^{C′×H′×W′}是特征图的输出与输入。

SA模块通过重新校准特征图通道，得到表达式如(2)：

其中w为校准权重。

SA采用重新加权机制对通道进行加权，并且对未完全压缩的空间信息进行解析。提出一个简单的压缩注意模型如图1所示，可以将其表达如(3)、(4)：

x_out＝x_attn*x_res+x_attn (3)

和Up(·)是用于扩展关注通道输出的上采样函数。

其中

表示注意力卷积通道F_attn(·)的输出，该输出由θ_attn和注意力卷积层的结构ψ_attn进行参数化。平均池化层APool(·)用于执行未完全压缩的操作，然后对注意力通道

的输出进行上采样，以匹配主卷积通道x_res的输出。

这样，SA模型保留了的为压缩的空间信息，同时注意力通道的上采样输出x在主要通道上收集了非局部提取的特征。

本发明实验选在处理器i7-8700k、8GB内存、2个GPU、NVIDIA GeForce GTX1080Ti8GB显卡、windows操作***上，通过PyTorch深度学习框架实现。

数据集方面：Pascal数据集包含59个类别，共10103张图片。其中4998张为训练集，2505张为验证集，2600张为测试集。从该数据集的实验中可以得到具体定量分析的结果。其中PAcc为像素级精度，mIoU为图像像素每个类累加后的平均值。

表1在Pascal数据集上定量分析对比FCN50、FCN101和SA

从上表可见，在PASCAL数据集上的测试结果表明新方法的PAcc和mIoU高于FCN50、FCN101等经典方法。SA模型增强了像素级密集预测的目标，并解决了被忽略的像素组注意力的问题。

本发明的模型利用有效的压缩注意力(SA)模块来解决语义分割中像素组的两个独特特征：(1)像素组注意力和(2)逐像素预测。具体而言，提出的SA模型通过引入“注意力”卷积通道将像素组注意力强加于常规卷积上，从而以有效的方式考虑了空间通道的相互依赖性。与现有的注意力模型不同，使用通过池化层实现的下采样通道来聚合多尺度特征并同时生成的压缩全局注意力模型(SA)。因此，SA模型增强了像素级密集预测的目标，并考虑了被忽略的像素组注意力的问题。本发明相较于其他方法都有显著提高，在PASCAL数据集上的测试结果表明新方法的PAcc和mIoU高于FCN50、FCN101等经典方法。

以上所述是本发明的优选实施方式而已，当然不能以此来限定本发明之权利范围，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和变动，这些改进和变动也视为本发明的保护范围。

Claims

1.一种用于语义分割像素组的压缩注意力模型，其特征在于，通过考虑本地和全局方面的重新加权机制来学习语义分割任务的更多代表性功能；

首先以残差网络作为基础的残差块；

通过重新校准特征图通道；

2.如权利要求1所述的用于语义分割像素组的压缩注意力模型，其特征在于，对未完全压缩的空间信息进行解析表示如下：

x_out＝x_attn*x_reS+x_attn

和Up(·)用于扩展关注通道输出的上采样函数；

其中

的输出进行上采样，以匹配主卷积通道x_res的输出。

3.如权利要求2所述的用于语义分割像素组的压缩注意力模型，其特征在于，使用通过池化层实现的下采样通道来聚合多尺度特征并同时生成的压缩全局注意力模型。