CN110675405B

CN110675405B - 基于注意力机制的one-shot图像分割方法

Info

Publication number: CN110675405B
Application number: CN201910867163.2A
Authority: CN
Inventors: 孟凡满; 鲍俊玲; 黄开旭; 李宏亮; 吴庆波
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2022-06-03
Anticipated expiration: 2039-09-12
Also published as: CN110675405A

Abstract

本发明提供一种基于注意力机制的one‑shot图像分割方法。在单个特征和简单的双分支融合不足以使查询分支从支持分支中提取有用信息的情况下。本发明为了支持分支关注于两个分支共性的区域，以便准确地引导查询分支分割图像，将多级上下文特征和注意模块引入到one‑shot图像分割中找到更准确有效的指导方法。本发明能更好地利用现有的知识迅速对新类图像进行分割，利用多级指导和注意力机制来强化学习两个分支的共性，进而准确地指导未知图像的分割。

Description

基于注意力机制的one-shot图像分割方法

技术领域

本发明涉及图像分割技术，特别涉及one-shot图像分割技术。

技术背景

图像分割是图像分析和理解的关键步骤，旨在对图像中每个像素进行分类。此外，图像分割技术在辅助驾驶、医学影像分析、目标识别、图像理解等领域有着广泛的应用。因此，研究图像分割方法对计算机视觉的发展具有深刻的意义。

近年来，图像分割、目标检测和图像分类的快速发展离不开深度神经网络，但其性能的显著提升严重依赖于耗时耗力的人工标注。然而，通过利用大量手工标注来训练分割模型很难适应实际应用的需求。此外，将已经训练好的分割模型直接分割未知类别的图像是很困难的。于是，few-shot分割方法被提出来，该方法旨在通过利用未知类别极少量标注图像的有效指导，分割该类别的其他图像。

Few-shot图像分割方法自2017年提出至今，所提出的方法基本上都是两分支的网络结构，其中一个分支(支持分支)采用标注的图像(支持图像)，另一个分支(查询分支)分割未知图像(查询图像)。支持分支试图学习一种指导方式来指导查询分支分割两分支图像相同的目标类。现有的指导方法大概可以分成两种，一种是利用支持分支的特征，将支持分支的特征和查询分支的特征合并或相加，作为查询分支的特征；另一种是利用支持分支学习一组网络参数用于查询分支。Few-shot图像分割通常有one-shot和five-shot两种。one-shot是指支持分支利用一张带标注的图像指导查询分支，five-shot是指支持分支利用五张带标注的图像指导查询分支。

因此，对于few-shot图像分割，最重要的是找到一种准确有效的指导方法。然而，从极少量的标注图像中寻求一种准确的指导很难，已经存在的few-shot分割方法存在一些缺点：1)简单的合并和相加运算不足以有效地指导未知图像以获得准确的分割结果。2)上述大多数方法只考虑单个输出(通常是已知图像网络最后一层的特征或某一层的参数)进行引导，该指导没有更多地关注上下文特征。

发明内容

本发明所要解决的技术问题是，提供一种新的one-shot分割方法，在继续沿用两分支的网络结构的基础上，利用多级指导和注意力机制，充分利用支持图像所提供的信息且重点关注两分支共性的区域。

本发明为解决上述技术问题所采用的技术方案是，针对目前利用最后一层特征来监督指导没有充分利用标注图像所提供的信息，本发明利用多级特征进行指导；为了使得指导更多的关注于两分支共性的区域，将注意力机制引入。基于注意力机制的one-shot图像分割方法，包括以下步骤：

1)构建基于注意力机制的两分支one-shot图像分割网络：

支持分支由N层特征提取块串联而成；

查询分支包括N层特征提取块以及M个注意力模块，M小于N；第1层特征提取块输出至第2层特征提取块，第2层至第N层特征提取块中不需要进行注意力指导的特征提取块直接输出至下一层特征提取块，需要进行注意力指导的特征提取块的输出至对应的注意力模块；第1至第M-1个注意力模块的两个输入分别来自于查询分支中对应需要进行注意力指导的特征提取块的输出以及支持分支中同层特征提取块的输出；第1至第M-1个注意力模块分别输出至对应需要进行注意力指导的特征提取块的下一层特征提取块；支持分支最后一层特征提取块与查询分支最后一层特征提取块均输出至第M个注意力模块；

第M个注意力模块输出至反卷积模块；

2)构建训练集；

3)使用训练集数据训练所述基于注意力机制的两分支one-shot图像分割网络；

4)将测试集图像输入训练完成的基于注意力机制的两分支one-shot图像分割网络。

在单个特征和简单的双分支融合不足以使查询分支从支持分支中提取有用信息的情况下。对于one-shot图像分割，需要支持分支关注于两个分支共性的区域，以便准确地引导查询分支分割图像。所以，考虑将多级上下文特征和注意模块引入到one-shot图像分割中找到更准确有效的指导方法。

进一步的，为了更好的运用注意力机制，我们提出了两种不同的注意力模块，分别针对高低层次的特征。因为，我们发现网络中低层次的特征主要是纹理颜色等特征，它们对空间位置比较敏感，而网络中高层次的特征主要包含更多的语义性，它们对特征的通道比较敏感，比如某个通道可能和猫鼻子有关，另一个通道可能和猫耳朵有关。因此，针对不同层次特征设计不同的注意力模块应该更能捕捉需要关注的区域。

具体的，基于空间位置的注意力模块进行注意力指导的方法为：将支持分支中需要进行注意力指导的特征提取块输出的特征f1经过1×1的卷积后，再经过sigmoid函数正则化得到特征谱gate，sigmoid函数使得特征谱gate与查询分支的同层特征提取块输出的特征f2的大小相同，再将特征谱gate与特征f2相乘，将相乘结构输出至下一层特征提取块。

基于通道的注意力模块进行注意力指导的方法为：将支持分支中需要进行注意力指导的特征提取块输出的特征f1进行全局平均池化，再经过两个全连接层，其中第一全连接层后加激活函数relu，第二个全连接层的输出经过sigmoid函数正则化得到一个1*1×c的向量，将该向量与查询分支的同层特征提取块输出的特征f2相乘，将相乘结构输出至下一层特征提取块；c为查询分支特征通道数。

本发明的有益效果是，能更好地利用现有的知识迅速对新类图像进行分割。利用多级指导和注意力机制来强化学习两个分支的共性，进而准确地指导未知图像的分割。

附图说明

图1是实施例one-shot分割网络框架示意图；

图2是实施例所用数据集中选取几张图像的分割结果展示；

图3是基于空间位置的注意力模块示意图；

图4是基于通道的注意力模块示意图。

具体实施方式

1)构建one-shot图像分割网络，如图1所示：

构建两分支one-shot图像分割网络，提取深度特征的网络采用resnet-50，之后采用反卷积将提取到的深度特征生成和输入图像同样大小的分割结果。

支持分支由5层特征提取块串联而成，即5个block，Res-1、Res-2、Res-3、Res-4、Res-5。

查询分支包括5层特征提取块以及4个注意力模块；第1层特征提取块Res-1输出至第2层特征提取块Res-2，需要进行注意力指导的特征提取块包括Res-2、Res-3、Res-4、Res-5；4个注意力模块中有2个是基于空间位置的注意力模块G，2个是基于通道的注意力模块SE；第1个注意力模块G两个输入分别来自于查询分支中特征提取块Res-2的输出以及支持分支中特征提取块Res-2的输出，第1个注意力模块G输出至查询分支中特征提取块Res-3；第2个注意力模块G两个输入分别来自于查询分支中特征提取块Res-3的输出以及支持分支中特征提取块Res-3的输出，第2个注意力模块G输出至查询分支中特征提取块Res-4；第3个注意力模块SE两个输入分别来自于查询分支中特征提取块Res-4的输出以及支持分支中特征提取块Res-4的输出，第3个注意力模块SE输出至查询分支中特征提取块Res-5；第4个注意力模块SE两个输入分别来自于查询分支中特征提取块Res-5的输出以及支持分支中特征提取块Res-5的输出，第4个注意力模块SE输出至反卷积模块Dcnov。

需要注意的是，支持分支输入为支持图像及其像素级标签。因此，我们将支持分支resnet-50第一个block得到的特征与像素级标签相乘得到支持分支的前景特征。得到两分支各自的深度特征之后，采用反卷积将提取到的深度特征生成和输入图像同样大小的分割结果。resnet-50的初始参数为在ImgNet1000类图像上预训练参数。

冻结resnet-50前三个block的网络参数。这样做不仅能够降低网络的参数，而且能够充分利用预训练模型提取更准确的深度特征，且实验验证冻结三个block参数效果最好。

2)设计注意力模块

本发明设计了两种注意力模块，一种是基于空间位置的注意力模块，另一种是基于通道的注意力模块。

2-1)设计基于空间位置的注意力模块，如图3所示：

该模块的输入是两个网络分支低层次的特征也就是resnet-50网络第二个block(Res-2)和第三个block(Res-3)输出的特征，输出是经过注意力谱指导的查询分支特征。

注意力指导：将支持分支特征f1经过1×1的卷积后，后经过sigmoid函数正则化得到一张gate谱，大小和查询分支的特征f2相同，将gate谱(图3中sigmoid层后的正方形)与查询分支的特征f2相乘，即对f2上每个位置的特征进行了加权，使得值得关注的地方得到凸显。

2-2)设计基于通道的注意力模块，如图4所示：

该模块的输入是两个网络分支高层次的特征也就是resnet-50网络第四个block(Res-4)和第五个block(Res-5)输出的特征，输出是经过注意力指导的查询分支特征。

注意力指导：将支持分支特征f1先经过全局平均池化，后经过两个全连接层，其中第一个全连接后加激活函数relu，最后经过sigmoid函数正则化得到一个1×1×c(c为查询分支特征通道数)的向量，将该向量与查询分支的特征f2相乘，即对查询分支特征f2上每个特征通道进行了加权，使得值得关注的通道得到加强。

3)设计分割网络的损失函数

利用交叉熵损失函数衡量查询分支分割结果与其像素级标签之间的差异，作为网络的约束。

其中，x表示查询分支图像的像素点，

表示查询分支图像的像素级标签，y表示查询分支图像的分割结果。

下面以one-shot分割网络为例来描述训练与测试过程：

步骤1.准备网络输入数据

1.1本实施例采用PASCAL VOC 2012数据集，该数据集包含20个类别，具体训练和测试阶段所用的类别如下表所示。

1.2训练阶段两分支的输入图像成对(两张图像属于同一个类别)随机选取，但该对图像选取后不再利用，直到所有图像选取完为止。测试阶段设置了一个随机种子，根据随机种子，每个数据子集(Fold1-Fold3)选取固定的1000对图像(支持图像和查询图像)进行测试。

1.3在输入网络之前，我们将所有的图像大小归一化为320*320，支持分支输入为支持图像及其对应的像素集标签，查询分支输入仅为查询图像。

这样做的原因是训练15个类别当做学习现有的事物，测试的5个类别检验所学的模型是否能在现有的知识的基础上迅速处理新的事物。

此外为了保证仅利用极少量的标注图像就能将所学模型泛化到新的类别上，训练阶段要模仿测试阶段。例如，one-shot图像分割是指利用新类的一张图像指导该类别其他图像的分割。因此对于one-shot图像分割，不管是训练阶段还是测试阶段支持分支输入图像为一张有标注的图像。对于训练阶段查询分支输入的图像有标注，该标注用于约束分割结果，而测试阶段的查询分支输入图像无任何标注，该分支用于分割图像得到分割结果。

步骤2.训练分割网络，得到分割结果

2.1将四个数据子集中的训练集分别训练one-shot分割网络，得到四个子集的分割模型。

2.2将四个数据子集中的测试集图像用所得到的四个模型分别测试对应子集的测试级图像，得到所有测试图像的分割结果。

图2是分割结果的事例：第一行为支持分支的输入图像，第二行为查询分支的输入图像，第三行为查询分支图像人工标注的像素级标签，第四行为我们网络对查询分支的分割结果。可以看出与第三行的像素级标签相比，我们分割得到的结果准确。

Claims

1.基于注意力机制的one-shot图像分割方法，其特征在于，包括以下步骤：

1)构建基于注意力机制的两分支one-shot图像分割网络：

支持分支由N层特征提取块串联而成；

查询分支包括N层特征提取块以及M个注意力模块，M小于N；第1层特征提取块输出至第2层特征提取块，第2层至第N层特征提取块中不需要进行注意力指导的特征提取块直接输出至下一层特征提取块，需要进行注意力指导的特征提取块输出至对应的注意力模块；第1至第M-1个注意力模块的两个输入分别来自于查询分支中对应需要进行注意力指导的特征提取块的输出以及支持分支中同层特征提取块的输出；第1至第M-1个注意力模块分别输出至对应需要进行注意力指导的特征提取块的下一层特征提取块；支持分支最后一层特征提取块与查询分支最后一层特征提取块均输出至第M个注意力模块；

第M个注意力模块输出至反卷积模块；

2)构建训练集；

2.如权利要求1所述方法，其特征在于，M个注意力模块中，对应低层次需要进行注意力指导的特征提取块的注意力模块具体为基于空间位置的注意力模块；对应高层次需要进行注意力指导的特征提取块的注意力模块具体为基于通道的注意力模块。

3.如权利要求2所述方法，其特征在于，所述低层次需要进行注意力指导的特征提取块为查询分支中前S层的特征提取块，S小于N。

4.如权利要求2所述方法，其特征在于，基于空间位置的注意力模块进行注意力指导的方法为：将支持分支中需要进行注意力指导的特征提取块输出的特征f1经过1×1的卷积后，再经过sigmoid函数正则化得到特征谱gate，sigmoid函数使得特征谱gate与查询分支的同层特征提取块输出的特征f2的大小相同，再将特征谱gate与特征f2相乘，将相乘结构输出至下一层特征提取块。

5.如权利要求2所述方法，其特征在于，基于通道的注意力模块进行注意力指导的方法为：将支持分支中需要进行注意力指导的特征提取块输出的特征f1进行全局平均池化，再经过两个全连接层，其中第一全连接层后加激活函数relu，第二个全连接层的输出经过sigmoid函数正则化得到一个1× 1×c的向量，将该向量与查询分支的同层特征提取块输出的特征f2相乘，将相乘结构输出至下一层特征提取块；c为查询分支特征通道数。

6.如权利要求1所述方法，其特征在于，支持分支由N层特征提取块与查询分支包括N层特征提取块均采用resnet-50，N＝5。

7.如权利要求6所述方法，其特征在于，resnet-50结构的支持分支与查询分支中前3层特征提取块的参数保持初始值不变。

8.如权利要求6所述方法，其特征在于，基于注意力机制的两分支one-shot图像分割网的损失函数为交叉熵损失函数。