CN114996495A

CN114996495A - 一种基于多原型和迭代增强的单样本图像分割方法及装置

Info

Publication number: CN114996495A
Application number: CN202210551149.3A
Authority: CN
Inventors: 王鸿升; 卢湖川; 戚金清; 王一帆
Original assignee: Dalian Weishi Technology Co ltd; Dalian University of Technology
Current assignee: Dalian Weishi Technology Co ltd; Dalian University of Technology
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-09-02

Abstract

本发明提供一种基于多原型和迭代增强的单样本图像分割方法及装置。方法包括：分别获取支持图像和查询图像，基于同一特征提取网络获取支持特征和查询特征；基于支持特征的前景部分生成若干支持原型；计算任意支持原型与查询特征的余弦相似度生成相应的相似度图，将各支持原型根据引导表放置到对应位置，生成引导特征；同时，对所有相似度图进行累加操作生成指引查询前景位置的概率图；将所述查询特征、引导特征以及概率图连接后，进行基于多尺度增强，解码后生成查询分割图。本发明采用输出迭代来增强支持特征的指导信息，利用产生的分割图通过加法和乘法计算修正前面进行指导的概率图，使其重新进行更为准确的引导，生成更为精确的分割结果。

Description

一种基于多原型和迭代增强的单样本图像分割方法及装置

技术领域

本发明涉及计算机视觉及图像处理技术领域，具体而言，尤其涉及一种基于多原型和迭代增强的单样本图像分割方法及装置。

背景技术

图像语义分割是计算机视觉中一个棘手的经典问题，该领域的探索研究需要相当多带密集标注的训练数据集予以支撑，这些数据集的收集成本高昂、耗时长，而目前的方法很难以数据有效的方式推广到不可见的对象类别。

随着深度学习技术的快速发展，基于深度卷积神经网络的语义分割算法取得了显著性进展，使得深度卷积神经网络成为图像分割领域最主流的处理方法。深度卷积神经网络具有以下特点：(1)大量图像数据得使用和强大的计算资源；(2)图像中的卷积处理对特征提取具有权值共享的特性；(3)激活函数的使用增强了神经网络非线性表达能力；(4)有效的优化算法加速了网络收敛速度；(5)端到端的训练框架，简化了分割过程。不同于传统的图像分割方法，基于深度卷积神经网络的语义分割方法能够学习图像中丰富的高级语义特征，从而捕获到图像深层的抽象信息，并且能够自动地端到端训练，因此显著地提升了图像分割***的性能，使其成为场景解析中最主流的方法。大多数现有的语义分割方法是基于全卷积网络(FCN)，它用全卷积的层代替全连接层进行像素级预测。语义分割领域最新的研究成果主要来自多尺度特征聚合或注意机制。这些方法通常使用扩张的卷积核，并建立一个编码器-解码器结构，以获得一个大的感受野，同时保持有效的分辨率。

尽管这些方法取得了巨大的成功，但仍需要较长的训练时间和大量的像素级标记的真值来完全监督网络。此外，在推理阶段，训练后的模型无法识别出不存在训练集的新类。

小样本分割方法是从有限的数据中迅速学习新的概念，只需要几个带标签的样本就可以使***学会执行语义分割。该方法的输入输出都是像素级别的，能够将任何像素注释集合从图像内部或跨图像类别传播到未注释的像素。具体来说，小样本语义分割的目的是在不太多的注释支持图像的情况下对新类执行像素级分类。OSLSM首先介绍了这个设置，第一次提出了小样本分割方法，并使用参数比较来解决这个问题。后续有的方法指出使用原型来表示支持图像中存在的前景对象的典型信息，并通过余弦相似性把原型和查询特征之间的像素级特征比较进行预测。在随着人们的深入研究，有人提议可以使用卷积来代替复杂查询图像的余弦相似度。并且许多研究也试图充分挖掘支持特征，提出了一种图关注单元，它将支持图像中前景特征的每个位置视为一个个体，并在查询和支持特征之间建立像素到像素的对应关系。但是现有方法只注重于生成单一类型的原型特征，忽略了支持图像和查询图像之间由于尺度、形状差异产生的影响，造成细节丢失。除此之外，现有方法采用的一前向传播的多尺度特征增强方式，随着前向传播过程中语义信息的不断衰弱，导致概率图产生错误的引导。

单样本分割是小样本分割中的一种，即支持集里只使用一张图片，这更要求我们要充分挖掘支持图像中的所有信息。目前的单样本分割网络通常使用同一个网络从查询图像和支持图像中提取特征，然后用不同的特征匹配方法和支持图像到查询图像的目标掩码传递方法。特征匹配和掩码传递通常采用原型特征学习技术。原型学习技术将支持图像的掩码目标对象压缩为一个或几个原型特征向量。然后，在查询图像中寻找相似特征的像素位置来分割目标。原型学习的一个主要优点是原型特征比像素特征对噪声更有鲁棒性。但是现有方法并没有充分挖掘支持特征中的信息，不能充分应对不同前景尺度的支持和查询图像。同时随着指导查询图像前景位置的概率图语义信息的不断衰弱，可能会进行错误的引导。基于之前的经验，我们的目标就是设计一个模块可以更好的来提取支持特征的原型来进行特征匹配，同时设计一个模块补充概率图中丢失的语义信息，以完成对查询图像的分割。

发明内容

根据上述提出的现有方法并没有充分挖掘支持特征中的信息，不能充分应对不同前景尺度的支持和查询图像以及指导查询图像前景位置的概率图语义信息的不断衰弱导致错误引导的技术问题，本发明提供一种基于多原型和迭代增强的单样本图像分割方法及装置，采用多原型生成来充分获取支持特征的所有信息，采用输出迭代来增强概率图的指导信息，利用产生的分割图通过加法和乘法计算修正前面进行指导的概率图，使其重新进行更为准确的引导，生成更为精确的分割结果。

本发明采用的技术手段如下：

一种基于多原型和迭代增强的单样本图像分割方法，包括以下步骤：

分别获取支持图像和查询图像，所述支持图像和查询图像包含相同类别目标，将所述支持图像输入至特征提取网络，获取特征提取的中间层特征作为支持特征，将所述查询图像输入至同一特征提取网络，获取特征提取的中间层特征作为查询特征；

将所述支持特征与支持图像的真值相乘获取支持特征的前景部分，基于所述支持特征的前景部分生成若干支持原型，所述支持原型通过聚类原型和超像素原型聚合获取；

计算任意支持原型与查询特征的余弦相似度生成相应的相似度图，通过比较相同位置的每一张相似度图，保留相似度最高的相似度图的序号，最终得到一张引导表，将各支持原型根据引导表放置到对应位置，生成与查询特征匹配的引导特征；同时，对所有相似度图进行累加操作生成指引查询前景位置的概率图；

将所述查询特征、引导特征以及概率图连接后，进行基于多尺度方式的增强处理生成多尺度特征，将所述多尺度特征送入解码器处理后生成查询分割图，并基于所述查询分割图对概率图进行修正。

进一步地，基于所述支持特征的前景部分生成若干支持原型，包括：基于k-means聚类方法对支持特征的前景部分进行处理，将所述支持特征的前景部分分割成若干数据区域，其中数据区域的数量预先设定；对得到的每个数据区域进行掩码平均池化操作得到对应的聚类原型。

进一步地，基于所述支持特征的前景部分生成若干支持原型，还包括：基于超像素引导聚类方法对支持特征的前景部分进行处理，首先初始化随机质心，通过不断迭代确定超像素质心为超像素原型。

进一步地，将所述查询特征、引导特征以及概率图连接后，进行基于多尺度方式的增强处理，包括：通过空洞空间卷积池化金字塔或者金字塔池化模型提供多尺度输入信息进行特征增强。

进一步地，基于所述查询分割图对概率图进行修正，包括：

对所述查询分割图进行softMax操作，取出一通道的通道图；

对所述通道图首先进行一个最小-最大归一化操作，然后进行一个区间变换，变换到余弦计算对应的-1到1的区间，累加到概率图上；同时对概率图进行一个最小-最大归一化操作，变换到0到1区间上，然后将其与初始的通道图进行相乘，再进行-1到1的区间变换，再累加到原始概率图上。

本发明还公开了一种基于多原型和迭代增强的单样本图像分割装置，包括：

图像获取单元，其用于分别获取支持图像和查询图像，所述支持图像和查询图像包含相同类别目标，将所述支持图像输入至特征提取网络，获取特征提取的中间层特征作为支持特征，将所述查询图像输入至同一特征提取网络，获取特征提取的中间层特征作为查询特征；

支持原型获取单元，其用于将所述支持特征与支持图像的真值相乘获取支持特征的前景部分，基于所述支持特征的前景部分生成若干支持原型，所述支持原型通过聚类原型和超像素原型聚合获取；

引导特征以及概率图获取单元，其用于计算任意支持原型与查询特征的余弦相似度生成相应的相似度图，通过比较相同位置的每一张相似度图，保留相似度最高的相似度图的序号，最终得到一张引导表，将各支持原型根据引导表放置到对应位置，生成与查询特征匹配的引导特征；同时，对所有相似度图进行累加操作生成指引查询前景位置的概率图；

查询分割图获取单元，其用于将所述查询特征、引导特征以及概率图连接后，进行基于多尺度方式的增强处理生成多尺度特征，将所述多尺度特征送入解码器处理后生成查询分割图，并基于所述查询分割图对概率图进行修正。

较现有技术相比，本发明具有以下优点：

1、本发明采用两种不同方式的原型生成方法，充分地挖掘了单张支持图像特征中包含的所有信息，得到的原型更具代表性，可以互相补充、互相配合。

2、本发明采用迭代增强的方法，将输出的查询分割图回传到前面的概率图，对其进行修正，使其做出更为准确的指导，从而生成更为精确的查询结果图。而且使用的迭代增强不包含任何卷积操作，可以直接使用在推理阶段，而不需要重新训练，即可得到精确的结果。

基于上述理由本发明可在训练数据集获取较困难的安防、医疗等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于多原型和迭代增强的单样本图像分割方法流程图。

图2为本发明特征提取网络架构图。

图3为本发明原型生成部分的原理框图。

图4为本发明特征增强部分使用ASPP的原理框图。

图5为本发明特征增强部分使用PPM的原理框图。

图6为本发明迭代增强部分的原理框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

如图1所示，本发明提供了一种基于多原型和迭代增强的单样本图像分割方法，包括以下步骤：

S1、分别获取支持图像和查询图像，所述支持图像和查询图像包含相同类别目标，将所述支持图像输入至特征提取网络，获取特征提取的中间层特征作为支持特征，将所述查询图像输入至同一特征提取网络，获取特征提取的中间层特征作为查询特征。

具体来说，给定同一目标类的两张原始图像，一张作为支持集图像，一张作为查询集图像，将两张图像一起输入到一个共享的ResNet-50骨干网络，得到两张图像的中间层特征。

S2、将所述支持特征与支持图像的真值相乘获取支持特征的前景部分，基于所述支持特征的前景部分生成若干支持原型，所述支持原型通过聚类原型和超像素原型聚合获取。

具体来说，对支持特征应用k-means聚类，通过设定的聚类数量，将支持特征分割成一个个的数据区域，然后对得到的每一部分的区域通过掩码平均池化的方式得到相应部分的聚类原型，该聚类原型则代表本部分的特征信息。

由于将每部分特征池化成一个个原型后，可能会有很多信息被掩盖了，没有办法被表现出来。所以需要再使用另一种方式对支持特征重新划分，不同方式生成的原型可以对同一细节特征有不同的表达。这样可以最大程度上不损失支持特征的细节信息。

本发明优选重新对支持特征应用超像素引导聚类，超像素引导聚类是以超像素质心为原型，并且超像素引导聚类的方法有自适应性，可以根据支持图像前景的大小自适应的调整生成原型的个数，刚好与k-means聚类时无视图像大小生成固定原型数量不同，这样导致了两种方法生成的原型不是相同的。首先初始化随机质心，通过不断迭代几次，最后的质心为代表周围特征的原型，也即为我们要得到的超像素原型。

将得到的聚类原型与超像素原型聚合到一起，即为得到的所有包含支持特征的信息的原型，由于本申请仅针对单样本分割，支持图像只有一张，所以尽可能充分地代表支持特征这一步显得尤为重要。

S3、计算任意支持原型与查询特征的余弦相似度生成相应的相似度图，通过比较相同位置的每一张相似度图，保留相似度最高的相似度图的序号，最终得到一张引导表，将各支持原型根据引导表放置到对应位置，生成与查询特征匹配的引导特征；同时，对所有相似度图进行累加操作生成指引查询前景位置的概率图。

具体来说，将得到的所有支持原型，一个个的取出来，每一个都和查询特征进行余弦相似度计算，每一个都会生成一张相似度图，把每一张相似度图收集起来，通过比较相同位置的每一张相似度图，保留相似度最高的相似度图的序号，最终会得到一张引导表。这张表即指示查询特征的的每个像素与哪个支持原型最为相近。通过引导表，把支持原型放到对应的位置，即可得到与查询特征匹配的引导特征。与此同时，把得到的所有包含相似信息的相似度图进行累加操作，即可得到指引查询前景位置的概率图。

S4、将所述查询特征、引导特征以及概率图连接后，进行基于多尺度方式的增强处理生成多尺度特征，将所述多尺度特征送入解码器处理后生成查询分割图，并基于所述查询分割图对概率图进行修正。

具体来说，把查询特征、引导特征以及概率图连接起来进行特征增强处理。本发明优选使用多尺度的方式来进行特征增强，我们使用图像分割里广为使用的空洞空间卷积池化金字塔(ASPP)或者金字塔池化模型(PPM)提供多尺度输入信息，最后多尺度特征通过解码器生成初始的查询分割图。

概率图指示查询图像前景的位置，而生成的查询分割图也是指示查询图像前景的位置。需要说明的是，概率图是由中间层特征计算得到的，中间层特征的语义信息并不是非常丰富，很容易产生错误的指导，因此本申请通过将生成的查询分割图回传到概率图部分，通过数学运算修正概率图，使其重新做出更精准的指导，生成更准确的查询分割图。而且我们的迭代操作可以只应用在离线推理阶段即可得到更精准的分割结果。具体操作为：

将网络最后的生成的二值图进行一个softMax操作，取出得到的一通道的通道图，这张图即为查询图像对应位置的前景概率。对这张图进行两种方式的操作，首先进行一个最小-最大归一化操作，使其更加极致的只是对应部分的概率，然后进行一个区间变换，变换到余弦计算对应的-1到1的区间，累加到概率图上。对于第二种方式，先将概率图进行一个最小-最大归一化操作，变换到0到1区间上，然后将其与初始的通道图进行相乘，再进行-1到1的区间变换，再累加到原始概率图上，通过“加法”和“乘法”两种方式用生成的分割图对概率图修正，使其重新做出更为准确的指导，以至于最后可以生成更为精确的查询分割图。

本发明根据对支持和查询图像观测结果而提出的，不同支持和查询图像前景的尺度具有很大的差异，有的支持图像前景很小，待分割的查询图像前景很大，而有的支持图像前景很大，待分割的查询图像前景很小。本发明方法与其他方法不同之处在于，一方面，我们的方法充分地表示了支持图像的特征，可以适应任何尺度前景的支持图像与查询图像；另一方面，我们的方法通过迭代增强修复指示查询前景位置的概率图，使其产生更为准确地指导。

下面通过具体的应用实例对本发明的方案和效果做进一步说明。

如图1所示为本发明方法的执行流程框图，对给定支持图像和查询图像，首先将它们送入编码器，编码器我们选用的是骨干网络ResNet-50的扩展版本，图2为ResNet-50的结构框图，通过编码器后，我们取出第三层和第四层的特征聚合在一起。需要说明的是，本实施例使用的是中间层的特征，高级特征包含太多的语义信息，在训练阶段很容易记住训练的类，这对于单样本分割任务里推理阶段在新类上进行是非常不利的，为了最大程度减轻过拟合的影响，使用的是中间的三、四层特征，聚合到一起的通道数为1536，然后我们通过一个1×1卷积进行降维，使得通道数变成256，也即得到的支持特征和查询特征的通道数都为256。

对得到的支持特征和支持真值进行到如图3所示的原型生成操作，本发明使用了两种方式产生原型。本实施例优选设定k-means聚类的聚类数目为5，即使用k-means聚类方式可以生成5个原型。设定超像素聚类的最大超像素质心数量为5，即使用超像素聚类方式可以生成1～5个超像素原型。收集起所有的支持原型，与查询特征进行余弦相似度计算可以得到6～10张在-1到1区间的包含相似信息的相似度图，通过比较相似度图，将最相似的支持原型与查询特征相匹配，同时，我们把所有的相似度图累加起来得到概率图，概率图是所有相似信息的总和，可以指示查询前景的位置。

然后对查询特征、匹配特征以及概率图进行特征增强操作，本实施例中使用的是图4所示的空洞空间卷积池化金字塔架构(ASPP)或者图5所示的金字塔池化架构(PPM)。ASPP是在deeplab中提出来的，一个重要的方法是使用了空洞卷积。在图像分割任务中，既想要对图片提取的特征具有较大的感受野，并且又想让特征图的分辨率不要下降太多(分辨率损失太多会丢失许多关于图像边界的细节信息)，但关键问题是这两个是矛盾的，想要获取较大感受野需要用较大的卷积核或池化时采用较大的步长，对于前者来说计算量太大，而后者又会损失一些分辨率。而空洞卷积就是用来解决这个矛盾的。即可让其获得较大感受野，又可让分辨率不损失太多。空洞卷积的好处是不做pooling损失信息的情况下，加大了感受野，让每个卷积输出都包含较大范围的信息。

进行分割任务时，图像存在多尺度问题，有的大有的小。一种常见的处理方法是图像金字塔，即将原图重置到不同尺度，输入到相同的网络，获得不同的特征图，然后做融合，这种方法的确可以提升准确率，然而带来的另外一个问题就是速度太慢。DeepLab v2为了解决这一问题，引入了ASPP模块，即是将特征图通过并联的采用不同膨胀速率的空洞卷积层用于捕获多尺度信息，并将输出结果融合得到图像的分割结果。

金字塔池化模型PPM是语义分割网络PSPNet中提出的一个模块。一般来说网络越深感受野则越大，但是在理论上的感受野和实际网络中的感受野还是有差距的(实际的感受野小于理论的感受野)，这使得网络无法有效的融合全局特征信息。全局平均池化能够有效的融合全局上下文信息，但是其对信息的融合和提取能力有限，而且简单的使用全局平均池化将信息压缩为一个通道很容易损失很多有用的信息，因此将不同感受野的特征和子区域的特征融合可以增强特征表征能力。PPM模块可以从前面网络中提取出的特征图在此处分成两个分支，一个分支分为多个子区域进行全局平均池化，接着用1×1的卷积调整通道大小，再通过双线性插值获得未池化前的大小，最后将两个分支融合。

将生成的多尺度特征经过一个简单的解码器后生成最后两通道的初始查询分割图。通过观察到分割图与概率图都是指示查询图像前景的位置，基于图6所示的迭代增强处理将分割图回传到概率图，通过一些计算操作，让概率图做出更为正确的指导。由于分割图和概率图尺度是相同的，所以我们不需要进行任何的尺度变换操作，归一化是用的都是最小-最大归一化，归一化后的区间在0到1之间。为了与前面余弦相似计算得到的-1到1之间区间的相似度图对应，我们要进行一个区间变换使得区间保持一致性。通过简单的加法和乘法操作即可修正概率图，重新指导产生新的分割图，由于这里没有用到任何卷积，所以可以只应用到推理阶段即可产生很好地效果，而不会有任何的速度损失。经过几次迭代，就能够得到准确率高的分割图。

网络训练过程中使用的是PASCAL-5i的数据集。PASCAL-5i是由PASCAL VOC 2012和来自SDS数据集的扩展注释组成。20个类平均分为4份，每份包含5个类。在PASCAL-5i上训练200个时期，学习率为0.0025，批次大小为4。使用SGD作为优化程序。最小动量和权重衰减分别设置为0.9和0.0001。采用“poly”策略来对学习率进行衰减。骨干网络ResNet-50使用ImageNet预训练的权重进行初始化。在训练过程中，通过镜面操作和从-10度到10度的随机旋转来处理样本。最后，我们从处理后的图像中随机裁剪473×473像素作为训练样本。在推理过程中，将每个输入样本的大小调整为训练块大小，但相对于其原始纵横比，填充零，然后将预测的大小调整回原始标签大小。

对于本发明实施例的而言，由于其与上面实施例中的相对应，所以描述的比较简单，相关相似之处请参见上面实施例中部分的说明即可，此处不再详述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于多原型和迭代增强的单样本图像分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多原型和迭代增强的单样本图像分割方法，其特征在于，基于所述支持特征的前景部分生成若干支持原型，包括：基于k-means聚类方法对支持特征的前景部分进行处理，将所述支持特征的前景部分分割成若干数据区域，其中数据区域的数量预先设定；对得到的每个数据区域进行掩码平均池化操作得到对应的聚类原型。

3.根据权利要求2所述的一种基于多原型和迭代增强的单样本图像分割方法，其特征在于，基于所述支持特征的前景部分生成若干支持原型，还包括：基于超像素引导聚类方法对支持特征的前景部分进行处理，首先初始化随机质心，通过不断迭代确定超像素质心为超像素原型。

4.根据权利要求1所述的一种基于多原型和迭代增强的单样本图像分割方法，其特征在于，将所述查询特征、引导特征以及概率图连接后，进行基于多尺度方式的增强处理，包括：通过空洞空间卷积池化金字塔或者金字塔池化模型提供多尺度输入信息进行特征增强。

5.根据权利要求1所述的一种基于多原型和迭代增强的单样本图像分割方法，其特征在于，基于所述查询分割图对概率图进行修正，包括：

对所述查询分割图进行softMax操作，取出一通道的通道图；

6.一种基于多原型和迭代增强的单样本图像分割装置，其特征在于，包括：