CN111275076A

CN111275076A - 基于特征选择和特征融合的图像显著性检测方法

Info

Publication number: CN111275076A
Application number: CN202010030505.8A
Authority: CN
Inventors: 袁夏; 居思刚; 赵春霞
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2020-06-12
Anticipated expiration: 2040-01-13
Also published as: CN111275076B

Abstract

本发明公开了一种基于特征选择和特征融合的图像显著性检测方法，包括以下步骤：对输入图像进行特征提取，并将特征添加至特征金字塔集合中；对特征金字塔集合进行特征选择，获得新的特征金字塔集合；以自底向上的方式，对新的特征金字塔集合中的特征进行特征融合，获得混合特征金字塔集合；利用混合特征金字塔集合中的特征对显著性预测网络模型进行训练，利用训练后的模型对待检测图像进行显著性检测。本发明采用注意力模型对图像的特征进行特征选择，增强了与图像目标相关的特征，使得特征更加有效，并采用自底向上的特征融合结构，将底层的细节特征和高层的语义特征进行了有效融合，大大提升了特征的表征能力，比一般显著性模型网络的检测准确率高。

Description

基于特征选择和特征融合的图像显著性检测方法

技术领域

本发明属于图像显著性检测领域，特别涉及一种基于特征选择和特征融合的图像显著性检测方法。

背景技术

图像显著性就是图像中引起注意的对象或者物体，在图像或者视频中显著性检测的结果往往是图像或者视频中的对象，在神经学科中显著性检测被描述为注意力机制，目的是聚焦或者缩小看到的对象场景的重要部分，显著性检测可以自动处理图像中的对象表示。显著性检测可以提高对象检测、图像分割等算法的高效性。

目前最有效的显著性检测方法是基于全卷积神经网络实现的。全卷积神经网络将多个卷积层和池化层叠加起来，逐步增加感受野，生成高级语义信息，在显著性检测中起着至关重要的作用，然而池化层缩小了特征映射的大小，并恶化了突出对象的边界。有些网络用手工设计特征来保护突出物体的边界，提取手工特征来计算超像素的显著值，通过手工艺特征将图像划分为区域。在生成显著性图时，手工艺特征和卷积神经网络高级特征是互补的，但这些方法都是分开提取特征，难以有效地融合单独提取的互补特征。此外，手工工艺特征提取过程非常耗时。

除了手工工艺特征外，一些研究还发现网络不同层的特征也是互补的，并集成了用于显著性检测的多尺度特征。更具体地，深层的特征通常包含全局上下文感知信息，其适合于正确地定位显著区域。浅层的特征包含空间结构细节，适合于定位边界。这些方法融合了不同的尺度特征但没有考虑它们对显著性的不同贡献，这使得显著性检测结果不佳。为了克服这些问题，现有技术提出将关注模型和门函数引入显著性检测网络，但是，该种方法忽略了高级和低级特征的不同特征，可能会影响有效特征的提取，进而降低显著性检测的精度。

发明内容

本发明的目的在于提供一种基于特征选择和特征融合的图像显著性检测方法，能较好的对图像进行特征表征和显著性预测。

实现本发明目的的技术解决方案为：一种基于特征选择和特征融合的图像显著性检测方法，所述方法包括以下步骤：

步骤1，对输入图像进行特征提取，并将所有特征添加至特征金字塔集合中；

步骤2，对所述特征金字塔集合进行特征选择，获得新的特征金字塔集合；

步骤3，以自底向上的方式，对所述新的特征金字塔集合中的特征进行特征融合，获得混合特征金字塔集合；

步骤4，利用所述混合特征金字塔集合中的特征对显著性预测网络模型进行训练，利用训练后的显著性预测网络模型对待检测图像进行显著性检测。

进一步地，步骤1中所述对输入图像进行特征提取，具体采用卷积神经网络ResNext对输入图像进行特征提取，具体过程包括：

假设卷积神经网络ResNext包括的五部分卷积块分别为conv₁、conv₂、conv₃、conv₄、conv₅；

步骤1-1，输入图像依次进入所述五部分卷积块，进行前向迭代，迭代公式为：

f_i+1＝conv_j(f_i,W_j),j∈[1,5],i∈[-1,3]

式中，i＝-1时，f_-1为待检测图像，i分别为-1，0，1，2，3时，f_i+1分别表示卷积块conv₁、conv₂、conv₃、conv₄、conv₅的输出结果，W_j为卷积块conv_j的参数；

步骤1-2，将每一部分卷积块输出的特征图添加至输出集合形成特征金字塔集合{f₀,f₁,f₂,f₃,f₄}。

进一步地，步骤2中对所述特征金字塔集合进行特征选择，具体采用空间注意力和通道注意力机制进行特征选择，具体过程包括：

步骤2-1，利用空间注意力对特征金字塔集合中的底层特征图f₀进行特征选择，获得新的底层特征图

步骤2-2，利用通道注意力对特征金字塔集合中的中层特征图f₂进行特征选择，获得新的中层特征图

由上获得新的特征金字塔集合

进一步地，步骤2-1所述利用空间注意力对特征金字塔集合中的底层特征图f₀进行特征选择，获得新的底层特征图

具体包括：

定义底层特征图f₀为

w、h、c分别表示特征图的宽、高和通道数；构建空间注意力模块，该模块包括两个子卷积块，分别记为conv₁₁、conv₂₂；

步骤2-1-1，将f^l依次放入conv₁₁、conv₂₂子卷积块，分别输出特征图C₁、C₂：

C₁＝conv₁₁(f^l,W₁₁)

C₂＝conv₂₂(f^l,W₂₂)

式中，W₁₁、W₂₂分别为conv₁₁、conv₂₂子卷积块的参数；

步骤2-1-2，对conv₁₁、conv₂₂子卷积块的输出结果C₁、C₂进行逐元素相加，并利用sigmoid函数将相加的结果值映射到[0，1]，获得空间注意力的权重SA，具体公式为：

SA＝σ(C₁+C₂)

式中，σ表示sigmoid函数；

步骤2-1-3，利用所述空间注意力的权重SA对底层特征图f₀进行特征选择获得新的底层特征图

或

所用公式为：

进一步地，所述子卷积块conv₁₁、conv₂₂均包括两个卷积层，其中一层的卷积核数量为32，卷积核大小为3x3，另一层的卷积核数量为64，卷积核大小为3x3。

进一步地，步骤2-2所述利用通道注意力对特征金字塔集合中的中层特征图f₂进行特征选择，获得新的中层特征图

具体包括：

定义中层特征图f₂为

步骤2-2-1，将f^m展开为一个集合：

f^m＝{f₁ ^m,f₂ ^m,......,f_C ^m}

其中，f_i ^m为f^m中的第i个通道切片特征，

i＝1,2,…,C，C为特征图f^m的通道数；

步骤2-2-2，对每个通道切片特征f_i ^m进行全局池化，获得一个通道级向量

步骤2-2-3，利用两层连续的全连接层和非线性激活层学习所述通道级向量，获得通道级注意力向量，并利用sigmoid函数将所述通道级注意力向量映射到[0，1]，获得通道注意力的权重CA，所用公式为：

CA＝F(v^m,W)＝σ(fc₂(δ(fc₁(v^m,W₁)),W₂))

式中，W₁、W₂分别为全连接层fc₁、fc₂的参数，δ为非线性激活函数，σ为sigmoid函数；

步骤2-2-4，利用所述通道注意力的权重CA对中层特征图f₂重新分配通道权重，获得新的中层特征图

或

所用公式为：

进一步地，步骤3所述以自底向上的方式，对所述新的特征金字塔集合中的特征进行特征融合，获得融合后的特征金字塔集合，具体包括：

步骤3-1，将除新的底层特征图

之外的某一特征图上采样为新的底层特征图

的分辨率大小，之后在通道维度上将上采样后的特征图和

或混合特征级联，获得级联特征f^cat，所用公式为：

式中，f_i↑表示对特征f_i上采样，[c]表示通道级联操作，j＝-1时，

表示

j＝0,1,2时，

表示级联特征f^cat通过三层卷积层学习后的混合特征；

步骤3-2，将所述级联特征f^cat通过三层卷积层，进行特征融合的学习，获得混合特征

所用公式为：

步骤3-3，以自底向上的方式，重复步骤3-1和步骤3-2，将新的特征金字塔集合中的特征f₁,f₂,f₃,f₄即f₁,

f₃,f₄逐层进行融合，获得混合特征金字塔集合

进一步地，步骤4中所述显著性预测网络模型包括三层卷积层，前两个卷积层后面添加有批正则化层和激活层，最后一层卷积层输出一个单通道且与原输入图像相同分辨率的显著性图。

进一步地，步骤4中所述利用所述混合特征金字塔集合中的特征对显著性预测网络模型进行训练，具体过程包括：

步骤4-1，利用显著性预测网络模型对所述混合特征金字塔集合中的特征依次进行显著性预测；

步骤4-2，对所有预测结果进行损失计算获得梯度，通过反向传递算法，利用所述梯度对显著性预测网络模型参数进行迭代更新；

反复迭代步骤4-1至步骤4-2，直至迭代次数超过预设阈值，结束对显著性预测网络模型的训练。

本发明与现有技术相比，其显著优点为：1)采用注意力模型对图像的特征进行特征选择，增强了与图像目标相关的特征，使得特征更加有效；2)采用自底向上的特征融合结构，将底层的细节特征和高层的语义特征进行了有效融合，大大提升了特征的表征能力，比一般显著性模型网络的检测准确率高。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明基于特征选择和特征融合的图像显著性检测方法的流程图。

图2为本发明中空间注意力模块对特征图进行特征选择的示意图。

图3为本发明中通道注意力模块对特征图进行特征选择的示意图。

图4为本发明中对特征金字塔进行自底向上特征融合的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，结合图1，本发明提出了一种基于特征选择和特征融合的图像显著性检测方法，该方法包括以下步骤：

步骤2，对特征金字塔集合进行特征选择，获得新的特征金字塔集合；

步骤3，以自底向上的方式，对新的特征金字塔集合中的特征进行特征融合，获得混合特征金字塔集合；

步骤4，利用混合特征金字塔集合中的特征对显著性预测网络模型进行训练，利用训练后的显著性预测网络模型对待检测图像进行显著性检测。

进一步地，在其中一个实施例中，步骤1中对输入图像进行特征提取，具体采用卷积神经网络ResNext对输入图像进行特征提取，具体过程包括：

假设卷积神经网络ResNext包括的五部分卷积块分别为conv₁、conv₂、conv₃、conv₄、conv₅；越高的特征层拥有丰富的语义信息，越低的特征层拥有丰富的纹理等低级信息。

步骤1-1，输入图像依次进入五部分卷积块，进行前向迭代，迭代公式为：

f_i+1＝conv_j(f_i,W_j),j∈[1,5],i∈[-1,3]

示例性优选地，作为一种具体示例，上述conv₁为一层卷积核大小为7x7的卷积层，conv₂、conv₃、conv₄、conv₅中分别包括了3、4、6、3个Block，Block是Resnet系列中常用的结构，具体来说是将三层卷积层串行堆叠的网络结构，三层卷积的卷积核大小分别是1x1,3x3,1x1。

示例性地，作为一种具体示例，假设输入图像I_3×300×300，表示图片大小为RGB三通道，长、宽均为300像素。经过上述步骤1的过程获得特征金字塔集合为

其中上标表示特征图的序列号，下标表示该特征图的通道数和宽、高的形状。

进一步地，在其中一个实施例中，步骤2中对特征金字塔集合进行特征选择，具体采用空间注意力和通道注意力机制进行特征选择，具体过程包括：

由上获得新的特征金字塔集合

进一步地，在其中一个实施例中，结合图2，步骤2-1利用空间注意力对特征金字塔集合中的底层特征图f₀进行特征选择，获得新的底层特征图

具体包括：

定义底层特征图f₀为

w、h、c分别表示特征图的宽、高和通道数；针对上述示例，

构建空间注意力模块，该模块包括两个子卷积块，分别记为conv₁₁、conv₂₂；

C₁＝conv₁₁(f^l,W₁₁)

C₂＝conv₂₂(f^l,W₂₂)

作为一种具体示例，针对上述示例，将

依次放入conv₁₁、conv₂₂子卷积块，分别输出特征图C₁、C₂，

SA＝σ(C₁+C₂)

式中，σ表示sigmoid函数；

作为一种具体示例，针对上述示例，

步骤2-1-3，利用空间注意力的权重SA对底层特征图f₀进行特征选择获得新的底层特征图

或

所用公式为：

进一步地，在其中一个实施例中，上述子卷积块conv₁₁、conv₂₂均包括两个卷积层，其中一层的卷积核数量为32，卷积核大小为3x3，另一层的卷积核数量为64，卷积核大小为3x3。

进一步地，在其中一个实施例中，结合图3，步骤2-2利用通道注意力对特征金字塔集合中的中层特征图f₂进行特征选择，获得新的中层特征图

具体包括：

定义中层特征图f₂为

步骤2-2-1，将f^m展开为一个集合：

f^m＝{f₁ ^m,f₂ ^m,......,f_C ^m}

其中，f_i ^m为f^m中的第i个通道切片特征，

i＝1,2,…,C，C为特征图f^m的通道数；

作为一种具体示例，针对上述示例中的

展开为一个集合f^m＝{f₁ ^m,f₂ ^m,......,f₅₁₂ ^m}。

作为一种具体示例，针对上述示例，

该向量是一个512x1维度的通道。

步骤2-2-3，利用两层连续的全连接层和非线性激活层学习通道级向量，获得通道级注意力向量，并利用sigmoid函数将通道级注意力向量映射到[0，1]，获得通道注意力的权重CA，所用公式为：

CA＝F(v^m,W)＝σ(fc₂(δ(fc₁(v^m,W₁)),W₂))

作为一种具体示例，针对上述示例，

步骤2-2-4，利用通道注意力的权重CA对中层特征图f₂重新分配通道权重，获得新的中层特征图

或

所用公式为：

进一步地，在其中一个实施例中，结合图4，步骤3以自底向上的方式，对新的特征金字塔集合中的特征进行特征融合，获得融合后的特征金字塔集合，具体包括：

步骤3-1，将除新的底层特征图

之外的某一特征图上采样为新的底层特征图

的分辨率大小，之后在通道维度上将上采样后的特征图和

或混合特征级联，获得级联特征f^cat，所用公式为：

表示

j＝0,1,2时，

表示级联特征f^cat通过三层卷积层学习后的混合特征；

步骤3-2，将级联特征f^cat通过三层卷积层，进行特征融合的学习，获得混合特征

所用公式为：

f₃,f₄逐层进行融合，获得混合特征金字塔集合

示例性优选地，在其中一个实施例中，步骤3-2中三层卷积层的卷积核大小依次为3x3，3x3，1x1。

进一步地，在其中一个实施例中，步骤4中显著性预测网络模型包括三层卷积层，前两个卷积层后面添加有批正则化层和激活层，最后一层卷积层输出一个单通道且与原输入图像相同分辨率的显著性图。

示例性优选地，在其中一个实施例中，上述显著性预测网络模型包括的三层卷积层的卷积核大小依次是3x3，3x3，1x1。

进一步地，在其中一个实施例中，步骤4中利用混合特征金字塔集合中的特征对显著性预测网络模型进行训练，具体过程包括：

步骤4-1，利用显著性预测网络模型对混合特征金字塔集合中的特征依次进行显著性预测；

步骤4-2，对所有预测结果进行损失计算获得梯度，通过反向传递算法，利用梯度对显著性预测网络模型参数进行迭代更新；

本发明采用注意力模型对图像的特征进行特征选择，增强了与图像目标相关的特征，使得特征更加有效，并采用自底向上的特征融合结构，将底层的细节特征和高层的语义特征进行了有效融合，大大提升了特征的表征能力，比一般显著性模型网络的检测准确率高。

Claims

1.一种基于特征选择和特征融合的图像显著性检测方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的基于特征选择和特征融合的图像显著性检测方法，其特征在于，步骤1中所述对输入图像进行特征提取，具体采用卷积神经网络ResNext对输入图像进行特征提取，具体过程包括：

f_i+1＝conv_j(f_i,W_j),j∈[1,5],i∈[-1,3]

3.根据权利要求1或2所述的基于特征选择和特征融合的图像显著性检测方法，其特征在于，步骤2中对所述特征金字塔集合进行特征选择，具体采用空间注意力和通道注意力机制进行特征选择，具体过程包括：

由上获得新的特征金字塔集合

4.根据权利要求3所述的基于特征选择和特征融合的图像显著性检测方法，其特征在于，步骤2-1所述利用空间注意力对特征金字塔集合中的底层特征图f₀进行特征选择，获得新的底层特征图

具体包括：

定义底层特征图f₀为

C₁＝conv₁₁(f^l,W₁₁)

C₂＝conv₂₂(f^l,W₂₂)

SA＝σ(C₁+C₂)

式中，σ表示sigmoid函数；

或

所用公式为：

5.根据权利要求4所述的基于特征选择和特征融合的图像显著性检测方法，其特征在于，所述子卷积块conv₁₁、conv₂₂均包括两个卷积层，其中一层的卷积核数量为32，卷积核大小为3x3，另一层的卷积核数量为64，卷积核大小为3x3。

6.根据权利要求3所述的基于特征选择和特征融合的图像显著性检测方法，其特征在于，步骤2-2所述利用通道注意力对特征金字塔集合中的中层特征图f₂进行特征选择，获得新的中层特征图

具体包括：

定义中层特征图f₂为

步骤2-2-1，将f^m展开为一个集合：

f^m＝{f₁ ^m,f₂ ^m,......,f_C ^m}

其中，f_i ^m为f^m中的第i个通道切片特征，

C为特征图f^m的通道数；

CA＝F(v^m,W)＝σ(fc₂(δ(fc₁(v^m,W₁)),W₂))

或

所用公式为：

7.根据权利要求6所述的基于特征选择和特征融合的图像显著性检测方法，其特征在于，步骤3所述以自底向上的方式，对所述新的特征金字塔集合中的特征进行特征融合，获得融合后的特征金字塔集合，具体包括：

步骤3-1，将除新的底层特征图

之外的某一特征图上采样为新的底层特征图

的分辨率大小，之后在通道维度上将上采样后的特征图和

或混合特征级联，获得级联特征f^cat，所用公式为：

式中，f_i↑表示对特征f_i上采样，[c]表示通道级联操作，j＝-1时，f_j ^mix表示

j＝0,1,2时，f_j ^mix表示级联特征f^cat通过三层卷积层学习后的混合特征；

步骤3-2，将所述级联特征f^cat通过三层卷积层，进行特征融合的学习，获得混合特征f_j ^mix，所用公式为：

f_j ^mix＝conv₃(conv₂(conv₁(f_i ^cat,W₁),W₂),W₃),i∈[0,3],j∈[1,4]

f₃,f₄逐层进行融合，获得混合特征金字塔集合{f₁ ^mix,f₂ ^mix,f₃ ^mix,f₄ ^mix}。

8.根据权利要求7所述的基于特征选择和特征融合的图像显著性检测方法，其特征在于，步骤3-2中所述三层卷积层的卷积核大小依次为3x3，3x3，1x1。

9.根据权利要求8所述的基于特征选择和特征融合的图像显著性检测方法，其特征在于，步骤4中所述显著性预测网络模型包括三层卷积层，前两个卷积层后面添加有批正则化层和激活层，最后一层卷积层输出一个单通道且与原输入图像相同分辨率的显著性图。

10.根据权利要求9所述的基于特征选择和特征融合的图像显著性检测方法，其特征在于，步骤4中所述利用所述混合特征金字塔集合中的特征对显著性预测网络模型进行训练，具体过程包括：