CN110929735B

CN110929735B - 一种基于多尺度特征注意机制的快速显著性检测方法

Info

Publication number: CN110929735B
Application number: CN201910988094.0A
Authority: CN
Inventors: 颜成钢; 楼杰栋; 孙垚棋; 张继勇; 张勇东
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2022-04-01
Anticipated expiration: 2039-10-17
Also published as: CN110929735A

Abstract

本发明提供一种基于多尺度特征注意机制的快速显著性检测方法。本发明方法首先通过深度卷积网络对图像进行处理，获得基于不同卷积层的特征，包括较浅层特征和高级语义特征，然后分别对获得基于不同卷积层的特征进行处理，最后将处理后的较浅层特征和高级语义特征输入至解码器中，生成显著性检测图。本发明消除了大部分背景特征的干扰，增加了计算效率并有效地抑制背景信息，对高级语义特征使用金字塔扩张卷积更好的利用语义信息，并采用双解码器结能对特征进行进一步细化，最终生成的显著性图能够以明晰的边界完整的凸显图像中的显著性区域，并有效地抑制背景区域。

Description

一种基于多尺度特征注意机制的快速显著性检测方法

技术领域

本发明涉及图像、视频处理技术领域，具体地说涉及一种基于多尺度特征注意机制的快速显著性检测方法。

技术背景

随着具有拍照录像功能的可穿戴设备、智能手机与平板电脑的普及，图像、视频信息的获取和存储变得越来越容易，人们可以随意拍摄出高分辨率图像，以及不同时长的视频信息，如此图像、视频数量急剧增多，这也对图像视频处理等研究领域带来了新的挑战。近年来，研究表明人类的视觉***能够快速的从复杂场景中定位出最吸引眼球的物体，而如何使用计算机技术模拟人眼视觉机制并用于提取图像、视频中的人眼感兴趣区域亦成为当前研究热点，即显著性检测。随着计算机视觉的发展，显著性检测引起越来越多研究者的关注.显著性检测的研究目的即是希望计算机可以模仿人眼的视觉特征，高效快速地发现场景中最具吸引力的区域.因此，显著性检测结果应该符合人眼的视觉特征，检测结果需要与人眼观察到的结果一致，显著性检测在计算机视觉中有广泛的应用，例如：对象检测、对象识别、目标跟踪、图像分割和视频缩放等。

图像显著性对象检测不受限于对象的类别、尺寸大小、位置、个数等,这些不确定因素使得它成为目前计算机视觉和人工智能领域中的一个难题。在传统做法中,研究人员根据观察到的各种先验知识对显著性对象检测算法进行建模,生成显著性图。这些先验知识包括:对比度、中心先验、边缘先验、语义先验等,但在复杂的场景中,传统方法往往不够准确。这是因为这些观察往往限于低级别的特征(例如,颜色和对比度等),而不能准确反映出显著性对象本质的共同点。

显著性检测学习视觉特征表示是其中重要的一环，而学习视觉特征表示也是计算机视觉中的一个基本问题。在过去几年中，在设计用于图像分类和物体检测的深度卷积网络(ConvNets)的模型体系结构方面取得了很大进展。与预测图像的类概率的图像分类不同，对象检测对于在多种尺度和位置上检测和定位多个对象具有其自身的挑战。为了解决这个问题，许多物体检测方法通常使用表示具有多尺度特征层的图像金字塔特征表示，然而当前方法中的图像金字塔的特征表示往往不加区别地集成多尺度卷积特征，然而并非所有的卷积特征都对显著性的检测有用，在自然图像中包含着复杂的前景和背景细节，因此在低级特征中往往还包含这很多信息，这些特征细节的冗余不仅影响了计算速度，而且同时影响生成的显著性图的效果，因此如何提取有效特征并合理的利用是显着性检测的一个关键点。同时在对这些特征信息进行编解码操作时，往往时将这些特征都输入到解码其中生成最终的显著性图，而一些低级特征往往因为其较大的分辨率大大增加了计算负担，因此可以通过设计一个级联的双解码器，用来细化生成的显著性图的效果。

发明内容

针对现有技术中存在的问题，本发明提供一种基于多尺度特征注意机制的快速显著性检测方法，通过对物体检测方法中多尺度特征层的图像金字塔特征表示的方法做出改进并结合设计的级联双解码器，从而使生成的显著性图能够以明晰的边界完整的凸显图像中的显著性区域，并有效地抑制背景区域。

一种基于多尺度特征注意机制的快速显著性检测方法，步骤如下：

步骤(1).通过深度卷积网络对图像进行处理，获得基于不同卷积层的特征。

步骤(1.1)选取一张用于显著性检测的图片，将图片记为图片I。

步骤(1.2)将图片I输入深度卷积网络中，根据深度卷积网络的不同卷积层，获得五个特征{f_i,i＝1,2,3,4,5}，分别对应于Conv1-2、Conv2-2、Conv3-3、Conv4-3、Conv5-3的输出，其中f₁和f₂为较浅层特征，f₃、f₄和f₅为高级语义特征。

步骤(2).分别对获得基于不同卷积层的特征进行处理。

步骤(2.1)将较浅层特征输入空间变换网络(Spatial Transformer Networks，STN)，获得去除背景信息干扰的特征信息。

步骤(2.2)分别将高级语义特征f₃、f₄和f₅输入至金字塔扩张卷积模块中，获得经金字塔扩张卷积的特征

金字塔扩张卷积由层平行的空洞卷积层组成，对应扩张比例分别为：2、4、8、16。空洞卷积层的卷积核为3×3×32。

步骤(3).将处理后的较浅层特征和高级语义特征输入至解码器中，生成显著性检测图，具体步骤如下：

步骤(3.1)对高级语义特征经过金字塔扩张卷积提取的特征

进行处理，将特征

与对应的高级语义特征{f_i,i＝3,4,5}合并，通过特征双线性插值级联组成一组强化特征，最终获得高级语义特征f₃、f₄和f₅对应的三组强化特征x1、x2和x3。

步骤(3.2)设计解码器框架，包括4个分支{b_m,m＝1,2,3,4}，在每个分支中加入1×1的卷积核，将通道减少到32个，对于分支{b_m,m＞1}增加两层卷积层，分别为(2m-1)×(2m-1)的卷积层以及3×3伴随扩张率为(2m-1)的卷积层。将强化特征x1、x2和x3输入至解码器中，获得预估显著性图的特征。

步骤(3.3)将获得的预估显著性图的特征与较浅层特征通过空间变换网络后获得的去除背景信息干扰的特征信息再输入至解码器中得到最终特征，将获得的最终特征通过1x1卷积进行预测获得显著性图S。

本发明有益效果如下：

本发明与现有的方法相比，在采用多尺度特征的同时采用了特征注意机制，消除了大部分背景特征的干扰，增加了计算效率并有效地抑制背景信息，对高级语义特征使用金字塔扩张卷积更好的利用语义信息，并采用双解码器结能对特征进行进一步细化，最终生成的显著性图能够以明晰的边界完整的凸显图像中的显著性区域，并有效地抑制背景区域。

附图说明

图1为本发明方法流程图；

图2为本发明方法模型的结构示意图；

图3为本发明解码器的结构图。

具体实施方式

下面结合附图及实施例，对本发明进行进一步的详细说明。

如图1所示，本发明的快速显著性检测方法，具体步骤如下：

步骤(2).分别对获得基于不同卷积层的特征进行处理。

对较浅层特征进行空间关注减少计算量；对高级语义特征进行金字塔卷积特征提取，将高级语义特征进行进一步细化。

步骤(2.1)较浅层特征生成的显著性图像中包含许多细节，会造成不好的结果；在显著性检测中，我们希望获得显著对象和背景的详细边界，没有其他分散人眼注意力的干扰，采用空间注意机制来使之更加关注低级特征中的前景区域。将较浅层特征输入空间变换网络(Spatial Transformer Networks，STN)，获得去除背景信息干扰的特征信息。

步骤(2.2)为了使生成的显著性图能够得到更好的效果，高级语义特征{f_i,i＝3,4,5}，因为其中被提取的第三层特征f₃在被提取出后除了高级语义特征外，还包含有部分低级的边缘轮廓特征可以用来生成比较粗略的显著性图像，为使生成的显著性图像获得尽可能好的效果所以对高级语义特征进行处理，通过金字塔扩张卷积(Pyramid DilatedConvolution，PDC)来获取多尺度特征，使高级语义特征能够得到更好细化，分别将高级语义特征f₃、f₄和f₅输入至金字塔扩张卷积模块中，获得经金字塔扩张卷积的特征

步骤(3.1)对高级语义特征经过金字塔扩张卷积提取的特征

进行处理，将特征

步骤(3.2)设计解码器框架，包括4个分支{b_m,m＝1,2,3,4}，在每个分支中加入1×1的卷积核，将通道减少到32个，对于分支{b_m,m＞1}增加两层卷积层，分别为(2m-1)×(2m-1)的卷积层以及3×3伴随扩张率为(2m-1)的卷积层。将强化特征x1、x2和x3输入至解码器中，获得预估显著性图的特征。x1_1由x1直接得到，x2_1由x1和x2上采样加乘法操作以及3×3的卷积核得到并通过1×1的卷积核保持相同32通道数，x3_1同样由x1、x2和x3上采样加乘法操作以及3×3的卷积核得到并通过1×1的卷积核保持相同32通道数，再往下的x2_2由x1_1和x2_1向量级联得到，x3_2由x2_2和x3_1向量级联得到，最终x3_2通过3×3和1×1的卷积层，得到输出x。该特征x可以用来生成粗略的显著性图。

图3为本发明解码器的结构图。

步骤(3.3)将获得的预估显著性图的特征与较浅层特征通过空间变换网络后获得的去除背景信息干扰的特征信息再输入至解码器中得到最终特征，最后使用1x1卷积进行预测获得显著性图S。

图2为本发明方法显著性检测模型的结构示意图。

Claims

1.一种基于多尺度特征注意机制的快速显著性检测方法，其特征在于，该方法步骤如下：

步骤(1).通过深度卷积网络对图像进行处理，获得基于不同卷积层的特征；

步骤(1.1)选取一张用于显著性检测的图片，将图片记为图片I；

步骤(1.2)将图片I输入深度卷积网络中，根据深度卷积网络的不同卷积层，获得五个特征{f_i,i＝1,2,3,4,5}，分别对应于Conv1-2、Conv2-2、Conv3-3、Conv4-3、Conv5-3的输出，其中f₁和f₂为较浅层特征，f₃、f₄和f₅为高级语义特征；

步骤(2).分别对获得基于不同卷积层的特征进行处理；

步骤(2.1)将较浅层特征输入空间变换网络，获得去除背景信息干扰的特征信息；

金字塔扩张卷积由层平行的空洞卷积层组成，对应扩张比例分别为：2、4、8、16；空洞卷积层的卷积核为3×3×32；

步骤(3.1)对高级语义特征经过金字塔扩张卷积提取的特征

进行处理，将特征

与对应的高级语义特征{f_i,i＝3,4,5}合并，通过特征双线性插值级联组成一组强化特征，最终获得高级语义特征f₃、f₄和f₅对应的三组强化特征x1、x2和x3；

步骤(3.2)设计解码器框架，包括4个分支{b_m,m＝1,2,3,4}，在每个分支中加入1×1的卷积核，将通道减少到32个，对于分支{b_m,m＞1}增加两层卷积层，分别为(2m-1)×(2m-1)的卷积层以及3×3伴随扩张率为2m-1的卷积层；将强化特征x1、x2和x3输入至解码器中，获得预估显著性图的特征；

步骤(3.3)将获得的“预估显著性图的特征”与“较浅层特征通过空间变换网络后获得的去除背景信息干扰的特征信息”再输入至解码器中得到最终特征，将获得的最终特征通过1x1卷积进行预测获得显著性图S。