CN110929735B - 一种基于多尺度特征注意机制的快速显著性检测方法 - Google Patents

一种基于多尺度特征注意机制的快速显著性检测方法 Download PDF

Info

Publication number
CN110929735B
CN110929735B CN201910988094.0A CN201910988094A CN110929735B CN 110929735 B CN110929735 B CN 110929735B CN 201910988094 A CN201910988094 A CN 201910988094A CN 110929735 B CN110929735 B CN 110929735B
Authority
CN
China
Prior art keywords
features
convolution
inputting
level semantic
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910988094.0A
Other languages
English (en)
Other versions
CN110929735A (zh
Inventor
颜成钢
楼杰栋
孙垚棋
张继勇
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201910988094.0A priority Critical patent/CN110929735B/zh
Publication of CN110929735A publication Critical patent/CN110929735A/zh
Application granted granted Critical
Publication of CN110929735B publication Critical patent/CN110929735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于多尺度特征注意机制的快速显著性检测方法。本发明方法首先通过深度卷积网络对图像进行处理,获得基于不同卷积层的特征,包括较浅层特征和高级语义特征,然后分别对获得基于不同卷积层的特征进行处理,最后将处理后的较浅层特征和高级语义特征输入至解码器中,生成显著性检测图。本发明消除了大部分背景特征的干扰,增加了计算效率并有效地抑制背景信息,对高级语义特征使用金字塔扩张卷积更好的利用语义信息,并采用双解码器结能对特征进行进一步细化,最终生成的显著性图能够以明晰的边界完整的凸显图像中的显著性区域,并有效地抑制背景区域。

Description

一种基于多尺度特征注意机制的快速显著性检测方法
技术领域
本发明涉及图像、视频处理技术领域,具体地说涉及一种基于多尺度特征注意机制的快速显著性检测方法。
技术背景
随着具有拍照录像功能的可穿戴设备、智能手机与平板电脑的普及,图像、视频信息的获取和存储变得越来越容易,人们可以随意拍摄出高分辨率图像,以及不同时长的视频信息,如此图像、视频数量急剧增多,这也对图像视频处理等研究领域带来了新的挑战。近年来,研究表明人类的视觉***能够快速的从复杂场景中定位出最吸引眼球的物体,而如何使用计算机技术模拟人眼视觉机制并用于提取图像、视频中的人眼感兴趣区域亦成为当前研究热点,即显著性检测。随着计算机视觉的发展,显著性检测引起越来越多研究者的关注.显著性检测的研究目的即是希望计算机可以模仿人眼的视觉特征,高效快速地发现场景中最具吸引力的区域.因此,显著性检测结果应该符合人眼的视觉特征,检测结果需要与人眼观察到的结果一致,显著性检测在计算机视觉中有广泛的应用,例如:对象检测、对象识别、目标跟踪、图像分割和视频缩放等。
图像显著性对象检测不受限于对象的类别、尺寸大小、位置、个数等,这些不确定因素使得它成为目前计算机视觉和人工智能领域中的一个难题。在传统做法中,研究人员根据观察到的各种先验知识对显著性对象检测算法进行建模,生成显著性图。这些先验知识包括:对比度、中心先验、边缘先验、语义先验等,但在复杂的场景中,传统方法往往不够准确。这是因为这些观察往往限于低级别的特征(例如,颜色和对比度等),而不能准确反映出显著性对象本质的共同点。
显著性检测学习视觉特征表示是其中重要的一环,而学习视觉特征表示也是计算机视觉中的一个基本问题。在过去几年中,在设计用于图像分类和物体检测的深度卷积网络(ConvNets)的模型体系结构方面取得了很大进展。与预测图像的类概率的图像分类不同,对象检测对于在多种尺度和位置上检测和定位多个对象具有其自身的挑战。为了解决这个问题,许多物体检测方法通常使用表示具有多尺度特征层的图像金字塔特征表示,然而当前方法中的图像金字塔的特征表示往往不加区别地集成多尺度卷积特征,然而并非所有的卷积特征都对显著性的检测有用,在自然图像中包含着复杂的前景和背景细节,因此在低级特征中往往还包含这很多信息,这些特征细节的冗余不仅影响了计算速度,而且同时影响生成的显著性图的效果,因此如何提取有效特征并合理的利用是显着性检测的一个关键点。同时在对这些特征信息进行编解码操作时,往往时将这些特征都输入到解码其中生成最终的显著性图,而一些低级特征往往因为其较大的分辨率大大增加了计算负担,因此可以通过设计一个级联的双解码器,用来细化生成的显著性图的效果。
发明内容
针对现有技术中存在的问题,本发明提供一种基于多尺度特征注意机制的快速显著性检测方法,通过对物体检测方法中多尺度特征层的图像金字塔特征表示的方法做出改进并结合设计的级联双解码器,从而使生成的显著性图能够以明晰的边界完整的凸显图像中的显著性区域,并有效地抑制背景区域。
一种基于多尺度特征注意机制的快速显著性检测方法,步骤如下:
步骤(1).通过深度卷积网络对图像进行处理,获得基于不同卷积层的特征。
步骤(1.1)选取一张用于显著性检测的图片,将图片记为图片I。
步骤(1.2)将图片I输入深度卷积网络中,根据深度卷积网络的不同卷积层,获得五个特征{fi,i=1,2,3,4,5},分别对应于Conv1-2、Conv2-2、Conv3-3、Conv4-3、Conv5-3的输出,其中f1和f2为较浅层特征,f3、f4和f5为高级语义特征。
步骤(2).分别对获得基于不同卷积层的特征进行处理。
步骤(2.1)将较浅层特征输入空间变换网络(Spatial Transformer Networks,STN),获得去除背景信息干扰的特征信息。
步骤(2.2)分别将高级语义特征f3、f4和f5输入至金字塔扩张卷积模块中,获得经金字塔扩张卷积的特征
Figure BDA0002237348440000031
金字塔扩张卷积由层平行的空洞卷积层组成,对应扩张比例分别为:2、4、8、16。空洞卷积层的卷积核为3×3×32。
步骤(3).将处理后的较浅层特征和高级语义特征输入至解码器中,生成显著性检测图,具体步骤如下:
步骤(3.1)对高级语义特征经过金字塔扩张卷积提取的特征
Figure BDA0002237348440000032
进行处理,将特征
Figure BDA0002237348440000033
与对应的高级语义特征{fi,i=3,4,5}合并,通过特征双线性插值级联组成一组强化特征,最终获得高级语义特征f3、f4和f5对应的三组强化特征x1、x2和x3。
步骤(3.2)设计解码器框架,包括4个分支{bm,m=1,2,3,4},在每个分支中加入1×1的卷积核,将通道减少到32个,对于分支{bm,m>1}增加两层卷积层,分别为(2m-1)×(2m-1)的卷积层以及3×3伴随扩张率为(2m-1)的卷积层。将强化特征x1、x2和x3输入至解码器中,获得预估显著性图的特征。
步骤(3.3)将获得的预估显著性图的特征与较浅层特征通过空间变换网络后获得的去除背景信息干扰的特征信息再输入至解码器中得到最终特征,将获得的最终特征通过1x1卷积进行预测获得显著性图S。
本发明有益效果如下:
本发明与现有的方法相比,在采用多尺度特征的同时采用了特征注意机制,消除了大部分背景特征的干扰,增加了计算效率并有效地抑制背景信息,对高级语义特征使用金字塔扩张卷积更好的利用语义信息,并采用双解码器结能对特征进行进一步细化,最终生成的显著性图能够以明晰的边界完整的凸显图像中的显著性区域,并有效地抑制背景区域。
附图说明
图1为本发明方法流程图;
图2为本发明方法模型的结构示意图;
图3为本发明解码器的结构图。
具体实施方式
下面结合附图及实施例,对本发明进行进一步的详细说明。
如图1所示,本发明的快速显著性检测方法,具体步骤如下:
步骤(1).通过深度卷积网络对图像进行处理,获得基于不同卷积层的特征。
步骤(1.1)选取一张用于显著性检测的图片,将图片记为图片I。
步骤(1.2)将图片I输入深度卷积网络中,根据深度卷积网络的不同卷积层,获得五个特征{fi,i=1,2,3,4,5},分别对应于Conv1-2、Conv2-2、Conv3-3、Conv4-3、Conv5-3的输出,其中f1和f2为较浅层特征,f3、f4和f5为高级语义特征。
步骤(2).分别对获得基于不同卷积层的特征进行处理。
对较浅层特征进行空间关注减少计算量;对高级语义特征进行金字塔卷积特征提取,将高级语义特征进行进一步细化。
步骤(2.1)较浅层特征生成的显著性图像中包含许多细节,会造成不好的结果;在显著性检测中,我们希望获得显著对象和背景的详细边界,没有其他分散人眼注意力的干扰,采用空间注意机制来使之更加关注低级特征中的前景区域。将较浅层特征输入空间变换网络(Spatial Transformer Networks,STN),获得去除背景信息干扰的特征信息。
步骤(2.2)为了使生成的显著性图能够得到更好的效果,高级语义特征{fi,i=3,4,5},因为其中被提取的第三层特征f3在被提取出后除了高级语义特征外,还包含有部分低级的边缘轮廓特征可以用来生成比较粗略的显著性图像,为使生成的显著性图像获得尽可能好的效果所以对高级语义特征进行处理,通过金字塔扩张卷积(Pyramid DilatedConvolution,PDC)来获取多尺度特征,使高级语义特征能够得到更好细化,分别将高级语义特征f3、f4和f5输入至金字塔扩张卷积模块中,获得经金字塔扩张卷积的特征
Figure BDA0002237348440000051
金字塔扩张卷积由层平行的空洞卷积层组成,对应扩张比例分别为:2、4、8、16。空洞卷积层的卷积核为3×3×32。
步骤(3).将处理后的较浅层特征和高级语义特征输入至解码器中,生成显著性检测图,具体步骤如下:
步骤(3.1)对高级语义特征经过金字塔扩张卷积提取的特征
Figure BDA0002237348440000052
进行处理,将特征
Figure BDA0002237348440000053
与对应的高级语义特征{fi,i=3,4,5}合并,通过特征双线性插值级联组成一组强化特征,最终获得高级语义特征f3、f4和f5对应的三组强化特征x1、x2和x3。
步骤(3.2)设计解码器框架,包括4个分支{bm,m=1,2,3,4},在每个分支中加入1×1的卷积核,将通道减少到32个,对于分支{bm,m>1}增加两层卷积层,分别为(2m-1)×(2m-1)的卷积层以及3×3伴随扩张率为(2m-1)的卷积层。将强化特征x1、x2和x3输入至解码器中,获得预估显著性图的特征。x1_1由x1直接得到,x2_1由x1和x2上采样加乘法操作以及3×3的卷积核得到并通过1×1的卷积核保持相同32通道数,x3_1同样由x1、x2和x3上采样加乘法操作以及3×3的卷积核得到并通过1×1的卷积核保持相同32通道数,再往下的x2_2由x1_1和x2_1向量级联得到,x3_2由x2_2和x3_1向量级联得到,最终x3_2通过3×3和1×1的卷积层,得到输出x。该特征x可以用来生成粗略的显著性图。
图3为本发明解码器的结构图。
步骤(3.3)将获得的预估显著性图的特征与较浅层特征通过空间变换网络后获得的去除背景信息干扰的特征信息再输入至解码器中得到最终特征,最后使用1x1卷积进行预测获得显著性图S。
图2为本发明方法显著性检测模型的结构示意图。

Claims (1)

1.一种基于多尺度特征注意机制的快速显著性检测方法,其特征在于,该方法步骤如下:
步骤(1).通过深度卷积网络对图像进行处理,获得基于不同卷积层的特征;
步骤(1.1)选取一张用于显著性检测的图片,将图片记为图片I;
步骤(1.2)将图片I输入深度卷积网络中,根据深度卷积网络的不同卷积层,获得五个特征{fi,i=1,2,3,4,5},分别对应于Conv1-2、Conv2-2、Conv3-3、Conv4-3、Conv5-3的输出,其中f1和f2为较浅层特征,f3、f4和f5为高级语义特征;
步骤(2).分别对获得基于不同卷积层的特征进行处理;
步骤(2.1)将较浅层特征输入空间变换网络,获得去除背景信息干扰的特征信息;
步骤(2.2)分别将高级语义特征f3、f4和f5输入至金字塔扩张卷积模块中,获得经金字塔扩张卷积的特征
Figure FDA0003401487880000011
金字塔扩张卷积由层平行的空洞卷积层组成,对应扩张比例分别为:2、4、8、16;空洞卷积层的卷积核为3×3×32;
步骤(3).将处理后的较浅层特征和高级语义特征输入至解码器中,生成显著性检测图,具体步骤如下:
步骤(3.1)对高级语义特征经过金字塔扩张卷积提取的特征
Figure FDA0003401487880000012
进行处理,将特征
Figure FDA0003401487880000013
与对应的高级语义特征{fi,i=3,4,5}合并,通过特征双线性插值级联组成一组强化特征,最终获得高级语义特征f3、f4和f5对应的三组强化特征x1、x2和x3;
步骤(3.2)设计解码器框架,包括4个分支{bm,m=1,2,3,4},在每个分支中加入1×1的卷积核,将通道减少到32个,对于分支{bm,m>1}增加两层卷积层,分别为(2m-1)×(2m-1)的卷积层以及3×3伴随扩张率为2m-1的卷积层;将强化特征x1、x2和x3输入至解码器中,获得预估显著性图的特征;
步骤(3.3)将获得的“预估显著性图的特征”与“较浅层特征通过空间变换网络后获得的去除背景信息干扰的特征信息”再输入至解码器中得到最终特征,将获得的最终特征通过1x1卷积进行预测获得显著性图S。
CN201910988094.0A 2019-10-17 2019-10-17 一种基于多尺度特征注意机制的快速显著性检测方法 Active CN110929735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910988094.0A CN110929735B (zh) 2019-10-17 2019-10-17 一种基于多尺度特征注意机制的快速显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910988094.0A CN110929735B (zh) 2019-10-17 2019-10-17 一种基于多尺度特征注意机制的快速显著性检测方法

Publications (2)

Publication Number Publication Date
CN110929735A CN110929735A (zh) 2020-03-27
CN110929735B true CN110929735B (zh) 2022-04-01

Family

ID=69849228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910988094.0A Active CN110929735B (zh) 2019-10-17 2019-10-17 一种基于多尺度特征注意机制的快速显著性检测方法

Country Status (1)

Country Link
CN (1) CN110929735B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084897A (zh) * 2020-08-25 2020-12-15 西安理工大学 一种gs-ssd的交通大场景车辆目标快速检测方法
CN112446357B (zh) * 2020-12-15 2022-05-03 电子科技大学 一种基于胶囊网络的sar自动目标识别方法
CN112597996B (zh) * 2020-12-28 2024-03-29 山西云时代研发创新中心有限公司 基于任务驱动的自然场景中交通标志显著性检测方法
CN113191373B (zh) * 2021-05-11 2023-05-05 山东财经大学 一种基于中心先验与U-Net网络相结合的显著性检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184557A (zh) * 2011-06-17 2011-09-14 电子科技大学 一种复杂场景的显著区域检测方法
CN107292875A (zh) * 2017-06-29 2017-10-24 西安建筑科技大学 一种基于全局‑局部特征融合的显著性检测方法
CN108664967A (zh) * 2018-04-17 2018-10-16 上海交通大学 一种多媒体页面视觉显著性预测方法及***
CN109741293A (zh) * 2018-11-20 2019-05-10 武汉科技大学 显著性检测方法及装置
CN110084249A (zh) * 2019-04-24 2019-08-02 哈尔滨工业大学 基于金字塔特征注意的图像显著性检测方法
CN110097115A (zh) * 2019-04-28 2019-08-06 南开大学 一种基于注意力转移机制的视频显著性物体检测方法
CN110263786A (zh) * 2019-06-24 2019-09-20 东北大学 一种基于特征维度融合的道路多目标识别***及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7940985B2 (en) * 2007-06-06 2011-05-10 Microsoft Corporation Salient object detection

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184557A (zh) * 2011-06-17 2011-09-14 电子科技大学 一种复杂场景的显著区域检测方法
CN107292875A (zh) * 2017-06-29 2017-10-24 西安建筑科技大学 一种基于全局‑局部特征融合的显著性检测方法
CN108664967A (zh) * 2018-04-17 2018-10-16 上海交通大学 一种多媒体页面视觉显著性预测方法及***
CN109741293A (zh) * 2018-11-20 2019-05-10 武汉科技大学 显著性检测方法及装置
CN110084249A (zh) * 2019-04-24 2019-08-02 哈尔滨工业大学 基于金字塔特征注意的图像显著性检测方法
CN110097115A (zh) * 2019-04-28 2019-08-06 南开大学 一种基于注意力转移机制的视频显著性物体检测方法
CN110263786A (zh) * 2019-06-24 2019-09-20 东北大学 一种基于特征维度融合的道路多目标识别***及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Multi-scale Pyramid Pooling Networks for salient object detection";Abdelhafid Dakhia等;《Neurocomputing》;20190314;211-220页 *
"基于空间卷积神经网络模型的图形显著性检测";高东东等;《计算机工程》;20180531;240-245页 *

Also Published As

Publication number Publication date
CN110929735A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN110929735B (zh) 一种基于多尺度特征注意机制的快速显著性检测方法
Chen et al. Learning spatial attention for face super-resolution
Song et al. Monocular depth estimation using laplacian pyramid-based depth residuals
Anwar et al. Image colorization: A survey and dataset
CN111210443B (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN112329800A (zh) 一种基于全局信息引导残差注意力的显著性目标检测方法
CN111582316A (zh) 一种rgb-d显著性目标检测方法
CN112348870B (zh) 一种基于残差融合的显著性目标检测方法
CN112598053B (zh) 基于半监督学习的主动显著性目标检测方法
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN110188802B (zh) 基于多层特征图融合的ssd目标检测算法
CN111797841B (zh) 一种基于深度残差网络的视觉显著性检测方法
CN110853039B (zh) 一种多数据融合的草图图像分割方法、***、装置及存储介质
CN115082675B (zh) 一种透明物体图像分割方法及***
CN114926734B (zh) 基于特征聚合和注意融合的固体废弃物检测装置及方法
CN113076947A (zh) 一种交叉引导融合的rgb-t图像显著性检测***
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络
CN117726954B (zh) 一种遥感图像海陆分割方法及***
CN112633085A (zh) 一种基于注意力导向机制的人脸检测方法、***、存储介质及终端
CN116778180A (zh) 一种基于多级特征和上下文信息融合的rgb-d显著性目标检测方法
CN114882405B (zh) 一种基于时空双流金字塔网络架构的视频显著性检测方法
CN113222016B (zh) 一种基于高层和低层特征交叉增强的变化检测方法及装置
CN113298154A (zh) 一种rgb-d图像显著目标检测方法
CN113554655A (zh) 基于多特征增强的光学遥感图像分割方法及装置
CN113177546A (zh) 一种基于稀疏注意力模块的目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant