CN113298154A - 一种rgb-d图像显著目标检测方法 - Google Patents

一种rgb-d图像显著目标检测方法 Download PDF

Info

Publication number
CN113298154A
CN113298154A CN202110585098.1A CN202110585098A CN113298154A CN 113298154 A CN113298154 A CN 113298154A CN 202110585098 A CN202110585098 A CN 202110585098A CN 113298154 A CN113298154 A CN 113298154A
Authority
CN
China
Prior art keywords
rgbd
features
rgb
image
multilayer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110585098.1A
Other languages
English (en)
Other versions
CN113298154B (zh
Inventor
刘政怡
汪远
何倩
姚晟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202110585098.1A priority Critical patent/CN113298154B/zh
Publication of CN113298154A publication Critical patent/CN113298154A/zh
Application granted granted Critical
Publication of CN113298154B publication Critical patent/CN113298154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种RGB‑D图像显著目标检测方法,包括以下步骤:提取RGB图像特征,同时提取Depth图像特征,并将Depth图像特征与RGB图像特征进行融合,形成RGBD融合特征;调整所述RGBD融合特征的尺度,形成通道数和分辨率都相同的RGBD多层特征;双向门控解码所述RGBD多层特征,形成RGBD增强特征;所述RGBD增强特征逐步相加,形成显著图。本发明检测方法中将编码器抽取的多层特征看作输入序列,通过双向门控循环单元解码多层特征,利用门控循环单元记忆共同信息,遗忘不一致信息,找出多层特征中的共有信息,提升特征的信息表示,实现最优的解码过程。

Description

一种RGB-D图像显著目标检测方法
技术领域
本发明涉及计算机视觉领域,特别是涉及一种RGB-D图像显著目标检测方法。
背景技术
RGB-D图像是由RGB颜色图像和Depth深度图像组成,表达了某一场景的外观特点及三维信息。目前RGB-D图像显著目标检测方法存在两种多模态融合方法,一种是双流融合,同等看待颜色和深度图像,另一种是深度指导的融合,以颜色图像为主,深度图像为辅。鉴于存在一些质量较差的深度图像,采用双流融合,可能扩大深度误差,给最终的显著目标检测结果带来不利的影响。因此深度指导的融合是一种更好的融合方法。
同时,图像显著目标检测属于像素级别的密集预测任务,通常使用VGG16或ResNet50等主干网络实现多层特征提取,然后由解码器通过逐层上采样并结合多层特征产生最终的显著图。结合的方法多为相加或者级联操作,这种方法从高层开始,逐层地累加低层特征,可能会在上采样过程中稀释高层特征,同时也会增加一些低层噪音。
因此,亟需设计一种RGB-D图像显著目标检测方法,提供一种合适的解码器,更好地融合多层特征,以解决上述问题。
发明内容
本发明所需要解决的技术问题是提供一种RGB-D图像显著目标检测方法,更好地融合多层特征。
本发明具体采用的技术方案如下:
一种RGB-D图像显著目标检测方法,该方法包括以下步骤:
S1、提取RGB图像特征,同时提取Depth图像特征,并将Depth图像特征与RGB图像特征进行融合,形成RGBD融合特征;
S2、调整所述RGBD融合特征的尺度,形成通道数和分辨率都相同的RGBD多层特征;
S3、双向门控解码所述RGBD多层特征,形成RGBD增强特征;
S4、所述RGBD增强特征逐步相加,形成显著图。
进一步地,在所述步骤S1中,提取RGB图像特征的方法是使用在ImageNet上预训练的ResNet50网络提取图像颜色特征,形成
Figure BDA0003086925790000011
类似地,提取Depth图像特征的方法是使用在ImageNet上预训练的ResNet50网络提取图像深度特征,形成
Figure BDA0003086925790000021
其中i表示层数,对应于ResNet50的每层输出,i取值为1至5的自然数。
所述将Depth图像特征与RGB图像特征进行融合的方法采用深度指导残差模块实现,所述深度指导残差模块,首先对Depth图像特征进行并行的通道注意力和空间注意力特征增强,然后通过与RGB图像特征逐元素相乘,得到深度图像特征指导下的两个优化后的RGB图像特征,最后将二者进行相加融合,从通道和空间两个角度增强RGB图像特征。
为了保留更多的原始RGB图像特征,在增强前后增加一个残差连接,最终形成RGBD融合特征
Figure BDA0003086925790000022
Figure BDA0003086925790000023
所述CA(·)操作是指论文《CBAM:Convolutional Block Attention Module》中所提出的通道注意力模块,SA(·)操作是指论文《CBAM:Convolutional Block AttentionModule》中所提出的空间注意力模块,“×”是指逐元素相乘操作,“+”是指逐元素相加操作。
进一步地,在步骤S2中,调整所述RGBD融合特征的尺度,分为两个阶段:第一阶段调整通道数,第二阶段调整分辨率,最终形成通道数和分辨率都相同的RGBD多层特征Fi 2;S2.1:调整通道数
对于所述S1步骤得到的RGBD融合特征
Figure BDA0003086925790000024
实施一个T(·)操作,得到同通道数的多尺度特征
Figure BDA0003086925790000025
Figure BDA0003086925790000026
其中T(·)操作是指对特征X进行卷积核为3×3的卷积操作,并实施ReLU激活函数:
T(X)=ReLU(Conv(X))
其中Conv(·)表示卷积操作,ReLU(·)表示ReLU激活函数。
S2.2:调整分辨率
对于所述S2.1步骤得到的同通道数的多尺度特征
Figure BDA0003086925790000027
经过一个下三角形上采样操作LTUM(·),得到同通道数同分辨率的RGBD多层特征
Figure BDA0003086925790000028
Figure BDA0003086925790000029
所述LTUM(·)操作根据i的不同有所区别,具体定义如下:
Figure BDA00030869257900000210
Figure BDA00030869257900000211
Figure BDA00030869257900000212
Figure BDA00030869257900000213
Figure BDA0003086925790000031
其中AMA(·)操作为论文《Bidirectional pyramid networks for semanticsegmentation》中提出的add-multiply-add特征融合模块。
进一步地,在步骤S3中,双向门控循环解码所述RGBD多层特征,形成RGBD增强特征的具体方法如下:
以最高层的RGBD增强特征
Figure BDA0003086925790000032
为初始隐藏状态,实施一个由高到低流向的单向门控循环解码过程,同时以最低层的RGBD增强特征
Figure BDA0003086925790000033
为初始隐藏状态,实施一个由低到高流向的单向门控循环解码过程,双向门控循环解码过程中对应层产生的隐藏状态被融合,产生RGBD增强特征
Figure BDA0003086925790000034
更进一步地,所述由高到低流向的单向门控循环解码过程采用门控循环单元加以实现,输入序列为
Figure BDA0003086925790000035
初始隐藏状态为最高层的RGBD增强特征
Figure BDA0003086925790000036
在所述门控循环单元中,隐藏状态表示为Ht,重置门表示为rt,更新门表示为zt,记忆单位表示为
Figure BDA0003086925790000037
每一个时间步的输入为由高到低的每一层RGBD多层特征
Figure BDA0003086925790000038
Figure BDA0003086925790000039
Figure BDA00030869257900000310
Figure BDA00030869257900000311
Figure BDA00030869257900000312
Figure BDA00030869257900000313
其中tanh((·)表示tanh函数。
经过时间步为5的门控循环解码之后,将每一个时间步的输出表示为
Figure BDA00030869257900000314
同理,所述由低到高流向的单向门控循环解码过程采用门控循环单元加以实现,输入序列为
Figure BDA00030869257900000315
初始隐藏状态为最低层的RGBD增强特征
Figure BDA00030869257900000316
在所述门控循环单元中,隐藏状态表示为Ht,重置门表示为rt,更新门表示为zt,记忆单位表示为
Figure BDA00030869257900000317
每一个时间步的输入为由低到高的每一层RGBD多层特征
Figure BDA00030869257900000318
Figure BDA00030869257900000319
Figure BDA00030869257900000320
Figure BDA00030869257900000321
Figure BDA00030869257900000322
Figure BDA00030869257900000323
经过时间步为5的门控循环解码之后,将每一个时间步的输出表示为
Figure BDA00030869257900000324
由以上所述由高到低流向的单向门控循环解码过程及所述由低到高流向的单向门控循环解码过程所产生的输出,对应层经过TFM模块融合,产生RGBD增强特征
Figure BDA0003086925790000041
Figure BDA0003086925790000042
所述TFM模块具体定义如下:
Figure BDA0003086925790000043
其中Up(·)操作表示两倍上采样操作,Cat(·)表示级联操作。
进一步地,在步骤S4中,RGBD增强特征
Figure BDA0003086925790000044
逐步相加得到总特征
Figure BDA0003086925790000045
的具体公式如下:
Figure BDA0003086925790000046
总特征
Figure BDA0003086925790000047
通过Sigmoid激活函数产生显著图的具体公式如下:
Figure BDA0003086925790000048
其中Sig(·)表示Sigmoid激活函数。
与已有技术相比,本发明有益效果体现在:
本发明提出一种RGB-D图像显著目标检测方法,将编码器抽取的多层特征看作输入序列,通过双向门控循环单元解码多层特征,利用门控循环单元记忆共同信息,遗忘不一致信息,找出多层特征中的共有信息,提升特征的信息表示,实现最优的解码过程。
附图说明
图1为本发明一种RGB-D图像显著目标检测方法的流程图;
图2为本发明实施例1图像显著目标检测方法的算法流程图。
以下通过具体实施方式,并结合附图对本发明做进一步说明,但本发明的实施方式不限于此。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
一种RGB-D图像显著目标检测方法,该方法包括以下步骤:
S1、提取RGB图像特征,同时提取Depth图像特征,并将Depth图像特征与RGB图像特征进行融合,形成RGBD融合特征;
S2、调整所述RGBD融合特征的尺度,形成通道数和分辨率都相同的RGBD多层特征;
S3、双向门控解码所述RGBD多层特征,形成RGBD增强特征;
S4、所述RGBD增强特征逐步相加,形成显著图。
进一步地,在所述步骤S1中,提取RGB图像特征的方法是使用在ImageNet上预训练的ResNet50网络提取图像颜色特征,形成
Figure BDA0003086925790000051
类似地,提取Depth图像特征的方法是使用在ImageNet上预训练的ResNet50网络提取图像深度特征,形成
Figure BDA0003086925790000052
其中i表示层数,对应于ResNet50的每层输出,i取值为1至5的自然数。
所述将Depth图像特征与RGB图像特征进行融合的方法采用深度指导残差模块实现,所述深度指导残差模块,首先对Depth图像特征进行并行的通道注意力和空间注意力特征增强,然后通过与RGB图像特征逐元素相乘,得到深度图像特征指导下的两个优化后的RGB图像特征,最后将二者进行相加融合,从通道和空间两个角度增强RGB图像特征。
为了保留更多的原始RGB图像特征,在增强前后增加一个残差连接,最终形成RGBD融合特征
Figure BDA0003086925790000053
Figure BDA0003086925790000054
所述CA(·)操作是指论文《CBAM:Convolutional Block Attention Module》中所提出的通道注意力模块,SA(·)操作是指论文《CBAM:Convolutional Block AttentionModule》中所提出的空间注意力模块,“×”是指逐元素相乘操作,“+”是指逐元素相加操作。
进一步地,在步骤S2中,调整所述RGBD融合特征的尺度,分为两个阶段:第一阶段调整通道数,第二阶段调整分辨率,最终形成通道数和分辨率都相同的RGBD多层特征
Figure BDA0003086925790000055
S2.1:调整通道数
对于所述S1步骤得到的RGBD融合特征
Figure BDA0003086925790000056
实施一个T(·)操作,得到同通道数的多尺度特征
Figure BDA0003086925790000057
Figure BDA0003086925790000058
其中T(·)操作是指对特征X进行卷积核为3×3的卷积操作,并实施ReLU激活函数:
T(X)=ReLU(Conv(X))
其中Conv(·)表示卷积操作,ReLU(·)表示ReLU激活函数。
S2.2:调整分辨率
对于所述S2.1步骤得到的同通道数的多尺度特征
Figure BDA0003086925790000059
经过一个下三角形上采样操作LTUM(·),得到同通道数同分辨率的RGBD多层特征
Figure BDA00030869257900000510
Figure BDA00030869257900000511
所述LTUM(·)操作根据i的不同有所区别,具体定义如下:
Figure BDA0003086925790000061
Figure BDA0003086925790000062
Figure BDA0003086925790000063
Figure BDA0003086925790000064
Figure BDA0003086925790000065
其中AMA(·)操作为论文《Bidirectional pyramid networks for semanticsegmentation》中提出的add-multiply-add特征融合模块。
进一步地,在步骤S3中,双向门控循环解码所述RGBD多层特征,形成RGBD增强特征的具体方法如下:
以最高层的RGBD增强特征
Figure BDA0003086925790000066
为初始隐藏状态,实施一个由高到低流向的单向门控循环解码过程,同时以最低层的RGBD增强特征
Figure BDA0003086925790000067
为初始隐藏状态,实施一个由低到高流向的单向门控循环解码过程,双向门控循环解码过程中对应层产生的隐藏状态被融合,产生RGBD增强特征
Figure BDA0003086925790000068
更进一步地,所述由高到低流向的单向门控循环解码过程采用门控循环单元加以实现,输入序列为
Figure BDA0003086925790000069
初始隐藏状态为最高层的RGBD增强特征
Figure BDA00030869257900000610
在所述门控循环单元中,隐藏状态表示为Ht,重置门表示为rt,更新门表示为zt,记忆单位表示为
Figure BDA00030869257900000611
每一个时间步的输入为由高到低的每一层RGBD多层特征
Figure BDA00030869257900000612
Figure BDA00030869257900000613
Figure BDA00030869257900000614
Figure BDA00030869257900000615
Figure BDA00030869257900000616
Figure BDA00030869257900000617
其中tanh((·)表示tanh函数。
经过时间步为5的门控循环解码之后,将每一个时间步的输出表示为
Figure BDA00030869257900000618
同理,所述由低到高流向的单向门控循环解码过程采用门控循环单元加以实现,输入序列为
Figure BDA00030869257900000619
初始隐藏状态为最低层的RGBD增强特征
Figure BDA00030869257900000620
在所述门控循环单元中,隐藏状态表示为Ht,重置门表示为rt,更新门表示为zt,记忆单位表示为
Figure BDA00030869257900000621
每一个时间步的输入为由低到高的每一层RGBD多层特征
Figure BDA00030869257900000622
Figure BDA00030869257900000623
Figure BDA00030869257900000624
Figure BDA00030869257900000625
Figure BDA0003086925790000071
Figure BDA0003086925790000072
经过时间步为5的门控循环解码之后,将每一个时间步的输出表示为
Figure BDA0003086925790000073
由以上所述由高到低流向的单向门控循环解码过程及所述由低到高流向的单向门控循环解码过程所产生的输出,对应层经过TFM模块融合,产生RGBD增强特征
Figure BDA0003086925790000074
Figure BDA0003086925790000075
所述TFM模块具体定义如下:
Figure BDA0003086925790000076
其中Up(·)操作表示两倍上采样操作,Cat(·)表示级联操作。
进一步地,在步骤S4中,RGBD增强特征
Figure BDA0003086925790000077
逐步相加得到总特征
Figure BDA0003086925790000078
的具体公式如下:
Figure BDA0003086925790000079
总特征
Figure BDA00030869257900000710
通过Sigmoid激活函数产生显著图的具体公式如下:
Figure BDA00030869257900000711
其中Sig(·)表示Sigmoid激活函数。
本发明RGB-D图像显著目标检测方法,将编码器抽取的多层特征看作输入序列,通过双向门控循环单元解码多层特征,利用门控循环单元记忆共同信息,遗忘不一致信息,找出多层特征中的共有信息,提升特征的信息表示,实现最优的解码过程。
实施例1
本实施例所述RGB-D图像显著目标检测方法在NJU2K数据集上选取1485张图片、在NLPR数据集上选取700张图片组成训练集,对NJU2K数据集和NLPR数据集上的剩余图片及整个的STERE,DES和SIP数据集作为测试集,进行测试。另外,对DUT数据集,采用与论文《Depth-induced multiscale recurrent attention network for saliency detection》相同的设置,训练集增加DUT训练集的800张图片,在DUT测试集上进行测试。
在训练和测试阶段,输入的RGB-D图像被调整到352*352大小,训练集进行了随机翻转、旋转、边界裁剪等数据增强操作。模型训练选取Adam优化器,初始学习率为1e-4,批处理大小为5,采用ResNet50预训练参数及PyTorch默认设置,使用的显卡是NVIDIAGTX1080Ti GPU。模型训练200代后收敛,耗时约8小时。
所述方法与14种RGB-D显著物体检测方法CPFP[1],DMRA[2],cmSalGAN[3],D3Net[4],ICNet[5],DCMF[6],DRLF[7],SSF[8],SSMA[9],A2dele[10],UCNet[11],CoNet[12],PGAR[13]and DANet[14]进行对比,结果见表1。
表1实验结果
Figure BDA0003086925790000081
[1]J.-X.Zhao,Y.Cao,D.-P.Fan,M.-M.Cheng,X.-Y.Li,and L.Zhang,“Contrastprior and fluid pyramid integration for RGBD salient object detection,”inProceedings of the IEEE Conference on Computer Vision and PatternRecognition,2019,pp.3927–3936.
[2]Y.Piao,W.Ji,J.Li,M.Zhang,and H.Lu,“Depth-induced multiscalerecurrent attention network for saliency detection,”in Proceedings of theIEEE International Conference on Computer Vision,2019,pp.7254–7263.
[3]B.Jiang,Z.Zhou,X.Wang,J.Tang,and B.Luo,“cmSalGAN:RGBD SalientObject Detection with Cross-View Generative Adversarial Networks,”IEEETransactions on Multimedia,2020.
[4]D.-P.Fan,Z.Lin,Z.Zhang,M.Zhu,and M.-M.Cheng,“Rethinking RGB-DSalient Object Detection:Models,Data Sets,and Large-Scale Benchmarks,”IEEETransactions on Neural Networks and Learning Systems,2020.
[5]G.Li,Z.Liu,and H.Ling,“ICNet:Information Conversion Network forRGB-D Based Salient Object Detection,”IEEE Transactions on Image Processing,vol.29,pp.4873–4884,2020.
[6]H.Chen,Y.Deng,Y.Li,T.-Y.Hung,and G.Lin,“RGBD salient objectdetection via disentangled cross-modal fusion,”IEEE Transactions on ImageProcessing,vol.29,pp.8407–8416,2020.
[7]X.Wang,S.Li,C.Chen,Y.Fang,A.Hao,and H.Qin,“Data-levelrecombination and lightweight fusion scheme for RGB-D salient objectdetection,”IEEE Transactions on Image Processing,vol.30,pp.458–471,2020.
[8]M.Zhang,W.Ren,Y.Piao,Z.Rong,and H.Lu,“Select,Supplement and Focusfor RGB-D Saliency Detection,”in Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,pp.3472–3481.
[9]N.Liu,N.Zhang,and J.Han,“Learning Selective Self-Mutual Attentionfor RGB-D Saliency Detection,”in Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,pp.13756–13765.
如表1所示可知,本发明方法在自适应F-measure、自适应E-measure及MAE的评价指标上均取得最优的结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种RGB-D图像显著目标检测方法,其特征在于,该方法包括以下步骤:
S1、提取RGB图像特征,同时提取Depth图像特征,并将Depth图像特征与RGB图像特征进行融合,形成RGBD融合特征;
S2、调整所述RGBD融合特征的尺度,形成通道数和分辨率都相同的RGBD多层特征;
S3、双向门控解码所述RGBD多层特征,形成RGBD增强特征;
S4、所述RGBD增强特征逐步相加,形成显著图。
2.根据权利要求1所述的一种RGB-D图像显著目标检测方法,其特征在于,在所述步骤S1中,提取RGB图像特征的方法是使用在ImageNet上预训练的ResNet50网络提取图像颜色特征,形成
Figure FDA0003086925780000011
类似地,提取Depth图像特征的方法是使用在ImageNet上预训练的ResNet50网络提取图像深度特征,形成
Figure FDA0003086925780000012
其中i表示层数,对应于ResNet50的每层输出,i取值为1至5的自然数;
所述将Depth图像特征与RGB图像特征进行融合的方法采用深度指导残差模块实现,所述深度指导残差模块,首先对Depth图像特征进行并行的通道注意力和空间注意力特征增强,然后通过与RGB图像特征逐元素相乘,得到深度图像特征指导下的两个优化后的RGB图像特征,最后将二者进行相加融合,从通道和空间两个角度增强RGB图像特征;
为了保留更多的原始RGB图像特征,在增强前后增加一个残差连接,最终形成RGBD融合特征
Figure FDA0003086925780000013
Figure FDA0003086925780000014
所述CA(·)操作是指论文《CBAM:Convolutional Block Attention Module》中所提出的通道注意力模块,SA(·)操作是指论文《CBAM:Convolutional Block AttentionModule》中所提出的空间注意力模块,“×”是指逐元素相乘操作,“+”是指逐元素相加操作。
3.根据权利要求1所述的一种RGB-D图像显著目标检测方法,其特征在于,在步骤S2中,调整所述RGBD融合特征的尺度,分为两个阶段:第一阶段调整通道数,第二阶段调整分辨率,最终形成通道数和分辨率都相同的RGBD多层特征
Figure FDA0003086925780000015
S2.1:调整通道数
对于所述S1步骤得到的RGBD融合特征
Figure FDA0003086925780000016
实施一个T(·)操作,得到同通道数的多尺度特征
Figure FDA0003086925780000017
Figure FDA0003086925780000018
其中T(·)操作是指对特征X进行卷积核为3×3的卷积操作,并实施ReLU激活函数:
T(X)=ReLU(Conv(X))
其中Conv(·)表示卷积操作,ReLU(·)表示ReLU激活函数;
S2.2:调整分辨率
对于所述S2.1步骤得到的同通道数的多尺度特征
Figure FDA0003086925780000021
经过一个下三角形上采样操作LTUM(·),得到同通道数同分辨率的RGBD多层特征
Figure FDA0003086925780000022
Figure FDA0003086925780000023
所述LTUM(·)操作根据i的不同有所区别,具体定义如下:
Figure FDA0003086925780000024
Figure FDA0003086925780000025
Figure FDA0003086925780000026
Figure FDA0003086925780000027
Figure FDA0003086925780000028
其中AMA(·)操作为论文《Bidirectional pyramid networks for semanticsegmentation》中提出的add-multiply-add特征融合模块。
4.根据权利要求1所述的一种RGB-D图像显著目标检测方法,其特征在于,在步骤S3中,双向门控循环解码所述RGBD多层特征,形成RGBD增强特征的具体方法如下:
以最高层的RGBD增强特征
Figure FDA0003086925780000029
为初始隐藏状态,实施一个由高到低流向的单向门控循环解码过程,同时以最低层的RGBD增强特征
Figure FDA00030869257800000210
为初始隐藏状态,实施一个由低到高流向的单向门控循环解码过程,双向门控循环解码过程中对应层产生的隐藏状态被融合,产生RGBD增强特征
Figure FDA00030869257800000211
5.根据权利要求4所述的一种RGB-D图像显著目标检测方法,其特征在于,所述由高到低流向的单向门控循环解码过程采用门控循环单元加以实现,输入序列为
Figure FDA00030869257800000212
初始隐藏状态为最高层的RGBD增强特征
Figure FDA00030869257800000213
在所述门控循环单元中,隐藏状态表示为Ht,重置门表示为rt,更新门表示为zt,记忆单位表示为
Figure FDA00030869257800000214
每一个时间步的输入为由高到低的每一层RGBD多层特征
Figure FDA00030869257800000215
Figure FDA00030869257800000216
Figure FDA00030869257800000217
Figure FDA00030869257800000218
Figure FDA00030869257800000219
Figure FDA00030869257800000220
其中tanh(·)表示tanh函数;
经过时间步为5的门控循环解码之后,将每一个时间步的输出表示为
Figure FDA00030869257800000221
同理,所述由低到高流向的单向门控循环解码过程采用门控循环单元加以实现,输入序列为
Figure FDA0003086925780000031
初始隐藏状态为最低层的RGBD增强特征
Figure FDA0003086925780000032
在所述门控循环单元中,隐藏状态表示为Ht,重置门表示为rt,更新门表示为zt,记忆单位表示为
Figure FDA0003086925780000033
每一个时间步的输入为由低到高的每一层RGBD多层特征
Figure FDA0003086925780000034
Figure FDA0003086925780000035
Figure FDA0003086925780000036
Figure FDA0003086925780000037
Figure FDA0003086925780000038
Figure FDA0003086925780000039
经过时间步为5的门控循环解码之后,将每一个时间步的输出表示为
Figure FDA00030869257800000310
由以上所述由高到低流向的单向门控循环解码过程及所述由低到高流向的单向门控循环解码过程所产生的输出,对应层经过TFM模块融合,产生RGBD增强特征
Figure FDA00030869257800000311
Figure FDA00030869257800000312
所述TFM模块具体定义如下:
TFM(x,y)=Conv(Up(T(Up(T(Cat(X,Y))))))
其中Up(·)操作表示两倍上采样操作,Cat(·)表示级联操作。
6.根据权利要求1所述的一种RGB-D图像显著目标检测方法,其特征在于,在步骤S4中,RGBD增强特征
Figure FDA00030869257800000313
逐步相加得到总特征
Figure FDA00030869257800000314
的具体公式如下:
Figure FDA00030869257800000315
总特征
Figure FDA00030869257800000316
通过Sigmoid激活函数产生显著图的具体公式如下:
Figure FDA00030869257800000317
其中Sig(·)表示Sigmoid激活函数。
CN202110585098.1A 2021-05-27 2021-05-27 一种rgb-d图像显著目标检测方法 Active CN113298154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110585098.1A CN113298154B (zh) 2021-05-27 2021-05-27 一种rgb-d图像显著目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110585098.1A CN113298154B (zh) 2021-05-27 2021-05-27 一种rgb-d图像显著目标检测方法

Publications (2)

Publication Number Publication Date
CN113298154A true CN113298154A (zh) 2021-08-24
CN113298154B CN113298154B (zh) 2022-11-11

Family

ID=77325619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110585098.1A Active CN113298154B (zh) 2021-05-27 2021-05-27 一种rgb-d图像显著目标检测方法

Country Status (1)

Country Link
CN (1) CN113298154B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237343A (zh) * 2023-11-13 2023-12-15 安徽大学 半监督rgb-d图像镜面检测方法、存储介质及计算机设备

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997478A (zh) * 2017-04-13 2017-08-01 安徽大学 基于显著中心先验的rgb‑d图像显著目标检测方法
CN108171141A (zh) * 2017-12-25 2018-06-15 淮阴工学院 基于注意力模型的级联多模式融合的视频目标跟踪方法
CN109409435A (zh) * 2018-11-01 2019-03-01 上海大学 一种基于卷积神经网络的深度感知显著性检测方法
CN109598268A (zh) * 2018-11-23 2019-04-09 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
CN109816100A (zh) * 2019-01-30 2019-05-28 中科人工智能创新技术研究院(青岛)有限公司 一种基于双向融合网络的显著性物体检测方法及装置
CN109902750A (zh) * 2019-03-04 2019-06-18 山西大学 基于双向单注意力机制图像描述方法
CN110298361A (zh) * 2019-05-22 2019-10-01 浙江省北大信息技术高等研究院 一种rgb-d图像的语义分割方法和***
CN110334718A (zh) * 2019-07-09 2019-10-15 方玉明 一种基于长短期记忆的二维视频显著性检测方法
CN110675406A (zh) * 2019-09-16 2020-01-10 南京信息工程大学 基于残差双注意力深度网络的ct图像肾脏分割算法
CN110825968A (zh) * 2019-11-04 2020-02-21 腾讯科技(深圳)有限公司 信息推送方法、装置、存储介质和计算机设备
CN111242138A (zh) * 2020-01-11 2020-06-05 杭州电子科技大学 一种基于多尺度特征融合的rgbd显著性检测方法
CN111563513A (zh) * 2020-05-15 2020-08-21 电子科技大学 基于注意力机制的散焦模糊检测方法
CN111680695A (zh) * 2020-06-08 2020-09-18 河南工业大学 一种基于反向注意力模型的语义分割方法
US20200357143A1 (en) * 2019-05-09 2020-11-12 Sri International Semantically-aware image-based visual localization
CN111967477A (zh) * 2020-07-02 2020-11-20 北京大学深圳研究生院 Rgb-d图像显著性目标检测方法、装置、设备及存储介质
CN111985370A (zh) * 2020-08-10 2020-11-24 华南农业大学 一种基于改进混合注意力模块的农作物病虫害的细粒度识别方法
CN112348870A (zh) * 2020-11-06 2021-02-09 大连理工大学 一种基于残差融合的显著性目标检测方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997478A (zh) * 2017-04-13 2017-08-01 安徽大学 基于显著中心先验的rgb‑d图像显著目标检测方法
CN108171141A (zh) * 2017-12-25 2018-06-15 淮阴工学院 基于注意力模型的级联多模式融合的视频目标跟踪方法
CN109409435A (zh) * 2018-11-01 2019-03-01 上海大学 一种基于卷积神经网络的深度感知显著性检测方法
CN109598268A (zh) * 2018-11-23 2019-04-09 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
CN109816100A (zh) * 2019-01-30 2019-05-28 中科人工智能创新技术研究院(青岛)有限公司 一种基于双向融合网络的显著性物体检测方法及装置
CN109902750A (zh) * 2019-03-04 2019-06-18 山西大学 基于双向单注意力机制图像描述方法
US20200357143A1 (en) * 2019-05-09 2020-11-12 Sri International Semantically-aware image-based visual localization
CN110298361A (zh) * 2019-05-22 2019-10-01 浙江省北大信息技术高等研究院 一种rgb-d图像的语义分割方法和***
CN110334718A (zh) * 2019-07-09 2019-10-15 方玉明 一种基于长短期记忆的二维视频显著性检测方法
CN110675406A (zh) * 2019-09-16 2020-01-10 南京信息工程大学 基于残差双注意力深度网络的ct图像肾脏分割算法
CN110825968A (zh) * 2019-11-04 2020-02-21 腾讯科技(深圳)有限公司 信息推送方法、装置、存储介质和计算机设备
CN111242138A (zh) * 2020-01-11 2020-06-05 杭州电子科技大学 一种基于多尺度特征融合的rgbd显著性检测方法
CN111563513A (zh) * 2020-05-15 2020-08-21 电子科技大学 基于注意力机制的散焦模糊检测方法
CN111680695A (zh) * 2020-06-08 2020-09-18 河南工业大学 一种基于反向注意力模型的语义分割方法
CN111967477A (zh) * 2020-07-02 2020-11-20 北京大学深圳研究生院 Rgb-d图像显著性目标检测方法、装置、设备及存储介质
CN111985370A (zh) * 2020-08-10 2020-11-24 华南农业大学 一种基于改进混合注意力模块的农作物病虫害的细粒度识别方法
CN112348870A (zh) * 2020-11-06 2021-02-09 大连理工大学 一种基于残差融合的显著性目标检测方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
DENG-PING FAN ET AL: "BBS-Net: RGB-D Salient Object Detection with a Bifurcated Backbone Strategy Network", 《COMPUTER VISION-ECCV 2020》 *
DONG NIE ET AL: "Bidirectional Pyramid Networks for Semantic Segmentation", 《COMPUTER VISION–ACCV2020》 *
GONGYANG LI ET AL: "ICNet: Information Conversion Network for RGB-D Based Salient Object Detection", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
J.-X.ZHAO ET AL: "Contrast prior and fluid pyramid integration for RGBD salient object detection", 《CVPR》 *
W. ZHOU ET AL: "Global and Local-Contrast Guides Content-Aware Fusion for RGB-D Saliency Prediction", 《IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS: SYSTEMS》 *
Z. CHEN, R ET AL: "DPANet: Depth Potentiality-Aware Gated Attention Network for RGB-D Salient Object Detection", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
ZHEN BAI ET AL: "Circular Complement Network for RGB-D Salient Object Detection", 《NEUROCOMPUTING》 *
周礼德: "非机制和多监督的特征聚合关注块融合网络的显著目标", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
皮家甜等: "基于多模态特征融合的轻量级人脸活体检测方法", 《计算机应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237343A (zh) * 2023-11-13 2023-12-15 安徽大学 半监督rgb-d图像镜面检测方法、存储介质及计算机设备
CN117237343B (zh) * 2023-11-13 2024-01-30 安徽大学 半监督rgb-d图像镜面检测方法、存储介质及计算机设备

Also Published As

Publication number Publication date
CN113298154B (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
Aigner et al. Futuregan: Anticipating the future frames of video sequences using spatio-temporal 3d convolutions in progressively growing gans
Xu et al. Learning deep structured multi-scale features using attention-gated crfs for contour prediction
Zhou et al. Salient object detection in stereoscopic 3D images using a deep convolutional residual autoencoder
CN110120049B (zh) 由单张图像联合估计场景深度与语义的方法
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN110929735B (zh) 一种基于多尺度特征注意机制的快速显著性检测方法
CN113076947B (zh) 一种交叉引导融合的rgb-t图像显著性检测***
CN114092774B (zh) 基于信息流融合的rgb-t图像显著性检测***及检测方法
CN114549567A (zh) 基于全方位感知的伪装目标图像分割方法
CN114693929A (zh) 一种rgb-d双模态特征融合的语义分割方法
Jang et al. Lip reading using committee networks with two different types of concatenated frame images
CN112651459A (zh) 深度学习图像对抗样本防御方法、装置、设备及存储介质
CN114926734B (zh) 基于特征聚合和注意融合的固体废弃物检测装置及方法
CN116645598A (zh) 一种基于通道注意力特征融合的遥感图像语义分割方法
CN113298154B (zh) 一种rgb-d图像显著目标检测方法
CN113379606B (zh) 一种基于预训练生成模型的人脸超分辨方法
Fan et al. Multi-task and multi-modal learning for rgb dynamic gesture recognition
Kim et al. Adversarial confidence estimation networks for robust stereo matching
CN114529793A (zh) 一种基于门控循环特征融合的深度图像修复***及方法
CN116962657B (zh) 彩***生成方法、装置、电子设备及存储介质
CN117292017A (zh) 一种草图到图片跨域合成方法、***及设备
CN115546512A (zh) 基于可学习的权重描述子的光场图像显著目标检测方法
CN113362251B (zh) 基于双判别器与改进损失函数的对抗网络图像去雾方法
CN112927250B (zh) 一种基于多粒度注意力分层网络的边缘检测***和方法
CN111539922B (zh) 基于多任务网络的单目深度估计与表面法向量估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant