CN113298154A

CN113298154A - 一种rgb-d图像显著目标检测方法

Info

Publication number: CN113298154A
Application number: CN202110585098.1A
Authority: CN
Inventors: 刘政怡; 汪远; 何倩; 姚晟
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-08-24
Anticipated expiration: 2041-05-27
Also published as: CN113298154B

Abstract

本发明公开了一种RGB‑D图像显著目标检测方法，包括以下步骤：提取RGB图像特征，同时提取Depth图像特征，并将Depth图像特征与RGB图像特征进行融合，形成RGBD融合特征；调整所述RGBD融合特征的尺度，形成通道数和分辨率都相同的RGBD多层特征；双向门控解码所述RGBD多层特征，形成RGBD增强特征；所述RGBD增强特征逐步相加，形成显著图。本发明检测方法中将编码器抽取的多层特征看作输入序列，通过双向门控循环单元解码多层特征，利用门控循环单元记忆共同信息，遗忘不一致信息，找出多层特征中的共有信息，提升特征的信息表示，实现最优的解码过程。

Description

一种RGB-D图像显著目标检测方法

技术领域

本发明涉及计算机视觉领域，特别是涉及一种RGB-D图像显著目标检测方法。

背景技术

RGB-D图像是由RGB颜色图像和Depth深度图像组成，表达了某一场景的外观特点及三维信息。目前RGB-D图像显著目标检测方法存在两种多模态融合方法，一种是双流融合，同等看待颜色和深度图像，另一种是深度指导的融合，以颜色图像为主，深度图像为辅。鉴于存在一些质量较差的深度图像，采用双流融合，可能扩大深度误差，给最终的显著目标检测结果带来不利的影响。因此深度指导的融合是一种更好的融合方法。

同时，图像显著目标检测属于像素级别的密集预测任务，通常使用VGG16或ResNet50等主干网络实现多层特征提取，然后由解码器通过逐层上采样并结合多层特征产生最终的显著图。结合的方法多为相加或者级联操作，这种方法从高层开始，逐层地累加低层特征，可能会在上采样过程中稀释高层特征，同时也会增加一些低层噪音。

因此，亟需设计一种RGB-D图像显著目标检测方法，提供一种合适的解码器，更好地融合多层特征，以解决上述问题。

发明内容

本发明所需要解决的技术问题是提供一种RGB-D图像显著目标检测方法，更好地融合多层特征。

本发明具体采用的技术方案如下：

一种RGB-D图像显著目标检测方法，该方法包括以下步骤：

S1、提取RGB图像特征，同时提取Depth图像特征，并将Depth图像特征与RGB图像特征进行融合，形成RGBD融合特征；

S2、调整所述RGBD融合特征的尺度，形成通道数和分辨率都相同的RGBD多层特征；

S3、双向门控解码所述RGBD多层特征，形成RGBD增强特征；

S4、所述RGBD增强特征逐步相加，形成显著图。

进一步地，在所述步骤S1中，提取RGB图像特征的方法是使用在ImageNet上预训练的ResNet50网络提取图像颜色特征，形成

类似地，提取Depth图像特征的方法是使用在ImageNet上预训练的ResNet50网络提取图像深度特征，形成

其中i表示层数，对应于ResNet50的每层输出，i取值为1至5的自然数。

所述将Depth图像特征与RGB图像特征进行融合的方法采用深度指导残差模块实现，所述深度指导残差模块，首先对Depth图像特征进行并行的通道注意力和空间注意力特征增强，然后通过与RGB图像特征逐元素相乘，得到深度图像特征指导下的两个优化后的RGB图像特征，最后将二者进行相加融合，从通道和空间两个角度增强RGB图像特征。

为了保留更多的原始RGB图像特征，在增强前后增加一个残差连接，最终形成RGBD融合特征

所述CA(·)操作是指论文《CBAM:Convolutional Block Attention Module》中所提出的通道注意力模块，SA(·)操作是指论文《CBAM:Convolutional Block AttentionModule》中所提出的空间注意力模块，“×”是指逐元素相乘操作，“+”是指逐元素相加操作。

进一步地，在步骤S2中，调整所述RGBD融合特征的尺度，分为两个阶段：第一阶段调整通道数，第二阶段调整分辨率，最终形成通道数和分辨率都相同的RGBD多层特征F_i ²；S2.1：调整通道数

对于所述S1步骤得到的RGBD融合特征

实施一个T(·)操作，得到同通道数的多尺度特征

其中T(·)操作是指对特征X进行卷积核为3×3的卷积操作，并实施ReLU激活函数：

T(X)＝ReLU(Conv(X))

其中Conv(·)表示卷积操作，ReLU(·)表示ReLU激活函数。

S2.2：调整分辨率

对于所述S2.1步骤得到的同通道数的多尺度特征

经过一个下三角形上采样操作LTUM(·)，得到同通道数同分辨率的RGBD多层特征

所述LTUM(·)操作根据i的不同有所区别，具体定义如下：

其中AMA(·)操作为论文《Bidirectional pyramid networks for semanticsegmentation》中提出的add-multiply-add特征融合模块。

进一步地，在步骤S3中，双向门控循环解码所述RGBD多层特征，形成RGBD增强特征的具体方法如下：

以最高层的RGBD增强特征

为初始隐藏状态，实施一个由高到低流向的单向门控循环解码过程，同时以最低层的RGBD增强特征

为初始隐藏状态，实施一个由低到高流向的单向门控循环解码过程，双向门控循环解码过程中对应层产生的隐藏状态被融合，产生RGBD增强特征

更进一步地，所述由高到低流向的单向门控循环解码过程采用门控循环单元加以实现，输入序列为

初始隐藏状态为最高层的RGBD增强特征

在所述门控循环单元中，隐藏状态表示为H^t，重置门表示为r^t，更新门表示为z^t，记忆单位表示为

每一个时间步的输入为由高到低的每一层RGBD多层特征

其中tanh((·)表示tanh函数。

经过时间步为5的门控循环解码之后，将每一个时间步的输出表示为

同理，所述由低到高流向的单向门控循环解码过程采用门控循环单元加以实现，输入序列为

初始隐藏状态为最低层的RGBD增强特征

每一个时间步的输入为由低到高的每一层RGBD多层特征

由以上所述由高到低流向的单向门控循环解码过程及所述由低到高流向的单向门控循环解码过程所产生的输出，对应层经过TFM模块融合，产生RGBD增强特征

所述TFM模块具体定义如下：

其中Up(·)操作表示两倍上采样操作，Cat(·)表示级联操作。

进一步地，在步骤S4中，RGBD增强特征

逐步相加得到总特征

的具体公式如下：

总特征

通过Sigmoid激活函数产生显著图的具体公式如下：

其中Sig(·)表示Sigmoid激活函数。

与已有技术相比，本发明有益效果体现在：

本发明提出一种RGB-D图像显著目标检测方法，将编码器抽取的多层特征看作输入序列，通过双向门控循环单元解码多层特征，利用门控循环单元记忆共同信息，遗忘不一致信息，找出多层特征中的共有信息，提升特征的信息表示，实现最优的解码过程。

附图说明

图1为本发明一种RGB-D图像显著目标检测方法的流程图；

图2为本发明实施例1图像显著目标检测方法的算法流程图。

以下通过具体实施方式，并结合附图对本发明做进一步说明，但本发明的实施方式不限于此。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

一种RGB-D图像显著目标检测方法，该方法包括以下步骤：

S3、双向门控解码所述RGBD多层特征，形成RGBD增强特征；

S4、所述RGBD增强特征逐步相加，形成显著图。

进一步地，在步骤S2中，调整所述RGBD融合特征的尺度，分为两个阶段：第一阶段调整通道数，第二阶段调整分辨率，最终形成通道数和分辨率都相同的RGBD多层特征

S2.1：调整通道数

对于所述S1步骤得到的RGBD融合特征

实施一个T(·)操作，得到同通道数的多尺度特征

T(X)＝ReLU(Conv(X))

其中Conv(·)表示卷积操作，ReLU(·)表示ReLU激活函数。

S2.2：调整分辨率

对于所述S2.1步骤得到的同通道数的多尺度特征

所述LTUM(·)操作根据i的不同有所区别，具体定义如下：

以最高层的RGBD增强特征

初始隐藏状态为最高层的RGBD增强特征

每一个时间步的输入为由高到低的每一层RGBD多层特征

其中tanh((·)表示tanh函数。

初始隐藏状态为最低层的RGBD增强特征

每一个时间步的输入为由低到高的每一层RGBD多层特征

所述TFM模块具体定义如下：

其中Up(·)操作表示两倍上采样操作，Cat(·)表示级联操作。

进一步地，在步骤S4中，RGBD增强特征

逐步相加得到总特征

的具体公式如下：

总特征

通过Sigmoid激活函数产生显著图的具体公式如下：

其中Sig(·)表示Sigmoid激活函数。

本发明RGB-D图像显著目标检测方法，将编码器抽取的多层特征看作输入序列，通过双向门控循环单元解码多层特征，利用门控循环单元记忆共同信息，遗忘不一致信息，找出多层特征中的共有信息，提升特征的信息表示，实现最优的解码过程。

实施例1

本实施例所述RGB-D图像显著目标检测方法在NJU2K数据集上选取1485张图片、在NLPR数据集上选取700张图片组成训练集，对NJU2K数据集和NLPR数据集上的剩余图片及整个的STERE,DES和SIP数据集作为测试集，进行测试。另外，对DUT数据集，采用与论文《Depth-induced multiscale recurrent attention network for saliency detection》相同的设置，训练集增加DUT训练集的800张图片，在DUT测试集上进行测试。

在训练和测试阶段，输入的RGB-D图像被调整到352*352大小，训练集进行了随机翻转、旋转、边界裁剪等数据增强操作。模型训练选取Adam优化器，初始学习率为1e-4，批处理大小为5，采用ResNet50预训练参数及PyTorch默认设置，使用的显卡是NVIDIAGTX1080Ti GPU。模型训练200代后收敛，耗时约8小时。

所述方法与14种RGB-D显著物体检测方法CPFP[1],DMRA[2],cmSalGAN[3],D3Net[4],ICNet[5],DCMF[6],DRLF[7],SSF[8],SSMA[9],A2dele[10],UCNet[11],CoNet[12],PGAR[13]and DANet[14]进行对比，结果见表1。

表1实验结果

[1]J.-X.Zhao,Y.Cao,D.-P.Fan,M.-M.Cheng,X.-Y.Li,and L.Zhang,“Contrastprior and fluid pyramid integration for RGBD salient object detection,”inProceedings of the IEEE Conference on Computer Vision and PatternRecognition,2019,pp.3927–3936.

[2]Y.Piao,W.Ji,J.Li,M.Zhang,and H.Lu,“Depth-induced multiscalerecurrent attention network for saliency detection,”in Proceedings of theIEEE International Conference on Computer Vision,2019,pp.7254–7263.

[3]B.Jiang,Z.Zhou,X.Wang,J.Tang,and B.Luo,“cmSalGAN:RGBD SalientObject Detection with Cross-View Generative Adversarial Networks,”IEEETransactions on Multimedia,2020.

[4]D.-P.Fan,Z.Lin,Z.Zhang,M.Zhu,and M.-M.Cheng,“Rethinking RGB-DSalient Object Detection:Models,Data Sets,and Large-Scale Benchmarks,”IEEETransactions on Neural Networks and Learning Systems,2020.

[5]G.Li,Z.Liu,and H.Ling,“ICNet:Information Conversion Network forRGB-D Based Salient Object Detection,”IEEE Transactions on Image Processing,vol.29,pp.4873–4884,2020.

[6]H.Chen,Y.Deng,Y.Li,T.-Y.Hung,and G.Lin,“RGBD salient objectdetection via disentangled cross-modal fusion,”IEEE Transactions on ImageProcessing,vol.29,pp.8407–8416,2020.

[7]X.Wang,S.Li,C.Chen,Y.Fang,A.Hao,and H.Qin,“Data-levelrecombination and lightweight fusion scheme for RGB-D salient objectdetection,”IEEE Transactions on Image Processing,vol.30,pp.458–471,2020.

[8]M.Zhang,W.Ren,Y.Piao,Z.Rong,and H.Lu,“Select,Supplement and Focusfor RGB-D Saliency Detection,”in Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,pp.3472–3481.

[9]N.Liu,N.Zhang,and J.Han,“Learning Selective Self-Mutual Attentionfor RGB-D Saliency Detection,”in Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2020,pp.13756–13765.

如表1所示可知，本发明方法在自适应F-measure、自适应E-measure及MAE的评价指标上均取得最优的结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种RGB-D图像显著目标检测方法，其特征在于，该方法包括以下步骤：

S3、双向门控解码所述RGBD多层特征，形成RGBD增强特征；

S4、所述RGBD增强特征逐步相加，形成显著图。

2.根据权利要求1所述的一种RGB-D图像显著目标检测方法，其特征在于，在所述步骤S1中，提取RGB图像特征的方法是使用在ImageNet上预训练的ResNet50网络提取图像颜色特征，形成

其中i表示层数，对应于ResNet50的每层输出，i取值为1至5的自然数；

所述将Depth图像特征与RGB图像特征进行融合的方法采用深度指导残差模块实现，所述深度指导残差模块，首先对Depth图像特征进行并行的通道注意力和空间注意力特征增强，然后通过与RGB图像特征逐元素相乘，得到深度图像特征指导下的两个优化后的RGB图像特征，最后将二者进行相加融合，从通道和空间两个角度增强RGB图像特征；