CN114693951A - 一种基于全局上下文信息探索的rgb-d显著性目标检测方法 - Google Patents

一种基于全局上下文信息探索的rgb-d显著性目标检测方法 Download PDF

Info

Publication number
CN114693951A
CN114693951A CN202210300694.5A CN202210300694A CN114693951A CN 114693951 A CN114693951 A CN 114693951A CN 202210300694 A CN202210300694 A CN 202210300694A CN 114693951 A CN114693951 A CN 114693951A
Authority
CN
China
Prior art keywords
rgb
layer
feature
scale
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210300694.5A
Other languages
English (en)
Inventor
黄荣梅
廖涛
段松松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University of Science and Technology
Original Assignee
Anhui University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University of Science and Technology filed Critical Anhui University of Science and Technology
Priority to CN202210300694.5A priority Critical patent/CN114693951A/zh
Publication of CN114693951A publication Critical patent/CN114693951A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉领域,公开了一种基于全局上下文信息探索的RGB‑D显著性目标检测方法,包括以下步骤:1)获取训练和测试该任务的RGB‑D数据集,并定义本发明的算法目标,并确定用于训练和测试算法的训练集和测试集;2)基于连续卷积层堆叠用来构建跨模态上下文特征模块提取特征信息;3)定义一叠连续的卷积层和多尺度特征的多尺度特征解码器(MFD)以及空间通道注意力;4)构建多尺度特征解码器,将这些多尺度特征融合到一个自上而下的聚合策略中,并生成显著性结果;5)采用二元交叉熵(BCE)来训练本发明的模型,这也是SOD任务中普遍存在的损失函数。计算出在不同的像素下的预测值和真实值之间的误差。

Description

一种基于全局上下文信息探索的RGB-D显著性目标检测方法
技术领域:
本发明涉及计算机视觉和图像处理领域,提出了一种新的全局上下文探索网络(GCENet)用于RGB-D显著性目标检测(SOD)任务,以细粒度的方式探索多尺度上下文特征的性能增益。
背景技术:
显著目标检测旨在从给定场景中分割出最具视觉吸引力的目标。作为一种预处理工具,SOD已经广泛应用于计算机视觉任务,如图像检索,视觉跟踪等。大多数先前的SOD方法集中于RGB图像,但是它们难以处理具有挑战性的场景,例如低对比度环境、相似的前景和背景以及复杂的背景。随着微软Kinect、iPhone XR、华为Mate30等深度传感器设备的普及,RGB-D图像的采集是可行的,也是可以实现的。由于除了纹理、方向和亮度等2D特征之外,深度线索也影响视觉注意,因此RGB-D SOD逐渐受到关注和研究。多尺度上下文特征的有效利用赋予了特征更丰富的全局上下文信息,有利于更好地理解整个场景,提高RGB-DSOD网络的性能。
受多尺度特征优势的启发,许多RGB-D SOD方法利用多尺度特征的优势来提高性能。然而,它们主要关注分层多尺度表示,不能在单个层中捕获细粒度的全局上下文线索。与这些方法不同的是,本发明提出了一个用于RGB-D SOD的全局上下文探索网络(GCENet),以在细粒度级别上探索多尺度上下文特征的增益效应。具体而言,提出了一种跨模态上下文特征模块(CCFM),通过在单个特征尺度上的卷积算子栈从RGB图像和深度图中提取跨模态全局特征,然后在多路径融合(MPF)机制中融合多尺度多模态特征。然后,采用级联聚合的方式对这些融合特征进行融合。此外,需要考虑和整合来自主干的多个块的多尺度信息,以产生最终的显著结果。为此,本发明设计了一个多尺度特征解码器(MFD),以自顶向下的聚合方式融合来自多个块的多尺度特征。
发明内容:
针对以上提出的问题,提出了一种新的全局上下文探索网络(GCENet)用于RGB-DSOD任务,并提出了多尺度特征解码器,具体采用的技术方案如下:
1.获取训练和测试该任务的RGB-D数据集
1.1)随机选取NLPR数据集的650个样本、NJU2K数据集的1400个样本和DUT数据集的800个样本作为训练集,将前三个数据集剩余样本及RGBD、STERE、和RGBD数据集样本归类为测试集;
1.2)NJU2K包含1985对RGB图像和深度图,其中深度图是从立体图像估计的。STERE是第一个提出的数据集,总共包含1000对低质量的深度图。
2.基于连续卷积层堆叠用来构建跨模态上下文特征模块提取特征信息
2.1)提出了一种融合跨模态特征的多路径融合(MPF)策略,该策略采用多个元素级操作的协作集合,包括元素级加法、元素级乘法和级联。此外,为了减少跨通道整合过程中的冗余信息和非显著特征,本发明利用空间通道注意机制,以过滤掉不需要的信息;
2.2)四个RGB特征
Figure BDA0003562779540000031
和深度特征
Figure BDA0003562779540000032
由一叠连续的卷积层提取,描述如下:
Figure BDA0003562779540000033
Conv3表示具有3×3内核的卷积运算,α∈{R,D},
Figure BDA0003562779540000034
Figure BDA0003562779540000035
表示连续四个卷积层的输出。i∈{1,2,3,4,5},代表主干网的第i层;
2.3)定义多尺度特征的多尺度特征解码器(MFD),MPF计算如下:
Figure BDA0003562779540000036
其中,Oad、Oml和Oct分别是元素加法、元素乘法和级联,
Figure BDA0003562779540000037
分别是CCFM第一层的RGB和深度特征,i∈{1,2,3,4,5}表示逐层主干中的第i层;
2.4)空间通道注意力的实现可以定义如下:
Figure BDA0003562779540000038
其中SA和CA分别表示空间注意和通道注意,
Figure BDA0003562779540000039
是在MPF层呈现空间通道注意的增强特征;
2.5)MPF的剩余层执行与第一层相似的步骤,可以获得另外三个融合特征
Figure BDA00035627795400000310
Figure BDA00035627795400000311
最后,采用高级全局信息引导机制来增强不同卷积层的输出的相关性,该机制可以表述如下:
Figure BDA00035627795400000312
Figure BDA00035627795400000313
表示分层主干第i层的特征;
3.构建多尺度特征解码器
3.1)自下而上的方式融合
Figure BDA0003562779540000041
Figure BDA0003562779540000042
定义如下:
Figure BDA0003562779540000043
Figure BDA0003562779540000044
Figure BDA0003562779540000045
其中,BN是批标准化层,Conv1表示用于转换通道的卷积层,
Figure BDA0003562779540000046
是MFD第k层的输出,W4是由
Figure BDA0003562779540000047
生成的权重矩阵,Sigmoid表示一种激活函数,UP2表示两次上采集操作;
3.2)下一步继续上面的步骤直至产生
Figure BDA0003562779540000048
可以用下列公式表示:
Figure BDA0003562779540000049
Wt=Sigmoid(Conv1(FUt)) (9)
Figure BDA00035627795400000410
其中,t∈{1,2,3},
Figure BDA00035627795400000411
表示25-t倍的上采样,FUt表示
Figure BDA00035627795400000412
的融合特征,比
Figure BDA00035627795400000413
包含更多的全局信息,Wt表示来自FUt的权重矩阵;
4.计算损失函数,在训练阶段,本发明采用二元交叉熵(BCE)来训练我们的网络,这是SOD任务中的一个通用损失函数。它在不同的像素执行误差计算,定义为:
Figure BDA00035627795400000414
其中,P={p|0<p<1}∈R1×H×W和G={g|0<g<1}∈R1×H×W分别表示预测值和相应的真实值,H和W表示输入图像的高度和宽度,Lbce每个像素预测值和实际值的误差。
本发明与大多数方法采用的分层方式整合主干网络的多尺度特征不同,提出了一种细粒度的方法,在单个特征尺度而不是多个特征尺度上提取和集成多尺度特征,从而在单一层中捕获细粒度的全局上下文线索。首先,提出一种跨模态上下文特征模块(CCFM),通过在单个特征尺度上的卷积算子栈从RGB图像和深度图中提取跨模态全局特征,然后在多路径融合(MPF)机制中融合多尺度多模态特征;接着,采用级联聚合的方式对这些融合特征进行融合;随后,本发明设计了一个多尺度特征解码器(MFD),以自顶向下的聚合方式融合来自多个块的多尺度特征来考虑和整合来自主干的多个块的多尺度信息,以产生最终的显著结果。
附图说明
图1为本发明的模型结构示意图
图2为跨模态上下文特征模块示意图
图3为多路径融合示意图
具体实施方式
下面将结合本发明实例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,此外,所叙述的实施例仅仅是本发明一部分实施例,而不是所有的实施例。基于本发明中的实施例,本研究方向普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护范围。
参考附图1,一种基于全局上下文信息探索的RGB-D显著性目标检测方法主要包含以下步骤:
1.获取训练和测试该任务的RGB-D数据集,并定义本发明的算法目标,并确定用于训练和测试算法的训练集和测试集。随机选取NLPR数据集的650个样本、NJU2K数据集的1400个样本和DUT数据集的800个样本作为训练集,将前三个数据集剩余样本及RGBD、STERE、和RGBD数据集样本归类为测试集;
2.基于连续卷积层堆叠用来构建跨模态上下文特征模块提取特征信息
2.1提出了一种融合跨模态特征的多路径融合(MPF)策略,该策略采用多个元素级操作的协作集合,包括元素级加法、元素级乘法和级联。此外,为了减少跨通道整合过程中的冗余信息和非显著特征,本发明利用空间通道注意机制,以过滤掉不需要的信息;
2.2四个RGB特征
Figure BDA0003562779540000061
和深度特征
Figure BDA0003562779540000062
由一叠连续的卷积层提取,描述如下:
Figure BDA0003562779540000063
Conv3表示具有3×3内核的卷积运算,α∈{R,D},
Figure BDA0003562779540000064
Figure BDA0003562779540000065
表示连续四个卷积层的输出。i∈{1,2,3,4,5},代表主干网的第i层;
2.3定义多尺度特征的多尺度特征解码器(MFD),MPF计算如下:
Figure BDA0003562779540000066
其中,Oad、Oml和Oct分别是元素加法、元素乘法和级联,
Figure BDA0003562779540000071
分别是CCFM第一层的RGB和深度特征,i∈{1,2,3,4,5}表示逐层主干中的第i层;
2.4空间通道注意力的实现可以定义如下:
Figure BDA0003562779540000072
其中SA和CA分别表示空间注意和通道注意,
Figure BDA0003562779540000073
是在MPF层呈现空间通道注意的增强特征;
2.5MPF的剩余层执行与第一层相似的步骤,可以获得另外三个融合特征
Figure BDA0003562779540000074
Figure BDA0003562779540000075
最后,采用高级全局信息引导机制来增强不同卷积层的输出的相关性,该机制可以表述如下:
Figure BDA0003562779540000076
Figure BDA0003562779540000077
表示分层主干第i层的特征;
3.构建多尺度特征解码器
3.1自下而上的方式融合
Figure BDA0003562779540000078
Figure BDA0003562779540000079
定义如下:
Figure BDA00035627795400000710
Figure BDA00035627795400000711
Figure BDA00035627795400000712
其中,BN是批标准化层,Conv1表示用于转换通道的卷积层,
Figure BDA00035627795400000713
是MFD第k层的输出,W4是由
Figure BDA00035627795400000714
生成的权重矩阵,Sigmoid表示一种激活函数,UP2表示两次上采集操作;
3.2下一步继续上面的步骤直至产生
Figure BDA00035627795400000715
可以用下列公式表示:
Figure BDA0003562779540000081
Wt=Sigmoid(Conv1(FUt)) (9)
Figure BDA0003562779540000082
其中,t∈{1,2,3},
Figure BDA0003562779540000083
表示25-t倍的上采样,FUt表示
Figure BDA0003562779540000084
的融合特征,比
Figure BDA0003562779540000085
包含更多的全局信息,Wt表示来自FUt的权重矩阵;
4.计算损失函数,在训练阶段,本发明采用二元交叉熵(BCE)来训练我们的网络,这是SOD任务中的一个通用损失函数。它在不同的像素执行误差计算,定义为:
Figure BDA0003562779540000086
其中,P={p|0<p<1}∈R1×H×W和G={g|0<g<1}∈R1×H×W分别表示预测值和相应的真实值,H和W表示输入图像的高度和宽度,Lbce每个像素预测值和实际值的误差。
以上所述为本申请优选实施而以,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本申请的保护范围内。

Claims (5)

1.一种基于全局上下文信息探索的RGB-D显著性目标检测方法,其特征在于,该方法包括一下步骤:
1)获取训练和测试该任务的RGB-D数据集,并定义本发明的算法目标,并确定用于训练和测试算法的训练集和测试集;
2)基于连续卷积层堆叠用来构建跨模态上下文特征模块提取特征信息;
3)定义一叠连续的卷积层和多尺度特征的多尺度特征解码器(MFD)以及空间通道注意力;
4)构建多尺度特征解码器,将这些多尺度特征融合到一个自上而下的聚合策略中,并生成显著性结果;
5)采用二元交叉熵(BCE)来训练本发明的模型,这也是SOD任务中普遍存在的损失函数。计算出在不同的像素下的预测值和真实值之间的误差。
2.根据权利要求1所述的一种基于全局上下文信息探索的RGB-D显著性目标检测方法,其特征在于:所述步骤2具体方法是:
2.1)随机选取NLPR数据集的650个样本、NJU2K数据集的1400个样本和DUT数据集的800个样本作为训练集,将前三个数据集剩余样本及RGBD、STERE、和RGBD数据集样本归类为测试集;
2.2)NJU2K包含1985对RGB图像和深度图,其中深度图是从立体图像估计的。STERE是第一个提出的数据集,总共包含1000对低质量的深度图。
3.根据权利要求1所述的一种基于全局上下文信息探索的RGB-D显著性目标检测方法,其特征在于:所述步骤3具体方法是:
3.1)提出了一种融合跨模态特征的多路径融合(MPF)策略,该策略采用多个元素级操作的协作集合,包括元素级加法、元素级乘法和级联。此外,为了减少跨通道整合过程中的冗余信息和非显著特征,本发明利用空间通道注意机制,以过滤掉不需要的信息;
3.2)四个RGB特征
Figure FDA0003562779530000021
和深度特征
Figure FDA0003562779530000022
由一叠连续的卷积层提取,描述如下:
Figure FDA0003562779530000023
Conv3表示具有3×3内核的卷积运算,α∈{R,D},
Figure FDA0003562779530000024
Figure FDA0003562779530000025
表示连续四个卷积层的输出。i∈{1,2,3,4,5},代表主干网的第i层;
3.3)定义多尺度特征的多尺度特征解码器(MFD),MPF计算如下:
Figure FDA0003562779530000026
其中,Oad、Oml和Oct分别是元素加法、元素乘法和级联,
Figure FDA0003562779530000027
分别是CCFM第一层的RGB和深度特征,i∈{1,2,3,4,5}表示逐层主干中的第i层;
3.4)空间通道注意力的实现可以定义如下:
Figure FDA0003562779530000028
其中SA和CA分别表示空间注意和通道注意,
Figure FDA0003562779530000029
是在MPF层呈现空间通道注意的增强特征;
3.5)MPF的剩余层执行与第一层相似的步骤,可以获得另外三个融合特征
Figure FDA00035627795300000210
Figure FDA00035627795300000211
最后,采用高级全局信息引导机制来增强不同卷积层的输出的相关性,该机制可以表述如下:
Figure FDA0003562779530000031
Figure FDA0003562779530000032
表示分层主干第i层的特征。
4.根据权利要求1所述的一种基于全局上下文信息探索的RGB-D显著性目标检测方法,其特征在于:所述步骤4具体方法是:
4.1)自下而上的方式融合
Figure FDA0003562779530000033
Figure FDA0003562779530000034
定义如下:
Figure FDA0003562779530000035
Figure FDA0003562779530000036
Figure FDA0003562779530000037
其中,BN是批标准化层,Conv1表示用于转换通道的卷积层,
Figure FDA0003562779530000038
是MFD第k层的输出,W4是由
Figure FDA0003562779530000039
生成的权重矩阵,Sigmoid表示一种激活函数,UP2表示两次上采集操作;
4.2)下一步继续上面的步骤直至产生
Figure FDA00035627795300000310
可以用下列公式表示:
Figure FDA00035627795300000311
Wt=Sigmoid(Conv1(FUt)) (9)
Figure FDA00035627795300000312
其中,t∈{1,2,3},
Figure FDA00035627795300000313
表示25-t倍的上采样,FUt表示
Figure FDA00035627795300000314
的融合特征,比
Figure FDA00035627795300000315
包含更多的全局信息,Wt表示来自FUt的权重矩阵。
5.根据权利要求1所述的一种基于全局上下文信息探索的RGB-D显著性目标检测方法,其特征在于:所述步骤5具体方法是:
5.1)计算损失函数,在训练阶段,本发明采用二元交叉熵(BCE)来训练我们的网络,这是SOD任务中的一个通用损失函数。它在不同的像素执行误差计算,定义为:
Figure FDA0003562779530000041
其中,P={p|0<p<1}∈R1×H×W和G={g|0<g<1}∈R1×H×W分别表示预测值和相应的真实值,H和W表示输入图像的高度和宽度,Lbce每个像素预测值和实际值的误差。
CN202210300694.5A 2022-03-24 2022-03-24 一种基于全局上下文信息探索的rgb-d显著性目标检测方法 Pending CN114693951A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210300694.5A CN114693951A (zh) 2022-03-24 2022-03-24 一种基于全局上下文信息探索的rgb-d显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210300694.5A CN114693951A (zh) 2022-03-24 2022-03-24 一种基于全局上下文信息探索的rgb-d显著性目标检测方法

Publications (1)

Publication Number Publication Date
CN114693951A true CN114693951A (zh) 2022-07-01

Family

ID=82138691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210300694.5A Pending CN114693951A (zh) 2022-03-24 2022-03-24 一种基于全局上下文信息探索的rgb-d显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN114693951A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117245672A (zh) * 2023-11-20 2023-12-19 南昌工控机器人有限公司 摄像头支架模块化装配的智能运动控制***及其方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117245672A (zh) * 2023-11-20 2023-12-19 南昌工控机器人有限公司 摄像头支架模块化装配的智能运动控制***及其方法
CN117245672B (zh) * 2023-11-20 2024-02-02 南昌工控机器人有限公司 摄像头支架模块化装配的智能运动控制***及其方法

Similar Documents

Publication Publication Date Title
CN109522966B (zh) 一种基于密集连接卷积神经网络的目标检测方法
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
Zhou et al. Salient object detection in stereoscopic 3D images using a deep convolutional residual autoencoder
CN108648161B (zh) 非对称核卷积神经网络的双目视觉障碍物检测***及方法
CN104952083B (zh) 一种基于显著性目标背景建模的视频显著性检测方法
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及***
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN113449691A (zh) 一种基于非局部注意力机制的人形识别***及方法
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、***及设备
CN112651423A (zh) 一种智能视觉***
CN112767478B (zh) 一种基于表观指导的六自由度位姿估计方法
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及***
CN114529793A (zh) 一种基于门控循环特征融合的深度图像修复***及方法
CN114693951A (zh) 一种基于全局上下文信息探索的rgb-d显著性目标检测方法
Wei et al. Bidirectional attentional interaction networks for rgb-d salient object detection
CN112668662A (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN116229104A (zh) 一种基于边缘特征引导的显著性目标检测方法
CN113780305B (zh) 一种基于两种线索交互的显著性目标检测方法
JP2018124740A (ja) 画像検索システム、画像検索方法及び画像検索プログラム
CN111931793A (zh) 一种显著性目标提取方法及***
Jiang et al. Light field saliency detection based on multi-modal fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination