CN114693951A - 一种基于全局上下文信息探索的rgb-d显著性目标检测方法 - Google Patents
一种基于全局上下文信息探索的rgb-d显著性目标检测方法 Download PDFInfo
- Publication number
- CN114693951A CN114693951A CN202210300694.5A CN202210300694A CN114693951A CN 114693951 A CN114693951 A CN 114693951A CN 202210300694 A CN202210300694 A CN 202210300694A CN 114693951 A CN114693951 A CN 114693951A
- Authority
- CN
- China
- Prior art keywords
- rgb
- layer
- feature
- scale
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉领域,公开了一种基于全局上下文信息探索的RGB‑D显著性目标检测方法,包括以下步骤:1)获取训练和测试该任务的RGB‑D数据集,并定义本发明的算法目标,并确定用于训练和测试算法的训练集和测试集;2)基于连续卷积层堆叠用来构建跨模态上下文特征模块提取特征信息;3)定义一叠连续的卷积层和多尺度特征的多尺度特征解码器(MFD)以及空间通道注意力;4)构建多尺度特征解码器,将这些多尺度特征融合到一个自上而下的聚合策略中,并生成显著性结果;5)采用二元交叉熵(BCE)来训练本发明的模型,这也是SOD任务中普遍存在的损失函数。计算出在不同的像素下的预测值和真实值之间的误差。
Description
技术领域:
本发明涉及计算机视觉和图像处理领域,提出了一种新的全局上下文探索网络(GCENet)用于RGB-D显著性目标检测(SOD)任务,以细粒度的方式探索多尺度上下文特征的性能增益。
背景技术:
显著目标检测旨在从给定场景中分割出最具视觉吸引力的目标。作为一种预处理工具,SOD已经广泛应用于计算机视觉任务,如图像检索,视觉跟踪等。大多数先前的SOD方法集中于RGB图像,但是它们难以处理具有挑战性的场景,例如低对比度环境、相似的前景和背景以及复杂的背景。随着微软Kinect、iPhone XR、华为Mate30等深度传感器设备的普及,RGB-D图像的采集是可行的,也是可以实现的。由于除了纹理、方向和亮度等2D特征之外,深度线索也影响视觉注意,因此RGB-D SOD逐渐受到关注和研究。多尺度上下文特征的有效利用赋予了特征更丰富的全局上下文信息,有利于更好地理解整个场景,提高RGB-DSOD网络的性能。
受多尺度特征优势的启发,许多RGB-D SOD方法利用多尺度特征的优势来提高性能。然而,它们主要关注分层多尺度表示,不能在单个层中捕获细粒度的全局上下文线索。与这些方法不同的是,本发明提出了一个用于RGB-D SOD的全局上下文探索网络(GCENet),以在细粒度级别上探索多尺度上下文特征的增益效应。具体而言,提出了一种跨模态上下文特征模块(CCFM),通过在单个特征尺度上的卷积算子栈从RGB图像和深度图中提取跨模态全局特征,然后在多路径融合(MPF)机制中融合多尺度多模态特征。然后,采用级联聚合的方式对这些融合特征进行融合。此外,需要考虑和整合来自主干的多个块的多尺度信息,以产生最终的显著结果。为此,本发明设计了一个多尺度特征解码器(MFD),以自顶向下的聚合方式融合来自多个块的多尺度特征。
发明内容:
针对以上提出的问题,提出了一种新的全局上下文探索网络(GCENet)用于RGB-DSOD任务,并提出了多尺度特征解码器,具体采用的技术方案如下:
1.获取训练和测试该任务的RGB-D数据集
1.1)随机选取NLPR数据集的650个样本、NJU2K数据集的1400个样本和DUT数据集的800个样本作为训练集,将前三个数据集剩余样本及RGBD、STERE、和RGBD数据集样本归类为测试集;
1.2)NJU2K包含1985对RGB图像和深度图,其中深度图是从立体图像估计的。STERE是第一个提出的数据集,总共包含1000对低质量的深度图。
2.基于连续卷积层堆叠用来构建跨模态上下文特征模块提取特征信息
2.1)提出了一种融合跨模态特征的多路径融合(MPF)策略,该策略采用多个元素级操作的协作集合,包括元素级加法、元素级乘法和级联。此外,为了减少跨通道整合过程中的冗余信息和非显著特征,本发明利用空间通道注意机制,以过滤掉不需要的信息;
2.3)定义多尺度特征的多尺度特征解码器(MFD),MPF计算如下:
2.4)空间通道注意力的实现可以定义如下:
3.构建多尺度特征解码器
Wt=Sigmoid(Conv1(FUt)) (9)
4.计算损失函数,在训练阶段,本发明采用二元交叉熵(BCE)来训练我们的网络,这是SOD任务中的一个通用损失函数。它在不同的像素执行误差计算,定义为:
其中,P={p|0<p<1}∈R1×H×W和G={g|0<g<1}∈R1×H×W分别表示预测值和相应的真实值,H和W表示输入图像的高度和宽度,Lbce每个像素预测值和实际值的误差。
本发明与大多数方法采用的分层方式整合主干网络的多尺度特征不同,提出了一种细粒度的方法,在单个特征尺度而不是多个特征尺度上提取和集成多尺度特征,从而在单一层中捕获细粒度的全局上下文线索。首先,提出一种跨模态上下文特征模块(CCFM),通过在单个特征尺度上的卷积算子栈从RGB图像和深度图中提取跨模态全局特征,然后在多路径融合(MPF)机制中融合多尺度多模态特征;接着,采用级联聚合的方式对这些融合特征进行融合;随后,本发明设计了一个多尺度特征解码器(MFD),以自顶向下的聚合方式融合来自多个块的多尺度特征来考虑和整合来自主干的多个块的多尺度信息,以产生最终的显著结果。
附图说明
图1为本发明的模型结构示意图
图2为跨模态上下文特征模块示意图
图3为多路径融合示意图
具体实施方式
下面将结合本发明实例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,此外,所叙述的实施例仅仅是本发明一部分实施例,而不是所有的实施例。基于本发明中的实施例,本研究方向普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护范围。
参考附图1,一种基于全局上下文信息探索的RGB-D显著性目标检测方法主要包含以下步骤:
1.获取训练和测试该任务的RGB-D数据集,并定义本发明的算法目标,并确定用于训练和测试算法的训练集和测试集。随机选取NLPR数据集的650个样本、NJU2K数据集的1400个样本和DUT数据集的800个样本作为训练集,将前三个数据集剩余样本及RGBD、STERE、和RGBD数据集样本归类为测试集;
2.基于连续卷积层堆叠用来构建跨模态上下文特征模块提取特征信息
2.1提出了一种融合跨模态特征的多路径融合(MPF)策略,该策略采用多个元素级操作的协作集合,包括元素级加法、元素级乘法和级联。此外,为了减少跨通道整合过程中的冗余信息和非显著特征,本发明利用空间通道注意机制,以过滤掉不需要的信息;
2.3定义多尺度特征的多尺度特征解码器(MFD),MPF计算如下:
2.4空间通道注意力的实现可以定义如下:
3.构建多尺度特征解码器
Wt=Sigmoid(Conv1(FUt)) (9)
4.计算损失函数,在训练阶段,本发明采用二元交叉熵(BCE)来训练我们的网络,这是SOD任务中的一个通用损失函数。它在不同的像素执行误差计算,定义为:
其中,P={p|0<p<1}∈R1×H×W和G={g|0<g<1}∈R1×H×W分别表示预测值和相应的真实值,H和W表示输入图像的高度和宽度,Lbce每个像素预测值和实际值的误差。
以上所述为本申请优选实施而以,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本申请的保护范围内。
Claims (5)
1.一种基于全局上下文信息探索的RGB-D显著性目标检测方法,其特征在于,该方法包括一下步骤:
1)获取训练和测试该任务的RGB-D数据集,并定义本发明的算法目标,并确定用于训练和测试算法的训练集和测试集;
2)基于连续卷积层堆叠用来构建跨模态上下文特征模块提取特征信息;
3)定义一叠连续的卷积层和多尺度特征的多尺度特征解码器(MFD)以及空间通道注意力;
4)构建多尺度特征解码器,将这些多尺度特征融合到一个自上而下的聚合策略中,并生成显著性结果;
5)采用二元交叉熵(BCE)来训练本发明的模型,这也是SOD任务中普遍存在的损失函数。计算出在不同的像素下的预测值和真实值之间的误差。
2.根据权利要求1所述的一种基于全局上下文信息探索的RGB-D显著性目标检测方法,其特征在于:所述步骤2具体方法是:
2.1)随机选取NLPR数据集的650个样本、NJU2K数据集的1400个样本和DUT数据集的800个样本作为训练集,将前三个数据集剩余样本及RGBD、STERE、和RGBD数据集样本归类为测试集;
2.2)NJU2K包含1985对RGB图像和深度图,其中深度图是从立体图像估计的。STERE是第一个提出的数据集,总共包含1000对低质量的深度图。
3.根据权利要求1所述的一种基于全局上下文信息探索的RGB-D显著性目标检测方法,其特征在于:所述步骤3具体方法是:
3.1)提出了一种融合跨模态特征的多路径融合(MPF)策略,该策略采用多个元素级操作的协作集合,包括元素级加法、元素级乘法和级联。此外,为了减少跨通道整合过程中的冗余信息和非显著特征,本发明利用空间通道注意机制,以过滤掉不需要的信息;
3.3)定义多尺度特征的多尺度特征解码器(MFD),MPF计算如下:
3.4)空间通道注意力的实现可以定义如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210300694.5A CN114693951A (zh) | 2022-03-24 | 2022-03-24 | 一种基于全局上下文信息探索的rgb-d显著性目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210300694.5A CN114693951A (zh) | 2022-03-24 | 2022-03-24 | 一种基于全局上下文信息探索的rgb-d显著性目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114693951A true CN114693951A (zh) | 2022-07-01 |
Family
ID=82138691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210300694.5A Pending CN114693951A (zh) | 2022-03-24 | 2022-03-24 | 一种基于全局上下文信息探索的rgb-d显著性目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114693951A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117245672A (zh) * | 2023-11-20 | 2023-12-19 | 南昌工控机器人有限公司 | 摄像头支架模块化装配的智能运动控制***及其方法 |
-
2022
- 2022-03-24 CN CN202210300694.5A patent/CN114693951A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117245672A (zh) * | 2023-11-20 | 2023-12-19 | 南昌工控机器人有限公司 | 摄像头支架模块化装配的智能运动控制***及其方法 |
CN117245672B (zh) * | 2023-11-20 | 2024-02-02 | 南昌工控机器人有限公司 | 摄像头支架模块化装配的智能运动控制***及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522966B (zh) | 一种基于密集连接卷积神经网络的目标检测方法 | |
CN109377530B (zh) | 一种基于深度神经网络的双目深度估计方法 | |
Zhou et al. | Salient object detection in stereoscopic 3D images using a deep convolutional residual autoencoder | |
CN108648161B (zh) | 非对称核卷积神经网络的双目视觉障碍物检测***及方法 | |
CN104952083B (zh) | 一种基于显著性目标背景建模的视频显著性检测方法 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN113609896A (zh) | 基于对偶相关注意力的对象级遥感变化检测方法及*** | |
CN110827312B (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别***及方法 | |
CN113076957A (zh) | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、***及设备 | |
CN112651423A (zh) | 一种智能视觉*** | |
CN112767478B (zh) | 一种基于表观指导的六自由度位姿估计方法 | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及*** | |
CN114529793A (zh) | 一种基于门控循环特征融合的深度图像修复***及方法 | |
CN114693951A (zh) | 一种基于全局上下文信息探索的rgb-d显著性目标检测方法 | |
Wei et al. | Bidirectional attentional interaction networks for rgb-d salient object detection | |
CN112668662A (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN116229104A (zh) | 一种基于边缘特征引导的显著性目标检测方法 | |
CN113780305B (zh) | 一种基于两种线索交互的显著性目标检测方法 | |
JP2018124740A (ja) | 画像検索システム、画像検索方法及び画像検索プログラム | |
CN111931793A (zh) | 一种显著性目标提取方法及*** | |
Jiang et al. | Light field saliency detection based on multi-modal fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |