CN114283315A - 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法 - Google Patents
一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法 Download PDFInfo
- Publication number
- CN114283315A CN114283315A CN202111565805.7A CN202111565805A CN114283315A CN 114283315 A CN114283315 A CN 114283315A CN 202111565805 A CN202111565805 A CN 202111565805A CN 114283315 A CN114283315 A CN 114283315A
- Authority
- CN
- China
- Prior art keywords
- rgb
- fusion
- modal
- features
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉领域,提供了一种基于交互式引导注意力和梯形金字塔融合的RGB‑D显著性目标检测方法,包括以下步骤:1)获取训练和测试该任务的RGB‑D数据集,并定义本发明的算法目标;2)构建用于提取RGB图像特征RGB编码器和深度(Depth)图像特征Depth编码器;3)建立跨模态特点融合网络,通过交互式引导的注意力机制指导RGB图像特征和Depth图像特征进行交叉融合;4)构建超大规模的感受野融合机制,以增强多模态特征的高级语义信息;5)建立梯形金字塔特征融合网络为基础的解码器以生成显著图Pest;6)预测的显著图Pest与人工标注的显著目标分割图PGT计算损失;7)对测试数据集进行测试,生成显著图Ptest,并使用评价指标进行性能评估。
Description
技术领域:
本发明涉及计算机视觉和图像处理领域,特别地涉及一种基于交互式 引导注意力和梯形金字塔融合的RGB-D显著性目标检测方法。
背景技术:
显著性目标检测旨在通过模拟人类视觉注意机制从给定的数据(如RGB图片、RGB-D图片、视频等)中,定位出最引人注目的目标或者区域。而最近几年,显著性目标检测由于其广泛的应用得到了快速发展,在许多计算机视觉领域得到显著应用,比如图像检索,视频分割,语义分割,视频跟踪,人物重建,缩略图创建和质量评估等等。
由于单一的模态的RGB显著性目标检测算法在面对一些具有挑战性的场景(例如,复杂背景、显著目标与背景高度相似、低对比度场景等等)下,难以准确和完整地从背景中定位出显著目标。因此,为了解决这个问题,将深度(Depth)图像引入到显著性目标检测,通过联合RGB图像和Depth图像相结合构成了RGB-D进行显著性目标检测。
由于Depth Map能够提供许多有用的信息,诸如比如空间结构, 3D分布,目标边缘等信息。将Depth图引入到SOD任务中,能够帮助SOD模型处理诸如复杂背景、低对比度、显著目标与背景外形相似等具有挑战性的场景。因此,如何利用Depth Map辅助 RGB-D显著性目标检测模型精确定位显著目标至关重要。此前的 RGB-D显著性目标检测方法大多将DepthMap作为独立于RGB图像的数据流,单独提取特征,或者将Depth图像作为RGB图像的第四个通道输入进RGB-D显著性检测模型,该类方法无差别地对待RGB图像和Depth图像,忽略了一个事实:RGB图像和Depth图像中,不同区域所携带的显著信息是有着巨大的差异,并且RGB图像和Depth图像对显著目标的信息的表示方面也存在着差异。
考虑到RGB图像数据和Depth图像数据之间存在跨模态数据的二义性问题,本发明尝试探索一种发高效的跨模态特征融合方法,并利用跨模态融合方法有效消除跨模态数据之间的二义性问题。此外,为了进一步探索多尺度特征之间的联系和协作机制,利用多尺度的特征信息有效的提升模型检测的性能,并且可以兼顾高级语义信息和低级的细节信息,从到可以达到感知显著性目标的边缘细节和整体完整性。本发明通过进一步挖掘特征金字塔在多尺度特征融合方面的作用,帮助显著性检测模型更加准确地预测出显著目标。
发明内容:
针对以上提出的问题,本发明提供一种基于交互式引导注意力和梯形金字塔融合的RGB-D显著性目标检测方法,具体采用的技术方案如下:
1.获取训练和测试该任务的RGB-D数据集。
1.1)将NJUD数据集、NLPR数据集和DUT-RGBD数据集作为训练集,将剩余部分的NLPR数据集、剩余的DUT-RGBD数据集、 SIP数据集、STERE数据集和SSD数据集作为测试集。
1.2)RGB-D图像数据集,包括单幅RGB图像PRGB、对应的Depth 图像PDepth和对应的人工标注的显著目标分割图像PGT。
2.利用卷积神经网络构建用于提取RGB图像特征和Depth图像特征的显著性目标检测模型网络;
2.2)本发明采用ImageNet数据集预训练的VGG16参数权重初始化本发明的用于构建主干网络的VGG16权重。
3.3)CMAF模块通过交互式引导的注意力机制生成多模态特征具体过程如下:
3.3.1)首先本发明构建一个残差卷积模块用于增加特征的感受野和语义信息,增强特征的显著性的表达能力,通过该残差卷积模块,可以进一步增强RGB图像特征和对应的Depth图像特征。
3.3.2)进一步利用元素感知的矩阵相乘操作和元素感知的矩阵相加操作融合RGB图像特征和对应的Depth图像特征,然后利用 softmax激活函数将融合后的特征转化为全局上下文感知的注意力权重Ws和通道感知注意力权重Wc:
其中,Resconv表示残差卷积模块,multi表示元素感知的矩阵乘操作,add表示元素感知的矩阵加操作,GAP表示全局平均池化, softmax表示softmax激活函数。
3.3.3)在获得全局上下文感知的注意力权重Ws和通道感知注意力权重Wc之后,我们将Ws和Wc分别与增强之后的RGB图像特征和对应的Depth图像特征相结合,利用注意力机制生成的权重矩阵引导特征聚焦特征中的显著性区域,得到过滤之后的多模态特征:
其中,i∈{1,2,3,4,5}表示特征所在模型的层次,conv3表示卷积核大小为3×3的卷积操作,cat表示特征连接操作。
4.1)分别将多尺度的多模态特征通过空洞卷积操作提取超大规模的感受野信息,并设置不同空洞率的空洞卷积:
其中,i∈{1,2,3,4,5}表示多模态特征所在的层次,DLAi()代表空洞率为i的空洞卷积操作,并DLA2()、DLA4()和DLA8()分别代表空洞率为1、2、4和8的空洞卷积操作,和分别代表由第i层次的多模态特征所生成的空洞率为i的特征。
4.2)将上述步骤所生成的多层级感受野的多模态特征输入梯形金字塔特征融合网络,融合不同感受野的多模态特征:
其中,TPNet表示梯形金字塔特征融合网络。
5)将步骤4所获取到的5个层次的超大规模感受野的多模态特征输入到由梯形金字塔特征融合网络构成的解码器中,得到最终的融合特征,在经过sigmoid函数激活,得到预测的显著图Pest:
Pest=sigmoid(TPNet(f1,f2,f3,f4,f5)) 公式(7)
6)通过本发明预测出来的显著图Pest与人工标注的显著目标分割图PGT进行损失函数的计算,并通过SGD和反向传播算法逐步更新本发明提出的模型的参数权重,最终确定RGB-D显著性目标检测算法的结构和参数权重。
7)在步骤6确定模型的结构和参数权重的基础上,对测试集上的RGB-D图像对进行测试,生成显著图Ptest,并使用MAE、S-measure、 F-measure、E-measure评价指标进行评估。
本发明基于深度卷积神经网络实现的多模态显著性目标检测,利用Depth图像中的丰富的空间结构信息,并与RGB图像提取的Depth 特征进行交互引导注意力方式的跨模态特征融合,能够适应不同场景下的显著目标检测的要求,特别在一些具有挑战性场景下(复杂背景、低对比度、透明物体等),本发明能够具有一定的鲁棒性。相比较之前的RGB-D显著性目标检测方法,本发明具有以下收益:
首先,利用深度学习技术,通过编码器和解码器结构构建RGB-D 图像对和图像显著目标之间的关系,并通过跨模态特征的提取和融合,得到显著性预测。
其次,通过一种交互式融合的方式,有效调制Depth图像特征对于RGB图像特征的补充信息,并利用其本身具备的深度分布信息指导跨模态的特征融合,排除RGB图像中的背景信息的干扰,为下一阶段的显著目标的预测打好基础。
最后,通过构建的梯形金字塔特征融合网络进行多尺度的多模态特征融合,预测最终的显著图。
附图说明
图1为本发明的模型结构示意图
图2为跨模态特征融合模块示意图
图3为超大规模感受野融合模块示意图
图4为梯形金字塔特征融合网络(TPNet)示意图
图5为模型训练和测试示意图
图6为本发明与其他RGB-D显著性目标检测方法的结果对比图
具体实施方式
下面将结合本发明实例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,此外,所叙述的实例仅仅是本发明一部分实例,而不是所有的实例。基于本发明中的实例,本研究方向普通技术人员在没有付出创造性劳动前提下所获得的所有其他实例,都属于本发明保护范围。
参考附图1,一种基于交互式引导注意力和梯形金字塔融合的 RGB-D显著性目标检测方法主要包含以下步骤:
1.获取训练和测试该任务的RGB-D数据集,并定义本发明的算法目标,并确定用于训练和测试算法的训练集和测试集。将NJUD 数据集、NLPR数据集和DUT-RGBD数据集作为训练集,余下数据集作为测试集,包括SIP数据集、剩余部分的NLPR数据集、剩余的DUT-RGBD数据集、STERE数据集和SSD数据集。
2.利用卷积神经网络构建用于提取RGB图像特征和Depth图像特征的显著性目标检测模型网络,包括用于提取RGB图像特征的 RGB编码器和用于提取Depth图像特征的Depth编码器:
3.3.CMAF模块通过交互式引导的注意力机制生成多模态特征具体过程如下:
3.3.1.首先本发明构建一个残差卷积模块用于增加特征的感受野和语义信息,增强特征的显著性的表达能力,通过该残差卷积模块,可以进一步增强RGB图像特征和对应的Depth图像特征。
3.3.2.进一步利用元素感知的矩阵乘操作和元素感知的矩阵加操作融合RGB图像特征和对应的Depth图像特征,然后利用softmax 激活函数将融合后的特征转化为全局上下文感知的注意力权重Ws和通道感知注意力权重Wc:
其中,Resconv表示残差卷积模块,multi表示元素感知的矩阵乘操作,add表示元素感知的矩阵加操作,GAP表示全局平均池化, softmax表示softmax激活函数。
3.3.3.在获得全局上下文感知的注意力权重Ws和通道感知注意力权重Wc之后,我们将Ws和Wc分别与增强之后的RGB图像特征和对应的Depth图像特征相结合,利用注意力机制生成的权重矩阵引导特征聚焦特征中的显著性区域,得到过滤之后的多模态特征:
其中,i∈{1,2,3,4,5}表示特征所在模型的层次,conv3表示卷积核大小为3×3的卷积操作,cat表示特征连接操作。
4.参考附图3,利用超大规模的感受野融合模块增强多模态特征的感受野信息和高级语义信息:
4.1)分别将多尺度的多模态特征通过空洞卷积操作提取超大规模的感受野信息,并设置不同空洞率的空洞卷积:
其中,i∈{1,2,3,4,5}表示多模态特征所在的层次,DLAi()代表空洞率为i的空洞卷积操作,并DLA2()、DLA4()和DLA8()分别代表空洞率为1、2、4和8的空洞卷积操作,和分别代表由第i层次的多模态特征所生成的空洞率为i的特征。
4.2)将上述步骤所生成的多层级感受野的多模态特征输入梯形金字塔特征融合网络,融合不同感受野的多模态特征:
其中,TPNet()表示梯形金字塔特征融合网络。
5.参考附图4,将梯形金字塔本发明提出的算法的解码器,将5 个层次的多模态增强特征f1、f2、f3、f4和f5输入到解码器中,再经过sigmoid函数激活,得到预测的显著图Pest:
Pest=sigmoid(TPNet(f1,f2,f3,f4,f5)) 公式(7)
6)通过本发明预测出来的显著图Pest与人工标注的显著目标分割图PGT进行损失函数的计算,并通过SGD和反向传播算法逐步更新本发明提出的模型的参数权重,最终确定RGB-D显著性检测算法的结构和参数权重。
7)在步骤6确定模型的结构和参数权重的基础上,对测试集上的RGB-D图像对进行测试,生成显著图Ptest,并使用MAE、S-measure、 F-measure、E-measure评价指标进行评估。
以上所述为本申请优选实施而以,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本申请的保护范围内。
Claims (5)
1.一种基于交互式引导注意力和梯形金字塔融合的RGB-D显著性目标检测方法,其特征在于,该方法包括一下步骤:
1)获取训练和测试该任务的RGB-D数据集,并定义本发明的算法目标,并确定用于训练和测试算法的训练集和测试集;
2)构建用于提取RGB图像特征RGB编码器和深度(Depth)图像特征Depth编码器;
3)建立跨模态特点融合网络,通过交互式引导的注意力机制指导RGB图像特征和Depth图像特征进行交叉融合;
4)基于上述的跨模态特征融合成的多模态特征,构建超大规模的感受野融合机制,以增强多模态特征的感受野信息和高级语义信息;
5)建立以梯形金字塔特征融合网络为基础的解码器,并通过激活函数得到最终的预测到的显著图;
6)预测出来的显著图Pest与人工标注的显著目标分割图PGT进行损失函数的计算,并通过SGD和反向传播算法逐步更新本发明提出的模型的参数权重,最终确定RGB-D显著性检测算法的结构和参数权重。
7)在步骤6确定模型的结构和参数权重的基础上,对测试集上的RGB-D图像对进行测试,生成显著图Ptest,并使用评价指标进行性能评估。
2.根据权利要求1所述的一种基于交互式引导注意力和梯形金字塔融合的RGB-D显著性目标检测方法,其特征在于:所述步骤2)具体方法是:
2.1)将NJUD数据集、NLPR数据集和DUT-RGBD数据集作为训练集,将剩余部分的NLPR数据集、剩余的DUT-RGBD数据集、SIP数据集、STERE数据集和SSD数据集作为测试集。
2.2)RGB-D图像数据集包括单幅RGB图像PRGB、对应的Depth图像PDepth和对应的人工标注的显著目标分割图像PGT。
5.根据权利要求1所述的基于交互式引导注意力和梯形金字塔融合的RGB-D显著性目标检测方法,其特征在于:所述步骤5)具体方法是:
5.1)分别将多尺度的多模态特征通过空洞卷积操作提取超大规模的感受野信息,并设置不同空洞率的空洞卷积:
其中,i∈{1,2,3,4,5}表示多模态特征所在的层次,DLAi()代表空洞率为i的空洞卷积操作,并DLA2()、DLA4()和DLA8()分别代表空洞率为1、2、4和8的空洞卷积操作,和分别代表由第i层次的多模态特征所生成的空洞率为i的特征。
5.2)将上述步骤所生成的多层级感受野的多模态特征输入梯形金字塔特征融合网络,融合不同感受野的多模态特征:
其中,TPNet()表示梯形金字塔特征融合网络。
6)将步骤5所获取到的5个层次的超大规模感受野的多模态特征输入到由梯形金字塔特征融合网络构成的解码器中,得到最终的融合特征,在经过sigmoid函数激活,得到预测的显著图Pest:
Pest=sigmoid(TPNet(f1,f2,f3,f4,f5)) 公式(3)
7)通过本发明预测出来的显著图Pest与人工标注的显著目标分割图PGT进行损失函数的计算,并通过SGD和反向传播算法逐步更新本发明提出的模型的参数权重,最终确定RGB-D显著性检测算法的结构和参数权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111565805.7A CN114283315A (zh) | 2021-12-17 | 2021-12-17 | 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111565805.7A CN114283315A (zh) | 2021-12-17 | 2021-12-17 | 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114283315A true CN114283315A (zh) | 2022-04-05 |
Family
ID=80873250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111565805.7A Pending CN114283315A (zh) | 2021-12-17 | 2021-12-17 | 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114283315A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115082553A (zh) * | 2022-08-23 | 2022-09-20 | 青岛云智聚智能科技有限公司 | 一种物流包裹位置检测方法及*** |
CN115439726A (zh) * | 2022-11-07 | 2022-12-06 | 腾讯科技(深圳)有限公司 | 一种图像检测方法、装置、设备及存储介质 |
CN117854009A (zh) * | 2024-01-29 | 2024-04-09 | 南通大学 | 一种交叉协作融合的轻量化跨模态人群计数方法 |
-
2021
- 2021-12-17 CN CN202111565805.7A patent/CN114283315A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115082553A (zh) * | 2022-08-23 | 2022-09-20 | 青岛云智聚智能科技有限公司 | 一种物流包裹位置检测方法及*** |
CN115439726A (zh) * | 2022-11-07 | 2022-12-06 | 腾讯科技(深圳)有限公司 | 一种图像检测方法、装置、设备及存储介质 |
CN117854009A (zh) * | 2024-01-29 | 2024-04-09 | 南通大学 | 一种交叉协作融合的轻量化跨模态人群计数方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291212B (zh) | 基于图卷积神经网络的零样本草图图像检索方法和*** | |
CN109145939B (zh) | 一种小目标敏感的双通道卷积神经网络语义分割方法 | |
CN113240691B (zh) | 一种基于u型网络的医学图像分割方法 | |
CN114283315A (zh) | 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法 | |
CN112084331A (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN113486190B (zh) | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 | |
CN109874053A (zh) | 基于视频内容理解和用户动态兴趣的短视频推荐方法 | |
CN113297370B (zh) | 基于多交互注意力的端到端多模态问答方法及*** | |
CN109743642B (zh) | 基于分层循环神经网络的视频摘要生成方法 | |
CN112287170B (zh) | 一种基于多模态联合学习的短视频分类方法及装置 | |
CN113284100B (zh) | 基于恢复图像对混合域注意力机制的图像质量评价方法 | |
CN112651940B (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN114283316A (zh) | 一种图像识别方法、装置、电子设备和存储介质 | |
CN113033454B (zh) | 一种城市视频摄像中建筑物变化的检测方法 | |
CN111275784A (zh) | 生成图像的方法和装置 | |
CN111783557B (zh) | 一种基于深度视觉的可穿戴导盲设备及服务器 | |
CN113435269A (zh) | 一种基于YOLOv3改进的水面漂浮物检测与识别方法及*** | |
CN114693952A (zh) | 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法 | |
CN114282059A (zh) | 视频检索的方法、装置、设备及存储介质 | |
CN116434033A (zh) | 面向rgb-d图像稠密预测任务的跨模态对比学习方法及*** | |
CN117033609A (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN114299305B (zh) | 聚合密集和注意力多尺度特征的显著性目标检测算法 | |
CN115965968A (zh) | 基于知识引导的小样本目标检测识别方法 | |
CN116933051A (zh) | 一种用于模态缺失场景的多模态情感识别方法及*** | |
CN114926734A (zh) | 基于特征聚合和注意融合的固体废弃物检测装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |