CN116524207A - 基于边缘检测辅助的弱监督rgbd图像显著性检测方法 - Google Patents
基于边缘检测辅助的弱监督rgbd图像显著性检测方法 Download PDFInfo
- Publication number
- CN116524207A CN116524207A CN202211575959.9A CN202211575959A CN116524207A CN 116524207 A CN116524207 A CN 116524207A CN 202211575959 A CN202211575959 A CN 202211575959A CN 116524207 A CN116524207 A CN 116524207A
- Authority
- CN
- China
- Prior art keywords
- edge
- layer
- saliency
- representing
- weak supervision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 64
- 238000003708 edge detection Methods 0.000 title claims abstract description 48
- 230000004927 fusion Effects 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims description 19
- 238000010422 painting Methods 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 14
- 238000013135 deep learning Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于边缘检测辅助的弱监督RGBD图像显著性检测方法,包括以下步骤:步骤S1:建立包含涂鸦标注图的弱监督RGBD图像显著性检测训练集,并进行数据增强;步骤S2:设计多层次、多任务的弱监督RGBD图像显著性检测网络;步骤S3:设计融合模块;步骤S4:设计基于边缘检测辅助的弱监督RGBD图像显著性检测网络,并设计损失函数优化网络参数;步骤S5:将待测RGBD图像输入训练好的基于边缘检测辅助的弱监督RGBD图像显著性检测模型中,得到显著性检测结果。应用本技术方案能够实现性能较好的弱监督RGBD图像显著性检测。
Description
技术领域
本发明涉及图像处理以及计算机视觉技术领域,特别是基于边缘检测辅助的弱监督RGBD图像显著性检测方法。
背景技术
显著性目标检测是计算机视觉领域中的一项重要研究内容,它的目标在于模拟人类的视觉感知***来找到图像中最引人注意的物体,并对其进行像素级别的分割。作为一个基础的图像处理问题,它在目标检测、语义分割、视频跟踪和图像理解等任务中都起着关键作用。
随着卷积神经网络的发展,许多基于深度学习的图像显著性检测方法被提出,与传统方法相比,这些方法在性能上有了很大的提升。但深度学习需要使用大量的训练数据作为支持,而强监督显著性检测模型需要的逐像素标注标签的获取代价十分昂贵,因此,弱监督图像显著性检测如今已成为了众多学者积极探索的一个研究方向。
弱监督图像显著性检测对不完整的弱级别标注进行建模,然后依靠模型强大的泛化能力推断出完整的显著性目标,常用的弱级别标注包括噪声标签、图像级标签、边界框以及涂鸦标签等。与逐像素标注标签相比,这些低成本标签无法提供完整的显著性物体结构细节,这给显著性检测网络模型恢复细致的显著性物体边缘结构带来了更大的挑战。目前大多数方法选择引入传统无监督显著性检测方法、图像分类任务或边缘检测任务等作为辅助,利用它们帮助确定显著性物体的位置和边缘。然而在一些复杂场景中,仅靠彩色图像提供的颜色和纹理特征,强监督显著性检测难以解决的边缘定位问题将在弱监督情况下变得更加困难。弱监督RGBD图像显著性检测通过引入深度图,将深度图包含的丰富结构信息和位置信息作为补充,能够提高复杂场景中的显著性目标检测能力。但其在引入深度图的同时也带来了新的问题,例如彩色图像和深度图之间的跨模态冲突问题、深度图粗糙的边缘问题以及低质量深度图带来的噪音问题等。
发明内容
有鉴于此,本发明的目的在于提供一种基于边缘检测辅助的弱监督RGBD图像显著性检测方法,该方法能够实现性能较好的弱监督RGBD图像显著性检测。
为实现上述目的,本发明采用如下技术方案:基于边缘检测辅助的弱监督RGBD图像显著性检测方法,包括以下步骤:
步骤S1:建立包含涂鸦标注图的弱监督RGBD图像显著性检测训练集,并进行数据增强;
步骤S2:设计多层次、多任务的弱监督RGBD图像显著性检测网络,使用该网络得到多尺度边缘细化的显著性预测结果;
步骤S3:设计融合模块,使用该模块融合多尺度边缘细化的显著性预测结果,得到最终的显著性预测结果;
步骤S4:设计基于边缘检测辅助的弱监督RGBD图像显著性检测网络,并设计损失函数优化网络参数,得到训练好的基于边缘检测辅助的弱监督RGBD图像显著性检测模型;
步骤S5:将待测RGBD图像输入训练好的基于边缘检测辅助的弱监督RGBD图像显著性检测模型中,得到显著性检测结果。
在一较佳的实施例中,所述步骤S1具体为:
步骤S11:划分数据集,按照一定比例划分为训练集和测试集;
步骤S12:对于训练集,在“Adobe Photoshop 2020”软件中使用画笔工具对每组RGBD图像进行涂鸦标注,具体地说,用黑色涂鸦标注部分显著性前景区域,用白色涂鸦部分标注背景区域,无标注区域则用灰色表示;
步骤S13:对训练集中的图像进行数据增强,具体操作包括加入噪声、随机裁剪、翻转图像,并对训练集和测试集中每组RGBD图像的彩色图像和深度图进行归一化,以突出前景区域。
在一较佳的实施例中,所述步骤S2具体为:
步骤S21:首先,分别将彩色图像和深度图输入两支VGG16网络中,接着将5个卷积层Conv1,Conv2,Conv3,Conv4和Conv5和池化层Pool5提取到的6个层次的特征分别作为多层次彩色图像特征和多层次深度图特征/>
步骤S22:设计初始显著性预测分支,在6个层次中的每个层次先拼接彩色图像特征和深度图特征/>接着将拼接特征送入跨模态特征融合模块CFF进行彩色图像特征和深度图特征的融合;跨模态特征融合模块由一个3×3卷积层、通道注意力、空间注意力和一个3×3卷积层串联组成。最后融合后的特征再通过卷积核为1的卷积层将其降至1维,该过程用公式表示如下:
其中表示第k层的初始显著性特征,/>和/>分别表示第k层的彩色图像特征和深度图特征,⊕表示拼接操作,FCFF表示初始显著性预测分支中的跨模态特征融合模块,Conv1×1代表卷积核为1的卷积层;
步骤S23:设计边缘检测分支,得到边缘特征Ek的过程与初始显著性预测分支相同,公式如下:
其中Ek表示第k层的边缘特征,和/>分别表示第k层的彩色图像特征和深度图特征,⊕表示拼接操作,FCFF′表示边缘检测分支中的跨模态特征融合模块,Conv1×1代表卷积核为1的卷积层。
步骤S24:设计边缘细化显著性预测模块;在6个层次中的每个层次先拼接初始显著性特征和边缘特征Ek,接着通过卷积核为1的卷积层将拼接特征的维度降至1维,公式如下:
其中Sk表示第k层的边缘细化的显著性特征,和Ek分别表示第k层的初始显著性特征和边缘特征,⊕表示拼接操作,Conv1×1代表卷积核为1的卷积层。
在一较佳的实施例中,所述步骤S3具体为:
步骤S31:设计融合模块;设计融合模块,逐层将深层特征整合至浅层特征,具体过程用公式表示如下:
Sfinal=σ(Conv3×3(H1))
其中Hk表示第k层的聚合特征,Sk表示第k层的边缘细化的显著性特征,Fup表示上采样,Conv3×3代表卷积核为3的卷积层,σ表示Sigmoid激活函数,Sfinal表示最终的显著性预测结果。
在一较佳的实施例中,所述步骤S4具体为:
步骤S41:组合步骤S2设计的多层次、多任务的弱监督RGBD图像显著性检测网络和步骤S3设计的融合模块,得到基于边缘检测辅助的弱监督RGBD图像显著性检测网络;
步骤S42:设计基于边缘检测辅助的弱监督RGBD图像显著性检测网络的损失函数如下:
其中L表示最终训练的损失函数,∑表示求和,k∈{1,…6}, 和分别是作用在初始显著性预测分支第k层、边缘细化显著性预测模块第k层和最终的显著性预测结果上的部分交叉熵损失,/> 和/>分别是作用在初始显著性预测分支第k层、边缘细化显著性预测模块第k层和最终的显著性预测结果上的平滑损失,/>是作用在边缘检测分支第k层上的交叉熵损失。 和/>的具体计算公式如下:
Sk′=σ(Sk)
Ek′=σ(Ek)
其中σ表示Sigmoid激活函数,和/>分别表示初始显著性预测分支中第k层的初始显著性特征和第k层的初始显著性预测图,Sk和Sk′分别表示边缘细化显著性预测模块中第k层的边缘细化的显著性特征和第k层的边缘细化的显著性预测图,Y表示输入的涂鸦标注图,U表示涂鸦标注图Y中的涂鸦区域,(i,j)∈U表示位于涂鸦区域中的像素,log表示log函数,Sfinal表示最终显著性预测结果图,Δ表示求导,/>ΔI[i,j]、ΔG[i,j和ΔSfinal[i,j]分别表示对第k层的初始显著性预测图、第k层的边缘细化的显著性预测图、彩色图像、深度图和最终显著性预测结果图求导后的图,|·|表示取绝对值,e为常数,α为固定参数,/>定义为/>以避免结果为0,Ek和Ek′分别表示边缘检测分支中第k层的边缘特征和第k层的边缘图,E表示输入的边缘图,[i,j]表示图像的第i行和第j列像素,Y[i,j]、/>Sfinal[i,j]、/>ΔS′k、ΔI[i,j]、ΔG[i,j]、E[i,j]和Ek′[i,j]分别表示图像Y、/>S′k、Sfinal、/>ΔS′k、ΔI、ΔG、E和Ek′的第i行和第j列像素处的值;
步骤S43:以批次为单位重复上述步骤S2至步骤S4,直至步骤S4中计算得到的损失函数值收敛并趋于稳定,保存网络参数,完成基于边缘检测辅助的弱监督RGBD图像显著性检测网络的训练过程,得到基于边缘检测辅助的弱监督RGBD图像显著性检测模型。
与现有技术相比,本发明具有以下有益效果:充分利用彩色图像和深度图相结合提供的优势的同时,规避深度图带来的问题,实现性能较好的弱监督RGBD图像显著性检测。
附图说明
图1是本发明优选实施例的实现流程图。
图2是本发明优选实施例中一组RGBD图像和其对应的涂鸦标注图示例。
图3是本发明优选实施例中网络模型结构图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式;如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本发明提供一种基于边缘检测辅助的弱监督RGBD图像显著性检测方法,如图1所示,包括以下步骤:
步骤S1:建立包含涂鸦标注图的弱监督RGBD图像显著性检测训练集,并进行数据增强;
步骤S2:设计多层次、多任务的弱监督RGBD图像显著性检测网络,使用该网络得到多尺度边缘细化的显著性预测结果;
步骤S3:设计融合模块,使用该模块融合多尺度边缘细化的显著性预测结果,得到最终的显著性预测结果;
步骤S4:设计基于边缘检测辅助的弱监督RGBD图像显著性检测网络,并设计损失函数优化网络参数,得到训练好的基于边缘检测辅助的弱监督RGBD图像显著性检测模型;
步骤S5:将待测RGBD图像输入训练好的基于边缘检测辅助的弱监督RGBD图像显著性检测模型中,得到显著性检测结果。
进一步地,步骤S1具体包括以下步骤:
步骤S11:划分数据集,按照一定比例划分为训练集和测试集;
步骤S12:对于训练集,在“Adobe Photoshop 2020”软件中使用画笔工具对每组RGBD图像进行涂鸦标注,具体地说,用黑色涂鸦标注部分显著性前景区域,用白色涂鸦部分标注背景区域,无标注区域则用灰色表示;
步骤S13:对训练集中的图像进行数据增强,具体操作包括加入噪声、随机裁剪、翻转图像,并对训练集和测试集中每组RGBD图像的彩色图像和深度图进行归一化,以突出前景区域。
进一步地,步骤S2具体包括以下步骤:
步骤S21:首先,分别将彩色图像和深度图输入两支VGG16网络中,接着将5个卷积层Conv1,Conv2,Conv3,Conv4和Conv5和池化层Pool5提取到的6个层次的特征分别作为多层次彩色图像特征和多层次深度图特征/>
步骤S22:设计初始显著性预测分支,在6个层次中的每个层次先拼接彩色图像特征和深度图特征/>接着将拼接特征送入跨模态特征融合模块CFF进行彩色图像特征和深度图特征的融合;跨模态特征融合模块由一个3×3卷积层、通道注意力、空间注意力和一个3×3卷积层串联组成。最后融合后的特征再通过卷积核为1的卷积层将其降至1维,该过程用公式表示如下:
其中表示第k层的初始显著性特征,/>和/>分别表示第k层的彩色图像特征和深度图特征,⊕表示拼接操作,FCFF表示初始显著性预测分支中的跨模态特征融合模块,Conv1×1代表卷积核为1的卷积层;
步骤S23:设计边缘检测分支,得到边缘特征Ek的过程与初始显著性预测分支相同,公式如下:
其中Ek表示第k层的边缘特征,和/>分别表示第k层的彩色图像特征和深度图特征,⊕表示拼接操作,FCFF′表示边缘检测分支中的跨模态特征融合模块,Conv1×1代表卷积核为1的卷积层。
步骤S24:设计边缘细化显著性预测模块;在6个层次中的每个层次先拼接初始显著性特征和边缘特征Ek,接着通过卷积核为1的卷积层将拼接特征的维度降至1维,公式如下:
其中Sk表示第k层的边缘细化的显著性特征,和Ek分别表示第k层的初始显著性特征和边缘特征,⊕表示拼接操作,Conv1×1代表卷积核为1的卷积层。
进一步地,步骤S3具体包括以下步骤:
步骤S31:设计融合模块;设计融合模块,逐层将深层特征整合至浅层特征,具体过程用公式表示如下:
Sfinal=σ(Conv3×3(H1))
其中Hk表示第k层的聚合特征,Sk表示第k层的边缘细化的显著性特征,Fup表示上采样,Conv3×3代表卷积核为3的卷积层,σ表示Sigmoid激活函数,Sfinal表示最终的显著性预测结果。
进一步地,步骤S4具体包括以下步骤:
步骤S41:组合步骤S2设计的多层次、多任务的弱监督RGBD图像显著性检测网络和步骤S3设计的融合模块,得到基于边缘检测辅助的弱监督RGBD图像显著性检测网络;
步骤S42:设计基于边缘检测辅助的弱监督RGBD图像显著性检测网络的损失函数如下:
其中L表示最终训练的损失函数,∑表示求和,k∈{1,…6}, 和分别是作用在初始显著性预测分支第k层、边缘细化显著性预测模块第k层和最终的显著性预测结果上的部分交叉熵损失,/> 和/>分别是作用在初始显著性预测分支第k层、边缘细化显著性预测模块第k层和最终的显著性预测结果上的平滑损失,/>是作用在边缘检测分支第k层上的交叉熵损失。 和/>的具体计算公式如下:
Sk′=σ(Sk)
Ek′=σ(Ek)
其中σ表示Sigmoid激活函数,和/>分别表示初始显著性预测分支中第k层的初始显著性特征和第k层的初始显著性预测图,Sk和Sk′分别表示边缘细化显著性预测模块中第k层的边缘细化的显著性特征和第k层的边缘细化的显著性预测图,Y表示输入的涂鸦标注图,U表示涂鸦标注图Y中的涂鸦区域,(i,j)∈U表示位于涂鸦区域中的像素,log表示log函数,Sfinal表示最终显著性预测结果图,Δ表示求导,/>ΔS′k、ΔI[i,j]、ΔG[i,j和ΔSfinal[i,j]分别表示对第k层的初始显著性预测图、第k层的边缘细化的显著性预测图、彩色图像、深度图和最终显著性预测结果图求导后的图,|·|表示取绝对值,e为常数,α为固定参数,/>定义为/>以避免结果为0,Ek和Ek′分别表示边缘检测分支中第k层的边缘特征和第k层的边缘图,E表示输入的边缘图,[i,j]表示图像的第i行和第j列像素,Y[i,j]、/>S′k[i,j]、Sfinal[i,j]、/>ΔS′k、ΔI[i,j]、ΔG[i,j]、E[i,j]和Ek′[i,j]分别表示图像Y、/>S′k、Sfinal、/>ΔS′k、ΔI、ΔG、E和Ek′的第i行和第j列像素处的值;
步骤S43:以批次为单位重复上述步骤S2至步骤S4,直至步骤S4中计算得到的损失函数值收敛并趋于稳定,保存网络参数,完成基于边缘检测辅助的弱监督RGBD图像显著性检测网络的训练过程,得到基于边缘检测辅助的弱监督RGBD图像显著性检测模型。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (5)
1.基于边缘检测辅助的弱监督RGBD图像显著性检测方法,其特征在于,包括以下步骤:
步骤S1:建立包含涂鸦标注图的弱监督RGBD图像显著性检测训练集,并进行数据增强;
步骤S2:设计多层次、多任务的弱监督RGBD图像显著性检测网络,使用该网络得到多尺度边缘细化的显著性预测结果;
步骤S3:设计融合模块,使用该模块融合多尺度边缘细化的显著性预测结果,得到最终的显著性预测结果;
步骤S4:设计基于边缘检测辅助的弱监督RGBD图像显著性检测网络,并设计损失函数优化网络参数,得到训练好的基于边缘检测辅助的弱监督RGBD图像显著性检测模型;
步骤S5:将待测RGBD图像输入训练好的基于边缘检测辅助的弱监督RGBD图像显著性检测模型中,得到显著性检测结果。
2.根据权利要求1所述的基于边缘检测辅助的弱监督RGBD图像显著性检测方法,其特征在于,所述步骤S1具体为:
步骤S11:划分数据集,按照一定比例划分为训练集和测试集;
步骤S12:对于训练集,在“Adobe Photoshop 2020”软件中使用画笔工具对每组RGBD图像进行涂鸦标注,具体地说,用黑色涂鸦标注部分显著性前景区域,用白色涂鸦部分标注背景区域,无标注区域则用灰色表示;
步骤S13:对训练集中的图像进行数据增强,具体操作包括加入噪声、随机裁剪、翻转图像,并对训练集和测试集中每组RGBD图像的彩色图像和深度图进行归一化,以突出前景区域。
3.根据权利要求1所述的基于边缘检测辅助的弱监督RGBD图像显著性检测方法,其特征在于,所述步骤S2具体为:
步骤S21:首先,分别将彩色图像和深度图输入两支VGG16网络中,接着将5个卷积层Conv1,Conv2,Conv3,Conv4和Conv5和池化层Pool5提取到的6个层次的特征分别作为多层次彩色图像特征和多层次深度图特征/>
步骤S22:设计初始显著性预测分支,在6个层次中的每个层次先拼接彩色图像特征和深度图特征/>接着将拼接特征送入跨模态特征融合模块CFF进行彩色图像特征和深度图特征的融合;跨模态特征融合模块由一个3×3卷积层、通道注意力、空间注意力和一个3×3卷积层串联组成;最后融合后的特征再通过卷积核为1的卷积层将其降至1维,该过程用公式表示如下:
其中表示第k层的初始显著性特征,/>和/>分别表示第k层的彩色图像特征和深度图特征,/>表示拼接操作,FCFF表示初始显著性预测分支中的跨模态特征融合模块,Conv1×1代表卷积核为1的卷积层;
步骤S23:设计边缘检测分支,得到边缘特征Ek的过程与初始显著性预测分支相同,公式如下:
其中Ek表示第k层的边缘特征,和/>分别表示第k层的彩色图像特征和深度图特征,/>表示拼接操作,FCFF′表示边缘检测分支中的跨模态特征融合模块,Conv1×1代表卷积核为1的卷积层;
步骤S24:设计边缘细化显著性预测模块;在6个层次中的每个层次先拼接初始显著性特征和边缘特征Ek,接着通过卷积核为1的卷积层将拼接特征的维度降至1维,公式如下:
其中Sk表示第k层的边缘细化的显著性特征,和Ek分别表示第k层的初始显著性特征和边缘特征,/>表示拼接操作,Conv1×1代表卷积核为1的卷积层。
4.根据权利要求1所述的基于边缘检测辅助的弱监督RGBD图像显著性检测方法,其特征在于,所述步骤S3具体为:
步骤S31:设计融合模块;设计融合模块,逐层将深层特征整合至浅层特征,具体过程用公式表示如下:
Sfinal=σ(Conv3×3(H1))
其中Hk表示第k层的聚合特征,Sk表示第k层的边缘细化的显著性特征,Fup表示上采样,Conv3×3代表卷积核为3的卷积层,σ表示Sigmoid激活函数,Sfinal表示最终的显著性预测结果。
5.根据权利要求1所述的基于边缘检测辅助的弱监督RGBD图像显著性检测方法,其特征在于,所述步骤S4具体为:
步骤S41:组合步骤S2设计的多层次、多任务的弱监督RGBD图像显著性检测网络和步骤S3设计的融合模块,得到基于边缘检测辅助的弱监督RGBD图像显著性检测网络;
步骤S42:设计基于边缘检测辅助的弱监督RGBD图像显著性检测网络的损失函数如下:
其中L表示最终训练的损失函数,∑表示求和,k∈{1,…6}, 和/>分别是作用在初始显著性预测分支第k层、边缘细化显著性预测模块第k层和最终的显著性预测结果上的部分交叉熵损失,/> 和/>分别是作用在初始显著性预测分支第k层、边缘细化显著性预测模块第k层和最终的显著性预测结果上的平滑损失,是作用在边缘检测分支第k层上的交叉熵损失; 和/>的具体计算公式如下:
Sk′=σ(Sk)
Ek′=σ(Ek)
其中σ表示Sigmoid激活函数,和/>分别表示初始显著性预测分支中第k层的初始显著性特征和第k层的初始显著性预测图,Sk和Sk′分别表示边缘细化显著性预测模块中第k层的边缘细化的显著性特征和第k层的边缘细化的显著性预测图,Y表示输入的涂鸦标注图,U表示涂鸦标注图Y中的涂鸦区域,(i,j)∈U表示位于涂鸦区域中的像素,log表示log函数,Sfinal表示最终显著性预测结果图,Δ表示求导,/>ΔS′k、ΔI[i,j]、ΔG[i,j]和ΔSfinal[i,j]分别表示对第k层的初始显著性预测图、第k层的边缘细化的显著性预测图、彩色图像、深度图和最终显著性预测结果图求导后的图,|·|表示取绝对值,e为常数,α为固定参数,/>定义为/>以避免结果为0,Ek和Ek′分别表示边缘检测分支中第k层的边缘特征和第k层的边缘图,E表示输入的边缘图,[i,j]表示图像的第i行和第j列像素,Y[i,j]、/>S′k[i,j]、Sfinal[i,j]、/>ΔS′k、ΔI[i,j]、ΔG[i,j]、E[i,j]和Ek′[i,j]分别表示图像Y、/>Sfinal、/>ΔS′k、ΔI、ΔG、E和Ek′的第i行和第j列像素处的值;
步骤S43:以批次为单位重复上述步骤S2至步骤S4,直至步骤S4中计算得到的损失函数值收敛并趋于稳定,保存网络参数,完成基于边缘检测辅助的弱监督RGBD图像显著性检测网络的训练过程,得到基于边缘检测辅助的弱监督RGBD图像显著性检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211575959.9A CN116524207A (zh) | 2022-12-08 | 2022-12-08 | 基于边缘检测辅助的弱监督rgbd图像显著性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211575959.9A CN116524207A (zh) | 2022-12-08 | 2022-12-08 | 基于边缘检测辅助的弱监督rgbd图像显著性检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116524207A true CN116524207A (zh) | 2023-08-01 |
Family
ID=87401781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211575959.9A Pending CN116524207A (zh) | 2022-12-08 | 2022-12-08 | 基于边缘检测辅助的弱监督rgbd图像显著性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524207A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117173394A (zh) * | 2023-08-07 | 2023-12-05 | 山东大学 | 面向无人机视频数据的弱监督显著性目标检测方法及*** |
-
2022
- 2022-12-08 CN CN202211575959.9A patent/CN116524207A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117173394A (zh) * | 2023-08-07 | 2023-12-05 | 山东大学 | 面向无人机视频数据的弱监督显著性目标检测方法及*** |
CN117173394B (zh) * | 2023-08-07 | 2024-04-02 | 山东大学 | 面向无人机视频数据的弱监督显著性目标检测方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112541503B (zh) | 基于上下文注意力机制和信息融合的实时语义分割方法 | |
CN108829826B (zh) | 一种基于深度学习和语义分割的图像检索方法 | |
CN112132156B (zh) | 多深度特征融合的图像显著性目标检测方法及*** | |
CN109753913B (zh) | 计算高效的多模式视频语义分割方法 | |
CN107239730B (zh) | 智能汽车交通标志识别的四元数深度神经网络模型方法 | |
CN112163498B (zh) | 前景引导和纹理聚焦的行人重识别模型建立方法及其应用 | |
CN111783622A (zh) | 人脸表情识别的方法、装置、设备和计算机可读存储介质 | |
CN111696110B (zh) | 场景分割方法及*** | |
CN109359527B (zh) | 基于神经网络的头发区域提取方法及*** | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN111461006B (zh) | 一种基于深度迁移学习的光学遥感图像杆塔位置检测方法 | |
CN113411550B (zh) | 视频上色方法、装置、设备及存储介质 | |
CN109657538B (zh) | 基于上下文信息指导的场景分割方法和*** | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112070174A (zh) | 一种基于深度学习的自然场景下文本检测方法 | |
CN112927209A (zh) | 一种基于cnn的显著性检测***和方法 | |
CN111108508A (zh) | 脸部情感识别方法、智能装置和计算机可读存储介质 | |
Muthalagu et al. | Vehicle lane markings segmentation and keypoint determination using deep convolutional neural networks | |
JP2023131117A (ja) | 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体 | |
CN116524207A (zh) | 基于边缘检测辅助的弱监督rgbd图像显著性检测方法 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及*** | |
CN117726809A (zh) | 一种基于信息交互增强的小样本语义分割方法 | |
CN113096133A (zh) | 一种基于注意力机制的语义分割网络的构建方法 | |
CN111242216A (zh) | 基于条件生成对抗卷积神经网络的图像生成方法 | |
CN111931793B (zh) | 一种显著性目标提取方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |