CN112861880A - 基于图像分类的弱监督rgbd图像显著性检测方法及*** - Google Patents

基于图像分类的弱监督rgbd图像显著性检测方法及*** Download PDF

Info

Publication number
CN112861880A
CN112861880A CN202110245920.XA CN202110245920A CN112861880A CN 112861880 A CN112861880 A CN 112861880A CN 202110245920 A CN202110245920 A CN 202110245920A CN 112861880 A CN112861880 A CN 112861880A
Authority
CN
China
Prior art keywords
map
network model
image
saliency
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110245920.XA
Other languages
English (en)
Other versions
CN112861880B (zh
Inventor
潘昌琴
林涵阳
刘国辉
王力军
俞伟明
蔡桥英
郑骁凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Start Dima Data Processing Co ltd
Original Assignee
Jiangsu Start Dima Data Processing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Start Dima Data Processing Co ltd filed Critical Jiangsu Start Dima Data Processing Co ltd
Priority to CN202110245920.XA priority Critical patent/CN112861880B/zh
Publication of CN112861880A publication Critical patent/CN112861880A/zh
Application granted granted Critical
Publication of CN112861880B publication Critical patent/CN112861880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于图像分类的弱监督RGBD图像显著性检测方法及***,该方法包括以下步骤:步骤S1:对于训练数据集中的图像,分别利用基于梯度的类别响应机制和RGBD图像显著物体检测算法,生成类别响应图和初始的显著图;步骤S2:对类别响应图和初始的显著图进行深度优化,并将二者融合生成初始的显著图伪标签;步骤S3:构建用于RGBD图像显著性检测的网络模型和混合损失函数;对网络模型进行训练,通过最小化混合损失,学习网络模型的最优参数,得到训练好的网络模型;步骤S4:利用训练好的网络模型来预测RGBD图像的显著图。该方法及***有利于提高弱监督RGBD图像显著性检测的精度。

Description

基于图像分类的弱监督RGBD图像显著性检测方法及***
技术领域
本发明属于图像处理以及计算机视觉领域,具体涉及一种基于图像分类的弱监督RGBD图像显著性检测方法及***。
背景技术
由于强监督的显著性检测算法是逐像素标注的,人工标签的代价十分昂贵。因此,近些年有一些学者开始研究弱监督的显著性检测算法,使用图像级标注或者仅仅以一个边框这种代价低的标签进行显著性检测的监督训练。Parthipan Siva等人提出了一种以边框标注进行弱监督图像显著性检测的方法,他们将显著性检测视作一个采样的问题。Wang等人首次使用图像级标注进行显著性检测,他们将显著性检测任务和图像分类任务相结合,使用多任务的结构实现了弱监督的显著性检测。Zeng等人提出了一种多源的弱监督显著性检测框架弥补分类标签的不足。Zhang等人在最近的新工作中提出了一种基于涂鸦标注的弱显著性检测的网络结构,并且提出了对应的数据集。但是,这些方法都是研究单纯的RGB图像的弱监督显著性检测,对RGBD图像的弱监督显著性检测少有涉及。
发明内容
本发明的目的在于提供一种基于图像分类的弱监督RGBD图像显著性检测方法及***,该方法及***有利于提高弱监督RGBD图像显著性检测的精度。
为实现上述目的,本发明采用的技术方案是:一种基于图像分类的弱监督RGBD图像显著性检测方法,包括以下步骤:
步骤S1:对于训练数据集中的图像,分别利用基于梯度的类别响应机制和RGBD图像显著物体检测算法,生成类别响应图Icam和初始的显著图Scdcp
步骤S2:对类别响应图和初始的显著图进行深度优化,并将二者融合生成初始的显著图伪标签Ynoisy
步骤S3:构建用于RGBD图像显著性检测的网络模型和混合损失函数;对网络模型进行训练,通过最小化混合损失,学习网络模型的最优参数,得到训练好的网络模型;
步骤S4:利用训练好的网络模型来预测RGBD图像的显著图。
进一步地,所述步骤S1具体包括以下步骤:
步骤S11:对训练数据集中的每一张彩色图及其对应的深度图一同进行缩放,使得训练数据集中所有RGBD图像的大小相同;
步骤S12:将缩放后的彩色图Irgb输入预训练好的分类网络模型ResNet50进行图像分类,得到ResNet50卷积层的最后一层生成特征图集合,并将其定义为矩阵A∈RH×W×N,其中H、W表示特征图的高度和宽度,N表示通道数;在基于梯度的类别响应机制中,将特征图集合A线性组合成类别响应图,且该线性组合的权重由分类概率在特征图上的偏导数决定;具体为:首先,将最后一层的分类结果yc与特征图集合中的第k个特征图Ak求偏导数并通过全局平均池化得到作用在该特征图上的线性组合权重
Figure BDA0002964086550000021
其公式化表达为:
Figure BDA0002964086550000022
其中,GAP(·)表示全局平均池化算子,
Figure BDA0002964086550000023
表示求偏导数操作;
其次,将特征图线性组合起来并经过Relu函数过滤生成初步的类别响应图
Figure BDA0002964086550000024
其公式化表达为:
Figure BDA0002964086550000025
其中,Relu(·)表示Relu激活函数,∑表示求和操作;
最后,将初步的类别响应图进行归一化得到最终的类别响应图Icam,其公式化表达为:
Figure BDA0002964086550000026
其中,MaxPool表示最大池化;
步骤S13:将彩色图Irgb和深度图Idepth同时通过基于中心暗通道先验的RGBD图像显著性检测算法生成初始的显著图Scdcp,其公式化表达为:
Scdcp=functioncdcp(Irgb,Idepth)
其中,functioncdcp(·)表示基于中心暗通道先验的RGBD图像显著性检测算法。
进一步地,所述步骤S2具体包括以下步骤:
步骤S21:首先通过深度图Idepth对类别响应图Icam进行深度增强,得到深度增强的类别响应图
Figure BDA00029640865500000313
然后经过条件随机场进行深度优化,得到优化后的类别响应图
Figure BDA0002964086550000031
其公式化表达为:
Figure BDA0002964086550000032
Figure BDA0002964086550000033
其中,
Figure BDA0002964086550000034
表示逐像素点乘,CRF(·)表示条件随机场优化,α表示大于1的超参数;
步骤S22:通过深度图Idepth对初始的显著图Scdcp进行深度增强,得到深度增强的显著图
Figure BDA0002964086550000035
然后经过条件随机场进行深度优化,得到优化后的显著图
Figure BDA0002964086550000036
其公式化表达为:
Figure BDA0002964086550000037
Figure BDA0002964086550000038
其中,
Figure BDA0002964086550000039
表示逐像素点乘,CRF(·)表示条件随机场优化,β表示大于1的超参数;
步骤S23:将优化后的类别响应图
Figure BDA00029640865500000310
和显著图
Figure BDA00029640865500000311
融合成具有更低噪声的伪标签YNoisy,用于网络模型的训练,其公式化表达为:
Figure BDA00029640865500000312
其中,×表示乘法算子,δ表示大于0且小于1的参数。
进一步地,所述步骤S3具体包括以下步骤:
步骤S31:构建用于RGBD图像显著性检测的网络模型,所述网络模型由特征融合模块和全卷积神经网络FCN模块组成;
步骤S32:构建包括加权交叉熵损失、条件随机场推理损失以及边缘损失的混合损失函数,并使用所述混合损失函数对所述网络模型进行训练,得到一个具有良好鲁棒性的网络模型。
进一步地,所述步骤S31具体包括以下步骤:
步骤S311:构建特征融合模块,所述特征融合模块由两个3×3卷积构成,对输入网络模型的彩色图Irgb和深度图Idepth进行特征融合;首先,将输入的彩色图和深度图进行通道拼接生成大小为(b,4,h,w)的网络模型输入;然后,将该输入经过两层3×3卷积得到大小为(b,3,h,w)的特征X′,其公式化表达为:
Input=Concat(Irgb,Idepth)
X=Conv3×3(Input)
X′=Conv3×3(X)
其中,Concat(·)表示拼接算子,Input表示网络模型的输入,X表示卷积的中间特征;
步骤S312:FCN模块将分类网络的最后一层改成卷积层,并且对分类网络的第5层池化后的特征Feat5进行上采样,然后进行卷积得到通道数更少的特征,而后经过激活函数得到最终的显著性预测图,其公式化表达为:
out=FCN(X′)
S=Sigmoid(out)
其中,FCN(·)表示FCN模块,out表示网络模型的输出,Sigmoid(·)表示sigmoid激活函数,S表示网络模型预测的显著图。
进一步地,所述步骤S32具体包括以下步骤:
步骤S321:对原始的交叉熵损失函数进行改造,得到加权的交叉熵损失函数,减小网络模型训练时标签中噪音的影响,其公式化表达为:
Figure BDA0002964086550000041
Figure BDA0002964086550000042
w=|Y[i,j]-0.5|
其中,w表示作用在某个像素上的损失权重,
Figure BDA0002964086550000043
表示加权的交叉熵损失函数,YNoisy表示步骤S23中生成的伪标签,
Figure BDA0002964086550000044
表示原始的交叉熵损失函数,Y表示真实标签,i和j表示像素所在行和列的索引,log(·)表示对数函数,|·|表示绝对值算子;
步骤S322:构建条件随机场推理损失函数,使得网络模型能够通过确定的标注推断伪标签中不确定的区域,其公式化表达为:
Scrf=CRF(S,Irgb)
Figure BDA0002964086550000045
其中,CRF(·)表示条件随机场优化,Scrf表示条件随机场优化后的显著图,在该步骤中将其作为标签监督预测的显著图S,
Figure BDA0002964086550000051
表示条件随机场推理损失函数;
步骤S323:构建边缘损失函数对预测显著图的边缘进行优化;
首先,将彩色图Irgb转化成灰度图Igray并通过边缘检测算子获得全局的边缘图Iedge,其公式化表达为:
Iedge=ΔIgray
其中,Δ表示边缘检测中的求梯度操作;
其次,对预测的显著图S进行膨胀与腐蚀操作,生成掩码图Imask,作用在边缘图上过滤掉冗余的边缘,得到边缘损失的标签,其公式化表达为:
Sdil=Dilate(S)
Sero=Erode(S)
Imask=Sdil-Sero
Figure BDA0002964086550000052
其中,Dilate(·)表示膨胀操作,Erode(·)表示腐蚀操作,
Figure BDA0002964086550000053
表示逐像素点乘,Yedge表示作用在边缘损失上的标签;
定义边缘损失函数
Figure BDA0002964086550000054
为:
Figure BDA0002964086550000055
其中,ΔS表示预测的显著图的边缘图;
步骤S324:将步骤S321-S323中的损失求和计算得到最终的混合损失函数:
Figure BDA0002964086550000056
其中,
Figure BDA0002964086550000057
表示混合损失函数。
进一步地,通过Adam优化器对混合损失函数优化,获得网络模型的最优参数,用于网络模型的测试。
本发明还提供了一种基于图像分类的弱监督RGBD图像显著性检测***,包括存储器、处理器以及存储于存储器上并能够在处理器上运行的计算机程序,当处理器运行该计算机程序时,实现所述的方法步骤。
与现有技术相比,本发明具有以下有益效果:本发明提出了一个弱监督的RGBD图像显著性检测方案,并且设计了深度优化策略对伪标签进行优化,同时还考虑了伪标签上的噪音以及标签物体不全,构建了一个混合损失来使模型能有效地推断物体的全貌,本发明能够提高弱监督RGBD图像显著物体检测的精度,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例的方法实现流程示意图。
图2是本发明实施例中弱监督RGBD图像显著性检测的网络模型架构图。
图3是本发明实施例中特征融合模块示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种基于图像分类的弱监督RGBD图像显著性检测方法,包括以下步骤:
步骤S1:对于训练数据集中的图像,分别利用基于梯度的类别响应机制和传统的RGBD图像显著物体检测算法,生成类别响应图Icam和初始的显著图Scdcp
步骤S2:对类别响应图和初始的显著图进行深度优化,并将二者融合生成初始的显著图伪标签Ynoisy
步骤S3:构建用于RGBD图像显著性检测的网络模型和混合损失函数。对网络模型进行训练,通过最小化混合损失,学习网络模型的最优参数,得到训练好的网络模型。
步骤S4:利用训练好的网络模型来预测RGBD图像的显著图。
其中,彩色图如图2中的RGB,深度图如图2中的Depth。基于梯度的类别响应机制大体框架如图2中的上侧网络框架。
在本实施例中,所述步骤S1具体包括以下步骤:
步骤S11:对训练数据集中的每一张彩色图及其对应的深度图一同进行缩放,使训练数据集中所有RGBD图像的大小相同,使得步骤S2生成的显著图伪标签Ynoisy具有相同的大小。
步骤S12:将缩放后的彩色图Irgb输入预训练好的分类网络模型ResNet50进行图像分类,得到ResNet50卷积层的最后一层生成特征图集合,并将其定义为矩阵A∈RH×W×N,其中H、W表示特征图的高度和宽度,N表示通道数。在基于梯度的类别响应机制中,将特征图集合A线性组合成类别响应图,且该线性组合的权重由分类概率在特征图上的偏导数决定。具体为:首先,将最后一层的分类结果yc与特征图集合中的第k个特征图Ak求偏导数并通过全局平均池化得到作用在该特征图上的线性组合权重
Figure BDA0002964086550000071
其公式化表达为:
Figure BDA0002964086550000072
其中,GAP(·)表示全局平均池化算子,
Figure BDA0002964086550000073
表示求偏导数操作。
其次,将特征图线性组合起来并经过Relu函数过滤生成初步的类别响应图
Figure BDA0002964086550000074
其公式化表达为:
Figure BDA0002964086550000075
其中,Relu(·)表示Relu激活函数,∑表示求和操作。
最后,将初步的类别响应图进行归一化得到最终的类别响应图Icam(如图2中的类别响应图),其公式化表达为:
Figure BDA0002964086550000076
其中,MaxPool表示最大池化。
步骤S13:将彩色图Irgb和深度图Idepth同时通过基于中心暗通道先验的RGBD图像显著性检测算法生成初始的显著图Scdcp,其公式化表达为:
Scdcp=functioncdcp(Irgb,Idepth)
其中,functioncdcp(·)表示基于中心暗通道先验的RGBD图像显著性检测算法。
在本实施例中,所述步骤S2具体包括以下步骤:
步骤S21:首先通过深度图Idepth对类别响应图Icam进行深度增强,得到深度增强的类别响应图
Figure BDA0002964086550000081
然后经过条件随机场进行深度优化,得到优化后的类别响应图
Figure BDA0002964086550000082
其公式化表达为:
Figure BDA0002964086550000083
Figure BDA0002964086550000084
其中,
Figure BDA0002964086550000085
表示逐像素点乘,CRF(·)表示条件随机场优化,α表示大于1的超参数。
步骤S22:通过深度图Idepth对初始的显著图Scdcp进行深度增强,得到深度增强的显著图
Figure BDA0002964086550000086
然后经过条件随机场进行深度优化,得到优化后的显著图
Figure BDA0002964086550000087
其公式化表达为:
Figure BDA0002964086550000088
Figure BDA0002964086550000089
其中,
Figure BDA00029640865500000810
表示逐像素点乘,CRF(·)表示条件随机场优化,β表示大于1的超参数。
步骤S23:将优化后的类别响应图
Figure BDA00029640865500000811
和显著图
Figure BDA00029640865500000812
融合成具有更低噪声的伪标签YNoisy(如图2中的噪音标注),用于网络模型的训练,其公式化表达为:
Figure BDA00029640865500000813
其中,×表示乘法算子,δ表示大于0且小于1的参数。
在本实施例中,所述步骤S3具体包括以下步骤:
步骤S31:构建用于RGBD图像显著性检测的网络模型(如图2),所述网络模型由特征融合模块(如图3)和全卷积神经网络FCN模块组成。所述步骤S31具体包括以下步骤:
步骤S311:构建特征融合模块,所述特征融合模块由两个3×3卷积构成,对输入网络模型的彩色图Irgb和深度图Idepth进行特征融合。首先,将输入的彩色图和深度图进行通道拼接生成大小为(b,4,h,w)的网络模型输入。然后,将该输入经过两层3×3卷积得到大小为(b,3,h,w)的特征X′,其公式化表达为:
Input=Concat(Irgb,Idepth)
X=Conv3×3(Input)
X′=Conv3×3(X)
其中,Concat(·)表示拼接算子,Input表示网络模型的输入,X表示卷积的中间特征。
步骤S312:FCN模块将分类网络的最后一层改成卷积层,并且对分类网络的第5层池化后的特征Feat5进行上采样,然后进行卷积得到通道数更少的特征,而后经过激活函数得到最终的显著性预测图,其公式化表达为:
out=FCN(X′)
S=Sigmoid(out)
其中,FCN(·)表示FCN模块,out表示网络模型的输出,Sigmoid(·)表示sigmoid激活函数,S表示网络模型预测的显著图。
步骤S32:构建包括加权交叉熵损失、条件随机场推理损失以及边缘损失的混合损失函数,并使用所述混合损失函数对所述网络模型进行训练,得到一个具有良好鲁棒性的网络模型。所述步骤S32具体包括以下步骤:
步骤S321:对原始的交叉熵损失函数进行改造,得到加权的交叉熵损失函数,减小网络模型训练时标签中噪音的影响,其公式化表达为:
Figure BDA0002964086550000091
Figure BDA0002964086550000092
w=|Y[i,j]-0.5|
其中,w表示作用在某个像素上的损失权重,
Figure BDA0002964086550000093
表示加权的交叉熵损失函数,YNoisy表示步骤S23中生成的伪标签,
Figure BDA0002964086550000094
表示原始的交叉熵损失函数,Y表示真实标签,i和j表示像素所在行和列的索引,log(·)表示对数函数,|·|表示绝对值算子。
步骤S322:构建条件随机场推理损失函数,使得网络模型能够通过确定的标注推断伪标签中不确定的区域,其公式化表达为:
Scrf=CRF(S,Irgb)
Figure BDA0002964086550000101
其中,CRF(·)表示条件随机场优化,Scrf表示条件随机场优化后的显著图,在该步骤中将其作为标签监督预测的显著图S,
Figure BDA0002964086550000102
表示条件随机场推理损失函数。
步骤S323:构建边缘损失函数对预测显著图的边缘进行优化。
首先,将彩色图Irgb转化成灰度图Igray并通过边缘检测算子获得全局的边缘图Iedge,其公式化表达为:
Iedge=ΔIgray
其中,Δ表示边缘检测中的求梯度操作。
其次,对预测的显著图S进行膨胀与腐蚀操作,生成掩码图Imask,作用在边缘图上过滤掉冗余的边缘,得到边缘损失的标签,其公式化表达为:
Sdil=Dilate(S)
Sero=Erode(S)
Imask=Sdil-Sero
Figure BDA0002964086550000103
其中,Dilate(·)表示膨胀操作,Erode(·)表示腐蚀操作,
Figure BDA0002964086550000104
表示逐像素点乘,Yedge表示作用在边缘损失上的标签。
定义边缘损失函数
Figure BDA0002964086550000105
为:
Figure BDA0002964086550000106
其中,AS表示预测的显著图的边缘图。
步骤S324:将步骤S321-S323中的损失求和计算得到最终的混合损失函数:
Figure BDA0002964086550000108
其中,
Figure BDA0002964086550000107
表示混合损失函数。
然后,通过Adam优化器对混合损失函数优化,获得网络模型的最优参数,用于网络模型的测试。
本发明还提供了一种基于图像分类的弱监督RGBD图像显著性检测***,包括存储器、处理器以及存储于存储器上并能够在处理器上运行的计算机程序,当处理器运行该计算机程序时,实现上述的方法步骤。
深度图是对物体与相机之间空间距离的表达,可以提供充足的位置信息,并且噪声幅度较小的深度图可以提供完整的物体结构信息,考虑将深度图作为弱监督图像显著性检测的额外辅助信息。本发明提出了一个弱监督的RGBD图像显著性检测框架,并设计了深度优化策略对伪标签进行优化,同时还考虑了伪标签上的噪音以及标签物体不全,设计了一个混合损失来使模型有效地能推断物体的全貌,从而能够显著提高弱监督RGBD图像显著物体检测精度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (8)

1.一种基于图像分类的弱监督RGBD图像显著性检测方法,其特征在于,包括以下步骤:
步骤S1:对于训练数据集中的图像,分别利用基于梯度的类别响应机制和RGBD图像显著物体检测算法,生成类别响应图Icam和初始的显著图Scdcp
步骤S2:对类别响应图和初始的显著图进行深度优化,并将二者融合生成初始的显著图伪标签Ynoisy
步骤S3:构建用于RGBD图像显著性检测的网络模型和混合损失函数;对网络模型进行训练,通过最小化混合损失,学习网络模型的最优参数,得到训练好的网络模型;
步骤S4:利用训练好的网络模型来预测RGBD图像的显著图。
2.根据权利要求1所述的基于图像分类的弱监督RGBD图像显著性检测方法,其特征在于,所述步骤S1具体包括以下步骤:
步骤S11:对训练数据集中的每一张彩色图及其对应的深度图一同进行缩放,使得训练数据集中所有RGBD图像的大小相同;
步骤S12:将缩放后的彩色图Irgb输入预训练好的分类网络模型ResNet50进行图像分类,得到ResNet50卷积层的最后一层生成特征图集合,并将其定义为矩阵A∈RH×W×N,其中H、W表示特征图的高度和宽度,N表示通道数;在基于梯度的类别响应机制中,将特征图集合A线性组合成类别响应图,且该线性组合的权重由分类概率在特征图上的偏导数决定;具体为:首先,将最后一层的分类结果yc与特征图集合中的第k个特征图Ak求偏导数并通过全局平均池化得到作用在该特征图上的线性组合权重
Figure FDA0002964086540000015
其公式化表达为:
Figure FDA0002964086540000011
其中,GAP(·)表示全局平均池化算子,
Figure FDA0002964086540000012
表示求偏导数操作;
其次,将特征图线性组合起来并经过Relu函数过滤生成初步的类别响应图
Figure FDA0002964086540000013
其公式化表达为:
Figure FDA0002964086540000014
其中,Relu(·)表示Relu激活函数,∑表示求和操作;
最后,将初步的类别响应图进行归一化得到最终的类别响应图Icam,其公式化表达为:
Figure FDA0002964086540000021
其中,MaxPool表示最大池化;
步骤S13:将彩色图Irgb和深度图Idepth同时通过基于中心暗通道先验的RGBD图像显著性检测算法生成初始的显著图Scdcp,其公式化表达为:
Scdcp=functioncdcp(Irgb,Idepth)
其中,functioncdcp(·)表示基于中心暗通道先验的RGBD图像显著性检测算法。
3.根据权利要求2所述的基于图像分类的弱监督RGBD图像显著性检测方法,其特征在于,所述步骤S2具体包括以下步骤:
步骤S21:首先通过深度图Idepth对类别响应图Icam进行深度增强,得到深度增强的类别响应图
Figure FDA0002964086540000022
然后经过条件随机场进行深度优化,得到优化后的类别响应图
Figure FDA0002964086540000023
其公式化表达为:
Figure FDA0002964086540000024
Figure FDA0002964086540000025
其中,
Figure FDA0002964086540000026
表示逐像素点乘,CRF(·)表示条件随机场优化,α表示大于1的超参数;
步骤S22:通过深度图Idepth对初始的显著图Scdcp进行深度增强,得到深度增强的显著图
Figure FDA0002964086540000027
然后经过条件随机场进行深度优化,得到优化后的显著图
Figure FDA0002964086540000028
其公式化表达为:
Figure FDA0002964086540000029
Figure FDA00029640865400000210
其中,
Figure FDA00029640865400000211
表示逐像素点乘,CRF(·)表示条件随机场优化,β表示大于1的超参数;
步骤S23:将优化后的类别响应图
Figure FDA00029640865400000212
和显著图
Figure FDA00029640865400000213
融合成具有更低噪声的伪标签YNoisy,用于网络模型的训练,其公式化表达为:
Figure FDA0002964086540000031
其中,×表示乘法算子,δ表示大于0且小于1的参数。
4.根据权利要求3所述的基于图像分类的弱监督RGBD图像显著性检测方法,其特征在于,所述步骤S3具体包括以下步骤:
步骤S31:构建用于RGBD图像显著性检测的网络模型,所述网络模型由特征融合模块和全卷积神经网络FCN模块组成;
步骤S32:构建包括加权交叉熵损失、条件随机场推理损失以及边缘损失的混合损失函数,并使用所述混合损失函数对所述网络模型进行训练,得到一个具有良好鲁棒性的网络模型。
5.根据权利要求4所述的基于图像分类的弱监督RGBD图像显著性检测方法,其特征在于,所述步骤S31具体包括以下步骤:
步骤S311:构建特征融合模块,所述特征融合模块由两个3×3卷积构成,对输入网络模型的彩色图Irgb和深度图Idepth进行特征融合;首先,将输入的彩色图和深度图进行通道拼接生成大小为(b,4,h,w)的网络模型输入;然后,将该输入经过两层3×3卷积得到大小为(b,3,h,w)的特征X′,其公式化表达为:
Input=Concat(Irgb,Idepth)
X=Conv3×3(Input)
X′=Conv3×3(X)
其中,Concat(·)表示拼接算子,Input表示网络模型的输入,X表示卷积的中间特征;
步骤S312:FCN模块将分类网络的最后一层改成卷积层,并且对分类网络的第5层池化后的特征Feat5进行上采样,然后进行卷积得到通道数更少的特征,而后经过激活函数得到最终的显著性预测图,其公式化表达为:
out=FCN(X′)
S=Sigmoid(out)
其中,FCN(·)表示FCN模块,out表示网络模型的输出,Sigmoid(·)表示sigmoid激活函数,S表示网络模型预测的显著图。
6.根据权利要求5所述的基于图像分类的弱监督RGBD图像显著性检测方法,其特征在于,所述步骤S32具体包括以下步骤:
步骤S321:对原始的交叉熵损失函数进行改造,得到加权的交叉熵损失函数,减小网络模型训练时标签中噪音的影响,其公式化表达为:
Figure FDA0002964086540000041
Figure FDA0002964086540000042
w=|Y[i,j]-0.5|
其中,w表示作用在某个像素上的损失权重,
Figure FDA0002964086540000043
表示加权的交叉熵损失函数,YNoisy表示步骤S23中生成的伪标签,
Figure FDA0002964086540000044
表示原始的交叉熵损失函数,Y表示真实标签,i和j表示像素所在行和列的索引,log(·)表示对数函数,|·|表示绝对值算子;
步骤S322:构建条件随机场推理损失函数,使得网络模型能够通过确定的标注推断伪标签中不确定的区域,其公式化表达为:
Scrf=CRF(S,Irgb)
Figure FDA0002964086540000045
其中,CRF(·)表示条件随机场优化,Scrf表示条件随机场优化后的显著图,在该步骤中将其作为标签监督预测的显著图S,
Figure FDA0002964086540000046
表示条件随机场推理损失函数;
步骤S323:构建边缘损失函数对预测显著图的边缘进行优化;
首先,将彩色图Irgb转化成灰度图Igray并通过边缘检测算子获得全局的边缘图Iedge,其公式化表达为:
Iedge=ΔIgray
其中,Δ表示边缘检测中的求梯度操作;
其次,对预测的显著图S进行膨胀与腐蚀操作,生成掩码图Imask,作用在边缘图上过滤掉冗余的边缘,得到边缘损失的标签,其公式化表达为:
Sdil=Dilate(S)
Sero=Erode(S)
Imask=Sdil-Sero
Figure FDA0002964086540000051
其中,Dilate(·)表示膨胀操作,Erode(·)表示腐蚀操作,
Figure FDA0002964086540000052
表示逐像素点乘,Yedge表示作用在边缘损失上的标签;
定义边缘损失函数
Figure FDA0002964086540000053
为:
Figure FDA0002964086540000054
其中,ΔS表示预测的显著图的边缘图;
步骤S324:将步骤S321-S323中的损失求和计算得到最终的混合损失函数:
Figure FDA0002964086540000055
其中,
Figure FDA0002964086540000056
表示混合损失函数。
7.根据权利要求6所述的基于图像分类的弱监督RGBD图像显著性检测方法,其特征在于,通过Adam优化器对混合损失函数优化,获得网络模型的最优参数,用于网络模型的测试。
8.一种基于图像分类的弱监督RGBD图像显著性检测***,其特征在于,包括存储器、处理器以及存储于存储器上并能够在处理器上运行的计算机程序,当处理器运行该计算机程序时,实现如权利要求1-7任一项所述的方法步骤。
CN202110245920.XA 2021-03-05 2021-03-05 基于图像分类的弱监督rgbd图像显著性检测方法及*** Active CN112861880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110245920.XA CN112861880B (zh) 2021-03-05 2021-03-05 基于图像分类的弱监督rgbd图像显著性检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110245920.XA CN112861880B (zh) 2021-03-05 2021-03-05 基于图像分类的弱监督rgbd图像显著性检测方法及***

Publications (2)

Publication Number Publication Date
CN112861880A true CN112861880A (zh) 2021-05-28
CN112861880B CN112861880B (zh) 2021-12-07

Family

ID=75994082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110245920.XA Active CN112861880B (zh) 2021-03-05 2021-03-05 基于图像分类的弱监督rgbd图像显著性检测方法及***

Country Status (1)

Country Link
CN (1) CN112861880B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436115A (zh) * 2021-07-30 2021-09-24 西安热工研究院有限公司 一种基于深度无监督学习的图像阴影检测方法
CN115080748A (zh) * 2022-08-16 2022-09-20 之江实验室 一种基于带噪标签学习的弱监督文本分类方法和装置
CN116978008A (zh) * 2023-07-12 2023-10-31 睿尔曼智能科技(北京)有限公司 一种融合rgbd的半监督目标检测方法和***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364560A (zh) * 2011-10-19 2012-02-29 华南理工大学 一种便于电子识别的交通标牌及其识别方法
CN105791660A (zh) * 2014-12-22 2016-07-20 中兴通讯股份有限公司 一种纠正被摄物体拍摄倾斜的方法、装置及移动终端
CN107292318A (zh) * 2017-07-21 2017-10-24 北京大学深圳研究生院 基于中心暗通道先验信息的图像显著性物体检测方法
CN107452030A (zh) * 2017-08-04 2017-12-08 南京理工大学 基于轮廓检测和特征匹配的图像配准方法
CN108399406A (zh) * 2018-01-15 2018-08-14 中山大学 基于深度学习的弱监督显著性物体检测的方法及***
CN109410171A (zh) * 2018-09-14 2019-03-01 安徽三联学院 一种用于雨天图像的目标显著性检测方法
CN110598609A (zh) * 2019-09-02 2019-12-20 北京航空航天大学 一种基于显著性引导的弱监督目标检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364560A (zh) * 2011-10-19 2012-02-29 华南理工大学 一种便于电子识别的交通标牌及其识别方法
CN105791660A (zh) * 2014-12-22 2016-07-20 中兴通讯股份有限公司 一种纠正被摄物体拍摄倾斜的方法、装置及移动终端
CN107292318A (zh) * 2017-07-21 2017-10-24 北京大学深圳研究生院 基于中心暗通道先验信息的图像显著性物体检测方法
CN107452030A (zh) * 2017-08-04 2017-12-08 南京理工大学 基于轮廓检测和特征匹配的图像配准方法
CN108399406A (zh) * 2018-01-15 2018-08-14 中山大学 基于深度学习的弱监督显著性物体检测的方法及***
CN109410171A (zh) * 2018-09-14 2019-03-01 安徽三联学院 一种用于雨天图像的目标显著性检测方法
CN110598609A (zh) * 2019-09-02 2019-12-20 北京航空航天大学 一种基于显著性引导的弱监督目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHUNBIAO ZHU ET AL.: "Exploiting the Value of the Center-dark Channel Prior for Salient Object Detection", 《ARXIV:1805.05132V1》 *
RAMPRASAATH R. SELVARAJU ET AL.: "Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436115A (zh) * 2021-07-30 2021-09-24 西安热工研究院有限公司 一种基于深度无监督学习的图像阴影检测方法
CN113436115B (zh) * 2021-07-30 2023-09-19 西安热工研究院有限公司 一种基于深度无监督学习的图像阴影检测方法
CN115080748A (zh) * 2022-08-16 2022-09-20 之江实验室 一种基于带噪标签学习的弱监督文本分类方法和装置
CN115080748B (zh) * 2022-08-16 2022-11-11 之江实验室 一种基于带噪标签学习的弱监督文本分类方法和装置
CN116978008A (zh) * 2023-07-12 2023-10-31 睿尔曼智能科技(北京)有限公司 一种融合rgbd的半监督目标检测方法和***
CN116978008B (zh) * 2023-07-12 2024-04-26 睿尔曼智能科技(北京)有限公司 一种融合rgbd的半监督目标检测方法和***

Also Published As

Publication number Publication date
CN112861880B (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN112861880B (zh) 基于图像分类的弱监督rgbd图像显著性检测方法及***
US11055574B2 (en) Feature fusion and dense connection-based method for infrared plane object detection
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN110298387A (zh) 融入像素级attention机制的深度神经网络目标检测方法
CN112906485B (zh) 基于改进的yolo模型的视障人士辅助障碍物感知方法
CN111882002A (zh) 一种基于msf-am的低照度目标检测方法
CN111861925B (zh) 一种基于注意力机制与门控循环单元的图像去雨方法
CN113065546B (zh) 一种基于注意力机制和霍夫投票的目标位姿估计方法及***
CN111696110B (zh) 场景分割方法及***
CN113807355A (zh) 一种基于编解码结构的图像语义分割方法
CN111104903A (zh) 一种深度感知交通场景多目标检测方法和***
CN111428664B (zh) 一种基于深度学习技术的计算机视觉的实时多人姿态估计方法
CN113657560A (zh) 基于节点分类的弱监督图像语义分割方法及***
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、***及设备
CN112801104B (zh) 基于语义分割的图像像素级伪标签确定方法及***
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN114581789A (zh) 一种高光谱图像分类方法及***
CN117593275A (zh) 一种医学图像分割***
CN116884036A (zh) 基于YOLOv5DA的生猪姿态检测方法、装置、设备及介质
CN116740362A (zh) 一种基于注意力的轻量化非对称场景语义分割方法及***
CN117079095A (zh) 基于深度学习的高空抛物检测方法、***、介质和设备
CN116524352A (zh) 一种遥感图像水体提取方法及装置
CN115376195A (zh) 训练多尺度网络模型的方法及人脸关键点检测方法
KR20200064349A (ko) 텐서 분해 기반의 포인트 검출 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant