CN112861880A

CN112861880A - 基于图像分类的弱监督rgbd图像显著性检测方法及***

Info

Publication number: CN112861880A
Application number: CN202110245920.XA
Authority: CN
Inventors: 潘昌琴; 林涵阳; 刘国辉; 王力军; 俞伟明; 蔡桥英; 郑骁凌
Original assignee: Jiangsu Start Dima Data Processing Co ltd
Current assignee: Jiangsu Start Dima Data Processing Co ltd
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2021-05-28
Anticipated expiration: 2041-03-05
Also published as: CN112861880B

Abstract

本发明涉及一种基于图像分类的弱监督RGBD图像显著性检测方法及***，该方法包括以下步骤：步骤S1：对于训练数据集中的图像，分别利用基于梯度的类别响应机制和RGBD图像显著物体检测算法，生成类别响应图和初始的显著图；步骤S2：对类别响应图和初始的显著图进行深度优化，并将二者融合生成初始的显著图伪标签；步骤S3：构建用于RGBD图像显著性检测的网络模型和混合损失函数；对网络模型进行训练，通过最小化混合损失，学习网络模型的最优参数，得到训练好的网络模型；步骤S4：利用训练好的网络模型来预测RGBD图像的显著图。该方法及***有利于提高弱监督RGBD图像显著性检测的精度。

Description

基于图像分类的弱监督RGBD图像显著性检测方法及***

技术领域

本发明属于图像处理以及计算机视觉领域，具体涉及一种基于图像分类的弱监督RGBD图像显著性检测方法及***。

背景技术

由于强监督的显著性检测算法是逐像素标注的，人工标签的代价十分昂贵。因此，近些年有一些学者开始研究弱监督的显著性检测算法，使用图像级标注或者仅仅以一个边框这种代价低的标签进行显著性检测的监督训练。Parthipan Siva等人提出了一种以边框标注进行弱监督图像显著性检测的方法，他们将显著性检测视作一个采样的问题。Wang等人首次使用图像级标注进行显著性检测，他们将显著性检测任务和图像分类任务相结合，使用多任务的结构实现了弱监督的显著性检测。Zeng等人提出了一种多源的弱监督显著性检测框架弥补分类标签的不足。Zhang等人在最近的新工作中提出了一种基于涂鸦标注的弱显著性检测的网络结构，并且提出了对应的数据集。但是，这些方法都是研究单纯的RGB图像的弱监督显著性检测，对RGBD图像的弱监督显著性检测少有涉及。

发明内容

本发明的目的在于提供一种基于图像分类的弱监督RGBD图像显著性检测方法及***，该方法及***有利于提高弱监督RGBD图像显著性检测的精度。

为实现上述目的，本发明采用的技术方案是：一种基于图像分类的弱监督RGBD图像显著性检测方法，包括以下步骤：

步骤S1：对于训练数据集中的图像，分别利用基于梯度的类别响应机制和RGBD图像显著物体检测算法，生成类别响应图I_cam和初始的显著图S_cdcp；

步骤S2：对类别响应图和初始的显著图进行深度优化，并将二者融合生成初始的显著图伪标签Y_noisy；

步骤S3：构建用于RGBD图像显著性检测的网络模型和混合损失函数；对网络模型进行训练，通过最小化混合损失，学习网络模型的最优参数，得到训练好的网络模型；

步骤S4：利用训练好的网络模型来预测RGBD图像的显著图。

进一步地，所述步骤S1具体包括以下步骤：

步骤S11：对训练数据集中的每一张彩色图及其对应的深度图一同进行缩放，使得训练数据集中所有RGBD图像的大小相同；

步骤S12：将缩放后的彩色图I_rgb输入预训练好的分类网络模型ResNet50进行图像分类，得到ResNet50卷积层的最后一层生成特征图集合，并将其定义为矩阵A∈R^H×W×N，其中H、W表示特征图的高度和宽度，N表示通道数；在基于梯度的类别响应机制中，将特征图集合A线性组合成类别响应图，且该线性组合的权重由分类概率在特征图上的偏导数决定；具体为：首先，将最后一层的分类结果y^c与特征图集合中的第k个特征图A^k求偏导数并通过全局平均池化得到作用在该特征图上的线性组合权重

其公式化表达为：

其中，GAP(·)表示全局平均池化算子，

表示求偏导数操作；

其次，将特征图线性组合起来并经过Relu函数过滤生成初步的类别响应图

其公式化表达为：

其中，Relu(·)表示Relu激活函数，∑表示求和操作；

最后，将初步的类别响应图进行归一化得到最终的类别响应图I_cam，其公式化表达为：

其中，MaxPool表示最大池化；

步骤S13：将彩色图I_rgb和深度图I_depth同时通过基于中心暗通道先验的RGBD图像显著性检测算法生成初始的显著图S_cdcp，其公式化表达为：

S_cdcp＝function_cdcp(I_rgb，I_depth)

其中，function_cdcp(·)表示基于中心暗通道先验的RGBD图像显著性检测算法。

进一步地，所述步骤S2具体包括以下步骤：

步骤S21：首先通过深度图Idepth对类别响应图Icam进行深度增强，得到深度增强的类别响应图

然后经过条件随机场进行深度优化，得到优化后的类别响应图

其公式化表达为：

其中，

表示逐像素点乘，CRF(·)表示条件随机场优化，α表示大于1的超参数；

步骤S22：通过深度图I_depth对初始的显著图S_cdcp进行深度增强，得到深度增强的显著图

然后经过条件随机场进行深度优化，得到优化后的显著图

其公式化表达为：

其中，

表示逐像素点乘，CRF(·)表示条件随机场优化，β表示大于1的超参数；

步骤S23：将优化后的类别响应图

和显著图

融合成具有更低噪声的伪标签Y_Noisy，用于网络模型的训练，其公式化表达为：

其中，×表示乘法算子，δ表示大于0且小于1的参数。

进一步地，所述步骤S3具体包括以下步骤：

步骤S31：构建用于RGBD图像显著性检测的网络模型，所述网络模型由特征融合模块和全卷积神经网络FCN模块组成；

步骤S32：构建包括加权交叉熵损失、条件随机场推理损失以及边缘损失的混合损失函数，并使用所述混合损失函数对所述网络模型进行训练，得到一个具有良好鲁棒性的网络模型。

进一步地，所述步骤S31具体包括以下步骤：

步骤S311：构建特征融合模块，所述特征融合模块由两个3×3卷积构成，对输入网络模型的彩色图I_rgb和深度图I_depth进行特征融合；首先，将输入的彩色图和深度图进行通道拼接生成大小为(b，4，h，w)的网络模型输入；然后，将该输入经过两层3×3卷积得到大小为(b，3，h，w)的特征X′，其公式化表达为：

Input＝Concat(I_rgb，I_depth)

X＝Conv_3×3(Input)

X′＝Conv_3×3(X)

其中，Concat(·)表示拼接算子，Input表示网络模型的输入，X表示卷积的中间特征；

步骤S312：FCN模块将分类网络的最后一层改成卷积层，并且对分类网络的第5层池化后的特征Feat⁵进行上采样，然后进行卷积得到通道数更少的特征，而后经过激活函数得到最终的显著性预测图，其公式化表达为：

out＝FCN(X′)

S＝Sigmoid(out)

其中，FCN(·)表示FCN模块，out表示网络模型的输出，Sigmoid(·)表示sigmoid激活函数，S表示网络模型预测的显著图。

进一步地，所述步骤S32具体包括以下步骤：

步骤S321：对原始的交叉熵损失函数进行改造，得到加权的交叉熵损失函数，减小网络模型训练时标签中噪音的影响，其公式化表达为：

w＝|Y[i，j]-0.5|

其中，w表示作用在某个像素上的损失权重，

表示加权的交叉熵损失函数，Y_Noisy表示步骤S23中生成的伪标签，

表示原始的交叉熵损失函数，Y表示真实标签，i和j表示像素所在行和列的索引，log(·)表示对数函数，|·|表示绝对值算子；

步骤S322：构建条件随机场推理损失函数，使得网络模型能够通过确定的标注推断伪标签中不确定的区域，其公式化表达为：

S_crf＝CRF(S，I_rgb)

其中，CRF(·)表示条件随机场优化，S_crf表示条件随机场优化后的显著图，在该步骤中将其作为标签监督预测的显著图S，

表示条件随机场推理损失函数；

步骤S323：构建边缘损失函数对预测显著图的边缘进行优化；

首先，将彩色图I_rgb转化成灰度图I_gray并通过边缘检测算子获得全局的边缘图I_edge，其公式化表达为：

I_edge＝ΔI_gray

其中，Δ表示边缘检测中的求梯度操作；

其次，对预测的显著图S进行膨胀与腐蚀操作，生成掩码图I_mask，作用在边缘图上过滤掉冗余的边缘，得到边缘损失的标签，其公式化表达为：

S_dil＝Dilate(S)

S_ero＝Erode(S)

I_mask＝S_dil-S_ero

其中，Dilate(·)表示膨胀操作，Erode(·)表示腐蚀操作，

表示逐像素点乘，Y_edge表示作用在边缘损失上的标签；

定义边缘损失函数

为：

其中，ΔS表示预测的显著图的边缘图；

步骤S324：将步骤S321-S323中的损失求和计算得到最终的混合损失函数：

其中，

表示混合损失函数。

进一步地，通过Adam优化器对混合损失函数优化，获得网络模型的最优参数，用于网络模型的测试。

本发明还提供了一种基于图像分类的弱监督RGBD图像显著性检测***，包括存储器、处理器以及存储于存储器上并能够在处理器上运行的计算机程序，当处理器运行该计算机程序时，实现所述的方法步骤。

与现有技术相比，本发明具有以下有益效果：本发明提出了一个弱监督的RGBD图像显著性检测方案，并且设计了深度优化策略对伪标签进行优化，同时还考虑了伪标签上的噪音以及标签物体不全，构建了一个混合损失来使模型能有效地推断物体的全貌，本发明能够提高弱监督RGBD图像显著物体检测的精度，具有很强的实用性和广阔的应用前景。

附图说明

图1是本发明实施例的方法实现流程示意图。

图2是本发明实施例中弱监督RGBD图像显著性检测的网络模型架构图。

图3是本发明实施例中特征融合模块示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种基于图像分类的弱监督RGBD图像显著性检测方法，包括以下步骤：

步骤S1：对于训练数据集中的图像，分别利用基于梯度的类别响应机制和传统的RGBD图像显著物体检测算法，生成类别响应图I_cam和初始的显著图S_cdcp。

步骤S2：对类别响应图和初始的显著图进行深度优化，并将二者融合生成初始的显著图伪标签Y_noisy。

步骤S3：构建用于RGBD图像显著性检测的网络模型和混合损失函数。对网络模型进行训练，通过最小化混合损失，学习网络模型的最优参数，得到训练好的网络模型。

步骤S4：利用训练好的网络模型来预测RGBD图像的显著图。

其中，彩色图如图2中的RGB，深度图如图2中的Depth。基于梯度的类别响应机制大体框架如图2中的上侧网络框架。

在本实施例中，所述步骤S1具体包括以下步骤：

步骤S11：对训练数据集中的每一张彩色图及其对应的深度图一同进行缩放，使训练数据集中所有RGBD图像的大小相同，使得步骤S2生成的显著图伪标签Y_noisy具有相同的大小。

步骤S12：将缩放后的彩色图I_rgb输入预训练好的分类网络模型ResNet50进行图像分类，得到ResNet50卷积层的最后一层生成特征图集合，并将其定义为矩阵A∈R^H×W×N，其中H、W表示特征图的高度和宽度，N表示通道数。在基于梯度的类别响应机制中，将特征图集合A线性组合成类别响应图，且该线性组合的权重由分类概率在特征图上的偏导数决定。具体为：首先，将最后一层的分类结果y^c与特征图集合中的第k个特征图A^k求偏导数并通过全局平均池化得到作用在该特征图上的线性组合权重

其公式化表达为：

其中，GAP(·)表示全局平均池化算子，

表示求偏导数操作。

其公式化表达为：

其中，Relu(·)表示Relu激活函数，∑表示求和操作。

最后，将初步的类别响应图进行归一化得到最终的类别响应图I_cam(如图2中的类别响应图)，其公式化表达为：

其中，MaxPool表示最大池化。

S_cdcp＝function_cdcp(I_rgb，I_depth)

在本实施例中，所述步骤S2具体包括以下步骤：

其公式化表达为：

其中，

表示逐像素点乘，CRF(·)表示条件随机场优化，α表示大于1的超参数。

然后经过条件随机场进行深度优化，得到优化后的显著图

其公式化表达为：

其中，

表示逐像素点乘，CRF(·)表示条件随机场优化，β表示大于1的超参数。

步骤S23：将优化后的类别响应图

和显著图

融合成具有更低噪声的伪标签Y_Noisy(如图2中的噪音标注)，用于网络模型的训练，其公式化表达为：

其中，×表示乘法算子，δ表示大于0且小于1的参数。

在本实施例中，所述步骤S3具体包括以下步骤：

步骤S31：构建用于RGBD图像显著性检测的网络模型(如图2)，所述网络模型由特征融合模块(如图3)和全卷积神经网络FCN模块组成。所述步骤S31具体包括以下步骤：

步骤S311：构建特征融合模块，所述特征融合模块由两个3×3卷积构成，对输入网络模型的彩色图I_rgb和深度图I_depth进行特征融合。首先，将输入的彩色图和深度图进行通道拼接生成大小为(b，4，h，w)的网络模型输入。然后，将该输入经过两层3×3卷积得到大小为(b，3，h，w)的特征X′，其公式化表达为：

Input＝Concat(I_rgb，I_depth)

X＝Conv_3×3(Input)

X′＝Conv_3×3(X)

其中，Concat(·)表示拼接算子，Input表示网络模型的输入，X表示卷积的中间特征。

out＝FCN(X′)

S＝Sigmoid(out)

步骤S32：构建包括加权交叉熵损失、条件随机场推理损失以及边缘损失的混合损失函数，并使用所述混合损失函数对所述网络模型进行训练，得到一个具有良好鲁棒性的网络模型。所述步骤S32具体包括以下步骤：

w＝|Y[i，j]-0.5|

其中，w表示作用在某个像素上的损失权重，

表示加权的交叉熵损失函数，YNoisy表示步骤S23中生成的伪标签，

表示原始的交叉熵损失函数，Y表示真实标签，i和j表示像素所在行和列的索引，log(·)表示对数函数，|·|表示绝对值算子。

S_crf＝CRF(S，I_rgb)

表示条件随机场推理损失函数。

步骤S323：构建边缘损失函数对预测显著图的边缘进行优化。

I_edge＝ΔI_gray

其中，Δ表示边缘检测中的求梯度操作。

S_dil＝Dilate(S)

S_ero＝Erode(S)

I_mask＝S_dil-S_ero

其中，Dilate(·)表示膨胀操作，Erode(·)表示腐蚀操作，

表示逐像素点乘，Y_edge表示作用在边缘损失上的标签。

定义边缘损失函数

为：

其中，AS表示预测的显著图的边缘图。

其中，

表示混合损失函数。

然后，通过Adam优化器对混合损失函数优化，获得网络模型的最优参数，用于网络模型的测试。

本发明还提供了一种基于图像分类的弱监督RGBD图像显著性检测***，包括存储器、处理器以及存储于存储器上并能够在处理器上运行的计算机程序，当处理器运行该计算机程序时，实现上述的方法步骤。

深度图是对物体与相机之间空间距离的表达，可以提供充足的位置信息，并且噪声幅度较小的深度图可以提供完整的物体结构信息，考虑将深度图作为弱监督图像显著性检测的额外辅助信息。本发明提出了一个弱监督的RGBD图像显著性检测框架，并设计了深度优化策略对伪标签进行优化，同时还考虑了伪标签上的噪音以及标签物体不全，设计了一个混合损失来使模型有效地能推断物体的全貌，从而能够显著提高弱监督RGBD图像显著物体检测精度。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。