CN114444596A

CN114444596A - 基于深度模态隐式学习的可见光图像显著目标检测方法

Info

Publication number: CN114444596A
Application number: CN202210095472.4A
Authority: CN
Inventors: 李成龙; 黄亚蒙; 肖云; 汤进
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-05-06

Abstract

本发明公开一种基于深度模态隐式学习的可见光图像显著目标检测方法，属于计算机视觉技术领域，方法包括获取可见光图像，将可见光图像作为目标检测网络输入，目标检测网络包括显著图分支网络、深度图分支网络、特征增强网络和多模态融合网络；利用显著图分支网络和深度分支网络分别提取可见光图像的高层特征和深度特征；利用特征增强网络对高层特征和深度特征进行增强，得到高层增强特征和深度增强特征；利用多模态融合网络对高层增强特征和深度增强特征进行自适应模态互补融合，生成显著图。本发明以单一可见光图像数据作为输入，使用一个轻量级网络生成深度信息，消除测试阶段对输入深度图的依赖，避免附加深度分支引入的大量计算开销。

Description

基于深度模态隐式学习的可见光图像显著目标检测方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于深度模态隐式学习的可见光图像显著目标检测方法。

背景技术

显著目标检测(SOD)的目的是自动识别场景中最具视觉吸引力的目标，它是计算机视觉中的一个基本问题，在图像、视频分割和视觉跟踪等应用中起着重要的作用。

当可见光下存在多个相似的对比区域或显著目标轮廓模糊时，基于可见光图像的显著目标检测不能很好地解决，可以利用深度信息作为补充指导，深度信息，可以捕获显著目标在空间中的距离信息。相关研究中通常引入一个额外的深度流来编码深度图，然后合并可见光图像分支流和深度分支流来推断显著目标，但这种方式主要集中在深度信息提取和多模式融合策略方面，比如申请号为202010070635.4的发明专利申请公开的一种RGB-D图像显著性目标获取的方法，基于输入的RGB-D图像，通过交织融合网络中的RGB分支、深度分支分别提取RGB图像和深度图像的跨模态特征，提出一种交织融合网络，用于相互指导RGB-D特征的联合提取，与单独提取RGB-D特征后将其整合方式相比，RGB-D特征的交互引导有利于促进跨模态信息的互补性融合，缓解不同模态中的不一致问题；还可以降低因为成像环境或设备引起的低质深度图带来的负面影响。

目前RGBD显著性检测面临很多挑战，首先，用于采集深度图像的3D传感器实际上并不流行，而且通常价格昂贵，与可见光图像相比，深度图像很难获得。另外，深度数据的采集条件和范围有限，比如在室内场景最多4-5米范围，成像质量通常较低。此外，在深度图的获取过程中，硬件设备不稳定、传感器温度高、背景照明明亮或目标亮度明显都会产生噪声，低质量的深度图不仅不能提高检测性能，反而限制了融合深度图的潜在性能。

综上，可见光图像显著目标检测存在以下几个问题：

(1)通常将可见光图像和深度图作为输入，引入额外的深度流来编码深度图，增加了大量的计算开销；而且采集深度图像的3D传感器价格昂贵；

(2)目标分割过程严重依赖于深度图的获取，深度数据的采集条件和范围有限，成像质量通常较低，限制了融合深度图的潜在性能，而且深度图在一些极端的场合或现实的工业应用中通常是不可用的；

(3)可见光图像信息和深度信息融合时，互补信息没有被充分利用，导致最终性能较差。

发明内容

本发明所要解决的技术问题在于如何花费较少资源获取深度信息，提高目标检测效率。

本发明通过以下技术手段实现解决上述技术问题的：

一方面，本发明提出了一种基于深度模态隐式学习的可见光图像显著目标检测方法，所述方法包括：

获取可见光图像，并将所述可见光图像作为目标检测网络的输入，其中，所述目标检测网络包括显著图分支网络、深度图分支网络、特征增强网络和多模态融合网络；

利用所述显著图分支网络提取所述可见光图像的高层特征，利用所述深度分支网络对所述高层特征和可见光数据进行估计，得到深度特征；

利用所述特征增强网络对所述高层特征和所述深度特征进行增强，得到高层增强特征和深度增强特征；

利用所述多模态融合网络对所述高层增强特征和所述深度增强特征进行自适应模态互补融合及跨层次和跨模态融合，生成显著图。

本发明以单一可见光图像数据作为输入，使用一个额外的轻量级网络，生成深度信息，并将该轻量级网络链接到RGB显著性检测分支中，联合训练和优化深度分支和可见光图像分支，实现端到端的多任务学习框架，消除了测试阶段对输入深度图的依赖。避免了附加深度分支引入的大量的计算开销，且不会出现因为低质量的深度图限制了融合深度图的潜在性能，对检测性能造成影响。同时设置了多模态融合网络对输入特征进行自适应模态互补融合，更好地利用模态之间的差异互补性，进一步提高显著目标检测的鲁棒性。

进一步地，所述显著图分支网络包括依次连接的第一解码器和第一编码器，所述深度图分支网络包括依次连接的第二解码器和第二编码器，所述第一编码器采用Resnet50网络，所述第二编码器包括上分支网络和下分支网络，所述上分支网络的输入与所述第一编码器的输出连接，所述上分支网络和所述第二编码器输出均与所述下分支网络的输入。

进一步地，所述深度图分支网络采用的损失函数公式表示如下：

其中，Ldepth是一个损失函数，W表示图片的宽，H表示图片的高，

表示(i,j)像素点的真值，

表示(i,j)像素点的预测结果。

进一步地，所述特征增强网络包括第一特征增强模块和第二特征增强模块，所述第一特征增强模块与所述显著分支网络的输出连接，所述第二特征增强模块的输出与所述深度分支网络的输出连接；

所述第一特征增强模块和所述第二特征增强模块均包括自适应平均池化层、卷积块和若干特征金字塔层，所述特征金字塔层包括若干扩展卷积层，所述扩展卷积层之间拼接连接；

所述特征金字塔层的输出与所述自适应平均池化层的输入连接，所述自适应平均池化层的输出与所述卷积块连接，所述卷积块的输出与所述特征增强网络的输入特征相乘作为所述多模态融合网络的输入，其中，所述特征增强网络的输入特征为所述高层特征或所述深度特征。

进一步地，所述利用所述特征增强网络对所述高层特征和所述深度特征进行增强，得到高层增强特征和深度增强特征，包括：

利用所述特征金字塔层获取所述输入特征的不同感受野大小的空洞卷积层特征；

利用所述自适应平均池化层获取所述输入特征的全局注意力信息；

利用所述卷积块上采样到所述输入特征大小，并与所述输入特征相乘，得到保留所述输入特征的局部细节的增强特征。

进一步地，所述多模态融合网络包括自适应特征交互模块和若干依次连接的跨模态融合模块，所述特征增强网络的输出与所述自适应特征交互模块的输入连接，所述自适应特征交互模块的输出和所述显著图分支网络的输出分别与若干所述跨模态融合模块的输入连接；

所述跨模态融合模块包括相同数量的前景-背景增强模块和交叉引用模块，同一所述跨模态融合模块中的所述前景-背景增强模块和所述交叉引用模块连接，上一所述跨模态融合模块中的所述前景-背景增强模块的输出与下一所述跨模态融合模块中的所述前景-背景增强模块的输入连接，上一所述跨模态融合模块中的所述交叉引用模块的输出与下一所述跨模态融合模块中的所述交叉引用模块的输入连接，所述显著图分支网络的输出与各所述跨模态融合模块中的所述前景-背景增强模块的输入连接。

进一步地，所述利用所述多模态融合网络对所述高层增强特征和所述深度增强特征进行自适应模态互补融合及跨层次和跨模态融合，生成显著图，包括：

利用所述自适应特征交互模块对所述高层增强特征和所述深度增强特征进行自适应模态互补，生成可见光互补特征和深度互补特征；

利用所述前景-背景增强模块对所述可见光互补特征和所述深度互补特征进行协同学习互补的前景和背景特征，生成增强特征图；

将所述增强特征图和所述前景-背景增强模块的输出作为所述交叉引用模块的输入，并采用传递的方式逐步融合，生成所述显著图。

进一步地，所述利用所述自适应特征交互模块对所述高层增强特征和所述深度增强特征进行自适应模态互补，生成可见光互补特征和深度互补特征，包括：

将所述高层增强特征和所述深度增强特征进行拼接操作和卷积操作，利用sigmoid函数得到权重大小ɑ；

所述高层增强特征经过第一自注意力模块后与权重ɑ与相乘，所述深度增强特征经过第二自注意力模块后与权重1-ɑ相乘，分别生成所述可见光互补特征和所述深度互补特征。

进一步地，所述利用所述前景-背景增强模块对所述可见光互补特征和所述深度互补特征进行协同学习互补的前景和背景特征，生成增强特征图，包括：

采用逐像素相乘的方法增强所述可见光互补特征和所述深度互补特征中的公共像素，得到融合特征；

使用通道注意力机制对所述融合特征进行上下文理解，并与输入的特征进行相加，得到增强过后的特征；

使用一对反向注意组件分别从前景和背景中学习特征，并分别与所述增强过后的特征进行加权操作，生成所述增强特征图。

此外，本发明还提出了一种基于深度模态隐式学习的可见光图像显著目标检测装置，所述装置包括：

获取模块，用于获取可见光图像，并将所述可见光图像作为目标检测网络的输入，其中，所述目标检测网络包括显著图分支网络、深度图分支网络、特征增强网络和多模态融合网络；

特征提取模块，用于利用所述显著图分支网络提取所述可见光图像的高层特征，利用所述深度分支网络对所述高层特征和可见光数据进行估计，得到深度特征；

增强模块，用于利用所述特征增强网络对所述高层特征和所述深度特征进行增强，得到高层增强特征和深度增强特征；

显著图生成模块，用于利用所述多模态融合网络对所述高层增强特征和所述深度增强特征进行自适应模态互补融合及跨层次和跨模态融合，生成显著图。

本发明的优点在于：

(1)本发明以单一可见光图像数据作为输入，使用一个额外的轻量级网络，生成深度信息，并将该轻量级网络链接到RGB显著性检测分支中，联合训练和优化深度分支和可见光图像分支，实现端到端的多任务学习框架，消除了测试阶段对输入深度图的依赖。避免了附加深度分支引入的大量的计算开销，且不会出现因为低质量的深度图限制了融合深度图的潜在性能，对检测性能造成影响。同时设置了多模态融合网络对输入特征进行自适应模态互补融合，更好地利用模态之间的差异互补性，进一步提高显著目标检测的鲁棒性。

(2)由于简单的相加相乘信息互补的方式实现的性能增益非常有限，忽略了不同模态之间的潜在差异性，本发明通过自适应地集成提取可见光特征和推断的深度特征，并赋予不同的权重进行模态间互补，更好地挖掘两个模态的互补信息。

(3)由于前景注意力通常注意到预测的部分前景区域，而背景中包含着丰富的上下文信息和潜在可能的突出对象，本发明利用前景-背景增强模块对可见光互补特征和深度互补特征进行协同学习互补的前景和背景特征，生成增强特征图，以减少漏检或错检的可能性。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是本发明第一实施例中基于深度模态隐式学习的可见光图像显著目标检测方法的流程图；

图2是本发明第一实施例中基于深度模态隐式学习的可见光图像显著目标检测方法的整体流程图；

图3是本发明第一实施例中目标检测网络的结构图；

图4是本发明第一实施例中深度图分支网络的结构图；

图5是本发明第一实施例中自适应特征交互模块的结构图；

图6是本发明第一实施例中前景-背景增强模块的结构图；

图7是采用本发明方法和现有方法在公开数据集上进行测试的结果对比图；

图8是采用本发明方法与现有方法得到的可视化结果对比示意图；

图9是本发明第二实施例中基于深度模态隐式学习的可见光图像显著目标检测装置的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1、图3所示，本发明实施例提出了一种基于深度模态隐式学习的可见光图像显著目标检测方法，所述方法包括以下步骤：

S10、获取可见光图像，并将所述可见光图像作为目标检测网络的输入，其中，所述目标检测网络包括显著图分支网络、深度图分支网络、特征增强网络和多模态融合网络；

S20、利用所述显著图分支网络提取所述可见光图像的高层特征，利用所述深度分支网络对所述高层特征和可见光数据进行估计，得到深度特征；

需要说明的是，可见光图像分别作为显著图分支网络和深度分支网络的输入，本实施例使用单模态可见光数据联合推断显著图和深度特征，深度图分支网络为一个轻量级网络，用于推断深度特征，深度图分支网络与显著图分支网络共享大部分参数，并使用一些参数来捕获特定于深度的特征，这种多任务学习方案使得网络具有更好的泛化能力。

S30、利用所述特征增强网络对所述高层特征和所述深度特征进行增强，得到高层增强特征和深度增强特征；

需要说明的是，特征增强网络用于对高层特征以及深度特征通过整合全局上下文来增强，通过多尺度特征的互补进一步提高性能。

S40、利用所述多模态融合网络对所述高层增强特征和所述深度增强特征进行自适应模态互补融合及跨层次和跨模态融合，生成显著图。

需要说明的是，设置的多模态融合网络对深度增强特征和高层增强特征进行自适应模态互补融合，更好地利用模态之间的差异互补性，进一步提高显著目标检测的鲁棒性。

本实施例以单一可见光图像数据作为输入，使用一个额外的轻量级网络，生成深度信息，并将该轻量级网络链接到RGB显著性检测分支中，联合训练和优化深度分支和可见光图像分支，实现端到端的多任务学习框架，消除了测试阶段对输入深度图的依赖。避免了附加深度分支引入的大量的计算开销，且不会出现因为低质量的深度图限制了融合深度图的潜在性能，对检测性能造成影响。同时设置了多模态融合网络对输入特征进行自适应模态互补融合，更好地利用模态之间的差异互补性，进一步提高显著目标检测的鲁棒性。

在一实施例中，如图2所示，所述步骤S10，具体为：

获取可见光图像，并将所述可见光图像尺寸修改为352×352，并对所述可见光图像进行增强处理，得到增强样本作为目标检测网络的输入。

需要说明的是，本实施例采用的图像增强方式包括但不限于采用随机翻转、剪裁等方式，通过对可见光图像进行数据增广以避免训练过程的过拟合现象。

在一实施例中，所述显著图分支网络包括依次连接的第一解码器和第一编码器，所述深度图分支网络包括依次连接的第二解码器和第二编码器，所述第一编码器采用Resnet50网络，所述第二编码器包括上分支网络和下分支网络，所述上分支网络的输入与所述第一编码器的输出连接，所述上分支网络和所述第二编码器输出均与所述下分支网络的输入。

具体地来说，如图4所示，第二编码器的结构分为上下两个分支网络，上分支网络与显著图分支网络共享高层特征。有了高层语义信息作为引导，深度图分支网络可设计的更为轻量化。下分支网络不必设计的太复杂，利用简单的卷积层对原始的可见光图片操作以获得浅层信息作为补充。通过使用一个粗尺度网络在全局范围内预测场景的深度，然后通过局部信息进行细化，通过这种方式，局部网络可以引导全局预测，以补充更细的尺度细节。

进一步地，为避免得到的深度图浅层信息(如：边缘模糊等)的丢失，在这个过程中，深度图作为真值监督，使用对数均方误差(logMSE)的监督，以生成平滑的深度图，所述深度图分支网络采用的损失函数公式表示如下：

表示(i,j)像素点的真值，

表示(i,j)像素点的预测结果。

在一实施例中，所述特征增强网络包括第一特征增强模块和第二特征增强模块，所述第一特征增强模块与所述显著分支网络的输出连接，所述第二特征增强模块的输出与所述深度分支网络的输出连接；

需要说明的是，本实施例使用多个扩展卷积编码的互补信息来细化每个扩展卷积层的上下文特征，小扩张率由于其大的接收场有助于关注细节并捕获局部显着性线索，而高扩张率倾向于获取语义信息并获得全局显着性线索。

本实施例将空洞卷积率设置为1，2，4，6，以获得不同感受野大小的空洞卷积层的特征，将扩张的卷积层拼接得到一个密集扩展的特征金字塔，它由多个不同感受野大小的局部特征组成。

然后，通过密集连接将每个特征金字塔的输出提供给下一个未访问的特征金字塔，依次交叉连接其他层的三个特征金字塔，形成一个新的特征，充分利用不同扩展卷积层编码的互补信息来获得全面的局部细节。为了获得全局注意力信息使用自适应平均池化学习基于通道的全局注意力，随后经过一个1*1的卷积块，上采样到输入特征大小，并与输入特征相乘保留原有的局部细节。

在一实施例中，所述步骤S30，包括以下步骤：

S31、利用所述特征金字塔层获取所述输入特征的不同感受野大小的空洞卷积层特征；

S32、利用所述自适应平均池化层获取所述输入特征的全局注意力信息；

S33、利用所述卷积块上采样到所述输入特征大小，并与所述输入特征相乘，得到保留所述输入特征的局部细节的增强特征。

本实施例利用特征增强网络对得到的高层特征以及深度特征通过整合全局上下文来增强，通过多尺度特征的互补进一步提高性能。

在一实施例中，如图3所示，所述多模态融合网络包括自适应特征交互模块和若干依次连接的跨模态融合模块，所述特征增强网络的输出与所述自适应特征交互模块的输入连接，所述自适应特征交互模块的输出和所述显著图分支网络的输出分别与若干所述跨模态融合模块的输入连接；

本实施例对融合增强后的深度增强特征和高层增强特征，再利用深度线索来提高显著性检测性能。由于两种模态分布的差异，传统的包括求和或拼接操作在内的简单特征融合方法忽略了不同样本之间的潜在相关性，只能学习线性融合可见光特征和深度特征，无法获得复杂的多模态交互信息。而本实施例先将高层特征与深度特征进行自适应模态互补，挖掘模态之间的相似性。同时，为避免中间层在融合过程中信息的丢失，利用一种传递式的、粗到细的融合方式进行融合。

在一实施例中，所述步骤S40，包括以下步骤：

S41、利用所述自适应特征交互模块对所述高层增强特征和所述深度增强特征进行自适应模态互补，生成可见光互补特征和深度互补特征；

S42、利用所述前景-背景增强模块对所述可见光互补特征和所述深度互补特征进行协同学习互补的前景和背景特征，生成增强特征图；

S43、将所述增强特征图和所述前景-背景增强模块的输出作为所述交叉引用模块的输入，并采用传递的方式逐步融合，生成所述显著图。

需要说明的是，将输出特征通道由64降为1，前景背景增强模块的输出结果为初始显著图，交叉引用模块的输出结果为最终的显著图，其中初始显著图可以理解包含的信息以可见光跨层次融合为主，最终的显著图是经过交叉引用模块进一步实现了跨模态融合，因此得到的显著图准确度更高，检测出的目标也较为清晰和准备。

具体地，自适应特征交互模块的网络结构如图5所示，图5中，a是学习到的权重，sigmoid和softmax为激活函数，qvk是自注意模型中的三个向量名称，自适应特征交互模块包括第一注意力模块、第二注意力模块、权重计算模块和卷积块，权重计算模块的输入为特征x^r和x^d，第一注意力模块的输出和权重计算模块的输出相加后输出至卷积块，第二注意力模块的输出和权重计算模块的输出相加后输出至卷积块；

卷积块的输出与输入为特征x^r相加后输入至第一全连接层，卷积块的输出与输入特征x^d相加后输入至第二全连接层。

在一实施例中，所述步骤S41，具体包括：

本实施例通过利用权重计算模块计算得到权重ɑ，高层增强特征x^r经过第一自注意力模块后与权重ɑ与相乘，深度增强特征x^d经过第二自注意力模块后与权重1-ɑ相乘，分别生成可见光互补特征和深度互补特征。通过自适应地集成提取可见光特征和推断的深度特征进行模态间互补，如果可见光信息不可靠则赋予较低的权重，反之亦然，本发明通过自适应地集成提取可见光特征和推断的深度特征，并赋予不同的权重进行模态间互补，更好地挖掘两个模态的互补信息。

在一实施例中，前景-背景增强模块的网络结构如图6所示，所述前景-背景增强模块包括注意力通道和反向注意力组件，对于输入至前景-背景增强模块的特征图，首先采用逐像素相乘的方法增强输入的特征图中的公共像素，随后对融合的特征使用通道注意力进行上下文理解，然后与原始的输入特征进行相加，得到增强过后的特征；再使用一对反向注意组件分别从前景和背景中学习特征，即由矩阵E减去所有元素为1的前景关注点映射生成反向预测，分别应用与上述增强过后的特征上进行加权操作，最终将加权过后的增强特征图输出。

本实施例通过设置前景-背景增强模块的目的是为了协同挖掘前景和背景线索，共同提炼突出对象。

进一步地，所述步骤S42，具体包括：

由于前景注意力通常注意到预测的部分前景区域，而背景中包含着丰富的上下文信息和潜在可能的突出对象，本发明利用前景-背景增强模块对可见光互补特征和深度互补特征进行协同学习互补的前景和背景特征，生成增强特征图，以减少漏检或错检的可能性。

综上，本实施例中设置的多模态融合网络中，通过前景背景增强模块协同学习互补的前景和背景特征，解决融合过程中误把目标周围的信息识别成显著信息的问题，其输出结果作为跨模态融合的输入送到交叉引用模块，同样采取传递的方式逐步融合，这种由粗到细的融合策略可以很好地弥补误检和缺失部分。

进一步地，本实施例所述目标检测网络需要先进行训练，训练好的目标检测网络即可用于利用单一可见光图像数据进行显著图目标检测，网络训练过程为：使用批处理大小为16的SGD优化器进行64个轮次的训练，学习率设置为0.005，采用预热策略和线性衰减策略来调整学习速率，将动量参数和衰减率分别设为0.9和0.0005。

本实施例通过采用本发明方法和一些现有方法分别在公开的数据集NLPR、NJUD、DUT-RGBD、LFSD和STEREO上进行了测试，并将实验结果进行了评估，如图7所示，通过实验结果可以看到本发明明显优于其他方法。

本实施例将本发明方法和一些现有方法在多种场景下测试得到的可视化结果图比较，如图8所示，可以看出，本发明方法得到的结果图在完整性和清晰度方面都优于其他方法。

此外，如图9所示，本发明实施例还提出了一种基于深度模态隐式学习的可见光图像显著目标检测装置，所述装置包括：

获取模块10，用于获取可见光图像，并将所述可见光图像作为目标检测网络的输入，其中，所述目标检测网络包括显著图分支网络、深度图分支网络、特征增强网络和多模态融合网络；

特征提取模块20，用于利用所述显著图分支网络提取所述可见光图像的高层特征，利用所述深度分支网络对所述高层特征和可见光数据进行估计，得到深度特征；

增强模块30，用于利用所述特征增强网络对所述高层特征和所述深度特征进行增强，得到高层增强特征和深度增强特征；

显著图生成模块40，用于利用所述多模态融合网络对所述高层增强特征和所述深度增强特征进行自适应模态互补融合及跨层次和跨模态融合，生成显著图。

在一实施例中，所述深度图分支网络采用的损失函数公式表示如下：

表示(i,j)像素点的真值，

表示(i,j)像素点的预测结果。

在一实施例中，所述增强模块30，包括：

获取单元，用于利用所述特征金字塔层获取所述输入特征的不同感受野大小的空洞卷积层特征；

注意力单元，用于利用所述自适应平均池化层获取所述输入特征的全局注意力信息；

增强单元，用于利用所述卷积块上采样到所述输入特征大小，并与所述输入特征相乘，得到保留所述输入特征的局部细节的增强特征。

在一实施例中，所述多模态融合网络包括自适应特征交互模块和若干依次连接的跨模态融合模块，所述特征增强网络的输出与所述自适应特征交互模块的输入连接，所述自适应特征交互模块的输出和所述显著图分支网络的输出分别与若干所述跨模态融合模块的输入连接；

其中，所述自适应特征交互模块用于将所述高层增强特征和所述深度增强特征进行拼接操作和卷积操作，利用sigmoid函数得到权重大小ɑ；高层增强特征经过第一自注意力模块后与权重ɑ与相乘，深度增强特征经过第二自注意力模块后与权重1-ɑ相乘，分别生成所述可见光互补特征和所述深度互补特征；

所述前景-背景增强模块用于采用逐像素相乘的方法增强所述可见光互补特征和所述深度互补特征中的公共像素，得到融合特征；使用通道注意力机制对所述融合特征进行上下文理解，并与输入的特征进行相加，得到增强过后的特征；使用一对反向注意组件分别从前景和背景中学习特征，并分别与所述增强过后的特征进行加权操作，生成所述增强特征图；

需要说明的是，本发明所述基于深度模态隐式学习的可见光图像显著目标检测装置的其他实施例或具有实现方法可参照上述各方法实施例，此处不再赘余。

需要说明的是，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度模态隐式学习的可见光图像显著目标检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于深度模态隐式学习的可见光图像显著目标检测方法，其特征在于，所述显著图分支网络包括依次连接的第一解码器和第一编码器，所述深度图分支网络包括依次连接的第二解码器和第二编码器，所述第一编码器采用Resnet50网络，所述第二编码器包括上分支网络和下分支网络，所述上分支网络的输入与所述第一编码器的输出连接，所述上分支网络和所述第二编码器输出均与所述下分支网络的输入。

3.如权利要求2所述的基于深度模态隐式学习的可见光图像显著目标检测方法，其特征在于，所述深度图分支网络采用的损失函数公式表示如下：

表示(i,j)像素点的真值，

表示(i,j)像素点的预测结果。

4.如权利要求1所述的基于深度模态隐式学习的可见光图像显著目标检测方法，其特征在于，所述特征增强网络包括第一特征增强模块和第二特征增强模块，所述第一特征增强模块与所述显著分支网络的输出连接，所述第二特征增强模块的输出与所述深度分支网络的输出连接；

5.如权利要求4所述的基于深度模态隐式学习的可见光图像显著目标检测方法，其特征在于，所述利用所述特征增强网络对所述高层特征和所述深度特征进行增强，得到高层增强特征和深度增强特征，包括：

6.如权利要求1所述的基于深度模态隐式学习的可见光图像显著目标检测方法，其特征在于，所述多模态融合网络包括自适应特征交互模块和若干依次连接的跨模态融合模块，所述特征增强网络的输出与所述自适应特征交互模块的输入连接，所述自适应特征交互模块的输出和所述显著图分支网络的输出分别与若干所述跨模态融合模块的输入连接；

7.如权利要求6所述的基于深度模态隐式学习的可见光图像显著目标检测方法，其特征在于，所述利用所述多模态融合网络对所述高层增强特征和所述深度增强特征进行自适应模态互补融合及跨层次和跨模态融合，生成显著图，包括：

8.如权利要求7所述的基于深度模态隐式学习的可见光图像显著目标检测方法，其特征在于，所述利用所述自适应特征交互模块对所述高层增强特征和所述深度增强特征进行自适应模态互补，生成可见光互补特征和深度互补特征，包括：

9.如权利要求7所述的基于深度模态隐式学习的可见光图像显著目标检测方法，其特征在于，所述利用所述前景-背景增强模块对所述可见光互补特征和所述深度互补特征进行协同学习互补的前景和背景特征，生成增强特征图，包括：

10.一种基于深度模态隐式学习的可见光图像显著目标检测装置，其特征在于，所述装置包括：