CN110210539A

CN110210539A - 多级深度特征融合的rgb-t图像显著性目标检测方法

Info

Publication number: CN110210539A
Application number: CN201910431110.6A
Authority: CN
Inventors: 张强; 黄年昌; 姚琳; 刘健; 韩军功
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-09-06
Anticipated expiration: 2039-05-22
Also published as: CN110210539B

Abstract

本发明公开了一种多级深度特征融合的RGB‑T图像显著性目标检测方法，主要解决现有技术在复杂多变场景中不能完整一致地检测出显著目标的问题。其实现方案为：1.对输入图像提取粗糙的多级特征；2.构建邻近深度特征融合模块，改善单模态特征；3.构建多分支组融合模块，融合多模态特征；4.得到融合输出特征图；5.训练算法网络；6.预测RGB‑T图像的像素级显著图。本发明可有效融合来自不同模态图像的补充信息，能够在复杂多变场景下完整一致地检测图像显著目标，可用于计算机视觉中图像的预处理进程。

Description

多级深度特征融合的RGB-T图像显著性目标检测方法

技术领域

本发明属于图像处理领域，涉及一种RGB-T图像显著目标检测方法，具体涉及一种多级深度特征融合的RGB-T图像显著性目标检测方法，可用于计算机视觉中图像的预处理进程。

背景技术

显著性目标检测旨在利用模型或算法检测和分割出图像中的显著性目标区。作为图像的预处理步骤，显著性目标检测在视觉跟踪、图像识别、图像压缩、图像融合等视觉任务中起着至关重要的作用。

现有的目标检测方法可以分为两大类：一类是基于传统的显著性目标检测方法，另一类是基于深度学习的显著性目标检测方法。基于传统的显著性目标检测算法通过手工提取的颜色、纹理、方向等特征完成显著性预测，过度依赖于人工选取的特征，对场景适应性不强，在复杂数据集上表现不佳。随着深度学习的广泛应用，基于深度学习的显著性目标检测研究取得了突破性进展，相较于传统的显著性算法，检测性能显著提高。

大多数的显著目标检测方法如“Q.Hou,M.M.Cheng,X.Hu,et al.Deeplysupervised salient object detection with short connections.IEEE Transactionson Pattern Analysis and Machine Intelligence,2019,41(4):815–828.”仅通过单一模态的RGB图像计算显著值，获取的场景信息有限，在低光照、低对比度、复杂背景等挑战性场景下，难以完整一致地检测出显著目标。

为解决上述问题，一些基于RGB-T图像的显著目标检测方法被提出，如“Li C,WangG,Ma Y,et al.A Unified RGB-T Saliency Detection Benchmark:Dataset,Baselines,Analysis and A Novel Approach.arXiv preprint arXiv:1701.02829,2017.”，公开了一种基于流行排序模型的RGB-T图像显著性目标检测方法，该种方法利用RGB和热红外图像的补充信息，构建跨模态一致性的流型排序模型，结合两阶段图的方法计算各个节点的显著值。在低光照、低对比度的情况下，较以RGB为输入的显著性目标检测方法，能更为准确地检测显著性目标。

然而，这种方法以区域块为基本单位进行检测，显著图中出现明显的块效应，目标与背景的分割边界不准确，且目标内部不均一。此外，该方法基于人工提取特征而建立，选取的特征并不能完全表达不同图像的内在特性，对不同模态图像间补充信息的利用尚不充分，检测效果提升有限。

发明内容

发明目的：针对上述现有技术的不足，本发明的目的在于提出一种基于多级深度特征融合的RGB-T图像显著性目标检测方法，以提高在复杂多变场景图像中对显著目标检测的完整一致性效果。主要解决现有技术在复杂多变场景中不能完整一致地检测出显著目标的问题。

实现本发明的关键是RGB-T图像多级深度特征提取和融合：通过对RGB和热红外图像提取的多级单模态特征进行融合，预测显著性：对RGB或热红外图像，从支柱网络的不同深度提取粗糙的多级特征；构建邻近深度特征融合模块，提取改善的多级单模态特征；构建多分支组融合模块，对不同模态特征进行融合；得到融合输出特征图；训练网络得到模型参数；预测RGB-T图像的像素级显著图。

技术方案：多级深度特征融合的RGB-T图像显著性目标检测方法，包括如下步骤：

(1)对输入图像提取粗糙的多级特征：

对图像提取基础网络中位于不同深度的5级特征作为粗糙的单模态特征；

(2)构建邻近深度特征融合模块，改善单模态特征：

建立多个邻近深度特征融合模块，然后通过该邻近深度特征融合模块将步骤(1)得到的5级粗糙的单模态特征处理，将来自邻近深度的3级特征进行融合，得到改善的3级单模态特征；

(3)构建多分支组融合模块，融合多模态特征：

构建包含两个融合分支的多分支组融合模块，对步骤(2)得到的改善的3级单模态特征中，位于同一特征级下的不同单模态特征进行融合，得到融合的多模态特征；

(4)得到融合输出特征图：

将步骤(3)得到的融合的多模态特征的不同级特征逐级反向融合，得到多个边输出特征图，并将所有边输出特征图融合，得到融合输出特征图；

(5)训练算法网络：

在训练数据集上，对步骤(4)中得到的边输出特征图和融合输出特征图，采用深度监督学习机制，通过最小化交叉熵损失函数，完成算法网络训练，得到网络模型参数；

(6)预测RGB-T图像的像素级显著图：

在测试数据集上，利用步骤(5)得到的网络模型参数，对步骤 (4)中得到的边输出特征图和融合输出特征图，通过sigmoid分类计算，预测RGB-T图像的像素级显著图。

进一步地，步骤(1)中所述的图形为RGB图像或热红外图像。

进一步地，步骤(1)中的基础网络为VGG16网络。

更进一步地，步骤(2)中所述的构建邻近深度特征融合模块，包括以下步骤：

(21)将步骤(1)得到的5级粗糙的单模态特征分别用符号表示，其中，n＝1或者2，分别代表RGB图像或热红外图像；

(22)每一个邻近深度融合模块包含3个卷积操作和1个反卷积操作，以获得第d级单模态特征，d＝1,2,3。

更更进一步地，步骤(22)包括：

(221)将一个卷积核为3×3，步长为2，参数为的卷积操作一个卷积核为1×1，步长为1，参数为的卷积操作和一个卷积核为2×2，步长为1/2，参数为的反卷积操作分别作用于和

(222)将这3级特征级联，并通过一个卷积核为1×1，步长为 1，参数为的卷积操作得到128通道的第d级单模态特征邻近深度融合模块可表示如下：

其中：

Cat(·)表示跨通道级联操作；

φ(·)是一个ReLu激活函数。

进一步地，步骤(3)中的多分支组融合模块是针对同一特征级下的不同单模态进行融合，且包括两个融合分支：多组融合分支和单组融合分支，其中：

多组融合分支有8个组，做单组融合分支只有一个组；

每个融合分支输出64通道的特征，将两个融合分支输出特征进行级联，得到128通道的多模态特征。

更进一步地，步骤(3)中所述的构建多分支组融合模块，在多组融合分支中对同一特征级下的不同单模态进行融合，得到融合的多模态特征，包括以下步骤：

(31)输入的单模态特征和分别根据通道数量被切分成M 个通道数相同的小组，得到和两个特征集，其中：

M正整数，其取值范围是2≤M≤128；

(32)紧接着，将同级的两个特征集中来自第m个小组的对应RGB和热红外特征通过级联操作进行结合，继而通过通道数为64/M的 1×1的卷积和通道数为64/M的3×3的两个堆栈的卷积操作，实现小组内跨模态特征的融合，每个卷积操作之后都紧随着一个ReLu激活函数；

(33)M个小组输出被级联在一起，得到多组融合分支的输出特征H_1,d，其表达式为：

其中：

表示上述中带ReLu激活函数的堆栈卷积操作，

代表第m个小组的融合参数。

更更进一步地，步骤(3)中所述的构建多分支组融合模块，在单组融合分支中对同一特征级下的不同单模态进行融合，得到融合的多模态特征，包括以下步骤：

(3a)单组融合分支可看作是多组融合分支中M＝1时的特殊情况，表达式为：

其中：

H_2,d是单组融合分支的第d级融合特征输出；

包含两个堆栈的卷积操作，分别是通道数为64的1×1 的卷积和通道数为64的3×3的卷积，且每个卷积操作之后都跟随着一个ReLu激活函数；

表示单组融合分支的融合参数；

(3b)第d级的多分支组融合特征H_d由H_1,d和H_2,d简单级联得到，其表达式为：

H_d＝Cat(H_1,d,H_2,d)。

有益效果：本发明公开的多级深度特征融合的RGB-T图像显著性目标检测方法与现有技术相比，具有如下有益效果：

1)不需要人工设计并提取特征，能够实现RGB-T图像的端对端的像素级检测，仿真结果表明本发明在复杂多变场景下检测图像显著目标时更具有完整一致性效果。

2)本发明将从支柱网络提取的5级粗糙的单模态特征，通过建立多个邻近深度特征融合模块进行改善，得到3级单模态特征，能够有效捕捉输入图像的低级细节和高级语义信息，同时避免特征级数过多而导致网络整体参数急剧增多，降低网络训练难度。

3)本发明通过构建包含两个融合分支的多分支组融合模块融合不同模态特征，由于单分支组融合结构捕捉来自于RGB图像和热红外图像的不同模态全部特征间跨通道的相关性，而多组融合分支中提取到更显著的特征，可有效地捕捉来自RGB和热红外图像的跨模态信息，有助于检测更完整一致的目标，同时融合模块所需训练参数较少，可提高算法的检测速度。

附图说明

图1为本发明公开的多级深度特征融合的RGB-T图像显著性目标检测方法的实现流程图；

图2为本发明与现有技术在RGB-thermal数据库下的实验结果仿真对比图；

图3a和图3b为本发明与现有技术在RGB-thermal数据库下的 P-R曲线、F-measure曲线两种评价指标仿真对比图。

具体实施方式：

下面对本发明的具体实施方式详细说明。

参照图1，多级深度特征融合的RGB-T图像显著性目标检测方法, 包括如下步骤：

步骤1)对输入图像提取粗糙的多级特征：

对RGB图像或热红外图像，提取VGG16网络中位于不同深度的5 级特征作为粗糙的单模态特征，分别为：

Conv1-2(用符号表示，包含64个尺寸为256×256的特征图)；

Conv2-2(用符号表示，包含128个尺寸为128×128的特征图)；

conv3-3(用符号表示，包含256个尺寸为64×64的特征图)；

Conv4-3(用符号表示，包含512个尺寸为32×32的特征图)；

Conv5-3(用符号表示，包含512个尺寸为16×16的特征图)；

其中：n＝1或者2，

n＝1时代表RGB图像；

n＝2时代表热红外图像；

步骤2)构建邻近深度特征融合模块，改善单模态特征：

常见多模态视觉方法直接将五级特征作为单模态特征，该方法因为特征级数过多导致网络参数量巨大，网络训练难度加大，本发明将不同深度的5级特征作为粗糙的单模态特征，通过建立多个邻近深度特征融合模块，得到3级改善的RGB图像特征或热红外图像特征；

每一个邻近深度融合模块包含3个卷积操作和1个反卷积操作，特别地，为获得第d级单模态特征，d＝1,2,3，首先将一个卷积核为3 ×3，步长为2，参数为的卷积操作一个卷积核为1×1，步长为1，参数为的卷积操作和一个卷积核为2×2，步长为1/2，参数为的反卷积操作分别作用于和以确保来自支柱网络的邻近3级特征具有相同的空间分辨率和特征通道数(本发明为128通道)；之后将这3级特征级联，并通过一个卷积核为1×1，步长为1，参数为的卷积层得到128通道的第d级单模态特征邻近深度融合模块可表示如下：

其中，Cat(·)表示跨通道级联操作，φ(·)是一个ReLu激活函数；

正如上述所示，第d级的RGB或热红外单模态特征同时包含了3级来自支柱网络的特征信息，即与它的邻近深度特征和这也表明将包含更丰富的细节和语义信息，有助于准确识别目标，另外，特征相对于简单合并和拥有更简洁的数据，通过邻近深度特征融合，粗提取的特征中的冗余信息在改善的特征中得到压缩；

步骤3)构建多分支组融合模块，融合多模态特征：

多分支组融合模块针对同一特征级下的不同单模态进行融合，且包含两个融合分支，其中；

第一个融合分支(又叫做多组融合分支)有M(本实施例为 M＝8)个组，主要放大各通道的作用，减少网络参数；

第二个融合分支(又叫做单组融合分支)只有一个组，主要作用为充分捕捉不同模态的全部输入特征间的跨通道相关性；两个分支输出相同通道数的特征(本实施例为64通道)，因此，多分支组融合模块最终的输出特征通道数是每个融合分支的两倍，同时又等于输入多分支组融合模块的RGB或热红外图像特征通道数(本实施例为128通道)；

多组融合分支根据“拆分—转换—合并”的基本思想建立，在多组融合分支中，输入的单模态特征和分别根据通道数量被切分成M个通道数相同的小组(128/M)，得到和两个特征集；紧接着，将同级的两个特征集中来自第m个小组的对应RGB和热红外特征通过级联操作进行结合，继而通过通道数为64/M的1×1的卷积和通道数为64/M的3×3的两个堆栈的卷积操作，实现小组内跨模态特征的融合，其中，第一个1×1主要起到减少特征通道数的作用，第二个卷积主要用于融合特征，而每个卷积操作之后都紧随着一个ReLu激活函数；最终，M个小组输出被级联在一起，得到多组融合分支的输出特征H_1,d，其表达式为：

其中，表示上述中带ReLu激活函数的堆栈卷积操作，代表第m个小组的融合参数；

单组融合分支可看作是多组融合分支中M＝1时的特殊情况，表达式为：

其中，H_2,d是单组融合分支的第d级融合特征输出，包含两个堆栈的卷积操作，分别是通道数为64的1×1的卷积和通道数为64 的3×3的卷积，通过两个卷积充分捕捉输入的全部多模态特征之间的相关性信息，且每个卷积操作之后都跟随着一个ReLu激活函数，表示单组融合分支的融合参数；

最终，经过多组融合分支和单组融合分支，第d级的多分支组融合特征H_d可以由H_1,d和H_2,d简单级联得到，表达式为：

H_d＝Cat(H1_,d,H_2,d)

正如所述所示，多分支组融合模块既可以通过单分支组融合结构捕捉来自于RGB图像和热红外图像的不同模态全部特征间跨通道的相关性，又可以从多组融合分支中提取到更显著的特征。因此，通过多个多分支组融合模块，基于多模态的多级融合特征被提取，且相较于常用的融合方法，可更有效地捕捉来自RGB和热红外图像的跨模态信息，检测更完整一致的目标；由于分组卷积的思想，多分支组融合模块相较于常见的直接级联再经过一系列卷积层和激活层的融合方法，需要更少的训练参数；

步骤4)得到融合输出特征图：

将不同级特征经过逐级反向进行融合，获得多个边输出特征图 {P_d|d＝1,2,3}，表达式为：

其中，D(*；γ_d,(1/2)^d)是一个卷积核为2^d×2^d，步长为(1/2)^d，参数为γ_d的反卷积层，使融合的特征具有相同的空间分辨率，和是两个卷积核为1×1，步长为1，参数分别为和的卷积层，分别被用作融合不同级特征和产生各级的边输出特征图。经过逐级信息传递，我们得到3个尺寸等同于输入的单模态图像的边输出特征图 {P_d|d＝1,2,3}；

使用级联操作将多级特征合并，再通过一个卷积核为1×1，步长为1，参数为θ⁰的卷积操作C(*；θ⁰,1)融合生成特征图P₀，表达式为：

P₀＝C(Cat(P₁,P₂,P₃)；θ⁰,1)

步骤5)训练算法网络：

在训练数据集上，采用深度监督学习机制，将边输出特征图和融合输出特征图{P_t|t＝0,1,2,3}，与真值图G进行比较，求取网络模型的交叉熵损失函数L：

其中，G(i,j)∈{0,1}是真值图G中位于(i,j)位置的值，P_t(i,j)是特征图P_t经过σ(P_t)操作后得到的概率图中位于(i,j)位置的概率值，σ(·)是一个 sigmoid激活函数。在不同图像中，显著性目标所占区域大小于背景区域大小是不同的，为了平衡前景和背景的损失，增加算法对不同尺寸的显著性目标的检测准确性，使用了一个类平衡参数β，β是真值图中背景像素的数量和整个真值图像素数量的比值，可以表示为：

其中，N_b表示背景像素点数量，N_f表示前景像素点数量；

本发明使用“3步训练法”对网络进行训练：第一步，通过最小化交叉熵损失函数来训练RGB图像的分支网络，在构建的分支网络中，多分支组融合模块被移除，从多个邻近深度特征融合模块中输出的多级可见光图像特征，被直接输入到反向传递过程中去预测显著性；第二步，使用同第一步中与RGB分支网络相同的方法构建和训练热红外分支；第三步，基于前两步中，RGB和热红外单分支网络得到的 VGG16支柱网络参数和临近深度特征融合模块参数，训练RGB-T图像检测的整体网络，得到网路模型参数；

在训练热红外单模态分支网络参数时，用于热红外单模态显著性目标检测的数据集缺失，为了能够顺利训练，本发明使用了RGB图像的R通道代替热红外单模态数据，因为RGB图像的三个通道中， R通道图像最接近热红外图像，具体训练数据集构建如下：

使用RGB-thermal数据集中的RGB图像(每两张取一张)和 MSRA-B训练数据集(每3张取一张)，形成1:2的数据比训练RGB 分支网络模型；对应着，使用RGB-thermal数据集中的热红外图像(每两张取一张)和MSRA-B训练数据集中图像的R通道(每3张取一张)，形成1:2的数据比训练热红外分支网络模型；对于RGB-T图像多模态网络模型，使用RGB-thermal数据集中的成对图像(每两对取一对)进行训练；

训练中，为避免训练数据过少出现过拟合现象，对每幅图像进行旋转90°，180°，270°，以及水平，上下翻转操作，将原有的数据集总量扩大成为8倍的数量；

步骤5)预测RGB-T图像的像素级显著图：

将RGB-thermal数据集中除用于训练外的另一半数据作为测试数据，利用步骤(5)得到的网络模型参数，对步骤(4)中得到的边输出特征图和融合输出特征图，进行进一步分类计算，用{S_t|t＝0,1,2,3} 表示网络所有的输出显著图，S_t可表示如下：

S_t＝σ(P_t)

其中，σ(·)是一个sigmoid激活函数；

最后，将S₀作为最终的RGB-T预测显著图。

以下结合仿真实验，对本发明的技术效果作进一步说明：

1、仿真条件：所有仿真实验均在Ubuntu 16.04.5环境下采用caffe 深度学习框架，借助Matlab R2014b软件为接口实现；

2、仿真内容及结果分析：

仿真1

将本发明与现有的基于RGB图像的显著目标检测方法和RGB-T 图像的显著性目标检测算法在公共图像数据库RGB-thermal上进行显著目标检测实验，部分实验结果进行直观的比较，如图2所示，其中，RGB图像表示数据库中用于实验输入的RGB图像，T图像表示数据库中用于实验输入的与RGB图像成对的热红外图像，GT表示人工标定的真值图；

从图2可以看出，相较于现有技术，本发明对背景抑制效果更好，在复杂场景下的显著目标检测中具有更好的完整一致性效果，且更接近于人工标定的真值图。

仿真2

将本发明与现有的基于单模态图像的显著目标检测方法和基于 RGB-T图像的显著性目标检测算法在公共图像数据库RGB-thermal 上进行显著目标检测实验得到的结果，采用公认的评价指标进行客观评价，评价仿真结果如图3a和图3b所示，其中：

图3a为本发明和现有技术采用准确率-召回率(P-R)曲线进行评价的结果图；

图3b为本发明和现有技术采用F-Measure曲线进行评价的结果图；

从图3a和图3b可以看出，相较于现有技术，本发明具有更高的 PR曲线和F-measure曲线，从而表明了本发明对显著性的目标检测具有更好的一致性和完整性，充分表明了本发明方法的有效性和优越性。

上面对本发明的实施方式做了详细说明。但是本发明并不限于上述实施方式，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.多级深度特征融合的RGB-T图像显著性目标检测方法，其特征在于，包括如下步骤：

(1)对输入图像提取粗糙的多级特征：

(2)构建邻近深度特征融合模块，改善单模态特征：

(3)构建多分支组融合模块，融合多模态特征：

(4)得到融合输出特征图：

(5)训练算法网络：

(6)预测RGB-T图像的像素级显著图：

在测试数据集上，利用步骤(5)得到的网络模型参数，对步骤(4)中得到的边输出特征图和融合输出特征图，通过sigmoid分类计算，预测RGB-T图像的像素级显著图。

2.如权利要求1所述的多级深度特征融合的RGB-T图像显著性目标检测方法，其特征在于，步骤(1)中所述的图形为RGB图像或热红外图像。

3.如权利要求1所述的多级深度特征融合的RGB-T图像显著性目标检测方法，其特征在于，步骤(1)中的基础网络为VGG16网络。

4.如权利要求2所述的多级深度特征融合的RGB-T图像显著性目标检测方法，其特征在于，步骤(2)中所述的构建邻近深度特征融合模块，包括以下步骤：

5.如权利要求4所述的多级深度特征融合的RGB-T图像显著性目标检测方法，其特征在于，步骤(22)包括：

(222)将这3级特征级联，并通过一个卷积核为1×1，步长为1，参数为的卷积操作得到128通道的第d级单模态特征邻近深度融合模块可表示如下：

其中：

Cat(·)表示跨通道级联操作；

φ(·)是一个ReLu激活函数。

6.如权利要求1所述的多级深度特征融合的RGB-T图像显著性目标检测方法，其特征在于，步骤(3)中的多分支组融合模块是针对同一特征级下的不同单模态进行融合，且包括两个融合分支：多组融合分支和单组融合分支，其中：

多组融合分支有8个组，做单组融合分支只有一个组；

7.如权利要求1所述的多级深度特征融合的RGB-T图像显著性目标检测方法，其特征在于，步骤(3)中所述的构建多分支组融合模块，在多组融合分支中对同一特征级下的不同单模态进行融合，得到融合的多模态特征，包括以下步骤：

(31)输入的单模态特征和分别根据通道数量被切分成M个通道数相同的小组，得到和两个特征集，其中：

M正整数，其取值范围是2≤M≤128；

(32)紧接着，将同级的两个特征集中来自第m个小组的对应RGB和热红外特征通过级联操作进行结合，继而通过通道数为64/M的1×1的卷积和通道数为64/M的3×3的两个堆栈的卷积操作，实现小组内跨模态特征的融合，每个卷积操作之后都紧随着一个ReLu激活函数；

其中：

表示上述中带ReLu激活函数的堆栈卷积操作，

代表第m个小组的融合参数。

8.如权利要求1所述的多级深度特征融合的RGB-T图像显著性目标检测方法，其特征在于，步骤(3)中所述的构建多分支组融合模块，在单组融合分支中对同一特征级下的不同单模态进行融合，得到融合的多模态特征，包括以下步骤：

其中：

H_2,d是单组融合分支的第d级融合特征输出；

包含两个堆栈的卷积操作，分别是通道数为64的1×1的卷积和通道数为64的3×3的卷积，且每个卷积操作之后都跟随着一个ReLu激活函数；

表示单组融合分支的融合参数；

H_d＝Cat(H_1,d,H_2,d)。