CN112241743A - 一种显著图再生成三流网络的rgbd图像显著性检测方法 - Google Patents

一种显著图再生成三流网络的rgbd图像显著性检测方法 Download PDF

Info

Publication number
CN112241743A
CN112241743A CN202011113013.1A CN202011113013A CN112241743A CN 112241743 A CN112241743 A CN 112241743A CN 202011113013 A CN202011113013 A CN 202011113013A CN 112241743 A CN112241743 A CN 112241743A
Authority
CN
China
Prior art keywords
layer
block
feature
convolutional
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011113013.1A
Other languages
English (en)
Inventor
周武杰
柳昌
郭沁玲
强芳芳
薛林林
雷景生
杨胜英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202011113013.1A priority Critical patent/CN112241743A/zh
Publication of CN112241743A publication Critical patent/CN112241743A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种利用显著图再生成三流卷积神经网络的RGBD图像显著性检测方法。先通过双流端到端网络建立门结构形式解码生成一张初始显著性预测图,再将这一张初始显著性预测图作为输入建立一个单流轻量网络,为了节约内存和算力,解码部分利用双流网络的解码信息来引导单流网络解码,先前的信息利用先前的经验指导后来的特征信息,再将单流生成的显著性预测图与初始显著性预测图通过设置权重相加得到最终的显著性预测图。本发明的方法通过建立两层网络来有效的利用的先前信息和后来信息来增强初始显著性预测图,实验证明本方法的有效性,本专利实验说明本方法两个测试集上预测结果边界清晰,显著物体结构完整。

Description

一种显著图再生成三流网络的RGBD图像显著性检测方法
技术领域
本发明涉及显著性目标检测技术领域,更具体的说是涉及一种显著图再生成三流网络的RGBD图像显著性检测方法。
背景技术
随着计算机硬件设备的快速提高,神经网络的复杂计算由CPU运行逐步转向GPU上运算,英伟达公司相继推出CUDA等加速包进行自适应优化,这使得神经网络的发展达到了空前的高度。神经网络的深度发展也给一些计算机视觉带来翻天覆地的变化,如目标检测、行人追踪、语义分割等,显著性检测也是在这一潮流中受影响的计算机视觉方向,显著性检测是对目标场景人为显著性区域的检测,人为显著性区域即为人类感兴趣的区域。
早期的显著性检测是基于手工提取特征的,手工提取特征效率低,提取显著性物体不准确,在卷积神经网络应用在显著性检测方向上之后,精度得到显著提升。基于RGB三色图像的卷积神经网络在这一方向已经取得很卓越的性能表现。但是二维场景提供显著性区域识别的信息较为单一,当遇到复杂场景时候识别效果降低明显。随着深度传感器的发展,带有深度信息的深度图像辅助RGB图像进行显著性检测成为如今热门趋势之一,本发明也是建立在RGB图像和深度图像双输入的情况下。先有的很多方法往往只用一个端到端的网络来生成最后的显著性预测图,但实际在人脑中不止对看到的场景进行一次计算,人类往往会趋于自己想看到的来优化眼睛接收的场景,这也是人眼往往容易被欺骗的原理之一。
因此,如何提供一种显著性预测图结构清晰,边界明了的RGBD图像显著性检测方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种显著图再生成三流网络的RGBD图像显著性检测方法,本发明解决了现有技术中的相关问题。
为了达到上述目的,本发明采用如下技术方案:
一种显著图再生成三流网络的RGBD图像显著性检测方法,具体步骤如下:
选取N幅原始RGBD图像的RGB图像、深度图像和标签图,构成训练集;
构建神经网络,采用双流端到端卷积神经网络和单流轻量网络;所述双流端到端卷积神经网络采用VGG-16作为基础编码网络;并所述双流端到端卷积神经网络导入ImageNet训练权重进行预训练;
将训练集中的每幅原始的RGBD图像的RGB图像和深度图像作为原始输入图像,输入到所述神经网络中进行训练,得到训练集中的每幅原始的RGBD图像中所述RGB图像对应的显著性预测图和背景显著性预测图构成显著性预测图;
计算所述显著性预测图与对应的标签图之间的损失函数值,其损失函数值采用二分类交叉熵损失函数获得;
重复执行训练和计算,每一次循环整个训练集,得到卷积神经网络分类训练模型,且确定最小损失函数值;将所述最小损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项。
优选的,在上述的一种显著图再生成三流网络的RGBD图像显著性检测方法中,在所述神经网络中,所述双流端到端卷积神经网络的编码部分由深度图像从第一个输入层输入的第一个神经网络块、第二个神经网络块、第三个神经网络块、第四个神经网络块、第五个神经网络块;
RGB图像从第二个输入层输入的第六个神经网络块、第七个神经网络块、第八个神经网络块、第九个神经网络块、第十个神经网络块,解码部分由第一个全局信息引导多尺度特征块、第一个特征聚合门结构块、第二个特征聚合门结构块、第三个特征聚合门结构块、第四个特征聚合门结构块,用作信息引导的第一个信息引导块、第二个信息引导块、第三个信息引导块、第四个信息引导块、以及第一个输出层组成;双流端到端卷积神经网络输出一张初始显著性预测图作为单流轻量网络的输入,单流轻量网络结合先前信息对初始显著性预测图进行增强;单流轻量网络由编码器的第一个特征增强块、第二个特征增强块、第三个特征增强块、第四个特征增强块、第五个特征增强块,解码器的第二个全局信息引导多尺度特征块、第一个特征微调细化块、第二个特征微调细化块、第三个特征微调细化块、第四个特征微调细化块、第一个双向注意力块、第二个双向注意力块、第三个双向注意力块、第四个双向注意力块和输出层的第二个输出层、第三个输出层、第四个输出层、第五个输出层、第六个输出层、第七个输出层、最终输出层。
优选的,在上述的一种显著图再生成三流网络的RGBD图像显著性检测方法中,所述第一个全局信息引导多尺度特征块和所述第二个全局信息引导多尺度特征块的结构相同,包括第一卷积层、第一激活层、第二卷积层、第二激活层、第一全局平均池化层、第三卷积层、第三激活层、第一上采样层、第一全局最大池化层、第四卷积层、第四激活层、第二上采样层、第五卷积层、第五激活层、第一扩张卷积层、第六激活层、第六卷积层、第七激活层、第二扩张卷积层、第八激活层、第八卷积层、第七卷积层、第九激活层、第三扩张卷积层;
其中,特征图经过所述第一卷积层、所述第一激活层、所述第二卷积层、所述第二激活层之后输入到五个分支;第一个分支为所述第一全局平均池化层、所述第三卷积层、所述第一上采样层;第二个分支为所述第一全局最大池化层、所述第四卷积层、所述第二上采样层;特征图经过第一个分支和第二个分支之后相加得到全局特征图;第三个分支为所述第五卷积层、所述第三激活层、所述第一扩张卷积层和所述第四激活层;第四个分支为所述第六卷积层、所述第五激活层、所述第二扩张卷积层和所述第六激活层;第五个分支为所述第七卷积层、所述第七激活层、所述第三扩张卷积层和所述第八激活层,特征图经过第三个分支、第四个分支、第五个分支与所述全局特征图进行通道堆叠操作,通道堆叠操作后经过第八个卷积层、第九个激活层得到最终特征图A。
优选的,在上述的一种显著图再生成三流网络的RGBD图像显著性检测方法中,所述第一个特征聚合门结构块、所述第二个特征聚合门结构块、所述第三个特征聚合门结构块、所述第四个特征聚合门结构块结构相同,包括:第九卷积层、第十激活层、第三上采样层、第十卷积层、第十一激活层、第十一卷积层、第十二激活层、第十二卷积层、第十三激活层、第十三卷积层、第十四激活层、第十四卷积层、第十五激活层、第十五卷积层、第十六激活层、第一S型激活函数、第二S型激活函数、第十六卷积层、第十七激活层;
其中,每个特征聚合门结构块分为深度流特征、RGB流特征和融合信息流特征,所述深度流特征经过所述第九卷积层、所述第十激活层与经过所述第三上采样层、所述第十个卷积层、所述第十一激活层的所述融合信息流特征图相加,相加之后的特征图经过所述第十二卷积层、所述第十三激活层、所述第十三卷积层、所述第十四激活层得到预备融合特征图,所述融合信息流特征与经过所述第十一卷积层、所述第十二激活层的RGB流特征图进行点积操作再与原来的RGB流相加得到门结构特征图;所述门结构特征图经过所述第一S型激活函数、所述第二S型激活函数得到门结构二值化权重;所述RGB流特征经所述第十四卷积层、所述第十五激活层、所述第十五卷积层、所述第十六激活层,与门结构二值化权重点积操作得到RGB信息特征图;所述预备融合特征图与门结构二值化权重点积操作得到深度信息特征图;所述深度信息特征图与所述RGB信息特征图进行通道堆叠操作之后经过所述第十六卷积层、所述第十七激活层得到最终特征图B。
优选的,在上述的一种显著图再生成三流网络的RGBD图像显著性检测方法中,所述第一个信息引导块、所述第二个信息引导块、所述第三个信息引导块、所述第四个信息引导块结构相同,包括:卷积层A;特征图经过所述卷积层A与最终特征图B进行点积操作,点积操作之后的特征图与最终特征图B相加得到最终特征图C。
优选的,在上述的一种显著图再生成三流网络的RGBD图像显著性检测方法中,所述第一个特征微调细化块、所述第二个特征微调细化块、所述第三个特征微调细化块、所述第四个特征微调细化块结构相同,包括第八十七卷积层、第五十一激活层、第八十八卷积层、第五十二激活层、第八十九卷积层;
其中,第一特征图为与每个特征微调细化块对应的特征增强块输出的特征图;第二特征图为与每个特征微调细化块对应的双向注意力块输出的特征图;第一特征图经过第八十八卷积层、所述第五十二激活层之后按通道均为两批特征图分别为第一特征图w和第一特征图b,第一特征图w与经过所述第八十七卷积层、所述第五十一激活层的第二特征图进行点积操作之后与所述第一特征图b相加再经过所述第八十九个卷积层之后得到最终特征图D。
优选的,在上述的一种显著图再生成三流网络的RGBD图像显著性检测方法中,所述第一个双向注意力块、所述第二个双向注意力块、所述第三个双向注意力块和所述第四个双向注意力块结构相同,包括:第七上采样层、第二全局平均池化层、第五十九卷积层、第一最大归一化激活层、第六十三卷积层、第九S型激活函数、第六十卷积层、第六十一卷积层、第六十二卷积层;
其中,第三特征图为所述第二全局信息引导多尺度特征块输出的特征图或每个微调细化模块输出的特征图;
最终特征图C经过第二全局平均池化层、所述第五十九卷积层变换为按通道排列的注意力权重,注意力权重经过所述第一最大归一化激活层将权重映射在[0,1]区间,归一化之后的注意力权重与第三特征图进行点积操作得到注意力特征图,注意力特征图与最终特征图C相加经过所述第六十卷积层、所述第六十一卷积层、所述第六十二卷积层之后得到残差通道注意力图;第三特征图经过所述第七上采样层、降维操作得到空间特征图,所述空间特征图经过所述第六十三卷积层、所述第九S型激活函数得到二值化空间特征图;所述二值化空间特征图与所述残差通道注意力图张量进行点积操作得到最终特征图E。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种显著图再生成三流网络的RGBD图像显著性检测方法,本发明的优点在于:
(1)本发明采用全新的网络结构,先采用双流端到端网络生成初始显著性预测图,使用单流轻量网络联合先前解码信息在初始显著性预测图基础上进行特征增强,即使本发明网络为两段端到端卷积神经网络,但由于采用VGG-16基础网络本发明网络参数大小依旧很小;
(2)本发明采用对输出进行背景前景监督,并根据网络特征采用权重相加更好的结合初始显著性预测图特征;
(3)本发明采用双向注意力机制,结合特征的空间信息和通道信息使先前信息特征和单流解码特征进行充分结合,实验结果证明本结构效率高,生成图像好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明方法的总体实现框图;
图2为本发明的第一个全局信息引导多尺度特征块,其他全局信息引导多尺度特征块结构一致;
图3为本发明的第四个特征聚合门结构块,其他特征聚合门结构块结构一致;
图4为本发明的第一个信息引导块,其他信息引导块结构一致;
图5为本发明的第一个双向注意力块,其他双向注意力块结构一致;
图6为本发明的第四个微调细化块,其他微调细化块结构一致;
图7a为本发明随机挑选的测试集RGB图像;图7b为本发明随机挑选的测试集对应的深度图像;图7c为随机挑选的测试集对应本发明生成的显著性预测图的;图7d为本发明随机挑选的测试集对应的真实场景标签图像;
图8a为本发明随机挑选的测试集RGB图像;图8b为本发明随机挑选的测试集对应的深度图像;图8c为随机挑选的测试集对应本发明生成的显著性预测图的;图8d为本发明随机挑选的测试集对应的真实场景标签图像;
图9a为本发明随机挑选的测试集RGB图像;图9b为本发明随机挑选的测试集对应的深度图像;图9c为随机挑选的测试集对应本发明生成的显著性预测图;图9d为本发明随机挑选的测试集对应的真实场景标签图像;
图10a为本发明在NJU2K测试集上PR(精准-召回)曲线;图10b为本发明在NLPR测试集上PR(精准-召回)曲线。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明解决上述技术问题所采用的技术方案为:一种显著图再生成三流网络的RGBD图像显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程:
训练阶段过程的具体步骤:
步骤1_1:首先选取N幅原始RGBD图像的RGB图像、深度图像和对应的标签图,并构成训练集,将训练集中的第n幅原始RGBD图像的RGB图像记为
Figure BDA0002729215360000071
原始RGBD图像的深度图像记为
Figure BDA0002729215360000072
标签图包括真实场景标签图和真实场景背景标签图;真实场景标签图记为
Figure BDA0002729215360000073
真实场景背景标签图记为
Figure BDA0002729215360000074
其中,真实场景背景标签图用于监督本发明实施例端到端卷积神经网络,真实场景标签图用于监督单流轻量网络;真实场景背景标签图是一张像素全为1的黑色图片减去真实场景标签图,视觉上是对真实场景标签图像素取反,黑白颠倒。H代表图像的高度,W代表图像的宽度,RGB图像为红、绿、蓝三通道具有彩色信息的图像,深度图像为通过深度传感器拍摄的具有深度信息的单通道图像,在本发明实施例中,为了方便深度信息图像和彩色信息图像预训练,将深度图像简单复制为三通道图像。
步骤1_2:构建神经网络:该网络采用两个端到端的网络构成,分别是双流端到端卷积神经网络和一个单流轻量网络。双流端到端卷积神经网络采用VGG-16作为基础编码网络,并双流端到端卷积神经网络导入ImageNet训练权重进行预训练,双流端到端卷积神经网络的编码部分由深度图像从第一个输入层输入的第一个神经网络块、第二个神经网络块、第三个神经网络块、第四个神经网络块、第五个神经网络块,RGB图像从第二个输入层输入的第六个神经网络块、第七个神经网络块、第八个神经网络块、第九个神经网络块、第十个神经网络块,解码部分由第一个全局信息引导多尺度特征块、第一个特征聚合门结构块、第二个特征聚合门结构块、第三个特征聚合门结构块、第四个特征聚合门结构块,用作信息引导的第一个信息引导块、第二个信息引导块、第三个信息引导块、第四个信息引导块、以及第一个输出层组成。双流端到端卷积神经网络输出一张初始显著性预测图作为单流轻量网络的输入,单流轻量网络的任务是结合先前信息对初始显著性预测图进行增强。单流轻量网络由编码器的第一个特征增强块、第二个特征增强块、第三个特征增强块、第四个特征增强块、第五个特征增强块,解码器的第二个全局信息引导多尺度特征块、第一个特征微调细化块、第二个特征微调细化块、第三个特征微调细化块、第四个特征微调细化块、第一个双向注意力块、第二个双向注意力块、第三个双向注意力块、第四个双向注意力块和输出层的第二个输出层、第三个输出层、第四个输出层、第五个输出层、第六个输出层、第七个输出层、最终输出层。
双流端到端卷积神经网络:对于第一个全局信息引导多尺度特征块,第一个全局信息引导多尺度特征块由第一个卷积层(Convolution,Conv)、第一个激活层,激活方式(Activation,Act)为‘Relu’、第二个卷积层、第二个激活层、第一个全局平均池化层、第三个卷积层、第一个全局最大池化层、第一个上采样层,上采样方式为‘bilinear’,第二个上采样层、第四个卷积层、第五个卷积层、第三个激活层、第一个扩张卷积层(dilationconvlution)、第四个激活层、第六个卷积层、第五个激活层、第二个扩张卷积层、第六个激活层、第七个卷积层、第七个激活层、第三个扩张卷积层、第八个激活层、第八个卷积层、第九个激活层组成。第一个卷积层卷积核大小为3×3,卷积核个数为128,第二个卷积层卷积核大小为1×1,卷积核个数为128,第一个全局平均池化层输出宽度和高度都为1,第三个卷积层卷积核大小为1×1,卷积核个数为128,第一个全局最大池化层输出宽度和高度都为1,第四个卷积层卷积核大小为1×1,卷积核个数为128,第五个卷积层卷积核大小为1×1,卷积核个数为128,第一个扩张卷积层扩张度为1,卷积核大小为3×3,卷积核个数为128,第六个卷积层卷积核大小为1×1,卷积核个数为128,第二个扩张卷积层扩张度为2,卷积核大小为3×3,卷积核个数为128,第七个卷积层卷积核大小为1×1,卷积核个数为128,第三个扩张卷积层扩张度为4,卷积核大小为3×3,卷积核个数为128,第八个卷积层卷积核大小为1×1,卷积核个数为512。第一个全局信息引导多尺度特征块接收第五个神经网络块和第十个神经网络块的特征图,第五个神经网络块特征图与第十个神经网络块的特征图进行通道堆叠之后输入到第一个全局信息引导多尺度特征块。特征图经过第一个卷积层、第一个激活层、第二个卷积层、第二个激活层之后输入到五个分支,第一个分支为第一个全局平均池化层、第三个卷积层、第一个上采样层,第二个分支为第一个全局最大池化层、第四个卷积层、第二个上采样层。特征图经过第一个分支和第二个分支之后相加得到全局特征图,第三个分支为第五个卷积层、第三个激活层、第一个扩张卷积层和第四个激活层,第四个分支为第六个卷积层、第五个激活层、第二个扩张卷积层和第八个激活层,第五个分支为第七个卷积层、第七个激活层、第三个扩张卷积层和第八个激活层,特征图经过第三个分支、第四个分支、第五个分支与全局特征图进行通道堆叠操作,通道堆叠操作后经过第八个卷积层、第九个激活层得到最终特征图。经过第一个全局信息引导多尺度特征块的512张特征图记为M1,特征图宽度为W/16,高度为H/16。
对于第四个特征聚合门结构块,第四个特征聚合门结构块由第九个卷积层、第十个激活层、第三个上采样层(upsample layer),上采样方式为双线性插值(bilinear)、第十个卷积层、第十一个激活层、第十一卷积层、第十二个激活层、第十二卷积层、第十三个激活层、第十三卷积层、第十四个激活层、第十四卷积层、第十五个激活层、第十五卷积层、第十六个激活层、第一个S型激活函数,激活方式为‘Sigmoid’、第二个S型激活函数、第十六卷积层、第十七个激活层组成。第九个卷积层卷积核大小为3×3,卷积核个数为512,第一个上采样层上采样放大倍率为2,第十个卷积层卷积核大小为3×3,卷积核个数为512,第十一个卷积层卷积核大小为3×3,卷积核个数为512,第十二个卷积层卷积核大小为3×3,卷积核个数为512,第十三个卷积层卷积核大小为1×1,卷积核个数为512,第十四个卷积层卷积核大小为3×3,卷积核个数为512,第十五个卷积层卷积核大小为1×1,卷积核个数为512,第十六个卷积层卷积核大小为3×3,卷积核个数为256。第四个特征聚合门结构块接收来自第四个神经网络块、第九个神经网络块以及第一个全局信息引导多尺度特征块的特征图M1,将第四个特征聚合门结构块分为深度流特征、RGB流特征和融合信息流特征,深度流特征为第四个神经网络块的输出特征,经过第九个卷积层、第十个激活层与经过第三个上采样层、第十个卷积层、第十一个激活层的融合信息流特征图相加,相加之后的特征图经过第十二个卷积层、第十三个激活层、第十三个卷积层、第十四个激活层得到预备融合特征图,预备融合特征图与门结构二值化权重点积操作得到深度信息特征图。融合信息流特征图(第一个全局信息引导多尺度特征块输出特征)与来自RGB流特征图进行线性操作,具体操作为与经过第十一个卷积层、第十二个激活层的RGB流特征图进行点积操作再与原来的RGB流相加得到门结构特征图,门结构特征图经过第一个S型激活函数、第二个S型激活函数得到门结构二值化权重。RGB流特征与深度流特征相加,相加之后的特征图经过第十一个卷积层、第十二个激活层、第十四个卷积层、第十五个激活层、第十五个卷积层、第十六个激活层得到RGB信息特征图,深度信息特征图与RGB信息特征图进行通道堆叠操作之后经过第十六个卷积层、第十七个激活层得到最终特征图。经过第四个特征聚合门结构块的256张特征图记为G4,特征图宽度为W/8,高度为H/8。
对于第三个特征聚合门结构块,第三个特征聚合门结构块由第十七个卷积层、第十八个激活层、第四个上采样层、第十八个卷积层、第十九个激活层、第十九卷积层、第二十个激活层、第二十卷积层、第二十一个激活层、第二十一卷积层、第二十二个激活层、第二十二卷积层、第二十三个激活层、第二十三个卷积层、第二十四个激活层、第三个S型激活函数、第四个S型激活函数、第二十四个卷积层、第二十五个激活层组成。第十七个卷积层卷积核大小为3×3,卷积核个数为256,第二个上采样层上采样放大倍率为2,第十八个卷积层卷积核大小为3×3,卷积核个数为256,第十九个卷积层卷积核大小为3×3,卷积核个数为256,第二十个卷积层卷积核大小为3×3,卷积核个数为256,第二十一个卷积层卷积核大小为1×1,卷积核个数为256,第二十二个卷积层卷积核大小为3×3,卷积核个数为512,第二十三个卷积层卷积核大小为1×1,卷积核个数为256,第二十四个卷积层卷积核大小为3×3,卷积核个数为128。第三个特征聚合门结构块接收来自第三个神经网络块、第八个神经网络块以及第四个特征聚合门结构块的特征图G4,将第三个特征聚合门结构块分为深度流特征、融合信息流特征和RGB流特征,深度流特征为第三个神经网络块输出特征,经过第十七个卷积层、第十八个激活层与经过第十八个卷积层、第十九个激活层的第八个神经网络块的特征图相加,相加之后的特征图经过第二十个卷积层、第二十一个激活层、第二十一个卷积层、第二十二个激活层得到预备融合特征图,预备融合特征图与门结构二值化权重点积操作得到深度信息特征图。融合信息流特征图与来自RGB流的特征图进行线性操作,具体操作为与经过第十九个卷积层、第二十个激活层的RGB流特征图进行点积操作再与原来的RGB流相加得到门结构特征图,门结构特征图经过第三个S型激活函数、第四个S型激活函数得到门结构二值化权重。RGB流特征与深度流特征相加,相加之后的特征图经过第十九个卷积层、第二十个激活层、第二十二个卷积层、第二十三个激活层、第二十三个卷积层、第二十四个激活层得到RGB信息特征图,深度信息特征图与RGB信息特征图进行通道堆叠操作之后经过第二十四个卷积层、第二十五个激活层得到最终特征图。经过第三个特征聚合门结构块的128张特征图记为G3,特征图宽度为W/4,高度为H/4。
对于第二个特征聚合门结构块,第二个特征聚合门结构块由第二十五个卷积层、第二十六个激活层、第五个上采样层、第二十六个卷积层、第二十七个激活层、第二十七卷积层、第二十八个激活层、第二十八卷积层、第二十九个激活层、第二十九卷积层、第三十个激活层、第三十卷积层、第三十一个激活层、第三十一卷积层、第三十二个激活层、第五个S型激活函数、第六个S型激活函数、第三十二卷积层、第三十三个激活层组成。第二十五个卷积层卷积核大小为3×3,卷积核个数为128,第三个上采样层上采样放大倍率为2,第二十六个卷积层卷积核大小为3×3,卷积核个数为128,第二十七个卷积层卷积核大小为3×3,卷积核个数为128,第二十八个卷积层卷积核大小为3×3,卷积核个数为128,第二十九个卷积层卷积核大小为1×1,卷积核个数为128,第三十个卷积层卷积核大小为3×3,卷积核个数为128,第三十一个卷积层卷积核大小为1×1,卷积核个数为128,第三十二个卷积层卷积核大小为3×3,卷积核个数为64。第二个特征聚合门结构块接收来自第二个神经网络块、第七个神经网络块以及第三个特征聚合门结构块特征图G3,将第二个特征聚合门结构块分为深度流、融合信息流和RGB流,深度流特征为第二个神经网络块的输出特征,经过第二十五个卷积层、第二十六个激活层与经过第二十六个卷积层、第二十七个激活层的第六个神经网络块的特征图相加,相加之后的特征图经过第二十八个卷积层、第二十九个激活层、第二十九个卷积层、第三十个激活层得到预备融合特征图,预备融合特征图与门结构二值化权重点积操作得到深度信息特征图。第三个特征聚合门结构块特征图G3(融合信息流特征图)经过第三个上采样层、第二十六个卷积层、第二十七个激活层与来自RGB流的特征图进行线性操作,具体操作为与经过第二十九个卷积层、第三十个激活层的RGB流特征图进行点积操作再与原来的RGB流相加得到门结构特征图,门结构特征图经过第五个S型激活函数、第六个S型激活函数得到门结构二值化权重。RGB流特征与深度流特征相加,相加之后的特征图经过第二十九个卷积层、第三十个激活层、第三十个卷积层、第三十一个激活层、第三十一个卷积层、第三十二个激活层得到RGB信息特征图,深度信息特征图与RGB信息特征图进行通道堆叠操作之后经过第三十二个卷积层、第三十三个激活层得到最终特征图。经过第二个特征聚合门结构块的64张特征图记为G2,特征图宽度为W/2,高度为H/2。
对于第一个特征聚合门结构块,第一个特征聚合门结构块由第三十三个卷积层、第三十四个激活层、第六个上采样层、第三十四个卷积层、第三十五个激活层、第三十五卷积层、第三十六个激活层、第三十六卷积层、第三十七个激活层、第三十七卷积层、第三十八个激活层、第三十八卷积层、第三十九个激活层、第三十九卷积层、第四十个激活层、第七个S型激活函数、第八个S型激活函数、第四十卷积层、第四十一个激活层组成。第三十三个卷积层卷积核大小为3×3,卷积核个数为64,第四个上采样层上采样放大倍率为2,第三十四个卷积层卷积核大小为3×3,卷积核个数为64,第三十五个卷积层卷积核大小为3×3,卷积核个数为64,第三十六个卷积层卷积核大小为3×3,卷积核个数为64,第三十七个卷积层卷积核大小为1×1,卷积核个数为64,第三十八个卷积层卷积核大小为3×3,卷积核个数为64,第三十九个卷积层卷积核大小为1×1,卷积核个数为64,第四十个卷积层卷积核大小为3×3,卷积核个数为32。第一个特征聚合门结构块接收来自第一个神经网络块、第六个神经网络块以及第二个特征聚合门结构块G2,将第一个特征聚合门结构块分为深度流特征、融合信息流特征和RGB流特征,深度流特征为第一个神经网络块的输出特征,经过第三十三个卷积层、第三十四个激活层与经过第三十四个卷积层、第三十五个激活层的第五个神经网络块的特征图相加,相加之后的特征图经过第三十六个卷积层、第三十七个激活层、第三十七个卷积层、第三十八个激活层得到预备融合特征图,预备融合特征图与门结构二值化权重点积操作得到深度信息特征图。第二个特征聚合门结构块G2与RGB流的特征图进行线性操作,具体操作为与经过第三十五个卷积层、第三十六个激活层的RGB流特征图进行点积操作再与原来的RGB流相加得到门结构特征图,门结构特征图经过第七个S型激活函数、第八个S型激活函数得到门结构二值化权重。RGB流特征与深度流特征相加,相加之后的特征图经过第三十五个卷积层、第三十六个激活层、第三十八个卷积层、第三十九个激活层、第三十九个卷积层、第四十个激活层得到RGB信息特征图,深度信息特征图与RGB信息特征图进行通道堆叠操作之后经过第四十个卷积层、第四十一个激活层得到最终特征图。经过第四个特征聚合门结构块的32张特征图记为G1,特征图宽度为W,高度为H。
对于第一个输出层,第一个输出层由第四十一个卷积层组成,第四十一个卷积层卷积核大小为3×3,卷积核个数为1。第一个输出层输出一张初始显著性预测图记为S1,初始显著性图像采用背景监督,即将真实场景标签图取反再对显著性预测图进行二分类交叉熵监督,初始显著性预测图宽度为W,高度为H。
对于第一个信息引导块,第一个信息引导块由第四十二个卷积层组成,第四十二个卷积层卷积核大小为3×3,卷积核个数为32。第一个信息引导块接收来自第一个特征聚合门结构块的特征图G1和第六个神经网络块的特征图,第六个神经网络块输出的特征图经过第四十二个卷积层与第一个特征聚合门结构的特征图G1进行点积操作,点积操作之后的特征图与特征图G1相加得到最终特征图,经过第一个信息引导块的32张特征图记为I1,特征图宽度为W,高度为H。
对于第二个信息引导块,第二个信息引导块由第四十三个卷积层组成,第四十三个卷积层卷积核大小为3×3,卷积核个数为64。第二个信息引导块接收来自第二个特征聚合门结构块的特征图G2和第七个神经网络块的特征图,第七个神经网络块输出的特征图经过第四十三个卷积层与第二个特征聚合门结构的特征图G2进行点积操作,点积操作之后的特征图与特征图G2相加得到最终特征图,经过第二个信息引导块的64张特征图记为I2,特征图宽度为W/2,高度为H/2。
对于第三个信息引导块,第三个信息引导块由第四十四个卷积层组成,第四十四个卷积层卷积核大小为3×3,卷积核个数为128。第三个信息引导块接收来自第三个特征聚合门结构块的特征图G3和第八个神经网络块的特征图,第八个神经网络块输出的特征图经过第四十四个卷积层与第三个特征聚合门结构的特征图G3进行点积操作,点积操作之后的特征图与特征图G3相加得到最终特征图,经过第三个信息引导块的128张特征图记为I3,特征图宽度为W/4,高度为H/4。
对于第四个信息引导块,第四个信息引导块由第四十五个卷积层组成,第四十五个卷积层卷积核大小为3×3,卷积核个数为256。第四个信息引导块接收来自第四个特征聚合门结构块的特征图G4和第九个神经网络块的特征图,第九个神经网络块输出的特征图经过第四十五个卷积层与第四个特征聚合门结构的特征图G4进行点积操作,点积操作之后的特征图与特征图G4相加得到最终特征图。经过第四个信息引导块的256张特征图记为I4,特征图宽度为W/8,高度为H/8。
单流轻量网络:单流轻量网络作用在于结合先前特征信息对初始显著性预测图进行信息增强,基础网络基于VGG-16进行改进。对于第一个特征增强块,第一个特征增强块由第四十六个卷积层、第一个带参激活层(Parametriv Rectified Linear Unit)、第四十七个卷积层、第二个带参激活层组成。第四十六个卷积层卷积核大小为3×3,卷积核个数为32,第四十七个卷积层卷积核大小为3×3,卷积核个数为32,第一个特征增强块接收初始显著性预测图S1,S1依次经过第四十六个卷积层、第一个带参激活层、第四十七个卷积层、第二个带参激活层得到最终特征图。经过第一个特征增强块的32张特征图记为R1,特征图宽度为W,高度为H。
对于第二个特征增强块,第二个特征增强块由第一个最大池化层(maxpoollayer)、第四十八个卷积层、第三个带参激活层、第四十九个卷积层、第四个带参激活层组成。第四十八个卷积层卷积核大小为3×3,卷积核个数为64,第四十九个卷积层卷积核大小为3×3,卷积核个数为64,第二个特征增强块接收第一个特征增强块R1,R1依次经过第一个最大池化层、第四十八个卷积层、第三个带参激活层、第四十九个卷积层、第四个带参激活层得到最终特征图。经过第二个特征增强块的64张特征图记为R2,特征图宽度为W/2,高度为H/2。
对于第三个特征增强块,第三个特征增强块由第二个最大池化层、第五十个卷积层、第五个带参激活层、第五十一个卷积层、第六个带参激活层、第五十二个卷积层、第七个带参激活层组成。第五十个卷积层卷积核大小为3×3,卷积核个数为128,第五十一个卷积层卷积核大小为3×3,卷积核个数为128,第五十二个卷积层卷积核大小为3×3,卷积核个数为128,第三个特征增强块接收第二个特征增强块R2,R2依次经过第二个最大池化层、第五十个卷积层、第五个带参激活层、第五十一个卷积层、第六个带参激活层、第五十二个卷积层、第七个带参激活层得到最终特征图。经过第三个特征增强块的128张特征图记为R3,特征图宽度为W/4,高度为H/4。
对于第四个特征增强块,第四个特征增强块由第三个最大池化层、第五十三个卷积层、第八个带参激活层、第五十四个卷积层、第九个带参激活层、第五十五个卷积层、第十个带参激活层组成。第五十三个卷积层卷积核大小为3×3,卷积核个数为256,第五十四个卷积层卷积核大小为3×3,卷积核个数为256,第五十五个卷积层卷积核大小为3×3,卷积核个数为256,第四个特征增强块接收第三个特征增强块R3,R3依次经过第三个最大池化层、第五十三个卷积层、第八个带参激活层、第五十四个卷积层、第九个带参激活层、第五十五个卷积层、第十个带参激活层得到最终特征图。经过第四个特征增强块的256张特征图记为R4,特征图宽度为W/8,高度为H/8。
对于第五个特征增强块,第五个特征增强块由第四个最大池化层、第五十六个卷积层、第十一个带参激活层、第五十七个卷积层、第十二个带参激活层、第五十八个卷积层、第十三个带参激活层组成。第五十六个卷积层卷积核大小为3×3,卷积核个数为512,第五十七个卷积层卷积核大小为3×3,卷积核个数为512,第五十八个卷积层卷积核大小为3×3,卷积核个数为512,第五个特征增强块接收第四个特征增强块R4,R4依次经过第四个最大池化层、第五十六个卷积层、第十一个带参激活层、第五十七个卷积层、第十二个带参激活层、第五十八个卷积层、第十三个带参激活层得到最终特征图。经过第五个特征增强块的512张特征图记为R5,特征图宽度为W/16,高度为H/16。
对于第一个双向注意力块,第一个双向注意力块由第七个上采样层、第二个全局平均池化层、第五十九个卷积层、第一个最大归一化激活层,激活方式为‘Softmax’、第六十个卷积层、第六十一个卷积层、第六十二个卷积层、第六十三个卷积层、第九个S型激活函数组成。第二个全局平均池化层输出宽度和高度都为1,第五十九个卷积层卷积核大小为1×1,卷积核个数为32,第六十个卷积层卷积核大小为3×3,卷积核个数为16,第六十一个卷积层卷积核大小为1×1,卷积核个数为16,第六十二个卷积层卷积核大小为1×1,卷积核个数为32,第六十二个卷积层卷积核大小为1×1,卷积核个数为1。第一个双向注意力块接收第一个信息引导块输出的特征图I1和第二个微调细化模块输出的特征图F2。特征图I1经过第二个全局平均池化层将特征图变换为按通道排列的注意力权重,注意力权重经过第一个最大归一化激活层将权重映射在[0,1]区间,归一化之后的注意力权重与第二个微调细化模块输出的特征图F2进行点积操作得到注意力特征图,注意力特征图与第一个信息引导块输出的特征图I1相加经过第六十个卷积层、第六十一个卷积层、第六十二个卷积层之后得到残差通道注意力图,第二个微调细化模块输出的特征图F2经过第七个上采样层、降维操作得到一张空间特征图,空间特征图经过第六十三个卷积层、第九个S型激活函数得到二值化的空间特征图,二值化的空间特征图与残差通道注意力图张量进行点积操作得到最终特征图。经过第一个双向注意力块的32张特征图记为B1,特征图宽度为W,高度为H。
对于第二个双向注意力块,第二个双向注意力块由第八个上采样层、第三个全局平均池化层、第六十四个卷积层、第二个最大归一化激活层、第六十五个卷积层、第六十六个卷积层、第六十七个卷积层、第六十八个卷积层、第十个S型激活函数组成。第三个全局平均池化层输出宽度和高度都为1,第六十四个卷积层卷积核大小为1×1,卷积核个数为64,第六十五个卷积层卷积核大小为3×3,卷积核个数为32,第六十六个卷积层卷积核大小为1×1,卷积核个数为32,第六十七个卷积层卷积核大小为1×1,卷积核个数为64,第六十八个卷积层卷积核大小为1×1,卷积核个数为1。第二个双向注意力块接收第二个信息引导块输出的特征图I2和第三个微调细化模块输出的特征图F3。特征图I2经过第三个全局平均池化层将特征图变换为按通道排列的注意力权重,注意力权重经过第二个最大归一化激活层将权重映射在[0,1]区间,归一化之后的注意力权重与第三个微调细化模块输出的特征图F3进行点积操作得到注意力特征图,注意力特征图与第二个信息引导块输出的特征图I2相加经过第六十五个卷积层、第六十六个卷积层、第六十七个卷积层之后得到残差通道注意力图,第三个微调细化模块输出的特征图F3经过第八个上采样层、降维操作得到一张空间特征图,空间特征图经过第六十八个卷积层、第十个S型激活函数得到二值化的空间特征图,二值化的空间特征图与残差通道注意力图张量进行点积操作得到最终特征图。经过第二个双向注意力块的64张特征图记为B2,特征图宽度为W/2,高度为H/2。
对于第三个双向注意力块,第三个双向注意力块由第九个上采样层、第四个全局平均池化层、第六十九个卷积层、第三个最大归一化激活层、第七十个卷积层、第七十一个卷积层、第七十二个卷积层、第七十三个卷积层、第十一个S型激活函数组成。第四个全局平均池化层输出宽度和高度都为1,第六十九个卷积层卷积核大小为1×1,卷积核个数为128,第七十个卷积层卷积核大小为3×3,卷积核个数为64,第七十一个卷积层卷积核大小为1×1,卷积核个数为64,第七十二个卷积层卷积核大小为1×1,卷积核个数为128,第七十三个卷积层卷积核大小为1×1,卷积核个数为1。第三个双向注意力块接收第三个信息引导块输出的特征图I3和第四个微调细化模块输出的特征图F4。特征图I3经过第四个全局平均池化层将特征图变换为按通道排列的注意力权重,注意力权重经过第三个最大归一化激活层将权重映射在[0,1]区间,归一化之后的注意力权重与第四个微调细化模块输出的特征图F4进行点积操作得到注意力特征图,注意力特征图与第三个信息引导块输出的特征图I3相加经过第七十个卷积层、第七十一个卷积层、第七十二个卷积层之后得到残差通道注意力图,第四个微调细化模块输出的特征图F4经过第九个上采样层、降维操作得到一张空间特征图,空间特征图经过第七十三个卷积层、第十一个S型激活函数得到二值化的空间特征图,二值化的空间特征图与残差通道注意力图张量进行点积操作得到最终特征图。经过第三个双向注意力块的128张特征图记为B3,特征图宽度为W/4,高度为H/4。
对于第四个双向注意力块,第四个双向注意力块由第五个全局平均池化层、第七十四个卷积层、第四个最大归一化激活层、第七十五个卷积层、第七十六个卷积层、第七十七个卷积层、第七十八个卷积层、第十二个S型激活函数组成。第五个全局平均池化层输出宽度和高度都为1,第七十四个卷积层卷积核大小为1×1,卷积核个数为256,第七十五个卷积层卷积核大小为3×3,卷积核个数为128,第七十六个卷积层卷积核大小为1×1,卷积核个数为128,第七十七个卷积层卷积核大小为1×1,卷积核个数为256,第七十八个卷积层卷积核大小为1×1,卷积核个数为1。第四个双向注意力块接收第四个信息引导块输出的特征图I4和第二个全局信息引导多尺度特征块输出的特征图M2。特征图I4经过第五个全局平均池化层将特征图变换为按通道排列的注意力权重,注意力权重经过第四个最大归一化激活层将权重映射在[0,1]区间,归一化之后的注意力权重与第二个全局信息引导多尺度特征块输出的特征图M2进行点积操作得到注意力特征图,注意力特征图与第四个信息引导块输出的特征图I4相加经过第七十五个卷积层、第七十六个卷积层、第七十七个卷积层之后得到残差通道注意力图,第二个全局信息引导多尺度特征块输出的特征图M2经过第九个上采样层、降维操作得到一张空间特征图,空间特征图经过第七十八个卷积层、第十二个S型激活函数得到二值化的空间特征图,二值化的空间特征图与残差通道注意力图张量进行点积操作得到最终特征图。经过第四个双向注意力块的256张特征图记为B4,特征图宽度为W/8,高度为H/8。
对于第二个全局信息引导多尺度块,第二个全局信息引导多尺度特征块由第七十九个卷积层、第四十二个激活层、第八十个卷积层、第四十三个激活层、第六个全局平均池化层、第八十一个卷积层、第二个全局最大池化层、第八十二个卷积层、第十个上采样层、第十一个上采样层、第八十三个卷积层、第四十四个激活层、第四个扩张卷积层、第四十五个激活层、第八十四个卷积层、第四十六个激活层、第五个扩张卷积层、第四十七个激活层、第八十五个卷积层、第四十八个激活层、第六个扩张卷积层、第四十九个激活层、第八十六个卷积层、第五十个激活层组成。第七十九个卷积层卷积核大小为3×3,卷积核个数为128,第八十个卷积层卷积核大小为1×1,卷积核个数为128,第六个全局平均池化层输出宽度和高度都为1,第八十一个卷积层卷积核大小为1×1,卷积核个数为128,第二个全局最大池化层输出宽度和高度都为1,第八十二个卷积层卷积核大小为1×1,卷积核个数为128,第八十三个卷积层卷积核大小为1×1,卷积核个数为128,第四个扩张卷积层扩张度为1,卷积核大小为3×3,卷积核个数为128,第八十四个卷积层卷积核大小为1×1,卷积核个数为128,第五个扩张卷积层扩张度为2,卷积核大小为3×3,卷积核个数为128,第八十五个卷积层卷积核大小为1×1,卷积核个数为128,第六个扩张卷积层扩张度为4,卷积核大小为3×3,卷积核个数为128,第八十六个卷积层卷积核大小为1×1,卷积核个数为256。第二个全局信息引导多尺度特征块接收第五个特征增强块的特征图R5。特征图经过第七十九个卷积层、第四十二个激活层、第八十个卷积层、第四十三个激活层之后输入到五个分支,第一个分支为第六个全局平均池化层、第八十一个卷积层、第十个上采样层,第二个分支为第二个全局最大池化层、第八十二个卷积层、第十一个上采样层。特征图经过第一个分支和第二个分支之后相加得到全局特征图,第三个分支为第八十三个卷积层、第四十四个激活层、第四个扩张卷积层和第四十五个激活层,第四个分支为第八十四个卷积层、第四十六个激活层、第五个扩张卷积层和第四十七个激活层,第五个分支为第八十五个卷积层、第四十八个激活层、第六个扩张卷积层和第四十九个激活层,特征图经过第三个分支、第四个分支、第五个分支与全局特征图进行通道堆叠操作,通道堆叠操作后经过第八十六个卷积层、第五十个激活层得到最终特征图。经过第二个全局信息引导多尺度特征块的256张特征图记为M2,特征图宽度为W/16,高度为H/16。
对于第四个微调细化模块,第四个微调细化模块由第八十七个卷积层、第五十一个激活层、第八十八个卷积层、第五十二个激活层、第八十九个卷积层组成。第八十七个卷积层卷积核大小为3×3,卷积核个数为256,第八十八个卷积层卷积核大小为3×3,卷积核个数为512,第八十九个卷积层卷积核大小为3×3,卷积核个数为128,第四个微调细化模块接收来自第四个特征增强块的特征图R4和第四个双向注意力块的特征图B4,特征图B4经过第八十八个卷积层之后按通道均为两批特征图分别为w和b,特征图w与经过第八十七个卷积层、第五十一个激活层的第四个特征增强块的特征图R4进行点积操作之后与特征图b相加再经过第五十二个激活层、第八十九个卷积层之后得到最终特征图。经过第四个微调细化模块的128张特征图记为F4,特征图宽度为W/8,高度为H/8。
对于第三个微调细化模块,第三个微调细化模块由第九十个卷积层、第五十三个激活层、第九十一个卷积层、第五十四个激活层、第九十二个卷积层组成。第九十个卷积层卷积核大小为3×3,卷积核个数为128,第九十一个卷积层卷积核大小为3×3,卷积核个数为256,第九十二个卷积层卷积核大小为3×3,卷积核个数为64,第三个微调细化模块接收来自第三个特征增强块的特征图R3和第三个双向注意力块的特征图B3,特征图B3经过第九十一个卷积层之后按通道均为两批特征图分别为w和b,特征图w与经过第九十个卷积层、第五十三个激活层的第三个特征增强块的特征图R3进行点积操作之后与特征图b相加再经过第五十四个激活层、第九十二个卷积层之后得到最终特征图。经过第三个微调细化模块的64张特征图记为F3,特征图宽度为W/4,高度为H/4。
对于第二个微调细化模块,第二个微调细化模块由第九十三个卷积层、第五十五个激活层、第九十四个卷积层、第五十六个激活层、第九十五个卷积层组成。第九十三个卷积层卷积核大小为3×3,卷积核个数为64,第九十四个卷积层卷积核大小为3×3,卷积核个数为128,第九十五个卷积层卷积核大小为3×3,卷积核个数为32,第二个微调细化模块接收来自第二个特征增强块的特征图R2和第二个双向注意力块的特征图B2,特征图B2经过第九十四个卷积层之后按通道均为两批特征图分别为w和b,特征图w与经过第九十四个卷积层、第五十五个激活层的第二个特征增强块的特征图R2进行点积操作之后与特征图b相加再经过第五十六个激活层、第九十五个卷积层之后得到最终特征图。经过第二个微调细化模块的32张特征图记为F2,特征图宽度为W/2,高度为H/2。
对于第一个微调细化模块,第一个微调细化模块由第九十六个卷积层、第五十七个激活层、第九十七个卷积层、第五十八个激活层、第九十八个卷积层组成。第九十六个卷积层卷积核大小为3×3,卷积核个数为32,第九十七个卷积层卷积核大小为3×3,卷积核个数为64,第九十八个卷积层卷积核大小为3×3,卷积核个数为16,第一个微调细化模块接收来自第一个特征增强块的特征图R1和第一个双向注意力块的特征图B1,特征图B1经过第九十七个卷积层之后按通道均为两批特征图分别为w和b,特征图w与经过第九十六个卷积层、第五十七个激活层的第一个特征增强块的特征图R1进行点积操作之后与特征图b相加再经过第五十八个激活层、第九十八个卷积层之后得到最终特征图。经过第二个微调细化模块的16张特征图记为F1,特征图宽度为W,高度为H。
对于输出层,第二个输出层由第九十九个卷积层、第十二个上采样层组成,第九十九个卷积层卷积核大小为3×3,卷积核个数为1,第十二个上采样层上采样倍率为16,第二个输出层接收第二个全局信息引导多尺度块的特征图M2,特征图M2依次经过第九十九个卷积层、第十二个上采样层得到第二个输出层输出显著性预测图S2。第三个输出层由第一百个卷积层、第十三个上采样层组成,第一百个卷积层卷积核大小为3×3,卷积核个数为1,第十三个上采样层上采样倍率为8,第三个输出层接收第四个微调细化模块的特征图F4,特征图F4依次经过第一百个卷积层、第十三个上采样层得到第三个输出层输出显著性预测图S3。第四个输出层由第一百零一个卷积层、第十四个上采样层组成,第一百零一个卷积层卷积核大小为3×3,卷积核个数为1,第十四个上采样层上采样倍率为8,第四个输出层接收第三个微调细化模块的特征图F3,特征图F3依次经过第一百零一个卷积层、第十四个上采样层得到第四个输出层输出显著性预测图S4。第五个输出层由第一百零二个卷积层、第十五个上采样层组成,第一百零二个卷积层卷积核大小为3×3,卷积核个数为1,第十五个上采样层上采样倍率为4,第五个输出层接收第二个微调细化模块的特征图F2,特征图F2依次经过第一百零二个卷积层、第十五个上采样层得到第五个输出层输出显著性预测图S5。第六个输出层由第一百零三个卷积层、第十六个上采样层组成,第一百零三个卷积层卷积核大小为3×3,卷积核个数为1,第十五个上采样层上采样倍率为2,第六个输出层接收第一个微调细化模块的特征图F1,特征图F1依次经过第一百零三个卷积层、第十四个上采样层得到第四个输出层输出显著性预测图S6。第七个输出层由第一百零四个卷积层组成,第一百零四个卷积层卷积核大小为3×3,卷积核个数为1,第七个输出层接收第二个输出层特征图S2、第二个输出层特征图S3、第二个输出层特征图S4、第二个输出层特征图S5、第二个输出层的特征图S6,将五个输出层的输出进行通道堆叠之后经过第一百零一个卷积层得到第七个输出层输出显著性预测图S7。显著性预测图S7与像素取反之后显著性预测图S1进行权重相加经过最终输出层得到最终显著性预测图S,其中像素取反具体操作为用一张像素全为1的图像减去二值化的显著性预测图S1,显著性预测图背景和前景反置,权重相加为显著性预测图S1乘以实数0.6与乘以实数0.4的显著性预测图S7相加。
步骤1_3:将训练集中的每幅原始的RGBD图像的RGB图像
Figure BDA0002729215360000241
和深度图像
Figure BDA0002729215360000242
作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的RGBD图像对应的1幅显著性预测图,将
Figure BDA0002729215360000243
对应的7幅显著性预测图和1副背景显著性预测图构成的集合记为
Figure BDA0002729215360000244
其中显著性预测图用真实场景标签
Figure BDA0002729215360000245
监督,背景显著性预测图用真实场景背景标签
Figure BDA0002729215360000246
监督;
步骤1_4:计算训练集中与RGB图像
Figure BDA0002729215360000247
对应显著性预测图构成的集合与对应的真实场景标签图像以及真实场景背景标签图构成的集合之间的损失函数值,将
Figure BDA0002729215360000248
Figure BDA0002729215360000249
之间的损失函数值记为
Figure BDA00027292153600002410
其损失函数值采用二分类交叉熵损失函数获得。
步骤1_5:重复执行步骤1_3和步骤1_4共T次,每一次循环整个训练集,得到卷积神经网络分类训练模型,且一共得到N×T个二分类交叉熵损失函数值;假设最小损失函数值为最优结果,然后从N×T个损失函数值中找出值最小的损失函数值;接着将最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量Wbest和最优偏置项bbest,最优权权值矢量和偏置项的参数共称为权重,训练结束时将权重保存到指定文件夹方便测试时调用;本发明中T=100;
测试阶段过程的具体步骤为:
测试图像为实验前划分数据集中测试集图像,测试图像必须为未经过训练的图像。针对测试集中某一对RGBD图像,有RGB图像
Figure BDA00027292153600002411
深度图像
Figure BDA00027292153600002412
将这一对RGBD图像输入到建立的卷积神经网络模型中,通过调用训练阶段选取的最优权重得到最终输出层的显著性预测图
Figure BDA00027292153600002413
此显著性预测图即为本发明的最终显著性预测图,将不同测试集分别进行测试并将最终显著性预测图保存到不同的文件夹,再通过与测试集对应的真实场景标签图
Figure BDA0002729215360000251
进行对比得到最终实验测试结果。
为了验证本发明方法的可行性和有效性,对本发明进行实验。实验环境为英特尔i5-7500处理器,NVIDIA TITAN XP-12GB显卡,且通过使用pytorch库python语言编写运行。实验数据集采用国际公开公认数据集NJU2K和NLPR作为实验数据集来分析本发明方法的准确性有效性。本发明所选定训练集为随机抽取1400对NJU2K和650对NLPR图像作为训练数据集,其余图像作为本实验测试集,采用评估视觉显著性检测方法的4个常用客观参量作为评价指标:S度量值(S-measure),E-mean度量值(Enhanced alignment measure),F-mean度量值(F-measure),MAE平均绝对误差(Mean Absolute Error)。其中,S度量值评估显著性预测图和真实场景标签图中显著区域的结构相似性,E-mean度量将局部像素值与图像均值结合的方式来共同捕获图像级统计和局部像素匹配信息特征并取平均值表示,F度量值是一个基于区域的表示为加权调和平均值的相似性度量,MAE被定义为显著性预测图和真实场景标签图之间平均像素方向上的绝对误差。本发明的四项指标数值如表1所示。从表1所列的数据可知,按本发明方法生成结果与真实场景标签图的结果非常接近,实验证明本发明方法生成的最终显著性预测图在两个国际公开数据上精度较高且具有一定的鲁棒性,表明本发明在显著性检测中具有有效性。
表1利用本发明方法在两个国际公开数据集上的4个常用客观指标对比
性能指标 S-measure E-mean F-mean MAE
NJU2K 0.907 0.929 0.889 0.042
NLPR 0.916 0.940 0.884 0.028
通过本发明生成的最终显著性预测图和真实场景标签图像的对比结合表1可说明,本发明在两个国际公开数据集上表现优秀,四个指标数值都较高,尤其NLPR平均绝对误差已达到0.028。根据本专利三对对比图像可以看出本发明生成的显著性预测图非常接近于真实场景标签图,且能适应于各种复杂环境,可以说明本发明对显著目标物体边界清晰明确,目标结构识别准确完整。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种显著图再生成三流网络的RGBD图像显著性检测方法,其特征在于,具体步骤如下:
选取N幅原始RGBD图像的RGB图像、深度图像和标签图,构成训练集;
构建神经网络,采用双流端到端卷积神经网络和单流轻量网络;所述双流端到端卷积神经网络采用VGG-16作为基础编码网络;并将所述双流端到端卷积神经网络导入ImageNet训练权重进行预训练;
将训练集中的每幅原始的RGBD图像的RGB图像和深度图像作为原始输入图像,输入到所述神经网络中进行训练,得到训练集中的每幅原始的RGBD图像中所述RGB图像对应的显著性预测图和背景显著性预测图构成显著性预测图;
计算所述显著性预测图与对应的标签图之间的损失函数值,其损失函数值采用二分类交叉熵损失函数获得;
重复执行训练和计算,每一次循环整个训练集,得到卷积神经网络分类训练模型,且确定最小损失函数值;将所述最小损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项。
2.根据权利要求1所述的一种显著图再生成三流网络的RGBD图像显著性检测方法,其特征在于,在所述神经网络中,所述双流端到端卷积神经网络的编码部分由深度图像从第一个输入层输入的第一个神经网络块、第二个神经网络块、第三个神经网络块、第四个神经网络块、第五个神经网络块;
RGB图像从第二个输入层输入的第六个神经网络块、第七个神经网络块、第八个神经网络块、第九个神经网络块、第十个神经网络块,解码部分由第一个全局信息引导多尺度特征块、第一个特征聚合门结构块、第二个特征聚合门结构块、第三个特征聚合门结构块、第四个特征聚合门结构块,用作信息引导的第一个信息引导块、第二个信息引导块、第三个信息引导块、第四个信息引导块、以及第一个输出层组成;双流端到端卷积神经网络输出一张初始显著性预测图作为单流轻量网络的输入,单流轻量网络结合先前信息对初始显著性预测图进行增强;单流轻量网络由编码器的第一个特征增强块、第二个特征增强块、第三个特征增强块、第四个特征增强块、第五个特征增强块,解码器的第二个全局信息引导多尺度特征块、第一个特征微调细化块、第二个特征微调细化块、第三个特征微调细化块、第四个特征微调细化块、第一个双向注意力块、第二个双向注意力块、第三个双向注意力块、第四个双向注意力块和输出层的第二个输出层、第三个输出层、第四个输出层、第五个输出层、第六个输出层、第七个输出层、最终输出层。
3.根据权利要求2所述的一种显著图再生成三流网络的RGBD图像显著性检测方法,其特征在于,所述第一个全局信息引导多尺度特征块和所述第二个全局信息引导多尺度特征块的结构相同,包括第一卷积层、第一激活层、第二卷积层、第二激活层、第一全局平均池化层、第三卷积层、第三激活层、第一上采样层、第一全局最大池化层、第四卷积层、第四激活层、第二上采样层、第五卷积层、第五激活层、第一扩张卷积层、第六激活层、第六卷积层、第七激活层、第二扩张卷积层、第八激活层、第八卷积层、第七卷积层、第九激活层、第三扩张卷积层;
其中,特征图经过所述第一卷积层、所述第一激活层、所述第二卷积层、所述第二激活层之后输入到五个分支;第一个分支为所述第一全局平均池化层、所述第三卷积层、所述第一上采样层;第二个分支为所述第一全局最大池化层、所述第四卷积层、所述第二上采样层;特征图经过第一个分支和第二个分支之后相加得到全局特征图;第三个分支为所述第五卷积层、所述第三激活层、所述第一扩张卷积层和所述第四激活层;第四个分支为所述第六卷积层、所述第五激活层、所述第二扩张卷积层和所述第六激活层;第五个分支为所述第七卷积层、所述第七激活层、所述第三扩张卷积层和所述第八激活层,特征图经过第三个分支、第四个分支、第五个分支与所述全局特征图进行通道堆叠操作,通道堆叠操作后经过第八个卷积层、第九个激活层得到最终特征图A。
4.根据权利要求3所述的一种显著图再生成三流网络的RGBD图像显著性检测方法,其特征在于,所述第一个特征聚合门结构块、所述第二个特征聚合门结构块、所述第三个特征聚合门结构块、所述第四个特征聚合门结构块结构相同,包括:第九卷积层、第十激活层、第三上采样层、第十卷积层、第十一激活层、第十一卷积层、第十二激活层、第十二卷积层、第十三激活层、第十三卷积层、第十四激活层、第十四卷积层、第十五激活层、第十五卷积层、第十六激活层、第一S型激活函数、第二S型激活函数、第十六卷积层、第十七激活层;
其中,每个特征聚合门结构块分为深度流特征、RGB流特征和融合信息流特征,所述深度流特征经过所述第九卷积层、所述第十激活层与经过所述第三上采样层、所述第十卷积层、所述第十一激活层的所述融合信息流特征图相加,相加之后的特征图经过所述第十二卷积层、所述第十三激活层、所述第十三卷积层、所述第十四激活层得到预备融合特征图,所述融合信息流特征与经过所述第十一卷积层、所述第十二激活层的RGB流特征图进行点积操作再与原来的RGB流相加得到门结构特征图;所述门结构特征图经过所述第一S型激活函数、所述第二S型激活函数得到门结构二值化权重;所述RGB流特征经所述第十四卷积层、所述第十五激活层、所述第十五卷积层、所述第十六激活层,与门结构二值化权重点积操作得到RGB信息特征图;所述预备融合特征图与门结构二值化权重点积操作得到深度信息特征图;所述深度信息特征图与所述RGB信息特征图进行通道堆叠操作之后经过所述第十六卷积层、所述第十七激活层得到最终特征图B。
5.根据权利要求4所述的一种显著图再生成三流网络的RGBD图像显著性检测方法,其特征在于,所述第一个信息引导块、所述第二个信息引导块、所述第三个信息引导块、所述第四个信息引导块结构相同,包括:卷积层A;特征图经过所述卷积层A与最终特征图B进行点积操作,点积操作之后的特征图与最终特征图B相加得到最终特征图C。
6.根据权利要求5所述的一种显著图再生成三流网络的RGBD图像显著性检测方法,其特征在于,所述第一个特征微调细化块、所述第二个特征微调细化块、所述第三个特征微调细化块、所述第四个特征微调细化块结构相同,包括第八十七卷积层、第五十一激活层、第八十八卷积层、第五十二激活层、第八十九卷积层;
其中,第一特征图为与每个特征微调细化块对应的特征增强块输出的特征图;第二特征图为与每个特征微调细化块对应的双向注意力块输出的特征图;第一特征图经过第八十八卷积层、所述第五十二激活层之后按通道均为两批特征图分别为第一特征图w和第一特征图b,第一特征图w与经过所述第八十七卷积层、所述第五十一激活层的第二特征图进行点积操作之后与所述第一特征图b相加再经过所述第八十九卷积层之后得到最终特征图D。
7.根据权利要求6所述的一种显著图再生成三流网络的RGBD图像显著性检测方法,其特征在于,所述第一个双向注意力块、所述第二个双向注意力块、所述第三个双向注意力块和所述第四个双向注意力块结构相同,包括:第七上采样层、第二全局平均池化层、第五十九卷积层、第一最大归一化激活层、第六十三卷积层、第九S型激活函数、第六十卷积层、第六十一卷积层、第六十二卷积层;
其中,第三特征图为所述第二全局信息引导多尺度特征块输出的特征图或每个微调细化模块输出的特征图;
最终特征图C经过第二全局平均池化层、所述第五十九卷积层变换为按通道排列的注意力权重,注意力权重经过所述第一最大归一化激活层将权重映射在[0,1]区间,归一化之后的注意力权重与第三特征图进行点积操作得到注意力特征图,注意力特征图与最终特征图C相加经过所述第六十卷积层、所述第六十一卷积层、所述第六十二卷积层之后得到残差通道注意力图;第三特征图经过所述第七上采样层、降维操作得到空间特征图,所述空间特征图经过所述第六十三卷积层、所述第九S型激活函数得到二值化空间特征图;所述二值化空间特征图与所述残差通道注意力图张量进行点积操作得到最终特征图E。
CN202011113013.1A 2020-10-17 2020-10-17 一种显著图再生成三流网络的rgbd图像显著性检测方法 Pending CN112241743A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011113013.1A CN112241743A (zh) 2020-10-17 2020-10-17 一种显著图再生成三流网络的rgbd图像显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011113013.1A CN112241743A (zh) 2020-10-17 2020-10-17 一种显著图再生成三流网络的rgbd图像显著性检测方法

Publications (1)

Publication Number Publication Date
CN112241743A true CN112241743A (zh) 2021-01-19

Family

ID=74168875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011113013.1A Pending CN112241743A (zh) 2020-10-17 2020-10-17 一种显著图再生成三流网络的rgbd图像显著性检测方法

Country Status (1)

Country Link
CN (1) CN112241743A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949490A (zh) * 2021-03-01 2021-06-11 创新奇智(青岛)科技有限公司 设备动作检测方法、装置、电子设备及可读存储介质
CN113362322A (zh) * 2021-07-16 2021-09-07 浙江科技学院 一种判别辅助和多模态加权融合的显著物体检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709947A (zh) * 2020-04-24 2020-09-25 浙江科技学院 一种双流沟通和全局信息引导的显著物体图像检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709947A (zh) * 2020-04-24 2020-09-25 浙江科技学院 一种双流沟通和全局信息引导的显著物体图像检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949490A (zh) * 2021-03-01 2021-06-11 创新奇智(青岛)科技有限公司 设备动作检测方法、装置、电子设备及可读存储介质
CN113362322A (zh) * 2021-07-16 2021-09-07 浙江科技学院 一种判别辅助和多模态加权融合的显著物体检测方法
CN113362322B (zh) * 2021-07-16 2024-04-30 浙江科技学院 一种判别辅助和多模态加权融合的显著物体检测方法

Similar Documents

Publication Publication Date Title
US11288546B2 (en) Apparatus and method for training facial locality super resolution deep neural network
Amerini et al. Exploiting prediction error inconsistencies through LSTM-based classifiers to detect deepfake videos
Nguyen et al. Eyebrow recognition for identifying deepfake videos
Kohli et al. Detecting deepfake, faceswap and face2face facial forgeries using frequency cnn
CN109410146A (zh) 一种基于Bi-Skip-Net的图像去模糊算法
CN112070753A (zh) 多尺度信息增强双目卷积神经网络显著性图像检测方法
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN112257509A (zh) 基于联合信息编码的立体图像单流视觉显著性检测方法
CN112241743A (zh) 一种显著图再生成三流网络的rgbd图像显著性检测方法
CN114049332A (zh) 异常检测方法及装置、电子设备和存储介质
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测***
CN106778571A (zh) 一种基于深度神经网络的数字视频特征提取方法
KR20210034462A (ko) 픽셀 별 주석을 생성하는 생성적 적대 신경망(gan)을 학습시키는 방법
CN113961736A (zh) 文本生成图像的方法、装置、计算机设备和存储介质
CN111798436A (zh) 基于注意力膨胀卷积特征融合的显著物体检测方法
CN114387641A (zh) 基于多尺度卷积网络和ViT的虚假视频检测方法及***
CN114283352A (zh) 一种视频语义分割装置、训练方法以及视频语义分割方法
Hao et al. Deepfake detection using multiple data modalities
CN116665110B (zh) 一种视频动作识别的方法及设备
CN115984949B (zh) 一种带有注意力机制的低质量人脸图像识别方法及设备
Banerjee et al. Velocity estimation from monocular video for automotive applications using convolutional neural networks
Gan et al. Highly accurate end-to-end image steganalysis based on auxiliary information and attention mechanism
CN114743148A (zh) 多尺度特征融合篡改视频检测方法、***、介质和设备
CN113256603A (zh) 一种双流网络二次融合的显著性物体检测方法
CN113255817A (zh) 基于双向跨模态交互的机器人室内场景语义理解方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination