CN112257509A - 基于联合信息编码的立体图像单流视觉显著性检测方法 - Google Patents

基于联合信息编码的立体图像单流视觉显著性检测方法 Download PDF

Info

Publication number
CN112257509A
CN112257509A CN202011011518.7A CN202011011518A CN112257509A CN 112257509 A CN112257509 A CN 112257509A CN 202011011518 A CN202011011518 A CN 202011011518A CN 112257509 A CN112257509 A CN 112257509A
Authority
CN
China
Prior art keywords
layer
output
input
block
convolutional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011011518.7A
Other languages
English (en)
Inventor
周武杰
柳昌
郭沁玲
雷景生
周扬
强芳芳
杨胜英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202011011518.7A priority Critical patent/CN112257509A/zh
Publication of CN112257509A publication Critical patent/CN112257509A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于联合信息编码的立体图像单流视觉显著性检测方法。采集原始立体图像的彩色信息图、深度信息图及对应的真实场景标签图作为训练集;构建端到端的单流卷积神经网络;将训练集输入到构建的端到端的单流卷积神经网络进行训练;待测的立体图像输入到单流卷积神经网络后预测处理,输出结果。本发明解决了复杂场景、复杂结构、低对比度场景识别不准确的问题,在公开测试集上预测显著图结果清晰,目标准确。

Description

基于联合信息编码的立体图像单流视觉显著性检测方法
技术领域
本发明涉及一种视觉显著性检测方法,尤其是涉及一种基于联合信息编码的立体图像单流视觉显著性检测方法。
背景技术
人类为了避免大脑的过度运算进化出了一种叫做注意力机制的视觉机制,当视觉场景通过眼睛传入大脑进行运算的时候,人类自觉对场景的各个物体进行选择性处理,侧重关注自己感兴趣的一部分。计算机视觉任务中显著性检测由此而来。
传统的显著性检测通过手工提取特征达到预测显著性的功能,但传统方法的效率和精度远远跟不上工业发展和应用。自从1994年LeNet被Lecun提出以来,选择一个更简单高效的方法去完成这些计算机视觉任务成为了研究者们新的目标,但因为硬件上的限制和网络深度的缘由,此项工作进展苦难重重,少有方法能达到理想的结果。近年来,VGGNet和ResNet的提出突破了神经网络深度的限制,深度学习方法在显著性检测上不断刷新各项指标,本发明同样建立在这个背景之下。通过彩色图像进行显著性检测已经能达到很好的结果,然而在某些场景上依旧存在问题,如复制场景、低对比度,结构复杂图像等。随着传感器等硬件设施的反战,深度图像有效的弥补了输入信息的不足,深度图像能在二维图像中通过像素值大小表示目标物体的近远程度,由此深度辅助彩色信息图建立起一个具有立体信息图像的输入数据成为现有显著性检测比较有效的方法。
现有的深度图辅助彩色信息图的方法大多通过建立两个基础网络,但是这样带来的问题是计算机算力的消耗,无效的跨模态沟通不但不能增加模型的精度,反倒会给模型生成的显著图带来噪声,我们在吸取现有网络的经验上建立了一个编码联合信息处理,解码多模态分离的网络,这样的网络采用一个基础网络预训练来节省算力,而后通过高低特征特异性处理,联合信息彩色信息分离运算来使我们的方法运算效率大大增加,在运算效率增加的同时我们的精度也有所上升,实验证明我们的方法生成的显著图具有较高精度,在多目标、结构复杂场景检测优秀。
发明内容
为了解决背景技术中的问题,本发明提供了一种基于联合信息编码的单流视觉显著性检测方法;通过对立体信息进行联合信息编码操作,采用单流网络模型结构,在节省算力的同时不降低精度,又使用特异性分离操作的策略,本发明对高低级特征、彩色信息、联合信息有各自单独的处理方法,对低级特征通过反转注意力关注更多边界信息,对高级特征通过多尺度语义提取块关注更多高级语义信息,对于彩色信息提取高级特征进行聚合操作,之后将所有分离操作的信息流依次结合起来并实行多层次监督。本发明解决了复杂场景、复杂结构、低对比度场景识别不准确的问题,在公开测试集上预测显著图结果清晰,目标准确。
本发明采用的技术方案包括以下步骤:
步骤1:选取N幅原始立体图像的彩色信息图、深度信息图及对应的真实场景标签图作为训练集;
步骤2:构建端到端的单流卷积神经网络,单流卷积神经网络包括输入层、隐藏层和输出层;隐藏层包括五个依次连接的神经网络块、三个自适应卷积块、五个信息融合块、三个反转注意力层、一个多尺度语义提取块和三个二次残差注意力块,输出层主要由五个输出层组成;
步骤3:将步骤1得到的训练集输入到步骤2构建的单流卷积神经网络中进行训练:训练过程中,每次迭代训练处理得到每幅原始立体图像的显著性预测图,计算每幅原始立体图像的显著性预测图与真实场景标签图构成的损失函数值,损失函数值采用采用二分类交叉熵损失函数获得;
步骤4:重复执行步骤3共T次,并共得到N×T个二分类交叉熵损失函数值;然后从N×T个损失函数值中找出最小的损失函数值,将最小的损失函数值对应的权值矢量和偏置项作为单流卷积神经网络的最终权值矢量和最终偏置项,获得训练好的单流卷积神经网络;
步骤5:利用训练好的单流卷积神经网络对待预测立体图像的彩色信息图和深度信息图进行预测处理,输出获得对应的显著性预测图,实现立体图像的视觉显著性检测。
所述的单流卷积神经网络中:五个依次连接的神经网络块采用Res2net中的编码部分,第一个神经网络块的输入为输入层的输出;第一个、第二个、第三个、第四个和第五个神经网络块的输出分别输入第一个、第二个、第三个、第四个和第五个信息融合块。
每个反转注意力层包括输入端Ⅰ和输入端Ⅱ两个输入端;第一个反转注意力层输入端Ⅰ的输入为第三个信息融合块的输出,输入端Ⅱ的输入为第四个信息融合块依次经第六十二个卷积层、第一个上采样层的输出;第二个反转注意力层输入端Ⅰ的输入为第一个反转注意力层经第二个上采样层的输出,输入端Ⅱ的输入为第二个信息融合块经第六十三个卷积层的输出;第三个反转注意力层输入端Ⅰ的输入为第一个信息融合块经第六十四个卷积层的输出,输入端Ⅱ的输入为第二个反转注意力层的输出;第一个反转注意力层经第二个上采样层的输出、第二个反转注意力层的输出和第三个反转注意力层的输出进行通道堆叠后输入第一个输出层;
第五个信息融合块依次经多尺度语义提取块、第一个二次残差注意力块、第二个二次残差注意力块和第三个二次残差注意力块输入第三个输入层;
第三个、第四个和第五个神经网络块的输出分别输入第一个、第二个和第三个自适应卷积块,第一个自适应卷积块的输出分别输入特征聚合模块和第三个二次残差注意力块,第二个自适应卷积块的输出分别输入特征聚合模块和第二个二次残差注意力块,第三个自适应卷积块的输出分别输入特征聚合模块和第一个二次残差注意力块;
特征聚合模块经第二个输出层的输出与第三个输出层的输出进行通道叠加后输入第四个输出层;
第一个输出层的输出和第四个输出层的输出进行通道叠加后输入第五个输出层,第五个输出层的输出作为输出层的输出。
每个输入信息融合块的特征图按批次均分切割为彩色特征图和深度特征图,彩色特征图和深度特征图通过张量相乘得到中间特征图,彩色特征图、深度特征图和中间特征图通过张量相加后得到的特征图作为每个信息融合块的输出。
每个反转注意力层包括一个S型激活函数层、五个中间块和一个卷积层,输入端Ⅰ输入的特征图经取反操作后输入S型激活函数层输出按通道排列的权重,输入端Ⅱ输入的特征图经第一个注意力块的输出与S型激活函数层输出的权重张量相乘后输入第二个中间块,第二个中间块依次经第三个中间块、第四个中间块、一个卷积层的输出与输入端Ⅰ输入的特征图相加后的输出作为反转注意力层的输出;
每个中间块包括依次连接的一个卷积层和一个激活层。
每个二次残差注意力块包括输入端Ⅰ和输入端Ⅱ两个输入端,第一个、第二个和第三个二次残差注意力块输入端Ⅰ的输入分别为第三个、第二个和第一个自适应卷积块的输出,第一个、第二个和第三个二次残差注意力块输入端Ⅱ的输入分别为多尺度语义提取块、第一个二次残差注意力块和第二个二次残差注意力块的输出;
每个二次残差注意力块包括一个全局平均池化层、一个最大归一激活层、一个残差自适应卷积块、四个卷积层和一个上采样层,二次残差注意力块输入端Ⅰ输入的特征图依次经全局平均池化层、最大归一激活层和二次残差注意力块中的第一个卷积层后生成注意力权重,生成的注意力权重与输入端Ⅱ输入的特征图相乘得到注意力特征图,注意力特征图与输入端Ⅰ输入的特征图张量相加后依次经二次残差注意力块中的第二个卷积层、第三个卷积层、第四个卷积层后生成一次残差注意力特征图,输入端Ⅱ输入的特征图经第一个残差自适应卷积层的输出与一次残差注意力特征图相加生成二次残差特征图,二次残差特征图经过上采样层的输出为二次残差注意力块的输出。
所述的多尺度语义提取块包括六个卷积层,八个激活层和三个空洞卷积层,多尺度语义提取块的输入依次经第三十五个卷积层、第四十八个激活层、第三十六个卷积层输入第四十九个激活层,第四十九个激活层的输出分别输入第三十七个卷积层、第三十八个卷积层和第三十九个卷积层,第三十七个卷积层的输出依次经第五十个激活层、第一个空洞卷积层输入第五十一个激活层,第三十八个卷积层的输出依次经第五十二个激活层、第二个空洞卷积层输入第五十三个激活层,第三十九个卷积层的输出依次经第五十四个激活层、第三个空洞卷积层输入第五十五个激活层,第五十一个激活层、第五十二个激活层和第五十三个激活层的输出进行通道堆叠操作后经第四十个卷积层输出,第四十个卷积层的输出作为多尺度语义提取块的输入。
所述特征聚合模块包括三个上采样层、十二个卷积层和八个激活层,特征聚合模块包括输入端Ⅰ、输入端Ⅱ和输入端Ⅲ三个输入端,输入端Ⅰ、输入端Ⅱ和输入端Ⅲ的三个输入分别为第三个、第二个和第一个自适应卷积块的输出;
输入端Ⅰ经第八十个卷积层分别输入第六个上采样层和第七个上采样层,第六个上采样层的第一个输出分支经第八十三个卷积层输入第六十八个激活层,第六个上采样层的第二个输出分支经第八十四个卷积层输入第六十九个激活层,第七个上采样层的输出经第八十五个卷积层输入第七十个激活层;输入端Ⅱ依次经第八十一个卷积层、第八个上采样层、第八十六个卷积层输入第七十九个激活层;输入端Ⅲ经第八十二个卷积层的输出与第七十个激活层的输出、第七十一个激活层的输出张量相乘后输入第八十九个卷积层;
第八十一个卷积层的输出与第六十九个激活层的输出进行张量相乘后与第六十八个激活层的输出进行通道叠加,之后输入第八十七个卷积层;第八十七个卷积层的输出依次经第七十二个激活层、第九个上采样层、第八十八个卷积层输入第七十三个激活层;第七十三个激活层的输出与第八十九个卷积层的输出进行通道叠加后输入第九十个卷积层,第九十个卷积层依次经第七十四个激活层、第九十一个卷积层、第七十五个激活层输入第九十二个卷积层,第九十二个卷积层的输出为特征聚合模块的输出。
所述的自适应卷积块由依次连接的三个卷积层组成。
所述输入层的输入为立体图像中的彩色信息图和深度信息图,输入层对彩色信息图和深度信息图按批次进行堆叠操作。
本发明的有益效果:
1)本发明采用单流端到端的卷积神经网络模型,在实现高精度的同时拥有较高的运算效率。
2)本发明通过分类联合信息和彩色信息以及高级特征和低级特征来进行分离式处理,避免了融合运算中特征图噪点多,运算重复,信息冗余的问题。
3)本发明引入了注意力模型,并在此基础上改进一种二次残差注意力块,以往注意力块进行单边残差不能有效结合双边特征,二次残差注意力块在解码阶段有效的提取有用特征。
4)本发明使用分离解码操作,在每个阶段都进行监督,使用多监督通过损失函数有效反馈损失信息,在不增加计算量的同时提高显著性检测效果。
附图说明
图1为本发明方法的总体实现框图;
图2为本发明信息融合块的框图;
图3为本发明二次残差注意力块的框图;
图4为本发明反转注意力层的框图;
图5为本发明特征聚合模块框图;
图6a为本发明测试集随机挑选的彩色信息图像;图6b为本发明测试集对应的深度信息图像;图6c为对应的利用本发明生成的显著性预测图像;图6d为本发明测试集对应的真实场景标签图像;
图7a为本发明测试集随机挑选的彩色信息图像;图7b为本发明测试集对应的深度信息图像;图7c为对应的利用本发明生成的显著性预测图像;图7d为本发明测试集对应的真实场景标签图像;
图8a为本发明测试集随机挑选的彩色信息图像;图8b为本发明测试集对应的深度信息图像;图8c为对应的利用本发明生成的显著性预测图像;图8d为本发明测试集对应的真实场景标签图像;
图9a为本发明在NJU2K测试集上PR(精准-召回)曲线;图9b为本发明在NLPR测试集上PR(精准-召回)曲线。
图10为本发明多尺度语义提取块的框图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细说明。
本发明解决上述技术问题所采用的技术方案为:一种基于联合信息编码的单流视觉显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程:
所述的训练阶段过程的具体步骤:
步骤1_1:首先选取N幅原始立体图像的彩色信息图像、深度信息图像和对应的真实场景标签图,并构成训练集,将训练集中的第n幅原始立体图像的彩色信息图像记为
Figure RE-GDA0002849391390000061
原始立体图像的深度信息图像记为
Figure RE-GDA0002849391390000062
真实场景标签图记为
Figure RE-GDA0002849391390000063
其中,H代表图像的高度,W代表图像的宽度,彩色信息图像为红、绿、蓝三通道具有彩色信息的图像,深度信息图像为通过深度传感器拍摄的具有深度信息的单通道图像,在本发明中,为了方便深度信息图像和彩色信息图像预训练,我们将深度信息图像复制为三通道图像。
步骤1_2:构建如图1所示的端到端的单流卷积神经网络:单流卷积神经网络仅存在一个编码器,编码器采用Res2Net结构,单流卷积神经网络由输入层、隐藏层、输出层组成。
对于输入层,将彩色图的批次记为T,输入层主要对彩色图像和深度图像进行按批次堆叠操作,输入的图像为四个维度,分别是批次数、通道数、高度、宽度,批次堆叠后的联合图像批次为2×T,其他参数保持不变。隐藏层包括编码器的第一个神经网络块、第二个神经网络块、第三个神经网络块、第四个神经网络块、第五个神经网络块,解码器的第一个信息融合块、第二个信息融合块、第三个信息融合块、第四个信息融合块、第一个卷积层、第二个卷积层、第三个卷积层、第一个上采样层、第二个上采样块、第一个反转注意力块、第二个反转注意力块、第三个反转注意力块、第一个自适应卷积块、第二个自适应卷积块、第三个自适应卷积块、第三个信息融合块、多尺度语义提取块、第一个二次残差注意力块、第二个二次残差注意力块、第三个二次残差注意力块、第三个上采样层、第四个上采样层、第五个上采样层、特征聚合模块组成。输出层由第一个输出层、第二个输出层、第三个输出层、第四个输出层、第五个输出层组成。
为了方便介绍方法定义二种结构:
第一种多尺度特征细化模块(Multi-scale feature refinement Module),采用Resnet残差模块的瓶颈层(Bottleneck layer)中的多尺度特征细化模块。ResNet 的瓶颈结构是一个卷积核为1×1的卷积层、一个卷积核是3×3的卷积层以及一个卷积核为1×1的卷积层组成,输入和输出跳连相加,多尺度特征细化模块与原始结构主要是卷积核3×3的卷积层不同。假设多尺度特征细化模块接收特征图为xm,通过一个卷积核为1×1的卷积层将通道为nm平均切分为4份,每份通道为nm/4,有特征图x1,x2,x3,x4。x2经过卷积核为3×3卷积后得到输出特征图y2,y2与x3相加后经过一个卷积核3×3卷积层得到的输出特征图y3,y2与x4相加后经过一个卷积核为3×3卷积层得到的输出特征图y4,特征图y1和特征图 x1一致。将y1,y2,y3,y4按通道数相加得到的最后结果为特征图ym,本发明中多尺度特征细化模块的卷积核个数记为通道相加个数nm,补零参数为1,步长为1。
第二种是压缩激励注意力块,假设输入特征图为sn,通道数为he,特征图先经过一个变换尺寸为1的自适应平均池化(adaptive avgpool),其输出是按通道排列的不同大小的像素值,输出再经过一个卷积核大小为1×1的卷积层(卷积核个数为he/16)、一个激活函数为‘Relu’的激活层,以及一个卷积核大小为1×1 的卷积层(卷积核个数为he)、一个激活函数为‘Sigmoid’的激活层得到注意力权重像素值,再将这一系列注意力权重像素值与sn特征图进行向量相乘,得到最后输出为en的特征图,en与sn尺寸大小相同,特征图张数一致。
五个依次连接的神经网络块采用Res2net结构。
1.1)对于第一个神经网络块,第一个神经网络块是由第一个卷积层(Convolution,Conv),第一个最大池化层(Maxpooling,Pool),第一个激活层组成,激活方式(Activation,Act)为‘Relu’。经过第一个神经网络块输出的特征图张数为64,第一个卷积层卷积核(kernel_size)大小为7×7、池化层的卷积核大小为3*3、步长为2,补零参数为3,将64张特征图的集合记为J1,特征图宽度为W/4,高度为H/4。以下未介绍的步长均为1,未介绍的补零参数3*3 卷积核的卷积为1,1×1卷积为0,未介绍的池化均为最大池化,未标明的激活方式均为‘Relu’。
1.2)对于第二个神经网络块,第二个神经网络块由三个卷积块组成,分别为第一个卷积块、第二个卷积块、第三个卷积块。
第一个卷积块由第二个卷积层、第二个激活层,第一个多尺度特征细化模块、第三个激活层、第三个卷积层、第一个压缩激励注意力块,第一个跳连卷积层、第四个激活层组成。第二个卷积块由第四个卷积层、第五个激活层、第二个多尺度特征细化模块、第六个激活层、第五个卷积层、第二个压缩激励注意力块、第七个激活层。第三个卷积块由第六个卷积层、第八个激活层、第三个多尺度特征细化模块、第九个激活层、第七个卷积层、第三个压缩激励注意力块、第十个激活层组成,第十个激活层输出到第三个神经网络块和第二个融合块。经过第二个神经网络块特征图张数为256,将256张特征图的集合记为 J2,特征图宽度为W/4,高度为H/4。
1.3)对于第三个神经网络块,第三个神经网络块由四个卷积块组成,分别是第四个卷积块、第五个卷积块、第六个卷积块、第七个卷积块。
第四个卷积块由第八个卷积层、第十一个激活层、第四个多尺度特征细化模块、第十二个激活层、第十个卷积层,第四个压缩激励注意力块、第十三个激活层,第二个跳连卷积层组成。第五个卷积块由第十一个卷积层、第十四个激活层、第五个多尺度特征细化模块,第十五个激活层、第十二个卷积层、第五个压缩激励注意力块、第十六个激活层组成。第六个卷积块由第十三个卷积层、第十七个激活层、第六个多尺度特征细化模块,第十八个激活层、第十四个卷积层、第六个压缩激励注意力块、第十九个激活层组成。第七个卷积块由第十五个卷积层、第二十个激活层、第七个多尺度特征细化模块,第二十一个激活层、第十六个卷积层、第七个压缩激励注意力块、第二十二个激活层组成,第二十二个激活层输出到第四个神经网络块和第三个融合块。经过第三个神经网络块特征图张数为512,将512张特征图的集合记为J3,特征图宽度为W/8,高度为H/8。
1.4)对于第四个神经网络块,第四个神经网络块由六个卷积块组成,分别是第八个卷积块、第九个卷积块、第十个卷积块、第十一个卷积块、第十二个卷积块、第十三个卷积块。第八个卷积块由第十七个卷积层、第二十三个激活层、第八个多尺度特征细化模块、第二十四个激活层、第十八个卷积层,第八个压缩激励注意力块、第二十五个激活层,第三个跳连卷积层组成。第九个卷积块由第十九个卷积层、第二十五个激活层、第九个多尺度特征细化模块,第二十六个激活层、第二十个卷积层、第九个压缩激励注意力块、第二十六个激活层组成。第十个卷积块由第二十一个卷积层、第二十七个激活层、第十个多尺度特征细化模块,第二十八个激活层、第二十二个卷积层、第十个压缩激励注意力块、第二十九个激活层组成。第十一个卷积块由第二十三个卷积层、第三十个激活层、第十一个多尺度特征细化模块,第三十一个激活层、第二十四个卷积层、第十一个压缩激励注意力块、第三十二个激活层组成。第十二个卷积块由第二十五个卷积层、第三十三个激活层、第十二个多尺度特征细化模块,第三十四个激活层、第二十六个卷积层、第十二个压缩激励注意力块、第三十五个激活层组成。第十三个卷积块由第二十七个卷积层、第三十六个激活层、第十三个多尺度特征细化模块,第三十七个激活层、第二十八个卷积层、第十三个压缩激励注意力块、第三十八个激活层组成,第三十八个激活层输出到第五个神经网络块和第四个融合块。经过第四个神经网络块特征图张数为1024,将1024张特征图的集合记为J4,特征图宽度为W/16,高度为H/16。
1.5)对于第五个神经网络块,第五个神经网络块由三个卷积块组成,分别是第十四个卷积块、第十五个卷积块、第十六个卷积块。第十四个卷积块由第二十九个卷积层、第三十九个激活层、第十四个多尺度特征细化模块、第四十个激活层、第三十个卷积层、第十四个压缩激励注意力块、第四十一个激活层、第四个跳连卷积层组成。第十五个卷积块由第三十一个卷积层、第四十二个激活层、第十五个多尺度特征细化模块,第四十三个激活层、第三十二个卷积层、第十五个压缩激励注意力块、第四十四个激活层组成。第十六个卷积块由第三十三个卷积层、第四十五个激活层、第十六个多尺度特征细化模块,第四十六个激活层、第三十四个卷积层、第十六个压缩激励注意力块、第四十七个激活层组成,第四十七个激活层输出到第五个融合块。经过第五个神经网络块特征图张数为2048,将2048张特征图的集合记为J5,特征图宽度为W/16,高度为 H/16。
如图2所示为信息融合块的结构框图。
2.1)对于第一个信息融合块,第一个信息融合块的功能是按批次切分联合信息,而又进行信息再融合。第一个信息融合块接收第一个神经网络块的特征图J1,接收的特征图J1按批次均分,均分后得到两个批次为T的特征图R1和D1, R1代表彩色信息流,D1代表深度信息流。特征图R1和D1再进行张量相乘操作得到中间特征图,中间特征图与特征图R1、特征图D1相加得到最终特征图。经过第一个信息融合块的特征图记为C1,特征图宽度为W/4,高度为H/4。
2.2)对于第二个信息融合块,第二个信息融合块的功能是按批次切分联合信息,而又进行信息再融合。第二个信息融合块接收第二个神经网络块的特征图J2,接收的特征图J2按批次均分,均分后得到两个批次为T的特征图R2和D2, R2代表彩色信息流,D2代表深度信息流。特征图R2和D2再进行张量相乘操作得到中间特征图,中间特征图与特征图R2、特征图D2相加得到最终特征图。经过第二个信息融合块的特征图记为C2,特征图宽度为W/4,高度为H/4。
2.3)对于第三个信息融合块,第三个信息融合块的功能是按批次切分联合信息,而又进行信息再融合。第三个信息融合块接收第三个神经网络块的特征图J3,接收的特征图J3按批次均分,均分后得到两个批次为T的特征图R3和D3,R3代表彩色信息流,D3代表深度信息流。特征图R3和D3再进行张量相乘操作得到中间特征图,中间特征图与特征图R3、特征图D3相加得到最终特征图。经过第一个信息融合块的特征图的集合记为C3,特征图宽度为W/8,高度为H/8。
2.4)对于第四个信息融合块,第四个信息融合块的功能是按批次切分联合信息,而又进行信息再融合。第四个信息融合块接收第四个神经网络块的特征图J4,接收的特征图J4按批次均分,均分后得到两个批次为T的特征图R4和D4, R4代表彩色信息流,D4代表深度信息流。特征图R4和D4再进行张量相乘操作得到中间特征图,中间特征图与特征图R4、特征图D4相加得到最终特征图。经过第四个信息融合块的特征图的集合记为C4,特征图宽度为W/16,高度为H/16。
2.5)对于第五个信息融合块,第五个信息融合块的功能是按批次切分联合信息,而又进行信息再融合。第五个信息融合块接收第五个神经网络块的特征图J5,接收的特征图J5按批次均分,均分后得到两个批次为T的特征图R5和D5, R5代表彩色信息流,D5代表深度信息流。特征图R5和D5再进行张量相乘操作得到中间特征图,中间特征图与特征图R5、特征图D5相加得到最终特征图。经过第五个信息融合块的特征图的集合记为C5,特征图宽度为W/32,高度为H/32。
如图10所示为多尺度语义提取块的结构框图。
3)对于多尺度语义提取块,多尺度语义提取块由第三十五个卷积层、第四十八个激活层、三十六个卷积层、第四十九个激活层、三十七个卷积层、第五十个激活层、第一个空洞卷积层(dilation convlution)、第五十一个激活层、第三十八个卷积层、第五十二个激活层、第二个空洞卷积层、第五十三个激活层、第三十九个卷积层、第五十四个激活层、第三个空洞卷积层、第五十五个激活层、第四十个卷积层组成。多尺度语义提取块的特征图经过第三个上采样层。第三十五个卷积层卷积核大小为3×3,卷积核个数为16,第三十六个卷积层卷积核大小为1×1,卷积核个数为16,第三十七个卷积层卷积核大小为1×1,卷积核个数为16,第一个空洞卷积层卷积核大小为3×3,扩张比率为1,卷积核个数为16,第三十八个卷积层卷积核大小为1×1,卷积核个数为16,第二个空洞卷积层卷积核大小为3×3,扩张比率为2,卷积核个数为16,第三十九个卷积层卷积核大小为1×1,卷积核个数为16,第三个空洞卷积层卷积核大小为3×3,扩张比率为4,卷积核个数为16,第四十个个卷积层卷积核大小为1×1,卷积核个数为64。多尺度语义提取块接收来自第五个信息融合块的特征图C5,经过第三十五个卷积层、第四十八个激活层、三十六个卷积层、第四十九个激活层之后输入到三个分支,经过三十七个卷积层、第五十个激活层、第一个空洞卷积层 (dilationconvlution)、第五十一个激活层的特征图为p1,经过第三十八个卷积层、第五十二个激活层、第二个空洞卷积层、第五十三个激活层的特征图为p2,经过第三十九个卷积层、第五十四个激活层、第三个空洞卷积层、第五十五个激活层的特征图为p3,再对3个分支进行通道堆叠操作,通道堆叠之后的特征图经过第四十个卷积层生成最终特征图,经过多尺度语义提取块的64张特征图记为 M,特征图宽度为W/32,高度为H/32。
如图3所示为二次残差注意力块的结构框图。
4.1)对于第一个二次残差注意力块,第一个二次残差注意力块由第一个自适应平均池化层、第四十一个卷积层、第一个最大归一激活层、第四十二个卷积层、第四十三个卷积层、第四十四个卷积层、第三个上采样层、第一个残差自适应卷积层组成。第一个自适应平均池化层池化尺寸为1×1,第四十一个卷积层卷积核大小为1×1,卷积核个数为64,第一个最大归一激活层激活方式为‘Softmax’,第四十二个卷积层卷积核大小为3×3,卷积核个数为32,第四十三个卷积层卷积核大小为3×3,卷积核个数为32,第四十四个卷积层卷积核大小为3×3,卷积核个数为32,第三个上采样层采样方式为双线性插值,上采样倍率为2,第一个残差自适应卷积层卷积核大小为1×1,卷积核个数为32。第一个二次残差注意力块接收来自多尺度语义提取块的特征图M以及第三个自适应卷积块的特征图a1,特征图a1经过第一个全局平均池化层将特征图变为按通道排列的权重,再经过第一个最大归一激活层、第四十一个卷积层生成注意力权重,生成的注意力权重与特征图M相乘得到注意力特征图,得到的特征注意力图与特征图a1张量相加经过第四十二个卷积层、第四十三个卷积层、第四十四个卷积层生成一次残差注意力特征图,一次残差注意力特征图与经过第一个残差自适应卷积层的特征图M相加生成二次残差特征图,二次残差特征图经过第三个上采样层得到最终特征图。经过第一个二次残差注意力块的32张特征图集合记为q1,特征图宽度为W/16,高度为H/16。
4.2)对于第二个二次残差注意力块,第二个二次残差注意力块由第二个自适应平均池化层、第四十五个卷积层、第二个最大归一激活层、第四十六个卷积层、第四十七个卷积层、第四十八个卷积层、第四个上采样层、第二个残差自适应卷积层组成。第二个自适应平均池化层池化尺寸为1×1,第四十五个卷积层卷积核大小为1×1,卷积核个数为32,第二个最大归一激活层激活方式为‘Softmax’,第四十六个卷积层卷积核大小为3×3,卷积核个数为16,第四十七个卷积层卷积核大小为3×3,卷积核个数为16,第四十八个卷积层卷积核大小为3×3,卷积核个数为16,第四个上采样层采样方式为双线性插值,上采样倍率为2,第二个残差自适应卷积层卷积核大小为1×1,卷积核个数为16。第二个二次残差注意力块接收来自第一个二次残差注意力块的特征图q1以及第二个自适应卷积块的特征图a2,特征图a2经过第二个自适应平均池化层将特征图变为按通道排列的像素值,像素值经过第二个最大归一激活层、第四十五个卷积层生成注意力权重,生成的注意力权重与特征图q1相乘得到注意力特征图,得到的特征注意力图与特征图a2张量相加经过第四十六个卷积层、第四十七个卷积层、第四十八个卷积层生成一次残差注意力特征图,一次残差注意力特征图与经过第二个残差自适应卷积层的特征图q1相加生成二次残差特征图,二次残差特征图经过第四个上采样层得到最终特征图。经过第二个二次残差注意力块的 16张特征图集合记为q2,特征图宽度为W/8,高度为H/8。
4.3)对于第三个二次残差注意力块,第三个二次残差注意力块由第三个自适应平均池化层、第四十九个卷积层、第三个最大归一激活层、第五十个卷积层、第五十一个卷积层、第五十二个卷积层、第五个上采样层、第三个残差自适应卷积层组成。第三个自适应平均池化层池化尺寸为1×1,第四十九个卷积层卷积核大小为1×1,卷积核个数为16,第三个最大归一激活层激活方式为‘Softmax’,第五十个卷积层卷积核大小为3×3,卷积核个数为8,第五十一个卷积层卷积核大小为3×3,卷积核个数为8,第五十二个卷积层卷积核大小为3×3,卷积核个数为1,第五个上采样层采样方式为双线性插值,上采样倍率为8,第三个残差自适应卷积层卷积核大小为1×1,卷积核个数为1。第三个二次残差注意力块接收来自第二个二次残差注意力块的特征图q2以及第一个自适应卷积块的特征图a3,特征图a3经过第三个自适应平均池化层将特征图变为按通道排列的像素值,像素值经过第二个最大归一激活层、第四十九个卷积层生成注意力权重,生成的注意力权重与特征图q2相乘得到注意力特征图,得到的特征注意力图与特征图a2张量相加经过第五十个卷积层、第五十一个卷积层、第五十二个卷积层生成一次残差注意力特征图,一次残差注意力特征图与经过第三个残差自适应卷积层的特征图q2相加生成二次残差特征图,二次残差特征图经过第五个上采样层得到最终特征图。经过第三个二次残差注意力块的1张特征图集合记为q3,特征图宽度为W,高度为H。
5.1)对于第一个自适应卷积块,第一个自适应卷积块由第五十三个卷积层、第五十四个卷积层、第五十五个卷积层组成。第五十三个卷积层卷积核大小为 1×1,卷积核个数为16,第五十四个卷积层卷积核大小为1×1,卷积核个数为16,第五十五个卷积层卷积核大小为1×1,卷积核个数为16。第一个自适应卷积块接收来自第三个神经网络块J3的彩色信息部分,接收的彩色信息特征图经过三个卷积层生成最终特征图,特征图输入到第三个二次残差注意力块和特征聚合模块,将16张特征图的集合记为a1,特征图宽度为W/8,高度为H/8。
5.2)对于第二个自适应卷积块,第二个自适应卷积块由第五十六个卷积层、第五十七个卷积层、第五十八个卷积层组成。第五十六个卷积层卷积核大小为 1×1,卷积核个数为32,第五十七个卷积层卷积核大小为1×1,卷积核个数为32,第五十八个卷积层卷积核大小为1×1,卷积核个数为32。第二个自适应卷积块接收来自第四个神经网络块J4的彩色信息部分,接收的彩色信息特征图经过三个卷积层生成最终特征图,特征图输入到第二个二次残差注意力块和特征聚合模块,将32张特征图的集合记为a2,特征图宽度为W/16,高度为H/16。
5.3)对于第三个自适应卷积块,第三个自适应卷积块由第五十九个卷积层、第六十个卷积层、第六十一个卷积层组成。第五十九个卷积层卷积核大小为1×1,卷积核个数为64,第六十个卷积层卷积核大小为1×1,卷积核个数为64,第六十一个卷积层卷积核大小为1×1,卷积核个数为64。第三个自适应卷积块接收来自第五个神经网络块J3的彩色信息部分,接收的彩色信息特征图经过三个卷积层生成最终特征图,特征图输入到第一个二次残差注意力块和特征聚合模块,将64张特征图的集合记为a3,特征图宽度为W/32,高度为H/32。
6)对于第六十二个卷积层、第六十三个卷积层、第六十四个卷积层,第六十二个卷积层卷积核大小为1×1,卷积核个数为32,第六十三个卷积层卷积核大小为1×1,卷积核个数为512,第六十四个卷积层卷积核大小为1×1,卷积核个数为512,三个卷积层在网络中起到过渡作用。
如图4所示为反转注意力层的结构框图。
7.1)对于第一个反转注意力层,接收第三个信息融合块的特征图J3和来自第四个信息融合块的特征图J4,特征图J4经过第六十二个卷积层,第一个上采样层之后输入给第一个反转注意力层,第一个反转注意力层由第一个S型激活函数、第六十五个卷积层、第五十六个激活层、第六十六个卷积层、第五十七个激活层、第六十七个卷积层、第五十八个激活层、第六十八个卷积层、第五十九个激活层、第六十九个卷积层组成。第一个S型激活函数,激活方式为‘Sigmoid’,第六十五个卷积层卷积核大小为1×1,卷积核个数为32,第六十六个卷积层卷积核大小为1×1,卷积核个数为32,第六十七个卷积层卷积核大小为1×1,卷积核个数为32,第六十八个卷积层卷积核大小为1×1,卷积核个数为 32,第六十九个卷积层卷积核大小为1×1,卷积核个数为1,接收的特征图J4经过第六十二个卷积层,第一个上采样层之后,对特征图进行取反操作,取反过后的特征图像素反置,再输入到第一个S型激活函数之后进行通道化操作后变为按通道排列的权重值,并与经过第六十五个卷积层、第五十六个激活层的特征图J3张量相乘,张量相乘之后的特征图经过第六十六个卷积层、第五十七个激活层、第六十七个卷积层、第五十八个激活层、第六十八个卷积层、第五十九个激活层、第六十九个卷积层之后与经过第六十二个卷积层、第一个上采样层之后的特征图J4相加得到最终特征图。经过第一个反转注意力层的32张特征图集合记为f1,特征图宽度为W/8,高度为H/8。
7.2)对于第二个反转注意力层,接收第二个信息融合块的特征图J2和来自第一个反转注意力层的特征图f1,特征图J2经过第六十三个卷积层之后输入给第二个反转注意力层,特征图f1经过第二个上采样层之后输入给第二个反转注意力层,第二个反转注意力层由第二个S型激活函数、第七十个卷积层、第六十个激活层、第七十一个卷积层、第六十一个激活层、第七十二个卷积层、第六十二个激活层、第七十三个卷积层、第六十三个激活层、第七十四个卷积层组成。第二个S型激活函数,激活方式为‘Sigmoid’,第七十个卷积层卷积核大小为1×1,卷积核个数为32,第七十一个卷积层卷积核大小为1×1,卷积核个数为32,第七十二个卷积层卷积核大小为1×1,卷积核个数为32,第七十三个卷积层卷积核大小为1×1,卷积核个数为32,第七十四个卷积层卷积核大小为1×1,卷积核个数为1,接收的特征图f1经过第二个上采样层之后,对特征图进行取反操作,取反过后的特征图像素反置,再输入到第一个S型激活函数且进行通道化操作与经过第七十个卷积层的特征图J2张量相乘,张量相乘之后的特征图经过第七十一个卷积层、第六十一个激活层、第七十二个卷积层、第六十二个激活层、第七十三个卷积层、第六十三个激活层、第七十四个卷积层之后与经过第六十二个卷积层、第二个上采样层之后的特征图f1相加得到最终特征图。经过第一个反转注意力层的32张特征图集合记为f2,特征图宽度为W/4,高度为 H/4。
7.3)对于第三个反转注意力层,接收第一个信息融合块的特征图J1和来自第二个反转注意力层的特征图f2,特征图J1经过第六十四个卷积层之后输入给第一个反转注意力层,第三个反转注意力层由第三个S型激活函数、第七十五个卷积层、第六十四个激活层、第七十六个卷积层、第六十五个激活层、第七十七个卷积层、第六十六个激活层、第七十八个卷积层、第六十七个激活层、第七十九个卷积层组成。第三个S型激活函数,激活方式为‘Sigmoid’,第七十五个卷积层卷积核大小为1×1,卷积核个数为32,第七十六个卷积层卷积核大小为1×1,卷积核个数为32,第七十七个卷积层卷积核大小为1×1,卷积核个数为32,第七十八个卷积层卷积核大小为1×1,卷积核个数为32,第七十九个卷积层卷积核大小为1×1,卷积核个数为1,对特征图f2进行取反操作,取反过后的特征图像素反置,再输入到第三个S型激活函数且进行通道化操作与经过第七十个卷积层的特征图J1张量相乘,张量相乘之后的特征图经过第七十六个卷积层、第六十五个激活层、第七十七个卷积层、第六十六个激活层、第七十八个卷积层、第六十七个激活层、第七十九个卷积层之后与特征图f1相加得到最终特征图。经过第一个反转注意力层的32张特征图集合记为f1,特征图宽度为 W/4,高度为H/4。第一个反转注意力层特征图f1、第二个反转注意力层特征图 f2与第三个反转注意力层特征图f3进行通道堆叠操作之后输入进第一个输出层。
如图5所示为特征聚合模块的结构框图。
8)对于特征聚合模块。特征聚合模块由第六个上采样层,第七个上采样层、第八个上采样层、第八十个卷积层、第六十八个激活层、第八十一个卷积层、第六十九个激活层、第八十二个卷积层、第七十个激活层、第八十三个卷积层、第七十一个激活层、第八十四个卷积层、第七十二个激活层、第八十五个卷积层、第七十三个激活层、第八十六个卷积层、第七十四个激活层、第八十七个卷积层、第七十五个激活层、第八十八个卷积层、第八十九个卷积层、第九十个卷积层、第九十一个卷积层、第九十二个卷积层组成。第六个上采样层上采样方式为双线性插值,上采样倍率为2倍,第七个上采样层上采样方式为双线性插值,上采样倍率为2倍,第八个上采样层上采样方式为双线性插值,上采样倍率为2倍,第八十个卷积层卷积核大小为3×3,卷积核个数为32,第八十一个卷积层卷积核大小为3×3,卷积核个数为32,第八十二个卷积层卷积核大小为3×3,卷积核个数为32,第八十三个卷积层卷积核大小为3×3,卷积核个数为32,第八十四个卷积层卷积核大小为3×3,卷积核个数为64,第八十五个卷积层卷积核大小为3×3,卷积核个数为64,第八十六个卷积层卷积核大小为3×3,卷积核个数为96,第八十七个卷积层卷积核大小为1×1,卷积核个数为96,第八十八个卷积层卷积核大小为1×1,卷积核个数为64,第八十九个卷积层卷积核大小为1×1,卷积核个数为1,第九十个卷积层卷积核大小为1×1,卷积核个数为32,第九十一个卷积层卷积核大小为1×1,卷积核个数为32,第九十二个卷积层卷积核大小为1×1,卷积核个数为32。特征聚合模块接收来自第一个自适应卷积块、第二个自适应卷积块、第三个自适应卷积块的特征图a1、a2、a3,特征图a1、a2、a3经过第九十二个卷积层、第九十一个卷积层、九十个卷积层进行通道压缩,经过特征聚合模块的1张特征图记为d,特征图宽度为W/8,高度为H/8。
9)对于输出层,输出层由第一个输出层、第二个输出层、第三个输出层、第四个输出层、第五个输出层组成。第一个输出层由第九十三个卷积层、九十四个卷积层、九十五个卷积层、第九个上采样层组成。第九十三个卷积层卷积核大小为1×1,卷积核个数为64,第九十四个卷积层卷积核大小为3×3,卷积核个数为32,第九十五个卷积层卷积核大小为1×1,卷积核个数为1,第九个上采样层采样方式为双线性插值,采样倍率为4。第二个输出层由第十个上采样层组成,第十个上采样层采样方式为双线性插值,采样倍率为8。第三个输出层没有任何操作只做损失函数监督。第四个输出层由第九十六个卷积层组成,第九十六个卷积层卷积核大小为1×1,卷积核个数为1。第五个输出层由第九十七个卷积层组成,第九十七个卷积层卷积核大小为1×1,卷积核个数为1。每个输出层输出的显著预测图都进行二分类交叉熵损失函数监督。
步骤1_3:将训练集中的每幅原始的立体图像的彩色信息图像和深度信息图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的立体图像对应的1幅显著性预测图,将
Figure RE-GDA0002849391390000161
对应的5幅显著性预测图构成的集合记为
Figure RE-GDA0002849391390000162
步骤1_4:计算训练集中与彩色信息图像
Figure RE-GDA0002849391390000163
对应显著性预测图构成的集合与对应的真实场景标签图像构成的集合之间的损失函数值,将
Figure RE-GDA0002849391390000164
Figure RE-GDA0002849391390000165
之间的损失函数值记为
Figure RE-GDA0002849391390000166
其损失函数值采用二分类交叉熵损失函数获得。
步骤1_5:重复执行步骤1_3和步骤1_4共T次,每一次循环整个测试集,得到卷积神经网络分类训练模型,且一共得到N×T个二分类交叉熵损失函数值;然后从N×T个损失函数值中找出值最小的损失函数值;接着将最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量Wbest和最优偏置项bbest,最优权权值矢量和偏置项共称为权重,将其保存在指定文件夹以备测试阶段所用;其中T=100;
所述的测试阶段过程的具体步骤为:
测试图像为实验前划分数据集中测试集图像,针对测试集中某一对立体图像,有彩色信息图像
Figure RE-GDA0002849391390000167
深度信息图像
Figure RE-GDA0002849391390000168
将这一对立体图像输入到建立的卷积神经网络模型中,通过导入训练阶段选取的最优权重得到最后一个输出层的显著性预测图
Figure RE-GDA0002849391390000169
此显著性预测图为最终显著性预测图,将同一测试集的最终显著性预测图进行分类,建立对应文件夹,通过与测试集对应的真实场景标签图
Figure RE-GDA00028493913900001610
进行对比得到对比实验测试结果。
为了验证本发明方法的可行性和有效性,进行实验。实验在硬件为英特尔 i5-7500处理器,NVIDIA TITAN XP-12GB显卡下通过使用pytorch库python语言编写运行。实验数据集采用国际公开公认数据集NJU2K和NLPR作为实验数据集来分析本发明方法的准确性和稳定性。训练集为随机抽取1400对NJU2K 和650对NLPR图像作为训练数据集,其余图像作为本实验测试集,这里,利用评估视觉显著提取方法的4个常用客观参量作为评价指标:S度量值 (F-measure),F-mean度量值(F-measure),E-mean度量值(Enhanced alignmentmeasure),MAE平均绝对误差(Mean Absolute Error)。其中,S度量值评估显著性预测图和真实场景标签图之间的结构相似性,E-mean度量将局部像素值与图像级均值在一项中结合,用来共同捕获图像级统计和局部像素匹配信息,并取平均值表示,F度量值平均精度和平均召回率的调和平均值,MAE被定义为显著性预测图和真实场景标签图之间平均像素方向上的绝对误差。反应本发明的四项指标如表1所示。从表1所列的数据可知,按本发明方法提取得到的显著性预测图在两个公开数据上精度较高且具有一定的鲁棒性,表明模型生成结果与真实场景标签图的结果较为一致,实验证明本发明方法对显著性检测具有有效性。
表1利用本发明方法在两个公开数据集上的4个常用客观指标对比
性能指标 S-measure E-mean F-mean MAE
NJU2K 0.895 0.913 0.866 0.048
NLPR 0.908 0.923 0.863 0.031
图6a为本发明测试集随机挑选的彩色信息图像;图6b为本发明测试集对应的深度信息图像;图6c为对应的利用本发明生成的显著性预测图像;图6d为本发明测试集对应的真实场景标签图像;图7a为本发明测试集随机挑选的彩色信息图像;图7b为本发明测试集对应的深度信息图像;图6c为对应的利用本发明生成的显著性预测图像;图7d为本发明测试集对应的真实场景标签图像;图8a为本发明测试集随机挑选的彩色信息图像;图8b为本发明测试集对应的深度信息图像;图8c为对应的利用本发明生成的显著性预测图像;图8d为本发明测试集对应的真实场景标签图像;图9a为NJU2K测试集本发明的PR(精准-召回)曲线图;图9b为NLPR测试集本发明的PR曲线图。通过本发明生成的最终显著性预测图和真实场景标签图像的对比结合表1可说明,本发明在公开数据集上表现优秀,四个指标数值偏高,根据三对对比图像可以看出本发明生成的显著性预测图接近于真实场景标签图,能适应于各种环境,目标结构识别准确清晰,大目标物体边界清晰明了。

Claims (9)

1.一种基于联合信息编码的立体图像单流视觉显著性检测方法,其特征在于,包括以下步骤:
步骤1:选取N幅原始立体图像的彩色信息图、深度信息图及对应的真实场景标签图作为训练集;
步骤2:构建端到端的单流卷积神经网络,单流卷积神经网络包括输入层、隐藏层和输出层;隐藏层包括五个依次连接的神经网络块、三个自适应卷积块、五个信息融合块、三个反转注意力层、一个多尺度语义提取块和三个二次残差注意力块,输出层主要由五个输出层组成;
步骤3:将步骤1得到的训练集输入到步骤2构建的单流卷积神经网络中进行训练:训练过程中,每次迭代训练处理得到每幅原始立体图像的显著性预测图,计算每幅原始立体图像的显著性预测图与真实场景标签图构成的损失函数值,损失函数值采用采用二分类交叉熵损失函数获得;
步骤4:重复执行步骤3共T次,并共得到N×T个二分类交叉熵损失函数值;然后从N×T个损失函数值中找出最小的损失函数值,将最小的损失函数值对应的权值矢量和偏置项作为单流卷积神经网络的最终权值矢量和最终偏置项,获得训练好的单流卷积神经网络;
步骤5:利用训练好的单流卷积神经网络对待预测立体图像的彩色信息图和深度信息图进行预测处理,输出获得对应的显著性预测图,实现立体图像的视觉显著性检测。
2.根据权利要求1所述的一种基于联合信息编码的立体图像单流视觉显著性检测方法,其特征在于,所述的单流卷积神经网络中:
五个依次连接的神经网络块采用Res2net中的编码部分,第一个神经网络块的输入为输入层的输出;第一个、第二个、第三个、第四个和第五个神经网络块的输出分别输入第一个、第二个、第三个、第四个和第五个信息融合块;
每个反转注意力层包括输入端Ⅰ和输入端Ⅱ两个输入端;第一个反转注意力层输入端Ⅰ的输入为第三个信息融合块的输出,输入端Ⅱ的输入为第四个信息融合块依次经第六十二个卷积层、第一个上采样层的输出;第二个反转注意力层输入端Ⅰ的输入为第一个反转注意力层经第二个上采样层的输出,输入端Ⅱ的输入为第二个信息融合块经第六十三个卷积层的输出;第三个反转注意力层输入端Ⅰ的输入为第一个信息融合块经第六十四个卷积层的输出,输入端Ⅱ的输入为第二个反转注意力层的输出;第一个反转注意力层经第二个上采样层的输出、第二个反转注意力层的输出和第三个反转注意力层的输出进行通道堆叠后输入第一个输出层;
第五个信息融合块依次经多尺度语义提取块、第一个二次残差注意力块、第二个二次残差注意力块和第三个二次残差注意力块输入第三个输入层;
第三个、第四个和第五个神经网络块的输出分别输入第一个、第二个和第三个自适应卷积块,第一个自适应卷积块的输出分别输入特征聚合模块和第三个二次残差注意力块,第二个自适应卷积块的输出分别输入特征聚合模块和第二个二次残差注意力块,第三个自适应卷积块的输出分别输入特征聚合模块和第一个二次残差注意力块;
特征聚合模块经第二个输出层的输出与第三个输出层的输出进行通道叠加后输入第四个输出层;
第一个输出层的输出和第四个输出层的输出进行通道叠加后输入第五个输出层,第五个输出层的输出作为输出层的输出。
3.根据权利要求1所述的一种基于联合信息编码的立体图像单流视觉显著性检测方法,其特征在于,每个输入信息融合块的特征图按批次均分切割为彩色特征图和深度特征图,彩色特征图和深度特征图通过张量相乘得到中间特征图,彩色特征图、深度特征图和中间特征图通过张量相加后得到的特征图作为每个信息融合块的输出。
4.根据权利要求1所述的一种基于联合信息编码的立体图像单流视觉显著性检测方法,其特征在于,每个反转注意力层包括一个S型激活函数层、五个中间块和一个卷积层,输入端Ⅰ输入的特征图经取反操作后输入S型激活函数层输出按通道排列的权重,输入端Ⅱ输入的特征图经第一个注意力块的输出与S型激活函数层输出的权重张量相乘后输入第二个中间块,第二个中间块依次经第三个中间块、第四个中间块、一个卷积层的输出与输入端Ⅰ输入的特征图相加后的输出作为反转注意力层的输出;
每个中间块包括依次连接的一个卷积层和一个激活层。
5.根据权利要求1所述的一种基于联合信息编码的立体图像单流视觉显著性检测方法,其特征在于,
每个二次残差注意力块包括输入端Ⅰ和输入端Ⅱ两个输入端,第一个、第二个和第三个二次残差注意力块输入端Ⅰ的输入分别为第三个、第二个和第一个自适应卷积块的输出,第一个、第二个和第三个二次残差注意力块输入端Ⅱ的输入分别为多尺度语义提取块、第一个二次残差注意力块和第二个二次残差注意力块的输出;
每个二次残差注意力块包括一个全局平均池化层、一个最大归一激活层、一个残差自适应卷积块、四个卷积层和一个上采样层,二次残差注意力块输入端Ⅰ输入的特征图依次经全局平均池化层、最大归一激活层和二次残差注意力块中的第一个卷积层后生成注意力权重,生成的注意力权重与输入端Ⅱ输入的特征图相乘得到注意力特征图,注意力特征图与输入端Ⅰ输入的特征图张量相加后依次经二次残差注意力块中的第二个卷积层、第三个卷积层、第四个卷积层后生成一次残差注意力特征图,输入端Ⅱ输入的特征图经第一个残差自适应卷积层的输出与一次残差注意力特征图相加生成二次残差特征图,二次残差特征图经过上采样层的输出为二次残差注意力块的输出。
6.根据权利要求1所述的一种基于联合信息编码的立体图像单流视觉显著性检测方法,其特征在于,
所述的多尺度语义提取块包括六个卷积层,八个激活层和三个空洞卷积层,多尺度语义提取块的输入依次经第三十五个卷积层、第四十八个激活层、第三十六个卷积层输入第四十九个激活层,第四十九个激活层的输出分别输入第三十七个卷积层、第三十八个卷积层和第三十九个卷积层,第三十七个卷积层的输出依次经第五十个激活层、第一个空洞卷积层输入第五十一个激活层,第三十八个卷积层的输出依次经第五十二个激活层、第二个空洞卷积层输入第五十三个激活层,第三十九个卷积层的输出依次经第五十四个激活层、第三个空洞卷积层输入第五十五个激活层,第五十一个激活层、第五十二个激活层和第五十三个激活层的输出进行通道堆叠操作后经第四十个卷积层输出,第四十个卷积层的输出作为多尺度语义提取块的输入。
7.根据权利要求1所述的一种基于联合信息编码的立体图像单流视觉显著性检测方法,其特征在于,所述特征聚合模块包括三个上采样层、十二个卷积层和八个激活层,特征聚合模块包括输入端Ⅰ、输入端Ⅱ和输入端Ⅲ三个输入端,输入端Ⅰ、输入端Ⅱ和输入端Ⅲ的三个输入分别为第三个、第二个和第一个自适应卷积块的输出;
输入端Ⅰ经第八十个卷积层分别输入第六个上采样层和第七个上采样层,第六个上采样层的第一个输出分支经第八十三个卷积层输入第六十八个激活层,第六个上采样层的第二个输出分支经第八十四个卷积层输入第六十九个激活层,第七个上采样层的输出经第八十五个卷积层输入第七十个激活层;
输入端Ⅱ依次经第八十一个卷积层、第八个上采样层、第八十六个卷积层输入第七十九个激活层;
输入端Ⅲ经第八十二个卷积层的输出与第七十个激活层的输出、第七十一个激活层的输出张量相乘后输入第八十九个卷积层;
第八十一个卷积层的输出与第六十九个激活层的输出进行张量相乘后与第六十八个激活层的输出进行通道叠加,之后输入第八十七个卷积层;第八十七个卷积层的输出依次经第七十二个激活层、第九个上采样层、第八十八个卷积层输入第七十三个激活层;第七十三个激活层的输出与第八十九个卷积层的输出进行通道叠加后输入第九十个卷积层,第九十个卷积层依次经第七十四个激活层、第九十一个卷积层、第七十五个激活层输入第九十二个卷积层,第九十二个卷积层的输出为特征聚合模块的输出。
8.根据权利要求1所述的一种基于联合信息编码的立体图像单流视觉显著性检测方法,其特征在于,所述的自适应卷积块由依次连接的三个卷积层组成。
9.根据权利要求1所述的一种基于联合信息编码的立体图像单流视觉显著性检测方法,其特征在于,所述输入层的输入为立体图像中的彩色信息图和深度信息图,输入层对彩色信息图和深度信息图按批次进行堆叠操作。
CN202011011518.7A 2020-09-23 2020-09-23 基于联合信息编码的立体图像单流视觉显著性检测方法 Pending CN112257509A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011011518.7A CN112257509A (zh) 2020-09-23 2020-09-23 基于联合信息编码的立体图像单流视觉显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011011518.7A CN112257509A (zh) 2020-09-23 2020-09-23 基于联合信息编码的立体图像单流视觉显著性检测方法

Publications (1)

Publication Number Publication Date
CN112257509A true CN112257509A (zh) 2021-01-22

Family

ID=74232087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011011518.7A Pending CN112257509A (zh) 2020-09-23 2020-09-23 基于联合信息编码的立体图像单流视觉显著性检测方法

Country Status (1)

Country Link
CN (1) CN112257509A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898194A (zh) * 2022-06-02 2022-08-12 湖南信控摩尔科技有限公司 一种基于边缘强化的显著性检测方法
CN114937154A (zh) * 2022-06-02 2022-08-23 中南大学 一种基于递归解码器的显著性检测方法
CN116051810A (zh) * 2023-03-30 2023-05-02 武汉纺织大学 一种基于深度学习的智慧服装定位方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619638A (zh) * 2019-08-22 2019-12-27 浙江科技学院 一种基于卷积块注意模块的多模态融合显著性检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619638A (zh) * 2019-08-22 2019-12-27 浙江科技学院 一种基于卷积块注意模块的多模态融合显著性检测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898194A (zh) * 2022-06-02 2022-08-12 湖南信控摩尔科技有限公司 一种基于边缘强化的显著性检测方法
CN114937154A (zh) * 2022-06-02 2022-08-23 中南大学 一种基于递归解码器的显著性检测方法
CN114937154B (zh) * 2022-06-02 2024-04-26 中南大学 一种基于递归解码器的显著性检测方法
CN114898194B (zh) * 2022-06-02 2024-05-10 湖南信控摩尔科技有限公司 一种基于边缘强化的显著性检测方法
CN116051810A (zh) * 2023-03-30 2023-05-02 武汉纺织大学 一种基于深度学习的智慧服装定位方法

Similar Documents

Publication Publication Date Title
CN112257509A (zh) 基于联合信息编码的立体图像单流视觉显著性检测方法
CN110706302B (zh) 一种文本合成图像的***及方法
Vinyals et al. Learning with recursive perceptual representations
CN110782462A (zh) 一种基于双流特征融合的语义分割方法
Xin et al. Arch: Adaptive recurrent-convolutional hybrid networks for long-term action recognition
CN111428602B (zh) 卷积神经网络边缘辅助增强的双目显著性图像检测方法
CN107229757A (zh) 基于深度学习和哈希编码的视频检索方法
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN110782458B (zh) 一种非对称编码网络的物体图像3d语义预测分割方法
CN111709947B (zh) 一种双流沟通和全局信息引导的显著物体图像检测方法
CN112070753A (zh) 多尺度信息增强双目卷积神经网络显著性图像检测方法
CN115035131A (zh) U型自适应est的无人机遥感图像分割方法及***
CN115222998B (zh) 一种图像分类方法
CN112818764A (zh) 一种基于特征重建模型的低分辨率图像人脸表情识别方法
Bibi et al. Digital image forgery detection using deep autoencoder and CNN features
CN112508956A (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN117237559B (zh) 面向数字孪生城市的三维模型数据智能分析方法及***
Naeem et al. T-VLAD: Temporal vector of locally aggregated descriptor for multiview human action recognition
CN111798436A (zh) 基于注意力膨胀卷积特征融合的显著物体检测方法
CN112241743A (zh) 一种显著图再生成三流网络的rgbd图像显著性检测方法
Hien et al. Artwork style transfer model using deep learning approach
CN114170154A (zh) 基于Transformer的遥感VHR图像变化检测方法
CN117351372A (zh) 一种基于改进DeeplabV3+的遥感图像道路分割方法
CN116977822A (zh) 一种融合CNN与Transformer模型的图像识别网络
Levinson et al. Latent feature disentanglement for 3D meshes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination