CN110263813B - 一种基于残差网络和深度信息融合的显著性检测方法 - Google Patents

一种基于残差网络和深度信息融合的显著性检测方法 Download PDF

Info

Publication number
CN110263813B
CN110263813B CN201910444775.0A CN201910444775A CN110263813B CN 110263813 B CN110263813 B CN 110263813B CN 201910444775 A CN201910444775 A CN 201910444775A CN 110263813 B CN110263813 B CN 110263813B
Authority
CN
China
Prior art keywords
layer
output
feature maps
neural network
receives
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910444775.0A
Other languages
English (en)
Other versions
CN110263813A (zh
Inventor
周武杰
吴君委
雷景生
何成
钱亚冠
王海江
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huahao Technology Xi'an Co ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN201910444775.0A priority Critical patent/CN110263813B/zh
Publication of CN110263813A publication Critical patent/CN110263813A/zh
Application granted granted Critical
Publication of CN110263813B publication Critical patent/CN110263813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于残差网络和深度信息融合的显著性检测方法,其在训练阶段构建卷积神经网络,输入层包括RGB图输入层和深度图输入层,隐层包括5个RGB图神经网络块、4个RGB图最大池化层、5个深度图神经网络块、4个深度图最大池化层、5个级联层、5个融合神经网络块、4个反卷积层,输出层包括5个子输出层;将训练集中的彩色真实物体图像和深度图像输入到卷积神经网络中进行训练,得到显著性检测预测图;通过计算显著性检测预测图与真实显著性检测标签图像之间的损失函数值,得到卷积神经网络训练模型;在测试阶段利用卷积神经网络训练模型对待显著性检测的彩色真实物体图像进行预测,得到预测显著性检测图像;优点是显著性检测准确率高。

Description

一种基于残差网络和深度信息融合的显著性检测方法
技术领域
本发明涉及一种视觉显著性检测技术,尤其是涉及一种基于残差网络和深度信息融合的显著性检测方法。
背景技术
视觉显著性可以帮助人类快速地过滤掉不重要的信息,让人们的注意力更加集中在有意义的区域,从而能更好地理解眼前的场景。随着计算机视觉领域的快速发展,人们希望电脑也能拥有和人类相同的能力,即在理解和分析复杂的场景时,电脑可以更加针对性地处理有用的信息,从而能更大的降低算法的复杂度,并且排除杂波的干扰。在传统做法中,研究人员根据观察到的各种先验知识对显著性对象检测算法进行建模,生成显著性图。这些先验知识包括对比度、中心先验、边缘先验、语义先验等。然而,在复杂的场景中,传统做法往往不够准确,这是因为这些观察往往局限于低级别的特征(例如:颜色和对比度等),所以不能准确反映出显著性对象本质的共同点。
近年来,卷积神经网络已广泛运用于计算机视觉的各个领域,许多困难的视觉问题都获得了重大的进展。不同于传统做法,深度卷积神经网络能够从大量的训练样本中建模并自动的端到端(end-to-end)地学习到更为本质的特性,从而有效地避免了传统人工建模和设计特征的弊端。最近,3D传感器的有效应用更加丰富了数据库,人们不但可以获得彩色图片,而且可以获取彩色图片的深度信息。深度信息在现实3D场景中是人眼视觉***中很重要的一环,这是在之前的传统做法中所完全忽略掉的一条重要的信息,因此现在最重要的任务就是如何建立模型从而有效地利用好深度信息。
在RGB-D数据库中采用深度学习的显著性检测方法,直接进行像素级别端到端的显著性检测,只需要将训练集中的图像输入进模型框架中训练,得到权重与模型,即可在测试集进行预测。目前,基于RGB-D数据库的深度学习显著性检测模型主要用的结构为编码-译码架构,在如何利用深度信息的方法上有三种:第一种方法就是直接将深度信息与彩色图信息叠加为一个四维的输入信息或在编码过程中将彩色图信息和深度信息进行相加或者叠加,这类方法称为前融合;第二种方法则是将在编码过程中对应的彩色图信息和深度信息利用跳层(skip connection)的方式相加或者叠加到对应的译码过程中,这类称为后融合;第三种方法则是分别利用彩色图信息和深度信息进行显著性预测,将最后的结果融合。上述第一种方法,由于彩色图信息和深度信息的分布有较大差异,因此直接在编码过程中加入深度信息会在一定程度上添加了噪声。上述第三种方法,分别利用深度信息和彩色图信息进行显著性预测,但是如果深度信息和彩色图信息的预测结果都不准确时,那么最终的融合结果也是相对不够精确的。上述第二种方法不仅避免了在编码阶段直接利用深度信息带来的噪声,而且在网络模型的不断优化中能够充分学习到彩色图信息和深度信息的互补关系。相比于之前的后融合的方案,如RGB-D Saliency Detection by Multi-streamLate Fusion Network(基于多流的后融合RGB-D显著性检测网络模型),以下简称为MLF,MLF分别对彩色图信息和深度信息进行特征提取和下采样操作,并在最高维通过对应位置元素相乘的方法进行融合,在此融合的结果上输出一个尺寸很小的显著性预测图。MLF由于只有下采样操作,因此使得物体的空间细节信息在不断的下采样的操作中变得模糊,而且MLF是在最小的尺寸上进行显著性预测输出,再放大到原始尺寸后会丢失很多的显著物体的信息。
发明内容
本发明所要解决的技术问题是一种基于残差网络和深度信息融合的显著性检测方法,其通过高效地利用深度信息和彩色图信息,从而提升了显著性检测准确率。
本发明解决上述技术问题所采用的技术方案为:一种基于残差网络和深度信息融合的显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的彩色真实物体图像及每幅原始的彩色真实物体图像对应的深度图像和真实显著性检测标签图像,并构成训练集,将训练集中的第q幅原始的彩色真实物体图像及其对应的深度图像和真实显著性检测标签图像对应记为{Iq(i,j)}、{Dq(i,j)}、
Figure BDA0002073263270000031
其中,Q为正整数,Q≥200,q为正整数,q的初始值为1,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}、{Dq(i,j)}、
Figure BDA0002073263270000032
的宽度,H表示{Iq(i,j)}、{Dq(i,j)}、
Figure BDA0002073263270000033
的高度,W和H均能够被2整除,{Iq(i,j)}为RGB彩色图像,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,{Dq(i,j)}为单通道的深度图像,Dq(i,j)表示{Dq(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure BDA0002073263270000034
表示
Figure BDA0002073263270000035
中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建卷积神经网络:该卷积神经网络包含输入层、隐层、输出层,输入层包括RGB图输入层和深度图输入层,隐层包括5个RGB图神经网络块、4个RGB图最大池化层、5个深度图神经网络块、4个深度图最大池化层、5个级联层、5个融合神经网络块、4个反卷积层,输出层包括5个子输出层;其中,5个RGB图神经网络块和4个RGB图最大池化层构成RGB图的编码结构,5个深度图神经网络块和4个深度图最大池化层构成深度图的编码结构,RGB图的编码结构和深度图的编码结构构成卷积神经网络的编码层,5个级联层、5个融合神经网络块和4个反卷积层构成卷积神经网络的译码层;
对于RGB图输入层,其输入端接收一幅训练用RGB彩色图像的R通道分量、G通道分量和B通道分量,其输出端输出训练用RGB彩色图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求训练用RGB彩色图像的宽度为W且高度为H;
对于深度图输入层,其输入端接收RGB图输入层的输入端接收的训练用RGB彩色图像对应的训练用深度图像,其输出端输出训练用深度图像给隐层;其中,训练用深度图像的宽度为W且高度为H;
对于第1个RGB图神经网络块,其输入端接收RGB图输入层的输出端输出的训练用RGB彩色图像的R通道分量、G通道分量和B通道分量,其输出端输出32幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为CP1
对于第1个RGB图最大池化层,其输入端接收CP1中的所有特征图,其输出端输出32幅宽度为
Figure BDA0002073263270000041
且高度为
Figure BDA0002073263270000042
的特征图,将输出的所有特征图构成的集合记为ZC1
对于第2个RGB图神经网络块,其输入端接收ZC1中的所有特征图,其输出端输出64幅宽度为
Figure BDA0002073263270000043
且高度为
Figure BDA0002073263270000044
的特征图,将输出的所有特征图构成的集合记为CP2
对于第2个RGB图最大池化层,其输入端接收CP2中的所有特征图,其输出端输出64幅宽度为
Figure BDA0002073263270000045
且高度为
Figure BDA0002073263270000046
的特征图,将输出的所有特征图构成的集合记为ZC2
对于第3个RGB图神经网络块,其输入端接收ZC2中的所有特征图,其输出端输出128幅宽度为
Figure BDA0002073263270000051
且高度为
Figure BDA0002073263270000052
的特征图,将输出的所有特征图构成的集合记为CP3
对于第3个RGB图最大池化层,其输入端接收CP3中的所有特征图,其输出端输出128幅宽度为
Figure BDA0002073263270000053
且高度为
Figure BDA0002073263270000054
的特征图,将输出的所有特征图构成的集合记为ZC3
对于第4个RGB图神经网络块,其输入端接收ZC3中的所有特征图,其输出端输出256幅宽度为
Figure BDA0002073263270000055
且高度为
Figure BDA0002073263270000056
的特征图,将输出的所有特征图构成的集合记为CP4
对于第4个RGB图最大池化层,其输入端接收CP4中的所有特征图,其输出端输出256幅宽度为
Figure BDA0002073263270000057
且高度为
Figure BDA0002073263270000058
的特征图,将输出的所有特征图构成的集合记为ZC4
对于第5个RGB图神经网络块,其输入端接收ZC4中的所有特征图,其输出端输出256幅宽度为
Figure BDA0002073263270000059
且高度为
Figure BDA00020732632700000510
的特征图,将输出的所有特征图构成的集合记为CP5
对于第1个深度图神经网络块,其输入端接收深度图输入层的输出端输出的训练用深度图像,其输出端输出32幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为DP1
对于第1个深度图最大池化层,其输入端接收DP1中的所有特征图,其输出端输出32幅宽度为
Figure BDA00020732632700000511
且高度为
Figure BDA00020732632700000512
的特征图,将输出的所有特征图构成的集合记为DC1
对于第2个深度图神经网络块,其输入端接收DC1中的所有特征图,其输出端输出64幅宽度为
Figure BDA00020732632700000513
且高度为
Figure BDA00020732632700000514
的特征图,将输出的所有特征图构成的集合记为DP2
对于第2个深度图最大池化层,其输入端接收DP2中的所有特征图,其输出端输出64幅宽度为
Figure BDA0002073263270000061
且高度为
Figure BDA0002073263270000062
的特征图,将输出的所有特征图构成的集合记为DC2
对于第3个深度图神经网络块,其输入端接收DC2中的所有特征图,其输出端输出128幅宽度为
Figure BDA0002073263270000063
且高度为
Figure BDA0002073263270000064
的特征图,将输出的所有特征图构成的集合记为DP3
对于第3个深度图最大池化层,其输入端接收DP3中的所有特征图,其输出端输出128幅宽度为
Figure BDA0002073263270000065
且高度为
Figure BDA0002073263270000066
的特征图,将输出的所有特征图构成的集合记为DC3
对于第4个深度图神经网络块,其输入端接收DC3中的所有特征图,其输出端输出256幅宽度为
Figure BDA0002073263270000067
且高度为
Figure BDA0002073263270000068
的特征图,将输出的所有特征图构成的集合记为DP4
对于第4个深度图最大池化层,其输入端接收DP4中的所有特征图,其输出端输出256幅宽度为
Figure BDA0002073263270000069
且高度为
Figure BDA00020732632700000610
的特征图,将输出的所有特征图构成的集合记为DC4
对于第5个深度图神经网络块,其输入端接收DC4中的所有特征图,其输出端输出256幅宽度为
Figure BDA00020732632700000611
且高度为
Figure BDA00020732632700000612
的特征图,将输出的所有特征图构成的集合记为DP5
对于第1个级联层,其输入端接收CP5中的所有特征图和DP5中的所有特征图,对CP5中的所有特征图和DP5中的所有特征图进行叠加,其输出端输出512幅宽度为
Figure BDA00020732632700000613
且高度为
Figure BDA00020732632700000614
的特征图,将输出的所有特征图构成的集合记为Con1
对于第1个融合神经网络块,其输入端接收Con1中的所有特征图,其输出端输出256幅宽度为
Figure BDA00020732632700000615
且高度为
Figure BDA00020732632700000616
的特征图,将输出的所有特征图构成的集合记为RH1
对于第1个反卷积层,其输入端接收RH1中的所有特征图,其输出端输出256幅宽度为
Figure BDA0002073263270000071
且高度为
Figure BDA0002073263270000072
的特征图,将输出的所有特征图构成的集合记为FJ1
对于第2个级联层,其输入端接收FJ1中的所有特征图、CP4中的所有特征图和DP4中的所有特征图,对FJ1中的所有特征图、CP4中的所有特征图和DP4中的所有特征图进行叠加,其输出端输出768幅宽度为
Figure BDA0002073263270000073
且高度为
Figure BDA0002073263270000074
的特征图,将输出的所有特征图构成的集合记为Con2
对于第2个融合神经网络块,其输入端接收Con2中的所有特征图,其输出端输出256幅宽度为
Figure BDA0002073263270000075
且高度为
Figure BDA0002073263270000076
的特征图,将输出的所有特征图构成的集合记为RH2
对于第2个反卷积层,其输入端接收RH2中的所有特征图,其输出端输出256幅宽度为
Figure BDA0002073263270000077
且高度为
Figure BDA0002073263270000078
的特征图,将输出的所有特征图构成的集合记为FJ2
对于第3个级联层,其输入端接收FJ2中的所有特征图、CP3中的所有特征图和DP3中的所有特征图,对FJ2中的所有特征图、CP3中的所有特征图和DP3中的所有特征图进行叠加,其输出端输出512幅宽度为
Figure BDA0002073263270000079
且高度为
Figure BDA00020732632700000710
的特征图,将输出的所有特征图构成的集合记为Con3
对于第3个融合神经网络块,其输入端接收Con3中的所有特征图,其输出端输出128幅宽度为
Figure BDA00020732632700000711
且高度为
Figure BDA00020732632700000712
的特征图,将输出的所有特征图构成的集合记为RH3
对于第3个反卷积层,其输入端接收RH3中的所有特征图,其输出端输出128幅宽度为
Figure BDA00020732632700000713
且高度为
Figure BDA00020732632700000714
的特征图,将输出的所有特征图构成的集合记为FJ3
对于第4个级联层,其输入端接收FJ3中的所有特征图、CP2中的所有特征图和DP2中的所有特征图,对FJ3中的所有特征图、CP2中的所有特征图和DP2中的所有特征图进行叠加,其输出端输出256幅宽度为
Figure BDA0002073263270000081
且高度为
Figure BDA0002073263270000082
的特征图,将输出的所有特征图构成的集合记为Con4
对于第4个融合神经网络块,其输入端接收Con4中的所有特征图,其输出端输出64幅宽度为
Figure BDA0002073263270000083
且高度为
Figure BDA0002073263270000084
的特征图,将输出的所有特征图构成的集合记为RH4
对于第4个反卷积层,其输入端接收RH4中的所有特征图,其输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为FJ4
对于第5个级联层,其输入端接收FJ4中的所有特征图、CP1中的所有特征图和DP1中的所有特征图,对FJ4中的所有特征图、CP1中的所有特征图和DP1中的所有特征图进行叠加,其输出端输出128幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为Con5
对于第5个融合神经网络块,其输入端接收Con5中的所有特征图,其输出端输出32幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为RH5
对于第1个子输出层,其输入端接收RH1中的所有特征图,其输出端输出2幅宽度为
Figure BDA0002073263270000085
且高度为
Figure BDA0002073263270000086
的特征图,将输出的所有特征图构成的集合记为Out1,Out1中的其中一幅特征图为显著性检测预测图;
对于第2个子输出层,其输入端接收RH2中的所有特征图,其输出端输出2幅宽度为
Figure BDA0002073263270000087
且高度为
Figure BDA0002073263270000088
的特征图,将输出的所有特征图构成的集合记为Out2,Out2中的其中一幅特征图为显著性检测预测图;
对于第3个子输出层,其输入端接收RH3中的所有特征图,其输出端输出2幅宽度为
Figure BDA0002073263270000091
且高度为
Figure BDA0002073263270000092
的特征图,将输出的所有特征图构成的集合记为Out3,Out3中的其中一幅特征图为显著性检测预测图;
对于第4个子输出层,其输入端接收RH4中的所有特征图,其输出端输出2幅宽度为
Figure BDA0002073263270000093
且高度为
Figure BDA0002073263270000094
的特征图,将输出的所有特征图构成的集合记为Out4,Out4中的其中一幅特征图为显著性检测预测图;
对于第5个子输出层,其输入端接收RH5中的所有特征图,其输出端输出2幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为Out5,Out5中的其中一幅特征图为显著性检测预测图;
步骤1_3:将训练集中的每幅原始的彩色真实物体图像作为训练用RGB彩色图像,将训练集中的每幅原始的彩色真实物体图像对应的深度图像作为训练用深度图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的彩色真实物体图像对应的5幅显著性检测预测图,将{Iq(i,j)}对应的5幅显著性检测预测图构成的集合记为
Figure BDA0002073263270000095
步骤1_4:对训练集中的每幅原始的彩色真实物体图像对应的真实显著性检测标签图像进行5种不同尺寸大小的缩放处理,得到宽度为
Figure BDA0002073263270000096
且高度为
Figure BDA0002073263270000097
的图像、宽度为
Figure BDA0002073263270000098
且高度为
Figure BDA0002073263270000099
的图像、宽度为
Figure BDA00020732632700000910
且高度为
Figure BDA00020732632700000911
的图像、宽度为
Figure BDA00020732632700000912
且高度为
Figure BDA00020732632700000913
的图像、宽度为W且高度为H的图像,将{Iq(i,j)}对应的真实显著性检测图像经缩放处理后得到的5幅图像构成的集合记为
Figure BDA00020732632700000914
步骤1_5:计算训练集中的每幅原始的彩色真实物体图像对应的5幅显著性检测预测图构成的集合与该原始的彩色真实物体图像对应的真实显著性检测图像经缩放处理后得到的5幅图像构成的集合之间的损失函数值,将
Figure BDA0002073263270000101
Figure BDA0002073263270000102
之间的损失函数值记为
Figure BDA0002073263270000103
采用分类交叉熵获得;
步骤1_6:重复执行步骤1_3至步骤1_5共V次,得到卷积神经网络训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure BDA0002073263270000104
表示待显著性检测的彩色真实物体图像,将
Figure BDA0002073263270000105
对应的深度图像记为
Figure BDA0002073263270000106
其中,1≤i'≤W',1≤j'≤H',W'表示
Figure BDA0002073263270000107
Figure BDA0002073263270000108
的宽度,H'表示
Figure BDA0002073263270000109
Figure BDA00020732632700001010
的高度,
Figure BDA00020732632700001011
表示
Figure BDA00020732632700001012
中坐标位置为(i',j')的像素点的像素值,
Figure BDA00020732632700001013
表示
Figure BDA00020732632700001014
中坐标位置为(i',j')的像素点的像素值;
步骤2_2:将
Figure BDA00020732632700001015
的R通道分量、G通道分量和B通道分量以及
Figure BDA00020732632700001016
输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到
Figure BDA00020732632700001017
对应的5幅不同尺寸大小的预测显著性检测图像,将尺寸大小与
Figure BDA00020732632700001018
的尺寸大小一致的预测显著性检测图像作为
Figure BDA00020732632700001019
对应的最终预测显著性检测图像,并记为
Figure BDA00020732632700001020
其中,
Figure BDA00020732632700001021
表示
Figure BDA00020732632700001022
中坐标位置为(i',j')的像素点的像素值。
所述的步骤1_2中,第1个RGB图神经网络块和第1个深度图神经网络块的结构相同,其由依次设置的第一卷积层、第一批标准化层、第一激活层、第一残差块、第二卷积层、第二批标准化层、第二激活层组成,第一卷积层的输入端为其所在的神经网络块的输入端,第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图,第一残差块的输入端接收第一激活层的输出端输出的所有特征图,第二卷积层的输入端接收第一残差块的输出端输出的所有特征图,第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图,第二激活层的输出端为其所在的神经网络块的输出端;其中,第一卷积层和第二卷积层的卷积核大小均为3×3、卷积核个数均为32、补零参数均为1,第一激活层和第二激活层的激活方式均为“Relu”,第一批标准化层、第二批标准化层、第一激活层、第二激活层和第一残差块各自的输出端输出32幅特征图;
第2个RGB图神经网络块和第2个深度图神经网络块的结构相同,其由依次设置的第三卷积层、第三批标准化层、第三激活层、第二残差块、第四卷积层、第四批标准化层、第四激活层组成,第三卷积层的输入端为其所在的神经网络块的输入端,第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图,第三激活层的输入端接收第三批标准化层的输出端输出的所有特征图,第二残差块的输入端接收第三激活层的输出端输出的所有特征图,第四卷积层的输入端接收第二残差块的输出端输出的所有特征图,第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图,第四激活层的输入端接收第四批标准化层的输出端输出的所有特征图,第四激活层的输出端为其所在的神经网络块的输出端;其中,第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为1,第三激活层和第四激活层的激活方式均为“Relu”,第三批标准化层、第四批标准化层、第三激活层、第四激活层和第二残差块各自的输出端输出64幅特征图;
第3个RGB图神经网络块和第3个深度图神经网络块的结构相同,其由依次设置的第五卷积层、第五批标准化层、第五激活层、第三残差块、第六卷积层、第六批标准化层、第六激活层组成,第五卷积层的输入端为其所在的神经网络块的输入端,第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图,第五激活层的输入端接收第五批标准化层的输出端输出的所有特征图,第三残差块的输入端接收第五激活层的输出端输出的所有特征图,第六卷积层的输入端接收第三残差块的输出端输出的所有特征图,第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图,第六激活层的输入端接收第六批标准化层的输出端输出的所有特征图,第六激活层的输出端为其所在的神经网络块的输出端;其中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为1,第五激活层和第六激活层的激活方式均为“Relu”,第五批标准化层、第六批标准化层、第五激活层、第六激活层和第三残差块各自的输出端输出128幅特征图;
第4个RGB图神经网络块和第4个深度图神经网络块的结构相同,其由依次设置的第七卷积层、第七批标准化层、第七激活层、第四残差块、第八卷积层、第八批标准化层、第八激活层组成,第七卷积层的输入端为其所在的神经网络块的输入端,第七批标准化层的输入端接收第七卷积层的输出端输出的所有特征图,第七激活层的输入端接收第七批标准化层的输出端输出的所有特征图,第四残差块的输入端接收第七激活层的输出端输出的所有特征图,第八卷积层的输入端接收第四残差块的输出端输出的所有特征图,第八批标准化层的输入端接收第八卷积层的输出端输出的所有特征图,第八激活层的输入端接收第八批标准化层的输出端输出的所有特征图,第八激活层的输出端为其所在的神经网络块的输出端;其中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为1,第七激活层和第八激活层的激活方式均为“Relu”,第七批标准化层、第八批标准化层、第七激活层、第八激活层和第四残差块各自的输出端输出256幅特征图;
第5个RGB图神经网络块和第5个深度图神经网络块的结构相同,其由依次设置的第九卷积层、第九批标准化层、第九激活层、第五残差块、第十卷积层、第十批标准化层、第十激活层组成,第九卷积层的输入端为其所在的神经网络块的输入端,第九批标准化层的输入端接收第九卷积层的输出端输出的所有特征图,第九激活层的输入端接收第九批标准化层的输出端输出的所有特征图,第五残差块的输入端接收第九激活层的输出端输出的所有特征图,第十卷积层的输入端接收第五残差块的输出端输出的所有特征图,第十批标准化层的输入端接收第十卷积层的输出端输出的所有特征图,第十激活层的输入端接收第十批标准化层的输出端输出的所有特征图,第十激活层的输出端为其所在的神经网络块的输出端;其中,第九卷积层和第十卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为1,第九激活层和第十激活层的激活方式均为“Relu”,第九批标准化层、第十批标准化层、第九激活层、第十激活层和第五残差块各自的输出端输出256幅特征图。
所述的步骤1_2中,4个RGB图最大池化层和4个深度图最大池化层均为最大池化层,4个RGB图最大池化层和4个深度图最大池化层的池化尺寸均为2、步长均为2。
所述的步骤1_2中,5个融合神经网络块的结构相同,其由依次设置的第十一卷积层、第十一批标准化层、第十一激活层、第六残差块、第十二卷积层、第十二批标准化层、第十二激活层组成,第十一卷积层的输入端为其所在的融合神经网络块的输入端,第十一批标准化层的输入端接收第十一卷积层的输出端输出的所有特征图,第十一激活层的输入端接收第十一批标准化层的输出端输出的所有特征图,第六残差块的输入端接收第十一激活层的输出端输出的所有特征图,第十二卷积层的输入端接收第六残差块的输出端输出的所有特征图,第十二批标准化层的输入端接收第十二卷积层的输出端输出的所有特征图,第十二激活层的输入端接收第十二批标准化层的输出端输出的所有特征图,第十二激活层的输出端为其所在的神经网络块的输出端;其中,第1个和第2个融合神经网络块中的第十一卷积层和第十二卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为1,第1个和第2个融合神经网络块中的第十一激活层和第十二激活层的激活方式均为“Relu”,第1个和第2个融合神经网络块中的第十一批标准化层、第十二批标准化层、第十一激活层、第十二激活层和第六残差块各自的输出端输出256幅特征图,第3个融合神经网络块中的第十一卷积层和第十二卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为1,第3个融合神经网络块中的第十一激活层和第十二激活层的激活方式均为“Relu”,第3个融合神经网络块中的第十一批标准化层、第十二批标准化层、第十一激活层、第十二激活层和第六残差块各自的输出端输出128幅特征图,第4个融合神经网络块中的第十一卷积层和第十二卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为1,第4个融合神经网络块中的第十一激活层和第十二激活层的激活方式均为“Relu”,第4个融合神经网络块中的第十一批标准化层、第十二批标准化层、第十一激活层、第十二激活层和第六残差块各自的输出端输出64幅特征图,第5个融合神经网络块中的第十一卷积层和第十二卷积层的卷积核大小均为3×3、卷积核个数均为32、补零参数均为1,第5个融合神经网络块中的第十一激活层和第十二激活层的激活方式均为“Relu”,第5个融合神经网络块中的第十一批标准化层、第十二批标准化层、第十一激活层、第十二激活层和第六残差块各自的输出端输出32幅特征图。
所述的步骤1_2中,第1个和第2个反卷积层的卷积核大小均为2×2、卷积核个数均为256、步长均为2、补零参数均为0,第3个反卷积层的卷积核大小为2×2、卷积核个数为128、步长为2、补零参数为0,第4个反卷积层的卷积核大小为2×2、卷积核个数为64、步长为2、补零参数为0。
所述的步骤1_2中,5个子输出层的结构相同,其由第十三卷积层组成;其中,第十三卷积层的卷积核大小为1×1、卷积核个数为2、补零参数为0。
与现有技术相比,本发明的优点在于:
1)本发明方法构建的卷积神经网络,实现了端到端的显著性物体检测,易于训练,方便快捷;使用训练集中的彩色真实物体图像和对应的深度图像输入到卷积神经网络中进行训练,得到卷积神经网络训练模型;再将待显著性检测的彩色真实物体图像和对应的深度图像输入到卷积神经网络训练模型中,预测得到彩色真实物体图像对应的预测显著性检测图像,由于本发明方法在构建卷积神经网络时结合了残差块和反卷积层的特点,因此能够在加深卷积神经网络训练模型的同时,并提升了卷积神经网络训练模型的预测准确率。
2)本发明方法在利用深度信息的时候采用后融合的方式,将在编码层对应的深度信息和彩色图信息与对应译码层进行级联(concatenation),避免了前融合在编码阶段加入噪声信息,同时在卷积神经网络训练模型训练的时候能够充分地学习到彩色图信息和深度信息的互补信息,进而在训练集与测试集上都能得到较好效果。
3)本发明采用了多尺度监督(multi-scale Supervision),即通过反卷积层使得物体的空间细节信息能够在上采样的过程中得到优化,并在不同的尺寸输出预测图,并用相对应尺寸的标签图进行监督,能够指导卷积神经网络训练模型逐步地构建显著性检测预测图,从而使得在训练集和测试集上得到了更好的效果。
附图说明
图1为本发明方法构建的卷积神经网络的组成结构示意图;
图2a为利用本发明方法对真实物体图像数据库NLPR测试集中的每幅彩色真实物体图像进行预测,反映本发明方法的显著性检测效果的类准确率召回率曲线;
图2b为利用本发明方法对真实物体图像数据库NLPR测试集中的每幅彩色真实物体图像进行预测,反映本发明方法的显著性检测效果的平均绝对误差;
图2c为利用本发明方法对真实物体图像数据库NLPR测试集中的每幅彩色真实物体图像进行预测,反映本发明方法的显著性检测效果的F度量值;
图3a为同一场景的第1幅原始的彩色真实物体图像;
图3b为图3a对应的深度图像;
图3c为利用本发明方法对图3a进行预测得到的预测显著性检测图像;
图4a为同一场景的第2幅原始的彩色真实物体图像;
图4b为图4a对应的深度图像;
图4c为利用本发明方法对图4a进行预测得到的预测显著性检测图像;
图5a为同一场景的第3幅原始的彩色真实物体图像;
图5b为图5a对应的深度图像;
图5c为利用本发明方法对图5a进行预测得到的预测显著性检测图像;
图6a为同一场景的第4幅原始的彩色真实物体图像;
图6b为图6a对应的深度图像;
图6c为利用本发明方法对图6a进行预测得到的预测显著性检测图像。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于残差网络和深度信息融合的显著性检测方法,其包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的彩色真实物体图像及每幅原始的彩色真实物体图像对应的深度图像和真实显著性检测标签图像,并构成训练集,将训练集中的第q幅原始的彩色真实物体图像及其对应的深度图像和真实显著性检测标签图像对应记为{Iq(i,j)}、{Dq(i,j)}、
Figure BDA0002073263270000171
其中,Q为正整数,Q≥200,如取Q=367,q为正整数,q的初始值为1,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}、{Dq(i,j)}、
Figure BDA0002073263270000172
的宽度,H表示{Iq(i,j)}、{Dq(i,j)}、
Figure BDA0002073263270000173
的高度,W和H均能够被2整除,如取W=512、H=512,{Iq(i,j)}为RGB彩色图像,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,{Dq(i,j)}为单通道的深度图像,Dq(i,j)表示{Dq(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure BDA0002073263270000174
表示
Figure BDA0002073263270000175
中坐标位置为(i,j)的像素点的像素值;在此,原始的彩色真实物体图像直接选用数据库NLPR训练集中的800幅图像。
步骤1_2:构建卷积神经网络:如图1所示,该卷积神经网络包含输入层、隐层、输出层,输入层包括RGB图输入层和深度图输入层,隐层包括5个RGB图神经网络块、4个RGB图最大池化层(Maxpooling,Pool)、5个深度图神经网络块、4个深度图最大池化层、5个级联层、5个融合神经网络块、4个反卷积层,输出层包括5个子输出层;其中,5个RGB图神经网络块和4个RGB图最大池化层构成RGB图的编码结构,5个深度图神经网络块和4个深度图最大池化层构成深度图的编码结构,RGB图的编码结构和深度图的编码结构构成卷积神经网络的编码层,5个级联层、5个融合神经网络块和4个反卷积层构成卷积神经网络的译码层。
对于RGB图输入层,其输入端接收一幅训练用RGB彩色图像的R通道分量、G通道分量和B通道分量,其输出端输出训练用RGB彩色图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求训练用RGB彩色图像的宽度为W且高度为H。
对于深度图输入层,其输入端接收RGB图输入层的输入端接收的训练用RGB彩色图像对应的训练用深度图像,其输出端输出训练用深度图像给隐层;其中,训练用深度图像的宽度为W且高度为H。
对于第1个RGB图神经网络块,其输入端接收RGB图输入层的输出端输出的训练用RGB彩色图像的R通道分量、G通道分量和B通道分量,其输出端输出32幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为CP1
对于第1个RGB图最大池化层,其输入端接收CP1中的所有特征图,其输出端输出32幅宽度为
Figure BDA0002073263270000181
且高度为
Figure BDA0002073263270000182
的特征图,将输出的所有特征图构成的集合记为ZC1
对于第2个RGB图神经网络块,其输入端接收ZC1中的所有特征图,其输出端输出64幅宽度为
Figure BDA0002073263270000183
且高度为
Figure BDA0002073263270000184
的特征图,将输出的所有特征图构成的集合记为CP2
对于第2个RGB图最大池化层,其输入端接收CP2中的所有特征图,其输出端输出64幅宽度为
Figure BDA0002073263270000191
且高度为
Figure BDA0002073263270000192
的特征图,将输出的所有特征图构成的集合记为ZC2
对于第3个RGB图神经网络块,其输入端接收ZC2中的所有特征图,其输出端输出128幅宽度为
Figure BDA0002073263270000193
且高度为
Figure BDA0002073263270000194
的特征图,将输出的所有特征图构成的集合记为CP3
对于第3个RGB图最大池化层,其输入端接收CP3中的所有特征图,其输出端输出128幅宽度为
Figure BDA0002073263270000195
且高度为
Figure BDA0002073263270000196
的特征图,将输出的所有特征图构成的集合记为ZC3
对于第4个RGB图神经网络块,其输入端接收ZC3中的所有特征图,其输出端输出256幅宽度为
Figure BDA0002073263270000197
且高度为
Figure BDA0002073263270000198
的特征图,将输出的所有特征图构成的集合记为CP4
对于第4个RGB图最大池化层,其输入端接收CP4中的所有特征图,其输出端输出256幅宽度为
Figure BDA0002073263270000199
且高度为
Figure BDA00020732632700001910
的特征图,将输出的所有特征图构成的集合记为ZC4
对于第5个RGB图神经网络块,其输入端接收ZC4中的所有特征图,其输出端输出256幅宽度为
Figure BDA00020732632700001911
且高度为
Figure BDA00020732632700001912
的特征图,将输出的所有特征图构成的集合记为CP5
对于第1个深度图神经网络块,其输入端接收深度图输入层的输出端输出的训练用深度图像,其输出端输出32幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为DP1
对于第1个深度图最大池化层,其输入端接收DP1中的所有特征图,其输出端输出32幅宽度为
Figure BDA00020732632700001913
且高度为
Figure BDA00020732632700001914
的特征图,将输出的所有特征图构成的集合记为DC1
对于第2个深度图神经网络块,其输入端接收DC1中的所有特征图,其输出端输出64幅宽度为
Figure BDA0002073263270000201
且高度为
Figure BDA0002073263270000202
的特征图,将输出的所有特征图构成的集合记为DP2
对于第2个深度图最大池化层,其输入端接收DP2中的所有特征图,其输出端输出64幅宽度为
Figure BDA0002073263270000203
且高度为
Figure BDA0002073263270000204
的特征图,将输出的所有特征图构成的集合记为DC2
对于第3个深度图神经网络块,其输入端接收DC2中的所有特征图,其输出端输出128幅宽度为
Figure BDA0002073263270000205
且高度为
Figure BDA0002073263270000206
的特征图,将输出的所有特征图构成的集合记为DP3
对于第3个深度图最大池化层,其输入端接收DP3中的所有特征图,其输出端输出128幅宽度为
Figure BDA0002073263270000207
且高度为
Figure BDA0002073263270000208
的特征图,将输出的所有特征图构成的集合记为DC3
对于第4个深度图神经网络块,其输入端接收DC3中的所有特征图,其输出端输出256幅宽度为
Figure BDA0002073263270000209
且高度为
Figure BDA00020732632700002010
的特征图,将输出的所有特征图构成的集合记为DP4
对于第4个深度图最大池化层,其输入端接收DP4中的所有特征图,其输出端输出256幅宽度为
Figure BDA00020732632700002011
且高度为
Figure BDA00020732632700002012
的特征图,将输出的所有特征图构成的集合记为DC4
对于第5个深度图神经网络块,其输入端接收DC4中的所有特征图,其输出端输出256幅宽度为
Figure BDA00020732632700002013
且高度为
Figure BDA00020732632700002014
的特征图,将输出的所有特征图构成的集合记为DP5
对于第1个级联(concatenation)层,其输入端接收CP5中的所有特征图和DP5中的所有特征图,对CP5中的所有特征图和DP5中的所有特征图进行叠加,其输出端输出512幅宽度为
Figure BDA00020732632700002015
且高度为
Figure BDA00020732632700002016
的特征图,将输出的所有特征图构成的集合记为Con1
对于第1个融合神经网络块,其输入端接收Con1中的所有特征图,其输出端输出256幅宽度为
Figure BDA0002073263270000211
且高度为
Figure BDA0002073263270000212
的特征图,将输出的所有特征图构成的集合记为RH1
对于第1个反卷积层,其输入端接收RH1中的所有特征图,其输出端输出256幅宽度为
Figure BDA0002073263270000213
且高度为
Figure BDA0002073263270000214
的特征图,将输出的所有特征图构成的集合记为FJ1
对于第2个级联层,其输入端接收FJ1中的所有特征图、CP4中的所有特征图和DP4中的所有特征图,对FJ1中的所有特征图、CP4中的所有特征图和DP4中的所有特征图进行叠加,其输出端输出768幅宽度为
Figure BDA0002073263270000215
且高度为
Figure BDA0002073263270000216
的特征图,将输出的所有特征图构成的集合记为Con2
对于第2个融合神经网络块,其输入端接收Con2中的所有特征图,其输出端输出256幅宽度为
Figure BDA0002073263270000217
且高度为
Figure BDA0002073263270000218
的特征图,将输出的所有特征图构成的集合记为RH2
对于第2个反卷积层,其输入端接收RH2中的所有特征图,其输出端输出256幅宽度为
Figure BDA0002073263270000219
且高度为
Figure BDA00020732632700002110
的特征图,将输出的所有特征图构成的集合记为FJ2
对于第3个级联层,其输入端接收FJ2中的所有特征图、CP3中的所有特征图和DP3中的所有特征图,对FJ2中的所有特征图、CP3中的所有特征图和DP3中的所有特征图进行叠加,其输出端输出512幅宽度为
Figure BDA00020732632700002111
且高度为
Figure BDA00020732632700002112
的特征图,将输出的所有特征图构成的集合记为Con3
对于第3个融合神经网络块,其输入端接收Con3中的所有特征图,其输出端输出128幅宽度为
Figure BDA00020732632700002113
且高度为
Figure BDA00020732632700002114
的特征图,将输出的所有特征图构成的集合记为RH3
对于第3个反卷积层,其输入端接收RH3中的所有特征图,其输出端输出128幅宽度为
Figure BDA0002073263270000221
且高度为
Figure BDA0002073263270000222
的特征图,将输出的所有特征图构成的集合记为FJ3
对于第4个级联层,其输入端接收FJ3中的所有特征图、CP2中的所有特征图和DP2中的所有特征图,对FJ3中的所有特征图、CP2中的所有特征图和DP2中的所有特征图进行叠加,其输出端输出256幅宽度为
Figure BDA0002073263270000223
且高度为
Figure BDA0002073263270000224
的特征图,将输出的所有特征图构成的集合记为Con4
对于第4个融合神经网络块,其输入端接收Con4中的所有特征图,其输出端输出64幅宽度为
Figure BDA0002073263270000225
且高度为
Figure BDA0002073263270000226
的特征图,将输出的所有特征图构成的集合记为RH4
对于第4个反卷积层,其输入端接收RH4中的所有特征图,其输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为FJ4
对于第5个级联层,其输入端接收FJ4中的所有特征图、CP1中的所有特征图和DP1中的所有特征图,对FJ4中的所有特征图、CP1中的所有特征图和DP1中的所有特征图进行叠加,其输出端输出128幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为Con5
对于第5个融合神经网络块,其输入端接收Con5中的所有特征图,其输出端输出32幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为RH5
对于第1个子输出层,其输入端接收RH1中的所有特征图,其输出端输出2幅宽度为
Figure BDA0002073263270000227
且高度为
Figure BDA0002073263270000228
的特征图,将输出的所有特征图构成的集合记为Out1,Out1中的其中一幅特征图(第2幅特征图)为显著性检测预测图。
对于第2个子输出层,其输入端接收RH2中的所有特征图,其输出端输出2幅宽度为
Figure BDA0002073263270000231
且高度为
Figure BDA0002073263270000232
的特征图,将输出的所有特征图构成的集合记为Out2,Out2中的其中一幅特征图(第2幅特征图)为显著性检测预测图。
对于第3个子输出层,其输入端接收RH3中的所有特征图,其输出端输出2幅宽度为
Figure BDA0002073263270000233
且高度为
Figure BDA0002073263270000234
的特征图,将输出的所有特征图构成的集合记为Out3,Out3中的其中一幅特征图(第2幅特征图)为显著性检测预测图。
对于第4个子输出层,其输入端接收RH4中的所有特征图,其输出端输出2幅宽度为
Figure BDA0002073263270000235
且高度为
Figure BDA0002073263270000236
的特征图,将输出的所有特征图构成的集合记为Out4,Out4中的其中一幅特征图(第2幅特征图)为显著性检测预测图。
对于第5个子输出层,其输入端接收RH5中的所有特征图,其输出端输出2幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为Out5,Out5中的其中一幅特征图(第2幅特征图)为显著性检测预测图。
步骤1_3:将训练集中的每幅原始的彩色真实物体图像作为训练用RGB彩色图像,将训练集中的每幅原始的彩色真实物体图像对应的深度图像作为训练用深度图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的彩色真实物体图像对应的5幅显著性检测预测图,将{Iq(i,j)}对应的5幅显著性检测预测图构成的集合记为
Figure BDA0002073263270000237
步骤1_4:对训练集中的每幅原始的彩色真实物体图像对应的真实显著性检测标签图像进行5种不同尺寸大小的缩放处理,得到宽度为
Figure BDA0002073263270000238
且高度为
Figure BDA0002073263270000239
的图像、宽度为
Figure BDA00020732632700002310
且高度为
Figure BDA00020732632700002311
的图像、宽度为
Figure BDA00020732632700002312
且高度为
Figure BDA00020732632700002313
的图像、宽度为
Figure BDA00020732632700002314
且高度为
Figure BDA00020732632700002315
的图像、宽度为W且高度为H的图像,将{Iq(i,j)}对应的真实显著性检测图像经缩放处理后得到的5幅图像构成的集合记为
Figure BDA0002073263270000241
步骤1_5:计算训练集中的每幅原始的彩色真实物体图像对应的5幅显著性检测预测图构成的集合与该原始的彩色真实物体图像对应的真实显著性检测图像经缩放处理后得到的5幅图像构成的集合之间的损失函数值,将
Figure BDA0002073263270000242
Figure BDA0002073263270000243
之间的损失函数值记为
Figure BDA0002073263270000244
采用分类交叉熵(categorical crossentropy)获得。
步骤1_6:重复执行步骤1_3至步骤1_5共V次,得到卷积神经网络训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=300。
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure BDA0002073263270000245
表示待显著性检测的彩色真实物体图像,将
Figure BDA0002073263270000246
对应的深度图像记为
Figure BDA0002073263270000247
其中,1≤i'≤W',1≤j'≤H',W'表示
Figure BDA0002073263270000248
Figure BDA0002073263270000249
的宽度,H'表示
Figure BDA00020732632700002410
Figure BDA00020732632700002411
的高度,
Figure BDA00020732632700002412
表示
Figure BDA00020732632700002413
中坐标位置为(i',j')的像素点的像素值,
Figure BDA00020732632700002414
表示
Figure BDA00020732632700002415
中坐标位置为(i',j')的像素点的像素值。
步骤2_2:将
Figure BDA00020732632700002416
的R通道分量、G通道分量和B通道分量以及
Figure BDA00020732632700002417
输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到
Figure BDA00020732632700002418
对应的5幅不同尺寸大小的预测显著性检测图像,将尺寸大小与
Figure BDA00020732632700002419
的尺寸大小一致的预测显著性检测图像作为
Figure BDA00020732632700002420
对应的最终预测显著性检测图像,并记为
Figure BDA00020732632700002421
其中,
Figure BDA00020732632700002422
表示
Figure BDA00020732632700002423
中坐标位置为(i',j')的像素点的像素值。
在此具体实施例中,步骤1_2中,第1个RGB图神经网络块和第1个深度图神经网络块的结构相同,其由依次设置的第一卷积层(Convolution,Conv)、第一批标准化层(BatchNormalize,BN)、第一激活层(Activation,Act)、第一残差块(Residual Block,RB)、第二卷积层、第二批标准化层、第二激活层组成,第一卷积层的输入端为其所在的神经网络块的输入端,第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图,第一残差块的输入端接收第一激活层的输出端输出的所有特征图,第二卷积层的输入端接收第一残差块的输出端输出的所有特征图,第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图,第二激活层的输出端为其所在的神经网络块的输出端;其中,第一卷积层和第二卷积层的卷积核大小(kernel_size)均为3×3、卷积核个数(filters)均为32、补零参数(padding)均为1,第一激活层和第二激活层的激活方式均为“Relu”,第一批标准化层、第二批标准化层、第一激活层、第二激活层和第一残差块各自的输出端输出32幅特征图。
在此具体实施例中,第2个RGB图神经网络块和第2个深度图神经网络块的结构相同,其由依次设置的第三卷积层、第三批标准化层、第三激活层、第二残差块、第四卷积层、第四批标准化层、第四激活层组成,第三卷积层的输入端为其所在的神经网络块的输入端,第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图,第三激活层的输入端接收第三批标准化层的输出端输出的所有特征图,第二残差块的输入端接收第三激活层的输出端输出的所有特征图,第四卷积层的输入端接收第二残差块的输出端输出的所有特征图,第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图,第四激活层的输入端接收第四批标准化层的输出端输出的所有特征图,第四激活层的输出端为其所在的神经网络块的输出端;其中,第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为1,第三激活层和第四激活层的激活方式均为“Relu”,第三批标准化层、第四批标准化层、第三激活层、第四激活层和第二残差块各自的输出端输出64幅特征图。
在此具体实施例中,第3个RGB图神经网络块和第3个深度图神经网络块的结构相同,其由依次设置的第五卷积层、第五批标准化层、第五激活层、第三残差块、第六卷积层、第六批标准化层、第六激活层组成,第五卷积层的输入端为其所在的神经网络块的输入端,第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图,第五激活层的输入端接收第五批标准化层的输出端输出的所有特征图,第三残差块的输入端接收第五激活层的输出端输出的所有特征图,第六卷积层的输入端接收第三残差块的输出端输出的所有特征图,第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图,第六激活层的输入端接收第六批标准化层的输出端输出的所有特征图,第六激活层的输出端为其所在的神经网络块的输出端;其中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为1,第五激活层和第六激活层的激活方式均为“Relu”,第五批标准化层、第六批标准化层、第五激活层、第六激活层和第三残差块各自的输出端输出128幅特征图。
在此具体实施例中,第4个RGB图神经网络块和第4个深度图神经网络块的结构相同,其由依次设置的第七卷积层、第七批标准化层、第七激活层、第四残差块、第八卷积层、第八批标准化层、第八激活层组成,第七卷积层的输入端为其所在的神经网络块的输入端,第七批标准化层的输入端接收第七卷积层的输出端输出的所有特征图,第七激活层的输入端接收第七批标准化层的输出端输出的所有特征图,第四残差块的输入端接收第七激活层的输出端输出的所有特征图,第八卷积层的输入端接收第四残差块的输出端输出的所有特征图,第八批标准化层的输入端接收第八卷积层的输出端输出的所有特征图,第八激活层的输入端接收第八批标准化层的输出端输出的所有特征图,第八激活层的输出端为其所在的神经网络块的输出端;其中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为1,第七激活层和第八激活层的激活方式均为“Relu”,第七批标准化层、第八批标准化层、第七激活层、第八激活层和第四残差块各自的输出端输出256幅特征图。
在此具体实施例中,第5个RGB图神经网络块和第5个深度图神经网络块的结构相同,其由依次设置的第九卷积层、第九批标准化层、第九激活层、第五残差块、第十卷积层、第十批标准化层、第十激活层组成,第九卷积层的输入端为其所在的神经网络块的输入端,第九批标准化层的输入端接收第九卷积层的输出端输出的所有特征图,第九激活层的输入端接收第九批标准化层的输出端输出的所有特征图,第五残差块的输入端接收第九激活层的输出端输出的所有特征图,第十卷积层的输入端接收第五残差块的输出端输出的所有特征图,第十批标准化层的输入端接收第十卷积层的输出端输出的所有特征图,第十激活层的输入端接收第十批标准化层的输出端输出的所有特征图,第十激活层的输出端为其所在的神经网络块的输出端;其中,第九卷积层和第十卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为1,第九激活层和第十激活层的激活方式均为“Relu”,第九批标准化层、第十批标准化层、第九激活层、第十激活层和第五残差块各自的输出端输出256幅特征图。
在此具体实施例中,步骤1_2中,4个RGB图最大池化层和4个深度图最大池化层均为最大池化层,4个RGB图最大池化层和4个深度图最大池化层的池化尺寸(pool_size)均为2、步长(stride)均为2。
在此具体实施例中,步骤1_2中,5个融合神经网络块的结构相同,其由依次设置的第十一卷积层、第十一批标准化层、第十一激活层、第六残差块、第十二卷积层、第十二批标准化层、第十二激活层组成,第十一卷积层的输入端为其所在的融合神经网络块的输入端,第十一批标准化层的输入端接收第十一卷积层的输出端输出的所有特征图,第十一激活层的输入端接收第十一批标准化层的输出端输出的所有特征图,第六残差块的输入端接收第十一激活层的输出端输出的所有特征图,第十二卷积层的输入端接收第六残差块的输出端输出的所有特征图,第十二批标准化层的输入端接收第十二卷积层的输出端输出的所有特征图,第十二激活层的输入端接收第十二批标准化层的输出端输出的所有特征图,第十二激活层的输出端为其所在的神经网络块的输出端;其中,第1个和第2个融合神经网络块中的第十一卷积层和第十二卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为1,第1个和第2个融合神经网络块中的第十一激活层和第十二激活层的激活方式均为“Relu”,第1个和第2个融合神经网络块中的第十一批标准化层、第十二批标准化层、第十一激活层、第十二激活层和第六残差块各自的输出端输出256幅特征图,第3个融合神经网络块中的第十一卷积层和第十二卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为1,第3个融合神经网络块中的第十一激活层和第十二激活层的激活方式均为“Relu”,第3个融合神经网络块中的第十一批标准化层、第十二批标准化层、第十一激活层、第十二激活层和第六残差块各自的输出端输出128幅特征图,第4个融合神经网络块中的第十一卷积层和第十二卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为1,第4个融合神经网络块中的第十一激活层和第十二激活层的激活方式均为“Relu”,第4个融合神经网络块中的第十一批标准化层、第十二批标准化层、第十一激活层、第十二激活层和第六残差块各自的输出端输出64幅特征图,第5个融合神经网络块中的第十一卷积层和第十二卷积层的卷积核大小均为3×3、卷积核个数均为32、补零参数均为1,第5个融合神经网络块中的第十一激活层和第十二激活层的激活方式均为“Relu”,第5个融合神经网络块中的第十一批标准化层、第十二批标准化层、第十一激活层、第十二激活层和第六残差块各自的输出端输出32幅特征图。
在此具体实施例中,步骤1_2中,第1个和第2个反卷积层的卷积核大小均为2×2、卷积核个数均为256、步长均为2、补零参数均为0,第3个反卷积层的卷积核大小为2×2、卷积核个数为128、步长为2、补零参数为0,第4个反卷积层的卷积核大小为2×2、卷积核个数为64、步长为2、补零参数为0。
在此具体实施例中,步骤1_2中,5个子输出层的结构相同,其由第十三卷积层组成;其中,第十三卷积层的卷积核大小为1×1、卷积核个数为2、补零参数为0。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学***均绝对误差(Mean Absolute Error,MAE)、F度量值(F-Measure)来评价预测显著性检测图像的检测性能。
利用本发明方法对真实物体图像数据库NLPR测试集中的每幅彩色真实物体图像进行预测,得到每幅彩色真实物体图像对应的预测显著性检测图像。反映本发明方法的显著性检测效果的类准确率召回率曲线(PR Curve)如图2a所示,反映本发明方法的显著性检测效果的平均绝对误差(MAE)如图2b所示,值为0.058,反映本发明方法的显著性检测效果的F度量值(F-Measure)如图2c所示,值为0.796。从图2a至图2c中可以看出,按本发明方法得到的彩色真实物体图像的显著性检测结果是好的,表明利用本发明方法来获取彩色真实物体图像对应的预测显著性检测图像是可行且有效的。
图3a给出了同一场景的第1幅原始的彩色真实物体图像,图3b给出了图3a对应的深度图像,图3c给出了利用本发明方法对图3a进行预测得到的预测显著性检测图像;图4a给出了同一场景的第2幅原始的彩色真实物体图像,图4b给出了图4a对应的深度图像,图4c给出了利用本发明方法对图4a进行预测得到的预测显著性检测图像;图5a给出了同一场景的第3幅原始的彩色真实物体图像,图5b给出了图5a对应的深度图像,图5c给出了利用本发明方法对图5a进行预测得到的预测显著性检测图像;图6a给出了同一场景的第4幅原始的彩色真实物体图像,图6b给出了图6a对应的深度图像,图6c给出了利用本发明方法对图6a进行预测得到的预测显著性检测图像。对比图3a和图3c,对比图4a和4c,对比图5a和图5c,对比图6a和图6c,可以看出利用本发明方法得到的预测显著性检测图像的检测精度较高。

Claims (6)

1.一种基于残差网络和深度信息融合的显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的彩色真实物体图像及每幅原始的彩色真实物体图像对应的深度图像和真实显著性检测标签图像,并构成训练集,将训练集中的第q幅原始的彩色真实物体图像及其对应的深度图像和真实显著性检测标签图像对应记为{Iq(i,j)}、{Dq(i,j)}、
Figure FDA0002698601000000011
其中,Q为正整数,Q≥200,q为正整数,q的初始值为1,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}、{Dq(i,j)}、
Figure FDA0002698601000000012
的宽度,H表示{Iq(i,j)}、{Dq(i,j)}、
Figure FDA0002698601000000013
的高度,W和H均能够被2整除,{Iq(i,j)}为RGB彩色图像,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,{Dq(i,j)}为单通道的深度图像,Dq(i,j)表示{Dq(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure FDA0002698601000000014
表示
Figure FDA0002698601000000015
中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建卷积神经网络:该卷积神经网络包含输入层、隐层、输出层,输入层包括RGB图输入层和深度图输入层,隐层包括5个RGB图神经网络块、4个RGB图最大池化层、5个深度图神经网络块、4个深度图最大池化层、5个级联层、5个融合神经网络块、4个反卷积层,输出层包括5个子输出层;其中,5个RGB图神经网络块和4个RGB图最大池化层构成RGB图的编码结构,5个深度图神经网络块和4个深度图最大池化层构成深度图的编码结构,RGB图的编码结构和深度图的编码结构构成卷积神经网络的编码层,5个级联层、5个融合神经网络块和4个反卷积层构成卷积神经网络的译码层;
对于RGB图输入层,其输入端接收一幅训练用RGB彩色图像的R通道分量、G通道分量和B通道分量,其输出端输出训练用RGB彩色图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求训练用RGB彩色图像的宽度为W且高度为H;
对于深度图输入层,其输入端接收RGB图输入层的输入端接收的训练用RGB彩色图像对应的训练用深度图像,其输出端输出训练用深度图像给隐层;其中,训练用深度图像的宽度为W且高度为H;
对于第1个RGB图神经网络块,其输入端接收RGB图输入层的输出端输出的训练用RGB彩色图像的R通道分量、G通道分量和B通道分量,其输出端输出32幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为CP1
对于第1个RGB图最大池化层,其输入端接收CP1中的所有特征图,其输出端输出32幅宽度为
Figure FDA0002698601000000021
且高度为
Figure FDA0002698601000000022
的特征图,将输出的所有特征图构成的集合记为ZC1
对于第2个RGB图神经网络块,其输入端接收ZC1中的所有特征图,其输出端输出64幅宽度为
Figure FDA0002698601000000023
且高度为
Figure FDA0002698601000000024
的特征图,将输出的所有特征图构成的集合记为CP2
对于第2个RGB图最大池化层,其输入端接收CP2中的所有特征图,其输出端输出64幅宽度为
Figure FDA0002698601000000025
且高度为
Figure FDA0002698601000000026
的特征图,将输出的所有特征图构成的集合记为ZC2
对于第3个RGB图神经网络块,其输入端接收ZC2中的所有特征图,其输出端输出128幅宽度为
Figure FDA0002698601000000027
且高度为
Figure FDA0002698601000000028
的特征图,将输出的所有特征图构成的集合记为CP3
对于第3个RGB图最大池化层,其输入端接收CP3中的所有特征图,其输出端输出128幅宽度为
Figure FDA0002698601000000029
且高度为
Figure FDA00026986010000000210
的特征图,将输出的所有特征图构成的集合记为ZC3
对于第4个RGB图神经网络块,其输入端接收ZC3中的所有特征图,其输出端输出256幅宽度为
Figure FDA0002698601000000031
且高度为
Figure FDA0002698601000000032
的特征图,将输出的所有特征图构成的集合记为CP4
对于第4个RGB图最大池化层,其输入端接收CP4中的所有特征图,其输出端输出256幅宽度为
Figure FDA0002698601000000033
且高度为
Figure FDA0002698601000000034
的特征图,将输出的所有特征图构成的集合记为ZC4
对于第5个RGB图神经网络块,其输入端接收ZC4中的所有特征图,其输出端输出256幅宽度为
Figure FDA0002698601000000035
且高度为
Figure FDA0002698601000000036
的特征图,将输出的所有特征图构成的集合记为CP5
对于第1个深度图神经网络块,其输入端接收深度图输入层的输出端输出的训练用深度图像,其输出端输出32幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为DP1
对于第1个深度图最大池化层,其输入端接收DP1中的所有特征图,其输出端输出32幅宽度为
Figure FDA0002698601000000037
且高度为
Figure FDA0002698601000000038
的特征图,将输出的所有特征图构成的集合记为DC1
对于第2个深度图神经网络块,其输入端接收DC1中的所有特征图,其输出端输出64幅宽度为
Figure FDA0002698601000000039
且高度为
Figure FDA00026986010000000310
的特征图,将输出的所有特征图构成的集合记为DP2
对于第2个深度图最大池化层,其输入端接收DP2中的所有特征图,其输出端输出64幅宽度为
Figure FDA00026986010000000311
且高度为
Figure FDA00026986010000000312
的特征图,将输出的所有特征图构成的集合记为DC2
对于第3个深度图神经网络块,其输入端接收DC2中的所有特征图,其输出端输出128幅宽度为
Figure FDA00026986010000000313
且高度为
Figure FDA00026986010000000314
的特征图,将输出的所有特征图构成的集合记为DP3
对于第3个深度图最大池化层,其输入端接收DP3中的所有特征图,其输出端输出128幅宽度为
Figure FDA0002698601000000041
且高度为
Figure FDA0002698601000000042
的特征图,将输出的所有特征图构成的集合记为DC3
对于第4个深度图神经网络块,其输入端接收DC3中的所有特征图,其输出端输出256幅宽度为
Figure FDA0002698601000000043
且高度为
Figure FDA0002698601000000044
的特征图,将输出的所有特征图构成的集合记为DP4
对于第4个深度图最大池化层,其输入端接收DP4中的所有特征图,其输出端输出256幅宽度为
Figure FDA0002698601000000045
且高度为
Figure FDA0002698601000000046
的特征图,将输出的所有特征图构成的集合记为DC4
对于第5个深度图神经网络块,其输入端接收DC4中的所有特征图,其输出端输出256幅宽度为
Figure FDA0002698601000000047
且高度为
Figure FDA0002698601000000048
的特征图,将输出的所有特征图构成的集合记为DP5
对于第1个级联层,其输入端接收CP5中的所有特征图和DP5中的所有特征图,对CP5中的所有特征图和DP5中的所有特征图进行叠加,其输出端输出512幅宽度为
Figure FDA0002698601000000049
且高度为
Figure FDA00026986010000000410
的特征图,将输出的所有特征图构成的集合记为Con1
对于第1个融合神经网络块,其输入端接收Con1中的所有特征图,其输出端输出256幅宽度为
Figure FDA00026986010000000411
且高度为
Figure FDA00026986010000000412
的特征图,将输出的所有特征图构成的集合记为RH1
对于第1个反卷积层,其输入端接收RH1中的所有特征图,其输出端输出256幅宽度为
Figure FDA00026986010000000413
且高度为
Figure FDA00026986010000000414
的特征图,将输出的所有特征图构成的集合记为FJ1
对于第2个级联层,其输入端接收FJ1中的所有特征图、CP4中的所有特征图和DP4中的所有特征图,对FJ1中的所有特征图、CP4中的所有特征图和DP4中的所有特征图进行叠加,其输出端输出768幅宽度为
Figure FDA00026986010000000415
且高度为
Figure FDA00026986010000000416
的特征图,将输出的所有特征图构成的集合记为Con2
对于第2个融合神经网络块,其输入端接收Con2中的所有特征图,其输出端输出256幅宽度为
Figure FDA0002698601000000051
且高度为
Figure FDA0002698601000000052
的特征图,将输出的所有特征图构成的集合记为RH2
对于第2个反卷积层,其输入端接收RH2中的所有特征图,其输出端输出256幅宽度为
Figure FDA0002698601000000053
且高度为
Figure FDA0002698601000000054
的特征图,将输出的所有特征图构成的集合记为FJ2
对于第3个级联层,其输入端接收FJ2中的所有特征图、CP3中的所有特征图和DP3中的所有特征图,对FJ2中的所有特征图、CP3中的所有特征图和DP3中的所有特征图进行叠加,其输出端输出512幅宽度为
Figure FDA0002698601000000055
且高度为
Figure FDA0002698601000000056
的特征图,将输出的所有特征图构成的集合记为Con3
对于第3个融合神经网络块,其输入端接收Con3中的所有特征图,其输出端输出128幅宽度为
Figure FDA0002698601000000057
且高度为
Figure FDA0002698601000000058
的特征图,将输出的所有特征图构成的集合记为RH3
对于第3个反卷积层,其输入端接收RH3中的所有特征图,其输出端输出128幅宽度为
Figure FDA0002698601000000059
且高度为
Figure FDA00026986010000000510
的特征图,将输出的所有特征图构成的集合记为FJ3
对于第4个级联层,其输入端接收FJ3中的所有特征图、CP2中的所有特征图和DP2中的所有特征图,对FJ3中的所有特征图、CP2中的所有特征图和DP2中的所有特征图进行叠加,其输出端输出256幅宽度为
Figure FDA00026986010000000511
且高度为
Figure FDA00026986010000000512
的特征图,将输出的所有特征图构成的集合记为Con4
对于第4个融合神经网络块,其输入端接收Con4中的所有特征图,其输出端输出64幅宽度为
Figure FDA0002698601000000061
且高度为
Figure FDA0002698601000000062
的特征图,将输出的所有特征图构成的集合记为RH4
对于第4个反卷积层,其输入端接收RH4中的所有特征图,其输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为FJ4
对于第5个级联层,其输入端接收FJ4中的所有特征图、CP1中的所有特征图和DP1中的所有特征图,对FJ4中的所有特征图、CP1中的所有特征图和DP1中的所有特征图进行叠加,其输出端输出128幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为Con5
对于第5个融合神经网络块,其输入端接收Con5中的所有特征图,其输出端输出32幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为RH5
对于第1个子输出层,其输入端接收RH1中的所有特征图,其输出端输出2幅宽度为
Figure FDA0002698601000000063
且高度为
Figure FDA0002698601000000064
的特征图,将输出的所有特征图构成的集合记为Out1,Out1中的其中一幅特征图为显著性检测预测图;
对于第2个子输出层,其输入端接收RH2中的所有特征图,其输出端输出2幅宽度为
Figure FDA0002698601000000065
且高度为
Figure FDA0002698601000000066
的特征图,将输出的所有特征图构成的集合记为Out2,Out2中的其中一幅特征图为显著性检测预测图;
对于第3个子输出层,其输入端接收RH3中的所有特征图,其输出端输出2幅宽度为
Figure FDA0002698601000000067
且高度为
Figure FDA0002698601000000068
的特征图,将输出的所有特征图构成的集合记为Out3,Out3中的其中一幅特征图为显著性检测预测图;
对于第4个子输出层,其输入端接收RH4中的所有特征图,其输出端输出2幅宽度为
Figure FDA0002698601000000071
且高度为
Figure FDA0002698601000000072
的特征图,将输出的所有特征图构成的集合记为Out4,Out4中的其中一幅特征图为显著性检测预测图;
对于第5个子输出层,其输入端接收RH5中的所有特征图,其输出端输出2幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为Out5,Out5中的其中一幅特征图为显著性检测预测图;
步骤1_3:将训练集中的每幅原始的彩色真实物体图像作为训练用RGB彩色图像,将训练集中的每幅原始的彩色真实物体图像对应的深度图像作为训练用深度图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的彩色真实物体图像对应的5幅显著性检测预测图,将{Iq(i,j)}对应的5幅显著性检测预测图构成的集合记为
Figure FDA0002698601000000073
步骤1_4:对训练集中的每幅原始的彩色真实物体图像对应的真实显著性检测标签图像进行4种不同尺寸大小的缩放处理,得到宽度为
Figure FDA0002698601000000074
且高度为
Figure FDA0002698601000000075
的图像、宽度为
Figure FDA0002698601000000076
且高度为
Figure FDA0002698601000000077
的图像、宽度为
Figure FDA0002698601000000078
且高度为
Figure FDA0002698601000000079
的图像、宽度为
Figure FDA00026986010000000710
且高度为
Figure FDA00026986010000000711
的图像,将{Iq(i,j)}对应的真实显著性检测标签图像经缩放处理后得到的4幅图像和该真实显著性检测标签图像构成的集合记为
Figure FDA00026986010000000712
步骤1_5:计算训练集中的每幅原始的彩色真实物体图像对应的5幅显著性检测预测图构成的集合与该原始的彩色真实物体图像对应的真实显著性检测标签图像经缩放处理后得到的4幅图像和该真实显著性检测标签图像构成的集合之间的损失函数值,将
Figure FDA00026986010000000713
Figure FDA00026986010000000714
之间的损失函数值记为
Figure FDA00026986010000000715
采用分类交叉熵获得;
步骤1_6:重复执行步骤1_3至步骤1_5共V次,得到卷积神经网络训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure FDA0002698601000000081
表示待显著性检测的彩色真实物体图像,将
Figure FDA0002698601000000082
对应的深度图像记为
Figure FDA0002698601000000083
其中,1≤i'≤W',1≤j'≤H',W'表示
Figure FDA0002698601000000084
Figure FDA0002698601000000085
的宽度,H'表示
Figure FDA0002698601000000086
Figure FDA0002698601000000087
的高度,
Figure FDA0002698601000000088
表示
Figure FDA0002698601000000089
中坐标位置为(i',j')的像素点的像素值,
Figure FDA00026986010000000810
表示
Figure FDA00026986010000000811
中坐标位置为(i',j')的像素点的像素值;
步骤2_2:将
Figure FDA00026986010000000812
的R通道分量、G通道分量和B通道分量以及
Figure FDA00026986010000000813
输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到
Figure FDA00026986010000000814
对应的5幅不同尺寸大小的预测显著性检测图像,将尺寸大小与
Figure FDA00026986010000000815
的尺寸大小一致的预测显著性检测图像作为
Figure FDA00026986010000000816
对应的最终预测显著性检测图像,并记为
Figure FDA00026986010000000817
其中,
Figure FDA00026986010000000818
表示
Figure FDA00026986010000000819
中坐标位置为(i',j')的像素点的像素值。
2.根据权利要求1所述的一种基于残差网络和深度信息融合的显著性检测方法,其特征在于所述的步骤1_2中,第1个RGB图神经网络块和第1个深度图神经网络块的结构相同,其由依次设置的第一卷积层、第一批标准化层、第一激活层、第一残差块、第二卷积层、第二批标准化层、第二激活层组成,第一卷积层的输入端为其所在的神经网络块的输入端,第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图,第一残差块的输入端接收第一激活层的输出端输出的所有特征图,第二卷积层的输入端接收第一残差块的输出端输出的所有特征图,第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图,第二激活层的输出端为其所在的神经网络块的输出端;其中,第一卷积层和第二卷积层的卷积核大小均为3×3、卷积核个数均为32、补零参数均为1,第一激活层和第二激活层的激活方式均为“Relu”,第一批标准化层、第二批标准化层、第一激活层、第二激活层和第一残差块各自的输出端输出32幅特征图;
第2个RGB图神经网络块和第2个深度图神经网络块的结构相同,其由依次设置的第三卷积层、第三批标准化层、第三激活层、第二残差块、第四卷积层、第四批标准化层、第四激活层组成,第三卷积层的输入端为其所在的神经网络块的输入端,第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图,第三激活层的输入端接收第三批标准化层的输出端输出的所有特征图,第二残差块的输入端接收第三激活层的输出端输出的所有特征图,第四卷积层的输入端接收第二残差块的输出端输出的所有特征图,第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图,第四激活层的输入端接收第四批标准化层的输出端输出的所有特征图,第四激活层的输出端为其所在的神经网络块的输出端;其中,第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为1,第三激活层和第四激活层的激活方式均为“Relu”,第三批标准化层、第四批标准化层、第三激活层、第四激活层和第二残差块各自的输出端输出64幅特征图;
第3个RGB图神经网络块和第3个深度图神经网络块的结构相同,其由依次设置的第五卷积层、第五批标准化层、第五激活层、第三残差块、第六卷积层、第六批标准化层、第六激活层组成,第五卷积层的输入端为其所在的神经网络块的输入端,第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图,第五激活层的输入端接收第五批标准化层的输出端输出的所有特征图,第三残差块的输入端接收第五激活层的输出端输出的所有特征图,第六卷积层的输入端接收第三残差块的输出端输出的所有特征图,第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图,第六激活层的输入端接收第六批标准化层的输出端输出的所有特征图,第六激活层的输出端为其所在的神经网络块的输出端;其中,第五卷积层和第六卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为1,第五激活层和第六激活层的激活方式均为“Relu”,第五批标准化层、第六批标准化层、第五激活层、第六激活层和第三残差块各自的输出端输出128幅特征图;
第4个RGB图神经网络块和第4个深度图神经网络块的结构相同,其由依次设置的第七卷积层、第七批标准化层、第七激活层、第四残差块、第八卷积层、第八批标准化层、第八激活层组成,第七卷积层的输入端为其所在的神经网络块的输入端,第七批标准化层的输入端接收第七卷积层的输出端输出的所有特征图,第七激活层的输入端接收第七批标准化层的输出端输出的所有特征图,第四残差块的输入端接收第七激活层的输出端输出的所有特征图,第八卷积层的输入端接收第四残差块的输出端输出的所有特征图,第八批标准化层的输入端接收第八卷积层的输出端输出的所有特征图,第八激活层的输入端接收第八批标准化层的输出端输出的所有特征图,第八激活层的输出端为其所在的神经网络块的输出端;其中,第七卷积层和第八卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为1,第七激活层和第八激活层的激活方式均为“Relu”,第七批标准化层、第八批标准化层、第七激活层、第八激活层和第四残差块各自的输出端输出256幅特征图;
第5个RGB图神经网络块和第5个深度图神经网络块的结构相同,其由依次设置的第九卷积层、第九批标准化层、第九激活层、第五残差块、第十卷积层、第十批标准化层、第十激活层组成,第九卷积层的输入端为其所在的神经网络块的输入端,第九批标准化层的输入端接收第九卷积层的输出端输出的所有特征图,第九激活层的输入端接收第九批标准化层的输出端输出的所有特征图,第五残差块的输入端接收第九激活层的输出端输出的所有特征图,第十卷积层的输入端接收第五残差块的输出端输出的所有特征图,第十批标准化层的输入端接收第十卷积层的输出端输出的所有特征图,第十激活层的输入端接收第十批标准化层的输出端输出的所有特征图,第十激活层的输出端为其所在的神经网络块的输出端;其中,第九卷积层和第十卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为1,第九激活层和第十激活层的激活方式均为“Relu”,第九批标准化层、第十批标准化层、第九激活层、第十激活层和第五残差块各自的输出端输出256幅特征图。
3.根据权利要求1或2所述的一种基于残差网络和深度信息融合的显著性检测方法,其特征在于所述的步骤1_2中,4个RGB图最大池化层和4个深度图最大池化层均为最大池化层,4个RGB图最大池化层和4个深度图最大池化层的池化尺寸均为2、步长均为2。
4.根据权利要求3所述的一种基于残差网络和深度信息融合的显著性检测方法,其特征在于所述的步骤1_2中,5个融合神经网络块的结构相同,其由依次设置的第十一卷积层、第十一批标准化层、第十一激活层、第六残差块、第十二卷积层、第十二批标准化层、第十二激活层组成,第十一卷积层的输入端为其所在的融合神经网络块的输入端,第十一批标准化层的输入端接收第十一卷积层的输出端输出的所有特征图,第十一激活层的输入端接收第十一批标准化层的输出端输出的所有特征图,第六残差块的输入端接收第十一激活层的输出端输出的所有特征图,第十二卷积层的输入端接收第六残差块的输出端输出的所有特征图,第十二批标准化层的输入端接收第十二卷积层的输出端输出的所有特征图,第十二激活层的输入端接收第十二批标准化层的输出端输出的所有特征图,第十二激活层的输出端为其所在的神经网络块的输出端;其中,第1个和第2个融合神经网络块中的第十一卷积层和第十二卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为1,第1个和第2个融合神经网络块中的第十一激活层和第十二激活层的激活方式均为“Relu”,第1个和第2个融合神经网络块中的第十一批标准化层、第十二批标准化层、第十一激活层、第十二激活层和第六残差块各自的输出端输出256幅特征图,第3个融合神经网络块中的第十一卷积层和第十二卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为1,第3个融合神经网络块中的第十一激活层和第十二激活层的激活方式均为“Relu”,第3个融合神经网络块中的第十一批标准化层、第十二批标准化层、第十一激活层、第十二激活层和第六残差块各自的输出端输出128幅特征图,第4个融合神经网络块中的第十一卷积层和第十二卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为1,第4个融合神经网络块中的第十一激活层和第十二激活层的激活方式均为“Relu”,第4个融合神经网络块中的第十一批标准化层、第十二批标准化层、第十一激活层、第十二激活层和第六残差块各自的输出端输出64幅特征图,第5个融合神经网络块中的第十一卷积层和第十二卷积层的卷积核大小均为3×3、卷积核个数均为32、补零参数均为1,第5个融合神经网络块中的第十一激活层和第十二激活层的激活方式均为“Relu”,第5个融合神经网络块中的第十一批标准化层、第十二批标准化层、第十一激活层、第十二激活层和第六残差块各自的输出端输出32幅特征图。
5.根据权利要求4所述的一种基于残差网络和深度信息融合的显著性检测方法,其特征在于所述的步骤1_2中,第1个和第2个反卷积层的卷积核大小均为2×2、卷积核个数均为256、步长均为2、补零参数均为0,第3个反卷积层的卷积核大小为2×2、卷积核个数为128、步长为2、补零参数为0,第4个反卷积层的卷积核大小为2×2、卷积核个数为64、步长为2、补零参数为0。
6.根据权利要求5所述的一种基于残差网络和深度信息融合的显著性检测方法,其特征在于所述的步骤1_2中,5个子输出层的结构相同,其由第十三卷积层组成;其中,第十三卷积层的卷积核大小为1×1、卷积核个数为2、补零参数为0。
CN201910444775.0A 2019-05-27 2019-05-27 一种基于残差网络和深度信息融合的显著性检测方法 Active CN110263813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910444775.0A CN110263813B (zh) 2019-05-27 2019-05-27 一种基于残差网络和深度信息融合的显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910444775.0A CN110263813B (zh) 2019-05-27 2019-05-27 一种基于残差网络和深度信息融合的显著性检测方法

Publications (2)

Publication Number Publication Date
CN110263813A CN110263813A (zh) 2019-09-20
CN110263813B true CN110263813B (zh) 2020-12-01

Family

ID=67915440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910444775.0A Active CN110263813B (zh) 2019-05-27 2019-05-27 一种基于残差网络和深度信息融合的显著性检测方法

Country Status (1)

Country Link
CN (1) CN110263813B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751157B (zh) * 2019-10-18 2022-06-24 厦门美图之家科技有限公司 图像显著性分割、图像显著性模型训练方法及装置
CN110782458B (zh) * 2019-10-23 2022-05-31 浙江科技学院 一种非对称编码网络的物体图像3d语义预测分割方法
CN110929736B (zh) * 2019-11-12 2023-05-26 浙江科技学院 多特征级联rgb-d显著性目标检测方法
CN111160410B (zh) * 2019-12-11 2023-08-08 北京京东乾石科技有限公司 一种物体检测方法和装置
CN111209919B (zh) * 2020-01-06 2023-06-09 上海海事大学 一种海上船舶显著性检测方法及***
CN111242238B (zh) * 2020-01-21 2023-12-26 北京交通大学 一种rgb-d图像显著性目标获取的方法
CN111428602B (zh) * 2020-03-18 2024-07-05 浙江科技学院 卷积神经网络边缘辅助增强的双目显著性图像检测方法
CN111351450B (zh) * 2020-03-20 2021-09-28 南京理工大学 基于深度学习的单帧条纹图像三维测量方法
CN112749712B (zh) * 2021-01-22 2022-04-12 四川大学 一种基于3d卷积神经网络的rgbd显著性物体检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108961220A (zh) * 2018-06-14 2018-12-07 上海大学 一种基于多层卷积特征融合的图像协同显著性检测方法
CN109409435A (zh) * 2018-11-01 2019-03-01 上海大学 一种基于卷积神经网络的深度感知显著性检测方法
CN109598268A (zh) * 2018-11-23 2019-04-09 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
CN109635822A (zh) * 2018-12-07 2019-04-16 浙江科技学院 基于深度学习编码译码网络的立体图像视觉显著提取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10699151B2 (en) * 2016-06-03 2020-06-30 Miovision Technologies Incorporated System and method for performing saliency detection using deep active contours
CN109409380B (zh) * 2018-08-27 2021-01-12 浙江科技学院 一种基于双学习网络的立体图像视觉显著提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108961220A (zh) * 2018-06-14 2018-12-07 上海大学 一种基于多层卷积特征融合的图像协同显著性检测方法
CN109409435A (zh) * 2018-11-01 2019-03-01 上海大学 一种基于卷积神经网络的深度感知显著性检测方法
CN109598268A (zh) * 2018-11-23 2019-04-09 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
CN109635822A (zh) * 2018-12-07 2019-04-16 浙江科技学院 基于深度学习编码译码网络的立体图像视觉显著提取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RGB-D Salient Object Detection by a CNN With Multiple Layers Fusion;Huang, Rui 等;《IEEE SIGNAL PROCESSING LETTERS》;20190430;全文 *
Saliency Detection for Stereoscopic 3D Images in the Quaternion Frequency Domain;Wujie Zhou 等;《3DR EXPRESS》;20181231;全文 *
利用卷积神经网络的显著性区域预测方法;李荣 等;《重庆邮电大学学报( 自然科学版)》;20190228;全文 *

Also Published As

Publication number Publication date
CN110263813A (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
CN110263813B (zh) 一种基于残差网络和深度信息融合的显著性检测方法
CN110782462B (zh) 一种基于双流特征融合的语义分割方法
Yu et al. Underwater-GAN: Underwater image restoration via conditional generative adversarial network
CN108510535B (zh) 一种基于深度预测和增强子网络的高质量深度估计方法
CN110246148B (zh) 多模态的深度信息融合和注意力学习的显著性检测方法
CN108664981B (zh) 显著图像提取方法及装置
CN110490082B (zh) 一种有效融合神经网络特征的道路场景语义分割方法
CN110175986B (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN110992238B (zh) 一种基于双通道网络的数字图像篡改盲检测方法
CN108389224B (zh) 图像处理方法及装置、电子设备和存储介质
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN110728682A (zh) 一种基于残差金字塔池化神经网络的语义分割方法
CN112070753A (zh) 多尺度信息增强双目卷积神经网络显著性图像检测方法
CN110782458B (zh) 一种非对称编码网络的物体图像3d语义预测分割方法
CN111310767A (zh) 一种基于边界增强的显著性检测方法
CN110570402B (zh) 基于边界感知神经网络的双目显著物体检测方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN113192073A (zh) 基于交叉融合网络的服装语义分割方法
CN110009700B (zh) 基于rgb图和梯度图的卷积神经网络视觉深度估计方法
CN111445432A (zh) 一种基于信息融合卷积神经网络的图像显著性检测方法
CN113139904B (zh) 一种图像盲超分辨率方法及***
CN112149662A (zh) 一种基于扩张卷积块的多模态融合显著性检测方法
CN103208109B (zh) 一种基于局部约束迭代邻域嵌入的人脸幻构方法
CN116310305A (zh) 一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230118

Address after: Room 2202, 22 / F, Wantong building, No. 3002, Sungang East Road, Sungang street, Luohu District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen dragon totem technology achievement transformation Co.,Ltd.

Address before: 310023 No. 318 stay Road, Xihu District, Zhejiang, Hangzhou

Patentee before: ZHEJIANG University OF SCIENCE AND TECHNOLOGY

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230627

Address after: 710000 Room 1306, Building 7, Taihua Jinmao International, Keji Second Road, Hi tech Zone, Xi'an City, Shaanxi Province

Patentee after: Huahao Technology (Xi'an) Co.,Ltd.

Address before: Room 2202, 22 / F, Wantong building, No. 3002, Sungang East Road, Sungang street, Luohu District, Shenzhen City, Guangdong Province

Patentee before: Shenzhen dragon totem technology achievement transformation Co.,Ltd.