CN112529862A - 一种交互循环特征重塑的显著性图像检测方法 - Google Patents

一种交互循环特征重塑的显著性图像检测方法 Download PDF

Info

Publication number
CN112529862A
CN112529862A CN202011413838.5A CN202011413838A CN112529862A CN 112529862 A CN112529862 A CN 112529862A CN 202011413838 A CN202011413838 A CN 202011413838A CN 112529862 A CN112529862 A CN 112529862A
Authority
CN
China
Prior art keywords
feature maps
block
feature
layer
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011413838.5A
Other languages
English (en)
Inventor
周武杰
郭沁玲
雷景生
万健
钱小鸿
叶宁
甘兴利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202011413838.5A priority Critical patent/CN112529862A/zh
Publication of CN112529862A publication Critical patent/CN112529862A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种交互循环特征重塑的显著性图像检测方法,其在训练阶段构建卷积神经网络,包括输入层、编码部分、解码部分和输出层,编码部分包括神经网络块,解码部分包括信息提取块、特征重塑块、信息重塑块、膨胀卷积块、特征聚合块;将3D图像的RGB图像的三通道及深度图像经处理后得到的三通道深度图输入到卷积神经网络中进行训练,得到显著性检测图;通过计算显著性检测图与标签图像之间的损失函数值,得到最优权值矢量和最优偏置项;在测试阶段将待检测3D图像的RGB图像的三通道及深度图像对应的三通道深度图输入到卷积神经网络训练模型中,利用最优权值矢量和最优偏置项进行预测,得到显著性预测图像;优点是显著性检测结果清晰,检测精度高。

Description

一种交互循环特征重塑的显著性图像检测方法
技术领域
本发明涉及一种深度学习的显著性图像检测技术,尤其是涉及一种交互循环特征重塑的显著性图像检测方法。
背景技术
随着人工智能在计算机领域的快速发展,图像的显著性检测已成为越来越受关注的研究领域。显著对象检测(Salient Object Detection,SOD)旨在将视觉上最独特的对象与输入图像区分开来,在过去的几十年中,已经开发了数百种传统的方法来解决突出对象检测的任务,它是许多图像处理和计算机视觉任务中的一个有效的预处理步骤,例如对象分割和跟踪、视频压缩、图像编辑、纹理平滑等。最近的工作是利用卷积神经网络(CNN)来学习检测突出对象的深层特征,这些卷积神经网络模型采用编码解码结构,结构简单,计算效率高。在编码解码结构中,编码器通常利用预先训练的分类模型(例如ResNet和VGG),提取不同语义层次和分辨率的多个特征;解码器将提取的特征组合起来生成显著图。现有的利用卷积神经网络的编码解码结构的显著性检测方法颇有成效,但是,在准确性上仍然存在挑战。例如:不同语义层次和分辨率的特征具有不同的分布特点,高层次特征具有丰富的语义信息,但缺乏准确的位置信息;低层次特征具有丰富的细节,但充满背景噪声,导致融合高层次特征和低层次特征的方法的检测准确性仍不是很理想。对于不同模态的特征来说,RGB信息与深度信息都存在杂乱的背景信息,如何有效区分背景与前景,从而生成更好的显著性图像,仍然需要进一步深入研究。
发明内容
本发明所要解决的技术问题是提供一种交互循环特征重塑的显著性图像检测方法,其显著性检测结果清晰,检测精度高。
本发明解决上述技术问题所采用的技术方案为:一种交互循环特征重塑的显著性图像检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N对原始3D图像及每对原始3D图像对应的标签图像,将第k对原始3D图像的RGB图像记为
Figure BDA0002819462340000021
将第k对原始3D图像的深度图像记为
Figure BDA0002819462340000022
将第k对原始3D图像对应的真实显著检测图像作为标签图像,并记为
Figure BDA0002819462340000023
然后将所有原始3D图像的RGB图像、深度图像、对应的标签图像构成训练集;其中,N为正整数,N≥200,k为正整数,1≤k≤N,1≤x≤W,1≤y≤H,W表示原始3D图像及其RGB图像、深度图像、对应的标签图像的宽度,H表示原始3D图像及其RGB图像、深度图像、对应的标签图像的高度,
Figure BDA0002819462340000024
表示
Figure BDA0002819462340000025
中坐标位置为(x,y)的像素点的像素值,
Figure BDA0002819462340000026
表示
Figure BDA0002819462340000027
中坐标位置为(x,y)的像素点的像素值,
Figure BDA0002819462340000028
表示
Figure BDA0002819462340000029
中坐标位置为(x,y)的像素点的像素值;
步骤1_2:构建端到端的卷积神经网络:该卷积神经网络包括输入层、编码部分、解码部分和输出层,输入层包括RGB图输入层和深度图输入层,编码部分包括10个神经网络块,解码部分包括2个信息提取块、5个特征重塑块、4个信息重塑块、5个膨胀卷积块、5个特征聚合块;输出层包括输出卷积层,输出卷积层的卷积核大小为3×3、卷积核个数为1、步长为1;
对于输入层中的RGB图输入层,其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给编码部分;其中,原始RGB图像的宽度为W、高度为H;
对于输入层中的深度图输入层,其输入端接收一幅原始深度图像通过采用复制方法处理成的三通道深度图,其输出端输出三通道深度图给编码部分;其中,原始深度图像的宽度为W、高度为H;
对于编码部分,第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块依次连接构成彩色编码流,第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块依次连接构成深度编码流;第1个神经网络块的输入端接收RGB图输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S1,S1中的每幅特征图的宽度为W、高度为H;第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S2,S2中的每幅特征图的宽度为
Figure BDA0002819462340000031
高度为
Figure BDA0002819462340000032
第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S3,S3中的每幅特征图的宽度为
Figure BDA0002819462340000033
高度为
Figure BDA0002819462340000034
第4个神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S4,S4中的每幅特征图的宽度为
Figure BDA0002819462340000035
高度为
Figure BDA0002819462340000036
第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S5,S5中的每幅特征图的宽度为
Figure BDA0002819462340000037
高度为
Figure BDA0002819462340000038
第6个神经网络块的输入端接收深度图输入层的输出端输出的三通道深度图,第6个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为D1,D1中的每幅特征图的宽度为W、高度为H;第7个神经网络块的输入端接收D1中的所有特征图,第7个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为D2,D2中的每幅特征图的宽度为
Figure BDA0002819462340000039
高度为
Figure BDA00028194623400000310
第8个神经网络块的输入端接收D2中的所有特征图,第8个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为D3,D3中的每幅特征图的宽度为
Figure BDA00028194623400000311
高度为
Figure BDA00028194623400000312
第9个神经网络块的输入端接收D3中的所有特征图,第9个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为D4,D4中的每幅特征图的宽度为
Figure BDA00028194623400000313
高度为
Figure BDA00028194623400000314
第10个神经网络块的输入端接收D4中的所有特征图,第10个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为D5,D5中的每幅特征图的宽度为
Figure BDA00028194623400000315
高度为
Figure BDA00028194623400000316
编码部分提供S1、S2、S3、S4、S5、D1、D2、D3、D4、D5中的所有特征图给解码部分;
对于解码部分,第1个信息提取块的输入端接收D1中的所有特征图,第1个信息提取块的输出端输出64幅特征图,将这64幅特征图构成的集合记为F1,F1中的每幅特征图的宽度为W、高度为H;第1个特征重塑块的第一输入端接收S1中的所有特征图,第1个特征重塑块的第二输入端接收F1中的所有特征图,第1个特征重塑块的输出端输出64幅特征图,将这64幅特征图构成的集合记为F2,F2中的每幅特征图的宽度为W、高度为H;第1个信息重塑块的第一输入端接收F2中的所有特征图,第1个信息重塑块的第二输入端接收D2中的所有特征图,第1个信息重塑块的输出端输出128幅特征图,将这128幅特征图构成的集合记为F3,F3中的每幅特征图的宽度为
Figure BDA0002819462340000041
高度为
Figure BDA0002819462340000042
第2个特征重塑块的第一输入端接收S2中的所有特征图,第2个特征重塑块的第二输入端接收F3中的所有特征图,第2个特征重塑块的输出端输出128幅特征图,将这128幅特征图构成的集合记为F4,F4中的每幅特征图的宽度为
Figure BDA0002819462340000043
高度为
Figure BDA0002819462340000044
第2个信息重塑块的第一输入端接收F4中的所有特征图,第2个信息重塑块的第二输入端接收D3中的所有特征图,第2个信息重塑块的输出端输出256幅特征图,将这256幅特征图构成的集合记为F5,F5中的每幅特征图的宽度为
Figure BDA0002819462340000045
高度为
Figure BDA0002819462340000046
第3个特征重塑块的第一输入端接收S3中的所有特征图,第3个特征重塑块的第二输入端接收F5中的所有特征图,第3个特征重塑块的输出端输出256幅特征图,将这256幅特征图构成的集合记为F6,F6中的每幅特征图的宽度为
Figure BDA0002819462340000047
高度为
Figure BDA0002819462340000048
第3个信息重塑块的第一输入端接收F6中的所有特征图,第3个信息重塑块的第二输入端接收D4中的所有特征图,第3个信息重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F7,F7中的每幅特征图的宽度为
Figure BDA0002819462340000049
高度为
Figure BDA00028194623400000410
第4个特征重塑块的第一输入端接收S4中的所有特征图,第4个特征重塑块的第二输入端接收F7中的所有特征图,第4个特征重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F8,F8中的每幅特征图的宽度为
Figure BDA00028194623400000411
高度为
Figure BDA00028194623400000412
第4个信息重塑块的第一输入端接收F8中的所有特征图,第4个信息重塑块的第二输入端接收D5中的所有特征图,第4个信息重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F9,F9中的每幅特征图的宽度为
Figure BDA00028194623400000413
高度为
Figure BDA00028194623400000414
第5个特征重塑块的第一输入端接收S5中的所有特征图,第5个特征重塑块的第二输入端接收F9中的所有特征图,第5个特征重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F10,F10中的每幅特征图的宽度为
Figure BDA0002819462340000051
高度为
Figure BDA0002819462340000052
第2个信息提取块的输入端接收S5中的所有特征图,第2个信息提取块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F11,F11中的每幅特征图的宽度为
Figure BDA0002819462340000053
高度为
Figure BDA0002819462340000054
第1个膨胀卷积块的输入端接收D1中的所有特征图,第1个膨胀卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为P1,P1中的每幅特征图的宽度为W、高度为H;第2个膨胀卷积块的输入端接收D2中的所有特征图,第2个膨胀卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为P2,P2中的每幅特征图的宽度为
Figure BDA0002819462340000055
高度为
Figure BDA0002819462340000056
第3个膨胀卷积块的输入端接收D3中的所有特征图,第3个膨胀卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为P3,P3中的每幅特征图的宽度为
Figure BDA0002819462340000057
高度为
Figure BDA0002819462340000058
第4个膨胀卷积块的输入端接收D4中的所有特征图,第4个膨胀卷积块的输出端输出512幅特征图,将这512幅特征图构成的集合记为P4,P4中的每幅特征图的宽度为
Figure BDA0002819462340000059
高度为
Figure BDA00028194623400000510
第5个膨胀卷积块的输入端接收D5中的所有特征图,第5个膨胀卷积块的输出端输出512幅特征图,将这512幅特征图构成的集合记为P5,P5中的每幅特征图的宽度为
Figure BDA00028194623400000511
高度为
Figure BDA00028194623400000512
第1个特征聚合块的第一输入端接收F10中的所有特征图,第1个特征聚合块的第二输入端接收P5中的所有特征图,第1个特征聚合块的第三输入端接收F11中的所有特征图,第1个特征聚合块的输出端输出256幅特征图,将这256幅特征图构成的集合记为A1,A1中的每幅特征图的宽度为
Figure BDA00028194623400000513
高度为
Figure BDA00028194623400000514
第2个特征聚合块的第一输入端接收F8中的所有特征图,第2个特征聚合块的第二输入端接收P4中的所有特征图,第2个特征聚合块的第三输入端接收A1中的所有特征图,第2个特征聚合块的输出端输出128幅特征图,将这128幅特征图构成的集合记为A2,A2中的每幅特征图的宽度为
Figure BDA00028194623400000515
高度为
Figure BDA00028194623400000516
第3个特征聚合块的第一输入端接收F6中的所有特征图,第3个特征聚合块的第二输入端接收P3中的所有特征图,第3个特征聚合块的第三输入端接收A2中的所有特征图,第3个特征聚合块的输出端输出64幅特征图,将这64幅特征图构成的集合记为A3,A3中的每幅特征图的宽度为
Figure BDA0002819462340000061
高度为
Figure BDA0002819462340000062
第4个特征聚合块的第一输入端接收F4中的所有特征图,第4个特征聚合块的第二输入端接收P2中的所有特征图,第4个特征聚合块的第三输入端接收A3中的所有特征图,第4个特征聚合块的输出端输出32幅特征图,将这32幅特征图构成的集合记为A4,A4中的每幅特征图的宽度为
Figure BDA0002819462340000063
高度为
Figure BDA0002819462340000064
第5个特征聚合块的第一输入端接收F2中的所有特征图,第5个特征聚合块的第二输入端接收P1中的所有特征图,第5个特征聚合块的第三输入端接收A4中的所有特征图,第5个特征聚合块的输出端输出16幅特征图,将这16幅特征图构成的集合记为A5,A5中的每幅特征图的宽度为W、高度为H;解码部分提供A5中的所有特征图给输出层;
对于输出层,其输出卷积层的输入端接收A5中的所有特征图,其输出卷积层的输出端输出一幅宽度为W、高度为H的特征图,作为显著性检测图;
步骤1_3:将训练集中的所有原始3D图像的RGB图像的R通道分量、G通道分量和B通道分量及深度图像经复制后得到的三通道深度图输入到卷积神经网络中进行训练,得到每对原始3D图像对应的显著性检测图,将第k对原始3D图像对应的显著性检测图记为
Figure BDA0002819462340000065
其中,
Figure BDA0002819462340000066
表示
Figure BDA0002819462340000067
中坐标位置为(x,y)的像素点的像素值;
步骤1_4:计算每对原始3D图像对应的显著性检测图与对应的标签图像之间的损失函数值,将
Figure BDA0002819462340000068
Figure BDA0002819462340000069
之间的损失函数值记为
Figure BDA00028194623400000610
步骤1_5:重复执行步骤1_3和步骤1_4共M次,得到卷积神经网络训练模型,共得到N×M个损失函数值;然后将每次执行得到的N个损失函数值的和除以N作为该次执行得到的最终损失函数值,共得到M个最终损失函数值;再从M个最终损失函数值中找出值最小的最终损失函数值,将最小的最终损失函数值相应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,M>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:将待显著性检测的3D图像的RGB图像的R通道分量、G通道分量和B通道分量及深度图像经复制后得到的三通道深度图输入到卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,预测得到对应的显著性预测图像。
所述的步骤1_2中,2个信息提取块的结构相同,其由第1个卷积块、第一最大池化层、第一平均池化层、第2个卷积块、第3个卷积块、第一上采样层组成,第1个卷积块包括依次连接的第一卷积层、第一激活层、第二卷积层、第二激活层,第2个卷积块包括依次连接的第三卷积层和第三激活层,第3个卷积块包括依次连接的第四卷积层和第四激活层,第1个信息提取块中的第一卷积层的输入端接收D1中的所有特征图,第2个信息提取块中的第一卷积层的输入端接收S5中的所有特征图,第一最大池化层的输入端、第一平均池化层的输入端、第三卷积层的输入端均接收第四激活层的输出端输出的所有特征图,对第一最大池化层的输出端输出的所有特征图和第一平均池化层的输出端输出的所有特征图进行通道数叠加操作,第四卷积层的输入端接收通道数叠加操作后得到的所有特征图,第一上采样层的输入端接收第四激活层的输出端输出的所有特征图,对第一上采样层的输出端输出的所有特征图和第三激活层的输出端输出的所有特征图进行元素相乘操作,对第一上采样层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行元素相加操作,对于第1个信息提取块,元素相加操作后得到的所有特征图构成的集合为F1,对于第2个信息提取块,元素相加操作后得到的所有特征图构成的集合为F11;其中,设定第i个信息提取块的输入通道数为ni,则第1个信息提取块的输入通道数n1=64,第2个信息提取块的输入通道数n2=512,第i个信息提取块中的第一卷积层和第四卷积层的卷积核大小为1×1、卷积核个数为ni、步长为1、补零参数的值为0,第i个信息提取块中的第二卷积层的卷积核大小为3×3、卷积核个数为ni、步长为1、补零参数的值为0,第i个信息提取块中的第三卷积层的卷积核大小为3×3、卷积核个数为ni、步长为1、补零参数的值为1,i=1,2,第一激活层、第二激活层、第三激活层、第四激活层的激活方式为“Relu”,第一最大池化层和第一平均池化层的卷积核大小为2×2、步长为2、补零参数的值为0,第一上采样层的放大倍数为2、插值方法为双线性插值。
所述的步骤1_2中,5个特征重塑块的结构相同,其由上下文注意力块和通道注意力块组成,对于第1个特征重塑块,其对S1中的所有特征图和F1中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S1中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F2;对于第2个特征重塑块,其对S2中的所有特征图和F3中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S2中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F4;对于第3个特征重塑块,其对S3中的所有特征图和F5中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S3中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F6;对于第4个特征重塑块,其对S4中的所有特征图和F7中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S4中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F8;对于第5个特征重塑块,其对S5中的所有特征图和F9中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S5中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F10。
所述的步骤1_2中,4个信息重塑块的结构相同,其由第二最大池化层、第二平均池化层、第4个卷积块、第5个卷积块组成,第4个卷积块包括依次连接的第五卷积层和第五激活层,第5个卷积块包括依次连接的第六卷积层、第六激活层、第七卷积层、第七激活层,第1个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F2中的所有特征图、第六卷积层的输入端接收D2中的所有特征图,第2个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F4中的所有特征图、第六卷积层的输入端接收D3中的所有特征图,第3个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F6中的所有特征图、第六卷积层的输入端接收D4中的所有特征图,第4个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F8中的所有特征图、第六卷积层的输入端接收D5中的所有特征图,对第二最大池化层的输出端输出的所有特征图和第二平均池化层的输出端输出的所有特征图进行元素相减操作,第五卷积层的输入端接收元素相减操作后得到的所有特征图,对第五激活层的输出端输出的所有特征图和第七激活层的输出端输出的所有特征图进行元素相乘操作,对第五激活层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行元素相加操作,对于第1个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F3,对于第2个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F5,对于第3个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F7,对于第4个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F9;其中,设定第j个信息重塑块的第一输入端的输入通道数为n1j、第二输入端的输入通道数为n2j,则第1个信息重塑块的第一输入端的输入通道数n11=64、第二输入端的输入通道数n21=128,第2个信息重塑块的第一输入端的输入通道数n12=128、第二输入端的输入通道数n22=256,第3个信息重塑块的第一输入端的输入通道数n13=256、第二输入端的输入通道数n23=512,第4个信息重塑块的第一输入端的输入通道数n14=512、第二输入端的输入通道数n24=512,j=1,2,3,4,第j个信息重塑块中的第五卷积层的卷积核大小为1×1、卷积核个数为n2j、步长为1、补零参数的值为0,第j个信息重塑块中的第六卷积层的卷积核大小为1×1、卷积核个数为n2j、步长为1、补零参数的值为0,第j个信息重塑块中的第七卷积层的卷积核大小为3×3、卷积核个数为n2j、步长为1、补零参数的值为1,第五激活层、第六激活层、第七激活层的激活方式为“Relu”,第二最大池化层和第二平均池化层的卷积核大小为2×2、步长为2、补零参数的值为0,对第二最大池化层的输出端输出的所有特征图和第二平均池化层的输出端输出的所有特征图进行元素相减操作时为第二最大池化层的输出端输出的特征图中的元素减去第二平均池化层的输出端输出的对应的特征图中的对应元素。
所述的步骤1_2中,5个特征聚合块的结构相同,其由第6个卷积块、第7个卷积块、第8个卷积块、第9个卷积块、第10个卷积块、第11个卷积块、第12个卷积块、第13个卷积块、第二上采样层、残差融合块组成,第6个卷积块包括依次连接的第八卷积层和第八激活层,第7个卷积块包括依次连接的第九卷积层和第九激活层,第8个卷积块包括依次连接的第十卷积层和第十激活层,第9个卷积块包括依次连接的第十一卷积层和第十一激活层,第10个卷积块包括依次连接的第十二卷积层和第十二激活层,第11个卷积块包括依次连接的第十三卷积层和第十三激活层,第12个卷积块包括依次连接的第十四卷积层和第十四激活层,第13个卷积块包括依次连接的第十五卷积层和第十五激活层,残差融合块包括依次连接的第十六激活层、第三最大池化层、第十六卷积层,第1个特征聚合块中的第八卷积层的输入端接收F10中的所有特征图、第九卷积层的输入端接收P5中的所有特征图、第二上采样层的输入端接收F11中的所有特征图,第2个特征聚合块的第八卷积层的输入端接收F8中的所有特征图、第九卷积层的输入端接收P4中的所有特征图、第二上采样层的输入端接收A1中的所有特征图,第3个特征聚合块的第八卷积层的输入端接收F6中的所有特征图、第九卷积层的输入端接收P3中的所有特征图、第二上采样层的输入端接收A2中的所有特征图,第4个特征聚合块的第八卷积层的输入端接收F4中的所有特征图、第九卷积层的输入端接收P2中的所有特征图、第二上采样层的输入端接收A3中的所有特征图,第5个特征聚合块的第八卷积层的输入端接收F2中的所有特征图、第九卷积层的输入端接收P1中的所有特征图、第二上采样层的输入端接收A4中的所有特征图,对第八激活层的输出端输出的所有特征图和第九激活层的输出端输出的所有特征图分别进行通道四等分切割,各按序分成四份,对第八激活层的输出端输出的所有特征图的第1份和第九激活层的输出端输出的所有特征图的第1份进行第一通道数叠加操作,对第八激活层的输出端输出的所有特征图的第2份和第九激活层的输出端输出的所有特征图的第2份进行第二通道数叠加操作,对第八激活层的输出端输出的所有特征图的第3份和第九激活层的输出端输出的所有特征图的第3份进行第三通道数叠加操作,对第八激活层的输出端输出的所有特征图的第4份和第九激活层的输出端输出的所有特征图的第4份进行第四通道数叠加操作,第十卷积层的输入端接收第二上采样层的输出端输出的所有特征图,第十一卷积层的输入端接收第一通道数叠加操作后得到的所有特征图,第十二卷积层的输入端接收第二通道数叠加操作后得到的所有特征图,第十三卷积层的输入端接收第三通道数叠加操作后得到的所有特征图,第十四卷积层的输入端接收第四通道数叠加操作后得到的所有特征图,对第十一激活层的输出端输出的所有特征图、第十二激活层的输出端输出的所有特征图、第十三激活层的输出端输出的所有特征图、第十四激活层的输出端输出的所有特征图进行第五通道数叠加操作,第十五卷积层的输入端接收第五通道数叠加操作后得到的所有特征图,对第十激活层的输出端输出的所有特征图和第十五激活层的输出端输出的所有特征图进行元素相乘操作,对第十激活层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行第一元素相加操作,第十六激活层的输入端接收第一元素相加操作后得到的所有特征图,对第十六卷积层的输出端输出的所有特征图和第一元素相加操作后得到的所有特征图进行第二元素相加操作,对于第1个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A1,对于第2个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A2,对于第3个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A3,对于第4个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A4,对于第5个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A5;其中,设定第m个特征聚合块的第一输入端的输入通道数为n1m、第二输入端的输入通道数为n2m、第三输入端的输入通道数为n3m,第1个特征聚合块的第一输入端的输入通道数n11=512、第二输入端的输入通道数n21=512、第三输入端的输入通道数n31=512,第2个特征聚合块的第一输入端的输入通道数n12=512、第二输入端的输入通道数n22=512、第三输入端的输入通道数n32=256,第3个特征聚合块的第一输入端的输入通道数n13=256、第二输入端的输入通道数n23=256、第三输入端的输入通道数n33=128,第4个特征聚合块的第一输入端的输入通道数n14=128、第二输入端的输入通道数n24=128、第三输入端的输入通道数n34=64,第5个特征聚合块的第一输入端的输入通道数n15=64、第二输入端的输入通道数n25=64、第三输入端的输入通道数n35=32,第m个特征聚合块中的第八卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为1,第m个特征聚合块中的第九卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为1,第m个特征聚合块中的第十卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为1,第m个特征聚合块中的第十一卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十二卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十三卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十四卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十五卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为0,第m个特征聚合块中的第十六卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为0,m=1,2,3,4,5,第八激活层、第九激活层、第十激活层、第十一激活层、第十二激活层、第十三激活层、第十四激活层、第十五激活层、第十六激活层的激活方式为“Relu”,第三最大池化层的卷积核大小为5×5、步长为1、补零参数的值为2,第二上采样层的放大倍数为2、插值方法为双线性插值。
与现有技术相比,本发明的优点在于:
1)本发明方法构建的卷积神经网络是一种双流端到端的交互循环特征重塑网络体系结构,两个模态的信息流相互通信,以提取足够的互补信息,同时抑制彼此的背景噪声,使得训练得到的卷积神经网络训练模型具有更好的显著性检测性能。
2)本发明方法构建的卷积神经网络中设计了信息提取块,它可以通过池化操作进一步提取浅层深度图的前景信息和深层彩色图的前景信息,有利于信息的充分提取,从而使得训练得到的卷积神经网络训练模型能够有效地检测出显著对象。
3)本发明方法构建的卷积神经网络中设计了特征重塑块和信息重塑块,特征重塑块以深度信息为权重融合彩色信息,信息重塑块将特征重塑块的融合信息与相邻深度信息再次融合,以获得互补的上下文特征,从而使得训练得到的卷积神经网络训练模型能够有效地检测出显著对象。
4)本发明方法构建的卷积神经网络中设计了特征聚合块,其将两个模态的局部特征和全局特征进行充分地融合,从而使得训练得到的卷积神经网络训练模型能够有效地检测出显著对象。
附图说明
图1为本发明方法构建的端到端的卷积神经网络的组成结构示意图;
图2为本发明方法构建的端到端的卷积神经网络中的信息提取块的组成结构示意图;
图3为本发明方法构建的端到端的卷积神经网络中的特征重塑块的组成结构示意图;
图4为本发明方法构建的端到端的卷积神经网络中的信息重塑块的组成结构示意图;
图5为本发明方法构建的端到端的卷积神经网络中的特征聚合块的组成结构示意图;
图6a为待显著性检测的第1对3D图像的RGB图像;
图6b为待显著性检测的第1对3D图像的深度图像;
图6c为利用本发明方法对图6a和图6b进行处理得到的显著性预测图像;
图6d为待显著性检测的第1对3D图像对应的标签图像;
图7a为待显著性检测的第2对3D图像的RGB图像;
图7b为待显著性检测的第2对3D图像的深度图像;
图7c为利用本发明方法对图7a和图7b进行处理得到的显著性预测图像;
图7d为待显著性检测的第2对3D图像对应的标签图像;
图8a为待显著性检测的第3对3D图像的RGB图像;
图8b为待显著性检测的第3对3D图像的深度图像;
图8c为利用本发明方法对图8a和图8b进行处理得到的显著性预测图像;
图8d为待显著性检测的第3对3D图像对应的标签图像;
图9a为待显著性检测的第4对3D图像的RGB图像;
图9b为待显著性检测的第4对3D图像的深度图像;
图9c为利用本发明方法对图9a和图9b进行处理得到的显著性预测图像;
图9d为待显著性检测的第4对3D图像对应的标签图像;
图10a为利用本发明方法对NJU2K数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图;
图10b为利用本发明方法对NLPR数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种交互循环特征重塑的显著性图像检测方法,其包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N对原始3D图像及每对原始3D图像对应的标签图像,将第k对原始3D图像的RGB图像记为
Figure BDA0002819462340000141
将第k对原始3D图像的深度图像记为
Figure BDA0002819462340000142
将第k对原始3D图像对应的真实显著检测图像作为标签图像,并记为
Figure BDA0002819462340000143
然后将所有原始3D图像的RGB图像、深度图像、对应的标签图像构成训练集;其中,每对原始3D图像包含一幅RGB图像和一幅深度图像,N为正整数,N≥200,如取N=600,k为正整数,1≤k≤N,1≤x≤W,1≤y≤H,W表示原始3D图像及其RGB图像、深度图像、对应的标签图像的宽度,H表示原始3D图像及其RGB图像、深度图像、对应的标签图像的高度,在本实施例中取W=H=224,
Figure BDA0002819462340000144
表示
Figure BDA0002819462340000145
中坐标位置为(x,y)的像素点的像素值,
Figure BDA0002819462340000146
表示
Figure BDA0002819462340000147
中坐标位置为(x,y)的像素点的像素值,
Figure BDA0002819462340000148
表示
Figure BDA0002819462340000149
中坐标位置为(x,y)的像素点的像素值。
步骤1_2:构建端到端的卷积神经网络:如图1所示,该卷积神经网络包括输入层、编码部分、解码部分和输出层,输入层包括RGB图输入层和深度图输入层,编码部分包括10个神经网络块,解码部分包括2个信息提取块、5个特征重塑块、4个信息重塑块、5个膨胀卷积块、5个特征聚合块;输出层包括输出卷积层,输出卷积层的卷积核大小为3×3、卷积核个数为1、步长为1,输出卷积层为常用的卷积层。
对于输入层中的RGB图输入层,其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给编码部分;其中,原始RGB图像的宽度为W、高度为H。
对于输入层中的深度图输入层,其输入端接收一幅原始深度图像通过采用复制方法处理成的三通道深度图,其输出端输出三通道深度图给编码部分;其中,原始深度图像的宽度为W、高度为H。
对于编码部分,第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块依次连接构成彩色编码流,第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块依次连接构成深度编码流;第1个神经网络块的输入端接收RGB图输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S1,S1中的每幅特征图的宽度为W、高度为H;第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S2,S2中的每幅特征图的宽度为
Figure BDA0002819462340000151
高度为
Figure BDA0002819462340000152
第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S3,S3中的每幅特征图的宽度为
Figure BDA0002819462340000153
高度为
Figure BDA0002819462340000154
第4个神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S4,S4中的每幅特征图的宽度为
Figure BDA0002819462340000155
高度为
Figure BDA0002819462340000156
第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S5,S5中的每幅特征图的宽度为
Figure BDA0002819462340000157
高度为
Figure BDA0002819462340000158
第6个神经网络块的输入端接收深度图输入层的输出端输出的三通道深度图,第6个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为D1,D1中的每幅特征图的宽度为W、高度为H;第7个神经网络块的输入端接收D1中的所有特征图,第7个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为D2,D2中的每幅特征图的宽度为
Figure BDA0002819462340000161
高度为
Figure BDA0002819462340000162
第8个神经网络块的输入端接收D2中的所有特征图,第8个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为D3,D3中的每幅特征图的宽度为
Figure BDA0002819462340000163
高度为
Figure BDA0002819462340000164
第9个神经网络块的输入端接收D3中的所有特征图,第9个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为D4,D4中的每幅特征图的宽度为
Figure BDA0002819462340000165
高度为
Figure BDA0002819462340000166
第10个神经网络块的输入端接收D4中的所有特征图,第10个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为D5,D5中的每幅特征图的宽度为
Figure BDA0002819462340000167
高度为
Figure BDA0002819462340000168
编码部分提供S1、S2、S3、S4、S5、D1、D2、D3、D4、D5中的所有特征图给解码部分。
对于解码部分,第1个信息提取块的输入端接收D1中的所有特征图,第1个信息提取块的输出端输出64幅特征图,将这64幅特征图构成的集合记为F1,F1中的每幅特征图的宽度为W、高度为H;第1个特征重塑块的第一输入端接收S1中的所有特征图,第1个特征重塑块的第二输入端接收F1中的所有特征图,第1个特征重塑块的输出端输出64幅特征图,将这64幅特征图构成的集合记为F2,F2中的每幅特征图的宽度为W、高度为H;第1个信息重塑块的第一输入端接收F2中的所有特征图,第1个信息重塑块的第二输入端接收D2中的所有特征图,第1个信息重塑块的输出端输出128幅特征图,将这128幅特征图构成的集合记为F3,F3中的每幅特征图的宽度为
Figure BDA0002819462340000169
高度为
Figure BDA00028194623400001610
第2个特征重塑块的第一输入端接收S2中的所有特征图,第2个特征重塑块的第二输入端接收F3中的所有特征图,第2个特征重塑块的输出端输出128幅特征图,将这128幅特征图构成的集合记为F4,F4中的每幅特征图的宽度为
Figure BDA00028194623400001611
高度为
Figure BDA00028194623400001612
第2个信息重塑块的第一输入端接收F4中的所有特征图,第2个信息重塑块的第二输入端接收D3中的所有特征图,第2个信息重塑块的输出端输出256幅特征图,将这256幅特征图构成的集合记为F5,F5中的每幅特征图的宽度为
Figure BDA00028194623400001613
高度为
Figure BDA00028194623400001614
第3个特征重塑块的第一输入端接收S3中的所有特征图,第3个特征重塑块的第二输入端接收F5中的所有特征图,第3个特征重塑块的输出端输出256幅特征图,将这256幅特征图构成的集合记为F6,F6中的每幅特征图的宽度为
Figure BDA00028194623400001615
高度为
Figure BDA00028194623400001616
第3个信息重塑块的第一输入端接收F6中的所有特征图,第3个信息重塑块的第二输入端接收D4中的所有特征图,第3个信息重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F7,F7中的每幅特征图的宽度为
Figure BDA0002819462340000171
高度为
Figure BDA0002819462340000172
第4个特征重塑块的第一输入端接收S4中的所有特征图,第4个特征重塑块的第二输入端接收F7中的所有特征图,第4个特征重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F8,F8中的每幅特征图的宽度为
Figure BDA0002819462340000173
高度为
Figure BDA0002819462340000174
第4个信息重塑块的第一输入端接收F8中的所有特征图,第4个信息重塑块的第二输入端接收D5中的所有特征图,第4个信息重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F9,F9中的每幅特征图的宽度为
Figure BDA0002819462340000175
高度为
Figure BDA0002819462340000176
第5个特征重塑块的第一输入端接收S5中的所有特征图,第5个特征重塑块的第二输入端接收F9中的所有特征图,第5个特征重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F10,F10中的每幅特征图的宽度为
Figure BDA0002819462340000177
高度为
Figure BDA0002819462340000178
第2个信息提取块的输入端接收S5中的所有特征图,第2个信息提取块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F11,F11中的每幅特征图的宽度为
Figure BDA0002819462340000179
高度为
Figure BDA00028194623400001710
第1个膨胀卷积块的输入端接收D1中的所有特征图,第1个膨胀卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为P1,P1中的每幅特征图的宽度为W、高度为H;第2个膨胀卷积块的输入端接收D2中的所有特征图,第2个膨胀卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为P2,P2中的每幅特征图的宽度为
Figure BDA00028194623400001711
高度为
Figure BDA00028194623400001712
第3个膨胀卷积块的输入端接收D3中的所有特征图,第3个膨胀卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为P3,P3中的每幅特征图的宽度为
Figure BDA00028194623400001713
高度为
Figure BDA00028194623400001714
第4个膨胀卷积块的输入端接收D4中的所有特征图,第4个膨胀卷积块的输出端输出512幅特征图,将这512幅特征图构成的集合记为P4,P4中的每幅特征图的宽度为
Figure BDA00028194623400001715
高度为
Figure BDA00028194623400001716
第5个膨胀卷积块的输入端接收D5中的所有特征图,第5个膨胀卷积块的输出端输出512幅特征图,将这512幅特征图构成的集合记为P5,P5中的每幅特征图的宽度为
Figure BDA00028194623400001717
高度为
Figure BDA00028194623400001718
第1个特征聚合块的第一输入端接收F10中的所有特征图,第1个特征聚合块的第二输入端接收P5中的所有特征图,第1个特征聚合块的第三输入端接收F11中的所有特征图,第1个特征聚合块的输出端输出256幅特征图,将这256幅特征图构成的集合记为A1,A1中的每幅特征图的宽度为
Figure BDA0002819462340000181
高度为
Figure BDA0002819462340000182
第2个特征聚合块的第一输入端接收F8中的所有特征图,第2个特征聚合块的第二输入端接收P4中的所有特征图,第2个特征聚合块的第三输入端接收A1中的所有特征图,第2个特征聚合块的输出端输出128幅特征图,将这128幅特征图构成的集合记为A2,A2中的每幅特征图的宽度为
Figure BDA0002819462340000183
高度为
Figure BDA0002819462340000184
第3个特征聚合块的第一输入端接收F6中的所有特征图,第3个特征聚合块的第二输入端接收P3中的所有特征图,第3个特征聚合块的第三输入端接收A2中的所有特征图,第3个特征聚合块的输出端输出64幅特征图,将这64幅特征图构成的集合记为A3,A3中的每幅特征图的宽度为
Figure BDA0002819462340000185
高度为
Figure BDA0002819462340000186
第4个特征聚合块的第一输入端接收F4中的所有特征图,第4个特征聚合块的第二输入端接收P2中的所有特征图,第4个特征聚合块的第三输入端接收A3中的所有特征图,第4个特征聚合块的输出端输出32幅特征图,将这32幅特征图构成的集合记为A4,A4中的每幅特征图的宽度为
Figure BDA0002819462340000187
高度为
Figure BDA0002819462340000188
第5个特征聚合块的第一输入端接收F2中的所有特征图,第5个特征聚合块的第二输入端接收P1中的所有特征图,第5个特征聚合块的第三输入端接收A4中的所有特征图,第5个特征聚合块的输出端输出16幅特征图,将这16幅特征图构成的集合记为A5,A5中的每幅特征图的宽度为W、高度为H;解码部分提供A5中的所有特征图给输出层。
对于输出层,其输出卷积层的输入端接收A5中的所有特征图,其输出卷积层的输出端输出一幅宽度为W、高度为H的特征图,作为显著性检测图。
步骤1_3:将训练集中的所有原始3D图像的RGB图像的R通道分量、G通道分量和B通道分量及深度图像经复制后得到的三通道深度图输入到卷积神经网络中进行训练,得到每对原始3D图像对应的显著性检测图,将第k对原始3D图像对应的显著性检测图记为
Figure BDA0002819462340000189
其中,
Figure BDA00028194623400001810
表示
Figure BDA00028194623400001811
中坐标位置为(x,y)的像素点的像素值。
步骤1_4:计算每对原始3D图像对应的显著性检测图与对应的标签图像之间的损失函数值,将
Figure BDA00028194623400001812
Figure BDA00028194623400001813
之间的损失函数值记为
Figure BDA0002819462340000191
在本实施例中损失函数值采用现有的二分类交叉熵求出。
步骤1_5:重复执行步骤1_3和步骤1_4共M次,得到卷积神经网络训练模型,共得到N×M个损失函数值;然后将每次执行得到的N个损失函数值的和除以N作为该次执行得到的最终损失函数值,共得到M个最终损失函数值;再从M个最终损失函数值中找出值最小的最终损失函数值,将最小的最终损失函数值相应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,M>1,在本实施例中取M=1025。
所述的测试阶段过程的具体步骤为:
步骤2_1:将待显著性检测的3D图像的RGB图像的R通道分量、G通道分量和B通道分量及深度图像经复制后得到的三通道深度图输入到卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,预测得到对应的显著性预测图像。
在本实施例中,步骤1_2中,2个信息提取块的结构相同,如图2所示,其由第1个卷积块、第一最大池化层(Maximum pooling,MaxPool)、第一平均池化层(Average pooling,AvePool)、第2个卷积块、第3个卷积块、第一上采样层组成,第1个卷积块包括依次连接的第一卷积层(Convolution,Conv)、第一激活层(Activation,Act)、第二卷积层、第二激活层,第2个卷积块包括依次连接的第三卷积层和第三激活层,第3个卷积块包括依次连接的第四卷积层和第四激活层,第1个信息提取块中的第一卷积层的输入端接收D1中的所有特征图,第2个信息提取块中的第一卷积层的输入端接收S5中的所有特征图,第一最大池化层的输入端、第一平均池化层的输入端、第三卷积层的输入端均接收第四激活层的输出端输出的所有特征图,对第一最大池化层的输出端输出的所有特征图和第一平均池化层的输出端输出的所有特征图进行通道数叠加操作,第四卷积层的输入端接收通道数叠加操作后得到的所有特征图,第一上采样层的输入端接收第四激活层的输出端输出的所有特征图,对第一上采样层的输出端输出的所有特征图和第三激活层的输出端输出的所有特征图进行元素相乘操作,对第一上采样层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行元素相加操作,对于第1个信息提取块,元素相加操作后得到的所有特征图构成的集合为F1,对于第2个信息提取块,元素相加操作后得到的所有特征图构成的集合为F11;其中,设定第i个信息提取块的输入通道数为ni,则第1个信息提取块的输入通道数n1=64,第2个信息提取块的输入通道数n2=512,第i个信息提取块中的第一卷积层和第四卷积层的卷积核(kernel_size)大小为1×1、卷积核(filters)个数为ni、步长(stride)为1、补零参数(padding)的值为0,第i个信息提取块中的第二卷积层的卷积核大小为3×3、卷积核个数为ni、步长为1、补零参数的值为0,第i个信息提取块中的第三卷积层的卷积核大小为3×3、卷积核个数为ni、步长为1、补零参数的值为1,i=1,2,第一激活层、第二激活层、第三激活层、第四激活层的激活方式为“Relu”,第一最大池化层和第一平均池化层的卷积核大小为2×2、步长为2、补零参数的值为0,第一上采样层的放大倍数(scale factor)为2、插值方法为双线性插值(bilinear)。在此,通道数叠加操作、元素相乘操作、元素相加操作均为现有技术。图2中的C表示通道数叠加操作,+表示元素相加操作,×表示元素相乘操作。
在本实施例中,步骤1_2中,5个特征重塑块的结构相同,如图3所示,其由上下文注意力块和通道注意力块组成,对于第1个特征重塑块,其对S1中的所有特征图和F1中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S1中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F2;对于第2个特征重塑块,其对S2中的所有特征图和F3中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S2中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F4;对于第3个特征重塑块,其对S3中的所有特征图和F5中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S3中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F6;对于第4个特征重塑块,其对S4中的所有特征图和F7中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S4中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F8;对于第5个特征重塑块,其对S5中的所有特征图和F9中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S5中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F10。在此,上下文注意力块和通道注意力块引用自论文M.Zhang,S.-X.Fei,J.Liu,S.Xu,Y.Piao,andH.Lu,“Asymmetric two-stream architecture for accurate rgb-d saliencydetection,”in Proceedings of European Conference on Computer Vision,2020.(张淼,费孙萧,刘杰,徐爽,朴勇日和卢湖川,“用于精确的rgb-d显着性检测的非对称两流架构”,计算机视觉的欧洲会议论文集,2020年)中的DAM模块。图3中的+表示元素相加操作,×表示元素相乘操作。
在本实施例中,步骤1_2中,4个信息重塑块的结构相同,如图4所示,其由第二最大池化层、第二平均池化层、第4个卷积块、第5个卷积块组成,第4个卷积块包括依次连接的第五卷积层和第五激活层,第5个卷积块包括依次连接的第六卷积层、第六激活层、第七卷积层、第七激活层,第1个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F2中的所有特征图、第六卷积层的输入端接收D2中的所有特征图,第2个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F4中的所有特征图、第六卷积层的输入端接收D3中的所有特征图,第3个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F6中的所有特征图、第六卷积层的输入端接收D4中的所有特征图,第4个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F8中的所有特征图、第六卷积层的输入端接收D5中的所有特征图,对第二最大池化层的输出端输出的所有特征图和第二平均池化层的输出端输出的所有特征图进行元素相减操作,第五卷积层的输入端接收元素相减操作后得到的所有特征图,对第五激活层的输出端输出的所有特征图和第七激活层的输出端输出的所有特征图进行元素相乘操作,对第五激活层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行元素相加操作,对于第1个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F3,对于第2个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F5,对于第3个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F7,对于第4个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F9;其中,设定第j个信息重塑块的第一输入端的输入通道数为n1j、第二输入端的输入通道数为n2j,则第1个信息重塑块的第一输入端的输入通道数n11=64、第二输入端的输入通道数n21=128,第2个信息重塑块的第一输入端的输入通道数n12=128、第二输入端的输入通道数n22=256,第3个信息重塑块的第一输入端的输入通道数n13=256、第二输入端的输入通道数n23=512,第4个信息重塑块的第一输入端的输入通道数n14=512、第二输入端的输入通道数n24=512,j=1,2,3,4,第j个信息重塑块中的第五卷积层的卷积核大小为1×1、卷积核个数为n2j、步长为1、补零参数的值为0,第j个信息重塑块中的第六卷积层的卷积核大小为1×1、卷积核个数为n2j、步长为1、补零参数的值为0,第j个信息重塑块中的第七卷积层的卷积核大小为3×3、卷积核个数为n2j、步长为1、补零参数的值为1,第五激活层、第六激活层、第七激活层的激活方式为“Relu”,第二最大池化层和第二平均池化层的卷积核大小为2×2、步长为2、补零参数的值为0,对第二最大池化层的输出端输出的所有特征图和第二平均池化层的输出端输出的所有特征图进行元素相减操作时为第二最大池化层的输出端输出的特征图中的元素减去第二平均池化层的输出端输出的对应的特征图中的对应元素。在此,元素相减操作、元素相乘操作、元素相加操作均为现有技术。图4中的-表示元素相减操作,+表示元素相加操作,×表示元素相乘操作。
在本实施例中,步骤1_2中,5个特征聚合块的结构相同,如图5所示,其由第6个卷积块、第7个卷积块、第8个卷积块、第9个卷积块、第10个卷积块、第11个卷积块、第12个卷积块、第13个卷积块、第二上采样层、残差融合块组成,第6个卷积块包括依次连接的第八卷积层和第八激活层,第7个卷积块包括依次连接的第九卷积层和第九激活层,第8个卷积块包括依次连接的第十卷积层和第十激活层,第9个卷积块包括依次连接的第十一卷积层和第十一激活层,第10个卷积块包括依次连接的第十二卷积层和第十二激活层,第11个卷积块包括依次连接的第十三卷积层和第十三激活层,第12个卷积块包括依次连接的第十四卷积层和第十四激活层,第13个卷积块包括依次连接的第十五卷积层和第十五激活层,残差融合块包括依次连接的第十六激活层、第三最大池化层、第十六卷积层,第1个特征聚合块中的第八卷积层的输入端接收F10中的所有特征图、第九卷积层的输入端接收P5中的所有特征图、第二上采样层的输入端接收F11中的所有特征图,第2个特征聚合块的第八卷积层的输入端接收F8中的所有特征图、第九卷积层的输入端接收P4中的所有特征图、第二上采样层的输入端接收A1中的所有特征图,第3个特征聚合块的第八卷积层的输入端接收F6中的所有特征图、第九卷积层的输入端接收P3中的所有特征图、第二上采样层的输入端接收A2中的所有特征图,第4个特征聚合块的第八卷积层的输入端接收F4中的所有特征图、第九卷积层的输入端接收P2中的所有特征图、第二上采样层的输入端接收A3中的所有特征图,第5个特征聚合块的第八卷积层的输入端接收F2中的所有特征图、第九卷积层的输入端接收P1中的所有特征图、第二上采样层的输入端接收A4中的所有特征图,对第八激活层的输出端输出的所有特征图和第九激活层的输出端输出的所有特征图分别进行通道四等分切割,各按序分成四份,对第八激活层的输出端输出的所有特征图的第1份和第九激活层的输出端输出的所有特征图的第1份进行第一通道数叠加操作,对第八激活层的输出端输出的所有特征图的第2份和第九激活层的输出端输出的所有特征图的第2份进行第二通道数叠加操作,对第八激活层的输出端输出的所有特征图的第3份和第九激活层的输出端输出的所有特征图的第3份进行第三通道数叠加操作,对第八激活层的输出端输出的所有特征图的第4份和第九激活层的输出端输出的所有特征图的第4份进行第四通道数叠加操作,第十卷积层的输入端接收第二上采样层的输出端输出的所有特征图,第十一卷积层的输入端接收第一通道数叠加操作后得到的所有特征图,第十二卷积层的输入端接收第二通道数叠加操作后得到的所有特征图,第十三卷积层的输入端接收第三通道数叠加操作后得到的所有特征图,第十四卷积层的输入端接收第四通道数叠加操作后得到的所有特征图,对第十一激活层的输出端输出的所有特征图、第十二激活层的输出端输出的所有特征图、第十三激活层的输出端输出的所有特征图、第十四激活层的输出端输出的所有特征图进行第五通道数叠加操作,第十五卷积层的输入端接收第五通道数叠加操作后得到的所有特征图,对第十激活层的输出端输出的所有特征图和第十五激活层的输出端输出的所有特征图进行元素相乘操作,对第十激活层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行第一元素相加操作,第十六激活层的输入端接收第一元素相加操作后得到的所有特征图,对第十六卷积层的输出端输出的所有特征图和第一元素相加操作后得到的所有特征图进行第二元素相加操作,对于第1个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A1,对于第2个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A2,对于第3个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A3,对于第4个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A4,对于第5个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A5;其中,设定第m个特征聚合块的第一输入端的输入通道数为n1m、第二输入端的输入通道数为n2m、第三输入端的输入通道数为n3m,第1个特征聚合块的第一输入端的输入通道数n11=512、第二输入端的输入通道数n21=512、第三输入端的输入通道数n31=512,第2个特征聚合块的第一输入端的输入通道数n12=512、第二输入端的输入通道数n22=512、第三输入端的输入通道数n32=256,第3个特征聚合块的第一输入端的输入通道数n13=256、第二输入端的输入通道数n23=256、第三输入端的输入通道数n33=128,第4个特征聚合块的第一输入端的输入通道数n14=128、第二输入端的输入通道数n24=128、第三输入端的输入通道数n34=64,第5个特征聚合块的第一输入端的输入通道数n15=64、第二输入端的输入通道数n25=64、第三输入端的输入通道数n35=32,第m个特征聚合块中的第八卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为1,第m个特征聚合块中的第九卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为1,第m个特征聚合块中的第十卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为1,第m个特征聚合块中的第十一卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十二卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十三卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十四卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十五卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为0,第m个特征聚合块中的第十六卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为0,m=1,2,3,4,5,第八激活层、第九激活层、第十激活层、第十一激活层、第十二激活层、第十三激活层、第十四激活层、第十五激活层、第十六激活层的激活方式为“Relu”,第三最大池化层的卷积核大小为5×5、步长为1、补零参数的值为2,第二上采样层的放大倍数为2、插值方法为双线性插值。在此,通道数叠加操作、元素相乘操作、元素相加操作均为现有技术。图5中的C表示通道数叠加操作,+表示元素相加操作,×表示元素相乘操作。
在本实施例中,10个神经网络块的结构相同,采用现有的VGG-16模型中的神经网络块的结构;5个膨胀卷积块的结构相同,引用自S.Liu,and D.Huang,“Receptive fieldblock net for accurate and fast object detection”,In Proceedings of theEuropean Conference on Computer Vision,2018,pp.385-400(刘宋涛和黄迪,“能够精确,快速地检测物体的接收场块网”,欧洲计算机视觉会议论文集,2018年第385-400页)中的RFB模块。
为进一步说明本发明方法的可行性和有效性,对本发明方法进行实验。
利用pytorch库python语言编写代码对本发明方法进行实验,实验设备为英特尔i5-7500处理器,NVIDIA TITAN XP-12GB显卡下使用cuda加速。为保证实验的严谨性,本实验选定数据集为NJU2K和NLPR,均为知名公开数据集。NJU2K包含1485对3D图像,1400对3D图像用于训练,85对3D图像用于检测;NLPR包含730对3D图像,650对3D图像用于训练,80对3D图像用于检测。
在本实验中,利用评估显著性检测方法的4个常用客观参量作为评价指标:S↑(Structure-measure),用来评估显著性检测图与标签图像中显著区域的结构相似性;adpE↑度量值、adpF↑度量值、MAE↓平均绝对误差(Mean Absolute Error)用来评价显著性检测图的检测性能,通过计算精准率和召回率求出用来评价检测方法好坏的重要指标。
利用本发明方法生成的显著性检测图通过与标签图像对比,分别用S↑,adpE↑,adpF↑,MAE↓来作为评价指标评价本发明方法的好坏,两个数据集的评价指标如表1所列,由表1所列的数据可见本发明方法在两个数据集上的表现是优秀的。
表1本发明方法在两个数据集上的评测结果
Figure BDA0002819462340000261
图6a为待显著性检测的第1对3D图像的RGB图像,图6b为待显著性检测的第1对3D图像的深度图像,图6c为利用本发明方法对图6a和图6b进行处理得到的显著性预测图像,图6d为待显著性检测的第1对3D图像对应的标签图像;图7a为待显著性检测的第2对3D图像的RGB图像,图7b为待显著性检测的第2对3D图像的深度图像,图7c为利用本发明方法对图7a和图7b进行处理得到的显著性预测图像,图7d为待显著性检测的第2对3D图像对应的标签图像;图8a为待显著性检测的第3对3D图像的RGB图像,图8b为待显著性检测的第3对3D图像的深度图像,图8c为利用本发明方法对图8a和图8b进行处理得到的显著性预测图像,图8d为待显著性检测的第3对3D图像对应的标签图像;图9a为待显著性检测的第4对3D图像的RGB图像,图9b为待显著性检测的第4对3D图像的深度图像,图9c为利用本发明方法对图9a和图9b进行处理得到的显著性预测图像,图9d为待显著性检测的第4对3D图像对应的标签图像。图6a和图6b、图7a和图7b、图8a和图8b、图9a和图9b为具有代表性的3D图像,其包含有多个对象、小对象和复杂的突出对象,利用本发明方法对这些具有代表性的3D图像进行处理,显著性预测图像对应参见图6c、图7c、图8c、图9c,对应与图6d、图7d、图8d、图9d比较,可以发现利用本发明方法能够精准地捕捉这些3D图像中的显著区域。
图10a为利用本发明方法对NJU2K数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图,图10b为利用本发明方法对NLPR数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图。从图10a和图10b中可以看出,PR曲线下方的面积较大,说明本发明方法具有良好的检测性能。图10a和图10b中Precision代表“精准率”,Recall代表“召回率”。

Claims (5)

1.一种交互循环特征重塑的显著性图像检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N对原始3D图像及每对原始3D图像对应的标签图像,将第k对原始3D图像的RGB图像记为
Figure FDA0002819462330000011
将第k对原始3D图像的深度图像记为
Figure FDA0002819462330000012
将第k对原始3D图像对应的真实显著检测图像作为标签图像,并记为
Figure FDA0002819462330000013
然后将所有原始3D图像的RGB图像、深度图像、对应的标签图像构成训练集;其中,N为正整数,N≥200,k为正整数,1≤k≤N,1≤x≤W,1≤y≤H,W表示原始3D图像及其RGB图像、深度图像、对应的标签图像的宽度,H表示原始3D图像及其RGB图像、深度图像、对应的标签图像的高度,
Figure FDA0002819462330000014
表示
Figure FDA0002819462330000015
中坐标位置为(x,y)的像素点的像素值,
Figure FDA0002819462330000016
表示
Figure FDA0002819462330000017
中坐标位置为(x,y)的像素点的像素值,
Figure FDA0002819462330000018
表示
Figure FDA0002819462330000019
中坐标位置为(x,y)的像素点的像素值;
步骤1_2:构建端到端的卷积神经网络:该卷积神经网络包括输入层、编码部分、解码部分和输出层,输入层包括RGB图输入层和深度图输入层,编码部分包括10个神经网络块,解码部分包括2个信息提取块、5个特征重塑块、4个信息重塑块、5个膨胀卷积块、5个特征聚合块;输出层包括输出卷积层,输出卷积层的卷积核大小为3×3、卷积核个数为1、步长为1;
对于输入层中的RGB图输入层,其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给编码部分;其中,原始RGB图像的宽度为W、高度为H;
对于输入层中的深度图输入层,其输入端接收一幅原始深度图像通过采用复制方法处理成的三通道深度图,其输出端输出三通道深度图给编码部分;其中,原始深度图像的宽度为W、高度为H;
对于编码部分,第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块依次连接构成彩色编码流,第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块依次连接构成深度编码流;第1个神经网络块的输入端接收RGB图输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S1,S1中的每幅特征图的宽度为W、高度为H;第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S2,S2中的每幅特征图的宽度为
Figure FDA0002819462330000021
高度为
Figure FDA0002819462330000022
第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S3,S3中的每幅特征图的宽度为
Figure FDA0002819462330000023
高度为
Figure FDA0002819462330000024
第4个神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S4,S4中的每幅特征图的宽度为
Figure FDA0002819462330000025
高度为
Figure FDA0002819462330000026
第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S5,S5中的每幅特征图的宽度为
Figure FDA0002819462330000027
高度为
Figure FDA0002819462330000028
第6个神经网络块的输入端接收深度图输入层的输出端输出的三通道深度图,第6个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为D1,D1中的每幅特征图的宽度为W、高度为H;第7个神经网络块的输入端接收D1中的所有特征图,第7个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为D2,D2中的每幅特征图的宽度为
Figure FDA0002819462330000029
高度为
Figure FDA00028194623300000210
第8个神经网络块的输入端接收D2中的所有特征图,第8个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为D3,D3中的每幅特征图的宽度为
Figure FDA00028194623300000211
高度为
Figure FDA00028194623300000212
第9个神经网络块的输入端接收D3中的所有特征图,第9个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为D4,D4中的每幅特征图的宽度为
Figure FDA00028194623300000213
高度为
Figure FDA00028194623300000214
第10个神经网络块的输入端接收D4中的所有特征图,第10个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为D5,D5中的每幅特征图的宽度为
Figure FDA00028194623300000215
高度为
Figure FDA00028194623300000216
编码部分提供S1、S2、S3、S4、S5、D1、D2、D3、D4、D5中的所有特征图给解码部分;
对于解码部分,第1个信息提取块的输入端接收D1中的所有特征图,第1个信息提取块的输出端输出64幅特征图,将这64幅特征图构成的集合记为F1,F1中的每幅特征图的宽度为W、高度为H;第1个特征重塑块的第一输入端接收S1中的所有特征图,第1个特征重塑块的第二输入端接收F1中的所有特征图,第1个特征重塑块的输出端输出64幅特征图,将这64幅特征图构成的集合记为F2,F2中的每幅特征图的宽度为W、高度为H;第1个信息重塑块的第一输入端接收F2中的所有特征图,第1个信息重塑块的第二输入端接收D2中的所有特征图,第1个信息重塑块的输出端输出128幅特征图,将这128幅特征图构成的集合记为F3,F3中的每幅特征图的宽度为
Figure FDA0002819462330000031
高度为
Figure FDA0002819462330000032
第2个特征重塑块的第一输入端接收S2中的所有特征图,第2个特征重塑块的第二输入端接收F3中的所有特征图,第2个特征重塑块的输出端输出128幅特征图,将这128幅特征图构成的集合记为F4,F4中的每幅特征图的宽度为
Figure FDA0002819462330000033
高度为
Figure FDA0002819462330000034
第2个信息重塑块的第一输入端接收F4中的所有特征图,第2个信息重塑块的第二输入端接收D3中的所有特征图,第2个信息重塑块的输出端输出256幅特征图,将这256幅特征图构成的集合记为F5,F5中的每幅特征图的宽度为
Figure FDA0002819462330000035
高度为
Figure FDA0002819462330000036
第3个特征重塑块的第一输入端接收S3中的所有特征图,第3个特征重塑块的第二输入端接收F5中的所有特征图,第3个特征重塑块的输出端输出256幅特征图,将这256幅特征图构成的集合记为F6,F6中的每幅特征图的宽度为
Figure FDA0002819462330000037
高度为
Figure FDA0002819462330000038
第3个信息重塑块的第一输入端接收F6中的所有特征图,第3个信息重塑块的第二输入端接收D4中的所有特征图,第3个信息重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F7,F7中的每幅特征图的宽度为
Figure FDA0002819462330000039
高度为
Figure FDA00028194623300000310
第4个特征重塑块的第一输入端接收S4中的所有特征图,第4个特征重塑块的第二输入端接收F7中的所有特征图,第4个特征重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F8,F8中的每幅特征图的宽度为
Figure FDA00028194623300000311
高度为
Figure FDA00028194623300000312
第4个信息重塑块的第一输入端接收F8中的所有特征图,第4个信息重塑块的第二输入端接收D5中的所有特征图,第4个信息重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F9,F9中的每幅特征图的宽度为
Figure FDA0002819462330000041
高度为
Figure FDA0002819462330000042
第5个特征重塑块的第一输入端接收S5中的所有特征图,第5个特征重塑块的第二输入端接收F9中的所有特征图,第5个特征重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F10,F10中的每幅特征图的宽度为
Figure FDA0002819462330000043
高度为
Figure FDA0002819462330000044
第2个信息提取块的输入端接收S5中的所有特征图,第2个信息提取块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F11,F11中的每幅特征图的宽度为
Figure FDA0002819462330000045
高度为
Figure FDA0002819462330000046
第1个膨胀卷积块的输入端接收D1中的所有特征图,第1个膨胀卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为P1,P1中的每幅特征图的宽度为W、高度为H;第2个膨胀卷积块的输入端接收D2中的所有特征图,第2个膨胀卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为P2,P2中的每幅特征图的宽度为
Figure FDA0002819462330000047
高度为
Figure FDA0002819462330000048
第3个膨胀卷积块的输入端接收D3中的所有特征图,第3个膨胀卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为P3,P3中的每幅特征图的宽度为
Figure FDA0002819462330000049
高度为
Figure FDA00028194623300000410
第4个膨胀卷积块的输入端接收D4中的所有特征图,第4个膨胀卷积块的输出端输出512幅特征图,将这512幅特征图构成的集合记为P4,P4中的每幅特征图的宽度为
Figure FDA00028194623300000411
高度为
Figure FDA00028194623300000412
第5个膨胀卷积块的输入端接收D5中的所有特征图,第5个膨胀卷积块的输出端输出512幅特征图,将这512幅特征图构成的集合记为P5,P5中的每幅特征图的宽度为
Figure FDA00028194623300000413
高度为
Figure FDA00028194623300000414
第1个特征聚合块的第一输入端接收F10中的所有特征图,第1个特征聚合块的第二输入端接收P5中的所有特征图,第1个特征聚合块的第三输入端接收F11中的所有特征图,第1个特征聚合块的输出端输出256幅特征图,将这256幅特征图构成的集合记为A1,A1中的每幅特征图的宽度为
Figure FDA00028194623300000415
高度为
Figure FDA00028194623300000416
第2个特征聚合块的第一输入端接收F8中的所有特征图,第2个特征聚合块的第二输入端接收P4中的所有特征图,第2个特征聚合块的第三输入端接收A1中的所有特征图,第2个特征聚合块的输出端输出128幅特征图,将这128幅特征图构成的集合记为A2,A2中的每幅特征图的宽度为
Figure FDA00028194623300000417
高度为
Figure FDA00028194623300000418
第3个特征聚合块的第一输入端接收F6中的所有特征图,第3个特征聚合块的第二输入端接收P3中的所有特征图,第3个特征聚合块的第三输入端接收A2中的所有特征图,第3个特征聚合块的输出端输出64幅特征图,将这64幅特征图构成的集合记为A3,A3中的每幅特征图的宽度为
Figure FDA0002819462330000051
高度为
Figure FDA0002819462330000052
第4个特征聚合块的第一输入端接收F4中的所有特征图,第4个特征聚合块的第二输入端接收P2中的所有特征图,第4个特征聚合块的第三输入端接收A3中的所有特征图,第4个特征聚合块的输出端输出32幅特征图,将这32幅特征图构成的集合记为A4,A4中的每幅特征图的宽度为
Figure FDA0002819462330000053
高度为
Figure FDA0002819462330000054
第5个特征聚合块的第一输入端接收F2中的所有特征图,第5个特征聚合块的第二输入端接收P1中的所有特征图,第5个特征聚合块的第三输入端接收A4中的所有特征图,第5个特征聚合块的输出端输出16幅特征图,将这16幅特征图构成的集合记为A5,A5中的每幅特征图的宽度为W、高度为H;解码部分提供A5中的所有特征图给输出层;
对于输出层,其输出卷积层的输入端接收A5中的所有特征图,其输出卷积层的输出端输出一幅宽度为W、高度为H的特征图,作为显著性检测图;
步骤1_3:将训练集中的所有原始3D图像的RGB图像的R通道分量、G通道分量和B通道分量及深度图像经复制后得到的三通道深度图输入到卷积神经网络中进行训练,得到每对原始3D图像对应的显著性检测图,将第k对原始3D图像对应的显著性检测图记为
Figure FDA0002819462330000055
其中,
Figure FDA0002819462330000056
表示
Figure FDA0002819462330000057
中坐标位置为(x,y)的像素点的像素值;
步骤1_4:计算每对原始3D图像对应的显著性检测图与对应的标签图像之间的损失函数值,将
Figure FDA0002819462330000058
Figure FDA0002819462330000059
之间的损失函数值记为
Figure FDA00028194623300000510
步骤1_5:重复执行步骤1_3和步骤1_4共M次,得到卷积神经网络训练模型,共得到N×M个损失函数值;然后将每次执行得到的N个损失函数值的和除以N作为该次执行得到的最终损失函数值,共得到M个最终损失函数值;再从M个最终损失函数值中找出值最小的最终损失函数值,将最小的最终损失函数值相应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,M>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:将待显著性检测的3D图像的RGB图像的R通道分量、G通道分量和B通道分量及深度图像经复制后得到的三通道深度图输入到卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,预测得到对应的显著性预测图像。
2.根据权利要求1所述的一种交互循环特征重塑的显著性图像检测方法,其特征在于所述的步骤1_2中,2个信息提取块的结构相同,其由第1个卷积块、第一最大池化层、第一平均池化层、第2个卷积块、第3个卷积块、第一上采样层组成,第1个卷积块包括依次连接的第一卷积层、第一激活层、第二卷积层、第二激活层,第2个卷积块包括依次连接的第三卷积层和第三激活层,第3个卷积块包括依次连接的第四卷积层和第四激活层,第1个信息提取块中的第一卷积层的输入端接收D1中的所有特征图,第2个信息提取块中的第一卷积层的输入端接收S5中的所有特征图,第一最大池化层的输入端、第一平均池化层的输入端、第三卷积层的输入端均接收第四激活层的输出端输出的所有特征图,对第一最大池化层的输出端输出的所有特征图和第一平均池化层的输出端输出的所有特征图进行通道数叠加操作,第四卷积层的输入端接收通道数叠加操作后得到的所有特征图,第一上采样层的输入端接收第四激活层的输出端输出的所有特征图,对第一上采样层的输出端输出的所有特征图和第三激活层的输出端输出的所有特征图进行元素相乘操作,对第一上采样层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行元素相加操作,对于第1个信息提取块,元素相加操作后得到的所有特征图构成的集合为F1,对于第2个信息提取块,元素相加操作后得到的所有特征图构成的集合为F11;其中,设定第i个信息提取块的输入通道数为ni,则第1个信息提取块的输入通道数n1=64,第2个信息提取块的输入通道数n2=512,第i个信息提取块中的第一卷积层和第四卷积层的卷积核大小为1×1、卷积核个数为ni、步长为1、补零参数的值为0,第i个信息提取块中的第二卷积层的卷积核大小为3×3、卷积核个数为ni、步长为1、补零参数的值为0,第i个信息提取块中的第三卷积层的卷积核大小为3×3、卷积核个数为ni、步长为1、补零参数的值为1,i=1,2,第一激活层、第二激活层、第三激活层、第四激活层的激活方式为“Relu”,第一最大池化层和第一平均池化层的卷积核大小为2×2、步长为2、补零参数的值为0,第一上采样层的放大倍数为2、插值方法为双线性插值。
3.根据权利要求1所述的一种交互循环特征重塑的显著性图像检测方法,其特征在于所述的步骤1_2中,5个特征重塑块的结构相同,其由上下文注意力块和通道注意力块组成,对于第1个特征重塑块,其对S1中的所有特征图和F1中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S1中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F2;对于第2个特征重塑块,其对S2中的所有特征图和F3中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S2中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F4;对于第3个特征重塑块,其对S3中的所有特征图和F5中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S3中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F6;对于第4个特征重塑块,其对S4中的所有特征图和F7中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S4中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F8;对于第5个特征重塑块,其对S5中的所有特征图和F9中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S5中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F10。
4.根据权利要求1所述的一种交互循环特征重塑的显著性图像检测方法,其特征在于所述的步骤1_2中,4个信息重塑块的结构相同,其由第二最大池化层、第二平均池化层、第4个卷积块、第5个卷积块组成,第4个卷积块包括依次连接的第五卷积层和第五激活层,第5个卷积块包括依次连接的第六卷积层、第六激活层、第七卷积层、第七激活层,第1个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F2中的所有特征图、第六卷积层的输入端接收D2中的所有特征图,第2个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F4中的所有特征图、第六卷积层的输入端接收D3中的所有特征图,第3个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F6中的所有特征图、第六卷积层的输入端接收D4中的所有特征图,第4个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F8中的所有特征图、第六卷积层的输入端接收D5中的所有特征图,对第二最大池化层的输出端输出的所有特征图和第二平均池化层的输出端输出的所有特征图进行元素相减操作,第五卷积层的输入端接收元素相减操作后得到的所有特征图,对第五激活层的输出端输出的所有特征图和第七激活层的输出端输出的所有特征图进行元素相乘操作,对第五激活层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行元素相加操作,对于第1个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F3,对于第2个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F5,对于第3个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F7,对于第4个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F9;其中,设定第j个信息重塑块的第一输入端的输入通道数为n1j、第二输入端的输入通道数为n2j,则第1个信息重塑块的第一输入端的输入通道数n11=64、第二输入端的输入通道数n21=128,第2个信息重塑块的第一输入端的输入通道数n12=128、第二输入端的输入通道数n22=256,第3个信息重塑块的第一输入端的输入通道数n13=256、第二输入端的输入通道数n23=512,第4个信息重塑块的第一输入端的输入通道数n14=512、第二输入端的输入通道数n24=512,j=1,2,3,4,第j个信息重塑块中的第五卷积层的卷积核大小为1×1、卷积核个数为n2j、步长为1、补零参数的值为0,第j个信息重塑块中的第六卷积层的卷积核大小为1×1、卷积核个数为n2j、步长为1、补零参数的值为0,第j个信息重塑块中的第七卷积层的卷积核大小为3×3、卷积核个数为n2j、步长为1、补零参数的值为1,第五激活层、第六激活层、第七激活层的激活方式为“Relu”,第二最大池化层和第二平均池化层的卷积核大小为2×2、步长为2、补零参数的值为0,对第二最大池化层的输出端输出的所有特征图和第二平均池化层的输出端输出的所有特征图进行元素相减操作时为第二最大池化层的输出端输出的特征图中的元素减去第二平均池化层的输出端输出的对应的特征图中的对应元素。
5.根据权利要求1所述的一种交互循环特征重塑的显著性图像检测方法,其特征在于所述的步骤1_2中,5个特征聚合块的结构相同,其由第6个卷积块、第7个卷积块、第8个卷积块、第9个卷积块、第10个卷积块、第11个卷积块、第12个卷积块、第13个卷积块、第二上采样层、残差融合块组成,第6个卷积块包括依次连接的第八卷积层和第八激活层,第7个卷积块包括依次连接的第九卷积层和第九激活层,第8个卷积块包括依次连接的第十卷积层和第十激活层,第9个卷积块包括依次连接的第十一卷积层和第十一激活层,第10个卷积块包括依次连接的第十二卷积层和第十二激活层,第11个卷积块包括依次连接的第十三卷积层和第十三激活层,第12个卷积块包括依次连接的第十四卷积层和第十四激活层,第13个卷积块包括依次连接的第十五卷积层和第十五激活层,残差融合块包括依次连接的第十六激活层、第三最大池化层、第十六卷积层,第1个特征聚合块中的第八卷积层的输入端接收F10中的所有特征图、第九卷积层的输入端接收P5中的所有特征图、第二上采样层的输入端接收F11中的所有特征图,第2个特征聚合块的第八卷积层的输入端接收F8中的所有特征图、第九卷积层的输入端接收P4中的所有特征图、第二上采样层的输入端接收A1中的所有特征图,第3个特征聚合块的第八卷积层的输入端接收F6中的所有特征图、第九卷积层的输入端接收P3中的所有特征图、第二上采样层的输入端接收A2中的所有特征图,第4个特征聚合块的第八卷积层的输入端接收F4中的所有特征图、第九卷积层的输入端接收P2中的所有特征图、第二上采样层的输入端接收A3中的所有特征图,第5个特征聚合块的第八卷积层的输入端接收F2中的所有特征图、第九卷积层的输入端接收P1中的所有特征图、第二上采样层的输入端接收A4中的所有特征图,对第八激活层的输出端输出的所有特征图和第九激活层的输出端输出的所有特征图分别进行通道四等分切割,各按序分成四份,对第八激活层的输出端输出的所有特征图的第1份和第九激活层的输出端输出的所有特征图的第1份进行第一通道数叠加操作,对第八激活层的输出端输出的所有特征图的第2份和第九激活层的输出端输出的所有特征图的第2份进行第二通道数叠加操作,对第八激活层的输出端输出的所有特征图的第3份和第九激活层的输出端输出的所有特征图的第3份进行第三通道数叠加操作,对第八激活层的输出端输出的所有特征图的第4份和第九激活层的输出端输出的所有特征图的第4份进行第四通道数叠加操作,第十卷积层的输入端接收第二上采样层的输出端输出的所有特征图,第十一卷积层的输入端接收第一通道数叠加操作后得到的所有特征图,第十二卷积层的输入端接收第二通道数叠加操作后得到的所有特征图,第十三卷积层的输入端接收第三通道数叠加操作后得到的所有特征图,第十四卷积层的输入端接收第四通道数叠加操作后得到的所有特征图,对第十一激活层的输出端输出的所有特征图、第十二激活层的输出端输出的所有特征图、第十三激活层的输出端输出的所有特征图、第十四激活层的输出端输出的所有特征图进行第五通道数叠加操作,第十五卷积层的输入端接收第五通道数叠加操作后得到的所有特征图,对第十激活层的输出端输出的所有特征图和第十五激活层的输出端输出的所有特征图进行元素相乘操作,对第十激活层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行第一元素相加操作,第十六激活层的输入端接收第一元素相加操作后得到的所有特征图,对第十六卷积层的输出端输出的所有特征图和第一元素相加操作后得到的所有特征图进行第二元素相加操作,对于第1个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A1,对于第2个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A2,对于第3个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A3,对于第4个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A4,对于第5个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A5;其中,设定第m个特征聚合块的第一输入端的输入通道数为n1m、第二输入端的输入通道数为n2m、第三输入端的输入通道数为n3m,第1个特征聚合块的第一输入端的输入通道数n11=512、第二输入端的输入通道数n21=512、第三输入端的输入通道数n31=512,第2个特征聚合块的第一输入端的输入通道数n12=512、第二输入端的输入通道数n22=512、第三输入端的输入通道数n32=256,第3个特征聚合块的第一输入端的输入通道数n13=256、第二输入端的输入通道数n23=256、第三输入端的输入通道数n33=128,第4个特征聚合块的第一输入端的输入通道数n14=128、第二输入端的输入通道数n24=128、第三输入端的输入通道数n34=64,第5个特征聚合块的第一输入端的输入通道数n15=64、第二输入端的输入通道数n25=64、第三输入端的输入通道数n35=32,第m个特征聚合块中的第八卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为1,第m个特征聚合块中的第九卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为1,第m个特征聚合块中的第十卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为1,第m个特征聚合块中的第十一卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十二卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十三卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十四卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十五卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为0,第m个特征聚合块中的第十六卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为0,m=1,2,3,4,5,第八激活层、第九激活层、第十激活层、第十一激活层、第十二激活层、第十三激活层、第十四激活层、第十五激活层、第十六激活层的激活方式为“Relu”,第三最大池化层的卷积核大小为5×5、步长为1、补零参数的值为2,第二上采样层的放大倍数为2、插值方法为双线性插值。
CN202011413838.5A 2020-12-07 2020-12-07 一种交互循环特征重塑的显著性图像检测方法 Withdrawn CN112529862A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011413838.5A CN112529862A (zh) 2020-12-07 2020-12-07 一种交互循环特征重塑的显著性图像检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011413838.5A CN112529862A (zh) 2020-12-07 2020-12-07 一种交互循环特征重塑的显著性图像检测方法

Publications (1)

Publication Number Publication Date
CN112529862A true CN112529862A (zh) 2021-03-19

Family

ID=74997830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011413838.5A Withdrawn CN112529862A (zh) 2020-12-07 2020-12-07 一种交互循环特征重塑的显著性图像检测方法

Country Status (1)

Country Link
CN (1) CN112529862A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192073A (zh) * 2021-04-06 2021-07-30 浙江科技学院 基于交叉融合网络的服装语义分割方法
CN113313077A (zh) * 2021-06-30 2021-08-27 浙江科技学院 基于多策略和交叉特征融合的显著物体检测方法
CN113538442A (zh) * 2021-06-04 2021-10-22 杭州电子科技大学 一种使用自适应特征融合的rgb-d显著目标检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192073A (zh) * 2021-04-06 2021-07-30 浙江科技学院 基于交叉融合网络的服装语义分割方法
CN113538442A (zh) * 2021-06-04 2021-10-22 杭州电子科技大学 一种使用自适应特征融合的rgb-d显著目标检测方法
CN113538442B (zh) * 2021-06-04 2024-04-09 杭州电子科技大学 一种使用自适应特征融合的rgb-d显著目标检测方法
CN113313077A (zh) * 2021-06-30 2021-08-27 浙江科技学院 基于多策略和交叉特征融合的显著物体检测方法

Similar Documents

Publication Publication Date Title
Zhang et al. Canet: Class-agnostic segmentation networks with iterative refinement and attentive few-shot learning
CN110782462B (zh) 一种基于双流特征融合的语义分割方法
Chen et al. Banet: Bidirectional aggregation network with occlusion handling for panoptic segmentation
CN112529862A (zh) 一种交互循环特征重塑的显著性图像检测方法
CN110490082B (zh) 一种有效融合神经网络特征的道路场景语义分割方法
CN112597985B (zh) 一种基于多尺度特征融合的人群计数方法
CN110246148B (zh) 多模态的深度信息融合和注意力学习的显著性检测方法
Zeng et al. LEARD-Net: Semantic segmentation for large-scale point cloud scene
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
Li et al. Joint semantic-instance segmentation method for intelligent transportation system
CN110458178B (zh) 多模态多拼接的rgb-d显著性目标检测方法
CN113192073A (zh) 基于交叉融合网络的服装语义分割方法
CN112801068A (zh) 一种视频多目标跟踪与分割***和方法
CN114419406A (zh) 图像变化检测方法、训练方法、装置和计算机设备
CN112836602A (zh) 基于时空特征融合的行为识别方法、装置、设备及介质
Ha et al. Deep neural networks using residual fast-slow refined highway and global atomic spatial attention for action recognition and detection
CN112801063A (zh) 神经网络***和基于神经网络***的图像人群计数方法
Yang et al. Xception-based general forensic method on small-size images
Zhu et al. MDAFormer: Multi-level difference aggregation transformer for change detection of VHR optical imagery
Park et al. Pyramid attention upsampling module for object detection
Zhang et al. LDD-Net: Lightweight printed circuit board defect detection network fusing multi-scale features
CN112801029B (zh) 基于注意力机制的多任务学习方法
CN114037056A (zh) 一种生成神经网络的方法、装置、计算机设备和存储介质
CN113313077A (zh) 基于多策略和交叉特征融合的显著物体检测方法
CN112348011B (zh) 一种车辆定损方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210319