CN112529862A - 一种交互循环特征重塑的显著性图像检测方法 - Google Patents
一种交互循环特征重塑的显著性图像检测方法 Download PDFInfo
- Publication number
- CN112529862A CN112529862A CN202011413838.5A CN202011413838A CN112529862A CN 112529862 A CN112529862 A CN 112529862A CN 202011413838 A CN202011413838 A CN 202011413838A CN 112529862 A CN112529862 A CN 112529862A
- Authority
- CN
- China
- Prior art keywords
- feature maps
- block
- feature
- layer
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 64
- 238000007634 remodeling Methods 0.000 title claims abstract description 12
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 9
- 230000002776 aggregation Effects 0.000 claims abstract description 146
- 238000004220 aggregation Methods 0.000 claims abstract description 146
- 238000013528 artificial neural network Methods 0.000 claims abstract description 96
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000000605 extraction Methods 0.000 claims abstract description 54
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000012360 testing method Methods 0.000 claims abstract description 6
- 238000011176 pooling Methods 0.000 claims description 82
- 230000004913 activation Effects 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 28
- 238000005070 sampling Methods 0.000 claims description 23
- 230000004927 fusion Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 230000003321 amplification Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 11
- 238000005096 rolling process Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 16
- 238000011156 evaluation Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000008961 swelling Effects 0.000 description 2
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种交互循环特征重塑的显著性图像检测方法,其在训练阶段构建卷积神经网络,包括输入层、编码部分、解码部分和输出层,编码部分包括神经网络块,解码部分包括信息提取块、特征重塑块、信息重塑块、膨胀卷积块、特征聚合块;将3D图像的RGB图像的三通道及深度图像经处理后得到的三通道深度图输入到卷积神经网络中进行训练,得到显著性检测图;通过计算显著性检测图与标签图像之间的损失函数值,得到最优权值矢量和最优偏置项;在测试阶段将待检测3D图像的RGB图像的三通道及深度图像对应的三通道深度图输入到卷积神经网络训练模型中,利用最优权值矢量和最优偏置项进行预测,得到显著性预测图像;优点是显著性检测结果清晰,检测精度高。
Description
技术领域
本发明涉及一种深度学习的显著性图像检测技术,尤其是涉及一种交互循环特征重塑的显著性图像检测方法。
背景技术
随着人工智能在计算机领域的快速发展,图像的显著性检测已成为越来越受关注的研究领域。显著对象检测(Salient Object Detection,SOD)旨在将视觉上最独特的对象与输入图像区分开来,在过去的几十年中,已经开发了数百种传统的方法来解决突出对象检测的任务,它是许多图像处理和计算机视觉任务中的一个有效的预处理步骤,例如对象分割和跟踪、视频压缩、图像编辑、纹理平滑等。最近的工作是利用卷积神经网络(CNN)来学习检测突出对象的深层特征,这些卷积神经网络模型采用编码解码结构,结构简单,计算效率高。在编码解码结构中,编码器通常利用预先训练的分类模型(例如ResNet和VGG),提取不同语义层次和分辨率的多个特征;解码器将提取的特征组合起来生成显著图。现有的利用卷积神经网络的编码解码结构的显著性检测方法颇有成效,但是,在准确性上仍然存在挑战。例如:不同语义层次和分辨率的特征具有不同的分布特点,高层次特征具有丰富的语义信息,但缺乏准确的位置信息;低层次特征具有丰富的细节,但充满背景噪声,导致融合高层次特征和低层次特征的方法的检测准确性仍不是很理想。对于不同模态的特征来说,RGB信息与深度信息都存在杂乱的背景信息,如何有效区分背景与前景,从而生成更好的显著性图像,仍然需要进一步深入研究。
发明内容
本发明所要解决的技术问题是提供一种交互循环特征重塑的显著性图像检测方法,其显著性检测结果清晰,检测精度高。
本发明解决上述技术问题所采用的技术方案为:一种交互循环特征重塑的显著性图像检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N对原始3D图像及每对原始3D图像对应的标签图像,将第k对原始3D图像的RGB图像记为将第k对原始3D图像的深度图像记为将第k对原始3D图像对应的真实显著检测图像作为标签图像,并记为然后将所有原始3D图像的RGB图像、深度图像、对应的标签图像构成训练集;其中,N为正整数,N≥200,k为正整数,1≤k≤N,1≤x≤W,1≤y≤H,W表示原始3D图像及其RGB图像、深度图像、对应的标签图像的宽度,H表示原始3D图像及其RGB图像、深度图像、对应的标签图像的高度,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;
步骤1_2:构建端到端的卷积神经网络:该卷积神经网络包括输入层、编码部分、解码部分和输出层,输入层包括RGB图输入层和深度图输入层,编码部分包括10个神经网络块,解码部分包括2个信息提取块、5个特征重塑块、4个信息重塑块、5个膨胀卷积块、5个特征聚合块;输出层包括输出卷积层,输出卷积层的卷积核大小为3×3、卷积核个数为1、步长为1;
对于输入层中的RGB图输入层,其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给编码部分;其中,原始RGB图像的宽度为W、高度为H;
对于输入层中的深度图输入层,其输入端接收一幅原始深度图像通过采用复制方法处理成的三通道深度图,其输出端输出三通道深度图给编码部分;其中,原始深度图像的宽度为W、高度为H;
对于编码部分,第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块依次连接构成彩色编码流,第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块依次连接构成深度编码流;第1个神经网络块的输入端接收RGB图输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S1,S1中的每幅特征图的宽度为W、高度为H;第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S2,S2中的每幅特征图的宽度为高度为第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S3,S3中的每幅特征图的宽度为高度为第4个神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S4,S4中的每幅特征图的宽度为高度为第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S5,S5中的每幅特征图的宽度为高度为第6个神经网络块的输入端接收深度图输入层的输出端输出的三通道深度图,第6个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为D1,D1中的每幅特征图的宽度为W、高度为H;第7个神经网络块的输入端接收D1中的所有特征图,第7个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为D2,D2中的每幅特征图的宽度为高度为第8个神经网络块的输入端接收D2中的所有特征图,第8个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为D3,D3中的每幅特征图的宽度为高度为第9个神经网络块的输入端接收D3中的所有特征图,第9个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为D4,D4中的每幅特征图的宽度为高度为第10个神经网络块的输入端接收D4中的所有特征图,第10个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为D5,D5中的每幅特征图的宽度为高度为编码部分提供S1、S2、S3、S4、S5、D1、D2、D3、D4、D5中的所有特征图给解码部分;
对于解码部分,第1个信息提取块的输入端接收D1中的所有特征图,第1个信息提取块的输出端输出64幅特征图,将这64幅特征图构成的集合记为F1,F1中的每幅特征图的宽度为W、高度为H;第1个特征重塑块的第一输入端接收S1中的所有特征图,第1个特征重塑块的第二输入端接收F1中的所有特征图,第1个特征重塑块的输出端输出64幅特征图,将这64幅特征图构成的集合记为F2,F2中的每幅特征图的宽度为W、高度为H;第1个信息重塑块的第一输入端接收F2中的所有特征图,第1个信息重塑块的第二输入端接收D2中的所有特征图,第1个信息重塑块的输出端输出128幅特征图,将这128幅特征图构成的集合记为F3,F3中的每幅特征图的宽度为高度为第2个特征重塑块的第一输入端接收S2中的所有特征图,第2个特征重塑块的第二输入端接收F3中的所有特征图,第2个特征重塑块的输出端输出128幅特征图,将这128幅特征图构成的集合记为F4,F4中的每幅特征图的宽度为高度为第2个信息重塑块的第一输入端接收F4中的所有特征图,第2个信息重塑块的第二输入端接收D3中的所有特征图,第2个信息重塑块的输出端输出256幅特征图,将这256幅特征图构成的集合记为F5,F5中的每幅特征图的宽度为高度为第3个特征重塑块的第一输入端接收S3中的所有特征图,第3个特征重塑块的第二输入端接收F5中的所有特征图,第3个特征重塑块的输出端输出256幅特征图,将这256幅特征图构成的集合记为F6,F6中的每幅特征图的宽度为高度为第3个信息重塑块的第一输入端接收F6中的所有特征图,第3个信息重塑块的第二输入端接收D4中的所有特征图,第3个信息重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F7,F7中的每幅特征图的宽度为高度为第4个特征重塑块的第一输入端接收S4中的所有特征图,第4个特征重塑块的第二输入端接收F7中的所有特征图,第4个特征重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F8,F8中的每幅特征图的宽度为高度为第4个信息重塑块的第一输入端接收F8中的所有特征图,第4个信息重塑块的第二输入端接收D5中的所有特征图,第4个信息重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F9,F9中的每幅特征图的宽度为高度为第5个特征重塑块的第一输入端接收S5中的所有特征图,第5个特征重塑块的第二输入端接收F9中的所有特征图,第5个特征重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F10,F10中的每幅特征图的宽度为高度为第2个信息提取块的输入端接收S5中的所有特征图,第2个信息提取块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F11,F11中的每幅特征图的宽度为高度为第1个膨胀卷积块的输入端接收D1中的所有特征图,第1个膨胀卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为P1,P1中的每幅特征图的宽度为W、高度为H;第2个膨胀卷积块的输入端接收D2中的所有特征图,第2个膨胀卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为P2,P2中的每幅特征图的宽度为高度为第3个膨胀卷积块的输入端接收D3中的所有特征图,第3个膨胀卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为P3,P3中的每幅特征图的宽度为高度为第4个膨胀卷积块的输入端接收D4中的所有特征图,第4个膨胀卷积块的输出端输出512幅特征图,将这512幅特征图构成的集合记为P4,P4中的每幅特征图的宽度为高度为第5个膨胀卷积块的输入端接收D5中的所有特征图,第5个膨胀卷积块的输出端输出512幅特征图,将这512幅特征图构成的集合记为P5,P5中的每幅特征图的宽度为高度为第1个特征聚合块的第一输入端接收F10中的所有特征图,第1个特征聚合块的第二输入端接收P5中的所有特征图,第1个特征聚合块的第三输入端接收F11中的所有特征图,第1个特征聚合块的输出端输出256幅特征图,将这256幅特征图构成的集合记为A1,A1中的每幅特征图的宽度为高度为第2个特征聚合块的第一输入端接收F8中的所有特征图,第2个特征聚合块的第二输入端接收P4中的所有特征图,第2个特征聚合块的第三输入端接收A1中的所有特征图,第2个特征聚合块的输出端输出128幅特征图,将这128幅特征图构成的集合记为A2,A2中的每幅特征图的宽度为高度为第3个特征聚合块的第一输入端接收F6中的所有特征图,第3个特征聚合块的第二输入端接收P3中的所有特征图,第3个特征聚合块的第三输入端接收A2中的所有特征图,第3个特征聚合块的输出端输出64幅特征图,将这64幅特征图构成的集合记为A3,A3中的每幅特征图的宽度为高度为第4个特征聚合块的第一输入端接收F4中的所有特征图,第4个特征聚合块的第二输入端接收P2中的所有特征图,第4个特征聚合块的第三输入端接收A3中的所有特征图,第4个特征聚合块的输出端输出32幅特征图,将这32幅特征图构成的集合记为A4,A4中的每幅特征图的宽度为高度为第5个特征聚合块的第一输入端接收F2中的所有特征图,第5个特征聚合块的第二输入端接收P1中的所有特征图,第5个特征聚合块的第三输入端接收A4中的所有特征图,第5个特征聚合块的输出端输出16幅特征图,将这16幅特征图构成的集合记为A5,A5中的每幅特征图的宽度为W、高度为H;解码部分提供A5中的所有特征图给输出层;
对于输出层,其输出卷积层的输入端接收A5中的所有特征图,其输出卷积层的输出端输出一幅宽度为W、高度为H的特征图,作为显著性检测图;
步骤1_3:将训练集中的所有原始3D图像的RGB图像的R通道分量、G通道分量和B通道分量及深度图像经复制后得到的三通道深度图输入到卷积神经网络中进行训练,得到每对原始3D图像对应的显著性检测图,将第k对原始3D图像对应的显著性检测图记为其中,表示中坐标位置为(x,y)的像素点的像素值;
步骤1_5:重复执行步骤1_3和步骤1_4共M次,得到卷积神经网络训练模型,共得到N×M个损失函数值;然后将每次执行得到的N个损失函数值的和除以N作为该次执行得到的最终损失函数值,共得到M个最终损失函数值;再从M个最终损失函数值中找出值最小的最终损失函数值,将最小的最终损失函数值相应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,M>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:将待显著性检测的3D图像的RGB图像的R通道分量、G通道分量和B通道分量及深度图像经复制后得到的三通道深度图输入到卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,预测得到对应的显著性预测图像。
所述的步骤1_2中,2个信息提取块的结构相同,其由第1个卷积块、第一最大池化层、第一平均池化层、第2个卷积块、第3个卷积块、第一上采样层组成,第1个卷积块包括依次连接的第一卷积层、第一激活层、第二卷积层、第二激活层,第2个卷积块包括依次连接的第三卷积层和第三激活层,第3个卷积块包括依次连接的第四卷积层和第四激活层,第1个信息提取块中的第一卷积层的输入端接收D1中的所有特征图,第2个信息提取块中的第一卷积层的输入端接收S5中的所有特征图,第一最大池化层的输入端、第一平均池化层的输入端、第三卷积层的输入端均接收第四激活层的输出端输出的所有特征图,对第一最大池化层的输出端输出的所有特征图和第一平均池化层的输出端输出的所有特征图进行通道数叠加操作,第四卷积层的输入端接收通道数叠加操作后得到的所有特征图,第一上采样层的输入端接收第四激活层的输出端输出的所有特征图,对第一上采样层的输出端输出的所有特征图和第三激活层的输出端输出的所有特征图进行元素相乘操作,对第一上采样层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行元素相加操作,对于第1个信息提取块,元素相加操作后得到的所有特征图构成的集合为F1,对于第2个信息提取块,元素相加操作后得到的所有特征图构成的集合为F11;其中,设定第i个信息提取块的输入通道数为ni,则第1个信息提取块的输入通道数n1=64,第2个信息提取块的输入通道数n2=512,第i个信息提取块中的第一卷积层和第四卷积层的卷积核大小为1×1、卷积核个数为ni、步长为1、补零参数的值为0,第i个信息提取块中的第二卷积层的卷积核大小为3×3、卷积核个数为ni、步长为1、补零参数的值为0,第i个信息提取块中的第三卷积层的卷积核大小为3×3、卷积核个数为ni、步长为1、补零参数的值为1,i=1,2,第一激活层、第二激活层、第三激活层、第四激活层的激活方式为“Relu”,第一最大池化层和第一平均池化层的卷积核大小为2×2、步长为2、补零参数的值为0,第一上采样层的放大倍数为2、插值方法为双线性插值。
所述的步骤1_2中,5个特征重塑块的结构相同,其由上下文注意力块和通道注意力块组成,对于第1个特征重塑块,其对S1中的所有特征图和F1中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S1中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F2;对于第2个特征重塑块,其对S2中的所有特征图和F3中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S2中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F4;对于第3个特征重塑块,其对S3中的所有特征图和F5中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S3中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F6;对于第4个特征重塑块,其对S4中的所有特征图和F7中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S4中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F8;对于第5个特征重塑块,其对S5中的所有特征图和F9中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S5中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F10。
所述的步骤1_2中,4个信息重塑块的结构相同,其由第二最大池化层、第二平均池化层、第4个卷积块、第5个卷积块组成,第4个卷积块包括依次连接的第五卷积层和第五激活层,第5个卷积块包括依次连接的第六卷积层、第六激活层、第七卷积层、第七激活层,第1个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F2中的所有特征图、第六卷积层的输入端接收D2中的所有特征图,第2个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F4中的所有特征图、第六卷积层的输入端接收D3中的所有特征图,第3个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F6中的所有特征图、第六卷积层的输入端接收D4中的所有特征图,第4个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F8中的所有特征图、第六卷积层的输入端接收D5中的所有特征图,对第二最大池化层的输出端输出的所有特征图和第二平均池化层的输出端输出的所有特征图进行元素相减操作,第五卷积层的输入端接收元素相减操作后得到的所有特征图,对第五激活层的输出端输出的所有特征图和第七激活层的输出端输出的所有特征图进行元素相乘操作,对第五激活层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行元素相加操作,对于第1个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F3,对于第2个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F5,对于第3个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F7,对于第4个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F9;其中,设定第j个信息重塑块的第一输入端的输入通道数为n1j、第二输入端的输入通道数为n2j,则第1个信息重塑块的第一输入端的输入通道数n11=64、第二输入端的输入通道数n21=128,第2个信息重塑块的第一输入端的输入通道数n12=128、第二输入端的输入通道数n22=256,第3个信息重塑块的第一输入端的输入通道数n13=256、第二输入端的输入通道数n23=512,第4个信息重塑块的第一输入端的输入通道数n14=512、第二输入端的输入通道数n24=512,j=1,2,3,4,第j个信息重塑块中的第五卷积层的卷积核大小为1×1、卷积核个数为n2j、步长为1、补零参数的值为0,第j个信息重塑块中的第六卷积层的卷积核大小为1×1、卷积核个数为n2j、步长为1、补零参数的值为0,第j个信息重塑块中的第七卷积层的卷积核大小为3×3、卷积核个数为n2j、步长为1、补零参数的值为1,第五激活层、第六激活层、第七激活层的激活方式为“Relu”,第二最大池化层和第二平均池化层的卷积核大小为2×2、步长为2、补零参数的值为0,对第二最大池化层的输出端输出的所有特征图和第二平均池化层的输出端输出的所有特征图进行元素相减操作时为第二最大池化层的输出端输出的特征图中的元素减去第二平均池化层的输出端输出的对应的特征图中的对应元素。
所述的步骤1_2中,5个特征聚合块的结构相同,其由第6个卷积块、第7个卷积块、第8个卷积块、第9个卷积块、第10个卷积块、第11个卷积块、第12个卷积块、第13个卷积块、第二上采样层、残差融合块组成,第6个卷积块包括依次连接的第八卷积层和第八激活层,第7个卷积块包括依次连接的第九卷积层和第九激活层,第8个卷积块包括依次连接的第十卷积层和第十激活层,第9个卷积块包括依次连接的第十一卷积层和第十一激活层,第10个卷积块包括依次连接的第十二卷积层和第十二激活层,第11个卷积块包括依次连接的第十三卷积层和第十三激活层,第12个卷积块包括依次连接的第十四卷积层和第十四激活层,第13个卷积块包括依次连接的第十五卷积层和第十五激活层,残差融合块包括依次连接的第十六激活层、第三最大池化层、第十六卷积层,第1个特征聚合块中的第八卷积层的输入端接收F10中的所有特征图、第九卷积层的输入端接收P5中的所有特征图、第二上采样层的输入端接收F11中的所有特征图,第2个特征聚合块的第八卷积层的输入端接收F8中的所有特征图、第九卷积层的输入端接收P4中的所有特征图、第二上采样层的输入端接收A1中的所有特征图,第3个特征聚合块的第八卷积层的输入端接收F6中的所有特征图、第九卷积层的输入端接收P3中的所有特征图、第二上采样层的输入端接收A2中的所有特征图,第4个特征聚合块的第八卷积层的输入端接收F4中的所有特征图、第九卷积层的输入端接收P2中的所有特征图、第二上采样层的输入端接收A3中的所有特征图,第5个特征聚合块的第八卷积层的输入端接收F2中的所有特征图、第九卷积层的输入端接收P1中的所有特征图、第二上采样层的输入端接收A4中的所有特征图,对第八激活层的输出端输出的所有特征图和第九激活层的输出端输出的所有特征图分别进行通道四等分切割,各按序分成四份,对第八激活层的输出端输出的所有特征图的第1份和第九激活层的输出端输出的所有特征图的第1份进行第一通道数叠加操作,对第八激活层的输出端输出的所有特征图的第2份和第九激活层的输出端输出的所有特征图的第2份进行第二通道数叠加操作,对第八激活层的输出端输出的所有特征图的第3份和第九激活层的输出端输出的所有特征图的第3份进行第三通道数叠加操作,对第八激活层的输出端输出的所有特征图的第4份和第九激活层的输出端输出的所有特征图的第4份进行第四通道数叠加操作,第十卷积层的输入端接收第二上采样层的输出端输出的所有特征图,第十一卷积层的输入端接收第一通道数叠加操作后得到的所有特征图,第十二卷积层的输入端接收第二通道数叠加操作后得到的所有特征图,第十三卷积层的输入端接收第三通道数叠加操作后得到的所有特征图,第十四卷积层的输入端接收第四通道数叠加操作后得到的所有特征图,对第十一激活层的输出端输出的所有特征图、第十二激活层的输出端输出的所有特征图、第十三激活层的输出端输出的所有特征图、第十四激活层的输出端输出的所有特征图进行第五通道数叠加操作,第十五卷积层的输入端接收第五通道数叠加操作后得到的所有特征图,对第十激活层的输出端输出的所有特征图和第十五激活层的输出端输出的所有特征图进行元素相乘操作,对第十激活层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行第一元素相加操作,第十六激活层的输入端接收第一元素相加操作后得到的所有特征图,对第十六卷积层的输出端输出的所有特征图和第一元素相加操作后得到的所有特征图进行第二元素相加操作,对于第1个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A1,对于第2个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A2,对于第3个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A3,对于第4个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A4,对于第5个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A5;其中,设定第m个特征聚合块的第一输入端的输入通道数为n1m、第二输入端的输入通道数为n2m、第三输入端的输入通道数为n3m,第1个特征聚合块的第一输入端的输入通道数n11=512、第二输入端的输入通道数n21=512、第三输入端的输入通道数n31=512,第2个特征聚合块的第一输入端的输入通道数n12=512、第二输入端的输入通道数n22=512、第三输入端的输入通道数n32=256,第3个特征聚合块的第一输入端的输入通道数n13=256、第二输入端的输入通道数n23=256、第三输入端的输入通道数n33=128,第4个特征聚合块的第一输入端的输入通道数n14=128、第二输入端的输入通道数n24=128、第三输入端的输入通道数n34=64,第5个特征聚合块的第一输入端的输入通道数n15=64、第二输入端的输入通道数n25=64、第三输入端的输入通道数n35=32,第m个特征聚合块中的第八卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为1,第m个特征聚合块中的第九卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为1,第m个特征聚合块中的第十卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为1,第m个特征聚合块中的第十一卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十二卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十三卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十四卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十五卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为0,第m个特征聚合块中的第十六卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为0,m=1,2,3,4,5,第八激活层、第九激活层、第十激活层、第十一激活层、第十二激活层、第十三激活层、第十四激活层、第十五激活层、第十六激活层的激活方式为“Relu”,第三最大池化层的卷积核大小为5×5、步长为1、补零参数的值为2,第二上采样层的放大倍数为2、插值方法为双线性插值。
与现有技术相比,本发明的优点在于:
1)本发明方法构建的卷积神经网络是一种双流端到端的交互循环特征重塑网络体系结构,两个模态的信息流相互通信,以提取足够的互补信息,同时抑制彼此的背景噪声,使得训练得到的卷积神经网络训练模型具有更好的显著性检测性能。
2)本发明方法构建的卷积神经网络中设计了信息提取块,它可以通过池化操作进一步提取浅层深度图的前景信息和深层彩色图的前景信息,有利于信息的充分提取,从而使得训练得到的卷积神经网络训练模型能够有效地检测出显著对象。
3)本发明方法构建的卷积神经网络中设计了特征重塑块和信息重塑块,特征重塑块以深度信息为权重融合彩色信息,信息重塑块将特征重塑块的融合信息与相邻深度信息再次融合,以获得互补的上下文特征,从而使得训练得到的卷积神经网络训练模型能够有效地检测出显著对象。
4)本发明方法构建的卷积神经网络中设计了特征聚合块,其将两个模态的局部特征和全局特征进行充分地融合,从而使得训练得到的卷积神经网络训练模型能够有效地检测出显著对象。
附图说明
图1为本发明方法构建的端到端的卷积神经网络的组成结构示意图;
图2为本发明方法构建的端到端的卷积神经网络中的信息提取块的组成结构示意图;
图3为本发明方法构建的端到端的卷积神经网络中的特征重塑块的组成结构示意图;
图4为本发明方法构建的端到端的卷积神经网络中的信息重塑块的组成结构示意图;
图5为本发明方法构建的端到端的卷积神经网络中的特征聚合块的组成结构示意图;
图6a为待显著性检测的第1对3D图像的RGB图像;
图6b为待显著性检测的第1对3D图像的深度图像;
图6c为利用本发明方法对图6a和图6b进行处理得到的显著性预测图像;
图6d为待显著性检测的第1对3D图像对应的标签图像;
图7a为待显著性检测的第2对3D图像的RGB图像;
图7b为待显著性检测的第2对3D图像的深度图像;
图7c为利用本发明方法对图7a和图7b进行处理得到的显著性预测图像;
图7d为待显著性检测的第2对3D图像对应的标签图像;
图8a为待显著性检测的第3对3D图像的RGB图像;
图8b为待显著性检测的第3对3D图像的深度图像;
图8c为利用本发明方法对图8a和图8b进行处理得到的显著性预测图像;
图8d为待显著性检测的第3对3D图像对应的标签图像;
图9a为待显著性检测的第4对3D图像的RGB图像;
图9b为待显著性检测的第4对3D图像的深度图像;
图9c为利用本发明方法对图9a和图9b进行处理得到的显著性预测图像;
图9d为待显著性检测的第4对3D图像对应的标签图像;
图10a为利用本发明方法对NJU2K数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图;
图10b为利用本发明方法对NLPR数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种交互循环特征重塑的显著性图像检测方法,其包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N对原始3D图像及每对原始3D图像对应的标签图像,将第k对原始3D图像的RGB图像记为将第k对原始3D图像的深度图像记为将第k对原始3D图像对应的真实显著检测图像作为标签图像,并记为然后将所有原始3D图像的RGB图像、深度图像、对应的标签图像构成训练集;其中,每对原始3D图像包含一幅RGB图像和一幅深度图像,N为正整数,N≥200,如取N=600,k为正整数,1≤k≤N,1≤x≤W,1≤y≤H,W表示原始3D图像及其RGB图像、深度图像、对应的标签图像的宽度,H表示原始3D图像及其RGB图像、深度图像、对应的标签图像的高度,在本实施例中取W=H=224,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值。
步骤1_2:构建端到端的卷积神经网络:如图1所示,该卷积神经网络包括输入层、编码部分、解码部分和输出层,输入层包括RGB图输入层和深度图输入层,编码部分包括10个神经网络块,解码部分包括2个信息提取块、5个特征重塑块、4个信息重塑块、5个膨胀卷积块、5个特征聚合块;输出层包括输出卷积层,输出卷积层的卷积核大小为3×3、卷积核个数为1、步长为1,输出卷积层为常用的卷积层。
对于输入层中的RGB图输入层,其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给编码部分;其中,原始RGB图像的宽度为W、高度为H。
对于输入层中的深度图输入层,其输入端接收一幅原始深度图像通过采用复制方法处理成的三通道深度图,其输出端输出三通道深度图给编码部分;其中,原始深度图像的宽度为W、高度为H。
对于编码部分,第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块依次连接构成彩色编码流,第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块依次连接构成深度编码流;第1个神经网络块的输入端接收RGB图输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S1,S1中的每幅特征图的宽度为W、高度为H;第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S2,S2中的每幅特征图的宽度为高度为第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S3,S3中的每幅特征图的宽度为高度为第4个神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S4,S4中的每幅特征图的宽度为高度为第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S5,S5中的每幅特征图的宽度为高度为第6个神经网络块的输入端接收深度图输入层的输出端输出的三通道深度图,第6个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为D1,D1中的每幅特征图的宽度为W、高度为H;第7个神经网络块的输入端接收D1中的所有特征图,第7个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为D2,D2中的每幅特征图的宽度为高度为第8个神经网络块的输入端接收D2中的所有特征图,第8个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为D3,D3中的每幅特征图的宽度为高度为第9个神经网络块的输入端接收D3中的所有特征图,第9个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为D4,D4中的每幅特征图的宽度为高度为第10个神经网络块的输入端接收D4中的所有特征图,第10个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为D5,D5中的每幅特征图的宽度为高度为编码部分提供S1、S2、S3、S4、S5、D1、D2、D3、D4、D5中的所有特征图给解码部分。
对于解码部分,第1个信息提取块的输入端接收D1中的所有特征图,第1个信息提取块的输出端输出64幅特征图,将这64幅特征图构成的集合记为F1,F1中的每幅特征图的宽度为W、高度为H;第1个特征重塑块的第一输入端接收S1中的所有特征图,第1个特征重塑块的第二输入端接收F1中的所有特征图,第1个特征重塑块的输出端输出64幅特征图,将这64幅特征图构成的集合记为F2,F2中的每幅特征图的宽度为W、高度为H;第1个信息重塑块的第一输入端接收F2中的所有特征图,第1个信息重塑块的第二输入端接收D2中的所有特征图,第1个信息重塑块的输出端输出128幅特征图,将这128幅特征图构成的集合记为F3,F3中的每幅特征图的宽度为高度为第2个特征重塑块的第一输入端接收S2中的所有特征图,第2个特征重塑块的第二输入端接收F3中的所有特征图,第2个特征重塑块的输出端输出128幅特征图,将这128幅特征图构成的集合记为F4,F4中的每幅特征图的宽度为高度为第2个信息重塑块的第一输入端接收F4中的所有特征图,第2个信息重塑块的第二输入端接收D3中的所有特征图,第2个信息重塑块的输出端输出256幅特征图,将这256幅特征图构成的集合记为F5,F5中的每幅特征图的宽度为高度为第3个特征重塑块的第一输入端接收S3中的所有特征图,第3个特征重塑块的第二输入端接收F5中的所有特征图,第3个特征重塑块的输出端输出256幅特征图,将这256幅特征图构成的集合记为F6,F6中的每幅特征图的宽度为高度为第3个信息重塑块的第一输入端接收F6中的所有特征图,第3个信息重塑块的第二输入端接收D4中的所有特征图,第3个信息重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F7,F7中的每幅特征图的宽度为高度为第4个特征重塑块的第一输入端接收S4中的所有特征图,第4个特征重塑块的第二输入端接收F7中的所有特征图,第4个特征重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F8,F8中的每幅特征图的宽度为高度为第4个信息重塑块的第一输入端接收F8中的所有特征图,第4个信息重塑块的第二输入端接收D5中的所有特征图,第4个信息重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F9,F9中的每幅特征图的宽度为高度为第5个特征重塑块的第一输入端接收S5中的所有特征图,第5个特征重塑块的第二输入端接收F9中的所有特征图,第5个特征重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F10,F10中的每幅特征图的宽度为高度为第2个信息提取块的输入端接收S5中的所有特征图,第2个信息提取块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F11,F11中的每幅特征图的宽度为高度为第1个膨胀卷积块的输入端接收D1中的所有特征图,第1个膨胀卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为P1,P1中的每幅特征图的宽度为W、高度为H;第2个膨胀卷积块的输入端接收D2中的所有特征图,第2个膨胀卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为P2,P2中的每幅特征图的宽度为高度为第3个膨胀卷积块的输入端接收D3中的所有特征图,第3个膨胀卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为P3,P3中的每幅特征图的宽度为高度为第4个膨胀卷积块的输入端接收D4中的所有特征图,第4个膨胀卷积块的输出端输出512幅特征图,将这512幅特征图构成的集合记为P4,P4中的每幅特征图的宽度为高度为第5个膨胀卷积块的输入端接收D5中的所有特征图,第5个膨胀卷积块的输出端输出512幅特征图,将这512幅特征图构成的集合记为P5,P5中的每幅特征图的宽度为高度为第1个特征聚合块的第一输入端接收F10中的所有特征图,第1个特征聚合块的第二输入端接收P5中的所有特征图,第1个特征聚合块的第三输入端接收F11中的所有特征图,第1个特征聚合块的输出端输出256幅特征图,将这256幅特征图构成的集合记为A1,A1中的每幅特征图的宽度为高度为第2个特征聚合块的第一输入端接收F8中的所有特征图,第2个特征聚合块的第二输入端接收P4中的所有特征图,第2个特征聚合块的第三输入端接收A1中的所有特征图,第2个特征聚合块的输出端输出128幅特征图,将这128幅特征图构成的集合记为A2,A2中的每幅特征图的宽度为高度为第3个特征聚合块的第一输入端接收F6中的所有特征图,第3个特征聚合块的第二输入端接收P3中的所有特征图,第3个特征聚合块的第三输入端接收A2中的所有特征图,第3个特征聚合块的输出端输出64幅特征图,将这64幅特征图构成的集合记为A3,A3中的每幅特征图的宽度为高度为第4个特征聚合块的第一输入端接收F4中的所有特征图,第4个特征聚合块的第二输入端接收P2中的所有特征图,第4个特征聚合块的第三输入端接收A3中的所有特征图,第4个特征聚合块的输出端输出32幅特征图,将这32幅特征图构成的集合记为A4,A4中的每幅特征图的宽度为高度为第5个特征聚合块的第一输入端接收F2中的所有特征图,第5个特征聚合块的第二输入端接收P1中的所有特征图,第5个特征聚合块的第三输入端接收A4中的所有特征图,第5个特征聚合块的输出端输出16幅特征图,将这16幅特征图构成的集合记为A5,A5中的每幅特征图的宽度为W、高度为H;解码部分提供A5中的所有特征图给输出层。
对于输出层,其输出卷积层的输入端接收A5中的所有特征图,其输出卷积层的输出端输出一幅宽度为W、高度为H的特征图,作为显著性检测图。
步骤1_3:将训练集中的所有原始3D图像的RGB图像的R通道分量、G通道分量和B通道分量及深度图像经复制后得到的三通道深度图输入到卷积神经网络中进行训练,得到每对原始3D图像对应的显著性检测图,将第k对原始3D图像对应的显著性检测图记为其中,表示中坐标位置为(x,y)的像素点的像素值。
步骤1_5:重复执行步骤1_3和步骤1_4共M次,得到卷积神经网络训练模型,共得到N×M个损失函数值;然后将每次执行得到的N个损失函数值的和除以N作为该次执行得到的最终损失函数值,共得到M个最终损失函数值;再从M个最终损失函数值中找出值最小的最终损失函数值,将最小的最终损失函数值相应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,M>1,在本实施例中取M=1025。
所述的测试阶段过程的具体步骤为:
步骤2_1:将待显著性检测的3D图像的RGB图像的R通道分量、G通道分量和B通道分量及深度图像经复制后得到的三通道深度图输入到卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,预测得到对应的显著性预测图像。
在本实施例中,步骤1_2中,2个信息提取块的结构相同,如图2所示,其由第1个卷积块、第一最大池化层(Maximum pooling,MaxPool)、第一平均池化层(Average pooling,AvePool)、第2个卷积块、第3个卷积块、第一上采样层组成,第1个卷积块包括依次连接的第一卷积层(Convolution,Conv)、第一激活层(Activation,Act)、第二卷积层、第二激活层,第2个卷积块包括依次连接的第三卷积层和第三激活层,第3个卷积块包括依次连接的第四卷积层和第四激活层,第1个信息提取块中的第一卷积层的输入端接收D1中的所有特征图,第2个信息提取块中的第一卷积层的输入端接收S5中的所有特征图,第一最大池化层的输入端、第一平均池化层的输入端、第三卷积层的输入端均接收第四激活层的输出端输出的所有特征图,对第一最大池化层的输出端输出的所有特征图和第一平均池化层的输出端输出的所有特征图进行通道数叠加操作,第四卷积层的输入端接收通道数叠加操作后得到的所有特征图,第一上采样层的输入端接收第四激活层的输出端输出的所有特征图,对第一上采样层的输出端输出的所有特征图和第三激活层的输出端输出的所有特征图进行元素相乘操作,对第一上采样层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行元素相加操作,对于第1个信息提取块,元素相加操作后得到的所有特征图构成的集合为F1,对于第2个信息提取块,元素相加操作后得到的所有特征图构成的集合为F11;其中,设定第i个信息提取块的输入通道数为ni,则第1个信息提取块的输入通道数n1=64,第2个信息提取块的输入通道数n2=512,第i个信息提取块中的第一卷积层和第四卷积层的卷积核(kernel_size)大小为1×1、卷积核(filters)个数为ni、步长(stride)为1、补零参数(padding)的值为0,第i个信息提取块中的第二卷积层的卷积核大小为3×3、卷积核个数为ni、步长为1、补零参数的值为0,第i个信息提取块中的第三卷积层的卷积核大小为3×3、卷积核个数为ni、步长为1、补零参数的值为1,i=1,2,第一激活层、第二激活层、第三激活层、第四激活层的激活方式为“Relu”,第一最大池化层和第一平均池化层的卷积核大小为2×2、步长为2、补零参数的值为0,第一上采样层的放大倍数(scale factor)为2、插值方法为双线性插值(bilinear)。在此,通道数叠加操作、元素相乘操作、元素相加操作均为现有技术。图2中的C表示通道数叠加操作,+表示元素相加操作,×表示元素相乘操作。
在本实施例中,步骤1_2中,5个特征重塑块的结构相同,如图3所示,其由上下文注意力块和通道注意力块组成,对于第1个特征重塑块,其对S1中的所有特征图和F1中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S1中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F2;对于第2个特征重塑块,其对S2中的所有特征图和F3中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S2中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F4;对于第3个特征重塑块,其对S3中的所有特征图和F5中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S3中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F6;对于第4个特征重塑块,其对S4中的所有特征图和F7中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S4中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F8;对于第5个特征重塑块,其对S5中的所有特征图和F9中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S5中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F10。在此,上下文注意力块和通道注意力块引用自论文M.Zhang,S.-X.Fei,J.Liu,S.Xu,Y.Piao,andH.Lu,“Asymmetric two-stream architecture for accurate rgb-d saliencydetection,”in Proceedings of European Conference on Computer Vision,2020.(张淼,费孙萧,刘杰,徐爽,朴勇日和卢湖川,“用于精确的rgb-d显着性检测的非对称两流架构”,计算机视觉的欧洲会议论文集,2020年)中的DAM模块。图3中的+表示元素相加操作,×表示元素相乘操作。
在本实施例中,步骤1_2中,4个信息重塑块的结构相同,如图4所示,其由第二最大池化层、第二平均池化层、第4个卷积块、第5个卷积块组成,第4个卷积块包括依次连接的第五卷积层和第五激活层,第5个卷积块包括依次连接的第六卷积层、第六激活层、第七卷积层、第七激活层,第1个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F2中的所有特征图、第六卷积层的输入端接收D2中的所有特征图,第2个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F4中的所有特征图、第六卷积层的输入端接收D3中的所有特征图,第3个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F6中的所有特征图、第六卷积层的输入端接收D4中的所有特征图,第4个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F8中的所有特征图、第六卷积层的输入端接收D5中的所有特征图,对第二最大池化层的输出端输出的所有特征图和第二平均池化层的输出端输出的所有特征图进行元素相减操作,第五卷积层的输入端接收元素相减操作后得到的所有特征图,对第五激活层的输出端输出的所有特征图和第七激活层的输出端输出的所有特征图进行元素相乘操作,对第五激活层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行元素相加操作,对于第1个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F3,对于第2个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F5,对于第3个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F7,对于第4个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F9;其中,设定第j个信息重塑块的第一输入端的输入通道数为n1j、第二输入端的输入通道数为n2j,则第1个信息重塑块的第一输入端的输入通道数n11=64、第二输入端的输入通道数n21=128,第2个信息重塑块的第一输入端的输入通道数n12=128、第二输入端的输入通道数n22=256,第3个信息重塑块的第一输入端的输入通道数n13=256、第二输入端的输入通道数n23=512,第4个信息重塑块的第一输入端的输入通道数n14=512、第二输入端的输入通道数n24=512,j=1,2,3,4,第j个信息重塑块中的第五卷积层的卷积核大小为1×1、卷积核个数为n2j、步长为1、补零参数的值为0,第j个信息重塑块中的第六卷积层的卷积核大小为1×1、卷积核个数为n2j、步长为1、补零参数的值为0,第j个信息重塑块中的第七卷积层的卷积核大小为3×3、卷积核个数为n2j、步长为1、补零参数的值为1,第五激活层、第六激活层、第七激活层的激活方式为“Relu”,第二最大池化层和第二平均池化层的卷积核大小为2×2、步长为2、补零参数的值为0,对第二最大池化层的输出端输出的所有特征图和第二平均池化层的输出端输出的所有特征图进行元素相减操作时为第二最大池化层的输出端输出的特征图中的元素减去第二平均池化层的输出端输出的对应的特征图中的对应元素。在此,元素相减操作、元素相乘操作、元素相加操作均为现有技术。图4中的-表示元素相减操作,+表示元素相加操作,×表示元素相乘操作。
在本实施例中,步骤1_2中,5个特征聚合块的结构相同,如图5所示,其由第6个卷积块、第7个卷积块、第8个卷积块、第9个卷积块、第10个卷积块、第11个卷积块、第12个卷积块、第13个卷积块、第二上采样层、残差融合块组成,第6个卷积块包括依次连接的第八卷积层和第八激活层,第7个卷积块包括依次连接的第九卷积层和第九激活层,第8个卷积块包括依次连接的第十卷积层和第十激活层,第9个卷积块包括依次连接的第十一卷积层和第十一激活层,第10个卷积块包括依次连接的第十二卷积层和第十二激活层,第11个卷积块包括依次连接的第十三卷积层和第十三激活层,第12个卷积块包括依次连接的第十四卷积层和第十四激活层,第13个卷积块包括依次连接的第十五卷积层和第十五激活层,残差融合块包括依次连接的第十六激活层、第三最大池化层、第十六卷积层,第1个特征聚合块中的第八卷积层的输入端接收F10中的所有特征图、第九卷积层的输入端接收P5中的所有特征图、第二上采样层的输入端接收F11中的所有特征图,第2个特征聚合块的第八卷积层的输入端接收F8中的所有特征图、第九卷积层的输入端接收P4中的所有特征图、第二上采样层的输入端接收A1中的所有特征图,第3个特征聚合块的第八卷积层的输入端接收F6中的所有特征图、第九卷积层的输入端接收P3中的所有特征图、第二上采样层的输入端接收A2中的所有特征图,第4个特征聚合块的第八卷积层的输入端接收F4中的所有特征图、第九卷积层的输入端接收P2中的所有特征图、第二上采样层的输入端接收A3中的所有特征图,第5个特征聚合块的第八卷积层的输入端接收F2中的所有特征图、第九卷积层的输入端接收P1中的所有特征图、第二上采样层的输入端接收A4中的所有特征图,对第八激活层的输出端输出的所有特征图和第九激活层的输出端输出的所有特征图分别进行通道四等分切割,各按序分成四份,对第八激活层的输出端输出的所有特征图的第1份和第九激活层的输出端输出的所有特征图的第1份进行第一通道数叠加操作,对第八激活层的输出端输出的所有特征图的第2份和第九激活层的输出端输出的所有特征图的第2份进行第二通道数叠加操作,对第八激活层的输出端输出的所有特征图的第3份和第九激活层的输出端输出的所有特征图的第3份进行第三通道数叠加操作,对第八激活层的输出端输出的所有特征图的第4份和第九激活层的输出端输出的所有特征图的第4份进行第四通道数叠加操作,第十卷积层的输入端接收第二上采样层的输出端输出的所有特征图,第十一卷积层的输入端接收第一通道数叠加操作后得到的所有特征图,第十二卷积层的输入端接收第二通道数叠加操作后得到的所有特征图,第十三卷积层的输入端接收第三通道数叠加操作后得到的所有特征图,第十四卷积层的输入端接收第四通道数叠加操作后得到的所有特征图,对第十一激活层的输出端输出的所有特征图、第十二激活层的输出端输出的所有特征图、第十三激活层的输出端输出的所有特征图、第十四激活层的输出端输出的所有特征图进行第五通道数叠加操作,第十五卷积层的输入端接收第五通道数叠加操作后得到的所有特征图,对第十激活层的输出端输出的所有特征图和第十五激活层的输出端输出的所有特征图进行元素相乘操作,对第十激活层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行第一元素相加操作,第十六激活层的输入端接收第一元素相加操作后得到的所有特征图,对第十六卷积层的输出端输出的所有特征图和第一元素相加操作后得到的所有特征图进行第二元素相加操作,对于第1个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A1,对于第2个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A2,对于第3个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A3,对于第4个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A4,对于第5个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A5;其中,设定第m个特征聚合块的第一输入端的输入通道数为n1m、第二输入端的输入通道数为n2m、第三输入端的输入通道数为n3m,第1个特征聚合块的第一输入端的输入通道数n11=512、第二输入端的输入通道数n21=512、第三输入端的输入通道数n31=512,第2个特征聚合块的第一输入端的输入通道数n12=512、第二输入端的输入通道数n22=512、第三输入端的输入通道数n32=256,第3个特征聚合块的第一输入端的输入通道数n13=256、第二输入端的输入通道数n23=256、第三输入端的输入通道数n33=128,第4个特征聚合块的第一输入端的输入通道数n14=128、第二输入端的输入通道数n24=128、第三输入端的输入通道数n34=64,第5个特征聚合块的第一输入端的输入通道数n15=64、第二输入端的输入通道数n25=64、第三输入端的输入通道数n35=32,第m个特征聚合块中的第八卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为1,第m个特征聚合块中的第九卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为1,第m个特征聚合块中的第十卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为1,第m个特征聚合块中的第十一卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十二卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十三卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十四卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十五卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为0,第m个特征聚合块中的第十六卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为0,m=1,2,3,4,5,第八激活层、第九激活层、第十激活层、第十一激活层、第十二激活层、第十三激活层、第十四激活层、第十五激活层、第十六激活层的激活方式为“Relu”,第三最大池化层的卷积核大小为5×5、步长为1、补零参数的值为2,第二上采样层的放大倍数为2、插值方法为双线性插值。在此,通道数叠加操作、元素相乘操作、元素相加操作均为现有技术。图5中的C表示通道数叠加操作,+表示元素相加操作,×表示元素相乘操作。
在本实施例中,10个神经网络块的结构相同,采用现有的VGG-16模型中的神经网络块的结构;5个膨胀卷积块的结构相同,引用自S.Liu,and D.Huang,“Receptive fieldblock net for accurate and fast object detection”,In Proceedings of theEuropean Conference on Computer Vision,2018,pp.385-400(刘宋涛和黄迪,“能够精确,快速地检测物体的接收场块网”,欧洲计算机视觉会议论文集,2018年第385-400页)中的RFB模块。
为进一步说明本发明方法的可行性和有效性,对本发明方法进行实验。
利用pytorch库python语言编写代码对本发明方法进行实验,实验设备为英特尔i5-7500处理器,NVIDIA TITAN XP-12GB显卡下使用cuda加速。为保证实验的严谨性,本实验选定数据集为NJU2K和NLPR,均为知名公开数据集。NJU2K包含1485对3D图像,1400对3D图像用于训练,85对3D图像用于检测;NLPR包含730对3D图像,650对3D图像用于训练,80对3D图像用于检测。
在本实验中,利用评估显著性检测方法的4个常用客观参量作为评价指标:S↑(Structure-measure),用来评估显著性检测图与标签图像中显著区域的结构相似性;adpE↑度量值、adpF↑度量值、MAE↓平均绝对误差(Mean Absolute Error)用来评价显著性检测图的检测性能,通过计算精准率和召回率求出用来评价检测方法好坏的重要指标。
利用本发明方法生成的显著性检测图通过与标签图像对比,分别用S↑,adpE↑,adpF↑,MAE↓来作为评价指标评价本发明方法的好坏,两个数据集的评价指标如表1所列,由表1所列的数据可见本发明方法在两个数据集上的表现是优秀的。
表1本发明方法在两个数据集上的评测结果
图6a为待显著性检测的第1对3D图像的RGB图像,图6b为待显著性检测的第1对3D图像的深度图像,图6c为利用本发明方法对图6a和图6b进行处理得到的显著性预测图像,图6d为待显著性检测的第1对3D图像对应的标签图像;图7a为待显著性检测的第2对3D图像的RGB图像,图7b为待显著性检测的第2对3D图像的深度图像,图7c为利用本发明方法对图7a和图7b进行处理得到的显著性预测图像,图7d为待显著性检测的第2对3D图像对应的标签图像;图8a为待显著性检测的第3对3D图像的RGB图像,图8b为待显著性检测的第3对3D图像的深度图像,图8c为利用本发明方法对图8a和图8b进行处理得到的显著性预测图像,图8d为待显著性检测的第3对3D图像对应的标签图像;图9a为待显著性检测的第4对3D图像的RGB图像,图9b为待显著性检测的第4对3D图像的深度图像,图9c为利用本发明方法对图9a和图9b进行处理得到的显著性预测图像,图9d为待显著性检测的第4对3D图像对应的标签图像。图6a和图6b、图7a和图7b、图8a和图8b、图9a和图9b为具有代表性的3D图像,其包含有多个对象、小对象和复杂的突出对象,利用本发明方法对这些具有代表性的3D图像进行处理,显著性预测图像对应参见图6c、图7c、图8c、图9c,对应与图6d、图7d、图8d、图9d比较,可以发现利用本发明方法能够精准地捕捉这些3D图像中的显著区域。
图10a为利用本发明方法对NJU2K数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图,图10b为利用本发明方法对NLPR数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图。从图10a和图10b中可以看出,PR曲线下方的面积较大,说明本发明方法具有良好的检测性能。图10a和图10b中Precision代表“精准率”,Recall代表“召回率”。
Claims (5)
1.一种交互循环特征重塑的显著性图像检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N对原始3D图像及每对原始3D图像对应的标签图像,将第k对原始3D图像的RGB图像记为将第k对原始3D图像的深度图像记为将第k对原始3D图像对应的真实显著检测图像作为标签图像,并记为然后将所有原始3D图像的RGB图像、深度图像、对应的标签图像构成训练集;其中,N为正整数,N≥200,k为正整数,1≤k≤N,1≤x≤W,1≤y≤H,W表示原始3D图像及其RGB图像、深度图像、对应的标签图像的宽度,H表示原始3D图像及其RGB图像、深度图像、对应的标签图像的高度,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;
步骤1_2:构建端到端的卷积神经网络:该卷积神经网络包括输入层、编码部分、解码部分和输出层,输入层包括RGB图输入层和深度图输入层,编码部分包括10个神经网络块,解码部分包括2个信息提取块、5个特征重塑块、4个信息重塑块、5个膨胀卷积块、5个特征聚合块;输出层包括输出卷积层,输出卷积层的卷积核大小为3×3、卷积核个数为1、步长为1;
对于输入层中的RGB图输入层,其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给编码部分;其中,原始RGB图像的宽度为W、高度为H;
对于输入层中的深度图输入层,其输入端接收一幅原始深度图像通过采用复制方法处理成的三通道深度图,其输出端输出三通道深度图给编码部分;其中,原始深度图像的宽度为W、高度为H;
对于编码部分,第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块依次连接构成彩色编码流,第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块依次连接构成深度编码流;第1个神经网络块的输入端接收RGB图输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S1,S1中的每幅特征图的宽度为W、高度为H;第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S2,S2中的每幅特征图的宽度为高度为第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S3,S3中的每幅特征图的宽度为高度为第4个神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S4,S4中的每幅特征图的宽度为高度为第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S5,S5中的每幅特征图的宽度为高度为第6个神经网络块的输入端接收深度图输入层的输出端输出的三通道深度图,第6个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为D1,D1中的每幅特征图的宽度为W、高度为H;第7个神经网络块的输入端接收D1中的所有特征图,第7个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为D2,D2中的每幅特征图的宽度为高度为第8个神经网络块的输入端接收D2中的所有特征图,第8个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为D3,D3中的每幅特征图的宽度为高度为第9个神经网络块的输入端接收D3中的所有特征图,第9个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为D4,D4中的每幅特征图的宽度为高度为第10个神经网络块的输入端接收D4中的所有特征图,第10个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为D5,D5中的每幅特征图的宽度为高度为编码部分提供S1、S2、S3、S4、S5、D1、D2、D3、D4、D5中的所有特征图给解码部分;
对于解码部分,第1个信息提取块的输入端接收D1中的所有特征图,第1个信息提取块的输出端输出64幅特征图,将这64幅特征图构成的集合记为F1,F1中的每幅特征图的宽度为W、高度为H;第1个特征重塑块的第一输入端接收S1中的所有特征图,第1个特征重塑块的第二输入端接收F1中的所有特征图,第1个特征重塑块的输出端输出64幅特征图,将这64幅特征图构成的集合记为F2,F2中的每幅特征图的宽度为W、高度为H;第1个信息重塑块的第一输入端接收F2中的所有特征图,第1个信息重塑块的第二输入端接收D2中的所有特征图,第1个信息重塑块的输出端输出128幅特征图,将这128幅特征图构成的集合记为F3,F3中的每幅特征图的宽度为高度为第2个特征重塑块的第一输入端接收S2中的所有特征图,第2个特征重塑块的第二输入端接收F3中的所有特征图,第2个特征重塑块的输出端输出128幅特征图,将这128幅特征图构成的集合记为F4,F4中的每幅特征图的宽度为高度为第2个信息重塑块的第一输入端接收F4中的所有特征图,第2个信息重塑块的第二输入端接收D3中的所有特征图,第2个信息重塑块的输出端输出256幅特征图,将这256幅特征图构成的集合记为F5,F5中的每幅特征图的宽度为高度为第3个特征重塑块的第一输入端接收S3中的所有特征图,第3个特征重塑块的第二输入端接收F5中的所有特征图,第3个特征重塑块的输出端输出256幅特征图,将这256幅特征图构成的集合记为F6,F6中的每幅特征图的宽度为高度为第3个信息重塑块的第一输入端接收F6中的所有特征图,第3个信息重塑块的第二输入端接收D4中的所有特征图,第3个信息重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F7,F7中的每幅特征图的宽度为高度为第4个特征重塑块的第一输入端接收S4中的所有特征图,第4个特征重塑块的第二输入端接收F7中的所有特征图,第4个特征重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F8,F8中的每幅特征图的宽度为高度为第4个信息重塑块的第一输入端接收F8中的所有特征图,第4个信息重塑块的第二输入端接收D5中的所有特征图,第4个信息重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F9,F9中的每幅特征图的宽度为高度为第5个特征重塑块的第一输入端接收S5中的所有特征图,第5个特征重塑块的第二输入端接收F9中的所有特征图,第5个特征重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F10,F10中的每幅特征图的宽度为高度为第2个信息提取块的输入端接收S5中的所有特征图,第2个信息提取块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F11,F11中的每幅特征图的宽度为高度为第1个膨胀卷积块的输入端接收D1中的所有特征图,第1个膨胀卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为P1,P1中的每幅特征图的宽度为W、高度为H;第2个膨胀卷积块的输入端接收D2中的所有特征图,第2个膨胀卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为P2,P2中的每幅特征图的宽度为高度为第3个膨胀卷积块的输入端接收D3中的所有特征图,第3个膨胀卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为P3,P3中的每幅特征图的宽度为高度为第4个膨胀卷积块的输入端接收D4中的所有特征图,第4个膨胀卷积块的输出端输出512幅特征图,将这512幅特征图构成的集合记为P4,P4中的每幅特征图的宽度为高度为第5个膨胀卷积块的输入端接收D5中的所有特征图,第5个膨胀卷积块的输出端输出512幅特征图,将这512幅特征图构成的集合记为P5,P5中的每幅特征图的宽度为高度为第1个特征聚合块的第一输入端接收F10中的所有特征图,第1个特征聚合块的第二输入端接收P5中的所有特征图,第1个特征聚合块的第三输入端接收F11中的所有特征图,第1个特征聚合块的输出端输出256幅特征图,将这256幅特征图构成的集合记为A1,A1中的每幅特征图的宽度为高度为第2个特征聚合块的第一输入端接收F8中的所有特征图,第2个特征聚合块的第二输入端接收P4中的所有特征图,第2个特征聚合块的第三输入端接收A1中的所有特征图,第2个特征聚合块的输出端输出128幅特征图,将这128幅特征图构成的集合记为A2,A2中的每幅特征图的宽度为高度为第3个特征聚合块的第一输入端接收F6中的所有特征图,第3个特征聚合块的第二输入端接收P3中的所有特征图,第3个特征聚合块的第三输入端接收A2中的所有特征图,第3个特征聚合块的输出端输出64幅特征图,将这64幅特征图构成的集合记为A3,A3中的每幅特征图的宽度为高度为第4个特征聚合块的第一输入端接收F4中的所有特征图,第4个特征聚合块的第二输入端接收P2中的所有特征图,第4个特征聚合块的第三输入端接收A3中的所有特征图,第4个特征聚合块的输出端输出32幅特征图,将这32幅特征图构成的集合记为A4,A4中的每幅特征图的宽度为高度为第5个特征聚合块的第一输入端接收F2中的所有特征图,第5个特征聚合块的第二输入端接收P1中的所有特征图,第5个特征聚合块的第三输入端接收A4中的所有特征图,第5个特征聚合块的输出端输出16幅特征图,将这16幅特征图构成的集合记为A5,A5中的每幅特征图的宽度为W、高度为H;解码部分提供A5中的所有特征图给输出层;
对于输出层,其输出卷积层的输入端接收A5中的所有特征图,其输出卷积层的输出端输出一幅宽度为W、高度为H的特征图,作为显著性检测图;
步骤1_3:将训练集中的所有原始3D图像的RGB图像的R通道分量、G通道分量和B通道分量及深度图像经复制后得到的三通道深度图输入到卷积神经网络中进行训练,得到每对原始3D图像对应的显著性检测图,将第k对原始3D图像对应的显著性检测图记为其中,表示中坐标位置为(x,y)的像素点的像素值;
步骤1_5:重复执行步骤1_3和步骤1_4共M次,得到卷积神经网络训练模型,共得到N×M个损失函数值;然后将每次执行得到的N个损失函数值的和除以N作为该次执行得到的最终损失函数值,共得到M个最终损失函数值;再从M个最终损失函数值中找出值最小的最终损失函数值,将最小的最终损失函数值相应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,M>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:将待显著性检测的3D图像的RGB图像的R通道分量、G通道分量和B通道分量及深度图像经复制后得到的三通道深度图输入到卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,预测得到对应的显著性预测图像。
2.根据权利要求1所述的一种交互循环特征重塑的显著性图像检测方法,其特征在于所述的步骤1_2中,2个信息提取块的结构相同,其由第1个卷积块、第一最大池化层、第一平均池化层、第2个卷积块、第3个卷积块、第一上采样层组成,第1个卷积块包括依次连接的第一卷积层、第一激活层、第二卷积层、第二激活层,第2个卷积块包括依次连接的第三卷积层和第三激活层,第3个卷积块包括依次连接的第四卷积层和第四激活层,第1个信息提取块中的第一卷积层的输入端接收D1中的所有特征图,第2个信息提取块中的第一卷积层的输入端接收S5中的所有特征图,第一最大池化层的输入端、第一平均池化层的输入端、第三卷积层的输入端均接收第四激活层的输出端输出的所有特征图,对第一最大池化层的输出端输出的所有特征图和第一平均池化层的输出端输出的所有特征图进行通道数叠加操作,第四卷积层的输入端接收通道数叠加操作后得到的所有特征图,第一上采样层的输入端接收第四激活层的输出端输出的所有特征图,对第一上采样层的输出端输出的所有特征图和第三激活层的输出端输出的所有特征图进行元素相乘操作,对第一上采样层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行元素相加操作,对于第1个信息提取块,元素相加操作后得到的所有特征图构成的集合为F1,对于第2个信息提取块,元素相加操作后得到的所有特征图构成的集合为F11;其中,设定第i个信息提取块的输入通道数为ni,则第1个信息提取块的输入通道数n1=64,第2个信息提取块的输入通道数n2=512,第i个信息提取块中的第一卷积层和第四卷积层的卷积核大小为1×1、卷积核个数为ni、步长为1、补零参数的值为0,第i个信息提取块中的第二卷积层的卷积核大小为3×3、卷积核个数为ni、步长为1、补零参数的值为0,第i个信息提取块中的第三卷积层的卷积核大小为3×3、卷积核个数为ni、步长为1、补零参数的值为1,i=1,2,第一激活层、第二激活层、第三激活层、第四激活层的激活方式为“Relu”,第一最大池化层和第一平均池化层的卷积核大小为2×2、步长为2、补零参数的值为0,第一上采样层的放大倍数为2、插值方法为双线性插值。
3.根据权利要求1所述的一种交互循环特征重塑的显著性图像检测方法,其特征在于所述的步骤1_2中,5个特征重塑块的结构相同,其由上下文注意力块和通道注意力块组成,对于第1个特征重塑块,其对S1中的所有特征图和F1中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S1中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F2;对于第2个特征重塑块,其对S2中的所有特征图和F3中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S2中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F4;对于第3个特征重塑块,其对S3中的所有特征图和F5中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S3中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F6;对于第4个特征重塑块,其对S4中的所有特征图和F7中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S4中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F8;对于第5个特征重塑块,其对S5中的所有特征图和F9中的所有特征图进行第一次元素相加操作,上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图,通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图,对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作,对S5中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作,第二次元素相加操作后得到的所有特征图构成的集合为F10。
4.根据权利要求1所述的一种交互循环特征重塑的显著性图像检测方法,其特征在于所述的步骤1_2中,4个信息重塑块的结构相同,其由第二最大池化层、第二平均池化层、第4个卷积块、第5个卷积块组成,第4个卷积块包括依次连接的第五卷积层和第五激活层,第5个卷积块包括依次连接的第六卷积层、第六激活层、第七卷积层、第七激活层,第1个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F2中的所有特征图、第六卷积层的输入端接收D2中的所有特征图,第2个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F4中的所有特征图、第六卷积层的输入端接收D3中的所有特征图,第3个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F6中的所有特征图、第六卷积层的输入端接收D4中的所有特征图,第4个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F8中的所有特征图、第六卷积层的输入端接收D5中的所有特征图,对第二最大池化层的输出端输出的所有特征图和第二平均池化层的输出端输出的所有特征图进行元素相减操作,第五卷积层的输入端接收元素相减操作后得到的所有特征图,对第五激活层的输出端输出的所有特征图和第七激活层的输出端输出的所有特征图进行元素相乘操作,对第五激活层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行元素相加操作,对于第1个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F3,对于第2个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F5,对于第3个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F7,对于第4个信息重塑块,元素相加操作后得到的所有特征图构成的集合为F9;其中,设定第j个信息重塑块的第一输入端的输入通道数为n1j、第二输入端的输入通道数为n2j,则第1个信息重塑块的第一输入端的输入通道数n11=64、第二输入端的输入通道数n21=128,第2个信息重塑块的第一输入端的输入通道数n12=128、第二输入端的输入通道数n22=256,第3个信息重塑块的第一输入端的输入通道数n13=256、第二输入端的输入通道数n23=512,第4个信息重塑块的第一输入端的输入通道数n14=512、第二输入端的输入通道数n24=512,j=1,2,3,4,第j个信息重塑块中的第五卷积层的卷积核大小为1×1、卷积核个数为n2j、步长为1、补零参数的值为0,第j个信息重塑块中的第六卷积层的卷积核大小为1×1、卷积核个数为n2j、步长为1、补零参数的值为0,第j个信息重塑块中的第七卷积层的卷积核大小为3×3、卷积核个数为n2j、步长为1、补零参数的值为1,第五激活层、第六激活层、第七激活层的激活方式为“Relu”,第二最大池化层和第二平均池化层的卷积核大小为2×2、步长为2、补零参数的值为0,对第二最大池化层的输出端输出的所有特征图和第二平均池化层的输出端输出的所有特征图进行元素相减操作时为第二最大池化层的输出端输出的特征图中的元素减去第二平均池化层的输出端输出的对应的特征图中的对应元素。
5.根据权利要求1所述的一种交互循环特征重塑的显著性图像检测方法,其特征在于所述的步骤1_2中,5个特征聚合块的结构相同,其由第6个卷积块、第7个卷积块、第8个卷积块、第9个卷积块、第10个卷积块、第11个卷积块、第12个卷积块、第13个卷积块、第二上采样层、残差融合块组成,第6个卷积块包括依次连接的第八卷积层和第八激活层,第7个卷积块包括依次连接的第九卷积层和第九激活层,第8个卷积块包括依次连接的第十卷积层和第十激活层,第9个卷积块包括依次连接的第十一卷积层和第十一激活层,第10个卷积块包括依次连接的第十二卷积层和第十二激活层,第11个卷积块包括依次连接的第十三卷积层和第十三激活层,第12个卷积块包括依次连接的第十四卷积层和第十四激活层,第13个卷积块包括依次连接的第十五卷积层和第十五激活层,残差融合块包括依次连接的第十六激活层、第三最大池化层、第十六卷积层,第1个特征聚合块中的第八卷积层的输入端接收F10中的所有特征图、第九卷积层的输入端接收P5中的所有特征图、第二上采样层的输入端接收F11中的所有特征图,第2个特征聚合块的第八卷积层的输入端接收F8中的所有特征图、第九卷积层的输入端接收P4中的所有特征图、第二上采样层的输入端接收A1中的所有特征图,第3个特征聚合块的第八卷积层的输入端接收F6中的所有特征图、第九卷积层的输入端接收P3中的所有特征图、第二上采样层的输入端接收A2中的所有特征图,第4个特征聚合块的第八卷积层的输入端接收F4中的所有特征图、第九卷积层的输入端接收P2中的所有特征图、第二上采样层的输入端接收A3中的所有特征图,第5个特征聚合块的第八卷积层的输入端接收F2中的所有特征图、第九卷积层的输入端接收P1中的所有特征图、第二上采样层的输入端接收A4中的所有特征图,对第八激活层的输出端输出的所有特征图和第九激活层的输出端输出的所有特征图分别进行通道四等分切割,各按序分成四份,对第八激活层的输出端输出的所有特征图的第1份和第九激活层的输出端输出的所有特征图的第1份进行第一通道数叠加操作,对第八激活层的输出端输出的所有特征图的第2份和第九激活层的输出端输出的所有特征图的第2份进行第二通道数叠加操作,对第八激活层的输出端输出的所有特征图的第3份和第九激活层的输出端输出的所有特征图的第3份进行第三通道数叠加操作,对第八激活层的输出端输出的所有特征图的第4份和第九激活层的输出端输出的所有特征图的第4份进行第四通道数叠加操作,第十卷积层的输入端接收第二上采样层的输出端输出的所有特征图,第十一卷积层的输入端接收第一通道数叠加操作后得到的所有特征图,第十二卷积层的输入端接收第二通道数叠加操作后得到的所有特征图,第十三卷积层的输入端接收第三通道数叠加操作后得到的所有特征图,第十四卷积层的输入端接收第四通道数叠加操作后得到的所有特征图,对第十一激活层的输出端输出的所有特征图、第十二激活层的输出端输出的所有特征图、第十三激活层的输出端输出的所有特征图、第十四激活层的输出端输出的所有特征图进行第五通道数叠加操作,第十五卷积层的输入端接收第五通道数叠加操作后得到的所有特征图,对第十激活层的输出端输出的所有特征图和第十五激活层的输出端输出的所有特征图进行元素相乘操作,对第十激活层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行第一元素相加操作,第十六激活层的输入端接收第一元素相加操作后得到的所有特征图,对第十六卷积层的输出端输出的所有特征图和第一元素相加操作后得到的所有特征图进行第二元素相加操作,对于第1个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A1,对于第2个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A2,对于第3个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A3,对于第4个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A4,对于第5个特征聚合块,第二元素相加操作后得到的所有特征图构成的集合为A5;其中,设定第m个特征聚合块的第一输入端的输入通道数为n1m、第二输入端的输入通道数为n2m、第三输入端的输入通道数为n3m,第1个特征聚合块的第一输入端的输入通道数n11=512、第二输入端的输入通道数n21=512、第三输入端的输入通道数n31=512,第2个特征聚合块的第一输入端的输入通道数n12=512、第二输入端的输入通道数n22=512、第三输入端的输入通道数n32=256,第3个特征聚合块的第一输入端的输入通道数n13=256、第二输入端的输入通道数n23=256、第三输入端的输入通道数n33=128,第4个特征聚合块的第一输入端的输入通道数n14=128、第二输入端的输入通道数n24=128、第三输入端的输入通道数n34=64,第5个特征聚合块的第一输入端的输入通道数n15=64、第二输入端的输入通道数n25=64、第三输入端的输入通道数n35=32,第m个特征聚合块中的第八卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为1,第m个特征聚合块中的第九卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为1,第m个特征聚合块中的第十卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为1,第m个特征聚合块中的第十一卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十二卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十三卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十四卷积层的卷积核大小为3×3、卷积核个数为n3m/4、步长为1、补零参数的值为1,第m个特征聚合块中的第十五卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为0,第m个特征聚合块中的第十六卷积层的卷积核大小为3×3、卷积核个数为n3m/2、步长为1、补零参数的值为0,m=1,2,3,4,5,第八激活层、第九激活层、第十激活层、第十一激活层、第十二激活层、第十三激活层、第十四激活层、第十五激活层、第十六激活层的激活方式为“Relu”,第三最大池化层的卷积核大小为5×5、步长为1、补零参数的值为2,第二上采样层的放大倍数为2、插值方法为双线性插值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011413838.5A CN112529862A (zh) | 2020-12-07 | 2020-12-07 | 一种交互循环特征重塑的显著性图像检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011413838.5A CN112529862A (zh) | 2020-12-07 | 2020-12-07 | 一种交互循环特征重塑的显著性图像检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112529862A true CN112529862A (zh) | 2021-03-19 |
Family
ID=74997830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011413838.5A Withdrawn CN112529862A (zh) | 2020-12-07 | 2020-12-07 | 一种交互循环特征重塑的显著性图像检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112529862A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113192073A (zh) * | 2021-04-06 | 2021-07-30 | 浙江科技学院 | 基于交叉融合网络的服装语义分割方法 |
CN113313077A (zh) * | 2021-06-30 | 2021-08-27 | 浙江科技学院 | 基于多策略和交叉特征融合的显著物体检测方法 |
CN113538442A (zh) * | 2021-06-04 | 2021-10-22 | 杭州电子科技大学 | 一种使用自适应特征融合的rgb-d显著目标检测方法 |
-
2020
- 2020-12-07 CN CN202011413838.5A patent/CN112529862A/zh not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113192073A (zh) * | 2021-04-06 | 2021-07-30 | 浙江科技学院 | 基于交叉融合网络的服装语义分割方法 |
CN113538442A (zh) * | 2021-06-04 | 2021-10-22 | 杭州电子科技大学 | 一种使用自适应特征融合的rgb-d显著目标检测方法 |
CN113538442B (zh) * | 2021-06-04 | 2024-04-09 | 杭州电子科技大学 | 一种使用自适应特征融合的rgb-d显著目标检测方法 |
CN113313077A (zh) * | 2021-06-30 | 2021-08-27 | 浙江科技学院 | 基于多策略和交叉特征融合的显著物体检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Canet: Class-agnostic segmentation networks with iterative refinement and attentive few-shot learning | |
CN110782462B (zh) | 一种基于双流特征融合的语义分割方法 | |
Chen et al. | Banet: Bidirectional aggregation network with occlusion handling for panoptic segmentation | |
CN112529862A (zh) | 一种交互循环特征重塑的显著性图像检测方法 | |
CN110490082B (zh) | 一种有效融合神经网络特征的道路场景语义分割方法 | |
CN112597985B (zh) | 一种基于多尺度特征融合的人群计数方法 | |
CN110246148B (zh) | 多模态的深度信息融合和注意力学习的显著性检测方法 | |
Zeng et al. | LEARD-Net: Semantic segmentation for large-scale point cloud scene | |
CN110929736A (zh) | 多特征级联rgb-d显著性目标检测方法 | |
Li et al. | Joint semantic-instance segmentation method for intelligent transportation system | |
CN110458178B (zh) | 多模态多拼接的rgb-d显著性目标检测方法 | |
CN113192073A (zh) | 基于交叉融合网络的服装语义分割方法 | |
CN112801068A (zh) | 一种视频多目标跟踪与分割***和方法 | |
CN114419406A (zh) | 图像变化检测方法、训练方法、装置和计算机设备 | |
CN112836602A (zh) | 基于时空特征融合的行为识别方法、装置、设备及介质 | |
Ha et al. | Deep neural networks using residual fast-slow refined highway and global atomic spatial attention for action recognition and detection | |
CN112801063A (zh) | 神经网络***和基于神经网络***的图像人群计数方法 | |
Yang et al. | Xception-based general forensic method on small-size images | |
Zhu et al. | MDAFormer: Multi-level difference aggregation transformer for change detection of VHR optical imagery | |
Park et al. | Pyramid attention upsampling module for object detection | |
Zhang et al. | LDD-Net: Lightweight printed circuit board defect detection network fusing multi-scale features | |
CN112801029B (zh) | 基于注意力机制的多任务学习方法 | |
CN114037056A (zh) | 一种生成神经网络的方法、装置、计算机设备和存储介质 | |
CN113313077A (zh) | 基于多策略和交叉特征融合的显著物体检测方法 | |
CN112348011B (zh) | 一种车辆定损方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210319 |