CN113205481A - 基于阶梯状递进神经网络的显著性物体检测方法 - Google Patents
基于阶梯状递进神经网络的显著性物体检测方法 Download PDFInfo
- Publication number
- CN113205481A CN113205481A CN202110297512.9A CN202110297512A CN113205481A CN 113205481 A CN113205481 A CN 113205481A CN 202110297512 A CN202110297512 A CN 202110297512A CN 113205481 A CN113205481 A CN 113205481A
- Authority
- CN
- China
- Prior art keywords
- module
- input
- convolution
- output
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 40
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 14
- 230000000750 progressive effect Effects 0.000 title claims abstract description 14
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000005070 sampling Methods 0.000 claims description 113
- 230000004913 activation Effects 0.000 claims description 89
- 238000002156 mixing Methods 0.000 claims description 69
- 238000001914 filtration Methods 0.000 claims description 42
- 230000011218 segmentation Effects 0.000 claims description 21
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 abstract 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 160
- 230000006870 function Effects 0.000 description 49
- 238000010586 diagram Methods 0.000 description 22
- 238000011176 pooling Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 239000011800 void material Substances 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于阶梯状递进神经网络的显著性物体检测方法。本发明包括训练阶段过程和测试阶段过程;训练阶段过程,构建卷积神经网络;将原始的带有显著性物体的各类场景图像输入到卷积神经网络中进行训练,得到对应的显著性物体预测图像;再通过计算所有显著性物体预测图像组成的图像集与对应的显著性物体真实检测图像组成的图像集之间的损失函数值,获得卷积神经网络的最优权值矢量和偏置项;测试阶段过程,将待检测的带有显著性物体的各类场景图像输入到训练好的卷积神经网络中,得到显著性物体预测图像。本发明提高了各类场景的显著性物体检测的速率和精确率。
Description
技术领域
本发明涉及图像处理技术领域,尤其是涉及一种基于阶梯状递进神经网络的显著性物体检测方法。
背景技术
显著性检测的目的是检测出一个场景中最吸引人类注意力的物体,在视觉追踪、图像分割等很多视觉任务上有广泛的应用;目前大多方法重点考虑从RGB图像或者RGB-D图像中预测显著物体,这严重依赖于光照条件、天气情况以及深度图的质量,而红外图像可以很好地弥补光照不足等问题,捕捉到更多可见光图像所缺失的信息;红外光谱图提供了场景三维的空间关系,可以有效地辅助显著性物体检测算法避免由前景和背景颜色带来歧义;因此越来越多工作开始研究如何更好地借助光谱图来进行显著性物体检测任务,即RGB-T显著性物体检测。
之前的RGB-D显著性物体的方法,常常使用深度对比度作为重要的先验;这些方法实际上是利用深度信息将注意力关注于前景区域;但是,深度图的质量也因此变得十分重要,往往会影响网络最后的预测结果。前景和背景的分布存在巨大差异,无差别地从其中学习显著性的线索较为困难;传统方法中有一些方法提出分别从前景和背景推理显著性区域的策略,但是在基于深度学习的方法中,这个朴素而有效的思想并未被重视,借助光谱图来进行显著性物体检测任务可以有效的解决深度图质量差所带来的问题。
发明内容
本发明所要解决的技术问题是提供一种基于阶梯状递进神经网络的显著性物体检测方法,其检测速度快,准确率高。
本发明解决上述技术问题所采用的技术方案为:一种基于阶梯状递进神经网络的显著性物体检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的带有显著性物体的各类场景图像及每幅原始的带有显著性物体的各类场景图像对应的显著性物体真实检测图像,由Q幅原始的带有显著性物体的各类场景图像及对应的显著性物体真实检测图像构成训练集;
步骤1_2:构建卷积神经网络,卷积神经网络主要由10个基础模块、5个交融模块、多尺度锐化特征模块、金字塔锐化特征模块和4个引导模块组成;
步骤1_3:将训练集中原始的带有显著性物体的各类场景图像作为原始输入图像输入到卷积神经网络中进行训练,得到对应的显著性物体预测图像;
步骤1_4:计算所有显著性物体预测图像组成的图像集与对应的显著性物体真实检测图像组成的图像集之间的损失函数值,当训练次数达到预设次数时,卷积神经网络训练结束,获得训练后的卷积神经网络;
所述的测试阶段过程的具体步骤为:
步骤2_1:选取测试集中的第p组待检测的带有显著性物体的各类场景;
步骤2_2:将第p组待检测的带有显著性物体的各类场景输入到训练后的卷积神经网络中,训练后的卷积神经网络输出对应的显著性物体预测图像。
所述卷积神经网络主要由十个基础模块、五个交融模块、多尺度锐化特征模块、金字塔锐化特征模块和四个引导模块组成,具体为:
第一基础模块、第二基础模块、第三基础模块、第四基础模块和第五基础模块依次连接,第六基础模块、第七基础模块、第八基础模块、第九基础模块和第十基础模块依次连接,卷积神经网络的输入分别输入到第一基础模块和第六基础模块;第一基础模块和第六基础模块的输出同时输入到第一交融模块,第二基础模块和第七基础模块的输出同时输入到第二交融模块,第三基础模块和第八基础模块的输出同时输入到第三交融模块,第四基础模块和第九基础模块的输出同时输入到第四交融模块,第五基础模块和第十基础模块的输出同时输入到第五交融模块,第一交融模块、第二交融模块、第三交融模块和第四交融模块的输出分别输入到多尺度锐化特征模块的第五输入端、第四输入端、第三输入端和第二输入端,第五交融模块的输出经金字塔锐化特征模块后输入到多尺度锐化特征模块的第一输入端;每个引导模块均有两个输入端,多尺度锐化特征模块的第五输出端、第四输出端、第三输出端和第二输出端分别与第四引导模块、第三引导模块、第二引导模块和第一引导模块的第一输入端相连,多尺度锐化特征模块的第一输出端与第一引导模块的第二输入端相连,第一引导模块的输出输入到第二引导模块的第二输入端,第二引导模块的输出输入到第三引导模块的第二输入端,第三引导模块的输出输入到第二引导模块的第二输入端,第四引导模块的输出作为卷积神经网络的输出。
所述多尺度锐化特征模块具体为:
多尺度锐化特征模块包括四个堆叠模块、十个上采样模块和四个特征过滤模块;
多尺度锐化特征模块的第五输入端输入到第四堆叠模块,多尺度锐化特征模块的第四输入端输入到第三堆叠模块,多尺度锐化特征模块的第三输入端输入到第二堆叠模块,多尺度锐化特征模块的第二输入端输入到第一堆叠模块,多尺度锐化特征模块的第一输入端输入到第一上采样模块,第一上采样模块的输出分别输入到第一堆叠模块和第二上采样模块,第二上采样模块的输出分别输入到第二堆叠模块和第三上采样模块,第三上采样模块的输出分别输入到第三堆叠模块和第四上采样模块,第四上采样模块的输出输入到第四堆叠模块;
多尺度锐化特征模块的第二输入端还输入到第五上采样模块,第五上采样模块的输出分别输入到第二堆叠模块和第六上采样模块,第六上采样模块的输出分别输入到第三堆叠模块和第七上采样模块,第七上采样模块的输出输入到第四堆叠模块;
多尺度锐化特征模块的第三输入端还输入到第八上采样模块,第八上采样模块的输出分别输入到第三堆叠模块和第九上采样模块,第九上采样模块的输出输入到第四堆叠模块;多尺度锐化特征模块的第四输入端的输入还输入到第十上采样模块,第十上采样模块的输出输入到第四堆叠模块;
第一上采样模块的输入作为多尺度锐化特征模块的第一输出端,第一堆叠模块的输出经第一特征过滤模块后的输出作为多尺度锐化特征模块的第二输出端,第二堆叠模块的输出经第二特征过滤模块后的输出作为多尺度锐化特征模块的第三输出端,第三堆叠模块的输出经第三特征过滤模块后的输出作为多尺度锐化特征模块的第四输出端,第四堆叠模块的输出经第四特征过滤模块后的输出作为多尺度锐化特征模块的第五输出端。
所述引导模块具体为:引导模块包括第十一上采样模块、三个卷积模块、三个激活模块、第二分割模块和中间模块;
引导模块第一输入端的输入输入到第十一上采样模块,第十一上采样模块依次经第一卷积模块和第一激活模块后与第二分割模块相连,引导模块第一输入端的输入和第二分割模块的输出进行相乘后的输出再与引导模块第一输入端的输入进行相加后输入到第二卷积模块,第二卷积模块的输出输入到第二激活模块,引导模块第一输入端的输入和第二分割模块的输出进行相乘后的输出输入到第三卷积模块,第三卷积模块经第三激活模块后与中间模块相连,第二激活模块的输出与引导模块第二输入端的输入进行相乘后输出第一中间输出,中间模块的输出与引导模块第二输入端的输入进行相乘后输出第二中间输出,第一中间输出、第二中间输出和引导模块第二输入端的输入进行相加后的输出作为引导模块的输出。
所述交融模块具体为:交融模块包括第四卷积模块、第五卷积模块、自适应模块和第四激活模块;
第四卷积模块、第五卷积模块、自适应模块和第四激活模块依次相连,交融模块的输入输入到第四卷积模块,交融模块的输入和第四激活模块的输出进行相乘后的输出再与交融模块的输入进行相加后的输出作为交融模块的输出。
所述金字塔锐化特征模块具体为:金字塔锐化特征模块包括六个卷积模块和第五堆叠模块;
金字塔锐化特征模块的输入分别输入到第六卷积模块、第七卷积模块、第八卷积模块、第九卷积模块和第十卷积模块,第六卷积模块、第七卷积模块、第八卷积模块、第九卷积模块和第十卷积模块输出均输入到第五堆叠模块,第五堆叠模块与第十一卷积模块相连,第十一卷积模块的输出作为金字塔锐化特征模块的输出。
所述特征过滤模块具体为:
特征过滤模块包括第一卷积模块、第二卷积模块、第一激活模块和第一分割模块;第一卷积模块、第二卷积模块、第一激活模块和第一分割模块依次连接,特征过滤模块的输入输入到第一卷积模块,第一分割模块的输出和特征过滤模块的输入进行相乘后的输出作为特征过滤模块的输出。
与现有技术相比,本发明的有益效果在于:
1)本发明方法构建卷积神经网络,使用训练集中带有显著性物体的各类场景的图像输入到卷积神经网络中进行训练,得到卷积神经网络显著性检测训练模型;再将待检测的各类场景图像输入到卷积神经网络显著性物体检测训练模型中,预测得到各类场景图像对应的显著性物体图像,由于本发明方法在构建卷积神经网络时结合了RGB图像和Thermal图像,能够在杂乱的背景和易混淆的前景中更加有效的却确定图像中显著性物体的位置,提高卷积神经网络对物体特征提取的能力,提高网络的对图像中显著性物体检测的准确率,从而可以更好的处理混乱背景对显著性物体图像检测的任务。
2)本发明方法采用特征锐化模块,可以很好的联结低维和高维特征,可以更好的对确定显著性物体的空间位置;采用空洞卷积,提高感受野,更好的提取网络特征。
3)本发明方法在搭建卷积神经网络中的使用了特征引导模块,阶梯状的引导模块通过逐阶级递进更好的去优化显著性物体图像,锐化边界,得到一个更加具体的显著性图像。
附图说明
图1为本发明方法的实现框图;
图2为多尺度锐化特征模块框架;
图3为特征过滤模块框架;
图4为引导模块框架;
图5为交融模块框架;
图6为金字塔锐化特征模块框架;
图7a为第一幅原始的图像;
图7b为利用本发明方法对图7a所示的第一幅原始的图像进行检测,所得到的显著性物体图像;
图8a为第二幅原始的图像;
图8b为利用本发明方法对图8a所示的第二幅原始的图像进行检测,所得到的显著性物体图像;
图9a为第三幅原始的图像;
图9b为利用本发明方法对图9a所示的第三幅原始的图像进行检测,所得到的显著性物体图像。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于阶梯状递进神经网络的显著性物体检测方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的带有显著性物体的各类场景图像及每幅原始的带有显著性物体的各类场景图像对应的显著性物体真实检测图像,由Q幅原始的带有显著性物体的各类场景图像及对应的显著性物体真实检测图像构成训练集;将训练集中的第q幅原始的带有显著性物体的各类场景图像记为将训练集中与对应的显著性物体真实检测图像记为其中,原始的带有显著性物体的各类场景图像是RGB图像,Q为正整数,Q≥1000,如取Q=2500,q为正整数,1≤q≤Q,原始的带有显著性物体的各类场景图像主要由拍摄于不同场景的不同显著性物体的RGB图像及其多光谱图像组成,RGB图像里记录着红绿蓝三个波段的光谱信息,多光谱图像记录着另外三个不同波段的光谱信息,每一个波段的光谱信息相当于一个通道分量,即每幅原始的带有显著性物体的各类场景图像包含RGB图像的R通道分量、G通道分量与B通道分量和多光谱图像的另外三个热红外通道分量(Thermal)。
步骤1_2:构建卷积神经网络,卷积神经网络主要由10个基础模块、5个交融模块、多尺度锐化特征模块、金字塔锐化特征模块和4个引导模块组成;
卷积神经网络主要由十个基础模块、五个交融模块、多尺度锐化特征模块、金字塔锐化特征模块和四个引导模块组成,具体为:
如图1所示,第一基础模块、第二基础模块、第三基础模块、第四基础模块和第五基础模块依次连接,第六基础模块、第七基础模块、第八基础模块、第九基础模块和第十基础模块依次连接,卷积神经网络的输入分别输入到第一基础模块和第六基础模块,将每幅原始的带有显著性物体的各类场景图像的RGB图像输入第一基础模块,将每幅原始的带有显著性物体的各类场景图像的多光谱图像输入第六基础模块;第一基础模块和第六基础模块的输出同时输入到第一交融模块,第二基础模块和第七基础模块的输出同时输入到第二交融模块,第三基础模块和第八基础模块的输出同时输入到第三交融模块,第四基础模块和第九基础模块的输出同时输入到第四交融模块,第五基础模块和第十基础模块的输出同时输入到第五交融模块,第一交融模块、第二交融模块、第三交融模块和第四交融模块的输出分别输入到多尺度锐化特征模块的第五输入端、第四输入端、第三输入端和第二输入端,第五交融模块的输出经金字塔锐化特征模块后输入到多尺度锐化特征模块的第一输入端;每个引导模块均有两个输入端,多尺度锐化特征模块的第五输出端、第四输出端、第三输出端和第二输出端分别与第四引导模块、第三引导模块、第二引导模块和第一引导模块的第一输入端相连,多尺度锐化特征模块的第一输出端与第一引导模块的第二输入端相连,第一引导模块的输出输入到第二引导模块的第二输入端,第二引导模块的输出输入到第三引导模块的第二输入端,第三引导模块的输出输入到第二引导模块的第二输入端,第四引导模块的输出作为卷积神经网络的输出。
如图2所示,多尺度锐化特征模块具体为:
多尺度锐化特征模块包括四个堆叠模块、十个上采样模块和四个特征过滤模块;
多尺度锐化特征模块的第五输入端输入到第四堆叠模块,多尺度锐化特征模块的第四输入端输入到第三堆叠模块,多尺度锐化特征模块的第三输入端输入到第二堆叠模块,多尺度锐化特征模块的第二输入端输入到第一堆叠模块,多尺度锐化特征模块的第一输入端输入到第一上采样模块,第一上采样模块的输出分别输入到第一堆叠模块和第二上采样模块,第二上采样模块的输出分别输入到第二堆叠模块和第三上采样模块,第三上采样模块的输出分别输入到第三堆叠模块和第四上采样模块,第四上采样模块的输出输入到第四堆叠模块;
多尺度锐化特征模块的第二输入端还输入到第五上采样模块,第五上采样模块的输出分别输入到第二堆叠模块和第六上采样模块,第六上采样模块的输出分别输入到第三堆叠模块和第七上采样模块,第七上采样模块的输出输入到第四堆叠模块;
多尺度锐化特征模块的第三输入端还输入到第八上采样模块,第八上采样模块的输出分别输入到第三堆叠模块和第九上采样模块,第九上采样模块的输出输入到第四堆叠模块;多尺度锐化特征模块的第四输入端的输入还输入到第十上采样模块,第十上采样模块的输出输入到第四堆叠模块;
第一上采样模块的输入作为多尺度锐化特征模块的第一输出端,第一堆叠模块的输出经第一特征过滤模块后的输出作为多尺度锐化特征模块的第二输出端,第二堆叠模块的输出经第二特征过滤模块后的输出作为多尺度锐化特征模块的第三输出端,第三堆叠模块的输出经第三特征过滤模块后的输出作为多尺度锐化特征模块的第四输出端,第四堆叠模块的输出经第四特征过滤模块后的输出作为多尺度锐化特征模块的第五输出端。
如图4所示,第一引导模块、第二引导模块、第三引导模块和第四引导模块结构相同,引导模块具体为:引导模块包括第十一上采样模块、三个卷积模块、三个激活模块、第二分割模块和中间模块;
引导模块第一输入端的输入输入到第十一上采样模块,第十一上采样模块依次经第一卷积模块和第一激活模块后与第二分割模块相连,引导模块第一输入端的输入和第二分割模块的输出进行相乘后的输出再与引导模块第一输入端的输入进行相加后输入到第二卷积模块,第二卷积模块的输出输入到第二激活模块,引导模块第一输入端的输入和第二分割模块的输出进行相乘后的输出输入到第三卷积模块,第三卷积模块经第三激活模块后与中间模块相连,第二激活模块的输出与引导模块第二输入端的输入进行相乘后输出第一中间输出,中间模块的输出与引导模块第二输入端的输入进行相乘后输出第二中间输出,第一中间输出、第二中间输出和引导模块第二输入端的输入进行相加后的输出作为引导模块的输出。
如图5所示,交融模块具体为:交融模块包括第四卷积模块、第五卷积模块、自适应模块和第四激活模块;
第四卷积模块、第五卷积模块、自适应模块和第四激活模块依次相连,交融模块的输入输入到第四卷积模块,交融模块的输入和第四激活模块的输出进行相乘后的输出再与交融模块的输入进行相加后的输出作为交融模块的输出。
如图6所示,金字塔锐化特征模块具体为:金字塔锐化特征模块包括六个卷积模块和第五堆叠模块;
金字塔锐化特征模块的输入分别输入到第六卷积模块、第七卷积模块、第八卷积模块、第九卷积模块和第十卷积模块,第六卷积模块、第七卷积模块、第八卷积模块、第九卷积模块和第十卷积模块输出均输入到第五堆叠模块,第五堆叠模块与第十一卷积模块相连,第十一卷积模块的输出作为金字塔锐化特征模块的输出。
如图3所示,特征过滤模块具体为:
特征过滤模块包括第一卷积模块、第二卷积模块、第一激活模块和第一分割模块;第一卷积模块、第二卷积模块、第一激活模块和第一分割模块依次连接,特征过滤模块的输入输入到第一卷积模块,第一分割模块的输出和特征过滤模块的输入进行相乘后的输出作为特征过滤模块的输出。
Resnet-34卷积神经网络的5个基础模块的结构分别与本发明的第一基础模块、第二基础模块、第三基础模块、第四基础模块和第五基础模块的结构相同。本发明的第一基础模块和第六基础模块的结构相同,第二基础模块和第七基础模块的结构相同,第三基础模块和第八基础模块的结构相同,第四基础模块和第九基础模块的结构相同,第五基础模块和第十基础模块的结构相同。
对于第一个基础模块。其由依次设置的第1个卷积层、第1个归一化层、第1个激活层;第一个基础模块的输入端接收原始输入图像的RGB三通道分量,要求输入端接收的原始输入图像的宽度为W、高度为H,第一个基础模块的输出端输出64副特征图,将64副特征图构成的集合记为N1;其中,第1个卷积层中的卷积核的大小为3×3、卷积核的个数为64、卷积核的步长为2、卷积层的填充系数为1、卷积层的偏置参数为否,第1个归一化层的输入特征数为64,第1个激活层所采用的激活方式为“ReLU”,N1中的每幅特征图的宽度为W/2、高度为H/2。
对于第二个基础模块。其由依次设置的第1个下采样层、第1个残差块、第2个残差块、第3个残差块;第二个基础模块的输入端接收N1中的所有特征图,第二个基础模块的输出端输出64副特征图,将64副特征图构成的集合记为N2;其中,第1个下采样层所采用的是最大池化下采样,最大池化下采样的卷积核大小为3×3,最大池化下采样卷积核的步长为2,最大池化下采样卷积核的填充系数为1,偏置参数为否;第1个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第一个卷积核的个数为64,第1个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第二个卷积核的个数为64;第2个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第一个卷积核的个数为64,第2个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第二个卷积核的个数为64;第3个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第一个卷积核的个数为64,第3个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第二个卷积核的个数为64;N2中的每幅特征图的宽度为W/4、高度为H/4。
对于第三个基础模块。其由依次设置的第1个残差块、第2个残差块、第3个残差块和第4个残差块组成;第三个基础模块的输入端接收N2中的所有特征图,第三个基础模块的输出端输出128副特征图,将128副特征图构成的集合记为N3;其中,第1个残差块中的第一个卷积核的大小为3×3、卷积核的步长为2、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第一个卷积核的个数为128,第1个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第二个卷积核的个数为128;第2个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第一个卷积核的个数为128,第2个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第二个卷积核的个数为128;第3个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第一个卷积核的个数为128,第3个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第二个卷积核的个数为128;第4个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第一个卷积核的个数为128,第4个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第二个卷积核的个数为128;N3中的每幅特征图的宽度为W/8、高度为H/8。
对于第四个基础模块。其由依次设置的第1个残差块、第2个残差块、第3个残差块、第4个残差块、第5个残差块和第6个残差块组成;第四个基础模块的输入端接收N3中的所有特征图,第四个基础模块的输出端输出256副特征图,将256副特征图构成的集合记为N4;其中,第1个残差块中的第一个卷积核的大小为3×3、卷积核的步长为2、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第一个卷积核的个数为256,第1个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第二个卷积核的个数为256;第2个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第一个卷积核的个数为256,第2个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第二个卷积核的个数为256;第3个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第一个卷积核的个数为256,第3个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第二个卷积核的个数为256;第4个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第4个残差块中的第一个卷积核的个数为256,第4个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第4个残差块中的第二个卷积核的个数为256;第5个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第5个残差块中的第一个卷积核的个数为256,第5个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第5个残差块中的第二个卷积核的个数为256;第6个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第6个残差块中的第一个卷积核的个数为256,第6个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第6个残差块中的第二个卷积核的个数为256;N4中的每幅特征图的宽度为W/16、高度为H/16。
对于第五个基础模块。其由依次设置的第1个残差块、第2个残差块和第3个残差块组成;第五个基础模块的输入端接收N4中的所有特征图,第五个基础模块的输出端输出512副特征图,将512副特征图构成的集合记为N5;其中,第1个残差块中的第一个卷积核的大小为3×3、卷积核的步长为2、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第一个卷积核的个数为512,第1个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第二个卷积核的个数为512;第2个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第一个卷积核的个数为512,第2个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第二个卷积核的个数为512;第3个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第一个卷积核的个数为512,第3个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第二个卷积核的个数为512;N5中的每幅特征图的宽度为W/32、高度为H/32。
对于第六个基础模块。其由依次设置的第1个卷积层、第1个归一化层、第1个激活层;第六个基础模块的输入端接收原始红外图像的三通道分量,要求输入端接收的原始输入图像的宽度为W、高度为H,第一个基础模块的输出端输出64副特征图,将64副特征图构成的集合记为N6;其中,第1个卷积层中的卷积核的大小为3×3、卷积核的个数为64、卷积核的步长为2、卷积层的填充系数为1、卷积层的偏置参数为否,第1个归一化层的输入特征数为64,第1个激活层所采用的激活方式为“ReLU”,N6中的每幅特征图的宽度为W/2、高度为H/2。
对于第七个基础模块。其由依次设置的第1个下采样层、第1个残差块、第2个残差块、第3个残差块;第七个基础模块的输入端接收N6中的所有特征图,第七个基础模块的输出端输出64副特征图,将64副特征图构成的集合记为N7;其中,第1个下采样层所采用的是最大池化下采样,最大池化下采样的卷积核大小为3×3,最大池化下采样卷积核的步长为2,最大池化下采样卷积核的填充系数为1,偏置参数为否;第1个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第一个卷积核的个数为64,第1个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第二个卷积核的个数为64;第2个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第一个卷积核的个数为64,第2个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第二个卷积核的个数为64;第3个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第一个卷积核的个数为64,第3个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第二个卷积核的个数为64;N7中的每幅特征图的宽度为W/4、高度为H/4。
对于第八个基础模块。其由依次设置的第1个残差块、第2个残差块、第3个残差块和第4个残差块组成;第八个基础模块的输入端接收N7中的所有特征图,第八个基础模块的输出端输出128副特征图,将128副特征图构成的集合记为N8;其中,第1个残差块中的第一个卷积核的大小为3×3、卷积核的步长为2、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第一个卷积核的个数为128,第1个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第二个卷积核的个数为128;第2个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第一个卷积核的个数为128,第2个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第二个卷积核的个数为128;第3个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第一个卷积核的个数为128,第3个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第二个卷积核的个数为128;第4个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第一个卷积核的个数为128,第4个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第二个卷积核的个数为128;N8中的每幅特征图的宽度为W/8、高度为H/8。
对于第九个基础模块。其由依次设置的第1个残差块、第2个残差块、第3个残差块、第4个残差块、第5个残差块和第6个残差块组成;第九个基础模块的输入端接收N8中的所有特征图,第九个基础模块的输出端输出256副特征图,将256副特征图构成的集合记为N9;其中,第1个残差块中的第一个卷积核的大小为3×3、卷积核的步长为2、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第一个卷积核的个数为256,第1个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第二个卷积核的个数为256;第2个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第一个卷积核的个数为256,第2个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第二个卷积核的个数为256;第3个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第一个卷积核的个数为256,第3个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第二个卷积核的个数为256;第4个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第4个残差块中的第一个卷积核的个数为256,第4个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第4个残差块中的第二个卷积核的个数为256;第5个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第5个残差块中的第一个卷积核的个数为256,第5个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第5个残差块中的第二个卷积核的个数为256;第6个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第6个残差块中的第一个卷积核的个数为256,第6个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第6个残差块中的第二个卷积核的个数为256;N9中的每幅特征图的宽度为W/16、高度为H/16。
对于第十个基础模块。其由依次设置的第1个残差块、第2个残差块和第3个残差块组成;第十个基础模块的输入端接收N9中的所有特征图,第十个基础模块的输出端输出512副特征图,将512副特征图构成的集合记为N10;其中,第1个残差块中的第一个卷积核的大小为3×3、卷积核的步长为2、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第一个卷积核的个数为512,第1个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第1个残差块中的第二个卷积核的个数为512;第2个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第一个卷积核的个数为512,第2个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第2个残差块中的第二个卷积核的个数为512;第3个残差块中的第一个卷积核的大小为3×3、卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第一个卷积核的个数为512,第3个残差块中的第二个卷积核大小为3×3,卷积核的步长为1、卷积核的填充系数为1,偏置参数为否,第3个残差块中的第二个卷积核的个数为512;N10中的每幅特征图的宽度为W/32、高度为H/32。
对于第一个交融模块。其由依次设置的第1个卷积模块、第2个卷积模块、第1个自适应模块和第1个激活函数组成;第一个交融模块的输入端接收N1和N6中的所有特征图,第一个交融模块的输出端输出64副特征图,将64副特征图构成的集合记为N11;其中,第1个卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第2个卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个自适应模块采用的是自适应平均池化,其输出特征图的大小为1×1,第1个激活函数所采用的激活方式为“ReLU”;N11中的每幅特征图的宽度为W/2、高度为H/2。
对于第二个交融模块。其由依次设置的第1个卷积模块、第2个卷积模块、第1个自适应模块和第1个激活函数组成;第二个交融模块的输入端接收N2和N7中的所有特征图,第二个交融模块的输出端输出128副特征图,将128副特征图构成的集合记为N12;其中,第1个卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第2个卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个自适应模块采用的是自适应平均池化,其输出特征图的大小为1×1,第1个激活函数所采用的激活方式为“ReLU”;N12中的每幅特征图的宽度为W/4、高度为H/4。
对于第三个交融模块。其由依次设置的第1个卷积模块、第2个卷积模块、第1个自适应模块和第1个激活函数组成;第三个交融模块的输入端接收N3和N8中的所有特征图,第三个交融模块的输出端输出256副特征图,将256副特征图构成的集合记为N13;其中,第1个卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第2个卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个自适应模块采用的是自适应平均池化,其输出特征图的大小为1×1,第1个激活函数所采用的激活方式为“ReLU”;N13中的每幅特征图的宽度为W/8、高度为H/8。
对于第四个交融模块。其由依次设置的第1个卷积模块、第2个卷积模块、第1个自适应模块和第1个激活函数组成;第四个交融模块的输入端接收N4和N9中的所有特征图,第四个交融模块的输出端输出512副特征图,将512副特征图构成的集合记为N14;其中,第1个卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第2个卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个自适应模块采用的是自适应平均池化,其输出特征图的大小为1×1,第1个激活函数所采用的激活方式为“ReLU”;N14中的每幅特征图的宽度为W/16、高度为H/16。
对于第五个交融模块。其由依次设置的第1个卷积模块、第2个卷积模块、第1个自适应模块和第1个激活函数组成;第五个交融模块的输入端接收N5和N10中的所有特征图,第五个交融模块的输出端输出512副特征图,将512副特征图构成的集合记为N15;其中,第1个卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第2个卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个自适应模块采用的是自适应平均池化,其输出特征图的大小为1×1,第1个激活函数所采用的激活方式为“ReLU”;N15中的每幅特征图的宽度为W/32、高度为H/32。
对于金字塔锐化特征模块。其由依次设置的第1个卷积模块、第2个卷积模块、第3个卷积模块、第4个卷积模块、第5个卷积模块、第6个卷积模块和第1个堆叠模块组成;金字塔锐化特征模块接收N15中的所有特征图,金字塔锐化特征模块的输出端输出512副特征图,将512副特征图构成的集合记为N16;其中,第1个卷积模块的卷积核大小为1×1、卷积核步长为1、填充为0、偏置参数为否,第2个卷积模块的卷积核大小为3×3、卷积核步长为1、填充为1、空洞率为1、偏置参数为否,第3个卷积模块的卷积核大小为3×3、卷积核步长为1、填充为6、空洞率为6、偏置参数为否,第4个卷积模块的卷积核大小为3×3、卷积核步长为1、填充为12、空洞率为12、偏置参数为否,第5个卷积模块的卷积核大小为3×3、卷积核步长为1、填充为18、空洞率为18、偏置参数为否,第6个卷积模块的卷积核大小为1×1、卷积核步长为1、填充为0、偏置参数为否,第1个堆叠模块在通道维度上进行堆叠;N16中的每幅特征图的宽度为W/32、高度为H/32。
对于多尺度锐化特征模块。其由设置的第1个特征过滤模块、第2个特征过滤模块、第3个特征过滤模块、第4个特征过滤模块、第1个堆叠模块、第2个堆叠模块、第3个堆叠模块、第4个堆叠模块、第1个上采样模块、第2个上采样模块、第3个上采样模块、第4个上采样模块、第5个上采样模块、第6个上采样模块、第7个上采样模块、第8个上采样模块、第9个上采样模块、第10个上采样模块组成;多尺度锐化特征模块接收N11、N12、N13、N14和N16中的所有特征图,多尺度锐化特征模块有5个输出端,第一个输出端输出64副特征图,将64副特征图构成的集合记为N17,第二个输出端输出128副特征图,将128副特征图构成的集合记为N18,第三个输出端输出256副特征图,将256副特征图构成的集合记为N19,第四个输出端输出512副特征图,将512副特征图构成的集合记为N20,第五个输出端输出512副特征图,将512副特征图构成的集合记为N21;其中,第1个堆叠模块、第2个堆叠模块、第3个堆叠模块和第4个堆叠模块在特征图的通道维度上进行堆叠,第1个上采样模块、第2个上采样模块、第3个上采样模块、第4个上采样模块、第5个上采样模块、第6个上采样模块、第7个上采样模块、第8个上采样模块、第9个上采样模块和第10个上采样模块都采用2倍的双线性插值上采样,第1个特征过滤模块、第2个特征过滤模块、第3个特征过滤模块和第4个特征过滤模块里的第一个卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个特征过滤模块里的第二个卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个特征过滤模块里的第一个激活模块采用的激活方式为“Softmax”,第1个特征过滤模块里的第一个切割模块将特征图在通道上切割为2份;N17中的每幅特征图的宽度为W/32、高度为H/32,N18中的每幅特征图的宽度为W/16、高度为H/16,N19中的每幅特征图的宽度为W/8、高度为H/8,N20中的每幅特征图的宽度为W/4、高度为H/4,N21中的每幅特征图的宽度为W/2、高度为H/2。
对于第一个引导模块。其由依次设置的第1个上采样模块、第1个卷积模块、第2个卷积模块、第3个卷积模块、第1个激活函数、第2个激活函数、第3个激活函数、第1个切割函数、第1个中间函数构成;第一个引导模块接收N21和N20中的所有特征图,第一个引导模块的输出端输出512副特征图,将512副特征图构成的集合记为N22;其中,第1个上采样模块所采用的是2倍的双线性插值上采样,第1个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第2个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第3个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个激活函数所采用的激活方式为“Softmax”,第2个激活函数所采用的激活方式为“Sidmoid”,第3个激活函数所采用的激活方式为“Sidmoid”,第1个切割模块将特征图在通道上切割为2份,第1个中间函数的表达式为:f(x)=-x+1;N22中的每幅特征图的宽度为W/16、高度为H/16。
对于第二个引导模块。其由依次设置的第1个上采样模块、第1个卷积模块、第2个卷积模块、第3个卷积模块、第1个激活函数、第2个激活函数、第3个激活函数、第1个切割函数、第1个中间函数构成;第二个引导模块接收N22和N19中的所有特征图,第一个引导模块的输出端输出256副特征图,将256副特征图构成的集合记为N23;其中,第1个上采样模块所采用的是2倍的双线性插值上采样,第1个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第2个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第3个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个激活函数所采用的激活方式为“Softmax”,第2个激活函数所采用的激活方式为“Sidmoid”,第3个激活函数所采用的激活方式为“Sidmoid”,第1个切割模块将特征图在通道上切割为2份,第1个中间函数的表达式为:f(x)=-x+1;N23中的每幅特征图的宽度为W/8、高度为H/8。
对于第三个引导模块。其由依次设置的第1个上采样模块、第1个卷积模块、第2个卷积模块、第3个卷积模块、第1个激活函数、第2个激活函数、第3个激活函数、第1个切割函数、第1个中间函数构成;第三个引导模块接收N23和N18中的所有特征图,第一个引导模块的输出端输出128副特征图,将128副特征图构成的集合记为N24;其中,第1个上采样模块所采用的是2倍的双线性插值上采样,第1个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第2个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第3个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个激活函数所采用的激活方式为“Softmax”,第2个激活函数所采用的激活方式为“Sidmoid”,第3个激活函数所采用的激活方式为“Sidmoid”,第1个切割模块将特征图在通道上切割为2份,第1个中间函数的表达式为:f(x)=-x+1;N24中的每幅特征图的宽度为W/4、高度为H/4。
对于第四个引导模块。其由依次设置的第1个上采样模块、第1个卷积模块、第2个卷积模块、第3个卷积模块、第1个激活函数、第2个激活函数、第3个激活函数、第1个切割函数、第1个中间函数构成;第四个引导模块接收N24和N17中的所有特征图,第一个引导模块的输出端输出64副特征图,将64副特征图构成的集合记为N25;其中,第1个上采样模块所采用的是2倍的双线性插值上采样,第1个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第2个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第3个卷积模块的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否,第1个激活函数所采用的激活方式为“Softmax”,第2个激活函数所采用的激活方式为“Sidmoid”,第3个激活函数所采用的激活方式为“Sidmoid”,第1个切割模块将特征图在通道上切割为2份,第1个中间函数的表达式为:f(x)=-x+1;N25中的每幅特征图的宽度为W/2、高度为H/2。
步骤1_3:将训练集中原始的带有显著性物体的各类场景图像作为原始输入图像输入到卷积神经网络中进行训练,得到对应的显著性物体预测图像,将得到的对应的显著性物体预测图像记为Jpre;
步骤1_4:计算所有显著性物体预测图像组成的图像集与对应的显著性物体真实检测图像组成的图像集之间的损失函数值,当训练次数达到预设次数时,卷积神经网络训练结束,获得训练后的卷积神经网络;将第q幅显著性物体预测图像与第q幅显著性物体真实检测图像之间的损失函数值记为采用二分类交叉熵(binary categorical crossentropy)获得。
测试阶段过程的具体步骤为:
步骤2_1:选取测试集中的第p组待检测的带有显著性物体的各类场景;将第p组待检测的带有显著性物体的各类场景图像记为Ip,其中,1≤p≤P,P=4、3、2、1。
步骤2_2:将第p组待检测的带有显著性物体的各类场景图像Ip的R通道分量、G通道分量、B通道分量和三个热红外通道分量(Thermal)输入到训练后的卷积神经网络中,训练后的卷积神经网络输出对应的显著性物体预测图像,显著性物体预测图像记为
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学***均绝对误差来评价预测垃圾分类的检测性能。
利用本发明方法在测试集中的每幅图像进行检测,得到每幅图像对应的显著性物体图像,反映本发明方法的目标检测效果的召回率、精确率、平均绝对误差如表1所列。从表1所列的数据可知,按本发明方法得到的显著性物体图像结果是较好的,表明利用本发明方法来获取各类场景的显著性物体图像是可行且有效的。
表1利用本发明方法在测试集上的评测结果
图7a给出了第1幅原始的图像;图7b给出了利用本发明方法对图7a所示的原始图像进行显著性物体检测,得到显著性物体图像;图8a给出了第2幅原始的图像;图8b给出了利用本发明方法对图8a所示的原始图像进行显著性物体检测,得到显著性物体图像;图9a给出了第3幅原始的图像;图9b给出了利用本发明方法对图9a所示的原始图像进行显著性物体检测,得到的显著性物体图像。对比图7a和图7b,对比图8a和图8b,对比图9a和图9b,可以看出利用本发明方法得到的显著性物体图像的精确率较高。
Claims (7)
1.一种基于阶梯状递进神经网络的显著性物体检测方法,其特征在于:包括训练阶段过程和测试阶段过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的带有显著性物体的各类场景图像及每幅原始的带有显著性物体的各类场景图像对应的显著性物体真实检测图像,由Q幅原始的带有显著性物体的各类场景图像及对应的显著性物体真实检测图像构成训练集;
步骤1_2:构建卷积神经网络,卷积神经网络主要由10个基础模块、5个交融模块、多尺度锐化特征模块、金字塔锐化特征模块和4个引导模块组成;
步骤1_3:将训练集中原始的带有显著性物体的各类场景图像作为原始输入图像输入到卷积神经网络中进行训练,得到对应的显著性物体预测图像;
步骤1_4:计算所有显著性物体预测图像组成的图像集与对应的显著性物体真实检测图像组成的图像集之间的损失函数值,当训练次数达到预设次数时,卷积神经网络训练结束,获得训练后的卷积神经网络;
所述的测试阶段过程的具体步骤为:
步骤2_1:选取测试集中的第p组待检测的带有显著性物体的各类场景;
步骤2_2:将第p组待检测的带有显著性物体的各类场景输入到训练后的卷积神经网络中,训练后的卷积神经网络输出对应的显著性物体预测图像。
2.根据权利要求1所述的一种基于阶梯状递进神经网络的显著性物体检测方法,其特征在于:所述卷积神经网络主要由十个基础模块、五个交融模块、多尺度锐化特征模块、金字塔锐化特征模块和四个引导模块组成,具体为:
第一基础模块、第二基础模块、第三基础模块、第四基础模块和第五基础模块依次连接,第六基础模块、第七基础模块、第八基础模块、第九基础模块和第十基础模块依次连接,卷积神经网络的输入分别输入到第一基础模块和第六基础模块;第一基础模块和第六基础模块的输出同时输入到第一交融模块,第二基础模块和第七基础模块的输出同时输入到第二交融模块,第三基础模块和第八基础模块的输出同时输入到第三交融模块,第四基础模块和第九基础模块的输出同时输入到第四交融模块,第五基础模块和第十基础模块的输出同时输入到第五交融模块,第一交融模块、第二交融模块、第三交融模块和第四交融模块的输出分别输入到多尺度锐化特征模块的第五输入端、第四输入端、第三输入端和第二输入端,第五交融模块的输出经金字塔锐化特征模块后输入到多尺度锐化特征模块的第一输入端;每个引导模块均有两个输入端,多尺度锐化特征模块的第五输出端、第四输出端、第三输出端和第二输出端分别与第四引导模块、第三引导模块、第二引导模块和第一引导模块的第一输入端相连,多尺度锐化特征模块的第一输出端与第一引导模块的第二输入端相连,第一引导模块的输出输入到第二引导模块的第二输入端,第二引导模块的输出输入到第三引导模块的第二输入端,第三引导模块的输出输入到第二引导模块的第二输入端,第四引导模块的输出作为卷积神经网络的输出。
3.根据权利要求2所述的一种基于阶梯状递进神经网络的显著性物体检测方法,其特征在于:所述多尺度锐化特征模块具体为:
多尺度锐化特征模块包括四个堆叠模块、十个上采样模块和四个特征过滤模块;
多尺度锐化特征模块的第五输入端输入到第四堆叠模块,多尺度锐化特征模块的第四输入端输入到第三堆叠模块,多尺度锐化特征模块的第三输入端输入到第二堆叠模块,多尺度锐化特征模块的第二输入端输入到第一堆叠模块,多尺度锐化特征模块的第一输入端输入到第一上采样模块,第一上采样模块的输出分别输入到第一堆叠模块和第二上采样模块,第二上采样模块的输出分别输入到第二堆叠模块和第三上采样模块,第三上采样模块的输出分别输入到第三堆叠模块和第四上采样模块,第四上采样模块的输出输入到第四堆叠模块;
多尺度锐化特征模块的第二输入端还输入到第五上采样模块,第五上采样模块的输出分别输入到第二堆叠模块和第六上采样模块,第六上采样模块的输出分别输入到第三堆叠模块和第七上采样模块,第七上采样模块的输出输入到第四堆叠模块;
多尺度锐化特征模块的第三输入端还输入到第八上采样模块,第八上采样模块的输出分别输入到第三堆叠模块和第九上采样模块,第九上采样模块的输出输入到第四堆叠模块;多尺度锐化特征模块的第四输入端的输入还输入到第十上采样模块,第十上采样模块的输出输入到第四堆叠模块;
第一上采样模块的输入作为多尺度锐化特征模块的第一输出端,第一堆叠模块的输出经第一特征过滤模块后的输出作为多尺度锐化特征模块的第二输出端,第二堆叠模块的输出经第二特征过滤模块后的输出作为多尺度锐化特征模块的第三输出端,第三堆叠模块的输出经第三特征过滤模块后的输出作为多尺度锐化特征模块的第四输出端,第四堆叠模块的输出经第四特征过滤模块后的输出作为多尺度锐化特征模块的第五输出端。
4.根据权利要求1所述的一种基于阶梯状递进神经网络的显著性物体检测方法,其特征在于:所述引导模块具体为:引导模块包括第十一上采样模块、三个卷积模块、三个激活模块、第二分割模块和中间模块;
引导模块第一输入端的输入输入到第十一上采样模块,第十一上采样模块依次经第一卷积模块和第一激活模块后与第二分割模块相连,引导模块第一输入端的输入和第二分割模块的输出进行相乘后的输出再与引导模块第一输入端的输入进行相加后输入到第二卷积模块,第二卷积模块的输出输入到第二激活模块,引导模块第一输入端的输入和第二分割模块的输出进行相乘后的输出输入到第三卷积模块,第三卷积模块经第三激活模块后与中间模块相连,第二激活模块的输出与引导模块第二输入端的输入进行相乘后输出第一中间输出,中间模块的输出与引导模块第二输入端的输入进行相乘后输出第二中间输出,第一中间输出、第二中间输出和引导模块第二输入端的输入进行相加后的输出作为引导模块的输出。
5.根据权利要求1所述的一种基于阶梯状递进神经网络的显著性物体检测方法,其特征在于:所述交融模块具体为:交融模块包括第四卷积模块、第五卷积模块、自适应模块和第四激活模块;
第四卷积模块、第五卷积模块、自适应模块和第四激活模块依次相连,交融模块的输入输入到第四卷积模块,交融模块的输入和第四激活模块的输出进行相乘后的输出再与交融模块的输入进行相加后的输出作为交融模块的输出。
6.根据权利要求1所述的一种基于阶梯状递进神经网络的显著性物体检测方法,其特征在于:所述金字塔锐化特征模块具体为:金字塔锐化特征模块包括六个卷积模块和第五堆叠模块;
金字塔锐化特征模块的输入分别输入到第六卷积模块、第七卷积模块、第八卷积模块、第九卷积模块和第十卷积模块,第六卷积模块、第七卷积模块、第八卷积模块、第九卷积模块和第十卷积模块输出均输入到第五堆叠模块,第五堆叠模块与第十一卷积模块相连,第十一卷积模块的输出作为金字塔锐化特征模块的输出。
7.根据权利要求3所述的一种基于阶梯状递进神经网络的显著性物体检测方法,其特征在于:所述特征过滤模块具体为:
特征过滤模块包括第一卷积模块、第二卷积模块、第一激活模块和第一分割模块;第一卷积模块、第二卷积模块、第一激活模块和第一分割模块依次连接,特征过滤模块的输入输入到第一卷积模块,第一分割模块的输出和特征过滤模块的输入进行相乘后的输出作为特征过滤模块的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110297512.9A CN113205481A (zh) | 2021-03-19 | 2021-03-19 | 基于阶梯状递进神经网络的显著性物体检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110297512.9A CN113205481A (zh) | 2021-03-19 | 2021-03-19 | 基于阶梯状递进神经网络的显著性物体检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113205481A true CN113205481A (zh) | 2021-08-03 |
Family
ID=77025554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110297512.9A Withdrawn CN113205481A (zh) | 2021-03-19 | 2021-03-19 | 基于阶梯状递进神经网络的显著性物体检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113205481A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150278642A1 (en) * | 2014-04-01 | 2015-10-01 | Superfish Ltd. | Neural network image representation |
CN106909924A (zh) * | 2017-02-18 | 2017-06-30 | 北京工业大学 | 一种基于深度显著性的遥感影像快速检索方法 |
CN108241854A (zh) * | 2018-01-02 | 2018-07-03 | 天津大学 | 一种基于运动和记忆信息的深度视频显著性检测方法 |
CN108596330A (zh) * | 2018-05-16 | 2018-09-28 | 中国人民解放军陆军工程大学 | 一种并行特征全卷积神经网络及其构建方法 |
CN109509192A (zh) * | 2018-10-18 | 2019-03-22 | 天津大学 | 融合多尺度特征空间与语义空间的语义分割网络 |
CN110210539A (zh) * | 2019-05-22 | 2019-09-06 | 西安电子科技大学 | 多级深度特征融合的rgb-t图像显著性目标检测方法 |
CN112348870A (zh) * | 2020-11-06 | 2021-02-09 | 大连理工大学 | 一种基于残差融合的显著性目标检测方法 |
CN112396000A (zh) * | 2020-11-19 | 2021-02-23 | 中山大学 | 一种多模态密集预测的深度信息传输模型的构建方法 |
-
2021
- 2021-03-19 CN CN202110297512.9A patent/CN113205481A/zh not_active Withdrawn
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150278642A1 (en) * | 2014-04-01 | 2015-10-01 | Superfish Ltd. | Neural network image representation |
CN106909924A (zh) * | 2017-02-18 | 2017-06-30 | 北京工业大学 | 一种基于深度显著性的遥感影像快速检索方法 |
CN108241854A (zh) * | 2018-01-02 | 2018-07-03 | 天津大学 | 一种基于运动和记忆信息的深度视频显著性检测方法 |
CN108596330A (zh) * | 2018-05-16 | 2018-09-28 | 中国人民解放军陆军工程大学 | 一种并行特征全卷积神经网络及其构建方法 |
CN109509192A (zh) * | 2018-10-18 | 2019-03-22 | 天津大学 | 融合多尺度特征空间与语义空间的语义分割网络 |
CN110210539A (zh) * | 2019-05-22 | 2019-09-06 | 西安电子科技大学 | 多级深度特征融合的rgb-t图像显著性目标检测方法 |
CN112348870A (zh) * | 2020-11-06 | 2021-02-09 | 大连理工大学 | 一种基于残差融合的显著性目标检测方法 |
CN112396000A (zh) * | 2020-11-19 | 2021-02-23 | 中山大学 | 一种多模态密集预测的深度信息传输模型的构建方法 |
Non-Patent Citations (1)
Title |
---|
姚琳: "基于多级深度特征融合的RGB-T图像显著性目标检测", 《中国优秀硕士学位论文全文数据库(电子期刊)》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107977932B (zh) | 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法 | |
CN110059728B (zh) | 基于注意力模型的rgb-d图像视觉显著性检测方法 | |
CN110929736A (zh) | 多特征级联rgb-d显著性目标检测方法 | |
CN110175986B (zh) | 一种基于卷积神经网络的立体图像视觉显著性检测方法 | |
CN109872305B (zh) | 一种基于质量图生成网络的无参考立体图像质量评价方法 | |
CN110490082B (zh) | 一种有效融合神经网络特征的道路场景语义分割方法 | |
CN109146944B (zh) | 一种基于深度可分卷积神经网络的视觉深度估计方法 | |
CN113673590B (zh) | 基于多尺度沙漏密集连接网络的去雨方法、***和介质 | |
CN110263813B (zh) | 一种基于残差网络和深度信息融合的显著性检测方法 | |
CN111563418A (zh) | 一种基于注意力机制的非对称多模态融合显著性检测方法 | |
CN111401361A (zh) | 一种端到端的轻量级深度车牌识别方法 | |
CN110705566B (zh) | 一种基于空间金字塔池的多模态融合显著性检测方法 | |
CN117079139B (zh) | 一种基于多尺度语义特征的遥感图像目标检测方法及*** | |
CN111696136B (zh) | 一种基于编解码结构的目标跟踪方法 | |
CN110570402B (zh) | 基于边界感知神经网络的双目显著物体检测方法 | |
CN110880010A (zh) | 基于卷积神经网络的视觉slam闭环检测算法 | |
CN112991364A (zh) | 基于卷积神经网络跨模态融合的道路场景语义分割方法 | |
CN114742985A (zh) | 一种高光谱特征提取方法、装置及存储介质 | |
CN111310767A (zh) | 一种基于边界增强的显著性检测方法 | |
CN113902646A (zh) | 基于深浅层特征加权融合网络的遥感影像泛锐化方法 | |
CN113343822A (zh) | 一种基于3d卷积的光场显著性目标检测方法 | |
CN112149662A (zh) | 一种基于扩张卷积块的多模态融合显著性检测方法 | |
CN111294614B (zh) | 用于数字图像、音频或视频数据处理的方法和设备 | |
CN109934835B (zh) | 基于深度强化网络邻接连接的轮廓检测方法 | |
CN110503152B (zh) | 用于目标检测的双路神经网络训练方法及图像处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210803 |
|
WW01 | Invention patent application withdrawn after publication |