CN111523645A - 一种提升小尺度目标检测识别性能的卷积神经网络设计方法 - Google Patents
一种提升小尺度目标检测识别性能的卷积神经网络设计方法 Download PDFInfo
- Publication number
- CN111523645A CN111523645A CN202010300550.0A CN202010300550A CN111523645A CN 111523645 A CN111523645 A CN 111523645A CN 202010300550 A CN202010300550 A CN 202010300550A CN 111523645 A CN111523645 A CN 111523645A
- Authority
- CN
- China
- Prior art keywords
- layer
- characteristic
- output
- network
- funnel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明一种提升小尺度目标检测识别性能的卷积神经网络设计方法,步骤如下:(1)选取原始网络的N个输出节点;(2)对每一个节点依次建立特征漏斗层,对每一层特征漏斗层的输入节点至下一层特征漏斗层的输入节点或网络末端之间的卷积网络,保留网络结构的同时将原始网络中一半数量的卷积核移动至特征漏斗层内,若有池化层则取消池化层,若有大步长卷积则将步长设置为1,保留的原始网络部分称为该特征漏斗层对应原始网络层;(3)建立每一层特征漏斗层的输出,对每一层特征漏斗层末端设置两个输出,称为特征漏斗层的输出一和特征漏斗层的输出二;(4)级联全部特征漏斗层,构建特征漏斗网络;(5)进行多尺度预测,完成网络设计。
Description
技术领域
本发明涉及一种提升小尺度目标检测识别性能的卷积神经网络设计方法,适用于基于卷积神经网络的目标检测识别网络结构和深度学习框架。
背景技术
基于卷积神经网络的目标检测识别算法分为一阶段算法和二阶段算法,两种算法均需要使用一组深度卷积神经网络作为主干网络对输入图片进行处理,获得高维特征图,并通过区域建议网络或直接回归区域对输入图片中的目标进行检测识别。但由于卷积操作不具备尺度不变性,且深度卷积神经网络中包含大量下池化层,会丢失或改变小尺度目标的特征信息,基于卷积神经网络的目标检测识别算法对小尺度目标的检测识别性能远低于大尺度目标的检测识别性能。
为提升小尺度目标的检测识别性能,近年来公开发表的文献中对卷积神经网络的改进方法主要有由Facebook提出的特征金字塔网络(Feature Pyramid Networks,FPN)和由微软亚洲研究院提出的空间金字塔池化(Spatial Pyramid Pooling,SPP)。特征金字塔网络是通过将高维特征图通过上采样扩大了特征图尺寸,叠加到低维特征图中,增加了小目标特征图的尺寸,以提升小目标检测识别的性能。空间池化金字塔则是对高维特征图进行多种尺寸的池化操作,生成包含多尺度信息的特征图,该操作加至于特征金字塔网络计算之前,可进一步提升小尺度目标检测的性能。
但上述已有方法存在的缺点主要体现在:(1)目前的改进方法主要是针对目标检测网络中作为主干网路的深度卷积神经网络输出的高维特征图的设计方法,而由于深度卷积神经网络中包含多次的池化计算,小尺度目标在经过深度卷积神经网络后特征图中仅占有几个像素,丢失了大量的特征信息,不利于小目标的检测识别;(2)由于卷积计算本身不具备尺度不变性,小目标与大目标尽管是相同的物体,但其卷积特征并不对等,不同尺度目标的检测识别使用相同的主干网络结构难以保证多尺度检测识别能力。
发明内容
本发明解决的技术问题是:克服现有技术的不足,在现有基于卷积神经网络的目标检测识别算法基础上,提出了一种通用的卷积神经网络设计方法,使用该方法应用于现有的目标检测识别算法,能够获得更高的小目标检测识别性能。
本发明的技术方案是:一种提升小尺度目标检测识别性能的卷积神经网络设计方法,步骤如下:
(1)选取原始网络的N个输出节点;所述N个节点分别位于连续相近的池化层或大步长卷积之前,将各节点的输出作为特征漏斗网络的对应数量的输入节点;
(2)对步骤(1)中每一个节点依次建立特征漏斗层,对每一层特征漏斗层的输入节点至下一层特征漏斗层的输入节点或网络末端之间的卷积网络,保留网络结构的同时将原始网络中一半数量的卷积核移动至特征漏斗层内,若有池化层则取消池化层,若有大步长卷积则将步长设置为1,保留的原始网络部分称为该特征漏斗层对应原始网络层;
(3)建立每一层特征漏斗层的输出,对步骤(2)中每一层特征漏斗层末端设置两个输出,一个直接输出用于步骤(5)中多尺度预测,称为特征漏斗层的输出一;另一个输出增加最大池化层,使得最大池化层后的输出特征图尺寸与步骤(2)中被移入特征漏斗层的卷积网络输出特征图尺寸一致,称为特征漏斗层的输出二;
(4)级联全部特征漏斗层,构建特征漏斗网络;
对每一层特征漏斗层的输出二与该特征漏斗层对应原始网络层的输出做通道合并,作为下一层特征漏斗层的输入,第一层特征漏斗层的输入与对应原始网络层的输入相同,最后一层特征漏斗层的输出二与原始网络层输出通道合并后设置两个输出,一个与其它特征漏斗层的输出一一致,直接输出至步骤(5) 中多尺度预测;另一个输出再经2步长的最大池化后,输出至步骤(5)中多尺度预测;
(5)进行多尺度预测;
各层特征漏斗层的输出一,使用1×1卷积层将特征图通道数归一化,之后将各通道归一化后的特征图输入至原始网络的预测层,或复制与特征漏斗层数相同的预测层,并将各特征漏斗层输出的特征图依次输入至多个预测层,实现多尺度预测。
本发明与现有技术相比的优点在于:
1、以往算法中,多尺度目标检测识别均使用深度网络输出的特征图,小尺度目标在卷积神经网络中需要经过下采样再上采样的过程,该过程对特征信息造成了损耗。本方案中对各个尺度目标均设计了专用通路,对小尺度目标,使用了浅层、少下采样的网络结构,在网络计算过程中尽可能多地保留小目标的特征信息,而对其它尺度目标则提供了更多深度的卷积网络实现复杂目标的检测识别。既保证了大尺度目标检测识别有足够深度信息,还提高了小尺度目标的检测识别性能。
2、设计了一种特征漏斗网络,特征漏斗网络的优点在于:(1)不增加原始网络的参数数量,特征漏斗层使用的卷积核均来自原始网络,减少了模型训练的难度;(2)。漏斗形的网络设计让浅层网络的特征图,通过下采样能继续传播给深层网络,保证网络深度的同时,减少了计算量。
附图说明
图1为实例1所用的原始网络,18层残差网络的网络结构。
图2为18层残差网络使用的基础残差模块的网络结构。
图3为经过本方案获得的修改自18层残差网络的主干网络结构。
具体实施方式
实施例1:
选取一个支持多尺度预测的目标检测识别卷积神经网络,以基网为18层残差网络的RetinaNet为例,18层残差网络结构如图1所示,图1中基础残差模块的结构如图2所示,本发明的具体步骤如下:
(1)选取原始网络的三个节点,如图3所示,左侧为原始网络18层残差网络,包括了四次下采样,分别是一个池化层和三个大步长卷积层,选取三个大步长卷积层之前作为特征漏斗网络的三个输入节点,分别是图3中引出右侧特征漏斗层的3个节点;
(2)对步骤(1)中每一个节点依次建立特征漏斗层,对每一层特征漏斗层的输入节点至下一层特征漏斗层的输入节点或网络末端之间的卷积网络,保留网络结构的同时将原始网络中一半数量的卷积核移动至特征漏斗层内,并将原为2步长的卷积层步长设置为1。修改后,第一层特征漏斗层具有两2个64 通道的基础残差模块,对应原始网络层具有两2个64通道的基础残差模块,第二层特征漏斗层具有两2个128通道的基础残差模块,对应原始网络层具有两2个128通道的基础残差模块,第三层特征漏斗层具有两2个256通道的基础残差模块,对应原始网络层具有两2个256通道的基础残差模块;
(3)建立每一层特征漏斗层的输出,对三层特征漏斗层中每一层特征漏斗层末端设置两个输出,一个直接输出用于步骤(5)中多尺度预测,简称特征漏斗层的输出一,另一个输出增加步长为2的3×3最大池化层,该输出简称特征漏斗层的输出二;
(4)3层特征漏斗层级联,第一层特征漏斗层输出二为64通道,与对应原始网络层特征图合并为128通道,作为第二层特征漏斗层的输入;第二层特征漏斗层输出二为128通道,与对应原始网络层输出特征图合并为256通道,作为第三层特征漏斗层输入;第三层漏斗层输出256通道,与对应原始网络层输出特征图合并为512通道,作为第四个输出一,该节点再进行一次步长为2 的3×3最大池化,作为第五个输出一;
(5)进行多尺度预测,三层特征漏斗层的输出一,加上第三层特征图池化后与原始网络特征图合并后产生的两个输出一,共5个输出一,首先使用1×1 卷积层将特征图通道数归一化至128通道,之后再次进行步长为1的3×3卷积,并将各特征图的结果输入至原始网络的预测层。
经过本方案修改的RetinaNet主干网络结构如图3所示,接入原始网络的预测层即可实现提升小尺度目标检测识别性能的卷积神经网络。
实施例2:
选取其他检测网络或主干网络实施本方案时,操作过程同上,区别在于:步骤(1)选取节点的数量和位置需要结合主干网络进行调整,现有主流主干网络均可分为5段,包括4次使用最大池化或大步长卷积层的下采样,可选取最后3次下采样之前的节点作为步骤(1)的节点;步骤(3)中需要根据原始主干网络的结构,一半数量的卷积核移动至特征漏斗层内,并修改大步长卷积层的步长为1,或取消池化层。
本发明未详细说明部分属本领域技术人员公知常识。
Claims (4)
1.一种提升小尺度目标检测识别性能的卷积神经网络设计方法,其特征在于步骤如下:
(1)选取原始网络的N个输出节点;所述N个节点分别位于连续相近的池化层或大步长卷积之前,将各节点的输出作为特征漏斗网络的对应数量的输入节点;
(2)对步骤(1)中每一个节点依次建立特征漏斗层,对每一层特征漏斗层的输入节点至下一层特征漏斗层的输入节点或网络末端之间的卷积网络,保留网络结构的同时将原始网络中一半数量的卷积核移动至特征漏斗层内,若有池化层则取消池化层,若有大步长卷积则将步长设置为1,保留的原始网络部分称为该特征漏斗层对应原始网络层;
(3)建立每一层特征漏斗层的输出,对步骤(2)中每一层特征漏斗层末端设置两个输出,称为特征漏斗层的输出一和特征漏斗层的输出二;
(4)级联全部特征漏斗层,构建特征漏斗网络;
(5)进行多尺度预测,完成网络设计。
2.根据权利要求1所述的一种提升小尺度目标检测识别性能的卷积神经网络设计方法,其特征在于:所述步骤(3)两个输出中,一个直接输出用于步骤(5)中多尺度预测,称为特征漏斗层的输出一;另一个输出增加最大池化层,使得最大池化层后的输出特征图尺寸与步骤(2)中被移入特征漏斗层的卷积网络输出特征图尺寸一致,称为特征漏斗层的输出二。
3.根据权利要求2所述的一种提升小尺度目标检测识别性能的卷积神经网络设计方法,其特征在于:所述步骤(4)的具体过程为:对每一层特征漏斗层的输出二与该特征漏斗层对应原始网络层的输出做通道合并,作为下一层特征漏斗层的输入,第一层特征漏斗层的输入与对应原始网络层的输入相同,最后一层特征漏斗层的输出二与原始网络层输出通道合并后设置两个输出,一个与其它特征漏斗层的输出一一致,直接输出至步骤(5)中多尺度预测;另一个输出再经2步长的最大池化后,输出至步骤(5)中多尺度预测。
4.根据权利要求3所述的一种提升小尺度目标检测识别性能的卷积神经网络设计方法,其特征在于:所述步骤(5)的具体过程为:各层特征漏斗层的输出一,使用1×1卷积层将特征图通道数归一化,之后将各通道归一化后的特征图输入至原始网络的预测层,或复制与特征漏斗层数相同的预测层,并将各特征漏斗层输出的特征图依次输入至多个预测层,实现多尺度预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010300550.0A CN111523645B (zh) | 2020-04-16 | 2020-04-16 | 一种提升小尺度目标检测识别性能的卷积神经网络设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010300550.0A CN111523645B (zh) | 2020-04-16 | 2020-04-16 | 一种提升小尺度目标检测识别性能的卷积神经网络设计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111523645A true CN111523645A (zh) | 2020-08-11 |
CN111523645B CN111523645B (zh) | 2023-04-18 |
Family
ID=71901631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010300550.0A Active CN111523645B (zh) | 2020-04-16 | 2020-04-16 | 一种提升小尺度目标检测识别性能的卷积神经网络设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111523645B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967522A (zh) * | 2020-08-19 | 2020-11-20 | 南京图格医疗科技有限公司 | 一种基于漏斗卷积结构的图像序列分类方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180225116A1 (en) * | 2015-10-08 | 2018-08-09 | Shanghai Zhaoxin Semiconductor Co., Ltd. | Neural network unit |
CN108629330A (zh) * | 2018-05-22 | 2018-10-09 | 上海交通大学 | 基于多级联分类器的人脸动态捕捉与快速识别方法及*** |
CN108710830A (zh) * | 2018-04-20 | 2018-10-26 | 浙江工商大学 | 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法 |
CN109670533A (zh) * | 2018-11-23 | 2019-04-23 | 何旭 | 一种基于卷积神经网络的多尺度测井相识别方法 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
WO2020047738A1 (zh) * | 2018-09-04 | 2020-03-12 | 安徽中科智能感知大数据产业技术研究院有限责任公司 | 多尺度特征融合网络结合定位模型的害虫自动计数方法 |
US20200094370A1 (en) * | 2018-09-24 | 2020-03-26 | Applied Materials, Inc. | Machine vision as input to a cmp process control algorithm |
-
2020
- 2020-04-16 CN CN202010300550.0A patent/CN111523645B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180225116A1 (en) * | 2015-10-08 | 2018-08-09 | Shanghai Zhaoxin Semiconductor Co., Ltd. | Neural network unit |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
CN108710830A (zh) * | 2018-04-20 | 2018-10-26 | 浙江工商大学 | 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法 |
CN108629330A (zh) * | 2018-05-22 | 2018-10-09 | 上海交通大学 | 基于多级联分类器的人脸动态捕捉与快速识别方法及*** |
WO2020047738A1 (zh) * | 2018-09-04 | 2020-03-12 | 安徽中科智能感知大数据产业技术研究院有限责任公司 | 多尺度特征融合网络结合定位模型的害虫自动计数方法 |
US20200094370A1 (en) * | 2018-09-24 | 2020-03-26 | Applied Materials, Inc. | Machine vision as input to a cmp process control algorithm |
CN109670533A (zh) * | 2018-11-23 | 2019-04-23 | 何旭 | 一种基于卷积神经网络的多尺度测井相识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967522A (zh) * | 2020-08-19 | 2020-11-20 | 南京图格医疗科技有限公司 | 一种基于漏斗卷积结构的图像序列分类方法 |
CN111967522B (zh) * | 2020-08-19 | 2022-02-25 | 南京图格医疗科技有限公司 | 一种基于漏斗卷积结构的图像序列分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111523645B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416327B (zh) | 一种目标检测方法、装置、计算机设备及可读存储介质 | |
CN109472298B (zh) | 用于小尺度目标检测的深度双向特征金字塔增强网络 | |
CN108182456B (zh) | 一种基于深度学习的目标检测模型及其训练方法 | |
WO2021238366A1 (zh) | 一种神经网络构建方法以及装置 | |
CN105320965B (zh) | 基于深度卷积神经网络的空谱联合的高光谱图像分类方法 | |
WO2021057056A1 (zh) | 神经网络架构搜索方法、图像处理方法、装置和存储介质 | |
CN110210608B (zh) | 基于注意力机制和多层次特征融合的低照度图像增强方法 | |
CN114937151A (zh) | 基于多感受野和注意力特征金字塔的轻量级目标检测方法 | |
CN109447990A (zh) | 图像语义分割方法、装置、电子设备和计算机可读介质 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN113095370B (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN114187311A (zh) | 一种图像语义分割方法、装置、设备及存储介质 | |
CN111709882B (zh) | 基于亚像素卷积与特征分割的超分辨率融合的计算方法 | |
CN108304786A (zh) | 一种基于二值化卷积神经网络的行人检测方法 | |
CN110458133A (zh) | 基于生成式对抗网络的轻量级人脸检测方法 | |
CN111461129B (zh) | 一种基于上下文先验的场景分割方法和*** | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测*** | |
CN113239825B (zh) | 一种复杂场景下高精度烟草甲虫检测方法 | |
CN116187391A (zh) | 神经网络模型的处理方法及装置 | |
CN110837786A (zh) | 基于空间通道的密度图产生方法、装置、电子终端及介质 | |
CN111597937B (zh) | 鱼姿势识别方法、装置、设备及存储介质 | |
CN115331104A (zh) | 一种基于卷积神经网络的农作物种植信息提取方法 | |
CN113240683A (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
CN111523645B (zh) | 一种提升小尺度目标检测识别性能的卷积神经网络设计方法 | |
CN115984701A (zh) | 一种基于编解码结构的多模态遥感图像语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |