CN111985503B - 一种基于改进的特征金字塔网络结构的目标检测方法和装置 - Google Patents
一种基于改进的特征金字塔网络结构的目标检测方法和装置 Download PDFInfo
- Publication number
- CN111985503B CN111985503B CN202010825554.0A CN202010825554A CN111985503B CN 111985503 B CN111985503 B CN 111985503B CN 202010825554 A CN202010825554 A CN 202010825554A CN 111985503 B CN111985503 B CN 111985503B
- Authority
- CN
- China
- Prior art keywords
- feature
- layer
- layers
- feature layer
- pyramid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 20
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 238000011176 pooling Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 230000003321 amplification Effects 0.000 claims 2
- 238000003199 nucleic acid amplification method Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 4
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明方案通过对从骨干网络提取的多尺度特征进行融合、选择、残差操作获取最终的特征层,将其进行目标的分类与位置回归,获取最终的结果。该方法在目标检测中即使在目标被部分遮挡的情况下仍能正确检测到目标,鲁棒性高、性能高。
Description
技术领域
本发明属于目标检测技术领域,具体涉及一种基于改进的特征金字塔网络结构的目标检测方法和装置。
背景技术
在图片的目标检测中,特征金字塔网络是一种能够以低廉的算力代价换取网络性能大幅提升的一种结构,由于它优异的性能,已经被用在各种主流目标检测网络结构中。
在特征金字塔网络中,来自骨干网络的特征通过自上而下的路径对高层次的金字塔进行上采样来产生比较粗糙但语义信息更强的特征图。然后这些特征与相同空间大小的自下而上的特征图进行横向连接,从而增强了低层次的语义信息。然而这种按顺序集成的特征会更多的关注相邻分辨率的特征而稀释非相邻分辨率的特征,限制了网络的性能。因此,如何更好地集成骨干网络的特征成为了一个学术界与工业界的热点问题。
发明内容
针对于上述现有技术的不足,本发明的目的之一是。
本发明实施例公开了一种基于改进的特征金字塔网络结构的目标检测方法,通过特征提取网络获取被检测图片的多个不同尺寸的第一特征层,并将所述多个第一特征层缩放到预设分辨率大小;将所述多个缩放后的第一特征层进行融合得到第二特征层,并对所述第二特征层进行全局平均池化和降维操作得到第三特征层;根据第三特征层和不同特征层的权重获得经选择后的第四特征层;通过残差的方式处理所述第四特征层,获得金字塔特征图;对所述金字塔特征图进行目标归类与位置回归,以输出检测框。
在一个可能的实施例中,采用双线性插值的方法对分辨率小于预设分辨率的第一特征层进行放大操作以达到预设分辨率;采用最大池化方法对分辨率大于预设分辨率的第一特征层进行缩小操作以达到预设分辨率;其中所述预设分辨率在多个第一特征层中分辨率居中。
在一个可能的实施例中,采用全局平均池化计算第二特征层整个通道域的统计信息,并利用统计信息采用全连接层来计算通道域的依存关系,得到第三特征层。
在一个可能的实施例中,将第三特征层通过1×1卷积扩增到n×d维,其中n为所采用的特征金字塔层数,d为每一个特征层的维度;每个通道的权重通过softmax运算得到,将所述权重与第三特征层相乘取得选择过后的特征层,再将其按逐像素相加得到最终选择后的第四特征图。
在一个可能的实施例中,通过重缩放的逆操作将第四特征层缩放到对应多个第一特征层的分辨率并与对应的第一特征层相加获取金字塔特征图。
一种基于改进的特征金字塔网络结构的目标检测装置,包括:缩放模块,用于通过特征提取网络获取被检测图片的多个不同尺寸的第一特征层,并将所述多个第一特征层缩放到预设分辨率大小;融合模块,用于将所述多个缩放后的第一特征层进行融合得到第二特征层,并对所述第二特征层进行全局平均池化和降维操作得到第三特征层;选择模块,用于根据第三特征层和不同特征层的权重获得经选择后的第四特征层;残差模块,用于通过残差的方式处理所述第四特征层,获得金字塔特征图;位置回归模块,用于对所述金字塔特征图进行目标归类与位置回归,以输出检测框。
在一个可能的实施例中,所述缩放模块还用于:采用双线性插值的方法对分辨率小于预设分辨率的第一特征层进行放大操作以达到预设分辨率;采用最大池化方法对分辨率大于预设分辨率的第一特征层进行缩小操作以达到预设分辨率;其中所述预设分辨率在多个第一特征层中分辨率居中。
在一个可能的实施例中,所述融合模块还用于:采用全局平均池化计算第二特征层整个通道域的统计信息,并利用统计信息采用全连接层来计算通道域的依存关系,得到第三特征层。
在一个可能的实施例中,所述选择模块还用于:将第三特征层通过1×1卷积扩增到n×d维,其中n为所采用的特征金字塔层数,d为每一个特征层的维度;每个通道的权重通过softmax运算得到,将所述权重与第三特征层相乘取得选择过后的特征层,再将其按逐像素相加得到最终选择后的第四特征图。
在一个可能的实施例中,所述残差模块还用于,通过重缩放的逆操作将第四特征层缩放到对应多个第一特征层的分辨率并与对应的第一特征层相加获取金字塔特征图。
一种计算机存储介质,其存储计算机程序,在所述计算机程序被执行时,实施前文所述的方法。
与现有技术相比,本发明具有以下有益效果:
本发明方案鲁棒性高,通过动态地选择骨干网络的特征,使得网络对目标特征的提取能力更强。在极端情况下,如弱光、遮挡等破坏目标特征的情况,网络通过聚合不同分辨率特征层的特征实现对目标特征的增强,提升检测的准确性,在目标被部分遮挡的情况下仍能正确检测到目标。采用本方法的网络性能更强,引入的参数量较小,同时推理速度并没有明显的降低,且准确率有所提升。
附图说明
图1为本发明实施例的一种方法流程图;
图2为本发明实施例的融合阶段网络结构图;
图3为本发明实施例的选择阶段网络结构图;
图4为本发明实施例的残差阶段网络结构图;
图5(a)、5(b)为本发明实施例的光纤配线架ODF端口检测数据集上的检测结果对照图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
本方法可以动态的选择特征层,具体为通过对从骨干网络提取的多尺度特征进行融合、选择、残差操作获取最终的特征层,将其进行目标的分类与位置回归,获取最终的结果。该方法在目标检测中鲁棒性高,性能高,即使在目标被部分遮挡的情况下仍能正确检测到目标。
具体的,结合图1,本发明实施例公开了一种基于改进的特征金字塔网络结构的目标检测方法,包括:
S101,通过特征提取网络获取被检测图片的多个不同尺寸的第一特征层,并将所述多个第一特征层缩放到预设分辨率大小。
将所述待检测的图片输入骨干网络进行特征提取,其中骨干网络即特征提取网络,可以包括ResNet、VggNet等。
接着,参考图2,对从骨干网络中提取出来的多尺度特征{C3,C4,C5,C6,C7}即多个不同尺寸的第一特征层缩放到中间层大小,即对于分辨率小于C5层的特征层,采用双线性插值的方法将尺寸放大,而对于分辨率大于C5层的特征层,使用最大池化对其进行缩小,得到{R3,R4,R5,R6,R7}。
S102,将所述多个缩放后的第一特征层进行融合得到第二特征层,并对所述第二特征层进行全局平均池化和降维操作得到第三特征层。
参考图2,然后采用逐像素相加操作将缩放后的特征进行简单的信息融合,生成融合后的特征层Rs,即第二特征层,而后采用全局平均池化来整个通道域的统计信息,如式(1)所示:
其中,H与W分别代表特征图的高与宽,(i,j)表示像素的坐标,zc表示第c个通道的统计信息,融合后的特征层。为了充分利用z中的信息,使用一个全连接层来计算通道域的依存关系,同时降低维度以提升网络的效率,得到第三特征层p,如式(2)
p=Fc(zc) (2)
S103,根据第三特征层和不同特征层的权重获得经选择后的第四特征层。
如图3,为了动态的选择合适的特征层信息,需要网络能自适应的分配不同特征层的权重,为了实现这一目标,首先将第三特征层p通过1×1卷积扩增到n×d维,其中n为所采用的特征金字塔层数,在这里设为5,d为每一个特征层的维度。而后,每个通道的权重通过softmax运算得到,用A表示,即:
A=softmax(conv(p)) (3)
在获取了所有通道的权重之后,将其与原始的重缩放后的特征相乘取得选择过后的特征层,再将他们按逐像素相加得到最终选择后的第四特征层q:
q=sum(AiRi) (4)
其中Ri∈{R3,R4,R5,R6,R7}。
S104,通过残差的方式处理所述第四特征层,获得金字塔特征图。
参考图4,选择后的特征通过残差的方式来增强原始的特征,这样可以让网络的训练速度更快,所学习到的特征更加鲁棒。具体的操作为通过重缩放的逆操作将q缩放到对应第一特征层Ci的分辨率并相加获取最终的金字塔特征图。如式(5)所示:
Pi=Rescale(q)+Ci (5)
S105,对所述金字塔特征图进行目标归类与位置回归,以输出检测框。
以单目标检测网络FCOS为例,将其特征金字塔网络结构替换为前述方法,并在端口检测数据集上进行测试,其结果如图5(a)、图5(b)所示。由于ODF端口的排布比较密集,因此端口之间经常会互相遮挡,造成被遮挡的端口检测比较困难,但采用了如图5(b)所示本方法的FCOS相较于如图5(a)所示原版FCOS在目标被部分遮挡的情况下仍能正确检测到目标,检测效果更好。
本发明实施例还公开了一种基于改进的特征金字塔网络结构的目标检测装置,缩放模块,用于通过特征提取网络获取被检测图片的多个不同尺寸的第一特征层,并将所述多个第一特征层缩放到预设分辨率大小;融合模块,用于将所述多个缩放后的第一特征层进行融合得到第二特征层,并对所述第二特征层进行全局平均池化和降维操作得到第三特征层;选择模块,用于根据第三特征层和不同特征层的权重获得经选择后的第四特征层;残差模块,用于通过残差的方式处理所述第四特征层,获得金字塔特征图;位置回归模块,用于对所述金字塔特征图进行目标归类与位置回归,以输出检测框。本发明实施例方式对应于前述的方法实施例,具体内容可参考方法实施例。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进,这些改进也应视为本发明的保护范围。
Claims (2)
1.一种基于改进的特征金字塔网络结构的目标检测方法,其特征在于,
通过特征提取网络获取被检测图片的多个不同尺寸的第一特征层,并将所述多个第一特征层缩放到预设分辨率大小;
将所述多个缩放后的第一特征层进行融合得到第二特征层,并对所述第二特征层进行全局平均池化和降维操作得到第三特征层;
根据第三特征层和不同特征层的权重获得经选择后的第四特征层;
通过残差的方式处理所述第四特征层,获得金字塔特征图;
对所述金字塔特征图进行目标归类与位置回归,以输出检测框;
将所述多个第一特征层缩放到预设分辨率大小包括:采用双线性插值的方法对分辨率小于预设分辨率的第一特征层进行放大操作以达到预设分辨率;采用最大池化方法对分辨率大于预设分辨率的第一特征层进行缩小操作以达到预设分辨率;其中所述预设分辨率在多个第一特征层中分辨率居中;
对所述第二特征层进行全局平均池化和降维操作得到第三特征层包括:采用全局平均池化计算第二特征层整个通道域的统计信息,并利用统计信息采用全连接层来计算通道域的依存关系,得到第三特征层;
根据第三特征层和不同特征层的权重获得经选择后的第四特征层包括:将第三特征层通过卷积扩增到/>维,其中n为所采用的特征金字塔层数,d为每一个特征层的维度;每个通道的权重通过softmax运算得到,将所述权重与第三特征层相乘取得选择过后的特征层,再将其按逐像素相加得到最终选择后的第四特征图;
通过重缩放的逆操作将第四特征层缩放到对应多个第一特征层的分辨率并与对应的第一特征层相加获取金字塔特征图。
2.一种基于改进的特征金字塔网络结构的目标检测装置,其特征在于,
缩放模块,用于通过特征提取网络获取被检测图片的多个不同尺寸的第一特征层,并将所述多个第一特征层缩放到预设分辨率大小;
融合模块,用于将所述多个缩放后的第一特征层进行融合得到第二特征层,并对所述第二特征层进行全局平均池化和降维操作得到第三特征层;
选择模块,用于根据第三特征层和不同特征层的权重获得经选择后的第四特征层;
残差模块,用于通过残差的方式处理所述第四特征层,获得金字塔特征图;
位置回归模块,用于对所述金字塔特征图进行目标归类与位置回归,以输出检测框;
所述缩放模块还用于:采用双线性插值的方法对分辨率小于预设分辨率的第一特征层进行放大操作以达到预设分辨率;采用最大池化方法对分辨率大于预设分辨率的第一特征层进行缩小操作以达到预设分辨率;其中所述预设分辨率在多个第一特征层中分辨率居中;
所述融合模块还用于:采用全局平均池化计算第二特征层整个通道域的统计信息,并利用统计信息采用全连接层来计算通道域的依存关系,得到第三特征层;
所述选择模块还用于:将第三特征层通过卷积扩增到/>维,其中n为所采用的特征金字塔层数,d为每一个特征层的维度;每个通道的权重通过softmax运算得到,将所述权重与第三特征层相乘取得选择过后的特征层,再将其按逐像素相加得到最终选择后的第四特征图;
所述残差模块还用于,通过重缩放的逆操作将第四特征层缩放到对应多个第一特征层的分辨率并与对应的第一特征层相加获取金字塔特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010825554.0A CN111985503B (zh) | 2020-08-17 | 2020-08-17 | 一种基于改进的特征金字塔网络结构的目标检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010825554.0A CN111985503B (zh) | 2020-08-17 | 2020-08-17 | 一种基于改进的特征金字塔网络结构的目标检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111985503A CN111985503A (zh) | 2020-11-24 |
CN111985503B true CN111985503B (zh) | 2024-04-26 |
Family
ID=73434028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010825554.0A Active CN111985503B (zh) | 2020-08-17 | 2020-08-17 | 一种基于改进的特征金字塔网络结构的目标检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111985503B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11989956B2 (en) * | 2021-04-05 | 2024-05-21 | Microsoft Technology Licensing, Llc | Dynamic head for object detection |
CN116257038B (zh) * | 2023-05-15 | 2023-07-25 | 深圳市瓴鹰智能科技有限公司 | 基于轻量级卷积神经网络的舵机控制与诊断方法、装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845510A (zh) * | 2016-11-07 | 2017-06-13 | 中国传媒大学 | 基于深度层级特征融合的中国传统视觉文化符号识别方法 |
CN110633661A (zh) * | 2019-08-31 | 2019-12-31 | 南京理工大学 | 一种融合语义分割的遥感图像目标检测方法 |
CN111210443A (zh) * | 2020-01-03 | 2020-05-29 | 吉林大学 | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 |
CN111242071A (zh) * | 2020-01-17 | 2020-06-05 | 陕西师范大学 | 一种基于锚框的注意力遥感图像目标检测方法 |
CN111507359A (zh) * | 2020-03-09 | 2020-08-07 | 杭州电子科技大学 | 一种图像特征金字塔的自适应加权融合方法 |
-
2020
- 2020-08-17 CN CN202010825554.0A patent/CN111985503B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845510A (zh) * | 2016-11-07 | 2017-06-13 | 中国传媒大学 | 基于深度层级特征融合的中国传统视觉文化符号识别方法 |
CN110633661A (zh) * | 2019-08-31 | 2019-12-31 | 南京理工大学 | 一种融合语义分割的遥感图像目标检测方法 |
CN111210443A (zh) * | 2020-01-03 | 2020-05-29 | 吉林大学 | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 |
CN111242071A (zh) * | 2020-01-17 | 2020-06-05 | 陕西师范大学 | 一种基于锚框的注意力遥感图像目标检测方法 |
CN111507359A (zh) * | 2020-03-09 | 2020-08-07 | 杭州电子科技大学 | 一种图像特征金字塔的自适应加权融合方法 |
Non-Patent Citations (1)
Title |
---|
"Libra R-CNN: Towards Balanced Learning for Object Detection";Jiangmiao Pang et al.;《IEEE》;821-830 * |
Also Published As
Publication number | Publication date |
---|---|
CN111985503A (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | A distributed canny edge detector: algorithm and FPGA implementation | |
CN113870293B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN111985503B (zh) | 一种基于改进的特征金字塔网络结构的目标检测方法和装置 | |
CN103106648B (zh) | 确定图像中投影区域的方法和设备 | |
US7483035B2 (en) | Texture cache control using a data dependent slot selection scheme | |
WO2011126774A2 (en) | Generation of multi-resolution image pyramids | |
US20200184697A1 (en) | Image Modification Using Detected Symmetry | |
US20180253852A1 (en) | Method and device for locating image edge in natural background | |
AU2011254013A1 (en) | Image processing apparatus, image processing method, and program | |
Manfredi et al. | Shift equivariance in object detection | |
CN111860207A (zh) | 基于多尺度的遥感影像地物分类方法、***、装置及介质 | |
Jiang et al. | Deep edge map guided depth super resolution | |
Patel et al. | Accelerated seam carving for image retargeting | |
CN112668577A (zh) | 大尺度图像中目标物体的检测方法、终端及装置 | |
CN103345738B (zh) | 基于感兴趣区域的对象检测方法及装置 | |
JP2020098455A (ja) | 物体識別システム、物体識別方法、並びに、画像識別プログラム | |
US9076232B2 (en) | Apparatus and method for interpolating image, and apparatus for processing image using the same | |
CN113506305B (zh) | 三维点云数据的图像增强方法、语义分割方法及装置 | |
Hu et al. | Fast source camera identification using matching signs between query and reference fingerprints | |
CN112070853A (zh) | 图像生成方法及装置 | |
Zheng et al. | Joint residual pyramid for joint image super-resolution | |
US20220020113A1 (en) | Image resizing using seam carving | |
Jung et al. | Intensity-guided edge-preserving depth upsampling through weighted L0 gradient minimization | |
Zhou et al. | Cross-scale collaborative network for single image super resolution | |
CN115619678A (zh) | 一种图像变形的矫正方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |