CN114241274B - 一种基于超分辨率多尺度特征融合的小目标检测方法 - Google Patents

一种基于超分辨率多尺度特征融合的小目标检测方法 Download PDF

Info

Publication number
CN114241274B
CN114241274B CN202111473712.1A CN202111473712A CN114241274B CN 114241274 B CN114241274 B CN 114241274B CN 202111473712 A CN202111473712 A CN 202111473712A CN 114241274 B CN114241274 B CN 114241274B
Authority
CN
China
Prior art keywords
feature
image
network
target detection
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111473712.1A
Other languages
English (en)
Other versions
CN114241274A (zh
Inventor
徐洁
叶娅兰
刘紫奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202111473712.1A priority Critical patent/CN114241274B/zh
Publication of CN114241274A publication Critical patent/CN114241274A/zh
Application granted granted Critical
Publication of CN114241274B publication Critical patent/CN114241274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于超分辨率多尺度特征融合的小目标检测方法,属于图像处理技术领域。本发明将待识别的低分辨率图像输入特征提取器获取第一特征图,对低分辨率图像进行数据增强处理再与噪声扰动叠加后输入生成器得到叠加量;第一特征图和叠加量的叠加结果作为第一重构特征并输入解码器获取不同尺寸的第二重构特征并输入特征融合网络;特征融合网络将所有第二重构特征上采样到相同的尺寸进行叠加,得到第三重构特征并输入图像目标检测网络;基于图像目标检测网络的输出得到小目标的类别及其检测框位置。本发明在进行小目标检测的同时达到训练时间短、快速推理快和精度高的效果,并且具有行业领先的小目标检测效果。

Description

一种基于超分辨率多尺度特征融合的小目标检测方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于超分辨率多尺度特征融合的小目标检测方法。
背景技术
目标检测是计算机视觉和数字图像处理的一个热门方向,广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域。在各领域趋向智能化的今天,实现目标检测对人力资本消耗的减少具有重要的现实意义。其中,小目标检测是目标检测下游任务中至关重要的环节。例如,在汽车的高分辨率场景照片中检测小目标或远处的物体,是安全地部署自动行驶的必要条件;又比如在卫星图像分析中,有效地注释诸如汽车、船舶和房屋之类的物体十分重要。因此小目标检测受到了越来越多的关注。
随着深度学***均精度。
为了提升小目标检测的精度,研究者首先尝试调整一般检测器的特征提取环节,希望解决小目标特征分辨率低的问题。例如,一些方法降低了图像数据处理的压缩比,希望小目标能够在提取出的特征中具有更高的分辨率。然而,这些方法没有考虑到,许多目标检测数据本身的分辨率并不高,小目标特征在提取之前就已经存在了分辨率低、信息太少的问题。
近年来,一些研究者选择了设计专门针对小目标物体的检测器。研究者发现浅层特征更有利于分辨小目标物体,选择了直接从浅层卷积中提取特征来提高对于小目标物体的检测精度。这种方法一定程度上缓解了小目标特征信息不足的问题。然而,这种检测器对于图像的语义信息具有较多的丢失,在包含中大尺寸物体的通用目标检测中泛化能力差。
此外,现有多数小目标检测器使用一般的目标检测数据集。这些数据集大部分数据是中型和大型对象,只有少数图像包含小目标对象,导致检测模型有一半的时间都无法学***衡性,导致专门的小目标检测器仍然更加关注中大尺寸的物体。
发明内容
本发明提供了一种基于超分辨率多尺度特征融合的小目标检测方法,用于解决小目标物体的低分辨率问题,以提升图像目标检测处理时针对小目标的检测性能。
本发明采用的技术方案为:
一种基于超分辨率多尺度特征融合的小目标检测方法,包括下列步骤:
网络模型配置及训练步骤:
采集高低分辨率图像对作为训练图像,得到训练图像集;
配置网络模型,包括:用于高分辨图像的编码器-解码器网络、低分辨率图像的特征提取器GL、生成器G、特征融合网络和图像目标检测网络;
所述编码器-解码器网络中的编码器部分记为编码器GH,解码器部分记为解码器DH,所述编码器GH包括多个卷积层和池化层,为卷积层和池化层的交替结构;所述解码器DH包括多个反卷积层,所述反卷积层与编码器GH的卷积层数量对应且特征维度和尺寸对应;
将高低分辨率图像对中的低分辨率图LR像输入特征提取器GL,基于特征提取器GL的输出得到特征fL;并将高低分辨率图像对中的高分辨率图像HR输入编码器GH,基于其输出得到特征fH;所述编码器-解码器网络训练时采用的损失函数为:
Figure GDA0004068318260000021
其中,HR′表示解码器DH的输出;
所述特征提取器GL包括多层特征提取块,所述特征提取块由多尺度特征融合网络和局部残差学习组成;
所述生成器G的输入为:对低分辨率图像LR进行数据增强处理得到图像LR′,将图像LR′与随机生成的噪声扰动
Figure GDA0004068318260000023
的叠加作为生成器G的输入;所述生成器G的输出记为叠加量p,且所述生成器G训练时采用的损失函数为:Lp=||p||;
所述生成器G的输出与特征提取器GL的输出叠加后得到第一重构特征并输入解码器DH,解码器DH的各反卷积层的输出作为特征融合网络的输入,所述特征融合网络用于将输入的不同尺寸的特征图上采样到相同的尺寸并叠加,再将叠加结果输入图像目标检测网络;
所述图像目标检测网络包括分类分支和定位分支,且所述图像目标检测网络的分类分支在进行目标分类处理时,基于注意力机制进行目标分类;
所配置的网络模型训练时采用的总损失为:L=λLr+μLloc+ηLreg,其中,Lr表示超分辨重构损失,且Lr=Lrc1+Lrc2+Lp,Lrc2表示第一重构损失,为:
Figure GDA0004068318260000022
Lloc、Lreg分别表示图像目标检测网络的分类分支的分类损失和定位分支的定位损失(即回归损失),λ、μ、η分别为损失Lr、Lloc和Lreg的权重因子;
待识别的低分辨率图像的检测步骤:
将待识别的低分辨率图像输入特征提取器GL,基于特征提取器GL的输出得到待识别的低分辨率图像的第一特征图;
对低分辨率图像进行数据增强处理后,再与随机生成的噪声扰动叠加后输入生成器G,基于生成器G的输出得到叠加量;将第一特征图和叠加量的叠加结果作为待识别的低分辨率图像的第一重构特征;
将第一重构特征输入解码器DH,基于解码器DH的每一反卷积层的输出生成不同尺寸的第二重构特征并输入特征融合网络;
所述特征融合网络将所有第二重构特征上采样到相同的尺寸进行叠加,得到第三重构特征并输入图像目标检测网络;
基于图像目标检测网络的输出得到小目标的类别及其检测框位置。
本发明提供的技术方案至少带来如下有益效果:
本发明旨在解决小目标物体的低分辨率问题,提出了一种超分辨特征融合的新方法,与以前的小目标检测方式相比,本发明的检测方法对小目标物体的检测在满足训练时间、推理时间和检测精度均衡的情况下,同时保持了最先进的实时检测性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种基于超分辨率多尺度特征融合的小目标检测方法的流程图;
图2是本发明实施例提供的一种基于超分辨率多尺度特征融合的小目标检测方法的网络的总体结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
为了解决小目标(待检测图像中的检测目标小于指定尺寸)检测器特征不足导致精度不足的问题,本发明实施例提出了特征层次上的超分辨率技术,结合特征融合技术提升深层特征的语义信息,利用注意力机制提升目标检测的检测性能。
参见图1和图2,本发明实施例提供的基于超分辨率多尺度特征融合的小目标检测方法包括:
将待识别的低分辨率图像输入配置的特征提取器GL中,基于特征提取器GL的输出得到待识别的低分辨率图像的第一特征图;对低分辨率图像进行数据增强处理后,再与随机生成的噪声扰动叠加后输入配置的生成器G中,基于生成器G的输出得到叠加量;将第一特征图和叠加量的叠加结果作为待识别的低分辨率图像的第一重构特征;
将第一重构特征输入配置的解码器DH,依次生成不同尺寸的第二重构特征,并将所有第二重构特征上采样到相同的尺寸进行叠加,得到第三重构特征;该解码器DH包括多层反卷积层,每一层反卷积层输出一个尺寸的第二重构特征;
将所述第三重构特征输入配置的图像目标检测网络中对小目标进行目标检测处理,所述图像目标检测网络包括分类分支和定位分支,基于所述图像目标检测网络的输出得到小目标的类别及其检测框位置,其中,所述图像目标检测网络的分类分支在进行目标分类处理时,基于注意力机制实现目标分类。
其中,解码器DH、特征提取器GL、生成器G、第三重构特征,以及图像目标检测网络的具体实现包括
(1)实现图像由低分辨率到高分辨率的转换以增强后续低分辨率输入的语义信息。将高低分辨率图像对LR和HR分别作为网络输入,通过不同的特征提取器GL和GH获得对应的特征fL和fH;通过生成器G得到由低分辨率图像特征fL转换为高分辨率图像特征fH的叠加量p,实现特征层面上的超分辨技术;高分辨率图像的深层特征fH会通过解码器恢复到原始高分辨图像,以确保深层特征语义信息的有效性。
(1-1):将高分辨率图像HR作为网络中编码器-解码器部分的输入,其中GH即为编码器部分,将解码器记为DH,进行多次卷积池化,得到深层特征fH
本发明实施例中,编码器-解码器可采用任一惯用的网络结构,具体地,可将编码器GH的特征层数设置为7层,采用7×7、5×5和3×3三种卷积核和2×2池化核进行卷积池化得到fH。例如每一次卷积池化处理时,首先经过三个卷积层(通常可包括卷积运算、批归一化处理和激活函数映射),再经过一个池化层。
(1-2):解码器DH由多个反卷积层组成,将深层特征fH作为解码器的输入,反卷积层与卷积层数量对应且特征维度和尺寸对应,对fH进行升维得到输出HR′;其中,HR′与HR具有相同的分辨率大小和通道数;即编码器GH的作用是产生有语义信息的特征图像,进而通过解码器DH将编码器GH输出的低分辨率特征图像映射回输入图像的尺寸
(1-3):将L2距离作为HR与HR′的重构损失,优化L2损失(L2范数损失函数)让HR′与HR更加接近,让解码器部分拥有从深层特征fH重构原始图像的能力,只有深层特征fH包含必要的语义信息,才能保证从fH恢复到原始图像。
具体地,重构损失如下式:
Figure GDA0004068318260000051
(1-4):将低分辨率图像LR作为特征提取器GL的输入,通过多尺度特征融合和局部残差学习得到特征fL
具体地,特征提取器GL的特征层数设置为5,每层由多尺度特征融合和局部残差学习组成,可以获取不同尺度的图像特征,从而充分提取图片特征。
在第n层中,将Mi-1作为下一个多尺度残差块的输入,得到其输出Mi,重复此步骤,直到得到Mn,本发明实施例中,每层中包含三个卷积层。
Mi-1作为第一个卷积层的输入,分别通过3×3和5×5的卷积,并通过ReLU函数得到输出S1、P1。将S1和P1串联起来作为第二个卷积层的输入,分别通过3×3和5×5的卷积,并通过ReLU函数得到输出S2、P2。将S2和P2串联起来作为第三个卷积层的输入,通过1×1的卷积得到输出S′。将Mi-1残差连接到输出,与S′结合得到最终输出Mi
将M0到Mn所有输出作为分级特征融合结构的输入,得到提取到的特征M5
将分级特征融合结构的所有输入进行串联,并使用1×1卷积将融合到的特征通道压缩到想要的通道数量,得到提取到的特征M5,即特征fL
(1-5):对LR数据增强处理得到LR′,同时随机生成噪声扰动
Figure GDA0004068318260000052
将LR′和
Figure GDA0004068318260000053
的叠加作为生成器G的输入,得到叠加量p,计算关于p的L1正则项以保证p的稀疏性;
具体地,数据增强一般通过调节或变动图像的幅度值来改善量化过粗图像的显示质量。利用抖动技术可以消除一部分由于灰度级数过少而产生的虚假轮廓,所叠加的抖动值越大,效果越明显。但抖动值的叠加也给图像带来了噪声,抖动值越大噪声影响也越大。抖动一般通过对原始图像f(x,y)加一个随机的小噪声d(x,y),即将两者相加来实现,d(x,y)的值一般与f(x,y)没有任何有规律的联系。通过色彩抖动、添加噪声数据从而提高训练出的模型的泛化能力和鲁棒性。
正则项如下式:
Lp=||p||
(1-6):将fL和p的叠加结果
Figure GDA0004068318260000054
作为重构特征,计算
Figure GDA0004068318260000055
和fH的L2距离作为重构损失,使GL和G拥有在特征层面上提升图像分辨率的能力。
具体地,重构损失如下式:
Figure GDA0004068318260000061
实现特征层面超分辨部分的整体损失如下式。
Lr=Lrc1+Lrc2+Lp
(2):由重构特征
Figure GDA0004068318260000062
和解码器DH生成不同尺度的深度特征,通过多尺度特征融合保留不同特征层中小目标的语义信息。生成类别相关的特征图
Figure GDA0004068318260000063
利用注意力机制提升感兴趣目标的损失比重,以提升目标检测的性能。
具体地,
Figure GDA0004068318260000064
其中C、H、W、r分别表示类别数、输入图像的高度和宽度以及输出步幅;
(2-1):将
Figure GDA0004068318260000065
输入到解码器DH进行升采样,依次生成不同尺寸的重构特征d1、d2、d3、d4、d5,由于DH最终会将特征恢复为原始图像,因此可将生成的特征看作超分辨图像的深度特征,即重构特征比低分辨率图像特征fL包含了更多的语义信息。
(2-2):将重构特征d1、d2、d3、d4、d5全部上采样到相同尺寸进行叠加。一般而言,小目标在浅层特征中保留较多语义信息,但随着网络的深入,小目标的语义信息会逐渐丢失,而大目标的语义信息则会逐渐抽象化以适应网络的应用需求。因此通过不同层次下特征的融合可以保证在得到大目标抽象语义信息的同时保留小目标的语义信息。将最终的特征叠加结果记为d;
具体地,特征叠加是一种结合多层级特征来解决多尺度问题的特征金字塔模型,整个结构由一个自底向上的下采样,一个自顶向下的上采样以及一个横向连接结构构成。例如对低分辨率的特征图d1做2倍上采样得到d′1,将两者相加,即将上采样映射与相应的特征自底而上映射合并得到中间特征dt,如下式。
d1t=d1+d′1
这个过程是迭代的,直到生成最终的分辨率图d。
(2-3):特征d通过卷积层得到类别相关的特征图
Figure GDA0004068318260000066
其包含C个通道,对应到待识别目标类别数目,每个通道作用在于提取对应类别物体的特征,忽略其他类别的特征。利用软注意力机制生成通道权重Wc,进一步提升待识别类别的损失占比。
具体地,注意力机制是在通道维度上做加权操作,这种注意力机制让模型可以更加关注信息量最大的通道特征,即更加关注待识别目标的类别而不是其他类别。首先对卷积得到的特征d进行压缩操作,得到通道层次的全局特征d′,通道数C等同于待识别的类别数量,然后利用全局特征学习各个通道间的关系,得到不同通道的权重Wc,最后乘以原来的特征d′得到最终类别相关的特征图
Figure GDA0004068318260000071
如下式。
Figure GDA0004068318260000072
其次,将每个通道的特征分类视为一个二分类问题,即所提取的特征是否属于待识别的类别,对每个通道计算一个二分类交叉熵损失,通过注意力机制的权重来平衡每个通道损失的占比,最终网络倾向于特定的通道提取特征类别物体的特征,优化目标如下式。
Figure GDA0004068318260000073
(2-4):类似地,特征d通过卷积层得到特征图
Figure GDA0004068318260000074
其包含4个通道,用于后续目标尺寸回归任务。
具体地,
Figure GDA0004068318260000075
其中H、W、r分别表示类别数、输入图像的高度和宽度以及输出步幅;
(3):使用二维高斯核和带标记的训练数据产生热力图H进行监督训练,特征
Figure GDA0004068318260000076
用于中心定位任务。目标中心作为正样本,其他像素点作为负样本,通过Focal Loss解决正负样本数量不均衡的问题,得到损失Lloc
网络的总体结构如图2所示,利用提取的特征进行中心定位任务。特征金字塔结构将不同深度的特征图放大到最后一层的大小直接相加,可以保留浅层特征的高分辨率信息和深层特征的语义信息,增强目标检测效果,有研究显示浅层特征更适合小目标检测。提取出的特征为
Figure GDA0004068318260000077
用于中心定位任务。其中C、H、W、r是类别数、输入图像的高度和宽度以及输出步幅。本实施例中,设置C=80和r=4,高斯核用于中心定位和检测框回归两者,分别定义了标量α和β来控制核的大小;
给定属于Cm类的第m个标注框,首先将其线性映射到特征图的比例。然后,采用2维高斯核
Figure GDA0004068318260000078
来产生
Figure GDA0004068318260000079
其中
Figure GDA00040683182600000710
最后,通过应用Hm中元素的最大值来更新H中的Cm通道。产生的Hm由参数α决定,m标注框的中心为(x0,y0)m,标注框大小为(h,w)m。用
Figure GDA00040683182600000711
来保证中心位于像素中。在网络的设置中,可以令α=0.54。
高斯分布的峰值,也就是盒子中心的像素,被视为正样本,而任何其他像素被视为负样本。采用Focal Loss解决正负样本数量不均衡的问题。
给定预测值
Figure GDA00040683182600000712
和定位目标H,如下式,
Figure GDA0004068318260000081
其中,αf和βf分别是超参数,M代表标注框的数量,本实施例中,设定αf=2,βf=4。
Figure GDA0004068318260000082
表示特征图
Figure GDA0004068318260000083
(预测值)的元素,c表示通道编号,i,j表示空间位置,Hijc表示定位目标H的元素,即对应的标签值。
(4):热力图H和特征
Figure GDA0004068318260000084
用于尺寸回归任务,利用预测框和真实框的位置重叠计算预测框的有效性,得到损失Lreg
对于尺寸回归,给定特征图比例上的第m个标注框,另一个高斯核被用来产生
Figure GDA0004068318260000085
内核大小由参数β决定。注意,当α和β相同时,可以使用相同的内核来节省计算。Sm中的非零部分被命名为高斯区域Am。由于Am始终位于m标注框内,因此在本本发明实施例的其余部分中,它也被命名为子区域。
在子区域中的每一个像素点都被看作回归样本。给定区域Am中的像素点(i,j)和输出步幅r,回归目标被定义为从(ir,jr)到第m个框四边的距离,表示为四维向量
Figure GDA0004068318260000086
即,wl、wr分别表示左右边的距离,ht、hb表示上下边的距离,在像素点(i,j)的预测框可以被表示为
Figure GDA0004068318260000087
Figure GDA0004068318260000088
其中,s是一个固定标量,用于放大预测结果,以便于优化。在本发明实施例中设置s=16。注意,预测框
Figure GDA0004068318260000089
处于图像比例而不是特征图比例,即预测框通常基于矩形的对角线上的两个顶点定位,
Figure GDA00040683182600000810
分别表示wl、wr的预测值,
Figure GDA00040683182600000811
分别表示ht、hb的预测值。
如果一个像素点没有被任何子区域包含,它会在训练期间被忽略。如果一个像素点被多个子区域包含,则为不明确的样本,它的训练目标被设为面积较小的目标。
给定预测值
Figure GDA00040683182600000812
和回归目标S,从S中收集训练目标
Figure GDA00040683182600000813
Figure GDA00040683182600000814
收集对应的预测结果
Figure GDA00040683182600000815
其中Nreg表示回归样本的数量。对于所有的样本,如上式般对样本的预测框和相应标注框进行解码,用预测框与真实框的位置重叠GIoU作为优化目标,如下式。
Figure GDA00040683182600000816
其中,
Figure GDA00040683182600000817
代表解码框
Figure GDA00040683182600000818
是图像比例上对应的第m个标注框。Wii是样本权值,用来平衡每个样本造成的损失。
由于目标的大小尺度变化,大目标(尺寸大于指定尺寸)可能会生成数千个样本,而小目标可能只生成少量样本。在对所有样本分配的损失进行归一化后,小目标造成的损失甚至可以忽略不计,这将损害小目标的检测性能。因此,样本权重Wij在平衡损失方面起着重要作用。假设(i,j)在第m个注释框的子区域Am内,有:
Figure GDA0004068318260000091
其中,Gm(i,j)是在(i,j)处的高斯概率,Gm(x,y)则表示在(x,y)处的高斯概率,am是第m个检测框的面积。该处理方式可以充分利用大目标中包含的更多注释信息,并保留小目标的注释信息。它还可以强调目标中心附近的这些样本,减少模糊和低质量样本的影响。
最后,将重构损失Lrc1、Lrc2,正则项Lp,中心定位损失Lloc和尺寸回归损失Lreg作为输入,计算小目标检测的总损失L,根据总损失L对网络权重进行优化,在优化完成后实现速度与精度平衡的小目标检测方法;
具体地,总损失L的公式为:
L=λLr+μLloc+ηLreg
其中,λ、μ、η分别为超分辨重构损失、中心定位损失和尺寸回归损失的权重因子。
即本发明实施例针对当前大多数检测器的小目标检测特征不足导致精度不足的问题,提出了一种基于超分辨率多尺度特征融合的小目标检测方法,其首先利用编解码器对高低分辨率图片进行处理,通过对高分辨率图像特征的学习,实现特征层面上的图像超分辨技术,增加图像细节,使低分辨率图像中小目标物体包含更多信息。然后借助特征金字塔结构实现多尺度图像特征融合,避免小目标物体的语义信息丢失。利用注意力机制使特征提取器专注于提取带识别物体所属类别的特征。最后利用提取出的特征进行中心定位和尺寸回归,从而达到目标检测的效果。本发明在进行小目标检测的同时达到训练时间短、快速推理快和精度高的效果,并且具有行业领先的小目标检测效果。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (6)

1.一种基于超分辨率多尺度特征融合的小目标检测方法,其特征在于,包括下列步骤:
网络模型配置及训练步骤:
采集高低分辨率图像对作为训练图像,得到训练图像集;
配置网络模型,包括:用于高分辨图像的编码器-解码器网络、低分辨率图像的特征提取器GL、生成器G、特征融合网络和图像目标检测网络;
所述编码器-解码器网络中的编码器部分记为编码器GH,解码器部分记为解码器DH,所述编码器GH包括多个卷积层和池化层,为卷积层和池化层的交替结构;所述解码器DH包括多个反卷积层,所述反卷积层与编码器GH的卷积层数量对应且特征维度和尺寸对应;
将高低分辨率图像对中的低分辨率图像LR输入特征提取器GL,基于特征提取器GL的输出得到特征fL;并将高低分辨率图像对中的高分辨率图像HR输入编码器GH,基于其输出得到特征fH;所述编码器-解码器网络训练时采用的损失函数为:其中,HR′表示解码器DH的输出;
所述特征提取器GL包括多层特征提取块,所述特征提取块由多尺度特征融合网络和局部残差学习组成;
所述生成器G的输入为:对低分辨率图像LR进行数据增强处理得到图像LR′,将图像LR′与随机生成的噪声扰动的叠加作为生成器G的输入;所述生成器G的输出记为叠加量p,且所述生成器G训练时采用的损失函数为:Lp=||p||;
所述生成器G的输出与特征提取器GL的输出叠加后得到第一重构特征并输入解码器DH,解码器DH的各反卷积层的输出作为特征融合网络的输入,所述特征融合网络用于将输入的不同尺寸的特征图上采样到相同的尺寸并叠加,再将叠加结果输入图像目标检测网络;
所述图像目标检测网络包括分类分支和定位分支,且所述图像目标检测网络的分类分支在进行目标分类处理时,基于注意力机制进行目标分类;
所配置的网络模型训练时采用的总损失为:L=λLr+μLloc+ηLreg,其中,Lr表示超分辨重构损失,且Lr=Lrc1+Lrc2+Lp,Lrc2表示第一重构损失,为:Lloc、Lreg分别表示图像目标检测网络的分类分支的分类损失和定位分支的定位损失,λ、μ、η分别为损失Lr、Lloc和Lreg的权重因子;
待识别的低分辨率图像的检测步骤:
将待识别的低分辨率图像输入特征提取器GL,基于特征提取器GL的输出得到待识别的低分辨率图像的第一特征图;
对低分辨率图像进行数据增强处理后,再与随机生成的噪声扰动叠加后输入生成器G,基于生成器G的输出得到叠加量;将第一特征图和叠加量的叠加结果作为待识别的低分辨率图像的第一重构特征;
将第一重构特征输入解码器DH,基于解码器DH的每一反卷积层的输出生成不同尺寸的第二重构特征并输入特征融合网络;
所述特征融合网络将所有第二重构特征上采样到相同的尺寸进行叠加,得到第三重构特征并输入图像目标检测网络;
基于图像目标检测网络的输出得到小目标的类别及其检测框位置。
2.如权利要求1所述的方法,其特征在于,所述特征提取器GL的特征提取块的网络结构包括两条并行的支路,其中一条支路包括依次连接的两层第一卷积块,所述第一卷积块包括依次连接的卷积核为5×5的卷积层和ReLU层,另一条支路包括依次连接的两层第二卷积块,所述第二卷积块包括依次连接的卷积核为3×3的卷积层和ReLU层,且第一个第一卷积块的输出还接入第二个第二卷积块;第一个第二卷积块的输出还接入第二个第一卷积块,两条支路的输出并入卷积核为1×1的卷积层。
3.如权利要求2所述的方法,其特征在于,所述特征提取块的层数为5。
4.如权利要求1所述的方法,其特征在于,所述图像目标检测网络的分类分支基于注意力机制进行目标分类时,首先对特征融合网络输出的叠加结果进行压缩操作,得到通道层次的全局特征d′,通道数C等同于待识别的类别数量,再基于不同通道的权重Wc得到最终类别相关的特征图
5.如权利要求4所述的方法,其特征在于,训练时,将分类分支的每个通道的特征分类视为一个二分类问题,对每个通道计算一个二分类交叉熵损失。
6.如权利要求1所述的方法,其特征在于,采用预测框和真实框的位置重叠计算预测框的有效性,得到损失Lreg
其中,其中Nreg表示定位分支的样本的数量,表示定位分支输出的预测框,Bm表示图像比例上对应的第m个标注框,(i,j)表示像素点空间位置,Am表示给定的第m个注释框的子区域,Wij表示样本权值:其中,Gm(i,j)表示在(i,j)处的高斯概率,Gm(x,y)表示在(x,y)处的高斯概率,am表示第m个注释框的面积。
CN202111473712.1A 2021-11-30 2021-11-30 一种基于超分辨率多尺度特征融合的小目标检测方法 Active CN114241274B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111473712.1A CN114241274B (zh) 2021-11-30 2021-11-30 一种基于超分辨率多尺度特征融合的小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111473712.1A CN114241274B (zh) 2021-11-30 2021-11-30 一种基于超分辨率多尺度特征融合的小目标检测方法

Publications (2)

Publication Number Publication Date
CN114241274A CN114241274A (zh) 2022-03-25
CN114241274B true CN114241274B (zh) 2023-04-07

Family

ID=80753196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111473712.1A Active CN114241274B (zh) 2021-11-30 2021-11-30 一种基于超分辨率多尺度特征融合的小目标检测方法

Country Status (1)

Country Link
CN (1) CN114241274B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546473B (zh) * 2022-12-01 2023-04-18 珠海亿智电子科技有限公司 目标检测方法、装置、设备及介质
CN116309274B (zh) * 2022-12-12 2024-01-30 湖南红普创新科技发展有限公司 图像中小目标检测方法、装置、计算机设备及存储介质
CN116309431B (zh) * 2023-03-14 2023-10-27 中国人民解放军空军军医大学 一种基于医学影像的视觉解释方法
CN117542105A (zh) * 2024-01-09 2024-02-09 江西师范大学 一种课堂教学下低分辨率图像的人脸超分与表情识别方法
CN117576488B (zh) * 2024-01-17 2024-04-05 海豚乐智科技(成都)有限责任公司 一种基于目标图像重建的红外弱小目标检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3171297A1 (en) * 2015-11-18 2017-05-24 CentraleSupélec Joint boundary detection image segmentation and object recognition using deep learning
CN108564109A (zh) * 2018-03-21 2018-09-21 天津大学 一种基于深度学习的遥感图像目标检测方法
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
CN110009679A (zh) * 2019-02-28 2019-07-12 江南大学 一种基于多尺度特征卷积神经网络的目标定位方法
CN112183203A (zh) * 2020-08-26 2021-01-05 北京工业大学 一种基于多尺度像素特征融合的实时交通标志检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3171297A1 (en) * 2015-11-18 2017-05-24 CentraleSupélec Joint boundary detection image segmentation and object recognition using deep learning
CN108564109A (zh) * 2018-03-21 2018-09-21 天津大学 一种基于深度学习的遥感图像目标检测方法
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
CN110009679A (zh) * 2019-02-28 2019-07-12 江南大学 一种基于多尺度特征卷积神经网络的目标定位方法
CN112183203A (zh) * 2020-08-26 2021-01-05 北京工业大学 一种基于多尺度像素特征融合的实时交通标志检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
yalan ye等.end-to-end versatile human activity recognition with activity image transfer learning.2021 43rd annual international conference of the IEEE engineering in medicine &amp biology society.2021,1-4. *
刘颖;刘红燕;范九伦;公衍超;李莹华;王富平;卢津;.基于深度学习的小目标检测研究与应用综述.电子学报.2020,第48卷(第03期),590-601. *
李希;徐翔;李军;.面向航空飞行安全的遥感图像小目标检测.航空兵器.2020,第27卷(第03期),54-61. *

Also Published As

Publication number Publication date
CN114241274A (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN114241274B (zh) 一种基于超分辨率多尺度特征融合的小目标检测方法
Mendel et al. Semi-supervised segmentation based on error-correcting supervision
Gerdzhev et al. Tornado-net: multiview total variation semantic segmentation with diamond inception module
CN111626176B (zh) 一种基于动态注意力机制的遥感目标快速检测方法及***
Chandio et al. Precise single-stage detector
Rahmon et al. Motion U-Net: Multi-cue encoder-decoder network for motion segmentation
CN113191489B (zh) 二值神经网络模型的训练方法、图像处理方法和装置
CN113378933A (zh) 甲状腺超声图像分类和分割网络、训练方法、装置及介质
Wang et al. RSCNet: A residual self-calibrated network for hyperspectral image change detection
CN114863407B (zh) 一种基于视觉语言深度融合的多任务冷启动目标检测方法
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、***及设备
Khan et al. An encoder–decoder deep learning framework for building footprints extraction from aerial imagery
CN116797787B (zh) 基于跨模态融合与图神经网络的遥感影像语义分割方法
Han et al. L-Net: lightweight and fast object detector-based ShuffleNetV2
Fan et al. A novel sonar target detection and classification algorithm
Yang et al. Side-scan sonar image segmentation based on multi-channel CNN for AUV navigation
Asker Hyperspectral image classification method based on squeeze-and-excitation networks, depthwise separable convolution and multibranch feature fusion
CN115239765A (zh) 基于多尺度可形变注意力的红外图像目标跟踪***及方法
Patel et al. A novel approach for semantic segmentation of automatic road network extractions from remote sensing images by modified UNet
Liu et al. Segmentation of sonar imagery using convolutional neural networks and Markov random field
Jiang et al. Semantic segmentation network combined with edge detection for building extraction in remote sensing images
Rahmon et al. Deepftsg: Multi-stream asymmetric use-net trellis encoders with shared decoder feature fusion architecture for video motion segmentation
Liu et al. Learning to refine object contours with a top-down fully convolutional encoder-decoder network
Wang et al. A Novel Neural Network Based on Transformer for Polyp Image Segmentation
CN115186804A (zh) 一种编码器-解码器网络结构及采用该网路结构的点云数据分类与分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant