CN116258940A - 一种多尺度特征及自适应权重的小目标检测方法 - Google Patents

一种多尺度特征及自适应权重的小目标检测方法 Download PDF

Info

Publication number
CN116258940A
CN116258940A CN202310205418.5A CN202310205418A CN116258940A CN 116258940 A CN116258940 A CN 116258940A CN 202310205418 A CN202310205418 A CN 202310205418A CN 116258940 A CN116258940 A CN 116258940A
Authority
CN
China
Prior art keywords
scale
detection
features
network
detection method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310205418.5A
Other languages
English (en)
Inventor
张天飞
凌强
周荣强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Institute of Information Engineering
Original Assignee
Anhui Institute of Information Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Institute of Information Engineering filed Critical Anhui Institute of Information Engineering
Priority to CN202310205418.5A priority Critical patent/CN116258940A/zh
Publication of CN116258940A publication Critical patent/CN116258940A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多尺度特征及自适应权重的小目标检测方法,通过二维摄像头对实时采集的图像进行物体检测;所述的检测方法采用ResNet网络作为主干网络。采用上述技术方案,通过对ResNet网络进行改进,采用多尺度特征融合并自适应分配权重的方法,实现网络自适应动态调整各个特征的重要性,提高了模型对小目标的检测能力、准确性和检测效果,可有效地提高小目标的检出率。

Description

一种多尺度特征及自适应权重的小目标检测方法
技术领域
本发明属于图像检测与处理的技术领域。更具体地,本发明涉及一种多尺度特征及自适应权重的小目标检测方法。
背景技术
目标检测是计算机视觉领域中的一个重要研究方向,也是其他复杂视觉任务如图像分割、目标跟踪的研究基础。
随着深度学习的发展,基于深度学习的目标检测技术取得了巨大的进展。在现实场景中,由于小目标是大量存在的,因此小目标检测具有广泛的应用前景。
例如,在无人驾驶***中,当交通信号灯或行人等目标比较小时,仍然要求无人驾驶车辆能准确识别这些目标并做出相应的反应;在卫星图像的分析中,需要检测汽车、船舶等之类的目标。
但这些目标往往由于尺度过小造成检测困难。因为小目标的像素少,难以提取有效信息,造成小目标的检测面临着巨大的困难和挑战。
因此,研究小目标检测的有效方法、提高小目标的检测性能和检测效果,是当前目标检测领域非常重要和迫切的研究课题。
发明内容
本发明提供一种多尺度特征及自适应权重的小目标检测方法,其目的是提高对小目标的检测能力和检测效果。
为了实现上述目的,本发明采取的技术方案为:
本发明的小目标检测方法,通过二维摄像头对实时采集的图像进行物体检测;所述的检测方法采用ResNet网络作为主干网络。
所述的检测方法通过在ResNet主干网络中引入跨尺度特征图,使用含有通道注意力机制的大卷积核以及引入多尺度特征及自适应权重的增强小目标特征。
所述的检测方法在block模块中使用含有通道注意力机制的大卷积核,有利于网络特征的提取。
所述的block模块为ResNet网络中的一个通用模块,即残差块,其可以采用以下式(1)进行表达:
χl+1=χl+F(χl,wl) (1)
在式(1)中:
xl表示第l层特征;
xl+1表示第l+1层特征;
wl表示第l层卷积核权重;
F(xl,wl)为ConvNeXt所使用的大卷积核block,是一个非线性函数,是全连接层与激活函数的组合。
所述的检测方法通过使用全局平均池化生成通道统计信息,如以下式(2)所示:
Figure BDA0004110724690000021
在式(2)中:
gc表示各个通道的统计信息;
c为特征图个数;
Xc为c个特征图;
H、W分别为特征图的高和宽;
实现从空间维度对信息的压缩,在此基础上根据以下式(3),为每个通道生成对应的权重,从而达到突出重要通道的目的:
s=F(g,W) (3)
在式(3)中:
s表示每一个通道不同的权重;
g表示根据式(2)得到的通道统计信息;
W表示卷积核权重;
F(g,W)是一个非线性函数,是全连接层与激活函数的组合。
所述的检测方法通过在主干网络中,添加跨尺度特征层,有利于网络特征的提取。
所述的检测方法在多尺度融合过程中引入可学习的权重参数,使各个尺度充分融合,有利于小目标检出。
所述的检测方法的网络输出为四个尺度,每个尺度又融合上一个尺度的特征信息,使得操作有利于对浅层特征的强化以及对小目标有效描述;最后在后续处理中将四个尺度再进行融合的操作。
所述的检测方法通过主干网络得到四个尺度的特征图;若希望目标区域内不同尺度的目标均可以实现有效地检测,就需要将尺度图进行融合;其方式是:改进FPN+PAN结构,提高了对小目标特征的表征能力,通过以上方式最终提高模型对小目标检测的准确率。
其中的FPN结构将高层的强语义特征传递下来,对整个金字塔进行语义信息的增强,但是对定位信息没有传递;PAN将低层网络的强定位信息传递上去到高层特征,从而有利于定位精度的提高。
本发明采用上述技术方案,通过对ResNet网络进行改进,采用多尺度特征融合并自适应分配权重的方法,实现网络自适应动态调整各个特征的重要性,提高了模型对小目标的检测能力、准确性和检测效果,可有效地提高小目标的检出率。
附图说明
附图所示内容及图中的标记简要说明如下:
图1为本发明ResNet网络结构图;
图2为本发明的ConvNeXt-SE的***框图;
图3为本发明的尺度融合结构示意图;
图4为本发明的***框图。
具体实施方式
下面对照附图,通过对实施例的描述,对本发明的具体实施方式作进一步详细的说明,以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。
本发明为一种多尺度特征及自适应权重的小目标检测方法,通过二维摄像头对实时采集的图像进行物体检测,尽可能准确全面的检出目标区域内的小目标物体。
为了解决现有技术存在的问题并克服其缺陷,实现提高对小目标的检测能力和检测效果的发明目的,本发明采取的技术方案为:
本发明的多尺度特征及自适应权重的小目标检测方法,采用ResNet网络作为主干网络。
图4是本发明应用的***,该***包括摄像头采集图像,通过ResNet主干网络引入跨尺度特征图,并加入多尺度特征自适应权重,取得目标位置信息和目标类别信息。
具体分析如下:
一、主干网络选择及优化:
为防止网络中出现梯度消失以及退化问题,同时考虑网络有足够的特征表示能力,再结合网络的简洁性以及实时性等情况,本发明选择ResNet网络作为主干网络,其所具有的残差结构可使神经网络设计较深的网络结构,从而利于提取有效特征的表示。
所述的检测方法通过在ResNet主干网络中引入跨尺度特征图,使用含有通道注意力机制的大卷积核以及引入多尺度特征及自适应权重的增强小目标特征。引入含有通道注意力机制的大卷积核,使其利于目标特征的提取。
通过在ResNet网络但不限于ResNet网络,在block模块中使用含有注意力机制的大卷积核利于网络特征的提取。
在此基础上,加入多尺度特征自适应权重,改进了FPN+PAN结构,提高了对小目标特征的表征能力,通过以上方法最终提高模型对小目标检测的准确率。其技术关键是检测小目标时,通过对ResNet网络进行改进,设置多尺度自适应权重,实现网络自适应动态调整各个特征的重要性。
所述的检测方法通过在ResNet网络但不限于ResNet网络中,添加跨尺度特征层,有利于网络特征的提取。
本发明主要基于ResNet网络并对其进行改进,主要是多尺度特征的处理以及自适应权重的融合,从而提高对小目标的检出率。考虑待检测的目标尺寸差距较大,所以网络结构设计还需要考虑到多尺度融合的问题。
图1是本发明采用的ResNet网络结构图。
如图1所示,所述的检测方法的网络输出为四个尺度,每个尺度又融合上一个尺度的特征信息,此操作有利于对浅层特征的强化以及对小目标有效描述等,最后会在后续处理中将四个尺度再进行融合等操作。
二、大卷积核注意力机制:
所述的检测方法在block模块中使用含有通道注意力机制的大卷积核,有利于网络特征的提取。
图1中的block为ResNet网络中的一个通用模块即残差块,其可以使用式(1)进行表达:
χl+1=χl+F(χl,wl) (1)
在式(1)中:
xl表示第1层特征;
xl+1表示第1+1层特征;
wl表示第1层卷积核权重;
F(xl,wl)为ConvNeXt所使用的大卷积核block,是一个非线性函数,是全连接层与激活函数的组合。
式(1)中,F(xl,wl)有不同的表达方式,本发明借鉴ConvNeXt所使用的大卷积核block,并在此基础上进行改进。
考虑到每个学习到的滤波器都与一个局部感受野一起工作,因此输出特征中的每个单元都无法利用该区域之外的上下文信息。
为了解决这个问题,本发明引入了通道注意力机制,如图2所示的ConNeXt-SE中的(a)、(b)两个的区别是注意力分支中,(a)使用的是RELU激活函数,而(b)使用的是GELU激活函数。
选择使用GELU的原因是非线性是模型很重要的性质,同时为了模型泛化性,需要加入例如dropout的随机正则操作,GELU则是在激活中引入了随机正则的思想,是一种对神经元输入的概率描述,直观上更符合自然的认识,同时实验效果要比RELU效果好。
所述的检测方法通过使用全局平均池化生成通道统计信息,如以下式(2)所示:
Figure BDA0004110724690000061
在式(2)中:
gc表示各个通道的统计信息;
c为特征图个数;
Xc为c个特征图;
H、W分别为特征图的高和宽;
实现从空间维度对信息的压缩,在此基础上根据以下式(3),为每个通道生成对应的权重,从而达到突出重要通道的目的:
s=F(g,W) (3)
在式(3)中:
s表示每一个通道不同的权重;
g表示根据式(2)得到的通道统计信息;
W表示卷积核权重;
F(g,W)是一个非线性函数,是全连接层与激活函数的组合。
图2为ConvNeXt-SE***框图。
三、多尺度特征融合结构:
所述的检测方法通过主干网络得到四个尺度的特征图,若希望目标区域内不同尺度的目标均可以实现有效地检测,就需要将尺度图进行融合。
其方式是:改进FPN+PAN结构,提高了对小目标特征的表征能力,通过以上方式最终提高模型对小目标检测的准确率。
对此,本发明改进了FPN(Feature Pyramid Network)+PAN(Path AggregationNetwork)结构,其中:
FPN的结构将高层的强语义特征传递下来,对整个金字塔进行语义信息的增强,但是对定位信息没有传递。
PAN是将低层网络的强定位信息传递上去到高层特征,从而利于定位精度的提高。
图3为尺度融合结构示意图。
本发明的结构如图3所示,图中s11、s12、s13、s21、s22、s23均为可学习的权重参数,有利于突出各个尺度的贡献,增加小目标的检出率。
本发明的检测方法在多尺度融合过程中引入可学习的权重参数,使各个尺度充分融合,有利于小目标检出。
综上可知,本发明通过在主干网络ResNet的各个尺度上增加融合上一个尺度的信息,并引入含有通道注意力机制的大卷积核,使其利于目标特征的提取;在此基础上,加入多尺度特征的自适应权重改进的FPN+PAN结构,提高了对小目标特征的表征能力,通过上述改进方法提高了模型对小目标检测的准确率。
上面结合附图对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。

Claims (10)

1.一种多尺度特征及自适应权重的小目标检测方法,通过二维摄像头对实时采集的图像进行物体检测,其特征在于:所述的检测方法采用ResNet网络作为主干网络。
2.按照权利要求1所述的多尺度特征及自适应权重的小目标检测方法,其特征在于:所述的检测方法通过在ResNet主干网络中引入跨尺度特征图,使用含有通道注意力机制的大卷积核以及引入多尺度特征及自适应权重的增强小目标特征。
3.按照权利要求1所述的多尺度特征及自适应权重的小目标检测方法,其特征在于:所述的检测方法在block模块中使用含有通道注意力机制的大卷积核,有利于网络特征的提取。
4.按照权利要求3所述的多尺度特征及自适应权重的小目标检测方法,其特征在于:所述的block模块为ResNet网络中的一个通用模块,即残差块,其可以采用以下式(1)进行表达:
χl+1=xl+F(χl,wl) (1)
在式(1)中:
x1表示第1层特征;
xl+1表示第1+1层特征;
w1表示第1层卷积核权重;
F(xl,wl)为ConvNeXt所使用的大卷积核block,是一个非线性函数,是全连接层与激活函数的组合。
5.按照权利要求2所述的多尺度特征及自适应权重的小目标检测方法,其特征在于:所述的检测方法通过使用全局平均池化生成通道统计信息,如以下式(2)所示:
Figure FDA0004110724680000011
在式(2)中:
gc表示各个通道的统计信息;
c为特征图个数;
Xc为c个特征图;
H、W分别为特征图的高和宽;
实现从空间维度对信息的压缩,在此基础上根据以下式(3),为每个通道生成对应的权重,从而达到突出重要通道的目的;
s=F(g,W) (3)
在式(3)中:
s表示每一个通道不同的权重;
g表示根据式(2)得到的通道统计信息;
W表示卷积核权重;
F(g,W)是一个非线性函数,是全连接层与激活函数的组合。
6.按照权利要求1所述的多尺度特征及自适应权重的小目标检测方法,其特征在于:所述的检测方法通过在主干网络中,添加跨尺度特征层,有利于网络特征的提取。
7.按照权利要求6所述的多尺度特征及自适应权重的小目标检测方法,其特征在于:所述的检测方法在多尺度融合过程中引入可学习的权重参数,使各个尺度充分融合,有利于小目标检出。
8.按照权利要求6所述的多尺度特征及自适应权重的小目标检测方法,其特征在于:所述的检测方法的网络输出为四个尺度,每个尺度又融合上一个尺度的特征信息,使得操作有利于对浅层特征的强化以及对小目标有效描述;最后在后续处理中将四个尺度再进行融合的操作。
9.按照权利要求8所述的多尺度特征及自适应权重的小目标检测方法,其特征在于:所述的检测方法通过主干网络得到四个尺度的特征图;若希望目标区域内不同尺度的目标均可以实现有效地检测,就需要将尺度图进行融合;其方式是:改进FPN+PAN结构,提高了对小目标特征的表征能力,通过以上方式最终提高模型对小目标检测的准确率。
10.按照权利要求9所述的多尺度特征及自适应权重的小目标检测方法,其特征在于:其中的FPN结构将高层的强语义特征传递下来,对整个金字塔进行语义信息的增强,但是对定位信息没有传递;PAN将低层网络的强定位信息传递上去到高层特征,从而有利于定位精度的提高。
CN202310205418.5A 2023-03-06 2023-03-06 一种多尺度特征及自适应权重的小目标检测方法 Pending CN116258940A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310205418.5A CN116258940A (zh) 2023-03-06 2023-03-06 一种多尺度特征及自适应权重的小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310205418.5A CN116258940A (zh) 2023-03-06 2023-03-06 一种多尺度特征及自适应权重的小目标检测方法

Publications (1)

Publication Number Publication Date
CN116258940A true CN116258940A (zh) 2023-06-13

Family

ID=86682319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310205418.5A Pending CN116258940A (zh) 2023-03-06 2023-03-06 一种多尺度特征及自适应权重的小目标检测方法

Country Status (1)

Country Link
CN (1) CN116258940A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237830A (zh) * 2023-11-10 2023-12-15 湖南工程学院 基于动态自适应通道注意力的无人机小目标检测方法
CN117314898A (zh) * 2023-11-28 2023-12-29 中南大学 一种多阶段列车轨边零部件检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237830A (zh) * 2023-11-10 2023-12-15 湖南工程学院 基于动态自适应通道注意力的无人机小目标检测方法
CN117237830B (zh) * 2023-11-10 2024-02-20 湖南工程学院 基于动态自适应通道注意力的无人机小目标检测方法
CN117314898A (zh) * 2023-11-28 2023-12-29 中南大学 一种多阶段列车轨边零部件检测方法
CN117314898B (zh) * 2023-11-28 2024-03-01 中南大学 一种多阶段列车轨边零部件检测方法

Similar Documents

Publication Publication Date Title
Zhang et al. Vehicle-damage-detection segmentation algorithm based on improved mask RCNN
CN111460968B (zh) 基于视频的无人机识别与跟踪方法及装置
CN110163187B (zh) 基于f-rcnn的远距离交通标志检测识别方法
Tian et al. A dual neural network for object detection in UAV images
CN112183203B (zh) 一种基于多尺度像素特征融合的实时交通标志检测方法
CN112686207B (zh) 一种基于区域信息增强的城市街道场景目标检测方法
CN116258940A (zh) 一种多尺度特征及自适应权重的小目标检测方法
CN110569754A (zh) 图像目标检测方法、装置、存储介质及设备
CN114266977B (zh) 基于超分辨可选择网络的多auv的水下目标识别方法
CN111738071B (zh) 一种基于单目摄像机的运动变化的逆透视变换方法
CN112801027A (zh) 基于事件相机的车辆目标检测方法
CN115115973A (zh) 一种基于多感受野与深度特征的弱小目标检测方法
CN111881984A (zh) 一种基于深度学习的目标检测方法和装置
CN113743163A (zh) 交通目标识别模型训练方法、交通目标定位方法、装置
CN113901931A (zh) 一种基于知识蒸馏模型的红外和可见光视频的行为识别方法
CN116363535A (zh) 基于卷积神经网络的无人机航拍影像中的船舶检测方法
Schenkel et al. Domain adaptation for semantic segmentation using convolutional neural networks
CN114140698A (zh) 一种基于FasterR-CNN的水系信息提取算法
Leipnitz et al. The effect of image resolution in the human presence detection: A case study on real-world image data
CN111275027A (zh) 实现高速公路雾天检测预警处理的方法
CN117274957B (zh) 一种基于深度学习的道路交通标志检测方法及***
WO2023037494A1 (ja) モデル訓練装置、制御方法、及び非一時的なコンピュータ可読媒体
CN114882478B (zh) 权重优化下的局部多尺度特征融合的驾驶员行为识别方法
CN115762178B (zh) 智能电子警察违章检测***及方法
CN118072146B (zh) 一种基于多层级特征融合的无人机航拍小目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination