CN113065558B - 一种结合注意力机制的轻量级小目标检测方法 - Google Patents
一种结合注意力机制的轻量级小目标检测方法 Download PDFInfo
- Publication number
- CN113065558B CN113065558B CN202110432768.6A CN202110432768A CN113065558B CN 113065558 B CN113065558 B CN 113065558B CN 202110432768 A CN202110432768 A CN 202110432768A CN 113065558 B CN113065558 B CN 113065558B
- Authority
- CN
- China
- Prior art keywords
- network
- module
- feature
- mse
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 78
- 230000007246 mechanism Effects 0.000 title claims abstract description 34
- 238000013138 pruning Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 238000013140 knowledge distillation Methods 0.000 claims abstract description 9
- 238000011176 pooling Methods 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 10
- 230000006872 improvement Effects 0.000 claims description 10
- 238000004821 distillation Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 239000013585 weight reducing agent Substances 0.000 claims description 2
- 230000006835 compression Effects 0.000 abstract description 4
- 238000007906 compression Methods 0.000 abstract description 4
- 230000002708 enhancing effect Effects 0.000 abstract 2
- 230000000694 effects Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000001125 extrusion Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 101100322030 Drosophila melanogaster Abl gene Proteins 0.000 description 1
- 241000607479 Yersinia pestis Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003331 infrared imaging Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种结合注意力机制的轻量级小目标检测方法,包括以下步骤:(1)搭建基于YOLOv4的小目标检测网络:构建MSE多尺度注意力模块***到特征提取网络,同时添加浅层特征图作为预测层,以及SPP模块的改进,增强特征的提取能力;(2)构建小目标数据集,使用数据增强策略对训练集数据进行增强,对锚框进行自定义(3)对模型进行通道剪枝,同时采用知识蒸馏恢复模型精度;(4)输入一幅无人机航拍图像,获取目标分类和定位结果。本发明利用通道注意力机制和模型压缩策略,能够在有效改善小目标错检漏检现象的同时保证模型的实时性。
Description
技术领域
本发明属于深度学习技术在机器视觉领域的应用,具体涉及一种结合注意力机制的轻量级小目标检测方法。
背景技术
目标检测在给定图像中找出特定目标类别及其准确位置,其中小目标检测是目标检测领域的重要研究内容,在遥感影像目标识别、红外成像目标识别、农业病虫害识别等场景都有着重要的应用价值。在目标检测中,通常将目标像素值占整个图像0.12%以下的或者像素值小于32*32的目标称为小目标。由于小尺寸物体的分辨率低和噪声大,往往在多层卷积后提取到的特征不明显,因此检测图像中的小目标是非常困难的。
早期的小目标检测主要是通过手工设计的方法来获取目标的特征信息。温佩芝等人将小波变换应用在小目标检测过程中(见温佩芝,史泽林,于海斌,吴晓军.基于小波变换的海面背景红外小目标检测方法[J].光电工程,2004),利用正交小波分解的多分辨率分析实现频带选择,抑制噪声和背景的干扰,并利用不同方向边缘进行融合,获得候选点,最后根据灰度阈值排除干扰目标。CHEN等人(见C.L.P.Chen,H.Li,Y.Wei,et al.A LocalContrast Method for Small Infrared Target Detection[J]//IEEE Transactions onGeoscience and Remote Sensing,2014,52(1):574-581)受生物视觉机制的启发,使用建议的局部对比度度量获取输入图像的局部对比度图,该度量可表示当前位置及其邻域之间的差异,这样可以同时实现目标信号增强和背景杂波抑制,最后通过自适应阈值分割目标。上述方法从图像的底层特征出发,使用基本图像特征来实现检测任务,操作较简单,但对于复杂背景的小目标检测来说还存在漏检错检以及实时性上的问题。
近年来,随着计算机算力的提升和深度学习理论的快速发展,深度学习技术已被广泛用于目标检测。目前流行的目标检测模型大致可以分为两类:一阶段检测算法,分类和定位看作回归任务,代表性的算法有SSD和YOLO;二阶段检测算法,候选框选取和目标分类分离,代表性的算法有R-CNN和Faster R-CNN。其中由于一阶段检测算法将整个检测任务看作是回归操作,因此在实时性方面占有很大优势。
利用深度学习技术来提高小目标检测的主要方式有多尺度表示、上下文信息、超分辨率等方法。申请号为CN202010537199.7的专利公开了一种用于图片小目标的检测方法。从待检测图片中获取六个不同尺寸的特征图,采用双线性插值法将六个不同尺寸特征图中的金字塔底层特征图与金字塔高层特征图进行特征融合,得到新的六个不同尺寸的特征图,以新的六个不同尺寸的特征图参与预测。该方法采用多尺度特征图增强了目标特征信息,但易受复杂背景的干扰,误检率较高。申请号为CN202010444356.X的专利公开了一种基于分辨率增强的遥感图像小目标检测方法,对包含小目标的遥感图像进行超分辨处理后再进行目标检测,解决了由于遥感图像中小目标可利用的特征信息少以及小目标区域存在几何形变,采用超分辨处理技术进一步完善小目标的细节特征信息,应用基于区域的可变形卷积网络充分利用了小目标有限的特征信息,提高了对遥感图像中小目标的检测能力。该方法虽然有较好的准确性,但由于图片分辨率增大导致网络实时性下降,不利于网络的轻量化。
发明内容
为了解决现有目标检测方法对于小目标检测存在误检率较高、漏检、实时性差等问题,本发明提供了一种结合注意力机制的轻量级小目标检测方法,所述方法包括以下步骤:
(1)搭建基于YOLOv4改进的小目标检测网络
本发明的小目标检测网络是在一阶段目标检测网络YOLOv4的基础上改进得到,具体的网络结构改进包括以下三个方面:
(1-1)构建MSE多尺度注意力机制模块,***到特征提取网络
本发明构建的MSE多尺度注意力机制模块是对SE注意力模块进行改进得到的,SE注意力模块是由Hu等人在2017年提出的一种用于计算机视觉领域的轻量级注意力机制模块,它可以方便的***到特征提取网络的两个网络层之间,通过学习全局信息来选择和强调感兴趣的特征通道,并抑制无关的干扰信息。
通过构建MSE多尺度注意力机制模块,***到YOLOv4特征提取网络CSPDarknet53的每个CSP模块中Concat层和CBM模块之间,组成新的MSE-CSPUnit模块,得到带有注意力信息的MSE-CSPDarknet53的特征提取网络。其中MSE多尺度注意力机制模块的构建具体步骤如下:
(1-1-1)首先将CSP模块的Concat层的输出作为输入特征图,通过不同尺寸的卷积核集成多种尺度的特征图,并基于多尺度特征图进行下一步的特征提取操作。卷积核尺寸分别为3×3、5×5、7×7,对于使用大尺寸卷积核导致的参数量暴增的情况,使用2层3×3的卷积核代替5×5的卷积核,3层3×3的卷积核代替7×7的卷积核。设输入特征图X∈RC×H×W,C、H、W分别为输入通道、输入高度、输入宽度,则对于输入特征图使用不同尺寸卷积核进行特征提取的过程如下式:
Xc=V3×3X+V5×5X+V7×7X
其中,Xc为多尺度特征图输出,V代表使用不同尺寸卷积核的卷积操作。
(1-1-2)对Xc进行挤压操作,使用全局平均池化和全局最大池化分别对通道进行挤压得到通道级的特征信息,其中全局平均池化注重特征图的全局特征,全局最大池化注重特征图的局部特征:
Xmax=max(Xc(i,j))
其中,Xc为输入的多尺度特征,Xavg为全局平均池化后获取的特征,Xmax为全局最大池化后获取的特征,i=1,2,…,H,j=1,2,…,W,H、W分别为输入高度、输入宽度。
(1-1-3)分别对Xavg和Xmax进行激励操作,并相加、经过归一化操作生成通道注意力权重信息Xs。在进行激励操作时,使用Mish激活函数保留通道之间的更多的非线性关系,FC1、FC2为两个不同的全连接层,其中C为输入通道,r为降维比例,FC1起到降维的作用,以减少全连接层参数,FC2起恢复原始维度的作用。激活和归一化操作如下式:
Xa=FC2(Mish(FC1(Xavg))
Xm=FC2(Mish(FC1(Xmax))
Xs=Softmax(Xa+Xm)
其中,Mish为非线性激活函数,Softmax为归一化函数。
(1-1-4)将(1-1-3)生成的通道注意力权重信息与(1-1-1)生成的多尺度特征图进行加权操作,得到MSE多尺度注意力模块的输出Xweight,将Xweight作为MSE-CSPUnit模块中CBM模块的输入。
Xweight=Scale(Xc,Xs)
(1-2)添加浅层特征图作为预测层
深层特征具有更强的语义信息,更适合定位;而浅层特征有丰富的分辨率信息,更利于小目标的检测。删除FPN和PAN结构输出的19×19大小的特征图,保留FPN和PAN结构原有38×38、76×76的输出特征图;使用FPN和PAN结构将MSE-CSPUnit*2的输出和下方深层特征图上采样的结果进行特征融合,获得152×152大小的浅层特征图;最后得到38×38、76×76、152×152三个不同大小的特征图对不同尺度的目标进行预测。
这里MSE-CSPUnit*2是指两个MSE-CSPUnit模块。
(1-3)SPP模块改进
SPP模块可以丰富特征图的表达能力,提供重要的上下文信息。为了提高小目标检测时的性能,因此在38×38、76×76、152×152特征图前分别放置SPP模块,实现局部特征和全局特征的有效融合。SPP模块将输入特征图进行1×1、5×5、9×9、13×13的最大池化操作后,再将生成的不同尺度的特征图进行张量拼接。
(2)训练并优化小目标检测网络
针对具体应用场景,构建小目标检测数据集,通过数据增强,对图片数据进行多模式随机调整对,包括对数据中小目标个数、图片亮度、对比度、饱和度进行随机调整,增强模型的泛化性能。
最后设置锚框,用于拟合数据集中的目标;通过Kmeans++算法对目标数据集的锚框重新聚类,得到更适合当前数据集的锚框参数,加快网络的收敛速度。
(3)对小目标检测网络进行模型轻量化
(3-1)通道剪枝
针对网络的参数冗余,对小目标检测网络进行通道剪枝。使用YOLOv4的卷积模块BN层的γ作为缩放因子,在损失函数中添加关于BN层的γ的L1正则化项,对网络进行预设轮数次的稀疏化训练后,基于梯度更新后的γ值,对γ进行排序,通过设置剪枝阈值,将小于剪枝阈值的γ所在的通道移除,得到剪枝后的轻量级YOLOv4网络。在YOLOv4网络中,除了上采样层前的卷积层和SPP结构,对其它含有BN层的卷积模块进行通道剪枝,得到通道剪枝后的模型文件和模型结构配置文件。对于YOLOv4稀疏训练时,建立的目标损失函数为:
其中,x为模型的输入值,y为期望输出值,w为网络中可训练的参数,g(.)为缩放因子的惩罚项,λ为平衡因子。
(3-2)知识蒸馏恢复模型精度
经过通道剪枝后,虽然移除的通道对于模型输出的贡献微小,但是剪枝后的模型精度还是会有小幅度的下降,因此要恢复模型精度。
使用未进行剪枝的YOLOv4网络作为教师网络,通道剪枝后的网络作为学生网络,进行知识蒸馏。YOLOv4的知识蒸馏将进行分类任务和回归任务的学习,对于回归结果的蒸馏,由于回归的输出是无界的,且教师网络的预测结果可能与标签值相反,因此在计算回归损失时,不是直接向教师网络学习。首先分别计算教师网络和标签值、学生网络和标签值的L2损失,设置一个范围w,当学生网络和标签值的L2损失与教师网络和标签值L2损失的偏差超过范围w时,才会在损失中计入学生网络的L2损失。即当学生网络的性能超过教师网络一定的值时,就不计算学生网络的损失。其整体损失函数为:
Lreg=(1-v)LsL1(Rs,yreg)+vLb(Rs,Rt,yreg)
其中,w为预设的偏差范围,yreg是真实标签值,Rt和Rs分别是教师和学生的回归输出,Lb为模型蒸馏部分损失,LsL1为学生网络与真实标签的损失,v是Lb和LsL1之间的平衡因子,在网络训练前80%的时间设置在0.1~0.5之间,后20%的训练时间设置在0.6~0.9之间;Lreg为网络蒸馏学习时的总损失。
(4)利用已训练的小目标检测网络模型对输入图像进行检测
输入一帧无人机航拍图像,送入训练并优化完成的小目标检测网络中进行目标的定位和分类。该网络首先将图像输入至带有注意力机制的特征提取网络进行特征的提取,经过SPP模块分别输出3个不同分辨率大小的特征图。使用回归和分类思想对3个特征图进行三种不同尺度目标的检测,经过置信阈值过滤之后,获得目标的分类和定位结果;重复直至完成测试集中图片的检测。
与现有技术相比,本发明具有以下有益效果:
本发明在端到端的卷积神经网络YOLOv4上进行改进实现轻量级小目标检测网络,同传统的小目标检测方法相比,基于SE设计了MSE注意力模块,并将所设计的注意力模块***到YOLOv4特征提取网络中,增强网络对于感兴趣区域的关注能力,减少在小目标检测过程中复杂背景的干扰;然后添加浅层特征图作为预测层,使用38×38、76×76、152×152三个不同大小的特征图对不同尺度的目标进行预测;对SPP模块改进,在38×38、76×76、152×152特征图前分别放置SPP模块,实现局部特征和全局特征的有效融合;最后使用通道剪枝和知识蒸馏策略对模型进行压缩优化,在极少精度损失下,实现了模型参数数量的大幅压缩;此外,使用数据增强方式,对数据集中小目标个数、图片亮度、对比度、饱和度进行随机调整,增强模型训练效果。在小目标数据集中,本发明网络具有较好的检测效果和鲁棒性,同时满足了轻量化模型部署的要求。
附图说明
图1为本发明的流程图;
图2为加入MSE多尺度注意力机制模块后的MSE-CSPUnit模块;
图3为本发明的MSE多尺度注意力模块结构;
图4为本发明设计的小目标检测网络结构;
图5为模型压缩后通道数量的对比,其中深色柱为未剪枝前,浅色柱为剪枝后;
图6为本发明小目标检测网络对目标图片的检测效果图,其中(a)、(c)为改进前检测效果,(b)、(d)为对应(a)、(c)的改进后的检测效果。
具体实施方式
下面结合实施例和附图来详细描述本发明,但本发明并不仅限于此。本发明目标检测的实施例对象为数据集中各类小目标,本发明选用的处理平台为Intel i9-9900k、NVIDIA RTX2080ti和32G RAM的组合,操作***为Linux64 Ubuntu18.04。本发明方法选择在深度学习框架Pytorch1.6上进行实现。
如图1所示引入注意力机制的轻量级小目标检测方法,包括四个部分:
(1)搭建基于YOLOv4改进的小目标检测网络;
(2)训练并优化所述小目标检测网络;
(3)对小目标检测网络进行模型轻量化;
(4)利用已训练的小目标检测网络模型对输入图像进行检测。
第一部分搭建基于YOLOv4改进的小目标检测网络具体包括:
(1-1)设计MSE多尺度注意力机制模块,嵌入到特征提取网络
构建MSE多尺度注意力机制模块,***到YOLOv4特征提取网络CSPDarknet53的每个CSP模块中Concat层和CBM模块之间,组成新的MSE-CSPUnit模块,得到带有注意力信息的MSE-CSPDarknet53的特征提取网络,如图2所示,除MSE外的其余模块为YOLOv4特征提取网络CSPDarknet53的常规结构模块。MSE多尺度注意力机制模块的构建过程如下:
首先将CSP模块的Concat层的输出作为输入特征图,通过不同尺寸的卷积核集成多种尺度的特征图,并基于多尺度特征图进行下一步的特征提取操作,其中卷积核尺寸分别为3×3、5×5、7×7。对于使用大尺寸卷积核导致的参数量暴增的情况,使用2层3×3的卷积核代替5×5的卷积核,3层3×3的卷积核代替7×7的卷积核。设输入特征图X∈RC×H×W,C、H、W分别为输入通道、输入高度、输入宽度,则对于输入特征图使用不同尺寸卷积核进行特征提取的过程如下式:
Xc=V3×3X+V5×5X+V7×7X
其中,Xc为多尺度融合特征输出,V代表使用不同尺寸卷积核的卷积操作。
对Xc进行挤压操作,针对小目标特征信息偏少的特点,使用全局最大池化操作注重特征图的局部信息,同时使用全局平均池化操作着重于特征图的全局特征,池化操作如下式:
Xmax=max(Xc(i,j))
其中,Xavg为全局平均池化后获取的特征,Xmax为全局最大池化后获取的特征,i=1,2,…,H,j=1,2,…,W,H、W分别为输入高度、输入宽度。
分别对Xavg和Xmax进行激励操作,并相加、经过归一化操作生成注意力权重信息Xs。在进行激励操作时,使用Mish激活函数保留通道之间的更多的非线性关系。FC1、FC2为两个不同的全连接层,其中 C为输入通道,r为降维比例,FC1起到降维的作用,以减少全连接层参数,FC2起恢复原始维度的作用。激活和归一化操作如下式:
Xa=FC2(Mish(FC1(Xavg))
Xm=FC2(Mish(FC1(Xmax))
Xs=Softmax(Xa+Xm)
其中,Mish为非线性激活函数,Softmax为归一化函数。
将Xs与第一步生成的多尺度特征图Xc进行加权操作,得到MSE多尺度注意力模块的输出Xweight,将Xweight作为MSE-CSPUnit模块中CBM模块的输入。
Xweight=Scale(Xc,Xs)
(1-2)在预测层中添加浅层特征
深层特征具有更强的语义信息,更适合定位;而浅层特征有丰富的分辨率信息,更利于小目标的检测。删除FPN和PAN结构输出的19×19大小的特征图,保留FPN和PAN结构原有38×38、76×76的输出特征图;使用FPN和PAN结构将MSE-CSPUnit*2的输出和下方深层特征图上采样的结果进行特征融合,获得152×152大小的浅层特征图;最后得到38×38、76×76、152×152三个不同大小的特征图对不同尺度的目标进行预测。
(1-3)SPP模块改进
SPP模块可以丰富特征图的表达能力,提供重要的上下文信息。为了提高小目标检测时的性能,因此在38×38、76×76、152×152特征图前分别放置SPP模块,实现局部特征和全局特征的有效融合。SPP模块将输入特征图进行1×1、5×5、9×9、13×13的最大池化操作后,再将生成的不同尺度的特征图进行张量拼接。
第二部分训练并优化所述小目标检测网络具体包括:
(2-1)构建数据集
首先构建小目标数据集,实验选用了无人机航拍数据集VisDrone2019。VisDrone2019数据集由于是无人机航拍方式,因此包含有大量的小物体和密集对象,另外光照变化和对象遮挡也是这个数据集的难点。同时由于无人机图像是垂直拍摄的缘故,待检测对象包含特征较少。例如对于行人检测而言,地面拍摄的图像可能包含人体手臂、腿等特征,而对于无人机图像,则可能只有头顶这一处特征。
(2-2)数据增强,并对图片数据进行多模式随机调整
网络训练时,对数据集采用在线增强的方式提高小目标的训练效果。由于数据集中包含小目标的图片可能比较少,导致会模型在训练的时候会偏向中等目标和大尺寸的目标。数据在线增强通过将小目标在图片中复制多份,通过人工增加小物体在图片中出现的次数,增加小目标被anchor包含的概率,让模型在训练的过程中,也能够有机会得到更多的小目标训练样本。同时对图片进行随机旋转和缩放,同时对亮度、对比度、饱和度进行调整,以增加模型的鲁棒性。
(2-3)自定义锚框,用于拟合数据集中的目标
对于极端尺度对象的目标检测,合适的锚框可以更加准确的拟合数据集中的物体。对于无人机航拍数据集,通过Kmeans++算法对目标数据集的锚框重新聚类,得到更适合当前数据集的锚框参数。通过Kmeans++算法,获得的锚框参数为(1,4)、(2,8)、(4,13)、(4,5)、(8,20)、(9,9)、(16,29)、(16,15)、(35,42)。
第三部分小目标检测网络模型轻量化具体包括:
(3-1)通道剪枝
针对网络的参数冗余,对小目标检测网络进行通道剪枝。使用YOLOv4的卷积模块BN层的γ作为缩放因子,在损失函数中添加关于BN层的γ的L1正则化项,对网络进行预设轮数次,如300轮次的稀疏化训练后,基于梯度更新后的γ值,对γ进行排序,通过设置剪枝阈值,将小于剪枝阈值的γ所在的通道移除,得到剪枝后的轻量级YOLOv4网络。在YOLOv4网络中,除了上采样层前的卷积层和SPP结构,对其它含有BN层的卷积模块进行通道剪枝。通过多次实验选取通道裁剪比例,以达到较好的速度与精度之间的平衡,最终选定裁剪比例为0.7,并得到通道剪枝后的模型文件和模型结构配置文件。
(3-2)知识蒸馏恢复模型精度
经过通道剪枝后,虽然移除的通道对于模型输出的贡献微小,但是剪枝后的模型精度还是会有小幅度的下降,因此要恢复模型精度。
使用未进行剪枝的YOLOv4网络作为教师网络,通道剪枝后的网络作为学生网络,进行知识蒸馏。YOLOv4的知识蒸馏将进行分类任务和回归任务的学习,对于回归结果的蒸馏,由于回归的输出是无界的,且教师网络的预测结果可能与真实值相反,因此在计算回归损失时,不是直接向教师网络学习。首先分别计算教师网络和标签值、学生网络和标签值的L2距离,通过多次实验对比,设置偏差范围w=0.3,当学生网络和标签值的L2距离与教师网络和标签值的偏差超过范围w时,才会在损失中计入学生网络的L2损失。即当学生网络的性能超过教师网络一定的值时,就不计算学生网络的损失。其整体损失函数为:
Lreg=(1-v)LsL1(Rs,yreg)+vLb(Rs,Rt,yreg)
其中,w为预设的偏差范围,yreg是真实标签值,Rt和Rs分别是教师和学生的回归输出,Lb为模型蒸馏部分损失,LsL1为学生网络与真实标签的损失,v是Lb和LsL1之间的平衡因子,在网络训练前80%的时间设置在0.1~0.5之间,后20%的训练时间设置在0.6~0.9之间;Lreg为网络蒸馏学习时的总损失。
第四部分检测图片小目标具体包括:
(4-1)输入一幅无人机航拍图像
(4-2)在读取完一幅无人机航拍图像后,送入训练并优化完成的小目标检测网络中进行目标的定位和分类。该网络首先将图像输入至带有注意力机制的特征提取网络进行特征的提取,经过SPP模块分别输出3个不同分辨率大小的特征图。使用回归和分类思想对3个特征图进行三种不同尺度目标的检测,置信阈值为0.2~0.6,一般设置置信阈值为0.3,经过阈值过滤之后,获得目标的分类和定位结果。
(4-3)重复步骤(4-1)至步骤(4-2),直至完成测试集中图片的检测,各类小目标的检测效果如图6所示。
Claims (7)
1.一种结合注意力机制的轻量级小目标检测方法,其特征在于:所述方法包括以下步骤:
(1)搭建基于YOLOv4改进的小目标检测网络,包括以下步骤:
(1-1)构建MSE多尺度注意力机制模块,将CSP模块的Concat层的输出作为输入特征X,通过不同尺寸的卷积核集成多种尺度的特征图,得到多尺度融合特征输出Xc,对Xc进行挤压操作,使用全局平均池化和全局最大池化分别对通道进行挤压得到全局平均池化后获取的特征Xavg和全局最大池化后获取的特征Xmax,分别对Xavg和Xmax进行激励操作,并相加、经过归一化操作生成注意力权重信息Xs;将生成的Xs与生成的Xc进行加权操作,得到MSE多尺度注意力模块的输出Xweight,Xweight=Scale(Xc,Xs),将Xweight***到特征提取网络;
(1-2)添加浅层特征图作为预测层,删除FPN和PAN结构输出的19×19大小的特征图,保留FPN和PAN结构原有38×38、76×76的输出特征图,使用FPN和PAN结构将MSE-CSPUnit*2的输出和下方深层特征图上采样的结果进行特征融合,获得152×152大小的浅层特征图,最后得到38×38、76×76、152×152三个不同大小的特征图对不同尺度的目标进行预测;
(1-3)SPP模块改进,在FPN和PAN结构和对应的三个预测层间分别放置SPP模块,SPP模块将输入特征图进行最大池化操作后,将生成的不同尺度的特征图进行张量拼接;
(2)训练并优化小目标检测网络;
(3)对小目标检测网络进行模型轻量化;
(4)利用已训练的小目标检测网络模型对输入图像进行检测。
2.根据权利要求1所述的一种结合注意力机制的轻量级小目标检测方法,其特征在于:所述步骤(1-1)包括以下步骤:构建MSE多尺度注意力机制模块,***到YOLOv4特征提取网络CSPDarknet53的每个CSP模块中Concat层和CBM模块之间,组成新的MSE-CSPUnit模块,得到带有注意力信息的MSE-CSPDarknet53的特征提取网络。
3.根据权利要求1或2所述的一种结合注意力机制的轻量级小目标检测方法,其特征在于:所述步骤(1-1)在SE注意力机制模块基础上构建MSE多尺度注意力机制模块,包括以下步骤:
(1-1-1)将CSP模块的Concat层的输出作为输入特征X,通过不同尺寸的卷积核集成多种尺度的特征图,得到多尺度融合特征输出Xc;卷积核尺寸分别为3×3、5×5、7×7,Xc=V3×3X+V5×5X+V7×7X,其中,V代表使用不同尺寸卷积核的卷积操作;
(1-1-2)对Xc进行挤压操作,使用全局平均池化和全局最大池化分别对通道进行挤压得到通道级的特征信息,其中全局平均池化注重全局特征,全局最大池注重化局部特征,
Xmax=max(Xc(i,j));
其中,Xavg为全局平均池化后获取的特征,Xmax为全局最大池化后获取的特征,i=1,2,…,H,j=1,2,…,W,H、W分别为输入高度、输入宽度;
(1-1-3)分别对Xavg和Xmax进行激励操作,并相加、经过归一化操作生成注意力权重信息Xs,FC1、FC2为两个不同的全连接层,其中C为输入通道,r为降维比例,FC1起到降维的作用,以减少全连接层参数,FC2起恢复原始维度的作用;
Xa=FC2(Mish(FC1(Xavg))
Xm=FC2(Mish(FC1(Xmax))
Xs=Softmax(Xa+Xm)
其中,Mish为非线性激活函数,Softmax为归一化函数;
(1-1-4)将(1-1-3)生成的Xs与(1-1-1)生成的Xc进行加权操作,得到MSE多尺度注意力模块的输出Xweight,Xweight=Scale(Xc,Xs),将Xweight作为MSE-CSPUnit模块中CBM模块的输入。
4.根据权利要求1所述的一种结合注意力机制的轻量级小目标检测方法,其特征在于:所述步骤(1-3)中,SPP模块将输入特征图进行1×1、5×5、9×9、13×13的最大池化操作后,再将生成的不同尺度的特征图进行张量拼接。
5.根据权利要求1所述的一种结合注意力机制的轻量级小目标检测方法,其特征在于:所述步骤(2)包括以下步骤:
(2-1)构建小目标数据集;
(2-2)数据增强,并对图片数据进行多模式随机调整;
(2-3)设置锚框,用于拟合数据集中的目标。
6.根据权利要求1所述的一种结合注意力机制的轻量级小目标检测方法,其特征在于:所述步骤(3)包括以下步骤:
(3-1)通道剪枝
选用BN层的γ作为缩放因子,在损失函数中添加关于BN层的γ的L1正则化项,对网络进行预设轮数次的稀疏化训练后,基于梯度更新后的γ值,对除了上采样层前的卷积层、SPP模块之外的层进行通道剪枝,得到通道剪枝后的模型文件和模型结构配置文件;
(3-2)知识蒸馏恢复网络精度
以未进行剪枝的YOLOv4网络作为教师网络,通道剪枝后的网络作为学生网络;分别计算教师网络和标签值、学生网络和标签值的L2损失,设置偏差范围,当学生网络和标签值的L2损失与教师网络和标签值的L2损失的偏差超过范围w时,在总损失中计入学生网络的L2损失,整体损失函数为
Lreg=(1-v)LsL1(Rs,yreg)+vLb(Rs,Rt,yreg)
其中,Lreg为网络蒸馏学习时的总损失,Lb为模型蒸馏部分损失,
LsL1为学生网络回归输出与标签值的之间的损失,v是Lb和LsL1之间的平衡因子,在网络训练前80%的时间设置在0.1~0.5之间,后20%的训练时间设置在0.6~0.9之间,yreg是标签值,Rt和Rs分别是教师网络和学生网络的回归输出,w为预设的偏差范围。
7.根据权利要求1所述的一种结合注意力机制的轻量级小目标检测方法,其特征在于:所述步骤(4)包括以下步骤:(4-1)输入一帧图像;
(4-2)在读取完一幅图像后,送入训练并优化完成的小目标检测网络中进行目标的定位和分类;将图像输入至带有注意力机制的特征提取网络进行特征的提取,经过SPP模块分别输出3个不同分辨率大小的特征图,对3个特征图进行三种不同尺度目标的检测,设置置信阈值为0.2~0.6,经过阈值过滤之后,获得目标的分类和定位结果;
(4-3)重复步骤(4-1)至步骤(4-2),直至完成测试集中图片的检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110432768.6A CN113065558B (zh) | 2021-04-21 | 2021-04-21 | 一种结合注意力机制的轻量级小目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110432768.6A CN113065558B (zh) | 2021-04-21 | 2021-04-21 | 一种结合注意力机制的轻量级小目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113065558A CN113065558A (zh) | 2021-07-02 |
CN113065558B true CN113065558B (zh) | 2024-03-22 |
Family
ID=76567333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110432768.6A Active CN113065558B (zh) | 2021-04-21 | 2021-04-21 | 一种结合注意力机制的轻量级小目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113065558B (zh) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109002848B (zh) * | 2018-07-05 | 2021-11-05 | 西华大学 | 一种基于特征映射神经网络的弱小目标检测方法 |
CN113642402A (zh) * | 2021-07-13 | 2021-11-12 | 重庆科技学院 | 一种基于深度学习的图像目标检测方法 |
CN113408549B (zh) * | 2021-07-14 | 2023-01-24 | 西安电子科技大学 | 基于模板匹配和注意力机制的少样本弱小目标检测方法 |
CN113486990B (zh) * | 2021-09-06 | 2021-12-21 | 北京字节跳动网络技术有限公司 | 内窥镜图像分类模型的训练方法、图像分类方法和装置 |
CN113780406A (zh) * | 2021-09-08 | 2021-12-10 | 福州大学 | 一种基于yolo的成捆原木端面检测方法 |
CN113743514B (zh) * | 2021-09-08 | 2024-06-28 | 庆阳瑞华能源有限公司 | 一种基于知识蒸馏的目标检测方法及目标检测终端 |
CN113807311A (zh) * | 2021-09-29 | 2021-12-17 | 中国人民解放军国防科技大学 | 一种多尺度目标识别方法 |
CN113962882B (zh) * | 2021-09-29 | 2023-08-25 | 西安交通大学 | 一种基于可控金字塔小波网络的jpeg图像压缩伪影消除方法 |
CN113837144B (zh) * | 2021-10-25 | 2022-09-13 | 广州微林软件有限公司 | 一种冰箱的智能化图像数据采集处理方法 |
CN114022705B (zh) * | 2021-10-29 | 2023-08-04 | 电子科技大学 | 一种基于场景复杂度预分类的自适应目标检测方法 |
CN114037888B (zh) * | 2021-11-05 | 2024-03-08 | 中国人民解放军国防科技大学 | 基于联合注意力和自适应nms的目标检测方法和*** |
CN114067437B (zh) * | 2021-11-17 | 2024-04-16 | 山东大学 | 一种基于定位和视频监控数据的脱管检测方法及*** |
CN114120154B (zh) * | 2021-11-23 | 2022-10-28 | 宁波大学 | 一种高层建筑玻璃幕墙破损的自动检测方法 |
CN114283402B (zh) * | 2021-11-24 | 2024-03-05 | 西北工业大学 | 基于知识蒸馏训练与时空联合注意力的车牌检测方法 |
CN113902744B (zh) * | 2021-12-10 | 2022-03-08 | 湖南师范大学 | 基于轻量级网络的图像检测方法、***、设备和存储介质 |
CN114220032A (zh) * | 2021-12-21 | 2022-03-22 | 一拓通信集团股份有限公司 | 一种基于通道裁剪的无人机视频小目标检测方法 |
CN114092820B (zh) * | 2022-01-20 | 2022-04-22 | 城云科技(中国)有限公司 | 目标检测方法及应用其的移动目标跟踪方法 |
CN114419410A (zh) * | 2022-01-25 | 2022-04-29 | 中国农业银行股份有限公司 | 一种目标检测方法、装置、设备及存储介质 |
CN114463686B (zh) * | 2022-04-11 | 2022-06-17 | 西南交通大学 | 基于复杂背景下的移动目标检测方法和*** |
CN115618271B (zh) * | 2022-05-05 | 2023-11-17 | 腾讯科技(深圳)有限公司 | 对象类别识别方法、装置、设备及存储介质 |
CN114663654B (zh) * | 2022-05-26 | 2022-09-09 | 西安石油大学 | 一种改进YOLOv4网络模型及小目标检测方法 |
US11915474B2 (en) | 2022-05-31 | 2024-02-27 | International Business Machines Corporation | Regional-to-local attention for vision transformers |
CN115019169A (zh) * | 2022-05-31 | 2022-09-06 | 海南大学 | 一种单阶段水面小目标检测方法及装置 |
CN114862844B (zh) * | 2022-06-13 | 2023-08-08 | 合肥工业大学 | 一种基于特征融合的红外小目标检测方法 |
CN115082869B (zh) * | 2022-07-07 | 2023-09-15 | 燕山大学 | 一种服务于特种车辆的车路协同多目标检测方法及*** |
CN115331384B (zh) * | 2022-08-22 | 2023-06-30 | 重庆科技学院 | 基于边缘计算的作业平台火灾事故预警*** |
CN115424154A (zh) * | 2022-11-01 | 2022-12-02 | 速度时空信息科技股份有限公司 | 一种用于无人机影像目标检测的数据增强与训练方法 |
CN116205967A (zh) * | 2023-04-27 | 2023-06-02 | 中国科学院长春光学精密机械与物理研究所 | 医学影像语义分割方法、装置、设备及介质 |
CN116363138B (zh) * | 2023-06-01 | 2023-08-22 | 湖南大学 | 一种用于垃圾分拣图像的轻量化集成识别方法 |
CN116883980A (zh) * | 2023-09-04 | 2023-10-13 | 国网湖北省电力有限公司超高压公司 | 一种紫外光绝缘子目标检测方法及*** |
CN116894983B (zh) * | 2023-09-05 | 2023-11-21 | 云南瀚哲科技有限公司 | 基于知识蒸馏的细粒度农业病虫害图像识别方法及*** |
CN116912890B (zh) * | 2023-09-14 | 2023-11-24 | 国网江苏省电力有限公司常州供电分公司 | 变电站鸟类检测方法和装置 |
CN117496509B (zh) * | 2023-12-25 | 2024-03-19 | 江西农业大学 | 一种融合多教师知识蒸馏的Yolov7柚子计数方法 |
CN117953192A (zh) * | 2024-01-09 | 2024-04-30 | 北京地铁建筑设施维护有限公司 | 一种吊顶病害预警方法及图像采集设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257794A (zh) * | 2020-10-27 | 2021-01-22 | 东南大学 | 一种基于yolo的轻量级的目标检测方法 |
CN112329721A (zh) * | 2020-11-26 | 2021-02-05 | 上海电力大学 | 一种模型轻量化设计的遥感小目标检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598731B (zh) * | 2019-07-31 | 2021-08-20 | 浙江大学 | 一种基于结构化剪枝的高效图像分类方法 |
-
2021
- 2021-04-21 CN CN202110432768.6A patent/CN113065558B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257794A (zh) * | 2020-10-27 | 2021-01-22 | 东南大学 | 一种基于yolo的轻量级的目标检测方法 |
CN112329721A (zh) * | 2020-11-26 | 2021-02-05 | 上海电力大学 | 一种模型轻量化设计的遥感小目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113065558A (zh) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113065558B (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN112150493B (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN112446270A (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN110879982B (zh) | 一种人群计数***及方法 | |
CN113591968A (zh) | 一种基于非对称注意力特征融合的红外弱小目标检测方法 | |
CN110163041A (zh) | 视频行人再识别方法、装置及存储介质 | |
Chen et al. | Remote sensing image quality evaluation based on deep support value learning networks | |
CN110781736A (zh) | 基于双流网络将姿态和注意力相结合的行人重识别方法 | |
CN114972208B (zh) | 一种基于YOLOv4的轻量化小麦赤霉病检测方法 | |
CN111696136B (zh) | 一种基于编解码结构的目标跟踪方法 | |
CN113326735B (zh) | 一种基于YOLOv5的多模态小目标检测方法 | |
CN110222718A (zh) | 图像处理的方法及装置 | |
CN114882222A (zh) | 改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法 | |
CN116071676A (zh) | 一种基于注意力导向金字塔融合的红外小目标检测方法 | |
CN113505634A (zh) | 一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法 | |
CN117392496A (zh) | 基于红外与可见光图像融合的目标检测方法及*** | |
CN116681636A (zh) | 基于卷积神经网络的轻量化红外与可见光图像融合方法 | |
CN113610905A (zh) | 基于子图像匹配的深度学习遥感图像配准方法及应用 | |
CN113609904B (zh) | 一种基于动态全局信息建模和孪生网络的单目标跟踪算法 | |
CN114913337A (zh) | 一种基于三元级联感知的伪装目标框检测方法 | |
CN112508863B (zh) | 一种基于rgb图像和msr图像双通道的目标检测方法 | |
CN107358625B (zh) | 基于SPP Net和感兴趣区域检测的SAR图像变化检测方法 | |
CN117576149A (zh) | 一种基于注意力机制的单目标跟踪方法 | |
Zhao et al. | Deep learning-based laser and infrared composite imaging for armor target identification and segmentation in complex battlefield environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |