CN117392375A - 一种针对微小物体的目标检测算法 - Google Patents
一种针对微小物体的目标检测算法 Download PDFInfo
- Publication number
- CN117392375A CN117392375A CN202311365427.7A CN202311365427A CN117392375A CN 117392375 A CN117392375 A CN 117392375A CN 202311365427 A CN202311365427 A CN 202311365427A CN 117392375 A CN117392375 A CN 117392375A
- Authority
- CN
- China
- Prior art keywords
- information
- convolution
- module
- target
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 45
- 230000004927 fusion Effects 0.000 claims abstract description 27
- 238000011176 pooling Methods 0.000 claims abstract description 23
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 11
- 230000007246 mechanism Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000010586 diagram Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000002787 reinforcement Effects 0.000 claims description 6
- 230000001965 increasing effect Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种针对微小物体的目标检测算法,涉及机器视觉和目标识别技术领域。所用方法采用YOLOv5模型架构,包括以下步骤:S1、获取待检测图像,分为训练集和测试集,其中存在大量小目标;S2、以YOLOv5模型为基本架构,在颈部网络嵌入SE‑CBAM空间增强注意力机制模块;在多尺度特征融合处,加入上下文信息池化增强模块,即CIE‑Pool;在检测头部分添加一层尺寸160×160的小目标检测层,并将特征提取网络中提取到的浅层特征图经过自适应特征处理,即AFP后融入该层;S3、利用训练集对改进的YOLOv5模型进行训练;S4、用测试集中的图像对训练好的S3中的模型进行测试,并将测试结果可视化。本发明的有益效果在于:获取较多为丰富的小目标信息,提升检测精度。
Description
技术领域
本发明主要涉及机器视觉和目标识别技术领域,具体是一种针对微小物体的目标检测算法。
背景技术
目标检测是计算机视觉领域的重要问题之一,它可以应用于诸如自动驾驶、安防监控、人脸识别等领域。
传统的目标检测方法通常采用滑动窗口和金字塔等方式对图像进行多次扫描,再使用分类器对每个窗口进行分类。但是,对于小目标来说,由于其尺寸较小,存在多种问题,如低分辨率、模糊和严重的遮挡等问题,这些问题使得传统的目标检测方法在小目标检测上的效果很难得到保证。
而深度学习技术的兴起为小目标检测带来了新的机遇,深度学习技术通过神经网络的训练,可以从大量数据中学习到特征,进而提高目标检测的准确率和速度。在小目标检测中,研究者们提出了一系列基于深度学习的方法,如Faster R-CNN、YOLO、SSD等,这些方法在一定程度上解决了小目标检测的问题。
但是,由于小目标的尺寸和特征与背景的差异较小,使得小目标占像素面积小、轮廓模糊,所包含的特征信息少。这些方法仍然存在一些限制,例如检测精度不高、漏检率高等问题。
因此,在目标检测领域中,小目标检测一直是难点问题。
发明内容
为解决现有技术的不足,本发明提供了一种针对微小物体的目标检测算法,它能够获取较多为丰富的小目标信息,提升小目标检测精度。
本发明为实现上述目的,通过以下技术方案实现:
一种针对微小物体的目标检测算法,所用方法采用YOLOv5模型架构,包括以下步骤:
S1、获取待检测图像,分为训练集和测试集,其中存在大量小目标;
S2、以YOLOv5模型为基本架构,在颈部网络嵌入SE-CBAM空间增强注意力机制模块,以强化网络的特征提取能力;
在多尺度特征融合处,加入上下文信息池化增强模块,即CIE-Pool,提取并增强目标的背景信息,提高小目标识别率;
在检测头部分添加一层尺寸160×160的小目标检测层,并将特征提取网络中提取到的浅层特征图经过自适应特征处理,即AFP后融入该层,以此获取较多为丰富的小目标信息;
S3、利用训练集对改进的YOLOv5模型进行训练;
S4、用测试集中的图像对训练好的S3中的模型进行测试,并将测试结果可视化。
在S2中,所述上下文信息池化增强模块将背景信息和目标信息一起融入特征融合网络,即PANet,在提取目标特征的同时,分析并建立目标和背景之间的关系。
在S2中多尺度特征融合处,空间上下文强化模块是由不同尺度的空洞卷积融合以拓展感受野以获取更为丰富的背景信息;
对通道数为C,高为H,宽为W的输入图像,进行空洞卷积率,即dilation分别为1,3,5的3次空洞卷积,为了卷积后的图像尺寸保持一致,边缘填充,即padding也分别设为1,3,5;
同时为了避免小目标信息在卷积过程中丢失,选取的卷积核大小为3×3,其具体公式如下:
如上所述公式为式(1),式(1)为感受野计算公式,RFi为上一层感受野,RFi+1为当前层感受野,K为当前卷积核大小,为前n层步长之积;假设RFi=1,n=1,则3次空洞卷积后的特征图的RFi+1为3;将不同感受野的特征图进行拼接融合,得到通道数为3×C,高为H,宽为W的融合特征图。
为了进一步增强上下文信息,将多尺度空洞卷积融合后的特征图作为输入,经过池化金字塔的处理,再度拓展感受野;由式(1)可知,输入的RFi=3,由此可计算出P1、P2、P3、P4的RFi+1分别为3,7,11,13,再将其拼接,并最后通过卷积得到道数为C,高为H,宽为W的特征融合图。
将池化增强前的特征图与增强后的特征图相乘,在尽可能不增大计算量的前提下丰富上下文信息;而由于大量的上下文信息的叠加,导致语义信息的冗余,因此要将冗余的语义信息进行过滤;将包含不同程度上下文信息的特征图Xa、Xb、Xc进行自适应融合,使网络在训练过程中自动调整权重,达到滤除冗余信息、利用有效信息的效果,其公式如式(2):
在S2中,所述SE-CBAM空间增强注意力机制模块为在CBAM基础上对SAM模块进行了空间信息增强的改进,同时将CAM模块中的全连接层替换成卷积核为1×1的卷积层;在SAM模块中,用3个卷积核为3×3的卷积层替换卷积核为7×7的卷积层,以减少参数量和计算量。
CAM模块关注目标的语义特征,通俗的讲就是提升区分目标究竟是什么类别的能力;对尺寸大小为C×H×W的特征图Y分别进行自适应最大池化、平均池化,以聚合更细致的特征信息;通过卷积核大小为1×1的卷积代替共享的全连接层,以减少大量的参数量、计算量;将权值进行加和操作,并用sigmoid函数进行激活归一化,最后得到通道注意力权值YCAM;
YCAM=sigmoid[AdaptiveAvgpool(Y)+AdaptiveMaxpool(Y)] (3)
上述式(3)中,通道注意力权值YCAM与特征图Y进行相乘操作,得到通道注意力特征图YCAM*Y;
SAM模块则是注重强化目标的空间位置信息,对特征图YCAM*Y的每个特征点所在的通道进行取最大值、平均值的操作,并将得到的最大值和平均值拼接叠加;再通过三个卷积核为3×3的卷积层进行降维,得到一个二维空间特征分布图,最后用sigmoid函数激活归一化,得到空间注意力权值YSAM,公式如下:
YSAM=sigmoid{conv[Avgpool(YCAM*Y),Maxpool(YCAM*Y)]} (4)
将原始特征图经过SAM模块处理后,与经过改进后的CBAM模块处理后的特征图进行融合,构成SE-CBAM模块。
对比现有技术,本发明的有益效果是:
本发明为了提升小目标检测的准度,提出了一种基于改进YOLOv5s的小目标检测算法。在颈部网络嵌入SE-CBAM空间增强注意力机制模块,以强化网络的特征提取能力;在多尺度特征融合处,加入上下文信息池化增强模块(CIE-Pool),提取并增强目标的背景信息,提高小目标识别率;在检测头部分添加一层尺寸160×160的小目标检测层,并将特征提取网络中提取到的浅层特征图经过自适应特征处理(AFP)后融入该层,通过加入上述三个创新模块,将创新模块嵌入到基础框架里,以此获取较多为丰富的小目标信息,提升检测精度。
附图说明
附图1是本发明完整网络结构示意图;
附图2是本发明上下文信息池化增强模块示意图;
附图3是本发明CIE-Pool处理前后的热力图对比图;
附图4是本发明空间增强卷积注意力机制模块示意图;
附图5是本发明自适应特征融合模块示意图;
附图6是本发明测试结果对比图。
具体实施方式
结合附图和具体实施例,对本发明作进一步说明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所限定的范围。
如附图1所示,为本发明完整的网络结构,本发明的技术方案具有3个创新点,创新点1在上下文信息池化增强模块,由于小目标本身特征信息量少,仅有的特征信息在特征提取过程中不断损失,而导致小目标在检测任务中的识别率低。而目标与其周围背景之间的联系,可以用于辅助对目标的识别。上下文信息池化增强模块的目的便是通过丰富小目标的语义信息,将背景信息和目标信息一起融入特征融合网络(PANet),在提取目标特征的同时,分析并建立目标和背景之间的关系,从而达到提升识别精准度的效果,其结构如图2。
关于多尺度空洞卷积融合,空间上下文强化模块是由不同尺度的空洞卷积融合以拓展感受野以获取更为丰富的背景信息。对通道数为C,高为H,宽为W的输入图像,进行空洞卷积率(dilation)分别为1,3,5的3次空洞卷积,为了卷积后的图像尺寸保持一致,边缘填充(padding)也分别设为1,3,5。同时为了避免小目标信息在卷积过程中丢失,选取的卷积核大小为3×3。
式(1)为感受野计算公式,RFi为上一层感受野,RFi+1为当前层感受野,K为当前卷积核大小,为前n层步长之积。假设RFi=1,n=1,则3次空洞卷积后的特征图的RFi+1为3。将不同感受野的特征图进行拼接融合,得到通道数为3×C,高为H,宽为W的融合特征图。多尺度空洞卷积能在不加深网络深度的情况下拓展感受野,感受野的增加和叠加,也使上下文信息得到了丰富,并且由于没有加深网络深度,小目标信息也得到了保留。
关于上下文信息的池化增强,为了进一步增强上下文信息,将多尺度空洞卷积融合后的特征图作为输入,经过池化金字塔的处理,再度拓展感受野。由式(1)可知,输入的RFi=3,由此可计算出P1、P2、P3、P4的RFi+1分别为3,7,11,13,再将其拼接,并最后通过卷积得到道数为C,高为H,宽为W的特征融合图。
将池化增强前的特征图与增强后的特征图相乘,在尽可能不增大计算量的前提下丰富上下文信息。而由于大量的上下文信息的叠加,导致语义信息的冗余,因此要将冗余的语义信息进行过滤。将包含不同程度上下文信息的特征图Xa、Xb、Xc进行自适应融合,使网络在训练过程中自动调整权重,达到滤除冗余信息、利用有效信息的效果,其公式如式(2)。
为了证明上下文信息池化增强模块的有效性,本发明将一张图片的增强前后的热力图可视化,如图3。由图3的热力图可知,经过CIE-Pool模块处理后的特征图,在目标以及目标周围的响应更加强烈,同时响应范围也更广,并且由于引入了上下文背景信息,在无关背景上的噪声干扰也被大量滤除。
创新点2在于空间增强卷积注意力机制,小目标检测的难点除了小目标难以辨别之外,还存在小目标难以被定位的问题,引入注意力机制的目的就是为了让神经网络更好的聚焦于目标。CBAM注意力机制分别由通道注意力模块(channel attention module,CAM)和空间注意力模块(spatial attention module,SAM)共同构成。本发明为提升对小目标位置信息的获取能力,在CBAM基础上对SAM模块进行了空间信息增强的改进,同时将CAM模块中的全连接层替换成卷积核为1×1的卷积层;在SAM模块中,用3个卷积核为3×3的卷积层替换卷积核为7×7的卷积层,以减少参数量和计算量。改进后的SE-CBAM模块如图4。
CAM模块关注目标的语义特征,通俗的讲就是提升区分目标究竟是什么类别的能力。对尺寸大小为C×H×W的特征图Y分别进行自适应最大池化、平均池化,以聚合更细致的特征信息;通过卷积核大小为1×1的卷积代替共享的全连接层,以减少大量的参数量、计算量。将权值进行加和操作,并用sigmoid函数进行激活归一化,最后得到通道注意力权值YCAM。
YCAM=sigmoid[AdaptiveAvgpool(Y)+AdaptiveMaxpool(Y)] (3)
通道注意力权值YCAM与特征图Y进行相乘操作,得到通道注意力特征图YCAM*Y。
SAM模块则是注重强化目标的空间位置信息,对特征图YCAM*Y的每个特征点所在的通道进行取最大值、平均值的操作,并将得到的最大值和平均值拼接叠加;再通过三个卷积核为3×3的卷积层进行降维,得到一个二维空间特征分布图,最后用sigmoid函数激活归一化,得到空间注意力权值YSAM。
YSAM=sigmoid{conv[Avgpool(YCAM*Y),Maxpool(YCAM*Y)]} (4)
将原始特征图经过SAM模块处理后,与经过改进后的CBAM模块处理后的特征图进行融合,构成SE-CBAM模块。SE-CBAM模块在计算量和参数量没有提升的情况下能够充分利用原始特征图中的空间位置信息,进而达到提升网络对目标位置的聚焦能力。
创新点在在于浅层特征自适应处理,本发明在YOLOv5的基础上,增加一层160×160的特征检测层,其目的是将网络能够找到目标的最小像素面积进一步缩小。以输入尺寸为640×640的图像为例,P1、P2、P3检测层能检测到的目标的最小像素面积分别为32×32、16×16、8×8,而增加的P4检测层,最小能够检测到原图中像素面积大于4×4的目标,进一步提升了对小目标的检测能力。
增加的特征检测层需要将更浅层的特征图与深层特征图进行融合,越浅层的特征图原始的细节信息、位置信息越丰富,其语义信息也越模糊。如果采取直接融合的方式,浅层特征图的混杂信息和大量噪音将被引入,这些干扰信息会对检测任务带来干扰。因此,需要考虑如何才能在引入丰富的原始信息的同时,尽可能避免引入混杂的语义信息。
本发明考虑到,卷积层能够提取特征、过滤干扰,但同时卷积层又会导致微小特征信息的丢失。为了在引入浅层特征信息的同时,尽可能少的引入干扰信息,本发明采取了自适应特征处理(AFP)的方式,减少因浅层特征层语义信息混杂、噪声多而导致的负面效果,其结构如图5。
将浅层特征图进行不同程度的特征提取后,乘以不同权重系数,并在不断地训练过程中,权重会随着损失函数的变化而不断的改变。最终得到的特征图就尽可能多的保留了原始信息,又减少了语义信息冲突。
综上所述,为了更好的展示本算法的优越性,本发明分别用YOLOv5s以及本算法在VisDrone2021数据集上进行训练,并用测试集中的图像对训练好的模型进行测试,并将测试结果可视化,其结果如图6。
Claims (6)
1.一种针对微小物体的目标检测算法,所用方法采用YOLOv5模型架构,其特征在于:包括以下步骤:
S1、获取待检测图像,分为训练集和测试集,其中存在大量小目标;
S2、以YOLOv5模型为基本架构,在颈部网络嵌入SE-CBAM空间增强注意力机制模块,以强化网络的特征提取能力;
在多尺度特征融合处,加入上下文信息池化增强模块,即CIE-Pool,提取并增强目标的背景信息,提高小目标识别率;
在检测头部分添加一层尺寸160×160的小目标检测层,并将特征提取网络中提取到的浅层特征图经过自适应特征处理,即AFP后融入该层,以此获取较多为丰富的小目标信息;
S3、利用训练集对改进的YOLOv5模型进行训练;
S4、用测试集中的图像对训练好的S3中的模型进行测试,并将测试结果可视化。
2.根据权利要求1所述的一种针对微小物体的目标检测算法,其特征在于:在S2中,所述上下文信息池化增强模块将背景信息和目标信息一起融入特征融合网络,即PANet,在提取目标特征的同时,分析并建立目标和背景之间的关系。
3.根据权利要求2所述的一种针对微小物体的目标检测算法,其特征在于:在S2中多尺度特征融合处,空间上下文强化模块是由不同尺度的空洞卷积融合以拓展感受野以获取更为丰富的背景信息;
对通道数为C,高为H,宽为W的输入图像,进行空洞卷积率,即dilation分别为1,3,5的3次空洞卷积,为了卷积后的图像尺寸保持一致,边缘填充,即padding也分别设为1,3,5;
同时为了避免小目标信息在卷积过程中丢失,选取的卷积核大小为3×3,其具体公式如下:
如上所述公式为式(1),式(1)为感受野计算公式,RFi为上一层感受野,RFi+1为当前层感受野,K为当前卷积核大小,为前n层步长之积;假设RFi=1,n=1,则3次空洞卷积后的特征图的RFi+1为3;将不同感受野的特征图进行拼接融合,得到通道数为3×C,高为H,宽为W的融合特征图。
4.根据权利要求2所述的一种针对微小物体的目标检测算法,其特征在于:为了进一步增强上下文信息,将多尺度空洞卷积融合后的特征图作为输入,经过池化金字塔的处理,再度拓展感受野;由式(1)可知,输入的RFi=3,由此可计算出P1、P2、P3、P4的RFi+1分别为3,7,11,13,再将其拼接,并最后通过卷积得到道数为C,高为H,宽为W的特征融合图。
将池化增强前的特征图与增强后的特征图相乘,在尽可能不增大计算量的前提下丰富上下文信息;而由于大量的上下文信息的叠加,导致语义信息的冗余,因此要将冗余的语义信息进行过滤;将包含不同程度上下文信息的特征图Xa、Xb、Xc进行自适应融合,使网络在训练过程中自动调整权重,达到滤除冗余信息、利用有效信息的效果,其公式如式(2):
5.根据权利要求1所述的一种针对微小物体的目标检测算法,其特征在于:在S2中,所述SE-CBAM空间增强注意力机制模块为在CBAM基础上对SAM模块进行了空间信息增强的改进,同时将CAM模块中的全连接层替换成卷积核为1×1的卷积层;在SAM模块中,用3个卷积核为3×3的卷积层替换卷积核为7×7的卷积层,以减少参数量和计算量。
6.根据权利要求5所述的一种针对微小物体的目标检测算法,其特征在于:CAM模块关注目标的语义特征,通俗的讲就是提升区分目标究竟是什么类别的能力;对尺寸大小为C×H×W的特征图Y分别进行自适应最大池化、平均池化,以聚合更细致的特征信息;通过卷积核大小为1×1的卷积代替共享的全连接层,以减少大量的参数量、计算量;将权值进行加和操作,并用sigmoid函数进行激活归一化,最后得到通道注意力权值YCAM;
YCAM=sigmoid[AdaptiveAvgpool(Y)+AdaptiveMaxpool(Y)] (3)
上述式(3)中,通道注意力权值YCAM与特征图Y进行相乘操作,得到通道注意力特征图YCAM*Y;
SAM模块则是注重强化目标的空间位置信息,对特征图YCAM*Y的每个特征点所在的通道进行取最大值、平均值的操作,并将得到的最大值和平均值拼接叠加;再通过三个卷积核为3×3的卷积层进行降维,得到一个二维空间特征分布图,最后用sigmoid函数激活归一化,得到空间注意力权值YSAM,公式如下:
YSAM=sigmoid{conv[Avgpool(YCAM*Y),Maxpool(YCAM*Y)]} (4)
将原始特征图经过SAM模块处理后,与经过改进后的CBAM模块处理后的特征图进行融合,构成SE-CBAM模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311365427.7A CN117392375A (zh) | 2023-10-20 | 2023-10-20 | 一种针对微小物体的目标检测算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311365427.7A CN117392375A (zh) | 2023-10-20 | 2023-10-20 | 一种针对微小物体的目标检测算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117392375A true CN117392375A (zh) | 2024-01-12 |
Family
ID=89435521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311365427.7A Pending CN117392375A (zh) | 2023-10-20 | 2023-10-20 | 一种针对微小物体的目标检测算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117392375A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690128A (zh) * | 2024-02-04 | 2024-03-12 | 武汉互创联合科技有限公司 | 胚胎细胞多核目标检测***、方法和计算机可读存储介质 |
-
2023
- 2023-10-20 CN CN202311365427.7A patent/CN117392375A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690128A (zh) * | 2024-02-04 | 2024-03-12 | 武汉互创联合科技有限公司 | 胚胎细胞多核目标检测***、方法和计算机可读存储介质 |
CN117690128B (zh) * | 2024-02-04 | 2024-05-03 | 武汉互创联合科技有限公司 | 胚胎细胞多核目标检测***、方法和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111047551B (zh) | 一种基于U-net改进算法的遥感影像变化检测方法及*** | |
CN108647694B (zh) | 基于上下文感知和自适应响应的相关滤波目标跟踪方法 | |
WO2018145470A1 (zh) | 一种图像检测方法和装置 | |
CN110334762B (zh) | 一种基于四叉树结合orb和sift的特征匹配方法 | |
CN109035300B (zh) | 一种基于深度特征与平均峰值相关能量的目标跟踪方法 | |
CN110929593A (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
CN112950477B (zh) | 一种基于双路径处理的高分辨率显著性目标检测方法 | |
CN110532946B (zh) | 一种基于卷积神经网络识别绿通车车辆轴型的方法 | |
CN109165658B (zh) | 一种基于Faster-RCNN的强负样本水下目标检测方法 | |
CN117392375A (zh) | 一种针对微小物体的目标检测算法 | |
CN113920468B (zh) | 一种基于跨尺度特征增强的多分支行人检测方法 | |
CN112966747A (zh) | 一种基于无锚框检测网络改进的车辆检测方法 | |
CN113139544A (zh) | 一种基于多尺度特征动态融合的显著性目标检测方法 | |
CN113516126A (zh) | 一种基于注意力特征融合的自适应阈值场景文本检测方法 | |
CN113763424A (zh) | 基于嵌入式平台的实时智能目标检测方法及*** | |
CN114067186B (zh) | 一种行人检测方法、装置、电子设备及存储介质 | |
CN112950615B (zh) | 一种基于深度学习分割网络的甲状腺结节侵袭性预测方法 | |
CN116934762B (zh) | 锂电池极片表面缺陷的检测***及方法 | |
CN113920421A (zh) | 一种快速分类的全卷积神经网络模型 | |
CN109284752A (zh) | 一种车辆的快速检测方法 | |
CN116311387B (zh) | 一种基于特征交集的跨模态行人重识别方法 | |
CN111768420A (zh) | 一种细胞图像分割模型 | |
CN116363064A (zh) | 融合目标检测模型和图像分割模型的缺陷识别方法及装置 | |
CN115761220A (zh) | 一种基于深度学习的增强检测遮挡目标的目标检测方法 | |
CN113011392B (zh) | 一种基于路面图像多纹理特征融合的路面类型识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |