CN116681983A - 一种基于深度学习的狭长目标检测方法 - Google Patents
一种基于深度学习的狭长目标检测方法 Download PDFInfo
- Publication number
- CN116681983A CN116681983A CN202310648368.8A CN202310648368A CN116681983A CN 116681983 A CN116681983 A CN 116681983A CN 202310648368 A CN202310648368 A CN 202310648368A CN 116681983 A CN116681983 A CN 116681983A
- Authority
- CN
- China
- Prior art keywords
- detection
- loss
- target
- deep learning
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 118
- 238000013135 deep learning Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 241000209140 Triticum Species 0.000 description 2
- 235000021307 Triticum Nutrition 0.000 description 2
- 235000013339 cereals Nutrition 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 241000495841 Oenanthe oenanthe Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/245—Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的狭长目标检测方法,涉及狭长目标检测技术领域,将测试图像输入至检测模型中,检测出图像中的目标物体,所述检测模型包括数据采集及预处理模块、狭长目标检测网络训练模块和测试图像检测框生成模块。本发明采用上述结构通过对数据预处理,得到合适大小的图像和增加训练样本,提高网络模型的泛化能力;在BackBone主干网络和Neck之间添加全局注意力机制GAM,增强网络对目标物体特征的提取能力,进而提高对目标的检测精度;引入定向边界框表示方法,进行检测框的准确回归,采用控制阈值去除生成的重复检测框,采用CIoU损失函数,获取更加精准的检测框结果。
Description
技术领域
本发明涉及狭长目标检测技术领域,尤其是涉及一种基于深度学习的狭长目标检测方法。
背景技术
计算机视觉目标检测旨在识别和定位图像中存在的目标物体,属于计算机视觉领域的经典任务,在信息化智能农业、工业智能化、自动驾驶等领域具有重要的应用价值,成为后续视觉任务的重要前提。随着深度学习技术的飞速发展,目标检测任务也在一步步向新领域突破,陆续解决过去的人工检测方式效率低,准确率差,耗时耗力的问题。
近年来,多领域出现狭长密集目标检测的情况,例如,农业场景下存在粘连的小麦籽粒检测和密集小麦穗检测、从卫星影像下采集的飞机船舰等遥感目标图像以及工业场景下,工业品密集裂纹检测,由于目标之间相互遮挡且目标排布方向不一,目标物体的可分辨度降低,采用常用的单阶段YOLO、SSD以及RetinaNet、双阶段Fast RCNN和Faster RCNN目标检测方法存在精度不高和漏检的问题。
现有的狭长目标检测方法,公开号CN113326763A其公开一种基于边界框一致性的遥感目标检测方法,该方法主要是使用ResNet101 Conv1-5网络模型作为base网络,通过热点图、偏移量信息、预测框信息、方向信息生成预测边界框,根据预测边界框进行定位展示,提高了回归效果及检测速度。但这种方法对于数据集的依赖性强、泛化能力较弱,当场景切换为方向各异的狭长且密集目标数据集时,效率低下、漏检率较高。
因此,有必要提供一种基于深度学习的狭长目标检测方法,来解决上述问题。
发明内容
本发明的目的是提供一种基于深度学习的狭长目标检测方法,着重解决了排布不均、方向各异的狭长目标进行检测时产生的效率低下和漏检问题。
为实现上述目的,本发明提供了一种基于深度学习的狭长目标检测方法,将测试图像输入至检测模型中,检测出图像中的目标物体,所述检测模型包括数据采集及预处理模块、狭长目标检测网络训练模块和测试图像检测框生成模块。
优选的,所述数据采集及预处理模块包括数据采集模块和数据预处理模块,所述数据采集模块,通过相机拍摄的若干张目标图像作为模型训练、验证和测试的数据集;所述数据预处理模块,采用目标检测工具roLabelImg对目标图像进行标注,并对数据集进行裁剪和旋转,将数据集随机分为训练集、验证集和测试集。
优选的,所述检测模型采用卷积、归一化和激活操作提取特征映射,结合信道信息融合运算,将不同降采样率的特征图发送到Neck结构。
优选的,所述检测模型基于初始YOLOX训练进行改进,所述检测模型在训练与推理过程中的检测与回归方式改进为定向边界框检测,采用全局注意力机制GAM并优化损失函数。
优选的,所述定向边界框检测,在常规矩形框的基础上加一个旋转角度θ,其代数表示为(xc,yc,w,h,θ),其中(xc,yc)表示范围框中心点的坐标,(w,h)表示范围框的宽和高。
优选的,所述全局注意力机制GAM添加在Backbone主干网络和Neck网络之间。
优选的,所述全局注意力机制GAM,包括以下步骤:
S1:使用全局平均池化GAP模块对目标图像的特征图进行压缩处理;
S2:使用SD下采样模块,降低特征维度;
S3:使用ReLU函数进行激活;
S4:使用SU上采样模块,通过全连接层返回原来的维度;
S5:通过sigmoid函数获得归一化的权重;
S6:使用Scale将归一化后的权重加权到每个通道上,输出和输入特征同样数目的权重。
优选的,所述损失函数,采用多任务损失形式,主要由定位损失Lobj、分类损失Lcls和置信度损失Lreg组成,总损失Ltotal表示如下:
Ltotal=Lobj+Lcls+Lreg
式中,定位损失Lobj计算图像目标物体预测框的定位误差,包括边界框的坐标误差和宽高误差;置信度损失Lreg计算目标物体预测框的位置误差;分类损失Lcls计算检测目标预测框的类别误差;
分类损失Lcls由目标类别损失和角度损失组成,用二元交叉熵损失表示如下:
其中,S2为特征图的尺寸,B为锚点的个数,θ为角度的类别,Iij表示该网络中第j个锚检测目标物体,第j个锚检测到目标物体,Iij=1;第j个锚未检测到目标物体,Iij=0;Pi(c)表示检测为目标物体的概率,Pi(θ)表示目标物体旋转角度为θ的概率。
优选的,基于交并比改进检测层置信度损失Lobj,使用CIoU计算定位损失和box之间的真实空间关系,交并比计算公式:
式中,pred代表目标物体预测框,targ代表目标物体真实边界框;
式中,用来度量长宽比的相似性;
权重函数:
CIoU损失函数:
其中,l(Ob,Ogt)表示锚框中心点和边界框中心点之间的欧氏距离,wgt和hgt为边界框的宽度和高度,wb和hb为锚框的宽度和高度。
优选的,所述测试图像检测框生成模块包括检测框的生成和检测结果展示,所述检测框的生成过程中采用控制阈值对检测框进行去重处理。
因此,本发明采用上述一种基于深度学习的狭长目标检测方法,具备以下有益效果:
(1)本发明检测模型在训练与推理过程中的检测与回归方式改进为定向边界框检测,以满足狭长目标物体的检测要求。
(2)本发明采用全局注意力机制提高图像的表征能力,以获取更丰富的目标特性。
(3)本发明采用定向边界框,可以得到矩形在图像中的具***置,从而实现提高旋转目标检测的性能和精度,并减小相应模型的大小,通过定向边界框的检测方法,提高检测准确率。
(4)本发明使用CIoU损失函数,考虑到检测框和真实框之间的位置信息,提高检测性能。
(5)本发明采用控制阈值去重,解决可视化结果存在目标物体出现多个检测框的问题。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1是本发明一种基于深度学习的狭长目标检测方法整体实现流程图;
图2是本发明一种基于深度学习的狭长目标检测方法的数据标注图;
图3是本发明一种基于深度学习的狭长目标检测方法的CBS模块架构图;
图4是本发明一种基于深度学习的狭长目标检测方法的定向边界框示意图;
图5是本发明一种基于深度学习的狭长目标检测方法的GAM示意图;
图6是本发明一种基于深度学习的狭长目标检测方法的解耦合检测头;
图7是本发明一种基于深度学习的狭长目标检测方法的去重处理对比图;
图8是本发明一种基于深度学习的狭长目标检测方法的模型结构图;
具体实施方式
以下通过附图和实施例对本发明的技术方案作进一步说明。
除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
实施例
如图1-图8所示,本发明提供了一种基于深度学习的狭长目标检测方法,将测试图像输入至检测模型中,检测出图像中的目标物体,检测模型包括数据采集及预处理模块、密集数据检测网络及训练模块和图像检测框生成模块。
数据采集及预处理模块包括数据采集模块和数据预处理模块,数据采集模块,通过相机拍摄的若干张目标图像作为模型训练、验证和测试的数据集;数据预处理模块,采用目标检测工具roLabelImg对目标图像进行标注,并对数据集进行裁剪和旋转,将数据集分别进行旋转30°、60°、90°、120°以及180°预处理操作,并且将大小为2688*2688的图像进行裁剪,最终图像大小为1024*1024,裁剪图像的重合度为200,将数据集随机分为训练集、验证集和测试集,比例为7:2:1。
检测模型基于卷积、批量归一化和SiLlu激活(CBS)模块、跨阶段部分(CSP)结构、特征金字塔网络(FPN)、路径聚合网络(PAN)模块和空间金字塔池化(SPP)模块构建初始模型网络,CBS模块的架构如图3所示,检测模型采用卷积、归一化和激活操作提取特征映射,结合信道信息融合运算,将不同降采样率的特征图发送到Neck结构。可以得到矩形在图像中的具***置,从而实现提高旋转目标检测的性能和精度,并减小相应模型的大小,通过定向边界框的检测方法,提高检测准确率。
检测模型基于初始YOLOX训练进行改进,检测模型在训练与推理过程中的检测与回归方式改进为定向边界框检测,骨干网络延续使用YOLOX-Darknet53,采用全局注意力机制GAM并优化损失函数。
定向边界框检测,在常规矩形框的基础上加一个旋转角度θ,其代数表示为(xc,yc,w,h,θ),其中(xc,yc)表示范围框中心点的坐标,(w,h)表示范围框的宽和高。
全局注意力机制GAM添加在Backbone主干网络和Neck网络之间。
全局注意力机制GAM,包括以下步骤:
S1:使用全局平均池化GAP模块对目标图像的特征图进行压缩处理;
S2:使用SD下采样模块,降低特征维度;
S3:使用ReLU函数进行激活;
S4:使用SU上采样模块,通过全连接层返回原来的维度;
S5:通过sigmoid函数获得归一化的权重;
S6:使用Scale将归一化后的权重加权到每个通道上,输出和输入特征同样数目的权重。
损失函数,采用多任务损失形式,主要由定位损失Lobj、分类损失Lcls和置信度损失Lreg组成,总损失Ltotal表示如下:
Ltotal=Lobj+Lcls+Lreg
式中,定位损失Lobj计算图像目标物体预测框的定位误差,包括边界框的坐标误差和宽高误差;置信度损失Lreg计算目标物体预测框的位置误差;分类损失Lcls计算检测目标预测框的类别误差;
分类损失Lcls由目标类别损失和角度损失组成,用二元交叉熵损失表示如下:
其中,S2为特征图的尺寸,B为锚点的个数,θ为角度的类别,Iij表示该网络中第j个锚检测目标物体,第j个锚检测到目标物体,Iij=1;第j个锚未检测到目标物体,Iij=0;Pi(c)表示检测为目标物体的概率,Pi(θ)表示目标物体旋转角度为θ的概率。
基于交并比改进检测层置信度损失Lobj,使用CIoU计算定位损失和box之间的真实空间关系,交并比计算公式:
式中,pred代表目标物体预测框,targ代表目标物体真实边界框;
式中,用来度量长宽比的相似性;
权重函数:
CIoU损失函数:
其中,l(Ob,Ogt)表示锚框中心点和边界框中心点之间的欧氏距离,wgt和hgt为边界框的宽度和高度,wb和hb为锚框的宽度和高度。
测试图像检测框生成模块包括检测框的生成和检测结果展示,检测框的生成过程中采用控制阈值对检测框进行去重处理。
实施例一
以对密集小麦籽粒及杂质检测为例,即对目标物体的所有检测框取最小外接矩形,取外接矩形的圆心即旋转矩形检测框的中心点坐标,根据中心点坐标之间的距离以及置信度进行筛选,具体如下伪代码所示:
因此,本发明采用上述一种基于深度学习的狭长目标检测方法,通过对数据预处理,得到合适大小的图像和增加训练样本,提高网络模型的泛化能力;在BackBone主干网络和Neck之间添加GAM全局注意力机制,增强网络对目标物体特征的提取能力,进而提高对目标的检测精度;引入定向检测框表示方法,进行检测框的准确回归,并采用控制阈值去除重复框,采用CIoU损失函数,获取更加精准的检测框结果,着重解决了排布不均、方向各异的狭长目标进行检测时产生的效率低下和漏检问题。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于深度学习的狭长目标检测方法,其特征在于:将测试图像输入至检测模型中,检测出图像中的目标物体,所述检测模型包括数据采集及预处理模块、狭长目标检测网络训练模块和测试图像检测框生成模块。
2.根据权利要求1所述的一种基于深度学习的狭长目标检测方法,其特征在于:所述数据采集及预处理模块包括数据采集模块和数据预处理模块,所述数据采集模块,通过相机拍摄的若干张目标图像作为模型训练、验证和测试的数据集;所述数据预处理模块,采用目标检测工具roLabelImg对目标图像进行标注,并对数据集进行裁剪和旋转,将数据集随机分为训练集、验证集和测试集。
3.根据权利要求1所述的一种基于深度学习的狭长目标检测方法,其特征在于:所述检测模型采用卷积、归一化和激活操作提取特征映射,结合信道信息融合运算,将不同降采样率的特征图发送到Neck结构。
4.根据权利要求1所述的一种基于深度学习的狭长目标检测方法,其特征在于:所述检测模型基于初始YOLOX训练进行改进,所述检测模型在训练与推理过程中的检测与回归方式改进为定向边界框检测,采用全局注意力机制GAM并优化损失函数。
5.根据权利要求4所述的一种基于深度学习的狭长目标检测方法,其特征在于:所述定向边界框检测,在常规矩形框的基础上加一个旋转角度θ,其代数表示为(xc,yc,w,h,θ),其中(xc,yc)表示范围框中心点的坐标,(w,h)表示范围框的宽和高。
6.根据权利要求4所述的一种基于深度学习的狭长目标检测方法,其特征在于:所述全局注意力机制GAM添加在Backbone主干网络和Neck网络之间。
7.根据权利要求6所述的一种基于深度学习的狭长目标检测方法,其特征在于:所述全局注意力机制GAM,包括以下步骤:
S1:使用全局平均池化GAP模块对目标图像的特征图进行压缩处理;
S2:使用SD下采样模块,降低特征维度;
S3:使用ReLU函数进行激活;
S4:使用SU上采样模块,通过全连接层返回原来的维度;
S5:通过sigmoid函数获得归一化的权重;
S6:使用Scale将归一化后的权重加权到每个通道上,输出和输入特征同样数目的权重。
8.根据权利要求4所述的一种基于深度学习的狭长目标检测方法,其特征在于:所述损失函数,采用多任务损失形式,主要由定位损失Lobj、分类损失Lcls和置信度损失Lreg组成,总损失Ltotal表示如下:
Ltotal=Lobj+Lcls+Lreg
式中,定位损失Lobj计算图像目标物体预测框的定位误差,包括边界框的坐标误差和宽高误差;置信度损失Lreg计算目标物体预测框的位置误差;分类损失Lcls计算检测目标预测框的类别误差;
分类损失Lcls由目标类别损失和角度损失组成,用二元交叉熵损失表示如下:
其中,S2为特征图的尺寸,B为锚点的个数,θ为角度的类别,Iij表示该网络中第j个锚检测目标物体,第j个锚检测到目标物体,Iij=1;第j个锚未检测到目标物体,Iij=0;Pi(c)表示检测为目标物体的概率,Pi(θ)表示目标物体旋转角度为θ的概率。
9.根据权利要求8所述的一种基于深度学习的狭长目标检测方法,其特征在于:基于交并比改进检测层置信度损失Lobj,使用CIoU计算定位损失和box之间的真实空间关系,交并比计算公式:
式中,pred代表目标物体预测框,targ代表目标物体真实边界框;
式中,用来度量长宽比的相似性;
权重函数:
CIoU损失函数:
其中,l(Ob,Ogt)表示锚框中心点和边界框中心点之间的欧氏距离,wgt和hgt为边界框的宽度和高度,wb和hb为锚框的宽度和高度。
10.根据权利要求1所述的一种基于深度学习的狭长目标检测方法,其特征在于:所述测试图像检测框生成模块包括检测框的生成和检测结果展示,所述检测框的生成过程中采用控制阈值对检测框进行去重处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310648368.8A CN116681983B (zh) | 2023-06-02 | 2023-06-02 | 一种基于深度学习的狭长目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310648368.8A CN116681983B (zh) | 2023-06-02 | 2023-06-02 | 一种基于深度学习的狭长目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116681983A true CN116681983A (zh) | 2023-09-01 |
CN116681983B CN116681983B (zh) | 2024-06-11 |
Family
ID=87786637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310648368.8A Active CN116681983B (zh) | 2023-06-02 | 2023-06-02 | 一种基于深度学习的狭长目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116681983B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020173036A1 (zh) * | 2019-02-26 | 2020-09-03 | 博众精工科技股份有限公司 | 基于深度学习的定位方法和*** |
CN112668560A (zh) * | 2021-03-16 | 2021-04-16 | 中国矿业大学(北京) | 一种人流密集区域行人检测方法及*** |
WO2021121127A1 (zh) * | 2020-07-28 | 2021-06-24 | 平安科技(深圳)有限公司 | 样本类别识别方法、装置、计算机设备及存储介质 |
CN113298169A (zh) * | 2021-06-02 | 2021-08-24 | 浙江工业大学 | 一种基于卷积神经网络的旋转目标检测方法及装置 |
CN113326763A (zh) * | 2021-05-25 | 2021-08-31 | 河南大学 | 一种基于边界框一致性的遥感目标检测方法 |
CN114581847A (zh) * | 2022-03-04 | 2022-06-03 | 山东科技大学 | 一种基于gam***的社区行人异常行为检测方法和装置 |
US20220215531A1 (en) * | 2021-01-04 | 2022-07-07 | James R. Glidewell Dental Ceramics, Inc. | Teeth segmentation using neural networks |
CN115115936A (zh) * | 2022-06-30 | 2022-09-27 | 西安电子科技大学 | 基于深度学习的遥感影像任意方向目标检测方法 |
CN115272828A (zh) * | 2022-08-11 | 2022-11-01 | 河南省农业科学院农业经济与信息研究所 | 一种基于注意力机制的密集目标检测模型训练方法 |
CN115546499A (zh) * | 2022-10-12 | 2022-12-30 | 中国人民解放军陆军炮兵防空兵学院 | 一种基于CNN与ViT融合的递进式辅助目标检测方法及*** |
CN115588126A (zh) * | 2022-09-29 | 2023-01-10 | 长三角信息智能创新研究院 | 一种融合GAM、CARAFE和SnIoU的车辆目标检测方法 |
CN115690627A (zh) * | 2022-11-03 | 2023-02-03 | 安徽大学 | 一种航拍图像旋转目标的检测方法及*** |
CN115841608A (zh) * | 2022-11-02 | 2023-03-24 | 国网青海省电力公司海北供电公司 | 一种基于改进yolox的多腔室避雷器识别方法 |
CN115861853A (zh) * | 2022-11-22 | 2023-03-28 | 西安工程大学 | 基于改进yolox算法的复杂环境下输电线路鸟巢检测方法 |
CN116052218A (zh) * | 2023-02-13 | 2023-05-02 | 中国矿业大学 | 一种行人重识别方法 |
CN116109942A (zh) * | 2023-02-16 | 2023-05-12 | 大连海事大学 | 一种可见光遥感图像舰船目标检测方法 |
WO2023096968A1 (en) * | 2021-11-23 | 2023-06-01 | Strong Force Tp Portfolio 2022, Llc | Intelligent transportation methods and systems |
-
2023
- 2023-06-02 CN CN202310648368.8A patent/CN116681983B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020173036A1 (zh) * | 2019-02-26 | 2020-09-03 | 博众精工科技股份有限公司 | 基于深度学习的定位方法和*** |
WO2021121127A1 (zh) * | 2020-07-28 | 2021-06-24 | 平安科技(深圳)有限公司 | 样本类别识别方法、装置、计算机设备及存储介质 |
US20220215531A1 (en) * | 2021-01-04 | 2022-07-07 | James R. Glidewell Dental Ceramics, Inc. | Teeth segmentation using neural networks |
CN112668560A (zh) * | 2021-03-16 | 2021-04-16 | 中国矿业大学(北京) | 一种人流密集区域行人检测方法及*** |
CN113326763A (zh) * | 2021-05-25 | 2021-08-31 | 河南大学 | 一种基于边界框一致性的遥感目标检测方法 |
CN113298169A (zh) * | 2021-06-02 | 2021-08-24 | 浙江工业大学 | 一种基于卷积神经网络的旋转目标检测方法及装置 |
WO2023096968A1 (en) * | 2021-11-23 | 2023-06-01 | Strong Force Tp Portfolio 2022, Llc | Intelligent transportation methods and systems |
CN114581847A (zh) * | 2022-03-04 | 2022-06-03 | 山东科技大学 | 一种基于gam***的社区行人异常行为检测方法和装置 |
CN115115936A (zh) * | 2022-06-30 | 2022-09-27 | 西安电子科技大学 | 基于深度学习的遥感影像任意方向目标检测方法 |
CN115272828A (zh) * | 2022-08-11 | 2022-11-01 | 河南省农业科学院农业经济与信息研究所 | 一种基于注意力机制的密集目标检测模型训练方法 |
CN115588126A (zh) * | 2022-09-29 | 2023-01-10 | 长三角信息智能创新研究院 | 一种融合GAM、CARAFE和SnIoU的车辆目标检测方法 |
CN115546499A (zh) * | 2022-10-12 | 2022-12-30 | 中国人民解放军陆军炮兵防空兵学院 | 一种基于CNN与ViT融合的递进式辅助目标检测方法及*** |
CN115841608A (zh) * | 2022-11-02 | 2023-03-24 | 国网青海省电力公司海北供电公司 | 一种基于改进yolox的多腔室避雷器识别方法 |
CN115690627A (zh) * | 2022-11-03 | 2023-02-03 | 安徽大学 | 一种航拍图像旋转目标的检测方法及*** |
CN115861853A (zh) * | 2022-11-22 | 2023-03-28 | 西安工程大学 | 基于改进yolox算法的复杂环境下输电线路鸟巢检测方法 |
CN116052218A (zh) * | 2023-02-13 | 2023-05-02 | 中国矿业大学 | 一种行人重识别方法 |
CN116109942A (zh) * | 2023-02-16 | 2023-05-12 | 大连海事大学 | 一种可见光遥感图像舰船目标检测方法 |
Non-Patent Citations (4)
Title |
---|
NAN XIANG等: "Material-Aware Path Aggregation Network and Shape Decoupled SIoU for X-ray Contraband Detection", ELECTRONICS, 28 February 2023 (2023-02-28), pages 1 - 17 * |
徐志京等: "基于双重特征增强的遥感舰船小目标检测", 光学学报, vol. 42, no. 18, 30 September 2022 (2022-09-30), pages 2 * |
徐振杰;陈庆奎;: "一种基于目标检测的偏斜图像校准方法", 小型微型计算机***, no. 05, 15 May 2020 (2020-05-15) * |
徐融;邱晓晖;: "一种改进的YOLO V3目标检测方法", 计算机技术与发展, no. 07, 10 July 2020 (2020-07-10) * |
Also Published As
Publication number | Publication date |
---|---|
CN116681983B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084292B (zh) | 基于DenseNet和多尺度特征融合的目标检测方法 | |
CN113269073B (zh) | 一种基于yolo v5算法的船舶多目标追踪方法 | |
Lee et al. | Simultaneous traffic sign detection and boundary estimation using convolutional neural network | |
CN109829398B (zh) | 一种基于三维卷积网络的视频中的目标检测方法 | |
CN108052942B (zh) | 一种飞机飞行姿态的视觉图像识别方法 | |
CN110660052A (zh) | 一种基于深度学习的热轧带钢表面缺陷检测方法 | |
CN111160120A (zh) | 基于迁移学习的Faster R-CNN物品检测方法 | |
CN110610210B (zh) | 一种多目标检测方法 | |
CN110647802A (zh) | 基于深度学习的遥感影像舰船目标检测方法 | |
CN108711172B (zh) | 基于细粒度分类的无人机识别与定位方法 | |
CN115829991A (zh) | 一种基于改进YOLOv5s的钢材表面缺陷检测方法 | |
CN112949380B (zh) | 一种基于激光雷达点云数据的智能水下目标识别*** | |
CN110008899B (zh) | 一种可见光遥感图像候选目标提取与分类方法 | |
CN113033315A (zh) | 一种稀土开采高分影像识别与定位方法 | |
CN113516053A (zh) | 一种具有旋转不变性的舰船目标精细化检测方法 | |
CN110866931B (zh) | 图像分割模型训练方法及基于分类的强化图像分割方法 | |
CN116128883A (zh) | 一种光伏板数量统计方法、装置、电子设备及存储介质 | |
WO2023273337A1 (zh) | 一种基于代表特征的遥感图像中的密集目标检测方法 | |
CN113284185B (zh) | 用于遥感目标检测的旋转目标检测方法 | |
CN113496260A (zh) | 基于改进YOLOv3算法的粮库人员不规范作业检测法 | |
CN116681983B (zh) | 一种基于深度学习的狭长目标检测方法 | |
CN116912684A (zh) | 一种基于深度学习的番茄叶片病害检测方法 | |
CN116051808A (zh) | 一种基于YOLOv5的轻量化零件识别定位方法 | |
CN113887455B (zh) | 一种基于改进fcos的人脸口罩检测***及方法 | |
CN116246096A (zh) | 一种基于前景强化知识蒸馏的点云3d目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |