CN114863426A - 一种目标特征注意力与金字塔相耦合的微小目标检测方法 - Google Patents
一种目标特征注意力与金字塔相耦合的微小目标检测方法 Download PDFInfo
- Publication number
- CN114863426A CN114863426A CN202210483555.0A CN202210483555A CN114863426A CN 114863426 A CN114863426 A CN 114863426A CN 202210483555 A CN202210483555 A CN 202210483555A CN 114863426 A CN114863426 A CN 114863426A
- Authority
- CN
- China
- Prior art keywords
- target
- feature
- attention
- layer
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
- G06V20/698—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种目标特征注意力与金字塔相耦合的微小目标检测方法,包括以下步骤:S101,特征提取层的近末端加入空间金字塔池化,提高对局部小目标特征的感知能力,且同时兼顾全局特征;S102,特征融合层嵌入关键小目标特征通道注意力和空间注意力做金字塔式融合,达到有效聚焦小目标特征,去除冗余,减少参数,降低计算量的目的;S103,引入无锚解耦检测头,对提取的小目标特征进行目标检测,输出所检测目标的位置和类别,提高对杂乱背景中的小目标或大背景中的小目标的检测精度和效率。本发明能够对杂乱背景中的小目标或大背景中的小目标,如有划痕铜块表面的氧化斑点,进行准确高效快速的检测。
Description
技术领域
本发明涉及计算机视觉技术领域,特别是指一种目标特征注意力与金字塔相耦合的微小目标检测方法。
背景技术
随着计算机视觉领域不断发展,应用目标检测模型对物品表面微小瑕疵或缺陷进行检测来实现对工业生产的智能化指导变得越来越广泛,工业不断实现自动化智能化检测。
铜作为一种重要的基础原料,因其良好的综合性能而广泛应用于各行业。但铜与环境中的氧气和水蒸气的反应会导致铜材料的氧化产生氧化斑,导致精密仪器的损坏或报废,造成巨大的经济损失,甚至造成人员伤亡。因此,检测铜表面的氧化斑点以及判断氧化程度,对及时合理地采取有效的保护措施具有重要意义。铜表面微氧化很难被肉眼检测到,使用显微镜设备进行目视检查是应用较广泛的检查技术之一。但检查员的工作强度高,长期检查会影响检查员的工作状态,导致检查效率低、精度低,存在误检漏检的问题。结合显微摄像头的计算机视觉技术可以实现工业自动化的高效检查。
对于微小目标检测的应用场景,因其难以被肉眼检测,且采用人工利用专业设备检测耗时耗力效率低,无法适应工业自动化高效生产的在线检测需求。利用计算机视觉技术对其图像进行模型训练后应用模型进行实时检测可以大大降低人工检测成本并提高检测准确率和效率。
目前,微小目标检测已经进行了大量的研究,利用卷积神经网络对图像中的微小目标进行检测分类。但是大多数模型专项专用,泛化能力差,在模型移植时表现出的检测准确率较低。此外检测模型大多针对于显化醒目的瑕疵,对于肉眼难以检测的微小目标研究极少。
发明内容
本发明提供了一种目标特征注意力与金字塔相耦合的微小目标检测方法,利用基于关键小目标特征注意力与金字塔相耦合的目标检测模型对图像中的微小目标进行检测。以解决当前微小目标检测采用人工使用专业设备检测的检测效率低的问题,同时解决基于机器视觉的微小目标检测精度低,泛化性差的问题。
为解决上述技术问题,本发明提供如下技术方案:
一种目标特征注意力与金字塔相耦合的微小目标检测方法,包括以下步骤:
S101,特征提取层的近末端加入空间金字塔池化,提高对局部小目标特征的感知能力,且同时兼顾全局特征;
S102,特征融合层嵌入关键小目标特征通道注意力和空间注意力做金字塔式融合,达到有效聚焦小目标特征,去除冗余,减少参数,降低计算量的目的;
S103,引入无锚解耦检测头,对提取的小目标特征进行目标检测,输出所检测目标的位置和类别,提高对杂乱背景中的小目标或大背景中的小目标的检测精度和效率;
S104,训练预测时采用SimOTA动态匹配正样本,利用CIOU损失改进检测模型的回归损失函数,使预测框回归更加稳定;并引入焦点损失提高检测模型对目标的敏感性,加速训练;交叉熵损失作分类损失。
进一步地,所述S101中,特征提取层的近末端加入空间金字塔池化,提高对局部小目标特征的感知能力,且同时兼顾全局特征,具体包括:
空间金字塔池化结构参杂在对特征提取网络的最后一个特征层的卷积里,在对特征提取网络的最后一个特征层进行三次卷积后,分别利用四个不同尺度的最大池化进行处理,最大池化的池化核大小分别为13x13、9x9、5x5、1x1,每个池化层的步长为1,该池化层能够极大地增加感受野,分离出最显著的上下文特征,提取并融合局部区域特征,由此更适应对杂乱背景中的小目标或大背景中的小目标的检测,增强检测网络的鲁棒性。
进一步地,所述S102中,特征融合层嵌入关键小目标特征通道注意力和空间注意力做金字塔式融合,达到有效聚焦小目标特征,去除冗余,减少参数,降低计算量的目的,具体包括:
对输入进来的关键小目标特征层,分别进行通道注意力机制的处理和空间注意力机制的处理。通道注意力集中在全局信息上,而空间注意力则在局部使用,可以提取全面的突出特征来提高杂乱背景中的小目标或大背景中的小目标的检测性能。在经过注意力机制处理后将多尺度的关键小目标特征利用金字塔模型进行特征融合后做独立检测,提升对小目标的检测效果。
进一步地,所述通道注意力机制,对输入的单个关键小目标特征层,分别进行全局平均池化和全局最大池化,将其利用共享全连接层进行处理后相加,经sigmoid函数获取输入特征层每一个通道的权值,即输入特征层通道注意力权值。
进一步地,所述空间注意力机制,对输入的单个关键小目标特征层,在每一个特征点的通道上取最大值和平均值,将其堆叠后利用通道数为1的卷积调整通道,经sigmoid函数获得输入特征层每一个特征点的权值,即输入特征层空间注意力权值。
进一步地,在特征融合层中,仅对关键小目标特征引入注意力机制,而非在整个特征提取过程中,在卷积后串联注意力机制或者序列化的使用注意力。注意力机制不参与特征提取层的网络结构,只对关键小目标特征进行强化和融合,可以去除冗余,减少非必要的参数,降低计算量。
进一步地,所述S103中,引入无锚解耦检测头,对提取的小目标特征进行目标检测,输出所检测目标的位置和类别,提高对杂乱背景中的小目标或大背景中的小目标的检测精度和效率包括:
无锚解耦检测头对经过特征融合后的特征图进行目标检测,输出所检测目标的位置和类别。检测头分为两部分,分别实现,在最后预测时进行整合。所述的无锚解耦检测头包含一个1×1conv层来减少通道维度,两个3×3conv层的并行分支分别进行分类和回归。最终获得三个预测结果:回归预测用于判断每一个特征点的回归参数;目标预测用于判断每一个特征点是否包含目标;类别预测用于判断每一个特征点所包含的目标的类别。
进一步地,所述S104中,训练预测时采用SimOTA动态匹配正样本,利用CIOU损失改进检测模型的回归损失函数,使预测框回归更加稳定;并引入焦点损失提高检测模型对目标的敏感性,加速训练;交叉熵损失作分类损失,具体包括:
将预处理图像分批次输入到模型中,进行特征提取和特征融合,经无锚解耦检测头后检测得到大量预测框。在对预测框筛选过程中引入SimOTA动态匹配正样本,计算每个真实框和每个特征点之间的代价关系,选择在一个固定的中心区域内成本最小的前k个预测作为其正样本。最后,将这些正预测的相应网格划分为正,其余网格划分为负,网络损失由三个部分组成,分别是回归损失、目标损失、分类损失。
进一步地,所述S102中,注意力机制不参与特征提取层的网络结构,仅对提取层输出的关键小目标特征引入注意力机制,而非在整个特征提取网络中串联注意力机制。
本发明的上述技术方案带来的有益效果如下:
本发明提供的一种目标特征注意力与金字塔相耦合的微小目标检测方法,利用基于关键小目标特征注意力与金字塔相耦合的目标检测模型对图像中的微小目标进行检测。所述方法分为三个组成部分,包括:特征提取层、特征融合层及目标检测头。特征提取层的近末端加入空间金字塔池化,提高对局部小目标特征的感知能力,且同时兼顾全局特征。特征融合层嵌入关键小目标特征通道注意力和空间注意力做金字塔式融合,其中注意力机制不参与特征提取层的网络结构,仅对提取层输出的关键小目标特征引入注意力机制,而非在整个特征提取网络中串联注意力机制,达到有效聚焦小目标特征,去除冗余,减少参数,降低计算量的目的。引入无锚解耦检测头,对提取的小目标特征进行目标检测,输出所检测目标的位置和类别,提高对杂乱背景中的小目标或大背景中的小目标的检测精度和效率。训练预测时采用SimOTA动态匹配正样本,利用CIOU损失改进检测模型的回归损失函数,使预测框回归更加稳定;并引入焦点损失提高检测模型对目标的敏感性,加速训练;交叉熵损失作分类损失。本发明能够对杂乱背景中的小目标或大背景中的小目标,如有划痕铜块表面的氧化斑点,磨粒图像上的不同磨粒进行准确高效快速的检测,以解决当前微小目标检测采用人工使用专业设备检测的检测效率低的问题,同时解决基于机器视觉的微小目标检测精度低,泛化性差的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种目标特征注意力与金字塔相耦合的微小目标检测方法的流程示意图;
图2为本发明实施例提供的铜表面图像示意图;
图3为本发明实施例提供的基于关键小目标特征注意力与金字塔相耦合的微小目标检测模型的示意图
图4为本发明实施例提供的特征提取网络中空间金字塔池化模块的网络结构图;
图5为本发明实施例提供的空间注意力和通道注意力的网络结构图;
图6为本发明实施例提供的无锚解耦检测头的结构图;
图7为本发明实施例提供的氧化斑检测模型检测结果示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
第一实施例
请参阅图1至图7,针对当前微小目标检测模型鲁棒性差,泛化能力弱,且针对专项检测精度低的问题,本实施例提供一种目标特征注意力与金字塔相耦合的微小目标检测方法,如图1所示。该方法提供一种通用的微小目标检测模型,本实施例中将其应用至检测铜表面的氧化斑点,使用铜样本获取铜表面图像,用于训练和验证本发明实施例所述的一种目标特征注意力与金字塔相耦合的微小目标检测方法。采用显微成像***(包括显微镜头与高清摄像头组成的显微成像***)进行无氧铜表面图像采集。对采集的图像进行裁剪预处理并进行标注,完成数据集制备。搭建所述的微小目标检测模型,将标注后的铜表面图像输入至微小目标检测模型进行训练得到氧化斑检测模型;利用训练好的氧化斑检测模型对待测的铜表面图片进行氧化斑检测,输出氧化斑位置信息和氧化等级进行模型效果测试分析,其包括:
第一步,采集微小目标图像并对其进行标注,进行数据集制备;
本实施例中,显微镜头与高清摄像头组成的显微成像***采集铜表面图像,采集例图如图2所示,共获取铜表面图像1902张。将图像进行剪裁预处理,通过lableimg图像标注工具将图像上的氧化斑进行氧化类别及位置标注,氧化斑类型分为:轻微氧化、中度氧化、严重氧化。
第二步,搭建所述的基于关键小目标特征注意力与金字塔相耦合的微小目标检测模型,如图3所示;
S101,特征提取层的近末端加入空间金字塔池化,提高对局部小目标特征的感知能力,且同时兼顾全局特征。
本实例中,特征提取网络借鉴yolov3的骨干模型,对输入图像进行预处理后利用残差网络进行不断的卷积,输出三层不同大小的特征图,空间金字塔池化结构参杂在对特征提取网络的最后一个特征层的卷积里,即在特征提取层网络结构近末端通过不同大小的池化核最大池化进行特征提取,最大池化的池化核大小分别为13x13、9x9、5x5、1x1。每个池化层的步长为1,如图4所示。该池化层能够极大地增加感受野,分离出最显著的上下文特征,提取并融合局部区域特征,由此更适应对杂乱背景中的小目标或大背景中的小目标的检测,增强检测网络的鲁棒性。
S102,特征融合层嵌入关键小目标特征通道注意力和空间注意力做金字塔式融合,达到有效聚焦小目标特征,去除冗余,减少参数,降低计算量的目的。
本实例中,对输入进来的关键小目标特征层,分别进行通道注意力机制的处理和空间注意力机制的处理,如图5所示。通道注意力机制,对输入的单个关键小目标特征层,分别进行全局平均池化和全局最大池化,将其利用共享全连接层进行处理后相加,经sigmoid函数获取输入特征层每一个通道的权值,即输入特征层通道注意力权值。空间注意力机制,对输入的单个关键小目标特征层,在每一个特征点的通道上取最大值和平均值,将其堆叠后利用通道数为1的卷积调整通道,经sigmoid函数获得输入特征层每一个特征点的权值,即输入特征层空间注意力权值。通道注意力集中在全局信息上,而空间注意力则在局部使用,可以提取全面的突出特征来提高杂乱背景中的小目标或大背景中的小目标的检测性能。在经过注意力机制处理后将多尺度的关键小目标特征利用金字塔模型进行特征融合后做独立检测,提升对小目标的检测效果。
S103,引入无锚解耦检测头,对提取的小目标特征进行目标检测,输出所检测目标的位置和类别,提高对杂乱背景中的小目标或大背景中的小目标的检测精度和效率。
本实例中,使用无锚解耦检测头对经特征融合后的特征图进行目标检测,输出所检测目标的位置和类别。检测头分为两部分,分别实现,最后预测时在进行整合。所述的无锚解耦检测头包含一个1×1conv层来减少通道维度,两个3×3conv层的并行分支分别进行分类和回归,如图6所示。最终获得三个预测结果,回归预测用于判断每一个特征点的回归参数;目标预测用于判断每一个特征点是否包含目标;类别预测用于判断每一个特征点所包含的目标类别。
S104,训练预测时采用SimOTA动态匹配正样本,利用CIOU损失改进检测模型的回归损失函数,使预测框回归更加稳定;并引入焦点损失提高检测模型对目标的敏感性,加速训练;交叉熵损失作分类损失。
将预处理图像分批次输入到特征网络中,进行特征提取和特征融合,经无锚解耦检测头后检测得到大量预测框。对预测框筛选过程中引入SimOTA动态匹配正样本,计算每个真实框和每个特征点之间的代价关系,选择在一个固定的中心区域内成本最小的前k个预测作为其正样本。最后,将这些正预测的相应网格划分为正,其余网格划分为负。网络损失由三个部分组成,分别是回归损失、目标损失、分类损失。
其中,所述回归损失是特征点的回归参数判断,利用真实框和预测框计算CIOU损失。CIOU将真实框和预测框之间的距离,重叠率、尺度以及惩罚项都考虑进去,使预测框回归更加稳定,并且可以获得更好的收敛速度和精度。回归损失计算方式如下:
其中,n表示经SimOTA动态匹配正样本后得到的正样本数目。ρ2(b,bgt)代表了预测框和真实框的中心点的欧式距离。c代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离。w,wgt,h,hgt分别代表了预测框和真实框的宽,高。
其中,所述目标损失是特征点是否包含物体判断,因为包含物体的潜在边界框的数量比只包含背景的边界框要少得多。交叉熵损失在大量简单样本的迭代过程中比较缓慢且可能无法优化至最优。本发明引入了焦点损失,它给目标一个高的损失值,这使得检测模型对小目标变得敏感。
其中,α是平衡因子,用来平衡正负样本本身的数量比例。γ代表指数比例系数,减少易分类样本的损失,使得模型更关注于困难的、错分的样本。本文中,α和γ分别为0.25和2。N表示总的预测框数目,骨干网络提取的最后特征,每个方格表示一个预测框。表示第i个预测框包含一个对象。同时,表示预测框只包含背景。
其中,所述分类损失是特征点包含的物体的种类的判断,根据真实框的种类和特征点的种类预测结果计算交叉熵损失。
其中,n为经SimOTA动态匹配正样本后得到的正样本数目。类的预测用p(c)表示,带^的变量表示它们是预测值,否则,表示真实值。
最终微小目标检测模型的损失函数表示为:
LOSS=wregLreg+Lobj+Lnoobj+Lcls
其中,wreg为回归损失的权重,本发明中wreg的值为5。
第三步,利用第二步搭建好的基于关键小目标特征注意力与金字塔相耦合的微小目标检测模型对第一步所述氧化斑数据集进行训练;
本实例中,用损失函数Loss和Adam优化器来迭代更新模型中卷积核和神经元的参数,优化器具体参数为:100次迭代训练,其中前50次为冻结训练,可加快训练速度并且防止训练初期权值被破坏;后50次为解冻训练;每个训练批次大小16,学习速率为0.001,乘法因子为0.92。当训练集和验证集损失趋向于收敛时,表示氧化斑检测模型稳定。
第四步,对训练好的模型进行测试并分析检测效果;
本实例中,利用制备的氧化斑测试集输入训练好的氧化斑检测模型进行测试,随机抽取氧化斑数据集的10%作为测试集,输入到训练好的氧化斑检测模型中,得到铜表面图像上氧化斑点位置信息及氧化等级类别。评估指标采用召回率(Recall)、AP和mAP。
在现实中,预测的结果不可能与真实框完全吻合。因此,采用"交叉联合"(IoU)指标来表示预测框与真实框的重叠。当预测框与真实框之间的重叠面积超过IoU阈值时,检测结果就会被归类为阳性,否则,检测结果被归类为阴性。在本发明中,IoU值为0.5。精度表示真阳性(TP)结果的数量除以所有阳性检测结果。召回率被定义为所有正确检测结果中TP的百分比。
其中,TP(TruePositive)真正例表示预测为正例、实际也为正例的样本数;FP(False Positive)假正例表示预测为正例,实际为反例的样本数;FN(False Negative)假反例表示预测为反例,实际为正例的样本数。
精度和召回率曲线下的面积被称为平均精度(AP)。AP表示检测器定位物体并将其归入单一类别的能力。一般来说,一类物体的AP越高,检测器识别它们的性能就越好。平均精度(mAP)表示探测器在所有类别中的性能,可以用所有类别的AP的平均值来定义。
其中,Precision(r)为以Recall为横坐标,Precision为纵坐标所做曲线。
其中,n为总类别数,i=1,2,...,n。
表1展示了随机抽取氧化斑数据集的10%作为测试集,输入到训练好的氧化斑检测模型中得到铜表面图像上氧化斑点位置信息及氧化等级类别评估结果,可以看出该氧化斑检测模型对氧化斑点位置检测和氧化等级类别分类的准确性较高,其中氧化类别为严重氧化的类别虽然样本总数相对较少,但因其氧化面积较大且颜色更深,基于其独特特征,检测结果显示对这种级别的氧化斑有很高的准确性。氧化类型为轻微氧化的斑因其氧化面积非常小且样本多,在背景中分布散乱,它的检测精度相对较低,氧化类型为中度氧化的类别介于氧化类型为轻微和严重的类别之间,检测结果样例如图7所示,在杂乱有多种划痕或表面污渍影响的铜表面背景上仍然可以准确检测出微小氧化斑点,且分类准确率高,检测框回归精准。
表1测试集铜表面图像氧化斑检测结果(%)
表2展示了本专利检测模型与其他先进的检测模型在氧化斑检测的效果对比,包括Yolov3、Yolov4、YoloX、SSD、CenterNet和RetinaNet。为了进行公平的比较,被比较的检测模型的输入维度被调整到一个相似的规模,所有的检测模型都在没有经过预先训练的情况下进行了训练。其他检测模型受到氧化斑的稠密错乱分布、尺寸差异和特征难以识别特点的限制。本专利检测模型优于上述所有检测模型,达到了82.96%的mAP。
表2与其他先进检测器氧化斑检测效果对比(%)
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种目标特征注意力与金字塔相耦合的微小目标检测方法,其特征在于,包括以下步骤:
S101,特征提取层的近末端加入空间金字塔池化,提高对局部小目标特征的感知能力,且同时兼顾全局特征;
S102,特征融合层嵌入关键小目标特征通道注意力和空间注意力做金字塔式融合,达到有效聚焦小目标特征,去除冗余,减少参数,降低计算量的目的;
S103,引入无锚解耦检测头,对提取的小目标特征进行目标检测,输出所检测目标的位置和类别,提高对杂乱背景中的小目标或大背景中的小目标的检测精度和效率;
S104,训练预测时采用SimOTA动态匹配正样本,利用CIOU损失改进检测模型的回归损失函数,使预测框回归更加稳定;并引入焦点损失提高检测模型对目标的敏感性,加速训练;交叉熵损失作分类损失。
2.根据权利要求1所述的一种目标特征注意力与金字塔相耦合的微小目标检测方法,其特征在于,所述S101中,特征提取层的近末端加入空间金字塔池化,提高对局部小目标特征的感知能力,且同时兼顾全局特征,具体包括:
空间金字塔池化结构参杂在对特征提取网络的最后一个特征层的卷积里,在对特征提取网络的最后一个特征层进行三次卷积后,分别利用四个不同尺度的最大池化进行处理,最大池化的池化核大小分别为13x13、9x9、5x5、1x1,每个池化层的步长为1,该池化层能够极大地增加感受野,分离出最显著的上下文特征,提取并融合局部区域特征,由此更适应对杂乱背景中的小目标或大背景中的小目标的检测,增强检测网络的鲁棒性。
3.根据权利要求1所述的一种目标特征注意力与金字塔相耦合的微小目标检测方法,其特征在于,所述S102中,特征融合层嵌入关键小目标特征通道注意力和空间注意力做金字塔式融合,达到有效聚焦小目标特征,去除冗余,减少参数,降低计算量的目的,具体包括:
对输入进来的关键小目标特征层,分别进行通道注意力机制的处理和空间注意力机制的处理。通道注意力集中在全局信息上,而空间注意力则在局部使用,可以提取全面的突出特征来提高杂乱背景中的小目标或大背景中的小目标的检测性能。在经过注意力机制处理后将多尺度的关键小目标特征利用金字塔模型进行特征融合后做独立检测,提升对小目标的检测效果。
4.根据权利要求3所述的一种目标特征注意力与金字塔相耦合的微小目标检测方法,其特征在于,所述通道注意力机制,对输入的单个关键小目标特征层,分别进行全局平均池化和全局最大池化,将其利用共享全连接层进行处理后相加,经sigmoid函数获取输入特征层每一个通道的权值,即输入特征层通道注意力权值。
5.根据权利要求3所述的一种目标特征注意力与金字塔相耦合的微小目标检测方法,其特征在于,所述空间注意力机制,对输入的单个关键小目标特征层,在每一个特征点的通道上取最大值和平均值,将其堆叠后利用通道数为1的卷积调整通道,经sigmoid函数获得输入特征层每一个特征点的权值,即输入特征层空间注意力权值。
6.根据权利要求3所述的一种目标特征注意力与金字塔相耦合的微小目标检测方法,其特征在于,在特征融合层中,仅对关键小目标特征引入注意力机制,而非在整个特征提取过程中,在卷积后串联注意力机制或者序列化的使用注意力。注意力机制不参与特征提取层的网络结构,只对关键小目标特征进行强化和融合,可以去除冗余,减少非必要的参数,降低计算量。
7.根据权利要求1所述的一种目标特征注意力与金字塔相耦合的微小目标检测方法,其特征在于,所述S103中,引入无锚解耦检测头,对提取的小目标特征进行目标检测,输出所检测目标的位置和类别,提高对杂乱背景中的小目标或大背景中的小目标的检测精度和效率包括:
无锚解耦检测头对经过特征融合后的特征图进行目标检测,输出所检测目标的位置和类别。检测头分为两部分,分别实现,在最后预测时进行整合。所述的无锚解耦检测头包含一个1×1conv层来减少通道维度,两个3×3conv层的并行分支分别进行分类和回归。最终获得三个预测结果:回归预测用于判断每一个特征点的回归参数;目标预测用于判断每一个特征点是否包含目标;类别预测用于判断每一个特征点所包含的目标的类别。
8.根据权利要求1所述的一种目标特征注意力与金字塔相耦合的微小目标检测方法,其特征在于,所述S104中,训练预测时采用SimOTA动态匹配正样本,利用CIOU损失改进检测模型的回归损失函数,使预测框回归更加稳定;并引入焦点损失提高检测模型对目标的敏感性,加速训练;交叉熵损失作分类损失,具体包括:
将预处理图像分批次输入到模型中,进行特征提取和特征融合,经无锚解耦检测头后检测得到大量预测框。在对预测框筛选过程中引入SimOTA动态匹配正样本,计算每个真实框和每个特征点之间的代价关系,选择在一个固定的中心区域内成本最小的前k个预测作为其正样本。最后,将这些正预测的相应网格划分为正,其余网格划分为负,网络损失由三个部分组成,分别是回归损失、目标损失、分类损失。
9.根据权利要求1所述的一种目标特征注意力与金字塔相耦合的微小目标检测方法,其特征在于,
所述S102中,注意力机制不参与特征提取层的网络结构,仅对提取层输出的关键小目标特征引入注意力机制,而非在整个特征提取网络中串联注意力机制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210483555.0A CN114863426B (zh) | 2022-05-05 | 2022-05-05 | 一种目标特征注意力与金字塔相耦合的微小目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210483555.0A CN114863426B (zh) | 2022-05-05 | 2022-05-05 | 一种目标特征注意力与金字塔相耦合的微小目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114863426A true CN114863426A (zh) | 2022-08-05 |
CN114863426B CN114863426B (zh) | 2022-12-13 |
Family
ID=82635534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210483555.0A Active CN114863426B (zh) | 2022-05-05 | 2022-05-05 | 一种目标特征注意力与金字塔相耦合的微小目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114863426B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800906A (zh) * | 2021-01-19 | 2021-05-14 | 吉林大学 | 一种基于改进YOLOv3的自动驾驶汽车跨域目标检测方法 |
CN113609926A (zh) * | 2021-07-15 | 2021-11-05 | 河南工业大学 | 基于泛化IoU的改进损失函数的I-YOLOv4算法 |
CN113673616A (zh) * | 2021-08-26 | 2021-11-19 | 南通大学 | 一种耦合注意力和上下文的轻量化小目标检测方法 |
CN114037938A (zh) * | 2021-11-09 | 2022-02-11 | 桂林电子科技大学 | 一种基于NFL-Net的低照度目标检测方法 |
CN114119582A (zh) * | 2021-12-01 | 2022-03-01 | 安徽大学 | 一种合成孔径雷达图像目标检测方法 |
CN114202672A (zh) * | 2021-12-09 | 2022-03-18 | 南京理工大学 | 一种基于注意力机制的小目标检测方法 |
CN114299383A (zh) * | 2021-12-03 | 2022-04-08 | 河海大学 | 基于密度图与注意力机制融合的遥感图像目标检测方法 |
CN114387538A (zh) * | 2021-12-15 | 2022-04-22 | 江苏电力信息技术有限公司 | 基于YoloX网络的变电站作业现场安全识别方法 |
-
2022
- 2022-05-05 CN CN202210483555.0A patent/CN114863426B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800906A (zh) * | 2021-01-19 | 2021-05-14 | 吉林大学 | 一种基于改进YOLOv3的自动驾驶汽车跨域目标检测方法 |
CN113609926A (zh) * | 2021-07-15 | 2021-11-05 | 河南工业大学 | 基于泛化IoU的改进损失函数的I-YOLOv4算法 |
CN113673616A (zh) * | 2021-08-26 | 2021-11-19 | 南通大学 | 一种耦合注意力和上下文的轻量化小目标检测方法 |
CN114037938A (zh) * | 2021-11-09 | 2022-02-11 | 桂林电子科技大学 | 一种基于NFL-Net的低照度目标检测方法 |
CN114119582A (zh) * | 2021-12-01 | 2022-03-01 | 安徽大学 | 一种合成孔径雷达图像目标检测方法 |
CN114299383A (zh) * | 2021-12-03 | 2022-04-08 | 河海大学 | 基于密度图与注意力机制融合的遥感图像目标检测方法 |
CN114202672A (zh) * | 2021-12-09 | 2022-03-18 | 南京理工大学 | 一种基于注意力机制的小目标检测方法 |
CN114387538A (zh) * | 2021-12-15 | 2022-04-22 | 江苏电力信息技术有限公司 | 基于YoloX网络的变电站作业现场安全识别方法 |
Non-Patent Citations (4)
Title |
---|
YIWEN ZHANG ET AL.: "Classroom behavior recognition based on improved yolov3", 《2020 INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE AND EDUCATION (ICAIE)》 * |
YUAN MEI ET AL.: "SNG-YOLOX: Non-obvious remote sensing target detection based on enhanced YOLOX", 《RESEARCH SQUARE》 * |
ZHENG GE ET AL.: "YOLOX: Exceeding YOLO Series in 2021", 《HTTPS://DOI.ORG/10.48550/ARXIV.2107.08430》 * |
冯文宇等: "复杂环境下课堂多人状态检测算法研究", 《电子测量与仪器学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114863426B (zh) | 2022-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977808B (zh) | 一种晶圆表面缺陷模式检测与分析方法 | |
CN108765412B (zh) | 一种带钢表面缺陷分类方法 | |
CN108074231B (zh) | 一种基于卷积神经网络的磁片表面缺陷检测方法 | |
US7236623B2 (en) | Analyte recognition for urinalysis diagnostic system | |
CN111815564B (zh) | 一种检测丝锭的方法、装置及丝锭分拣*** | |
CN111915572B (zh) | 一种基于深度学习的自适应齿轮点蚀定量检测***及方法 | |
CN111667455A (zh) | 一种刷具多种缺陷的ai检测方法 | |
CN104515786A (zh) | 金属铸件疲劳过程内部缺陷演化的检测方法与分析方法 | |
CN111179273A (zh) | 一种基于深度学习的白细胞核质自动分割方法及*** | |
CN110763700A (zh) | 一种半导体元器件缺陷检测方法和设备 | |
CN115439458A (zh) | 基于深度图注意力的工业图像缺陷目标检测算法 | |
CN113222982A (zh) | 基于改进的yolo网络的晶圆表面缺陷检测方法及*** | |
CN114972258B (zh) | 基于机器视觉的电池表面缺陷检测方法、***及相关设备 | |
Yusof et al. | Automated asphalt pavement crack detection and classification using deep convolution neural network | |
CN108008006A (zh) | 一种焊缝缺陷检测方法、装置、设备及*** | |
CN114972316A (zh) | 基于改进YOLOv5的电池壳端面缺陷实时检测方法 | |
CN112613505A (zh) | 一种基于深度学习的细胞微核识别、定位和计数方法 | |
CN114881998A (zh) | 一种基于深度学习的工件表面缺陷检测方法及*** | |
CN115526863A (zh) | 一种圆柱型锂电池表面缺陷检测方法及装置 | |
CN117455917A (zh) | 一种蚀刻引线框架误报库建立及误报在线判定筛选方法 | |
CN116363136B (zh) | 一种机动车部件自动化生产在线筛选方法及*** | |
CN114863426B (zh) | 一种目标特征注意力与金字塔相耦合的微小目标检测方法 | |
CN112179846A (zh) | 一种基于改进Faster R-CNN的预制凸窗缺陷检测*** | |
Zhang et al. | Design of tire damage image recognition system based on deep learning | |
KR101782366B1 (ko) | 스케일 보정을 통한 표본 정규화가 수행되는 학습기반의 비전검사 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhang Taohong Inventor after: Li Qianqian Inventor after: Guo Xuxu Inventor before: Zhang Taohong Inventor before: Chen Saian Inventor before: Chen Han |
|
GR01 | Patent grant | ||
GR01 | Patent grant |