CN115439458A

CN115439458A - 基于深度图注意力的工业图像缺陷目标检测算法

Info

Publication number: CN115439458A
Application number: CN202211147850.5A
Authority: CN
Inventors: 都卫东; 张鹏; 杨飞
Original assignee: Focusight Technology Co Ltd
Current assignee: Focusight Technology Co Ltd
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2022-12-06

Abstract

本发明涉及一种基于深度图注意力的工业图像缺陷目标检测算法，包括以下步骤，S1、收集彩色RGB图像和对应的深度图像；S2、对采集到的彩色RGB图像进行目标框标注，生成标注文件；S3、获得深度图的距离信息图；S4、划分训练集和验证集，再分别进行数据增广操作；S5、利用划分好的数据集训练所优化后的深度注意力YOLOX目标检测网络；S6、利用训练好的模型实现工业缺陷目标检测。本发明将传统算法提取深度图获得距离信息图与深度学习提取RGB特征图进行融合，具有推理速度快，目标分类精度高，目标框置信度高位置准确等特点；能够有效提高缺陷目标检测准确率，提高生产线效率。

Description

基于深度图注意力的工业图像缺陷目标检测算法

技术领域

本发明涉及图像视觉检测技术领域，尤其是一种基于深度图注意力的工业图像缺陷目标检测算法。

背景技术

随着科学技术的发展，工业生产也逐渐步入智能化时代。工业智能化所需的智能设备和生产的产品，往往都需要去检测器完整性和功能性。以前常常通过人工来对工业零件进行质量评估，这不仅需要大量的劳动力，而且包含很多的主观性影响其客观结果。同一工件也存在多种多样的缺陷，缺陷形态也多种多样，长时间保质保量的缺陷检测对于检测人员来说，也是一种巨大的考研。因此，如何快速准确对工业零件表面进行缺陷目标识别获得了业内极大地关注。

近年来，目标检测技术取得了重大的进展。传统的目标检测方法主要通过阈值分割，边缘检测，曲线拟合等技术手段来找寻缺陷目标。随着深度学习的蓬勃发展，很多科研人员也使用深度学习来实现目标检测问题。近几年，目标检测方法也出现了许多，大致可以分为one stage方法和two stage方法两种类别。one stage方法直接回归物体的类别概率和位置坐标值，速度较快，常使用的模型主要包括：YOLO系列，SSD系列。Two stage方法先由算法生成一系列作为样本的候选框，再通过卷积神经网络进行样本分类，常使用的模型主要包括：RCNN，Fast_RCNN，Faster_RCNN以及其他后续优化模型。

但是，传统目标检测算法的准确度低，抗干扰能力弱，不常被使用在工业缺陷目标检测领域。基于深度学习的目标检测算法，准确率能有较大提升。但Two Stage方法由于需要生成诸多候选框，会严重影响检测时间，不能满足工业环境实时监测的需求。而OneStage方法直接拟合缺陷目标类别以及位置信息，速度快精准率高，获得了工业表明缺陷目标检测的青睐。不过，工件表面缺陷的形态多种多样，大小也相距胜远，因此现有的目标检测算法尚不能满足细小缺陷的检测任务。

发明内容

本发明要解决的技术问题是：提供一种基于深度图注意力的工业图像缺陷目标检测算法，按照工业零件的质量检测要求，通过3D相机获取工件彩色RGB图像和深度图像，在图像上进行实时的表面缺陷目标检测，以区分正常样本和缺陷样本；具有推理速度快，目标分类精度高，目标框置信度高位置准确等特点；能够有效提高缺陷目标检测准确率，提高生产线效率。

本发明解决其技术问题所采用的技术方案是：一种基于深度图注意力的工业图像缺陷目标检测算法，包括以下步骤，

S1、通过3D相机，在固定工位上对工业零件进行拍照采集，收集彩色RGB图像和对应的深度图像；

S2、使用标注工具对采集到的彩色RGB图像进行目标框标注，生成标注文件；

S3、对采集到的深度图像进行去噪、滤波操作，去除噪声干扰；然后通过阈值分割，将异于背景的部分分割出来，对背景赋小值，前景赋大值；通过归一化操作获得（0,1）区间的距离信息图，用于后续对特征进行加权；

S4、将彩色RGB图像、目标框标注文件和对应的距离信息图进行收集，按照设定的比例划分训练集和验证集，再对划分好的数据集分别进行数据增广操作；

S5、利用划分好的数据集训练所优化后的深度注意力YOLOX目标检测网络；

S6、采集待检测工件的彩色RGB图像和对应的深度图像，经预处理后送入训练好的模型中，实现工业缺陷目标检测的识别。

进一步的说，本发明所述的步骤S2中，对采集到的彩色RGB图像进行标注，获得不同缺陷的目标检测框，检测框包含缺陷类别属性。

进一步的说，本发明所述的步骤S4中，包括以下步骤，

S401：将处理深度图获得的距离信息图像与其对应的彩色RGB图像作为组合，标签以labelme的标签形式进行存储，一起制作数据集，并按照8:2的比例随机划分为训练集和验证集；

S402：对训练集和验证进行数据增广操作；将调整大小后得到的彩色RGB图像，通过旋转、翻转、随机噪声和/或颜色变换的数据增强操作来扩充数据集；当图像在旋转和翻转操作时，对应的距离信息图像也进行相同的操作；当图像进行随机噪声和颜色变换操作时，对应的距离信息图像不发生改变。

进一步的说，本发明所述的步骤S5中，YOLOX目标检测网络包括多模态特征提取模块、尺度特征融合模块以及预测模块三个模块；网络的输入为彩色RGB图像和距离信息图。

再进一步的说，本发明所述的多模态特征提取模块进行特征提取对输入图像进行特征提取；多模态特征提取模块的输出特征由RGB提取的特征信息与距离信息图进行加权获得，此时距离信息图会下采样到特征维度大小。

再进一步的说，本发明所述的尺度特征融合模块对多模态特征提取模块提取到的彩色RGB数据和深度图信息的三个特征数据X0、X1、X2进行多尺度的特征融合；具体为，X0特征进行上采样操作提高分辨率，然后与X1，X2特征进行特征融合，获得输出特征O2；输出特征O2进行下采样与X1特征进行特征融合，获得输出特征O1；输出特征O1特征下采样并与X0进行特征融合获得输出特征O0。

再进一步的说，本发明所述的预测模块对3个输出特征O0，O1，O2进行目标检测；先通过卷积模块进行进一步的特征提取，然后通过解耦将目标检测任务分解为分类任务和回归任务；其中分类任务将分类目标输入到具体缺陷目标类别，回归任务有两个输出目标，分别为前景背景输出和目标框输出；3个不同维度的输出特征会得到3个目标检测输出，再通过维度变化和拼接操作得到最终的输出结果。

进一步的说，本发明所述的步骤S5中，采用损失函数

优化网络；其中

是预测目标的坐标框，

是预测目标是背景还是前景，

是预测目标的类别标签。

本发明的有益效果是，解决了背景技术中存在的缺陷，

1、多模态信息融合，将彩色RGB数据与深度图进行特征融合，能够有效提高目标检测精度；

2、传统算法与深度学习算法相融合，将传统算法提取深度图获得距离信息图与深度学习提取RGB特征图进行融合，让特征更加关注于目标区域，更高效地利用多模态图像的信息，以此提高网络的准确率和目标类别的置信度。

3、基于YOLOX改进的目标检测网络速度快，能满足实时检测的要求。

附图说明

图1是本发明的缺陷目标检测算法流程图。

图2是本发明深度图注意力目标检测网络结构图。

具体实施方式

现在结合附图和优选实施例对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

如图1-图2所示的一种基于深度图注意力的工业图像缺陷目标检测算法，通过3D相机，收集工业零件的彩色RGB图像和深度图像数据集，按照工件本身是否包含缺陷以及缺陷类型，在RGB图像上进行目标框的标注，生成标注数据集；然后对深度图像进行传统算法处理，包括：滤波，阈值分割等，通过传统算法将深度图处理为（0,1）区间的距离信息图像；再构建基于YOLOX改进的目标检测网络提取彩色RGB图像的特征，将距离信息图像作为注意力权重对每层特征图像进行加权，帮助网络更好地关注缺陷目标区域；而后根据网络优化目标，通过数据集进行优化训练，获得训练好的网络模型；最后将待检测工件的彩色RGB图像和深度图像送入训练好的模型中，得到缺陷目标检测结果。

具体的，如图1所示，算法包括：

步骤S1：通过3D相机，在固定工位上对工业零件进行拍照采集，收集彩色RGB图像和对应的深度图像。

在步骤S1中，数据集的构建之前，更详细的步骤包括：

步骤S101：根据待检测设备和检测平台所处的环境，选择合适的光源和相机，并调配到最佳状态，收集每一工件的彩色RGB图像和其对应的深度图像。

步骤S2：使用Label-me等标注工具对工业图像进行目标框标注，生成标注文件。

在步骤S2中，更详细的数据标注包括：

步骤S201：采集到的工业图像一般较大，需先对彩色RGB图像和深度图像进行统一的切图操作，获得若干640*640的小图像。然后使用label-me等标注软件对采集到的彩色RGB图像进行标注，获得不同缺陷的目标检测框，检测框包含缺陷类别属性。

步骤S3：对采集到的深度图进行去噪、滤波操作，去除一些噪声干扰。然后通过阈值分割，将异于背景的部分分割出来，对背景赋小值，前景赋大值。通过归一化操作获得（0,1）区间的距离信息图，以便后续对特征进行加权。

在步骤S3中，更详细的深度图数据预处理包括：

步骤S301：首先，对相机采集到的深度图像进行去噪操作和滤波等图像操作，获得较为纯净的图像。

步骤S302：通过阈值分割将异于背景的部分区别出来，通过计算分别赋予背景和前景不同的权重，背景权重小，前景权重大。然后通过归一化将其调整到（0,1）区间成为距离信息图。

步骤S4：将彩色RGB图像、目标框的标注文件和对应的距离信息图进行收集，按照8:2的比例划分训练集和验证集，再对划分好的数据集分别进行数据增广操作。

在步骤S4中，更详细的数据集制作和数据增广操作包括：

步骤S401：将处理深度图获得距离信息图像与其对应的彩色RGB图像作为组合，标签以labelme的标签形式进行存储。一起制作数据集，并按照8:2的比例随机划分为训练集和验证集。

步骤S402：对训练集和验证进行数据增广操作。将调整大小后得到的彩色RGB图像，通过旋转、翻转、随机噪声和颜色变换等数据增强操作来扩充数据集。当图像在旋转和翻转操作时，对应的距离信息图像也进行相同的操作。当图像进行随机噪声和颜色变换等操作时，对应的距离信息图像不发生改变。

步骤S5：利用划分好的数据集训练所优化后的深度注意力YOLOX目标检测网络。

在步骤S5中，更详细的网络训练模块操作包括：

步骤S501：基于YOLOX构建深度注意力网络，所述网络的架构如图2所示。网络主要包含3个模块：多模态特征提取模块，尺度特征融合模块，预测模块，每个模块细节如图2所示。

其中，网络输入为彩色RGB图像（H,W）和距离信息图，通过多模态特征提取模块进行特征提取。值得注意的是，多模态特征提取模块的输出特征X0（H/32,W/32），X1（H/16,W/16），X2（H/8,W/8）都由RGB提取的特征信息与距离信息图进行加权获得，此时距离信息图会下采样到特征维度大小。

步骤S502：针对多模态特征提取模块提取到融合彩色RGB数据和深度图信息的三个特征数据：X0（H/32,W/32），X1（H/16,W/16），X2（H/8,W/8），本发明设计了尺度特征融合模块来进行多尺度的特征融合。

具体来说，X0特征会进行上采用操作提高分辨率，然后与X1，X2特征进行特征融合，获得输出特征O2（H/8,W/8）；O2特征会进行下采样与X1特征进行特征融合，获得输出特征O1（H/16,W/16）；O1特征也会下采样并与X0进行特征融合获得输出特征O0（H/32,W/32）。

步骤S503：针对3个输出特征O0，O1，O2，本发明采用预测模块来进行目标检测。

具体表现为通过卷积模块进行进一步的特征提取，然后通过解耦将目标检测任务分解为分类任务和回归任务。其中分类任务主要分类目标输入哪个缺陷目标，回归任务有两个输出目标，分别为前景背景输出和目标框输出。3个不同维度的输出特征会得到3个目标检测输出，再通过维度变化和拼接操作得到最终的输出结果。

为了优化整个网络，本发明采用以下损失函数优化网络：

其中

，是预测目标的坐标框，

是预测目标是背景还是前景，

是预测目标的类别标签。具体来说

为目标框损失，计算真实框与预测框的交并比，公式如下：

和

均采用交叉熵损失，其公式如下：

由于不同感兴趣区域的大小不同，数据集中的不同感兴趣区域的数据占比就会失衡，不利于双支路网络的学习。故使用加权交叉熵损失函数来优化网络，公式如下：

其中，N为类别数，

代表输入图像的真实标签，

表示网络的预测结果。

步骤S6：采集待检测工件的彩色RGB图像和对应的深度图像，经预处理后送入训练好的模型中，实现工业缺陷目标检测的识别。

在步骤S6中，利用所训练的深度图注意力网络模型对工业图像进行工业缺陷目标检测的详细操作如下：

步骤S601：对工件进行数据采集，收集其彩色RGB图像和对于深度图像，对其进行预处理，将其切分为640*640的小图，提取深度图的距离信息，与RGB图像一起送入训练好的深度图注意力网络，进行工件缺陷目标检测。

本发明提出的基于深度图注意力的工业缺陷目标检测方法，采用多模态信息融合，利用3D摄像头获取工件彩色RGB图像与深度图像，拥有更为丰富精准的信息，两种模态信息的融合，有效的提高检测精度；采用传统算法与深度学习算法相融合，使传统算法处理深度图，获取距离信息图。在深度学习算法提取彩色RGB图像特征时，引入距离信息图作为权重，帮助其更关注于前景部分，能有效提高检测准确率；解耦目标检测任务为分类任务和回归任务，降低网络优化难度和提高优化效率，能够更快地训练处精度更高的模型，节省时间提高准确率。

以上说明书中描述的只是本发明的具体实施方式，各种举例说明不对本发明的实质内容构成限制，所属技术领域的普通技术人员在阅读了说明书后可以对以前所述的具体实施方式做修改或变形，而不背离发明的实质和范围。

Claims

1.一种基于深度图注意力的工业图像缺陷目标检测算法，其特征在于：包括以下步骤，

2.如权利要求1所述的基于深度图注意力的工业图像缺陷目标检测算法，其特征在于：所述的步骤S2中，对采集到的彩色RGB图像进行标注，获得不同缺陷的目标检测框，检测框包含缺陷类别属性。

3.如权利要求1所述的基于深度图注意力的工业图像缺陷目标检测算法，其特征在于：所述的步骤S4中，包括以下步骤，

4.如权利要求1所述的基于深度图注意力的工业图像缺陷目标检测算法，其特征在于：所述的步骤S5中，YOLOX目标检测网络包括多模态特征提取模块、尺度特征融合模块以及预测模块三个模块；网络的输入为彩色RGB图像和距离信息图。

5.如权利要求4所述的基于深度图注意力的工业图像缺陷目标检测算法，其特征在于：所述的多模态特征提取模块进行特征提取对输入图像进行特征提取；多模态特征提取模块的输出特征由RGB提取的特征信息与距离信息图进行加权获得，此时距离信息图会下采样到特征维度大小。

6.如权利要求5所述的基于深度图注意力的工业图像缺陷目标检测算法，其特征在于：所述的尺度特征融合模块对多模态特征提取模块提取到的彩色RGB数据和深度图信息的三个特征数据X0、X1、X2进行多尺度的特征融合；具体为，X0特征进行上采样操作提高分辨率，然后与X1，X2特征进行特征融合，获得输出特征O2；输出特征O2进行下采样与X1特征进行特征融合，获得输出特征O1；输出特征O1特征下采样并与X0进行特征融合获得输出特征O0。

7.如权利要求6所述的基于深度图注意力的工业图像缺陷目标检测算法，其特征在于：所述的预测模块对3个输出特征O0，O1，O2进行目标检测；先通过卷积模块进行进一步的特征提取，然后通过解耦将目标检测任务分解为分类任务和回归任务；其中分类任务将分类目标输入到具体缺陷目标类别，回归任务有两个输出目标，分别为前景背景输出和目标框输出；3个不同维度的输出特征会得到3个目标检测输出，再通过维度变化和拼接操作得到最终的输出结果。

8.如权利要求1所述的基于深度图注意力的工业图像缺陷目标检测算法，其特征在于：所述的步骤S5中，采用损失函数

优化网络；其中

是预测目标的坐标框，

是预测目标是背景还是前景，

是预测目标的类别标签。