CN113658176B

CN113658176B - 基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法

Info

Publication number: CN113658176B
Application number: CN202111042320.XA
Authority: CN
Inventors: 韩琦; 侯明阳; 翁腾飞; 陈国荣; 杨恒; 武宸; 王洪艺; 田升; 解燕; 张澳; 张崟溧
Original assignee: Chongqing University of Science and Technology
Current assignee: Chongqing University of Science and Technology
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2023-11-07
Anticipated expiration: 2041-09-07
Also published as: CN113658176A

Abstract

本发明公开了一种基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法，对收集到的瓷砖缺陷图像进行变换、特征提取，随后进行对齐，获得差分图像，结合缺陷图像与差分图像构成数据集，随后进行缺陷标注，按比例划分训练集测试集。确定优化方法及损失函数，将所构建的瓷砖表面缺陷检测神经网络以端到端的方式进行训练，获得训练好的检测神经网络对待检测瓷砖图像进行缺陷类别与缺陷位置预测，随后使用非极大值抑制获得最终结果。本发明提高了瓷砖缺陷检测的精度；本方法对瓷砖表面缺陷进行检测的方法流程可以应用到其他类型的表面缺陷检测框架中提高检测精度，通用性强。

Description

基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法

技术领域

本发明涉及缺陷图像识别技术领域，具体涉及一种基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法，尤其适用于轻量级瓷砖的检测。

背景技术

不同类型瓷砖生产不同，但都存在瓷砖表面图像缺陷问题，以抛釉砖为例，经过原材料混合研磨、脱水、压胚、喷墨印花、淋釉、烧制、抛光，最后进行质量检测和包装。得益于产业自动化的发展，目前生产环节已基本实现无人化。

而质量检测环节仍大量依赖人工完成。一般来说，一条产品线需要配2～6名质检工，长时间在高光下观察瓷砖表面寻找瑕疵。这样导致质检效率低下、质检质量层次不齐且成本居高不下。瓷砖表面检测是瓷砖行业生产和质量管理的重要环节，也是困扰行业多年的技术瓶颈。

发明内容

针对上述问题，本发明的目的在于提供一种基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法，其目的在于通过多尺度特征融合获取更多的多尺度特征信息来丰富表征能力，通过交互注意力加大缺陷部位的权重来提高缺陷检测精度，提升瓷砖表面瑕疵质检的效果和效率，降低对人工的依赖。

本发明提供了一种基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法，具体做法如下：

利用工业相机采集到的瓷砖高分辨率图像，建立瓷砖缺陷图像库；

将图像库中的图像进行裁剪，随后将瓷砖缺陷图像库中待标注的缺陷图像，同无缺陷的标准瓷砖图像进行图像对齐，将标准瓷砖图像与缺陷图像通过变换处理对齐到相同角度和位置，最后获得对齐后的差分图像，具体方法为：

先将缺陷图像与无缺陷的标准瓷砖图像分别都转化为灰度图。

再对缺陷图像与无缺陷的标准瓷砖图像这两张灰度图像进行亮度与对比度上的对齐。

使用SURF特征提取算子，首先对两张灰度图进行特征提取，后进行特征点匹配，获得透视变换矩阵L，将图像投影到一个新的视平面，其变换公式为：

其中[x',y',l']是变换后的坐标，[u,v,l]是变换前的坐标，其中本专利处理二维图像，所以原坐标的l恒为1。则为变换之后的图像像素坐标。透视变换矩阵解释如下图：

T₂＝[a₁₃ a₂₃]^T

T₃＝[a₃₁ a₃₂]

L表示透视变换矩阵，其中a_ij表示计算出的变换矩阵中的每个数值标量，其中T₁矩阵表示图像线性变换，T₂向量用于产生图像透视变换，T₃向量表示图像平移。经过变换从而使缺陷图像与无缺陷的标准瓷砖图像对齐，使用透视变换矩阵将无缺陷的标准瓷砖图像与缺陷图像对齐，将变换后的无缺陷的标准瓷砖图像与缺陷图像的灰度图进行差分，对两幅图像进行对应位置的像素值相减操作，获得差分后的图像像素矩阵。

对预处理后的瓷砖缺陷图像库中缺陷图像进行缺陷类别标注，并将标注后的缺陷图像预处理后按分为训练集和测试集；

使用随机旋转、随机平移、随机翻转、随机剪裁对缺陷图像进行随机的不同角度旋转，垂直、水平方向翻转，随机方向平移，另外还对缺陷图像进行随机剪裁部分区域，增强图像表征能力。

针对边缺陷、角缺陷等依赖几何图形的缺陷进行增强，针对白色点瑕疵、浅色块瑕疵、深色点块瑕疵、光圈瑕疵等缺陷使用了亮度、对比度、色相等增强方式。

再建立基于的轻量级瓷砖表面缺陷的目标检测神经网络，具体做法为：

使用获得的增强后的训练集与缺陷标注信息作为输入，使用对齐模块对训练图像进行对齐，获得差分图像，利用特征提取神经网络分别对差分图像与原缺陷图像分别进行特征提取。

特征提取模块使用了EffNet的特征提取神经网络，对差分图像与原缺陷图像进行特征提取，其中模块公式如下：

E(x)＝f^2×1(f^3×1(MaxPool(f^1×3(f^1×1(x)))))

其中f^a×b为卷积核为a×b的卷积操作，MaxPool为最大池化，池化操作是将数据划分为若干2*2大小的区域，取其小区域的最大值其余舍去构成新的数据，平均池化则是取其2*2区域平均数构成新的数据。

EffNet神经网络可以显著减少计算负担，同时提高精度，使模型更轻量化。

随后使用FPN特征金字塔神经网络，提取出不同尺度特征，使用矩阵求和的形式将两种图像的不同尺度特征融合，获得融合后的多尺度特征。将图像采用几次卷积操作，获取不同大小的特征图，其后使用反卷积将最后的特征图，通过放大到和浅层的特征图一样的尺寸后，和卷积提取的同样大小的特征图元素相加，最后的得到融合多尺度的三种特征图predict。

FPN神经网络采用特征金字塔做目标检测，通过自下而上的神经网络来提取不同神经网络层的特征图，得到特征金字塔，再通过自上而下的神经网络将不同层的特征图融合到一起；融合了多尺度的特征包含了具有不同感受野的大量图像信息，详细操作公式如下：

Ci为经过i次的特征提取所获得的特征图，其中f^a×b为卷积核为a×b的卷积操作，upsample^2×2为卷积核为2×2的反卷积操作，Pi为卷积获得的特征图与反卷积获得的特征图融合的新特征图，它融合了多尺度的特征。

感受野指的是一个特定的卷积特征在输入空间所受影响的区域。第k层的感受野计算方法如下：

其中l_k为第k-1层对应的感受野大小，f_k为第k层的卷积核大小，或者是池化层的池化尺寸大小，s_i为卷积的步长大小。

通过交互注意力模块对融合后的多尺度特征进行，交互注意力的操作，此模块可进一步加强缺陷部分的权重。交互注意力模块包括空间注意力与通道注意力及自交互模块，混合了两种注意力及自交互机制的交互注意力模块可进一步增强其缺陷特征表现能力：

通道注意力：对H×W×C维度的特征图，进行一个空间的全局最大池化(SMaxPool)和全局平均池化(SAvgPool)得到两个1×1×C的通道描述。其中平均池化与最大池化策略如图4所示进行操作。

接着，再将所提取的第二差分图像与原缺陷图像的特征图分别送入一个两层的神经网络，这个两层的神经网络是共享的，将其全局最大池化(SMaxPool)和全局平均池化(SAvgPool)得到两个1×1×C的通道描述，使用同一个两层的神经网络进行训练，表示为MLP，其中W₁和W₀为要神经网络训练的权值向量，x为第二差分图像与原缺陷图像，其表达式如下：

MLP(x)＝W₁(W₀(x))

使用激活函数Relu，其表达式如下：

再将得到的两个特征相加后经过一个归一化指数函数Sigmoid得到权重系数，其表达式如下：

最后，与输入的特征图Pi相乘得到叠加权重系数后的新的特征图P'i，最终表达式如下：

P'i＝Pi*(S(R(MLP(SAvgPool(Pi)))+R(MLP(SMaxPool(Pi)))))

空间注意力：对H×W×C维度的特征图，进行一个通道维度的最大池化(CMaxPool)和平均池化(CAvgPool)得到两个H×W×1的通道描述，并将这两个通道描述拼接在一起形成H×W×2的通道描述。经过一个7×7的卷积操作K，用Sigmoid来得到权重系数。最后，与输入的特征相乘即可得到叠加权重系数后的新特征，公式如下：

P”i＝P'i*K([CAvgPool(P'i)；CMaxPool(P'i)])

自交互：对上一步获取到的H×W×C维度的特征图P”i，将其与其对应的H×W×C维度的特征图转置相乘，其表达式如下：

P”'i＝P”i*(P”i)^T

其中T表示矩阵的转置操作，可得到进一步扩展特征的自交互特征图P”'i。结合通道信息的增强，空间信息的增强，以及自交互中自身信息的增强，可进一步对特征图中缺陷区域加以关注。

使用RPN神经网络，产生获得边界框并预测偏移结合真实标注的边界框进行筛选和预测偏移结合得到新的候选边界框。RPN神经网络专门用来提取候选框，相对于传统方法耗时少，易于与目标检测方法结合。将上一步所获得的特征图传入RPN，以每张特征图上的每个像素按照不同大小及长宽比对应到原图，根据实际需求，产生M个初始边界框的(x,y,w,h)，计算相对于标注的真实边界框B的位置偏移量和类别，根据类别分数超过阈值的为正样本，低于阈值的舍弃。

根据公式：

A_N(x)＝f^3×3(f^1×1(P”'i))

其中f^a×b为卷积核为a×b的卷积操作，A_N(x)所输出的计算结果为位置偏移量和类别(Δx,Δy,Δw,Δh,c)，其中Δx、Δy为边界框中心点坐标偏移量，Δw、Δh为边界框长、宽的偏移量，c指边界框内图片包含的缺陷类别。

利用以上获得的缺陷类别特征向量c通过全连接层来压缩通道，将通道数压缩为缺陷类别数，得到每个候选框的类别分数，最大类别分数对应的类别即为预测的缺陷类别；对类别分数通过归一化指数函数Sigmoid，处理后可以得到每个缺陷类别的预测概率。公式如下：

S_(c)＝1/(1+e^-c)

class＝S(c)

使用真实标注的边界框与真实类别，结合交叉熵损失函数，其损失值计算表达式如下：

其中，N为类别的数量，y_ic为符号函数取值为0或1，如果样本i的真实类别等于c则取1，否则取0，class_ic为观测样本i属于缺陷类别的预测概率。

针对于测试图像，使用训练好的神经网络，获得预测的类别信息与位置信息，随后进行非极大值抑制，此操作的意义是为了判别哪些边界框是没用的，并去除它，非极大值抑制处理方法为：

经过阈值的筛选将偏移量应用于所有预测的候选边界框，如下公式所示：

然后根据新的候选边界框(x',y',w',h',c)的IOU分数进行排序，只取前几个分数最高的候选边界框，IOU公式如下：

其中A为预测的候选边界框，B为真实边界框。

根据IOU所得分数，可以得到边界框集合A中哪些边界框重叠度比较高，设阈值为0.5，IOU值如果小于0.5则丢弃，IOU值如果大于0.5则保留，重复的边界框操作，通过此过程最后可获得最终边界框集合。

边界框通过RPN神经网络进行筛选和预测偏移后，得到新的框为候选框。

将候选框的特征向量通过全连接层来压缩通道，将通道数压缩为缺陷类别数，得到每个候选框的类别分数，最大类别分数对应的类别即为预测的缺陷类别；对类别分数通过归一化指数函数Sigmoid，处理后可以得到每个缺陷类别的预测概率。

最后结合真实值与预测值之间的损失函数对神经网络进行优化，对整个神经网络进行端对端的优化训练，损失函数包括分类分支的分类损失函数和回归分支的回归损失函数相加构成。针对于测试图像，使用训练好的神经网络，获得预测的类别信息与位置信息，随后进行非极大值抑制，而后获得结果。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明提供的基于交互注意力的轻量级瓷砖表面缺陷的瓷砖表面缺陷检测方法，针对瓷砖领域缺陷检测特点进行神经网络设计，结合无缺陷的标准瓷砖图像预处理缺陷图像获得差分图像，使用原图加差分图像分别进行多尺度特征的提取，并进一步进行融合，以此针对瓷砖领域小目标缺陷识别精度低的问题予以解决，其次本发明使用了交互注意力处理多尺度特征图，可进一步针对，包括小目标缺陷、条状缺陷、块状缺陷在内的缺陷，将其通过两种交互注意力结合的方式提高缺陷区域的权重，从而提高检测精度，消除了对人工的依赖。

附图说明

图1是总流程图；

图2是预处理图像对齐模块流程图；

图3是交互注意力模块流程图；

图4是最大池化与平均池化的策略；

图5是FPN结构；

图6是卷积操作与反卷积操作示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。

为实现上述目的，本发明提供了一种基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法，总流程图如图1，具体做法如下：

将图像库中的图像进行裁剪，随后将瓷砖缺陷图像库中待标注的缺陷图像，同无缺陷的标准瓷砖图像进行图像对齐，将标准瓷砖图像与缺陷图像通过变换处理对齐到相同角度和位置，对齐模块如图2所示，最后获得对齐后的差分图像，具体方法为：

T₂＝[a₁₃ a₂₃]^T

T₃＝[a₃₁ a₃₂]

E(x)＝f^2×1(f^3×1(MaxPool(f^1×3(f^1×1(x)))))

其中f^a×b为卷积核为a×b的卷积操作，MaxPool为最大池化，池化操作原理如图4所示，将数据划分为若干2*2大小的区域，取其小区域的最大值其余舍去构成新的数据，平均池化则是取其2*2区域平均数构成新的数据。

随后使用FPN特征金字塔神经网络，提取出不同尺度特征，使用矩阵求和的形式将两种图像的不同尺度特征融合，获得融合后的多尺度特征。如图5所示为FPN结构，将图像采用几次卷积操作，获取不同大小的特征图，其后使用反卷积将最后的特征图，通过放大到和浅层的特征图一样的尺寸后，和卷积提取的同样大小的特征图元素相加，最后的得到融合多尺度的三种特征图predict，其中卷积与反卷积操作如图6所示。

通过交互注意力模块对融合后的多尺度特征进行，交互注意力的操作，其流程如图3所示，此模块可进一步加强缺陷部分的权重。交互注意力模块包括空间注意力与通道注意力及自交互模块，混合了两种注意力及自交互机制的交互注意力模块可进一步增强其缺陷特征表现能力：

MLP(x)＝W₁(W₀(x))

使用激活函数Relu，其表达式如下：

P'i＝Pi*(S(R(MLP(SAvgPool(Pi)))+R(MLP(SMaxPool(Pi)))))

P”i＝P'i*K([CAvgPool(P'i)；CMaxPool(P'i)])

P”'i＝P”i*(P”i)^T

使用RPN神经网络，产生获得边界框并预测偏移结合真实标注的边界框进行筛选和预测偏移结合得到新的候选边界框。

将上一步所获得的特征图传入RPN，以每张特征图上的每个像素按照不同大小及长宽比对应到原图，根据实际需求，产生M个初始边界框的(x,y,w,h)，计算相对于标注的真实边界框B的位置偏移量和类别，根据类别分数超过阈值的为正样本，低于阈值的舍弃。

根据公式：

A_N(x)＝f^3×3(f^1×1(P”'i))

S_(c)＝1/(1+e^-c)

class＝S(c)

针对于测试图像，我们使用训练好的神经网络，获得预测的类别信息与位置信息，随后进行非极大值抑制，此操作的意义是为了判别哪些边界框是没用的，并去除它，非极大值抑制处理方法为：

其中A为预测的候选边界框，B为真实边界框。

根据IOU所得分数，可以得到边界框集合A中哪些边界框重叠度比较高，如果重叠程度小于阈值0.5，则丢弃，大于阈值0.5，则保留，并重复的边界框操作，通过此过程最后可获得最终边界框集合。

将候选框的特征向量通过全连接层来压缩通道，将通道数压缩为缺陷类别数，得到每个候选框的类别分数，最大类别分数对应的类别即为预测的缺陷类别；对类别分数通过归一化指数函数Sigmoid，处理后可以得到每个缺陷类别的预测概率。使用该损失函数实现了对整个神经网络的优化训练。

最后结合真实值与预测值之间的损失函数对神经网络进行优化，对整个神经网络进行端对端的优化训练，损失函数包括分类分支的分类损失函数和回归分支的回归损失函数相加构成。针对于测试图像，我们使用训练好的神经网络，获得预测的类别信息与位置信息，随后进行非极大值抑制，而后获得结果。

本发明提供的基于交互注意力的轻量级瓷砖表面缺陷的瓷砖表面缺陷检测方法，针对瓷砖领域缺陷检测特点进行神经网络设计，结合无缺陷的标准瓷砖图像预处理缺陷图像获得差分图像，使用原图加差分图像分别进行多尺度特征的提取，并进一步进行融合，以此针对瓷砖领域小目标缺陷识别精度低的问题予以解决，其次本发明使用了交互注意力处理多尺度特征图，可进一步针对，包括小目标缺陷、条状缺陷、块状缺陷在内的缺陷，将其通过两种交互注意力结合的方式提高缺陷区域的权重，从而提高检测精度。

Claims

1.一种基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法，其特征在于，包括以下步骤：

步骤1，利用工业相机采集到的瓷砖高分辨率图像，建立瓷砖缺陷图像库；

步骤2，将图像库中的图像进行裁剪，随后将瓷砖缺陷图像库中待标注的缺陷图像，同无缺陷的标准瓷砖图像进行图像对齐，将标准瓷砖图像与缺陷图像通过变换处理对齐到相同角度和位置，最后获得对齐后的差分图像；

步骤3，对预处理后的瓷砖缺陷图像库中缺陷图像进行缺陷类别标注，并将标注后的缺陷图像预处理后分为训练集和测试集；

步骤4，采用数据增强技术对训练集和测试集中的缺陷图像进行增强；

步骤5，建立基于交互注意力与卷积神经网络的轻量级瓷砖表面缺陷的目标检测神经网络；

步骤6，将经过预处理并增强后的缺陷图像输入到目标检测神经网络中，对目标检测神经网络进行训练，获得优化后的目标检测神经网络；

步骤7，在线采集瓷砖表面图像，并基于优化后的目标检测神经网络对瓷砖进行缺陷检测，若存在缺陷则检测到缺陷目标位置并获得目标缺陷类别；

所述步骤5中，

步骤5.1，使用获得的增强后的训练集与缺陷标注信息作为输入，再次使用步骤2中的对齐模块对训练图像与无缺陷标准瓷砖图像进行对齐，获得第二差分图像；

步骤5.2，利用特征提取神经网络分别对第二差分图像与原缺陷图像分别进行特征提取，特征提取模块使用EffNet的特征提取神经网络，该特征提取模块公式如下：

E(x)＝f^2×1(f^3×1(MaxPool(f^1×3(f^1×1(x)))))

其中f^a×b为卷积核为a×b的卷积操作，MaxPool为最大池化，x为第二差分图像与原缺陷图像；

步骤5.3，随后使用FPN特征金字塔神经网络，提取出不同尺度特征，使用矩阵求和的形式将第二差分图像与原缺陷图像的不同尺度特征融合，具体公式为：

Ci为经过i次的特征提取所获得的特征图，upsample^2×2为卷积核为2×2的反卷积操作，Pi为卷积获得的特征图与反卷积获得的特征图融合的新特征图；

E为特征提取模块公式；

步骤5.4，通过交互注意力模块对所述新特征图Pi进行交互注意力的操作，再将所提取的第二差分图像与原缺陷图像的特征图分别送入一个两层的神经网络，这个两层的神经网络是共享的，使用同一个两层的神经网络进行训练，表示为MLP，随后使用激活函数Relu，再将得到的两个特征相加后经过归一化指数函数Sigmoid处理，得到权重系数，与输入的特征Pi相乘得到叠加权重系数后的新的特征P'i，最终表达式如下：

P'i＝Pi*(S(R(MLP(SAvgPool(Pi)))+R(MLP(SMaxPool(Pi)))))

S为归一化指数函数Sigmoid的简写，R为激活函数Relu的简写；

SAvgPool为全局平均池化，SMaxPool为全局最大池化，CAvgPool为平均池化，CMaxPool为最大池化；

经过7×7的卷积操作K，激活函数为Sigmoid，得到权重系数，与输入的特征P'i相乘即可得到叠加权重系数后的新特征图P”i，公式如下：

P”i＝P'i*K([CAvgPool(P'i)；CMaxPool(P'i)])

对获取到的H×W×C维度的新特征图P”i，将其与其对应的H×W×C维度的特征图转置相乘，其表达式如下：

P”'i＝P”i*(P”i)^T

其中T表示矩阵的转置操作；

步骤5.5，将所获得的特征图P'''i传入RPN神经网络得到新的候选边界框，按照每张特征图上的每个像素按照不同大小及长宽比对应到原图，根据人为设置，产生M个初始边界框的(x,y,w,h)，计算相对于真实边界框B的位置偏移量和类别，根据超过阈值的为正样本，低于阈值的舍去，根据公式：

A_N(x)＝f^3×3(f^1×1(P”'i))

A_N(x)所输出的计算结果为位置偏移量和类别(Δx,Δy,Δw,Δh,c)，其中Δx、Δy为边界框中心点坐标偏移量，Δw、Δh为边界框长、宽的偏移量，c指边界框内图片包含的缺陷类别特征向量，经过阈值的筛选将偏移量应用于所有预测的候选边界框，如下公式所示：

然后根据新的候选边界框(x',y',w',h',c)的IOU分数进行排序，只取前几个分数最高的作为候选边界框A，IOU公式如下：

其中A为预测的候选边界框，B为真实边界框。

2.根据权利要求1所述的基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法，其特征在于：所述步骤2中，瓷砖图像库由工业相机采集的高分辨率图像组成，主要数据为瓷砖图像，缺陷种类有8类，包括边缺陷、角缺陷、白色点瑕疵、浅色块瑕疵、深色点块瑕疵、光圈瑕疵、记号笔以及划伤，数据包含有缺陷图片、无缺陷图片和标注数据，标注数据标注缺陷位置和类别信息。

3.根据权利要求1所述的基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法，其特征在于：所述步骤2中，缺陷检测方法的步骤为：

步骤2.1，将缺陷图像与无缺陷的标准瓷砖图像分别都转化为灰度图；

步骤2.2，其次对缺陷图像与无缺陷的标准瓷砖图像的灰度图像进行亮度与对比度上的对齐；

步骤2.3，对两张灰度图进行特征提取，使用SURF特征提取算子，后进行特征点匹配，获得透视变换矩阵L，将图像投影到一个新的视平面，其变换公式为：

其中[x',y',l']是变换后的坐标，[u,v,l]是变换前的坐标，由于灰度图为二维图像，所以原坐标的l恒为1，则为变换之后的图像像素坐标，透视变换矩阵解释如下图：

T₂＝[a₁₃ a₂₃]^T

T₃＝[a₃₁ a₃₂]

L表示透视变换矩阵，其中a_ij表示计算出的变换矩阵中的每个数值标量，其中T₁矩阵表示图像线性变换，T₂向量用于产生图像透视变换，T₃向量表示图像平移，经过变换从而实现缺陷图像与无缺陷的标准瓷砖图像对齐；

步骤2.4，将对齐后的无缺陷标准瓷砖图像与缺陷图像的灰度图进行差分，获得差分后的图像像素矩阵。

4.根据权利要求1所述的基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法，其特征在于：所述步骤4中：

步骤4.1，使用随机旋转、随机平移、随机翻转、随机剪裁对缺陷图像进行随机的角度旋转，垂直、水平方向翻转，随机方向平移，另外还对缺陷图像进行随机剪裁部分区域，从而增强图像表征能力；

步骤4.2，使用色彩变换和直方图均衡化方式，针对边缺陷、角缺陷依赖几何图形的缺陷进行增强，针对白色点瑕疵、浅色块瑕疵、深色点块瑕疵、光圈瑕疵缺陷使用了亮度、对比度、色相增强方式。

5.根据权利要求1所述的基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法，其特征在于：所述步骤5.4中的缺陷类别特征向量c通过全连接层来压缩通道，将通道数压缩为缺陷类别数，得到每个候选框的类别分数，最大类别分数对应的类别即为预测的缺陷类别；对类别分数通过归一化指数函数处理后得到每个缺陷类别的预测概率，公式如下：

class＝S(c)

再使用真实边界框B与真实类别，结合交叉熵损失函数，其损失值计算表达式如下：