CN116645514A

CN116645514A - 一种改进U2-Net的瓷砖表面缺陷分割方法

Info

Publication number: CN116645514A
Application number: CN202310754771.9A
Authority: CN
Inventors: 黄进; 包锐; 王逢港; 谢艺玮; 方铮; 冯义从; 李剑波; 荣鹏; 郭伦; 翟树红
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2023-08-25

Abstract

本发明涉及一种改进U²‑Net的瓷砖表面缺陷分割方法，属于显著性目标分割技术领域。为了克服现有技术中存在的缺陷，本发明旨在提供一种改进U²‑Net的瓷砖表面缺陷分割方法，包括获取瓷砖表面缺陷检测数据集；构建基于U²‑Net的瓷砖表面缺陷分割网络模型；通过训练集对瓷砖表面缺陷分割网络模型进行不断迭代训练，直到网络最终收敛，得到训练好的瓷砖表面缺陷分割网络模型；将待处理的图片输入到训练好的瓷砖表面缺陷分割网络模型中，得到分割的目标。本发明构建面向瓷砖表面缺陷目标分割的基于编解码结构及多尺度特征融合的深度学习网络模型，以提高对瓷砖表面缺陷的分割效果。

Description

一种改进U2-Net的瓷砖表面缺陷分割方法

技术领域

本发明涉及一种改进U²-Net的瓷砖表面缺陷分割方法，属于显著性目标分割技术领域。

背景技术

显著性目标分割又叫显著性目标检测，主要目标为区分图像中最明显的区域。通过提取出图像中的目标区域来进行分析。目前在场景物体分割、人体前景分割、人脸人体parsing、三维重建技术等在智能安防、无人驾驶、安防监控等领域应用广泛。

传统的显著性目标检测算法整体上主要都是基于低级视觉特征的，包括中心偏差、对比度先验和背景先验等。Achanata等人分别对亮度和颜色两种低级特征处理，使用高斯差分函数来进行频域滤波，从而来计算当前像素与其周围不同大小的域中像素的对比度，以此确定图像像素的显著值。Klein等人是利用信息论中的K-L散度去衡量图像的特征空间的中心位置于其周围特征的差异。这些算法都是从考虑局部像素对比的方面，它在检测目标的边缘信息时能有很好的表现，但是对目标整体很难实现检测。而基于全局对比的检测算法则是计算像素区域相对于图像里所有像素的对比，这样能够将显著目标的具***置检测出来。如Wei等人将背景连接度的概念提出，在他们的方法中用来获取有效范围并且计算图像显著性的就是全局对比度。在高等人的方法中，先获得超像素分割后的图像，然后在CIELab颜色空间中计算纹理细节和图像的全局对比度，借助了多核增强学***滑性，然后给这些块的唯一特殊性和空间分布情况计算评估，根据评估度量结果生成图像的显著性图。此外还有研究人员通过构建图模型来进行图像像素的显著值计算。Yang等人据此提出了基于流型排序的SOD算法。他们的做法是首先采用超像素分割图片，然后选取合适的背景种子点，其他节点和种子点之间可以计算相似度，不同大小的排序的到初始显著图，再将它作为前景种子点，再次计算相似度再排序得到结果显著图。但是这种算法最后是否能很好地检测出显著图和种子点的选取十分相关。Yuan等人提出了一个显著性反转校正过程，去除边界附近的前景超像素，防止显著反转，从而提高基于边界先验的显著性预测的准确性和鲁棒性。Shan等人利用背景权重图为流形排序提供种子，并且利用一个三阶光滑性框架来提高流形排序的性能。在Wu等人针对先前存在的方法在检测一些背景对比度低的图片时可能遗漏目标区域的问题，提出了一种新的传播模型，该模型考虑到了利用变形平滑约束。该模型局部正则化图像的节点和它周围的点，然后使用变形的平滑约束阻止可能出现错误的结果传播下去。

总之，基于传统的目标检测算法大多提取的特征比较简单，并且对图片显著值的训练过程也不是很复杂，目前在许多场景下也有着比较好的性能。然而在大量的数据集和实际场景图像中，需要检测的环境和图片情况变得越来越复杂，检测性能和检测速率的要求在增高，基于传统的方法逐渐难以满足这些要求。

发明内容

为了克服现有技术中存在的缺陷，本发明旨在提供一种改进U²-Net的瓷砖表面缺陷分割方法。

本发明解决上述技术问题所提供的技术方案是：一种改进U²-Net的瓷砖表面缺陷分割方法，包括以下步骤：

步骤S1、获取瓷砖表面缺陷检测数据集，并将其分为训练集与测试集；

步骤S2、构建基于U²-Net的瓷砖表面缺陷分割网络模型；

所述瓷砖表面缺陷分割网络模型为六层U型结构，包括6级编码器、5级解码器、2级多尺度特征融合模块及显著图融合模块；

其中前4个编码器及对应的4个解码器由特征提取结构DCRSU构成，每个DCRSU的层数随着encoder和decoder的层数的增加而减少，即前4个编码器使用的分别是DCRSU-7、DCRSU-6、DCRSU-5、DCRSU-4，前4个解码器同理如此；

第5个编码器及对应的解码器采用的就是RSU-4F；

第6个编码器引入SKnet作为最深一层的编码器；

分别在第5个解码器和第4个解码器的输入引入2个改进注意力门模块，将第6个编码器与第5个编码器输出的特征进行融合输入第5个解码器，将第4个编码器与第5个解码器输出的特征进行融合输入第4个解码器；然后使用3×3卷积和sigmoid函数从第6个编码器、第5个解码器、第4个解码器、第3个解码器、第2个解码器和第1个解码器生成6个输出显著概率图；然后将输出的显著图的逻辑图向上采样至于输入图像大小一致，并通过级联操作相融合；最后通过1×1卷积层和sigmoid函数，以生成最终的显著性概率映射图；

步骤S3、通过训练集对瓷砖表面缺陷分割网络模型进行不断迭代训练，直到网络最终收敛，得到训练好的瓷砖表面缺陷分割网络模型；

步骤S4、将待处理的图片输入到训练好的瓷砖表面缺陷分割网络模型中，得到分割的目标。

进一步的技术方案是，所述步骤S10中训练集与测试集按4：1进行划分。

进一步的技术方案是，所述DCRSU由输入卷积层、编码器、解码器和残差结构4部分组成；

输入卷积层用于提取局部特征和转换通道；

编码阶段，最后一个编码器采用卷积+批量归一化+ReLU激活函数结构，倒数第2层采用深度可分离卷积+批量归一化+ReLU激活函数结构；其余编码器利用残差结构将深度可分离卷积提取的特征和经注意力机制模块处理的输入特征相加后再输入下一个特征提取层进行特征提取,使得每级输出特征可以在聚焦于具有更多有效特征信息通道，加强每一级有效特征的提取能力并获取多尺度特征信息；

残差结构将输入层和中间层进行融合，对两个不同尺度的特征进行一个拼接；

解码阶段，解码器模块将经过拼接的特征图，经过一个3×3卷积一个批量归一化层和Relu激活函数通过上采样逐步修复分割对象的细节和空间维度；经最后一个解码器输出的特征图，与经输入卷积层的特征图相加融合得到经DCRSU模块处理后的最终特征图。

进一步的技术方案是，所述RSU-4F将下采样和上采样换成了膨胀卷积，输入特征CxHxW首先通过2个由卷积+批量归一化层+Relu组成的模块，然后经过膨胀卷积依次为1、2、4、8，整个过程中特征图大小不变。

进一步的技术方案是，SKnet作为最深一层的编码器，提取多尺度特征操作是将原特征图分别通过一个3×3的分组/深度卷积和3×3的空洞卷积生成两个特征图：和/>然后将这两个特征图进行相加，生成U；

生成的U通过全局平均池化生成1×1×C的特征图，该特征图通过全连接层生成d×1的向量z，对向量z分别经2个FC层重新变回长度C，对2个向量在通道维度上求softmax，得到各自的权重向量，并将权重与阶段一的2个输出进行相乘得到新的特征图，对两个新的特征图进行求和得到最终输出，送入下一个解码器。

进一步的技术方案是，所述改进注意力门模块的两个输入分别是编码器的当前层xl和解码器的下一层g，输入特征为CxHxW，他们首先经过逐元素的相加，经过Relu激活函数，得到CxHxW的特征图，然后通过1×1的卷积将通道数降为1，然后sigmoid激活函数进行归一化得到注意力系数，然后再经过一个1×1模块将尺寸还原回来，得到CxHxW的系数，最后使用得到的注意力系数对两个输入特征图进行相乘，然后进行拼接，将最后得到的特征图送入下一个解码器模块。

进一步的技术方案是，所述步骤S3中训练模型时，设定批量大小为16，使用AdamW优化器进行优化；首先使用1×10^-3的学习率进行初始训练，然后使用1×10^-5的学习率微调模型。

进一步的技术方案是，所述步骤S3中的损失公式为：

式中：l_fuse代表的是最终的预测概率图的损失，l代表二值交叉熵损失，w代表每个损失的权重。

本发明具有以下有益效果：本发明的U²-Net网络结构深且复杂，通过RSU和跳跃连接能够提取图片不同尺寸的级内和级间信息，但在连接中容易出现非缺陷区域等无效特征的保留和缺陷边缘等信息的丢失，仍存在一定的漏分割情况，为进一步提升网络分割性能，本发明主要从提高有效特征的提取能力和减少信息丢失两方面对网络进行改进；

针对当前显著性目标检测解码阶段因为跳跃连接导致非缺陷区域等无效特征的保留和缺陷边缘等信息的丢失的问题，本发明能够充分利用图像的上下文信息从而减少信息丢失，提升显著性主体的分割效果；

针对显著性目标检测在瓷砖表面缺陷场景下目标与背景对比度较低、检测精度较低的问题，本发明能够充分利用主干网络对有效特征的提取能力，使图片中缺陷目标的分割效果更好。

附图说明

图1本发明流程图；

图2为本发明方法的网络结构图；

图3为本发明方法编-解码器中的特征提取DCRSU模块；

图4为本发明方法编-解码器中用到的CA注意力模块；

图5为本发明方法编-解码器中的特征提取RSU4-F模块；

图6为本发明方法的编码器模块SKnet；

图7为本发明方法多尺度特征融合模块AG+模块；

图8为本发明方法效果示意图。

实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明的一种改进U²-Net的瓷砖表面缺陷分割方法，包括以下步骤：

步骤S1、获表面缺陷检测领域的Magnetic-tile-defect-datasets数据集，并将其分为训练集与测试集，按4：1进行划分；

步骤S2、构建基于U²-Net的瓷砖表面缺陷分割网络模型；

该网络基于编解码结构，并采取了侧边融合的方式进行显著性目标预测。如图2所示，该模型由6级编码器、5级解码器，2级多尺度特征融合模块及显著图融合模块4部分组成。

该网络结构总体是U形结构，前4个编码器及对应的4个解码器由特征提取结构DCRSU(如图3所示)构成，每个DCRSU的层数随着encoder和decoder的层数的增加而减少，即第1个编码器、第2个编码器、第3个编码器、第4个编码器使用的分别是DCRSU-7、DCRSU-6、DCRSU-5、DCRSU-4，解码器同理如此。

第5个编码器及对应的解码器采用的都是RSU-4F(如图4所示)，F表示不会变化尺寸，也就是只进行特征提取。

本发明在第6个编码器引入SKnet(如图6所示)作为最深一层的编码器。

此外，为解决仅使用跳跃连接模拟全局多尺度上下文，容易导致空间信息的丢失的问题，本发明分别在第5个解码器和第4个解码器的输入引入2个AG+模块(如图5所示)，将第6个编码器与第5个编码器输出的特征进行融合输入第5个解码器，将第4个编码器与第5个解码器输出的特征进行融合输入第4个解码器。

然后使用3×3卷积和sigmoid函数从第6个编码器、第5个解码器、第4个解码器、第3个解码器、第2个解码器和第1个解码器生成6个输出显著概率图然后将输出的显著图的逻辑图向上采样至于输入图像大小一致,并通过级联操作相融合；最后通过1×1卷积层和sigmoid函数，以生成最终的显著性概率映射图。

DCRSU(如图3所示)由输入卷积层、编码器、解码器和残差结构4部分组成。且假设DCRSU中设置的三个参数：输入通道数Cin输出通道数Cout中间模块输出通道数Cmid。

输入卷积层用于提取局部特征和转换通道，以输入图片3×512×512为例，它通过一个3×3卷积一个BN层和Relu激活函数,通道上升，变为Cout×512×512(该特征设为a)。

编码阶段，最后一个编码器采用卷积+批量归一化+ReLU激活函数结构，倒数第2层采用深度可分离卷积+批量归一化+ReLU激活函数结构。其余编码器利用残差结构将深度可分离卷积提取的特征和经CA模块处理的输入特征相加后再输入下一个特征提取层进行特征提取，使得每级输出特征可以在聚焦于具有更多有效特征信息通道，加强每一级有效特征的提取能力并获取多尺度特征信息。

以a作输入特征为例，它通过Cout个3×3卷积，变为Cin×512×512；然后通过Cmid个Cin×1×1卷积、一个BN层和Relu激活函数，变为Cmid×512×512。

同时a作为输入特征通过CA注意模块和一个BN层。CA注意模块(如图4所示)将C×H×W形状的输入特征图逐通道进行平均池化，使用(H，1)和(1，W)的池化核分别按X和Y轴方向进行池化对每个通道进行编码，产生C×H×1和C×1×W形状的特征图。通过这种方式所产生的一对方法感知特征图可以使CA注意力能够在一个通道内捕获长距离的依赖关系，并且还有助于保留精确的位置信息，使网络能够更加准确的定位对象。将上述所提取到的特征图按空间维度进行拼接，拼接成形状的特征图，其中r用于控制块的减小率和SE中的作用相同。再将特征图经过F1卷积变换函数(1×1卷积)和非线性激活函数产生f中间特征图。在将f按空间维度拆分成两个张量f_h和f_w，形状分别为/>和/>再分别进行F_h和F_w卷积变换函数(1×1卷积)和Sigmoid激活函数得到gh和gw坐标注意力。然后将gh和gw与原输入进行相乘得到与输入相同形状的输出，然后再经过一个1×1卷积和批量归一化层让输出的特征图的形状，与同阶段特征a经过深度可分离卷积输出的形状相同。最后将经两路处理的特征a进行相加，输入下一个特征提取层。

残差结构将输入层和中间层进行融合，对两个不同尺度的特征进行一个拼接。

解码阶段解码器模块将经过拼接的特征图，经过一个3×3卷积一个批量归一化层和Relu激活函数通过上采样逐步修复分割对象的细节和空间维度。经最后一个解码器输出的特征图，与经输入卷积层的特征图相加融合得到经DCRSU模块处理后的最终特征图。

在RSU-4F模块，由于经过了几次下采样，原图已经很小了，为避免信息丢失，RSU-4F不再进行下采样(如图5)，将下采样和上采样换成了膨胀卷积，输入特征C×H×W首先通过2个由卷积+批量归一化层+Relu组成的模块，然后经过膨胀卷积依次为1、2、4、8，整个过程中特征图大小不变。

SKnet(图6)作为最深一层的编码器，提取多尺度特征操作是将原特征图分别通过一个3×3的分组/深度卷积和3×3的空洞卷积(感受野为5×5)生成两个特征图：(图中黄色)和/>(图中绿色)。然后将这两个特征图进行相加，生成U。生成的U通过全局平均池化(Fgp)生成1×1×C的特征图(图中的s)，该特征图通过全连接层(Ffc函数)生成d×1的向量(图中的z)，对向量z分别经2个FC层重新变回长度C，对2个向量在通道维度上求softmax，得到各自的权重向量，并将权重与阶段一的2个输出进行相乘得到新的特征图，对两个新的特征图进行求和得到最终输出，送入下一个解码器。

AG+模块(如图7所示)的两个输入分别是encoder的当前层xl和decoder的下一层g，输入特征为C×H×W，他们首先经过逐元素的相加，经过Relu激活函数，得到C×H×W的特征图，然后通过1×1的卷积将通道数降为1，然后sigmoid激活函数进行归一化得到注意力系数，然后再经过一个1×1模块将尺寸还原回来，得到C×H×W的系数，最后使用得到的注意力系数对两个输入特征图进行相乘，然后进行拼接，将最后得到的特征图送入下一个解码器模块。

实验设备采用NVIDIA V100，整个模型用PyTorch实现。

训练模型时，设定批量大小为16，使用AdamW优化器进行优化。我们首先使用1×10^-3的学习率进行初始训练，然后使用1×10^-5的学习率微调模型。

公式如下为计算的损失公式，在这里M＝6，表示第1个解码器、第2个解码器、第3个解码器、第4个解码器、第5个解码器、第6个编码器有六个输出，l_fuse代表的是最终的预测概率图的损失，l代表二值交叉熵损失，w代表每个损失的权重。

二值交叉熵损失如下所示，其中(r，c)是像素坐标，(H，W)是图像尺寸：高度和宽度。PG(r，c)和Ps(r，c)表示像素地面实况值和预测显著概率-能力图。

为了验证算法的有效性，实验使用Magnetic-tile-defect-datasets数据集，将本发明提出的算法与U-Net和U²-net算法进行比较。

分析：在Magnetic-tile-defect-datasets数据集上进行了实验，并对生成的结果进行定量比较。主要是两个评价指标，maxF_β和MAE如下表所示，我们的方法相较于其他方法在两个指标上都取得了最优结果。

Method	MAE	maxF_β
			U2NET	0.002	0.781
U-Net	0.004	0.733
			Ours	0.001	0.792

MAE为平均绝对误差，是衡量图像质量的指标之一。计算原理为真实值与预测值的差值的绝对值然后求和再平均，MAE值越小，说明图像质量越好。公式如下：

其中P和G是显著对象的概率图检测和相应的地面实况，(H，W)和(r，c)是(高度、宽度)和像素协调。

准确率(Accuracy)＝(TP+TN)/总样本。定义是：对于给定的测试数据集，分类器正确分类的样本数与总样本数之比。

精确率(Precision)＝TP/(TP+FP)。它表示：预测为正的样本中有多少是真正的正样本，它是针对我们预测结果而言的。

F_β用于综合评估精确度和召回率，如下所示：

将β²设置为0.3，并报告最大F_β(maxF_β)。

以上所述，并非对本发明作任何形式上的限制，虽然本发明已通过上述实施例揭示，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，可利用上述揭示的技术内容作出些变动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种改进U²-Net的瓷砖表面缺陷分割方法，其特征在于，包括以下步骤：

步骤S2、构建基于U²-Net的瓷砖表面缺陷分割网络模型；

第5个编码器及对应的解码器采用的就是RSU-4F；

第6个编码器引入SKnet作为最深一层的编码器；

2.根据权利要求1所述的一种改进U²-Net的瓷砖表面缺陷分割方法，其特征在于，所述步骤S10中训练集与测试集按4：1进行划分。

3.根据权利要求1所述的一种改进U²-Net的瓷砖表面缺陷分割方法，其特征在于，所述DCRSU由输入卷积层、编码器、解码器和残差结构4部分组成；

输入卷积层用于提取局部特征和转换通道；

4.根据权利要求1所述的一种改进U²-Net的瓷砖表面缺陷分割方法，其特征在于，所述RSU-4F将下采样和上采样换成了膨胀卷积，输入特征CxHxW首先通过2个由卷积+批量归一化层+Relu组成的模块，然后经过膨胀卷积依次为1、2、4、8，整个过程中特征图大小不变。

5.根据权利要求1所述的一种改进U²-Net的瓷砖表面缺陷分割方法，其特征在于，SKnet作为最深一层的编码器，提取多尺度特征操作是将原特征图分别通过一个3×3的分组/深度卷积和3×3的空洞卷积生成两个特征图：和/>然后将这两个特征图进行相加，生成U；

6.根据权利要求1所述的一种改进U²-Net的瓷砖表面缺陷分割方法，其特征在于，所述改进注意力门模块的两个输入分别是编码器的当前层xl和解码器的下一层g，输入特征为CxHxW，他们首先经过逐元素的相加，经过Relu激活函数，得到CxHxW的特征图，然后通过1×1的卷积将通道数降为1，然后sigmoid激活函数进行归一化得到注意力系数，然后再经过一个1×1模块将尺寸还原回来，得到CxHxW的系数，最后使用得到的注意力系数对两个输入特征图进行相乘，然后进行拼接，将最后得到的特征图送入下一个解码器模块。

7.根据权利要求1所述的一种改进U²-Net的瓷砖表面缺陷分割方法，其特征在于，所述步骤S3中训练模型时，设定批量大小为16，使用AdamW优化器进行优化；首先使用1×10^-3的学习率进行初始训练，然后使用1×10^-5的学习率微调模型。

8.根据权利要求1或7所述的一种改进U²-Net的瓷砖表面缺陷分割方法，其特征在于，所述步骤S3中的损失公式为：