CN116645514A - 一种改进U2-Net的瓷砖表面缺陷分割方法 - Google Patents
一种改进U2-Net的瓷砖表面缺陷分割方法 Download PDFInfo
- Publication number
- CN116645514A CN116645514A CN202310754771.9A CN202310754771A CN116645514A CN 116645514 A CN116645514 A CN 116645514A CN 202310754771 A CN202310754771 A CN 202310754771A CN 116645514 A CN116645514 A CN 116645514A
- Authority
- CN
- China
- Prior art keywords
- decoder
- surface defect
- tile surface
- layer
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007547 defect Effects 0.000 title claims abstract description 50
- 230000011218 segmentation Effects 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000000919 ceramic Substances 0.000 title description 3
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000001514 detection method Methods 0.000 claims abstract description 17
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 claims description 2
- 230000006872 improvement Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 5
- 238000010276 construction Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种改进U2‑Net的瓷砖表面缺陷分割方法,属于显著性目标分割技术领域。为了克服现有技术中存在的缺陷,本发明旨在提供一种改进U2‑Net的瓷砖表面缺陷分割方法,包括获取瓷砖表面缺陷检测数据集;构建基于U2‑Net的瓷砖表面缺陷分割网络模型;通过训练集对瓷砖表面缺陷分割网络模型进行不断迭代训练,直到网络最终收敛,得到训练好的瓷砖表面缺陷分割网络模型;将待处理的图片输入到训练好的瓷砖表面缺陷分割网络模型中,得到分割的目标。本发明构建面向瓷砖表面缺陷目标分割的基于编解码结构及多尺度特征融合的深度学习网络模型,以提高对瓷砖表面缺陷的分割效果。
Description
技术领域
本发明涉及一种改进U2-Net的瓷砖表面缺陷分割方法,属于显著性目标分割技术领域。
背景技术
显著性目标分割又叫显著性目标检测,主要目标为区分图像中最明显的区域。通过提取出图像中的目标区域来进行分析。目前在场景物体分割、人体前景分割、人脸人体parsing、三维重建技术等在智能安防、无人驾驶、安防监控等领域应用广泛。
传统的显著性目标检测算法整体上主要都是基于低级视觉特征的,包括中心偏差、对比度先验和背景先验等。Achanata等人分别对亮度和颜色两种低级特征处理,使用高斯差分函数来进行频域滤波,从而来计算当前像素与其周围不同大小的域中像素的对比度,以此确定图像像素的显著值。Klein等人是利用信息论中的K-L散度去衡量图像的特征空间的中心位置于其周围特征的差异。这些算法都是从考虑局部像素对比的方面,它在检测目标的边缘信息时能有很好的表现,但是对目标整体很难实现检测。而基于全局对比的检测算法则是计算像素区域相对于图像里所有像素的对比,这样能够将显著目标的具***置检测出来。如Wei等人将背景连接度的概念提出,在他们的方法中用来获取有效范围并且计算图像显著性的就是全局对比度。在高等人的方法中,先获得超像素分割后的图像,然后在CIELab颜色空间中计算纹理细节和图像的全局对比度,借助了多核增强学***滑性,然后给这些块的唯一特殊性和空间分布情况计算评估,根据评估度量结果生成图像的显著性图。此外还有研究人员通过构建图模型来进行图像像素的显著值计算。Yang等人据此提出了基于流型排序的SOD算法。他们的做法是首先采用超像素分割图片,然后选取合适的背景种子点,其他节点和种子点之间可以计算相似度,不同大小的排序的到初始显著图,再将它作为前景种子点,再次计算相似度再排序得到结果显著图。但是这种算法最后是否能很好地检测出显著图和种子点的选取十分相关。Yuan等人提出了一个显著性反转校正过程,去除边界附近的前景超像素,防止显著反转,从而提高基于边界先验的显著性预测的准确性和鲁棒性。Shan等人利用背景权重图为流形排序提供种子,并且利用一个三阶光滑性框架来提高流形排序的性能。在Wu等人针对先前存在的方法在检测一些背景对比度低的图片时可能遗漏目标区域的问题,提出了一种新的传播模型,该模型考虑到了利用变形平滑约束。该模型局部正则化图像的节点和它周围的点,然后使用变形的平滑约束阻止可能出现错误的结果传播下去。
总之,基于传统的目标检测算法大多提取的特征比较简单,并且对图片显著值的训练过程也不是很复杂,目前在许多场景下也有着比较好的性能。然而在大量的数据集和实际场景图像中,需要检测的环境和图片情况变得越来越复杂,检测性能和检测速率的要求在增高,基于传统的方法逐渐难以满足这些要求。
发明内容
为了克服现有技术中存在的缺陷,本发明旨在提供一种改进U2-Net的瓷砖表面缺陷分割方法。
本发明解决上述技术问题所提供的技术方案是:一种改进U2-Net的瓷砖表面缺陷分割方法,包括以下步骤:
步骤S1、获取瓷砖表面缺陷检测数据集,并将其分为训练集与测试集;
步骤S2、构建基于U2-Net的瓷砖表面缺陷分割网络模型;
所述瓷砖表面缺陷分割网络模型为六层U型结构,包括6级编码器、5级解码器、2级多尺度特征融合模块及显著图融合模块;
其中前4个编码器及对应的4个解码器由特征提取结构DCRSU构成,每个DCRSU的层数随着encoder和decoder的层数的增加而减少,即前4个编码器使用的分别是DCRSU-7、DCRSU-6、DCRSU-5、DCRSU-4,前4个解码器同理如此;
第5个编码器及对应的解码器采用的就是RSU-4F;
第6个编码器引入SKnet作为最深一层的编码器;
分别在第5个解码器和第4个解码器的输入引入2个改进注意力门模块,将第6个编码器与第5个编码器输出的特征进行融合输入第5个解码器,将第4个编码器与第5个解码器输出的特征进行融合输入第4个解码器;然后使用3×3卷积和sigmoid函数从第6个编码器、第5个解码器、第4个解码器、第3个解码器、第2个解码器和第1个解码器生成6个输出显著概率图;然后将输出的显著图的逻辑图向上采样至于输入图像大小一致,并通过级联操作相融合;最后通过1×1卷积层和sigmoid函数,以生成最终的显著性概率映射图;
步骤S3、通过训练集对瓷砖表面缺陷分割网络模型进行不断迭代训练,直到网络最终收敛,得到训练好的瓷砖表面缺陷分割网络模型;
步骤S4、将待处理的图片输入到训练好的瓷砖表面缺陷分割网络模型中,得到分割的目标。
进一步的技术方案是,所述步骤S10中训练集与测试集按4:1进行划分。
进一步的技术方案是,所述DCRSU由输入卷积层、编码器、解码器和残差结构4部分组成;
输入卷积层用于提取局部特征和转换通道;
编码阶段,最后一个编码器采用卷积+批量归一化+ReLU激活函数结构,倒数第2层采用深度可分离卷积+批量归一化+ReLU激活函数结构;其余编码器利用残差结构将深度可分离卷积提取的特征和经注意力机制模块处理的输入特征相加后再输入下一个特征提取层进行特征提取,使得每级输出特征可以在聚焦于具有更多有效特征信息通道,加强每一级有效特征的提取能力并获取多尺度特征信息;
残差结构将输入层和中间层进行融合,对两个不同尺度的特征进行一个拼接;
解码阶段,解码器模块将经过拼接的特征图,经过一个3×3卷积一个批量归一化层和Relu激活函数通过上采样逐步修复分割对象的细节和空间维度;经最后一个解码器输出的特征图,与经输入卷积层的特征图相加融合得到经DCRSU模块处理后的最终特征图。
进一步的技术方案是,所述RSU-4F将下采样和上采样换成了膨胀卷积,输入特征CxHxW首先通过2个由卷积+批量归一化层+Relu组成的模块,然后经过膨胀卷积依次为1、2、4、8,整个过程中特征图大小不变。
进一步的技术方案是,SKnet作为最深一层的编码器,提取多尺度特征操作是将原特征图分别通过一个3×3的分组/深度卷积和3×3的空洞卷积生成两个特征图:和/>然后将这两个特征图进行相加,生成U;
生成的U通过全局平均池化生成1×1×C的特征图,该特征图通过全连接层生成d×1的向量z,对向量z分别经2个FC层重新变回长度C,对2个向量在通道维度上求softmax,得到各自的权重向量,并将权重与阶段一的2个输出进行相乘得到新的特征图,对两个新的特征图进行求和得到最终输出,送入下一个解码器。
进一步的技术方案是,所述改进注意力门模块的两个输入分别是编码器的当前层xl和解码器的下一层g,输入特征为CxHxW,他们首先经过逐元素的相加,经过Relu激活函数,得到CxHxW的特征图,然后通过1×1的卷积将通道数降为1,然后sigmoid激活函数进行归一化得到注意力系数,然后再经过一个1×1模块将尺寸还原回来,得到CxHxW的系数,最后使用得到的注意力系数对两个输入特征图进行相乘,然后进行拼接,将最后得到的特征图送入下一个解码器模块。
进一步的技术方案是,所述步骤S3中训练模型时,设定批量大小为16,使用AdamW优化器进行优化;首先使用1×10-3的学习率进行初始训练,然后使用1×10-5的学习率微调模型。
进一步的技术方案是,所述步骤S3中的损失公式为:
式中:lfuse代表的是最终的预测概率图的损失,l代表二值交叉熵损失,w代表每个损失的权重。
本发明具有以下有益效果:本发明的U2-Net网络结构深且复杂,通过RSU和跳跃连接能够提取图片不同尺寸的级内和级间信息,但在连接中容易出现非缺陷区域等无效特征的保留和缺陷边缘等信息的丢失,仍存在一定的漏分割情况,为进一步提升网络分割性能,本发明主要从提高有效特征的提取能力和减少信息丢失两方面对网络进行改进;
针对当前显著性目标检测解码阶段因为跳跃连接导致非缺陷区域等无效特征的保留和缺陷边缘等信息的丢失的问题,本发明能够充分利用图像的上下文信息从而减少信息丢失,提升显著性主体的分割效果;
针对显著性目标检测在瓷砖表面缺陷场景下目标与背景对比度较低、检测精度较低的问题,本发明能够充分利用主干网络对有效特征的提取能力,使图片中缺陷目标的分割效果更好。
附图说明
图1本发明流程图;
图2为本发明方法的网络结构图;
图3为本发明方法编-解码器中的特征提取DCRSU模块;
图4为本发明方法编-解码器中用到的CA注意力模块;
图5为本发明方法编-解码器中的特征提取RSU4-F模块;
图6为本发明方法的编码器模块SKnet;
图7为本发明方法多尺度特征融合模块AG+模块;
图8为本发明方法效果示意图。
实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明的一种改进U2-Net的瓷砖表面缺陷分割方法,包括以下步骤:
步骤S1、获表面缺陷检测领域的Magnetic-tile-defect-datasets数据集,并将其分为训练集与测试集,按4:1进行划分;
步骤S2、构建基于U2-Net的瓷砖表面缺陷分割网络模型;
该网络基于编解码结构,并采取了侧边融合的方式进行显著性目标预测。如图2所示,该模型由6级编码器、5级解码器,2级多尺度特征融合模块及显著图融合模块4部分组成。
该网络结构总体是U形结构,前4个编码器及对应的4个解码器由特征提取结构DCRSU(如图3所示)构成,每个DCRSU的层数随着encoder和decoder的层数的增加而减少,即第1个编码器、第2个编码器、第3个编码器、第4个编码器使用的分别是DCRSU-7、DCRSU-6、DCRSU-5、DCRSU-4,解码器同理如此。
第5个编码器及对应的解码器采用的都是RSU-4F(如图4所示),F表示不会变化尺寸,也就是只进行特征提取。
本发明在第6个编码器引入SKnet(如图6所示)作为最深一层的编码器。
此外,为解决仅使用跳跃连接模拟全局多尺度上下文,容易导致空间信息的丢失的问题,本发明分别在第5个解码器和第4个解码器的输入引入2个AG+模块(如图5所示),将第6个编码器与第5个编码器输出的特征进行融合输入第5个解码器,将第4个编码器与第5个解码器输出的特征进行融合输入第4个解码器。
然后使用3×3卷积和sigmoid函数从第6个编码器、第5个解码器、第4个解码器、第3个解码器、第2个解码器和第1个解码器生成6个输出显著概率图然后将输出的显著图的逻辑图向上采样至于输入图像大小一致,并通过级联操作相融合;最后通过1×1卷积层和sigmoid函数,以生成最终的显著性概率映射图。
DCRSU(如图3所示)由输入卷积层、编码器、解码器和残差结构4部分组成。且假设DCRSU中设置的三个参数:输入通道数Cin输出通道数Cout中间模块输出通道数Cmid。
输入卷积层用于提取局部特征和转换通道,以输入图片3×512×512为例,它通过一个3×3卷积一个BN层和Relu激活函数,通道上升,变为Cout×512×512(该特征设为a)。
编码阶段,最后一个编码器采用卷积+批量归一化+ReLU激活函数结构,倒数第2层采用深度可分离卷积+批量归一化+ReLU激活函数结构。其余编码器利用残差结构将深度可分离卷积提取的特征和经CA模块处理的输入特征相加后再输入下一个特征提取层进行特征提取,使得每级输出特征可以在聚焦于具有更多有效特征信息通道,加强每一级有效特征的提取能力并获取多尺度特征信息。
以a作输入特征为例,它通过Cout个3×3卷积,变为Cin×512×512;然后通过Cmid个Cin×1×1卷积、一个BN层和Relu激活函数,变为Cmid×512×512。
同时a作为输入特征通过CA注意模块和一个BN层。CA注意模块(如图4所示)将C×H×W形状的输入特征图逐通道进行平均池化,使用(H,1)和(1,W)的池化核分别按X和Y轴方向进行池化对每个通道进行编码,产生C×H×1和C×1×W形状的特征图。通过这种方式所产生的一对方法感知特征图可以使CA注意力能够在一个通道内捕获长距离的依赖关系,并且还有助于保留精确的位置信息,使网络能够更加准确的定位对象。将上述所提取到的特征图按空间维度进行拼接,拼接成形状的特征图,其中r用于控制块的减小率和SE中的作用相同。再将特征图经过F1卷积变换函数(1×1卷积)和非线性激活函数产生f中间特征图。在将f按空间维度拆分成两个张量fh和fw,形状分别为/>和/>再分别进行Fh和Fw卷积变换函数(1×1卷积)和Sigmoid激活函数得到gh和gw坐标注意力。然后将gh和gw与原输入进行相乘得到与输入相同形状的输出,然后再经过一个1×1卷积和批量归一化层让输出的特征图的形状,与同阶段特征a经过深度可分离卷积输出的形状相同。最后将经两路处理的特征a进行相加,输入下一个特征提取层。
残差结构将输入层和中间层进行融合,对两个不同尺度的特征进行一个拼接。
解码阶段解码器模块将经过拼接的特征图,经过一个3×3卷积一个批量归一化层和Relu激活函数通过上采样逐步修复分割对象的细节和空间维度。经最后一个解码器输出的特征图,与经输入卷积层的特征图相加融合得到经DCRSU模块处理后的最终特征图。
在RSU-4F模块,由于经过了几次下采样,原图已经很小了,为避免信息丢失,RSU-4F不再进行下采样(如图5),将下采样和上采样换成了膨胀卷积,输入特征C×H×W首先通过2个由卷积+批量归一化层+Relu组成的模块,然后经过膨胀卷积依次为1、2、4、8,整个过程中特征图大小不变。
SKnet(图6)作为最深一层的编码器,提取多尺度特征操作是将原特征图分别通过一个3×3的分组/深度卷积和3×3的空洞卷积(感受野为5×5)生成两个特征图:(图中黄色)和/>(图中绿色)。然后将这两个特征图进行相加,生成U。生成的U通过全局平均池化(Fgp)生成1×1×C的特征图(图中的s),该特征图通过全连接层(Ffc函数)生成d×1的向量(图中的z),对向量z分别经2个FC层重新变回长度C,对2个向量在通道维度上求softmax,得到各自的权重向量,并将权重与阶段一的2个输出进行相乘得到新的特征图,对两个新的特征图进行求和得到最终输出,送入下一个解码器。
AG+模块(如图7所示)的两个输入分别是encoder的当前层xl和decoder的下一层g,输入特征为C×H×W,他们首先经过逐元素的相加,经过Relu激活函数,得到C×H×W的特征图,然后通过1×1的卷积将通道数降为1,然后sigmoid激活函数进行归一化得到注意力系数,然后再经过一个1×1模块将尺寸还原回来,得到C×H×W的系数,最后使用得到的注意力系数对两个输入特征图进行相乘,然后进行拼接,将最后得到的特征图送入下一个解码器模块。
步骤S3、通过训练集对瓷砖表面缺陷分割网络模型进行不断迭代训练,直到网络最终收敛,得到训练好的瓷砖表面缺陷分割网络模型;
实验设备采用NVIDIA V100,整个模型用PyTorch实现。
训练模型时,设定批量大小为16,使用AdamW优化器进行优化。我们首先使用1×10-3的学习率进行初始训练,然后使用1×10-5的学习率微调模型。
公式如下为计算的损失公式,在这里M=6,表示第1个解码器、第2个解码器、第3个解码器、第4个解码器、第5个解码器、第6个编码器有六个输出,lfuse代表的是最终的预测概率图的损失,l代表二值交叉熵损失,w代表每个损失的权重。
二值交叉熵损失如下所示,其中(r,c)是像素坐标,(H,W)是图像尺寸:高度和宽度。PG(r,c)和Ps(r,c)表示像素地面实况值和预测显著概率-能力图。
步骤S4、将待处理的图片输入到训练好的瓷砖表面缺陷分割网络模型中,得到分割的目标。
为了验证算法的有效性,实验使用Magnetic-tile-defect-datasets数据集,将本发明提出的算法与U-Net和U2-net算法进行比较。
分析:在Magnetic-tile-defect-datasets数据集上进行了实验,并对生成的结果进行定量比较。主要是两个评价指标,maxFβ和MAE如下表所示,我们的方法相较于其他方法在两个指标上都取得了最优结果。
Method | MAE | maxFβ |
U2NET | 0.002 | 0.781 |
U-Net | 0.004 | 0.733 |
Ours | 0.001 | 0.792 |
MAE为平均绝对误差,是衡量图像质量的指标之一。计算原理为真实值与预测值的差值的绝对值然后求和再平均,MAE值越小,说明图像质量越好。公式如下:
其中P和G是显著对象的概率图检测和相应的地面实况,(H,W)和(r,c)是(高度、宽度)和像素协调。
准确率(Accuracy)=(TP+TN)/总样本。定义是:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。
精确率(Precision)=TP/(TP+FP)。它表示:预测为正的样本中有多少是真正的正样本,它是针对我们预测结果而言的。
Fβ用于综合评估精确度和召回率,如下所示:
将β2设置为0.3,并报告最大Fβ(maxFβ)。
以上所述,并非对本发明作任何形式上的限制,虽然本发明已通过上述实施例揭示,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,可利用上述揭示的技术内容作出些变动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (8)
1.一种改进U2-Net的瓷砖表面缺陷分割方法,其特征在于,包括以下步骤:
步骤S1、获取瓷砖表面缺陷检测数据集,并将其分为训练集与测试集;
步骤S2、构建基于U2-Net的瓷砖表面缺陷分割网络模型;
所述瓷砖表面缺陷分割网络模型为六层U型结构,包括6级编码器、5级解码器、2级多尺度特征融合模块及显著图融合模块;
其中前4个编码器及对应的4个解码器由特征提取结构DCRSU构成,每个DCRSU的层数随着encoder和decoder的层数的增加而减少,即前4个编码器使用的分别是DCRSU-7、DCRSU-6、DCRSU-5、DCRSU-4,前4个解码器同理如此;
第5个编码器及对应的解码器采用的就是RSU-4F;
第6个编码器引入SKnet作为最深一层的编码器;
分别在第5个解码器和第4个解码器的输入引入2个改进注意力门模块,将第6个编码器与第5个编码器输出的特征进行融合输入第5个解码器,将第4个编码器与第5个解码器输出的特征进行融合输入第4个解码器;然后使用3×3卷积和sigmoid函数从第6个编码器、第5个解码器、第4个解码器、第3个解码器、第2个解码器和第1个解码器生成6个输出显著概率图;然后将输出的显著图的逻辑图向上采样至于输入图像大小一致,并通过级联操作相融合;最后通过1×1卷积层和sigmoid函数,以生成最终的显著性概率映射图;
步骤S3、通过训练集对瓷砖表面缺陷分割网络模型进行不断迭代训练,直到网络最终收敛,得到训练好的瓷砖表面缺陷分割网络模型;
步骤S4、将待处理的图片输入到训练好的瓷砖表面缺陷分割网络模型中,得到分割的目标。
2.根据权利要求1所述的一种改进U2-Net的瓷砖表面缺陷分割方法,其特征在于,所述步骤S10中训练集与测试集按4:1进行划分。
3.根据权利要求1所述的一种改进U2-Net的瓷砖表面缺陷分割方法,其特征在于,所述DCRSU由输入卷积层、编码器、解码器和残差结构4部分组成;
输入卷积层用于提取局部特征和转换通道;
编码阶段,最后一个编码器采用卷积+批量归一化+ReLU激活函数结构,倒数第2层采用深度可分离卷积+批量归一化+ReLU激活函数结构;其余编码器利用残差结构将深度可分离卷积提取的特征和经注意力机制模块处理的输入特征相加后再输入下一个特征提取层进行特征提取,使得每级输出特征可以在聚焦于具有更多有效特征信息通道,加强每一级有效特征的提取能力并获取多尺度特征信息;
残差结构将输入层和中间层进行融合,对两个不同尺度的特征进行一个拼接;
解码阶段,解码器模块将经过拼接的特征图,经过一个3×3卷积一个批量归一化层和Relu激活函数通过上采样逐步修复分割对象的细节和空间维度;经最后一个解码器输出的特征图,与经输入卷积层的特征图相加融合得到经DCRSU模块处理后的最终特征图。
4.根据权利要求1所述的一种改进U2-Net的瓷砖表面缺陷分割方法,其特征在于,所述RSU-4F将下采样和上采样换成了膨胀卷积,输入特征CxHxW首先通过2个由卷积+批量归一化层+Relu组成的模块,然后经过膨胀卷积依次为1、2、4、8,整个过程中特征图大小不变。
5.根据权利要求1所述的一种改进U2-Net的瓷砖表面缺陷分割方法,其特征在于,SKnet作为最深一层的编码器,提取多尺度特征操作是将原特征图分别通过一个3×3的分组/深度卷积和3×3的空洞卷积生成两个特征图:和/>然后将这两个特征图进行相加,生成U;
生成的U通过全局平均池化生成1×1×C的特征图,该特征图通过全连接层生成d×1的向量z,对向量z分别经2个FC层重新变回长度C,对2个向量在通道维度上求softmax,得到各自的权重向量,并将权重与阶段一的2个输出进行相乘得到新的特征图,对两个新的特征图进行求和得到最终输出,送入下一个解码器。
6.根据权利要求1所述的一种改进U2-Net的瓷砖表面缺陷分割方法,其特征在于,所述改进注意力门模块的两个输入分别是编码器的当前层xl和解码器的下一层g,输入特征为CxHxW,他们首先经过逐元素的相加,经过Relu激活函数,得到CxHxW的特征图,然后通过1×1的卷积将通道数降为1,然后sigmoid激活函数进行归一化得到注意力系数,然后再经过一个1×1模块将尺寸还原回来,得到CxHxW的系数,最后使用得到的注意力系数对两个输入特征图进行相乘,然后进行拼接,将最后得到的特征图送入下一个解码器模块。
7.根据权利要求1所述的一种改进U2-Net的瓷砖表面缺陷分割方法,其特征在于,所述步骤S3中训练模型时,设定批量大小为16,使用AdamW优化器进行优化;首先使用1×10-3的学习率进行初始训练,然后使用1×10-5的学习率微调模型。
8.根据权利要求1或7所述的一种改进U2-Net的瓷砖表面缺陷分割方法,其特征在于,所述步骤S3中的损失公式为:
式中:lfuse代表的是最终的预测概率图的损失,l代表二值交叉熵损失,w代表每个损失的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310754771.9A CN116645514A (zh) | 2023-06-25 | 2023-06-25 | 一种改进U2-Net的瓷砖表面缺陷分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310754771.9A CN116645514A (zh) | 2023-06-25 | 2023-06-25 | 一种改进U2-Net的瓷砖表面缺陷分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116645514A true CN116645514A (zh) | 2023-08-25 |
Family
ID=87640107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310754771.9A Pending CN116645514A (zh) | 2023-06-25 | 2023-06-25 | 一种改进U2-Net的瓷砖表面缺陷分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116645514A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117952983A (zh) * | 2024-03-27 | 2024-04-30 | 中电科大数据研究院有限公司 | 一种基于人工智能的智能制造生产过程监控方法和*** |
CN118229681A (zh) * | 2024-05-22 | 2024-06-21 | 安徽大学 | 结合PVT和U-Net深度学习的道路缺陷检测方法 |
-
2023
- 2023-06-25 CN CN202310754771.9A patent/CN116645514A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117952983A (zh) * | 2024-03-27 | 2024-04-30 | 中电科大数据研究院有限公司 | 一种基于人工智能的智能制造生产过程监控方法和*** |
CN118229681A (zh) * | 2024-05-22 | 2024-06-21 | 安徽大学 | 结合PVT和U-Net深度学习的道路缺陷检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111784602B (zh) | 一种生成对抗网络用于图像修复的方法 | |
CN115049936B (zh) | 一种面向高分遥感影像的边界增强型语义分割方法 | |
CN111598892B (zh) | 一种基于Res2-UNeXt网络结构的细胞图像分割方法 | |
CN112150521B (zh) | 一种基于PSMNet优化的图像立体匹配方法 | |
CN111738363B (zh) | 基于改进的3d cnn网络的阿尔茨海默病分类方法 | |
CN113592026B (zh) | 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法 | |
CN106529419B (zh) | 视频显著性堆栈式聚合的对象自动检测方法 | |
CN112597985B (zh) | 一种基于多尺度特征融合的人群计数方法 | |
CN111414923B (zh) | 基于单幅rgb图像的室内场景三维重建方法及*** | |
CN110443883B (zh) | 一种基于dropblock的单张彩色图片平面三维重建方法 | |
CN113870124B (zh) | 基于弱监督的双网络互激励学习阴影去除方法 | |
CN113628261B (zh) | 一种电力巡检场景下的红外与可见光图像配准方法 | |
CN114820579A (zh) | 一种基于语义分割的图像复合缺陷的检测方法及*** | |
CN115578255B (zh) | 一种基于帧间亚像素块匹配的超分辨率重建方法 | |
CN109741358B (zh) | 基于自适应超图学习的超像素分割方法 | |
CN115457057A (zh) | 一种采用深监督策略的多尺度特征融合腺体分割方法 | |
CN115423847A (zh) | 基于Transformer的孪生多模态目标跟踪方法 | |
CN116228792A (zh) | 一种医学图像分割方法、***及电子装置 | |
CN113177592A (zh) | 一种图像分割方法、装置、计算机设备及存储介质 | |
CN114092824A (zh) | 结合密集注意力和并行上采样的遥感图像道路分割方法 | |
Zhang et al. | Towards unbiased volume rendering of neural implicit surfaces with geometry priors | |
CN115482268A (zh) | 一种基于散斑匹配网络的高精度三维形貌测量方法与*** | |
CN117173595A (zh) | 基于改进YOLOv7的无人机航拍图像目标检测方法 | |
CN116645514A (zh) | 一种改进U2-Net的瓷砖表面缺陷分割方法 | |
CN115393735A (zh) | 基于改进U-Net的遥感影像建筑物提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |