CN117036281A - 一种缺陷图像的智能生成方法及其*** - Google Patents
一种缺陷图像的智能生成方法及其*** Download PDFInfo
- Publication number
- CN117036281A CN117036281A CN202311001282.2A CN202311001282A CN117036281A CN 117036281 A CN117036281 A CN 117036281A CN 202311001282 A CN202311001282 A CN 202311001282A CN 117036281 A CN117036281 A CN 117036281A
- Authority
- CN
- China
- Prior art keywords
- defect
- noise
- image
- distribution
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007547 defect Effects 0.000 title claims abstract description 268
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000009826 distribution Methods 0.000 claims abstract description 102
- 238000009792 diffusion process Methods 0.000 claims abstract description 45
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000005520 cutting process Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 8
- 230000002950 deficient Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 16
- 238000001514 detection method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 239000004576 sand Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- LJROKJGQSPMTKB-UHFFFAOYSA-N 4-[(4-hydroxyphenyl)-pyridin-2-ylmethyl]phenol Chemical compound C1=CC(O)=CC=C1C(C=1N=CC=CC=1)C1=CC=C(O)C=C1 LJROKJGQSPMTKB-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000007514 turning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种缺陷图像的智能生成方法及其***,包括:获取缺陷数据集,筛选缺陷区域;裁剪出缺陷并进行分类,得到缺陷样本;基于缺陷特点及位置分布,界定出各类型缺陷样本在图像上的分布区域;将噪声符合高斯分布且与缺陷区域大小一致的噪声图像输入到预训练的扩散模型中进行逐步去噪,得到生成图像集;在生成图像集中筛选出缺陷子图像,基于分布区域,将缺陷子图像粘贴到目标对象图像上,得到缺陷图像。本发明采用深度学习模型来学习缺陷对象在像素空间的概率分布,并根据概率分布中采样出缺陷样本,既能够扩充缺陷样本的数量,又能改变缺陷在图像中的位置,同时提升生成图像在缺陷上的多样性,更好地解决模型生成数据不均衡的问题。
Description
技术领域
本发明涉及图像处理领域,具体而言,涉及一种缺陷图像的智能生成方法及其***。
背景技术
随着人工智能的快速发展,基于深度神经网络的目标检测算法开始大量应用于缺陷检测领域,替代了传统机器视觉,能够实现较好的检测效果。目前,大多数目标缺陷检测算法需要大量的缺陷数据图像进行训练,但部分领域,缺陷数据存在着样本少,概率分布不均匀的特点。例如,在手机麦克风检测当中,正常图像占99%以上,而剩下的1%图像中存在着十几种不同类型的缺陷,而有些缺陷例如毛刺、刮痕等在上万张图像中才可能存在1张缺陷图像,这样的数据分布使得当前主流的目标检测算法在手机缺陷当中检测的精度很难得到保障。
为了解决上述存在的数据不平衡的问题,人们提出了数据增强的方法,它通常是指在不实质性的增加数据的情况下,让有限的数据产生等价于更多数据的价值,可以解决深度学***移、裁剪、拼接、亮度、对比度等。上述的这些方法虽然部分解决了缺陷数据不平衡的问题,但由于缺陷对象形状大小并没有发生变化,用于目标检测时容易出现过拟合现象。
现有技术中,存在通过去噪扩散概率模型生成缺陷图像的方案,但DDPM预测出图像的精度较低,难以满足目标检测模型的训练需求。传统的翻转、平移、裁剪、拼接、亮度、对比度等数据增强方法都是对整张图像进行处理,只能改变缺陷对象出现的位置而不能改变缺陷对象的数量以及多样性。将缺陷对象经过多次复制后随机粘贴到目标图像上,同时改变了缺陷对象的数量和位置,但只是复制了缺陷对象本身,改变了缺陷对象数量而没有改变其多样性。
发明内容
基于现有技术存在的问题,本发明提供了一种缺陷图像的智能生成方法及其***。具体方案如下:
一种缺陷图像的智能生成方法,包括如下步骤:
获取关于目标对象缺陷图像的缺陷数据集,筛选出所述缺陷数据集中各图像上含有缺陷的方形区域得到多个缺陷区域;
裁剪出缺陷区域中的缺陷并进行分类,得到各个类型的缺陷样本;
基于目标对象的缺陷特点,结合各个类型的缺陷样本在像素空间中的位置分布,界定出各类型缺陷样本在目标对象图像上的分布区域;
将噪声符合高斯分布且与所述缺陷区域大小一致的噪声图像作为初始的输入图像输入到预训练的扩散模型中进行逐步去噪,使每步去噪后的图像仅包括缺陷且成为下一步去噪的输入图像并被纳入到生成图像集中;
在所述生成图像集中筛选出部分图像作为缺陷子图像,解析出各缺陷子图像所对应的缺陷样本,基于对应缺陷样本的分布区域,将缺陷子图像粘贴到目标对象图像的相应位置上,得到多个目标对象的缺陷图像。
在一个具体实施例中,所述扩散模型的训练具体包括:
将预处理后的缺陷数据集前向加噪t步,且每一步添加的噪声满足标准高斯分布,得到噪声图像集;其中,t为大于0的正整数;
将所述噪声图像集中的图像作为训练图像输入到扩散模型中进行逐步去噪处理,预测前向加噪过程中每一步添加的噪声及噪声分布,并将每一步预测的输出图像作为下一步预测的输入图像,直至满足预设停止条件,完成训练。
在一个具体实施例中,在每一步的预测中,具体包括如下:
基于实际添加的噪声与预测的噪声、预测该步的噪声分布与实际该步的噪声分布计算损失函数,基于损失函数更新扩散模型的参数;
在预测的噪声分布中采样出噪声,从当前的输入图像中减去该噪声得到当前的输出图像,并将当前的输出图像作为下一步的输入图像。
在一个具体实施例中,将U型网络作为所述扩散模型,并在所述U型网络中添加包含通道注意力模块和空间注意力模块在内的卷积注意力模块;
通过所述通道注意力模块使得U型网络对RGB三个通道分配不同的权重,以更好地提取特征;
通过所述空间注意力模块使得U型网络自动捕获在空间中形变后图像的区域特征。
在一个具体实施例中,在第t步的预测中,计算实际添加的噪声与预测的噪声之间的均方误差,以及预测该步的噪声分布与实际该步的噪声分布之间的相对熵,所述损失函数为所述均方误差与所述相对熵线性相加之和;
所述损失函数L的表达式为:
L=Lmse+LKL
其中,Lmse表示实际添加的噪声与预测的噪声之间的均方误差,LKL表示预测的噪声分布与实际的噪声分布之间的相对熵。
在一个具体实施例中,通过预设复制-粘贴算法,复制高斯滤波后的缺陷子图像,随机选取部分目标对象图像并粘贴到各图片的相应位置上;
所述复制-粘贴算法的表达式为:
其中,P表示缺陷图像,P1表示缺陷子图像,P2表示目标对象图像,表示mask掩膜。
在一个具体实施例中,前向加噪t步所采用的加噪函数包括如下:
αt=1-βt
其中,Xt表示加噪t步后的图像,αt表示控制图像与噪声权重的系数,ε表示服从标准高斯分布的噪声;βt代表设定的1-αt,属于(0,1);表示α0到αt的乘积,f(t)表示利用余弦将Xt由线性变为非线性且控制/>在中间部分迅速下降,T表示设定的加噪步数,s是为防止βt在t=0附近太小而设置的值,/>和/>是控制X0分布与加入的噪声的权重系数。
在一个具体实施例中,在所述U型网络的卷积模块中,使用高斯误差线性单元作为时间嵌入层中的激活函数,使得梯度具有更高的稳定性。
一种缺陷图像的智能生成***,包括如下模块:
数据获取单元,用于获取关于目标对象缺陷图像的缺陷数据集,筛选出所述缺陷数据集中各图像上含有缺陷的方形区域得到多个缺陷区域;
样本获取单元,用于裁剪出缺陷区域中的缺陷并进行分类,得到各个类型的缺陷样本;
位置获取单元,用于基于目标对象的缺陷特点,结合各个类型的缺陷样本在像素空间中的位置分布,界定出各类型缺陷样本在目标对象图像上的分布区域;
扩散模型单元,用于将噪声符合高斯分布且与所述缺陷区域大小一致的噪声图像作为初始的输入图像输入到预训练的扩散模型中进行逐步去噪,使每步去噪后的图像仅包括缺陷且成为下一步去噪的输入图像并被纳入到生成图像集中;
图像生成单元,用于在所述生成图像集中筛选出部分图像作为缺陷子图像,解析出各缺陷子图像所对应的缺陷样本,基于对应缺陷样本的分布区域,将缺陷子图像粘贴到目标对象图像的相应位置上,得到多个目标对象的缺陷图像。
在一个具体实施例中,在所述扩散模型单元中,所述扩散模型的训练具体包括:
将预处理后的缺陷数据集前向加噪t步,且每一步添加的噪声满足标准高斯分布,得到噪声图像集;其中,t为大于0的正整数;
将所述噪声图像集中的图像作为训练图像输入到扩散模型中进行逐步去噪处理,预测前向加噪过程中每一步添加的噪声及噪声分布,并将每一步预测的输出图像作为下一步预测的输入图像,直至满足预设停止条件,完成训练。
有益效果:
本发明提供了一种缺陷图像的智能生成方法及其***,采用深度学习模型来学习缺陷对象在像素空间的概率分布,并根据概率分布中采样出缺陷样本,既能够扩充缺陷样本的数量,又能改变缺陷在图像中的位置,同时提升生成图像在缺陷上的多样性,更好地解决模型生成数据不均衡的问题。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例的智能生成方法流程图;
图2是本发明实施例的手机麦克风缺陷检测的原理示意图;
图3是本发明实施例的三种缺陷示意图;
图4是本发明实施例的卷积注意力模块示意图;
图5是本发明实施例的智能生成***模块示意图。
附图标记:1-数据获取单元;2-样本获取单元;3-位置获取单元;4-扩散模型单元;5-图像生成单元。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例提出了一种缺陷图像的智能生成方法,在改变缺陷对象数量和位置的基础上极大提高了缺陷对象的多样性,可以更好地解决模型生成数据不均衡的问题。智能生成方法的流程如说明书附图1所示。具体方案如下:
一种缺陷图像的智能生成方法,包括如下步骤:
101、获取关于目标对象缺陷图像的缺陷数据集,筛选出缺陷数据集中各图像上含有缺陷的方形区域得到多个缺陷区域;
102、裁剪出缺陷区域中的缺陷并进行分类,得到各类型的缺陷样本;
103、基于目标对象的缺陷特点,结合各个类型的缺陷样本在像素空间中的位置分布,界定出各类型缺陷样本在目标对象图像上的分布区域;
104、将噪声符合高斯分布且与缺陷区域大小一致的噪声图像作为初始的输入图像输入到预训练的扩散模型中进行逐步去噪,使每步去噪后的图像仅包括缺陷且成为下一步去噪的输入图像并被纳入到生成图像集中;
105、在生成图像集中筛选出部分图像作为缺陷子图像,解析出各缺陷子图像所对应的缺陷样本,基于对应缺陷样本的分布区域,将缺陷子图像粘贴到目标对象图像的相应位置上,得到多个目标对象的缺陷图像。
本实施例的智能生成方法,采用改进过的扩散模型生成缺陷图像,用深度学习模型来学习缺陷对象的概率分布,然后从学习到的概率分布中采样出缺陷对象图像。相比于传统数据增强方法对整张图片进行处理,本实施例的方法可以直接对缺陷对象进行增强。
本实施例的智能生成方法,可以生成关于目标对象的缺陷图像,缺陷图像可以作为深度神经网络的训练数据。部分领域的缺陷图像基于自身特性,无法获取足够多的样本用于相关缺陷检测模型的训练,并且基于缺陷检测模型的精确度要求,往往对训练数据的质量要求较高。本实施例以手机麦克风缺陷图像检测为例,流程图如附图2所示。
首先,需要获取关于同一类型目标对象的缺陷数据集,缺陷数据集中的数据以图像的形式存在。每张图像上都存在相关的缺陷,缺陷的分布与目标对象息息相关,需要根据目标对象的工序等特点进行分析。在手机麦克风检测领域,缺陷就包括划痕、毛刺、污点等。除了异物以外,其他大部分缺陷都只会出现在一些固定的区域,比如污点或者毛刺通常只会出现在边框上,这是由生成过程中每个工序的特点导致的。在进行预测之前,需要先对图像进行预处理,保持输入图像的一致性。并且,由于需要获取缺陷的分布区域,优选地,使缺陷数据集中的图像在大小上相同,以保证能够根据缺陷所属类型的分布坐标设置缺陷的位置。
其中,缺陷的形状各式各样,本实施例设定方形框将缺陷完整框住,即可得到缺陷区域。同一类型的缺陷尽量保持缺陷区域大小一致。缺陷区域是方形的,与模型的方形输入图像相对应。在缺陷区域中,是包括缺陷和缺陷所在的背景。缺陷区域可以通过分析大量同种缺陷图像,人为界定一个方形区域。之后需要将每个缺陷区域中的缺项裁剪出来,得到缺陷样本。每个缺陷样本中都只包括缺陷而不包括其他部分。具体地,可以通过点的划分来裁剪出缺陷。示例性的,通过labelme标注工具,将缺陷通过点的形式将轮廓划出,然后根据输出的坐标点裁剪。
缺陷样本包括不同的类型,需要对其进行划分类型。缺陷样本的划分依据目标对象具体分析,可以根据缺陷分布的区域、缺陷的大小、缺陷的形状、缺陷的颜色特征等进行划分。示例性的,在手机麦克风缺陷检测领域,可将缺陷样本划分为毛刺、划痕和污点三大类,如附图3所示。划痕和污点通常是分布在较容易接触外部环境的区域,并且划痕通常呈线状,而污点呈点或面状。毛刺则是基于其工序特点分布在特定的位置。
得到缺陷样本并进行分类的目的是为了确定各类型缺陷样本在图像中所分布区域坐标。具体的,基于目标对象的缺陷特点,结合各个类型的缺陷样本在像素空间中的位置分布,界定出各类型缺陷样本在目标对象图像上的分布区域。若基于某一分类依据,无法有效地解析出各类型缺陷样本的分布区域,则更改分类依据重新进行分布区域的界定。
本实施例的智能生成方法需要借助改进的深度神经网络去实现。使用改进的深度神经网络对手机麦克风缺陷图像进行训练采样,模型在采样后进行学习,得到生成模型的具体参数,生成模型能够生成出缺陷图片。扩散模型的输入图像是服从标准高斯分布的与缺陷区域大小一样的噪声图像。在噪声图像中,仅包括噪声,而无需涉及相关的缺陷。本实施例的方案是输入一个纯噪声图像,通过一步步去噪,勾勒出缺陷的形态。相当于在一堆沙子中,通过挖出部分沙子,从而勾勒出不同的样子。而挖沙子的方式不同,得出的结果也不同,并不需要沙子一开始便具备输出结果的特征。
由于模型的输入通常是n*n的方形图像,在前述划定的噪声区域也为n*n的方形区域。噪声图像中仅包括噪声。实际生成过程无需对输入的噪声图像进行前向加噪,只需要借助扩散模型反向去噪即可,而训练网络参数需要前向加噪。本方案本质上是通过网络预测每一步的噪声,而提升网络预测的能力。
优选地,扩散模型选用U型网络。U型网络由特征提取网络(编码器)和特征融合网络(解码器)组成。特征提取网络由2个残差块和1个最大池化层组成1个下采样模块,特征融合网络由3个残差块和1个反卷积组成1个上采样模块。残差块包括2个卷积层和1个时间嵌入层,上下采样模块数量由输入图像分辨率控制,本实施例在U型网络的下采样模块和残差块进行了改进。具体地,在U型网络的下采样模块中新增了卷积注意力模块,使用GELU作为残差块中时间嵌入层(time_embed)的激活函数。
在一个具体实施例中,改进方案包括:在U型网络中添加卷积注意力模块CBAM(Convolutional Block Attention Module)。其中,卷积注意力模块由通道注意力模块(Channel attention module,CAM)和空间注意力模块(Spatial Attention Module,SAM)两个模块组成。CAM将任意中间特征F∈RC×H×WCAM(C:通道数,H:纵向维度像素数,W:水平维度像素数)通过池化等操作得到最终的通道注意力特征图Mc∈RC×1×1。保持通道维度不变,压缩空间维度,汇总通道注意力信息,再将输出结果作为输入特征图,传入空间注意力模块,经过一系列拼接、卷积等操作得到空间注意力特征Ms∈R1×H×W,保持空间维度不变,压缩通道维度。具体的模块流程如附图4所示。
在U型网络中,由于输入图像是RGB三通道图像,扩散模型需要对三个通道都进行学***移、旋转后的图像依然能够很好地提取到特征。
为缓解梯度消失现象,本实施例使用高斯误差线性单元(Gaussian Error LinearUnit)作为时间嵌入层中的激活函数,使得梯度具有更高的稳定性。激活函数的表达式为:
其中,X表示输入神经元,μ为正态分布均值,σ为正态分布方差,左侧公式是概念公式,实际使用的是右边的近似公式。
在训练之前,需要对图像进行加噪处理,将满足标准正态分布的噪声在输入图像上加噪t次。正向加噪和模型的反向去噪是镜像的,但是如果噪声预测效果差,那生成的图像也会有噪声。
优选地,采用余弦方式加噪,可以有效避免线性加噪的结束噪声太大、对样本质量贡献不大的情况。前向加噪t步所采用的加噪函数包括如下:
αt=1-βt
其中,Xt表示加噪t步后的图像,αt表示控制图像与噪声权重的系数,ε表示服从标准高斯分布的噪声;βt代表设定的1-αt,属于(0,1);表示α0到αt的乘积,f(t)表示利用余弦将Xt由线性变为非线性且控制/>在中间部分迅速下降,T表示设定的加噪步数,s是为防止βt在t=0附近太小而设置的值,取0.008。/>和/>是控制X0分布与加入的噪声的权重系数,并且为了防止在t=t附近的扩散过程结束时出现奇异性,这里让βt的大小不超过0.999;当t=T时,f(t)可能为0,会导致分子分母都为0,出现奇异性。
其中,扩散模型的训练具体包括:将预处理后的缺陷数据集前向加噪t步,且每一步添加的噪声满足标准高斯分布,得到噪声图像集;其中,t为大于0的正整数,通常设置为不少于1000,理论上低于1000也可以。将噪声图像集中的图像作为训练图像输入到扩散模型中进行逐步去噪处理,预测前向加噪过程中每一步添加的噪声及噪声分布,并将每一步预测的输出图像作为下一步预测的输入图像,直至满足预设停止条件,完成训练。优选地,预设停止条件为迭代次数。
训练的基本原理是:把预处理后的缺陷放入扩散模型中,扩散模型通过正向传播给输入图像添加噪声(例如添加2000步),且每一步添加的噪声符合高斯分布,最后将输入图像变为一个符合标准高斯分布的噪声图像。然后将该图像送入U型网络,通过该网络预测出前向过程中每一步添加的噪声的分布,然后通过实际噪声与预测噪声的误差作为损失函数更新网络参数,从预测的噪声分布中采样出噪声然后让输入图像减去该噪声,然后将减去这一步预测噪声的图像再次送入U型网络,单独迭代训练。
在一个优选实施例中,每次都扩散模型只采用一个类型的缺陷数据进行训练,使训练后的扩散模型能够根据输入的纯噪声图片输出该类型的缺陷子图像。同一类型的缺陷在大小上具有一定的相似性,可以同一缺陷区域,方便进行训练。此外,也可以采用多个扩散模型,每个扩散模型对应一种类型的缺陷子图像,输入同一噪声图像以预测不同类型的缺陷子图像。或者可以在一个扩散模型中设置标签,不同标签对应输出不同类型的缺陷子图像,实现缺陷类型的切换。
在每一步的预测中,具体包括如下:基于实际添加的噪声与预测的噪声、预测该步的噪声分布与实际该步的噪声分布计算损失函数,基于损失函数更新扩散模型的参数;在预测的噪声分布中采样出噪声,从当前的输入图像中减去该噪声得到当前的输出图像,并将当前的输出图像作为下一步的输入图像。
优选地,本实施例的损失函数分为两个部分,一个是预测的噪声与实际噪声之间的均方误差,也就是对像素差求解,第二部分是预测出的这一步的图像的分布与实际这一步图像的分布之间的KL散度。在第t步的预测中,计算实际添加的噪声与预测的噪声之间的均方误差,以及预测该步的噪声分布与实际该步的噪声分布之间的相对熵,损失函数为均方误差与相对熵线性相加之和;
损失函数L的表达式为:
L=Lmse+LKL
其中,Lmse表示实际添加的噪声与预测的噪声之间的均方误差,LKL表示预测的噪声分布与实际的噪声分布之间的相对熵。
Lkl=L0+L1+L2+…+Lt-1
L0=-log pθ(x0|x1)
Lt-1=DKL(q(xt-1|xt,x0)||pθ(xt-1|xt))
其中,ε表示前向添加的噪声,ε0表示已知添加t步噪声的图像xt以及当前时间步t,通过U型网络预测出的t-1到t的噪声。q(xt-1|xt,x0)是指已知xt和x0,通过贝叶斯公式计算出xt-1的分布,pθ(xt-1|xt)是指已知输入图像xt,通过U型网络模型采样出xt-1的分布。由于均值对分布影响更大,因此这里的λ设为0.001,防止Lkl的影响大过Lmse。Lkl表示在每一个t步,xt和x0计算得出的xt-1图像的分布与输入xt,通过神经网络采样出的xt-1图像的分布之间的相似性。
本实施例的智能生成方法,通过预设复制-粘贴算法,复制高斯滤波后的缺陷子图像,随机选取部分目标对象图像并粘贴到各图片的相应位置上;相比于传统数据增强方法对整张图片进行处理,本实施例的方案可以直接对缺陷对象进行增强,因此可以直接将生成图像进行复制-粘贴。缺陷子图像相当于创建出的新缺陷,在复制-粘贴过程中,缺陷子图像可以随机匹配到相应分布区域的位置,保证了生成缺陷图像的多样性。
复制-粘贴算法的表达式为:
其中,P表示缺陷图像,P1表示缺陷子图像,P2表示目标对象图像,表示mask掩膜。
本实施例提供了一种缺陷图像的智能生成方法,采用深度学习模型来学习缺陷对象在像素空间的概率分布,并根据概率分布中采样出缺陷样本,既能够扩充缺陷样本的数量,又能改变缺陷在图像中的位置,同时提升生成图像在缺陷上的多样性,更好地解决模型生成数据不均衡的问题。
实施例2
本实施例提供了一种缺陷图像的智能生成***,用于实现实施例1所述的一种缺陷图像的智能生成方法。智能生成***的模块示意图如附图5所示,具体方案如下:
一种缺陷图像的智能生成***,包括如下模块:
数据获取单元1,用于获取关于目标对象缺陷图像的缺陷数据集,筛选出缺陷数据集中各图像上含有缺陷的方形区域得到多个缺陷区域;
样本获取单元2,用于裁剪出缺陷区域中的缺陷并进行分类,得到各个类型的缺陷样本;
位置获取单元3,用于基于目标对象的缺陷特点,结合各个类型的缺陷样本在像素空间中的位置分布,界定出各类型缺陷样本在目标对象图像上的分布区域;
扩散模型单元4,用于将噪声符合高斯分布且与缺陷区域大小一致的噪声图像作为初始的输入图像输入到预训练的扩散模型中进行逐步去噪,使每步去噪后的图像仅包括缺陷且成为下一步去噪的输入图像并被纳入到生成图像集中;
图像生成单元5,用于在生成图像集中筛选出部分图像作为缺陷子图像,解析出各缺陷子图像所对应的缺陷样本,基于对应缺陷样本的分布区域,将缺陷子图像粘贴到目标对象图像的相应位置上,得到多个目标对象的缺陷图像。
其中,在扩散模型单元4中,扩散模型的训练具体包括:将预处理后的缺陷数据集前向加噪t步,且每一步添加的噪声满足标准高斯分布,得到噪声图像集;其中,t为大于0的正整数;将噪声图像集中的图像作为训练图像输入到扩散模型中进行逐步去噪处理,预测前向加噪过程中每一步添加的噪声及噪声分布,并将每一步预测的输出图像作为下一步预测的输入图像,直至满足预设停止条件,完成训练。
本发明提供了一种缺陷图像的智能生成方法及其***,采用深度学习模型来学习缺陷对象在像素空间的概率分布,并根据概率分布中采样出缺陷样本,既能够扩充缺陷样本的数量,又能改变缺陷在图像中的位置,同时提升生成图像在缺陷上的多样性,更好地解决模型生成数据不均衡的问题。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (10)
1.一种缺陷图像的智能生成方法,其特征在于,包括如下步骤:
获取关于目标对象缺陷图像的缺陷数据集,筛选出所述缺陷数据集中各图像上含有缺陷的方形区域得到多个缺陷区域;
裁剪出缺陷区域中的缺陷并进行分类,得到各个类型的缺陷样本;
基于目标对象的缺陷特点,结合各个类型的缺陷样本在像素空间中的位置分布,界定出各类型缺陷样本在目标对象图像上的分布区域;
将噪声符合高斯分布且与所述缺陷区域大小一致的噪声图像作为初始的输入图像输入到预训练的扩散模型中进行逐步去噪,使每步去噪后的图像仅包括缺陷且成为下一步去噪的输入图像并被纳入到生成图像集中;
在所述生成图像集中筛选出部分图像作为缺陷子图像,解析出各缺陷子图像所对应的缺陷样本,基于对应缺陷样本的分布区域,将缺陷子图像粘贴到目标对象图像的相应位置上,得到多个目标对象的缺陷图像。
2.根据权利要求1所述的智能生成方法,其特征在于,所述扩散模型的训练具体包括:
将预处理后的缺陷数据集前向加噪t步,且每一步添加的噪声满足标准高斯分布,得到噪声图像集;其中,t为大于0的正整数;
将所述噪声图像集中的图像作为训练图像输入到扩散模型中进行逐步去噪处理,预测前向加噪过程中每一步添加的噪声及噪声分布,并将每一步预测的输出图像作为下一步预测的输入图像,直至满足预设停止条件,完成训练。
3.根据权利要求2所述的智能生成方法,其特征在于,在每一步的预测中,具体包括如下:
基于实际添加的噪声与预测的噪声、预测该步的噪声分布与实际该步的噪声分布计算损失函数,基于损失函数更新扩散模型的参数;
在预测的噪声分布中采样出噪声,从当前的输入图像中减去该噪声得到当前的输出图像,并将当前的输出图像作为下一步的输入图像。
4.根据权利要求1所述的智能生成方法,其特征在于,将U型网络作为所述扩散模型,并在所述U型网络中添加包含通道注意力模块和空间注意力模块在内的卷积注意力模块;
通过所述通道注意力模块使得U型网络对RGB三个通道分配不同的权重,以更好地提取特征;
通过所述空间注意力模块使得U型网络自动捕获在空间中形变后图像的区域特征。
5.根据权利要求3所述的智能生成方法,其特征在于,在第t步的预测中,计算实际添加的噪声与预测的噪声之间的均方误差,以及预测该步的噪声分布与实际该步的噪声分布之间的相对熵,所述损失函数为所述均方误差与所述相对熵线性相加之和;
所述损失函数L的表达式为:
L=Lmse+LKL
其中,Lmse表示实际添加的噪声与预测的噪声之间的均方误差,LKL表示预测的噪声分布与实际的噪声分布之间的相对熵。
6.根据权利要求5所述的智能生成方法,其特征在于,通过预设复制-粘贴算法,复制高斯滤波后的缺陷子图像,随机选取部分目标对象图像并粘贴到各图片的相应位置上;
所述复制-粘贴算法的表达式为:
其中,P表示缺陷图像,P1表示缺陷子图像,P2表示目标对象图像,表示mask掩膜。
7.根据权利要求1所述的智能生成方法,其特征在于,前向加噪t步所采用的加噪函数包括如下:
αt=1-βt
其中,Xt表示加噪t步后的图像,αt表示控制图像与噪声权重的系数,ε表示服从标准高斯分布的噪声;βt代表设定的1-αt,属于(0,1);表示α0到αt的乘积,f(t)表示利用余弦将Xt由线性变为非线性且控制/>在中间部分迅速下降,T表示设定的加噪步数,s是为防止βt在t=0附近太小而设置的值,/>和/>是控制X0分布与加入的噪声的权重系数。
8.根据权利要求1所述的智能生成方法,其特征在于,在所述U型网络的卷积模块中,使用高斯误差线性单元作为时间嵌入层中的激活函数,使得梯度具有更高的稳定性。
9.一种缺陷图像的智能生成***,其特征在于,包括如下模块:
数据获取单元,用于获取关于目标对象缺陷图像的缺陷数据集,筛选出所述缺陷数据集中各图像上含有缺陷的方形区域得到多个缺陷区域;
样本获取单元,用于裁剪出缺陷区域中的缺陷并进行分类,得到各个类型的缺陷样本;
位置获取单元,用于基于目标对象的缺陷特点,结合各个类型的缺陷样本在像素空间中的位置分布,界定出各类型缺陷样本在目标对象图像上的分布区域;
扩散模型单元,用于将噪声符合高斯分布且与所述缺陷区域大小一致的噪声图像作为初始的输入图像输入到预训练的扩散模型中进行逐步去噪,使每步去噪后的图像仅包括缺陷且成为下一步去噪的输入图像并被纳入到生成图像集中;
图像生成单元,用于在所述生成图像集中筛选出部分图像作为缺陷子图像,解析出各缺陷子图像所对应的缺陷样本,基于对应缺陷样本的分布区域,将缺陷子图像粘贴到目标对象图像的相应位置上,得到多个目标对象的缺陷图像。
10.根据权利要求9所述的智能生成***,其特征在于,在所述扩散模型单元中,所述扩散模型的训练具体包括:
将预处理后的缺陷数据集前向加噪t步,且每一步添加的噪声满足标准高斯分布,得到噪声图像集;其中,t为大于0的正整数;
将所述噪声图像集中的图像作为训练图像输入到扩散模型中进行逐步去噪处理,预测前向加噪过程中每一步添加的噪声及噪声分布,并将每一步预测的输出图像作为下一步预测的输入图像,直至满足预设停止条件,完成训练。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310913797 | 2023-07-24 | ||
CN2023109137973 | 2023-07-24 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117036281A true CN117036281A (zh) | 2023-11-10 |
Family
ID=88629527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311001282.2A Pending CN117036281A (zh) | 2023-07-24 | 2023-08-09 | 一种缺陷图像的智能生成方法及其*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117036281A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117392678A (zh) * | 2023-12-06 | 2024-01-12 | 常州微亿智造科技有限公司 | 缺陷检测方法和*** |
CN117649351A (zh) * | 2024-01-30 | 2024-03-05 | 武汉大学 | 一种基于扩散模型的工业缺陷图像仿真方法及装置 |
-
2023
- 2023-08-09 CN CN202311001282.2A patent/CN117036281A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117392678A (zh) * | 2023-12-06 | 2024-01-12 | 常州微亿智造科技有限公司 | 缺陷检测方法和*** |
CN117649351A (zh) * | 2024-01-30 | 2024-03-05 | 武汉大学 | 一种基于扩散模型的工业缺陷图像仿真方法及装置 |
CN117649351B (zh) * | 2024-01-30 | 2024-04-19 | 武汉大学 | 一种基于扩散模型的工业缺陷图像仿真方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108921799B (zh) | 基于多尺度协同学习卷积神经网络的遥感图像薄云去除方法 | |
CN111915530B (zh) | 一种基于端到端的雾霾浓度自适应神经网络图像去雾方法 | |
CN111539887B (zh) | 一种基于混合卷积的通道注意力机制和分层学习的神经网络图像去雾方法 | |
CN111340738B (zh) | 一种基于多尺度渐进融合的图像去雨方法 | |
CN112734650B (zh) | 一种基于虚拟多曝光融合的不均匀光照图像增强方法 | |
CN117036281A (zh) | 一种缺陷图像的智能生成方法及其*** | |
Khan et al. | Localization of radiance transformation for image dehazing in wavelet domain | |
CN110443763B (zh) | 一种基于卷积神经网络的图像阴影去除方法 | |
CN111260055A (zh) | 基于三维图像识别的模型训练方法、存储介质和设备 | |
CN111462012A (zh) | 一种基于条件生成对抗网络的sar图像仿真方法 | |
CN110807738B (zh) | 一种基于边缘图块锐化的模糊图像非盲复原方法 | |
JP7493867B1 (ja) | 深層Retinexに基づいた低光画像強調方法 | |
Chen et al. | Structure-preserving and color-restoring up-sampling for single low-light image | |
CN111768326A (zh) | 一种基于gan扩增图像前景物体的高容量数据保护方法 | |
CN114638768B (zh) | 一种基于动态关联学习网络的图像去雨方法、***及设备 | |
CN113066025A (zh) | 一种基于增量学习与特征、注意力传递的图像去雾方法 | |
CN114627269A (zh) | 一种基于深度学***台 | |
Cheng et al. | A highway traffic image enhancement algorithm based on improved GAN in complex weather conditions | |
Selva Nidhyanandhan et al. | Double stage gaussian filter for better underwater image enhancement | |
CN113421210B (zh) | 一种基于双目立体视觉的表面点云重建方法 | |
Tan et al. | High dynamic range imaging for dynamic scenes with large-scale motions and severe saturation | |
CN113962905A (zh) | 基于多阶段特征互补网络的单幅图像去雨方法 | |
CN117197438A (zh) | 一种基于视觉显著性的目标检测方法 | |
CN111882495B (zh) | 一种基于自定义模糊逻辑与gan的图像高光处理方法 | |
CN115115860A (zh) | 一种基于深度学习的图像特征点检测匹配网络 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |