CN113642680A

CN113642680A - 边缘合成及超球体软拟合缺陷检测方法

Info

Publication number: CN113642680A
Application number: CN202111192923.8A
Authority: CN
Inventors: 邱增帅; 王罡; 周佩涵; 潘正颐; 侯大为
Original assignee: Changzhou Weiyizhi Technology Co Ltd
Current assignee: Changzhou Weiyizhi Technology Co Ltd
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2021-11-12
Anticipated expiration: 2041-10-13
Also published as: CN113642680B

Abstract

本发明公开了一种边缘合成及超球体软拟合缺陷检测方法，找出小样本T类中的每一个样本

的m个最近邻；将T类样本分为三类，它们分别为噪声类、危险类和安全类，噪声类的样本和安全类的样本均不做处理；对于处于危险类中的每个样本，计算出它的k个最近邻样本；使用危险类样本生成新数据并添加到训练数据当中；将训练数据映射到特征空间；计算包围正样本的超球体半径R，计算测试样本点到超球体球心的距离dist；判断是否

，如果

，则认为是正样本，如果dist大于R，则认为是负样本，最终得出测试样本分类结果。该方法具有减少工业零部件的不同缺陷在设备上识别出现断层、提高模型精确度、降低现场工作难度的优点。

Description

边缘合成及超球体软拟合缺陷检测方法

技术领域

本发明涉及缺陷检测的技术领域，尤其是一种边缘合成及超球体软拟合缺陷检测方法。

背景技术

由于工业现场质检数据本身存在多样性，工件新产生的缺陷类型常常在历史数据中没有发生过，缺乏先验信息且数据量极小。这直接导致了工业设备对缺陷的识别不准确，造成工业质检数据与实际现场环境存在误差。基于这个需求，亟需发明一种可以增加少量数据（扩大数据样本量）并且准确分类识别的方法，降低工业零部件的不同缺陷在设备上的识别断层，从而提高设备模型精确度，减少现场工作难度的目的。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。

为此，本发明提出一种边缘合成及超球体软拟合缺陷检测方法，该边缘合成及超球体软拟合缺陷检测方法具有减少工业零部件的不同缺陷在设备上识别出现断层、提高模型精确度、降低现场工作难度的优点。

根据本发明实施例的边缘合成及超球体软拟合缺陷检测方法，具体步骤如下：

第1步骤、找出小样本 T类中的每一个样本

的m个最近邻，其中的

且m为正整数，

，分别统计每个小样本

的m个最近邻所属类别，近邻为大样本 F的个数用

表示；

第2步骤、将T类样本分为三类，它们分别为噪声类、危险类和安全类，其中，噪声类的样本T和安全类的样本T均不做处理；

第3步骤、处于危险类中的样本是小样本类别T的边界数据用

表示，对于处于危险类中的每个样本，计算出它的k个最近邻样本，其中的

且k为正整数，该k个最近邻样本可能包含T和F的样本；

第4步骤、使用危险类样本生成新数据并添加到训练数据当中；

第5步骤、将训练数据映射到特征空间；

第6步骤、计算包围正样本的超球体半径R，计算测试样本点到超球体球心的距离dist；

第7步骤、判断是否

，如果

，则认为是正样本，如果dist大于R，则认为是负样本，最终得出测试样本分类结果。

本发明的有益效果是，本发明属于算法的协同合作，可以减少工业零部件的不同缺陷在设备上识别出现断层，从而提高模型精确度，降低现场工作难度，满足工业现场的动态需求，提高执行效率，降低已有算法的训练成本和影响，采用边缘合成及超球体软拟合缺陷检测的训练成本低并且准确率高，将新出现的缺陷类型数据量增加后添加到超球体软拟合技术当中后直接训练，解决了由于数据量过小导致的设备识别不准确的问题，克服了由于光照条件、相机角度、工件差异、亮度、湿度等导致的缺陷物理量描述不一的不利因素，完成对多项目多缺陷的缺陷精准检测及划分。

进一步具体地限定，上述技术方案中，在第1步骤中，最近邻所采用的距离为欧氏距离，表示为：

（1）

其中，

表示样本

到样本

的距离；

表示训练集的特征数h中的一个，其中

；

表示样本A在特征

上的值；

表示样本B在特征

上的值。

进一步具体地限定，上述技术方案中，所述第4步骤的具体步骤是：

第4.1步骤、首先从

中的k个最近邻中随机选择s个最近邻，其中

且s为正整数；

第4.2步骤、然后计算

与其s个最近邻之间的差，用

表示；

第4.3步骤、再将

乘以随机数

，其中其中随机数

的范围是0～0.5；；

第4.4步骤、最后得到s个新的T类样本数据。

进一步具体地限定，上述技术方案中，对每一个

重复上述步骤，生成大量新的 T类样本数据，由于新的数据是沿着区分小样本类别的边界样本数据和其最近邻之间样本之间生成的，从而加强了样本区分的边界，危险类样本与其最近邻之间的差乘以0到0.5之间的随机数，这样可以使新生成的样本更接近于小样本的类别。

进一步具体地限定，上述技术方案中，在第5步骤中，采用超球体软拟合技术对新生成的数据进行分类训练，该超球体软拟合技术是单类别分类技术，可以识别并判断训练样本和非训练样本两类；具体操作如下，首先将训练集与新生成的T样本数据从原始数据映射到高维度的特征空间，采用非线性变换函数对数据进行映射

，其中，

表示拉伸过后的函数；x表示特征向量；F表示特征空间。

进一步具体地限定，上述技术方案中，在第6步骤中，从特征空间中找出一个包围正样本的超球体，并通过最小化该超球体的体积让正样本点尽可能地被包围在超球体中，且负样本点尽可能地排除在超球体之外。

进一步具体地限定，上述技术方案中，在第7步骤中，将测试样本导入训练完成的超球体软拟合技术当中，判断测试样本是否在超球体表面或内部，对于某一个测试样本，该测试样本点到超球体球心的距离为dist，若测试样本在超球体表面或内部，则该测试样本为正样本，反之则为负样本，得出一系列测试样本属性，边缘合成超球体软拟合技术结束。

进一步具体地限定，上述技术方案中，在第2步骤中，T类样本的分类规则如下：如果

，即

的所有m个最近邻都是F类的样本，则认为

是噪声类；如果

，即

的m个最近邻样本中F类样本数大于T类样本数，且F类样本总数大于T类样本总数，F类样本总数和T类样本总数之和等于m，则认为

容易被误分类，并处于危险类；如果

，即

的最近邻样本中F类样本数小于T类样本数，则认为

是安全类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的流程图；

图2是使用BSMOTE方法前训练数据二维分布示意图；

图3是带有BSMOTE标注的训练数据二维分布示意图；

图4是使用BSMOTE方法后的训练数据二维分布示意图；

图5是超球体软拟合技术分类测试结果。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

见图1，本发明的一种边缘合成及超球体软拟合缺陷检测方法，具体步骤如下：

第1步骤、假设整体训练集共分为两类，其中一类样本数量小，另一类样本数量大，小样本类别用T表示，大样本类别用F表示，其中T的样本数量用

来表示，F的样本数量用

来表示。对于小样本量T类中的每一个样本

，从训练集中找出小样本 T类中的每一个样本

的m个最近邻，其中的

且m为正整数，

，分别统计每个小样本

的m个最近邻所属类别，近邻为大样本F的个数用

表示，即m个最近邻中的属于大样本F类的例子用

个来表示。上述提到的最近邻所采用的距离为欧氏距离（Euclidean Distance），表示为：

（1）

其中，

表示样本

到样本

的距离；h表示训练集的特征个数；

表示训练集的特征数h中的一个，其中

；

表示样本A在特征

上的值；

表示样本B在特征

上的值。

第2步骤、将T类样本分为三类，它们分别为噪声类（noise）、危险类（danger）和安全类（safe），分类规则如下：

如果

，即

的所有m个最近邻都是F类的样本，则认为

是噪声类；

如果

，即

容易被误分类，并处于危险；

如果

，即

的最近邻样本中F类样本数小于T类样本数，则认为

是安全类；

其中，噪声类的样本T和安全类的样本T均不做处理。

需要说明的是：F类样本表示数据集中大样本的数据，T类样本表示数据集中小样本的数据，

表示小样本数据中第i个小样本。T类样本总数 = 噪声类T样本总数+危险类T 样本总数+安全类T样本总数。以样本的m个最近邻样本类别数来判断该T类样本属于哪一类。例如，

的最近邻样本中F类样本数大于T类样本数，这里

表示第i个小样本数据。最近邻样本中F类样本数大于T类样本数表示当前的F类样本数+ T类样本数 = m，且F类样本数 > T类样本数。

第3步骤、处于危险类中的样本是小样本类别T的边界数据用

且k为正整数，该k个最近邻样本可能包含T和F的样本。

第4步骤、使用危险类样本生成新数据并添加到训练数据当中；具体步骤是：

第4.1步骤、首先从

中的k个最近邻中随机选择s个最近邻，其中

且s为正整数；

第4.2步骤、然后计算

与其s个最近邻之间的差，用

表示，

（2）

其中，

表示小样本类中处于危险类的第i个样本；

表示

的s个最近邻之一，

且j为正整数；

第4.3步骤、再将

乘以随机数

，其中，随机数

的范围是0～0.5；

第4.4步骤、最后得到s个新的T类样本数据；

对每一个

重复上述步骤，生成大量新的T类样本数据，由于新的数据是沿着区分小样本类别的边界样本数据（危险类）和其最近邻之间样本之间生成的，从而加强了样本区分的边界，危险类样本与其最近邻之间的差乘以0到0.5之间的随机数，这样可以使新生成的样本更接近于小样本的类别，新样本数据生成公式为：

（3）

上述公式（3）也可以表示为：

（4）

第5步骤、将训练数据映射到特征空间；采用超球体软拟合技术对新生成的数据进行分类训练，该超球体软拟合技术是单类别分类技术，可以识别并判断训练样本和非训练样本（即正样本和非正样本）两类；具体操作如下，首先将训练集与新生成的T样本数据从原始数据映射到高维度的特征空间，采用非线性变换函数对数据进行映射

（整体表示为通过非线性函数将特征向量x映射到特征空间F），其中，

表示拉伸过后的函数；x表示特征向量；F表示特征空间。需要说明的是：对原始数据进行高维映射时，是对特征向量x里的每个样本，也就是每一行的特征向量都进行了拉伸变换，使得对x中的每个元素，在F中有唯一确定的元素f与之对应，将拉伸过后的函数叫做

，则称

为从x到F的映射。

第6步骤、计算包围正样本（训练样本）的超球体半径R，计算测试样本点到超球体球心的距离dist；从特征空间中找出一个包围正样本（训练样本）的超球体，并通过最小化该超球体的体积让正样本点尽可能地被包围在超球体中，且负样本点尽可能地排除在超球体之外；最小化超球体的体积公式为：

（5）

其中，p表示第p个训练样本；

表示超球体的球心；R表示超球体半径；

表示松弛因子；C表示一个权衡超球体体积和误分率的惩罚参数；n表示训练集的样本个数；求和符号 ∑右下角的p=1表示p取值从1开始直到p取值为n。

上述公式（5）中的对偶公式为：

（6）

其中，求和符号∑右下角的p=1表示p取值从1开始直到p取值为n；q表示第q个训练样本；

表示核函数，等同于特征空间中样本的内积；

表示样本

对应的拉格朗日系数，且

，

；

表示样本

对应的拉格朗日系数，且

，

；在所有训练样本中，把拉格朗日系数满足

的样本称为支持向量，假设训练数据集中属于支持向量的样本集合为SV，则：

（7）

(8)

其中，

表示训练数据集中属于支持向量的样本集合

中的点，

；

是核函数，等同于特征空间中样本的内积，即

。

第7步骤、判断是否

，如果

，则认为是正样本，如果dist大于R，则认为是负样本，最终得出测试样本分类结果。具体地，将测试样本导入训练完成的超球体软拟合技术当中，判断测试样本是否在超球体表面或内部（即是否

），对于某一个测试样本

，该测试样本点到超球体球心的距离为：

（9）

若测试样本在超球体表面或内部，则该测试样本为正样本，反之则为负样本，得出一系列测试样本属性，边缘合成超球体软拟合技术结束。

见图2，圆点为小样本量数据T，三角形为大样本量数据F，T的数量为60个，F的数量为1580个。

见图3，圆点为小样本量数据T，三角形为大样本量数据F，五角星为边缘合成少数类过采样技术（BSMOTE）标注的小样本量数据中的危险类数据，可以明显看出危险类数据处于T和F样本分布的边界，T的数量为60个，F的数量为1580个，危险类的数量为24个。

见图4，圆点为小样本量数据T，三角形为大样本量数据F，T类数据明显增多，且使用边缘合成少数类过采样技术（BSMOTE）方法进行过采样后，T类数据的边界增强，轮廓清晰，T的数量为660个，F的数量为1580个。

超球体软拟合技术分类识别结果对比表

以上对比表为未使用边缘合成少数类过采样技术（BSMOTE）进行边缘数据合成及使用后的超球体软拟合技术分类识别结果对比表，表中可以明显看出在测试样本不变的情况下，使用边缘合成少数类过采样技术（BSMOTE）进行边缘数据合成对模型识别缺陷的综合准确率提高了超过40%（F1分数达到94%）。计算过程是；

使用后的F1分数-使用前的F1分数=0.9416576 - 0.5271884=0.4144692*100% ≈41.4%（超过40%），这说明几乎所有的缺陷都被识别出来了。

见图5，超球体软拟合技术在模型训练时采用边缘合成少数类过采样技术（BSMOTE）进行边缘数据合成后的训练数据。图中位于黑色横线下方的样本点为正确识别的数据，横线上方为误识别的数据，可以很明显看出只有个别缺陷被误识别，这说明使用BSMOTE边缘合成数据和超球体软拟合技术协同使用的方法可以有效地提高算法识别的准确性。

边缘合成及超球体软拟合缺陷识别技术的关键点在于，它充分迎合了工业现场无法处理未知新缺陷或某类缺陷数量极少的情况。未知新缺陷的特征往往和某些已知的缺陷/污渍/毛絮等相似，很难在数据量极少的情况下将缺陷识别出来，因此引入了边缘合成技术进行人工合成新样本来增加小样本缺陷的样本量。由于危险类缺陷样本对决策影响大，处于边界附近的缺陷样本（危险类缺陷样本）更容易被错误分类，所以仅对缺陷中的危险类缺陷进行人工合成新的缺陷样本。这使得缺陷样本的边界清晰，缺陷数据的不确定性较小且克服了不同类样本之间混叠的现象。受未知新缺陷不存在历史数据库中的影响，现有的算法模型无法进行决策训练。超球体软拟合技术作为一种单一分类器，可以在无历史数据的情况下识别缺陷。即只用边缘合成技术后的未知新缺陷样本进行训练，然后使用超球体软拟合技术对测试数据进行决策，该技术可以识别出测试数据中属于未知新缺陷这一类别的数据。这极大地降低了现有算法的训练成本和影响，在不破坏现有算法的前提下提升了工业现场准确率及执行效率。

以上所述的，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种边缘合成及超球体软拟合缺陷检测方法，其特征在于，具体步骤如下：

第1步骤、找出小样本 T类中的每一个样本

的m个最近邻，其中的

且m为正整数，

，分别统计每个小样本

的m个最近邻所属类别，近邻为大样本F的个数用

表示；

第3步骤、处于危险类中的样本是小样本类别T的边界数据用

且k为正整数，该k个最近邻样本可能包含T和F的样本；

第5步骤、将训练数据映射到特征空间；

第7步骤、判断是否

，如果

2.根据权利要求1所述的边缘合成及超球体软拟合缺陷检测方法，其特征在于：在第1步骤中，最近邻所采用的距离为欧氏距离，表示为：

（1）

其中，

表示样本

到样本

的距离；表示训练集的特征数h中的一个，其中

；

表示样本A在特征上的值；

表示样本B在特征上的值。

3.根据权利要求1所述的边缘合成及超球体软拟合缺陷检测方法，其特征在于：所述第4步骤的具体步骤是：

第4.1步骤、首先从

中的k个最近邻中随机选择s个最近邻，其中

且s为正整数；

第4.2步骤、然后计算

与其s个最近邻之间的差，用

表示；

第4.3步骤、再将

乘以随机数

，其中随机数

的范围是0～0.5；

第4.4步骤、最后得到s个新的T类样本数据。

4.根据权利要求3所述的边缘合成及超球体软拟合缺陷检测方法，其特征在于：对每一个

重复上述步骤，生成大量新的T类样本数据，由于新的数据是沿着区分小样本类别的边界样本数据和其最近邻之间样本之间生成的，从而加强了样本区分的边界，危险类样本与其最近邻之间的差乘以0到0.5之间的随机数，这样可以使新生成的样本更接近于小样本的类别。

5.根据权利要求1所述的边缘合成及超球体软拟合缺陷检测方法，其特征在于：在第5 步骤中，采用超球体软拟合技术对新生成的数据进行分类训练，该超球体软拟合技术是单类别分类技术，可以识别并判断训练样本和非训练样本两类；具体操作如下，首先将训练集与新生成的T样本数据从原始数据映射到高维度的特征空间，采用非线性变换函数对数据进行映射，其中，