CN113642680B - 边缘合成及超球体软拟合缺陷检测方法 - Google Patents

边缘合成及超球体软拟合缺陷检测方法 Download PDF

Info

Publication number
CN113642680B
CN113642680B CN202111192923.8A CN202111192923A CN113642680B CN 113642680 B CN113642680 B CN 113642680B CN 202111192923 A CN202111192923 A CN 202111192923A CN 113642680 B CN113642680 B CN 113642680B
Authority
CN
China
Prior art keywords
sample
class
samples
hypersphere
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111192923.8A
Other languages
English (en)
Other versions
CN113642680A (zh
Inventor
邱增帅
王罡
周佩涵
潘正颐
侯大为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Weiyizhi Technology Co Ltd
Original Assignee
Changzhou Weiyizhi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Weiyizhi Technology Co Ltd filed Critical Changzhou Weiyizhi Technology Co Ltd
Priority to CN202111192923.8A priority Critical patent/CN113642680B/zh
Publication of CN113642680A publication Critical patent/CN113642680A/zh
Application granted granted Critical
Publication of CN113642680B publication Critical patent/CN113642680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Processing (AREA)
  • Investigating Materials By The Use Of Optical Means Adapted For Particular Applications (AREA)

Abstract

本发明公开了一种边缘合成及超球体软拟合缺陷检测方法,找出小样本T类中的每一个样本
Figure 875759DEST_PATH_IMAGE001
的m个最近邻;将T类样本分为三类,它们分别为噪声类、危险类和安全类,噪声类的样本和安全类的样本均不做处理;对于处于危险类中的每个样本,计算出它的k个最近邻样本;使用危险类样本生成新数据并添加到训练数据当中;将训练数据映射到特征空间;计算包围正样本的超球体半径R,计算测试样本点到超球体球心的距离dist;判断是否
Figure 855217DEST_PATH_IMAGE002
,如果
Figure 697271DEST_PATH_IMAGE002
,则认为是正样本,如果dist大于R,则认为是负样本,最终得出测试样本分类结果。该方法具有减少工业零部件的不同缺陷在设备上识别出现断层、提高模型精确度、降低现场工作难度的优点。

Description

边缘合成及超球体软拟合缺陷检测方法
技术领域
本发明涉及缺陷检测的技术领域,尤其是一种边缘合成及超球体软拟合缺陷检测方法。
背景技术
由于工业现场质检数据本身存在多样性,工件新产生的缺陷类型常常在历史数据中没有发生过,缺乏先验信息且数据量极小。这直接导致了工业设备对缺陷的识别不准确,造成工业质检数据与实际现场环境存在误差。基于这个需求,亟需发明一种可以增加少量数据(扩大数据样本量)并且准确分类识别的方法,降低工业零部件的不同缺陷在设备上的识别断层,从而提高设备模型精确度,减少现场工作难度的目的。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
为此,本发明提出一种边缘合成及超球体软拟合缺陷检测方法,该边缘合成及超球体软拟合缺陷检测方法具有减少工业零部件的不同缺陷在设备上识别出现断层、提高模型精确度、降低现场工作难度的优点。
根据本发明实施例的边缘合成及超球体软拟合缺陷检测方法,具体步骤如下:
第1步骤、找出小样本
Figure 285931DEST_PATH_IMAGE001
类中的每一个样本
Figure 140754DEST_PATH_IMAGE002
Figure 107442DEST_PATH_IMAGE003
个最近邻,其中的
Figure 502651DEST_PATH_IMAGE004
Figure 254707DEST_PATH_IMAGE005
为正整数,
Figure 264120DEST_PATH_IMAGE006
,分别统计每个小样本
Figure 468836DEST_PATH_IMAGE007
Figure 854687DEST_PATH_IMAGE008
个最近邻所属类别,近邻为大样本
Figure 461249DEST_PATH_IMAGE009
的个数用
Figure 635704DEST_PATH_IMAGE010
表示;
第2步骤、将
Figure 327717DEST_PATH_IMAGE001
类样本分为三类,它们分别为噪声类、危险类和安全类,其中,噪声类的样本
Figure 189362DEST_PATH_IMAGE011
和安全类的样本
Figure 899698DEST_PATH_IMAGE011
均不做处理;
第3步骤、处于危险类中的样本是小样本类别
Figure 267226DEST_PATH_IMAGE011
的边界数据用
Figure 695802DEST_PATH_IMAGE012
表示,对于处于危险类中的每个样本,计算出它的
Figure 908608DEST_PATH_IMAGE013
个最近邻样本,其中的
Figure 552079DEST_PATH_IMAGE014
Figure 74196DEST_PATH_IMAGE015
为正整数,该
Figure 740801DEST_PATH_IMAGE015
个最近邻样本可能包含
Figure 6566DEST_PATH_IMAGE016
Figure 442227DEST_PATH_IMAGE017
的样本;
第4步骤、使用危险类样本生成新数据并添加到训练数据当中;
第5步骤、将训练数据映射到特征空间;
第6步骤、计算包围正样本的超球体半径
Figure 400824DEST_PATH_IMAGE018
,计算测试样本点到超球体球心的距离
Figure 289146DEST_PATH_IMAGE019
第7步骤、判断是否
Figure 171651DEST_PATH_IMAGE020
,如果
Figure 711086DEST_PATH_IMAGE021
,则认为是正样本,如果
Figure 591317DEST_PATH_IMAGE022
大于
Figure 222062DEST_PATH_IMAGE023
,则认为是负样本,最终得出测试样本分类结果。
本发明的有益效果是,本发明属于算法的协同合作,可以减少工业零部件的不同缺陷在设备上识别出现断层,从而提高模型精确度,降低现场工作难度,满足工业现场的动态需求,提高执行效率,降低已有算法的训练成本和影响,采用边缘合成及超球体软拟合缺陷检测的训练成本低并且准确率高,将新出现的缺陷类型数据量增加后添加到超球体软拟合技术当中后直接训练,解决了由于数据量过小导致的设备识别不准确的问题,克服了由于光照条件、相机角度、工件差异、亮度、湿度等导致的缺陷物理量描述不一的不利因素,完成对多项目多缺陷的缺陷精准检测及划分。
进一步具体地限定,上述技术方案中,在第1步骤中,最近邻所采用的距离为欧氏距离,表示为:
Figure 580362DEST_PATH_IMAGE025
其中,
Figure 239882DEST_PATH_IMAGE026
表示样本
Figure 353332DEST_PATH_IMAGE028
到样本
Figure 216246DEST_PATH_IMAGE030
的距离;
Figure 627504DEST_PATH_IMAGE031
表示训练集的特征数
Figure 626684DEST_PATH_IMAGE032
中的一 个,其中
Figure 97986DEST_PATH_IMAGE034
Figure 448196DEST_PATH_IMAGE035
表示样本
Figure 663145DEST_PATH_IMAGE036
在特征
Figure 782411DEST_PATH_IMAGE037
上的值;
Figure 159035DEST_PATH_IMAGE038
表示样本
Figure 996541DEST_PATH_IMAGE039
在特征
Figure 562651DEST_PATH_IMAGE040
上的 值。
进一步具体地限定,上述技术方案中,所述第4步骤的具体步骤是:
第4.1步骤、首先从
Figure 51270DEST_PATH_IMAGE041
中的
Figure 349527DEST_PATH_IMAGE042
个最近邻中随机选择
Figure 923597DEST_PATH_IMAGE043
个最近邻,其中
Figure 231082DEST_PATH_IMAGE044
Figure 326206DEST_PATH_IMAGE045
为正整数;
第4.2步骤、然后计算
Figure 60944DEST_PATH_IMAGE046
与其
Figure 856731DEST_PATH_IMAGE047
个最近邻之间的差,用
Figure 967906DEST_PATH_IMAGE048
表示;
第4.3步骤、再将
Figure 165538DEST_PATH_IMAGE049
乘以随机数
Figure 133494DEST_PATH_IMAGE050
,其中,随机数
Figure 167309DEST_PATH_IMAGE051
的范围是0~0.5;
第4.4步骤、最后得到
Figure 65864DEST_PATH_IMAGE052
个新的
Figure 868735DEST_PATH_IMAGE053
类样本数据。
进一步具体地限定,上述技术方案中,对每一个
Figure 194543DEST_PATH_IMAGE054
重复上述第4.1步骤至第4.4步骤,生成大量新的
Figure 715654DEST_PATH_IMAGE055
类样本数据,由于新的数据是沿着区分小样本类别的边界样本数据和其最近邻样本之间生成的,从而加强了样本区分的边界,危险类样本与其最近邻之间的差乘以0到0.5之间的随机数,这样可以使新生成的样本更接近于小样本的类别。
进一步具体地限定,上述技术方案中,在第5步骤中,采用超球体软拟合技术对新生成的数据进行分类训练,该超球体软拟合技术是单类别分类技术,可以识别并判断训练样本和非训练样本两类;具体操作如下,首先将训练集与新生成的
Figure 152320DEST_PATH_IMAGE056
样本数据从原始数据映射到高维度的特征空间,采用非线性变换函数对数据进行映射
Figure 75277DEST_PATH_IMAGE057
,其中,
Figure 385036DEST_PATH_IMAGE058
表示拉伸过后的函数;
Figure 642711DEST_PATH_IMAGE059
表示特征向量;
Figure 633800DEST_PATH_IMAGE060
表示特征空间。
进一步具体地限定,上述技术方案中,在第6步骤中,从特征空间中找出一个包围正样本的超球体,并通过最小化该超球体的体积让正样本点尽可能地被包围在超球体中,且负样本点尽可能地排除在超球体之外。
进一步具体地限定,上述技术方案中,在第7步骤中,将测试样本导入训练完成的超球体软拟合技术当中,判断测试样本是否在超球体表面或内部,对于某一个测试样本
Figure 660531DEST_PATH_IMAGE061
,该测试样本点到超球体球心的距离为
Figure 78874DEST_PATH_IMAGE062
,若测试样本在超球体表面或内部,则该测试样本为正样本,反之则为负样本,得出一系列测试样本属性,边缘合成超球体软拟合技术结束。
进一步具体地限定,上述技术方案中,在第2步骤中,
Figure 564125DEST_PATH_IMAGE063
类样本的分类规则如下:如果
Figure 421223DEST_PATH_IMAGE064
,即
Figure 53192DEST_PATH_IMAGE065
的所有
Figure 891704DEST_PATH_IMAGE066
个最近邻都是
Figure 874704DEST_PATH_IMAGE067
类的样本,则认为
Figure 269913DEST_PATH_IMAGE068
是噪声类;如果
Figure 5657DEST_PATH_IMAGE069
,即
Figure 31381DEST_PATH_IMAGE070
Figure 485365DEST_PATH_IMAGE071
个最近邻样本中
Figure 684266DEST_PATH_IMAGE072
类样本数大于
Figure 25248DEST_PATH_IMAGE073
类样本数,且
Figure 471142DEST_PATH_IMAGE074
类样本总数大于
Figure 225471DEST_PATH_IMAGE075
类样本总数,
Figure 900166DEST_PATH_IMAGE074
类样本总数和
Figure 610502DEST_PATH_IMAGE075
类样本总数之和等于m,则认为
Figure 978030DEST_PATH_IMAGE076
容易被误分类,并处于危险类;如果
Figure 954076DEST_PATH_IMAGE077
,即
Figure 681729DEST_PATH_IMAGE076
的最近邻样本中
Figure 262883DEST_PATH_IMAGE074
类样本数小于
Figure 785000DEST_PATH_IMAGE075
类样本数,则认为
Figure 513922DEST_PATH_IMAGE076
是安全类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的流程图;
图2是使用BSMOTE方法前训练数据二维分布示意图;
图3是带有BSMOTE标注的训练数据二维分布示意图;
图4是使用BSMOTE方法后的训练数据二维分布示意图;
图5是超球体软拟合技术分类测试结果。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
见图1,本发明的一种边缘合成及超球体软拟合缺陷检测方法,具体步骤如下:
第1步骤、假设整体训练集共分为两类,其中一类样本数量小,另一类样本数量大,小样本类别用
Figure 530420DEST_PATH_IMAGE075
表示,大样本类别用
Figure 209488DEST_PATH_IMAGE074
表示,其中
Figure 653239DEST_PATH_IMAGE075
的样本数量用
Figure 869457DEST_PATH_IMAGE078
来表示,
Figure 938913DEST_PATH_IMAGE074
的样本数量用
Figure 229080DEST_PATH_IMAGE079
来表示。对于小样本量
Figure 171628DEST_PATH_IMAGE075
类中的每一个样本
Figure 796513DEST_PATH_IMAGE080
,从训练集中找出小样本
Figure 154814DEST_PATH_IMAGE075
类中的每一个样本
Figure 814334DEST_PATH_IMAGE076
Figure 662204DEST_PATH_IMAGE081
个最近邻,其中的
Figure 525118DEST_PATH_IMAGE082
Figure 936377DEST_PATH_IMAGE081
为正整数,
Figure 201136DEST_PATH_IMAGE083
,分别统计每个小样本
Figure 485487DEST_PATH_IMAGE076
Figure 84964DEST_PATH_IMAGE081
个最近邻所属类别,近邻为大样本
Figure 785067DEST_PATH_IMAGE074
的个数用
Figure 966649DEST_PATH_IMAGE084
表示,即
Figure 608852DEST_PATH_IMAGE081
个最近邻中的属于大样本
Figure 446358DEST_PATH_IMAGE074
类的例子用
Figure 199419DEST_PATH_IMAGE084
个来表示。上述提到的最近邻所采用的距离为欧氏距离(Euclidean Distance),表示为:
Figure 235509DEST_PATH_IMAGE086
(1)
其中,
Figure 799345DEST_PATH_IMAGE087
表示样本
Figure 379274DEST_PATH_IMAGE088
到样本
Figure 421180DEST_PATH_IMAGE089
的距离;
Figure 577354DEST_PATH_IMAGE090
表 示训练集的特征个数;
Figure 561360DEST_PATH_IMAGE091
表示训练集的特征数
Figure 107879DEST_PATH_IMAGE090
中的一个,其中
Figure 281371DEST_PATH_IMAGE092
Figure 479003DEST_PATH_IMAGE093
表示样本
Figure 384642DEST_PATH_IMAGE094
在特征
Figure 667725DEST_PATH_IMAGE091
上的值;
Figure 113750DEST_PATH_IMAGE095
表示样本
Figure 182200DEST_PATH_IMAGE096
在特征
Figure 508008DEST_PATH_IMAGE091
上的值。
第2步骤、将
Figure 29119DEST_PATH_IMAGE075
类样本分为三类,它们分别为噪声类(noise)、危险类(danger)和安全类(safe),分类规则如下:
如果
Figure 278835DEST_PATH_IMAGE097
,即
Figure 451059DEST_PATH_IMAGE076
的所有
Figure 698501DEST_PATH_IMAGE081
个最近邻都是
Figure 956176DEST_PATH_IMAGE074
类的样本,则认为
Figure 9582DEST_PATH_IMAGE076
是噪声类;
如果
Figure 787045DEST_PATH_IMAGE098
,即
Figure 454656DEST_PATH_IMAGE076
Figure 747097DEST_PATH_IMAGE081
个最近邻样本中
Figure 541878DEST_PATH_IMAGE074
类样本数大于
Figure 440693DEST_PATH_IMAGE075
类样本数,且
Figure 29937DEST_PATH_IMAGE074
类样本总数大于
Figure 75254DEST_PATH_IMAGE075
类样本总数,
Figure 657414DEST_PATH_IMAGE074
类样本总数和
Figure 143890DEST_PATH_IMAGE075
类样本总数之和等于m,则认为
Figure 418882DEST_PATH_IMAGE076
容易被误分类,并处于危险类;
如果
Figure 685916DEST_PATH_IMAGE077
,即
Figure 556920DEST_PATH_IMAGE076
的最近邻样本中
Figure 412749DEST_PATH_IMAGE074
类样本数小于
Figure 671692DEST_PATH_IMAGE075
类样本数,则认为
Figure 98125DEST_PATH_IMAGE076
是安全类;
其中,噪声类的样本
Figure 287667DEST_PATH_IMAGE075
和安全类的样本
Figure 748735DEST_PATH_IMAGE075
均不做处理。
需要说明的是:
Figure 913000DEST_PATH_IMAGE074
类样本表示数据集中大样本的数据,
Figure 341577DEST_PATH_IMAGE075
类样本表示数据集中小样本的数据,
Figure 819963DEST_PATH_IMAGE076
表示小样本数据中第i个小样本。
Figure 384805DEST_PATH_IMAGE075
类样本总数 = 噪声类
Figure 985551DEST_PATH_IMAGE075
样本总数+危险类
Figure 386576DEST_PATH_IMAGE075
样本总数+安全类
Figure 917920DEST_PATH_IMAGE075
样本总数。以样本的m个最近邻样本类别数来判断该
Figure 353581DEST_PATH_IMAGE075
类样本属于哪一类。例如,
Figure 859649DEST_PATH_IMAGE076
的最近邻样本中
Figure 330993DEST_PATH_IMAGE074
类样本数大于
Figure 400449DEST_PATH_IMAGE075
类样本数,这里
Figure 752933DEST_PATH_IMAGE076
表示第i个小样本数据。最近邻样本中
Figure 367585DEST_PATH_IMAGE074
类样本数大于
Figure 992471DEST_PATH_IMAGE075
类样本数表示当前的
Figure 678667DEST_PATH_IMAGE074
类样本数+
Figure 823340DEST_PATH_IMAGE075
类样本数 = m,且
Figure 123741DEST_PATH_IMAGE074
类样本数 >
Figure 986654DEST_PATH_IMAGE075
类样本数。
第3步骤、处于危险类中的样本是小样本类别
Figure 210962DEST_PATH_IMAGE075
的边界数据用
Figure 724989DEST_PATH_IMAGE099
表示,对于处于危险类中的每个样本,计算出它的
Figure 947023DEST_PATH_IMAGE100
个最近邻样本,其中的
Figure 280921DEST_PATH_IMAGE101
Figure 308920DEST_PATH_IMAGE100
为正整数,该
Figure 428186DEST_PATH_IMAGE100
个最近邻样本可能包含
Figure 70389DEST_PATH_IMAGE075
Figure 907895DEST_PATH_IMAGE074
的样本。
第4步骤、使用危险类样本生成新数据并添加到训练数据当中;具体步骤是:
第4.1步骤、首先从
Figure 474005DEST_PATH_IMAGE099
中的
Figure 691186DEST_PATH_IMAGE100
个最近邻中随机选择
Figure 255022DEST_PATH_IMAGE102
个最近邻,其中
Figure 376562DEST_PATH_IMAGE103
Figure 933314DEST_PATH_IMAGE102
为正整数;
第4.2步骤、然后计算
Figure 27172DEST_PATH_IMAGE099
与其
Figure 11177DEST_PATH_IMAGE102
个最近邻之间的差,用
Figure 620013DEST_PATH_IMAGE104
表示,
Figure 465610DEST_PATH_IMAGE105
(2)
其中,
Figure 663242DEST_PATH_IMAGE099
表示小样本类中处于危险类的第
Figure 568881DEST_PATH_IMAGE106
个样本;
Figure 665013DEST_PATH_IMAGE107
表示
Figure 563567DEST_PATH_IMAGE099
Figure 632018DEST_PATH_IMAGE102
个最近邻之一,
Figure 957826DEST_PATH_IMAGE108
Figure 275674DEST_PATH_IMAGE109
为正整数;
第4.3步骤、再将
Figure 728652DEST_PATH_IMAGE104
乘以随机数
Figure 900877DEST_PATH_IMAGE110
,其中,随机数
Figure 148318DEST_PATH_IMAGE110
的范围是0~0.5;
第4.4步骤、最后得到
Figure 953463DEST_PATH_IMAGE102
个新的
Figure 193821DEST_PATH_IMAGE075
类样本数据;
对每一个
Figure 971284DEST_PATH_IMAGE099
重复上述第4.1步骤至第4.4步骤,生成大量新的
Figure 451944DEST_PATH_IMAGE075
类样本数据,由于新的数据是沿着区分小样本类别的边界样本数据(危险类)和其最近邻样本之间生成的,从而加强了样本区分的边界,危险类样本与其最近邻之间的差乘以0到0.5之间的随机数,这样可以使新生成的样本更接近于小样本的类别,新样本数据生成公式为:
Figure 202774DEST_PATH_IMAGE111
(3)
上述公式(3)也可以表示为:
Figure 731976DEST_PATH_IMAGE112
(4)
第5步骤、将训练数据映射到特征空间;采用超球体软拟合技术对新生成的数据进行分类训练,该超球体软拟合技术是单类别分类技术,可以识别并判断训练样本和非训练样本(即正样本和非正样本)两类;具体操作如下,首先将训练集与新生成的
Figure 878792DEST_PATH_IMAGE075
样本数据从原始数据映射到高维度的特征空间,采用非线性变换函数对数据进行映射
Figure 530353DEST_PATH_IMAGE113
(整体表示为通过非线性函数将特征向量x映射到特征空间
Figure 247773DEST_PATH_IMAGE074
),其中,
Figure 829933DEST_PATH_IMAGE114
表示拉伸过后的函数;x表示特征向量;
Figure 581989DEST_PATH_IMAGE074
表示特征空间。需要说明的是:对原始数据进行高维映射时,是对特征向量x里的每个样本,也就是每一行的特征向量都进行了拉伸变换,使得对x中的每个元素,在
Figure 404451DEST_PATH_IMAGE074
中有唯一确定的元素
Figure 858435DEST_PATH_IMAGE115
与之对应,将拉伸过后的函数叫做
Figure 995018DEST_PATH_IMAGE114
,则称
Figure 850848DEST_PATH_IMAGE114
为从x到
Figure 844212DEST_PATH_IMAGE074
的映射。
第6步骤、计算包围正样本(训练样本)的超球体半径
Figure 536224DEST_PATH_IMAGE116
,计算测试样本点到超球体球心的距离
Figure 725766DEST_PATH_IMAGE117
;从特征空间中找出一个包围正样本(训练样本)的超球体,并通过最小化该超球体的体积让正样本点尽可能地被包围在超球体中,且负样本点尽可能地排除在超球体之外;最小化超球体的体积公式为:
Figure 186834DEST_PATH_IMAGE118
(5)
其中,
Figure 351099DEST_PATH_IMAGE119
表示第
Figure 717359DEST_PATH_IMAGE119
个训练样本;
Figure 445012DEST_PATH_IMAGE120
表示超球体的球心;
Figure 822904DEST_PATH_IMAGE116
表示超球体半径;
Figure 361333DEST_PATH_IMAGE121
表示松弛因子;
Figure 29204DEST_PATH_IMAGE122
表示一个权衡超球体体积和误分率的惩罚参数;
Figure 311280DEST_PATH_IMAGE123
表示训练集的样本个数;求和符号∑右下角的p=1表示p取值从1开始直到p取值为n。
上述公式(5)中的对偶公式为:
Figure 730629DEST_PATH_IMAGE124
(6)
其中,求和符号∑右下角的p=1表示p取值从1开始直到p取值为n;
Figure 439959DEST_PATH_IMAGE125
表示第
Figure 390598DEST_PATH_IMAGE125
个训练样本;
Figure 460054DEST_PATH_IMAGE126
表示核函数,等同于特征空间中样本的内积;
Figure 750221DEST_PATH_IMAGE127
表示样本
Figure 879720DEST_PATH_IMAGE128
对应的拉格朗日系数,且
Figure 317654DEST_PATH_IMAGE129
Figure 941534DEST_PATH_IMAGE130
Figure 335475DEST_PATH_IMAGE131
表示样本
Figure 448924DEST_PATH_IMAGE132
对应的拉格朗日系数,且
Figure 311838DEST_PATH_IMAGE133
Figure 723097DEST_PATH_IMAGE134
;在所有训练样本中,把拉格朗日系数满足
Figure 987856DEST_PATH_IMAGE129
的样本称为支持向量,假设训练数据集中属于支持向量的样本集合为SV,则:
Figure 6628DEST_PATH_IMAGE135
(7)
Figure 606105DEST_PATH_IMAGE136
(8)
其中,
Figure 571787DEST_PATH_IMAGE137
表示训练数据集中属于支持向量的样本集合
Figure 940320DEST_PATH_IMAGE138
中的点,
Figure 333256DEST_PATH_IMAGE139
Figure 97992DEST_PATH_IMAGE140
是核函数,等同于特征空间中样本的内积,即
Figure 851054DEST_PATH_IMAGE141
第7步骤、判断是否
Figure 90405DEST_PATH_IMAGE142
,如果
Figure 716559DEST_PATH_IMAGE142
,则认为是正样本,如果
Figure 25049DEST_PATH_IMAGE117
大于
Figure 332534DEST_PATH_IMAGE116
,则认为是负样本,最终得出测试样本分类结果。具体地,将测试样本导入训练完成的超球体软拟合技术当中,判断测试样本是否在超球体表面或内部(即是否
Figure 488708DEST_PATH_IMAGE142
),对于某一个测试样本
Figure 472714DEST_PATH_IMAGE143
,该测试样本点到超球体球心的距离为:
Figure 19233DEST_PATH_IMAGE145
(9)
若测试样本在超球体表面或内部,则该测试样本为正样本,反之则为负样本,得出一系列测试样本属性,边缘合成超球体软拟合技术结束。
见图2,圆点为小样本量数据T,三角形为大样本量数据F,T的数量为60个,F的数量为1580个。
见图3,圆点为小样本量数据T,三角形为大样本量数据F,五角星为边缘合成少数类过采样技术(BSMOTE)标注的小样本量数据中的危险类数据,可以明显看出危险类数据处于T和F样本分布的边界,T的数量为60个,F的数量为1580个,危险类的数量为24个。
见图4,圆点为小样本量数据T,三角形为大样本量数据F,T类数据明显增多,且使用边缘合成少数类过采样技术(BSMOTE)方法进行过采样后,T类数据的边界增强,轮廓清晰,T的数量为660个,F的数量为1580个。
超球体软拟合技术分类识别结果对比表
Figure DEST_PATH_IMAGE146
以上对比表为未使用边缘合成少数类过采样技术(BSMOTE)进行边缘数据合成及使用后的超球体软拟合技术分类识别结果对比表,表中可以明显看出在测试样本不变的情况下,使用边缘合成少数类过采样技术(BSMOTE)进行边缘数据合成对模型识别缺陷的综合准确率提高了超过40%(F1分数达到94%)。计算过程是;
使用后的F1分数-使用前的F1分数=0.9416576 - 0.5271884=0.4144692*100% ≈41.4%(超过40%),这说明几乎所有的缺陷都被识别出来了。
见图5,超球体软拟合技术在模型训练时采用边缘合成少数类过采样技术(BSMOTE)进行边缘数据合成后的训练数据。图中位于黑色横线下方的样本点为正确识别的数据,横线上方为误识别的数据,可以很明显看出只有个别缺陷被误识别,这说明使用BSMOTE边缘合成数据和超球体软拟合技术协同使用的方法可以有效地提高算法识别的准确性。
边缘合成及超球体软拟合缺陷识别技术的关键点在于,它充分迎合了工业现场无法处理未知新缺陷或某类缺陷数量极少的情况。未知新缺陷的特征往往和某些已知的缺陷/污渍/毛絮等相似,很难在数据量极少的情况下将缺陷识别出来,因此引入了边缘合成技术进行人工合成新样本来增加小样本缺陷的样本量。由于危险类缺陷样本对决策影响大,处于边界附近的缺陷样本(危险类缺陷样本)更容易被错误分类,所以仅对缺陷中的危险类缺陷进行人工合成新的缺陷样本。这使得缺陷样本的边界清晰,缺陷数据的不确定性较小且克服了不同类样本之间混叠的现象。受未知新缺陷不存在历史数据库中的影响,现有的算法模型无法进行决策训练。超球体软拟合技术作为一种单一分类器,可以在无历史数据的情况下识别缺陷。即只用边缘合成技术后的未知新缺陷样本进行训练,然后使用超球体软拟合技术对测试数据进行决策,该技术可以识别出测试数据中属于未知新缺陷这一类别的数据。这极大地降低了现有算法的训练成本和影响,在不破坏现有算法的前提下提升了工业现场准确率及执行效率。
以上所述的,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种边缘合成及超球体软拟合缺陷检测方法,其特征在于,具体步骤如下:
第1步骤、找出小样本
Figure DEST_PATH_IMAGE001
类中的每一个样本
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
个最近邻,其中的
Figure DEST_PATH_IMAGE004
Figure 598823DEST_PATH_IMAGE003
为正整数,
Figure DEST_PATH_IMAGE005
,分别统计每个小样本
Figure 734138DEST_PATH_IMAGE002
Figure 702094DEST_PATH_IMAGE003
个最近邻所属类别,近邻为大样本
Figure DEST_PATH_IMAGE006
的个数用
Figure DEST_PATH_IMAGE007
表示;
第2步骤、将
Figure 860543DEST_PATH_IMAGE001
类样本分为三类,它们分别为噪声类、危险类和安全类,其中,噪声类的样本
Figure 759097DEST_PATH_IMAGE001
和安全类的样本
Figure 561968DEST_PATH_IMAGE001
均不做处理;
第3步骤、处于危险类中的样本是小样本类别
Figure 887776DEST_PATH_IMAGE001
的边界数据用
Figure DEST_PATH_IMAGE008
表示,对于处于危险类中的每个样本,计算出它的
Figure DEST_PATH_IMAGE009
个最近邻样本,其中的
Figure DEST_PATH_IMAGE010
Figure 720472DEST_PATH_IMAGE009
为正整数,该
Figure 235767DEST_PATH_IMAGE009
个最近邻样本可能包含
Figure 893144DEST_PATH_IMAGE001
Figure 389854DEST_PATH_IMAGE006
的样本;
第4步骤、使用危险类样本生成新数据并添加到训练数据当中;
第5步骤、将训练数据映射到特征空间;
第6步骤、计算包围正样本的超球体半径
Figure DEST_PATH_IMAGE011
,计算测试样本点到超球体球心的距离
Figure DEST_PATH_IMAGE012
第7步骤、判断是否
Figure DEST_PATH_IMAGE013
,如果
Figure 528754DEST_PATH_IMAGE013
,则认为是正样本,如果
Figure 769111DEST_PATH_IMAGE012
大于
Figure 608891DEST_PATH_IMAGE011
,则认为是负样本,最终得出测试样本分类结果。
2.根据权利要求1所述的边缘合成及超球体软拟合缺陷检测方法,其特征在于:在第1步骤中,最近邻所采用的距离为欧氏距离,表示为:
Figure DEST_PATH_IMAGE015
其中,
Figure DEST_PATH_IMAGE016
表示样本
Figure DEST_PATH_IMAGE018
到样本
Figure DEST_PATH_IMAGE020
的距离;
Figure DEST_PATH_IMAGE021
表示训练集的特征数
Figure DEST_PATH_IMAGE022
中的一个,其中
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
表示样本
Figure DEST_PATH_IMAGE026
在特征
Figure 588086DEST_PATH_IMAGE021
上的值;
Figure DEST_PATH_IMAGE027
表示样本
Figure DEST_PATH_IMAGE028
在特征
Figure DEST_PATH_IMAGE029
上的值。
3.根据权利要求1所述的边缘合成及超球体软拟合缺陷检测方法,其特征在于:所述第4步骤的具体步骤是:
第4.1步骤、首先从
Figure 270741DEST_PATH_IMAGE008
中的
Figure 799942DEST_PATH_IMAGE009
个最近邻中随机选择
Figure DEST_PATH_IMAGE030
个最近邻,其中
Figure DEST_PATH_IMAGE031
Figure 761074DEST_PATH_IMAGE030
为正整数;
第4.2步骤、然后计算
Figure 678215DEST_PATH_IMAGE008
与其
Figure 644903DEST_PATH_IMAGE030
个最近邻之间的差,用
Figure DEST_PATH_IMAGE032
表示;
第4.3步骤、再将
Figure 977795DEST_PATH_IMAGE032
乘以随机数
Figure DEST_PATH_IMAGE033
,其中,随机数
Figure 916801DEST_PATH_IMAGE033
的范围是0~0.5;
第4.4步骤、最后得到
Figure 926214DEST_PATH_IMAGE030
个新的
Figure 130930DEST_PATH_IMAGE001
类样本数据。
4.根据权利要求3所述的边缘合成及超球体软拟合缺陷检测方法,其特征在于:对每一个
Figure 329831DEST_PATH_IMAGE008
重复上述第4.1步骤至第4.4步骤,生成大量新的
Figure 185660DEST_PATH_IMAGE001
类样本数据,由于新的数据是沿着区分小样本类别的边界样本数据和其最近邻样本之间生成的,从而加强了样本区分的边界,危险类样本与其最近邻之间的差乘以0到0.5之间的随机数,这样可以使新生成的样本更接近于小样本的类别。
5.根据权利要求1所述的边缘合成及超球体软拟合缺陷检测方法,其特征在于:在第5步骤中,采用超球体软拟合技术对新生成的数据进行分类训练,该超球体软拟合技术是单类别分类技术,可以识别并判断训练样本和非训练样本两类;具体操作如下,首先将训练集与新生成的
Figure 116707DEST_PATH_IMAGE001
样本数据从原始数据映射到高维度的特征空间,采用非线性变换函数对数据进行映射
Figure DEST_PATH_IMAGE034
,其中,
Figure DEST_PATH_IMAGE035
表示拉伸过后的函数;
Figure DEST_PATH_IMAGE036
表示特征向量;
Figure 182621DEST_PATH_IMAGE006
表示特征空间。
6.根据权利要求1所述的边缘合成及超球体软拟合缺陷检测方法,其特征在于:在第6步骤中,从特征空间中找出一个包围正样本的超球体,并通过最小化该超球体的体积让正样本点尽可能地被包围在超球体中,且负样本点尽可能地排除在超球体之外。
7.根据权利要求1所述的边缘合成及超球体软拟合缺陷检测方法,其特征在于:在第7步骤中,将测试样本导入训练完成的超球体软拟合技术当中,判断测试样本是否在超球体表面或内部,对于某一个测试样本
Figure DEST_PATH_IMAGE037
,该测试样本点到超球体球心的距离为
Figure 857316DEST_PATH_IMAGE012
,若测试样本在超球体表面或内部,则该测试样本为正样本,反之则为负样本,得出一系列测试样本属性,边缘合成超球体软拟合技术结束。
8.根据权利要求1所述的边缘合成及超球体软拟合缺陷检测方法,其特征在于:在第2步骤中,
Figure 567652DEST_PATH_IMAGE001
类样本的分类规则如下:如果
Figure DEST_PATH_IMAGE038
,即
Figure DEST_PATH_IMAGE039
的所有
Figure DEST_PATH_IMAGE040
个最近邻都是
Figure DEST_PATH_IMAGE041
类的样本,则认为
Figure DEST_PATH_IMAGE042
是噪声类;如果
Figure DEST_PATH_IMAGE043
,即
Figure 190306DEST_PATH_IMAGE002
Figure 618882DEST_PATH_IMAGE003
个最近邻样本中
Figure 831689DEST_PATH_IMAGE006
类样本数大于
Figure 475160DEST_PATH_IMAGE001
类样本数,且
Figure 997277DEST_PATH_IMAGE006
类样本总数大于
Figure 663882DEST_PATH_IMAGE001
类样本总数,
Figure 929647DEST_PATH_IMAGE006
类样本总数和
Figure 427624DEST_PATH_IMAGE001
类样本总数之和等于m,则认为
Figure 136954DEST_PATH_IMAGE002
容易被误分类,并处于危险类;如果
Figure DEST_PATH_IMAGE044
,即
Figure 212226DEST_PATH_IMAGE002
的最近邻样本中
Figure 94732DEST_PATH_IMAGE006
类样本数小于
Figure 634166DEST_PATH_IMAGE001
类样本数,则认为
Figure 514398DEST_PATH_IMAGE002
是安全类。
CN202111192923.8A 2021-10-13 2021-10-13 边缘合成及超球体软拟合缺陷检测方法 Active CN113642680B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111192923.8A CN113642680B (zh) 2021-10-13 2021-10-13 边缘合成及超球体软拟合缺陷检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111192923.8A CN113642680B (zh) 2021-10-13 2021-10-13 边缘合成及超球体软拟合缺陷检测方法

Publications (2)

Publication Number Publication Date
CN113642680A CN113642680A (zh) 2021-11-12
CN113642680B true CN113642680B (zh) 2022-02-08

Family

ID=78426612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111192923.8A Active CN113642680B (zh) 2021-10-13 2021-10-13 边缘合成及超球体软拟合缺陷检测方法

Country Status (1)

Country Link
CN (1) CN113642680B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063873A (zh) * 2014-07-08 2014-09-24 华东交通大学 一种基于压缩感知的轴套类零件表面缺陷在线检测方法
WO2018000731A1 (zh) * 2016-06-28 2018-01-04 华南理工大学 一种曲面表面缺陷自动检测方法及其装置
CN109345523A (zh) * 2018-09-21 2019-02-15 中国科学院苏州生物医学工程技术研究所 表面缺陷检测和三维建模方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063873A (zh) * 2014-07-08 2014-09-24 华东交通大学 一种基于压缩感知的轴套类零件表面缺陷在线检测方法
WO2018000731A1 (zh) * 2016-06-28 2018-01-04 华南理工大学 一种曲面表面缺陷自动检测方法及其装置
CN109345523A (zh) * 2018-09-21 2019-02-15 中国科学院苏州生物医学工程技术研究所 表面缺陷检测和三维建模方法

Also Published As

Publication number Publication date
CN113642680A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN109255344B (zh) 一种基于机器视觉的数显式仪表定位与读数识别方法
CN111292303B (zh) 焊缝缺陷类别检测方法、装置、电子设备及存储介质
Singh et al. Svm-bdt pnn and fourier moment technique for classification of leaf shape
Singhal et al. Local binary pattern for automatic detection of acute lymphoblastic leukemia
JP2017102540A (ja) 分類装置、方法、及びプログラム
CN114372968B (zh) 结合注意力机制与自适应记忆性融合网络的瑕疵检测方法
CN111126446B (zh) 一种机器人视觉工业产品缺陷图像数据增广方法
Liu et al. A classification method of glass defect based on multiresolution and information fusion
CN107679453A (zh) 基于支持向量机的天气雷达电磁干扰回波识别方法
CN111340086A (zh) 无标签数据的处理方法、***、介质及终端
CN111739017A (zh) 一种在样本不平衡条件下显微图像的细胞识别方法及***
CN117576079A (zh) 一种工业产品表面异常检测方法、装置及***
CN117197559A (zh) 基于深度学习的猪肉分类模型、构建方法、电子设备和计算机可读介质
CN116823725A (zh) 一种基于支持向量机的航空发动机叶片表面缺陷检测方法
CN113781483B (zh) 工业产品外观缺陷检测方法和装置
CN114565798A (zh) 基于铁谱图像分析的动力装置磨损故障诊断方法及***
CN113642680B (zh) 边缘合成及超球体软拟合缺陷检测方法
CN113762151A (zh) 一种故障数据处理方法、***及故障预测方法
CN101859381A (zh) 伽柏滤波器、图像识别设备及方法、程序和记录介质
JP5298552B2 (ja) 判別装置、判別方法及びプログラム
CN112396580A (zh) 一种圆形零件缺陷检测方法
CN116597275A (zh) 一种基于数据增强的高速移动目标识别方法
CN112862767B (zh) 基于度量学***衡样本的表面缺陷检测方法
Yunhui et al. The strip steel surface defects classification method based on weak classifier adaptive enhancement
CN110942089B (zh) 一种基于多级决策的击键识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant