CN111985823A - 一种用于滚磨机定向仪的晶棒质量评估方法 - Google Patents

一种用于滚磨机定向仪的晶棒质量评估方法 Download PDF

Info

Publication number
CN111985823A
CN111985823A CN202010862885.1A CN202010862885A CN111985823A CN 111985823 A CN111985823 A CN 111985823A CN 202010862885 A CN202010862885 A CN 202010862885A CN 111985823 A CN111985823 A CN 111985823A
Authority
CN
China
Prior art keywords
sample
canopy
samples
clustering
crystal bar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010862885.1A
Other languages
English (en)
Other versions
CN111985823B (zh
Inventor
关守平
王文奇
宋阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202010862885.1A priority Critical patent/CN111985823B/zh
Publication of CN111985823A publication Critical patent/CN111985823A/zh
Application granted granted Critical
Publication of CN111985823B publication Critical patent/CN111985823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)

Abstract

本发明提供一种用于滚磨机定向仪的晶棒质量评估方法,涉及单晶材料加工技术领域。该方法首先建立含有M个晶棒检测数据的样本集,并将样本集划分为训练集和测试集;再采用改进的Canopy算法和K‑means算法对训练集样本进行精确聚类,确定用于晶棒质量评估的改进的Canopy‑K‑means模型的聚类中心;将测试集样本数据用于改进的Canopy‑K‑means模型,通过计算测试集样本与每一个聚类中心的距离来实现晶棒质量的评估;同时,采用k‑NN算法对与两个聚类中心的距离差的绝对值小于设定阈值ε的样本及对应的两个聚类中心所在Canopy簇中的训练样本进一步进行聚类计算,完成高相似度晶棒的质量评估。

Description

一种用于滚磨机定向仪的晶棒质量评估方法
技术领域
本发明涉及单晶材料加工技术领域,尤其涉及一种用于滚磨机定向仪的晶棒质量评估方法。
背景技术
在单晶生长过程中,由于其生长技术固有的局限性不可避免的产生各种缺陷,导致加工出来的晶棒质量也参差不齐。然而,晶棒的质量也直接影响到相应产品的技术性能,为了生产出高质量的晶棒,研究者们需要不断改进晶体的生长方法,寻求更加有效的加工手段。目前常见的晶棒加工方法有磨削、机械抛光、干式机械化学抛光、湿式机械化学和化学机械抛光、水合抛光、浮法抛光等。但是除了寻求更加有效的加工方法外,对加工过程中晶棒的质量评估也是一个不容忽视的关键问题。
滚磨机定向仪是单晶晶棒加工与定向一体化的设备,实现了晶锭外圆磨削和晶棒定向两个工艺流程的综合化和一体化,从而提高生产效率和定向精度。对于滚磨机定向仪而言,一般来说在完成最佳晶面的定向选择进而进行基准面定位加工就算完成了工序任务。但是现在考虑的问题是:既然通过前述过程得到了单晶晶棒各个晶面的品质指标,能否根据这些指标进行晶棒质量的整体评估呢?虽然仅仅根据晶面品质对晶棒进行质量评估可能会出现偏差,因为毕竟晶棒内部的生长情况不清楚,但是各个晶面的品质也一定程度上反映了晶棒的生长质量。
在晶棒的定向过程中,滚磨机定向仪对晶棒的各个晶面进行质量评估,选取评估质量最好的晶面方向进而磨削。但是对于晶棒的整体质量评估却缺少相应的评估方法,这是目前滚磨机定向仪所缺少的功能。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种用于滚磨机定向仪的晶棒质量评估方法,在晶面质量评估的基础上实现对晶棒质量的评估。
为解决上述技术问题,本发明所采取的技术方案是:一种用于滚磨机定向仪的晶棒质量评估方法,包括以下步骤;
步骤1:建立含有M个晶棒检测数据的样本集,每个晶棒检测数据包括s个晶面质量的检测等级及对应得分;
所述晶面质量的检测等级及对应得分的确定方法为:
在滚磨机定向仪的磨削与定向阶段,将晶面的质量检测划分为n个等级,若晶面一等品为A等级,对应得分为n分;晶面二等品为B等级,对应得分为n-1分;其余等级及得分依次类推;
步骤2:将含有M个晶棒检测数据的样本集划分为训练集与测试集;训练集包括N个样本,测试集包括M-N个样本;
步骤3:采用改进的Canopy算法对训练集中样本进行粗聚类;
步骤3.1:将训练集中样本随机排列,即X=[X1,X2,...,Xi,...,XN],其中,X1,X2,...,Xi,...,XN为训练集中的样本数据,N为训练集中样本总数,Xi=[xi1,xi2,...,xir...,xis]为训练集X中第i个样本关于晶棒晶面检测得分的特征向量,包括s维数据点,即表示晶棒有s个晶面,xir表示第i个训练样本的第r个晶面的检测得分;并且训练集中每一个样本数据都存在标签Y=[y1,y2,...,yi,...,yN],用于表示训练集中每一个样本数据所属类别;再选择两个距离阈值T1、T2,并且T1>T2
步骤3.2:从训练集样本X中随机选择一个样本数据Xi,当作第一个Canopy中心点,并将样本数据Xi从X中删除;
步骤3.3:再从训练集样本X中选取一个样本数据Xj(j≠i),采用Bray-Curtis方法计算Xj到已经产生的Canopy中心点的最小距离dBCD,并将其与两个距离阈值T1、T2进行比较:
(a)如果dBCD≤T1,则给Xj弱标记,表示其属于当前Canopy簇,将Xj加入当前Canopy簇中,Xj不从训练集X中删除;
(b)如果dBCD<T2,则给Xj强标记,表示其属于当前Canopy簇,并将Xj从训练集X中删除;
(c)如果dBCD>T1,则Xj不属于当前的Canopy簇,Xj形成一个新的Canopy中心点,并将Xj从训练集X中删除;
采用Bray-Curtis方法计算Xj到已经产生的Canopy中心点Xi的最小距离dBCD的计算,如下公式所示:
Figure BDA0002648757840000021
其中,xjr和xir分别是向量Xj和向量Xi的第r维数据,r=1,2...,s;
步骤3.4:重复执行步骤3.3,直至训练集X中样本为空,进而将训练集样本数据分组成K个Canopy簇,得到K个聚类中心C1,C2,...,Ck,...,CK,其中Ck=[ck1,ck2,...,ckr,...,cks],每个聚类中心对应一个样本类别;
步骤4:在改进的Canopy算法对训练样本进行粗聚类的基础上再运用K-means算法对训练集样本进行精确聚类,确定用于晶棒质量评估的改进的Canopy-K-means模型的聚类中心,具体方法为:
步骤4.1:将上述K个Canopy中心定义为K-means聚类的初始聚类中心点(C1 (1),C2 (1),...,Ck (1),...,CK (1));
步骤4.2:设定当前迭代次数为t,对训练集中所有的样本Xi依次计算到各聚类中心Ck (t)的欧氏距离
Figure BDA0002648757840000031
如下公式所示:
Figure BDA0002648757840000032
其中,Dist(i,k)为训练集中第i个样本Xi=[xi1,xi2,...,xir...,xis]到第k个聚类中心Ck=[ck1,ck2,...,ckr,...,cks]的欧氏距离;
步骤4.3:找出训练集中每个样本点关于各聚类中心Ck (t)的最小距离,并将对应的样本点Xi划分到与聚类中心Ck (t)距离最小的Canopy中;
步骤4.4:更新第t+1次迭代时每个Canopy簇的中心点,如下公式所示:
Figure BDA0002648757840000033
其中,nk表示属于第k个Canopy簇中训练样本的总个数,Xkl表示第k个Canopy簇中的第l个样本数据,l=1,2,...,nk
步骤4.5:判断各聚类中心是否收敛,如果收敛,即满足Ck (t+1)=Ck (t),则停止K-means算法迭代,确定用于晶棒质量评估的改进的Canopy-K-means模型的聚类中心,否则重复执行步骤4.2-4.4;
步骤5:将测试集样本数据用于改进的Canopy-K-means模型,通过计算测试集样本与每一个改进的Canopy-K-means模型的聚类中心的距离来实现晶棒质量的评估,并计算测试集样本在改进的Canopy-K-means模型下的评估平均准确率;
计算测试集中每个样本与改进的Canopy-K-means模型的各聚类中心的距离,并找出最小距离,并将测试样本归类为最小距离对应的聚类中心所属的类别,不同类别表示晶棒的不同质量等级;
计算测试集样本在改进的Canopy-K-means模型下的评估平均准确率P,如下公式所示:
Figure BDA0002648757840000041
其中,k为Canopy簇个数,TPk为第k类样本正确分类数目,TFk为第k类样本错误分类数目,k=1,2,Ω,K,各类样本总数Totalk满足:
Totalk=TPk+FPk (5)
步骤6:判断测试集中是否存在某一样本,其与两个聚类中心的距离差的绝对值小于设定阈值ε,若不存在,则步骤5为测试集样本的最终评估结果;若存在,则采用k-NN算法对该测试样本及对应的两个聚类中心所在Canopy簇中的训练样本进一步进行聚类计算,完成高相似度晶棒的质量评估;
所述采用k-NN算法对该测试样本及对应的两个聚类中心所在Canopy簇中的训练样本进一步进行聚类计算,完成高相似度晶棒的质量评估的具体方法为:
(1)依次将测试集中与两个聚类中心的距离差的绝对值小于设定阈值ε的样本与两个聚类中心所在Canopy簇中的所有训练样本计算欧式距离;
(2)将计算得到的所有欧式距离按照递增依次排序;
(3)选取与当前测试样本距离最小的前k′个样本,并返回前k′个样本所出现频率最高的类别作为当前测试样本的分类,完成对测试样本的质量评估。
本发明方法基于混合式聚类算法,对已知多晶面品质的晶棒进行质量评估。提出采用改进的Canopy与K-means相结合的混合算法建立Canopy-K-means模型,并进一步引入k-近邻(k-NN:Nearest Neighbor)算法,使滚磨机定向仪完成对整个晶棒的质量评估。
Canopy算法的实质是一个对数据处理的过程,本发明运用Canopy算法对不同晶棒质量样本进行粗聚类的过程,能够快速确定聚类数K和聚类中心。该算法的基本思想是先对不同样本之间距离进行计算,然后将相似度比较高的样本放入到一个子集,将其称为Canopy簇;再经过一系列的计算得到多个Canopy簇,同一个样本数据可以在多个Canopy簇内,不会出现某个样本不属于任何一个Canopy簇的情况。但是常规Canopy算法采用欧氏距离计算会忽视数据样本点的不相关性,因此本发明的Canopy算法采用Bray-Curtis距离对此进行了改进;再采用K-means算法对改进的Canopy算法聚类结果重叠部分进一步精确聚类。K-means算法的优点是原理和实现相对简单,具有较高的执行效率和大数据量较强的可伸缩性;存在的问题是一旦孤立点和噪声被选作初始聚类中心,对后面整个聚类过程的准确性带来很大的问题。故选择改进的Canopy算法作为本发明聚类技术的初始聚类中心,可以大大优化K-means聚类算法的效率。
然而,实际应用会遇到待测样本与两个聚类中心的距离差的绝对值小于设定阈值ε的情况,进而很难确定这些样本具体属于哪一个类别。因此在上述算法的基础上,引入k-NN算法,对其进一步聚类分析,提高晶棒聚类划分的准确度,进而实现高相似度晶棒的质量评估。
采用上述技术方案所产生的有益效果在于:本发明提供的一种用于滚磨机定向仪的晶棒质量评估方法,首先根据晶棒属性的特征提出了改进的Canopy聚类算法,对晶棒进行粗分类,确定聚类簇个数和聚类中心;进而采用K-means算法进行精确聚类,解决样本数据重叠的问题,建立晶棒质量评估分类模型;在评估过程中,针对与多个聚类中心的距离相近的难以评定质量的样本,采用k-NN算法进一步评估,完成了高相似度晶棒质量评估的工作。本发明方法填补了滚磨机定向仪晶棒质量评估功能的空白,为加工出高质量的晶体、更好的投入到工业生产奠定了坚实的基础。
附图说明
图1为本发明实施例提供的一种用于滚磨机定向仪的晶棒质量评估方法的流程图;
图2为本发明实施例提供的蓝宝石晶面图;
图3为本发明实施例提供的采用改进的Canopy算法对训练集样本进行粗聚类的流程图;
图4为本发明实施例提供的运用K-means算法对训练集样本进行精确聚类的法流程图;
图5为本发明实施例提供的k-NN算法流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例以单晶材料蓝宝石晶棒为例,采用本发明的一种用于滚磨机定向仪的晶棒质量评估方法,对蓝宝石晶棒质量进行评估。
一种用于滚磨机定向仪的晶棒质量评估方法,如图1所示,包括以下步骤;
步骤1:建立含有M个晶棒检测数据的样本集,每个晶棒检测数据包括s个晶面质量的检测等级及对应得分;
所述晶面质量的检测等级及对应得分的确定方法为:
在滚磨机定向仪的磨削与定向阶段,将晶面的质量检测划分为n个等级,若晶面一等品为A等级,对应得分为n分;晶面二等品为B等级,对应得分为n-1分;其余等级及得分依次类推;
本实施例选取630个晶棒样本集,每个晶棒如图2所示,沿C轴生长的单晶蓝宝石有6个A-Plane晶面,则每个晶棒样本由6维数据点构成,故s=6。本实施例中,晶棒A-Plane晶面质量检测后共分为5个质量等级,晶面一等品为A等级,对应得分为5分;晶面二等品为B等级,对应得分为4分;晶面三等品为C等级,对应得分为3分;晶面四等品为D等级,对应得分为2分;晶面五等品为E等级,对应得分为1分。若6个A-Plane晶面质量都是A等级,则晶棒得分为30分,若6个A-Plane晶面都是E等级,则晶棒得分为6分,所以每个晶棒的得分在6~30之间。本实施例从定向基准面顺时针采集各个A-Plane晶面质量检测等级,例如一个蓝宝石晶棒晶面等级检测结果为[A,A,E,B,C,A],则对应得分向量为[5,5,1,4,3,5]。
步骤2:将含有M个晶棒检测数据的样本集划分为训练集与测试集;训练集包括N个样本,测试集包括M-N个样本;
本实施例将630个晶棒样本集,划分训练集与测试集。训练集为600个,测试集为30个。根据改进的Canopy-K-means算法原理,先对训练集样本数据采用改进的Canopy算法进行粗聚类;在改进的Canopy算法的基础上继续使用K-means算法对训练集样本进行精确的聚类,确定改进的Canopy-K-means模型最终聚类中心;测试集样本用于对此聚类模型的质量评估精度进行验证;
步骤3:采用改进的Canopy算法对训练集中样本进行粗聚类,如图3所示,具体方法为:
步骤3.1:将训练集中样本随机排列,即X=[X1,X2,...,Xi,...,XN],其中,X1,X2,...,Xi,...,XN为训练集中的样本数据,N为训练集中样本总数,Xi=[xi1,xi2,...,xir...,xis]为训练集X中第i个样本关于晶棒晶面检测得分的特征向量,包括s维数据点,即表示晶棒有s个晶面,xir表示第i个训练样本的第r个晶面的检测得分;并且训练集中每一个样本数据都存在标签Y=[y1,y2,...,yi,...,yN],用于表示训练集中每一个样本数据所属类别;再选择两个距离阈值T1、T2,并且T1>T2
步骤3.2:从训练集样本X中随机选择一个样本数据Xi,当作第一个Canopy中心点,并将样本数据Xi从X中删除;
步骤3.3:再从训练集样本X中选取一个样本数据Xj(j≠i),采用Bray-Curtis方法计算Xj到已经产生的Canopy中心点的最小距离dBCD,并将其与两个距离阈值T1、T2进行比较:
(a)如果dBCD≤T1,则给Xj弱标记,表示其属于当前Canopy簇,将Xj加入当前Canopy簇中,Xj不从训练集X中删除;
(b)如果dBCD<T2,则给Xj强标记,表示其属于当前Canopy簇,并将Xj从训练集X中删除;
(c)如果dBCD>T1,则Xj不属于当前的Canopy簇,Xj形成一个新的Canopy中心点,并将Xj从训练集X中删除;
Canopy算法一般是使用几何距离对相似度进行衡量,常用的距离计算方法有欧氏距离(Euclidean distance)、曼哈顿距离(Manhattan distance)等,其中欧氏距离是使用最多,用来衡量多维空间中每个点之间的绝对距离,也就是真实的距离。以s维向量Xj(xj1,xj2,...,xjr,...,xjs)和Xi(xi1,xi2,...,xir,...,xis)为例,两点欧氏距离计算见如下公式:
Figure BDA0002648757840000071
其中,xjr和xir分别是向量Xj和向量Xi的第r维数据,r=1,2...,s;
欧氏距离是一种应用广泛且比较简单的距离计算方式,但是由于晶棒样本数据是由多个不相关的值组成,采用欧氏距离会忽略这种不相关性。针对该问题本发明的解决方法是在Canopy算法的基础上修改距离函数,不再使用欧氏距离作为聚类的度量标准。因为Bray-Curtis距离对样本差异更加敏感,对于每一个数据样本属性的不相关性比较适用,将其引入到本发明所要实现的晶棒质量评估问题上来,采用Bray-Curtis方法计算Xj到已经产生的Canopy中心点Xi的最小距离dBCD的计算,如下公式所示:
Figure BDA0002648757840000072
其中,xjr和xir分别是向量Xj和向量Xi的第r维数据,r=1,2...,s;dBCD的值接近0意味着两个样本关系非常相似,而dBCD的值接近1意味着两个样本之间可以观察到的最大差异。
步骤3.4:重复执行步骤3.3,直至训练集X中样本为空,进而将训练集样本数据分组成K个Canopy簇,得到K个聚类中心C1,C2,...,Ck,...,CK,其中Ck=[ck1,ck2,...,ckr,...,cks],每个聚类中心对应一个样本类别;
本实施例中,将训练集中的600个蓝宝石晶棒样本数据采用改进的Canopy算法进行粗聚类,通过多次实验调节不同的阈值T1为0.1,T2为0.08。将训练集样本划分成6个不同的Canopy簇,即晶棒质量评估被划分为6个等级,也就是K的值为6,Canopy中心点如表1所示。
表1 通过改进的Canopy算法得到的Canopy中心点
Figure BDA0002648757840000081
步骤4:在改进的Canopy算法对训练样本进行粗聚类的基础上再运用K-means算法对训练集样本进行精确聚类,确定用于晶棒质量评估的改进的Canopy-K-means模型的聚类中心,如图4所示,具体方法为:
步骤4.1:将上述K个Canopy中心定义为K-means聚类的初始聚类中心点(C1 (1),C2 (1),...,Ck (1),...,CK (1));
步骤4.2:设定当前迭代次数为t,对训练集中所有的样本Xi依次计算到各聚类中心Ck (t)的欧氏距离
Figure BDA0002648757840000082
如下公式所示:
Figure BDA0002648757840000083
其中,Dist(i,k)为训练集中第i个样本Xi=[xi1,xi2,...,xir...,xis]到第k个聚类中心Ck=[ck1,ck2,...,ckr,...,cks]的欧氏距离;
步骤4.3:找出训练集中每个样本点关于各聚类中心Ck (t)的最小距离,并将对应的样本点Xi划分到与聚类中心Ck (t)距离最小的Canopy中;
步骤4.4:更新第t+1次迭代时每个Canopy簇的中心点,如下公式所示:
Figure BDA0002648757840000091
其中,nk表示属于第k个Canopy簇中训练样本的总个数,Xkl表示第k个Canopy簇中的第l个样本数据,l=1,2,...,nk
步骤4.5:判断各聚类中心是否收敛,如果收敛,即满足Ck (t+1)=Ck (t),则停止K-means算法迭代,确定用于晶棒质量评估的改进的Canopy-K-means模型的聚类中心,否则重复执行步骤4.2-4.4;
K-means算法的K值需要提前指定,且初始聚类中心随机选取具有很大的不确定性,因此,本发明根据Canopy算法进行粗聚类后,将K的值设置为6,即Canopy簇的个数。并且将K-means算法的初始聚类中心设置为表1所示的通过改进的Canopy算法得到的Canopy中心点。K-means算法使用欧式距离对样本与各个聚类中心进行距离计算,经过不断迭代直到算法收敛,即聚类中心不再发生改变,聚类结束。最终得到用于晶棒质量评估的改进的Canopy-K-means模型聚类中心,如表2所示,每个聚类中心对应一个样本类别。本发明运用改进的Canopy算法与K-means相结合的聚类算法对训练集样本进行质量评估,算法流程图如图3所示。
表2 改进的Canopy-K-means模型的聚类中心
Figure BDA0002648757840000092
步骤5:将测试集样本数据用于改进的Canopy-K-means模型,同一等级晶棒的质量划分标准实质是以距离来作为衡量标准,所以通过计算测试集样本与每一个改进的Canopy-K-means模型的聚类中心的距离来实现晶棒质量的评估,并计算评估平均准确率;
计算测试集中每个样本与改进的Canopy-K-means模型的各聚类中心的距离,并找出最小距离,并将测试样本归类为最小距离对应的聚类中心所属的类别,不同类别表示晶棒的不同质量等级;
离该聚类中心的距离越近说明该样本与该类别中样本相似度越高,将其归为该类别,不同类别象征晶棒的不同质量等级。计算测试集样本在改进的Canopy-K-means模型下的评估平均准确率P,如下公式所示:
Figure BDA0002648757840000101
其中,k为Canopy簇个数,TPk为第k类样本正确分类数目,TFk为第k类样本错误分类数目,k=1,2,…,K,各类样本总数Totalk满足:
Totalk=TPk+FPk (6)
本实施例中,测试集中30个样本数据如表3所示:
表3 测试集中30个样本数据
Figure BDA0002648757840000102
Figure BDA0002648757840000111
将上述30个测试集样本数据用于改进的Canopy-K-means模型。根据其欧氏距离公式(3)得到模型测试结果如表4所示,其中“√”代表分类正确,“×”代表分类错误。
表4 30个测试集样本用于改进的Canopy-K-means模型的分类结果
Figure BDA0002648757840000112
Figure BDA0002648757840000121
表4中数据包括测试集中各样本数据到各聚类中心的距离以及改进的Canopy-K-means模型对表3测试集中样本的分类结果和分类正确与否的标注。其中正确分类个数为26,错误分类个数为4,由公式(5)得测试集样本评估平均准确率达到86.67%。本实施例中,样本点到聚类中心C2的距离用D(C2)表示,样本点到聚类中心C3的样本点用D(C3)表示,样本点到聚类中心的距离用D(C4)表示,样本点到聚类中心的距离用D(C5)表示。
由于表中数据量较大,本实施例仅对表4中的样本X24-X28的聚类结果进行分析对比,其余情况分析原理不变。由样本X24-X28与表2聚类中心的距离运算结果可知,样本X25与聚类中心C1最近,则为一等品;样本X26与聚类中心C5最近,则为五等品;样本X27与聚类中心C6最近,则为六等品;而样本X24和样本X28都距离聚类中心C3比较近,所以它们同属于三等品。但是通过距离值可知样本X28距离聚类中心C3的距离值更小一些,故样本X28质量要优于样本X24。所以,五个蓝宝石晶棒样本质量评估结果从高到低为样本X25>样本X28>样本X24>样本X26>样本X27
步骤6:判断测试集中是否存在某一样本,其与两个聚类中心的距离差的绝对值小于设定阈值ε,若不存在,则步骤5为测试集样本的最终评估结果;若存在,则采用k-NN算法对该测试样本及对应的两个聚类中心所在Canopy簇中的训练样本进一步进行聚类计算,完成高相似度晶棒的质量评估,如图5所示,具体方法为:
(1)依次将测试集中与两个聚类中心的距离差的绝对值小于设定阈值ε的样本与两个聚类中心所在Canopy簇中的所有训练样本计算欧式距离;
(2)将计算得到的所有欧式距离按照递增依次排序;
(3)选取与当前测试样本距离最小的前k′个样本,并返回前k′个样本所出现频率最高的类别作为当前测试样本的分类,完成对测试样本的质量评估。
本实施例中,设定阈值ε等于0.1,从表4可以看出,样本X29同聚类中心C2和C3的距离差的绝对值为0.0575,小于ε;样本X30同C4和C5的距离差的绝对值为0.0243,小于ε。所以分别对以C2和C3为聚类中心、C4和C5为聚类中心的两个Canopy簇中所包含的样本数据采用k-NN算法对样本X29和X30进一步进行质量评估。计算难以区分所属类别的测试集样本与其距离相近的两个聚类中心所在Canopy簇中的训练样本之间的欧氏距离;然后将所有的距离值按照从小到大进行排序;统计出前k′个样本所出现频率最高的类别作为当前样本的分类。本实施例经过反复试验确定了最优的k′值为9,所以选取与样本点X29和X30距离值最近的前9个训练样本进行比较,聚类结果如表5所示:
表5 k-NN算法聚类结果
Figure BDA0002648757840000131
表5分类结果显示,针对高相似度的晶棒样本X29距离最近的前9个样本中属于C2的样本数为6,故样本X29属于C2类别。样本X30距离最近的前9个样本中属于C4的样本数为5,故样本X30属于C4类别。相比于表4改进的Canopy-K-means算法分类结果,k-NN算法的引入进一步提高了分类结果的平均准确率,更好的完成了高相似度晶棒质量的评估,可以将其应用到不同精度需求的设备。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (6)

1.一种用于滚磨机定向仪的晶棒质量评估方法,其特征在于:包括以下步骤;
步骤1:建立含有M个晶棒检测数据的样本集,每个晶棒检测数据包括s个晶面质量的检测等级及对应得分;
步骤2:将含有M个晶棒检测数据的样本集划分为训练集与测试集;训练集包括N个样本,测试集包括M-N个样本;
步骤3:采用改进的Canopy算法对训练集中样本进行粗聚类;
步骤4:在改进的Canopy算法对训练样本进行粗聚类的基础上再运用K-means算法对训练集样本进行精确聚类,确定用于晶棒质量评估的改进的Canopy-K-means模型的聚类中心;
步骤5:将测试集样本数据用于改进的Canopy-K-means模型,通过计算测试集样本与每一个改进的Canopy-K-means模型的聚类中心的距离来实现晶棒质量的评估,并计算评估平均准确率;
步骤6:判断测试集中是否存在某一样本,其与两个聚类中心的距离差的绝对值小于设定阈值ε,若不存在,则步骤5为测试集样本的最终评估结果;若存在,则采用k-NN算法对该测试样本及对应的两个聚类中心所在Canopy簇中的训练样本进一步进行聚类计算,完成高相似度晶棒的质量评估。
2.根据权利要求1所述的一种用于滚磨机定向仪的晶棒质量评估方法,其特征在于:步骤1所述晶面质量的检测等级及对应得分的确定方法为:
在滚磨机定向仪的磨削与定向阶段,将晶棒晶面的质量检测划分为n个等级,若晶面一等品为A等级,对应得分为n分;晶面二等品为B等级,对应得分为n-1分;其余等级及得分依次类推。
3.根据权利要求1所述的一种用于滚磨机定向仪的晶棒质量评估方法,其特征在于:所述步骤3的具体方法为:
步骤3.1:将训练集中样本随机排列,即X=[X1,X2,...,Xi,...,XN],其中,X1,X2,...,Xi,...,XN为训练集中的样本数据,N为训练集中样本总数,Xi=[xi1,xi2,...,xir...,xis]为训练集X中第i个样本关于晶棒晶面检测得分的特征向量,包括s维数据点,即表示晶棒有s个晶面,xir表示第i个训练样本的第r个晶面的检测得分;并且训练集中每一个样本数据都存在标签Y=[y1,y2,...,yi,...,yN],用于表示训练集中每一个样本数据所属类别;再选择两个距离阈值T1、T2,并且T1>T2
步骤3.2:从训练集样本X中随机选择一个样本数据Xi,当作第一个Canopy中心点,并将样本数据Xi从X中删除;
步骤3.3:再从训练集样本X中选取一个样本数据Xj(j≠i),采用Bray-Curtis方法计算Xj到已经产生的Canopy中心点的最小距离dBCD,并将其与两个距离阈值T1、T2进行比较:
(a)如果dBCD≤T1,则给Xj弱标记,表示其属于当前Canopy簇,将Xj加入当前Canopy簇中,Xj不从训练集X中删除;
(b)如果dBCD<T2,则给Xj强标记,表示其属于当前Canopy簇,并将Xj从训练集X中删除;
(c)如果dBCD>T1,则Xj不属于当前的Canopy簇,Xj形成一个新的Canopy中心点,并将Xj从训练集X中删除;
采用Bray-Curtis方法计算Xj到已经产生的Canopy中心点Xi的最小距离dBCD的计算,如下公式所示:
Figure FDA0002648757830000021
其中,xjr和xir分别是向量Xj和向量Xi的第r维数据,r=1,2...,s;
步骤3.4:重复执行步骤3.3,直至训练集X中样本为空,进而将训练集样本数据分组成K个Canopy簇,得到K个聚类中心C1,C2,...,Ck,...,CK,其中Ck=[ck1,ck2,...,ckr,...,cks],每个聚类中心对应一个样本类别。
4.根据权利要求3所述的一种用于滚磨机定向仪的晶棒质量评估方法,其特征在于:所述步骤4的具体方法为:
步骤4.1:将上述K个Canopy中心定义为K-means聚类的初始聚类中心点(C1 (1),C2 (1),...,Ck (1),...,CK (1));
步骤4.2:设定当前迭代次数为t,对训练集中所有的样本Xi依次计算到各聚类中心Ck (t)的欧氏距离
Figure FDA0002648757830000031
如下公式所示:
Figure FDA0002648757830000032
其中,Dist(i,k)为训练集中第i个样本Xi=[xi1,xi2,...,xir...,xis]到第k个聚类中心Ck=[ck1,ck2,...,ckr,...,cks]的欧氏距离;
步骤4.3:找出训练集中每个样本点关于各聚类中心Ck (t)的最小距离,并将对应的样本点Xi划分到与聚类中心Ck (t)距离最小的Canopy中;
步骤4.4:更新第t+1次迭代时每个Canopy簇的中心点,如下公式所示:
Figure FDA0002648757830000033
其中,nk表示属于第k个Canopy簇中训练样本的总个数,Xkl表示第k个Canopy簇中的第l个样本数据,l=1,2,...,nk
步骤4.5:判断各聚类中心是否收敛,如果收敛,即满足Ck (t+1)=Ck (t),则停止K-means算法迭代,确定用于晶棒质量评估的改进的Canopy-K-means模型的聚类中心,否则重复执行步骤4.2-4.4。
5.根据权利要求4所述的一种用于滚磨机定向仪的晶棒质量评估方法,其特征在于:所述步骤5的具体方法为:
计算测试集中每个样本与改进的Canopy-K-means模型的各聚类中心的距离,并找出最小距离,并将测试样本归类为最小距离对应的聚类中心所属的类别,不同类别表示晶棒的不同质量等级;
计算测试集样本在改进的Canopy-K-means模型下的评估平均准确率P,如下公式所示:
Figure FDA0002648757830000034
其中,k为Canopy簇个数,TPk为第k类样本正确分类数目,TFk为第k类样本错误分类数目,k=1,2,...,K,各类样本总数Totalk满足:
Totalk=TPk+FPk (5)。
6.根据权利要求5所述的一种用于滚磨机定向仪的晶棒质量评估方法,其特征在于:步骤6所述采用k-NN算法对该测试样本及对应的两个聚类中心所在Canopy簇中的训练样本进一步进行聚类计算,完成高相似度晶棒的质量评估的具体方法为:
(1)依次将测试集中与两个聚类中心的距离差的绝对值小于设定阈值ε的样本与两个聚类中心所在Canopy簇中的所有训练样本计算欧式距离;
(2)将计算得到的所有欧式距离按照递增依次排序;
(3)选取与当前测试样本距离最小的前k′个样本,并返回前k′个样本所出现频率最高的类别作为当前测试样本的分类,完成对测试样本的质量评估。
CN202010862885.1A 2020-08-25 2020-08-25 一种用于滚磨机定向仪的晶棒质量评估方法 Active CN111985823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010862885.1A CN111985823B (zh) 2020-08-25 2020-08-25 一种用于滚磨机定向仪的晶棒质量评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010862885.1A CN111985823B (zh) 2020-08-25 2020-08-25 一种用于滚磨机定向仪的晶棒质量评估方法

Publications (2)

Publication Number Publication Date
CN111985823A true CN111985823A (zh) 2020-11-24
CN111985823B CN111985823B (zh) 2023-10-27

Family

ID=73444212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010862885.1A Active CN111985823B (zh) 2020-08-25 2020-08-25 一种用于滚磨机定向仪的晶棒质量评估方法

Country Status (1)

Country Link
CN (1) CN111985823B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023226313A1 (zh) * 2022-05-26 2023-11-30 西安奕斯伟材料科技股份有限公司 晶棒制造管理方法和晶棒制造管理***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107528823A (zh) * 2017-07-03 2017-12-29 中山大学 一种基于改进的K‑Means聚类算法的网络异常检测方法
CN109725013A (zh) * 2018-12-20 2019-05-07 深圳晶泰科技有限公司 X射线衍射数据分析***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107528823A (zh) * 2017-07-03 2017-12-29 中山大学 一种基于改进的K‑Means聚类算法的网络异常检测方法
CN109725013A (zh) * 2018-12-20 2019-05-07 深圳晶泰科技有限公司 X射线衍射数据分析***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张吉生;张波;于烨;: "基于大数据架构的变电设备运行质量智能评价", 电力大数据, no. 09, pages 43 - 47 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023226313A1 (zh) * 2022-05-26 2023-11-30 西安奕斯伟材料科技股份有限公司 晶棒制造管理方法和晶棒制造管理***

Also Published As

Publication number Publication date
CN111985823B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN109887015B (zh) 一种基于局部曲面特征直方图的点云自动配准方法
CN109034262B (zh) 一种x射线定向仪缺陷识别的批量处理方法
CN106257498B (zh) 基于异构纹理特征的锌浮选工况状态划分方法
Grabusts The choice of metrics for clustering algorithms
CN108804731B (zh) 基于重要点双重评价因子时间序列趋势特征提取方法
CN113205486A (zh) 基于三维点云的表面缺陷检测方法、装置及存储介质
CN101140624A (zh) 图像匹配方法
CN112287980B (zh) 基于典型特征向量的动力电池筛选方法
CN113344019A (zh) 一种决策值选取初始聚类中心改进的K-means算法
CN110581783A (zh) 基于ahp和topsis的通信方案决策方法
CN108667684A (zh) 一种基于局部向量点积密度的数据流异常检测方法
CN115964662A (zh) 基于改进密度峰值聚类的复杂装备参数异常检测方法
CN117197596B (zh) 基于小样本迁移学习的混合底质声学分类方法
CN111985823B (zh) 一种用于滚磨机定向仪的晶棒质量评估方法
CN115293290A (zh) 一种自动识别聚类数的层次聚类算法
CN101625725A (zh) 基于流形距离的人工免疫无监督图像分类方法
Shao et al. Design and research of metal surface defect detection based on machine vision
CN113523904A (zh) 一种刀具磨损检测方法
CN113361616A (zh) 一种优化聚类中心的k-means算法
CN112164144B (zh) 一种结合d2算子和法向算子的铸件三维模型分类方法
CN115345846A (zh) 一种中低碳钢晶粒度智能评级方法及***
Liu et al. The minimum description length criterion applied to emitter number detection and pulse classification
CN112801197A (zh) 一种基于用户数据分布的K-means方法
CN113269217A (zh) 基于Fisher准则的雷达目标分类方法
CN112308160A (zh) 一种k—均值聚类人工智能优化算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant