CN111985823A

CN111985823A - 一种用于滚磨机定向仪的晶棒质量评估方法

Info

Publication number: CN111985823A
Application number: CN202010862885.1A
Authority: CN
Inventors: 关守平; 王文奇; 宋阳
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2020-11-24
Anticipated expiration: 2040-08-25
Also published as: CN111985823B

Abstract

本发明提供一种用于滚磨机定向仪的晶棒质量评估方法，涉及单晶材料加工技术领域。该方法首先建立含有M个晶棒检测数据的样本集，并将样本集划分为训练集和测试集；再采用改进的Canopy算法和K‑means算法对训练集样本进行精确聚类，确定用于晶棒质量评估的改进的Canopy‑K‑means模型的聚类中心；将测试集样本数据用于改进的Canopy‑K‑means模型，通过计算测试集样本与每一个聚类中心的距离来实现晶棒质量的评估；同时，采用k‑NN算法对与两个聚类中心的距离差的绝对值小于设定阈值ε的样本及对应的两个聚类中心所在Canopy簇中的训练样本进一步进行聚类计算，完成高相似度晶棒的质量评估。

Description

一种用于滚磨机定向仪的晶棒质量评估方法

技术领域

本发明涉及单晶材料加工技术领域，尤其涉及一种用于滚磨机定向仪的晶棒质量评估方法。

背景技术

在单晶生长过程中，由于其生长技术固有的局限性不可避免的产生各种缺陷，导致加工出来的晶棒质量也参差不齐。然而，晶棒的质量也直接影响到相应产品的技术性能，为了生产出高质量的晶棒，研究者们需要不断改进晶体的生长方法，寻求更加有效的加工手段。目前常见的晶棒加工方法有磨削、机械抛光、干式机械化学抛光、湿式机械化学和化学机械抛光、水合抛光、浮法抛光等。但是除了寻求更加有效的加工方法外，对加工过程中晶棒的质量评估也是一个不容忽视的关键问题。

滚磨机定向仪是单晶晶棒加工与定向一体化的设备，实现了晶锭外圆磨削和晶棒定向两个工艺流程的综合化和一体化，从而提高生产效率和定向精度。对于滚磨机定向仪而言，一般来说在完成最佳晶面的定向选择进而进行基准面定位加工就算完成了工序任务。但是现在考虑的问题是：既然通过前述过程得到了单晶晶棒各个晶面的品质指标，能否根据这些指标进行晶棒质量的整体评估呢？虽然仅仅根据晶面品质对晶棒进行质量评估可能会出现偏差，因为毕竟晶棒内部的生长情况不清楚，但是各个晶面的品质也一定程度上反映了晶棒的生长质量。

在晶棒的定向过程中，滚磨机定向仪对晶棒的各个晶面进行质量评估，选取评估质量最好的晶面方向进而磨削。但是对于晶棒的整体质量评估却缺少相应的评估方法，这是目前滚磨机定向仪所缺少的功能。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种用于滚磨机定向仪的晶棒质量评估方法，在晶面质量评估的基础上实现对晶棒质量的评估。

为解决上述技术问题，本发明所采取的技术方案是：一种用于滚磨机定向仪的晶棒质量评估方法，包括以下步骤；

步骤1：建立含有M个晶棒检测数据的样本集，每个晶棒检测数据包括s个晶面质量的检测等级及对应得分；

所述晶面质量的检测等级及对应得分的确定方法为：

在滚磨机定向仪的磨削与定向阶段，将晶面的质量检测划分为n个等级，若晶面一等品为A等级，对应得分为n分；晶面二等品为B等级，对应得分为n-1分；其余等级及得分依次类推；

步骤2：将含有M个晶棒检测数据的样本集划分为训练集与测试集；训练集包括N个样本，测试集包括M-N个样本；

步骤3：采用改进的Canopy算法对训练集中样本进行粗聚类；

步骤3.1：将训练集中样本随机排列，即X＝[X₁,X₂,...,X_i,...,X_N]，其中，X₁,X₂,...,X_i,...,X_N为训练集中的样本数据，N为训练集中样本总数，X_i＝[x_i1,x_i2,...,x_ir...,x_is]为训练集X中第i个样本关于晶棒晶面检测得分的特征向量，包括s维数据点，即表示晶棒有s个晶面，x_ir表示第i个训练样本的第r个晶面的检测得分；并且训练集中每一个样本数据都存在标签Y＝[y₁,y₂,...,y_i,...,y_N]，用于表示训练集中每一个样本数据所属类别；再选择两个距离阈值T₁、T₂，并且T₁>T₂；

步骤3.2：从训练集样本X中随机选择一个样本数据X_i，当作第一个Canopy中心点，并将样本数据X_i从X中删除；

步骤3.3：再从训练集样本X中选取一个样本数据X_j(j≠i)，采用Bray-Curtis方法计算X_j到已经产生的Canopy中心点的最小距离d_BCD，并将其与两个距离阈值T₁、T₂进行比较：

(a)如果d_BCD≤T₁，则给X_j弱标记，表示其属于当前Canopy簇，将X_j加入当前Canopy簇中，X_j不从训练集X中删除；

(b)如果d_BCD<T₂，则给X_j强标记，表示其属于当前Canopy簇，并将X_j从训练集X中删除；

(c)如果d_BCD>T₁，则X_j不属于当前的Canopy簇，X_j形成一个新的Canopy中心点，并将X_j从训练集X中删除；

采用Bray-Curtis方法计算X_j到已经产生的Canopy中心点X_i的最小距离d_BCD的计算，如下公式所示：

其中，x_jr和x_ir分别是向量X_j和向量X_i的第r维数据，r＝1,2...,s；

步骤3.4：重复执行步骤3.3，直至训练集X中样本为空，进而将训练集样本数据分组成K个Canopy簇，得到K个聚类中心C₁,C₂,...,C_k,...,C_K，其中C_k＝[c_k1,c_k2,...,c_kr,...,c_ks]，每个聚类中心对应一个样本类别；

步骤4：在改进的Canopy算法对训练样本进行粗聚类的基础上再运用K-means算法对训练集样本进行精确聚类，确定用于晶棒质量评估的改进的Canopy-K-means模型的聚类中心，具体方法为：

步骤4.1：将上述K个Canopy中心定义为K-means聚类的初始聚类中心点(C₁ ⁽¹⁾,C₂ ⁽¹⁾,...,C_k ⁽¹⁾，...，C_K ⁽¹⁾)；

步骤4.2：设定当前迭代次数为t，对训练集中所有的样本X_i依次计算到各聚类中心C_k ^(t)的欧氏距离

如下公式所示：

其中，Dist(i,k)为训练集中第i个样本X_i＝[x_i1,x_i2,...,x_ir...,x_is]到第k个聚类中心C_k＝[c_k1,c_k2,...,c_kr,...,c_ks]的欧氏距离；

步骤4.3：找出训练集中每个样本点关于各聚类中心C_k ^(t)的最小距离，并将对应的样本点X_i划分到与聚类中心C_k ^(t)距离最小的Canopy中；

步骤4.4：更新第t+1次迭代时每个Canopy簇的中心点，如下公式所示：

其中，n_k表示属于第k个Canopy簇中训练样本的总个数，X_kl表示第k个Canopy簇中的第l个样本数据，l＝1,2,...,n_k；

步骤4.5：判断各聚类中心是否收敛，如果收敛，即满足C_k ^(t+1)＝C_k ^(t)，则停止K-means算法迭代，确定用于晶棒质量评估的改进的Canopy-K-means模型的聚类中心，否则重复执行步骤4.2-4.4；

步骤5：将测试集样本数据用于改进的Canopy-K-means模型，通过计算测试集样本与每一个改进的Canopy-K-means模型的聚类中心的距离来实现晶棒质量的评估，并计算测试集样本在改进的Canopy-K-means模型下的评估平均准确率；

计算测试集中每个样本与改进的Canopy-K-means模型的各聚类中心的距离，并找出最小距离，并将测试样本归类为最小距离对应的聚类中心所属的类别，不同类别表示晶棒的不同质量等级；

计算测试集样本在改进的Canopy-K-means模型下的评估平均准确率P，如下公式所示：

其中，k为Canopy簇个数，TP_k为第k类样本正确分类数目，TF_k为第k类样本错误分类数目，k＝1,2,Ω,K，各类样本总数Total_k满足：

Total_k＝TP_k+FP_k (5)

步骤6：判断测试集中是否存在某一样本，其与两个聚类中心的距离差的绝对值小于设定阈值ε，若不存在，则步骤5为测试集样本的最终评估结果；若存在，则采用k-NN算法对该测试样本及对应的两个聚类中心所在Canopy簇中的训练样本进一步进行聚类计算，完成高相似度晶棒的质量评估；

所述采用k-NN算法对该测试样本及对应的两个聚类中心所在Canopy簇中的训练样本进一步进行聚类计算，完成高相似度晶棒的质量评估的具体方法为：

(1)依次将测试集中与两个聚类中心的距离差的绝对值小于设定阈值ε的样本与两个聚类中心所在Canopy簇中的所有训练样本计算欧式距离；

(2)将计算得到的所有欧式距离按照递增依次排序；

(3)选取与当前测试样本距离最小的前k′个样本，并返回前k′个样本所出现频率最高的类别作为当前测试样本的分类，完成对测试样本的质量评估。

本发明方法基于混合式聚类算法，对已知多晶面品质的晶棒进行质量评估。提出采用改进的Canopy与K-means相结合的混合算法建立Canopy-K-means模型，并进一步引入k-近邻(k-NN:Nearest Neighbor)算法，使滚磨机定向仪完成对整个晶棒的质量评估。

Canopy算法的实质是一个对数据处理的过程，本发明运用Canopy算法对不同晶棒质量样本进行粗聚类的过程，能够快速确定聚类数K和聚类中心。该算法的基本思想是先对不同样本之间距离进行计算，然后将相似度比较高的样本放入到一个子集，将其称为Canopy簇；再经过一系列的计算得到多个Canopy簇，同一个样本数据可以在多个Canopy簇内，不会出现某个样本不属于任何一个Canopy簇的情况。但是常规Canopy算法采用欧氏距离计算会忽视数据样本点的不相关性，因此本发明的Canopy算法采用Bray-Curtis距离对此进行了改进；再采用K-means算法对改进的Canopy算法聚类结果重叠部分进一步精确聚类。K-means算法的优点是原理和实现相对简单，具有较高的执行效率和大数据量较强的可伸缩性；存在的问题是一旦孤立点和噪声被选作初始聚类中心，对后面整个聚类过程的准确性带来很大的问题。故选择改进的Canopy算法作为本发明聚类技术的初始聚类中心，可以大大优化K-means聚类算法的效率。

然而，实际应用会遇到待测样本与两个聚类中心的距离差的绝对值小于设定阈值ε的情况，进而很难确定这些样本具体属于哪一个类别。因此在上述算法的基础上，引入k-NN算法，对其进一步聚类分析，提高晶棒聚类划分的准确度，进而实现高相似度晶棒的质量评估。

采用上述技术方案所产生的有益效果在于：本发明提供的一种用于滚磨机定向仪的晶棒质量评估方法，首先根据晶棒属性的特征提出了改进的Canopy聚类算法，对晶棒进行粗分类，确定聚类簇个数和聚类中心；进而采用K-means算法进行精确聚类，解决样本数据重叠的问题，建立晶棒质量评估分类模型；在评估过程中，针对与多个聚类中心的距离相近的难以评定质量的样本，采用k-NN算法进一步评估，完成了高相似度晶棒质量评估的工作。本发明方法填补了滚磨机定向仪晶棒质量评估功能的空白，为加工出高质量的晶体、更好的投入到工业生产奠定了坚实的基础。

附图说明

图1为本发明实施例提供的一种用于滚磨机定向仪的晶棒质量评估方法的流程图；

图2为本发明实施例提供的蓝宝石晶面图；

图3为本发明实施例提供的采用改进的Canopy算法对训练集样本进行粗聚类的流程图；

图4为本发明实施例提供的运用K-means算法对训练集样本进行精确聚类的法流程图；

图5为本发明实施例提供的k-NN算法流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例以单晶材料蓝宝石晶棒为例，采用本发明的一种用于滚磨机定向仪的晶棒质量评估方法，对蓝宝石晶棒质量进行评估。

一种用于滚磨机定向仪的晶棒质量评估方法，如图1所示，包括以下步骤；

所述晶面质量的检测等级及对应得分的确定方法为：

本实施例选取630个晶棒样本集，每个晶棒如图2所示，沿C轴生长的单晶蓝宝石有6个A-Plane晶面，则每个晶棒样本由6维数据点构成，故s＝6。本实施例中，晶棒A-Plane晶面质量检测后共分为5个质量等级，晶面一等品为A等级，对应得分为5分；晶面二等品为B等级，对应得分为4分；晶面三等品为C等级，对应得分为3分；晶面四等品为D等级，对应得分为2分；晶面五等品为E等级，对应得分为1分。若6个A-Plane晶面质量都是A等级，则晶棒得分为30分，若6个A-Plane晶面都是E等级，则晶棒得分为6分，所以每个晶棒的得分在6～30之间。本实施例从定向基准面顺时针采集各个A-Plane晶面质量检测等级，例如一个蓝宝石晶棒晶面等级检测结果为[A,A,E,B,C,A]，则对应得分向量为[5,5,1,4,3,5]。

本实施例将630个晶棒样本集，划分训练集与测试集。训练集为600个，测试集为30个。根据改进的Canopy-K-means算法原理，先对训练集样本数据采用改进的Canopy算法进行粗聚类；在改进的Canopy算法的基础上继续使用K-means算法对训练集样本进行精确的聚类，确定改进的Canopy-K-means模型最终聚类中心；测试集样本用于对此聚类模型的质量评估精度进行验证；

步骤3：采用改进的Canopy算法对训练集中样本进行粗聚类，如图3所示，具体方法为：

Canopy算法一般是使用几何距离对相似度进行衡量，常用的距离计算方法有欧氏距离(Euclidean distance)、曼哈顿距离(Manhattan distance)等，其中欧氏距离是使用最多，用来衡量多维空间中每个点之间的绝对距离，也就是真实的距离。以s维向量X_j(x_j1,x_j2,...,x_jr,...,x_js)和X_i(x_i1,x_i2,...,x_ir,...,x_is)为例，两点欧氏距离计算见如下公式：

欧氏距离是一种应用广泛且比较简单的距离计算方式，但是由于晶棒样本数据是由多个不相关的值组成，采用欧氏距离会忽略这种不相关性。针对该问题本发明的解决方法是在Canopy算法的基础上修改距离函数，不再使用欧氏距离作为聚类的度量标准。因为Bray-Curtis距离对样本差异更加敏感，对于每一个数据样本属性的不相关性比较适用，将其引入到本发明所要实现的晶棒质量评估问题上来，采用Bray-Curtis方法计算X_j到已经产生的Canopy中心点X_i的最小距离d_BCD的计算，如下公式所示：

其中，x_jr和x_ir分别是向量X_j和向量X_i的第r维数据，r＝1,2...,s；d_BCD的值接近0意味着两个样本关系非常相似，而d_BCD的值接近1意味着两个样本之间可以观察到的最大差异。

本实施例中，将训练集中的600个蓝宝石晶棒样本数据采用改进的Canopy算法进行粗聚类，通过多次实验调节不同的阈值T₁为0.1，T₂为0.08。将训练集样本划分成6个不同的Canopy簇，即晶棒质量评估被划分为6个等级，也就是K的值为6，Canopy中心点如表1所示。

表1 通过改进的Canopy算法得到的Canopy中心点

步骤4：在改进的Canopy算法对训练样本进行粗聚类的基础上再运用K-means算法对训练集样本进行精确聚类，确定用于晶棒质量评估的改进的Canopy-K-means模型的聚类中心，如图4所示，具体方法为：

如下公式所示：

K-means算法的K值需要提前指定，且初始聚类中心随机选取具有很大的不确定性，因此，本发明根据Canopy算法进行粗聚类后，将K的值设置为6，即Canopy簇的个数。并且将K-means算法的初始聚类中心设置为表1所示的通过改进的Canopy算法得到的Canopy中心点。K-means算法使用欧式距离对样本与各个聚类中心进行距离计算，经过不断迭代直到算法收敛，即聚类中心不再发生改变，聚类结束。最终得到用于晶棒质量评估的改进的Canopy-K-means模型聚类中心，如表2所示，每个聚类中心对应一个样本类别。本发明运用改进的Canopy算法与K-means相结合的聚类算法对训练集样本进行质量评估，算法流程图如图3所示。

表2 改进的Canopy-K-means模型的聚类中心

步骤5：将测试集样本数据用于改进的Canopy-K-means模型，同一等级晶棒的质量划分标准实质是以距离来作为衡量标准，所以通过计算测试集样本与每一个改进的Canopy-K-means模型的聚类中心的距离来实现晶棒质量的评估，并计算评估平均准确率；

离该聚类中心的距离越近说明该样本与该类别中样本相似度越高，将其归为该类别，不同类别象征晶棒的不同质量等级。计算测试集样本在改进的Canopy-K-means模型下的评估平均准确率P，如下公式所示：

其中，k为Canopy簇个数，TP_k为第k类样本正确分类数目，TF_k为第k类样本错误分类数目，k＝1,2,…,K，各类样本总数Total_k满足：

Total_k＝TP_k+FP_k (6)

本实施例中，测试集中30个样本数据如表3所示：

表3 测试集中30个样本数据

将上述30个测试集样本数据用于改进的Canopy-K-means模型。根据其欧氏距离公式(3)得到模型测试结果如表4所示，其中“√”代表分类正确，“×”代表分类错误。

表4 30个测试集样本用于改进的Canopy-K-means模型的分类结果

表4中数据包括测试集中各样本数据到各聚类中心的距离以及改进的Canopy-K-means模型对表3测试集中样本的分类结果和分类正确与否的标注。其中正确分类个数为26，错误分类个数为4，由公式(5)得测试集样本评估平均准确率达到86.67％。本实施例中，样本点到聚类中心C₂的距离用D(C₂)表示，样本点到聚类中心C₃的样本点用D(C₃)表示，样本点到聚类中心的距离用D(C₄)表示，样本点到聚类中心的距离用D(C₅)表示。

由于表中数据量较大，本实施例仅对表4中的样本X₂₄-X₂₈的聚类结果进行分析对比，其余情况分析原理不变。由样本X₂₄-X₂₈与表2聚类中心的距离运算结果可知，样本X₂₅与聚类中心C₁最近，则为一等品；样本X₂₆与聚类中心C₅最近，则为五等品；样本X₂₇与聚类中心C₆最近，则为六等品；而样本X₂₄和样本X₂₈都距离聚类中心C₃比较近，所以它们同属于三等品。但是通过距离值可知样本X₂₈距离聚类中心C₃的距离值更小一些，故样本X₂₈质量要优于样本X₂₄。所以，五个蓝宝石晶棒样本质量评估结果从高到低为样本X₂₅>样本X₂₈>样本X₂₄>样本X₂₆>样本X₂₇。

步骤6：判断测试集中是否存在某一样本，其与两个聚类中心的距离差的绝对值小于设定阈值ε，若不存在，则步骤5为测试集样本的最终评估结果；若存在，则采用k-NN算法对该测试样本及对应的两个聚类中心所在Canopy簇中的训练样本进一步进行聚类计算，完成高相似度晶棒的质量评估，如图5所示，具体方法为：

(2)将计算得到的所有欧式距离按照递增依次排序；

本实施例中，设定阈值ε等于0.1，从表4可以看出，样本X₂₉同聚类中心C₂和C₃的距离差的绝对值为0.0575，小于ε；样本X₃₀同C₄和C₅的距离差的绝对值为0.0243，小于ε。所以分别对以C₂和C₃为聚类中心、C₄和C₅为聚类中心的两个Canopy簇中所包含的样本数据采用k-NN算法对样本X₂₉和X₃₀进一步进行质量评估。计算难以区分所属类别的测试集样本与其距离相近的两个聚类中心所在Canopy簇中的训练样本之间的欧氏距离；然后将所有的距离值按照从小到大进行排序；统计出前k′个样本所出现频率最高的类别作为当前样本的分类。本实施例经过反复试验确定了最优的k′值为9，所以选取与样本点X₂₉和X₃₀距离值最近的前9个训练样本进行比较，聚类结果如表5所示：

表5 k-NN算法聚类结果

表5分类结果显示，针对高相似度的晶棒样本X₂₉距离最近的前9个样本中属于C₂的样本数为6，故样本X₂₉属于C₂类别。样本X₃₀距离最近的前9个样本中属于C₄的样本数为5，故样本X₃₀属于C₄类别。相比于表4改进的Canopy-K-means算法分类结果，k-NN算法的引入进一步提高了分类结果的平均准确率，更好的完成了高相似度晶棒质量的评估，可以将其应用到不同精度需求的设备。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种用于滚磨机定向仪的晶棒质量评估方法，其特征在于：包括以下步骤；

步骤3：采用改进的Canopy算法对训练集中样本进行粗聚类；

步骤4：在改进的Canopy算法对训练样本进行粗聚类的基础上再运用K-means算法对训练集样本进行精确聚类，确定用于晶棒质量评估的改进的Canopy-K-means模型的聚类中心；

步骤5：将测试集样本数据用于改进的Canopy-K-means模型，通过计算测试集样本与每一个改进的Canopy-K-means模型的聚类中心的距离来实现晶棒质量的评估，并计算评估平均准确率；

步骤6：判断测试集中是否存在某一样本，其与两个聚类中心的距离差的绝对值小于设定阈值ε，若不存在，则步骤5为测试集样本的最终评估结果；若存在，则采用k-NN算法对该测试样本及对应的两个聚类中心所在Canopy簇中的训练样本进一步进行聚类计算，完成高相似度晶棒的质量评估。

2.根据权利要求1所述的一种用于滚磨机定向仪的晶棒质量评估方法，其特征在于：步骤1所述晶面质量的检测等级及对应得分的确定方法为：

在滚磨机定向仪的磨削与定向阶段，将晶棒晶面的质量检测划分为n个等级，若晶面一等品为A等级，对应得分为n分；晶面二等品为B等级，对应得分为n-1分；其余等级及得分依次类推。

3.根据权利要求1所述的一种用于滚磨机定向仪的晶棒质量评估方法，其特征在于：所述步骤3的具体方法为：

步骤3.4：重复执行步骤3.3，直至训练集X中样本为空，进而将训练集样本数据分组成K个Canopy簇，得到K个聚类中心C₁,C₂,...,C_k,...,C_K，其中C_k＝[c_k1,c_k2,...,c_kr,...,c_ks]，每个聚类中心对应一个样本类别。

4.根据权利要求3所述的一种用于滚磨机定向仪的晶棒质量评估方法，其特征在于：所述步骤4的具体方法为：

如下公式所示：

步骤4.5：判断各聚类中心是否收敛，如果收敛，即满足C_k ^(t+1)＝C_k ^(t)，则停止K-means算法迭代，确定用于晶棒质量评估的改进的Canopy-K-means模型的聚类中心，否则重复执行步骤4.2-4.4。

5.根据权利要求4所述的一种用于滚磨机定向仪的晶棒质量评估方法，其特征在于：所述步骤5的具体方法为：

其中，k为Canopy簇个数，TP_k为第k类样本正确分类数目，TF_k为第k类样本错误分类数目，k＝1,2,...,K，各类样本总数Total_k满足：

Total_k＝TP_k+FP_k (5)。

6.根据权利要求5所述的一种用于滚磨机定向仪的晶棒质量评估方法，其特征在于：步骤6所述采用k-NN算法对该测试样本及对应的两个聚类中心所在Canopy簇中的训练样本进一步进行聚类计算，完成高相似度晶棒的质量评估的具体方法为：

(2)将计算得到的所有欧式距离按照递增依次排序；