CN108182302A

CN108182302A - 基于修改聚类半监督核主元分析的早期故障检测方法

Info

Publication number: CN108182302A
Application number: CN201711324889.9A
Authority: CN
Inventors: 张颖伟; 于忠源; 方正
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2017-12-13
Filing date: 2017-12-13
Publication date: 2018-06-19
Anticipated expiration: 2037-12-13
Also published as: CN108182302B

Abstract

本发明提供一种基于修改聚类半监督核主元分析的早期故障检测方法，涉及故障监测与诊断技术领域。该方法通过离线建模与在线监测，同时考虑数据的本身分布信息和数据类别标签信息，并采用修改的聚类假设，运用改进的半监督KPCA方法，先找到早期故障数据，进而进行二次建模，得到偏向于主元的分解函数，找到划分故障与正常的分界，运用该分解函数判定新采集的数据是否属于故障类数据。本发明针对于工业早期故障难以发现和判定的问题，不仅能大大降低误报警，还提高了故障检测的准确性。

Description

基于修改聚类半监督核主元分析的早期故障检测方法

技术领域

本发明涉及故障监测与诊断技术领域，尤其涉及一种基于修改聚类半监督核主元分析的早期故障检测方法。

背景技术

随着现代工业的迅速发展，现代企业中生产设备日趋大型化、连续化、高速化和自动化，设备的结构与组成十分复杂，生产规模非常庞大，各部门之间的联系也特别密切。精确的过程故障检测对提高生产质量和避免生产事故非常重要。因此，过去几年来，大量研究人员重视开发有效的过程监控技术。特别是，随着计算机和传感器技术在工业过程中的广泛应用，测量和存储了许多过程数据。测量数据包含大量的过程操作信息。实际的生产过程有线性的、非线性的、时不变的、时变的等，对于不同的生产过程所具有的特征，应选用不同的故障监测方法，这样才能有效地检测到故障。

通过采用统计分析技术，可以发现包含测量数据的信息来监控过程。已经提出了包括主成分分析(PCA)，偏最小二乘法(PLS)和独立分量分析(ICA)在内的古典多变量统计过程监测(MSPM)方法，用于过程故障诊断。针对工业过程的非线性特性，一些学者提出了核主元分析(KPCA)方法，通过非线性核函数把非线性数据映射到高维特征空间，然后在特征空间中执行线性PCA提取特征，KPCA是在高维特征空间中执行PCA，所以无需求解非线性优化问题，并且与其它非线性方法相比，在建模之前它不需要指定主元数目，但是传统KPCA方法也存在着不足之处，KPCA是一种无监督的方法，只是考虑了数据本身的分布特性，而并没有考虑数据与类别的相关联系，即建模数据中同时含有是正常和故障的数据。将故障与正常类别信息、数据本身分布特征两者结合在一起，将KPCA扩展为半监督方法对于故障检测意义重大。而这种半监督KPCA本质上是属于半监督的分类方法，其隐含了每个数据都具有一个明确的类标签。

然而在实际应用中，尤其是对于早期故障检测中，很难说明一个实例的情况具体是属于正常还是故障，数据可能同时含有两类的数据特征，将这种体现两类信息的数据定义为早期故障数据，这里需要指出的是早期故障数据并不等于故障数据，早期故障数据是正常与故障的过渡状态，这里被定义为既包含正常数据特征又具有故障数据特征的数据。这是由于故障与正常运行时界限不清晰，正常运行数据与故障数据特征差异较大，并且具有大量未标记的中间运行状态数据，故障信息与正常故障信息同时出现，有时在未发生严重后果时，难以判定是否故障已经发生，所以需要提出一种有效可行方法针对早期故障进行识别和诊断。例如对于电熔镁炉来说，喷炉是其中频繁发生严重的事故。冶炼过程中CO2气体在炉内不断累积，到达临界点后，气体仍无法排出，将造成喷炉事故，对生产质量与工人安全造成极大隐患。然而气体累积过程是在炉体内部，且是一种渐变过程，可CO2含量属于完全正常时只有冶炼过程早期，到达临界点喷炉之后气体一下子释放，中间累积过程情况难以断定，冶炼过程中可能包含正常运行信息也体现着要发生故障信息，而目前情况只能靠工人经验判断，误报漏报率极高。

通过迁移学习，提高故障诊断和分析的灵敏度，并且根据故障幅值输入调控方法来降低电熔镁炉工业生产中故障造成的损失。但是随着工业***的发展，采集的数据也日益复杂，数据之多且维度之高已经成为了大数据统一建模并进行故障监测和诊断的一大障碍。所以如何对这样高维度的大数据进行特征提取来简化接下来的故障监测和诊断已成为当前所关注的问题。传统的特征提取方法如PCA、LDA等，已无法满足当前物理化学数据和多媒体流异构数据统一建模进行故障监测和诊断的需求。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于修改聚类半监督核主元分析的早期故障检测方法，通过采集的传统数据和多媒体流异构数据进行统一建模，先找到早期故障数据，进而找到划分故障与正常的分界。

为解决上述技术问题，本发明所采取的技术方案是：

一种基于修改聚类半监督核主元分析的早期故障检测方法，包括以下步骤：

步骤1：采集冶炼工业过程中的传统数据与多媒体流数据，包括：冶炼初期即完全正常状态的数据、冶炼过程中数据、喷炉故障发生前后数据，并对采集的正常和故障数据进行标记，得到标记样本数据其标签矩阵为y_i∈[1，C]，C为类别总数，其它数据作为无标记数据，得到未标记样本数据其中x_i∈R^D、x_j∈R^D，N＝n_l+n_u，D表示x_i、x_j的数据维数，n_l表示标记样本数，n_u表示未标记样本数；提取采集的多媒体流数据中的关键帧，并提取多媒体流数据的色彩与灰度特征，并将传统数据与多媒体流数据统一进行标准化处理和坐标变换，得到采样样本数据；

步骤2：用步骤1标准化后的采样样本，通过建立基于类成员的半监督分类模型，即SSCCM(即semi-supervised classification based on class membership)模型，得到未标记样本的标签成员资格，进而找出早期故障数据；具体方法为：

步骤2.1：采用修改聚类假设，根据邻域学***均值共享相同的标签成员向量，建立基于类成员的半监督分类模型即SSCCM模型，在再生希尔伯特空间采用(f，v)交替迭代的方法求解该模型，得到决策函数f和标签成员资格函数v；具体方法为：

步骤2.1.1：计算标记样本数据与未标记样本数据的邻域加权平均值即LWM(localweighted mean)，分别为和其中和分别表示第i个标记数据样本和第j个未标记数据样本的邻域加权平均值，分别如下两式所示；

其中，i′＝1，2，…，n_l；j′＝1，2，…，n_u；Ne(x_i)、Ne(x_j)分别表示x_i、x_j在欧式空间通过k-近邻得到的邻域集；S_ii′、S_jj′分别表示随x_i与x_i′距离增加而单调递减的权值量、随x_j与x_j′距离增加而单调递减的权值量，S_ii′＝exp(-||x_i-x_i′||²)，S_jj′＝exp(-||x_j-x_j′||²)；

步骤2.1.2：采用修改聚类假设，根据邻域学***均值共享相同的标签成员向量，建立SSCCM模型如下式所示；

其中，f表示决策函数；v_k(x_n)为样本x_n的标签成员资格函数v(x_n)的第k个元素，表示样本x_n属于第k类的可能性；对于标记样本x_i，其标签成员资格函数v(x_i)为定值，如果标记样本x_i属于第k类，则v_k(x_i)＝1；其余元素为0；f(x_n)表示样本x_n的函数决策值；r_k表示类别编码向量，C个类的编码矩阵为r_k的第k个元素为1，其余元素为0；当标记样本x_i属于第k类时，令y_i＝r_k，即标签与类编码都是C维向量，且y_i的第k个元素为1，其余元素为0；表示样本x_n的邻域加权平均值的函数决策值；λ和λ_s是正则化参数，b是标签成员资格的加权指数；

步骤2.1.3：为了找出早期故障数据，采用二分类方式，用以区分正常与故障数据，令公式(1)中的类别总数C＝2；

步骤2.1.4：在再生希尔伯特空间，采用(f，v)交替迭代的方法，求解SSCCM模型，得到决策函数f和标签成员资格函数v；具体方法为：

每个样本x_n的在核空间的邻域加权平均值被定义为通过表达定理，决策函数形式变换为每个β_n∈R^2×1，所以解的形式如下式所示；

其中，β＝[β₁，β₂，...，β_N]∈R^2×N，为表达定理的系数向量；Y表示标签数据的标签向量y_i构成的矩阵，K表示所有样本的核矩阵， I_u是n_u×n_u的单位矩阵；表示未标记数据的类标签成员概率值，是一个对角矩阵，其对角元素是V的按行排列的所有元素的平方值；

对于固定的决策函数f(x)，SSCCM问题将变为对标签成员资格函数求解问题，如下式所示；

求解上式得到任意样本x的第k个标签成员资格函数为：

步骤2.2：根据决策函数f和标签成员资格函数v找出早期故障数据，使用如下互补的两种方法进行判定：

(1)对于处于决策边界附近的样本x，检验其决策函数f(x)与标签成员资格函数v(x)的一致性，如果两者不一致，则判断x为早期故障点；

(2)对于处于决策边界附近的样本x，判定两侧的标签成员资格函数v₁(x)与v₂(x)之差是否小于标签成员函数的选择系数ε，即|v₁(x)-v₂(x)|＜ε，0≤ε≤1；

对于上述两种方法判定出的相同的早期故障点数据，取其中之一，综合得到所有的早期故障数据；

步骤3：将步骤2得到的早期故障数据重新作为未标记数据数据个数为m；将步骤1中的标记数据和步骤2中已经明确划分类别的数据重新作为标记数据标签值矩阵为y_l为第l个标记数据的标签值，Y′∈R^r，数据个数为M；考虑早期故障数据的变化信息，并基于修改的聚类假设，建立修改聚类假设的半监督KPCA故障检测模型，进行第二次分类，找到早期故障数据中偏向主元的分界线f_D；修改聚类假设的半监督KPCA故障检测模型如式(6)所示；

其中，Y₀与Y₁是新标记的正常与故障两类数据的标签值，与新的标记数据标签值应一致；v₀与v₁分别表示正常和故障两类标签成员资格概率值，λ_l和λ_u是新的标记数据与新的未标记数据的权衡参数；s是方差约束控制参数；

进行第二次分类，找到早期故障数据中偏向主元的分界线f_D的方法为：在对(f，v)求解的过程中，采用(f，v)交替迭代的方法，每一步都得到闭合解，具体步骤为：

步骤3.1：根据表达定理，将公式(6)中的目标函数变换为下式：

其中，t₀，t₁∈R^m分别是m维列向量，t₀内的所有元素值均为Y₀，t₁内的所有元素值均为Y₁，K表示所有数据的核矩阵，K_M表示K中取标记数据的M行，K_m表示K中取未标记数据m行；，α_D为表达定理的系数向量，采用α_D的投影算子，迫使α_D投影到之前所有解的零空间内，令A＝[α₁，...，α_D-1]是之前所有解构成的矩阵，之后通过奇异值分解(Singular ValueDecomposition，简称SVD)使S＝Null(KAA^TK)作为KA零空间的N×(N-n+1)的正交基；通过投影Sα_D，得到N-n+1维问题；均为m维对角矩阵，其对角元素分别是v₀(x_u)、v₁(x_u)的平方值，其中u＝1，...，m；c表示的是拉格朗日算子；E_D为m维方阵，其中每一元素的值为

步骤3.2：令偏导数为零，求解式(7)并通过耦合形式变换得到：

其中，P＝S^T(K_m ^TK_m-K_m ^TE_DK_m)S，

步骤3.3：通过求解下式所示的广义特征值问题，得到式(12)中的c，由此便得到α_D；

步骤3.4：对于一个固定的决策函数，其标签成员资格函数求解将变为下式：

令L″对v₀(x_u)和v₁(x_u)求偏导数并等于零，即

又由于式(6)中约束的第一项v₀(x_u)+v₁(x_u)＝1，则得到

在求取决策函数时，c＜δ，δ是Gx＝δPx的最小广义特征值，由于α_D ^TPα_D在c∈[-∞，δ)是严格递增的，因此当满足α_D ^TPα_D-s²＝0时，解是唯一的；通过Gx＝δPx确定控制参数s的上界，即当c＝δ时；

通过以上的求解，得到对于早期故障数据二次分类所得的分界线f_D；

步骤4：对冶炼工业过程进行在线故障检测与诊断；

将新采集的多媒体流数据按步骤1采用的方法进行标准化处理，得到新样本x_new，利用步骤3得到的二次分界线f_D，判定x_new的类别，如果判定为故障类，则认为该冶炼工业过程发生故障；否则，继续步骤4处理下一个新样本信息。

采用上述技术方案所产生的有益效果在于：本发明提供的一种基于修改聚类半监督核主元分析的早期故障检测方法，主要分为两个部分，离线建模与在线监测，主要针对于工业早期故障难以发现和判定的问题，同时考虑数据的本身分布信息和数据类别标签信息，并采用修改的聚类假设，即假设数据同时具有两种类别特征信息，运用半监督KPCA方法并进行改进，进而更适用于早期工业过程故障的诊断，不仅能大大降低误报警，还提高了故障检测的准确性。

附图说明

图1为本发明实施例提供的电熔镁炉工艺原理图；

图2为本发明实施例提供的基于修改聚类半监督核主元分析的早期故障检测方法流程图；

图3为本发明实施例提供的故障检测数据真实边界示意图；

图4为本发明实施例提供的基于修改聚类半监督核主元分析的早期故障检测方法所找出的早期故障数据图；

图5为本发明实施例提供的基于修改聚类半监督核主元分析的早期故障检测方法划分边界示意图；

图6为本发明实施例提供的基于修改聚类半监督核主元分析的早期故障检测方法对于早期故障数据进行二次分类所得到的分界线结果图；

图7为本发明实施例提供的未采用修改聚类假设时的LS-KPCA方法对电熔镁炉故障检测的结果图；

图8为本发明实施例提供的未采用修改聚类假设时多次正交投影的半监督KPCA方法对电熔镁炉故障检测的结果图；

图9为本发明实施例提供的单独使用SSCCM时对电熔镁炉故障检测的结果图；

图10为本发明实施例提供的对整体样本直接使用基于修改聚类半监督核主元分析的早期故障检测方法对电熔镁炉故障检测的结果。

图中：1、变压器；2、电路短网；3、电极升降装置；4、电极；5、炉壳；6、车体；7、电弧、8、炉料。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例以电熔镁炉的运行过程为例，电熔镁炉的设备主要包括：变压器、电路短网、电极、电极升降装置以及炉体等。炉边设有控制室，可控制电极升降。电熔镁炉的基本工作原理示意如图1所示。本实施例的方法如下所述。

一种基于修改聚类半监督核主元分析的早期故障检测方法，如图2所示，具体步骤如下所述。

步骤1：采集电熔镁炉运行过程中的传统数据与视频图像数据，包括：冶炼初期即完全正常状态的数据、冶炼过程中数据、喷炉故障发生前后数据，具体包括电熔镁炉三个电极的电压值(Ua、Ub、Uc)、三个电极的电流值(Ia、Ib、Ic)、三个电极位置值(Pa、Pb、Pc)、炉温T和炉内外的视频图像数据，用灰度共生矩阵提取图像的ASM能量、对比度、逆差距、熵、自相关等共20维信息。将传统数据与视频图像数据统一进行标准化处理和坐标变换，得到采样样本数据，对采集的正常和故障数据进行标记，得到标记样本数据其标签矩阵为y_i∈[1，C]，C为类别总数，其它数据作为无标记数据，得到未标记样本数据其中x_i∈R^D、x_j∈R^D，N＝n_l+n_u，D表示x_i、x_j的数据维数，n_l表示标记样本数，n_u表示未标记样本数。

本实施例给出部分采样数据，包括一部分标记数据和未标记数据，如表1所示，前10组为正常，后10组为故障。

表1电熔镁炉数据中的部分数据

步骤2：用步骤1标准化后的采样样本，通过基于二分类的类成员的半监督分类即SSCCM(即semi-supervised classification based on class membership)模型得到未标记样本的标签成员资格，进而找出早期故障数据，本实施例中，故障检测数据真实边界如图3所示。找出早期故障数据的具体方法如下所述。

步骤2.1.1：计算标记样本数据与未标记样本数据的邻域加权平均值即LWM(localweighted mean)，分别为和LWM事实上是x_i或x_j的邻域内k个最近实例的鲁棒图像。其中和分别表示第i个标记数据样本x_i和第j个未标记数据样本x_j的邻域加权平均值，分别如下两式所示；

其中，f表示决策函数；v_k(x_n)为样本x_n的标签成员资格函数v(x_n)的第k个元素，表示样本x_n属于第k类的可能性；对于标记样本x_i，其标签成员资格函数v(x_i)为定值，如果标记样本x_i属于第k类，则v_k(x_i)＝1；其余元素为0；f(x_n)表示样本x_n的函数决策值；r_k表示类别编码向量，C个类的编码矩阵为r_k的第k个元素为1，其余元素为0；当标记样本x_i属于第k类时，令y_i＝r_k，即标签与类编码都是C维向量，且y_i的第k个元素为1，其余元素为0；表示样本x_n的邻域加权平均值的函数决策值；λ和λ_s是正则化参数，b是标签成员资格的加权指数；λ_s负责调整每一个样本与其LWM预测值的一致性，λ调整此模型复杂度，b控制着每一样本隶属于每一类的程度或不确定程度，本实施例中取b＝2。

步骤2.1.3：对于SSCCM本身来说，是可以应用为多分类的方法，但由于为了找出早期故障数据，首先采用二分类方式，用以区分正常与故障数据，令公式(1)中的类别总数C＝2，则SSCCM模型即式(1)重新写成下式：

步骤2.1.4：在再生希尔伯特空间，采用(f，v)交替迭代的方法，求解SSCCM模型，每一次迭代都可以闭合解，得到决策函数f和标签成员资格函数v；具体方法为：

其中，β＝[β₁，β₂，...，β_N]∈R^2×N，为表达定理的系数向量；Y表示标签数据的标签向量yi构成的矩阵，K表示所有样本的核矩阵， I_u是n_u×n_u的单位矩阵；表示未标记数据的类标签成员概率值，是一个对角矩阵，其对角元素是V的按行排列的所有元素的平方值；

求解上式得到任意样本x的第k个标签成员资格函数为：

通过步骤2.1的建模求解，得到了决策函数f与标签成员资格函数v，然而当某一样本数据x处于决策边界附近时，对于x的分类预测是不可靠的，因为这时的x同时含有两类数据的特征，如果仅考虑整体数据特征，通过一次分类，误分类概率很大。为了精确分类，要将这些容易误分类的点，即早期故障数据找出来。

步骤2.2：根据步骤2.1得到的决策函数f和标签成员资格函数v找出早期故障数据，使用如下互补的两种方法进行判定：

(2)对于处于决策边界附近的样本x，判定两侧的标签成员资格函数之差是否小于标签成员函数的选择系数ε，即|v₁(x)-v₂(x)|＜ε，0≤ε≤1；

上述两种方法的结果会有重合部分，对于上述两种方法判定出的相同的早期故障点数据，取其中之一，综合得到所有的早期故障数据，如图4所示。

本实施例中找出的电熔镁炉数据中部分早期故障数据如表2所示。

表2.找出的电熔镁炉数据中部分早期故障数据

其中，Y₀与Y₁分别是新标记的正常与故障两类数据的标签值，与新的标记数据标签值应一致；v₀与v₁分别表示正常和故障两类标签成员资格概率值，λ_l和λ_u是新的标记数据与新的未标记数据的权衡参数；s.t.中前两个约束与SSCCM模型中的相同，第三个约束使得f_D与s的关系变得紧密起来，它表示的是未标记数据的方差约束，s是方差约束控制参数；第四个约束使得在计算KPCA时，其中朝向训练标签偏置的第n个方向垂直于前面的n-1个约束。

其中，t₀，t₁∈R^m分别是m维列向量，t₀内的所有元素值均为Y₀，t₁内的所有元素值均为Y₁，K表示所有数据的核矩阵，K_M表示K中取标记数据的M行，K_m表示K中取未标记数据m行；α_D为表达定理的系数向量，为了考虑到式(6)中第四个约束，采用α_D的投影算子，迫使α_D投影到之前所有解的零空间内，令A＝[α₁，...，α_D-1]是之前所有解构成的矩阵，之后通过奇异值分解(Singular Value Decomposition，简称SVD)使S＝Null(KAA^TK)作为KA零空间的N×(N-n+1)的正交基，因此通过投影Sα_D，得到N-n+1维问题；均为m维对角矩阵，其对角元素分别是v₀(x_u)、v₁(x_u)的平方值，其中u＝1，...，m；c表示的是拉格朗日算子；E_D为m维方阵，其中每一元素的值为

步骤3.2：令偏导数为零，即：

将式(8)、式(9)转化为下面的耦合形式：

将式(10)简化为：

其中，P＝S^T(K_m ^TK_m-K_m ^TE_DK_m)S，

步骤3.4：与SSCCM模型的求解类似，第二次分类中对于一个固定的决策函数，其标签成员资格函数求解将变为下式：

令L″对v₀(x_u)和v₁(x_u)求偏导数并等于零，即

又由于式(6)中约束的第一项v₀(x_u)+v₁(x_u)＝1，则得到

在求取决策函数时，有c＜δ，δ是Gx＝δPx的最小广义特征值，由于α_D ^TPα_D在c∈[-∞，δ)是严格递增的，因此当满足α_D ^TPα_D-s²＝0的条件时，解是唯一的。所以当***约束比较差的时候，为了寻找高精度的解，还可以采用边界搜索的方法。而对于控制参数s的选择，通过G_x＝δP_x，可以确定s的上界，即当c＝δ时。通过以上部分的求解，得到对于早期故障数据二次分类所得的分界线f_D。本实施例得到的分界线示意图如图5所示，对于实际数据进行二次分类所得到的分界线效果图如图6所示。

步骤4：对冶炼工业过程进行在线故障检测与诊断；

将新采集的电熔镁炉视频图像数据按步骤1采用的方法进行标准化处理，得到新样本x_new，利用步骤3得到的二次分界线f_D，判定x_new的类别，如果判定为故障类，则认为该电熔镁炉运行过程发生故障；否则，继续步骤4处理下一个新样本信息。

将本实施例采用的修改聚类假设的半监督KPCA的故障检测结果与其他方法的故障检测结果进行比较，对比结果如表3所示，其他方法包括未采用修改聚类假设时的LS-KPCA方法、多次正交投影的半监督KPCA方法、单独使用SSCCM的方法和对整体样本直接使用基于修改聚类半监督核主元分析的早期故障检测方法即未先求取早期故障数据的方法，这四种方法对电熔镁炉故障检测的结果图分别如图7、图8、图9和图10所示，通过对比证明了本实施例采用的修改聚类假设的半监督KPCA在故障检测上更具有优势。同时对修改聚类假设的半监督KPCA分别用于整体数据和早期故障数据进行检测的结果进行比较，结果发现本实施例所采用的方法，即先提取早期数据，进而再应用修改聚类假设的半监督KPCA进行检测的准确率更高。对比结果更加说明本方法在早期故障检测上的有效性。

表3不同的方法的故障诊断准确率对比

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于修改聚类半监督核主元分析的早期故障检测方法，其特征在于：包括以下步骤：

步骤2：用步骤1标准化后的采样样本，通过建立基于类成员的半监督分类模型，即SSCCM模型，得到未标记样本的标签成员资格，进而找出早期故障数据；具体方法为：

步骤2.1：采用修改聚类假设，根据邻域学***均值共享相同的标签成员向量，建立基于类成员的半监督分类模型即SSCCM模型，在再生希尔伯特空间采用(f，v)交替迭代的方法求解该模型，得到决策函数f和标签成员资格函数v；

步骤4：对冶炼工业过程进行在线故障检测与诊断；

2.根据权利要求1所述的基于修改聚类半监督核主元分析的早期故障检测方法，其特征在于：所述步骤2.1的具体方法为：

步骤2.1.1：计算标记样本数据与未标记样本数据的邻域加权平均值，分别为和其中和分别表示第i个标记数据样本和第j个未标记数据样本的邻域加权平均值，分别如下两式所示；

求解上式得到任意样本x的第k个标签成员资格函数为：

3.根据权利要求2所述的基于修改聚类半监督核主元分析的早期故障检测方法，其特征在于：所述步骤3中进行第二次分类，找到早期故障数据中偏向主元的分界线f_D的方法为：在对(f，v)求解的过程中，采用(f，v)交替迭代的方法，每一步都得到闭合解，具体步骤为：

其中，t₀，t₁∈R^m分别是m维列向量，t₀内的所有元素值均为Y₀，t₁内的所有元素值均为Y₁，K表示所有数据的核矩阵，K_M表示K中取标记数据的M行，K_m表示K中取未标记数据m行；，α_D为表达定理的系数向量，采用α_D的投影算子，迫使α_D投影到之前所有解的零空间内，令A＝[α₁，...，α_D-1]是之前所有解构成的矩阵，之后通过奇异值分解使S＝Null(KAA^TK)作为KA零空间的N×(N-n+1)的正交基；通过投影Sα_D，得到N-n+1维问题；均为m维对角矩阵，其对角元素分别是v₀(x_u)、v₁(x_u)的平方值，其中u＝1，...，m；c表示的是拉格朗日算子；E_D为m维方阵，其中每一元素的值为

其中，P＝S^T(K_m ^TK_m-K_m ^TE_DK_m)S，

令L″对v₀(x_u)和v₁(x_u)求偏导数并等于零，即

又由于式(6)中约束的第一项v₀(x_u)+v₁(x_u)＝1，则得到

通过以上的求解，得到对于早期故障数据二次分类所得的分界线f_D。