CN110490496B

CN110490496B - 一种基于分步约简筛选复杂工业过程中影响产品质量的敏感变量的方法

Info

Publication number: CN110490496B
Application number: CN201910880769.XA
Authority: CN
Inventors: 王雅琳; 李灵; 袁小锋; 孙备; 阳春华; 陈志文; 吴东哲; 王思哲; 郭静宇; 李繁飙
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-06-19
Filing date: 2019-09-18
Publication date: 2022-03-11
Anticipated expiration: 2039-09-18
Also published as: CN110490496A

Abstract

本发明公开了一种基于分步约简筛选复杂工业过程中影响产品质量的敏感变量的方法，属于软测量技术领域，包括以下步骤：通过专家知识，选取影响产品质量的辅助变量并收集数据样本；综合考虑变量相关性与变量对工况变化的敏感性计算辅助变量敏感性指标，初步筛选影响主导变量的敏感变量；构建加权余弦马田***，精确筛选影响产品质量的关键敏感变量。本发明可以准确地反应变量的相关性和工况信息，同时较好地降低变量的冗余性，不仅可以提高产品质量预测精度，而且可以有效地降低预测模型复杂性，对软传感器模型的维护同样具有重要意义。

Description

一种基于分步约简筛选复杂工业过程中影响产品质量的敏感变量的方法

技术领域

本发明涉及软测量技术领域，具体涉及一种基于分步约简筛选影响产品质量的敏感变量的方法。

背景技术

随着先进制造技术的发展，制造行业对生产发展由数量和规模扩张向质量、效益和环保的提升提出了更高的要求。为了能够及时有效地监测和评估过程运行状况、实现***故障的准确诊断、产品质量的快速跟踪，需要对过程关键产品质量进行实时检测。然而受限于检测环境的恶劣性、分析仪器的高昂成本以及化验分析的滞后性，目前这些关键产品质量较难实现在线检测。因此基于过程特征及过程数据的数据驱动软测量建模技术被广泛应用于工业生产中。

数据驱动软测量技术将生产过程知识有机地结合了起来，应用计算机技术对难以测量或者暂时不能测量的产品质量，选择另外一些容易测量的变量，通过构成某种数学关系来推断或者估计。由于过程可测变量数目大，若将这些变量全部看作软测量建模的辅助变量，不仅会增大模型的复杂度、降低计算速度，造成维数灾难，降低模型的稳定性和预测精度，而且会大大增加数据采集和存储的经济成本。因此，如何快速有效地选取一组最能够精确描述或解释过程主导变量的辅助变量子集显得极为重要。

目前变量优选方法根据变量搜索与评价方法的不同，可将分为过滤式、包裹式和嵌入式三种类型。其中过滤式方法因其计算速度快且不易造成过拟合得到了广泛应用。该方法以变量排序技术作选择变量的主要标准，一般采用数据本身特性或者统计规律作为分析依据。常用的分析依据有相关系数、互信息、欧氏距离、贝叶斯推理等。过滤式变量选择方法不依赖于学习算法，是通过改变数据来适应学习算法，但是该方法容易忽略变量相关性，造成所选子集可能不是最优子集。

为解决过滤式变量选择方法变量冗余问题，国内外理论界和工业实践中进行了不少尝试和研究，这些研究能有效地解决过滤式变量选择方法容易忽略变量间相关性及冗余性问题，却不具备过程工况信息描述的能力。然而在实际工业生产过程中，受到入口原料品质波动、加工方案调整、产品规格要求变化等影响，生产工况处于波动状态，工况不同产品质量也会存在一定的差异。若筛选出的辅助变量不能较好地描述工况的变化，将在一定程度上降低预测模型的精度。因此研究处一种既能反应工况信息又能反应主导变量与辅助变量相关性的敏感变量选择方法具有现实的意义。

发明内容

本发明所要解决的技术问题在于提供一种基于分步约简筛选复杂工业过程中影响产品质量的敏感变量的方法实现既能反应工况信息又能反应主导变量与辅助变量相关性。

一种基于分步约简筛选复杂工业过程中影响产品质量的敏感变量的方法，包括以下步骤：

S1.基于生产过程，通过机理分析和专家知识，初步选取若干影响产品质量的辅助变量，并收集若干组辅助变量值和对应时刻产品质量值作为样本；

S2.综合考量辅助变量与产品质量的相关性与辅助变量对工况变化的敏感性计算辅助变量敏感性指标，根据敏感性指标初步筛选影响产品质量的敏感变量：

S21.对收集的辅助变量值样本进行离群点剔除、小波去噪和标准化处理；

S22.利用皮尔逊相关分析法计算辅助变量与产品质量的相关系数矩阵，并根据所述的相关系数矩阵计算辅助变量与产品质量的偏相关系数；

S23.计算辅助变量的均值、标准差和方差，进而计算辅助变量的变异系数；

S24.以辅助变量与产品质量的偏相关系数和辅助变量的变异系数的乘积作为辅助变量的敏感性指标，根据步骤S22和S23所述的辅助变量偏相关系数和变异系数计算得到辅助变量敏感性指数；

S25.根据生产过程对象及产品质量，基于专家知识对敏感性指标设定不同的阈值，选取阈值范围内的辅助变量作为敏感变量；

S3.构建加权余弦马田***，从距离和方向两个角度对初选的敏感变量进行属性约简，精确筛选出影响产品质量的敏感变量作为关键敏感变量：

S31、对收集的敏感变量样本，通过机理分析和专家知识，将其分为正常样本和异常样本两类，并对两类样本进行标准化处理，其中对所述的异常样本数据标准化处理时的均值和标准差均等同于正常样本数据；

S32、分别计算所有正常样本的马氏距离；

S33、分别计算所有正常样本的夹角余弦值，进而分别计算所有正常样本的余弦相似度；

S34、分别计算正常样本的马氏距离和余弦相似度的变异系数，根据马氏距离和余弦相似度变异系数分别占总变异系数的比值确定余弦马氏距离权重；

S35、基于正常样本的余弦马氏距离构建加权余弦马氏基准空间；

S36、设计正交表，正交表中每行对应一个加权余弦马氏基准空间，计算在每个基准空间中异常样本的余弦马氏距离；

S37、选用望大特性信噪比计算每个基准空间中异常样本的信噪比；

S38、分别计算使用和未使用该敏感变量时信噪比的均值，然后计算其信噪比增量，根据专家知识对信噪比增量设定一定阈值，选取阈值范围内的所有敏感变量为关键敏感变量。

进一步地，步骤S35之后、S36之前还包括如下步骤：

根据构建的加权余弦马氏基准空间，计算异常样本的余弦马氏距离，验证构建的余弦马氏基准空间的有效性，若该加权余弦马氏基准空间可以较好的区分正常样本和异常样本的余弦马氏距离，则构建的加权余弦马氏基准空间有效；否则，进入步骤S3，重新构建加权余弦马田***。进一步地，步骤S3之后还包括步骤S4：采用局部加权偏最小二乘方法建立产品质量预测模型，验证选取的关键敏感变量的有效性和准确性。

进一步地，步骤S21、S31中所述的标准化处理采用如下方式：

z_ij＝(x_ij-μ_i)/S_i

其中，z_ij表示标准化处理后的第i个辅助变量或敏感变量的第j个样本值，x_ij表示第i个辅助变量或敏感变量的第j个样本值，μ_i表示第i个辅助变量或敏感变量的均值，s_i表示第i个辅助变量或敏感变量的标准差。

进一步地，步骤S22所述的相关系数矩阵计算如下：

其中，

所述的偏相关系数计算如下：

其中，c_ik为所述M_cc的逆矩阵

中元素：

步骤S23所述的辅助变量的变异系数计算如下：

其中，μ_i表示第i个辅助变量或敏感变量的均值，s_i表示第i个辅助变量或敏感变量的标准差，σ_i表示第i个辅助变量或敏感变量的方差；

步骤S24所述的辅助变量敏感性指数计算如下：

其中η_ik表示第i个辅助变量对第k个主导变量的敏感性指数，r_ik表示第i个辅助变量与第k个主导变量的偏相关系数，μ_i表示第i个辅助变量或敏感变量的均值，s_i表示第i个辅助变量或敏感变量的标准差，σ_i表示第i个辅助变量或敏感变量的方差。进一步地，步骤S32所述的正常样本的马氏距离计算如下：

S321.选取n个正常样本，假设样本中具有q个初始敏感变量，则样本空间可以表示为：

其中o_li表示第l个正常样本第i个辅助变量或敏感变量的数据，其中，l＝1,2,...,n；i＝1,2,...,q；

S322.对正常样本数据进行标准化处理：

其中

表示第l个正常样本第i个辅助变量或敏感变量的标准化数据，其中，l＝1,2,...,n；i＝1,2,...,q；

S323.马氏距离为：

其中，MD_l为第l个正常样本的马氏距离，S为正常样本的相关系数矩阵，

其中，

表示标准化处理后的正常样本数据矩阵的转置，S^-1表示正常样本相关系数矩阵的逆矩阵，q表示初始的敏感变量的个数。

进一步地，步骤S33中所述的余弦相似度为：

其中

为第l个正常样本第i个辅助变量或敏感变量的标准化数据，

为第i个辅助变量或敏感变量数据的均值。

进一步地，步骤S34所述的余弦马氏距离的权重计算方法为：

其中ξ₁为正常样本马氏距离的变异系数，s_MDl为正常样本马氏距离的标准差，μ_MDl为正常样本马氏距离的均值；ξ₂为正常样本余弦相似度的变异系数，s_CSl为正常样本余弦相似度的标准差，μ_CSl为正常样本余弦相似度的均值；

步骤S35所述的余弦马氏距离计算如下：

CMD_l＝αMD_l+βCS_l

其中MD_l表示第l个正常样本的马氏距离，用以描述样本距离的相似度；CS_l表示第l个正常样本的余弦相似度，用于描述样本方向的相似度。

进一步地，步骤S37所述的信噪比计算方法如下：

其中CMD_u表示异常样本的马氏距离，v表示异常样本的个数，对辅助变量而言；

步骤S38所述的信噪比增量用ΔSN_j表示：

其中，

表示使用该敏感变量时信噪比的均值；

表示未使用该敏感变量时信噪比的均值。

进一步地，所述的复杂工业过程为加裂生产过程；所述的产品为航煤10％馏出温度。

与现有技术相比，本发明的有益效果在于：在明确敏感变量和关键敏感变量的基础上，根据变量对工况变化的敏感性和辅助变量与产品质量的净相关性计算了敏感性指标，实现敏感变量的初选；再通过构建的加权余弦马田***解决变量冗余性大的问题，实现敏感变量的精选。较好地解决了传统过滤式变量选择方法容易忽略变量的相关性且不能准确反应工况信息的问题，具有计算简单、不易造成过拟合、冗余性小等优点。

附图说明

图1为本发明一个具体实施例的流程图。

图2为本发明一个具体实施例中加裂流程敏感变量信噪比增量直方图。

图3为本发明一个具体实施例中采用局部加权偏最小二乘方法及利用关键敏感变量集合进行预测的结果。

图4为本发明一个具体实施例中采用局部加权偏最小二乘方法及利用敏感变量集合进行预测的结果。

图5为本发明一个具体实施例中采用局部加权偏最小二乘方法及利用机理筛选辅助变量集合进行预测的结果。

图6为本发明一个具体实施例中采用局部加权偏最小二乘方法及利用关键敏感变量集合进行预测的相对误差结果。

图7为本发明一个具体实施例中采用局部加权偏最小二乘方法及利用敏感变量集合进行预测的相对误差结果。

图8为本发明一个具体实施例中采用局部加权偏最小二乘方法及利用机理筛选辅助变量集合进行预测的相对误差结果。

具体实施方式

为了进一步公开本发明，下文将结合说明书附图对本发明所公开的技术方案进行全面、细致地描述:

如图1所示，本发明提供的一种基于分步约简筛选复杂工业过程中影响产品质量的敏感变量的方法，包括以下步骤：

S1.基于生产过程，通过机理分析和专家知识，初步选取若干可能影响产品质量的辅助变量，并收集若干组辅助变量值和对应时刻产品质量值作为样本；

S2.综合考量辅助变量与产品质量的相关性与辅助变量对工况变化的敏感性计算辅助变量敏感性指标，根据敏感性指标初步筛选影响产品质量的敏感变量。

S3.构建加权余弦马田***，从距离和方向两个角度对初选的敏感变量进行属性约简，精确筛选出影响产品质量的敏感变量作为关键敏感变量。

作为一种改进，前述技术方案还可以包括步骤S4：采用局部加权偏最小二乘方法建立产品质量预测模型，验证选取的关键敏感变量的有效性和准确性。

步骤S2具体实现过程如下：

S25.根据生产过程对象及产品质量，基于专家知识对敏感性指标设定不同的阈值，选取阈值范围内的辅助变量作为敏感变量。

前述技术方案步骤S21、S31中所述的标准化处理采用如下方式：

z_ij＝(x_ij-μ_i)/S_i

步骤S22所述的相关系数矩阵计算如下：

其中，

所述的偏相关系数计算如下：

其中，c_ik为所述M_cc的逆矩阵

中元素：

步骤S23所述的辅助变量的变异系数计算如下：

步骤S24所述的辅助变量敏感性指数计算如下：

其中η_ik表示第i个辅助变量对第k个主导变量的敏感性指数，r_ik表示第i个辅助变量与第k个主导变量的偏相关系数，μ_i表示第i个辅助变量或敏感变量的均值，s_i表示第i个辅助变量或敏感变量的标准差，σ_i表示第i个辅助变量或敏感变量的方差。步骤S3具体实现过程如下：

S32、分别计算所有正常样本的马氏距离；

作为前述技术方案的一种改进，步骤S35之后、S36之前还包括如下步骤：

根据构建的加权余弦马氏基准空间，计算异常样本的余弦马氏距离，验证构建的余弦马氏基准空间的有效性，若该加权余弦马氏基准空间可以较好的区分正常样本和异常样本的余弦马氏距离，则构建的加权余弦马氏基准空间有效；否则，进入步骤S3，重新构建加权余弦马田***。步骤S32所述的正常样本的马氏距离计算如下：

S322.对正常样本数据进行标准化处理：

其中

S323.马氏距离为：

其中，

步骤S33中所述的余弦相似度为：

其中

为第l个正常样本第i个辅助变量或敏感变量的标准化数据，

为第i个辅助变量或敏感变量数据的均值。

步骤S34所述的余弦马氏距离的权重计算方法为：

步骤S35所述的余弦马氏距离计算如下：

CMD_l＝αMD_l+βCS_l

步骤S37所述的信噪比计算方法如下：

步骤S38所述的信噪比增量用ΔSN_j表示：

其中，

表示使用该敏感变量时信噪比的均值；

表示未使用该敏感变量时信噪比的均值。

具体实施例：

本发明公开的技术方案对加氢裂化过程产品质量预测的应用，包括以下步骤：

a、基于加裂生产过程，根据机理分析和专家经验，初步选取对航煤10％馏出温度质量指标有影响的相关变量共39个，作为加氢裂化过程质量预测的输入变量，分别记为x₁、x₂、...、x₃₉，提取了966天连续生产的、39个相关变量的采样数据，提取了966天每天8时和20时离线化验测得的航煤10％馏出温度的数据，共1932组。将所得数据分两部分用于基于LWPLS的航煤10％馏出温度质量指标预测建模，其中1288组作训练集，644组作测试集。使用训练集中180组数据作为敏感变量选择的输入数据，则输入矩阵为：

x_i＝[x_i，1，x_i，2，...，x_i，39]^T，i＝1，2，...，180

X＝[x₁，x₂，...，x₁₈₀]

b、综合考虑变量相关性与变量对工况变化的敏感性，计算辅助变量敏感性指标，根据敏感性指标初步筛选影响航煤10％馏出温度的敏感变量。

对选取的辅助变量采样样本进行标准化：

z_ij＝(x_ij-μ_i)/s_i

其中z_ij表示标准化后的数据值，x_ij表示第i个变量的第j个样本值，μ_i表示第i个变量的均值，s_i表示第i个变量的标准差。

计算辅助变量的偏相关系数，利用皮尔逊相关分析法计算相关系数矩阵：

其中，

标准化后的辅助变量z_i和航煤10％馏出温度A10％的偏相关系数r_iA10％为：

其中c_iA10％为M_cc的逆矩阵

中元素

计算选取的辅助变量的变异系数：

其中，μ_i表示第i个变量的均值，s_i表示第i个变量的标准差，σ_i表示第i个变量的方差。

计算辅助变量的敏感性指数，即辅助变量与航煤10％馏出温度的偏相关系数和辅助变量的变异系数的乘积：

其中η_iA10％表示第i个辅助变量对航煤10％馏出温度A10％的敏感性指数，r_iA10％表示第i个辅助变量与航煤10％馏出温度A10％的偏相关系数，μ_i表示第i个变量的均值，s_i表示第i个变量的标准差，σ_i表示第i个变量的方差。

敏感性指数越大表明该辅助变量对航煤10％馏出温度A10％的影响作用越大，对工况的变化越敏感。计算39个辅助变量的离散程度、与航煤10％馏出温度A10％的偏相关系数及敏感性指数，结果如表1所示。

表1加氢裂化流程机理筛选辅助变量敏感性指数

基于航煤10％馏出温度，根据专家知识将辅助变量敏感性指标的阈值设定为0.01，分析各变量的敏感性指数可知，精制反应器塔底温度指示(12)、精制反应器压差(13)、注水罐注水量(21)、脱硫化氢汽提塔塔顶回流量(24)、主分馏塔中段返回温度(32)、柴油汽提塔塔顶温度(38)、柴油汽提塔底部温度(39)敏感性指数较低。因此除去这7个敏感性指数较低的变量以外其他剩余32个辅助变量为敏感变量。

c、构建加权余弦马田***，从距离和方向两个角度对初选的敏感变量进行属性约简，精选影响航煤10％馏出温度A10％的关键敏感变量的具体步骤包括：

(1)选取32个正常样本，样本中具有32个初始敏感变量，则样本空间可以表示为：

其中o_ij(i＝1,2,...,32；j＝1,2,...,32)表示第i个正常样本第j个敏感变量的数据。

对正常样本数据进行标准化：

其中

表示第i个正常样本第j个辅助变量的标准化数据。

计算所有正常样本的余弦马氏距离：

CMD_i＝αMD_i+βCS_i

其中MD_i表示样本的马氏距离，用以描述样本距离的相似度；CS_i表示样本的余弦相似度，用于描述样本方向的相似度；α、β为权重系数。

计算样本的马氏距离MD_i：

其中S为正常样本的相关系数矩阵，

计算样本的余弦相似度：

其中

为第i个样本第j个辅助变量的数据，

为第j个辅助变量数据的均值。

根据正常样本的马氏距离变异程度和余弦相似度变异程度确定余弦马氏距离的权重，具体公式如下：

其中ξ₁为正常样本马氏距离的变异系数，s_MDi为正常样本马氏距离的标准差，μ_MDi为正常样本马氏距离的均值；ξ₂为正常样本余弦相似度的变异系数，s_CSi为正常样本余弦相似度的标准差，μ_CSi为正常样本余弦相似度的均值。表2为加权余弦马氏基准空间部分显示结果。

表2加权余弦马氏基准空间

由表2可知正常样本的余弦马氏距离基本在1附近波动，均值为0.9020。

(2)对异常样本进行标准化，然后分别计算异常样本的马氏距离、异常样本与正常样本均值的余弦相似度和余弦马氏距离，结果如表3所示。

表3异常样本余弦马氏距离

由表3可知异常样本的余弦马氏距离均远大于1，均值为205.5255，因此构建的加权余弦马氏基准空间可以很好的区分正常样本与异常样本。其中异常样本3为特意挑选的离群点异常样本，其马氏距离为1.6571，如果按照传统马田***仅根据马氏距离判别样本，样本3为正常样本，与实际情况不符；而样本3的余弦相似度为5.5180，余弦马氏距离为2.2362，此时加权余弦马田***将样本3判别为异常样本，相较于传统马田***，加权余弦马田***可以更好的区分正常样本与异常样本。

(3)优化基准空间：设计表4所示的正交表，水平1表示使用辅助变量，水平2表示不使用辅助变量，并计算信噪比。正交表中每行对应一个基准空间，计算在每个基准空间中异常样本的余弦马氏距离和信噪比，计算公式如下：

其中CMD_p为异常样本的马氏距离。对辅助变量而言，

表示使用该敏感变量时信噪比的均值；

表示未使用该敏感变量时信噪比的均值。信噪比增量用ΔSN_j表示。

针对加氢裂化过程航煤10％馏出温度，基于专家知识设定信噪比增量阈值为0.3，选取阈值范围内的所有敏感变量为关键敏感变量(括号内序号为机理筛选辅助变量敏感性指数表中变量序号)。

表4二水平正交表和信噪比

32个敏感变量的信噪比增量直方图如图2所示，变量21(原机理筛选辅助变量25)、28(原机理筛选辅助变量33)和32(原机理筛选辅助变量37)的信噪比增量为负，说明这些辅助变量对建模无效；变量26(原机理筛选辅助变量30)的信噪比增量较小，说明该辅助变量对建模作用较小，可以忽略不计。最终得到28个可用于预测建模的关键敏感变量。

d、采用局部加权偏最小二乘(LWPLS)方法建立预测模型，用于建模的数据共有1610组，其中966组作为训练集，644作为测试集，分别将辅助变量集合按照机理筛选变量集合、敏感变量集合和关键敏感变量集合用于建模且模型参数完全相同，预测结果如图3-5所示，预测误差如图6-8所示，均方根误差RMSE如表5所示。由图3和图6可知，利用关键敏感变量进行预测建模，其预测结果较其他两种辅助变量集合可以更好地跟踪航煤10％馏出温度的实际值，预测误差更小，且其预测的均方根误差RMSE为3.0390，较其他两种辅助变量集合分别提高了5.81％和3.94％，验证了本发明所提方法的有效性。

表53种变量集合预测建模的均方根误差RMSE

此外，本发明还分别采用偏最小二乘(PLS)、支持向量机(SVM)和局部加权核主元回归(LWKPCR)3种方法验证了本发明所提方法的有效性，三种方法的均方根误差如表6所示。

表63种变量集合不同预测建模的均方根误差RMSE

最后，上述实施例仅仅是为了清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于分步约简筛选复杂工业过程中影响产品质量的敏感变量的方法，其特征在于，包括以下步骤：

S21.对收集的辅助变量值样本进行离群点剔除、小波去噪和标准化处理，其中，所述标准化处理采用如下方式：

z_ij＝(x_ij-μ_i)/S_i

其中，z_ij表示标准化处理后的第i个辅助变量或敏感变量的第j个样本值，x_ij表示第i个辅助变量或敏感变量的第j个样本值，μ_i表示第i个辅助变量或敏感变量的均值，s_i表示第i个辅助变量或敏感变量的标准差；

S22.利用皮尔逊相关分析法计算辅助变量与产品质量的相关系数矩阵，并根据所述相关系数矩阵计算辅助变量与产品质量的偏相关系数，其中，所述相关系数矩阵计算如下：

其中，

所述偏相关系数计算如下：

其中，c_ik为所述M_cc的逆矩阵

中元素：

S23.计算辅助变量的均值、标准差和方差，进而计算辅助变量的变异系数，其中，所述辅助变量的变异系数计算如下：

S24.以辅助变量与产品质量的偏相关系数和辅助变量的变异系数的乘积作为辅助变量的敏感性指标，根据步骤S22和S23所述的辅助变量偏相关系数和变异系数计算得到辅助变量敏感性指数，其中，所述辅助变量敏感性指数计算如下：

其中η_ik表示第i个辅助变量对第k个主导变量的敏感性指数，r_ik表示第i个辅助变量与第k个主导变量的偏相关系数，μ_i表示第i个辅助变量或敏感变量的均值；

S31.对收集的敏感变量样本，通过机理分析和专家知识，将其分为正常样本和异常样本两类，并对两类样本进行标准化处理，其中对所述异常样本数据标准化处理时的均值和标准差均等同于正常样本数据；

S32.分别计算所有正常样本的马氏距离；

S321.选取n个正常样本，假设样本中具有q个初始的敏感变量，则样本空间可以表示为：

其中o_li表示第l个正常样本第i个辅助变量或敏感变量的数据，其中，l＝1,2,…,n；i＝1,2,…,q；

S322.对正常样本数据进行标准化处理：

其中

S323.马氏距离为：

其中，

表示标准化处理后的正常样本数据矩阵的转置，S^-1表示正常样本相关系数矩阵的逆矩阵，q表示初始的敏感变量的个数；

S33.分别计算所有正常样本的夹角余弦值，进而分别计算所有正常样本的余弦相似度，其中，所述余弦相似度为：

其中

为第l个正常样本第i个辅助变量或敏感变量的标准化数据，

为第i个辅助变量或敏感变量数据的均值；

S34.分别计算正常样本的马氏距离和余弦相似度的变异系数，根据马氏距离和余弦相似度变异系数分别占总变异系数的比值确定余弦马氏距离权重，其中，所述余弦马氏距离的权重计算方法为：

S35.基于正常样本的余弦马氏距离构建加权余弦马氏基准空间，其中，所述余弦马氏距离计算如下：

CMD_l＝αMD_l+βCS_l

其中MD_l表示第l个正常样本的马氏距离，用以描述样本距离的相似度；CS_l表示第l个正常样本的余弦相似度，用于描述样本方向的相似度；

S36.设计正交表，正交表中每行对应一个加权余弦马氏基准空间，计算在每个基准空间中异常样本的余弦马氏距离，根据构建的加权余弦马氏基准空间，计算异常样本的余弦马氏距离，验证构建的余弦马氏基准空间的有效性，若该加权余弦马氏基准空间可以区分正常样本和异常样本的余弦马氏距离，则构建的加权余弦马氏基准空间有效；否则，进入步骤S3，重新构建加权余弦马田***；

S37.选用望大特性信噪比计算每个基准空间中异常样本的信噪比，其中，所述信噪比计算方法如下：

CMD_u表示异常样本的马氏距离，v表示异常样本的个数，对辅助变量而言；

S38.分别计算使用和未使用该敏感变量时信噪比的均值，然后计算其信噪比增量，根据专家知识对信噪比增量设定一定阈值，选取阈值范围内的所有敏感变量为关键敏感变量，其中，所述信噪比增量用ΔSN_i表示：

其中，

表示使用该敏感变量时信噪比的均值；

表示未使用该敏感变量时信噪比的均值；

采用局部加权偏最小二乘方法建立产品质量预测模型，验证选取的关键敏感变量的有效性和准确性。

2.根据权利要求1所述的基于分步约简筛选复杂工业过程中影响产品质量的敏感变量的方法，其特征在于：所述复杂工业过程为加裂生产过程；所述产品为航煤10％馏出温度。