CN117435904B

CN117435904B - 一种单一特征排序及复合特征提取方法

Info

Publication number: CN117435904B
Application number: CN202311753604.9A
Authority: CN
Inventors: 胡旺; 陈业航; 章语; 李欣悦
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-03-15
Anticipated expiration: 2043-12-20
Also published as: CN117435904A

Abstract

本发明公开了一种单一特征排序及复合特征提取方法，属于数据处理技术领域。该方法包括以下步骤：S1.构建输入数据集；S2.划分聚类；S3.分聚类进行符号回归，并将符号回归结果解码为表达式；S4.根据符号回归结果进行单一特征排序；S5.根据符号回归结果提取复合特征。本发明方法能够有效提升单一特征选择结果的可解释性，剔除不相关或冗余的特征；同时，能够显式的提取出符合领域可解释性的复合特征，从而促进跨领域之间的知识交流；此外，选取出真正相关的特征能够有效去除噪声特征带来的干扰，从而简化模型，提高模型精确度，协助理解数据产生的过程。

Description

一种单一特征排序及复合特征提取方法

技术领域

本发明属于数据处理技术领域，具体涉及一种单一特征排序及复合特征提取方法。

背景技术

特征选择是数据处理技术领域中的一个重要问题，其目标是寻找最优特征子集。特征选择能剔除不相关或冗余的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。另一方面，选取出真正相关的特征能够有效简化模型，协助理解数据产生的过程。

特征选择作为一个NP-Hard问题，在给定的一组待筛选特征下，如何得到特征子集的最优配置，在所有可能性排列的情况下，找到正确的最优配置的成本是非常高的。而遗传算法在特征选择的领域中，通过采用一种基于进化的方法来确定最优特征子集；通过独特的编码方式，将不同的特征子集编码为种群。从每一代的种群中，采用目标任务的预测模型的正确性对子集进行评估，进行竞赛来确定哪些子集将会延续到下一代；下一代由竞赛获胜者组成并进行交叉(用其他获胜者的特征更新获胜特征集)和变异(随机引入或删除一些特征)。该算法运行一定数量的代之后，群体的最优成员就构成最优特征子集。

符号回归是一种机器学习技术，旨在识别一个潜在的数学表达式。它首先建立一个朴素随机公式的总体来表示已知自变量和它们的因变量目标之间的关系，以预测新数据。每一个连续的生成程序从之前的程序进化而来，从种群中选择最适合的个体进行遗传操作。符号回归依托于达尔文的自然选择理论，利用计算机程序间模拟基因复制、交叉和突变等操作，在初始群体较大且交叉、变异概率设置合理的情况下，不会陷入局部最优解，可以基于大量实际数据寻找隐藏在随机数值后的规律，相较于传统回归方法，所得到的拟合函数具有更广泛的适用性和更高的精确度。遗传编程是符号回归的核心算法，通过引入自定义函数以及动态程序服务方法，在机器学习、人工智能、组合优化、自适应***以及控制技术等领域中的应用都取得了显著的效果。遗传编程以函数本身特点为基础，采用二叉树结构，将函数表达式用于数据结构中，进而把遗传算法中针对二进制为串的遗传操作改进形成针对二叉树的遗传操作。

符号回归与特征选择技术都离不开进化计算的思想。前者是通过进化算法得到更加符合数据之间关系的符号表达式，后者则是通过进化算法得到更加能预测标签值的最优特征子集。然而现有的基于进化算法的特征选择方法大多都只能隐式的提取出重要的特征，而不能提供一个可解释的理由，这无疑是不利于跨领域之间的知识交流与验证；更进一步地，在现实生活中各个特征之间并不是孤立存在的，他们在许多情况下会对结果复合的产生作用，而采用符号回归进行特征提取工作则可以更好的将复合特征重构出来。

发明内容

针对现有技术存在的不足，本发明提供了一种单一特征排序及复合特征提取方法，本发明方法从符号回归表达式结果中基于相关特征出现频率与相关特征在各个表达式中偏导数平均值的结果进行帕累托非支配排序，从而得到相关特征的重要性排序结果；同时通过提取符号回归结果中的频繁子式，并结合领域知识，提取出符合领域知识的复合特征。

为实现上述目的，本发明采用的技术方案为：

一种单一特征排序及复合特征提取方法，其特征在于，包括以下步骤：

S1.构建输入数据集：对于待处理的样本数据，选择样本数据中的待优化参数作为标签，选取至少3个待筛选特征作为相关特征；将样本的相关特征经过数据预处理后与所对应的标签进行拼接，得到单个样本的输入数据，完成输入数据集的构建。

S2.划分聚类：将输入数据集进行聚类划分，得到每个样本所处的聚类。

S3.符号回归：按照聚类划分结果，分聚类进行符号回归；在符号回归过程中，各个聚类的超参数保持一致，以均方根误差作为适应度函数；在符号回归迭代结束后，将符号回归结果解码为表达式，得到各个聚类的表达式。

S4.单一特征排序：统计每个相关特征在表达式中出现的频次，得到各相关特征出现的总次数；同时，在每个表达式中选择拟合误差小于设定阈值的样本，并在所选择的样本中差分计算每个相关特征在表达式中的偏导数平均值；然后根据每个相关特征出现的总次数与每个相关特征在表达式中的偏导数平均值进行非支配排序，得到相关特征对待优化参数的影响程度排序结果。

S5.复合特征提取：在表达式中提取出现频次大于设定阈值的子结构，利用主成分分析法或相关系数法筛选提取到的子结构，得到复合特征。

进一步地，所述数据预处理包括：异常值剔除与数据归一化；

所述异常值剔除的过程为：采用拉依达准则检测位移序列异常值；若有异常值，则将异常值剔除。

所述数据归一化的过程为：基于原始数据的均值和标准差进行数据的标准化，经过标准化后的数据满足在单一相关特征内样本平均值为0，方差为1。

进一步地，所述聚类划分的方式为：

将单个样本的输入数据表示为：

S_i＝(X_i1,X_i2,…,X_in,Y_i) (1)

其中，X_ij表示样本i的相关特征j，j＝1,2,3,…,n，n为输入数据集的相关特征总数；而Y_i表示样本i的标签值。

指定聚类的个数K，并在输入数据集中挑选任意K个样本作为初始中心点，得到中心点集{C₁,C₂,…,C_K}，其中，C₁、C₂、C_K分别表示第1、第2、第K个中心点样本；对于剩下未被选中成为中心点的样本，利用公式(2)计算出每一个样本到所有中心点的欧式距离，根据计算结果将样本划分至欧氏距离最近的中心点所处的聚类：

其中，dis(S_a,C_b)表示输入数据集中任一样本S_a与中心点集中任一中心点样本C_b之间的欧氏距离,S_aj与C_bj分别表示样本S_a和中心点样本C_b的第j个特征的取值。

重复聚类划分过程，迭代至类簇划分不再变化或者达到最大迭代次数，完成聚类划分，得到聚类结果。

进一步地，步骤S3中，利用进化算法与树形编码方式实现符号回归。

进一步地，步骤S4中，利用公式(4)计算出每个相关特征在表达式中出现的总次数：

其中，m为表达式的数量，F_j(t)表示第t个表达式中相关特征j出现的频次；

利用公式(5)计算出每个相关特征在表达式中的偏导数平均值：

其中，pd_j(t)表示第t个表达式中相关特征j的偏导数值。

进一步地，步骤S4中，利用帕累托非支配排序算法进行单一特征排序。

本发明属于数据处理领域，相较于数据处理领域内的其他方法，本发明能够有效提升单一特征选择结果的可解释性，剔除不相关或冗余的特征，从而减少特征个数，提高模型精确度；同时，能够从符号回归的结果中显式的提取出符合领域可解释性的复合特征，从而促进跨领域之间的知识交流；此外，选取出真正相关的特征能够有效去除噪声特征带来的干扰，从而简化模型，协助理解数据产生的过程。

附图说明

图1为本发明实施例提供的基于符号回归的特征选择的流程图。

图2为本发明实施例提供的符号回归流程图。

图3为本发明实施例1提供的不同特征选择算法准确率结果示意图。

图4为本发明实施例2提供的不同特征选择算法准确率结果示意图。

具体实施方式

为使本发明的目的、技术方案和有益效果更加清楚明白，下面将结合具体实施例对本发明的具体实施方式作进一步地详细说明。

实施例1：

本实施例以镍基高温合金的蠕变寿命特征选择为例，获取了10万个镍基高温合金样本的蠕变寿命数据以及其对应的九项待筛选特征，分别是：γ’体积分数、剪切模量、反相畴界能、堆垛层错能、γ’熔化温度、错配度、初始蠕变速率、外加应力和蠕变温度。结合现实工艺限制因素与成本因素，选取4万个样本作为本实施例的原始数据集。

基于上述镍基高温合金蠕变寿命数据集，本实施例提供了一种单一特征排序及复合特征提取方法，其流程如图1所示，具体包括以下步骤：

步骤1：构建输入数据集；

对于镍基高温合金蠕变寿命原始数据集中的每个样本，将样本的寿命数据作为标签，9个待筛选特征作为相关特征；对相关特征进行预处理，包括：采用拉依达准则(3σ准则)检测位移序列异常值，若有异常值，则将异常值剔除；对相关特征进行数据归一化，其过程为：基于原始数据的均值和标准差进行数据的标准化，经过标准化后的数据满足在某一相关特征内样本平均值为0，方差为1；对标签：按照蠕变寿命的取值，将它们映射到1-10的标签数据上，将连续蠕变寿命映射为离散的标签。

将预处理后的相关特征与所对应的标签进行拼接，得到单个样本的输入数据：

S_i＝(X_i1,X_i2,…,X_i9,Y_i) (1)

其中，X_ij表示样本i的相关特征j，j＝1,2,3,…,9；而Y_i表示样本i的标签值。

步骤2：划分聚类；

指定聚类的个数K，聚类的个数如果过低，则会导致单个聚类中的样本个数过多，达不到聚类的目的，而相反，如果聚类的个数过多，则会导致单个聚类内符号回归的结果不具有泛化性；因此对于镍基高温合金蠕变寿命数据集而言，选取的K由经验公式取值为20。

在输入数据集中挑选任意20个样本作为初始中心点，得到中心点集{C₁,C₂,…,C₂₀}；对于剩下未被选中成为中心点的样本，利用公式(2)计算出每一个样本到所有中心点的欧式距离：

其中，dis(S_a,C_b)表示输入数据集中任一样本S_a与中心点集中任一中心点样本C_b之间的欧氏距离；S_aj与C_bj分别表示样本S_a和中心点样本C_b中第j个相关特征的取值。根据计算结果将样本划分至欧氏距离最近的中心点所处的聚类。

重复聚类划分，迭代至类簇划分不再变化或者达到最大迭代次数，完成聚类，得到聚类结果。

步骤3：符号回归；

按照步骤2聚类划分结果，分聚类进行符号回归，其流程如图2所示；

具体而言，在利用进化算法实现符号回归的过程中，以每一个生成的表达式作为个体，在进化过程中的适应度函数则是均方根误差RMSE，其计算公式为：

其中，N为所有样本的个数，f(x_i)则表示第i个样本的寿命预测值。

在每一代的环境选择中，均方根误差更小，即适应度更高的个体在环境选择过程中会更容易留下，从而随着迭代次数增多，会得到误差更小的表达式；在本实施例的符号回归过程中，设置迭代次数为1000，种群大小为100，变异概率为0.8，交叉概率为0.4。

在符号回归过程中，采用多基因二叉树的方式对表达式进行编码，其中，每个基因由二叉树组成，不同基因构成一个表达式，而在不同基因之间采用最小二乘法确定系数；在本实施例中，设置树的深度为6，最大基因个数为4。在符号回归迭代结束后，将符号回归结果解码为表达式。

步骤4：单一特征排序；

单一特征的排序具体需要计算两个指标，其一是相关特征在表达式中出现的频次，相关特征出现的越频繁，该相关特征也就越重要；其二是归一化后的相关特征在表达式中的偏导数平均值，偏导数平均值越大则说明标签对该相关特征的波动更加敏感，该相关特征也就更加重要。

利用公式(4)计算出每个相关特征在表达式中出现的总次数：

其中，m为表达式的数量，F_j(t)表示第t个表达式中相关特征j出现的频次。

在每个表达式中选择拟合误差排名处于前百分之十的样本，在所选择的样本中利用公式(5)计算出每个相关特征在表达式中的偏导数平均值：

其中，pd_j(t)表示第t个表达式中相关特征j的偏导数值。

在得到每个相关特征的出现频次与偏导数平均值之后，采用非支配帕列托排序，得到相关特征的排序结果。

在本实施例中，出现频次较高的特征为：γ’体积分数、剪切模量、堆垛层错能；偏导数平均值较高的特征为：剪切模量、堆垛层错能、初始蠕变速率。因此，根据帕累托非支配排序，在本实施例中排序靠前的4个单一特征为：γ’体积分数、剪切模量、堆垛层错能与初始蠕变速率。

步骤5：提取复合新特征；

按照步骤3得到的符号回归结果表达式，提取出现频次大于符号回归所设定的种群数量的10％，即大于10次的子结构；然后利用相关系数法筛选提取到的子结构，得到复合特征。

在本实施例中，所提取出的复合子结构为X₂*X₇与X₄*X₇，即剪切模量*初始蠕变速率和堆垛层错能*初始蠕变速率。

将步骤4得到的4个单一特征和步骤5得到的两个复合特征，构成新的特征数据集，作为影响镍基高温合金蠕变寿命的主要特征，它们对于预测镍基高温合金蠕变寿命有比较好的性能。

验证：利用含有的9个相关特征原始数据集与本实施例得到的新的特征数据集分别预测镍基高温合金蠕变寿命，模型预测正确率如图3所示，可以看出本实施例得到的新的特征数据集有助于更好的预测镍基高温合金蠕变寿命的取值。

实施例2：

本实施例与实施例1采用相同的镍基高温合金数据作为原始数据集；不同之处在于，以初始蠕变速率作为标签，从其它八项待筛选特征中进行单一特征排序并进行复合特征提取；待筛选特征分别是：γ’体积分数、剪切模量、反相畴界能、堆垛层错能、γ’熔化温度、错配度、外加应力和蠕变温度。

利用实施例1中所述方法，对镍基高温合金初始蠕变速率数据集进行单一特征排序与复合特征提取。实验结果表明，针对镍基高温合金的初始蠕变速率而言，在符号回归结果表达式中出现的频次较高的特征为堆垛层错能、γ’熔化温度与错配度；偏导数平均值较高的特征为γ’体积分数、γ’熔化温度与错配度。将出现频次与偏导数平均值进行非支配排序后，选出的单一特征为γ’熔化温度与错配度。

根据符号回归结果表达式，提取出现频次大于符号回归所设定的种群数量的10％，即大于10次的子结构；然后利用相关系数法筛选提取到的子结构，得到的复合特征为：X₁*X₆与X₄*X₅即γ’体积分数*错配度与堆垛层错能*γ’熔化温度。

将γ’熔化温度、错配度、γ’体积分数*错配度、堆垛层错能*γ’熔化温度，构建新的特征数据集；利用含有8个相关特征的原始数据集与本实施例构建的新的特征数据集分别预测镍基高温合金初始蠕变速率，模型预测正确率如图4所示，可以看出本实施例得到的新的特征数据集有助于更好的预测镍基高温合金初始蠕变速率。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种单一特征排序及复合特征提取方法，其特征在于，用于对镍基高温合金的样本数据进行数据处理，得到单一特征排序并提取复合特征；包括以下步骤：

S1.构建输入数据集：每个镍基高温合金的样本数据均包括蠕变寿命、γ’体积分数、剪切模量、反相畴界能、堆垛层错能、γ’熔化温度、错配度、初始蠕变速率、外加应力和蠕变温度；对于待处理镍基高温合金的样本数据，选择样本数据中的待优化参数作为标签，选取至少3个待筛选特征作为相关特征；将样本的相关特征经过数据预处理后与所对应的标签进行拼接，得到单个样本的输入数据，完成输入数据集的构建；

S2.划分聚类：将输入数据集进行聚类划分，得到每个样本所处的聚类；

S3.符号回归：按照聚类划分结果，分聚类进行符号回归；在符号回归过程中，各个聚类的超参数保持一致，以均方根误差作为适应度函数；在符号回归迭代结束后，将符号回归结果解码为表达式，得到各个聚类的表达式；

S4.单一特征排序：统计每个相关特征在表达式中出现的频次，得到各相关特征出现的总次数；同时，在每个表达式中选择拟合误差小于设定阈值的样本，并在所选择的样本中差分计算每个相关特征在表达式中的偏导数平均值；然后根据每个相关特征出现的总次数与每个相关特征在表达式中的偏导数平均值进行非支配排序，得到相关特征对待优化参数的影响程度排序结果；

2.如权利要求1所述的一种单一特征排序及复合特征提取方法，其特征在于，所述数据预处理包括：异常值剔除与数据归一化；

所述异常值剔除的过程为：采用拉依达准则检测位移序列异常值；若有异常值，则将异常值剔除；

3.如权利要求2所述的一种单一特征排序及复合特征提取方法，其特征在于，所述聚类划分的方式为：

将单个样本的输入数据表示为：

S_i＝(X_i1,X_i2,…,X_in,Y_i) (1)

其中，X_ij表示样本i的相关特征j，j＝1,2,3,…,n，n为输入数据集的相关特征总数；而Y_i表示样本i的标签值；

其中，dis(S_a,C_b)表示输入数据集中任一样本S_a与中心点集中任一中心点样本C_b之间的欧氏距离,S_aj与C_bj分别表示样本S_a和中心点样本C_b的第j个特征的取值；

4.如权利要求3所述的一种单一特征排序及复合特征提取方法，其特征在于，步骤S3中，利用进化算法与树形编码方式实现符号回归。

5.如权利要求4所述的一种单一特征排序及复合特征提取方法，其特征在于，步骤S4中，利用公式(4)计算出每个相关特征在表达式中出现的总次数：

其中，pd_j(t)表示第t个表达式中相关特征j的偏导数值。

6.如权利要求4所述的一种单一特征排序及复合特征提取方法，其特征在于，步骤S4中，利用帕累托非支配排序算法进行单一特征排序。