CN117435904B - 一种单一特征排序及复合特征提取方法 - Google Patents
一种单一特征排序及复合特征提取方法 Download PDFInfo
- Publication number
- CN117435904B CN117435904B CN202311753604.9A CN202311753604A CN117435904B CN 117435904 B CN117435904 B CN 117435904B CN 202311753604 A CN202311753604 A CN 202311753604A CN 117435904 B CN117435904 B CN 117435904B
- Authority
- CN
- China
- Prior art keywords
- feature
- sample
- expression
- features
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000002131 composite material Substances 0.000 title claims abstract description 24
- 238000000605 extraction Methods 0.000 title claims abstract description 13
- 230000014509 gene expression Effects 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000008569 process Effects 0.000 claims abstract description 19
- 238000000638 solvent extraction Methods 0.000 claims abstract description 4
- 229910000601 superalloy Inorganic materials 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- PXHVJJICTQNCMI-UHFFFAOYSA-N Nickel Chemical compound [Ni] PXHVJJICTQNCMI-UHFFFAOYSA-N 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 11
- 238000002844 melting Methods 0.000 claims description 8
- 230000008018 melting Effects 0.000 claims description 8
- 229910052759 nickel Inorganic materials 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 150000001875 compounds Chemical class 0.000 claims description 4
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000012847 principal component analysis method Methods 0.000 claims description 2
- 230000002068 genetic effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 101000912561 Bos taurus Fibrinogen gamma-B chain Proteins 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241001497337 Euscorpius gamma Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000010429 evolutionary process Effects 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2111—Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C60/00—Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Physiology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种单一特征排序及复合特征提取方法,属于数据处理技术领域。该方法包括以下步骤:S1.构建输入数据集;S2.划分聚类;S3.分聚类进行符号回归,并将符号回归结果解码为表达式;S4.根据符号回归结果进行单一特征排序;S5.根据符号回归结果提取复合特征。本发明方法能够有效提升单一特征选择结果的可解释性,剔除不相关或冗余的特征;同时,能够显式的提取出符合领域可解释性的复合特征,从而促进跨领域之间的知识交流;此外,选取出真正相关的特征能够有效去除噪声特征带来的干扰,从而简化模型,提高模型精确度,协助理解数据产生的过程。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种单一特征排序及复合特征提取方法。
背景技术
特征选择是数据处理技术领域中的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关或冗余的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征能够有效简化模型,协助理解数据产生的过程。
特征选择作为一个NP-Hard问题,在给定的一组待筛选特征下,如何得到特征子集的最优配置,在所有可能性排列的情况下,找到正确的最优配置的成本是非常高的。而遗传算法在特征选择的领域中,通过采用一种基于进化的方法来确定最优特征子集;通过独特的编码方式,将不同的特征子集编码为种群。从每一代的种群中,采用目标任务的预测模型的正确性对子集进行评估,进行竞赛来确定哪些子集将会延续到下一代;下一代由竞赛获胜者组成并进行交叉(用其他获胜者的特征更新获胜特征集)和变异(随机引入或删除一些特征)。该算法运行一定数量的代之后,群体的最优成员就构成最优特征子集。
符号回归是一种机器学习技术,旨在识别一个潜在的数学表达式。它首先建立一个朴素随机公式的总体来表示已知自变量和它们的因变量目标之间的关系,以预测新数据。每一个连续的生成程序从之前的程序进化而来,从种群中选择最适合的个体进行遗传操作。符号回归依托于达尔文的自然选择理论,利用计算机程序间模拟基因复制、交叉和突变等操作,在初始群体较大且交叉、变异概率设置合理的情况下,不会陷入局部最优解,可以基于大量实际数据寻找隐藏在随机数值后的规律,相较于传统回归方法,所得到的拟合函数具有更广泛的适用性和更高的精确度。遗传编程是符号回归的核心算法,通过引入自定义函数以及动态程序服务方法,在机器学习、人工智能、组合优化、自适应***以及控制技术等领域中的应用都取得了显著的效果。遗传编程以函数本身特点为基础,采用二叉树结构,将函数表达式用于数据结构中,进而把遗传算法中针对二进制为串的遗传操作改进形成针对二叉树的遗传操作。
符号回归与特征选择技术都离不开进化计算的思想。前者是通过进化算法得到更加符合数据之间关系的符号表达式,后者则是通过进化算法得到更加能预测标签值的最优特征子集。然而现有的基于进化算法的特征选择方法大多都只能隐式的提取出重要的特征,而不能提供一个可解释的理由,这无疑是不利于跨领域之间的知识交流与验证;更进一步地,在现实生活中各个特征之间并不是孤立存在的,他们在许多情况下会对结果复合的产生作用,而采用符号回归进行特征提取工作则可以更好的将复合特征重构出来。
发明内容
针对现有技术存在的不足,本发明提供了一种单一特征排序及复合特征提取方法,本发明方法从符号回归表达式结果中基于相关特征出现频率与相关特征在各个表达式中偏导数平均值的结果进行帕累托非支配排序,从而得到相关特征的重要性排序结果;同时通过提取符号回归结果中的频繁子式,并结合领域知识,提取出符合领域知识的复合特征。
为实现上述目的,本发明采用的技术方案为:
一种单一特征排序及复合特征提取方法,其特征在于,包括以下步骤:
S1.构建输入数据集:对于待处理的样本数据,选择样本数据中的待优化参数作为标签,选取至少3个待筛选特征作为相关特征;将样本的相关特征经过数据预处理后与所对应的标签进行拼接,得到单个样本的输入数据,完成输入数据集的构建。
S2.划分聚类:将输入数据集进行聚类划分,得到每个样本所处的聚类。
S3.符号回归:按照聚类划分结果,分聚类进行符号回归;在符号回归过程中,各个聚类的超参数保持一致,以均方根误差作为适应度函数;在符号回归迭代结束后,将符号回归结果解码为表达式,得到各个聚类的表达式。
S4.单一特征排序:统计每个相关特征在表达式中出现的频次,得到各相关特征出现的总次数;同时,在每个表达式中选择拟合误差小于设定阈值的样本,并在所选择的样本中差分计算每个相关特征在表达式中的偏导数平均值;然后根据每个相关特征出现的总次数与每个相关特征在表达式中的偏导数平均值进行非支配排序,得到相关特征对待优化参数的影响程度排序结果。
S5.复合特征提取:在表达式中提取出现频次大于设定阈值的子结构,利用主成分分析法或相关系数法筛选提取到的子结构,得到复合特征。
进一步地,所述数据预处理包括:异常值剔除与数据归一化;
所述异常值剔除的过程为:采用拉依达准则检测位移序列异常值;若有异常值,则将异常值剔除。
所述数据归一化的过程为:基于原始数据的均值和标准差进行数据的标准化,经过标准化后的数据满足在单一相关特征内样本平均值为0,方差为1。
进一步地,所述聚类划分的方式为:
将单个样本的输入数据表示为:
Si=(Xi1,Xi2,…,Xin,Yi) (1)
其中,Xij表示样本i的相关特征j,j=1,2,3,…,n,n为输入数据集的相关特征总数;而Yi表示样本i的标签值。
指定聚类的个数K,并在输入数据集中挑选任意K个样本作为初始中心点,得到中心点集{C1,C2,…,CK},其中,C1、C2、CK分别表示第1、第2、第K个中心点样本;对于剩下未被选中成为中心点的样本,利用公式(2)计算出每一个样本到所有中心点的欧式距离,根据计算结果将样本划分至欧氏距离最近的中心点所处的聚类:
其中,dis(Sa,Cb)表示输入数据集中任一样本Sa与中心点集中任一中心点样本Cb之间的欧氏距离,Saj与Cbj分别表示样本Sa和中心点样本Cb的第j个特征的取值。
重复聚类划分过程,迭代至类簇划分不再变化或者达到最大迭代次数,完成聚类划分,得到聚类结果。
进一步地,步骤S3中,利用进化算法与树形编码方式实现符号回归。
进一步地,步骤S4中,利用公式(4)计算出每个相关特征在表达式中出现的总次数:
其中,m为表达式的数量,Fj(t)表示第t个表达式中相关特征j出现的频次;
利用公式(5)计算出每个相关特征在表达式中的偏导数平均值:
其中,pdj(t)表示第t个表达式中相关特征j的偏导数值。
进一步地,步骤S4中,利用帕累托非支配排序算法进行单一特征排序。
本发明属于数据处理领域,相较于数据处理领域内的其他方法,本发明能够有效提升单一特征选择结果的可解释性,剔除不相关或冗余的特征,从而减少特征个数,提高模型精确度;同时,能够从符号回归的结果中显式的提取出符合领域可解释性的复合特征,从而促进跨领域之间的知识交流;此外,选取出真正相关的特征能够有效去除噪声特征带来的干扰,从而简化模型,协助理解数据产生的过程。
附图说明
图1为本发明实施例提供的基于符号回归的特征选择的流程图。
图2为本发明实施例提供的符号回归流程图。
图3为本发明实施例1提供的不同特征选择算法准确率结果示意图。
图4为本发明实施例2提供的不同特征选择算法准确率结果示意图。
具体实施方式
为使本发明的目的、技术方案和有益效果更加清楚明白,下面将结合具体实施例对本发明的具体实施方式作进一步地详细说明。
实施例1:
本实施例以镍基高温合金的蠕变寿命特征选择为例,获取了10万个镍基高温合金样本的蠕变寿命数据以及其对应的九项待筛选特征,分别是:γ’体积分数、剪切模量、反相畴界能、堆垛层错能、γ’熔化温度、错配度、初始蠕变速率、外加应力和蠕变温度。结合现实工艺限制因素与成本因素,选取4万个样本作为本实施例的原始数据集。
基于上述镍基高温合金蠕变寿命数据集,本实施例提供了一种单一特征排序及复合特征提取方法,其流程如图1所示,具体包括以下步骤:
步骤1:构建输入数据集;
对于镍基高温合金蠕变寿命原始数据集中的每个样本,将样本的寿命数据作为标签,9个待筛选特征作为相关特征;对相关特征进行预处理,包括:采用拉依达准则(3σ准则)检测位移序列异常值,若有异常值,则将异常值剔除;对相关特征进行数据归一化,其过程为:基于原始数据的均值和标准差进行数据的标准化,经过标准化后的数据满足在某一相关特征内样本平均值为0,方差为1;对标签:按照蠕变寿命的取值,将它们映射到1-10的标签数据上,将连续蠕变寿命映射为离散的标签。
将预处理后的相关特征与所对应的标签进行拼接,得到单个样本的输入数据:
Si=(Xi1,Xi2,…,Xi9,Yi) (1)
其中,Xij表示样本i的相关特征j,j=1,2,3,…,9;而Yi表示样本i的标签值。
步骤2:划分聚类;
指定聚类的个数K,聚类的个数如果过低,则会导致单个聚类中的样本个数过多,达不到聚类的目的,而相反,如果聚类的个数过多,则会导致单个聚类内符号回归的结果不具有泛化性;因此对于镍基高温合金蠕变寿命数据集而言,选取的K由经验公式取值为20。
在输入数据集中挑选任意20个样本作为初始中心点,得到中心点集{C1,C2,…,C20};对于剩下未被选中成为中心点的样本,利用公式(2)计算出每一个样本到所有中心点的欧式距离:
其中,dis(Sa,Cb)表示输入数据集中任一样本Sa与中心点集中任一中心点样本Cb之间的欧氏距离;Saj与Cbj分别表示样本Sa和中心点样本Cb中第j个相关特征的取值。根据计算结果将样本划分至欧氏距离最近的中心点所处的聚类。
重复聚类划分,迭代至类簇划分不再变化或者达到最大迭代次数,完成聚类,得到聚类结果。
步骤3:符号回归;
按照步骤2聚类划分结果,分聚类进行符号回归,其流程如图2所示;
具体而言,在利用进化算法实现符号回归的过程中,以每一个生成的表达式作为个体,在进化过程中的适应度函数则是均方根误差RMSE,其计算公式为:
其中,N为所有样本的个数,f(xi)则表示第i个样本的寿命预测值。
在每一代的环境选择中,均方根误差更小,即适应度更高的个体在环境选择过程中会更容易留下,从而随着迭代次数增多,会得到误差更小的表达式;在本实施例的符号回归过程中,设置迭代次数为1000,种群大小为100,变异概率为0.8,交叉概率为0.4。
在符号回归过程中,采用多基因二叉树的方式对表达式进行编码,其中,每个基因由二叉树组成,不同基因构成一个表达式,而在不同基因之间采用最小二乘法确定系数;在本实施例中,设置树的深度为6,最大基因个数为4。在符号回归迭代结束后,将符号回归结果解码为表达式。
步骤4:单一特征排序;
单一特征的排序具体需要计算两个指标,其一是相关特征在表达式中出现的频次,相关特征出现的越频繁,该相关特征也就越重要;其二是归一化后的相关特征在表达式中的偏导数平均值,偏导数平均值越大则说明标签对该相关特征的波动更加敏感,该相关特征也就更加重要。
利用公式(4)计算出每个相关特征在表达式中出现的总次数:
其中,m为表达式的数量,Fj(t)表示第t个表达式中相关特征j出现的频次。
在每个表达式中选择拟合误差排名处于前百分之十的样本,在所选择的样本中利用公式(5)计算出每个相关特征在表达式中的偏导数平均值:
其中,pdj(t)表示第t个表达式中相关特征j的偏导数值。
在得到每个相关特征的出现频次与偏导数平均值之后,采用非支配帕列托排序,得到相关特征的排序结果。
在本实施例中,出现频次较高的特征为:γ’体积分数、剪切模量、堆垛层错能;偏导数平均值较高的特征为:剪切模量、堆垛层错能、初始蠕变速率。因此,根据帕累托非支配排序,在本实施例中排序靠前的4个单一特征为:γ’体积分数、剪切模量、堆垛层错能与初始蠕变速率。
步骤5:提取复合新特征;
按照步骤3得到的符号回归结果表达式,提取出现频次大于符号回归所设定的种群数量的10%,即大于10次的子结构;然后利用相关系数法筛选提取到的子结构,得到复合特征。
在本实施例中,所提取出的复合子结构为X2*X7与X4*X7,即剪切模量*初始蠕变速率和堆垛层错能*初始蠕变速率。
将步骤4得到的4个单一特征和步骤5得到的两个复合特征,构成新的特征数据集,作为影响镍基高温合金蠕变寿命的主要特征,它们对于预测镍基高温合金蠕变寿命有比较好的性能。
验证:利用含有的9个相关特征原始数据集与本实施例得到的新的特征数据集分别预测镍基高温合金蠕变寿命,模型预测正确率如图3所示,可以看出本实施例得到的新的特征数据集有助于更好的预测镍基高温合金蠕变寿命的取值。
实施例2:
本实施例与实施例1采用相同的镍基高温合金数据作为原始数据集;不同之处在于,以初始蠕变速率作为标签,从其它八项待筛选特征中进行单一特征排序并进行复合特征提取;待筛选特征分别是:γ’体积分数、剪切模量、反相畴界能、堆垛层错能、γ’熔化温度、错配度、外加应力和蠕变温度。
利用实施例1中所述方法,对镍基高温合金初始蠕变速率数据集进行单一特征排序与复合特征提取。实验结果表明,针对镍基高温合金的初始蠕变速率而言,在符号回归结果表达式中出现的频次较高的特征为堆垛层错能、γ’熔化温度与错配度;偏导数平均值较高的特征为γ’体积分数、γ’熔化温度与错配度。将出现频次与偏导数平均值进行非支配排序后,选出的单一特征为γ’熔化温度与错配度。
根据符号回归结果表达式,提取出现频次大于符号回归所设定的种群数量的10%,即大于10次的子结构;然后利用相关系数法筛选提取到的子结构,得到的复合特征为:X1*X6与X4*X5即γ’体积分数*错配度与堆垛层错能*γ’熔化温度。
将γ’熔化温度、错配度、γ’体积分数*错配度、堆垛层错能*γ’熔化温度,构建新的特征数据集;利用含有8个相关特征的原始数据集与本实施例构建的新的特征数据集分别预测镍基高温合金初始蠕变速率,模型预测正确率如图4所示,可以看出本实施例得到的新的特征数据集有助于更好的预测镍基高温合金初始蠕变速率。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (6)
1.一种单一特征排序及复合特征提取方法,其特征在于,用于对镍基高温合金的样本数据进行数据处理,得到单一特征排序并提取复合特征;包括以下步骤:
S1.构建输入数据集:每个镍基高温合金的样本数据均包括蠕变寿命、γ’体积分数、剪切模量、反相畴界能、堆垛层错能、γ’熔化温度、错配度、初始蠕变速率、外加应力和蠕变温度;对于待处理镍基高温合金的样本数据,选择样本数据中的待优化参数作为标签,选取至少3个待筛选特征作为相关特征;将样本的相关特征经过数据预处理后与所对应的标签进行拼接,得到单个样本的输入数据,完成输入数据集的构建;
S2.划分聚类:将输入数据集进行聚类划分,得到每个样本所处的聚类;
S3.符号回归:按照聚类划分结果,分聚类进行符号回归;在符号回归过程中,各个聚类的超参数保持一致,以均方根误差作为适应度函数;在符号回归迭代结束后,将符号回归结果解码为表达式,得到各个聚类的表达式;
S4.单一特征排序:统计每个相关特征在表达式中出现的频次,得到各相关特征出现的总次数;同时,在每个表达式中选择拟合误差小于设定阈值的样本,并在所选择的样本中差分计算每个相关特征在表达式中的偏导数平均值;然后根据每个相关特征出现的总次数与每个相关特征在表达式中的偏导数平均值进行非支配排序,得到相关特征对待优化参数的影响程度排序结果;
S5.复合特征提取:在表达式中提取出现频次大于设定阈值的子结构,利用主成分分析法或相关系数法筛选提取到的子结构,得到复合特征。
2.如权利要求1所述的一种单一特征排序及复合特征提取方法,其特征在于,所述数据预处理包括:异常值剔除与数据归一化;
所述异常值剔除的过程为:采用拉依达准则检测位移序列异常值;若有异常值,则将异常值剔除;
所述数据归一化的过程为:基于原始数据的均值和标准差进行数据的标准化,经过标准化后的数据满足在单一相关特征内样本平均值为0,方差为1。
3.如权利要求2所述的一种单一特征排序及复合特征提取方法,其特征在于,所述聚类划分的方式为:
将单个样本的输入数据表示为:
Si=(Xi1,Xi2,…,Xin,Yi) (1)
其中,Xij表示样本i的相关特征j,j=1,2,3,…,n,n为输入数据集的相关特征总数;而Yi表示样本i的标签值;
指定聚类的个数K,并在输入数据集中挑选任意K个样本作为初始中心点,得到中心点集{C1,C2,…,CK},其中,C1、C2、CK分别表示第1、第2、第K个中心点样本;对于剩下未被选中成为中心点的样本,利用公式(2)计算出每一个样本到所有中心点的欧式距离,根据计算结果将样本划分至欧氏距离最近的中心点所处的聚类:
其中,dis(Sa,Cb)表示输入数据集中任一样本Sa与中心点集中任一中心点样本Cb之间的欧氏距离,Saj与Cbj分别表示样本Sa和中心点样本Cb的第j个特征的取值;
重复聚类划分过程,迭代至类簇划分不再变化或者达到最大迭代次数,完成聚类划分,得到聚类结果。
4.如权利要求3所述的一种单一特征排序及复合特征提取方法,其特征在于,步骤S3中,利用进化算法与树形编码方式实现符号回归。
5.如权利要求4所述的一种单一特征排序及复合特征提取方法,其特征在于,步骤S4中,利用公式(4)计算出每个相关特征在表达式中出现的总次数:
其中,m为表达式的数量,Fj(t)表示第t个表达式中相关特征j出现的频次;
利用公式(5)计算出每个相关特征在表达式中的偏导数平均值:
其中,pdj(t)表示第t个表达式中相关特征j的偏导数值。
6.如权利要求4所述的一种单一特征排序及复合特征提取方法,其特征在于,步骤S4中,利用帕累托非支配排序算法进行单一特征排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311753604.9A CN117435904B (zh) | 2023-12-20 | 2023-12-20 | 一种单一特征排序及复合特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311753604.9A CN117435904B (zh) | 2023-12-20 | 2023-12-20 | 一种单一特征排序及复合特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117435904A CN117435904A (zh) | 2024-01-23 |
CN117435904B true CN117435904B (zh) | 2024-03-15 |
Family
ID=89551966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311753604.9A Active CN117435904B (zh) | 2023-12-20 | 2023-12-20 | 一种单一特征排序及复合特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117435904B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105719253A (zh) * | 2016-01-20 | 2016-06-29 | 桂林电子科技大学 | 一种嵌入堆排序的卡尔曼滤波相位展开方法 |
US9596196B1 (en) * | 2013-10-17 | 2017-03-14 | Amazon Technologies, Inc. | Message grouping |
CN109800801A (zh) * | 2019-01-10 | 2019-05-24 | 浙江工业大学 | 基于高斯回归算法的K-Means聚类分析车道流量方法 |
CN110415111A (zh) * | 2019-08-01 | 2019-11-05 | 信雅达***工程股份有限公司 | 基于用户数据与专家特征合并逻辑回归信贷审批的方法 |
CN112257892A (zh) * | 2020-08-27 | 2021-01-22 | 中国石油化工股份有限公司 | 一种复杂气藏排水采气工艺制度优化方法 |
CN112330060A (zh) * | 2020-11-25 | 2021-02-05 | 新智数字科技有限公司 | 设备故障预测方法、装置、可读存储介质及电子设备 |
CN113111308A (zh) * | 2021-03-15 | 2021-07-13 | 华南理工大学 | 基于数据驱动遗传编程算法的符号回归方法及*** |
CN113127864A (zh) * | 2019-12-31 | 2021-07-16 | 奇安信科技集团股份有限公司 | 特征码提取方法、装置、计算机设备和可读存储介质 |
CN115035966A (zh) * | 2022-08-09 | 2022-09-09 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于主动学习和符号回归的超导体筛选方法、装置及设备 |
CN115329269A (zh) * | 2022-07-01 | 2022-11-11 | 四川大学 | 一种可微分的遗传编程符号回归方法 |
CN115392361A (zh) * | 2022-08-12 | 2022-11-25 | 中国平安财产保险股份有限公司 | 一种智能排序方法、装置、计算机设备及存储介质 |
CN116596574A (zh) * | 2023-06-07 | 2023-08-15 | 国网安徽省电力有限公司电力科学研究院 | 电网用户画像构建方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180137219A1 (en) * | 2016-11-14 | 2018-05-17 | General Electric Company | Feature selection and feature synthesis methods for predictive modeling in a twinned physical system |
-
2023
- 2023-12-20 CN CN202311753604.9A patent/CN117435904B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9596196B1 (en) * | 2013-10-17 | 2017-03-14 | Amazon Technologies, Inc. | Message grouping |
CN105719253A (zh) * | 2016-01-20 | 2016-06-29 | 桂林电子科技大学 | 一种嵌入堆排序的卡尔曼滤波相位展开方法 |
CN109800801A (zh) * | 2019-01-10 | 2019-05-24 | 浙江工业大学 | 基于高斯回归算法的K-Means聚类分析车道流量方法 |
CN110415111A (zh) * | 2019-08-01 | 2019-11-05 | 信雅达***工程股份有限公司 | 基于用户数据与专家特征合并逻辑回归信贷审批的方法 |
CN113127864A (zh) * | 2019-12-31 | 2021-07-16 | 奇安信科技集团股份有限公司 | 特征码提取方法、装置、计算机设备和可读存储介质 |
CN112257892A (zh) * | 2020-08-27 | 2021-01-22 | 中国石油化工股份有限公司 | 一种复杂气藏排水采气工艺制度优化方法 |
CN112330060A (zh) * | 2020-11-25 | 2021-02-05 | 新智数字科技有限公司 | 设备故障预测方法、装置、可读存储介质及电子设备 |
CN113111308A (zh) * | 2021-03-15 | 2021-07-13 | 华南理工大学 | 基于数据驱动遗传编程算法的符号回归方法及*** |
CN115329269A (zh) * | 2022-07-01 | 2022-11-11 | 四川大学 | 一种可微分的遗传编程符号回归方法 |
CN115035966A (zh) * | 2022-08-09 | 2022-09-09 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于主动学习和符号回归的超导体筛选方法、装置及设备 |
CN115392361A (zh) * | 2022-08-12 | 2022-11-25 | 中国平安财产保险股份有限公司 | 一种智能排序方法、装置、计算机设备及存储介质 |
CN116596574A (zh) * | 2023-06-07 | 2023-08-15 | 国网安徽省电力有限公司电力科学研究院 | 电网用户画像构建方法及*** |
Non-Patent Citations (5)
Title |
---|
A Two-Stage Evolutionary Algorithm with Repair Strategy for Heat Component-Constrained Layout Optimization;Ke Shi 等;《Advances in Swarm Intelligence》;20230708;401–412 * |
Semantic Cluster Operator for Symbolic Regression and Its Applications;Hoseong Jeong 等;《Advances in Engineering Software》;20220708;1-22 * |
基于地理信息***平台的城市电网空间负荷预测;彭茂君;《中国优秀硕士学位论文全文数据库 工程科技II辑》;20070215;C042-263 * |
数据驱动的钢铁耐磨材料性能预测研究综述;刘源 等;《机械工程学报》;20220228;31-50 * |
数据驱动的镍基高温合金多目标优化设计与开发;邓钥丹 等;《铸造技术》;20220518;351-356 * |
Also Published As
Publication number | Publication date |
---|---|
CN117435904A (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914873B (zh) | 一种两阶段云服务器无监督异常预测方法 | |
CN111199343B (zh) | 一种多模型融合的烟草市场监管异常数据挖掘方法 | |
CN112070125A (zh) | 一种基于孤立森林学***衡数据集的预测方法 | |
CN111783875A (zh) | 基于聚类分析的异常用户检测方法、装置、设备及介质 | |
US20120173465A1 (en) | Automatic Variable Creation For Adaptive Analytical Models | |
CN111401599B (zh) | 一种基于相似性搜索和lstm神经网络的水位预测方法 | |
CN117349782B (zh) | 智能数据预警决策树分析方法及*** | |
CN114528949A (zh) | 一种基于参数优化的电能计量异常数据的识别与补偿方法 | |
CN104732067A (zh) | 一种面向流程对象的工业过程建模预测方法 | |
CN115409292A (zh) | 一种电力***短期负荷预测方法及相关装置 | |
CN116340726A (zh) | 一种能源经济大数据清洗方法、***、设备及存储介质 | |
CN111275074B (zh) | 基于栈式自编码网络模型的电力cps信息攻击辨识方法 | |
CN114548591A (zh) | 一种基于混合深度学习模型和Stacking的时序数据预测方法及*** | |
CN110110447B (zh) | 一种混合蛙跳反馈极限学习机带钢厚度预测方法 | |
CN115185804A (zh) | 服务器性能预测方法、***、终端及存储介质 | |
CN110516792A (zh) | 基于小波分解和浅层神经网络的非平稳时间序列预测方法 | |
CN113743453A (zh) | 一种基于随机森林的人口数量预测方法 | |
CN113672871A (zh) | 一种高比例缺失数据填补方法及相关装置 | |
CN117435904B (zh) | 一种单一特征排序及复合特征提取方法 | |
CN116883128A (zh) | 洗钱团伙的挖掘方法、装置、电子设备及计算机存储介质 | |
CN115708091A (zh) | 一种冶金信息***数据异常检测方法 | |
CN115952914A (zh) | 一种基于大数据的电力计量运维工作判别规划方法 | |
CN113033419A (zh) | 基于进化神经网络的设备故障辨识方法及*** | |
US20230334360A1 (en) | Model-independent feature selection | |
CN115907954A (zh) | 账户的识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |