CN111242204A - 一种运维管控平台故障特征提取方法 - Google Patents

一种运维管控平台故障特征提取方法 Download PDF

Info

Publication number
CN111242204A
CN111242204A CN202010015277.7A CN202010015277A CN111242204A CN 111242204 A CN111242204 A CN 111242204A CN 202010015277 A CN202010015277 A CN 202010015277A CN 111242204 A CN111242204 A CN 111242204A
Authority
CN
China
Prior art keywords
feature
attributes
correlation
features
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010015277.7A
Other languages
English (en)
Inventor
姜涛
曹杰
王蕾
薄小永
曲朝阳
薛凯
于建友
吕洪波
胡可为
徐鹏程
于成立
周玉光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taipingwan Power Station State Grid Northeast Branch Department Lyuyuan Hydroelectric Co
State Grid Jilin Electric Power Corp
Northeast Electric Power University
Information and Telecommunication Branch of State Grid East Inner Mogolia Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Jilin Electric Power Co Ltd
Original Assignee
Taipingwan Power Station State Grid Northeast Branch Department Lyuyuan Hydroelectric Co
Northeast Dianli University
State Grid Jilin Electric Power Corp
Information and Telecommunication Branch of State Grid East Inner Mogolia Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Jilin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taipingwan Power Station State Grid Northeast Branch Department Lyuyuan Hydroelectric Co, Northeast Dianli University, State Grid Jilin Electric Power Corp, Information and Telecommunication Branch of State Grid East Inner Mogolia Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Jilin Electric Power Co Ltd filed Critical Taipingwan Power Station State Grid Northeast Branch Department Lyuyuan Hydroelectric Co
Priority to CN202010015277.7A priority Critical patent/CN111242204A/zh
Publication of CN111242204A publication Critical patent/CN111242204A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种运维管控平台故障特征提取方法,其特点是,包括:主成分分析特征提取和二次特征选择等内容。基于主成分分析特征提取能将高维空间样本变换为低维空间样本,在特征维度降低的同时降低特征属性的冗余度,并保留了主要的分类信息,大大降低了分类器的计算复杂度,缩短了训练时间;又因为在此特征提取过程中嵌入二次特征选择功能,基于关联规则特征选择,结合启发式序列后向搜索策略对评估结果进行排序,进而确定特征子集的关键特征,使特征属性具有最大关联—最小冗余,即可以最大程度提高属性特征与类属性关联度,且降低属性与属性之间的冗余,显著提高管控故障分类精度。该方法科学合理,适用性强,可广泛适用于各种故障分类管控平台。

Description

一种运维管控平台故障特征提取方法
技术领域
本发明涉及信息***运维管控故障特征提取技术领域,是一种运维管控平台故障特征提取方法。
背景技术
信息***管控平台为了获取***运行状况和运行趋势等信息,对硬件设备、软件应用进行实时远程的监控。管控平台对设备监控需要在网络环境下进行,在网络环境下,数据传输通常会为数据流带来对应的特征,这些特征是实现数据识别的重要基础。当管控设备进行监控时,会收集到大量的故障信息,特征提取与选择技术是对这些进行故障信息进行分类识别的基础。特征提取与选择技术可以实现多属性、高冗余的信息环境下关键监控特征的选取。
在信息***智能管控平台中,为加强***的集中管理和统一监控,通过实现网络、安全设备的全网监控,提供精准的故障判断及处理建议,提高人员解决故障的能力及效率。为了实现这一目标,用特征提取与选择技术确定监控故障数据的关键特征,每个故障类型可能包含许多个特征,从中选取最能代表此类故障类型的关键特征。特征提取与选择技术的优势在于进行故障类型识别分类的过程中,在降低数据冗余前提下,大大提高故障识别的精确度。相比于其他技术更能准确地选取最能代表此类故障类型的关键特征。
通过特征提取与选择技术,实现对故障类型的有效识别分类,从而对故障进行快速高效的分析和处理,及时向管理人员进行快速报警,实现24小时的无人连续监控。
运维管控平台故障数据中含有较多特征的数据,这些数据称为高维数据。基于高维数据的部分特征对故障类型进行自动分类,但某些故障数据中的特征对分类结果的贡献并不大。此外,由于特征之间存在一定的相关性及冗余,使分类过程中产生较大的时间、空间开销,造成故障分类效果不佳。高维数据的冗余特征在很大程度上影响着分类器的性能,尤其是采用全部数据特征作为决策函数的标准有监督学***台故障分类的故障统计特征可以达到上百种。为了提升分类算法效率与准确率,有效减少原始数据的规模与特征间的冗余,需要对原始高维数据的特征进行特征选择和提取。特征选择是从原始数据特征中选择出一个最优特征子集,这个特征子集能够最大程度上代表原始数据的分布特性;特征提取是通过映射原理,将高维的数据样本通过变换映射为低维样本,映射后形成新的样本特征组合,这种组合不仅维度降低且由于是映射变换亦能够充分代表原始特征。
发明内容
本发明的目的是,克服当数据间相似的依赖性很强时,单纯采用特征选择方法冗余信息去除不充分的问题,提供一种科学合理,适用性强,能够在确定特征子集的情况下,更加有效的去除数据冗余,同时取得较好分类精度的运维管控平台故障特征提取方法。
本发明的目的是由以下技术方案来实现的:一种运维管控平台故障特征提取方法,其特征是,它包括的内容有:
1)主成分分析特征提取
主成分分析(Principle Component Analysis,PCA)是进行样本空间变换,通过投影确定所有原始特征向量方差最大的投影方向,将该投影方向定位判别矢量进行特征提取,投影变换后,原始样本变为尽量分散的低维样本,同时保持变换前原高维样本空间的差异性,设定在原始高维空间包含样本N个,X∈Rn,每个样本为一个Xi=[xi1,...,xin]T∈Rn,其矢量均值为M,则对应的特征向量为Xi=[x1i,...,xni]∈Rn,且对应的协方差矩阵为公式(1),
Figure BDA0002358650860000021
样本在特征矢量上的分布方差,即公式(1)协方差矩阵的特征值,对公式(1)中的协方差矩阵进行对角化后得到的正交矩阵为公式(2),
Figure BDA0002358650860000022
将Q表示为
Figure BDA0002358650860000023
其中M为正交矩阵Q的维数,PCA则基于Q推导出矩阵中的特征值λ1≥λ2≥…≥λn,并求出特征值对应的标准正交特征向量v1≥v2≥…≥vn,通过正交矩阵Q的特征值及相应的标准正交特征向量,即得到协方差矩阵S的标准正交特征向量u1,u2,…ud,如公式(3),其中标准正交特征向量u1,u2,…ud对应S的前d个最大非零特征值,
Figure BDA0002358650860000024
设定t=95%,ui>t,则空间样本在前d个轴上的主成分累计贡献率就为原始数据的95%,这样,对于任何样本xi将其映射到降维后的低维样本空间U={u1,u2,…ud},其xi的主分量特征为y=(u1,u2,…ud)Txi,则yi为低维空间中的样本点,通过PCA的空间样本变换,不仅使变换后的样本能够代表主成分的累计贡献率的95%,还使原始空间维度由n降为d,d<<n,因而,大大降低了空间的维度,且起到了特征提取的作用;
2)二次特征选择
PCA特征提取后,为进一步得到最优特征子集及PCA低维空间的关键特征,嵌入二次特征选择算法,该算法基于过滤式(Filter)关联规则特征选择(Correlation-basedFeature Selection,CFS),在对样本特征进行相关性评估时采用启发式序列后向搜索策略,通过对特征的相关性排序确定最优的特征子集,
CFS将特征的相关性作为评估标准,是一种过滤(Filter)式的特征选择算法,在相应的搜索策略下,旨在降低属性与属性之间的冗余,同时提高属性特征与类属性关联度,达到筛选冗余性高的属性及与类别无关的属性,公式(4)是其评估标准,对特征子集S的k个特征的评价用Ms表示,其中特征属性与类的相关度均值为
Figure BDA0002358650860000031
属性间的相关度均值则用
Figure BDA0002358650860000032
表示,由公式(4)可知,由关联规则特征选择算法确定的候选特征子集能够使特征属性具有最大关联—最小冗余,即可以最大程度提高属性特征与类属性关联度,且降低属性与属性之间的冗余,即公式(4)中评价值Ms越高,特征属性与类的相关度均值为
Figure BDA0002358650860000033
越大,属性间的相关度均值则用
Figure BDA0002358650860000034
越小,
Figure BDA0002358650860000035
关联规则特征选择中采用信息增益算法评估各属性间的相关性,而信息增益的计算方法是对称性的测量方法,因此当特征子集S中两个高阶关联的特征存在时,例如特征Wi、Wj,可采用公式(5)的对称不确定方法,特征的熵为H(W),特征关联性为U,由此公式(6)为基于属性间相关性的特征子集的评估函数,当评估值Hs升高时,特征子集S中特征Wj与Wi相关性减小,且与类属性相关性增大,
Figure BDA0002358650860000036
Figure BDA0002358650860000037
采用CFS算法,在PCA中嵌入二次特征选择功能,然后基于启发式序列后向搜索策略,计算CFS的评估结果,经过排序后筛选出最优特征子集。
本发明的一种运维管控平台故障特征提取方法是一种嵌入二次特征选择功能的特征提取方法,因为基于PCA特征提取,将高维空间样本变换为低维空间样本,在特征维度降低的同时降低了特征属性的冗余度,并保留了主要的分类信息,大大降低了分类器的计算复杂度,缩短了训练时间;又因为在此特征提取过程中嵌入二次特征选择功能,基于CFS结合启发式序列后向搜索策略对评估结果进行排序,进而确定特征子集的关键特征,使特征属性具有最大关联—最小冗余,即可以最大程度提高属性特征与类属性关联度,且降低属性与属性之间的冗余,显著提高管控故障分类精度。该方法科学合理,适用性强,可广泛适用于各种故障分类管控平台。
附图说明
图1为本发明的一种运维管控平台故障特征提取方法功能示意图;
图2为嵌入二次特征选择功能的特征后向搜索策略流程图;
图3为基于初次PCA特征提取前后故障分类性能对比图;
图4为嵌入二次特征选择功能的PCA特征提取方法与传统特征提取方法性能对比图。
具体实施方式
下面利用附图和具体实施方式对本发明作进一步说明。
本发明的一种运维管控平台故障特征提取方法,包括的内容有:
1)主成分分析特征提取
主成分分析(Principle Component Analysis,PCA)是进行样本空间变换,通过投影确定所有原始特征向量方差最大的投影方向,将该投影方向定位判别矢量进行特征提取,投影变换后,原始样本变为尽量分散的低维样本,同时保持变换前原高维样本空间的差异性,设定在原始高维空间包含样本N个,X∈Rn,每个样本为一个Xi=[xi1,...,xin]T∈Rn,其矢量均值为M,则对应的特征向量为Xi=[x1i,...,xni]∈Rn,且对应的协方差矩阵为公式(1),
Figure BDA0002358650860000041
样本在特征矢量上的分布方差,即公式(1)协方差矩阵的特征值,对公式(1)中的协方差矩阵进行对角化后得到的正交矩阵为公式(2),
Figure BDA0002358650860000042
将Q表示为
Figure BDA0002358650860000043
其中M为正交矩阵Q的维数,PCA则基于Q推导出矩阵中的特征值λ1≥λ2≥…≥λn,并求出特征值对应的标准正交特征向量v1≥v2≥…≥vn,通过正交矩阵Q的特征值及相应的标准正交特征向量,即得到协方差矩阵S的标准正交特征向量u1,u2,…ud,如公式(3),其中标准正交特征向量u1,u2,…ud对应S的前d个最大非零特征值,
Figure BDA0002358650860000051
设定t=95%,ui>t,则空间样本在前d个轴上的主成分累计贡献率就为原始数据的95%,这样,对于任何样本xi将其映射到降维后的低维样本空间U={u1,u2,…ud},其xi的主分量特征为y=(u1,u2,…ud)Txi,则yi为低维空间中的样本点,通过PCA的空间样本变换,不仅使变换后的样本能够代表主成分的累计贡献率的95%,还使原始空间维度由n降为d,d<<n,因而,大大降低了空间的维度,且起到了特征提取的作用;
2.二次特征选择
PCA特征提取后,为进一步得到最优特征子集及PCA低维空间的关键特征,嵌入二次特征选择算法,该算法基于过滤式(Filter)关联规则特征选择(Correlation-basedFeature Selection,CFS),在对样本特征进行相关性评估时采用启发式序列后向搜索策略,通过对特征的相关性排序确定最优的特征子集,
CFS将特征的相关性作为评估标准,是一种过滤(Filter)式的特征选择算法,在相应的搜索策略下,旨在降低属性与属性之间的冗余,同时提高属性特征与类属性关联度,达到筛选冗余性高的属性及与类别无关的属性,公式(4)是其评估标准,对特征子集S的k个特征的评价用Ms表示,其中特征属性与类的相关度均值为
Figure BDA0002358650860000052
属性间的相关度均值则用
Figure BDA0002358650860000053
表示,由公式(4)可知,由关联规则特征选择算法确定的候选特征子集能够使特征属性具有最大关联—最小冗余,即可以最大程度提高属性特征与类属性关联度,且降低属性与属性之间的冗余,即公式(4)中评价值Ms越高,特征属性与类的相关度均值为
Figure BDA0002358650860000054
越大,属性间的相关度均值则用
Figure BDA0002358650860000055
越小,
Figure BDA0002358650860000056
关联规则特征选择中采用信息增益算法评估各属性间的相关性,而信息增益的计算方法是对称性的测量方法,因此当特征子集S中两个高阶关联的特征存在时,例如特征Wi、Wj,可采用公式(5)的对称不确定方法,特征关联性为U,特征的熵为H(W),由此公式(6)为基于属性间相关性的特征子集的评估函数,当评估值Hs升高时,特征子集S中特征Wj与Wi相关性减小,且与类属性相关性增大,
Figure BDA0002358650860000061
Figure BDA0002358650860000062
采用CFS算法,在PCA中嵌入二次特征选择功能,然后基于启发式序列后向搜索策略,计算CFS的评估结果,经过排序后筛选出最优特征子集。
参照图1,本发明的一种运维管控平台故障特征提取方法的功能框架
基于PCA特征提取进行样本空间变换后更有效去除数据冗余。该特征提取过程:1)基于PCA对预处理后数据集S0特征提取。依据PCA原理得出高维样本空间X的协方差矩阵S;推导出S的正交矩阵Q及其特征值λ1≥λ2≥…≥λn;根据管控故障特征提取实际要求设定累计贡献率t的阈值,从而得到其标准正交向量ui,及特征提取后的低维样本空间U={u1,u2,…ud},并得到原始样本xi空间变换后的主分量特征y=(u1,u2,…ud)Txi,形成新的候选特征子集F1。2)基于PCA的自适应二次特征选择。①管控故障PCA特征提取后如需锁定特征子集F1的关键特征,则进入二次特征选择功能模块。二次特征选择采用关联规则特征选择CFS算法,计算提取后特征集的特征相关性,使特征属性具有最大关联—最小冗余,即可以最大程度提高属性特征与类属性关联度,且降低属性与属性之间的冗余,且同时能锁定PCA特征提取后的关键特征子集F2。该功能模块在提高故障分类精度同时,能增强其特征的最大关联—最小冗余性,并锁定在PCA特征提取基础上的关键特征。②当仅需要故障分类,并不需要分析关键特征时,可跳过此功能模块,对管控故障快速分类。3)在上述嵌入自适应二次特征选择功能的特征提取基础上,对形成的管控故障最优特征数据集进行训练,在测试集上得到管控平台故障分类结果。
2.本发明的一种运维管控平台故障特征提取方法的算法框架
算法基于主成分分析对原始数据集进行特征提取形成特征集F1,并衡量F1中特征Wj与类属性S的关联性U(Wj,S),将U进行降序排列,并计算CFS的特征熵评估值Hs1。计算时采用的搜索策略是启发式序列后向搜索,后向搜索策略流程如图2所示,每次将与类属性相关性评估值较小的特征删除,并再次计算此特征删除后的特征熵评估值Hs2。循环评估Hs当其不小于阈值时,若Hs2≥Hs1,特征子集F1将更新,若Hs2<Hs1,特征子集F1不更新,当Hs小于阈值时跳出循环输出最优特征子集F2。该二次特征选择功能模块能在PCA特征提取基础之上,通过关联规则特征选择进一步锁定最优特征子集的关键特征。其二次特征选择算法的伪代码如下:
输入:PCA特征提取后的特征集F1,输出:最优特征集F2
1.选择PCA特征提取后的全部特征构成特征子集F1
2.计算F1中各个特征属性Wj与类属性S的关联性U(Wj,S),
3.计算特征熵评估值Hs
4.对每个特征与类属性关联性U(Wj,S)值进行降序排列,Hs1←Hs
5.For Hs1≥δdo,
6.删除F1中一个特征,形成新的特征子集F2,计算特征熵评估值Hs2
7.If Hs2≥Hs1,then F1=F2
8.else,F1不变,
9.End if,
10.Hs1=Hs2
11.End For。
发明人采用本发明的一种运维管控平台故障特征提取方法,对特征提取后管控平台识别故障性能进行了对比分析。首先,通过PCA进行特征提取,确定主成分累计贡献率为94%,这是由于当阈值t(threshold=94%),特征维度降到18维,并且故障识别平均准确率达到了98%以上,如图3所示。需要注意的是,阈值t决定了PCA主成分的累计贡献率,虽然当threshold=100%时累计贡献率最大,拥有较高的识别准确率,但与此同时特征的维度也急剧增加。因此,阈值t并不是越高越好,只有达到维度与分类准确率平衡时,才能使分类器的性能最优。经过PCA特征提取后,再次进行18维特征的二次选择,结果显示第1,2,5,6,7,12维的特征间的冗余最小,且与类属性关联性最强。经筛选后,它们为特征提取后的关键特征子集。表1是二次特征选择后的交叉验证结果,基于二次特征选择的6维关键特征子集的对比效果如图4所示,其平均二分类准确率为96.9%,与单纯通过PCA特征提取的分类准确率相差不到1.1%。由于特征维度降到6维,相比单纯进行PCA降维得到的特征维度降低了65%;分类器模型执行时间平均减少31.3%。在管控平台故障分类过程中,可以根据具体需求进行自适应的特征提取与选择。当仅需要故障分类,且对分类精度要求较高,并不需要分析关键特征时,可跳过二次特征选择模块,对管控故障分类。当需要锁定关键特征,且对特征维度要求较高时,可自适应的进入二次特征选择模块,进一步锁定关键特征,同时在测试集上得到管控平台故障分类结果。以上证明了本发明提出的一种运维管控平台故障特征提取方法的可行性与有效性。
表1基于PCA的二次故障特征选择(十折交叉验证)
PCA提取后特征维度 交叉验证(%) PCA提取后特征维度 交叉验证(%)
1 9(90%) 11 1(10%)
2 10(100%) 12 10(100%)
3 5(50%) 13 0(0%)
4 4(40%) 14 0(0%)
5 10(100%) 15 0(0%)
6 10(100%) 16 0(0%)
7 9(90%) 17 0(0%)
8 7(70%) 18 0(0%)
9 1(10%)
10 0(0%)
综上所述,本发明的一种运维管控平台故障特征提取方法,降低了各故障样本空间的特征维度,缩短了训练时间,提高了学习分类器的分类精度。由于其先进行了PCA特征提取,大大降低了管控故障分类的特征维度,减少了计算复杂度。同时,由于其在特征提取后进行自适应二次特征选择,克服了单一特征提取方法不能锁定关键特征的问题,并且使特征间冗余度减少,特征与类属性关联性增强,大大提高了故障分类的精度。
本发明的软件程序依据自动化和计算机处理技术编制,是本领域技术人员所熟悉的技术。
本发明的实施例并非穷举,本领域技术人员不经过创造性劳动的简单复制和改进,仍属于本发明权利保护的范围。

Claims (1)

1.一种运维管控平台故障特征提取方法,其特征是,它包括的内容有:
1)主成分分析特征提取
主成分分析(Principle Component Analysis,PCA)是进行样本空间变换,通过投影确定所有原始特征向量方差最大的投影方向,将该投影方向定位判别矢量进行特征提取,投影变换后,原始样本变为尽量分散的低维样本,同时保持变换前原高维样本空间的差异性,设定在原始高维空间包含样本N个,X∈Rn,每个样本为一个Xi=[xi1,...,xin]T∈Rn,其矢量均值为M,则对应的特征向量为Xi=[x1i,...,xni]∈Rn,且对应的协方差矩阵为公式(1),
Figure FDA0002358650850000011
样本在特征矢量上的分布方差,即公式(1)协方差矩阵的特征值,对公式(1)中的协方差矩阵进行对角化后得到的正交矩阵为公式(2),
Figure FDA0002358650850000012
将Q表示为
Figure FDA0002358650850000013
其中M为正交矩阵Q的维数,PCA则基于Q推导出矩阵中的特征值λ1≥λ2≥…≥λn,并求出特征值对应的标准正交特征向量v1≥v2≥…≥vn,通过正交矩阵Q的特征值及相应的标准正交特征向量,即得到协方差矩阵S的标准正交特征向量u1,u2,…ud,如公式(3),其中标准正交特征向量u1,u2,…ud对应S的前d个最大非零特征值,
Figure FDA0002358650850000014
设定t=95%,ui>t,则空间样本在前d个轴上的主成分累计贡献率就为原始数据的95%,这样,对于任何样本xi将其映射到降维后的低维样本空间U={u1,u2,…ud},其xi的主分量特征为y=(u1,u2,…ud)Txi,则yi为低维空间中的样本点,通过PCA的空间样本变换,不仅使变换后的样本能够代表主成分的累计贡献率的95%,还使原始空间维度由n降为d,d<<n,因而,大大降低了空间的维度,且起到了特征提取的作用;
2)二次特征选择
PCA特征提取后,为进一步得到最优特征子集及PCA低维空间的关键特征,嵌入二次特征选择算法,该算法基于过滤式(Filter)关联规则特征选择(Correlation-based FeatureSelection,CFS),在对样本特征进行相关性评估时采用启发式序列后向搜索策略,通过对特征的相关性排序确定最优的特征子集,
CFS将特征的相关性作为评估标准,是一种过滤(Filter)式的特征选择算法,在相应的搜索策略下,旨在降低属性与属性之间的冗余,同时提高属性特征与类属性关联度,达到筛选冗余性高的属性及与类别无关的属性,公式(4)是其评估标准,对特征子集S的k个特征的评价用Ms表示,其中特征属性与类的相关度均值为
Figure FDA0002358650850000021
属性间的相关度均值则用
Figure FDA0002358650850000022
表示,由公式(4)可知,由关联规则特征选择算法确定的候选特征子集能够使特征属性具有最大关联—最小冗余,即可以最大程度提高属性特征与类属性关联度,且降低属性与属性之间的冗余,即公式(4)中评价值Ms越高,特征属性与类的相关度均值为
Figure FDA0002358650850000023
越大,属性间的相关度均值则用
Figure FDA0002358650850000024
越小,
Figure FDA0002358650850000025
关联规则特征选择中采用信息增益算法评估各属性间的相关性,而信息增益的计算方法是对称性的测量方法,因此当特征子集S中两个高阶关联的特征存在时,例如特征Wi、Wj,可采用公式(5)的对称不确定方法,特征的熵为H(W),特征关联性为U,由此公式(6)为基于属性间相关性的特征子集的评估函数,当评估值Hs升高时,特征子集S中特征Wj与Wi相关性减小,且与类属性相关性增大,
Figure FDA0002358650850000026
Figure FDA0002358650850000027
采用CFS算法,在PCA中嵌入二次特征选择功能,然后基于启发式序列后向搜索策略,计算CFS的评估结果,经过排序后筛选出最优特征子集。
CN202010015277.7A 2020-01-07 2020-01-07 一种运维管控平台故障特征提取方法 Pending CN111242204A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010015277.7A CN111242204A (zh) 2020-01-07 2020-01-07 一种运维管控平台故障特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010015277.7A CN111242204A (zh) 2020-01-07 2020-01-07 一种运维管控平台故障特征提取方法

Publications (1)

Publication Number Publication Date
CN111242204A true CN111242204A (zh) 2020-06-05

Family

ID=70864621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010015277.7A Pending CN111242204A (zh) 2020-01-07 2020-01-07 一种运维管控平台故障特征提取方法

Country Status (1)

Country Link
CN (1) CN111242204A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085619A (zh) * 2020-08-10 2020-12-15 国网上海市电力公司 一种用于配电网数据优化的特征选择方法
CN112633383A (zh) * 2020-12-25 2021-04-09 百度在线网络技术(北京)有限公司 古玩鉴定方法及装置、电子设备、可读介质
CN113128002A (zh) * 2021-03-23 2021-07-16 常州匠心独具智能家居股份有限公司 用于大规模分布式***的高维时间序列建模方法和***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608004A (zh) * 2015-12-17 2016-05-25 云南大学 一种基于cs-ann的软件缺陷预测方法
CN105703954A (zh) * 2016-03-17 2016-06-22 福州大学 一种基于arima模型的网络数据流预测方法
CN108319987A (zh) * 2018-02-20 2018-07-24 东北电力大学 一种基于支持向量机的过滤-封装式组合流量特征选择方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608004A (zh) * 2015-12-17 2016-05-25 云南大学 一种基于cs-ann的软件缺陷预测方法
CN105703954A (zh) * 2016-03-17 2016-06-22 福州大学 一种基于arima模型的网络数据流预测方法
CN108319987A (zh) * 2018-02-20 2018-07-24 东北电力大学 一种基于支持向量机的过滤-封装式组合流量特征选择方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹杰: "基于SVM的网络流量特征降维与分类方法研究", 《中国博士学位论文全文数据库 信息科技辑》, no. 3, pages 139 - 1 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085619A (zh) * 2020-08-10 2020-12-15 国网上海市电力公司 一种用于配电网数据优化的特征选择方法
CN112633383A (zh) * 2020-12-25 2021-04-09 百度在线网络技术(北京)有限公司 古玩鉴定方法及装置、电子设备、可读介质
CN112633383B (zh) * 2020-12-25 2023-08-18 百度在线网络技术(北京)有限公司 古玩鉴定方法及装置、电子设备、可读介质
CN113128002A (zh) * 2021-03-23 2021-07-16 常州匠心独具智能家居股份有限公司 用于大规模分布式***的高维时间序列建模方法和***

Similar Documents

Publication Publication Date Title
CN111242204A (zh) 一种运维管控平台故障特征提取方法
US6466929B1 (en) System for discovering implicit relationships in data and a method of using the same
CN106959400B (zh) 一种基于异常点监测和大数据分析的二次设备隐患故障诊断方法
CN113177594B (zh) 基于贝叶斯优化的pca-极限随机树的空调故障诊断方法
CN115270965A (zh) 一种配电网线路故障预测方法和装置
CN108197647B (zh) 一种汽车起动机耐久测试数据的快速聚类方法
CN109389325B (zh) 基于小波神经网络的变电站电子式互感器状态评估方法
CN108334894B (zh) 基于无监督机器学习的变压器油温异常识别方法
CN112101420A (zh) 一种相异模型下Stacking集成算法的异常用电用户识别方法
CN110175682A (zh) 一种基于混沌粒子群的优化核主元分析故障监测方法
CN114091549A (zh) 一种基于深度残差网络的设备故障诊断方法
CN114037001A (zh) 基于wgan-gp-c和度量学习的机械泵小样本故障诊断方法
CN111695288B (zh) 一种基于Apriori-BP算法的变压器故障诊断方法
CN116244657A (zh) 基于生成对抗网络和集成学习的列车轴温异常识别方法
CN110427019B (zh) 一种基于多变量判别分析的工业过程故障分类方法及控制装置
CN113780432A (zh) 基于增强学习的网络信息***运维异常智能检测方法
CN110673577B (zh) 一种复杂化工生产过程的分布式监控与故障诊断方法
CN116433333B (zh) 基于机器学习的数字商品交易风险防控方法及装置
CN111639688A (zh) 一种基于线性核svm的物联网智能模型的局部解释方法
CN111275109A (zh) 基于自编码器的电力设备状态数据特征选优方法及***
Kim et al. Anomaly pattern detection in streaming data based on the transformation to multiple binary-valued data streams
CN113657726B (zh) 基于随机森林的人员的危险性分析方法
CN115017978A (zh) 一种基于加权概率神经网络的故障分类方法
CN116956089A (zh) 电器设备温度异常检测模型训练方法以及检测方法
CN114443338A (zh) 面向稀疏负样本的异常检测方法、模型构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination