CN107728476B - 一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法 - Google Patents

一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法 Download PDF

Info

Publication number
CN107728476B
CN107728476B CN201710849226.2A CN201710849226A CN107728476B CN 107728476 B CN107728476 B CN 107728476B CN 201710849226 A CN201710849226 A CN 201710849226A CN 107728476 B CN107728476 B CN 107728476B
Authority
CN
China
Prior art keywords
training
svm
fault
working condition
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710849226.2A
Other languages
English (en)
Other versions
CN107728476A (zh
Inventor
葛志强
陈革成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201710849226.2A priority Critical patent/CN107728476B/zh
Publication of CN107728476A publication Critical patent/CN107728476A/zh
Application granted granted Critical
Publication of CN107728476B publication Critical patent/CN107728476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于SVM‑forest的从非平衡类数据中提取敏感数据的方法,该方法先从有标签样本取出一部分作为测试样本,剩余作为训练样本,采用k‑means将正常工况类别分割为子类,并与故障工况类别数据混合,形成N个训练子集,并使用SVM‑tree的方法训练出SVM‑forest,并利用测试样本对对SVM‑forest进行测试,选择对故障工况错分率最高的L棵树,保留一部分对分类效果影响较大的数据,然后根据选择分类算法对测试集中的少数类和剩下的多数类训练出一个分类器T,并使用临时测试样本测试T的分类效果,直到效果达到要求。本发明的敏感数据提取方法通过多次迭代选取多数样本集中对分类效果影响较大的样本,以此降低不平衡度,使分类效果接近或者达到同等情况下的均衡分类效果。

Description

一种基于SVM-forest的从非平衡类数据中提取敏感数据的 方法
技术领域
本发明属于工业过程控制领域,尤其涉及一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法。
背景技术
在工业故障分类的工作中,一些常用的分类方法都会有一个使用前提,即在训练集中各类数据的数据量相当。但是现实的情况往往不是这样,当某一类数据很多,或者某一类数据很少,即不平衡类数据出现时,直接使用传统的分类方法则会产生很大的分类误差。
发明内容
针对现有技术的不足,本发明提出一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法,该方法主要针对采样层面对传统分类方法进行改进,通过多次迭代选取多数样本集中对分类效果影响较大的样本,以此降低不平衡度,使分类效果接近或者达到同等情况下的均衡分类效果。具体技术方案如下:
一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法,其特征在于,包括以下步骤:
步骤一:收集建模用的有标签样本,对其进行预处理和归一化,所述的有标签样本包括工业过程中正常工况的数据以及各种故障工况的数据,分为C个故障工况类别和1个正常工况类别,按类别取出10%~20%的样本作为临时测试样本集Q,剩余的80%~90%作为训练样本集,即Xl=[X1;X2;...;Xi;...;XC+1],其中,Xi表示每个类别的样本集
Figure BDA0001412861000000011
其中
Figure BDA0001412861000000012
ni为训练样本数,m为过程变量数,R为实数集;记录所述的有标签训练样本集Xl=[X1;X2;...;XC+1]的所有数据的标签信息,标记正常工况标签为1,故障工况标签依次为2,...,C+1,则每个类别的标签信息为Yi=[i,i,...i],i=1,2,...,C+1,完整的标签集为Yl=[Y1;Y2;...;YC+1];其中,正常工况类别n1的数据多于故障工况类别的数据,每个故障工况类别的数据量相等,各个工况数据量的差别用不平衡度为u表征,即
Figure BDA0001412861000000013
步骤二:使用k-means聚类方法,将正常工况类别X1分为N个子集,X1=[X11;X12;...;X1N],将这N个子集分别与故障工况类别数据组成N个训练子集,其中,N的取值为考虑不平衡度和计算复杂度的经验值;
步骤三:对步骤二中的N个训练子集分别使用SVM-tree方法,得到包含N棵SVM-tree的SVM-forest;
步骤四:使用临时测试样本集Q对步骤三中的每棵SVM-tree进行测试,计算出每棵SVM-tree对于所有故障工况类别的错分率;
步骤五:对每种故障工况类别的所有的SVM-tree的错分率进行排序,并按照故障类别分别选取前
Figure BDA0001412861000000021
棵树,
Figure BDA0001412861000000022
取整,若取出的树有重复,则按照错分率顺延再往后取树,直到得到L棵不同的树,并保留这些树所对应的正常工况类别的训练样本,形成一个新的正常工况类别训练样本集
Figure BDA0001412861000000023
步骤六:选取一个分类算法对新形成的训练样本集
Figure BDA0001412861000000024
进行训练,得到一个分类器,并用临时测试集Q对得到的分类器进行测试,得到正确率P;
步骤七:当P达到要求时停止计算,如果P还未达到要求,则重复步骤二至六,直到P达到要求,则此时的训练样本集为所需要的敏感数据集。
进一步地,所述步骤二具体为:
(1)随机选取N个样本值作为初始均值向量
Figure BDA0001412861000000025
Figure BDA0001412861000000026
令每个向量xNa=[qa1,...,qam],其中a=1,2,...,N;
(2)分别按下式计算每个样本与N个均值向量的欧式距离,第j个样本与第a个均值向量之间的欧氏距离为
Figure BDA0001412861000000027
其中j=1,2,...,n1;将dja最小的样本xj的簇标记记为a;
(3)重新计算每个簇的均值向量,并对这N个均值向量重复步骤(1)和(2);直到均值向量不再变化,得出N个簇,即N个子类X1=[X11;X12;...;X1N];再将其分别与故障工况类[X2;...;XC+1]构成N个训练子集ra,ra=[X1a;X2;...;XC+1],其中a=1,2,...,N。
进一步地,所述步骤三具体为:
(1)对于训练子集r1=[X11;X2;...;XC+1],通过计算每个工况类别每个维度的平均值获得每个工况类别的中心点,得到与类别对应的中心点集为O=[o1,o2,...,oC+1];
(2)将训练样本集进行拆分:使用k-means聚类方法,将中心点集O分为2个子集O1,O2,则,分别属于O1,O2包含的中心点所对应的类别的训练样本子集为D1,D2
(3)构建树的根节点:使用SVM在D1,D2之间构建超平面,则树的两个分支为D1,D2
(4)分别对D1,D2对应的节点重复(2)和(3)的操作,再对D1,D2分别得到的分支对应的节点重复(2)和(3)的操作,以此类推,直到每一个叶节点都只包含一个类别停止,完成SVM-tree的构建;
对其他的训练子集ra,重复(1)~(4),构建出包含N棵树的SVM-forest。
进一步地,所述步骤四具体为:
将临时测试样本集Q中的每一个测试样本分别带入(4)中构建的每一棵SVM-tree中,得到该测试样本的标签,并计算每棵树对于各个故障工况类别的错分率。
进一步地,所述的步骤五具体为:
(1)将步骤四中得到的各个故障工况类别的错分率按从大到小分别排序;
(2)按照故障工况类别分别选取前
Figure BDA0001412861000000031
棵树,
Figure BDA0001412861000000032
取整,若取出的树有重复,则按照错分率顺延再往后取树,直到得到L棵不同的树;
(3)将L棵不同的树对应的正常工况类别的训练样本子集重新构成一个正常工况类别训练样本集
Figure BDA0001412861000000033
并与故障工况类别训练样本集重新构成一个新的训练样本集
Figure BDA0001412861000000034
进一步地,所述的步骤六具体为:选取一个分类算法,用
Figure BDA0001412861000000035
训练出一个分类器,并使用临时测试样本集Q测试该分类器的分类效果,如果达到要求,则停止计算,如果还未达到要求,则重复上述算法,直到P接近或者达到要求。
进一步地,所述的步骤二中N取10~20,步骤五中L取值为
Figure BDA0001412861000000036
取整。
进一步地,所述的步骤六中的分类算法为SVM-tree。
与现有技术相比,本发明的有益效果如下:
本发明提出的基于SVM-forest的从非平衡类数据中提取敏感数据的方法主要针对采样层面对传统分类方法进行改进,通过多次迭代选取多数样本集中对分类效果影响较大的样本,以此降低不平衡度,使分类效果接近或者达到同等情况下的均衡分类效果。
附图说明
图1为SVM-tree处理均衡类数据的结果示意图;
图2为SVM-tree处理非均衡数据的结果示意图;
图3为经过数据选取之后的SVM-tree处理非均衡数据的结果示意图。
具体实施方式
下面结合具体的实施例对本发明的基于SVM-forest的从非平衡类数据中提取敏感数据的方法作进一步阐述。
一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法,其特征在于,包括以下步骤:
步骤一:收集建模用的有标签样本,对其进行预处理和归一化,所述的有标签样本包括工业过程中正常工况的数据以及各种故障工况的数据,分为C个故障工况类别和1个正常工况类别,按类别取出10%~20%的样本作为临时测试样本集Q,剩余的80%~90%作为训练样本集,即Xl=[X1;X2;...;Xi;...;XC+1],其中,Xi表示每个类别的样本集
Figure BDA0001412861000000041
其中
Figure BDA0001412861000000042
ni为训练样本数,m为过程变量数,R为实数集;记录所述的有标签训练样本集Xl=[X1;X2;...;XC+1]的所有数据的标签信息,标记正常工况标签为1,故障工况标签依次为2,...,C+1,则每个类别的标签信息为Yi=[i,i,...i],i=1,2,...,C+1,完整的标签集为Yl=[Y1;Y2;...;YC+1];其中,正常工况类别n1的数据多于故障工况类别的数据,每个故障工况类别的数据量相等,各个工况数据量的差别用不平衡度为u表征,即
Figure BDA0001412861000000043
步骤二:使用k-means聚类方法,将正常工况类别X1分为N个子集,N取10~20,X1=[X11;X12;...;X1N],将这N个子集分别与故障工况类别数据组成N个训练子集,其中,N的取值为考虑不平衡度和计算复杂度的经验值;
(1)随机选取N个样本值作为初始均值向量
Figure BDA0001412861000000044
Figure BDA0001412861000000045
令每个向量xNa=[qa1,...,qam],其中a=1,2,...,N;
(2)分别按下式计算每个样本与N个均值向量的欧式距离,第j个样本与第a个均值向量之间的欧氏距离为
Figure BDA0001412861000000046
其中j=1,2,...,n1;将dja最小的样本xj的簇标记记为a;
(3)重新计算每个簇的均值向量,并对这N个均值向量重复步骤(1)和(2);直到均值向量不再变化,得出N个簇,即N个子类X1=[X11;X12;...;X1N];再将其分别与故障工况类[X2;...;XC+1]构成N个训练子集ra,ra=[X1a;X2;...;XC+1],其中a=1,2,...,N。
步骤三:对步骤二中的N个训练子集分别使用SVM-tree方法,得到包含N棵SVM-tree的SVM-forest;
(1)对于训练子集r1=[X11;X2;...;XC+1],通过计算每个工况类别每个维度的平均值获得每个工况类别的中心点,得到与类别对应的中心点集为O=[o1,o2,...,oC+1];
(2)将训练样本集进行拆分:使用k-means聚类方法,将中心点集O分为2个子集O1,O2,则,分别属于O1,O2包含的中心点所对应的类别的训练样本子集为D1,D2
(3)构建树的根节点:使用SVM在D1,D2之间构建超平面,则树的两个分支为D1,D2
(4)分别对D1,D2对应的节点重复(2)和(3)的操作,再对D1,D2分别得到的分支对应的节点重复(2)和(3)的操作,以此类推,直到每一个叶节点都只包含一个类别停止,完成SVM-tree的构建;
对其他的训练子集ra,重复(1)~(4),构建出包含N棵树的SVM-forest。
步骤四:使用临时测试样本集Q对步骤三中的每棵SVM-tree进行测试,计算出每棵SVM-tree对于所有故障工况类别的错分率;
将临时测试样本集Q中的每一个测试样本分别带入(4)中构建的每一棵SVM-tree中,得到该测试样本的标签,并计算每棵树对于各个故障工况类别的错分率。
步骤五:对每种故障工况类别的所有的SVM-tree的错分率进行排序,并按照故障类别分别选取前
Figure BDA0001412861000000051
棵树,
Figure BDA0001412861000000052
取整,L取值为
Figure BDA0001412861000000053
取整;若取出的树有重复,则按照错分率顺延再往后取树,直到得到L棵不同的树,并保留这些树所对应的正常工况类别的训练样本,形成一个新的正常工况类别训练样本集
Figure BDA0001412861000000054
(1)将步骤四中得到的各个故障工况类别的错分率按从大到小分别排序;
(2)按照故障工况类别分别选取前
Figure BDA0001412861000000055
棵树,
Figure BDA0001412861000000056
取整,若取出的树有重复,则按照错分率顺延再往后取树,直到得到L棵不同的树;
(3)将L棵不同的树对应的正常工况类别的训练样本子集重新构成一个正常工况类别训练样本集
Figure BDA0001412861000000061
并与故障工况类别训练样本集重新构成一个新的训练样本集
Figure BDA0001412861000000062
步骤六:选取SVM-tree分类算法对新形成的训练样本集
Figure BDA0001412861000000063
进行训练,得到一个分类器,并用临时测试集Q对得到的分类器进行测试,得到正确率P;
选取一个分类算法,用
Figure BDA0001412861000000064
训练出一个分类器,并使用临时测试样本集Q测试该分类器的分类效果,如果达到要求,则停止计算,如果还未达到要求,则重复上述算法,直到P接近或者达到要求。
步骤七:当P达到要求时停止计算,如果P还未达到要求,则重复步骤二至六,直到P达到要求,则此时的训练样本集为所需要的敏感数据集。
以下结合一个具体的工业过程的例子来说明本发明的有效性。该过程的数据来自美国TE(Tennessee Eastman——田纳西-伊斯曼)化工过程实验,原型是Eastman化学公司的一个实际工艺流程。目前,TE过程己经作为典型的化工过程故障检测与诊断对象被广泛研究。整个TE过程包括41个测量变量和12个操作变量(控制变量),其中41个测量变量包括22个连续测量变量和19个成分测量值,它们每3分钟被采样一次。其中包括21批故障数据。这些故障中,16个是己知的,5个是未知的。故障1~7与过程变量的阶跃变化有关,如冷却水的入口温度或者进料成分的变化。故障8~12与一些过程变量的可变性增大有关系。故障13是反应动力学中的缓慢漂移,故障14、15和21是与粘滞阀有关的。故障16~20是未知的。为了对该过程进行监测,一共选取了44个过程变量,如表1所示。本实施例中采用前22个过程变量。
表1:监控变量说明
Figure BDA0001412861000000065
Figure BDA0001412861000000071
1.采集正常数据以及2种故障数据作为训练样本数据,进行数据预处理和归一化。本实验中分别选择了正常工况以及故障7、8作为训练样本。采样时间为3min,不平衡类测试样本为正常工况含有标签样本15000个样本,其余故障分类分别选择有标签样本30个,平衡类测试样本为正常工况含有标签样本30个样本,其余故障分类分别选择有标签样本30个;
2.针对均衡类训练集,则直接使用SVM-tree方法训练出分类器,并得到其分类效果,如图1所示;
3.针对非均衡类训练集,先直接使用SVM-tree方法训练出分类器,并得到其分类效果,如图2所示;
4.针对非均衡类训练集,再取出5000个正常工况样本,10个故障7样本,10个故障8样本作为临时测试样本集Q,剩余的训练集以下称为训练集Xl=[X1;X2;...;XC+1];
5.使用k-means聚类方法,将X1分为10个子集,即X1=[X11;X12;...;X110],将这10个子类分别与少数类组成10个训练子集;
6.对5中的10个训练子集分别使用SVM-tree方法,则可以得到一个包含10棵SVM-tree的SVM-forest;
7.使用临时测试样本集Q对6中每一棵树进行测试,并计算出每棵树对于故障7,8的错分率;
8.在故障7,8的错分率中分别选取前3棵树,如果相互之间有重复的树则顺延往后取,最后总共取出6棵不同的树。并保留这些树所对应的多数类测试样本,其他的多数类测试样本则除去,此时形成了一个新的多数类测试样本集
Figure BDA0001412861000000081
9.使用SVM-tree对新形成的测试样本集
Figure BDA0001412861000000082
进行训练,并用临时测试样本集Q对得到的分类器进行测试,得到正确率P,若P接近均衡类训练集的分类效果,则停止计算,如果P还与其距离较远,则重复上述算法。对于最终的测试集,编号1~100为正常类,101~180为故障7的样本,181~310为故障8的样本,如图3所示。
对比图3和图1,可以看出,本发明的敏感数据提取方法能够最大程度地降低不平衡度对于分类性能的影响,使其分类效果接近于均衡类训练集的分类效果。

Claims (1)

1.一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法,其特征在于,包括以下步骤:
步骤一:收集建模用的有标签样本,对其进行预处理和归一化,所述的有标签样本包括工业过程中正常工况的数据以及各种故障工况的数据,分为C个故障工况类别和1个正常工况类别,按类别取出10%~20%的样本作为临时测试样本集Q,剩余的80%~90%作为训练样本集,即X l =[X1;X2;...;Xi;...;XC+1],其中,Xi表示每个类别的样本集X i =[x1;x2;...;xni],i=1,2...C+1,其中X i ∈Rm×ni,ni为训练样本数,m为过程变量数,R为实数集;记录所述的有标签训练样本集Xl=[X1;X2;...;XC+1]的所有数据的标签信息,标记正常工况标签为1,故障工况标签依次为2,...,C+1,则每个类别的标签信息为
Y i =[i,i,...i],i=1,2,...,C+1,完整的标签集为Y l =[Y1;Y2;...;YC+1];其中,正常工况类别n1的数据多于故障工况类别的数据,每个故障工况类别的数据量相等,各个工况数据量的差别用不平衡度为u表征,即
Figure FDA0002403997040000011
步骤二:使用k-means聚类方法,将正常工况类别X1分为N个子集,N取10~20,X1=[X11;X12;...;X1N],将这N个子集分别与故障工况类别数据组成N个训练子集,其中,N的取值为考虑不平衡度和计算复杂度的经验值;
(1)随机选取N个样本值作为初始均值向量
Figure FDA0002403997040000012
Figure FDA0002403997040000013
令每个向量xNa=[qa1,...,qam],其中a=1,2,...,N;
(2)分别按下式计算每个样本与N个均值向量的欧式距离,第j个样本与第a个均值向量之间的欧氏距离为
Figure FDA0002403997040000014
其中j=1,2,...,n1;将dja最小的样本xj的簇标记记为a;
(3)重新计算每个簇的均值向量,并对这N个均值向量重复步骤(1)和(2);直到均值向量不再变化,得出N个簇,即N个子类X1=[X11;X12;...;X1N];再将其分别与故障工况类[X2;...;XC+1]构成N个训练子集ra,ra=[X1a;X2;...;XC+1],其中a=1,2,...,N;
步骤三:对步骤二中的N个训练子集分别使用SVM-tree方法,得到包含N棵SVM-tree的SVM-forest;
(1)对于训练子集r1=[X11;X2;...;XC+1],通过计算每个工况类别每个维度的平均值获得每个工况类别的中心点,得到与类别对应的中心点集为O=[o1,o2,...,oC+1];
(2)将训练样本集进行拆分:使用k-means聚类方法,将中心点集O分为2个子集O1,O2,则,分别属于O1,O2包含的中心点所对应的类别的训练样本子集为D1,D2
(3)构建树的根节点:使用SVM在D1,D2之间构建超平面,则树的两个分支为D1,D2
(4)分别对D1,D2对应的节点重复(2)和(3)的操作,再对D1,D2分别得到的分支对应的节点重复(2)和(3)的操作,以此类推,直到每一个叶节点都只包含一个类别停止,完成SVM-tree的构建;
对其他的训练子集ra,重复(1)~(4),构建出包含N棵树的SVM-forest;
步骤四:使用临时测试样本集Q对步骤三中的每棵SVM-tree进行测试,计算出每棵SVM-tree对于所有故障工况类别的错分率;
将临时测试样本集Q中的每一个测试样本分别带入(4)中构建的每一棵SVM-tree中,得到该测试样本的标签,并计算每棵树对于各个故障工况类别的错分率;
步骤五:对每种故障工况类别的所有的SVM-tree的错分率进行排序,并按照故障类别分别选取前
Figure FDA0002403997040000021
棵树,
Figure FDA0002403997040000022
取整,L取值为
Figure FDA0002403997040000023
取整;若取出的树有重复,则按照错分率顺延再往后取树,直到得到L棵不同的树,并保留这些树所对应的正常工况类别的训练样本,形成一个新的正常工况类别训练样本集
Figure FDA0002403997040000029
(1)将步骤四中得到的各个故障工况类别的错分率按从大到小分别排序;
(2)按照故障工况类别分别选取前
Figure FDA0002403997040000024
棵树,
Figure FDA0002403997040000025
取整,若取出的树有重复,则按照错分率顺延再往后取树,直到得到L棵不同的树;
(3)将L棵不同的树对应的正常工况类别的训练样本子集重新构成一个正常工况类别训练样本集
Figure FDA0002403997040000026
并与故障工况类别训练样本集重新构成一个新的训练样本集
Figure FDA0002403997040000027
步骤六:选取SVM-tree分类算法对新形成的训练样本集
Figure FDA0002403997040000028
进行训练,得到一个分类器,并用临时测试集Q对得到的分类器进行测试,得到正确率P;
选取一个分类算法,用
Figure FDA0002403997040000031
训练出一个分类器,并使用临时测试样本集Q测试该分类器的分类效果,如果达到要求,则停止计算,如果还未达到要求,则重复上述算法,直到P接近或者达到要求;
步骤七:当P达到要求时停止计算,如果P还未达到要求,则重复步骤二至六,直到P达到要求,则此时的训练样本集为所需要的敏感数据集。
CN201710849226.2A 2017-09-20 2017-09-20 一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法 Active CN107728476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710849226.2A CN107728476B (zh) 2017-09-20 2017-09-20 一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710849226.2A CN107728476B (zh) 2017-09-20 2017-09-20 一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法

Publications (2)

Publication Number Publication Date
CN107728476A CN107728476A (zh) 2018-02-23
CN107728476B true CN107728476B (zh) 2020-05-22

Family

ID=61207572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710849226.2A Active CN107728476B (zh) 2017-09-20 2017-09-20 一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法

Country Status (1)

Country Link
CN (1) CN107728476B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460872B (zh) * 2018-11-14 2021-11-16 重庆邮电大学 一种面向移动通信用户流失不平衡数据预测方法
US10922906B2 (en) * 2019-03-28 2021-02-16 GM Global Technology Operations LLC Monitoring and diagnosing vehicle system problems using machine learning classifiers
CN110660479A (zh) * 2019-09-18 2020-01-07 苏州晗林信息技术发展有限公司 一种动态医学影像ai训练诊断***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521656A (zh) * 2011-12-29 2012-06-27 北京工商大学 非平衡样本分类的集成迁移学习方法
JP5159368B2 (ja) * 2008-02-29 2013-03-06 インターナショナル・ビジネス・マシーンズ・コーポレーション 変化分析システム、方法及びプログラム
CN104102718A (zh) * 2014-07-17 2014-10-15 哈尔滨理工大学 面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法
CN104951809A (zh) * 2015-07-14 2015-09-30 西安电子科技大学 基于不平衡分类指标与集成学***衡数据分类方法
CN105354583A (zh) * 2015-08-24 2016-02-24 西安电子科技大学 基于局部均值的不平衡数据分类方法
CN105844300A (zh) * 2016-03-24 2016-08-10 河南师范大学 一种基于随机森林算法的优化分类方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5159368B2 (ja) * 2008-02-29 2013-03-06 インターナショナル・ビジネス・マシーンズ・コーポレーション 変化分析システム、方法及びプログラム
CN102521656A (zh) * 2011-12-29 2012-06-27 北京工商大学 非平衡样本分类的集成迁移学习方法
CN104102718A (zh) * 2014-07-17 2014-10-15 哈尔滨理工大学 面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法
CN104951809A (zh) * 2015-07-14 2015-09-30 西安电子科技大学 基于不平衡分类指标与集成学***衡数据分类方法
CN105354583A (zh) * 2015-08-24 2016-02-24 西安电子科技大学 基于局部均值的不平衡数据分类方法
CN105844300A (zh) * 2016-03-24 2016-08-10 河南师范大学 一种基于随机森林算法的优化分类方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Application of distributed SVM architectures in classifying;Mira Trebar等;《Application of distributed SVM architectures in classifying》;Elsevier;20081031;第63卷(第2期);第119-130页 *
Evolutionary Undersampling for Imbalanced Big Data Classification;Triguero等;《2015 IEEE Congress on Evolutionary Computation (CEC)》;IEEE;20150914;第715-722页 *
一种新的基于二叉树的SVM多类分类方法;孟媛媛等;《计算机应用》;中国科学院成都计算机应用研究所;20051130;第25卷(第11期);第2653-2654、2657页 *
基于随机森林的不平衡数据分类方法研究;肖坚;《中国优秀硕士学位论文全文数据库 信息科技辑》;中国学术期刊(光盘版)电子杂志社;20150215(第2期);第1-53页 *

Also Published As

Publication number Publication date
CN107728476A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN110596492B (zh) 一种基于粒子群算法优化随机森林模型的变压器故障诊断方法
CN104699606B (zh) 一种基于隐马尔科夫模型的软件***状态预测方法
CN103914064B (zh) 基于多分类器和d-s证据融合的工业过程故障诊断方法
CN110659207B (zh) 基于核谱映射迁移集成的异构跨项目软件缺陷预测方法
CN104462184B (zh) 一种基于双向抽样组合的大规模数据异常识别方法
CN110609524B (zh) 一种工业设备剩余寿命预测模型及其构建方法和应用
CN107728476B (zh) 一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法
CN106843195B (zh) 基于自适应集成半监督费舍尔判别的故障分类方法
CN102521656A (zh) 非平衡样本分类的集成迁移学习方法
CN107247873B (zh) 一种差异甲基化位点识别方法
CN107657274A (zh) 一种基于k‑means的二叉SVM‑tree不平衡数据工业故障分类方法
Rasheed et al. Metagenomic taxonomic classification using extreme learning machines
CN107239789A (zh) 一种基于k‑means的不平衡数据工业故障分类方法
CN115021679A (zh) 一种基于多维离群点检测的光伏设备故障检测方法
Oliinyk et al. The decision tree construction based on a stochastic search for the neuro-fuzzy network synthesis
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
CN108375965A (zh) 一种基于多变量块交叉相关性剔除的非高斯过程监测方法
CN107103125A (zh) 一种基于两分类Fisher判别分析的故障诊断方法
CN111343147A (zh) 一种基于深度学习的网络攻击检测装置及方法
Morales et al. LAMDA-HAD, an Extension to the LAMDA Classifier in the Context of Supervised Learning
CN108803555B (zh) 一种基于性能监测数据的亚健康在线识别和诊断方法
CN110544047A (zh) 一种不良数据辨识方法
CN111240279B (zh) 一种面向工业不平衡数据的对抗增强故障分类方法
CN104468276B (zh) 基于随机抽样多分类器的网络流量识别方法
CN114330486A (zh) 基于改进Wasserstein GAN的电力***不良数据辨识方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant