CN108319987A - 一种基于支持向量机的过滤-封装式组合流量特征选择方法 - Google Patents
一种基于支持向量机的过滤-封装式组合流量特征选择方法 Download PDFInfo
- Publication number
- CN108319987A CN108319987A CN201810152887.4A CN201810152887A CN108319987A CN 108319987 A CN108319987 A CN 108319987A CN 201810152887 A CN201810152887 A CN 201810152887A CN 108319987 A CN108319987 A CN 108319987A
- Authority
- CN
- China
- Prior art keywords
- feature
- subset
- value
- classification
- information gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
一种基于支持向量机的过滤‑封装式组合流量特征选择方法,其特点是,包括:初次过滤式特征选择法和嵌入改进序列前向搜索策略的二次封装式特征选择法。初次过滤式特征选择法是考察某个特征量对于网络流量分类的贡献,并根据原始特征集中每个特征的权重,将小于设定阈值δ的特征删除,这一过程可以显著降低后续特征子集筛选的计算复杂度;嵌入改进序列前向搜索策略的二次封装式特征选择法基于支持向量机分类器,嵌入改进序列前向搜索策略进行二次特征选择,选择具有强区分能力的组合流量特征子集,克服组合特征被误删,以及特征评价结果与最终分类算法存在偏差的问题,从而显著提高网络流量分类精度。该方法科学合理,可适用于各种流量分类网络。
Description
技术领域
本发明属于计算机网络流量分类技术领域,涉及一种基于支持向量机的过滤-封装式组合流量特征选择方法。
背景技术
网络流量分类数据往往包含较多的特征,这些含较多特征的高维数据会导致训练过程中时间和空间复杂度增高,甚至产生“维数灾难”,使现有算法完全失效。另外,高维数据中大量冗余和不相关特征(噪声)会导致分类模型性能的急剧下降。特征选择可以从原始高维特征中去除对分类结果贡献不大、不相关的特征。通过特征选择可以避免“维数灾难”,降低算法训练过程中的时间和空间复杂度,减少高维数据带来的“过拟合”问题,提高机器学习算法的泛化能力。特征选择是指选择最能代表原始数据分布特性的最优特征子集。其评价标准为是否依赖后续的机器学习算法。根据这个评价标准,特征选择方法主要包括过滤式和封装式两种。
过滤式特征选择:依据数据的信息及统计特征选择最优特征子集。独立于机器学习算法,在学习算法之前进行特征选择。目前主流的过滤特征选择算法有,基于距离准则的Relief算法,基于相关度准则的信息增益算法(Information Gain,IG)、关联算法(Correlation-based Feature Selection,CFS)等。过滤式特征选择直接利用数据的信息及统计特征来评估特征,因此,其计算代价小、特征选择速度较快,适合处理高维数据,但也存在一定的局限性:1)无法完全去除冗余特征。当某个冗余特征与目标类高度相关时,该特征不会被剔除。2)组合特征选择能力较差。某些特征组合出现时会具备很强的区分能力,这些特征之间存在一定的相关性,过滤式特征选择往往只会选择一个或者其中某几个特征,而把其它组合在一起具备强区分能力的特征当成冗余筛选掉。3)由于直接依据数据的信息及统计特征选择最优特征子集,独立于学习算法,分类效果往往不十分理想。
封装式特征选择:依据特征子集的分类性能作为其评价标准,选择最优特征子集。依赖于机器学习算法,将分类器看作“黑盒”不考虑分类器内部结构。由于其利用分类器验证特征子集,将学习算法用来评价得到的特征子集,因此可以得到相对较高的分类精度。但其计算复杂度较高,如果有n个特征可生成最多2n个特征子集,采用穷尽搜索,在每个子集上比较数据集的分类性能,当特征数n较大时,穷尽2n个特征子集是非常困难的。因此,封装式特征选择需要结合较优的搜索策略,才能得到相应的最优特征子集。
发明内容
本发明的目的是,克服现有单纯使用过滤式或者封装式特征选择方法的不足,引入改进的搜索策略,提供一种科学合理,适用性强,能够较好的去除冗余特征,且组合特征选择能力较强,同时取得较好分类精度的基于支持向量机的过滤-封装式组合流量特征选择方法。
本发明的目的是由以下技术方案来实现的:一种基于支持向量机的过滤-封装式组合流量特征选择方法,其特征是,它包括的内容有:
1.初次过滤式特征选择法
将原始数据集进行预处理生成数据集S0,进行初次过滤式特征选择,采用基于熵的一种评估法,即为信息增益(Information Gain,IG)算法对分类有贡献的每一个特征的信息增益进行性能评估,变量具有的信息量越多,熵值越大,若类特征变量S(s1,s2,...sn)对应出现的概率为P(p1,p2,...pn),则S的熵为公式(1),属性特征W的信息增益是具有特征W和不具有特征W的信息量差,信息增益为公式(2),P(Si)为类S出现的概率,P(Si|w)为属性特征w同时属于类别Si的条件概率,为不出现属性特征w同时属于类别Si的条件概率,信息增益IG(W)值越大,说明特征W对分类的贡献越大,将特征属性与类相关的信息增益进行排序,信息增益值越高的特征属性,代表其对分类的贡献越大,
根据公式(2)每一个流量特征的信息增益值,引入启发式单独最优特征选择搜索策略对特征信息增益值进行排序,将阈值δ<0的特征筛除,构成目标特征子集F1;
引入的启发式单独最优特征选择搜索策略为:输入原始特征集F0,同时对目标特征子集F1进行初始化,根据公式(2)计算每个特征wi的信息增益(IG)值,对每个特征wi在特征集合F0中进行搜索并根据特征的信息增益(IG)值进行排序,当信息增益(IG)值小于或等于设定阈值δ时,则删除该特征wi,进行下一个特征的搜索,当信息增益(IG)值大于设定阈值δ时,将搜索到的特征wi选入目标特征子集F1,循环搜索过程,直到搜索到特征集F0中最后一个特征wm,搜索过程结束,输出初次特征选择后的目标特征子集F1;
2.二次封装式特征选择法
在经过初次过滤式特征选择后的目标特征子集F1及数据集S1上,进行封装式二次特征选择,基于支持向量机(SVM)学习算法,引入改进的启发式序列前向搜索策略,再次选择出具有高分类准确率的最优特征子集F2,最终将过滤-封装式组合特征选择模型选出的最优特征子集F2构成的数据集S2分成训练集与测试集,基于支持向量机(SVM)分类器训练,在测试集上得到网络流量分类结果,
其中,基于支持向量机(SVM)多分类器构造法采用构造n类二分类器,每类分类器基于二值分类规则,识别两个类别,最后将判别结果组合实现多类分类,具体步骤:①构造n个二分类规则,设二分类规则fk(x),k=1,···,n,其中,f(x)=ω·x+b,且ω·x+b=0为SVM的分类方程,将第k类的训练样本与其它类别样本分离,若xi为第k类样本,则sgn[fk(xi)]=1,否则sgn[fk(xi)]=-1,②确定fk(x),k=1,···,n中最大值所属于的类别,m=argmax{f1(xi),···,fn(xi)};由步骤①和②就能构造多类分类器并可对n类数据样本进行分类,已知训练样本集其中上标n表示向量为第n类,则需要分类面满足不等式(3),分类平面为公式(4),其中,αi为拉格朗日乘子,
基于公式(4),支持向量机(SVM)的多分类器构造采用一对一组合(one againstone)法构造个分类器解决多分类问题,假设每个分类器的训练数据分别来自第i层和第j层,如公式(5),其中,C为惩罚因子,ξ为引入的松弛变量,φ(x)为将原始低维空间样本映射到高维特征空间中的非线性映射,
当个分类器构造完成后,在后期的分类器训练中采用投票方式,如果sgn[(ωij)Tφ(x)+bij]代表x样本数据属于第i层,则投票将第i层数据加一,否则第j层数据加一,投票结束后,x样本数据属于的那一层投票结果值最大;
二次封装式特征选择法引入改进的启发式序列前向选择搜索策略是从空集出发,每次将能使候选子集的分类器准确率最高的一个或若干个特征增加到当前候选特征子集F2'中,直到特征数超出特征总个数时结束,即从初始特征空间,即空集开始,每次从过滤式特征选择后的目标特征子集F1中挑选m个特征增加到当前候选特征子集F2'中,经过若干次循环筛选,生成新的最优特征子集F2,直到满足约束条件为止,使得当搜索最大直径为N时,计算复杂度为O(N),减少了搜索的计算代价,得到最优特征子集。
本发明的一种基于支持向量机的过滤-封装式组合特征选择方法,由于采用初次过滤式特征选择法,能够考察某个特征量对于网络流量分类的贡献,并根据原始特征集中每个特征的权重,将小于设定阈值δ的特征删除,可以显著降低后续特征子集筛选的计算复杂度;又由于在生成的新特征子集上,采用封装式特征选择方法基于支持向量机分类器,引入改进序列前向搜索策略进行二次特征选择,选择具有强区分能力的组合特征子集,克服组合特征被误删,以及特征评价结果与最终分类算法存在偏差的问题,从而显著提高网络流量分类精度。该方法科学合理,适用性强,可广泛适用于各种流量分类网络。
附图说明
图1为一种基于支持向量机的过滤-封装式组合流量特征选择方法功能示意图;
图2为一种基于支持向量机的过滤-封装式组合流量特征选择方法算法框架图;
图3为初次过滤式特征选择方法中引入的单独最优选择搜索策略流程图。
具体实施方式
下面利用附图和具体实施方式对本发明作进一步说明。
本发明的一种基于支持向量机的过滤-封装式组合流量特征选择方法分为初次过滤式特征选择和二次封装式特征选择过程。
1.方法的功能框架
参照图1,采用初次过滤式特征选择法,根据原始特征集中每个特征的权重,将小于设定阈值δ的特征删除。在生成的新特征子集上采用封装方式,基于支持向量机分类器并引入相应搜索策略进行二次特征筛选,选择具有强区分能力的组合流量特征子集。此方法流量特征选择过程:1)将预处理后数据集S0先进行过滤式特征选择。采用信息增益(Information Gain,IG)算法,根据对分类有贡献的每一个特征的信息增益进行性能评估,引入启发式单独最优特征选择搜索策略对特征属性增益(IG)值进行排序。最终,将权重小于设定阈值δ的特征从原始数据集中删除,得到目标特征子集F1;2)在经过初次滤式特征选择后的目标特征子集F1及数据集S1上,进行封装式二次特征选择。基于支持向量机(SVM)学习算法,引入改进的启发式序列前向搜索策略,再次进行特征选择,选择出具有高分类精度的最优特征子集F2;3)将过滤-封装式组合流量特征选择模型选出的最优特征子集F2构成的数据集S2分成训练集与测试集,基于支持向量机(SVM)分类器训练,在测试集上得到网络流量分类结果。
2.方法的算法框架
根据流量组合特征选择方法功能框架,该方法的算法框架如图2所示,从图中可以看出通过组合特征选择方法能够对输入特征集进行选择、降维,同时提高了分类性能。图2中,F0(f1,f2,...,fi...,fn)表示经过规范化的原始特征集,Sfilter=search(F0)代表初次过滤式特征选择阶段,引入启发式单独最优特征组合搜索策略在特征空间F0上搜索初次过滤式特征选择后的目标特征子集F1,EIG=evalute(Sfilter,F0)表示通过信息增益评价策略对目标特征子集F1进行评估,如果evalute>evalutebest,更新评估值EIG以及过滤式特征选择阶段的目标特征子集F1,否则不更新。循环此过程,直到满足阈值δ的停止条件,结束过滤式特征选择过程,输出此阶段特征选择的目标特征子集F1(f1,f2,...,fi...,fn),n*<n。Swrapper=search(F1)表示二次封装式特征选择阶段引入改进的启发式序列前向搜索策略在目标特征子集F1构成的特征空间中搜索最优特征子集F2。Esvm_test=evalute(Swrapper,F2)表示通过支持向量机分类算法建立训练模型后,对最优特征子集F2进行测试,如果在测试集上Testaccuracy>Testbest,更新评估值Esvm_test以及二次封装式特征选择阶段的最优特征子集F2,否则不更新。循环此过程,直到满足阈值δ的停止条件,结束封装式特征选择过程,输出此阶段特征选择的最优特征子集F2(f1,f2,...,fi...,fm),m为特征维数。
3.方法的评价策略
基于支持向量机的过滤-封装式组合流量特征选择方法中,封装式二次特征选择阶段直接采用支持向量机(SVM)学习算法作为评价策略,即基于支持向量机的分类性能对特征子集进行评估。而初次过滤式特征选择阶段则采用独立于学习算法的信息增益(Information Gain,IG)算法作为评价策略。信息增益是基于熵的一种评估法,根据对分类有贡献的每一个特征的信息增益进行性能评估。变量具有的信息量越多,熵值越大。属性特征W的信息增益是具有特征W和不具有特征W的信息量差。信息增益值越大,说明特征W对分类的贡献越大。将特征属性与类相关的信息增益进行排序,增益值越高的特征属性,如公式(2),代表其对分类的贡献越大。根据公式(2)每一个流量特征的信息增益值,引入启发式单独最优特征选择搜索策略对特征增益值进行排序,将阈值δ<0的特征筛除,即构成新的目标特征子集F1。
4.方法的搜索策略
初次过滤式特征选择阶段引入启发式单独最优特征组合搜索策略。其特征选择流程如图3所示。输入为原始特征集F0,同时对目标特征子集F1进行初始化。根据公式(2)计算每个特征wi的信息增益(IG)值,对每个特征wi在特征集合F0中进行搜索并根据特征的信息增益(IG)值进行排序。当信息增益(IG)值小于或等于设定阈值δ时,则删除该特征wi,进行下一个特征的搜索,当信息增益(IG)值大于设定阈值δ时,将搜索到的特征wi选入目标特征子集F1。循环搜索过程,直到搜索到特征集F0中最后一个特征wm,搜索过程结束,输出最终目标特征子集F1。该搜索策略对特征集单个特征的信息增益值进行排序,根据设定阈值进行选择,将k个最好的特征进行组合形成候选特征子集。虽然单独最优特征组合策略没有考虑特征间的相互依赖性,但其效率高,速度快,非常适合过滤-封装式流量组合特征选择方法的初次特征筛选,最大程度的降低了后期二次封装式特征选择阶段的计算复杂度,且组合特征能力及分类效果均可在二次封装式特征选择阶段实现。
二次封装式特征选择阶段引入改进的启发式序列前向搜索策略在过滤式特征选择后的目标特征子集F1构成的特征空间中搜索最优特征子集F2。该搜索策略为:选择空集作为当前候选特征子集F2',从过滤式特征选择后的流量特征F1(f1,f2,...,fi...,fn*)空间中,选择k个特征增加到当前候选特征子集F2'中。计算过滤式特征选择后形成的数据集S1在当前候选特征子集F2'上的分类准确率A0,利用当前候选特征子集F2'结合搜索策略生成最优特征子集F2,即采用序列前向选择策略,循环从剩余特征中挑选m个特征增加到当前候选特征子集F2'中生成新的最优特征子集F2。计算最优特征子集F2上的分类准确率A1,并与A0比较,若A1>A0,则更新当前候选特征子集F2',使F2'=F2,否则不更新F2'。当特征集中特征数i不能满足阈值条件时,即i超过最大特征个数,则所有特征都循环搜索完毕,算法结束。该搜索策略的伪代码如下:
输入:当前候选特征子集F2',
输出:最优特征子集F2,
1.指的是初始值为空集,即空集赋值给F2',
2.选择k个特征增加到初始特征子集F2'中,从过滤式特征选择后的流量特征F1(f1,f2,...,fi...,fn*)空间中进行选择,
3.For i≤δdo,δ为特征个数阈值,
4.计算数据集S1在F2'上的分类准确率A0,S1为初次过滤式特征选择后的数据集,
5.从剩余特征中挑选m个特征增加到F2'中,生成新的最优特征子集F2,
6.计算数据集S1在F2上的分类准确率A1,
7.if A1>A0,then F2'=F2,
8.else,F2'不变,
9.End if,
10.End For,
11.F2=F2',输出最优特征子集F2。
综上,基于支持向量机的过滤-封装式组合流量特征选择方法,降低了各流量样本空间的特征维度,缩短了训练时间,提高了支持向量机分类器的分类精度。由于其在过滤式特征选择基础上进行二次封装式特征选择,因此,克服了单纯使用过滤式特征选择法引起的不考虑组合特征能力以及分类效果差的问题。同时,由于先进行了过滤式特征子集筛选,大大降低了二次封装式特征选择时的计算复杂度,分类效果理想。
本发明的软件程序依据自动化、网络和计算机处理技术编制,是本领域技术人员所熟悉的技术。
Claims (1)
1.一种基于支持向量机的过滤-封装式组合流量特征选择方法,其特征是,它包括的内容有:
1)初次过滤式特征选择法
将原始数据集进行预处理生成数据集S0,进行初次过滤式特征选择,采用基于熵的一种评估法,即为信息增益(Information Gain,IG)算法对分类有贡献的每一个特征的信息增益进行性能评估,变量具有的信息量越多,熵值越大,若类特征变量S(s1,s2,...sn)对应出现的概率为P(p1,p2,...pn),则S的熵为公式(1),属性特征W的信息增益是具有特征W和不具有特征W的信息量差,信息增益为公式(2),P(Si)为类S出现的概率,P(Si|w)为属性特征w同时属于类别Si的条件概率,为不出现属性特征w同时属于类别Si的条件概率,信息增益IG(W)值越大,说明特征W对分类的贡献越大,将特征属性与类相关的信息增益进行排序,信息增益值越高的特征属性,代表其对分类的贡献越大,
根据公式(2)每一个流量特征的信息增益值,引入启发式单独最优特征选择搜索策略对特征信息增益值进行排序,将阈值δ<0的特征筛除,构成目标特征子集F1;
引入的启发式单独最优特征选择搜索策略为:输入原始特征集F0,同时对目标特征子集F1进行初始化,根据公式(2)计算每个特征wi的信息增益(IG)值,对每个特征wi在特征集合F0中进行搜索并根据特征的信息增益(IG)值进行排序,当信息增益(IG)值小于或等于设定阈值δ时,则删除该特征wi,进行下一个特征的搜索,当信息增益(IG)值大于设定阈值δ时,将搜索到的特征wi选入目标特征子集F1,循环搜索过程,直到搜索到特征集F0中最后一个特征wm,搜索过程结束,输出最终目标特征子集F1;
2)二次封装式特征选择法
在经过初次过滤式特征选择后的目标特征子集F1及数据集S1上,进行封装式二次特征选择,基于支持向量机(SVM)学习算法,引入改进的启发式序列前向搜索策略,再次选择出具有高分类准确率的最优特征子集F2,最终将过滤-封装式组合特征选择模型选出的最优特征子集F2构成的数据集S2分成训练集与测试集,基于支持向量机(SVM)分类器训练,在测试集上得到网络流量分类结果,
其中,基于支持向量机(SVM)多分类器构造法采用构造n类二分类器,每类分类器基于二值分类规则,识别两个类别,最后将判别结果组合实现多类分类,具体步骤:①构造n个二分类规则,设二分类规则fk(x),k=1,···,n,其中,f(x)=ω·x+b,且ω·x+b=0为SVM的分类方程,将第k类的训练样本与其它类别样本分离,若xi为第k类样本,则sgn[fk(xi)]=1,否则sgn[fk(xi)]=-1,②确定fk(x),k=1,···,n中最大值所属于的类别,m=argmax{f1(xi),···,fn(xi)};由步骤①和②就能构造多类分类器并可对n类数据样本进行分类,已知训练样本集其中上标n表示向量为第n类,则需要分类面满足不等式(3),分类平面为公式(4),其中,αi为拉格朗日乘子,
基于公式(4),支持向量机(SVM)的多分类器构造采用一对一组合(one against one)法构造个分类器解决多分类问题,假设每个分类器的训练数据分别来自第i层和第j层,如公式(5),其中,C为惩罚因子,ξ为引入的松弛变量,φ(x)为将原始低维空间样本映射到高维特征空间中的非线性映射,
当个分类器构造完成后,在后期的分类器训练中采用投票方式,如果sgn[(ωij)Tφ(x)+bij]代表x样本数据属于第i层,则投票将第i层数据加一,否则第j层数据加一,投票结束后,x样本数据属于的那一层投票结果值最大;
二次封装式特征选择法引入改进的启发式序列前向选择搜索策略是从空集出发,每次将能使候选子集的分类器准确率最高的一个或若干个特征增加到当前特征候选子集F2'中,直到特征数超出特征总个数时结束,即从初始特征空间空集开始,每次从过滤式特征选择后的目标特征子集F1中挑选m个特征增加到当前候选特征子集F2'中,经过若干次循环筛选,生成新的最优特征子集F2,直到满足约束条件为止,使得当搜索最大直径为N时,计算复杂度为O(N),减少了搜索的计算代价,得到近似最优特征子集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810152887.4A CN108319987B (zh) | 2018-02-20 | 2018-02-20 | 一种基于支持向量机的过滤-封装式组合流量特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810152887.4A CN108319987B (zh) | 2018-02-20 | 2018-02-20 | 一种基于支持向量机的过滤-封装式组合流量特征选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108319987A true CN108319987A (zh) | 2018-07-24 |
CN108319987B CN108319987B (zh) | 2021-06-29 |
Family
ID=62900257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810152887.4A Active CN108319987B (zh) | 2018-02-20 | 2018-02-20 | 一种基于支持向量机的过滤-封装式组合流量特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108319987B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109412969A (zh) * | 2018-09-21 | 2019-03-01 | 华南理工大学 | 一种移动App流量统计特征选择方法 |
CN109492664A (zh) * | 2018-09-28 | 2019-03-19 | 昆明理工大学 | 一种基于特征加权模糊支持向量机的音乐流派分类方法及*** |
CN109753577A (zh) * | 2018-12-29 | 2019-05-14 | 深圳云天励飞技术有限公司 | 一种搜索人脸的方法及相关装置 |
CN109784418A (zh) * | 2019-01-28 | 2019-05-21 | 东莞理工学院 | 一种基于特征重组的人体行为识别方法及*** |
CN109871872A (zh) * | 2019-01-17 | 2019-06-11 | 西安交通大学 | 一种基于壳向量式svm增量学习模型的流量实时分类方法 |
CN109981335A (zh) * | 2019-01-28 | 2019-07-05 | 重庆邮电大学 | 组合型类不均衡流量分类的特征选择方法 |
CN110047517A (zh) * | 2019-04-24 | 2019-07-23 | 京东方科技集团股份有限公司 | 语音情感识别方法、问答方法及计算机设备 |
CN110380989A (zh) * | 2019-07-26 | 2019-10-25 | 东南大学 | 网络流量指纹特征二阶段多分类的物联网设备识别方法 |
CN111242204A (zh) * | 2020-01-07 | 2020-06-05 | 东北电力大学 | 一种运维管控平台故障特征提取方法 |
CN111563519A (zh) * | 2020-04-26 | 2020-08-21 | 中南大学 | 基于Stacking加权集成学习的茶叶杂质识别方法及分选设备 |
CN111709440A (zh) * | 2020-05-07 | 2020-09-25 | 西安理工大学 | 基于FSA-Choquet模糊积分的特征选择方法 |
CN117118749A (zh) * | 2023-10-20 | 2023-11-24 | 天津奥特拉网络科技有限公司 | 一种基于个人通信网络的身份验证*** |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104102639A (zh) * | 2013-04-02 | 2014-10-15 | 腾讯科技(深圳)有限公司 | 基于文本分类的推广触发方法和装置 |
CN104765846A (zh) * | 2015-04-17 | 2015-07-08 | 西安电子科技大学 | 一种基于特征提取算法的数据特征分类方法 |
US20150339570A1 (en) * | 2014-05-22 | 2015-11-26 | Lee J. Scheffler | Methods and systems for neural and cognitive processing |
CN105243296A (zh) * | 2015-09-28 | 2016-01-13 | 丽水学院 | 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法 |
CN107203787A (zh) * | 2017-06-14 | 2017-09-26 | 江西师范大学 | 一种无监督正则化矩阵分解特征选择方法 |
CN107273387A (zh) * | 2016-04-08 | 2017-10-20 | 上海市玻森数据科技有限公司 | 面向高维和不平衡数据分类的集成 |
CN107292338A (zh) * | 2017-06-14 | 2017-10-24 | 大连海事大学 | 一种基于样本特征值分布混淆度的特征选择方法 |
-
2018
- 2018-02-20 CN CN201810152887.4A patent/CN108319987B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104102639A (zh) * | 2013-04-02 | 2014-10-15 | 腾讯科技(深圳)有限公司 | 基于文本分类的推广触发方法和装置 |
US20150339570A1 (en) * | 2014-05-22 | 2015-11-26 | Lee J. Scheffler | Methods and systems for neural and cognitive processing |
CN104765846A (zh) * | 2015-04-17 | 2015-07-08 | 西安电子科技大学 | 一种基于特征提取算法的数据特征分类方法 |
CN105243296A (zh) * | 2015-09-28 | 2016-01-13 | 丽水学院 | 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法 |
CN107273387A (zh) * | 2016-04-08 | 2017-10-20 | 上海市玻森数据科技有限公司 | 面向高维和不平衡数据分类的集成 |
CN107203787A (zh) * | 2017-06-14 | 2017-09-26 | 江西师范大学 | 一种无监督正则化矩阵分解特征选择方法 |
CN107292338A (zh) * | 2017-06-14 | 2017-10-24 | 大连海事大学 | 一种基于样本特征值分布混淆度的特征选择方法 |
Non-Patent Citations (2)
Title |
---|
LI-MING WANG ET AL.: "Crack Fault Classification for Planetary Gearbox Based on Feature Selection Technique and K-means Clustering Method", 《CHINESE JOURNAL OF MECHANICAL ENGINEERING》 * |
唐亚娟等: "基于方差分析的 χ2 统计特征选择改进算法研究", 《电脑知识与技术》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109412969B (zh) * | 2018-09-21 | 2021-10-26 | 华南理工大学 | 一种移动App流量统计特征选择方法 |
CN109412969A (zh) * | 2018-09-21 | 2019-03-01 | 华南理工大学 | 一种移动App流量统计特征选择方法 |
CN109492664B (zh) * | 2018-09-28 | 2021-10-22 | 昆明理工大学 | 一种基于特征加权模糊支持向量机的音乐流派分类方法及*** |
CN109492664A (zh) * | 2018-09-28 | 2019-03-19 | 昆明理工大学 | 一种基于特征加权模糊支持向量机的音乐流派分类方法及*** |
CN109753577A (zh) * | 2018-12-29 | 2019-05-14 | 深圳云天励飞技术有限公司 | 一种搜索人脸的方法及相关装置 |
CN109871872A (zh) * | 2019-01-17 | 2019-06-11 | 西安交通大学 | 一种基于壳向量式svm增量学习模型的流量实时分类方法 |
CN109784418B (zh) * | 2019-01-28 | 2020-11-17 | 东莞理工学院 | 一种基于特征重组的人体行为识别方法及*** |
CN109981335B (zh) * | 2019-01-28 | 2022-02-22 | 重庆邮电大学 | 组合型类不均衡流量分类的特征选择方法 |
CN109784418A (zh) * | 2019-01-28 | 2019-05-21 | 东莞理工学院 | 一种基于特征重组的人体行为识别方法及*** |
CN109981335A (zh) * | 2019-01-28 | 2019-07-05 | 重庆邮电大学 | 组合型类不均衡流量分类的特征选择方法 |
CN110047517A (zh) * | 2019-04-24 | 2019-07-23 | 京东方科技集团股份有限公司 | 语音情感识别方法、问答方法及计算机设备 |
CN110380989B (zh) * | 2019-07-26 | 2022-09-02 | 东南大学 | 网络流量指纹特征二阶段多分类的物联网设备识别方法 |
CN110380989A (zh) * | 2019-07-26 | 2019-10-25 | 东南大学 | 网络流量指纹特征二阶段多分类的物联网设备识别方法 |
CN111242204A (zh) * | 2020-01-07 | 2020-06-05 | 东北电力大学 | 一种运维管控平台故障特征提取方法 |
CN111563519A (zh) * | 2020-04-26 | 2020-08-21 | 中南大学 | 基于Stacking加权集成学习的茶叶杂质识别方法及分选设备 |
CN111563519B (zh) * | 2020-04-26 | 2024-05-10 | 中南大学 | 基于Stacking加权集成学习的茶叶杂质识别方法及分选设备 |
CN111709440A (zh) * | 2020-05-07 | 2020-09-25 | 西安理工大学 | 基于FSA-Choquet模糊积分的特征选择方法 |
CN111709440B (zh) * | 2020-05-07 | 2024-02-02 | 西安理工大学 | 基于FSA-Choquet模糊积分的特征选择方法 |
CN117118749A (zh) * | 2023-10-20 | 2023-11-24 | 天津奥特拉网络科技有限公司 | 一种基于个人通信网络的身份验证*** |
Also Published As
Publication number | Publication date |
---|---|
CN108319987B (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108319987A (zh) | 一种基于支持向量机的过滤-封装式组合流量特征选择方法 | |
CN110135494A (zh) | 基于最大信息系数和基尼指标的特征选择方法 | |
Patel et al. | Study of various decision tree pruning methods with their empirical comparison in WEKA | |
Gayatri et al. | Feature selection using decision tree induction in class level metrics dataset for software defect predictions | |
CN110472817A (zh) | 一种结合深度神经网络的XGBoost集成信用评价***及其方法 | |
CN110135167B (zh) | 一种随机森林的边缘计算终端安全等级评估方法 | |
CN109299741B (zh) | 一种基于多层检测的网络攻击类型识别方法 | |
CN107292350A (zh) | 大规模数据的异常检测方法 | |
CN106228389A (zh) | 基于随机森林算法的网络潜力用户挖掘方法及*** | |
CN108051660A (zh) | 一种变压器故障组合诊断模型建立方法及诊断方法 | |
CN108319968A (zh) | 一种基于模型融合的果蔬图像分类识别方法及*** | |
CN107103332A (zh) | 一种面向大规模数据集的相关向量机分类方法 | |
CN103489005A (zh) | 一种基于多分类器融合的高分辨率遥感影像分类方法 | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
CN107577605A (zh) | 一种面向软件缺陷预测的特征聚类选择方法 | |
CN110533116A (zh) | 基于欧式距离的自适应集成的不平衡数据分类方法 | |
CN101256631A (zh) | 一种字符识别的方法、装置、程序和可读存储介质 | |
Chu et al. | Co-training based on semi-supervised ensemble classification approach for multi-label data stream | |
KR20200010624A (ko) | 머신러닝을 이용한 빅데이터 통합진단 예측 시스템 | |
CN106934410A (zh) | 数据的分类方法及*** | |
CN109409434A (zh) | 基于随机森林的肝脏疾病数据分类规则提取的方法 | |
CN106570537A (zh) | 一种基于混淆矩阵的随机森林模型选择方法 | |
Li et al. | Scalable random forests for massive data | |
Alyahyan et al. | Decision Trees for Very Early Prediction of Student's Achievement | |
CN113239199B (zh) | 一种基于多方数据集的信用分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |