CN106503731A - 一种基于条件互信息和K‑means的无监督特征选择方法 - Google Patents

一种基于条件互信息和K‑means的无监督特征选择方法 Download PDF

Info

Publication number
CN106503731A
CN106503731A CN201610888945.0A CN201610888945A CN106503731A CN 106503731 A CN106503731 A CN 106503731A CN 201610888945 A CN201610888945 A CN 201610888945A CN 106503731 A CN106503731 A CN 106503731A
Authority
CN
China
Prior art keywords
feature
character
cluster
character subset
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610888945.0A
Other languages
English (en)
Inventor
马廷淮
邵文晔
曹杰
薛羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201610888945.0A priority Critical patent/CN106503731A/zh
Publication of CN106503731A publication Critical patent/CN106503731A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于条件互信息和K‑means的无监督特征选择方法,首先通过多次初始条件不同的K‑means算法对无类标签的数据进行聚类,然后每一次的聚类基础上,综合考虑每个特征的模块化度量值及不同特征之间的条件互信息,利用特征之间的相关独立性指标来选择出相关度高且冗余度小的特征子集。通过将不同K‑means聚类结果得到的特征子集进行汇总,获得最终的特征子集。本发明能够有效地应用于无标签和不平衡的数据集,且获得的特征子集相关度高、冗余度小。

Description

一种基于条件互信息和K-means的无监督特征选择方法
技术领域
本发明属于机器学习领域的特征选择问题,具体涉及的是一种利用条件互信息与K-means算法对无标签数据集进行无监督特征选择的方法。
背景技术
在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖。特征个数越多,分析特征、训练模型所需的时间就越长,而且容易引起“维度灾难”,使模型更为复杂,从而带来模型推广能力下降等后果。因此,进行特征选择尤为重要。
特征选择也称特征子集选择或属性选择,是指从全部特征中选取一个特征子集,使构造出来的模型更好。特征选择能剔除不相关或冗余的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化了模型,使研究人员易于理解数据产生的过程。
根据搜索最优特征子集与构建学习模型的结合方式的不同,特征选择方法可以大致分为封装式特征选择(Wrapper)和过滤式特征选择(Filter)两类。封装式特征选择不断重复地运行学习算法去评估属性集的好坏,它在精度上优于过滤式特征选择,但对于其他分类器来说,它的泛化性能较差。面对高维数据集,由于封装式特征选择需要与特定的学习算法紧密结合,因此学习过程中的计算复杂度很高。过滤式特征选择不需要特定的学习算法,而是使用合适的准则来快速评价特征的好坏,因此是一种计算效率较高的方法。
现有的大部分传统特征选择方法是以提高分类精度为优化目标,没有充分考虑数据样本的分布状况,且普遍追求大类的学***衡的问题,在数据层面上,可以在训练前对训练集的正类样本进行重抽样,从而使正负类样本达到平衡,然后再进行相应的学***衡性的特点对传统特征选择算法进行改进,以使算法适应类别分布不均衡的样本(不均衡问题中的特征选择新算法:IM-IG.尤鸣宇,陈燕,李国正),但这种方法局限于二类不均衡问题,对于多类不均衡问题并不适用。
对于过滤式特征选择而言,目前已有许多监督式特征选择方法被提出,如应用互信息对候选特征进行评估,并选择排名最前的几个特征作为神经网络分类器的输入(Usingmutual information for selecting features in supervised neural netlearning.R.Battiti),但这种方法忽略了特征之间的冗余,从而导致选择许多冗余的特征,并且不利于后续分类器的性能提高。而且这种方法仅适用于带有类标签信息的数据,对于无监督的特征选择并不适用。
在无监督特征选择领域,许多应用于文本的无监督特征选择方法被提出,但是这些方法无法直接应用于数值型数据。部分应用于数值数据的无监督特征选择方法,如面向分类特征的无监督过滤式特征选择算法,以一趟聚类算法为基础,利用各个特征在不同簇间所表现的重要性程度作为判断依据,最后根据重要性的变化规律选取特征子集(面向分类特征的无监督特征选择方法研究.王连喜,蒋盛益),这种方法仅使用一趟聚类算法对数据进行划分,使得聚类的结果存在随机性,无法保证特征选择的准确性。
本发明首先通过多次初始条件不同的K-means算法对无类标签的数据进行聚类,然后在此聚类基础上,综合考虑每个特征的模块化度量值及不同特征之间的条件互信息,获得相关度高且冗余度小的特征子集,最后将不同K-means聚类结果得到的特征子集进行汇总。
发明内容
目的:本发明所要解决的技术问题是无标签数据集的特征选择问题,提出一种基于条件互信息和K-means的无监督特征选择方法。通过多次初始条件不同的K-means算法对无类标签的数据进行聚类,消除单次聚类结果上进行特征选择的随机性,并减少数据不平衡对特征选择的影响。在每一次的聚类的基础上,综合考虑每个特征的模块化度量值及不同特征之间的条件互信息,利用特征之间的相关独立性指标来选择出相关度高且冗余度小的特征组合。通过将不同K-means聚类结果得到的特征子集进行汇总,获得最终的特征子集。本发明能够有效地应用于无标签和不平衡的数据集,且获得的特征子集相关度高、冗余度小。
本发明的技术方案如下:
一种基于条件互信息和K-means的无监督特征选择方法,包括以下步骤:
步骤1),对无标签数据集进行多次不同K值和不同聚类中心的K-means聚类,并获得每次的聚类结果;
步骤2),根据步骤1)得到的不同聚类结果,依次针对每次的聚类结果构造各个特征的特征向量图;
步骤3),根据步骤2)构造出的特征向量图,计算每个特征的模块化度量值,并将模块化度量值最大的特征放入特征子集中;
步骤4),根据步骤3)得到的初始特征子集,计算每个剩余特征相对于特征子集里各个特征的条件互信息,从而计算出每个剩余特征相对于特征子集的相关独立性度量值;
步骤5),将步骤3)得到的每个剩余特征的模块化度量值与步骤4)得到的相关独立性度量值以一定权重相加,将计算结果作为每个剩余特征的得分;
步骤6),将步骤5)得到的得分最高的特征放入特征子集中,然后迭代地进行步骤4)、步骤5)、步骤6),直到特征子集中的特征个数达到所需要的个数;
步骤7),将步骤6)得到的根据不同K-means聚类结果形成的特征子集进行汇总,得到最终的特征子集。
进一步的,本发明的基于条件互信息和K-means的无监督特征选择方法,步骤1)对无标签数据集进行多次不同K值和不同聚类中心的K-means聚类,并获得每次的聚类结果。本发明首先使用K-means聚类算法对无标签数据集进行多次初始值不同的聚类。初始化时,人为地指定K-means聚类算法的最大聚类个数和最小聚类个数,以及聚类次数。每一次进行聚类时,K-means算法在最大聚类个数和最小聚类个数之间随机选择一个数作为簇的数目k,并在数据集中随机选择k个点作为初始质心,通过K-means聚类算法,可以依次得到每一次聚类的结果,即类标签C。
进一步的,本发明的基于条件互信息和K-means的无监督特征选择方法,步骤2)根据步骤1)得到的不同聚类结果,依次针对每次的聚类结果构造各个特征的特征向量图。对数据集中某一特征的特征向量图的构造,是在该特征下特征值和类标签已知的情况下,将每个样本作为一个点,假设某个样本所在的类包含了x个样本,则将该样本所对应的点与和它特征值最接近的x-1个样本点相连接,在同一特征下对数据集中的所有样本执行以上的操作,即可构造出该特征的特征向量图。
进一步的,本发明的基于条件互信息和K-means的无监督特征选择方法,步骤3)根据步骤2)构造出的特征向量图,计算每个特征的模块化度量值,计算公式为:
公式中,i、j是步骤2)构造出的特征向量图中的两个点;Aij是特征向量图的邻接矩阵,如果从i到j存在边,则Aij=1,否则为0;M是总连接数,即特征向量图中边的总数;ki和kj分别是节点i和j的度数;二元函数δ(Ci,Cj)表示如果节点i和j属于同一个簇,则为1,否则为0;根据每个特征的特征向量图计算出各自的模块化度量值之后,将所有的模块化度量值进行归一化,得到Q’,将Q’最大值所对应的特征放入特征子集中。
进一步的,本发明的基于条件互信息和K-means的无监督特征选择方法,步骤4)根据步骤3)得到的初始特征子集,计算每个剩余特征相对于特征子集里各个特征的条件互信息,从而计算出每个剩余特征相对于特征子集的相关独立性度量值,计算公式为:
公式中,fr是未被选入特征子集的剩余特征,fj是特征子集中的特征,S是特征子集;其中RI(fr,fj)表示剩余特征fr相对于特征子集中特征之一fj的相关独立性,计算公式为:
公式中,H(C)是目标变量C的熵,I(fr;C|fj)和I(fj;C|fi)是特征fr与特征fj的条件互信息,计算公式为:
公式中,N是数据集中样本的个数,C是类的数量。计算出每个剩余特征相对于特征子集的相关独立性度量值之后,将所有的相关独立性度量值进行归一化,得到Iri'。
进一步的,本发明的基于条件互信息和K-means的无监督特征选择方法,步骤5)将步骤3)得到的每个剩余特征的规范化模块化度量值与步骤4)得到每个剩余特征的规范化相关独立性度量值以一定权重相加,即:s=wQ'+(1-w)Iri',公式中的w人为指定,取值范围为[0,1],将计算结果作为每个剩余特征的得分。
进一步的,本发明的基于条件互信息和K-means的无监督特征选择方法,步骤6)将步骤5)得到的s最大值所对应的特征放入特征子集中,然后迭代地进行步骤4)、步骤5)、步骤6),直到特征子集中的特征个数达到所需要的个数,特征个数人为指定。
进一步的,本发明的基于条件互信息和K-means的无监督特征选择方法,步骤7)将步骤6)得到的根据不同K-means聚类结果形成的特征子集进行汇总,根据所需要的特征个数选出出现次数最多的几个特征,构成最终的特征子集。
有益效果
本发明针对机器学***衡对特征选择的影响,弥补了以往特征选择方法对不平衡数据集特征选择效果不理想或仅适用于有标签数据集的缺陷;同时,为了获得相关度高、冗余度小的特征子集,本方法在每一次的聚类基础上,综合考虑每个特征的模块化度量值及不同特征之间的条件互信息,利用特征之间的相关独立性指标来选择出相关度高且冗余度小的特征组合,通过将多次提取出的特征子集进行汇总,获得最终的特征子集。K-means算法与条件互信息的结合,使得该特征选择算法既能应用于平衡或非平衡的无标签数据集,又能提升特征子集的相关度,降低其冗余度,从而选择出最重要的特征集合。
附图说明
图1是基于条件互信息和K-means的无监督特征选择方法的流程图。
图2是对数据集构造特征向量图的例子。
具体实施方式
下面结合附图对技术方案的实施作进一步的详细描述:
结合流程图及实施案例对本发明所述的基于条件互信息和K-means的无监督特征选择方法作进一步的详细描述。
本实施案例采用条件互信息和K-means算法对无标签的数据集进行特征选择。如图1所示,本方法包含如下步骤:
步骤10,对无标签数据集进行多次不同K值和不同聚类中心的K-means聚类,并获得每次的聚类结果;
步骤101,K-means算法的最大聚类个数MAX和最小聚类个数MIN是在输入阶段预先给定的,每次聚类前,在[MAX,MIN]范围内随机选择一个数作为簇的个数k,并在数据集中随机选择k个点作为初始质心;
步骤102,进行K-means聚类算法的总次数T是在输入阶段预先给定的,每执行过一次K-means算法,可以得到一组聚类结果即类标签C,重复进行K-means聚类,直到聚类次数达到预先设定的总次数,最终可以得到T组不同的聚类结果;
步骤20,根据上一步得到的聚类结果,依次针对每次的聚类结果构造各个特征的特征向量图;
步骤201,对数据集中某一特征的特征向量图的构造,是在该特征下,样本的特征值和类标签已知的情况下,首先将每个样本作为一个点,如图2所示的包含两个特征的数据,右侧的每个圆点和方点都表示一个样本,点旁边的数字表示该点所对应的特征值的大小;
步骤202,若某个样本所在的类包含的样本总数为x个,则将该样本所对应的点与和它特征值最接近的x-1个样本点相连,如图2所示,样本1所在的类为C1,C1类包含的样本总数为4个,则将样本1所对应的点与和它特征值最接近的3个样本点,即样本2、样本7、样本6相连;
步骤203,对同一特征下数据集中的所有样本执行步骤202的操作,即可构造出该特征的特征向量图;
步骤204,对数据集中所有特征执行步骤201-203的操作,即可构造出所有特征的特征向量图,如图2所示,左侧包含2个特征的数据集,经过步骤10的一趟K-means聚类之后得到了类标签C1和C2,右侧分别是特征1和特征2所对应的特征向量图;
步骤30,根据上一步构造出的特征向量图,计算每个特征的模块化度量值,并将模块化度量值最大的特征放入特征子集中;
步骤301,根据公式计算每个特征各自的模块化度量值;
步骤302,将各个特征的模块化度量值进行归一化处理,得到Q’;
步骤303,将Q’最大值所对应的特征放入特征子集中,并将其从剩余特征中删除;
步骤40,根据上一步得到的特征子集,计算每个剩余特征相对于特征子集的相关独立性度量值;
步骤401,根据条件互信息公式计算出I(fr;C|fj)和I(fj;C|fi)的值,即剩余特征与已选特征的条件互信息;
步骤402,根据公式计算各个剩余特征相对于特征子集中某一特征的相关独立性;
步骤403,根据公式计算各个剩余相对于特征子集的相关独立性度量值;
步骤404,将各个剩余特征的相关独立性度量值进行归一化处理,得到Iri';
步骤50,将根据步骤30得到的每个剩余特征的模块化度量值Q’和步骤40得到的每个特征的相关独立性度量值Iri'以一定的权重相加,将计算结果作为每个剩余特征的得分;
步骤501,模块化度量值和相关独立性度量值的权重w在输入阶段预先设定,取值范围为[0,1],默认设置为0.3;
步骤502,根据公式s=wQ'+(1-w)Iri',计算每个剩余特征的得分;
步骤60,将上一步得分最高的特征放入特征子集中,并将其从剩余特征中删除,重复执行步骤40、步骤50、步骤60,直到特征子集中的特征个数达到所需要的个数,需要的特征个数a在输入阶段预先设定;
步骤70,将上一步得到的根据不同K-means聚类结果形成的特征子集进行汇总,根据需要的特征个数选出出现次数最多的a个特征,构成并输出最终的特征子集。

Claims (8)

1.一种基于条件互信息和K-means的无监督特征选择方法,其特征在于,包括以下步骤:
步骤1),对无标签数据集进行多次不同K值和不同聚类中心的K-means聚类,并获得每次的聚类结果;
步骤2),根据步骤1)得到的不同聚类结果,依次针对每次的聚类结果构造各个特征的特征向量图;
步骤3),根据步骤2)构造出的特征向量图,计算每个特征的模块化度量值,并将模块化度量值最大的特征放入特征子集中;
步骤4),根据步骤3)得到的初始特征子集,计算每个剩余特征相对于特征子集里各个特征的条件互信息,从而计算出每个剩余特征相对于特征子集的相关独立性度量值;
步骤5),将步骤3)得到的每个剩余特征的模块化度量值与步骤4)得到的相关独立性度量值以一定权重相加,将计算结果作为每个剩余特征的得分;
步骤6),将步骤5)得到的得分最高的特征放入特征子集中,然后迭代地进行步骤4)、步骤5)、步骤6),直到特征子集中的特征个数达到所需要的个数;
步骤7),将步骤6)得到的根据不同K-means聚类结果形成的特征子集进行汇总,得到最终的特征子集。
2.如权利要求1所述的方法,其特征在于,步骤1)对无标签数据集进行多次不同K值和不同聚类中心的K-means聚类,并获得每次的聚类结果;初始化时,人为地指定K-means聚类算法的最大聚类个数和最小聚类个数,以及聚类次数;每一次进行聚类时,K-means算法在最大聚类个数和最小聚类个数之间随机选择一个数作为簇的数目k,并在数据集中随机选择k个点作为初始质心,通过K-means聚类算法,依次得到每一次聚类的结果,即类标签C。
3.如权利要求1所述的方法,其特征在于,进一步的,步骤2)根据步骤1)得到的不同聚类结果,依次针对每次的聚类结果构造各个特征的特征向量图;对数据集中某一特征的特征向量图的构造,是在该特征下特征值和类标签已知的情况下,将每个样本作为一个点,假设某个样本所在的类包含了x个样本,则将该样本所对应的点与和它特征值最接近的x-1个样本点相连接,在同一特征下对数据集中的所有样本执行以上的操作,即可构造出该特征的特征向量图。
4.如权利要求1所述的方法,其特征在于,步骤3)根据步骤2)构造出的特征向量图,计算每个特征的模块化度量值,计算公式为:
Q = Σ i j [ A i j 2 M - k i * k j ( 2 M ) * ( 2 M ) ] δ ( C i , C j )
公式中,i、j是步骤2)构造出的特征向量图中的两个点;Aij是特征向量图的邻接矩阵,如果从i到j存在边,则Aij=1,否则为0;M是总连接数,即特征向量图中边的总数;ki和kj分别是节点i和j的度数;二元函数δ(Ci,Cj)表示如果节点i和j属于同一个簇,则为1,否则为0;根据每个特征的特征向量图计算出各自的模块化度量值之后,将所有的模块化度量值进行归一化,得到Q’,将Q’最大值所对应的特征放入特征子集中。
5.如权利要求1所述的方法,其特征在于,步骤4)根据步骤3)得到的初始特征子集,计算每个剩余特征相对于特征子集里各个特征的条件互信息,从而计算出每个剩余特征相对于特征子集的相关独立性度量值,计算公式为:
I r i ( f r ; C | S ) = Σ f j ∈ S R I ( f r , f j )
公式中,fr是未被选入特征子集的剩余特征,fj是特征子集中的特征,S是特征子集;其中RI(fr,fj)表示剩余特征fr相对于特征子集中特征之一fj的相关独立性,计算公式为:
R I ( f r , f j ) = I ( f r ; C | f j ) + I ( f j ; C | f i ) 2 H ( C )
公式中,H(C)是目标变量C的熵,I(fr;C|fj)和I(fj;C|fi)是特征fr与特征fj的条件互信息,计算公式为:
I ( X i ; Y | X j ) = Σ i = 1 N Σ j = 1 N Σ k = 1 C p ( x i , x j , y k ) log p ( x i , y k | x j ) p ( x i | x j ) p ( y k | x j )
公式中,N是数据集中样本的个数,C是类的数量。计算出每个剩余特征相对于特征子集的相关独立性度量值之后,将所有的相关独立性度量值进行归一化,得到Iri'。
6.如权利要求1所述的方法,其特征在于,步骤5)将步骤3)得到的每个剩余特征的规范化模块化度量值与步骤4)得到每个剩余特征的规范化相关独立性度量值以一定权重相加,即:s=wQ'+(1-w)Iri',公式中的w人为指定,取值范围为[0,1],将计算结果作为每个剩余特征的得分。
7.如权利要求1所述的方法,其特征在于,步骤6)将步骤5)得到的s最大值所对应的特征放入特征子集中,然后迭代地进行步骤4)、步骤5)、步骤6),直到特征子集中的特征个数达到所需要的个数,特征个数人为指定。
8.如权利要求1所述的方法,其特征在于,步骤7)将步骤6)得到的根据不同K-means聚类结果形成的特征子集进行汇总,根据所需要的特征个数选出出现次数最多的几个特征,构成最终的特征子集。
CN201610888945.0A 2016-10-11 2016-10-11 一种基于条件互信息和K‑means的无监督特征选择方法 Pending CN106503731A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610888945.0A CN106503731A (zh) 2016-10-11 2016-10-11 一种基于条件互信息和K‑means的无监督特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610888945.0A CN106503731A (zh) 2016-10-11 2016-10-11 一种基于条件互信息和K‑means的无监督特征选择方法

Publications (1)

Publication Number Publication Date
CN106503731A true CN106503731A (zh) 2017-03-15

Family

ID=58293652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610888945.0A Pending CN106503731A (zh) 2016-10-11 2016-10-11 一种基于条件互信息和K‑means的无监督特征选择方法

Country Status (1)

Country Link
CN (1) CN106503731A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239798A (zh) * 2017-05-24 2017-10-10 武汉大学 一种面向软件缺陷个数预测的特征选择方法
CN108363784A (zh) * 2018-01-20 2018-08-03 西北工业大学 一种基于文本机器学习的舆情走向预测方法
CN109068180A (zh) * 2018-09-28 2018-12-21 武汉斗鱼网络科技有限公司 一种确定视频精选集的方法以及相关设备
CN109255368A (zh) * 2018-08-07 2019-01-22 平安科技(深圳)有限公司 随机选取特征的方法、装置、电子设备及存储介质
CN109493929A (zh) * 2018-09-20 2019-03-19 北京工业大学 基于分组变量的低冗余特征选择方法
EP3456673A1 (en) * 2017-08-07 2019-03-20 Otis Elevator Company Predictive elevator condition monitoring using qualitative and quantitative informations
CN109506761A (zh) * 2018-06-12 2019-03-22 国网四川省电力公司乐山供电公司 一种变压器表面振动特征提取方法
CN109816034A (zh) * 2019-01-31 2019-05-28 清华大学 信号特征组合选取方法、装置、计算机设备及存储介质
CN110298398A (zh) * 2019-06-25 2019-10-01 大连大学 基于改进互信息的无线协议帧特征选择方法
CN110426612A (zh) * 2019-08-17 2019-11-08 福州大学 一种两级式变压器油纸绝缘时域介电响应特征量优选方法
CN110942149A (zh) * 2019-10-31 2020-03-31 河海大学 一种基于信息变化率和条件互信息的特征变量选择方法
CN117076962A (zh) * 2023-10-13 2023-11-17 腾讯科技(深圳)有限公司 应用于人工智能领域的数据分析方法、装置及设备
CN117454314A (zh) * 2023-12-19 2024-01-26 深圳航天科创泛在电气有限公司 风力机组件运行状态预测方法、装置、设备及存储介质

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239798B (zh) * 2017-05-24 2020-06-09 武汉大学 一种面向软件缺陷个数预测的特征选择方法
CN107239798A (zh) * 2017-05-24 2017-10-10 武汉大学 一种面向软件缺陷个数预测的特征选择方法
EP3456673A1 (en) * 2017-08-07 2019-03-20 Otis Elevator Company Predictive elevator condition monitoring using qualitative and quantitative informations
US10737904B2 (en) 2017-08-07 2020-08-11 Otis Elevator Company Elevator condition monitoring using heterogeneous sources
CN108363784A (zh) * 2018-01-20 2018-08-03 西北工业大学 一种基于文本机器学习的舆情走向预测方法
CN109506761A (zh) * 2018-06-12 2019-03-22 国网四川省电力公司乐山供电公司 一种变压器表面振动特征提取方法
CN109506761B (zh) * 2018-06-12 2021-08-27 国网四川省电力公司乐山供电公司 一种变压器表面振动特征提取方法
CN109255368A (zh) * 2018-08-07 2019-01-22 平安科技(深圳)有限公司 随机选取特征的方法、装置、电子设备及存储介质
CN109255368B (zh) * 2018-08-07 2023-12-22 平安科技(深圳)有限公司 随机选取特征的方法、装置、电子设备及存储介质
CN109493929B (zh) * 2018-09-20 2022-03-15 北京工业大学 基于分组变量的低冗余特征选择方法
CN109493929A (zh) * 2018-09-20 2019-03-19 北京工业大学 基于分组变量的低冗余特征选择方法
CN109068180B (zh) * 2018-09-28 2021-02-02 武汉斗鱼网络科技有限公司 一种确定视频精选集的方法以及相关设备
CN109068180A (zh) * 2018-09-28 2018-12-21 武汉斗鱼网络科技有限公司 一种确定视频精选集的方法以及相关设备
CN109816034B (zh) * 2019-01-31 2021-08-27 清华大学 信号特征组合选取方法、装置、计算机设备及存储介质
CN109816034A (zh) * 2019-01-31 2019-05-28 清华大学 信号特征组合选取方法、装置、计算机设备及存储介质
CN110298398B (zh) * 2019-06-25 2021-08-03 大连大学 基于改进互信息的无线协议帧特征选择方法
CN110298398A (zh) * 2019-06-25 2019-10-01 大连大学 基于改进互信息的无线协议帧特征选择方法
CN110426612A (zh) * 2019-08-17 2019-11-08 福州大学 一种两级式变压器油纸绝缘时域介电响应特征量优选方法
CN110942149B (zh) * 2019-10-31 2020-09-22 河海大学 一种基于信息变化率及条件互信息的特征变量选择方法
CN110942149A (zh) * 2019-10-31 2020-03-31 河海大学 一种基于信息变化率和条件互信息的特征变量选择方法
CN117076962A (zh) * 2023-10-13 2023-11-17 腾讯科技(深圳)有限公司 应用于人工智能领域的数据分析方法、装置及设备
CN117076962B (zh) * 2023-10-13 2024-01-26 腾讯科技(深圳)有限公司 应用于人工智能领域的数据分析方法、装置及设备
CN117454314A (zh) * 2023-12-19 2024-01-26 深圳航天科创泛在电气有限公司 风力机组件运行状态预测方法、装置、设备及存储介质
CN117454314B (zh) * 2023-12-19 2024-03-05 深圳航天科创泛在电气有限公司 风力机组件运行状态预测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN106503731A (zh) 一种基于条件互信息和K‑means的无监督特征选择方法
US10713597B2 (en) Systems and methods for preparing data for use by machine learning algorithms
CN106021364B (zh) 图片搜索相关性预测模型的建立、图片搜索方法和装置
Kuo et al. Integration of particle swarm optimization and genetic algorithm for dynamic clustering
CN103679132B (zh) 一种敏感图像识别方法及***
CN105487526B (zh) 一种Fast RVM污水处理故障诊断方法
CN107103332A (zh) 一种面向大规模数据集的相关向量机分类方法
CN110674407A (zh) 基于图卷积神经网络的混合推荐方法
CN108960304B (zh) 一种网络交易欺诈行为的深度学习检测方法
CN103258210B (zh) 一种基于字典学习的高清图像分类方法
CN103886330A (zh) 基于半监督svm集成学习的分类方法
CN109543723A (zh) 一种鲁棒的图像聚类方法
CN108596264A (zh) 一种基于深度学习的社区发现方法
CN108062566A (zh) 一种基于多核潜在特征提取的智能集成软测量方法
Du et al. Improving the performance of feature selection and data clustering with novel global search and elite-guided artificial bee colony algorithm
CN107273922A (zh) 一种面向多源实例迁移学习的样本筛选和权重计算方法
CN112949954B (zh) 基于识别学习建立财务欺诈识别模型的方法
Poojitha et al. A collocation of IRIS flower using neural network clustering tool in MATLAB
Ganji et al. Lagrangian constrained community detection
Ismaili et al. A supervised methodology to measure the variables contribution to a clustering
CN117435982A (zh) 一种多维度快速识别网络水军的方法
CN107704872A (zh) 一种基于相对最离散维分割的K‑means聚类初始中心选取方法
Bandyopadhyay et al. Integrating network embedding and community outlier detection via multiclass graph description
CN108446740B (zh) 一种用于脑影像病历特征提取的多层一致协同方法
Ahmed et al. Improving prediction of plant disease using k-efficient clustering and classification algorithms

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170315

WD01 Invention patent application deemed withdrawn after publication