CN106570178A - 一种基于图聚类的高维文本数据特征选择方法 - Google Patents
一种基于图聚类的高维文本数据特征选择方法 Download PDFInfo
- Publication number
- CN106570178A CN106570178A CN201610991719.5A CN201610991719A CN106570178A CN 106570178 A CN106570178 A CN 106570178A CN 201610991719 A CN201610991719 A CN 201610991719A CN 106570178 A CN106570178 A CN 106570178A
- Authority
- CN
- China
- Prior art keywords
- feature
- cluster
- text data
- sim
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明请求保护一种基于图聚类的高维文本数据特征选择方法,该方法包括:剔除不相关特征,并构造加权无向图;再结合社区发现算法快速地将特征聚类;并以“最大相关最小冗余”原则搜索类簇空间,剔除类簇内的冗余特征;最后根据特征与类别间的关系挑选出最佳特征子集。本发明旨在利用图能体现特征空间分布的特性,结合高效的社区发现进行特征聚类,选取出具有代表性的特征,并消除聚类过程中忽略数据分布情况和每个特征与类别都具有不同程度的重要性问题。同时解决聚类时的盲目性,使得文本分类结果具有更高的准确性和稳定性。
Description
技术领域
本发明涉及机器学习、数据挖掘技术领域,尤其涉及一种基于图聚类的高维文本数据特征选择方法。
背景技术
文本分类成为处理和组织大量文档数据的关键技术,但其高维特征空间不仅增加了分类的时间复杂度和空间复杂度,同时还可能会导致分类精度的降低。因此,需要对高维数据进行特征选择降低特征空间维度以及去除噪声特征,提高分类器的分类效率和分类精度。
常见的文本特征方法主要有文档频率(DF)、信息增益(IG)、互信息(MI)等,这些方法基本思想都是对每个特征计算某种统计度量值,再设定一个阈值T,把度量值小于阈值T的特征过滤掉,剩下的即为文本特征。DF通过统计文档频率较高的词在文本中出现的次数进行提取,但是其可能会遗漏低频高信息量的词;IG只适用于全局变量;MI则性能表现不稳定。近年来,聚类分析也已广泛应用于文本特征选择领域,旨在依据聚类的判断准则,寻求一个更优的特征子集,使其能够更好地涵盖数据的分类能力,反映数据潜在的空间结构并提高聚类的准确性。但现有的大多数特征聚类算法都存在一定程度上的缺陷,例如类簇数需事先人为设定;忽略类簇的数据分布情况;忽略类簇中每个特征和类别都具有不同程度的重要性。
为了解决上述问题,本发明提出了一种基于图聚类的高维文本数据特征选择方法,旨在利用图能表示特征空间分布的特性,以及高效的社区发现聚类算法,从而能在一定程度上避免过拟合现象,并消除聚类过程中忽略数据分布情况,以及解决聚类时的盲目性问题,从而选出更具有代表性的特征词,进而提高分类准确性和稳定性。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种能有效地去除噪声数据、使分类结果具有更高的准确性和稳定性的基于图聚类的高维文本数据特征选择方法。本发明的技术方案如下:
一种基于图聚类的高维文本数据特征选择方法,其包括以下步骤:101、获取高维文本数据,并采用筛选法得到高维文本数据的相关特征,根据相关特征构造加权无向图;102、采用社区发现算法将加权无向图高维文本数据的相关特征聚类;103、采用最大相关最小冗余原则搜索经过步骤102特征聚类的加权无向图类簇空间,剔除类簇内的冗余特征;104、最后根据剩余相关特征与类别间的关系,评价分类性能挑选出最佳特征子集。
进一步的,步骤101采用筛选法得到高维文本数据的相关特征的步骤为:
步骤1:首先计算特征与类别间的相关性Sim(fi,C),并进行降序排序;
步骤2:采用双重阈值法剔除不相关特征,筛选出高维文本数据的相关特征。
进一步的,所述步骤1计算特征与类别间的相关性Sim(fi,C)具体包括:假设存在数据集D={F,C},其中F={f1,f2,…,fn}为特征集,n为特征维度,C为类别标签集,每个特征fi∈F,对于类别标签集C,可用如下Sim(x,y)表示:
其中μ,δ分别表示均值和标准差;H(x)和H(y)分别表示一个随机变量x和y的不确定性,即熵;IG(x,y)为信息增益。
进一步的,采用双重阈值法剔除不相关特征,筛选出高维文本数据的相关特征具体包括:设定两个阈值T1,T2,其中T1用于控制算法性能,T2体现特征相关性的分布情况,分别计算特征在两个阈值控制下剔除不相关特征后留下的特征个数m1,m2,则最终保留的特征个数为m=min{m1,m2},其中m<=n,阈值T1,T2分别设为和μ+δ,筛选得到相关特征集F={f1,f2,…,fm}。
进一步的,步骤101根据相关特征构造加权无向图具体包括:
将留下的相关特征集F={f1,f2,…,fm},构造加权无向图G={V,E,W},其中V={v1,v2,…,vm}为顶点集合,E={e1,e2,…,eq}为q条加权边集合,W={w1,w2,…,wq}为q条加权边的权值集合。
进一步的,所述步骤102用社区发现算法将高维文本数据的相关特征聚类包括步骤;初始化每个特征,将每个特征视为一个独立类簇,得到类簇集S={s1,s2,…,sk},其中k表示形成k个类簇;
依据Sim(fi,C)降序排序,选取max(Sim(fi,C))的特征作为起始点,搜索特征fi所有邻近特征所在的类簇sj,并分别计算该特征和各个邻近类簇的关联性增益ΔLoc_Simfi,如果ΔLoc_Simfi大于阈值T3,且为最大值,则将特征合并到该类簇中,形成新的类簇,反之,则不变:
直到所有特征都被划分到新的类簇中,并更新G;直到各个类簇间的差异度ΔGlo_Sim最大。
进一步的,所述特征fi和各个邻近类簇的关联性增益计算公式为:
其中ΣSim(fi,sj)表示特征fi与类簇sj中所关联边的权重之和;∑Sim(sj,)为所有与类簇sj相关联的边之权重和;∑Sim(fi,)为所有与特征fi相关联的边总权重;ΣSim为图G中所有特征边的权重总和。
进一步的,所述步骤103采用最大相关最小冗余原则搜索经过步骤102特征聚类的加权无向图的类簇空间,剔除类簇内的冗余特征具体包括:
假设聚类后每个类簇sl,其中l∈[1,k],如果对于fi∈sl,存在Sim(fi,fj)<μ+δ&&Sim(fi,C)<Sim(fj,C),那么fi对fj而言是冗余的特征,此时需剔除冗余特征fi。
进一步的,步骤104评价分类性能挑选出最佳特征子集包括:
剔除冗余特征后,在每个类簇内根据相关性Sim(fi,C)选择出Topw个特征组成最优特征子集,考虑分类器在同一数据集下得到的最优分类精确度确定所选取的最终w值。
进一步的,所述分类精确度的计算公式为:
其中Acc表示分类准确度,TP:被判定为正样本,事实上也是正样本,TN:被判定为负样本,事实上也是负样本,FP:被判定为正样本,但事实上是负样本,FN:被判定为负样本,但事实上是正样本。
本发明的优点及有益效果如下:
本发明中,由于不相关特征会影响聚类算法效率以及分类精度,因此剔除不相关特征能有效地去除噪声数据。同时构造加权图体现特征间内部分布情况,有利于社区发现对特征进行聚类,并在一定程度上消除聚类的盲目性。进而以“最大相关最小冗余”原则搜索类簇空间,剔除冗余特征,最后依据特征与类别的关系组合最佳特征子集,从而能在一定程度上避免过拟合现象,解决选择最佳特征子集个数的盲目性问题,使分类结果具有更高的准确性和稳定性。
附图说明
图1是本发明提供优选实施例提供的一种基于图聚类的高维文本数据特征选择方法流程图;
图2为本发明实施例提供的高维文本数据特征选择方法流程图;
图3为本发明实施例提供的加权图G;
图4为本发明实施例提供最佳的特征子集选择流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明的技术方案如下:
参考图1,图1为本发明实施例提供的一种基于图聚类的高维文本数据特征选择方法流程图,具体包括:
文本数据集具有高维小样本、高噪声、高冗余以及样本分布不均衡等特点,这些特点为相应的分析方法和工具的开发带来了极大的挑战。因此,本实施例中,主要采用文本数据来展开讨论。参考图2,图2为本发明实施例提供的高维文本数据特征选择方法流程图。
如何评价待选特征是特征降维的关键问题之一。所述特征与类别间的关系,主要是利用改进的信息增益IG作为相关性度量准则。由于信息增益IG偏向于具有更多取值的特征,因此可通过规范化信息增益来确保其具有可比性。
根据基于熵的信息理论概念,一个随机变量x的不确定性可以用熵H(x)衡量,如公式(1)所示,其中p(xi)为x的先验概率。
两个变量x和y,当y已知的条件下,变量x中剩余的不确定性用公式(2)条件熵H(x|y)表示,其中p(xi|yi)为x的条件概率。
x熵值的变化反映了在给定y的条件下x的额外信息,并将其称为信息增益IG(x|y),计算公式如(3)所示。
为了弥补信息增益对多值特征的偏差,并试图消除其随机性,可通过均值和标准差进行修正。其计算公式如(4)所示,其中μ,δ分别表示均值和标准差。其中Sim(x,y)∈[0,1],对于任意的两个变量都具有对称性。当取值为1时,表明任一值的信息都可以完全预测出另外一个值,即两者完全相关,在数据集中所包含的信息量相同;当取值为0时,表示两者完全独立。由此可见,其值越大,表明两个特征间的依赖性越大,冗余性越大,所包含的相同信息也越多。用该公式能够分别计算出特征与类别间,以及特征间的相关性。
步骤1:首先计算特征与类别间的相关性。假设存在数据集D={F,C},其中F={f1,f2,…,fn}特征集,n为特征维度,C为类别标签集。每个特征fi∈F,对于类别标签集C,利用相关性Sim(fi,C)衡量特征与类别间的关系,并进行降序排序;
步骤2:剔除不相关特征。为了既能够选取适量的特征个数,降低时间复杂度提高算法性能,又兼顾特征相关性的分布情况,本发明采用双重阈值法剔除特征。即设定两个阈值T1,T2,其中T1用于控制算法性能,T2体现特征相关性的分布情况。阈值T1,T2分别设为和μ+δ。分别计算特征在两个阈值控制下剔除不相关特征后留下的特征个数m1,m2,则最终保留的特征个数为m=min{m1,m2},其中m<=n;
步骤3:构造无向加权图:参考图3,图3为本发明实施例提供的加权图G。将留下的特征集F={f1,f2,…,fm},构造加权无向图G={V,E,W}。V={v1,v2,…,vm}为m个特征集合构成的顶点集,E={e1,e2,…,eq}为q条特征间边的集合构成加权边集,W={w1,w2,…,wq}为q条特征边的相关性Sim(fi,fj)集合构成的权值集。
通过步骤3构建加权图G后,为了能快速构造出类簇间相关度低,类簇内相关度高的特征子集,并在一定程度上消除聚类的盲目性,本实施例采用社区发现算法进行聚类。该算法是基于图理论知识,能够反映特征内部分布结构,并在一定程度上消除聚类的盲目性。
步骤4:对于社区网络加权图G={V,E,W},其中V={v1,v2,…,vm}为顶点集合,E={e1,e2,…,eq}为q条加权边集合,W={w1,w2,…,wq}为q条加权边的权值集合。初始化每个特征,将每个特征视为一个独立类簇,得到类簇集S={s1,s2,…,sk},其中k表示形成k个类簇;
步骤5:依据Sim(fi,C)降序排序,选取max(Sim(fi,C))的特征作为起始点,搜索特征fi所有邻近特征所在的类簇sj,并分别计算该特征和各个邻近类簇的关联性增益如果大于阈值T3,且为最大值,则将特征合并到该类簇中,形成新的类簇。此处设置T3=0.5,该取值可视实验数据而定;反之,则不变:
其中∑Sim(fi,sj)表示特征fi与类簇sj中所关联边的权重之和;ΣSim(sj,)为所有与类簇sj相关联的边之权重和;ΣSim(fi,)为所有与特征fi相关联的边总权重;∑Sim为图G中所有特征边的权重总和;
步骤6:重复执行步骤5,直到所有特征都被划分到新的类簇中,并更新G;
步骤7:继续执行步骤4~6,直到各个类簇间的差异度ΔGlo_Sim最大。
其中为特征fi所在的类簇号;表示特征fi与fj是否同在一个类簇内,是则返回值为1,否则为0。用其来衡量聚类的质量,其值越大则说明聚类效果越好。
步骤8:剔除冗余数据。通过步骤4~7将特征集F={f1,f2,…,fm}聚类得到类簇集合S={s1,s2,…,sk},并进一步剔除每个类簇内的冗余特征。所述以“最大相关最小冗余”原则搜索类簇空间,剔除类簇内冗余特征。由于剔除冗余特征可提高数据质量和数据泛化能力。因此聚类后对于每个类簇sl,其中l∈[1,k],分别依据“最大相关最小冗余”原则剔除冗余特征,旨在结合特征与类别综合评价冗余特征,从而有效地避免异常特征对分类结果的影响。换言之,如果对于fi∈sl,存在Sim(fi,fj)<μ+δ&&Sim(fi,C)<Sim(fj,C),那么fi对fj而言是冗余的特征,此时需剔除冗余特征fi。
步骤9:挑选最佳特征子集。参考图4,图4为本发明实施例提供的最佳特征子集选择流程图。为了消除选择最佳特征子集个数的盲目性,所述根据特征与类别间的关系组合出最佳特征子集,主要是在剔除冗余特征后,在每个类簇内根据相关性Sim(fi,C)选择出Top w个特征组成最优特征子集。本实施例中设定w的取值大小为[1,10],步长为1。所述w值的选取影响数据的分类精确度,同时不同的数据集所选取的w值也不同。据此,本实施例中考虑分类器在同一数据集下得到的最优分类精确度确定所选取的最终w值。
所述分类精确度计算公式如下,其能够定量地评价算法的准确定和有效性。
其中TP:被判定为正样本,事实上也是正样本。TN:被判定为负样本,事实上也是负样本。FP:被判定为正样本,但事实上是负样本。FN:被判定为负样本,但事实上是正样本。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (10)
1.一种基于图聚类的高维文本数据特征选择方法,其特征在于,包括以下步骤:101、获取高维文本数据,并采用筛选法得到高维文本数据的相关特征,根据相关特征构造加权无向图;102、采用社区发现算法将加权无向图高维文本数据的相关特征聚类;103、采用最大相关最小冗余原则搜索经过步骤102特征聚类的加权无向图类簇空间,剔除类簇内的冗余特征;104、最后根据剩余相关特征与类别间的关系,评价分类性能挑选出最佳特征子集。
2.根据权利要求1所述的基于图聚类的高维文本数据特征选择方法,其特征在于,步骤101采用筛选法得到高维文本数据的相关特征的步骤为:
步骤1:首先计算特征与类别间的相关性Sim(fi,C),并进行降序排序;
步骤2:采用双重阈值法剔除不相关特征,筛选出高维文本数据的相关特征。
3.根据权利要求2所述的基于图聚类的高维文本数据特征选择方法,其特征在于,所述步骤1计算特征与类别间的相关性Sim(fi,C)具体包括:假设存在数据集D={F,C},其中F={f1,f2,…,fn}为特征集,n为特征维度,C为类别标签集,每个特征fi∈F,对于类别标签集C,可用如下Sim(x,y)表示:
其中μ,δ分别表示均值和标准差;H(x)和H(y)分别表示一个随机变量x和y的不确定性,即熵;IG(x,y)为信息增益。
4.根据权利要求2或3所述的基于图聚类的高维文本数据特征选择方法,其特征在于,采用双重阈值法剔除不相关特征,筛选出高维文本数据的相关特征具体包括:设定两个阈值T1,T2,其中T1用于控制算法性能,T2体现特征相关性的分布情况,分别计算特征在两个阈值控制下剔除不相关特征后留下的特征个数m1,m2,则最终保留的特征个数为m=min{m1,m2},其中m<=n,阈值T1,T2分别设为和μ+δ,筛选得到相关特征集F={f1,f2,…,fm}。
5.根据权利要求4所述的基于图聚类的高维文本数据特征选择方法,其特征在于,步骤101根据相关特征构造加权无向图具体包括:
将留下的相关特征集F={f1,f2,…,fm},构造加权无向图G={V,E,W},其中V={v1,v2,…,vm}为顶点集合,E={e1,e2,…,eq}为q条加权边集合,W={w1,w2,…,wq}为q条加权边的权值集合。
6.根据权利要求5所述的基于图聚类的高维文本数据特征选择方法,其特征在于,所述步骤102用社区发现算法将高维文本数据的相关特征聚类包括步骤;初始化每个特征,将每个特征视为一个独立类簇,得到类簇集S={s1,s2,…,sk},其中k表示形成k个类簇;
依据Sim(fi,C)降序排序,选取max(Sim(fi,C))的特征作为起始点,搜索特征fi所有邻近特征所在的类簇sj,并分别计算该特征和各个邻近类簇的关联性增益ΔLoc_Simfi,如果ΔLoc_Simfi大于阈值T3,且为最大值,则将特征合并到该类簇中,形成新的类簇,反之,则不变:
直到所有特征都被划分到新的类簇中,并更新G;直到各个类簇间的差异度ΔGlo_Sim最大。
7.根据权利要求6所述的基于图聚类的高维文本数据特征选择方法,其特征在于,所述特征fi和各个邻近类簇的关联性增益计算公式为:
其中∑Sim(fi,sj)表示特征fi与类簇sj中所关联边的权重之和;ΣSim(sj,)为所有与类簇sj相关联的边之权重和;ΣSim(fi,)为所有与特征fi相关联的边总权重;ΣSim为图G中所有特征边的权重总和。
8.根据权利要求6所述的基于图聚类的高维文本数据特征选择方法,其特征在于,所述步骤103采用最大相关最小冗余原则搜索经过步骤102特征聚类的加权无向图的类簇空间,剔除类簇内的冗余特征具体包括:
假设聚类后每个类簇sl,其中l∈[1,k],如果对于fi∈sl,存在Sim(fi,fj)<μ+δ&&Sim(fi,C)<Sim(fj,C),那么fi对fj而言是冗余的特征,此时需剔除冗余特征fi。
9.根据权利要求1所述的基于图聚类的高维文本数据特征选择方法,其特征在于,步骤104评价分类性能挑选出最佳特征子集包括:
剔除冗余特征后,在每个类簇内根据相关性Sim(fi,C)选择出Top w个特征组成最优特征子集,Top w指相关性最高的前w个特征,考虑分类器在同一数据集下得到的最优分类精确度确定所选取的最终w值。
10.根据权利要求9所述的基于图聚类的高维文本数据特征选择方法,其特征在于,所述分类精确度的计算公式为:
其中Acc表示分类准确度,TP:被判定为正样本,事实上也是正样本,TN:
被判定为负样本,事实上也是负样本,FP:被判定为正样本,但事实上是负样本,FN:被判定为负样本,但事实上是正样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610991719.5A CN106570178B (zh) | 2016-11-10 | 2016-11-10 | 一种基于图聚类的高维文本数据特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610991719.5A CN106570178B (zh) | 2016-11-10 | 2016-11-10 | 一种基于图聚类的高维文本数据特征选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106570178A true CN106570178A (zh) | 2017-04-19 |
CN106570178B CN106570178B (zh) | 2020-09-29 |
Family
ID=58541253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610991719.5A Active CN106570178B (zh) | 2016-11-10 | 2016-11-10 | 一种基于图聚类的高维文本数据特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106570178B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220346A (zh) * | 2017-05-27 | 2017-09-29 | 荣科科技股份有限公司 | 一种高维不完整数据特征选择方法 |
CN107248929A (zh) * | 2017-05-27 | 2017-10-13 | 北京知道未来信息技术有限公司 | 一种多维关联数据的强关联数据生成方法 |
CN107977413A (zh) * | 2017-11-22 | 2018-05-01 | 深圳市牛鼎丰科技有限公司 | 用户数据的特征选择方法、装置、计算机设备和存储介质 |
CN108429753A (zh) * | 2018-03-16 | 2018-08-21 | 重庆邮电大学 | 一种快速特征匹配的工业网络DDoS入侵检测方法 |
CN108491376A (zh) * | 2018-03-02 | 2018-09-04 | 沈阳飞机工业(集团)有限公司 | 一种基于机器学习的工艺规程编制方法 |
CN109101626A (zh) * | 2018-08-13 | 2018-12-28 | 武汉科技大学 | 基于改进最小生成树的高维数据关键特征提取方法 |
CN109800692A (zh) * | 2019-01-07 | 2019-05-24 | 重庆邮电大学 | 一种基于预训练卷积神经网络的视觉slam回环检测方法 |
CN109816034A (zh) * | 2019-01-31 | 2019-05-28 | 清华大学 | 信号特征组合选取方法、装置、计算机设备及存储介质 |
CN110069989A (zh) * | 2019-03-15 | 2019-07-30 | 上海拍拍贷金融信息服务有限公司 | 人脸图像处理方法及装置、计算机可读存储介质 |
CN110147810A (zh) * | 2019-04-01 | 2019-08-20 | 广东外语外贸大学 | 基于类感知特征选择框架的文本分类方法和*** |
CN110188196A (zh) * | 2019-04-29 | 2019-08-30 | 同济大学 | 一种基于随机森林的文本增量降维方法 |
CN110362603A (zh) * | 2018-04-04 | 2019-10-22 | 北京京东尚科信息技术有限公司 | 一种特征冗余性分析方法、特征选择方法和相关装置 |
CN111067508A (zh) * | 2019-12-31 | 2020-04-28 | 深圳安视睿信息技术股份有限公司 | 非临床环境下对高血压进行非干预式的监测和评估方法 |
CN114358989A (zh) * | 2021-12-07 | 2022-04-15 | 重庆邮电大学 | 一种基于标准差和交互信息的慢性疾病特征选择方法 |
WO2022142025A1 (zh) * | 2020-12-28 | 2022-07-07 | 平安科技(深圳)有限公司 | 文本分类方法、装置、终端设备及存储介质 |
CN117076962A (zh) * | 2023-10-13 | 2023-11-17 | 腾讯科技(深圳)有限公司 | 应用于人工智能领域的数据分析方法、装置及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070112867A1 (en) * | 2005-11-15 | 2007-05-17 | Clairvoyance Corporation | Methods and apparatus for rank-based response set clustering |
US20130177244A1 (en) * | 2012-01-09 | 2013-07-11 | General Electric Company | Image concealing via efficient feature selection |
CN103942568A (zh) * | 2014-04-22 | 2014-07-23 | 浙江大学 | 一种基于无监督特征选择的分类方法 |
CN104050556A (zh) * | 2014-05-27 | 2014-09-17 | 哈尔滨理工大学 | 一种垃圾邮件的特征选择方法及其检测方法 |
CN104217015A (zh) * | 2014-09-22 | 2014-12-17 | 西安理工大学 | 基于互为共享最近邻的层次聚类方法 |
CN104966094A (zh) * | 2015-05-26 | 2015-10-07 | 浪潮电子信息产业股份有限公司 | 一种基于图论方法的大规模数据集离群数据挖掘方法 |
CN105975589A (zh) * | 2016-05-06 | 2016-09-28 | 哈尔滨理工大学 | 一种高维数据的特征选择方法及装置 |
-
2016
- 2016-11-10 CN CN201610991719.5A patent/CN106570178B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070112867A1 (en) * | 2005-11-15 | 2007-05-17 | Clairvoyance Corporation | Methods and apparatus for rank-based response set clustering |
US20130177244A1 (en) * | 2012-01-09 | 2013-07-11 | General Electric Company | Image concealing via efficient feature selection |
CN103942568A (zh) * | 2014-04-22 | 2014-07-23 | 浙江大学 | 一种基于无监督特征选择的分类方法 |
CN104050556A (zh) * | 2014-05-27 | 2014-09-17 | 哈尔滨理工大学 | 一种垃圾邮件的特征选择方法及其检测方法 |
CN104217015A (zh) * | 2014-09-22 | 2014-12-17 | 西安理工大学 | 基于互为共享最近邻的层次聚类方法 |
CN104966094A (zh) * | 2015-05-26 | 2015-10-07 | 浪潮电子信息产业股份有限公司 | 一种基于图论方法的大规模数据集离群数据挖掘方法 |
CN105975589A (zh) * | 2016-05-06 | 2016-09-28 | 哈尔滨理工大学 | 一种高维数据的特征选择方法及装置 |
Non-Patent Citations (1)
Title |
---|
王纵虎: ""聚类分析优化关键技术研究"", 《万方数据》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220346A (zh) * | 2017-05-27 | 2017-09-29 | 荣科科技股份有限公司 | 一种高维不完整数据特征选择方法 |
CN107248929A (zh) * | 2017-05-27 | 2017-10-13 | 北京知道未来信息技术有限公司 | 一种多维关联数据的强关联数据生成方法 |
CN107220346B (zh) * | 2017-05-27 | 2021-04-30 | 荣科科技股份有限公司 | 一种高维不完整数据特征选择方法 |
CN107248929B (zh) * | 2017-05-27 | 2020-08-11 | 北京知道未来信息技术有限公司 | 一种多维关联数据的强关联数据生成方法 |
CN107977413A (zh) * | 2017-11-22 | 2018-05-01 | 深圳市牛鼎丰科技有限公司 | 用户数据的特征选择方法、装置、计算机设备和存储介质 |
CN108491376A (zh) * | 2018-03-02 | 2018-09-04 | 沈阳飞机工业(集团)有限公司 | 一种基于机器学习的工艺规程编制方法 |
CN108491376B (zh) * | 2018-03-02 | 2021-10-01 | 沈阳飞机工业(集团)有限公司 | 一种基于机器学习的工艺规程编制方法 |
CN108429753A (zh) * | 2018-03-16 | 2018-08-21 | 重庆邮电大学 | 一种快速特征匹配的工业网络DDoS入侵检测方法 |
CN110362603A (zh) * | 2018-04-04 | 2019-10-22 | 北京京东尚科信息技术有限公司 | 一种特征冗余性分析方法、特征选择方法和相关装置 |
CN109101626A (zh) * | 2018-08-13 | 2018-12-28 | 武汉科技大学 | 基于改进最小生成树的高维数据关键特征提取方法 |
CN109800692A (zh) * | 2019-01-07 | 2019-05-24 | 重庆邮电大学 | 一种基于预训练卷积神经网络的视觉slam回环检测方法 |
CN109800692B (zh) * | 2019-01-07 | 2022-12-27 | 重庆邮电大学 | 一种基于预训练卷积神经网络的视觉slam回环检测方法 |
CN109816034A (zh) * | 2019-01-31 | 2019-05-28 | 清华大学 | 信号特征组合选取方法、装置、计算机设备及存储介质 |
CN109816034B (zh) * | 2019-01-31 | 2021-08-27 | 清华大学 | 信号特征组合选取方法、装置、计算机设备及存储介质 |
CN110069989A (zh) * | 2019-03-15 | 2019-07-30 | 上海拍拍贷金融信息服务有限公司 | 人脸图像处理方法及装置、计算机可读存储介质 |
CN110147810A (zh) * | 2019-04-01 | 2019-08-20 | 广东外语外贸大学 | 基于类感知特征选择框架的文本分类方法和*** |
CN110147810B (zh) * | 2019-04-01 | 2020-05-19 | 广东外语外贸大学 | 基于类感知特征选择框架的文本分类方法和*** |
CN110188196B (zh) * | 2019-04-29 | 2021-10-08 | 同济大学 | 一种基于随机森林的文本增量降维方法 |
CN110188196A (zh) * | 2019-04-29 | 2019-08-30 | 同济大学 | 一种基于随机森林的文本增量降维方法 |
CN111067508A (zh) * | 2019-12-31 | 2020-04-28 | 深圳安视睿信息技术股份有限公司 | 非临床环境下对高血压进行非干预式的监测和评估方法 |
CN111067508B (zh) * | 2019-12-31 | 2022-09-27 | 深圳安视睿信息技术股份有限公司 | 非临床环境下对高血压进行非干预式的监测和评估方法 |
WO2022142025A1 (zh) * | 2020-12-28 | 2022-07-07 | 平安科技(深圳)有限公司 | 文本分类方法、装置、终端设备及存储介质 |
CN114358989A (zh) * | 2021-12-07 | 2022-04-15 | 重庆邮电大学 | 一种基于标准差和交互信息的慢性疾病特征选择方法 |
CN117076962A (zh) * | 2023-10-13 | 2023-11-17 | 腾讯科技(深圳)有限公司 | 应用于人工智能领域的数据分析方法、装置及设备 |
CN117076962B (zh) * | 2023-10-13 | 2024-01-26 | 腾讯科技(深圳)有限公司 | 应用于人工智能领域的数据分析方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN106570178B (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106570178A (zh) | 一种基于图聚类的高维文本数据特征选择方法 | |
Van Hulse et al. | Feature selection with high-dimensional imbalanced data | |
CN107103332B (zh) | 一种面向大规模数据集的相关向量机分类方法 | |
CN110472817A (zh) | 一种结合深度神经网络的XGBoost集成信用评价***及其方法 | |
CN109033200B (zh) | 事件抽取的方法、装置、设备及计算机可读介质 | |
CN111524606A (zh) | 一种基于随机森林算法的肿瘤数据统计方法 | |
Kim et al. | Ordinal classification of imbalanced data with application in emergency and disaster information services | |
CN102346829A (zh) | 基于集成分类的病毒检测方法 | |
CN105760889A (zh) | 一种高效的不均衡数据集分类方法 | |
Li et al. | Classification of Parkinson's disease by decision tree based instance selection and ensemble learning algorithms | |
CN108363810A (zh) | 一种文本分类方法及装置 | |
CN112437053B (zh) | 入侵检测方法及装置 | |
CN101901345A (zh) | 一种差异蛋白质组学的分类方法 | |
Messay-Kebede et al. | Combination of traditional and deep learning based architectures to overcome class imbalance and its application to malware classification | |
CN102411592B (zh) | 一种文本分类方法和装置 | |
WO2015146113A1 (ja) | 識別辞書学習システム、識別辞書学習方法および記録媒体 | |
CN110164454A (zh) | 一种基于共振峰偏差的音频同一性判别方法及装置 | |
CN111444501B (zh) | 一种基于梅尔倒谱与半空间森林结合的LDoS攻击检测方法 | |
Rani et al. | Design of an intrusion detection model for IoT-enabled smart home | |
Leng et al. | A wrapper-based feature selection for analysis of large data sets | |
Shukla et al. | A unique approach for detection of fake news using machine learning | |
Rahman et al. | An efficient approach for selecting initial centroid and outlier detection of data clustering | |
CN115392351A (zh) | 风险用户识别方法、装置、电子设备及存储介质 | |
CN103207893A (zh) | 基于向量组映射的两类文本的分类方法 | |
Kumar et al. | Development of an efficient clustering technique for colon dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230406 Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province Patentee after: Yami Technology (Guangzhou) Co.,Ltd. Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS |
|
TR01 | Transfer of patent right |