CN110309882A - 一种处理现实生活中混合型大规模数据的有效方法 - Google Patents

一种处理现实生活中混合型大规模数据的有效方法 Download PDF

Info

Publication number
CN110309882A
CN110309882A CN201910594183.7A CN201910594183A CN110309882A CN 110309882 A CN110309882 A CN 110309882A CN 201910594183 A CN201910594183 A CN 201910594183A CN 110309882 A CN110309882 A CN 110309882A
Authority
CN
China
Prior art keywords
data
cluster
data set
obtains
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910594183.7A
Other languages
English (en)
Inventor
李顺勇
张钰嘉
张苗苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN201910594183.7A priority Critical patent/CN110309882A/zh
Publication of CN110309882A publication Critical patent/CN110309882A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种处理现实生活中混合型大规模数据的有效方法,本发明一种处理现实生活中混合型大规模数据的有效方法的核心算法与现有大规模数据聚类技术相比,其显著优点在于:通过全局抽样技术较好的利用了原始数据集整体的信息,得到了具有较好代表性的样本,通过对这些样本进行聚类分析得到分类准则,这样不仅缩减了算法运行迭代时间,并且能得到较高的聚类精度;通过聚类集成技术有效的提升了最终划分的准确率,在实际应用中能得到较高的聚类精度。

Description

一种处理现实生活中混合型大规模数据的有效方法
技术领域
本发明涉及先进计算与数据处理领域,尤其涉及一种处理现实生活中混合型大规模数据的有效方法。
背景技术
现实生活中我们面对的数据各式各样,对其进行有效分类至关重要,在对现实数据进行划分时,如果方法得当,聚类分析能够较为有效的对数据进行分类。聚类分析是一种无监督算法,它的目标是按照某种相似性度量将数据集中相似度较大的数据分到同一个簇,尽可能使簇内的数据相似性较大,簇间数据相似性较小。聚类的意义在于探寻原始数据集内部的结构,从而更深层次的对原始数据及进行相关分析。传统聚类算法如K-prototypes算法由于其计算复杂度较小并且实现方便而得到广泛应用,但是K-prototypes算法也存在一些不足之处。首先是该算法在选取初始原型时采用的是随机选取原则,这样会造成算法结果不稳定,易受到初始原型选择的影响;其次,该算法迭代次数较多,在处理数据量较大或者数据维数较高的数据时算法运行时间较长。
信息技术的突飞猛进使人类社会的方方面面发生着日新月异的变化,这些变化的背后是各行各业海量数据的产生与累积。数据量也呈***式增长,增长的数据量以及数据本身的复杂化给聚类分析带来了挑战,而传统的K-prototypes算法并不能快速有效的对生活中比较复杂的大规模数据进行快速有效的分类。
发明内容
为解决现有技术的缺点和不足,提供一种处理现实生活中混合型大规模数据的有效方法,在处理现实生活中混合型大规模数据集时,达到不仅降低复杂度、缩短运行时间,而且能得到较高的划分精度的目的。
为实现本发明目的而提供的一种处理现实生活中混合型大规模数据的有效方法,包括有以下步骤:
步骤1,随机从含有n个样本的数据集X中选取μk个初始点,k为数据集X的分类数目,μ为参数;
步骤2,根据距离最近原则将数据集X中的数据进行划分,得到μk个簇;
步骤3,计算要抽取的合理样本个数s,s计算式如式1所示;
该式中f为要抽的比例,n为数据集X中数据总数,ni为簇Ci中数据总数,式1含义为以1-δ(0<δ<1)的概率从Ci抽取不低于f×ni个数据;
步骤4,在上述μk个簇中按照s/n的比例从每个簇Ci中有放回的随机抽取样本,一共抽取五次得到样本集S={s1,s2,s3,s4,s5};
步骤5,对抽取的五个样本运行K-prototypes算法,得到五种划分结果;
步骤6,根据集成算法对步骤5得到的划分结果进行集成,得到k个簇中心。
作为上述方案的进一步改进,所述步骤1中参数μ的确定,具体为:
步骤1.1,通过含有n个样本的原始数据集X,随机选取k个初始点;
步骤1.2,根据距离最近原则对数据集X中的数据进行划分,得到k个簇;
步骤1.3,根据式1计算要抽取的合理样本个数s;
步骤1.4,在上述k个簇中按照s/n的比例从每个簇Ci中有放回的随机抽取样本,一共抽取五次,得到样本集S={s1,s2,s3,s4,s5};
步骤1.5,对抽取的样本集S={s1,s2,s3,s4,s5}运行K-prototypes算法,得到五种划分结果,将原始数据集X中的数据带入上述的五种划分结果得到错误率的均值以及方差;
步骤1.6,取k+1个初始点,重复步骤1.1~1.5,将原始数据集X中的数据带入上述的五种划分结果得到错误率的均值以及方差,选出错误率的均值以及方差较低时候的μ。
作为上述方案的进一步改进,所述步骤5中对抽取的五个样本运行K-prototypes算法,得到五种划分结果,具体为:
步骤5.1,输入含有n个样本的原始数据集X,随机选取k个初始点,设原始数据集为X={X1,X2,X3,…,Xn},数据集X中共有n个数据,每个Xi有m个属性,即Xi={xi1,xi2,xi3,…,xim},设由k个初始点形成的初始原型集合V={V1,V2,V3,…,Vk},输入含有n个样本的原始数据集X,随机选取k个初始点;
步骤5.2,根据距离最近原则将原始数据集X中的各个数据分到各自所属的簇Ci中,更新簇Ci中心;
步骤5.3,计算原始数据集X中的数据和步骤5.2中得到的簇Ci中心的距离,根据距离最近原则对数据重新进行划分,并得出新的簇Ci中心;
步骤5.4,重复步骤5.2~5.3,直到簇Ci中心不再变化为止。
作为上述方案的进一步改进,所述步骤6中根据集成算法对步骤5得到的划分结果进行集成,得到最终划分标准,具体为:
步骤6.1,输入步骤5得到的五种划分结果,计算每种划分结果的准确率ri,对原始数据集X={X1,X2,X3,…,Xn},通过聚类划分得到的簇Ci和在原始数据集X={X1,X2,X3,…,Xn}中已有类标签划分得到的簇分别为C={C1,C2,C3,…,Ck-1,Ck}和C′={C′1,C′2,C′3,…C′k},ri即在C和C′中均划分到相同类别的数据对个数占总数据数的比例;
步骤6.2,根据式2计算出每种划分结果所占权重Wi
步骤6.3,根据式3对五种划分结果簇Ci中心进行加权集成,得到最终划分标准ll
本发明的有益效果是:
与现有技术相比,本发明一种处理现实生活中混合型大规模数据的有效方法的核心算法与现有大规模数据聚类技术相比,其显著优点在于:通过全局抽样技术较好的利用了原始数据集整体的信息,得到了具有较好代表性的数据,通过对这些数据进行聚类分析得到分类准则,这样不仅缩减了算法运行迭代时间,并且能得到较高的聚类精度;通过聚类集成技术有效的提升了最终划分的准确率,在实际应用中能得到较高的聚类精度。
附图说明
以下结合附图对本发明的具体实施方式作进一步的详细说明,其中:
图1为本发明确定参数μ时在不同数据集上算法输出错误率的均值和方差对比图,其中,(a)为Transfusion数据集对比图,(b)为Banknote数据集对比图,(c)为HTRU2数据集对比图。
具体实施方式
本发明一种能够有效处理现实生活中混合型大规模数据的方法,本发明从UCI数据库中选取4个数据集以及人工生成8个数据集。我们选取UCI数据库中的Transfusion、Banknote、HTRU2以及Activity Recognition这四个数据集,Activity Recognition数据集代表了活动识别应用领域的真实基准;HTRU2数据集是描述在高时间分辨率宇宙测量期间收集的脉冲星候选物数据的数据集,数据集中每个数据包含9个属性;Transfusion数据集来自台湾新竹市输血服务中心的捐赠数据库;Banknote中的数据是从真实和伪造的钞票数据的图像中提取的,有五个属性,分别为小波变换图像的方差、小波变换图像的偏度、小波变换图像的连续性、图像熵、类。因为这四个数据集的instance相差较大,并且HTRU2和Activity Recognition数据集的h为9,维数较高,这样选取的数据集代表性较好,能较好体现算法在处理不同维度以及不同数据数的数据集时的性能。因此,生成的Artificial data也尽量增大数据集之间的差异性,如Artificial data 1到Artificial data 4数据集的h=3,但instance相差较大,并且与Artificial data 5到Artificial data 8的h相差较大,这样可以较全面的对算法性能进行测试。数据集具体信息如表1所示。
步骤1,随机从表1数据集中选取μk个初始点,k为数据集X的分类数目,μ为参数,具体步骤如步骤1.1~1.6所示。
步骤1.1,通过含有n个样本的原始数据集Transfusion、Banknote、HTRU2,随机选取k个初始点,k的具体取值为表1中的class,数据个数为表1中的instance;
步骤1.2,根据距离最近原则对数据集X中的数据进行划分,得到k个簇;
步骤1.3,根据式1计算要抽取的合理数据个数s;
步骤1.4,在上述k个簇中按照s/n的比例从每个簇Ci中有放回的随机抽取样本,一共抽取五次,得到样本集S={s1,s2,s3,s4,s5};
步骤1.5,对抽取的样本集S={s1,s2,s3,s4,s5}运行K-prototypes算法,得到五种划分结果,将原始数据集X中的数据带入上述的五种划分结果得到错误率的均值以及方差。
步骤1.6,取k+1个初始点,重复步骤1.1~1.5,将原始数据集X中的数据带入上述的五种划分结果得到错误率的均值以及方差,选出错误率的均值以及方差较低时候的μ,以不同k值为横轴,错误率的均值E(1-ri)和方差V(1-ri)为纵轴作图得到图1。
首先取k个,随后取k+1,k+2,……个初始点,从图1(a)可以看出,当k=5时,E(1-ri)以及V(1-ri)值最大;当k=6时,在Transfusion数据集上划分错误率的均值E(1-ri)以及方差值V(1-ri)最低,即划分效果最好;当k继续增大时,划分错误率的均值以及方差值变化不大。所以考虑到算法复杂度以及错误率的均值和方差值,在Transfusion数据集上μ=6/2=3,即μ取3较为合适。从图1(b)可以看出,当k=9时,在Banknote数据集上V(1-ri)值最小,E(1-ri)值略高;k=4时划分错误率的均值E(1-ri)最低,但是方差V(1-ri)较大;当k=8时,E(1-ri)值较低,并且V(1-ri)值也较小,所以考虑到算法复杂度以及错误率的均值和方差值,在Banknote数据集上μ取4较为合适。从图1(c)可以看出,当k=10时,在HTRU2数据集上E(1-ri)值最小,并且V(1-ri)值也较小,但k=10时耗时较长;k=3时算法5输出的V(1-ri)值最低,但是错误率的均值E(1-ri)较大;当k=8时,在HTRU2数据集上E(1-ri)值最小,V(1-ri)值较小;所以考虑到算法运行时间以及错误率的均值和方差值,在HTRU2数据集上μ取4较为合适。
综上所述,本发明将μ定为4。
步骤2,根据距离最近原则将X中的数据进行划分,得到μk个簇;
步骤3,根据式1计算要抽取的合理数据个数s;
步骤4,在上述4k个簇中按照s/n的比例从每个簇Ci中有放回的随机抽取样本,一共抽取五次得到样本集S={s1,s2,s3,s4,s5};
步骤5,对抽取的五个样本集S={s1,s2,s3,s4,s5}运行K-prototypes算法,得到五种划分结果,K-prototypes算法过程具体如步骤5.1~5.4所示;
步骤5.1,输入含有n个样本的原始数据集X,随机选取k个初始点,设原始数据集为X={X1,X2,X3,…,Xn},数据集X中共有n个数据,每个Xi有m个属性,即Xi={xi1,xi2,xi3,…,xim},设由k个初始点形成的初始原型集合V={V1,V2,V3,…,Vk},输入含有n个样本的原始数据集X,随机选取k个初始点;
步骤5.2,根据距离最近原则将原始数据集X中的各个数据分到各自所属的簇Ci中,更新簇Ci中心;
步骤5.3,计算原始数据集X中的数据和步骤5.2中得到的簇Ci中心的距离,根据距离最近原则对数据重新进行划分,并得出新的簇Ci中心;
步骤5.4,重复步骤5.2~5.3,直到簇Ci中心不再变化为止。
步骤6,根据集成算法对步骤5得到的划分结果进行集成,得到得到k个簇中心,集成算法具体步骤如步骤6.1~6.3。
步骤6.1,输入步骤5得到的五种划分结果,计算每种划分结果的准确率ri,对原始数据集X={X1,X2,X3,…,Xn},通过聚类划分得到的簇Ci和在原始数据集X={X1,X2,X3,…,Xn}中已有类标签划分得到的簇分别为C={C1,C2,C3,…,Ck-1,Ck}和C′={C′1,C′2,C′3,…C′k},ri即在C和C′中均划分到相同类别的数据对个数占总数据数的比例;
步骤6.2,根据式2计算出每种划分结果所占权重Wi
步骤6.3,根据式3对五种划分结果簇中心进行加权集成,得到最终划分标准ll
选取RI(Rand index)以及算法运行时间T(s)作为评价指标,RI值越接近1,说明划分效果越好,T(s)越短,说明算法越有效。具体对比结果如表2所示,从表2可以看出,在四个数据集上本发明算法的RI值最高,说明本发明算法划分效果最好,在Transfusion和Banknote数据集上本发明算法运行时间略长于K-prototypes算法,但在HTRU2和ActivityRecognition数据集上本发明算法运行较快,当数据集的h较高以及instance较多时,本发明算法运行速度较快;在8个Artificial data上本发明算法的RI值均是最高,当Artificial data中数据个数较少时,本发明算法运行的时间慢于K-prototypes算法,当Artificial data数据个数较多时,本发明算法运行速度快于K-prototypes算法,并且Artificial data中instance越多,本发明算法运行速度的优越性体现的越明显,并且在数据集h增高时,本发明运行时间远快于K-prototypes算法。
进一步,选取生活中真实数据集对本发明方法进行进一步验证,具体步骤如1~6所示;
取Adult数据集进一步验证本发明的性能,Adult数据集是从人口普查局数据库中提取的,数据集中共有32561个对象,14个属性,其中10个分类型属性,4个数值型属性,一共分为两类,用来预测一个人年收入是否超过50K。
步骤1,随机从含有32561个数据的Adult数据集中选取8个初始点;
步骤2,根据距离最近原则将Adult数据集中的数据进行划分,得到8个簇;
步骤3,根据式1计算要抽取的合理数据个数s;
步骤4,在上述8个簇中按照s/n的比例从每个簇中有放回的随机抽取数据,一共抽取五次得到数据集S={s1,s2,s3,s4,s5};
步骤5,对抽取的五个数据集S={s1,s2,s3,s4,s5}运行K-prototypes算法,得到五种划分结果,K-prototypes算法过程具体如步骤5.1~5.4所示:
步骤5.1,输入含有32561个数据的Adult数据集,随机选取2个初始点;
步骤5.2,根据距离最近原则将Adult数据集中的各个数据分到各自所属的簇Ci中,更新簇Ci中心;
步骤5.3,计算Adult数据集中的数据和步骤5.2中得到的簇Ci中心的距离,根据距离最近原则对数据重新进行划分,并得出新的簇Ci中心;
步骤5.4,重复步骤5.2-步骤5.3,直到簇Ci中心不再变化为止;
步骤6,根据集成算法对步骤5得到的五种划分结果进行集成,得到最终划分标准,集成算法具体步骤如步骤6.1~6.3。
步骤6.1,输入步骤5得到的五种划分结果,计算每种划分结果的准确率ri,对原始数据集X={X1,X2,X3,…,Xn},通过聚类划分得到的簇Ci和在原始数据集X={X1,X2,X3,…,Xn}中已有类标签划分得到的簇分别为C={C1,C2,C3,…,Ck-1,Ck}和C′={C′1,C′2,C′3,…C′k},ri即在C和C′中均划分到相同类别的数据对个数占总数据数的比例;
步骤6.2,根据式2计算出每种划分结果所占权重Wi
步骤6.3,根据式3对五种划分结果簇中心进行加权集成,得到最终划分标准ll
计算本发明方法的运行时间以及根据Adult数据集中的真实标签计算本发明划分的RI值;
对比结果如表3所示,可以看出,本发明算法的RI值在Adult数据集上最高,并且耗时少于K-prototypes算法,说明本发明算法性能优越。
表1数据集信息
表2不同数据集结果对比
表2.1真实数据集结果对比
表2.2 Artificial data实验结果对比
表3现实生活数据集结果对比
以上实施例不局限于该实施例自身的技术方案,实施例之间可以相互结合成新的实施例。以上实施例仅用以说明本发明的技术方案而并非对其进行限制,凡未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明技术方案的范围内。

Claims (4)

1.一种处理现实生活中混合型大规模数据的有效方法,其特征在于:包括有以下步骤:
步骤1,随机从含有n个样本的数据集X中选取μk个初始点,k为数据集X的分类数目,μ为参数;
步骤2,根据距离最近原则将数据集X中的数据进行划分,得到μk个簇;
步骤3,计算要抽取的合理样本个数s,s计算式如式1所示;
该式中f为要抽的比例,n为数据集X中数据总数,ni为簇Ci中数据总数,式1含义为以1-δ(0<δ<1)的概率从Ci抽取不低于f×ni个数据;
步骤4,在上述μk个簇中按照s/n的比例从每个簇Ci中有放回的随机抽取样本,一共抽取五次得到样本集S={s1,s2,s3,s4,s5};
步骤5,对抽取的五个样本运行K-prototypes算法,得到五种划分结果;
步骤6,根据集成算法对步骤5得到的划分结果进行集成,得到k个簇中心。
2.根据权利要求1所述的一种处理现实生活中混合型大规模数据的有效方法,其特征在于:所述步骤1中参数μ的确定,具体为:
步骤1.1,通过含有n个样本的原始数据集X,随机选取k个初始点;
步骤1.2,根据距离最近原则对数据集X中的数据进行划分,得到k个簇;
步骤1.3,根据式1计算要抽取的合理样本个数s;
步骤1.4,在上述k个簇中按照s/n的比例从每个簇Ci中有放回的随机抽取样本,一共抽取五次,得到样本集S={s1,s2,s3,s4,s5};
步骤1.5,对抽取的样本集S={s1,s2,s3,s4,s5}运行K-prototypes算法,得到五种划分结果,将原始数据集X中的数据带入上述的五种划分结果得到错误率的均值以及方差;
步骤1.6,取k+1个初始点,重复步骤1.1~1.5,将原始数据集X中的数据带入上述的五种划分结果得到错误率的均值以及方差,选出错误率的均值以及方差较低时候的μ。
3.根据权利要求1所述的一种处理现实生活中混合型大规模数据的有效方法,其特征在于:所述步骤5中对抽取的五个样本运行K-prototypes算法,得到五种划分结果,具体为:
步骤5.1,输入含有n个样本的原始数据集X,随机选取k个初始点,设原始数据集为X={X1,X2,X3,…,Xn},数据集X中共有n个数据,每个Xi有m个属性,即Xi={xi1,xi2,xi3,…,xim},设由k个初始点形成的初始原型集合V={V1,V2,V3,…,Vk},输入含有n个样本的原始数据集X,随机选取k个初始点;
步骤5.2,根据距离最近原则将原始数据集X中的各个数据分到各自所属的簇Ci中,更新簇Ci中心;
步骤5.3,计算原始数据集X中的数据和步骤5.2中得到的簇Ci中心的距离,根据距离最近原则对数据重新进行划分,并得出新的簇Ci中心;
步骤5.4,重复步骤5.2~5.3,直到簇Ci中心不再变化为止。
4.根据权利要求1所述的一种处理现实生活中混合型大规模数据的有效方法,其特征在于:所述步骤6中根据集成算法对步骤5得到的划分结果进行集成,得到最终划分标准,具体为:
步骤6.1,输入步骤5得到的五种划分结果,计算每种划分结果的准确率ri,对原始数据集X={X1,X2,X3,…,Xn},通过聚类划分得到的簇Ci和在原始数据集X={X1,X2,X3,…,Xn}中已有类标签划分得到的簇分别为C={C1,C2,C3,…,Ck-1,Ck}和C′={C′1,C′2,C′3,…C′k},ri即在C和C′中均划分到相同类别的数据对个数占总数据数的比例;
步骤6.2,根据式2计算出每种划分结果所占权重Wi
步骤6.3,根据式3对五种划分结果簇Ci中心进行加权集成,得到最终划分标准ll
CN201910594183.7A 2019-07-03 2019-07-03 一种处理现实生活中混合型大规模数据的有效方法 Pending CN110309882A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910594183.7A CN110309882A (zh) 2019-07-03 2019-07-03 一种处理现实生活中混合型大规模数据的有效方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910594183.7A CN110309882A (zh) 2019-07-03 2019-07-03 一种处理现实生活中混合型大规模数据的有效方法

Publications (1)

Publication Number Publication Date
CN110309882A true CN110309882A (zh) 2019-10-08

Family

ID=68079667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910594183.7A Pending CN110309882A (zh) 2019-07-03 2019-07-03 一种处理现实生活中混合型大规模数据的有效方法

Country Status (1)

Country Link
CN (1) CN110309882A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738319A (zh) * 2020-06-11 2020-10-02 佳都新太科技股份有限公司 一种基于大规模样本的聚类结果评价方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738319A (zh) * 2020-06-11 2020-10-02 佳都新太科技股份有限公司 一种基于大规模样本的聚类结果评价方法及装置

Similar Documents

Publication Publication Date Title
Thenmozhi et al. Heart disease prediction using classification with different decision tree techniques
Genolini et al. KmL: k-means for longitudinal data
US6871201B2 (en) Method for building space-splitting decision tree
Parker et al. Accelerating fuzzy-c means using an estimated subsample size
CN108090216B (zh) 一种标签预测方法、装置及存储介质
CN107832456B (zh) 一种基于临界值数据划分的并行knn文本分类方法
CN106228554B (zh) 基于多属性约简的模糊粗糙集煤粉尘图像分割方法
Zhang et al. Novel density-based and hierarchical density-based clustering algorithms for uncertain data
Narayana et al. Instantaneous approach for evaluating the initial centers in the agricultural databases using K-means clustering algorithm
Parashar et al. An efficient classification approach for data mining
Evchenko et al. Frugal machine learning
CN109684477A (zh) 一种专利文本特征提取方法及***
WO2012041861A2 (en) Computer-implemented method for analyzing multivariate data
Bruzzese et al. DESPOTA: DEndrogram slicing through a pemutation test approach
Mandal et al. Unsupervised non-redundant feature selection: a graph-theoretic approach
Dahiya et al. A rank aggregation algorithm for ensemble of multiple feature selection techniques in credit risk evaluation
CN110309882A (zh) 一种处理现实生活中混合型大规模数据的有效方法
Fuchs et al. Automatic recognition of flow cytometric phytoplankton functional groups using convolutional neural networks
CN104468276A (zh) 基于随机抽样多分类器的网络流量识别方法
Heckerman et al. An experimental comparison of several clustering and initialization methods
Akyol Clustering hotels and analyzing the importance of their features by machine learning techniques
Pouyan et al. Distance metric learning using random forest for cytometry data
KR101520572B1 (ko) 음악에 대한 복합 의미 인식 방법 및 그 장치
CN113221966A (zh) 基于F_Max属性度量的差分隐私决策树构建方法
Xu et al. Predicting the trend of stock index based on feature engineering and CatBoost model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191008

WD01 Invention patent application deemed withdrawn after publication