CN109063769B - 基于变异系数自动确认簇数量的聚类方法、***及介质 - Google Patents
基于变异系数自动确认簇数量的聚类方法、***及介质 Download PDFInfo
- Publication number
- CN109063769B CN109063769B CN201810864958.3A CN201810864958A CN109063769B CN 109063769 B CN109063769 B CN 109063769B CN 201810864958 A CN201810864958 A CN 201810864958A CN 109063769 B CN109063769 B CN 109063769B
- Authority
- CN
- China
- Prior art keywords
- cluster
- clustering
- paper
- clusters
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于变异系数自动确认簇数量的聚类方法、***及介质,计算数据集中每个数据点的密度值,根据密度值计算密度指数,选择密度指数最大的数据点作为第一个聚类中心;计算每个数据点与当前已有聚类中心之间的最短距离,然后根据最短距离计算每个数据点被选为聚类中心的概率,按照轮盘法预选聚类中心;直至选择出设定个聚类中心,根据选择出的初始聚类中心进行k‑means聚类从而产生相应个数的簇;计算平均簇内变异系数和最小簇间变异系数,然后,计算平均簇内变异系数和最小簇间变异系数的差值,将差值与设定值进行比较,如果差值小于设定值,则将两个簇间变异系数最小的两个簇进行合并;直至差值大于等于设定值,则输出聚类结果。
Description
技术领域
本发明涉及基于变异系数自动确认簇数量的聚类方法、***及介质。
背景技术
随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料,这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,因此迅速发展的还有数据挖掘技术,聚类分析技术是数据挖掘中的一个重要的研究领域,已经被广泛的用在许多应用中,包括模式识别、数据分析、图像处理以及市场研究。
聚类分析技术是一种无监督的学习方法,其中基于划分的聚类算法简单并且可以用于各种数据类型,但是需要事先设置簇的数量且对初始聚类中心敏感,k-means++算法对传统的k-means算法进行了改进,但仍然存在人工设置簇的数量的缺陷。
发明内容
为了解决现有技术的不足,本发明提供了基于变异系数自动确认簇数量的聚类方法、***及介质,其解决传统的k-means++聚类算法人工设置簇的数量以及初始质心选取不当的缺陷,利用变异系数以及密度指数的概念对基于划分的k-means++聚类算法进行了改进,无需人工设置簇的数量,也确保了聚类结果的准确性;
为了解决上述技术问题,本发明采用如下技术方案:
作为本发明的第一方面,提供了基于变异系数自动确认簇数量的聚类方法;
基于变异系数自动确认簇数量的聚类方法,包括:
步骤(1):计算数据集中每个数据点的密度值,根据密度值计算密度指数,选择密度指数最大的数据点作为第一个聚类中心;
步骤(2):计算每个数据点与当前已有聚类中心之间的最短距离,然后根据最短距离计算每个数据点被选为聚类中心的概率,最后,按照轮盘法预选聚类中心;所述预选聚类中心的密度指数大于设定阈值;
步骤(3):重复步骤(2),直至选择出设定个数的聚类中心,然后根据选择出的初始聚类中心进行k-means聚类从而产生相应个数的簇;
步骤(4):计算平均簇内变异系数和最小簇间变异系数,然后,计算平均簇内变异系数和最小簇间变异系数的差值,将差值与设定值进行比较,如果差值小于设定值,则将两个簇间变异系数最小的两个簇进行合并;重复步骤(4),直至差值大于等于设定值,则输出聚类结果。
进一步的,计算数据集中每个数据点的密度值的步骤为:
假设数据集(S1,S2,…,Sd)具有d维属性,并且数据空间S=S1×S2×…×Sd是d维数据空间,x∈(x1,x2,…,xd)表示在d维数据空间上数据集中的数据点。
首先,设定初始簇的数量k*(k1<k*<k2)的值,其中k1和k2均为大于目标簇的数量。
然后,计算数据点x的密度值ρx,并用公式(1)和(2)表示:
其中,num为数据点的个数,dxy为数据集中数据点y到数据点x的距离,R为密度范围,f(X)为判断数据点y与数据点x的距离是否小于或等于密度范围R的函数;
进一步的,根据密度值计算密度指数,选择密度指数最大的数据点作为第一个聚类中心;的步骤为:
根据密度值ρx计算数据密度指数DI(Density Index),并将密度指数最大的数据点作为第一个聚类中心:
进一步的,计算每个数据点与当前已有聚类中心之间的最短距离的步骤为:
根据k-means++算法中选择初始聚类中心的方式,对于数据集中的剩余数据点,依次计算该数据点与已经选择出的初始聚类中心的距离,比较选择出最短的距离作为该数据点与当前已有聚类中心之间的最短距离D(x)。
进一步的,根据最短距离计算每个数据点被选为聚类中心的概率的步骤为:
其中,D(x)表示每个数据点与当前已有聚类中心之间的最短距离;P(x)表示每个数据点被选为聚类中心的概率;
进一步的,按照轮盘法预选聚类中心的步骤为:
设置阈值τ,只有当预选聚类中心的密度指数达到τ时,才可作为正式的聚类中心,否则重新选择新的数据点作为聚类中心;一直重复轮盘法直到选择出k*个聚类中心。
进一步的,计算平均簇内变异系数的步骤为:
首先,计算每个簇的簇内变异系数CVi:
其中,μi为簇i的质心,mi为簇i的数据点个数,xj为簇i中的第j个数据点,k*表示预选出的聚类中心的个数。
因为,变异系数越大说明数据点越离散,所以通过计算簇内变异系数来反映簇的凝聚度的好坏。
进一步的,计算最小簇间变异系数的步骤为:
首先,计算簇间变异系数CVij:
然后,计算最小簇间变异系数Dmin:
Dmin=min{CVij,i=1,2,…,k*,j=1,2,…,k*} (8)
其中,mij为簇i和簇j的数据点数量,μij为簇i和簇j的质心,xl为簇i和簇j中的第l个数据点。
进一步的,计算平均簇内变异系数和最小簇间变异系数的差值,将差值与设定值进行比较,如果差值小于设定值,则将两个簇间变异系数最小的两个簇进行合并;如果差值大于等于设定值,则输出聚类结果的步骤为:
计算平均簇内变异系数和最小簇间变异系数的差值T,根据差值判断是否需要进行簇的合并:
当ε≤T时,输出簇的数量以及每个簇所对应的数据点。
作为本发明的第二方面,提供了基于变异系数自动确认簇数量的聚类***;
基于变异系数自动确认簇数量的聚类***,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
作为本发明的第三方面,提供了一种计算机可读存储介质;
一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
与现有技术相比,本发明的有益效果是:
利用变异系数以及密度指数的概念对基于划分的k-means++聚类算法进行了改进,无需人工设置簇的数量,也确保了聚类结果的准确性。
选择密度指数最大的数据点作为第一个聚类中心,是由于基于划分的聚类算法对初始质心的选择较为敏感,这样可以有效避开数据集中的异常值。
改进的自动确认簇数量的聚类算法,利用变异系数的概念在簇数量的确认以及初始质心的选择上都进行了优化,在聚类质量上会有很大的提升,可以有效的应用于数据的聚类分析。
用簇内变异系数表示簇的簇内凝聚度,用簇间变异系数表示簇的簇间分离度,当凝聚度和分离度均达到最大时,聚类效果最优。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为基于变异系数自动确认簇数量的聚类算法流程图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,基于变异系数自动确认簇数量的聚类方法,包括:
Step1:计算数据集中每个数据点的密度值ρx,根据密度值计算密度指数DI,选择密度指数最大的数据点作为第一个聚类中心。
Step2:计算每个数据点与当前已有聚类中心之间的最短距离D(x),然后根据距离大小计算每个数据点被选为下一个聚类中心的概率P(x),最后按轮盘法选择预选聚类中心,当预选聚类中心的密度指数达到阈值τ时,才可作为新的聚类中心,否则重新计算选择。
Step3:重复Step2,直到选择k*(k1<k*<k2)个聚类中心,并进行k-means聚类产生k*个簇。
Step5:循环执行Step4,直到聚类效果达到最优。
首先利用密度指数的概念选择初始聚类中心,提高聚类质量。初始聚类中心的选择是通过计算每个数据点的密度值,根据密度值计算密度指数,选择密度指数最大的数据点作为第一个聚类中心,然后根据与已有聚类中心的距离计算数据点被选为下一个聚类中心的概率,以此来确认其他的聚类中心,同时聚类中心的密度指数要达到一定阈值,最后进行k-means算法形成初始聚类。
会议论文的主题多种多样,所以需要对会议论文进行聚类分析,将具有相似主题的论文聚集到一起。但是一开始我们并不知道具体的类别数量,为了获得高质量的聚类效果,所以将提出的自动确认簇数量的聚类算法应用于此。我们以1987年到2015年的NIPS会议论文为实验数据集,主要根据数据集中的会议论文中使用英文单词的次数对会议论文进行聚类分析。该数据集具有11463维属性以及5811个样本数据,并且数据空间S=S1×S2×…×S11463是11463维数据空间,x∈(x1,x2,…,x5811)表示一篇NIPS会议论文中每个单词出现次数的情况。
确认初始会议论文类别的数量,随机确认k*(k1<k*<k2)的值,其中k1和k2均为明显大于目标会议论文类别数量的值。
计算会议论文数据集(S1,S2,…,S11463)中会议论文x的密度值ρx,即与会议论文x的差异度小于或等于密度范围内的会议论文的数量,
其中,num为会议论文的数量,dxy为会议论文数据集中会议论文y与会议论文x的差异度,R为密度范围,f(X)为判断会议论文y与会议论文x的差异度是否小于或等于密度范围R的函数。
根据每篇会议论文的密度值ρx计算其密度指数DI(Density Index),并将密度指数最大的会议论文作为第一个聚类中心,即DImax,并用公式(3)表示,
选择密度指数最大的会议论文为作为第一个聚类中心,是因为基于划分的聚类算法对初始质心的选择较为敏感,选择密度较大的会议论文作为聚类中心可以有效的避开异常的论文数据,从而提高聚类的质量。
计算每个会议论文与当前已有聚类中心的最小的差异度D(x),接着根据差异度计算每个会议论文被选为下一个聚类中心的概率,
对于初始聚类中心的选择,应该选择相互差异度较大的会议论文作为聚类中心,因此,计算每个会议论文被选为聚类中心的概率,与已有聚类中心的差异度越大,则被选中作为聚类中心的概率越大,使得选择出的聚类中心相对离散。
根据概率按轮盘法选择预选聚类中心,由于基于划分的聚类算法对异常值较为敏感,所以设置阈值τ,只有当预选聚类中心的密度指数达到τ时,才可作为正式的聚类中心,否则重新选择新的会议论文作为聚类中心。一直重复此过程直到选择出k*个聚类中心,根据得到的k*个初始聚类中心,进行传统的k-means算法形成k*个簇。
由于初始选择的论文类别数量k*明显大于目标k值,所以需要进行簇的合并将簇的个数减少到k,但是一开始并不知道目标的论文类别数量,所以引入了变异系数的概念,确定何时停止簇的合并。通过计算k*个簇的平均簇内变异系数和最小簇间变异系数的关系确定论文的类别数量是否达到最优,即用簇内变异系数表示簇的簇内凝聚度,用簇间变异系数表示簇的簇间分离度,当凝聚度和分离度均达到最大时,聚类效果最优。
引入变异系数的概念,变异系数是表示数据分布状况的一个统计量,用来反映数据的离散程度,其好处是不需要参照数据的平均值,是一个无量纲量,在比较两组量纲不同或均值不同的数据时,应该用变异系数而不是标准差作为比较的参考,因此采用变异系数计算簇数量的阈值适用于所有类型的数据集。
其含义是一组数据的变异指标与其平均指标之比,即标准差σ与平均值μ的比值,并用公式(5)和(6)表示,
其中,μi为簇i的质心,mi为簇i的会议论文的数量,xj为簇i中的第j篇会议论文。因为,变异系数越大说明会议论文的分布越分散,所以通过计算簇内变异系数来反映每个簇的凝聚度的好坏。
根据变异系数计算任意两个簇之间的簇间变异系数,然后求簇间变异系数的最小值Dmin,并用公式(9)和(10)表示,
Dmin=min{CVij,i=1,2,…,k*,j=1,2,…,k*} (10)
其中,mij为簇i和簇j的会议论文的数量和,μij为簇i和簇j的质心,xl为簇i和簇j中的第l篇会议论文。通过计算簇间变异系数来反映两个簇分离度的好坏。
计算平均簇内变异系数和最小簇间变异系数的差值T,根据差值判断是否需要进行簇的合并,
若T<0,即说明存在簇间变异系数较小的两个簇。簇间变异系数越小,两个簇中的会议论文的分布越凝聚,分离度就越低;由于初始设置的簇的数量大于目标簇的数量,所以平均簇内变异系数均较小且变化幅度比较小,每个簇的凝聚度就越高,所以只需要进行簇的合并。合并的策略是合并分离度最小的两个簇,即簇间变异系数为Dmin的两个簇。
若T≥0,即当0≤T<ε时,差值较小,说明存在簇间变异系数较小的两个簇,簇间变异系数和簇内变异系数越相近,两个簇中会议论文的分布越凝聚,分离度就越低,且每个簇的凝聚度较高,则需要进行簇的合并;当ε≤T时,存在一定的差值,说明簇间变异系数均比较大,簇间变异系数和簇内变异系数相差越大,两个簇中的会议论文分布越离散,分离度就越大,同时每个簇的凝聚度较高,当所有簇之间的分离度达到一定程度时,此时聚类效果良好,可以获得最佳的会议论文类别的数量。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (3)
1.一种基于变异系数自动确认会议论文簇数量的聚类方法,其特征是,包括:
以1987年到2015年的NIPS会议论文为实验数据集,根据数据集中的会议论文中使用英文单词的次数对会议论文进行聚类分析,该数据集具有11463维属性以及5811个样本数据,并且数据空间S=S1×S2×…×S11463是11463维数据空间,x∈(x1,x2,...,x5811)表示一篇NIPS会议论文中每个单词出现次数的情况;
步骤(1)确认初始会议论文类别的数量,随机确认k*(k1<k*<k2)的值,其中k1和k2均为大于目标会议论文类别数量的值,
计算会议论文数据集(S1,S2,…,S11463)中会议论文x的密度值ρx,即与会议论文x的差异度小于或等于密度范围内的会议论文的数量,
其中,num为会议论文的数量,dxy为会议论文数据集中会议论文y与会议论文x的差异度,R为密度范围,f(X)为判断会议论文y与会议论文x的差异度是否小于或等于密度范围R的函数,根据每篇会议论文的密度值ρx计算其密度指数DI,并将密度指数最大的会议论文作为第一个聚类中心,即DImax,表示为,
步骤(2),计算每个会议论文与当前已有聚类中心的最小的差异度D(x),接着根据差异度计算每个会议论文被选为下一个聚类中心的概率,
步骤(3),根据概率按轮盘法选择预选聚类中心,设置阈值τ,只有当预选聚类中心的密度指数达到τ时,才可作为正式的聚类中心,否则重新选择新的会议论文作为聚类中心,一直重复轮盘法直到选择出k*个聚类中心,根据得到的k*个初始聚类中心,进行k-means聚类从而形成k*个簇;
其中,μi为簇i的质心,mi为簇i的会议论文的数量,xj为簇i中的第j篇会议论文,
计算任意两个簇之间的簇间变异系数,然后求簇间变异系数的最小值Dmin,表示为,
Dmin=min{CVij,i=1,2,…,k*,j=1,2,…,k*};
其中,mij为簇i和簇j的会议论文的数量和,μij为簇i和簇j的质心,xl为簇i和簇j中的第1篇会议论文,计算平均簇内变异系数和最小簇间变异系数的差值T,根据差值判断是否需要进行簇的合并,
当ε≤T时,达到最优聚类效果,输出簇的数量以及每个簇所对应的数据点,
2.一种基于变异系数自动确认会议论文簇数量的聚类***,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1所述的步骤。
3.一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时,完成权利要求1所述的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810864958.3A CN109063769B (zh) | 2018-08-01 | 2018-08-01 | 基于变异系数自动确认簇数量的聚类方法、***及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810864958.3A CN109063769B (zh) | 2018-08-01 | 2018-08-01 | 基于变异系数自动确认簇数量的聚类方法、***及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109063769A CN109063769A (zh) | 2018-12-21 |
CN109063769B true CN109063769B (zh) | 2021-04-09 |
Family
ID=64832407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810864958.3A Active CN109063769B (zh) | 2018-08-01 | 2018-08-01 | 基于变异系数自动确认簇数量的聚类方法、***及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109063769B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027585B (zh) * | 2019-10-25 | 2023-04-07 | 南京大学 | 一种基于k-means++质心初始化的k-means算法硬件实现方法及*** |
CN111368876A (zh) * | 2020-02-11 | 2020-07-03 | 广东工业大学 | 一种双阈值顺序聚类方法 |
CN111476270B (zh) * | 2020-03-04 | 2024-04-30 | 中国平安人寿保险股份有限公司 | 基于K-means算法的课程信息确定方法、装置、设备及存储介质 |
CN111833171B (zh) * | 2020-03-06 | 2021-06-25 | 北京芯盾时代科技有限公司 | 异常操作检测和模型训练方法、装置以及可读存储介质 |
CN111507428B (zh) * | 2020-05-29 | 2024-01-05 | 深圳市商汤科技有限公司 | 数据处理方法及装置、处理器、电子设备、存储介质 |
CN112070387B (zh) * | 2020-09-04 | 2023-09-26 | 北京交通大学 | 一种复杂传播环境的多径分量聚簇性能评估的方法 |
CN112053063B (zh) * | 2020-09-08 | 2023-12-19 | 山东大学 | 面向能源***规划设计的负荷分区方法及*** |
CN113378682B (zh) * | 2021-06-03 | 2023-04-07 | 山东省科学院自动化研究所 | 基于改进型聚类算法的毫米波雷达跌倒检测方法及*** |
CN113301600A (zh) * | 2021-07-27 | 2021-08-24 | 南京中网卫星通信股份有限公司 | 卫星与无线通信融合网络性能的异常数据检测方法和装置 |
CN116109933B (zh) * | 2023-04-13 | 2023-06-23 | 山东省土地发展集团有限公司 | 一种用于废弃矿山生态修复的动态识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105139282A (zh) * | 2015-08-20 | 2015-12-09 | 国家电网公司 | 一种电网指标数据处理方法、装置以及计算设备 |
CN105488589A (zh) * | 2015-11-27 | 2016-04-13 | 江苏省电力公司电力科学研究院 | 一种基于遗传模拟退火算法的电网线损管理评价方法 |
CN106570729A (zh) * | 2016-11-14 | 2017-04-19 | 南昌航空大学 | 基于空调可靠性影响因素的区域聚类方法 |
CN107133652A (zh) * | 2017-05-17 | 2017-09-05 | 国网山东省电力公司烟台供电公司 | 基于K‑means聚类算法的用电客户价值评估方法及*** |
CN107229751A (zh) * | 2017-06-28 | 2017-10-03 | 济南大学 | 一种面向流式数据的并行增量式关联规则挖掘方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8473215B2 (en) * | 2003-04-25 | 2013-06-25 | Leland Stanford Junior University | Method for clustering data items through distance-merging and density-merging techniques |
-
2018
- 2018-08-01 CN CN201810864958.3A patent/CN109063769B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105139282A (zh) * | 2015-08-20 | 2015-12-09 | 国家电网公司 | 一种电网指标数据处理方法、装置以及计算设备 |
CN105488589A (zh) * | 2015-11-27 | 2016-04-13 | 江苏省电力公司电力科学研究院 | 一种基于遗传模拟退火算法的电网线损管理评价方法 |
CN106570729A (zh) * | 2016-11-14 | 2017-04-19 | 南昌航空大学 | 基于空调可靠性影响因素的区域聚类方法 |
CN107133652A (zh) * | 2017-05-17 | 2017-09-05 | 国网山东省电力公司烟台供电公司 | 基于K‑means聚类算法的用电客户价值评估方法及*** |
CN107229751A (zh) * | 2017-06-28 | 2017-10-03 | 济南大学 | 一种面向流式数据的并行增量式关联规则挖掘方法 |
Non-Patent Citations (2)
Title |
---|
Detecting cluster numbers based on density changes using density-index enhanced Scale-invariant density-based clustering initialization algorithm;Onapa Limwattanapibool等;《2017 9th International Conference on Information Technology and Electrical Engineering》;20180111;第1-5页 * |
聚类K-means算法的应用研究;石云平;《理论与方法》;20090831;第28-31页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109063769A (zh) | 2018-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109063769B (zh) | 基于变异系数自动确认簇数量的聚类方法、***及介质 | |
CN101853389A (zh) | 多类目标的检测装置及检测方法 | |
CN111914090A (zh) | 一种企业行业分类识别及其特征污染物识别的方法及装置 | |
WO2009099448A1 (en) | Methods and systems for score consistency | |
US7818322B2 (en) | Efficient method for clustering nodes | |
CN110111113B (zh) | 一种异常交易节点的检测方法及装置 | |
CN112639842A (zh) | 使用机器学习模型来抑制偏差数据 | |
CN111339247B (zh) | 一种微博子话题用户评论情感倾向性分析方法 | |
CN109101633B (zh) | 一种层次聚类方法及装置 | |
CN115686432B (zh) | 一种用于检索排序的文献评价方法、存储介质及终端 | |
CN111625578B (zh) | 适用于文化科技融合领域时间序列数据的特征提取方法 | |
CN113111063A (zh) | 一种应用于多数据源的医疗患者主索引发现方法 | |
WO2023050652A1 (zh) | 基于文本识别的区域内esg指数确定方法及相关产品 | |
CN115544257B (zh) | 网盘文档快速分类方法、装置、网盘及存储介质 | |
CN111914930A (zh) | 一种基于自适应微簇融合的密度峰值聚类方法 | |
CN110991517A (zh) | 一种面向脑卒中非平衡数据集的分类方法及*** | |
CN111652733A (zh) | 基于云计算和区块链的金融信息管理*** | |
Qi et al. | Object retrieval with image graph traversal-based re-ranking | |
Ren et al. | Multivariate functional data clustering using adaptive density peak detection | |
CN111861706A (zh) | 数据离散化调控方法及***以及风险控制模型建立方法及*** | |
Choo et al. | Automatic folder allocation system for electronic text document repositories using enhanced Bayesian classification approach | |
Gonçalves et al. | Approaching authorship attribution as a multi-view supervised learning task | |
Li | Text Classification Retrieval Based on Complex Network and ICA Algorithm. | |
AlSaif | Large scale data mining for banking credit risk prediction | |
CN117332303B (zh) | 一种用于集群的标签纠正方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |