CN105956628B - 数据分类方法和用于数据分类的装置 - Google Patents

数据分类方法和用于数据分类的装置 Download PDF

Info

Publication number
CN105956628B
CN105956628B CN201610318133.2A CN201610318133A CN105956628B CN 105956628 B CN105956628 B CN 105956628B CN 201610318133 A CN201610318133 A CN 201610318133A CN 105956628 B CN105956628 B CN 105956628B
Authority
CN
China
Prior art keywords
clustering
data
class
variance
intra
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610318133.2A
Other languages
English (en)
Other versions
CN105956628A (zh
Inventor
刘朋飞
王晓
葛胜利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201610318133.2A priority Critical patent/CN105956628B/zh
Publication of CN105956628A publication Critical patent/CN105956628A/zh
Application granted granted Critical
Publication of CN105956628B publication Critical patent/CN105956628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据分类方法和用于数据分类的装置,涉及大数据处理领域。其中的数据分类方法包括:按照各个预定聚类个数对数据集分别进行聚类,并根据每次聚类后各个类的类内方差确定该次聚类的方差;按照各个预定聚类个数由小到大的顺序,当相邻两次聚类的方差的变化程度第一次小于预设值时,将相邻两次聚类中选用的较大聚类个数确定为实际聚类个数;按照实际聚类个数对数据集进行聚类,并按照聚类结果对数据集进行分类。通过预先进行多次聚类,并根据各次聚类的类内方差的变化趋势确定实际聚类个数,使聚类个数更合理,从而提升了按照聚类结果进行数据分类的准确性。

Description

数据分类方法和用于数据分类的装置
技术领域
本发明涉及大数据处理领域,尤其涉及一种数据分类方法和用于数据分类的装置。
背景技术
聚类技术属于一种数据挖掘中常用的无监督学习方法,采用距离或相似度等度量指标对样本进行划分,把相似的样本划分到相同的集合里面,不相似的样本划分到不同的集合里面。
然而,对于Kmeans(K均值聚类)等需要预先指定聚类数量的聚类算法,其中的聚类个数多是人工设定或算法直接给出,导致聚类效果不够准确,进而使得基于聚类结果进行数据分类的分类效果不够准确,可用性差。
发明内容
本发明实施例所要解决的一个技术问题是:提高数据分类的准确度。
根据本发明实施例的第一个方面,提供了一种数据分类方法,包括:按照各个预定聚类个数对数据集分别进行聚类,并根据每次聚类后各个类的类内方差确定该次聚类的方差;按照各个预定聚类个数由小到大的顺序,当相邻两次聚类的方差的变化程度第一次小于预设值时,将相邻两次聚类中选用的较大聚类个数确定为实际聚类个数;按照实际聚类个数对数据集进行聚类,并按照聚类结果对数据集进行分类。
在一个实施例中,将每次聚类后的类内所有数据点的均值作为类内均值,将类内各个数据点与类内均值之差的平方的总和作为该类的类内方差,将每次聚类后各个类的类内方差的和或者均值确定为该次聚类的方差。
在一个实施例中,在按照各个预定聚类个数对数据集分别进行聚类之前,方法还包括:将数据集中各数据点的邻域密度与邻域密度平均值进行比较,并剔除邻域密度小于邻域密度平均值的数据点;或者,计算数据集中各数据点的同一维度的元素值的均值和方差,将同一维度的元素的均值与若干倍的方差的和与差分别作为预设范围的上限和下限,并剔除该维度的元素值超过预设范围的数据点。
在一个实施例中,在按照各个预定聚类个数对数据集分别进行聚类之前,方法还包括:如果数据集中的数据点为具有至少两个维度的向量,计算不同维度之间的相关性,对于相关性大于预设值的不同维度,保留其中任意一个维度。
在一个实施例中,在根据各个预定聚类个数对数据集进行聚类之前,方法还包括:如果数据集中的数据点为具有至少两个维度的向量,根据每个维度的元素的均值和标准差分别对各个维度的元素进行标准化处理。
在一个实施例中,采用Kmeans聚类算法对数据集进行聚类。
根据本发明实施例的第二个方面,提供一种用于数据分类的装置,包括:预聚类模块,用于按照各个预定聚类个数对数据集分别进行聚类;类内方差确定模块,用于根据每次聚类后各个类的类内方差确定该次聚类的方差;实际聚类个数确定模块,用于按照各个预定聚类个数由小到大的顺序,当相邻两次聚类的方差的变化程度第一次小于预设值时,将相邻两次聚类中选用的较大聚类个数确定为实际聚类个数;分类模块,用于按照实际聚类个数对数据集进行聚类,并按照聚类结果对数据集进行分类。
在一个实施例中,类内方差确定模块用于将每次聚类后的类内所有数据点的均值作为类内均值,将类内各个数据点与类内均值之差的平方的总和作为该类的类内方差,将每次聚类后各个类的类内方差的和或者均值确定为该次聚类的方差。
在一个实施例中,还包括数据点处理模块,数据点处理模块包括第一数据点处理单元或者第二数据点处理单元;第一数据点处理单元用于将数据集中各数据点的邻域密度与邻域密度平均值进行比较,并剔除邻域密度小于邻域密度平均值的数据点;第二数据点处理单元用于计算数据集中各数据点的同一维度的元素值的均值和方差,将同一维度的元素的均值与若干倍的方差的和与差分别作为预设范围的上限和下限,并剔除该维度的元素值超过预设范围的数据点。
在一个实施例中,还包括维度筛选模块,用于当数据集中的数据点为具有至少两个维度的向量时,计算不同维度之间的相关性,对于相关性大于预设值的不同维度,保留其中任意一个维度。
在一个实施例中,还包括标准化模块,用于当数据集中的数据点为具有至少两个维度的向量时,根据每个维度的元素的均值和标准差分别对各个维度的元素进行标准化处理。
在一个实施例中,预聚类模块和分类模块采用Kmeans聚类算法对数据集进行聚类。
根据本发明实施例的第三个方面,提供一种用于数据分类的装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述任意一种数据分类方法。
本发明预先进行多次聚类,并根据各次聚类的类内方差的变化趋势确定实际聚类个数,使聚类个数更合理,从而提升了按照聚类结果进行数据分类的准确性。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明数据分类方法的一个实施例的流程图。
图2为各次聚类的方差的变化趋势的曲线示意图。
图3为本发明数据分类方法的另一个实施例的流程图。
图4为本发明用于数据分类的装置的一个实施例的结构图。
图5为本发明用于数据分类的装置的另一个实施例的结构图。
图6为本发明用于数据分类的装置的又一个实施例的结构图。
图7为可以实施本发明用于数据分类的装置的计算机***的示例性硬件配置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面参考图1描述本发明一个实施例的数据分类方法。该方法预先进行多次聚类,并根据各次聚类的类内方差的变化趋势确定实际聚类个数,然后按照实际聚类个数进行聚类。
图1为本发明数据分类方法的一个实施例的流程图。如图1所示,该实施例的方法包括:
步骤S112,按照各个预定聚类个数对数据集分别进行聚类,并根据每次聚类后各个类的类内方差确定该次聚类的方差。
在本发明中,进行聚类所采用的算法为需要预先指定聚类个数的聚类算法,例如Kmeans算法等,但不限于所列举的具体聚类算法。
其中,数据集包含具有相同维度的若干数据点,数据点可以是一维的,也可以是多维的。例如,根据用户购买前考虑时长和浏览品类数量两维信息构成的数据集U={U1(T1,N1),U2(T2,N2),…,Uk(Tk,Nk)},其中,数据集U包括k个用户数据点,Uk(Tk,Nk)表示第k个用户数据点,Tk和Nk分别表示该第k个用户数据点的购买前考虑时长和浏览品类数量。除了用户购买前考虑时长和浏览品类数量以外,还可以将例如收藏夹商品数量、阅读评价数量、订阅数量、相似商品浏览数量等指标作为维度信息。根据需要,本领域计算人员也可以选择其他类型的指标作为数据源,这里不再赘述。
预定聚类个数为预先设定的进行聚类的个数,可以指定若干整数,也可以指定一个范围,该范围中的各个整数即为预定聚类个数。
在计算各个类的类内方差和各次聚类的方差时,将每次聚类后的类内所有数据点的均值作为类内均值,将类内各个数据点与类内均值之差的平方的总和作为该类的类内方差,将每次聚类后各个类的类内方差的和或者均值确定为该次聚类的方差。具体地,例如可以采用如下方法。首先计算各个类的类内方差:将类内所有数据点的均值作为类内均值,将类内各个数据点与类内均值之差的平方的总和作为每次聚类后各个类的类内方差。设类内共有n个数据点,每个数据点采用xi表示,u为该类中所有数据点的均值,则该类的类内方差var(x)的计算方法如公式(1)所示:
Figure BDA0000989140570000051
然后计算各次聚类的方差,每次聚类的方差根据该次聚类后各个类的类内方差的和或者均值确定,即将每次聚类后各个类的类内方差的和或者均值作为该次聚类的方差。
步骤S114,按照各个预定聚类个数由小到大的顺序,当相邻两次聚类的方差的变化程度第一次小于预设值时,将相邻两次聚类中选用的较大聚类个数确定为实际聚类个数。
为了形象地表示各次聚类的方差的变化趋势,例如可以参考图2,将各个预定聚类个数以及相应的方差分别作为横、纵坐标绘制曲线。以图2为例,观察曲线变化趋势,以横坐标为4的点为界,在其之前y值急剧下降,在其之后y值缓慢下降,横坐标为4的点为该曲线所代表的变化趋势的转折点。即当聚类数量为4时,既能够使聚类结果中各个类之间具有区分度,又能够保证各个类的内部数据之间具有较高的相似度。因此,可以将该分界点处对应的预定聚类个数作为实际聚类个数。
上述通过观察曲线获得类内方差的变化趋势的方法并非限制性的,而是示意性的辅助手段。根据需要,本领域技术人员可以采用直接观察数据、计算相邻数据差值等其他方法获知各次聚类的方差的变化趋势。例如,还可以按照各个预定聚类个数由小到大的顺序,当相邻两次聚类的方差的差值第一次小于预设值时,将相邻两次聚类中选用的较大聚类个数确定为实际聚类个数。
步骤S116,按照实际聚类个数对数据集进行聚类,并按照聚类结果对数据集进行分类。其中,本步骤采用的聚类算法与步骤S112中的聚类算法相同。
以Kmeans算法为例,聚类过程如下:
1、随机选择k个类的初始中心,其中,k的值为确定的实际聚类个数。
2、对所有数据点,计算其到k个中心的距离,将该数据点归属到距离最短的中心所在类。
3、更新各个类的中心点。
4、判断是否达到设定的收敛条件(或称停止条件),如果不满足,返回到2-3步骤进行继续迭代;如果满足,则停止迭代,该聚类中心为最优聚类中心。
其中,聚类收敛条件例如可以采用以下两种方法设定。第一种方法为,当聚类过程中的迭代次数达到预设迭代次数时,停止聚类。一般地,随着迭代次数的增长,计算时间会增长,但更容易收敛。因此,本领域技术人员可以根据数据量、计算能力等参考因素设定预设迭代次数。第二种方法为,计算迭代后更新的聚类中心与原始聚类中心的距离,如果该距离小于预设距离,停止聚类。迭代前后聚类中心的变化反映了类内数据的变化,因此可以用于判断聚类是否达到收敛。
本发明预先进行多次聚类,并根据各次聚类的类内方差的变化趋势确定实际聚类个数,使聚类个数更合理,从而提升了按照聚类结果进行数据分类的准确性。
由于部分聚类算法对数据较为敏感,当数据理想时,往往能够获得更好的效果,因此在进行聚类之前,还可以对数据集中的数据进行预处理,以优化聚类结果。预处理的过程例如可以包括数据标准化、离群点处理、维度筛选等操作。下面参考图3描述本发明另一个实施例的数据分类方法。
图3为本发明数据分类方法的另一个实施例的流程图。如图3所示,该实施例的方法包括以下步骤:
步骤S302,对数据集内的数据点的各个维度进行标准化处理。
标准化处理的一个实施例包括,如果数据集中的数据点为具有至少两个维度的向量,根据每个维度的元素的均值和标准差分别对各个维度的元素进行标准化处理。
其中,可以根据业务需要选择性地进行步骤S302。数据的标准化处理是指将数据按比例缩放,使之落入到一个小的特定区间。有时,数据集中的数据点可能存在不同维度之间相差过大或者各个元素对应的原始数据量纲不统一的情况,因此需要进行标准化处理。以数据点的其中两个维度分别为购买前考虑时长和浏览品类数量两个指标为例,购买前考虑时长是以时间为单位,浏览品类数量是以个数为单位,二者的量纲不统一,数值差距也较大。因此,通过标准化的方法,可以消除各指标间的量纲差异,使各个数据处于可比较的状态。
标准化处理的过程例如可以采用如下方法。设数据集中的n个数据点分别为x1、x2……xn,则数据集中数据的均值(mean)和方差(std)分别采用公式(2)和(3)计算获得:
Figure BDA0000989140570000071
Figure BDA0000989140570000072
对于数据点x1、x2……xn中的任意一个数据点xi,可以采用公式(4)计算获得标准化处理后的数据点xi’:
Figure BDA0000989140570000073
通过采用上述方法,可以使数据点落入到一个较小的特定区间,便于统一量纲,使不同单位的指标能够进行比较和加权。
除了上述方法外,本领域技术人员还可以采用归一化等方法对数据集中的数据点进行标准化处理。
步骤S304,对数据集中的各个数据点进行筛选,以便保留可靠数据,剔除离群点。
数据集中的具有极端大值或极端小值的点称为离群点。例如,数据集中的数据点代表用户,数据点中的某一个维度代表各个用户的购买前考虑时长。对于10个用户来说,其中9个用户的购买前考虑时长为2、3、1、4、3、5、6、3、2,单位为天,而第10个用户的购买前考虑时长为400天。如果将该用户对应的用户向量参与聚类,很可能使聚类结果不准确。由于极端值的存在会影响算法精度,因此需要筛选数据点,对离群点进行检测和剔除。
下面对剔除离群点的方法进行举例说明。
第一种方法为基于密度的处理方法,将数据集中各数据点的邻域密度与邻域密度平均值进行比较,并剔除邻域密度小于邻域密度平均值的数据点。具体的,首先对邻域的范围进行设定,某一数据点的邻域例如可以为与该数据点距离最近的K个点;然后,计算数据集中各个数据点的邻域密度与平均密度,某一数据点的邻域密度例如可以为该点到其邻域中各个点的平均距离的倒数,数据集的邻域密度平均值为所有数据点的邻域密度的平均值;最后,比较各个数据点的邻域密度与数据集的平均密度,剔除邻域密度低于平均密度的数据点。基于密度的处理方法考虑了各个维度的信息,综合性较强。
第二种方法为基于均值和方差的处理方法,计算数据集中各数据点的同一维度的元素值的均值和标准差,将同一维度的元素的均值与若干倍的标准差的和与差分别作为预设范围的上限和下限,并剔除该维度的元素值超过预设范围的数据点。以选取第一维度为例,首先计算各个数据点的第一个元素所组成的数据集的均值和标准差;然后,将同一维度的元素的均值与若干倍的标准差的和与差分别作为预设范围的上限和下限,例如将均值与3倍标准差的和作为预设范围上限,将均值与3倍标准差的差作为预设范围下限;最后,剔除数据集中元素的第一维度大于预设范围上限或者小于预设范围下限的数据点。基于均值和标准差的方法计算过程较为简单,计算量小。
第三种方法,还可以采用基于四分位数的处理方法。四分位数(Quartile)的含义为,将所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。三个分割点由小到大依次为:第一四分位数(Q1,又称下四分位数)、第二四分位数(Q2,又称为中位数)、第三四分位数(Q3,又称上四分位数),Q3与Q1的差又称四分位距(IQR,InterQuartile Range)。基于四分位数的处理方法例如可以为:确定数据集中数据处于相同维度的元素的四分位数以及四分位距,将同一维度的元素的上四分位数与若干倍的四分位距的和以及下四分位数与若干倍的四分位距的差分别作为预设范围的上限和下限,并剔除该维度的元素值超过预设范围的数据点。例如,可以将(Q3+3*IQR)作为预设范围的上限,将(Q1-3*IQR)作为预设范围的下限。分位数的划分方法符合实际数据的分布,在后续处理中的鲁棒性强。
通过采用上述方法进行数据点筛选,能够去除离群点,保留可靠的数据点,提高聚类的精度和效果。
上述各个方法为数据点筛选的示意性方法,根据需要,还可以采用其他方法,这里不再赘述。本领域计算人员可以根据业务需要选择性地进行步骤S304。此外,步骤S304可以在步骤S302之前进行,也可以在步骤S302之后进行。
步骤S306,对数据集中的数据点进行维度筛选,以去除冗余维度。
维度筛选的一个实施例包括,如果数据集中的数据点为具有至少两个维度的向量,计算不同维度之间的相关性。对于相关性大于预设值的不同维度,保留其中任意一个维度。
例如,数据点中的其中两个维度对应购买前考虑时长和阅读评价数量。如果上述两个指标的相关性大于预设值,说明购买前考虑时长较长的用户往往阅读较多的评价数量,因此可以任意保留其中一个用户特征指标用来代表用户的这一特性,从而减少了聚类时的冗余程度。
其中,可以采用相关性系数、基尼系数、相对熵等指标体现相关性。下面以相关性系数为例,详细介绍不同维度之间的相关性的其中一种计算方法。
首先,确定数据点的待计算的两个维度,设其分别为第一维度和第二维度;然后,建立数量等于数据点数量的第一向量,第一向量的维度等于数据点的维度,各个第一向量的第一个元素为各个数据点中的第一维度对应的元素,各个第一向量的第一个元素以外的其他元素为0;之后,建立数量等于数据点数量的第二向量,第二向量的维度等于数据点的维度,各个第二向量的第一个元素为各个数据点中的第二维度对应的元素,各个第二向量的第一个元素以外的其他元素为0;最后,根据所有第一向量的和以及平方和、所有第二向量的和以及平方和、具有对应关系的第一向量与第二向量之积的和计算第一维度和第二维度的相关系数,将上述相关系数作为第一维度和第二维度的相关性。
例如,可以参考以下公式计算相关度。设X为第一向量,Y为与X对应的第二向量,则第一维度和第二维度的相关性r可以采用公式(5)进行计算:
Figure BDA0000989140570000101
通过采用相关性作为度量进行维度筛选,将统计学中的计算方法引入聚类算法的预处理中,可以保留关键维度,避免数据冗余,提升聚类的准确性。
其中,可以根据业务需要选择性地进行步骤S306。
然后,进行如下预聚类和实际聚类的步骤:
步骤S112,按照各个预定聚类个数对数据集分别进行聚类,并根据每次聚类后各个类的类内方差确定该次聚类的方差。
步骤S114,按照各个预定聚类个数由小到大的顺序,当相邻两次聚类的方差的变化程度第一次小于预设值时,将相邻两次聚类中选用的较大聚类个数确定为实际聚类个数。
步骤S116,按照实际聚类个数对数据集进行聚类,并按照聚类结果对数据集进行分类。
通过在聚类前对数据进行预处理,能够去除无效和冗余的数据,在减少聚类过程中的计算量的同时提升了聚类的准确度。
本发明提供的聚类算法可以用于各类实际应用场景,例如数据分析、用户分类等等。
以电子商务网站中的用户分类为例。首先获取包含用户向量的数据集,用户向量中的各个元素为用户的特征指标,以选取的特征指标为用户的购买前考虑时长、浏览商品的品类数量为例;然后,采用上述各个实施例的数据分类方法确定实际聚类个数,对数据集中的用户向量进行聚类,获得聚类结果;最后,对聚类结果进行解读,形成用户分类结果。例如,聚类结果中包含四类,可以对这四类中所包含的用户的特征的数值特点进行分析归纳,以达到用户分类和定性的目的。分类的结果例如可以参考表1。获得分类结果后,还可以将分类结果加工为标准的结构化数据,以数据库、分布式文件、xml(Extensible MarkupLanguage,可标记扩展语义)文件或文本文件等形式进行存储,供下游经数据库***、应用接口、互联网传输协议等渠道进行调用。
Figure BDA0000989140570000111
表1
下面参考图4描述本发明一个实施例的用于数据分类的装置。
图4为本发明用于数据分类的装置的一个实施例的结构图。如图4所示,该实施例的装置包括:预聚类模块42,用于按照各个预定聚类个数对数据集分别进行聚类;类内方差确定模块44,用于根据每次聚类后各个类的类内方差确定该次聚类的方差;实际聚类个数确定模块46,用于按照各个预定聚类个数由小到大的顺序,当相邻两次聚类的方差的变化程度第一次小于预设值时,将相邻两次聚类中选用的较大聚类个数确定为实际聚类个数;分类模块48,用于按照实际聚类个数对数据集进行聚类,并按照聚类结果对数据集进行分类。
本发明预先进行多次聚类,并根据各次聚类的类内方差的变化趋势确定实际聚类个数,使聚类个数更合理,从而提升了按照聚类结果进行数据分类的准确性。
其中,聚类所采用的算法为需要预先指定聚类数量的聚类算法,例如Kmeans算法等。
其中,类内方差确定模块44可以将每次聚类后的类内所有数据点的均值作为类内均值,将类内各个数据点与类内均值之差的平方的总和作为该类的类内方差,将每次聚类后各个类的类内方差的和或者均值确定为该次聚类的方差。
其中,实际聚类个数确定模块46可以用于按照各个预定聚类个数由小到大的顺序,当相邻两次聚类的方差的差值第一次小于预设值时,将相邻两次聚类中选用的较大聚类个数确定为实际聚类个数。
下面参考图5描述本发明另一个实施例的用于数据分类的装置。
图5为本发明用于数据分类的装置的另一个实施例的结构图。如图5所示,该实施例的装置还包括标准化模块52、数据点处理模块54、维度筛选模块56中的一个或多个。
标准化模块52用于当数据集中的数据点为具有至少两个维度的向量时,根据每个维度的元素的均值和标准差分别对各个维度的元素进行标准化处理。通过采用标准化模块52,可以使数据点落入到一个较小的特定区间,便于统一量纲,使不同单位的指标能够进行比较和加权。
数据点处理模块54包括第一数据点处理单元542或者第二数据点处理单元544;第一数据点处理单元542用于将数据集中各数据点的邻域密度与邻域密度平均值进行比较,并剔除邻域密度小于邻域密度平均值的数据点;第二数据点处理单元544用于计算数据集中各数据点的同一维度的元素值的均值和方差,将同一维度的元素的均值与若干倍的方差的和与差分别作为预设范围的上限和下限,并剔除该维度的元素值超过预设范围的数据点。通过采用上述方法进行数据点筛选,能够去除离群点,保留可靠的数据点,提高聚类的精度和效果。
维度筛选模块56用于当数据集中的数据点为具有至少两个维度的向量时,计算不同维度之间的相关性,对于相关性大于预设值的不同维度,保留其中任意一个维度。通过采用相关性作为度量进行维度筛选,将统计学中的计算方法引入聚类算法的预处理中,可以保留关键维度,避免数据冗余,提升聚类的准确性。
下面参考图6描述本发明又一个实施例的用于数据分类的装置。
图6为本发明用于数据分类的装置的又一个实施例的结构图。如图6所示,该实施例的装置包括:存储器64以及耦接至该存储器64的处理器62,处理器62被配置为基于存储在存储器64中的指令,执行前述任意一个实施例中的数据分类方法。存储器64中还可以存储前述实施例的方法中待处理或处理后的数据,例如待分类的数据集、各次聚的方差、各个类的类内方差、分类结果等等。
此外,在一个设备中,存储器64和处理器62可以通过总线(BUS)耦合。
图7为可以实施本发明用于数据分类的装置的计算机***的示例性硬件配置的框图。
如图7所示,计算机***7000包括处理器62和存储器,存储器例如可以包括***存储器7430、固定非易失性存储器7441等等,还可以包括SD卡、U盘等设备。处理器62和***存储器7430可经由***总线7121连接。计算机***7000还可例如包括固定非易失性存储器接口7140、移动非易失性存储器接口7150、用户输入输出接口7190和网络接口7170。
***存储器7430例如存储有Boot Loader程序7433、操作***7434、应用程序7435、其它程序模块7436和某些程序数据7437。
诸如闪存(Flash)芯片之类的固定非易失性存储器7441可例如连接到固定非易失性存储器接口7140。固定非易失性存储器7441例如可以存储Boot Loader程序7443、操作***7444、应用程序7445、其它程序模块7446和某些程序数据7447。
诸如通用串行总线(USB)接口7151和安全数字卡(SD卡)插口7155之类的可移动非易失性存储器接口可例如连接到可移动非易失性存储器接口7150。例如USB盘之类的可移动非易失性存储器可连接到所述USB接口7151,例如SD卡之类的器件可连接到所述SD卡插口7155。
计算机***7000还可包括诸如触摸屏之类的视频输出设备和用户输入设备。
计算机***7000可以通过网络接口7170连接到远程计算机,以便通过网络进行数据的传输等操作。
图7所示的计算机***仅仅是说明性的一个示例,而决不意图对本发明、其应用或用途的任何限制。
图7所示的计算机***可以被实施于任何实施例,可作为独立计算机,也可作为设备中的处理***,可以移除一个或多个不必要的组件,也可以向其添加一个或多个附加的组件。例如,网络接口2170可以任何其他方式实现。处理单元可以包含一个或多个处理器。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种数据分类方法,其特征在于,包括:
按照各个预定聚类个数对数据集分别进行聚类,并根据每次聚类后各个类的类内方差确定该次聚类的方差,其中,所述该次聚类的方差为每次聚类后各个类的类内方差的和或者均值,数据集包括用户向量,用户向量中的各个元素为用户的特征指标,所述特征指标包括用户购买前考虑时长、浏览品类数量以外、收藏夹商品数量、阅读评价数量、订阅数量、相似商品浏览数量中的至少一个;
按照所述各个预定聚类个数由小到大的顺序,当相邻两次聚类的方差的变化程度第一次小于预设值时,将相邻两次聚类中选用的较大聚类个数确定为实际聚类个数;
按照所述实际聚类个数对数据集进行聚类,并按照聚类结果对数据集进行分类,形成用户分类结果;
将所述用户分类结果加工为标准的结构化数据并进行存储,以便供下游渠道调用并进行数据分析。
2.根据权利要求1所述的方法,其特征在于,将每次聚类后的类内所有数据点的均值作为类内均值,将类内各个数据点与类内均值之差的平方的总和作为该类的类内方差。
3.根据权利要求1或2所述的方法,其特征在于,在按照各个预定聚类个数对数据集分别进行聚类之前,所述方法还包括:
将数据集中各数据点的邻域密度与邻域密度平均值进行比较,并剔除邻域密度小于邻域密度平均值的数据点;
或者,计算数据集中各数据点的同一维度的元素值的均值和标准差,将所述同一维度的元素的均值与若干倍的标准差的和与差分别作为预设范围的上限和下限,并剔除该维度的元素值超过所述预设范围的数据点。
4.根据权利要求1或2所述的方法,其特征在于,在按照各个预定聚类个数对数据集分别进行聚类之前,所述方法还包括:
如果数据集中的数据点为具有至少两个维度的向量,计算不同维度之间的相关性,对于相关性大于预设值的不同维度,保留其中任意一个维度。
5.根据权利要求1或2所述的方法,其特征在于,在根据各个预定聚类个数对数据集进行聚类之前,所述方法还包括:
如果数据集中的数据点为具有至少两个维度的向量,根据每个维度的元素的均值和标准差分别对各个维度的元素进行标准化处理。
6.根据权利要求1或2所述的方法,其特征在于,采用Kmeans聚类算法对数据集进行聚类。
7.一种用于数据分类的装置,其特征在于,包括:
预聚类模块,用于按照各个预定聚类个数对数据集分别进行聚类;
类内方差确定模块,用于根据每次聚类后各个类的类内方差确定该次聚类的方差,其中,所述该次聚类的方差为每次聚类后各个类的类内方差的和或者均值,数据集包括用户向量,用户向量中的各个元素为用户的特征指标,所述特征指标包括用户购买前考虑时长、浏览品类数量以外、收藏夹商品数量、阅读评价数量、订阅数量、相似商品浏览数量中的至少一个;
实际聚类个数确定模块,用于按照所述各个预定聚类个数由小到大的顺序,当相邻两次聚类的方差的变化程度第一次小于预设值时,将相邻两次聚类中选用的较大聚类个数确定为实际聚类个数;
分类模块,用于按照所述实际聚类个数对数据集进行聚类,并按照聚类结果对数据集进行分类,形成用户分类结果,以便将所述用户分类结果加工为标准的结构化数据并进行存储,供下游渠道调用并进行数据分析。
8.根据权利要求7所述的装置,其特征在于,所述类内方差确定模块用于将每次聚类后的类内所有数据点的均值作为类内均值,将类内各个数据点与类内均值之差的平方的总和作为该类的类内方差。
9.根据权利要求7或8所述的装置,其特征在于,还包括数据点处理模块,所述数据点处理模块包括第一数据点处理单元或者第二数据点处理单元;
所述第一数据点处理单元用于将数据集中各数据点的邻域密度与邻域密度平均值进行比较,并剔除邻域密度小于邻域密度平均值的数据点;
所述第二数据点处理单元用于计算数据集中各数据点的同一维度的元素值的均值和标准差,将所述同一维度的元素的均值与若干倍的标准差的和与差分别作为预设范围的上限和下限,并剔除该维度的元素值超过所述预设范围的数据点。
10.根据权利要求7或8所述的装置,其特征在于,还包括维度筛选模块,用于当数据集中的数据点为具有至少两个维度的向量时,计算不同维度之间的相关性,对于相关性大于预设值的不同维度,保留其中任意一个维度。
11.根据权利要求7或8所述的装置,其特征在于,还包括标准化模块,用于当数据集中的数据点为具有至少两个维度的向量时,根据每个维度的元素的均值和标准差分别对各个维度的元素进行标准化处理。
12.根据权利要求7或8所述的装置,其特征在于,所述预聚类模块和所述分类模块采用Kmeans聚类算法对数据集进行聚类。
13.一种用于数据分类的装置,其特征在于,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1至7中任一项所述的数据分类方法。
14.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1至7中任一项所述的数据分类方法。
CN201610318133.2A 2016-05-13 2016-05-13 数据分类方法和用于数据分类的装置 Active CN105956628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610318133.2A CN105956628B (zh) 2016-05-13 2016-05-13 数据分类方法和用于数据分类的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610318133.2A CN105956628B (zh) 2016-05-13 2016-05-13 数据分类方法和用于数据分类的装置

Publications (2)

Publication Number Publication Date
CN105956628A CN105956628A (zh) 2016-09-21
CN105956628B true CN105956628B (zh) 2021-01-26

Family

ID=56911525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610318133.2A Active CN105956628B (zh) 2016-05-13 2016-05-13 数据分类方法和用于数据分类的装置

Country Status (1)

Country Link
CN (1) CN105956628B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106940803B (zh) * 2017-02-17 2018-04-17 平安科技(深圳)有限公司 相关变量识别方法和装置
CN107480708A (zh) * 2017-07-31 2017-12-15 微梦创科网络科技(中国)有限公司 一种复杂模型的聚类方法及***
CN107944931A (zh) * 2017-12-18 2018-04-20 平安科技(深圳)有限公司 种子用户拓展方法、电子设备及计算机可读存储介质
CN108171538A (zh) * 2017-12-26 2018-06-15 中国联合网络通信集团有限公司 用户数据处理方法及***
TWI798314B (zh) * 2017-12-28 2023-04-11 日商東京威力科創股份有限公司 資料處理裝置、資料處理方法及資料處理程式
CN108229419B (zh) * 2018-01-22 2022-03-04 百度在线网络技术(北京)有限公司 用于聚类图像的方法和装置
CN108981755B (zh) * 2018-08-16 2020-09-29 国电南瑞科技股份有限公司 转子接地保护直流量平均值计算数据选择方法
CN109376850A (zh) * 2018-11-29 2019-02-22 国网辽宁省电力有限公司抚顺供电公司 一种基于改进bp神经网络状态估计中不良数据的检测方法
CN112148942B (zh) * 2019-06-27 2024-04-09 北京达佳互联信息技术有限公司 基于数据聚类的业务指标数据分类方法及装置
CN112598446A (zh) * 2020-12-28 2021-04-02 深圳壹账通创配科技有限公司 配件定价方法、***、设备及存储介质
CN115309906B (zh) * 2022-09-19 2023-06-13 北京三维天地科技股份有限公司 一种基于知识图谱技术的数据智能分类方法
CN115982633B (zh) * 2023-03-21 2023-06-20 北京百度网讯科技有限公司 目标对象分类方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714154A (zh) * 2013-12-26 2014-04-09 西安理工大学 一种确定最佳聚类数的方法
CN103870845A (zh) * 2014-04-08 2014-06-18 重庆理工大学 点云聚类去噪过程中新的k值优化方法
CN104765755A (zh) * 2014-01-08 2015-07-08 ***通信集团福建有限公司 一种基于k-均值聚类的终端推荐方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2446853A1 (en) * 2001-05-15 2002-11-21 Psychogenics Inc. Systems and methods for monitoring behavior informatics

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714154A (zh) * 2013-12-26 2014-04-09 西安理工大学 一种确定最佳聚类数的方法
CN104765755A (zh) * 2014-01-08 2015-07-08 ***通信集团福建有限公司 一种基于k-均值聚类的终端推荐方法及装置
CN103870845A (zh) * 2014-04-08 2014-06-18 重庆理工大学 点云聚类去噪过程中新的k值优化方法

Also Published As

Publication number Publication date
CN105956628A (zh) 2016-09-21

Similar Documents

Publication Publication Date Title
CN105956628B (zh) 数据分类方法和用于数据分类的装置
US11526799B2 (en) Identification and application of hyperparameters for machine learning
CN109492180A (zh) 资源推荐方法、装置、计算机设备及计算机可读存储介质
WO2017215346A1 (zh) 业务数据分类方法和装置
Tyran-Kamińska Convergence to Lévy stable processes under some weak dependence conditions
CN111008321B (zh) 基于逻辑回归推荐方法、装置、计算设备、可读存储介质
CN113255370B (zh) 基于语义相似度的行业类型推荐方法、装置、设备及介质
EP3028184A1 (en) Method and system for searching images
CN107516246B (zh) 用户类型的确定方法、确定装置、介质及电子设备
CN111061842B (zh) 一种相似文本确定方法及装置
CN110825894A (zh) 数据索引建立、数据检索方法、装置、设备和存储介质
Yu et al. A content-based goods image recommendation system
CN114780606B (zh) 一种大数据挖掘方法及***
CN114662602A (zh) 一种离群点检测方法、装置、电子设备及存储介质
US20240013280A1 (en) Product recommendation method and apparatus, computer storage medium, and system
CN112487021B (zh) 业务数据的关联分析方法、装置及设备
Purnomo et al. Rating prediction on movie recommendation system: collaborative filtering algorithm (CFA) vs. dissymetrical percentage collaborative filtering algorithm (DSPCFA)
CN111611228B (zh) 一种基于分布式数据库的负载均衡调整方法及装置
JP7143599B2 (ja) メタデータ評価装置、メタデータ評価方法、およびメタデータ評価プログラム
CN114860608A (zh) 基于场景构建的***自动化测试方法、装置、设备及介质
CN110427558B (zh) 资源处理事件的推送方法及装置
CN114418114A (zh) 一种算子融合方法、装置、终端设备及存储介质
CN112085526A (zh) 基于用户群的信息匹配方法、装置、计算机设备及存储介质
CN111339434B (zh) 信息推荐方法、装置、电子设备及计算机存储介质
Duan et al. Bayesian spiked Laplacian graphs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant