CN105956628B

CN105956628B - 数据分类方法和用于数据分类的装置

Info

Publication number: CN105956628B
Application number: CN201610318133.2A
Authority: CN
Inventors: 刘朋飞; 王晓; 葛胜利
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2016-05-13
Filing date: 2016-05-13
Publication date: 2021-01-26
Anticipated expiration: 2036-05-13
Also published as: CN105956628A

Abstract

本发明公开了一种数据分类方法和用于数据分类的装置，涉及大数据处理领域。其中的数据分类方法包括：按照各个预定聚类个数对数据集分别进行聚类，并根据每次聚类后各个类的类内方差确定该次聚类的方差；按照各个预定聚类个数由小到大的顺序，当相邻两次聚类的方差的变化程度第一次小于预设值时，将相邻两次聚类中选用的较大聚类个数确定为实际聚类个数；按照实际聚类个数对数据集进行聚类，并按照聚类结果对数据集进行分类。通过预先进行多次聚类，并根据各次聚类的类内方差的变化趋势确定实际聚类个数，使聚类个数更合理，从而提升了按照聚类结果进行数据分类的准确性。

Description

数据分类方法和用于数据分类的装置

技术领域

本发明涉及大数据处理领域，尤其涉及一种数据分类方法和用于数据分类的装置。

背景技术

聚类技术属于一种数据挖掘中常用的无监督学习方法，采用距离或相似度等度量指标对样本进行划分，把相似的样本划分到相同的集合里面，不相似的样本划分到不同的集合里面。

然而，对于Kmeans(K均值聚类)等需要预先指定聚类数量的聚类算法，其中的聚类个数多是人工设定或算法直接给出，导致聚类效果不够准确，进而使得基于聚类结果进行数据分类的分类效果不够准确，可用性差。

发明内容

本发明实施例所要解决的一个技术问题是：提高数据分类的准确度。

根据本发明实施例的第一个方面，提供了一种数据分类方法，包括：按照各个预定聚类个数对数据集分别进行聚类，并根据每次聚类后各个类的类内方差确定该次聚类的方差；按照各个预定聚类个数由小到大的顺序，当相邻两次聚类的方差的变化程度第一次小于预设值时，将相邻两次聚类中选用的较大聚类个数确定为实际聚类个数；按照实际聚类个数对数据集进行聚类，并按照聚类结果对数据集进行分类。

在一个实施例中，将每次聚类后的类内所有数据点的均值作为类内均值，将类内各个数据点与类内均值之差的平方的总和作为该类的类内方差，将每次聚类后各个类的类内方差的和或者均值确定为该次聚类的方差。

在一个实施例中，在按照各个预定聚类个数对数据集分别进行聚类之前，方法还包括：将数据集中各数据点的邻域密度与邻域密度平均值进行比较，并剔除邻域密度小于邻域密度平均值的数据点；或者，计算数据集中各数据点的同一维度的元素值的均值和方差，将同一维度的元素的均值与若干倍的方差的和与差分别作为预设范围的上限和下限，并剔除该维度的元素值超过预设范围的数据点。

在一个实施例中，在按照各个预定聚类个数对数据集分别进行聚类之前，方法还包括：如果数据集中的数据点为具有至少两个维度的向量，计算不同维度之间的相关性，对于相关性大于预设值的不同维度，保留其中任意一个维度。

在一个实施例中，在根据各个预定聚类个数对数据集进行聚类之前，方法还包括：如果数据集中的数据点为具有至少两个维度的向量，根据每个维度的元素的均值和标准差分别对各个维度的元素进行标准化处理。

在一个实施例中，采用Kmeans聚类算法对数据集进行聚类。

根据本发明实施例的第二个方面，提供一种用于数据分类的装置，包括：预聚类模块，用于按照各个预定聚类个数对数据集分别进行聚类；类内方差确定模块，用于根据每次聚类后各个类的类内方差确定该次聚类的方差；实际聚类个数确定模块，用于按照各个预定聚类个数由小到大的顺序，当相邻两次聚类的方差的变化程度第一次小于预设值时，将相邻两次聚类中选用的较大聚类个数确定为实际聚类个数；分类模块，用于按照实际聚类个数对数据集进行聚类，并按照聚类结果对数据集进行分类。

在一个实施例中，类内方差确定模块用于将每次聚类后的类内所有数据点的均值作为类内均值，将类内各个数据点与类内均值之差的平方的总和作为该类的类内方差，将每次聚类后各个类的类内方差的和或者均值确定为该次聚类的方差。

在一个实施例中，还包括数据点处理模块，数据点处理模块包括第一数据点处理单元或者第二数据点处理单元；第一数据点处理单元用于将数据集中各数据点的邻域密度与邻域密度平均值进行比较，并剔除邻域密度小于邻域密度平均值的数据点；第二数据点处理单元用于计算数据集中各数据点的同一维度的元素值的均值和方差，将同一维度的元素的均值与若干倍的方差的和与差分别作为预设范围的上限和下限，并剔除该维度的元素值超过预设范围的数据点。

在一个实施例中，还包括维度筛选模块，用于当数据集中的数据点为具有至少两个维度的向量时，计算不同维度之间的相关性，对于相关性大于预设值的不同维度，保留其中任意一个维度。

在一个实施例中，还包括标准化模块，用于当数据集中的数据点为具有至少两个维度的向量时，根据每个维度的元素的均值和标准差分别对各个维度的元素进行标准化处理。

在一个实施例中，预聚类模块和分类模块采用Kmeans聚类算法对数据集进行聚类。

根据本发明实施例的第三个方面，提供一种用于数据分类的装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述任意一种数据分类方法。

本发明预先进行多次聚类，并根据各次聚类的类内方差的变化趋势确定实际聚类个数，使聚类个数更合理，从而提升了按照聚类结果进行数据分类的准确性。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明数据分类方法的一个实施例的流程图。

图2为各次聚类的方差的变化趋势的曲线示意图。

图3为本发明数据分类方法的另一个实施例的流程图。

图4为本发明用于数据分类的装置的一个实施例的结构图。

图5为本发明用于数据分类的装置的另一个实施例的结构图。

图6为本发明用于数据分类的装置的又一个实施例的结构图。

图7为可以实施本发明用于数据分类的装置的计算机***的示例性硬件配置的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面参考图1描述本发明一个实施例的数据分类方法。该方法预先进行多次聚类，并根据各次聚类的类内方差的变化趋势确定实际聚类个数，然后按照实际聚类个数进行聚类。

图1为本发明数据分类方法的一个实施例的流程图。如图1所示，该实施例的方法包括：

步骤S112，按照各个预定聚类个数对数据集分别进行聚类，并根据每次聚类后各个类的类内方差确定该次聚类的方差。

在本发明中，进行聚类所采用的算法为需要预先指定聚类个数的聚类算法，例如Kmeans算法等，但不限于所列举的具体聚类算法。

其中，数据集包含具有相同维度的若干数据点，数据点可以是一维的，也可以是多维的。例如，根据用户购买前考虑时长和浏览品类数量两维信息构成的数据集U＝{U₁(T₁,N₁)，U₂(T₂,N₂)，…，U_k(T_k,N_k)}，其中，数据集U包括k个用户数据点，U_k(T_k,N_k)表示第k个用户数据点，T_k和N_k分别表示该第k个用户数据点的购买前考虑时长和浏览品类数量。除了用户购买前考虑时长和浏览品类数量以外，还可以将例如收藏夹商品数量、阅读评价数量、订阅数量、相似商品浏览数量等指标作为维度信息。根据需要，本领域计算人员也可以选择其他类型的指标作为数据源，这里不再赘述。

预定聚类个数为预先设定的进行聚类的个数，可以指定若干整数，也可以指定一个范围，该范围中的各个整数即为预定聚类个数。

在计算各个类的类内方差和各次聚类的方差时，将每次聚类后的类内所有数据点的均值作为类内均值，将类内各个数据点与类内均值之差的平方的总和作为该类的类内方差，将每次聚类后各个类的类内方差的和或者均值确定为该次聚类的方差。具体地，例如可以采用如下方法。首先计算各个类的类内方差：将类内所有数据点的均值作为类内均值，将类内各个数据点与类内均值之差的平方的总和作为每次聚类后各个类的类内方差。设类内共有n个数据点，每个数据点采用x_i表示，u为该类中所有数据点的均值，则该类的类内方差var(x)的计算方法如公式(1)所示：

然后计算各次聚类的方差，每次聚类的方差根据该次聚类后各个类的类内方差的和或者均值确定，即将每次聚类后各个类的类内方差的和或者均值作为该次聚类的方差。

步骤S114，按照各个预定聚类个数由小到大的顺序，当相邻两次聚类的方差的变化程度第一次小于预设值时，将相邻两次聚类中选用的较大聚类个数确定为实际聚类个数。

为了形象地表示各次聚类的方差的变化趋势，例如可以参考图2，将各个预定聚类个数以及相应的方差分别作为横、纵坐标绘制曲线。以图2为例，观察曲线变化趋势，以横坐标为4的点为界，在其之前y值急剧下降，在其之后y值缓慢下降，横坐标为4的点为该曲线所代表的变化趋势的转折点。即当聚类数量为4时，既能够使聚类结果中各个类之间具有区分度，又能够保证各个类的内部数据之间具有较高的相似度。因此，可以将该分界点处对应的预定聚类个数作为实际聚类个数。

上述通过观察曲线获得类内方差的变化趋势的方法并非限制性的，而是示意性的辅助手段。根据需要，本领域技术人员可以采用直接观察数据、计算相邻数据差值等其他方法获知各次聚类的方差的变化趋势。例如，还可以按照各个预定聚类个数由小到大的顺序，当相邻两次聚类的方差的差值第一次小于预设值时，将相邻两次聚类中选用的较大聚类个数确定为实际聚类个数。

步骤S116，按照实际聚类个数对数据集进行聚类，并按照聚类结果对数据集进行分类。其中，本步骤采用的聚类算法与步骤S112中的聚类算法相同。

以Kmeans算法为例，聚类过程如下：

1、随机选择k个类的初始中心，其中，k的值为确定的实际聚类个数。

2、对所有数据点，计算其到k个中心的距离，将该数据点归属到距离最短的中心所在类。

3、更新各个类的中心点。

4、判断是否达到设定的收敛条件(或称停止条件)，如果不满足，返回到2-3步骤进行继续迭代；如果满足，则停止迭代，该聚类中心为最优聚类中心。

其中，聚类收敛条件例如可以采用以下两种方法设定。第一种方法为，当聚类过程中的迭代次数达到预设迭代次数时，停止聚类。一般地，随着迭代次数的增长，计算时间会增长，但更容易收敛。因此，本领域技术人员可以根据数据量、计算能力等参考因素设定预设迭代次数。第二种方法为，计算迭代后更新的聚类中心与原始聚类中心的距离，如果该距离小于预设距离，停止聚类。迭代前后聚类中心的变化反映了类内数据的变化，因此可以用于判断聚类是否达到收敛。

由于部分聚类算法对数据较为敏感，当数据理想时，往往能够获得更好的效果，因此在进行聚类之前，还可以对数据集中的数据进行预处理，以优化聚类结果。预处理的过程例如可以包括数据标准化、离群点处理、维度筛选等操作。下面参考图3描述本发明另一个实施例的数据分类方法。

图3为本发明数据分类方法的另一个实施例的流程图。如图3所示，该实施例的方法包括以下步骤：

步骤S302，对数据集内的数据点的各个维度进行标准化处理。

标准化处理的一个实施例包括，如果数据集中的数据点为具有至少两个维度的向量，根据每个维度的元素的均值和标准差分别对各个维度的元素进行标准化处理。

其中，可以根据业务需要选择性地进行步骤S302。数据的标准化处理是指将数据按比例缩放，使之落入到一个小的特定区间。有时，数据集中的数据点可能存在不同维度之间相差过大或者各个元素对应的原始数据量纲不统一的情况，因此需要进行标准化处理。以数据点的其中两个维度分别为购买前考虑时长和浏览品类数量两个指标为例，购买前考虑时长是以时间为单位，浏览品类数量是以个数为单位，二者的量纲不统一，数值差距也较大。因此，通过标准化的方法，可以消除各指标间的量纲差异，使各个数据处于可比较的状态。

标准化处理的过程例如可以采用如下方法。设数据集中的n个数据点分别为x₁、x₂……x_n，则数据集中数据的均值(mean)和方差(std)分别采用公式(2)和(3)计算获得：

对于数据点x₁、x₂……x_n中的任意一个数据点x_i，可以采用公式(4)计算获得标准化处理后的数据点x_i’:

通过采用上述方法，可以使数据点落入到一个较小的特定区间，便于统一量纲，使不同单位的指标能够进行比较和加权。

除了上述方法外，本领域技术人员还可以采用归一化等方法对数据集中的数据点进行标准化处理。

步骤S304，对数据集中的各个数据点进行筛选，以便保留可靠数据，剔除离群点。

数据集中的具有极端大值或极端小值的点称为离群点。例如，数据集中的数据点代表用户，数据点中的某一个维度代表各个用户的购买前考虑时长。对于10个用户来说，其中9个用户的购买前考虑时长为2、3、1、4、3、5、6、3、2，单位为天，而第10个用户的购买前考虑时长为400天。如果将该用户对应的用户向量参与聚类，很可能使聚类结果不准确。由于极端值的存在会影响算法精度，因此需要筛选数据点，对离群点进行检测和剔除。

下面对剔除离群点的方法进行举例说明。

第一种方法为基于密度的处理方法，将数据集中各数据点的邻域密度与邻域密度平均值进行比较，并剔除邻域密度小于邻域密度平均值的数据点。具体的，首先对邻域的范围进行设定，某一数据点的邻域例如可以为与该数据点距离最近的K个点；然后，计算数据集中各个数据点的邻域密度与平均密度，某一数据点的邻域密度例如可以为该点到其邻域中各个点的平均距离的倒数，数据集的邻域密度平均值为所有数据点的邻域密度的平均值；最后，比较各个数据点的邻域密度与数据集的平均密度，剔除邻域密度低于平均密度的数据点。基于密度的处理方法考虑了各个维度的信息，综合性较强。

第二种方法为基于均值和方差的处理方法，计算数据集中各数据点的同一维度的元素值的均值和标准差，将同一维度的元素的均值与若干倍的标准差的和与差分别作为预设范围的上限和下限，并剔除该维度的元素值超过预设范围的数据点。以选取第一维度为例，首先计算各个数据点的第一个元素所组成的数据集的均值和标准差；然后，将同一维度的元素的均值与若干倍的标准差的和与差分别作为预设范围的上限和下限，例如将均值与3倍标准差的和作为预设范围上限，将均值与3倍标准差的差作为预设范围下限；最后，剔除数据集中元素的第一维度大于预设范围上限或者小于预设范围下限的数据点。基于均值和标准差的方法计算过程较为简单，计算量小。

第三种方法，还可以采用基于四分位数的处理方法。四分位数(Quartile)的含义为，将所有数值由小到大排列并分成四等份，处于三个分割点位置的数值就是四分位数。三个分割点由小到大依次为：第一四分位数(Q1，又称下四分位数)、第二四分位数(Q2，又称为中位数)、第三四分位数(Q3，又称上四分位数)，Q3与Q1的差又称四分位距(IQR，InterQuartile Range)。基于四分位数的处理方法例如可以为：确定数据集中数据处于相同维度的元素的四分位数以及四分位距，将同一维度的元素的上四分位数与若干倍的四分位距的和以及下四分位数与若干倍的四分位距的差分别作为预设范围的上限和下限，并剔除该维度的元素值超过预设范围的数据点。例如，可以将(Q3+3*IQR)作为预设范围的上限，将(Q1-3*IQR)作为预设范围的下限。分位数的划分方法符合实际数据的分布，在后续处理中的鲁棒性强。

通过采用上述方法进行数据点筛选，能够去除离群点，保留可靠的数据点，提高聚类的精度和效果。

上述各个方法为数据点筛选的示意性方法，根据需要，还可以采用其他方法，这里不再赘述。本领域计算人员可以根据业务需要选择性地进行步骤S304。此外，步骤S304可以在步骤S302之前进行，也可以在步骤S302之后进行。

步骤S306，对数据集中的数据点进行维度筛选，以去除冗余维度。

维度筛选的一个实施例包括，如果数据集中的数据点为具有至少两个维度的向量，计算不同维度之间的相关性。对于相关性大于预设值的不同维度，保留其中任意一个维度。

例如，数据点中的其中两个维度对应购买前考虑时长和阅读评价数量。如果上述两个指标的相关性大于预设值，说明购买前考虑时长较长的用户往往阅读较多的评价数量，因此可以任意保留其中一个用户特征指标用来代表用户的这一特性，从而减少了聚类时的冗余程度。

其中，可以采用相关性系数、基尼系数、相对熵等指标体现相关性。下面以相关性系数为例，详细介绍不同维度之间的相关性的其中一种计算方法。

首先，确定数据点的待计算的两个维度，设其分别为第一维度和第二维度；然后，建立数量等于数据点数量的第一向量，第一向量的维度等于数据点的维度，各个第一向量的第一个元素为各个数据点中的第一维度对应的元素，各个第一向量的第一个元素以外的其他元素为0；之后，建立数量等于数据点数量的第二向量，第二向量的维度等于数据点的维度，各个第二向量的第一个元素为各个数据点中的第二维度对应的元素，各个第二向量的第一个元素以外的其他元素为0；最后，根据所有第一向量的和以及平方和、所有第二向量的和以及平方和、具有对应关系的第一向量与第二向量之积的和计算第一维度和第二维度的相关系数，将上述相关系数作为第一维度和第二维度的相关性。

例如，可以参考以下公式计算相关度。设X为第一向量，Y为与X对应的第二向量，则第一维度和第二维度的相关性r可以采用公式(5)进行计算：

通过采用相关性作为度量进行维度筛选，将统计学中的计算方法引入聚类算法的预处理中，可以保留关键维度，避免数据冗余，提升聚类的准确性。

其中，可以根据业务需要选择性地进行步骤S306。

然后，进行如下预聚类和实际聚类的步骤：

步骤S116，按照实际聚类个数对数据集进行聚类，并按照聚类结果对数据集进行分类。

通过在聚类前对数据进行预处理，能够去除无效和冗余的数据，在减少聚类过程中的计算量的同时提升了聚类的准确度。

本发明提供的聚类算法可以用于各类实际应用场景，例如数据分析、用户分类等等。

以电子商务网站中的用户分类为例。首先获取包含用户向量的数据集，用户向量中的各个元素为用户的特征指标，以选取的特征指标为用户的购买前考虑时长、浏览商品的品类数量为例；然后，采用上述各个实施例的数据分类方法确定实际聚类个数，对数据集中的用户向量进行聚类，获得聚类结果；最后，对聚类结果进行解读，形成用户分类结果。例如，聚类结果中包含四类，可以对这四类中所包含的用户的特征的数值特点进行分析归纳，以达到用户分类和定性的目的。分类的结果例如可以参考表1。获得分类结果后，还可以将分类结果加工为标准的结构化数据，以数据库、分布式文件、xml(Extensible MarkupLanguage，可标记扩展语义)文件或文本文件等形式进行存储，供下游经数据库***、应用接口、互联网传输协议等渠道进行调用。

表1

下面参考图4描述本发明一个实施例的用于数据分类的装置。

图4为本发明用于数据分类的装置的一个实施例的结构图。如图4所示，该实施例的装置包括：预聚类模块42，用于按照各个预定聚类个数对数据集分别进行聚类；类内方差确定模块44，用于根据每次聚类后各个类的类内方差确定该次聚类的方差；实际聚类个数确定模块46，用于按照各个预定聚类个数由小到大的顺序，当相邻两次聚类的方差的变化程度第一次小于预设值时，将相邻两次聚类中选用的较大聚类个数确定为实际聚类个数；分类模块48，用于按照实际聚类个数对数据集进行聚类，并按照聚类结果对数据集进行分类。

其中，聚类所采用的算法为需要预先指定聚类数量的聚类算法，例如Kmeans算法等。

其中，类内方差确定模块44可以将每次聚类后的类内所有数据点的均值作为类内均值，将类内各个数据点与类内均值之差的平方的总和作为该类的类内方差，将每次聚类后各个类的类内方差的和或者均值确定为该次聚类的方差。

其中，实际聚类个数确定模块46可以用于按照各个预定聚类个数由小到大的顺序，当相邻两次聚类的方差的差值第一次小于预设值时，将相邻两次聚类中选用的较大聚类个数确定为实际聚类个数。

下面参考图5描述本发明另一个实施例的用于数据分类的装置。

图5为本发明用于数据分类的装置的另一个实施例的结构图。如图5所示，该实施例的装置还包括标准化模块52、数据点处理模块54、维度筛选模块56中的一个或多个。

标准化模块52用于当数据集中的数据点为具有至少两个维度的向量时，根据每个维度的元素的均值和标准差分别对各个维度的元素进行标准化处理。通过采用标准化模块52，可以使数据点落入到一个较小的特定区间，便于统一量纲，使不同单位的指标能够进行比较和加权。

数据点处理模块54包括第一数据点处理单元542或者第二数据点处理单元544；第一数据点处理单元542用于将数据集中各数据点的邻域密度与邻域密度平均值进行比较，并剔除邻域密度小于邻域密度平均值的数据点；第二数据点处理单元544用于计算数据集中各数据点的同一维度的元素值的均值和方差，将同一维度的元素的均值与若干倍的方差的和与差分别作为预设范围的上限和下限，并剔除该维度的元素值超过预设范围的数据点。通过采用上述方法进行数据点筛选，能够去除离群点，保留可靠的数据点，提高聚类的精度和效果。

维度筛选模块56用于当数据集中的数据点为具有至少两个维度的向量时，计算不同维度之间的相关性，对于相关性大于预设值的不同维度，保留其中任意一个维度。通过采用相关性作为度量进行维度筛选，将统计学中的计算方法引入聚类算法的预处理中，可以保留关键维度，避免数据冗余，提升聚类的准确性。

下面参考图6描述本发明又一个实施例的用于数据分类的装置。

图6为本发明用于数据分类的装置的又一个实施例的结构图。如图6所示，该实施例的装置包括：存储器64以及耦接至该存储器64的处理器62，处理器62被配置为基于存储在存储器64中的指令，执行前述任意一个实施例中的数据分类方法。存储器64中还可以存储前述实施例的方法中待处理或处理后的数据，例如待分类的数据集、各次聚的方差、各个类的类内方差、分类结果等等。

此外，在一个设备中，存储器64和处理器62可以通过总线(BUS)耦合。

如图7所示，计算机***7000包括处理器62和存储器，存储器例如可以包括***存储器7430、固定非易失性存储器7441等等，还可以包括SD卡、U盘等设备。处理器62和***存储器7430可经由***总线7121连接。计算机***7000还可例如包括固定非易失性存储器接口7140、移动非易失性存储器接口7150、用户输入输出接口7190和网络接口7170。

***存储器7430例如存储有Boot Loader程序7433、操作***7434、应用程序7435、其它程序模块7436和某些程序数据7437。

诸如闪存(Flash)芯片之类的固定非易失性存储器7441可例如连接到固定非易失性存储器接口7140。固定非易失性存储器7441例如可以存储Boot Loader程序7443、操作***7444、应用程序7445、其它程序模块7446和某些程序数据7447。

诸如通用串行总线(USB)接口7151和安全数字卡(SD卡)插口7155之类的可移动非易失性存储器接口可例如连接到可移动非易失性存储器接口7150。例如USB盘之类的可移动非易失性存储器可连接到所述USB接口7151，例如SD卡之类的器件可连接到所述SD卡插口7155。

计算机***7000还可包括诸如触摸屏之类的视频输出设备和用户输入设备。

计算机***7000可以通过网络接口7170连接到远程计算机，以便通过网络进行数据的传输等操作。

图7所示的计算机***仅仅是说明性的一个示例，而决不意图对本发明、其应用或用途的任何限制。

图7所示的计算机***可以被实施于任何实施例，可作为独立计算机，也可作为设备中的处理***，可以移除一个或多个不必要的组件，也可以向其添加一个或多个附加的组件。例如，网络接口2170可以任何其他方式实现。处理单元可以包含一个或多个处理器。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据分类方法，其特征在于，包括：

按照各个预定聚类个数对数据集分别进行聚类，并根据每次聚类后各个类的类内方差确定该次聚类的方差，其中，所述该次聚类的方差为每次聚类后各个类的类内方差的和或者均值，数据集包括用户向量，用户向量中的各个元素为用户的特征指标，所述特征指标包括用户购买前考虑时长、浏览品类数量以外、收藏夹商品数量、阅读评价数量、订阅数量、相似商品浏览数量中的至少一个；

按照所述各个预定聚类个数由小到大的顺序，当相邻两次聚类的方差的变化程度第一次小于预设值时，将相邻两次聚类中选用的较大聚类个数确定为实际聚类个数；

按照所述实际聚类个数对数据集进行聚类，并按照聚类结果对数据集进行分类，形成用户分类结果；

将所述用户分类结果加工为标准的结构化数据并进行存储，以便供下游渠道调用并进行数据分析。

2.根据权利要求1所述的方法，其特征在于，将每次聚类后的类内所有数据点的均值作为类内均值，将类内各个数据点与类内均值之差的平方的总和作为该类的类内方差。

3.根据权利要求1或2所述的方法，其特征在于，在按照各个预定聚类个数对数据集分别进行聚类之前，所述方法还包括：

将数据集中各数据点的邻域密度与邻域密度平均值进行比较，并剔除邻域密度小于邻域密度平均值的数据点；

或者，计算数据集中各数据点的同一维度的元素值的均值和标准差，将所述同一维度的元素的均值与若干倍的标准差的和与差分别作为预设范围的上限和下限，并剔除该维度的元素值超过所述预设范围的数据点。

4.根据权利要求1或2所述的方法，其特征在于，在按照各个预定聚类个数对数据集分别进行聚类之前，所述方法还包括：

如果数据集中的数据点为具有至少两个维度的向量，计算不同维度之间的相关性，对于相关性大于预设值的不同维度，保留其中任意一个维度。

5.根据权利要求1或2所述的方法，其特征在于，在根据各个预定聚类个数对数据集进行聚类之前，所述方法还包括：

如果数据集中的数据点为具有至少两个维度的向量，根据每个维度的元素的均值和标准差分别对各个维度的元素进行标准化处理。

6.根据权利要求1或2所述的方法，其特征在于，采用Kmeans聚类算法对数据集进行聚类。

7.一种用于数据分类的装置，其特征在于，包括：

预聚类模块，用于按照各个预定聚类个数对数据集分别进行聚类；

类内方差确定模块，用于根据每次聚类后各个类的类内方差确定该次聚类的方差，其中，所述该次聚类的方差为每次聚类后各个类的类内方差的和或者均值，数据集包括用户向量，用户向量中的各个元素为用户的特征指标，所述特征指标包括用户购买前考虑时长、浏览品类数量以外、收藏夹商品数量、阅读评价数量、订阅数量、相似商品浏览数量中的至少一个；

实际聚类个数确定模块，用于按照所述各个预定聚类个数由小到大的顺序，当相邻两次聚类的方差的变化程度第一次小于预设值时，将相邻两次聚类中选用的较大聚类个数确定为实际聚类个数；

分类模块，用于按照所述实际聚类个数对数据集进行聚类，并按照聚类结果对数据集进行分类，形成用户分类结果，以便将所述用户分类结果加工为标准的结构化数据并进行存储，供下游渠道调用并进行数据分析。

8.根据权利要求7所述的装置，其特征在于，所述类内方差确定模块用于将每次聚类后的类内所有数据点的均值作为类内均值，将类内各个数据点与类内均值之差的平方的总和作为该类的类内方差。

9.根据权利要求7或8所述的装置，其特征在于，还包括数据点处理模块，所述数据点处理模块包括第一数据点处理单元或者第二数据点处理单元；

所述第一数据点处理单元用于将数据集中各数据点的邻域密度与邻域密度平均值进行比较，并剔除邻域密度小于邻域密度平均值的数据点；

所述第二数据点处理单元用于计算数据集中各数据点的同一维度的元素值的均值和标准差，将所述同一维度的元素的均值与若干倍的标准差的和与差分别作为预设范围的上限和下限，并剔除该维度的元素值超过所述预设范围的数据点。

10.根据权利要求7或8所述的装置，其特征在于，还包括维度筛选模块，用于当数据集中的数据点为具有至少两个维度的向量时，计算不同维度之间的相关性，对于相关性大于预设值的不同维度，保留其中任意一个维度。

11.根据权利要求7或8所述的装置，其特征在于，还包括标准化模块，用于当数据集中的数据点为具有至少两个维度的向量时，根据每个维度的元素的均值和标准差分别对各个维度的元素进行标准化处理。

12.根据权利要求7或8所述的装置，其特征在于，所述预聚类模块和所述分类模块采用Kmeans聚类算法对数据集进行聚类。

13.一种用于数据分类的装置，其特征在于，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至7中任一项所述的数据分类方法。

14.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1至7中任一项所述的数据分类方法。