CN108537291A

CN108537291A - 一种样本分类方法和装置

Info

Publication number: CN108537291A
Application number: CN201810425564.8A
Authority: CN
Inventors: 张明阳; 张飞
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-05-07
Filing date: 2018-05-07
Publication date: 2018-09-14

Abstract

本发明公开了一种样本分类方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：计算待分类样本与训练样本集的中心点之间的第一距离；根据每一训练样本与训练样本集的中心点之间的第二距离、与待分类样本对应的距离参数、第一距离，从训练样本集中抽取多个备用训练样本，与待分类样本对应的距离参数是根据第一距离确定的、用于确定备用训练样本所在的空间范围的参数；分别计算每一备用训练样本到待分类样本的第三距离，并根据与待分类样本的第三距离最近的预设数量的备用训练样本，确定待分类样本的类别。该实施方式能减少对样本分类时的计算量，降低计算复杂度，降低运行时间消耗，提高分类效率，适应大数据场景的样本分类应用需求。

Description

一种样本分类方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种样本分类方法和装置。

背景技术

K-近邻(K-NN，K-Nearest Neighbors)算法是十大数据挖掘算法之一。由于其思想简单，易于实现，K-NN已广泛应用于许多数据挖掘领域。

传统K-近邻算法整个计算过程可以简单的分为两个阶段：训练阶段和分类阶段。其中，在训练阶段几乎不进行任何的计算，只是把训练样本集存储起来，直到接收到输入的待分类样本，才进行相应的计算，并且这些计算对于不同的待分类样本需要反复进行；在分类阶段，对于待分类样本x0，在训练样本集中寻找x0的K个最近邻训练样本，并根据这K个最近邻训练样本的类别来确定待分类样本x0的类别。

由于K-近邻算法在寻找最近邻样本的过程中，需要逐个计算待分类样本与每个训练样本的距离(或者称相似度)，当训练样本为大数据时，将会产生很高的计算开销，降低了对待分类样本的分类效率，这种逐个扫描的方式几乎是不合理甚至是不可行的。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

现有的样本分类方案计算复杂度高、分类效率低，不适用大数据场景下的样本分类。

发明内容

有鉴于此，本发明实施例提供一种样本分类方法和装置，能够减少对样本分类时的计算量，降低计算复杂度，降低运行时间消耗，进而提高分类效率，适应大数据场景的样本分类应用需求。

为实现上述目的，根据本发明实施例的一个方面，提供了一种样本分类方法。

一种样本分类方法，包括：计算待分类样本与训练样本集的中心点之间的第一距离，所述训练样本集包括多个训练样本；根据每一训练样本与所述训练样本集的中心点之间的第二距离、与所述待分类样本对应的距离参数、所述第一距离，从所述训练样本集中抽取多个备用训练样本，与所述待分类样本对应的距离参数是根据所述第一距离确定的、用于确定备用训练样本所在的空间范围的参数；分别计算每一备用训练样本到所述待分类样本的第三距离，并根据与所述待分类样本的第三距离最近的预设数量的备用训练样本，确定所述待分类样本的类别。

可选地，计算待分类样本与训练样本集的中心点之间的第一距离的步骤之前，包括：如果所述待分类样本是所属的待分类样本集中第一个被分类的样本，则：确定所述训练样本集的中心点的位置信息，以及计算所述每一训练样本与所述训练样本集的中心点之间的第二距离，按照所述第二距离对所述训练样本集中的所有训练样本排序，并保存所述训练样本集的中心点的位置信息以及排序后的所述训练样本集；如果所述待分类样本不是所属的待分类样本集中第一个被分类的样本，则：读取保存的所述训练样本集的中心点的位置信息以及排序后的所述训练样本集。

可选地，通过计算引擎确定所述训练样本集的中心点的位置信息，以及计算所述每一训练样本与所述训练样本集的中心点之间的第二距离。

可选地，根据每一训练样本与所述训练样本集的中心点之间的第二距离、与所述待分类样本对应的距离参数、所述第一距离，从所述训练样本集中抽取多个备用训练样本的步骤，包括：从排序后的所述训练样本集中，抽取满足如下条件的训练样本作为备用训练样本：被抽取的训练样本到所述训练样本集的中心点的第二距离小于或等于第一参数、且大于或等于第二参数，其中，所述第一参数为所述第一距离与所述待分类样本对应的距离参数之和，所述第二参数为所述第一距离与所述待分类样本对应的距离参数之差。

可选地，根据所述第一距离，按照如下方法确定与所述待分类样本对应的距离参数：将所述第一距离与一预设值的比值，确定为与所述待分类样本对应的距离参数。

可选地，分别计算每一备用训练样本到所述待分类样本的第三距离，并根据与所述待分类样本的第三距离最近的预设数量的备用训练样本，确定所述待分类样本的类别的步骤，包括：分别计算每一备用训练样本到所述待分类样本的第三距离；将所有备用训练样本到所述待分类样本的第三距离排序，以得到与所述待分类样本的第三距离最近的预设数量的备用训练样本；按照与所述待分类样本的第三距离最近的预设数量的备用训练样本的类别，进行多数投票，以确定所述待分类样本的类别。

可选地，分别计算每一备用训练样本到所述待分类样本的第三距离，并根据与所述待分类样本的第三距离最近的预设数量的备用训练样本，确定所述待分类样本的类别的步骤，包括：分别计算每一备用训练样本到所述待分类样本的第三距离；将每一备用训练样本到所述待分类样本的第三距离分别与预设阈值比对，将所述第三距离小于或等于所述预设阈值的备用训练样本筛选出；将所有筛选出的备用训练样本到所述待分类样本的第三距离排序，以得到与所述待分类样本的第三距离最近的预设数量的备用训练样本；按照与所述待分类样本的第三距离最近的预设数量的备用训练样本的类别，进行多数投票，以确定所述待分类样本的类别。

根据本发明实施例的另一方面，提供了一种样本分类装置。

一种样本分类装置，包括：计算模块，用于计算待分类样本与训练样本集的中心点之间的第一距离，所述训练样本集包括多个训练样本；抽取模块，用于根据每一训练样本与所述训练样本集的中心点之间的第二距离、与所述待分类样本对应的距离参数、所述第一距离，从所述训练样本集中抽取多个备用训练样本，与所述待分类样本对应的距离参数是根据所述第一距离确定的、用于确定备用训练样本所在的空间范围的参数；分类模块，用于分别计算每一备用训练样本到所述待分类样本的第三距离，并根据与所述待分类样本的第三距离最近的预设数量的备用训练样本，确定所述待分类样本的类别。

可选地，还包括初始化模块，用于：如果所述待分类样本是所属的待分类样本集中第一个被分类的样本，则：确定所述训练样本集的中心点的位置信息，以及计算所述每一训练样本与所述训练样本集的中心点之间的第二距离，按照所述第二距离对所述训练样本集中的所有训练样本排序，并保存所述训练样本集的中心点的位置信息以及排序后的所述训练样本集；如果所述待分类样本不是所属的待分类样本集中第一个被分类的样本，则：读取保存的所述训练样本集的中心点的位置信息以及排序后的所述训练样本集。

可选地，所述初始化模块还用于：通过计算引擎确定所述训练样本集的中心点的位置信息，以及计算所述每一训练样本与所述训练样本集的中心点之间的第二距离。

可选地，所述抽取模块还用于：从排序后的所述训练样本集中，抽取满足如下条件的训练样本作为备用训练样本：被抽取的训练样本到所述训练样本集的中心点的第二距离小于或等于第一参数、且大于或等于第二参数，其中，所述第一参数为所述第一距离与所述待分类样本对应的距离参数之和，所述第二参数为所述第一距离与所述待分类样本对应的距离参数之差。

可选地，还包括距离参数确定模块，用于：将所述第一距离与一预设值的比值，确定为与所述待分类样本对应的距离参数。

可选地，所述分类模块还用于：分别计算每一备用训练样本到所述待分类样本的第三距离；将所有备用训练样本到所述待分类样本的第三距离排序，以得到与所述待分类样本的第三距离最近的预设数量的备用训练样本；按照与所述待分类样本的第三距离最近的预设数量的备用训练样本的类别，进行多数投票，以确定所述待分类样本的类别。

可选地，所述分类模块还用于：分别计算每一备用训练样本到所述待分类样本的第三距离；将每一备用训练样本到所述待分类样本的第三距离分别与预设阈值比对，将所述第三距离小于或等于所述预设阈值的备用训练样本筛选出；将所有筛选出的备用训练样本到所述待分类样本的第三距离排序，以得到与所述待分类样本的第三距离最近的预设数量的备用训练样本；按照与所述待分类样本的第三距离最近的预设数量的备用训练样本的类别，进行多数投票，以确定所述待分类样本的类别。

根据本发明实施例的又一方面，提供了一种电子设备。

一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本发明提供的样本分类方法。

根据本发明实施例的又一方面，提供了一种计算机可读介质。

一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明提供的样本分类方法。

上述发明中的一个实施例具有如下优点或有益效果：根据每一训练样本与训练样本集的中心点之间的第二距离、与待分类样本对应的距离参数、待分类样本与训练样本集的中心点之间的第一距离，从训练样本集中抽取多个备用训练样本，与待分类样本对应的距离参数是根据第一距离确定的、用于确定备用训练样本所在的空间范围的参数；分别计算每一备用训练样本到待分类样本的第三距离，并根据与待分类样本的第三距离最近的预设数量的备用训练样本，确定待分类样本的类别。压缩了对待分类样本的近邻训练样本的搜索范围，减少了参与搜索的候选的训练样本的数量。确定训练样本集的中心点的位置信息、计算每一训练样本与训练样本集的中心点之间的第二距离、保存训练样本集的中心点的位置信息以及排序后的训练样本集等初始化步骤的执行结果可为所有待分类样本分类流程共用，而无需反复进行初始化运算。综上，本发明实施例可以减少对样本分类时的计算量，降低计算复杂度，降低运行时间消耗，进而提高分类效率，适应大数据场景的样本分类应用需求。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的样本分类方法的主要步骤示意图；

图2是根据本发明的一个实施例的样本分类流程示意图；

图3是根据本发明的另一个实施例的样本分类流程示意图；

图4是根据本发明实施例的样本分类算法示意图；

图5是根据本发明实施例的样本分类装置的主要模块示意图；

图6是本发明实施例可以应用于其中的示例性***架构图；

图7是适于用来实现本发明实施例的服务器的计算机***的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的样本分类方法的主要步骤示意图。

如图1所示，本发明实施例的样本分类方法主要包括步骤S101至步骤S105。

步骤S101：对待分类样本集中的每一待分类样本，执行步骤S102至步骤S104。

其中，待分类样本集包括至少一个待分类的样本(即待分类样本)。

步骤S102：计算待分类样本与训练样本集的中心点之间的第一距离。

训练样本集为预选的与该待分类样本集相对应的样本集，其包括多个训练样本，每个训练样本对应一个类别，该类别是预先确定的。

如果该待分类样本是所属的待分类样本集中第一个被分类的样本，则：在步骤S101或步骤S102之前，执行初始化步骤。初始化步骤具体包括：确定训练样本集的中心点的位置信息，以及计算每一训练样本与训练样本集的中心点之间的第二距离，按照该第二距离对训练样本集中的所有训练样本排序，并保存训练样本集的中心点的位置信息以及排序后的训练样本集。

如果该待分类样本不是所属的待分类样本集中第一个被分类的样本，则：读取保存的该训练样本集的中心点的位置信息以及排序后的训练样本集(即上述初始化步骤的执行结果)。

根据本发明实施例，在对某一待分类样本集进行样本分类时，只需在对待分类样本集中第一个样本(即第一个被分类的样本，换言之，在该样本之前，待分类样本集中没有其他样本被执行分类操作)分类之前，执行上述初始化步骤，而对该待分类样本集的后续样本分类之前，则无需再重复上述初始化的计算，而直接读取保存的初始化步骤执行结果即可，即该初始化步骤为该待分类样本集的所有待分类样本所共用，减少了计算量，从而降低了计算复杂度。

其中，训练样本集的中心点的位置信息即训练样本集的中心点坐标，可以通过计算引擎确定该训练样本集的中心点的坐标，通过计算引擎还可以计算该训练样本集中的每一训练样本与该训练样本集的中心点之间的第二距离。计算引擎可以为Spark(是专为大规模数据处理而设计的快速通用的计算引擎)、MapReduce(一种计算框架，用于大规模数据集的并行运算)等。本发明实施例采用Spark作为计算引擎。

本发明实施例的计算引擎还可以用于计算待分类样本与训练样本集的中心点之间的第一距离。

步骤S103：根据每一训练样本与训练样本集的中心点之间的第二距离、与待分类样本对应的距离参数、待分类样本与训练样本集的中心点之间的第一距离，从训练样本集中抽取多个备用训练样本。

步骤S103具体包括：从排序后的训练样本集中，抽取满足如下条件的训练样本作为备用训练样本：被抽取的训练样本到训练样本集的中心点的第二距离小于或等于第一参数、且大于或等于第二参数，其中，第一参数为第一距离与与待分类样本对应的距离参数之和，第二参数为第一距离与与待分类样本对应的距离参数之差。

可以通过计算引擎抽取上述备用训练样本。

与待分类样本对应的距离参数是用于确定备用训练样本所在的空间范围的参数，可以根据待分类样本与训练样本集的中心点之间的第一距离确定该距离参数。具体地，可以将第一距离与一预设值的比值，确定为与待分类样本对应的距离参数。预设值可以根据需要自行设定。可以根据待分类样本与训练样本集的中心点之间的第一距离的值，按照上述方法(第一距离与预设值的比值)自动运算确定、或者根据第一距离的值由用户外部输入等方式确定距离参数的具体数值。

步骤S104：分别计算每一备用训练样本到待分类样本的第三距离，并根据与待分类样本的第三距离最近的预设数量的备用训练样本，确定待分类样本的类别。

在实施方式一中，步骤S104具体可以包括：分别计算每一备用训练样本到待分类样本的第三距离；将所有备用训练样本到待分类样本的第三距离排序，以得到与待分类样本的第三距离最近的预设数量的备用训练样本；按照与待分类样本的第三距离最近的预设数量的备用训练样本的类别，进行多数投票，以确定待分类样本的类别。

在实施方式二中，步骤S104具体可以包括：分别计算每一备用训练样本到待分类样本的第三距离；将每一备用训练样本到待分类样本的第三距离分别与预设阈值比对，将第三距离小于或等于预设阈值的备用训练样本筛选出；将所有筛选出的备用训练样本到待分类样本的第三距离排序，以得到与待分类样本的第三距离最近的预设数量的备用训练样本；按照与待分类样本的第三距离最近的预设数量的备用训练样本的类别，进行多数投票，以确定待分类样本的类别。

其中，该预设阈值需要根据待分类样本对应的距离参数来设置，以d表示该距离参数，则预设阈值应满足小于或等于d，此外，为了保证分类的精度，该预设阈值不能设置过小，因此，预设阈值的一个优选取值范围可以为[d/2,d]，如果预设阈值设置得较小，而不能选出该预设数量的备用训练样本，需要重新调整该预设阈值。

上述多数投票的具体方法为，根据与待分类样本的第三距离最近的预设数量的备用训练样本的类别之中，如果对应某一类别的备用训练样本数量最多，则将该对应备用训练样本数量最多的类别确定为待分类样本的类别。

步骤S105：根据待分类样本集中所有待分类样本的类别，得到对待分类样本集的分类结果。

对待分类样本集的分类结果包括对待分类样本集中的各待分类样本的分类结果，即确定出的各待分类样本的类别。

图2是根据本发明的一个实施例的样本分类流程示意图。

如图2所示，本发明的一个实施例的样本分类流程可以包括步骤S102、步骤S103、步骤S201至步骤S203。

训练样本集的中心点的位置信息，以及每一训练样本与训练样本集的中心点之间的第二距离，可以通过执行上述的初始化步骤来获得。如果利用该训练样本集对某个待分类样本进行分类，则在步骤S102之前，需要执行上述初始化步骤。如果利用该训练样本集对由多个待分类样本构成的待分类样本集进行分类，则只在对该待分类样本集的第一个待分类样本分类之前，执行一次初始化步骤，对后续待分类样本分类之前，直接读取保存的初始化执行结果即可。

步骤S201：分别计算每一备用训练样本到待分类样本的第三距离。

步骤S202：将所有备用训练样本到待分类样本的第三距离排序，以得到与待分类样本的第三距离最近的预设数量的备用训练样本。

步骤S203：按照与待分类样本的第三距离最近的预设数量的备用训练样本的类别，进行多数投票，以确定待分类样本的类别。

图3是根据本发明的另一个实施例的样本分类流程示意图。

如图3所示，本发明的另一个实施例的样本分类流程可以包括步骤S102、步骤S103、步骤S201、步骤S301、步骤S302、步骤S203。

步骤S301：将每一备用训练样本到待分类样本的第三距离分别与预设阈值比对，将第三距离小于或等于预设阈值的备用训练样本筛选出。

步骤S302：将所有筛选出的备用训练样本到待分类样本的第三距离排序，以得到与待分类样本的第三距离最近的预设数量的备用训练样本。

上述图2和图3的样本分类流程的各步骤的实施细节可参见图1所示的实施例，此处不再赘述。

结合上述图1、图2、图3中各流程的介绍，本发明实施例的样本分类方法可以分为训练阶段和分类阶段，以下结合该两个阶段来介绍对某一待分类样本集Y的样本分类的一个示例性流程。

其中，待分类样本集Y＝{y₁,y₂,.......,y_q}，q表示待分类样本集Y中待分类样本的数量，q为自然数，y_j表示待分类样本集Y中的第j个待分类样本，j为1，2，...，q之中任意一个。训练样本集为T，T＝{x₁，x₂，.......，x_p}，p为训练样本集T中训练样本的数量，p为自然数，x_i为训练样本集T的第i个训练样本，i为1,2,...,p之中任意一个。

在训练阶段：

第一步，利用Spark计算训练样本集T的中心点O。

具体计算公式如下：

第二步，利用Spark计算训练样本集T中的每一个训练样本点x_i到中心点O的距离D_i(i为1,2,...,p之中任意一个)(D_i即第二距离)，并将所有D_i按照从小到大的顺序进行排序，并保存该对D_i排序后的训练样本集T，其中，保存的对D_i排序后的训练样本集T中包括x_i与D_i之间的对应关系。

本发明实施例中，上述在训练阶段执行的第一步和第二步为样本分类的初始化步骤，在执行对待分类样本集的所有待分类样本分类过程中只需要进行一次该初始化步骤即可，该初始化步骤为所有待分类样本所共用，即，在确定待分类样本集Y中的第一个待分类样本的类别之前，执行该初始化步骤，在后续确定第2～q个待分类样本类别时，可以直接使用上述第一步和第二步的执行结果，而无需对每一待分类样本均进行上述初始化部分的计算，减少了计算量，从而降低了计算复杂度。

由于在分类阶段，分别确定待分类样本集Y中每一待分类样本的类别，对于不同的待分类样本，确定其类别的步骤相同，因此以下在分类阶段，以确定待分类样本y_j为例来进行说明，y_j可为待分类样本集Y＝{y₁，y₂，.......y_q}之中的任意一个待分类样本。

在分类阶段：

第三步，利用Spark计算待分类样本y_j与训练样本集T的中心点O的距离r(即第一距离)。

第四步，令距离参数d＝r/K₁，其中，K₁可以根据需要设定，例如设置K₁＝3。则距离参数d＝r/3。

第四步，获取在第二步保存的在训练阶段对D_i排序后的训练样本集T，利用Spark抽取出到训练样本集合T的中心点O的距离为[r-d,r+d]的所有训练样本，作为备用训练样本。

第五步，从这些备用训练样本中，过滤(或称筛选)得到与待分类样本y_j的距离(即第三距离)小于或等于d(即预设阈值，本例中设置为等于距离参数d)的所有备用训练样本，并对该过滤得到的各备用训练样本排序，其中按照备用训练样本到待分类样本y_j的距离(即第三距离)由小到大的顺序执行该排序。

第六步，从过滤得到的各备用训练样本中，选出与待分类样本y_j的距离(即第三距离)最近的K₂个的备用训练样本，按照类别对该K₂个备用训练样本进行多数投票，以确定待分类样本y_j的类别。

K₂可以根据需要设定，通常设置为奇数，本例K₂可以设置与K₁相同的数值，即K₂＝3。

第七步，输出待分类样本y_j的类别。

第八步，在输出待分类样本集Y中每一待分类样本的类别之后，即得到对待分类样本集Y的分类结果。

图4是根据本发明实施例的样本分类算法示意图。

如图4所示，O为训练样本集T的中心点，A表示待分类样本点y_j，C1为以A为中心的圆，C2和C3均为以O为中心的圆，B1为C1与C2的切点，B2为C1与C3的切点。其中，图4中的实心圆点(除A和O之外)表示各训练样本点。O、A、B1、B2处在图4中均由小方框“□”标记出。每个待分类样本点和训练样本点的坐标为各自的属性值。

图4所示的示例中，根据上文的介绍可知，与待分类样本对应的距离参数是用于确定备用训练样本所在的空间范围的参数。图4中，O与A之间的长度即为r，O与B1之间的长度即为r-d，O与B2之间的长度即为r+d，利用Spark抽取出到训练样本集合T的中心点O的距离为[r-d,r+d]的所有训练样本，作为备用训练样本，即抽取C2和C3构成的圆环中的各训练样本作为备用训练样本，对于本例，通过距离参数d确定出备用训练样本所在的空间范围即该圆环之内(包括圆环的内外环的边界)的范围。从这些备用训练样本中，过滤得到与待分类样本y_j的距离(即第三距离)小于或等于预设阈值(本例中预设阈值设置为等于距离参数d)的所有备用训练样本，即过滤得到C1中的各备用训练样本，对C1中的所有备用训练样本按照到A(即待分类样本点y_j)的距离由小到大排序，选取距离A最近的K₂(K₂例如为3)个备用训练样本，然后按照类别对该K₂个备用训练样本进行多数投票，以确定待分类样本y_j的类别。

需要说明的是，图4的样本分类算法示意图是以待分类样本点和训练样本点均具有两个属性为例，即待分类样本点和训练样本点的坐标为二维空间内的坐标，本发明实施例的样本分类算法适用于多维空间(N维空间，N≥2)的情况，即待分类样本点和训练样本点均具有N个属性。在多维空间中，计算两点之间的距离，即计算该多维空间中两点之间的欧式距离。

可以通过实验方法比较本发明实施例和现有技术的样本分类方法的分类精度和运行时间。分类精度为：待分类样本集中被确定的类别与真实类别一致的待分类样本数量，与待分类样本集中待分类样本总数量的比值。

可以从训练样本集中选取一部分样本作为待分类样本，由于训练样本集中每个样本的类别是已知的，因此，选取的该部分待分类样本的真实类别也是已知的。分别通过现有的K-近邻(K-NN)算法和本发明实施例的样本分类方法，确定该部分待分类样本的类别，统计其中确定的类别与真实类别一致的待分类样本数量，再与待分类样本集中待分类样本总数量相比，即得到分类精度。可以利用4个UCI(加州大学机器学习数据库)数据集，将每个数据集中70％的样本作为训练样本，30％的样本作为待分类样本，数据集的基本信息包括：数据集名称、数据集中样本数量、样本属性个数、样本类别个数。按照上述比较分类精度的方法，可以得到本发明实施例和现有技术的样本分类方法的分类精度比较结果。同时，记录每个待分类样本集分别在本发明实施例和现有技术的样本分类方法下的运行时间，即得到本发明实施例和现有技术的样本分类方法的运行时间比较结果。本领域技术人员按照上述实验方法，可以验证，本发明实施例的样本分类方法的分类精度与现有的分类方法精度相当，却可以大大降低运行时间消耗。

本发明实施例的样本分类方法，在为待分类样本确定K₂个近邻训练样本的过程中，压缩了对该近邻训练样本的搜索范围，减少了参与搜索的候选的训练样本的数量，且初始化步骤的计算在训练阶段进行，在执行对待分类样本集的所有待分类样本分类过程中只需要进行一次该初始化步骤即可，所有待分类样本可共用初始化计算结果，而无需反复进行初始化运算，减少了对样本分类时的计算量，降低计算复杂度，降低运行时间消耗，进而提高分类效率，适应大数据场景的样本分类应用需求，此外，本发明实施例的样本分类方法的分类精度与现有分类方案相当，保证较高的分类精度。

图5是根据本发明实施例的样本分类装置的主要模块示意图。

如图5所示，本发明实施例的样本分类装置500包括：计算模块501、抽取模块502、分类模块503。

计算模块501用于计算待分类样本与训练样本集的中心点之间的第一距离。

训练样本集包括多个训练样本。

抽取模块502用于根据每一训练样本与训练样本集的中心点之间的第二距离、与待分类样本对应的距离参数、待分类样本与训练样本集的中心点之间的第一距离，从训练样本集中抽取多个备用训练样本。

与待分类样本对应的距离参数是根据该第一距离确定的、用于确定备用训练样本所在的空间范围的参数。

分类模块503用于分别计算每一备用训练样本到待分类样本的第三距离，并根据与待分类样本的第三距离最近的预设数量的备用训练样本，确定待分类样本的类别。

样本分类装置500还可以包括初始化模块，用于：如果待分类样本是所属的待分类样本集中第一个被分类的样本，则：确定训练样本集的中心点的位置信息，以及计算每一训练样本与训练样本集的中心点之间的第二距离，按照第二距离对训练样本集中的所有训练样本排序，并保存训练样本集的中心点的位置信息以及排序后的训练样本集；如果待分类样本不是所属的待分类样本集中第一个被分类的样本，则：读取保存的训练样本集的中心点的位置信息以及排序后的训练样本集。

初始化模块还可以用于：通过计算引擎确定训练样本集的中心点的位置信息，以及计算每一训练样本与训练样本集的中心点之间的第二距离。

抽取模块502具体可以用于：从排序后的训练样本集中，抽取满足如下条件的训练样本作为备用训练样本：被抽取的训练样本到训练样本集的中心点的第二距离小于或等于第一参数、且大于或等于第二参数，其中，第一参数为第一距离与待分类样本对应的距离参数之和，第二参数为第一距离与待分类样本对应的距离参数之差。

样本分类装置500还可以包括距离参数确定模块，用于：将第一距离与一预设值的比值，确定为与待分类样本对应的距离参数。

在一种实施方式中，分类模块503具体可以用于：分别计算每一备用训练样本到待分类样本的第三距离；将所有备用训练样本到待分类样本的第三距离排序，以得到与待分类样本的第三距离最近的预设数量的备用训练样本；按照与待分类样本的第三距离最近的预设数量的备用训练样本的类别，进行多数投票，以确定待分类样本的类别。

在另一种实施方式中，分类模块503具体可以用于：分别计算每一备用训练样本到待分类样本的第三距离；将每一备用训练样本到待分类样本的第三距离分别与预设阈值比对，将第三距离小于或等于预设阈值的备用训练样本筛选出；将所有筛选出的备用训练样本到待分类样本的第三距离排序，以得到与待分类样本的第三距离最近的预设数量的备用训练样本；按照与待分类样本的第三距离最近的预设数量的备用训练样本的类别，进行多数投票，以确定待分类样本的类别。

本发明实施例的样本分类装置，在为待分类样本确定近邻的训练样本的过程中，压缩了对该近邻训练样本的搜索范围，减少了参与搜索的候选的训练样本的数量，且初始化步骤的计算在训练阶段进行，在执行对待分类样本集的所有待分类样本分类过程中只需要进行一次该初始化步骤即可，所有待分类样本可共用初始化计算结果，而无需反复进行初始化运算，减少了对样本分类时的计算量，降低计算复杂度，降低运行时间消耗，进而提高分类效率，适应大数据场景的样本分类应用需求，此外，本发明实施例的样本分类装置的分类精度与现有分类方案相当，可保证较高的分类精度。

另外，在本发明实施例中样本分类装置的具体实施内容，在上面所述样本分类方法中已经详细说明了，故在此重复内容不再说明。

图6示出了可以应用本发明实施例的样本分类方法或样本分类装置的示例性***架构600。

如图6所示，***架构600可以包括终端设备601、602、603，网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备601、602、603通过网络604与服务器605交互，以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器605可以是提供各种服务的服务器，例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息)反馈给终端设备。

需要说明的是，本发明实施例所提供的样本分类方法一般由服务器605执行，相应地，样本分类装置一般设置于服务器605中。

应该理解，图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图7，其示出了适于用来实现本申请实施例的服务器的计算机***700的结构示意图。图7示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机***700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有***700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本申请的***中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括计算模块501、抽取模块502、分类模块503。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，计算模块501还可以被描述为“用于计算待分类样本与训练样本集的中心点之间的第一距离的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：计算待分类样本与训练样本集的中心点之间的第一距离，所述训练样本集包括多个训练样本；根据每一训练样本与所述训练样本集的中心点之间的第二距离、与所述待分类样本对应的距离参数、所述第一距离，从所述训练样本集中抽取多个备用训练样本，与所述待分类样本对应的距离参数是根据所述第一距离确定的、用于确定备用训练样本所在的空间范围的参数；分别计算每一备用训练样本到所述待分类样本的第三距离，并根据与所述待分类样本的第三距离最近的预设数量的备用训练样本，确定所述待分类样本的类别。

根据本发明实施例的技术方案，根据每一训练样本与训练样本集的中心点之间的第二距离、与待分类样本对应的距离参数、第一距离，从训练样本集中抽取多个备用训练样本，与待分类样本对应的距离参数是根据第一距离确定的、用于确定备用训练样本所在的空间范围的参数；分别计算每一备用训练样本到待分类样本的第三距离，并根据与待分类样本的第三距离最近的预设数量的备用训练样本，确定待分类样本的类别。压缩了对待分类样本的近邻训练样本的搜索范围，减少了参与搜索的候选的训练样本的数量。确定训练样本集的中心点的位置信息、计算每一训练样本与训练样本集的中心点之间的第二距离、保存训练样本集的中心点的位置信息以及排序后的训练样本集等初始化步骤的执行结果可为所有待分类样本分类流程共用，而无需反复进行初始化运算。综上，本发明实施例可以减少对样本分类时的计算量，降低计算复杂度，降低运行时间消耗，进而提高分类效率，适应大数据场景的样本分类应用需求。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种样本分类方法，其特征在于，包括：

计算待分类样本与训练样本集的中心点之间的第一距离，所述训练样本集包括多个训练样本；

根据每一训练样本与所述训练样本集的中心点之间的第二距离、与所述待分类样本对应的距离参数、所述第一距离，从所述训练样本集中抽取多个备用训练样本，与所述待分类样本对应的距离参数是根据所述第一距离确定的、用于确定备用训练样本所在的空间范围的参数；

分别计算每一备用训练样本到所述待分类样本的第三距离，并根据与所述待分类样本的第三距离最近的预设数量的备用训练样本，确定所述待分类样本的类别。

2.根据权利要求1所述的方法，其特征在于，计算待分类样本与训练样本集的中心点之间的第一距离的步骤之前，包括：

如果所述待分类样本是所属的待分类样本集中第一个被分类的样本，则：确定所述训练样本集的中心点的位置信息，以及计算所述每一训练样本与所述训练样本集的中心点之间的第二距离，按照所述第二距离对所述训练样本集中的所有训练样本排序，并保存所述训练样本集的中心点的位置信息以及排序后的所述训练样本集；

如果所述待分类样本不是所属的待分类样本集中第一个被分类的样本，则：读取保存的所述训练样本集的中心点的位置信息以及排序后的所述训练样本集。

3.根据权利要求2所述的方法，其特征在于，通过计算引擎确定所述训练样本集的中心点的位置信息，以及计算所述每一训练样本与所述训练样本集的中心点之间的第二距离。

4.根据权利要求2所述的方法，其特征在于，根据每一训练样本与所述训练样本集的中心点之间的第二距离、与所述待分类样本对应的距离参数、所述第一距离，从所述训练样本集中抽取多个备用训练样本的步骤，包括：

从排序后的所述训练样本集中，抽取满足如下条件的训练样本作为备用训练样本：

被抽取的训练样本到所述训练样本集的中心点的第二距离小于或等于第一参数、且大于或等于第二参数，其中，所述第一参数为所述第一距离与所述待分类样本对应的距离参数之和，所述第二参数为所述第一距离与所述待分类样本对应的距离参数之差。

5.根据权利要求1所述的方法，其特征在于，根据所述第一距离，按照如下方法确定与所述待分类样本对应的距离参数：

将所述第一距离与一预设值的比值，确定为与所述待分类样本对应的距离参数。

6.根据权利要求1所述的方法，其特征在于，分别计算每一备用训练样本到所述待分类样本的第三距离，并根据与所述待分类样本的第三距离最近的预设数量的备用训练样本，确定所述待分类样本的类别的步骤，包括：

分别计算每一备用训练样本到所述待分类样本的第三距离；

将所有备用训练样本到所述待分类样本的第三距离排序，以得到与所述待分类样本的第三距离最近的预设数量的备用训练样本；

按照与所述待分类样本的第三距离最近的预设数量的备用训练样本的类别，进行多数投票，以确定所述待分类样本的类别。

7.根据权利要求1所述的方法，其特征在于，分别计算每一备用训练样本到所述待分类样本的第三距离，并根据与所述待分类样本的第三距离最近的预设数量的备用训练样本，确定所述待分类样本的类别的步骤，包括：

分别计算每一备用训练样本到所述待分类样本的第三距离；

将每一备用训练样本到所述待分类样本的第三距离分别与预设阈值比对，将所述第三距离小于或等于所述预设阈值的备用训练样本筛选出；

将所有筛选出的备用训练样本到所述待分类样本的第三距离排序，以得到与所述待分类样本的第三距离最近的预设数量的备用训练样本；

8.一种样本分类装置，其特征在于，包括：

计算模块，用于计算待分类样本与训练样本集的中心点之间的第一距离，所述训练样本集包括多个训练样本；

抽取模块，用于根据每一训练样本与所述训练样本集的中心点之间的第二距离、与所述待分类样本对应的距离参数、所述第一距离，从所述训练样本集中抽取多个备用训练样本，与所述待分类样本对应的距离参数是根据所述第一距离确定的、用于确定备用训练样本所在的空间范围的参数；

分类模块，用于分别计算每一备用训练样本到所述待分类样本的第三距离，并根据与所述待分类样本的第三距离最近的预设数量的备用训练样本，确定所述待分类样本的类别。

9.根据权利要求8所述的装置，其特征在于，还包括初始化模块，用于：

10.根据权利要求9所述的装置，其特征在于，所述初始化模块还用于：

通过计算引擎确定所述训练样本集的中心点的位置信息，以及计算所述每一训练样本与所述训练样本集的中心点之间的第二距离。

11.根据权利要求9所述的装置，其特征在于，所述抽取模块还用于：

12.根据权利要求8所述的装置，其特征在于，还包括距离参数确定模块，用于：

13.根据权利要求8所述的装置，其特征在于，所述分类模块还用于：

分别计算每一备用训练样本到所述待分类样本的第三距离；

14.根据权利要求8所述的装置，其特征在于，所述分类模块还用于：

分别计算每一备用训练样本到所述待分类样本的第三距离；

15.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

16.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。