CN108764319A - 一种样本分类方法和装置 - Google Patents

一种样本分类方法和装置 Download PDF

Info

Publication number
CN108764319A
CN108764319A CN201810487963.7A CN201810487963A CN108764319A CN 108764319 A CN108764319 A CN 108764319A CN 201810487963 A CN201810487963 A CN 201810487963A CN 108764319 A CN108764319 A CN 108764319A
Authority
CN
China
Prior art keywords
submanifold
similarity
cluster centre
sample
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810487963.7A
Other languages
English (en)
Inventor
张明阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201810487963.7A priority Critical patent/CN108764319A/zh
Publication of CN108764319A publication Critical patent/CN108764319A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种样本分类方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:计算测试样本与多个子簇的聚类中心的相似度,根据所述相似度和预设阈值确定选取区间;其中,所述子簇是对训练样本集合进行分簇后得到的;从相似度最高的聚类中心对应的子簇中,选取出与所述聚类中心的相似度在所述选取区间的训练样本;将选取出的训练样本作为新的训练样本集合,以对所述测试样本进行分类。该方法对于每一个测试样本,按照确定的选取区间,从与其相似度最高的聚类中心对应的子簇中选取出训练样本,使用选取出的训练样本对每个测试样本进行分类,减少了后续进行分类的训练样本数量,提高了大数据环境下的样本分类效率。

Description

一种样本分类方法和装置
技术领域
本发明涉及计算机领域,尤其涉及一种样本分类方法和装置。
背景技术
K近邻算法因其简单且易于实现,被广泛应用于许多领域,比如人脸识别、基因分类、决策支持等。K近邻算法的基本思想是:对于给定的测试样本x,在训练样本集合中寻找它的K个最近邻样本,并根据这K个最近邻样本的类别来确定测试样本x的类别。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:K近邻算法在寻找最近邻样本的过程中,需要逐个计算测试样本与训练样本集合中的每个训练样本的距离(或者相似度),当训练样本集合为大数据时,上述计算过程会产生很高的开销,导致算法的效率变得非常低,甚至不可行。
发明内容
有鉴于此,本发明实施例提供一种样本分类方法和装置,对于每一个测试样本,按照确定的选取区间,从与其相似度最高的聚类中心对应的子簇中选取出训练样本,使用选取出的训练样本对每个测试样本进行分类,提高了大数据环境下的样本分类效率。
为实现上述目的,根据本发明实施例的一个方面,提供了一种样本分类方法。
本发明实施例的一种样本分类方法,包括:计算测试样本与多个子簇的聚类中心的相似度,根据所述相似度和预设阈值确定选取区间;其中,所述子簇是对训练样本集合进行分簇后得到的;从相似度最高的聚类中心对应的子簇中,选取出与所述聚类中心的相似度在所述选取区间的训练样本;将选取出的训练样本作为新的训练样本集合,以对所述测试样本进行分类。
可选地,所述根据所述相似度和预设阈值确定选取区间,包括:将最高的所述相似度减少预设阈值,将减少后的值作为选取区间的最小值;将最高的所述相似度增加所述阈值,将增加后的值作为所述选取区间的最大值。
可选地,所述计算测试样本与多个子簇的聚类中心的相似度的步骤之前,还包括:对所述训练样本集合进行分簇,以得到多个所述子簇;确定每个所述子簇的聚类中心。
可选地,所述确定每个所述子簇的聚类中心的步骤之前,还包括:对每个所述子簇进行压缩;所述确定每个所述子簇的聚类中心,包括:确定压缩后的每个所述子簇的聚类中心。
可选地,所述确定压缩后的每个所述子簇的聚类中心,包括:计算压缩后的每个所述子簇中所有训练样本的坐标平均值,所述坐标平均值即为压缩后的每个所述子簇的聚类中心的坐标。
为实现上述目的,根据本发明实施例的另一方面,提供了一种样本分类装置。
本发明实施例的一种样本分类装置,包括:确定模块,用于计算测试样本与多个子簇的聚类中心的相似度,根据所述相似度和预设阈值确定选取区间;其中,所述子簇是对训练样本集合进行分簇后得到的;选取模块,用于从相似度最高的聚类中心对应的子簇中,选取出与所述聚类中心的相似度在所述选取区间的训练样本;分类模块,用于将选取出的训练样本作为新的训练样本集合,以对所述测试样本进行分类。
可选地,所述确定模块,还用于:将最高的所述相似度减少预设阈值,将减少后的值作为选取区间的最小值;以及将最高的所述相似度增加所述阈值,将增加后的值作为所述选取区间的最大值。
可选地,所述装置还包括:分簇确定模块,用于对所述训练样本集合进行分簇,以得到多个所述子簇;以及确定每个所述子簇的聚类中心。
可选地,所述装置还包括:压缩模块,用于对每个所述子簇进行压缩;所述分簇确定模块,还用于确定压缩后的每个所述子簇的聚类中心。
可选地,所述分簇确定模块,还用于:计算压缩后的每个所述子簇中所有训练样本的坐标平均值,所述坐标平均值即为压缩后的每个所述子簇的聚类中心的坐标。
为实现上述目的,根据本发明实施例的再一方面,提供了一种电子设备。
本发明实施例的一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种样本分类方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读介质。
本发明实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种样本分类方法。
上述发明中的一个实施例具有如下优点或有益效果:对于每一个测试样本,按照确定的选取区间,从与其相似度最高的聚类中心对应的子簇中选取出训练样本,使用选取出的训练样本对每个测试样本进行分类,减少了后续进行分类的训练样本数量,提高了大数据环境下的样本分类效率;根据相似度和预设阈值确定选取区间,方便调整进行分类的具体训练样本,扩展性好;通过对训练样本集合进行分簇,并确定每个子簇的聚类中心,既能够保证分类的准确性,又减少了训练样本的数量,提高了样本分类效率;对每个子簇压缩后再计算聚类中心,进一步降低了训练样本的数量,进一步提升了分类效率。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的样本分类方法的主要步骤的示意图;
图2是根据本发明实施例的样本分类方法的主要流程示意图;
图3为本发明实施例的样本分类方法的分类原理示意图;
图4为本发明实施例的样本分类方法的分类结果示意图;
图5是根据本发明实施例的样本分类装置的主要模块的示意图;
图6是本发明实施例可以应用于其中的示例性***架构图;
图7是适用于来实现本发明实施例的电子设备的计算机装置的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的样本分类方法的主要步骤的示意图。如图1所示,本发明实施例的样本分类方法,主要包括如下步骤:
步骤S101:计算测试样本与多个子簇的聚类中心的相似度,根据所述相似度和预设阈值确定选取区间;其中,所述子簇是对训练样本集合进行分簇后得到的。对每个测试样本进行分类之前,需采用聚类算法对训练样本集合进行分簇,以得到多个子簇,并确定每个所述子簇的聚类中心。计算相似度可采用欧式距离、余弦距离、切比雪夫距离等;预设阈值可以是0-最大相似度之间的数值。根据所述相似度和预设阈值确定选取区间的过程可以为:将最高的所述相似度减少预设阈值,将减少后的值作为选取区间的最小值;将最高的所述相似度增加所述阈值,将增加后的值作为所述选取区间的最大值。
步骤S102:从相似度最高的聚类中心对应的子簇中,选取出与所述聚类中心的相似度在所述选取区间的训练样本。以使用欧式距离公式计算相似度为例,选取训练样本的过程为:从欧式距离最小的聚类中心对应的子簇中,选取出到该子簇的聚类中心的欧式距离在所述选取区间内的训练样本。
步骤S103:将选取出的训练样本作为新的训练样本集合,以对所述测试样本进行分类。采用K近邻算法,从新的训练样本集合中找出与测试样本最近的K个训练样本,这K个训练样本中大多数的类别即为测试样本的类别。其中,K可以自定义设置,一般设置为奇数,本发明中可设置为3、5、7等。
图2是根据本发明实施例的样本分类方法的主要流程示意图。如图2所示,本发明实施例的样本分类方法,主要包括如下步骤:
步骤S201:采用聚类算法对训练样本集合进行分簇,以得到多个子簇。常用的聚类算法都可用于本发明,比如划分聚类中的K均值(K-means)算法、密度聚类中的具有噪声的基于密度的聚类方法(Density-Based Spatial Clustering of Applications withNoise,DBSCAN)、模型聚类中的高斯混合模型(GMM)等,以保持较高的分类准确率。将样本集合按照预设比例分为训练样本集合和测试样本集合,该比例比如可以是7:3,训练样本集合中包括多个训练样本,测试样本集合中包括多个测试样本。针对K近邻算法没有训练过程的特征,本步骤采用聚类算法对训练样本集合进行了分簇,即引入了一个训练过程。
步骤S202:对每个所述子簇进行压缩得到压缩簇,确定每个所述压缩簇的聚类中心。采用压缩近邻法,或者剪辑近邻法对每个所述子簇进行压缩,以使每个子簇在保留最少量训练样本的条件下,仍能用K近邻算法对子簇中的全部训练样本正确分类。确定每个所述压缩簇的聚类中心的过程具体为:计算压缩后的每个所述子簇中所有训练样本的坐标平均值,所述坐标平均值即为压缩后的每个所述子簇的聚类中心的坐标。
其中,压缩近邻法能够大大减少样本集的数目,该算法的具体过程为:
(1)将训练集R划分为A和B两个样本集合,且初始样本集合A为空。
(2)从训练集R中随机选择一个样本放入A中,其它样本放入B中,用其对B中的每一个样本进行分类。若样本i能够被正确分类(即预测的类别与样本本身的类别相同),则将其放回到B中;否则将其加入到A中。
(3)重复上述过程,直到B中所有样本都能被正确分类为止。
剪辑近邻法的原理为:给定训练集R和分类规则C,设S是被分类规则C错误分类的样本集合,将这些样本从训练集R中删除,得到R=R-S。重复上述过程,直到满足停止标准。上述过程结束时,训练集R中的样本都是由分类规则C正确分类的样本。该算法的具体过程为:
(1)将训练集R随机划分成N组。
(2)以其余的(N-1)组样本集的并集作为训练集,对第i组样本集中的每一个样本进行K近邻分类。如果分类错误,则加入到集合S中,其中,i=1,2,…,N;
(3)从训练集R中删除集和S中的样本,形成新的数据集R=R-S。重复上述过程,直至最近I次迭代过程中没有错误分类的样本出现。
采用压缩近邻法得到的压缩簇即为上述样本集合A,采用剪辑近邻法得到的压缩簇即为删除错误分类的样本集合后的训练集R。
在一优选的实施例中,假设压缩簇中有三个训练样本,这三个训练样本的坐标分别为:(x1,y1)、(x2,y2)、(x3,y3),则这三个训练样本的聚类中心的坐标为:((x1+x2+x3)/3,(y1+y2+y3)/3)。
步骤S203:计算每个所述压缩簇中,每个训练样本与对应的聚类中心的相似度,并按照预设顺序进行排序。其中,所述顺序由用户自定义。在一优选的实施例中,使用欧式距离计算相似度,具体为:计算压缩簇中,每个训练样本到对应的聚类中心的欧式距离,并按照由小到大的顺序进行排序。
步骤S204:计算测试样本与每个所述压缩簇的聚类中心的相似度,以找出相似度最高的聚类中心对应的压缩簇。在一优选的实施例中,使用欧式距离计算相似度,具体为:计算测试样本与每个所述压缩簇的聚类中心的欧式距离,找出欧式距离最小的聚类中心对应的压缩簇。
步骤S205:从相似度最高的聚类中心对应的压缩簇中选取出至少一个训练样本。该步骤首先需根据测试样本与相似度最高的聚类中心之间的相似度d,以及预设阈值m,确定选取区间T;之后从相似度最高的聚类中心对应的压缩簇中,选取出与对应的聚类中心的相似度在所述选取区间T的训练样本。
在一优选的实施例中,假设最小的欧式距离为d,预设阈值为m,则选取区间T=[d-m,d+m],0<m<d;从该最小的欧式距离对应的压缩簇中,选取出到该压缩簇的聚类中心的欧式距离为[d-m,d+m]的所有训练样本。
步骤S206:将选取出的训练样本作为新的训练样本集合,以采用K近邻算法对所述测试样本进行分类。利用新的训练样本集合对测试样本进行K近邻排序,根据设定的K值和K个最近邻训练样本中多数训练样本的类别,确定并输出测试样本的预测类别。重复步骤S204至步骤S206,以对测试样本集合中的每一个测试样本进行分类。
图3为本发明实施例的样本分类方法的分类原理示意图。该原理图对应步骤S201和步骤S202。如图3所示,将训练样本集合分为5个子簇,对应为C1至C5;对每个子簇分别进行压缩得到5个压缩簇,对应为C'1至C'5;分别计算每个压缩簇的聚类中心,对应为O1至O5。假设训练样本集合中有1000个训练样本,经K-means算法分簇(假设K=5),那么每个子簇中有200个训练样本;每个子簇经压缩近邻算法压缩(假设压缩比为10%),那么每个压缩簇中只有20个训练样本。
图4为本发明实施例的样本分类方法的分类结果示意图。如图4所示,中间的黑色圆为与测试样本的欧氏距离最小的压缩簇的聚类中心O,空心圆即为测试样本D,聚类中心O与测试样本D的欧式距离为d(即OD的长度)。在聚类中心O与测试样本D的连线(延长线)上找出与测试样本D的距离为m的两个点,这两个点分别为E和F,然后以聚类中心O为圆心,OE和OF的长度为半径作圆,即这两个圆的半径分别为d-m和d+m,选取该压缩簇中d-m和d+m之间(即两个圆之间)的训练样本作为新的训练样本集合。在一优选的实施例中,以测试样本D为圆心,选取半径为m的圆内的训练样本作为新的训练样本集合。
在另一优选的实施例中,步骤S201和步骤S202的顺序可以互换,即先采用压缩近邻法或者剪辑近邻法将训练样本集合进行压缩,得到一个压缩簇;之后采用聚类算法对压缩簇进行分簇,以得到多个子簇。步骤S203和步骤S204的顺序可以互换,即先计算测试样本与每个所述压缩簇的聚类中心的相似度,以找出相似度最高的聚类中心对应的压缩簇;之后计算相似度最高的聚类中心对应的压缩簇中,每个训练样本到该聚类中心的相似度,并按照预设顺序进行排序。
为了验证本发明提出的样本分类方法的有效性,我们在四个UCI(University ofCaliforniaIrvine,加州大学欧文分校)数据集上与基于传统K近邻算法进行了关于运行时间和测试精度的实验比较。这四个UCI数据集分别为Forest CoverType(森林植被型数据集)、Skin Segmentation(皮肤分割数据集)、Statlog(德国***数据集)和Cmc(加拿大气象中心生成的全球雪深栅格数据集)。其中,UCI数据集是加州大学欧文分校提出的用于机器学习的数据集,Forest CoverType和Skin Segmentation为大数据集,Statlog为中型数据集,Cmc为小型数据集,表1为实验所用的四个UCI数据集的基本信息。
表1
表2为本发明和传统K近邻算法在Cmc上的运行时间,表3为本发明和传统算法在Statlog上的运行时间,表4为本发明和传统K近邻算法在Forest CoverType上的运行时间,表5为本发明和传统K近邻算法在Skin Segmentation上的运行时间,各表中运行时间(包括每个测试集的运行时间和平均时间)的单位均为秒(s)。表6为本发明和传统K近邻算法的测试精确度的平均值比较(%)结果。
表2
表3
表4
表5
表6
从以上实验结果可以看出,本发明的实施例在保持分类能力的前提下,运行的平均时间上远远低于传统的K近邻算法,提高了传统K近邻算法的分类效率。
通过本发明实施例的样本分类方法可以看出,对于每一个测试样本,按照确定的选取区间,从与其相似度最高的聚类中心对应的子簇中选取出训练样本,使用选取出的训练样本对每个测试样本进行分类,减少了后续进行分类的训练样本数量,提高了大数据环境下的样本分类效率;根据相似度和预设阈值确定选取区间,方便调整进行分类的具体训练样本,扩展性好;通过对训练样本集合进行分簇,并确定每个子簇的聚类中心,既能够保证分类的准确性,又减少了训练样本的数量,提高了样本分类效率;对每个子簇压缩后再计算聚类中心,进一步降低了训练样本的数量,进一步提升了分类效率。
图5是根据本发明实施例的样本分类装置的主要模块的示意图。如图5所示,本发明实施例的样本分类装置500,主要包括:
确定模块501,用于计算测试样本与多个子簇的聚类中心的相似度,根据所述相似度和预设阈值确定选取区间;其中,所述子簇是对训练样本集合进行分簇后得到的。对每个测试样本进行分类之前,需采用聚类算法对训练样本集合进行分簇,以得到多个子簇,并确定每个所述子簇的聚类中心。计算相似度可采用欧式距离、余弦距离、切比雪夫距离等;预设阈值可以是0-最大相似度之间的数值。根据所述相似度和预设阈值确定选取区间的过程可以为:将最高的所述相似度减少预设阈值,将减少后的值作为选取区间的最小值;将最高的所述相似度增加所述阈值,将增加后的值作为所述选取区间的最大值。
选取模块502,用于从相似度最高的聚类中心对应的子簇中,选取出与所述聚类中心的相似度在所述选取区间的训练样本。以使用欧式距离公式计算相似度为例,选取训练样本的过程为:从欧式距离最小的聚类中心对应的子簇中,选取出到该子簇的聚类中心的欧式距离在所述选取区间内的训练样本。
分类模块503,用于将选取出的训练样本作为新的训练样本集合,以对所述测试样本进行分类。采用K近邻算法,从新的训练样本集合中找出与测试样本最近的K个训练样本,这K个训练样本中大多数的类别即为测试样本的类别。其中,K可以自定义设置,一般设置为奇数,本发明中可设置为3、5、7等。
另外,本发明实施例的样本分类装置500还可以包括:分簇确定模块和压缩模块(图5中未示出)。其中,所述分簇确定模块,用于对所述训练样本集合进行分簇,以得到多个所述子簇;以及确定每个所述子簇的聚类中心。所述压缩模块,用于对每个所述子簇进行压缩。
从以上描述可以看出,对于每一个测试样本,按照确定的选取区间,从与其相似度最高的聚类中心对应的子簇中选取出训练样本,使用选取出的训练样本对每个测试样本进行分类,减少了后续进行分类的训练样本数量,提高了大数据环境下的样本分类效率;根据相似度和预设阈值确定选取区间,方便调整进行分类的具体训练样本,扩展性好;通过对训练样本集合进行分簇,并确定每个子簇的聚类中心,既能够保证分类的准确性,又减少了训练样本的数量,提高了样本分类效率;对每个子簇压缩后再计算聚类中心,进一步降低了训练样本的数量,进一步提升了分类效率。
图6示出了可以应用本发明实施例的样本分类方法或样本分类装置的示例性***架构600。
如图6所示,***架构600可以包括终端设备601、602、603,网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器605可以是提供各种服务的服务器,例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息)反馈给终端设备。
需要说明的是,本申请实施例所提供的样本分类方法一般由服务器605执行,相应地,样本分类装置一般设置于服务器605中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
根据本发明的实施例,本发明还提供了一种电子设备和一种计算机可读介质。
本发明的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种样本分类方法。
本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种样本分类方法。
下面参考图7,其示出了适用于来实现本发明实施例的电子设备的计算机***700的结构示意图。图7示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机***700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有计算机***700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文主要步骤图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分,上述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括确定模块、选取模块和分类模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,确定模块还可以被描述为“计算测试样本与多个子簇的聚类中心的相似度,根据所述相似度和预设阈值确定选取区间的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:计算测试样本与多个子簇的聚类中心的相似度,根据所述相似度和预设阈值确定选取区间;其中,所述子簇是对训练样本集合进行分簇后得到的;从相似度最高的聚类中心对应的子簇中,选取出与所述聚类中心的相似度在所述选取区间的训练样本;将选取出的训练样本作为新的训练样本集合,以对所述测试样本进行分类。
从以上描述可以看出,对于每一个测试样本,按照确定的选取区间,从与其相似度最高的聚类中心对应的子簇中选取出训练样本,使用选取出的训练样本对每个测试样本进行分类,减少了后续进行分类的训练样本数量,提高了大数据环境下的样本分类效率;根据相似度和预设阈值确定选取区间,方便调整进行分类的具体训练样本,扩展性好;通过对训练样本集合进行分簇,并确定每个子簇的聚类中心,既能够保证分类的准确性,又减少了训练样本的数量,提高了样本分类效率;对每个子簇压缩后再计算聚类中心,进一步降低了训练样本的数量,进一步提升了分类效率。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (12)

1.一种样本分类方法,其特征在于,包括:
计算测试样本与多个子簇的聚类中心的相似度,根据所述相似度和预设阈值确定选取区间;其中,所述子簇是对训练样本集合进行分簇后得到的;
从相似度最高的聚类中心对应的子簇中,选取出与所述聚类中心的相似度在所述选取区间的训练样本;
将选取出的训练样本作为新的训练样本集合,以对所述测试样本进行分类。
2.根据权利要求1所述的方法,其特征在于,所述根据所述相似度和预设阈值确定选取区间,包括:
将最高的所述相似度减少预设阈值,将减少后的值作为选取区间的最小值;
将最高的所述相似度增加所述阈值,将增加后的值作为所述选取区间的最大值。
3.根据权利要求1或2所述的方法,其特征在于,所述计算测试样本与多个子簇的聚类中心的相似度的步骤之前,还包括:
对所述训练样本集合进行分簇,以得到多个所述子簇;
确定每个所述子簇的聚类中心。
4.根据权利要求3所述的方法,其特征在于,所述确定每个所述子簇的聚类中心的步骤之前,还包括:对每个所述子簇进行压缩;
所述确定每个所述子簇的聚类中心,包括:确定压缩后的每个所述子簇的聚类中心。
5.根据权利要求4所述的方法,其特征在于,所述确定压缩后的每个所述子簇的聚类中心,包括:计算压缩后的每个所述子簇中所有训练样本的坐标平均值,所述坐标平均值即为压缩后的每个所述子簇的聚类中心的坐标。
6.一种样本分类装置,其特征在于,包括:
确定模块,用于计算测试样本与多个子簇的聚类中心的相似度,根据所述相似度和预设阈值确定选取区间;其中,所述子簇是对训练样本集合进行分簇后得到的;
选取模块,用于从相似度最高的聚类中心对应的子簇中,选取出与所述聚类中心的相似度在所述选取区间的训练样本;
分类模块,用于将选取出的训练样本作为新的训练样本集合,以对所述测试样本进行分类。
7.根据权利要求6所述的装置,其特征在于,所述确定模块,还用于:
将最高的所述相似度减少预设阈值,将减少后的值作为选取区间的最小值;以及
将最高的所述相似度增加所述阈值,将增加后的值作为所述选取区间的最大值。
8.根据权利要求6或7所述的装置,其特征在于,所述装置还包括:分簇确定模块,用于对所述训练样本集合进行分簇,以得到多个所述子簇;以及确定每个所述子簇的聚类中心。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:压缩模块,用于对每个所述子簇进行压缩;
所述分簇确定模块,还用于确定压缩后的每个所述子簇的聚类中心。
10.根据权利要求9所述的装置,其特征在于,所述分簇确定模块,还用于:计算压缩后的每个所述子簇中所有训练样本的坐标平均值,所述坐标平均值即为压缩后的每个所述子簇的聚类中心的坐标。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201810487963.7A 2018-05-21 2018-05-21 一种样本分类方法和装置 Pending CN108764319A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810487963.7A CN108764319A (zh) 2018-05-21 2018-05-21 一种样本分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810487963.7A CN108764319A (zh) 2018-05-21 2018-05-21 一种样本分类方法和装置

Publications (1)

Publication Number Publication Date
CN108764319A true CN108764319A (zh) 2018-11-06

Family

ID=64007388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810487963.7A Pending CN108764319A (zh) 2018-05-21 2018-05-21 一种样本分类方法和装置

Country Status (1)

Country Link
CN (1) CN108764319A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109682620A (zh) * 2018-12-06 2019-04-26 郭思 一种家用空调器制冷效率的评估方法
CN110909824A (zh) * 2019-12-09 2020-03-24 天津开心生活科技有限公司 试验数据的核查方法及装置、存储介质及电子设备
CN111767735A (zh) * 2019-03-26 2020-10-13 北京京东尚科信息技术有限公司 执行任务的方法、装置及计算机可读存储介质
CN112508134A (zh) * 2021-02-02 2021-03-16 贝壳找房(北京)科技有限公司 度量集合间相似度的方法、装置、介质和电子设备
CN113590677A (zh) * 2021-07-14 2021-11-02 上海淇玥信息技术有限公司 一种数据处理方法、装置和电子设备
CN114418752A (zh) * 2022-03-28 2022-04-29 北京芯盾时代科技有限公司 无类型标签用户数据的处理方法、装置、电子设备和介质
WO2022121801A1 (zh) * 2020-12-07 2022-06-16 北京有竹居网络技术有限公司 信息处理方法、装置和电子设备
CN114662607A (zh) * 2022-03-31 2022-06-24 北京百度网讯科技有限公司 基于人工智能的数据标注方法、装置、设备以及存储介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109682620A (zh) * 2018-12-06 2019-04-26 郭思 一种家用空调器制冷效率的评估方法
CN109682620B (zh) * 2018-12-06 2020-10-27 郭思 一种家用空调器制冷效率的评估方法
CN111767735A (zh) * 2019-03-26 2020-10-13 北京京东尚科信息技术有限公司 执行任务的方法、装置及计算机可读存储介质
CN110909824A (zh) * 2019-12-09 2020-03-24 天津开心生活科技有限公司 试验数据的核查方法及装置、存储介质及电子设备
CN110909824B (zh) * 2019-12-09 2022-10-28 天津开心生活科技有限公司 试验数据的核查方法及装置、存储介质及电子设备
WO2022121801A1 (zh) * 2020-12-07 2022-06-16 北京有竹居网络技术有限公司 信息处理方法、装置和电子设备
CN112508134A (zh) * 2021-02-02 2021-03-16 贝壳找房(北京)科技有限公司 度量集合间相似度的方法、装置、介质和电子设备
CN112508134B (zh) * 2021-02-02 2021-06-04 贝壳找房(北京)科技有限公司 度量集合间相似度的方法、装置、介质和电子设备
CN113590677A (zh) * 2021-07-14 2021-11-02 上海淇玥信息技术有限公司 一种数据处理方法、装置和电子设备
CN114418752A (zh) * 2022-03-28 2022-04-29 北京芯盾时代科技有限公司 无类型标签用户数据的处理方法、装置、电子设备和介质
CN114662607A (zh) * 2022-03-31 2022-06-24 北京百度网讯科技有限公司 基于人工智能的数据标注方法、装置、设备以及存储介质
CN114662607B (zh) * 2022-03-31 2024-07-05 北京百度网讯科技有限公司 基于人工智能的数据标注方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
CN108764319A (zh) 一种样本分类方法和装置
WO2022126971A1 (zh) 基于密度的文本聚类方法、装置、设备及存储介质
CN108629823A (zh) 多视角图像的生成方法和装置
CN112307472A (zh) 基于智能决策的异常用户识别方法、装置及计算机设备
CN108769905A (zh) 用于确定无线接入点的类别的方法及装置
CN110827924B (zh) 基因表达数据的聚类方法、装置、计算机设备及存储介质
WO2022142001A1 (zh) 基于多评分卡融合的目标对象评价方法及其相关设备
CN108171191A (zh) 用于检测人脸的方法和装置
CN110472899A (zh) 一种物品的出库分配方法和装置
CN110909222A (zh) 基于聚类的用户画像建立方法、装置、介质及电子设备
CN108537291A (zh) 一种样本分类方法和装置
CN112463859B (zh) 基于大数据和业务分析的用户数据处理方法及服务器
CN111695840A (zh) 一种实现流程控制的方法和装置
CN107908662A (zh) 搜索***的实现方法和实现装置
CN110443264A (zh) 一种聚类的方法和装置
CN111931848A (zh) 数据的特征提取方法、装置、计算机设备及存储介质
CN108615006A (zh) 用于输出信息的方法和装置
CN111415196A (zh) 一种广告召回方法、装置、服务器及存储介质
CN111626767A (zh) 资源数据的发放方法、装置及设备
CN107968743A (zh) 推送信息的方法和装置
WO2017095439A1 (en) Incremental clustering of a data stream via an orthogonal transform based indexing
CN110503117A (zh) 数据聚类的方法和装置
CN110263791A (zh) 一种识别功能区的方法和装置
CN110298371A (zh) 数据聚类的方法和装置
CN111400663B (zh) 模型训练方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181106