CN109447103B

CN109447103B - 一种基于硬聚类算法的大数据分类方法、装置及设备

Info

Publication number: CN109447103B
Application number: CN201811044932.0A
Authority: CN
Inventors: 金戈; 徐亮; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2023-09-29
Anticipated expiration: 2038-09-07
Also published as: CN109447103A

Abstract

本申请公开了一种基于硬聚类算法的大数据分类方法、装置及设备，其中方法包括：获取数据信息，将数据信息划分为N份样本数据；对每份样本数据进行初次硬聚类分析，确定出N*K1个初次聚类中心；对N*K1个初次聚类中心进行二次硬聚类分析，确定出K2个二次聚类中心；依据所述K2个二次聚类中心，将所述数据信息划分为K2个分类项目，并将每个分类项目与对应的数据信息存储在数据库中。通过上述方案，得到的二次聚类中心的精确度更高，使得依据该二次聚类中心进行分类的效果更好，得到的每个分类项目都能有比较鲜明的特点，使得用户能够更好的对各个分类项目进行区分，不会被混淆。

Description

一种基于硬聚类算法的大数据分类方法、装置及设备

技术领域

本申请涉及数据分析技术领域，特别是涉及一种基于硬聚类算法的大数据分类方法、装置及设备。

背景技术

一些公司的发展越来越迅速，公司的员工也就越来越多，对于这些员工人数比较多的公司，需要对员工进行人群分析，为员工划分类别。

目前，通常都采用聚类算法对获取的人群数据进行分类，划分出不同类别的人员的特点，根据分类结果对人群进行分析，例如，可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来，并且概括出每一类消费者的消费模式或者习惯。

最常用的聚类算法是K-means算法，但是，现有k-means方法聚类中心随机选择，如果聚类中心选择不当，则聚类效果不好，得到的分类结果不够准确。

发明内容

有鉴于此，本申请提供了一种基于硬聚类算法的大数据分类方法、装置及设备。主要目的在于解决现有k-means方法聚类中心随机选择，如果聚类中心选择不当，则聚类效果不好，得到的分类结果不够准确的技术问题。

依据本申请的第一方面，提供了一种基于硬聚类算法的大数据分类方法，所述方法的步骤包括：

获取数据信息，将数据信息划分为N份样本数据，N≥1；

对每份样本数据进行初次硬聚类分析，确定出N*K1个初次聚类中心，其中，K1为初次硬聚类分析中确定出的初次聚类中心数量，K1≥1；

对N*K1个初次聚类中心进行二次硬聚类分析，确定出K2个二次聚类中心，其中，K2为二次硬聚类分析中确定出的二次聚类中心数量，K2≥1；

依据所述K2个二次聚类中心，将所述数据信息划分为K2个分类项目，并将每个分类项目与对应的数据信息存储在数据库中。

依据本申请的第二方面，提供了一种基于硬聚类算法的大数据分类装置，所述装置包括：

获取单元，用于获取数据信息，将数据信息划分为N份样本数据，N≥1；

聚类分析单元，用于对每份样本数据进行初次硬聚类分析，确定出N*K1个初次聚类中心，其中，K1为初次硬聚类分析中确定出的初次聚类中心数量，K1≥1；

所述聚类分析单元，还用于对N*K1个初次聚类中心进行二次硬聚类分析，确定出K2个二次聚类中心，其中，K2为二次硬聚类分析中确定出的二次聚类中心数量，K2≥1；

分类单元，用于依据所述K2个二次聚类中心，将所述数据信息划分为K2个分类项目，并将每个分类项目与对应的数据信息存储在数据库中。

依据本申请的第三方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的基于硬聚类算法的大数据分类方法的步骤。

依据本申请的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的基于硬聚类算法的大数据分类方法的步骤。

借由上述技术方案，本申请提供的一种基于硬聚类算法的大数据分类方法、装置及设备，能够大量的数据信息进行样本划分，划分为N份样本数据，然后利用硬聚类算法对每份样本数据进行初次聚类分析，进而得到N*K1个初次聚类中心，然后再利用硬聚类算法对这N*K1个初次聚类中心进行再次聚类分析，得到K2个二次聚类中心，这样得到的二次聚类中心的精确度更高，使得依据该二次聚类中心进行分类的效果更好，得到的每个分类项目都能有比较鲜明的特点，使得用户能够更好的对各个分类项目进行区分，不会被混淆。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请的基于硬聚类算法的大数据分类方法的一个实施例的流程图；

图2为本申请的基于硬聚类算法的大数据分类装置的一个实施例的结构框图；

图3为本申请的计算机设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例提供了一种基于硬聚类算法的大数据分类方法，通过对数据信息进行两次或两次以上的硬聚类方式，得到的聚类中心更加精确，这样就使得根据聚类中心进行的类别划分更加准确。

如图1所示，本申请实施例提供了一种基于硬聚类算法的大数据分类方法，步骤包括：

步骤101，获取数据信息，将数据信息划分为N份样本数据，N≥1。

在该步骤中，获取公司员工、公司客户或者其他人群的数据信息，数据信息包括：性别、年龄、爱好、身高、体重、收入等。以供后续根据这些数据信息进行聚类分析，划分相应的的类别。

步骤102，对每份样本数据进行初次硬聚类(K-means)分析，确定出N*K1个初次聚类中心，其中，K1为每份样本数据初次硬聚类分析后确定出的初次聚类中心数量，K1≥1。

在该步骤中，为每个数据信息赋予对应的数值。

例如，性别：第一位数为1，第二位数中男的数值为1，女的数值为2；

年龄：第一位数为2，直接将年龄数放置在第一位数后面；

爱好：第一位数为3，并为各种不同的爱好设置相应的第二位数；

身高：第一位数为4，将相应的身高值(单位cm)放置在第一位数后面；

体重：第一位数为5，将相应的体重值(单位kg)放置在第一位数后面；

收入：第一位数为6，将相应的收入值(单位元)放置在第一位数后面。

将这些数据信息作为样本，分成N份样本数据。

然后获取每个数据信息的录入时间，以数据信息的录入时间为横轴，以数据信息的数值为纵轴，建立坐标系O1。通过该坐标系O1利用硬聚类(K-means)算法对每份样本数据进行初次聚类分析，进而得到N*K1个初次聚类中心。

其中，每个初次聚类中心对应一个数据信息。

步骤103，对N*K1个初次聚类中心进行二次硬聚类分析，确定出K2个二次聚类中心，其中，K2为二次硬聚类分析中确定出的二次聚类中心数量，K2≥1。

以N*K1个初次聚类中心对应的数据信息的录入时间为横轴，数值为纵轴，重新建立坐标系O2。利用K-means算法对N*K1个初次聚类中心进行二次聚类分析，得到K2个二次聚类中心。同样，每个二次聚类中心对应一个数据信息，该数据信息是从初次聚类中心对应的数据信经过二次聚类分析得到的。

步骤104，依据K2个二次聚类中心，将数据信息划分为K2个分类项目，并将每个分类项目与对应的数据信息存储在数据库中。

在该步骤中，将经过两次K-means聚类分析得到的K2个二次聚类中心，将得到的各个二次聚类中心与步骤102建立的坐标系O1中的数据信息的坐标进行对应。以二次聚类中心为中心，将坐标系O1上的各个数据信息的划分为K2个区域，分别对应不同的分类项目。其中，具体分类项目根据最终的聚类结果得到。例如，得到的分类项目有：高业务能力类、低业务能力类、善于沟通类、性格开朗类等。

然后将每个分类项目中的数据信息以及该数据信息，按照数据信息的录入时间的先后顺序进行排列，并与各个人物的个人信息进行关联对应后，列表存储在数据库中。这样，用户就可以从数据库中查找自己需要的分类项目的人群。

例如，保险公司的领导，想要从保险代理人中查找高业务能力类的保险代理人，对其进行奖励，则直接从数据库中找到高业务能力类，并调取高业务能力类的所有保险代理人的个人信息，将这些个人信息展示给保险公司的领导。让公司领导或者其他人，能够根据划分的类别对公司员工或客户进行特点总结。

通过上述技术方案，利用两次硬聚类算法进行聚类分析，能够得到比较精确的聚类中心，使得依据聚类中心进行分类的效果更好，每个分类项目之间的区别更加明显。这样用户就可以根据得到的分类结果对人群进行特点分析，或者从分类结果中调取自己需要的人群。

步骤104具体包括：

步骤1041，判断二次聚类中心数量K2是否大于等于设定阈值，若判断结果为是，则进入步骤1042，若判断结果为否，则进入步骤1043。

步骤1042，再次对K2个二次聚类中心进行硬聚类分析，直至确定出的最终聚类中心的数量小于设定阈值。

步骤1043，依据K2个二次聚类中心，将数据信息划分为K2个分类项目，并将每个分类项目与对应的数据信息存储在数据库中。

在上述技术方案中，用户可以根据实际情况对设定阈值进行设置(例如设置为100)，然后利用该设定阈值对上述方案得到的二次聚类中心的数量进行判断。如果大于等于该设定阈值，则证明对应得到的分类项目比较多，各个分类项目之间的区别点不是很明显，使得分类效果不好。并且得到的分类项目过多，用户在从数据库中调取自己需要的分类项目时，还会增加查找时间。因此需要对K2个二次聚类中心利用K-means聚类算法再次进行聚类分析，聚类分析的过程与上述步骤103同理。直至确定出的最终聚类中心的数量小于设定阈值。

通过上述技术方案，能够根据二次聚类分析后得到的二次聚类中心的数量，判断是否需要再次进行聚类分析，这样能够保证得到的分类项目的数量不会超过设定阈值，使得各个分类项目之间有明显的区别特征，不会产生混淆的情况，进而提高分类效果。

步骤102具体包括：

步骤1021，为每份样本数据确定K1个第一初始聚类中心。

在该步骤中，确定出第一初始聚类中心之后，在坐标系O1中找出每个第一初始聚类中心的位置，并对其进行标记，方便进行定位。

步骤1022，计算每份样本数据中数据信息与K1个第一初始聚类中心的距离。

在该步骤中，在坐标系O1中将其中一份样本数据中的K1个第一初始聚类中心的坐标，和其他数据信息的坐标确定出来，计算其他数据信息P1(x1，y1)到各个第一初始聚类中心P2(x2，y2)的距离

步骤1023，将数据信息分配至距离最短的第一初始聚类中心对应的第一类别中，每份样本数据都得到K1个第一类别及与每个第一类别对应的数据信息。

在该步骤中，若数据信息与某个第一初始聚类中心的距离最短，证明该数据信息与该第一初始聚类中心最相似，二者可能是一类。因此将该数据信息归到该第一初始聚类中心对应的第一类别中。

步骤1024，对每份样本数据的每个第一类别确定第一中心点，并选取距离第一中心点距离最短的数据信息，作为初次聚类中心，则N份样本数据对应N*K1个初次聚类中心。

在该步骤中，得到的各个第一类别对应的数据信息的聚类中心并不够精确，需要重新选取对应的聚类中心。因此，计算每个第一类别中相距最远的两个数据信息，并以这两个数据信息的连线的中点作为对应第一类别的第一中心点。由于该第一中心点可能是一个虚拟的点，并不与数据信息对应，不能作为初次聚类中心，因此，需要选取距离第一中心点距离最短的数据信息，作为初次聚类中心。

步骤1021中可以通过两种不同的方式来为每份样本数据确定第一初始聚类中心。

其一，如果用户对这些数据信息不太了解，经验不多，则采取如下步骤：

步骤10211，从每份样本数据中随机选取一个数据信息C1，计算C1所在样本数据中各个数据信息与C1的距离D(x)，并依据公式计算各个数据信息作为第一初始聚类中心的概率值。

步骤10212，将概率值大于等于预定概率值的K1个数据信息，作为第一初始聚类中心。

其二，如果用户对数据信息相对了解，能够估计出初次聚类的第一初始聚类中心数量，则采取如下步骤：

步骤10211’，设置数量K1为第一初始聚类中心数量。

例如，用户触发聚类中心数量设置按钮，就会弹出输入数量的窗口，用户只需将自己认为比较合理的数字从窗口输入，并点击确认键即可。

步骤10212’，从每份样本数据中随机选取K1个数据信息作为第一初始聚类中心。

在上述技术方案中，用户可以根据自己的实际情况，从以上两种确定第一初始聚类中心的方式中选择一种，进而方便用户的使用。

步骤103具体包括：

步骤1031，从N*K1个初次聚类中心中选取K2个，作为第二初始聚类中心。

在该步骤中，第二初始聚类中心的选取过程，与第一初始聚类中心的选取过程相似，具体为：

利用坐标系O2，从N*K1个初次聚类中心中随机选取一个数据信息C2，计算各个初次聚类中心与C2的距离D(x)，并依据公式计算各个初次聚类中心作为第二初始聚类中心的概率值。将概率值大于等于预定概率值的K2个初次聚类中心，作为第二初始聚类中心。

或者，

设置数量K2为第二初始聚类中心数量，利用坐标系O2从N*K1个初次聚类中心中随机选取K2个数据信息作为第二初始聚类中心。

步骤1032，计算各个初次聚类中心与K2个第二初始聚类中心的距离。

在该步骤中，先在坐标系O2中对K2个第二初始聚类中心的坐标进行标记，然后进行距离的计算。

步骤1033，将初次聚类中心分配至距离最短的第二初始聚类中心对应的第二类别中，其中K2个第二初始聚类中心，对应K2个第二类别。

在该步骤中，若初次聚类中心与某个第二初始聚类中心的距离最短，证明该初次聚类中心与该第二初始聚类中心最相似，二者可能是一类。因此将该初次聚类中心归到该第一初始聚类中心对应的第二类别中。

步骤1034，对每个第二类别确定第二中心点，并选取与第二中心点距离最短的初次聚类中心，作为二次聚类中心，得到K2个二次聚类中心。

在该步骤中，得到的各个第二类别对应的聚类中心并不够精确，需要重新选取对应的聚类中心。因此，选取每个第二类别中相距最远的两个初始聚类中心，并以这两个初次聚类中心的连线的中点作为对应第二类别的第二中心点。由于该第二中心点可能是一个虚拟的点，不能作为二次聚类中心，因此，需要选取距离第二中心点距离最短的初次聚类中心，作为二次聚类中心。

通过上述技术方案，获得的二次聚类中心是在初次聚类得到的初次聚类中心的基础上，进行次K-means聚类分析之后得到，这样使得二次聚类中心的精确度更高，依据该二次聚类中心进行分类的效果更好。

步骤101具体包括：

步骤1011，获取数据信息的总数，将数据信息按照每份预定数量对数据信息进行平均划分，划分为N份样本数据，其中最后一份样本数据的数量小于等于预定数量。

或者，

步骤1011’获取数据信息的最大值A和最小值B，将A至B进行平均N等分，得到N组数值范围，将数据信息按照N组数值范围划分为N份样本数据。

通过上述技术方案，由于数据信息的数量庞大，同时对庞大的数据信息进行聚类分析，会出现***崩溃的情况，因此可以对数据信息按照数量进行平均划分，也可以按照数值进行平均划分，划分为N份样本数据后，就可以对每一份样本数据进行聚类分析，使得聚类分析的效果得到有效提高。

步骤104具体包括：

步骤1041，为每个二次聚类中心确定对应的分类项目。

步骤1042，计算数据信息与每个二次聚类中心的距离，将数据信息分配至距离最短的二次聚类中心对应的分类项目中。

步骤1043，将获得的K2个分类项目与对应的数据信息存储在数据库中。

在上述技术方案中，用户可以根据自己的实际经验，为每个二次聚类中心对应的分类项目进行命名，例如：高等经验员工、中等经验员工、低等经验员工等。

然后，将依据坐标系O2得到的K2个二次聚类中心，转移到坐标系O1中，并在坐标系O1中对每个二次聚类中心进行标记。计算各个数据信息与每个二次聚类中心的距离，根据距离的大小确定各个数据信息与对应二次聚类中心的相关度，距离越短证明相关度越高。因此将数据信息分配至距离最短的二次聚类中心对应的分类项目中，来完成对数据信息的分类任务。

通过本实施例的技术方案，能够大量的数据信息进行样本划分，划分为N份样本数据，然后利用硬聚类算法对每份样本数据进行初次聚类分析，进而得到N*K1个初次聚类中心，然后再利用硬聚类算法对这N*K1个初次聚类中心进行再次聚类分析，得到K2个二次聚类中心，这样得到的二次聚类中心的精确度更高，使得依据该二次聚类中心进行分类的效果更好，得到的每个分类项目都能有比较鲜明的特点，使得用户能够更好的对各个分类项目进行区分，不会被混淆。

在本申请的另一个实施例的基于硬聚类算法的大数据分类方法包括如下步骤：

一、获取样本

针对保险公司，想对保险代理人进行分类划分，需要收集保险代理人个人信息的数据(即，数据信息)，包括：性别、年龄、爱好、身高、体重、文化程度、接收客户量、收入等等，将这些个人数据信息进行汇总作为样本。

二、初次聚类

对上述样本进行平均划分，划分为N等份，对这N等份样本分别进行K-means聚类，得到N*K1个聚类中心。

具体聚类过程为：

(1)为每份样本确定出K1个初始聚类中心。K1值可以是预先自己设定，或者按照下述方式进行确定：

为每个样本先随机选取一个数据信息C1，计算其他数据信息与C1的距离D(x)，计算其他数据信息作为初始聚类中心的概率选取概率值大于预定概率的K1个数据信息，作为初始聚类中心。

(2)计算每份样本中各个数据到初始聚类中心的距离，并将该数据分配到距离最短的初始聚类中心对应的类别中，针对每个类别的数据信息利用K-means算法重新计算对应的初次聚类中心，并重复该步骤直至得出的初次聚类中心不再变化。

(3)针对N份样本都采用上述步骤(1)和(2)的方式计算初次聚类中心，得到N*K1个初次聚类中心。

三、二次聚类

以N*K1个初次聚类中心作为样本，利用K-means算法进行再次聚类。

(1)将二次聚类中心的个数设定为K2。K2值可以是预先自己设定，或者按照下述方式进行确定：

从N*K1个初次聚类中心中，先随机选取一个初次聚类中心C2，计算样本中其他初次聚类中心与C2的距离D(x)，计算其他初次聚类中心作为二次聚类的初始聚类中心的概率值将概率值超过预定概率值的K2个数据作为二次聚类中心。

(2)计算各个数据信息到二次聚类中心的距离，并将数据信息分配到距离最短的二次聚类中心对应的类别中，得到K2个类别对应的数据信息。然后再针对每个类别利用K-means重新计算对应的二次聚类中心，并重复该步骤直至得出的二次聚类中心不再变化，进而得到最终的K2个二次聚类中心。

另外，如果得到的K2个二次聚类中心的数量较多，也可以进行三次甚至更多次的聚类分析，再利用经过多次聚类后最终得到的聚类中心用来对数据信息进行分类。

上述多次聚类过程中，再次聚类的样本都是上一次聚类的结果，这样比只进行一次聚类得到的聚类中心更加精确。

四、对样本进行分类

利用得到的K2个二次聚类中心对获得的所有数据信息进行类别划分，将数据信息划分为K2个类别。

这样保险公司的领导就可以根据各个类别对应的保险代理人的数据信息，分析对应类别的保险代理人的特点，进而更好的针对每类保险代理人的特点为其规划合适的工作。

综上所述，本方案通过对收集的数据信息进行两次甚至更多次的聚类分析，获得比较精确的聚类中心，这样使得根据聚类中心进行分类，得到的各个类别具有较高差异性，聚类效果较为理想。使得各个类别的群体能够体现各自特性。此外，能够根据已知的分类结果，查看群体差异在特征上的反映，从而梳理代理人特征对于其群体归类的影响。

进一步的，作为图1方法的具体实现，本申请实施例提供了一种基于硬聚类算法的大数据分类装置，如图2所示，装置包括：获取单元21、聚类分析单元22和分类单元23。

获取单元21，用于获取数据信息，将数据信息划分为N份样本数据，N≥1；

聚类分析单元22，用于对每份样本数据进行初次硬聚类分析，确定出N*K1个初次聚类中心，其中，K1为每份样本数据初次硬聚类分析后确定出的初次聚类中心数量，K1≥1；

聚类分析单元22，还用于对N*K1个初次聚类中心进行二次硬聚类分析，确定出K2个二次聚类中心，其中，K2为二次硬聚类分析中确定出的二次聚类中心数量，K2≥1；

分类单元23，用于依据K2个二次聚类中心，将数据信息划分为K2个分类项目，并将每个分类项目与对应的数据信息存储在数据库中。

在具体实施例中，分类单元23具体包括：

判断模块，用于判断二次聚类中心数量K2是否大于等于设定阈值；若判断结果为是，则再次对K2个二次聚类中心进行硬聚类分析，直至确定出的最终聚类中心的数量小于设定阈值；若判断结果为否，则依据K2个二次聚类中心，将数据信息划分为K2个分类项目，并将每个分类项目与对应的数据信息存储在数据库中。

在具体实施例中，聚类分析单元22具体包括：

中心确定模块，用于为每份样本数据确定K1个第一初始聚类中心；

距离计算模块，用于计算每份样本数据中数据信息与K1个第一初始聚类中心的距离；

分配模块，用于将数据信息分配至距离最短的第一初始聚类中心对应的第一类别中，每份样本数据都得到K1个第一类别及与每个第一类别对应的数据信息；

选取模块，用于对每份样本数据的每个第一类别确定第一中心点，并选取距离第一中心点距离最短的数据信息，作为初次聚类中心，则N份样本数据对应N*K1个初次聚类中心。

在具体实施例中，中心确定模块具体包括：

概率计算模块，用于从每份样本数据中随机选取一个数据信息C1，计算C1所在样本数据中各个数据信息与C1的距离D(x)，并依据公式计算各个数据信息作为第一初始聚类中心的概率值；将概率值大于等于预定概率值的K1个数据信息，作为第一初始聚类中心；

或者，

随机模块，用于设置数量K1为第一初始聚类中心数量；从每份样本数据中随机选取K1个数据信息作为第一初始聚类中心。

在具体实施例中，中心确定模块，还用于从N*K1个初次聚类中心中选取K2个，作为第二初始聚类中心；

距离计算模块，还用于计算各个初次聚类中心与K2个第二初始聚类中心的距离；

分配模块，还用于将初次聚类中心分配至距离最短的第二初始聚类中心对应的第二类别中，其中K2个第二初始聚类中心，对应K2个第二类别；

选取模块，还用于对每个第二类别确定第二中心点，并选取与第二中心点距离最短的初次聚类中心，作为二次聚类中心，得到K2个二次聚类中心。

在具体实施例中，获取单元21，还用于获取数据信息的总数，将数据信息按照每份预定数量对数据信息进行平均划分，划分为N份样本数据，其中最后一份样本数据的数量小于等于预定数量；

或者，

还用于获取数据信息的最大值A和最小值B，将A至B进行平均N等分，得到N组数值范围，将数据信息按照N组数值范围划分为N份样本数据。

在具体实施例中，分类单元23具体还包括：

类别确定模块，为每个二次聚类中心确定对应的分类项目；计算数据信息与每个二次聚类中心的距离，将数据信息分配至距离最短的二次聚类中心对应的分类项目中；

存储模块，用于将获得的K2个分类项目与对应的数据信息存储在数据库中。

基于上述图1所示方法和图2所示装置的实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，如图3所示，包括存储器32和处理器31，其中存储器32和处理器31均设置在总线33上存储器32存储有计算机程序，处理器31执行计算机程序时实现图1所示的基于硬聚类算法的大数据分类方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储器(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

可选地，该设备还可以连接用户接口、网络接口、摄像头、射频(Radio Frequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

基于上述如图1所示方法和图2所示装置的实施例，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1所示的基于硬聚类算法的大数据分类方法。

本领域技术人员可以理解，本实施例提供的一种计算机设备的结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作***、网络通信模块。操作***是管理和量化交易设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与量化交易设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。

通过应用本申请的技术方案，能够大量的数据信息进行样本划分，划分为N份样本数据，然后利用硬聚类算法对每份样本数据进行初次聚类分析，进而得到N*K1个初次聚类中心，然后再利用硬聚类算法对这N*K1个初次聚类中心进行再次聚类分析，得到K2个二次聚类中心，这样得到的二次聚类中心的精确度更高，使得依据该二次聚类中心进行分类的效果更好，得到的每个分类项目都能有比较鲜明的特点，使得用户能够更好的对各个分类项目进行区分，不会被混淆。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种基于硬聚类算法的大数据分类方法，其特征在于，所述方法的步骤包括：

获取数据信息，将数据信息划分为N份样本数据，N≥1；

对每份样本数据进行初次硬聚类分析，确定出N*K1个初次聚类中心，其中，K1为每份样本数据初次硬聚类分析后确定出的初次聚类中心数量，K1≥1；

所述对N*K1个初次聚类中心进行二次硬聚类分析，确定出K2个二次聚类中心，具体包括：

从N*K1个初次聚类中心中选取K2个，作为第二初始聚类中心；

计算各个初次聚类中心与K2个第二初始聚类中心的距离；

将初次聚类中心分配至距离最短的第二初始聚类中心对应的第二类别中，其中K2个第二初始聚类中心，对应K2个第二类别；

对每个第二类别确定第二中心点，并选取与第二中心点距离最短的初次聚类中心，作为二次聚类中心，得到K2个二次聚类中心；

依据所述K2个二次聚类中心，将所述数据信息划分为K2个分类项目，并将每个分类项目与对应的数据信息存储在数据库中；

所述依据所述K2个二次聚类中心，将所述数据信息划分为K2个分类项目，并将每个分类项目与对应的数据信息存储在数据库中，具体包括：

判断二次聚类中心数量K2是否大于等于设定阈值；

若判断结果为是，则再次对所述K2个二次聚类中心进行硬聚类分析，直至确定出的最终聚类中心的数量小于设定阈值；

若判断结果为否，则依据所述K2个二次聚类中心，将所述数据信息划分为K2个分类项目，并将每个分类项目与对应的数据信息存储在数据库中；

为每个二次聚类中心确定对应的分类项目；

计算所述数据信息与每个二次聚类中心的距离，将所述数据信息分配至距离最短的二次聚类中心对应的分类项目中；

将获得的K2个分类项目与对应的数据信息存储在数据库中。

2.根据权利要求1所述的大数据分类方法，其特征在于，所述对每份样本数据进行初次硬聚类分析，确定出N*K1个初次聚类中心，具体包括：

为每份样本数据确定K1个第一初始聚类中心；

计算每份样本数据中数据信息与K1个第一初始聚类中心的距离；

将数据信息分配至距离最短的第一初始聚类中心对应的第一类别中，每份样本数据都得到K1个第一类别及与每个第一类别对应的数据信息；

对每份样本数据的每个第一类别确定第一中心点，并选取距离第一中心点距离最短的数据信息，作为初次聚类中心，则N份样本数据对应N*K1个初次聚类中心。

3.根据权利要求2所述的大数据分类方法，其特征在于，所述为每份样本数据确定K1个第一初始聚类中心，具体包括：

从每份样本数据中随机选取一个数据信息C1，计算C1所在样本数据中各个数据信息与C1的距离D（x），并依据公式，计算各个数据信息作为第一初始聚类中心的概率值；

将所述概率值大于等于预定概率值的K1个数据信息，作为第一初始聚类中心；

或者，

设置数量K1为第一初始聚类中心数量；

从每份样本数据中随机选取K1个数据信息作为第一初始聚类中心。

4.根据权利要求1所述的大数据分类方法，其特征在于，所述获取数据信息，将数据信息划分为N份样本数据，具体包括：

获取数据信息的总数，将所述数据信息按照每份预定数量对所述数据信息进行平均划分，划分为N份样本数据，其中最后一份样本数据的数量小于等于预定数量；

或者，

获取数据信息的最大值A和最小值B，将A至B进行平均N等分，得到N组数值范围，将所述数据信息按照所述N组数值范围划分为N份样本数据。

5.一种基于硬聚类算法的大数据分类装置，其特征在于，所述装置包括：

聚类分析单元，用于对每份样本数据进行初次硬聚类分析，确定出N*K1个初次聚类中心，其中，K1为每份样本数据初次硬聚类分析后确定出的初次聚类中心数量，K1≥1；

聚类分析单元，还用于对N*K1个初次聚类中心进行二次硬聚类分析，确定出K2个二次聚类中心，其中，K2为二次硬聚类分析中确定出的二次聚类中心数量，K2≥1；

所述聚类分析单元具体包括：中心确定模块，用于从N*K1个初次聚类中心中选取K2个，作为第二初始聚类中心；

距离计算模块，用于计算各个初次聚类中心与K2个第二初始聚类中心的距离；

分配模块，用于将初次聚类中心分配至距离最短的第二初始聚类中心对应的第二类别中，其中K2个第二初始聚类中心，对应K2个第二类别；

选取模块，用于对每个第二类别确定第二中心点，并选取与第二中心点距离最短的初次聚类中心，作为二次聚类中心，得到K2个二次聚类中心；

分类单元，用于依据所述K2个二次聚类中心，将所述数据信息划分为K2个分类项目，并将每个分类项目与对应的数据信息存储在数据库中；

所述分类单元具体包括：判断模块，用于判断二次聚类中心数量K2是否大于等于设定阈值；若判断结果为是，则再次对K2个二次聚类中心进行硬聚类分析，直至确定出的最终聚类中心的数量小于设定阈值；若判断结果为否，则依据K2个二次聚类中心，将数据信息划分为K2个分类项目，并将每个分类项目与对应的数据信息存储在数据库中；

所述分类单元具体还包括：类别确定模块，用于为每个二次聚类中心确定对应的分类项目；计算数据信息与每个二次聚类中心的距离，将数据信息分配至距离最短的二次聚类中心对应的分类项目中；

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的基于硬聚类算法的大数据分类方法的步骤。

7.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的基于硬聚类算法的大数据分类方法的步骤。