CN111950632B

CN111950632B - 用于实现小区信息聚类的方法、装置、介质以及电子设备

Info

Publication number: CN111950632B
Application number: CN202010805191.4A
Authority: CN
Inventors: 胡著; 郑开雨
Original assignee: Seashell Housing Beijing Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2021-11-09
Anticipated expiration: 2040-08-12
Also published as: CN111950632A

Abstract

公开了一种用于实现聚类的方法、装置、介质和设备。其中的方法包括：提取数据集合中的各样本数据的属性信息；将所述各样本数据的属性信息形成的多个第一簇的簇核心区域中的样本数据作为保留样本数据；获取由所述保留样本数据的属性信息形成的多个第二簇以及噪点样本数据；根据所述噪点样本数据所属的第一簇，设置所述噪点样本数据所属的簇；针对所述数据集合中的任一非保留样本数据，根据所述数据集合中与该非保留样本数据相似度满足预定相似度要求的样本数据所属的簇，确定该非保留样本数据所属的簇。本公开提供的技术方案有利于避免存在于簇交界处的样本数据使本应获得多个簇，而被合并为一个簇的情况，从而有利于提高聚类结果的准确性。

Description

用于实现小区信息聚类的方法、装置、介质以及电子设备

技术领域

本公开涉及计算机技术，尤其是涉及了一种用于实现聚类的方法、用于实现聚类的装置、存储介质以及电子设备。

背景技术

聚类处理是指根据物以类聚的原理，将本身没有类别的多个样本数据聚集成多个簇的过程。聚类的目的包括：使属于同一个簇的样本数据之间彼此相似，而不同簇的样本数据之间足够不相似。

目前，聚类处理已广泛应用于数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等领域。如何准确的将多个样本数据聚集成多个簇，是一个值得关注的技术问题。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种用于实现聚类的方法、用于实现聚类的装置、存储介质以及电子设备。

根据本公开实施例的一个方面，提供了一种用于实现聚类的方法，该方法包括：提取数据集合中的各样本数据的属性信息；将所述各样本数据的属性信息形成的多个第一簇的簇核心区域中的样本数据作为保留样本数据；获取由所述保留样本数据的属性信息形成的多个第二簇以及噪点样本数据；根据所述噪点样本数据所属的第一簇，设置所述噪点样本数据所属的簇；针对所述数据集合中的任一非保留样本数据，根据所述数据集合中与该非保留样本数据相似度满足预定相似度要求的样本数据所属的簇，确定该非保留样本数据所属的簇。

在本公开一实施方式中，所述提取数据集合中的各样本数据的属性信息，包括：提取数据集合中的各小区的位置信息。

在本公开又一实施方式中，所述将所述各样本数据的属性信息形成的多个第一簇的簇核心区域中的样本数据作为保留样本数据，包括：根据相似度阈值和相似度阈值调节因子，获得调节后的第一相似度阈值；根据所述相似度阈值、调节后的第一相似度阈值以及簇最小样本数量，对所述各样本数据的属性信息进行聚类处理，获得多个第一簇的簇核心区域中的样本数据；其中，所述调节后的第一相似度阈值小于所述相似度阈值。

在本公开再一实施方式中，所述根据所述相似度阈值、调节后的第一相似度阈值以及簇最小样本数量，对所述各样本数据的属性信息进行聚类处理，获得多个第一簇的簇核心区域中的样本数据，包括：对于所述数据集合中的一第一待处理样本数据，确定该第一待处理样本数据的基于相似度阈值的第一邻域数据集合；在所述第一邻域数据集合的样本数据的数量达到所述簇最小样本数量的情况下，为该第一待处理样本数据创建一个新类别的第一簇，并确定该第一待处理样本数据的基于调节后的第一相似度阈值的第二邻域数据集合；在所述第二邻域数据集合的样本数据的数量达到所述簇最小样本数量的情况下，将该第一待处理样本数据作为保留样本数据。

在本公开再一实施方式中，所述根据所述相似度阈值、调节后的第一相似度阈值以及簇最小样本数量，对所述各样本数据的属性信息进行聚类处理，获得多个第一簇的簇核心区域中的样本数据，还包括：对于所述基于相似度阈值的第一邻域数据集合中的一第二待处理样本数据，确定该第二待处理样本数据的基于相似度阈值的第三邻域数据集合；在所述第三邻域数据集合的样本数据的数量达到所述簇最小样本数量的情况下，确定该第二待处理样本数据的基于调节后的第一相似度阈值的第四邻域数据集合；在所述第四邻域数据集合的样本数据的数量达到所述簇最小样本数量的情况下，将该第二待处理样本数据作为保留样本数据。

在本公开再一实施方式中，所述根据所述相似度阈值、调节后的第一相似度阈值以及簇最小样本数量，对所述各样本数据的属性信息进行聚类处理，获得多个第一簇的簇核心区域中的样本数据，还包括：根据为所述第一待处理样本数据创建的新类别的第一簇，设置第二待处理样本数据所属的第一簇的类别。

在本公开再一实施方式中，所述获取由所述保留样本数据的属性信息形成的多个第二簇以及噪点样本数据，包括：根据相似度阈值以及簇最小样本数量，对所述保留样本数据的属性信息进行聚类处理，获得多个第二簇以及噪点样本数据；或者，根据相似度阈值、调节后的第一相似度阈值以及簇最小样本数量，对所述保留样本数据的属性信息进行聚类处理，获得多个第三簇的簇核心区域中的保留样本数据以及噪点样本数据；其中，一个第三簇的簇核心区域中的保留样本数据形成一个第二簇，所述调节后的第一相似度阈值是根据相似度阈值和相似度阈值调节因子获得的。

在本公开再一实施方式中，所述根据所述噪点样本数据所属的第一簇，设置所述噪点样本数据所属的簇，包括：对于任一噪点样本数据，在确定出该噪点样本数据具有所属的第一簇，且当前未针对该第一簇设置新类别的第二簇时，为该噪点样本所属的第一簇设置新类别的第二簇，并将该噪点样本数据作为该新类别的第二簇的中的样本数据；对于任一噪点样本数据，在确定出该噪点样本数据具有所属的第一簇，且当前已针对该第一簇设置新类别的第二簇时，将该噪点样本数据作为该新类别的第二簇中的样本数据。

在本公开再一实施方式中，所述根据所述数据集合中与该非保留样本数据相似度满足预定相似度要求的样本数据所属的簇，确定该非保留样本数据所属的簇，包括：根据相似度阈值和相似度阈值调节因子，获得调节后的第二相似度阈值；对于任一非保留样本数据，在确定该非保留样本数据属于所述多个第一簇中的一第一簇的情况下，获取该非保留样本数据的基于所述调节后的第二相似度阈值的第五邻域数据集合；将所述第五邻域数据集合中与该非保留样本数据相似度最高的样本数据所属的第二簇，作为该非保留样本数据所属的第二簇；其中，所述调节后的第二相似度阈值大于所述相似度阈值。

根据本公开实施例的另一个方面，提供了一种用于实现聚类的装置，该装置包括：提取属性模块，用于提取数据集合中的各样本数据的属性信息；第一获取模块，用于将所述各样本数据的属性信息形成的多个第一簇的簇核心区域中的样本数据作为保留样本数据；第二获取模块，用于获取由所述保留样本数据的属性信息形成的多个第二簇以及噪点样本数据；第一设置模块，用于根据所述噪点样本数据所属的第一簇，设置所述噪点样本数据所属的簇；第二设置模块，用于针对所述数据集合中的任一非保留样本数据，根据所述数据集合中与该非保留样本数据相似度满足预定相似度要求的样本数据所属的簇，确定该非保留样本数据所属的簇。

在本公开一实施方式中，所述提取属性模块进一步用于：提取数据集合中的各小区的位置信息。

在本公开又一实施方式中，所述第一获取模块，包括：第一子模块，用于根据相似度阈值和相似度阈值调节因子，获得调节后的第一相似度阈值；第二子模块，用于根据所述相似度阈值、调节后的第一相似度阈值以及簇最小样本数量，对所述各样本数据的属性信息进行聚类处理，获得多个第一簇的簇核心区域中的样本数据；其中，所述调节后的第一相似度阈值小于所述相似度阈值。

在本公开再一实施方式中，所述第二子模块，包括：第一单元，用于对于所述数据集合中的一第一待处理样本数据，确定该第一待处理样本数据的基于相似度阈值的第一邻域数据集合；第二单元，用于在所述第一邻域数据集合的样本数据的数量达到所述簇最小样本数量的情况下，为该第一待处理样本数据创建一个新类别的第一簇，并确定该第一待处理样本数据的基于调节后的第一相似度阈值的第二邻域数据集合；第三单元，用于在所述第二邻域数据集合的样本数据的数量达到所述簇最小样本数量的情况下，将该第一待处理样本数据作为保留样本数据。

在本公开再一实施方式中，所述第二子模块，还包括：第四单元，用于对于所述基于相似度阈值的第一邻域数据集合中的一第二待处理样本数据，确定该第二待处理样本数据的基于相似度阈值的第三邻域数据集合；第五单元，用于在所述第三邻域数据集合的样本数据的数量达到所述簇最小样本数量的情况下，确定该第二待处理样本数据的基于调节后的第一相似度阈值的第四邻域数据集合；第六单元，用于在所述第四邻域数据集合的样本数据的数量达到所述簇最小样本数量的情况下，将该第二待处理样本数据作为保留样本数据。

在本公开再一实施方式中，所述第二子模块，还包括：第七单元，用于根据为所述第一待处理样本数据创建的新类别的第一簇，设置第二待处理样本数据所属的第一簇的类别。

在本公开再一实施方式中，所述第二获取模块，包括：第三子模块，用于根据相似度阈值以及簇最小样本数量，对所述保留样本数据的属性信息进行聚类处理，获得多个第二簇以及噪点样本数据；或者，第四子模块，用于根据相似度阈值、调节后的第一相似度阈值以及簇最小样本数量，对所述保留样本数据的属性信息进行聚类处理，获得多个第三簇的簇核心区域中的保留样本数据以及噪点样本数据；其中，一个第三簇的簇核心区域中的保留样本数据形成一个第二簇，所述调节后的第一相似度阈值是根据相似度阈值和相似度阈值调节因子获得的。

在本公开再一实施方式中，所述第一设置模块，包括：第五子模块，用于对于任一噪点样本数据，在确定出该噪点样本数据具有所属的第一簇，且当前未针对该第一簇设置新类别的第二簇时，为该噪点样本所属的第一簇设置新类别的第二簇，并将该噪点样本数据作为该新类别的第二簇的中的样本数据；第六子模块，用于对于任一噪点样本数据，在确定出该噪点样本数据具有所属的第一簇，且当前已针对该第一簇设置新类别的第二簇时，将该噪点样本数据作为该新类别的第二簇中的样本数据。

在本公开再一实施方式中，所述第二设置模块，包括：第七子模块，用于根据相似度阈值和相似度阈值调节因子，获得调节后的第二相似度阈值；第八子模块，用于对于任一非保留样本数据，在确定该非保留样本数据属于所述多个第一簇中的一第一簇的情况下，获取该非保留样本数据的基于所述调节后的第二相似度阈值的第五邻域数据集合；第九子模块，用于将所述第五邻域数据集合中与该非保留样本数据相似度最高的样本数据所属的第二簇，作为该非保留样本数据所属的第二簇；其中，所述调节后的第二相似度阈值大于所述相似度阈值。

根据本公开实施例的再一方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述用于实现聚类的方法。

根据本公开实施例的又一方面，提供一种电子设备，该电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述用于实现聚类的方法。

基于本公开上述实施例提供的一种用于实现聚类的方法和装置，由于本公开的保留样本数据为第一簇的簇核心区域中的样本数据，因此，本公开尽可能地避免了位于簇交界处的样本数据被作为保留样本数据的情况；由于本公开中的第二簇是由保留样本数据形成的，而保留样本数据中基本上不包括位于簇交界处的样本数据，因此，本公开中的第二簇可以有效避免本应为两个第二簇而被合并为一个第二簇的情况；由于本公开中的由保留样本数据形成的噪点样本数据在本质上并不是真正的噪点样本数据，且非保留样本数据中通常包含有应属于相应第一簇或第二簇的样本数据，因此，本公开通过利用噪点样本数据所属的第一簇，来设置噪点样本数据所属的簇，并利用相似度满足预定相似度要求的样本数据所属的簇，确定非保留样本数据所属的簇，可以在避免本应为两个第二簇，而被合并作为一个第二簇这一现象的同时，保持第一簇的类别，并使数据集合中尽量多的样本数据分别属于相应的簇。由此可知，本公开提供的技术方案有利于提高聚类结果的准确性。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开的适用场景的一个实施例的示意图；

图2为本公开的用于实现聚类的方法一个实施例的流程图；

图3为本公开的获得保留样本数据一个实施例的流程图；

图4A为本公开的保留样本数据一个实施例的示意图；

图4B为本公开的保留样本数据中的噪点样本数据一个实施例的示意图；

图4C为本公开的获得多个第一簇的簇核心区域中的样本数据一个实施例的流程图；

图5为本公开的获得多个第二簇以及噪点样本数据一个实施例的流程图；

图6为本公开的获得多个第二簇以及噪点样本数据另一个实施例的流程图；

图7为本公开的确定噪点样本数据所属的簇的一个实施例的流程图；

图8为本公开的确定非保留样本数据所属的簇的一个实施例的流程图；

图9为本公开的用于实现聚类的装置一个实施例的结构示意图；

图10为本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或者两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅是一种描述关联对象的关联关系，表示可以存在三种关系，如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开的实施例可以应用于终端设备、计算机***、服务器等电子设备，其可与众多其它通用或者专用计算***环境或配置一起操作。适于与终端设备、计算机***或者服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***、大型计算机***和包括上述任何***的分布式云计算技术环境等等。

终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施。在分布式云计算环境中，任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

本公开概述

在实现本公开的过程中，发明人发现，基于密度的聚类方法，例如，DBSCAN(Density-Based Spatial Clustering of Applications with Noise，带噪声的基于密度的空间聚类)方法，主要用于对数值型样本数据进行聚类。基于密度的聚类方法主要是根据给定的样本数据相似度阈值和簇中最小样本数据数量，对样本数据进行聚类处理。

在密度均匀，簇距离相对较远，且簇之间界限很明确的情况下，DBSCAN 方法可以取得较好的聚类效果。然而，由于DBSCAN方法对簇交界处的样本数据非常敏感，因此，如果两个簇的交界处存在样本数据，则往往会导致两个簇由于其簇交界处的样本数据而被合并为一个簇，从而影响了聚类结果的准确性。另外，两个簇被合并为一个簇，还会对后续的数据处理形成较大的运算压力。

示例性概述

在房产领域中，小区融合是构建房产知识图谱的重要环节。小区融合往往需要根据小区的属性信息对小区进行聚类处理，从而将相似的小区聚合在一起，最终形成多个小区簇，并将各小区簇提供给其他业务线使用。由于一个小区簇中的所有小区具有较高的相似度，因此，其他业务线可以以小区簇为单位进行数据处理，从而可以极大的降低数据处理量，减轻数据处理压力。另外，以小区簇为单位进行数据处理，还有利于便捷的获取区县/城市/省等行政区域的小区宏观数据。

本公开提供的用于实现聚类的技术应用在房产领域的一个例子，如图1所示。

图1中，每一个点表示一个小区的位置信息，例如，横坐标中的数值表示经度的映射值，纵坐标数值表示纬度的映射值。

由图1可知，所有点表示的小区应该被划分为三个小区簇，即集中在偏上偏右位置处的多个点应形成一个小区簇，集中在中间偏右位置处的多个点应形成一个小区簇，而集中在左下位置处的多个点应形成一个小区簇。集中在偏上偏右位置处的多个点与其他位置处的点的距离较远，边界较为清晰，在聚类处理过程中比较容易被划分为一个小区簇；而由于圆圈100中的多点位于集中在中间偏右位置的多个点与集中在左下位置的多个点之间的边界位置处，从而使集中在中间偏右位置处的多个点与集中在左下位置处的多个点的边界较为模糊，进而在聚类处理过程中，很可能使集中在中间偏右位置处的多个点与集中在左下位置处的多个点被作为一个小区簇。

本公开提供的用于实现聚类的技术，在能够有效避免集中在中间偏右位置处的多个点与集中在左下位置处的多个点被作为一个小区簇的现象的同时，可以使图1中的尽可能多的点均具有相应的簇。

示例性方法

图2为本公开的用于实现聚类的方法一个实施例的流程图。如图2所示，该实施例的方法包括步骤：S200、S201、S202、S203以及S204。下面对各步骤分别进行说明。

S200、提取数据集合中的各样本数据的属性信息。

本公开中的数据集合是指由多个样本数据形成的集合。数据集合可以表现为数据库或者表或者字典等形式。数据集合是基于历史业务数据、网站访问日志等历史数据中获得的。

本公开中的样本数据可以是指待聚类数据。在不同应用场景中，样本数据表现为不同形式。例如，在房产领域中，样本数据可以为小区标识等。再例如，在商品零售领域，样本数据可以为商品标识等。样本数据的属性信息可以是指能够反映样本数据自身特点的信息。例如，在房产领域中，在样本数据为小区标识的情况下，样本数据的属性信息可以为小区的位置信息等。再例如，在商品零售领域，在样本数据为商品标识的情况下，样本数据的属性信息可以为商品的消费对象等。

S201、将各样本数据的属性信息形成的多个第一簇的簇核心区域中的样本数据作为保留样本数据。

本公开可以利用所有样本数据形成多个簇，例如，根据所有样本数据的属性信息的相似性，形成多个簇。每个簇对应一个类别，不同簇对应不同类别。为了与后续步骤中形成的簇相区分，本公开将S201所形成的簇称为第一簇。

通常情况下，本公开中的所有样本数据中的部分样本数据有其所属的第一簇，而另一部分样本数据没有其所属的第一簇。不属于任一第一簇的样本数据可以称为噪点样本数据。为了与其他步骤中的噪点样本数据相区分，可以将不属于任一第一簇的样本数据称为第一噪点样本数据。

本公开中的簇核心区域是指簇的非边缘位置，簇核心区域中任一点距离簇中心的距离通常小于簇边缘区域中任一点距离簇中心的距离。簇核心区域中的每一个样本数据均被作为一个保留样本数据。本公开的S201可以将数据集合中的所有样本数据划分为保留样本数据和非保留样本数据。其中的非保留样本数据包括第一噪点样本数据以及第一簇中的位于簇核心区域之外的样本数据。

本公开中的所有非保留样本数据形成的集合可以采用下述公式(1)表示：

O＝dataset-R 公式(1)

在上述公式(1)中，O表示所有非保留样本数据形成的集合；R表示所有保留样本数据形成的集合；dataset表示数据集合。

S202、获取由保留样本数据的属性信息形成的多个第二簇以及噪点样本数据。

本公开可以利用所有保留样本数据形成多个簇，例如，本公开可以根据所有保留样本数据的属性信息的相似性，形成多个簇。每个簇对应一个类别，不同簇对应不同类别。为了与S201中形成的簇相区分，本公开将S202所形成的簇称为第二簇。通常情况下本公开中的所有保留样本数据中的一部分保留样本数据有其所属的第二簇，而另一部分保留样本数据没有其所属的第二簇。不属于任一第二簇的保留样本数据可以称为噪点样本数据。为了与其他步骤中的噪点样本数据相区分，本公开可以将不属于任一第二簇的保留样本数据称为第二噪点样本数据。

S203、根据噪点样本数据所属的第一簇，设置噪点样本数据所属的簇。

由于每一个第二噪点样本数据均为相应类别的第一簇的簇核心区域中的样本数据，因此，本公开中的每一个第二噪点样本数据均有其所属的第一簇。针对任一第二噪点样本数据而言，本公开可以将该第二噪点样本数据所属的第一簇作为该第二噪点样本数据所属的簇。也就是说，第一簇的类别可以被传递给第二噪点样本。

S204、针对数据集合中的任一非保留样本数据，根据数据集合中与该非保留样本数据相似度满足预定相似度要求的样本数据所属的簇，确定该非保留样本数据所属的簇。

本公开中的非保留样本数据是指数据集合中的除了保留样本数据之外的其他样本数据。也就是说，非保留样本数据包括：各第一簇的非簇核心区域中的样本数据以及第一噪点样本数据(即不属于任何第一簇的样本数据)。

如果数据集合中的一样本数据与一非保留样本数据的相似度满足预定相似度要求，且该样本数据不是第一噪点样本数据，则可以将该样本数据所属的簇作为该非保留样本数据所属的簇。

在满足预定相似度要求的样本数据不是第一噪点样本数据的情况下，该样本数据所属的簇的类别有可能是第一簇对应的类别，也有可能是第二簇对应的类被。如果满足预定相似度要求的样本数据是第一噪点样本数据，该非保留样本数据可以被最终确定为噪点样本数据。

本公开中的两个样本数据之间的相似度可以采用两个样本数据之间的距离来表示，且相似度满足预定相似度要求可以是指两个样本数据之间的距离不超过预设距离。

由于本公开的保留样本数据为第一簇的簇核心区域中的样本数据，因此，本公开尽可能地避免了位于簇交界处的样本数据被作为保留样本数据的情况；由于本公开中的第二簇是由保留样本数据形成的，而保留样本数据中基本上不应存在位于簇交界处的样本数据，因此，本公开中的第二簇不会存在本应为两个第二簇而被合并为一个第二簇的情况；由于本公开中的由保留样本数据形成的噪点样本数据在本质上并不是真正的噪点样本数据，且非保留样本数据中通常包含有应属于相应簇的样本数据，因此，本公开通过利用噪点样本数据所属的第一簇，来设置噪点样本数据所属的簇，并利用相似度满足预定相似度要求的样本数据所属的簇，确定非保留样本数据所属的簇，可以在避免本应为两个第二簇，而被合并作为一个第二簇这一现象的同时，保持第一簇的类别，使数据集合中的尽可能多的样本数据具有相应的簇。由此可知，本公开提供的技术方案是一种对簇交界处的样本数据不敏感的聚类技术，有利于提高聚类结果的准确性。

在一个可选示例中，本公开中的样本数据可以为小区标识，样本数据的属性信息可以为小区的位置信息。例如，小区的位置信息可以为小区的经度信息和纬度信息。再例如，小区的位置信息可以为小区的经度信息的映射值和纬度信息的映射值。本公开通过利用小区的位置信息确定数据集合中的多个小区各自所属的簇，有利于宏观的展现区县/城市/省等行政区域的小区位置情况，在针对小区进行数据处理时，可以以小区簇为单位进行数据处理，有利于避免大量的小区给数据处理带来的数据处理压力。

在一个可选示例中，本公开获得保留样本数据的一个例子如图3所示。

图3中，S300、根据相似度阈值和相似度阈值调节因子，获得调节后的第一相似度阈值。

可选的，本公开中的相似度阈值可以为基于密度的聚类方法(如DBSCAN 方法)中的相似度阈值eps，该相似度阈值也可以称为扫描半径等。本公开中的相似度阈值和相似度阈值调节因子通常为预设已知值。本公开中的调节后的第一相似度阈值小于相似度阈值。在调节后的第一相似度阈值为相似度阈值与相似度阈值调节因子的乘积时，本公开中的相似度阈值调节因子可以为大于0小于1的小数。在调节后的第一相似度阈值为相似度阈值与相似度阈值调节因子的差值时，本公开中的相似度阈值调节因子可以为正数。相似度阈值和相似度阈值调节因子的取值大小可以根据实际需求设置。

S301、根据相似度阈值、调节后的第一相似度阈值以及簇最小样本数量，对各样本数据的属性信息进行聚类处理，获得多个第一簇的簇核心区域中的样本数据。

可选的，本公开对各样本数据的属性信息进行中的聚类处理可以为基于密度的聚类处理。本公开中的相似度阈值和簇最小样本数量用于创建第一簇，本公开中的调节后的第一相似度阈值以及簇最小样本数量用于将已创建的第一簇划分为簇核心区域和非核心区域。也就是说，在S301的聚类处理过程中，本公开可以利用相似度阈值以及簇最小样本数量，获得多个第一簇，并利用调节后的第一相似度阈值以及簇最小样本数量，获得每一个第一簇中位于簇核心区域中的样本数据。

一个具体的例子，对于数据集合中的未被处理过的第i个样本数据而言，本公开可以先计算第i个样本数据与数据集合中的其他各样本数据的相似度，并筛选出相似度小于相似度阈值的所有样本数据，如果筛选出的所有样本数据的数量不小于预设的簇最小样本数量时，可以为该第i个样本数据设置一个新类别的第一簇，如类别为C的第一簇；之后，本公开可以筛选出相似度小于调节后的第一相似度阈值的所有样本数据，如果筛选出的所有样本数据的数量不小于簇最小样本数量时，可以认为该第i个样本数据为：位于第一簇的簇核心区域中的样本数据，即该第i个样本数据为保留样本数据。本公开获得多个第一簇的簇核心区域中的样本数据的过程可以参见下述针对图4A-图4C的描述。上述簇最小样本数量的大小可以根据实际需求设置。

本公开通过在聚类处理过程中，在相似度阈值以及簇最小样本数量的基础上，增加调节后的第一相似度阈值，由于调节后的第一相似度阈值小于相似度阈值，因此，本公开可以便捷的确定出第一簇中更靠近簇中心的样本数据，从而可以便捷的获得各第一簇的簇核心区域中的样本数据。

本公开获得多个第一簇的簇核心区域中的样本数据的过程如图4C所示。

图4C中，S400、判断数据集合中是否还存在未被处理过的样本数据，如果存在未被处理过的样本数据，到S401，否则，到S412，结束本次获得多个第一簇的簇核心区域中的样本数据的过程。

S401、从数据集合中选取一未被处理过的样本数据。假定该样本数据为第i 个样本数据。第i个样本数据即为第一待处理样本数据。确定第i个样本数据的基于相似度阈值的第一邻域数据集合。将第i个样本数据标记为已被处理过的样本数据。

可选的，本公开可以计算第i个样本数据的属性信息分别与数据集合中的其他各样本数据的属性信息的相似度，从而获得多个相似度。本公开可以利用预设的相似度阈值对上述计算出的所有相似度进行筛选，从而获得第一邻域数据集合。例如，对于任一样本数据而言，如果该样本数据的属性信息与第i个样本数据的属性信息的相似度与相似度阈值之间的关系满足预定相似度要求，则该样本数据被作为第一邻域数据集合中的样本数据。

可选的，本公开中的第一邻域数据集合可以使用下述公式(2)表示：

N＝{i∈dataset|d(i,i1)≤eps} 公式(2)

在上述公式(2)中，N表示第一邻域数据集合；i表示第i个样本数据；i1 表示第i1个样本数据；dataset表示数据集合；d(i,i1)表示第i个样本数据和第i1 个样本数据之间的相似度；eps表示相似度阈值。

S402、判断第一邻域数据集合中的样本数据的数量是否达到簇最小样本数量min_pts，如果达到簇最小样本数量min_pts，则到S403，如果未达到簇最小样本数量min_pts，则到S4021。

S4021、将第i个样本数据作为噪点样本数据，即第一噪点样本数据。返回 S400。

可选的，图4B中的圆圈1中的点可以表示一个噪点样本数据。

S403、为第i个样本数据创建一个新类别的第一簇(例如，类别为C的第一簇)，并确定第i个样本数据的基于调节后的第一相似度阈值的第二邻域数据集合。

可选的，本公开可以利用调节后的第一相似度阈值对上述S401计算出的多个相似度进行筛选，获得第二邻域数据集合。例如，对于任一样本数据而言，如果该样本数据的属性信息与第i个样本数据的属性信息的相似度与调节后的第一相似度阈值之间的关系满足预定相似度要求，则该样本数据被作为第二邻域数据集合中的样本数据。

可选的，本公开中的第二邻域数据集合可以使用下述公式(3)表示：

N'＝{j∈dataset|d(j,j1)≤mu×eps} 公式(3)

在上述公式(3)中，N'表示第二邻域数据集合；j表示第j个样本数据；j1 表示第j1个样本数据；dataset表示数据集合；d(j,j1)表示第j个样本数据和第 j1个样本数据之间的相似度；mu×eps表示调节后的第一相似度阈值；eps表示相似度阈值；mu表示相似度阈值调节因子。

S404、判断第二邻域数据集合中的样本数据的数量是否达到簇最小样本数量min_pts，如果达到簇最小样本数量min_pts，则到S405，如果未达到簇最小样本数量min_pts，则返回S400。

S405、将第i个样本数据作为保留样本数据。例如，将第i个样本数据添加到保留样本数据列表中。

S406、判断第一邻域数据集合中是否还存在未被处理过的样本数据，如果存在未被处理过的样本数据，到S407，否则，返回S400。

S407、从第一邻域数据集合中选取一未被处理过的样本数据。假定该样本数据为第j个样本数据。第j个样本数据即为第二待处理样本数据。将第j个样本数据标记为已被处理过的样本数据。确定第j个样本数据的基于相似度阈值的第三邻域数据集合。

可选的，本公开可以计算第j个样本数据的属性信息分别与数据集合中的其他各样本数据的属性信息的相似度，从而获得多个相似度。本公开可以利用预设的相似度阈值对上述计算出的所有相似度进行筛选，从而获得第三邻域数据集合。例如，对于任一样本数据而言，如果该样本数据的属性信息与第j个样本数据的属性信息的相似度与相似度阈值之间的关系满足预定相似度要求，则该样本数据被作为第三邻域数据集合中的样本数据。

S408、判断第三邻域数据集合中的样本数据的数量是否达到簇最小样本数量min_pts，如果达到簇最小样本数量min_pts，则到S409，如果未达到簇最小样本数量min_pts，则返回S406。

S409、确定第j个样本数据的基于调节后的第一相似度阈值的第四邻域数据集合。

可选的，本公开可以利用调节后的第一相似度阈值对上述S407计算出的多个相似度进行筛选，获得第四邻域数据集合。例如，对于任一样本数据而言，如果该样本数据的属性信息与第j个样本数据的属性信息的相似度与调节后的第一相似度阈值之间的关系满足预定相似度要求，则该样本数据被作为第四邻域数据集合中的样本数据。

S410、判断第四邻域数据集合中的样本数据的数量是否达到簇最小样本数量min_pts，如果达到簇最小样本数量min_pts，则到S411，如果未达到簇最小样本数量min_pts，则返回S406。

S411、将第j个样本数据作为保留样本数据。例如，将第j个样本数据添加到保留样本数据列表中。本公开还可以将第三邻域数据集合中的所有样本数据均加入到第一邻域数据集合中。另外，如果第j个样本数据当前不属于任何类别的第一簇，则可以将上述针对第i个样本数据创建的新类别的第一簇作为第j个样本数据所属的第一簇。返回S406。

S412，结束本次获得多个第一簇的簇核心区域中的样本数据的过程。

在数据集合中的所有样本数据如图1所示的情况下，本公开最终获得的所有保留样本数据的一个例子如图4A所示，相较于图1而言，图4A中的集中在中间偏右位置处的多个点与集中在左下位置处的多个点之间的边界位置处的点明显减少，即圆圈100-1中的点明显少于圆圈100中的点，从而使集中在中间偏右位置处的多个点与集中在左下位置处的多个点的边界较为清晰，进而在聚类处理过程中，有利于避免将集中在中间偏右位置处的多个点与集中在左下位置处的多个点被作为一个簇的情况。

在第一邻域数据集合中的样本数据的数量达到簇最小样本数据，且第二邻域数据集合中的样本数据的数量也达到簇最小样本数据时，充分表明第i个样本数据可以与其他样本数据形成一个第一簇；由于形成第二邻域数据集合的调节后的第一相似度阈值小于预设的相似度阈值，因此，第二邻域数据集合中的样本数据应该比第一邻域数据集合中的样本数据更靠近第一簇的中心位置，即第i个样本数据属于第一簇中的簇核心区域的样本数据，从而第i个样本数据可以被作为保留样本数据。同理，在第三邻域数据集合中的样本数据的数量达到簇最小样本数据，且第四邻域数据集合中的样本数据的数量也达到簇最小样本数据时，充分表明第j个样本数据可以与其他样本数据形成一个第一簇；由于形成第四邻域数据集合的调节后的第一相似度阈值小于预设的相似度阈值，因此，第四邻域数据集合中的样本数据应该比第三邻域数据集合中的样本数据更靠近第一簇的中心位置，即第j个样本数据属于第一簇中的簇核心区域的样本数据，从而第j个样本数据可以被作为保留样本数据。由此可知，本公开可以在聚类处理的过程中，便捷的获得保留样本数据，并确定出保留样本数据所属的第一簇。

在一个可选示例中，本公开可以通过对所有保留样本数据的属性信息进行聚类处理，获得多个第二簇以及噪点样本数据(即第二噪点样本数据)。由于本公开是对保留样本数据进行聚类处理，因此，这里的噪点样本数据仍然是保留样本数据。

可选的，本公开在对所有保留样本数据的属性信息进行聚类处理时，可以根据相似度阈值和簇最小样本数量，对所有保留样本数据的属性信息进行聚类处理，获得多个第二簇以及噪点样本数据。该过程的一个例子如图5所示。

图5中，S500、判断保留样本数据集合中是否存在未被处理过的保留样本数据，如果存在未被处理过的保留样本数据，到S501，否则，到S514，结束本次对保留样本数据的聚类处理过程。本公开中的保留样本数据集合由所有的保留样本数据形成。

S501、从保留样本数据集合中选取一未被处理过的保留样本数据。假定该保留样本数据为第i个保留样本数据。确定第i个保留样本数据的基于相似度阈值的一邻域数据集合N1。将第i个保留样本数据标记为已被处理过的样本数据。

可选的，本公开可以计算第i个保留样本数据的属性信息分别与保留样本数据集合中的其他各保留样本数据的属性信息的相似度，从而获得多个相似度。本公开可以利用预设的相似度阈值对上述计算出的所有相似度进行筛选，从而获得一邻域数据集合。例如，对于保留样本数据集合中的任一保留样本数据而言，如果该保留样本数据的属性信息与第i个保留样本数据的属性信息的相似度与相似度阈值之间的关系满足预定相似度要求，则该保留样本数据被作为邻域数据集合 N1中的一保留样本数据。

S502、判断邻域数据集合N1中的保留样本数据的数量是否达到簇最小样本数量min_pts，如果达到簇最小样本数量min_pts，则到S503，如果未达到簇最小样本数量min_pts，则到S5021。

S5021、将第i个保留样本数据作为噪点样本数据，即第二噪点样本数据。返回S500。

S503、为第i个保留样本数据创建一个新类别的第二簇。

S504、判断邻域数据集合N1中是否还存在未被处理过的保留样本数据，如果存在未被处理过的保留样本数据，到S505，否则，返回S500。

S505、从邻域数据集合N1中选取一未被处理过的保留样本数据。假定该保留样本数据为第j个保留样本数据。将第j个保留样本数据标记为已被处理过的保留样本数据。确定第j个保留样本数据的基于相似度阈值的一邻域数据集合 N2。

可选的，本公开可以计算第j个保留样本数据的属性信息分别与保留样本数据集合中的其他各保留样本数据的属性信息的相似度，从而获得多个相似度。本公开可以利用预设的相似度阈值对上述计算出的所有相似度进行筛选，从而获得邻域数据集合N2。例如，对于保留样本数据集合中的任一保留样本数据而言，如果该保留样本数据的属性信息与第j个保留样本数据的属性信息的相似度与相似度阈值之间的关系满足预定相似度要求，则该保留样本数据被作为邻域数据集合N2中的保留样本数据。

S506、判断邻域数据集合N2中的保留样本数据的数量是否达到簇最小样本数量min_pts，如果达到簇最小样本数量min_pts，则到S507，如果未达到簇最小样本数量min_pts，则返回S504。

S507、将邻域数据集合N2中的所有保留样本数据均加入到S501获得的邻域数据集合中。如果第j个保留样本数据当前不属于任何类别的第一簇，则可以将上述针对第i个保留样本数据创建的新类别的第二簇作为第j个样本数据所属的第二簇。返回S504。

S508，结束本次获得多个第二簇以及噪点样本数据的过程。

可选的，本公开在对所有保留样本数据的属性信息进行聚类处理时，可以根据相似度阈值、调节后的第一相似度阈值以及簇最小样本数量，对所有保留样本数据的属性信息进行聚类处理，获得多个第三簇的簇核心区域中的保留样本数据以及噪点样本数据，其中的每一个第三簇的簇核心区域中的所有保留样本数据分别形成一个第二簇。该过程的一个例子如图6所示。

图6中，S600、判断保留样本数据集合中是否存在未被处理过的保留样本数据，如果存在未被处理过的保留样本数据，到S601，否则，到S612，结束本次获得多个第二簇中的保留样本数据的过程。

S601、从保留样本数据集合中选取一未被处理过的保留样本数据。假定该保留样本数据为第i个保留样本数据。确定第i个保留样本数据的基于相似度阈值的邻域数据集合N1。将第i个样本数据标记为已被处理过的样本数据。

可选的，本公开可以计算第i个样本数据的属性信息分别与保留样本数据集合中的其他各保留样本数据的属性信息的相似度，从而获得多个相似度。本公开可以利用预设的相似度阈值对上述计算出的所有相似度进行筛选，从而获得邻域数据集合N1。例如，对于保留样本数据中的任一保留样本数据而言，如果该保留样本数据的属性信息与第i个保留样本数据的属性信息的相似度与相似度阈值之间的关系满足预定相似度要求，则该保留样本数据被作为邻域数据集合N1中的保留样本数据。

S602、判断邻域数据集合N1中的保留样本数据的数量是否达到簇最小样本数量min_pts，如果达到簇最小样本数量min_pts，则到S603，如果未达到簇最小样本数量min_pts，则到S6021。

S6021、将第i个保留样本数据作为噪点样本数据，即第二噪点样本数据。返回S600。

S603、为第i个保留样本数据创建一个新类别的第三簇，并确定第i个保留样本数据的基于调节后的第一相似度阈值的邻域数据集合N2。

可选的，本公开可以利用调节后的第一相似度阈值对上述S601计算出的多个相似度进行筛选，获得邻域数据集合N2。例如，对于保留样本数据集合中的任一保留样本数据而言，如果该保留样本数据的属性信息与第i个保留样本数据的属性信息的相似度与调节后的第一相似度阈值之间的关系满足预定相似度要求，则该保留样本数据被作为邻域数据集合N2中的保留样本数据。

S604、判断邻域数据集合N2中的保留样本数据的数量是否达到簇最小样本数量min_pts，如果达到簇最小样本数量min_pts，则到S605，如果未达到簇最小样本数量min_pts，则返回S6021。

S605、将第i个保留样本数据作为当前新创建的新类别的第三簇的簇核心区域中的保留样本数据。

S606、判断邻域数据集合N1中是否还存在未被处理过的样本数据，如果存在未被处理过的样本数据，到S607，否则，返回S600。

S607、从邻域数据集合N1中选取一未被处理过的保留样本数据。假定该保留样本数据为第j个保留样本数据。将第j个保留样本数据标记为已被处理过的保留样本数据。确定第j个保留样本数据的基于相似度阈值的邻域数据集合N3。

可选的，本公开可以计算第j个保留样本数据的属性信息分别与保留样本数据集合中的其他各样本数据的属性信息的相似度，从而获得多个相似度。本公开可以利用预设的相似度阈值对上述计算出的所有相似度进行筛选，从而获得邻域数据集合N3。例如，对于保留样本数据集合中的任一保留样本数据而言，如果该保留样本数据的属性信息与第j个保留样本数据的属性信息的相似度与相似度阈值之间的关系满足预定相似度要求，则该保留样本数据被作为邻域数据集合 N3中的保留样本数据。

S608、判断邻域数据集合N3中的样本数据的数量是否达到簇最小样本数量 min_pts，如果达到簇最小样本数量min_pts，则到S609，如果未达到簇最小样本数量min_pts，则到S6081。

S6081、将第j个保留样本数据作为噪点样本数据。返回S606。

S609、确定第j个保留样本数据的基于调节后的第一相似度阈值的邻域数据集合N4。

可选的，本公开可以利用调节后的第一相似度阈值对上述S607计算出的多个相似度进行筛选，获得邻域数据集合N4。例如，对于保留样本数据集合中的任一保留样本数据而言，如果该保留样本数据的属性信息与第j个保留样本数据的属性信息的相似度与调节后的第一相似度阈值之间的关系满足预定相似度要求，则该样本数据被作为邻域数据集合N4中的保留样本数据。

S610、判断邻域数据集合N4中的保留样本数据的数量是否达到簇最小样本数量min_pts，如果达到簇最小样本数量min_pts，则到S611，如果未达到簇最小样本数量min_pts，则到S6081。

S611、如果第j个保留样本数据当前不属于任何类别的第三簇，则将第j个保留样本数据作为上述第i个保留样本数据所属的第三簇的簇核心区域中的保留样本数据。本公开还可以将邻域数据集合N3中的所有样本数据均加入到邻域数据集合N1中。返回S606。

S612，结束本次获得多个第三簇的簇核心区域中的保留样本数据的过程。一个第三簇的簇核心区域中的所有保留样本样本数据形成一个第二簇。

在邻域数据集合N1中的保留样本数据的数量达到簇最小样本数据，且邻域数据集合N2中的保留样本数据的数量也达到簇最小样本数据时，充分表明第i 个保留样本数据可以与其他保留样本数据形成一个第二簇；由于形成邻域数据集合N2的调节后的第一相似度阈值小于预设的相似度阈值，因此，邻域数据集合 N2中的保留样本数据应该比邻域数据集合N1中的样本数据更靠近第三簇的中心位置，即第i个保留样本数据属于第三簇中的簇核心区域的保留样本数据，从而第i个保留样本数据可以被作为第二簇的保留样本数据。同理，在邻域数据集合N3中的保留样本数据的数量达到簇最小样本数据，且邻域数据集合N4中的保留样本数据的数量也达到簇最小样本数据时，充分表明第j个保留样本数据可以与其他保留样本数据形成一个第三簇；由于形成邻域数据集合N4的调节后的第一相似度阈值小于预设的相似度阈值，因此，邻域数据集合N4中的保留样本数据应该比邻域数据集合N3中的保留样本数据更靠近第三簇的中心位置，即第 j个样本数据属于第三簇中的簇核心区域的保留样本数据，从而第j个保留样本数据可以被作为第二簇中的保留样本数据。由此可知，本公开可以在聚类处理的过程中，便捷的确定出各保留样本数据各自所属的第二簇。

在一个可选示例中，本公开还应为S202获得的每一个噪点样本数据设置相应类别的簇。S202获得每一个噪点样本数据均为保留样本数据，具体的，对于任一噪点样本数据而言，本公开确定该噪点样本数据所属的簇的一个例子如图7所示。

图7中，S700、获取该噪点样本数据所属的第一簇。由于本步骤中的噪点样本数据是位于第一簇的簇核心区域的保留样本数据，因此，该噪点样本数据一定具有其所属的第一簇。

S701、判断当前是否已经为该噪点样本数据所属的第一簇设置了新类别的第二簇，如果当前已经为该噪点样本数据所属的第一簇设置新类别的第二簇，则到 S702，如果当前还未为该噪点样本数据所属的第一簇设置新类别的第二簇，则到 S703。

可选的，本公开为第一簇设置的新类别的第二簇与上述通过聚类处理(如图5和图6所示的聚类处理)获得的第二簇的类别不相同。例如，假定本公开通过聚类处理获得的第二簇的类别的序号(该序号也可以认为是第二簇的类别的索引值)为1到K(K为大于1的整数)，则为第一簇设置的新类别的第二簇的类别的序号应大于K，例如，从K+1开始设置序号。

S702、将该噪点样本数据作为该已设置的新类别的第二簇的中的样本数据。

可选的，假定本公开为该噪点样本数据所属的第一簇设置的新类别的第二簇的类别的序号为K+k，则本公开可以确定该噪点样本数据所属的第二簇的类别的序号为K+k，其中的k为大于1的整数。

S703、为该噪点样本数据所属的第一簇设置新类别的第二簇，并将该噪点样本数据作为该新类别的第二簇中的样本数据。

可选的，本公开为不同第一簇设置的第二簇的类别应不相同。本公开可以先为该噪点样本数据所属的第一簇分配一个第二簇的新类别的序号，如K+k，并确定该噪点样本数据所属的第二簇的类别的序号为K+k。

本公开通过为第一簇设置一新类别的第二簇，可以使被临时界定为噪点样本数据的保留样本数据属于相应类别的第二簇，从而可以避免位于第一簇的核心区域中的保留样本数据被作为最终的噪点样本数据的情况，使数据集合中的尽可能多的样本数据具有相应类别的第二簇。

在一个可选示例中，本公开还应为非保留样本数据设置相应类别的簇。其中的非保留样本数据包括：属于一第一簇，但并不是位于第一簇的簇核心区域中的样本数据、以及不属于任一第一簇的样本数据。本公开中的所有非保留样本数据形成的集合可以采用上述公式(1)表示。

可选的，对于所有非保留样本数据形成的集合中的任一非保留样本数据而言，本公开确定该非保留样本数据所属的簇的一个例子如图8所示。

图8中，S800、根据相似度阈值和相似度阈值调节因子，获得调节后的第二相似度阈值。

可选的，本公开中的调节后的第二相似度阈值应大于预设的相似度阈值。在一个例子中，本公开可以将相似度阈值和相似度阈值调节因子的商，作为调节后的第二相似度阈值。

S801、对于所有非保留样本数据形成的集合中的任一非保留样本数据，判断该非保留样本数据是否属于第一簇，如果属于第一簇，则到S802，如果不属于第一簇，则到S805。

S802、获取该非保留样本数据的基于调节后的第二相似度阈值的第五邻域数据集合。

可选的，本公开可以计算第j个非保留样本数据的属性信息分别与数据集合中的其他各样本数据的属性信息的相似度，从而获得多个相似度。本公开可以利用调节后的第二相似度阈值对上述计算出的所有相似度进行筛选，从而获得第五邻域数据集合。例如，对于任一非保留样本数据而言，如果该非保留样本数据的属性信息与第j1个样本数据的属性信息的相似度与相似度阈值之间的关系满足预定相似度要求，则该非保留样本数据被作为第五邻域数据集合中的样本数据。

可选的，第五邻域数据集合可以如下述公式(4)所示：

N”＝{j∈dataset|d(j,j1)≤eps/mu} 公式(4)

在上述公式(4)中，N”表示第五邻域数据集合；j表示数据集合中的第j 个非保留样本数据；j1表示数据集合中的第j1个样本数据；dataset表示数据集合；d(j,j1)表示第j个非保留样本数据和第j1个样本数据之间的相似度；eps/mu 表示调节后的第二相似度阈值；eps表示相似度阈值；mu表示相似度阈值调节因子。

S803、判断第五邻域数据集合中与该非保留样本数据相似度最高的样本数据是否为第一噪点样本数据，如果为第一噪点样本数据，则到S805，如果不为第一噪点样本数据，则到S804。

由于属于第一簇，而并不位于第一簇的簇核心区域的样本数据已经通过图7 所示的方式被赋予了第二簇的类别，因此，目前，本公开中的所有样本数据要么属于第二簇，要么是第一噪点样本数据，从而本公开中的相似度最高的样本数据要么属于第二簇，要么是第一噪点样本数据。

S804、将相似度最高的样本数据所属的第二簇的类别作为该非保留样本数据所属的类别。

S805、该非保留样本数据被作为最终的噪点样本数据。

本公开通过利用相似度最高的样本数据所属的第二簇，为属于第一簇，但是位于第一簇的非簇核心区域中的样本数据设置其所属的第二簇，可以避免属于第一簇的非保留样本数据被作为最终的噪点样本数据的情况，使数据集合中的尽可能多的样本数据具有相应类别的第二簇。

示例性装置

图9为本公开的用于实现聚类的装置一个实施例的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。

如图9所示，本实施例的装置主要包括：提取属性模块900、第一获取模块 901、第二获取模块902、第一设置模块903以及第二设置模块904。

提取属性模块900用于提取数据集合中的各样本数据的属性信息。例如，在房产领域中，本公开中的提取属性模块900可以用于提取数据集合中的各小区的位置信息。

第一获取模块901用于将提取属性模块900提取出的各样本数据的属性信息形成的多个第一簇的簇核心区域中的样本数据作为保留样本数据。

在一个示例中，第一获取模块901可以包括：第一子模块9011和第二子模块9012。其中的第一子模块9011可以用于根据相似度阈值和相似度阈值调节因子，获得调节后的第一相似度阈值。其中的第二子模块9012用于根据相似度阈值、调节后的第一相似度阈值以及簇最小样本数量，对各样本数据的属性信息进行聚类处理，获得多个第一簇的簇核心区域中的样本数据。其中的调节后的第一相似度阈值小于预设的相似度阈值。

在一个示例中，第二子模块9012可以包括：第一单元90121、第二单元90122 以及第三单元90123。其中的第一单元90121可以用于对于数据集合中的一第一待处理样本数据，确定该第一待处理样本数据的基于相似度阈值的第一邻域数据集合。其中的第二单元90122可以用于在第一邻域数据集合的样本数据的数量达到簇最小样本数量的情况下，为该第一待处理样本数据创建一个新类别的第一簇，并确定该第一待处理样本数据的基于调节后的第一相似度阈值的第二邻域数据集合。其中的第三单元90123可以用于在第二邻域数据集合的样本数据的数量达到簇最小样本数量的情况下，将该第一待处理样本数据作为保留样本数据。

在一个示例中，第二子模块9012还可以包括：第四单元90124、第五单元 90125以及第六单元90126。其中的第四单元90124可以用于对于基于相似度阈值的第一邻域数据集合中的一第二待处理样本数据，确定该第二待处理样本数据的基于相似度阈值的第三邻域数据集合。其中的第五单元90125可以用于在第三邻域数据集合的样本数据的数量达到所述簇最小样本数量的情况下，确定该第二待处理样本数据的基于调节后的第一相似度阈值的第四邻域数据集合。其中的第六单元90126可以用于在第四邻域数据集合的样本数据的数量达到簇最小样本数量的情况下，将该第二待处理样本数据作为保留样本数据。

在一个示例中，第二子模块9012还可以包括：第七单元90127。第七单元 90124可以用于根据为第一待处理样本数据创建的新类别的第一簇，设置第二待处理样本数据所属的第一簇的类别。

第二获取模块902用于获取由第一获取模块901获得的保留样本数据的属性信息形成的多个第二簇以及噪点样本数据。

在一个示例中，第二获取模块902可以包括：第三子模块9021或者第四子模块9022。其中的第三子模块9021可以用于根据相似度阈值以及簇最小样本数量，对保留样本数据的属性信息进行聚类处理，获得多个第二簇以及噪点样本数据。其中的第四子模块9022可以用于根据相似度阈值、调节后的第一相似度阈值以及簇最小样本数量，对保留样本数据的属性信息进行聚类处理，获得多个第三簇的簇核心区域中的保留样本数据以及噪点样本数据。其中，一个第三簇的簇核心区域中的保留样本数据形成一个第二簇，另外，上述调节后的第一相似度阈值是根据相似度阈值和相似度阈值调节因子获得的。

第一设置模块903用于根据第一获取模块901获取到的样本数据所属的第一簇，设置第二获取模块902获取到的噪点样本数据所属的簇。

在一个示例中，第一设置模块903可以包括：第五子模块9031和第六子模块9032。其中的第五子模块9031用于对于任一噪点样本数据，在确定出该噪点样本数据具有所属的第一簇，且当前未针对该第一簇设置新类别的第二簇时，为该噪点样本所属的第一簇设置新类别的第二簇，并将该噪点样本数据作为该新类别的第二簇的中的样本数据。其中的第六子模块9032用于对于任一噪点样本数据，在确定出该噪点样本数据具有所属的第一簇，且当前已针对该第一簇设置新类别的第二簇时，将该噪点样本数据作为该新类别的第二簇中的样本数据。

第二设置模块904用于针对数据集合中的任一非保留样本数据，根据数据集合中与该非保留样本数据相似度满足预定相似度要求的样本数据所属的簇，确定该非保留样本数据所属的簇。

在一个示例中，第二设置模块904可以包括：第七子模块9041、第八子模块 9042以及第九子模块9043。其中的第七子模块9041可以用于根据相似度阈值和相似度阈值调节因子，获得调节后的第二相似度阈值。其中的第八子模块9042 可以用于对于任一非保留样本数据，在确定该非保留样本数据属于多个第一簇中的一第一簇的情况下，获取该非保留样本数据的基于调节后的第二相似度阈值的第五邻域数据集合。其中的第九子模块9043可以用于将第五邻域数据集合中与该非保留样本数据相似度最高的样本数据所属的第二簇，作为该非保留样本数据所属的第二簇。其中，上述调节后的第二相似度阈值大于预设的相似度阈值。

上述各模块及其包括的子模块以及单元等具体执行的操作，可以参见上述方法实施例中针对图2至图8的描述，在此不再详细说明。

示例性电子设备

下面参考图10来描述根据本公开实施例的电子设备。图10示出了根据本公开实施例的电子设备的框图。如图10所示，电子设备101包括一个或多个处理器1011和存储器1012。

处理器1011可以是中央处理单元(CPU)或者具有用于实现聚类的能力和/ 或指令执行能力的其他形式的处理单元，并且可以控制电子设备101中的其他组件以执行期望的功能。

存储器1012可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器，例如，可以包括：随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器，例如，可以包括：只读存储器 (ROM)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1011可以运行所述程序指令，以实现上文所述的本公开的各个实施例的用于实现聚类的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备101还可以包括：输入装置1013以及输出装置1014 等，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。此外，该输入设备1013还可以包括例如键盘、鼠标等等。该输出装置1014可以向外部输出各种信息。该输出设备1014可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图10中仅示出了该电子设备101中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备101还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的用于实现聚类的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的用于实现聚类的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括：具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备以及***。诸如“包括”、“包含、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/ 或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述，以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言，是非常显而易见的，并且在此定义的一般原理可以应用于其他方面，而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种用于实现小区信息聚类的方法，包括：

提取数据集合中的各样本数据的属性信息，包括：提取数据集合中的各小区的位置信息；

将所述各样本数据的属性信息形成的多个第一簇的簇核心区域中的样本数据作为保留样本数据，包括：根据相似度阈值和相似度阈值调节因子，获得调节后的第一相似度阈值；根据所述相似度阈值、调节后的第一相似度阈值以及簇最小样本数量，对所述各样本数据的属性信息进行聚类处理，获得多个第一簇的簇核心区域中的样本数据，其中，所述调节后的第一相似度阈值小于所述相似度阈值；

获取由所述保留样本数据的属性信息形成的多个第二簇以及噪点样本数据；

根据所述噪点样本数据所属的第一簇，设置所述噪点样本数据所属的簇；

针对所述数据集合中的任一非保留样本数据，根据所述数据集合中与该非保留样本数据相似度满足预定相似度要求的样本数据所属的簇，确定该非保留样本数据所属的簇；

其中，所述根据所述相似度阈值、调节后的第一相似度阈值以及簇最小样本数量，对所述各样本数据的属性信息进行聚类处理，获得多个第一簇的簇核心区域中的样本数据，包括：对于所述数据集合中的一第一待处理样本数据，确定该第一待处理样本数据的基于相似度阈值的第一邻域数据集合；在所述第一邻域数据集合的样本数据的数量达到所述簇最小样本数量的情况下，为该第一待处理样本数据创建一个新类别的第一簇，并确定该第一待处理样本数据的基于调节后的第一相似度阈值的第二邻域数据集合；在所述第二邻域数据集合的样本数据的数量达到所述簇最小样本数量的情况下，将该第一待处理样本数据作为保留样本数据。

2.根据权利要求1所述的方法，其中，所述根据所述相似度阈值、调节后的第一相似度阈值以及簇最小样本数量，对所述各样本数据的属性信息进行聚类处理，获得多个第一簇的簇核心区域中的样本数据，还包括：

对于所述基于相似度阈值的第一邻域数据集合中的一第二待处理样本数据，确定该第二待处理样本数据的基于相似度阈值的第三邻域数据集合；

在所述第三邻域数据集合的样本数据的数量达到所述簇最小样本数量的情况下，确定该第二待处理样本数据的基于调节后的第一相似度阈值的第四邻域数据集合；

在所述第四邻域数据集合的样本数据的数量达到所述簇最小样本数量的情况下，将该第二待处理样本数据作为保留样本数据。

3.根据权利要求2所述的方法，其中，所述根据所述相似度阈值、调节后的第一相似度阈值以及簇最小样本数量，对所述各样本数据的属性信息进行聚类处理，获得多个第一簇的簇核心区域中的样本数据，还包括：

根据为所述第一待处理样本数据创建的新类别的第一簇，设置第二待处理样本数据所属的第一簇的类别。

4.根据权利要求1所述的方法，其中，所述获取由所述保留样本数据的属性信息形成的多个第二簇以及噪点样本数据，包括：

根据相似度阈值以及簇最小样本数量，对所述保留样本数据的属性信息进行聚类处理，获得多个第二簇以及噪点样本数据；或者

根据相似度阈值、调节后的第一相似度阈值以及簇最小样本数量，对所述保留样本数据的属性信息进行聚类处理，获得多个第三簇的簇核心区域中的保留样本数据以及噪点样本数据；

其中，一个第三簇的簇核心区域中的保留样本数据形成一个第二簇，所述调节后的第一相似度阈值是根据相似度阈值和相似度阈值调节因子获得的。

5.根据权利要求1所述的方法，其中，所述根据所述噪点样本数据所属的第一簇，设置所述噪点样本数据所属的簇，包括：

对于任一噪点样本数据，在确定出该噪点样本数据具有所属的第一簇，且当前未针对该第一簇设置新类别的第二簇时，为该噪点样本所属的第一簇设置新类别的第二簇，并将该噪点样本数据作为该新类别的第二簇的中的样本数据；

对于任一噪点样本数据，在确定出该噪点样本数据具有所属的第一簇，且当前已针对该第一簇设置新类别的第二簇时，将该噪点样本数据作为该新类别的第二簇中的样本数据。

6.根据权利要求1至5中任一项所述的方法，其中，所述根据所述数据集合中与该非保留样本数据相似度满足预定相似度要求的样本数据所属的簇，确定该非保留样本数据所属的簇，包括：

根据相似度阈值和相似度阈值调节因子，获得调节后的第二相似度阈值；

对于任一非保留样本数据，在确定该非保留样本数据属于所述多个第一簇中的一第一簇的情况下，获取该非保留样本数据的基于所述调节后的第二相似度阈值的第五邻域数据集合；

将所述第五邻域数据集合中与该非保留样本数据相似度最高的样本数据所属的第二簇，作为该非保留样本数据所属的第二簇；

其中，所述调节后的第二相似度阈值大于所述相似度阈值。

7.一种用于实现小区信息聚类的装置，其中，所述装置包括：

提取属性模块，用于提取数据集合中的各样本数据的属性信息，包括：提取数据集合中的各小区的位置信息；

第一获取模块，用于将所述各样本数据的属性信息形成的多个第一簇的簇核心区域中的样本数据作为保留样本数据；所述第一获取模块包括：第一子模块，用于根据相似度阈值和相似度阈值调节因子，获得调节后的第一相似度阈值，其中，所述调节后的第一相似度阈值小于所述相似度阈值；第二子模块，用于根据所述相似度阈值、调节后的第一相似度阈值以及簇最小样本数量，对所述各样本数据的属性信息进行聚类处理，获得多个第一簇的簇核心区域中的样本数据，将所述多个第一簇的簇核心区域中的样本数据作为保留样本数据；

第二获取模块，用于获取由所述保留样本数据的属性信息形成的多个第二簇以及噪点样本数据；

第一设置模块，用于根据所述噪点样本数据所属的第一簇，设置所述噪点样本数据所属的簇；

第二设置模块，用于针对所述数据集合中的任一非保留样本数据，根据所述数据集合中与该非保留样本数据相似度满足预定相似度要求的样本数据所属的簇，确定该非保留样本数据所属的簇；

所述第二子模块，包括：第一单元，用于对于所述数据集合中的一第一待处理样本数据，确定该第一待处理样本数据的基于相似度阈值的第一邻域数据集合；第二单元，用于在所述第一邻域数据集合的样本数据的数量达到所述簇最小样本数量的情况下，为该第一待处理样本数据创建一个新类别的第一簇，并确定该第一待处理样本数据的基于调节后的第一相似度阈值的第二邻域数据集合；第三单元，用于在所述第二邻域数据集合的样本数据的数量达到所述簇最小样本数量的情况下，将该第一待处理样本数据作为保留样本数据。

8.根据权利要求7所述的装置，其中，所述第二子模块，还包括：

第四单元，用于对于所述基于相似度阈值的第一邻域数据集合中的一第二待处理样本数据，确定该第二待处理样本数据的基于相似度阈值的第三邻域数据集合；

第五单元，用于在所述第三邻域数据集合的样本数据的数量达到所述簇最小样本数量的情况下，确定该第二待处理样本数据的基于调节后的第一相似度阈值的第四邻域数据集合；

第六单元，用于在所述第四邻域数据集合的样本数据的数量达到所述簇最小样本数量的情况下，将该第二待处理样本数据作为保留样本数据。

9.根据权利要求8所述的装置，其中，所述第二子模块，还包括：

第七单元，用于根据为所述第一待处理样本数据创建的新类别的第一簇，设置第二待处理样本数据所属的第一簇的类别。

10.根据权利要求7所述的装置，其中，所述第二获取模块，包括：

第三子模块，用于根据相似度阈值以及簇最小样本数量，对所述保留样本数据的属性信息进行聚类处理，获得多个第二簇以及噪点样本数据；或者

第四子模块，用于根据相似度阈值、调节后的第一相似度阈值以及簇最小样本数量，对所述保留样本数据的属性信息进行聚类处理，获得多个第三簇的簇核心区域中的保留样本数据以及噪点样本数据；

11.根据权利要求7所述的装置，其中，所述第一设置模块，包括：

第五子模块，用于对于任一噪点样本数据，在确定出该噪点样本数据具有所属的第一簇，且当前未针对该第一簇设置新类别的第二簇时，为该噪点样本所属的第一簇设置新类别的第二簇，并将该噪点样本数据作为该新类别的第二簇的中的样本数据；

第六子模块，用于对于任一噪点样本数据，在确定出该噪点样本数据具有所属的第一簇，且当前已针对该第一簇设置新类别的第二簇时，将该噪点样本数据作为该新类别的第二簇中的样本数据。

12.根据权利要求7至11中任一项所述的装置，其中，所述第二设置模块，包括：

第七子模块，用于根据相似度阈值和相似度阈值调节因子，获得调节后的第二相似度阈值；

第八子模块，用于对于任一非保留样本数据，在确定该非保留样本数据属于所述多个第一簇中的一第一簇的情况下，获取该非保留样本数据的基于所述调节后的第二相似度阈值的第五邻域数据集合；

第九子模块，用于将所述第五邻域数据集合中与该非保留样本数据相似度最高的样本数据所属的第二簇，作为该非保留样本数据所属的第二簇；

其中，所述调节后的第二相似度阈值大于所述相似度阈值。

13.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6中任一项所述的方法。

14.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-6中任一项所述的方法。