CN109299747B

CN109299747B - 一种类簇中心的确定方法、装置、计算机设备及存储介质

Info

Publication number: CN109299747B
Application number: CN201811246206.7A
Authority: CN
Inventors: 于晓杰
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2020-12-15
Anticipated expiration: 2038-10-24
Also published as: CN109299747A

Abstract

本公开实施例公开了一种类簇中心的确定方法、装置、计算机设备及存储介质，所述方法包括：采用地理位置编码技术，将待处理的地理位置信息集中的各二维的地理位置信息转换为一维的位置编码信息；根据各位置编码信息生成字典树，字典树中的一个树节点对应于一个设定的地理位置区域，且一个子节点对应的地理位置区域属于与子节点的父节点对应的地理位置区域范围内；根据与字典树中的各树节点与各地理位置信息之间的位置关系，以及与各树节点关联的地理位置信息的数量值，计算与各地理位置信息分别对应的密度值；根据密度值，在地理位置信息集中确定至少一个类簇中心。本公开实施例的技术方案能够降低聚类算法中类簇中心的计算复杂度。

Description

一种类簇中心的确定方法、装置、计算机设备及存储介质

技术领域

本公开实施例涉及数据处理技术领域，尤其涉及一种类簇中心的确定方法、装置、计算机设备及存储介质。

背景技术

基于密度的聚类算法的目标是寻找被低密度区域分离的高密度区域，通俗来讲就是把扎堆的点(高密度)找出来，而点很少很稀疏的地方(低密度)就作为分割区域。

基于密度的聚类算法的核心思想就是根据获取的位置数据先发现密度较高的点，然后把相近的高密度点逐步都连成一片，进而生成各种簇，每个簇对应匹配一个类簇中心。

发明人在实现本公开的过程中，发现现有的基于密度的聚类算法存在如下缺陷：基于密度的聚类算法中涉及到的位置数据通常以经纬度信息形式进行计算，计算复杂度较高。

发明内容

本公开实施例提供一种类簇中心的确定方法、装置、计算机设备及存储介质，实现降低聚类算法中类簇中心的计算复杂度。

第一方面，本公开实施例提供了一种类簇中心的确定方法，包括：

采用地理位置编码技术，将待处理的地理位置信息集中的各二维的地理位置信息转换为一维的位置编码信息；

根据各所述位置编码信息生成字典树，所述字典树中的一个树节点对应于一个设定的地理位置区域，且一个子节点对应的地理位置区域属于与所述子节点的父节点对应的地理位置区域范围内；

根据与所述字典树中的各树节点与各所述地理位置信息之间的位置关系，以及与所述各树节点关联的所述地理位置信息的数量值，计算与各所述地理位置信息分别对应的密度值；

根据所述密度值，在所述地理位置信息集中确定至少一个类簇中心。

可选的，根据与所述字典树中的各树节点与各所述地理位置信息之间的位置关系，以及与所述各树节点关联的所述地理位置信息的数量值，计算与各所述地理位置信息分别对应的密度值，包括：

根据与所述字典树中各所述树节点对应的地理位置区域，计算与各所述树节点分别对应的位置误差值以及中心地理位置信息；

计算地理位置信息和所述字典树中树节点的中心地理位置信息之间的差值与树节点的位置误差值之间的数值关系，并根据所述数值关系确定对所述字典树的遍历形式以及对与所述地理位置信息的密度值的更新方式，直至遍历所述字典树，以得到与各所述地理位置信息分别对应的密度值。

可选的，计算地理位置信息和所述字典树中树节点的中心地理位置信息之间的差值与树节点的位置误差值之间的数值关系，并根据所述数值关系确定对所述字典树的遍历形式以及对与所述地理位置信息的密度值的更新方式，直至遍历所述字典树，包括：

获取所述地理位置信息集中的一个地理位置信息作为当前位置信息，并设置所述当前位置信息初始的密度值；

按照自顶向下的顺序，在所述字典树中依次获取一个未处理的树节点作为当前比对节点，并计算所述当前位置信息与所述当前比对节点的中心地理位置信息之间的距离值；

如果所述距离值小于等于第一阈值，则将所述当前位置信息的密度值更新为与所述当前比对节点关联的所述地理位置信息的数量值的累加和，并将所述当前比对节点以及与所述当前比对节点对应的全部子节点标记为已处理节点；其中，所述第一阈值为设定密度距离阈值与所述当前比对节点的位置误差值之间的差值；

如果所述距离值大于等于第二阈值，则保持所述当前位置信息的密度值不变，并将所述当前比对节点以及与所述当前比对节点对应的全部子节点标记为已处理节点；其中，所述第二阈值为所述设定密度距离阈值与所述当前比对节点的位置误差值之间的和值；

如果所述距离值大于所述第一阈值且小于所述第二阈值，则保持所述当前位置信息的密度值不变，并将所述当前比对节点标记为已处理节点；

返回执行按照自顶向下的顺序，在所述字典树中依次获取一个未处理的树节点作为当前比对节点的操作，直至完成对所述字典树中全部树节点的处理，以得到与所述当前位置信息对应的密度值；

返回执行获取所述地理位置信息集中的一个地理位置信息作为当前位置信息的操作，直至完成对全部地理位置信息的处理。

可选的，根据与所述字典树中各所述树节点对应的地理位置区域，计算与各所述树节点分别对应的位置误差值以及中心地理位置信息，包括：

根据与所述字典树中各所述树节点对应的地理位置区域上边界与下边界之间的高度值，计算各所述树节点分别对应的位置误差值；

根据与所述字典树中各所述树节点对应的地理位置区域的地理位置信息的平均值，计算各所述树节点分别对应的中心地理位置信息；其中，所述地理位置信息包括经纬度信息。

可选的，根据所述密度值，在所述地理位置信息集中确定至少一个类簇中心，包括：

根据各所述地理位置信息分别对应的密度值计算各所述地理位置信息的类簇距离；

根据各所述地理位置信息分别对应的密度值和类簇距离计算各所述地理位置信息的类簇权重；

根据所述类簇权重在所述点地理位置信息集中确定至少一个类簇中心。

可选的，根据各所述地理位置信息分别对应的密度值计算各所述地理位置信息的类簇距离，包括：

根据所述密度值将各所述地理位置信息按照设定规则进行排序；

根据排序结果依次计算每个所述地理位置信息与排序靠前的地理位置信息之间的距离值作为待筛选类簇距离；

将满足类簇距离判定条件的所述待筛选类簇距离作为所述地理位置信息的类簇距离。

可选的，所述待处理的地理位置信息集为目标用户在设定时间区间内的轨迹数据；

在根据所述密度值，在所述地理位置信息集中确定至少一个类簇中心之后，还包括：

将所述至少一个类簇中心作为所述目标用户的常驻点。

第二方面，本公开实施例还提供了一种类簇中心的确定装置，包括：

信息转换模块，用于采用地理位置编码技术，将待处理的地理位置信息集中的各二维的地理位置信息转换为一维的位置编码信息；

字典树生成模块，用于根据各所述位置编码信息生成字典树，所述字典树中的一个树节点对应于一个设定的地理位置区域，且一个子节点对应的地理位置区域属于与所述子节点的父节点对应的地理位置区域范围内；

密度值计算模块，用于根据与所述字典树中的各树节点与各所述地理位置信息之间的位置关系，以及与所述各树节点关联的所述地理位置信息的数量值，计算与各所述地理位置信息分别对应的密度值；

类簇中心确定模块，用于根据所述密度值，在所述地理位置信息集中确定至少一个类簇中心。

可选的，密度值计算模块包括：中心地理位置信息计算单元，用于根据与所述字典树中各所述树节点对应的地理位置区域，计算与各所述树节点分别对应的位置误差值以及中心地理位置信息；

密度值计算单元，用于计算地理位置信息和所述字典树中树节点的中心地理位置信息之间的差值与树节点的位置误差值之间的数值关系，并根据所述数值关系确定对所述字典树的遍历形式以及对与所述地理位置信息的密度值的更新方式，直至遍历所述字典树，以得到与各所述地理位置信息分别对应的密度值。

可选的，密度值计算单元，具体用于获取所述地理位置信息集中的一个地理位置信息作为当前位置信息，并设置所述当前位置信息初始的密度值；

可选的，中心地理位置信息计算单元，具体用于根据与所述字典树中各所述树节点对应的地理位置区域上边界与下边界之间的高度值，计算各所述树节点分别对应的位置误差值；

可选的，类簇中心确定模块包括：类簇距离计算单元，用于根据各所述地理位置信息分别对应的密度值计算各所述地理位置信息的类簇距离；

类簇权重计算单元，用于根据各所述地理位置信息分别对应的密度值和类簇距离计算各所述地理位置信息的类簇权重；

类簇中心确定单元，用于根据所述类簇权重在所述点地理位置信息集中确定至少一个类簇中心。

可选的，类簇距离计算单元，具体根据所述密度值将各所述地理位置信息按照设定规则进行排序；

可选的，所述待处理的地理位置信息集为目标用户在设定时间区间内的轨迹数据；所述装置还包括：常驻点确定模块，用于将所述至少一个类簇中心作为所述目标用户的常驻点。

第三方面，本公开实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本公开任意实施例所提供的类簇中心的确定方法。

第四方面，本公开实施例还提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开任意实施例所提供的类簇中心的确定方法。

本公开实施例通过采用地理位置编码技术将待处理的地理位置信息集中的各二维的地理位置信息转换为一维的位置编码信息以生成字典树，根据与字典树中的各树节点与各地理位置信息之间的位置关系，以及与各树节点关联的地理位置信息的数量值，计算与各地理位置信息分别对应的密度值，最后根据密度值在地理位置信息集中确定至少一个类簇中心，解决现有基于密度的聚类算法中存在的计算复杂度较高的问题，实现降低聚类算法中类簇中心的计算复杂度。

附图说明

图1a是本公开实施例一提供的一种类簇中心的确定方法的流程图；

图1b是本发明实施例一提供的一种根据位置编码信息生成的字典树的结构示意图；

图2a是本公开实施例二提供的一种类簇中心的确定方法的流程图；

图2b是本公开实施例二提供的一种计算与各地理位置信息分别对应的密度值方法的流程图；

图3是本公开实施例三提供的一种类簇中心的确定装置的示意图；

图4是本公开实施例四提供的一种计算机设备的硬件结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。

另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1a是本公开实施例一提供的一种类簇中心的确定方法的流程图，本实施例可适用于快速确定类簇中心的情况，该方法可以由类簇中心的确定装置来执行，该装置可以由软件和/或硬件的方式来实现，并一般可集成在计算机设备中。相应的，如图1a所示，该方法包括如下操作：

S110、采用地理位置编码技术，将待处理的地理位置信息集中的各二维的地理位置信息转换为一维的位置编码信息。

其中，地理位置编码技术可以是用于对地理位置数据进行编码处理的技术，例如，地理位置编码技术可以采用地理散列算法(Geo hash)。二维的地理位置信息可以是在不同地理位置采集的点数据对应的信息。位置编码信息可以是地理位置信息进行编码后形成的信息。

在本公开实施例中，使用基于密度的聚类算法计算类簇中心时，首先需要获取用于算法计算的地理位置信息集。其中，地理位置信息集中可以包括多种二维的地理位置信息。可选的，地理位置信息可以是经纬度信息。获得待处理的地理位置信息集后，可以采用地理位置编码技术将其包括的各二维的地理位置信息转换为一维的位置编码信息。

可选的，如果地理位置编码技术采用Geo hash算法，则该算法转换形成的一维的位置编码信息可以对二维的地理位置信息进行逼近编码，转换成对应的字符串。

S120、根据各所述位置编码信息生成字典树，所述字典树中的一个树节点对应于一个设定的地理位置区域，且一个子节点对应的地理位置区域属于与所述子节点的父节点对应的地理位置区域范围内。

在本公开实施例中，对地理位置信息集中的各二维的地理位置信息转换为一维的位置编码信息后，可以根据转换后的位置编码信息构建字典树。字典树可以有多级树节点构成，每一个树节点对应的路径所得到的字符串形成一个位置编码信息，每一个位置编码信息对应一个矩形的地理位置区域，每一个地理位置区域可以包括一个或多个地理位置信息。不同层级树节点所对应的地理位置区域大小不同，且一个子节点对应的地理位置区域属于与子节点的父节点对应的地理位置区域范围内。其中，字典树中的根节点为空。

图1b是本发明实施例一提供的一种根据位置编码信息生成的字典树的结构示意图。示例性的，如图1b所示，字典树的二级节点包括A和C两个节点，三级节点包括N、L、B及S四个节点。假设节点A对应的地理位置区域为美国，节点C对应的地理位置区域为中国，则节点A下的子节点N可以表示纽约，子节点L可以表示洛杉矶；同理，节点C下的子节点B可以表示北京，子节点S可以表示上海。其中，北京对应的地理位置区域中可以包括10个二维的地理位置信息，如10个分别位于同一城区或不同城区采集的点数据对应的经纬度信息。

S130、根据与所述字典树中的各树节点与各所述地理位置信息之间的位置关系，以及与所述各树节点关联的所述地理位置信息的数量值，计算与各所述地理位置信息分别对应的密度值。

其中，地理位置信息的密度值可以反应该地理位置信息周围包括的地理位置信息的密集情况。

在本公开实施例中，在对地理位置信息进行计算时，可以根据字典树中的各树节点与各地理位置信息之间的位置关系，以及与各树节点关联的地理位置信息的数量值计算每个地理位置信息分别对应的密度值。

S140、根据所述密度值，在所述地理位置信息集中确定至少一个类簇中心。

相应的，可以根据各地理位置信息分别对应的密度值为地理位置信息集中包括的所有数据确定至少一个类簇中心。

实施例二

图2a是本公开实施例二提供的一种类簇中心的确定方法的流程图，图2b是本公开实施例二提供的一种计算与各地理位置信息分别对应的密度值方法的流程图，本实施例以上述实施例为基础进行具体化，在本实施例中，给出了根据与所述字典树中的各树节点与各所述地理位置信息之间的位置关系，以及与所述各树节点关联的所述地理位置信息的数量值，计算与各所述地理位置信息分别对应的密度值，以及根据密度值确定类簇中心的具体实现方式。相应的，如图2a所示，本实施例的方法可以包括：

S210、采用地理位置编码技术，将待处理的地理位置信息集中的各二维的地理位置信息转换为一维的位置编码信息。

S220、根据各所述位置编码信息生成字典树，所述字典树中的一个树节点对应于一个设定的地理位置区域，且一个子节点对应的地理位置区域属于与所述子节点的父节点对应的地理位置区域范围内。

S230、根据与所述字典树中各所述树节点对应的地理位置区域，计算与各所述树节点分别对应的位置误差值以及中心地理位置信息。

在本公开实施例中，在计算各地理位置信息分别对应的密度值时，可以首先计算各树节点分别对应的位置误差值以及中心地理位置信息作为中间量。

可选的，在一种实施方式中，S230可以包括下述操作：

S231、根据与所述字典树中各所述树节点对应的地理位置区域上边界与下边界之间的高度值，计算各所述树节点分别对应的位置误差值。

具体的，各树节点分别对应的位置误差值可以以该树节点对应的地理位置区域的上边界与下边界之间的高度值作为对应的位置误差值。可选的，可以以地理位置区域上边界对应的纬度与下边界对应的纬度数值的差作为高度值。

S232、根据与所述字典树中各所述树节点对应的地理位置区域的地理位置信息的平均值，计算各所述树节点分别对应的中心地理位置信息。

相应的，各树节点对应的中心地理位置信息可以是各树节点对应的地理位置区域的经度平均值和纬度平均值所对应的地理位置信息。

S240、计算地理位置信息和所述字典树中树节点的中心地理位置信息之间的差值与树节点的位置误差值之间的数值关系，并根据所述数值关系确定对所述字典树的遍历形式以及对与所述地理位置信息的密度值的更新方式，直至遍历所述字典树，以得到与各所述地理位置信息分别对应的密度值。

在本公开实施例中，在获取到各树节点分别对应的位置误差值以及中心地理位置信息后，可以分别计算地理位置信息和字典树中各树节点的中心地理位置信息之间的差值，然后以差值和树节点的位置误差值之间的数值关系以遍历的方式计算字典树中各节点对地理位置信息的密度值贡献。通过构建的字段数计算各地理位置信息分别对应的密度值能够有效减少大量不必要的计算，从而降低计算复杂度。

可选的，在一种实施方式中，如图2b所示，S240可以包括下述操作：

S241、获取所述地理位置信息集中的一个地理位置信息作为当前位置信息，并设置所述当前位置信息初始的密度值。

在本公开实施例中，在确定地理位置信息集的类簇中心时，可以对地理位置信息集中的每个地理位置信息分别计算。计算时，可以设置当前位置信息初始的密度值，可选的，当前位置信息初始的密度值可以设置为0。

S242、按照自顶向下的顺序，在所述字典树中依次获取一个未处理的树节点作为当前比对节点，并计算所述当前位置信息与所述当前比对节点的中心地理位置信息之间的距离值。

在本公开实施例中，在计算地理位置信息的密度值时，可以借助构建的字典树进行计算。具体的，可以在字典树中按照自顶向下的顺序依次获取一个未处理的树节点作为当前比对节点，然后计算当前位置信息与当前比对节点的中心地理位置信息之间的距离值。

S243、判断距离值是否小于等于第一阈值，若是，则执行S244；否则，执行S245。

其中，第一阈值为设定密度距离阈值与所述当前比对节点的位置误差值之间的差值。

其中，第一阈值可以综合考虑地理位置信息的分布特性以及实际需求进行设定。可选的，第一阈值可以是设定密度距离阈值与当前比对节点的位置误差值之间的差值。设定密度距离阈值可以是实际选择的距离值，如300m。

相应的，得到当前位置信息与当前比对节点的中心地理位置信息之间的距离值后，可以计算距离值与第一阈值之间的大小关系以计算当前位置信息的密度值。

S244、将所述当前位置信息的密度值更新为与所述当前比对节点关联的所述地理位置信息的数量值的累加和，并将所述当前比对节点以及与所述当前比对节点对应的全部子节点标记为已处理节点。

具体的，如果距离值小于等于第一阈值，说明当前对比节点下的所有节点与当前位置信息的距离均小于设定密度距离阈值，则可以在当前位置信息的密度值的基础上，加上当前对比节点对应的地理位置区域中包括的地理位置信息的点数量即可，然后将当前比对节点以及与当前比对节点对应的全部子节点标记为已处理节点，而不必计算当前位置信息与当前对比节点所包含的每个子节点之间的距离。

S245、判断距离值是否大于等于第二阈值，若是，则执行S246；否则，执行S247。

其中，所述第二阈值为所述设定密度距离阈值与所述当前比对节点的位置误差值之间的和值。

相应的，在本公开实施例中，还可以根据距离值与第二阈值之间的大小关系计算当前位置信息的密度值。

S246、保持所述当前位置信息的密度值不变，并将所述当前比对节点以及与所述当前比对节点对应的全部子节点标记为已处理节点。

具体的，如果距离值大于等于第二阈值，说明当前对比节点下的所有节点与当前位置信息的距离均大于设定密度距离阈值，则可以直接保持当前位置信息的密度值不变即可，然后将当前比对节点以及与当前比对节点对应的全部子节点标记为已处理节点，而不必计算当前位置信息与当前对比节点所包含的每个子节点之间的距离。

S247、距离值大于所述第一阈值且小于所述第二阈值，保持所述当前位置信息的密度值不变，并将所述当前比对节点标记为已处理节点。

相应的，如果距离值大于第一阈值且小于第二阈值，则需要遍历当前对比节点包括的每个子节点对当前位置信息的密度贡献，此时，可以先保持当前位置信息的密度值不变，并将当前比对节点标记为已处理节点，然后依次遍历计算当前比对节点包括的每个子节点对当前位置信息的密度贡献。其计算方式与S243-S245的操作相同。

S248、判断是否完成对所述字典树中全部树节点的处理，若是，则执行S249；否则，返回执行S242。

具体的，如果距离值大于第一阈值且小于第二阈值，则采用自动向下的顺序依次计算当前对比节点包括的每个子节点对当前位置信息的密度贡献，直至完成对当前对比节点包括的每个子节点的处理。然后，在当前对比节点的基础上再返回执行按照自顶向下的顺序，在字典树中依次获取一个未处理的树节点作为当前比对节点的操作，直至完成对字典树中全部树节点的处理。

S249、判断是否完成对全部地理位置信息的处理，若是，则结束操作；否则，返回执行S241。

相应的，当前位置信息的密度值计算完毕以后，判断是否完成对全部地理位置信息的处理，若是，则结束操作，否则，返回执行获取所述地理位置信息集中的一个地理位置信息作为当前位置信息的操作，直至完成对全部地理位置信息的处理。

S250、根据所述密度值，在所述地理位置信息集中确定至少一个类簇中心。

可选的，在一种实施方式中，如图2a所示，S250可以包括下述操作：

S251、根据各所述地理位置信息分别对应的密度值计算各所述地理位置信息的类簇距离。

其中，类簇距离可以是地理位置信息与密度值较大的地理位置信息之间的距离。

在本公开实施例中，根据各地理位置信息分别对应的密度值确定类簇中心时，可以首先根据各地理位置信息分别对应的密度值计算各地理位置信息的类簇距离。

在本公开的一个可选实施例中，根据各所述地理位置信息分别对应的密度值计算各所述地理位置信息的类簇距离，可以包括：根据所述密度值将各所述地理位置信息按照设定规则进行排序；根据排序结果依次计算每个所述地理位置信息与排序靠前的地理位置信息之间的距离值作为待筛选类簇距离；将满足类簇距离判定条件的所述待筛选类簇距离作为所述地理位置信息的类簇距离。

其中，设定规则可以是按数值从大到小的顺序。类簇距离判定条件可以是待筛选类簇距离的值最小。

具体的，在计算各地理位置信息的类簇距离时，可以将各地理位置信息根据对应的密度值按照从大到小的顺序进行排序。然后根据排序结果依次计算每个地理位置信息与排序靠前的地理位置信息之间的距离值，将最小的待筛选类簇距离作为地理位置信息的类簇距离。同时，可以将计算类簇距离时对应的地理位置信息作为父节点。

示例性的，假设地理位置信息集中共包括5个地理位置信息，按照密度值从大到小的顺序进行排序后得到的地理位置信息分别为[5,4,3,2,1]，其中集合中的数字编号代表一个地理位置信息对应的点数据。在计算数字3对应的地理位置信息的类簇距离时，可以依次计算其与数字5和数字4对应的地理位置信息之间的距离。假设数字3对应的地理位置信息与数字5对应的地理位置信息之间的距离为200，与数字4对应的地理位置信息之间的距离为100，则将100作为数字3对应的地理位置信息的类簇距离，而数字4对应的地理位置信息的点数据可以作为数字3对应的地理位置信息的点数据的父节点。

S252、根据各所述地理位置信息分别对应的密度值和类簇距离计算各所述地理位置信息的类簇权重。

在本公开实施例中，获得各地理位置信息的类簇距离后，可以根据各地理位置信息分别对应的密度值和类簇距离计算各地理位置信息的类簇权重。可选的，可以将地理位置信息对应的密度值和类簇距离的乘积作为地理位置信息的类簇权重。也即，密度值和类簇距离越大，则对应的类簇权重也越大。

S253、根据所述类簇权重在所述点地理位置信息集中确定至少一个类簇中心。

最后，可以依据各地理位置信息的类簇权重确定至少一个类簇中心。具体的，可以根据类簇权重将各地理位置信息同样按照从大到小的顺序，并依次遍历各地理位置信息的密度值和类簇距离。当地理位置信息的密度值大于等于第一设定数值且类簇距离大于等于第二设定数值时，该地理位置信息可以确定为一个类簇中心。可选的，第一设定数值可以设置为2，第二设定数值可以设置为500。

相应的，类簇中心确定以后，还可以为每个地理位置信息确定类簇归属。具体的，如果地理位置信息为类簇中心，则其类簇归属为自身；否则其类簇归属于其对应的父节点相同。为了避免离散的地理位置信息对类簇的影响，可以限定地理位置信息对应的类簇距离小于设定密度距离阈值。

在本公开的一个可选实施例中，所述待处理的地理位置信息集为目标用户在设定时间区间内的轨迹数据；在根据所述密度值，在所述地理位置信息集中确定至少一个类簇中心之后，还可以包括：将所述至少一个类簇中心作为所述目标用户的常驻点。

其中，设定时间区间可以根据实际需求进行设定，如一个月或两个月等。轨迹数据可以是用户的经纬度信息数据。

本公开实施例所提供的类簇中心的确定方法可以应用于用户常驻点的挖掘领域。在进行用户常驻点挖掘时，通常是统计目标用户在一段时间内(例如60天)上报的用户轨迹数据，按照每个用户常去的位置，采用本公开实施例所提供的类簇中心的确定方法确定的类簇中心作为目标用户的常驻点。

采用上述技术方案，通过转换的一维的位置编码信息构建字典树，并根据字典树计算各地理位置信息分别对应的密度值，进一步根据密度值确定至少一个类簇中心，可以减少大量不必要的计算量，从而降低聚类算法中类簇中心的计算复杂度。

实施例三

图3是本公开实施例三提供的一种类簇中心的确定装置的示意图，如图3所示，所述装置包括：信息转换模块310、字典树生成模块320、密度值计算模块330以及类簇中心确定模块340，其中：

信息转换模块310，用于采用地理位置编码技术，将待处理的地理位置信息集中的各二维的地理位置信息转换为一维的位置编码信息；

字典树生成模块320，用于根据各所述位置编码信息生成字典树，所述字典树中的一个树节点对应于一个设定的地理位置区域，且一个子节点对应的地理位置区域属于与所述子节点的父节点对应的地理位置区域范围内；

密度值计算模块330，用于根据与所述字典树中的各树节点与各所述地理位置信息之间的位置关系，以及与所述各树节点关联的所述地理位置信息的数量值，计算与各所述地理位置信息分别对应的密度值；

类簇中心确定模块340，用于根据所述密度值，在所述地理位置信息集中确定至少一个类簇中心。

可选的，密度值计算模块330包括：中心地理位置信息计算单元，用于根据与所述字典树中各所述树节点对应的地理位置区域，计算与各所述树节点分别对应的位置误差值以及中心地理位置信息；

可选的，类簇中心确定模块340包括：类簇距离计算单元，用于根据各所述地理位置信息分别对应的密度值计算各所述地理位置信息的类簇距离；

可选的，类簇距离计算单元，具体用于根据所述密度值将各所述地理位置信息按照设定规则进行排序；

上述类簇中心的确定装置可执行本公开任意实施例所提供的类簇中心的确定方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本公开任意实施例提供的类簇中心的确定方法。

实施例四

图4是图示根据本公开实施例四的计算机设备的硬件结构示意图。计算机设备可以以各种形式来实施，本公开中的计算机设备可以包括但不限于诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、车载终端设备、车载显示终端、车载电子后视镜等等的移动计算机设备以及诸如数字TV、台式计算机等等的固定计算机设备。

如图4所示，计算机设备0可以包括无线通信单元41、A/V(音频/视频)输入单元42、用户输入单元43、感测单元44、输出单元45、存储器46、接口单元47、处理器48和电源单元49等等。图4示出了具有各种组件的计算机设备0，但是应理解的是，并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。

其中，无线通信单元41允许计算机设备0与无线通信***或网络之间的无线电通信。A/V输入单元42用于接收音频或视频信号。用户输入单元43可以根据用户输入的命令生成键输入数据以控制计算机设备0的各种操作。感测单元44检测计算机设备0的当前状态、计算机设备0的位置、用户对于计算机设备0的触摸输入的有无、计算机设备0的取向、计算机设备0的加速或减速移动和方向等等，并且生成用于控制计算机设备0的操作的命令或信号。接口单元47用作至少一个外部装置与计算机设备0连接可以通过的接口。输出单元45被构造为以视觉、音频和/或触觉方式提供输出信号。存储器46可以存储由处理器48执行的处理和控制操作的软件程序等等，或者可以暂时地存储己经输出或将要输出的数据。存储器46可以包括至少一种类型的存储介质。而且，计算机设备0可以与通过网络连接执行存储器46的存储功能的网络存储装置协作。处理器48通常控制计算机设备0的总体操作。另外，处理器48可以包括用于再现或回放多媒体数据的多媒体模块。处理器48可以执行模式识别处理，以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。电源单元49在处理器48的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。

处理器48通过运行存储在存储器46中的程序，从而执行各种功能应用以及数据处理，例如实现本公开实施例所提供的一种类簇中心的确定方法，包括：采用地理位置编码技术，将待处理的地理位置信息集中的各二维的地理位置信息转换为一维的位置编码信息；根据各所述位置编码信息生成字典树，所述字典树中的一个树节点对应于一个设定的地理位置区域，且一个子节点对应的地理位置区域属于与所述子节点的父节点对应的地理位置区域范围内；根据与所述字典树中的各树节点与各所述地理位置信息之间的位置关系，以及与所述各树节点关联的所述地理位置信息的数量值，计算与各所述地理位置信息分别对应的密度值；根据所述密度值，在所述地理位置信息集中确定至少一个类簇中心。

实施例五

本公开实施例五还提供一种存储计算机程序的计算机存储介质，所述计算机程序在由计算机处理器执行时用于执行本公开上述实施例任一所述的数据处理方法：获取与源码文件关联的数据变更信息，其中，所述源码文件为二进制文件；根据所述数据变更信息的数据变更类型，生成与所述数据变更信息匹配的数据处理程序；调用所述数据处理程序对所述源码文件进行处理，形成与所述数据变更信息匹配的新的源码文件。

本公开实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory，ROM)、可擦式可编程只读存储器((Erasable Programmable ReadOnly Memory，EPROM)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本公开的较佳实施例及所运用技术原理。本领域技术人员会理解，本公开不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本公开的保护范围。因此，虽然通过以上实施例对本公开进行了较为详细的说明，但是本公开不仅仅限于以上实施例，在不脱离本公开构思的情况下，还可以包括更多其他等效实施例，而本公开的范围由所附的权利要求范围决定。

Claims

1.一种类簇中心的确定方法，其特征在于，包括：

根据所述密度值，在所述地理位置信息集中确定至少一个类簇中心；

其中，根据与所述字典树中的各树节点与各所述地理位置信息之间的位置关系，以及与所述各树节点关联的所述地理位置信息的数量值，计算与各所述地理位置信息分别对应的密度值，包括：

2.根据权利要求1所述的方法，其特征在于，计算地理位置信息和所述字典树中树节点的中心地理位置信息之间的差值与树节点的位置误差值之间的数值关系，并根据所述数值关系确定对所述字典树的遍历形式以及对与所述地理位置信息的密度值的更新方式，直至遍历所述字典树，包括：

3.根据权利要求1所述的方法，其特征在于，根据与所述字典树中各所述树节点对应的地理位置区域，计算与各所述树节点分别对应的位置误差值以及中心地理位置信息，包括：

4.根据权利要求1所述的方法，其特征在于，根据所述密度值，在所述地理位置信息集中确定至少一个类簇中心，包括：

根据所述类簇权重在所述地理位置信息集中确定至少一个类簇中心。

5.根据权利要求4所述的方法，其特征在于，根据各所述地理位置信息分别对应的密度值计算各所述地理位置信息的类簇距离，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述待处理的地理位置信息集为目标用户在设定时间区间内的轨迹数据；

将所述至少一个类簇中心作为所述目标用户的常驻点。

7.一种类簇中心的确定装置，其特征在于，包括：

类簇中心确定模块，用于根据所述密度值，在所述地理位置信息集中确定至少一个类簇中心；

其中，密度值计算模块包括：

中心地理位置信息计算单元，用于根据与所述字典树中各所述树节点对应的地理位置区域，计算与各所述树节点分别对应的位置误差值以及中心地理位置信息；

8.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的类簇中心的确定方法。

9.一种计算机存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的类簇中心的确定方法。