CN112287247B

CN112287247B - 基于Meanshift和K-means聚类的社交网络用户位置特征提取方法和装置

Info

Publication number: CN112287247B
Application number: CN201910628876.3A
Authority: CN
Inventors: 史英吉; 王海艳; 吕朝萍; 何旭
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2022-11-11
Anticipated expiration: 2039-07-12
Also published as: CN112287247A

Abstract

本发明公开了基于Meanshift和K‑means算法的社交网络用户位置特征提取方法和装置，该方法用于解决在海量的用户签到数据中发现用户签到频次中较高的热点区域，即用户真正感兴趣的位置，本发明的实施流程包括：首先对从Flickr平台收集到的用户签到数据进行分析和预处理，选取一个签到点较为密集且比较典型的区域作为研究区域，而后基于Meanshift方法对某个城市范围的签到数据进行初步聚类，并对筛选出规模较大的簇和过于密集的簇基于K‑means方法进行二次聚类，最后根据分簇结果划分到对应兴趣点(POI)，即完成用户位置特征提取。采用本发明的方法，可以更有效地实现对于LBSNs数据的位置特征提取。

Description

基于Meanshift和K-means聚类的社交网络用户位置特征提取方法和装置

技术领域

本发明属于智能信息处理和数据挖掘领域，具体涉及基于位置的移动社交网络(Location-based social networks，LBSNs)中海量用户签到数据的应用和挖掘，尤其涉及一种基于Meanshift和K-means集成聚类算法的社交网络用户位置特征提取方法和装置。

背景技术

移动互联网(Mobile Internet)和全球定位***(Global Positioning System，GPS)技术的进步带动了基于位置的移动社交网络(Location-based social networks，LBSNs)的快速发展，因此积累了海量的签到数据。LBSNs的快速发展提供了丰富的信息，极大地丰富了人类移动数据的可用性，带来了多方面的价值，一方面，与传统的社交网络数据相比，LBSNs数据除了包含社交关系数据和评论数据外，还包含了用户的位置信息。这使得网络社交从单纯的网络虚拟世界交流到现实世界的时空属性有了联系。另一个方面，与传统的GPS数据相比，LBSNs数据除了位置数据外，包含了社交关系和评论数据。这使得从地理学角度出发的分析不再仅仅局限于单一的时空位置分析，而可以结合用户活动的规律性和目的性，得到更多更有实际意义的行为模式。LBSNs数据中隐藏了大量的用户活动特征和行为模式，因此对LBSNs数据的特征提取工作成为了热门的研究问题。从中发现对用户出行和城市发展的价值，对进一步提升基于位置的服务质量有重要意义。

一般方法通过对LBSNs中的签到点进行聚类，发现作为访问热点的POI(Point ofInterest)(用户签到频次较高的热点区域)，从而提取出用户的位置特征。由于缺少对聚类算法在LBSNs数据上的适应性的认知，尽管诸多研究人员在提取POI的工作中直接应用或者有针对性地改良聚类算法，但是在哪种聚类算法最适合LBSNs数据方面，通常是以单一算法去适应LBSNs数据的多种特性需求，难以做到兼顾。因而需要针对LBSNs数据量大和密度不均匀等多种特点设计算法，实现更加有效的位置特征提取。

发明内容

本发明的目的在于解决采用单一算法不能适应LBSNs数据量大和密度不均匀的问题，提出一种基于Meanshift和K-means集成聚类算法的社交网络用户位置特征提取方法，实现更加有效地LBSNs用户位置特征提取。

根据LBSNs数据的特点，所设计的方法满足以下三个标准：

A.能够识别多密度聚类；

B.能够处理任意形状的聚类；

C.能够有尽可能低的时空间复杂度。

为实现上述技术目的，本发明所采用的技术方案为：

提出一种基于Meanshift和K-means集成聚类算法的社交网络用户位置特征提取方法所采用的技术方案具体包括如下步骤：

根据预先收集的用户签到数据选定对象区域，获取所述对象区域的用户签到数据；提取其中的用户地理位置信息数据，对其进行数据预处理；

基于Meanshift方法对选定范围内的用户地理位置信息数据进行初步聚类；

按照预设条件筛选出特定的簇并基于K-means方法进行二次聚类；

根据分簇结果将用户地理位置信息数据划分到对应兴趣点，完成用户位置特征提取。

进一步地，根据预先收集的用户签到数据选定对象区域的方法为：

在ArcGIS的帮助下，通过绘制散点图来描述该数据集中签到记录的分布情况，选择签到记录非常密集的纽约曼哈顿地区作为本发明的对象区域。

进一步地，数据预处理包括：对数据清洗，去除数据中有字段缺失的数据和不满足要求的错误数据。

进一步地，所述基于Meanshift方法对选定范围内的签到数据进行初步聚类包括以下步骤：

(4-1)记任意两个签到点r_i和r_j，其坐标分别为p_i＝(lat_i，lon_i)和p_j＝(lat_j，lon_j)，其中p_i＝(lat_i，lon_i)表示第i个签到数据的地理位置坐标的纬度和经度；p_j＝(lat_j，lon_j)表示第就个签到数据的地理位置坐标的纬度和经度；

计算任意两签到点之间的距离d_ij，表达式如下：

其中，r表示地球半径，hav()是半正矢函数的缩写，其展开形式如下：

θ表示球面上两点分别与球心相连形成的夹角；

基于任意两个签到点之间的距离d_ij构成距离矩阵D；

(4-2)初始随机选择簇心，并设定关键参数带宽bandwidth和停止阈值stopthresh；

(4-3)通过在当前簇心坐标向量上叠加偏移向量的方式更新簇心和结构，表达式如下：

Center^(t+1)＝Center^(t)+shift^(t)

其中，Center^(t)表示当前簇心，是第t次叠加偏移向量之后的簇心，Center^(t+1)表示第t+1次叠加偏移向量之后的簇心，shift^(t)表示第t次叠加的偏移向量；

(4-4)以偏移向量小于一个停止阈值stopthresh为目标，要求满足第t次叠加的偏移向量shift^(t)＜停止阈值stopthresh，迭代步骤(4-3)，直到所有样本点都找到最合适的簇心，同时，合并满足要求的簇，完成一次基于Meanshift算法的聚类。

进一步地，第t次叠加的偏移向量shift^(t)

代表当前簇内所有样本到当前簇心的距离的均值，基本形式如下：

其中，K表示当前簇内的样本数量，S^(t)表示当前簇中样本的集合，任意x_i∈S^(t)均满足所有样本点到当前簇心的距离小于关键参数带宽bandwidth，表达式为；

其中，

表示样本点x_i到当前簇心Center^(t)的距离，bandwidth表示关键参数带宽。

进一步地，按照预设条件筛选出特定的簇并基于K-means方法进行二次聚类包括以下步骤：

(6-1)筛选出规模大于预设阈值的簇并根据其规模确定K-means算法的参数k；

(6-2)随机选择k个簇的中心点，并计算每个样本与每个中心点之间的距离；

(6-3)按照距离最小的原则进行分簇，将每个样本归类到距离最近的簇中；

(6-4)基于当前分簇结果，重新计算簇中样本坐标的均值，确定新的中心点；

(6-5)重复迭代这些步骤若干次，或者直到各组的中心点在两次迭代之间变化不大时停止迭代，完成二次划分。

进一步地，所述步骤4包括：

对所有点根据分簇结果进行标记，划分到相应用户签到频次较高的热点区域POI中。

在另一个方面，本发明提供了一种社交网络中基于Meanshift和K-means集成聚类算法的用户位置特征提取装置，包括：

数据预处理模块，用于根据预先收集的用户签到数据选定对象区域，获取所述对象区域的用户签到数据；提取其中的用户地理位置信息数据，对其进行数据预处理；

初步聚类模块，用于基于Meanshift方法对选定范围内的用户地理位置信息数据进行初步聚类；

二次聚类模块，用于按照预设条件筛选出特定的簇并基于K-means方法进行二次聚类；

数据划分模块，用于根据分簇结果将用户地理位置信息数据划分到对应兴趣点，完成用户位置特征提取。

与现有技术相比，本发明的有益效果：

1.从计算复杂度来看，假定Meanshift算法需要迭代T次才达到收敛，输入数据集的规模为|R|，则Meanshift时间复杂度为O(T|R|²)。而K-means的时间复杂度为O(K|l|T)，其中|l|表示一个簇的规模。假定规模过大的簇的数量为m，那么Meanshift+K-means的计算复杂度为O(T|R|²+mK|l|T)。其中|l|＜＜|R|，并且m，K，T均远小于|R|的常数，因此Meanshifi+K-means的时间复杂度可以简化为O(|R|²)。

2.对于城市环境而言，POI的分布往往是局部聚集的。比如，市中心区域POI分布密集，人流量大，而郊区的POI数量则较少。对于密集区域，如果不对POI进行细分，则会导致POI区分不开。Meanshift+k-means的二次划分则能较好地解决这个问题，避免了大量的签到点集中到一个簇中。

附图说明

图1为本发明具体实施例的方法流程图；

图2为Flickr数据集中全球签到数据的分布；

图3为本发明的方法在曼哈顿地区Flickr签到数据上的聚类结果。

具体实施方式

下面结合说明书附图对本发明创造作进一步的详细说明。

如图1所示，本发明基于Meanshift和K-means集成聚类算法的社交网络用户位置特征提取方法，本发明方法首先对从Flickr平台收集到的用户签到数据进行分析和预处理，使用基于Meanshifi方法对已完成预处理的签到数据进行初步聚类，而后筛选出规模较大的簇和过于密集的簇基于K-means方法进行二次聚类，最后根据分簇结果划分到对应的POI，即完成用户位置特征提取。

在具体实施例中该方法包括如下步骤：

步骤1：对预先收集到的用户签到数据进行分析和预处理；优选地，从Flickr平台收集用户签到数据；

(1-1)在ArcGIS的帮助下，通过绘制散点图来描述该数据集中签到记录的分布情况，选择签到记录非常密集的纽约曼哈顿地区作为本发明的对象区域。设用户签到的地理位置信息数据集为L，可表示为L＝(p₁，p₂，...，p_m)，其中p_i＝(lat_i，lon_i)表示第i个签到数据的地理位置坐标——纬度和经度；

(1-2)数据清洗，去除数据中有字段缺失的数据和明显错误的数据。

步骤2：基于Meanshift方法对城市范围内的签到数据进行初步聚类；

(2-1)记任意两个签到点r_i和r_j，其坐标分别为p_i＝(lat_i，lon_i)和p_j＝(lat_j，lon_j)，计算任意两签到点之间的距离d_ij：

其中，r表示地球半径，一般取值6371km(地球半径均值)，hav()是半正矢函数的缩写，其展开形式如下：

其中，θ表示球面上两点分别与球心相连形成的夹角，可由经度或纬度的差值表示。

基于任意两个签到点之间的距离d_ij构成距离矩阵D；

(2-2)初始随机选择簇心，并设定关键参数带宽(bandwidth)和停止阈值(stopthresh)，因为Meanshift聚类算法可以实现相近簇的合并，所以随机选择的簇心的数量不必具体指定；

(2-3)通过在当前簇心坐标向量上叠加偏移向量的方式更新簇心和结构，即

Center^(t+1)＝Center^(t)+shift^(t)

其中，Center^(t)表示当前簇心，即第t次叠加偏移向量之后的簇心，Center^(t+1)表示第t+1次叠加偏移向量之后的簇心，shift^(t)表示第t次叠加的偏移向量，其代表当前簇内所有样本到当前簇心的距离的均值，基本形式如下：

其中，K表示当前簇内的样本数量，S^(t)表示当前簇中样本的集合，任意x_i∈S^(t)均满足所有样本点到当前簇心的距离小于关键参数带宽bandwidth：

其中，

表示样本点x_i到当前簇心Center^(t)的距离。

(2-4)以偏移向量小于一个停止阈值stopthresh为目标，即shift^(t)＜stopthresh，迭代步骤(2-3)，直到所有样本点都找到最合适的簇心，同时，合并比较接近的簇，即完成一次基于Meanshift算法的聚类。

步骤3：对于规模较大的簇利用K-means进行二次聚类；

(3-1)筛选出规模大于一定阈值的簇并根据其规模确定K-means算法的参数k；

(3-2)随机选择k个簇的中心点，并计算每个样本与每个中心点之间的距离；

(3-3)按照距离最小的原则进行分簇，将每个样本归类到距离最近的簇中；

(3-4)基于当前分簇结果，重新计算簇中样本坐标的均值，确定新的中心点；

(3-5)重复迭代这些步骤若干次，或者直到各组的中心点在两次迭代之间变化不大时停止迭代，完成二次划分。

步骤4：对所有点根据分簇结果进行标记，划分到相应POI中。

性能评价

本发明按照上述流程进行实验，使用真实LBSNs数据集评价本发明性能，以纽约市曼哈顿区域的Flickr平台上的签到数据作为研究对象，首先对数据进行分析和预处理，图2为在ArcGIS的帮助下绘制的Flickr数据集中全球签到数据的分布，进行核密度估计分析热区后认为北美、欧洲等地区具有较高的签到密度，最终确定选择签到记录非常密集的纽约曼哈顿地区作为本发明对象区域。

本发明以轮廓系数作为衡量聚类算法有效性的评价指标，以最大簇点数比和噪声比来衡量聚类算法在Flickr数据集上的适应性。

轮廓系数(Silhouette Coefficient)计算方法如下：

其中，S(i)表示样本i的轮廓系数，所有样本的S(i)的均值即为聚类分析的轮廓系数。其中，a(i)表示样本i到同簇其他样本的平均距离(簇内不相似度)；b(i)＝min{b(i，1)，b(i，2)，...，b(i，k)}，b(i，j)表示样本i到某簇j中所有样本的平均距离(簇间不相似度)。

最大簇点数比C_largest和最大噪声比Ratio_noise计算方法分别为聚类后最大簇中的记录数量占数据集中全部点数的比例以及聚类算法发现的噪声点数占数据集中全部点数的比例，表达式如下：

其中，l_largest表示聚类后最大簇中的记录数量，R表示数据集中全部点数，p_noise表示聚类算法发现的噪声点数。

为提取更多有效的POI，同时避免大部分的签到点聚集到少量的POI中，适应LBSNs数据集的聚类方法需要尽可能减小最大簇点数比C_largest和最大噪声比Ratio_noise。

使用Meanshift，DBSCAN和Meanshift+K-means三种聚类算法对纽约市曼哈顿区域的Flickr平台上的签到数据进行POI提取工作，比较聚类效果，得到如表1实验指标结果。

表1基于Flickr数据集的各聚类方法实验指标结果

从轮廓系数看，Meanshift+K-means聚类方法最高，表现最优；从最大簇点数比和噪声比两个指标看，Meanshift+K-means数值皆是最小，表现最优。综合各项指标来看，Meanshift+K-means聚类方法在针对提取POI的工作中比其他聚类算法更加有效。

图3为本发明的方法在曼哈顿地区Flickr签到数据上的聚类结果，与其他聚类方法的聚类结果比较可以发现，由于具有对规模较大簇的二次划分，Meanshift+K-means聚类方法在最大簇点数比指标上有明显的优势，是更适用于社交网络中用户位置特征提取的聚类方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于Meanshift和K-means集成聚类算法的社交网络用户位置特征提取方法，其特征在于，包括如下步骤：

根据分簇结果将用户地理位置信息数据划分到对应兴趣点，完成用户位置特征提取，包括：对所有点根据分簇结果进行标记，划分到相应用户签到频次较高的热点区域POI中；

按照预设条件筛选出特定的簇并基于K-means方法进行二次聚类，包括：

步骤(1-1)筛选出规模大于预设阈值的簇并根据其规模确定K-means算法的参数k；

步骤(1-2)随机选择k个簇的中心点，并计算每个样本与每个中心点之间的距离；

步骤(1-3)按照距离最小的原则进行分簇，将每个样本归类到距离最近的簇中；

步骤(1-4)基于当前分簇结果，重新计算簇中样本坐标的均值，确定新的中心点；

步骤(1-5)重复迭代这些步骤若干次，或者直到各组的中心点在两次迭代之间变化不大时停止迭代，完成二次划分。

2.根据权利要求1所述的一种基于Meanshift和K-means集成聚类算法的社交网络用户位置特征提取方法，其特征在于，根据预先收集的用户签到数据选定对象区域的方法为：

在ArcGIS的帮助下，通过绘制散点图来描述预先收集的用户签到数据中签到记录的分布情况，选择签到记录非常密集的纽约曼哈顿地区作为本发明的对象区域。

3.根据权利要求1所述的一种基于Meanshift和K-means集成聚类算法的社交网络用户位置特征提取方法，其特征在于，数据预处理包括：对数据清洗，去除数据中有字段缺失的数据和不满足要求的错误数据。

4.根据权利要求1所述的一种基于Meanshift和K-means集成聚类算法的社交网络用户位置特征提取方法，其特征在于，所述基于Meanshift方法对选定范围内的签到数据进行初步聚类包括以下步骤：

步骤(4-1)记任意两个签到点r_i和r_j，其坐标分别为p_i＝(lat_i，lon_i)和p_j＝(lat_j，lon_j)，其中p_i＝(lat_i，lon_i)表示第i个签到数据的地理位置坐标的纬度和经度；p_j＝(lat_j，lon_j)表示第j个签到数据的地理位置坐标的纬度和经度；

计算任意两签到点之间的距离d_ij，表达式如下：

θ表示球面上两点分别与球心相连形成的夹角；

基于任意两个签到点之间的距离d_ij构成距离矩阵D；

步骤(4-2)初始随机选择簇心，并设定关键参数带宽bandwidth和停止阈值stopthresh；

步骤(4-3)通过在当前簇心坐标向量上叠加偏移向量的方式更新簇心和结构，表达式如下：

Center^(t+1)＝Center^(t)+shift^(t)

步骤(4-4)以偏移向量小于一个停止阈值stopthresh为目标，要求满足第t次叠加的偏移向量shift^(t)＜停止阈值stopthresh，迭代步骤(4-3)，直到所有样本点都找到最合适的簇心，同时，合并满足要求的簇，完成一次基于Meanshift算法的聚类。

5.根据权利要求4所述的一种基于Meanshift和K-means集成聚类算法的社交网络用户位置特征提取方法，其特征在于，第t次叠加的偏移向量shift^(t)代表当前簇内所有样本到当前簇心的距离的均值，基本形式如下：

其中，

6.一种社交网络中基于Meanshift和K-means集成聚类算法的用户位置特征提取装置，其特征在于，包括：

数据划分模块，用于根据分簇结果将用户地理位置信息数据划分到对应兴趣点，完成用户位置特征提取，包括：对所有点根据分簇结果进行标记，划分到相应用户签到频次较高的热点区域POI中；

按照预设条件筛选出特定的簇并基于K-means方法进行二次聚类，包括：在步骤(6-1)筛选出规模大于预设阈值的簇并根据其规模确定K-means算法的参数k；

步骤(6-2)随机选择k个簇的中心点，并计算每个样本与每个中心点之间的距离；

步骤(6-3)按照距离最小的原则进行分簇，将每个样本归类到距离最近的簇中；

步骤(6-4)基于当前分簇结果，重新计算簇中样本坐标的均值，确定新的中心点；

步骤(6-5)重复迭代这些步骤若干次，或者直到各组的中心点在两次迭代之间变化不大时停止迭代，完成二次划分。