CN110750730B - 基于时空约束的群体检测方法和*** - Google Patents

基于时空约束的群体检测方法和*** Download PDF

Info

Publication number
CN110750730B
CN110750730B CN201910853792.XA CN201910853792A CN110750730B CN 110750730 B CN110750730 B CN 110750730B CN 201910853792 A CN201910853792 A CN 201910853792A CN 110750730 B CN110750730 B CN 110750730B
Authority
CN
China
Prior art keywords
user
users
information
time
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910853792.XA
Other languages
English (en)
Other versions
CN110750730A (zh
Inventor
刘业政
魏雪梅
孙见山
陶守正
孙春华
姜元春
陈夏雨
刘春丽
丁正平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201910853792.XA priority Critical patent/CN110750730B/zh
Publication of CN110750730A publication Critical patent/CN110750730A/zh
Application granted granted Critical
Publication of CN110750730B publication Critical patent/CN110750730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于时空约束的群体检测方法和***,涉及群体检测技术领域。本发明首先获取用户的历史轨迹数据和社交关系信息;然后基于历史轨迹数据对用户进行聚类,获取初步群体;最后基于用户社交关系信息和初步群体获取目标群体。本发明通过用户的历史轨迹数据中的时空数据信息,对在相同时间内出现在同一地区附近的人群进行有效的检测和识别,然后通过用户的社交关系信息,对在相同时间内出现在同一地区附近的人群进行处理,得到目标群体。本发明同时考虑时空相似度和社交关系,能够精确的检测在某个地区同时出现的群体。

Description

基于时空约束的群体检测方法和***
技术领域
本发明涉及群体检测技术领域,具体涉及一种基于时空约束的群体检测方法和***。
背景技术
因在线社区不断发展,人们越来越多的通过各种在线社区进行互动。丰富的用户交互信息为用户行为研究带来了大量数据。在此基础上,社区检测方法层出不穷。研究者们试图通过用户之间的连接关系和交互行为,识别出在行为或属性上具有相似特征的用户群体,将其看作不同的社区。通过社区检测方法得到的社区,在社会化营销,社会治理等方面具有重要意义。
现有的社交群体检测方法主要包括:基于网络拓扑结构的社区发现算法和考虑节点属性的社区发现算法这两大方法。基于网络拓扑结构的社区发现算法主要为通过对社区进行自顶向下划分或对节点进行自下向上的凝聚,寻找使得模块度最优的社区划分结果。在这一过程中,模块度衡量用户之间连接的紧密程度。考虑节点属性的社区发现算法主要为:同时考虑用户之间的连接关系和用户对在不同地区举行的不同活动偏好程度,建立概率模型,学习到不同位置和不同用户的表示,通过用户之间的相似度,可以进行社区发现。
然而,本申请的发明人发现,社交群体检测方法在判断用户相似度时,无法精确检测在某个地区同时出现的群体,即现有的社交群体检测方法的精确度低。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于时空约束的群体检测方法和***,解决了现有的社交群体检测方法的精确度低的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种基于时空约束的群体检测方法,所述方法由计算机执行,包括以下步骤:
S1、获取用户的历史轨迹数据和社交关系信息;
S2、基于所述历史轨迹数据对用户进行聚类,获取初步群体,所述初步群体为:在相近时间内出现在同一地区范围内的用户;
S3、基于所述社交关系信息和所述初步群体获取目标群体。
优选的,在步骤S1中,所述历史轨迹数据包括:位置信息和时间信息。
优选的,在步骤S1中,所述社交关系信息包括:用户亲密度值矩阵A,所述用户亲密度值矩阵A的获取方法包括:
建立用户亲密度值矩阵A,矩阵中的每一个元素aij表示社交网络中第i个用户ui和第j个用户uj之间的亲密度值,0<i<n,0<j<n;
若用户ui和用户uj在所述社交网络中存在直接好友关系,则aij=1,否则aij的值用共同好友所占比例来表示,Fi表示用户ui的好友集合,Fj表示用户uj的好友集合,则可得:
Figure GDA0003999310750000031
获得n×n的用户亲密度值矩阵A:
Figure GDA0003999310750000032
优选的,所述步骤S2具体包括:
S201、设置滑动时间窗口,包括设置窗口的半径和窗口的移动步长;
S202、在时间窗口下,对用户的位置信息进行聚类,得到原始群体;
S203、过滤原始群体中重复出现的用户,得到初步群体。
优选的,在步骤S202中,采用DBSCAN算法对所述位置信息进行聚类。
优选的,所述步骤S3具体包括:
基于用户亲密度值矩阵A,删除初步群体中与其他用户的亲密度值小于预设的亲密度阈值的用户,得到目标群体。
本发明还提供一种基于时空约束的群体检测***,所述***包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、获取用户的历史轨迹数据和社交关系信息;
S2、基于所述历史轨迹数据对用户进行聚类,获取初步群体,所述初步群体为:在相近时间内出现在同一地区范围内的用户;
S3、基于所述社交关系信息和所述初步群体获取目标群体。
优选的,在步骤S1中,所述历史轨迹数据包括:位置信息和时间信息。
优选的,在步骤S1中,所述社交关系信息包括:用户亲密度值矩阵A,所述用户亲密度值矩阵A的获取方法包括:
建立用户亲密度值矩阵A,矩阵中的每一个元素aij表示社交网络中第i个用户ui和第j个用户uj之间的亲密度值,0<i<n,0<j<n;
若用户ui和用户uj在所述社交网络中存在直接好友关系,则aij=1,否则aij的值用共同好友所占比例来表示,即,若Fi表示用户ui的好友集合,Fj表示用户uj的好友集合,则可得:
Figure GDA0003999310750000041
获得n×n的用户亲密度值矩阵A:
Figure GDA0003999310750000042
优选的,所述步骤S2具体包括:
S201、设置滑动时间窗口,包括设置窗口的半径和窗口的移动步长;
S202、在时间窗口下,对用户的位置信息进行聚类,得到原始群体;
S203、过滤原始群体中重复出现的用户,得到初步群体。
(三)有益效果
本发明提供了一种基于时空约束的群体检测方法和***。与现有技术相比,具备以下有益效果:
本发明首先获取用户的历史轨迹数据和社交关系信息;然后基于历史轨迹数据对用户进行聚类,获取初步群体,上述初步群体为:在相近时间内出现在同一地区范围内的用户;最后基于用户社交关系信息和初步群体获取目标群体。本发明通过用户的历史轨迹数据中的时空数据信息,对在相同时间内出现在同一地区附近的人群进行有效的检测和识别,然后通过用户的社交关系信息,对在相同时间内出现在同一地区附近的人群进行处理,得到目标群体。本发明同时考虑时空相似度和社交关系,能够精确的检测在某个地区同时出现的群体。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种基于时空约束的群体检测方法的框图。
图2为本发明实施例中A、B两点之间的弧长和夹角θ之间的关系的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于时空约束的群体检测方法和***,解决了现有的社交群体检测方法的精确度低的问题,实现高精确度的检测在某个地区同时出现的群体。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例通过用户的历史轨迹数据中的时空数据信息,对在相同时间内出现在同一地区附近的人群进行有效的检测和识别,然后通过用户的社交关系信息,对在相同时间内出现在同一地区附近的人群进行处理,得到目标群体。本发明实施例同时考虑时空相似度和社交关系,能够精确的检测在某个地区同时出现的群体。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供一种基于时空约束的群体检测方法,如图1所示,上述方法由计算机执行,包括步骤S1~S3:
S1、获取用户的历史轨迹数据和社交关系信息;
S2、基于历史轨迹数据对用户进行聚类,获取初步群体,上述初步群体为:在相近时间内出现在同一地区范围内的用户;
S3、基于上述社交关系信息和上述初步群体获取目标群体。
本发明实施例同时考虑时空相似度和社交关系,能够精确的检测在某个地区同时出现的群体。通过本发明实施例的方法,可检测识别出了在同一时刻,聚集在同一地点的用户,且用户之间关系紧密。在现实社会中自组织的驴友,定期举办活动的社团;在公共安全方面,经常聚集闹事,威胁社会治安的团体都属于这类群体。本发明能有效地对这类群体进行检测,可以帮助旅行公司为用户个性化定制旅游路线,帮助有关部门识别危险团伙,维护公共安全。
下面对各个步骤进行详细的描述:
在步骤S1中,获取用户的历史轨迹数据和用户社交关系信息。具体实施过程如下:
S101、在社交网站中,用户不仅可以相互关注,并且可以实时分享自己的位置信息,所述网站上存在n个访问用户,记为 U={u1,u2,...,ui,...,un},ui表示第i个访问用户,1≤i≤n;在不同时刻,用户在m个位置上留下信息,记为L={l1,l2,...,li,...,lm},每次的位置记录形成一个三元组<u,l,t>表示用户u,在时刻t时,在位置l上留下了一条记录,其中位置l的信息由经纬度构成,即每次打卡时会自动记录当前位置的经纬度。在某个时间范围内,用户u的轨迹信息成一条时序元组序列:<u,l1,t1>,...,<u,li,ti>,...,<u,lNu,tNu>,其中Nu为用户u位置信息的序列长度。
S102、建立用户亲密度值矩阵A,矩阵中的每一个元素aij表示社交网络中第i个用户ui和第j个用户uj之间的亲密度值,0<i≤n,0<j≤n;
若用户ui和用户uj在所述社交网络中存在直接好友关系,则aij=1,否则aij的值用共同好友所占比例来表示,用Fi表示用户ui的好友集合, Fj表示用户uj的好友集合,则可得:
Figure GDA0003999310750000081
获得n×n的用户亲密度值矩阵A:
Figure GDA0003999310750000082
在步骤S2中,基于历史轨迹数据对用户进行聚类,获取初步群体,所述初步群体为:在相近时间内出现在同一地区范围内的用户。具体实施过程如下:
需要说明的是,在本发明实施例中,相近时间定义为1h以内,同一地区定义为某个用户打卡地区半径500m的范围之内。
S201、设置滑动时间窗口w,窗口半径为1小时,即上述的相近时间,窗口移动步长为10分钟,即每10分钟滑动一次窗口,对于某一天的数据,遍历24个小时则需要移动窗口138次。
S202、在时间窗口下,对用户的位置信息进行聚类,得到原始群体。具体为:
在每个时间窗口w下,对用户的位置信息进行聚类。需要说明的是,通过本发明实施例的方法能得到多个原始群体,在本发明实施例中,以一个原始群体为例。根据用户留下的经纬度坐标,计算不同用户之间的直线地理距离,根据距离相似度对用户进行聚类。由于不同纬度的地区,每一经度代表的平面距离是不一样的,根据经纬度求两个用户之间的平面距离,实际上是计算球体上两个点之间的弧线距离,因此,在计算地理距离之前,先将不同位置经纬度之间的差异换算成以米为单位的距离差值。具体的换算过程如下:
1.假设:地球是正球体。地面两点A和B的经纬度坐标分别为(Alon, Alat)和(Blon,Blat),地球半径R取平均值6371km。
2.建立三维直角坐标系:
地球球心为原点O,地轴为Z轴,北极方向为Z轴正方向,赤道平面为X轴和Y轴所在平面,在该平面上地心到零度经线的方向为X 轴正方向,在赤道平面上与X轴正方向成90度的方向为Y轴正方向。在该坐标轴下,A的三维坐标为(Ax,Ay,Az),B的三维坐标为(Bx,By,Bz)。
3.距离计算:
如图2所示,求A,B两点的弧长,可以根据弧长公式(1)得到:
lAB=R×θ   (1)
其中,R表示地球半径,θ表示
Figure GDA0003999310750000091
Figure GDA0003999310750000092
的夹角。其中R是已知的,则求AB间距离,只需求得夹角θ的大小即可。
Figure GDA0003999310750000093
Figure GDA0003999310750000094
其中:(3)式中的Ax,Bx,Ay,By,Az,Bz可由A,B两点的经纬度表示:
Ax=R×cos Alat×cos Alon
Ay=R×cos Alat×sin Alon
Az=R×cos Alat
Bx=R×cos Blat×cos Blon
By=R×cos Blat×sin Blon
Bz=R×cos Blat   (4)
将(4)代入(3)可得:
cosθ=cos Alat×cos Alon×cos Blat×cos Blon+cos Alat×sin Alon×cosBlat×sin Blon+cos Alat×cos Blat
将上式化简可得θ如公式(5):
θ=arccos[cos Alat×cos Blat×cos(Alon-Blon)+sin Alat×sin Blat]  (5)
综上可得,根据经纬度计算地面两点间距离的公式,如公式(6) 所示:
lAB=R×arccos[cos Alat×cos Blat×cos(Alon-Blon)+sin Alat×sin Blat]  (6)
然后根据距离之间的相似度,利用DBSCAN算法对位置信息进行聚类。聚类过程如下:
设定邻域eps和核心对象MinPts的个数。即得到满足最小成员数要求,且在距离上相近的点构成的社区。在本发明实例中设定eps=500(与上述同一地区定义为某个用户打卡地区半径500m的范围之内对应), MinPts=3,即某个节点半径为500米的范围内,至少包含3个节点则该节点才能被认定为是核心节点。从核心节点出发,确定若干个直接密度可达的对象,即包含在该节eps=500半径内的核心节点,再从这若干个对象出发,寻找它们直接密度可达的点,直至最后没有可添加的对象了,那么一个簇的更新就完成了。每一个社区有编号作为唯一标识,每个社区内的成员都用用户ID作为唯一标识。用户ID为用户登录社交网站的时候生成的唯一的用户标识。
S203、过滤原始群体中重复出现的用户,得到初步群体。具体为:
由于是对用户的位置信息进行聚类,因此,同一个用户在一个时间窗口内可能存在多条记录<u,l1,t1>,..., <u,li,ti>, ..., <u,lNu,tNu>, tNu-t1<ε,因此,需要对步骤S202得到的原始群体中的成员进行过滤,去掉重复出现的用户ID,最终得到在不同时间,不同地点产生的在时空距离上相近的初步群体Cm,m表示群体的数量。
在步骤S3中,基于用户社交关系信息,获取初步群体中的目标群体。具体实施过程如下:
根据用户之间的亲密度值矩阵,遍历每一个用户,删除初步群体中与其他用户的亲密度值aij均小于亲密度阈值ε的节点,在本发明实施例中,设置ε=0.5,则剩下的用户构成目标群体。即对于初步划分到第k 个群的用户i,如果其满足公式(9),则将其从其所属群体中剔除。
Figure GDA0003999310750000111
本发明实施例还提供一种基于时空约束的群体检测***,上述***包括计算机,上述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,上述至少一个存储单元中存储有至少一条指令,上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤:
S1、获取用户的历史轨迹数据和社交关系信息;
S2、基于上述历史轨迹数据对用户进行聚类,获取初步群体,上述初步群体为:在相近时间内出现在同一地区范围内的用户;
S3、基于上述社交关系信息和上述初步群体获取目标群体。
可理解的是,本发明实施例提供的上述基于时空约束的群体检测***与上述基于时空约束的群体检测方法相对应,其有关内容的解释、举例、有益效果等部分可以参考基于时空约束的群体检测方法中的相应内容,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例同时考虑时空相似度和社交关系,能够精确的检测在某个地区同时出现的群体。通过本发明实施例的方法,可检测识别出了在同一时刻,聚集在同一地点的用户,且用户之间关系紧密。在现实社会中自组织的驴友,定期举办活动的社团;在公共安全方面,经常聚集闹事,威胁社会治安的团体都属于这类群体。本发明能有效地对这类群体进行检测,可以帮助旅行公司为用户个性化定制旅游路线,帮助有关部门识别危险团伙,维护公共安全。
2、本发明实施例在聚类时采用滑动时间窗口,并计算基于地理位置的距离相似度,同时考虑了用户的时间和空间信息。更精确的捕捉了用户的活动规律,能够找出不仅在地理距离上相聚较近,而且在时间上更同步的用户。同时,采用的DBSCAN可以通过修改参数值来控制群体的节点规模和范围大小,使算法可适用于不同的需求场景。
3、本发明实施例为实现目标群体的划分,将社交关系信息加入到地理聚类结果中,对单纯使用地理位置进行聚类的结果进行筛选。通常社区是由于成员具有某种特定的目的而自发或有组织的形成的,成员之间应该具有较为紧密的关系。通过对聚类形成的成员进行筛选,排除了由于偶然因素进入到群体范围内的用户。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种基于时空约束的群体检测方法,其特征在于,所述方法由计算机执行,包括以下步骤:
S1、获取用户的历史轨迹数据和社交关系信息,所述社交关系信息包括:用户亲密度值矩阵;
S2、基于所述历史轨迹数据对用户进行聚类,获取初步群体,所述初步群体为:在相近时间内出现在同一地区范围内的用户;
S3、基于用户亲密度值矩阵,删除初步群体中与其他用户的亲密度值小于预设的亲密度阈值的用户,得到目标群体;
其中,所述历史轨迹数据包括:位置信息和时间信息,在不同时刻,用户在m个位置上留下信息,记为L={l1,l2,...,li,...,lm},每次的位置记录形成一个三元组<u,l,t>表示用户u,在时刻t时,在位置l上留下了一条记录,其中位置l的信息由经纬度构成,即每次打卡时会自动记录当前位置的经纬度;在某个时间范围内,用户u的轨迹信息成一条时序元组序列:<u,l1,t1>,...,<u,li,ti>,...,<u,lNu,tNu>,其中Nu为用户u位置信息的序列长度;
所述S2包括:
S201、设置滑动时间窗口,包括设置窗口的半径和窗口的移动步长;
S202、在时间窗口下,对用户的位置信息进行聚类,得到原始群体,具体为:
根据用户留下的经纬度坐标,计算不同用户之间的直线地理距离,根据距离相似度对用户进行聚类;
S203、过滤原始群体中重复出现的用户,得到初步群体。
2.如权利要求1所述的基于时空约束的群体检测方法,其特征在于,在步骤S1中,所述用户亲密度值矩阵A的获取方法包括:
建立用户亲密度值矩阵A,矩阵中的每一个元素aij表示社交网络中第i个用户ui和第j个用户uj之间的亲密度值,0<i<n,0<j<n;
若用户ui和用户uj在所述社交网络中存在直接好友关系,则aij=1,否则aij的值用共同好友所占比例来表示,Fi表示用户ui的好友集合,Fj表示用户uj的好友集合,则可得:
Figure FDA0003999310740000021
获得n×n的用户亲密度值矩阵A:
Figure FDA0003999310740000022
3.如权利要求1所述的基于时空约束的群体检测方法,其特征在于,在步骤S202中,采用DBSCAN算法对所述位置信息进行聚类。
4.一种基于时空约束的群体检测***,其特征在于,所述***包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、获取用户的历史轨迹数据和社交关系信息,所述社交关系信息包括:用户亲密度值矩阵;
S2、基于所述历史轨迹数据对用户进行聚类,获取初步群体,所述初步群体为:在相近时间内出现在同一地区范围内的用户;
S3、基于用户亲密度值矩阵,删除初步群体中与其他用户的亲密度值小于预设的亲密度阈值的用户,得到目标群体;
其中,所述历史轨迹数据包括:位置信息和时间信息,在不同时刻,用户在m个位置上留下信息,记为L={l1,l2,...,li,...,lm},每次的位置记录形成一个三元组<u,l,t>表示用户u,在时刻t时,在位置l上留下了一条记录,其中位置l的信息由经纬度构成,即每次打卡时会自动记录当前位置的经纬度;在某个时间范围内,用户u的轨迹信息成一条时序元组序列:<u,l1,t1>,...,<u,li,ti>,...,<u,lNu,tNu>,其中Nu为用户u位置信息的序列长度;
所述S2包括:
S201、设置滑动时间窗口,包括设置窗口的半径和窗口的移动步长;
S202、在时间窗口下,对用户的位置信息进行聚类,得到原始群体,具体为:
根据用户留下的经纬度坐标,计算不同用户之间的直线地理距离,根据距离相似度对用户进行聚类;
S203、过滤原始群体中重复出现的用户,得到初步群体。
5.如权利要求4所述的基于时空约束的群体检测***,其特征在于,在步骤S1中,所述用户亲密度值矩阵A的获取方法包括:
建立用户亲密度值矩阵A,矩阵中的每一个元素aij表示社交网络中第i个用户ui和第j个用户uj之间的亲密度值,0<i<n,0<j<n;
若用户ui和用户uj在所述社交网络中存在直接好友关系,则aij=1,否则aij的值用共同好友所占比例来表示,即,若Fi表示用户ui的好友集合,Fj表示用户uj的好友集合,则可得:
Figure FDA0003999310740000041
获得n×n的用户亲密度值矩阵A:
Figure FDA0003999310740000042
CN201910853792.XA 2019-09-10 2019-09-10 基于时空约束的群体检测方法和*** Active CN110750730B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910853792.XA CN110750730B (zh) 2019-09-10 2019-09-10 基于时空约束的群体检测方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910853792.XA CN110750730B (zh) 2019-09-10 2019-09-10 基于时空约束的群体检测方法和***

Publications (2)

Publication Number Publication Date
CN110750730A CN110750730A (zh) 2020-02-04
CN110750730B true CN110750730B (zh) 2023-04-07

Family

ID=69276210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910853792.XA Active CN110750730B (zh) 2019-09-10 2019-09-10 基于时空约束的群体检测方法和***

Country Status (1)

Country Link
CN (1) CN110750730B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113035366B (zh) * 2021-03-24 2023-01-13 南方科技大学 密接人群识别方法、装置、电子设备及存储介质
CN112967790A (zh) * 2021-04-02 2021-06-15 北京声智科技有限公司 创建服务点的方法、服务管理方法及相关设备
CN113626670B (zh) * 2021-07-13 2023-01-24 北京格灵深瞳信息技术股份有限公司 基于时空关系的对象聚类方法、装置和电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103700018B (zh) * 2013-12-16 2018-04-24 华中科技大学 一种移动社会网络中的人群划分方法
KR20170025454A (ko) * 2015-08-28 2017-03-08 서울대학교산학협력단 소셜 미디어 데이터의 시공간 분석 시스템 및 방법
CN109325875B (zh) * 2018-08-31 2021-08-10 合肥工业大学 基于在线社交用户隐特征的隐式群体发现方法
CN109918395A (zh) * 2019-02-19 2019-06-21 北京明略软件***有限公司 一种群体挖掘方法及装置

Also Published As

Publication number Publication date
CN110750730A (zh) 2020-02-04

Similar Documents

Publication Publication Date Title
CN110750730B (zh) 基于时空约束的群体检测方法和***
CN110688495B (zh) 一种事件信息的知识图谱模型构建方法、装置、存储介质
Phithakkitnukoon et al. Taxi-aware map: Identifying and predicting vacant taxis in the city
CN111737605A (zh) 一种基于手机信令数据的出行目的识别方法及装置
CN104182435B (zh) 基于数据缺失标记的信息检索***及方法
CN107622085A (zh) 一种基于网格和密度的自适应轨迹聚类方法
CN110598917B (zh) 一种基于路径轨迹的目的地预测方法、***及存储介质
Liu et al. Understanding taxi drivers’ routing choices from spatial and social traces
CN114530038B (zh) 一种基于时空数据聚类的出行兴趣区域提取方法及***
Chen et al. An analysis of movement patterns between zones using taxi GPS data
Yuan et al. Recognition of functional areas based on call detail records and point of interest data
CN114461692A (zh) 电子围栏推荐方法、装置、电子设备及存储介质
Lin et al. VShare: A wireless social network aided vehicle sharing system using hierarchical cloud architecture
CN112925899B (zh) 排序模型建立方法、案件线索推荐方法、装置及介质
CN112052405B (zh) 一种基于司机经验的寻客区域推荐方法
RU2660599C1 (ru) Способ индексирования видеоданных для фасетной классификации
CN113573238A (zh) 一种基于手机信令的联程旅客出行链识别方法
Bakkal et al. Modeling and querying trajectories using Neo4j spatial and TimeTree for carpool matching
CN112364776A (zh) 一种城市功能区识别模型建立、分类方法及装置
CN114820960B (zh) 构建图谱的方法、装置、设备和介质
CN112862414B (zh) 基于集群旅行商问题的协同配送路径优化方法
CN113792206A (zh) 数据处理方法、装置、计算机可读存储介质及计算机设备
CN112836121B (zh) 一种出行目的识别方法及***
CN114663960A (zh) 人脸与imsi匹配方法、装置、电子设备和存储介质
Liu et al. Trajectory privacy data publishing scheme based on local optimisation and R-tree

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant