CN103942310A - 基于时空模式的用户行为相似性挖掘方法 - Google Patents

基于时空模式的用户行为相似性挖掘方法 Download PDF

Info

Publication number
CN103942310A
CN103942310A CN201410159039.8A CN201410159039A CN103942310A CN 103942310 A CN103942310 A CN 103942310A CN 201410159039 A CN201410159039 A CN 201410159039A CN 103942310 A CN103942310 A CN 103942310A
Authority
CN
China
Prior art keywords
sign
rank
desk
similarity
registering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410159039.8A
Other languages
English (en)
Other versions
CN103942310B (zh
Inventor
涂岩恺
黄家乾
时宜
陈典全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yaxon Networks Co Ltd
Original Assignee
Xiamen Yaxon Networks Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Yaxon Networks Co Ltd filed Critical Xiamen Yaxon Networks Co Ltd
Priority to CN201410159039.8A priority Critical patent/CN103942310B/zh
Publication of CN103942310A publication Critical patent/CN103942310A/zh
Application granted granted Critical
Publication of CN103942310B publication Critical patent/CN103942310B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)

Abstract

本发明涉及用户行为轨迹挖掘技术领域,具体涉及一种基于时空模式的用户行为相似性挖掘方法。本发明针对LBSN用户的签到记录不连续、碎片化严重的状况,发明了签到点集的时空模式匹配方法进行数据的用户行为挖掘,将签到点分为秩次子集与孤立点两类,对秩次子集内的时间顺序信息给予保留,并在相似性比较时与位置信息进行有效融合。发明了一种新的时空Hausdorff距离匹配方法进行有效的时空模式相似判别,无需进行签到点间的行为轨迹恢复,同时有效的利用了签到时间顺序信息,因而能比较好的判断用户签到行为的相似性。

Description

基于时空模式的用户行为相似性挖掘方法
技术领域
本发明涉及用户行为轨迹挖掘技术领域,具体涉及一种基于时空模式的用户行为相似性挖掘方法。 
背景技术
在LBSN(基于位置的社交网络)中每天都会产生大量的签到数据。这些数据包括时间、位置、POI属性等信息,反映了用户真实的生活轨迹与兴趣倾向。对这些基于社交网络的签到数据进行挖掘,寻找行为兴趣相似的人群可以定量和估算人们的社会活动特征,进而发掘人们的行为规律,使人们能够更深层地认知智能化城市中社群的生活轨迹、社交行为、环境变动等,不仅能够满足LBSN用户越来越强烈的个性化、社会化需求,为社交网站的发展提供支持,而且能够为商务智能、个性化推荐提供支持。 
由于LBSN用户的签到记录是不连贯和碎片化的,时间间隔可能为几分钟、几小时甚至几天几个月,在这样复杂的签到率下难以还原出用户的真实行动轨迹。传统的方法采用网格或交通路网匹配的方式试图还原用户签到点之间的轨迹(基于路网的LBSN用户移动轨迹聚类挖掘方法[J].计算机应用研究,2013,30(8):2410-2414.等),但这种做法没考虑到签到点时间间隔较长的情况下会不可避免的产生轨迹估算错误。也有方法利用签到点的POI属性构建语义主题,通过主题相似性判断用户行为相似性(专利201310336664.0),但是这类方法也要求用户签到点时间间隔不能隔的太远,否则隔几个月的签到本身不具有什么主题意义联系。如果不恢复用户轨迹,直接用点集空间关系的相似性进行用户 行为相似性匹配(专利201210390018.8)的方法忽略了签到点的先后时间关系,时间间隔较近的签到点顺序隐含了用户的行为顺序与兴趣优先信息。本发明用签到点集的时空模式匹配方法进行数据的用户行为挖掘,将同一天内的签到时间顺序与签到点位置数据进行融合,发明了一种新的时空Hausdorff距离匹配方法进行有效的时空模式相似判别,无需进行签到点间的行为轨迹恢复,同时有效的利用了签到时间顺序信息,因此能有效的比较用户签到行为的相似性。 
发明内容
解决上述技术问题,本发明提供了一种基于时空模式的用户行为相似性挖掘方法,利用对用户签到点进行筛选划分为孤立点与孤立点、孤立点与秩次子集、秩次子集与秩次子集,再采用典型hausdorff距离方法计算的过程中,融合了空间位置与时间秩次信息,形成了基于LBSN用户签到数据的时空信息来判断用户相似性的方法。 
为了达到上述目的,本发明所采用的技术方案是,一种基于时空模式的用户行为相似性挖掘方法,包括以下步骤: 
步骤1:时空数据融合步骤,获取单个用户的所有签到数据,所述签到数据包括签到时间、签到点位置信息,将该签到点按签到时间先后顺序排列,并将该该签到点分成孤立点与秩次子集两类,孤立点只保留位置信息,秩次子集中包含若干签到点,并将签到时间转换为秩次信息,秩次子集中保留签到点位置和秩次信息。 
步骤2:时空模式匹配步骤:利用时空Hausdorff距离匹配方法,基于秩次信息与签到点位置信息计算出的用户行为相似性,比较孤立点与孤立点之间的相似性距离,秩次子集合与秩次子集合之间的相似性距离,以及孤立点与秩次 子集合之间的相似性距离,再根据该相似性距离,得到融合空间与时间两种信息的用户签到行为相似性度量值。 
进一步的,所述步骤1还包括一下步骤: 
步骤11:将每个用户的所有原始签到点的签到数据依据时间顺序排列为{P1,P2,P3,...,PM},每个签到点的签到数据为Pi={x,y,t}(i=1,2,...,M),其中(x,y)表示签到点Pi的经纬度位置信息,t表示签到点Pi的签到时间, 
步骤12:构成秩次子集,获取每个用户一天内的签到点Pi构成单独的子集合Qj={Pj,Pj+1,Pj+2,...,Pj+N}(N≤M),并对该单独的子集合Qj内的签到点赋予秩次权值,即Qj内按时间顺序第一个签到点秩次为rank=1,第二个签到点秩次为rank=2,以此类推,获得秩次后用秩次rank信息替换时间信息t,得到新的秩次子集合Q’j={P’j,P’j+1,...P’j+N},P’j={x,y,rank}, 
步骤13:构成孤立点集合,所述孤立点的划分方法为:一用户1天以内(从当天0:00:00到23:59:59)只有一个签到点,则该签到点划分为孤立点Pi,由于该孤立点Pi不构成成秩次子集,则去除时间信息,只保留位置信息,形成孤立签到点Pi=(x,y)。 
进一步的,所述步骤2包括: 
步骤21:计算两个独立点P1与P2之间的相似性距离Ds,直接取地理直线距离: 
Ds=d(P1,P2)    (1) 
步骤22:独立点Pi与秩次子集Q’j={P’j,P’j+1,...P’j+N}之间的相似性距离Db计算公式如下: 
D b = d ( P i , Q j ′ ) Σ k = j k = j + N rank k / ( N + 1 ) - - - ( 2 )
其中d(Pi,Q′j)=min[d(Pi,P′j),d(Pi,P′j+1),…,d(Pi,P′j+N)]。 
步骤23:秩次子集Q’i={P’i,P’i+1,...P’i+M}与秩次子集Q’j={P’j,P’j+1,...P’j+N}的相似性距离Dr计算公式如下: 
Dr=max[d(Q′i,Q′j),d(Q′j,Q′i)]    (3) 
其中d(Q′i,Q′j)代表秩次子集Q′i到子集Q′j的距离 
d(Q′i,Q′j)=max[d(P′i,Q′j),d(P′i+1,Q′j),…d(P′i+M,Q′j)]    (4) 
在计算带秩次的点对P′i与P′j的距离时,融合秩次相似性权重值wi,j=|ranki-rankj|+1,则(4)式中的d(P′i,Q′j)按如下方法计算: 
d(P′i,Q′j)=min[wi,jd(P′i,P′j),wi,j+1d(P′i,P′j+1),…wi,j+Nd(P′i,P′j+N)]    (5) 
秩次子集Q′j到子集Q′i的距离d(Q′j,Q′i)按相同的原理计算。计算公式如下: 
d(Q′j,Q′i)=max[d(P′j,Q′i),d(P′j+1,Q′i),…d(P′j+N,Q′i)]    (6) 
d(P′j,Q′i)=min[wj,id(P′j,P′i),wj,i+1d(P′j,P′i+1),…wj,i+Md(P′j,P′i+M)]    (7) 
具体地,设两个用户UserA和UserB的签到集合经时空数据融合处理后变换为分别包含若干孤立点与若干秩次子集的集合A={Pa1,Pa2,…,PaN,Q′a1,Q′a2,…,Q′aM},B={Pb1,Pb2,…,PbK,Q′b1,Q′b2,…,Q′bL},则两个用户间的行为相似性比较方法如下: 
计算集合A中某元素a与集合B的距离其中若a,b是一对孤立点,则d(a,b)按(1)式计算;若a,b是孤立点与秩次子集,则d(a,b)按(2)式计算;若a,b均是秩次子集,则d(a,b)按(3)式计算。计算集合A与集合B的 距离同理可计算集合B与集合A的距离d(B,A),则用户UserA和UserB的最终相似性度量为: 
H=max[d(A,B),d(B,A)]    (8)。 
本发明通过采用上述技术方案,与现有技术相比,具有如下优点: 
在LBSN(基于位置的社交网络)中依据用户的签到数据进行相似性比较计算,能够为商务智能、个性化推荐提供有价值的数据分析结果,其最典型应用就是协同过滤推荐,即行为相似的用户其兴趣相似的概率较高,则可将用户A感兴趣的产品,推送给与用户A行为相似的用户B,以提高LBSN网络的信息利用率与智能化水平。 
本发明针对LBSN用户的签到记录不连续、碎片化严重的状况,发明了签到点集的时空模式匹配方法进行数据的用户行为挖掘,将签到点分为秩次子集与孤立点两类,对秩次子集内的时间顺序信息给予保留,并在相似性比较时与位置信息进行有效融合。发明了一种新的时空Hausdorff距离匹配方法进行有效的时空模式相似判别,无需进行签到点间的行为轨迹恢复,同时有效的利用了签到时间顺序信息,因而能比较好的判断用户签到行为的相似性。 
具体实施方式
现结合具体实施方式对本发明进一步说明。 
作为一个具体的实施例,本发明的一种基于时空模式的用户行为相似性挖掘方法,包括以下步骤: 
步骤1:时空数据融合步骤,获取单个用户的所有签到数据,所述签到数据包括签到时间、签到点位置信息,将该签到点按签到时间先后顺序排列,并将该该签到点分成孤立点与秩次子集两类,孤立点只保留位置信息,秩次子集中 包含若干签到点,并将签到时间转换为秩次信息,秩次子集中保留签到点位置和秩次信息。 
步骤2:时空模式匹配步骤:利用时空Hausdorff距离匹配方法,基于秩次信息与签到点位置信息计算出的用户行为相似性,比较孤立点与孤立点之间的相似性距离,秩次子集合与秩次子集合之间的相似性距离,以及孤立点与秩次子集合之间的相似性距离,再根据该相似性距离,得到融合空间与时间两种信息的用户签到行为相似性度量值。 
进一步的,所述孤立点的划分方法为:一用户1天以内(从当天0:00:00到23:59:59)只有一个签到点,则该签到点是孤立点; 
进一步的,所述步骤1还包括一下步骤: 
步骤11:将单个用户的所有原始签到点的签到数据依据时间顺序排列为{P1,P2,P3,...,PM},每个签到点的签到数据为Pi={x,y,t}(i=1,2,...,M),其中(x,y)表示签到点Pi的经纬度位置信息,t表示签到点Pi的签到时间, 
步骤12:构成秩次子集,获取一天(当天0:00:00到23:59:59)的签到点Pi构成单独的子集合Qj={Pj,Pj+1,Pj+2,...,Pj+N}(N≤M),并对该单独的子集合Qj内的签到点赋予秩次权值,即Qj内按时间顺序第一个签到点秩次为rank=1,第二个签到点秩次为rank=2,以此类推,获得秩次后用秩次rank信息替换时间信息t,得到新的秩次子集合Q’j={P’j,P’j+1,...P’j+N},P’j={x,y,rank}, 
步骤13:构成孤立点集合,对于不构成成秩次子集的签到点Pi,由于时间隔过远(大于一天),在时间联系上的意义较弱,因此去除时间信息,只保留位置信息,形成孤立签到点Pi=(x,y)。 
进一步的,所述步骤2包括: 
步骤21:计算两个独立点P1与P2之间的相似性距离Ds,直接取地理直线距离: 
Ds=d(P1,P2)    (1) 
步骤22:独立点Pi与秩次子集Q’j={P’j,P’j+1,...P’j+N}之间的相似性距离Db计算公式如下: 
D b = d ( P i , Q j ′ ) Σ k = j k = j + N rank k / ( N + 1 ) - - - ( 2 )
其中d(Pi,Q′j)=min[d(Pi,P′j),d(Pi,P′j+1),…,d(Pi,P′j+N)] 
在计算孤立点与秩次子集的距离时,利用秩次信息拉大了它们之间的距离,突显了时间顺序差别的特征。在特殊情况下,秩次子集点个数为1的时候,秩次子集退化为孤立点,(2)式中N=0,rank=1,等价于(1)式,说明孤立点是秩次子集个数为1时的特殊形式。 
步骤23:秩次子集Q’i={P’i,P’i+1,...P’i+M}与秩次子集Q’j={P’j,P’j+1,...P’j+N}的相似性距离Dr计算公式如下: 
Dr=max[d(Q′i,Q′j),d(Q′j,Q′i)]    (3) 
其中d(Q′i,Q′j)代表秩次子集Q′i到子集Q′j的距离 
d(Q′i,Q′j)=max[d(P′i,Q′j),d(P′i+1,Q′j),…d(P′i+M,Q′j)]    (4) 
在计算带秩次的点对P′i与P′j的距离时,需要融合秩次相似性权重值wi,j=|ranki-rankj|+1,则(4)式中的d(P′i,Q′j)按如下方法计算: 
d(P′i,Q′j)=min[wi,jd(P′i,P′j),wi,j+1d(P′i,P′j+1),…wi,j+Nd(P′i,P′j+N)]    (5) 
秩次子集Q′j到子集Q′i的距离d(Q′j,Q′i)按相同的原理计算。 
计算公式如下: 
d(Q′j,Q′i)=max[d(P′j,Q′i),d(P′j+1,Q′i),…d(P′j+N,Q′i)]    (6) 
d(P′j,Q′i)=min[wj,id(P′j,P′i),wj,i+1d(P′j,P′i+1),…wj,i+Md(P′j,P′i+M)]    (7) 
在(5)式中融合了秩次相似性权重值之后,若两个秩次子集中的签到点有相同的位置与签到顺序,则距离值很小;若签到位置相同但签到顺序不同,秩次权值较大,距离值变大,这样在签到点位置特征比较中融合了时间顺序信息,以最终实现时空模式的签到行为相似比较。 
具体地:设两个用户UserA和UserB的签到集合经时空数据融合处理后变换为分别包含若干孤立点与若干秩次子集的集合A={Pa1,Pa2,…,PaN,Q′a1,Q′a2,…,Q′aM},B={Pb1,Pb2,…,PbK,Q′b1,Q′b2,…,Q′bL},则两个用户间的行为相似性比较方法如下: 
计算集合A中某元素a与集合B的距离其中若a,b是一对孤立点,则d(a,b)按(1)式计算;若a,b是孤立点与秩次子集,则d(a,b)按(2)式计算;若a,b均是秩次子集,则d(a,b)按(3)式计算。计算集合A与集合B的距离同理可计算集合B与集合A的距离d(B,A),则用户UserA和UserB的最终相似性度量为: 
H=max[d(A,B),d(B,A)]    (8) 
公式(8)是典型hausdorff距离公式,但是在具体计算集合内部元素距离的时候分别考虑与孤立点与孤立点、孤立点与秩次子集、秩次子集与秩次子集的情况,融合了空间位置与时间秩次信息,因此本发明本质上扩展了典型hausdorff距离方法,形成了基于LBSN用户签到数据的时空信息来判断用户相 似性的时空hausdorff距离方法。 
相似性度量值H值越小,表明用户签到行为相似性越高,依据H值的大小,可以从大量用户数据的比较中得出与当前查询用户最相似的用户(即H值最小的用户),实现用户签到行为相似性挖掘。 
这里举用户UserA、UserB、UserC的简化实例,对方法的具体实施进行说明。本例中用UserA的历史签到数据进行查询申请,从UserB和UserC中找出签到行为与UserA最相近的人做为数据挖掘结果。 
三者历史签到数据按时间顺序排列如下所示: 
UserA历史签到数据 
UserA 签到时间 签到位置(纬度、经度)
Pa1 2014-02-0410:52:47 (24.633811,118.073829)
Pa2 2014-02-0413:02:12 (24.623612,118.087136)
Pa3 2014-02-0418:25:37 (24.614248,118.071257)
Pa4 2014-04-1315:21:56 (24.628761,118.072373)
UserB历史签到数据 
UserB 签到时间 签到位置(纬度、经度)
Pb1 2013-11-0409:06:14 (24.604728,118.109194)
Pb2 2013-12-0413:32:45 (24.622987,118.086878)
Pb3 2013-12-0415:25:37 (24.614014,118.071772)
Pb4 2014-03-2212:30:16 (24.585217,118.06894)
Pb5 2014-06-2018:32:11 (24.632974,118.093316)
UserC历史签到数据 
UserC 签到时间 签到位置(纬度、经度)
Pc1 2012-12-0210:52:47 (24.634301,118.08499)
Pc2 2013-01-2514:36:39 (24.624782,118.095976)
[0073] 
Pc3 2013-04-0111:21:31 (24.607225,118.076064)
Pc4 2013-04-0215:27:38 (24.566172,118.101727)
Pc5 2013-12-0412:00:19 (24.617838,118.081213)
Pc6 2014-02-1409:29:36 (24.623065,118.051688)
Pc7 2014-03-1821:15:34 (24.627123,118.05967)
步骤1对数据进行时空融合处理。将个用户签到数据分类成孤立点与秩次子集两类。孤立点只保留位置信息,秩次子集中包含若干签到点,并将签到时间替换为秩次信息,秩次子集中保留签到点位置和秩次信息。则: 
用户UserA的签到孤立点为Pa4={24.633811,118.073829};Pa1,Pa2,Pa3属于同一天的数据,可以融合成秩次子集,用秩次信息替换时间信息,得到签到秩次子集为Q’a1={P’a1,P’a2,P’a3},其中: 
P’a1={24.633811,118.073829,1} 
P’a2={24.623612,118.087136,2} 
P’a3={24.607225,118.076064,3} 
则用户UserA的数据集为A={Pa4,Q’a1}。 
用户UserB的签到孤立点为Pb1={24.604728,118.109194},Pb4={24.633811,118.073829},Pb5={24.639489,118.079975},Pb2,Pb3属于同一天的数据,可以融合构成秩次子集,用秩次信息替换时间信息,得到签到秩次子集为Q’b1={P’b2,P’b3},其中: 
P’b2={24.622987,118.086878,1} 
P’b3={24.614014,118.071772,2} 
则用户UserB的数据集为B={Pb1,Pb4,Pb5,Q’b1}。 
用户UserC的所有签到点均为孤立点 
则用户UserC的数据集为C={Pc1,Pc2,Pc3,Pc4,Pc5,Pc6,Pc7}。 
步骤2: 
依据UserA的签到数据集A={Pa4,Q’a1}与UserB的签到数据集B={Pb1,Pb4,Pb5,Q’b1},计算二者签到行为相似度。 
2.1计算集合A与集合B的距离d(A,B): 
计算集合A中各元素与集合B的距离:d(Pa4,B)、d(Q’a1,B) 
则集合A与集合B的距离为d(A,B)=max{d(Pa4,B),d(Q’a1,B)} 
2.1.1其中d(Pa4,B)计算过程如下: 
计算Pa4与Pb1的距离Ds(Pa4,Pb1),由于Pa4与Pb1均为孤立点,因此按(1)式取两点的地理距离Ds(Pa4,Pb1)=d(Pa4,Pb1)=4.582; 
同理按(1)式计算Pa4与Pb4的距离Ds(Pa4,Pb4)=4.854; 
同理按(1)式计算Pa4与Pb5的距离Ds(Pa4,Pb5)=2.168; 
计算Pa4与Q’b1的距离Db(Pa4,Q’b1),由于Pa4为孤立点,Q’b1为秩次子集,因此按(2)式计算: 
Db(Pa4,Q’b1)=min{d(Pa4,P’b2),d(Pa4,P’b3)}×{(1+2)/2} 
=min{1.6006,1.6409}×1.5=2.4009 
因此d(Pa4,B)=min{Ds(Pa4,Pb1),Ds(Pa4,Pb4),Ds(Pa4,Pb5),Db(Pa4,Q’b1)} 
=min{4.582,4.854,2.168,2.4009}=2.168 
可以看到,虽然Pa4与Q’b1中各点的距离都比较近(都在1.6左右),但是在计算孤立点与秩次子集的距离时,利用秩次信息拉大了它们之间的距离到2.4以上,突显了时间顺序差别的特征。 
2.1.2d(Q’a1,B)计算过程如下: 
计算Q’a1与Pb1的距离Db(Q’a1,Pb1),由于Q’a1为秩次子集,Pb1为孤立点,同理按(2)式计算二者距离Db(Q’a1,Pb1)=9.1887 
同理按(2)式计算Q’a1与Pb4的距离Db(Q’a1,Pb4)=9.709; 
同理按(2)式计算Q’a1与Pb5的距离Db(Q’a1,Pb5)=2.6571; 
计算Q’a1与Q’b1的距离Dr(Q’a1,Q’b1),由于Q’a1、Q’b1均为秩次子集,因此按(3)式计算: 
Dr(Q’a1,Q’b1)=max{d(Q’a1,Q’b1),d(Q’b1,Q’a1)} 
其中d(Q’a1,Q’b1)=max{d(P’a1,Q’b1),d(P’a2,Q’b1),d(P’a3,Q’b1)} 
其中 
d(P’a1,Q’b1)=min{(|1-1|+1)d(P’a1,P’b2),(|1-2|+1)d(P’a1,P’b3)}=1.7855 
d(P’a2,Q’b1)=min{(|2-1|+1)d(P’a2,P’b2),(|2-2|+1)d(P’a2,P’b3)}=0.1484 
d(P’a3,Q’b1)=min{(|3-1|+1)d(P’a3,P’b2),(|3-2|+1)d(P’a3,P’b3)}=0.1164 
因此d(Q’a1,Q’b1)=max{1.7855,0.1484,0.1164}=1.7855 
同理可得d(Q’b1,Q’a1)=1.3142 
因此Dr(Q’a1,Q’b1)=max{1.7855,1.3142}=1.7855 
在计算带秩次的点的距离时,融合了秩次权重,若两个秩次子集中的签到 点有相同的位置与签到顺序,则距离值很小,可以看出Q’a1,Q’b1有相似的位置与签到时间顺序,因此融合秩次权重后距离普遍比较小,最大值仅为1.7855;而若签到位置即使相近但签到顺序不同或孤立点没有签到顺序,例如前面计算Db(Q’a1,Pb1)、Db(Pa4,Q’b1)时,秩次权值较大,距离值变大,反映了用户签到行为在时间顺序上的差别。 
得到d(Q’a1,B)=min{9.1887,9.709,2.6571,1.7855}=1.7855 
d(A,B)=max{d(Pa4,B),d(Q’a1,B)}=max{2.168,1.7855}=2.168 
2.2计算集合B与集合A的距离d(B,A)。 
计算原理与d(A,B)相同,得d(B,A)=2.143 
于是UserA与UserB的相似性距离HAB=max{d(A,B),d(B,A)}=2.168 
基于同样的计算原理,得UserA与UserC的相似性距离HAC=3.635 
因为HAB<HAC说明在用户UserB与UserC中,UserB是与UserA在签到行为上最相似的用户,UserB即为数据挖掘的结果。本发明方法应用到大用户量数据库上,就能够通过计算用户相似性度量值H,从大量用户数据的比较中得出与当前查询用户最相似的用户(即H值最小的用户),实现用户签到行为相似性挖掘。 
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。 

Claims (3)

1.一种基于时空模式的用户行为相似性挖掘方法,其特征在于:包括以下步骤:
步骤1:时空数据融合步骤,获取单个用户的所有签到数据,所述签到数据包括签到时间、签到点位置信息,将该签到点按签到时间先后顺序排列,并将该该签到点分成孤立点与秩次子集两类,孤立点只保留位置信息,秩次子集中包含若干签到点,并将签到时间转换为秩次信息,秩次子集中保留签到点位置和秩次信息;
步骤2:时空模式匹配步骤:利用时空Hausdorff距离匹配方法,基于秩次信息与签到点位置信息计算出的用户行为相似性,比较孤立点与孤立点之间的相似性距离,秩次子集合与秩次子集合之间的相似性距离,以及孤立点与秩次子集合之间的相似性距离,再根据该相似性距离,得到融合空间与时间两种信息的用户签到行为相似性度量值。
2.根据权利要求1所述的一种基于时空模式的用户行为相似性挖掘方法,其特征在于:所述步骤1还包括一下步骤:
步骤11:将每个用户的所有原始签到点的签到数据依据时间顺序排列为{P1,P2,P3,...,PM},每个签到点的签到数据为Pi={x,y,t}(i=1,2,...,M),其中(x,y)表示签到点Pi的经纬度位置信息,t表示签到点Pi的签到时间,
步骤12:构成秩次子集,获取每个用户一天的签到点Pi构成单独的子集合Qj={Pj,Pj+1,Pj+2,...,Pj+N}(N≤M),并对该单独的子集合Qj内的签到点赋予秩次权值,即Qj内按时间顺序第一个签到点秩次为rank=1,第二个签到点秩次为rank=2,以此类推,获得秩次后用秩次rank信息替换时间信息t,得到新的秩次子集合Q’j={P’j,P’j+1,...P’j+N},P’j={x,y,rank},
步骤13:构成孤立点集合,所述孤立点的划分方法为:一用户1天以内(从当天0:00:00到23:59:59)只有一个签到点,则该签到点划分为孤立点Pi,由于该孤立点Pi不构成成秩次子集,则去除时间信息,只保留位置信息,形成孤立签到点Pi=(x,y)。
3.根据权利要求1所述的一种基于时空模式的用户行为相似性挖掘方法,其特征在于:所述步骤2具体包括:
步骤21:计算两个独立点P1与P2之间的相似性距离Ds,直接取地理直线距离:
Ds=d(P1,P2)    (1)
步骤22:独立点Pi与秩次子集Q’j={P’j,P’j+1,...P’j+N}之间的相似性距离Db计算公式如下:
D b = d ( P i , Q j &prime; ) &Sigma; k = j k = j + N rank k / ( N + 1 ) - - - ( 2 )
其中d(Pi,Q′j)=min[d(Pi,P′j),d(Pi,P′j+1),…,d(Pi,P′j+N)],
步骤23:秩次子集Q’i={P’i,P’i+1,...P’i+M}与秩次子集Q’j={P’j,P’j+1,...P’j+N}的相似性距离Dr计算公式如下:
Dr=max[d(Q′i,Q′j),d(Q′j,Q′i)]    (3)
其中d(Q′i,Q′j)代表秩次子集Q′i到子集Q′j的距离
d(Q′i,Q′j)=max[d(P′i,Q′j),d(P′i+1,Q′j),…d(P′i+M,Q′j)]    (4)
在计算带秩次的点对P′i与P′j的距离时,融合秩次相似性权重值wi,j=|ranki-rankj|+1,则(4)式中的d(P′i,Q′j)按如下方法计算:
d(P′i,Q′j)=min[wi,jd(P′i,P′j),wi,j+1d(P′i,P′j+1),…wi,j+Nd(P′i,P′j+N)]    (5)
秩次子集Q′j到子集Q′i的距离d(Q′j,Q′i)的计算公式如下:
d(Q′j,Q′i)=max[d(P′j,Q′i),d(P′j+1,Q′i),…d(P′j+N,Q′i)]    (6)
d(P′j,Q′i)=min[wj,id(P′j,P′i),wj,i+1d(P′j,P′j+1),…wj,i+Md(P′j,P′i+M)]    (7)。
CN201410159039.8A 2014-04-18 2014-04-18 基于时空模式的用户行为相似性挖掘方法 Active CN103942310B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410159039.8A CN103942310B (zh) 2014-04-18 2014-04-18 基于时空模式的用户行为相似性挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410159039.8A CN103942310B (zh) 2014-04-18 2014-04-18 基于时空模式的用户行为相似性挖掘方法

Publications (2)

Publication Number Publication Date
CN103942310A true CN103942310A (zh) 2014-07-23
CN103942310B CN103942310B (zh) 2018-12-21

Family

ID=51189978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410159039.8A Active CN103942310B (zh) 2014-04-18 2014-04-18 基于时空模式的用户行为相似性挖掘方法

Country Status (1)

Country Link
CN (1) CN103942310B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408043A (zh) * 2014-10-17 2015-03-11 深圳大学 一种信息处理方法及服务器
CN105243148A (zh) * 2015-10-25 2016-01-13 西华大学 一种基于签到数据的时空轨迹相似性度量方法及***
CN105389332A (zh) * 2015-10-13 2016-03-09 广西师范学院 一种地理社交网络下的用户相似性计算方法
CN106153031A (zh) * 2015-04-13 2016-11-23 骑记(厦门)科技有限公司 运动轨迹表示方法和装置
CN106776930A (zh) * 2016-12-01 2017-05-31 合肥工业大学 一种融入时间和地理位置信息的地点推荐方法
CN107169088A (zh) * 2017-05-12 2017-09-15 中国矿业大学 一种基于时空交互的用户社交关系强度计算方法及***
CN107515949A (zh) * 2017-09-14 2017-12-26 云南大学 兴趣点预测和推荐中的用户时空相似性度量方法
CN108764951A (zh) * 2018-03-23 2018-11-06 广州杰赛科技股份有限公司 用户相似度获得方法和装置、设备、存储介质
CN109522491A (zh) * 2018-11-29 2019-03-26 杭州飞弛网络科技有限公司 一种基于位置属性的陌生人社交活动推荐方法与***
CN109857829A (zh) * 2019-02-16 2019-06-07 吉林师范大学 一种地理信息数据融合***
CN110222278A (zh) * 2019-06-18 2019-09-10 东北大学 综合因素下用户位置的获取方法
CN110826594A (zh) * 2019-09-29 2020-02-21 成都华为技术有限公司 一种轨迹聚类的方法、设备及存储介质
CN110990722A (zh) * 2019-12-19 2020-04-10 南京柏跃软件有限公司 基于大数据挖掘的模糊共站分析算法模型及其分析***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880719A (zh) * 2012-10-16 2013-01-16 四川大学 基于位置社交网络的用户轨迹相似性挖掘方法
CN103488678A (zh) * 2013-08-05 2014-01-01 北京航空航天大学 一种基于用户签到相似度的好友推荐***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880719A (zh) * 2012-10-16 2013-01-16 四川大学 基于位置社交网络的用户轨迹相似性挖掘方法
CN103488678A (zh) * 2013-08-05 2014-01-01 北京航空航天大学 一种基于用户签到相似度的好友推荐***

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408043B (zh) * 2014-10-17 2019-02-22 深圳大学 一种信息处理方法及服务器
CN104408043A (zh) * 2014-10-17 2015-03-11 深圳大学 一种信息处理方法及服务器
CN106153031A (zh) * 2015-04-13 2016-11-23 骑记(厦门)科技有限公司 运动轨迹表示方法和装置
CN106153031B (zh) * 2015-04-13 2019-08-30 骑记(厦门)科技有限公司 运动轨迹表示方法和装置
CN105389332B (zh) * 2015-10-13 2018-09-11 广西师范学院 一种地理社交网络下的用户相似性计算方法
CN105389332A (zh) * 2015-10-13 2016-03-09 广西师范学院 一种地理社交网络下的用户相似性计算方法
CN105243148A (zh) * 2015-10-25 2016-01-13 西华大学 一种基于签到数据的时空轨迹相似性度量方法及***
CN106776930A (zh) * 2016-12-01 2017-05-31 合肥工业大学 一种融入时间和地理位置信息的地点推荐方法
CN106776930B (zh) * 2016-12-01 2019-06-18 合肥工业大学 一种融入时间和地理位置信息的地点推荐方法
CN107169088B (zh) * 2017-05-12 2020-05-12 中国矿业大学 一种基于时空交互的用户社交关系强度计算方法及***
CN107169088A (zh) * 2017-05-12 2017-09-15 中国矿业大学 一种基于时空交互的用户社交关系强度计算方法及***
CN107515949A (zh) * 2017-09-14 2017-12-26 云南大学 兴趣点预测和推荐中的用户时空相似性度量方法
CN108764951A (zh) * 2018-03-23 2018-11-06 广州杰赛科技股份有限公司 用户相似度获得方法和装置、设备、存储介质
CN108764951B (zh) * 2018-03-23 2021-01-12 广州杰赛科技股份有限公司 用户相似度获得方法和装置、设备、存储介质
CN109522491A (zh) * 2018-11-29 2019-03-26 杭州飞弛网络科技有限公司 一种基于位置属性的陌生人社交活动推荐方法与***
CN109522491B (zh) * 2018-11-29 2020-07-31 杭州飞弛网络科技有限公司 一种基于位置属性的陌生人社交活动推荐方法与***
CN109857829A (zh) * 2019-02-16 2019-06-07 吉林师范大学 一种地理信息数据融合***
CN110222278A (zh) * 2019-06-18 2019-09-10 东北大学 综合因素下用户位置的获取方法
CN110222278B (zh) * 2019-06-18 2022-05-17 东北大学 综合因素下用户位置的获取方法
CN110826594A (zh) * 2019-09-29 2020-02-21 成都华为技术有限公司 一种轨迹聚类的方法、设备及存储介质
CN110826594B (zh) * 2019-09-29 2022-08-09 成都华为技术有限公司 一种轨迹聚类的方法、设备及存储介质
CN110990722A (zh) * 2019-12-19 2020-04-10 南京柏跃软件有限公司 基于大数据挖掘的模糊共站分析算法模型及其分析***

Also Published As

Publication number Publication date
CN103942310B (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN103942310A (zh) 基于时空模式的用户行为相似性挖掘方法
Zhang et al. CoRe: Exploiting the personalized influence of two-dimensional geographic coordinates for location recommendations
Lv et al. The discovery of personally semantic places based on trajectory data mining
Gambs et al. Next place prediction using mobility markov chains
Si et al. CTF-ARA: An adaptive method for POI recommendation based on check-in and temporal features
Jiao et al. A novel next new point-of-interest recommendation system based on simulated user travel decision-making process
WO2015067119A1 (zh) 一种位置兴趣点聚类方法和相关装置
CN105307121B (zh) 一种信息处理方法及装置
Kong et al. CoPFun: An urban co-occurrence pattern mining scheme based on regional function discovery
毛嘉莉 et al. Anomaly detection for trajectory big data: Advancements and framework
Tran et al. Robust and hierarchical stop discovery in sparse and diverse trajectories
Hu et al. Pick-up tree based route recommendation from taxi trajectories
Huang et al. Unsupervised interesting places discovery in location-based social sensing
CN106056577B (zh) 基于mds-srm混合级联的sar图像变化检测方法
Cao et al. Understanding metropolitan crowd mobility via mobile cellular accessing data
Nishida et al. Extracting arbitrary-shaped stay regions from geospatial trajectories with outliers and missing points
Assem et al. RCMC: Recognizing crowd-mobility patterns in cities based on location based social networks data
Redondo et al. A hybrid analysis of LBSN data to early detect anomalies in crowd dynamics
Ghane’i-Ostad et al. Detecting overlapping communities in LBSNs by fuzzy subtractive clustering
Niu et al. On a clustering-based mining approach with labeled semantics for significant place discovery
Shi et al. Point-of-interest recommendations: capturing the geographical influence from local trajectories
Huang et al. On interesting place finding in social sensing: An emerging smart city application paradigm
Frias-Martinez et al. Sensing urban land use with twitter activity
Jenson et al. Mining location information from users' spatio-temporal data
CN104850541B (zh) 一种基于位置语义网的语义位置转换方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant