CN108108407B - 基于出租车时空轨迹的群体运动移动簇模式排序方法 - Google Patents

基于出租车时空轨迹的群体运动移动簇模式排序方法 Download PDF

Info

Publication number
CN108108407B
CN108108407B CN201711306853.8A CN201711306853A CN108108407B CN 108108407 B CN108108407 B CN 108108407B CN 201711306853 A CN201711306853 A CN 201711306853A CN 108108407 B CN108108407 B CN 108108407B
Authority
CN
China
Prior art keywords
taxi
poi
cluster
moving
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711306853.8A
Other languages
English (en)
Other versions
CN108108407A (zh
Inventor
吉根林
张玉洁
赵斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Normal University
Original Assignee
Nanjing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Normal University filed Critical Nanjing Normal University
Priority to CN201711306853.8A priority Critical patent/CN108108407B/zh
Publication of CN108108407A publication Critical patent/CN108108407A/zh
Application granted granted Critical
Publication of CN108108407B publication Critical patent/CN108108407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于出租车时空轨迹的群体运动移动簇模式排序方法,包括以下步骤:构建移动簇‑兴趣点二部图和基于重启式随机游走模型进行排序。本发明移动簇基于重启式随机游走模型对移动簇进行重要性排序问题可以转换为“移动簇‑兴趣点”图中顶点的重要性计算问题,每个顶点的概率值代表该顶点的重要性,概率值越大说明该顶点越重要,利用该模型对移动簇进行重要性排序易于实现,不需要用户设置过多的参数便可以自动完成排序过程。

Description

基于出租车时空轨迹的群体运动移动簇模式排序方法
技术领域
本发明涉及时空数据的轨迹模式挖掘领域,具体涉及一种基于出租车时空轨迹的群体运动移动簇模式排序方法。
背景技术
随着移动对象轨迹数据量的快速增长,轨迹数据的分析挖掘需求明显增强。通过挖掘轨迹数据,可以发现大量时空轨迹模式。作为时空轨迹模式的重要组成部分,群体运动移动簇模式能够发现轨迹大数据中有价值的信息,从而用于分析移动对象群体的运动趋势和运动规律。对于群体运动移动簇模式而言,如何从大量挖掘结果中找出有价值的、重要的结果,涉及到模式的排序问题。由于群体运动移动簇模式多种多样,问题的定义各不相同,导致挖掘出的模式的表现形式也各不相同,然而它们都面临一个共同的问题,即从大量挖掘结果中找出用户感兴趣的少数部分。
目前,群体运动移动簇模式主要包括成群模式(Flock)、护航模式(Convoy)、蜂群模式(Swarm)、汇聚模式(Convergence)、聚合模式(Gathering)等,它们大多借助经验人为地挑选出少数重要结果。这种方法虽然可行,但是人为地从大量结果中找出用户感兴趣的少数结果并非易事。
为此需要找到一个统一的排序方法,帮助用户从众多挖掘结果中挑选出用户关心的少数结果。现有的研究工作中,关于时空轨迹模式挖掘结果的排序问题并不多。2011年,Zhijun Yin等人提出轨迹模式排序方法,但是该方法只针对频繁模式的挖掘结果进行排序,并不适用于群体运动移动簇模式。
目前,仍然没有针对群体运动移动簇模式挖掘结果进行排序的研究工作。究其原因,是由于群体运动移动簇模式挖掘结果所包含的属性各不相同,导致很难找到一种传统的排序方法来适用于所有群体运动移动簇模式的排序问题。
对于群体运动移动簇模式排序问题而言,最简单的方法就是按照移动簇的持续时间或对象规模来进行排序。这种方法虽然简单,但存在很大缺陷。例如交管部门通常对一些热门区域(商业圈、车站、机场等)发生的事件更感兴趣,然而这些区域的移动簇并不一定具有较长的持续时间或者较大的对象规模,如果使用上述方法对这样的移动簇进行排序,则它们并不一定能被排在前面。因此,需要找到一个更有效的排序方法,帮助用户找出与重要地理位置相关的移动簇。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于出租车时空轨迹的群体运动移动簇模式排序方法,解决对轨迹模式挖掘出的大量移动簇进行重要性排序的问题。
技术方案:本发明一种基于出租车时空轨迹的群体运动移动簇模式排序方法,包括以下步骤:
(1)构建出租车移动簇-兴趣点二部图,具体包括以下方法
(1.1)获取出租车移动簇的集合MC,MC={mc1,…,mcn};
(1.2)获取挖掘移动簇所使用的数据集的兴趣点集合POI,POI={poi1,…,poil};
(1.3)构建出租车移动簇和兴趣点关系的二部图;
(1.4)二部图构建成功,采用邻接矩阵MMC·POI的形式来存储出租车移动簇和兴趣点的关系;
(2)基于重启式随机游走模型对出租车移动簇进行重要性排序,具体方法如下:
(2.1)对于步骤(1)中产生得到的出租车移动簇与兴趣点之间的关系邻接矩阵MMC·POI,计算得到其相应的转置矩阵
Figure GDA0002576972190000021
(2.2)利用MMC·POI
Figure GDA0002576972190000022
构建方阵
Figure GDA0002576972190000023
(2.3)对M进行行归一化处理,对每一条边eij,行归一化后的值为
Figure GDA0002576972190000024
其中,w(eij)表示边eij上的权重,即移动簇i和兴趣点j之间的关联度,∑kw(ekj)表示所有边ekj的权重之和,即移动簇与所有兴趣点之间的关联度总和;1≤k≤n+l,1≤i≤n+l,1≤j≤n+l;k为矩阵M的第k行;
(2.4)初始化列向量p和q,p向量中的每个元素置为0,q中的元素置为
Figure GDA0002576972190000025
其中,向量p和q的长度均为n+l,n为所有出租车移动簇的数目,l为兴趣点的数目;
(2.5)利用公式p(t+1)=(1-α)·M·p(t)+α·q进行迭代计算,其中t为迭代次数,此处迭代终止的条件为:||p(t+1)||1-||p(t)||1<ε;
其中,p(t)、p(t+1)和q是列向量,p(t)表示第t步图中的顶点概率分布,列向量q中设置目标移动簇顶点值为1,其余为0,M是矩阵;α为直接回到出发顶点的概率即重启概率;
(2.6)将迭代终止后向量p中兴趣点的重要性得分去掉,剩下的即为每个移动簇的重要性得分,以重要性得分由高到低进行排序,所得结果即为移动簇的重要性排序结果。
进一步的,所述步骤(1.3)的具体方法为:
所构建出租车移动簇和兴趣点二部图为MC-POI二部图G={MC∪POI,E},
其中,MC={mc1,…,mcn},代表从出租车时空轨迹数据中利用移动簇模式挖掘算法所挖掘出结果中的所有出租车移动簇的集合,POI={poi1,…,poil}为挖掘算法所使用数据集中的兴趣点的集合,E={(mc,poi)|mc∈MC,poi∈POI},是出租车移动簇和兴趣点之间关系的有穷集合;令eij∈E表示出租车移动簇mci到兴趣点poij的关系;
对于每一个出租车移动簇mci,其空间属性中包含一个中心点或多个中心点的序列,若一个移动簇的中心点在一定的邻域半径γ范围内被很多poi兴趣点覆盖,则认为该移动簇是重要的,且该移动簇和这些被覆盖的poi兴趣点有联系,在出租车移动簇和兴趣点的关系二部图上它们之间有一条边;
若某个poi兴趣点在邻域半径γ范围内,覆盖很多移动簇的中心点,则认为该poi兴趣点是重要的,且该poi兴趣点和这些移动簇有联系;在出租车移动簇和兴趣点的关系二部图的表示形式中,它们之间也存在一条边;
上述出租车移动簇和兴趣点的关系MC-POI二部图存储于矩阵MMC·POI中,且二部图所有边上的权重都为1,表示初始状态下所有的移动簇和兴趣点的关联度是相等的即为RWR-Ranking方法的排序方法。
进一步的,所述步骤(1.3)具体方法为:
所构建出租车移动簇和兴趣点的关系二部图为MC-POI二部图G,G={MC∪POI,E};
其中MC={mc1,…,mcn}代表从出租车时空轨迹数据中利用移动簇模式挖掘算法所挖掘出结果中的所有出租车移动簇的集合,POI={poi1,…,poil}为挖掘算法所使用,数据集中的兴趣点的集合,E={(mc,poi)|mc∈MC,poi∈POI},是移动簇和兴趣点之间关系的有穷集合;令eij∈E表示出租车移动簇mci到兴趣点poij的关系;
对于每一个出租车移动簇mci,其空间属性中包含一个中心点或多个中心点的序列,若一个出租车移动簇的中心点在一定的邻域半径γ范围内被很多poi兴趣点覆盖,则认为该出租车移动簇是重要的,且该移动簇和这些被覆盖的poi兴趣点有联系,在二部图上它们之间有一条边;
若某个poi兴趣点在邻域半径γ范围内,覆盖很多出租车移动簇的中心点,则认为该poi兴趣点是重要的,且该poi兴趣点和这些移动簇有联系;在二部图的表示形式中,它们之间也存在一条边;
上述出租车移动簇和兴趣点的关系MC-POI二部图存储于矩阵MMC·POI,且将每一个出租车移动簇的持续时间作为权重赋值给予与该出租车移动簇有关联的兴趣点POI所连成的边,所述持续时间即一个移动簇它在某个兴趣点POI附近停留的时间,该停留的时间越长,其在二部图的边上所占的权重就越大。即为WRWR-Ranking方法的排序方法。
进一步的,所述步骤(2.5)中ε取值为0.0001。
有益效果:本发明建立“移动簇-兴趣点”的图模型,结合移动簇的时空属性和兴趣点三个重要因素,对移动簇进行建模,通过移动簇的空间属性和兴趣点之间的联系生成“移动簇-兴趣点”二部图,并将移动簇所包含的时间属性以权重的方式赋值给二部图的边。由于图的特殊结构,使得该方法可以将移动簇基于重启式随机游走模型对移动簇进行重要性排序问题,每个顶点的概率值代表该顶点的重要性,概率值越大说明该顶点越重要,利用该模型对移动簇进行重要性排序易于实现,不需要用户设置过多的参数便可以自动完成排序过程。
综上所述,现有技术的时空轨迹模式挖掘过程中产生大量移动簇,然而用户感兴趣的只是其中少数重要的移动簇。本发明针对该问题,能够充分利用移动簇所包含的属性对移动簇进行重要性排序,使得用户感兴趣的结果尽可能排在前面,且具有排序结果稳定、排序效果较好和易于实现等特点,适用于时空轨迹移动簇模式挖掘和分析领域。
附图说明
图1为本发明中不考虑时间因素时的二部图示意图;
图2为考虑时间因素时的二部图示意图;
图3为实施例1中香港海洋公园2014年7月7日移动簇排序结果对比图;
其中,图3(a)为排序前移动簇所处地理位置的可视化结果图;图3(b)为使用单属性排序后排名前10的移动簇所处地理位置的可视化结果图;图3(c)显示使用WRWR方法排序后排名前10的移动簇所处地理位置的可视化结果图;
图4为实施例1中两种模式的排序结果得到的各项评价指标得分。
其中,图4(a)为聚合移动簇排序结果的正确率示意图;图4(b)为蜂群移动簇排序结果的正确率示意图;图4(c)为聚合移动簇排序结果平均精度均值示意图;图4(d)为蜂群移动簇排序结果平均精度均值示意图;图4(e)为聚合移动簇排序结果的归一化折损累积增益示意图;图4(f)图为蜂群移动簇排序结果的归一化折损累积增益示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
本发明一种基于出租车时空轨迹的群体运动移动簇模式排序方法,包括以下步骤:
(1)构建出租车移动簇-兴趣点二部图,具体包括以下方法
(1.1)获取出租车移动簇的集合MC;
(1.2)获取挖掘移动簇所使用的数据集所有的兴趣点集合POI;
(1.3)构建出租车移动簇和兴趣点关系的二部图;
(1.4)二部图构建成功,采用邻接矩阵MMC·POI的形式来存储构建好的出租车移动簇和兴趣点关系的二部图;
(2)基于重启式随机游走模型对出租车移动簇与兴趣点之间的关系进行排序,具体方法如下:
(2.1)对于步骤(1)中产生的邻接矩阵MMC·POI,计算得到其相应的转置矩阵
Figure GDA0002576972190000051
(2.2)利用MMC·POI
Figure GDA0002576972190000052
构建方阵
Figure GDA0002576972190000053
(2.3)对M进行行归一化处理,对每一条边eij,行归一化后的值为
Figure GDA0002576972190000061
其中,w(eij)表示边eij上的权重,即移动簇i和兴趣点j之间的关联度,∑kw(ekj)表示所有边ekj的权重之和,即:移动簇与所有兴趣点之间的关联度总和,k为矩阵M的第k行,1≤k≤n+l,1≤i≤n+l,1≤j≤n+l;
(2.4)初始化列向量p和q,p向量中的每个元素置为0,q中的元素置为
Figure GDA0002576972190000062
其中,向量p和q的长度均为n+l,n为所有出租车移动簇的数目,l为兴趣点的数目;
(2.5)利用公式p(t+1)=(1-α)·M*p(t)+α·q进行迭代计算,其中t为迭代次数,此处迭代终止的条件为:||p(t+1)||1-||p(t)||1<ε;
其中,p(t)、p(t+1)和q是列向量,p(t)表示第t步图中的顶点概率分布,列向量q中设置目标移动簇顶点值为1,其余为0,M是矩阵;α为直接回到出发顶点的概率即重启概率;
(2.6)将迭代终止后向量p中兴趣点的重要性得分去掉,剩下的即为每个移动簇的重要性得分,以重要性得分由高到低进行排序,所得结果即为移动簇的重要性排序结果。
所述步骤(1.3)的具体方法为:
所构建出租车移动簇和兴趣点二部图为MC-POI二部图G,G={MC∪POI,E}。
其中,MC={mc1,…,mcn},代表从出租车时空轨迹数据中利用移动簇模式挖掘算法所挖掘出结果中的所有出租车移动簇的集合,POI={poi1,…,poil}为挖掘算法所使用数据集中的兴趣点的集合,E={(mc,poi)|mc∈MC,poi∈POI},是出租车移动簇和兴趣点之间关系的有穷集合;令eij∈E表示出租车移动簇mc到兴趣点poij的关系。
对于每一个出租车移动簇mci,其空间属性中包含一个中心点或多个中心点的序列。若一个出租车移动簇的中心点在一定的邻域半径γ范围内被很多poi兴趣点覆盖,则认为该移动簇是重要的,且该移动簇的中心点和这些被覆盖的poi兴趣点有联系,在出租车移动簇和兴趣点的关系二部图上它们之间有一条边;若某个poi兴趣点在邻域半径γ范围内,覆盖很多移动簇的中心点,则认为该poi兴趣点是重要的,且该poi兴趣点和这些移动簇的中心点有联系;在出租车移动簇和兴趣点的关系二部图的表示形式中,它们之间也存在一条边。
例如,有3个移动簇mc1、mc2和mc3,以及4个兴趣点poi1、poi2、poi3和poi4,则二部图如图1所示。
以上所有MC-POI二部图均存储于矩阵MMC·POI,且二部图所有边上的权重都为1。即为RWR-Ranking方法的排序方法。
所述步骤(1.3)具体方法为:
所构建出租车移动簇和兴趣点的关系二部图为MC-POI二部图G,G={MC∪POI,E};其中MC={mc1,…,mcn},代表出租车移动簇模式挖掘算法所挖掘出结果中的所有移动簇的集合,POI={poi1,…,poil}为挖掘算法所使用数据集中的兴趣点的集合,E={(mc,poi)|mc∈MC,poi∈POI},是移动簇和兴趣点之间关系的有穷集合。令eij∈E表示出租车移动簇mci到兴趣点poij的关系。
对于每一个出租车移动簇mmi,其空间属性中包含一个中心点或多个中心点的序列。若一个出租车移动簇的中心点在一定的邻域半径γ范围内被很多poi兴趣点覆盖,则认为该出租车移动簇是重要的,且该移动簇和这些被覆盖的poi兴趣点有联系,在二部图上它们之间有一条边;若某个poi兴趣点在邻域半径γ范围内,覆盖很多出租车移动簇的中心点,则认为该poi兴趣点是重要的,且该poi兴趣点和这些移动簇有联系;在二部图的表示形式中,它们之间也存在一条边。
例如,有3个移动簇mc1、mc2和mc3,以及4个兴趣点poi1、poi2、poi3和poi4,对于移动簇mc1来说,其中心点序列中点的邻域半径范围内,覆盖了poi1、poi2、poi3三个POI,获取它在兴趣点poi1、poi2、poi3附近的停留时间t11,t12,t13,并分别赋值给mc1-poi1,mc1-poi2,mc1-poi3三条边,则二部图如图2所示。邻接矩阵为:
Figure GDA0002576972190000081
以上出租车移动簇和兴趣点的关系所有MC-POI二部图存储于矩阵MMC·POI,且将每一个出租车移动簇的持续时间作为权重赋值给予与该移动簇有关联的兴趣点POI所连成的边,所述持续时间即一个移动簇它在某个兴趣点POI附近停留的时间,该停留的时间越长,其在二部图的边上所占的权重就越大。即为WRWR-Ranking方法的排序方法。
实施例1:
1、实验设置:
本实施例中使用两个真实的GPS轨迹数据集进行实验。数据集一(HKT)为香港海洋公园2014年7月6日至7月10日五天中每天上午10点至晚上8点的游客移动轨迹数据,数据集二(BJT)为北京市13617辆出租车在2012年11月2日至11月8日的GPS数据。
为了说明本发明的适用性,选取群体运动移动簇模式方向不同的聚合模式和方向相同的蜂群模式作为排序的输入数据。以上两种模式分别为数据库顶级会议关于聚集运动模式和伴随运动模式方面较近的研究工作。由于蜂群模式完全放松对时间的要求,因此挖掘结果中噪声较多,对排序方法的要求也更高,通过蜂群模式可以更好的验证本发明的有效性。聚合模式和蜂群模式的实验参数如表1所示:
其中,eps表示聚类DBSCAN邻域半径阈值,pts表示邻域密度阈值,kc表示群体生命周期,mc表示移动对象群体规模阈值,kp表示参与者生命周期阈值,mp表示聚合参与者数量阈值。
使用上述参数设置,得到两个数据集分别挖掘出的聚合移动簇和蜂群移动簇的集合,并使用本发明分别对其进行排序。移动簇集合中移动簇的个数统计如表2所示。
表1聚合模式和蜂群模式实验参数
Figure GDA0002576972190000082
表2排序算法输入数据
Figure GDA0002576972190000091
为了说明本发明的有效性,首先对两个移动簇的集合进行单属性排序,即只按照移动簇的持续时间从大到小对其进行排序。然后将单属性排序结果与本发明中WRWR-Ranking排序方法所得结果进行比较。
2、评价指标
使用信息检索中常用的对于检索结果的评价指标P@N、MAP、NDCG@N来衡量排序结果的好坏。以下分别介绍这三个评价指标:
(1)P@N:现有技术中对于网络搜索引擎而言,由于大部分用户比较多地只查看前一至两页的检索结果,因此提高前十条或者前二十条检索结果中相关文档的比例显得尤为重要。因此,P@5、P@10和P@20的分值能比较真实地反映网络搜索引擎在实际生活检索场景中的检索性能。
(2)MAP(Mean Average Precision):对所有查询的平均正确率求平均。每个主题的平均准确率是每次查询平均准确率的平均值,主集合的平均准确率是每个主题的平均准确率的平均值。MAP指标可以反映检索***在全部相关文档上的性能。检索出的相关文档越靠前,MAP值就可能越高。
(3)NDCG(Normalized Discounted Cumulative Gain):衡量搜索引擎质量指标,利用NDCG进行评价时,每个文档的相关性划分不再是相关和不相关两种,而是具有相关度级别,比如0,1,2,3。级别越高,相关度越高。在检索结果中,相关度级别越高的文档越多,NDCG值就越高。同时,相关度级别越高的文档越靠前NDCG值越高。
3、实验结果与分析
以下对两个数据集分别进行实验分析。
3.1 BJT数据集实验分析
对于BJT数据集,选取工作日早高峰(7:00-9:30)、周末白天(8:00-18:00)、周末夜晚(18:00-22:00)三个容易产生聚合事件的时间段进行实验。对获得的聚合移动簇的集合分别使用单属性排序和WRWR-Ranking方法的排序方法进行排序。由于北京市特殊的城市布局,直接使用北京市的地理特性来辅助说明排序结果的有效性。
对于工作日早高峰的排序结果,选取单属性排序和WRWR-Ranking方法所得结果中排名前25聚合移动簇,发现后者所得到的前25个移动簇中,有2个移动簇的中心点位于三环以内,且都位于中央商务区(Central Business District,CBD)。位于四环和五环以内的分别有3个和7个移动簇。而相比之下,用单属性排序方法,并不能找到位于三环和四环的移动簇。这也就间接说明WRWR-Ranking方法的有效性。
除此之外,本实施例还比较了周末白天和周末夜晚的实验结果,所得结论与上述结论一致。具体数据如表3所示。
表3北京市出租车数据聚合移动簇发现结果
Figure GDA0002576972190000101
3.2、HKT数据集实验分析
以HKT数据集2014年7月7日产生的聚合移动簇为例,分析单属性和WRWR-Ranking方法的排序结果。
如图1所示,图中图钉表示一个移动簇的中心。观察发现单属性排序排在前面的移动簇发生的地点都集中在海洋剧场周围。海洋剧场作为一个每天定时开放的表演场地,有固定的开放时间和表演时间,且表演持续时间较长,因此这样的地方较容易发生聚合事件。对于以上用户已知的容易发生聚合事件的地点,用户对该地点产生的移动簇的兴趣度较低。而WRWR-Ranking方法的排序结果,不仅能够发现人们经验常识里容易发生聚合事件的地点,该方法还能发现诸如水母万花筒、寻鲨探秘、登山缆车这样的游乐项目附近发生的重要事件。这些项目都是网友推荐指数较高的项目,这说明了本发明与现实生活中实际场景相吻合。而现有技术中的单属性排序并没有找出发生在这些项目附近的聚合事件。
对于HKT数据集而言,可以进一步借助基准排序结果来定量分析三种排序方法的好坏。在实施例中,使用可靠的外部资源作为基准结果对上述排序方法进行有效性评价,统计大众点评网站游客对于香港海洋公园内每个游乐项目的评论数以及评分,然后基于评论数量对园内游乐项目进行排序,评论数越多则该游乐项目排名越靠前。这里的评论数量认为是该游乐项目的热度及受欢迎程度。
以基准排序结果为参照,对三种排序结果进行有效性评价。选用的评价指标为P@15、MAP以及NDCG@25。
图4为两种模式的排序结果得到的各项评价指标得分。Time字段是单属性排序的结果,RWR-Ranking是使用重启式随机游走模型的排序结果,WRWR-Ranking是带时间权重的重启式随机游走模型的排序结果。以聚合模式为例,比较RWR-Ranking方法和单属性排序方法,发现RWR-Ranking方法优于单属性排序方法,P@15、MAP和NDCG@25分别提高17.2%、110.4%和14.4%。对于本文提出的WRWR-Ranking和RWR-Ranking方法,发现相比RWR-Ranking方法,WRWR-Ranking方法P@15、MAP和NDCG@25分别提高了35%、11.4%和41.8%。由此,可得出对于群体运动移动簇模式的排序问题而言,WRWR-Ranking方法优于RWR-Ranking方法,RWR-Ranking方法优于单属性排序方法。此外,发现蜂群模式在7月9日和10日使用RWR-Ranking和WRWR-Ranking方法NDCG@25得分相同。究其原因是在计算NDCG@25时,为每个POI指定一个相关度级别,有很多POI相关度级别是一致的。因此,虽然排序结果不同,但如果对应位置上POI的相关度级别一致,NDCG@25得分就相同。
进一步比较图4中(a)和(b)、(c)和(d)以及(e)和(f),可以看出聚合模式排序结果优于蜂群模式。其原因在于蜂群模式完全放松对时间的要求,导致其挖掘结果中包含很多噪声,为排序增加难度。但分析蜂群模式的三项评价指标得分,仍然可以得出WRWR-Ranking方法优于单属性排序且不逊于RWR-Ranking方法的结论。
综上所述,对于群体运动移动簇模式排序问题,采用现有技术中的单属性排序时,它所得到的结果较为片面、偶然性较强且排序的结果不稳定。本发明中的RWR-Ranking方法利用移动簇中心点和POI之间的联系,得到每个移动簇的重要性排名;本发明中的WRWR-Ranking方法将时空因素综合考虑,得到较为全面、稳定的排名,对于用户有着较高的参考价值。

Claims (2)

1.一种基于出租车时空轨迹的群体运动移动簇模式排序方法,其特征在于:包括以下步骤:
(1)构建出租车移动簇-兴趣点二部图,具体包括以下方法:
(1.1)获取出租车移动簇的集合MC,MC={mc1,…,mcn};
(1.2)获取挖掘出租车移动簇所使用的数据集所有的兴趣点集合POI,POI={poi1,…,poil};
(1.3)构建出租车移动簇和兴趣点关系的二部图;
(1.4)二部图构建成功,采用邻接矩阵MMC·POI的形式来存储出租车移动簇和兴趣点的关系;
(2)基于重启式随机游走模型对出租车移动簇进行重要性排序,具体方法如下:
(2.1)对于步骤(1)中得到的出租车移动簇与兴趣点之间关系的邻接矩阵MMC·POI,计算得到其相应的转置矩阵
Figure RE-FDA0002576972180000011
(2.2)利用MMC·POI
Figure RE-FDA0002576972180000012
构建转移概率矩阵
Figure RE-FDA0002576972180000013
(2.3)对转移概率矩阵M进行行归一化处理,对每一条边eij,行归一化后的值为
Figure RE-FDA0002576972180000014
其中,w(eij)表示边eij上的权重,即出租车移动簇i和兴趣点j之间的关联度,∑kw(ekj)表示所有边ekj的权重之和,即出租车移动簇与所有兴趣点之间的关联度总和,k为转移概率矩阵M的第k行,1≤k≤n+l,1≤i≤n+l,1≤j≤n+l;
(2.4)初始化列向量p和q,p向量中的每个元素置为0,q中的元素置为
Figure RE-FDA0002576972180000015
其中,向量p和q的长度均为n+l,n为所有出租车移动簇的数目,l为兴趣点的数目;
(2.5)利用公式p(t+1)=(1-α)·M·p(t)+α·q进行迭代计算,其中t为迭代次数,此处迭代终止的条件为:||p(t+1)||1-||p(t)||1<ε;
其中,p(t)、p(t+1)和q是列向量,p(t)表示第t步图中的顶点概率分布,列向量q中设置目标移动簇顶点值为1,其余为0,M是转移概率矩阵;α为直接回到出发顶点的概率即重启概率;
(2.6)将迭代终止后向量p中兴趣点的重要性得分去掉,剩下的即为每个出租车移动簇的重要性得分,以重要性得分由高到低进行排序,所得结果即为出租车移动簇的重要性排序结果;
所述步骤(1.3)的具体方法为:
所构建出租车移动簇和兴趣点二部图为MC-POI二部图G={MC∪POI,E},
其中,MC={mc1,…,mcn},代表从出租车时空轨迹数据中利用出租车 移动簇模式挖掘算法所挖掘出结果中的所有出租车移动簇的集合,POI={poi1,…,poil}为出租车移动簇模式挖掘算法所使用数据集中的兴趣点的集合,E={(mc,poi)|mc∈MC,poi∈POI},是出租车移动簇和兴趣点之间关系的有穷集合;令eij∈E表示出租车移动簇mci到兴趣点poij的关系;
对于每一个出租车移动簇mci,其空间属性中包含一个中心点或多个中心点的序列,若一个出租车移动簇的中心点在一定的邻域半径γ范围内被很多poi兴趣点覆盖,则认为该出租车移动簇是重要的,且该出租车移动簇和覆盖该出租车移动簇的poi兴趣点有联系,在出租车移动簇和兴趣点的关系二部图上它们之间有一条边;
若某个poi兴趣点在邻域半径γ范围内,覆盖很多出租车移动簇的中心点,则认为该poi兴趣点是重要的,且该poi兴趣点和这些出租车移动簇有联系;在出租车移动簇和兴趣点的关系二部图的表示形式中,它们之间也存在一条边;
上述出租车移动簇和兴趣点的关系MC-POI二部图存储于矩阵MMC·POI中,且二部图所有边上的权重都为1,表示初始状态下所有的出租车移动簇和兴趣点的关联度是相等的;
所述步骤(1.3)具体方法为:
所构建出租车移动簇和兴趣点的关系二部图为MC-POI二部图G,G={MC∪POI,E};
其中MC={mc1,…,mcn}代表从出租车时空轨迹数据中利用出租车移动簇模式挖掘算法所挖掘出结果中的所有出租车移动簇的集合,POI={pof1,…,poil}为出租车移动簇模式挖掘算法所使用数据集中的兴趣点的集合,E={(mc,poi)|mc∈MC,poi∈POI},是出租车移动簇和兴趣点之间关系的有穷集合;令eij∈E表示出租车移动簇mci到兴趣点poij的关系;
对于每一个出租车移动簇mci,其空间属性中包含一个中心点或多个中心点的序列,若一个出租车移动簇的中心点在一定的邻域半径γ范围内被很多poi兴趣点覆盖,则认为该出租车移动簇是重要的,且该出租车移动簇和覆盖该移动簇的poi兴趣点有联系,在二部图上它们之间有一条边;
若某个poi兴趣点在邻域半径γ范围内,覆盖很多出租车移动簇的中心点,则认为该poi兴趣点是重要的,且该poi兴趣点和这些出租车移动簇有联系;在二部图的表示形式中,它们之间也存在一条边;
上述出租车移动簇和兴趣点的关系MC-POI二部图存储于矩阵MMC·POI,且将每一个出租车移动簇的持续时间作为权重赋值给予与该出租车移动簇有关联的兴趣点POI所连成的边,所述持续时间即一个出租车移动簇它在某个兴趣点POI附近停留的时间,该停留的时间越长,其在二部图的边上所占的权重就越大。
2.根据权利要求1所述的基于出租车时空轨迹的群体运动移动簇模式排序方法,其特征在于:所述步骤(2.5)中ε取值为0.0001。
CN201711306853.8A 2017-12-11 2017-12-11 基于出租车时空轨迹的群体运动移动簇模式排序方法 Active CN108108407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711306853.8A CN108108407B (zh) 2017-12-11 2017-12-11 基于出租车时空轨迹的群体运动移动簇模式排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711306853.8A CN108108407B (zh) 2017-12-11 2017-12-11 基于出租车时空轨迹的群体运动移动簇模式排序方法

Publications (2)

Publication Number Publication Date
CN108108407A CN108108407A (zh) 2018-06-01
CN108108407B true CN108108407B (zh) 2020-10-27

Family

ID=62208417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711306853.8A Active CN108108407B (zh) 2017-12-11 2017-12-11 基于出租车时空轨迹的群体运动移动簇模式排序方法

Country Status (1)

Country Link
CN (1) CN108108407B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10460359B1 (en) 2019-03-28 2019-10-29 Coupang, Corp. Computer-implemented method for arranging hyperlinks on a graphical user-interface
CN110019989B (zh) * 2019-04-08 2023-11-03 腾讯科技(深圳)有限公司 一种数据处理方法及装置
CN110609824B (zh) * 2019-09-09 2022-09-09 南京师范大学 城市路网环境下基于动态空间网络模型的热点区域检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0028491D0 (en) * 2000-11-22 2001-01-10 Isis Innovation Detection of features in images
CN105335597B (zh) * 2014-07-30 2019-04-16 国际商业机器公司 用于获取路线的轨迹模式的方法和***
CN105808754A (zh) * 2016-03-15 2016-07-27 苏州大学 一种从移动轨迹数据中快速发现聚集模式的方法
CN107037452A (zh) * 2017-04-27 2017-08-11 成都新橙北斗智联有限公司 一种基于北斗或gps设备定位轨迹的去噪声方法
CN107451233B (zh) * 2017-07-25 2020-02-18 南京师范大学 时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法

Also Published As

Publication number Publication date
CN108108407A (zh) 2018-06-01

Similar Documents

Publication Publication Date Title
Li et al. A time-aware personalized point-of-interest recommendation via high-order tensor factorization
Zheng et al. Diagnosing New York city's noises with ubiquitous data
Hu et al. Extracting and understanding urban areas of interest using geotagged photos
CN107679661B (zh) 一种基于知识图谱的个性化旅游路线规划方法
US11490220B2 (en) System and method for accurately and efficiently generating ambient point-of-interest recommendations
CN107133277B (zh) 一种基于动态主题模型和矩阵分解的旅游景点推荐方法
CN107291888B (zh) 基于机器学习统计模型的入住酒店附近生活推荐***方法
CN108804551B (zh) 一种兼顾多样性与个性化的空间兴趣点推荐方法
CN104156897B (zh) 基于情景感知的室内导览***
CN108108407B (zh) 基于出租车时空轨迹的群体运动移动簇模式排序方法
Xu et al. A dynamic topic model and matrix factorization-based travel recommendation method exploiting ubiquitous data
CN110321291A (zh) 测试案例智能提取***及方法
US20150193543A1 (en) Interest profile of a user of a mobile application
CN105718576B (zh) 与地理特征相关的个性化位置推荐***
CN107330734B (zh) 基于Co-location模式和本体的商业地址选择方法
CN110069619A (zh) 房源展示方法、装置、设备及计算机可读存储介质
Li Multi-day and multi-stay travel planning using geo-tagged photos
Kordopatis-Zilos et al. Geotagging social media content with a refined language modelling approach
Bagci et al. Random walk based context-aware activity recommendation for location based social networks
Zhang et al. A context-awareness personalized tourist attraction recommendation algorithm
CN103399900A (zh) 基于位置服务的图片推荐方法
Choi et al. Multimodal location estimation of consumer media: Dealing with sparse training data
Rong et al. GODDAG: generating origin-destination flow for new cities via domain adversarial training
Hu et al. An effective selecting approach for social media big data analysis—Taking commercial hotspot exploration with Weibo check-in data as an example
Doan et al. Attractiveness versus competition: towards an unified model for user visitation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant