CN110888951B - 一种基于语义轨迹的区域内兴趣点需求挖掘和选址方法及排名和分析*** - Google Patents

一种基于语义轨迹的区域内兴趣点需求挖掘和选址方法及排名和分析*** Download PDF

Info

Publication number
CN110888951B
CN110888951B CN201911090937.1A CN201911090937A CN110888951B CN 110888951 B CN110888951 B CN 110888951B CN 201911090937 A CN201911090937 A CN 201911090937A CN 110888951 B CN110888951 B CN 110888951B
Authority
CN
China
Prior art keywords
region
interest
point
semantic
track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911090937.1A
Other languages
English (en)
Other versions
CN110888951A (zh
Inventor
金莹
杨世宇
马国杰
林学民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201911090937.1A priority Critical patent/CN110888951B/zh
Publication of CN110888951A publication Critical patent/CN110888951A/zh
Application granted granted Critical
Publication of CN110888951B publication Critical patent/CN110888951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语义轨迹的区域内兴趣点需求挖掘和选址方法,该方法主要包括以下步骤:步骤一:划分空间区域;对语义轨迹以及兴趣点进行预处理以添加区域信息,并对区域内的兴趣点数量、密度进行测算;步骤二:利用附带区域信息的语义轨迹挖掘人们的连续跨区域移动模式;步骤三:利用挖掘到的连续跨区域移动模式量化区域兴趣点需求,得出区域内人们对各种类型兴趣点的需求强度,并最终根据区域以及兴趣点类型分别给出两种层次的需求排名以推荐商户选址。本发明还提出了一种基于语义轨迹的区域内兴趣点的需求挖掘、排名和分析***。

Description

一种基于语义轨迹的区域内兴趣点需求挖掘和选址方法及排 名和分析***
技术领域
本发明涉及数据挖掘中轨迹模式挖掘技术领域,更为具体地讲,涉及一种基于语义轨迹的区域内兴趣点需求挖掘和选址方法及排名和分析***。
背景技术
随着定位技术的发展和随身携带设备中定位装置的普及,以及位置分享平台的兴起,人们产生了越来越多的语义轨迹。语义轨迹,即指不仅包含传统交通轨迹数据中带有的经纬度和时间戳信息,还附带文本信息的一类轨迹数据。位置分享平台中最常见的一类轨迹数据附带的文本信息是签到点的兴趣点信息。这类轨迹包含了丰富的人们生活方式以及生活需求的相关信息。目前研究者们主要关注用语义轨迹分析事件预测或者为人们推荐下一个兴趣点。而目前人们很少考虑用语义数据去解决选址问题。
而随着城市化进程,建筑选址也变得越来越重要,甚至能影响企业的存亡。所以,选址问题的研究有着重大的经济、社会和军事意义。传统方法有离线手动调查、基于人口普查数据的分析模型等,这些模型无法适应动态市场或非常耗时。近年来,基于位置的服务已被广泛用于解决选址问题。
目前存在的几类基于轨迹数据的选择工作有以下不足之处:首先一些工作利用数据中部分属性针对特定兴趣点类型进行选址分析和推荐;二来一些工作基于传统交通轨迹数据,没将本身就语义丰富的语义考虑进去,会影响对需求强度的分析;三、一些模式发现只注重挖掘频繁移动模式而忽略了人们对于需求的移动往往出发点会分散在不同类别而终点会落于不同区域的这一现实。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于语义轨迹的区域内兴趣点需求挖掘和选址方法。对语义轨迹及现有兴趣点数据添加区域信息生成区域移动模式,并考虑人们现实移动情况,即从同区域内不同类别兴趣点出于对特定兴趣点类型的需要移动到不同区域相同类型兴趣点的事实,来挖掘连续跨区域移动模式。进而量化需求强度,并按照区域以及兴趣点类型对区域需求进行排名,并根据排名进行选址推荐。具体步骤包括如下:
步骤(1)划分空间区域,对普通的语义轨迹以及兴趣点进行预处理以添加区域信息,并对区域内的兴趣点数量、密度进行测算;
步骤(2)利用附带区域信息的语义轨迹挖掘人们的连续跨区域移动模式;
步骤(3)利用挖掘到的连续跨区域移动模式量化区域兴趣点需求,得出区域内人们对各种类型兴趣点的需求强度,并最终根据区域以及兴趣点类型分别给出两种层次的需求排名以供推荐商户选址。
本发明中,利用语义轨迹数据以及现有兴趣点数据对区域内潜在兴趣点需求进行挖掘和选址推荐;所述语义轨迹数据包括:经纬度、时间戳以及签到兴趣点所属类型;所述现有兴趣点数据包括:id,经纬度以及兴趣点所属类型。
本发明中,所述步骤(1)的具体步骤包括:
步骤(11)轨迹切分,根据设置的两条签到信息间可忍受的最大转移时间,如果两次签到相距时间超过设置好的可忍受最大转移时间,从两次签到当中将将轨迹切成两段,两次签到分别是前段轨迹的终点以及后段轨迹的起点。如果整条语义轨迹数据的签到时间差都符合可忍受的最大转移时间则不切分轨迹,若不满足语义轨迹数据就被切分成两到多条符合转移时间要求的子轨迹;
步骤(12)区域划分,将全局空间均匀划分成预先设置好数量的相同大小且不互相重叠的矩形网格状子区域;并将普通的语义轨迹数据添加区域信息,得到区域移动模式;
步骤(13)区域表达,统计落入各区域的兴趣点总的数量以及各个类别下兴趣点数量,分别从区域内各类别数量占全区内兴趣点数量的占比以及区域内该类别兴趣点数量在全局下该类别兴趣点数量的占比两个角度计算兴趣点密度,提出公式计算该区域内该类别在全局全类别下的密度。
本发明所述步骤(11)中,将输入的语义轨迹按照最大可忍受转移时间切分;转移时间是指相邻两次签到相隔多少时间;所述最大可忍受转移时间是指相邻两次签到最多可以相隔多少时间;如果两次签到相隔时间超过最大可忍受转移时间,则将新建一条语义轨迹,给予新的编号,并将从后一次签到开始后满足最大可忍受转移时间的所有签到都加入新的语义轨迹中。
本发明所述步骤(12)中,根据预先设定好的网格参数g,将空间尽量划分成一样大小的g×g个不重叠矩形;通过全局矩形区域左上角顶点和右下角顶点经纬度的差的计算出矩形的长度和宽度,再将长度和宽度除以网格参数g计算出每个子区域矩形的长度和宽度;将子区域从左到右,从上到下都赋予一个不重复的编号。
本发明所述步骤(13)中,对于语义轨迹集合中所有轨迹,将轨迹中的每一个签到都通过搜寻兴趣点数据集对应记录来转换成包含时间戳、签到区域以及签到兴趣点类型的一条记录;通过计算兴趣点的经纬度与子区域长宽的倍数计算出落到区域的编号;转换后的区域移动模式编号和语义轨迹编号保持一致。
本发明所述步骤(13)中,将所有的现有兴趣点信息按照经纬度获取该区域编号;接着取出该兴趣点所属的具体类型,更新兴趣点所属区域的区域空间信息,首先将该区域该兴趣点类型对应的数量加一,接着将整个区域的兴趣点总数加一;最终统计出所有区域内的兴趣点数量,并按兴趣点类型归类分别计数。
本发明中,将两个相邻签到落于不同区域的情况称为跨区域,利用步骤(12)转化后的区域移动模式挖掘当中连续跨区域移动模式:首先过滤掉长度小于2的移动模式;跨区域移动模式M的编号不与区域移动模式O的编号混排,采用新的编号;遍历区域移动模式中的所有停留签到点,判断和上一个签到点是否在同一个区域,找到第一个出现的跨区域行为;接着依次往下挖掘,尽可能延长跨区域移动模式,直到两个相邻签到落在同一区域为止;将这一段跨区域移动模式加入跨区域移动模式集合M;然后从这段签到往后重新找下一个跨区域移动行为,循环往复,直到遍历完所有区域移动模式。
本发明中,进一步包括:通过轨迹反向方法挖掘非住宅类型需求。
本发明中,根据两次签到间距离和签到兴趣点类型的频度量化区域内对类型兴趣点的需求强度。
本发明中,按照区域需求强度以及区域内类别密度筛选出最终区域需求。
基于以上方法,本发明还提出了一种基于语义轨迹的区域内兴趣点的需求挖掘、排名和分析***,所述***包括:
数据预处理模块,其包括切割区域、转换语义轨迹以及统计区域内兴趣点数量和密度;
挖掘模块,其包括挖掘连续跨区域移动模式;
需求发现模块,其包括利用挖掘到的跨区域移动模式对人们出现需求强度进行量化,并考虑区域内密度筛选区域需求;
选址推荐模块,其包括从区域以及兴趣点类型对区域需求进行排名,并根据排名进行选址推荐。
本发明与现有技术相比的有益效果包括:基于语义轨迹能准确识别出人们的出行目的地,能够更精准地分析人们对各类别兴趣点的需求;针对各种类型兴趣点提出一个普适的选址方法;考虑到人们现实移动情况,即从同区域内不同类别兴趣点出于对特定兴趣点类型的需要移动到不同区域相同类型兴趣点的事实。
附图说明
图1为本发明基于语义轨迹的区域内兴趣点需求挖掘和选址方法的流程图。
图2为本发明数据预处理流程图。
图3为本发明模式挖掘流程图。
图4为本发明需求发现流程图。
图5为本发明选址推荐流程图。
图6为本发明说明实施例。
具体实施方式
结合以下具体实施例和附图,对发明作进一步的详细说明,以便本领域的技术人员更好地理解本发明。附图中,圆柱体表示外部输入数据实体,矩形表示中间以及最终产生的结果数据实体而圆角矩形表示运算模块。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
本发明提出的基于语义轨迹的区域内兴趣点需求挖掘和选址方法,包括以下步骤:
(1)划分空间区域;对普通的语义轨迹以及兴趣点进行预处理以添加区域信息,并对区域内的兴趣点数量、密度进行测算;
(2)利用附带区域信息的语义轨迹挖掘人们的连续跨区域移动模式;
(3)利用挖掘到的连续跨区域移动模式量化区域兴趣点需求,得出区域内人们对各种类型兴趣点的需求强度,并最终根据区域以及兴趣点类型分别给出两种层次的需求排名以推荐商户选址。
使用添加了区域信息的语义轨迹,即区域移动模式按照人们的出行现实移动情况挖掘连续跨区域移动模式;根据两次签到间距离和签到兴趣点类型的频度量化区域内对某类型兴趣点的需求强度;使用轨迹反向来进一步挖掘非住宅类型兴趣点需求;根据现有区域内兴趣点数量计算某区域内某类别兴趣点数量来计算该区域内该类别在全局全类别下的密度以辅助区域需求进一步筛选;根据区域以及兴趣点类型分别给出两种层次的需求排名以供推荐商户选址。
实施例
语义轨迹包含三类信息,分别为时间、空间及文本信息。本方法使用的为位置共享平台上的签到信息,文本信息主要为签到地点以及签到地点所属兴趣点类型如餐馆、公园等信息。而兴趣点在地理信息***中泛指一切可以抽象为点的地理对象,尤其是一些与人们生活密切相关的地理实体,包含经纬度、名称以及类别信息。
1.概要流程
如图1所示,方法流程分为四部分描述:数据预处理、模式挖掘、需求发现与选址推荐。数据预处理步骤将整个给定全局空间划分成均匀不重叠网格;根据设置的两条签到信息间可忍受的最大转移时间,将语义数据切分成多条轨迹内相邻签到时间差不超过转移时间要求的子轨迹;区域表达包含:按照区域将子轨迹转化成区域移动模式、统计各区域内的兴趣点数量及计算密度。模式挖掘步骤旨在挖掘连续跨区域移动模式,并可以选择轨迹反向来挖掘更多非住宅的兴趣点需求。需求发现步骤利用上一步挖掘出的跨区域移动模式,量化需求并根据密度筛选低竞争需求。选址推荐步骤则从区域以及兴趣点类型分别给出两种层次的需求排名来推荐商户选址。
1.1数据预处理
如图2所示,数据预处理的流程主要包括:轨迹切分、区域划分以及区域表达。轨迹划分是将不符合预设的可忍受最大转移时间的两条邻近签到信息切断,形成新的两条语义轨迹,最终生成子轨迹数据集。为提取区域移动模式,首先需要对全局空间进行划分并提取不重叠子空间结构集,里面包含空间的位置坐标以及id。将轨迹切分后的子轨迹数据集添加上区域信息,即可获得转化后的区域移动模式。现有兴趣点集合是为了统计落在各区域内兴趣点数量,然后进一步计算其在两个层面上的密度,分别是:子区域内兴趣点密度以及区域内该类别兴趣点数量在全局下密度,抽取出区域兴趣点信息。
1.2模式挖掘
模式挖掘模块重点主要是挖掘连续跨区域移动模式。连续跨区域移动模式是指连续相邻两个签到处于不同的区域,对签到地点兴趣点类型并无特殊要求。如图3所示,将数据预处理完的区域移动模式数据集从中先找出长度为2的跨区域的移动模式,接着再去搜索连续跨区域行为来延长跨区域移动模式。本模块中包含2种对跨区域移动模式的处理,使用轨迹反向和不使用轨迹反向。如果不使用轨迹反向,则将跨区域移动模式直接加入。若使用轨迹反向,则针对终点是住宅类兴趣点的跨区域移动模式将其起点终点倒换,来挖掘更多非住宅类兴趣点。
1.3需求发现
需求发现是在模式挖掘中挖掘到的连续跨区域移动模式中寻找区域兴趣点需求。它具体分为两种方法,分割模式以及连接模式。分割模式基于最简单的公共经济学理论,人们会自发去往自己存在自己需要兴趣点类型的地方,所以只对相邻跨区域行为分析。而连接模式则考虑现实生活中人们可能会在别的地方稍作停留而不是直接去往目的地的事实,对非邻近跨区域行为做处理。如图4所示,他们都需要通过判断之前数据与处理步骤中获得的密度是否超出限制来进行初步的需求筛选,以便方法选出低竞争的区域推荐选址。而不同方法的量化公式也不一样,需要考虑两次签到之间距离对跨区域行为以及区域兴趣点需求的影响。量化聚合之后获得区域兴趣点需求候选集合。
1.4选址推荐
需求发现得到的区域兴趣点候选集合需经过需求强度筛选,判断是否超过设置好的最低强度限制参数来获得最终的区域兴趣点集合。最终基于区域兴趣点集合来进行选址推荐。选址推荐分为两种层次:区域内不同兴趣点类型需求排名与同兴趣点类型在不同区域需求强度排名。根据不同层次的排名结果予以针对兴趣点的选址推荐和针对区域的兴趣点类型开业推荐。
2.方法细节
配合具体的实施例介绍本方法的详细模块化设计。经由全局空间信息,位置共享平台爬取获得的签到信息以及同时爬取到的现有兴趣点信息,通过数据预处理、模式挖掘、需求发现以及选址推荐四个模块,从而得到选址推荐。
2.1数据实体
本方法中设计的数据包括空间信息、现有兴趣点数据、语义轨迹、区域信息、区域移动模式以及区域兴趣点。表1到表6详细展示了这六类数据的数据结构。
全局空间信息是指用户输入的选址空间范围,本方法在这个矩形的全局空间中寻找合适的区域以及兴趣点类型进行推荐。
表1全局空间信息
Figure BDA0002266832140000061
现有兴趣点信息是目前全局空间中已经开业的兴趣点信息,包含兴趣点编号、经纬度以及兴趣点所属类型。
表2现有兴趣点数据
Figure BDA0002266832140000062
语义轨迹是从共享位置平台爬取得到的,包含语义轨迹的唯一编号,以及何时何地签到的记录。其中签到的兴趣点类型可以通过搜寻签到地点的兴趣点编号在现有兴趣点数据中对应的记录,从而签到获得兴趣点类型。
表3语义轨迹
Figure BDA0002266832140000071
区域信息是全局空间信息经过空间划分以及区域表达运算后获得的,有区域编号作为唯一标识,而四个点经纬度坐标确定一个不重叠的区域空间范围。区域兴趣点信息是一个包含了区域内各兴趣点数量的一个二维实体。
表4区域信息
Figure BDA0002266832140000072
语义轨迹经过时间切分及区域表达运算后转化为区域移动模式,移动模式编号和语义轨迹编号一致。还包含时间戳、签到点所处的区域编号以及从现有兴趣点数据获得的签到兴趣点类型。
表5区域移动模式
Figure BDA0002266832140000073
区域兴趣点是经过各模块运算后获得的最终结果,包含了哪个区域需要什么样的兴趣点类型以及需求强度如何的这样三类信息。
表6区域兴趣点
Figure BDA0002266832140000081
2.2运算模块
2.2.1时间切分模块
时间切分模块是将输入的语义轨迹按照最大可忍受转移时间切分。转移时间是指相邻两次签到相隔多少时间。而最大可忍受转移时间是指相邻两次签到最多可以相隔多少时间,单位以分钟计算。如果两次签到相隔时间超过最大可忍受转移时间,则将新建一条语义轨迹,给予新的编号,并将从后一次签到开始后满足最大可忍受转移时间的所有签到都加入新的语义轨迹中。相当于将语义轨迹一分为二。否则的话签到还处于原先的语义轨迹中。算法1展示了详细的算法过程:
算法1时间切分算法
Figure BDA0002266832140000082
2.2.2空间划分模块
根据预先设定好的网格参数g,将空间尽量划分成一样大小的g×g个不重叠矩形。本方法通过全局矩形区域左上角顶点和右下角顶点经纬度的差的计算出矩形的长度和宽度,再将长度和宽度除以g来快速计算出每个子区域矩形的长度和宽度。将子区域从左到右,从上到下都赋予一个不重复的编号。
实施例:当前全局空间信息为(0.00,0.00,1.00,1.00),参数g为3,编号1到9的区域分别对应空间(0.00,0.00,0.33,0.33),(0.33,0.00,0.66,0.33),(0.66,0.00,1.00,0.33),(0.00,0.33,0.33,0.66),(0.33,0.33,0.66,0.66),(0.66,0.33,1.00,0.66),(0.00,0.66,0.33,1.00),(0.33,0.66,0.66,1.00),(0.66,0.66,1.00,0.00)。
2.2.3轨迹区域表达模块
轨迹区域表达模块的目的是将语义轨迹转化成区域移动模式。算法2详细介绍了算法流程。对于语义轨迹集合中所有轨迹,算法将轨迹中的每一个签到都通过搜寻兴趣点数据集对应记录来转换成包含时间戳、签到区域以及签到兴趣点类型的一条记录。通过计算兴趣点的经纬度是子区域长宽的多少倍,我们可以快速计算出落到区域的编号。转换后的区域移动模式编号和语义轨迹编号保持一致。
实施例:语义轨迹中有一个签到(1,Mon Nov 0513:19:322012,188),1为轨迹编号,188为兴趣点编号。对应的兴趣点数据为(188,0.23,0.62,office)。g依旧设为3。所以签到的兴趣点类型为办公室,而区域编号可以通过0.23/(1/3)×3+0.62/(1/3)计算出落在2号区域(这里的/指除法结果向下取整)。
算法4-4轨迹区域表达算法
Figure BDA0002266832140000091
Figure BDA0002266832140000101
2.2.4兴趣点区域表达模块
兴趣点区域表达模块是为了进一步丰富空间划分得到的区域空间信息,之前的空间信息中区域兴趣点信息为空。如算法3所示。首先模块中将所有的现有兴趣点信息都按照经纬度快速计算落入哪个区域,获取该区域编号。接着取出该兴趣点所属的具体类型,更新兴趣点所属区域的区域空间信息,首先将该区域该兴趣点类型对应的数量加一,接着将整个区域的兴趣点总数也加一。最终统计出所有区域内的兴趣点数量,并按兴趣点类型归类分别计数以方便后期计算密度。
实施例:如图6所示,其中b,g,o分别代表酒吧,健身房以及办公室三种兴趣点类型。r加数字表示区域编号。以6号区域为例,区域兴趣点信息为{酒吧:2;健身房:2;总数:4}。
算法3兴趣点区域表达算法
Figure BDA0002266832140000102
2.2.5模式挖掘模块
模式挖掘模块目的是从区域移动模式中挖掘其中的连续跨区域移动模式。这里展示的是没有采用轨迹反向版本的算法。如算法4所示,输入为区域移动模式集合O,输出为跨区域移动模式集合M。首先过滤掉所有长度小于2的移动模式,因为这类移动模式肯定不会出现跨区域行为。跨区域移动模式M的编号不与区域移动模式O的编号混排,而是采用新的编号。遍历区域移动模式中的所有停留签到点,判断和上一个签到点是否在同一个区域,找到第一个出现的跨区域行为。接着依次往下挖掘,尽可能延长跨区域移动模式,直到两个相邻签到落在同一区域为止。将这一段跨区域移动模式加入跨区域移动模式集合M。然后从这段签到往后重新找下一个跨区域移动行为,循环往复,直到遍历完所有区域移动模式。
实施例:如图6所示,我们最终可以得到跨区域移动模式(这里只列出了兴趣点类型和区域编号二维数据)<(o,r8),(g,r6),(b,r3)>和<(b,r8),(g,r6),(o,r4)>两条跨区域移动模式。
算法4模式挖掘算法
Figure BDA0002266832140000111
2.2.6分割模式模块
在此模块中,算法先经历分割移动模式,需求筛选以及需求量化三个步骤,如算法5所示。分割模式指的是最简单的需求发现算法,将挖掘得到的跨区域移动模式按照相邻跨区域行为分割成一个个的二元组,即起点-终点的移动行为。需求筛选指的是计算终点处签到的兴趣点类型a在起点区域r的密度,首先计算区域密度,即r区域的a类型兴趣点数量在本区域中所有兴趣点数量的占比,以及兴趣点密度,即r区域里a兴趣点数量在全局所有a类型兴趣点里占比多少。最终的密度为区域密度乘以兴趣点密度。密度阈值则是用预先设置好的扩张系数除以区域数量和兴趣点类型数量的乘积获得。如果密度大于密度阈值,则认为该区域次兴趣点类型商铺已经很激烈了。只有当密度小于阈值时,才会量化需求。在分割模式算法中,每次扫描到有一个起点区域对终点处签到的兴趣点类型的需求,就会加上密度阈值/密度(如密度为0,则直接加上密度阈值)。如果密度越小,说明该区域此类型店铺竞争越低,就越推荐,所以量化的需求强度也更高。
实施例:如图6所示,假设扩张系数为4,则密度阈值为4/(3×9)=4/27。对于上面挖掘到的<(o,r8),(g,r6),(b,r3)>和<(b,r8),(g,r6),(o,r4)>来说,分割之后变成了<(o,r8),(g,r6)>,<(g,r6),(b,r3)>,<(b,r8),(g,r6)>和<(g,r6),(o,r4)>四对二元组。可以看出,8号区域需要一个健身馆,因为8号区域没有健身馆,所以密度为0,量化后的需求强度为4/27+4/27=8/27。酒吧在6号区域的密度为1/2×2/5=1/5远大于密度阈值,所以不考虑此需求。
算法5分割模式算法
Figure BDA0002266832140000121
2.2.7连接模式模块
连接模式算法与分割模式相同,也需要需求筛选和需求量化。不同的是此算法中考虑顾客在去往目的地途中在别处停留的情况,对一条轨迹中所有跨区域行为都增加连线,生成多个起点-终点二元组。需求筛选同分割模式。与分割模式的需求量化相比,考虑到两个跨区域行为在跨区域模式中隔得程度不同,需求强度也会不同,所以在分割模式量化的需求强度基础上要除以两点的签到相隔次数。
实施例:<(o,r8),(g,r6),(b,r3)>和<(b,r8),(g,r6),(o,r4)>,经过连接除了<(o,r8),(g,r6)>,<(g,r6),(b,r3)>,<(b,r8),(g,r6)>和<(g,r6),(o,r4)>四对二元组外还增加了<(o,r8),(b,r3)>和<(b,r8),(o,r4)>。对于8号区域来说新增了对于酒吧的需求,其密度为1/2×1/5=1/10符合要求,量化后需求强度为1/10×4/27×1/2=1/135。
算法6连接模式算法
Figure BDA0002266832140000131
2.2.8选址推荐模块
选址推荐模块是在分割模式或者连接模式获得的区域性需求候选集上进行筛选。如果量化后的需求强度大于预先由用户设置好的需求强度阈值,则认为此需求是一个区域性需求。反之则将其从候选集中去除。最终对剩下的所有区域型需求按照需求强度大小排名。并且按照相同区域或者相同兴趣点类型归类总结,给出一个最终的排名以进行选址推荐。
实施例:如图6,最终得到了三个区域性需求,分别是8号区域对健身房、酒吧的需求以及6号区域对办公室的需求,对应的需求强度分别是:8/27,1/135和4/27。用户设置的需求强度阈值为0.1时,最终区域性需求为8号区域对健身房的需求以及6号区域对办公室的需求。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (9)

1.一种基于语义轨迹的区域内兴趣点需求挖掘和选址方法,其特征在于,包括以下步骤:
步骤(1)划分空间区域,对普通的语义轨迹以及兴趣点进行预处理以添加区域信息,并对区域内的兴趣点数量、密度进行测算;所述步骤(1)的具体步骤包括:
步骤(11),根据设置的两条签到信息间可忍受的最大转移时间,若两次签到相距时间超过设置好的可忍受最大转移时间,则从两次签到当中将将轨迹切成两段,两次签到分别是前段轨迹的终点以及后段轨迹的起点;若整条语义轨迹数据的签到时间差均符合可忍受的最大转移时间,则不切分轨迹,若不满足语义轨迹数据就被切分成两到多条符合转移时间要求的子轨迹;
步骤(12),将全局空间均匀划分成预先设置好数量的相同大小且不互相重叠的矩形网格状子区域;并将普通的语义轨迹数据添加区域信息,得到区域移动模式;
步骤(13),统计落入各区域的兴趣点总的数量以及各个类别下兴趣点数量,分别从区域内各类别数量占全区内兴趣点数量的占比以及区域内该类别兴趣点数量在全局下该类别兴趣点数量的占比两个角度计算兴趣点密度,计算该区域内该类别在全局全类别下的密度;
步骤(2)利用附带区域信息的语义轨迹挖掘人们的连续跨区域移动模式;
步骤(3)利用挖掘到的连续跨区域移动模式量化区域兴趣点需求,得出区域内人们对各种类型兴趣点的需求强度,并最终根据区域以及兴趣点类型分别给出两种层次的需求排名以供推荐商户选址;其中,通过轨迹反向方法挖掘非住宅类型需求。
2.根据权利要求1所述的基于语义轨迹的区域内兴趣点需求挖掘和选址方法,其特征在于,利用语义轨迹数据以及现有兴趣点数据对区域内潜在兴趣点需求进行挖掘和选址推荐;所述语义轨迹数据包括:经纬度、时间戳以及签到兴趣点所属类型;所述现有兴趣点数据包括:id,经纬度以及兴趣点所属类型。
3.根据权利要求1所述的基于语义轨迹的区域内兴趣点需求挖掘和选址方法,其特征在于,所述步骤(11)中,将输入的语义轨迹按照最大可忍受转移时间切分;转移时间是指相邻两次签到相隔多少时间;所述最大可忍受转移时间是指相邻两次签到最多可以相隔多少时间;如果两次签到相隔时间超过最大可忍受转移时间,则将新建一条语义轨迹,给予新的编号,并将从后一次签到开始后满足最大可忍受转移时间的所有签到都加入新的语义轨迹中。
4.根据权利要求1所述的基于语义轨迹的区域内兴趣点需求挖掘和选址方法,其特征在于,所述步骤(12)中,根据预先设定好的网格参数g,将空间尽量划分成一样大小的g×g个不重叠矩形;通过全局矩形区域左上角顶点和右下角顶点经纬度的差的计算出矩形的长度和宽度,再将长度和宽度除以网格参数g计算出每个子区域矩形的长度和宽度;将子区域从左到右,从上到下都赋予一个不重复的编号。
5.根据权利要求1所述的基于语义轨迹的区域内兴趣点需求挖掘和选址方法,其特征在于,所述步骤(13)中,对于语义轨迹集合中所有轨迹,将轨迹中的每一个签到都通过搜寻兴趣点数据集对应记录来转换成包含时间戳、签到区域以及签到兴趣点类型的一条记录;通过计算兴趣点的经纬度与子区域长宽的倍数计算出落到区域的编号;转换后的区域移动模式编号和语义轨迹编号保持一致。
6.根据权利要求1所述的基于语义轨迹的区域内兴趣点需求挖掘和选址方法,其特征在于,所述步骤(13)中,将所有的现有兴趣点信息按照经纬度获取区域的编号;接着取出该兴趣点所属的具体类型,更新兴趣点所属区域的区域空间信息,首先将该区域该兴趣点类型对应的数量加一,接着将整个区域的兴趣点总数加一;最终统计出所有区域内的兴趣点数量,并按兴趣点类型归类分别计数。
7.根据权利要求1所述的基于语义轨迹的区域内兴趣点需求挖掘和选址方法,其特征在于,将两个相邻签到落于不同区域的情况称为跨区域,利用步骤(12)转化后的区域移动模式挖掘当中连续跨区域移动模式:首先过滤掉长度小于2的移动模式;跨区域移动模式M的编号不与区域移动模式O的编号混排,采用新的编号;遍历区域移动模式中的所有停留签到点,判断和上一个签到点是否在同一个区域,找到第一个出现的跨区域行为;接着依次往下挖掘,尽可能延长跨区域移动模式,直到两个相邻签到落在同一区域为止;将这一段跨区域移动模式加入跨区域移动模式集合M;然后从这段签到往后重新找下一个跨区域移动行为,循环往复,直到遍历完所有区域移动模式。
8.根据权利要求1所述的基于语义轨迹的区域内兴趣点需求挖掘和选址方法,其特征在于,根据两次签到间距离和签到兴趣点类型的频度量化区域内对类型兴趣点的需求强度;按照区域需求强度以及区域内类别密度筛选出最终区域需求。
9.一种基于语义轨迹的区域内兴趣点的需求挖掘、排名和分析***,其特征在于,采用如权利要求1-8之任一项所述的基于语义轨迹的区域内兴趣点需求挖掘和选址方法,所述***包括:
数据预处理模块,其包括切割区域、转换语义轨迹以及统计区域内兴趣点数量和密度;
挖掘模块,其包括挖掘连续跨区域移动模式;
需求发现模块,其包括利用挖掘到的跨区域移动模式对人们出现需求强度进行量化,并考虑区域内密度筛选区域需求;
选址推荐模块,其包括从区域以及兴趣点类型对区域需求进行排名,并根据排名进行选址推荐。
CN201911090937.1A 2019-11-09 2019-11-09 一种基于语义轨迹的区域内兴趣点需求挖掘和选址方法及排名和分析*** Active CN110888951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911090937.1A CN110888951B (zh) 2019-11-09 2019-11-09 一种基于语义轨迹的区域内兴趣点需求挖掘和选址方法及排名和分析***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911090937.1A CN110888951B (zh) 2019-11-09 2019-11-09 一种基于语义轨迹的区域内兴趣点需求挖掘和选址方法及排名和分析***

Publications (2)

Publication Number Publication Date
CN110888951A CN110888951A (zh) 2020-03-17
CN110888951B true CN110888951B (zh) 2023-06-09

Family

ID=69747217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911090937.1A Active CN110888951B (zh) 2019-11-09 2019-11-09 一种基于语义轨迹的区域内兴趣点需求挖掘和选址方法及排名和分析***

Country Status (1)

Country Link
CN (1) CN110888951B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101514905A (zh) * 2009-03-05 2009-08-26 凯立德欣技术(深圳)有限公司 一种导航***及其使用的兴趣点区域检索的方法
CN104102638A (zh) * 2013-04-02 2014-10-15 北京百度网讯科技有限公司 基于位置信息的推送方法、***和装置
CN104504064A (zh) * 2014-12-19 2015-04-08 百度在线网络技术(北京)有限公司 一种信息推荐方法和装置
CN105608898A (zh) * 2016-03-24 2016-05-25 福建工程学院 一种基于交通轨迹的驾驶员兴趣点发现方法及***
CN108268504A (zh) * 2016-12-31 2018-07-10 ***通信集团陕西有限公司 一种划分兴趣点的搜索区域的方法及设备
CN109684561A (zh) * 2018-12-24 2019-04-26 宿州学院 基于用户签到行为变化的深层语义分析的兴趣点推荐方法
CN109918573A (zh) * 2019-03-28 2019-06-21 黑龙江大学 一种基于位置社交网络的个性化线路推荐***和方法
CN110134865A (zh) * 2019-04-26 2019-08-16 重庆大学 一种基于城市公共交通出行大数据的通勤乘客社交推荐方法及平台

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101514905A (zh) * 2009-03-05 2009-08-26 凯立德欣技术(深圳)有限公司 一种导航***及其使用的兴趣点区域检索的方法
CN104102638A (zh) * 2013-04-02 2014-10-15 北京百度网讯科技有限公司 基于位置信息的推送方法、***和装置
CN104504064A (zh) * 2014-12-19 2015-04-08 百度在线网络技术(北京)有限公司 一种信息推荐方法和装置
CN105608898A (zh) * 2016-03-24 2016-05-25 福建工程学院 一种基于交通轨迹的驾驶员兴趣点发现方法及***
CN108268504A (zh) * 2016-12-31 2018-07-10 ***通信集团陕西有限公司 一种划分兴趣点的搜索区域的方法及设备
CN109684561A (zh) * 2018-12-24 2019-04-26 宿州学院 基于用户签到行为变化的深层语义分析的兴趣点推荐方法
CN109918573A (zh) * 2019-03-28 2019-06-21 黑龙江大学 一种基于位置社交网络的个性化线路推荐***和方法
CN110134865A (zh) * 2019-04-26 2019-08-16 重庆大学 一种基于城市公共交通出行大数据的通勤乘客社交推荐方法及平台

Also Published As

Publication number Publication date
CN110888951A (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
CN110245981B (zh) 一种基于手机信令数据的人群类型识别方法
Senaratne et al. Urban mobility analysis with mobile network data: A visual analytics approach
Arribas-Bel et al. The validity of the monocentric city model in a polycentric age: US metropolitan areas in 1990, 2000 and 2010
CN111222661A (zh) 一种城市规划实施效果分析评估方法
CN110298553A (zh) 一种基于gis的国土空间规划方法、***和设备
CN107609107A (zh) 一种基于多源城市数据的出行共现现象可视化分析方法
Zhang et al. Recommending pick-up points for taxi-drivers based on spatio-temporal clustering
Ali et al. Rule-guided human classification of Volunteered Geographic Information
Li et al. A method based on an adaptive radius cylinder model for detecting pole-like objects in mobile laser scanning data
CN105426435A (zh) 专业人才数据处理方法及服务器
CN104915393A (zh) 一种用于方向定向搜索的方法与设备
CN101184974A (zh) 用于择路和调度的***和方法
JPWO2017221856A1 (ja) 分析装置、分析方法、および記憶媒体
CN110888951B (zh) 一种基于语义轨迹的区域内兴趣点需求挖掘和选址方法及排名和分析***
Hallowell et al. Suburban change: A time series approach to measuring form and spatial configuration
JP2003256757A (ja) 空間データ分析装置、空間データ分析方法、及び空間データ分析プログラム
Martino et al. Ocean of information: fusing aggregate & individual dynamics for metropolitan analysis
Zygouras et al. Corridor learning using individual trajectories
Pat et al. Where's Waldo? Geosocial Search over Myriad Geotagged Posts
Tao Big spatial flow data analytics
Reijsbergen Probabilistic modelling of station locations in bicycle-sharing systems
Ziliaskopoulos et al. Using remote-sensing and citizen-science data to assess urban biodiversity for sustainable cityscapes: the case study of Athens, Greece
Tang et al. Integrating GIS and spatial data mining technique for target marketing of university courses
CN113688164A (zh) 基于知识图谱关联分析的兴趣点查询方法及***
Krishnakumar et al. Identification and ranking of high pedestrian crash zones using gis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant