CN113779039A - Top-k集合空间关键字近似查询方法 - Google Patents
Top-k集合空间关键字近似查询方法 Download PDFInfo
- Publication number
- CN113779039A CN113779039A CN202111128707.7A CN202111128707A CN113779039A CN 113779039 A CN113779039 A CN 113779039A CN 202111128707 A CN202111128707 A CN 202111128707A CN 113779039 A CN113779039 A CN 113779039A
- Authority
- CN
- China
- Prior art keywords
- space
- query
- objects
- spatial
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000013138 pruning Methods 0.000 claims abstract description 14
- 230000001174 ascending effect Effects 0.000 claims abstract description 7
- 238000012163 sequencing technique Methods 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 description 34
- 230000000694 effects Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 13
- 238000002474 experimental method Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 6
- 239000002131 composite material Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 101100261000 Caenorhabditis elegans top-3 gene Proteins 0.000 description 2
- 244000141353 Prunus domestica Species 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24535—Query rewriting; Transformation of sub-queries or views
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24558—Binary matching operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种Top‑k集合空间关键字近似查询方法,步骤为:对于空间对象数据集中不包含任意一个查询关键字的空间对象进行剪枝,将剩余的空间对象根据其到查询位置的欧式距离对其进行升序排序,然后将相关空间对象构建成VP‑Tree;利用VP‑Tree加速搜索空间对象的局部邻域;利用评分函数计算其综合距离分数,并按综合得分选出Top‑k组空间对象作为最终结果。本发明提出的空间对象关联度评估方法具有较高的准确性,提出的剪枝策略具有较高的执行效率,获取的Top‑k组空间对象具有较高的用户满意度。
Description
技术领域
本发明属于空间关键字查询和局部邻域搜索的技术领域,尤其涉及一种Top-k集合空间关键字近似查询方法。
背景技术
随着GPS定位和移动网络技术的不断发展以及智能设备的普及应用,Web上出现了大量包含位置信息和文本信息的空间-文本对象(后文简称空间对象),进而使得基于位置的服务(Location Based Service,LBS)得到了广泛应用。近年来,有学者提出以一组空间对象作为空间关键字查询结果的基本单元,这组空间对象的特征联合起来以满足用户的查询需求,这种查询方法称为集合空间关键字查询(CSKQ,Collective Spatial KeywordQuery),该类方法在空间数据库查询领域逐渐受到关注。CSKQ的基本思想是,给定一个空间关键字查询条件(包括查询位置和查询关键字),以最小的代价查找一组对象,该组对象需要满足如下3个基本条件:1)能够覆盖所有查询关键字,2)组内对象与查询位置接近,3)组内对象之间位置相互接近。
虽然目前已有一些CSKQ方法,但这些方法存在以下不足。
首先,查询结果仅提供一组空间对象,但实际应用中返回Top-k组对象可为用户提供更多的选择。
其次,没有考虑组内空间对象之间的关联访问程度,而在现实中位置临近的不同类型对象之间通常具有密切的关联访问关系,例如旅游景点与其周边的酒店和餐厅经常被用户关联访问,关联访问度越大,用户越有可能同时访问这些对象,得到的结果也越符合用户的需求。
最后,集合空间关键字精确查询往往需要枚举目标数据集中所有对象的所有可能组合,这将导致计算量非常庞大,进而影响查询响应速度。
空间关键字查询方法的研究已经从多个方面展开,但它们重点在于查找单个空间对象作为结果,并且现有的集合空间关键字方法也大多仅根据距离关系检索结果。同时,上述集合空间关键字查询方法忽略了空间对象之间的关联关系,这可能使查询结果不能让用户满意。
发明内容
基于以上现有技术的不足,本发明所解决的技术问题在于提供一种Top-k集合空间关键字近似查询方法,建立一种集合空间关键字近似查询处理模型,并提出有效的剪枝策略,以提高查询效率,设计了一种新的评分函数,综合考虑距离和空间对象之间的关联访问度,据此评价候选结果,并提出了关联访问度的评估方法,在此基础上,提出了一种基于VP-Tree的剪枝策略,以提高索引速度。
为了解决上述技术问题,本发明通过以下技术方案来实现:
本发明的Top-k集合空间关键字近似查询方法包括以下步骤:
步骤1:对于空间对象数据集中不包含任意一个查询关键字的空间对象进行剪枝,将剩余的空间对象根据其到查询位置的欧式距离对其进行升序排序,然后将相关空间对象构建成VP-Tree;
步骤2:利用VP-Tree加速搜索空间对象的局部邻域;
步骤3:对于用户给定的集合空间关键字查询条件,先利用步骤1,得到排序后的相关空间对象集合,构建VP-Tree;然后循环选取相关空间对象,根据步骤2利用构建的VP-Tree索引加速搜索每次选取的空间对象的局部邻域,并将排序在每次选取的空间对象之前的对象取出作为集合S1,与局部邻域集合S2做交集,S1∩S2=M,然后对M内的空间对象进行组合,将能够覆盖所有查询关键字的组合作为候选对象组合,利用评分函数计算其综合距离分数,并按综合得分选出Top-k组空间对象作为最终结果。
进一步的,步骤1的具体步骤如下:
步骤1.1:将空间对象数据集中不包含任何查询关键字的空间对象删除;
步骤1.2:根据欧式距离公式,计算剩余的相关空间对象到查询位置的欧式距离,并根据距离对其进行升序排序;
步骤1.3:将RO构建成VP-Tree,其基本思想是选取某个空间对象作为制高点,然后计算其它对象到制高点的距离,并根据距离对空间对象数据集进行划分。
进一步的,步骤2的具体步骤如下:
步骤2.1:设置邻域阈值;
步骤2.2:循环选取相关空间对象,利用构建的VP-Tree索引加速搜索给定的空间对象的局部邻域,得到局部邻域集合。
进一步的,步骤3的具体步骤如下:
步骤3.1:根据步骤2.2,利用VP-Tree得到每次选取的空间对象的局部邻域,并将排序在每次选取的空间对象之前的对象集合S1与局部邻域集合S2做交集,然后对交集内的空间对象进行组合,减少组合可能性,避免重复计算;然后将能够覆盖所有查询关键字的组合作为候选对象组合;
步骤3.2:对于候选对象组合,分别计算距离分数以及关联访问度;
步骤3.3:利用评分函数计算出候选对象组合与查询的综合距离分数,按分数大小选出Top-k组空间对象作为最终结果。
由上,本发明通过提出一个新的评分函数,综合考虑距离和组内空间对象之间的关联访问度,利用Apriori算法评估空间对象之间的关联访问度,并通过VP-Tree加速搜索空间对象的局部邻域,提升查询效率。实验结果表明,本发明提出的空间对象关联度评估方法具有较高的准确性,提出的剪枝策略具有较高的执行效率,获取的Top-k组空间对象具有较高的用户满意度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下结合优选实施例,并配合附图,详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍。
图1为本发明实施例中解决方案框图;
图2为本发明实施例中VP-Tree索引结构图;
图3为本发明实施例中在Yelp数据集上,查询结果个数k值不同时,采用TkCoSKQ方法中的RC算法(记作TkCoSKQ-RC),CKPQ中的RKD-Search算法(记作CKPQ-RKD-Search),Top-k CSKAQ所用查询响应时间对比图;
图4为本发明实施例中在Yelp数据集上,查询关键字个数不同时,采用TkCoSKQ-RC,CKPQ-RKD-Search,Top-k CSKAQ所用查询响应时间对比图;
图5为本发明实施例中在不同数据量大小的Yelp数据集上,采用TkCoSKQ-RC,CKPQ-RKD-Search,Top-k CSKAQ所用查询响应时间对比图;
图6为本发明实施例中在Yelp数据集上,阈值σ值不同时,采用TkCoSKQ-RC,CKPQ-RKD-Search,Top-k CSKAQ所用查询响应时间对比图;
图7为本发明实施例中在Yelp数据集上,调节参数α值不同时,采用TkCoSKQ-RC,CKPQ-RKD-Search,Top-k CSKAQ所用查询响应时间对比图;
图8为本发明实施例中在Yelp数据集上,查询结果个数k值不同时,采用TkCoSKQ方法中的RC算法(记作TkCoSKQ-RC),CKPQ中的RKD-Search算法(记作CKPQ-RKD-Search),Top-k CSKAQ所获得的近似比结果对比图;
图9为本发明实施例中在Yelp数据集上,查询关键字个数不同时,采用TkCoSKQ-RC,CKPQ-RKD-Search,Top-k CSKAQ所获得的近似比结果对比图;
图10为本发明实施例中在不同数据量大小的Yelp数据集上,采用TkCoSKQ-RC,CKPQ-RKD-Search,Top-k CSKAQ所获得的近似比结果对比图;
图11为本发明实施例中在Yelp数据集上,阈值σ值不同时,采用TkCoSKQ-RC,CKPQ-RKD-Search,Top-k CSKAQ所获得的近似比结果对比图;
图12为本发明实施例中在Yelp数据集上,调节参数α值不同时,采用TkCoSKQ-RC,CKPQ-RKD-Search,Top-k CSKAQ所获得的近似比结果对比图。
具体实施方式
下面结合附图详细说明本发明的具体实施方式,其作为本说明书的一部分,通过实施例来说明本发明的原理,本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中,不同的图中相同或相似的部件使用相同的附图标号来表示。
本发明方法涉及的一些相关定义如下:
给定空间对象集合D及其子集Z,邻域阈值σ,用户历史访问记录R,空间关键字查询q,包含查询位置q.l,一组查询关键字q.w和k值。本发明返回综合距离最小的Top-k组空间对象作为查询结果,综合距离由评分函数决定。其综合距离评分函数包含距离和关联访问度两个部分,距离部分的分数记为距离分数。D中的某组对象经常被用户共同访问的次数越高,则该组对象的关联访问度越高。Z的σ-局部邻域由D中包含的对象与Z中至少一个对象的距离不超过阈值σ的对象构成。
本发明的Top-k集合空间关键字近似查询方法(简称Top-k CSKAQ)解决方案框图如图1所示。下面结合表1,表2数据和查询q,描述本发明的具体执行过程和每个重要阶段的结果。
表1.空间对象的位置、文本信息以及空间关键字查询例子
表2.用户历史访问记录
本发明方法的执行过程包括以下步骤:
步骤1:对于空间对象数据集中不包含任意一个查询关键字的空间对象进行剪枝。将剩余的空间对象(记作相关空间对象集合RO)根据其到查询位置的欧式距离对其进行升序排序,然后将相关空间对象构建成VP-Tree。
步骤1.1:删除空间对象数据集中不包含任何查询关键字的空间对象即o1。
步骤1.2:根据欧式距离公式,计算剩余的相关空间对象到查询位置的欧式距离,并根据距离对其进行升序排序,排序结果为RO={O2,O8,O7,O3,O5,O4,O6}。
步骤1.3:将RO构建成VP-Tree,其基本思想是选取某个空间对象作为制高点,然后计算其它对象到制高点的距离,并根据距离对空间对象数据集进行划分。
步骤2:利用VP-Tree加速搜索空间对象的局部邻域。
步骤2.1:本发明设置邻域阈值σ为4。
步骤2.2:利用构建的VP-Tree索引加速搜索给定的空间对象的局部邻域,得到局部邻域集合S2,如表3所示。
表3.相关空间对象的σ-局部邻域
步骤3:得到候选对象组合,候选对象组合的距离分数及关联访问度,并利用评分函数计算其综合距离分数,最终按综合得分选出Top-k组空间对象作为最终结果。
步骤3.1:根据步骤2.2,利用VP-Tree得到每次选取的空间对象的局部邻域,并将排序在每次选取的空间对象之前的对象集合S1与局部邻域集合S2做交集,S1∩S2=M,如表3所示,然后对M内的空间对象进行组合,以此减少组合可能性,避免重复计算。然后将能够覆盖所有查询关键字的组合作为候选对象组合h。
步骤3.2:对于候选对象组合,分别利用式(2)计算距离分数以及利用Apriori算法评估其关联访问度,β=0.5,计算结果如表4所示。
表4.候选空间对象组合的距离分数及关联访问度
步骤3.3:利用评分函数计算出候选对象组合h与查询q的综合距离分数,按综合得分选出top-3组空间对象作为最终结果。α设置为0.7,根据计算得到maxdis(p1,p2)=8.06225774829855,查询结果如表5所示。
表5.top-3空间对象组合及其综合距离分数
为了进一步测试本发明方法的效果和性能,本事实例中选取Yelp数据集,说明本发明的查询准确性和查询效率(即查询响应时间)。
进一步地,步骤1.3中的构建VP-Tree索引结构。在RO中随机抽样选取一组对象作为候选制高点,利用剩下的对象对其进行评估,最终选取能够构建出高度平衡的VP-Tree的对象作为制高点。然后以该制高点作为依据,将数据集中与制高点的欧式距离不高于给定阈值的对象划分到左子树,与制高点的欧式距离高于给定阈值的对象划分到右子树。左右子树以递归方式再进行划分,直到节点仅包含一个对象(即叶子节点)。
进一步地,步骤2.2中利用VP-Tree索引搜索给定空间对象局部邻域。给定邻域阈值σ,对于空间对象数据集中的任一对象r∈RO,可通过计算得到{r}的σ-局部邻域L({r},D,σ),计算公式如下:
L({r},RO,σ)={o|o∈RO,min{dis(o,{r})}≤σ}} (1)
但为每个空间对象都计算其σ-局部邻域耗时较长,因此为了提高空间对象的σ-局部邻域搜索的效率,本发明使用VP-Tree加速对空间对象的σ-局部邻域搜索。自顶向下比较VP-Tree中各节点与给定对象之间的欧式距离,如果VP-Tree中某个中间节点在该对象的σ-局部邻域中,那么该节点的所有后继对象都在该对象的局部邻域当中。
进一步地,步骤3.2中计算候选对象组合h距离分数和关联访问度的方法分别如下:
候选对象组合的距离分数:
dis(h)=βmaxdis(q,c)+(1-β)maxdis(o1,o2) (2)
其中,h是候选空间对象组合;maxdis(q,c)表示组内空间对象到q的最大欧式距离,maxdis(o1,o2)表示组内任意两个空间对象之间的最大欧式距离。β是调节参数,用于平衡组内空间对象到q的最大欧式距离和组内任意两个空间对象之间的最大欧式距离在距离分数中的作用,本发明设置为0.5。
候选对象组合的关联访问度评估:
利用Apriori算法评估候选对象组合中的空间对象之间的关联访问度。Apriori算法首先扫描一遍用户历史访问记录数据集R,从中生成一项集C1,然后扫描C1,过滤不满足最小支持度的项集,得到频繁1项集L1。根据Apriori原理,非频繁项集的所有超集也都是非频繁的,因此,第二轮迭代中,只需要对上一轮迭代产生的频繁项集进行新的组合即可。然后,检查新的组合是否满足最小支持度要求,将不满足的新组合给过滤,直到没有新组合可生成为止。通过频繁项集Lk-1生成无重复项集Ck(即项数为k的项集)。接下来,迭代扫描用户历史访问记录R并进行候选计数,过滤掉不满足条件的组合,返回项集中不小于最小支持度的项集作为频繁k项集Lk(项数为k的频繁项集),集合L包含所有频繁项集。最后,循环选取L中的每一个频繁项集,为其计算置信度conf,并判断conf是否不小于最小置信度minConf,如果conf≥minConf,将该项集作为一个关联分析结果,加入到关联规则集合RL中,即可获得空间对象之间的关联访问度。
进一步地,步骤3.3中计算候选对象组合h与查询q的综合距离分数的方法如下:
首先,计算出候选对象组合的距离分数;然后在离线阶段利用Apriori算法获得关联规则集合RL。候选对象组合h与查询q的综合距离分数计算公式如下:
其中,α为调节参数,用于平衡距离和关联访问度在评分函数中的作用;maxdis(p1,p2)是空间对象数据集中任意两个对象之间的最大欧式距离,对距离分数进行归一化处理。GL是从关联规则集合中获得的该组空间对象之间的关联访问度。
下面是利用本发明方法,在上述Yelp数据集上关于查询效率和查询准确率的测试结果。本发明方法中各参数的默认值在表6中给出。在实验过程中,通过改变一个参数的值、固定其他参数的值来讨论该参数对实验结果的影响。所有实验都采用Java实现,电脑配置为主频3.7GHz的CPU32.0GB内存,Windows10操作***。
TkCoSKQ-RC的基本思想是,选取候选组合时,对任意空间对象的组合,计算其欧式距离并设置上下边界条件,修剪不满足条件的组合,减少组合的可能性和计算量。最后将满足所有查询关键字的候选组合,根据评分函数计算其得分,返回得分(即综合距离)最小的Top-k组结果。需要指出的是,在选取组对象时,该算法只考虑空间对象与查询位置之间的距离关系而没有考虑组内对象之间的关联访问度。
CKPQ-RKD-Search的基本思想是,针对每个查询关键字,都从查询区域中找到一个包含该查询关键字同时最接近查询位置的一个空间对象,然后将查找到的所有空间对象进行组合,根据评分函数计算该组合的综合得分。评分函数综合考虑了用户对空间对象的偏好程度、组内空间对象之间的最大距离、组内空间对象到查询位置的最大距离以及组内对象的可达性。
表6.本发明各参数的默认值
实验性能测试主要从两方面进行:
查询效率评价:该组实验的主要目的是评估查询结果数量k、查询关键字数量|q.w|、数据集大小|D|、阈值σ和调节参数α对查询效率(即查询响应时间)的影响。
参数k对查询响应时间的影响:本实验将k的值分别设置为2~10来查询结果个数在数据集上对查询响应时间的影响。图3显示了不同k值下各算法的查询响应时间。Top-kCSKAQ方法每次对距离所选取的空间对象较远的空间对象进行修剪,减少组合的可能性和计算量,所以查询响应时间最短。CKPQ-RKD-Search方法在遍历索引结构时采用了剪枝策略,所以其查询响应时间要小于TkCoSKQ-RC,但是CKPQ-RKD-Search不仅需要考虑考虑距离部分,还要计算用户偏好程度和组内对象的可达性,因此增加了查询成本,其查询响应时间大于Top-k CSKAQ。
查询关键字个数|q.w|对查询响应时间的影响:该实验目的是通过改变查询关键字的个数来验证其对查询响应时间的影响。图4为本发明在Yelp数据集上,查询关键字个数增长到时,采用TkCoSKQ-RC,CKPQ-RKD-Search,Top-k CSKAQ所用查询响应时间的对比。从图4可以看出,随着查询关键字个数的增加,查询响应时间也逐渐增加。原因是无论哪种方法结构,当查询关键字增多时,需要组合、计算的相关空间对象就越多,因此查询时间会增加。CKPQ-RKD-Search和Top-k CSKAQ方法均采用了剪枝策略,因此查询响应时间较短。CKPQ-RKD-Search查询响应时间大于Top-k CSKAQ。需要注意的是,随着|q.w|的增长,TkCoSKQ-RC查询成本迅速增加,因为TkCoSKQ-RC没有构建索引,需要组合和计算的相关空间对象迅速增多。
数据集大小|D|对查询响应时间的影响:该实验旨在比较当POI数量从5k到2万(间隔为5k)时对查询响应时间的影响。从图5可以看出,随着数据集大小的增加,查询响应时间急剧增加,这是由于数据集越大,需要索引的对象越多,因此组合、计算可能需要更多的时间。数据集较小的时候,TkCoSKQ-RC查询响应时间最短,因为该方法只考虑距离关系,也不需要构建索引结构。同时也可以看出,当数据集增大后,本发明方法Top-kCSKAQ的查询响应时间比CKPQ-RKD-Search和TkCoSKQ-RC短得多,因为TkCoSKQ-RC没有利用索引结构,并且也没有好的剪枝策略,导致查询计算时间迅速增加,而Top-k CSKAQ的查询中使用基于VP-Tree的剪枝策略,可以实现近似查询,大大降低了查询响应时间。
阈值σ对查询响应时间的影响:由于局部邻域阈值σ只用于本发明方法Top-kCSKAQ,因此故本发明只测试阈值σ对Top-k CSKAQ在数据集上的查询响应时间的影响。从图6可以看出,随着σ的增加,Top-k CSKAQ查询响应时间增加,这是由于随着σ增大,搜索到的局部邻域内的空间对象的数量增多,被剪枝的空间对象减少,组合的可能性变多,计算量变大,导致查询响应时间增大。
调节参数α对查询响应时间的影响:该实验旨在通过改变调节参数α的取值时对查询响应时间的影响,由于公式(4)只用于本发明方法Top-kCSKAQ的查询评估,因此故本发明只测试参数α对Top-k CSKAQ在数据集上的查询响应时间的影响。从图7可以看出,α的变化对本发明所提出的方法的查询响应时间几乎没影响,因为参数α只是用于平衡距离和组内对象的关联访问度,并不能改变查询响应时间。
2.查询效果评价:该组实验旨在评估查询结果数量k、查询关键字数量|q.w|、数据集大小|D|、阈值σ和调节参数α对不同查询算法的准确性的影响。由于Top-k CASKQ采用了剪枝策略,是一个近似查询方法,对于给定的查询q,一些距离查询位置较近的空间对象组合可能没有被返回,故需要评估查询结果的准确性。本发明设置5组空间关键字查询条件,针对每个查询条件,每个算法获取top-10组查询结果,进而每个算法最终得到50组查询结果,对每个算法获得的50组查询结果取平均测量结果。本发明采用近似比对查询效果进行评估,近似比被广泛用于衡量集合空间关键字查询效果,近似比的计算方法如下:
ARatio=AVG(distance)/AVG(Cost) (4)
其中AVG(distance)表示Top-k CASKQ和CKPQ-RKD-Search方法获得的距离分数的平均值;AVG(Cost)表示TkCoSKQ-RC获得的平均综合距离。近似比的结果等于或小于1,说明结果越好。
k对查询效果的影响:图8显示了不同k值下Top-k CASKQ和CKPQ-RKD-Search的近似比结果。在k取值变化时,Top-k CASKQ和CKPQ-RKD-Search方法的近似比结果要略大于1,因为相比TkCoSKQ-RC,Top-k CASKQ方法不仅考虑距离还考虑了组内空间对象之间的关联访问度,且还采用了基于VP-Tree的剪枝策略,修剪空间对象,因此TkCoSKQ-RC查询到的空间对象组合结果在距离关系上要优于Top-kCASKQ。
查询关键字个数|q.w|对查询效果的影响:该实验目的是通过改变查询关键字的个数来验证其对查询效果的影响。图9为本发明在关键字个数增长时,TkCoSKQ-RC,CKPQ-RKD-Search的查询结果近似比。从图9可以看出,CKPQ-RKD-Search和Top-k CSKAQ方法的近似比结果均略大于1。并且随着关键字个数增长,CKPQ-RKD-Search的近似比结果大于Top-kCSKAQ,因为CKPQ-RKD-Search综合考虑了用户对空间对象的偏好程度、组内空间对象之间的最大距离、组内空间对象到查询位置的最大距离以及组内对象的可达性。
数据集大小|D|对查询效果的影响:该实验旨在比较当POI数量增大时对查询效果的影响。从图10可以观察到,在数据集较小时,Top-k CSKAQ的近似比几乎等于1,数据集增大时Top-k CSKAQ方法得到的的距离分数仅略大于TkCoSKQ-RC,这说明本发明提出的近似方法准确率较高。
阈值σ对查询效果的影响:由于局部邻域阈值σ只用于本发明方法Top-k CSKAQ,因此故本发明只测试阈值σ对Top-k CSKAQ方法的查询效果的影响。从图11可以看出,随着σ的增大,Top-k CSKAQ方法的查询效果得到了提升,在阈值取值增长到0.05后,近似比结果小于1,查询到的结果更准确。这是因为随着σ增大,搜索到的局部邻域内的空间对象的数量增多,被剪枝的空间对象减少,组合的可能性增多,查询到的结果更准确。
调节参数α对查询效果的影响:由于公式(4)只用于本发明方法Top-kCSKAQ的查询评估,因此故本发明只测试参数α对Top-k CSKAQ查询效果的影响。根据图12可以观察到,随着α的增大,Top-k CSKAQ近似比越来越接近于1,得到的查询结果更好。因为α增大,距离部分权重越大,距离分数对候选结果的排序影响将会更大,因此Top-k CSKAQ的查询结果越准确。
以上所述是本发明的优选实施方式而已,当然不能以此来限定本发明之权利范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变动,这些改进和变动也视为本发明的保护范围。
Claims (4)
1.Top-k集合空间关键字近似查询方法,其特征在于,包括以下步骤:
步骤1:对于空间对象数据集中不包含任意一个查询关键字的空间对象进行剪枝,将剩余的空间对象根据其到查询位置的欧式距离对其进行升序排序,然后将相关空间对象构建成VP-Tree;
步骤2:利用VP-Tree加速搜索空间对象的局部邻域;
步骤3:对于用户给定的集合空间关键字查询条件,先利用步骤1,得到排序后的相关空间对象集合,构建VP-Tree;然后循环选取相关空间对象,根据步骤2利用构建的VP-Tree索引加速搜索每次选取的空间对象的局部邻域,并将排序在每次选取的空间对象之前的对象取出作为集合S1,与局部邻域集合S2做交集,S1∩S2=M,然后对M内的空间对象进行组合,将能够覆盖所有查询关键字的组合作为候选对象组合,利用评分函数计算其综合距离分数,并按综合得分选出Top-k组空间对象作为最终结果。
2.如权利要求1所述的Top-k集合空间关键字近似查询方法,其特征在于,步骤1的具体步骤如下:
步骤1.1:将空间对象数据集中不包含任何查询关键字的空间对象删除;
步骤1.2:根据欧式距离公式,计算剩余的相关空间对象到查询位置的欧式距离,并根据距离对其进行升序排序;
步骤1.3:将RO构建成VP-Tree,其基本思想是选取某个空间对象作为制高点,然后计算其它对象到制高点的距离,并根据距离对空间对象数据集进行划分。
3.如权利要求1所述的Top-k集合空间关键字近似查询方法,其特征在于,步骤2的具体步骤如下:
步骤2.1:设置邻域阈值;
步骤2.2:循环选取相关空间对象,利用构建的VP-Tree索引加速搜索给定的空间对象的局部邻域,得到局部邻域集合。
4.如权利要求3所述的Top-k集合空间关键字近似查询方法,其特征在于,步骤3的具体步骤如下:
步骤3.1:根据步骤2.2,利用VP-Tree得到每次选取的空间对象的局部邻域,并将排序在每次选取的空间对象之前的对象集合S1与局部邻域集合S2做交集,然后对交集内的空间对象进行组合,减少组合可能性,避免重复计算;然后将能够覆盖所有查询关键字的组合作为候选对象组合;
步骤3.2:对于候选对象组合,分别计算距离分数以及关联访问度;
步骤3.3:利用评分函数计算出候选对象组合与查询的综合距离分数,按分数大小选出Top-k组空间对象作为最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111128707.7A CN113779039A (zh) | 2021-09-26 | 2021-09-26 | Top-k集合空间关键字近似查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111128707.7A CN113779039A (zh) | 2021-09-26 | 2021-09-26 | Top-k集合空间关键字近似查询方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113779039A true CN113779039A (zh) | 2021-12-10 |
Family
ID=78853479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111128707.7A Pending CN113779039A (zh) | 2021-09-26 | 2021-09-26 | Top-k集合空间关键字近似查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779039A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070192306A1 (en) * | 2004-08-27 | 2007-08-16 | Yannis Papakonstantinou | Searching digital information and databases |
CN102063474A (zh) * | 2010-12-16 | 2011-05-18 | 西北工业大学 | 基于语义相关的XML关键字top-k查询方法 |
US20120254251A1 (en) * | 2011-03-03 | 2012-10-04 | The Governors Of The University Of Alberta | SYSTEMS AND METHODS FOR EFFICIENT TOP-k APPROXIMATE SUBTREE MATCHING |
CN107391636A (zh) * | 2017-07-10 | 2017-11-24 | 江苏省现代企业信息化应用支撑软件工程技术研发中心 | top‑m反近邻空间关键字查询方法 |
CN109977309A (zh) * | 2019-03-21 | 2019-07-05 | 杭州电子科技大学 | 基于多关键字和用户偏好的组合兴趣点查询方法 |
CN110046216A (zh) * | 2019-04-24 | 2019-07-23 | 上海交通大学 | 应用于电子地图的空间关键字查询的近似搜索方法 |
-
2021
- 2021-09-26 CN CN202111128707.7A patent/CN113779039A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070192306A1 (en) * | 2004-08-27 | 2007-08-16 | Yannis Papakonstantinou | Searching digital information and databases |
CN102063474A (zh) * | 2010-12-16 | 2011-05-18 | 西北工业大学 | 基于语义相关的XML关键字top-k查询方法 |
US20120254251A1 (en) * | 2011-03-03 | 2012-10-04 | The Governors Of The University Of Alberta | SYSTEMS AND METHODS FOR EFFICIENT TOP-k APPROXIMATE SUBTREE MATCHING |
CN107391636A (zh) * | 2017-07-10 | 2017-11-24 | 江苏省现代企业信息化应用支撑软件工程技术研发中心 | top‑m反近邻空间关键字查询方法 |
CN109977309A (zh) * | 2019-03-21 | 2019-07-05 | 杭州电子科技大学 | 基于多关键字和用户偏好的组合兴趣点查询方法 |
CN110046216A (zh) * | 2019-04-24 | 2019-07-23 | 上海交通大学 | 应用于电子地图的空间关键字查询的近似搜索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yiu et al. | Reverse nearest neighbors in large graphs | |
US9792304B1 (en) | Query by image | |
US7409404B2 (en) | Creating taxonomies and training data for document categorization | |
CN109947904B (zh) | 一种基于Spark环境的偏好空间Skyline查询处理方法 | |
EP2492824B1 (en) | Method of searching a data base, navigation device and method of generating an index structure | |
JP5604507B2 (ja) | データベース内のオブジェクトを探索する方法 | |
Tiesyte et al. | Similarity-based prediction of travel times for vehicles traveling on known routes | |
US9342582B2 (en) | Selection of atoms for search engine retrieval | |
EP3367268A1 (en) | Spatially coding and displaying information | |
CN108932347B (zh) | 一种分布式环境下基于社会感知的空间关键字查询方法 | |
JPH11203294A (ja) | 情報検索システム、装置、方法及び記録媒体 | |
Atallah et al. | Asymptotically efficient algorithms for skyline probabilities of uncertain data | |
CN109284409A (zh) | 基于大规模街景数据的图片组地理定位方法 | |
CN111782699A (zh) | 一种基于用户历史瓦片浏览记录的兴趣点智能搜索方法 | |
Ghanbarpour et al. | An attribute-specific ranking method based on language models for keyword search over graphs | |
CN113779039A (zh) | Top-k集合空间关键字近似查询方法 | |
CN112199461B (zh) | 基于块索引结构的文档检索方法、装置、介质和设备 | |
CN111209378B (zh) | 一种基于业务字典权重的有序分级排序方法 | |
CN112417091A (zh) | 一种文本检索方法及装置 | |
Wu et al. | Density-based top-k spatial textual clusters retrieval | |
WO2006047407A2 (en) | Method of indexing gategories for efficient searching and ranking | |
Sun et al. | A Point of Interest Intelligent Search Method based on Browsing History. | |
KR100645711B1 (ko) | 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보검색 서비스 제공 서버, 방법 및 시스템 | |
Gravano et al. | Evaluating top-k queries over web-accessible databases | |
Padmaja et al. | Shortest path finding using spatial ranking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |