CN108304585B

CN108304585B - 一种基于空间关键字搜索的结果数据选取方法及相关装置

Info

Publication number: CN108304585B
Application number: CN201810184309.9A
Authority: CN
Inventors: 钱志虎; 许佳捷; 郑凯; 柳诚飞
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-03-06
Filing date: 2018-03-06
Publication date: 2022-05-17
Anticipated expiration: 2038-03-06
Also published as: CN108304585A

Abstract

本申请公开了一种基于空间关键字搜索的结果数据选取方法，先通过多样性主题数实现了度量空间文本对象的多样性，再通过距离系数和多样性主题数确定每个候选空间文本对象的边界成本，选取边界成本最小的候选空间文本对象至结果集中，使结果集中的对象与查询对象距离较短并且多样性主题数保持在较高状态，也就是在基于距离系数选择的同时考虑到每个搜索结果的多样性，提高结果集的多样性，满足用户多样化的搜索需求。本申请还公开了一种基于空间关键字搜索的结果数据选取装置、服务器以及计算机可读存储介质，具有上述有益效果。

Description

一种基于空间关键字搜索的结果数据选取方法及相关装置

技术领域

本申请涉及计算机技术领域，特别涉及一种基于空间关键字搜索的结果数据选取方法、结果数据选取装置、服务器以及计算机可读存储介质。

背景技术

随着定位服务技术的出现，越来越多的应用把现实现象与空间位置关联起来，衍生出应用广泛的空间关键字查询，即结合空间查询和文本查询以寻求最优结果的混合查询。

通常空间关键字查询分为大体三个步骤，分别是将空间文本对象以及相关数据进行形式化度量、对所有的空间文本对象建立相应的索引结构以及通过接收的查询关键字进行查询。其中，对于空间文本对象的形式化度量具有统一的度量标准，通过该度量标准可以高效的进行相应的空间文本对象查询。基于上一方式，可以实现对空间关键字进行进一步的查询操作，得到与查询关键词相关的查询结果。

但是，目前针对空间关键字的查询方法一般返回的查询结果即返回的空间文本对象与查询关键词有较高的相似度，而对结果集中的兴趣点之间的关系没有要求，通常这些被返回的点之间都很相似，无法满足用户的多样化需求。例如，用户想要搜索附近的尽可能多的类别的餐馆，以便在不同类型的餐馆中进行选择，而搜索引擎可能只返回附近统一类型的餐馆，无法帮助用户进行选择。

因此，如何使空间关键字搜索提高搜索结果的多样性，满足用户的多样化需求，是本领域技术人员所关注的重点问题。

发明内容

本申请的目的是提供一种基于空间关键字搜索的结果数据选取方法、结果数据选取装置、服务器以及计算机可读存储介质，通过距离系数和多样性主题数确定每个候选空间文本对象的边界成本，选取边界成本最小的候选空间文本对象至结果集中，使结果集中的对象与查询对象距离较短并且多样性主题数保持在较高状态，也就是在基于距离系数选择的同时考虑到每个搜索结果的多样性，提高结果集的多样性，满足用户多样化的搜索需求。

为解决上述技术问题，本申请提供一种基于空间关键字搜索的结果数据选取方法，包括：

对多个空间文本对象执行索引结构建立操作，得到索引结构；

根据得到的查询对象使用所述索引结构选取多个候选空间文本对象，得到候选集；

确定每个所述候选空间文本对象和所述查询对象的距离，得到每个所述候选空间文本对象和所述查询对象的距离系数；

确定每个所述候选空间文本对象在初始化的所有主题之外包括的主题数量，得到每个所述候选空间文本对象的第一多样性主题数；

根据所有所述距离系数和所有所述第一多样性主题数确定每个所述候选空间文本对象的第一边界成本；其中，所述距离系数与所述第一边界成本为正比关系，所述第一多样性主题数与所述第一边界成本为反比关系；

选取所述第一边界成本最小的候选空间文本对象加入到结果集。

可选的，还包括：

当选取所述第一边界成本最小的候选空间文本对象加入到结果集时，确定每个所述候选空间文本对象在所述第一边界成本最小的候选空间文本对象加入后的所有主题之外包括的主题数量，得到每个所述候选空间文本对象的第二多样性主题数；

根据所有所述距离系数和所有所述第二多样性主题数确定对应的所述候选空间文本对象的第二边界成本；其中，所述距离系数与所述第二边界成本为正比关系，所述第二多样性主题数与所述第二边界成本为反比关系；

选取所述第二边界成本最小的候选空间文本对象加入到所述结果集。

可选的，对多个空间文本对象执行索引结构建立操作，得到索引结构，包括：

确定每个所述空间文本对象的关键字出现次数；

将所述关键字出现次数小于预设次数的空间文本对象设置为块结构，得到多个块结构；

将所述关键字出现次数大于等于所述预设次数的空间文本对象设置为树结构，得到多个树结构；

将所有所述块结构和所有所述树结构作为所述索引结构。

可选的，根据得到的查询对象使用所述索引结构选取多个候选空间文本对象，得到候选集，包括：

根据得到的查询对象使用所述索引结构按照贪心算法从所有所述空间文本对象中选取多个所述候选空间文本对象，得到所述候选集。

本申请还提供一种基于空间关键字搜索的结果数据选取装置，包括：

索引建立模块，用于对多个空间文本对象执行索引结构建立操作，得到索引结构；

候选集获取模块，用于根据得到的查询对象使用所述索引结构选取多个候选空间文本对象，得到候选集；

距离系数获取模块，用于确定每个所述候选空间文本对象和所述查询对象的距离，得到每个所述候选空间文本对象和所述查询对象的距离系数；

第一多样性主题数获取模块，用于确定每个所述候选空间文本对象在初始化的所有主题之外包括的主题数量，得到每个所述候选空间文本对象的第一多样性主题数；

第一边界成本获取模块，用于根据所有所述距离系数和所有所述第一多样性主题数确定每个所述候选空间文本对象的第一边界成本；其中，所述距离系数与所述第一边界成本为正比关系，所述第一多样性主题数与所述第一边界成本为反比关系；

第一结果数据选取模块，用于选取所述第一边界成本最小的候选空间文本对象加入到结果集。

可选的，还包括：

第二多样性主题数获取模块，用于当选取所述第一边界成本最小的候选空间文本对象加入到结果集时，确定每个所述候选空间文本对象在所述第一边界成本最小的候选空间文本对象加入后的所有主题之外包括的主题数量，得到每个所述候选空间文本对象的第二多样性主题数；

第二边界成本获取模块，用于根据所有所述距离系数和所有所述第二多样性主题数确定对应的所述候选空间文本对象的第二边界成本；其中，所述距离系数与所述第二边界成本为正比关系，所述第二多样性主题数与所述第二边界成本为反比关系；

第二结果数据选取模块，用于选取所述第二边界成本最小的候选空间文本对象加入到所述结果集。

可选的，所述索引建立模块，包括：

关键字出现次数获取单元，用于确定每个所述空间文本对象的关键字出现次数；

块结构获取单元，用于将所述关键字出现次数小于预设次数的空间文本对象设置为块结构，得到多个块结构；

树结构获取单元，用于将所述关键字出现次数大于等于所述预设次数的空间文本对象设置为树结构，得到多个树结构；

索引结构获取单元，用于将所有所述块结构和所有所述树结构作为所述索引结构。

可选的，所述候选集获取模块，包括：

候选集获取单元，用于根据得到的查询对象使用所述索引结构按照贪心算法从所有所述空间文本对象中选取多个所述候选空间文本对象，得到所述候选集。

本申请还提供一种服务器，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上所述的结果数据选取方法。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的结果数据选取方法。

本申请所提供的一种基于空间关键字搜索的结果数据选取方法，包括：对多个空间文本对象执行索引结构建立操作，得到索引结构；根据得到的查询对象使用所述索引结构选取多个候选空间文本对象，得到候选集；确定每个所述候选空间文本对象和所述查询对象的距离，得到每个所述候选空间文本对象和所述查询对象的距离系数；确定每个所述候选空间文本对象在初始化的所有主题之外包括的主题数量，得到每个所述候选空间文本对象的第一多样性主题数；根据所有所述距离系数和所有所述第一多样性主题数确定每个所述候选空间文本对象的第一边界成本；其中，所述距离系数与所述第一边界成本为正比关系，所述第一多样性主题数与所述第一边界成本为反比关系；选取所述第一边界成本最小的候选空间文本对象加入到结果集。

可见，先通过多样性主题数实现了度量空间文本对象的多样性，再通过距离系数和多样性主题数确定每个候选空间文本对象的边界成本，选取边界成本最小的候选空间文本对象至结果集中，使结果集中的对象与查询对象距离较短并且多样性主题数保持在较高状态，也就是在基于距离系数选择的同时考虑到每个搜索结果的多样性，提高结果集的多样性，满足用户多样化的搜索需求。

本申请还提供一种基于空间关键字搜索的结果数据选取装置、服务器以及计算机可读存储介质，具有上述有益效果，在此不做赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种基于空间关键字搜索的结果数据选取方法的流程图；

图2为本申请实施例所提供的基于空间关键字搜索的结果数据选取方法的后续选取过程的流程图；

图3为本申请实施例所提供的基于空间关键字搜索的结果数据选取方法的索引建立的流程图；

图4为本申请实施例所提供的一种基于空间关键字搜索的结果数据选取装置的结构示意图。

具体实施方式

本申请的核心是提供一种基于空间关键字搜索的结果数据选取方法、结果数据选取装置、服务器以及计算机可读存储介质，通过距离系数和多样性主题数确定每个候选空间文本对象的边界成本，选取边界成本最小的候选空间文本对象至结果集中，使结果集中的对象与查询对象距离较短并且多样性主题数保持在较高状态，也就是在基于距离系数选择的同时考虑到每个搜索结果的多样性，提高结果集的多样性，满足用户多样化的搜索需求。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种基于空间关键字搜索的结果数据选取方法的流程图。

本实施例提供一种基于空间关键字搜索的结果数据选取方法，可以提高搜索的多样性，可以包括：

S101，对多个空间文本对象执行索引结构建立操作，得到索引结构；

本步骤旨在对多个空间文本对象执行索引结构建立操作，得到相应的索引结构，也就是对所有的空间文本对象建立索引结构。在根据查询条件进行相应的查询时，首先要建立索引结构，才可以实现对空间文本对象的搜索。具体的，索引结构的建立方法在此不做限定，只要可以实现对空间文本对象的搜索的建立方法都可以为本实施例中使用的建立方法。

并且可以针对不同的搜索环境以及查询的特点，建立合适的索引结构，有利于加快搜索的速度，并且简化索引结构，降低维护和更新索引结构的成本。

其中，空间文本对象是将被搜索空间文本数据进行形式化表达后得到的。具体的形式化过程在后续段落中进行说明。

S102，根据得到的查询对象使用索引结构选取多个候选空间文本对象，得到候选集；

在步骤S101的基础上，本步骤旨在根据得到的索引结构和查询对象选取得到多个候选空间文本对象，得到候选集。这一步骤的目的主要是通过查询对象在所有空间文本对象选取出，也就是通过该索引结果选取出候选空间文本对象，目的是使该候选空间文本对象符合查询对象的限制，因此本步骤中通过查询对象选取出多个候选空间文本对象，并且得到候选集。

其中，查询对象与上一步骤中的空间文本对象类似，都是将数据进行形式化表达得到的，具体的形式化过程在后续段落中进行说明。

S103，确定每个候选空间文本对象和查询对象的距离，得到每个候选空间文本对象和查询对象的距离系数；

在步骤S102的基础上，本步骤旨在确定每个候选空间文本对象和查询对象之间的距离，得到对应的距离系数。本步骤中确定距离的计算方法可以与一般的空间距离计算方法相同，其主要目的也是在空间搜索中得到对象与查询对象之间的距离，以使后续的查询过程可以通过距离筛选得到最优的查询结果。

当然，本步骤中确定距离的方法也可以根据候选空间文本对象与查询对象的形式化表达方式的不同进行变化，具体的变化形式和方式应视实际应用环境做选择，在此不做限定。

S104，确定每个候选空间文本对象在初始化的所有主题之外包括的主题数量，得到每个候选空间文本对象的第一多样性主题数；

在步骤S102的基础上，本步骤旨在确定每个候选空间文本对象在初始化的所有主题之外包括的主题数量，得到该候选空间文本对象对应的第一多样性主题数。

由于在一般的空间关键字搜索中，选取过程只考虑到候选空间文本对象和查询对象之间的距离，即最终的结果数据为与查询对象最短的候选空间文本对象组成，这样会使结果数据与查询对象非常相似。但是这样所得到的结果无法满足用户对于查询过程的多样化需求，即在该查询对象一定的相似程度下，要求查询结果尽可能的多样化，也就是说结果数据包括跟某个关键词主题相关的多种类型的兴趣点。

进一步的，本步骤中通过某一个候选空间文本对象在初始化的所有主题之外所包括的主题数量确定该候选空间文本对象的多样性主题数。其中，主题是候选空间文本对象与查询对象所共有的一种属性，也是在空间文本搜索中使用的一般属性。

其中，初始化的所有主题即为目前初始化得到的结果集中所有空间文本对象所包括的主题，进一步的，就可以通过该所有主题的范围之外的主题数量度量出某个候选空间文本对象的主题多样性。具体的当实际使用时，可以在空间文本对象的搜索过程中通过该多样性主题数选取搜索的结果数据，提高搜索结果的多样性，以使结果数据符合用户的多样化需求。

所以，上述的结果集为在本实施例中进行初始化处理得到的，并且结果集中所添加的数据是不断循环选取候选集中的数据得到的。如果此时是第一轮循环，那么初始化处理得到的结果集可以不存在空间文本对象，也就没有相应的主题范围。初始化处理也可以是通过其他的搜索方法对结果集中添加一定数量的结果数据，之后再通过本实施例的方法添加更多的空间文本对象，此时初始化处理得到的结果集也就存在一定的主题范围，根据该主题范围就可以确定出候选空间文本对象的第一多样性主题数。

可以想到的是，本实施例中的初始化处理过程还可以是另一个空间关键字搜索的过程，也就是本实施可以应用在其他的空间关键字搜索过程之后，以提高该空间关键字搜索的多样性。进一步的，可以在本实施例的空间关键字搜索过程之后使用其他的搜索方法，选择更合适的搜索结果。

需要说明的是，本步骤与步骤S103在执行顺序上并无先后关系。

S105，根据所有距离系数和所有第一多样性主题数确定每个候选空间文本对象的第一边界成本；其中，距离系数与第一边界成本为正比关系，第一多样性主题数与第一边界成本为反比关系；

在步骤S103和S104的基础上，本步骤旨在根据得到的距离系数和第一多样性主题数确定该候选空间文本对象的第一边界成本。也就是在步骤S103和步骤S104所得到的距离系数和第一多样性主题数的基础上，引出边界成本作为统一的度量对象相似性和多样性的度量方式。并且使距离系数与第一边界成本为正比关系，第一多样性主题数与第一边界成本为反比关系，也就是边界成本越小代表距离系数越小同时第一多样性主题数越大。

S106，选取第一边界成本最小的候选空间文本对象加入到结果集。

在步骤S105的基础上，本步骤旨在选取第一边界成本最小的候选空间文本对象加入到结果集中。也就是将候选集中距离系数与第一多样性主题数最好的候选空间文本对象选取作为结果数据的之一，提高了结果数据的多样性，满足了用户的多样性需求。

综上，本实施例通过距离系数和多样性主题数确定每个候选空间文本对象的边界成本，选取边界成本最小的候选空间文本对象至结果集中，使结果集中的对象与查询对象距离较短并且多样性主题数保持在较高状态，也就是在基于距离系数选择的同时考虑到每个搜索结果的多样性，提高结果集的多样性，满足用户多样化的搜索需求。

可选的，本实施例中还可以根据得到的查询对象使用索引结构按照贪心算法从所有空间文本对象中选取多个候选空间文本对象，得到候选集。

本可选方案的主要目的是从所有空间文本对象中选取出候选空间文本对象，得到候选集，特别之处是通过贪心算法选取出合适的候选空间文本对象。主要因为上述实施例中基于边界成本的结果数据选取方法不能保证结果数据的多样化性和距离同时满足一定要求，所以为了提高查询结果的质量，本可选方案中使用贪心算法的选取得到多个候选空间文本对象，得到候选集。

本可选方案的核心思想是按照空间文本对象与查询对象之间的空间距离将他们分层不同的层，然后在每一层选取特定数量的空间文本对象，使这些空间文本对象拥有的未被覆盖主题数比同一层的其他空间文本对象多。

具体的，给定一个空间对象集合D，对于一个空间关键字查询q，假设在D上能找到同时满足多样化需求即覆盖足够多的主题和最小化距离函数的k个空间对象，它们离查询q的空间距离之和为M。我们假设M的值可能很小，所以可以从距离以查询q的位置为圆心、半径较小的圆形范围内开始找起，如果这个范围内找到的结果不能覆盖足够的主题，则扩大M在更大的范围内搜索。对于每一个圆形搜索范围，将范围内的对象按它们与查询点的距离划分成不同的层，然后在每一层选取合适的对象。

进一步的，还可以将该可选方案中使用的贪心算法在获取结果数据之后进行相应的搜索，也就是将本实施例中得到结果集通过贪心算法重新筛选，可以提高原有的结果集的准确率，即使结果集与查询对象的距离更近。

基于上述实施例，可以对其中所描述的空间文本对象、查询对象等形式化表达为如下形式。

1)空间文本对象形式化表达

使用2维空间中的一个带有位置坐标和文本描述的点o＝{loc,term,topic}来表示一个空间文本对象。其中，loc由经纬度构成，表示对象o所在的位置；term是用来描述对象o的一组关键字；topic表示对象o所覆盖的主题集合。

例如，在地图应用环境中，一个空间关键字对应了一个兴趣点，即商家或机构，***记录了它的位置和文本描述，这个兴趣点所覆盖的主题可以由人工标记或者通过自然语言处理技术分析该它的评论信息来获取。为了方便，也可以将空间文本对象称为空间对象。

基于上述定义，我们用D来表示数据库中的所有空间文本对象的集合，即：

2)空间关键字查询的形式化表达

空间关键字查询形式化为q＝{loc,term}，q即为查询对象。其中，loc是查询点即用户所在的位置，在二维空间用经纬度坐标表示；term是用户所输入的一组关键字，例如“中餐馆”，用于描述用户的查询意图。

对给定查询对象q，搜索引擎从数据集D中挑选与q最为匹配的k个最相似的空间文本对象作为返回的结果数据。其中，结果数据为距离很近，文本相关程度大且结果之间多样化程度高的一组空间文本对象的集合。

3)候选集的形式化表达

给定一个空间文本对象数据库D，一个空间关键字查询对象q＝{loc,term}和一个阈值Thre，D的一个子集S(即

)被称为候选集。当且仅当满足两个条件：

关键词限制，S中的每一个空间文本对象o包含所有的查询关键字，即

多样化要求，S中所有空间文本对象覆盖不同的主题数之和不小于Thre，即

4)空间文本对象的距离函数的形式化表达

给定一个空间文本对象数据库D，一个空间关键字查询对象q＝{loc,term}，对于D的元素个数为k的一个子集

我们定义集合R与q的距离函数为：

其中Dist(q,o)表示空间文本对象o与查询对象q之间的距离，Dist_max表示数据集D中的空间文本对象与查询对象的最远距离。如上所示，查询对象与空间文本对象集合的距离经过归一化处理，即取值是在[0,1]区间。

5)搜索问题的形式化定义

给定一个空间文本对象数据集D，一个空间关键字查询q＝{loc,term}，一个距离函数f和阈值Thre，考虑空间文本对象与查询查询之间的空间距离、文本阈值以及主题覆盖度，拟返回满足以下两个相似性度量条件的k个空间文本对象：

1、这k个空间文本对象组成候选集R，即

且

2、f(q,R)取得最小值。

请参考图2，图2为本申请实施例所提供的基于空间关键字搜索的结果数据选取方法的后续选取过程的流程图。

基于上一实施例，本实施例主要针对上一实施例中当第一边界成本最小的候选空间文本对象加入到结果集后做的一个扩充说明，前述部分与上一实施例大体相同，相同部分可以参考上一实施例，在此不做赘述。

本实施例可以包括：

S201，当选取第一边界成本最小的候选空间文本对象加入到结果集时，确定每个候选空间文本对象在第一边界成本最小的候选空间文本对象加入后的所有主题之外包括的主题数量，得到每个候选空间文本对象的第二多样性主题数；

本步骤旨在当上一实施例中将第一边界成本最小的候选空间文本对象加入到结果集时，此时相当于对结果集中的空间文本对象进行变动，也就是结果集所包含的主题范围发生了相应的变化，为了继续提高从候选集中选取候选空间文本对象的多样性，就需要确定每个候选空间文本对象在第一边界成本最小的候选空间文本对象加入后的所有主题之外包括的主题数量，得到第二多样性主题数。

由于结果集加入了第一实施例的中所选取的候选空间文本数据，相应的结果集中的所包括的主题范围也发了变化，也就是度量的主题范围也发生了变化，因此本步骤的目的主要是在第二结果集的基础上重新计算所有候选空间文本对象的多样性主题数，即第二多样性主题数。

S202，根据所有距离系数和所有第二多样性主题数确定对应的候选空间文本对象的第二边界成本；其中，距离系数与第二边界成本为正比关系，第二多样性主题数与第二边界成本为反比关系；

在步骤S202的基础上，本步骤旨在根据上一实施例的距离系数和第二多样性主题数确定第二边界成本。具体内容与上一实施例大体相同，可以参考上衣实施例，在此不做赘述。

S203，选取第二边界成本最小的候选空间文本对象加入到结果集。

在步骤S202的基础上，本步骤旨在将第二边界成本最小的候选空间文本对象加入到结果集。

由于在空间关键字搜索中每次添加结果数据的所包括的主题范围都发生了相应的变化，因此本实施例旨在说明后续如何添加结果数据，从而保持结果数据的多样性。因此，本实施所说明的步骤可以拓展至多次，只需要在本实施例的基础上做适应性的修改，具体的不再赘述。

请参考图3，图3为本申请实施例所提供的基于空间关键字搜索的结果数据选取方法的索引建立的流程图。

基于上一实施例，本实施例主要是针对上一实施例中如何建立索引结果做的一个具体说明，其他部分可以参考上一实施例，在此不做赘述。

本实施例可以包括：

S301，确定每个空间文本对象的关键字出现次数；

S302，将关键字出现次数小于预设次数的空间文本对象设置为块结构，得到多个块结构；

S303，将关键字出现次数大于等于预设次数的空间文本对象设置为树结构，得到多个树结构；

S304，将所有块结构和所有树结构作为索引结构。

在现有的空间关键字查询中，索引结果可划分为三个类别：即以空间优先的索引结构、以文本优先的索引结构及二者紧密结合的索引结构。空间优先索引结构又可以分为基于R树、网格以及空间填充曲线的索引结构；文本优先索引结构主要基于倒排文件和位图；空间文本结合的索引结构同时紧密结合了这些结构来更加有效过滤一些不符合查询对象要求的空间文本对象。但是，随着数据量的增加，这些索引结构都变得异常庞大，这使得索引的空间占用量直线上升，而且更新速度变慢，影响实际应用中的体验。

因此，本实施例通过每个空间文本对象的关键字出现次数对该对象设置不同的索引结构，也就是对空间文本对象的索引结构进行分级处理，将关键字出现频率较低的对象设置为块结构，已于存放数量较多的对象数据。将关键字出现频率较高的对象设置为树结构，方便进行搜索时进行查找到相关的对象。

并且在搜索对象的过程中，你可以搜索不同的树结构和块结构就可以完成相应的搜索操作。对于符合查询对象条件的树结构，可以以最小边界成本的递增顺序访问其中的对象节点，其中最小边界成本可以定义为：

其中N表示树结构的节点，Dist(q,N.mbr)是N的最小边界矩形离查询的空间距离，|Occur_i＝1|是N的索引结构中出现的次数(即N所覆盖的主题数)。

本申请实施例提供了一种基于空间关键字搜索的结果数据选取方法，可以通过距离系数和多样性主题数确定每个候选空间文本对象的边界成本，选取边界成本最小的候选空间文本对象至结果集中，使结果集中的对象与查询对象距离较短并且多样性主题数保持在较高状态，也就是在基于距离系数选择的同时考虑到每个搜索结果的多样性，提高结果集的多样性，满足用户多样化的搜索需求。

下面对本申请实施例提供的一种基于空间关键字搜索的结果数据选取装置进行介绍，下文描述的一种基于空间关键字搜索的结果数据选取装置与上文描述的一种基于空间关键字搜索的结果数据选取方法可相互对应参照。

请参考图4，图4为本申请实施例所提供的一种基于空间关键字搜索的结果数据选取装置的结构示意图。

本实施例提供一种基于空间关键字搜索的结果数据选取装置，可以包括：

索引建立模块100，用于对多个空间文本对象执行索引结构建立操作，得到索引结构；

候选集获取模块200，用于根据得到的查询对象使用索引结构选取多个候选空间文本对象，得到候选集；

距离系数获取模块300，用于确定每个候选空间文本对象和查询对象的距离，得到每个候选空间文本对象和查询对象的距离系数；

第一多样性主题数获取模块400，用于确定每个候选空间文本对象在初始化的所有主题之外包括的主题数量，得到每个候选空间文本对象的第一多样性主题数；

第一边界成本获取模块500，用于根据所有距离系数和所有第一多样性主题数确定每个候选空间文本对象的第一边界成本；其中，距离系数与第一边界成本为正比关系，第一多样性主题数与第一边界成本为反比关系；

第一结果数据选取模块600，用于选取第一边界成本最小的候选空间文本对象加入到结果集。

基于上述实施例，还可以包括：

第二多样性主题数获取模块，用于当选取第一边界成本最小的候选空间文本对象加入到结果集时，确定每个候选空间文本对象在第一边界成本最小的候选空间文本对象加入后的所有主题之外包括的主题数量，得到每个候选空间文本对象的第二多样性主题数；

第二边界成本获取模块，用于根据所有距离系数和所有第二多样性主题数确定对应的候选空间文本对象的第二边界成本；其中，距离系数与第二边界成本为正比关系，第二多样性主题数与第二边界成本为反比关系；

第二结果数据选取模块，用于选取第二边界成本最小的候选空间文本对象加入到结果集。

其中，该索引建立模块100，可以包括：

关键字出现次数获取单元，用于确定每个空间文本对象的关键字出现次数；

块结构获取单元，用于将关键字出现次数小于预设次数的空间文本对象设置为块结构，得到多个块结构；

树结构获取单元，用于将关键字出现次数大于等于预设次数的空间文本对象设置为树结构，得到多个树结构；

索引结构获取单元，用于将所有块结构和所有树结构作为索引结构。

其中，该候选集获取模块200，可以包括：

候选集获取单元，用于根据得到的查询对象使用索引结构按照贪心算法从所有空间文本对象中选取多个候选空间文本对象，得到候选集。

本申请实施例还提供一种服务器，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上述实施例的结果数据选取方法。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述实施例的结果数据选取方法。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种基于空间关键字搜索的结果数据选取方法、结果数据选取装置、服务器以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种基于空间关键字搜索的结果数据选取方法，其特征在于，包括：

选取所述第一边界成本最小的候选空间文本对象加入到结果集；

2.根据权利要求1所述的结果数据选取方法，其特征在于，对多个空间文本对象执行索引结构建立操作，得到索引结构，包括：

确定每个所述空间文本对象的关键字出现次数；

将所有所述块结构和所有所述树结构作为所述索引结构。

3.根据权利要求2所述的结果数据选取方法，其特征在于，根据得到的查询对象使用所述索引结构选取多个候选空间文本对象，得到候选集，包括：

4.一种基于空间关键字搜索的结果数据选取装置，其特征在于，包括：

第一结果数据选取模块，用于选取所述第一边界成本最小的候选空间文本对象加入到结果集；

5.根据权利要求4所述的结果数据选取装置，其特征在于，所述索引建立模块，包括：

6.根据权利要求5所述的结果数据选取装置，其特征在于，所述候选集获取模块，包括：

7.一种服务器，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至3任一项所述的结果数据选取方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的结果数据选取方法。