CN111782699A

CN111782699A - 一种基于用户历史瓦片浏览记录的兴趣点智能搜索方法

Info

Publication number: CN111782699A
Application number: CN202010688185.5A
Authority: CN
Inventors: 丛杨; 张明远; 刘庆彬; 张伟
Original assignee: Shandong Ruizhi Flight Control Technology Co ltd
Current assignee: Shandong Ruizhi Flight Control Technology Co ltd
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2020-10-16

Abstract

本发明公开一种基于用户历史瓦片浏览记录的兴趣点智能搜索方法，属于人工智能技术领域，通过获取用户的历史瓦片调用记录，并基于用户的历史瓦片调用记录计算用户关注的空间热度，基于字符串的分词匹配方法使用布尔模型查找匹配文档，采用空间热度影响因子优化实用评分函数，并采用优化会后的实用评分函数计算相关度，可以随着用户的不断使用以及根据用户所关注的热点区域为用户推送最大相关结果，使得搜索趋于个性化和智能化；也即通过获取和分析用户历史瓦片浏览记录，计算出用户关注的空间热度，并将空间热度作为影响因子对评分算法进行优化，提高兴趣点搜索的精度和准确性。

Description

一种基于用户历史瓦片浏览记录的兴趣点智能搜索方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于用户历史瓦片浏览记录的兴趣点智能搜索方法。

背景技术

已有技术中的兴趣点搜索方法为基于字符串的分词匹配方法以及基于全文检索的匹配方法。

其中，基于字符串的分词匹配方法又称为基于词典的方法或者机械匹配法，首先，对搜索关键词进行地址分词，兴趣点的获取需要对搜索关键词进行拆分并进行语义标准化；然后，根据特定的策略将待拆分的字符串和机器词典中包含的各个词条进行匹配，根据匹配程度计算搜索结果的相关得分；最后，根据相关得分排序获得搜索结果，根据搜索结果匹配相关位置点坐标。

基于字符串的分词匹配方法由于并未考虑用户的兴趣，仅按照分词结果与数据库进行匹配，单一返回搜索结果，致使不同的人群使用相同的检索词却得到相同的搜索结果。因此，及时地了解用户需求并实现用户需求管理和主动推送，对搜索方法提出了更高的要求。

基于全文检索的匹配方法是指计算机索引程序对文章中的每一个词进行扫描并建立索引。在用户查询过程中，检索程序就可以按照之前构建的索引进行查询，然后将查询得到的结果返回给用户的检索方式。基于全文检索的地址匹配模型将地址数据库作为文本库，待匹配的地址作为检索的输入条件实现地址的匹配和查询。

全文检索技术实现的地理编码方法采用分词算法和搜索引擎对数据库建立索引并实现地址的查询和匹配。张林曼等基于开放源代码的全文检索引擎工具包Lucene设计了一种城市地址匹配引擎来解决模糊检索的问题，在按序存储数据源的同时建立一个有序的关键字索引列表，将关键字和记录之间的映射关系储存起来，包括关键字和记录编号的一一对应关系，关键字在记录中出现的次数、频率、位置的映射等。采用全文检索技术实现GIS中的地址定位，通过Lucene构建数据库中存储地址数据的索引。然后，对中文地址分词结果进行检索和评分，按照评分的高低对输出的结果进行排序。

基于全文检索的匹配方法的特点是需要借助于搜索引擎，但是只局限于关键词的匹配和对应，虽然能够获得较快的匹配速度和较高的匹配效率，但是匹配的准确率相对较低。

发明内容

本发明提供一种基于用户历史瓦片浏览记录的兴趣点智能搜索方法，通过获取和分析用户历史瓦片浏览记录，计算出用户关注的空间热度，并将空间热度作为影响因子对评分算法进行优化，提高兴趣点搜索的精度和准确性。

本发明提供的具体技术方案如下：

本发明提供的一种基于用户历史瓦片浏览记录的兴趣点智能搜索方法包括：

获取用户的历史瓦片调用记录，并基于用户的历史瓦片调用记录计算用户关注的空间热度，其中，用户关注的空间热度代表用户对某一区域的关注程度；

基于字符串的分词匹配方法使用布尔模型查找匹配文档，采用空间热度影响因子优化实用评分函数，并采用优化会后的实用评分函数计算相关度。

可选的，所述基于用户的历史瓦片调用记录计算用户关注的空间热度，具体为：

从日志数据库中获取日志数据，并对日志数据进行过滤和筛选，获取用户调用的网络瓦片服务路径和调用次数；

通过瓦片浏览记录使用Elasticsearch对网络瓦片服务路径进行解析，获得瓦片具***置、服务分辨率、范围、起始点坐标、瓦片名称、路径、缩放等级、行列号、调用次数，并根据瓦片具***置、服务分辨率、范围、起始点坐标、瓦片名称、路径、缩放等级、行列号、调用次数计算出对应瓦片的地理坐标；

根据地理坐标进行数据库匹配得出所在地区，通过调用次数和调用瓦片所在地名称得到用户关注的空间热度。

可选的，优化会后的实用评分函数的计算公式如下：

其中，coord(q，d)为协调因子，代表基于文档中包含查询的项个数；queryNorm为每一个查询的归一化值，为每一个查询项权重的平方和；idf(t)为逆向文档频率，用来衡量项的唯一性，代表关键词在集合所有文档里出现的频率；tf(t，in，d)是词在文档中出现的频度；num_k为调用次数；λ_k为搜索关键词与空间热度之间的匹配程度，B_k为空间热度权值；t.getBoost为查询时候查询项加权；norm(t，d)为长度相关的加权因子。

可选的，所述逆向文档频率idf(t)采用如下公式计算：

idf(t)＝1+log[numDocs/(d)ocFreq+1]

其中，numDocs为索引中文档数量，docFreq是所有包含该词的文档数。

本发明的有益效果如下：

本发明实施例提供的一种基于用户历史瓦片浏览记录的兴趣点智能搜索方法，通过获取用户的历史瓦片调用记录，并基于用户的历史瓦片调用记录计算用户关注的空间热度，基于字符串的分词匹配方法使用布尔模型查找匹配文档，采用空间热度影响因子优化实用评分函数，并采用优化会后的实用评分函数计算相关度，可以随着用户的不断使用以及根据用户所关注的热点区域为用户推送最大相关结果，使得搜索趋于个性化和智能化；也即通过获取和分析用户历史瓦片浏览记录，计算出用户关注的空间热度，并将空间热度作为影响因子对评分算法进行优化，提高兴趣点搜索的精度和准确性。

附图说明

图1为本发明实施例的一种基于用户历史瓦片浏览记录的兴趣点智能搜索方法的流程示意图。

具体实施方式

下面将结合图1对本发明实施例的一种基于用户历史瓦片浏览记录的兴趣点智能搜索方法进行详细的说明。

参考图1所示，本发明实施例提供的一种基于用户历史瓦片浏览记录的兴趣点智能搜索方法包括如下步骤：

步骤100：获取用户的历史瓦片调用记录，并基于用户的历史瓦片调用记录计算用户关注的空间热度，其中，用户关注的空间热度代表用户对某一区域的关注程度。

具体的，从日志数据库中获取日志数据，并对日志数据进行过滤和筛选，获取用户调用的网络瓦片服务路径和调用次数；通过瓦片浏览记录使用Elasticsearch对网络瓦片服务路径进行解析，获得瓦片具***置、服务分辨率、范围、起始点坐标、瓦片名称、路径、缩放等级、行列号、调用次数，并根据瓦片具***置、服务分辨率、范围、起始点坐标、瓦片名称、路径、缩放等级、行列号、调用次数计算出对应瓦片的地理坐标；根据地理坐标进行数据库匹配得出所在地区，通过调用次数和调用瓦片所在地名称得到用户关注的空间热度。

其中，空间热度是指用户对某一区域的关注程度，某区域的空间热度大则表示该区域为用户最有关注的区域。首先从日志数据库中获取日志数据，对日志数据进行过滤筛选，获得用户调用的网络瓦片服务(WMTS)路径和调用次数。采用Filebeat进行日志收集。由于elastic.co公司对filebeat提供了最全面的支持，使其接入目前普遍应用的分析和检索***Elasticsearch更为简单，且Filebeat较logstash有更小的资源额外开销，代码量小、优化方便，因此，filebeat方法相较于传统日志的采集具有更优的性能。而且由于filebeat收集到的数据存在信息冗余，需结合Elasticsearch对搜索结果进行二次筛选剔除无效数据。

使用Elasticsearch对服务路径进行解析，获得瓦片具***置、服务分辨率、范围、起始点坐标。通过瓦片浏览记录，能够获取到瓦片名称、路径、缩放等级、行列号、调用次数。根据这些信息计算出对应瓦片的地理坐标，根据地理坐标进行数据库匹配得出所在地区，通过调用次数和调用瓦片所在地名称得到用户关注空间热度。其中，地理坐标计算公式如下：

lon＝x×(res×twidth)+XOrigin+(twidth/2×res)

lat＝YOrigin-y×(res×theight)+(res×theight/2)

式中，lon为中心点纬度值，lat为中心点精度值，x为瓦片行号，y为瓦片列号，res为分辨率等级，twidth为瓦片长度，theight为瓦片宽度，XOrigin为x轴起始点，YOrigin为y轴起始点。

步骤200：基于字符串的分词匹配方法使用布尔模型查找匹配文档，采用空间热度影响因子优化实用评分函数，并采用优化会后的实用评分函数计算相关度。

优化会后的实用评分函数的计算公式如下：

其中，coord(q，d)为协调因子，代表基于文档中包含查询的项个数，协调因子会对包含更多搜索项的文档进行类似AND的加权；queryNorm为每一个查询的归一化值，为每一个查询项权重的平方和；idf(t)为逆向文档频率，用来衡量项的唯一性，代表关键词在集合所有文档里出现的频率；tf(t，in，d)是词在文档中出现的频度；num_k为调用次数；λ_k为搜索关键词与空间热度之间的匹配程度，B_k为空间热度权值；t.getBoost为查询时候查询项加权；norm(t，d)为长度相关的加权因子。

具体的，queryNorm为每个査询的归一化值，是每个查询项权重的平方和。其中，字段越短，字段的权重越高。词出现在类似标题title这样的字段，比它出现在内容body这样的字段中的相关度更高。字段长度的查询归一值queryNorm是字段中词数平方根的倒数。

idf(t)为逆向文档频率，是用来衡量项的“唯一”性，是关键词在集合所有文档里出现的频率，频次越高，权重越低。出现频率较高的term具有较低的idf,出现较少的term具有较高的idf。逆向文档频率是索引中文档数量除以所有包含该词的文档数，然后求其对数。逆向文档频率idf(t)采用如下公式计算：

idf(t)＝1+log[numDocs/(d)ocFreq+1]其中，numDocs为索引中文档数量，docFreq是所有包含该词的文档数。

tf(t，in，d)是词在文档中出现的频度，其中频度越高，权重越高。多次提到同一词的字段比只提到1次的更相关。词频的计算为词t在文档d的词频(tf)是该词在文档中出现次数的平方根。num_k为调用次数。λ_k为搜索关键词与空间热度之间的匹配程度，Bk为空间热度权值，其计算公式为：

其中，T_k为瓦片k调用次数，T_j为所有瓦片总调用次数，B_k表示归一权值。

示例的，本发明实验数据为山东省枣庄市滕州市兴趣点数据，使用Elasticsearch构建索引数据库，采用Web前端技术搭建搜索框架，通过实验数据对本发明实施例的一种基于用户历史瓦片浏览记录的兴趣点智能搜索方法进行实验验证。具体验证过程如下：用Elasticsearch检索出用户的瓦片调用日志数据。对搜索结果进行筛选：过滤调用Tilematrix小于13的瓦片使用记录结果(当用户搜索到符合需求兴趣点时往往会放大地图查看其属性信息，所以当瓦片缩放等级高时对应的兴趣点极有可能是用户感兴趣的，经多次试验以缩放等级13为界限过滤效果最好)。获取调用瓦片的Tilematrix、TileCol、TileRow，计算瓦片所在中心点坐标及瓦片范围。使用优化的兴趣点搜索方法与基于字符串的分词匹配方法进行对比实验，通过6种不同的检索词进行实验，每一个检索词分别进行50次搜索比较返回结果的情况，计算相应的查准率。

根据上述实验和计算，使用基于字符串的分词匹配方法和本发明算法分别对同一数据进行实验得出查准率对比结果，比较结果如下表1所示。

表1采用本搜索方法与基于字符串的分词匹配方法实验数据比较

经过实验两种方法之间的结果对比，本发明实施例在日志数据为空的情况下与基于字符串的分词匹配方法的查准率近乎相同，但随着用户历史瓦片浏览记录数据的积累，本发明实施例优化后的搜索方法效果显著提升而基于字符串的分词匹配方法的效果基本没有变化。说明本发明提出的方法可以随着用户的不断使用及根据用户所关注的热点区域为用户推送最大相关结果，使得搜索趋于个性化、智能化。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于用户历史瓦片浏览记录的兴趣点智能搜索方法，其特征在于，所述兴趣点智能搜索方法包括：

2.根据权利要求1所述的兴趣点智能搜索方法，其特征在于，所述基于用户的历史瓦片调用记录计算用户关注的空间热度，具体为：

3.根据权利要求1或2所述的兴趣点智能搜索方法，其特征在于，优化会后的实用评分函数的计算公式如下：

4.根据权利要求3所述的兴趣点智能搜索方法，其特征在于，所述逆向文档频率idf(t)采用如下公式计算：

idf(t)＝1+log[numDocs/(d)ocFreq+1]