CN111858787A - 一种poi信息获取的方法及装置 - Google Patents

一种poi信息获取的方法及装置 Download PDF

Info

Publication number
CN111858787A
CN111858787A CN201910907458.8A CN201910907458A CN111858787A CN 111858787 A CN111858787 A CN 111858787A CN 201910907458 A CN201910907458 A CN 201910907458A CN 111858787 A CN111858787 A CN 111858787A
Authority
CN
China
Prior art keywords
target
named entity
poi
poi information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910907458.8A
Other languages
English (en)
Other versions
CN111858787B (zh
Inventor
陶言祺
陈欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201910907458.8A priority Critical patent/CN111858787B/zh
Publication of CN111858787A publication Critical patent/CN111858787A/zh
Application granted granted Critical
Publication of CN111858787B publication Critical patent/CN111858787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种POI信息获取的方法及装置;该方法包括:获取用户通过客户端输入的检索信息,并将检索信息输入预先训练的命名实体识别模型中,识别检索信息中的命名实体;若识别出的命名实体中包括用于表征地理位置的目标命名实体,则根据目标命名实体确定目标检索区域;目标检索区域以与目标命名实体对应的POI信息为中心;根据命名实体中除目标命名实体的其他命名实体,从目标检索区域内检索并获取与检索信息对应的至少一条目标POI信息。该方法能够通过对检索信息中实体的类别进行识别,并通过识别出的能够表征地理位置的目标命名实体和其他命名实体进行分步检索获取目标POI信息,提升POI信息获取的准确率。

Description

一种POI信息获取的方法及装置
技术领域
本申请涉及信息检索技术领域,具体而言,涉及一种POI信息获取的方法及装置。
背景技术
信息检索在很多领域占据着重要的地位。在很多应用场景中,会根据用户输入的检索信息为用户检索获取和展示多个检索结果。例如在网约车领域,用户会通过客户端的人机交互界面输入用于描述其目的地的检索信息,客户端客户端会根据用户输入的检索信息进行POI的获取。在数据库中,兴趣点(PointofInterest,POI)的存储形式一般为:建筑物(或者目标地)的名称与该名称对应的地理位置坐标。检索结果的获取方式一般为基于用户输入的检索信息中的关键词,与数据库中存储的一定区域范围内的各个POI进行匹配,并将匹配成功的POI作为检索结果进行获取。关键词一般为检索信息中的命名实体,命名实体主要包括人名、地名、机构名、专有名词等。POI的命名实体类型通常为地名、机构名或者专有名词。
但是实际上,用户在检索时输入的检索信息通常会包括两个或者多个命名实体;当前的检索策略存在获取检索信息对应的检索结果时,往往无法挖掘出检索信息的潜在涵义,所获取的检索结果往往并非是用户想要真正获得的结果,存在获取POI获取准确率低的问题。
发明内容
有鉴于此,本申请的目的在于提供一种POI信息获取的方法及装置,能够通过对检索信息中实体的类别进行识别,并通过识别出的能够表征地理位置的目标命名实体和其他命名实体进行分步检索获取目标POI信息,提升POI信息获取的准确率。
第一方面,提供一种兴趣点POI信息获取的方法,该信息获取方法包括:
获取用户通过客户端输入的检索信息,并将所述检索信息输入预先训练的命名实体识别模型中,识别所述检索信息中的命名实体;
若识别出的所述命名实体中包括用于表征地理位置的目标命名实体,则根据所述目标命名实体确定目标检索区域;所述目标检索区域以与所述目标命名实体对应的POI信息为中心;
根据所述命名实体中除所述目标命名实体的其他命名实体,从所述目标检索区域内检索并获取与所述检索信息对应的至少一条目标POI信息。
一种可选实施方式中,采用下述方式训练所述命名实体识别模型:
获取多个样本文本,以及与每个所述样本文本对应的标签标注序列;所述标签标注序列中包括多个与构成所述样本文本的多个字符串一一对应的实体类型标注标签;
针对每个所述样本文本,将该样本文本输入至条件随机场模型,确定与该样本文本对应的多个标签预测序列中每个标签预测序列分别对应的得分;所述标签标注序列为多个所述标签预测序列中的一个;
根据所述得分,对所述条件随机场模型进行训练,得到所述命名实体识别模型。
一种可选实施方式中,所述确定与所述样本文本对应的多个标签预测序列中每个标签预测序列分别对应的得分,包括:
基于所述条件随机场模型,针对每个标签预测序列,根据概率转移矩阵,确定该标签预测序列中每两个位置相邻的预测标签对应的转移概率;
根据该标签预测序列中每两个位置相邻的预测标签对应的转移概率,确定该标签预测序列对应的得分。
一种可选实施方式中,所述根据所述得分,对所述条件随机场模型进行训练,包括:
根据各个所述标签预测序列对应的得分,以及与所述标签标注序列对应的标签预测序列的得分,确定模型损失;
根据所述模型损失,调整所述条件随机场模型的参数,完成对所述条件随机场模型的本轮训练;
将经过多轮训练的条件随机场模型确定为所述命名实体识别模型。
一种可选实施方式中,所述根据所述目标命名实体确定目标检索区域,包括:
根据所述目标命名实体进行检索并获取与所述目标命名实体对应的至少一条POI信息;所述POI信息中包括POI名称以及地理位置信息;
针对各条所述POI信息,以该POI信息中的地理位置信息为中心,确定与该POI信息对应的区域范围;
将各条所述POI信息分别对应的区域范围,确定为所述目标检索区域。
一种可选实施方式中,所述根据所述目标命名实体进行检索并获取与所述目标命名实体对应的至少一条POI信息,包括:
以所述目标命名实体为检索的关键字,从POI数据库中获取多条与所述目标命名实体相关的备选POI信息;
确定各条备选POI信息与所述目标命名实体的相关度;
根据各条备选POI信息与所述目标命名实体的相关度大小,所述备选POI信息中选择至少一条与所述目标命名实体对应的POI信息。
一种可选实施方式中,所述确定各条备选POI信息与所述目标命名实体的相关度,包括:
基于客户端的当前位置信息,与各条所述备选POI信息中的地理位置信息,确定各条所述备选POI信息与所述目标命名实体的相关度;
或者,
基于所述目标命名实体,与各条所述备选POI中的POI名称中相同字符的数量,确定各条所述备选POI信息与所述目标命名实体的相关度。
一种可选实施方式中,所述根据所述目标命名实体进行检索并获取与所述目标命名实体对应的至少一条POI信息,包括:
以所述目标命名实体为检索的关键字,从POI数据库中获取多条与所述目标命名实体相关的备选POI信息;
按照各条所述备选POI信息中的地理位置信息,对各条所述备选POI信息进行聚类,形成多个POI组;其中,每个所述POI组中的任一一条备选POI信息与该POI组中至少一条其他POI信息之间的距离不大于预设的距离阈值;
针对每个所述POI组,根据该POI组中的各条备选信息,确定与所述目标命名实体对应的POI信息。
一种可选实施方式中,所述针对每个所述备选POI组中包含的各个备选POI信息,确定与所述目标命名实体对应的POI信息,包括:
针对每个备选POI组,若该备选POI组中备选POI信息的数量为1,则将该备选POI组中的备选POI信息确定为与所述目标命名实体对应的POI信息;
若该备选POI组中备选POI信息的数量大于1,则根据该备选POI组中各条备选POI信息中的地理位置信息,确定该备选POI组对应的中心POI信息,并将该中心POI信息确定为与所述目标命名实体对应的POI信息。
一种可选实施方式中,所述根据所述目标命名实体确定目标检索区域之前,还包括:
判断识别出的所述命名实体中,是否包括除所述目标命名实体的其他命名实体;
所述根据所述目标命名实体确定目标检索区域,包括:
在识别出的所述命名实体中包括除所述目标命名实体的其他命名实体时,根据所述目标命名实体确定所述目标检索区域;
在识别出的所述命名实体中不包括除所述目标命名实体的其他命名实体时,根据所述目标命名实体进行检索获取与所述检索信息对应的至少一条目标POI信息。
第二方面,提供一种兴趣点POI信息获取装置,该信息获取装置包括:
识别模块,用于获取用户通过客户端输入的检索信息,并将所述检索信息输入预先训练的命名实体识别模型中,识别所述检索信息中的命名实体;
确定模块,用于在识别出的所述命名实体中包括用于表征地理位置的目标命名实体时,根据所述目标命名实体确定目标检索区域;所述目标检索区域以与所述目标命名实体对应的POI信息为中心;
检索模块,用于根据所述命名实体中除所述目标命名实体的其他命名实体,从所述目标检索区域内检索并获取与所述检索信息对应的至少一条目标POI信息。
一种可选实施方式中,还包括:模型训练模块,用于采用下述方式训练所述命名实体识别模型:
获取多个样本文本,以及与每个所述样本文本对应的标签标注序列;所述标签标注序列中包括多个与构成所述样本文本的多个字符串一一对应的实体类型标注标签;
针对每个所述样本文本,将该样本文本输入至条件随机场模型,确定与该样本文本对应的多个标签预测序列中每个标签预测序列分别对应的得分;所述标签标注序列为多个所述标签预测序列中的一个;
根据所述得分,对所述条件随机场模型进行训练,得到所述命名实体识别模型。
一种可选实施方式中,所述模型训练模块,用于采用下述方式确定与所述样本文本对应的多个标签预测序列中每个标签预测序列分别对应的得分:
基于所述条件随机场模型,针对每个标签预测序列,根据概率转移矩阵,确定该标签预测序列中每两个位置相邻的预测标签对应的转移概率;
根据该标签预测序列中每两个位置相邻的预测标签对应的转移概率,确定该标签预测序列对应的得分。
一种可选实施方式中,所述模型训练模块,用于采用下述方式根据所述得分,对所述条件随机场模型进行训练:
根据各个所述标签预测序列对应的得分,以及与所述标签标注序列对应的标签预测序列的得分,确定模型损失;
根据所述模型损失,调整所述条件随机场模型的参数,完成对所述条件随机场模型的本轮训练;
将经过多轮训练的条件随机场模型确定为所述命名实体识别模型。
一种可选实施方式中,所述确定模块,用于采用下述方式根据所述目标命名实体确定目标检索区域:
根据所述目标命名实体进行检索并获取与所述目标命名实体对应的至少一条POI信息;所述POI信息中包括POI名称以及地理位置信息;
针对各条所述POI信息,以该POI信息中的地理位置信息为中心,确定与该POI信息对应的区域范围;
将各条所述POI信息分别对应的区域范围,确定为所述目标检索区域。
一种可选实施方式中,所述确定模块,用于采用下述方式根据所述目标命名实体进行检索并获取与所述目标命名实体对应的至少一条POI信息:
以所述目标命名实体为检索的关键字,从POI数据库中获取多条与所述目标命名实体相关的备选POI信息;
确定各条备选POI信息与所述目标命名实体的相关度;
根据各条备选POI信息与所述目标命名实体的相关度大小,所述备选POI信息中选择至少一条与所述目标命名实体对应的POI信息。
一种可选实施方式中,所述确定模块,用于采用下述方式确定各条备选POI信息与所述目标命名实体的相关度:
基于客户端的当前位置信息,与各条所述备选POI信息中的地理位置信息,确定各条所述备选POI信息与所述目标命名实体的相关度;
或者,
基于所述目标命名实体,与各条所述备选POI中的POI名称中相同字符的数量,确定各条所述备选POI信息与所述目标命名实体的相关度。
一种可选实施方式中,所述确定模块,用于采用下述方式根据所述目标命名实体进行检索并获取与所述目标命名实体对应的至少一条POI信息:
以所述目标命名实体为检索的关键字,从POI数据库中获取多条与所述目标命名实体相关的备选POI信息;
按照各条所述备选POI信息中的地理位置信息,对各条所述备选POI信息进行聚类,形成多个POI组;其中,每个所述POI组中的任一一条备选POI信息与该POI组中至少一条其他POI信息之间的距离不大于预设的距离阈值;
针对每个所述POI组,根据该POI组中的各条备选信息,确定与所述目标命名实体对应的POI信息。
一种可选实施方式中,所述确定模块,用于采用下述方式针对每个所述备选POI组中包含的各个备选POI信息,确定与所述目标命名实体对应的POI信息:
针对每个备选POI组,若该备选POI组中备选POI信息的数量为1,则将该备选POI组中的备选POI信息确定为与所述目标命名实体对应的POI信息;
若该备选POI组中备选POI信息的数量大于1,则根据该备选POI组中各条备选POI信息中的地理位置信息,确定该备选POI组对应的中心POI信息,并将该中心POI信息确定为与所述目标命名实体对应的POI信息。
一种可选实施方式中,还包括:检测模块,用于在所述根据所述目标命名实体确定目标检索区域之前,判断识别出的所述命名实体中,是否包括除所述目标命名实体的其他命名实体;
所述确定模块,具体用于:
在识别出的所述命名实体中包括除所述目标命名实体的其他命名实体时,根据所述目标命名实体确定所述目标检索区域;
在识别出的所述命名实体中不包括除所述目标命名实体的其他命名实体时,根据所述目标命名实体进行检索获取与所述检索信息对应的至少一条目标POI信息。
第三方面,本申请实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面的第一方面中任一种可能的实施方式中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面的第一方面中任一种可能的实施方式中的步骤。
本申请实施例通过对检索信息中命名实体的识别,首先根据表征地理位置的目标命名实体确定目标检索区域,该目标检索区域是以与目标命名实体对应的POI为中心的区域;然后识别出的命名实体中除目标命名实体的其他命名实体,从目标检索区域内检索并获取至少一条目标POI信息,进而能够解决当检索信息中包括两个或两个以上的命名实体时,存在的检索结果获取准确率低,检索结果获取少,甚至无法获取检索结果的问题,达到提升检索结果获取的准确率,增加获取检索结果的效果。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种服务***的架构示意图;
图2示出了本申请实施例提供的一种POI信息获取方法的流程图;
图3示出了本申请实施例提供的POI信息获取方法中,训练命名实体识别模型的具体方法的流程图;
图4示出了本申请实施例提供的POI信息获取方法中,确定每个标签预测序列分别对应的得分的具体方法的流程图;
图5示出了本申请实施例提供的POI信息获取方法中,根据目标命名实体确定目标检索区域的具体方法的流程图;
图6示出了本申请实施例提供的一种POI信息获取装置的结构示意图;
图7示出了本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“网约车”,给出以下实施方式。对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕输入网约车平台的检索信息获取与检索信息对应的POI进行描述,但是应该理解,这仅是一个示例性实施例。本申请实施例还可以用于其他领域,例如基于地图软件进行POI位置查询等。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
本申请的一个方面涉及一种POI信息获取***,通过对检索信息中命名实体的识别,首先根据表征地理位置的目标命名实体确定目标检索区域,该目标检索区域是以与目标命名实体对应的POI为中心的区域;然后识别出的命名实体中除目标命名实体的其他命名实体,从目标检索区域内检索并获取至少一条目标POI信息,进而能够解决当检索信息中包括两个或两个以上的命名实体时,存在的检索结果获取准确率低,检索结果获取少,甚至无法获取检索结果的问题,达到提升检索结果获取的准确率,增加获取检索结果的效果。
值得注意的是,在本申请提出申请之前,当用户输入的检索信息包括两个或者多个命名实体时,基于当前的检索策略获取检索结果存在获取的准确率低、获取检索结果少的问题。例如用户输入的检索信息为“维亚大厦肯德基”,其中包括了“维亚大厦”和“肯德基”两个命名实体;通过当前的关键词检索方式获取的检索结果为全区域的肯德基,或者维亚大厦,而用户的真实意图则为“维亚大厦”周边的肯德基。又例如用户输入的检索信息为“新农村圆通快递”,其中包括了“新农村”和“圆通快递”两个关键词,通过当前的关键词检索方式获取的检索结果为全区域新农村,或者全区域圆通快递,用户的真实意图则为新农村附近的圆通快递。
图1是本申请实施例提供的一种获取POI信息的服务***100的架构示意图。例如,服务***100可以是用于诸如出租车、代驾服务、快车、拼车、公共汽车服务、驾驶员租赁、或班车服务之类的运输服务、或其任意组合的在线运输服务平台,还可以是地图导航平台。服务***100可以包括服务器110、网络120、客户端130、和数据库140中的一种或多种。
在一些实施例中,服务器110可以包括处理器。处理器可以处理与服务请求有关的信息和/或数据,以执行本申请中描述的一个或多个功能。例如,处理器可以基于从客户端130获得的检索信息进行POI检索,获取与检索信息对应的目标POI。在一些实施例中,处理器可以包括一个或多个处理核(例如,单核处理器(S)或多核处理器(S))。仅作为举例,处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、专用指令集处理器(Application SpecificInstruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital SignalProcessor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)、或微处理器等,或其任意组合。
在一些实施例中,客户端130对应的设备类型可以是移动设备,比如可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等,也可以是平板计算机、膝上型计算机、或机动车辆中的内置设备等。
在一些实施例中,数据库140可以连接到网络120以与服务***100中的一个或多个组件(例如,服务器110,客户端130等)通信。服务***100中的一个或多个组件可以经由网络120访问存储在数据库140中的数据或指令。在一些实施例中,数据库140可以直接连接到服务***100中的一个或多个组件,或者,数据库140也可以是服务器110的一部分。
下面结合上述图1示出的服务***100中描述的内容,对本申请实施例提供的POI信息获取方法进行详细说明。需要注意的是,该方法既可以由客户端130执行,又可以由服务器110执行。
参照图2所示,为本申请实施例提供的一种POI信息获取方法的流程示意图,该方法包括:
S201:获取用户通过客户端输入的检索信息,并将所述检索信息输入预先训练的命名实体识别模型中,识别所述检索信息中的命名实体。
S202:若识别出的所述命名实体中包括用于表征地理位置的目标命名实体,则根据所述目标命名实体确定目标检索区域;所述目标检索区域以与所述目标命名实体对应的POI信息为中心。
S203:根据所述命名实体中除所述目标命名实体的其他命名实体,从所述目标检索区域内检索并获取与所述检索信息对应的至少一条目标POI信息。
以下分别对上述S201~S203加以说明。
I:在上述S201中,在具体实施中,检索信息一般是用户通过客户端的人机交互界面输入的;在某些情况下,检索信息也可以通过其他途径获得。以用户通过人机交互界面输入检索信息为例,若该POI信息获取方法的执行主体为服务器,则客户端在接收到用户通过人机交互界面输入的检索信息后,会将该检索信息基于与服务器之间的连接发送至服务器;服务器在接收到检索信息后,会将检索信息输入至嵌入在服务器中的命名实体识别模型中,识别检索信息中的命名实体,然后基于识别出的命名实体进行POI的检索。若该POI信息获取方法的执行主体为客户端,则客户端在接收到用户输入的检索信息后,将检索信息输入至嵌入在客户端的命名实体识别模型中,识别检索信息中的命名实体,然后将识别出的命名实体发送给服务器以实现POI信息的检索。
具体地,参见图3所示,本申请实施例提供一种训练命名实体识别模型的具体方法,包括:
S301:获取多个样本文本,以及与每个所述样本文本对应的标签标注序列;所述标签标注序列中包括多个与构成所述样本文本的多个字符串一一对应的实体类型标注标签。
在具体实施中,样本文本一般为历史检索信息;每个历史检索信息中包括至少一个命名实体。样本文本还可以包括POI数据库中获取的针对不同POI的建筑物(或者目标地)的名称。
样本文本一般由至少一个字符串构成;构成样本文本的各个字符串可以仅有一个字符构成,也即每个字符单独构成一个字符串;也可以是由至少一个字符构成,也即按照构成实体的字符构成字符串。
与每个样本文本对应的标签标注序列,是指为各个样本文本中的各个字符标注的实体类型所构成的序列。在本申请中,实体类型一般包括:地理位置、除地理位置以外的其他实体、非命名实体三个大类;其中,还可以根据实际的需要将除地理位置以外的其他实例类型进行更详细的划分。同一个实体在不同情况下,对应的实体类型可能会有所不同;例如样本文本为“维亚大厦肯德基”,此时“维亚大厦”的实体类型为地理位置;若样本文本为“中关村维亚大厦”,此时“维亚大厦”的实体类型为除地理位置以外的其他实体。
每个样本文本对应的标签标注序列,多个与构成所述样本文本的多个字符串一一对应的实体类型标注标签;例如,若构成样本文本的各个字符串中,仅包括一个字符,例如若实体类型“地理位置”用a表示,实体类型“除地理位置以外的其他实体”用b表示;实体类型“非命名实体”用c表示,则对于样本文本“维亚大厦肯德基”,对应的标签标注序列为:a、a、a、a、b、b、b。若构成样本文本的各字符串由至少一个字符构成时,对于样本文本“维亚大厦肯德基”,其中“维亚”、“大厦”和“肯德基”分别构成一个字符串,对应的标签标注序列为,a、a、b。
S302:针对每个所述样本文本,将该样本文本输入至条件随机场模型,确定与该样本文本对应的多个标签预测序列中每个标签预测序列分别对应的得分;所述标签标注序列为多个所述标签预测序列中的一个。
S303:根据所述得分,对所述条件随机场模型进行训练,得到所述命名实体识别模型。
在具体实施中,若所有构成样本文本的字符串均包括一个字符,则直降将样本文本输入至条件随机场模型;若构成样本文本的字符串包括多个字符的情况,则在将每个样本文本输入至条件随机场模型之前,会对样本文本进行分词处理,以每个分词为单位,使用条件随机场模型对样本文本中的各个实体进行预测,并基于预测结果和标签标注序列对条件随机场模型进行训练。
具体地,样本文本对应的多个标签预测序列,是指当前样本文本有可能取到的所有标签序列。
例如,若命名实体的类型包括:地理位置、除地理位置外的其他类别以及非目标命名实体,分别是用A、B和C来表示。对于样本文本来说,在对样本文本进行分词后,得到的字符串包括:S1、S2和S3。则与该样本文本对应的标签预测序列分别为:(A,A,A)、(A,A,B)、(A,B,A)、(A,B,B)、(B,A,A)、(B,A,B)、(B,B,A)、(B,B,B)共8种。类似的,若对样本文本进行分词后得到3个字符串,命名实体的类别有5种,则可能的标签预测序列包括:35种。
参见图4所示,本申请实施例还提供一种确定与所述样本文本对应的多个标签预测序列中每个标签预测序列分别对应的得分的具体方法,包括:
S401:基于所述条件随机场模型,针对每个标签预测序列,根据概率转移矩阵,确定该标签预测序列中每两个位置相邻的预测标签对应的转移概率。
S402:根据该标签预测序列中每两个位置相邻的预测标签对应的转移概率,确定该标签预测序列对应的得分。
在具体实施中,在条件随机场模型中存在一概率转移矩阵A,
Figure BDA0002213697680000111
该概率转移矩阵中的每个元素,表示标签yg转移标签yh的概率,其中,g=1,2,……,nclass;h=1,2,……,nclass,nclass为命名实体类型的数量。
也即,Agh=p(yt=yh|yt-1=yg)。
例如,若有5个分类,则得到的概率转移矩阵为:
Figure BDA0002213697680000121
此处,概率转移矩阵可以预先根据爬取到的语料获取,也可以初始化得到,并在对条件随机场模型进行训练的过程中,将该概率转移矩阵也作为参数调整的目标。
对于输入第i个样本文本Xi=(xi1,xi2,……,xim),其中,m为该样本文本中字符串的数量;对应的标签预测序列Yi=(yi1,yi2,……,yim)的得分为:
Figure BDA0002213697680000122
确定了各个标签预测序列对应的分后,就能够根据各个所述标签预测序列对应的得分,以及与所述标签标注序列对应的标签预测序列的得分,确定模型损失;根据所述模型损失,调整所述条件随机场模型的参数,完成对所述条件随机场模型的本轮训练;将经过多轮训练的条件随机场模型确定为所述命名实体识别模型。
另外,还可以采用其他模型对检索信息中的命名实体进行识别。
Ⅱ:在上述S202中,在基于上述步骤S201识别出检索信息中的各个命名实体后,首先会确定识别出的命名实体中是否包括用于表征地理位置的目标命名实体。若确定识别出的命名实体中包括了目标命名实体,则可基于目标命名实体确定目标检索区域。
具体地,参见图5所示,本申请实施例提供一种根据目标命名实体确定目标检索区域的具体方法,包括:
S501:根据所述目标命名实体进行检索并获取与所述目标命名实体对应的至少一条POI信息;所述POI信息中包括POI名称以及地理位置信息。
在具体实施中,可以采用下述两种方式中任一一种确定与目标命名实体对应的至少一条POI信息:
(1):以所述目标命名实体为检索的关键字,从POI数据库中获取多条与所述目标命名实体相关的备选POI信息;确定各条备选POI信息与所述目标命名实体的相关度;根据各条备选POI信息与所述目标命名实体的相关度大小,所述备选POI信息中选择至少一条与所述目标命名实体对应的POI信息。
此处,确定备选POI信息与目标命名实体的相关度的方式有多种,例如根据备选POI信息中的地理位置信息,以及客户端的当前位置信息,确定各条备选POI信息对应的POI与用户端的距离,然后基于该距离确定各条备选POI信息与目标命名实体的相关度。其中,备选POI信息对应的POI与用户端的距离越小,则相关度相应越大;距离越大,则相关度相应越小。
另外,也可以基于所述目标命名实体,与各条所述备选POI中的POI名称中相同字符的数量,确定各条所述备选POI信息与所述目标命名实体的相关度。相同字符的数量越多,则相关度越大。
在确定了各条备选POI信息与目标命名实体的相关度大小后,可以按照各个POI信息与目标命名实体的相关度的大小,从备选POI信息中选取预设数量的备选POI信息作为与目标命名实体对应的POI信息;或者可以从备选POI信息中选取相关度大于预设阈值的POI信息作为与目标命名实体对应的POI信息;或者可以按照数量的百分比从备选POI信息中选取一定数量的POI信息作为与目标命名实体对应的POI信息。
(2):以所述目标命名实体为检索的关键字,从POI数据库中获取多条与所述目标命名实体相关的备选POI信息;按照各条所述备选POI信息中的地理位置信息,对各条所述备选POI信息进行聚类,形成多个POI组;其中,每个所述POI组中的任一一条备选POI信息与该POI组中至少一条其他POI信息之间的距离不大于预设的距离阈值;针对每个所述POI组,根据该POI组中的各条备选信息,确定与所述目标命名实体对应的POI信息。
此处,在根据目标命名实体获取备选POI的时候,在很多情况下获取的备选POI信息之间也具有很大的相关性,例如目标命名实体包括:“北京南站”,对应的POI信息包括:“北京南站地铁站”、“北京南站南广场”、“北京南站北广场”、“北京南站北入口”、“北京南站东入口”、“北京南站西进口等”。这些备选POI信息与目标命名实体之间的相关度均较大,且这些备选POI信息对应的POI分布在较小的区域范围内。
为了避免根据与目标命名实体对应的不同POI确定不同的目标检索区域发生重叠,进而造成在目标检索区域内进行检索时重复检索,本申请实施例在以目标命名实体为关键字,从POI数据库中获取多条与目标命名实体相关的备选POI信息后,会按照各条备选POI信息中携带的地理位置信息,对各条备选POI信息进行聚类,形成多个POI组。
然后针对每个备选POI组,若该备选POI组中备选POI信息的数量为1,则将该备选POI组中的备选POI信息确定为与所述目标命名实体对应的POI信息;
若该备选POI组中备选POI信息的数量大于1,则根据该备选POI组中各条备选POI信息中的地理位置信息,确定该备选POI组对应的中心POI信息,并将该中心POI信息确定为与所述目标命名实体对应的POI信息。
这里,可以根据该备选POI组中各条备选POI信息中的地理位置信息,首先确定一个中心地理位置信息,然后根据该中心地理位置信息,确定一个与该中心地理位置信息最近的POI信息,作为该中心POI信息。
S502:针对各条所述POI信息,以该POI信息中的地理位置信息为中心,确定与该POI信息对应的区域范围。
S503:将各条所述POI信息分别对应的区域范围,确定为所述目标检索区域。
这里,在确定个与目标命名实体对应的POI信息后,以该POI信息中的地理位置信息为中心,确定一个区域范围作为与该POI信息对应的目标区域范围。
这里,目标区域范围的形状可以根据实际的需要进行设定,例如确定为圆形、矩形等。
Ⅲ:在上述S203中,在确定了目标区域后,就能够根据命名实体中除了目标命名实体以外的其他命名实体为关键字,从POI数据库中检索与检索,获取至少一条目标POI信息。
另外,需要注意的是,在实际中,在基于目标命名实体进行检索时,可能存在获得备选POI信息数量为0的情况,此时,由于无法根据目标命名实体确定目标检索区域,因此此时可以直接使用从检索信息中识别出来的命名实体为关键词进行检索,得到与检索信息对应的目标POI信息。
另外,在另一实施例中,在识别出的所述命名实体中不包括除所述目标命名实体的其他命名实体时,根据所述目标命名实体进行检索获取与所述检索信息对应的至少一条目标POI信息。
本申请实施例通过对检索信息中命名实体的识别,首先根据表征地理位置的目标命名实体确定目标检索区域,该目标检索区域是以与目标命名实体对应的POI为中心的区域;然后根据识别出的命名实体中除目标命名实体的其他命名实体,从目标检索区域内检索并获取至少一条目标POI信息,进而能够解决当检索信息中包括两个或两个以上的命名实体时,存在的检索结果获取准确率低,检索结果获取少,甚至无法获取检索结果的问题,达到提升检索结果获取的准确率,增加获取检索结果的效果。
基于同一发明构思,本申请实施例中还提供了与POI信息获取对应的POI信息装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述POI信息获取方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图6所示,为本申请实施例提供的一种POI信息获取装置的示意图,所述装置包括:识别模块61、确定模块62、检索模块63;其中:
识别模块61,用于获取用户通过客户端输入的检索信息,并将所述检索信息输入预先训练的命名实体识别模型中,识别所述检索信息中的命名实体;
确定模块62,用于在识别出的所述命名实体中包括用于表征地理位置的目标命名实体时,根据所述目标命名实体确定目标检索区域;所述目标检索区域以与所述目标命名实体对应的POI信息为中心;
检索模块63,用于根据所述命名实体中除所述目标命名实体的其他命名实体,从所述目标检索区域内检索并获取与所述检索信息对应的至少一条目标POI信息。
本申请实施例通过对检索信息中命名实体的识别,首先根据表征地理位置的目标命名实体确定目标检索区域,该目标检索区域是以与目标命名实体对应的POI为中心的区域;然后根据识别出的命名实体中除目标命名实体的其他命名实体,从目标检索区域内检索并获取至少一条目标POI信息,进而能够解决当检索信息中包括两个或两个以上的命名实体时,存在的检索结果获取准确率低,检索结果获取少,甚至无法获取检索结果的问题,达到提升检索结果获取的准确率,增加获取检索结果的效果。
一种可能的实施方式中,还包括:模型训练模块64,用于采用下述方式训练所述命名实体识别模型:
获取多个样本文本,以及与每个所述样本文本对应的标签标注序列;所述标签标注序列中包括多个与构成所述样本文本的多个字符串一一对应的实体类型标注标签;
针对每个所述样本文本,将该样本文本输入至条件随机场模型,确定与该样本文本对应的多个标签预测序列中每个标签预测序列分别对应的得分;所述标签标注序列为多个所述标签预测序列中的一个;
根据所述得分,对所述条件随机场模型进行训练,得到所述命名实体识别模型。
一种可能的实施方式中,所述模型训练模块64,用于采用下述方式确定与所述样本文本对应的多个标签预测序列中每个标签预测序列分别对应的得分:
基于所述条件随机场模型,针对每个标签预测序列,根据概率转移矩阵,确定该标签预测序列中每两个位置相邻的预测标签对应的转移概率;
根据该标签预测序列中每两个位置相邻的预测标签对应的转移概率,确定该标签预测序列对应的得分。
一种可能的实施方式中,所述模型训练模块64,用于采用下述方式根据所述得分,对所述条件随机场模型进行训练:
根据各个所述标签预测序列对应的得分,以及与所述标签标注序列对应的标签预测序列的得分,确定模型损失;
根据所述模型损失,调整所述条件随机场模型的参数,完成对所述条件随机场模型的本轮训练;
将经过多轮训练的条件随机场模型确定为所述命名实体识别模型。
一种可能的实施方式中,所述确定模块62,用于采用下述方式根据所述目标命名实体确定目标检索区域:
根据所述目标命名实体进行检索并获取与所述目标命名实体对应的至少一条POI信息;所述POI信息中包括POI名称以及地理位置信息;
针对各条所述POI信息,以该POI信息中的地理位置信息为中心,确定与该POI信息对应的区域范围;
将各条所述POI信息分别对应的区域范围,确定为所述目标检索区域。
一种可能的实施方式中,所述确定模块62,用于采用下述方式根据所述目标命名实体进行检索并获取与所述目标命名实体对应的至少一条POI信息:
以所述目标命名实体为检索的关键字,从POI数据库中获取多条与所述目标命名实体相关的备选POI信息;
确定各条备选POI信息与所述目标命名实体的相关度;
根据各条备选POI信息与所述目标命名实体的相关度大小,所述备选POI信息中选择至少一条与所述目标命名实体对应的POI信息。
一种可能的实施方式中,所述确定模块62,用于采用下述方式确定各条备选POI信息与所述目标命名实体的相关度:
基于客户端的当前位置信息,与各条所述备选POI信息中的地理位置信息,确定各条所述备选POI信息与所述目标命名实体的相关度;
或者,
基于所述目标命名实体,与各条所述备选POI中的POI名称中相同字符的数量,确定各条所述备选POI信息与所述目标命名实体的相关度。
一种可能的实施方式中,所述确定模块62,用于采用下述方式根据所述目标命名实体进行检索并获取与所述目标命名实体对应的至少一条POI信息:
以所述目标命名实体为检索的关键字,从POI数据库中获取多条与所述目标命名实体相关的备选POI信息;
按照各条所述备选POI信息中的地理位置信息,对各条所述备选POI信息进行聚类,形成多个POI组;其中,每个所述POI组中的任一一条备选POI信息与该POI组中至少一条其他POI信息之间的距离不大于预设的距离阈值;
针对每个所述POI组,根据该POI组中的各条备选信息,确定与所述目标命名实体对应的POI信息。
一种可能的实施方式中,所述确定模块62,用于采用下述方式针对每个所述备选POI组中包含的各个备选POI信息,确定与所述目标命名实体对应的POI信息:
针对每个备选POI组,若该备选POI组中备选POI信息的数量为1,则将该备选POI组中的备选POI信息确定为与所述目标命名实体对应的POI信息;
若该备选POI组中备选POI信息的数量大于1,则根据该备选POI组中各条备选POI信息中的地理位置信息,确定该备选POI组对应的中心POI信息,并将该中心POI信息确定为与所述目标命名实体对应的POI信息。
一种可能的实施方式中,还包括:检测模块65,用于在所述根据所述目标命名实体确定目标检索区域之前,判断识别出的所述命名实体中,是否包括除所述目标命名实体的其他命名实体;
所述确定模块62,具体用于:
在识别出的所述命名实体中包括除所述目标命名实体的其他命名实体时,根据所述目标命名实体确定所述目标检索区域;
在识别出的所述命名实体中不包括除所述目标命名实体的其他命名实体时,根据所述目标命名实体进行检索获取与所述检索信息对应的至少一条目标POI信息。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
本申请实施例还提供了一种计算机设备70,如图7所示,为本申请实施例提供的计算机设备70结构示意图,包括:处理器71、存储器72、和总线73。所述存储器72存储有所述处理器71可执行的机器可读指令(比如,图6中的装置中识别模块61、确定模块62、检索模块63对应的执行指令等),当计算机设备70运行时,所述处理器71与所述存储器72之间通过总线73通信,所述机器可读指令被所述处理器71执行时执行如下处理:
获取用户通过客户端输入的检索信息,并将所述检索信息输入预先训练的命名实体识别模型中,识别所述检索信息中的命名实体;
若识别出的所述命名实体中包括用于表征地理位置的目标命名实体,则根据所述目标命名实体确定目标检索区域;所述目标检索区域以与所述目标命名实体对应的POI信息为中心;
根据所述命名实体中除所述目标命名实体的其他命名实体,从所述目标检索区域内检索并获取与所述检索信息对应的至少一条目标POI信息。
一种可能的实施方式中,处理器71执行的指令中,采用下述方式训练所述命名实体识别模型:
获取多个样本文本,以及与每个所述样本文本对应的标签标注序列;所述标签标注序列中包括多个与构成所述样本文本的多个字符串一一对应的实体类型标注标签;
针对每个所述样本文本,将该样本文本输入至条件随机场模型,确定与该样本文本对应的多个标签预测序列中每个标签预测序列分别对应的得分;所述标签标注序列为多个所述标签预测序列中的一个;
根据所述得分,对所述条件随机场模型进行训练,得到所述命名实体识别模型。
一种可能的实施方式中,处理器71执行的指令中,所述确定与所述样本文本对应的多个标签预测序列中每个标签预测序列分别对应的得分,包括:
基于所述条件随机场模型,针对每个标签预测序列,根据概率转移矩阵,确定该标签预测序列中每两个位置相邻的预测标签对应的转移概率;
根据该标签预测序列中每两个位置相邻的预测标签对应的转移概率,确定该标签预测序列对应的得分。
一种可能的实施方式中,处理器71执行的指令中,所述根据所述得分,对所述条件随机场模型进行训练,包括:
根据各个所述标签预测序列对应的得分,以及与所述标签标注序列对应的标签预测序列的得分,确定模型损失;
根据所述模型损失,调整所述条件随机场模型的参数,完成对所述条件随机场模型的本轮训练;
将经过多轮训练的条件随机场模型确定为所述命名实体识别模型。
一种可能的实施方式中,处理器71执行的指令中,所述根据所述目标命名实体确定目标检索区域,包括:
根据所述目标命名实体进行检索并获取与所述目标命名实体对应的至少一条POI信息;所述POI信息中包括POI名称以及地理位置信息;
针对各条所述POI信息,以该POI信息中的地理位置信息为中心,确定与该POI信息对应的区域范围;
将各条所述POI信息分别对应的区域范围,确定为所述目标检索区域。
一种可能的实施方式中,处理器71执行的指令中,所述根据所述目标命名实体进行检索并获取与所述目标命名实体对应的至少一条POI信息,包括:
以所述目标命名实体为检索的关键字,从POI数据库中获取多条与所述目标命名实体相关的备选POI信息;
确定各条备选POI信息与所述目标命名实体的相关度;
根据各条备选POI信息与所述目标命名实体的相关度大小,所述备选POI信息中选择至少一条与所述目标命名实体对应的POI信息。
一种可能的实施方式中,处理器71执行的指令中,所述确定各条备选POI信息与所述目标命名实体的相关度,包括:
基于客户端的当前位置信息,与各条所述备选POI信息中的地理位置信息,确定各条所述备选POI信息与所述目标命名实体的相关度;
或者,
基于所述目标命名实体,与各条所述备选POI中的POI名称中相同字符的数量,确定各条所述备选POI信息与所述目标命名实体的相关度。
一种可能的实施方式中,处理器71执行的指令中,所述根据所述目标命名实体进行检索并获取与所述目标命名实体对应的至少一条POI信息,包括:
以所述目标命名实体为检索的关键字,从POI数据库中获取多条与所述目标命名实体相关的备选POI信息;
按照各条所述备选POI信息中的地理位置信息,对各条所述备选POI信息进行聚类,形成多个POI组;其中,每个所述POI组中的任一一条备选POI信息与该POI组中至少一条其他POI信息之间的距离不大于预设的距离阈值;
针对每个所述POI组,根据该POI组中的各条备选信息,确定与所述目标命名实体对应的POI信息。
一种可能的实施方式中,处理器71执行的指令中,所述针对每个所述备选POI组中包含的各个备选POI信息,确定与所述目标命名实体对应的POI信息,包括:
针对每个备选POI组,若该备选POI组中备选POI信息的数量为1,则将该备选POI组中的备选POI信息确定为与所述目标命名实体对应的POI信息;
若该备选POI组中备选POI信息的数量大于1,则根据该备选POI组中各条备选POI信息中的地理位置信息,确定该备选POI组对应的中心POI信息,并将该中心POI信息确定为与所述目标命名实体对应的POI信息。
一种可能的实施方式中,处理器71执行的指令中,所述根据所述目标命名实体确定目标检索区域之前,还包括:
判断识别出的所述命名实体中,是否包括除所述目标命名实体的其他命名实体;
所述根据所述目标命名实体确定目标检索区域,包括:
在识别出的所述命名实体中包括除所述目标命名实体的其他命名实体时,根据所述目标命名实体确定所述目标检索区域;
在识别出的所述命名实体中不包括除所述目标命名实体的其他命名实体时,根据所述目标命名实体进行检索获取与所述检索信息对应的至少一条目标POI信息。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述POI信息获取方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述POI信息获取方法,能够通过对检索信息中实体的类别进行识别,并通过识别出的能够表征地理位置的目标命名实体和其他命名实体进行分步检索获取目标POI信息,提升POI信息获取的准确率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (13)

1.一种兴趣点POI信息获取的方法,其特征在于,该POI信息获取方法包括:
获取用户通过客户端输入的检索信息,并将所述检索信息输入预先训练的命名实体识别模型中,识别所述检索信息中的命名实体;
若识别出的所述命名实体中包括用于表征地理位置的目标命名实体,则根据所述目标命名实体确定目标检索区域;所述目标检索区域以与所述目标命名实体对应的POI信息为中心;
根据所述命名实体中除所述目标命名实体的其他命名实体,从所述目标检索区域内检索并获取与所述检索信息对应的至少一条目标POI信息。
2.根据权利要求1所述的的方法,其特征在于,采用下述方式训练所述命名实体识别模型:
获取多个样本文本,以及与每个所述样本文本对应的标签标注序列;所述标签标注序列中包括多个与构成所述样本文本的多个字符串一一对应的实体类型标注标签;
针对每个所述样本文本,将该样本文本输入至条件随机场模型,确定与该样本文本对应的多个标签预测序列中每个标签预测序列分别对应的得分;所述标签标注序列为多个所述标签预测序列中的一个;
根据所述得分,对所述条件随机场模型进行训练,得到所述命名实体识别模型。
3.根据权利要求2所述的的方法,其特征在于,所述确定与所述样本文本对应的多个标签预测序列中每个标签预测序列分别对应的得分,包括:
基于所述条件随机场模型,针对每个标签预测序列,根据概率转移矩阵,确定该标签预测序列中每两个位置相邻的预测标签对应的转移概率;
根据该标签预测序列中每两个位置相邻的预测标签对应的转移概率,确定该标签预测序列对应的得分。
4.根据权利要求2所述的方法,其特征在于,所述根据所述得分,对所述条件随机场模型进行训练,包括:
根据各个所述标签预测序列对应的得分,以及与所述标签标注序列对应的标签预测序列的得分,确定模型损失;
根据所述模型损失,调整所述条件随机场模型的参数,完成对所述条件随机场模型的本轮训练;
将经过多轮训练的条件随机场模型确定为所述命名实体识别模型。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标命名实体确定目标检索区域,包括:
根据所述目标命名实体进行检索并获取与所述目标命名实体对应的至少一条POI信息;所述POI信息中包括POI名称以及地理位置信息;
针对各条所述POI信息,以该POI信息中的地理位置信息为中心,确定与该POI信息对应的区域范围;
将各条所述POI信息分别对应的区域范围,确定为所述目标检索区域。
6.根据权利要求5所述的方法,其特征在于,所述根据所述目标命名实体进行检索并获取与所述目标命名实体对应的至少一条POI信息,包括:
以所述目标命名实体为检索的关键字,从POI数据库中获取多条与所述目标命名实体相关的备选POI信息;
确定各条备选POI信息与所述目标命名实体的相关度;
根据各条备选POI信息与所述目标命名实体的相关度大小,所述备选POI信息中选择至少一条与所述目标命名实体对应的POI信息。
7.根据权利要求6所述的方法,其特征在于,所述确定各条备选POI信息与所述目标命名实体的相关度,包括:
基于客户端的当前位置信息,与各条所述备选POI信息中的地理位置信息,确定各条所述备选POI信息与所述目标命名实体的相关度;
或者,
基于所述目标命名实体,与各条所述备选POI中的POI名称中相同字符的数量,确定各条所述备选POI信息与所述目标命名实体的相关度。
8.根据权利要求5所述的方法,其特征在于,所述根据所述目标命名实体进行检索并获取与所述目标命名实体对应的至少一条POI信息,包括:
以所述目标命名实体为检索的关键字,从POI数据库中获取多条与所述目标命名实体相关的备选POI信息;
按照各条所述备选POI信息中的地理位置信息,对各条所述备选POI信息进行聚类,形成多个POI组;其中,每个所述POI组中的任一一条备选POI信息与该POI组中至少一条其他POI信息之间的距离不大于预设的距离阈值;
针对每个所述POI组,根据该POI组中的各条备选信息,确定与所述目标命名实体对应的POI信息。
9.根据权利要求8所述的方法,其特征在于,所述针对每个所述备选POI组中包含的各个备选POI信息,确定与所述目标命名实体对应的POI信息,包括:
针对每个备选POI组,若该备选POI组中备选POI信息的数量为1,则将该备选POI组中的备选POI信息确定为与所述目标命名实体对应的POI信息;
若该备选POI组中备选POI信息的数量大于1,则根据该备选POI组中各条备选POI信息中的地理位置信息,确定该备选POI组对应的中心POI信息,并将该中心POI信息确定为与所述目标命名实体对应的POI信息。
10.根据权利要求1所述的方法,其特征在于,所述根据所述目标命名实体确定目标检索区域之前,还包括:
判断识别出的所述命名实体中,是否包括除所述目标命名实体的其他命名实体;
所述根据所述目标命名实体确定目标检索区域,包括:
在识别出的所述命名实体中包括除所述目标命名实体的其他命名实体时,根据所述目标命名实体确定所述目标检索区域;
在识别出的所述命名实体中不包括除所述目标命名实体的其他命名实体时,根据所述目标命名实体进行检索获取与所述检索信息对应的至少一条目标POI信息。
11.一种兴趣点POI信息获取的装置,其特征在于,该装置包括:
识别模块,用于获取用户通过客户端输入的检索信息,并将所述检索信息输入预先训练的命名实体识别模型中,识别所述检索信息中的命名实体;
确定模块,用于在识别出的所述命名实体中包括用于表征地理位置的目标命名实体时,根据所述目标命名实体确定目标检索区域;所述目标检索区域以与所述目标命名实体对应的POI信息为中心;
检索模块,用于根据所述命名实体中除所述目标命名实体的其他命名实体,从所述目标检索区域内检索并获取与所述检索信息对应的至少一条目标POI信息。
12.一种计算机设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至10任一所述方法的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至10任一所述方法的步骤。
CN201910907458.8A 2019-09-24 2019-09-24 一种poi信息获取的方法及装置 Active CN111858787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910907458.8A CN111858787B (zh) 2019-09-24 2019-09-24 一种poi信息获取的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910907458.8A CN111858787B (zh) 2019-09-24 2019-09-24 一种poi信息获取的方法及装置

Publications (2)

Publication Number Publication Date
CN111858787A true CN111858787A (zh) 2020-10-30
CN111858787B CN111858787B (zh) 2024-07-30

Family

ID=72970614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910907458.8A Active CN111858787B (zh) 2019-09-24 2019-09-24 一种poi信息获取的方法及装置

Country Status (1)

Country Link
CN (1) CN111858787B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113794808A (zh) * 2021-09-01 2021-12-14 北京亿心宜行汽车技术开发服务有限公司 代驾电话下单方法及***

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013105282A (ja) * 2011-11-11 2013-05-30 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置及び方法及びプログラム
KR20150057472A (ko) * 2013-11-19 2015-05-28 한국과학기술연구원 Poi 추출 모호성 해소 방법, 문서로부터 poi를 추출하는 방법, poi 추출 장치
CN108363698A (zh) * 2018-03-13 2018-08-03 腾讯大地通途(北京)科技有限公司 兴趣点关系识别方法及装置
CN108388559A (zh) * 2018-02-26 2018-08-10 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及***、计算机程序
CN109145219A (zh) * 2018-09-10 2019-01-04 百度在线网络技术(北京)有限公司 基于互联网文本挖掘的兴趣点有效性判断方法和装置
CN109190130A (zh) * 2018-08-30 2019-01-11 昆明理工大学 一种基于poi相似度与翻译机器匹配推荐算法的研究方法
CN109460509A (zh) * 2018-10-12 2019-03-12 平安科技(深圳)有限公司 用户兴趣点评估方法、装置、计算机设备及存储介质
CN109492066A (zh) * 2018-10-30 2019-03-19 百度在线网络技术(北京)有限公司 一种兴趣点分支名称的确定方法、装置、设备及存储介质
CN110019616A (zh) * 2017-12-04 2019-07-16 腾讯科技(深圳)有限公司 一种poi现势状态获取方法及其设备、存储介质、服务器
CN110114790A (zh) * 2016-12-07 2019-08-09 谷歌有限责任公司 用于显示共同归类的实体的图形用户界面

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013105282A (ja) * 2011-11-11 2013-05-30 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置及び方法及びプログラム
KR20150057472A (ko) * 2013-11-19 2015-05-28 한국과학기술연구원 Poi 추출 모호성 해소 방법, 문서로부터 poi를 추출하는 방법, poi 추출 장치
CN110114790A (zh) * 2016-12-07 2019-08-09 谷歌有限责任公司 用于显示共同归类的实体的图形用户界面
CN110019616A (zh) * 2017-12-04 2019-07-16 腾讯科技(深圳)有限公司 一种poi现势状态获取方法及其设备、存储介质、服务器
CN108388559A (zh) * 2018-02-26 2018-08-10 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及***、计算机程序
CN108363698A (zh) * 2018-03-13 2018-08-03 腾讯大地通途(北京)科技有限公司 兴趣点关系识别方法及装置
CN109190130A (zh) * 2018-08-30 2019-01-11 昆明理工大学 一种基于poi相似度与翻译机器匹配推荐算法的研究方法
CN109145219A (zh) * 2018-09-10 2019-01-04 百度在线网络技术(北京)有限公司 基于互联网文本挖掘的兴趣点有效性判断方法和装置
CN109460509A (zh) * 2018-10-12 2019-03-12 平安科技(深圳)有限公司 用户兴趣点评估方法、装置、计算机设备及存储介质
CN109492066A (zh) * 2018-10-30 2019-03-19 百度在线网络技术(北京)有限公司 一种兴趣点分支名称的确定方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
G H NAVEEN KUMAR ET.AL.: "Automatic Naming of Clusters: A Novel Approach using Information Extracted from Instant Text Messages", 2018 3RD INTERNATIONAL CONFERENCE ON CONTEMPORARY COMPUTING AND INFORMATICS (IC3I), 12 October 2018 (2018-10-12) *
陈丹双: "POI(Point of Interest)名称识别及其在对话导航***中的应用", 中国优秀硕士论文信息科技, no. 1, 15 January 2016 (2016-01-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113794808A (zh) * 2021-09-01 2021-12-14 北京亿心宜行汽车技术开发服务有限公司 代驾电话下单方法及***
CN113794808B (zh) * 2021-09-01 2024-01-30 北京亿心宜行汽车技术开发服务有限公司 代驾电话下单方法及***

Also Published As

Publication number Publication date
CN111858787B (zh) 2024-07-30

Similar Documents

Publication Publication Date Title
Vargas-Munoz et al. OpenStreetMap: Challenges and opportunities in machine learning and remote sensing
JP6846469B2 (ja) インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置
CN108304423B (zh) 一种信息识别方法及装置
CN110390054A (zh) 兴趣点召回方法、装置、服务器和存储介质
CN106897919A (zh) 用车类型预测模型建立、信息提供方法及装置
CN112069276B (zh) 地址编码方法、装置、计算机设备及计算机可读存储介质
CN110674312B (zh) 构建知识图谱方法、装置、介质及电子设备
RU2598165C1 (ru) Недетерминированное разрешение неоднозначности и сопоставление данных места коммерческого предприятия
WO2018223331A1 (en) Systems and methods for text attribute determination using conditional random field model
CN111141301A (zh) 导航终点确定方法、装置、存储介质和计算机设备
CN111931077A (zh) 数据处理方法、装置、电子设备及存储介质
CN111859174A (zh) 一种确定推荐上车点的方法和***
CN111831929B (zh) 一种获取poi信息的方法及装置
CN112711645B (zh) 一种位置点信息扩展方法、装置、存储介质和电子设备
CN111858787B (zh) 一种poi信息获取的方法及装置
CN116662583B (zh) 一种文本生成方法、地点检索方法及相关装置
US20190318014A1 (en) Facilitating identification of an intended country associated with a query
US20220248170A1 (en) Methods and systems for recommending pick-up points
JP7142074B2 (ja) ナビゲーションに用いられる方法、装置、デバイス、及びコンピュータが読み取り可能な記憶媒体
CN109918583B (zh) 一种任务信息处理方法及装置
CN112861532B (zh) 地址标准化处理方法、装置、设备及在线搜索***
CN114036414A (zh) 兴趣点的处理方法、装置、电子设备、介质及程序产品
Kim et al. Personalized POI embedding for successive POI recommendation with large-scale smart card data
CN111125272B (zh) 一种区域特征获取方法、装置、计算机设备及介质
CN113175940A (zh) 数据处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant