CN113792214A

CN113792214A - 兴趣点确定方法、语音导航方法、装置、设备及存储介质

Info

Publication number: CN113792214A
Application number: CN202111074846.6A
Authority: CN
Inventors: 陆晨昱; 张涛; 周详; 李兴伟; 朱永辉; 李想
Original assignee: Zebred Network Technology Co Ltd
Current assignee: Zebred Network Technology Co Ltd
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2021-12-14

Abstract

本发明提供一种兴趣点确定方法、语音导航方法、装置、设备及存储介质，所述方法包括：获取用户输入的第一语音信息；基于所述第一语音信息确定用于兴趣点搜索的关键词；根据所述关键词进行兴趣点搜索，得到与所述关键词匹配的候选兴趣点集；基于所述候选兴趣点集构建第一提示语音并播报；获取所述用户针对所述第一提示语音输入的第二语音信息；对所述第二语音信息进行分析，确定所述用户的目标兴趣点。本发明实施例的兴趣点确定方法，通过采用纯语音的交互方式，使得用户无需关注智能设备的显示界面即可确定所需的兴趣点，提高了兴趣点确定的效率，提升了用户的使用体验，同时还可以避免分散用户的注意力，降低了产生安全隐患的可能性。

Description

兴趣点确定方法、语音导航方法、装置、设备及存储介质

技术领域

本发明涉及导航技术领域，特别涉及一种兴趣点确定方法、语音导航方法、装置、设备及存储介质。

背景技术

随着通信技术和全球定位技术的不断发展，为导航技术提供了越来越坚实的技术基础，导航功能也逐渐成为智能设备上的常见的，且用户常用的功能。

用户在使用智能设备(如手机、车机等)中的导航功能时，通常需要基于电子地图导航***进行一系列的操作，如输入搜索词、进行搜索、选择地点、选择路线和发起导航等。传统操作方式主要是用户通过电子地图导航***提供的图形界面进行上述操作，但由于用户在某些场景下(如驾驶时)需要专注于路况和周围环境，可能无暇分心进行繁琐的操作，因此通过图形界面交互的方式进行这些操作并不足够便捷。

随着语音识别技术的发展，语音交互方式成为图形界面交互之外的另一重要交互方式，也逐渐被应用于电子地图导航***中，使得用户不需要手动输入或查找目的地位置，只需要发出语音指令即可实现自动向目的地导航。在实际情况中，由于用户发出的语音指令包含的目的地信息不完整等原因，可能导致根据用户指令可以搜索到多个兴趣点(Pointof Interest，POI)，再加上电子地图导航***根据目的地位置进行路径规划也可能也会得到多个路径。针对这种情况，现有技术中主要还是通过图形界面向用户展示搜索的多个兴趣点或规划的多个路径，用户选择/确认兴趣点或路径之后再发起导航。可见，现有技术仍然需要用户关注智能设备的显示界面，影响导航效率及用户的使用体验，同时还会分散用户的注意力，产生安全隐患。

发明内容

针对现有技术的上述问题，本发明的目的在于提供一种兴趣点确定方法、语音导航方法、装置、设备及存储介质，可以提高兴趣点确定的效率和发起导航的效率，降低产生安全隐患的可能性。

为了解决上述问题，本发明提供一种兴趣点确定方法，包括：

获取用户输入的第一语音信息；

基于所述第一语音信息确定用于兴趣点搜索的关键词；

根据所述关键词进行兴趣点搜索，得到与所述关键词匹配的候选兴趣点集；

基于所述候选兴趣点集构建第一提示语音并播报；

获取所述用户针对所述第一提示语音输入的第二语音信息；

对所述第二语音信息进行分析，确定所述用户的目标兴趣点。

进一步地，所述基于所述第一语音信息确定用于兴趣点搜索的关键词包括：

对所述第一语音信息进行分析，确定用于兴趣点搜索的当前关键词；

获取所述用户对应的历史关键词；

根据所述历史关键词对所述当前关键词进行修正，得到用于兴趣点搜索的关键词。

进一步地，所述根据所述历史关键词对所述当前关键词进行修正，得到用于兴趣点搜索的关键词包括：

将所述历史关键词和所述当前关键词输入预先训练的关键词修正模型，得到用于兴趣点搜索的关键词，其中，所述关键词修正模型通过利用预设标注数据对第一预设神经网络模型进行训练确定。

进一步地，所述基于所述候选兴趣点集构建第一提示语音并播报包括：

获取所述候选兴趣点集中满足第一预设条件的候选兴趣点，作为推荐兴趣点；

当获取到多个推荐兴趣点时，根据所述多个推荐兴趣点构建第一推荐语音并播报，所述第一推荐语音用于指示用户从所述多个推荐兴趣点中选择目标兴趣点；

当仅获取到一个推荐兴趣点时，根据所述推荐兴趣点构建第一询问语音并播报，所述第一询问语音用于指示用户根据所述推荐兴趣点回复确认信息。

进一步地，所述方法还包括：

当兴趣点确定失败时，将所述关键词输入预先训练的引导策略规划模型，得到对应的第一引导策略，其中，所述引导策略规划模型通过对第二预设神经网络模型进行深度强化学习训练确定；

基于所述第一引导策略构建第二提示语音并播报。

本发明另一方面提供一种语音导航方法，包括：

采用上述的兴趣点确定方法确定目标兴趣点；

根据所述目标兴趣点进行路径规划，得到与所述目标兴趣点对应的候选路径集；

基于所述候选路径集构建第三提示语音并播报；

获取所述用户针对所述第三提示语音输入的第三语音信息；

对所述第三语音信息进行分析，确定所述目标兴趣点对应的目标路径并发起导航。

进一步地，所述基于所述候选路径集构建第三提示语音并播报包括：

获取所述候选路径集中满足第二预设条件的候选路径，作为推荐路径；

当获取到多个推荐路径时，根据所述多个推荐路径构建第二推荐语音并播报，所述第二推荐语音用于指示用户从所述多个推荐路径中选择目标路径；

当仅获取到一个推荐路径时，根据所述推荐路径构建第二询问语音并播报，所述第二询问语音用于指示用户根据所述推荐路径回复确认信息。

进一步地，所述方法还包括：

当路径选择失败时，确定所述目标兴趣点的可达情况；

获取本次导航过程中的路径选择失败次数；

根据所述目标兴趣点的可达情况和所述路径选择失败次数确定对应的第二引导策略；

基于所述第二引导策略构建第四提示语音并播报。

本发明另一方面提供一种兴趣点确定装置，包括：

第一获取模块，用于获取用户输入的第一语音信息；

第一确定模块，用于基于所述第一语音信息确定用于兴趣点搜索的关键词；

搜索模块，用于根据所述关键词进行兴趣点搜索，得到与所述关键词匹配的候选兴趣点集；

第一构建模块，用于基于所述候选兴趣点集构建第一提示语音并播报；

第二获取模块，用于获取所述用户针对所述第一提示语音输入的第二语音信息；

第二确定模块，用于对所述第二语音信息进行分析，确定所述用户的目标兴趣点。

本发明另一方面提供一种语音导航装置，包括上述兴趣点确定装置的各个模块，所述装置还包括：

路径规划模块，用于根据所述目标兴趣点进行路径规划，得到与所述目标兴趣点对应的候选路径集；

第二构建模块，用于基于所述候选路径集构建第三提示语音并播报；

第三获取模块，用于获取所述用户针对所述第三提示语音输入的第三语音信息；

第三确定模块，用于对所述第三语音信息进行分析，确定所述目标兴趣点对应的目标路径并发起导航。

本发明另一方面提供一种电子设备，包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的兴趣点确定方法。

本发明另一方面提供一种电子设备，包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的语音导航方法。

本发明另一方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的兴趣点确定方法。

本发明另一方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的语音导航方法。

由于上述技术方案，本发明具有以下有益效果：

根据本发明实施例的兴趣点确定方法，通过根据用户输入的语音信息确定用于兴趣点搜索的关键词，并在搜索完成后，基于搜索得到的候选兴趣点集构建提示语音并播报，用户可以根据播报的内容语音选择目标兴趣点，这种纯语音的交互方式，使得用户无需关注智能设备的显示界面即可确定所需的兴趣点，提高了兴趣点确定的效率，提升了用户的使用体验。

根据本发明实施例的语音导航方法，通过利用上述兴趣点确定方法确定目标兴趣点，并利用所述目标兴趣点进行路径规划，在路径规划完成后，基于得到的候选路径集构建提示语音并播报，用户可以根据播报的内容语音选择目标路径，这种纯语音的交互方式，使得用户可以在解放双手与双眼的情况下发起导航，提高了发起导航的效率，提升了用户的使用体验，同时还可以避免分散用户的注意力，降低了产生安全隐患的可能性。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明一个实施例提供的实施环境示意图；

图2是本发明一个实施例提供的兴趣点确定方法的流程图；

图3是本发明另一个实施例提供的兴趣点确定方法的流程图；

图4是本发明一个实施例提供的语音导航方法的流程图；

图5是本发明一个实施例提供的兴趣点确定装置的结构示意图；

图6是本发明一个实施例提供的语音导航装置的结构示意图；

图7是本发明一个实施例提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，本发明实施例对下述概念进行解释：

兴趣点(Point of Interest，POI)：即用户要搜寻的具体地点，兴趣点是地理信息***中的一个术语，泛指一切可以抽象为点的地理对象，兴趣点的主要用途是对事物或事件的地址进行描述，能在很大程度上增强对事物或事件位置的描述能力和查询能力，提高地理定位的精度和速度。

意图(intent)：意图可以理解成是一个分类器，确定用户表达的一句话是哪个类型。比如用户说：“给我放一首快乐的歌吧”，则语义理解(Natural LanguageUnderstanding，NLU)模块可以判断用户的意图分类是音乐。

槽位(slot)：当用户意图被确定之后，NLU模块就需要进一步理解对话中的内容，为简便起见，可以选择最核心的部分进行理解，其他可以忽略，那些最重要的部分可以称之为槽位。

参考说明书附图1，其示出了本发明一个实施例提供的实施环境示意图，如图1所示，该实施环境可以包括至少一个终端设备110和服务器120。所述服务器120和各个终端设备110可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例对此不做限制。

所述终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式计算机、数字助理、智能音箱、智能可穿戴设备、车载终端、服务器等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等，但并不局限于此。所述终端设备110上运行的操作***可以包括但不限于安卓***、IOS***、linux***、windows***等。

所述服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在实际应用中，导航对象可以为车辆或者行人，当导航对象为车辆时，所述终端设备110可以为车载终端，当导航对象为行人时，所述终端设备110可以为手机。所述车载终端/手机可以采集用户输入的语音信息，将所述语音信息发送至所述服务器120；所述服务器120可以采用本发明实施例提供的兴趣点确定方法确定用户的目标兴趣点，还可以采用本发明实施例提供的语音导航方法确定所述目标兴趣点对应的目标路径并发起导航。

需要说明的是，图1仅仅是一种示例。本领域技术人员可以理解，虽然图1中只示出了2个终端设备110，但并不构成对本发明实施例的限定，可以包括比图示更多或更少的终端设备110。

实施例1

参考说明书附图2，其示出了本发明一个实施例提供的一种兴趣点确定方法的流程，该方法可以应用于图1中的服务器120中，具体的如图2所示，所述方法可以包括以下步骤：

S201：获取用户输入的第一语音信息。

本发明实施例中，可以通过设置于终端设备的语音采集模块，采集用户输入的语音信息并发送至服务器，所述语音采集模块可以为声音传感器、麦克风等，所述第一语音信息可以为用户发起的POI搜索指令语句、导航指令语句等语音。

S202：基于所述第一语音信息确定用于兴趣点搜索的关键词。

本发明实施例中，可以通过语音识别(Automatic Speech Recognition，ASR)模块将获取到的第一语音信息识别为对应的语音文本，再通过NLU模块对识别得到的语音文本进行语义理解，可以得到其对应的意图以及槽位内容，最后根据所述意图以及所述槽位内容确定用于兴趣点搜索的关键词。

示例性地，假设用户表达：帮我导航到***。从这句话中，NLU模块可以解析得到用户的意图为“导航”，槽位内容包括“***”，那么可以确定用于兴趣点搜索的关键词为“***”。

在一个可能的实施例中，结合参考说明书附图3，所述基于所述第一语音信息确定用于兴趣点搜索的关键词可以包括：

S2021：对所述第一语音信息进行分析，确定用于兴趣点搜索的当前关键词；

S2022：获取所述用户对应的历史关键词；

S2023：根据所述历史关键词对所述当前关键词进行修正，得到用于兴趣点搜索的关键词。

具体地，在基于所述第一语音信息确定当前关键词之后，可以获取对话管理(Dialogue Manager，DM)模块的对话状态缓存中记录的对话历史中的关键词，作为所述用户对应的历史关键词，并根据所述历史关键词对所述当前关键词进行修正，得到用于兴趣点搜索的关键词。

示例性地，若对话状态缓存中的历史关键词为空，可以直接使用所述当前关键词作为用于兴趣点搜索的关键词；若对话状态缓存中的历史关键词不为空，则可以对所述当前关键词进行如下改写处理：

a)在所述当前关键词的末尾***所述历史关键词，如所述历史关键词为“***”，所述当前关键词为“虹口区”，则可以得到处理后的用于兴趣点搜索的关键词为“虹口区***”。

b)在所述当前关键词的开头***所述历史关键词，如所述历史关键词为“***”，所述当前关键词为“大学城店”，则可以得到处理后的用于兴趣点搜索的关键词为“***大学城店”。

c)用所述当前关键词替换所述历史关键词中的部分内容，如所述历史关键词为“中山北路180号”，所述当前关键词为“185号”，则可以得到处理后的用于兴趣点搜索的关键词为“中山北路185号”。

d)将所述当前关键词直接作为用于兴趣点搜索的关键词，如所述历史关键词为“虹桥火车站”，所述当前关键词为“虹桥机场”，则不对所述当前关键词进行处理，直接将“虹桥机场”作为用于兴趣点搜索的关键词。

在一个可能的实施例中，所述根据所述历史关键词对所述当前关键词进行修正，得到用于兴趣点搜索的关键词可以包括：

在实际应用中，对所述当前关键词进行修正的决策可以由某些特定算法来实现。具体地，可以将所述历史关键词、所述当前关键词和其它辅助输入(如所述第一语音信息对应的语音文本、从知识库中匹配到的知识信息等)作为输入，提供给预先训练的关键词修正模型，输出用于兴趣点搜索的关键词。具体地，可以通过利用预先准备的标注数据对第一预设神经网络模型进行训练得到所述关键词修正模型，其中，所述第一预设神经网络模型包括但不局限于深度神经网络模型，如BERT等经过预训练的模型。

本发明实施例在确定用于兴趣点搜索的关键词时，考虑用户口语表达的习惯特点，例如用户当前说的内容是对上一句搜索请求内容的补充或者纠正等，结合对话历史中的历史关键词对当前关键词进行修正，利用修正后的关键词进行兴趣点搜索，能够更好的理解用户的口语表达，从而提高兴趣点搜索的准确性，提升用户的使用体验。

S203：根据所述关键词进行兴趣点搜索，得到与所述关键词匹配的候选兴趣点集。

本发明实施例中，可以采用现有技术中的各种搜索方法进行兴趣点搜索，得到搜索结果(即所述候选兴趣点集)，本发明实施例在此不再赘述。所述候选兴趣点集中的候选兴趣点可以为包含所述关键词的兴趣点。例如，对于“***”的关键词，所述候选兴趣点集可以包括：“***北门”、“***停车场”、“***美食一条街”、“987路(***站)”等等。

本发明实施例中，当未搜索到任何候选兴趣点时，搜索失败，进而兴趣点确定失败，可以直接进入主动引导交互。

S204：基于所述候选兴趣点集构建第一提示语音并播报。

本发明实施例中，当搜索到一个或多个候选兴趣点时，可以根据搜索得到的一个或多个候选兴趣点构建第一提示语音，以提示用户从所述一个或多个候选兴趣点中确定一个目标兴趣点。具体地，可以从所述候选兴趣点集中确定一个或多个兴趣点推荐给用户，以使得所述用户确认选择推荐的一个兴趣点或从推荐的多个兴趣点中选择一个兴趣点。

在实际应用中，构建所述第一提示语音后，可以将所述第一提示语音发送至所述终端设备进行播报。

具体地，所述基于所述候选兴趣点集构建第一提示语音并播报可以包括：

本发明实施例中，可以对所述候选兴趣点集中的候选兴趣点进行基于置信度分数的阈值截取，将置信度分数大于第一预设阈值的候选兴趣点作为推荐兴趣点。具体地，可以采用搜索结果排序时的分数作为候选兴趣点的置信度分数，截取置信度分数高于第一预设阈值的候选兴趣点作为推荐兴趣点。其中，所述第一预设阈值可以根据实际情况进行设置和调整，本发明实施例对此不作限制。

可选择地，在一个可能的实施例中，还可以对搜索结果的前N个候选兴趣点(如果搜索结果中的候选兴趣点个数小于N个，则取全部搜索结果)进行基于置信度分数的阈值截取，将置信度分数大于第一预设阈值的候选兴趣点作为推荐兴趣点，截取后的推荐兴趣点个数可以为0到N个。其中，N的值可以根据实际情况进行设置，例如可以设置为3个，本发明实施例对此不作限制。

本发明实施例中，当未获取到任何推荐兴趣点时，搜索失败，进而兴趣点确定失败，可以直接进入主动引导交互。

可选择地，在一个可能的实施例中，当未获取到任何推荐兴趣点时，还可以将所述第一预设阈值调整为一个较小的阈值，以使得能够获取到至少一个推荐兴趣点。

本发明实施例中，当仅获取到一个推荐兴趣点时，可以根据所述推荐兴趣点构建第一询问语音并播报，通过语音交互方式让用户确认是否要选择该推荐兴趣点。示例性地，假设推荐兴趣点仅包括“***北门”，则可以构建第一询问语音“搜索到***北门，请确认是否导航至***北门？”

可选择地，在一个可能的实施例中，当仅获取到一个推荐兴趣点时，可以进一步判断所述推荐兴趣点是否满足第三预设条件，当所述推荐兴趣点满足第三预设条件时，自动为用户选中该推荐兴趣点作为目标兴趣点，跳过构建第一提示语音并播报以及后续与用户的交互过程，当所述推荐兴趣点不满足第三预设条件时，才与用户进行语音交互，让用户确认是否要选择该推荐兴趣点。具体地，可以用第二预设阈值再次进行截取或用特定的算法来根据相关输入信息作判断，当所述推荐兴趣点的置信度分数大于第二预设阈值时，确定所述推荐兴趣点满足第三预设条件。其中，所述第二预设阈值可以根据实际情况进行设置，所述第二预设阈值与所述第一预设阈值可以相同，也可以不同，优选为所述第二预设阈值大于所述第一预设阈值，本发明实施例对此不作限制。

本发明实施例中，当获取到多个推荐兴趣点时，可以根据所述多个推荐兴趣点构建第一推荐语音并播报，通过语音交互方式向用户提供这些推荐兴趣点，供用户进行选择。示例性地，假设推荐兴趣点包括“***北门”、“***停车场”和“987路(***站)”，则可以构建第一推荐语音“搜索到***北门、***停车场和987路(***站)，请选择目标兴趣点。”

本发明实施例通过基于置信度分数的决策，可以有针对性的将高概率会被用户选择的兴趣点通过语音的方式播报给用户，或者在某些结果十分明确的情况下直接为用户选择目标兴趣点，跳过交互的步骤，简化交互过程，进而提高兴趣点确定的效率。

在一个可能的实施例中，还可以在所述候选兴趣点集中选择第一预设数量的候选兴趣点，作为推荐兴趣点，并根据选择的候选兴趣点构建第三推荐语音并播报，以使得用户根据所述第三推荐语音从选择的第一预设数量的候选兴趣点中选择目标兴趣点。其中，所述第一预设数量可以根据实际情况进行设置，例如可以设置为3个，本发明实施例对此不作限制。具体地，可以选择搜索结果中排序靠前的第一预设数量的候选兴趣点，作为推荐兴趣点。

在一个可能的实施例中，还可以固定选择搜索结果(即所述候选兴趣点集)中排在首位的候选兴趣点，作为推荐兴趣点，并根据所述推荐兴趣点构建第三询问语音并播报，通过语音交互方式让用户确认是否要选择该推荐兴趣点。或者，可以直接为用户选中该推荐兴趣点作为目标兴趣点，跳过构建第一提示语音并播报以及后续与用户的交互过程。

需要说明的是，在一些可能的实施例中，还可以基于其它规则进行动态决策，来挑选推荐兴趣点向用户播报或自动选择目标兴趣点跳过与用户的交互过程。

S205：获取所述用户针对所述第一提示语音输入的第二语音信息。

本发明实施例中，播报所述第一提示语音后，可以通过设置于终端设备的语音采集模块，采集用户针对所述第一提示语音输入的第二语音信息并发送至服务器，所述第二语音信息可以为用户的兴趣点选择语句或兴趣点确认语句。

S206：对所述第二语音信息进行分析，确定所述用户的目标兴趣点。

本发明实施例中，可以通过ASR模块将获取到的第二语音信息识别为对应的语音文本，再通过NLU模块对识别得到的语音文本进行语义理解，确定用户的反馈信息，所述反馈信息可以包括选择某个兴趣点的选择指令、确认选择推荐的一个兴趣点的确认指令或拒绝推荐的一个或多个兴趣点的指令信息。当用户给出正向反馈时(包括确认选择推荐的一个兴趣点或从推荐的多个兴趣点中选择一个)，可以进一步确定目标兴趣点，当用户给出负向反馈时(包括拒绝推荐的一个或多个兴趣点)，兴趣点确定失败，可以进入主动引导交互。

具体地，当所述第一提示语音为第一询问语音时，如果用户确认选择所述推荐兴趣点，则可以将所述推荐兴趣点作为目标兴趣点，如果用户拒绝所述推荐兴趣点，则兴趣点确定失败，可以进入主动引导交互。例如当用户表达确认、是的或没错等正向反馈时，可以将所述推荐兴趣点作为目标兴趣点，当用户表达不是、重新搜索，或更换搜索内容等负向反馈时，兴趣点确定失败，可以进入主动引导交互。

具体地，当所述第一提示语音为第一推荐语音时，如果用户从推荐的多个推荐兴趣点中选择一个兴趣点，则可以将用户选择的兴趣点作为目标兴趣点，如果用户拒绝选择任何一个兴趣点，则兴趣点确定失败，可以进入主动引导交互。

在一个可能的实施例中，所述方法还可以包括：

基于所述第一引导策略构建第二提示语音并播报。

具体地，所述第一引导策略可以包括以下几种：

a)引导用户补充信息(如省/市/区信息，所在路名信息，POI类型信息等)；

b)引导用户更换搜索内容(如换一个关键词，用详细地址进行搜索等)；

c)在用户搜索的POI类型明确，并且该POI类型下有推荐结果时，引导用户选择推荐的结果(如搜不到某餐馆时向用户推荐用户可能感兴趣的另一家餐馆)；

d)告知用户兴趣点搜索失败。

在实际应用中，实施主动引导时可以采用特定算法模型来实现。具体地，可以将本次用于兴趣点搜索的关键词和其它辅助信息(如完整的对话历史、搜索到的候选兴趣点的类型等)作为模型输入，提供给预先训练的引导策略规划模型，输出对应的第一引导策略。具体地，可以通过利用预先准备的标注数据对第二预设神经网络模型进行训练得到所述引导策略规划模型，其中，所述第二预设神经网络模型包括但不局限于深度神经网络模型，如BERT等经过预训练的模型。

同时，由于主动引导交互决策的效果很大程度上由与真实用户的后续交互是否达到任务目的来决定，因此所述引导策略规划模型可以在上线后通过深度强化学习的方式在与用户的交互中持续进行学习优化。具体的，可以从线上抓取真实的引导交互的数据样本(包括与用户的交互历史及在兴趣点确定失败时采取的主动引导策略)，同时采用后续交互是否成功确定兴趣点作为奖励信号来训练优化模型。

在实际应用中，构建所述第二提示语音后，可以将所述第二提示语音发送至所述终端设备进行播报，以使得用户根据所述第一引导策略进行相应的交互操作。

需要说明的是，在一些可能的实施例中，所述第一引导策略还可以包括其它类型的引导策略，在上述的引导策略的基础上做一些删减或改动其中一部分策略后的引导策略，均应包含在本发明的保护范围之内。所述第一引导策略的确定方法也不局限于上述的具体方案，在一些可能的实施例中，还可以通过类似的基于其它算法/模型的动态决策方法或基于静态规则的决策方法来确定所述第一引导策略，本发明实施例对此不作限制。

本发明实施例在兴趣点确定失败的情况下，通过主动对话的交互方式对用户进行引导，有针对性的询问用户问题获取补充信息、提供搜索建议或推荐相似结果，最终提高确定用户所需兴趣点的成功率，提升用户的使用体验。

综上所述，根据本发明实施例的兴趣点确定方法，通过根据用户输入的语音信息确定用于兴趣点搜索的关键词，并在搜索完成后，基于搜索得到的候选兴趣点集构建提示语音并播报，用户可以根据播报的内容语音选择目标兴趣点，这种纯语音的交互方式，使得用户无需关注智能设备的显示界面即可确定所需的兴趣点，提高了兴趣点确定的效率，提升了用户的使用体验，同时还可以避免分散用户的注意力，降低了产生安全隐患的可能性。

实施例2

参考说明书附4，其示出了本发明一个实施例提供的一种语音导航方法的流程，该方法可以应用于图1中的服务器120中，具体的如图4所示，所述方法可以包括以下步骤：

S401：获取用户输入的第一语音信息。

S402：基于所述第一语音信息确定用于兴趣点搜索的关键词。

S403：根据所述关键词进行兴趣点搜索，得到与所述关键词匹配的候选兴趣点集。

S404：基于所述候选兴趣点集构建第一提示语音并播报。

S405：获取所述用户针对所述第一提示语音输入的第二语音信息。

S406：对所述第二语音信息进行分析，确定所述用户的目标兴趣点。

本发明实施例中，所述步骤S401至步骤S406的具体内容可以参考如图2所示的方法实施例的内容，本发明实施例在此不再赘述。

需要说明的是，本发明实施例中，在对所述引导策略规划模型进行学习优化的过程中，可以从线上抓取真实的引导交互的数据样本(包括与用户的交互历史及在兴趣点确定失败时采取的主动引导策略)，同时采用后续交互是否成功发起导航作为奖励信号来训练优化模型。

S407：根据所述目标兴趣点进行路径规划，得到与所述目标兴趣点对应的候选路径集。

本发明实施例中，可以采用现有技术中的各种路径规划方法进行路径规划，得到路径规划结果(即所述候选路径集)，本发明实施例在此不再赘述。所述候选路径集中的候选路径可以为从起始点(如用户所在的当前位置)到所述目标兴趣点的路径。

S408：基于所述候选路径集构建第三提示语音并播报。

本发明实施例中，当路径规划得到一个或多个候选路径时，可以根据所述一个或多个候选路径构建第三提示语音，以提示用户从所述一个或多个候选路径中确定一个目标路径。具体地，可以从所述候选路径集中确定一个或多个候选路径推荐给用户，以使得所述用户确认选择推荐的一个候选路径或从推荐的多个候选路径中选择一个候选路径。

在实际应用中，构建所述第三提示语音后，可以将所述第三提示语音发送至所述终端设备进行播报。

具体地，所述基于所述候选路径集构建第三提示语音并播报可以包括：

本发明实施例中，可以对所述候选路径集中的候选路径进行基于置信度分数的阈值截取，将置信度分数大于第三预设阈值的候选路径作为推荐路径。具体地，可以采用路径规划排序时的分数作为候选路径的置信度分数，也可以结合用户是否常走该路径等信息通过预先定义的规则或算法来确定各个候选路径的置信度分数，可以截取置信度分数高于第三预设阈值的候选路径作为推荐路径，其中，所述第三预设阈值可以根据实际情况进行设置和调整，本发明实施例对此不作限制。

可选择地，在一个可能的实施例中，还可以对路径规划得到的前N个候选路径(如果路径规划得到的候选路径数量小于N个，则取全部候选路径)进行基于置信度分数的阈值截取，将置信度分数大于第三预设阈值的候选路径作为推荐路径，截取后的推荐路径数量可以为0到N个。其中，N的值可以根据实际情况进行设置，例如可以设置为3个，本发明实施例对此不作限制。

本发明实施例中，当未获取到任何推荐路径时，路径选择失败，可以直接进入主动引导交互。

可选择地，在一个可能的实施例中，当未获取到任何推荐路径时，还可以将所述第三预设阈值调整为一个较小的阈值，以使得能够获取到至少一个推荐路径。

本发明实施例中，当仅获取到一个推荐路径时，可以根据所述推荐路径构建第二询问语音并播报，通过语音交互方式让用户确认是否要选择该推荐路径。

可选择地，在一个可能的实施例中，当仅获取到一个推荐路径时，可以进一步判断所述推荐路径是否满足第四预设条件，当所述推荐路径满足第四预设条件时，自动为用户选中该推荐路径作为目标路径，跳过构建第三提示语音并播报以及后续与用户的交互过程，当所述推荐路径不满足第四预设条件时，才与用户进行语音交互，让用户确认是否要选择该推荐路径。具体地，可以用第四预设阈值再次进行截取或用特定的算法来根据相关输入信息作判断，当所述推荐路径的置信度分数大于第四预设阈值时，确定所述推荐路径满足第四预设条件。其中，所述第四预设阈值可以根据实际情况进行设置，所述第四预设阈值与所述第三预设阈值可以相同，也可以不同，优选为所述第四预设阈值大于所述第三预设阈值，本发明实施例对此不作限制。

本发明实施例中，当获取到多个推荐路径时，可以根据所述多个推荐路径构建第二推荐语音并播报，通过语音交互方式向用户提供这些推荐路径，供用户进行选择。

本发明实施例通过基于置信度分数的决策，可以有针对性的将高概率会被用户选择的路径通过语音的方式播报给用户，或者在某些结果十分明确的情况下直接为用户选择目标路径，跳过交互的步骤，简化交互过程，使得用户可以在解放双手与双眼的情况下发起导航，对用户而言交互的负担会大大减轻，发起导航的效率也会提升。

在一个可能的实施例中，还可以在所述候选路径集中选择第二预设数量的候选路径，作为推荐路径，并根据选择的候选路径构建第四推荐语音并播报，以使得用户根据所述第四推荐语音从选择的第二预设数量的候选路径中选择目标路径。其中，所述第二预设数量可以根据实际情况进行设置，例如可以设置为3个，所述第二预设数量与所述第一预设数量可以相同，也可以不同，本发明实施例对此不作限制。具体地，可以采用路径规划排序时的分数作为候选路径的置信度分数，也可以结合用户是否常走该路径等信息通过预先定义的规则或算法来确定各个候选路径的置信度分数，可以选择置信度分数较高的第二预设数量的候选路径，作为推荐路径。

在一个可能的实施例中，还可以固定选择路径规划结果(即所述候选路径集)中排在首位的候选路径，作为推荐路径，并根据所述推荐路径构建第四询问语音并播报，通过语音交互方式让用户确认是否要选择该推荐路径。或者，可以直接为用户选中该推荐路径作为目标路径，跳过构建第三提示语音并播报以及后续与用户的交互过程。

需要说明的是，在一些可能的实施例中，还可以基于其它规则进行动态决策，来挑选推荐路径向用户播报或自动选择目标路径跳过与用户的交互过程。

S409：获取所述用户针对所述第三提示语音输入的第三语音信息。

本发明实施例中，播报所述第三提示语音后，可以通过设置于终端设备的语音采集模块，采集用户针对所述第三提示语音输入的第三语音信息并发送至服务器，所述第三语音信息可以为用户的路径选择语句或路径确认语句。

S410：对所述第三语音信息进行分析，确定所述目标兴趣点对应的目标路径并发起导航。

本发明实施例中，可以通过ASR模块将获取到的第三语音信息识别为对应的语音文本，再通过NLU模块对识别得到的语音文本进行语义理解，确定用户的反馈信息，所述反馈信息可以包括选择某个路径的选择指令、确认选择推荐的一个路径的确认指令或拒绝推荐的一个或多个路径的指令信息。当用户给出正向反馈时(包括确认选择推荐的一个路径或从推荐的多个路径中选择一个)，可以进一步确定目标路径，当用户给出负向反馈时(包括拒绝推荐的一个或多个路径)，路径选择失败，可以进入主动引导交互。

具体地，当所述第三提示语音为第二询问语音时，如果用户确认选择所述推荐路径，则可以将所述推荐路径作为目标路径，如果用户拒绝所述推荐路径，则路径选择失败，可以进入主动引导交互。例如当用户表达确认、是的或没错等正向反馈时，则可以将所述推荐路径作为目标路径，当用户表达不是、重新搜索，或更换搜索内容等负向反馈时，路径选择失败，可以进入主动引导交互。

具体地，当所述第三提示语音为第二推荐语音时，如果用户从推荐的多个推荐路径中选择一个路径，则可以将用户选择的路径作为目标路径，如果用户拒绝选择任何一个路径，则路径选择失败，可以进入主动引导交互。

在一个可能的实施例中，所述方法还可以包括：

当路径选择失败时，确定所述目标兴趣点的可达情况；

获取本次导航过程中的路径选择失败次数；

基于所述第二引导策略构建第四提示语音并播报。

具体地，所述第二引导策略可以包括以下几种：

a)引导用户调整路线偏好；

b)告知用户导航失败。

在实际应用中，实施主动引导时可以采用简单规则，例如：当所述目标兴趣点可到达，且所述路径选择失败次数小于或等于第五预设阈值时，采取引导用户调整路线偏好的引导策略，当所述目标兴趣点不可到达或所述路径选择失败次数大于第五预设阈值时，采取告知用户导航失败的引导策略。其中，所述第五预设阈值可以根据实际情况进行设置，例如可以设置为3次，本发明实施例对此不作限制。

在实际应用中，构建所述第四提示语音后，可以将所述第四提示语音发送至所述终端设备进行播报，以使得用户根据所述第二引导策略进行相应的交互操作。

需要说明的是，在一些可能的实施例中，所述第二引导策略还可以包括其它类型的引导策略，在上述的引导策略的基础上做一些删减或改动其中一部分策略后的引导策略，均应包含在本发明的保护范围之内。所述第二引导策略的确定方法也不局限于上述的具体方案，在一些可能的实施例中，还可以通过类似的基于其它算法/模型的动态决策方法或基于静态规则的决策方法来确定所述第二引导策略，本发明实施例对此不作限制。

本发明实施例在兴趣点确定失败或路径选择失败的情况下，通过主动对话的交互方式对用户进行引导，有针对性的询问用户问题获取补充信息、提供搜索建议或推荐相似结果，最终提高用户的导航成功率，提升用户的使用体验。

综上所述，根据本发明实施例的语音导航方法，通过利用上述兴趣点确定方法确定目标兴趣点，并利用所述目标兴趣点进行路径规划，在路径规划完成后，基于得到的候选路径集构建提示语音并播报，用户可以根据播报的内容语音选择目标路径，这种纯语音的交互方式，使得用户可以在解放双手与双眼的情况下发起导航，提高了发起导航的效率，提升了用户的使用体验，同时还可以避免分散用户的注意力，降低了产生安全隐患的可能性。

参考说明书附图5，其示出了本发明一个实施例提供的一种兴趣点确定装置500的结构。如图5所示，所述兴趣点确定装置500可以包括：

第一获取模块510，用于获取用户输入的第一语音信息；

第一确定模块520，用于基于所述第一语音信息确定用于兴趣点搜索的关键词；

搜索模块530，用于根据所述关键词进行兴趣点搜索，得到与所述关键词匹配的候选兴趣点集；

第一构建模块540，用于基于所述候选兴趣点集构建第一提示语音并播报；

第二获取模块550，用于获取所述用户针对所述第一提示语音输入的第二语音信息；

第二确定模块560，用于对所述第二语音信息进行分析，确定所述用户的目标兴趣点。

在一个可能的实施例中，所述兴趣点确定装置500还可以包括：

第一规划模块，用于当兴趣点确定失败时，将所述关键词输入预先训练的引导策略规划模型，得到对应的第一引导策略，其中，所述引导策略规划模型通过对第二预设神经网络模型进行深度强化学习训练确定；

第三构建模块，用于基于所述第一引导策略构建第二提示语音并播报。

参考说明书附图6，其示出了本发明一个实施例提供的一种语音导航装置600的结构。如图6所示，所述语音导航装置600可以包括兴趣点确定装置500，所述兴趣点确定装置500可以包括：

第一获取模块510，用于获取用户输入的第一语音信息；

第二确定模块560，用于对所述第二语音信息进行分析，确定所述用户的目标兴趣点；

所述语音导航装置600还可以包括：

路径规划模块610，用于根据所述目标兴趣点进行路径规划，得到与所述目标兴趣点对应的候选路径集；

第二构建模块620，用于基于所述候选路径集构建第三提示语音并播报；

第三获取模块630，用于获取所述用户针对所述第三提示语音输入的第三语音信息；

第三确定模块640，用于对所述第三语音信息进行分析，确定所述目标兴趣点对应的目标路径并发起导航。

在一个可能的实施例中，所述语音导航装置600还可以包括：

第四确定模块，用于当路径选择失败时，确定所述目标兴趣点的可达情况；

第四获取模块，用于获取本次导航过程中的路径选择失败次数；

第二规划模块，用于根据所述目标兴趣点的可达情况和所述路径选择失败次数确定对应的第二引导策略；

第四构建模块，用于基于所述第二引导策略构建第四提示语音并播报。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与相应方法实施例属于同一构思，其具体实现过程详见对应方法实施例，这里不再赘述。

本发明一个实施例还提供了一种电子设备，该电子设备包括处理器和存储器，该存储器中存储有至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的兴趣点确定方法或实现如上述方法实施例所提供的语音导航方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本发明实施例提供的方法实施例可以在终端、服务器或者类似的运算装置中执行，即上述电子设备可以包括终端、服务器或者类似的运算装置。以运行在服务器上为例，如图7所示，其示出了本发明实施例提供的实现兴趣点确定方法或实现语音导航方法的服务器的结构示意图。该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(Central Processing Unit，CPU)710(例如，一个或一个以上处理器)和存储器730，一个或一个以上存储应用程序723或数据722的存储介质720(例如一个或一个以上海量存储设备)。其中，存储器730和存储介质720可以是短暂存储或持久存储。存储在存储介质720的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器710可以设置为与存储介质720通信，在服务器700上执行存储介质720中的一系列指令操作。服务器700还可以包括一个或一个以上电源760，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口740，和/或，一个或一个以上操作***721，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

输入输出接口740可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器700的通信供应商提供的无线网络。在一个实例中，输入输出接口740包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口740可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯，所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(Global System of Mobilecommunication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access，WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

本领域技术人员可以理解，图7所示的结构仅为示意，服务器700还可包括比图7中所示更多或者更少的组件，或者具有与图7所示不同的配置。

本发明一个实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质可设置于电子设备之中以保存用于实现一种兴趣点确定方法或实现一种语音导航方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的兴趣点确定方法或实现上述方法实施例提供的语音导航方法。

可选地，在本发明实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本发明一个实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实施例中提供的兴趣点确定方法或执行上述各种可选实施例中提供的语音导航方法。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种兴趣点确定方法，其特征在于，包括：

获取用户输入的第一语音信息；

基于所述第一语音信息确定用于兴趣点搜索的关键词；

基于所述候选兴趣点集构建第一提示语音并播报；

获取所述用户针对所述第一提示语音输入的第二语音信息；

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一语音信息确定用于兴趣点搜索的关键词包括：

获取所述用户对应的历史关键词；

3.根据权利要求2所述的方法，其特征在于，所述根据所述历史关键词对所述当前关键词进行修正，得到用于兴趣点搜索的关键词包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述候选兴趣点集构建第一提示语音并播报包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述第一引导策略构建第二提示语音并播报。

6.一种语音导航方法，其特征在于，包括：

采用权利要求1-5任意一项所述的兴趣点确定方法确定目标兴趣点；

基于所述候选路径集构建第三提示语音并播报；

获取所述用户针对所述第三提示语音输入的第三语音信息；

7.根据权利要求6所述的方法，其特征在于，所述基于所述候选路径集构建第三提示语音并播报包括：

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

当路径选择失败时，确定所述目标兴趣点的可达情况；

获取本次导航过程中的路径选择失败次数；

基于所述第二引导策略构建第四提示语音并播报。

9.一种兴趣点确定装置，其特征在于，包括：

第一获取模块，用于获取用户输入的第一语音信息；

10.一种语音导航装置，其特征在于，包括如权利要求9所述的兴趣点确定装置的各个模块，所述装置还包括：

11.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-5任意一项所述的兴趣点确定方法。

12.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求6-8任意一项所述的语音导航方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-5任意一项所述的兴趣点确定方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求6-8任意一项所述的语音导航方法。