CN109448712A

CN109448712A - 语音交互方法、装置、设备和存储介质

Info

Publication number: CN109448712A
Application number: CN201811337258.5A
Authority: CN
Inventors: 李扬
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2019-03-08

Abstract

本发明提供一种语音交互方法、装置、设备和存储介质。该方法包括：接收用户的第一语音指令；根据所述第一语音指令，进行搜索得到至少两个兴趣点POI，并提取至少两个所述POI的区分特征；根据所述区分特征，向用户输出引导语音，以引导用户进行下一轮语音交互。本发明实施例的方法交互效率较高，用户操作简便。

Description

语音交互方法、装置、设备和存储介质

技术领域

本发明涉及电子地图技术领域，尤其涉及一种语音交互方法、装置、设备和存储介质。

背景技术

随着信息技术的发展，电子地图得到越来越广泛的应用。用户可以基于电子地图进行目的地查询、导航等操作。目前，在电子地图中广泛使用语音交互方式，替代传统的文字输入交互方式，能够帮助用户在不方便输入文字的场景下(例如驾车)或者用户不会使用输入法等情况下，更方便地使用电子地图。通常电子地图通过设置在电子设备中的地图类应用程序(Application，简称APP)实现。

目前，在地图类APP中，语音交互通常是仅将语音当做输入和播报信息的方式，交互依然采用传统文字+图的形式，例如用户语音发出目的地查询的指令，如“去北京邮电大学”，设备接收指令后需要用户手动进行选择路线等操作。上述交互方式的缺点是交互不连贯，用户语音输入后还需要进行手动选择等多重动作，操作繁琐。

发明内容

本发明提供一种语音交互方法、装置、设备和存储介质，以提高交互效率，用户操作简便，提高了用户体验。

第一方面，本发明提供一种语音交互方法，包括：

接收用户的第一语音指令；

根据所述第一语音指令，进行搜索得到至少两个兴趣点POI，并提取至少两个所述POI的区分特征；

根据所述区分特征，向用户输出引导语音，以引导用户进行下一轮语音交互。

可选的，所述提取至少两个所述POI的区分特征，包括：

将至少两个所述POI的属性的差异作为所述区分特征；

其中，所述属性包括以下至少一项：名称、类型、地理位置、用户偏好和人群热度。

可选的，还包括：

在显示界面上显示引导信息；所述引导信息包括以下至少一项：文字提示信息、POI位置图区、POI列表信息；所述文字提示信息与所述引导语音对应；所述POI位置图区包括至少一个所述POI的位置图区；所述POI列表信息包括至少一个所述POI的信息。

可选的，所述根据所述区分特征，向用户输出引导语音，包括：

根据所述区分特征，向所述用户输出用于引导用户进行选择的引导语音。

根据所述区分特征，向所述用户输出用于询问是否切换POI搜索范围的引导语音。

根据所述区分特征，向所述用户输出用于确认POI属性的引导语音。

可选的，所述向用户输出引导语音之后，还包括：

接收所述用户的第二语音指令；

根据用户的第二语音指令执行对应的操作。

第二方面，本发明提供一种语音交互装置，包括：

接收模块，用于接收用户的第一语音指令；

处理模块，用于根据所述第一语音指令，进行搜索得到至少两个兴趣点POI，并提取至少两个所述POI的区分特征；

所述处理模块，还用于根据所述区分特征，向用户输出引导语音，以引导用户进行下一轮语音交互。

可选的，所述处理模块，具体用于：

将至少两个所述POI的属性的差异作为所述区分特征；

可选的，还包括：

显示模块，用于在显示界面上显示引导信息；所述引导信息包括以下至少一项：文字提示信息、POI位置图区、POI列表信息；所述文字提示信息与所述引导语音对应；所述POI位置图区包括至少一个所述POI的位置图区；所述POI列表信息包括至少一个所述POI的信息。

可选的，所述处理模块，具体用于：

根据所述区分特征，向所述用户输出用于确认所述POI的属性的引导语音。

可选的，所述接收模块，还用于：

接收所述用户的第二语音指令；

相应的，所述处理模块，具体用于：

根据用户的第二语音指令执行对应的操作。

第三方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任一项所述的方法。

第四方面，本发明实施例提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行第一方面中任一项所述的方法。

本发明实施例提供的语音交互方法、装置、设备和存储介质，接收用户的第一语音指令，根据用户的第一语音指令，进行搜索得到至少两个兴趣点POI，并提取至少两个POI的区分特征；进一步根据区分特征，向用户输出引导语音，以引导用户进行下一轮语音交互，提高了交互效率，用户操作简便，从而提高了用户体验。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本发明一实施例提供的应用场景图；

图2是本发明提供的语音交互方法一实施例的流程示意图；

图3是本发明提供的语音交互方法一实施例的界面示意图；

图4是本发明提供的语音交互方法另一实施例的界面示意图；

图5是本发明提供的语音交互装置一实施例的结构示意图；

图6是本发明提供的电子设备实施例的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本发明的说明书和权利要求书及所述附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先对本发明所涉及的名词和应用场景进行介绍：

由于地图中的兴趣点(Point of Interest，简称POI)的属性包含了难以直接用声音来描述的二维或三维空间位置信息，使用传统的语音对话技术纯依靠声音交互很难承载；而且用户使用地图时通常需要持续多轮交互，需要选择结果、发起导航、导航中切换路线等操作，这种多轮交互的场景信息也不仅仅能通过声音来表达，因此传统语音交互不能很好地应用于地图类APP中。

本发明实施例中，地图语音交互是指在地图类APP中使用语音、文字和图来综合交互，替代传统的文字输入交互方式，能够帮助用户在不方便输入文字的场景下(例如驾车)或者用户不会使用输入法等情况下，更方便地使用地图类APP。

本发明实施例提供的语音交互方法，应用于电子设备中的地图类的APP，进行检索、导航等交互，也可以用于各种智能设备，如智能机器人、可穿戴设备等的交互。

本发明实施例的方法，通过根据用户的第一语音指令，进行搜索得到至少两个兴趣点POI，并提取至少两个POI的区分特征；根据区分特征，向用户输出引导语音，以引导用户进行下一轮语音交互，提高了交互效率，用户操作简便，从而提高了用户体验。

下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明一实施例提供的应用场景图，可选的，本发明提供的方法可由电子设备12如处理器执行相应的软件代码实现，也可由该电子设备12在执行相应的软件代码的同时，通过和服务器11进行数据交互来实现，如服务器执行部分操作，来控制电子设备与用户进行交互。电子设备12和服务器11之间可以通过网络连接。

其中，电子设备可以是智能手机、车载设备、智能机器人、智能手环和平板电脑等设备，下面的实施例均以电子设备为执行主体进行说明。

图2是本发明提供的语音交互方法一实施例的流程示意图。如图2所示，本实施例提供的方法，包括：

步骤201、接收用户的第一语音指令。

步骤202、根据第一语音指令，进行搜索得到至少两个兴趣点POI，并提取至少两个POI的区分特征。

具体的，用户在需要使用地图类APP时，输出第一语音指令，该第一语音指令用于指示搜索POI。例如第一语音指令为“北京邮电大学”、或“我要去北京邮电大学”。

根据第一语音指令，提取出关键字，进行搜索，得到至少两个兴趣点POI，例如返回POI信息列表，如图3所示。

进一步，提取搜索到的至少两个POI的区分特征，具体可以通过如下方式实现：

将至少两个POI的属性的差异作为区分特征；

其中，属性包括以下至少一项：名称、类型、地理位置、用户偏好和人群热度。

具体的，通过确定至少两个POI的属性的差异，提取出区分特征，如将属性的差异作为区分特征。

例如搜索召回两个POI，“北京邮电大学”和“北京邮电大学(宏福校区)”，上述两个POI的属性的差异，包括：类型差异，主校区和分校区；地址位置差异，海淀区和昌平区；用户偏好差异，用户经常使用的是“北京邮电大学”；人群热度差异，多数前往的是“北京邮电大学”。

步骤203、根据区分特征，向用户输出引导语音，以引导用户进行下一轮语音交互。

具体的，根据提取出的区分特征，向用户输出引导语音，例如输出“推荐多数前往的主校区，是否发起导航？”、“您要去主校区，还是宏福校区？”，从而引导用户进行交互。

用户可以基于引导语音发出第二语音指令，例如输出“导航到主校区”，该电子设备接收到第二语音指令后执行相应的操作，如进行导航，还可以基于确定出的路线第二次发起引导语音，如“推荐拥堵较少路线，是否开始导航？”。

示例性的，若用户输入的第一语音指令“去机场”，搜索召回以下POI“北京首都国际机场”、“首都机场(1号航站楼)”、“首都机场(3号航站楼)”、“南苑机场”等，提取出的区分特征，例如包括：地理位置差异，顺义区、丰台区；用户偏好差异，用户经常使用的是“首都机场(3号航站楼)”；人群热度差异，多数前往的是“首都机场(3号航站楼)”。根据提取出的区分特征，向用户输出引导语音，例如输出“推荐多数前往的首都机场(3号航站楼)，是否发起导航？”、“您要去首都机场(3号航站楼)，还是首都机场(1号航站楼)？”，从而引导用户进行交互。

本实施例的方法，接收用户的第一语音指令，根据用户的第一语音指令，进行搜索得到至少两个兴趣点POI，并提取至少两个POI的区分特征；进一步根据区分特征，向用户输出引导语音，以引导用户进行下一轮语音交互，提高了交互效率，用户操作简便，从而提高了用户体验。

在上述实施例的基础上，进一步的，本实施例的方法，还包括：

在显示界面上显示引导信息；引导信息包括以下至少一项：文字提示信息、POI位置图区、POI列表信息；所述文字提示信息与所述引导语音对应；所述POI位置图区为至少一个所述POI的位置图区；所述POI列表信息包括至少一个所述POI的信息。

具体的，参照图3，在电子设备的显示界面上显示引导信息，如包括至少一个POI的位置图区，包括至少一个POI的信息的POI列表。

如图4所示，还可以显示与引导语音对应的文字提示信息，文字提示信息可以是引导语音对应的文字，也可以是与引导语音相关的其他提示信息，例如“去北京邮电大学经过的路线较堵”等。

图3、图4中C点表示用户的当前位置，B点表示北京邮电大学(宏福校区),A点表示北京邮电大学。

本实施例中，在语音播报的同时，在显示界面上进行多种形态的交互引导，实现了图+文+语音的综合引导，引导信息与引导语音互相呼应，可以让用户更加充分地了解信息，进而进行决策，在各种不方便输入文字的场景下也可以进行很好的交互。

在上述实施例的基础上，进一步的，对步骤203输出引导语音的具体实现方式进行详细说明。

可选的，作为一种实现方式，步骤203具体可以通过如下方式实现：

根据区分特征，向用户输出用于引导用户进行选择的引导语音。

具体的，根据提取出的区分特征，来输出引导语音引导用户进一步选择，例如“推荐多数前往的主校区，是否发起导航？”、“您要去主校区，还是宏福校区？”。从列表中选择用户的精确目的地

用户可以基于引导语音发出第二语音指令，例如输出“导航到主校区”，该电子设备接收到第二语音指令后执行相应的操作，如进行导航，还可以基于确定出的路线第二次发起引导语音，如“推荐拥堵较少路线，是否开始导航？”。从而实现更加简洁、人性化的多轮交互。

可选的，作为另一种实现方式，步骤203具体可以通过如下方式实现：

根据区分特征，向用户输出用于询问是否切换POI搜索范围的引导语音。

具体的，根据提取出的区分特征，来输出引导语音引导用户进一步细化查询条件，例如输出用于询问是否切换POI搜索范围的引导语音。

例如，引导搜索另外城市的结果，即将POI搜索范围切换到其他城市，例如输出“发现多个城市有匹配结果，您需要的是“A市”还是“B市”结果”。

或者，将POI搜索范围切换到其他区，例如输出“发现多个区有匹配结果，您需要的是“海淀区”还是“昌平区”结果”。

可选的，作为又一种实现方式，步骤203具体可以通过如下方式实现：

根据区分特征，向用户输出用于确认POI的属性的引导语音。

具体的，根据提取出的区分特征，来输出引导语音引导用户进一步完善查询条件，使得搜索结果更加精准，例如在用户搜索首钢时，输出“您是要找“首钢体育馆”还是“首钢大厦”。

或，例如在用户搜索机场时，输出“您是要找顺义区的机场？”，或者在用户搜索北京邮电大学时，输出“您是要找海淀区区的北京邮电大学？”。

进一步的，在上述步骤之后，还可以包括：

接收用户的第二语音指令；

根据用户的第二语音指令执行对应的操作。

具体的，用户可以基于引导语音发出第二语音指令，例如输出“导航到主校区”，该电子设备接收到第二语音指令后执行相应的操作，如进行导航，还可以基于确定出的路线第二次发起引导语音，如“推荐拥堵较少路线，是否开始导航？”。从而实现更加简洁、人性化的多轮交互。

本实施例中，不使用传统的播报名称和详细内容的办法，而是使用提取出的区分特征来输出引导语，引导用户进一步交互，交互效率较高。

综上，本发明实施例的方法，能够承载起地图的丰富信息内容，通过提取区分特征高效地语音交互，交互效率较好。能够结合图+文+语音，适应用户使用地图类APP的各种复杂场景，适应场景更广泛。

图5为本发明提供的语音交互装置一实施例的结构图，如图5所示，本实施例的语音交互装置，包括：

接收模块501，用于接收用户的第一语音指令；

处理模块502，用于根据所述第一语音指令，进行搜索得到至少两个兴趣点POI，并提取至少两个所述POI的区分特征；

所述处理模块502，还用于根据所述区分特征，向用户输出引导语音，以引导用户进行下一轮语音交互。

可选的，所述处理模块502，具体用于：

将至少两个所述POI的属性的差异作为所述区分特征；

可选的，还包括：

显示模块503，用于在显示界面上显示引导信息；所述引导信息包括以下至少一项：文字提示信息、POI位置图区、POI列表信息；所述文字提示信息与所述引导语音对应；所述POI位置图区包括至少一个所述POI的位置图区；所述POI列表信息包括至少一个所述POI的信息。

可选的，所述处理模块502，具体用于：

可选的，所述接收模块501，还用于：

接收所述用户的第二语音指令；

相应的，所述处理模块502，具体用于：

根据用户的第二语音指令执行对应的操作。

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图6为本发明提供的电子设备实施例的结构图，如图6所示，该电子设备包括：

处理器601，以及，用于存储处理器601的可执行指令的存储器602。

可选的，还可以包括：多媒体组件603。

上述部件可以通过一条或多条总线进行通信。

其中，处理器601配置为经由执行所述可执行指令来执行前述方法实施例中对应的方法，其具体实施过程可以参见前述方法实施例，此处不再赘述。

可选的，多媒体组件603包括在所述电子设备和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件603包括一个前置摄像头和/或后置摄像头。当电子设备处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

可选的，电子设备还可以包括：音频组件，被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器602或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本发明实施例中还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述方法实施例中对应的方法，其具体实施过程可以参见前述方法实施例，其实现原理和技术效果类似，此处不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.一种语音交互方法，其特征在于，包括：

接收用户的第一语音指令；

2.根据权利要求1所述的方法，其特征在于，所述提取至少两个所述POI的区分特征，包括：

将至少两个所述POI的属性的差异作为所述区分特征；

3.根据权利要求1或2所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述区分特征，向用户输出引导语音，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述区分特征，向用户输出引导语音，包括：

6.根据权利要求3所述的方法，其特征在于，所述根据所述区分特征，向用户输出引导语音，包括：

7.根据权利要求4-6任一项所述的方法，其特征在于，所述向用户输出引导语音之后，还包括：

接收所述用户的第二语音指令；

根据用户的第二语音指令执行对应的操作。

8.一种语音交互装置，其特征在于，包括：

接收模块，用于接收用户的第一语音指令；

9.根据权利要求8所述的装置，其特征在于，所述处理模块，具体用于：

将至少两个所述POI的属性的差异作为所述区分特征；

10.根据权利要求8或9所述的装置，其特征在于，还包括：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。

12.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的方法。