CN104535071A

CN104535071A - 一种语音导航方法及装置

Info

Publication number: CN104535071A
Application number: CN201410742287.5A
Authority: CN
Inventors: 谢波
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: BAIDU INTERNATIONAL TECHNOLOGY (SHENZHEN) Co.,Ltd.; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-12-05
Filing date: 2014-12-05
Publication date: 2015-04-22
Anticipated expiration: 2034-12-05
Also published as: CN104535071B

Abstract

本发明实施例提供了一种语音导航方法及装置。一方面，本发明实施例通过采集用户的第一语音指令；从而，依据当前导航状态，确定语音识别模型；进而利用所述语音识别模型，对所述用户的第一语音指令进行语音识别，以获得第一语音识别结果，以及依据所述第一语音识别结果，执行导航操作。因此，本发明实施例提供的技术方案能够解决现有技术中导航过程中操作成本较高、语音导航过程效率较低的问题。

Description

一种语音导航方法及装置

【技术领域】

本发明涉及人机交互技术，尤其涉及一种语音导航方法及装置。

【背景技术】

随着全球定位***GPS民用化的深入以及互联网通信技术的发展，人们越来越多地使用导航客户端。导航客户端能够基于电子地图向用户提供路径规划和引导等导航功能。由于它给人们的出行带来了很大的方便，因此逐渐成为生活中必不可少的一部分。随着对导航客户端的关注度和使用度越来越高，人们已经不仅仅满足于导航客户端所提供的基本的导航功能，而是希望其能够提供更加精确性、更加人性化的导航服务。

语音提示功能是导航客户端所提供导航功能的重要组成部分，由于导航客户端的特殊性，驾驶者开车过程中要专注于驾驶并注意路面情况，因此不能频繁的观察导航客户端界面来获取路线相关信息，因此，语音提示功能就显得尤为重要。然而，导航客户端只具有语音提示功能，提供导航服务时仍然需要用户在驾驶车辆上路之前，手动输入目的地信息，如果用户在驾驶过程中需要获取其他导航信息，则需要停车后进行手动操作完成查看，因此目前导航过程中的操作成本较高，语音导航的处理效率比较低。

【发明内容】

有鉴于此，本发明实施例提供了一种语音导航方法及装置，用以解决现有技术中导航过程中操作成本较高、语音导航过程效率较低的问题。

本发明实施例的一方面，提供一种语音导航方法，包括：

采集用户的第一语音指令；

依据当前导航状态，确定语音识别模型；

利用所述语音识别模型，对所述用户的第一语音指令进行语音识别，以获得第一语音识别结果；

依据所述第一语音识别结果，执行导航操作。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述采集用户的第一语音指令，包括：

监听用户的第二语音指令；

利用语音唤醒模型对所述第二语音指令进行语音识别，以获得第二语音识别结果；

若所述第二语音识别结果满足预设的唤醒条件，采集用户的第一语音指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述依据当前导航状态，确定语音识别模型，包括：

若所述当前导航状态为开始导航前，确定所述语音识别模型为第一模型；

其中，所述第一模型用于识别出所述第一语音指令中所包含的兴趣点搜索指令。

若所述当前导航状态为正在导航中，确定所述语音识别模型为第二模型；

其中，所述第二模型用于识别出所述第一语言指令中所包含的以下指令中至少一个：客户端控制指令、导航提示指令和兴趣点搜索指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述依据所述第一语音识别结果，执行导航操作，包括：

若所述第一语音识别结果中所包含的兴趣点搜索指令为兴趣点名称，获得并输出与所述兴趣点名称相匹配的搜索结果；或者，

若所述第一语音识别结果中所包含的兴趣点搜索指令为兴趣点类型名称，获得并输出与所述兴趣点类型名称相匹配的搜索结果。

若所述第一语音识别结果中包含客户端控制指令，依据所述客户端控制指令，对所述客户端进行以下控制中至少一个：放大/缩小地图、增大/减小音量和开启/关闭投影功能；

若所述第一语音识别结果中包含导航提示指令，依据所述导航提示指令，获取并输出以下导航提示信息中至少一个：到达目的地的剩余距离信息、到达目的地的所需时间信息、路况信息和所在道路信息；

若所述第一语音识别结果中包含兴趣点搜索指令，依据所述兴趣点搜索指令，获取并输出与所述兴趣点搜索指令中兴趣点信息相匹配的搜索结果。

本发明实施例的一方面，提供一种语音导航装置，包括：

语音采集单元，用于采集用户的第一语音指令；

模型处理单元，用于依据当前导航状态，确定语音识别模型；

语音识别单元，用于利用所述语音识别模型，对所述用户的第一语音指令进行语音识别，以获得第一语音识别结果；

导航执行单元，用于依据所述第一语音识别结果，执行导航操作。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，

所述语音采集单元，还用于监听用户的第二语音指令；

所述装置还包括：

语音唤醒单元，用于利用语音唤醒模型对所述第二语音指令进行语音识别，以获得第二语音识别结果；若所述第二语音识别结果满足预设的唤醒条件，触发所述语音采集单元采集用户的第一语音指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述模型处理单元，具体用于：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述导航执行单元，具体用于：

由以上技术方案可以看出，本发明实施例具有以下有益效果：

本发明实施例通过采集用户的第一语音指令；从而，依据当前导航状态，确定语音识别模型；进而利用所述语音识别模型，对所述用户的第一语音指令进行语音识别，以获得第一语音识别结果，以及依据所述第一语音识别结果，执行导航操作。与现有技术相比，本发明实施例提供的技术方案能够依据用户的语音指令，自动执行导航操作，从而实现向用户提供导航服务，不需要用户进行手动操作就可以实现导航功能，因此能够解决现有技术中导航过程中操作成本较高以及语音导航过程效率较低的问题，能够降低导航过程中的操作成本，提高语音导航的处理效率，保证驾车安全性。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例所提供的技术方案使用的***示例图；

图2是本发明实施例所提供的语音导航方法的流程示意图；

图3是本发明实施例所提供的语音导航装置的功能方块图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二等来描述语音识别结果，但这些关键词不应限于这些术语。这些术语仅用来将关键词彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一语音识别结果也可以被称为第二语音识别结果，类似地，第二语音识别结果也可以被称为第一语音识别结果。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

本发明实施例所提供的技术方案使用的***如图1所示，主要由客户端和服务器组成，本发明实施例所提供的方法和装置在客户端侧实现，主要用于依据用户的语音指令，向用户提供语音导航服务，实现客户端的语音导航功能。

本发明实施例给出一种语音导航方法，请参考图2，其为本发明实施例所提供的语音导航方法的流程示意图，如图所示，该方法包括以下步骤：

S201，采集用户的第一语音指令。

S202，依据当前导航状态，确定语音识别模型。

S203，利用所述语音识别模型，对所述用户的第一语音指令进行语音识别，以获得第一语音识别结果。

S204，依据所述第一语音识别结果，执行导航操作。

基于上述语音导航方法，本发明实施例对S201的方法进行具体描述。该步骤具体可以包括：

首先，客户端监听用户的第二语音指令。然后，客户端利用语音唤醒模型对所述第二语音指令进行语音识别，以获得第二语音识别结果。最后，客户端判断该第二语音识别结果是否满足预设的唤醒条件，若所述第二语音识别结果满足预设的唤醒条件，客户端采集用户的第一语音指令。

需要说明的是，语音导航过程中，为了避免对用户的语音指令的误识别，需要实现实时语音唤醒功能，客户端在语音唤醒状态下，如果监听到的用户的语音指令满足唤醒条件，进入语音识别状态，从而才开始接收用户的语音指令。

例如，客户端可以开启一个监听线程，用于持续监听用户的第二语音指令。客户端利用语音唤醒模型，对监听到得第二语音指令进行语音识别，以获得第二语音识别结果。该语音唤醒模型用于识别出第二语音指令中所包含的唤醒词。如果客户端判断出第二语音识别结果中包含预设的唤醒词，则说明第二语音识别结果满足预设的唤醒条件，客户端可以由语音唤醒状态转换为语音识别状态，从而客户端可以采集用户的第一语音指令。

优选的，客户端可以利用音频采集装置来采集上述第一语音指令。

例如，客户端位于手机或者平板电脑上时，客户端可以利用麦克风采集第一语音指令。

基于上述语音导航方法，本发明实施例对S202的方法进行具体描述。该步骤具体可以包括：

客户端判断自身当前导航状态，若所述当前导航状态为开始导航前，确定所述语音识别模型为第一模型；其中，所述第一模型用于识别出所述第一语音指令中所包含的兴趣点搜索指令。若所述当前导航状态为正在导航中，确定所述语音识别模型为第二模型；其中，所述第二模型用于识别出所述第一语言指令中所包含的以下指令中至少一个：客户端控制指令、导航提示指令和兴趣点搜索指令。

需要说明的是，本发明实施例中，在开始导航前和正在导航中两种导航状态下，所使用的语音识别模型是不同的。由于开始导航前，需要依据用户通过第一语音指令来指定的兴趣点信息，进行兴趣点搜索，因此，需要利用第一模型来识别出第一语音指令中所包含的兴趣点搜索指令。由于正在导航中，需要依据用户通过第一语音指令来指定的相关指令，进行客户端控制、导航提示或者兴趣点搜索，因此，需要利用第二模型来识别出第一语音指令中所包含的相关指令。

基于上述语音导航方法，本发明实施例对S203的方法进行具体描述。该步骤具体可以包括：

若客户端的当前导航状态为开始导航前，利用第一模型对采集的用户的第一语音指令进行语音识别，或者，若客户端的当前导航状态为正在导航中，利用第二模型对采集的用户的第一语音指令进行语音识别。

举例说明，客户端利用第一模型或者第二模型对第一语音指令进行语音识别的方法可以包括但不限于：

首先，客户端对第一语音指令进行预处理，可以包括滤波处理、采样和量化处理、加窗处理、端点检测处理和预加重处理等。然后，客户端对经过预处理的第一语音指令提取特征信息。最后，如果利用第一模型进行语音识别，则客户端将提取的特征信息与第一模型中的特征信息进行匹配，将匹配分数最高的特征信息所对应的字符信息作为第一语音识别结果。如果利用第二模型进行语音识别，则客户端将提取的特征信息与第二模型中的特征信息进行匹配，将匹配分数最高的特征信息作为第一语音识别结果。

需要说明的是，利用第一模型对第一语音指令进行语音识别时，能够使得第一语音指令的特征信息与第一模型中的兴趣点搜索指令的特征信息的匹配分数较高，这样就可以将兴趣点搜索指令的特征信息作为第一语音识别结果。同理，利用第二模型对第一语音指令进行语音识别时，能够使得第一语音指令的特征信息与第二模型中的相关指令的特征信息的匹配分数较高，这样，就可以将这些相关指令的特征信息作为第一语音识别结果。本发明实施例中，针对当前导航状态的不同，使用不同的语音识别模型，可以有针对性从用户的语音指令中识别出用户的导航需求，从而可以提高语音导航的准确性和可靠性。

基于上述语音导航方法，本发明实施例对S204的方法进行具体描述。该步骤具体可以包括：

当上面利用第一模型识别出的第一语音识别结果中所包含的兴趣点搜索指令时，若第一语音识别结果中所包含的兴趣点搜索指令为兴趣点名称，客户端获得并输出与该兴趣点名称相匹配的搜索结果。或者，若第一语音识别结果中所包含的兴趣点搜索指令为兴趣点类型名称，客户端获得并输出与该兴趣点类型名称相匹配的搜索结果。

举例说明，客户端获得与兴趣点名称或者兴趣点类型名称相匹配的搜索结果的方法可以包括但不限于以下两种：

第一种：客户端可以依据兴趣点名称或者兴趣点类型名称在本地数据库中进行搜索，以获得相匹配的搜索结果。

第二种：如图1所示，如果客户端在本地数据库中没有获得搜索结果，客户端可以向服务器发起针对该兴趣点名称或者兴趣点类型名称的搜索请求，用以从服务器获得与兴趣点名称或者兴趣点类型名称相匹配的搜索结果。

另外，客户端在获得该搜索结果后，可以利用语音播报该搜索结果，以实现搜索结果的输出。或者，客户端在获得该搜索结果后，也可以显示该搜索结果，以实现搜索结果的输出。

例如，第一语音识别结果为“我要去北海公园”，客户端依据该第一语音识别结果中所包含的兴趣点名称“北海公园”，在本地数据库中或者服务器中获得与“北海公园”相匹配的搜索结果，如该搜索结果可以包括但不限于以下信息中至少一个：“北海公园”的地址、电话、到达“北海公园”的路径信息、与当前位置的距离信息、到达所需要的时长和标注出“北海公园”的电子地图。客户端可以播报到达“北海公园”的路径信息，并同时显示标注出“北海公园”的电子地图，以实现向用户输出与“北海公园”相匹配的搜索结果。

例如，第一语音识别结果为“我要去附近的肯德基”，客户端依据该第一语音识别结果中所包含的兴趣点类型名称“附近的肯德基”，在本地数据库中或者服务器中获得与“附近的肯德基”相匹配的搜索结果，如该搜索结果可以包括但不限于以下信息中至少一个：“附近的肯德基”的地址、电话、到达“附近的肯德基”中距离当前位置最近的肯德基的路径信息、与当前位置的距离信息、到达所需要的时长和标注出最近的肯德基的电子地图。客户端可以播报到达该路径信息，并同时显示标注出最近的肯德基的电子地图，以实现向用户输出与“附近的肯德基”相匹配的搜索结果。

当上面利用第二模型识别出的第一语音识别结果中包含客户端控制指令时，依据所述客户端控制指令，对所述客户端进行以下控制中至少一个：放大/缩小地图、增大/减小音量和开启/关闭投影功能。

例如，所述投影功能可以是将电子地图投影在汽车的前挡风玻璃上，方便用户查看电子地图。

或者，当上面利用第二模型识别出的第一语音识别结果中包含导航提示指令时，依据所述导航提示指令，获取并输出以下导航提示信息中至少一个：到达目的地的剩余距离信息、到达目的地的所需时间信息、路况信息和所在道路信息。

例如，所在道路信息可以包括但不限于所在道路的名称、所在道路的摄像头信息或者所在道路的限速信息等。

其中，客户端可以利用语音播报上述导航提示信息，或者，也可以显示上述导航提示信息。

或者，当上面利用第二模型识别出的第一语音识别结果中包含兴趣点搜索指令时，依据所述兴趣点搜索指令，获取并输出与所述兴趣点搜索指令中兴趣点信息相匹配的搜索结果。

例如，导航过程中，可以依据该兴趣点搜索指令，搜索客户端附近的兴趣点，如加油站、服务区等，或者也可以利用该兴趣点搜索指令，更新当前导航的目的地，如将目的地更换为家或者公司等。

另外，客户端依据第一语音识别结果，执行导航操作后，如果发现一段时间内没有再采集到第一语音指令，则客户端可以选择由语音识别状态回到语音唤醒状态，如果用户还想继续使用语音导航功能，则需要再次利用唤醒词触发客户端进入语音识别状态。

本发明实施例中，所述客户端除了可以是导航客户端以外，还可以是利用语音交互方式向用户提供音频形式的信息的客户端。所述客户端可以位于导航终端、智能电视或者用户设备上；所述用户设备可以包括但不限于个人计算机(Personal Computer，PC)、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。

需要说明的是，S201～S204的执行主体可以为语音导航装置，该装置可以位于本地终端的应用，或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，本发明实施例对此不进行特别限定。

可以理解的是，所述应用可以是安装在终端上的应用程序(nativeApp)，或者还可以是终端上的浏览器的一个网页程序(webApp)，本发明实施例对此不进行限定。

本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。

请参考图3，其为本发明实施例所提供的语音导航装置的功能方块图。如图所示，该装置包括：

语音采集单元301，用于采集用户的第一语音指令；

模型处理单元302，用于依据当前导航状态，确定语音识别模型；

语音识别单元303，用于利用所述语音识别模型，对所述用户的第一语音指令进行语音识别，以获得第一语音识别结果；

导航执行单元304，用于依据所述第一语音识别结果，执行导航操作。

优选的，所述语音采集单元301，还用于监听用户的第二语音指令；

所述装置还包括：语音唤醒单元305，用于利用语音唤醒模型对所述第二语音指令进行语音识别，以获得第二语音识别结果；若所述第二语音识别结果满足预设的唤醒条件，触发所述语音采集单元采集用户的第一语音指令。

优选的，所述模型处理单元302，具体用于：

优选的，所述导航执行单元304，具体用于：

若所述第一语音识别结果中所包含的兴趣点搜索指令为兴趣点名称，获得并输出与所述兴趣点名称相匹配的搜索结果；或者，若所述第一语音识别结果中所包含的兴趣点搜索指令为兴趣点类型名称，获得并输出与所述兴趣点类型名称相匹配的搜索结果。

优选的，所述导航执行单元304，具体用于：

由于本实施例中的各单元能够执行图2所示的方法，本实施例未详细描述的部分，可参考对图2的相关说明。

本发明实施例的技术方案具有以下有益效果：

另外，本发明实施例提供的技术方案中能够在语音导航过程中实现语音唤醒功能，只有在用户的语音指令满足唤醒条件时，才会进行语音导航，因此可以避免对用户的语音指令的误识别，提高语音导航的准确性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音导航方法，其特征在于，所述方法包括：

采集用户的第一语音指令；

依据当前导航状态，确定语音识别模型；

依据所述第一语音识别结果，执行导航操作。

2.根据权利要求1所述的方法，其特征在于，所述采集用户的第一语音指令，包括：

监听用户的第二语音指令；

3.根据权利要求1所述的方法，其特征在于，所述依据当前导航状态，确定语音识别模型，包括：

4.根据权利要求1所述的方法，其特征在于，所述依据当前导航状态，确定语音识别模型，包括：

5.根据权利要求3所述的方法，其特征在于，所述依据所述第一语音识别结果，执行导航操作，包括：

6.根据权利要求4所述的方法，其特征在于，所述依据所述第一语音识别结果，执行导航操作，包括：

7.一种语音导航装置，其特征在于，所述装置包括：

语音采集单元，用于采集用户的第一语音指令；

8.根据权利要求7所述的装置，其特征在于，

所述语音采集单元，还用于监听用户的第二语音指令；

所述装置还包括：

9.根据权利要求7所述的装置，其特征在于，所述模型处理单元，具体用于：

10.根据权利要求7所述的装置，其特征在于，所述模型处理单元，具体用于：

11.根据权利要求9所述的装置，其特征在于，所述导航执行单元，具体用于：

12.根据权利要求10所述的装置，其特征在于，所述导航执行单元，具体用于：