CN105047197B

CN105047197B - 用于协调语音识别的***和方法

Info

Publication number: CN105047197B
Application number: CN201510215779.3A
Authority: CN
Inventors: C.R.汉森; R.A.赫拉巴克; T.J.格罗斯特
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2014-04-30
Filing date: 2015-04-30
Publication date: 2018-12-07
Anticipated expiration: 2035-04-30
Also published as: CN105047197A; DE102015106530A1; DE102015106530B4; US20150317973A1

Abstract

本发明涉及用于协调语音识别的***和方法。提供了用于协调识别车辆的语音***和用户装置的语音***之间的语音表达的***和方法。在一个实施例中，所述方法包括：从用户接收所述语音表达；在所述语音表达上实施语音识别来确定所述语音表达的主题；基于所述语音表达的所述主题来确定所述语音表达是意在用于所述车辆的所述语音***，还是意在用于所述用户装置的所述语音***；并且基于所述语音表达是意在用于所述车辆的所述语音***，还是意在用于所述用户装置的所述语音***的确定，选择性地将所述语音表达提供至所述车辆的所述语音***或所述用户装置的所述语音***。

Description

用于协调语音识别的***和方法

技术领域

本技术领域大体涉及语音***，以及更确切地指用于在车辆和用户装置的语音***之间进行协调语音识别的方法和***。

背景技术

除了其它方面，车辆语音***基于车辆的乘员所发出的语音实施语音识别。语音表达典型地包括与车辆的一个或更多个特征部通信或者控制其的指令。

在某些情况下，车辆可以与车辆附近的用户装置（例如智能手机或者其它装置）通信。用户装置可以包括语音***，除了其它方面，语音***基于通过用户装置发出的语音实施语音识别。此类语音表达通常包括与用户装置的一个或更多个应用通信或者控制其的指令。

因此，当用户装置与车辆通信时，提供用于协调识别车辆的乘员所发出的语音指令的方法和***是期望的。此外，结合附图和前述的技术领域和背景，本发明的其它期望的特征和特点将从随后的详细描述和所附的权利要求中变得显而易见的。

发明内容

提供用于协调识别车辆的语音***和用户装置的语音***之间的语音表达的方法和***。在一个实施例中，方法包括：从用户接收语音表达；在语音表达上实施语音识别来确定语音表达的主题；基于语音表达的主题来确定语音表达是意在用于车辆的语音***，还是意在用于用户装置的语音***；并且基于语音表达是意在用于车辆的语音***，还是意在用于用户装置的语音***的确定，选择性地将语音表达提供至车辆的语音***或者用户装置的语音***。

在另一实施例中，***包括从用户接收语音表达的第一模块，并且其在语音表达上实施语音识别来确定语音表达的主题。***进一步包括第二模块，该第二模块基于语音表达的主题来确定语音表达是意在用于车辆的语音***，还是意在用于用户装置的语音***，并且基于语音表达是意在用于车辆的语音***，还是意在用于用户装置的语音***的确定，选择性地将语音表达提供至车辆的语音***或用户装置的语音***。

在另一实施例中，提供一种车辆。车辆包括语音***和识别协调器模块。识别协调器模块从车辆的用户接收语音表达，在语音表达上实施语音识别来确定语音表达的主题，并且基于语音表达的主题来确定语音表达是意在用于车辆的语音***，还是意在用于用户装置的语音***。

根据本发明，其进一步包括以下技术方案：

1. 一种用于协调识别车辆的语音***和用户装置的语音***之间的语音表达的方法，其包括：

从用户接收所述语音表达；

在所述语音表达上实施语音识别来确定所述语音表达的主题；

基于所述语音表达的所述主题来确定，所述语音表达是意在用于所述车辆的所述语音***，还是意在用于所述用户装置的所述语音***；以及

基于所述语音表达是意在用于所述车辆的所述语音***，还是意在用于所述用户装置的所述语音***的确定，选择性地提供所述语音表达至所述车辆的所述语音***或者所述用户装置的所述语音***。

2. 根据技术方案1所述的方法，其进一步包括：

确定所述用户装置是否与所述车辆通信；以及

其中所述语音表达是意在用于所述车辆的所述语音***还是意在用于所述用户装置的所述语音***的确定还基于与所述车辆通信的所述用户装置。

3. 根据技术方案2所述的方法，其进一步包括：

确定多个用户装置与所述车辆通信，以及

其中所述语音表达是意在用于所述车辆的所述语音***还是意在用于所述用户装置的所述语音***的确定包括，确定所述语音表达是意在用于所述车辆的所述语音***，还是意在用于与所述车辆通信的所述多个用户装置中的特定用户装置的所述语音***。

4. 根据技术方案1所述的方法，其进一步包括：

基于所述主题确定所述语音表达的语境；以及

选择性地提供所述语音表达的所述语境至所述车辆的所述语音***或者所述用户装置的所述语音***。

5. 根据技术方案4所述的方法，其进一步包括：

确定所述用户装置是否能够接收所述语境，以及

其中选择性地提供所述语音表达的语境至所述车辆的所述语音***或者所述用户装置的所述语音***是基于所述用户装置是否能够处理所述语境的确定。

6. 根据技术方案1所述的方法，其进一步包括：

接收信号来激活所述车辆语音识别；以及

基于所述信号确定所述语音表达的使用意图。

7. 根据技术方案6所述的方法，其中在所述语音表达上来确定所述语音表达的主题的所述语音识别的实施是基于所述语音的所述使用意图。

8. 根据技术方案6所述的方法，其中所述语音表达是意在用于所述车辆的所述语音***还是意在用于所述用户装置的所述语音***的确定是基于所述语音表达的所述使用意图。

9. 根据技术方案1所述的方法，其中由所述车辆的所述语音***对所述用户的所述语音表达的接收以及其中选择性的提供包括提供所述语音表达至所述用户装置的所述语音***。

10. 一种用于协调识别车辆的语音***与用户装置的语音***之间的语音表达的***，其包括：

第一模块，所述第一模块从用户接收所述语音表达，并且在所述语音表达上实施语音识别来确定所述语音表达的主题；以及

第二模块，所述第二模块基于所述语音表达的所述主题确定所述语音表达是意在用于所述车辆的所述语音***，还是意在用于所述用户装置的所述语音***，并且基于所述语音表达是意在用于所述车辆的所述语音***还是意在用于所述用户装置的所述语音***的确定，所述第二模块选择性地提供所述语音表达至所述车辆的所述语音***或所述用户装置的所述语音***。

11. 根据技术方案10所述的***，其中所述第二模块确定所述用户装置与所述车辆通信，并且进一步基于与所述车辆通信的所述用户装置来确定所述语音表达是意在用于所述车辆的所述语音***，还是意在用于所述用户装置的所述语音***。

12. 根据技术方案11所述的***，其中所述第二模块确定多个用户装置与所述车辆通信，并且确定所述语音表达是意在用于所述车辆的所述语音***，还是意在用于与所述车辆通信的所述多个用户装置的特定用户装置的所述语音***。

13. 根据技术方案10所述的***，其中所述第二模块基于所述主题确定所述语音表达的语境，并且选择性地将所述语音表达的所述语境提供至所述车辆的所述语音***或所述用户装置的所述语音***。

14. 根据技术方案13所述的***，其中所述第二模块确定所述用户装置是否能够接收所述语境，并且基于所述用户装置是否能够接收所述语境的确定选择性地将所述语音表达的所述语境提供至所述车辆的所述语音***或所述用户装置的所述语音***。

15. 根据技术方案10所述的***，其进一步包括第三模块，所述第三模块接收信号来激活所述车辆语音识别，并且所述第三模块基于所述信号确定所述语音表达的使用意图。

16. 根据技术方案15所述的***，其中所述第一模块基于所述语音表达的所述使用意图在所述语音表达上实施语音识别来确定所述语音表达的所述主题。

17. 根据技术方案15所述的***，其中所述第二模块基于所述语音表达的所述使用意图确定所述语音表达是意在用于所述车辆的语音***，还是意在用于所述用户装置的所述语音***。

18. 根据技术方案10所述的***，其中所述第一模块通过所述车辆的所述语音***接收所述用户的所述语音表达，并且其中所述第二模块提供所述语音表达至所述用户装置的所述语音***。

19. 一种车辆，其包括：

语音***；以及

识别协调器模块，所述识别协调器模块从所述车辆的用户接收语音表达，其在所述语音表达上实施语音识别来确定所述语音表达的主题，并且其基于所述语音表达的所述主题来确定所述语音表达是意在用于所述车辆的所述语音***，还是意在用于所述用户装置的所述语音***。

20. 根据技术方案19的所述车辆，其中所述识别协调器模块基于所述主题来确定所述语音表达的语境，并且基于所述语音表达是意在用于所述车辆的语音***还是意在用于所述用户装置的所述语音***的确定，选择性地将所述语音表达和所述语境中至少一个提供至所述用户装置的所述语音***。

附图说明

在下文中结合下列附图将对示例性实施例进行描述，其中相同的附图标记表示相同的元件，以及其中：

图1是车辆和用户装置的功能框图，其每一个包括根据各个示例性实施例的语音***；

图2是数据流程图，图示根据各个示例性实施例的语音***的识别协调器模块：并且

图3和4是流程图，图示根据各个示例性实施例的语音方法。

具体实施方式

下面的详细描述在本质上仅仅是示例性的，且并不旨在限制其应用和使用。此外，其不旨在受到在前述技术领域、背景技术、简明概述或者下文详细描述中所呈现的任何明示或者暗示的理论的限制。如此处所使用的，术语“模块”涉及特定用途集成电路（ASIC）、电子电路、处理器（共享的、专用的或者组）和存储器，其执行一个或更多个软件或固件程序、组合逻辑电路和/或提供所述功能的其它合适的部件。

现参照图1，根据此文中所述主题的示例性实施例，示出了具有根据各个实施例语音***12的车辆10。通常车辆10的语音***12通过人机交互（HMI）模块14提供语音识别、会话管理以及为车辆10的一个或更多个***提供语音产生。此类车辆***可以包括，例如但不限于，电话***16、导航***18、媒体***20、移动车载信息***22、网络***24以及可以包括语音相关的应用的任何其它车辆***。

HMI模块14配置来通过一个或更多个用户输入装置来由一个或更多个用户（例如司机、乘客等）进行操作（或者以其它方式进行交互）。此类用户输入装置，例如可以包括但不限于，麦克风26和激活按钮28。麦克风26例如可以配置来记录用户发出的语音表达。激活按钮28可以配置来激活由麦克风26进行的记录和/或来指示记录的意图。例如，当将激活按钮28按压了第一周期（例如较短的周期）时，激活按钮28发送信号指示来激活由麦克风对旨在用于车辆***16-24的语音表达的记录。在另一示例中，当将激活按钮28按压了第二周期（例如较长的周期）时，激活按钮28发送信号指示来激活由麦克风26对旨在用于非车辆***（例如用户装置的应用，或者如将在下面更详细地讨论的其它***）的语音表达的记录。

在各种实施例中，一个或更多个用户装置30可以在任何一个时间出现在车辆10内部或者附近，并且可以通过HMI模块14与车辆10通信。例如，用户装置30可以配置来通过合适的有线或者无线的连接（例如蓝牙、Wi-Fi、USB等）直接与HMI模块14或者车辆10的其它部件通信。例如，用户装置30可以是智能手机、平板电脑、功能手机或者类似物，并且可以包括语音***32。通常，用户装置30的语音***32提供语音识别、会话管理，并且为用户装置30的一个或更多个应用提供语音生成。此类应用可以包括，例如但不限于导航应用34、媒体应用36、手机应用38和/或可以包括语音相关的应用的任何其它应用。

示出车辆10的语音***12包括（或相关联）识别协调器模块40。识别协调器模块40基于指示记录意图的信号来协调由用户提供的语音表达的识别。例如当信号指示出语音表达旨在由用户装置30的应用来使用时，识别协调器模块40在音频缓冲中存储该语音表达用于通过HMI模块14传送给用户装置30。在另一示例中，当信号指示语音表达旨在由车辆10的车辆***来使用时，识别协调器模块40首先确定语音表达是否确实旨在由用户装置30的应用来使用，并且如果语音表达确实旨在由用户装置30的应用来使用，则识别协调器模块40在音频缓冲中存储该语音表达用于通过HMI模块14传送给用户装置30。用户装置30的语音***32接收音频缓冲并且处理语音表达。然而如果语音表达并不确实意在由用户装置30的应用来使用，则识别协调器模块40使用车辆10的语音***12来处理语音表达。

在各种实施例中，如果语音表达确实意在由用户装置30的应用来使用，则识别协调器模块40确定语音表达的语境（例如媒体语境、导航语境、电话语境等）用于采用音频缓冲进行传送。用户装置30的语音***32接收语境并且使用该语境来提供语音表达的改良识别。

现参照图2，且继续参照图1，数据流程图说明根据各个示例性实施例的识别协调器模块40。如所领会到的，根据本公开，识别协调器模块40的各种示例性实施例可以包括任意数量的子模块。在各种示例性实施例中，在图2中所示出的子模块可以被组合和/或进一步划分以协调车辆10的语音***12和用户装置30的语音***32之间的语音表达的识别。在各种示例性实施例中，识别协调器模块40包括意图确定模块42、主题确定模块44、协调模块46、主题数据存储48和语境数据存储50。

意图确定模块42从指示来激活记录和指示语音表达意图的（例如当按下激活按钮28时由用户所指示的）信号接收输入数据52。基于数据52，意图确定模块42确定语音表达的意图54是用于车辆***来使用或者用于用户装置的应用来使用。

主题确定模块44接收作为输入的语音表达56（例如，基于用户对着与HMI模块14相关联的麦克风26说话）。主题确定模块44通过使用一个或更多个主题识别方法处理语音表达56来确定语音表达56的主题58。例如，主题确定模块44可以通过使用一种或更多种语音识别技术来确定语音表达56的动词，并且可以基于动词和主题数据存储48中存储的特定主题的关联性来选择主题58。如所能够领会到的，这仅仅是个示例，且其它方法也可用于确定语音表达56的主题58。

协调模块46接收作为输入的语音表达的意图54、语音表达的主题58、语音表达和指示用户装置30是否与车辆10通信的数据60。基于这些输入，协调模块46准备用于由车辆10的语音***12或者用户装置30的语音***32进行处理的语音表达56。例如，如果数据60指示用户装置30未与车辆10通信，则协调模块46提供语音表达56至车辆10的语音***12用于进一步的处理。

然而，如果数据60指示一个或更多个用户装置30与车辆10通信，则协调模块46确定语音表达的意图54是否由用户装置30的语音***32来使用。如果语音表达的意图54是由用户装置30的语音***32使用，则协调模块46将语音表达56存储在音频缓冲62中，用于通过HMI模块14传送到用户装置30的语音***32。

然而如果语音表达的意图54是由车辆10的语音***12使用，则协调模块46确定是否语音表达的主题58确实意在由用户装置30来使用（例如通过比较该主题与特定用户装置或者特定类型的用户装置相关的主题）。如果提供了多个用户装置，则协调模块46确定该主题确实意在用于哪个用户装置。如果确定语音表达确实意在用于特定用户装置，则协调模块46将语音表达56存储在音频缓冲62中，用于通过HMI模块14传送到用户装置30的语音***32。

在各种实施例中，协调模块46基于主题58确定语音表达56的语境64。例如，协调模块46可以基于主题58与存储在语境数据存储50中的特定语境的关联性选择语境64。如所能够领会到的，这仅仅是个示例，且其它方法也可用于确定语音表达56的语境64。协调模块46存储语境用于通过HMI模块14传送到用户装置30的语音***32。

现参照图3和4，并继续参照图1和2，流程图说明了语音方法，根据各个示例性实施例，该语音方法可以通过具有识别协调器模块40的车辆10的语音***12和用户装置30的语音***32来实施。如从本公开所能领会到的，该方法中操作的顺序并不局限于如在图3和图4中说明的那样按顺序地执行，且如所适用的和根据本公开的可以一种或更多种可变顺序实施。如所能够进一步领会到的，可以添加或者删除该方法的一个或更多个步骤，而不改变本方法的精神。

参考图3，根据各个示例性实施例，示出了可以通过车辆10的语音***12实施的语音方法。方法可以开始于步骤100。在步骤110接收指示来激活语音的记录的信号（例如基于用户在第一时间周期（短周期）内按压HMI模块14的激活按钮28）。在步骤115，语音表达的意图54被确定成“用于由车辆***使用”。在步骤120，接收语音表达56（例如基于用户对着与HMI模块14相关联的麦克风26说话）。在步骤130，通过使用主题识别方法确认语音表达56的主题58。

随后在步骤140确定用户装置30是否与车辆10通信。如果在步骤140中用户装置30未与车辆10通信，则将语音表达56提供至车辆10的语音***12用于在步骤150的进一步处理，且方法可以在步骤160结束。然而，如果在步骤140中一个或更多个用户装置30与车辆10通信，则在步骤170中确定语音表达56的主题58是否意在用于特定的用户装置30。在多个用户装置30与车辆10同时通信的情况下，确定语音表达56的主题58意在用于哪个用户装置30。

在步骤170如果确定主题58没有意在用于特定的用户装置30，则将语音表达56提供至车辆10的语音***12用于在步骤150的进一步处理，且方法可以在步骤160结束。在步骤170如果确定主题58意在用于特定的用户装置，可选地，在步骤180和190中可以与用户保持会话来确认语音表达是否意在用于特定的用户装置30。在步骤190如果用户未确认是特定用户装置30，则将语音表达56提供至车辆10的语音***12用于在步骤150的进一步处理，且方法可以在步骤160结束。

然而，如果在步骤190用户确认了特定的用户装置30，则在步骤200确定特定用户装置30是否能够接收语境信息。如果在步骤200用户装置能够接收语境信息，则在步骤210中基于主题58确定语境64，并且在步骤220将语音表达56存储在音频缓冲62中。在步骤230，通过HMI模块14，语境64和音频缓冲62被传送至用户装置30（例如使用有线或者无线通信协议）。此后，方法可以在步骤160结束。

如果在步骤200中用户装置30不能够接收语境信息，则在步骤240中将语音表达56存储在音频缓冲62中，并且在步骤250中通过HMI模块14使音频缓冲62传送至用户装置30（例如使用有线或无线通信协议）。此后，方法可以在步骤160中结束。

参考图4，根据各个示例性实施例，示出了可以由用户装置30的语音***32实施的语音方法。方法可以开始于步骤300。在步骤310中用户装置30接收音频缓冲62或者音频缓冲62和语境64。在步骤320中用户装置30的语音***32随后在音频缓冲62的语音表达56上实施语音识别。如果提供了语境64，则用户装置30的语音***32使用语境64在语音表达56上实施语音识别。例如，如果语境64指示媒体，则针对的用户装置30的媒体应用36的媒体信息的语音识别方法被用来处理语音表达56。在另一示例中，如果语境64指示导航，则针对在用户装置30上的导航应用34的导航信息的语音识别方法被用来处理语音表达56。此后，在步骤330中，用户装置30可以控制用户装置30的功能和/或可控制基于语音识别结果的与用户的会话，且方法可以在步骤340中结束。

虽然已在前述详细描述中呈现了至少一个示例性实施例，但是应该意识到存在大量的变型。还应该意识到的是，一个或多个示例性实施例仅是示例，且其并不旨在以任何方式限制本公开的范围、适用性或构型。相反，前述详细说明将为本领域技术人员提供用于实施一个或多个示例性实施例的方便的线路图。应当了解的是，在元件的功能和布置方面能够产生各种变化，而不偏离本公开的如在所附的权利要求和其法律等价物中所阐述的范围。

Claims

1.一种用于协调识别车辆的语音***和用户装置的语音***之间的语音表达的方法，其包括：

从用户接收所述语音表达；

基于所述语音表达是意在用于所述车辆的所述语音***，还是意在用于所述用户装置的所述语音***的确定，选择性地提供所述语音表达至所述车辆的所述语音***或者所述用户装置的所述语音***；

其中由所述车辆的所述语音***对所述用户的所述语音表达的接收以及其中选择性的提供包括提供所述语音表达至所述用户装置的所述语音***。

2.根据权利要求1所述的方法，其进一步包括：

确定所述用户装置是否与所述车辆通信；以及

3.根据权利要求2所述的方法，其进一步包括：

确定多个用户装置与所述车辆通信，以及

4.根据权利要求1所述的方法，其进一步包括：

基于所述主题确定所述语音表达的语境；以及

5.根据权利要求4所述的方法，其进一步包括：

确定所述用户装置是否能够接收所述语境，以及

6.根据权利要求1所述的方法，其进一步包括：

接收信号来激活所述车辆语音识别；以及

基于所述信号确定所述语音表达的使用意图。

7.根据权利要求6所述的方法，其中在所述语音表达上来确定所述语音表达的主题的所述语音识别的实施是基于所述语音的所述使用意图。

8.根据权利要求6所述的方法，其中所述语音表达是意在用于所述车辆的所述语音***还是意在用于所述用户装置的所述语音***的确定是基于所述语音表达的所述使用意图。

9.一种用于协调识别车辆的语音***与用户装置的语音***之间的语音表达的***，其包括：

第二模块，所述第二模块基于所述语音表达的所述主题确定所述语音表达是意在用于所述车辆的所述语音***，还是意在用于所述用户装置的所述语音***，并且基于所述语音表达是意在用于所述车辆的所述语音***还是意在用于所述用户装置的所述语音***的确定，所述第二模块选择性地提供所述语音表达至所述车辆的所述语音***或所述用户装置的所述语音***；

其中所述第一模块通过所述车辆的所述语音***接收所述用户的所述语音表达，并且其中所述第二模块提供所述语音表达至所述用户装置的所述语音***。

10.根据权利要求9所述的***，其中所述第二模块确定所述用户装置与所述车辆通信，并且进一步基于与所述车辆通信的所述用户装置来确定所述语音表达是意在用于所述车辆的所述语音***，还是意在用于所述用户装置的所述语音***。

11.根据权利要求10所述的***，其中所述第二模块确定多个用户装置与所述车辆通信，并且确定所述语音表达是意在用于所述车辆的所述语音***，还是意在用于与所述车辆通信的所述多个用户装置的特定用户装置的所述语音***。

12.根据权利要求9所述的***，其中所述第二模块基于所述主题确定所述语音表达的语境，并且选择性地将所述语音表达的所述语境提供至所述车辆的所述语音***或所述用户装置的所述语音***。

13.根据权利要求12所述的***，其中所述第二模块确定所述用户装置是否能够接收所述语境，并且基于所述用户装置是否能够接收所述语境的确定选择性地将所述语音表达的所述语境提供至所述车辆的所述语音***或所述用户装置的所述语音***。

14.根据权利要求9所述的***，其进一步包括第三模块，所述第三模块接收信号来激活所述车辆语音识别，并且所述第三模块基于所述信号确定所述语音表达的使用意图。

15.根据权利要求14所述的***，其中所述第一模块基于所述语音表达的所述使用意图在所述语音表达上实施语音识别来确定所述语音表达的所述主题。

16.根据权利要求14所述的***，其中所述第二模块基于所述语音表达的所述使用意图确定所述语音表达是意在用于所述车辆的语音***，还是意在用于所述用户装置的所述语音***。