CN104347069A

CN104347069A - 使用附加传感器来控制语音对话

Info

Publication number: CN104347069A
Application number: CN201310747419.9A
Authority: CN
Inventors: E.茨尔克尔-汉科克; J.H.阿斯; R.D.辛斯; I.比利克; M.莱芬菲尔德
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2013-07-31
Filing date: 2013-12-31
Publication date: 2015-02-11
Also published as: US20150039312A1; DE102014203116A1

Abstract

本发明涉及使用附加传感器来控制语音对话。方法和***被提供来用于管理语音***的语音对话。在一个实施例中，一种方法包括：接收从非语音相关传感器确定的信息；在轮次转换功能中使用所述信息来确认用户是否和何时在说话中的至少一个；以及基于所述确认来向语音识别模块和语音生成模块中的至少一个生成指令。

Description

使用附加传感器来控制语音对话

技术领域

本技术领域主要涉及语音***，并且更特别地涉及基于来自非语音相关传感器的信息来控制语音***内的对话的方法和***。

背景技术

交通工具语音***对由交通工具的乘员发出的语音执行语音识别或理解。语音表达通常包括指令，其通信于或控制交通工具的一个或多个特征或可由交通工具访问的其它***。交通工具语音***的语音对话***响应于语音表达或引出语音表达或其它用户输入来生成语音指令。在一些情况下，响应于语音***生成语音指令，需要进一步的信息以便执行所需任务。在其它情况下，语音指令被生成作为识别结果的确认。

一些语音***执行语音识别/理解，并基于一个或多个轮次转换步骤或功能来生成语音指令。例如，对话管理器基于可能在对话期间发生的各种情形来管理对话。对话管理器例如管理交通工具语音***应该在何时倾听由用户发出的语音，以及交通工具语音***应该在何时向用户生成语音指令。希望的是提供方法和***来增强语音***中的轮次转换。更进一步，从后续详细描述和所附权利要求书，结合附图和前述技术领域和背景技术来理解，本发明的其它所需特征和特性将变得清楚明了。

发明内容

因此，方法和***被提供来用于管理语音***的语音对话。在一个实施例中，一种方法包括：接收从非语音相关传感器确定的信息；在轮次转换功能中使用所述信息来确认用户是否和何时在说话中的至少一个；以及基于所述确认来向语音识别模块和语音生成模块中的至少一个生成指令。

在另一实施例中，一种***包括：第一模块，其接收从非语音相关传感器确定的信息，并且在轮次转换功能中使用所述信息来确认用户是否和何时在说话中的至少一个。第二模块基于所述确认来起动和/或停止语音识别和语音生成中的至少一个。

本发明还提供以下技术方案：

1. 一种用于管理语音***的语音对话的方法，包括：

接收从非语音相关传感器确定的信息；

在轮次转换功能中使用所述信息来确认用户是否和何时在说话中的至少一个；以及

基于所述确认来向语音识别模块和语音生成模块中的至少一个生成指令。

2. 如技术方案1所述的方法，进一步包括：基于从非语音相关传感器接收到的数据来确定用户是否和何时在说话中的至少一个，并且其中所述信息是基于所述确定。

3. 如技术方案1所述的方法，其中，使用所述信息包括：使用所述信息来确认特定用户是否在说话。

4. 如技术方案1所述的方法，其中，使用所述信息包括：使用所述信息来确认用户何时在说话。

5. 如技术方案1所述的方法，其中，使用所述信息包括：使用所述信息来确认用户是否和何时在说话。

6. 如技术方案1所述的方法，其中，生成指令包括：向语音识别模块生成指令来实现起动和停止语音识别中的至少一个。

7. 如技术方案1所述的方法，其中，生成指令包括：向语音生成模块生成指令来实现起动和停止语音指令的生成中的至少一个。

8. 如技术方案1所述的方法，其中，所述轮次转换功能是***起动功能。

9. 如技术方案1所述的方法，其中，所述轮次转换功能是打断功能。

10. 如技术方案1所述的方法，其中，所述轮次转换功能是语音窗口确定功能。

11. 如技术方案1所述的方法，其中，所述非语音相关传感器是图像传感器、超声传感器和雷达传感器中的至少一个。

12. 一种用于管理语音***的语音对话的***，包括：

第一模块，其接收从非语音相关传感器确定的信息，并且在轮次转换功能中使用所述信息来确认用户是否和何时在说话中的至少一个；和

第二模块，其基于所述确认来起动和/或停止语音识别和语音生成中的至少一个。

13. 如技术方案12所述的***，进一步包括：第三模块，其基于从非语音相关传感器接收到的数据来确定用户是否和何时在说话中的至少一个，并且基于所述确定来生成信息。

14. 如技术方案12所述的***，其中，第一模块使用所述信息来确认特定用户是否在说话。

15. 如技术方案12所述的***，其中，第一模块使用所述信息来确认用户何时在说话。

16. 如技术方案12所述的***，其中，第一模块使用所述信息来确认用户是否和何时在说话。

17. 如技术方案12所述的***，其中，所述轮次转换功能是***起动功能。

18. 如技术方案12所述的***，其中，所述轮次转换功能是打断功能。

19. 如技术方案12所述的***，其中，所述轮次转换功能是语音窗口确定功能。

20. 如技术方案12所述的***，其中，所述非语音相关传感器是图像传感器、超声传感器和雷达传感器中的至少一个。

附图说明

下面将结合以下附图来描述示例性实施例，附图中相似附图标记表示相似要素，并且附图中：

图1是包括依据多个不同示例性实施例的语音***的交通工具的功能框图；

图2是数据流图，示出了依据多个不同示例性实施例的语音***；并且

图3是流程图，示出了可以由依据多个不同示例性实施例的语音***执行的语音方法。

具体实施方式

以下详细描述本质上仅仅是示例性的，并不旨在限制应用和用途。更进一步，没有意图被在前面的技术领域、背景技术、发明内容或以下详细描述中给出的任何明示或暗示的理论限制。如本文中所使用的，术语模块是指专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的存储器和处理器(共享、专用或分组)、组合逻辑电路、和/或提供所描述功能的其它适当部件。

现在参考图1，依据本公开的示例性实施例，语音***10被示出为被包括在交通工具12内。在多个不同示例性实施例中，语音***10通过人机界面(HMI)模块14为一个或多个交通工具***提供语音识别或理解和对话。这类交通工具***可以包括例如但不限于电话***16、导航***18、媒体***20、远程信息处理***22、网络***24或可以包括依赖于语音的应用的任何其它交通工具***。如能够理解的，语音***10的一个或多个实施例可适用于具有依赖于语音的应用的其它非交通工具***，因此并不局限于本交通工具示例。

语音***10和/或HMI模块14通过通信总线和/或其它通信手段26(例如，有线、短距离无线或长距离无线)与多个交通工具***16-24通信。通信总线可为例如但并不局限于控制器区域网络(CAN)总线、本地互连网络(LIN)总线或任何其它类型的总线。

语音***10包括语音识别模块32、对话管理器模块34和语音生成模块35。如能够理解的，语音识别模块32、对话管理器模块34和语音生成模块35可以被实施为单独的***和/或如所示的组合***。一般而言，语音识别模块32使用依赖于声学建模、语义解释和/或自然语言理解的一个或多个语音识别或理解技术来接收和处理来自HMI模块14的语音表达。语音识别模块32向对话管理器模块34生成来自语音表达的一个或多个可能结果(例如，基于置信度阈值)。

对话管理器模块34管理交互序列和待基于结果说给用户的语音提示的选择。在多个不同实施例中，对话管理器模块34响应于用户的语音表达来确定待由***生成的下一语音提示。语音生成模块35基于由对话管理器提供的下一语音提示来生成待被说给用户(例如，经由HMI模块)的语音指令。

如下面将更详细地论述的，语音***10进一步包括传感器数据解释模块36。传感器数据解释模块36处理从非语音相关传感器38接收到的数据，并将传感器信息提供至对话管理器模块34。非语音相关传感器38可包括例如但并不局限于图像传感器、超声传感器、雷达传感器、或传感交通工具的一个或多个乘员的非语音相关可观察状态的其它传感器。如能够理解的，在多个不同实施例中，非语音相关传感器38可为传感交通工具12的所有乘员的单个传感器，或者替代地可以包括各自传感交通工具12的潜在乘员或传感交通工具12的所有乘员的多个传感器。为了示例性目的，将在非语音相关传感器38为单个传感器的背景中论述本公开。

传感器数据解释模块36处理传感器数据来确定是哪个乘员在与HMI模块14交互(例如，如果交通工具12中存在多个乘员的话)，并且进一步处理传感器数据来确定来自乘员的语音的存在(例如，在特定时间乘员是否在讲话)。例如，在图像传感器的情况下，传感器数据解释模块36处理图像数据来确定语音的存在，例如，基于唇部是否张开或闭合，基于唇部的移动速率，或基于乘员的其它检测到的面部表情。在另一示例中，在超声传感器的情况下，传感器数据解释模块36处理超声数据来确定语音的存在，例如，基于乘员的唇部的检测到的移动或速度。在又一示例中，在雷达传感器的情况下，传感器数据解释模块36处理雷达数据来确定语音的存在，这是基于乘员的唇部的检测到的移动或速度。

对话管理器模块34接收来自传感器数据解释模块36的信息，其指示来自特定乘员(被称为***10的用户)的语音的存在。在多个不同实施例中，该信息包括来自乘员的语音存在的概率。对话管理器模块34基于来自传感器数据解释模块36的信息来管理与用户的对话。例如，对话管理器模块34使用在多个不同轮次转换功能(turn-taking function)中的信息来确认用户是否和/或何时在说话。

现在参考图2，并且继续参考图1，数据流图示出了依据多个不同示例性实施例的对话管理器模块34的部件。如能够理解的，根据本公开的对话管理器模块34的多个不同示例性实施例可以包括任意数量的子模块。在多个不同示例性实施例中，图2中示出的子模块可以被组合和/或被进一步划分，用以类似地基于来自传感器数据解释模块36的信息来管理语音对话。在多个不同示例性实施例中，对话管理器模块34包括一个或多个轮次转换模块，其各自执行一个或多个轮次转换功能。

在多个不同实施例中，轮次转换模块可包括但不限于***起动模块40、倾听窗口(listening window)确定模块42和打断(barge-in)检测模块44。轮次转换模块中的每个利用来自传感器数据解释模块36的信息，来确认特定用户是否和何时在说话，以及基于该确认向语音识别模块32和/或语音生成模块35生成指令。如能够理解的，对话管理器模块34可以包括其它轮次转换模块，其执行一个或多个轮次转换功能，其利用来自传感器数据解释模块36的信息来确认特定用户是否和何时在说话，并且对话管理器模块34并不局限于图2中示出的示例。

现在参考图2中示出的具体示例，***起动模块40允许用户基于特定词语(例如，魔法词语(magic word))的表达46来起动或唤醒语音***10。例如，***起动模块40倾听由特定用户发出的特定的一个词语或多个词语。一旦特定词语已经被发出和识别后，***起动模块40生成指令48来起动***10，使得语音对话能够发生。例如，指令48可对语音识别模块32生成用以执行识别，或对语音生成模块35生成用以生成语音指令来发起对话。

在多个不同实施例中，***起动模块40使用来自传感器数据解释模块36的信息50来确认特定用户正在说话。在多个不同实施例中，***起动模块40使用来自传感器数据解释模块36的信息50来检测特定用户何时在说话，并发起对于魔法词语的监测。通过使用来自传感器数据解释模块36的信息50，***起动模块40能够防止将噪声错误识别为魔法词语。

倾听窗口确定模块42确定说话窗口，其中用户可以在一语音指令被生成之后和/或在另一语音指令被生成之前说话。例如，倾听窗口确定模块42确定时间窗口，其中用户进行的语音输入46能够被接收和处理。基于时间窗口，倾听窗口确定模块42生成指令52来起动或停止由***10进行的语音指令的生成。

在多个不同实施例中，倾听窗口确定模块42使用来自传感器数据解释模块36的信息50来确定在语音指令已经被生成之后对用户的倾听的时间窗口。倾听窗口可依赖于语音提示被延长或被灵活地确定，而不冒错误语音检测的风险。通过使用来自传感器数据解释模块36的信息50，轮次确定模块42能够防止由用户进行的轮次的损失和/或防止由***下达的说话终止(speak-over)指令。

打断检测模块44允许用户在语音指令的生成结束之前说话。例如，打断检测模块44接收语音输入，并检测用户是否已打断由***下达的语音指令，并在检测到打断时确定是否停止语音指令。如果已发生打断，则打断检测模块44生成一个指令或多个指令54、56，来停止语音指令的生成并且/或者开始语音识别。

在多个不同实施例中，打断检测模块44使用来自传感器数据解释模块36的信息50来确认接收到的语音输入46是来自与***交互的特定乘员，并确认语音输入46事实上是语音。如果打断检测模块44能够确认语音输入46是来自特定乘员并且事实上是语音，则打断检测模块44下达指令54、56来停止语音指令的生成并且/或者开始语音识别。通过使用来自传感器数据解释模块36的信息50，打断检测模块44能够防止未检测到的打断，其中***10未能检测用户通过发声提示在说话，并且/或者防止错误的打断，其中***10在用户实际上未说话时错误地中断提示并开始识别。

现在参考图3，流程图示出了语音方法，其可以由依据多个不同示例性实施例的语音***10来执行。如鉴于本公开能够理解的，方法内的操作顺序并不局限于如图3中示出的顺次执行，而是可以按照应用和依据本公开以一个或多个变化的顺序来执行。如能够进一步理解的，方法的一个或多个步骤可以被添加或去除，而不改变方法的精神。

如图所示，方法可以在步骤100处开始。在步骤110处基于***10的当前操作情形选择至少一个轮次转换功能。例如，如果***在休眠，则选择***起动功能。在另一示例中，如果***正在或将要进行对话，则选择倾听窗口确定功能。在又一示例中，如果***正在生成语音指令，则选择打断功能。如能够理解的，可以选择其它轮次转换功能，因此方法并不局限于本示例。

然后，在步骤120处接收来自传感器数据解释模块36的信息50。然后在步骤130处在所选择的功能中使用信息50来确认交通工具12的用户是否和/或何时在说话。在步骤140处，基于所述确认来对语音生成模块35和/或语音识别模块32生成指令48、52、54或56。然后，可以在步骤150处结束方法。如能够理解的，在多个不同实施例中，可以对于任意数量的对话轮次重复该方法。

虽然在前述详细描述中给出了至少一个示例性实施例，但是应该理解的是存在大量的变型。还应该理解的是：一个示例性实施例或多个示例性实施例只是示例，并不旨在以任何方式限制本公开的范围、适用性或构造。相反，前述详细描述将为本领域技术人员提供便利的线路图来实施一个示例性实施例或多个示例性实施例。应该明白的是：可在要素的功能和配置中做出各种变化，而不背离如在所附权利要求及其法律等同方案中阐述的本公开的范围。

Claims

1. 一种用于管理语音***的语音对话的方法，包括：

接收从非语音相关传感器确定的信息；

2. 如权利要求1所述的方法，进一步包括：基于从非语音相关传感器接收到的数据来确定用户是否和何时在说话中的至少一个，并且其中所述信息是基于所述确定。

3. 如权利要求1所述的方法，其中，使用所述信息包括：使用所述信息来确认特定用户是否在说话。

4. 如权利要求1所述的方法，其中，使用所述信息包括：使用所述信息来确认用户何时在说话。

5. 如权利要求1所述的方法，其中，使用所述信息包括：使用所述信息来确认用户是否和何时在说话。

6. 如权利要求1所述的方法，其中，生成指令包括：向语音识别模块生成指令来实现起动和停止语音识别中的至少一个。

7. 如权利要求1所述的方法，其中，生成指令包括：向语音生成模块生成指令来实现起动和停止语音指令的生成中的至少一个。

8. 如权利要求1所述的方法，其中，所述轮次转换功能是***起动功能。

9. 如权利要求1所述的方法，其中，所述轮次转换功能是打断功能。

10. 一种用于管理语音***的语音对话的***，包括：