CN107195298B

CN107195298B - 根本原因分析以及校正***和方法

Info

Publication number: CN107195298B
Application number: CN201710149324.5A
Authority: CN
Inventors: R·M·赫克特; Y·S·弗里德兰; A·泰尔帕斯; E·蒂泽凯尔-汉考克
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2016-03-15
Filing date: 2017-03-14
Publication date: 2020-12-18
Anticipated expiration: 2037-03-14
Also published as: CN107195298A; DE102017203840A1; US20170270908A1; US9858918B2

Abstract

提供了用于校正语音识别***中的错误的方法和***。在一个实施例中，方法包括：通过处理器接收由第一语言模型从第一语音话语识别到的第一命令；通过处理器接收由第二语言模型从第一语音话语识别到的第二命令；通过处理器确定第一命令与第二命令之间的相似点和相异点中的至少一个；在相似点和相异点的基础上通过处理器利用错误模型中的至少一个规则来处理第一命令和第二命令，以确定根本原因；以及基于根本原因选择性地执行校正流程。

Description

根本原因分析以及校正***和方法

技术领域

技术领域总体上涉及语音***，且更具体地涉及用于检测语音识别错误的根本原因并基于根本原因校正错误的方法和***。

背景技术

语音***对用户发出的语音进行语音识别。例如，车辆语音***对车辆乘员发出的语音进行语音识别。语音话语通常包括控制车辆的一个或多个特征或其他可由车辆语音***进行访问的***的命令。

在某些情况下，语音识别可能会发生错误。语音识别错误是有问题的，并可能会导致用户停止使用***。例如，用户可能不会理解为什么会发生错误，并且/或者可能不会懂得如何解决错误，因此就干脆停止使用语音***。

因此，期望的是提供用于识别语音识别错误的根本原因的方法和***。进一步期望的是提供用于基于所识别的根本原因校正错误的方法和***。此外，从以下结合附图以及上述技术领域和背景技术进行的详细描述和所附权利要求书中，将很容易了解到本发明的其他期望特征和特性。

发明内容

在另一示例中，***包括第一非瞬变模块，其中该第一非瞬变模块通过处理器从第一语言模型接收从第一语音话语识别到的第一命令以及从第二语言模型接收从第一语音话语识别到的第二命令，并确定第一命令与第二命令之间的相似点和相异点中的至少一个。***进一步包括第二非瞬变模块，其中该第二非瞬变模块在相似点和相异点的基础上通过处理器利用错误模型中的至少一个规则来处理第一命令和第二命令，以确定根本原因；***还包括第三非瞬变模块，其中该第三非瞬变模块在根本原因的基础上通过处理器选择性地执行校正流程。

附图说明

下面将结合以下附图对示例性实施例进行描述，其中相同的附图标记表示相同的元件，且其中：

图1是示出了根据各种示例性实施例的包括语音***的车辆的功能框图；

图2是示出了根据各种示例性实施例的语音***的错误检测和校正模块的数据流图；以及

图3是示出了根据各种示例性实施例的可由语音***执行的错误检测和校正方法的序列图。

具体实施方式

以下详细描述本质上仅仅是示例性的，其并非旨在限制应用和用途。此外，不存在被前述的技术领域、背景技术、发明内容或下面的详细描述中提出的任何明确或暗示的理论约束的意图。本文所用术语“模块”指的是专用集成电路(ASIC)、电子电路、处理器(共享、专用或群组)、执行一个或多个软件或固件程序的存储器、组合逻辑电路和/或其他合适的提供所述功能的部件。

首先参照图1，根据本公开的示例性实施例，语音***10被示出为包括在车辆12内。语音***10通过人机接口(HMI)模块14为一个或多个车辆***13提供语音识别和对话。例如，此类车辆***13可包括但不限于：电话***16、导航***18、媒体***20、远程信息处理***22、网络***24或任何可包括基于语音的应用程序的其他车辆***或非车辆***26。如可理解的，本公开的语音***10的一个或多个实施例可适用于除了车辆以外的***(例如，手表、机器人、便携式电子设备等)，因此，其并不限于本车辆示例。出于示例性目的，语音***10将在车辆示例的上下文中进行讨论。

在各种实施例中，语音***10通过HMI模块14和通信总线和/或其他通信装置28(例如，有线、短程无线或远程无线通信装置)与多个车辆***16-24和/或其他车辆和非车辆***26进行通信。例如，通信总线可为，但不限于：CAN总线。

一般而言，语音***10包括自动语音识别(ASR)模块32、对话管理器模块34以及错误检测和校正模块36。如可理解的，ASR模块32和对话管理器模块34可作为独立的***和/或组合***来进行实施。如可进一步理解的，语音***10的模块可全部在车辆12上进行实施，或该模块的一部分在车辆12上实施，而另一部分在远程***(例如，远程服务器(未示出))上进行实施。

在各种实施例中，ASR模块32接收并处理来自HMI模块14的语音话语。ASR模块32从语音话语生成识别命令。根据本公开，ASR模块32利用至少两个不同的语言模型38、40来处理语音话语。ASR模块32从两个不同的语言模型38、40中的每一个生成识别命令。所使用的每一个模型在以下项中的至少一个中提供优势：所支持的短语数量、短语深度、处理的时延、识别的准确度以及处理时间。所选择的模型的组合在上文列出的项中的至少两个中提供优势。例如，在各种实施例中，第一语言模型38可为包括固定的可识别命令列表的固定模型，其被称为固定列表模型。固定列表模型在时延、准确度以及处理时间的改进方面提供优势，并可被认为是更理想的模型。这种模型可包括但不限于：有限状态文法(FSG)。在另一示例中，第二语言模型40可具有较广泛的短语识别范围，其被称为宽范围模型。宽范围模型识别较宽范围的命令，然而，其时延较高，且准确度下降。这种模型可包括但不限于：统计语言模型(SLM)。如可理解的，ASR模块32所实施的模型可为任何语言模型，且其并不限于本发明示例。对话管理器模块34通常接收ASR模块32的结果，并管理通过HMI模块14传回给用户的交互序列和提示。

在某些情况下，错误可能会在命令的识别过程中发生。错误检测和校正模块36接收来自ASR模块32的两个或多个识别命令，并针对错误处理这些识别命令。例如，若该两个识别命令基本上不相同，则错误检测和校正模块36通过错误模型对这些识别命令进行处理，以识别根本原因。在各种实施例中，错误模型包括用于识别两个命令之间的错误的规则以及与这些规则相关联的根本原因。

例如，示例性语音话语可包括：“在移动电话上呼叫Dorian”。如果无法找到列出Dorian的通讯录，则第一语言模型38可能会生成识别命令：“呼叫311”。同样地，第二语言模型40可能会生成识别命令：“呼叫电话和在移动电话上”。错误检测和校正模块36通过错误模型处理这两个识别命令。错误模型识别命令的相似点和/或相异点，并基于该相似点和/或相异点选择一个或多个特定规则。例如，就上述示例而言，错误模型将“呼叫”指令识别为相似点。错误模型选择与“呼叫”相似点相关联的规则，并通过该规则处理两个识别命令。示例性“呼叫”规则可包括：若第一识别命令由FSG语言模型生成并包括数字，且第二识别命令由SLM语言模型生成并包括随机对象，则根本原因是“没有通讯录”。如可理解的，该规则仅仅是一个示例，因为错误模型可包括限定用于任何数量的相似点和相异点的任何数量的规则。在各种实施例中，规则在相似点和/或相异点的基础上进行限定，其中该相似点和/或相异点通常由两个已知的语言模型生成。

根本原因一旦被识别出，错误检测和校正模块36就会尝试在没有用户参与的情况下和/或在用户参与的情况下校正错误。例如，错误检测和校正模块36可生成信号并将其传递至车辆***13中的一个或多个，以在不需要用户参与的情况下进行校正。就上述示例而言，若根本原因是“没有通讯录”，则错误检测和校正模块36可生成控制信号并将其传递至蓝牙***(例如，网络***24的蓝牙***)或车辆12的其他***，以重新加载通讯录并将重新加载操作告知用户。

在另一示例中，错误检测和校正模块36可生成将错误通知给用户并请求反馈的通知信号、语音提示和/或视觉提示。就上述示例而言，若根本原因是“没有通讯录”，则错误检测和校正模块36可将语音提示和交互序列输出至对话管理器模块34，其中这些语音提示和交互序列包括“对不起，您似乎试图在通讯录不可用的情况下呼叫联系人。您是否想要配对您的手机？”可选地，就上述示例而言，若根本原因是“没有通讯录”，则错误检测和校正模块36可生成包括视觉提示的通知信号，其中这些视觉提示显示上述提示，并包括用于选择电话以从其下载通讯录的选择图标。

现参照图2，数据流图根据各种实施例示出了根本原因检测和校正模块36。如可理解的，根据本公开，错误检测和校正模块36的各种实施例可包括任意数量的子模块。例如，图2所示的子模块可被组合，并且/或者可被进一步分割，以类似地识别错误的根本原因，并校正该根本原因。在各种实施例中，根本原因检测和校正模块36所接收到的数据可从ASR模块32或语音***10的其他模块接收。在各种示例性实施例中，错误检测和校正模块36包括错误检测模块42、根本原因确定模块44、根本原因校正模块46、错误模型数据存储库48和校正流程数据存储库50。

错误模型数据存储库48存储一个或多个错误模型。错误模型包括一个或多个用于处理命令数据以确定根本原因的规则。校正流程数据存储库50存储一个或多个校正流程。校正流程包括一个或多个步骤，其用于在识别出根本原因的情况下校正错误。

错误检测模块42接收作为输入的第一命令数据52和第二命令数据，其中该第一命令数据与来自第一语言模型的第一识别命令相对应，该第二命令数据与来自第二语言模型的第二命令数据54相对应。错误检测模块42将第一命令数据52与第二命令数据54进行对比。若存在足够多的差异(例如，已识别出阈值数量的差异)，则错误检测模块42确定存在错误。当错误存在时，错误检测模块42将第一命令数据52与第二命令数据54进行对比，并生成指示两个命令的相似点和/或相异点的相似点数据56。

根本原因确定模块44接收作为输入的第一命令数据52、第二命令数据54和相似点数据56。根本原因确定模块44基于相似点数据56对第一命令数据52和第二命令数据54进行处理。例如，根本原因确定模块44从错误模型数据存储库48获取错误模型，其中该错误模型限定一个或多个与相似点数据56所识别的相似点和/或相异点相关联的规则。根本原因确定模块44随后利用一个或多个规则对第一命令数据52和第二命令数据54进行处理，以识别根本原因。根本原因确定模块44基于该根本原因生成根本原因数据58。

根本原因校正模块46接收作为输入的根本原因数据58。根据根本原因数据58，根本原因校正模块46从校正流程数据存储库50获取校正流程，并执行该校正流程。在各种实施例中，若为特定的根本原因提供了多个校正流程，则根本原因校正模块46基于优先级方案选择将被使用的校正流程。例如，优先级方案可指示如下内容：根据交互水平(例如，先选择那些具有最少交互的校正流程等等)，可先选择无需用户交互的校正流程，而后才选择需要用户交互的校正流程(例如，若第一校正流程无法实现校正)。

在各种实施例中，当被根本原因校正模块46执行时，校正流程会生成一个或多个控制信号60并将其传递至一个或多个车辆***13，以使车辆***13校正错误。例如，校正流程可生成一个或多个控制信号60并将其传递至短程网络***，以使短程通信从配对设备获得通讯录。如可理解的，可生成其他控制信号，因为本公开并不限于本发明示例。在各种实施例中，当被根本原因校正模块46执行时，校正流程会生成一个或多个通知信号62，以使车辆***将根本原因通知给用户。例如，校正流程可生成一个或多个通知信号62并将其传递至媒体***20，以使消息显示在显示设备上。

在各种实施例中，当被根本原因校正模块46执行时，校正流程会生成由对话管理器模块34接收的对话提示数据和/或交互序列数据64。例如，校正流程可生成对话提示，其中对话管理器经由语音***10利用该对话提示来将根本原因和/或错误传达给用户。如可理解的，在各种实施例中，校正流程可生成控制信号、通知信号和/或对话提示数据和/或交互序列数据64的任何组合，以基于所确定的根本原因校正错误。

现参照图3，并继续参照图1-2，序列图根据各种示例性实施例示出了可由语音***10执行的根本原因识别和校正方法。如可根据本公开进行理解的，方法内的操作顺序并不限于图3所示的顺序执行；相反，根据本公开，如果适用的话，其可以以一个或多个不同的顺序进行执行。如可进一步理解的，在不改变方法的精神的情况下，可添加或移除方法的一个或多个步骤。

如图所示，方法在用户说出由HMI模块14接收的命令时开始。随后，HMI模块14在100处将所说出的命令提供至具有第一语言模型38的语音识别***，并在110处将该命令提供至具有第二语言模型40的语音识别***。具有第一语言模型38的语音识别***在120处对所说出的命令进行处理，以确定第一识别命令。具有第一语言模型38的语音识别***在130处将第一命令数据52提供至根本原因确定模块44。基本上同时或之后，具有第二语言模型40的语音识别***在140处对所说出的命令进行处理，以确定第二识别命令。具有第二语言模型40的语音识别***在150处将第二命令数据54提供至根本原因确定模块44。错误检测模块42在160处通过一个或多个解码器将第一命令数据52与第二命令数据54进行对比，以确定错误是否存在。若错误存在，则错误检测模块42在170处将第一命令数据52、第二命令数据54以及相似点数据56提供至根本原因确定模块44。可选地，若错误不存在，则确认数据可在180处发送至对话管理器模块34，从而指示命令已被确认。

若错误存在，则根本原因确定模块44在190处基于相似点数据56从错误模型数据存储库48获取一个或多个规则，并利用该一个或多个规则对第一命令数据52和第二命令数据54进行处理，以确定根本原因。根本原因确定模块44在200处将根本原因数据58提供至根本原因校正模块46。根本原因校正模块46在210处基于根本原因数据58确定并执行校正流程。在某些情况下，校正流程包括在220处生成控制信号60和/或通知信号62并将其传递至一个或多个车辆***13。在某些情况下，校正流程包括在230处生成提示数据和/或交互序列数据64并将其传递至对话管理器模块34。如可理解的，校正流程可继续被执行，直至根本原因已被校正，并且/或者已确定根本原因无法被校正。

虽然已在前述的详细描述中提出了至少一个示例性实施例，但应理解的是，存在有许多变型。还应理解的是，一个或多个示例性实施例仅仅是示例，其并不旨在以任何方式对本公开的范围、适用性或配置进行限制。相反，前述的详细描述将为本领域技术人员提供用于实施一个或多个示例性实施例的便利指引。应理解的是，在不偏离所附权利要求书及其合法等价物所记载的本公开的范围的情况下，可对元件的功能和布置作出各种改变。

Claims

1.一种校正语音识别***中的错误的方法，其包括：

通过处理器接收由第一语言模型从第一语音话语识别到的第一命令；

通过所述处理器接收由第二语言模型从所述第一语音话语识别到的第二命令；

通过所述处理器确定所述第一命令与所述第二命令之间的相似点和/或相异点；

在所述相似点和/或所述相异点的基础上通过所述处理器利用错误模型中的至少一个规则来处理所述第一命令和所述第二命令，以确定根本原因，其中所述错误模型限定一个或多个与相似点和/或相异点相关联的规则；以及

基于所述根本原因选择性地执行校正流程。

2.根据权利要求1所述的方法，其中所述校正流程包括生成控制信号并将其传递至一个或多个车辆***，以自动校正所述根本原因。

3.根据权利要求1所述的方法，其中所述校正流程包括生成提示数据和交互序列数据中的至少一个，以校正所述根本原因。

4.根据权利要求1所述的方法，其进一步包括：

通过所述第一语言模型和解码器处理所述第一语音话语；以及

通过所述第二语言模型和所述解码器或另一解码器处理所述第一语音话语，其中所述解码器或所述另一解码器包括在远程服务器中或处于离线状态中。

5.根据权利要求4所述的方法，其中所述第一语言模型为有限状态文法模型，且其中所述第二语言模型为统计语言模型。

6.根据权利要求1所述的方法，其进一步包括基于所述相似点和/或所述相异点获取所述错误模型中的所述至少一个规则。

7.根据权利要求6所述的方法，其中所述至少一个规则在所述相似点和/或所述相异点的基础上进行限定，其中所述相似点和/或所述相异点通常由两个已知的语言模型生成。

8.根据权利要求1所述的方法，其进一步包括基于所述根本原因获取所述校正流程。

9.根据权利要求1所述的方法，其中选择性地执行所述校正流程的操作基于优先级方案之上。

10.一种用于校正语音识别***中的错误的***，其包括：

第一非瞬变模块，其通过处理器从第一语言模型接收从第一语音话语识别到的第一命令以及从第二语言模型接收从所述第一语音话语识别到的第二命令，并确定所述第一命令与所述第二命令之间的相似点和/或相异点；

第二非瞬变模块，其在所述相似点和/或所述相异点的基础上通过所述处理器利用错误模型中的至少一个规则来处理所述第一命令和所述第二命令，以确定根本原因，其中所述错误模型限定一个或多个与相似点和/或相异点相关联的规则；以及

第三非瞬变模块，其在所述根本原因的基础上通过所述处理器选择性地执行校正流程。