CN109710727B

CN109710727B - 用于自然语言处理的***和方法

Info

Publication number: CN109710727B
Application number: CN201811249888.7A
Authority: CN
Inventors: 齐连军; 马建军
Original assignee: Harman International Industries Inc
Current assignee: Harman International Industries Inc
Priority date: 2017-10-26
Filing date: 2018-10-25
Publication date: 2023-09-12
Anticipated expiration: 2038-10-25
Also published as: EP3477635B1; EP3477635A1; CN109710727A; US10395647B2; KR20190046631A; US20190130895A1

Abstract

一种用于使用多个语音辨识引擎、数据融合模型和语义理解模型来提高自然语言处理的准确性的***和方法，所述数据融合模型用以识别来自所述多个语音辨识引擎的正确结果，所述语义理解模型与所述语音辨识模型分开且不同，用以处理所述正确结果。使用所述正确结果开发语料库并且使用所述语料库来训练所述数据融合模型和所述语义理解模型。

Description

用于自然语言处理的***和方法

技术领域

本发明主题涉及用于自动语音辨识的自然语言处理，且更具体地涉及提高自然语言处理的准确性。

背景技术

在连接性正变得普遍的世界中，有许多集成了语音辨识技术以改善用户与所连接装置之间存在的人机界面的装置。例如，在车辆中，导航***、信息娱乐***、气候控制***或其他车辆操作都可以使用语音辨识技术来控制。在被连接的家中，家庭用品例如电视机、时钟、电器、照明开关、恒温器和真空吸尘器可以集成语音辨识技术。其他便携式装置例如个人助理、智能手表、平板电脑、移动电话(仅举几个例子)也集成了语音辨识技术。

在目前的装置实践中，单个语音辨识引擎负责自动语音辨识和语义理解功能。然而，已知语音辨识引擎并不完全准确，并且经常无法辨识或识别自然语言处理中的错误。

需要提高语音辨识技术中使用的自然语言处理的准确性。

发明内容

本发明提供一种用于使用多个语音辨识引擎、数据融合模型和语义理解模型来提高自然语言处理的准确性的***和方法，所述数据融合模型用以识别来自所述多个语音辨识引擎的正确结果，所述语义理解模型与所述语音辨识模型分开且不同，用以处理所述正确结果。使用所述正确结果开发语料库并且使用所述语料库来训练所述数据融合模型和所述语义理解模型。

附图说明

图1是用于自然语言处理的***的***架构的框图；

图2是用于自然语言处理的方法的流程图；以及

图3是用于确定正确结果的方法的流程图。

附图中的元件和步骤是为了简单和清楚起见而示出，并且并不一定根据任何特定顺序呈现。例如，在附图中示出可以同时或按不同次序实施的步骤以帮助改进对本发明主题的实施例的理解。

具体实施方式

虽然参考特定说明性实施例描述本发明主题的各个方面，但是本发明主题并不限于此类实施例，并且可以在不背离本发明主题的情况下实现额外修改、应用和实施例。在附图中，将使用相似参考编号来示出相同部件。本领域技术人员将认识到，可以更改本文阐述的各种部件而不改变本发明主题的范围。

传统上，装置只使用一个语音辨识引擎。该单个引擎负责自动语音辨识功能和语义理解功能两者。图1是在例如便携式或移动电话或平板电脑、计算机、信息娱乐***或实现语音辨识技术的任何其他装置等装置上的用于自然语言处理的***100的框图。该***包括可以从使用多种编程语言和/或技术创建的计算机程序编译或解译的计算机可执行指令。一般来说，处理器(例如，微处理器)例如从存储器、计算机可读介质或类似物接收指令并执行指令。处理器包括能够执行软件程序的指令的非暂时性计算机可读存储介质。计算机可读存储介质可以是但不限于电子存储装置、磁性存储装置、光学存储装置、电磁存储装置、半导体存储装置或其任何合适的组合。还包括用于与处理器通信的通信构件，例如数据总线。

输入装置102(例如，麦克风)接收自然语言输入，例如来自用户的口头命令，并且将口头输入命令呈现给可通过处理器访问的多个语音辨识引擎104a-n。语音辨识引擎104a-n是市场上可买到的引擎，例如iFlyTek、Baidu、Hound、Siri、Amazon Alexa和Microsoft Cortana(仅举几个例子)。多个语音辨识引擎104a-n中的每个语音辨识引擎104仅负责自然语言处理的自动语音辨识部分。语义理解部分在本文稍后将讨论的语义理解模型106中单独实现。

多个语音辨识引擎104a-n中的每个语音辨识引擎104提供结果108，从而产生多个结果108a-n。对于口头输入命令，可能将在语音辨识引擎104a-n中产生不同的结果。数据融合模型110合并多个结果108a-n以选择正确结果。语义理解模型106接收正确结果以供装置使用。本文将不讨论多个语音辨识引擎中的每个语音辨识引擎104的细节。每个语音辨识引擎获得其对应结果108有若干种方法，其多样性对于数据融合模型106在选择正确结果时或在没有正确结果供选择的情况下确定正确结果时在本质上是有用的。

此外，***100可以涉及处理器数字地处理在输入102处接收的音频信号以增强输入信号。例如，可以数字化并过滤在输入102处接收的口头命令来消除背景噪声。

参考图2，示出了方法200的流程图。在例如麦克风等输入处接收语音或音频输入(202)，并将其发送至多个语音辨识引擎(204)。每个语音辨识引擎产生结果，该结果由数据融合模型接收并编译成一组结果(206)。识别正确结果(208)，将正确结果传输至语义理解模型以供装置处理(210)。当来自语音辨识引擎中的每一者的结果相同时，容易识别正确结果。然而，当结果不同时，需要进一步开发以便识别正确结果。

当来自多个语音辨识引擎的结果不相同时，在许多情形下很可能是这种情况，通过统计语言建模来实现对正确结果的确定。统计语言建模用于计算句子或口头命令的概率。有许多统计语言建模方法可用。一个例子是N元语法模型。

参考图3，示出了更详细的流程图300来描述通过使用从多个语音辨识引擎收集的正确结果开发语料库来确定正确或最佳结果以及训练语言模型。对多个语音辨识结果中的每个结果进行编译(302)并将彼此进行比较(304)。在所有结果都相同(306)的情况下，识别正确结果(308)。在结果并不都相同(310)的情况下，通过应用语言模型(314)并为结果中的每一个分配概率来选择结果(312)。基于其作为正确结果的概率而选择结果(312)。所选择的结果(312)在该组结果中具有作为正确结果的最高概率。结果的概率是基于如使用所应用的语言模型(314)而确定的当前应用或语境中的句子或口头命令。记录正确结果(316)并将其并入至语料库中(318)。应用模型(例如，N元语法模型)来选择正确的语料库并将其用于训练(320)语言模型(314)。例如，可以应用维特比算法来选择具有作为正确结果的最高概率的结果(312)，并且将那个选择的结果识别为正确结果(312)。总之，在数据融合模型中出现的数据融合允许从多个所识别的结果中选择正确结果或从组合结果中选择最佳结果，这在统计上产生更准确的结果。

例如，用户输入口头命令“I want to go to Mike’s house”。语音辨识引擎1返回结果1，“I want to go to Mike’s house”。语音辨识引擎2返回结果2“I want to go toMike’s horse”。语音辨识引擎3返回结果3，“I won’t to go to Mike’s house”。显然，结果1表示正常的表达，并且将具有这个是正确结果的更高联合概率。在另一例子中，用户输入口头命令“Start Music”。语音辨识引擎1返回结果1“Music start”，语音辨识引擎2返回结果2“Music star”。这个例子较复杂，因为这两个陈述都可能是正常表达。然而，考虑到被对着“讲话”的装置的车辆环境，“Music start”更有可能，并且因此将得到被识别为正确结果的更大联合概率。

通过语音辨识模型，将语音辨识为文本。通过数据融合模型，识别正确结果。通过语义理解模型，将数据结构化使得正确或最佳结果以逻辑方式呈现。集成多个语音辨识引擎的结果增加了识别正确结果的概率。类似地，准确性的提高将适用于语义理解模型。例如，通过语音辨识模型处理输入句子“I need to go to the store”，并将正确结果识别为“I need to go to the store”。语义理解模型将识别具有目的地为“the store”的“导航”中的动作。如上所述，存在许多可以应用于这个模型并使用文本分类来识别动作，即导航，然后使用信息提取方法来识别对应的参数，即the store目的地的技术。可以使用支持向量机(SVM)来实现文本分类，并且可以使用条件随机场(CRM)来实现信息提取。

由于将句子输入发送至多个语音辨识引擎，因此对多个语音辨识引擎的结果进行编译。因此，通过收集在训练语义理解模型(也称为语言模型314)中使用的更多语料库来提高***100和方法200、300的准确性。

通过获得正确的语音辨识结果，不断地改进数据融合模型110和语义理解模型106。数据融合模型的更多语料库意味着更好的训练，并因此增大识别正确结果的概率。同样，对于语义理解模型，更多语料库意味着更好的训练并增大辨识正确结果的概率。通过记录语音辨识引擎的所有结果来收集语料库。通过选择具有低联合概率的输入句子来排列语料库。手动地确定输入句子是否为正常表达可能是必要的。在这样的确定之后，将输入句子添加至语料库。当语料库达到预定大小时，可以重新训练模型。然后应用重新训练的模型以作为对正在装置上使用或正由装置使用的***的更新。

在上述说明书中，已经参考特定示例性实施例描述了本发明主题。然而，可以在不背离如权利要求书中阐述的本发明主题的范围的情况下作出各种修改和改变。说明书和附图是说明性而非限制性的，并且修改打算包含在本发明主题的范围内。因此，本发明主题的范围应由权利要求书及其合法等效内容、而非仅由所述示例确定。

例如，任何方法或过程权利要求中列举的步骤可以按任何顺序执行，并且不限于在权利要求中呈现的特定顺序。另外，任何设备权利要求中陈述的部件和/或元件可组装或以其他方式可操作地配置成各种置换形式，并且因此并不限于权利要求中陈述的特定配置。

上文已经关于特定实施例描述了益处、其他优点和问题的解决方案；然而，任何益处、优点、问题的解决方案或任何可导致任何特定益处、优点或解决方案发生或变得更明显的元件不应被解释为任何或所有权利要求的关键、所需或必要特征或部件。

术语“包括”、“具有”、“包含”或其任何变型都打算引用非排他性包含，使得包括元件列表的过程、方法、物品、组成或设备不仅包含那些所陈述的元件，而且可以包含未明确列出或此过程、方法、物品、组成或设备固有的其他元件。除了未具体陈述的那些之外，在本发明主题的实践中使用的上述结构、布置、应用、比例、元件、材料或部件的其他组合和/或修改可以改变或以其他方式特别适于特定环境、制造技术规范、设计参数或其他操作要求，而不背离其一般原理。

Claims

1.一种用于提高自然语言处理的准确性的***，所述***包括：

自然语言输入装置；

多个语音辨识引擎，所述多个语音辨识引擎仅用于自动语音辨识功能，所述多个语音辨识引擎连接至所述输入装置，所述多个语音辨识引擎从所述输入装置接收输入，并且将语音辨识结果作为一组语音辨识结果的一部分而呈现；

数据融合模型，所述数据融合模型用以接收所述一组语音辨识结果并从所述一组语音辨识结果中识别正确结果；

语义理解模型，所述语义理解模型与所述多个语音辨识引擎分开且不同，用以处理所述正确结果；以及

所述语音辨识结果中的所有结果的集合，用于开发包括所述正确结果的语料库，所述语料库用于训练所述数据融合模型和所述语义理解模型。

2.如权利要求1所述的***，其中所述数据融合模型从所述一组语音辨识结果中识别正确结果进一步包括当所述一组语音辨识结果中的所述结果中的每一者相同时识别所述正确结果。

3.如权利要求1所述的***，其中所述数据融合模型从所述一组语音辨识结果中识别正确结果进一步包括将所述正确结果识别为所述一组语音辨识结果中的具有作为正确结果的最高概率的结果。

4.一种自然语言处理的方法，在具有自然语言输入装置、多个语音辨识引擎、数据融合模型和语义理解模型的***中进行处理，所述方法在具有计算机可执行指令的处理器中实施，所述计算机可执行指令用于执行以下步骤：

在所述自然语言输入装置处接收输入句子；

在所述多个语音辨识引擎处处理所述输入句子，所述多个语音辨识引擎中的每一者产生结果，所述结果是所有所述语音辨识引擎的一组结果的一部分；

应用所述数据融合模型来从所述一组结果中识别正确结果；

在所述语义理解模型中处理所述正确结果；

记录来自所述多个语音辨识引擎的所有所述结果以开发包括正确结果的语料库；以及

使用所述开发的语料库来训练所述数据融合模型和所述语义理解模型。

5.如权利要求4所述的方法，其中所述应用所述数据融合模型来识别正确结果的步骤进一步包括通过所述一组语音辨识结果中的所述结果中的每一者相同来识别所述正确结果。

6.如权利要求4所述的方法，其中所述应用所述数据融合模型来从所述一组语音辨识结果中识别正确结果的步骤进一步包括将所述正确结果识别为所述一组语音辨识结果中的具有作为正确结果的最高概率的结果。

7.如权利要求4所述的方法，其中记录所述多个语音辨识引擎的所述结果以开发语料库进一步包括以下步骤：

从所述输入句子的所述一组结果中选择具有作为正确结果的低概率的一个或多个结果；

手动地确定所述输入句子是正常表达；以及

将所述输入句子添加至所述开发的语料库。

8.一种包括程序的计算机可读介质，所述程序在由一个或多个处理器执行时执行包括以下各项的操作：

使用多个语音辨识引擎处理由输入装置接收的输入句子；

产生包括所述多个语音辨识引擎中的每个语音辨识引擎的所有结果的一组结果；

将数据融合模型应用于所述一组结果以从所述一组结果中识别正确结果；以及

在语义理解模型中处理所述正确结果；

9.如权利要求8所述的计算机可读介质，其中所述程序执行将数据融合模型应用于所述一组结果以从所述一组结果中识别正确结果的操作进一步包括当所述一组结果中的所有所述结果相同时识别所述正确结果。

10.如权利要求8所述的计算机可读介质，其中所述程序执行将数据融合模型应用于所述一组结果以从所述一组结果中识别正确结果的操作进一步包括将所述正确结果识别为所述一组语音辨识结果中的具有作为正确结果的最高概率的结果。

11.如权利要求8所述的计算机可读介质，其中所述包括记录所述多个语音辨识引擎的所述结果以开发语料库的操作进一步包括以下各项的操作：

手动地确定所述输入句子是正常表达；以及

将所述输入句子添加至所述开发的语料库。