CN112542170A

CN112542170A - 对话***、对话处理方法和电子装置

Info

Publication number: CN112542170A
Application number: CN202010788141.XA
Authority: CN
Inventors: 金宣我; 朴永敏; 李廷馣
Original assignee: Hyundai Motor Co; Kia Motors Corp
Current assignee: Hyundai Motor Co; Kia Corp
Priority date: 2019-09-20
Filing date: 2020-08-07
Publication date: 2021-03-23
Also published as: KR20210034276A; US20210090563A1; US11450320B2

Abstract

本发明涉及对话***、对话处理方法和电子装置。对话***、对话***控制方法和电子装置配置为通过识别用户的意图在用户语音结束之前处理用户语音以生成***响应。当用户语音结束时，输出***响应以继续实时进行自然对话流。对话***包括：将用户语音转换为文本的语音文本转换引擎；配置为在用户语音终止之前处理中间语音的中间对话引擎；配置为在用户语音终止之后处理最终语音的最终对话引擎。控制器配置为在用户语音没有终止时将转换后的文本输入到中间对话引擎，在用户语音终止时将转换后的文本输入到最终对话引擎。对话***还包括文本语音转换引擎，所述文本语音转换引擎配置为将***响应转换为语音信号。

Description

对话***、对话处理方法和电子装置

相关申请的交叉引用

本申请基于2019年9月20日向韩国知识产权局提交的韩国专利申请No.10-2019-0116007并且要求其优先权，该申请公开的全部内容通过引用结合于此。

技术领域

本发明的实施方案涉及一种对话***、对话***的控制方法以及能够与用户进行通信的电子装置。

背景技术

对话***是可以识别用户的语音并提供与所识别的语音相对应的服务的***。

对话***可以输出***响应以提供与所识别的语音相对应的服务。***响应可以包括对用户问题的回答，并且可以包括用于确认用户语音的问题，或者可以包括要提供的服务的指引。

然而，由于对话***在用户的语音结束之后开始识别，因此在用户的语音和***响应之间存在延迟，使得难以继续自然的对话流。

发明内容

本发明的一方面在致力于提供一种对话***、对话***控制方法和电子装置，用于在对话***中处理用户的语音(即，用户语音)，以通过使用中间语音识别用户的意图(即，用户意图)，从而在用户的语音结束之前生成***响应。当用户的语音结束时，所述对话***、对话***控制方法和电子装置配置为输出所生成的***响应，所述***响应能够无延迟地继续自然的对话流。

根据本发明的实施方案，一种对话***包括：语音文本转换(Speech to Text，STT)引擎、中间对话引擎、最终对话引擎、控制器和文本语音转换(Text to Speech，TTS)引擎，所述语音文本转换(STT)引擎配置为将通过麦克风输入的用户语音实时地转换为文本；所述中间对话引擎配置为在用户语音终止之前处理中间语音，以识别用户意图并生成与用户意图相对应的***响应；所述最终对话引擎配置为在用户语音终止之后处理最终语音；所述控制器配置为在用户语音没有终止时将转换后的文本输入到中间对话引擎，并且在用户语音终止时将转换后的文本输入到最终对话引擎；所述文本语音转换(TTS)引擎配置为将***响应转换为语音信号。

此外，在用户语音终止之前，中间对话引擎可以预先生成与用户意图相对应的***响应。

此外，当用户语音终止时，控制器可以控制TTS引擎输出预先生成的***响应。

此外，当中间对话引擎没有识别出用户意图时，控制器可以将通过麦克风输入的下一用户语音输入到中间对话引擎。

此外，所述***可以进一步包括存储装置，以在用户语音终止时，存储最终语音和与最终语音相对应的由最终对话引擎识别出的用户意图。

此外，控制器可以通过从存储的最终语音中删除一个词来生成第一中间语音数据，并可以将第一中间语音数据输入到最终对话引擎。

此外，当由最终对话引擎识别出的对应于第一中间语音数据的用户意图与对应于最终语音的用户意图相对应时，控制器可以将第一中间语音数据存储在存储装置中。

此外，当由最终对话引擎识别出的对应于第一中间语音数据的用户意图与对应于最终语音的用户意图相对应时，控制器可以通过从第一中间语音数据中删除一个词来生成第二中间语音数据。控制器可以将第二中间语音数据输入到最终对话引擎。

此外，控制器可以通过使用存储的第一中间语音数据来训练中间对话引擎。

此外，控制器可以通过使用存储的第一中间语音数据来生成中间对话引擎所使用的规则。

根据本发明的实施方案，一种对话处理方法包括：将通过麦克风输入的用户语音实时地转换为文本；当用户语音没有终止时，将转换后的文本输入到处理中间语音的中间对话引擎；当用户语音终止时，将转换后的文本输入到处理最终语音的最终对话引擎；生成与由中间对话引擎识别出的用户意图或由最终对话引擎识别出的用户意图相对应的***响应。

此外，生成***响应可以包括：当中间对话引擎识别出用户意图时，在用户语音终止之前预先生成与用户意图相对应的***响应。

此外，所述方法可以包括：当用户语音终止时，输出预先生成的***响应。

此外，所述方法可以包括：当中间对话引擎没有识别出用户意图时，将通过麦克风输入的下一用户语音输入到中间对话引擎。

此外，所述方法可以包括：当用户语音终止时，存储最终语音和与最终语音相对应的由最终对话引擎识别出的用户意图。

此外，所述方法可以包括：通过从存储的最终语音中删除一个词来生成第一中间语音数据，并将第一中间语音数据输入到最终对话引擎。

此外，所述方法可以包括：当由最终对话引擎识别出的对应于第一中间语音数据的用户意图与对应于最终语音的用户意图相对应时，将第一中间语音数据存储在存储装置中。

此外，所述方法可以包括：当由最终对话引擎识别出的对应于第一中间语音数据的用户意图与对应于最终语音的用户意图相对应时，通过从第一中间语音数据中删除一个词来生成第二中间语音数据，并将第二中间语音数据输入到最终对话引擎。

此外，所述方法可以包括：通过使用存储的第一中间语音数据来训练中间对话引擎。

此外，所述方法可以包括：通过使用存储的第一中间语音数据来生成中间对话引擎所使用的规则。

根据一个实施方案，一种电子装置包括：存储器和处理器，所述存储器配置为存储一个或更多个程序；所述处理器配置为处理一个或更多个存储的程序。一个或更多个程序可以包括：将通过麦克风输入的用户语音实时地转换为文本；当用户语音没有终止时，将转换后的文本输入到处理中间语音的中间对话引擎；当用户语音终止时，将转换后的文本输入到处理最终语音的最终对话引擎；生成与由中间对话引擎识别出的用户意图或由最终对话引擎识别出的用户意图相对应的***响应。

附图说明

通过随后结合附图所呈现的实施方案的以下描述，本发明的这些和/或其它方面将更加显然且更加容易领会，附图中：

图1是根据实施方案的对话***的控制框图。

图2是示出了根据实施方案的处理用户语音的对话***的示例的示意图。

图3和图4示出了在对话***的存储装置中存储的数据库的示例。

图5和图6示出了用于构造中间对话引擎的数据处理的示例。

图7示出了在对话***的存储装置中存储的数据库的另一示例。

图8是根据实施方案的对话处理方法的流程图。

图9是示出了根据实施方案的使用存储在日志数据库(DB)中的数据来更新中间对话引擎的过程的流程图。

具体实施方式

在此描述的实施方案和附图中示出的配置示出了本发明的各种示例。在提交本申请时，可以有各种能够代替本说明书的实施方案和附图的修改。

而且，在本文中使用的术语只用于描述具体实施方案，而不意图用于限制本发明。除非上下文另有明确说明，否则单数表述包括复数表述。如本文所用，术语“包括”或“具有”旨在表示存在本说明书中描述的特征、数值、步骤、动作、组件、部件或其组合。所述术语不排除预先存在或增加的一个或更多个其他特征或数值、步骤、操作、组件、部件或其组合。

此外，诸如“～部件”、“～组”、“～块”、“～构件”，“～模块”的术语可以指用于处理至少一个功能或操作的单元。例如，这些术语可以指由至少一个硬件(诸如现场可编程门阵列(FPGA)/专用集成电路(ASIC))、存储在存储器中的至少一种软件，或处理器处理的至少一个硬件。

此外，在本文描述的组件之前使用的诸如“第一”和“第二”的序数仅用于将组件彼此区分开。在组件之前使用的序数不用于指定这些组件之间的连接顺序及其使用顺序。序数不具有例如优先级的不同含义。

步骤附带的附图标记用于识别步骤。这些附图标记不指示步骤之间的顺序。除非上下文清楚地指出具体的顺序，否则每个步骤均以不同于所述顺序的顺序执行。

另一方面，可以以用于存储可由计算机执行的指令的记录介质的形式来实现所公开的实施方案。指令可以以程序代码的形式存储，并且当由处理器执行时，可以生成程序模块来执行所公开的实施方案的操作。记录介质可以实施为计算机可读记录介质。

计算机可读记录介质可以包括存储有可以由计算机读取的指令的各种记录介质。例如，可以有只读存储器(ROM)、随机存取存储器(RAM)、磁带、磁盘、闪存、光学数据存储装置等。

此外，当书面的说明书和权利要求中的元件被描述为“用于”执行或实现所陈述的功能、步骤、指令集等时，该元件也可以认为是“配置为”这样做。

在下文中，参照附图详细描述根据一方面的对话***、对话处理方法和电子装置的实施方案。

图1是根据实施方案的对话***的控制框图。参照图1，根据实施方案的对话***100可以包括：语音文本转换(Speech to Text，STT)引擎110、中间对话引擎130、最终对话引擎140、控制器120、存储装置150和文本语音转换(Text to Speech，TTS)引擎160；所述语音文本转换(STT)引擎110配置为将通过麦克风10输入的用户语音实时地转换为文本；所述中间对话引擎130配置为在用户语音终止之前处理中间语音，以识别用户意图并生成与用户意图相对应的***响应；所述最终对话引擎140配置为在用户语音终止之后处理最终语音；所述控制器120配置为在用户语音没有终止时将转换后的文本输入到中间对话引擎130，以及在用户语音终止时将转换后的文本输入到最终对话引擎140；所述存储装置150配置为存储对话***100的操作所需的各种数据；所述文本语音转换(TTS)引擎160配置为将***响应转换为语音信号。转换为语音信号的***响应可以通过扬声器20输出。

根据实施方案，对话***100可以实现为服务器。在这种情况下，可以在服务器中设置对话***100的组件110、120、130、140、150和160。然而，对话***100的组件110、120、130、140、150、160中的一些也可以设置在将对话***100与用户连接的用户终端中。

根据实施方案，对话***100可以包括用于存储程序和相关数据的至少一个存储器，和用于执行所存储的程序的至少一个处理器。

STT引擎110、控制器120、中间对话引擎130、最终对话引擎140和TTS引擎160也可以使用单独的存储器和处理器，STT引擎110、控制器120、中间对话引擎130、最终对话引擎140和TTS引擎160中的一些可以共享存储器和处理器。

此外，可以以单独的配置来设置控制器120。稍后将描述的控制器120的操作可以以与STT引擎110、中间对话引擎130、最终对话引擎140和TTS引擎160中相应操作有关的配置来执行。例如，在控制器120的操作期间与中间对话引擎130的控制有关的操作可以由中间对话引擎130执行。

换句话说，本实施方案中的组件是基于操作而不是实际位置或配置来分类的。因此，即使对话***不具有称为控制器的单独处理器，本文中描述的控制器120的操作也可以指被称为对话引擎的处理器的操作，并且不脱离根据实施方案的对话***100的范围。

此外，在一些情况下，对话***可以不分别设置中间对话引擎和最终对话引擎。在这种情况下，如整个本发明所述，对话引擎执行中间对话引擎130和最终对话引擎140的操作。在该实施方案中，对话引擎包括在对话***(100)的范围内。换句话说，执行中间对话引擎130的操作的程序和执行最终对话引擎140的操作的程序可以在一个处理器中执行，或者中间对话引擎130的操作和最终对话引擎140的操作两者可以在一个程序中执行。

例如，当用户终端是车辆时，对话***100的一些组件可以设置在车辆中。当用户终端是移动设备(诸如，智能手机)、智能人工智能(AI)扬声器或PC时，对话***100的一些组件可以设置在移动设备、AI扬声器或PC中。

或者，用户可以下载并使用用于在用户终端上执行对话***100的组件的一些功能的程序。

麦克风10和扬声器20可以设置在诸如车辆、移动设备或PC的用户终端中。用户终端可以通过无线通信连接到对话***100。尽管在图1的控制框图中未示出，但是对话***100可以进一步包括无线通信模块，所述无线通信模块可以通过无线通信与用户终端交换数据。

通过麦克风10输入的用户语音可以以流信号的形式发送到对话***100的无线通信模块。

STT引擎110可以通过将语音识别算法应用于以流信号形式发送的用户语音来将语音转换为文本。例如，通过应用特征向量提取技术(诸如，倒谱(Cepstrum)、线性预测系数(Linear Predictive Coefficient，LPC)、梅尔频率倒谱系数(Mel Frequency CepstralCoefficient，MFCC)或滤波器组能量(Filter Bank Energy))，可以提取与用户语音相对应的语音信号的特征向量。

可以通过将提取的特征向量与训练后的参考模式进行比较来获得识别结果。为此，可以使用声学模型和语言模型，所述声学模型用于对语音的信号特征进行建模和比较，所述语言模型用于对诸如与所识别的词汇相对应的词语或音节的语言学顺序关系进行建模。

声学模型可以进一步分为直接比较方法和统计方法。直接比较方法将识别对象设置为特征向量模型，并将其与语音数据的特征向量进行比较。统计方法对识别对象的特征向量进行统计处理。

直接比较方法是一种将待识别的词语、音素等的单元设置为特征向量模型并比较输入语音的相似度的方法。根据向量量化方法，将输入语音数据的特征向量与作为参考模型的密码本进行映射，并编码为代表值，从而比较代码值。

统计模型方法是一种将识别对象的单元构造为状态序列并使用状态列之间的关系的方法。状态列可以包括多个节点。此外，使用状态列之间的关系的方法又包括动态时间规整(dynamic time warping，DTW)、隐马尔可夫模型(Hidden Markov models，HMM)和神经网络。

动态时间规整是一种在考虑语音的动态特性时补偿时间轴差异的技术，语音的长度会随时间变化，即使同一个人发出相同的发音也是如此。HMM将语音假定为具有状态转移概率和每个状态中的节点(输出符号)的观察概率的马尔可夫过程。然后，HMM根据训练数据估算状态转移概率和节点的观察概率。在估算的模型中，作为识别技术，HMM计算输入语音将出现的概率。

另一方面，用于对诸如词语或音节的语言学顺序关系建模的语言模型可以将构成语言的单元之间的声学关系应用于语音识别中获得的单元，从而减少声学歧义并减少识别错误。语言模型是基于统计语言模型和有限状态自动机(finite state automata，FSA)的模型，并且统计语言模型使用词语的链概率，例如Unigram，Bigram和Trigram。

STT引擎110可以在识别对应于用户语音的语音信号并将其转换为文本时使用上述任何方法。例如，可以使用具有隐马尔可夫模型的声学模型，或者可以使用整合了声学模型和语音模型的N-best搜索方法。N-best搜索方法可以通过使用声学模型和语言模型选择多达N个识别结果候选，然后重新评估这些候选的排序来提高识别性能。

此外，STT引擎110可以计算置信度得分以确保识别结果的可靠性。对于语音识别结果，置信度得分是衡量结果的可靠性的指标。可以将置信度得分定义为作为识别结果的音素或词语的相对值，以及从其他音素或词语说出该词语的概率。因此，置信度得分可以表示为0到1之间的值，也可以表示为0到100之间的值。如果置信度得分大于预定阈值，则可以识别识别结果，如果置信度得分较小，则可以拒绝识别结果。

STT引擎110可以通过将端点检测(end point detection，EPD)算法应用于与用户语音相对应的语音信号来确定用户语音是否终止。在语音识别领域中已知各种EPD算法。STT引擎110可以使用任何已知算法。

无论用户语音是否终止，STT引擎110可以将输入到麦克风10的用户语音实时地转换为文本并且输出文本。在这种情况下，EPD可以一起执行。实时转换的文本和EPD结果可以一起输出。

中间对话引擎130和最终对话引擎140可以将自然语言理解应用于从STT引擎110输出的文本，以理解与用户语音相对应的用户意图。在下文中，通常应用于中间对话引擎130和最终对话引擎140的描述统称为对话引擎。

对话引擎对文本形式的用户的语音进行词干提取，并将输入字符串转换为词干序列。对话引擎还可以从用户的语音中识别实体名称。实体名称是例如人名、地名、组织名称、时间、日期、货币等的专有名词。实体名称识别是识别语句中的实体名称并确定所识别的实体名称的类型的任务。通过识别个体名称，我们可以从语句中提取重要的关键词以理解语句的含义。

对话引擎可以从用户语音中提取域。域可以识别用户所说的语言的主题。例如，表示各种主题(诸如，文本、导航、日程表、天气、交通、车辆控制等)的域可以存储在存储装置150中的数据库中。

对话引擎可以分析用户语音的语音行为。语音行为分析配置为分析用户语音的意图，并掌握用户语音的意图，例如用户是否提出问题、发出请求、做出响应或表达简单的情绪。

对话引擎可以基于诸如与用户的语音相对应的域、实体名称、语音行为等的信息来掌握用户的意图，并且可以提取与用户的意图相对应的动作。动作可以由对象和操作符定义。

例如，当所识别出的用户意图是“运行空调”时，相应的动作可以定义为：“空调(对象)_开(操作符)”。当所识别出的用户意图是“发短信”时，相应的动作可以定义为：“文字(对象)_发送(操作符)”。

此外，对话引擎可以提取与执行动作有关的因素。与执行动作有关的因素可以是执行动作直接需要的有效因素，或者可以是用于提取这种有效因素的无效因素。

例如，如果STT引擎110输出的文本是“给吉东发短信”，则对话引擎确定对应于用户语音的域是“文字”，动作是“发送文字”，语音行为对应于“请求”。

对象名称“吉东”对应于与执行该动作有关的{因素1：收件人}。但是，为了实际发送短信，需要{因素2：具体的消息内容}。在这种情况下，对话***100可以输出***响应：“请告诉我要发送的消息”以从用户获得具体的消息内容。

另一方面，中间对话引擎130和最终对话引擎140之间的区别在于，中间对话引擎130在用户语音终止之前处理中间语音。换句话说，中间对话引擎130可以通过分析句子来确定用户的意图，即使它不是通过应用通用自然语言理解技术处理的完整句子。

为此，对话***100可以如下所述对中间语音处理进行学习，或者可以为中间语音处理建立规则。

当用户语音未结束时，控制器120将从STT引擎110输出的文本(即，中间语音的文本)输入到中间对话引擎130。当用户语音结束时，从STT引擎110输出的文本(即，最终语音的文本)可以输入到最终对话引擎140。

如上所述，由于STT引擎110将EPD结果以及与用户语音相对应的文本一起输出，控制器120可以基于从STT引擎110输出的EPD结果来确定用户语音是否终止。

如上所述，中间对话引擎130和最终对话引擎140分别分析输入的中间语音和最终语音，以掌握用户的意图。如果成功识别了用户的意图，则可以输出结果。中间对话引擎130和最终对话引擎140的输出可以包括与用户的意图相对应的动作、与该动作有关的因素以及与用户意图相对应的***响应。

中间对话引擎130可以生成与用户意图相对应的***响应。例如，如果用户的意图是运行空调，则中间对话引擎130可以生成***响应“是否要运行空调？”。如果用户的意图是发送短信，则中间对话引擎130可以生成***响应“给谁发送短信？”。

然而，当中间对话引擎130无法识别与中间语音相对应的用户意图时，最终对话引擎140可以识别与最终语音相对应的用户意图并生成与该用户意图相对应的***响应。所生成的***响应输入到TTS引擎160。TTS引擎160可以将***响应转换为语音信号。

中间对话引擎130可以在用户语音终止之前生成与用户的意图相对应的***响应。此外，由于中间对话引擎130在用户语音终止之前处理中间语音以生成***响应，TTS引擎110还可以在用户语音终止之前将***响应转换为语音信号。

此外，控制器120可以控制TTS引擎110输出在用户语音终止之后立即生成的***响应。由于减少了用户语音和***响应之间的延迟，用户可以感觉好像他们实际上在对话，并且可以提高对话***的实用性。

参照图2，下面以用户的最终语音为“Dalee！请打开空调”为示例来描述对话***100的操作。在该示例中，“Dalee”是对话***(100)的唤醒词。

当通过麦克风10输入用户语音时，STT引擎110将输入的用户语音实时地转换为文本。如果STT引擎110输入了“Dalee”，则STT引擎110可以将其转换为文本并识别出已经输入了唤醒词。当识别出唤醒词时，对话***(100)被激活。

如果在唤醒词“Dalee”之后输入“空调”，则STT 110引擎可以将其转换为文本并将文本与EPD结果(不是语音结尾)一起输出。从而，“空调”成为中间语音。

控制器120可以将中间语音“空调”输入到中间对话引擎130中。当中间对话引擎130处理“空调”时，难以确定用户意图。因此，处理结果是失败的。

当中间对话引擎130不能识别用户意图时，换句话说，当中间对话引擎130的处理结果失败时，控制器120可以将通过麦克风10输入的下一用户语音输入到中间对话引擎130。

在该示例中，可以将下一用户语音输入输入到中间对话引擎130中，直到下一空调“开”。中间对话引擎130可以应用自然语言理解技术来识别与中间语音“打开空调”相对应的用户意图。

中间对话引擎130可以将与中间语音“打开空调”相对应的用户意图识别为“空调的运行”，并生成与用户意图相对应的***响应。在该示例中，可以生成***响应“运行空调”以确认用户意图并指引所提供的服务。

如果输入了下一用户语音“你愿意”的输入，并且STT引擎110的输出中包括的EPD结果指示语音的结束，则控制器120可以将最终语音“请打开空调”输入到最终对话引擎140。最终对话引擎140的处理结果可以存储在如下所述的存储装置150中。

此外，当用户语音终止时，控制器120可以控制TTS引擎160并输出预先生成的服务响应。

另一方面，在示例中，当如上所述使用中间语音成功确定用户的意图时，可能存在无法使用中间语音确定用户意图的情况。在这种情况下，可以生成与在最终对话引擎140中识别的用户意图相对应的***响应。

图3、图4和图7示出了在对话***的存储装置中存储的数据库(DB)的示例。图5和图6示出了用于构造中间对话引擎的数据处理的示例。

根据实施方案的对话***100可以使用基于规则的对话处理算法或者可以使用基于学习的对话处理算法。在使用基于规则的对话处理算法的情况下，如图3所示，存储用于对话处理的规则。

参照图3，存储装置150可以包括用于中间对话引擎130的对话处理的中间规则DB151和用于最终对话引擎140的对话处理的最终规则DB 152。

存储装置150可以包括非易失性存储器，诸如，只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EPROM)、闪存等。存储装置150可以包括易失性存储器，诸如，静态随机存取存储器(S-RAM)和动态随机存取存储器(D-RAM)。根据要存储的信息的类型，信息可以存储在非易失性存储器中或者可以存储在易失性存储器中。

中间规则DB 151可以存储用于识别包括在中间语音中的用户意图的规则、用于生成与用户意图相对应的***响应的规则等。

此外，最终规则DB 152可以存储用于识别最终语音中包括的用户意图的规则、用于生成与用户意图相对应的***响应的规则等。

最终对话引擎的处理结果可以用于构造或更新中间对话引擎130。下面提供了参照图4至图6的描述。

参照图4，存储装置150可以包括用于存储最终对话引擎的日志数据的日志DB 153和用于存储用来构建或更新中间对话引擎的数据的中间对话引擎DB 154。

日志数据可以包括文本形式的用户语音和由最终对话引擎140识别的用户意图。

如图5所示，由最终对话引擎140确定的用户意图可以与输入到最终对话引擎140的文本形式的用户语音进行匹配。例如，用户语音“打开空调”可以与对应的用户意图“空调_开”进行匹配并存储。用户语音“关闭空调”可以与对应的用户意图“空调_关”进行匹配并存储。用户语音“将空调的温度设定为18度”可以与用户意图“空调_设定(18℃)”进行匹配并存储。

控制器120处理存储在日志DB 153中的日志数据，以生成用于构造或更新中间对话引擎130的数据。

例如，可以通过从存储在日志DB 153中的用户语音中删除一个词来生成中间对话数据。所生成的中间对话数据可以输入到最终对话引擎140。如果由最终对话引擎140确定的用户意图与存储在日志DB 153中的用户意图匹配，则可以将中间对话数据存储在中间对话引擎DB 154中。

可以通过再删除一个词来重复上述过程，直到最终对话引擎140无法识别用户意图，或者直到最终对话引擎140确定的用户意图与存储在日志DB 153中的用户意图不匹配为止。

具体地，可以通过从存储在日志DB 153中的用户语音中删除一个词来生成第一中间语音数据。第一中间语音数据可以输入到最终对话引擎140。如果最终对话引擎140掌握的与第一中间语音数据相对应的用户意图与存储在日志DB 153中的用户意图匹配，则第一中间语音数据可以存储在中间对话引擎DB 154中。

具体地，可以通过从存储在日志DB 153中的用户语音中删除一个词来生成第一中间语音数据。第一中间语音数据可以输入到最终对话引擎140。如果最终对话引擎140识别的与第一中间语音数据相对应的用户意图与存储在日志DB 153中的用户意图匹配，则第一中间语音数据可以存储在中间对话引擎DB 154中。

可以通过存储在中间对话引擎DB 154中的中间语音数据来更新中间对话引擎130。在该示例中，更新可以包括使用所存储的数据来学习或生成新规则。

控制器120可以通过进一步从第一中间语音数据中删除一个词来生成第二中间语音数据。控制器120可以将第二中间语音数据输入到最终对话引擎140。如果最终对话引擎140识别的与第二中间语音数据相对应的用户意图与存储在日志DB 153中的用户意图匹配，则第二中间语音数据也可以存储在中间对话引擎DB 154中。可以通过添加的数据再次更新中间对话引擎130。

最终对话引擎140可以重复上述过程，直到无法理解用户的意图或者用户的意图与存储在日志DB 154中的用户的意图不同。

参照图6，当通过从存储在日志DB 153中的用户语音“打开空调”中删除一个词(字)而生成的第一中间语音数据“打开空”输入到最终对话引擎140中时，如果从最终对话引擎140输出的用户意图是“空调_开”，则控制器120将第一中间语音数据“打开空”与用户意图“空调_开”进行匹配，并将结果存储在中间对话引擎DB 154中。

最终对话引擎140输出通过从存储在日志DB 153中的用户语音“关闭空调”中删除一个词(字)而生成的第一中间语音数据“关闭空”。如果用户意图是“空调_关”，则控制器120可以将第一中间语音数据“关闭空”与用户意图“空调_关”进行匹配并将第一中间语音数据“关闭空”存储在中间对话引擎DB 154中。

此外，当通过从存储在日志DB 153中的用户语音“请将空调的温度设定为18度”中删除一个词(字)而生成的第一中间语音数据“请将空调的温度设定为18”输入到最终对话引擎140中时，如果从最终对话引擎140输出的用户意图是“空调_设定(18℃)”，则控制器120将第一中间语音数据“请将空调的温度设定为18”与存储在对话引擎DB 154中的用户意图“空调_设置(18℃)”匹配。

在中间对话引擎130用来识别用户意图的规则的示例中，可以使用词汇语义模式。因此，控制器120可以基于存储在中间对话引擎DB 154中的中间语音数据来生成词汇语义模式。

此外，在生成规则时，可以使用中间语音数据中的最终对话引擎140未能识别为与用户意图相匹配的数据。因此，在这种情况下，可以将中间语音数据(已经从用户语音中删除了一个词(字))中的最终对话引擎140未能识别为与用户意图相匹配的数据存储在单独的规则生成DB 155中，如图7所示。在这种情况下，不使用通过不同地识别用户意图而获得的数据。

中间对话引擎130所使用的规则也可以由用户手动创建。具体地，通过直接识别用户的意图，存储在规则生成DB 155中的最终对话引擎140未能识别为与用户意图相匹配的数据可以生成规则。

例如，当存储在日志DB 153中的用户语音是“请运行空调”时，最终对话引擎140可以识别出删除了一个词(字)的第一中间语音数据“运行空调”。相应地，存储在中间对话引擎DB 154中的第二中间语音数据“空调”又删除了一个词。在该示例中，由于最终对话引擎140不能理解用户意图，将第二中间语音数据存储在规则生成DB 155。

在另一示例中，当存储在日志DB 153中的用户语音是“请将空调的方向向下对准”时，最终对话引擎140可以识别删除了一个词的第一中间语音数据“将空调的方向对准”。因此，最终对话引擎140不能将存储在中间对话引擎DB 154中的又删除了一个词的第二中间语音数据“将空调的方向”识别为与用户的意图相匹配。因此，第二中间语音数据可以存储在规则生成DB 155中。

用户可以通过使用存储在规则生成DB 155中的中间语音数据来手动创建规则。例如，如果用户手动识别意图，则可以理解“空调的方向”。因此，可以生成如下规则：<用户语音：空调的方向→用户意图：“空调_方向(向下)”>。

另一方面，由于无法手动理解存储在规则生成DB 155中的“空调”，“空调”不用于规则生成。

在下文中，描述了根据实施方案的对话处理方法。根据上述实施方案的对话***可以用于实现根据实施方案的对话处理方法。因此，即使没有另外提及，参照图1至图7描述的内容也可以应用于对话处理方法的实施方案。以下的对话处理方法的实施方案的描述也可以应用于对话***的实施方案。

图8是根据实施方案的对话处理方法的流程图。

根据图8所示的对话处理方法，当通过麦克风10输入用户语音时(310中的“是”)，将用户语音实时地转换为文本(311)。

如上所述，当用户语音以流信号的形式输入到STT引擎110时，STT引擎110可以将输入的用户语音实时地转换为文本并输出该文本。此时，也可以输出EPD结果。

如果用户的语音还没有结束(312中的“否”)，则将转换后的文本输入到中间对话引擎130中(313)。如果用户的语音结束(312中的“是”)，则将转换后的文本输入到最终对话引擎140(316)。

控制器120可以基于从STT引擎110输出的EPD结果来确定是否结束用户语音。因此，如果EPD结果指示用户的语音不是用户语音的结尾，则将转换后的文本(即，中间语音的文本)输入到中间对话引擎130中。如果EPD结果指示是用户语音的结尾，则将转换后的文本(即，最终语音的文本)输入到最终对话引擎140中。

如果中间对话引擎130已经识别出输入文本，即，与中间语音相对应的用户意图(314中的“是”)，则***在用户语音结束之前生成与由中间对话引擎130识别出的用户意图相对应的***响应(315)。如果中间对话引擎130没有识别出与中间语音相对应的用户意图，则将通过麦克风10输入的下一用户语音的文本输入到中间对话引擎130。

如果中间对话引擎130已经识别出与中间语音相对应的用户意图，则可以在用户话语终止之前预先生成***响应。

当用户语音结束时，输出预先生成的***响应(317)。如果中间对话引擎未能使用中间语音识别出用户意图，则最终对话引擎140生成与使用最终语音确定的用户意图相对应的***响应(315)。

TTS引擎317可以将生成的***响应转换为语音信号。转换为语音信号的***响应可以通过用户终端中设置的扬声器20输出给用户。

另一方面，当用户语音较长时，即使***响应的生成完成，用户语音也可以继续。控制器120可以控制TTS引擎160保持***响应的输出直到用户语音终止，并且在用户语音终止之后输出***响应。

此外，由最终对话引擎140识别的用户意图和最终语音存储在日志DB 153中，并用于更新中间对话引擎130。在下文中，下面描述更新中间对话引擎130的过程。

图9是示出了根据实施方案的使用存储在日志DB中的数据来更新中间对话引擎的过程的流程图。

根据上述实施方案，日志DB 153存储最终语音和相应的用户意图。

根据图9所示的对话处理方法，控制器120通过从存储在日志DB 153中的最终语音中删除一个词来生成第一中间语音数据(320)，并且将该第一中间语音数据输入到最终对话引擎140。

当最终对话引擎140识别出与第一中间语音数据相对应的用户意图时(322中的“是”)，控制器120确定对应于第一中间数据的用户意图是否与对应于存储在日志DB中的最终语音的用户意图相匹配(323)。如果对应于第一中间语音数据的用户意图与对应于存储在日志DB中的最终语音的用户意图相匹配(324中的“是”)，则将第一中间语音数据存储在中间对话引擎DB 154中(325)。

此外，控制器120从第一中间语音数据中删除一个词以生成第二中间语音数据，并将该第二中间语音数据输入到最终对话引擎中。重复上述识别用户意图的过程，直到语音数据与对应于最终语音的用户意图不匹配为止。

中间对话引擎可以通过使用存储在中间对话引擎DB 154中的中间语音数据进行学习，从而更新控制器120。

另一方面，当最终对话引擎140未能识别出与第一中间语音数据相对应的用户意图时(322中的“否”)，则可以将第一中间语音数据存储在规则生成DB 155中(326)。

控制器120可以通过使用存储在规则生成DB 155中的第一中间语音数据来生成用于中间对话引擎130的规则。在对话***100的上述实施方案中提供了规则生成的详细描述。

根据一个实施方案，一种电子装置包括：存储器和处理器，所述存储器配置为存储一个或更多个程序；所述处理器配置为处理一个或更多个存储的程序。一个或更多个程序可以包括：将通过麦克风输入的用户语音实时地转换为文本；当用户语音没有终止时，将转换后的文本输入到处理中间语音的中间对话引擎；当用户语音终止时，将转换后的文本输入到处理最终语音的最终对话引擎；生成与由中间对话引擎识别的用户意图或由最终对话引擎识别的用户意图相对应的***响应。

此外，存储在电子设备的存储器中的程序用于执行上述对话处理方法。上述对话处理方法中包括的每个步骤可以进一步包括在由处理器执行的程序中。

如上所述，已经参照附图描述了所公开的实施方案。本领域普通技术人员应该理解，在不改变本发明的技术精神或基本特征的情况下，可以以与公开的实施方案不同的形式来实现本发明。所公开的实施方案是示例，并且不应被解释为限制性的。

Claims

1.一种对话***，其包括：

语音文本转换引擎，其配置为将通过麦克风输入的用户语音实时地转换为文本；

中间对话引擎，其配置为在用户语音终止之前处理中间语音，以识别用户意图并生成与用户意图相对应的***响应；

最终对话引擎，其配置为在用户语音终止之后处理最终语音；

控制器，其配置为：在用户语音没有终止时，将转换后的文本输入到中间对话引擎，并且在用户语音终止时，将转换后的文本输入到最终对话引擎；和

文本语音转换引擎，其配置为将***响应转换为语音信号。

2.根据权利要求1所述的对话***，其中，

在用户语音终止之前，所述中间对话引擎预先生成与用户意图相对应的***响应。

3.根据权利要求2所述的对话***，其中，

当用户语音终止时，所述控制器控制文本语音转换引擎输出预先生成的***响应。

4.根据权利要求1所述的对话***，其中，

当中间对话引擎没有识别出用户意图时，所述控制器将通过麦克风输入的下一用户语音输入到中间对话引擎。

5.根据权利要求1所述的对话***，其进一步包括，

存储装置，其配置为当用户语音终止时，存储最终语音和与最终语音相对应的由最终对话引擎识别出的用户意图。

6.根据权利要求5所述的对话***，其中，

所述控制器通过从存储的最终语音中删除一个词来生成第一中间语音数据，并将第一中间语音数据输入到最终对话引擎。

7.根据权利要求6所述的对话***，其中，

当由最终对话引擎识别出的对应于第一中间语音数据的用户意图与对应于最终语音的用户意图相对应时，所述控制器将第一中间语音数据存储在存储装置中。

8.根据权利要求7所述的对话***，其中，

当由最终对话引擎识别出的对应于第一中间语音数据的用户意图与对应于最终语音的用户意图相对应时，所述控制器通过从第一中间语音数据中删除一个词来生成第二中间语音数据，并将第二中间语音数据输入到最终对话引擎。

9.根据权利要求7所述的对话***，其中，

所述控制器通过使用存储的第一中间语音数据来训练中间对话引擎。

10.根据权利要求7所述的对话***，其中，

所述控制器通过使用存储的第一中间语音数据来生成中间对话引擎所使用的规则。

11.一种对话处理方法，所述方法包括：

将通过麦克风输入的用户语音实时地转换为文本；

当用户语音没有终止时，将转换后的文本输入到处理中间语音的中间对话引擎；

当用户语音终止时，将转换后的文本输入到处理最终语音的最终对话引擎；

生成与由中间对话引擎识别出的用户意图或由最终对话引擎识别出的用户意图相对应的***响应。

12.根据权利要求11所述的方法，其中，

生成***响应包括：当中间对话引擎识别出用户意图时，在用户语音终止之前预先生成与用户意图相对应的***响应。

13.根据权利要求12所述的方法，其进一步包括：

当用户语音终止时，输出预先生成的***响应。

14.根据权利要求13所述的方法，其进一步包括：

当中间对话引擎没有识别出用户意图时，将通过麦克风输入的下一用户语音输入到中间对话引擎。

15.根据权利要求11所述的方法，其进一步包括：

当用户语音终止时，存储最终语音和与最终语音相对应的由最终对话引擎识别出的用户意图。

16.根据权利要求15所述的方法，其进一步包括：

通过从存储的最终语音中删除一个词来生成第一中间语音数据，并将第一中间语音数据输入到最终对话引擎。

17.根据权利要求16所述的方法，其进一步包括：

当由最终对话引擎识别出的对应于第一中间语音数据的用户意图与对应于最终语音的用户意图相对应时，将第一中间语音数据存储在存储装置中。

18.根据权利要求17所述的方法，其进一步包括：

当由最终对话引擎识别出的对应于第一中间语音数据的用户意图与对应于最终语音的用户意图相对应时，通过从第一中间语音数据中删除一个词来生成第二中间语音数据，并将第二中间语音数据输入到最终对话引擎。

19.根据权利要求17所述的方法，其进一步包括：

通过使用存储的第一中间语音数据来训练中间对话引擎。

20.根据权利要求17所述的方法，其进一步包括：

通过使用存储的第一中间语音数据来生成中间对话引擎所使用的规则。

21.一种电子装置，其包括：

存储器，其配置为存储一个或更多个程序；和

处理器，其配置为处理一个或更多个存储的程序；

其中，所述一个或更多个程序包括：

将通过麦克风输入的用户语音实时地转换为文本；