CN105830058B

CN105830058B - 对话管理器

Info

Publication number: CN105830058B
Application number: CN201480068215.5A
Authority: CN
Inventors: 渡部晋治; H·唐
Original assignee: Mitsubishi Corp
Current assignee: Mitsubishi Corp
Priority date: 2013-12-16
Filing date: 2014-11-21
Publication date: 2019-11-22
Anticipated expiration: 2034-11-21
Also published as: US20150169553A1; JP6297144B2; DE112014005715T5; US9311430B2; CN105830058A; WO2015093263A1; JP2016535297A

Abstract

一种对话管理器，该对话管理器接收先前的用户动作以及先前的观察和当前的观察。假设先前的用户状态和当前的用户状态、先前的用户动作、当前的用户动作、未来***动作和未来观察。隐藏用户状态、用户动作和用户观察。基于用户状态、***动作、用户动作和观察来提取特征矢量。使用所述特征矢量，基于对数线性模型来确定每个当前的动作的期望报酬。然后，输出具有最佳期望报酬的当前动作。

Description

对话管理器

技术领域

本发明总体上涉及文本和语音处理，并且更具体地涉及对话管理器。

背景技术

对话管理器是利用口头的或者文本的对话来完成某些任务的***。对话在用户和***之间轮流交替。对话可以包括用户动作和***动作的序列。用户动作对***隐藏。***根据观察来确定用户动作。用户具有同样对***隐藏的变化状态。***基于用户语音或文本鉴于先前的***动作和观察使用规划来确定下一个***动作。下面描述所述规划。

对话管理器可以是基于规则的，或使用统计框架(例如，部分可观察马尔可夫决策过程(POMDP))。在POMDP对话***中，由一组随机变量表示对话。在每轮，对话包括表示用户说了什么的观察变量、表示到目前为止对话的进程的隐藏状态变量以及所选择的***动作。POMDP模型定义了两个概率相关性：考虑到先前状态和***动作的当前状态的条件概率；以及考虑到当前状态和先前***动作的观察的条件概率。

报酬函数针对每轮指定适合性标准(fitness criterion)作为该轮的状态和所选择的动作的函数。给定回报函数，能够确定提供考虑到在当前时刻对状态分布的了解的最佳***动作的策略。然后，该策略可以被用于在对话过程中生成***动作。选择***动作以便使报酬变得最大被称为规划。

为了拥有工作***(working system)，需要估计定义POMDP中的概率的模型参数。该估计被称为学习。通常使用最大似然(ML)准则而不是使用报酬函数来估计这些参数。例如，可以使用最大似然动态贝叶斯网络(DBN)。这些方法的主要问题在于使用不同的准则分别且单独地对规划和学习进行优化。另外，规划和学习是众所周知困难的优化问题，因为推理在大到足以处理实际问题的变量空间中变得棘手。

发明内容

本发明的实施方式提供基于统计对话框架的文本和口头对话***。与传统方法中使用的生成式模型相比，本发明基于对数线性模型框架使用判别式模型来表示***动作、观察以及其它信息之间的关系。然后，考虑到先前的观察和***动作，对话管理器通过使用置信传播(BP)过程直接优化期望报酬来输出适当的***动作。

由于本发明使用对数线性模型，在对话期间获得的各种特征可以被并入该模型中。可以通过使用基于置信传播过程的对话数据来统计训练对数线性模型中的参数以使用精确的***动作来提高性能。

实施方式提供一种具有一致的优化准则的优点并且同时对于优化更有效的相干***。使用对数线性概率分布来建模对话***。因此，本发明提供一种对数线性对话管理器。

由于条件随机字段(CRF)的引入，对数线性分布已经被用于对序列建模。虽然对数线性模型通常无法表示所有的分布族(distribution families)，但是它们对特征函数的灵活使用使得模型能够表示概率模型的广泛的族。由于模型是马尔可夫链，因此针对优化可以利用有效的过程。尤其是，实施方式优化沿时间轴的报酬的总和。

为了表示可能状态、用户动作和***动作的空间，使用上下文无关文法(CFG)，可能状态、用户动作和***动作中的每一个都是基于与对话***的域相关的语义表征的曲线图。

代替成为简单的多项式，随机变量在由CFG生成的分析树的空间中取值。这提供了能够进行大范围的特征的提取的丰富的结构。由于对数线性模型中固有的对特征的灵活使用，作为特殊情况，这些特征可以被设计成使得对话***表现得与基于传统规则的对话***完全一样。这是通过将对话***的规则实现为指示函数特征并初始化参数以使得对数线性概率分布对应于这些规则来完成的。

附图说明

[图1]

图1是根据本发明的实施方式的对话管理器的规划部分的流程图。

[图2]

图2是根据本发明的实施方式的对话管理器的学习部分的流程图。

[图3]

图3是根据本发明的实施方式的示例性分析树。

[图4]

图4是根据本发明的实施方式的示例性状态的分析树。

[图5]

图5是用于图4的分析树的示例性产生式规则的框图。

具体实施方式

规划

如图1和图2所示，我们的发明的实施方式提供一种对数线性对话管理器。该***包括规划部分100和学习部分200。如现有技术已知的，可以在通过总线连接至存储器和输入/输出接口的处理器150和250中执行用于这两个部分的方法。可以将处理器150和250组合。

***模型

我们的概率模型在每个时间步长t具有四个变量。两个变量是可观察变量：***动作a_t 102和观察o_t 101。另外两个变量是被推导出的两个潜变量：用户动作u_t 201和状态s_t。

对话的每个步骤如下进行。基于直到时刻t-1的所有先前的***动作和先前的观察，***利用询问a_t-1提示用户。由o_t表示用户的响应。在一个实施方式中，o_t是由用户说出的词的序列。然而，应当理解，响应可以是键入的文本，或者响应可以通过其它手段进入***。

响应的含义由用户动作u_t来表示，用户动作可以根据观察来推断。可以基于***动作a_t-1和用户动作u_t以及先前状态s_t-1来推断新的状态s_t。在我们的***中，状态s_t表示用户的意图，虽然通常其也可以包括附加的上下文信息。

使用下标冒号来表示序列，例如，s_0:T≡{s₀,s₁,…,s_T}，由四个变量序列s_0:T、a_0:T、o_1:T、u_1:T表示持续时间T的对话会话。

图3示出了如由因子图表示的用于对话会话的模型，针对我们的对数线性模型，该因子图与所述变量的以下联合概率分布相对应。

其中，Z_θ是归一化常数，和是特征函数的矢量，并且θ_f和θ_g分别是相应模型参数的矢量。

在时刻t＝T，s_t+1和u_t+1是未定义的，所以如因子图的因子f_T中所示。在时刻t＝T，我们将定义为仅其前两个输入的函数。为了简化符号，我们也定义了下面的矢量：

其使我们能够将等式(1)更简洁地重写为

其中，

是p(s_0:T,a_0:T,u_1:T,o_1:T)的配分函数。

变量空间

我们让S、U、A和O分别表示变量空间(即，针对变量s_t、u_t、a_t和o_t的所有可能的值的集合)。每个观察o∈O可以是波形、声学特征、所识别的文本、和/或语言特征。我们使用o∈O来表示输入序列，并且我们将变量空间O定义为词汇组V中的词的所有序列的集合。

我们使用包括一组产生式规则的上下文无关文法(CFG)来定义变量空间S、U、和A中的每一个变量空间。每个变量空间都被定义为可以由其CFG生成的所有可能的分析树的集合。

图5示出了定义变量空间S的CFG中的产生式规则中的一些。S中的每个分析树都是状态s_t的可能值。图5示出了针对状态s_t的一个可能值，该值是使用图4中的黑体字所示的产生式规则生成的S中的一个分析树。在图4中，在引号中括起了末端(terminal)，而非末端(non-terminal)没有用引号括起。变量$ADDRESS$可以利用其它产生式规则进一步扩展或者作为自由变量保留。

特征值

如在图3中的因子图以及等式(1)中可见，在我们的模型中存在两种类型的因子。表示为f的第一类型因子对先前和当前状态、***动作和用户动作之间的统计依赖关系进行建模。表示为g的第二类型因子对观察到的词序列与它们的语义解释之间的依赖关系进行建模。对于使用CFG定义其空间的变量，我们将每个变量值(每个分析树)看作一组活跃的产生式规则。例如，图5的分析树中活跃的产生式规则在图4的产生式规则中以黑体字示出。

假设G_S、G_U和G_A分别是为S(状态)、U(用户动作)和A(***动作)定义变量空间的CFG中的产生式规则的集合。对于因子g，我们将用户动作中的每个产生式规则与用于相关联的词序列的语言模型相关联。具体地，考虑到用户动作u_t和观察o_t，我们拥有形式的特征值，其表示指示函数，当且仅当特定产生式规则k∈G_U在用户动作u_t的分析树中是活跃的并且特定的双字母组w_i-1w_i存在于观察o_t的词序列中时，该指示函数等于1。

靠近树的根出现的用于产生式规则的语言模型对一般类型的话语进行建模，而靠近树的叶出现的产生式规则更加专门化。对于因子f，我们可以考虑协同出现的产生式规则。例如，涉及两种特定的产生式规则k,k′∈G_S的特征当且仅当k在状态s_t-1中是活跃的并且k′在状态s_t中是活跃的时等于1。通常在对话***中可见的特征类型的另一种类型是其也需要产生式规则j∈G_A在***动作a_t-1中是活跃的。该特征表示特定的***动作趋向于引起特定的状态转换。

规划和学习

对话管理器需要解决的两个基本问题是规划100和学习200。我们假设存在评估我们的模型的报酬函数r:S×A→R⁺。我们现在就报酬函数来描述规划和学习。

规划

在时刻τ的规划是考虑到所有先前的***动作a_0:τ-1和观察o_1:τ来确定最佳***动作a_τ的问题。假设对话具有持续时间T。我们将规划问题定义为确定a_τ以最大化期望报酬E作为目标函数

期望值是在未给出所有变量(即，所有状态、所有用户动作以及所有未来***动作和观察)的情况下获取的。

可以通过假设每个动作a_τ、鉴于使用和-积过程的动作确定期望的报酬、以及选择最大化的期望报酬的动作来精确地优化目标函数。

然而，为了便于实现与迅速起见，我们取而代之地优化从詹森(Jensen)的不等式获得的目标函数的变分下界(objective’s variational lower bound)

其中，γ_t是变分参数，使得∑_tγ_t＝1。虽然可以使用期望最大化(EM)过程优化γ_t，但是我们采用γ_t＝1/(T+1)来进一步简化计算。

该乘积形式具有所述报酬随时间因式分解的优良的性能。换言之，等式(6)可以被扩展为

其中，Z′是具有给定的a_0:τ-1、o_1:τ的p的配分函数。现在，可以通过具有用于报酬的附加项的图解模型上的传统的和-积过程来确定最佳的a_τ。

首先，我们采集从图解模型的两端到时间τ的信度(belief)，并且确定使等式(6)最大化的a_τ。如果我们明确地写出置信传播，则其将变成向前-向后过程。例如，从因子节点f_t到变量节点s_t+1的向前消息通过以下使用时间t到t+1的(非归一化)概率分布对消息和的求和来确定：

这里，是从变量节点a_t到因子节点f_t的消息。我们可以使用任何分布，包括其中我们不假设a_t的任何先验分布的均匀分布。是从变量节点s_t到因子节点f_t的消息。从先前的步骤递归地来确定。

从变量节点u_t+1到因子节点f_t的消息为该消息从如下分布被确定为

因此，我们避免对序列求和来确定消息也可以有效地确定其它消息而无需基于置信传播方法计算序列的总和。

注意，使用和-积过程对特征动作进行平均化不同于寻求最大化未来***动作的报酬的传统的POMDP优化。在对其它变量使用和-积的同时，也可以对a_t使用最大积过程，以实现对未来***动作的最大化。然而，模型本身包含提供对未来动作的预测分布的随机策略。

学习

学习部分200类似于规划，区别在于不确定最佳动作，我们对确定最佳模型参数更感兴趣。换言之，我们期望找到θ103使得看到所有的***动作a_0:T和所有的观察o_1:T而使期望报酬最大化

此外，对未给定的所有变量(即，所有状态和所有用户动作)取期望值。类似于规划部分，这里我们也可以使用等式(8)的变分下界。

我们使用梯度下降来优化学习目标。通常，对于任何效用函数v(x)和基于对数线性模型的形式的概率分布

期望效用的导数为：

注意，对于θ中的每个参数θ_i，该导数是相应特征φ_i与效用之间的协方差。因此，当与效用负相关的这些相应特征减少时，对应于与效用明确相关的特征的参数增加。

将该规律应用于我们的模型给出：

其中，使用p(s_0：T，u_1：T|a_0：T，o_1：T)确定期望值。在一般情况下，可能难以确定这些量。我们使用粒子置信传播。

粒子置信传播

由于变量空间太大而被边缘化(marginalize)，所以我们使用粒子置信传播来解决该问题。

通过边缘化s_t、a_t和u_t+1，考虑从因子节点f_t传递到变量节点s_t+1的消息

如果我们利用重要性采样重写总和，则针对通过其确定期望值的一些采样分布π_t(a)、π_t(u)、π_t(s)，我们获得

然后，我们可以利用对样本求和

来近似期望值。

Claims

1.一种对话管理器，所述对话管理器具有执行以下步骤的处理器：

接收先前的***动作以及先前的观察结果和当前的观察结果；

根据先前的观察结果和当前的观察结果，推测当前的用户动作，根据先前的***动作、当前的用户动作以及先前的用户状态，推测当前的用户状态；

基于所述先前的用户状态和所述当前的用户状态、所述先前的***动作、先前的用户动作和所述当前的用户动作、以及所述先前的观察结果和所述当前的观察结果来提取特征量；

将使用报酬函数而规定的期望报酬作为目标函数，其中所述报酬函数用于评估并入了所述特征量的对数线性模型；根据所有先前的***动作以及所有观察结果求出将所述期望报酬最大化的***动作。

2.根据权利要求1所述的对话管理器，其中，表示所述对数线性模型的概率的概率模型在每个时间步长t具有四个变量，所述四个变量包括两个可观察变量和两个潜变量，所述两个可观察变量包括***动作a_t和观察结果O_t，并且所述两个潜变量包括用户动作u_t和用户状态S_t。

3.根据权利要求2所述的对话管理器，其中，由四个变量序列s_0：T、a_0：T、o_1：T、u_1：T表示持续时间T的对话会话，使用下标冒号表示序列，

S_0：T≡{S₀，S₁，…，S_T}

a_0：T≡{a₀，a₁，…，a_T}

O_1：T≡{o₁，O₂，…，O_T}

u_1：T≡{u₁，u₂，…，u_T}；

其中，S₀，S₁，...，S_T表示从0到所述持续时间T的多个用户状态；a₀，...，a_T表示从0到所述持续时间T的多个***动作；O₁，...，O_T表示从1到所述持续时间T的多个观察结果；u₁，...，u_T表示从1到所述持续时间T的多个用户动作。

4.根据权利要求3所述的对话管理器，其中，所述对话会话由因子图表示，所述因子图与联合概率分布

相对应，其中，Z_θ是归一化常数，和是所述特征量，并且θ_f和θ_g分别是相应模型参数的矢量。

5.根据权利要求1所述的对话管理器，其中，所述先前的观察结果和所述当前的观察结果是口述词语或文本。

6.根据权利要求3所述的对话管理器，其中，S、U、A和O分别表示变量空间，所述变量空间是针对所述变量s_t、u_t、a_t和o_t的所有可能的值的集合。

7.根据权利要求6所述的对话管理器，所述对话管理器还通过所述处理器执行以下步骤：

使用包括一组产生式规则的上下文无关文法来定义所述变量空间S、U和A。

8.根据权利要求7所述的对话管理器，其中，每个变量空间都被定义为能够由所述上下文无关文法生成的所有可能的分析树的集合。

9.根据权利要求3所述的对话管理器，其中，所述对话管理器的规划部分根据所有先前的***动作a_0：τ-1和先前的观察结果o_1：τ，确定最佳***动作a_τ。

10.根据权利要求3所述的对话管理器，所述对话管理器还通过所述处理器执行以下步骤：

使目标函数

最大化以使用报酬函数r(s_t，a_t)确定所述期望报酬。

11.根据权利要求10所述的对话管理器，所述对话管理器还通过所述处理器执行以下步骤：

优化所述目标函数上的变分下界。

12.根据权利要求10所述的对话管理器，其中，使用梯度下降来优化所述目标函数。

13.根据权利要求10所述的对话管理器，其中，使用粒子置信传播来优化所述目标函数。