CN109313540B

CN109313540B - 口语对话***的两阶段训练

Info

Publication number: CN109313540B
Application number: CN201780027830.5A
Authority: CN
Inventors: S·M·法特米·博舍里; L·埃尔阿斯利; H·舒尔茨; 何靖; K·萨勒曼
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-05-13
Filing date: 2017-05-12
Publication date: 2021-12-03
Anticipated expiration: 2037-05-12
Also published as: WO2017197330A1; US20170330556A1; CN109313540A; EP3443450A1; US10395646B2

Abstract

本文描述了用于口语对话***的两阶段训练的***和方法。第一阶段使用外部数据来训练策略网络，以产生半训练的策略网络。外部数据包括一个或多个已知的固定对话。第二阶段通过交互来训练半训练的策略网络，以产生经训练的策略网络。交互可以是与用户模拟器的交互。

Description

口语对话***的两阶段训练

相关申请的交叉引用

本申请作为PCT国际专利申请于2017年5月12日提交，并要求2016年5月13日提交的题为“Method And System For Training Dialogue Systems”的美国临时申请No.62/336,163的优先权，其全部公开内容通过引用整体结合于此。

背景技术

口语对话***(SDS)是被设计用于与人交谈的一种基于计算机的机器。机器和用户之间的对话依赖于轮流行为。例如，用户可以要求机器定位市中心的意大利餐馆。响应于请求，机器可能会说它在市中心找不到任何意大利餐馆。用户的请求和机器动作或响应形成对话中的一个回合。随着对话进行，SDS能够获得完成一个或多个用户目标所需的信息(例如，提供意大利餐馆的名称和位置)。如何训练SDS会影响SDS的效率和有效性。

发明内容

本文所公开的实施例提供了用于口语对话***(SDS)的两阶段训练技术。第一阶段使用外部数据来训练策略网络以产生半训练的策略网络。外部数据包括一个或多个已知的固定对话。第二阶段通过交互来训练半训练的策略网络，以产生经训练的策略网络。交互可以是与用户模拟器的交互。

在一个方面，一种***包括口语对话***、存储设备和用户模拟器。口语对话***包括策略网络和连接到策略网络的价值网络。策略网络产生在响应于对话的给定状态的所有可能动作上的概率分布。价值网络估计对话的给定状态的价值并且向策略网络提供优势信号。优势信号表示经量化的判断，经量化的判断指示在策略网络提议的动作被SDS选择的情况下策略网络的成功级别。存储设备连接到策略网络并且存储被用于在第一训练阶段中训练策略网络的一个或多个固定的已知对话。用户模拟器连接到策略网络和价值网络，并且用于模拟用户对话以在第二阶段训练中训练策略网络和价值网络两者。

在另一方面，一种方法包括使用外部数据来训练口语对话***中的策略网络以产生半训练的策略网络。半训练的策略网络具有第一级训练。然后通过交互来训练半训练的策略网络以产生经训练的策略网络。与半训练的策略网络相比，经训练的策略网络具有改进的或更高级别的训练。在第一阶段期间使用的外部数据可以包括一个或多个已知的固定对话，而在第二阶段期间执行的交互可以包括与用户模拟器的交互。

在又一方面，一种口语对话***包括策略网络和连接到策略网络的价值网络。策略网络被配置为产生在响应于对话的给定状态的一个或多个可能动作上的概率分布。价值网络被配置为接收对话的给定状态，并且向策略网络提供指示概率分布的准确性的优势信号。优势信号可以表示在对话的该给定状态与实现用户目标的接近程度方面对给定对话状态的一般值的估计。因此，从对话的每一回合到下一回合，可以基于新状态的值来判断策略网络的所选动作的值。这样的量化的判断被称为优势并且指示策略网络的准确性。使用外部数据和交互来训练策略网络。在第一阶段期间使用的外部数据可以包括一个或多个已知的固定对话，并且在第二阶段期间执行的交互可以包括与用户模拟器的交互。

提供本发明内容部分是为了以简化的形式介绍一些概念，这些概念将在下面的具体实施方式部分中进一步描述。本发明内容无意标识所要求保护的主题的关键特征或必要特征，也无意用于限制所要求保护的主题的范围。

附图说明

参考以下附图描述非限制性和非穷举性示例。附图的元素不一定相对于彼此按比例缩放。在可能的情况下，使用相同的附图标记来指明附图中公共的相同特征。

图1图示可以包括口语对话***的示例***；

图2是描绘操作口语对话***的方法的流程图；

图3是图示训练口语对话***的两阶段方法的流程图；

图4是描绘可以被用于训练策略网络以产生半训练的策略网络的监督学习方法的流程图；

图5是图示监督训练过程的框图；

图6是图示可以被用于训练半训练的口语对话***的强化学习过程的流程图；

图7是图示强化学习过程的框图；以及

图8描绘了本公开的各方面可以在其中被实践的示例分布式***的框图。

具体实施方式

在以下具体实施方式中，对形成具体实施方式的一部分的附图进行参考，并且其中通过图示示出具体实施例或示例。在不脱离本公开的情况下，可以组合这些方面、可以利用其他方面、并且可以进行结构改变。可以将实施例实践为方法、***或设备。因此，实施例可以采取硬件实现、完全软件实现或组合软件和硬件方面的实现的形式。因此，以下具体实施方式不应被视为具有限制意义，并且本公开的范围由所附权利要求及其等同物来限定。

在面向任务的口语对话中，用户有他或她想要在对话中实现的目标(或任务)。口语对话***基于对话中的回合来获得关于用户的目标的信息。一个回合包括用户口语语言输入和机器动作。例如，用户可以请求执行搜索，机器动作是提供搜索结果或询问关于搜索的问题。

口语对话***通常在域中进行操作。域与用户的目标相关。例如，在天气域中，用户可以获得关于天气(例如，温度)的信息。类似地，在餐馆域中，用户可以获得供应特定类型食物的餐馆的名称、地址和/或电话号码。

每个域具有与该域相关联的槽类型(“槽”)。槽是变量，并且槽值是填充该槽的值。例如，在餐馆域中，食物类型可以是槽，并且食物的一种类型(例如，“意大利”)可以是针对该槽的槽值。在某些情形下，一个或多个槽值在对话过程中变化。在对话的回合中，口语对话***填充尽可能多的槽，以便可以获得信息(例如，查询数据库)来实现用户的目标。

对话的状态包括在特定时间点通过对话已经收集到的所有信息(例如，针对槽的值)。在意大利餐厅示例中，当对位于市中心的意大利餐厅的地址的请求是对话中的第一用户回合时，对话的状态包括针对食物类型槽的值“意大利”和针对位置槽的值“市中心”。机器基于那两个值并且基于要获得餐馆地址的目标来执行动作。例如，SDS可以向用户询问针对未填充槽的值或确认先前获得的值。

图1图示可以包括口语对话***的示例***。***100生成并控制对口语语言输入的响应。***100允许用户105通过客户端计算设备110(例如，使用语音到文本应用(STT)115)提交口语语言输入。客户端计算设备110可以包括或连接到接收口语语言输入的输入设备120。输入设备120可以是被配置为接收口语语言输入的任何合适类型的输入设备。在非限制性示例中，输入设备120是麦克风。

客户端计算设备110被配置为通过一个或多个网络(由网络130表示)访问一个或多个服务器计算设备(由服务器计算设备125表示)以与被存储在一个或多个存储设备(由存储设备140表示)上的口语对话***(SDS)交互。基于口语语言输入并且基于对话的状态，SDS135执行动作。该动作可以包括通过在客户端计算设备110中的输出设备145或连接到客户端计算设备110的输出设备145来(使用文本到语音应用115)询问用户105以获得更多信息或确认。输出设备145的一个示例是扬声器。

附加地或备选地，SDS 135可以使信息通过连接到客户端计算设备110的或者在客户端计算设备110中的另一输出设备150呈现给用户105。输出设备150的一个示例是显示器。

在一个或多个实施例中，客户端计算设备110是具有输入和输出设备120、145、150二者的个人或手持计算设备。例如，客户端计算设备110可以是以下之一：移动电话；智能手机；平板电脑；平板手机；智能手表；可穿戴计算机；个人电脑；台式电脑；笔记本电脑；游戏设备/电脑(例如，Xbox)；电视；等等。该示例客户端计算设备的列表仅用于示例目的，不应被视为限制。可以利用提供口语对话***和/或与口语对话***交互的任何合适客户端计算设备。

应理解，出于说明本方法和***的目的描述了图1，并且图1无意将本公开限制于特定的步骤序列或硬件或软件组件的特定组合。

图2是描绘操作口语对话***的方法的流程图。初始，如框200中所示，在用户回合期间接收口语语言输入。然后在框205处确定对话的状态。如前所述，对于给定目标，对话的状态包括在该点或时刻处累积的槽值(例如，在当前用户回合期间和在所有先前用户回合期间所获得的槽值)。接下来，如框210中所示，基于对话的状态确定并执行机器动作。重复此过程直到机器动作达到用户的目标。

本发明提供了使用两个训练阶段来训练SDS的***和方法。第一阶段被称为监督学习阶段，并且第二阶段被称为强化学习阶段。在一个实施例中，在第一和第二阶段期间，将对话的状态输入到神经网络或策略网络中，并且策略网络输出与针对该状态的可能动作相关联的概率。然后由SDS选择并执行具有最高概率的动作。如稍后将更详细描述的，可以在一个输出中集中地输出可能的动作(例如，一次输出所有动作)，或者可以将可能的动作输出为输出序列。对于给定对话的每个状态，重复该过程。给定的对话是用于训练SDS的多个对话之一。

图3是图示训练口语对话***的两阶段方法的流程图。初始，在第一阶段、监督学习阶段期间，利用已知的固定对话来训练策略网络以产生半训练的策略网络(框300)。与每个状态相对应的动作列表被给到策略网络。在对话的每个回合处，状态和最佳动作(例如，具有最高概率的动作)是已知的。策略网络进行学习以模拟响应于每个已知状态而采取的已知动作。将半训练的策略网络进行训练以具有第一级学习或训练。

当第一阶段完成时，该过程转到框305，其中第二阶段，即强化学习阶段，使用用户对话来训练所述半训练的策略网络。用户对话不是已知的固定对话。每个用户对话代表实际或模拟的对话，其中在每个回合处的状态和最佳动作(例如，具有最高概率的动作)是未知的。在一些实施例中，用户模拟器模拟对话的每个用户回合。第二阶段产生经训练的策略网络，与第一级学习相比，该网络具有更高或更加改进的第二级学习或训练。

本领域技术人员将认识到，第二级学习通常不是最后一级学习。在一些实施例中，SDS基于与现场或现实世界的用户的交互，继续学习。每当现实世界的用户例如通过询问信息来与SDS交互时，SDS(例如，策略网络)继续学习并改进，使得学习级别超过第二级训练或学习。

图4是描绘训练口语对话***以产生半训练的口语对话***的监督学习方法的流程图。在一些实施例中，给定数目的高质量对话被收集并在监督学习阶段中使用，以对策略网络教导针对每个状态的有效动作。针对每个对话中的每个回合执行该方法。

初始，如框400中所示，针对已知的固定对话中的回合，将状态输入到策略网络中。策略网络基于所接收的状态产生预测输出(框405)。预测输出包括响应于所接收的状态而能够执行的所有可能动作上的概率分布。由于已知所有可能动作的概率(预期输出)，因此将预测输出与预期输出相比较(框410)。重复块400、405和410，直到预测输出是可接受的。在一些实施例中，当预测输出和预期输出之间的分类交叉熵被最小化时，出现可接受的输出。在其他实施例中，重复框400、405和410，直到训练输出中的概率分布与预期输出中的概率分布相差在给定的误差裕度(例如，+/-某个百分比)。

图5是图示监督训练过程的框图。将已知的固定对话和相关联的状态500存储在一个或多个存储设备(由存储设备505表示)中。将存储设备505连接到策略网络510。在监督学习训练阶段期间，策略网络510从存储设备505接收给定对话中的每个状态(由箭头515表示)。在监督训练过程结束时，策略网络510是半训练的策略网络520。如前所述，半训练的策略网络具有第一级训练或学习。

图6是图示训练半训练的口语对话***的强化学习方法的流程图。对于在强化学习阶段中使用的每个对话中的每个回合执行该方法。初始，如框600中所示，将来自用户对话的用户回合输入到策略网络中。如前所述，用户对话不是已知的固定对话。每个用户对话代表实际或模拟的对话，其中在每个回合处的状态和最佳动作(例如，具有最高概率的动作)是未知的。

接下来，如框605和610中所示，SDS确定对话的状态，并且作为策略网络的神经网络在给定所确定的对话状态的情况下产生预测输出。在一个实施例中，预测输出包括响应于所确定的对话状态而能够执行的所有可能动作的概率。在这样的实施例中，动作的数目在数学上基于(槽的数目)乘以(可能的动作的数目)。(槽的数目)x(可能动作的数目)的积被称为动作空间。

在一些情形下，由于大量的槽和/或大量可能的动作导致动作空间可能很大。大的动作空间可能通过增加策略网络必须执行的计算次数而对训练过程产生不利影响，这反过来又增加了训练和学习所需的时间。因此，在其他实施例中，策略网络是可以输出动作序列(例如，概率序列)的递归神经网络。预测输出可以是与单个动作相关联的概率，并且策略网络在第二训练阶段期间产生输出序列。输出序列可以减少计算次数，并且因此减少训练所需的时间。不是将(槽的数目)乘以(可能的动作的数目)，而是执行加法，其中(槽的数目)与(可能动作的数目)相加。将获得较小的动作空间，这可以减少训练和学习所需的时间。此外，策略网络可以处理具有较少数据的复杂情况。

然后，由SDS基于对话的状态产生奖励，并由连接到策略网络的价值网络接收(框615)。价值网络在框620处生成优势函数或信号，其指示策略网络在确定预测输出中的成功。换句话说，如果SDS遵循预测输出，则优势信号指示结果状态的益处。与奖励相反，优势信号还捕获来自所有先前实验以及当前实验的信息。因此，它提供了关于策略网络的预测输出的更为准确的判断。在一些实施例中，价值网络是神经网络。

基于优势信号，策略网络学习产生概率分布，该概率分布指示或识别针对所确定状态的最佳动作。策略网络更有可能产生获得更高奖励级别的概率分布，并且更不可能产生接收较低奖励级别的概率分布。

还与策略网络并行地训练价值网络，以使用在每个所确定的对话状态下由SDS生成的奖励来产生更准确的优势信号。

框600、605、610和615重复，直到策略网络收敛。当策略网络产生获得给定奖励级别(例如，基本稳定或平稳的奖励级别)的概率分布时，发生收敛。

在一些实施例中，策略网络使用策略梯度算法来产生奖励。对于任何可微分的策略π_θ(b，a)，可以通过以下等式定义梯度：

其中

被称为优势函数，其中a和b表示所选动作和当前确定的状态(也称为置信)并且θ表示策略网络的权重向量。在一些实施例中，TD误差

被用作优势函数，其中R表示在给定时间t处的奖励，γ是[0,1]中的折扣因子，π是策略，并且

和

分别是在当前状态b和下一个确定的状态b’下的价值网络的输出。当采用TD误差时，可以仅使用一个价值网络。可以使用经验重放和目标网络二者来训练价值网络。对于转移B_t＝b，A_t＝a，R_t+1＝r，和B_t+1＝b'，优势函数被计算为

其中t表示给定时间并且ω表示价值网络的权重向量。

在一些实施例中，价值网络使用回归算法来产生价值函数，然后价值函数直接用于产生优势函数或信号。回归算法可以定义为

图7是图示强化学习过程的框图。将用户模拟器700连接到半训练的策略网络705和价值网络710。在强化学习训练阶段期间，由用户模拟器700产生的对话中的用户回合由半训练的策略网络705和价值网络710接收(分别由箭头715和720表示)。半训练的策略网络705产生由用户模拟器700接收的输出(由箭头725表示)。价值网络710产生由策略网络705接收的优势信号(由箭头730表示)。存储设备735可以存储由用户模拟器700使用的数据以产生对话中的用户回合。

图8是图示本公开的各方面可以在其中被实践的分布式***的框图。***800生成并控制对口语语言输入的响应。***800允许用户通过通用计算设备805(例如，个人计算机)、平板计算设备810或移动计算设备815提交口语语言输入。通用计算设备1005、平板计算设备1010和/或移动计算设备1015各自可以包括图1的客户端计算设备110中示出的组件。

通用计算设备805、平板计算设备810和移动计算设备815各自都被配置为访问一个或多个网络(由网络820表示)以与包括在一个或多个服务器计算设备(由服务器计算设备830表示)中的SDS 825交互。在一些方面中，服务器计算设备830和/或SDS 825可以在执行动作时访问和/或接收各种类型的信息或内容。信息和数据可以被存储在一个或多个存储设备(由存储设备835表示)中或者从诸如目录服务840、网络门户845、邮箱服务850、即时消息收发服务855和/或社交网络服务860之类的其他源被传输。在某些情况下，这些源可以提供鲁棒的报告、分析、数据汇编和/或存储服务等，而其他服务可以提供搜索引擎或对数据和信息、图像、视频、文档处理等等的其他访问。

虽然不一定是***800的一部分，但是训练引擎865被用于使用本文所公开的两阶段训练技术的各方面来训练SDS 825。训练引擎865包括先前描述的策略网络、(一个或多个)存储设备、用户模拟器和价值网络。被包括在SDS 825中的策略网络、(一个或多个)存储设备和价值网络可以复制被包括在训练引擎865中的策略网络、(一个或多个)存储设备和价值网络。

应理解，出于说明本方法和***的目的描述了图9，并且图9无意将本公开限制于特定的步骤序列或硬件或软件组件的特定组合。

例如，以上参考根据本公开的各方面的方法、***和计算机程序产品的框图和/或操作图示描述了本公开的各方面。框中标注的功能/动作可以不按任何流程图中所示的顺序发生。例如，连续示出的两个方框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能/动作。

本申请中提供的一个或多个方面的描述和说明无意以任何方式限制或局限本公开的范围。本申请中提供的各方面、示例和细节被认为足以传达占有权并使其他人能够制作和使用所要求保护的最佳模式。要求保护的公开内容不应被解释为局限于本申请中提供的任何方面、示例或细节。无论是组合地还是单独地示出和描述，旨在选择性地包括或省略各种特征(结构和方法)以产生具有特定特征集的实施例。在被提供了本申请的描述和说明时，本领域技术人员可以设想落入本申请中体现的总体发明构思的更广泛方面的精神内的变型、修改和替换方面，其没有脱离所要求保护的公开内容的更广范围。

Claims

1.一种***，包括：

口语对话***，包括：

策略网络，用于产生在响应于对话的给定状态而可执行的所有可能动作上的概率分布；和

可操作地连接到所述策略网络的价值网络，用于估计所述对话的给定状态，并且向所述策略网络提供指示所述策略网络的成功级别的优势信号；

存储设备，所述存储设备可操作地连接到所述策略网络并且存储用于在第一训练阶段中训练所述策略网络的一个或多个固定的已知对话；和

可操作地连接到所述策略网络和所述价值网络的用户模拟器，用于模拟一个或多个用户对话以在第二训练阶段中训练所述策略网络。

2.根据权利要求1所述的***，其中所述第一训练阶段产生半训练的策略网络，并且所述第二训练阶段产生经训练的策略网络。

3.根据权利要求1所述的***，其中所述策略网络和所述价值网络每一个均包括神经网络。

4.根据权利要求1所述的***，其中经训练的所述口语对话***由客户端计算设备访问。

5.一种方法，包括：

使用包括一个或多个固定对话的外部数据来训练口语对话***中的策略网络，以产生具有第一级训练的半训练的策略网络，在所述一个或多个固定对话中，在对话的每个回合处的机器动作是已知的；以及

通过与在对话的每个回合处的机器动作是未知的一个或多个对话的交互来训练所述半训练的策略网络，以产生具有第二级训练的经训练的策略网络，所述第二级训练大于所述第一级训练。

6.根据权利要求5所述的方法，其中使用一个或多个固定对话来训练所述策略网络包括：

从存储设备接收所述一个或多个固定对话中的固定对话的状态；

产生预测输出，所述预测输出包括在所有可能动作上的预测概率分布；以及

将所述预测输出与预期输出相比较，所述预期输出包括在所有所述可能动作上的已知概率分布。

7.根据权利要求6所述的方法，还包括重复接收、产生和比较的操作，以减小所述预测输出与所述预期输出之间的差异。

8.根据权利要求7所述的方法，其中重复接收、产生和比较的操作直到：

所述预测输出与所述预期输出之间的所述差异低于阈值。

9.根据权利要求5所述的方法，其中通过与在所述对话的每个回合处的所述机器动作是未知的一个或多个对话的交互来训练所述半训练的策略网络包括：使用用户模拟器来训练所述半训练的策略网络，所述用户模拟器模拟在所述对话的每个回合处的所述机器动作是未知的所述一个或多个对话。

10.根据权利要求9所述的方法，其中使用所述用户模拟器来训练所述半训练的策略网络包括：

从所述用户模拟器接收对话中的用户回合；

响应于接收到所述用户回合，确定所述对话的状态；

基于所确定的所述对话的所述状态来产生预测输出，所述预测输出包括所有可能动作上的预测概率分布或与一个可能动作相关联的概率；

从价值网络接收优势信号，所述优势信号表示与所述预测输出相关联的所述策略网络的成功级别。

11.根据权利要求10所述的方法，还包括重复接收、产生和接收的操作，直到所述半训练的策略网络实现相应的收敛。

12.根据权利要求10所述的方法，其中与所述一个可能动作相关联的所述概率被包括在与可能动作序列相关联的概率序列中。

13.根据权利要求7所述的方法，其中重复所述接收、产生和比较的操作，直到所述预测输出与所述预期输出之间的分类交叉熵最小化。

14.一种口语对话***，包括：

策略网络，所述策略网络被配置为产生在响应于对话的给定状态而可执行的一个或多个可能动作上的概率分布；以及

价值网络，所述价值网络连接到所述策略网络并且被配置为接收所述对话的所述给定状态，并且向所述策略网络提供指示所述概率分布的准确性的优势信号，

其中使用在对话的每个回合处的机器动作是已知的一个或多个固定对话和在对话的每个回合处的机器动作是未知的一个或多个模拟对话来训练所述策略网络。

15.根据权利要求14所述的口语对话***，其中在每个回合处的所述机器动作是未知的所述一个或多个对话包括从用户模拟器接收到的一个或多个模拟对话。

16.根据权利要求14所述的口语对话***，其中所述策略网络使用策略梯度算法来学习，以产生所述概率分布，所述策略梯度算法包括优势函数。

17.根据权利要求14所述的口语对话***，其中在所述一个或多个可能动作上的所述概率分布包括在所有可能动作上的概率分布。

18.根据权利要求14所述的口语对话***，其中在所述一个或多个可能动作上的所述概率分布包括在可能动作序列上的概率分布。

19.根据权利要求16所述的口语对话***，其中所述价值网络使用回归算法来产生所述优势函数。

20.根据权利要求14所述的口语对话***，其中所述策略网络和所述价值网络每一个均包括神经网络。