CN104462024B

CN104462024B - 生成对话动作策略模型的方法和装置

Info

Publication number: CN104462024B
Application number: CN201410594506.XA
Authority: CN
Inventors: 焦增涛; 汪冠春
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-10-29
Filing date: 2014-10-29
Publication date: 2018-07-13
Anticipated expiration: 2034-10-29
Also published as: CN104462024A

Abstract

本发明提供一种生成对话动作策略模型的方法和装置。所述方法包括：获取用户历史对话日志；结合目标任务的情景先验知识，对所述用户历史对话日志进行分析，挖掘出所述目标任务的多个第一***状态特征；将预设的所述目标任务的多个第二***状态特征与所述多个第一***状态特征结合，获得多个第三***状态特征；以从所述用户历史对话日志抽取的标注数据作为训练样本，以所述多个第三***状态特征作为训练特征建立动作决策模型并进行模型训练，学习各个第三***状态特征的参数向量。在统一的框架下指导细颗粒度对话策略的学习，为用户提供更精准的结果及最符合目标任务需求的对话策略，从而提高用户体验。

Description

生成对话动作策略模型的方法和装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种生成对话动作策略模型的方法和装置。

背景技术

在互联网迅速普及的时代，即时通讯对话***逐步走进人们的生活，为人们的生活带来更大的便利，而其对话策略则是影响用户体验的关键。

现有对话***的对话策略主要是基于规则和基于统计模型进行设计和应用。但是，基于规则的方法需要规则制定者有很好的背景知识，另外，随着规则涉及的因素增加，处理逻辑变得复杂，效果不能达到最优状态，从而影响用户体验；而现有的基于统计模型的对话***，均未能合理利用对话涉及的信息，不能指导对话***完成细颗粒度的对话策略。

发明内容

本发明的目的在于提供一种生成对话动作策略模型的方法和装置，利用丰富的状态特征作为训练特征建立动作决策模型并进行模型训练，从而在统一的框架下指导细颗粒度对话策略的学习。

根据本发明的一方面，提供一种生成对话动作策略模型的方法，所述方法包括：获取用户历史对话日志；结合目标任务的情景先验知识，对所述用户历史对话日志进行分析，挖掘出所述目标任务的多个第一***状态特征；将预设的所述目标任务的多个第二***状态特征与所述多个第一***状态特征结合，获得多个第三***状态特征；以从所述用户历史对话日志抽取的标注数据作为训练样本，以所述多个第三***状态特征作为训练特征建立动作决策模型并进行模型训练，学习各个第三***状态特征的参数向量。

根据本发明的另一方面，提供一种生成对话动作策略模型的装置，所述装置包括：日志获取单元，用于获取用户历史对话日志；状态获取单元，用于结合目标任务的情景先验知识，对所述用户历史对话日志进行分析，挖掘出所述目标任务的多个第一***状态特征；状态结合单元，用于将预设的所述目标任务的多个第二***状态特征与所述多个第一***状态特征结合，获得多个第三***状态特征；决策模型生成单元，用于以从所述用户历史对话日志抽取的标注数据作为训练样本，以所述多个第三***状态特征作为训练特征建立动作决策模型并进行模型训练，学习各个第三***状态特征的参数向量。

根据本发明的示例性实施例的生成对话动作策略模型的方法和装置，有效利用对话的情景先验特征和基于对话日志分析用户行为特征，从而得到丰富的***状态特征用以建立和训练动作决策模型，在统一的框架下指导细颗粒度对话策略的学习，以为用户提供更精准的结果及最符合目标任务需求的对话策略，从而提高用户体验。

附图说明

图1是示出根据本发明的示例性实施例的生成对话动作策略模型的方法的流程图。

图2是示出本发明的示例性实施例的生成对话动作策略模型的方法的用户历史对话日志的示例数据。

图3是示出本发明的示例性实施例的情景先验特征的示例图。

图4是示出本发明的示例性实施例的第三***状态特征的示例图。

图5是示出本发明的示例性实施例的基于马可夫决策过程的决策模型示例图。

图6是示出本发明的示例性实施例的生成对话动作策略模型的装置的逻辑框图。

具体实施方式

本发明的总体构思是，结合模板任务的情景先验知识，对用户历史对话日志进行分析，挖掘出该目标任务的多个新的***状态特征(第一***状态特征)，将其与传统状态特征(第二***状态特征)结合，获得丰富的***状态特征(第三***状态特征)，用该丰富的***状态特征，基于用户历史对话日志抽取的标注数据获得的训练样本，建立动作决策模型以进行模型训练，从而在统一的框架下指导细颗粒度对话策略的学习，增强对话任务的用户体验。

下面结合附图对根据本发明的示例性实施例的生成对话动作策略模型的方法和装置进行详细描述。

参照图1，在步骤S110，获取用户历史对话日志。

根据本发明的示例性实施例，用户历史对话日志可以是对话***中为完成目标任务而发起的多轮对话。

图2是示出本发明的示例性实施例的生成对话动作策略模型的方法的用户历史对话日志的示例数据。图2示出的是用户在执行预订机票任务的对话记录。

参照图2，所述用户历史对话日志的数据包括，但不限于：对话发生的日期(例如，06-13)、时间(例如，09:08)、用户的身份ID(例如，USER_04E15FFC$D261B6D2032B6316CBD36F4)、用户查询词(例如，图中的“定去南京的机票”)以及***返回结果(例如，目的地南京，出发地马鞍山，出发日期2014-07020)。在实际应用中，可以根据不同的对话任务，获取不同的用户历史对话日志以及日志中的相应数据。

在步骤S120，结合目标任务的情景先验知识，对用户历史对话日志进行分析，挖掘出目标任务的多个第一***状态特征。

具体地，所述挖掘出目标任务的多个第一***状态特征包括：根据所述用户历史对话日志统计多项用户行为特征在所述目标任务的预选特征上的分布状态；进一步地，根据所述多项用户行为特征在所述目标任务的预选特征上的分布状态对所述目标任务的情景先验特征进行验证，从所述情景先验特征提取所述多个第一***状态特征(新的***状态特征)。所述预选特征是预先选择的与任务的执行具有密切关联的对话状态特征。例如，在预订机票的任务中，所述预选特征可以是“出发地”、“目的地”等。

其中，所述多项用户行为特征包括以下统计特征中的至少一个：用户完成目标任务查询的比例、用户未完成目标任务查询的比例、用户得到查询结果后继续对话的比例、用户明确表达无意愿的比例、平均对话交互轮数。因此，例如，可统计用户完成机票预订查询的比例在出发地特征上的分布、用户未完成机票预订查询的比例在出发地特征上的分布、用户完成机票预订后继续对话(如订酒店)的比例等等。

图3是示出本发明的示例性实施例的情景先验特征的示例图。

所述情景先验特征包括可能对***返回结果的效果产生影响的各类要素，如图3所示，例如：时间先验信息(例如，用户对话的时间、日期等)、地域先验信息(例如，用户对话所在城市，该城市的规模类型、是否为旅游区或工业城市)和历史动作信息(例如，用户对话过程中，上次确认到现在的对话轮次、上次澄清到现在的对话轮次或上次询问道现在的对话轮次等)，本领域技术人员可以理解的是，对于一个目标任务而言，可能有不同的因素影响对话效果，例如，订机票任务，用户在星期几、一周内不同时间、不同出发地、不同目的地、上次特定动作距离当前动作的对话轮次等都可以作为情景先验知识。

具体而言，对于时间先验信息来说，例如，深夜订机票的用户比傍晚订机票的用户更倾向于完整提交订票需求信息，且两个时间的其他各项用户行为特征也有明显区别；而对于地域先验信息的理解，例如，从旅游景区出发的用户比预定去旅游景区机票的用户有更高的户完成目标任务查询的比例，更低的用户未完成目标任务查询的比例、用户得到查询结果后继续对话的比例、用户明确表达无意愿的比例、平均对话交互轮数，可能的原因是从旅游景区出发一般都迫切需要回去，而去旅游景区的用户有可能只是浏览结果，然后再做决定；此外，在用户对话体验中，信息确认、澄清等***动作的频次均会影响用户体验，进而影响用户行为数据，总结来说，即统计***的历史动作信息也是必要的。

在步骤S130，将预设的所述目标任务的多个第二***状态特征与步骤S120中获取的多个第一***状态特征结合，获得多个第三***状态特征(也即丰富的***状态特征，其中，该多个第三***状态特征分别表示为特征向量)，从而形成更完善的***状态向量。

根据本发明的示例性实施例，在步骤S130中，所述多个第二***状态特征为传统***状态特征(可以，但不限于用特征属性槽位状态来表示)，例如，属性槽位的填充状态以及填充类型等，具体举例来说，在一订机票任务中，目的地属性槽位是否填充(是否赋值)或是否为有歧义的赋值，亦或是否为一个置信度高的值等。

进一步地，将预设的所述目标任务的多个第二***状态特征与所述多个第一***状态特征结合，得到第三***状态特征，并以特征向量的形式将所述第三***状态特征输出，该特征向量根据不同维度表示不同的意义类型，如图4所示，其包括预设的传统***状态特征(第二***状态特征)以及新增的时间先验信息、地域先验信息和历史动作信息，如此，不仅能够表达***任务本身的逻辑，还能描述更符合用户行为特征的个性细颗粒度的对话策略，其中，传统***状态特征、时间先验信息、地域先验信息和历史动作信息均用表示为特征向量。

在步骤S140，以步骤S130中得到的多个第三***状态特征作为训练特征建立动作决策模型并进行模型训练，学习各个第三***状态特征的参数向量，此外，以从用户历史对话日志抽取的标注数据作为训练样本。

具体地，在步骤S140中，基于新的***状态特征(第一***状态特征)和从用户历史对话日志中统计的用户行为特征，将原始***日志格式化为训练模型需要的样本格式，其中，在该步骤中，以训练样本作为输入，以动作决策作模型为输出。

根据本发明的优选实施例，所述动作决策模型是基于马可夫决策过程(MDP)的模型或基于部分可观察马可夫决策过程(POMDP)的模型，且每个所述训练样本包括多个第三***状态特征的参数值、动作数据以及对所述动作标注的奖励得分。

如图5所示，以基于马可夫决策过程(MDP)的模型为例进行示例性描述。具体地，为本发明的示例性实施例的基于马可夫决策过程的决策模型示例图，一轮对话过程可以表示为基于当前的***状态s₁，***做出动作a₁，且针对该动作，外界环境给出对***动作的奖励r₁，用户给出下一个查询词(即用户需求)后，***进入下一个***状态s₂,，并重复上述过程，直到对话结束(例如，图中示出的奖励r₃)。

其中，***状态s_i可以是从一条对话日志按新的状态向量描述生日，***做出的动作a_i可以从用户历史对话日志中直接提取，奖励r_i可以根据用户行为特征拟合得到，也可以通过人工标注的方式得到，i表示个数。

具体地，采用函数逼近的方式估计马可夫决策过程(MDP)的模型或部分可观察马可夫决策过程(POMDP)的模型的Q值函数其中，是表示一个特征函数，将一对***状态s和***动作a组合映射到一个K维空间，θ为动作决策模型，线下模型训练的目标就是基于训练语料学习动作决策模型θ)，再用时间差分计算来学习模型参数，通过不断迭代(迭代公式如：Q(s_t，a_t)＝ Q(s_t，a_t)+α(r_t+1+γQ(s_t+1，a_t+1)-Q(s_t，a_t))，其中，α为学习步长，γ为折扣系数，r_t+1为在t+1时刻外界环境对***动作的奖励，奖励根据***的用户行为特征得到)，学习近似最优模型参数向量，从而输出对应的动作决策模型。

进一步地，基于训练得到的决策模型θ，从当前状态s得到***动作 a的过程就是***决策，***进行动作决策时，先使用中的函数将***状态特征和任一个有效动作映射到K维空间，再基于决策模型θ，得到各动作对应的Q函数值，取最大Q值对应的动作为***动作输出。

为使本发明的技术方案更易于理解，在此，将采用应用本发明技术方案的示例对本发明技术方案进一步说明，应用实例如下：

场景1：假设用户在北京和***进行对话。

用户：帮我订一张去三亚的经济舱机票。

***：好的，帮您找到明天从北京到三亚的经济舱飞机票如下，您还有什么其他需求吗？

如场景1中对话，用户身在大都市(北京)，目的地位旅游景区(三亚)，经过模型迭代训练，可以学到激进的默认赋值对话策略，自动将GPS地址(北京)作为出发地，出发日期定为“明天”，以达到快速展示结果，供用户筛选的目的。

场景2：假设用户在三亚和***对话。

用户：帮我订一张回北京的经济舱机票。

***：好的，去北京的经济舱机票，你从哪里出发？想什么时候走呢？

用户：明天上午从三亚出发。

***：帮您找到结果如下(显示结果)，您想找几点的机票？

如场景2中对话，经过统计学习，可以学习到如下策略，用户在旅游进去的时候订机票，一般都有明确的返程计划，***则可以详细询问各项细化需求(例如，“你从哪里出发？想什么时候走呢？”、“您想找几点的机票？”)，以为用户提供更精准结果。

以如上两个地域先验信息的应用场景作为示例进行说明，而关于时间先验信息和历史动作信息的应用场景，通过本发明技术方案，也可以学习最符合目标任务需求的细颗粒度的对话策略。

根据本发明的示例性实施例的生成对话动作策略模型的方法，有效利用对话的情景先验特征和基于对话日志分析用户行为特征，从而得到丰富的***状态特征用以建立和训练动作决策模型，在统一的框架下指导细颗粒度对话策略的学习，以为用户提供更精准的结果及最符合目标任务需求的对话策略，从而提高用户体验。

参照图6，根据本发明的示例性实施例的生成对话动作策略模型的装置包括日志获取单元610、状态获取单元620、状态结合单元630以及决策模型生成单元640。

日志获取单元610用于获取用户历史对话日志。

状态获取单元620用于结合目标任务的情景先验知识，对所述用户历史对话日志进行分析，挖掘出所述目标任务的多个第一***状态特征。

根据本发明的优选实施例，状态获取单元620还包括统计单元(图中未示出)和状态特征提取单元(图中未示出)。所述统计单元用于根据所述用户历史对话日志统计多项用户行为特征在所述目标任务的预选特征上的分布状态；所述状态特征提取单元用于根据所述多项用户行为特征在所述目标任务的预选特征上的分布状态，对所述目标任务的情景先验特征进行验证，从所述情景先验特征提取所述多个第一***状态特征。

其中，所述多项用户行为特征包括以下统计特征中的至少一个：用户完成目标任务查询的比例、用户未完成目标任务查询的比例、用户得到查询结果后继续对话的比例、用户明确表达无意愿的比例、平均对话交互轮数。

此外，所述目标任务的情景先验特征包括时间先验信息、地域先验信息和历史动作信息。

状态结合单元630用于将预设的所述目标任务的多个第二***状态特征与所述多个第一***状态特征结合，获得多个第三***状态特征。

根据本发明的另一优选实施例，所述状态结合单元包括状态特征表示单元(图中未示出)用于将所述多个第三***状态特征分别表示为特征向量。

决策模型生成单元640用于以从所述用户历史对话日志抽取的标注数据作为训练样本，以所述多个第三***状态特征作为训练特征建立动作决策模型并进行模型训练，学习各个第三***状态特征的参数向量。

进一步地，所述动作决策模型是基于马可夫决策过程(MDP)的模型或基于部分可观察马可夫决策过程(POMDP)的模型，此外，在决策模型生成单元640应用到的每个所述训练样本包括多个第三***状态特征的参数值、动作数据以及对所述动作标注的奖励得分。

根据本发明的示例性实施例的生成对话动作策略模型的装置，有效利用对话的情景先验特征和基于对话日志分析用户行为特征，从而得到丰富的***状态特征用以建立和训练动作决策模型，在统一的框架下指导细颗粒度对话策略的学习，以为用户提供更精准的结果及最符合目标任务需求的对话策略，从而提高用户体验。

需要指出，根据实施的需要，可将本申请中描述的各个步骤拆分为更多步骤，也可将两个或多个步骤或者步骤的部分操作组合成新的步骤，以实现本发明的目的。

上述根据本发明的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种生成对话动作策略模型的方法，其特征在于，所述方法包括：

获取用户历史对话日志；

结合目标任务的情景先验知识，对所述用户历史对话日志进行分析，挖掘出所述目标任务的多个第一***状态特征；

将预设的所述目标任务的多个第二***状态特征与所述多个第一***状态特征结合，获得多个第三***状态特征；

以从所述用户历史对话日志抽取的标注数据作为训练样本，以所述多个第三***状态特征作为训练特征建立动作决策模型并进行模型训练，学习各个第三***状态特征的参数向量，

其中，所述结合目标任务的情景先验知识，对所述用户历史对话日志进行分析，挖掘出所述目标任务的多个第一***状态特征的步骤包括：

根据所述用户历史对话日志统计多项用户行为特征在所述目标任务的预选特征上的分布状态，

根据所述多项用户行为特征在所述目标任务的预选特征上的分布状态对所述目标任务的情景先验特征进行验证，从所述情景先验特征提取所述多个第一***状态特征。

2.根据权利要求1所述的方法，其特征在于，所述多项用户行为特征包括以下统计特征中的至少一个：用户完成目标任务查询的比例、用户未完成目标任务查询的比例、用户得到查询结果后继续对话的比例、用户明确表达无意愿的比例、平均对话交互轮数。

3.根据权利要求2所述的方法，其特征在于，所述目标任务的情景先验特征包括时间先验信息、地域先验信息和历史动作信息。

4.根据权利要求3所述的方法，其特征在于，所述将预设的所述目标任务的多个第二***状态特征与所述多个第一***状态特征结合，获得多个第三***状态特征的步骤还包括：

将所述多个第三***状态特征分别表示为特征向量。

5.根据权利要求4所述的方法，其特征在于，所述动作决策模型是基于马可夫决策过程(MDP)的模型或基于部分可观察马可夫决策过程(POMDP)的模型。

6.根据权利要求5所述的方法，其特征在于，每个所述训练样本包括多个第三***状态特征的参数值、动作数据以及对所述动作标注的奖励得分。

7.一种生成对话动作策略模型的装置，其特征在于，所述装置包括：

日志获取单元，用于获取用户历史对话日志；

状态获取单元，用于结合目标任务的情景先验知识，对所述用户历史对话日志进行分析，挖掘出所述目标任务的多个第一***状态特征；

状态结合单元，用于将预设的所述目标任务的多个第二***状态特征与所述多个第一***状态特征结合，获得多个第三***状态特征；

决策模型生成单元，用于以从所述用户历史对话日志抽取的标注数据作为训练样本，以所述多个第三***状态特征作为训练特征建立动作决策模型并进行模型训练，学习各个第三***状态特征的参数向量，

其中，所述状态获取单元包括：

统计单元，用于根据所述用户历史对话日志统计多项用户行为特征在所述目标任务的预选特征上的分布状态，

状态特征提取单元，用于根据所述多项用户行为特征在所述目标任务的预选特征上的分布状态对所述目标任务的情景先验特征进行验证，从所述情景先验特征提取所述多个第一***状态特征。

8.根据权利要求7所述的装置，其特征在于，所述多项用户行为特征包括以下统计特征中的至少一个：

用户完成目标任务查询的比例、用户未完成目标任务查询的比例、用户得到查询结果后继续对话的比例、用户明确表达无意愿的比例、平均对话交互轮数。

9.根据权利要求8所述的装置，其特征在于，所述目标任务的情景先验特征包括时间先验信息、地域先验信息和历史动作信息。

10.根据权利要求9所述的装置，其特征在于，所述状态结合单元包括：

状态特征表示单元，用于将所述多个第三***状态特征分别表示为特征向量。

11.根据权利要求10所述的装置，其特征在于，所述动作决策模型是基于马可夫决策过程(MDP)的模型或基于部分可观察马可夫决策过程(POMDP)的模型。

12.根据权利要求11所述的装置，其特征在于，每个所述训练样本包括多个第三***状态特征的参数值、动作数据以及对所述动作标注的奖励得分。