CN113111241B

CN113111241B - 一种博弈对话中基于对话历史和强化学习的多轮对话方法

Info

Publication number: CN113111241B
Application number: CN202110378191.5A
Authority: CN
Inventors: 庄越挺; 汤斯亮; 程广钊; 谭炽烈; 肖俊; 李晓林; 蒋韬
Original assignee: Zhejiang University ZJU; Tongdun Holdings Co Ltd
Current assignee: Zhejiang University ZJU; Tongdun Holdings Co Ltd
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2022-12-06
Anticipated expiration: 2041-04-08
Also published as: CN113111241A

Abstract

本发明公开了一种博弈对话中基于对话历史和强化学习的多轮对话方法，属于智能体和强化学习模型领域。该方法包括如下步骤：首先将多轮对话作为一个有限重复博弈的过程，存储已经结束的完整多轮对话，构建既往对话历史信息库；然后在一个新的多轮对话中，基于记忆网络构建对手行动估计模型，用当前对话已经进行的轮次去检索对话历史信息库，通过多步估计产生对手下一步策略的估计向量；最后基于编码‑解码模型融合当前对话的信息和估计向量，做出下一步的应答。本发明在多轮对话过程中，将既往对话历史的估计向量和当前对话历史的回应向量进行融合，能够更充分地利用了历史信息，使得对话机器人(智能体)具备更高的适应性、做出更好的应答。

Description

一种博弈对话中基于对话历史和强化学习的多轮对话方法

技术领域

本发明涉及智能体和强化学习模型领域，尤其涉及一种智能体多轮对话的方法。

背景技术

拥有一个虚拟助理或一个拥有足够智能的聊天伙伴***似乎是虚幻的，可能只在科幻电影中存在。然而，近年来，人机对话因其潜力和诱人的商业价值而受到越来越多研究者的关注。随着大数据和深度学习技术的发展，创建一个自动的人机对话***作为我们的私人助理或聊天伙伴，将不再是一个幻想。当前，对话***在各个领域越来越引起人们的重视，深度学习技术的不断进步极大地推动了对话***的发展。对于对话***，深度学习技术可以利用大量的数据来学习特征表示和回复生成策略，这其中仅需要少量的手工操作。现如今，我们可以很容易地访问网络上对话的“大数据”，我们也许能够学习如何回复，以及如何回复几乎任何的输入，这将极大地允许我们在人类和计算机之间建立数据驱动的、开放的对话***。另一方面，深度学习技术已经被证明是有效的，可以在大数据中捕获复杂的模式，并拥有大量的研究领域，如计算机视觉、自然语言处理和推荐***等。

从应用的角度看，对话***大致可以分为两类：(1)task-oriented systems(任务型对话***)；(2)non-task-oriented systems(聊天型对话***)。但现实世界中的对话***(如谈判和讨价还价)是具有挑战性的任务。对手通常有种不同的方式，而且是多轮对话，但轮次的数量有限。但是，目前的研究很少使用以前的交互(历史信息)。

多轮对话可以看作是一个有限重复博弈的过程，对话的历史包含两部分，第一部分是已经结束了的完整多轮对话(称为既往对话历史)，第二部分是当前多轮对话的已经进行的轮次(称为当前对话历史)。目前的对话***只专注于对当前对话历史的利用，却忽略了既往对话历史。因此，如何在博弈对话过程中，充分利用历史信息，更好地作出应答，是目前亟待解决的技术问题。

既往对话历史是一个完整的对话过程，既往对话历史信息库存储了面对不同对手时的完整对话，显然这些历史信息是重要的。在一个新的多轮对话(例如对话博弈、讨价还价等场景)中，可以利用这些既往对话历史去推断对手的类型的策略，以便更好地做出应答。

发明内容

本发明的目的是提供一种博弈对话中基于对话历史和强化学习的多轮对话方法，使得智能体在对轮对话机器人中具有快速适应的能力，更快推断对手的类型和策略，以便做出应答。

为了实现上述发明目的，本发明具体采用以下技术方案：

一种博弈对话中基于对话历史和强化学习的多轮对话方法，其包括以下步骤：

S1：将多轮对话作为一个有限重复博弈的过程，存储已经结束的完整多轮对话，构建既往对话历史信息库；

S2：在一个已经进行但尚未完成的当前多轮对话中，获取当前多轮对话中已经进行的轮次作为当前对话历史，在所述既往对话历史信息库中检索到与所述当前对话历史最相似的若干完整多轮对话作为既往历史数据；然后在基于以记忆网络为框架构建的对手行动估计模型中，将所述当前对话历史作为查询，将所述既往历史数据作为被查询内容，通过多步推理产生一个对手后续行动的估计向量；

所述对手行动估计模型预先经过训练，使其输出的对手后续行动的估计向量能代表对手后续行动的实际向量；

S3：将所述当前对话历史和所述对手后续行动的估计向量输入经过训练的编码-解码模型中，做出下一步的应答。

作为优选，所述对手行动估计模型为一步对手行动估计模型，其输出的估计向量为代表对手下一步行动的估计向量。

作为优选，所述对手行动估计模型为多步对手行动估计模型，其输出的估计向量为代表对手在当前多轮多行中后续所有行动的估计向量。

作为优选，当一个新的多轮对话开始时，前若干轮对话按照多轮对话模型直接给出应答，而不基于所述当前对话历史进行应答；在其余的对话轮次中，再将当前多轮对话中已经进行的轮次作为当前对话历史按照S2和S3进行下一步应答。

进一步的，当一个新的多轮对话开始时，按照多轮对话模型直接给出应答的轮次为前3～5轮。

作为优选，所述编码-解码模型中，将基于所述当前对话历史得到的向量与所述对手后续行动的估计向量进行融合编码，然后再利用神经网络解码成自然语言或者行动，做出下一步的应答。

进一步的，所述编码-解码模型中，融合编码的方式为将向量直接拼接或者通过自注意力机制进行融合。

作为优选，所述编码-解码模型中，编码部分采用基于层次的编码器，解码部分采用多层前馈神经网络。

作为优选，对所述对手行动估计模型进行训练时，将所述当前对话历史输入对手行动估计模型中，产生一个对手后续行动的估计向量，同时将所述既往历史数据中每个多轮对话的后续行动输入FusionNet神经网络中，产生一个对手后续行动的实际向量，通过优化模型参数使这两个向量无限接近。

作为优选，所述多轮对话为任务型对话和聊天型对话。

本发明在多轮对话过程中，将既往对话历史的估计向量和当前对话历史的回应向量进行融合，能够更充分地利用了历史信息，使得对话机器人(智能体)具备更高的适应性、做出更好的应答。本发明可以作为一个架构，用于完全可以融合之前多轮对话的方法或者模型，也可以结合当前对话领域最新的研究方法，具有较好的扩展性。

附图说明

图1为一种博弈对话中基于对话历史和强化学习的多轮对话方法的流程图。

图2为一步对手行动估计模型示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

在博弈对话(例如讨价还价)中，每次面对的对手的类型可能是不同的，对手的策略可能是变化的。在新的对话中，如何快速地推断对手的类型和策略，做出最有利的回应，是一个挑战。

本发明提供的方法在涉及此类博弈对话或者对方的策略和类型多变的情况下尤为适用。在重复博弈中，博弈历史是决策和击败对手的主要基础。历史信息是一种特殊的知识形式，判断对手的类型、推断不完整的信息以及预测对手的行为都取决于此。在没有来自对手的其他附加信息的情况下，历史信息可以说是唯一的基础。在现实世界中的互动(如谈判和讨价还价)是具有挑战性的任务，对手通常有种不同的方式，而且互动的轮次通常是多重的，但数量有限。但是，目前的研究很少使用以前的交互(历史信息)。面对各种各样的对手或策略，如何使智能体迅速适应是一个个重要问题。许多新策略都是旧策略的集成或变种，因此我们可以使用历史信息来使智能体具有快速的适应性。

有限重复博弈是一个基本博弈(或者称为阶段博弈)重复有限的次数，多轮对话可以看作是一个有限重复博弈的过程，对话的历史包含两类，第一类是已经结束了的完整多轮对话(称为既往对话历史)，第二类是当前多轮对话的已经进行的轮次(称为当前对话历史)。因此对于多轮对话来说，可以利用的信息不仅有前几轮的对话历史，还可以利用之前的对话信息。本发明对这两类历史信息同时进行了有效地利用，使得对话机器人(智能体)具备更高的适应性、做出更好的应答。下面将具体对本发明的实现形式进行详细说明。

参见图1所示，在本发明的一个较佳实施例中，提供了一种博弈对话中基于对话历史和强化学习的多轮对话方法，其包括以下步骤：

S1：将多轮对话作为一个有限重复博弈的过程，收集智能体中已经结束的完整多轮对话并存储，构建既往对话历史信息库。考虑到存储容量的限制，可以对完整多轮对话进行筛选，一般在整个有限重复博弈结束后可以得到最终的得分，选择部分得分高的典型完整多轮对话进行存储。之前的已经结束了的对话历史给了智能体决策的基础，因此构建既往对话历史信息库时刻将之前完整的对话信息存储起来并作标注，而剩余的当前对话历史则可以用于下一步的查询。

S2：在一个已经进行若干轮次但尚未完成的多轮对话(记为当前多轮对话)中，获取当前多轮对话中已经进行的轮次作为当前对话历史，在上述既往对话历史信息库中检索到与上述当前对话历史最相似的若干完整多轮对话作为既往历史数据，检索的时候只比较既往历史的前m轮相似度(m为当前多轮对话中已进行的对话轮次)。与当前对话历史相似度最高的若干完整多轮对话就可以作为检索结果，其中相似度计算的方法可以采用文本相似度等方式，首先将对话(文本)转换为词向量(word embedding)，然后再计算词向量间的余弦相似度，当然也可采用其他方式计算相似度。然后，以记忆网络(Memory Network)为框架构建并训练得到一个对手行动估计模型(Opponent Action Estimator，OAE)，在该对手行动估计模型中，可将上述当前对话历史作为查询(query)，将既往历史数据作为被查询内容，进而通过多步推理产生一个对手后续行动的估计向量。

需要注意的是，上述对手行动估计模型在实际使用前需要预先经过训练，使其输出的对手后续行动的估计向量能代表对手后续行动的实际向量，即两个向量无限接近。

在本实施例中，对手行动估计模型进行训练时，将训练数据中的当前对话历史输入对手行动估计模型(即记忆网络框架)中，产生一个对手后续行动的估计向量，同时将既往历史数据中每个多轮对话的后续行动输入FusionNet神经网络中，产生一个对手后续行动的实际向量，通过优化模型参数使这两个向量无限接近。假设当前会话中已经进行的轮次为m，那么输入FusionNet神经网络的后续行动也就是已结束的完整多轮对话中第m+1轮对话或者m+1轮及以后所有的对话历史。

此处对手后续行动需要根据智能体需要预测的后续行动情况具体确定，假设当前多轮对话中已进行的对话轮次为m，那么只预测第m+1轮称为一步对手行动估计(One-StepOpponent Action Estimator，O-OAE)，预测m+1轮及以后所有的行动称为多步对手行动估计(Multi-Steps Opponent Action Estimator，M-OAE)。

由此在本发明的上述多步推理中，是通过以记忆网络为框架构建并训练得到的一个对手行动估计模型来实现的。如图2所示，在该对手行动估计模型中，上述当前对话历史作为查询，既往历史数据作为被查询内容，记忆网络可以采用三步(甚至多步)进行推理，推理过程如下：首先通过得编码矩阵到既往历史和当前历史的词向量后，进行softmax操作计算他们的相似度，得到对既往历史的相关权重，然后再次对既往历史用不同的编码矩阵进行编码并和相关权重进行加权求和，这是一步推理。多步推理将重复进行上面的操作，但是每步推理对既往历史的编码矩阵是不同的。最后产生一个对手后续行动的估计向量。

S3：将上述当前对话历史和S2中由对手行动估计模型输出的对手后续行动的估计向量，一起输入经过训练的编码-解码(Encoder-Decoder)模型中，做出下一步的应答。

在上述S1～S3过程中，当前多轮对话需要依赖于已经进行的轮次作为当前对话历史，但是在一个新的多轮对话开始的时候，前几轮由于信息过少，因此利用当前对话历史并不准确。因此，在一个新的多轮对话开始的时候，前几轮对话可以按照多轮对话模型直接给出应答，而不基于所述当前对话历史进行应答；在其余的对话轮次中，再将当前多轮对话中已经进行的轮次作为当前对话历史按照S2和S3进行下一步应答。此处，所谓的多轮对话模型是对话机器人中应用本发明之前自有的智能体，其可按照既有的方法和模型产生回应。

在一个新的多轮对话开始的时候，按照多轮对话模型直接给出应答的轮次m可根据对话的总轮数决定，通常可设定为3到5轮。前3到5轮对话可以按照既有的方法和模型产生回应，在3到5轮对话之后，就可以利用本发明S2～S3的架构，把前m轮的对话在既往对话历史信息库中检索到与当前m轮对话历史最相似的K条既往对话历史(K取值根据实际进行优化调整)，然后基于对手行动估计模型进行估计。

前述的编码-解码模型的作用是将当前对话历史编码成向量，与S2中得到的对手后续行动的估计向量进行融合编码，然后再利用神经网络解码成自然语言或者行动(具体为自然语言还是行动需要根据对话的形式而定)，做出下一步的应答。融合编码可以采用不同的方式，例如可以将向量进行直接拼接(concat)或者通过自注意力机制(self-attention)进行融合编码。编码-解码模型的具体形式可以是多样的，只要能实现相应功能即可。在本实施例的编码-解码模型中，编码部分采用基于层次的编码器，解码部分采用多层前馈神经网络。当前历史通过层次编码器进行编码然后和当前历史进行融合，最后通过多层前馈神经网络产生下一步的行动。所以此发明是一个架构，里面完全可以融合之前多轮对话的方法或者模型，也可以结合当前对话领域最新的研究方法。面对不同种类的博弈问题时，不同博弈问题的收益矩阵(收益函数)是不同的，但是对手行动估计模型独立于具体的博弈问题，只要既往历史和当前历史属于同一个博弈问题，此模块就可以被复用。

本发明提出的多轮对话方法，优势在于更充分地利用了历史信息，提高对话机器人(智能体)的适应性和应答准确性。目前的对话机器人主要分为任务型对话机器人和聊天型对话机器人。

任务型对话机器人的目标是帮助用户完成一个具体的任务(比如订餐、订机票等)，在完成的任务的前提下，对话的轮次越少越好。本发明可以充分利用既往历史信息库，在历史信息的指导下可以提出更具有针对性和适应性的问题，缩短对话轮次，更快帮助用户完成任务，提升用户使用体验。而且本发明可以在不同种类的对话机器人上进行快速迁移，比如使用基于订餐对话机器人来快速构建订票机器人。

聊天型对话机器人主要是和用户闲聊，但是目前的聊天对话机器人主要存在应答单一、语言重复、轮次太短等问题。本发明区别于其他聊天型对话机器人的基于检索的模型，通过丰富的历史信息库可以提供更多样化的应答，多步推理模型(对手行动估计模型)使得对话机器人具备了简单的逻辑推理、问题迁移的能力，针对不同的用户类型做出特定风格的应答，使得对话机器人更加智能和人性化。

实际应用结果表明，本发明提供的博弈对话中基于对话历史和强化学习的多轮对话方法，能够使得上述两种对话机器人具备更高的适应性、做出更好的应答。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种博弈对话中基于对话历史和强化学习的多轮对话方法，其特征在于，包括以下步骤：

所述对手行动估计模型预先经过训练，使其输出的对手后续行动的估计向量能代表对手后续行动的实际向量；对所述对手行动估计模型进行训练时，将所述当前对话历史输入对手行动估计模型中，产生一个对手后续行动的估计向量，同时将所述既往历史数据中每个多轮对话的后续行动输入FusionNet神经网络中，产生一个对手后续行动的实际向量，通过优化模型参数使这两个向量无限接近；

2.如权利要求1所述的博弈对话中基于对话历史和强化学习的多轮对话方法，其特征在于，所述对手行动估计模型为一步对手行动估计模型，其输出的估计向量为代表对手下一步行动的估计向量。

3.如权利要求1所述的博弈对话中基于对话历史和强化学习的多轮对话方法，其特征在于，所述对手行动估计模型为多步对手行动估计模型，其输出的估计向量为代表对手在当前多轮多行中后续所有行动的估计向量。

4.如权利要求1所述的博弈对话中基于对话历史和强化学习的多轮对话方法，其特征在于，当一个新的多轮对话开始时，前若干轮对话按照多轮对话模型直接给出应答，而不基于所述当前对话历史进行应答；在其余的对话轮次中，再将当前多轮对话中已经进行的轮次作为当前对话历史按照S2和S3进行下一步应答。

5.如权利要求4所述的博弈对话中基于对话历史和强化学习的多轮对话方法，其特征在于，当一个新的多轮对话开始时，按照多轮对话模型直接给出应答的轮次为前3~5轮。

6.如权利要求1所述的博弈对话中基于对话历史和强化学习的多轮对话方法，其特征在于，所述编码-解码模型中，将基于所述当前对话历史得到的向量与所述对手后续行动的估计向量进行融合编码，然后再利用神经网络解码成自然语言或者行动，做出下一步的应答。

7.如权利要求6所述的博弈对话中基于对话历史和强化学习的多轮对话方法，其特征在于，所述编码-解码模型中，融合编码的方式为将向量直接拼接或者通过自注意力机制进行融合。

8.如权利要求1所述的博弈对话中基于对话历史和强化学习的多轮对话方法，其特征在于，所述编码-解码模型中，编码部分采用基于层次的编码器，解码部分采用多层前馈神经网络。

9.如权利要求1所述的博弈对话中基于对话历史和强化学习的多轮对话方法，其特征在于，所述多轮对话为任务型对话和聊天型对话。