CN111414460B

CN111414460B - 通用结合记忆存储和神经网络的多轮对话管理方法及装置

Info

Publication number: CN111414460B
Application number: CN201910108740.XA
Authority: CN
Inventors: 鄂海红; 宋美娜; 陈忠富; 牛佩晴
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-02-03
Filing date: 2019-02-03
Publication date: 2024-01-19
Anticipated expiration: 2039-02-03
Also published as: CN111414460A

Abstract

本发明公开了一种通用结合记忆存储和神经网络的多轮对话管理方法及装置，其中，方法包括：接收用户请求，并根据用户请求解析输入信息；获取用户的当前对话状态，并根据当前对话状态和历史对话状态更新对话理解数据；根据对话理解数据通过神经网络模型预测对话动作；获取查询动作，并将查询动作和对话动作的置信度进行比较，以取置信度高的动作作为机器响应动作。该方法通过对话管理结合记忆存储和深度学习，提高***稳定性，对话管理模型可通过深度强化学习改进，提高模型准确度，对话管理通用且模型可灵活扩展更换，从而可以有效提高对话管理的准确度和稳定性，并使对话管理具有模型兼容性，具有更好的通用性。

Description

通用结合记忆存储和神经网络的多轮对话管理方法及装置

技术领域

本发明涉及信息技术及数据业务技术领域，特别涉及一种通用结合记忆存储和神经网络的多轮对话管理方法及装置。

背景技术

目前任务导向多轮对话***中的对话管理，多是针对特定领域完成对应的任务，对话管理设计简单或仅针对特定领域进行设计，导致对话管理不能完成更复杂的对话***需求，且不能够适用于更复杂多变的场景。也有使用简单机器学习模型或深度学习模型对对话管理进行改进，然而对话管理的准确度与模型完全关联，导致了模型可能带来的不稳定性传到如对话管理中，波及整个多轮对话管理***。对话管理的通用适应性，和稳定性仍是制约任务导向多轮对话***发展的重大难题。

现有任务导向多轮对话管理使用简单的规则、机器学习或深度学习模型或预先定义好的有限状态自动机来完成相应的任务，通过对对话状态的识别进行机器下一步动作的预测。比如，(1)一种对话管理器的设计方法，该对话管理器接收先前的用户动作以及先前的观察和当前的观察。假设先前的用户状态和当前的用户状态、先前的用户动作、当前的用户动作、未来***动作和未来观察。隐藏用户状态、用户动作和用户观察。基于用户状态、***动作、用户动作和观察来提取特征矢量。使用所述特征矢量，基于对数线性模型来确定每个当前的动作的期望报酬。然后，输出具有最佳期望报酬的当前动作，这种方式使用简单的机器学习模型来预测机器的动作。另外，(2)一种对话管理方法，获得用户输入的语音所转化的文本；对所述文本进行语义识别，获得所述用户的意图；将所述用户的意图与跳转条件进行匹配；根据与所述用户的意图匹配的跳转条件，跳转到相应的代理模块，以执行所述代理模块的功能，获得执行结果。这种方法使用了预先定义好的有限状态自动机，让对话状态约束在确定的状态中跳转。

发明内容

本申请是基于发明人对以下问题的认识和发现作出的：

上述技术使用简单的机器学习模型或深度学习模型根据对话的状态进行下一步机器动作的预测，方式简单化，没有考虑到模型本身的不稳定性对对话管理的影响，影响了整个多轮对话***的稳定性和准确度。使用有限状态自动机或规则等方式则要预先定义好在特定领域下的状态跳转和规则，这导致了对话管理仅能服务于定义好的领域，无法适用于更复杂多变的应用场景，且改变和协调需要大量的人工成本。在任务导向多轮对话***中，对话管理不能仅依赖于简单的机器学习模型或深度学习模型，要保证对话管理的稳定性，并且在保证对话管理的准确性和稳定性的同时，也需要保证对话管理适用于复杂多变的应用场景，达到在复杂场景下的通用性，节约人工成本。

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种通用结合记忆存储和神经网络的多轮对话管理方法，该方法可以有效提高对话管理的准确度和稳定性，并使对话管理具有模型兼容性，具有更好的通用性。

本发明的另一个目的在于提出一种通用结合记忆存储和神经网络的多轮对话管理装置。

为达到上述目的，本发明一方面实施例提出了一种通用结合记忆存储和神经网络的多轮对话管理方法，包括以下步骤：接收用户请求，并根据所述用户请求解析输入信息，其中，所述输入信息包括用户意图和槽值；获取用户的当前对话状态，并根据所述当前对话状态和历史对话状态更新对话理解数据；根据所述对话理解数据通过神经网络模型预测对话动作；获取查询动作，并将所述查询动作和对话动作的置信度进行比较，以取置信度高的动作作为机器响应动作。

本发明实施例的通用结合记忆存储和神经网络的多轮对话管理方法，对话管理结合记忆存储和深度学习，提高***稳定性，对话管理模型可通过深度强化学习改进，提高模型准确度，对话管理通用且模型可灵活扩展更换，从而可以有效提高对话管理的准确度和稳定性，并使对话管理具有模型兼容性，具有更好的通用性。

另外，根据本发明上述实施例的通用结合记忆存储和神经网络的多轮对话管理方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述根据所述对话理解数据通过神经网络模型预测对话动作，进一步包括：根据所述对话理解数据判断是否查询到相关状态信息；如果查询不到所述相关状态信息，则采用预设的对话策略预测动作作为所述对话动作。

进一步地，在本发明的一个实施例中，所述获取查询动作，进一步包括：将对话管理语料的数据以key-value存储的方式作为记忆存储，对话状态***中得到的对话状态在记忆存储中进行查询，查询到的动作作为记忆存储的所述查询动作。

进一步地，在本发明的一个实施例中，还包括：将强化学习中的动作信息作为所述机器响应动作，强化学习中环境给的状态信息作为对话管理语料样本，回报信息则设置为识别正确+1，识别错误-1，代理信息则用神经网络模型来代替，以让对话管理形成强化学习的行为模型，并在和环境的交互中，通过检测环境所提供的状态和反馈来实现策略学习。

进一步地，在本发明的一个实施例中，在深度强化学习的设计模式中，通过经验回放和fixed Q-targets方法设计所述行为模型。

为达到上述目的，本发明另一方面实施例提出了一种通用结合记忆存储和神经网络的多轮对话管理装置，包括：用户请求模块，用于接收用户请求，并根据所述用户请求解析输入信息，其中，所述输入信息包括用户意图和槽值；对话状态跟踪模块，用于获取用户的当前对话状态，并根据所述当前对话状态和历史对话状态更新对话理解数据；对话策略模块，用于根据所述对话理解数据通过神经网络模型预测对话动作；记忆存储模块，用于获取查询动作，并将所述查询动作和对话动作的置信度进行比较，以取置信度高的动作作为机器响应动作。

本发明实施例的通用结合记忆存储和神经网络的多轮对话管理装置，对话管理结合记忆存储和深度学习，提高***稳定性，对话管理模型可通过深度强化学习改进，提高模型准确度，对话管理通用且模型可灵活扩展更换，从而可以有效提高对话管理的准确度和稳定性，并使对话管理具有模型兼容性，具有更好的通用性。

另外，根据本发明上述实施例的通用结合记忆存储和神经网络的多轮对话管理装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述对话策略模块进一步用于根据所述对话理解数据判断是否查询到相关状态信息，并在查询不到所述相关状态信息时，采用预设的对话策略预测动作作为所述对话动作。

进一步地，在本发明的一个实施例中，所述记忆存储模块进一步用于将对话管理语料的数据以key-value存储的方式作为记忆存储，对话状态***中得到的对话状态在记忆存储中进行查询，查询到的动作作为记忆存储的所述查询动作。

进一步地，在本发明的一个实施例中，还包括：强化模块，用于将强化学习中的动作信息作为所述机器响应动作，强化学习中环境给的状态信息作为对话管理语料样本，回报信息则设置为识别正确+1，识别错误-1，代理信息则用神经网络模型来代替，以让对话管理形成强化学习的行为模型，并在和环境的交互中，通过检测环境所提供的状态和反馈来实现策略学习。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的通用结合记忆存储和神经网络的多轮对话管理方法的流程图；

图2为根据本发明一个实施例的通用结合记忆存储和神经网络的多轮对话管理方法的流程图；

图3为根据本发明实施例的对话管理示意图；

图4为根据本发明实施例的强化学习示意图；

图5为根据本发明实施例的模型可替换示意图；

图6为根据本发明实施例的通用结合记忆存储和神经网络的多轮对话管理装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的通用结合记忆存储和神经网络的多轮对话管理方法及装置，首先将参照附图描述根据本发明实施例提出的通用结合记忆存储和神经网络的多轮对话管理方法。

图1是本发明一个实施例的通用结合记忆存储和神经网络的多轮对话管理方法的流程图。

如图1所示，该通用结合记忆存储和神经网络的多轮对话管理方法包括以下步骤：

在步骤S101中，接收用户请求，并根据用户请求解析输入信息，其中，输入信息包括用户意图和槽值。

可以理解的是，如图2所示，用户请求：用户输入文本，发起请求到多轮对话***中，若用户输入语句有误则重新输入，对话***根据用户文本进行对话理解，解析出用户输入语句中的用户意图和槽值等信息。

在步骤S102中，获取用户的当前对话状态，并根据当前对话状态和历史对话状态更新对话理解数据。

可以理解的是，如图2所示，对话状态跟踪：对话状态跟踪分为当前对话状态跟踪和历史对话状态跟踪，包括意图、槽值、实体、领域信息、动作等不同的对话状态信息，结合当前和历史数据形成对话状态。历史对话状态通过当前对话状态和卒中机器响应动作进行不断更新，当前对话状态根据对话理解数据进行响应更新。

在步骤S103中，根据对话理解数据通过神经网络模型预测对话动作。

其中，在本发明的一个实施例中，根据对话理解数据通过神经网络模型预测对话动作，进一步包括：根据对话理解数据判断是否查询到相关状态信息；如果查询不到相关状态信息，则采用预设的对话策略预测动作作为对话动作。

可以理解的是，如图2所示，对话策略：使用对话状态***中得到的对话状态进行对话动作的预测，预测采用神经网络模型进行对话动作预测。若在记忆存储模块查询不到相关状态信息，则直接采用对话策略预测动作作为最终机器的响应动作。

在步骤S104中，获取查询动作，并将查询动作和对话动作的置信度进行比较，以取置信度高的动作作为机器响应动作。

其中，在本发明的一个实施例中，获取查询动作，进一步包括：将对话管理语料的数据以key-value存储的方式作为记忆存储，对话状态***中得到的对话状态在记忆存储中进行查询，查询到的动作作为记忆存储的查询动作。

可以理解的是，如图2所示，记忆存储：将对话管理语料的数据以key-value存储的方式作为记忆存储模块，对话状态***中得到的对话状态在记忆存储中进行查询，查询到的动作作为记忆存储模块的查询动作，将其置信度与对话策略模型预测的置信度进行比较，取置信度高的对话动作作为机器响应动作。

具体而言，如图3所示，本方案为了保证对话管理的准确度和稳定性，采用了一种结合记忆存储与神经网络方法的对话策略模型，从对话状态***中得到的对话状态通过对话策略中的神经网络方法进行分类得到对话动作，并且记忆存储模块以key-value方式存储这对话管理的数据，对话状态***中的对话状态进过记忆存储模块的出啊找，若能找到响应的对话状态，则记忆存储模块也预测出一个对话动作，最终的对话动作需要在对话策略模型和记忆存储模块中作置信度比较，采取置信度高的对话动作作为最终机器的响应动作。

本发明实施例的方法与传统方法的不同在于，传统方法仅考虑到了使用简单的机器学习或神经网络模型进行对话动作的预测，将模型的不稳定性带入对话管理中，或者仅仅使用简单规则规定好对话动作，限制了对话***在更复杂多变场景中的应用，我们的方法结合神经网络与记忆存储，考虑模型准确度的同时也兼顾了***的稳定性。

综上，对话管理的处理时间顺序分为用户请求、对话状态跟踪、对话策略、记忆存储4个部分实现，其功能流程图如图2所示：用户请求通过对话理解解析出意图和槽值，被对话状态***跟踪到当前状态中，结合历史状态信息传入到对话策略模型和记忆存储模块中，对话策略模型预测机器动作，记忆存储模块查询机器动作，当记忆存储模块没有查到相关状态信息，则直接使用对话策略模型预测动作作为机器最终输出动作，若查到相关状态信息，则将记忆存储查询动作的置信度与对话策略模型预测的动作置信度作比较，置信度大的动作作为最终机器输出的动作。

进一步地，在本发明的一个实施例中，还包括：将强化学习中的动作信息作为机器响应动作，强化学习中环境给的状态信息作为对话管理语料样本，回报信息则设置为识别正确+1，识别错误-1，代理信息则用神经网络模型来代替，以让对话管理形成强化学习的行为模型，并在和环境的交互中，通过检测环境所提供的状态和反馈来实现策略学习。

其中，在本发明的一个实施例中，在深度强化学习的设计模式中，通过经验回放和fixed Q-targets方法设计行为模型。

具体而言，本方案采取了一种深度强化学习方法作为对话策略模型，将强化学习中的“动作”作为机器响应的动作，强化学习中环境给的“状态”视为对话管理语料样本，“回报”则设置为识别正确+1，识别错误-1，“代理”则用神经网络模型来代替。让对话管理形成强化学习的行为模型，在和环境的交互中，通过观察环境所提供的状态和反馈来实现策略的学习。

如图4所示：在深度强化学习的设计模式中我们同时采用了经验回放(ExperienceReplay)和fixed Q-targets方法，经验回放指每次DQN更新的时候，随机抽取一些之前的经历进行学习。随机抽取这种做法打乱了经历之间的相关性，也使得神经网络更新更有效率。Fixed Q-targets也是一种打乱相关性的机理，如果使用fixed Q-targets，本发明实施例就会在DQN中使用到两个结构相同但参数不同的神经网络，预测Q估计的神经网络具备最新的参数，而预测Q现实的神经网络使用的参数则是很久以前的。深度强化学习方法能够改进神经网络模型，使得策略学习模型的准确度更高，对对话动作的选取更精确。

进一步而言，本方案中对话管理能随意接受对话管理训练数据，数据格式不随着领域的迁移而改变，具有普适应性，根据相应的语料完成对话管理模型的训练，对话管理通过我们称之为story的文件格式进行配置。该***能够扩展更换对话管理的模型，做到模型的扩展可更换，如图4所示。

对话策略模型包括对话策略通用模型和记忆存储模型，两者在针对同一个对话状态做决定时会进行置信度比较，决定最优策略动作。其中对话策略模型可以支持模型的可扩展替换，可以被包括但不限于注意力递归网络、双向递归网络、卷积+门递归网络、卷积神经网络、长短期记忆网络、快速分类器、门递归网络等各种模型替换扩展和更新，它本身也可以进行自身独立的更新，策略模型可以通过强化学习模型进行更新以满足策略动作选取的进一步优化。只需要用户定义好相应的模型类文件，即可随意替换对话管理的模型。

对话管理模型可以通过模型可替换性进行不断更新替换，以满足模型的不断优化、适应于不同的新场景，为整个对话***在新的环境，新的需求下提供更好的普适应性。

根据本发明实施例提出的通用结合记忆存储和神经网络的多轮对话管理方法，采用结合记忆存储和深度学习的对话管理方式，对多轮对话***进行对话动作的预测，通过对话状态***跟踪多轮对话的意图、动作、槽值、实体等状态，通过对话状态***得到的的多轮对话状态对机器动作进行预测，将记忆存储和神经网络分别得到的动作进行置信度的比较，选择置信度大的机器动作，同时考虑到对话管理的准确度和稳定性；实现对话管理的通用性，并且模型可灵活扩展替换。对话管理模型只需要更换相应的语料，即可可适用于不同任务场景，使用于复杂多变的应用。且对话***模型可以灵活改变内部的对话策略模型，以适用于不同的对话需求，包括但不限于普通的机器学习模型，深度神经网络和深度强化学习模型等，使对话管理具有模型兼容性，具有更好的通用性。

其次参照附图描述根据本发明实施例提出的通用结合记忆存储和神经网络的多轮对话管理装置。

图6是本发明一个实施例的通用结合记忆存储和神经网络的多轮对话管理装置

如图6所示，该通用结合记忆存储和神经网络的多轮对话管理装置10包括：用户请求模块100、对话状态跟踪模块200、对话策略模块300和记忆存储模块400。

其中，用户请求模块100用于接收用户请求，并根据用户请求解析输入信息，其中，输入信息包括用户意图和槽值。对话状态跟踪模块200用于获取用户的当前对话状态，并根据当前对话状态和历史对话状态更新对话理解数据。对话策略模块300用于根据对话理解数据通过神经网络模型预测对话动作。记忆存储模块400用于获取查询动作，并将查询动作和对话动作的置信度进行比较，以取置信度高的动作作为机器响应动作。本发明实施例的装置10同时考虑到对话管理的准确度和稳定性，并使对话管理具有模型兼容性，具有更好的通用性。

进一步地，在本发明的一个实施例中，对话策略模块300进一步用于根据对话理解数据判断是否查询到相关状态信息，并在查询不到相关状态信息时，采用预设的对话策略预测动作作为对话动作。

进一步地，在本发明的一个实施例中，记忆存储模块400进一步用于将对话管理语料的数据以key-value存储的方式作为记忆存储，对话状态***中得到的对话状态在记忆存储中进行查询，查询到的动作作为记忆存储的查询动作。

进一步地，在本发明的一个实施例中，本发明实施例的装置10还包括：强化模块。其中，强化模块用于将强化学习中的动作信息作为机器响应动作，强化学习中环境给的状态信息作为对话管理语料样本，回报信息则设置为识别正确+1，识别错误-1，代理信息则用神经网络模型来代替，以让对话管理形成强化学习的行为模型，并在和环境的交互中，通过检测环境所提供的状态和反馈来实现策略学习。

进一步地，在本发明的一个实施例中，在深度强化学习的设计模式中，通过经验回放和fixed Q-targets方法设计行为模型。

需要说明的是，前述对通用结合记忆存储和神经网络的多轮对话管理方法实施例的解释说明也适用于该实施例的通用结合记忆存储和神经网络的多轮对话管理装置，此处不再赘述。

根据本发明实施例提出的通用结合记忆存储和神经网络的多轮对话管理装置，采用结合记忆存储和深度学习的对话管理方式，对多轮对话***进行对话动作的预测，通过对话状态***跟踪多轮对话的意图、动作、槽值、实体等状态，通过对话状态***得到的的多轮对话状态对机器动作进行预测，将记忆存储和神经网络分别得到的动作进行置信度的比较，选择置信度大的机器动作，同时考虑到对话管理的准确度和稳定性；实现对话管理的通用性，并且模型可灵活扩展替换。对话管理模型只需要更换相应的语料，即可可适用于不同任务场景，使用于复杂多变的应用。且对话***模型可以灵活改变内部的对话策略模型，以适用于不同的对话需求，包括但不限于普通的机器学习模型，深度神经网络和深度强化学习模型等，使对话管理具有模型兼容性，具有更好的通用性。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种通用结合记忆存储和神经网络的多轮对话管理方法，其特征在于，包括以下步骤：

接收用户请求，并根据所述用户请求解析输入信息，其中，所述输入信息包括用户意图和槽值；

获取用户的当前对话状态，并根据所述当前对话状态和历史对话状态更新对话理解数据；

根据所述对话理解数据通过神经网络模型预测对话动作；以及

获取查询动作，并将所述查询动作和对话动作的置信度进行比较，以取置信度高的动作作为机器响应动作；所述获取查询动作，进一步包括：

将对话管理语料的数据以key-value存储的方式作为记忆存储，对话状态***中得到的对话状态在记忆存储中进行查询，查询到的动作作为记忆存储的所述查询动作。

2.根据权利要求1所述的方法，其特征在于，所述根据所述对话理解数据通过神经网络模型预测对话动作，进一步包括：

根据所述对话理解数据判断是否查询到相关状态信息；

如果查询不到所述相关状态信息，则采用预设的对话策略预测动作作为所述对话动作。

3.根据权利要求1所述的方法，其特征在于，还包括：

将强化学习中的动作信息作为所述机器响应动作，强化学习中环境给的状态信息作为对话管理语料样本，回报信息则设置为识别正确+1，识别错误-1，代理信息则用神经网络模型来代替，以让对话管理形成强化学习的行为模型，并在和环境的交互中，通过检测环境所提供的状态和反馈来实现策略学习。

4.根据权利要求3所述的方法，其特征在于，在深度强化学习的设计模式中，通过经验回放和fixed Q-targets方法设计所述行为模型。

5.一种通用结合记忆存储和神经网络的多轮对话管理装置，其特征在于，包括：

用户请求模块，用于接收用户请求，并根据所述用户请求解析输入信息，其中，所述输入信息包括用户意图和槽值；

对话状态跟踪模块，用于获取用户的当前对话状态，并根据所述当前对话状态和历史对话状态更新对话理解数据；

对话策略模块，用于根据所述对话理解数据通过神经网络模型预测对话动作；以及

记忆存储模块，用于获取查询动作，并将所述查询动作和对话动作的置信度进行比较，以取置信度高的动作作为机器响应动作；

所述记忆存储模块进一步用于将对话管理语料的数据以key-value存储的方式作为记忆存储，对话状态***中得到的对话状态在记忆存储中进行查询，查询到的动作作为记忆存储的所述查询动作。

6.根据权利要求5所述的装置，其特征在于，所述对话策略模块进一步用于根据所述对话理解数据判断是否查询到相关状态信息，并在查询不到所述相关状态信息时，采用预设的对话策略预测动作作为所述对话动作。

7.根据权利要求5所述的装置，其特征在于，还包括：

强化模块，用于将强化学习中的动作信息作为所述机器响应动作，强化学习中环境给的状态信息作为对话管理语料样本，回报信息则设置为识别正确+1，识别错误-1，代理信息则用神经网络模型来代替，以让对话管理形成强化学习的行为模型，并在和环境的交互中，通过检测环境所提供的状态和反馈来实现策略学习。

8.根据权利要求7所述的装置，其特征在于，在深度强化学习的设计模式中，通过经验回放和fixed Q-targets方法设计所述行为模型。