CN114595317A

CN114595317A - 回复文本的生成方法、装置、设备及存储介质

Info

Publication number: CN114595317A
Application number: CN202210179625.3A
Authority: CN
Inventors: 赵学亮; 严睿; 刘乐茂; 史树明
Original assignee: Tencent Technology Shenzhen Co Ltd; Renmin University of China
Current assignee: Tencent Technology Shenzhen Co Ltd; Renmin University of China
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-06-07

Abstract

本申请公开了一种回复文本的生成方法、装置、设备及存储介质，属于人工智能技术领域。所述方法包括：获取历史对话文本；基于历史对话文本包含的句子，确定第一隐变量和历史对话文本的状态结构；根据状态结构，确定历史对话文本对应的回复文本的预测状态信息；根据预测状态信息确定第二隐变量；基于第一隐变量和第二隐变量，生成回复文本。本申请中，提高回复文本的回复准确性，提高回复文本的生成效率。

Description

回复文本的生成方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种回复文本的生成方法、装置、设备及存储介质。

背景技术

任务导向型对话是指人工智能与用户之间的自动交流对话。

在相关技术中，在任务导向型对话的应用过程中，自动应答***会提前确定好固定的回复文本，进而在获取用户输入的对话文本之后，依据预先设定好的关键词提取规则确定该对话文本中的关键词，基于该对话文本中的关键词，确定该关键词对应的下一句回复文本，进而向用户展示该下一句回复文本，以此来实现自动对话。

然而，在上述相关技术中，仅仅依据关键词并不能够准确确定对话文本对应的回复文本。

发明内容

本申请实施例提供了一种回复文本的生成方法、装置、设备及存储介质，能够提高回复文本的回复准确性。所述技术方案如下。

根据本申请实施例的一个方面，提供了一种回复文本的生成方法，所述方法包括以下步骤：

获取历史对话文本，所述历史对话文本包括至少一个句子；

基于所述历史对话文本包含的句子，确定第一隐变量和所述历史对话文本的状态结构；其中，所述第一隐变量用于指示所述历史对话文本的文本个性信息和所述历史对话文本的参与对象的对象个性信息；所述状态结构中包括各个所述句子的状态信息，所述状态信息用于指示所述句子的对话意图；

根据所述状态结构，确定所述历史对话文本对应的回复文本的预测状态信息；

根据所述预测状态信息确定第二隐变量，所述第二隐变量用于指示针对所述回复文本所预测的句子个性信息；

基于所述第一隐变量和所述第二隐变量，生成所述回复文本。

根据本申请实施例的一个方面，提供了一种回复文本生成模型的训练方法，所述方法包括以下步骤：

获取样本对话文本，所述样本对话文本包括至少一个样本句子；

对各个所述样本句子分别进行编码，得到各个所述样本句子的第一编码表示和第二编码表示；

基于各个所述样本句子的第一编码表示，确定第一隐变量，所述第一隐变量用于指示所述样本对话文本的文本个性信息和所述样本对话文本的参与对象的对象个性信息；

基于各个所述样本句子的第二编码表示，分别确定各个所述样本句子的状态信息；其中，所述状态信息用于指示所述样本句子的对话意图；

基于各个所述样本句子的第一编码表示，以及各个所述样本句子的状态信息，分别确定各个所述样本句子的第二隐变量；其中，所述第二隐变量用于指示所述样本句子的句子特征信息；

根据所述第一隐变量、各个所述样本句子的状态信息和各个所述样本句子的第二隐变量，对所述回复文本生成模型进行训练。

根据本申请实施例的一个方面，提供了一种回复文本的生成装置，所述装置包括以下模块：

文本获取模块，用于获取历史对话文本，所述历史对话文本包括至少一个句子；

结构确定模块，用于基于所述历史对话文本包含的句子，确定第一隐变量和所述历史对话文本的状态结构；其中，所述第一隐变量用于指示所述历史对话文本的文本个性信息和所述历史对话文本的参与对象的对象个性信息；所述状态结构中包括各个所述句子的状态信息，所述状态信息用于指示所述句子的对话意图；

状态预测模块，用于根据所述状态结构，确定所述历史对话文本对应的回复文本的预测状态信息；

变量确定模块，用于根据所述预测状态信息确定第二隐变量，所述第二隐变量用于指示针对所述回复文本所预测的句子个性信息；

回复生成模块，用于基于所述第一隐变量和所述第二隐变量，生成所述回复文本。

根据本申请实施例的一个方面，提供了一种回复文本生成模型的训练装置，所述装置包括以下模块：

样本获取模块，用于获取样本对话文本，所述样本对话文本包括至少一个样本句子；

样本编码模块，用于对各个所述样本句子分别进行编码，得到各个所述样本句子的第一编码表示和第二编码表示；

第一确定模块，用于基于各个所述样本句子的第一编码表示，确定第一隐变量，所述第一隐变量用于指示所述样本对话文本的文本个性信息和所述样本对话文本的参与对象的对象个性信息；

信息确定模块，用于基于各个所述样本句子的第二编码表示，分别确定各个所述样本句子的状态信息；其中，所述状态信息用于指示所述样本句子的对话意图；

第二确定模块，用于基于各个所述样本句子的第一编码表示，以及各个所述样本句子的状态信息，分别确定各个所述样本句子的第二隐变量；其中，所述第二隐变量用于指示所述样本句子的句子特征信息；

模型训练模块，用于根据所述第一隐变量、各个所述样本句子的状态信息和各个所述样本句子的第二隐变量，对所述回复文本生成模型进行训练。

根据本申请实施例的一个方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述回复文本的生成方法，或实现上述回复文本生成模型的训练方法。

根据本申请实施例的一个方面，本申请实施例提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述回复文本的生成方法，或实现上述回复文本生成模型的训练方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述回复文本的生成方法，或实现上述回复文本生成模型的训练方法。

本申请实施例提供的技术方案可以带来如下有益效果：

通过第一隐变量和第二隐变量确定历史对话文本的回复文本，且第一隐变量用于指示历史对话文本的文本个性信息和历史对话文本的参与对象的对象个性信息，第二隐变量用于指示针对回复文本所预测的句子个性信息，在生成回复文本时，考虑了整体对话的个性化信息、参与对象的个性化信息，以及单独句子的个性化信息，提高回复文本的回复准确性；而且，基于历史对话文本的状态结构预测回复文本的预测状态信息，一方面，状态结构中包括各个句子的状态信息，基于状态结构能够考虑到历史对话文本的状态转移信息，提高状态预测的准确性，另一方面，状态信息为相对于第一隐变量和第二隐变量的显式变量，用于指示对句子的对话意图，在回复文本生成过程中引入显式变量，提高回复文本生成过程中的可解释性，有利于减少句子处理时所需的参数，提高回复文本的生成效率。

附图说明

图1是本申请一个实施例提供的回复文本的生成***的示意图；

图2示例性示出了一种回复文本的生成***的示意图；

图3示例性示出了一种回复文本生成模型的训练方式的示意图；

图4是本申请一个实施例提供的回复文本的生成方法的流程图；

图5示例性示出了一种回复文本生成方式的示意图；

图6是本申请一个实施例提供的回复文本生成模型的训练方法的流程图；

图7示例性示出了一种模型训练过程中状态和隐变量的获取方式的示意图；

图8是本申请一个实施例提供的回复文本的生成装置的框图；

图9是本申请另一个实施例提供的回复文本的生成装置的框图；

图10是本申请一个实施例提供的回复文本生成模型的训练装置的框图；

图11是本申请另一个实施例提供的回复文本生成模型的训练装置的框图；

图12是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中回复文本的生成方法、回复文本生成模型的训练方法涉及以下技术：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的机器学习等技术，下面，结合几个实施例对本申请技术方案进行介绍说明。

请参考图1，其示出了本申请一个实施例提供的自动回复***的示意图。该自动回复***可以包括：终端10和服务器20。

终端10可以为诸如手机、平板电脑、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备、PC(Personal Computer，个人计算机)、智能语音交互设备、智能家电、车载终端和飞行器等电子设备，本申请实施例对此不作限定。可选地，终端10中包括应用程序的客户端。其中，该应用程序可以为任意具有自动回复功能的应用程序，如社交应用程序、购物应用程序、阅读应用程序等。可选地，上述应用程序可以为需要下载安装的应用程序，也可以为即点即用的应用程序，本申请实施例对此不作限定。

服务器20用于为终端10提供后台服务。服务器20可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。可选地，服务器20可以是上述应用程序的客户端的后台服务器。在示例性实施例中，服务器20为多个终端10提供后台服务。

上述终端10与上述服务器20之间通过网络进行数据传输。

可选地，在本申请实施例中，上述服务器20中包括回复文本生成模型，服务器20通过该回复文本生成文本，基于历史对话文本生成对应的回复文本。示例性地，如图2所示，终端10获取并显示第一对象输入的至少一个句子，并根据该至少一个句子生成历史对话文本，向服务器20发送该历史对话文本。对应地，服务器20在获取上述历史对话文本之后，通过回复文本生成模型的编码网络，采用K层编码网络对历史对话文本中的句子分别进行编码，得到各个句子的第一编码表示，采用L层编码网络对历史对话文本中的句子分别进行编码，得到各个句子的第二编码表示。之后，通过回复文本生成模型的特征提取网络，基于各个句子的第二编码表示确定第一隐变量，基于各个句子的第二编码表示确定历史对话文本的状态结构，其中，状态结构中包括各个句子的状态信息，根据各个句子的状态信息确定回复文本的预测状态信息；进一步地，基于各个句子的第一编码表示、各个句子的状态信息和上述预测状态信息，确定回复文本的第二隐变量。之后，通过回复文本生成模型的生成器，基于上述第一隐变量和上述第二隐变量，生成回复文本，并由服务器20将该回复文本发送至终端10，使得终端10显示该回复文本。

可选地，如图1所示，上述自动回复***还包括模型训练设备，该模型训练设备用于对上述回复文本生成模型进行训练。示例性地，如图3所示，模型训练设备在获取样本对话文本之后，通过回复文本生成模型的编码网络，采用K层编码网络对样本对话文本中的样本句子分别进行编码，得到各个样本句子的第一编码表示，采用L层编码网络对样本对话文本中的样本句子分别进行编码，得到各个样本句子的第二编码表示。之后，通过回复文本生成模型的特征提取网络，基于各个样本句子的第一编码表示，分别确定各个样本句子的状态信息，基于各个样本句子的第二编码表示，确定第一隐变量，基于各个样本句子的状态信息，以及各个样本句子的第二编码表示，分别确定各个样本句子的第二隐变量。之后，基于上述第一隐变量、上述各个样本句子的第二隐变量，以及上述各个样本句子的状态信息对回复文本生成模型进行训练。

需要说明的一点是，上述图2和图3的介绍只是示例性和解释性的，在示例性实施例，可以对终端10、服务器20和模型训练设备的功能进行灵活设置和调整，本申请实施例对此不作限定。可选地，上述服务器20和上述模型训练设备为同一设备。

请参考图4，其示出了本申请一个实施例提供的回复文本的生成方法的流程图。该方法可应用于图1所示的自动回复***的服务器20，如各步骤的执行主体可以是服务器20(以下称为“计算机设备”)。该方法可以包括以下几个步骤(401～405)中的至少一个步骤：

步骤401，获取历史对话文本。

历史对话文本是指至少一个用户在对话过程中生成的文本。在本申请实施例中，在自动回复过程中，计算机设备获取历史对话文本，进而基于该历史对话文本确定对应的回复文本。其中，上述历史对话文本包括至少一个句子。

可选地，上述历史对话文本中包括对话过程中生成的全部或部分句子。

在一种可能的实施方式中，历史对话文本中包括对话过程中生成的全部句子。可选地，为了提高回复文本的准确性，对于某个对话过程，计算机设备获取该对话过程中生成的全部句子，并将该全部句子确定为上述历史对话文本，进而基于该历史对话文本生成对应的回复文本。

在另一种可能的实施方式中，历史对话文本包括对话过程中生成的部分句子。可选地，为了提高回复文本的生成效率，对于某个对话过程，计算机设备获取该对话过程中生成的全部句子，进一步地，基于句子的生成者从该全部句子中提取部分句子以确定上述历史对话文本，进而基于该历史对话文本生成对应的回复文本。示例性地，若上述对话过程包括提出问题的参与对象，以及回复问题的自动答复机器人，则计算机设备在获取上述全部句子之后，从该全部句子中，获取参与对象提出问题时生成的句子，进而根据参与对象生成的句子确定上述历史对话文本；在示例性实施例中，对于存在多个参数对象的情况，计算机设备可以根据不同的参与对象生成不同的历史对话文本，也可以不区分参与对象直接生成一个共用的历史对话文本，本申请实施例对此不作限定。

可选地，计算机设备可以实时获取上述历史对话文本，也可以按照一定的时间间隔获取上述历史对话文本。

在一种可能的实施方式中，计算机设备实时获取上述历史对话文本。可选地，在某个对话过程中，计算机设备对该对话过程进行实时检测，以实时获取对话中的句子生成上述历史对话文本。在这种情况下，计算机设备可以实时对历史对话文本进行处理，以生成回复文本，适用于实时对话场景。

在另一种可能的实施方式中，计算机设备按照一定的时间间隔获取上述历史对话文本。可选地，计算机设备按照一定的时间间隔对一个或多个对话过程进行处理，对应地，生成一个或多个历史对话文本，并生成各个历史对话文本分别对应的回复文本。在这种情况下，计算机设备可以根据自身负荷对上述时间间隔进行灵活调整，适用于非实时对话场景。可选地，上述时间间隔可以为1h、1天或1周等，本申请实施例对此不作限定。

可选地，计算机设备以连续对话为基准获取上述历史对话文本；或者，计算机设备以目标时段为基准获取上述历史对话文本。

在一种可能的实施方式中，计算机设备以连续对话为基准获取上述历史对话文本。可选地，对于某个对话过程中的相邻句子，若该相邻句子之间的时间间隔小于目标值，则确定该相邻句子为连续对话，属于同一历史对话文本。其中，上述时间间隔可以为1min、5min或10min，本申请实施例对此不作限定。

在另一种可能的实施方式中，计算机设备以目标时段为基准获取上述历史对话文本。可选地，计算机设备在获取上述历史对话文本时，以最后一个句子的生成时刻为基准，向前推固定时长确定目标时段，并确定生成时刻位于该目标时段内的句子属于同一历史对话文本。在这种情况下，以目标时段为基准生成历史对话文本，使得历史对话文本所包括的句子内容更加丰富，便于基于历史对话文本确定准确的回复文本。其中，上述固定时长可以为1天、2天或3天等，本申请实施例对此不作限定。

需要说明的一点是，上述问题是指对应有回复的句子或文本，并不仅仅指提出疑问的句子或文本。

步骤402，基于历史对话文本包含的句子，确定第一隐变量和历史对话文本的状态结构。

在本申请实施例中，计算机设备在获取上述历史对话文本之后，基于该历史对话文本包含的句子，确定第一隐变量和历史对话文本的状态结构。其中，第一隐变量用于指示历史对话文本的文本个性信息(如对话主题等)和历史对话文本的参与对象的对象个性信息(如参与对象的说话习惯等)；状态结构中包括各个句子的状态信息，状态信息用于指示句子的对话意图(如提出问题、表示赞同等)。可选地，在本申请实施例中，上述文本个性信息用于表征历史对话文本整体的特征，上述对象个性信息用于表征参与对象在对话时的个性习惯。

需要说明的一点是，在本申请实施例中，对于历史对话文本，第一隐变量为不随着时间而变化的信息，即在同一历史对话文本中，不同句子的第一隐变量相同。

上述第一隐变量和上述状态结构的获取方式具体参见下文，在此不作赘述。

步骤403，根据状态结构，确定历史对话文本对应的回复文本的预测状态信息。

在本申请实施例中，计算机设备在获取上述状态结构之后，根据该状态结构，确定历史对话文本对应的回复文本的预测状态信息。示例性地，假设状态结构c_<n＝[c₁，c₂，……c_n-1]，则预测状态信息c_n对应的预测方式如下：

其中，W_c和b_c为可训练的参数，h^c _n-1定义为状态信息c_n-1的表示，n-1用于指示历史对话文本中句子的数量。

步骤404，根据预测状态信息确定第二隐变量。

在本申请实施例中，计算机设备在获取上述预测状态信息之后，根据该预测状态信息确定第二隐向量。其中，第二隐变量用于指示针对回复文本所预测的句子个性信息(如对话逻辑、对话行为等)。

上述第二隐变量的获取方式具体参见下文，在此不作赘述。

步骤405，基于第一隐变量和第二隐变量，生成回复文本。

在本申请实施例中，计算机设备在获取上述第一隐变量和上述第二隐变量之后，生成回复文本。可选地，该回复文本中包括一个句子。

示例性地，如图5所示，以历史对话文本包括三个句子u1、u2和u3为例，计算机设备在获取u1、u2和u3，根据该u1、u2和u3确定第一隐变量z^s，以及u1的状态信息c₁、u2的状态信息c₂、u3的状态信息c₃，进一步地，基于c₁、c₂和c₃确定回复文本u4的预测状态信息c₄，基于c₁确定u1的目标隐变量z^I ₁，基于c₂确定u2的目标隐变量z^I ₂，基于c₃确定u3的目标隐变量z^I ₃，并基于c₄、z^I ₁、z^I ₂和z^I ₃确定第二隐变量z^I ₄，进而基于第一隐变量和第二隐变量确定回复文本u4。

综上所述，本申请实施例提供的技术方案中，通过第一隐变量和第二隐变量确定历史对话文本的回复文本，且第一隐变量用于指示历史对话文本的文本个性信息和历史对话文本的参与对象的对象个性信息，第二隐变量用于指示针对回复文本所预测的句子个性信息，在生成回复文本时，考虑了整体对话的个性化信息、参与对象的个性化信息，以及单独句子的个性化信息，提高回复文本的回复准确性；而且，基于历史对话文本的状态结构预测回复文本的预测状态信息，一方面，状态结构中包括各个句子的状态信息，基于状态结构能够考虑到历史对话文本的状态转移信息，提高状态预测的准确性，另一方面，状态信息为相对于第一隐变量和第二隐变量的显式变量，用于指示对句子的对话意图，在回复文本生成过程中引入显式变量，提高回复文本生成过程中的可解释性，有利于减少句子处理时所需的参数，提高回复文本的生成效率。

下面，对上述第一隐变量和上述状态结构的获取方式进行介绍。

在示例性实施例中，上述步骤402包括以下至少一个步骤：

1、采用两种编码方式对历史对话文本中的各个句子分别进行编码，得到各个句子的第一编码表示和第二编码表示。

在本申请实施例中，计算机设备在获取上述历史对话文本之后，采用两种不同的编码方式对历史对话文本中的各个句子分别将进行编码，得到各个句子的第一编码表示和第二编码表示。

可选地，对于每一个句子，计算机设备采用K层编码网络对句子进行编码，得到句子的第一编码表示；并且，采用L层编码网络对句子进行编码，得到句子的第二编码表示。其中，K小于L，且K和L均为正整数。可选地，在本申请实施例中，上述L层编码网络中上述K层编码网络，且该K层编码网络为该L层编码网络中的前K层编码网络。

可选地，在本申请实施例中，计算机设备在获取上述第一编码表示时，对于历史对话文本的目标句子中的目标词，从目标句子中获取目标词对应的前序词，进而采用K层编码网络，基于目标词和前序词进行编码，得到目标词对应的第一编码表示，并对目标句子中各个词分别对应的第一编码表示进行拼接以得到目标句子的第一编码表示。其中，上述前序词是指在目标句子中位于目标词之前的词。

可选地，在本申请实施例中，计算机设备在获取上述第二编码表示时，对于历史对话文本的目标句子中的目标词，从目标句子中获取目标词对应的前序词，进而采用L层编码网络，基于目标词和前序词进行编码，得到目标词对应的第二编码表示，并对目标句子中各个词分别对应的第二编码表示进行拼接以得到目标句子的第二编码表示。

2、基于各个句子的第一编码表示，确定第一隐变量。

在本申请实施例中，计算机设备在获取上述各个句子的第一编码表示之后，基于各个句子的第一编码表示，确定上述第一隐变量。

可选地，在本申请实施例中，计算机设备在获取上述第一隐变量时，基于各个句子的第一编码表示，确定第一隐变量的采样范围，进而从该采样范围中采样以确定第一隐变量。可选地，上述采样范围的概率分布符合高斯分布，计算机设备通过高斯采样以确定上述第一隐变量。

3、基于各个句子的第二编码表示，分别确定各个句子的状态信息。

在本申请实施例中，计算机设备在获取上述第二编码表示之后，基于各个句子的第二编码表示，分别确定各个句子的状态信息。

4、根据各个句子的状态信息，生成历史对话文本的状态结构。

在本申请实施例中，计算机设备在获取各个句子的状态信息之后，根据各个句子的状态信息，生成历史对话文本的状态结构。

需要说明的一点是，在本申请实施例中，上述状态结构包括各个句子的状态信息，即该状态结构能够表征历史对话文本中各个句子的状态转移情况。

综上，在本申请实施例提供的技术方案中，通过第一编码向量确定第一隐变量，通过第二编码向量确定状态信息，考虑了第一隐变量和状态信息之间的不同，采用不同的编码方式确定第一编码表示和第二编码表示，提高编码表示的准确性；而且，第一隐向量为隐式向量，采用较低层数的编码网络对句子进行编码即可，状态信息为显式向量，需要采用较高层数的编码网络对句子进行编码，编码层数的灵活配置，提高编码效率，降低设备负荷，提高第一隐向量的获取效率。

下面，对上述第二隐变量的获取方式进行介绍。

在示例性实施例中，上述步骤404包括以下至少一个步骤：

1、获取历史对话文本中最后一个句子的第一编码表示；

2、基于预测状态信息以及最后一个句子的第一编码表示，确定回复文本的目标隐变量；

3、基于历史对话文本中各个句子的状态信息和第一编码表示，分别确定各个句子的目标隐变量；

4、根据回复文本的目标隐变量以及历史对话文本中各个句子的目标隐变量，确定第二隐变量。

在本申请实施例中，计算机设备在获取上述第二隐变量时，先获取历史对话文本中最后一个句子的第一编码表示。进一步地，计算机设备在获取上述最后一个句子的第一编码表示之后，基于预测状态信息以及最后一个句子的第一编码表示，确定回复文本的目标隐变量；并且，基于历史对话文本中各个句子的状态信息和第一编码表示，分别确定各个句子的目标隐变量。其中，上述回复文本的目标隐变量是指针对回复文本初步预测的第二隐变量；上述句子的目标隐变量用于指示句子的句子个性信息，该句子的目标隐变量也可称为句子的第二隐变量。

在本申请实施例中，计算机设备在获取上述回复文本的目标隐变量以及历史对话文本中各个句子的目标隐变量之后，根据回复文本的目标隐变量，以及历史对话文本中各个句子的目标隐变量，确定第二隐变量。可选地，计算机设备对回复文本的目标隐变量，以及历史对话文本中各个句子的目标隐变量进行求乘积处理，以确定上述第二隐变量。

示例性地，假设各个句子的第一编码表示为

n-1表示历史对话文本中句子的数量，则第二隐变量z^I _n的获取公式如下：

其中，u表示历史对话文本中的句子，μ表示均值，σ表示平方差，z^I _i表示历史对话文本中第i个句子的第二隐变量(在本申请中也可称为第i个句子的目标隐变量)，c_i表示历史对话文本中第i个句子的状态信息，I表示单位矩阵。可选地，在本申请实施例中可通过Gumbel Trick解决c_i的采样过程不可导的问题。

综上，本申请实施例提供的技术方案中，对于历史对话文本中已知的句子，根据句子的状态信息和第一编码表示确定准确的目标隐向量，对于待生成的回复文本，基于预测状态信息和最后一个句子的第一编码表示初步预测目标隐向量，提高第二隐向量获取的准确性。

下面，对上述回复文本的生成方式进行介绍。

在示例性实施例中，上述步骤405包括以下至少一个步骤：

1、基于历史对话文本中最后一个词的第二编码表示，确定第一逻辑向量；

2、将第一隐变量投影至最后一个词的第二编码表示所在的空间，确定第二逻辑向量；

3、将第二隐变量投影至最后一个词的第二编码表示所在的空间，确定第三逻辑向量；

4、根据第一逻辑向量、第二逻辑向量和第三逻辑向量，生成回复文本。

在本申请实施例中，计算机设备在生成回复文本时，获取历史对话文本中最后一个词的第二编码表示，基于该最后一个词的第二编码表示，确定第一逻辑向量；并且，将上述第一隐变量投影至最后一个词的第二编码表示所在的空间以确定第二逻辑向量，将上述第二隐变量投影至最后一个词的第二编码表示所在的空间以确定第三逻辑向量；进而根据第一逻辑向量、第二逻辑向量和第三逻辑向量，生成回复文本。

可选地，在本申请实施例中，计算机设备在获取上述第一逻辑向量、上述第二逻辑向量和上述第三逻辑向量之后，根据第一逻辑向量、第二逻辑向量和第三逻辑向量，确定回复文本中的第a个词。其中，a为正整数。之后，在该第a个词为终止词的情况下，基于第1至a个词生成上述回复文本；在该第a个词不为终止词的情况下，将第a个词作为历史对话文本中的最后一个词，拼接至历史对话文本的最后一个句子中，生成拼接后历史对话文本，并以拼接后历史对话文本为新的历史对话文本，从基于历史对话文本包含的句子，确定第一隐变量和历史对话文本的状态结构的步骤开始执行，得到回复文本中的第a+1个词，直至得到上述终止词。

示例性地，假设回复文本u_n中的第j个词w^j _n的第二编码表示h^j _n，则第一逻辑向量p^j _n为：

第二逻辑向量p^I _n为：

第三逻辑向量p^S为：

那么，回复文本u_n中的第j+1个词w^j+1 _n的生成概率定义为：

其中，W_v、W^I _v、W^S _v为可训练的参数。

综上，本申请实施例提供的技术方案中，在生成回复文本时，基于前一个词确定后一个词，以词为单位生成回复文本，提高回复文本的准确性。

可选地，在本申请实施例中，可以由回复文本生成模型生成回复文本，该回复文本生成模型包括编码网络、特征提取网络和生成器。其中，该编码网络，用于对历史对话文本中的各个句子分别进行编码，得到各个句子的第一编码表示和第二编码表示；该特征提取网络，用于基于各个句子的第一编码表示和第二编码表示，确定回复文本的预测状态信息、第一隐变量和第二隐变量；该生成器，用于基于第一隐变量和第二隐变量，生成回复文本。

请参考图6，其示出了本申请一个实施例提供的回复文本生成模型的训练方法的流程图。该方法可应用于图1所示的自动回复***的模型训练设备30，如各步骤的执行主体可以是模型训练设备30(以下称为“计算机设备”)。该方法可以包括以下几个步骤(601～606)中的至少一个步骤：

步骤601，获取样本对话文本。

样本对话文本是指用于对回复文本生成模型进行训练的文本。其中，该样本对话文本包括至少一个样本句子。在本申请实施例中，计算机设备在对回复文本生成模型进行训练之前，获取针对该回复文本生成模型的样本对话文本。

步骤602，对各个样本句子分别进行编码，得到各个样本句子的第一编码表示和第二编码表示。

在本申请实施例中，计算机设备在获取上述样本对话文本之后，对各个样本句子分别进行编码，得到各个样本句子的第一编码表示和第二编码表示。

可选地，在本申请实施例中，计算机设备采用不同的编码方式对各个样本句子分别进行编码，以得到各个样本句子的第一编码表示和第二编码表示。示例性地，对于每一个样本句子，计算机设备采用K层编码网络对样本句子进行编码，得到样本句子的第一编码表示；并且，采用L层编码网络对样本句子进行编码，得到样本句子的第二编码表示。其中，K小于L，且K和L均为正整数。可选地，在本申请实施例中，上述L层编码网络中上述K层编码网络，且该K层编码网络为该L层编码网络中的前K层编码网络。

步骤603，基于各个样本句子的第一编码表示，确定第一隐变量。

在本申请实施例中，计算机设备在获取上述各个样本句子的第一编码表示的情况下，基于各个样本句子的第一编码表示，确定第一隐变量。其中，第一隐变量用于指示样本对话文本的文本个性信息和样本对话文本的参与对象的对象个性信息。

需要说明的一点是，第一隐变量为不随着时间而变化的信息，即在同一样本对话文本中，不同句子的第一隐变量相同。

步骤604，基于各个样本句子的第二编码表示，分别确定各个样本句子的状态信息。

在本申请实施例中，计算机设备在获取上述各个样本句子的第二编码表示之后，基于各个样本句子的第二编码表示，分别确定各个样本句子的状态信息。其中，状态信息用于指示样本句子的对话意图。

步骤605，基于各个样本句子的第一编码表示，以及各个样本句子的状态信息，分别确定各个样本句子的第二隐变量。

在本申请实施例中，计算机设备在获取上述各个样本句子的第一编码表示以及各个样本句子的状态信息之后，基于各个样本句子的第一编码表示，以及各个样本句子的状态信息，分别确定各个样本句子的第二隐变量。其中，第二隐变量用于指示样本句子的句子特征信息；

需要说明的一点是，第二隐变量为随着时间而变化的信息，即在同一样本对话文本中，不同句子的第二隐变量不同。

步骤606，根据第一隐变量、各个样本句子的状态信息和各个样本句子的第二隐变量，对回复文本生成模型进行训练。

在本申请实施例中，计算机设备在获取上述第一隐变量、上述各个样本句子的状态信息和上述各个样本句子的第二隐变量之后，根据第一隐变量、各个样本句子的状态信息和各个样本句子的第二隐变量，对回复文本生成模型进行训练。

需要说明的一点是，在本申请实施例中，由于样本对话文本中的句子均为已知句子，在模型训练过程中，与上述图5不同，如图7所示，根据样本句子u1可以直接确定该样本句子u1的状态信息c₁和第二隐变量z^I ₁，类似地，根据样本句子u2可以直接确定该样本句子u2的状态信息c₂和第二隐变量z^I ₂，根据样本句子u3可以直接确定该样本句子u3的状态信息c₃和第二隐变量z^I ₃。

综上所述，本申请实施例提供的技术方案中，通过回复文本生成模型，能够基于历史对话文本确定回复文本，提供了一种自动回复的方式，且第一隐变量用于指示历史对话文本的文本个性信息和历史对话文本的参与对象的对象个性信息，第二隐变量用于指示针对回复文本所预测的句子个性信息，在模型训练过程中，考虑了整体对话的个性化信息、参与对象的个性化信息，以及单独句子的个性化信息，提高回复文本生成模型的准确性；而且，在训练过程中运用了各个样本句子的状态信息，各个句子的状态信息相互关联能够反映整体对话的状态转移信息，提高回复文本生成模型的准确性。

下面，对回复文本生成模型的训练过程进行介绍。

在示例性实施例中，上述步骤706包括以下至少一个步骤：

1、根据第一隐变量、各个样本句子的状态信息和各个样本句子的第二隐变量，确定回复文本生成模型的第一损失。

可选地，在本申请实施例中，在模型训练过程中引入第一损失，该第一损失用于衡量回复文本生成模型输出回复文本的准确性。在本申请实施例中，计算机设备在获取上述第一隐变量、上述各个样本句子的状态信息和上述各个样本句子的第二隐变量之后，根据第一隐变量、各个样本句子的状态信息和各个样本句子的第二隐变量，确定回复文本生成模型的第一损失。

可选地，上述第一损失中包括第一子损失、第二子损失、第三子损失和第四子损失。

可选地，在本申请实施例中，计算机设备根据第一隐变量和第二隐变量的联合概率分布，以及第一隐变量的目标概率分布和第二隐变量的目标概率分布，确定第一子损失。示例性地，假设第一隐变量的目标概率分布为

第二隐变量的目标概率分布为

则第一子损失L₁为：

其中，n表示样本对话文本中样本句子的数量，u_t表示样本对话文本中的第t个样本句子，m表示样本句子中词的数量，X表示后验条件。

可选地，在本申请实施例中，各个样本句子的第二隐变量对应的目标概率分布相同。

可选地，在本申请实施例中，计算机设备根据各个样本句子的状态信息的预测概率分布，以及各个样本句子的状态信息的目标概率分布，确定第二子损失。示例性地，假设状态信息的目标概率分布为

则第二子损失L₂为：

其中，D_KL(||)表示KL散度。

可选地，在本申请实施例中，计算机设备根据第一隐变量的预测概率分布，以及第一隐变量的目标概率分布，确定第三子损失。示例性地，第三子损失L₃为：

可选地，在本申请实施例中，各个样本句子的状态信息对应的目标概率分布相同。

可选地，在本申请实施例中，计算机设备根据各个样本句子的第二隐变量的预测概率分布，以及各个样本句子的第二隐变量的目标概率分布，确定第四子损失。示例性地，第四子损失L₄为：

可选地，在本申请实施例中，计算机设备根据第一子损失、第二子损失、第三子损失和第四子损失，确定回复文本生成模型的第一损失。示例性地，第一损失L_elob为：

L_elob＝-L₁+L₂+L₃+L₄。

2、根据第一隐变量，确定回复文本生成模型的第二损失。

可选地，在本申请实施例中，在模型训练过程中引入第二损失，该第二损失用于衡量基于不同方式获取的第一隐变量的一致性。在本申请实施例中，计算机设备根据第一隐变量，确定回复文本生成模型的第二损失。

可选地，在本申请实施例中，计算机设备在获取第二损失时，对样本对话文本中的句子顺序进行重排，得到重排后的样本对话文本；从样本对话文本中提取对话段，得到样本对话文本段；基于重排后的样本对话文本和样本对话文本段，获取扰动隐变量和随机隐变量；其中，扰动隐变量是指重排后的样本对话文本对应的第一隐变量，随机隐变量是指样本对话文本段对应的第一隐变量；根据第一隐变量、扰动隐变量和随机隐变量，确定第二损失。

示例性地，假设z^S表示第一隐向量，

表示扰动隐变量，

表示随机隐变量，则第二损失L_scc为：

其中，sim()表示两个向量间的点积。

3、根据各个样本句子的第二隐变量，确定回复文本生成模型的第三损失。

可选地，在本申请实施例中，在模型训练过程中引入第三损失，该第三损失用于衡量第二隐变量的准确性。在本申请实施例中，计算机设备根据各个样本句子的第二隐变量，确定回复文本生成模型的第三损失。

可选地，在本申请实施例中，计算机设备基于各个样本句子的第二隐变量，对样本句子分别进行动词预测，得到各个样本句子分别对应的动词预测结果；根据各个样本句子分别对应的动词预测结果，确定第三损失。

示例性地，第三损失L_dyn为：

其中，当

时，

是一个动词。

4、根据第一隐变量和各个样本句子的第二隐变量，确定回复文本生成模型的第四损失。

可选地，在本申请实施例中，在模型训练过程中引入第四损失，该第四损失用于衡量衡量第一隐变量和第二隐变量的解耦性。在本申请实施例中，根据第一隐变量和各个样本句子的第二隐变量，确定回复文本生成模型的第四损失。

可选地，在本申请实施例中，计算机设备根据第一隐变量的预测概率分布，确定第一隐变量的信息熵；根据各个样本句子的第二隐变量的预测概率分布，确定第二隐变量的信息熵；根据第一隐变量的预测概率分布和各个样本句子的第二隐变量的预测概率分布，确定第一隐变量和第二隐变量的联合熵；基于第一隐变量的信息熵、第二隐变量的信息熵和联合熵，确定第四损失。

示例性地，假设第一隐变量的信息熵为H(z^S)，第二隐变量的信息熵为H(z_i ^I)，联合熵为H(z^S，z_i ^I)，则第四损失L_mi为：

5、根据第一损失、第二损失、第三损失和第四损失，对回复文本生成模型进行参数调整。

在本申请实施例中，计算机设备在获取上述第一损失、第二损失、第三损失和第四损失之后，根据第一损失、第二损失、第三损失和第四损失，对回复文本生成模型进行参数调整。

可选地，在本申请实施例中，计算机设备在获取第一损失、第二损失、第三损失和第四损失之后，基于第一损失、第二损失、第三损失和第四损失，确定回复文本生成模型的最终损失，并基于该最终损失对回复文本生成模型的参数进行调整，直至该最终损失收敛。示例性地，最终损失L为：

L＝L_elob+α(L_scc+L_dyn+L_mi)；

其中，α为超参数。

需要说明的一点是，在本申请实施例中，回复文本生成模型针对样本对话文本的具体处理方式与上述回复文本的生成方法之间具有对应关系，关于回复文本生成模型的具体细节可参考上述回复文本的生成方法侧的实施例。

下面，对本申请中回复文本生成模型的相关实验数据，与其它运用于自动对话场景下的模型的相关实验数据进行对比。

在零资源场景下，上述回复文本生成模型在训练后可直接投入使用；在全量资源场景下，上述回复文本生成模型在训练后需要通过下游任务对模型参数进行再次调整。

在两个开放领域多轮对话数据集DailyDialog和ConvAI2上的实验结果表明(表1和表2)，尽管本申请提出的模型在参数上远小于baseline(对照组)模型，但是在相关性指标(即BLEU-1/2/3/4，ROUGE-1/2/L和METEOR)上取得了远远好于baseline模型的效果，同时在特异性指标(即Distinct-1/2)上取得了与baseline模型相当的效果。

表1 DailyDialog的测试集上自动评测指标的结果

表2 ConvAI2的测试集上自动评测指标的结果

另外，通过表3可知，本申请提供的回复文本生成模型在Relevance和Engagement上远远好于baseline模型；通过表4可知，本申请提供的回复文本生成模型在解码速度上要远远好于baseline模型。

表3 DailyDialog和ConvAI2上的人工评测结果

表4关于解码速度的测试结果

可以理解的是，本申请的具体实施方式中，涉及到用户信息等相关数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或同意，且相关数据的收集、使用和处理需要遵守相关国家和地图的相关法律法规和标准；例如，本申请中涉及到的历史对话文本、样本对话文本等方面的内容，均是在用户允许且符合相关法律法规和标准的情况下进行收集的。

还需要说明的一点是，上文中通过实施例对本申请的介绍，仅仅是示例性和解释性的，将上述实施例中的步骤进行任意组合形成的新的实施例，也在本申请的保护范围内。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图8，其示出了本申请一个实施例提供的回复文本的生成装置的框图。该装置具有实现上述回复文本的生成方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置计算机设备中。该装置800可以包括：文本获取模块810、结构确定模块820、状态预测模块830、变量确定模块840和回复生成模块850。

文本获取模块810，用于获取历史对话文本，所述历史对话文本包括至少一个句子。

结构确定模块820，用于基于所述历史对话文本包含的句子，确定第一隐变量和所述历史对话文本的状态结构；其中，所述第一隐变量用于指示所述历史对话文本的文本个性信息和所述历史对话文本的参与对象的对象个性信息；所述状态结构中包括各个所述句子的状态信息，所述状态信息用于指示所述句子的对话意图。

状态预测模块830，用于根据所述状态结构，确定所述历史对话文本对应的回复文本的预测状态信息。

变量确定模块840，用于根据所述预测状态信息确定第二隐变量，所述第二隐变量用于指示针对所述回复文本所预测的句子个性信息。

回复生成模块850，用于基于所述第一隐变量和所述第二隐变量，生成所述回复文本。

在示例性实施例中，如图9所示，所述结构确定模块820，包括：句子编码单元821、第一确定单元822、状态确定单元823和结构生成单元824。

句子编码单元821，用于采用两种编码方式对所述历史对话文本中的各个所述句子分别进行编码，得到各个所述句子的第一编码表示和第二编码表示。

第一确定单元822，用于基于各个所述句子的第一编码表示，确定所述第一隐变量。

状态确定单元823，用于基于各个所述句子的第二编码表示，分别确定各个所述句子的状态信息。

结构生成单元824，用于根据各个所述句子的状态信息，生成所述历史对话文本的状态结构。

在示例性实施例中，所述句子编码单元821，用于对于每一个所述句子，采用K层编码网络对所述句子进行编码，得到所述句子的第一编码表示；采用L层编码网络对所述句子进行编码，得到所述句子的第二编码表示；其中，K小于L，且K和L均为正整数。

在示例性实施例中，所述句子编码单元821，还用于对于所述历史对话文本的目标句子中的目标词，从所述目标句子中获取所述目标词对应的前序词，所述前序词是指在所述目标句子中位于所述目标词之前的词；采用所述K层编码网络，基于所述目标词和所述前序词进行编码，得到所述目标词对应的第一编码表示；对所述目标句子中各个词分别对应的第一编码表示进行拼接，得到所述目标句子的第一编码表示。

在示例性实施例中，所述第一确定单元822，用于基于各个所述句子的第一编码表示，确定所述第一隐变量的采样范围；从所述采样范围中采样以确定所述第一隐变量。

在示例性实施例中，所述变量确定模块840，用于获取所述历史对话文本中最后一个句子的第一编码表示；基于所述预测状态信息以及所述最后一个句子的第一编码表示，确定所述回复文本的目标隐变量；其中，所述回复文本的目标隐变量是指针对所述回复文本初步预测的第二隐变量；基于所述历史对话文本中各个所述句子的状态信息和第一编码表示，分别确定各个所述句子的目标隐变量；其中，所述句子的目标隐变量用于指示所述句子的句子个性信息；根据所述回复文本的目标隐变量以及所述历史对话文本中各个所述句子的目标隐变量，确定所述第二隐变量。

在示例性实施例中，如图9所示，所述回复生成模块850，包括：向量获取单元851和文本生成单元852。

向量获取单元851，用于基于所述历史对话文本中最后一个词的第二编码表示，确定第一逻辑向量；将所述第一隐变量投影至所述最后一个词的第二编码表示所在的空间，确定第二逻辑向量；将所述第二隐变量投影至所述最后一个词的第二编码表示所在的空间，确定第三逻辑向量。

文本生成单元852，用于根据所述第一逻辑向量、所述第二逻辑向量和所述第三逻辑向量，生成所述回复文本。

在示例性实施例中，所述文本生成单元852，用于根据所述第一逻辑向量、所述第二逻辑向量和所述第三逻辑向量，确定所述回复文本中的第a个词；其中，a为正整数；在所述第a个词为终止词的情况下，基于第1至a个词生成所述回复文本；在所述第a个词不为终止词的情况下，将所述第a个词作为所述历史对话文本中的最后一个词，拼接至所述历史对话文本的最后一个句子中，生成拼接后历史对话文本；以所述拼接后历史对话文本为新的历史对话文本，从所述基于所述历史对话文本包含的句子，确定第一隐变量和所述历史对话文本的状态结构的步骤开始执行，得到所述回复文本中的第a+1个词，直至得到所述终止词。

在示例性实施例中，由回复文本生成模型生成所述回复文本，所述回复文本生成模型包括编码网络、特征提取网络和生成器；其中，所述编码网络，用于对所述历史对话文本中的各个所述句子分别进行编码，得到各个所述句子的第一编码表示和第二编码表示；所述特征提取网络，用于基于各个所述句子的第一编码表示和第二编码表示，确定所述回复文本的预测状态信息、所述第一隐变量和所述第二隐变量；所述生成器，用于基于所述第一隐变量和所述第二隐变量，生成所述回复文本。

请参考图10，其示出了本申请一个实施例提供的回复文本生成模型的训练装置的框图。该装置具有实现上述回复文本生成模型的训练方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置计算机设备中。该装置1000可以包括：样本获取模块1010、样本编码模块1020、第一确定模块1030、信息确定模块1040、第二确定模块1050和模型训练模块1060。

样本获取模块1010，用于获取样本对话文本，所述样本对话文本包括至少一个样本句子。

样本编码模块1020，用于对各个所述样本句子分别进行编码，得到各个所述样本句子的第一编码表示和第二编码表示。

第一确定模块1030，用于基于各个所述样本句子的第一编码表示，确定第一隐变量，所述第一隐变量用于指示所述样本对话文本的文本个性信息和所述样本对话文本的参与对象的对象个性信息。

信息确定模块1040，用于基于各个所述样本句子的第二编码表示，分别确定各个所述样本句子的状态信息；其中，所述状态信息用于指示所述样本句子的对话意图。

第二确定模块1050，用于基于各个所述样本句子的第一编码表示，以及各个所述样本句子的状态信息，分别确定各个所述样本句子的第二隐变量；其中，所述第二隐变量用于指示所述样本句子的句子特征信息。

模型训练模块1060，用于根据所述第一隐变量、各个所述样本句子的状态信息和各个所述样本句子的第二隐变量，对所述回复文本生成模型进行训练。

在示例性实施例中，如图11所示，所述模型训练模块1060，包括：第一获取单元1061、第二获取单元1062、第三获取单元1063、第四获取单元1064和参数调整单元1065。

第一获取单元1061，用于根据所述第一隐变量、各个所述样本句子的状态信息和各个所述样本句子的第二隐变量，确定所述回复文本生成模型的第一损失，所述第一损失用于衡量所述回复文本生成模型输出回复文本的准确性。

第二获取单元1062，用于根据所述第一隐变量，确定所述回复文本生成模型的第二损失，所述第二损失用于衡量基于不同方式获取的第一隐变量的一致性。

第三获取单元1063，用于根据各个所述样本句子的第二隐变量，确定所述回复文本生成模型的第三损失，所述第三损失用于衡量所述第二隐变量的准确性。

第四获取单元1064，用于根据所述第一隐变量和各个所述样本句子的第二隐变量，确定所述回复文本生成模型的第四损失，所述第四损失用于衡量所述第一隐变量和所述第二隐变量的解耦性。

参数调整单元1065，用于根据所述第一损失、所述第二损失、所述第三损失和所述第四损失，对所述回复文本生成模型进行参数调整。

在示例性实施例中，所述第一获取单元1061，用于根据所述第一隐变量和所述第二隐变量的联合概率分布，以及所述第一隐变量的目标概率分布和所述第二隐变量的目标概率分布，确定第一子损失；根据各个所述样本句子的状态信息的预测概率分布，以及各个所述样本句子的状态信息的目标概率分布，确定第二子损失；根据所述第一隐变量的预测概率分布，以及所述第一隐变量的目标概率分布，确定第三子损失；根据各个所述样本句子的第二隐变量的预测概率分布，以及各个所述样本句子的第二隐变量的目标概率分布，确定第四子损失；根据所述第一子损失、所述第二子损失、所述第三子损失和所述第四子损失，确定所述回复文本生成模型的第一损失。

在示例性实施例中，所述第二获取单元1062，用于对样本对话文本中的句子顺序进行重排，得到重排后的样本对话文本；从所述样本对话文本中提取对话段，得到样本对话文本段；基于所述重排后的样本对话文本和所述样本对话文本段，获取扰动隐变量和随机隐变量；其中，所述扰动隐变量是指所述重排后的样本对话文本对应的第一隐变量，所述随机隐变量是指所述样本对话文本段对应的第一隐变量；根据所述第一隐变量、所述扰动隐变量和所述随机隐变量，确定所述第二损失。

在示例性实施例中，所述第三获取单元1063，用于基于各个所述样本句子的第二隐变量，对所述样本句子分别进行动词预测，得到各个所述样本句子分别对应的动词预测结果；根据所述各个所述样本句子分别对应的动词预测结果，确定所述第三损失。

在示例性实施例中，所述第四获取单元1064，用于根据所述第一隐变量的预测概率分布，确定所述第一隐变量的信息熵；根据各个所述样本句子的第二隐变量的预测概率分布，确定所述第二隐变量的信息熵；根据所述第一隐变量的预测概率分布和各个所述样本句子的第二隐变量的预测概率分布，确定所述第一隐变量和所述第二隐变量的联合熵；基于所述第一隐变量的信息熵、所述第二隐变量的信息熵和所述联合熵，确定所述第四损失。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图12，其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可用于实现上述回复文本的生成方法或回复文本生成模型的训练方法的功能。具体来讲：

计算机设备1200包括中央处理单元(Central Processing Unit，CPU)1201、包括随机存取存储器(Random Access Memory，RAM)1202和只读存储器(Read Only Memory，ROM)1203的***存储器1204，以及连接***存储器1204和中央处理单元1201的***总线1205。计算机设备1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(Input/Output，I/O***)1206，和用于存储操作***1213、应用程序1214和其他程序模块1215的大容量存储设备1207。

基本输入/输出***1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中显示器1208和输入设备1209都通过连接到***总线1205的输入输出控制器1210连接到中央处理单元1201。基本输入/输出***1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1207通过连接到***总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说，大容量存储设备1207可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory，电可擦可编程只读存储器)、闪存或其他固态存储设备，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器1204和大容量存储设备1207可以统称为存储器。

根据本申请的各种实施例，计算机设备1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1200可以通过连接在***总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机***(未示出)。

所述存储器还包括计算机程序，该计算机程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述回复文本的生成方法，或实现上述回复文本生成模型的训练方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述回复文本的生成方法，或实现上述回复文本生成模型的训练方法。

可选地，该计算机可读存储介质可以包括：ROM(Read Only Memory，只读存储器)、RAM(Random Access Memory，随机存取记忆体)、SSD(Solid State Drives，固态硬盘)或光盘等。其中，随机存取记忆体可以包括ReRAM(Resistance Random Access Memory，电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory，动态随机存取存储器)。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述回复文本的生成方法，或执行上述回复文本生成模型的训练方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种回复文本的生成方法，其特征在于，所述方法包括：

获取历史对话文本，所述历史对话文本包括至少一个句子；

2.根据权利要求1所述的方法，其特征在于，所述基于所述历史对话文本包含的句子，确定第一隐变量和所述历史对话文本的状态结构，包括：

采用两种编码方式对所述历史对话文本中的各个所述句子分别进行编码，得到各个所述句子的第一编码表示和第二编码表示；

基于各个所述句子的第一编码表示，确定所述第一隐变量；

基于各个所述句子的第二编码表示，分别确定各个所述句子的状态信息；

根据各个所述句子的状态信息，生成所述历史对话文本的状态结构。

3.根据权利要求2所述的方法，其特征在于，所述采用两种编码方式对所述历史对话文本中的各个所述句子分别进行编码，得到各个所述句子的第一编码表示和第二编码表示，包括：

对于每一个所述句子，采用K层编码网络对所述句子进行编码，得到所述句子的第一编码表示；

采用L层编码网络对所述句子进行编码，得到所述句子的第二编码表示；

其中，K小于L，且K和L均为正整数。

4.根据权利要求3所述的方法，其特征在于，所述采用K层编码网络对所述句子进行编码，得到所述句子的第一编码表示，包括：

对于所述历史对话文本的目标句子中的目标词，从所述目标句子中获取所述目标词对应的前序词，所述前序词是指在所述目标句子中位于所述目标词之前的词；

采用所述K层编码网络，基于所述目标词和所述前序词进行编码，得到所述目标词对应的第一编码表示；

对所述目标句子中各个词分别对应的第一编码表示进行拼接，得到所述目标句子的第一编码表示。

5.根据权利要求2所述的方法，其特征在于，所述基于各个所述句子的第一编码表示，确定所述第一隐变量，包括：

基于各个所述句子的第一编码表示，确定所述第一隐变量的采样范围；

从所述采样范围中采样以确定所述第一隐变量。

6.根据权利要求1所述的方法，其特征在于，所述根据所述预测状态信息确定第二隐变量，包括：

获取所述历史对话文本中最后一个句子的第一编码表示；

基于所述预测状态信息以及所述最后一个句子的第一编码表示，确定所述回复文本的目标隐变量；其中，所述回复文本的目标隐变量是指针对所述回复文本初步预测的第二隐变量；

基于所述历史对话文本中各个所述句子的状态信息和第一编码表示，分别确定各个所述句子的目标隐变量；其中，所述句子的目标隐变量用于指示所述句子的句子个性信息；

根据所述回复文本的目标隐变量以及所述历史对话文本中各个所述句子的目标隐变量，确定所述第二隐变量。

7.根据权利要求1所述的方法，其特征在于，所述基于所述第一隐变量和所述第二隐变量，生成所述回复文本，包括：

基于所述历史对话文本中最后一个词的第二编码表示，确定第一逻辑向量；

将所述第一隐变量投影至所述最后一个词的第二编码表示所在的空间，确定第二逻辑向量；

将所述第二隐变量投影至所述最后一个词的第二编码表示所在的空间，确定第三逻辑向量；

根据所述第一逻辑向量、所述第二逻辑向量和所述第三逻辑向量，生成所述回复文本。

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一逻辑向量、所述第二逻辑向量和所述第三逻辑向量，生成所述回复文本，包括：

根据所述第一逻辑向量、所述第二逻辑向量和所述第三逻辑向量，确定所述回复文本中的第a个词；其中，a为正整数；

在所述第a个词为终止词的情况下，基于第1至a个词生成所述回复文本；

在所述第a个词不为终止词的情况下，将所述第a个词作为所述历史对话文本中的最后一个词，拼接至所述历史对话文本的最后一个句子中，生成拼接后历史对话文本；以所述拼接后历史对话文本为新的历史对话文本，从所述基于所述历史对话文本包含的句子，确定第一隐变量和所述历史对话文本的状态结构的步骤开始执行，得到所述回复文本中的第a+1个词，直至得到所述终止词。

9.根据权利要求1至8任一项所述的方法，其特征在于，由回复文本生成模型生成所述回复文本，所述回复文本生成模型包括编码网络、特征提取网络和生成器；其中，

所述编码网络，用于对所述历史对话文本中的各个所述句子分别进行编码，得到各个所述句子的第一编码表示和第二编码表示；

所述特征提取网络，用于基于各个所述句子的第一编码表示和第二编码表示，确定所述回复文本的预测状态信息、所述第一隐变量和所述第二隐变量；

所述生成器，用于基于所述第一隐变量和所述第二隐变量，生成所述回复文本。

10.一种回复文本生成模型的训练方法，其特征在于，所述方法包括：

11.根据权利要求10所述的方法，其特征在于，所述根据所述第一隐变量、各个所述样本句子的状态信息和各个所述样本句子的第二隐变量，对所述回复文本生成模型进行训练，包括：

根据所述第一隐变量、各个所述样本句子的状态信息和各个所述样本句子的第二隐变量，确定所述回复文本生成模型的第一损失，所述第一损失用于衡量所述回复文本生成模型输出回复文本的准确性；

根据所述第一隐变量，确定所述回复文本生成模型的第二损失，所述第二损失用于衡量基于不同方式获取的第一隐变量的一致性；

根据各个所述样本句子的第二隐变量，确定所述回复文本生成模型的第三损失，所述第三损失用于衡量所述第二隐变量的准确性；

根据所述第一隐变量和各个所述样本句子的第二隐变量，确定所述回复文本生成模型的第四损失，所述第四损失用于衡量所述第一隐变量和所述第二隐变量的解耦性；

根据所述第一损失、所述第二损失、所述第三损失和所述第四损失，对所述回复文本生成模型进行参数调整。

12.根据权利要求11所述的方法，其特征在于，所述根据所述第一隐变量、各个所述样本句子的状态信息和各个所述样本句子的第二隐变量，确定所述回复文本生成模型的第一损失，包括：

根据所述第一隐变量和所述第二隐变量的联合概率分布，以及所述第一隐变量的目标概率分布和所述第二隐变量的目标概率分布，确定第一子损失；

根据各个所述样本句子的状态信息的预测概率分布，以及各个所述样本句子的状态信息的目标概率分布，确定第二子损失；

根据所述第一隐变量的预测概率分布，以及所述第一隐变量的目标概率分布，确定第三子损失；

根据各个所述样本句子的第二隐变量的预测概率分布，以及各个所述样本句子的第二隐变量的目标概率分布，确定第四子损失；

根据所述第一子损失、所述第二子损失、所述第三子损失和所述第四子损失，确定所述回复文本生成模型的第一损失。

13.根据权利要求11所述的方法，其特征在于，所述根据所述第一隐变量，确定所述回复文本生成模型的第二损失，包括：

对样本对话文本中的句子顺序进行重排，得到重排后的样本对话文本；

从所述样本对话文本中提取对话段，得到样本对话文本段；

基于所述重排后的样本对话文本和所述样本对话文本段，获取扰动隐变量和随机隐变量；其中，所述扰动隐变量是指所述重排后的样本对话文本对应的第一隐变量，所述随机隐变量是指所述样本对话文本段对应的第一隐变量；

根据所述第一隐变量、所述扰动隐变量和所述随机隐变量，确定所述第二损失。

14.根据权利要求11所述的方法，其特征在于，所述根据各个所述样本句子的第二隐变量，确定所述回复文本生成模型的第三损失，包括：

基于各个所述样本句子的第二隐变量，对所述样本句子分别进行动词预测，得到各个所述样本句子分别对应的动词预测结果；

根据所述各个所述样本句子分别对应的动词预测结果，确定所述第三损失。

15.根据权利要求11所述的方法，其特征在于，所述根据所述第一隐变量和各个所述样本句子的第二隐变量，确定所述回复文本生成模型的第四损失，包括：

根据所述第一隐变量的预测概率分布，确定所述第一隐变量的信息熵；

根据各个所述样本句子的第二隐变量的预测概率分布，确定所述第二隐变量的信息熵；

根据所述第一隐变量的预测概率分布和各个所述样本句子的第二隐变量的预测概率分布，确定所述第一隐变量和所述第二隐变量的联合熵；

基于所述第一隐变量的信息熵、所述第二隐变量的信息熵和所述联合熵，确定所述第四损失。

16.一种回复文本的生成装置，其特征在于，所述装置包括：

17.一种回复文本生成模型的训练装置，其特征在于，所述装置包括：

18.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一项所述的回复文本的生成方法，或实现如权利要求10至15任一项所述的回复文本生成模型的训练方法。

19.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一项所述的回复文本的生成方法，或实现如权利要求10至15任一项所述的回复文本生成模型的训练方法。

20.一种计算机程序产品或计算机程序，其特征在于，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中，处理器从所述计算机可读存储介质读取并执行所述计算机指令，以实现如权利要求1至9任一项所述的回复文本的生成方法，或实现如权利要求10至15任一项所述的回复文本生成模型的训练方法。