CN116150334A

CN116150334A - 基于UniLM模型和Copy机制的中文共情语句训练方法及***

Info

Publication number: CN116150334A
Application number: CN202211591710.7A
Authority: CN
Inventors: 朱国华; 姚盛根; 胡晓莉
Original assignee: Jianghan University
Current assignee: Jianghan University
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-05-23

Abstract

本发明属于面向中文的自然语言生成技术领域，提出了一种基于UniLM模型和Copy机制的中文共情语句训练方法及***，针对共情回复和用户输入的上下文相关性不足、以及回复中包含情绪关键词和复杂事件细节的特殊性，使用Copy机制使输出能从输入中复制情绪关键词和复杂事件细节。同时，针对缺乏足量的、多样性的训练语料，对生成的共情回复进行综合评价，将符合预期标准的优质共情回复以及用户输入放入原始训练语料进行复式自动迭代训练，增强训练数据。本发明使提出在解码器中融合Copy机制，将情绪关键词和复杂事件细节复制到输出中来解决。针对中文心里对话具有共情能力的语料匮乏的问题，本发明采用复式自动迭代训练来增强训练数据。

Description

基于UniLM模型和Copy机制的中文共情语句训练方法及***

技术领域

本发明属于面向中文的自然语言生成技术领域，尤其涉及一种基于UniLM和Copy机制的中文共情回复生成方法。

背景技术

随着深度学习应用在各个领域中，智能会话***也得到了快速发展。用户希望能和智能会话***实现情感上的交流，而共情能达到这一目的。于是，共情回复生成应运而生。共情被卡尔·罗杰斯(Carl Ransom Rogers)定义为：在人际交往过程中，站在他人立场上想象他人的经历与逻辑，体会他人的想法与感受，从他人的视角看待问题并解决问题。共情回复生成是指智能会话***通过历史会话判断用户的情感状态，从而生成体会到用户感受的情感回复。现有研究表明，具有共情能力的智能会话***不仅能提高用户的满意度，而且能获得用户更多积极的反馈。

在心理健康咨询会话中，智能会话***作为辅助工具能帮助咨询师解决部分任务，被认为是心理健康干预、辅助咨询诊断等服务应用的关键。因此，被赋予共情能力的智能会话***逐渐成为研究热点。一个好的会话模型，它的输入和输出之间必然具有极强的上下文相关性。上下文相关性是指用户的输入和模型的输出二者之间的相互关系。目前，主流的回复生成方法是基于深度学习的序列到序列方法，或者是基于预训练模型。

传统的序列到序列的编码器端主要是RNN、LSTM等。相比于Transformer，RNN、LSTM等在语义提取特征方面能力不够，并且在长距离依赖上有所欠缺。虽然基于Transformer的各类语言模型生成的回复可读性高于RNN、LSTM等，但还是存在生成细节不准确而造成上下文不相关的问题。

发明内容

针对现有技术存在的问题，本发明提出一种基于UniLM模型和Copy机制的中文共情语句训练方法。

本发明是这样实现的，一种基于UniLM模型和Copy机制的中文共情回复生成方法，融合Copy机制的目的是将源序列中的情绪关键词和复杂事件细节复制到输出中；然后使用困惑度等评价标准对输出的共情回复进行评价，将符合预期的回复和用户陈述放入原始训练语料中进行复式自动迭代训练，得到进一步更新优化的共情回复生成模型。

本发明采用的技术方案是基于UniLM模型和Copy机制的中文共情回复生成方法，具体包括如下步骤：

步骤1，使用爬虫技术爬取心理对话领域具有共情能力的语料，并进行预处理，得到输入表示；

步骤2，基于UniLM模型进行预训练，同时使用三种类型的语言模型，每种语言模型使用不同的自注意力掩码机制；

步骤3，利用交叉熵损失函数计算损失，完成基于UniLM模型的预训练，得到共情回复生成模型；

步骤4，基于UniLM模型进行共情回复生成任务，通过序列到序列语言模型的自注意力机制解码，得到词表概率分布；

步骤5，在步骤4基础上构建包含Copy机制的解码器，引入生成概率和复制概率，优化步骤4中的词表概率分布；

步骤6，将交叉熵损失函数作为模型的损失函数，利用BeamSearch算法得到生成的共情回复；

步骤7，将生成的优质共情回复和用户的陈述放入步骤1的语料中，进一步基于UniLM模型进行复式自动迭代训练，得到更新优化后的共情回复生成模型。

进一步，所述每次输入两个文本序列Segment1，记作s1和Segment2，记作s2，例如：“[CLS]脑子里总会想一些自己非常讨厌的人或事[SEP]了解到你因为纠结生活中的负面事件、遗忘积极事件而感到困惑和不解[SEP]”。[CLS]标记序列开端，[SEP]标记序列结尾，文本序列对通过三种Embedding得到输入表示。

进一步，所述UniLM模型由12层Transformer结构堆叠，每层Transformer的隐藏层都有768个隐藏节点、12个头，结构和BERT-BASE一样，因此可以由训练好的BERT-BASE模型初始化参数。UniLM模型能同时完成三种预训练目标，可以完成单向训练语言模型、双向训练语言模型、序列到序列语言模型的预测任务，使模型能够应用自然语言生成任务。针对不同的语言模型，采取不同的MASK机制，MASKING方式：总体比例15％，其中80％的情况下直接用[MASK]替代，10％的情况下随机选择词典中一个词替代，最后10％的情况用真实值，不做任何处理。还有就是80％的情况是每次只MASK一个词，另外20％的情况是MASK掉两个词bigram或者三个词trigram。对于要预测的MASK，单向语言模型使用一侧的上下文，例如预测序列"X1X2[MASK]X4"中的掩码，仅仅只有X1,X2和它自己的信息可用，X4的信息是不可用的。双向语言模型从两个方向编码上下文信息，以"X1X2[MASK]X4"为例子，其中X1,X2,X4及自己的信息都可用。序列到序列语言模型中，若MASK在S1中，则只能编码S1的上下文信息；若MASK在S2中，则它可获得MASK左侧，包括S1的上下文信息。

进一步，所述Transformer网络输出的文本表征输入Softmax分类器，预测被掩盖的词，对预测分词和原始分词使用交叉熵损失函数，优化模型参数，完成预训练。

进一步，所述通过随机掩盖掉目标序列中一定比例的分词，使用序列到序列语言模型学习恢复被掩盖的词，其训练目标是基于上下文信息最大化被掩盖分词的概率。目标序列结尾的[SEP]也可以被掩盖掉，让模型学习什么时候终止生成目标序列。模型使用MASK机制，结合注意力机制得到文本特征向量，将其输入到全连接层，得到词表概率分布。

进一步，所述词表概率分布输入全连接层和Sigmoid层，得到生成概率。再引入复制概率，结合生成概率和复制概率，得到更新改进的词表概率分布。

进一步，所述使用交叉熵损失函数完成模型的微调任务，并使用Beam Search算法生成共情回复。

进一步，所述使用困惑度、BLEU-4、F1和专家评价等四种评价指标对步骤6生成的共情回复做出综合评价，将符合预期标准的共情回复以及用户输入自动放入步骤1的原始语料中进行复式自动迭代训练，增强训练数据，得到更新优化后的中文共情回复生成模型。

本发明的目的在于针对基于Transformer网络生成的共情回复无法生成情绪关键词、复杂事件细节的问题，提出在解码器中融合Copy机制，将情绪关键词和复杂事件细节复制到输出中来解决。

本发明的另一目的在于针对中文心里对话具有共情能力的语料匮乏的问题，本发明采用复式自动迭代训练来增强训练数据。

结合上述的技术方案和解决的技术问题，请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为：

第一、针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果。具体描述如下：

在人际交往过程中，人们更多的希望能站在他人立场上想象他人的经历与逻辑，体会他人的想法与感受，从他人的视角看待问题并解决问题。其中，被赋予共情能力的智能会话***逐渐成为研究热点。本发明解决共情回复生成是指智能会话***通过历史会话判断用户的情感状态，从而生成体会到用户感受的情感回复。具有共情能力的智能会话***不仅能提高用户的满意度，而且能获得用户更多积极的反馈。

第二，把技术方案看做一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：

发明提出了一种基于UniLM模型和Copy机制的中文共情回复生成方法。本发明使用UniLM模型作为基本架构，针对基于Transformer网络生成的共情回复无法生成情绪关键词、复杂事件细节的问题，提出在解码器中融合Copy机制，将情绪关键词和复杂事件细节复制到输出中来解决。针对中文心里对话具有共情能力的语料匮乏的问题，本发明采用复式自动迭代训练来增强训练数据。

本发明将源序列中的情绪关键词和复杂事件细节复制到输出中；然后使用困惑度等评价标准对输出的共情回复进行评价，将符合预期的回复和用户陈述放入原始训练语料中进行复式自动迭代训练，得到进一步更新优化的共情回复生成模型。

附图说明

图1是本发明实施例提供的基于UniLM模型和Copy机制的中文共情回复生成模型的框架图；

图2是本发明实施例提供的使用的UniLM模型架构示意图；

图3是本发明实施例提供的基于UniLM模型和Copy机制的中文共情回复生成方法的具体流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了使本领域技术人员充分了解本发明如何具体实现，该部分是对权利要求技术方案进行展开说明的解释说明实施例。

本发明结合附图和具体实施方式，基于UniLM模型和Copy机制的中文共情回复生成方法进行进一步详细说明。

如图1所示，本发明主要以UniLM模型为基础，在解码端融合Copy机制，实现了会话共情充分利用面对复杂事件细节的上下文相关性的目的。主要包括输入处理、预训练、共情回复生成、复式训练四个阶段。具体实施方式如下：

预训练的语料包括心理咨询来访者的有关心理问题的陈述和咨询师的具有共情能力的回复。来访者的陈述Segment1，记作S1，咨询师的回复Segment2，记作S2，加入特殊标记[CLS]和[SEP]，形如“[CLS]S1[SEP]S2[SEP]”。如图2所示，模型的输入表示由SegmentEmbedding、Position Embedding、Token Embedding三部分的和构成。

模型预训练，输入Embedding向量，每层Transformer编码输入向量，使用多头注意力机制聚合上层输入，通过掩码矩阵控制每个词或者位置能够注意的范围，得到当前位置对其他位置的注意力分布，计算出解码器当前位置的特征向量。

生成的词向量对t时刻的文本特征向量XInput的注意力分布At如下：

t时刻解码器输出的特征向量XOutput如下：

X_Output＝A_t*W_v*X_Intput

其中，Xt是t时刻的目标向量；XInput是t时刻文本特征向量；M是掩码矩阵，作用是控制词注意力范围；dk是词向量的维度；Wq、Wk、Wv是学习参数。

Softmax函数将分数s的向量映射为概率分布，其定义如下：

其中，i表示输出节点的编号；si是第i个节点的输出值；n是输出节点的个数，即分类的类别个数。

进一步，对模型预测结果XOutput，记作s，和被掩盖的原分词st计算交叉熵损失来优化模型的参数。交叉熵函数定义如下：

预处理过程：将预处理好的数据输入模型进行训练，一共训练20个Epoch，Dropout为0.1，隐向量维度为768，学习率Learning_rate为2e-5，Epochs为20，批处理大小Batch_size为32，注意力头数为12，隐藏层数为12，嵌入层为12，隐藏层单元数为768，词表大小为21128。最大输入长度设置为512，最大生成共情回复的长度设置为40，使用交叉熵函数计算损失。

完成预训练后，使用UniLM的序列到序列语言模型进行微调，进行共情回复生成任务。在解码时，例如：用户输入一句内心心理问题的陈述“X1”，当t＝1时刻输入序列“[CLS]X1[SEP]Y1[MASK]”，在序列末尾加上“[MASK]”，其对应的特征表示预测下一个词。“[CLS]X1[SEP]”是已知的源序列，在编码阶段能互相看到句子内上下文信息。“Y1[MASK]”是预测的目标序列，在解码阶段能看到源序列的信息和目标序列其左侧部分的信息。模型通过掩码矩阵将编码器和解码器融合在一起。

语料样本在经过UniLM模型编码后，得到一个sequence length X hidden size矩阵，第一行是[CLS]的特征表示，第二行是X1的特征表示，依次类推。在解码阶段，使用[MASK]特征表示经过线性层，使用Softmax函数来获得词汇表中词的概率分布，并选择概率最大的词作为解码得到的单词，重复以上步骤，当生成[SEP]时停止，得到t时刻解码器输出的特征向量XOutput。具体计算如下：

XOutput经过两次线性变换、Softmax函数得到词表概率分布Pv。

P_v＝Softmax(W^′(W*X_Output+b)+b^′)

其中，W^′、W、b、b^′是可学习参数。

引入生成概率Pg，表示从词表中生成词的概率；引入复制概率Pc，表示从源文本中复制词的概率，其中Pg+Pc＝1。将XOutput、At、Xt通过全连接层和Sigmoid函数计算得到Pg。

P_g＝Sigmoid(W[X_t，X_Output，A_t]+b)

其中，W、b是可学习的参数。

进一步计算更新改进后的词表概率分布：

P(w)＝P_g*P_v(w)+P_c*A_t

其中，当w不是词表中的词时，P_v(w)＝0，预测的词从源序列中生成；当w不是源序列中的词时，A_t＝0，预测的词从词表中生成。Copy机制从源序列复制情绪关键词和复杂事件细节(概率高的词)作为生成的共情回复的一部分，在一定程度上可以控制共情回复生成的准确性。Copy机制还在一定程度上起到了动态扩充词表的作用，来降低生成未登录词的概率。

将Beam size设置为1，使用Beam Search算法搜索接近最优的目标序列，生成共情回复。对生成的共情回复进行评价，将符合标准的共情回复以及用户的陈述放到原始语料中进行复式自动迭代训练，增强训练数据，得到更新优化后的中文共情回复生成模型。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于UniLM模型和Copy机制的中文共情回复生成方法，其特征在于，将源序列中的情绪关键词和复杂事件细节复制到输出中；使用困惑度等评价标准对输出的共情回复进行评价，将符合预期的回复和用户陈述放入原始训练语料中进行复式自动迭代训练，得到进一步更新优化的共情回复生成模型。

2.如权利要求1所述的基于UniLM模型和Copy机制的中文共情回复生成方法，其特征在于，具体包括如下步骤：

3.如权利要求2所述的基于UniLM模型和Copy机制的中文共情回复生成方法，其特征在于，步骤2具体包括：以BERT-BASE预训练模型初始化参数；基于同一Transformer网络结构，以预测不同的MASK作为预训练目标，完成单向、双向以及序列到序列语言模型的预测任务，并均匀分配使用不同语言模型。

4.如权利要求2所述的基于UniLM模型和Copy机制的中文共情回复生成方法，其特征在于，步骤4具体包括：利用序列到序列语言模型的自注意力掩码机制，随机MASK目标序列中的分词，并将序列末尾遮蔽，来学习何时停止生成共情回复；把给定上下文信息的情况下最大化分词的概率作为训练目标，使用MASK机制融合编码和解码，并结合注意力机制得到文本特征向量；将解码得到的特征向量输入全连接层，使用Softmax函数得到词表概率分布。

5.如权利要求2所述的基于UniLM模型和Copy机制的中文共情回复生成方法，其特征在于，步骤5具体包括：将上一步得到的词表概率输入全连接层和Sigmoid层，得到生成概率，然后引入复制概率，将生成概率和复制概率融合，得到更新改进的词表概率分布；Copy机制有效地把用户输入的情绪关键词和复杂事件细节复制到输出中，提升了生成的共情回复中细节的准确性，Copy机制同时可以有效降低生成未登录词的概率。

6.如权利要求2所述的基于UniLM模型和Copy机制的中文共情回复生成方法，其特征在于，步骤7具体包括：对步骤6生成的共情回复，通过困惑度等评价标准进行评价，将符合预期的共情回复以及用户输入自动放入步骤1中的语料中进行迭代训练，增强训练数据，得到更新优化后的共情回复生成模型。

7.一种基于权利要求1-6任一项生成方法的中文共情回复生成***，其特征在于，包括：

细节复制模块，用于将源序列中的情绪关键词和复杂事件细节复制到输出中；

共情回复生成模型模块，用于使用困惑度等评价标准对输出的共情回复进行评价，将符合预期的回复和用户陈述放入原始训练语料中进行复式自动迭代训练，得到进一步更新优化的共情回复生成模型。

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-5任意一项所述改进YOLOv4网络的行人检测方法的步骤。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1-5任意一项所述改进YOLOv4网络的行人检测方法的步骤。

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求1所述改进YOLOv4网络的行人检测***。