CN114490950A

CN114490950A - 编码器模型的训练方法及存储介质、相似度预测方法及***

Info

Publication number: CN114490950A
Application number: CN202210360834.8A
Authority: CN
Inventors: 肖清; 赵文博; 李剑锋; 许程冲; 周丽萍
Original assignee: China Unicom Guangdong Industrial Internet Co Ltd
Current assignee: China Unicom Guangdong Industrial Internet Co Ltd
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-05-13
Anticipated expiration: 2042-04-07
Also published as: CN114490950B

Abstract

本发明提供编码器模型的训练方法及存储介质、相似度预测方法及***，包括：将两个文本序列输入嵌入层得到文本序列向量；将两个文本序列向量输入孪生神经网络编码器模型，以使其基于相同的神经网络参数确定隐状态；根据神经网络参数构造自监督损失函数；将隐状态输入池化层以使其根据隐状态进行池化处理，根据池化处理后的文本序列向量确定两个文本序列的相似度，并以其构造有监督损失函数；根据自监督和有监督损失函数确定损失函数，以更新神经网络参数；继续将新的文本序列输入直至损失函数的数值为最小值。该方法大幅提高了模型在计算文本序列相似度时的推理带宽，且基于已训练的神经网络编码器模型能够实现两个文本序列相似度的精准计算。

Description

编码器模型的训练方法及存储介质、相似度预测方法及***

技术领域

本发明涉及文本相似度领域，更具体地，涉及编码器模型的训练方法及存储介质、相似度预测方法及***。

背景技术

文本相似度是指衡量两个文本的相似程度，应用的场景包括有文本分类、聚类、文本主题检测、主题跟踪、机器翻译等等。更具体地，在语音通信场景对通话线路进行监管也会要求确定文本之间的相似度，但语音通信场景中获取到的对话内容噪声大、夹杂口音、信息完整度不足，在现有技术中判断对话内容是否相似时需要依赖人工抽检，耗费大量人力和时间，且人工抽检存在的问题是抽检覆盖面较小，且人工检测存在主观性较强的问题，无法全面准确地检测出对话内容的相似性，因此通话线路监管的可信性和准确性也较低。

发明内容

本发明旨在克服上述现有技术的至少一种缺陷，提供编码器模型的训练方法及存储介质、相似度预测方法及***，用于解决现有技术中在确定文本相似度时依赖人工抽检，存在检测覆盖面小且主观性较强的问题。

本发明采用的技术方案包括：

第一方面，本发明提供一种深度神经网络编码器模型的训练方法，包括：对两个不同的文本序列执行训练操作；所述训练操作为：将两个所述文本序列输入嵌入层进行向量化，得到两个文本序列向量；将两个所述文本序列向量输入孪生神经网络编码器模型，以使所述神经网络编码器模型基于相同的神经网络参数确定两个所述文本序列向量的隐状态；同时根据所述神经网络参数构造所述神经网络编码器模型的自监督损失函数；将两个所述文本序列向量的隐状态输入池化层，以使所述池化层根据两个所述文本序列向量的隐状态对两个所述文本序列向量进行池化处理，根据池化处理后的两个所述文本序列向量确定两个所述文本序列的相似度；根据两个所述文本序列的相似度构造所述神经网络编码器模型的有监督损失函数；根据所述自监督损失函数和所述有监督损失函数确定所述神经网络编码器模型的损失函数，以使所述神经网络编码器模型根据所述损失函数更新神经网络参数；继续对新的两个不同的文本序列执行所述训练操作直至所述损失函数的数值为最小值，得到已训练的神经网络编码器模型。

第二方面，本发明提供一种文本序列的相似度预测方法，将两个不同的文本序列输入嵌入层进行向量化，得到两个文本序列向量；将两个所述文本序列向量输入由上述的深度神经网络编码器模型的训练方法训练得到的孪生神经网络编码器模型，以使所述神经网络编码器模型输出两个所述文本序列向量的隐状态；将两个所述文本序列向量的隐状态输入池化层，以使所述池化层根据两个所述文本序列向量的隐状态对两个所述文本序列向量进行池化处理；根据池化处理后的两个文本序列向量确定两个所述文本序列的相似度。

第三方面，本发明提供一种文本序列的相似度预测***，包括：词输入模块、词嵌入模块、由上述的深度神经网络编码器模型的训练方法训练得到的孪生神经网络编码器模型、隐状态池化模块、向量相似度计算模块；所述词输入模块用于将外部输入的两种不同的文本数据序列化得到两个不同的文本序列，并将其输出至所述词嵌入模块；所述词嵌入模块用于将两个所述文本序列进行向量化，得到两个文本序列向量并将其输出至所述神经网络编码器模型；所述神经网络编码器模型用于基于所述神经网络参数确定两个所述文本序列向量的隐状态，并将其输出至隐状态池化模块；所述隐状态池化模块用于根据两个所述文本序列向量的隐状态对两个所述文本序列向量进行池化处理，并将池化处理后的文本序列向量输出至向量相似度计算模块；所述向量相似度计算模块用于根据池化处理后的两个文本序列向量确定两个文本序列的相似度。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的深度神经网络编码器模型的训练方法，和/或上述的文本序列的相似度预测方法。

与现有技术相比，本发明的有益效果为：

本实施例提供的编码器模型的训练方法，用于训练得到已训练的孪生神经网络编码器模型，由于孪生神经网络编码器模型共享同一个神经网络参数，因此大幅提高了该模型在计算文本序列之间语义相似度时的推理带宽，且基于已训练的神经网络编码器模型能够实现两个文本序列相似度的精准计算。同时，在训练过程中，采用自监督与有监督的方式联合训练神经网络编码器模型，以使最终更新得到的神经网络参数有利于提高神经网络编码器模型在语义层面计算语义相似度的准确性。

附图说明

图1为实施例1的方法步骤S110~S180的流程示意图。

图2为实施例1的神经网络编码器模型的训练过程示意图。

图3为实施例1的神经网络编码器模型的隐状态计算过程示意图。

图4为实施例2的方法步骤S210~S240的流程示意图。

图5为实施例2的预测方法的预测过程示意图。

图6为实施例3的预测***的预测过程示意图。

具体实施方式

本发明附图仅用于示例性说明，不能理解为对本发明的限制。为了更好说明以下实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

实施例1

本实施例提供一种深度神经网络编码器模型的训练方法，用于训练孪生神经网络编码器模型，孪生神经网络在广义上既可以由两个子网络构成，也可以由一个网络构成，关键在于孪生神经网络共享同一神经网络参数。

结合图1、2所示，该方法包括以下步骤：

S110、将两个不同的文本序列输入嵌入层进行向量化，得到两个文本序列向量；

在本步骤中，文本序列是指已经经过预处理后的文本数据，以使其满足嵌入层兼容的输入格式。在具体的实施方式中，预处理包括：

对原始文本数据进行数据清洗；读取预设特殊符号、停用词与用户词典词表，去除文本数据中的特殊符号，结合所读取的用户词典对文本序列进行分词，去除文本数据中存在的停用词。将文本数据转换为多个子文本序列，并按长度将多个子文本序列进行排序并拼接，再根据预先设定的训练批次的数据大小进行裁切，得到若干个文本序列作为训练数据。

从训练数据中随机采样选择作为输入的多组文本序列，每组文本序列中包括两个不同的文本序列，并获取每一组文本序列对应的标签，由于本实施例提供的训练方法用于训练计算文本序列相似度的神经网络编码器模型，因此标签为每组文本序列中两个不同的文本序列之间的真实相似度。在输入嵌入层之前将已经选择作为输入的多组文本序列转换为整型数据。在优选的实施方式中，可采用Tokenizer将文本数据转换为整型数据。

嵌入层用于将输入的文本序列转换为具有固定大小的向量，具体是将文本序列映射到向量空间中，从而得到两个文本序列的文本序列向量。

S120、将两个文本序列向量输入孪生神经网络编码器模型，以使神经网络编码器模型确定两个文本序列向量的隐状态；

在本步骤中，神经网络编码器模型接收到两个文本序列向量后，基于相同的神经网络参数确定两个文本序列向量的隐状态。神经网络参数指神经网络编码器模型骨干网的参数。隐状态是指经过神经网络中的一系列矩阵运算和非线性变换后得到的高维向量。

神经网络编码器模型初始化时根据内部各模块分配显存空间，加载预训练的参数并读取神经网络参数。在具体的实施方式中，神经网络编码模型可由（BidirectionalEncoder Representation from Transformers，双向Transformer编码器）预训练语言模型实现，在初始化该神经网络编码模型时，需加载预训练的BERT参数，再读取神经网络参数。

如图3所示，在具体的实施过程中，神经网络编码器模型由N个神经网络编码器子模块组成，用于迭代计算文本序列向量的隐状态。

神经网络编码器模型中的单个编码器模型子模块在接收到两个文本序列向量x₁和x₂后，首先确定每个文本序列向量的隐状态，对得到的隐状态进行层标准化处理，用以缓解模型训练过程中的梯度***问题。将经过层标准化处理后的隐状态输入子模块中的残差模块进行计算，用以避免由于神经网络编码器模型的网络层数过多而产生梯度弥散。将残差模块输出的隐状态输入子模块中的全连接层中进行处理，得到该编码器子模块输出的对应文本序列向量x₁的隐状态u₁和对应文本序列向量x₂的隐状态u₂。

将N个编码器子模块前后串联，每个编码器模型子模块基于各自内部的神经网络参数计算其自身关于文本序列向量的隐状态，并将该子模块最终输出的文本序列向量的隐状态输出至下一个编码器模型子模块，作为下一个编码器模型子模块的输入，直至最后一个编码器模型子模块输出文本序列向量的隐状态，作为最终模型输出的文本序列向量的隐状态。

具体地，神经网络编码器模型中的每个编码器模型子模块可根据式子：

确定文本序列向量的隐状态，其中，

为文本序列向量的隐状态，

为非线性激活函数，

为注意力机制变换，

为神经网络参数，

为输入的文本序列向量。

S130、根据神经网络参数构造神经网络编码器模型的自监督损失函数；

自监督损失函数的变量为神经网络编码器模型的神经网络参数，用于通过梯度下降的方式更新神经网络参数以使该损失函数达到最小值。

在具体的实施方式中，自监督损失函数为：

其中，

表示概率密度函数，

为神经网络参数，

为遮掩语言模型输出层的对应参数，

为下一句预测模型输出层的对应参数。遮掩语言模型（Masked Language Model,MLM）是指通过随机对输入文本序列中的某些位置进行遮掩，再对文本序列遮掩的位置进行预测的模型。下一句预测模型（NextSentencePrediction, NSP）是指用于预测两个句子是否是连续的两个句子的模型。

为遮掩语言模型的训练数据集，

为下一句预测模型的训练数据集，

和

分别为遮掩语言模型对遮掩位置所预测的词语以及该位置真实的词语，

表示下一句预测模型输出的与前后两个文本序列的连接关系，

表示与前后两个文本序列的真实连接关系。

S140、将神经网络编码器模型输出的两个文本序列向量的隐状态输入池化层，以使池化层根据两个文本序列向量的隐状态对两个文本序列向量进行池化处理；

在本步骤中，池化层在接收到两个文本序列向量的隐状态后，具体是将该隐状态映射到固定尺寸的语义向量空间，从而得到文本序列向量在统一尺寸的语义向量，即为进行池化处理后的文本序列向量。该固定尺寸是预先设定的。

S150、根据池化处理后的两个文本序列向量确定两个文本序列的相似度；

在本步骤中，可以利用现有技术中常用的计算两个向量之间的相似度的方法确定两个文本序列的相似度。在具体的实施方式中，可利用式子

确定两个文本序列的相似度。

其中，

为两个文本序列的相似度，

和

分别表示两个文本序列，

为两个池化处理后的文本序列向量的向量积，

为两个池化处理后的文本序列向量的模的乘积。

S160、根据两个文本序列的相似度构造神经网络编码器模型的有监督损失函数；

有监督损失函数由神经网络编码器模型确定的两个文本序列的相似度以及真实的相似度构造，两个文本序列的相似度基于池化后的文本序列向量计算得到，池化后的文本序列向量基于神经网络编码器模型输出的隐状态得到，隐状态基于神经网络参数得到，因此神经网络参数必定影响了两个文本序列的相似度计算，该有监督损失函数的变量仍然是神经网络编码器模型的神经网络参数，通过梯度下降的方式更新神经网络参数，使两个文本序列的相似度与真实的相似度尽可能地接近，从而使有监督损失函数达到最小值。

在具体的实施方式中，有监督损失函数为：

。

其中，

为

和

的真实文本相似度，

为每次执行训练操作时所抓取的文本序列的数量。

S170、根据自监督损失函数和有监督损失函数确定神经网络编码器模型的损失函数，以使神经网络编码器模型根据损失函数更新神经网络参数；

在本步骤中，结合自监督损失函数和有监督损失函数构造神经网络编码器模型的损失函数，即联合了自监督和有监督的两种方式联合训练神经网络编码器，有利于得到神经网络参数的最优解。自监督损失函数和有监督损失函数的结合方式可以是将两者相加或对两者执行任何适用的运算方式。

在具体的实施方式中，损失函数为

。其中，

为自监督损失函数；

为有监督损失函数，

为调整权重的超参数，即可通过调整

的值可以调整有监督损失函数和自监督损失函数在整体损失函数中所占权重，

满足小于1。

S180、判断损失函数的数值是否达到最小值，如否，更新神经网络参数，并对新的两个不同的文本序列重新执行步骤S110，如是，得到已训练的神经网络编码器模型。

由于以上步骤仅输入一组即两个不同的文本序列至神经网络编码器模型，需要重新执行步骤S110，向神经网络编码器模型不断输入新的文本序列以对其进行训练，训练过程中神经网络编码器模型的神经网络参数以梯度下降的方式不断更新，直至损失函数的数值为最小值，神经网络编码器模型训练完成，得到已训练的神经网络编码器模型。

本实施例提供的深度神经网络编码器模型的训练方法，用于训练孪生神经网络编码器模型，训练得到的神经网络编码器模型大幅提高了文本序列之间语义相似度计算时的推理带宽，则基于该神经网络编码器模型能够实现两个文本序列相似度的精准计算。同时，在训练过程中，采用自监督与有监督相结合的方式构造神经网络编码器模型的损失函数，用以联合训练神经网络编码器模型，最终更新得到的神经网络参数有利于提高神经网络编码器模型在语义层面计算语义相似度的准确性。由于该神经网络编码器模型较好地捕捉了上下文语义信息，当应用于通信线路这类多轮对话场景时，能够更智能地自动区分不同通话场景，及时发现异常通信行为，提升语音业务治理的智能化程度。

实施例2

基于与实施例1相同的构思，本实施例提供一种文本序列的相似度预测方法，主要利用通过实施例提供的神经网络编码器模型的训练方法训练得到的神经网络编码器模型对两个不同的文本序列的相似度进行预测。

结合图3、4所示，该方法包括：

S210、将两个不同的文本序列输入嵌入层进行向量化，得到两个文本序列向量；

在本步骤执行之前，可先确定需要预测相似度的两种文本数据，并将其进行序列化等预处理，使其成为两种文本序列，且为嵌入层、神经网络编码器模型以及池化层所兼容。

S220、将两个文本序列向量输入已训练的神经网络编码器模型，以使神经网络编码器模型输出两个文本序列向量的隐状态；

已训练的神经网络编码器模型在接收到两个文本序列向量后，神经网络编码器模型的每个编码器模型子模块根据式子

确定文本序列向量的隐状态，其中，

为文本序列向量的隐状态，

为非线性激活函数，

为注意力机制变换，

为神经网络参数，

为输入的文本序列向量。

在具体的实施过程中，神经网络编码器模型中包含多个神经网络编码器模型子模块，以前后串联的方式将一个子模块的输出作为下一个子模块的输入，用于迭代计算文本序列向量的隐状态，最后一个编码器模型子模块输出文本序列向量的隐状态，作为最终模型输出的文本序列向量的隐状态。

S230、将两个文本序列向量的隐状态输入池化层，以使池化层根据两个文本序列向量的隐状态对两个文本序列向量作池化处理；

池化层接收到两个文本序列向量的隐状态后，将两个文本序列的隐状态映射到固定尺寸的语义向量空间，得到统一尺寸的语义向量。

S240、根据池化处理后的两个文本序列向量确定两个文本序列的相似度。

在本步骤中，利用式子

确定两个文本序列的相似度。

其中，

为两个文本序列的相似度，

和

分别表示两个文本序列，

为两个池化处理后的文本序列向量的向量积，

为两个池化处理后的文本序列向量的模的乘积。

利用实施例1提供的训练方法得到的孪生神经网络编码器模型，基于已确定的神经网络参数能够实现语义层面计算语义相似度的高准确性，且当输入的文本序列为通信线路中监管的对话内容时，该神经网络编码器模型能够更智能地自动区分不同通话场景，及时发现异常通信行为，提升语音业务治理的智能化程度。

本实施例提供的文本序列的相似度预测方法与实施例1基于同一构思，因此与实施例1出现相同的步骤以及名词，其定义、解释、具体/优选的实施方式，以及所带来的有益效果均可参考实施例1中的说明，在本实施例中不再赘述。

实施例3

基于与实施例1、2相同的构思，本实施例提供一种文本序列的相似度预测***，主要利用通过实施例1提供的神经网络编码器模型的训练方法训练得到的神经网络编码器模型对两个不同的文本序列的相似度进行预测。

如图5所示，该***包括：词输入模块310、词嵌入模块320、由实施例1提供的训练方法训练得到的神经网络编码器模型、隐状态池化模块330、向量相似度计算模块340。

词输入模块310用于接收外部输入的两种文本数据，并将其序列化得到两个不同的文本序列，并将其输出至词嵌入模块320。

词嵌入模块320用于将两个文本序列进行向量化，具体是将文本序列映射到向量空间中，从而得到两个文本序列的文本序列向量，并将其输出至神经网络编码器模型。神经网络编码器模型用于基于神经网络参数确定两个文本序列向量的隐状态，并将其输出至隐状态池化模块330。

确定文本序列向量的隐状态，其中，

为文本序列向量的隐状态，

为非线性激活函数，

为注意力机制变换，

为神经网络参数，

为输入的文本序列向量。

隐状态池化模块330用于根据两个文本序列向量的隐状态对两个文本序列向量进行池化处理，具体是将两个文本序列的隐状态映射到固定尺寸的语义向量空间，得到统一尺寸的语义向量，作为池化处理后的文本序列向量输出至向量相似度计算模块340。

向量相似度计算模块340用于根据池化处理后的两个文本序列向量确定两个文本序列的相似度。

向量相似度计算模块340具体用于利用式子

确定两个文本序列的相似度。其中，

两个文本序列的相似度，

和

分别表示两个文本序列，

为两个池化处理后的文本序列向量的向量积，

为两个池化处理后的文本序列向量的模的乘积。

本实施例提供的文本序列的相似度预测***与实施例1、2基于同一构思，因此与实施例1、2出现相同的步骤以及名词，其定义、解释、具体/优选的实施方式，以及所带来的有益效果均可参考实施例1、2中的说明，在本实施例中不再赘述。

显然，本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例，而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种深度神经网络编码器模型的训练方法，其特征在于，包括：

对两个不同的文本序列执行训练操作；

所述训练操作为：

将两个所述文本序列输入嵌入层进行向量化，得到两个文本序列向量；

将两个所述文本序列向量输入孪生神经网络编码器模型，以使所述神经网络编码器模型基于相同的神经网络参数确定两个所述文本序列向量的隐状态；

同时根据所述神经网络参数构造所述神经网络编码器模型的自监督损失函数；

将两个所述文本序列向量的隐状态输入池化层，以使所述池化层根据两个所述文本序列向量的隐状态对两个所述文本序列向量进行池化处理，根据池化处理后的两个所述文本序列向量确定两个所述文本序列的相似度；

根据两个所述文本序列的相似度构造所述神经网络编码器模型的有监督损失函数；

根据所述自监督损失函数和所述有监督损失函数确定所述神经网络编码器模型的损失函数，以使所述神经网络编码器模型根据所述损失函数更新神经网络参数；

继续对新的两个不同的文本序列执行所述训练操作直至所述损失函数的数值为最小值，得到已训练的神经网络编码器模型。

2.根据权利要求1所述的深度神经网络编码器模型的训练方法，其特征在于，

根据所述自监督损失函数和所述有监督损失函数确定所述神经网络编码器模型的损失函数，具体包括：将所述自监督损失函数以及所述有监督损失函数的和作为所述神经网络编码器模型的损失函数。

3.根据权利要求1所述的深度神经网络编码器模型的训练方法，其特征在于，

根据池化处理后的两个所述文本序列向量确定两个所述文本序列的相似度，具体包括：利用式子

确定两个所述文本序列的相似度；

其中，

为两个所述文本序列的相似度，

和

分别表示两个文本序列，

为两个池化处理后的文本序列向量的向量积；

为两个池化处理后的文本序列向量的模的乘积。

4.根据权利要求3所述的深度神经网络编码器模型的训练方法，其特征在于，所述有监督损失函数为：

；

其中，

为

和

的真实文本相似度，

为每次执行训练操作时所抓取的文本序列的数量。

5.根据权利要求4所述的深度神经网络编码器模型的训练方法，其特征在于，所述自监督损失函数为：

；

其中，

表示概率密度函数，

为所述神经网络参数，

和

分别表示遮掩语言模型和下一句预测模型对应输出层的参数，

与

分别为遮掩语言模型和下一句预测模型的训练数据集，

和

分别为遮掩语言模型的预测词语和真实词语，

表示与前后两个文本序列的真实连接关系。

6.根据权利要求5所述的深度神经网络编码器模型的训练方法，其特征在于，所述损失函数为：

；

其中，

为所述自监督损失函数；

为所述有监督损失函数，

为用于调整有监督损失函数和自监督损失函数的权重的超参数，

满足小于1。

7.根据权利要求1所述的深度神经网络编码器模型的训练方法，其特征在于，所述神经网络编码器模型基于相同的神经网络参数确定两个所述文本序列向量的隐状态，具体包括：

所述神经网络编码器模型利用式子

确定两个所述文本序列向量的隐状态；

其中，

为文本序列向量的隐状态，

为非线性激活函数，

为注意力机制变换，

为所述神经网络参数，

为输入的文本序列向量。

8.一种文本序列的相似度预测方法，其特征在于，

将两个不同的文本序列输入嵌入层进行向量化，得到两个文本序列向量；

将两个所述文本序列向量输入由权利要求1~7任一项所述的深度神经网络编码器模型的训练方法训练得到的孪生神经网络编码器模型，以使所述神经网络编码器模型输出两个所述文本序列向量的隐状态；

将两个所述文本序列向量的隐状态输入池化层，以使所述池化层根据两个所述文本序列向量的隐状态对两个所述文本序列向量进行池化处理；

根据池化处理后的两个文本序列向量确定两个所述文本序列的相似度。

9.一种文本序列的相似度预测***，其特征在于，包括：词输入模块、词嵌入模块、由权利要求1~7任一项所述的深度神经网络编码器模型的训练方法训练得到的孪生神经网络编码器模型、隐状态池化模块、向量相似度计算模块；

所述词输入模块用于将外部输入的两种不同的文本数据序列化得到两个不同的文本序列，并将其输出至所述词嵌入模块；

所述词嵌入模块用于将两个所述文本序列进行向量化，得到两个文本序列向量并将其输出至所述神经网络编码器模型；

所述神经网络编码器模型用于基于所述神经网络参数确定两个所述文本序列向量的隐状态，并将其输出至隐状态池化模块；

所述隐状态池化模块用于根据两个所述文本序列向量的隐状态对两个所述文本序列向量进行池化处理，并将池化处理后的文本序列向量输出至向量相似度计算模块；

所述向量相似度计算模块用于根据池化处理后的两个文本序列向量确定两个文本序列的相似度。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1~7任一项所述的深度神经网络编码器模型的训练方法，和/或权利要求8所述的文本序列的相似度预测方法。