CN112269856B

CN112269856B - 文本相似度计算方法、装置、电子设备及存储介质

Info

Publication number: CN112269856B
Application number: CN202011010599.9A
Authority: CN
Inventors: 李宗祥
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2023-11-10
Anticipated expiration: 2040-09-23
Also published as: CN112269856A

Abstract

本发明实施例提供一种文本相似度计算方法、装置、电子设备及存储介质；方法包括：根据目标文本得到目标文本的词嵌入向量；将目标文本的词嵌入向量输入预先训练的热度融合Transformer模型，得到目标文本中的词的特征向量；根据目标文本中的词的特征向量计算目标文本的相似度。本发明实施例提供的文本相似度计算方法、装置、电子设备及存储介质，通过对现有的Transformer模型加以改进，在计算Attention时融入了访问热度，使得文本相似度计算结果更为准确。

Description

文本相似度计算方法、装置、电子设备及存储介质

技术领域

本发明涉及智能识别技术领域，尤其涉及一种文本相似度计算方法、装置、电子设备及存储介质。

背景技术

计算文本相似度是人工智能领域的热点问题。现有技术中的文本相似度计算方法主要通过深度学习的方法进行监督学习或无监督学习，完成语料训练，从而提取出文本的特征信息，最后计算文本特征之间的余弦距离来得到文本之间的相似度。

通过深度学习的方法提取文本的特征信息时具有多种实现方式，主要包括：基于CNN(Convolutional Neural Networks，卷积神经网络)提取特征的方法，基于RNN(Recurrent Neural Network，循环神经网络)提取特征的方法以及基于Transformer模型提取特征的方法。

Transformer模型是Google提出的一种基于自动编码器和Attention机制的NLP模型。Transformer模型通过Attention机制对词进行编解码，计算出文本序列中每个词对其他词的可替换率作为文本特征计算相似度。相较于RNN和CNN，Transformer模型不需要标注数据，是无监督的学习，而且其可以考虑整个文本序列所有词之间的关系，同时Transformer模型所使用的自动编码器机制可以很方便进行并行化计算，具有较高的性能。

Transformer模型已经得到了广泛的应用，取得了不错的效果，但是在某些场景下的应用中还存在一些问题，其缺点包括：

现有的Transformer模型提取出来的文本特征都是基于语料本身，忽略了语料在使用过程中产生的访问热度信息，导致计算出来的文本特征不全面，致使相似度计算不对。

发明内容

针对现有技术存在的问题，本发明实施例提供一种文本相似度计算方法、装置、电子设备及存储介质。

本发明第一方面实施例提供一种文本相似度计算方法，包括：

根据目标文本得到目标文本的词嵌入向量；

将目标文本的词嵌入向量输入预先训练的热度融合Transformer模型，得到目标文本中的词的特征向量；其中，词的特征向量能够同时反映词与词之间的文本相似性以及词与词之间的热度差异；

根据目标文本中的词的特征向量计算目标文本的相似度；其中，

热度融合Transformer模型是基于样本文本的词嵌入向量以及样本文本的词趋向度向量训练得到的；其中，热度融合Transformer模型是将Transformer模型中的自注意力层替换为融合注意力层，并在融合注意力层之间设置卷积层得到的模型；

融合注意力层用于根据词的自注意力与热度注意力计算词的注意力；词趋向度向量是根据词与词之间的文本相似性以及词与词之间的热度差异得到的用于描述词与词之间关联度的向量。

在一种可选的实施方式中，在根据目标文本中的词的特征向量计算目标文本的相似度的步骤之前，方法还包括：

根据目标文本中的词的热度概率，计算热词概率的估计值；

将热词概率的估计值作为阈值，根据阈值将目标文本中的词区分为热词与非热词；

将非热词的特征向量映射为预设值。

在一种可选的实施方式中，根据目标文本得到目标文本的词嵌入向量，包括：

根据目标文本得到目标文本的文本向量、词位置向量以及词热度向量；

根据目标文本的文本向量得到目标文本的第一词嵌入向量；

将目标文本的第一词嵌入向量、词位置向量以及词热度向量输入预先训练的词融合模型，得到同时融合有词位置信息以及词热度信息的第二词嵌入向量，将第二词嵌入向量作为目标文本的词嵌入向量；其中，

词融合模型是基于样本文本的第一词嵌入向量、词位置向量、词热度向量以及词趋向度向量训练得到的；第一词嵌入向量为用于反映词的语义相关性的向量。

在一种可选的实施方式中，融合注意力层包括：权重比例设置层以及注意力计算层；其中，

权重比例设置层用于为词的热度注意力设置权重比例；其中，权重比例是基于校验比率得到的，校验比率根据融合注意力层在热度融合Transformer模型中的层数确定；融合注意力层在热度融合Transformer模型中的层数越高，校验比率的值越低；

注意力计算层用于根据词的自注意力以及设置有权重比例的热度注意力，计算词的注意力。

在一种可选的实施方式中，卷积层的卷积核步数根据卷积层在热度融合Transformer模型中的层数确定；卷积层在热度融合Transformer模型中的层数越高，卷积核步数越大。

在一种可选的实施方式中，方法还包括：

根据样本文本得到样本文本的词嵌入向量以及词趋向度向量；

将样本文本的词嵌入向量作为训练使用的输入数据，将样本文本的词趋向度向量作为训练使用的标签，采用机器学习的方式进行训练，得到用于生成目标文本中的词的特征向量的热度融合Transformer模型。

在一种可选的实施方式中，方法还包括：

根据样本文本得到样本文本的文本向量、词位置向量、词热度向量以及词趋向度向量；

根据样本文本的文本向量得到样本文本的第一词嵌入向量；

将样本文本的第一词嵌入向量、词位置向量以及词热度向量作为训练使用的输入数据，将样本文本的词趋向度向量作为训练使用的标签，采用机器学习的方式进行训练，得到用于生成样本文本的第二词嵌入向量的词融合模型。

本发明第二方面实施例提供一种文本相似度计算装置，包括：

词嵌入向量生成模块，用于根据目标文本得到目标文本的词嵌入向量；

特征向量生成模块，用于将目标文本的词嵌入向量输入预先训练的热度融合Transformer模型，得到目标文本中的词的特征向量；其中，词的特征向量能够同时反映词与词之间的文本相似性以及词与词之间的热度差异；

相似度计算模块，用于根据目标文本中的词的特征向量计算目标文本的相似度；其中，

本发明第三方面实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如本发明第一方面实施例文本相似度计算方法的步骤。

本发明第四方面实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明第一方面实施例文本相似度计算方法的步骤。

本发明实施例提供的文本相似度计算方法、装置、电子设备及存储介质，由于预先训练的热度融合Transformer模型是基于样本文本的词嵌入向量以及样本文本的词趋向度向量训练得到的，其中，词趋向度向量是根据词与词之间的文本相似性以及词与词之间的热度差异得到的用于描述词与词之间关联度的向量，因此，通过预先训练的热度融合Transformer模型，得到目标文本中的词的特征向量能够同时反映词与词之间的文本相似性以及词与词之间的热度差异，这样，后续根据目标文本中的词的特征向量计算目标文本的相似度时，可以考虑到访问热度信息，进而使得计算出来的文本特征更全面，相似度更准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文本相似度计算方法的流程图；

图2为本发明实施例提供的文本相似度计算方法中的热度融合Transformer模型所涉及的融合Attention层的内部结构示意图；

图3为本发明实施例提供的文本相似度计算方法中的热度融合Transformer模型中的编码器的示意图；

图4为本发明实施例提供的文本相似度计算方法中的热度融合Transformer模型中的解码器的示意图；

图5为本发明实施例提供的文本相似度计算方法中的热度融合Transformer模型的整体结构示意图；

图6是本发明实施例中所采用的堆叠的多输入自动编码器的结构示意图；

图7为同时融合有位置信息以及热度信息的第二词嵌入向量的生成过程的示意图；

图8为本发明实施例提供的文本相似度计算装置的示意图；

图9为一种文本相似度计算***的示意图；

图10为图9所示文本相似度计算***所提供服务的具体实现步骤的示意图；

图11为本发明实施例所涉及的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中的基于Transformer模型的文本相似度计算方法已经得到了广泛的应用，并且取得了不错的效果。但是在某些场景下的应用中还存在一些问题，其缺点主要包含以下两个方面：

一方面，现有的Transformer模型提取出来的文本特征都是基于语料本身，忽略了语料在使用过程中产生的访问热度信息，导致计算出来的文本特征不全面，致使相似度计算不对。例如，在咪咕统一搜索***中出现热词“C罗”，由于不同的用户会用不同的方式描述相似的事，例如“C罗是当今最佳球员”和“要评选世界第一球员，那一定是C罗”这两句其实表达的都是相似的语义，但是直接用Transformer模型计算出来的文本特征，很可能因为使用的词大部分都不同，认为这两句话语义差别较大，计算出错误的相似度。

另一方面，很多现有方法在词嵌入时将访问热度融合进词嵌入矩阵，然后直接使用Transfromer模型来计算出文本特征，这可能会导致Transfromer的Attention机制过分关注热词，使两个包含相同关键词，但是语义不同的句子被计算为语义相似的句子。

为了克服现有技术中的文本相似度计算方法所存在的上述缺陷，本发明实施例提出了一种基于改进后的Transformer模型的文本相似度计算方法。

图1为本发明实施例提供的文本相似度计算方法的流程图，如图1所示，本发明实施例提供的文本相似度计算方法，包括：

步骤101、根据目标文本得到目标文本的词嵌入向量。

在本发明实施例中，所述目标文本是指需要进行文本相似度计算的文本。由于文本相似度反映了不同文本之间的相似度，因此目标文本至少包括两个文本。

词嵌入是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中。词嵌入向量是指词或词组被映射到实数域上的向量。

根据目标文本得到目标文本的词嵌入向量具体包括：

对目标文件进行文本格式化，分词，去除停用词等操作，可得到目标文本所包含词语的集合。所述文本格式化，分词，去除停用词等操作可通过现有技术实现，例如gensim工具包。

在得到目标文本所包含词语的集合后，从中提取出目标文本的文本向量、词位置向量以及词热度向量。

由于从目标文本中得到的文本向量、词位置向量以及词热度向量通常有多个，而矩阵又是集合的常见表达形式，因此在本发明实施例中，分别用文本矩阵、词位置矩阵以及词热度矩阵来表示从目标文本中得到的多个文本向量、多个词位置向量以及多个词热度向量。

文本矩阵用于描述文本中所包含的词，文本矩阵通常用Text表示。文本矩阵中的一行代表一个文本，一列代表文本中所包含的一个词在预设字典中的编号。如果一个文本中不包含某个词，那么在该词所对应的位置填0。

以下为文本矩阵的一个范例：

词位置矩阵用于描述词在所属文本中的位置，词位置矩阵通常用Location表示。词位置矩阵中的一行代表同属于一个文本中的词语，词位置矩阵中的数值代表某一个词在其所属文本中的位置。例如，上述矩阵中的608表示某一个词来自目标文本中的第二个文件(608在第二行)，且该词在第二个文件中是第608个。

词热度矩阵用于描述词被访问的热度，词热度矩阵通常用Hot表示。词热度矩阵中的一行代表同属于一个文本中的词语，词热度矩阵中的数值代表某一个词被访问的热度。

从目标文本中提取文本矩阵、词位置矩阵以及词热度矩阵可通过现有技术实现。例如，将目标文本中的词语与预设的字典进行比对，可以得到文本矩阵。结合词语在目标文本中的位置可得到词位置矩阵。结合词语在一段时间内的被访问热度可得到词热度矩阵。

需要说明的是，目标文本中虽然会有两个或两个以上的文本，但不是从单个文本分别提取文本矩阵、词位置矩阵以及词热度矩阵，而是从目标文本所包含的所有文本中提取共同的文本矩阵、词位置矩阵以及词热度矩阵。

在得到目标文本的文本向量、词位置向量以及词热度向量后，可进一步得到目标文本的词嵌入向量。

词嵌入向量有多种形式，可以是融合有位置信息的词嵌入向量，还可以是同时融合有位置信息以及热度信息的词嵌入向量。在本发明实施例中，对词嵌入向量的具体形式不做限定。

目标文本的词嵌入向量通常有多个，而矩阵又是集合的常见表达形式，因此在本发明实施例中，采用词嵌入矩阵来表示从目标文件得到的多个词嵌入向量。

若要生成融合有位置信息的词嵌入向量，首先根据目标文本的文本矩阵以及现有技术中的word2vec方法，得到第一词嵌入向量。所述第一词嵌入向量反映了词在语义上的初步关联特征，即语义相关性。但是word2vec方法比较简单，所得到的第一词嵌入向量在语义相关性的描述上不是很准确，因此需要融合其他信息。如将第一词嵌入向量与目标文本的词位置向量加以融合，得到融合有位置信息的词嵌入向量。这一实现过程为本领域技术人员的公知常识，因此不在本发明实施例中对其实现细节做进一步的说明。

在本发明的其他实施例中，将会对如何生成同时融合有位置信息以及热度信息的词嵌入向量做详细说明。

步骤102、将所述目标文本的词嵌入向量输入预先训练的热度融合Transformer模型，得到目标文本中的词的特征向量。

在本发明实施例中，所述热度融合Transformer模型是基于样本文本的词嵌入向量以及样本文本的词趋向度向量训练得到的；其中，所述热度融合Transformer模型是将Transformer模型中的自注意力层替换为融合注意力层，并在所述融合注意力层之间设置卷积层得到的模型。所述融合注意力层用于根据词的自注意力与热度注意力计算词的注意力；所述词趋向度向量是根据词与词之间的文本相似性以及词与词之间的热度差异得到的用于描述词与词之间关联度的向量。

具体的说，所述热度融合Transformer模型包括编码器以及解码器。

所述编码器包括多层，除最后一层外，每一层包括有融合Attention层以及卷积层，最后一层仅包括融合Attention层。

所述解码器包括多层，最后一层为输出层，除最后一层与倒数第二层外，每一层包括有融合Attention层以及卷积层，倒数第二层仅包括融合Attention层。

本发明实施例所涉及的融合注意力(Attention)层是在现有Transformer模型中的自注意力(Self-Attention)层的基础上所做的改进。为了便于理解，对其原理做详细说明。

现有技术中的Transformer模型的核心是Self-Attention机制，其核心思想就是通过Attention函数计算一个词和训练文本中其他词的“相似性”，再通过多层网络调节每个词的偏向权重，得到编码后的文本特征向量。

在本发明实施例中，基于Self-Attention机制和门控机制设计了一种融合词访问热度的Attention机制，将这种融合词访问热度的Attention机制所对应的层称为融合Attention层。

图2为融合Attention层的内部结构示意图，参考图2，在一个实施例中，假设目标文本中只有两个词，即X1和X2。X1和X2是上一步计算出来的第二特征数据(如融合词嵌入矩阵)的一行，即X1和X2都是向量；一个向量输入一个隐层节点，即图中有两个隐层节点，隐层节点的设计如下：

a、与现有技术中的Transformer模型的Self-Attention结构不同，在本发明实施例中，除了Transformer模型现有的W、W^q、W^k、W^v这几个训练权重向量外，还加入了W^h权重向量，权重向量W^h用于表示Attention词的热度，因此对于隐层节点首先要做如下计算：

A1＝WX1；

Q1＝W^qA1；

K1＝W^kA1；

V1＝W^vA1；

H1＝W^hA1。

通过上述运算，可以得到查询向量Q1、键值对向量K1、向量V1和热度向量H1。对另一个隐层节点进行类似的计算，可以得到Q2、K2、V2和H2。

b、现有技术中的Self-Attention机制的attention函数只关注查询向量Q1和键值对向量K1。在融合Attention层中，计算Attention时还加入热度向量H1，Attention的计算方式变化为如下形式(以B1为例)：

其中，d表示向量的维度。

在这一计算公式中，是self-attention机制的计算方法，/>是融入的访问热度的计算部分。

Attention机制的思想就是计算相似性，在本发明实施例中，用查询向量点乘热度向量是为了将词与热度在Attention机制下联系起来，从而使Attention机制能够考虑访问热度的因素，识别出真正要关注的热点词；而参数向量β则是热度Attention值的权重比例，这个参数的大小由门控机制来计算。设置这个参数的目的是为了合理调控热度Attention值的大小，使Transformer模型不会过分关注非热词的热度。

在上一段中提到，参数向量β是热度Attention值的权重比例，其大小由门控机制来计算。在本发明实施例中，所述的门控机制是指使用门来控制隐层在计算Attention时是否要考虑访问热度、或者访问热度的影响力有多少。

参考图2，给每个隐层节点都设置一个门控向量G，该向量内的值初始化全为0，然后根据融合Attention层在模型中所处的层数计算一个校验比率，之后根据校验比率随机将向量G内某些位置上的值改为1，再与A1做点乘得到向量β，求出向量β的内积。如果向量β的内积大于或等于预先设置的阈值，则直接使用β作为Attention计算的参数向量，如果小于阈值，则将向量β置为0向量，即不考虑热度的Attention。

所述校验比率的计算公式为：

P_c＝(ALL_num-L_num)/(2*ALL_num)；

其中，P_c为校验比率；L_num为所在层级的层数；ALL_num为Transformer编码器的总层数。

采用校验比率可以剔除那些对访问热度不敏感(访问热度不高)的词的热度Attention。在判断词对访问热度的敏感性时，实际上是通过向量β随机选取词向量中的值来计算，在概率上如果计算出的值大于预设的阈值，那么可以认为该词对访问热度敏感，应该计算热度Attention值。

从校验比率的计算公式可以看出，校验比率随着层数的上升而下降，这是因为越是底层就越要进行粗粒度的过滤，这样才能保证信息的全面且不丢失，而越往上校验概率越低，这是因为越到上层随着计算的深入，Attention值的精确度也会增加，可以进行更精确的过滤。这种分层的方法使本发明实施例中的热度融合Transformer模型能够更精确的计算热度Attention值，防止了对词访问热度的过度Attention。

继续以图2为例，在计算完Attention值(即图2中的B1或B2)之后，融合Attention层使用一个全连接层对计算出的结果B1和B2进行Soft-max的映射操作，之后再根据值向量V1、V2和热度向量H1、H2以及结果B1、B2计算出最终结果C1，其计算公式如下：

在这一计算公式中，i为隐层节点的个数，该公式只展示了一个隐层节点即输入X1最终的编码C1，同理C2也是用类似的方法计算，最后得出一个C的矩阵。在上式中使用了热度向量来修正权重，而使用sigmoid函数则可将热度向量的值归一化，防止其对最终权重产生过分的影响。

以上是对融合Attention层的原理性说明。融合Attention层可基于上述功能描述，进一步划分为权重比例设置层以及注意力计算层；其中，

所述权重比例设置层用于为词的热度注意力设置权重比例；其中，所述权重比例是基于校验比率得到的，所述校验比率根据所述融合注意力层在所述热度融合Transformer模型中的层数确定；融合注意力层在所述热度融合Transformer模型中的层数越高，所述校验比率的值越低；

所述注意力计算层用于根据词的自注意力以及设置有权重比例的热度注意力，计算词的注意力。

融合Attention层在现有Transformer模型中的Self-Attention层的基础上，对其结构做了上述调整。在本发明实施例中，在热度融合Transformer模型的编码器与解码器中均采用融合Attention层来代替现有Transformer模型中的Self-Attention层，使热度融合Transformer模型在编码时能够关注正确的词访问热度信息。

在热度融合Transformer模型的编码器与解码器中，还包括有卷积层，该卷积层为一维卷积层，其位于现有技术中的Transformer模型的编码层(在解码器中为解码层)之间。通过这个一维卷积层，一方面可以进一步提取编码特征来降低噪声的影响，另一方面可以使编码的输出能更精确地表达Attention值，剔除那些不需要关注热度词的Attention值。

在编码器或解码器的多个层中具有卷积层，不同层的卷积层的卷积核步数存在差异。卷积核步数的计算公式为：

其中，CL为卷积核步数，N为卷积核的基本长度，可以设置为2、4、8等，由词的长度决定；l_num为卷积层下层编码层(在解码器中为解码层)的层号。

由卷积核步数的计算公式可以看出卷积核的长度随着层数的上升而增加，这是因为随着编码层的增加，编码的精度在增加，过分关注词热度的情况在减少，也就不需要提取细粒度的特征。

图3为热度融合Transformer模型中的编码器的示意图，从图中可以看出，该编码器包括n层，除最后一层(即第n层)外，每一层包括有融合Attention层以及卷积层，最后一层仅包括融合Attention层。

图4为热度融合Transformer模型中的解码器的示意图，从图中可以看出，该解码器包括n+1层，前n-1层中的每一层包括融合Attention层以及卷积层，第n层仅包括融合Attention层，第n+1层为输出层。解码器一般在训练热度融合Transformer模型时使用，在训练过程中，解码器中的前n层对编码器的结果进行计算，还原出编码之前的样貌；最后的输出层使用了词趋向度矩阵作为训练时的标签，通过词趋向度来调节网络参数，使网络学习到融合访问热度的信息。对于热度融合Transformer模型的训练过程以及词趋向度矩阵的描述将在本发明其他实施例中做进一步说明。

将热度融合Transformer模型中的编码器与解码器相结合，可得到热度融合Transformer模型的整体结构。图5为热度融合Transformer模型的整体结构示意图。

将目标文本的词嵌入向量输入预先训练的热度融合Transformer模型，得到目标文本中的词的特征向量的具体实现过程为：

步骤S1、将词嵌入矩阵输入预先训练的热度融合Transformer模型。

在本步骤中，词嵌入矩阵中的每行都对应一个词的嵌入向量，将词的嵌入向量作为热度融合Transformer模型的每个隐层节点的输入。

预先训练的热度融合Transformer模型中的各个参数(包括模型的层数、每一层的校验比率、每一个卷积层的卷积核大小、融合Attention矩阵的各个参数矩阵)都是已确定的值。

步骤S2、对输入的词嵌入向量进行融合Attention计算，生成编码向量，并进行残差连接和标准化。

步骤S3、根据每层的卷积核函数对融合Attention层生成的编码向量进行提取特征的操作；完成后将结果作为下一个Transformer编码层的输入。

步骤S4、在多级Transformer模型编码层全部执行完毕后，将最后编码的结果作为词的特征向量。

由于文本本质上是词的集合，因此为目标文本中所包含的词求得对应的词特征向量后，将这些词特征向量形成一个集合，可得到目标文本的文本特征。

目标文本的文本特征可以用矩阵的形式表示，矩阵中的一列代表一个词的特征向量。

步骤103、根据目标文本中的词的特征向量计算所述目标文本的相似度。

基于目标文本中的词的特征向量，采用余弦距离计算法可计算出目标文本之间的相似度值。文本之间的相似度数值越接近，说明相似度越大。

根据词的特征向量计算目标文本相似度是本领域技术人员的公知常识，因此不在此处重复。

采用本发明实施例提供的文本相似度计算方法，由于预先训练的热度融合Transformer模型是基于样本文本的词嵌入向量以及样本文本的词趋向度向量训练得到的，其中，词趋向度向量是根据词与词之间的文本相似性以及词与词之间的热度差异得到的用于描述词与词之间关联度的向量，因此，通过预先训练的热度融合Transformer模型，得到目标文本中的词的特征向量能够同时反映词与词之间的文本相似性以及词与词之间的热度差异，这样，后续根据目标文本中的词的特征向量计算目标文本的相似度时，可以考虑到访问热度信息，进而使得计算出来的文本特征更全面，相似度更准确。

基于上述任一实施例，在本发明实施例中，在步骤102与步骤103之间，方法还包括：

根据目标文本中的词的热度概率，计算热词概率的估计值；

将所述热词概率的估计值作为阈值，根据所述阈值将目标文本中的词区分为热词与非热词；

将所述非热词的特征向量映射为预设值。

在本发明之前的实施例中，通过基于热度融合Transformer模型提取的文本特征可以很好的反映词的语义相关性和访问热度特性。但由于模型在训练时是基于静态文本去做语义相关度的训练，没有考虑到真实场景下词热度的变化。一旦词的热度发生变化，则文本特征需要重新计算与提取，这会增大***的开销与维护难度。

针对上述问题，在本发明实施例中，可基于一个时间段内的词的热度概率，对下一个时间段的热词概率进行估计，从而根据热词概率估计值区分热词与非热词，进而降低非热词在相似度计算中的影响。

具体的说，根据目标文本的词热度矩阵，按照单个词的访问热度除以文件中所有词的总访问热度的方法，可以得到一段时间内目标文本中每个词的热度概率，记为x_i。

热词概率的极大似然估计值的计算公式为：

其中，表示热词概率的极大似然估计值；x_i表示第i个词的热度概率；θ为热词概率，热词概率可通过统计得到，如采用热词的总数除以总词数；N表示目标文本中词的总个数。

基于上述计算公式，可计算热词概率的极大似然估计值。即以θ为参数对上述公式求导，令导数为0，则求出θ的极大似然估计值然后根据/>值区分热词和非热词，将非热词通过sigmoid函数映射为预设值，从而削减其在相似度计算中的作用。其中，所述预设值的数值小于非热词的原始值，因此通过将非热词映射为预设值，有助于降低非热词在相似度计算中的作用。

经过上述操作，实现了对文本特征的过滤。所得到的过滤结果可用于后续的相似度计算。

本发明实施例提供的文本相似度计算方法通过估计下一时间段内的热词概率，将目标文本中的词区分为热词与非热词，降低非热词对文本相似度计算的影响，从而保证了在词被使用的动态环境下，相似度计算的准确性。

基于上述任一实施例，在本发明实施例中，所述根据目标文本得到目标文本的词嵌入向量，包括：

根据目标文本的文本向量得到目标文本的第一词嵌入向量；

将所述目标文本的第一词嵌入向量、词位置向量以及词热度向量输入预先训练的词融合模型，得到同时融合有词位置信息以及词热度信息的第二词嵌入向量，将所述第二词嵌入向量作为目标文本的词嵌入向量；其中，

所述词融合模型是基于样本文本的第一词嵌入向量、词位置向量、词热度向量以及词趋向度向量训练得到的。

在本发明实施例中，采用现有技术中的word2vec方法对目标文本的文本向量进行处理，可得到目标文本的第一词嵌入向量。

在本发明实施例中，所述词融合模型是一种堆叠的多输入的自动编码器CLAutoEncoder。该编码器包括：多个子编码器，每个子编码器可以接收不同的输入；子编码器之后是一个一维卷积层，用于将多个子编码器的结果融合在一起；一维卷积层之后是一个多层的解码器；多层解码器之后为输出层。

图6是本发明实施例中所采用的堆叠的多输入自动编码器的结构示意图，如图6所示，该编码器包括3个独立的多层子编码器(Encoder)，分别用于接收word2ve输出的目标文本的第一词嵌入向量、目标文本的词位置向量和目标文本的词热度向量。在一维卷积层(即图中的Conv1层)中设置了3个核函数，分别映射3个独立的多层子编码器，之后再将3个核函数的结果相加，得到编码结果。

编码结果的计算公式为：

Z＝η(WC^Tδ(W¹X¹)+WC^Lδ(W²X²)+WC^Hδ(W³X³))；

其中，Z为编码结果；δ、η为卷积核的名称；Wⁱ表示各子编码器的权重，其大小可通过随机初始化确定；Xⁱ表示各子编码器的输出；WC^t、WC^l和WC^H是一维卷积的权重参数，这三个权重参数分别用于调节三个多层子编码器的编码结果的融合比例，这三个权重矩阵将在词融合模型训练时自动学习。

一维卷积层所得到的编码结果就是所要求取的同时融合有位置信息以及热度信息的第二词嵌入向量。

图7为同时融合有位置信息以及热度信息的第二词嵌入向量的生成过程的示意图。如图7所示，目标文本的文本向量通过word2vec方法生成目标文本的第一词嵌入向量；目标文本的第一词嵌入向量、目标文本的词位置向量以及目标文本的词热度向量同时输入预先训练的堆叠的多输入自动编码器，得到同时融合有位置信息以及热度信息的第二词嵌入向量。

词融合模型所生成的同时融合有位置信息以及热度信息的第二词嵌入向量能够准确描述词与词、词与位置、词与热度之间的关联。

本发明实施例提供的文本相似度计算方法将目标文本中的词位置信息、词热度信息与原始的词嵌入向量相融合，得到能够准确描述词与词、词与位置、词与热度之间关联的词嵌入向量，为后续的文本特征识别提供了帮助。

基于上述任一实施例，在本发明实施例中，方法还包括：

在本发明实施例中，样本文本是用于训练文本特征识别模型的文本。对样本文本的数量应当有一定的规模，且理论上越多越好。如选取1000个以上的文本作为样本文本。

在本发明之前的实施例中，已经对如何根据文本得到词嵌入向量的实现过程做了详细描述，因此不在本发明实施例中做重复说明。

词趋向度向量是根据词与词之间的文本相似性以及词与词之间的热度差异得到的用于描述词与词之间关联度的向量。词趋向度矩阵是词趋向度向量的集合。

词趋向度的计算公式如下：

其中，EHSim表示词趋向度，W_i和W_j表示两个不同的词，而edit()函数是编辑距离计算函数，用于计算两个词在文本上的相似度；H_i和H_j表示词W_i和W_j的访问热度，tanh()是归一化函数，用于将H_i减H_j的绝对值映射到[0,1]之间，避免因词热度相差过大导致计算值差异巨大；α表示词W_i和W_j出现在同一个文本中的次数，在本申请中使用1/α作为调节权重的参数，当两个词共同出现在同一个文本中时，那么它们的访问热度很可能也是接近的，且它们在文本中所要描述的语义也可能是接近的，所以当α很大时会放大访问热度部分的权重使趋向度更偏重于访问热度，这准确表示了词与词之间访问热度的关联。

从词趋向度的计算公式可以看出：词趋向度综合考虑了词与词之间的文本相似性和词与词之间访问热度的差异，因此可以更准确地描述词与词之间的关系，避免文本特征提取过程中受文本或访问热度中某一方面的影响过大所造成的结果偏差。

基于词趋向度，可进一步得到词趋向度矩阵Tend，词趋向度矩阵Tend中的行号表示词语目标文本中的词号，列号表示词语在预设字典中的词号，矩阵的值EHSim_m,n表示目标文本中的第m个词对字典中的第n个词的趋向度。

以下为词趋向度矩阵Tend的一个范例：

根据词趋向度以及词趋向度矩阵的上述定义，可为目标文本中的词语生成对应的词趋向度矩阵。

样本文本的词嵌入矩阵可以是融合有位置信息的词嵌入矩阵，还可以是同时融合有位置信息以及热度信息的词嵌入矩阵。在本发明实施例中，对词嵌入矩阵的具体形式不做限定。

热度融合Transformer模型包括编码器以及解码器。其中，所述编码器包括多层，除最后一层外，每一层包括有融合Attention层以及卷积层，最后一层仅包括融合Attention层。所述解码器包括多层，最后一层为输出层，除最后一层与倒数第二层外，每一层包括有融合Attention层以及卷积层，倒数第二层仅包括融合Attention层。

热度融合Transformer模型中的解码器主要用于模型的训练过程。

与现有技术中的Transformer模型不同的是，热度融合Transformer模型中的解码器将不使用Mask掩码机制来通过预测词一个个计算词的相关度；而是直接使用编码器输出的结果进行解码操作。此外，还将输出层改为词趋向度矩阵Tend，设置交叉熵损失函数进行网络参数的优化。这样做可以保证编码出的结果既融合了文本相关性、位置和趋向度，也融合了Attention关注值，得到了更精确的文本特征表示。由于热度融合Transformer模型中的解码器不需要一个个预测词，所以可以实现并行运算，在性能上优于现有技术中的Transformer模型。

与现有技术中的Transformer模型相同的是，热度融合Transformer模型中的解码器也会接受编码器的W^q、W^k、W^h这三个参数矩阵作为输入。

利用样本文本的词嵌入向量训练热度融合Transformer模型的具体步骤包括：

步骤S11、将样本文本的词嵌入矩阵输入待训练的热度融合Transformer模型。

步骤S12、初始化待训练的热度融合Transformer模型，包括：初始化融合Attention矩阵的各个参数矩阵，设计模型的层数，并根据每一层的层号计算该层的校验比率和每一个卷积层的卷积核大小。

步骤S13、对输入的词嵌入向量进行融合Attention计算，生成编码向量，并进行残差连接和标准化。

步骤S14、根据每层的卷积核函数对融合Attention层生成的编码向量进行提取特征的操作；完成后将结果作为下一个Transformer编码层的输入。

步骤S15、在多级Transformer模型编码层全部执行完毕后，将最后编码的结果和最后一个融合Attention层的W^q、W^k、W^h这三个矩阵输入解码器，解码器的参数矩阵不是随机初始化的，而是使用融合Attention层输出的W^q、W^k、W^h这三个已有的矩阵。

步骤S16、解码器开始对输入的编码器的结果执行融合Attention计算，生成解码向量，并进行残差连接和标准化。

步骤S17、根据每层的卷积核函数对融合Attention层生成的解码向量进行提取特征的操作；完成后将结果作为下一个Transformer解码层的输入。

步骤S18、将解码层的输出经过一个全连接层与词趋向度矩阵的每个向量计算损失，再进行整个网络的参数优化。

步骤S19、不断迭代执行上述流程直至损失收敛。

通过上述训练过程，确定热度融合Transformer模型中的各个参数，得到经过训练的热度融合Transformer模型。

基于上述任一实施例，在本发明实施例中，方法还包括：

根据样本文本的文本向量得到样本文本的第一词嵌入向量；

将样本文本的第一词嵌入向量、词位置向量以及词热度向量作为训练使用的输入数据，将样本文本的词趋向度向量作为训练使用的标签，采用机器学习的方式进行训练，得到用于生成样本文本的第二词嵌入向量的词融合模型；其中，所述第二词嵌入向量同时融合有词位置信息以及词热度信息。

在本发明实施例中，词融合模型是未经训练，因此需要利用样本数据对其进行训练。

在本发明之前的实施例中，已经对如何从样本文本中得到文本向量、词位置向量、词热度向量以及词趋向度向量做了详细说明，因此不在此处重复描述。

采用现有技术中的word2ve方法可从样本文本的文本向量中得到样本文本的第一词嵌入向量。

在训练时，样本文件的第一词嵌入向量、词位置向量以及词热度向量分别输入3个独立的多层子编码器，3个编码结果在多层子编码器之后的一维卷积层相加，得到编码结果。所得到的编码结果再输入多层解码器中，由多层解码器对一维卷积层的编码结果进行解码，输出层根据解码结果与样本文本的词趋向度向量计算损失函数，从而调整整个编码器中的参数。其中，在计算损失函数时可采用多分类交叉熵。

在本发明实施例中，输出层不像一般的自动编码器一样使用原始的输入数据(即子编码器的输入数据)，而是使用词趋向度矩阵Tend，因为Tend矩阵融合了文本与热度，在自动编码器在朝Tend矩阵编解码的过程中，会将词的相关性、位置、热度融合在一起，相比于直接相加建立词相关性、词位置、访问热度之间的联系，更加准确且能保证在后续的热度融合Transformer模型训练过程中信息不会丢失。

本发明实施例提供的文本相似度计算方法利用样本文本中提取的特征数据对词融合模型进行训练，训练得到的词融合模型能够将词位置信息、词热度信息与原始的词嵌入矩阵相融合，得到能够准确描述词与词、词与位置、词与热度之间关联的词嵌入矩阵，为后续的文本特征识别提供了帮助。

基于上述任一实施例，图8为本发明实施例提供的文本相似度计算装置的示意图，如图8所示，本发明实施例提供的文本相似度计算装置，包括：

词嵌入向量生成模块801，用于根据目标文本得到目标文本的词嵌入向量；

特征向量生成模块802，用于将所述目标文本的词嵌入向量输入预先训练的热度融合Transformer模型，得到目标文本中的词的特征向量；其中，所述词的特征向量能够同时反映词与词之间的文本相似性以及词与词之间的热度差异；

相似度计算模块803，用于根据目标文本中的词的特征向量计算所述目标文本的相似度；其中，

所述热度融合Transformer模型是基于样本文本的词嵌入向量以及样本文本的词趋向度向量训练得到的；其中，所述热度融合Transformer模型是将Transformer模型中的自注意力层替换为融合注意力层，并在所述融合注意力层之间设置卷积层得到的模型；

所述融合注意力层用于根据词的自注意力与热度注意力计算词的注意力；所述词趋向度向量是根据词与词之间的文本相似性以及词与词之间的热度差异得到的用于描述词与词之间关联度的向量。

采用本发明实施例提供的文本相似度计算装置，由于预先训练的热度融合Transformer模型是基于样本文本的词嵌入向量以及样本文本的词趋向度向量训练得到的，其中，词趋向度向量是根据词与词之间的文本相似性以及词与词之间的热度差异得到的用于描述词与词之间关联度的向量，因此，通过预先训练的热度融合Transformer模型，得到目标文本中的词的特征向量能够同时反映词与词之间的文本相似性以及词与词之间的热度差异，这样，后续相似度计算模块在根据目标文本中的词的特征向量计算目标文本的相似度时，可以考虑到访问热度信息，进而使得计算出来的文本特征更全面，相似度更准确。

本发明实施例提供的文本相似度计算方法及装置具有广泛的应用前景。如在查询媒资库的标题时，在智能客服搜索语义匹配度高的回答时，均可采用本发明实施例提供的文本相似度计算方法及装置。

图9为一种文本相似度计算***的示意图，该***将热度融合Transformer模型封装为服务，对外部提供基于Http的调用接口，以对外提供文本相似度计算的功能，可供搜索引擎或智能客服使用。该***包括：模型访问入口、模型实例模块、模型管理模块以及模型库模块。

模型访问入口，用于通过该接口将接入服务的应用所请求的文本转换为特征向量。其中，模型访问入口中带有识别字段，表征请求对应的主题模型。

模型实例模块，用于将热度融合Transformer模型的实例封装为Docker实例，以便对外提供服务。其中，通常情况下每个模型服务可以加载不同主题的模型，从而使得不同主题的模型可以接受不同主题的请求进行处理。

模型管理模块，该模块主要用来管理模型的加载和模型实例的切换，本方案中可以通过模型管理模块监控每个主题的访问量，适当地释放访问量低的主题模型实例，将其转换为访问量高的主题模型实例，以提升整体的性能。

模型库模块，用于存储训练好的不同主题的热度融合Transformer模型。

图10为图9所示文本相似度计算***所提供服务的具体实现步骤的示意图。包括：

步骤1001、接收来自不同应用的请求，所述请求的报文包含两个部分{text,code}。其中，text表示报文本身的内容，即所需要进行变编码的内容；code表示请求主题的编码，该部分使用Http接口供调用方使用。

步骤1002、解析不同的请求报文，根据报文中的主题字段编码code判断所使用的模型。

其中，模型主题的信息以Key-Value的形式存储在模型管理模块，其存储结构如下：

{主题ID，主题信息}。

主题ID，即模型主题的编码code，主题信息包括主题模型所对应的模型服务所在的服务地址，即IP号和端口号。

在***接收到调用端发出的请求时，根据code字段查询相应的主题信息以及主题模型实例的访问地址；根据这个访问地址将请求内容text转发到相应的模型实例中去。

步骤1003、当请求内容text被转发到主题模型实例中时，采用热度融合Transformer模型实例对接收到的文本数据进行编码，具体包括：

计算出文本的Text、Location和Hot三个矩阵，并根据这3个矩阵计算出文本的趋向度矩阵Tend；

将三个矩阵输入预先训练的CL Autoencoder网络模型中，得出融合词嵌入，建立文本-位置之间的关联；

将融合词嵌入输入融合访问热度的Attention机制的多级Transformer网络结构中，经过多层Transformer的计算，得出初步的编码；

通过历史数据使用极大似然方法，对词编码进行sigmoid函数投影，以降低非热度词对文本相似度计算的影响；至此，热度融合Transformer模型的编码完成，将编码结果放入返回结果集。

步骤1004、将接收到的不同模型实例的返回结果返回给请求方。

步骤1005、在服务运行期间模型管理模块实时监控各个模型实例服务，在***初始化时，会默认给每一个主题模型启动多个模型实例，且个数相等；在***运行期间，模型管理模块会检测每个主题模型的访问量，根据这个访问量将模型实例分为热点模型和非热点模型，回收一部分非热点模型的实例，增加热点模型的实例，以更好地应对调用方的访问需求。

图11为本发明实施例提供的电子设备的实体结构示意图，如图11所示，该电子设备可以包括：处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory)1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令，以执行如下方法：根据目标文本得到目标文本的词嵌入向量；将所述目标文本的词嵌入向量输入预先训练的热度融合Transformer模型，得到目标文本中的词的特征向量；其中，所述词的特征向量能够同时反映词与词之间的文本相似性以及词与词之间的热度差异；根据目标文本中的词的特征向量计算所述目标文本的相似度。

需要说明的是，本实施例中的电子设备在具体实现时可以为服务器，也可以为PC机，还可以为其他设备，只要其结构中包括如图11所示的处理器1110、通信接口1120、存储器1130和通信总线1140，其中处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信，且处理器1110可以调用存储器1130中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。

此外，上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：根据目标文本得到目标文本的词嵌入向量；将所述目标文本的词嵌入向量输入预先训练的热度融合Transformer模型，得到目标文本中的词的特征向量；其中，所述词的特征向量能够同时反映词与词之间的文本相似性以及词与词之间的热度差异；根据目标文本中的词的特征向量计算所述目标文本的相似度。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：根据目标文本得到目标文本的词嵌入向量；将所述目标文本的词嵌入向量输入预先训练的热度融合Transformer模型，得到目标文本中的词的特征向量；其中，所述词的特征向量能够同时反映词与词之间的文本相似性以及词与词之间的热度差异；根据目标文本中的词的特征向量计算所述目标文本的相似度。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本相似度计算方法，其特征在于，包括：

根据目标文本得到所述目标文本的词嵌入向量；

将所述目标文本的词嵌入向量输入预先训练的热度融合Transformer模型，得到所述目标文本中的词的特征向量；其中，所述词的特征向量能够同时反映词与词之间的文本相似性以及词与词之间的热度差异；

根据所述目标文本中的词的特征向量计算所述目标文本的相似度；其中，

所述融合注意力层用于根据词的自注意力与热度注意力计算词的注意力；

所述词趋向度向量是根据词与词之间的文本相似性以及词与词之间的热度差异得到的用于描述词与词之间关联度的向量；

所述融合注意力层包括：权重比例设置层以及注意力计算层；其中，

2.根据权利要求1所述的文本相似度计算方法，其特征在于，在所述根据目标文本中的词的特征向量计算所述目标文本的相似度的步骤之前，方法还包括：

根据所述目标文本中的词的热度概率，计算热词概率的估计值；

将所述非热词的特征向量映射为预设值。

3.根据权利要求1或2所述的文本相似度计算方法，其特征在于，所述根据目标文本得到目标文本的词嵌入向量，包括：

根据所述目标文本的文本向量得到目标文本的第一词嵌入向量；

所述词融合模型是基于样本文本的第一词嵌入向量、词位置向量、词热度向量以及词趋向度向量训练得到的；所述第一词嵌入向量为用于反映词的语义相关性的向量。

4.根据权利要求1所述的文本相似度计算方法，其特征在于，所述卷积层的卷积核步数根据所述卷积层在所述热度融合Transformer模型中的层数确定；卷积层在所述热度融合Transformer模型中的层数越高，卷积核步数越大。

5.根据权利要求1所述的文本相似度计算方法，其特征在于，方法还包括：

将所述样本文本的词嵌入向量作为训练使用的输入数据，将样本文本的词趋向度向量作为训练使用的标签，采用机器学习的方式进行训练，得到用于生成目标文本中的词的特征向量的热度融合Transformer模型。

6.根据权利要求3所述的文本相似度计算方法，其特征在于，方法还包括：

根据样本文本的文本向量得到样本文本的第一词嵌入向量；

7.一种文本相似度计算装置，其特征在于，包括：

特征向量生成模块，用于将所述目标文本的词嵌入向量输入预先训练的热度融合Transformer模型，得到目标文本中的词的特征向量；其中，所述词的特征向量能够同时反映词与词之间的文本相似性以及词与词之间的热度差异；

相似度计算模块，用于根据目标文本中的词的特征向量计算所述目标文本的相似度；其中，

所述融合注意力层用于根据词的自注意力与热度注意力计算词的注意力；所述词趋向度向量是根据词与词之间的文本相似性以及词与词之间的热度差异得到的用于描述词与词之间关联度的向量；

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述文本相似度计算方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述文本相似度计算方法的步骤。