CN112836043A

CN112836043A - 一种基于预训练语言模型的长文本聚类方法及装置

Info

Publication number: CN112836043A
Application number: CN202011093000.2A
Authority: CN
Inventors: 张震; 石瑾; 李鹏; 王玉杰; 张浩宇; 贾国庆; 吴飞
Original assignee: National Computer Network and Information Security Management Center; Iflytek Information Technology Co Ltd
Current assignee: National Computer Network and Information Security Management Center; Iflytek Information Technology Co Ltd
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2021-05-25

Abstract

本发明公开了一种基于预训练语言模型的长文本聚类方法及装置，该方法包括：步骤SS1：使用文本摘要模型将长文本压缩为短文本；步骤SS2：根据步骤SS1获得的所述短文本与BERT模型的有标签文本句子对来预测是否两个文本包含相同的事件，生成文本对初始分数；步骤SS3：使用步骤SS2获得的所述文本对初始分数作为初始分数，根据文本对相较于其他文本的关系来重新计算分数；步骤SS4：根据步骤SS3获得的文本对分数，从得分最高的文本对开始计算分组。本发明运用深度学习方法的同时，采用迁移学习，将大规模预训练模型应用到文本聚类中。

Description

一种基于预训练语言模型的长文本聚类方法及装置

技术领域

本发明涉及一种基于预训练语言模型的长文本聚类方法及装置，属于自然资源处理应用技术领域，具体涉及信息抽取、深度神经网络、语言模型以及文本聚类的应用场景。

背景技术

文本聚类功能通过对大量的输入文本进行聚类分析将具有高度相似性的文档划分到相同的类别。同类的文档相似度较大，而类别不同的文档相似度较小。作为一种无监督的机器学习方法，聚类由于不需要训练过程，不需要预先对文档手工标注类别，因此具有一定的灵活性和较高的自动化处理能力。

随着信息化进程的不断推荐，日益增长的文本信息给人们带来巨大的困扰；信息处理技术可以有效帮助从海量数据挖掘有效的信息；文本类别划分是信息处理技术最基本的方法；文本类别划分主要目前主要包括有监督文本分类和无监督或者半监督的文本聚类方法；有监督的文本分类方法通过预定义好类别标签，通过对文本数据组织人工标注构建专有的或者面向领域的文本；预定义类别标签一旦确定很难更改，因此，基于监督文本分类方法极大的限制了文本类别划分的拓展；基于半监督或者无监督的文本聚类方法，可以解决文本类别划分的问题，在文本类别划分方面得到了广泛的应用，例如：基于single_pass的新闻聚类方法，作为面向长文本的表达，聚类中心的便宜，忽略上下文的语义信息，基于LDA的主题文本聚类方法。这些方法也存在一些不足，目前的文本向量特这个主要存在几个问题：基于词袋模型的向量表达对于长文本的特征表达效果较差，基于词频统计的TFIDF的向量表达以及基于主题的LDA的向量表达均忽略了词语的上下文语义关联信息。另外，在聚类过程中，随着文本数据增加，簇心的偏移，会导致文本的之间相似性差异较大。

发明内容

现有技术的缺点如下三点。(1)现有聚类方法采用基于文本的特征向量计算文本间相似距离，主要包括最小距离、最大距离、平均距离、中间距离法、重心法、离差平方法和法等句子距离计算方法。构建文本特征向量表达通常采用基于词频的TF-IDF方法构建文本向量，通过计算文本向量之间的相对距离来计算文本之间的相似程度。根据句子之间的相似程度来计算句子簇的划分。TF-IDF虽然简单快速，但是单纯以词频衡量一个词的重要性不够全面，词语有时候重要的词出现的次数不多；另外，基于TF-IDF文本特征，并未考虑文本的上下文语义信息，文本中词语出现位置对文本的语义表达至关重要。因此，依据TF-IDF来计算句子间的距离，并以此作为划分句子簇类的依据并不全面。

(2)长文本降维的问题；随着深度学习的发展，基于文本上下文的词嵌入模型的构建，使文本的特征表达得到了显著的提升；尤其是基于self-Attetion的预训练语言模型发展，给文本的特征向量表达，带来了新的机会。但是，由于self_attention的预训练模型通常是基于句子级别的向量表达，对长文本的表达无法降维。

(3)簇心飘移的问题。当前文本聚类方法往往需要指定簇的个数(K-means)或者构建动态类别(Dbscan)；指定簇的个数并不能根据待聚类的文本数量进行动态的调整，在实际应用过程中，需要根据经验设置簇的个数；动态类别数据随着是簇中数据增加或者异常值的出现导致簇心的飘移，簇中数据差异很大，就会将原本不属于类中的文本划分到同一个簇类中，继而在之后的聚类中引发连锁反应，使得聚类效果变差。

本发明解决的技术问题为：(1)构建面向长文本的特征表达；目前，基于深度学习的向量表达主要都集中于句子级别的特征抽取；并不适用于长文本的场景；为了解决长文本的特征表达，引用摘要模型长文本进行处理得到针对原始文本的特征描述；(2)构建文本特征表达，在本发明中采用预训练语言模型构建文本特征向量表达，来替代传统TF-IDF向量表达。在本发明中使用BERT的预训练模型构建特征向量表达，并在一定相似文本对的基础上特征向量fine-tuning以提高是预训练语言模型特征表达，使得可以更全面的表达句子的含义； (3)融入文本分类特征的聚类算法。针对文本聚类需要提前定义类簇个数和无类簇个数导致的簇心偏移的问题，融入了一个判断两个文本是否相似的一个二分类算法模型；并在二分类模型的结果上重新构建文本对间的得分，在新得分的基础上构建分类算法方法。

本发明的目的在于，克服现有技术存在的缺陷，解决将文本上下文嵌入文本特征向量，以及解决长文本的特征表达问题，提高面向长文本的聚类效果，本发明提出了一种基于预训练语言模型的长文本聚类方法及装置。

本发明具体采用如下技术方案：一种基于预训练语言模型的长文本聚类方法，所述方法包括：

步骤SS1：使用文本摘要模型将长文本压缩为短文本；

步骤SS2：根据步骤SS1获得的所述短文本与BERT模型的有标签文本句子对来预测是否两个文本包含相同的事件，生成文本对初始分数；

步骤SS3：使用步骤SS2获得的所述文本对初始分数作为初始分数，根据文本对相较于其他文本的关系来重新计算分数；

步骤SS4：根据步骤SS3获得的文本对分数，从得分最高的文本对开始计算分组。

作为一种较佳的实施例，所述步骤SS1具体包括：采用PGN模型对需要进行聚类的文本进行处理，将长文本压缩为短文本，保留长文本的关键信息。

作为一种较佳的实施例，所述步骤SS2具体包括：训练一个BERT 模型，通过BERT模型对文章中的文本进行评分，获得初始分数。

作为一种较佳的实施例，所述步骤SS2中的BERT模型的训练过程如下：

步骤SS21：对文档内的文本进行划分，将一篇文档划分为n个文本并进行编号；

步骤SS22：将这n个文本两两组合，组成

个文本对，并对其进行标注是否属于同一簇类；

步骤SS23：将第一个文本

和第二个文本

分别作为BERT模型的输入， BERT模型输出预测结果。

作为一种较佳的实施例，所述步骤SS23还包括：对于BERT模型输出采用平均池化策略，将文本获得的所有词向量取平均值操作，将最终的向量作为文本的句向量；

由此获得第一个文本的句向量u＝[u₁,u₂,u₃,…,u_k]和第二个文本的句向量v＝[v₁,v₂,v₃,…,v_k]；

将第一个文本的句子向量u和第二个文本的句子向量v以及两者按位求差向量进行拼接；将拼接好的向量乘以一个可训练的权重 W_t∈R^3k*l，获得BERT模型输出：

o＝softmax(W_t(u,v,|u-v|))。

作为一种较佳的实施例，所述BERT模型输出为0和1作为预测结果，1代表着两个文本属于同一个簇，0代表着两个文本属于不同的簇。

作为一种较佳的实施例，所述BERT模型为：BERT的双塔模型，两个BERT模型共享同样的参数；将两个文本输入到两个BERT模型中，分别获取到对应的文本向量，进而进行计算出两个文本的初始分数。

作为一种较佳的实施例，所述步骤SS3具体包括：

将步骤SS2中获取的分数作为初始分数，考虑文本对间与其他文本的相关性；如果Sentence1和Sentence2之间的初始分数为1，即 Score(Sentence₁,Sentence₂)＝1，那么考虑Sentence1和Sentence2 与文本Sentence3的相关性；如果Score(Sentence₁,Sentence₃)＝1且 Score(Sentence₂,Sentence₃)＝1，那么增加Score(Sentence₁,Sentence₂)；如果Score(Sentence₁,Sentence₃)和Score(Sentence₂, Sentence₃)不同，那么减少Score(Sentence₁,Sentence₂)。

对于任意一个文本对Sentence_i和Senetence_j，对于如果在很多其他文本Senetence_k上有相同的预测，那么将Senetence_i和Sentence_j放在同一个簇中的可能性会更高：

Score(Sentence_i,Sentence_j)＝Score(Sentence_i,Sentence_j)+reward

如果有着不一致的预测，那么将Sentence_i和Sentence_j放在一起的可能性会更低:

Score(Sentence_i,Sentence_j)＝Score(Sentence_i,Sentence_j)-penalty

reward和penalty设置为介于0和1之间的不同值。

作为一种较佳的实施例，所述步骤SS4具体包括：

步骤SS41：经过对文本对重新计算分数后，根据贪心算法来创建簇类；起始时，假设所有的文本都不属于同一个簇，在所有的文本对中，只考虑得分大于0的文本对，忽视得分小于0的文本对；

步骤SS42：对所有得分大于0的文本对按照分数进行降序排列，分数相同的有限考虑下标小的文本，在根据分数和文本索引对文本对进行排序之后，从分数最高的文本对进行聚类；将得分高的文本对进行合并，直到两种情况：(1)没有其他得分高于0的文本对；(2)当每一个文本都合并进入已存在的簇内；对于第(1)种情况，如果有一些文本没有合并进入簇内，则认为这些文本属于单独的一个簇。

本发明还提出一种基于预训练语言模型的长文本聚类装置，所述装置包括：

文本压缩模块，用于执行：使用文本摘要模型将长文本压缩为短文本；

初始分数模块，用于执行：根据文本压缩模块获得的所述短文本与BERT模型的有标签文本句子对来预测是否两个文本包含相同的事件，生成文本对初始分数；

分数调整模块，用于执行：使用初始分数模块获得的所述文本对初始分数作为初始分数，根据文本对相较于其他文本的关系来重新计算分数；

分组合并模块，用于执行：根据所述分数调整模块获得的文本对分数，从得分最高的文本对开始计算分组。

本发明针对现有技术存在的缺点，以长文本聚类数据为基础，通过深度神经网络、迁移学习等方法，让机器能够对大量长文本进行聚类，相比现有技术，本发明的有益效果如下：第一，在处理长文本的过程中，采用PGN神经网络对较长的文本进行压缩。保留原本文本中的关键信息，使得获取的文本与所需的聚类目标更加相关，并且剔除了长文本中的无用信息，减少了后续处理的复杂性，以便于后续进行聚类处理。第二，本发明采用双塔BERT模型计算文本特征向量，继而通过特征向量构建计算文本是否相似的二分类模型，双塔模型提高文本预训练语言模型的长度，提高文本相似比较的最大长度。第三，在文本聚类过程中，本发明根据文本之间是否相似的二分类结构重新构建文本之间相似得分，充分发挥文本之间的相关性，从而提高文本之间性差异，减少簇心偏移的问题。

附图说明

图1是本发明的优选实施例的拓扑原理示意图；

图2是本发明的BERT模型的原理图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1：如图1所示，本发明的技术方案主要包含四步。第一步，使用文本摘要模型将原本长文本压缩为短文本，保留长文本的关键信息。第二步，使用基于Transformer的模型BERT来预测是否两个文本包含相同的事件。第三步，使用这一预测结果作为初始分数，根据这一对文本相较于其他文本的关系来重新计算分数。第四步，根据文本的分数，从得分最高的文本对开始计算分组。

1、利用文本摘要模型将长文本压缩为短文本。长文本的处理的难点在于文本长度较长，难以在后续处理中包含全部文本信息。对此本发明采用PGN模型对长文本进行处理，将长文本压缩为较短的文本。由于PGN模型在文本摘要上有优秀的表现效果，而且PGN模型在抽取上做的较多，能够很好的保留长文本的关键信息。之所以采用文本摘要模型，是因为文本摘要模型可以很好的在减少文本长度的情况下不损失文本中的信息，而且可以去掉长文本中的无用信息。目前的文本摘要模型已经达到甚至超越人类水平，可以很好的承担长文本压缩的任务。将需要进行聚类的文本，经由PGN模型压缩为较短文本，留待后续聚类处理。

2、BERT计算文本初始分数。这一部分主要任务是利用BERT 模型对文章中的文本对设定一个初始分数。这一步将训练一个BERT 模型，模型将用来对文章中的文本进行评分，将这一分数作为初始分数来进行下一步的计算。

在这一步中首先需要训练一个基于BERT的模型来对文本对进行初始分数设置，根据两者是否在同一簇下来设定一个初始分数。在训练数据上，本发明收集选择多个文档，文档可以是涉及多个类型比如军事、政治、娱乐的文档，将这些文档的文本加上对应的标签，并将其打乱顺序组成新的文档。

首先对文档内的文本进行划分，将一篇文档划分为n个文本并进行编号。然后将这n个文本两两组合，组成

个文本对，并对其进行标注是否属于同一簇类，如下表1所示：

表1

BERT模型结构如图2所示，将第一个文本

和第二个文本

分别作为BERT模型的输入。对于BERT模型输出采用平均池化策略，将文本获得的所有词向量取平均值操作，将最终的向量作为文本的句向量。由此获得第一个文本的句向量u＝[u₁,u₂,u₃,…,u_k]和第二个文本的句向量v＝[v₁,v₂,v₃,…,v_k]。将第一个文本的句子向量u和第二个文本的句子向量v以及两者按位求差向量进行拼接。将拼接好的向量乘以一个可训练的权重W_t∈R^3k*l，模型输出为：

o＝softmax(W_t(u,v,|u-v|))

模型输出一般为0、1作为预测结果，1代表着两个文本属于同一个簇，0代表着两个文本属于不同的簇。在这一步中，为了更好地区分输出，本发明采用-1来表示两个文本不属于同一个簇。

模型之所以选择BERT的双塔结构，是因为BERT模型在计算语义相似度时，需要将两个文本同时进入模型进行信息交互，这会造成大量的开销。对此，本发明采用BERT的双塔模型，两个模型共享同样的参数。将两个文本输入到两个BERT模型中，可以分别获取到对应的文本向量，进而进行计算出两文本的初始分数。另一个原因是采用BERT的双塔模型可以极大的扩大可输入文本的长度。原本的 BERT模型最大输入长度只有512，在采用BERT的双塔模型后，两个文本可以分别输入到两个BERT模型中，最大输入长度为1024。

在上一步中处理后的待聚类文本数据按照上述处理，组成多个文本对。将文本对作为数据输入到训练好的模型中，得到文本对的初始分数。在获取到文本初始分数后经由后续处理获取最终的分数。

3、根据文本关系重新计算文本分数。将上一步中获取的分数作为初始分数，考虑文本对间与其他文本的相关性。如果Sentence1和 Sentence2之间的初始分数为1，即Score(Sentence₁,Sentence₂)＝1，那么考虑它们与文本Sentence3的相关性，如果Score(Sentence₁, Sentence₃)＝1且Score(Sentence₂,Sentence₃)＝1，那么增加Score(Sentence₁,Sentence₂)；如果Score(Sentence₁,Sentence₃)和 Score(Sentence₂,Sentence₃)不同，那么减少Score(Sentence₁, Sentence₂)。

这一步主要不仅依靠文本对本身，也考虑到了文本对于其他文本的一致性。对于任意一个文本对Sentence_i和Senetence_j，对于如果在很多其他文本Senetence_k上有相同的预测，那么将Senetence_i和 Sentence_j放在同一个簇中的可能性会更高：

Score(Sentence_i,Sentence_j)＝Score(Sentence_i,Sentence_j)+reward

Score(Sentence_i,Sentence_j)＝Score(Sentence_i,Sentence_j)-penalty

reward和penalty可以设置为介于0和1之间的不同值。本发明按照验证数据上的效果，设置reward为0.8、penalty为0.8。

4、根据文本对分数计算分组。经过对文本对重新计算分数后，根据贪心算法来创建簇类。起始时，假设所有的文本都不属于同一个簇。在所有的文本对中，只考虑得分大于0的文本对，忽视得分小于 0的文本对。然后对所有得分大于0的文本对按照分数进行降序排列，分数相同的有限考虑下标比较小的文本。在根据分数和文本索引对文本对进行排序之后，从分数最高的文本对进行聚类。将得分高的文本对进行合并，直到两种情况：(1)没有其他得分高于0的文本对；(2) 当每一个文本都合并进入已存在的簇内。对于第一种情况，如果有一些文本没有合并进入簇内，则认为这些文本属于单独的一个簇。

这一方法类似层次法聚类，同样采用自下而上的方式创建簇。区别在于，本发明采用最大的分数来决定簇而不是采用最小距离。

本发明的优点在于：优点1，采用文本摘要模型压缩长文本的策略，保留长文本关键信息，便于后续处理。优点2，采用双塔BERT 模型获取文本相关性计算分数，相比TF-IDF能更好的获取文本的表示信息，便于得到更准确地结果，并且降低了训练开销。优点3，将二分类方法和聚类相结合，对文本对构建得分，充分挖掘文本相关性，提高减少簇心偏移问题。

实施例2：本发明还提出一种基于预训练语言模型的长文本聚类装置，所述装置包括：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于预训练语言模型的长文本聚类方法，其特征在于，所述方法包括：

步骤SS1：使用文本摘要模型将长文本压缩为短文本；

2.根据权利要求1所述的一种基于预训练语言模型的长文本聚类方法，其特征在于，所述步骤SS1具体包括：采用PGN模型对需要进行聚类的文本进行处理，将长文本压缩为短文本，保留长文本的关键信息。

3.根据权利要求1所述的一种基于预训练语言模型的长文本聚类方法，其特征在于，所述步骤SS2具体包括：训练一个BERT模型，通过BERT模型对文章中的文本进行评分，获得初始分数。

4.根据权利要求1所述的一种基于预训练语言模型的长文本聚类方法，其特征在于，所述步骤SS2中的BERT模型的训练过程如下：

步骤SS22：将这n个文本两两组合，组成

个文本对，并对其进行标注是否属于同一簇类；

步骤SS23：将第一个文本

和第二个文本

分别作为BERT模型的输入，BERT模型输出预测结果。

5.根据权利要求1所述的一种基于预训练语言模型的长文本聚类方法，其特征在于，所述步骤SS23还包括：对于BERT模型输出采用平均池化策略，将文本获得的所有词向量取平均值操作，将最终的向量作为文本的句向量；

将第一个文本的句子向量u和第二个文本的句子向量v以及两者按位求差向量进行拼接；将拼接好的向量乘以一个可训练的权重W_t∈R^3k*l，获得BERT模型输出：

o＝softmax(W_t(u,v,|u-v|))。

6.根据权利要求5所述的一种基于预训练语言模型的长文本聚类方法，其特征在于，所述BERT模型输出为0和1作为预测结果，1代表着两个文本属于同一个簇，0代表着两个文本属于不同的簇。

7.根据权利要求3所述的一种基于预训练语言模型的长文本聚类方法，其特征在于，所述BERT模型为：BERT的双塔模型，两个BERT模型共享同样的参数；将两个文本输入到两个BERT模型中，分别获取到对应的文本向量，进而进行计算出两个文本的初始分数。

8.根据权利要求5所述的一种基于预训练语言模型的长文本聚类方法，其特征在于，所述步骤SS3具体包括：

将步骤SS2中获取的分数作为初始分数，考虑文本对间与其他文本的相关性；如果Sentence1和Sentence2之间的初始分数为1，即Score(Sentence₁,Sentence₂)＝1，那么考虑Sentence1和Sentence2与文本Sentence3的相关性；如果Score(Sentence₁,Sentence₃)＝1且Score(Sentence₂,Sentence₃)＝1，那么增加Score(Sentence₁,Sentence₂)；如果Score(Sentence₁,Sentence₃)和Score(Sentence₂,Sentence₃)不同，那么减少Score(Sentence₁,Sentence₂)。

Score(Sentence_i,Sentence_j)＝Score(Sentence_i,Sentence_j)+reward

Score(Sentence_i,Sentence_j)＝Score(Sentence_i,Sentence_j)-penalty

reward和penalty设置为介于0和1之间的不同值。

9.根据权利要求5所述的一种基于预训练语言模型的长文本聚类方法，其特征在于，所述步骤SS4具体包括：

10.一种基于预训练语言模型的长文本聚类装置，其特征在于，所述装置包括：