CN112836043A - 一种基于预训练语言模型的长文本聚类方法及装置 - Google Patents

一种基于预训练语言模型的长文本聚类方法及装置 Download PDF

Info

Publication number
CN112836043A
CN112836043A CN202011093000.2A CN202011093000A CN112836043A CN 112836043 A CN112836043 A CN 112836043A CN 202011093000 A CN202011093000 A CN 202011093000A CN 112836043 A CN112836043 A CN 112836043A
Authority
CN
China
Prior art keywords
text
texts
score
sentence
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011093000.2A
Other languages
English (en)
Inventor
张震
石瑾
李鹏
王玉杰
张浩宇
贾国庆
吴飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Iflytek Information Technology Co Ltd
Original Assignee
National Computer Network and Information Security Management Center
Iflytek Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center, Iflytek Information Technology Co Ltd filed Critical National Computer Network and Information Security Management Center
Priority to CN202011093000.2A priority Critical patent/CN112836043A/zh
Publication of CN112836043A publication Critical patent/CN112836043A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于预训练语言模型的长文本聚类方法及装置,该方法包括:步骤SS1:使用文本摘要模型将长文本压缩为短文本;步骤SS2:根据步骤SS1获得的所述短文本与BERT模型的有标签文本句子对来预测是否两个文本包含相同的事件,生成文本对初始分数;步骤SS3:使用步骤SS2获得的所述文本对初始分数作为初始分数,根据文本对相较于其他文本的关系来重新计算分数;步骤SS4:根据步骤SS3获得的文本对分数,从得分最高的文本对开始计算分组。本发明运用深度学习方法的同时,采用迁移学习,将大规模预训练模型应用到文本聚类中。

Description

一种基于预训练语言模型的长文本聚类方法及装置
技术领域
本发明涉及一种基于预训练语言模型的长文本聚类方法及装置, 属于自然资源处理应用技术领域,具体涉及信息抽取、深度神经网络、 语言模型以及文本聚类的应用场景。
背景技术
文本聚类功能通过对大量的输入文本进行聚类分析将具有高度 相似性的文档划分到相同的类别。同类的文档相似度较大,而类别不 同的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不 需要训练过程,不需要预先对文档手工标注类别,因此具有一定的灵 活性和较高的自动化处理能力。
随着信息化进程的不断推荐,日益增长的文本信息给人们带来巨大的 困扰;信息处理技术可以有效帮助从海量数据挖掘有效的信息;文本 类别划分是信息处理技术最基本的方法;文本类别划分主要目前主要 包括有监督文本分类和无监督或者半监督的文本聚类方法;有监督的 文本分类方法通过预定义好类别标签,通过对文本数据组织人工标注构建专有的或者面向领域的文本;预定义类别标签一旦确定很难更改, 因此,基于监督文本分类方法极大的限制了文本类别划分的拓展;基 于半监督或者无监督的文本聚类方法,可以解决文本类别划分的问题, 在文本类别划分方面得到了广泛的应用,例如:基于single_pass的新 闻聚类方法,作为面向长文本的表达,聚类中心的便宜,忽略上下文 的语义信息,基于LDA的主题文本聚类方法。这些方法也存在一些 不足,目前的文本向量特这个主要存在几个问题:基于词袋模型的向 量表达对于长文本的特征表达效果较差,基于词频统计的TFIDF的 向量表达以及基于主题的LDA的向量表达均忽略了词语的上下文语 义关联信息。另外,在聚类过程中,随着文本数据增加,簇心的偏移, 会导致文本的之间相似性差异较大。
发明内容
现有技术的缺点如下三点。(1)现有聚类方法采用基于文本的特 征向量计算文本间相似距离,主要包括最小距离、最大距离、平均距 离、中间距离法、重心法、离差平方法和法等句子距离计算方法。构 建文本特征向量表达通常采用基于词频的TF-IDF方法构建文本向量, 通过计算文本向量之间的相对距离来计算文本之间的相似程度。根据 句子之间的相似程度来计算句子簇的划分。TF-IDF虽然简单快速, 但是单纯以词频衡量一个词的重要性不够全面,词语有时候重要的词 出现的次数不多;另外,基于TF-IDF文本特征,并未考虑文本的上 下文语义信息,文本中词语出现位置对文本的语义表达至关重要。因 此,依据TF-IDF来计算句子间的距离,并以此作为划分句子簇类的 依据并不全面。
(2)长文本降维的问题;随着深度学习的发展,基于文本上下文 的词嵌入模型的构建,使文本的特征表达得到了显著的提升;尤其是 基于self-Attetion的预训练语言模型发展,给文本的特征向量表达, 带来了新的机会。但是,由于self_attention的预训练模型通常是基 于句子级别的向量表达,对长文本的表达无法降维。
(3)簇心飘移的问题。当前文本聚类方法往往需要指定簇的个 数(K-means)或者构建动态类别(Dbscan);指定簇的个数并不能根据 待聚类的文本数量进行动态的调整,在实际应用过程中,需要根据经 验设置簇的个数;动态类别数据随着是簇中数据增加或者异常值的出 现导致簇心的飘移,簇中数据差异很大,就会将原本不属于类中的文 本划分到同一个簇类中,继而在之后的聚类中引发连锁反应,使得聚 类效果变差。
本发明解决的技术问题为:(1)构建面向长文本的特征表达;目 前,基于深度学习的向量表达主要都集中于句子级别的特征抽取;并 不适用于长文本的场景;为了解决长文本的特征表达,引用摘要模型 长文本进行处理得到针对原始文本的特征描述;(2)构建文本特征表 达,在本发明中采用预训练语言模型构建文本特征向量表达,来替代 传统TF-IDF向量表达。在本发明中使用BERT的预训练模型构建特 征向量表达,并在一定相似文本对的基础上特征向量fine-tuning以 提高是预训练语言模型特征表达,使得可以更全面的表达句子的含义; (3)融入文本分类特征的聚类算法。针对文本聚类需要提前定义类 簇个数和无类簇个数导致的簇心偏移的问题,融入了一个判断两个文 本是否相似的一个二分类算法模型;并在二分类模型的结果上重新构 建文本对间的得分,在新得分的基础上构建分类算法方法。
本发明的目的在于,克服现有技术存在的缺陷,解决将文本上下 文嵌入文本特征向量,以及解决长文本的特征表达问题,提高面向长 文本的聚类效果,本发明提出了一种基于预训练语言模型的长文本聚 类方法及装置。
本发明具体采用如下技术方案:一种基于预训练语言模型的长文 本聚类方法,所述方法包括:
步骤SS1:使用文本摘要模型将长文本压缩为短文本;
步骤SS2:根据步骤SS1获得的所述短文本与BERT模型的有标 签文本句子对来预测是否两个文本包含相同的事件,生成文本对初始 分数;
步骤SS3:使用步骤SS2获得的所述文本对初始分数作为初始分 数,根据文本对相较于其他文本的关系来重新计算分数;
步骤SS4:根据步骤SS3获得的文本对分数,从得分最高的文本 对开始计算分组。
作为一种较佳的实施例,所述步骤SS1具体包括:采用PGN模 型对需要进行聚类的文本进行处理,将长文本压缩为短文本,保留长 文本的关键信息。
作为一种较佳的实施例,所述步骤SS2具体包括:训练一个BERT 模型,通过BERT模型对文章中的文本进行评分,获得初始分数。
作为一种较佳的实施例,所述步骤SS2中的BERT模型的训练过 程如下:
步骤SS21:对文档内的文本进行划分,将一篇文档划分为n个 文本并进行编号;
步骤SS22:将这n个文本两两组合,组成
Figure BDA0002722783140000041
个文本对,并对 其进行标注是否属于同一簇类;
步骤SS23:将第一个文本
Figure BDA0002722783140000042
和第二 个文本
Figure BDA0002722783140000043
分别作为BERT模型的输入, BERT模型输出预测结果。
作为一种较佳的实施例,所述步骤SS23还包括:对于BERT模 型输出采用平均池化策略,将文本获得的所有词向量取平均值操作, 将最终的向量作为文本的句向量;
由此获得第一个文本的句向量u=[u1,u2,u3,…,uk]和第二个文 本的句向量v=[v1,v2,v3,…,vk];
将第一个文本的句子向量u和第二个文本的句子向量v以及两者 按位求差向量进行拼接;将拼接好的向量乘以一个可训练的权重 Wt∈R3k*l,获得BERT模型输出:
o=softmax(Wt(u,v,|u-v|))。
作为一种较佳的实施例,所述BERT模型输出为0和1作为预测 结果,1代表着两个文本属于同一个簇,0代表着两个文本属于不同 的簇。
作为一种较佳的实施例,所述BERT模型为:BERT的双塔模型, 两个BERT模型共享同样的参数;将两个文本输入到两个BERT模型 中,分别获取到对应的文本向量,进而进行计算出两个文本的初始分 数。
作为一种较佳的实施例,所述步骤SS3具体包括:
将步骤SS2中获取的分数作为初始分数,考虑文本对间与其他文 本的相关性;如果Sentence1和Sentence2之间的初始分数为1,即 Score(Sentence1,Sentence2)=1,那么考虑Sentence1和Sentence2 与文本Sentence3的相关性;如果Score(Sentence1,Sentence3)=1且 Score(Sentence2,Sentence3)=1,那么增加Score(Sentence1,Sentence2);如果Score(Sentence1,Sentence3)和Score(Sentence2, Sentence3)不同,那么减少Score(Sentence1,Sentence2)。
对于任意一个文本对Sentencei和Senetencej,对于如果在很多其 他文本Senetencek上有相同的预测,那么将Senetencei和Sentencej放 在同一个簇中的可能性会更高:
Score(Sentencei,Sentencej)=Score(Sentencei,Sentencej)+reward
如果有着不一致的预测,那么将Sentencei和Sentencej放在一起 的可能性会更低:
Score(Sentencei,Sentencej)=Score(Sentencei,Sentencej)-penalty
reward和penalty设置为介于0和1之间的不同值。
作为一种较佳的实施例,所述步骤SS4具体包括:
步骤SS41:经过对文本对重新计算分数后,根据贪心算法来创 建簇类;起始时,假设所有的文本都不属于同一个簇,在所有的文本 对中,只考虑得分大于0的文本对,忽视得分小于0的文本对;
步骤SS42:对所有得分大于0的文本对按照分数进行降序排列, 分数相同的有限考虑下标小的文本,在根据分数和文本索引对文本对 进行排序之后,从分数最高的文本对进行聚类;将得分高的文本对进 行合并,直到两种情况:(1)没有其他得分高于0的文本对;(2)当 每一个文本都合并进入已存在的簇内;对于第(1)种情况,如果有 一些文本没有合并进入簇内,则认为这些文本属于单独的一个簇。
本发明还提出一种基于预训练语言模型的长文本聚类装置,所述 装置包括:
文本压缩模块,用于执行:使用文本摘要模型将长文本压缩为短 文本;
初始分数模块,用于执行:根据文本压缩模块获得的所述短文本 与BERT模型的有标签文本句子对来预测是否两个文本包含相同的 事件,生成文本对初始分数;
分数调整模块,用于执行:使用初始分数模块获得的所述文本对 初始分数作为初始分数,根据文本对相较于其他文本的关系来重新计 算分数;
分组合并模块,用于执行:根据所述分数调整模块获得的文本对 分数,从得分最高的文本对开始计算分组。
本发明针对现有技术存在的缺点,以长文本聚类数据为基础,通 过深度神经网络、迁移学习等方法,让机器能够对大量长文本进行聚 类,相比现有技术,本发明的有益效果如下:第一,在处理长文本的 过程中,采用PGN神经网络对较长的文本进行压缩。保留原本文本 中的关键信息,使得获取的文本与所需的聚类目标更加相关,并且剔 除了长文本中的无用信息,减少了后续处理的复杂性,以便于后续进 行聚类处理。第二,本发明采用双塔BERT模型计算文本特征向量, 继而通过特征向量构建计算文本是否相似的二分类模型,双塔模型提 高文本预训练语言模型的长度,提高文本相似比较的最大长度。第三, 在文本聚类过程中,本发明根据文本之间是否相似的二分类结构重新 构建文本之间相似得分,充分发挥文本之间的相关性,从而提高文本 之间性差异,减少簇心偏移的问题。
附图说明
图1是本发明的优选实施例的拓扑原理示意图;
图2是本发明的BERT模型的原理图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清 楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1:如图1所示,本发明的技术方案主要包含四步。第一 步,使用文本摘要模型将原本长文本压缩为短文本,保留长文本的关 键信息。第二步,使用基于Transformer的模型BERT来预测是否两 个文本包含相同的事件。第三步,使用这一预测结果作为初始分数, 根据这一对文本相较于其他文本的关系来重新计算分数。第四步,根 据文本的分数,从得分最高的文本对开始计算分组。
1、利用文本摘要模型将长文本压缩为短文本。长文本的处理的 难点在于文本长度较长,难以在后续处理中包含全部文本信息。对此 本发明采用PGN模型对长文本进行处理,将长文本压缩为较短的文 本。由于PGN模型在文本摘要上有优秀的表现效果,而且PGN模型 在抽取上做的较多,能够很好的保留长文本的关键信息。之所以采用 文本摘要模型,是因为文本摘要模型可以很好的在减少文本长度的情 况下不损失文本中的信息,而且可以去掉长文本中的无用信息。目前 的文本摘要模型已经达到甚至超越人类水平,可以很好的承担长文本 压缩的任务。将需要进行聚类的文本,经由PGN模型压缩为较短文 本,留待后续聚类处理。
2、BERT计算文本初始分数。这一部分主要任务是利用BERT 模型对文章中的文本对设定一个初始分数。这一步将训练一个BERT 模型,模型将用来对文章中的文本进行评分,将这一分数作为初始分 数来进行下一步的计算。
在这一步中首先需要训练一个基于BERT的模型来对文本对进 行初始分数设置,根据两者是否在同一簇下来设定一个初始分数。在 训练数据上,本发明收集选择多个文档,文档可以是涉及多个类型比 如军事、政治、娱乐的文档,将这些文档的文本加上对应的标签,并 将其打乱顺序组成新的文档。
首先对文档内的文本进行划分,将一篇文档划分为n个文本并进 行编号。然后将这n个文本两两组合,组成
Figure BDA0002722783140000091
个文本对,并对其 进行标注是否属于同一簇类,如下表1所示:
表1
Figure BDA0002722783140000092
BERT模型结构如图2所示,将第一个文本
Figure RE-GDA0003006864600000093
Figure RE-GDA0003006864600000094
和第二个文本
Figure RE-GDA0003006864600000095
分别 作为BERT模型的输入。对于BERT模型输出采用平均池化策略,将 文本获得的所有词向量取平均值操作,将最终的向量作为文本的句向 量。由此获得第一个文本的句向量u=[u1,u2,u3,…,uk]和第二个文 本的句向量v=[v1,v2,v3,…,vk]。将第一个文本的句子向量u和第 二个文本的句子向量v以及两者按位求差向量进行拼接。将拼接好的 向量乘以一个可训练的权重Wt∈R3k*l,模型输出为:
o=softmax(Wt(u,v,|u-v|))
模型输出一般为0、1作为预测结果,1代表着两个文本属于同 一个簇,0代表着两个文本属于不同的簇。在这一步中,为了更好地 区分输出,本发明采用-1来表示两个文本不属于同一个簇。
模型之所以选择BERT的双塔结构,是因为BERT模型在计算语 义相似度时,需要将两个文本同时进入模型进行信息交互,这会造成 大量的开销。对此,本发明采用BERT的双塔模型,两个模型共享同 样的参数。将两个文本输入到两个BERT模型中,可以分别获取到对 应的文本向量,进而进行计算出两文本的初始分数。另一个原因是采 用BERT的双塔模型可以极大的扩大可输入文本的长度。原本的 BERT模型最大输入长度只有512,在采用BERT的双塔模型后,两 个文本可以分别输入到两个BERT模型中,最大输入长度为1024。
在上一步中处理后的待聚类文本数据按照上述处理,组成多个文 本对。将文本对作为数据输入到训练好的模型中,得到文本对的初始 分数。在获取到文本初始分数后经由后续处理获取最终的分数。
3、根据文本关系重新计算文本分数。将上一步中获取的分数作 为初始分数,考虑文本对间与其他文本的相关性。如果Sentence1和 Sentence2之间的初始分数为1,即Score(Sentence1,Sentence2)=1, 那么考虑它们与文本Sentence3的相关性,如果Score(Sentence1, Sentence3)=1且Score(Sentence2,Sentence3)=1,那么增加Score(Sentence1,Sentence2);如果Score(Sentence1,Sentence3)和 Score(Sentence2,Sentence3)不同,那么减少Score(Sentence1, Sentence2)。
这一步主要不仅依靠文本对本身,也考虑到了文本对于其他文本 的一致性。对于任意一个文本对Sentencei和Senetencej,对于如果在 很多其他文本Senetencek上有相同的预测,那么将Senetencei和 Sentencej放在同一个簇中的可能性会更高:
Score(Sentencei,Sentencej)=Score(Sentencei,Sentencej)+reward
如果有着不一致的预测,那么将Sentencei和Sentencej放在一起 的可能性会更低:
Score(Sentencei,Sentencej)=Score(Sentencei,Sentencej)-penalty
reward和penalty可以设置为介于0和1之间的不同值。本发明 按照验证数据上的效果,设置reward为0.8、penalty为0.8。
4、根据文本对分数计算分组。经过对文本对重新计算分数后, 根据贪心算法来创建簇类。起始时,假设所有的文本都不属于同一个 簇。在所有的文本对中,只考虑得分大于0的文本对,忽视得分小于 0的文本对。然后对所有得分大于0的文本对按照分数进行降序排列, 分数相同的有限考虑下标比较小的文本。在根据分数和文本索引对文 本对进行排序之后,从分数最高的文本对进行聚类。将得分高的文本 对进行合并,直到两种情况:(1)没有其他得分高于0的文本对;(2) 当每一个文本都合并进入已存在的簇内。对于第一种情况,如果有一 些文本没有合并进入簇内,则认为这些文本属于单独的一个簇。
这一方法类似层次法聚类,同样采用自下而上的方式创建簇。区 别在于,本发明采用最大的分数来决定簇而不是采用最小距离。
本发明的优点在于:优点1,采用文本摘要模型压缩长文本的策 略,保留长文本关键信息,便于后续处理。优点2,采用双塔BERT 模型获取文本相关性计算分数,相比TF-IDF能更好的获取文本的表 示信息,便于得到更准确地结果,并且降低了训练开销。优点3,将二分类方法和聚类相结合,对文本对构建得分,充分挖掘文本相关性, 提高减少簇心偏移问题。
实施例2:本发明还提出一种基于预训练语言模型的长文本聚类 装置,所述装置包括:
文本压缩模块,用于执行:使用文本摘要模型将长文本压缩为短 文本;
初始分数模块,用于执行:根据文本压缩模块获得的所述短文本 与BERT模型的有标签文本句子对来预测是否两个文本包含相同的 事件,生成文本对初始分数;
分数调整模块,用于执行:使用初始分数模块获得的所述文本对 初始分数作为初始分数,根据文本对相较于其他文本的关系来重新计 算分数;
分组合并模块,用于执行:根据所述分数调整模块获得的文本对 分数,从得分最高的文本对开始计算分组。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领 域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以 做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于预训练语言模型的长文本聚类方法,其特征在于,所述方法包括:
步骤SS1:使用文本摘要模型将长文本压缩为短文本;
步骤SS2:根据步骤SS1获得的所述短文本与BERT模型的有标签文本句子对来预测是否两个文本包含相同的事件,生成文本对初始分数;
步骤SS3:使用步骤SS2获得的所述文本对初始分数作为初始分数,根据文本对相较于其他文本的关系来重新计算分数;
步骤SS4:根据步骤SS3获得的文本对分数,从得分最高的文本对开始计算分组。
2.根据权利要求1所述的一种基于预训练语言模型的长文本聚类方法,其特征在于,所述步骤SS1具体包括:采用PGN模型对需要进行聚类的文本进行处理,将长文本压缩为短文本,保留长文本的关键信息。
3.根据权利要求1所述的一种基于预训练语言模型的长文本聚类方法,其特征在于,所述步骤SS2具体包括:训练一个BERT模型,通过BERT模型对文章中的文本进行评分,获得初始分数。
4.根据权利要求1所述的一种基于预训练语言模型的长文本聚类方法,其特征在于,所述步骤SS2中的BERT模型的训练过程如下:
步骤SS21:对文档内的文本进行划分,将一篇文档划分为n个文本并进行编号;
步骤SS22:将这n个文本两两组合,组成
Figure FDA0002722783130000011
个文本对,并对其进行标注是否属于同一簇类;
步骤SS23:将第一个文本
Figure FDA0002722783130000012
和第二个文本
Figure FDA0002722783130000021
分别作为BERT模型的输入,BERT模型输出预测结果。
5.根据权利要求1所述的一种基于预训练语言模型的长文本聚类方法,其特征在于,所述步骤SS23还包括:对于BERT模型输出采用平均池化策略,将文本获得的所有词向量取平均值操作,将最终的向量作为文本的句向量;
由此获得第一个文本的句向量u=[u1,u2,u3,…,uk]和第二个文本的句向量v=[v1,v2,v3,…,vk];
将第一个文本的句子向量u和第二个文本的句子向量v以及两者按位求差向量进行拼接;将拼接好的向量乘以一个可训练的权重Wt∈R3k*l,获得BERT模型输出:
o=softmax(Wt(u,v,|u-v|))。
6.根据权利要求5所述的一种基于预训练语言模型的长文本聚类方法,其特征在于,所述BERT模型输出为0和1作为预测结果,1代表着两个文本属于同一个簇,0代表着两个文本属于不同的簇。
7.根据权利要求3所述的一种基于预训练语言模型的长文本聚类方法,其特征在于,所述BERT模型为:BERT的双塔模型,两个BERT模型共享同样的参数;将两个文本输入到两个BERT模型中,分别获取到对应的文本向量,进而进行计算出两个文本的初始分数。
8.根据权利要求5所述的一种基于预训练语言模型的长文本聚类方法,其特征在于,所述步骤SS3具体包括:
将步骤SS2中获取的分数作为初始分数,考虑文本对间与其他文本的相关性;如果Sentence1和Sentence2之间的初始分数为1,即Score(Sentence1,Sentence2)=1,那么考虑Sentence1和Sentence2与文本Sentence3的相关性;如果Score(Sentence1,Sentence3)=1且Score(Sentence2,Sentence3)=1,那么增加Score(Sentence1,Sentence2);如果Score(Sentence1,Sentence3)和Score(Sentence2,Sentence3)不同,那么减少Score(Sentence1,Sentence2)。
对于任意一个文本对Sentencei和Senetencej,对于如果在很多其他文本Senetencek上有相同的预测,那么将Senetencei和Sentencej放在同一个簇中的可能性会更高:
Score(Sentencei,Sentencej)=Score(Sentencei,Sentencej)+reward
如果有着不一致的预测,那么将Sentencei和Sentencej放在一起的可能性会更低:
Score(Sentencei,Sentencej)=Score(Sentencei,Sentencej)-penalty
reward和penalty设置为介于0和1之间的不同值。
9.根据权利要求5所述的一种基于预训练语言模型的长文本聚类方法,其特征在于,所述步骤SS4具体包括:
步骤SS41:经过对文本对重新计算分数后,根据贪心算法来创建簇类;起始时,假设所有的文本都不属于同一个簇,在所有的文本对中,只考虑得分大于0的文本对,忽视得分小于0的文本对;
步骤SS42:对所有得分大于0的文本对按照分数进行降序排列,分数相同的有限考虑下标小的文本,在根据分数和文本索引对文本对进行排序之后,从分数最高的文本对进行聚类;将得分高的文本对进行合并,直到两种情况:(1)没有其他得分高于0的文本对;(2)当每一个文本都合并进入已存在的簇内;对于第(1)种情况,如果有一些文本没有合并进入簇内,则认为这些文本属于单独的一个簇。
10.一种基于预训练语言模型的长文本聚类装置,其特征在于,所述装置包括:
文本压缩模块,用于执行:使用文本摘要模型将长文本压缩为短文本;
初始分数模块,用于执行:根据文本压缩模块获得的所述短文本与BERT模型的有标签文本句子对来预测是否两个文本包含相同的事件,生成文本对初始分数;
分数调整模块,用于执行:使用初始分数模块获得的所述文本对初始分数作为初始分数,根据文本对相较于其他文本的关系来重新计算分数;
分组合并模块,用于执行:根据所述分数调整模块获得的文本对分数,从得分最高的文本对开始计算分组。
CN202011093000.2A 2020-10-13 2020-10-13 一种基于预训练语言模型的长文本聚类方法及装置 Pending CN112836043A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011093000.2A CN112836043A (zh) 2020-10-13 2020-10-13 一种基于预训练语言模型的长文本聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011093000.2A CN112836043A (zh) 2020-10-13 2020-10-13 一种基于预训练语言模型的长文本聚类方法及装置

Publications (1)

Publication Number Publication Date
CN112836043A true CN112836043A (zh) 2021-05-25

Family

ID=75923723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011093000.2A Pending CN112836043A (zh) 2020-10-13 2020-10-13 一种基于预训练语言模型的长文本聚类方法及装置

Country Status (1)

Country Link
CN (1) CN112836043A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239689A (zh) * 2021-07-07 2021-08-10 北京语言大学 面向易混淆词考察的选择题干扰项自动生成方法及装置
CN114863162A (zh) * 2022-03-28 2022-08-05 北京百度网讯科技有限公司 对象分类方法、深度学习模型的训练方法、装置和设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030229845A1 (en) * 2002-05-30 2003-12-11 David Salesin System and method for adaptive document layout via manifold content
US20150261850A1 (en) * 2014-03-17 2015-09-17 NLPCore LLC Corpus search systems and methods
CN109815336A (zh) * 2019-01-28 2019-05-28 ***科技(杭州)有限公司 一种文本聚合方法及***
CN110807086A (zh) * 2019-10-08 2020-02-18 腾讯科技(深圳)有限公司 文本数据标注方法及装置、存储介质、电子设备
CN110969172A (zh) * 2018-09-28 2020-04-07 武汉斗鱼网络科技有限公司 一种文本的分类方法以及相关设备
CN111259851A (zh) * 2020-01-23 2020-06-09 清华大学 一种多模态事件检测方法及装置
CN111291188A (zh) * 2020-02-20 2020-06-16 阿基米德(上海)传媒有限公司 一种智能信息抽取方法及***
CN111737464A (zh) * 2020-06-12 2020-10-02 网易(杭州)网络有限公司 文本分类方法、装置和电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030229845A1 (en) * 2002-05-30 2003-12-11 David Salesin System and method for adaptive document layout via manifold content
US20150261850A1 (en) * 2014-03-17 2015-09-17 NLPCore LLC Corpus search systems and methods
CN110969172A (zh) * 2018-09-28 2020-04-07 武汉斗鱼网络科技有限公司 一种文本的分类方法以及相关设备
CN109815336A (zh) * 2019-01-28 2019-05-28 ***科技(杭州)有限公司 一种文本聚合方法及***
CN110807086A (zh) * 2019-10-08 2020-02-18 腾讯科技(深圳)有限公司 文本数据标注方法及装置、存储介质、电子设备
CN111259851A (zh) * 2020-01-23 2020-06-09 清华大学 一种多模态事件检测方法及装置
CN111291188A (zh) * 2020-02-20 2020-06-16 阿基米德(上海)传媒有限公司 一种智能信息抽取方法及***
CN111737464A (zh) * 2020-06-12 2020-10-02 网易(杭州)网络有限公司 文本分类方法、装置和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAO ZHANG等: "Deep feature -based text clustering and its explanation", 《IEEE TRANSACTION ON KNOWLEDGE AND DATA ENGINEERING》, vol. 34, no. 8, pages 3669 - 3680 *
樊中奎: "地质资料全文聚类分析及信息提取的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 138 - 1303 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239689A (zh) * 2021-07-07 2021-08-10 北京语言大学 面向易混淆词考察的选择题干扰项自动生成方法及装置
CN114863162A (zh) * 2022-03-28 2022-08-05 北京百度网讯科技有限公司 对象分类方法、深度学习模型的训练方法、装置和设备

Similar Documents

Publication Publication Date Title
CN106844424B (zh) 一种基于lda的文本分类方法
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN108009228B (zh) 一种内容标签的设置方法、装置及存储介质
CN106156204B (zh) 文本标签的提取方法和装置
Boltužić et al. Fill the gap! analyzing implicit premises between claims from online debates
CN111708873A (zh) 智能问答方法、装置、计算机设备和存储介质
CN110134868B (zh) 一种基于用户偏好异构性分析的推荐方法
CN109815336B (zh) 一种文本聚合方法及***
CN112818694A (zh) 一种基于规则和改进预训练模型的命名实体识别方法
CN111368075A (zh) 文章质量预测方法、装置、电子设备及存储介质
Rupapara et al. Improving video ranking on social video platforms
CN115587175A (zh) 人机对话及预训练语言模型训练方法、***及电子设备
CN113326374B (zh) 基于特征增强的短文本情感分类方法及***
CN112149410A (zh) 语义识别方法、装置、计算机设备和存储介质
CN112131876A (zh) 一种基于相似度确定标准问题的方法及***
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN112131345B (zh) 文本质量的识别方法、装置、设备及存储介质
CN112133406B (zh) 基于情感图谱的多模态情感引导方法和***、存储介质
CN112836043A (zh) 一种基于预训练语言模型的长文本聚类方法及装置
TWI734085B (zh) 使用意圖偵測集成學習之對話系統及其方法
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
CN114742047A (zh) 基于最大概率填充和多头注意力机制的文本情感识别方法
Alam et al. Social media content categorization using supervised based machine learning methods and natural language processing in bangla language
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination