CN116361470B

CN116361470B - 一种基于话题描述的文本聚类清洗和合并方法

Info

Publication number: CN116361470B
Application number: CN202310347961.9A
Authority: CN
Inventors: 王磊; 郭鸿飞; 王俊艳; 徐才; 王柯淇; 蔡昌艳; 蒋永余; 王璋盛; 曹家; 罗引
Original assignee: Xinhua Fusion Media Technology Development Beijing Co ltd; Beijing Zhongke Wenge Technology Co ltd
Current assignee: Xinhua Fusion Media Technology Development Beijing Co ltd; Beijing Zhongke Wenge Technology Co ltd
Priority date: 2023-04-03
Filing date: 2023-04-03
Publication date: 2024-05-14
Anticipated expiration: 2043-04-03
Also published as: CN116361470A

Abstract

本发明提供了一种基于话题描述的文本聚类清洗和合并方法，首先对文本进行聚类，得到多个聚类结果，每个聚类结果相当于一个话题，然后基于话题向量与话题中文本向量的文本相似度大小、话题描述与每个文本生成的话题描述的文本相似度大小、文本与话题的关键词相同的个数三个指标，对聚类结果进行清洗和合并，最后得到聚类结果和每个话题的描述，能够使得聚类结果更加准确。

Description

一种基于话题描述的文本聚类清洗和合并方法

技术领域

本发明涉及自然语言处理领域，特别是涉及一种基于话题描述的文本聚类清洗和合并方法。

背景技术

将文本中的信息按照相应的主题进行文本聚类在文本处理领域有着非常重要的应用。然而由于文本信息覆盖面非常广，每天产生的文本信息数目也非常巨大，这对文本聚类的实际应用提出了一些挑战。已有的文本聚类算法，大都是基于kmeans算法等文本聚类算法对多篇文本进行聚类，但是并没有对聚类后的结果进行优化。基于kmeans的算法通常都需要设置聚类个数，通常都是随机设置k个聚类个数，或基于轮廓系数、肘部法则等方法确定聚类个数，但是这些方法也不能确保聚类个数的准确性，而且也会有文本被错误聚类的情况。基于single-pass的方法虽然不需要设置聚类个数，但是也会有文本被错误聚类的情况，已有的方法均没有对聚类后的结果进行清洗和合并。

发明内容

针对上述技术问题，本发明采用的技术方案为：

本发明实施例提供一种基于话题描述的文本聚类清洗和合并方法，所述方法包括如下步骤：

S100，获取待聚类文本中的每个文本的特征向量和关键词，每个文本包括h个关键词；

S200，基于获取的特征向量，利用设定聚类算法对待聚类文本进行聚类，得到多个话题；

S300，获取当前话题中的任一话题中的任一文本以及任一话题的关键词、特征向量和话题描述特征向量；

S400，基于文本和话题之间的关键词相同的数量、文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度对当前话题进行第p次清洗处理，得到处理后的n(p)个话题；其中，n(p)个话题中的任一话题a满足如下条件：g^p(a，q)≥D1_p，SF^p _aq≥D2_p并且ST^p _aq≥D3_p；其中，g^p(a，q)为话题a和话题a中的第q个文本T_aq之间的关键词相同的数量，SF^p _aq为话题a的特征向量和T_aq的特征向量之间的相似度，ST^p _aq为话题a的话题描述特征向量和T_aq的话题描述特征向量之间的相似度；D1_p为第p次清洗处理对应的第一设定阈值，D2_p为第p次清洗处理对应的第二设定阈值，D3_p为第p次清洗处理对应的第三设定阈值；a的取值为1到n(p)，p的取值为1到C0，C0为预设次数；q的取值为1到f(a)，f(a)为话题a中的文本数量；

S500，设置p＝p+1，如果p≤C0，执行S300；否则，得到清洗处理后的H个话题，执行S600；

S600，基于H个话题获取按照文本数量递减的方式进行排序得到的话题列表S，并获取S中的任一话题u对应的关键词、特征向量、话题描述和话题描述特征向量，u的取值为1到H；

S700，基于话题之间的关键词相同的数量、话题的特征向量之间的相似度以及话题的话题描述特征向量之间的相似度对S进行合并处理，得到目标话题列表；

S800，输出目标话题列表中的所有话题的话题描述和对应的文本，其中，每个话题对应的文本为按照文本发布时间进行排序后的文本。

本发明至少具有以下有益效果：

本发明实施例提供的基于话题描述的文本聚类清洗和合并方法，首先对文本进行聚类，得到多个聚类结果，每个聚类结果相当于一个话题，然后基于话题向量与话题中文本向量的文本相似度大小、话题描述与每个文本生成的话题描述的文本相似度大小、文本与话题的关键词相同的个数三个指标，对聚类结果进行清洗和合并，最后得到聚类结果和每个话题的描述，能够使得聚类结果更加准确。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于话题描述的文本聚类清洗和合并方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种基于话题描述的文本聚类清洗和合并方法，如图1所示，所述方法可包括如下步骤：

S100，获取待聚类文本中的每个文本的特征向量和关键词，每个文本包括h个关键词。

在本发明实施例中，文本可为新闻文本，也可为其它类型的文本。文本可通过从各个网站或渠道爬取得到。

在本发明实施例中，可通过现有的关键词提取方法获取每个文本的关键词。在一个示意性实施例中，本发明通过TextRank算法获取每个文本的关键词和每个关键词对应的权重。关键词的数量h可基于实际需要进行设置，在一个示例中，h＝7。

在本发明实施例中，可通过现有的特征提取方法获取每个文本的特征向量。在一个示意性实施例中，可通过SimBERT模型获取每个文本的特征向量，具体地，可将文本的标题输入到SimBERT模型中，得到每个文本的特征向量。

由于从各个网站或渠道爬取的新闻有可能有重复，因此，在本发明实施例中，所述待聚类文本为经过去重处理之后得到的文本。在本发明实施例中，可通过如下两种方法对文本进行去重处理。

方法一：采用基于文本相似度和规则的方法进行去重。具体地，对于每个文本，依次计算它与爬取的其他文本的相似度，如果相似度超过设定的相似度阈值，且两个文本的标题中相同字的比例超过设定的比例阈值，则认为是重复文本，然后选择发布时间最近的文本存入待聚类文本库。在本发明实施例中，文本a和b之间的相似度可通过下述公式获取：

其中，T_a和T_b分别为文本a和b的特征向量，||T_a||和||T_b||分别为T_a和T_b的模。

在本发明实施例中，相似度的阈值可以设置高一些，比如0.95，标题中相同字的比例阈值可以设置为0.5或0.6等。

方法二：基于DBSCAN聚类进行新闻去重。DBSCAN是一种无监督的机器学习聚类算法。它不需要指定聚类个数，避免了异常值，并且在任意形状和大小的数据集群中工作得很好。它需要设置两个参数来进行聚类：

1)Epsilon：社区的最大半径。如果数据点的相互距离小于或等于指定的epsilon，那么它们将是同一类的。它是DBSCAN用来确定两个点是否相似和属于同一类的距离度量。本发明可设置一个较小的阈值Epsilon，将相似文本聚合到一起(相似的文本距离更小)，然后相同的聚类结果选择发布时间最近的一个文本，其他的文本舍弃。在一个示意性实施例中，Epsilon可以设置为0.06.

2)最小点(minPts)：在一个邻域的半径内minPts数的邻域被认为是一个簇。本发明可设置最小点为1或2，以保留更多的噪声数据或离群值，只删掉非常相似的文本。

本领域技术人员知晓，可根据实际需要选择上述两种方法中的一种或者两种对文本进行去重，以得到待聚类文本。

S200，利用设定聚类算法对待聚类文本进行聚类，得到多个话题。

在本发明实施例中，可使用现有的聚类算法对待聚类文本进行聚类。在一个示意性实施例中，设定聚类算法可为DBSCAN算法。

S300，获取当前话题中的任一话题中的任一文本以及任一话题的关键词、特征向量、话题描述和话题描述特征向量。

在本发明实施例中，任一文本的关键词和特征向量在S100中已获取，只需要直接调用即可。任一文本的话题描述通过如下步骤获取：

S301，将任一文本的标题输入到设定话题描述生成模型中得到对应的话题描述。在本发明实施例中，设定话题描述生成模型可为T5或BART等预训练生成模型。话题描述生成模型的训练步骤包括：

(1)构建数据集

对于聚类后的所有话题，人工选择若干话题进行数据集标注。对于选择的每个话题，随机选择若干篇文本，人工生成它们的话题描述，每个新闻对应一个话题描述，描述相同话题的新闻，其对应的话题描述也尽可能相同。将每篇新闻的标题作为生成模型的输入，人工生成的话题描述作为模型的真实值构建训练数据集。

在本发明实施例中，话题描述可以认为是当前文本对应的话题或主题信息。

(2)模型训练

将训练数据集中的每个文本的标题输入到预训练生成模型中进行训练，得到对应的预测结果，将预测结果和人工标注的真实值计算损失来训练模型参数，得到训练好的话题描述生成模型。

在得到训练好的话题描述生成模型后，将任一话题中的任一文本的标题输入训练好的话题描述生成模型中，得到对应的话题描述。

S302，将任一文本的话题描述输入到设定话题描述特征生成模型中，得到对应的话题描述特征向量。

在本发明实施例中，设定话题描述特征生成模型可为SimBERT模型。将任一文本的话题描述输入到SimBERT模型中，得到对应的话题描述特征向量。

在本发明实施例中，任一话题的话题描述特征向量通过如下步骤获取：

S303，基于任一话题中的所有文本对应的话题描述，获取所有话题描述生成频次最大的话题描述作为该话题的话题描述。

由于不同文本的话题描述可能相同，因此，将任一话题中的所有文本对应的话题描述进行合并处理，然后获取合并处理后的话题描述中的每个话题描述出现的频次，将出现频次最大的话题描述作为该话题的话题描述。例如，如果有3个文本生成了某个话题描述，则该话题描述的生成频次为3。

S304，将该话题的话题描述输入到设定话题描述特征生成模型中，得到对应的话题描述特征向量。

具体地，将该话题的话题描述输入到SimBERT模型，得到对应的话题描述特征向量。

进一步地，在本发明实施例中，任一话题的关键词通过如下步骤获取：

S305，对任一话题中的所有文本的关键词中相同的关键词进行合并并重新计算权重，得到合并后的关键词。

S306，将合并后的关键词中按照权重由大到小的顺序进行排序，并获取排序后的关键词中的前h个关键词作为该任一话题的关键词。

具体地，如果某个关键词只在一个文本中出现，则该关键词的权重为在该文本中的权重。如果某个关键词在多个文本中出现，该关键词的权重为该关键词在多个文本中的权重之和，例如，关键词a在3个文本中出现，则关键词a的权重为b1+b2+b3，其中，b1至b3分别为关键词a在3个文本中的权重。

进一步地，在本发明实施例中，任一话题的特征向量为该话题中所有文本的特征向量的平均值，即话题i的特征向量h_ij为话题i中的第j个文本T_ij对应的特征向量，f(i)为话题i中的文本数量。

S400，基于文本和话题之间的关键词相同的数量、文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度对当前话题进行第p次清洗处理，得到处理后的n(p)个话题；其中，n(p)个话题中的任一话题a满足如下条件：g^p(a，q)≥D1_p，SF^p _aq≥D2_p并且ST^p _aq≥D3_p；其中，g^p(a，q)为话题a和话题a中的第q个文本T_aq之间的关键词相同的数量，SF^p _aq为话题a的特征向量和T_aq的特征向量之间的相似度，ST^p _aq为话题a的话题描述特征向量和T_aq的话题描述特征向量之间的相似度；D1_p为第p次清洗处理对应的第一设定阈值，D2_p为第p次清洗处理对应的第二设定阈值，D3_p为第p次清洗处理对应的第三设定阈值；a的取值为1到n(p)，p的取值为1到C0，C0为预设次数；q的取值为1到f(a)，f(a)为话题a中的文本数量。

在本发明实施例中，特征向量之间的相似度和话题描述特征向量之间相似度可通过现有相似度算法获取，例如余弦相似度等。

在本发明实施例中，每次清洗处理时对应的第一设定阈值至第三设定阈值可相同或者不同，可基于实际需要进行设置。第一设定阈值至第三设定阈值可基于实际需要进行设置，在一个示意性实施例中，第一设定阈值可从2、3中选择一个，第二设定阈值的取值可从0.65、0.7、0.8中选择一个，第三设定阈值可从0.7、0.8、0.85中选择一个，可根据实际需要选择需要的组合值。

在发明实施例中，C0可基于实际需要设置，优选，C0≤3，更优选，C0＝2。

S500，设置p＝p+1，如果p≤C0，执行S300；否则，得到清洗处理后的H个话题，执行S600。显然，H＝n(p)。

S600，基于H个话题获取按照文本数量递减的方式进行排序得到的话题列表S，并获取S中的任一话题u对应的关键词、特征向量、话题描述和话题描述特征向量，u的取值为1到H。即，在S中，前一个话题中的文本数量大于后一个话题中的文本数量。

任一话题u对应的关键词、特征向量、话题描述和话题描述特征向量可参照S300获取。

S700，基于话题之间的关键词相同的数量、话题的特征向量之间的相似度以及话题的话题描述特征向量之间的相似度对S进行合并处理，得到目标话题列表。

S800，输出目标话题列表中的所有话题的话题描述和对应的文本。

在S800中，输出的文本为按照发布时间排序例如按照发布时间由早到晚的顺序排序后得到的文本。目标话题列表中的每个话题的话题描述可基于S303获取得到。

进一步地，在本发明一实施例中，S400可具体包括：

S410，对于第p次清洗处理对应的当前话题中的话题i中的第j个文本T_ij，分别获取g^p(i，j)、SF^p _ij和ST^p _ij，如果g^p(i，j)≥D1_p，并且SF^p _ij≥D2 _p以及ST^p _ij≥D3_p，则将T_ij保留在话题i中，执行S440；否则，执行S420；其中，g^p(i，j)为第p次清洗处理时T_ij和话题i之间的关键词相同的数量，SF^p _ij为第p次清洗处理时T_ij的特征向量和话题i的话题特征向量之间的相似度，ST^p _ij为第p次清洗处理时T_ij的话题描述特征向量和话题i的话题描述特征向量之间的相似度；i的取值为1到k，k为当前话题的数量；j的取值为1到f(i)，f(i)为话题i中的文本数量。

S420，获取g^p(ij，s)、SF^ps _ij和ST^ps _ij，如果g^p(ij，s)≥D1_p，并且SF^ps _ij≥D2_p以及ST^ps _ij≥D3 _p，则将T_ij加入到话题s中并从原话题中删除，执行S440；否则，执行S430；其中，话题s为当前话题中除话题i之外的k-1个话题中的第s个话题，g^p(ij，s)为第p次清洗处理时T_ij和话题s之间的关键词相同的数量，SF^ps _ij为第p次清洗处理时T_ij的特征向量和话题s的话题特征向量之间的相似度，ST^ps _ij为第p次清洗处理时T_ij的话题描述特征向量和话题s的话题描述特征向量之间的相似度，s的取值为1到k-1。

S430，设置s＝s+1，如果s≤(k-1)，执行S420，否则，为T_ij创建一个新话题，并将T_ij加入到对应的新话题中，设置k＝k+1即如果新增一个话题，则将当前话题的数量增加1，并执行S440。

S440，设置j＝j+1，如果j≤f(i)，执行S410；否则，设置i＝i+1，如果i≤k，执行S410，否则，执行S500。

本领域技术人员知晓，由于在处理过程中，每个话题中文本数量可能会发生变化，因此，当前话题中的每个话题的关键词、特征向量、话题描述和话题描述特征向量是实时变化的。

进一步地，在本发明另一实施例中，S420被替换为：

S421，获取话题描述相似度集ST_ij＝{ST¹ _ij，ST² _ij，…，ST^s _ij，…，ST^k-1 _ij}，ST^s _ij为T_ij的话题描述特征向量和当前话题中除话题i之外的k-1个话题中的第s个话题对应的话题描述特征向量之间的相似度，s的取值为1到k-1。

S422，将ST_ij按照降序进行排序得到排序后的相似度集，并获取排序后的相似度集中的前m个相似度形成对比相似度集STC_ij。m可基于实际需要进行设置，例如，m＝5。

S423，获取g^p(ij，w)和SF^pw _ij，如果g^p(ij，w)≥D1_p，并且SF^pw _ij≥D2_p，则将话题w加入T_ij对应的候选话题集中，执行S431，否则，直接执行S431；其中，话题w为STC_ij对应的m个话题中的第w个话题，g^p(ij，w)为第p次清洗处理时T_ij和话题w之间的关键词相同的数量，SF^pw _ij为第p次清洗处理时T_ij对应的特征向量和话题w对应的特征向量之间的相似度，w的取值为1到m。

进一步地，S430被替换为：

S431，设置w＝w+1，如果w≤m，执行S423，否则，执行S432。

S432，如果T_ij对应的候选话题集为Null，则为T_ij创建一个新话题，并将T_ij加入到对应的新话题中并从原话题中删除，设置k＝k+1，并执行S440；如果T_ij对应的候选话题集中包含一个相似度，则将T_ij加入到该相似度对应的话题中并从原话题中删除，并执行S440；如果T_ij对应的候选话题集中包含多个相似度，则将T_ij加入到对应的候选话题集中的最大相似度对应的话题中并从原话题中删除，并执行S440。

进一步地，在本发明实施例中，S700可具体包括：

S710，获取g(u，v)、S1_uv和S2_uv，如果g(u，v)≥D4，并且S1_uv≥D5，以及S2_uv≥D6，则将话题u和话题v进行合并，执行S730；否则，执行S720；其中，话题v为当前合并话题列表中的第v个话题，g(u，v)为话题u与话题v之间的关键词相同的数量，S1_uv为话题u的话题特征向量和话题v的话题特征向量之间的相似度，S2_uv为话题u的话题描述特征向量和话题v的话题描述特征向量之间的相似度，v的取值为1到n，n为当前合并话题列表中的话题数量；D4为第四设定阈值，D5为第五设定阈值，D6为第六设定阈值；合并话题列表中的初始值为Null。

在本发明实施例中，D4～D6可分别设置为与第一设定阈值至第三设定阈值相同。

S720，设置v＝v+1，如果v≤n，执行S710，否则，将话题u作为新话题加入到当前合并话题列表中；执行S730。

S730，设置u＝u+1，如果u≤H，执行S710，否则，执行S740。

S740，获取当前话题列表中的任一个话题中的文本数量，如果该话题中的文本数量少于设定数量阈值，则将该话题从当前话题列表中删除；得到目标话题列表，并执行S800。

本发明实施例中，设定数量阈值可为3。话题u和话题v合并后得到话题的话题描述为话题v的话题描述，特征向量是话题u和话题v的特征向量的平均值。

本领域技术人员知晓，当u＝1时，由于当前合并话题列表中的话题数量为Null，所以，会将话题1加入到当前合并话题列表中。

进一步地，S800还包括：分别获取目标话题列表中的每个话题的关键词、特征向量、话题描述和话题描述特征向量，以更新每个话题的关键词、特征向量、话题描述和话题描述特征向量。

本发明实施例提供的基于话题描述的文本聚类清洗和合并方法，首先对文本进行聚类，得到多个聚类结果，每个聚类结果相当于一个话题，然后基于话题向量与话题中文本向量的文本相似度大小、话题描述与每个文本生成的话题描述的文本相似度大小、文本与话题的关键词相同的个数三个指标，对聚类结果进行清洗和优化，最后得到聚类结果和每个话题的描述，能够使得聚类结果更加准确。

本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明公开的范围由所附权利要求来限定。

Claims

1.一种基于话题描述的文本聚类清洗和合并方法，其特征在于，所述方法包括如下步骤：

S800，输出目标话题列表中的所有话题的话题描述和对应的文本，其中，每个话题对应的文本为按照文本发布时间进行排序后的文本；

S400具体包括：

S410，对于第p次清洗处理对应的当前话题中的话题i中的第j个文本T_ij，分别获取g^p(i，j)、SF^p _ij和ST^p _ij，如果g^p(i，j)≥D1_p，并且SF^p _ij≥D2_p以及ST^p _ij≥D3_p，则将T_ij保留在话题i中，执行S440；否则，执行S420；其中，g^p(i，j)为第p次清洗处理时T_ij和话题i之间的关键词相同的数量，SF^p _ij为第p次清洗处理时T_ij的特征向量和话题i的话题特征向量之间的相似度，ST^p _ij为第p次清洗处理时T_ij的话题描述特征向量和话题i的话题描述特征向量之间的相似度；i的取值为1到k，k为当前话题的数量；j的取值为1到f(i)，f(i)为话题i中的文本数量；

S420，获取g^p(ij，s)、SF^ps _ij和ST^ps _ij，如果g^p(ij，s)≥D1_p，并且SF^ps _ij≥D2_p以及ST^ps _ij≥D3_p，则将T_ij加入到话题s中并从原话题中删除，执行S440；否则，执行S430；其中，话题s为当前话题中除话题i之外的k-1个话题中的第s个话题，g^p(ij，s)为第p次清洗处理时T_ij和话题s之间的关键词相同的数量，SF^ps _ij为第p次清洗处理时T_ij的特征向量和话题s的话题特征向量之间的相似度，ST^ps _ij为第p次清洗处理时T_ij的话题描述特征向量和话题s的话题描述特征向量之间的相似度，s的取值为1到k-1；

S430，设置s＝s+1，如果s≤(k-1)，执行S420，否则，为T_ij创建一个新话题，并将T_ij加入到对应的新话题中并从原话题中删除，设置k＝k+1，并执行S440；

S440，设置j＝j+1，如果j≤f(i)，执行S410；否则，设置i＝i+1，如果i≤k，执行S410，否则，执行S500；

S700具体包括：

S710，获取g(u，v)、S1_uv和S2_uv，如果g(u，v)≥D4，并且S1_uv≥D5，以及S2_uv≥D6，则将话题u和话题v进行合并，执行S730；否则，执行S720；其中，话题v为当前合并话题列表中的第v个话题，g(u，v)为话题u与话题v之间的关键词相同的数量，S1_uv为话题u的话题特征向量和话题v的话题特征向量之间的相似度，S2_uv为话题u的话题描述特征向量和话题v的话题描述特征向量之间的相似度，v的取值为1到n，n为当前合并话题列表中的话题数量；D4为第四设定阈值，D5为第五设定阈值，D6为第六设定阈值；合并话题列表中的初始值为Null；

S720，设置v＝v+1，如果v≤n，执行S710，否则，将话题u作为新话题加入到当前合并话题列表中并设置n＝n+1；执行S730；

S730，设置u＝u+1，如果u≤H，执行S710，否则，执行S740；

2.一种基于话题描述的文本聚类清洗和合并方法，其特征在于，所述方法包括如下步骤：

S400具体包括：

S421，获取话题描述相似度集ST_ij＝{ST¹ _ij，ST² _ij，…，ST^s _ij，…，ST^k-1 _ij}，ST^s _ij为T_ij的话题描述特征向量和当前话题中除话题i之外的k-1个话题中的第s个话题对应的话题描述特征向量之间的相似度，s的取值为1到k-1；

S422，将ST_ij按照降序进行排序得到排序后的相似度集，并获取排序后的相似度集中的前m个相似度形成对比相似度集STC_ij；

S423，获取g^p(ij，w)和SF^pw _ij，如果g^p(ij，w)≥D1_p，并且SF^pw _ij≥D2_p，则将话题w加入T_ij对应的候选话题集中，执行S431，否则，直接执行S431；其中，话题w为STC_ij对应的m个话题中的第w个话题，g^p(ij，w)为第p次清洗处理时T_ij和话题w之间的关键词相同的数量，SF^pw _ij为第p次清洗处理时T_ij对应的特征向量和话题w对应的特征向量之间的相似度，w的取值为1到m；

S431，设置w＝w+1，如果w≤m，执行S423，否则，执行S432；

S432，如果T_ij对应的候选话题集为Null，则为T_ij创建一个新话题，并将T_ij加入到对应的新话题中并从原话题中删除，设置k＝k+1，并执行S440；如果T_ij对应的候选话题集中包含一个相似度，则将T_ij加入到该相似度对应的话题中并从原话题中删除，并执行S440；如果T_ij对应的候选话题集中包含多个相似度，则将T_ij加入到对应的候选话题集中的最大相似度对应的话题中并从原话题中删除，并执行S440；

S700具体包括：

S730，设置u＝u+1，如果u≤H，执行S710，否则，执行S740；

3.根据权利要求1或2所述的方法，其特征在于，任一文本的话题描述特征向量通过如下步骤获取：

S301，将任一文本的标题输入到设定话题描述生成模型中得到对应的话题描述；

4.根据权利要求3所述的方法，其特征在于，任一话题的话题描述特征向量通过如下步骤获取：

S303，基于任一话题中的所有文本对应的话题描述，获取所有话题描述生成频次最大的话题描述作为该话题的话题描述；

S304，将该话题的话题描述输入到设定话题描述特征生成模型中，得到该话题的话题描述特征向量。

5.根据权利要求1或2所述的方法，其特征在于，任一话题的关键词通过如下步骤获取：

S305，对任一话题中的所有文本的关键词中相同的关键词进行合并并重新计算权重，得到合并后的关键词；

6.根据权利要求1或2所述的方法，其特征在于，任一话题的特征向量为该话题中所有文本的特征向量的平均值。

7.根据权利要求1或2所述的方法，其特征在于，通过TextRank算法获取每个文本的关键词。

8.根据权利要求1或2所述的方法，其特征在于，通过SimBERT模型获取每个文本的特征向量。