CN116361470B - 一种基于话题描述的文本聚类清洗和合并方法 - Google Patents
一种基于话题描述的文本聚类清洗和合并方法 Download PDFInfo
- Publication number
- CN116361470B CN116361470B CN202310347961.9A CN202310347961A CN116361470B CN 116361470 B CN116361470 B CN 116361470B CN 202310347961 A CN202310347961 A CN 202310347961A CN 116361470 B CN116361470 B CN 116361470B
- Authority
- CN
- China
- Prior art keywords
- topic
- text
- similarity
- feature vector
- topics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000004140 cleaning Methods 0.000 title claims abstract description 56
- 239000013598 vector Substances 0.000 claims abstract description 132
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/358—Browsing; Visualisation therefor
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于话题描述的文本聚类清洗和合并方法,首先对文本进行聚类,得到多个聚类结果,每个聚类结果相当于一个话题,然后基于话题向量与话题中文本向量的文本相似度大小、话题描述与每个文本生成的话题描述的文本相似度大小、文本与话题的关键词相同的个数三个指标,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的描述,能够使得聚类结果更加准确。
Description
技术领域
本发明涉及自然语言处理领域,特别是涉及一种基于话题描述的文本聚类清洗和合并方法。
背景技术
将文本中的信息按照相应的主题进行文本聚类在文本处理领域有着非常重要的应用。然而由于文本信息覆盖面非常广,每天产生的文本信息数目也非常巨大,这对文本聚类的实际应用提出了一些挑战。已有的文本聚类算法,大都是基于kmeans算法等文本聚类算法对多篇文本进行聚类,但是并没有对聚类后的结果进行优化。基于kmeans的算法通常都需要设置聚类个数,通常都是随机设置k个聚类个数,或基于轮廓系数、肘部法则等方法确定聚类个数,但是这些方法也不能确保聚类个数的准确性,而且也会有文本被错误聚类的情况。基于single-pass的方法虽然不需要设置聚类个数,但是也会有文本被错误聚类的情况,已有的方法均没有对聚类后的结果进行清洗和合并。
发明内容
针对上述技术问题,本发明采用的技术方案为:
本发明实施例提供一种基于话题描述的文本聚类清洗和合并方法,所述方法包括如下步骤:
S100,获取待聚类文本中的每个文本的特征向量和关键词,每个文本包括h个关键词;
S200,基于获取的特征向量,利用设定聚类算法对待聚类文本进行聚类,得到多个话题;
S300,获取当前话题中的任一话题中的任一文本以及任一话题的关键词、特征向量和话题描述特征向量;
S400,基于文本和话题之间的关键词相同的数量、文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度对当前话题进行第p次清洗处理,得到处理后的n(p)个话题;其中,n(p)个话题中的任一话题a满足如下条件:gp(a,q)≥D1p,SFp aq≥D2p并且STp aq≥D3p;其中,gp(a,q)为话题a和话题a中的第q个文本Taq之间的关键词相同的数量,SFp aq为话题a的特征向量和Taq的特征向量之间的相似度,STp aq为话题a的话题描述特征向量和Taq的话题描述特征向量之间的相似度;D1p为第p次清洗处理对应的第一设定阈值,D2p为第p次清洗处理对应的第二设定阈值,D3p为第p次清洗处理对应的第三设定阈值;a的取值为1到n(p),p的取值为1到C0,C0为预设次数;q的取值为1到f(a),f(a)为话题a中的文本数量;
S500,设置p=p+1,如果p≤C0,执行S300;否则,得到清洗处理后的H个话题,执行S600;
S600,基于H个话题获取按照文本数量递减的方式进行排序得到的话题列表S,并获取S中的任一话题u对应的关键词、特征向量、话题描述和话题描述特征向量,u的取值为1到H;
S700,基于话题之间的关键词相同的数量、话题的特征向量之间的相似度以及话题的话题描述特征向量之间的相似度对S进行合并处理,得到目标话题列表;
S800,输出目标话题列表中的所有话题的话题描述和对应的文本,其中,每个话题对应的文本为按照文本发布时间进行排序后的文本。
本发明至少具有以下有益效果:
本发明实施例提供的基于话题描述的文本聚类清洗和合并方法,首先对文本进行聚类,得到多个聚类结果,每个聚类结果相当于一个话题,然后基于话题向量与话题中文本向量的文本相似度大小、话题描述与每个文本生成的话题描述的文本相似度大小、文本与话题的关键词相同的个数三个指标,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的描述,能够使得聚类结果更加准确。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于话题描述的文本聚类清洗和合并方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的基于话题描述的文本聚类清洗和合并方法的流程图。
本发明实施例提供一种基于话题描述的文本聚类清洗和合并方法,如图1所示,所述方法可包括如下步骤:
S100,获取待聚类文本中的每个文本的特征向量和关键词,每个文本包括h个关键词。
在本发明实施例中,文本可为新闻文本,也可为其它类型的文本。文本可通过从各个网站或渠道爬取得到。
在本发明实施例中,可通过现有的关键词提取方法获取每个文本的关键词。在一个示意性实施例中,本发明通过TextRank算法获取每个文本的关键词和每个关键词对应的权重。关键词的数量h可基于实际需要进行设置,在一个示例中,h=7。
在本发明实施例中,可通过现有的特征提取方法获取每个文本的特征向量。在一个示意性实施例中,可通过SimBERT模型获取每个文本的特征向量,具体地,可将文本的标题输入到SimBERT模型中,得到每个文本的特征向量。
由于从各个网站或渠道爬取的新闻有可能有重复,因此,在本发明实施例中,所述待聚类文本为经过去重处理之后得到的文本。在本发明实施例中,可通过如下两种方法对文本进行去重处理。
方法一:采用基于文本相似度和规则的方法进行去重。具体地,对于每个文本,依次计算它与爬取的其他文本的相似度,如果相似度超过设定的相似度阈值,且两个文本的标题中相同字的比例超过设定的比例阈值,则认为是重复文本,然后选择发布时间最近的文本存入待聚类文本库。在本发明实施例中,文本a和b之间的相似度可通过下述公式获取:
其中,Ta和Tb分别为文本a和b的特征向量,||Ta||和||Tb||分别为Ta和Tb的模。
在本发明实施例中,相似度的阈值可以设置高一些,比如0.95,标题中相同字的比例阈值可以设置为0.5或0.6等。
方法二:基于DBSCAN聚类进行新闻去重。DBSCAN是一种无监督的机器学习聚类算法。它不需要指定聚类个数,避免了异常值,并且在任意形状和大小的数据集群中工作得很好。它需要设置两个参数来进行聚类:
1)Epsilon:社区的最大半径。如果数据点的相互距离小于或等于指定的epsilon,那么它们将是同一类的。它是DBSCAN用来确定两个点是否相似和属于同一类的距离度量。本发明可设置一个较小的阈值Epsilon,将相似文本聚合到一起(相似的文本距离更小),然后相同的聚类结果选择发布时间最近的一个文本,其他的文本舍弃。在一个示意性实施例中,Epsilon可以设置为0.06.
2)最小点(minPts):在一个邻域的半径内minPts数的邻域被认为是一个簇。本发明可设置最小点为1或2,以保留更多的噪声数据或离群值,只删掉非常相似的文本。
本领域技术人员知晓,可根据实际需要选择上述两种方法中的一种或者两种对文本进行去重,以得到待聚类文本。
S200,利用设定聚类算法对待聚类文本进行聚类,得到多个话题。
在本发明实施例中,可使用现有的聚类算法对待聚类文本进行聚类。在一个示意性实施例中,设定聚类算法可为DBSCAN算法。
S300,获取当前话题中的任一话题中的任一文本以及任一话题的关键词、特征向量、话题描述和话题描述特征向量。
在本发明实施例中,任一文本的关键词和特征向量在S100中已获取,只需要直接调用即可。任一文本的话题描述通过如下步骤获取:
S301,将任一文本的标题输入到设定话题描述生成模型中得到对应的话题描述。在本发明实施例中,设定话题描述生成模型可为T5或BART等预训练生成模型。话题描述生成模型的训练步骤包括:
(1)构建数据集
对于聚类后的所有话题,人工选择若干话题进行数据集标注。对于选择的每个话题,随机选择若干篇文本,人工生成它们的话题描述,每个新闻对应一个话题描述,描述相同话题的新闻,其对应的话题描述也尽可能相同。将每篇新闻的标题作为生成模型的输入,人工生成的话题描述作为模型的真实值构建训练数据集。
在本发明实施例中,话题描述可以认为是当前文本对应的话题或主题信息。
(2)模型训练
将训练数据集中的每个文本的标题输入到预训练生成模型中进行训练,得到对应的预测结果,将预测结果和人工标注的真实值计算损失来训练模型参数,得到训练好的话题描述生成模型。
在得到训练好的话题描述生成模型后,将任一话题中的任一文本的标题输入训练好的话题描述生成模型中,得到对应的话题描述。
S302,将任一文本的话题描述输入到设定话题描述特征生成模型中,得到对应的话题描述特征向量。
在本发明实施例中,设定话题描述特征生成模型可为SimBERT模型。将任一文本的话题描述输入到SimBERT模型中,得到对应的话题描述特征向量。
在本发明实施例中,任一话题的话题描述特征向量通过如下步骤获取:
S303,基于任一话题中的所有文本对应的话题描述,获取所有话题描述生成频次最大的话题描述作为该话题的话题描述。
由于不同文本的话题描述可能相同,因此,将任一话题中的所有文本对应的话题描述进行合并处理,然后获取合并处理后的话题描述中的每个话题描述出现的频次,将出现频次最大的话题描述作为该话题的话题描述。例如,如果有3个文本生成了某个话题描述,则该话题描述的生成频次为3。
S304,将该话题的话题描述输入到设定话题描述特征生成模型中,得到对应的话题描述特征向量。
具体地,将该话题的话题描述输入到SimBERT模型,得到对应的话题描述特征向量。
进一步地,在本发明实施例中,任一话题的关键词通过如下步骤获取:
S305,对任一话题中的所有文本的关键词中相同的关键词进行合并并重新计算权重,得到合并后的关键词。
S306,将合并后的关键词中按照权重由大到小的顺序进行排序,并获取排序后的关键词中的前h个关键词作为该任一话题的关键词。
具体地,如果某个关键词只在一个文本中出现,则该关键词的权重为在该文本中的权重。如果某个关键词在多个文本中出现,该关键词的权重为该关键词在多个文本中的权重之和,例如,关键词a在3个文本中出现,则关键词a的权重为b1+b2+b3,其中,b1至b3分别为关键词a在3个文本中的权重。
进一步地,在本发明实施例中,任一话题的特征向量为该话题中所有文本的特征向量的平均值,即话题i的特征向量hij为话题i中的第j个文本Tij对应的特征向量,f(i)为话题i中的文本数量。
S400,基于文本和话题之间的关键词相同的数量、文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度对当前话题进行第p次清洗处理,得到处理后的n(p)个话题;其中,n(p)个话题中的任一话题a满足如下条件:gp(a,q)≥D1p,SFp aq≥D2p并且STp aq≥D3p;其中,gp(a,q)为话题a和话题a中的第q个文本Taq之间的关键词相同的数量,SFp aq为话题a的特征向量和Taq的特征向量之间的相似度,STp aq为话题a的话题描述特征向量和Taq的话题描述特征向量之间的相似度;D1p为第p次清洗处理对应的第一设定阈值,D2p为第p次清洗处理对应的第二设定阈值,D3p为第p次清洗处理对应的第三设定阈值;a的取值为1到n(p),p的取值为1到C0,C0为预设次数;q的取值为1到f(a),f(a)为话题a中的文本数量。
在本发明实施例中,特征向量之间的相似度和话题描述特征向量之间相似度可通过现有相似度算法获取,例如余弦相似度等。
在本发明实施例中,每次清洗处理时对应的第一设定阈值至第三设定阈值可相同或者不同,可基于实际需要进行设置。第一设定阈值至第三设定阈值可基于实际需要进行设置,在一个示意性实施例中,第一设定阈值可从2、3中选择一个,第二设定阈值的取值可从0.65、0.7、0.8中选择一个,第三设定阈值可从0.7、0.8、0.85中选择一个,可根据实际需要选择需要的组合值。
在发明实施例中,C0可基于实际需要设置,优选,C0≤3,更优选,C0=2。
S500,设置p=p+1,如果p≤C0,执行S300;否则,得到清洗处理后的H个话题,执行S600。显然,H=n(p)。
S600,基于H个话题获取按照文本数量递减的方式进行排序得到的话题列表S,并获取S中的任一话题u对应的关键词、特征向量、话题描述和话题描述特征向量,u的取值为1到H。即,在S中,前一个话题中的文本数量大于后一个话题中的文本数量。
任一话题u对应的关键词、特征向量、话题描述和话题描述特征向量可参照S300获取。
S700,基于话题之间的关键词相同的数量、话题的特征向量之间的相似度以及话题的话题描述特征向量之间的相似度对S进行合并处理,得到目标话题列表。
S800,输出目标话题列表中的所有话题的话题描述和对应的文本。
在S800中,输出的文本为按照发布时间排序例如按照发布时间由早到晚的顺序排序后得到的文本。目标话题列表中的每个话题的话题描述可基于S303获取得到。
进一步地,在本发明一实施例中,S400可具体包括:
S410,对于第p次清洗处理对应的当前话题中的话题i中的第j个文本Tij,分别获取gp(i,j)、SFp ij和STp ij,如果gp(i,j)≥D1p,并且SFp ij≥D2 p以及STp ij≥D3p,则将Tij保留在话题i中,执行S440;否则,执行S420;其中,gp(i,j)为第p次清洗处理时Tij和话题i之间的关键词相同的数量,SFp ij为第p次清洗处理时Tij的特征向量和话题i的话题特征向量之间的相似度,STp ij为第p次清洗处理时Tij的话题描述特征向量和话题i的话题描述特征向量之间的相似度;i的取值为1到k,k为当前话题的数量;j的取值为1到f(i),f(i)为话题i中的文本数量。
S420,获取gp(ij,s)、SFps ij和STps ij,如果gp(ij,s)≥D1p,并且SFps ij≥D2p以及STps ij≥D3 p,则将Tij加入到话题s中并从原话题中删除,执行S440;否则,执行S430;其中,话题s为当前话题中除话题i之外的k-1个话题中的第s个话题,gp(ij,s)为第p次清洗处理时Tij和话题s之间的关键词相同的数量,SFps ij为第p次清洗处理时Tij的特征向量和话题s的话题特征向量之间的相似度,STps ij为第p次清洗处理时Tij的话题描述特征向量和话题s的话题描述特征向量之间的相似度,s的取值为1到k-1。
S430,设置s=s+1,如果s≤(k-1),执行S420,否则,为Tij创建一个新话题,并将Tij加入到对应的新话题中,设置k=k+1即如果新增一个话题,则将当前话题的数量增加1,并执行S440。
S440,设置j=j+1,如果j≤f(i),执行S410;否则,设置i=i+1,如果i≤k,执行S410,否则,执行S500。
本领域技术人员知晓,由于在处理过程中,每个话题中文本数量可能会发生变化,因此,当前话题中的每个话题的关键词、特征向量、话题描述和话题描述特征向量是实时变化的。
进一步地,在本发明另一实施例中,S420被替换为:
S421,获取话题描述相似度集STij={ST1 ij,ST2 ij,…,STs ij,…,STk-1 ij},STs ij为Tij的话题描述特征向量和当前话题中除话题i之外的k-1个话题中的第s个话题对应的话题描述特征向量之间的相似度,s的取值为1到k-1。
S422,将STij按照降序进行排序得到排序后的相似度集,并获取排序后的相似度集中的前m个相似度形成对比相似度集STCij。m可基于实际需要进行设置,例如,m=5。
S423,获取gp(ij,w)和SFpw ij,如果gp(ij,w)≥D1p,并且SFpw ij≥D2p,则将话题w加入Tij对应的候选话题集中,执行S431,否则,直接执行S431;其中,话题w为STCij对应的m个话题中的第w个话题,gp(ij,w)为第p次清洗处理时Tij和话题w之间的关键词相同的数量,SFpw ij为第p次清洗处理时Tij对应的特征向量和话题w对应的特征向量之间的相似度,w的取值为1到m。
进一步地,S430被替换为:
S431,设置w=w+1,如果w≤m,执行S423,否则,执行S432。
S432,如果Tij对应的候选话题集为Null,则为Tij创建一个新话题,并将Tij加入到对应的新话题中并从原话题中删除,设置k=k+1,并执行S440;如果Tij对应的候选话题集中包含一个相似度,则将Tij加入到该相似度对应的话题中并从原话题中删除,并执行S440;如果Tij对应的候选话题集中包含多个相似度,则将Tij加入到对应的候选话题集中的最大相似度对应的话题中并从原话题中删除,并执行S440。
进一步地,在本发明实施例中,S700可具体包括:
S710,获取g(u,v)、S1uv和S2uv,如果g(u,v)≥D4,并且S1uv≥D5,以及S2uv≥D6,则将话题u和话题v进行合并,执行S730;否则,执行S720;其中,话题v为当前合并话题列表中的第v个话题,g(u,v)为话题u与话题v之间的关键词相同的数量,S1uv为话题u的话题特征向量和话题v的话题特征向量之间的相似度,S2uv为话题u的话题描述特征向量和话题v的话题描述特征向量之间的相似度,v的取值为1到n,n为当前合并话题列表中的话题数量;D4为第四设定阈值,D5为第五设定阈值,D6为第六设定阈值;合并话题列表中的初始值为Null。
在本发明实施例中,D4~D6可分别设置为与第一设定阈值至第三设定阈值相同。
S720,设置v=v+1,如果v≤n,执行S710,否则,将话题u作为新话题加入到当前合并话题列表中;执行S730。
S730,设置u=u+1,如果u≤H,执行S710,否则,执行S740。
S740,获取当前话题列表中的任一个话题中的文本数量,如果该话题中的文本数量少于设定数量阈值,则将该话题从当前话题列表中删除;得到目标话题列表,并执行S800。
本发明实施例中,设定数量阈值可为3。话题u和话题v合并后得到话题的话题描述为话题v的话题描述,特征向量是话题u和话题v的特征向量的平均值。
本领域技术人员知晓,当u=1时,由于当前合并话题列表中的话题数量为Null,所以,会将话题1加入到当前合并话题列表中。
进一步地,S800还包括:分别获取目标话题列表中的每个话题的关键词、特征向量、话题描述和话题描述特征向量,以更新每个话题的关键词、特征向量、话题描述和话题描述特征向量。
本发明实施例提供的基于话题描述的文本聚类清洗和合并方法,首先对文本进行聚类,得到多个聚类结果,每个聚类结果相当于一个话题,然后基于话题向量与话题中文本向量的文本相似度大小、话题描述与每个文本生成的话题描述的文本相似度大小、文本与话题的关键词相同的个数三个指标,对聚类结果进行清洗和优化,最后得到聚类结果和每个话题的描述,能够使得聚类结果更加准确。
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明的实施例还提供一种计算机程序产品,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书描述的根据本发明各种示例性实施方式的方法中的步骤。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明公开的范围由所附权利要求来限定。
Claims (8)
1.一种基于话题描述的文本聚类清洗和合并方法,其特征在于,所述方法包括如下步骤:
S100,获取待聚类文本中的每个文本的特征向量和关键词,每个文本包括h个关键词;
S200,基于获取的特征向量,利用设定聚类算法对待聚类文本进行聚类,得到多个话题;
S300,获取当前话题中的任一话题中的任一文本以及任一话题的关键词、特征向量和话题描述特征向量;
S400,基于文本和话题之间的关键词相同的数量、文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度对当前话题进行第p次清洗处理,得到处理后的n(p)个话题;其中,n(p)个话题中的任一话题a满足如下条件:gp(a,q)≥D1p,SFp aq≥D2p并且STp aq≥D3p;其中,gp(a,q)为话题a和话题a中的第q个文本Taq之间的关键词相同的数量,SFp aq为话题a的特征向量和Taq的特征向量之间的相似度,STp aq为话题a的话题描述特征向量和Taq的话题描述特征向量之间的相似度;D1p为第p次清洗处理对应的第一设定阈值,D2p为第p次清洗处理对应的第二设定阈值,D3p为第p次清洗处理对应的第三设定阈值;a的取值为1到n(p),p的取值为1到C0,C0为预设次数;q的取值为1到f(a),f(a)为话题a中的文本数量;
S500,设置p=p+1,如果p≤C0,执行S300;否则,得到清洗处理后的H个话题,执行S600;
S600,基于H个话题获取按照文本数量递减的方式进行排序得到的话题列表S,并获取S中的任一话题u对应的关键词、特征向量、话题描述和话题描述特征向量,u的取值为1到H;
S700,基于话题之间的关键词相同的数量、话题的特征向量之间的相似度以及话题的话题描述特征向量之间的相似度对S进行合并处理,得到目标话题列表;
S800,输出目标话题列表中的所有话题的话题描述和对应的文本,其中,每个话题对应的文本为按照文本发布时间进行排序后的文本;
S400具体包括:
S410,对于第p次清洗处理对应的当前话题中的话题i中的第j个文本Tij,分别获取gp(i,j)、SFp ij和STp ij,如果gp(i,j)≥D1p,并且SFp ij≥D2p以及STp ij≥D3p,则将Tij保留在话题i中,执行S440;否则,执行S420;其中,gp(i,j)为第p次清洗处理时Tij和话题i之间的关键词相同的数量,SFp ij为第p次清洗处理时Tij的特征向量和话题i的话题特征向量之间的相似度,STp ij为第p次清洗处理时Tij的话题描述特征向量和话题i的话题描述特征向量之间的相似度;i的取值为1到k,k为当前话题的数量;j的取值为1到f(i),f(i)为话题i中的文本数量;
S420,获取gp(ij,s)、SFps ij和STps ij,如果gp(ij,s)≥D1p,并且SFps ij≥D2p以及STps ij≥D3p,则将Tij加入到话题s中并从原话题中删除,执行S440;否则,执行S430;其中,话题s为当前话题中除话题i之外的k-1个话题中的第s个话题,gp(ij,s)为第p次清洗处理时Tij和话题s之间的关键词相同的数量,SFps ij为第p次清洗处理时Tij的特征向量和话题s的话题特征向量之间的相似度,STps ij为第p次清洗处理时Tij的话题描述特征向量和话题s的话题描述特征向量之间的相似度,s的取值为1到k-1;
S430,设置s=s+1,如果s≤(k-1),执行S420,否则,为Tij创建一个新话题,并将Tij加入到对应的新话题中并从原话题中删除,设置k=k+1,并执行S440;
S440,设置j=j+1,如果j≤f(i),执行S410;否则,设置i=i+1,如果i≤k,执行S410,否则,执行S500;
S700具体包括:
S710,获取g(u,v)、S1uv和S2uv,如果g(u,v)≥D4,并且S1uv≥D5,以及S2uv≥D6,则将话题u和话题v进行合并,执行S730;否则,执行S720;其中,话题v为当前合并话题列表中的第v个话题,g(u,v)为话题u与话题v之间的关键词相同的数量,S1uv为话题u的话题特征向量和话题v的话题特征向量之间的相似度,S2uv为话题u的话题描述特征向量和话题v的话题描述特征向量之间的相似度,v的取值为1到n,n为当前合并话题列表中的话题数量;D4为第四设定阈值,D5为第五设定阈值,D6为第六设定阈值;合并话题列表中的初始值为Null;
S720,设置v=v+1,如果v≤n,执行S710,否则,将话题u作为新话题加入到当前合并话题列表中并设置n=n+1;执行S730;
S730,设置u=u+1,如果u≤H,执行S710,否则,执行S740;
S740,获取当前话题列表中的任一个话题中的文本数量,如果该话题中的文本数量少于设定数量阈值,则将该话题从当前话题列表中删除;得到目标话题列表,并执行S800。
2.一种基于话题描述的文本聚类清洗和合并方法,其特征在于,所述方法包括如下步骤:
S100,获取待聚类文本中的每个文本的特征向量和关键词,每个文本包括h个关键词;
S200,基于获取的特征向量,利用设定聚类算法对待聚类文本进行聚类,得到多个话题;
S300,获取当前话题中的任一话题中的任一文本以及任一话题的关键词、特征向量和话题描述特征向量;
S400,基于文本和话题之间的关键词相同的数量、文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度对当前话题进行第p次清洗处理,得到处理后的n(p)个话题;其中,n(p)个话题中的任一话题a满足如下条件:gp(a,q)≥D1p,SFp aq≥D2p并且STp aq≥D3p;其中,gp(a,q)为话题a和话题a中的第q个文本Taq之间的关键词相同的数量,SFp aq为话题a的特征向量和Taq的特征向量之间的相似度,STp aq为话题a的话题描述特征向量和Taq的话题描述特征向量之间的相似度;D1p为第p次清洗处理对应的第一设定阈值,D2p为第p次清洗处理对应的第二设定阈值,D3p为第p次清洗处理对应的第三设定阈值;a的取值为1到n(p),p的取值为1到C0,C0为预设次数;q的取值为1到f(a),f(a)为话题a中的文本数量;
S500,设置p=p+1,如果p≤C0,执行S300;否则,得到清洗处理后的H个话题,执行S600;
S600,基于H个话题获取按照文本数量递减的方式进行排序得到的话题列表S,并获取S中的任一话题u对应的关键词、特征向量、话题描述和话题描述特征向量,u的取值为1到H;
S700,基于话题之间的关键词相同的数量、话题的特征向量之间的相似度以及话题的话题描述特征向量之间的相似度对S进行合并处理,得到目标话题列表;
S800,输出目标话题列表中的所有话题的话题描述和对应的文本,其中,每个话题对应的文本为按照文本发布时间进行排序后的文本;
S400具体包括:
S410,对于第p次清洗处理对应的当前话题中的话题i中的第j个文本Tij,分别获取gp(i,j)、SFp ij和STp ij,如果gp(i,j)≥D1p,并且SFp ij≥D2p以及STp ij≥D3p,则将Tij保留在话题i中,执行S440;否则,执行S420;其中,gp(i,j)为第p次清洗处理时Tij和话题i之间的关键词相同的数量,SFp ij为第p次清洗处理时Tij的特征向量和话题i的话题特征向量之间的相似度,STp ij为第p次清洗处理时Tij的话题描述特征向量和话题i的话题描述特征向量之间的相似度;i的取值为1到k,k为当前话题的数量;j的取值为1到f(i),f(i)为话题i中的文本数量;
S421,获取话题描述相似度集STij={ST1 ij,ST2 ij,…,STs ij,…,STk-1 ij},STs ij为Tij的话题描述特征向量和当前话题中除话题i之外的k-1个话题中的第s个话题对应的话题描述特征向量之间的相似度,s的取值为1到k-1;
S422,将STij按照降序进行排序得到排序后的相似度集,并获取排序后的相似度集中的前m个相似度形成对比相似度集STCij;
S423,获取gp(ij,w)和SFpw ij,如果gp(ij,w)≥D1p,并且SFpw ij≥D2p,则将话题w加入Tij对应的候选话题集中,执行S431,否则,直接执行S431;其中,话题w为STCij对应的m个话题中的第w个话题,gp(ij,w)为第p次清洗处理时Tij和话题w之间的关键词相同的数量,SFpw ij为第p次清洗处理时Tij对应的特征向量和话题w对应的特征向量之间的相似度,w的取值为1到m;
S431,设置w=w+1,如果w≤m,执行S423,否则,执行S432;
S432,如果Tij对应的候选话题集为Null,则为Tij创建一个新话题,并将Tij加入到对应的新话题中并从原话题中删除,设置k=k+1,并执行S440;如果Tij对应的候选话题集中包含一个相似度,则将Tij加入到该相似度对应的话题中并从原话题中删除,并执行S440;如果Tij对应的候选话题集中包含多个相似度,则将Tij加入到对应的候选话题集中的最大相似度对应的话题中并从原话题中删除,并执行S440;
S440,设置j=j+1,如果j≤f(i),执行S410;否则,设置i=i+1,如果i≤k,执行S410,否则,执行S500;
S700具体包括:
S710,获取g(u,v)、S1uv和S2uv,如果g(u,v)≥D4,并且S1uv≥D5,以及S2uv≥D6,则将话题u和话题v进行合并,执行S730;否则,执行S720;其中,话题v为当前合并话题列表中的第v个话题,g(u,v)为话题u与话题v之间的关键词相同的数量,S1uv为话题u的话题特征向量和话题v的话题特征向量之间的相似度,S2uv为话题u的话题描述特征向量和话题v的话题描述特征向量之间的相似度,v的取值为1到n,n为当前合并话题列表中的话题数量;D4为第四设定阈值,D5为第五设定阈值,D6为第六设定阈值;合并话题列表中的初始值为Null;
S720,设置v=v+1,如果v≤n,执行S710,否则,将话题u作为新话题加入到当前合并话题列表中并设置n=n+1;执行S730;
S730,设置u=u+1,如果u≤H,执行S710,否则,执行S740;
S740,获取当前话题列表中的任一个话题中的文本数量,如果该话题中的文本数量少于设定数量阈值,则将该话题从当前话题列表中删除;得到目标话题列表,并执行S800。
3.根据权利要求1或2所述的方法,其特征在于,任一文本的话题描述特征向量通过如下步骤获取:
S301,将任一文本的标题输入到设定话题描述生成模型中得到对应的话题描述;
S302,将任一文本的话题描述输入到设定话题描述特征生成模型中,得到对应的话题描述特征向量。
4.根据权利要求3所述的方法,其特征在于,任一话题的话题描述特征向量通过如下步骤获取:
S303,基于任一话题中的所有文本对应的话题描述,获取所有话题描述生成频次最大的话题描述作为该话题的话题描述;
S304,将该话题的话题描述输入到设定话题描述特征生成模型中,得到该话题的话题描述特征向量。
5.根据权利要求1或2所述的方法,其特征在于,任一话题的关键词通过如下步骤获取:
S305,对任一话题中的所有文本的关键词中相同的关键词进行合并并重新计算权重,得到合并后的关键词;
S306,将合并后的关键词中按照权重由大到小的顺序进行排序,并获取排序后的关键词中的前h个关键词作为该任一话题的关键词。
6.根据权利要求1或2所述的方法,其特征在于,任一话题的特征向量为该话题中所有文本的特征向量的平均值。
7.根据权利要求1或2所述的方法,其特征在于,通过TextRank算法获取每个文本的关键词。
8.根据权利要求1或2所述的方法,其特征在于,通过SimBERT模型获取每个文本的特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310347961.9A CN116361470B (zh) | 2023-04-03 | 2023-04-03 | 一种基于话题描述的文本聚类清洗和合并方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310347961.9A CN116361470B (zh) | 2023-04-03 | 2023-04-03 | 一种基于话题描述的文本聚类清洗和合并方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116361470A CN116361470A (zh) | 2023-06-30 |
CN116361470B true CN116361470B (zh) | 2024-05-14 |
Family
ID=86937686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310347961.9A Active CN116361470B (zh) | 2023-04-03 | 2023-04-03 | 一种基于话题描述的文本聚类清洗和合并方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116361470B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3118751A1 (fr) * | 2015-07-13 | 2017-01-18 | Pixalione | Procédé d'extraction de mots clés, dispositif et programme d'ordinateur correspondant |
KR101828995B1 (ko) * | 2017-05-08 | 2018-02-14 | 한국과학기술정보연구원 | 키워드 클러스터링 방법 및 장치 |
CN109710728A (zh) * | 2018-11-26 | 2019-05-03 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 新闻话题自动发现方法 |
CN110134787A (zh) * | 2019-05-15 | 2019-08-16 | 北京信息科技大学 | 一种新闻话题检测方法 |
CN111460153A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 热点话题提取方法、装置、终端设备及存储介质 |
CN113157857A (zh) * | 2021-03-13 | 2021-07-23 | 中国科学院新疆理化技术研究所 | 面向新闻的热点话题检测方法、装置及设备 |
CN113722483A (zh) * | 2021-08-31 | 2021-11-30 | 平安银行股份有限公司 | 话题分类方法、装置、设备及存储介质 |
CN114492429A (zh) * | 2022-01-12 | 2022-05-13 | 平安科技(深圳)有限公司 | 文本主题的生成方法、装置、设备及存储介质 |
CN114579739A (zh) * | 2022-01-12 | 2022-06-03 | 中国电子科技集团公司第十研究所 | 文本数据流的话题检测与追踪方法 |
CN115269846A (zh) * | 2022-08-02 | 2022-11-01 | 网易(杭州)网络有限公司 | 文本处理方法、装置、电子设备及存储介质 |
-
2023
- 2023-04-03 CN CN202310347961.9A patent/CN116361470B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3118751A1 (fr) * | 2015-07-13 | 2017-01-18 | Pixalione | Procédé d'extraction de mots clés, dispositif et programme d'ordinateur correspondant |
KR101828995B1 (ko) * | 2017-05-08 | 2018-02-14 | 한국과학기술정보연구원 | 키워드 클러스터링 방법 및 장치 |
CN109710728A (zh) * | 2018-11-26 | 2019-05-03 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 新闻话题自动发现方法 |
CN110134787A (zh) * | 2019-05-15 | 2019-08-16 | 北京信息科技大学 | 一种新闻话题检测方法 |
CN111460153A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 热点话题提取方法、装置、终端设备及存储介质 |
CN113157857A (zh) * | 2021-03-13 | 2021-07-23 | 中国科学院新疆理化技术研究所 | 面向新闻的热点话题检测方法、装置及设备 |
CN113722483A (zh) * | 2021-08-31 | 2021-11-30 | 平安银行股份有限公司 | 话题分类方法、装置、设备及存储介质 |
CN114492429A (zh) * | 2022-01-12 | 2022-05-13 | 平安科技(深圳)有限公司 | 文本主题的生成方法、装置、设备及存储介质 |
CN114579739A (zh) * | 2022-01-12 | 2022-06-03 | 中国电子科技集团公司第十研究所 | 文本数据流的话题检测与追踪方法 |
CN115269846A (zh) * | 2022-08-02 | 2022-11-01 | 网易(杭州)网络有限公司 | 文本处理方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
基于 MapReduce 的热点话题发现及演化分析方法研究;谭真;中国优秀硕士学位论文全文数据库 信息科技辑;20170315;全文 * |
新闻热点话题发现及演化分析研究与应用;陈龙;中国优秀硕士学位论文全文数据库 信息科技辑;20170715;全文 * |
涉案新闻的话题发现与话题摘要方法研究;卢天旭;中国优秀硕士学位论文全文数据库 信息科技辑;20230315;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116361470A (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108132927B (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
CN108228541B (zh) | 生成文档摘要的方法和装置 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN102799614B (zh) | 基于视觉词语空间共生性的图像检索方法 | |
CN111985228B (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
US10135723B2 (en) | System and method for supervised network clustering | |
CN113806582B (zh) | 图像检索方法、装置、电子设备和存储介质 | |
CN111966810A (zh) | 一种用于问答***的问答对排序方法 | |
Bounabi et al. | A comparison of text classification methods using different stemming techniques | |
CN112632261A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN112925912A (zh) | 文本处理方法、同义文本召回方法及装置 | |
CN116361470B (zh) | 一种基于话题描述的文本聚类清洗和合并方法 | |
CN117149956A (zh) | 一种文本检索方法、装置、电子设备及可读存储介质 | |
US11853858B2 (en) | Chart building user interface providing machine learned chart recommendations | |
US20230259761A1 (en) | Transfer learning system and method for deep neural network | |
CN110442681A (zh) | 一种机器阅读理解的方法、电子设备及可读存储介质 | |
CN113886535B (zh) | 基于知识图谱的问答方法、装置、存储介质及电子设备 | |
CN115345158A (zh) | 基于无监督学习的新词发现方法、装置、设备及存储介质 | |
JP2006285419A (ja) | 情報処理装置および方法、並びにプログラム | |
CN116049414B (zh) | 基于话题描述的文本聚类方法、电子设备和存储介质 | |
CN116361469B (zh) | 一种基于预训练模型的话题生成方法 | |
CN116361468B (zh) | 一种事件脉络生成方法、电子设备和存储介质 | |
CN112434174A (zh) | 多媒体信息的发布账号的识别方法、装置、设备及介质 | |
Iwata et al. | Unsupervised Object Matching for Relational Data | |
US20210264264A1 (en) | Learning device, learning method, learning program, evaluation device, evaluation method, and evaluation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |