CN111324737B

CN111324737B - 一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置

Info

Publication number: CN111324737B
Application number: CN202010207097.9A
Authority: CN
Inventors: 姚春华; 曾曦; 肖杰; 罗殊彦
Original assignee: CETC 30 Research Institute
Current assignee: CETC 30 Research Institute
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2022-04-22
Anticipated expiration: 2040-03-23
Also published as: CN111324737A

Abstract

本发明公开了一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置，所述方法包括：步骤一，获取文本数据；步骤二，采用分布式计算模型消费文本数据，形成n个批次文本；步骤三，对n个批次文本形成两两配对的笛卡尔积，并保留上三角矩阵或下三角矩阵；步骤四，分布式计算三角矩阵或下三角矩阵中文本对的相似度；步骤五，剔除相似度低于阈值ε的文本对；步骤六，对剩下的文本对进行聚合，产生聚类类别；步骤七，将产生的聚类类别存储内存数据库；步骤八，重复步骤一至步骤七，更新内存数据库中的聚类类别。本发明采用分布式架构和分布式计算模型，在处理速度上有明显提高，还可以提高文本聚类的效果。

Description

一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置

技术领域

本发明涉及文本处理技术领域，尤其是一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置。

背景技术

在对海量文本进行语义分析前，会对这些文本通过机器学习的方式进行聚类。传统的单节点聚类计算由于其任务序列为串行，因此在处理速度上存在一定的性能瓶颈，很难在规定的范围时间内对海量文本进行精准的聚类，在面对一些时效性、精准性要求较高的业务场景，这类聚类方法无法胜任。

发明内容

本发明所要解决的技术问题是：为解决单节点聚类方法所存在的性能瓶颈，提供一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置，该方法使用分布式架构和分布式计算模型提高并行聚类能力，在时效性、精准性要求比较高的场景下，做出及时响应。

本发明提供的一种基于词袋模型的分布式文本聚类方法，包括如下步骤：

步骤一，获取文本数据；

步骤二，采用分布式计算模型消费文本数据，形成n个批次文本；

步骤三，对n个批次文本形成两两配对的笛卡尔积，并保留上三角矩阵或下三角矩阵；

步骤四，分布式计算三角矩阵或下三角矩阵中文本对的相似度；

步骤五，剔除相似度低于阈值ε的文本对；

步骤六，对剩下的文本对进行聚合，产生聚类类别；

步骤七，将产生的聚类类别存储至内存数据库；

步骤八，重复步骤一至步骤七，更新内存数据库中的聚类类别。

进一步，步骤一中获取文本数据的方法为：将采集的文本数据发送到消息队列中存储。

进一步，步骤四中分布式计算三角矩阵或下三角矩阵中文本对的相似度的方法为：采用词袋模型，通过计算余弦相似度得到文本对的相似度。

进一步，步骤六中对剩下的文本对进行聚合的方法为：将剩下的文本对的第一个批次文本进行两两聚合；再对聚合后的文本类别进行两两聚合。

进一步，步骤八中更新内存数据库中的聚类类别的方法为：

(1)重复步骤一至步骤六产生新的聚类类别；

(2)将重复步骤一至步骤七产生的新的聚类类别与内存数据库中的聚类类别再次执行步骤六；

(3)执行步骤七，将再次执行步骤六产生的聚类类别存储至内存数据库。

进一步，所述分布式文本聚类方法，还包括对内存数据库中的文本数据进行衰减的步骤，该衰减的方法为：删除每次进行聚合的样本中，出现次数小于等于衰减阈值η的词组。

进一步，η＝3。

本发明还提供一种计算机终端可读介质，存储有计算机终端可执行指令，其特征在于，所述计算机终端可执行指令用于执行所述的基于词袋模型的分布式文本聚类方法。

本发明还提供一种计算装置，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的基于词袋模型的分布式文本聚类方法。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明采用分布式架构和分布式计算模型，相比传统的单节点文本聚类方法，在处理速度上有明显提高；另外，可以对同一批次中的文本进行两两配对的相似度计算，剔除不相似文本，对相似文本进行高度融合，可以提高文本聚类的效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明基于词袋模型的分布式文本聚类方法的流程框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

如图1所示，本实施例提供的一种基于词袋模型的分布式文本聚类方法，包括如下步骤：

步骤一，获取文本数据；

其中，文本数据通过自动化采集并存储在数据库中，为了方便处理，在处理文本数据时，获取文本数据的方法采用：将采集的文本数据发送到消息队列中存储。所述消息队列根据需求选择时效性高、存储能力强、并发性好的消息队列。

步骤二，采用分布式计算模型消费文本数据，形成n个批次文本；其中，每个批次文本由若干个词组组成；

即，将n个批次文本作为分布式计算的n个批次计算单元；所述批次文本如：a₁、a₂、…、a_n批次文本；

其中，通过对n个批次文本形成笛卡尔积进行两两配对，如：

只保留上三角矩阵或下三角矩阵，如：

本实施例中采用词袋模型，通过计算余弦相似度得到文本对的相似度，如：

步骤五，剔除相似度低于阈值ε的文本对；

一般地，所述阈值ε可以根据需求在范围[0,1]中进行任意设置，通常取值为0.5，剔除后的文本对如：

步骤六，对剩下的文本对进行聚合，产生聚类类别；

其中，对剩下的文本对进行聚合的方法采用：将剩下的文本对的第一个批次文本进行两两聚合；再对聚合后的文本类别进行两两聚合。例如，假设a₁、a₃、a_n属于A类强关联的批次文本，a₂属于B类强关联的批次文本，则产生的聚类类别如下：

步骤七，将产生的聚类类别存储至内存数据库；

步骤八，重复步骤一至步骤七，更新内存数据库中的聚类类别；

具体地：

(1)重复步骤一至步骤六产生新的聚类类别；

通过步骤八，内存数据库中存储的数据累积增加，为了避免数据繁杂庞大，因此需要根据时效性对内存数据库中的文本数据进行衰减，衰减方法为：删除每次进行聚合的样本数据(即参与聚合的文本对)中，出现次数小于等于衰减阈值η的词组。一般地，η＝3时，衰减效果最好。

此外，在一些实施例中，提出一种计算机终端可读介质，存储有计算机终端可执行指令，其特征在于，所述计算机终端可执行指令用于执行如前文实施例所述的基于词袋模型的分布式文本聚类方法。计算机可读介质的示例包括磁性存储介质(例如，软盘、硬盘等)、光学记录介质(例如，CD-ROM、DVD等)或存储器，如存储卡、ROM或RAM等。计算机可读介质也可以分布在网络连接的计算机***上，例如是应用程序的商店。

此外，在一些实施例中，提出一种计算装置，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前文实施例所述的基于词袋模型的分布式文本聚类方法。计算装置的示例包括PC机、平板电脑、智能手机或PDA等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于词袋模型的分布式文本聚类方法，其特征在于，包括如下步骤：

步骤一，获取文本数据；

步骤四，分布式计算三角矩阵或下三角矩阵中文本对的相似度；步骤四中分布式计算三角矩阵或下三角矩阵中文本对的相似度的方法为：采用词袋模型，通过计算余弦相似度得到文本对的相似度；

步骤五，剔除相似度低于阈值ε的文本对；

步骤六，对剩下的文本对进行聚合，产生聚类类别；步骤六中对剩下的文本对进行聚合的方法为：将剩下的文本对的第一个批次文本进行两两聚合；再对聚合后的文本类别进行两两聚合；

步骤七，将产生的聚类类别存储至内存数据库；

步骤八，重复步骤一至步骤七，更新内存数据库中的聚类类别；步骤八中更新内存数据库中的聚类类别的方法为：

（1）重复步骤一至步骤六产生新的聚类类别；

（2）将重复步骤一至步骤七产生的新的聚类类别与内存数据库中的聚类类别再次执行步骤六；

（3）执行步骤七，将再次执行步骤六产生的聚类类别存储至内存数据库；所述基于词袋模型的分布式文本聚类方法还包括对内存数据库中的文本数据进行衰减的步骤，该衰减的方法为：删除每次进行聚合的样本中，出现次数小于等于衰减阈值η的词组；η=3。

2.根据权利要求1所述的基于词袋模型的分布式文本聚类方法，其特征在于，步骤一中获取文本数据的方法为：将采集的文本数据发送到消息队列中存储。

3.一种计算机终端可读介质，存储有计算机终端可执行指令，其特征在于，所述计算机终端可执行指令用于执行如权利要求1-2中任一权利要求所述的基于词袋模型的分布式文本聚类方法。

4.一种计算装置，其特征在于，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-2中任一权利要求所述的基于词袋模型的分布式文本聚类方法。