CN111324737B - 一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置 - Google Patents

一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置 Download PDF

Info

Publication number
CN111324737B
CN111324737B CN202010207097.9A CN202010207097A CN111324737B CN 111324737 B CN111324737 B CN 111324737B CN 202010207097 A CN202010207097 A CN 202010207097A CN 111324737 B CN111324737 B CN 111324737B
Authority
CN
China
Prior art keywords
text
distributed
bag
triangular matrix
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010207097.9A
Other languages
English (en)
Other versions
CN111324737A (zh
Inventor
姚春华
曾曦
肖杰
罗殊彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 30 Research Institute
Original Assignee
CETC 30 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 30 Research Institute filed Critical CETC 30 Research Institute
Priority to CN202010207097.9A priority Critical patent/CN111324737B/zh
Publication of CN111324737A publication Critical patent/CN111324737A/zh
Application granted granted Critical
Publication of CN111324737B publication Critical patent/CN111324737B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置,所述方法包括:步骤一,获取文本数据;步骤二,采用分布式计算模型消费文本数据,形成n个批次文本;步骤三,对n个批次文本形成两两配对的笛卡尔积,并保留上三角矩阵或下三角矩阵;步骤四,分布式计算三角矩阵或下三角矩阵中文本对的相似度;步骤五,剔除相似度低于阈值ε的文本对;步骤六,对剩下的文本对进行聚合,产生聚类类别;步骤七,将产生的聚类类别存储内存数据库;步骤八,重复步骤一至步骤七,更新内存数据库中的聚类类别。本发明采用分布式架构和分布式计算模型,在处理速度上有明显提高,还可以提高文本聚类的效果。

Description

一种基于词袋模型的分布式文本聚类方法、存储介质及计算 装置
技术领域
本发明涉及文本处理技术领域,尤其是一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置。
背景技术
在对海量文本进行语义分析前,会对这些文本通过机器学习的方式进行聚类。传统的单节点聚类计算由于其任务序列为串行,因此在处理速度上存在一定的性能瓶颈,很难在规定的范围时间内对海量文本进行精准的聚类,在面对一些时效性、精准性要求较高的业务场景,这类聚类方法无法胜任。
发明内容
本发明所要解决的技术问题是:为解决单节点聚类方法所存在的性能瓶颈,提供一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置,该方法使用分布式架构和分布式计算模型提高并行聚类能力,在时效性、精准性要求比较高的场景下,做出及时响应。
本发明提供的一种基于词袋模型的分布式文本聚类方法,包括如下步骤:
步骤一,获取文本数据;
步骤二,采用分布式计算模型消费文本数据,形成n个批次文本;
步骤三,对n个批次文本形成两两配对的笛卡尔积,并保留上三角矩阵或下三角矩阵;
步骤四,分布式计算三角矩阵或下三角矩阵中文本对的相似度;
步骤五,剔除相似度低于阈值ε的文本对;
步骤六,对剩下的文本对进行聚合,产生聚类类别;
步骤七,将产生的聚类类别存储至内存数据库;
步骤八,重复步骤一至步骤七,更新内存数据库中的聚类类别。
进一步,步骤一中获取文本数据的方法为:将采集的文本数据发送到消息队列中存储。
进一步,步骤四中分布式计算三角矩阵或下三角矩阵中文本对的相似度的方法为:采用词袋模型,通过计算余弦相似度得到文本对的相似度。
进一步,步骤六中对剩下的文本对进行聚合的方法为:将剩下的文本对的第一个批次文本进行两两聚合;再对聚合后的文本类别进行两两聚合。
进一步,步骤八中更新内存数据库中的聚类类别的方法为:
(1)重复步骤一至步骤六产生新的聚类类别;
(2)将重复步骤一至步骤七产生的新的聚类类别与内存数据库中的聚类类别再次执行步骤六;
(3)执行步骤七,将再次执行步骤六产生的聚类类别存储至内存数据库。
进一步,所述分布式文本聚类方法,还包括对内存数据库中的文本数据进行衰减的步骤,该衰减的方法为:删除每次进行聚合的样本中,出现次数小于等于衰减阈值η的词组。
进一步,η=3。
本发明还提供一种计算机终端可读介质,存储有计算机终端可执行指令,其特征在于,所述计算机终端可执行指令用于执行所述的基于词袋模型的分布式文本聚类方法。
本发明还提供一种计算装置,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的基于词袋模型的分布式文本聚类方法。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明采用分布式架构和分布式计算模型,相比传统的单节点文本聚类方法,在处理速度上有明显提高;另外,可以对同一批次中的文本进行两两配对的相似度计算,剔除不相似文本,对相似文本进行高度融合,可以提高文本聚类的效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明基于词袋模型的分布式文本聚类方法的流程框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合实施例对本发明的特征和性能作进一步的详细描述。
如图1所示,本实施例提供的一种基于词袋模型的分布式文本聚类方法,包括如下步骤:
步骤一,获取文本数据;
其中,文本数据通过自动化采集并存储在数据库中,为了方便处理,在处理文本数据时,获取文本数据的方法采用:将采集的文本数据发送到消息队列中存储。所述消息队列根据需求选择时效性高、存储能力强、并发性好的消息队列。
步骤二,采用分布式计算模型消费文本数据,形成n个批次文本;其中,每个批次文本由若干个词组组成;
即,将n个批次文本作为分布式计算的n个批次计算单元;所述批次文本如:a1、a2、…、an批次文本;
步骤三,对n个批次文本形成两两配对的笛卡尔积,并保留上三角矩阵或下三角矩阵;
其中,通过对n个批次文本形成笛卡尔积进行两两配对,如:
Figure BDA0002421497040000041
只保留上三角矩阵或下三角矩阵,如:
Figure BDA0002421497040000042
步骤四,分布式计算三角矩阵或下三角矩阵中文本对的相似度;
本实施例中采用词袋模型,通过计算余弦相似度得到文本对的相似度,如:
Figure BDA0002421497040000051
步骤五,剔除相似度低于阈值ε的文本对;
一般地,所述阈值ε可以根据需求在范围[0,1]中进行任意设置,通常取值为0.5,剔除后的文本对如:
Figure BDA0002421497040000052
步骤六,对剩下的文本对进行聚合,产生聚类类别;
其中,对剩下的文本对进行聚合的方法采用:将剩下的文本对的第一个批次文本进行两两聚合;再对聚合后的文本类别进行两两聚合。例如,假设a1、a3、an属于A类强关联的批次文本,a2属于B类强关联的批次文本,则产生的聚类类别如下:
Figure BDA0002421497040000053
步骤七,将产生的聚类类别存储至内存数据库;
步骤八,重复步骤一至步骤七,更新内存数据库中的聚类类别;
具体地:
(1)重复步骤一至步骤六产生新的聚类类别;
(2)将重复步骤一至步骤七产生的新的聚类类别与内存数据库中的聚类类别再次执行步骤六;
(3)执行步骤七,将再次执行步骤六产生的聚类类别存储至内存数据库。
通过步骤八,内存数据库中存储的数据累积增加,为了避免数据繁杂庞大,因此需要根据时效性对内存数据库中的文本数据进行衰减,衰减方法为:删除每次进行聚合的样本数据(即参与聚合的文本对)中,出现次数小于等于衰减阈值η的词组。一般地,η=3时,衰减效果最好。
此外,在一些实施例中,提出一种计算机终端可读介质,存储有计算机终端可执行指令,其特征在于,所述计算机终端可执行指令用于执行如前文实施例所述的基于词袋模型的分布式文本聚类方法。计算机可读介质的示例包括磁性存储介质(例如,软盘、硬盘等)、光学记录介质(例如,CD-ROM、DVD等)或存储器,如存储卡、ROM或RAM等。计算机可读介质也可以分布在网络连接的计算机***上,例如是应用程序的商店。
此外,在一些实施例中,提出一种计算装置,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前文实施例所述的基于词袋模型的分布式文本聚类方法。计算装置的示例包括PC机、平板电脑、智能手机或PDA等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于词袋模型的分布式文本聚类方法,其特征在于,包括如下步骤:
步骤一,获取文本数据;
步骤二,采用分布式计算模型消费文本数据,形成n个批次文本;
步骤三,对n个批次文本形成两两配对的笛卡尔积,并保留上三角矩阵或下三角矩阵;
步骤四,分布式计算三角矩阵或下三角矩阵中文本对的相似度;步骤四中分布式计算三角矩阵或下三角矩阵中文本对的相似度的方法为:采用词袋模型,通过计算余弦相似度得到文本对的相似度;
步骤五,剔除相似度低于阈值ε的文本对;
步骤六,对剩下的文本对进行聚合,产生聚类类别;步骤六中对剩下的文本对进行聚合的方法为:将剩下的文本对的第一个批次文本进行两两聚合;再对聚合后的文本类别进行两两聚合;
步骤七,将产生的聚类类别存储至内存数据库;
步骤八,重复步骤一至步骤七,更新内存数据库中的聚类类别;步骤八中更新内存数据库中的聚类类别的方法为:
(1)重复步骤一至步骤六产生新的聚类类别;
(2)将重复步骤一至步骤七产生的新的聚类类别与内存数据库中的聚类类别再次执行步骤六;
(3)执行步骤七,将再次执行步骤六产生的聚类类别存储至内存数据库;所述基于词袋模型的分布式文本聚类方法还包括对内存数据库中的文本数据进行衰减的步骤,该衰减的方法为:删除每次进行聚合的样本中,出现次数小于等于衰减阈值η的词组;η=3。
2.根据权利要求1所述的基于词袋模型的分布式文本聚类方法,其特征在于,步骤一中获取文本数据的方法为:将采集的文本数据发送到消息队列中存储。
3.一种计算机终端可读介质,存储有计算机终端可执行指令,其特征在于,所述计算机终端可执行指令用于执行如权利要求1-2中任一权利要求所述的基于词袋模型的分布式文本聚类方法。
4.一种计算装置,其特征在于,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-2中任一权利要求所述的基于词袋模型的分布式文本聚类方法。
CN202010207097.9A 2020-03-23 2020-03-23 一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置 Active CN111324737B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010207097.9A CN111324737B (zh) 2020-03-23 2020-03-23 一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010207097.9A CN111324737B (zh) 2020-03-23 2020-03-23 一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置

Publications (2)

Publication Number Publication Date
CN111324737A CN111324737A (zh) 2020-06-23
CN111324737B true CN111324737B (zh) 2022-04-22

Family

ID=71173260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010207097.9A Active CN111324737B (zh) 2020-03-23 2020-03-23 一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置

Country Status (1)

Country Link
CN (1) CN111324737B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005182611A (ja) * 2003-12-22 2005-07-07 Fuji Xerox Co Ltd 文書分類方法、文書分類装置
CN103324687A (zh) * 2013-06-03 2013-09-25 北界创想(北京)软件有限公司 对多篇文档进行相关性检验的方法和装置
CN106326346A (zh) * 2016-08-06 2017-01-11 上海高欣计算机***有限公司 文本分类方法及终端设备
CN107066555A (zh) * 2017-03-26 2017-08-18 天津大学 面向专业领域的在线主题检测方法
CN107273412A (zh) * 2017-05-04 2017-10-20 北京拓尔思信息技术股份有限公司 一种文本数据的聚类方法、装置和***
CN109189933A (zh) * 2018-09-14 2019-01-11 腾讯科技(深圳)有限公司 一种文本信息分类的方法及服务器

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7870134B2 (en) * 2003-08-28 2011-01-11 Newvectors Llc Agent-based clustering of abstract similar documents
CN102929894A (zh) * 2011-08-12 2013-02-13 中国人民解放军总参谋部第五十七研究所 一种文本在线聚类可视化方法
CN104750833A (zh) * 2015-04-03 2015-07-01 浪潮集团有限公司 一种文本分类方法及装置
CN109241274B (zh) * 2017-07-04 2022-01-25 腾讯科技(深圳)有限公司 文本聚类方法及装置
CN107562853B (zh) * 2017-08-28 2021-02-23 武汉烽火普天信息技术有限公司 一种面向海量互联网文本数据的流式聚类及展现的方法
CN108846142A (zh) * 2018-07-12 2018-11-20 南方电网调峰调频发电有限公司 一种文本聚类方法、装置、设备及可读存储介质
CN110210557B (zh) * 2019-05-31 2024-01-12 南京工程学院 一种实时流处理模式下未知文本的在线增量式聚类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005182611A (ja) * 2003-12-22 2005-07-07 Fuji Xerox Co Ltd 文書分類方法、文書分類装置
CN103324687A (zh) * 2013-06-03 2013-09-25 北界创想(北京)软件有限公司 对多篇文档进行相关性检验的方法和装置
CN106326346A (zh) * 2016-08-06 2017-01-11 上海高欣计算机***有限公司 文本分类方法及终端设备
CN107066555A (zh) * 2017-03-26 2017-08-18 天津大学 面向专业领域的在线主题检测方法
CN107273412A (zh) * 2017-05-04 2017-10-20 北京拓尔思信息技术股份有限公司 一种文本数据的聚类方法、装置和***
CN109189933A (zh) * 2018-09-14 2019-01-11 腾讯科技(深圳)有限公司 一种文本信息分类的方法及服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中文文本分类方法综述;于游 等;《网络与信息安全学报》;20191015;第5卷(第5期);1-8 *
分布式环境下的文本聚类研究与实现;赵华茗;《现代图书情报技术》;20150125(第01期);87-93 *

Also Published As

Publication number Publication date
CN111324737A (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN105427129B (zh) 一种信息的投放方法及***
EP3540612A1 (en) Cluster processing method and device for questions in automatic question and answering system
CN110598157B (zh) 目标信息识别方法、装置、设备及存储介质
CN107832407B (zh) 用于生成知识图谱的信息处理方法、装置和可读存储介质
US10878335B1 (en) Scalable text analysis using probabilistic data structures
CN111522968B (zh) 知识图谱融合方法及装置
US20240126817A1 (en) Graph data query
CN107291755B (zh) 一种终端推送方法及装置
CN111339277A (zh) 基于机器学习的问答交互方法及装置
CN110795613B (zh) 商品搜索方法、装置、***及电子设备
CN111274388B (zh) 一种文本聚类的方法及装置
CN111062431A (zh) 图像聚类方法、图像聚类装置、电子设备及存储介质
CN112329857A (zh) 一种基于改进残差网络的图像分类方法
CN114860742A (zh) 基于人工智能的ai客服交互方法、装置、设备及介质
CN111737461B (zh) 文本的处理方法、装置、电子设备及计算机可读存储介质
CN111324737B (zh) 一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置
CN110929285B (zh) 一种隐私数据的处理方法及装置
CN111597336A (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN112052259A (zh) 数据处理方法、装置、设备及计算机存储介质
CN114444514B (zh) 语义匹配模型训练、语义匹配方法及相关装置
CN115563268A (zh) 一种文本摘要的生成方法及装置、电子设备、存储介质
CN115599973A (zh) 一种用户人群标签筛分方法、***、设备及存储介质
CN115328898A (zh) 一种数据处理方法、装置、电子设备及介质
CN112214494B (zh) 检索方法及装置
CN113641705A (zh) 一种基于计算引擎的营销处置规则引擎方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant