CN112560469A

CN112560469A - 一种自动化中文文本主题探索的方法及***

Info

Publication number: CN112560469A
Application number: CN202011603044.5A
Authority: CN
Inventors: 张荣显
Original assignee: Zhuhai Hengqin Boyi Data Technology Co ltd
Current assignee: Zhuhai Hengqin Boyi Data Technology Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-03-26
Anticipated expiration: 2040-12-29
Also published as: CN112560469B

Abstract

本发明公开了一种自动化中文文本主题探索的方法及***，该***包括词向量构建模块、文本聚类模块和可视化模块，在该***中使用自动化中文文本主题探索的方法，能够解决K‑Means聚类方法计算耗时较长的问题；提供更多的分类特征信息，便于人工快捷地提取文本主题。

Description

一种自动化中文文本主题探索的方法及***

技术领域

本发明涉及文本主题探索领域，特别涉及一种自动化中文文本主题探索的方法及***。

背景技术

主题探索方法有很多种，比如基于LDA主题提取、基于无监督学习的K-Means文本聚类等，LDA主题模型是基于概率统计学角度利用贝叶斯思想进行的主题推断，K-Means聚类模型是基于空间向量距离进行的散点聚类，最终都能将文本划分成不同的簇或类，在此基础上，通过人工进一步信息抽取归纳，最终达到文本主题抽取的目的；在此背景下，K-Means其弊端有以下几点：

1.K-Means判断目标是最小化簇成员到包含该成员的实际质心的平方距离总和，随着被分析的数据集不断加大，每次都需要计算全部数据点到质心的距离，计算量不断加大，耗时增加；

2.K-Means只能将文本按给定数量划分成多个不同的簇或类，并没有提供更多的分类信息，不便于人工更快捷的归纳、提取文本主题。

为了克服上述K-Means聚类方法的弊端而构建了一种自动化中文文本主题探索的方法及***。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种自动化中文文本主题探索的方法及***。

本发明的一种实施例解决其技术问题所采用的技术方案是：一种自动化中文文本主题探索的方法，包括如下步骤：

步骤1、对中文文本进行切词，筛选出名词、动词、形容词和副词；

步骤2、使用TF-IDF算法对筛选出的名词、动词、形容词和副词构建词向量，将中文文本向量化预处理，将文本数据转换成空间的向量点，再使用TruncatedSVD奇异值分解方法将高维向量空间数据进行降维，以提升模型的计算速度；

步骤3、使用Mini Batch K-Means聚类方法对文本进行聚类；

步骤4、使用情感分析方法来分析文本的情感倾向；将聚类结果与情感分析结果交叉统计，获得各类文章整体的情感倾向分布；按照词频高低提取每类排名前N名的关键词来作为各类的语义关键词，依据使用Mini Batch K-Means聚类方法计算得到的每类中心点，选取该中心点或最近中心点的文章作为该类代表文章；

步骤5、获得的聚类信息通过可视化方法展示，用户通过聚类结果以及每个子类提供的辅助信息来总结和归纳每类的主题信息，以完成文本主题探索，且聚类结果数据可以保存在一个变量中，供用户调用，可以与其他维度变量进行交叉分析。

所述可视化方法包括词云图、饼图和/或列表。

步骤4中所述的N为大于等于1，小于等于10的正整数。

一种自动化中文文本主题探索***，使用所述自动化中文文本主题探索的方法，包括：

词向量构建模块，在该模块对中文文本进行切词，筛选出名词、动词、形容词和副词，再使用TF-IDF算法对筛选出的名词、动词、形容词和副词构建词向量，将中文文本向量化预处理，将文本数据转换成空间的向量点，再使用TruncatedSVD奇异值分解方法将高维向量空间数据进行降维；

文本聚类模块，在该模块中使用Mini Batch K-Means聚类方法对文本进行聚类；使用情感分析方法来分析文本的情感倾向；将聚类结果与情感分析结果交叉统计，获得各类文章整体的情感倾向分布；按照词频高低提取每类排名前N名的关键词来作为各类的语义关键词，依据使用Mini Batch K-Means聚类方法计算得到的每类中心点，选取该中心点或最近中心点的文章作为该类代表文章；

可视化模块，在该模块中根据获得的聚类信息通过可视化方法展示，用户通过聚类结果以及每个子类提供的辅助信息来总结和归纳每类的主题信息，以完成文本主题探索，且聚类结果数据可以保存在一个变量中，供用户调用，可以与其他维度变量进行交叉分析。

本发明的有益效果：一种自动化中文文本主题探索的方法及***，该***包括词向量构建模块、文本聚类模块和可视化模块，在该***中使用自动化中文文本主题探索的方法，能够解决K-Means聚类方法计算耗时较长的问题；提供更多的分类特征信息，便于人工快捷地提取文本主题。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为一种自动化中文文本主题探索***的结构图。

具体实施方式

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

在本发明的描述中，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

本发明中，除非另有明确的限定，“设置”、“安装”、“连接”等词语应做广义理解，例如，可以是直接相连，也可以通过中间媒介间接相连；可以是固定连接，也可以是可拆卸连接，还可以是一体成型；可以是机械连接；可以是两个元件内部的连通或两个元件的相互作用关系。所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

参照图1，一种自动化中文文本主题探索的方法，包括如下步骤：

步骤3、使用Mini Batch K-Means聚类方法对文本进行聚类；

所述可视化方法包括词云图、饼图和/或列表。

步骤4中所述的N为大于等于1，小于等于10的正整数。

文本表示方法有很多种，比如传统的one-hot、词袋模型、TF-IDF模型、Word2Vec、FastText、GloVe、ElMo、GPT、BERT等模型，本***采用TF-IDF方法，TF-IDF方法综合考虑不同的词在文本中出现频率(TF值)和这个词对不同文本的分辨能力(IDF值)，两者相乘得到的词向量表示；字词的重要性随其在文本中出现的次数成正比增加，但同时会随着其在语料库中出现的频率成反比下降，TF＝词条出现的次数/所有词条总数，IDF＝log(语料库文档总数/包含指定词条的文档数+1)，TF-IDF＝TF×IDF，得到每个词的TF-IDF值后，就可以将每个关键词的TF-IDF值按照关键词排列顺序，嵌入该位置从而构建句向量，从而实现将文本数据表示成向量数据，方便后续计算。

SVD奇异值分解是线性代数中一种重要的矩阵分解方法，对于一个实矩阵A(m×n)，分解成两个正交矩阵及一个对角阵的乘积U∑V,其中V是n×n正交矩阵，U是m×m正交矩阵，∑是m×n的对角阵。

Mini Batch K-Means算法建立在K-Means算法基础之上，K-Means算法是先预设分类数K，随机选取K个样本点作为初始中心点(质心)，然后将集合中所有的样本点分别与这K个中心点计算欧式距离，将所有点依次划分到距离其最近的中心点所在的子集中，在各个子集内采用均值方法更新子集中心点，经过不断的迭代，最终各子集中心点位置稳定或达到指定阈值条件，则计算结束，从而实现聚类；显然，K-Means为了找到各类稳定的中心点时，每次采用全量数据计算，当数据量或迭代次数很大时，计算耗时大大增加；Mini BatchK-Means采用一种抽样思想，每次只需要从全部数据中抽样小数据进行迭代计算，大大缩短计算时间。虽然使用抽样方法迭代计算会损失一定的聚类质量，但是在数据量大的情况下，精度的差异性可以忽略不计。

本发明提供一种自动化中文文本主题探索的方法以及应用该方法的自动化中文文本主题探索***，该***包括词向量构建模块、文本聚类模块和可视化模块，在该***中使用自动化中文文本主题探索的方法，能够解决K-Means聚类方法计算耗时较长的问题；提供更多的分类特征信息，便于人工快捷地提取文本主题。

当然，本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出等同变形或替换，这些等同的变形和替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种自动化中文文本主题探索的方法，其特征在于，包括如下步骤：

步骤3、使用Mini Batch K-Means聚类方法对文本进行聚类；

2.根据权利要求1所述的一种自动化中文文本主题探索的方法，其特征在于：所述可视化方法包括词云图、饼图和/或列表。

3.根据权利要求1所述的一种自动化中文文本主题探索的方法，其特征在于，步骤4中所述的N为大于等于1，小于等于10的正整数。

4.一种自动化中文文本主题探索***，使用权利要求1-3任一项所述自动化中文文本主题探索的方法，其特征在于，包括：