CN112560469A - 一种自动化中文文本主题探索的方法及*** - Google Patents

一种自动化中文文本主题探索的方法及*** Download PDF

Info

Publication number
CN112560469A
CN112560469A CN202011603044.5A CN202011603044A CN112560469A CN 112560469 A CN112560469 A CN 112560469A CN 202011603044 A CN202011603044 A CN 202011603044A CN 112560469 A CN112560469 A CN 112560469A
Authority
CN
China
Prior art keywords
clustering
text
chinese text
central point
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011603044.5A
Other languages
English (en)
Other versions
CN112560469B (zh
Inventor
张荣显
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Hengqin Boyi Data Technology Co ltd
Original Assignee
Zhuhai Hengqin Boyi Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Hengqin Boyi Data Technology Co ltd filed Critical Zhuhai Hengqin Boyi Data Technology Co ltd
Priority to CN202011603044.5A priority Critical patent/CN112560469B/zh
Publication of CN112560469A publication Critical patent/CN112560469A/zh
Application granted granted Critical
Publication of CN112560469B publication Critical patent/CN112560469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种自动化中文文本主题探索的方法及***,该***包括词向量构建模块、文本聚类模块和可视化模块,在该***中使用自动化中文文本主题探索的方法,能够解决K‑Means聚类方法计算耗时较长的问题;提供更多的分类特征信息,便于人工快捷地提取文本主题。

Description

一种自动化中文文本主题探索的方法及***
技术领域
本发明涉及文本主题探索领域,特别涉及一种自动化中文文本主题探索的方法及***。
背景技术
主题探索方法有很多种,比如基于LDA主题提取、基于无监督学习的K-Means文本聚类等,LDA主题模型是基于概率统计学角度利用贝叶斯思想进行的主题推断,K-Means聚类模型是基于空间向量距离进行的散点聚类,最终都能将文本划分成不同的簇或类,在此基础上,通过人工进一步信息抽取归纳,最终达到文本主题抽取的目的;在此背景下,K-Means其弊端有以下几点:
1.K-Means判断目标是最小化簇成员到包含该成员的实际质心的平方距离总和,随着被分析的数据集不断加大,每次都需要计算全部数据点到质心的距离,计算量不断加大,耗时增加;
2.K-Means只能将文本按给定数量划分成多个不同的簇或类,并没有提供更多的分类信息,不便于人工更快捷的归纳、提取文本主题。
为了克服上述K-Means聚类方法的弊端而构建了一种自动化中文文本主题探索的方法及***。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种自动化中文文本主题探索的方法及***。
本发明的一种实施例解决其技术问题所采用的技术方案是:一种自动化中文文本主题探索的方法,包括如下步骤:
步骤1、对中文文本进行切词,筛选出名词、动词、形容词和副词;
步骤2、使用TF-IDF算法对筛选出的名词、动词、形容词和副词构建词向量,将中文文本向量化预处理,将文本数据转换成空间的向量点,再使用TruncatedSVD奇异值分解方法将高维向量空间数据进行降维,以提升模型的计算速度;
步骤3、使用Mini Batch K-Means聚类方法对文本进行聚类;
步骤4、使用情感分析方法来分析文本的情感倾向;将聚类结果与情感分析结果交叉统计,获得各类文章整体的情感倾向分布;按照词频高低提取每类排名前N名的关键词来作为各类的语义关键词,依据使用Mini Batch K-Means聚类方法计算得到的每类中心点,选取该中心点或最近中心点的文章作为该类代表文章;
步骤5、获得的聚类信息通过可视化方法展示,用户通过聚类结果以及每个子类提供的辅助信息来总结和归纳每类的主题信息,以完成文本主题探索,且聚类结果数据可以保存在一个变量中,供用户调用,可以与其他维度变量进行交叉分析。
所述可视化方法包括词云图、饼图和/或列表。
步骤4中所述的N为大于等于1,小于等于10的正整数。
一种自动化中文文本主题探索***,使用所述自动化中文文本主题探索的方法,包括:
词向量构建模块,在该模块对中文文本进行切词,筛选出名词、动词、形容词和副词,再使用TF-IDF算法对筛选出的名词、动词、形容词和副词构建词向量,将中文文本向量化预处理,将文本数据转换成空间的向量点,再使用TruncatedSVD奇异值分解方法将高维向量空间数据进行降维;
文本聚类模块,在该模块中使用Mini Batch K-Means聚类方法对文本进行聚类;使用情感分析方法来分析文本的情感倾向;将聚类结果与情感分析结果交叉统计,获得各类文章整体的情感倾向分布;按照词频高低提取每类排名前N名的关键词来作为各类的语义关键词,依据使用Mini Batch K-Means聚类方法计算得到的每类中心点,选取该中心点或最近中心点的文章作为该类代表文章;
可视化模块,在该模块中根据获得的聚类信息通过可视化方法展示,用户通过聚类结果以及每个子类提供的辅助信息来总结和归纳每类的主题信息,以完成文本主题探索,且聚类结果数据可以保存在一个变量中,供用户调用,可以与其他维度变量进行交叉分析。
本发明的有益效果:一种自动化中文文本主题探索的方法及***,该***包括词向量构建模块、文本聚类模块和可视化模块,在该***中使用自动化中文文本主题探索的方法,能够解决K-Means聚类方法计算耗时较长的问题;提供更多的分类特征信息,便于人工快捷地提取文本主题。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为一种自动化中文文本主题探索***的结构图。
具体实施方式
本部分将详细描述本发明的具体实施例,本发明之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案,但其不能理解为对本发明保护范围的限制。
在本发明的描述中,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
本发明中,除非另有明确的限定,“设置”、“安装”、“连接”等词语应做广义理解,例如,可以是直接相连,也可以通过中间媒介间接相连;可以是固定连接,也可以是可拆卸连接,还可以是一体成型;可以是机械连接;可以是两个元件内部的连通或两个元件的相互作用关系。所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
参照图1,一种自动化中文文本主题探索的方法,包括如下步骤:
步骤1、对中文文本进行切词,筛选出名词、动词、形容词和副词;
步骤2、使用TF-IDF算法对筛选出的名词、动词、形容词和副词构建词向量,将中文文本向量化预处理,将文本数据转换成空间的向量点,再使用TruncatedSVD奇异值分解方法将高维向量空间数据进行降维,以提升模型的计算速度;
步骤3、使用Mini Batch K-Means聚类方法对文本进行聚类;
步骤4、使用情感分析方法来分析文本的情感倾向;将聚类结果与情感分析结果交叉统计,获得各类文章整体的情感倾向分布;按照词频高低提取每类排名前N名的关键词来作为各类的语义关键词,依据使用Mini Batch K-Means聚类方法计算得到的每类中心点,选取该中心点或最近中心点的文章作为该类代表文章;
步骤5、获得的聚类信息通过可视化方法展示,用户通过聚类结果以及每个子类提供的辅助信息来总结和归纳每类的主题信息,以完成文本主题探索,且聚类结果数据可以保存在一个变量中,供用户调用,可以与其他维度变量进行交叉分析。
所述可视化方法包括词云图、饼图和/或列表。
步骤4中所述的N为大于等于1,小于等于10的正整数。
一种自动化中文文本主题探索***,使用所述自动化中文文本主题探索的方法,包括:
词向量构建模块,在该模块对中文文本进行切词,筛选出名词、动词、形容词和副词,再使用TF-IDF算法对筛选出的名词、动词、形容词和副词构建词向量,将中文文本向量化预处理,将文本数据转换成空间的向量点,再使用TruncatedSVD奇异值分解方法将高维向量空间数据进行降维;
文本聚类模块,在该模块中使用Mini Batch K-Means聚类方法对文本进行聚类;使用情感分析方法来分析文本的情感倾向;将聚类结果与情感分析结果交叉统计,获得各类文章整体的情感倾向分布;按照词频高低提取每类排名前N名的关键词来作为各类的语义关键词,依据使用Mini Batch K-Means聚类方法计算得到的每类中心点,选取该中心点或最近中心点的文章作为该类代表文章;
可视化模块,在该模块中根据获得的聚类信息通过可视化方法展示,用户通过聚类结果以及每个子类提供的辅助信息来总结和归纳每类的主题信息,以完成文本主题探索,且聚类结果数据可以保存在一个变量中,供用户调用,可以与其他维度变量进行交叉分析。
文本表示方法有很多种,比如传统的one-hot、词袋模型、TF-IDF模型、Word2Vec、FastText、GloVe、ElMo、GPT、BERT等模型,本***采用TF-IDF方法,TF-IDF方法综合考虑不同的词在文本中出现频率(TF值)和这个词对不同文本的分辨能力(IDF值),两者相乘得到的词向量表示;字词的重要性随其在文本中出现的次数成正比增加,但同时会随着其在语料库中出现的频率成反比下降,TF=词条出现的次数/所有词条总数,IDF=log(语料库文档总数/包含指定词条的文档数+1),TF-IDF=TF×IDF,得到每个词的TF-IDF值后,就可以将每个关键词的TF-IDF值按照关键词排列顺序,嵌入该位置从而构建句向量,从而实现将文本数据表示成向量数据,方便后续计算。
SVD奇异值分解是线性代数中一种重要的矩阵分解方法,对于一个实矩阵A(m×n),分解成两个正交矩阵及一个对角阵的乘积U∑V,其中V是n×n正交矩阵,U是m×m正交矩阵,∑是m×n的对角阵。
Mini Batch K-Means算法建立在K-Means算法基础之上,K-Means算法是先预设分类数K,随机选取K个样本点作为初始中心点(质心),然后将集合中所有的样本点分别与这K个中心点计算欧式距离,将所有点依次划分到距离其最近的中心点所在的子集中,在各个子集内采用均值方法更新子集中心点,经过不断的迭代,最终各子集中心点位置稳定或达到指定阈值条件,则计算结束,从而实现聚类;显然,K-Means为了找到各类稳定的中心点时,每次采用全量数据计算,当数据量或迭代次数很大时,计算耗时大大增加;Mini BatchK-Means采用一种抽样思想,每次只需要从全部数据中抽样小数据进行迭代计算,大大缩短计算时间。虽然使用抽样方法迭代计算会损失一定的聚类质量,但是在数据量大的情况下,精度的差异性可以忽略不计。
本发明提供一种自动化中文文本主题探索的方法以及应用该方法的自动化中文文本主题探索***,该***包括词向量构建模块、文本聚类模块和可视化模块,在该***中使用自动化中文文本主题探索的方法,能够解决K-Means聚类方法计算耗时较长的问题;提供更多的分类特征信息,便于人工快捷地提取文本主题。
当然,本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出等同变形或替换,这些等同的变形和替换均包含在本申请权利要求所限定的范围内。

Claims (4)

1.一种自动化中文文本主题探索的方法,其特征在于,包括如下步骤:
步骤1、对中文文本进行切词,筛选出名词、动词、形容词和副词;
步骤2、使用TF-IDF算法对筛选出的名词、动词、形容词和副词构建词向量,将中文文本向量化预处理,将文本数据转换成空间的向量点,再使用TruncatedSVD奇异值分解方法将高维向量空间数据进行降维,以提升模型的计算速度;
步骤3、使用Mini Batch K-Means聚类方法对文本进行聚类;
步骤4、使用情感分析方法来分析文本的情感倾向;将聚类结果与情感分析结果交叉统计,获得各类文章整体的情感倾向分布;按照词频高低提取每类排名前N名的关键词来作为各类的语义关键词,依据使用Mini Batch K-Means聚类方法计算得到的每类中心点,选取该中心点或最近中心点的文章作为该类代表文章;
步骤5、获得的聚类信息通过可视化方法展示,用户通过聚类结果以及每个子类提供的辅助信息来总结和归纳每类的主题信息,以完成文本主题探索,且聚类结果数据可以保存在一个变量中,供用户调用,可以与其他维度变量进行交叉分析。
2.根据权利要求1所述的一种自动化中文文本主题探索的方法,其特征在于:所述可视化方法包括词云图、饼图和/或列表。
3.根据权利要求1所述的一种自动化中文文本主题探索的方法,其特征在于,步骤4中所述的N为大于等于1,小于等于10的正整数。
4.一种自动化中文文本主题探索***,使用权利要求1-3任一项所述自动化中文文本主题探索的方法,其特征在于,包括:
词向量构建模块,在该模块对中文文本进行切词,筛选出名词、动词、形容词和副词,再使用TF-IDF算法对筛选出的名词、动词、形容词和副词构建词向量,将中文文本向量化预处理,将文本数据转换成空间的向量点,再使用TruncatedSVD奇异值分解方法将高维向量空间数据进行降维;
文本聚类模块,在该模块中使用Mini Batch K-Means聚类方法对文本进行聚类;使用情感分析方法来分析文本的情感倾向;将聚类结果与情感分析结果交叉统计,获得各类文章整体的情感倾向分布;按照词频高低提取每类排名前N名的关键词来作为各类的语义关键词,依据使用Mini Batch K-Means聚类方法计算得到的每类中心点,选取该中心点或最近中心点的文章作为该类代表文章;
可视化模块,在该模块中根据获得的聚类信息通过可视化方法展示,用户通过聚类结果以及每个子类提供的辅助信息来总结和归纳每类的主题信息,以完成文本主题探索,且聚类结果数据可以保存在一个变量中,供用户调用,可以与其他维度变量进行交叉分析。
CN202011603044.5A 2020-12-29 2020-12-29 一种自动化中文文本主题探索的方法及*** Active CN112560469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011603044.5A CN112560469B (zh) 2020-12-29 2020-12-29 一种自动化中文文本主题探索的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011603044.5A CN112560469B (zh) 2020-12-29 2020-12-29 一种自动化中文文本主题探索的方法及***

Publications (2)

Publication Number Publication Date
CN112560469A true CN112560469A (zh) 2021-03-26
CN112560469B CN112560469B (zh) 2023-07-04

Family

ID=75034320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011603044.5A Active CN112560469B (zh) 2020-12-29 2020-12-29 一种自动化中文文本主题探索的方法及***

Country Status (1)

Country Link
CN (1) CN112560469B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899335A (zh) * 2015-06-25 2015-09-09 四川友联信息技术有限公司 一种对网络舆情信息进行情感分类的方法
CN107103043A (zh) * 2017-03-29 2017-08-29 国信优易数据有限公司 一种文本聚类方法及***
CN108536762A (zh) * 2018-03-21 2018-09-14 上海蔚界信息科技有限公司 一种大批量文本数据自动分析方案
CN109299280A (zh) * 2018-12-12 2019-02-01 河北工程大学 短文本聚类分析方法、装置和终端设备
WO2020101477A1 (en) * 2018-11-14 2020-05-22 Mimos Berhad System and method for dynamic entity sentiment analysis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899335A (zh) * 2015-06-25 2015-09-09 四川友联信息技术有限公司 一种对网络舆情信息进行情感分类的方法
CN107103043A (zh) * 2017-03-29 2017-08-29 国信优易数据有限公司 一种文本聚类方法及***
CN108536762A (zh) * 2018-03-21 2018-09-14 上海蔚界信息科技有限公司 一种大批量文本数据自动分析方案
WO2020101477A1 (en) * 2018-11-14 2020-05-22 Mimos Berhad System and method for dynamic entity sentiment analysis
CN109299280A (zh) * 2018-12-12 2019-02-01 河北工程大学 短文本聚类分析方法、装置和终端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐莉莎: "《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》", 15 June 2020, pages: 138 - 1311 *

Also Published As

Publication number Publication date
CN112560469B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
US11620450B2 (en) Deep learning based text classification
US11093854B2 (en) Emoji recommendation method and device thereof
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN107085581B (zh) 短文本分类方法和装置
CN109471942B (zh) 基于证据推理规则的中文评论情感分类方法及装置
CN104881458B (zh) 一种网页主题的标注方法和装置
CN111259215A (zh) 基于多模态的主题分类方法、装置、设备、以及存储介质
CN108509490B (zh) 一种网络热点话题发现方法及***
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN113673223A (zh) 一种基于语义相似性的关键词抽取方法及***
CN110232127A (zh) 文本分类方法及装置
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN111259156A (zh) 一种面向时间序列的热点聚类方法
US20220156489A1 (en) Machine learning techniques for identifying logical sections in unstructured data
CN109543002A (zh) 简写字符的还原方法、装置、设备及存储介质
CN113065350A (zh) 一种基于注意力神经网络的生物医学文本词义消岐方法
Yildiz A comparative study of author gender identification
Wang Iteration-based naive Bayes sentiment classification of microblog multimedia posts considering emoticon attributes
CN111859032A (zh) 一种短信拆字敏感词的检测方法、装置及计算机存储介质
CN109344252B (zh) 基于优质主题扩展的微博文本分类方法及***
CN112560469A (zh) 一种自动化中文文本主题探索的方法及***
CN114298020B (zh) 一种基于主题语义信息的关键词向量化方法及其应用
CN115510326A (zh) 基于文本特征和情感倾向的网络论坛用户兴趣推荐算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant