CN108536762A

CN108536762A - 一种大批量文本数据自动分析方案

Info

Publication number: CN108536762A
Application number: CN201810234028.XA
Authority: CN
Inventors: 王悦; 陈石
Original assignee: Shanghai Wei Mdt Infotech Ltd
Current assignee: Shanghai Wei Mdt Infotech Ltd
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2018-09-14

Abstract

本发明公开了一种大批量文本数据自动分析方案，它涉及文本类数据分析领域。此方案从五大角度对文本类数据进行分析，分别是1.数据基本信息与词句统计；2.词语和短语的权重统计；3.情感词推断；4.分类分析；5.主题分析；***通过模型算法进行这五类分析之后，将结果解析并生成特定的可视化图表展现出来，进而用户可以直观获取到文本数据全面分析结论。本发明通过一系列功能、算法和图表的设计，实现一种对大批量文本数据的自动化分析，帮助分析人员快速获得关于文本数据的总结性结论。

Description

一种大批量文本数据自动分析方案

技术领域

本发明涉及的是文本类数据分析领域，具体涉及一种对大批量文本数据进行多个不同角度的计算分析并形成总结性结果的算法流程方案，主要应用在舆情分析、社交网络分析、客服对话分析等场景。

背景技术

日常和商业行为中会产生大量的文本类数据，相关技术的发展也使得文本数据分析越来越重要。目前对于文本类数据的自动分析方法，主要是先通过人工建模、编程，进行单一角度的分析，再由专业人员理解和解释计算机后台表格的结果。

采用这类方案需要较为专业的技术人员，其优点是可以对特定数据、特定角度进行定制化的深入分析。但对于一般分析人员，这类方法较难掌握，高成本低效率，且其结果无法对大批量文本数据有一个全面、直观的解释。目前，尚没有一种综合技术方案，可以自动化地、高效率地实现对大批量文本数据的分析，并形成图表化的、易理解的分析结果。

综上所述，本发明设计了一种大批量文本数据自动分析方案。

发明内容

针对现有技术上存在的不足，本发明目的是在于提供一种大批量文本数据自动分析方案，通过一系列功能、算法和图表的设计，实现一种对大批量文本数据的自动化分析，帮助分析人员快速获得关于文本数据的总结性结论。

为了实现上述目的，本发明是通过如下的技术方案来实现：一种大批量文本数据自动分析方案，此方案从五大角度对文本类数据进行分析，分别是1.数据基本信息与词句统计；2. 词语和短语的权重统计；3.情感词推断；4.分类分析；5.主题分析；***通过模型算法进行这五类分析之后，将结果解析并生成特定的可视化图表展现出来，进而用户可以直观获取到文本数据全面分析结论。

本发明定义文本类数据中，每一条记录为一个文档，每个文档由一名用户产生，例如一条评论、一条微博、一篇文章，每一个文档都有一个文档编号进行独立区分。对于本发明，文档数据条数在十万量级左右，所带来的有益效果最高。

基于上述五个角度的分析，用户可以快速、自动化地获得对于待分析文档的全面、直观认识，从而更快、更准确的切入到对于大量文本内容的分析中去。

本发明与现有技术相比有如下优势和有益效果：

1.本发明设计的分析流程方法实现后是全自动的，省去了复杂人工开发调整，不仅节省了很大工作量，还使得文本分析更容易得到使用，不再需要由专业技术人员开发；

2.本发明抓住了不同场景、不同类型下的文本分析的共同需求，从文本分析的五个最重要的角度出发，对文档进行了全方位分析，使得用户对文档有更全面的认识，提升实际应用分析的效果；

3.本发明中核心算法的结果，被转化为可视化图表的形式展现，不再需要专业人员解读，使得一般用户可理解，并且更加直观可靠。

附图说明

下面结合附图和具体实施方式来详细说明本发明；

图1为本发明的自动分析方案框图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

参照图1，本具体实施方式采用以下技术方案：一种大批量文本数据自动分析方案，此方案从五大角度对文本类数据进行分析，分别是1.数据基本信息与词句统计；2. 词语和短语的权重统计；3.情感词推断；4.分类分析；5.主题分析；***通过模型算法进行这五类分析之后，将结果解析并生成特定的可视化图表展现出来，进而用户可以直观获取到文本数据全面分析结论。

本具体实施方式所涉及的第一个角度的分析为数据基本信息与词句统计，包括用户数量，文档数量，文档日期范围，文档总词数，文档有效词数（名词、动词、形容词），文档数量按日期的趋势。此部分的结果，主要以统计数字的形式展示出来，其中文档数量按日期的趋势可以用折线图或柱状图显示。

第二个角度的分析是关于词语和短语的权重统计，包括热词（基于文档频率的权重计算），关键词（基于词频和逆文档率的词频计算），重要短语（基于特殊算法的重要短语抽取技术）。此部分的结果，以词云的形式展示出来，其中，颜色代表类型，字的大小代表权重高低。

第三个角度的分析是对情感词的推断，主要方法是内置一份常用情感词表，标注好基础情感词，比如正面情感词有:喜欢，很好，满意等；负面情感词有:劣质，欺骗，糟心等。利用这些基础情感词，通过特定算法，即可计算出其他可能的情感词和情感倾向性。此部分的结果，以类词云形式展现：图表为一个平面，左右两级分别表示推断情感词的倾向性大小，垂直方向的上下表示情感词词频权重的大小。

第四个角度的分析是对文档整体的分类分析，主要方法是对每篇文档做中文分词，然后以词的词频相关权重（如TF-IDF）或者word embedding词向量为模型特征，利用聚类相关算法继续机器学习，从而计算出每个文档的分类。算法完成后，再基于分类结果，计算分类文档数量统计和各个分类的关键词汇及权重（如互信息值）。此部分的结果，用矩形树图（或压力图）展示，其中矩形树图中每个块区代表一个分类，标明分类的名称和分类文档的数量统计，块区内罗列该分类内权重最高的若干个关键词汇，每个块区的颜色不同或深浅，可以表示为不同分类，也可以表示为分类文档数量的大小。

第五个角度的分析是对文档整体的主题分析，主要用到了主题模型，利用文本主题分析模型（如LDA）对全部文档进行学习计算，得到各个主题和主题关键词及权重。算法完成后，再基于主题分布结果，计算主题权重（如主题覆盖比率值）和主题间相关性（如主题-文档分布的相关分析）。此部分的结果，主要使用比如气泡网络图+柱状图组合方式显示，其中气泡大小代表主题权重，气泡间网络连接代表主题相关性，选中某一气泡后，柱状图显示该主题的词汇权重最高的若干个词及其权重。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1. 一种大批量文本数据自动分析方案，其特征在于，此方案从五大角度对文本类数据进行分析，分别是(1).数据基本信息与词句统计；(2). 词语和短语的权重统计；(3).情感词推断；(4).分类分析；(5).主题分析；***通过模型算法进行这五类分析之后，将结果解析并生成特定的可视化图表展现出来，进而用户可以直观获取到文本数据全面分析结论。

2.根据权利要求1所述的一种大批量文本数据自动分析方案，其特征在于，所述的数据基本信息与词句统计，包括用户数量，文档数量，文档日期范围，文档总词数，文档有效词数，文档数量按日期的趋势；此部分的结果，主要以统计数字的形式展示出来，其中文档数量按日期的趋势可以用折线图或柱状图显示。

3.根据权利要求1所述的一种大批量文本数据自动分析方案，其特征在于，所述的词语和短语的权重统计，包括热词，关键词，重要短语；此部分的结果，以词云的形式展示出来，其中，颜色代表类型，字的大小代表权重高低。

4.根据权利要求1所述的一种大批量文本数据自动分析方案，其特征在于，所述的情感词推断，主要方法是内置一份常用情感词表，标注好基础情感词，利用这些基础情感词，通过特定算法，即可计算出其他可能的情感词和情感倾向性；此部分的结果，以类词云形式展现：图表为一个平面，左右两级分别表示推断情感词的倾向性大小，垂直方向的上下表示情感词词频权重的大小。

5.根据权利要求1所述的一种大批量文本数据自动分析方案，其特征在于，所述的分类分析是对文档整体的分类分析，主要方法是对每篇文档做中文分词，然后以词的词频相关权重或者word embedding词向量为模型特征，利用聚类相关算法继续机器学习，从而计算出每个文档的分类；算法完成后，再基于分类结果，计算分类文档数量统计和各个分类的关键词汇及权重；此部分的结果，用矩形树图展示，其中矩形树图中每个块区代表一个分类，标明分类的名称和分类文档的数量统计，块区内罗列该分类内权重最高的若干个关键词汇，每个块区的颜色不同或深浅，可以表示为不同分类，也可以表示为分类文档数量的大小。

6.根据权利要求1所述的一种大批量文本数据自动分析方案，其特征在于，所述的主题分析是对文档整体的主题分析，主要用到了主题模型，利用文本主题分析模型对全部文档进行学习计算，得到各个主题和主题关键词及权重；算法完成后，再基于主题分布结果，计算主题权重和主题间相关性；此部分的结果，主要使用比如气泡网络图+柱状图组合方式显示，其中气泡大小代表主题权重，气泡间网络连接代表主题相关性，选中某一气泡后，柱状图显示该主题的词汇权重最高的若干个词及其权重。