CN111708886A

CN111708886A - 一种基于数据驱动的舆情分析终端及舆情文本分析方法

Info

Publication number: CN111708886A
Application number: CN202010527263.3A
Authority: CN
Inventors: 贾晓亮; 刘伟; 张志杰; 陈雪; 孟吉凯; 代志称; 郑爱华; 张自达
Original assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-09-25

Abstract

本发明属于数据库技术领域，涉及舆情分析技术领域，尤其是一种基于数据驱动的舆情分析终端及舆情文本分析方法，包括终端本体，所述终端本体内安装有存储器和处理器，其特征在于：所述终端内置计算机程序，该计算机程序包括爬虫模块、文本预处理模块和情感判定模块，所述爬虫模块用于对舆情数据进行收集，文本预处理模块用于对字符串进行预处理，情感判定模块用于对文本进行情感分析。基于上述分析终端配套设计一种可将网络文本数据通过中文分词、去停用词、不平衡语料处理、特征选择等算法配合进行处理，并最终实现舆情识别的舆情分析终端和舆情文本分析方法。

Description

一种基于数据驱动的舆情分析终端及舆情文本分析方法

技术领域

本发明属于数据库技术领域，涉及舆情分析技术领域，尤其是一种基于数据驱动的舆情分析终端及舆情文本分析方法。

背景技术

随着网络技术的发展以及网络应用的普及，使得舆情传播速度远高于以往的任何时期，当某些群体时间发生时，负面舆情的迅猛传播会在极短的时间内促进了***件膨胀式爆发。

因此，针对舆情信息早发现、早研判、早防范成为公共服务部门正确导向舆情的重要先决条件。利用计算机帮助电网企业快速、完全地获取和整理舆情文本信息是电网企业抢占舆情管控时机，维护企业形象，提升服务水平的基本要求。

在舆情的传播过程中，正面舆情可促进事件真实信息进行传播，而负面舆情则会对其造成反相应，破坏舆论环境的稳定，引发舆情危机。因此，如何在舆情信息中，尤其是文本信息中对舆情的情感进行有效的分析是极为重要的内容。因此，需对于舆情的文本信息进行情感分析。

情感分析又称为意见挖掘，是对于带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。目前文本进行情感分析的方法一般有两种，一种是基于语义理解，另一种是基于机器学习。其中对于第一种方法，在一些表达方式复杂，文本信息不规则的文本处理上存在很大的局限性，而对于第二种方法，则受限于特征的选取以及语料规模的大小，不适于实时的大量文本的处理内容。

因此，应设计一种可将网络文本数据通过中文分词、去停用词、不平衡语料处理、特征选择等算法配合进行处理，并最终实现舆情识别的舆情分析终端和舆情文本分析方法。

发明内容

本发明的目的在于弥补现有技术的不足，提供一种通过中文分词、去停用词、不平衡语料处理、特征选择等算法配合，并最终实现舆情识别的舆情分析终端和舆情文本分析方法

本发明采取的技术方案是：

一种基于数据驱动的舆情分析终端，包括终端本体，所述终端本体内安装有存储器和处理器，其特征在于：所述终端内置计算机程序，该计算机程序包括爬虫模块、文本预处理模块和情感判定模块，所述爬虫模块用于对舆情数据进行收集，文本预处理模块用于对字符串进行预处理，情感判定模块用于对文本进行情感分析。

进一步的，包括如下步骤：

步骤1：设计主题爬虫解析页面主题；

步骤2：对收集的舆情数据进行数据清洗；

步骤3：进行中文分词，包括采用词典匹配方法预处理，后利用统计分词方法实现精准分词；

步骤4：去除停用词并剔除部分表示程度加深的网络习惯用法；

步骤5：对处理后的文本信息生成文本特征向量；

步骤6：应用分类器对文本特征向量进行归集；

步骤7：生成分类结果。

进一步的，所述步骤1中，包括初始化种子URL，将URL按照分数高低加入待爬取列表，获取URL列表第一个种子，解析页面相关主题。

进一步的，所述步骤2中，包括去除无实义字符，并忽略回帖、话题引用、标题、URL引用、时间以及同类信息。

进一步的，所述步骤5中，利用CBOW模型，已知语料T中一段文本，样本(text(w),w)，是指text(w)由w前后各c个词构成,输入层包括text(w)中2c个词向量V(text(w)₁)、V(text(w)₂)...V(text(w)_2c)∈R^m，这里m表示词向量长度，默认值100，投影层将输入层2c个词向量做求和累加，即

输出层是二叉树，以语料中出现过的词当叶子节点，各词在语料中出现的频率做权重值构造的Huffman树，通过不断在树上进行二分类得到对应的词向量。

进一步的，所述步骤5中，采用信息增益法

其中，n表示分类总数，

表示特征值t没有出现，P(c_i)表示属于类别c_i的文本在总文本中所占的比例，P(t)表示含有特征项t的文本在总文本中所占比重，P(tc_i)表示总文本中属于类别c_i且含有特征项t的文本所占比重，

为总文本中属于类别c_i但不含有特征项t的文本所占比重。

进一步的，所述步骤6中，分类器采用逻辑回归模型

其中，特征向量X＝{x₁,x₂,…x_n,1}∈Rⁿ⁺¹，对应权值向量W＝{w₁,w₂…w_n,b}∈Rⁿ⁺¹。

进一步的，针对样本布局恒的少数类样本，采用SMOTE算法，

其中

为邻近样本，将邻近样本加入少数类样本集中，达到过采样效果。

本发明的优点和积极效果是：

本发明中，在现有装置的基础上配合预置的计算机程序形成一台舆情分析终端，该舆情分析终端可专门定制，也可采用现有的计算机或其他移动终端进行补充。

本发明中，基于预置的计算机程序对舆情数据进行处理，其中爬虫模块用于对舆情数据进行收集，文本预处理模块用于对字符串进行预处理，情感判定模块用于对文本进行情感分析，形成一套完成的处理***。

本发明中，借助爬虫技术获取网络文本数据，并对于相应页面进行解析；在数据清洗过程中，可剔除无实义字符，以及忽略回帖、话题引用、标题、URL引用、时间等信息；通过中文分词可对词典匹配方法预处理，后利用统计分词方法实现精准分词；之后进一步进行处理将部分表示程度加深的网络习惯用法剔除；之后再利用CBOW模型提取文本特征，并采用信息增益法进行特征选择；最后采用逻辑回归模型和SMOTE算法得出分类结果用以实现舆情的识别。

附图说明

图1为本发明的舆情分析终端的模块示意图；

图2为本发明舆情文本分析方法的流程图。

具体实施方式

下面结合实施例，对本发明进一步说明，下述实施例是说明性的，不是限定性的，不能以下述实施例来限定本发明的保护范围。

本实施例中，包括如下步骤：

步骤1：设计主题爬虫解析页面主题；

步骤2：对收集的舆情数据进行数据清洗；

步骤5：对处理后的文本信息生成文本特征向量；

步骤6：应用分类器对文本特征向量进行归集；

步骤7：生成分类结果。

本实施例中，所述步骤1中，包括初始化种子URL，将URL按照分数高低加入待爬取列表，获取URL列表第一个种子，解析页面相关主题。

本实施例中，设定URL长度上限50。

本实施例中，所述步骤2中，数据清洗的内容为针对语料的清洗。包括去除无实义字符如“#”等，并忽略回帖、话题引用、标题、URL引用、时间以及同类信息。该步骤采用人工表汉族并交叉验证标注结构

本实施例中，所述步骤4中，将部分表示程度加深的网络习惯用法剔除，如“～”经常跟在正向情感词之后，整体语境呈现正面性，该词剔除出停用词词库。

本实施例中，所述步骤5中，利用CBOW模型，已知语料T中一段文本，样本(text(w),w)，是指text(w)由w前后各c个词构成,输入层包括text(w)中2c个词向量V(text(w)₁)、V(text(w)₂)...V(text(w)_2c)∈R^m，这里m表示词向量长度，默认值100，投影层将输入层2c个词向量做求和累加，即

本实施例中，所述步骤5中，采用信息增益法

其中，n表示分类总数，

表示特征值t没有出现，P(c_i)表示属于类别c_i的文本在总文本中所占的比例，P(t)表示含有特征项t的文本在总文本中所占比重，P(t|c_i)表示总文本中属于类别c_i且含有特征项t的文本所占比重，

为总文本中属于类别c_i但不含有特征项t的文本所占比重。

本实施例中，所述步骤6中，分类器采用逻辑回归模型

本实施例中，针对样本布局恒的少数类样本，采用SMOTE算法，

其中

Claims

1.一种基于数据驱动的舆情分析终端，包括终端本体，所述终端本体内安装有存储器和处理器，其特征在于：所述终端内置计算机程序，该计算机程序包括爬虫模块、文本预处理模块和情感判定模块，所述爬虫模块用于对舆情数据进行收集，文本预处理模块用于对字符串进行预处理，情感判定模块用于对文本进行情感分析。

2.应用如权利要求1所述的基于数据驱动的舆情分析终端的舆情文本分析方法，其特征在于：包括如下步骤：

步骤1：设计主题爬虫解析页面主题；

步骤2：对收集的舆情数据进行数据清洗；

步骤5：对处理后的文本信息生成文本特征向量；

步骤6：应用分类器对文本特征向量进行归集；

步骤7：生成分类结果。

3.根据权利要求2所述的基于数据驱动的舆情分析终端的舆情文本分析方法，其特征在于：所述步骤1中，包括初始化种子URL，将URL按照分数高低加入待爬取列表，获取URL列表第一个种子，解析页面相关主题。

4.根据权利要求2所述的基于数据驱动的舆情分析终端的舆情文本分析方法，其特征在于：所述步骤2中，包括去除无实义字符，并忽略回帖、话题引用、标题、URL引用、时间以及同类信息。

5.根据权利要求2所述的基于数据驱动的舆情分析终端的舆情文本分析方法，其特征在于：所述步骤5中，利用CBOW模型，已知语料T中一段文本，样本(text(w),w)，是指text(w)由w前后各c个词构成,输入层包括text(w)中2c个词向量V(text(w)₁)、V(text(w)₂)...V(text(w)_2c)∈R^m，这里m表示词向量长度，默认值100，投影层将输入层2c个词向量做求和累加，即

6.根据权利要求5所述的基于数据驱动的舆情分析终端的舆情文本分析方法，其特征在于：所述步骤5中，采用信息增益法

其中，n表示分类总数，

为总文本中属于类别c_i但不含有特征项t的文本所占比重。

7.根据权利要求2所述的基于数据驱动的舆情分析终端的舆情文本分析方法，其特征在于：所述步骤6中，分类器采用逻辑回归模型

8.根据权利要求7所述的基于数据驱动的舆情分析终端的舆情文本分析方法，其特征在于：针对样本布局恒的少数类样本，采用SMOTE算法，

其中