CN111708886A - 一种基于数据驱动的舆情分析终端及舆情文本分析方法 - Google Patents

一种基于数据驱动的舆情分析终端及舆情文本分析方法 Download PDF

Info

Publication number
CN111708886A
CN111708886A CN202010527263.3A CN202010527263A CN111708886A CN 111708886 A CN111708886 A CN 111708886A CN 202010527263 A CN202010527263 A CN 202010527263A CN 111708886 A CN111708886 A CN 111708886A
Authority
CN
China
Prior art keywords
text
public opinion
analysis
data
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010527263.3A
Other languages
English (en)
Inventor
贾晓亮
刘伟
张志杰
陈雪
孟吉凯
代志称
郑爱华
张自达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202010527263.3A priority Critical patent/CN111708886A/zh
Publication of CN111708886A publication Critical patent/CN111708886A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据库技术领域,涉及舆情分析技术领域,尤其是一种基于数据驱动的舆情分析终端及舆情文本分析方法,包括终端本体,所述终端本体内安装有存储器和处理器,其特征在于:所述终端内置计算机程序,该计算机程序包括爬虫模块、文本预处理模块和情感判定模块,所述爬虫模块用于对舆情数据进行收集,文本预处理模块用于对字符串进行预处理,情感判定模块用于对文本进行情感分析。基于上述分析终端配套设计一种可将网络文本数据通过中文分词、去停用词、不平衡语料处理、特征选择等算法配合进行处理,并最终实现舆情识别的舆情分析终端和舆情文本分析方法。

Description

一种基于数据驱动的舆情分析终端及舆情文本分析方法
技术领域
本发明属于数据库技术领域,涉及舆情分析技术领域,尤其是一种基于数据驱动的舆情分析终端及舆情文本分析方法。
背景技术
随着网络技术的发展以及网络应用的普及,使得舆情传播速度远高于以往的任何时期,当某些群体时间发生时,负面舆情的迅猛传播会在极短的时间内促进了***件膨胀式爆发。
因此,针对舆情信息早发现、早研判、早防范成为公共服务部门正确导向舆情的重要先决条件。利用计算机帮助电网企业快速、完全地获取和整理舆情文本信息是电网企业抢占舆情管控时机,维护企业形象,提升服务水平的基本要求。
在舆情的传播过程中,正面舆情可促进事件真实信息进行传播,而负面舆情则会对其造成反相应,破坏舆论环境的稳定,引发舆情危机。因此,如何在舆情信息中,尤其是文本信息中对舆情的情感进行有效的分析是极为重要的内容。因此,需对于舆情的文本信息进行情感分析。
情感分析又称为意见挖掘,是对于带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。目前文本进行情感分析的方法一般有两种,一种是基于语义理解,另一种是基于机器学习。其中对于第一种方法,在一些表达方式复杂,文本信息不规则的文本处理上存在很大的局限性,而对于第二种方法,则受限于特征的选取以及语料规模的大小,不适于实时的大量文本的处理内容。
因此,应设计一种可将网络文本数据通过中文分词、去停用词、不平衡语料处理、特征选择等算法配合进行处理,并最终实现舆情识别的舆情分析终端和舆情文本分析方法。
发明内容
本发明的目的在于弥补现有技术的不足,提供一种通过中文分词、去停用词、不平衡语料处理、特征选择等算法配合,并最终实现舆情识别的舆情分析终端和舆情文本分析方法
本发明采取的技术方案是:
一种基于数据驱动的舆情分析终端,包括终端本体,所述终端本体内安装有存储器和处理器,其特征在于:所述终端内置计算机程序,该计算机程序包括爬虫模块、文本预处理模块和情感判定模块,所述爬虫模块用于对舆情数据进行收集,文本预处理模块用于对字符串进行预处理,情感判定模块用于对文本进行情感分析。
进一步的,包括如下步骤:
步骤1:设计主题爬虫解析页面主题;
步骤2:对收集的舆情数据进行数据清洗;
步骤3:进行中文分词,包括采用词典匹配方法预处理,后利用统计分词方法实现精准分词;
步骤4:去除停用词并剔除部分表示程度加深的网络习惯用法;
步骤5:对处理后的文本信息生成文本特征向量;
步骤6:应用分类器对文本特征向量进行归集;
步骤7:生成分类结果。
进一步的,所述步骤1中,包括初始化种子URL,将URL按照分数高低加入待爬取列表,获取URL列表第一个种子,解析页面相关主题。
进一步的,所述步骤2中,包括去除无实义字符,并忽略回帖、话题引用、标题、URL引用、时间以及同类信息。
进一步的,所述步骤5中,利用CBOW模型,已知语料T中一段文本,样本(text(w),w),是指text(w)由w前后各c个词构成,输入层包括text(w)中2c个词向量V(text(w)1)、V(text(w)2)...V(text(w)2c)∈Rm,这里m表示词向量长度,默认值100,投影层将输入层2c个词向量做求和累加,即
Figure BDA0002534041520000021
输出层是二叉树,以语料中出现过的词当叶子节点,各词在语料中出现的频率做权重值构造的Huffman树,通过不断在树上进行二分类得到对应的词向量。
进一步的,所述步骤5中,采用信息增益法
Figure BDA0002534041520000031
其中,n表示分类总数,
Figure BDA0002534041520000032
表示特征值t没有出现,P(ci)表示属于类别ci的文本在总文本中所占的比例,P(t)表示含有特征项t的文本在总文本中所占比重,P(tci)表示总文本中属于类别ci且含有特征项t的文本所占比重,
Figure BDA0002534041520000033
为总文本中属于类别ci但不含有特征项t的文本所占比重。
进一步的,所述步骤6中,分类器采用逻辑回归模型
Figure BDA0002534041520000034
其中,特征向量X={x1,x2,…xn,1}∈Rn+1,对应权值向量W={w1,w2…wn,b}∈Rn+1
进一步的,针对样本布局恒的少数类样本,采用SMOTE算法,
Figure BDA0002534041520000035
其中
Figure BDA0002534041520000036
为邻近样本,将邻近样本加入少数类样本集中,达到过采样效果。
本发明的优点和积极效果是:
本发明中,在现有装置的基础上配合预置的计算机程序形成一台舆情分析终端,该舆情分析终端可专门定制,也可采用现有的计算机或其他移动终端进行补充。
本发明中,基于预置的计算机程序对舆情数据进行处理,其中爬虫模块用于对舆情数据进行收集,文本预处理模块用于对字符串进行预处理,情感判定模块用于对文本进行情感分析,形成一套完成的处理***。
本发明中,借助爬虫技术获取网络文本数据,并对于相应页面进行解析;在数据清洗过程中,可剔除无实义字符,以及忽略回帖、话题引用、标题、URL引用、时间等信息;通过中文分词可对词典匹配方法预处理,后利用统计分词方法实现精准分词;之后进一步进行处理将部分表示程度加深的网络习惯用法剔除;之后再利用CBOW模型提取文本特征,并采用信息增益法进行特征选择;最后采用逻辑回归模型和SMOTE算法得出分类结果用以实现舆情的识别。
附图说明
图1为本发明的舆情分析终端的模块示意图;
图2为本发明舆情文本分析方法的流程图。
具体实施方式
下面结合实施例,对本发明进一步说明,下述实施例是说明性的,不是限定性的,不能以下述实施例来限定本发明的保护范围。
一种基于数据驱动的舆情分析终端,包括终端本体,所述终端本体内安装有存储器和处理器,其特征在于:所述终端内置计算机程序,该计算机程序包括爬虫模块、文本预处理模块和情感判定模块,所述爬虫模块用于对舆情数据进行收集,文本预处理模块用于对字符串进行预处理,情感判定模块用于对文本进行情感分析。
本实施例中,包括如下步骤:
步骤1:设计主题爬虫解析页面主题;
步骤2:对收集的舆情数据进行数据清洗;
步骤3:进行中文分词,包括采用词典匹配方法预处理,后利用统计分词方法实现精准分词;
步骤4:去除停用词并剔除部分表示程度加深的网络习惯用法;
步骤5:对处理后的文本信息生成文本特征向量;
步骤6:应用分类器对文本特征向量进行归集;
步骤7:生成分类结果。
本实施例中,所述步骤1中,包括初始化种子URL,将URL按照分数高低加入待爬取列表,获取URL列表第一个种子,解析页面相关主题。
本实施例中,设定URL长度上限50。
本实施例中,所述步骤2中,数据清洗的内容为针对语料的清洗。包括去除无实义字符如“#”等,并忽略回帖、话题引用、标题、URL引用、时间以及同类信息。该步骤采用人工表汉族并交叉验证标注结构
本实施例中,所述步骤4中,将部分表示程度加深的网络习惯用法剔除,如“~”经常跟在正向情感词之后,整体语境呈现正面性,该词剔除出停用词词库。
本实施例中,所述步骤5中,利用CBOW模型,已知语料T中一段文本,样本(text(w),w),是指text(w)由w前后各c个词构成,输入层包括text(w)中2c个词向量V(text(w)1)、V(text(w)2)...V(text(w)2c)∈Rm,这里m表示词向量长度,默认值100,投影层将输入层2c个词向量做求和累加,即
Figure BDA0002534041520000051
输出层是二叉树,以语料中出现过的词当叶子节点,各词在语料中出现的频率做权重值构造的Huffman树,通过不断在树上进行二分类得到对应的词向量。
本实施例中,所述步骤5中,采用信息增益法
Figure BDA0002534041520000052
其中,n表示分类总数,
Figure BDA0002534041520000053
表示特征值t没有出现,P(ci)表示属于类别ci的文本在总文本中所占的比例,P(t)表示含有特征项t的文本在总文本中所占比重,P(t|ci)表示总文本中属于类别ci且含有特征项t的文本所占比重,
Figure BDA0002534041520000054
为总文本中属于类别ci但不含有特征项t的文本所占比重。
本实施例中,所述步骤6中,分类器采用逻辑回归模型
Figure BDA0002534041520000055
其中,特征向量X={x1,x2,…xn,1}∈Rn+1,对应权值向量W={w1,w2…wn,b}∈Rn+1
本实施例中,针对样本布局恒的少数类样本,采用SMOTE算法,
Figure BDA0002534041520000056
其中
Figure BDA0002534041520000057
为邻近样本,将邻近样本加入少数类样本集中,达到过采样效果。
本发明中,在现有装置的基础上配合预置的计算机程序形成一台舆情分析终端,该舆情分析终端可专门定制,也可采用现有的计算机或其他移动终端进行补充。
本发明中,基于预置的计算机程序对舆情数据进行处理,其中爬虫模块用于对舆情数据进行收集,文本预处理模块用于对字符串进行预处理,情感判定模块用于对文本进行情感分析,形成一套完成的处理***。
本发明中,借助爬虫技术获取网络文本数据,并对于相应页面进行解析;在数据清洗过程中,可剔除无实义字符,以及忽略回帖、话题引用、标题、URL引用、时间等信息;通过中文分词可对词典匹配方法预处理,后利用统计分词方法实现精准分词;之后进一步进行处理将部分表示程度加深的网络习惯用法剔除;之后再利用CBOW模型提取文本特征,并采用信息增益法进行特征选择;最后采用逻辑回归模型和SMOTE算法得出分类结果用以实现舆情的识别。

Claims (8)

1.一种基于数据驱动的舆情分析终端,包括终端本体,所述终端本体内安装有存储器和处理器,其特征在于:所述终端内置计算机程序,该计算机程序包括爬虫模块、文本预处理模块和情感判定模块,所述爬虫模块用于对舆情数据进行收集,文本预处理模块用于对字符串进行预处理,情感判定模块用于对文本进行情感分析。
2.应用如权利要求1所述的基于数据驱动的舆情分析终端的舆情文本分析方法,其特征在于:包括如下步骤:
步骤1:设计主题爬虫解析页面主题;
步骤2:对收集的舆情数据进行数据清洗;
步骤3:进行中文分词,包括采用词典匹配方法预处理,后利用统计分词方法实现精准分词;
步骤4:去除停用词并剔除部分表示程度加深的网络习惯用法;
步骤5:对处理后的文本信息生成文本特征向量;
步骤6:应用分类器对文本特征向量进行归集;
步骤7:生成分类结果。
3.根据权利要求2所述的基于数据驱动的舆情分析终端的舆情文本分析方法,其特征在于:所述步骤1中,包括初始化种子URL,将URL按照分数高低加入待爬取列表,获取URL列表第一个种子,解析页面相关主题。
4.根据权利要求2所述的基于数据驱动的舆情分析终端的舆情文本分析方法,其特征在于:所述步骤2中,包括去除无实义字符,并忽略回帖、话题引用、标题、URL引用、时间以及同类信息。
5.根据权利要求2所述的基于数据驱动的舆情分析终端的舆情文本分析方法,其特征在于:所述步骤5中,利用CBOW模型,已知语料T中一段文本,样本(text(w),w),是指text(w)由w前后各c个词构成,输入层包括text(w)中2c个词向量V(text(w)1)、V(text(w)2)...V(text(w)2c)∈Rm,这里m表示词向量长度,默认值100,投影层将输入层2c个词向量做求和累加,即
Figure FDA0002534041510000021
输出层是二叉树,以语料中出现过的词当叶子节点,各词在语料中出现的频率做权重值构造的Huffman树,通过不断在树上进行二分类得到对应的词向量。
6.根据权利要求5所述的基于数据驱动的舆情分析终端的舆情文本分析方法,其特征在于:所述步骤5中,采用信息增益法
Figure FDA0002534041510000022
其中,n表示分类总数,
Figure FDA0002534041510000023
表示特征值t没有出现,P(ci)表示属于类别ci的文本在总文本中所占的比例,P(t)表示含有特征项t的文本在总文本中所占比重,P(t|ci)表示总文本中属于类别ci且含有特征项t的文本所占比重,
Figure FDA0002534041510000027
为总文本中属于类别ci但不含有特征项t的文本所占比重。
7.根据权利要求2所述的基于数据驱动的舆情分析终端的舆情文本分析方法,其特征在于:所述步骤6中,分类器采用逻辑回归模型
Figure FDA0002534041510000024
其中,特征向量X={x1,x2,…xn,1}∈Rn+1,对应权值向量W={w1,w2…wn,b}∈Rn+1
8.根据权利要求7所述的基于数据驱动的舆情分析终端的舆情文本分析方法,其特征在于:针对样本布局恒的少数类样本,采用SMOTE算法,
Figure FDA0002534041510000025
其中
Figure FDA0002534041510000026
为邻近样本,将邻近样本加入少数类样本集中,达到过采样效果。
CN202010527263.3A 2020-06-11 2020-06-11 一种基于数据驱动的舆情分析终端及舆情文本分析方法 Pending CN111708886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010527263.3A CN111708886A (zh) 2020-06-11 2020-06-11 一种基于数据驱动的舆情分析终端及舆情文本分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010527263.3A CN111708886A (zh) 2020-06-11 2020-06-11 一种基于数据驱动的舆情分析终端及舆情文本分析方法

Publications (1)

Publication Number Publication Date
CN111708886A true CN111708886A (zh) 2020-09-25

Family

ID=72540334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010527263.3A Pending CN111708886A (zh) 2020-06-11 2020-06-11 一种基于数据驱动的舆情分析终端及舆情文本分析方法

Country Status (1)

Country Link
CN (1) CN111708886A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4930077A (en) * 1987-04-06 1990-05-29 Fan David P Information processing expert system for text analysis and predicting public opinion based information available to the public
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN107291693A (zh) * 2017-06-15 2017-10-24 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
WO2019080863A1 (zh) * 2017-10-26 2019-05-02 福建亿榕信息技术有限公司 文本情感分类方法、存储介质及计算机
KR20190093757A (ko) * 2018-01-11 2019-08-12 주식회사 와이즈인컴퍼니 여론 및 설문조사 데이터 분석 및 레포팅 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4930077A (en) * 1987-04-06 1990-05-29 Fan David P Information processing expert system for text analysis and predicting public opinion based information available to the public
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN107291693A (zh) * 2017-06-15 2017-10-24 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
WO2019080863A1 (zh) * 2017-10-26 2019-05-02 福建亿榕信息技术有限公司 文本情感分类方法、存储介质及计算机
KR20190093757A (ko) * 2018-01-11 2019-08-12 주식회사 와이즈인컴퍼니 여론 및 설문조사 데이터 분석 및 레포팅 시스템

Similar Documents

Publication Publication Date Title
CN107609132B (zh) 一种基于语义本体库中文文本情感分析方法
CN111767403B (zh) 一种文本分类方法和装置
CN108090070B (zh) 一种中文实体属性抽取方法
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
Soliman et al. Sentiment analysis of Arabic slang comments on facebook
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN102270212A (zh) 一种基于隐半马尔可夫模型的用户兴趣特征提取方法
CN110134788B (zh) 一种基于文本挖掘的微博发布优化方法及***
Rashid et al. Feature level opinion mining of educational student feedback data using sequential pattern mining and association rule mining
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN109446299B (zh) 基于事件识别的搜索电子邮件内容的方法及***
CN112115712B (zh) 基于话题的群体情感分析方法
CN108363748B (zh) 基于知乎的话题画像***及话题画像方法
Filho et al. Gender classification of twitter data based on textual meta-attributes extraction
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN107451116B (zh) 一种移动应用内生大数据统计分析方法
CN110728144A (zh) 一种基于上下文语义感知的抽取式文档自动摘要方法
CN113157860A (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
TW202111569A (zh) 高擴展性、多標籤的文本分類方法和裝置
CN112632272B (zh) 基于句法分析的微博情感分类方法和***
CN111680505B (zh) 一种Markdown特征感知的无监督关键词提取方法
CN108829806A (zh) 一种跨事件新闻文本情感分析方法
Song et al. Extracting product features from online reviews for sentimental analysis
CN111191413B (zh) 一种基于图排序模型的事件核心内容自动标记方法、装置及***
CN111708886A (zh) 一种基于数据驱动的舆情分析终端及舆情文本分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination