CN111708886A - 一种基于数据驱动的舆情分析终端及舆情文本分析方法 - Google Patents
一种基于数据驱动的舆情分析终端及舆情文本分析方法 Download PDFInfo
- Publication number
- CN111708886A CN111708886A CN202010527263.3A CN202010527263A CN111708886A CN 111708886 A CN111708886 A CN 111708886A CN 202010527263 A CN202010527263 A CN 202010527263A CN 111708886 A CN111708886 A CN 111708886A
- Authority
- CN
- China
- Prior art keywords
- text
- public opinion
- analysis
- data
- terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 53
- 230000008451 emotion Effects 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 19
- 230000011218 segmentation Effects 0.000 claims abstract description 18
- 238000004590 computer program Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 24
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000007477 logistic regression Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008092 positive effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据库技术领域,涉及舆情分析技术领域,尤其是一种基于数据驱动的舆情分析终端及舆情文本分析方法,包括终端本体,所述终端本体内安装有存储器和处理器,其特征在于:所述终端内置计算机程序,该计算机程序包括爬虫模块、文本预处理模块和情感判定模块,所述爬虫模块用于对舆情数据进行收集,文本预处理模块用于对字符串进行预处理,情感判定模块用于对文本进行情感分析。基于上述分析终端配套设计一种可将网络文本数据通过中文分词、去停用词、不平衡语料处理、特征选择等算法配合进行处理,并最终实现舆情识别的舆情分析终端和舆情文本分析方法。
Description
技术领域
本发明属于数据库技术领域,涉及舆情分析技术领域,尤其是一种基于数据驱动的舆情分析终端及舆情文本分析方法。
背景技术
随着网络技术的发展以及网络应用的普及,使得舆情传播速度远高于以往的任何时期,当某些群体时间发生时,负面舆情的迅猛传播会在极短的时间内促进了***件膨胀式爆发。
因此,针对舆情信息早发现、早研判、早防范成为公共服务部门正确导向舆情的重要先决条件。利用计算机帮助电网企业快速、完全地获取和整理舆情文本信息是电网企业抢占舆情管控时机,维护企业形象,提升服务水平的基本要求。
在舆情的传播过程中,正面舆情可促进事件真实信息进行传播,而负面舆情则会对其造成反相应,破坏舆论环境的稳定,引发舆情危机。因此,如何在舆情信息中,尤其是文本信息中对舆情的情感进行有效的分析是极为重要的内容。因此,需对于舆情的文本信息进行情感分析。
情感分析又称为意见挖掘,是对于带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。目前文本进行情感分析的方法一般有两种,一种是基于语义理解,另一种是基于机器学习。其中对于第一种方法,在一些表达方式复杂,文本信息不规则的文本处理上存在很大的局限性,而对于第二种方法,则受限于特征的选取以及语料规模的大小,不适于实时的大量文本的处理内容。
因此,应设计一种可将网络文本数据通过中文分词、去停用词、不平衡语料处理、特征选择等算法配合进行处理,并最终实现舆情识别的舆情分析终端和舆情文本分析方法。
发明内容
本发明的目的在于弥补现有技术的不足,提供一种通过中文分词、去停用词、不平衡语料处理、特征选择等算法配合,并最终实现舆情识别的舆情分析终端和舆情文本分析方法
本发明采取的技术方案是:
一种基于数据驱动的舆情分析终端,包括终端本体,所述终端本体内安装有存储器和处理器,其特征在于:所述终端内置计算机程序,该计算机程序包括爬虫模块、文本预处理模块和情感判定模块,所述爬虫模块用于对舆情数据进行收集,文本预处理模块用于对字符串进行预处理,情感判定模块用于对文本进行情感分析。
进一步的,包括如下步骤:
步骤1:设计主题爬虫解析页面主题;
步骤2:对收集的舆情数据进行数据清洗;
步骤3:进行中文分词,包括采用词典匹配方法预处理,后利用统计分词方法实现精准分词;
步骤4:去除停用词并剔除部分表示程度加深的网络习惯用法;
步骤5:对处理后的文本信息生成文本特征向量;
步骤6:应用分类器对文本特征向量进行归集;
步骤7:生成分类结果。
进一步的,所述步骤1中,包括初始化种子URL,将URL按照分数高低加入待爬取列表,获取URL列表第一个种子,解析页面相关主题。
进一步的,所述步骤2中,包括去除无实义字符,并忽略回帖、话题引用、标题、URL引用、时间以及同类信息。
进一步的,所述步骤5中,利用CBOW模型,已知语料T中一段文本,样本(text(w),w),是指text(w)由w前后各c个词构成,输入层包括text(w)中2c个词向量V(text(w)1)、V(text(w)2)...V(text(w)2c)∈Rm,这里m表示词向量长度,默认值100,投影层将输入层2c个词向量做求和累加,即输出层是二叉树,以语料中出现过的词当叶子节点,各词在语料中出现的频率做权重值构造的Huffman树,通过不断在树上进行二分类得到对应的词向量。
进一步的,所述步骤5中,采用信息增益法
其中,n表示分类总数,表示特征值t没有出现,P(ci)表示属于类别ci的文本在总文本中所占的比例,P(t)表示含有特征项t的文本在总文本中所占比重,P(tci)表示总文本中属于类别ci且含有特征项t的文本所占比重,为总文本中属于类别ci但不含有特征项t的文本所占比重。
进一步的,所述步骤6中,分类器采用逻辑回归模型
其中,特征向量X={x1,x2,…xn,1}∈Rn+1,对应权值向量W={w1,w2…wn,b}∈Rn+1。
本发明的优点和积极效果是:
本发明中,在现有装置的基础上配合预置的计算机程序形成一台舆情分析终端,该舆情分析终端可专门定制,也可采用现有的计算机或其他移动终端进行补充。
本发明中,基于预置的计算机程序对舆情数据进行处理,其中爬虫模块用于对舆情数据进行收集,文本预处理模块用于对字符串进行预处理,情感判定模块用于对文本进行情感分析,形成一套完成的处理***。
本发明中,借助爬虫技术获取网络文本数据,并对于相应页面进行解析;在数据清洗过程中,可剔除无实义字符,以及忽略回帖、话题引用、标题、URL引用、时间等信息;通过中文分词可对词典匹配方法预处理,后利用统计分词方法实现精准分词;之后进一步进行处理将部分表示程度加深的网络习惯用法剔除;之后再利用CBOW模型提取文本特征,并采用信息增益法进行特征选择;最后采用逻辑回归模型和SMOTE算法得出分类结果用以实现舆情的识别。
附图说明
图1为本发明的舆情分析终端的模块示意图;
图2为本发明舆情文本分析方法的流程图。
具体实施方式
下面结合实施例,对本发明进一步说明,下述实施例是说明性的,不是限定性的,不能以下述实施例来限定本发明的保护范围。
一种基于数据驱动的舆情分析终端,包括终端本体,所述终端本体内安装有存储器和处理器,其特征在于:所述终端内置计算机程序,该计算机程序包括爬虫模块、文本预处理模块和情感判定模块,所述爬虫模块用于对舆情数据进行收集,文本预处理模块用于对字符串进行预处理,情感判定模块用于对文本进行情感分析。
本实施例中,包括如下步骤:
步骤1:设计主题爬虫解析页面主题;
步骤2:对收集的舆情数据进行数据清洗;
步骤3:进行中文分词,包括采用词典匹配方法预处理,后利用统计分词方法实现精准分词;
步骤4:去除停用词并剔除部分表示程度加深的网络习惯用法;
步骤5:对处理后的文本信息生成文本特征向量;
步骤6:应用分类器对文本特征向量进行归集;
步骤7:生成分类结果。
本实施例中,所述步骤1中,包括初始化种子URL,将URL按照分数高低加入待爬取列表,获取URL列表第一个种子,解析页面相关主题。
本实施例中,设定URL长度上限50。
本实施例中,所述步骤2中,数据清洗的内容为针对语料的清洗。包括去除无实义字符如“#”等,并忽略回帖、话题引用、标题、URL引用、时间以及同类信息。该步骤采用人工表汉族并交叉验证标注结构
本实施例中,所述步骤4中,将部分表示程度加深的网络习惯用法剔除,如“~”经常跟在正向情感词之后,整体语境呈现正面性,该词剔除出停用词词库。
本实施例中,所述步骤5中,利用CBOW模型,已知语料T中一段文本,样本(text(w),w),是指text(w)由w前后各c个词构成,输入层包括text(w)中2c个词向量V(text(w)1)、V(text(w)2)...V(text(w)2c)∈Rm,这里m表示词向量长度,默认值100,投影层将输入层2c个词向量做求和累加,即输出层是二叉树,以语料中出现过的词当叶子节点,各词在语料中出现的频率做权重值构造的Huffman树,通过不断在树上进行二分类得到对应的词向量。
本实施例中,所述步骤5中,采用信息增益法
其中,n表示分类总数,表示特征值t没有出现,P(ci)表示属于类别ci的文本在总文本中所占的比例,P(t)表示含有特征项t的文本在总文本中所占比重,P(t|ci)表示总文本中属于类别ci且含有特征项t的文本所占比重,为总文本中属于类别ci但不含有特征项t的文本所占比重。
本实施例中,所述步骤6中,分类器采用逻辑回归模型
其中,特征向量X={x1,x2,…xn,1}∈Rn+1,对应权值向量W={w1,w2…wn,b}∈Rn+1。
本发明中,在现有装置的基础上配合预置的计算机程序形成一台舆情分析终端,该舆情分析终端可专门定制,也可采用现有的计算机或其他移动终端进行补充。
本发明中,基于预置的计算机程序对舆情数据进行处理,其中爬虫模块用于对舆情数据进行收集,文本预处理模块用于对字符串进行预处理,情感判定模块用于对文本进行情感分析,形成一套完成的处理***。
本发明中,借助爬虫技术获取网络文本数据,并对于相应页面进行解析;在数据清洗过程中,可剔除无实义字符,以及忽略回帖、话题引用、标题、URL引用、时间等信息;通过中文分词可对词典匹配方法预处理,后利用统计分词方法实现精准分词;之后进一步进行处理将部分表示程度加深的网络习惯用法剔除;之后再利用CBOW模型提取文本特征,并采用信息增益法进行特征选择;最后采用逻辑回归模型和SMOTE算法得出分类结果用以实现舆情的识别。
Claims (8)
1.一种基于数据驱动的舆情分析终端,包括终端本体,所述终端本体内安装有存储器和处理器,其特征在于:所述终端内置计算机程序,该计算机程序包括爬虫模块、文本预处理模块和情感判定模块,所述爬虫模块用于对舆情数据进行收集,文本预处理模块用于对字符串进行预处理,情感判定模块用于对文本进行情感分析。
2.应用如权利要求1所述的基于数据驱动的舆情分析终端的舆情文本分析方法,其特征在于:包括如下步骤:
步骤1:设计主题爬虫解析页面主题;
步骤2:对收集的舆情数据进行数据清洗;
步骤3:进行中文分词,包括采用词典匹配方法预处理,后利用统计分词方法实现精准分词;
步骤4:去除停用词并剔除部分表示程度加深的网络习惯用法;
步骤5:对处理后的文本信息生成文本特征向量;
步骤6:应用分类器对文本特征向量进行归集;
步骤7:生成分类结果。
3.根据权利要求2所述的基于数据驱动的舆情分析终端的舆情文本分析方法,其特征在于:所述步骤1中,包括初始化种子URL,将URL按照分数高低加入待爬取列表,获取URL列表第一个种子,解析页面相关主题。
4.根据权利要求2所述的基于数据驱动的舆情分析终端的舆情文本分析方法,其特征在于:所述步骤2中,包括去除无实义字符,并忽略回帖、话题引用、标题、URL引用、时间以及同类信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010527263.3A CN111708886A (zh) | 2020-06-11 | 2020-06-11 | 一种基于数据驱动的舆情分析终端及舆情文本分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010527263.3A CN111708886A (zh) | 2020-06-11 | 2020-06-11 | 一种基于数据驱动的舆情分析终端及舆情文本分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111708886A true CN111708886A (zh) | 2020-09-25 |
Family
ID=72540334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010527263.3A Pending CN111708886A (zh) | 2020-06-11 | 2020-06-11 | 一种基于数据驱动的舆情分析终端及舆情文本分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111708886A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4930077A (en) * | 1987-04-06 | 1990-05-29 | Fan David P | Information processing expert system for text analysis and predicting public opinion based information available to the public |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN107291693A (zh) * | 2017-06-15 | 2017-10-24 | 广州赫炎大数据科技有限公司 | 一种改进词向量模型的语义计算方法 |
WO2019080863A1 (zh) * | 2017-10-26 | 2019-05-02 | 福建亿榕信息技术有限公司 | 文本情感分类方法、存储介质及计算机 |
KR20190093757A (ko) * | 2018-01-11 | 2019-08-12 | 주식회사 와이즈인컴퍼니 | 여론 및 설문조사 데이터 분석 및 레포팅 시스템 |
-
2020
- 2020-06-11 CN CN202010527263.3A patent/CN111708886A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4930077A (en) * | 1987-04-06 | 1990-05-29 | Fan David P | Information processing expert system for text analysis and predicting public opinion based information available to the public |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN107291693A (zh) * | 2017-06-15 | 2017-10-24 | 广州赫炎大数据科技有限公司 | 一种改进词向量模型的语义计算方法 |
WO2019080863A1 (zh) * | 2017-10-26 | 2019-05-02 | 福建亿榕信息技术有限公司 | 文本情感分类方法、存储介质及计算机 |
KR20190093757A (ko) * | 2018-01-11 | 2019-08-12 | 주식회사 와이즈인컴퍼니 | 여론 및 설문조사 데이터 분석 및 레포팅 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609132B (zh) | 一种基于语义本体库中文文本情感分析方法 | |
CN111767403B (zh) | 一种文本分类方法和装置 | |
CN108090070B (zh) | 一种中文实体属性抽取方法 | |
CN106886580B (zh) | 一种基于深度学习的图片情感极性分析方法 | |
Soliman et al. | Sentiment analysis of Arabic slang comments on facebook | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN102270212A (zh) | 一种基于隐半马尔可夫模型的用户兴趣特征提取方法 | |
CN110134788B (zh) | 一种基于文本挖掘的微博发布优化方法及*** | |
Rashid et al. | Feature level opinion mining of educational student feedback data using sequential pattern mining and association rule mining | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN109446299B (zh) | 基于事件识别的搜索电子邮件内容的方法及*** | |
CN112115712B (zh) | 基于话题的群体情感分析方法 | |
CN108363748B (zh) | 基于知乎的话题画像***及话题画像方法 | |
Filho et al. | Gender classification of twitter data based on textual meta-attributes extraction | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN107451116B (zh) | 一种移动应用内生大数据统计分析方法 | |
CN110728144A (zh) | 一种基于上下文语义感知的抽取式文档自动摘要方法 | |
CN113157860A (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
TW202111569A (zh) | 高擴展性、多標籤的文本分類方法和裝置 | |
CN112632272B (zh) | 基于句法分析的微博情感分类方法和*** | |
CN111680505B (zh) | 一种Markdown特征感知的无监督关键词提取方法 | |
CN108829806A (zh) | 一种跨事件新闻文本情感分析方法 | |
Song et al. | Extracting product features from online reviews for sentimental analysis | |
CN111191413B (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及*** | |
CN111708886A (zh) | 一种基于数据驱动的舆情分析终端及舆情文本分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |