CN112632272B - 基于句法分析的微博情感分类方法和*** - Google Patents

基于句法分析的微博情感分类方法和*** Download PDF

Info

Publication number
CN112632272B
CN112632272B CN202011127304.6A CN202011127304A CN112632272B CN 112632272 B CN112632272 B CN 112632272B CN 202011127304 A CN202011127304 A CN 202011127304A CN 112632272 B CN112632272 B CN 112632272B
Authority
CN
China
Prior art keywords
microblog
feature
text
emotion
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011127304.6A
Other languages
English (en)
Other versions
CN112632272A (zh
Inventor
季白杨
郑晓辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202011127304.6A priority Critical patent/CN112632272B/zh
Publication of CN112632272A publication Critical patent/CN112632272A/zh
Application granted granted Critical
Publication of CN112632272B publication Critical patent/CN112632272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

一种基于句法分析的微博情感分类方法,包括:S1:获取用于情感分析的微博短文本,根据情感极性进行文本类别标注并划分为训练集和测试集;S2:分别对训练集和测试集进行数据预处理;S3:对预处理后的每个样本进行依存句法分析,结合外部情感特征词典构建特征词库;S4:根据预先构建的情感特征词库,分别对训练集和测试集的初始特征集合进行特征扩展,使用TFIDF计算每个特征词的特征权值并向量化表示文本;S5:根据所述扩展后的训练样本集训练贝叶斯分类器,根据所述贝叶斯分类模型对扩展后的测试样本进行分类操作,得到微博情感分类结果。本发明还包括基于句法分析的微博情感分类***。

Description

基于句法分析的微博情感分类方法和***
技术领域
本发明涉及中文短文本分类技术领域,尤其是涉及一种基于句法分析的微博情感分类方法和***。
背景技术
作为当代最热门的社交软件之一,微博从发展至今拥有了上亿的用户群,由于微博信息发布速度快、传播范围广,成为了最受民众欢迎社交网络平台。在微博上,每一个人都可以畅所欲言,发表一些生活动态以及对时事新闻、娱乐八卦的看法,同时也可以快速获取我们想要了解的信息。微博传播的高效性、实时性在为我们带来了便利的同时,也会给社会带来一些消极负面的影响。
微博短文本的情感分析,重点在于通过文本中包含的立场、观点、态度等主观信息对微博正负情感倾向性进行判断,实质上是一种中文短文本的分类问题。微博由于文本字数的限制(最多不超过140字),导致文本信息内容简短、情感特征稀疏,使得难以对其进行高效的分类。目前,微博情感分析的分类方法主要有两类:一类是基于外部语料库的方法,通过引入外部语料库对微博情感特征进行语义特征扩展,虽然能提高分类效果,但是很大程度上依赖于语料库的质量;另一类是基于深度学习的分类方法,使用深度学习模型进行情感分类,分类模型的好坏取决于微博情感特征的提取。
因此,对微博短文本的情感分析问题进行研究,提供一种高效快速的微博情感分类方法和***,具有重要的研究意义和实用价值,有助于网络监管、舆情发现、杜绝网络暴力、维护一个清明纯净的网络空间。
发明内容
本发明的目的在于克服现有技术中所存在的上述缺点和不足,提供一种基于句法分析的微博情感分类方法和***。本发明有效利用句法依存关系对微博短文本进行情感特征提取,再借助于外部的情感词库进行特征扩展后,有效解决了微博短文本情感特征稀疏导致分类效果不佳的缺陷。
为了实现上述发明目的,本发明提供了以下技术方案:
本发明提供了一种基于句法分析的微博情感分类方法,该方法包含以下实现步骤:
S1:获取用于情感分析的微博短文本,根据情感极性进行文本类别标注并划分为训练集和测试集;
S2:分别对训练集和测试集进行数据预处理,包括中文分词、去停用词等;
S3:对预处理后的每个样本进行依存句法分析,得到依存句法树;根据所述依存句法树采用基于句法路径的匹配算法进行微博情感特征选择,提取出具有明显情感倾向性的词汇作为初始特征集合,并结合外部情感特征词典构建特征词库;
S4:根据预先构建的情感特征词库,分别对训练集和测试集的初始特征集合进行特征扩展,使用TFIDF计算每个特征词的特征权值并向量化表示文本;
S5:根据所述扩展后的训练样本集训练贝叶斯分类器,得到贝叶斯分类模型;根据所述贝叶斯分类模型对扩展后的测试样本进行分类操作,得到微博情感分类结果。
进一步地,所述步骤S1具体包含:
S11:在新浪微博等社交平台上,通过爬虫软件爬取一定数量且包含不同情感类别的微博短文本数据;
S12:将获取的文本数据进行数据清洗:删除空文本等无效样本数据,并通过正则表达式剔除微博短文本中包含的表情、链接、图片等噪声数据,为保证样本的多样性,处理后的样本数量不少于10000条;
S13:根据微博文本内容,对每个微博样本的情感正负倾向性进行类别标注,微博情感主要划分为积极、中性以及消极三种情感类别;举例说明具体的微博情感类别,例如:“今年中秋国庆凑一块了,连休八天,真好!终于不用上班可以出去玩了!”该微博包含了开心快乐的情感,应划分为积极情感一类。
S14:将微博短文本数据按3:1划分为训练集和测试集,训练集用于训练分类模型,测试集用于验证分类模型的有效性。
进一步地,所述步骤S2具体包含:
S21:利用中文分词工具如jieba、PkuSeg、HanLP等,分别对训练集和测试集进行中文分词处理,并标注词性;
S22:根据预先建立的停用词表,剔除文本数据中出现的停用词,即一些无实际意义的字词(如“的”、“和”、“由于”等高频词)、标点以及特殊符号。
进一步地,所述步骤S3具体包含:
S31:训练集数据以句子为单位,利用句法分析工具(如Stanford句法分析) 进行句法依存分析,得到文本的句法依存结构即依存关系,以及依存句法树;
S32:根据句法依存关系采用基于句法路径的匹配算法进行微博情感特征选择,提取出具有明显情感倾向性的词汇作为初始特征集合;
S33:结合外部情感特征词典,如知网情感词典、大连理工大学情感词汇本体库等,利用初始特征集合构建情感特征词库,用于扩展微博短文本的情感特征;
进一步地,所述步骤S4具体包含:
S41:根据所述预先构建的情感特征词库,分别对训练集和测试集的初始特征集合进行特征扩展;
S42:使用TFIDF对扩展后的训练集和测试集计算每个特征词的特征权值,TFIDF的具体计算公式为:
Figure RE-GDA0002953333800000031
其中nij表示某一类别dj中字词wi出现的次数,而
Figure RE-GDA0002953333800000032
表示在该类dj中所有字词出现的次数之和,|D|表示语料库中的类目总数,|{j:wj∈dj}|表示包含字词wi的类目数。
S43:根据所述特征权值即ITIDF值,将训练集和测试集文本以向量化形式进行文本表示。
进一步地,所述步骤S5具体包含:
S51:通过扩展后的训练样本集训练贝叶斯分类器,得到贝叶斯分类模型;
S52:根据所述分类模型对扩展后的测试样本进行分类操作,得到微博情感分类结果。
此外,本发明还提供了一种基于句法分析的微博情感分类***,所述***包括:
数据获取模块,用于在新浪微博等社交平台上利用爬虫软件获取微博文本数据,根据微博内容进行情感标注并划分为训练集和测试集;
数据预处理模块:用于对微博文本数据进行预处理,包括文本清洗、中文分词以及去停用词等;
特征提取模块:用于分别对训练集和测试集进行特征提取,主要包括:
句法依存分析子模块:用于利用句法分析工具分别对训练集和测试集进行句法依存分析,获取依存句法树;
特征选择子模块:根据依存句法树,采用基于句法路径的匹配算法进行情感特征提取,选择具有明显情感倾向性的词汇作为初始情感特征集合;
特征词库构建子模块:结合外部情感特征词典,以及所述初始情感特征集合构建情感特征词库,用于扩展短文本的情感特征;
特征扩展模块:用于根据所述特征词库对文本进行特征扩展,使用IFTIDF 计算特征权值并向量化表示文本;
情感分类模块:用于通过扩展后的训练集训练分类器,得到贝叶斯分类模型,再对扩展后的测试集进行分类操作得到微博情感分类结果。
优选地,数据获取模块具体包括:
微博短文本数据爬取子模块:在新浪微博等社交平台上,通过爬虫软件爬取一定数量且包含不同情感类别的微博短文本数据。
文本数据清晰子模块:将获取的文本数据进行数据清洗:删除空文本等无效样本数据,并通过正则表达式剔除微博短文本中包含的表情、链接、图片等噪声数据,为保证样本的多样性,处理后的样本数量不少于10000条。
微博样本的情感正负倾向性类别标注子模块:根据微博文本内容,对每个微博样本的情感正负倾向性进行类别标注,微博情感主要划分为积极、中性以及消极三种情感类别。举例说明具体的微博情感类别,例如:“今年中秋国庆凑一块了,连休八天,真好!终于不用上班可以出去玩了!”该微博包含了开心快乐的情感,应划分为积极情感一类。
训练集和测试集划分子模块:将微博短文本数据按3:1划分为训练集和测试集,训练集用于训练分类模型,测试集用于验证分类模型的有效性。
优选地,数据预处理模块具体包含:
中文分词处理子模块:通过jieba分词工具分别对训练集和测试集进行中文分词处理,并标注词性;
停用词剔除子模块:根据预先建立的停用词表,剔除文本数据中出现的停用词,即一些无实际意义的字词、标点以及特殊符号。
优选地,句法依存分析子模块具体包括:
训练集数据以句子为单位,利用Stanford句法分析工具进行句法依存分析,得到文本的句法依存结构(即依存关系),以及依存句法树。
依存句法通过词汇之间的依存关系表达整个句子结构,这些依存关系表达了句子各成分之间的语义依赖关系。所有词汇之间的依存关系构成一颗句法树,树的根节点为句子核心谓词,用来表达整个句子的核心内容。依存句法分析树标注集及其含义如下表1:
Figure RE-GDA0002953333800000041
Figure RE-GDA0002953333800000051
表1依存句法分析树标注集及其含义
优选地,特征扩展模块具体包括:
特征扩展子模块:根据所述预先构建的情感特征词库,分别对训练集和测试集的初始特征集合进行特征扩展;
特征权值计算子模块:使用TFIDF对扩展后的训练集和测试集计算每个特征词的特征权值,TFIDF的具体计算公式为:
Figure RE-GDA0002953333800000052
其中nij表示某一类别dj中字词wi出现的次数,而
Figure RE-GDA0002953333800000053
表示在该类dj中所有字词出现的次数之和,|D|表示语料库中的类目总数,|{j:wj∈dj}|表示包含字词wi的类目数;
文本表示子模块:根据所述特征权值即ITIDF值,将训练集和测试集文本以向量化形式进行文本表示:文本d可以表示为若干个情感特征及其权值的集合 d=(w1,w2,…,wn),wi为情感特征词w的特征权值。
优选地,情感分类模块具体包括:
朴素贝叶斯分类器训练子模块:通过扩展后的训练样本集训练朴素贝叶斯分类器,得到微博情感分类模型;
测试样本分类子模块:根据所述分类模型对扩展后的测试样本进行分类操作,得到微博情感分类结果。
本发明与现有技术相比,具有如下优点和效益:
传统仅依靠特征词库进行特征选择的方法,忽略了文本之间的句法关系,分类效果不佳。上述微博情感分类方法,通过基于句法分析的情感特征提取方法,有效利用句子的句法依存关系提取微博短文本的情感特征,再结合外部情感词典构建特征词库用于扩展文本特征,有效解决了短文本特征稀疏带来的分类效果不好的问题;本方法与现有技术相比,分类效果更好、分类准确率更高。
附图说明
图1为本发明实施例的一种基于句法分析的微博情感分类方法的实现过程示意图。
图2为本发明实施例的一种基于句法分析的微博情感分类***的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细说明。
本发明提供一种基于句法分析的微博情感分类方法和***,该方法有效利用句法依存关系对微博短文本进行情感特征提取,再借助情感词库进行特征扩展后,有效解决了微博短文本特征稀疏导致情感分类效果不佳的缺陷。
为了实现上述发明目的,本发明提供了如图1所示的以下技术方案:
本发明提供了一种基于句法分析的微博情感分类方法,该方法包含以下实现步骤:
S1:获取用于情感分析的微博短文本,根据情感极性进行文本类别标注并划分为训练集和测试集;
S2:分别对训练集和测试集进行数据预处理,包括中文分词、去停用词等;
S3:对预处理后的每个样本进行依存句法分析,得到依存句法树;根据所述依存句法树采用基于句法路径的匹配算法进行微博情感特征选择,提取出具有明显情感倾向性的词汇作为初始特征集合,并结合外部情感特征词典构建特征词库;
S4:根据所述预先构建的情感特征词库,分别对训练集和测试集的初始特征集合进行特征扩展,使用TFIDF计算每个特征词的特征权值并向量化表示文本;
S5:通过扩展后的训练样本集训练贝叶斯分类器,得到贝叶斯分类模型;根据所述贝叶斯分类模型对扩展后的测试样本进行分类操作,得到微博情感分类结果。
进一步地,所述步骤S1具体包含:
S11:在新浪微博等社交平台上,通过爬虫软件爬取一定数量且包含不同情感类别的微博短文本数据。
S12:将获取的文本数据进行数据清洗:删除空文本等无效样本数据,并通过正则表达式剔除微博短文本中包含的表情、链接、图片等噪声数据,为保证样本的多样性,处理后的样本数量不少于10000条。
S13:根据微博文本内容,对每个微博样本的情感正负倾向性进行类别标注,微博情感主要划分为积极、中性以及消极三种情感类别。举例说明具体的微博情感类别,例如:“今年中秋国庆凑一块了,连休八天,真好!终于不用上班可以出去玩了!”该微博包含了开心快乐的情感,应划分为积极情感一类。
S14:将微博短文本数据按3:1划分为训练集和测试集,训练集用于训练分类模型,测试集用于验证分类模型的有效性。
进一步地,所述步骤S2具体包含:
S21:通过jieba分词工具分别对训练集和测试集进行中文分词处理,并标注词性。例如,对文本“知乎的内容质量很好”进行分词后,得到“(知乎,n)、(的,aux.v)、(内容,n)、(质量,n)、(很好,adv)”,其中n、aux.v、adv分别表示名词、助动词和副词。
S22:根据预先建立的停用词表,剔除文本数据中出现的停用词,即一些无实际意义的字词(如“的”、“和”、“由于”等高频词)、标点以及特殊符号。
进一步地,所述步骤S3具体包含:
S31:训练集数据以句子为单位,利用Stanford句法分析工具进行句法依存分析,得到文本的句法依存结构(即依存关系),以及依存句法树。
依存句法通过词汇之间的依存关系表达整个句子结构,这些依存关系表达了句子各成分之间的语义依赖关系。所有词汇之间的依存关系构成一颗句法树,树的根节点为句子核心谓词,用来表达整个句子的核心内容。依存句法分析树标注集及其含义如下表1:
Figure RE-GDA0002953333800000071
表1依存句法分析树标注集及其含义
S32:根据依存句法结构,采用基于句法路径的匹配算法进行微博情感特征选择,提取出具有明显情感倾向性的词汇作为初始特征集合。句法路径是指在句法树上链接任意两个节点之间的句法结构。通过句法路径提取文本情感特征时,根据预先统计好的句法路径表进行匹配,获取文本的依存句法结构,再选择具有明显正负情感倾向性的词汇作为情感特征。
S33:结合外部情感特征词典,例如知网情感词典、大连理工大学情感词汇本体库等,利用初始特征集合构建情感特征词库,用于扩展微博短文本的情感特征。
进一步地,所述步骤S4具体包含:
S41:根据所述预先构建的情感特征词库,分别对训练集和测试集的初始特征集合进行特征扩展。
S42:使用TFIDF对扩展后的训练集和测试集计算每个特征词的特征权值, TFIDF的具体计算公式为:
Figure RE-GDA0002953333800000081
其中nij表示某一类别dj中字词wi出现的次数,而
Figure RE-GDA0002953333800000082
表示在该类dj中所有字词出现的次数之和,|D|表示语料库中的类目总数,|{j:wj∈dj}|表示包含字词wi的类目数。
S43:根据所述特征权值即ITIDF值,将训练集和测试集文本以向量化形式进行文本表示:文本d可以表示为若干个情感特征及其权值的集合 d=(w1,w2,…,wn),wi为情感特征词w的特征权值。
进一步地,所述步骤S5具体包含:
S51:通过扩展后的训练样本集训练朴素贝叶斯分类器,得到微博情感分类模型。
S52:根据所述分类模型对扩展后的测试样本进行分类操作,得到微博情感分类结果。
此外,本发明还提供了一种基于句法分析的微博情感分类***,如图2所示,所述***包括:
数据获取模块,用于在新浪微博等社交平台上利用爬虫软件获取微博文本数据,根据微博内容进行情感标注并划分为训练集和测试集;具体包括:
微博短文本数据爬取子模块:在新浪微博等社交平台上,通过爬虫软件爬取一定数量且包含不同情感类别的微博短文本数据。
文本数据清晰子模块:将获取的文本数据进行数据清洗:删除空文本等无效样本数据,并通过正则表达式剔除微博短文本中包含的表情、链接、图片等噪声数据,为保证样本的多样性,处理后的样本数量不少于10000条。
微博样本的情感正负倾向性类别标注子模块:根据微博文本内容,对每个微博样本的情感正负倾向性进行类别标注,微博情感主要划分为积极、中性以及消极三种情感类别。举例说明具体的微博情感类别,例如:“今年中秋国庆凑一块了,连休八天,真好!终于不用上班可以出去玩了!”该微博包含了开心快乐的情感,应划分为积极情感一类。
训练集和测试集划分子模块:将微博短文本数据按3:1划分为训练集和测试集,训练集用于训练分类模型,测试集用于验证分类模型的有效性。
数据预处理模块:用于对微博文本数据进行预处理,包括文本清洗、中文分词以及去停用词等;具体包含:
中文分词处理子模块:通过jieba分词工具分别对训练集和测试集进行中文分词处理,并标注词性。例如,对文本“知乎的内容质量很好”进行分词后,得到“(知乎,n)、(的,aux.v)、(内容,n)、(质量,n)、(很好,adv)”,其中n、 aux.v、adv分别表示名词、助动词和副词。
停用词剔除子模块:根据预先建立的停用词表,剔除文本数据中出现的停用词,即一些无实际意义的字词(如“的”、“和”、“由于”等高频词)、标点以及特殊符号。
特征选择模块:用于分别对训练集和测试集进行特征提取,包括:
句法依存分析子模块:用于利用句法分析工具分别对训练集和测试集进行句法依存分析,获取依存句法树;具体包括:
训练集数据以句子为单位,利用Stanford句法分析工具进行句法依存分析,得到文本的句法依存结构(即依存关系),以及依存句法树。
依存句法通过词汇之间的依存关系表达整个句子结构,这些依存关系表达了句子各成分之间的语义依赖关系。所有词汇之间的依存关系构成一颗句法树,树的根节点为句子核心谓词,用来表达整个句子的核心内容。
依存句法分析树标注集及其含义如下表1:
Figure RE-GDA0002953333800000091
Figure RE-GDA0002953333800000101
表1依存句法分析树标注集及其含义
特征提取子模块:根据依存句法树,采用基于句法路径的匹配算法进行情感特征提取,选择具有明显情感倾向性的词汇作为初始情感特征集合;
句法路径是指在句法树上链接任意两个节点之间的句法结构。通过句法路径提取文本情感特征时,根据预先统计好的句法路径表进行匹配,获取文本的依存句法结构,再选择具有明显正负情感倾向性的词汇作为情感特征。
特征词库构建子模块:结合外部情感特征词典,以及所述初始情感特征集合构建情感特征词库,用于扩展短文本的情感特征;
结合外部情感特征词典,例如知网情感词典、大连理工大学情感词汇本体库等,利用初始特征集合构建情感特征词库,用于扩展微博短文本的情感特征。
特征扩展模块:用于根据所述特征词库对文本进行特征扩展,使用IFTIDF 计算特征权值并向量化表示文本;具体包括:
特征扩展子模块:根据所述预先构建的情感特征词库,分别对训练集和测试集的初始特征集合进行特征扩展。
特征权值计算子模块:使用TFIDF对扩展后的训练集和测试集计算每个特征词的特征权值,TFIDF的具体计算公式为:
Figure RE-GDA0002953333800000102
其中nij表示某一类别dj中字词wi出现的次数,而
Figure RE-GDA0002953333800000103
表示在该类dj中所有字词出现的次数之和,|D|表示语料库中的类目总数,|{j:wj∈dj}|表示包含字词wi的类目数。
文本表示子模块:根据所述特征权值即ITIDF值,将训练集和测试集文本以向量化形式进行文本表示:文本d可以表示为若干个情感特征及其权值的集合 d=(w1,w2,…,wn),wi为情感特征词w的特征权值。
情感分类模块:用于通过扩展后的训练集训练分类器,得到贝叶斯分类模型,再对扩展后的测试集进行分类操作得到微博情感分类结果。具体包括:
朴素贝叶斯分类器训练子模块:通过扩展后的训练样本集训练朴素贝叶斯分类器,得到微博情感分类模型。
测试样本分类子模块:根据所述分类模型对扩展后的测试样本进行分类操作,得到微博情感分类结果。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (2)

1.一种基于句法分析的微博情感分类方法,包含以下步骤:
S1:获取用于情感分析的微博短文本,根据情感极性进行文本类别标注并划分为训练集和测试集;具体包含:
S11:在新浪微博社交平台上,通过爬虫软件爬取一定数量且包含不同情感类别的微博短文本数据;
S12:将获取的文本数据进行数据清洗:删除空文本的无效样本数据,并通过正则表达式剔除微博短文本中包含表情、链接、图片的噪声数据;
S13:根据微博文本内容,对每个微博样本的情感正负倾向性进行类别标注,微博情感主要划分为积极、中性以及消极三种情感类别;
S14:将微博短文本数据按3:1划分为训练集和测试集,训练集用于训练分类模型,测试集用于验证分类模型的有效性;
S2:分别对训练集和测试集进行数据预处理,包括中文分词、去停用词;具体包含:
S21:利用中文分词工具,分别对训练集和测试集进行中文分词处理,并标注词性;
S22:根据预先建立的停用词表,剔除文本数据中出现的停用词,即一些无实际意义的字词、标点以及特殊符号;
S3:对预处理后的每个样本进行依存句法分析,得到依存句法树;根据所述依存句法树采用基于句法路径的匹配算法进行微博情感特征选择,提取出具有明显情感倾向性的词汇作为初始特征集合,并结合外部情感特征词典构建特征词库;具体包含:
S31:训练集数据以句子为单位,利用句法分析工具进行句法依存分析,得到文本的句法依存结构即依存关系,以及依存句法树;
S32:根据句法依存关系采用基于句法路径的匹配算法进行微博情感特征选择,提取出具有明显情感倾向性的词汇作为初始特征集合;
S33:结合外部情感特征词典,利用初始特征集合构建情感特征词库,用于扩展微博短文本的情感特征;
S4:根据预先构建的情感特征词库,分别对训练集和测试集的初始特征集合进行特征扩展,使用TFIDF计算每个特征词的特征权值并向量化表示文本;具体包含:
S41:根据所述预先构建的情感特征词库,分别对训练集和测试集的初始特征集合进行特征扩展;
S42:使用TFIDF对扩展后的训练集和测试集计算每个特征词的特征权值,TFIDF的具体计算公式为:
Figure FDA0003617803790000011
其中nij表示某一类别dj中字词wi出现的次数,而
Figure FDA0003617803790000012
表示在该类dj中所有字词出现的次数之和,|D|表示语料库中的类目总数,|{j:wj∈dj}|表示包含字词wi的类目数;
S43:根据所述特征权值即ITIDF值,将训练集和测试集文本以向量化形式进行文本表示;
S5:根据所述扩展后的训练样本集训练贝叶斯分类器,得到贝叶斯分类模型;根据所述贝叶斯分类模型对扩展后的测试样本进行分类操作,得到微博情感分类结果;具体包含:
S51:通过扩展后的训练样本集训练贝叶斯分类器,得到贝叶斯分类模型;
S52:根据所述分类模型对扩展后的测试样本进行分类操作,得到微博情感分类结果。
2.一种基于句法分析的微博情感分类***,其特征在于:包括:
(1)数据获取模块,用于在新浪微博社交平台上利用爬虫软件获取微博文本数据,根据微博内容进行情感标注并划分为训练集和测试集;数据获取模块具体包括:
微博短文本数据爬取子模块:在新浪微博社交平台上,通过爬虫软件爬取一定数量且包含不同情感类别的微博短文本数据;
文本数据清晰子模块:将获取的文本数据进行数据清洗:删除空文本的无效样本数据,并通过正则表达式剔除微博短文本中包含表情、链接、图片的噪声数据,为保证样本的多样性,处理后的样本数量不少于10000条;
微博样本的情感正负倾向性类别标注子模块:根据微博文本内容,对每个微博样本的情感正负倾向性进行类别标注,微博情感主要划分为积极、中性以及消极三种情感类别;
训练集和测试集划分子模块:将微博短文本数据按3:1划分为训练集和测试集,训练集用于训练分类模型,测试集用于验证分类模型的有效性;
(2)数据预处理模块:用于对微博文本数据进行预处理,包括文本清洗、中文分词以及去停用词;数据预处理模块具体包含:
中文分词处理子模块:通过jieba分词工具分别对训练集和测试集进行中文分词处理,并标注词性;
停用词剔除子模块:根据预先建立的停用词表,剔除文本数据中出现的停用词,即一些无实际意义的字词、标点以及特殊符号;
(3)特征提取模块:用于分别对训练集和测试集进行特征提取,主要包括:
句法依存分析子模块:用于利用句法分析工具分别对训练集和测试集进行句法依存分析,获取依存句法树;句法依存分析子模块具体包括:
训练集数据以句子为单位,利用Stanford句法分析工具进行句法依存分析,得到文本的句法依存结构以及依存句法树;依存结构即依存关系;
依存句法通过词汇之间的依存关系表达整个句子结构,这些依存关系表达了句子各成分之间的语义依赖关系;所有词汇之间的依存关系构成一颗句法树,树的根节点为句子核心谓词,用来表达整个句子的核心内容;
特征选择子模块:根据依存句法树,采用基于句法路径的匹配算法进行情感特征提取,选择具有明显情感倾向性的词汇作为初始情感特征集合;
特征词库构建子模块:结合外部情感特征词典,以及所述初始情感特征集合构建情感特征词库,用于扩展短文本的情感特征;
(4)特征扩展模块:用于根据所述特征词库对文本进行特征扩展,使用IFTIDF计算特征权值并向量化表示文本;特征扩展模块具体包括:
特征扩展子模块:根据所述预先构建的情感特征词库,分别对训练集和测试集的初始特征集合进行特征扩展;
特征权值计算子模块:使用TFIDF对扩展后的训练集和测试集计算每个特征词的特征权值,TFIDF的具体计算公式为:
Figure FDA0003617803790000031
其中nij表示某一类别dj中字词wi出现的次数,而
Figure FDA0003617803790000032
表示在该类dj中所有字词出现的次数之和,|D|表示语料库中的类目总数,|{j:wj∈dj}|表示包含字词wi的类目数;
文本表示子模块:根据所述特征权值即ITIDF值,将训练集和测试集文本以向量化形式进行文本表示:文本d可以表示为若干个情感特征及其权值的集合d=(w1,w2,…,wn),wi为情感特征词w的特征权值;
(5)情感分类模块:用于通过扩展后的训练集训练分类器,得到贝叶斯分类模型,再对扩展后的测试集进行分类操作得到微博情感分类结果;情感分类模块具体包括:
朴素贝叶斯分类器训练子模块:通过扩展后的训练样本集训练朴素贝叶斯分类器,得到微博情感分类模型;
测试样本分类子模块:根据所述分类模型对扩展后的测试样本进行分类操作,得到微博情感分类结果。
CN202011127304.6A 2020-10-20 2020-10-20 基于句法分析的微博情感分类方法和*** Active CN112632272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011127304.6A CN112632272B (zh) 2020-10-20 2020-10-20 基于句法分析的微博情感分类方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011127304.6A CN112632272B (zh) 2020-10-20 2020-10-20 基于句法分析的微博情感分类方法和***

Publications (2)

Publication Number Publication Date
CN112632272A CN112632272A (zh) 2021-04-09
CN112632272B true CN112632272B (zh) 2022-07-19

Family

ID=75302857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011127304.6A Active CN112632272B (zh) 2020-10-20 2020-10-20 基于句法分析的微博情感分类方法和***

Country Status (1)

Country Link
CN (1) CN112632272B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361585A (zh) * 2021-06-02 2021-09-07 浪潮软件科技有限公司 一种基于有监督学习算法优化筛选线索的方法
CN114564967B (zh) * 2022-04-29 2022-09-13 天津大学 一种面向情感语义的语义标注及语义依存分析方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN102866989A (zh) * 2012-08-30 2013-01-09 北京航空航天大学 基于词语依存关系的观点抽取方法
CN108108468A (zh) * 2017-12-29 2018-06-01 华中科技大学鄂州工业技术研究院 一种基于概念和文本情感的短文本情感分析方法和装置
CN109376239A (zh) * 2018-09-29 2019-02-22 山西大学 一种用于中文微博情感分类的特定情感词典的生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055633A (zh) * 2016-05-30 2016-10-26 国家计算机网络与信息安全管理中心 一种中文微博主客观句分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN102866989A (zh) * 2012-08-30 2013-01-09 北京航空航天大学 基于词语依存关系的观点抽取方法
CN108108468A (zh) * 2017-12-29 2018-06-01 华中科技大学鄂州工业技术研究院 一种基于概念和文本情感的短文本情感分析方法和装置
CN109376239A (zh) * 2018-09-29 2019-02-22 山西大学 一种用于中文微博情感分类的特定情感词典的生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于依存句法的博文情感倾向分析研究";冯时等;《计算机研究与发展》;20121231;2395-2406 *

Also Published As

Publication number Publication date
CN112632272A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN109190117B (zh) 一种基于词向量的短文本语义相似度计算方法
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN107451126B (zh) 一种近义词筛选方法及***
CN108874937B (zh) 一种基于词性结合和特征选择的情感分类方法
WO2017084267A1 (zh) 一种关键词提取方法和装置
CN111950273A (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
Naseem et al. Dice: Deep intelligent contextual embedding for twitter sentiment analysis
CN110209818B (zh) 一种面向语义敏感词句的分析方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及***
CN112632272B (zh) 基于句法分析的微博情感分类方法和***
Doǧan et al. Deep learning based sentiment analysis and text summarization in social networks
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN107451116B (zh) 一种移动应用内生大数据统计分析方法
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Alqaraleh Turkish Sentiment Analysis System via Ensemble Learning
Amin et al. Kurdish Language Sentiment Analysis: Problems and Challenges
Ramesh et al. Interpretable natural language segmentation based on link grammar
CN114722153A (zh) 一种意图分类的方法和装置
Ducoffe et al. Machine Learning under the light of Phraseology expertise: use case of presidential speeches, De Gaulle-Hollande (1958-2016)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant