CN106569996A - 一种面向中文微博的情感倾向分析方法 - Google Patents
一种面向中文微博的情感倾向分析方法 Download PDFInfo
- Publication number
- CN106569996A CN106569996A CN201610898432.8A CN201610898432A CN106569996A CN 106569996 A CN106569996 A CN 106569996A CN 201610898432 A CN201610898432 A CN 201610898432A CN 106569996 A CN106569996 A CN 106569996A
- Authority
- CN
- China
- Prior art keywords
- microblogging
- module
- microblog
- word
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公布了一种面向中文微博的情感倾向分析方法。包括如下模块:欠采样技术模块,微博文本预处理模块,利用Word2vec扩展微博模块,特征提取模块,情感分析模型训练模块,情感倾向性判别模块。最终利用训练好的AWCRF模型对待预测的微博进行情感倾向判别。本发明的优势是能够有效地解决中文微博数据集在情感倾向分布不平衡时的情感倾向分类问题,实施简单,识别率高,具有很强的实际价值和现实意义。
Description
技术领域
本发明属于网络信息处理技术领域,具体涉及一种面向中文微博的情感倾向分析方法。
背景技术
微博作为一个新的社交平台,受到很多用户的喜爱。越来越多人喜欢通过微博来发表他们的观点,所以充分分析和挖掘用户微博中的情感是非常有意义的。情感分析的目的是从微博文本中挖掘用户的观点和识别它的情感倾向。例如,企业可以通过微博来获取用户对他们产品和服务的评价。与传统的情感分析工作一样,对微博的情感分析方法可以分为两类。一类是基于情感词典和规则的方法,它们根据句子中正面情感词和负面情感词的个数来识别情感倾向。另一类是基于机器学习的方法,它们通过挑选合适的特征来训练分类器。
然而,以上方法都忽略了中文微博数据集中的情感倾向分布不平衡性对情感分类的影响,也就是说当数据集中负面情感的句子和正面情感的句子的数量相差很大时,会影响分类器的判别准确性。在实际生活中,微博中讨论的话题或者事件的本身往往带有很强的情感倾向性,这导致很多话题的情感倾向分布不平衡,例如“#食用油涨价#”、“#皮鞋果冻#”等话题本身具有明显的贬义情感,而“#屠呦呦获奖#”这个话题具有明显的褒义情感。数据情感倾向分布的不平衡性恰恰是导致很多机器学习算法表现不好的重要因素,尤其是在情感倾向中占少数的类别的识别效果上。另外,与传统的文本相比,微博的长度一般很短,这导致传统方法很难从其中抽取出有助于情感分类的信息,而且目前还没有一个足够大的情感词典可以覆盖所有情感词。
发明内容
为了解决上述问题,本发明提出了一种面向中文微博的情感倾向分析方法,其主要步骤包括如下:
(1)欠采样技术模块。利用Affinity Propagation算法来减少训练集中多数类样本的数量从而平衡训练集,以降低数据集情感倾向分布的不平衡性对分类效果的影响。
(2)微博文本预处理模块。对微博文本进行清洗,并进行分词、词性标注和停用词处理等操作。
(3)利用Word2vec扩展微博模块。通过利用Word2vec来求微博中每个词的前K个相似词从而扩展微博。
(4)特征提取模块。加载相关词典,对前面预处理过的微博进行特征提取。
(5)情感分析模型训练模块。在上面已经平衡和扩展后的训练集上训练AWCRF模型;
(6)情感倾向性判别模块。利用训练好的AWCRF模型对待预测的微博进行情感倾向判别。
附图说明
图1为本发明的分析流程图。
具体实施方式
下面结合附图对本发明做进一步的说明。本发明针对情感倾向分布不平衡的中文微博数据集的情感倾向分类问题。图1为本发明的整体算法流程。
下面分别叙述各步骤的具体内容:
1、欠采样技术模块
本发明利用Affinity Propagation算法来减少训练集中多数类样本的数量从而平衡训练集。
本发明的欠采样技术分为如下几步:
(1)给定一个训练集t1,将它分为多数类maj1和少数类min1;
(2)对于多数类maj1,利用Affinity Propagation聚类算法将它聚成几个类,可以表示为C={c1,c2,...cn};
(3)为了构建平衡的数据集,按比例从C的各个子类中随机挑选样本得到maj2,使得maj2的样本数量与min1的样本数量相近;
(4)数据集maj2和min1将被集中在一起得到一个平衡训练集t2;
(5)将已经平衡后的训练集t2代替t1作为最终的训练集。
2、微博文本预处理模块
该模块主要工作是对微博文本进行清洗,并进行分词、词性标注和停用词处理等操作;
3、利用Word2vec扩展微博模块
本发明通过利用Word2vec来求微博中每个词的前K个相似词从而扩展微博,具体步骤包括以下两步,分别是训练词向量和扩展微博。
(1)训练词向量。我们从新浪微博API收集了大量的微博语料,过滤掉一些没用符号和网址,最后剩下5G的微博数据用来当训练集。然后利用Word2vec中的Skip-gram模型来训练词向量,最后通过该词向量来求微博中每个词的相似词。
(2)扩展微博。首先,给定一个微博句子ti,对它分词之后可以得到这个句子的词序列,表示为{w1,w2,...wn},然后,利用上面已经训练好的词向量来求微博句子ti中每个词的前k个相似词,从而达到扩展微博的目的。扩展后的微博可以表示为{w1,w2,...wn,w11,w12,...w1k,w21,w22,...w2k,...,wn2,...wnk},其中{w11,w12,...w1k}代表词w1的前k个相似词,对于微博中的表情符号和标点符号直接保留在微博中,所以扩展后的微博比原微博含有更多的信息。
4、特征提取模块
(1)加载相关词典,包括情感词典、情符号词典、流行语词典、否定词词典等,用于特征提取。
(2)借助上面已经加载好的词典数据,对预处理后的微博文本进行预先定义特征的抽取,将文本向量化并转化为情感分析模型训练模块能够处理的格式。
5、情感分析模型训练模块
本发明将CRF模型应用在经过本文欠采样技术和Word2vec技术处理后的数据上从而得到AWCRF模型。然后将特征提取模块从微博中提取出来的特征向量作为输入,使用L-BFGS算法来训练AWCRF模型。该模型不仅有可以克服训练集中情感分布不平衡的影响优点,而且有可以增加微博句子的情感信息从而缓解了情感词典覆盖面不够的影响的优点。另外,由于训练样本变少,所以该模型还具有训练时间少和训练效率高等特点,具有很强的实用价值。
6、情感倾向性判别模块
首先对待预测的数据进行文本预处理、利用Word2vec扩展、特征提取等操作,从而得到测数据的特征向量;然后将预测数据的特征向量作为AWCRF模型输入,利用训练好的AWCRF模型对待预测的微博进行情感倾向判别。
Claims (5)
1.一种面向中文微博的情感倾向分析方法,其特征在于包括如下模块:
(1)欠采样技术模块,利用Affinity Propagation算法来减少训练集中多数类样本的数量从而平衡训练集,以降低数据集情感倾向分布的不平衡性对分类效果的影响;
(2)微博文本预处理模块,对微博文本进行清洗,并进行分词、词性标注和停用词处理等操作;
(3)利用Word2vec扩展微博模块,通过利用Word2vec来求微博中每个词的前K个相似词从而扩展微博;
(4)特征提取模块;加载相关词典,对前面预处理过的微博进行特征提取;
(5)情感分析模型训练模块,在上面已经平衡和扩展后的训练集上训练AWCRF模型;
(6)情感倾向性判别模块,利用训练好的AWCRF模型对待预测的微博进行情感倾向判别。
2.根据权利要求1所述的方法,其特征在于,在所述模块步骤1之后,还包括如下步骤:
(2-1)给定一个训练集t1,将它分为多数类maj1和少数类min1;
(2-2)对于多数类maj1,利用Affinity Propagation聚类算法将它聚成几个类,可以表示为C={c1,c2,...cn};
(2-3)为了构建平衡的数据集,按比例从C的各个子类中随机挑选样本得到maj2,使得maj2的样本数量与min1的样本数量相近;
(2-4)数据集maj2和min1将被集中在一起得到一个平衡训练集t2;
(2-5)将已经平衡后的训练集t2代替t1作为最终的训练集。
3.根据权利要求1所述的方法,其特征在于,在步骤3之后,还包括如下步骤:
(3-1)训练词向量,我们从新浪微博API收集了大量的微博语料,过滤掉一些没用符号和网址,最后剩下5G的微博数据用来当训练集。然后利用Word2vec中的Skip-gram模型来训练词向量,最后通过该词向量来求微博中每个词的相似词;
(3-2)扩展微博,首先,给定一个微博句子ti,对它分词之后可以得到这个句子的词序列,表示为{w1,w2,...wn},然后,利用上面已经训练好的词向量来求微博句子ti中每个词的前k个相似词,从而达到扩展微博的目的。扩展后的微博可以表示为{w1,w2,...wn,w11,w12,...w1k,w21,w22,...w2k,...,wn2,...wnk},其中{w11,w12,...w1k}代表词w1的前k个相似词,对于微博中的表情符号和标点符号直接保留在微博中,所以扩展后的微博比原微博含有更多的信息。
4.根据权利要求1所述的方法,其特征在于,在所述步骤5之后,还包括如下步骤:
(4-1)将CRF模型应用在经过本文欠采样技术和Word2vec技术处理后的数据上从而得到AWCRF模型;
(4-2)将特征提取模块从微博中提取出来的特征向量作为输入,使用L-BFGS算法来训练AWCRF模型。
5.根据权利要求1所述的方法,其特征在于,在所述步骤6之后,还包括如下步骤:
(5-1)对待预测的数据进行文本预处理、利用Word2vec扩展、特征提取等操作,从而得到测数据的特征向量;
(5-2)将预测数据的特征向量作为AWCRF模型输入,利用训练好的AWCRF模型对待预测的微博进行情感倾向判别。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610192686 | 2016-03-30 | ||
CN2016101926868 | 2016-03-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106569996A true CN106569996A (zh) | 2017-04-19 |
CN106569996B CN106569996B (zh) | 2019-06-21 |
Family
ID=58532883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610898432.8A Active CN106569996B (zh) | 2016-03-30 | 2016-10-14 | 一种面向中文微博的情感倾向分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106569996B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304568A (zh) * | 2018-02-12 | 2018-07-20 | 郑长敬 | 一种房地产公众预期大数据处理方法及*** |
CN108681532A (zh) * | 2018-04-08 | 2018-10-19 | 天津大学 | 一种面向中文微博的情感分析方法 |
US10394959B2 (en) | 2017-12-21 | 2019-08-27 | International Business Machines Corporation | Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources |
CN111460158A (zh) * | 2020-04-01 | 2020-07-28 | 安徽理工大学 | 一种基于情感分析的微博话题公众情感预测方法 |
CN111611455A (zh) * | 2020-05-22 | 2020-09-01 | 安徽理工大学 | 一种微博热点话题下基于用户情感行为特征的用户群体划分方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
CN104462065A (zh) * | 2014-12-15 | 2015-03-25 | 北京国双科技有限公司 | 事件情感类型的分析方法和装置 |
CN104899298A (zh) * | 2015-06-09 | 2015-09-09 | 华东师范大学 | 一种基于大规模语料特征学习的微博情感分析方法 |
-
2016
- 2016-10-14 CN CN201610898432.8A patent/CN106569996B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
CN104462065A (zh) * | 2014-12-15 | 2015-03-25 | 北京国双科技有限公司 | 事件情感类型的分析方法和装置 |
CN104899298A (zh) * | 2015-06-09 | 2015-09-09 | 华东师范大学 | 一种基于大规模语料特征学习的微博情感分析方法 |
Non-Patent Citations (2)
Title |
---|
BAI XUE 等: "A Study on Sentiment Computing and Classification of Sina Weibo with Word2vec", 《2014 IEEE INTERNATIONAL CONGRESS ON BIG DATA》 * |
唐浩浩 等: "基于词亲和度的微博词语语义倾向识别算法", 《数据采集与处理》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10394959B2 (en) | 2017-12-21 | 2019-08-27 | International Business Machines Corporation | Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources |
US10719665B2 (en) | 2017-12-21 | 2020-07-21 | International Business Machines Corporation | Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources |
CN108304568A (zh) * | 2018-02-12 | 2018-07-20 | 郑长敬 | 一种房地产公众预期大数据处理方法及*** |
CN108304568B (zh) * | 2018-02-12 | 2021-01-05 | 郑长敬 | 一种房地产公众预期大数据处理方法及*** |
CN108681532A (zh) * | 2018-04-08 | 2018-10-19 | 天津大学 | 一种面向中文微博的情感分析方法 |
CN108681532B (zh) * | 2018-04-08 | 2022-03-25 | 天津大学 | 一种面向中文微博的情感分析方法 |
CN111460158A (zh) * | 2020-04-01 | 2020-07-28 | 安徽理工大学 | 一种基于情感分析的微博话题公众情感预测方法 |
CN111460158B (zh) * | 2020-04-01 | 2022-09-23 | 安徽理工大学 | 一种基于情感分析的微博话题公众情感预测方法 |
CN111611455A (zh) * | 2020-05-22 | 2020-09-01 | 安徽理工大学 | 一种微博热点话题下基于用户情感行为特征的用户群体划分方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106569996B (zh) | 2019-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210216723A1 (en) | Classification model training method, classification method, device, and medium | |
CN105183717B (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
CN106569996A (zh) | 一种面向中文微博的情感倾向分析方法 | |
CN109376251A (zh) | 一种基于词向量学习模型的微博中文情感词典构建方法 | |
CN109101478B (zh) | 一种面向电商评论文本的Aspect级情感分析方法 | |
CN108573047A (zh) | 一种中文文本分类模型的训练方法及装置 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测*** | |
CN109492101A (zh) | 基于标签信息与文本特征的文本分类方法、***及介质 | |
CN104331506A (zh) | 一种面向双语微博文本的多类情感分析方法与*** | |
CN105550269A (zh) | 一种有监督学习的产品评论分析方法及*** | |
CN106202032A (zh) | 一种面向微博短文本的情感分析方法及其*** | |
CN106354818B (zh) | 基于社交媒体的动态用户属性提取方法 | |
CN104008091A (zh) | 一种基于情感值的网络文本情感分析方法 | |
CN104281653A (zh) | 一种针对千万级规模微博文本的观点挖掘方法 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN107688576B (zh) | 一种cnn-svm模型的构建及倾向性分类方法 | |
CN106776574A (zh) | 用户评论文本挖掘方法及装置 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN111858935A (zh) | 一种航班点评的细粒度情感分类*** | |
CN108280057A (zh) | 一种基于blstm的微博谣言检测方法 | |
CN106126502A (zh) | 一种基于支持向量机的情感分类***及方法 | |
CN108846047A (zh) | 一种基于卷积特征的图片检索方法及*** | |
CN106156372A (zh) | 一种互联网网站的分类方法及装置 | |
CN108009297B (zh) | 基于自然语言处理的文本情感分析方法与*** | |
CN113407842B (zh) | 模型训练方法、主题推荐理由的获取方法及***、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |