CN110598219A - 一种面向豆瓣网电影评论的情感分析方法 - Google Patents
一种面向豆瓣网电影评论的情感分析方法 Download PDFInfo
- Publication number
- CN110598219A CN110598219A CN201911009781.XA CN201911009781A CN110598219A CN 110598219 A CN110598219 A CN 110598219A CN 201911009781 A CN201911009781 A CN 201911009781A CN 110598219 A CN110598219 A CN 110598219A
- Authority
- CN
- China
- Prior art keywords
- emotion
- word
- words
- negative
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 281
- 238000004458 analytical method Methods 0.000 title claims abstract description 36
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 238000012552 review Methods 0.000 claims abstract description 26
- 244000046052 Phaseolus vulgaris Species 0.000 claims abstract description 10
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000009193 crawling Effects 0.000 claims abstract description 4
- 230000002996 emotional effect Effects 0.000 claims description 42
- 238000000034 method Methods 0.000 claims description 36
- 235000010749 Vicia faba Nutrition 0.000 claims description 12
- 240000006677 Vicia faba Species 0.000 claims description 12
- 235000002098 Vicia faba var. major Nutrition 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000007935 neutral effect Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 230000009977 dual effect Effects 0.000 claims 1
- 238000012217 deletion Methods 0.000 abstract 1
- 230000037430 deletion Effects 0.000 abstract 1
- 238000010801 machine learning Methods 0.000 description 4
- 230000036651 mood Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000000003 hoof Anatomy 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Library & Information Science (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种面向豆瓣网电影评论的情感分析方法,主要对豆瓣网上中文的电影评论进行情感分析,首先对豆瓣网上的电影评论进行数据爬取操作,然后对这些数据进行预处理操作,包括删除停用词、分词和词性标注;其次构造用于电影评论情感分析所需的四类词典,四类词典分别为基础情感词典、否定词词典、程度副词词典和电影评论领域的情感词典;接着利用设计的情感计算方法对电影评论进行情感计算判断情感极性;然后利用用户评分这个弱标注信息对评论进行情感极性判断;若通过情感计算得到的评论情感极性与弱标注信息判断出的评论情感极性一致,则该条电影评论的情感极性即可得出,若两者不一致,则根据情感计算来判断电影评论的情感极性。
Description
技术领域
本发明属于自然语言处理中的文本情感分析技术领域,具体是一种面向豆瓣网电影评论的情感分析方法。
背景技术
豆瓣网作为一个普遍的电影社交媒体评论平台,承载了海量的信息。每部电影出来之后,广大网友都会在豆瓣网上发表评论,这些海量的主观评论文本数据中包含着丰富的情感信息,如何对这些情感信息进行情感极性分析是一件非常有意义的事情。
现有的技术中,针对文本的情感分析主要采用两种方法,一种是采用基于机器学习的方法,但需要选择合适的特征训练模型,从而实现文本的情感极性判断;另一种是采用基于情感词典的方法,通过设计合理的情感计算算法来计算文本的情感权值,从而实现文本的情感极性判断。
例如,现有的专利文献(申请号:201611062208.1)公布了一种民航安保舆情情感分析方法,该发明主要是利用情感词典和规则的方法对民航领域的微博文本进行情感分析,以此来过滤出对民航安全有威胁的微博;专利文献(申请号:201610475678.4)提供了一种基于社交网络数据的情感分析方法,该发明主要是利用机器学***台上发布的目标数据的情感倾向。
然而,上述两种方法都有不足之处,首先基于机器学习的方法需要大量的人工去标注数据集,并且不适合处理电影评论这种细粒度文本;基于情感词典的方法虽适合处理细粒度文本,但是囊括的情感词有限。因此为了充分获得用户评论的情感信息,本发明采用基于情感词典和弱标注的方法对豆瓣网电影评论进行情感分析,更好的将电影评论情感分为正向和负向。该发明的应用将在预测电影票房领域具有十分重要的意义。
发明内容
本发明的目的是提供一种面向豆瓣网电影评论的情感分析方法;该方法专门对豆瓣网上细粒度的中文评论进行情感分析,它利用情感词典和豆瓣网上的弱标注信息对评论进行情感分类。该方法具有无需人工标注数据集、精准计算评论情感权值、情感权值和弱标注信息共同判断评论情感极性和提高电影评论情感分析准确率的优点。
本发明实现发明目的采用如下技术方案:
一种面向豆瓣网电影评论的情感分析方法,其特征在于,包括以下步骤:
(1)首先对豆瓣网上的电影评论进行数据爬取操作,然后对这些数据进行预处理操作,包括删除停用词、分词和词性标注;
(2)构造用于电影评论情感分析所需的四类词典,四类词典分别为基础情感词典、否定词词典、程度副词词典和电影评论领域的情感词典;
(3)根据上述步骤(2)构造的情感词典,将单条电影评论经分词后得到的词语与情感词典进行扫描和匹配,得到若干情感词;当匹配到情感词时,进一步将修饰情感词的否定词、程度副词与否定词词典、程度副词词典进行扫描和匹配;根据四类词典,计算情感词的情感权值、否定词的权值和程度副词的权重倍数,然后对情感词的情感权值、否定词的权值和程度副词的权重倍数进行情感计算得到单条电影评论的情感权值;若情感权值大于或等于0,则该条电影评论情感极性为正向;若情感权值小于0,则该条电影评论情感极性为负向;
(4)因为所获得的电影评论数据中包含了用户的豆瓣评分,这些评分称为情感弱标注信息,评分一共有5个等级,所以选取评分在大于或等于3的电影评论的情感极性为正向,小于3的电影评论的情感极性为负向;
(5)通过步骤(3)中情感计算得到电影评论的情感极性和步骤(4)中用户的豆瓣评分情况得到的电影评论情感极性,来进一步确定电影评论的情感极性;若两者得到的情感极性都为正向的情况下,则确定该条电影评论情感极性为正向;若两者得到的情感极性都为负向的情况下,则确定该条电影评论情感极性为负向;若两者得到的情感极性是相反的情况下,则确定该条电影评论的情感极性为步骤(3)中经情感计算得到的情感极性。
作为优选,本发明提供的一种面向豆瓣网电影评论的情感分析方法,该方法中的四类情感词典构造方法步骤如下:
(1)基础情感词典取自于大连理工大学的中文情感词典库,这个词典库将情感词分成了五个等级的情感权值和三类词;本发明用数字1表示正向词,数字2表示负向词,0表示中性词且它的情感权值为0,五个等级的情感权值分别为9、7、5、3、1;
(2)否定词词典包括否定词和反问词两部分,否定词和反问词修饰情感词时,都会改变词的情感极性,但反问词语气更强,而双重否定词不会改变词的情感极性,但是语气会更加强烈,通过人工筛选共获取25个否定词构成否定词词典,其中否定词权值为-1,反问词权值为-2,双重否定词权值为1;
(3)程度副词词典来自于知网词典库,将这些词一共分为6个等级,等级分别是超、最、很、较、稍、欠,分别对这6个等级赋予一定的权重,对所修饰的情感词的情感强度扩大一定的倍数,权重倍数分别为3、2.5、2、1.5、1、0.5;
(4)电影评论领域的情感词典构造主要是由于基础情感词典还不完整,对情感词的概括是有限的,因此还需要对一些电影评论上特有的情感新词进行识别,并对这些新词构造一个情感词典;
提取情感新词的方法是将上述电影评论中经过分词后得到的词语与已有的基础情感词典进行扫描和匹配,若没有出现在基础情感词典中,则确定为新词;
确定情感新词的方法是利用PMI算法计算新词与种子词之间的语义相似度,最后计算未知新词的情感极性;
PMI又称点互信息,主要是可以计算词与词之间的相似度;未知词w1和种子词w2之间的相似度计算公式为:
其中P(w1,w2)表示w1,w2共同出现的概率,p(w1)、p(w2)分别表示w1,w2单独出现的概率;
此公式仅仅能计算一对词的语义相似度,在情感分析中不具有说服力,所以在考虑这个的基础上,在统计电影评论情感词的词频时,根据结果选取了30对正负向情感极性高的种子词,构成正向的情感词集合Wp和负向情感词集合WN,用来考察多词之间的语义相似度,同时对公式(1)进行改进,得出新词w的情感极性判断的新公式:
式(2)的值如果大于等于0,则新词w的情感极性为正向;小于0,新词w的情感极性为负向;将这些情感新词分为四个等级,每个等级的情感新词都赋予一定的情感权值,分别为2、1、-1、-2。
作为优选,本发明提供的一种面向豆瓣网电影评论的情感分析方法,其中计算单条电影评论情感权值的步骤如下:
单条电影评论用字母D表示,评论中各个情感词用Wi表示,seni表示情感词匹配情感词典得到的情感权值;
(1)词语情感值E(Wi)的计算公式为:
E(Wi)=Ni×Ai×seni (3)
公式(3)中:Ni表示否定词或者双重否定词、反问词的情感权值,Ai表示程度副词的权重倍数,seni表示情感词与情感词典匹配得到的情感权值,Wi表示情感词语,i表示情感词的个数;
(2)若情感词前出现否定词,则需要考虑否定词的个数;如果个数为奇数,则情感词的情感极性与原来相反;如果个数为偶数,即为双重否定词,则情感词的情感极性不变;具体的计算公式如下:
Ni=(-1)k (4)
其中,k为否定词的个数;若情感词前面出现反问词,则会改变情感词的情感极性并且强度更大,反问词的取值大小可以根据否定词词典得出权值为-2;
(3)由于否定词与程度副词的相对顺序关系对情感词的情感权值也有影响,比如“太不好看”和“不太好看”,显然第二句的情感比第一句的情感弱一些,因此,当否定词在程度副词之前时,将公式(3)的值乘以0.5;当程度副词在否定词之前时,将将公式(3)的值乘以-1;具体的计算公式如下:
公式(5)中loc(A)表示程度副词的位置,loc(N)表示否定词的位置;
(4)因此,最后得出单条电影评论的情感权值计算公式如下:
利用公式(6)得知,当式(6)的值大于0时,表示此条电影评论情感极性为正向;当式(6)的值小于0时,表示此条电影评论情感极性为负向。
有益效果:本发明提供一种面向豆瓣网电影评论的情感分析方法,该方法与其他发明方法相比具有以下优点:
(1)本发明利用情感词典和弱标注信息相结合的方式来判断豆瓣网电影评论的情感极性,其中扩建了一部电影评论领域的情感词典,增大了情感词的覆盖面,克服了原有的情感词典的局限性,提高了情感分析的准确率。
(2)本发明精准计算电影评论的情感权值,对预测电影票房和及时掌握用户的情感倾向具有重要的意义。
(3)本发明不同于机器学习的方法,不需要采用大规模人工去标注数据集,适合于电影评论这种细粒度文本。
附图说明
图1是本发明提供的豆瓣网电影评论情感分析方法的流程示意图;
图2是本发明利用情感词典进行电影评论情感计算的流程示意图;
图3是本发明所构造的情感词典模块图;
图4是本发明在《战狼2》电影评论数据集上验证的实验对比结果图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案作进一步详细地说明。
本发明提供的豆瓣网电影评论情感分析方法的流程如图1所示,步骤如下:
步骤(1):首先,爬取豆瓣网上的电影评论数据,然后对这些数据进行预处理操作,包括删除停用词、分词和词性标注,并获得用户的评分数据;
例如:获取到一条评论为“电影男主角的女友在短道速滑男子500米比赛真的表现很棒!”,首先删除该条评论的停用词“的”,然后使用中科院ICTCLAS软件进行分词和词性标注工作,最后该条评论变为{电影,男主角,女友,在,短道速滑,男子,500,米,比赛,真的,表现,很棒}。
步骤(2):分别利用情感词典判断评论的情感极性和利用用户评分的弱标注信息判断评论的情感极性。
步骤(3):若步骤(2)中两者得到的情感极性都为正向的情况下,则确定该条电影评论情感极性为正向;若若步骤(2)中两者得到的情感极性都为负向的情况下,则确定该条电影评论情感极性为负向;若若步骤(2)中两者得到的情感极性是相反的情况下,则确定该条电影评论的情感极性为利用情感词典经情感计算得到的情感极性。
结合图2和图3来描述本发明利用情感词典进行电影评论情感计算的流程示意图,步骤如下:
步骤(1):首先将分词后的电影评论作为分析对象;
步骤(2):将每个词与所构造的情感词典进行匹配,判断是否在情感词典中,若是,则执行下一步骤(3),若否,则利用本发明所改进的语义相似度算法对新词进行确定,并加入到领域情感词典中;
步骤(3):最后结合图3中的基础情感词典、程度副词词典、否定词词典和领域情感词典对评论按照本发明提出的方法进行情感计算得出情感权值,情感计算步骤如下:
单条电影评论用字母D表示,评论中各个情感词用Wi表示,seni表示情感词匹配情感词典得到的情感权值;
a)词语情感值E(Wi)的计算公式为:
E(Wi)=Ni×Ai×seni (3)
公式(3)中:Ni表示否定词或者双重否定词、反问词的情感权值,Ai表示程度副词的权重倍数,seni表示情感词与情感词典匹配得到的情感权值,Wi表示情感词语,i表示情感词的个数;
b)若情感词前出现否定词,则需要考虑否定词的个数;如果个数为奇数,则情感词的情感极性与原来相反;如果个数为偶数,即为双重否定词,则情感词的情感极性不变;具体的计算公式如下:
Ni=(-1)k (4)
其中,k为否定词的个数;若情感词前面出现反问词,则会改变情感词的情感极性并且强度更大,反问词的取值大小可以根据否定词词典得出权值为-2;
c)由于否定词与程度副词的相对顺序关系对情感词的情感权值也有影响,比如“太不好看”和“不太好看”,显然第二句的情感比第一句的情感弱一些,因此,当否定词在程度副词之前时,将公式(3)的值乘以0.5;当程度副词在否定词之前时,将将公式(3)的值乘以-1;具体的计算公式如下:
公式(5)中loc(A)表示程度副词的位置,loc(N)表示否定词的位置;
d)因此,最后得出单条电影评论的情感权值计算公式如下:
利用公式(6)得知,当式(6)的值大于0时,表示此条电影评论情感极性为正向;当式(6)的值小于0时,表示此条电影评论情感极性为负向。
图3中所述的基础情感词典取自于大连理工大学的中文情感词典库,这个词典库将情感词分成了五个等级的情感权值和三类词;本发明用数字1表示正向词,数字2表示负向词,0表示中性词且它的情感权值为0,五个等级的情感权值分别为9、7、5、3、1,其主要用于匹配评论中已在基础情感词典中的的情感词;示例如表1所示。
表1基础情感词典示例
情感词 | 词性种类 | 权值 | 极性 |
绝望 | 形容词 | 9 | 2 |
瑞雪 | 名词 | 5 | 1 |
开心 | 形容词 | 5 | 1 |
数落 | 动词 | 0 | 0 |
图3中所述的否定词词典包括否定词和反问词两部分,否定词和反问词修饰情感词时,都会改变词的情感极性,但反问词语气更强,而双重否定词不会改变词的情感极性,但是语气会更加强烈,通过人工筛选共获取25个否定词构成否定词词典,其中否定词权值为-1,反问词权值为-2,双重否定词权值为1;示例如表2所示。
表2否定词词典和双重否定词词典示例
词语类型 | 词语 | 权值 |
否定词 | 不、没、无、否... | -1 |
反问词 | 难道、难不成、岂… | -2 |
双重否定词 | 不是不、绝非不… | 1 |
图3中所述的程度副词词典来自于知网词典库,将这些词一共分为6个等级,等级分别是超、最、很、较、稍、欠,分别对这6个等级赋予一定的权重,对所修饰的情感词的情感强度扩大一定的倍数,权重倍数分别为3、2.5、2、1.5、1、0.5,其主要用于匹配评论中的程度副词;示例如表3所示。
表3程度副词词典示例
等级 | 副词 | 权重倍数 | 个数 |
超 | 超、过度、忒... | 3 | 30 |
最 | 百分百、极度… | 2.5 | 69 |
很 | 何等、不过、太… | 2 | 42 |
较 | 那么、大不了、更… | 1.5 | 37 |
稍 | 稍微、略微、稍稍… | 1 | 29 |
欠 | 不那么、弱、不甚… | 0.5 | 12 |
图3中所述的领域情感词典是由语义相似度算法计算并判断出的情感新词而构成的集合,可以计算出其权值大小,然后这些情感新词构成领域情感词典;示例如表4所示。
表4领域情感词典示例
微博新词 | 权值 | 个数 |
真香、skr、锦鲤… | 2 | 18 |
官宣、佛系、确认过眼神… | 1 | 40 |
安排、凉凉、大猪蹄子… | -1 | 65 |
坑爹、尼玛、中年油腻男… | -2 | 41 |
下面结合图4对图1、图2和图3的方法进行实验的可行性验证,详见下文描述:
首先爬取豆瓣网上关于电影《战狼2》的评论数据集,然后分别利用基于基础情感词典的方法和基于本发明的方法对评论数据集进行情感分析实验,来测试本发明方法的性能,同时使用正确率(Accuracy)作为评价标准。通过图4的结果分析可知本发明的方法对豆瓣网上电影评论情感分析的正确率要比只基于基础情感词典方法对豆瓣网上电影评论情感分析的正确率高。由此验证可知,本发明提出的方法对豆瓣网电影评论情感分析具有很大的作用,将在此领域具有广泛的应用和前景。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (3)
1.一种面向豆瓣网电影评论的情感分析方法,其特征在于,包括以下步骤:
(1)首先对豆瓣网上的电影评论进行数据爬取操作,然后对这些数据进行预处理操作,包括删除停用词、分词和词性标注;
(2)构造用于电影评论情感分析所需的四类词典,四类词典分别为基础情感词典、否定词词典、程度副词词典和电影评论领域的情感词典;
(3)根据上述步骤(2)构造的情感词典,将单条电影评论经分词后得到的词语与情感词典进行扫描和匹配,得到若干情感词;当匹配到情感词时,进一步将修饰情感词的否定词、程度副词与否定词词典、程度副词词典进行扫描和匹配;根据四类词典,计算情感词的情感权值、否定词的权值和程度副词的权重倍数,然后对情感词的情感权值、否定词的权值和程度副词的权重倍数进行情感计算得到单条电影评论的情感权值;若情感权值大于或等于0,则该条电影评论情感极性为正向;若情感权值小于0,则该条电影评论情感极性为负向;
(4)因为所获得的电影评论数据中包含了用户的豆瓣评分,这些评分称为情感弱标注信息,评分一共有5个等级,所以选取评分在大于或等于3的电影评论的情感极性为正向,小于3的电影评论的情感极性为负向;
(5)通过步骤(3)中情感计算得到电影评论的情感极性和步骤(4)中用户的豆瓣评分情况得到的电影评论情感极性,来进一步确定电影评论的情感极性;若两者得到的情感极性都为正向的情况下,则确定该条电影评论情感极性为正向;若两者得到的情感极性都为负向的情况下,则确定该条电影评论情感极性为负向;若两者得到的情感极性是相反的情况下,则确定该条电影评论的情感极性为步骤(3)中经情感计算得到的情感极性。
2.根据权利要求1所述的面向豆瓣网电影评论的情感分析方法,其特征在于,在步骤(2)中,所述的四类情感词典构造方法步骤如下:
(1)基础情感词典取自于大连理工大学的中文情感词典库,这个词典库将情感词分成了五个等级的情感权值和三类词;本发明用数字1表示正向词,数字2表示负向词,0表示中性词且它的情感权值为0,五个等级的情感权值分别为9、7、5、3、1;
(2)否定词词典包括否定词和反问词两部分,否定词和反问词修饰情感词时,都会改变词的情感极性,但反问词语气更强,而双重否定词不会改变词的情感极性,但是语气会更加强烈,通过人工筛选共获取25个否定词构成否定词词典,其中否定词权值为-1,反问词权值为-2,双重否定词权值为1;
(3)程度副词词典来自于知网词典库,将这些词一共分为6个等级,等级分别是超、最、很、较、稍、欠,分别对这6个等级赋予一定的权重,对所修饰的情感词的情感强度扩大一定的倍数,权重倍数分别为3、2.5、2、1.5、1、0.5;
(4)电影评论领域的情感词典构造主要是由于基础情感词典还不完整,对情感词的概括是有限的,因此还需要对一些电影评论上特有的情感新词进行识别,并对这些新词构造一个情感词典;
提取情感新词的方法是将上述电影评论中经过分词后得到的词语与已有的基础情感词典进行扫描和匹配,若没有出现在基础情感词典中,则确定为新词;
确定情感新词的方法是利用PMI算法计算新词与种子词之间的语义相似度,最后计算未知新词的情感极性;
PMI又称点互信息,主要是可以计算词与词之间的相似度;未知词w1和种子词w2之间的相似度计算公式为:
其中P(w1,w2)表示w1,w2共同出现的概率,p(w1)、p(w2)分别表示w1,w2单独出现的概率;
此公式仅仅能计算一对词的语义相似度,在情感分析中不具有说服力,所以在考虑这个的基础上,在统计电影评论情感词的词频时,根据结果选取了30对正负向情感极性高的种子词,构成正向的情感词集合Wp和负向情感词集合WN,用来考察多词之间的语义相似度,同时对公式(1)进行改进,得出新词w的情感极性判断的新公式:
式(2)的值如果大于等于0,则新词w的情感极性为正向;小于0,新词w的情感极性为负向;将这些情感新词分为四个等级,每个等级的情感新词都赋予一定的情感权值,分别为2、1、-1、-2。
3.根据权利要求1所述的面向豆瓣网电影评论的情感分析方法,其特征在于,在步骤(3)中,所述的单条电影评论情感权值计算步骤如下:
单条电影评论用字母D表示,评论中各个情感词用Wi表示,seni表示情感词匹配情感词典得到的情感权值;
(1)词语情感值E(Wi)的计算公式为:
E(Wi)=Ni×Ai×seni (3)
公式(3)中:Ni表示否定词或者双重否定词、反问词的情感权值,Ai表示程度副词的权重倍数,seni表示情感词与情感词典匹配得到的情感权值,Wi表示情感词语,i表示情感词的个数;
(2)若情感词前出现否定词,则需要考虑否定词的个数;如果个数为奇数,则情感词的情感极性与原来相反;如果个数为偶数,即为双重否定词,则情感词的情感极性不变;具体的计算公式如下:
Ni=(-1)k (4)
其中,k为否定词的个数;若情感词前面出现反问词,则会改变情感词的情感极性并且强度更大,反问词的取值大小可以根据否定词词典得出权值为-2;
(3)由于否定词与程度副词的相对顺序关系对情感词的情感权值也有影响,比如“太不好看”和“不太好看”,显然第二句的情感比第一句的情感弱一些,因此,当否定词在程度副词之前时,将公式(3)的值乘以0.5;当程度副词在否定词之前时,将将公式(3)的值乘以-1;具体的计算公式如下:
公式(5)中loc(A)表示程度副词的位置,loc(N)表示否定词的位置;
(4)因此,最后得出单条电影评论的情感权值计算公式如下:
利用公式(6)得知,当式(6)的值大于0时,表示此条电影评论情感极性为正向;当式(6)的值小于0时,表示此条电影评论情感极性为负向。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911009781.XA CN110598219A (zh) | 2019-10-23 | 2019-10-23 | 一种面向豆瓣网电影评论的情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911009781.XA CN110598219A (zh) | 2019-10-23 | 2019-10-23 | 一种面向豆瓣网电影评论的情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110598219A true CN110598219A (zh) | 2019-12-20 |
Family
ID=68850112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911009781.XA Pending CN110598219A (zh) | 2019-10-23 | 2019-10-23 | 一种面向豆瓣网电影评论的情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598219A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111104515A (zh) * | 2019-12-24 | 2020-05-05 | 山东众志电子有限公司 | 一种情感词语文本信息分类方法 |
CN111310455A (zh) * | 2020-02-11 | 2020-06-19 | 安徽理工大学 | 一种面向网购评论的新情感词极性计算方法 |
CN112000804A (zh) * | 2020-08-18 | 2020-11-27 | 安徽理工大学 | 一种微博热点话题用户群情感倾向性分析方法 |
CN112364646A (zh) * | 2020-11-18 | 2021-02-12 | 安徽财经大学 | 一种考虑修饰词的句子评论情感极性分析方法 |
CN112417892A (zh) * | 2020-12-08 | 2021-02-26 | 珠海横琴博易数据技术有限公司 | 一种语义情感识别方法 |
CN112668330A (zh) * | 2020-12-31 | 2021-04-16 | 北京大米科技有限公司 | 一种数据处理的方法、装置、可读存储介质和电子设备 |
CN112926307A (zh) * | 2021-03-19 | 2021-06-08 | 闽江学院 | 基于依存关系的评价对象情感分析方法及存储介质 |
CN113254647A (zh) * | 2021-06-11 | 2021-08-13 | 大唐融合通信股份有限公司 | 课程质量分析方法、装置及*** |
CN116805147A (zh) * | 2023-02-27 | 2023-09-26 | 杭州城市大脑有限公司 | 应用于城市大脑自然语言处理的文本标注方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017051425A1 (en) * | 2015-09-23 | 2017-03-30 | Devanathan Giridhari | A computer-implemented method and system for analyzing and evaluating user reviews |
CN109684647A (zh) * | 2019-02-19 | 2019-04-26 | 东北林业大学 | 电影评论情感分析方法及装置 |
-
2019
- 2019-10-23 CN CN201911009781.XA patent/CN110598219A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017051425A1 (en) * | 2015-09-23 | 2017-03-30 | Devanathan Giridhari | A computer-implemented method and system for analyzing and evaluating user reviews |
CN109684647A (zh) * | 2019-02-19 | 2019-04-26 | 东北林业大学 | 电影评论情感分析方法及装置 |
Non-Patent Citations (1)
Title |
---|
吴杰胜等: "基于多部情感词典与SVM的电影评论情感分析", 《阜阳师范学院学报(自然科学版)》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111104515A (zh) * | 2019-12-24 | 2020-05-05 | 山东众志电子有限公司 | 一种情感词语文本信息分类方法 |
CN111310455A (zh) * | 2020-02-11 | 2020-06-19 | 安徽理工大学 | 一种面向网购评论的新情感词极性计算方法 |
CN112000804A (zh) * | 2020-08-18 | 2020-11-27 | 安徽理工大学 | 一种微博热点话题用户群情感倾向性分析方法 |
CN112000804B (zh) * | 2020-08-18 | 2022-08-02 | 安徽理工大学 | 一种微博热点话题用户群情感倾向性分析方法 |
CN112364646A (zh) * | 2020-11-18 | 2021-02-12 | 安徽财经大学 | 一种考虑修饰词的句子评论情感极性分析方法 |
CN112417892A (zh) * | 2020-12-08 | 2021-02-26 | 珠海横琴博易数据技术有限公司 | 一种语义情感识别方法 |
CN112668330A (zh) * | 2020-12-31 | 2021-04-16 | 北京大米科技有限公司 | 一种数据处理的方法、装置、可读存储介质和电子设备 |
CN112668330B (zh) * | 2020-12-31 | 2024-01-26 | 北京大米科技有限公司 | 一种数据处理的方法、装置、可读存储介质和电子设备 |
CN112926307A (zh) * | 2021-03-19 | 2021-06-08 | 闽江学院 | 基于依存关系的评价对象情感分析方法及存储介质 |
CN113254647A (zh) * | 2021-06-11 | 2021-08-13 | 大唐融合通信股份有限公司 | 课程质量分析方法、装置及*** |
CN116805147A (zh) * | 2023-02-27 | 2023-09-26 | 杭州城市大脑有限公司 | 应用于城市大脑自然语言处理的文本标注方法及装置 |
CN116805147B (zh) * | 2023-02-27 | 2024-03-22 | 杭州城市大脑有限公司 | 应用于城市大脑自然语言处理的文本标注方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598219A (zh) | 一种面向豆瓣网电影评论的情感分析方法 | |
Li et al. | Sentiment analysis of danmaku videos based on naïve bayes and sentiment dictionary | |
Sahu et al. | Sentiment analysis of movie reviews: A study on feature selection & classification algorithms | |
CN107609132B (zh) | 一种基于语义本体库中文文本情感分析方法 | |
Li et al. | Structure-aware review mining and summarization | |
CN109885670A (zh) | 一种面向话题文本的交互注意力编码情感分析方法 | |
Chang et al. | Research on detection methods based on Doc2vec abnormal comments | |
CN106326212A (zh) | 一种基于层次深度语义的隐式篇章关系分析方法 | |
CN110390018A (zh) | 一种基于lstm的社交网络评论生成方法 | |
Lu et al. | Sentiment analysis of film review texts based on sentiment dictionary and SVM | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN106202584A (zh) | 一种基于标准词典和语义规则的微博情感分析方法 | |
CN109101490B (zh) | 一种基于融合特征表示的事实型隐式情感识别方法和*** | |
CN111626050B (zh) | 基于表情词典与情感常识的微博情感分析方法 | |
CN107688870A (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN112966526A (zh) | 一种基于情感词向量的汽车在线评论情感分析方法 | |
Mozafari et al. | Emotion detection by using similarity techniques | |
Zhang et al. | A data processing method based on sequence labeling and syntactic analysis for extracting new sentiment words from product reviews | |
Guo et al. | Local government debt risk assessment: A deep learning-based perspective | |
Batra et al. | A large-scale tweet dataset for urdu text sentiment analysis | |
CN115329085A (zh) | 一种社交机器人分类方法及*** | |
CN107818173A (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
Song et al. | Recommending hashtags to forthcoming tweets in microblogging | |
Zhao et al. | POS-ATAEPE-BiLSTM: an aspect-based sentiment analysis algorithm considering part-of-speech embedding | |
Gatchalee et al. | Thai text classification experiment using cnn and transformer models for timely-timeless content marketing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191220 |
|
WD01 | Invention patent application deemed withdrawn after publication |