CN112417892A - 一种语义情感识别方法 - Google Patents
一种语义情感识别方法 Download PDFInfo
- Publication number
- CN112417892A CN112417892A CN202011421315.5A CN202011421315A CN112417892A CN 112417892 A CN112417892 A CN 112417892A CN 202011421315 A CN202011421315 A CN 202011421315A CN 112417892 A CN112417892 A CN 112417892A
- Authority
- CN
- China
- Prior art keywords
- emotion
- score
- clause
- total
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 23
- 230000008451 emotion Effects 0.000 claims abstract description 73
- 230000002996 emotional effect Effects 0.000 claims description 32
- 230000007935 neutral effect Effects 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语义情感识别方法,能够提高基于情感词典的情感分类的准确性,减少误判数量,解决情感词典领域局限性,提高情感词汇的覆盖率和单一依靠情感词汇判断情感倾向效果不佳的问题。
Description
技术领域
本发明涉及情感识别技术领域,特别涉及一种语义情感识别方法。
背景技术
目前,情感分析(或情绪分析)方法主要有2种,基于情感词典的分析方法与基于机器学习(或深度学习)的分析方法;这两种方法各有利弊,其中基于情感词典的分析方法技术较为基础,由于更新调整更为灵活、便捷,也很常用,其弊端有以下几点:
1、情感词典通常带有领域性,词典的覆盖率在一定程度上决定了情感分类的效果。若规模较小会遗漏很多情感词,若范围太大区分性不强,都会造成分析结果的错误。
2、目前还没有一部通用且完整的情感词典。比较成熟的开源词典有知网HowNet中英文词典、台湾大学的NTUSD(中文情感极性词典)、LIWC、大连理工大学的中文情感词汇本体库、清华大学李军中文褒贬义词典等,他们的词典标注方式各不相同,使用起来较为麻烦。
情感倾向不仅与情感词有关,还与情感词的表达方式或句法规则等有重要关系,仅仅依靠情感词典并不能很好地完成情感分类。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种语义情感识别方法,提高基于情感词典的情感分类的准确性,减少误判数量;解决单一依靠情感词汇判断情感倾向效果不佳的问题。
本发明的一种实施例解决其技术问题所采用的技术方案是:一种语义情感识别方法,包括如下步骤:
步骤S1、创建情绪词典、程度副词词典和否定词词典;
步骤S2、将待分类文本按句切分成若干个子句,再将子句按语义切分成若干个词;
步骤S3、通过比对情绪词典、程度副词词典和否定词词典来找到各子句匹配的词汇,并获取词典标记好的强度分数或等级分数;
步骤S4、当前情绪词的基础强度分数记为Si,该情绪词所在位置的前面n个位置内出现否定词,正面词情感极性强度左移L个单位,Si=∑(Si-L),负面词的情感极性强度右移R个单位,Si=∑(Si+R);该情感词所在位置的前面n个位置内出现程度副词,该副词强度分数记为Wi,依据程度副词的程度大小,该处情感极性强度分数乘以对应词典标示的系数,Si=∑(Wi×Si),将整句的情感强度分数汇总得到总分WS,WS=∑Si,WS表示该子句的全部情绪词、程度副词、否定词遍历计算后得到的情感总分数;
步骤S5、汇总各个子句的分析结果,包括正面子句总句数Pos、中立子句总句数Mid、负面子句总句数Neg、总句数N=Pos+Mid+Neg、正面子句总分数PWS、负面子句总分数NWS、总分数TWS=PWS+NWS,字符总数Char。
所述一种语义情绪识别方法还包括步骤S6:
调整TWS中NWS的权重系数,所述NWS的权重系数设置为α,则TWS=PWS+α×NWS,其中α值设置为1.5。
所述一种语义情绪识别方法还包括步骤S7:
利用评估函数Score=(TWS/N+σ×TWS/Char)/2计算得到全文情绪评估分数Score,将评估分数Score代入判别函数Fun=Score/(Score×Score+β)1/2计算得到最终的整体情感分类,若Fun>=0.5,则最终待分析文本判为正面;若Fun<=-0.5,则最终待分析文本判为负面;若-0.5<Fun<0.5,则最终待分析文本判为中立。
优选的,所述系数σ的值设置为30。
优选的,所述系数β的值设置为7。
在步骤S4中:
若是长文,则对首尾指定数量的子句的情绪总成予以重视,优先加权乘以对应加权系数θ,则该子句调整后的情感总分WS=WS×θ;若该子句总分数WS>0,则子句情感倾向判为正面;若该子句总分数WS<0,则子句情感倾向判为负面;若该子句总分数WS=0,则子句情感倾向判为中立。
优选的,所述长文的子句数量不少于10句。
优选的,对首尾各2句子句优先加权。
优选的,所述加权系数θ的值设置为1.5。
本发明的有益效果:通过本发明所公开的一种语义情感识别方法,能够提高基于情感词典的情感分类的准确性,减少误判数量,解决情感词典领域局限性,提高情感词汇的覆盖率和单一依靠情感词汇判断情感倾向效果不佳的问题。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为情绪词典的部分词语及对应的强度分数表;
图2为程度副词词典的部分词语及对应的强度分数表;
图3为否定词典的部分词语表。
具体实施方式
本部分将详细描述本发明的具体实施例,本发明之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案,但其不能理解为对本发明保护范围的限制。
在本发明的描述中,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
本发明中,除非另有明确的限定,“设置”、“安装”、“连接”等词语应做广义理解,例如,可以是直接相连,也可以通过中间媒介间接相连;可以是固定连接,也可以是可拆卸连接,还可以是一体成型;可以是机械连接;可以是两个元件内部的连通或两个元件的相互作用关系。所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
参照图1至图3,一种语义情感识别方法,包括如下步骤:
步骤S1、创建情绪词典、程度副词词典和否定词词典;
步骤S2、将待分类文本按句切分成若干个子句,再将子句按语义切分成若干个词;
步骤S3、通过比对情绪词典、程度副词词典和否定词词典来找到各子句匹配的词汇,并获取词典标记好的强度分数或等级分数;
步骤S4、当前情绪词的基础强度分数记为Si,该情绪词所在位置的前面1个或2个位置出现否定词,正面词情感极性强度左移8个单位,Si=∑(Si-8),负面词的情感极性强度右移8个单位,Si=∑(Si+8);该情感词所在位置的前面1个或2个位置出现程度副词,该副词强度分数记为Wi,依据程度副词的程度大小,该处情感极性强度分数乘以对应词典标示的系数,Si=∑(Wi×Si),将整句的情感强度分数汇总得到总分WS,WS=∑Si,WS表示该子句的全部情绪词、程度副词、否定词遍历计算后得到的情感总分数;
步骤S5、汇总各个子句的分析结果,包括正面子句总句数Pos、中立子句总句数Mid、负面子句总句数Neg、总句数N=Pos+Mid+Neg、正面子句总分数PWS、负面子句总分数NWS、总分数TWS=PWS+NWS。
在本发明中,整合了目前较为流行且成熟的开源词典资源,能够方便使用,用于使用算法模型进行实时机器编码,实现自动化情感分类,能够快速且较为准确地识别语义情感。
所述一种语义情绪识别方法还包括步骤S6:
调整TWS中NWS的权重系数,所述NWS的权重系数设置为1.5,则TWS=PWS+1.5×NWS;这是因为同等情况下,往往负面语义比正面语义给人的冲击更为深刻,因此对NWS的权重系数进行调整。
所述一种语义情绪识别方法还包括步骤S7:
利用评估函数Score=(TWS/N+30×TWS/Char)/2计算得到全文情绪评估分数Score,将评估分数Score代入判断函数Fun=Score/(Score×Score+7)1/2计算得到最终的整体情感分类,若Fun>=0.5,则最终待分析文本判为正面;若Fun<=-0.5,则最终待分析文本判为负面;若-0.5<Fun<0.5,则最终待分析文本判为中立;这是考虑到情感倾向不仅与语义有直接关系,还与文字长度有关,往往文字越长,除非极性特别明显,否则更倾向于中立。
在步骤S4中:
若是长文,则对首尾指定数量的子句的情绪总成予以重视,优先加权乘以对应加权系数θ,则该子句调整后的情感总分WS=WS×θ;若该子句总分数WS>0,则子句情感倾向判为正面;若该子句总分数WS<0,则子句情感倾向判为负面;若该子句总分数WS=0,则子句情感倾向判为中立。
所述长文的子句数量不少于10句;对首尾各2句子句优先加权;所述加权系数θ的值设置为1.5;非“长文”情况下,即子句的数量少于10句时不做调整,即加权系数θ=1。
参照图1,为情绪词典,其中展示了情绪词典的部分词语及其对应的情绪强度等级和分数,采用1、3、5、7、9共5个等级来区分情绪强度,分数越高则表示情绪强度越大,反之则情绪强度越小;正、负号用来区分情绪倾向的方向,“﹢”(一般省略)表示为正面词、“-”表示为负面词,即共10种标记值。
参照图2,为程度副词词典,其中展示了情绪词典的部分词语及其对应的情绪强度等级和分数,采用1.8、1.4、1.1、0.6、0.2共5等级来区分强度,分数越高对被修饰的情感词的影响越大,反之对被修饰的情感词的影响越小。
参照图3,为否定词词典,包括但不仅限于“不”、“不会”、“没”、“非”、“无”、“未必”、“not”、“without”;否定词是表示否定含义的词语,它的出现会改变所修饰词语的情感倾向,但往往并非极性反转,比如“不是特别喜欢...”,含义上并非“讨厌”,而是仍有一定程度的“喜欢”。
当然,本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出等同变形或替换,这些等同的变形和替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种语义情感识别方法,其特征在于,包括如下步骤:
步骤S1、创建情绪词典、程度副词词典和否定词词典;
步骤S2、将待分类文本按句切分成若干个子句,再将子句按语义切分成若干个词;
步骤S3、通过比对情绪词典、程度副词词典和否定词词典来找到各子句匹配的词汇,并获取词典标记好的强度分数或等级分数;
步骤S4、当前情绪词的基础强度分数记为Si,该情绪词所在位置的前面n个位置内出现否定词,正面词情感极性强度左移L个单位,Si=∑(Si-L),负面词的情感极性强度右移R个单位,Si=∑(Si+R);该情感词所在位置的前面n个位置内出现程度副词,该副词强度分数记为Wi,依据程度副词的程度大小,该处情感极性强度分数乘以对应词典标示的系数,Si=∑(Wi×Si),将整句的情感强度分数汇总得到总分WS,WS=∑Si,WS表示该子句的全部情绪词、程度副词、否定词遍历计算后得到的情感总分数;
步骤S5、汇总各个子句的分析结果,包括正面子句总句数Pos、中立子句总句数Mid、负面子句总句数Neg、总句数N=Pos+Mid+Neg、正面子句总分数PWS、负面子句总分数NWS、总分数TWS=PWS+NWS,字符总数Char。
2.根据权利要求1所述的一种语义情感识别方法,其特征在于,还包括步骤S6:
调整TWS中NWS的权重系数,所述NWS的权重系数设置为α,则TWS=PWS+α×NWS,其中α设置为1.5。
3.根据权利要求2所述的一种语义情感识别方法,其特征在于,还包括步骤S7:
利用评估函数Score=(TWS/N+σ×TWS/Char)/2计算得到全文情绪评估分数Score,将评估分数Score代入判别函数Fun=Score/(Score×Score+β)1/2计算得到最终的整体情感分类,若Fun>=0.5,则最终待分析文本判为正面;若Fun<=-0.5,则最终待分析文本判为负面;若-0.5<Fun<0.5,则最终待分析文本判为中立。
4.根据权利要求3所述的一种语义情感识别方法,其特征在于:所述系数σ的值设置为30,β的值设置为7。
5.根据权利要求1所述的一种语义情感识别方法,其特征在于:所述强度平移单位数L、R的值都设置为8。
6.根据权利要求1所述的一种语义情感识别方法,其特征在于:所述情绪词所在位置的前面位置数n的值设置为2。
7.根据权利要求1所述的一种语义情感识别方法,其特征在于,在步骤S4中:
若是长文,则对首尾指定数量的子句的情绪总分予以重视,优先加权乘以对应加权系数θ,则该子句调整后的情感总分WS=WS×θ;若该子句总分数WS>0,则子句情感倾向判为正面;若该子句总分数WS<0,则子句情感倾向判为负面;若该子句总分数WS=0,则子句情感倾向判为中立。
8.根据权利要求7所述的一种语义情感识别方法,其特征在于:所述长文的子句数量不少于10句。
9.根据权利要求7所述的一种语义情感识别方法,其特征在于:对首尾各2句子句优先加权。
10.根据权利要求7所述的一种语义情感识别方法,其特征在于:所述加权系数θ的值设置为1.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011421315.5A CN112417892A (zh) | 2020-12-08 | 2020-12-08 | 一种语义情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011421315.5A CN112417892A (zh) | 2020-12-08 | 2020-12-08 | 一种语义情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112417892A true CN112417892A (zh) | 2021-02-26 |
Family
ID=74776655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011421315.5A Pending CN112417892A (zh) | 2020-12-08 | 2020-12-08 | 一种语义情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417892A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893344A (zh) * | 2016-03-28 | 2016-08-24 | 北京京东尚科信息技术有限公司 | 基于用户语义情感分析的应答方法和装置 |
CN106503049A (zh) * | 2016-09-22 | 2017-03-15 | 南京理工大学 | 一种基于svm融合多种情感资源的微博情感分类方法 |
CN110362679A (zh) * | 2019-06-05 | 2019-10-22 | 北京大学(天津滨海)新一代信息技术研究院 | 一种基于情感词典的金融领域评论情感分类方法及*** |
CN110598219A (zh) * | 2019-10-23 | 2019-12-20 | 安徽理工大学 | 一种面向豆瓣网电影评论的情感分析方法 |
-
2020
- 2020-12-08 CN CN202011421315.5A patent/CN112417892A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893344A (zh) * | 2016-03-28 | 2016-08-24 | 北京京东尚科信息技术有限公司 | 基于用户语义情感分析的应答方法和装置 |
CN106503049A (zh) * | 2016-09-22 | 2017-03-15 | 南京理工大学 | 一种基于svm融合多种情感资源的微博情感分类方法 |
CN110362679A (zh) * | 2019-06-05 | 2019-10-22 | 北京大学(天津滨海)新一代信息技术研究院 | 一种基于情感词典的金融领域评论情感分类方法及*** |
CN110598219A (zh) * | 2019-10-23 | 2019-12-20 | 安徽理工大学 | 一种面向豆瓣网电影评论的情感分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Charniak et al. | Edit detection and parsing for transcribed speech | |
Pradhan et al. | Semantic role labeling using different syntactic views | |
US7424675B2 (en) | Language input architecture for converting one text form to another text form with tolerance to spelling typographical and conversion errors | |
CN106096664B (zh) | 一种基于社交网络数据的情感分析方法 | |
US8341520B2 (en) | Method and system for spell checking | |
Dolan et al. | Automatically constructing a corpus of sentential paraphrases | |
CN104008091B (zh) | 一种基于情感值的网络文本情感分析方法 | |
CN107391486A (zh) | 一种基于统计信息和序列标注的领域新词识别方法 | |
CN107423289A (zh) | 一种跨类型乳腺肿瘤临床文档的结构化处理方法 | |
CN111444706A (zh) | 一种基于深度学习的裁判文书文本纠错方法及*** | |
CN104462409A (zh) | 基于AdaBoost的跨语言情感资源数据识别方法 | |
CN105512110A (zh) | 一种基于模糊匹配与统计的错字词知识库构建方法 | |
Stein et al. | Hand in hand: automatic sign language to English translation | |
CN106055633A (zh) | 一种中文微博主客观句分类方法 | |
JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
Arikan et al. | Detecting clitics related orthographic errors in Turkish | |
CN102929863A (zh) | 通过计算机智能分析汉语文字情感倾向的方法 | |
CN1273915C (zh) | 修改或改进词语使用的方法和装置 | |
CN112417892A (zh) | 一种语义情感识别方法 | |
Song et al. | Research on text error detection and repair method based on online learning community | |
Nguyen et al. | Predicting the proficiency level of nonnative Hebrew authors | |
Karimi | Machine transliteration of proper names between English and Persian | |
Fazal et al. | An innovative approach for automatically grading spelling in essays using rubric-based scoring | |
Islam et al. | Readability classification of bangla texts | |
Segler | Investigating the selection of example sentences for unknown target words in ICALL reading texts for L2 German |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |