CN112926307A - 基于依存关系的评价对象情感分析方法及存储介质 - Google Patents

基于依存关系的评价对象情感分析方法及存储介质 Download PDF

Info

Publication number
CN112926307A
CN112926307A CN202110297976.XA CN202110297976A CN112926307A CN 112926307 A CN112926307 A CN 112926307A CN 202110297976 A CN202110297976 A CN 202110297976A CN 112926307 A CN112926307 A CN 112926307A
Authority
CN
China
Prior art keywords
words
word
evaluation object
emotion
dependency relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110297976.XA
Other languages
English (en)
Inventor
杨晓燕
修锦鸿
徐戈
王炅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minjiang University
Original Assignee
Minjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minjiang University filed Critical Minjiang University
Priority to CN202110297976.XA priority Critical patent/CN112926307A/zh
Publication of CN112926307A publication Critical patent/CN112926307A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

一种基于依存关系的评价对象情感分析方法及存储介质,其中方法包括如下步骤,S1、对文本进行分词处理,与情感词典进行匹配,判断其是否为情感词,提取情感词;S2、根据情感词与候选评价对象词之间的直接、间接依存关系找到评价对象;S3、抽取与情感词有直接依存关系的词与知网程度词典、知网否定词典进行匹配,判断其是否为程度副词、否定词,并分别计算情感词、程度副词、否定词分数;S4、对各评价对象进行情感倾向计算。上述方案,可用于对评价文本中的各评价对象进行情感倾向性量化。

Description

基于依存关系的评价对象情感分析方法及存储介质
技术领域
本发明涉及语义识别领域,尤其涉及基于依存关系的评价对象情感分析方法。
背景技术
在现有的语义分析技术方案中,如专利号201610537567.1的技术方案,用于基于依存关系进行评价对象的选取,以及申请号2017107837114的技术方案,用于基于依存关系进行评价对象抽取。上述对象能够对句子的语义进行分析,并提取其中的评价对象。我们的技术方案在现有技术方案的基础上上,尝试对评价对象的情感分析进行进一步的改进。
发明内容
为此,需要提供一种能够在基于依存关系的评价对象提取后建立评价体系的方法,以解决在现有技术中对评价对象情感分析的问题;
为实现上述目的,发明人提供了一种基于依存关系的评价对象情感分析方法,包括如下步骤,
S1、对文本进行分词处理,与情感词典进行匹配,判断其是否为情感词,提取情感词;
S2、根据情感词与候选评价对象词之间的直接、间接依存关系找到评价对象;
S3、抽取与情感词有直接依存关系的词与程度词典、否定词典进行匹配,判断其是否为程度副词、否定词,并分别计算情感词分数、程度副词分数、否定词分数;
S4、根据计算情感词分数、程度副词分数、否定词分数对各评价对象进行情感倾向计算。
具体地,所述步骤S2具体实现如下:
S21、定义观点评价对象词与情感词之间的直接、间接依存关系:
(1)定义观点评价对象词与情感词之间的直接依存关系,即:观点评价对象词与情感词之间存在依存关系,且在依存路径上没有依赖其他词;观点评价对象词与情感词之间的直接依存关系包括:父亲关系、儿子关系;
(2)定义观点评价对象词与情感词之间的间接依存关系,即:观点评价对象词与情感词通过其他词产生依存关系;观点评价对象词与情感词之间的间接依存关系包括:兄弟关系、夫妻关系、祖父关系、孙子关系、远亲关系;
S22、基于步骤S21定义的观点评价对象词与情感词之间的依存关系,构建观点评价对象词与情感词之间的直接依存关系模板和间接依存关系模板;
(1)根据观点评价对象词与情感词之间的直接依存关系,构建观点评价对象词与情感词之间的直接依存关系模板,具体表示为(dp,target,relate,opinion),其中:dp表示观点评价对象词与情感词之间的依存关系;target指观点评价对象词;relate表示观点评价对象词与情感词之间的依存关系形式,并用-1表示观点评价对象词是情感词的父亲节点,用+1表示观点评价对象词是情感词的儿子节点;opinion指情感词;
(2)根据观点评价对象词与情感词之间的间接依存关系,构建观点评价对象词与情感词之间的间接依存关系模板,具体表示为(dp1,target,relate1,middle1)+…+(dpk-1,middlek-1,relatek-1,middlek)+(dpk,middlek,relatek,opinion),其中:dp1表示第1个观点评价对象词与第1个中间词的依存关系;relate1表示第1个观点评价对象词与第1个中间词之间的依存关系形式,用-1或+1表示;middlek指第k个中间词;dpk表示第k个情感词与第k个中间词的依存关系;relatek表示第k个情感词与第k个中间词的依存关系形式,用-1或+1表示;
S23、基于依存关系模板抽取观点评价对象;
(1)候选观点评价对象词预处理:
a、词性过滤:仅将名词或名词短语作为候选评价对象词;
b、停用词过滤:过滤停用词;
c、位置过滤:过滤不存在情感词的分句中的观点评价对象词;
(2)候选观点评价对象词分数计算:
设集合X={x1,x2,...,xi,...,xu}与集合Y={y1,y2,...,yj,...,yv},取X×Y的一个子集R构造一个从X到Y的匹配关系,若<xi,yj>∈R,即称xi与yj有匹配关系,记作xiRyj;若
Figure BDA0002985034030000031
即称xi与yj没有匹配关系,记作
Figure BDA0002985034030000032
依存关系模板与候选观点评价对象词的匹配关系用二维矩阵表示为W=(wij),i={1,2,...,u},j={1,2,...,v},其中:u表示依存关系模板个数;v表示候选观点评价对象词候选个数;
当第i个依存关系模板与第j个候选观点评价对象词存在匹配关系时wij=wij+1;
而后通过公式①计算第j个候选观点评价对象词分数
Figure BDA0002985034030000033
若swj大于0.0025,则该第j个候选观点评价对象词即为观点评价对象种子词;
(3)候选依存关系模板分数计算:
观点评价对象种子词与候选依存关系模板之间匹配关系用二维矩阵P=(pts),t={1,2,...,m},s={1,2,...,n}表示;其中:m表示观点评价对象种子词个数;n表示候选依存关系模板个数;
当第t个观点评价对象种子词与第s个候选依存关系模板存在匹配关系时pts=pts+1;
而后通过公式②算第s个候选依存关系模板分数
Figure BDA0002985034030000041
若sps大于0.05,则该第s个候选依存关系模板即为依存关系种子模板;
(4)基于依存关系的观点评价对象边界识别规则:
ATT规则:若当前词是观点评价对象词,前一个词或后一个词与该词具有定中关系ATT或数量关系QUN或“的”字结构DE关系,则前一个词或后一个词扩展为观点评价对象词;
合并规则:若当前词是观点评价对象词,该词的前一个词或后一个词是候选观点评价对象词,则前一个词或后一个词扩展为观点评价对象词;
所述步骤(3)候选依存关系模板分数计算、(4)基于依存关系的观点评价对象边界识别规则之间还包括一步骤,即:由步骤(2)、(3)得到的观点评价对象种子词、依存关系种子模板重新对步骤(1)处理的候选观点评价对象词进行训练,直至没有新的观点评价对象种子词产生。
进一步地,所述步骤S3具体实现如下:
S31、否定词的分数计算;
S32、程度副词的分数计算;
S33、情感词的分数计算;
所述步骤S31具体实现如下:
S31、否定词的分数计算;
抽取与情感词有直接依存关系的词与知网否定词典进行匹配,判断其是否为否定词。如果存在否定词,该词分数设为-1,如果不存在否定词,分数设为1。
S32、程度副词的分数计算;
(1)在知网程度词典中,程度副词分为5个等级,1级是程序最高,5级是程度最低,再补充一个没有程度副词的情况,将这6个级别归一化处理,得到每个程度级别的分数{0.325,0.225,0.18,0.135,0.09,0.045}。
(2)抽取与情感词有直接依存关系的词与知网程度词典进行匹配,判断其是否为程度词,并根据词典对应的等级设置分数;
S33、情感词的分数计算;
将积极情感词分数设置为1、消极情感词分数设置为–1。
具体地,所述步骤S4具体实现如下:
S41、对各个评价对象的情感进行分数计算;
由于一个评价对象可能有多个情感词、多个程度副词对其进行评价。因此对评价对象的每组情感词、程度词、否定词分数进行叠加计算得到该评价对象的分数。分数计算如公式③:
Figure BDA0002985034030000051
其中,i表示修饰评价对象的第i组词,包含情感词、程度副词、否定词,negval(i)表示第i组否定词;degree(i)表示第i组程度副词;sentiment(i)表示第i组情感词;
S42、各评价对象的情感倾向性分析
根据得到的分数值,将其转换成百分比数值从而得到该评价对象的情感倾向性,所述分数值为正数则是对该评价对象的正面评价,否则是负面评价,分数值得绝对值越高说明情感倾向程度越高。
一种基于依存关系的评价对象情感分析存储介质,存储有计算机程序,所述计算机程序在被执行时进行包括如下步骤:
S1、对文本进行分词处理,与情感词典进行匹配,判断其是否为情感词,提取情感词;
S2、根据情感词与候选评价对象词之间的直接、间接依存关系找到评价对象;
S3、抽取与情感词有直接依存关系的词与程度词典、否定词典进行匹配,判断其是否为程度副词、否定词,并分别计算情感词分数、程度副词分数、否定词分数;
S4、根据计算情感词分数、程度副词分数、否定词分数对各评价对象进行情感倾向计算。
具体地,所述计算机程序在被执行时进行的步骤S2具体实现如下:
S21、定义观点评价对象词与情感词之间的直接、间接依存关系:
(1)定义观点评价对象词与情感词之间的直接依存关系,即:观点评价对象词与情感词之间存在依存关系,且在依存路径上没有依赖其他词;观点评价对象词与情感词之间的直接依存关系包括:父亲关系、儿子关系;
(2)定义观点评价对象词与情感词之间的间接依存关系,即:观点评价对象词与情感词通过其他词产生依存关系;观点评价对象词与情感词之间的间接依存关系包括:兄弟关系、夫妻关系、祖父关系、孙子关系、远亲关系;
S22、基于步骤S21定义的观点评价对象词与情感词之间的依存关系,构建观点评价对象词与情感词之间的直接依存关系模板和间接依存关系模板;
(1)根据观点评价对象词与情感词之间的直接依存关系,构建观点评价对象词与情感词之间的直接依存关系模板,具体表示为(dp,target,relate,opinion),其中:dp表示观点评价对象词与情感词之间的依存关系;target指观点评价对象词;relate表示观点评价对象词与情感词之间的依存关系形式,并用-1表示观点评价对象词是情感词的父亲节点,用+1表示观点评价对象词是情感词的儿子节点;opinion指情感词;
(2)根据观点评价对象词与情感词之间的间接依存关系,构建观点评价对象词与情感词之间的间接依存关系模板,具体表示为(dp1,target,relate1,middle1)+…+(dpk-1,middlek-1,relatek-1,middlek)+(dpk,middlek,relatek,opinion),其中:dp1表示第1个观点评价对象词与第1个中间词的依存关系;relate1表示第1个观点评价对象词与第1个中间词之间的依存关系形式,用-1或+1表示;middlek指第k个中间词;dpk表示第k个情感词与第k个中间词的依存关系;relatek表示第k个情感词与第k个中间词的依存关系形式,用-1或+1表示;
S23、基于依存关系模板抽取观点评价对象;
(1)候选观点评价对象词预处理:
a、词性过滤:仅将名词或名词短语作为候选评价对象词;
b、停用词过滤:过滤停用词;
c、位置过滤:过滤不存在情感词的分句中的观点评价对象词;
(2)候选观点评价对象词分数计算:
设集合X={x1,x2,...,xi,...,xu}与集合Y={y1,y2,...,yj,...,yv},取X×Y的一个子集R构造一个从X到Y的匹配关系,若<xi,yj>∈R,即称xi与yj有匹配关系,记作xiRyj;若
Figure BDA0002985034030000071
即称xi与yj没有匹配关系,记作
Figure BDA0002985034030000072
依存关系模板与候选观点评价对象词的匹配关系用二维矩阵表示为W=(wij),i={1,2,...,u},j={1,2,...,v},其中:u表示依存关系模板个数;v表示候选观点评价对象词候选个数;
当第i个依存关系模板与第j个候选观点评价对象词存在匹配关系时wij=wij+1;
而后通过公式①计算第j个候选观点评价对象词分数
Figure BDA0002985034030000073
若swj大于0.0025,则该第j个候选观点评价对象词即为观点评价对象种子词;
(3)候选依存关系模板分数计算:
观点评价对象种子词与候选依存关系模板之间匹配关系用二维矩阵P=(pts),t={1,2,...,m},s={1,2,...,n}表示;其中:m表示观点评价对象种子词个数;n表示候选依存关系模板个数;
当第t个观点评价对象种子词与第s个候选依存关系模板存在匹配关系时pts=pts+1;
而后通过公式②算第s个候选依存关系模板分数
Figure BDA0002985034030000081
若sps大于0.05,则该第s个候选依存关系模板即为依存关系种子模板;
(4)基于依存关系的观点评价对象边界识别规则:
ATT规则:若当前词是观点评价对象词,前一个词或后一个词与该词具有定中关系ATT或数量关系QUN或“的”字结构DE关系,则前一个词或后一个词扩展为观点评价对象词;
合并规则:若当前词是观点评价对象词,该词的前一个词或后一个词是候选观点评价对象词,则前一个词或后一个词扩展为观点评价对象词;
所述步骤(3)候选依存关系模板分数计算、(4)基于依存关系的观点评价对象边界识别规则之间还包括一步骤,即:由步骤(2)、(3)得到的观点评价对象种子词、依存关系种子模板重新对步骤(1)处理的候选观点评价对象词进行训练,直至没有新的观点评价对象种子词产生。
进一步地,所述计算机程序在被执行时进行的步骤S3具体实现如下:
S31、否定词的分数计算;
S32、程度副词的分数计算;
S33、情感词的分数计算;
所述步骤S31具体实现如下:
S31、否定词的分数计算;
抽取与情感词有直接依存关系的词与知网否定词典进行匹配,判断其是否为否定词。如果存在否定词,该词分数设为-1,如果不存在否定词,分数设为1。
S32、程度副词的分数计算;
(1)在知网程度词典中,程度副词分为5个等级,1级是程序最高,5级是程度最低,再补充一个没有程度副词的情况,将这6个级别归一化处理,得到每个程度级别的分数{0.325,0.225,0.18,0.135,0.09,0.045}。
(2)抽取与情感词有直接依存关系的词与知网程度词典进行匹配,判断其是否为程度词,并根据词典对应的等级设置分数;
S33、情感词的分数计算;
将积极情感词分数设置为1、消极情感词分数设置为–1。
具体地,所述计算机程序在被执行时进行的步骤S4具体实现如下:
S41、对各个评价对象的情感进行分数计算;
由于一个评价对象可能有多个情感词、多个程度副词对其进行评价。因此对评价对象的每组情感词、程度词、否定词分数进行叠加计算得到该评价对象的分数。分数计算如公式③:
Figure BDA0002985034030000091
其中,i表示修饰评价对象的第i组词,包含情感词、程度副词、否定词,negval(i)表示第i组否定词;degree(i)表示第i组程度副词;sentiment(i)表示第i组情感词;
S42、各评价对象的情感倾向性分析
根据得到的分数值,将其转换成百分比数值从而得到该评价对象的情感倾向性,所述分数值为正数则是对该评价对象的正面评价,否则是负面评价,分数值得绝对值越高说明情感倾向程度越高。
通过上述方案,我们构建了一个在识别句子中的评价对象后,对该评价对象的情感倾向性的评价体系,得到的分数值为正则为正面评价,分数值为负则为负面评价,同时得分越高说明倾向性越高。解决了现有技术中无法对评价对象进行情感倾向性量化的问题。
附图说明
图1为具体实施方式所述的基于依存关系的评价对象情感分析方法流程图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1,一种基于依存关系的评价对象情感分析方法,包括如下步骤,对文本进行预处理抽取情感词,再抽取与该情感词有依存关系的评价对象、程度词、否定词,并对各评价对象进行情感倾向计算。
S1、对文本进行分词处理,与情感词典进行匹配,判断其是否为情感词,提取情感词;这里的情感词典可以选用现有技术的情感词典,如知网情感词典。
S2、根据情感词与候选评价对象词之间的直接、间接依存关系找到评价对象;
S3、抽取与情感词有直接依存关系的词与知网程度词典、知网否定词典进行匹配,判断其是否为程度副词、否定词,并分别计算情感词、程度副词、否定词分数;
S4、对各评价对象进行情感倾向计算。
在进一步的实施例中,所述步骤S2具体实现如下:
S21、定义观点评价对象词与情感词之间的直接、间接依存关系:
(1)定义观点评价对象词与情感词之间的直接依存关系,即:观点评价对象词与情感词之间存在依存关系,且在依存路径上没有依赖其他词;观点评价对象词与情感词之间的直接依存关系包括:父亲关系、儿子关系;
(2)定义观点评价对象词与情感词之间的间接依存关系,即:观点评价对象词与情感词通过其他词产生依存关系;观点评价对象词与情感词之间的间接依存关系包括:兄弟关系、夫妻关系、祖父关系、孙子关系、远亲关系。
S22、基于步骤S11定义的观点评价对象词与情感词之间的依存关系,构建观点评价对象词与情感词之间的直接依存关系模板和间接依存关系模板;
(1)根据观点评价对象词与情感词之间的直接依存关系,构建观点评价对象词与情感词之间的直接依存关系模板,具体表示为(dp,target,relate,opinion),其中:dp表示观点评价对象词与情感词之间的依存关系;target指观点评价对象词;relate表示观点评价对象词与情感词之间的依存关系形式,并用-1表示观点评价对象词是情感词的父亲节点,用+1表示观点评价对象词是情感词的儿子节点;opinion指情感词;
(2)根据观点评价对象词与情感词之间的间接依存关系,构建观点评价对象词与情感词之间的间接依存关系模板,具体表示为(dp1,target,relate1,middle1)+…+(dpk-1,middlek-1,relatek-1,middlek)+(dpk,middlek,relatek,opinion),其中:dp1表示第1个观点评价对象词与第1个中间词的依存关系;relate1表示第1个观点评价对象词与第1个中间词之间的依存关系形式,用-1或+1表示;middlek指第k个中间词;dpk表示第k个情感词与第k个中间词的依存关系;relatek表示第k个情感词与第k个中间词的依存关系形式,用-1或+1表示;
S23、基于依存关系模板抽取观点评价对象;
(1)候选观点评价对象词预处理:
a、词性过滤:仅将名词或名词短语作为候选评价对象词;
b、停用词过滤:过滤停用词;
c、位置过滤:过滤不存在情感词的分句中的观点评价对象词;
(2)候选观点评价对象词分数计算:
设集合X={x1,x2,...,xi,...,xu}与集合Y={y1,y2,...,yj,...,yv},取X×Y的一个子集R构造一个从X到Y的匹配关系,若<xi,yj>∈R,即称xi与yj有匹配关系,记作xiRyj;若
Figure BDA0002985034030000121
即称xi与yj没有匹配关系,记作
Figure BDA0002985034030000122
依存关系模板与候选观点评价对象词的匹配关系用二维矩阵表示为W=(wij),i={1,2,...,u},j={1,2,...,v},其中:u表示依存关系模板个数;v表示候选观点评价对象词候选个数;
当第i个依存关系模板与第j个候选观点评价对象词存在匹配关系时wij=wij+1;
而后通过公式①计算第j个候选观点评价对象词分数
Figure BDA0002985034030000123
若swj大于0.0025,则该第j个候选观点评价对象词即为观点评价对象种子词;
(3)候选依存关系模板分数计算:
观点评价对象种子词与候选依存关系模板之间匹配关系用二维矩阵P=(pts),t={1,2,...,m},s={1,2,...,n}表示;其中:m表示观点评价对象种子词个数;n表示候选依存关系模板个数;
当第t个观点评价对象种子词与第s个候选依存关系模板存在匹配关系时pts=pts+1;
而后通过公式②算第s个候选依存关系模板分数
Figure BDA0002985034030000124
若sps大于0.05,则该第s个候选依存关系模板即为依存关系种子模板;
(4)基于依存关系的观点评价对象边界识别规则:
ATT规则:若当前词是观点评价对象词,前一个词或后一个词与该词具有定中关系ATT或数量关系QUN或“的”字结构DE关系,则前一个词或后一个词扩展为观点评价对象词;
合并规则:若当前词是观点评价对象词,该词的前一个词或后一个词是候选观点评价对象词,则前一个词或后一个词扩展为观点评价对象词;
所述步骤(3)、(4)之间还包括一步骤,即:由步骤(2)、(3)得到的观点评价对象种子词、依存关系种子模板重新对步骤(1)处理的候选观点评价对象词进行训练,直至没有新的观点评价对象种子词产生,再执行步骤(4)。
所述步骤S3具体实现如下:
S31、否定词的分数计算;
S32、程度副词的分数计算;
S33、情感词的分数计算;
所述步骤S31具体实现如下:
S31、否定词的分数计算;
抽取与情感词有直接依存关系的词与否定词典进行匹配,判断其是否为否定词。如果存在否定词,该词分数设为-1,如果不存在否定词,分数设为1。这里的否定词典可以采用现有技术中的否定词典设计,本例以知网否定词典为例。
S32、程度副词的分数计算;
接下来所要提到的程度词典可以采用现有技术中的程度词典设计,本文以知网程度词典为例,下同。
(1)在知网程度词典中,程度副词分为5个等级,1级是程序最高,5级是程度最低。我们再补充一个没有程度副词的情况,将这6个级别归一化处理,得到每个程度级别的分数{0.325,0.225,0.18,0.135,0.09,0.045}。在遇到不同程度词典的实施例中,也可以根据不同的程度副词等级设定进行不同的归一化设置。
(2)抽取与情感词有直接依存关系的词与知网程度词典进行匹配,判断其是否为程度词,并根据词典对应的等级设置分数。比如:“还可以,这个价格真的很便宜!”。该语句中有两个情感词“可以”和“便宜”对评价对象“价格”进行修饰。与情感词“可以”有依存关系的词是“还”,该词在知网程度词典中存在,且是一个3级程度的副词。因此该程度词的分数设为0.18。与情感词“便宜”有依存关系的程度词有“真的”、“很”,但只有“很”这个词在知网程度词典中存在且程度级别为2级,所以,该程度词的分数设为0.225。
S33、情感词的分数计算;
知网情感词典将情感词分为积极词和消极词。积极词又分为正面评价词和正面情感词,消极词又分为负面评价词和负面情感词。积极情感词分数设置为1、消极情感词分数设置为-1。比如:“还可以,这个价格真的很便宜!”。该语句中修饰评价对象“价格”的两个情感词“可以”和“便宜”都是积极情感词分数都是1。
在具体的实施例中,所述步骤S4具体实现如下:
S41、对各个评价对象的情感进行分数计算;
由于一个评价对象可能有多个情感词、多个程度副词对其进行评价。因此对评价对象的每组情感词、程度词、否定词分数进行叠加计算得到该评价对象的分数。分数计算如公式3:
Figure BDA0002985034030000141
其中,i表示修饰评价对象的第i组词,包含情感词、程度副词、否定词,negval(i)表示第i组否定词;degree(i)表示第i组程度副词;sentiment(i)表示第i组情感词。比如:“还可以,这个价格真的很便宜!”。该语句中修饰评价对象“价格”有两个情感词“可以”和“便宜”,第一组修饰词情感分数为0.18。第二组修饰词情感分数为0.24。因此评价对象“价格”的情感倾向分数是0.42。
S42、各评价对象的情感倾向性分析
根据得到的分数值,将其转换成百分比数值从而得到该评价对象的情感倾向性。如果是正数认为是对该评价对象的正面评价,否则是负面评价。分数越高说明情感倾向程度越高。比如:“还可以,这个价格真的很便宜!”。该语句中评价对象“价格”的情感倾向分数是0.42,说明评论者对“价格”这个评价对象给予较正面积极的评价。
通过上述方案,我们构建了一个在识别句子中的评价对象后,对该评价对象的情感倾向性的评价体系,得到的分数值为正则为正面评价,分数值为负则为负面评价,同时得分越高说明倾向性越高。解决了现有技术中无法对评价对象进行情感倾向性量化的问题。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。

Claims (8)

1.一种基于依存关系的评价对象情感分析方法,其特征在于,包括如下步骤,
S1、对文本进行分词处理,与情感词典进行匹配,判断其是否为情感词,提取情感词;
S2、根据情感词与候选评价对象词之间的直接、间接依存关系找到评价对象;
S3、抽取与情感词有直接依存关系的词与程度词典、否定词典进行匹配,判断其是否为程度副词、否定词,并分别计算情感词分数、程度副词分数、否定词分数;
S4、根据计算情感词分数、程度副词分数、否定词分数对各评价对象进行情感倾向计算。
2.根据权利要求1所述的基于依存关系的评价对象情感分析方法,其特征在于,所述步骤S2具体实现如下:
S21、定义观点评价对象词与情感词之间的直接、间接依存关系:
(1)定义观点评价对象词与情感词之间的直接依存关系,即:观点评价对象词与情感词之间存在依存关系,且在依存路径上没有依赖其他词;观点评价对象词与情感词之间的直接依存关系包括:父亲关系、儿子关系;
(2)定义观点评价对象词与情感词之间的间接依存关系,即:观点评价对象词与情感词通过其他词产生依存关系;观点评价对象词与情感词之间的间接依存关系包括:兄弟关系、夫妻关系、祖父关系、孙子关系、远亲关系;
S22、基于步骤S21定义的观点评价对象词与情感词之间的依存关系,构建观点评价对象词与情感词之间的直接依存关系模板和间接依存关系模板;
(1)根据观点评价对象词与情感词之间的直接依存关系,构建观点评价对象词与情感词之间的直接依存关系模板,具体表示为(dp,target,relate,opinion),其中:dp表示观点评价对象词与情感词之间的依存关系;target指观点评价对象词;relate表示观点评价对象词与情感词之间的依存关系形式,并用-1表示观点评价对象词是情感词的父亲节点,用+1表示观点评价对象词是情感词的儿子节点;opinion指情感词;
(2)根据观点评价对象词与情感词之间的间接依存关系,构建观点评价对象词与情感词之间的间接依存关系模板,具体表示为(dp1,target,relate1,middle1)+…+(dpk-1,middlek-1,relatek-1,middlek)+(dpk,middlek,relatek,opinion),其中:dp1表示第1个观点评价对象词与第1个中间词的依存关系;relate1表示第1个观点评价对象词与第1个中间词之间的依存关系形式,用-1或+1表示;middlek指第k个中间词;dpk表示第k个情感词与第k个中间词的依存关系;relatek表示第k个情感词与第k个中间词的依存关系形式,用-1或+1表示;
S23、基于依存关系模板抽取观点评价对象;
(1)候选观点评价对象词预处理:
a、词性过滤:仅将名词或名词短语作为候选评价对象词;
b、停用词过滤:过滤停用词;
c、位置过滤:过滤不存在情感词的分句中的观点评价对象词;
(2)候选观点评价对象词分数计算:
设集合X={x1,x2,...,xi,...,xu}与集合Y={y1,y2,...,yj,...,yv},取X×Y的一个子集R构造一个从X到Y的匹配关系,若<xi,yj>∈R,即称xi与yj有匹配关系,记作xiRyj;若
Figure FDA0002985034020000021
即称xi与yj没有匹配关系,记作
Figure FDA0002985034020000022
依存关系模板与候选观点评价对象词的匹配关系用二维矩阵表示为W=(wij),i={1,2,...,u},j={1,2,...,v},其中:u表示依存关系模板个数;v表示候选观点评价对象词候选个数;
当第i个依存关系模板与第j个候选观点评价对象词存在匹配关系时wij=wij+1;
而后通过公式①计算第j个候选观点评价对象词分数
Figure FDA0002985034020000031
若swj大于0.0025,则该第j个候选观点评价对象词即为观点评价对象种子词;
(3)候选依存关系模板分数计算:
观点评价对象种子词与候选依存关系模板之间匹配关系用二维矩阵P=(pts),t={1,2,...,m},s={1,2,...,n}表示;其中:m表示观点评价对象种子词个数;n表示候选依存关系模板个数;
当第t个观点评价对象种子词与第s个候选依存关系模板存在匹配关系时pts=pts+1;
而后通过公式②算第s个候选依存关系模板分数
Figure FDA0002985034020000032
若sps大于0.05,则该第s个候选依存关系模板即为依存关系种子模板;
(4)基于依存关系的观点评价对象边界识别规则:
ATT规则:若当前词是观点评价对象词,前一个词或后一个词与该词具有定中关系ATT或数量关系QUN或“的”字结构DE关系,则前一个词或后一个词扩展为观点评价对象词;
合并规则:若当前词是观点评价对象词,该词的前一个词或后一个词是候选观点评价对象词,则前一个词或后一个词扩展为观点评价对象词;
步骤(3)候选依存关系模板分数计算、(4)基于依存关系的观点评价对象边界识别规则之间还包括一步骤,即:由步骤(2)、(3)得到的观点评价对象种子词、依存关系种子模板重新对步骤(1)处理的候选观点评价对象词进行训练,直至没有新的观点评价对象种子词产生。
3.根据权利要求1所述的基于依存关系的评价对象情感分析方法,其特征在于,所述步骤S3具体实现如下:
S31、否定词的分数计算;
S32、程度副词的分数计算;
S33、情感词的分数计算;
所述步骤S31具体实现如下:
S31、否定词的分数计算;
抽取与情感词有直接依存关系的词与知网否定词典进行匹配,判断其是否为否定词,如果存在否定词,该词分数设为-1,如果不存在否定词,分数设为1;
S32、程度副词的分数计算;
(1)在知网程度词典中,程度副词分为5个等级,1级是程序最高,5级是程度最低,再补充一个没有程度副词的情况,将这6个级别归一化处理,得到每个程度级别的分数{0.325,0.225,0.18,0.135,0.09,0.045};
(2)抽取与情感词有直接依存关系的词与知网程度词典进行匹配,判断其是否为程度词,并根据词典对应的等级设置分数;
S33、情感词的分数计算;
将积极情感词分数设置为1、消极情感词分数设置为-1。
4.根据权利要求1所述的基于依存关系的评价对象情感分析方法,其特征在于,所述步骤S4具体实现如下:
S41、对各个评价对象的情感进行分数计算;
对评价对象的每组情感词、程度词、否定词分数进行叠加计算得到该评价对象的分数;分数计算如公式③:
Figure FDA0002985034020000041
其中,i表示修饰评价对象的第i组词,包含情感词、程度副词、否定词,negval(i)表示第i组否定词;degree(i)表示第i组程度副词;sentiment(i)表示第i组情感词;
S42、各评价对象的情感倾向性分析
根据得到的分数值,将其转换成百分比数值从而得到该评价对象的情感倾向性,所述分数值为正数则是对该评价对象的正面评价,否则是负面评价,分数值得绝对值越高说明情感倾向程度越高。
5.一种基于依存关系的评价对象情感分析存储介质,其特征在于,存储有计算机程序,所述计算机程序在被执行时进行包括如下步骤:
S1、对文本进行分词处理,与情感词典进行匹配,判断其是否为情感词,提取情感词;
S2、根据情感词与候选评价对象词之间的直接、间接依存关系找到评价对象;
S3、抽取与情感词有直接依存关系的词与程度词典、否定词典进行匹配,判断其是否为程度副词、否定词,并分别计算情感词分数、程度副词分数、否定词分数;
S4、根据计算情感词分数、程度副词分数、否定词分数对各评价对象进行情感倾向计算。
6.根据权利要求5所述的基于依存关系的评价对象情感分析存储介质,其特征在于,所述计算机程序在被执行时进行的步骤S2具体实现如下:
S21、定义观点评价对象词与情感词之间的直接、间接依存关系:
(1)定义观点评价对象词与情感词之间的直接依存关系,即:观点评价对象词与情感词之间存在依存关系,且在依存路径上没有依赖其他词;观点评价对象词与情感词之间的直接依存关系包括:父亲关系、儿子关系;
(2)定义观点评价对象词与情感词之间的间接依存关系,即:观点评价对象词与情感词通过其他词产生依存关系;观点评价对象词与情感词之间的间接依存关系包括:兄弟关系、夫妻关系、祖父关系、孙子关系、远亲关系;
S22、基于步骤S21定义的观点评价对象词与情感词之间的依存关系,构建观点评价对象词与情感词之间的直接依存关系模板和间接依存关系模板;
(1)根据观点评价对象词与情感词之间的直接依存关系,构建观点评价对象词与情感词之间的直接依存关系模板,具体表示为(dp,target,relate,opinion),其中:dp表示观点评价对象词与情感词之间的依存关系;target指观点评价对象词;relate表示观点评价对象词与情感词之间的依存关系形式,并用-1表示观点评价对象词是情感词的父亲节点,用+1表示观点评价对象词是情感词的儿子节点;opinion指情感词;
(2)根据观点评价对象词与情感词之间的间接依存关系,构建观点评价对象词与情感词之间的间接依存关系模板,具体表示为(dp1,target,relate1,middle1)+…+(dpk-1,middlek-1,relatek-1,middlek)+(dpk,middlek,relatek,opinion),其中:dp1表示第1个观点评价对象词与第1个中间词的依存关系;relate1表示第1个观点评价对象词与第1个中间词之间的依存关系形式,用-1或+1表示;middlek指第k个中间词;dpk表示第k个情感词与第k个中间词的依存关系;relatek表示第k个情感词与第k个中间词的依存关系形式,用-1或+1表示;
S23、基于依存关系模板抽取观点评价对象;
(1)候选观点评价对象词预处理:
a、词性过滤:仅将名词或名词短语作为候选评价对象词;
b、停用词过滤:过滤停用词;
c、位置过滤:过滤不存在情感词的分句中的观点评价对象词;
(2)候选观点评价对象词分数计算:
设集合X={x1,x2,...,xi,...,xu}与集合Y={y1,y2,...,yj,...,yv},取X×Y的一个子集R构造一个从X到Y的匹配关系,若<xi,yj>∈R,即称xi与yj有匹配关系,记作xiRyj;若
Figure FDA0002985034020000061
即称xi与yj没有匹配关系,记作
Figure FDA0002985034020000062
依存关系模板与候选观点评价对象词的匹配关系用二维矩阵表示为W=(wij),i={1,2,...,u},j={1,2,...,v},其中:u表示依存关系模板个数;v表示候选观点评价对象词候选个数;
当第i个依存关系模板与第j个候选观点评价对象词存在匹配关系时wij=wij+1;
而后通过公式①计算第j个候选观点评价对象词分数
Figure FDA0002985034020000071
若swj大于0.0025,则该第j个候选观点评价对象词即为观点评价对象种子词;
(3)候选依存关系模板分数计算:
观点评价对象种子词与候选依存关系模板之间匹配关系用二维矩阵P=(pts),t={1,2,...,m},s={1,2,...,n}表示;其中:m表示观点评价对象种子词个数;n表示候选依存关系模板个数;
当第t个观点评价对象种子词与第s个候选依存关系模板存在匹配关系时pts=pts+1;
而后通过公式②算第s个候选依存关系模板分数
Figure FDA0002985034020000072
若sps大于0.05,则该第s个候选依存关系模板即为依存关系种子模板;
(4)基于依存关系的观点评价对象边界识别规则:
ATT规则:若当前词是观点评价对象词,前一个词或后一个词与该词具有定中关系ATT或数量关系QUN或“的”字结构DE关系,则前一个词或后一个词扩展为观点评价对象词;
合并规则:若当前词是观点评价对象词,该词的前一个词或后一个词是候选观点评价对象词,则前一个词或后一个词扩展为观点评价对象词;
步骤(3)候选依存关系模板分数计算、(4)基于依存关系的观点评价对象边界识别规则之间还包括一步骤,即:由步骤(2)、(3)得到的观点评价对象种子词、依存关系种子模板重新对步骤(1)处理的候选观点评价对象词进行训练,直至没有新的观点评价对象种子词产生。
7.根据权利要求5所述的基于依存关系的评价对象情感分析存储介质,其特征在于,所述计算机程序在被执行时进行的步骤S3具体实现如下:
S31、否定词的分数计算;
S32、程度副词的分数计算;
S33、情感词的分数计算;
所述步骤S31具体实现如下:
S31、否定词的分数计算;
抽取与情感词有直接依存关系的词与知网否定词典进行匹配,判断其是否为否定词,如果存在否定词,该词分数设为-1,如果不存在否定词,分数设为1;
S32、程度副词的分数计算;
(1)在知网程度词典中,程度副词分为5个等级,1级是程序最高,5级是程度最低,再补充一个没有程度副词的情况,将这6个级别归一化处理,得到每个程度级别的分数{0.325,0.225,0.18,0.135,0.09,0.045};
(2)抽取与情感词有直接依存关系的词与知网程度词典进行匹配,判断其是否为程度词,并根据词典对应的等级设置分数;
S33、情感词的分数计算;
将积极情感词分数设置为1、消极情感词分数设置为-1。
8.根据权利要求5所述的基于依存关系的评价对象情感分析存储介质,其特征在于,所述计算机程序在被执行时进行的步骤S4具体实现如下:
S41、对各个评价对象的情感进行分数计算;
对评价对象的每组情感词、程度词、否定词分数进行叠加计算得到该评价对象的分数,分数计算如公式③:
Figure FDA0002985034020000091
其中,i表示修饰评价对象的第i组词,包含情感词、程度副词、否定词,negval(i)表示第i组否定词;degree(i)表示第i组程度副词;sentiment(i)表示第i组情感词;
S42、各评价对象的情感倾向性分析:
根据得到的分数值,将其转换成百分比数值从而得到该评价对象的情感倾向性,所述分数值为正数则是对该评价对象的正面评价,否则是负面评价,分数值得绝对值越高说明情感倾向程度越高。
CN202110297976.XA 2021-03-19 2021-03-19 基于依存关系的评价对象情感分析方法及存储介质 Pending CN112926307A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110297976.XA CN112926307A (zh) 2021-03-19 2021-03-19 基于依存关系的评价对象情感分析方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110297976.XA CN112926307A (zh) 2021-03-19 2021-03-19 基于依存关系的评价对象情感分析方法及存储介质

Publications (1)

Publication Number Publication Date
CN112926307A true CN112926307A (zh) 2021-06-08

Family

ID=76175242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110297976.XA Pending CN112926307A (zh) 2021-03-19 2021-03-19 基于依存关系的评价对象情感分析方法及存储介质

Country Status (1)

Country Link
CN (1) CN112926307A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160092793A1 (en) * 2014-09-26 2016-03-31 Thomson Reuters Global Resources Pharmacovigilance systems and methods utilizing cascading filters and machine learning models to classify and discern pharmaceutical trends from social media posts
CN107480142A (zh) * 2017-09-01 2017-12-15 闽江学院 一种基于依存关系抽取评价对象的方法
CN109101478A (zh) * 2018-06-04 2018-12-28 东南大学 一种面向电商评论文本的Aspect级情感分析方法
CN110362679A (zh) * 2019-06-05 2019-10-22 北京大学(天津滨海)新一代信息技术研究院 一种基于情感词典的金融领域评论情感分类方法及***
CN110598219A (zh) * 2019-10-23 2019-12-20 安徽理工大学 一种面向豆瓣网电影评论的情感分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160092793A1 (en) * 2014-09-26 2016-03-31 Thomson Reuters Global Resources Pharmacovigilance systems and methods utilizing cascading filters and machine learning models to classify and discern pharmaceutical trends from social media posts
CN107480142A (zh) * 2017-09-01 2017-12-15 闽江学院 一种基于依存关系抽取评价对象的方法
CN109101478A (zh) * 2018-06-04 2018-12-28 东南大学 一种面向电商评论文本的Aspect级情感分析方法
CN110362679A (zh) * 2019-06-05 2019-10-22 北京大学(天津滨海)新一代信息技术研究院 一种基于情感词典的金融领域评论情感分类方法及***
CN110598219A (zh) * 2019-10-23 2019-12-20 安徽理工大学 一种面向豆瓣网电影评论的情感分析方法

Similar Documents

Publication Publication Date Title
CN105988990B (zh) 汉语零指代消解装置和方法、模型训练方法和存储介质
CN109697288B (zh) 一种基于深度学习的实例对齐方法
Poostchi et al. BiLSTM-CRF for Persian named-entity recognition ArmanPersoNERCorpus: the first entity-annotated Persian dataset
CN108345583B (zh) 基于多语注意力机制的事件识别及分类方法及装置
CN108363688B (zh) 一种融合先验信息的命名实体链接方法
CN111581990A (zh) 跨境交易撮合匹配方法及装置
CN113704416B (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
Atmadja et al. Comparison on the rule based method and statistical based method on emotion classification for Indonesian Twitter text
CN114329225A (zh) 基于搜索语句的搜索方法、装置、设备及存储介质
Ahmed et al. Named entity recognition by using maximum entropy
CN111191446B (zh) 交互信息处理方法、装置、计算机设备和存储介质
CN112765357A (zh) 文本分类方法、装置和电子设备
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
Barriere et al. Opinion dynamics modeling for movie review transcripts classification with hidden conditional random fields
Agathangelou et al. Mining domain-specific dictionaries of opinion words
Papalampidi et al. Dialogue act semantic representation and classification using recurrent neural networks
CN112926307A (zh) 基于依存关系的评价对象情感分析方法及存储介质
Zhang et al. Japanese sentiment classification with stacked denoising auto-encoder using distributed word representation
CN110750712A (zh) 基于数据驱动的软件安全需求推荐方法
CN113190690B (zh) 无监督知识图谱推理处理方法、装置、设备和介质
Cahyani et al. Indonesian part of speech tagging using maximum entropy markov model on Indonesian manually tagged corpus
CN113722431A (zh) 命名实体关系识别方法、装置、电子设备及存储介质
CN114912446A (zh) 一种关键词抽取方法、装置及储存介质
Rafi et al. A linear sub-structure with co-variance shift for image captioning
CN110069780B (zh) 一种基于特定领域文本的情感词识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210608