CN109271634B - 一种基于用户情感倾向感知的微博文本情感极性分析方法 - Google Patents

一种基于用户情感倾向感知的微博文本情感极性分析方法 Download PDF

Info

Publication number
CN109271634B
CN109271634B CN201811082555.XA CN201811082555A CN109271634B CN 109271634 B CN109271634 B CN 109271634B CN 201811082555 A CN201811082555 A CN 201811082555A CN 109271634 B CN109271634 B CN 109271634B
Authority
CN
China
Prior art keywords
emotional
emotion
tendency
text
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811082555.XA
Other languages
English (en)
Other versions
CN109271634A (zh
Inventor
朱小飞
吴洁
张宜浩
杨武
甄少明
兰毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN201811082555.XA priority Critical patent/CN109271634B/zh
Publication of CN109271634A publication Critical patent/CN109271634A/zh
Application granted granted Critical
Publication of CN109271634B publication Critical patent/CN109271634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于用户情感倾向感知的微博文本情感极性分析方法,包括如下步骤:获取目标用户的历史微博文本集合及目标文本,并预先统计获得目标用户的历史微博文本集合中包含的各文本的情感倾向;提取目标文本的情感词并生成目标文本的文本情感信息ht;基于历史微博文本判断目标用户的用户情感倾向得分Score(U);基于用户情感倾向得分Score(U)及文本情感信息ht判断目标文本的情感极性。本发明公开了一种基于用户情感倾向感知的微博文本情感极性分析方法,将目标文本中的情感词的情感倾向与用户自身的情感倾向相结合,从而使得对于目标文本的情感倾向的判断更加准确。

Description

一种基于用户情感倾向感知的微博文本情感极性分析方法
技术领域
本发明涉及计算机领域,尤其涉及一种基于用户情感倾向感知的微博文本情感极性分析方法。
背景技术
在以微博为代表的社会化媒体平台不断出现的今天,人们通过社交平台参与评论、分享见解和反馈信息的兴趣逐渐高涨,从海量的微博数据中获取用户的观点和情感态度,对众多领域的发展都有着重要的意义,因此,对于微博文本情感极性分析方法的研究就格外显得重要。
传统的情感分析方法研究的重点都是集中在句子词性、情感符号以及情感语料库等方面,这类通过获取句子显性特征、构建特征空间建立模型的情感分析方法,往往会忽略文本中所蕴含的隐性情感特征,不能够准确地获得用户的观点和情感态度。通过现有的技术对基于词性的情感分析方法比较发现:具备乐观,积极向上生活态度的用户,其在社交媒体上更倾向于发表正能量或者是激励自己的积极言论,在这类用户所发表的言论中,即使包含消极词语,其也不一定表达消极的情感,如果基于显性特征识别,将会错误判断用户情感态度;相反,具备悲观主义思想、自我压抑性人格的用户,观点态度相对极端,言论大多以消极为主,有时甚至会以反讽形式发表言论时,即使其言论包含多数显性特征的积极词语也不一定表达的是积极言论。因此,现有的通过获取句子显性特征、构建特征空间建立模型的情感分析方法并不能够准确的判断微博文本的情感倾向。
因此,如何提供一种新的技术方案,准确的判断微博文本的情感倾向,成为了本领域技术人员急需解决的问题。
发明内容
针对现有技术中存在的上述不足,本发明公开了一种基于用户情感倾向感知的微博文本情感极性分析方法,将目标文本中的情感词的情感倾向与用户自身的情感倾向相结合,从而使得对于目标文本的情感倾向的判断更加准确。
为解决上述技术问题,本发明采用了如下的技术方案:
一种基于用户情感倾向感知的微博文本情感极性分析方法,包括如下步骤:
S101:获取目标用户的历史微博文本集合及目标文本,并预先统计获得所述目标用户的历史微博文本集合中包含的各文本的情感倾向;
S102:提取所述目标文本的情感词并生成所述目标文本的文本情感信息ht
S103:基于所述历史微博文本判断所述目标用户的用户情感倾向得分 Score(U);
S104:基于所述用户情感倾向得分Score(U)及所述文本情感信息ht判断所述目标文本的情感极性。
优选地,步骤S102包括:
S1021:基于情感词典在所述目标文本中获取t个情感词的情感倾向得分,所述情感词中任意一个情感词wj的情感倾向的分为score(wj);
S1022:基于词向量词典获取所述情感词的词向量,所述情感词中任意一个情感词wj的词向量为ej,其中,ej=Wevj,1≤j≤t,vj表示情感词wj在词向量词典中对应的词向量,We表示所述目标文本的词向量矩阵,We∈Rd×N,Rd×N表示词向量词典的表示矩阵,N表示词向量词典中情感词数目,d表示单个情感词的词向量维度;
S1023:基于所述情感词的词向量及情感倾向得分生成所述情感词的情感信息,任意一个情感词wj的情感信息为rj,其中,
Figure BDA0001802322240000021
Figure BDA0001802322240000022
为结合符号,结合的方式包括拼接或相乘;
S1024:基于所述目标文本中t个情感词的情感信息生成所述目标文本的文本情感信息ht,ht={r1,r2,r3,…rt-2,rt-1,rt}。
优选地,步骤S1021中提取目标文本中前t个情感词的情感倾向得分,当所述目标文本中情感词个数小于t时,以“0”填充缺少的情感词。
优选地,t的取值为15。
优选地,所述情感词典中的情感词包括网络情感词典内的情感词及人工标注的情感词,所述人工标注的情感词包括微博文本中存在的网络用词、情感符号及表情符,所述情感词典中的情感词标记有情感倾向。
优选地,所述情感倾向包括积极倾向、消极倾向及中性倾向,所述情感词典中的情感词的情感倾向得分的计算方法包括:
获取词典数据集,词典数据集包括多个数据文档,每个数据文档标记有已知的情感倾向,数据文档的情感倾向包括积极倾向或消极倾向;
当所述情感词典中任意一个情感词wi为积极倾向或消极倾向时,所述情感词i的情感倾向得分为Score(wi),其中,
Figure BDA0001802322240000031
Freq(wi)=|α·Pos(wi)-β·Neg(wi)|,Pos(wi)表示情感词wi在积极倾向的数据文档中出现的频率,Neg(wi)表示情感词wi在消极倾向的数据文档中出现的频率,||表示取绝对值,[]表示取整,Freq(wi)表示情感词wi在数据文档中出现的频数, Freqmin代表情感词典中所有情感词在数据文档中出现的最小频数,Freqmax代表情感词典中所有情感词在数据文档中出现的最大频数,α表示积极倾向的数据文档的频数的重要程度参数,β表示消极倾向的数据文档的频数的重要程度参数,γ为情感倾向得分阈值控制参数;
当所述情感词典中任意一个情感词wi为中性倾向时,所述情感词i的情感倾向得分为Score(wi),其中,Score(wi)=[α·Pos(wi)-β·Neg(wi)],Pos(wi)表示情感词 wi在积极倾向的数据文档中出现的频率,Neg(wi)表示情感词wi在消极倾向的数据文档中出现的频率,||表示取绝对值,α表示积极倾向的数据文档的频数的重要程度参数,β表示消极倾向的数据文档的频数的重要程度参数。
优选地,步骤S103包括:
S1031:计算所述目标用户的积极倾向得分Score(Up),其中,
Figure BDA0001802322240000041
表示目标用户的历史微博文本中的积极倾向的文本数,Freq(n)表示目标用户的历史微博文本中的消极倾向的文本数,Freq(nom)表示目标用户的历史微博文本中的中性倾向的文本数;
S1032:计算所述目标用户的消极倾向得分Score(Un),其中,
Figure BDA0001802322240000042
Freq(p)表示目标用户的历史微博文本中的积极倾向的文本数,Freq(n)表示目标用户的历史微博文本中的消极倾向的文本数,Freq(nom)表示目标用户的历史微博文本中的中性倾向的文本数;
S1033:计算所述目标用户的用户情感倾向得分Score(U),其中,
Figure BDA0001802322240000043
优选地,步骤S104包括:
S1041:将所述目标文本的文本情感信息ht与所述目标用户的用户情感倾向得分Score(U)相结合生成用户文本情感信息H,
Figure BDA0001802322240000046
S1042:将所述用户文本情感信息H输入训练好的类别分类模型中,得到所述目标文本的情感极性信息。
优选地,所述类别分类模型为长短期记忆网络,训练的方法包括:
获取训练集,所述训练集包括m个训练样本,其中,每个训练样本为 (x(i2),y(i2)),i2表示m个训练样本中的第i2个训练样本,x(i2)为长短期记忆网络的输入,y(i2)为第i2个训练样本的分类类别,则将第i2个训练样本分类为类别j2的概率为
Figure BDA0001802322240000044
k表示可分类的类别数,
Figure BDA0001802322240000045
表示将第i2个训练样本分类为类别j2的模型参数,T为转置符号,e表示自然底数,通过训练长短期记忆网络的模型参数θ,使其能够最小化代价函数,代价函数为
Figure BDA0001802322240000051
通过添加参数正则化项
Figure BDA0001802322240000052
来修改代价函数,惩罚过大的参数值,使代价函数变为
Figure BDA0001802322240000053
其中,λ为正则化项系数,λ>0,n为类别j2的取值范围,n取值为0或1,θi2j2表示第i2个训练样本分类为类别j2类别的模型参数,i2表示表示m个训练样本中的第i2个训练样本,l模型参数的取值范围,然后代价函数loss求导,则
Figure BDA0001802322240000054
基于求导后的代价函数loss使用梯度下降法来训练长短期记忆网络的模型参数θ。
综上所述,本发明公开一种基于用户情感倾向感知的微博文本情感极性分析方法,包括如下步骤:获取目标用户的历史微博文本集合及目标文本,并预先统计获得所述目标用户的历史微博文本集合中包含的各文本的情感倾向;提取所述目标文本的情感词并生成所述目标文本的文本情感信息ht;基于所述历史微博文本判断所述目标用户的用户情感倾向得分Score(U);基于所述用户情感倾向得分Score(U)及所述文本情感信息ht判断所述目标文本的情感极性。本发明公开了一种基于用户情感倾向感知的微博文本情感极性分析方法,将目标文本中的情感词的情感倾向与用户自身的情感倾向相结合,从而使得对于目标文本的情感倾向的判断更加准确。
附图说明
图1为本发明公开的一种基于用户情感倾向感知的微博文本情感极性分析方法的流程图。
图2为本发明具体实施例的实例中用户的情感得分从小到大排列示意图;
图3为本发明具体实施例的用户情感特征在不同的权重下模型的分类性能示意图;
图4为本发明具体实施例的不同训练次数的模型效果示意图。
具体实施方式
下面结合附图对本发明作进一步的详细说明。
如图1所示,本发明公开了一种基于用户情感倾向感知的微博文本情感极性分析方法,包括如下步骤:
S101:获取目标用户的历史微博文本集合及目标文本,并预先统计获得所述目标用户的历史微博文本集合中包含的各文本的情感倾向;
S102:提取所述目标文本的情感词并生成所述目标文本的文本情感信息ht
S103:基于所述历史微博文本判断所述目标用户的用户情感倾向得分 Score(U);
S104:基于所述用户情感倾向得分Score(U)及所述文本情感信息ht判断所述目标文本的情感极性。
现有的情感分类技术主要分为三类:基于情感词典的方法,基于人工提取特征分类的方法以及基于深度学习的方法。基于情感词典的方法是将句子看成词语的组合,通过情感词典对文本中的词语进行一系列多粒度的组合计算,实现对文本的情感分析。这种方法的不足之处在于过分依赖于情感词典,得到的分类效果并不是很理想。基于人工提取特征分类的方法是一种有监督学习方法,其通过提取文本中所隐含的特征信息,构成特征向量,然后采用支持向量机、逻辑回归、朴素贝叶斯等算法从训练集中学习分类模型,利用分类模型对未知类别的数据样本进行类别预测,以实现文本的自动分类,此方法对特征提取的要求较高,提取的情感特征准确性将会直接影响分类结果。第三种就是基于深度学习的方法,由于这种情感分类方式无需过分依赖于前期的特征提取,能够可以通过深度网络模型充分挖掘文本的特征信息。近年来,越来越多的研究者利用深度神经网络技术进行情感分析任务的研究。一种是融合显性与隐性特征的中文微博情感分析方法,提取了表情符情感词汇等显性特征以及内容语义等隐性特征,给出了一种凝聚式的情感聚类算法,利用公开语料NLPCC2013所提供的训练语料进行了分类实验。另一种是运用弱监督的数据预训练深度模型的方法进行情感分类任务,结合了弱监督数据与监督数据的两种优势,取得了比浅层模型更好的效果。但是,这类通过获取句子显性特征、构建特征空间建立模型的方法,忽略了文本所蕴含的隐性情感特征,并未建模用户的情感倾向对其所发表言论情感态度的影响。我们通过研究发现:具备乐观,积极向上生活态度的用户,其在社交媒体上更倾向于发表正能量或者是激励自己的积极言论,在这类用户所发表的言论中,即使包含消极词语,其也不一定表达消极的情感,例如:“在心因绝望与羞愧而痛苦得碎裂成千千万万片时,就算颤抖着手,也必须自己一片片把他捡回来”,如果基于显性特征识别,当出现“绝望”“羞愧”“痛苦”“碎裂”等如此多消极的词语时,很可能会判定这句话是消极言论,但是如果在分类时,因为提前知道用户的情感倾向,例如积极的用户,那么这句话就很可能会被判定为积极言论。相反,具备悲观主义思想、自我压抑性人格的用户,观点态度相对极端,言论大多以消极为主,有时甚至会以反讽形式发表言论时,即使其言论包含积极的词语也不一定表达积极含义,因此,单纯地提取显性情感特征并不能准确地分析微博语句的情感。
本发明公开了一种基于用户情感倾向感知的微博文本情感极性分析方法,将目标文本中的情感词的情感倾向与用户自身的情感倾向相结合,从而使得对于目标文本的情感倾向的判断更加准确。
具体实施时,步骤S102包括:
S1021:基于情感词典在所述目标文本中获取t个情感词的情感倾向得分,所述情感词中任意一个情感词wj的情感倾向的分为score(wj);
S1022:基于词向量词典获取所述情感词的词向量,所述情感词中任意一个情感词wj的词向量为ej,其中,ej=Wevj,1≤j≤t,vj表示情感词wj在词向量词典中对应的词向量,We表示所述目标文本的词向量矩阵,We∈Rd×N,Rd×N表示词向量词典的表示矩阵,N表示词向量词典中情感词数目,d表示单个情感词的词向量维度;
S1023:基于所述情感词的词向量及情感倾向得分生成所述情感词的情感信息,任意一个情感词wj的情感信息为rj,其中,
Figure BDA0001802322240000081
Figure BDA0001802322240000082
为结合符号,结合的方式包括拼接或相乘;
S1024:基于所述目标文本中t个情感词的情感信息生成所述目标文本的文本情感信息ht,ht={r1,r2,r3,…rt-2,rt-1,rt}。
情感极性分析过程中,情感词表达的情感信息对于准确判断句子的情感极性极其重要,为了充分利用句子的情感信息,根据情感词在不同极性的文档中出现的频率计算情感得分。
为了获取词的情感得分,可采用Hownet情感词典作为本发明中的情感词典,为了对词典中各个词的情感倾向程度进行量化,我们计算情感词在不同极性文档中出现的频率来获得各个词的情感得分。
具体实施时,步骤S1021中提取目标文本中前t个情感词的情感倾向得分,当所述目标文本中情感词个数小于t时,以“0”填充缺少的情感词。
为了得到每个词与上下文词的关联信息,采用gensim的word2Vec训练的***词向量1作为基准词向量词典,在基准词向量词典中获取数据集中各个词语的词向量。对于不存在于基准词向量词典中的词语,我们将以基准词向量中的‘0’元素对应的词向量来代替该词典元素的词向量。
具体实施时,t的取值为15。
首先计算数据集中文本长度的分布,发现其中80%的文本长度小于15个词,因此我们设定最大文本长度t=15,对于长度大于t的微博,选取前t个词典元素作为文本表示;对于长度小于t的微博,在其末端添加0的列向量,直到长度达到t为止。
具体实施时,所述情感词典中的情感词包括网络情感词典内的情感词及人工标注的情感词,所述人工标注的情感词包括微博文本中存在的网络用词、情感符号及表情符,所述情感词典中的情感词标记有情感倾向。
由于微博中存在大量的网络用语,可以对这些网络用语中常用的词语、情感符号和情感表情符进行人工情感标注,并将标注的结果与情感词典进行合并,形成最终的情感词典。
具体实施时,所述情感倾向包括积极倾向、消极倾向及中性倾向,所述情感词典中的情感词的情感倾向得分的计算方法包括:
获取词典数据集,词典数据集包括多个数据文档,每个数据文档标记有已知的情感倾向,数据文档的情感倾向包括积极倾向或消极倾向;
当所述情感词典中任意一个情感词wi为积极倾向或消极倾向时,所述情感词i的情感倾向得分为Score(wi),其中,
Figure BDA0001802322240000091
Freq(wi)=|α·Pos(wi)-β·Neg(wi)|,Pos(wi)表示情感词wi在积极倾向的数据文档中出现的频率,Neg(wi)表示情感词wi在消极倾向的数据文档中出现的频率,||表示取绝对值,[]表示取整,Freq(wi)表示情感词wi在数据文档中出现的频数, Freqmin代表情感词典中所有情感词在数据文档中出现的最小频数,Freqmax代表情感词典中所有情感词在数据文档中出现的最大频数,α表示积极倾向的数据文档的频数的重要程度参数,β表示消极倾向的数据文档的频数的重要程度参数,γ为情感倾向得分阈值控制参数;
当所述情感词典中任意一个情感词wi为中性倾向时,所述情感词i的情感倾向得分为Score(wi),其中,Score(wi)=[α·Pos(wi)-β·Neg(wi)],Pos(wi)表示情感词 wi在积极倾向的数据文档中出现的频率,Neg(wi)表示情感词wi在消极倾向的数据文档中出现的频率,||表示取绝对值,α表示积极倾向的数据文档的频数的重要程度参数,β表示消极倾向的数据文档的频数的重要程度参数。
具体实施时,步骤S103包括:
S1031:计算所述目标用户的积极倾向得分Score(Up),其中,
Figure BDA0001802322240000101
表示目标用户的历史微博文本中的积极倾向的文本数,Freq(n)表示目标用户的历史微博文本中的消极倾向的文本数,Freq(nom)表示目标用户的历史微博文本中的中性倾向的文本数;
S1032:计算所述目标用户的消极倾向得分Score(Un),其中,
Figure BDA0001802322240000102
Freq(p)表示目标用户的历史微博文本中的积极倾向的文本数,Freq(n)表示目标用户的历史微博文本中的消极倾向的文本数,Freq(nom)表示目标用户的历史微博文本中的中性倾向的文本数;
S1033:计算所述目标用户的用户情感倾向得分Score(U),其中,
Figure BDA0001802322240000103
虽然考虑到了词语情感信息对微博文本情感分析的重要性,但是用户自身通常带有一定的情感倾向性,该信息同样对微博语句的情感倾向产生影响。经过实验分析发现:性格积极、乐观的用户,在社交平台上发表的言论通常明显倾向于正向;然而性格忧郁、悲观的用户,在社交平台上发表的言论明显偏于负向。受此启发,我们在判断用户言论的情感倾向时,除了对情感词语的判断,进一步考虑用户自身情感倾向性,从而更加准确地判断微博的情感倾向性。
具体实施时,步骤S104包括:
S1041:将所述目标文本的文本情感信息ht与所述目标用户的用户情感倾向得分Score(U)相结合生成用户文本情感信息H,
Figure BDA0001802322240000104
S1042:将所述用户文本情感信息H输入训练好的类别分类模型中,得到所述目标文本的情感极性信息。
具体实施时,所述类别分类模型为长短期记忆网络,训练的方法包括:
获取训练集,所述训练集包括m个训练样本,其中,每个训练样本为 (x(i2),y(i2)),i2表示m个训练样本中的第i2个训练样本,x(i2)为长短期记忆网络的输入,y(i2)为第i2个训练样本的分类类别,则将第i2个训练样本分类为类别j2的概率为p(y(i2)=j2|x(i2);θ),
Figure BDA0001802322240000111
k表示可分类的类别数,
Figure BDA0001802322240000112
表示将第i2个训练样本分类为类别j2的模型参数,T为转置符号,e表示自然底数,通过训练长短期记忆网络的模型参数θ,使其能够最小化代价函数,代价函数为
Figure BDA0001802322240000113
通过添加参数正则化项
Figure BDA0001802322240000114
来修改代价函数,惩罚过大的参数值,使代价函数变为
Figure BDA0001802322240000115
其中,λ为正则化项系数,λ>0,n为类别j2的取值范围,n取值为0或1,θi2j2表示第i2个训练样本分类为类别j2类别的模型参数,i2表示表示m个训练样本中的第i2个训练样本,l模型参数的取值范围,然后代价函数loss求导,则
Figure BDA0001802322240000116
基于求导后的代价函数loss使用梯度下降法来训练长短期记忆网络的模型参数θ。
下面为采用本发明公开的方法进行实现并与现有方法进行效果对比的实例:
由于现有的情感分析语料集缺乏用户信息,因此,我们基于微博构建了一个新的、带有用户信息的微博情感数据集MEDUI(Micro-blog emotional dataset with userinfo-rmation),为了保证选取的用户发表的言论能够更好得反映个人在一定时间内所处的情感状态,我们随机挑选了200位粉丝量在 50-50000之间,发表的帖子数量在100篇以上1000篇以下的用户,并且活跃度较高的微博用户,爬取了约10000多条微博语句,我们对数据集进行了人工情感标注,结果显式所有数据中,带有积极、消极情绪的微博语句接近3000条。实验随机抽取80%的语句(共2193条)作为训练集,余下的20%(共528 条语句)作为测试集。
本发明的情感词典由两部分组成:一部分采用hownet的情感词典中的中文正、负情感词语集,另一部分是人工加入网络用语词典中的带有情感色彩的词语、微博常用情感表情符以及情感符号。所使用的情感词典包含正负情感词分别为2000多个。
在微博的处理过程中,使用gensim的word2vec训练的***的词向量,其包含了575746个词语的200维向量表示。对于数据集中未在***的向量集中体现的词语,我们以基准词向量词典中的‘0’元素对应的词向量来代替该词典元素的词向量。
此外,为了避免停用词对微博分类的干扰,可采用哈工大的停用词表,其共包含1893个停用词和无用符号,例如:“,”,“。”,“···”,“我”,“你”,“的”,“在”等。为了分析不同用户情感得分情况,我们对所有100个用户的情感状态进行统计分析,并根据用户的情感得分从小到大排列,结果如图2所示。
从图2中可以看出不同用户所处的情感状态是有显著差异,约40%的用户带有明显的消极情感倾向性,约45%的用户带有明显的积极情感倾向性。通过该实验分析表明,所考虑的嵌入用户情感倾向的情感分析方法是合理的。
为了避免在计算情感词的情感得分时受文档极性分布不均的影响,即不同极性文档中出现频率对情感得分计算的影响,使得情感得分的计算不偏向于任何一个极性,考虑到不同极性文本的训练数量的差异,控制文档频数重要程度的参数α、β取值分别为0.3和0.4。
由于词语的情感得分取值过大会导致词语映射的权重太大,过小则无法区分不同影响力的词语,在平衡了不同极性词语得分的数量后,将控制情感得分的阈值γ的取值定为0.1。
此外,我们对用户情感特征在不同的权重下模型的分类性能进行了分析,结果如图3所示。
由图3可以看出,随着用户特征权重μ的增加,召回率不断提升,当μ达到0.8时,召回率达到最大(0.91),随着μ的继续增加,召回率开始显著下降,因此中用户特征权重μ的取值为0.8。
设定词向量维度为200维,为了保证权重系数在绝对值意义上足够小,使得噪声不会被过度地拟合,因此,在实验我们使用了dropout和权重正则化约束。将平均参数最优组合作为实验结果,网络详情参数表如表1所示。
表1模型参数设置表
Figure BDA0001802322240000131
为了分析模型的训练次数对情感分类的影响,我们比较了不同训练次数,即epochs={5,10,15,20,25,30,35},下模型的效果,结果如图4所示。
实验结果发现,训练迭代次数对结果存在显著影响,迭代次数越大,在训练集上的效果表现会越好。而在测试集上,随着迭代次数的增加,在测试集上的效果不断增加,当迭代次数达到20次时,测试数据集中的F1值能达到最优,当迭代次数进一步增加时,模型的效果开始下降。因此,在后续的实验中,我们设置的训练迭代次数为20次。
为了验证模型的有效性和准确性,我们与以下6个方法进行了实验对比,对比结果如表2所示:
表2不同模型在三个指标(准确率P、召回率R、F1)上的测试结果
Figure BDA0001802322240000141
CDLS(Combination of dictionaries and regular sets,CDLS):是传统的基于词典和规律集的微博情感分析方法,该方法根据微博特性,定义了不同语言层次上的规则,并结合情感词典对微博文本进行了从词语到句子的多粒度情感计算。
LR(Linear regression):该方法首先将微博语句使用TF-IDF(term frequency–inverse document frequency)进行表示,然后使用语句传统的回归分析方法进行语句的情感分类。这种方法中,在对语句的向量表示不考虑语句的情感信息。
SVM(Support Vector Machine):该方法同样使用TF-IDF(term frequency –inverse document frequency)来表示微博语句,然后使用SVM分类器进行情感分类。
W2V+CNN(Word2vec+Convolution Nerutal Networts):该方法是一种基于深度学习的模型,首先使用word2vec训练词向量,并将微博语句看成是一个词向量序列,然后利用卷积神经网络来学习情感分类模型。
Att-CTL:该方法在卷积神经网络模型的基础上,通过在输入端引入注意力机制,在模型输出端引入树型长短期记忆神经网络Tree-LSTM,通过建模句子结构特征来加强深层语义学习,在微博情感分析任务上取得不错的效果。
MF-CNN(Multiple Features-Convolu-tion Neural Networks,MF-CNN):是一种结合语句多样化特征的卷积神经网络,通过将词语按不同的情感得分和权重得分映射到多维连续值向量,实现对这两类信息的建模,并使用两种不同的卷积神经网络输入层计算方法来挖掘更丰富的隐藏信息。
对于上述实验结果进行分析:
采用的评测指标是机器学习、自然语言处理中常用的精准率(Precision)、召回率(Recall)、F1-measure作为评价模型的性能指标:
Figure BDA0001802322240000151
Figure BDA0001802322240000152
Figure BDA0001802322240000161
表2是不同方法在数据集MEDUI上的评测结果。实验结果显示基于情感词典的CDLS方法和LR方法的分类效果最差,其F1值只有0.70。SVM方法要显著胜过CDLS方法和LR方法,其F1值达到0.78,这主要是因为SVM模型能够建模非线性数据,在分类能力上要优于LR方法和CSLS方法。基于卷积神经网络模型的方法W2V+CNN在分类效果上比SVM方法提高了6.4%,这体现了深度学习模型良好的建模能力。Att-CTL在卷积神经网络模型的基础上,通过在输入端引入注意力机制,在模型输出端引入Tree-LSTM来建模语句结构特征,得到比 W2V+CNN更好的分类性能,F1值达到0.84。在所有的基准方法中,MF-CNN方法取得最好的分类效果,这是因为该方法对词语的情感得分和权重得分进行了建模,有效地利用情感信息来改善模型的情感分类性能。我们的方法UA-LSTM在情感分类任务上的表现超过的所有的基准方法,并且比最优的基准方法MF-CNN 在F1值上提升了3.4%,达到0.91。
综上所述,本发明具有以下技术效果:构造了包含用户信息的微博情感分析数据集MEDUI,为研究用户情感倾向信息对情感分类影响提供了新的数据资源;提出对用户情感倾向信息进行建模,并提出了一种基于用户情感倾向感知的微博文本情感极性分析方法;实验结果证明,本文提出的方法能够显著提升微博情感分类的效果,并且比最优的基准方法MF-CNN在F1值上提升了3.4%,达到0.91 。
上述仅是本发明优选的实施方式,需指出是,对于本领域技术人员在不脱离本技术方案的前提下,还可以作出若干变形和改进,上述变形和改进的技术方案应同样视为落入本发明要求保护的范围。

Claims (6)

1.一种基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,包括如下步骤:
S101:获取目标用户的历史微博文本集合及目标文本,并预先统计获得所述目标用户的历史微博文本集合中包含的各文本的情感倾向;
S102:提取所述目标文本的情感词并生成所述目标文本的文本情感信息ht;步骤S102包括:
S1021:基于情感词典在所述目标文本中获取t个情感词的情感倾向得分,所述情感词中任意一个情感词wj的情感倾向的分为score(wj);
S1022:基于词向量词典获取所述情感词的词向量,所述情感词中任意一个情感词wj的词向量为ej,其中,ej=Wevj,1≤j≤t,vj表示情感词wj在词向量词典中对应的词向量,We表示所述目标文本的词向量矩阵,We∈Rd×N,Rd×N表示词向量词典的表示矩阵,N表示词向量词典中情感词数目,d表示单个情感词的词向量维度;
S1023:基于所述情感词的词向量及情感倾向得分生成所述情感词的情感信息,任意一个情感词wj的情感信息为rj,其中,
Figure FDA0003666758550000011
Figure FDA0003666758550000012
为结合符号,结合的方式包括拼接或相乘;
S1024:基于所述目标文本中t个情感词的情感信息生成所述目标文本的文本情感信息ht,ht={r1,r2,r3,…rt-2,rt-1,rt};
S103:基于所述历史微博文本判断所述目标用户的用户情感倾向得分Score(U);步骤S103包括:
S1031:计算所述目标用户的积极倾向得分Score(Up),其中,
Figure FDA0003666758550000013
表示目标用户的历史微博文本中的积极倾向的文本数,Freq(n)表示目标用户的历史微博文本中的消极倾向的文本数,Freq(nom)表示目标用户的历史微博文本中的中性倾向的文本数;
S1032:计算所述目标用户的消极倾向得分Score(Un),其中,
Figure FDA0003666758550000014
Freq(p)表示目标用户的历史微博文本中的积极倾向的文本数,Freq(n)表示目标用户的历史微博文本中的消极倾向的文本数,Freq(nom)表示目标用户的历史微博文本中的中性倾向的文本数;
S1033:计算所述目标用户的用户情感倾向得分Score(U),其中,
Figure FDA0003666758550000021
S104:基于所述用户情感倾向得分Score(U)及所述文本情感信息ht判断所述目标文本的情感极性;步骤S104包括:
S1041:将所述目标文本的文本情感信息ht与所述目标用户的用户情感倾向得分Score(U)相结合生成用户文本情感信息H,
Figure FDA0003666758550000022
S1042:将所述用户文本情感信息H输入训练好的类别分类模型中,得到所述目标文本的情感极性信息。
2.如权利要求1所述的基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,步骤S1021中提取目标文本中前t个情感词的情感倾向得分,当所述目标文本中情感词个数小于t时,以“0”填充缺少的情感词。
3.如权利要求2所述的基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,t的取值为15。
4.如权利要求1所述的基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,所述情感词典中的情感词包括网络情感词典内的情感词及人工标注的情感词,所述人工标注的情感词包括微博文本中存在的网络用词、情感符号及表情符,所述情感词典中的情感词标记有情感倾向。
5.如权利要求1或4所述的基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,所述情感倾向包括积极倾向、消极倾向及中性倾向,所述情感词典中的情感词的情感倾向得分的计算方法包括:
获取词典数据集,词典数据集包括多个数据文档,每个数据文档标记有已知的情感倾向,数据文档的情感倾向包括积极倾向或消极倾向;
当所述情感词典中任意一个情感词wi为积极倾向或消极倾向时,所述情感词i的情感倾向得分为Score(wi),其中,
Figure FDA0003666758550000023
Freq(wi)=|α·Pos(wi)-β·Neg(wi)|,Pos(wi)表示情感词wi在积极倾向的数据文档中出现的频率,Neg(wi)表示情感词wi在消极倾向的数据文档中出现的频率,||表示取绝对值,[]表示取整,Freq(wi)表示情感词wi在数据文档中出现的频数,Freqmin代表情感词典中所有情感词在数据文档中出现的最小频数,Freqmax代表情感词典中所有情感词在数据文档中出现的最大频数,α表示积极倾向的数据文档的频数的重要程度参数,β表示消极倾向的数据文档的频数的重要程度参数,γ为情感倾向得分阈值控制参数;
当所述情感词典中任意一个情感词wi为中性倾向时,所述情感词i的情感倾向得分为Score(wi),其中,Score(wi)=[α·Pos(wi)-β·Neg(wi)],Pos(wi)表示情感词wi在积极倾向的数据文档中出现的频率,Neg(wi)表示情感词wi在消极倾向的数据文档中出现的频率,||表示取绝对值,α表示积极倾向的数据文档的频数的重要程度参数,β表示消极倾向的数据文档的频数的重要程度参数。
6.如权利要求1所述的基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,所述类别分类模型为长短期记忆网络,训练的方法包括:
获取训练集,所述训练集包括m个训练样本,其中,每个训练样本为(x(i2),y(i2)),i2表示m个训练样本中的第i2个训练样本,x(i2)为长短期记忆网络的输入,y(i2)为第i2个训练样本的分类类别,则将第i2个训练样本分类为类别j2的概率为p(y(i2)=j2|x(i2);θ),
Figure FDA0003666758550000031
k表示可分类的类别数,
Figure FDA0003666758550000032
表示将第i2个训练样本分类为类别j2的模型参数,T为转置符号,e表示自然底数,通过训练长短期记忆网络的模型参数θ,使其能够最小化代价函数,代价函数为
Figure FDA0003666758550000033
通过添加参数正则化项
Figure FDA0003666758550000034
来修改代价函数,惩罚过大的参数值,使代价函数变为
Figure FDA0003666758550000035
其中,λ为正则化项系数,λ>0,n为类别j2的取值范围,n取值为0或1,θi2j2表示第i2个训练样本分类为类别j2类别的模型参数,i2表示m个训练样本中的第i2个训练样本,l模型参数的取值范围,然后代价函数loss求导,则
Figure FDA0003666758550000036
基于求导后的代价函数loss使用梯度下降法来训练长短期记忆网络的模型参数θ。
CN201811082555.XA 2018-09-17 2018-09-17 一种基于用户情感倾向感知的微博文本情感极性分析方法 Active CN109271634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811082555.XA CN109271634B (zh) 2018-09-17 2018-09-17 一种基于用户情感倾向感知的微博文本情感极性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811082555.XA CN109271634B (zh) 2018-09-17 2018-09-17 一种基于用户情感倾向感知的微博文本情感极性分析方法

Publications (2)

Publication Number Publication Date
CN109271634A CN109271634A (zh) 2019-01-25
CN109271634B true CN109271634B (zh) 2022-07-01

Family

ID=65188795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811082555.XA Active CN109271634B (zh) 2018-09-17 2018-09-17 一种基于用户情感倾向感知的微博文本情感极性分析方法

Country Status (1)

Country Link
CN (1) CN109271634B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948148A (zh) * 2019-02-28 2019-06-28 北京学之途网络科技有限公司 一种文本信息情感判定方法和判定装置
CN109977413B (zh) * 2019-03-29 2023-06-06 南京邮电大学 一种基于改进cnn-lda的情感分析方法
CN112086092A (zh) * 2019-06-14 2020-12-15 广东技术师范大学 基于情感分析的话术智能提取方法
CN110297986A (zh) * 2019-06-21 2019-10-01 山东科技大学 一种微博热点话题的情感倾向分析方法
CN110472244B (zh) * 2019-08-14 2020-05-29 山东大学 一种基于Tree-LSTM和情感信息的短文本情感分类方法
CN111309864B (zh) * 2020-02-11 2022-08-26 安徽理工大学 一种微博热点话题的用户群体情感倾向迁移动态分析方法
CN112948587A (zh) * 2021-03-30 2021-06-11 杭州叙简科技股份有限公司 一种基于地震行业的微博舆情分析方法、装置及电子设备
CN114416917A (zh) * 2021-12-09 2022-04-29 国网安徽省电力有限公司 一种基于词典的电力领域文本情感分析方法、***和存储介质
CN115631772A (zh) * 2022-10-27 2023-01-20 四川大学华西医院 自伤***危险性评估方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN103150367A (zh) * 2013-03-07 2013-06-12 宁波成电泰克电子信息技术发展有限公司 一种中文微博的情感倾向分析方法
CN105426381A (zh) * 2015-08-27 2016-03-23 浙江大学 一种基于微博情绪上下文的音乐推荐方法
CN106202032A (zh) * 2016-06-24 2016-12-07 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其***
CN106295702A (zh) * 2016-08-15 2017-01-04 西北工业大学 一种基于个体情感行为分析的社交平台用户分类方法
CN106649603A (zh) * 2016-11-25 2017-05-10 北京资采信息技术有限公司 一种基于网页文本数据情感分类的指定信息推送方法
CN106776581A (zh) * 2017-02-21 2017-05-31 浙江工商大学 基于深度学习的主观性文本情感分析方法
CN107103093A (zh) * 2017-05-16 2017-08-29 武汉大学 一种基于用户行为和情感分析的短文本推荐方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN103150367A (zh) * 2013-03-07 2013-06-12 宁波成电泰克电子信息技术发展有限公司 一种中文微博的情感倾向分析方法
CN105426381A (zh) * 2015-08-27 2016-03-23 浙江大学 一种基于微博情绪上下文的音乐推荐方法
CN106202032A (zh) * 2016-06-24 2016-12-07 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其***
CN106295702A (zh) * 2016-08-15 2017-01-04 西北工业大学 一种基于个体情感行为分析的社交平台用户分类方法
CN106649603A (zh) * 2016-11-25 2017-05-10 北京资采信息技术有限公司 一种基于网页文本数据情感分类的指定信息推送方法
CN106776581A (zh) * 2017-02-21 2017-05-31 浙江工商大学 基于深度学习的主观性文本情感分析方法
CN107103093A (zh) * 2017-05-16 2017-08-29 武汉大学 一种基于用户行为和情感分析的短文本推荐方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Sentiment analysis in Facebook and its application to e-learning";Alvaro Ortigosa 等;《Computers in Human Behavior》;20140228;527-541 *
"基于语义特征的文本情感倾向识别研究";何坤 等;《计算机应用研究》;20100315;992-994 *
"融合显性和隐性特征的中文微博情感分析";陈铁明 等;《中文信息学报》;20160715;184-192 *

Also Published As

Publication number Publication date
CN109271634A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN109271634B (zh) 一种基于用户情感倾向感知的微博文本情感极性分析方法
Banks et al. A review of best practice recommendations for text analysis in R (and a user-friendly app)
Rao Contextual sentiment topic model for adaptive social emotion classification
Amir et al. Quantifying mental health from social media with neural user embeddings
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
US10997369B1 (en) Systems and methods to generate sequential communication action templates by modelling communication chains and optimizing for a quantified objective
Chang et al. Research on detection methods based on Doc2vec abnormal comments
CN108038492A (zh) 一种基于深度学习的感性词向量及情感分类方法
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
CN109858034B (zh) 一种基于注意力模型和情感词典的文本情感分类方法
CN111046941A (zh) 一种目标评论检测方法、装置、电子设备和存储介质
KR20200127020A (ko) 의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체
EP2710495A1 (en) Systems and methods for categorizing and moderating user-generated content in an online environment
Das et al. Sarcasm detection on flickr using a cnn
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和***
Esposito et al. Topic Modelling with Word Embeddings.
Sboev et al. Deep learning network models to categorize texts according to author's gender and to identify text sentiment
Zhang et al. Exploring deep recurrent convolution neural networks for subjectivity classification
CN112115712A (zh) 基于话题的群体情感分析方法
CN116595975A (zh) 一种基于句信息进行词信息增强的方面级情感分析方法
Martini et al. Recognition of ironic sentences in twitter using attention-based LSTM
Ji et al. Cross-modality sentiment analysis for social multimedia
Kavitha et al. A review on machine learning techniques for text classification
CN117291190A (zh) 一种基于情感词典和lda主题模型的用户需求计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant