CN112256876A - 基于多记忆注意力网络的方面级情感分类模型 - Google Patents
基于多记忆注意力网络的方面级情感分类模型 Download PDFInfo
- Publication number
- CN112256876A CN112256876A CN202011153583.3A CN202011153583A CN112256876A CN 112256876 A CN112256876 A CN 112256876A CN 202011153583 A CN202011153583 A CN 202011153583A CN 112256876 A CN112256876 A CN 112256876A
- Authority
- CN
- China
- Prior art keywords
- word
- attention
- context
- lstm
- memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 72
- 238000013145 classification model Methods 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 44
- 230000015654 memory Effects 0.000 claims abstract description 41
- 230000003993 interaction Effects 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 20
- 238000009826 distribution Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000002452 interceptive effect Effects 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000004880 explosion Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 11
- 230000002996 emotional effect Effects 0.000 description 11
- 230000007935 neutral effect Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 235000015278 beef Nutrition 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 235000013550 pizza Nutrition 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282376 Panthera tigris Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多记忆注意力网络的方面级情感分类模型,包括词嵌入层、位置记忆层、Bi‑LSTM网络层、注意力交互记忆层、标签记忆层;通过多个记忆模块学习特征信息,更精确地生成了上下文的情感特征向量,提高了模型性能。
Description
技术领域
本发明涉及情感分类技术领域,具体为一种基于多记忆注意力网络的方 面级情感分类模型。
背景技术
情感分析是自然语言处理中一项重要的任务,它是指通过计算机等辅助 手段,判断人们在文本中对产品、对象、事件、服务、主题及其属性等实体 所持有的情感、看法等感受。情感分析研究领域中人们一直重点关注的问题, 就是方面级情感分析,包括方面级情感分类和方面词提取两个子任务。
本发明主要对方面级别的情感分类任务进行研究,即针对文本语句S所 表达的对象O的特定方面A,判断文本中所表达关于A的情感极性。例如,给 定上下文:一群友好的员工,比萨饼不错,但是牛肉块不值钱!该语句评论 的对象O是饭店,其中包含了三个方面A:人员,比萨饼和牛肉块,其情感极 性分别为积极、积极和负性。显然,不同目标方面的情感极性除了要考虑语 句的上下文信息,还要考虑目标方面的特征信息。如果忽略目标方面的信息, 那么将很难判断文本的情感极性。Jiang人工对Twitter数据集的情感分类的 结果进行评估,实验结果显示:约40%的情感分析的错误源于缺乏对方面信息 的关注。因此,人们越来越关注方面级情感分类的研究。
传统方法普遍会建立情感词典或人工设计特征,例如词袋,再将情感词 典投入到情感分类器来进行分类。但是,这种人工构造的方法是劳动密集型 的,几乎达到了其性能瓶颈。深度神经网络模型在自然语言处理任务中发展 迅速,在NLP的一些子领域中成功应用(例如:机器翻译和自动问答),推 动研究人员将注意力从早期人工设计特征的传统方法迁移到深度学习方法。 近年来,基于RNN(Recursive Neural Networks,RNN)的序列神经网络模型 能解决梯度消失或***,在方面级情感分类表现较好,如LSTM(Long Short-TermMemory)、双向LSTM模型等。
由于江等人指出情感分类有多数错误是因为未在分类中考虑方面词而引 起的,最近的研究倾向于在建模上下文时考虑其与目标方面词之间的内在联 系。Dong等人提出了一种自适应递归神经网络(Recursive Neural Networks, RNN),基于文本的句法关系,将情感从上下文词传播到特定目标。Vo和Zhang 将整个语句分为三个部分,即左上下文和右上下文以及目标方面词,然后使 用池化函数和情感词典生成依赖于目标方面词的特征。MA等提出 IAN(Interactive Attention Networks)模型,他是通过LSTM分别对上下 文和方面词进行建模,再利用两者的隐层信息,经池化函数相互监督生成新 的注意力权重。韩虎等提出了LT-T-TR模型,将目标语句分为包含方面词的 上文、目标方面、包含方面词的下文,通过注意力机制来学习上下和下文到 目标之间的注意力权重,提高情感分析的准确率。杨鹏等人将交互式注意力 神经网络应用到细粒度情感分类,验证了以IAN为基础的神经网络模型能关 注到上下文词与目标方面词的交互信息,从而提高方面级情感分类的准确率。
上面的研究开始关注方面词对于方面级情感分析的重要性,但上述模型 还存在一些问题:1)缺乏对目标方面词在上下文语境中信息的深层挖掘。2) 基于IAN的模型需采用池化操作来监督注意力的生成,会忽略目标方面词与 上下文之间的一些内在信息。3)上述模型往往只从一个角度关注方面词的情 感特征,无法从多个角度进行考虑。因此,本发明提出一种基于多记忆注意 力网络的方面级情感分类模型(Aspect level sentimentClassification model based on multi memory attention network,AC-MMAN)。主要包括 以下几个内容:1)位置记忆注意力模块,记忆给定语句中的单词与目标方面 词的位置关系,来表示不同位置的词语对目标方面的影响程度。2)注意力交 互记忆模块,采用AOA(Attention-Over-Attention)计算上下文的注意力权 重,挖掘上下文与各个方面词之间深层联系,同时AOA模型不通过池化函数 来计算注意力权重,能保留上下文更多的隐含信息。3)标签记忆模块,我们 采用了标签平滑正则化方法来鼓励模型对模糊标签不太自信,因为标签不可 靠性问题在以往的研究中容易被究忽略,中性情绪是一种模糊的情绪状态,会给模型学习带来困难。4)采用Bi-LSTM(Bidirectional-LSTM)神经网络 同时对上下文和方面进行建模,解决上下文含多个方面词的问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于多记忆注意力网络的方面 级情感分类模型,通过多个记忆模块学习特征信息,更精确地生成了上下文 的情感特征向量,提高了模型性能。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:
本发明提供一种基于多记忆注意力网络的方面级情感分类模型,包括词 嵌入层、位置记忆层、Bi-LSTM网络层、注意力交互记忆层、标签记忆层。
作为本发明的进一步方案,所述词嵌入层具体为:将每个单词嵌入一个 低维实值向量中,称为单词嵌入;然后,我们能从MV×d得到vi∈Rd,其中i 是上下文或目标中的单词索引,d表示嵌入矩阵维度,V表示词汇量;词嵌入 能被视为神经网络的参数,也能通过语言模型从适当的语料库进行预训练; 通过词嵌入层,获得上下文和目标方面的词向量表示:上下文向量 [v1;v2;…;vn]∈Rn×d和方面词向量[vi;vi+1;…;vi+m-1]∈Rn×d。
作为本发明的进一步方案,所述位置记忆层具体为:方面级情感类任务 中,单词和方面词之间的位置能挖掘出重要的信息;通常,离目标方面词越 近的词语,对该方面词的影响也就越大;情感词“good”更能判断方面词 “servic”的情感记性,同时与情感词“dreadful”相比”,距离方面词“servic” 的相对位置也更近;然而,对于方面词“restaurant”而言,情感词“good” 比“high”距离方面词“price”的相对位置更近,但它不是能主要判断方面 词“price”的单词;这会导致在某些情况下仅根据相对位置计算的注意力权 重,反而会影响情感分类的准确性;对错误文本的分析后,我们发现该问题 主要由于没有将标点符号会分割不同方面词的情感判断这一情况考虑在内, 因此,我们将一种基于标点符号的权重梯级衰减算法运用在方面级情感分类 任务中,改进位置记忆模块。
作为本发明的进一步方案,所述Bi-LSTM网络层具体为:使用两个Bi-LSTM 神经网络对上下文词向量以及方面词向量进行编码,来学习上下文与方面词 之间的语义联系;每个Bi-LSTM是由两个LSTM叠加而成[12],它能更好的发挥 LSTM的优势,学习文本对象中词与词之间长期依赖信息,同时能避免梯度消 失或***问题;形式上,输入带有位置权重的词向量v’t,先前的单元状态ct-1和 先前的隐藏状态ht-1,LSTM网络中的当前单元状态ct和当前隐藏状态ht更新为:
ft=σ(Wf[ht-1,v’t]+bf)(3)it=σ(Wi[ht-1,v’t]+bi) (4)
ot=σ(Wo[ht-1,v’t]+bo)(7)ht=ot⊙tanh(ct) (8)
其中it,ft和ot对应输入门,遗忘门和输出门,能控制之前文本与当前信 息的记忆和遗忘程度,使LSTM能长期记忆文本之间关系;σ是sigmoid激活 函数;W和b对应三个门中的权重矩阵和偏差;符号“·”表示矩阵乘法,而 “⊙”是逐元素乘法。
通过前向LSTM后,得到隐藏状态dn代表隐藏向量的维度, 再将词向量输入后向LSTM网络,生成另一系列的隐藏状态最后,拼接 两个隐藏状态和得到最终隐藏向量同时方面词向量也经过 Bi-LSTM编码,得到隐藏语义状态ha;
作为本发明的进一步方案,所述注意力交互记忆层具体为:通过Bi-LSTM 网络生成的上下文隐藏状态hs和方面词的隐藏语义ha后,我们使用注意力交 互记忆模块(AOA)来计算整个上下文的注意力权重;AOA模型在处理自然语 言另一子任务问答研究中表现优异,受其启发,我们将其应用在方面级情感 分析;我们首先通过一个成对交互矩阵I=hs·ha,来挖掘出上下文与方面词 之间的相关性;分别通过按列和按行的softmax函数,我们得到了方面词到 上下文的注意力γ和上下文到方面的注意力=;再对=按列求平均,生成一个方 面级注意力它代表了对方面词影响程度大的部分;最后,与方面词 到上下文的注意力γ加权和来获得最终注意力权重ε∈Rn;通过关注每个方面 词的影响,我们学习到上下文中每个词对方面词的权重;
然后,我们通过注意力交互记忆模块(AOA)获得上下文隐藏语义的加权 和:
r=hs ··ε (16)
r最终的上下文表示,再通过非线性层将r投影到情感极性的类别C的向量 空间中;
x=tanh(Wl·r+bl) (17)
式(17)中,Wl代表权重矩阵,bl代表偏差。然后通过Softmax函数来 计算方面级别的情感极性c(c∈C);
最高概率的类别即最终的情感极性。
作为本发明的进一步方案,所述标签记忆层具体为:由于中性情绪是非 常模糊的情绪状态,因此标记为中性的训练样本是不可靠的;我们在损失函 数中采用了标签平滑正则化(LSR)项;惩罚了低熵输出分布;LSR能通过防 止网络在训练过程中为每个训练示例分配全部概率来减少过度拟合,并使用 平滑值(例如01或09)替换分类器的0和1目标;
对于具有原始真实标签分布C(k丨x)的训练样本x,我们将C(k丨x)替 换为
q(k丨x)=(1-c)q(k丨x)+cu(k) (19)
其中u(k)是标签上的先验分布,并且c是平滑参数;我们将先验标签 分布设置为统一的u(k)=1/C;
LSR相当于先验标记分布u(k)与网络预测分布pθ之间的KL散度;LSR 术语正式定义为:
ψlsr=-DKL(u(k)||pθ) (20)
要优化的目标函数是具有ψlsr和L2正则化的交叉熵损失函数,其定义为:
采用Dropout来防止模型过拟合,并使用Adam和小批量随机梯度下降方 法来寻找参数的最优解。
(三)有益效果
1、本发明提供了一种基于多记忆注意力网络的方面级情感分类模型,通 过多个记忆模块学习特征信息,更精确地生成了上下文的情感特征向量,提 高了模型性能。
2、方面级情感分类的目的是判断所描述对象的特定方面在其语句中的情 感极性。针对传统依赖注意力机制的深度学习模型无法从多个角度关注特定 方面的情感特征,以及缺乏对特定方面与上下文之间语义信息的挖掘等问题, 提出了一种基于多记忆注意力网络的方面级情感分类模型(AC-MMAN)。该模 型使用双向长短时记忆网络(Bi-LSTM)对上下文以及目标方面进行编码来获 取上下文和方面的表示;同时,在Bi-LSTM网络中的不同位置加入不同类型 的记忆注意力模块,通过多记忆模块让模型从不同角度学习到上下文与目标 方面词之间的深层情感信息,获得每个单词更准确的权重值,从而提高情感 分析的准确性。并在SemEval 2014Task 41的公开数据集上进行实验,验证 了其有效性。
附图说明
图1为本发明实施例提供的一种基于多记忆注意力网络的方面级情感分 类模型AC-MMAN网络图;
图2为本发明实施例中上下文中单词与方面词的位置关系。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供一种基于多记忆注意力网络的方面级情感分 类模型,包括词嵌入层、位置记忆层、Bi-LSTM网络层、注意力交互记忆层、 标签记忆层。
本发明实施例中,所述词嵌入层具体为:将每个单词嵌入一个低维实值 向量中,称为单词嵌入;然后,我们能从MV×d得到vi∈Rd,其中i是上下文 或目标中的单词索引,d表示嵌入矩阵维度,V表示词汇量;词嵌入能被视为 神经网络的参数,也能通过语言模型从适当的语料库进行预训练;通过词嵌 入层,获得上下文和目标方面的词向量表示:上下文向量[v1;v2;…;vn]∈ Rn×d和方面词向量[vi;vi+1;…;vi+m-1]∈Rn×d。
本发明实施例中,所述位置记忆层具体为:方面级情感类任务中,单词 和方面词之间的位置能挖掘出重要的信息;通常,离目标方面词越近的词语, 对该方面词的影响也就越大;情感词“good”更能判断方面词“servic”的 情感记性,同时与情感词“dreadful”相比”,距离方面词“servic”的相 对位置也更近;然而,对于方面词“restaurant”而言,情感词“good”比 “high”距离方面词“price”的相对位置更近,但它不是能主要判断方面词“price”的单词;这会导致在某些情况下仅根据相对位置计算的注意力权重, 反而会影响情感分类的准确性;对错误文本的分析后,我们发现该问题主要 由于没有将标点符号会分割不同方面词的情感判断这一情况考虑在内,因此, 我们将一种基于标点符号的权重梯级衰减算法运用在方面级情感分类任务中, 改进位置记忆模块。
本发明实施例中,所述Bi-LSTM网络层具体为:使用两个Bi-LSTM神经 网络对上下文词向量以及方面词向量进行编码,来学习上下文与方面词之间 的语义联系;每个Bi-LSTM是由两个LSTM叠加而成[12],它能更好的发挥LSTM 的优势,学习文本对象中词与词之间长期依赖信息,同时能避免梯度消失或 ***问题;形式上,输入带有位置权重的词向量v’t,先前的单元状态ct-1和先 前的隐藏状态ht-1,LSTM网络中的当前单元状态ct和当前隐藏状态ht更新为:
ft=σ(Wf[ht-1,v’t]+bf)(3)it=σ(Wi[ht-1,v’t]+bi) (4)
ot=σ(Wo[ht-1,v’t]+bo)(7)ht=ot⊙tanh(ct) (8)
其中it,ft和ot对应输入门,遗忘门和输出门,能控制之前文本与当前信 息的记忆和遗忘程度,使LSTM能长期记忆文本之间关系;σ是sigmoid激活 函数;W和b对应三个门中的权重矩阵和偏差;符号“·”表示矩阵乘法,而 “⊙”是逐元素乘法。
通过前向LSTM后,得到隐藏状态dn代表隐藏向量的维度, 再将词向量输入后向LSTM网络,生成另一系列的隐藏状态最后,拼接 两个隐藏状态和得到最终隐藏向量同时方面词向量也经过 Bi-LSTM编码,得到隐藏语义状态ha;
本发明实施例中,所述注意力交互记忆层具体为:通过Bi-LSTM网络生 成的上下文隐藏状态hs和方面词的隐藏语义ha后,我们使用注意力交互记忆 模块(AOA)来计算整个上下文的注意力权重;AOA模型在处理自然语言另一 子任务问答研究中表现优异,受其启发,我们将其应用在方面级情感分析; 我们首先通过一个成对交互矩阵I=hs·ha,来挖掘出上下文与方面词之间的 相关性;分别通过按列和按行的softmax函数,我们得到了方面词到上下文 的注意力γ和上下文到方面的注意力δ;再对δ按列求平均,生成一个方面级注意力它代表了对方面词影响程度大的部分;最后,与方面词到上下 文的注意力γ加权和来获得最终注意力权重ε∈Rn;通过关注每个方面词的影 响,我们学习到上下文中每个词对方面词的权重;
然后,我们通过注意力交互记忆模块(AOA)获得上下文隐藏语义的加权 和:
r=hs ··ε (16)
r最终的上下文表示,再通过非线性层将r投影到情感极性的类别C的向量 空间中;
x=tanh(Wl·r+bl) (17)
式(17)中,Wl代表权重矩阵,bl代表偏差。然后通过Softmax函数来 计算方面级别的情感极性c(c∈C);
最高概率的类别即最终的情感极性。
本发明实施例中,所述标签记忆层具体为:由于中性情绪是非常模糊的 情绪状态,因此标记为中性的训练样本是不可靠的;我们在损失函数中采用 了标签平滑正则化(LSR)项;惩罚了低熵输出分布;LSR能通过防止网络在 训练过程中为每个训练示例分配全部概率来减少过度拟合,并使用平滑值(例 如01或09)替换分类器的0和1目标;
对于具有原始真实标签分布q(k丨x)的训练样本x,我们将q(k丨x)替 换为
q(k丨x)=(1-c)q(k丨x)+cu(k) (19)
其中u(k)是标签上的先验分布,并且c是平滑参数;我们将先验标签 分布设置为统一的u(k)=1/C;
LSR相当于先验标记分布u(k)与网络预测分布pθ之间的KL散度;LSR 术语正式定义为:
ψlsr=-DKL(u(k)||pθ) (20)
要优化的目标函数是具有ψlsr和L2正则化的交叉熵损失函数,其定义为:
采用Dropout来防止模型过拟合,并使用Adam和小批量随机梯度下降方 法来寻找参数的最优解。
实验测试:
我们对SemEval 2014Task 4的数据集进行了实验,以验证我们模型的 有效性,它由两类评论组成:餐厅和笔记本电脑。评论带有三种情感极性: 积极,中立和消极,如表1所示:
表1 SemEval 2014数据集的统计数据
评估指标:
我们采用“准确性”指标来评估方面的情感分类的性能,其定义为:
其中T是正确预测的样本数,N是样本总数。
参数设定:
在我们的实验中,我们从训练集中随机选择5份20%的数据作为交叉验证 集,来训练我们的超参数。所有的上下文和方面词都采用GloVe2进行词嵌入。 LSTM隐藏层、词向量以及注意力向量的维度都设置成300维。
通过从均匀分布U(-0.05;0.05)进行采样,为所有权重矩阵提供初始 值,并且所有偏差都设置为零。Adams的初始学习率设置为0.01,衰减因子 为0.95,正则化的系数为0.001,dropout参数设成0.2。
需要说明的是,在本发明中,诸如术语“包括”、“包含”或者其任何 其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、 物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或 者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限 制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要 素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而 言,能理解在不脱离本发明的原理和精神的情况下能对这些实施例进行多种 变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.一种基于多记忆注意力网络的方面级情感分类模型,其特征在于,包括词嵌入层、位置记忆层、Bi-LSTM网络层、注意力交互记忆层、标签记忆层。
2.根据权利要求1所述的一种基于多记忆注意力网络的方面级情感分类模型,其特征在于,所述词嵌入层具体为:将每个单词嵌入一个低维实值向量中,称为单词嵌入;我们从MV×d得到vi∈Rd,其中i是上下文或目标中的单词索引,d表示嵌入矩阵维度,V表示词汇量;词嵌入被视为神经网络的参数,通过语言模型从语料库进行预训练;通过词嵌入层,获得上下文和目标方面的词向量表示:上下文向量[v1;v2;...;vn]∈Rn×d和方面词向量[vi;vi+1;...;vi+m-1]∈Rn×d。
3.根据权利要求1所述的一种基于多记忆注意力网络的方面级情感分类模型,其特征在于,所述位置记忆层具体为:方面级情感类任务中,单词和方面词之间的位置能挖掘出重要的信息;离目标方面词越近的词语,对该方面词的影响就越大。
4.根据权利要求1所述的一种基于多记忆注意力网络的方面级情感分类模型,其特征在于,所述Bi-LSTM网络层具体为:使用两个Bi-LSTM神经网络对上下文词向量以及方面词向量进行编码,来学习上下文与方面词之间的语义联系;每个Bi-LSTM是由两个LSTM叠加而成,它能发挥LSTM的优势,学习文本对象中词与词之间长期依赖信息,同时能避免梯度消失或***问题;形式上,输入带有位置权重的词向量v′t,先前的单元状态ct-1和先前的隐藏状态ht-1,LSTM网络中的当前单元状态ct和当前隐藏状态ht更新为:
ft=σ(Wf[ht-1,v′t]+bf) (3) it=σ(Wi[ht-1,v′t]+bi) (4)
ot=σ(Wo[ht-1,v′t]+bo) (7) ht=ot⊙tanh(ct) (8)
其中it,ft和ot对应输入门,遗忘门和输出门,能控制之前文本与当前信息的记忆和遗忘程度,使LSTM能长期记忆文本之间关系;σ是sigmoid激活函数;W和b对应三个门中的权重矩阵和偏差;符号“·”表示矩阵乘法,而“⊙”是逐元素乘法;
通过前向LSTM后,得到隐藏状态dn代表隐藏向量的维度,再将词向量输入后向LSTM网络,生成另一系列的隐藏状态最后,拼接两个隐藏状态和得到最终隐藏向量同时方面词向量也经过Bi-LSTM编码,得到隐藏语义状态ha;
5.根据权利要求1所述的一种基于多记忆注意力网络的方面级情感分类模型,其特征在于,所述注意力交互记忆层具体为:通过Bi-LSTM网络生成的上下文隐藏状态hs和方面词的隐藏语义ha后,使用注意力交互记忆模块(AOA)来计算整个上下文的注意力权重;首先通过一个成对交互矩阵I=hs·ha,来挖掘出上下文与方面词之间的相关性;分别通过按列和按行的softmax函数,从而得到了方面词到上下文的注意力γ和上下文到方面的注意力δ;再对δ按列求平均,生成一个方面级注意力它代表了对方面词影响程度大的部分;最后,与方面词到上下文的注意力γ加权和来获得最终注意力权重ε∈Rn;通过关注每个方面词的影响,从而学习到上下文中每个词对方面词的权重;
然后,我们通过注意力交互记忆模块(AOA)获得上下文隐藏语义的加权和:
r=hs ··ε (16)
r最终的上下文表示,再通过非线性层将r投影到情感极性的类别C的向量空间中;
x=tanh(Wl·r+bl) (17)
式(17)中,Wl代表权重矩阵,bl代表偏差;然后通过Softmax函数来计算方面级别的情感极性c(c∈C);
最高概率的类别即最终的情感极性。
6.根据权利要求1所述的一种基于多记忆注意力网络的方面级情感分类模型,其特征在于,所述标签记忆层具体为:在损失函数中采用了标签平滑正则化(LSR)项;惩罚了低熵输出分布;LSR能通过防止网络在训练过程中为每个训练示例分配全部概率来减少过度拟合,并使用平滑值替换分类器的0和1目标;
对于具有原始真实标签分布q(k|x)的训练样本x,我们将q(k|x)替换为
q(k|x)=(1-c)q(k|x)+cu(k) (19)
其中u(k)是标签上的先验分布,并且c是平滑参数;我们将先验标签分布设置为统一的u(k)=1/C;
LSR相当于先验标记分布u(k)与网络预测分布pθ之间的KL散度;LSR术语正式定义为:
ψlsr=-DKL(u(k)||pθ) (20)
要优化的目标函数是具有ψlsr和L2正则化的交叉熵损失函数,其定义为:
采用Dropout来防止模型过拟合,并使用Adam和小批量随机梯度下降方法来寻找参数的最优解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011153583.3A CN112256876A (zh) | 2020-10-26 | 2020-10-26 | 基于多记忆注意力网络的方面级情感分类模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011153583.3A CN112256876A (zh) | 2020-10-26 | 2020-10-26 | 基于多记忆注意力网络的方面级情感分类模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112256876A true CN112256876A (zh) | 2021-01-22 |
Family
ID=74261863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011153583.3A Pending CN112256876A (zh) | 2020-10-26 | 2020-10-26 | 基于多记忆注意力网络的方面级情感分类模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112256876A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926311A (zh) * | 2021-02-03 | 2021-06-08 | 昆明理工大学 | 一种结合序列和主题信息的无监督方面词提取方法 |
CN113032563A (zh) * | 2021-03-22 | 2021-06-25 | 山西三友和智慧信息技术股份有限公司 | 一种基于人工遮掩关键词的正则化文本分类微调方法 |
CN113033188A (zh) * | 2021-03-19 | 2021-06-25 | 华果才让 | 一种基于神经网络的藏文语法纠错方法 |
CN113268592A (zh) * | 2021-05-06 | 2021-08-17 | 天津科技大学 | 基于多层次交互注意力机制的短文本对象情感分类方法 |
CN113361617A (zh) * | 2021-06-15 | 2021-09-07 | 西南交通大学 | 基于多元注意力修正的方面级情感分析建模方法 |
CN115392260A (zh) * | 2022-10-31 | 2022-11-25 | 暨南大学 | 一种面向特定目标的社交媒体推文情感分析方法 |
CN115936077A (zh) * | 2022-12-30 | 2023-04-07 | 湖北工业大学 | 基于依赖树的方面级情感分析交互卷积网络 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180121799A1 (en) * | 2016-11-03 | 2018-05-03 | Salesforce.Com, Inc. | Training a Joint Many-Task Neural Network Model using Successive Regularization |
CN109472031A (zh) * | 2018-11-09 | 2019-03-15 | 电子科技大学 | 一种基于双记忆注意力的方面级别情感分类模型及方法 |
CN110348016A (zh) * | 2019-07-15 | 2019-10-18 | 昆明理工大学 | 基于句子关联注意力机制的文本摘要生成方法 |
CN111026869A (zh) * | 2019-12-10 | 2020-04-17 | 山东大学 | 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法 |
-
2020
- 2020-10-26 CN CN202011153583.3A patent/CN112256876A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180121799A1 (en) * | 2016-11-03 | 2018-05-03 | Salesforce.Com, Inc. | Training a Joint Many-Task Neural Network Model using Successive Regularization |
CN109472031A (zh) * | 2018-11-09 | 2019-03-15 | 电子科技大学 | 一种基于双记忆注意力的方面级别情感分类模型及方法 |
CN110348016A (zh) * | 2019-07-15 | 2019-10-18 | 昆明理工大学 | 基于句子关联注意力机制的文本摘要生成方法 |
CN111026869A (zh) * | 2019-12-10 | 2020-04-17 | 山东大学 | 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法 |
Non-Patent Citations (1)
Title |
---|
刘一伊;张瑾;余智华;刘悦;程学旗;: "基于词嵌入与记忆网络的方面情感分类", 模式识别与人工智能, no. 12, pages 1093 - 1099 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926311A (zh) * | 2021-02-03 | 2021-06-08 | 昆明理工大学 | 一种结合序列和主题信息的无监督方面词提取方法 |
CN112926311B (zh) * | 2021-02-03 | 2022-08-02 | 昆明理工大学 | 一种结合序列和主题信息的无监督方面词提取方法 |
CN113033188A (zh) * | 2021-03-19 | 2021-06-25 | 华果才让 | 一种基于神经网络的藏文语法纠错方法 |
CN113032563A (zh) * | 2021-03-22 | 2021-06-25 | 山西三友和智慧信息技术股份有限公司 | 一种基于人工遮掩关键词的正则化文本分类微调方法 |
CN113032563B (zh) * | 2021-03-22 | 2023-07-14 | 山西三友和智慧信息技术股份有限公司 | 一种基于人工遮掩关键词的正则化文本分类微调方法 |
CN113268592A (zh) * | 2021-05-06 | 2021-08-17 | 天津科技大学 | 基于多层次交互注意力机制的短文本对象情感分类方法 |
CN113361617A (zh) * | 2021-06-15 | 2021-09-07 | 西南交通大学 | 基于多元注意力修正的方面级情感分析建模方法 |
CN115392260A (zh) * | 2022-10-31 | 2022-11-25 | 暨南大学 | 一种面向特定目标的社交媒体推文情感分析方法 |
CN115936077A (zh) * | 2022-12-30 | 2023-04-07 | 湖北工业大学 | 基于依赖树的方面级情感分析交互卷积网络 |
CN115936077B (zh) * | 2022-12-30 | 2023-09-15 | 湖北工业大学 | 基于依赖树的方面级情感分析交互卷积网络 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112256876A (zh) | 基于多记忆注意力网络的方面级情感分类模型 | |
Estrada et al. | Opinion mining and emotion recognition applied to learning environments | |
CN109753566B (zh) | 基于卷积神经网络的跨领域情感分析的模型训练方法 | |
Zhou et al. | Recurrent convolutional neural network for answer selection in community question answering | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN109614471B (zh) | 一种基于生成式对抗网络的开放式问题自动生成方法 | |
CN109902177B (zh) | 基于双通道卷积记忆神经网络的文本情感分析方法 | |
CN110096711B (zh) | 序列全局关注和局部动态关注的自然语言语义匹配方法 | |
CN112733541A (zh) | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 | |
CN108536754A (zh) | 基于blstm和注意力机制的电子病历实体关系抽取方法 | |
CN111460157B (zh) | 用于多领域文本分类的循环卷积多任务学习方法 | |
CN111241807A (zh) | 一种基于知识引导注意力的机器阅读理解方法 | |
CN113361617A (zh) | 基于多元注意力修正的方面级情感分析建模方法 | |
CN115510814B (zh) | 一种基于双重规划的篇章级复杂问题生成方法 | |
CN114492441A (zh) | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 | |
CN111368082A (zh) | 一种基于层次网络的领域自适应词嵌入的情感分析方法 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN111353040A (zh) | 基于gru的属性级别情感分析方法 | |
CN114756681A (zh) | 一种基于多注意力融合的评教文本细粒度建议挖掘方法 | |
CN116579347A (zh) | 一种基于动态语义特征融合的评论文本情感分析方法、***、设备及介质 | |
CN112100439A (zh) | 基于依赖关系嵌入与神经注意力网络的推荐方法 | |
CN117633239B (zh) | 一种结合组合范畴语法的端到端方面情感识别方法 | |
CN114443846A (zh) | 一种基于多层级文本异构图的分类方法、装置及电子设备 | |
Han et al. | Generative adversarial networks for open information extraction | |
Patil et al. | Evaluation of Short Answers Using Domain Specific Embedding and Siamese Stacked BiLSTM with Contrastive Loss. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210122 |