CN117648434A - 一种bert方面级的情感分类方法、装置、设备、及存储介质 - Google Patents

一种bert方面级的情感分类方法、装置、设备、及存储介质 Download PDF

Info

Publication number
CN117648434A
CN117648434A CN202311401014.XA CN202311401014A CN117648434A CN 117648434 A CN117648434 A CN 117648434A CN 202311401014 A CN202311401014 A CN 202311401014A CN 117648434 A CN117648434 A CN 117648434A
Authority
CN
China
Prior art keywords
vector
attention
bert
emotion classification
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311401014.XA
Other languages
English (en)
Inventor
张华辉
邓杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Putian University
Original Assignee
Putian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Putian University filed Critical Putian University
Priority to CN202311401014.XA priority Critical patent/CN117648434A/zh
Publication of CN117648434A publication Critical patent/CN117648434A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种BERT方面级的情感分类方法、装置、设备、及可读存储介质,首先通过将文本和方面词单独建模,通过BERT网络进行编码提取隐含特征。随后将隐含特征向量与方面词向量拼接,通过注意力机制获取注意力向量,最后将注意力向量与隐含特征向量相结合并用softmax来输出分类预测,模型中还使用了对抗优化算法来优化决策边界。在SemEva l 2014任务中提供的Laptop与Restaurant两个公开数据集上的分类效果,对比现有方面级情感分类方法,准确率都得到提升。本发明基于对句子的方面级特征进行充分地学习,结合对抗训练机制将数据集的效果发挥到最大化,在复杂的场景下仍能表现出良好的效果,具有准确率高、鲁棒性好的特点。

Description

一种BERT方面级的情感分类方法、装置、设备、及存储介质
技术领域
本发明涉及文本处理领域,特别涉及一种BERT方面级的情感分类方法、装置、设备、及可读存储介质。
背景技术
随着在线社交网络的蓬勃发展,用户能随时随地在社交网络分享和表达个人的不同观点。在电商平台上的商品评论数据可以反映个体用户对产品的真实体验,提供给商家改进商品不足的方向,为潜在的消费者提供是否购买的决策支持。在新闻社交平台的评论,一定程度可以反映群众对某一新闻或者政策的情感态度,为迅速、合理地掌控网络舆情提供依据和支撑。在电子商务、社会治理等多个方面,在线社交网络中的评论性文本蕴藏着极其重要的情感价值,具有很大的***应用前景。因此,在海量的社交网络数据中高效地进行文本情感分析,具有极为重要的意义。
在现有技术中,基于深度学习的情感分类方法是较为主流的,将文本嵌入到向量空间,然后,放入BERT(Bidirectional Encoder Representation from Transformers)、ELMo(Embedding from Language Models)等深度神经网络提取特征,最后,将特征经过若干隐含层后进行分类。该类方法包括卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆网络(Long Short-Term Memory,LSTM)、图神经网络(Graph NeuralNetworks,GNN)等方式。其存在特征提取能力弱,情感分类精度低的问题。
有鉴于此,提出本申请。
发明内容
本发明公开了一种BERT方面级的情感分类方法、装置、设备、及可读存储介质,旨在解决现有技术中特征提取能力弱,情感分类精度低的问题。
本发明第一实施例提供了一种BERT方面级的情感分类方法,包括:
接收经过预处理过的文本数据,并将所述文本数据转换为向量序列,其中,所述向量序列包括词嵌入向量序列、片段嵌入向量序列、位置嵌入向量序列;
对所述向量序列进行嵌入处理,以生成上下文特征向量与方面词特征向量的拼接向量;
引入注意力机制对所述拼接向量进行处理,生成注意力权重;
根据所述上下文特征向量和所述注意力权重生成句子语义表示,并对所述句子语义表示进行归一化处理,生成情感分类。
优选地,所述对所述向量序列进行嵌入处理,以生成上下文特征向量与方面词特征向量的拼接向量,具体为:
对所述嵌入向量序列、片段嵌入向量序列、位置嵌入向量序列的嵌入结果进行线性变换为表查询、键和值,并计算注意力权重;
Q=EwWQ
K=EwWK
V=EwWV
其中,Q为查询,K为键、V为值,dK是K的维度,WQ,WK,WV是权重矩阵,WK嵌入结果;
对于第i个头的注意力机制,其计算过程为:
将每个头的注意力权重矩阵与对应的参数矩阵相乘,得到每个头的输出,将h个头的输出拼接在一起,得到自注意力模块的输出:
Head=concat(Head1,Head2,…,Headh)W
headi表示第i个头的注意力机制,W是参数矩阵,其中是第i个头的查询、键和值的线性变换权重矩阵;
对所述自注意力模块的输出进行归一化操作后,在输出层将归一化后的结果作为下一过程的输入,其中,第一层编码器的输入为H0,则有H0=Ew,则编码的过程可以表示为:
Hi=Transformer(Hi-1),i∈[1,L]
其中,Hi代表第i层Transformer编码的结果,L代表BERT编码器Transformer的总层数;其中,输出结果为:
H=BERT(context)
V=BERT(aspect)
BERT()表示为BERT编码过程,context和aspect是输入层的预处理信息,H为上下文特征向量,V为方面词特征向量。
优选地,对所述自注意力模块的输出进行归一化操作,具体为:
自注意力模块输出的结果进入到前馈网络模块,前馈网络模块中包括线性转换和RELU函数两个部分,前馈网络模块将向量进行线性转换后,并使用激活函数进行非线性映射,映射结构在残差模块和归一化模块中进行残差连接,并在残差连接后进行层归一化操作。
优选地,所述引入注意力机制对所述拼接向量进行处理,生成注意力权重,具体为:
将拼接向量传入注意力机制,以获得每个标记的权重,并使用多个权重计算隐藏状态的加权和,注意力机制将会产生一个注意力权重向量和一个带权重的隐藏层表示。
通过拼接后的上下文向量表示得到每个中间向量的分数,并对分数进行softmax归一化,得到每个中间向量的注意力权重,具体表示为:
α=softmax(WTM)
其中,α为注意力权重向量,M为拼接向量。
优选地,所述根据所述上下文特征向量和所述注意力权重生成句子语义表示,并对所述句子语义表示进行归一化处理,生成情感分类,具体为:
在分类层,将所述上下文特征向量和下文特征向量的注意力权重相乘得到注意力向量;
对注意力向量和上下文特征向量做计算得到一个句子在给定方面的加权向量表示,其中,最终的句子表示为:
h*=tanh(Wpr+WxH)
中,h*∈Rd,Wp和Wx是训练中要学习的参数;
调用softmax函数进行归一化,得到情感分类,表达式为:
yi=softmax(Wsh*+bs)
其中,Ws和bs是softmax参数。
本发明第二实施例提供了一种BERT方面级的情感分类装置,包括:
向量序列转换单元,用于接收经过预处理过的文本数据,并将所述文本数据转换为向量序列,其中,所述向量序列包括词嵌入向量序列、片段嵌入向量序列、位置嵌入向量序列;
拼接向量生成单元,用于对所述向量序列进行嵌入处理,以生成上下文特征向量与方面词特征向量的拼接向量;
注意力权重生成单元,用于引入注意力机制对所述拼接向量进行处理,生成注意力权重;
情感分类生成单元,用于根据所述上下文特征向量和所述注意力权重生成句子语义表示,并对所述句子语义表示进行归一化处理,生成情感分类。
本发明第三实施例提供了一种情感分类设备,其特征在于,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如上任意一项所述的一种BERT方面级的情感分类方法。
本发明第四实施例提供了一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如上任意一项所述的一种BERT方面级的情感分类方法。
基于本发明提供的一种BERT方面级的情感分类方法、装置、设备、及可读存储介质,先通过接收经过预处理过的文本数据,并将所述文本数据转换为向量序列,接着对所述向量序列进行嵌入处理,以生成上下文特征向量与方面词特征向量的拼接向量,再接着引入注意力机制对所述拼接向量进行处理,生成注意力权重,最后悔根据所述上下文特征向量和所述注意力权重生成句子语义表示,并对所述句子语义表示进行归一化处理,生成情感分类。解决现有技术中特征提取能力弱,情感分类精度低的问题。
附图说明
图1是本发明第一实施例提供的一种BERT方面级的情感分类方法的流程示意图;
图2是本发明提供的BERT编码过程示意图;
图3是本发明提供的文本与方面词嵌入细节示意图;
图4是本发明提供的BERT-AL(Bidirectional Encoder Representation fromTransformers-Adversarial Learning)模型在不同数据集中与其他模型的对比示意图;
图5是本发明提供的Laptop数据集的消融实验结果示意图;
图6是本发明提供的Restaurant数据集的消融实验结果示意图;
图7是本发明提供的BERT-AL结构示意图;
图8是本发明第二实施例提供的一种BERT方面级的情感分类装置的模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
实施例中提及的“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换,以使这里描述的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
以下结合附图对本发明的具体实施例做详细说明。
本发明公开了一种BERT方面级的情感分类方法、装置、设备、及可读存储介质,旨在解决现有技术中特征提取能力弱,情感分类精度低的问题。
本发明第一实施例提供了一种BERT方面级的情感分类方法,其可由情感分类设备(以下简称分类设备)来执行,特别的,由所述分类设备内的一个或者多个处理器来执行,以实现如下步骤:
S101,接收经过预处理过的文本数据,并将所述文本数据转换为向量序列,其中,所述向量序列包括词嵌入向量序列、片段嵌入向量序列、位置嵌入向量序列;
在本实施例中,所述分类设备可为台式电脑、笔记本电脑、服务器、工作站等具有数据处理分析能力的终端,其中,所述评价设备内可安装有相应的操作***以及应用软件,并通过操作***以及应用软件的结合来实现本实施例所需的功能。
需要说明的是,方面级情感分类是一种细粒度的情感分类任务,该任务自然语言处理领域的一个研究热点。设任意的文本表示为:context={w1,w2,...,wb,wb+1,...,wb+n-1,...,wm},文本对应的方面词表示为:aspect={wb,wb+1,...,wb+n-1}。其中,m代表文本的长度,n代表方面词的长度,b代表方面词在文本中的起始位置。那么,方面级情感分类任务可以函数描述为:F(context,aspect)→polarity,其中,polarity∈{1,0,-1},1表示积极、0表示中性、-1表示消极。简单地说,方面级情感分类任务的输入是文本和方面词,目标是寻找函数F,使得方面词在对应文本下的情感有一一对应关系。
在本实施例中,输入层接收对数据集中的数据进行预处理后的给定格式数据,上下文与方面词格式分别为:“[CLS]上下文[SEP]方面词[SEP]”和“[CLS]方面词[SEP]”的形式。例如,给定文本“Theflower is beautiful”,其中,方面词为“flower”,那么输入层接收的数据为“[CLS]The flower is beautiful[SEP]flower[SEP]”和“[CLS]flower[SEP]”。其中,“[CLS]”表示起始标识符,“[SEP]”表示分隔符。
S102,对所述向量序列进行嵌入处理,以生成上下文特征向量与方面词特征向量的拼接向量;
在本实施例中,如图2所示,编码层对上下文和方面词进行BERT编码,并使用对抗算法对上下文和方面词嵌入结果计算扰动生成对抗样本,其中,BERT的输入如图3所示,将输入层输入按照一定的规则转换为词嵌入、片段嵌入和位置嵌入组成的向量序列。每个单词都被映射为对应的词向量,每个片段都被映射为对应的片段嵌入向量,每个单词的位置都被映射为对应的位置嵌入向量。定义Ew代表三种信息整体嵌入的结果,ET、ES和EP分别代表词嵌入、片段嵌入和位置嵌入,则BERT中信息嵌入可以表示为:Ew=ET+ES+EP
随后,多层Transformer编码器对嵌入结果进行编码,在编码器内首先会通过自注意力模块。自注意力模块中包含多头注意力和随机失活两个模块。通过多头注意力机制来提取文本的深层特征,多头注意力机制通过以下方式对嵌入结果进行操作:
具体地,通过线性变换将嵌入结果转换为Q,K,V,并计算注意力权重:
Q=EwWQ (2)
K=EwWK (3)
V=EwWV(4)
Q,K,V分别代表查询、键和值,dK是K的维度,WQ,WK,WV是权重矩阵。
对于第i个头的注意力机制,其计算过程为:
我们将每个头的注意力权重矩阵与对应的参数矩阵相乘,得到每个头的输出。最后,将h个头的输出拼接在一起,得到最终的输出:
Head=concat(Head1,Head2,…,Headh)W (7)
Headi表示第i个头的注意力机制,W是参数矩阵。其中是第i个头的查询、键和值的线性变换权重矩阵。
自注意力模块输出的结果进入到前馈网络模块,前馈网络模块中包含线性转换和RELU函数两个部分,该模块将向量进行线性转换后,并使用激活函数进行非线性映射,随后在残差和归一化模块中进行残差连接,并在残差连接后进行层归一化操作。
最后输出层将归一化后的结果反复地送到输入层中进行训练,即将上一过程的网络输出作为下一过程的输入,重复多次。定义第一层编码器的输入为H0,则有H0=Ew,则编码的过程可以表示为:
Hi=Transformer(Hi-1),i∈[1,L] (5)
其中,Hi代表第i层Transformer编码的结果,L代表BERT编码器Transformer的总层数;最后,将最后的输出结果分别用H和V表示,可以表示为:
H=BERT(context) (6)
V=BERT(aspect) (7)
BERT()表示为BERT编码过程,而context和aspect则是来自输入层的预处理信息。
对抗训练机制对嵌入的结果进行扰动,并将扰动的结果送入模型中进行二次训练,具体过程如下:
Xt+a=Xt+radv (10)
式中,Xt+a代表当前的对抗样本,根据当前模型梯度g,经模型梯度计算得到扰动radv,ε是扰动步长,‖g‖指对嵌入矩阵求二范数从而得到一个作为分母的标量,J(θ,x,y)表示梯度损失函数。
S103,引入注意力机制对所述拼接向量进行处理,生成注意力权重;
在本实施例中,
在注意力层,将编码结果拼接并使用注意力机制,首先,将通过BERT编码层后生成的上下文特征向量与方面词特征向量拼接起来,可以表示为:
M是将编码层输出的上下文特征向量与方面词特征向量拼接后的向量表示,经过注意力层后得到的新的向量表示,H是由编码层输出的上下文特征向量表示。V表示方面词特征向量。
随后,将拼接后的向量M传入注意力机制,以获得每个标记的权重,并使用这些权重计算隐藏状态的加权和。注意力机制将会产生一个注意力权重向量α和一个带权重的隐藏层表示r。
通过拼接后的上下文向量表示得到每个中间向量的分数,并对分数进行softmax归一化,得到每个中间向量的注意力权重,具体表示为:
α=softmax(WTM) (12)
S104,根据所述上下文特征向量和所述注意力权重生成句子语义表示,并对所述句子语义表示进行归一化处理,生成情感分类。
在分类层,将上下文特征向量和它的注意力权重相乘,得到注意力向量,可以表示为:
r=HαT (13)
r是句子在给定方面词下的注意力向量表示。
在情感分类层进行情感分类,具体过程如下:
从注意力层获得注意力向量表示后,将注意力向量和上下文特征向量做计算得到一个句子在给定方面的加权向量表示。最终的句子表示为:
h*=tanh(Wpr+WxH) (14)
其中,h*∈Rd,Wp和Wx是训练中要学习的参数。
获得句子语义表示后,利用softmax函数进行归一化,得到情感分类,可以表示为:
yi=softmax(Wsh*+bs) (15)
其中Ws和bs是softmax参数。
在本发明一个可能的实施例中,还包括对模型进行训练:
将损失函数和权重衰减系数作为输入,通过回传损失函数来获取更准确的预测结果,使用交叉熵损失函数对模型进行训练,以优化模型参数,并通过多次迭代和调整,最终获得最优的模型参数。
假设模型参数表示为z为样本情感的类别,yi为训练样本的情感预测,则模型的训练损失L1为:
式中,y*为真实标签的分布,ξ为1.2规范化系数。
特殊地,模型中附加了基于对抗样本的对抗训练,BERT-AL模型通过输入层的context和aspect信息分别结合对抗学习算法策略,假设根据当前样本的梯度计算扰动大小r1和r2,得到输入层对抗样本表示为context+r1和aspect+r1,再将对抗样本输入编码层,最后得到和/>向量,可以表示为:
同理,随后将对抗学习样本输入注意力层,得到特征向量表示,最后到达分类层,则对应的对抗样本训练损失为L2
式中的Yi为对抗学习样本的最终情感预测。
那么模型的最终损失可以表示为:
L=L1+L2 (20)
随后,分别根据两个损失进行梯度下降,分别更新模型参数,优化模型。即在正常训练样本的基础上,生成并学习对抗样本,以此来优化决策边界。
最终,对数据集测试集进行分类。对于待检测文本,首先将其送入模型训练后得到的模型,该模型对方面词和句子进行编码、特征变换、特征提取等步骤,最后利用情感分类器获得方面级情感分类的结果。
以下是上述实施例的仿真实验:
仿真实验选用2014SemEval任务中的Restaurant和Laptop数据集。其分别是餐馆和笔记本电脑的评价文本,并且将每个数据集分成训练集和测试集,每条评论信息可以有多个方面,每个方面有三种极性选择:积极、中立、消极。表1给出了数据集的数据统计。本实验最终使用了4728条和2966条分别来自餐馆数据和笔记本电脑数据的评论集。
表1基准数据集统计
基于实验数据本身和其他研究者的通用做法,这里使用的评价指标是分类精度与F1值,用准确率衡量整体情感分类效果。
准确率ACC:分类正确的样本占总样本的比例,公式如下:
式中,Z表示样本情感类别数,T表示分类准确的样本,F表示分类错误的样本。
F1值:由精度和召回率表示,对模型进行综合衡量。精度表示查准的概率,召回率表示查全的概率,F1值的计算如公式如下所示:
在相同数据集上采用不同方法进行测试对比,主要对比模型如下:
ATAE-LSTM模型:该模型将方面嵌入附加到LSTM输出的每一个隐藏层状态上,然后利用注意力机制得到每一个隐藏层状态的注意力权重后加权求和得到上下文的最终表示。
RAM模型:利用BiLSTM对上下文信息进行编码,利用多重注意力机制提取句子中的长距离情感特征,最后将多重注意力机制输出的结果与循环神经网络结合,获得最终的分类特征。
MGAN模型:在IAN模型的基础上添加了更多且更细粒度的注意力向量。在公开数据集上,取得了较好的效果。
ASGCN模型:相比传统的基于注意力机制的模型,ASGCN利用图卷积神经网络有效地将文本数据建模成图结构,模型先使用预训练的词向量对每个单词进行编码,然后将这些编码输入到一个基于图卷积神经网络的结构中,对文本数据进行建模。在该结构中,每个单词节点都有一个对应的隐藏状态向量,同时每个方面也有一个对应的向量表示。通过对这些向量的学习和更新,ASGCN模型能够有效地识别出文本数据中的方面以及方面所对应的情感极性。
ASGCN-AOA模型:ASGCN-AOA模型采用了多种先进的技术,如混合编码、GCN、多头注意力和AOA机制等,有效地提高了模型的表现力和泛化能力,在中文文本情感分析等任务中取得了很好的性能。
CAJLN模型:杨玉亭等人提出的面向上下文注意力联合学习网络的方面级情感分类模型。使用BERT模型作为编码器,将文本句子预处理成句子、句子对和方面词层面输入序列,然后提取隐藏特征,建立上下文和方面词的多种注意力机制,获取上下文感知表示,对句子对隐藏特征和方面特定的上下文感知表示进行联合学习。
AOA-BERT模型:张华辉等人提出的一种基于对抗学习的方面级情感分类模型。文本和方面的词被分别建模,并使用BERT编码提取隐含层特征。然后,将隐含层特征输入到AOA(Attention-Over-Attention)网络中以提取权重向量。最后,权重向量与建模后的文本的特征向量相乘,并进行交叉熵损失,回传参数。此外,对抗性学习算法被用来创建和学习对抗性样本,以改善文本数据并优化决策边界。
对比实验结果如图4所示。
图4BERT-AL(Bidirectional Encoder Representation from Transformers-Adversarial Learning)模型在不同数据集中与其他模型的对比(%)。
由图4可见,ATAE-LSTM、RAM、MGAN、ASCGN、ASGCN-AOA、CAJLN等模型在Restaurant、Laptop数据集上的ACC值和F1值依次有规律地、有不同幅度的提升。但是可以发现ASGCN模型在在Restaurant和Laptop数据集上的准确率与前后模型有所不同,在Laptop数据集上,ASGCN模型的准确率不如MGAN模型与ASGCN-AOA模型;在Restaurant数据集上,ASGCN模型的准确率却比MGAN模型与ASGCN-AOA模型都高,这表明ASGCN模型的泛化能力不佳,提取的特征只能适合部分数据集。而本实施例提出的BERT-AL模型在两个数据集上对比于其他模型依次都不同幅度的提升,证明了BERT-AL模型有着优秀的泛化能力。
ATAE-LSTM是BERT-AL模型的基线模型,在Restaurant、Laptop数据集上BERT-AL模型对比ATAE-LSTM模型,BERT-AL的准确率分别提升6.56%、7.61%,取得了不错的效果提升,证明了BERT有优秀的特征提取能力。
CAJLN、AOA-BERT这两个基线模型与提出的BERT-AL模型都采用了BERT预训练模型进行特征提取,而后两者都应用了对抗学习算法,从数据可以看出对抗学习算法对模型准确率的提升,证明了对抗学习的优化策略有效。
综上所述,BERT-AL模型的分类效果好于大多数基线模型,在不同数据集上的泛化能力优秀,并且模型的特征提取能力优秀。
同时,通过设置消融实验进一步验证对抗算法对方法的提升,具体过程如下:
将对BERT-AL模型进行结构上的拆分对比分析。模型不使用对抗学习算法时,用BERT-AL-I表示;模型使用对抗学习算法时,用BERT-AL-Ⅱ表示。将BERT-AL-I模型与BERT-AL-Ⅱ分别在Restaurant和Laptop数据集上,在不同dropout的情况下进行准确率比较。实验结果如图5,图6所示。
图5在Laptop数据集的消融实验结果(%)
由图5,图6可见,在Laptop数据集上,当dropout值为0时,BERT-AL-I模型与BERT-AL-Ⅱ模型的准确率分别达到76.96%,77.90%,将准确率提升了0.94%;在Restaurant数据集上,当dropout值为0时,BERT-AL-I模型与BERT-AL-Ⅱ模型的准确率分别达到83.93%,84.46%,将准确率提升了0.53%。在两个数据集上,当dropout值为0.1时,对比BERT-AL-I模型,BERT-AL-Ⅱ模型的准确率分别提升了0.62%,0.36%;当dropout值为0.2时,BERT-AL-Ⅱ模型的准确率分别提升了2.98%,2.68%;当dropout值为0.3时,BERT-AL-Ⅱ模型准确率对比BERT-AL-I模型分别提升了3.3%,3.57%。
在两个数据集上,当dropout相同时,对比BERT-AL-I模型,BERT-AL-Ⅱ模型的准确率与F1值都得到了提升。实验结果证明对抗学习算法对提升BERT-AL模型的分类精度有效,证明了对抗学习的优化策略能有效地优化情感分类决策边界。
图6在Restaurant数据集的消融实验结果(%)
综上,请参阅图7,针对现有情感分类方法存在特征提取能力弱、分类精度低等问题,提出基于对抗学习的BERT方面级情感分类方法,首先通过将文本和方面词单独建模,通过BERT网络进行编码提取隐含特征(其中,r为扰动)。随后将隐含特征向量与方面词向量拼接,通过注意力机制获取注意力向量,最后将注意力向量与隐含特征向量相结合并用softmax来输出分类预测(其中,u为变量),模型中还使用了对抗优化算法来优化决策边界。在SemEval2014任务中提供的Laptop与Restaurant两个公开数据集上的分类效果,对比现有方面级情感分类方法,准确率都得到提升。本发明基于对句子的方面级特征进行充分地学习,结合对抗训练机制将数据集的效果发挥到最大化,在复杂的场景下仍能表现出良好的效果,具有准确率高、鲁棒性好的特点。
请参阅图8,本发明第二实施例提供了一种情感分类装置,包括:
向量序列转换单元201,用于接收经过预处理过的文本数据,并将所述文本数据转换为向量序列,其中,所述向量序列包括词嵌入向量序列、片段嵌入向量序列、位置嵌入向量序列;
拼接向量生成单元202,用于对所述向量序列进行嵌入处理,以生成上下文特征向量与方面词特征向量的拼接向量;
注意力权重生成单元203,用于引入注意力机制对所述拼接向量进行处理,生成注意力权重;
情感分类生成单元204,用于根据所述上下文特征向量和所述注意力权重生成句子语义表示,并对所述句子语义表示进行归一化处理,生成情感分类。
本发明第三实施例提供了一种情感分类设备,其特征在于,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如上任意一项所述的一种BERT方面级的情感分类方法。
本发明第四实施例提供了一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如上任意一项所述的一种BERT方面级的情感分类方法。
基于本发明提供的一种BERT方面级的情感分类方法、装置、设备、及可读存储介质,先通过接收经过预处理过的文本数据,并将所述文本数据转换为向量序列,接着对所述向量序列进行嵌入处理,以生成上下文特征向量与方面词特征向量的拼接向量,再接着引入注意力机制对所述拼接向量进行处理,生成注意力权重,最后悔根据所述上下文特征向量和所述注意力权重生成句子语义表示,并对所述句子语义表示进行归一化处理,生成情感分类。解决现有技术中特征提取能力弱,情感分类精度低的问题。
示例性地,本发明第三实施例和第四实施例中所述的计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述实现一种情感分类设备中的执行过程。例如,本发明第二实施例中所述的装置。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种BERT方面级的情感分类方法的控制中心,利用各种接口和线路连接整个所述实现对一种BERT方面级的情感分类方法的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现一种BERT方面级的情感分类方法的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述实现的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种BERT方面级的情感分类方法,其特征在于,包括:
接收经过预处理过的文本数据,并将所述文本数据转换为向量序列,其中,所述向量序列包括词嵌入向量序列、片段嵌入向量序列、位置嵌入向量序列;
对所述向量序列进行嵌入处理,以生成上下文特征向量与方面词特征向量的拼接向量;
引入注意力机制对所述拼接向量进行处理,生成注意力权重;
根据所述上下文特征向量和所述注意力权重生成句子语义表示,并对所述句子语义表示进行归一化处理,生成情感分类。
2.根据权利要求1所述的一种BERT方面级的情感分类方法,其特征在于,所述对所述向量序列进行嵌入处理,以生成上下文特征向量与方面词特征向量的拼接向量,具体为:
对所述嵌入向量序列、片段嵌入向量序列、位置嵌入向量序列的嵌入结果进行线性变换为表查询、键和值,并计算注意力权重;
Q=EwWQ
K=EwWK
V=EwWV
其中,Q为查询,K为键、V为值,dK是K的维度,WQ,WK,WV是权重矩阵,WK嵌入结果,Ew为BERT中的信息嵌入;
对于第i个头的注意力机制,其计算过程为:
Headi=Attention(QWi Q,KWi K,VWi V)
将每个头的注意力权重矩阵与对应的参数矩阵相乘,得到每个头的输出,将h个头的输出拼接在一起,得到自注意力模块的输出:
Head=concat(Head1,Head2,…,Headh)W
headi表示第i个头的注意力机制,W是参数矩阵,其中Wi Q,Wi K,Wi V是第i个头的查询、键和值的线性变换权重矩阵;
对所述自注意力模块的输出进行归一化操作后,在输出层将归一化后的结果作为下一过程的输入,其中,第一层编码器的输入为H0,则有H0=Ew,则编码的过程可以表示为:
Hi=Transformer(Hi-1),i∈[1,L]
其中,Hi代表第i层Transformer编码的结果,L代表BERT编码器Transformer的总层数;其中,输出结果为:
H=BERT(context)
V=BERT(aspect)
BERT()表示为BERT编码过程,context和aspect是输入层的预处理信息,H为上下文特征向量,V为方面词特征向量。
3.根据权利要求1所述的一种BERT方面级的情感分类方法,其特征在于,对所述自注意力模块的输出进行归一化操作,具体为:
自注意力模块输出的结果进入到前馈网络模块,前馈网络模块中包括线性转换和RELU函数两个部分,前馈网络模块将向量进行线性转换后,并使用激活函数进行非线性映射,映射结构在残差模块和归一化模块中进行残差连接,并在残差连接后进行层归一化操作。
4.根据权利要求1所述的一种BERT方面级的情感分类方法,其特征在于,所述引入注意力机制对所述拼接向量进行处理,生成注意力权重,具体为:
将拼接向量传入注意力机制,以获得每个标记的权重,并使用多个权重计算隐藏状态的加权和,注意力机制将会产生一个注意力权重向量和一个带权重的隐藏层表示。
通过拼接后的上下文向量表示得到每个中间向量的分数,并对分数进行softmax归一化,得到每个中间向量的注意力权重,具体表示为:
α=softmax(WTM)
其中,α为注意力权重向量,M为拼接向量。
5.根据权利要求1所述的一种BERT方面级的情感分类方法,其特征在于,所述根据所述上下文特征向量和所述注意力权重生成句子语义表示,并对所述句子语义表示进行归一化处理,生成情感分类,具体为:
在分类层,将所述上下文特征向量和下文特征向量的注意力权重相乘得到注意力向量;
对注意力向量和上下文特征向量做计算得到一个句子在给定方面的加权向量表示,其中,最终的句子表示为:
h*=tanh(Wpr+WxH)
中,h*∈Rd,Wp和Wx是训练中要学习的参数;
调用softmax函数进行归一化,得到情感分类,表达式为:
yi=softmax(Wsh*+bs)
其中,Ws和bs是softmax参数。
6.一种BERT方面级的情感分类装置,其特征在于,包括:
向量序列转换单元,用于接收经过预处理过的文本数据,并将所述文本数据转换为向量序列,其中,所述向量序列包括词嵌入向量序列、片段嵌入向量序列、位置嵌入向量序列;
拼接向量生成单元,用于对所述向量序列进行嵌入处理,以生成上下文特征向量与方面词特征向量的拼接向量;
注意力权重生成单元,用于引入注意力机制对所述拼接向量进行处理,生成注意力权重;
情感分类生成单元,用于根据所述上下文特征向量和所述注意力权重生成句子语义表示,并对所述句子语义表示进行归一化处理,生成情感分类。
7.一种情感分类设备,其特征在于,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如权利要求1至5任意一项所述的一种BERT方面级的情感分类方法。
8.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如权利要求1至5任意一项所述的一种BERT方面级的情感分类方法。
CN202311401014.XA 2023-10-26 2023-10-26 一种bert方面级的情感分类方法、装置、设备、及存储介质 Pending CN117648434A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311401014.XA CN117648434A (zh) 2023-10-26 2023-10-26 一种bert方面级的情感分类方法、装置、设备、及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311401014.XA CN117648434A (zh) 2023-10-26 2023-10-26 一种bert方面级的情感分类方法、装置、设备、及存储介质

Publications (1)

Publication Number Publication Date
CN117648434A true CN117648434A (zh) 2024-03-05

Family

ID=90048523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311401014.XA Pending CN117648434A (zh) 2023-10-26 2023-10-26 一种bert方面级的情感分类方法、装置、设备、及存储介质

Country Status (1)

Country Link
CN (1) CN117648434A (zh)

Similar Documents

Publication Publication Date Title
Yang et al. VAE-Stega: linguistic steganography based on variational auto-encoder
CN109101537B (zh) 基于深度学习的多轮对话数据分类方法、装置和电子设备
CN110427625B (zh) 语句补全方法、装置、介质及对话处理***
CN109885756B (zh) 基于cnn和rnn的序列化推荐方法
CN109478204A (zh) 非结构化文本的机器理解
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN110309275A (zh) 一种对话生成的方法和装置
CN111159409B (zh) 基于人工智能的文本分类方法、装置、设备、介质
CN108228576B (zh) 文本翻译方法及装置
CN111709223B (zh) 基于bert的句子向量生成方法、装置及电子设备
CN117236410B (zh) 一种可信的电子文件大语言模型训练、推理方法和装置
CN113239169A (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
JP2022169743A (ja) 情報抽出方法、装置、電子機器及び記憶媒体
CN114372475A (zh) 一种基于RoBERTa模型的网络舆情情感分析方法及***
Aziguli et al. A robust text classifier based on denoising deep neural network in the analysis of big data
CN114492669B (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN111507108B (zh) 别名生成方法、装置、电子设备及计算机可读存储介质
CN112598039A (zh) 获取nlp分类领域阳性样本方法及相关设备
CN116860943A (zh) 对话风格感知与主题引导的多轮对话方法及***
CN116957128A (zh) 业务指标预测方法、装置、设备和存储介质
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
Purba et al. A hybrid convolutional long short-term memory (CNN-LSTM) based natural language processing (NLP) model for sentiment analysis of customer product reviews in Bangla
CN117648434A (zh) 一种bert方面级的情感分类方法、装置、设备、及存储介质
CN113157892A (zh) 用户意图处理方法、装置、计算机设备及存储介质
Gao et al. Few-shot fake news detection via prompt-based tuning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination