CN114896969A - 一种基于深度学习的方面词提取方法 - Google Patents

一种基于深度学习的方面词提取方法 Download PDF

Info

Publication number
CN114896969A
CN114896969A CN202210514804.8A CN202210514804A CN114896969A CN 114896969 A CN114896969 A CN 114896969A CN 202210514804 A CN202210514804 A CN 202210514804A CN 114896969 A CN114896969 A CN 114896969A
Authority
CN
China
Prior art keywords
layer
representing
expressed
sentence
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210514804.8A
Other languages
English (en)
Inventor
杨鹏
张朋辉
戈妍妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Youhui Xin'an Technology Co ltd
Original Assignee
Nanjing Youhui Xin'an Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Youhui Xin'an Technology Co ltd filed Critical Nanjing Youhui Xin'an Technology Co ltd
Priority to CN202210514804.8A priority Critical patent/CN114896969A/zh
Publication of CN114896969A publication Critical patent/CN114896969A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的方面词提取方法,具体如下,构筑方面词提取数据集;将数据集中的句子特征嵌入到语义空间中;使用多特征编码器进行句子特征编码;使用基于双向LSTM的上下文编码层对句子上下文进行编码;使用基于多头自注意力机制的全局语义信息提取层对句子的全局语义信息进行提取,捕获方面词与上下文的之间语义关系;基于条件随机场的的序列解码层对模型学习到的向量进行解码,通过序列标注完成句子中的方面词提取,可用于社交媒体文本的方面词提取。本发明基于对句子的多特征进行充分地学习,结合多头自注意力机制完成方面词上下文语义信息的捕获,在复杂的场景下仍能表现出良好的效果,具有精准度高、鲁棒性强的特点。

Description

一种基于深度学习的方面词提取方法
技术领域
本发明涉及一种基于深度学习的方面词提取方法,该方法可用于社交媒体文本方面词的提取,属于互联网与自然语言处理技术领域。
背景技术
随着互联网的不断发展,越来越多的网民***台逐渐成为现实世界事件发展的传感器,网络舆情在反映民意、折射现实等方面发挥着越来越重要的作用。与此同时,网络上也充斥着各种各样的不良言论,但是网络空间不是法外之地,通过网络舆情分析技术对网络舆论进行监管,有利于实现政府部门了解民意、妥善处理社会舆论事件、营造健康和谐的网络环境。情感分析技术作为舆情分析技术的重要组成部分,情感分析的质量将直接决定舆情分析的质量分析。现有的情感分析技术是文档级情感分析和句子级情感分析,不能满足舆情分析***对社交媒体内容情感细节的需求,因此需要引入方面级情感分析技术。然而,方面词提取是方面级情感分析的前提,高质量的方面词对方面级情感分析具有重要意义。
近年来,许多学者对方面词提取技术进行了深入的研究。研究的方法包括两种:基于有监督学习的方法和基于无监督学习的方法。基于有监督学习的方面词提取方法的研究者们将方面词提取视为一个序列标注任务,常见的研究方法有基于图的方法、基于语义分析的方法和基于统计的方法。虽然该方法方法在一定程度上提高了方面词提取的精度,但是该方法严重依赖人工标注的高质量数据,人工标注数据会带来成本问题,而且模型难以迁移到新的领域中。基于无监督学习的方法,可以在一定程度上解决上述方法存在的问题。但是基于无监督学习方法没有充分考虑对单词序列信息的捕获,并且忽略了字符级特征的提取,这将导致模型提取出的方面词不完整。
目前网络空间安全形势严峻,针对现有方面词提取研究存在着句子的语义特征没有被充分学习的问题,本发明提出了一种基于深度学习的方面词提取方法。首先,使用多特征编码层对句子进行初始编码;然后,将初始编码送入基于双向LSTM的模型的上下文编码层中对句子的上下文信息进行学习;接着,将上一层学习到的结果送入基于多头自注意力机制的全局语境信息提取层中,进行方面词之间语义关联的学习;最后,通过基于条件随机场的序列解码层完成序列解码,得出方面词提取结果。该方法提升了方面词提取模型的鲁棒性,提高了提取的精准度。
发明内容
针对现有技术存在的问题与不足,本发明提供一种基于深度学习的方面词提取方法,该方法能够完成高精度的方面词提取,相比现有方法,能够更有效地对评论文本进行方面词提取,从而改善现有方法精准度不足的问题。
为了实现上述目的,本发明的技术方案如下:一种基于深度学习的方面词提取方法,该方法涵盖方面词提取的全过程,主要包括多特征编码、上下文编码、全局语境信息提取、单词序列解码等过程,能够有效地对评论文本进行方面词提取,从而提高该任务的精准度。该方法主要包括三个步骤,具体如下:
步骤1,构筑方面词提取数据集。首先收集了SemEval 2014 Restaurant数据集和Laptop数据集,然后又收集ACL14 Twitter公开数据集,最后将这些数据集按照8:2划分为训练集和验证集,分别用于方面词提取模型的训练和验证。
步骤2,方面词提取模型训练。首先,使用多特征编码层对句子进行初始编码;然后,将初始编码送入基于双向LSTM的模型的上下文编码层中对句子的上下文信息进行学习;接着,将上一层学习到的结果送入基于多头自注意力机制的全局语境信息提取层中,进行方面词之间语义关联的学习;最后,通过基于条件随机场的序列解码层完成序列解码,得出方面词提取结果。在训练阶段,模型的损失函数会将模型的预测值与真实值作比较并计算损失值,通过反向传播更新模型参数,从而使模型参数变得更优。此外,每经过一个轮次的训练,验证集的数据都会被送入模型中进行验证;
步骤2,方面词提取模型训练,该步骤实施过程分为4个子步骤:
子步骤2-1,使用多特征编码层对句子进行初始编码,具体过程如下:
定义Ew代表三种信息整体嵌入的结果,ET、Es和EP分别代表词嵌入、片段嵌入和位置嵌入,则Roberta中信息嵌入表示为:
Ew=ET+ES+EP (1)
之后,多层Transformer编码器对嵌入的结果进行编码,定义第一层编码器的输入为H0,则有H0=Ew,则编码的过程表示为:
Hi=Transformer(Hi-1),i∈[1,L] (2)
其中,Hi代表第i层Transformer编码的结果,L代表Roberta-base编码器Transformer的总层数。
接着,对每个单词对应的字符进行编码,假设经过填充后的字符序列为为C={c1,c2,...,cn},n表示字符的个数。假设Embc为字符的嵌入矩阵,则字符的嵌入过程可以表示为:
Ec=Embc·C (3)
在字符编码阶段使用双向的长短期记忆网络作为字符编码器,编码的过程可以表示为:
Figure BDA0003641055980000031
Figure BDA0003641055980000032
Figure BDA0003641055980000033
其中,
Figure BDA0003641055980000034
代表双向LSTM的前向隐藏状态输出,
Figure BDA0003641055980000035
代表双向LSTM的后向隐藏状态输出,HC代表双向LSTM最终的输出,
Figure BDA0003641055980000036
代表向量的连接操作。
最后,进行单词、位置、片段和字符四种不同粒度特征的融合,该过程表示为:
Figure BDA0003641055980000037
Figure BDA0003641055980000038
其中,HCW代表融合单词、位置、片段和字符四种特征的向量表示,HL代表Roberta-base最后一层Transformer的输出,HC代表双向LSTM最终的输出,
Figure BDA0003641055980000039
代表向量的连接操作。
子步骤2-2,从多特征编码层得到了融合四种不同粒度特征的向量表示,在基于双向长短期记忆网络的上下文编码层,进行句子的上下文编码,过程如下:
基于长短期记忆网络的上下文编码过程可以表示如下:
Figure BDA0003641055980000041
Figure BDA0003641055980000042
Figure BDA0003641055980000043
Figure BDA0003641055980000044
其中,
Figure BDA0003641055980000045
代表双向LSTM前向隐藏层的输出,
Figure BDA0003641055980000046
代表双向LSTM后向隐藏层的输出,Hctx代表双向LSTM最终的输出,
Figure BDA0003641055980000047
代表向量的连接操作。
LSTM单元的输入门it、输出门ot和遗忘门ft的计算过程分别可以表示为:
Figure BDA0003641055980000048
Figure BDA0003641055980000049
Figure BDA00036410559800000410
LSTM单元的输出
Figure BDA00036410559800000411
Figure BDA00036410559800000412
的计算方法可以表示为:
Figure BDA00036410559800000413
Figure BDA00036410559800000414
其中,W代表权重矩阵,b代表偏置值,sigmoid和tanh代表激活函数,*代表矩阵相乘。
子步骤2-3,使用基于多头自注意力机制的全局语境信息提取层对句子的全局语境信息进行提取,具体的过程如下:
首先,通过线性层转换输入向量,计算过程可以表示为:
Figure BDA00036410559800000415
其中,
Figure BDA00036410559800000416
为输入经过线性层计算得到的特征向量,
Figure BDA00036410559800000417
Figure BDA00036410559800000418
分别为权重矩阵和偏置值。
然后,将特征向量与三个权重矩阵WQ、WK和WV分别相乘得到qi、kj和vj,计算过程可以表示为:
Figure BDA0003641055980000051
Figure BDA0003641055980000052
Figure BDA0003641055980000053
接着,将qi的转置
Figure BDA0003641055980000054
与kj相乘得到注意力分数,再将注意力分数除以
Figure BDA0003641055980000055
最后经过softmax函数标准化可以得到权重矩阵wij,计算过程可以表示为:
Figure BDA0003641055980000056
之后,将vi与权重wij相乘,之后累加得到自注意力层的输出向量
Figure BDA0003641055980000057
计算过程可以表示为:
Figure BDA0003641055980000058
其中,⊙表示矩阵相乘。第k个自注意力头的输出为
Figure BDA0003641055980000059
多头自注意力机制的向量连接过程可以表示为:
Figure BDA00036410559800000510
其中,concat表示向量连接操作,将K个自注意力头的输出连接之后得到隐藏状态向量H'att
最后,将H'att经过线性层的运算得到多头注意力机制最终的输出
Figure BDA00036410559800000511
表示权重矩阵,
Figure BDA00036410559800000512
表示偏置值,计算过程表示为:
Figure BDA00036410559800000513
子步骤2-4,使用基于条件随机场的序列解码层作为序列解码器,通过序列标注完成句子中方面词的提取。假设序列解码层的输入为X={x1,x2,...,xm},标签序列为Y={y1,y2,...,ym},则预测的计算过程可以表示为:
Figure BDA0003641055980000061
P(Y|X)=softmax(s(X,Y)) (27)
其中,s(X,Y)表示标签预测的得分,A表示随机初始化的矩阵,
Figure BDA0003641055980000062
用来表示相邻标签yi和yi+1的相关性。H表示上层的输出,
Figure BDA0003641055980000063
表示第yi+1个标签的分数。P(Y|X)表示在X的条件下Y出现的条件概率,softmax为激活函数。
最后使用Viterbi算法计算得分最高的标签序列,将其作为最终的预测结果
Figure BDA0003641055980000064
计算过程可以表示为:
Figure BDA0003641055980000065
模型的损失函数可以表示为:
Figure BDA0003641055980000066
其中,ln代表自然对数,P(Y|X)表示在X的条件下Y出现的条件概率。
步骤3,使用测试集对模型进行测试。对于待处理文本,首先将其送入经过步骤2训练过程得到的模型,该模型对句子进行多特征编码、上下文编码、全局语境信息提取等步骤,最后利用序列解码器完成方面词的提取。
相对于现有技术,本发明的有益效果如下:
本发明充分对数据集的特征进行学习,通过多特征编码层对句子的初始特征进行编码,上下文编码层对句子的深层信息进行了挖掘,最后全局语境信息提取层对方面词之间的关联进行了学习,进一步提高了模型提取方面词的精准度,且模型具有很强的鲁棒性。该方法能够确保提取出来方面词的完整性,为方面级情感分类打下良好的基础。
附图说明
图1为本发明实施例的方法流程图;
图2为本发明实施例的方法总体框架图;
图3为基于长短期记忆网络的上下文编码层内部结构图;
图4为基于多头自注意力机制的全局语境信息提取层的细节图。
具体实施方式
为了加深对本发明的认识和理解,下面结合具体实施例进一步阐明本发明。
实施例1:参见图1-图4,一种基于深度学习的方面词提取方法,本发明的具体实施步骤如下:
步骤1,构筑方面词提取数据集。首先收集了SemEval2014 Restaurant数据集和Laptop数据集,然后又收集ACL14 Twitter公开数据集,最后将这些数据集按照8:2划分为训练集和验证集,分别用于方面词提取模型的训练和验证。
步骤2,方面词提取模型训练,该步骤实施过程分为4个子步骤:
子步骤2-1,使用多特征编码层对句子进行初始编码,具体过程如下:
定义Ew代表三种信息整体嵌入的结果,ET、Es和EP分别代表词嵌入、片段嵌入和位置嵌入,则Roberta中信息嵌入表示为:
Ew=ET+ES+EP (1)
之后,多层Transformer编码器对嵌入的结果进行编码,定义第一层编码器的输入为H0,则有H0=Ew,则编码的过程表示为:
Hi=Transformer(Hi-1),i∈[1,L] (2)
其中,Hi代表第i层Transformer编码的结果,L代表Roberta-base编码器Transformer的总层数。
接着,对每个单词对应的字符进行编码,假设经过填充后的字符序列为为C={c1,c2,...,cn},n表示字符的个数。假设Embc为字符的嵌入矩阵,则字符的嵌入过程可以表示为:
Ec=Embc·C (3)
在字符编码阶段使用双向的长短期记忆网络作为字符编码器,编码的过程可以表示为:
Figure BDA0003641055980000071
Figure BDA0003641055980000072
Figure BDA0003641055980000073
其中,
Figure BDA0003641055980000074
代表双向LSTM的前向隐藏状态输出,
Figure BDA0003641055980000075
代表双向LSTM的后向隐藏状态输出,HC代表双向LSTM最终的输出,
Figure BDA0003641055980000081
代表向量的连接操作。
最后,进行单词、位置、片段和字符四种不同粒度特征的融合,该过程表示为:
Figure BDA0003641055980000082
Figure BDA0003641055980000083
其中,HCW代表融合单词、位置、片段和字符四种特征的向量表示,HL代表Roberta-base最后一层Transformer的输出,HC代表双向LSTM最终的输出,
Figure BDA0003641055980000084
代表向量的连接操作。
子步骤2-2,从多特征编码层得到了融合四种不同粒度特征的向量表示,在基于双向长短期记忆网络的上下文编码层,进行句子的上下文编码,过程如下:
基于长短期记忆网络的上下文编码过程可以表示如下:
Figure BDA0003641055980000085
Figure BDA0003641055980000086
Figure BDA0003641055980000087
Figure BDA0003641055980000088
其中,
Figure BDA0003641055980000089
代表双向LSTM前向隐藏层的输出,
Figure BDA00036410559800000810
代表双向LSTM后向隐藏层的输出,Hctx代表双向LSTM最终的输出,
Figure BDA00036410559800000811
代表向量的连接操作。
LSTM单元的输入门it、输出门ot和遗忘门ft的计算过程分别可以表示为:
Figure BDA00036410559800000812
Figure BDA00036410559800000813
Figure BDA00036410559800000814
LSTM单元的输出
Figure BDA00036410559800000815
Figure BDA00036410559800000816
的计算方法可以表示为:
Figure BDA00036410559800000817
Figure BDA0003641055980000091
其中,W代表权重矩阵,b代表偏置值,sigmoid和tanh代表激活函数,*代表矩阵相乘。
子步骤2-3,使用基于多头自注意力机制的全局语境信息提取层对句子的全局语境信息进行提取,具体的过程如下:
首先,通过线性层转换输入向量,计算过程可以表示为:
Figure BDA0003641055980000092
其中,
Figure BDA0003641055980000093
为输入经过线性层计算得到的特征向量,
Figure BDA0003641055980000094
Figure BDA0003641055980000095
分别为权重矩阵和偏置值。
然后,将特征向量与三个权重矩阵WQ、WK和WV分别相乘得到qi、kj和vj,计算过程可以表示为:
Figure BDA0003641055980000096
Figure BDA0003641055980000097
Figure BDA0003641055980000098
接着,将qi的转置
Figure BDA0003641055980000099
与kj相乘得到注意力分数,再将注意力分数除以
Figure BDA00036410559800000910
最后经过softmax函数标准化可以得到权重矩阵wij,计算过程可以表示为:
Figure BDA00036410559800000911
之后,将vi与权重wij相乘,之后累加得到自注意力层的输出向量
Figure BDA00036410559800000912
计算过程可以表示为:
Figure BDA00036410559800000913
其中,⊙表示矩阵相乘。第k个自注意力头的输出为
Figure BDA00036410559800000914
多头自注意力机制的向量连接过程可以表示为:
Figure BDA00036410559800000915
其中,concat表示向量连接操作,将K个自注意力头的输出连接之后得到隐藏状态向量H'att
最后,将H'att经过线性层的运算得到多头注意力机制最终的输出
Figure BDA0003641055980000101
表示权重矩阵,
Figure BDA0003641055980000102
表示偏置值,计算过程表示为:
Figure BDA0003641055980000103
子步骤2-4,使用基于条件随机场的序列解码层作为序列解码器,通过序列标注完成句子中方面词的提取。假设序列解码层的输入为X={x1,x2,...,xm},标签序列为Y={y1,y2,...,ym},则预测的计算过程可以表示为:
Figure BDA0003641055980000104
P(Y|X)=softmax(s(X,Y)) (27)
其中,s(X,Y)表示标签预测的得分,A表示随机初始化的矩阵,
Figure BDA0003641055980000105
用来表示相邻标签yi和yi+1的相关性。H表示上层的输出,
Figure BDA0003641055980000106
表示第yi+1个标签的分数。P(Y|X)表示在X的条件下Y出现的条件概率,softmax为激活函数。
最后使用Viterbi算法计算得分最高的标签序列,将其作为最终的预测结果
Figure BDA0003641055980000107
计算过程可以表示为:
Figure BDA0003641055980000108
模型的损失函数可以表示为:
Figure BDA0003641055980000109
其中,ln代表自然对数,P(Y|X)表示在X的条件下Y出现的条件概率。
步骤3,对于待处理文本,首先将其送入经过步骤2训练过程得到的模型,该模型对句子进行多特征编码、上下文编码、全局语境信息提取等步骤,最后利用序列解码获得方面词提取的结果。
综上,本发明首先使用多特征编码层对句子进行初始编码,然后,上下文编码层对句子的上下文信息进行学习,接下来通过全局语境信息提取层对方面词之间的关联信息进行学习,最后利用序列解码层完成方面词的提取。
需要说明的是,上述实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

Claims (5)

1.一种基于深度学习的方面词提取方法,其特征在于,所述方法包括以下步骤:
步骤1,构筑方面词提取数据集,
步骤2,方面词提取模型训练,
步骤3,对数据集进行测试。
2.根据权利要求1所述的基于深度学习的方面词提取方法,其特征在于,步骤1,构筑方面词提取数据集,具体如下,首先收集了SemEval 2014 Restaurant数据集和Laptop数据集,然后又收集ACL14 Twitter公开数据集,最后将这些数据集按照8:2划分为训练集和验证集,将其分别用于方面词提取模型的训练和验证。
3.根据权利要求1所述的基于深度学习的方面词提取方法,其特征在于,步骤2具体如下,首先,将待提取方面词的句子送入模型的多特征编码层中,得出句子的初始编码结果;然后,句子的初始编码结果会被送入基于双向LSTM的上下文编码层中,进行句子的上下文编码;接着,基于多头自注意力机制的全局语境信息提取层对句子的全局语境特征进行提取,捕获方面词之间的语义关联;最后,经过基于条件随机场的序列解码层完成解码,得到方面词提取的结果,在训练阶段,模型的损失函数会将模型的预测值与真实值作比较,并计算损失值,通过反向传播更新模型参数,使模型参数变得更优。
4.根据权利要求3所述的基于深度学习的方面词提取方法,其特征在于,步骤2,方面词提取模型训练,该步骤实施过程分为4个子步骤:
子步骤2-1,使用多特征编码层对句子进行初始编码,具体过程如下:
定义Ew代表三种信息整体嵌入的结果,ET、Es和EP分别代表词嵌入、片段嵌入和位置嵌入,则Roberta中信息嵌入表示为:
Ew=ET+ES+EP (1)
之后,多层Transformer编码器对嵌入的结果进行编码,定义第一层编码器的输入为H0,则有H0=Ew,则编码的过程表示为:
Hi=Transformer(Hi-1),i∈[1,L] (2)
其中,Hi代表第i层Transformer编码的结果,L代表Roberta-base编码器Transformer的总层数;
接着,对每个单词对应的字符进行编码,设经过填充后的字符序列为为C={c1,c2,...,cn},n表示字符的个数,Embc为字符的嵌入矩阵,则字符的嵌入过程表示为:
Ec=Embc·C (3)
在字符编码阶段使用双向的长短期记忆网络作为字符编码器,编码的过程可以表示为:
Figure FDA0003641055970000021
Figure FDA0003641055970000022
Figure FDA0003641055970000023
其中,
Figure FDA0003641055970000024
代表双向LSTM的前向隐藏状态输出,
Figure FDA0003641055970000025
代表双向LSTM的后向隐藏状态输出,HC代表双向LSTM最终的输出,
Figure FDA0003641055970000026
代表向量的连接操作;
最后,进行单词、位置、片段和字符四种不同粒度特征的融合,该过程表示为:
Figure FDA0003641055970000027
Figure FDA0003641055970000028
其中,HCW代表融合单词、位置、片段和字符四种特征的向量表示,HL代表Roberta-base最后一层Transformer的输出,HC代表双向LSTM最终的输出,
Figure FDA0003641055970000029
代表向量的连接操作;
子步骤2-2,从多特征编码层得到了融合四种不同粒度特征的向量表示,在基于双向长短期记忆网络的上下文编码层,进行句子的上下文编码,过程如下:
基于长短期记忆网络的上下文编码过程可以表示如下:
Figure FDA00036410559700000210
Figure FDA00036410559700000211
Figure FDA0003641055970000031
Figure FDA0003641055970000032
其中,
Figure FDA0003641055970000033
代表双向LSTM前向隐藏层的输出,
Figure FDA0003641055970000034
代表双向LSTM后向隐藏层的输出,Hctx代表双向LSTM最终的输出,
Figure FDA0003641055970000035
代表向量的连接操作,
LSTM单元的输入门it、输出门ot和遗忘门ft的计算过程分别表示为:
Figure FDA0003641055970000036
Figure FDA0003641055970000037
Figure FDA0003641055970000038
LSTM单元的输出
Figure FDA0003641055970000039
Figure FDA00036410559700000310
的计算方法表示为:
Figure FDA00036410559700000311
Figure FDA00036410559700000312
其中,W代表权重矩阵,b代表偏置值,sigmoid和tanh代表激活函数,*代表矩阵相乘;
子步骤2-3,使用基于多头自注意力机制的全局语境信息提取层对句子的全局语境信息进行提取,具体的过程如下:
首先,通过线性层转换输入向量,计算过程可以表示为:
Figure FDA00036410559700000313
其中,
Figure FDA00036410559700000314
为输入经过线性层计算得到的特征向量,
Figure FDA00036410559700000315
Figure FDA00036410559700000316
分别为权重矩阵和偏置值;
然后,将特征向量与三个权重矩阵WQ、WK和WV分别相乘得到qi、kj和vj,计算过程表示为:
Figure FDA00036410559700000317
Figure FDA00036410559700000318
Figure FDA00036410559700000319
接着,将qi的转置
Figure FDA0003641055970000041
与kj相乘得到注意力分数,再将注意力分数除以
Figure FDA0003641055970000042
最后经过softmax函数标准化可以得到权重矩阵wij,计算过程可以表示为:
Figure FDA0003641055970000043
之后,将vi与权重wij相乘,之后累加得到自注意力层的输出向量
Figure FDA0003641055970000044
计算过程可以表示为:
Figure FDA0003641055970000045
其中,⊙表示矩阵相乘,第k个自注意力头的输出为
Figure FDA0003641055970000046
多头自注意力机制的向量连接过程可以表示为:
Figure FDA0003641055970000047
其中,concat表示向量连接操作,将K个自注意力头的输出连接之后得到隐藏状态向量H'att
最后,将H'att经过线性层的运算得到多头注意力机制最终的输出
Figure FDA0003641055970000048
Figure FDA0003641055970000049
表示权重矩阵,
Figure FDA00036410559700000410
表示偏置值,计算过程表示为:
Figure FDA00036410559700000411
子步骤2-4,使用基于条件随机场的序列解码层作为序列解码器,通过序列标注完成句子中方面词的提取,假设序列解码层的输入为X={x1,x2,...,xm},标签序列为Y={y1,y2,...,ym},则预测的计算过程表示为:
Figure FDA00036410559700000412
P(Y|X)=softmax(s(X,Y)) (27)
其中,s(X,Y)表示标签预测的得分,A表示随机初始化的矩阵,
Figure FDA00036410559700000413
用来表示相邻标签yi和yi+1的相关性,H表示上层的输出,
Figure FDA00036410559700000414
表示第yi+1个标签的分数,P(Y|X)表示在X的条件下Y出现的条件概率,softmax为激活函数,最后使用Viterbi算法计算得分最高的标签序列,将其作为最终的预测结果
Figure FDA0003641055970000051
计算过程表示为:
Figure FDA0003641055970000052
模型的损失函数可以表示为:
Figure FDA0003641055970000053
其中,ln代表自然对数,P(Y|X)表示在X的条件下Y出现的条件概率。
5.根据权利要求1所述的基于深度学习的方面词提取方法,其特征在于,步骤3,使用测试集对模型进行测试,具体如下,对于待处理文本,首先将其送入经过步骤2训练过程得到的模型,该模型对句子进行多特征编码、上下文编码、全局语境信息提取等步骤,最后利用序列解码器完成方面词的提取。
CN202210514804.8A 2022-05-12 2022-05-12 一种基于深度学习的方面词提取方法 Pending CN114896969A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210514804.8A CN114896969A (zh) 2022-05-12 2022-05-12 一种基于深度学习的方面词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210514804.8A CN114896969A (zh) 2022-05-12 2022-05-12 一种基于深度学习的方面词提取方法

Publications (1)

Publication Number Publication Date
CN114896969A true CN114896969A (zh) 2022-08-12

Family

ID=82722227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210514804.8A Pending CN114896969A (zh) 2022-05-12 2022-05-12 一种基于深度学习的方面词提取方法

Country Status (1)

Country Link
CN (1) CN114896969A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737922A (zh) * 2023-03-10 2023-09-12 云南大学 一种游客在线评论细粒度情感分析方法和***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737922A (zh) * 2023-03-10 2023-09-12 云南大学 一种游客在线评论细粒度情感分析方法和***

Similar Documents

Publication Publication Date Title
CN113158665B (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
Xie et al. Attention-based dense LSTM for speech emotion recognition
CN113255755A (zh) 一种基于异质融合网络的多模态情感分类方法
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN113657115B (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN112800768A (zh) 一种嵌套命名实体识别模型的训练方法及装置
CN110866542A (zh) 一种基于特征可控融合的深度表示学习方法
CN110929476B (zh) 一种基于混合粒度注意力机制的任务型多轮对话模型构建方法
CN111401081A (zh) 神经网络机器翻译方法、模型及模型形成方法
CN113392717A (zh) 一种基于时序特征金字塔的视频密集描述生成方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114168754A (zh) 一种基于句法依赖和融合信息的关系抽取方法
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN116245110A (zh) 基于图注意力网络的多维度信息融合用户立场检测方法
CN115906816A (zh) 一种基于Bert的双通道Attention模型的文本情感分析方法
CN114896969A (zh) 一种基于深度学习的方面词提取方法
CN114238649A (zh) 一种常识概念增强的语言模型预训练方法
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及***
CN114692604A (zh) 一种基于深度学习的方面级情感分类方法
CN115455144A (zh) 用于小样本意图识别的完型填空式的数据增强方法
CN117668213B (zh) 一种基于级联抽取和图对比模型的混沌工程摘要生成方法
CN116882398B (zh) 基于短语交互的隐式篇章关系识别方法和***
CN114996424B (zh) 一种基于深度学习的弱监督跨域问答对生成方法
CN116681087B (zh) 一种基于多阶段时序和语义信息增强的自动问题生成方法
Asadi et al. A deep decoder structure based on wordembedding regression for an encoder-decoder based model for image captioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination