CN114896969A

CN114896969A - 一种基于深度学习的方面词提取方法

Info

Publication number: CN114896969A
Application number: CN202210514804.8A
Authority: CN
Inventors: 杨鹏; 张朋辉; 戈妍妍
Original assignee: Nanjing Youhui Xin'an Technology Co ltd
Current assignee: Nanjing Youhui Xin'an Technology Co ltd
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-08-12

Abstract

本发明公开了一种基于深度学习的方面词提取方法，具体如下，构筑方面词提取数据集；将数据集中的句子特征嵌入到语义空间中；使用多特征编码器进行句子特征编码；使用基于双向LSTM的上下文编码层对句子上下文进行编码；使用基于多头自注意力机制的全局语义信息提取层对句子的全局语义信息进行提取，捕获方面词与上下文的之间语义关系；基于条件随机场的的序列解码层对模型学习到的向量进行解码，通过序列标注完成句子中的方面词提取，可用于社交媒体文本的方面词提取。本发明基于对句子的多特征进行充分地学习，结合多头自注意力机制完成方面词上下文语义信息的捕获，在复杂的场景下仍能表现出良好的效果，具有精准度高、鲁棒性强的特点。

Description

一种基于深度学习的方面词提取方法

技术领域

本发明涉及一种基于深度学习的方面词提取方法，该方法可用于社交媒体文本方面词的提取，属于互联网与自然语言处理技术领域。

背景技术

随着互联网的不断发展，越来越多的网民***台逐渐成为现实世界事件发展的传感器，网络舆情在反映民意、折射现实等方面发挥着越来越重要的作用。与此同时，网络上也充斥着各种各样的不良言论，但是网络空间不是法外之地，通过网络舆情分析技术对网络舆论进行监管，有利于实现政府部门了解民意、妥善处理社会舆论事件、营造健康和谐的网络环境。情感分析技术作为舆情分析技术的重要组成部分，情感分析的质量将直接决定舆情分析的质量分析。现有的情感分析技术是文档级情感分析和句子级情感分析，不能满足舆情分析***对社交媒体内容情感细节的需求，因此需要引入方面级情感分析技术。然而，方面词提取是方面级情感分析的前提，高质量的方面词对方面级情感分析具有重要意义。

近年来，许多学者对方面词提取技术进行了深入的研究。研究的方法包括两种：基于有监督学习的方法和基于无监督学习的方法。基于有监督学习的方面词提取方法的研究者们将方面词提取视为一个序列标注任务，常见的研究方法有基于图的方法、基于语义分析的方法和基于统计的方法。虽然该方法方法在一定程度上提高了方面词提取的精度，但是该方法严重依赖人工标注的高质量数据，人工标注数据会带来成本问题，而且模型难以迁移到新的领域中。基于无监督学习的方法，可以在一定程度上解决上述方法存在的问题。但是基于无监督学习方法没有充分考虑对单词序列信息的捕获，并且忽略了字符级特征的提取，这将导致模型提取出的方面词不完整。

目前网络空间安全形势严峻，针对现有方面词提取研究存在着句子的语义特征没有被充分学习的问题，本发明提出了一种基于深度学习的方面词提取方法。首先，使用多特征编码层对句子进行初始编码；然后，将初始编码送入基于双向LSTM的模型的上下文编码层中对句子的上下文信息进行学习；接着，将上一层学习到的结果送入基于多头自注意力机制的全局语境信息提取层中，进行方面词之间语义关联的学习；最后，通过基于条件随机场的序列解码层完成序列解码，得出方面词提取结果。该方法提升了方面词提取模型的鲁棒性，提高了提取的精准度。

发明内容

针对现有技术存在的问题与不足，本发明提供一种基于深度学习的方面词提取方法，该方法能够完成高精度的方面词提取，相比现有方法，能够更有效地对评论文本进行方面词提取，从而改善现有方法精准度不足的问题。

为了实现上述目的，本发明的技术方案如下：一种基于深度学习的方面词提取方法，该方法涵盖方面词提取的全过程，主要包括多特征编码、上下文编码、全局语境信息提取、单词序列解码等过程，能够有效地对评论文本进行方面词提取，从而提高该任务的精准度。该方法主要包括三个步骤，具体如下：

步骤1，构筑方面词提取数据集。首先收集了SemEval 2014 Restaurant数据集和Laptop数据集，然后又收集ACL14 Twitter公开数据集，最后将这些数据集按照8:2划分为训练集和验证集，分别用于方面词提取模型的训练和验证。

步骤2，方面词提取模型训练。首先，使用多特征编码层对句子进行初始编码；然后，将初始编码送入基于双向LSTM的模型的上下文编码层中对句子的上下文信息进行学习；接着，将上一层学习到的结果送入基于多头自注意力机制的全局语境信息提取层中，进行方面词之间语义关联的学习；最后，通过基于条件随机场的序列解码层完成序列解码，得出方面词提取结果。在训练阶段，模型的损失函数会将模型的预测值与真实值作比较并计算损失值，通过反向传播更新模型参数，从而使模型参数变得更优。此外，每经过一个轮次的训练，验证集的数据都会被送入模型中进行验证；

步骤2，方面词提取模型训练，该步骤实施过程分为4个子步骤：

子步骤2-1，使用多特征编码层对句子进行初始编码，具体过程如下：

定义E_w代表三种信息整体嵌入的结果，E_T、E_s和E_P分别代表词嵌入、片段嵌入和位置嵌入，则Roberta中信息嵌入表示为：

E_w＝E_T+E_S+E_P (1)

之后，多层Transformer编码器对嵌入的结果进行编码，定义第一层编码器的输入为H₀，则有H₀＝E_w，则编码的过程表示为：

H_i＝Transformer(H_i-1),i∈[1,L] (2)

其中，H_i代表第i层Transformer编码的结果，L代表Roberta-base编码器Transformer的总层数。

接着，对每个单词对应的字符进行编码，假设经过填充后的字符序列为为C＝{c₁,c₂,...,c_n}，n表示字符的个数。假设Emb_c为字符的嵌入矩阵，则字符的嵌入过程可以表示为：

E_c＝Emb_c·C (3)

在字符编码阶段使用双向的长短期记忆网络作为字符编码器，编码的过程可以表示为：

其中，

代表双向LSTM的前向隐藏状态输出，

代表双向LSTM的后向隐藏状态输出，H_C代表双向LSTM最终的输出，

代表向量的连接操作。

最后，进行单词、位置、片段和字符四种不同粒度特征的融合，该过程表示为：

其中，H_CW代表融合单词、位置、片段和字符四种特征的向量表示，H_L代表Roberta-base最后一层Transformer的输出，H_C代表双向LSTM最终的输出，

代表向量的连接操作。

子步骤2-2，从多特征编码层得到了融合四种不同粒度特征的向量表示，在基于双向长短期记忆网络的上下文编码层，进行句子的上下文编码，过程如下：

基于长短期记忆网络的上下文编码过程可以表示如下：

其中，

代表双向LSTM前向隐藏层的输出，

代表双向LSTM后向隐藏层的输出，H_ctx代表双向LSTM最终的输出，

代表向量的连接操作。

LSTM单元的输入门i_t、输出门o_t和遗忘门f_t的计算过程分别可以表示为：

LSTM单元的输出

和

的计算方法可以表示为：

其中，W代表权重矩阵，b代表偏置值，sigmoid和tanh代表激活函数，*代表矩阵相乘。

子步骤2-3，使用基于多头自注意力机制的全局语境信息提取层对句子的全局语境信息进行提取，具体的过程如下：

首先，通过线性层转换输入向量，计算过程可以表示为：

其中，

为输入经过线性层计算得到的特征向量，

和

分别为权重矩阵和偏置值。

然后，将特征向量与三个权重矩阵W^Q、W^K和W^V分别相乘得到q_i、k_j和v_j，计算过程可以表示为：

接着，将q_i的转置

与k_j相乘得到注意力分数，再将注意力分数除以

最后经过softmax函数标准化可以得到权重矩阵w_ij，计算过程可以表示为：

之后，将v_i与权重w_ij相乘，之后累加得到自注意力层的输出向量

计算过程可以表示为：

其中，⊙表示矩阵相乘。第k个自注意力头的输出为

多头自注意力机制的向量连接过程可以表示为：

其中，concat表示向量连接操作，将K个自注意力头的输出连接之后得到隐藏状态向量H'_att。

最后，将H'_att经过线性层的运算得到多头注意力机制最终的输出

表示权重矩阵，

表示偏置值，计算过程表示为：

子步骤2-4，使用基于条件随机场的序列解码层作为序列解码器，通过序列标注完成句子中方面词的提取。假设序列解码层的输入为X＝{x₁,x₂,...,x_m}，标签序列为Y＝{y₁,y₂,...,y_m}，则预测的计算过程可以表示为：

P(Y|X)＝softmax(s(X,Y)) (27)

其中，s(X,Y)表示标签预测的得分，A表示随机初始化的矩阵，

用来表示相邻标签y_i和y_i+1的相关性。H表示上层的输出，

表示第y_i+1个标签的分数。P(Y|X)表示在X的条件下Y出现的条件概率，softmax为激活函数。

最后使用Viterbi算法计算得分最高的标签序列，将其作为最终的预测结果

计算过程可以表示为：

模型的损失函数可以表示为：

其中，ln代表自然对数，P(Y|X)表示在X的条件下Y出现的条件概率。

步骤3，使用测试集对模型进行测试。对于待处理文本，首先将其送入经过步骤2训练过程得到的模型，该模型对句子进行多特征编码、上下文编码、全局语境信息提取等步骤，最后利用序列解码器完成方面词的提取。

相对于现有技术，本发明的有益效果如下：

本发明充分对数据集的特征进行学习，通过多特征编码层对句子的初始特征进行编码，上下文编码层对句子的深层信息进行了挖掘，最后全局语境信息提取层对方面词之间的关联进行了学习，进一步提高了模型提取方面词的精准度，且模型具有很强的鲁棒性。该方法能够确保提取出来方面词的完整性，为方面级情感分类打下良好的基础。

附图说明

图1为本发明实施例的方法流程图；

图2为本发明实施例的方法总体框架图；

图3为基于长短期记忆网络的上下文编码层内部结构图；

图4为基于多头自注意力机制的全局语境信息提取层的细节图。

具体实施方式

为了加深对本发明的认识和理解，下面结合具体实施例进一步阐明本发明。

实施例1：参见图1-图4，一种基于深度学习的方面词提取方法，本发明的具体实施步骤如下：

步骤1，构筑方面词提取数据集。首先收集了SemEval2014 Restaurant数据集和Laptop数据集，然后又收集ACL14 Twitter公开数据集，最后将这些数据集按照8:2划分为训练集和验证集，分别用于方面词提取模型的训练和验证。

E_w＝E_T+E_S+E_P (1)

H_i＝Transformer(H_i-1),i∈[1,L] (2)

E_c＝Emb_c·C (3)

其中，

代表双向LSTM的前向隐藏状态输出，

代表向量的连接操作。

代表向量的连接操作。

基于长短期记忆网络的上下文编码过程可以表示如下：

其中，

代表双向LSTM前向隐藏层的输出，

代表向量的连接操作。

LSTM单元的输出

和

的计算方法可以表示为：

首先，通过线性层转换输入向量，计算过程可以表示为：

其中，

为输入经过线性层计算得到的特征向量，

和

分别为权重矩阵和偏置值。

接着，将q_i的转置

与k_j相乘得到注意力分数，再将注意力分数除以

计算过程可以表示为：

其中，⊙表示矩阵相乘。第k个自注意力头的输出为

多头自注意力机制的向量连接过程可以表示为：

表示权重矩阵，

表示偏置值，计算过程表示为：

P(Y|X)＝softmax(s(X,Y)) (27)

其中，s(X,Y)表示标签预测的得分，A表示随机初始化的矩阵，

用来表示相邻标签y_i和y_i+1的相关性。H表示上层的输出，

计算过程可以表示为：

模型的损失函数可以表示为：

步骤3，对于待处理文本，首先将其送入经过步骤2训练过程得到的模型，该模型对句子进行多特征编码、上下文编码、全局语境信息提取等步骤，最后利用序列解码获得方面词提取的结果。

综上，本发明首先使用多特征编码层对句子进行初始编码，然后，上下文编码层对句子的上下文信息进行学习，接下来通过全局语境信息提取层对方面词之间的关联信息进行学习，最后利用序列解码层完成方面词的提取。

需要说明的是，上述实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

Claims

1.一种基于深度学习的方面词提取方法，其特征在于，所述方法包括以下步骤：

步骤1，构筑方面词提取数据集，

步骤2，方面词提取模型训练，

步骤3，对数据集进行测试。

2.根据权利要求1所述的基于深度学习的方面词提取方法，其特征在于，步骤1，构筑方面词提取数据集，具体如下，首先收集了SemEval 2014 Restaurant数据集和Laptop数据集，然后又收集ACL14 Twitter公开数据集，最后将这些数据集按照8:2划分为训练集和验证集，将其分别用于方面词提取模型的训练和验证。

3.根据权利要求1所述的基于深度学习的方面词提取方法，其特征在于，步骤2具体如下，首先，将待提取方面词的句子送入模型的多特征编码层中，得出句子的初始编码结果；然后，句子的初始编码结果会被送入基于双向LSTM的上下文编码层中，进行句子的上下文编码；接着，基于多头自注意力机制的全局语境信息提取层对句子的全局语境特征进行提取，捕获方面词之间的语义关联；最后，经过基于条件随机场的序列解码层完成解码，得到方面词提取的结果，在训练阶段，模型的损失函数会将模型的预测值与真实值作比较，并计算损失值，通过反向传播更新模型参数，使模型参数变得更优。

4.根据权利要求3所述的基于深度学习的方面词提取方法，其特征在于，步骤2，方面词提取模型训练，该步骤实施过程分为4个子步骤：

E_w＝E_T+E_S+E_P (1)

H_i＝Transformer(H_i-1),i∈[1,L] (2)

其中，H_i代表第i层Transformer编码的结果，L代表Roberta-base编码器Transformer的总层数；

接着，对每个单词对应的字符进行编码，设经过填充后的字符序列为为C＝{c₁,c₂,...,c_n}，n表示字符的个数，Emb_c为字符的嵌入矩阵，则字符的嵌入过程表示为：

E_c＝Emb_c·C (3)