CN112380863A

CN112380863A - 一种基于多头自注意力机制的序列标注方法

Info

Publication number: CN112380863A
Application number: CN202011187198.0A
Authority: CN
Inventors: 孟洁; 李妍; 刘晨; 张倩宜; 王梓蒴; 单晓怡; 李慕轩; 王林; 刘赫; 董雅茹
Original assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-02-19

Abstract

本发明公开了一种基于多头自注意力机制的序列标注方法，包括以下步骤：步骤1，局部上下文语义编码，利用BLSTM序列化地学习文本中词的局部上下文语义表示，步骤2，全局语义编码，基于步骤1编码的词的局部上下文语义表示，利用多头自注意力机制来编码词的全局语义表示；步骤3，语义特征融合，将步骤1编码的局部上下文语义表示和步骤2编码的全局语义表示进行融合，并将融合结果作为步骤4的输入语义特征，步骤4，序列标注，为了充分考虑序列标注任务中标签之间的依赖关系，利用CRF进行标签的预测，步骤5，模型训练，步骤6，模型推理。本发明在循环神经网络的基础上进一步引入多头自注意力机制来学习词的全局语义表示，并以此提升序列标注的效果。

Description

一种基于多头自注意力机制的序列标注方法

技术领域

本发明涉及计算机应用技术领域，特别是涉及一种基于多头自注意力机制的序列标注方法。

背景技术

序列标注是自然语言处理任务中的一个重要研究课题，其目标是基于给定的文本序列预测对应的标签序列，主要包括命名实体识别(Named Entity Recognition，NER)、组块分析(Text Chunking)、词性标注(Part-Of-Speech，POS)和意见抽取(OpinionExtraction)等任务。

早期的序列标注方法大多基于规则，需要建立规则模板和大量的专家知识，耗费大量的人力物力，同时还不易扩展、移植到其它领域。比如王宁等人采用基于规则的方式，人工地建立了金融方面公司名称识别的知识库。Toral和Mu基于在线***分析自动构建和维护了一个gazetteers(人名、机构、地方和其它实体列表)来进行实体识别。齐振宁等人构建和定制了一个命名实体识别标注器，虽然具有领域适应性并取得了较好的实验结果，但其仍然是基于人工操作的，耗时严重。

由于基于规则方法的缺点，基于统计学习方法的机器学习模型逐渐被应用在序列标注，比如支持向量机(SVM),隐马尔可夫模型(HMM)、条件随机场(CRF)、最大熵模型(ME)等。例如，Mayfield等人利用SVM从训练数据中抓取数百个特征进行训练。Zhou和Su提出了一个基于HMM的命名实体识别***，可以应用和融合字的简单特征(比如大小写、数字等)。Mccallum和Li将CRFs应用在命名实体识别中，在多个数据集上取得了良好表现。刘艳超等人将ME模型应用到命名实体识别上，同时结合了句子内部的局部特征和全局特征相融合的方法。虽然基于统计学习模型的方法取得了较好的性能，但是仍然严重依赖人工特征，并且存在只能抓取局部特征的缺陷。

近年来，随着深度学习的快速发展，其较强的学习和自动提取特征能力在自然语言处理中大获成功。由此，深度学习也被广泛应用于序列标注的诸多任务中。例如，张苗苗等人将BLSTM-CRF框架模型应用到序列标注，因为BLSTM能够有效利用上下文特征，CRF能够建模句子级别的标签信息，所以取得了最有竞争力的表现。Chiu提出了一个新颖的模型BLSTM-CNN，通过CNN获取字符特征，与词嵌入相拼接送入BLSTM中，虽然效果很好，但是用到了词典或词汇特征。近期，注意力机制逐渐被应用于序列标注的诸多任务重。相比于LSTM或CNN在建模时的语义依赖，注意力机制不用在乎距离的长短。比如，Rei等人在BLSTM-CRF框架的基础上，结合了注意力机制学习权重系数，将两种特征加权求和后输入CRF进行标签预测。Luo等人证明了将注意力机制引入到BLSTM-CRF中，能够提升化学药物实体识别效果，在文档级别上可以提升标注一致性，在句子级别上可以丰富上下文信息。Tan等人提出使用深度注意力网络进行序列标注，采用了N层的深度模型，每一层包含一个非线性层和一个self-attention层，并将最高层的输出作为softmax层的输入。虽然现有的基于深度学习的方法取得了较好的性能，但仍然存在局部依赖性、位置信息获取不准确等缺陷。

总之，现有的序列标注方法大多基于LSTM-CRF框架进行构建，但是采用LSTM作为编码器来学习文本中词的上下文语义表示通常存在两个问题：第一，基于循环神经网络的序列标注模型通常具有局部依赖性，对于远距离的语义信息存在语义损失。并且当两个词间距离越长，这个问题则越明显。第二，基于循环神经网络的序列标注模型还受限于序列化的特征学习，进而无法灵活地建模文本中任意两个词之间的语义关系。

发明内容

本发明的目的是针对现有技术中序列标注方法中存在的局部依赖性与序列化编码的问题，而提供一种基于多头自注意力机制的序列标注方法，

为实现本发明的目的所采用的技术方案是：

一种基于多头自注意力机制的序列标注方法，包括按顺序执行的下列步骤：

步骤1，局部上下文语义编码，利用BLSTM序列化地学习文本中词的局部上下文语义表示：

步骤1.1，对输入的文本进行分词得到对应的词序列；

步骤1.2，对于所述词序列中的每个词，利用BLSTM结构编码每个词对应的字符级向量表示；

步骤1.3，对于所述词序列中的每个词，将步骤1.2中编码的所述字符级向量表示与词嵌入向量表示进行拼接，作为词初始语义表示；

步骤1.4，基于步骤1.3得到的词初始语义表示，使用BLSTM编码每个词的局部上下文语义表示；

步骤2，全局语义编码，基于步骤1编码的词的局部上下文语义表示，利用多头自注意力机制来编码词的全局语义表示：

步骤2.1，采用全连接层将步骤1编码的词的局部上下文语义表示映射到多个不同的特征子空间；

步骤2.2，在步骤2.1得到的不同的特征子空间下，利用自注意力机制编码词的语义表示；

步骤2.3，将步骤2.2计算的每个特征子空间下词的的语义表示进行拼接，并将拼接结果输入一个全连接层，得到每个词对应的全局语义表示；

步骤3，语义特征融合，构建以下三种特征融合方式，将步骤1编码的局部上下文语义表示和步骤2编码的全局语义表示进行融合，并将融合结果作为步骤4的输入语义特征：

步骤3.1，构建一维参数融合方法，实现局部上下文语义和全局语义的线性组合；

步骤3.2，借鉴LSTM中采用的门控机制，构建多维参数融合方法；

步骤3.3，构建自由权重的语义融合方法；

步骤4，序列标注，为了充分考虑序列标注任务中标签之间的依赖关系，利用CRF进行标签的预测：

步骤4.1，对步骤3得到的融合后的语义特征序列进行全连接变换，得到状态特征矩阵，表示每个词的语义和标签之间的关联；

步骤4.2，随机初始化一个转移特征矩阵，表示标签和标签之间的转移关系；

步骤4.3，基于步骤4.1得到的状态特征矩阵和步骤4.2得到的转移特征矩阵，计算任意一个可能的标签序列对应的分值和概率；

步骤5，模型训练：在模型训练过程中，采用最大化标准标签序列对应的概率来对步骤1到步骤4中的参数进行优化；

步骤6，模型推理：在实际应用过程中，采用维特比算法搜索最优的标签序列，进行模型推理。

在上述技术方案中，所述步骤1.1中，采用Stanford NLP工具包对输入的文本进行分词。

在上述技术方案中，所述步骤1.3中，词的初始语义表示

其中，

为所述字符级向量表示，

为所述词嵌入向量表示。

在上述技术方案中，所述步骤1.4中，基于步骤1.3得到的词初始语义表示序列E＝{e₁,e₂,…,e_N}，使用BLSTM编码文本中每个词x_i的局部上下文语义表示h_i：

在上述技术方案中，所述步骤2.1中，将步骤1编码的词局部上下文语义表示序列H＝{h₁，h₂，…，h_N}映射到M个不同的特征子空间，其中，第i个特征子空间的映射方式如下：

式中，

和

为模型参数；Q表示注意力机制中的查询，K表示关键词，V表示关键词对应的值。

在上述技术方案中，所述步骤2.2中，在步骤2.1得到的不同的特征子空间下，利用基于点积的自注意力机制来编码词的语义表示：

head_i＝Attention(Q_i，K_i，V_i)

式中，d_k表示子空间中特征的维度，T表示矩阵的转置操作。

在上述技术方案中，所述步骤2.3中，将步骤2.2计算的每个特征子空间下的语义表示head_i进行拼接，并将拼接结果输入一个全连接层，得到每个词对应的全局语义表示序列Z：

Z＝[head₁；head₂；…；head_M]W^z式中，W^z为模型参数。

在上述技术方案中，所述步骤3中，一维参数融合后的语义表示：u_i＝(1-β_i)·h_i+β_i·z_i，

式中β_i＝sigmoid(W_β[h_i；z_i])，h_i为局部上下文语义表示，z_i为全局语义表示，W_β为模型参数；

多维参数融合后的语义表示：u_i＝(I-α_i)⊙h_i+α_i⊙z_i，

式中α_i＝sigmoid(W_α[h_i；z_i])，⊙表示元素相乘，I表示元素全为1的列向量，W_α为模型参数；

构建自由权重的语义融合的语义表示：u_i＝γ_i⊙h_i+δ_i⊙z_i，

式中γ和δ为两个可训练的参数。

在上述技术方案中，所述步骤4.1中，对步骤3得到的融合后的语义特征序列U＝{u₁，u₂，…，u_N}进行全连接变换，得到状态特征矩阵P，表示每个词的语义和标签之间的关联：

P＝UW_p+b_p

式中，W_p和b_p为模型参数。

在上述技术方案中，所述步骤4.3中，基于步骤4.1得到的状态特征矩阵和步骤4.2得到的转移特征矩阵，计算任意一个可能的标签序列

对应的分值：

基于上述分值，计算标签序列对应的概率：

在模型训练过程中，最大化标准标签序列对应的概率P(Y|X)，采用最小化如下负对数似然函数的方式对步骤1到步骤4中的参数进行优化：

所述步骤6中，采用维特比算法搜索最优的标签序列：

与现有技术相比，本发明的有益效果是：

1.本发明在循环神经网络的基础上进一步引入多头自注意力机制来学习词的全局语义表示，并以此提升序列标注的效果，有效缓解了利用循环神经网络进行编码所带来的局部依赖性和顺序编码的问题。

2.循环神经网络编码的局部上下文语义综合考虑了词的近距离语义以及词与词之间的语序关系，而多头自注意力机制编码的全局语义在建模语义是可以不受距离限制，弥补了循环神经中存在的远距离语义建模的缺陷，但缺少了对语序的建模。因此，局部语义和全局语义具有一定的互补性，本发明综合考虑两类语义，构建了三种语义特征的融合方法，将BLSTM学习到的局部语义特征与多头自注意力机制学习到的全局语义特征进行融合，达到优势互补的效果，并将融合结果作为输入语义特征，提升序列标注的效果。

附图说明

附图1是本发明的整体结构示意图。

附图2是基于多头自注意力机制的序列标注方法示意图。

具体实施方式

以下结合具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

本发明首先利用双向长短期记忆单元(BLSTM)学习文本中词的上下文语义特征。随后，基于BLSTM学习到的隐藏表示，采用多头自注意力机制建模文本中任意两个词之间的语义关系，进而得到每个词应关注的全局语义。为了充分考虑局部上下文语义和全局语义的互补性，本发明设计了三种特征融合方式将两部分语义进行融合，并基于融合后的特征，使用条件随机场模型(CRF)进行标签序列的预测。

实施例2

本发明主要采用深度学***台配备不低于8G的内存，CPU核心数不低于4个且主频不低2.6GHz、GPU环境、Linux操作***，并安装Python3.6及以上版本、pytorch0.4及以上版本等必备软件环境。

如图1所示，本发明提供的基于多头自注意力机制的序列标注方法主要包括按顺序执行的下列步骤：

步骤1，局部上下文语义编码：利用双向长短期记忆网络(BLSTM)序列化地学习文本中词的局部上下文语义表示。

步骤1.1)采用Stanford NLP工具包对输入的文本进行分词，得到对应的词序列。

步骤1.2)对于词序列中的每个词，利用双向LSTM(BLSTM)结构编码每个词对应的字符级向量表示。

步骤1.3)对于文本中的每个词，将步骤1.2)编码的字符级向量表示与词嵌入向量表示进行拼接，作为词的初始语义表示。

步骤1.4)使用BLSTM编码文本中每个词的局部上下文语义表示：输入步骤1.3)得到的词初始语义表示，输出每个词的局部上下文语义表示。

步骤2，全局语义编码：基于步骤1)编码的词的局部上下文语义表示，利用多头自注意力机制来编码词的全局语义表示。

步骤2.1)采用全连接层将步骤1编码的词的局部上下文语义表示映射到多个不同的特征子空间。

步骤2.2)在步骤2.1)得到的不同的特征子空间下，利用自注意力机制编码词的语义表示。

步骤2.3)将步骤2.2)计算的每个特征子空间下的语义表示进行拼接，并将拼接结果输入一个全连接层，得到每个词对应的全局语义表示。

步骤3，语义特征融合：构建以下三种特征融合方式，将步骤1)编码的局部语义表示和步骤2)编码的全局语义表示进行融合，并将融合结果作为步骤4的输入语义特征。

步骤3.1)构建一维参数融合方法，实现局部语义和全局语义的线性组合。

步骤3.2)借鉴LSTM中采用的门控机制，构建多维参数融合方法。

步骤3.3)构建自由权重的语义融合方法。

步骤4，序列标注：为了充分考虑序列标注任务中标签之间的依赖关系，本步骤利用CRF进行标签的预测。

步骤4.1)对步骤3，得到的融合后的语义特征序列进行全连接变换，得到状态特征矩阵，表示每个词的语义和标签之间的关联。

步骤4.2)随机初始化一个转移特征矩阵，表示标签和标签之间的转移关系。

步骤4.3)基于步骤4.1)得到的状态特征矩阵和步骤4.2)得到的转移特征矩阵，计算任意一个可能的标签序列对应的分值和概率。

步骤5，模型训练：在模型训练过程中，采用最大化标准标签序列对应的概率来对步骤1到步骤4中的参数进行优化。

实施例3

基于多头自注意力机制的序列标注方法主要包括按顺序执行的下列步骤：

步骤1.1，采用Stanford NLP工具包对输入的文本进行分词，得到对应的词序列X＝{x₁,x₂,…,x_N}。

例如，给定文本“我昨天在天津参加了一场马拉松比赛”，经过分词后可得到词序列{“我”，“昨天”，“在”，“天津”，“参加”，“了”，“一场”，“马拉松”，“比赛”}。

步骤1.2，考虑到文本中的词通常包含丰富的形态特征，比如前缀、后缀信息，因此本步骤对于词序列中的每个词

利用双向LSTM(BLSTM)结构编码每个词x_i对应的字符级向量表示

其中，c_i,j表示文本中第i个词的第j个字符。

例如：对于词序列中的第4个词“天津”，其第1个字符为“天”，第2个字符为“津”。通过BLSTM编码，可以得到“天津”的字符级向量表示

步骤1.3)对于文本中的每个词，首先利用查表法找到其在预定义词表中的索引，并利用该索引从预训练的词向量集合中寻找对应的向量表示，作为该词的词嵌入向量表示

随后，将步骤1.2)编码的字符级向量表示

与词对应的词嵌入向量表示

进行拼接，作为词的初始语义表示e_i：

例如，对于词序列中的第4个词“天津”，其对应的词嵌入向量表示为

通过将其字符级特征和词嵌入向量进行拼接，可以得到“天津”的初始语义表示e₄＝[0.04,-0.77,…,0.31；0.11,0.89,…,-0.25]。

步骤1.4)基于步骤1.3)得到的词初始语义表示序列E＝{e₁,e₂,…,e_N}，使用BLSTM编码文本中每个词x_i的局部上下文语义表示h_i：

例如，当文本经过BLSTM编码后，词序列中的第4个词“天津”对应的局部上下文语义表示为h₄＝[0.02,0.11,…,0.76]。

步骤2)全局语义编码：基于步骤1)编码的词的局部上下文语义表示，利用多头自注意力机制来编码词的全局语义表示。

步骤2.1)为了利用自注意力机制学习更多样化的全局语义表示，本步骤采用全连接层将步骤1)编码的词的局部上下文语义表示序列H＝{h₁，h₂，…，h_N}映射到M个不同的特征子空间。其中，第i个特征子空间的映射方式如下：

式中，

和

例如，步骤1)编码后的上下文语义表示序列可为

经过全连接层变换，可得到第i个特征子空间中注意力机制所需的查询

关键词

和值

步骤2.2)在步骤2.1)得到的不同的特征子空间下，利用基于点积的自注意力机制来编码词的语义表示：

head_i＝Attention(Q_i，K_i，V_i) (8)

式中，d_k表示子空间中特征的维度，T表示矩阵的转置操作。

例如，第i个特征子空间中，通过注意力机制编码的语义表示可为

步骤2.3)将步骤2.2)计算的每个特征子空间下的语义表示head_i进行拼接，并将拼接结果输入一个全连接层，得到每个词对应的全局语义表示序列Z。

Z＝[head₁；head₂；…；head_M]W^z (10)

式中，W^z为模型参数。

例如，经过拼接与全连接层，可得到全局语义表示序列

步骤3)语义特征融合：注意力机制虽然在建模语义或句法依赖时不受距离限制，能够弥补BLSTM远距离语义建模的缺陷，但注意力机制是一种无序的计算机制，在建模过程中可能会损失序列上的前后关系。因此，本步骤构建了三种特征融合的方式将步骤2)BLSTM学习到的局部语义特征H与步骤3)多头自注意力机制学习到的全局语义特征Z进行融合，达到优势互补的效果，并将融合结果U作为步骤4)的输入语义特征。

步骤3.1)一维参数融合方法：对于文本中的第i个词，首先将其对应的局部上下文语义表示h_i和全局语义表示z_i进行拼接，随后利用全连接层将其映射到一维空间，并利用sigmoid作为激活函数，得到融合权重β_i：

β_i＝sigmoid(W_β[h_i；z_i]) (11)

一维参数融合后的语义表示：u_i＝(1-β_i)·h_i+β_i·z_i (12)

式中，W_β为模型参数。

例如，词序列中的第4个词“天津”对应的局部上下文语义表示为h₄＝[0.02，0.11，…，0.76]，全局语义表示为z₄＝[0.14，0.09，…，-0.26]。经过计算，得到β₄＝0.4，则融合后的语义表示u₄＝[0.07，0.10，…，0.35]。

步骤3.2)多维参数融合方法：本方法借鉴LSTM中的门控机制，对于文本中的第i个词，首先将其对应的局部语义表示h_i和全局语义表示z_i进行拼接，随后利用全连接层将其映射到与语义表示相同维度的权重空间，并采用sigmoid作为激活函数，得到融合权重向量α_i：

α_i＝sigmoid(W_α[h_i；z_i]) (13)

式中，W_α为模型参数。随后，采用对应元素相乘的方法，对局部语义和全局语义进行融合：

多维参数融合后的语义表示：u_i＝(I-α_i)⊙h_i+α_i⊙z_i (14)

式中，⊙表示元素相乘，I表示元素全为1的列向量。

例如，词序列中的第4个词“天津”对应的局部上下文语义表示为h₄＝[0.02，0.11，…，0.76]，全局语义表示为z₄＝[0.14，0.09，…，-0.26]。经过计算，得到α₄＝[0.31，0.1，…，0.4]，则融合后的语义表示u₄＝[0.06，0.11，…，0.35]。

步骤3.3)构建自由权重的语义融合方法，具体地，本步骤随机初始化两个可训练的参数γ和δ，并利用两个参数进行语义特征融合：

u_i＝γ_i⊙h_i+δ_i⊙z_i (15)

例如，词序列中的第4个词“天津”对应的局部上下文语义表示为h₄＝[0.02，0.11，…，0.76]，全局语义表示为z₄＝[0.14，0.09，…，-0.26]。经过模型优化，γ₄＝[0.19，0.52，…，-0.11]，δ_i＝[-0.22，0.98，…，0.17]，则融合后的语义表示u₄＝[-0.03，0.15，…，0.13]。

步骤4)序列标注：为了充分考虑序列标注任务中标签之间的依赖关系，本步骤利用CRF进行标签的预测。

步骤4.1)对步骤3)得到的融合后的语义特征序列U＝{u₁，u₂，…，u_N}：(在实际应用中，从步骤3)中选择一种方式对特征进行融合，并将融合结果作为步骤4)的输入)进行全连接变换，得到状态特征矩阵P，表示每个词的语义和标签之间的关联

P＝UW_p+b_p (16)

式中，W_p和b_p为模型参数。

例如，对于词序列中的第4个词“天津”，其状态特征可为p₄＝[0.01，0.91，…，0.00]。

步骤4.2)随机初始化一个转移特征矩阵A，表示标签和标签之间的转移关系，该矩阵在模型训练过程中通过损失反向传播进行优化。

例如，转移特征矩阵可为

步骤4.3)基于步骤4.1)得到的状态特征矩阵和步骤4.2)得到的转移特征矩阵，计算任意一个可能的标签序列

对应的分值：

基于上述分值，计算标签序列对应的概率：

例如，对于命名实体识别任务，词序列{“我”，“昨天”，“在”，“天津”，“参加”，“了”，“一场”，“马拉松”，“比赛”}对应标签序列

对应的概率为0.9。

步骤5)模型训练：在模型训练过程中，本发明最大化标准标签序列对应的概率P(Y|X)。因此，本发明采用最小化如下负对数似然函数的方式对步骤1)到步骤4)中的参数进行优化：

步骤6)模型推理：在实际应用过程中，本发明采用维特比算法搜索最优的标签序列：

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。