CN110334339B - 一种基于位置感知自注意力机制的序列标注模型与标注方法 - Google Patents

一种基于位置感知自注意力机制的序列标注模型与标注方法 Download PDF

Info

Publication number
CN110334339B
CN110334339B CN201910362637.8A CN201910362637A CN110334339B CN 110334339 B CN110334339 B CN 110334339B CN 201910362637 A CN201910362637 A CN 201910362637A CN 110334339 B CN110334339 B CN 110334339B
Authority
CN
China
Prior art keywords
attention
self
sequence
context
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910362637.8A
Other languages
English (en)
Other versions
CN110334339A (zh
Inventor
魏巍
王赞博
陈志毅
李恒
杨佳鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910362637.8A priority Critical patent/CN110334339B/zh
Publication of CN110334339A publication Critical patent/CN110334339A/zh
Application granted granted Critical
Publication of CN110334339B publication Critical patent/CN110334339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于位置感知自注意力机制的序列标注模型与标注方法,该序列标注模型将自注意上下文融合层作为BiLSTM‑CRF模型的扩展,构造新的序列标注模型;该模型包括自注意上下文融合层和BiLSTM组成的编码器,以及作为解码器的CRF层;所述自注意上下文融合层,用于以词的特征向量表示序列作为输入,通过位置感知自注意力机制建立结合位置信息后序列中各词语与设定特定词语间的关联,得到序列中所有词语特征向量表示的加权和作为该特定词的输出特征。本发明提出的方法通过引入自注意上下文融合层,能够充分提取单词之间的潜在关系,从而可以在Bi‑LSTM的基础上提供互补的上下文信息。

Description

一种基于位置感知自注意力机制的序列标注模型与标注方法
技术领域
本发明涉及自然语言处理技术,尤其涉及一种基于位置感知自注意力机制的序列标注模型与标注方法。
背景技术
传统的序列标注方法通常基于经典机器学习算法,例如隐马尔可夫模型 (HMM)和条件随机场(CRF),但这些方法均严重依赖于手工特征或与特定语言相关的资源。随着深度学习的进步,许多基于深度神经网络模型的研究致力于增强序列标注任务的效果,其通常将字符和单词信息以特征向量表示用于输入,并且以端到端的训练方式学习每个单词的句子级上下文表示。最近,许多研究工作构建以循环神经网络(RNN)为基础的架构,例如BiLSTM-CNN,LSTM-CRF 和LSTM-CNN-CRF等。尽管这些模型在序列标注任务上展现出卓越的性能,但其将全部历史信息编码到前一词的隐含状态,从而递归处理每个单词的模式存在局限性,这种序列化处理输入的方式可能会限制其捕获单词间潜在的相互独立关系的能力,从而在一定程度上削弱模型对上下文依赖的敏感性。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于位置感知自注意力机制的序列标注模型与标注方法。
本发明解决其技术问题所采用的技术方案是:一种基于位置感知自注意力机制的序列标注模型,该模型将自注意上下文融合层作为BiLSTM-CRF模型的扩展,构造新的序列标注模型;该模型包括自注意上下文融合层和BiLSTM组成的编码器,以及作为解码器的CRF层;
所述自注意上下文融合层,用于以词的特征向量表示序列作为输入,通过位置感知自注意力机制建立结合位置信息后序列中各词语与设定特定词语间的关联,得到序列中所有词语特征向量表示的加权和作为该特定词的输出特征;
BiLSTM,由正向和反向的长短时记忆网络LSTM组成;正向和反向LSTM接收自注意上下文融合层的输出特征作为输入,分别编码当前时刻的上文和下文信息;两者的编码信息合并构成每个词的全局语义特征表示;
CRF层,用于接收编码器的输出作为输入,根据序列得分选择全局最优的标签序列。
按上述方案,所述位置感知自注意力机制为在计算注意力权值过程中引入词语间的相对位置信息。
按上述方案,所述编码器还包括用于对BiLSTM的输出进行进一步处理,通过提供补充的上下文信息,得到最终待解码的特征表示的自注意上下文融合层。
该自注意上下文融合层的结构与前一个自注意上下文融合层相同。
按上述方案,所述自注意上下文融合层根据输入序列得到输出特征的过程如下:
针对某特定词语,首先计算序列中所有词语和它的注意力权值,即对齐分数,在计算对齐分数过程中引入词语间的相对位置信息,然后以归一化后的对齐分数作为权重,计算所有词语表示的加权之和,得到该特定词语经过注意力机制的输出;
为了增强自注意力网络的特征抽取能力,在上述输出基础上再进行两次全连接运算,通过非线性变化增强模型的表示能力;
最后,通过一个融合门控机制,将该特定词语输入该上下文融合层前的特征表示与全连接层的输出做线性求和,得到该词语经过自注意上下文信息融合层的最终特征输出。
按上述方案,所述位置感知自注意力机制表示如下:
假设由各元素表示组成的序列
Figure BDA0002047301830000031
其中
Figure BDA0002047301830000032
为了测量每个
Figure BDA0002047301830000033
对指定元素
Figure BDA0002047301830000034
的注意权重,采用兼容性函数
Figure BDA0002047301830000035
来测量
Figure BDA0002047301830000036
Figure BDA0002047301830000037
间的对齐得分;然后通过softmax函数对X内所有元素进行归一化以转换对齐分数,即:
Figure BDA0002047301830000041
Figure BDA0002047301830000042
的自注意力的输出
Figure BDA0002047301830000043
为根据X中各元素对齐分数得到的所有元素表示的加权之和,即:
Figure BDA0002047301830000044
采用两个全连接层来转换自注意力机制的输出
Figure BDA0002047301830000045
其中
Figure BDA0002047301830000046
为待训练的权重矩阵,
Figure BDA0002047301830000047
为偏置项,tanh为激活函数,
Figure BDA0002047301830000048
代表xi通过自注意力机制的输出;
xi的最终上下文感知表示
Figure BDA0002047301830000049
是自注意层的输入
Figure BDA00020473018300000410
和全连接层输出
Figure BDA00020473018300000411
的线性组合,即:
Figure BDA00020473018300000412
Figure BDA00020473018300000413
其中,
Figure BDA00020473018300000414
是融合门中待训练的权重矩阵,sigmoid 函数为激活函数;
其中,兼容性函数
Figure BDA00020473018300000415
其中,
Figure BDA0002047301830000051
是待训练的权重矩阵,
Figure BDA0002047301830000052
Figure BDA0002047301830000053
为偏置项,σ为激活函数,Ψij(·)为包含如下三项的位置偏置函数:
Figure BDA0002047301830000054
其中,
Figure BDA0002047301830000055
为自禁掩码偏置函数,对于特定元素xi,自注意力机制的目标是衡量其对其他元素的依赖性,因此需要将每个元素对自身注意力屏蔽;
Figure BDA0002047301830000056
其中,-∞被用来忽视自注意力机制中元素自身的贡献;
Figure BDA0002047301830000057
为距离感知高斯偏置函数,在序列标注任务上建模考虑本地上下文相对位置信息,通过距离感知高斯偏差来控制指定标记xi的局部上下文的范围;
Figure BDA0002047301830000058
其中,i,j均表示元素在序列中的位置,参数ε是标准偏差,设定为ε=k/2,k 表示窗口大小,在我们的实验中根据经验设置为10;
Figure BDA0002047301830000059
为用于表示特定于元素的位置偏置函数,
考虑相对距离影响注意力分布的方式对于不同的元素可能不相同引入特定于元素的位置偏置函数,一个标量
Figure BDA00020473018300000510
Figure BDA00020473018300000511
和W(3)的第C(i-j,k)个元素通过向量内积计算得到,其中C(i-j,k)为元素xi和xj之间的相对距离估计:
Figure BDA0002047301830000061
其中,
Figure BDA0002047301830000062
是待训练的权重矩阵;k是一个非负值,反映了两个不同元素之间的最大间距,即如果两个元素之间的相对距离大于阈值k,则将相对距离置为k,C(i-j,k)用于表示W(3)的下标并由下式给出:
Figure BDA0002047301830000063
一种基于位置感知自注意力机制的序列标注方法,包括以下步骤:
1)基于自注意上下文融合层的特征表示阶段
自注意上下文融合层对输入词语的特征向量表示序列进行加权得到词的特征表示和对齐分数组合;
假设由各元素表示组成的序列
Figure BDA0002047301830000064
其中
Figure BDA0002047301830000065
为了测量每个
Figure BDA0002047301830000066
对指定元素
Figure BDA0002047301830000067
的注意权重,采用兼容性函数
Figure BDA0002047301830000068
来测量
Figure BDA0002047301830000069
Figure BDA00020473018300000610
间的对齐得分;然后通过softmax函数对X内所有元素进行归一化以转换对齐分数,即:
Figure BDA00020473018300000611
Figure BDA00020473018300000612
的自注意力的输出
Figure BDA00020473018300000613
为X中所有元素对齐分数的加权和,即:
Figure BDA00020473018300000614
采用两个全连接层来转换注意力模块的输出
Figure BDA0002047301830000071
其中
Figure BDA0002047301830000072
为待训练的权重矩阵,
Figure BDA0002047301830000073
为偏置项,tanh为激活函数,
Figure BDA0002047301830000074
代表xi通过自注意力机制的输出;
xi的最终上下文感知
Figure BDA00020473018300000712
表示是自注意层xi的输入和全连接层输出的线性组合,即:
Figure BDA0002047301830000075
Figure BDA0002047301830000076
其中,
Figure BDA0002047301830000077
是融合门中待训练的权重矩阵,sigmoid 函数为激活函数;
2)利用BiLSTM的编码阶段
采用BiLSTM进行上下文信息编码,并对BiLSTM的编码结果采用自注意上下文融合层加权求和;
3)解码阶段
采用句级对数似然函数CRF层进行标签解码。
按上述方案,所述步骤1)中兼容性函数
Figure BDA0002047301830000078
其中,σ(·)是激活函数,
Figure BDA0002047301830000079
Figure BDA00020473018300000710
是待训练的权重矩阵,
Figure BDA00020473018300000711
为偏置项,σ为激活函数,;
其中,Ψij(·)为包含如下三项的位置偏置函数:
Figure BDA0002047301830000081
其中,
Figure BDA0002047301830000082
为自禁掩码偏置函数,对于特定元素xi,自注意力机制的目标是衡量其对其他元素的依赖性,因此需要将每个元素对自身注意力屏蔽;
Figure BDA0002047301830000083
其中,-∞被用来忽视自注意力机制中元素自身的贡献;
Figure BDA0002047301830000084
为距离感知高斯偏置函数,在序列标注任务上建模考虑本地上下文相对位置信息,通过距离感知高斯偏差来控制指定标记xi的局部上下文的范围;
Figure BDA0002047301830000085
其中,i,j均表示元素在序列中的位置,参数ε是标准偏差,设定为ε=k/2,k 表示窗口大小,在我们的实验中根据经验设置为10;
Figure BDA0002047301830000086
为用于表示特定于元素的位置偏置函数,
考虑相对距离影响注意力分布的方式对于不同的元素可能不相同引入特定于元素的位置偏置函数,一个标量
Figure BDA0002047301830000087
Figure BDA0002047301830000088
的内积和W(3)的第C(i-j,k)个元素计算得到,其中C(i-j,k)为元素xi和xj之间的相对距离估计:
Figure BDA0002047301830000089
其中,
Figure BDA0002047301830000091
是待训练的权重矩阵;k是一个非负值,反映了两个不同元素之间的最大间距,即如果两个元素之间的相对距离大于阈值k,则将相对距离置为k,C(i-j,k)用于表示W(3)的下标并由下式给出:
Figure BDA0002047301830000092
注意,相对位置的最大值被限制在阈值k内,是基于精确的相对位置信息超出特定距离之外失去效用的假设下。
按上述方案,采用两个全连接层来转换注意力模块的输出,具体如下:
Figure BDA0002047301830000093
其中
Figure BDA0002047301830000094
为待训练的权重矩阵,,
Figure BDA0002047301830000095
为偏置项,tanh为激活函数,
Figure BDA0002047301830000096
代表xi通过自注意力机制的输出,
由于引入了一个禁用对角线的掩码来禁用每个元素对其自身的注意力,使用融合门将每个元素自身的信息与其上下文相结合,xi的最终上下文感知表示是自注意层xi的输入和全连接层输出的线性组合,即:
Figure BDA0002047301830000097
Figure BDA0002047301830000098
其中,
Figure BDA0002047301830000099
是融合门中待训练的权重矩阵。
本发明产生的有益效果是:通过结合基于位置感知的自注意力机制,并将自注意上下文融合层结合到神经网络结构中,本发明提出的方法能够充分提取单词之间的潜在关系,并在Bi-LSTM的基础上提供互补的上下文信息,进而更好地提取每个单词的全局语义特征,以及对序列中单词的上下文依赖性进行建模,最终可以实现在序列标注任务上取得更好的预测效果。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的序列标注模型的结构示意图;
图2是本发明实施例的序列标注方法中自注意上下文融合层的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提出了一种用于序列标注任务的神经网络架构,它包含一个新颖的上下文融合层,通过提供补充的上下文信息,以更好地对上下文依赖性建模。具体地,所提出的上下文融合层被并入整体架构中的不同级别,即,添加一层用于重新加权初始输入(在分布式表示层之后),另一层被添加用于重新加权单词级Bi-LSTM层的输出。
接着,我们将详细介绍本发明提出的序列标注模型。首先介绍一个新颖的位置感知自注意力机制,接着展示基于此的上下文融合层。
本发明提出了一种新颖的位置感知自注意力机制,以便更好地捕捉哪个元素对同一序列中的指定元素很重要。具体而言,假设由各元素表示组成的序列
Figure BDA0002047301830000111
其中
Figure BDA0002047301830000112
为了测量每个
Figure BDA0002047301830000113
对指定元素
Figure BDA0002047301830000114
的注意权重,采用兼容性函数
Figure BDA0002047301830000115
来测量
Figure BDA0002047301830000116
Figure BDA0002047301830000117
间的相似性(即,对齐得分);然后通过 softmax函数对X内所有元素进行归一化以转换对齐分数,即:
Figure BDA0002047301830000118
Figure BDA0002047301830000119
的自注意力的输出
Figure BDA00020473018300001110
由X中所有元素对齐分数的加权和,得到,即:
Figure BDA00020473018300001111
许多不同的注意力机制均由上述形式提出,但在兼容性函数
Figure BDA00020473018300001112
上有所不同,本发明采用加法注意机制,它由一层前馈神经网络实现,并且在实践中通常优于其他方法,其计算方法是:
Figure BDA00020473018300001113
其中,σ(·)是激活函数,
Figure BDA00020473018300001114
代表权重矩阵,
Figure BDA00020473018300001115
和b分别代表权重向量和偏置向量。
位置建模有利于自注意力网络,为此,与直接编码序列中元素的绝对位置作为注意力机制的输入相反,这里我们通过对兼容性函数引入三个不同的位置因素,探索输入序列的位置信息以扩展自注意力模型,即自禁掩码偏置 (self-disabled mask bias),距离感知高斯偏置(distance-aware Gaussian bias)和特定于元素的位置偏置(token-specific position bias),因此可以称为位置感知自注意力机制被重写为:
Figure BDA0002047301830000121
其中,Ψij(·)为包含如下三项的位置偏置函数:
Figure BDA0002047301830000122
Mij(·)、Pij(·)和Gij(·)分别是这三项的输出,接下来将对其逐一介绍。
自禁掩码偏置
对于特定元素xi,自注意力机制的目标是衡量其对其他元素的依赖性,因此有必要将每个元素对自身注意力屏蔽。因此,我们采用自禁掩码偏置,即:
Figure BDA0002047301830000123
其中,-∞被用来忽视自注意力机制中元素自身的贡献。
距离感知高斯偏置
自注意力机制对全局依赖关系建模,却不考虑元素间的距离,而相对位置信息对于在序列标注任务上建模本地上下文很重要。在不失一般性的情况下,我们以词性标注为例,与其他距离较远的词语相比,特定词语的词性标签更可能受其邻近元素的影响。为了有利于自注意力机制建模短距离依赖性,我们考虑了通过距离感知高斯偏差来控制指定标记xi的局部上下文的范围,其定义为
Figure BDA0002047301830000131
其中,i表示
Figure BDA0002047301830000132
的位置;参数ε是根据经验设定为ε=k/2的标准偏差;k是一个窗口大小,在我们的实验中根据经验设置为10。
特定于元素的位置偏置
高斯偏差仅考虑元素间的相对距离信息,然而,相对距离影响注意力分布的方式对于不同的元素可能不相同。因而,可以通过以更灵活的方式来考虑元素间的相对距离,,一个标量
Figure BDA0002047301830000133
Figure BDA0002047301830000134
的内积和W(3)的第C(i-j,k)个元素计算得到,其中C(i-j,k)由元素xi和xj之间的相对距离估计:
Figure BDA0002047301830000135
其中,W是权重矩阵;k是一个非负值,反映了两个不同元素之间的最大间距。换句话说,如果两个元素之间的相对距离大于阈值k,则它将被削减为k。计算过程可以通过C(i-j,k)计算得到,它表示W(3)的下标并由下式给出:
Figure BDA0002047301830000136
相对位置的最大值被限制在阈值k内,是基于精确的相对位置信息超出特定距离之外失去效用的假设下。
神经网络的成功源于其高度灵活的非线性变换。由于注意力机制利用加权求和来生成输出向量,其表示能力是有限的。为了进一步增强本发明中注意力层的特征提取能力,我们考虑采用两个全连接层来转换注意力模块的输出,具体由下式表示:
Figure BDA0002047301830000141
其中
Figure BDA0002047301830000142
为待训练的权重矩阵,
Figure BDA0002047301830000143
代表xi通过自注意力机制的输出。
由于我们引入了一个禁用对角线的掩码来禁用每个元素对其自身的注意力,因此所提出的自注意力层的输出不足以建模上下文感知的表示。因此我们使用融合门将每个元素自身的信息与其上下文相结合(如图2所示)。xi的最终上下文感知表示是自注意层xi的输入和全连接层输出的线性组合,即:
Figure BDA0002047301830000144
Figure BDA0002047301830000145
其中
Figure BDA0002047301830000146
是融合门中待训练的权重矩阵。
经实验表明,相比已有主流方法,本发明的序列标注方法取得了更好的效果。实验采用两个基准序列标注数据集进行评估,即CoNLL 2003命名实体识别数据集(CoNLL03)和Penn Treebank数据集(WSJ)的华尔街日报部分(词性标注)。语料库的详细信息如表1所示。
表1语料库信息
Figure BDA0002047301830000151
实验部分旨在评估本发明所提出的序列标注模型在不同数据集上的有效性。具体来说,我们列出了CoNLL 2003命名实体识别任务的标准F1分数,以及WSJ 上词性标注任务的准确率作为模型的评价指标,实验对比结果分别在表2和表3 中给出。
表2 CoNLL 2003NER对比实验结果
Figure BDA0002047301830000161
表3 WSJ词性标注对比实验结果
Figure BDA0002047301830000171
值得注意的是,从以上二表中可以观察到,本发明提出的方法在不同的序列标注任务中始终优于所有这些基准模型。因为这些模型大多采用Bi-LSTM作为上下文编码器架构,其以顺序方式处理输入的策略使其不能直接捕捉两个词之间的关系,因此模型忽略了部分位置信息以用于建模上下文依赖性。通过将自注意上下文融合层结合到神经网络结构中,本发明提出的方法能够充分提取单词之间的潜在关系,从而可以在Bi-LSTM的基础上提供互补的上下文信息。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (5)

1.一种基于位置感知自注意力机制的序列标注模型,其特征在于,该模型将自注意上下文融合层作为BiLSTM-CRF模型的扩展,构造新的序列标注模型;该模型包括自注意上下文融合层和BiLSTM组成的编码器,以及作为解码器的CRF层;
所述自注意上下文融合层,用于以词的特征向量表示序列作为输入,通过位置感知自注意力机制建立结合位置信息后序列中各词语与设定特定词语间的关联,得到序列中所有词语特征向量表示的加权和作为该特定词的输出特征;
其中,自注意上下文融合层根据输入序列得到输出特征的过程如下:
针对某特定词语,首先计算序列中所有词语和它的注意力权值,即对齐分数,在计算对齐分数过程中引入词语间的相对位置信息,然后以归一化后的对齐分数作为权重,计算所有词语表示的加权之和,得到该特定词语经过注意力机制的输出;
为了增强自注意力网络的特征抽取能力,在上述输出基础上再进行两次全连接运算,通过非线性变化增强模型的表示能力;
最后,通过一个融合门控机制,将该特定词语输入该上下文融合层前的特征表示与全连接层的输出做线性求和,得到该词语经过自注意上下文信息融合层的最终特征输出;
BiLSTM,由正向和反向的长短时记忆网络LSTM组成;正向和反向LSTM接收自注意上下文融合层的输出特征作为输入,分别编码当前时刻的上文和下文信息;两者的编码信息合并构成每个词的全局语义特征表示;
CRF层,用于接收编码器的输出作为输入,根据序列得分选择全局最优的标签序列。
2.根据权利要求1所述的基于位置感知自注意力机制的序列标注模型,其特征在于,所述编码器还包括用于对BiLSTM的输出进行进一步处理,通过提供补充的上下文信息,得到最终待解码的特征表示的第二自注意上下文融合层。
3.根据权利要求1所述的基于位置感知自注意力机制的序列标注模型,其特征在于,所述位置感知自注意力机制表示如下:
假设由各元素表示组成的序列
Figure FDA0002779811060000021
其中
Figure FDA0002779811060000022
为了测量每个
Figure FDA0002779811060000023
对指定元素
Figure FDA0002779811060000024
的注意权重,采用兼容性函数
Figure FDA0002779811060000025
来测量
Figure FDA0002779811060000026
Figure FDA0002779811060000027
间的对齐得分;然后通过softmax函数对X内所有元素进行归一化以转换对齐分数,即:
Figure FDA0002779811060000028
Figure FDA0002779811060000029
的自注意力的输出
Figure FDA00027798110600000210
为根据X中各元素对齐分数得到的所有元素表示的加权之和,即:
Figure FDA00027798110600000211
采用两个全连接层来转换自注意力机制的输出
Figure FDA0002779811060000031
其中
Figure FDA0002779811060000032
为待训练的权重矩阵,
Figure FDA0002779811060000033
为偏置项,tanh为激活函数,
Figure FDA0002779811060000034
代表xi通过自注意力机制的输出;
xi的最终上下文感知表示
Figure FDA0002779811060000035
是自注意层的输入
Figure FDA0002779811060000036
和全连接层输出
Figure FDA0002779811060000037
的线性组合,即:
Figure FDA0002779811060000038
Figure FDA0002779811060000039
其中,
Figure FDA00027798110600000310
是融合门中待训练的权重矩阵,sigmoid函数为激活函数;
其中,兼容性函数
Figure FDA00027798110600000311
其中,
Figure FDA00027798110600000312
是待训练的权重矩阵,
Figure FDA00027798110600000313
Figure FDA00027798110600000314
为偏置项,σ为激活函数,Ψij(·)为包含如下三项的位置偏置函数:
Figure FDA00027798110600000315
其中,
Figure FDA00027798110600000316
为自禁掩码偏置函数,对于特定元素xi,自注意力机制的目标是衡量其对其他元素的依赖性,因此需要将每个元素对自身注意力屏蔽;
Figure FDA0002779811060000041
其中,-∞被用来忽视自注意力机制中元素自身的贡献;
Figure FDA0002779811060000042
为距离感知高斯偏置函数,在序列标注任务上建模考虑本地上下文相对位置信息,通过距离感知高斯偏差来控制指定标记xi的局部上下文的范围;
Figure FDA0002779811060000043
其中,i,j均表示元素在序列中的位置,参数ε是标准偏差,设定为ε=k/2,k表示窗口大小;
Figure FDA0002779811060000044
为用于表示特定于元素的位置偏置函数,
考虑相对距离影响注意力分布的方式对于不同的元素可能不相同引入特定于元素的位置偏置函数,一个标量
Figure FDA0002779811060000045
Figure FDA0002779811060000046
和W(3)的第C(i-j,k)个元素通过向量内积计算得到,其中C(i-j,k)为元素xi和xj之间的相对距离估计:
Figure FDA0002779811060000047
其中,
Figure FDA0002779811060000048
是待训练的权重矩阵;k是一个非负值,反映了两个不同元素之间的最大间距,即如果两个元素之间的相对距离大于阈值k,则将相对距离置为k,C(i-j,k)用于表示W(3)的下标并由下式给出:
Figure FDA0002779811060000049
4.一种基于位置感知自注意力机制的序列标注方法,其特征在于,包括以下步骤:
1)基于自注意上下文融合层的特征表示阶段
自注意上下文融合层对输入词语的特征向量表示序列进行加权得到词的特征表示和对齐分数组合;
假设由各元素表示组成的序列
Figure FDA0002779811060000051
其中
Figure FDA0002779811060000052
为了测量每个
Figure FDA0002779811060000053
对指定元素
Figure FDA0002779811060000054
的注意权重,采用兼容性函数
Figure FDA0002779811060000055
来测量
Figure FDA0002779811060000056
Figure FDA0002779811060000057
间的对齐得分;然后通过softmax函数对X内所有元素进行归一化以转换对齐分数,即:
Figure FDA0002779811060000058
Figure FDA0002779811060000059
的自注意力的输出
Figure FDA00027798110600000510
为X中所有元素对齐分数的加权和,即:
Figure FDA00027798110600000511
采用两个全连接层来转换注意力模块的输出
Figure FDA00027798110600000512
其中
Figure FDA00027798110600000513
为待训练的权重矩阵,
Figure FDA00027798110600000514
为偏置项,tanh为激活函数,
Figure FDA00027798110600000515
代表xi通过自注意力机制的输出;
xi的最终上下文感知
Figure FDA00027798110600000516
表示是自注意层xi的输入和全连接层输出的线性组合,即:
Figure FDA0002779811060000061
Figure FDA0002779811060000062
其中,
Figure FDA0002779811060000063
是融合门中待训练的权重矩阵,sigmoid函数为激活函数;
2)利用BiLSTM的编码阶段
采用BiLSTM进行上下文信息编码,并对BiLSTM的编码结果采用自注意上下文融合层加权求和;
3)解码阶段
采用句级对数似然函数CRF层进行标签解码。
5.根据权利要求4所述的基于位置感知自注意力机制的序列标注方法,其特征在于,所述步骤1)中兼容性函数如下:
Figure FDA0002779811060000064
其中σ(·)是激活函数,
Figure FDA0002779811060000065
是待训练的权重矩阵,
Figure FDA0002779811060000066
为偏置项,σ为激活函数;
其中,Ψij(·)为包含如下三项的位置偏置函数:
Figure FDA0002779811060000067
其中,
Figure FDA0002779811060000071
为自禁掩码偏置函数,对于特定元素xi,自注意力机制的目标是衡量其对其他元素的依赖性,因此需要将每个元素对自身注意力屏蔽;
Figure FDA0002779811060000072
其中,-∞被用来忽视自注意力机制中元素自身的贡献;
Figure FDA0002779811060000073
为距离感知高斯偏置函数,在序列标注任务上建模考虑本地上下文相对位置信息,通过距离感知高斯偏差来控制指定标记xi的局部上下文的范围;
Figure FDA0002779811060000074
其中,i,j均表示元素在序列中的位置,参数ε是标准偏差,设定为ε=k/2,k表示窗口大小,在我们的实验中根据经验设置为10;
Figure FDA0002779811060000075
为用于表示特定于元素的位置偏置函数,
考虑相对距离影响注意力分布的方式对于不同的元素可能不相同引入特定于元素的位置偏置函数,一个标量
Figure FDA0002779811060000076
Figure FDA0002779811060000077
的内积和W(3)的第C(i-j,k)个元素计算得到,其中C(i-j,k)为元素xi和xj之间的相对距离估计:
Figure FDA0002779811060000078
其中,
Figure FDA0002779811060000079
是待训练的权重矩阵;k是一个非负值,反映了两个不同元素之间的最大间距,即如果两个元素之间的相对距离大于阈值k,则将相对距离置为k,C(i-j,k)用于表示W(3)的下标并由下式给出:
Figure FDA0002779811060000081
CN201910362637.8A 2019-04-30 2019-04-30 一种基于位置感知自注意力机制的序列标注模型与标注方法 Active CN110334339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910362637.8A CN110334339B (zh) 2019-04-30 2019-04-30 一种基于位置感知自注意力机制的序列标注模型与标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910362637.8A CN110334339B (zh) 2019-04-30 2019-04-30 一种基于位置感知自注意力机制的序列标注模型与标注方法

Publications (2)

Publication Number Publication Date
CN110334339A CN110334339A (zh) 2019-10-15
CN110334339B true CN110334339B (zh) 2021-04-13

Family

ID=68139863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910362637.8A Active CN110334339B (zh) 2019-04-30 2019-04-30 一种基于位置感知自注意力机制的序列标注模型与标注方法

Country Status (1)

Country Link
CN (1) CN110334339B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046907B (zh) * 2019-11-02 2023-10-27 国网天津市电力公司 一种基于多头注意力机制的半监督卷积网络嵌入方法
CN110991185A (zh) * 2019-11-05 2020-04-10 北京声智科技有限公司 一种文章中实体的属性抽取方法及装置
CN110867231A (zh) * 2019-11-18 2020-03-06 中山大学 基于文本分类的疾病预测方法、装置、计算机设备及介质
CN111178074B (zh) * 2019-12-12 2023-08-25 天津大学 一种基于深度学习的中文命名实体识别方法
CN111046674B (zh) * 2019-12-20 2024-05-31 科大讯飞股份有限公司 语义理解方法、装置、电子设备和存储介质
CN111209362A (zh) * 2020-01-07 2020-05-29 苏州城方信息技术有限公司 基于深度学习的地址数据解析方法
CN111259235A (zh) * 2020-01-09 2020-06-09 齐鲁工业大学 基于上下文感知及特征交互建模的个性化推荐方法及***
CN111145760B (zh) * 2020-04-02 2020-06-30 支付宝(杭州)信息技术有限公司 用于说话人识别的方法及神经网络模型
CN111666758B (zh) * 2020-04-15 2022-03-22 中国科学院深圳先进技术研究院 中文分词方法、训练设备以及计算机可读存储介质
CN111680512B (zh) * 2020-05-11 2024-04-02 上海阿尔卡特网络支援***有限公司 命名实体识别模型、电话总机转接分机方法及***
CN111813924B (zh) * 2020-07-09 2021-04-09 四川大学 基于可扩展动态选择与注意力机制的类别检测算法及***
CN111680669A (zh) * 2020-08-12 2020-09-18 江西风向标教育科技有限公司 一种试题分割方法、***及可读存储介质
CN112242187B (zh) * 2020-10-26 2023-06-27 平安科技(深圳)有限公司 基于知识图谱表征学习的医疗方案推荐***及方法
CN112381615B (zh) * 2020-11-27 2022-09-02 华中科技大学 基于用户重复行为模式挖掘的短序列推荐方法
CN112487109A (zh) * 2020-12-01 2021-03-12 朱胜青 实体关系抽取方法、终端和计算机可读存储介质
CN112560506B (zh) * 2020-12-17 2023-07-25 中国平安人寿保险股份有限公司 文本语义解析方法、装置、终端设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460013B (zh) * 2018-01-30 2021-08-20 大连理工大学 一种基于细粒度词表示模型的序列标注模型及方法
CN108628828B (zh) * 2018-04-18 2022-04-01 国家计算机网络与信息安全管理中心 一种基于自注意力的观点及其持有者的联合抽取方法
CN109062893B (zh) * 2018-07-13 2021-09-21 华南理工大学 一种基于全文注意力机制的商品名称识别方法
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法

Also Published As

Publication number Publication date
CN110334339A (zh) 2019-10-15

Similar Documents

Publication Publication Date Title
CN110334339B (zh) 一种基于位置感知自注意力机制的序列标注模型与标注方法
Zhou et al. A comprehensive survey on pretrained foundation models: A history from bert to chatgpt
US11568000B2 (en) System and method for automatic task-oriented dialog system
US11354506B2 (en) Coreference-aware representation learning for neural named entity recognition
Li et al. Seq2seq dependency parsing
CN108733792B (zh) 一种实体关系抽取方法
Zhao et al. Attention-Based Convolutional Neural Networks for Sentence Classification.
CN108962224B (zh) 口语理解和语言模型联合建模方法、对话方法及***
CN109800411A (zh) 临床医疗实体及其属性抽取方法
Charniak Parsing as language modeling
CN110162749A (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
Zhang et al. Semi-supervised structured prediction with neural CRF autoencoder
Le et al. UniConv: A unified conversational neural architecture for multi-domain task-oriented dialogues
Zhou et al. Learning with annotation of various degrees
CN111966811A (zh) 意图识别和槽填充方法、装置、可读存储介质及终端设备
CN115186147B (zh) 对话内容的生成方法及装置、存储介质、终端
CN114510946B (zh) 基于深度神经网络的中文命名实体识别方法及***
He et al. Multi-goal multi-agent learning for task-oriented dialogue with bidirectional teacher–student learning
CN114817467A (zh) 一种意图识别响应方法、装置、设备及存储介质
Yang et al. Comprehensive Study: How the Context Information of Different Granularity Affects Dialogue State Tracking?
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN112560440B (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
CN117591543A (zh) 一种中文自然语言的sql语句生成方法和装置
CN112183062A (zh) 一种基于交替解码的口语理解方法、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant