CN112380863A - 一种基于多头自注意力机制的序列标注方法 - Google Patents

一种基于多头自注意力机制的序列标注方法 Download PDF

Info

Publication number
CN112380863A
CN112380863A CN202011187198.0A CN202011187198A CN112380863A CN 112380863 A CN112380863 A CN 112380863A CN 202011187198 A CN202011187198 A CN 202011187198A CN 112380863 A CN112380863 A CN 112380863A
Authority
CN
China
Prior art keywords
word
sequence
semantic
semantic representation
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011187198.0A
Other languages
English (en)
Inventor
孟洁
李妍
刘晨
张倩宜
王梓蒴
单晓怡
李慕轩
王林
刘赫
董雅茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202011187198.0A priority Critical patent/CN112380863A/zh
Publication of CN112380863A publication Critical patent/CN112380863A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多头自注意力机制的序列标注方法,包括以下步骤:步骤1,局部上下文语义编码,利用BLSTM序列化地学习文本中词的局部上下文语义表示,步骤2,全局语义编码,基于步骤1编码的词的局部上下文语义表示,利用多头自注意力机制来编码词的全局语义表示;步骤3,语义特征融合,将步骤1编码的局部上下文语义表示和步骤2编码的全局语义表示进行融合,并将融合结果作为步骤4的输入语义特征,步骤4,序列标注,为了充分考虑序列标注任务中标签之间的依赖关系,利用CRF进行标签的预测,步骤5,模型训练,步骤6,模型推理。本发明在循环神经网络的基础上进一步引入多头自注意力机制来学习词的全局语义表示,并以此提升序列标注的效果。

Description

一种基于多头自注意力机制的序列标注方法
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种基于多头自注意力机制的序列标注方法。
背景技术
序列标注是自然语言处理任务中的一个重要研究课题,其目标是基于给定的文本序列预测对应的标签序列,主要包括命名实体识别(Named Entity Recognition,NER)、组块分析(Text Chunking)、词性标注(Part-Of-Speech,POS)和意见抽取(OpinionExtraction)等任务。
早期的序列标注方法大多基于规则,需要建立规则模板和大量的专家知识,耗费大量的人力物力,同时还不易扩展、移植到其它领域。比如王宁等人采用基于规则的方式,人工地建立了金融方面公司名称识别的知识库。Toral和Mu基于在线***分析自动构建和维护了一个gazetteers(人名、机构、地方和其它实体列表)来进行实体识别。齐振宁等人构建和定制了一个命名实体识别标注器,虽然具有领域适应性并取得了较好的实验结果,但其仍然是基于人工操作的,耗时严重。
由于基于规则方法的缺点,基于统计学习方法的机器学习模型逐渐被应用在序列标注,比如支持向量机(SVM),隐马尔可夫模型(HMM)、条件随机场(CRF)、最大熵模型(ME)等。例如,Mayfield等人利用SVM从训练数据中抓取数百个特征进行训练。Zhou和Su提出了一个基于HMM的命名实体识别***,可以应用和融合字的简单特征(比如大小写、数字等)。Mccallum和Li将CRFs应用在命名实体识别中,在多个数据集上取得了良好表现。刘艳超等人将ME模型应用到命名实体识别上,同时结合了句子内部的局部特征和全局特征相融合的方法。虽然基于统计学习模型的方法取得了较好的性能,但是仍然严重依赖人工特征,并且存在只能抓取局部特征的缺陷。
近年来,随着深度学习的快速发展,其较强的学习和自动提取特征能力在自然语言处理中大获成功。由此,深度学习也被广泛应用于序列标注的诸多任务中。例如,张苗苗等人将BLSTM-CRF框架模型应用到序列标注,因为BLSTM能够有效利用上下文特征,CRF能够建模句子级别的标签信息,所以取得了最有竞争力的表现。Chiu提出了一个新颖的模型BLSTM-CNN,通过CNN获取字符特征,与词嵌入相拼接送入BLSTM中,虽然效果很好,但是用到了词典或词汇特征。近期,注意力机制逐渐被应用于序列标注的诸多任务重。相比于LSTM或CNN在建模时的语义依赖,注意力机制不用在乎距离的长短。比如,Rei等人在BLSTM-CRF框架的基础上,结合了注意力机制学习权重系数,将两种特征加权求和后输入CRF进行标签预测。Luo等人证明了将注意力机制引入到BLSTM-CRF中,能够提升化学药物实体识别效果,在文档级别上可以提升标注一致性,在句子级别上可以丰富上下文信息。Tan等人提出使用深度注意力网络进行序列标注,采用了N层的深度模型,每一层包含一个非线性层和一个self-attention层,并将最高层的输出作为softmax层的输入。虽然现有的基于深度学习的方法取得了较好的性能,但仍然存在局部依赖性、位置信息获取不准确等缺陷。
总之,现有的序列标注方法大多基于LSTM-CRF框架进行构建,但是采用LSTM作为编码器来学习文本中词的上下文语义表示通常存在两个问题:第一,基于循环神经网络的序列标注模型通常具有局部依赖性,对于远距离的语义信息存在语义损失。并且当两个词间距离越长,这个问题则越明显。第二,基于循环神经网络的序列标注模型还受限于序列化的特征学习,进而无法灵活地建模文本中任意两个词之间的语义关系。
发明内容
本发明的目的是针对现有技术中序列标注方法中存在的局部依赖性与序列化编码的问题,而提供一种基于多头自注意力机制的序列标注方法,
为实现本发明的目的所采用的技术方案是:
一种基于多头自注意力机制的序列标注方法,包括按顺序执行的下列步骤:
步骤1,局部上下文语义编码,利用BLSTM序列化地学习文本中词的局部上下文语义表示:
步骤1.1,对输入的文本进行分词得到对应的词序列;
步骤1.2,对于所述词序列中的每个词,利用BLSTM结构编码每个词对应的字符级向量表示;
步骤1.3,对于所述词序列中的每个词,将步骤1.2中编码的所述字符级向量表示与词嵌入向量表示进行拼接,作为词初始语义表示;
步骤1.4,基于步骤1.3得到的词初始语义表示,使用BLSTM编码每个词的局部上下文语义表示;
步骤2,全局语义编码,基于步骤1编码的词的局部上下文语义表示,利用多头自注意力机制来编码词的全局语义表示:
步骤2.1,采用全连接层将步骤1编码的词的局部上下文语义表示映射到多个不同的特征子空间;
步骤2.2,在步骤2.1得到的不同的特征子空间下,利用自注意力机制编码词的语义表示;
步骤2.3,将步骤2.2计算的每个特征子空间下词的的语义表示进行拼接,并将拼接结果输入一个全连接层,得到每个词对应的全局语义表示;
步骤3,语义特征融合,构建以下三种特征融合方式,将步骤1编码的局部上下文语义表示和步骤2编码的全局语义表示进行融合,并将融合结果作为步骤4的输入语义特征:
步骤3.1,构建一维参数融合方法,实现局部上下文语义和全局语义的线性组合;
步骤3.2,借鉴LSTM中采用的门控机制,构建多维参数融合方法;
步骤3.3,构建自由权重的语义融合方法;
步骤4,序列标注,为了充分考虑序列标注任务中标签之间的依赖关系,利用CRF进行标签的预测:
步骤4.1,对步骤3得到的融合后的语义特征序列进行全连接变换,得到状态特征矩阵,表示每个词的语义和标签之间的关联;
步骤4.2,随机初始化一个转移特征矩阵,表示标签和标签之间的转移关系;
步骤4.3,基于步骤4.1得到的状态特征矩阵和步骤4.2得到的转移特征矩阵,计算任意一个可能的标签序列对应的分值和概率;
步骤5,模型训练:在模型训练过程中,采用最大化标准标签序列对应的概率来对步骤1到步骤4中的参数进行优化;
步骤6,模型推理:在实际应用过程中,采用维特比算法搜索最优的标签序列,进行模型推理。
在上述技术方案中,所述步骤1.1中,采用Stanford NLP工具包对输入的文本进行分词。
在上述技术方案中,所述步骤1.3中,词的初始语义表示
Figure BDA0002751772910000031
其中,
Figure BDA0002751772910000032
为所述字符级向量表示,
Figure BDA0002751772910000033
为所述词嵌入向量表示。
在上述技术方案中,所述步骤1.4中,基于步骤1.3得到的词初始语义表示序列E={e1,e2,…,eN},使用BLSTM编码文本中每个词xi的局部上下文语义表示hi
Figure BDA0002751772910000034
Figure BDA0002751772910000035
Figure BDA0002751772910000036
在上述技术方案中,所述步骤2.1中,将步骤1编码的词局部上下文语义表示序列H={h1,h2,…,hN}映射到M个不同的特征子空间,其中,第i个特征子空间的映射方式如下:
Figure BDA0002751772910000041
Figure BDA0002751772910000042
Figure BDA0002751772910000043
式中,
Figure BDA0002751772910000044
Figure BDA0002751772910000045
为模型参数;Q表示注意力机制中的查询,K表示关键词,V表示关键词对应的值。
在上述技术方案中,所述步骤2.2中,在步骤2.1得到的不同的特征子空间下,利用基于点积的自注意力机制来编码词的语义表示:
headi=Attention(Qi,Ki,Vi)
Figure BDA0002751772910000046
式中,dk表示子空间中特征的维度,T表示矩阵的转置操作。
在上述技术方案中,所述步骤2.3中,将步骤2.2计算的每个特征子空间下的语义表示headi进行拼接,并将拼接结果输入一个全连接层,得到每个词对应的全局语义表示序列Z:
Z=[head1;head2;…;headM]Wz式中,Wz为模型参数。
在上述技术方案中,所述步骤3中,一维参数融合后的语义表示:ui=(1-βi)·hii·zi
式中βi=sigmoid(Wβ[hi;zi]),hi为局部上下文语义表示,zi为全局语义表示,Wβ为模型参数;
多维参数融合后的语义表示:ui=(I-αi)⊙hii⊙zi
式中αi=sigmoid(Wα[hi;zi]),⊙表示元素相乘,I表示元素全为1的列向量,Wα为模型参数;
构建自由权重的语义融合的语义表示:ui=γi⊙hii⊙zi
式中γ和δ为两个可训练的参数。
在上述技术方案中,所述步骤4.1中,对步骤3得到的融合后的语义特征序列U={u1,u2,…,uN}进行全连接变换,得到状态特征矩阵P,表示每个词的语义和标签之间的关联:
P=UWp+bp
式中,Wp和bp为模型参数。
在上述技术方案中,所述步骤4.3中,基于步骤4.1得到的状态特征矩阵和步骤4.2得到的转移特征矩阵,计算任意一个可能的标签序列
Figure BDA0002751772910000051
对应的分值:
Figure BDA0002751772910000052
基于上述分值,计算标签序列对应的概率:
Figure BDA0002751772910000053
在模型训练过程中,最大化标准标签序列对应的概率P(Y|X),采用最小化如下负对数似然函数的方式对步骤1到步骤4中的参数进行优化:
Figure BDA0002751772910000054
所述步骤6中,采用维特比算法搜索最优的标签序列:
Figure BDA0002751772910000055
与现有技术相比,本发明的有益效果是:
1.本发明在循环神经网络的基础上进一步引入多头自注意力机制来学习词的全局语义表示,并以此提升序列标注的效果,有效缓解了利用循环神经网络进行编码所带来的局部依赖性和顺序编码的问题。
2.循环神经网络编码的局部上下文语义综合考虑了词的近距离语义以及词与词之间的语序关系,而多头自注意力机制编码的全局语义在建模语义是可以不受距离限制,弥补了循环神经中存在的远距离语义建模的缺陷,但缺少了对语序的建模。因此,局部语义和全局语义具有一定的互补性,本发明综合考虑两类语义,构建了三种语义特征的融合方法,将BLSTM学习到的局部语义特征与多头自注意力机制学习到的全局语义特征进行融合,达到优势互补的效果,并将融合结果作为输入语义特征,提升序列标注的效果。
附图说明
附图1是本发明的整体结构示意图。
附图2是基于多头自注意力机制的序列标注方法示意图。
具体实施方式
以下结合具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
本发明首先利用双向长短期记忆单元(BLSTM)学习文本中词的上下文语义特征。随后,基于BLSTM学习到的隐藏表示,采用多头自注意力机制建模文本中任意两个词之间的语义关系,进而得到每个词应关注的全局语义。为了充分考虑局部上下文语义和全局语义的互补性,本发明设计了三种特征融合方式将两部分语义进行融合,并基于融合后的特征,使用条件随机场模型(CRF)进行标签序列的预测。
实施例2
本发明主要采用深度学***台配备不低于8G的内存,CPU核心数不低于4个且主频不低2.6GHz、GPU环境、Linux操作***,并安装Python3.6及以上版本、pytorch0.4及以上版本等必备软件环境。
如图1所示,本发明提供的基于多头自注意力机制的序列标注方法主要包括按顺序执行的下列步骤:
步骤1,局部上下文语义编码:利用双向长短期记忆网络(BLSTM)序列化地学习文本中词的局部上下文语义表示。
步骤1.1)采用Stanford NLP工具包对输入的文本进行分词,得到对应的词序列。
步骤1.2)对于词序列中的每个词,利用双向LSTM(BLSTM)结构编码每个词对应的字符级向量表示。
步骤1.3)对于文本中的每个词,将步骤1.2)编码的字符级向量表示与词嵌入向量表示进行拼接,作为词的初始语义表示。
步骤1.4)使用BLSTM编码文本中每个词的局部上下文语义表示:输入步骤1.3)得到的词初始语义表示,输出每个词的局部上下文语义表示。
步骤2,全局语义编码:基于步骤1)编码的词的局部上下文语义表示,利用多头自注意力机制来编码词的全局语义表示。
步骤2.1)采用全连接层将步骤1编码的词的局部上下文语义表示映射到多个不同的特征子空间。
步骤2.2)在步骤2.1)得到的不同的特征子空间下,利用自注意力机制编码词的语义表示。
步骤2.3)将步骤2.2)计算的每个特征子空间下的语义表示进行拼接,并将拼接结果输入一个全连接层,得到每个词对应的全局语义表示。
步骤3,语义特征融合:构建以下三种特征融合方式,将步骤1)编码的局部语义表示和步骤2)编码的全局语义表示进行融合,并将融合结果作为步骤4的输入语义特征。
步骤3.1)构建一维参数融合方法,实现局部语义和全局语义的线性组合。
步骤3.2)借鉴LSTM中采用的门控机制,构建多维参数融合方法。
步骤3.3)构建自由权重的语义融合方法。
步骤4,序列标注:为了充分考虑序列标注任务中标签之间的依赖关系,本步骤利用CRF进行标签的预测。
步骤4.1)对步骤3,得到的融合后的语义特征序列进行全连接变换,得到状态特征矩阵,表示每个词的语义和标签之间的关联。
步骤4.2)随机初始化一个转移特征矩阵,表示标签和标签之间的转移关系。
步骤4.3)基于步骤4.1)得到的状态特征矩阵和步骤4.2)得到的转移特征矩阵,计算任意一个可能的标签序列对应的分值和概率。
步骤5,模型训练:在模型训练过程中,采用最大化标准标签序列对应的概率来对步骤1到步骤4中的参数进行优化。
步骤6,模型推理:在实际应用过程中,采用维特比算法搜索最优的标签序列,进行模型推理。
实施例3
基于多头自注意力机制的序列标注方法主要包括按顺序执行的下列步骤:
步骤1,局部上下文语义编码:利用双向长短期记忆网络(BLSTM)序列化地学习文本中词的局部上下文语义表示。
步骤1.1,采用Stanford NLP工具包对输入的文本进行分词,得到对应的词序列X={x1,x2,…,xN}。
例如,给定文本“我昨天在天津参加了一场马拉松比赛”,经过分词后可得到词序列{“我”,“昨天”,“在”,“天津”,“参加”,“了”,“一场”,“马拉松”,“比赛”}。
步骤1.2,考虑到文本中的词通常包含丰富的形态特征,比如前缀、后缀信息,因此本步骤对于词序列中的每个词
Figure BDA0002751772910000081
利用双向LSTM(BLSTM)结构编码每个词xi对应的字符级向量表示
Figure BDA0002751772910000082
其中,ci,j表示文本中第i个词的第j个字符。
例如:对于词序列中的第4个词“天津”,其第1个字符为“天”,第2个字符为“津”。通过BLSTM编码,可以得到“天津”的字符级向量表示
Figure BDA0002751772910000083
步骤1.3)对于文本中的每个词,首先利用查表法找到其在预定义词表中的索引,并利用该索引从预训练的词向量集合中寻找对应的向量表示,作为该词的词嵌入向量表示
Figure BDA0002751772910000084
随后,将步骤1.2)编码的字符级向量表示
Figure BDA0002751772910000085
与词对应的词嵌入向量表示
Figure BDA0002751772910000086
进行拼接,作为词的初始语义表示ei
Figure BDA0002751772910000087
例如,对于词序列中的第4个词“天津”,其对应的词嵌入向量表示为
Figure BDA0002751772910000088
通过将其字符级特征和词嵌入向量进行拼接,可以得到“天津”的初始语义表示e4=[0.04,-0.77,…,0.31;0.11,0.89,…,-0.25]。
步骤1.4)基于步骤1.3)得到的词初始语义表示序列E={e1,e2,…,eN},使用BLSTM编码文本中每个词xi的局部上下文语义表示hi
Figure BDA0002751772910000089
Figure BDA00027517729100000810
Figure BDA00027517729100000811
例如,当文本经过BLSTM编码后,词序列中的第4个词“天津”对应的局部上下文语义表示为h4=[0.02,0.11,…,0.76]。
步骤2)全局语义编码:基于步骤1)编码的词的局部上下文语义表示,利用多头自注意力机制来编码词的全局语义表示。
步骤2.1)为了利用自注意力机制学习更多样化的全局语义表示,本步骤采用全连接层将步骤1)编码的词的局部上下文语义表示序列H={h1,h2,…,hN}映射到M个不同的特征子空间。其中,第i个特征子空间的映射方式如下:
Figure BDA0002751772910000091
Figure BDA0002751772910000092
Figure BDA0002751772910000093
式中,
Figure BDA0002751772910000094
Figure BDA0002751772910000095
为模型参数;Q表示注意力机制中的查询,K表示关键词,V表示关键词对应的值。
例如,步骤1)编码后的上下文语义表示序列可为
Figure BDA0002751772910000096
经过全连接层变换,可得到第i个特征子空间中注意力机制所需的查询
Figure BDA0002751772910000097
关键词
Figure BDA0002751772910000098
和值
Figure BDA0002751772910000099
步骤2.2)在步骤2.1)得到的不同的特征子空间下,利用基于点积的自注意力机制来编码词的语义表示:
headi=Attention(Qi,Ki,Vi) (8)
Figure BDA00027517729100000910
式中,dk表示子空间中特征的维度,T表示矩阵的转置操作。
例如,第i个特征子空间中,通过注意力机制编码的语义表示可为
Figure BDA00027517729100000911
步骤2.3)将步骤2.2)计算的每个特征子空间下的语义表示headi进行拼接,并将拼接结果输入一个全连接层,得到每个词对应的全局语义表示序列Z。
Z=[head1;head2;…;headM]Wz (10)
式中,Wz为模型参数。
例如,经过拼接与全连接层,可得到全局语义表示序列
Figure BDA00027517729100000912
步骤3)语义特征融合:注意力机制虽然在建模语义或句法依赖时不受距离限制,能够弥补BLSTM远距离语义建模的缺陷,但注意力机制是一种无序的计算机制,在建模过程中可能会损失序列上的前后关系。因此,本步骤构建了三种特征融合的方式将步骤2)BLSTM学习到的局部语义特征H与步骤3)多头自注意力机制学习到的全局语义特征Z进行融合,达到优势互补的效果,并将融合结果U作为步骤4)的输入语义特征。
步骤3.1)一维参数融合方法:对于文本中的第i个词,首先将其对应的局部上下文语义表示hi和全局语义表示zi进行拼接,随后利用全连接层将其映射到一维空间,并利用sigmoid作为激活函数,得到融合权重βi
βi=sigmoid(Wβ[hi;zi]) (11)
一维参数融合后的语义表示:ui=(1-βi)·hii·zi (12)
式中,Wβ为模型参数。
例如,词序列中的第4个词“天津”对应的局部上下文语义表示为h4=[0.02,0.11,…,0.76],全局语义表示为z4=[0.14,0.09,…,-0.26]。经过计算,得到β4=0.4,则融合后的语义表示u4=[0.07,0.10,…,0.35]。
步骤3.2)多维参数融合方法:本方法借鉴LSTM中的门控机制,对于文本中的第i个词,首先将其对应的局部语义表示hi和全局语义表示zi进行拼接,随后利用全连接层将其映射到与语义表示相同维度的权重空间,并采用sigmoid作为激活函数,得到融合权重向量αi
αi=sigmoid(Wα[hi;zi]) (13)
式中,Wα为模型参数。随后,采用对应元素相乘的方法,对局部语义和全局语义进行融合:
多维参数融合后的语义表示:ui=(I-αi)⊙hii⊙zi (14)
式中,⊙表示元素相乘,I表示元素全为1的列向量。
例如,词序列中的第4个词“天津”对应的局部上下文语义表示为h4=[0.02,0.11,…,0.76],全局语义表示为z4=[0.14,0.09,…,-0.26]。经过计算,得到α4=[0.31,0.1,…,0.4],则融合后的语义表示u4=[0.06,0.11,…,0.35]。
步骤3.3)构建自由权重的语义融合方法,具体地,本步骤随机初始化两个可训练的参数γ和δ,并利用两个参数进行语义特征融合:
ui=γi⊙hii⊙zi (15)
例如,词序列中的第4个词“天津”对应的局部上下文语义表示为h4=[0.02,0.11,…,0.76],全局语义表示为z4=[0.14,0.09,…,-0.26]。经过模型优化,γ4=[0.19,0.52,…,-0.11],δi=[-0.22,0.98,…,0.17],则融合后的语义表示u4=[-0.03,0.15,…,0.13]。
步骤4)序列标注:为了充分考虑序列标注任务中标签之间的依赖关系,本步骤利用CRF进行标签的预测。
步骤4.1)对步骤3)得到的融合后的语义特征序列U={u1,u2,…,uN}:(在实际应用中,从步骤3)中选择一种方式对特征进行融合,并将融合结果作为步骤4)的输入)进行全连接变换,得到状态特征矩阵P,表示每个词的语义和标签之间的关联
P=UWp+bp (16)
式中,Wp和bp为模型参数。
例如,对于词序列中的第4个词“天津”,其状态特征可为p4=[0.01,0.91,…,0.00]。
步骤4.2)随机初始化一个转移特征矩阵A,表示标签和标签之间的转移关系,该矩阵在模型训练过程中通过损失反向传播进行优化。
例如,转移特征矩阵可为
Figure BDA0002751772910000111
步骤4.3)基于步骤4.1)得到的状态特征矩阵和步骤4.2)得到的转移特征矩阵,计算任意一个可能的标签序列
Figure BDA0002751772910000112
对应的分值:
Figure BDA0002751772910000113
基于上述分值,计算标签序列对应的概率:
Figure BDA0002751772910000114
例如,对于命名实体识别任务,词序列{“我”,“昨天”,“在”,“天津”,“参加”,“了”,“一场”,“马拉松”,“比赛”}对应标签序列
Figure BDA0002751772910000121
对应的概率为0.9。
步骤5)模型训练:在模型训练过程中,本发明最大化标准标签序列对应的概率P(Y|X)。因此,本发明采用最小化如下负对数似然函数的方式对步骤1)到步骤4)中的参数进行优化:
Figure BDA0002751772910000122
步骤6)模型推理:在实际应用过程中,本发明采用维特比算法搜索最优的标签序列:
Figure BDA0002751772910000123
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于多头自注意力机制的序列标注方法,其特征在于,包括按顺序执行的下列步骤:
步骤1,局部上下文语义编码,利用BLSTM序列化地学习文本中词的局部上下文语义表示:
步骤1.1,对输入的文本进行分词得到对应的词序列;
步骤1.2,对于所述词序列中的每个词,利用BLSTM结构编码每个词对应的字符级向量表示;
步骤1.3,对于所述词序列中的每个词,将步骤1.2中编码的所述字符级向量表示与词嵌入向量表示进行拼接,作为词初始语义表示;
步骤1.4,基于步骤1.3得到的词初始语义表示,使用BLSTM编码每个词的局部上下文语义表示;
步骤2,全局语义编码,基于步骤1编码的词的局部上下文语义表示,利用多头自注意力机制来编码词的全局语义表示:
步骤2.1,采用全连接层将步骤1编码的词的局部上下文语义表示映射到多个不同的特征子空间;
步骤2.2,在步骤2.1得到的不同的特征子空间下,利用自注意力机制编码词的语义表示;
步骤2.3,将步骤2.2计算的每个特征子空间下词的的语义表示进行拼接,并将拼接结果输入一个全连接层,得到每个词对应的全局语义表示;
步骤3,语义特征融合,构建以下三种特征融合方式,将步骤1编码的局部上下文语义表示和步骤2编码的全局语义表示进行融合,并将融合结果作为步骤4的输入语义特征:
步骤3.1,构建一维参数融合方法,实现局部上下文语义和全局语义的线性组合;
步骤3.2,借鉴LSTM中采用的门控机制,构建多维参数融合方法;
步骤3.3,构建自由权重的语义融合方法;
步骤4,序列标注,为了充分考虑序列标注任务中标签之间的依赖关系,利用CRF进行标签的预测:
步骤4.1,对步骤3得到的融合后的语义特征序列进行全连接变换,得到状态特征矩阵,表示每个词的语义和标签之间的关联;
步骤4.2,随机初始化一个转移特征矩阵,表示标签和标签之间的转移关系;
步骤4.3,基于步骤4.1得到的状态特征矩阵和步骤4.2得到的转移特征矩阵,计算任意一个可能的标签序列对应的分值和概率;
步骤5,模型训练:在模型训练过程中,采用最大化标准标签序列对应的概率来对步骤1到步骤4中的参数进行优化;
步骤6,模型推理:在实际应用过程中,采用维特比算法搜索最优的标签序列,进行模型推理。
2.如权利要求1所述的一种基于多头自注意力机制的序列标注方法,其特征在于,所述步骤1.1中,采用Stanford NLP工具包对输入的文本进行分词。
3.如权利要求1所述的一种基于多头自注意力机制的序列标注方法,其特征在于,所述步骤1.3中,词的初始语义表示
Figure FDA0002751772900000021
其中,
Figure FDA0002751772900000022
为所述字符级向量表示,
Figure FDA0002751772900000023
为所述词嵌入向量表示。
4.如权利要求1所述的一种基于多头自注意力机制的序列标注方法,其特征在于,所述步骤1.4中,基于步骤1.3得到的词初始语义表示序列E={e1,e2,...,eN},使用BLSTM编码文本中每个词xi的局部上下文语义表示hi
Figure FDA0002751772900000024
Figure FDA0002751772900000025
Figure FDA0002751772900000026
5.如权利要求1所述的一种基于多头自注意力机制的序列标注方法,其特征在于,所述步骤2.1中,将步骤1编码的词局部上下文语义表示序列H={h1,h2,...,hN}映射到M个不同的特征子空间,其中,第i个特征子空间的映射方式如下:
Figure FDA0002751772900000027
Figure FDA0002751772900000028
Figure FDA0002751772900000029
式中,
Figure FDA00027517729000000210
Figure FDA00027517729000000211
为模型参数;Q表示注意力机制中的查询,K表示关键词,V表示关键词对应的值。
6.如权利要求1所述的一种基于多头自注意力机制的序列标注方法,其特征在于,所述步骤2.2中,在步骤2.1得到的不同的特征子空间下,利用基于点积的自注意力机制来编码词的语义表示:
headi=Attention(Qi,Ki,Vi)
Figure FDA0002751772900000031
式中,dk表示子空间中特征的维度,T表示矩阵的转置操作。
7.如权利要求1所述的一种基于多头自注意力机制的序列标注方法,其特征在于,所述步骤2.3中,将步骤2.2计算的每个特征子空间下的语义表示headi进行拼接,并将拼接结果输入一个全连接层,得到每个词对应的全局语义表示序列Z:
Z=[head1;head2;...;headM]Wz式中,Wz为模型参数。
8.如权利要求1所述的一种基于多头自注意力机制的序列标注方法,其特征在于,所述步骤3中,一维参数融合后的语义表示:ui=(1-βi)·hii·zi
式中βi=sigmoid(Wβ[hi;zi]),hi为局部上下文语义表示,zi为全局语义表示,Wβ为模型参数;
多维参数融合后的语义表示:ui=(I-αi)⊙hii⊙zi
式中αi=sigmoid(Wα[hi;zi]),⊙表示元素相乘,I表示元素全为1的列向量,Wα为模型参数;
构建自由权重的语义融合的语义表示:ui=γi⊙hii⊙zi
式中γ和δ为两个可训练的参数。
9.如权利要求1所述的一种基于多头自注意力机制的序列标注方法,其特征在于,所述步骤4.1中,对步骤3得到的融合后的语义特征序列U={u1,u2,...,uN}进行全连接变换,得到状态特征矩阵P,表示每个词的语义和标签之间的关联:
P=UWp+bp
式中,Wp和bp为模型参数。
10.如权利要求1所述的一种基于多头自注意力机制的序列标注方法,其特征在于,所述步骤4.3中,基于步骤4.1得到的状态特征矩阵和步骤4.2得到的转移特征矩阵,计算任意一个可能的标签序列
Figure FDA0002751772900000032
对应的分值:
Figure FDA0002751772900000033
基于上述分值,计算标签序列对应的概率:
Figure FDA0002751772900000041
在模型训练过程中,最大化标准标签序列对应的概率P(Y|X),采用最小化如下负对数似然函数的方式对步骤1到步骤4中的参数进行优化:
Figure FDA0002751772900000042
所述步骤6中,采用维特比算法搜索最优的标签序列:
Figure FDA0002751772900000043
CN202011187198.0A 2020-10-29 2020-10-29 一种基于多头自注意力机制的序列标注方法 Pending CN112380863A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011187198.0A CN112380863A (zh) 2020-10-29 2020-10-29 一种基于多头自注意力机制的序列标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011187198.0A CN112380863A (zh) 2020-10-29 2020-10-29 一种基于多头自注意力机制的序列标注方法

Publications (1)

Publication Number Publication Date
CN112380863A true CN112380863A (zh) 2021-02-19

Family

ID=74576393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011187198.0A Pending CN112380863A (zh) 2020-10-29 2020-10-29 一种基于多头自注意力机制的序列标注方法

Country Status (1)

Country Link
CN (1) CN112380863A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967112A (zh) * 2021-03-24 2021-06-15 武汉大学 一种自注意力机制和图神经网络的电商推荐方法
CN112990434A (zh) * 2021-03-09 2021-06-18 平安科技(深圳)有限公司 机器翻译模型的训练方法及相关装置
CN113010685A (zh) * 2021-02-23 2021-06-22 安徽科大讯飞医疗信息技术有限公司 医学术语标准化方法、电子设备和存储介质
CN113158051A (zh) * 2021-04-23 2021-07-23 山东大学 一种基于信息传播和多层上下文信息建模的标签排序方法
CN113240098A (zh) * 2021-06-16 2021-08-10 湖北工业大学 基于混合门控神经网络的故障预测方法、装置和存储介质
CN113378243A (zh) * 2021-07-14 2021-09-10 南京信息工程大学 一种基于多头注意力机制的个性化联邦学习方法
CN114462406A (zh) * 2022-03-01 2022-05-10 中国航空综合技术研究所 基于多头自注意力模型获取首次出现的航空关键词方法
CN115796173A (zh) * 2023-02-20 2023-03-14 杭银消费金融股份有限公司 针对监管报送需求的数据处理方法和***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697285A (zh) * 2018-12-13 2019-04-30 中南大学 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN110457480A (zh) * 2019-08-16 2019-11-15 国网天津市电力公司 基于交互式注意力机制的细粒度情感分类模型的构建方法
CN111274398A (zh) * 2020-01-20 2020-06-12 福州大学 一种方面级用户产品评论情感分析方法及***
CN111767409A (zh) * 2020-06-14 2020-10-13 南开大学 一种基于多头自注意力机制的实体关系抽取方法
CN111783394A (zh) * 2020-08-11 2020-10-16 深圳市北科瑞声科技股份有限公司 事件抽取模型的训练方法、事件抽取方法和***及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697285A (zh) * 2018-12-13 2019-04-30 中南大学 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN110457480A (zh) * 2019-08-16 2019-11-15 国网天津市电力公司 基于交互式注意力机制的细粒度情感分类模型的构建方法
CN111274398A (zh) * 2020-01-20 2020-06-12 福州大学 一种方面级用户产品评论情感分析方法及***
CN111767409A (zh) * 2020-06-14 2020-10-13 南开大学 一种基于多头自注意力机制的实体关系抽取方法
CN111783394A (zh) * 2020-08-11 2020-10-16 深圳市北科瑞声科技股份有限公司 事件抽取模型的训练方法、事件抽取方法和***及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张志昌等: "融合局部语义和全局结构信息的健康问句分类", 《西安电子科技大学学报》 *
王旭强等: "基于注意力机制的特征融合序列标注模型", 《HTTPS://KNS.CNKI.NET/KCMS/DETAIL/37.1357.N.20200619.1603.002.HTML》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010685B (zh) * 2021-02-23 2022-12-06 安徽讯飞医疗股份有限公司 医学术语标准化方法、电子设备和存储介质
CN113010685A (zh) * 2021-02-23 2021-06-22 安徽科大讯飞医疗信息技术有限公司 医学术语标准化方法、电子设备和存储介质
CN112990434A (zh) * 2021-03-09 2021-06-18 平安科技(深圳)有限公司 机器翻译模型的训练方法及相关装置
CN112990434B (zh) * 2021-03-09 2023-06-20 平安科技(深圳)有限公司 机器翻译模型的训练方法及相关装置
CN112967112B (zh) * 2021-03-24 2022-04-29 武汉大学 一种自注意力机制和图神经网络的电商推荐方法
CN112967112A (zh) * 2021-03-24 2021-06-15 武汉大学 一种自注意力机制和图神经网络的电商推荐方法
CN113158051B (zh) * 2021-04-23 2022-11-18 山东大学 一种基于信息传播和多层上下文信息建模的标签排序方法
CN113158051A (zh) * 2021-04-23 2021-07-23 山东大学 一种基于信息传播和多层上下文信息建模的标签排序方法
CN113240098A (zh) * 2021-06-16 2021-08-10 湖北工业大学 基于混合门控神经网络的故障预测方法、装置和存储介质
CN113378243A (zh) * 2021-07-14 2021-09-10 南京信息工程大学 一种基于多头注意力机制的个性化联邦学习方法
CN113378243B (zh) * 2021-07-14 2023-09-29 南京信息工程大学 一种基于多头注意力机制的个性化联邦学习方法
CN114462406A (zh) * 2022-03-01 2022-05-10 中国航空综合技术研究所 基于多头自注意力模型获取首次出现的航空关键词方法
CN115796173A (zh) * 2023-02-20 2023-03-14 杭银消费金融股份有限公司 针对监管报送需求的数据处理方法和***

Similar Documents

Publication Publication Date Title
CN112380863A (zh) 一种基于多头自注意力机制的序列标注方法
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
Yao et al. Bi-directional LSTM recurrent neural network for Chinese word segmentation
CN111666427B (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN111767409B (zh) 一种基于多头自注意力机制的实体关系抽取方法
CN111401084B (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN112541356B (zh) 一种生物医学命名实体识别的方法和***
CN114298053B (zh) 一种基于特征和注意力机制融合的事件联合抽取***
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
CN111881256B (zh) 文本实体关系抽取方法、装置及计算机可读存储介质设备
CN113987169A (zh) 基于语义块的文本摘要生成方法、装置、设备及存储介质
CN111368542A (zh) 一种基于递归神经网络的文本语言关联抽取方法和***
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN112163089A (zh) 一种融合命名实体识别的军事高技术文本分类方法及***
CN116932722A (zh) 一种基于跨模态数据融合的医学视觉问答方法及***
Xu et al. Match-prompt: Improving multi-task generalization ability for neural text matching via prompt learning
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN113076718B (zh) 一种商品属性抽取方法及其***
CN115019142A (zh) 基于融合特征的图像标题生成方法、***、电子设备
CN116680575B (zh) 模型处理方法、装置、设备及存储介质
CN113254586A (zh) 一种基于深度学习的无监督文本检索方法
CN112633007A (zh) 一种语义理解模型构建方法及装置、语义理解方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210219

RJ01 Rejection of invention patent application after publication