CN112380863A - 一种基于多头自注意力机制的序列标注方法 - Google Patents
一种基于多头自注意力机制的序列标注方法 Download PDFInfo
- Publication number
- CN112380863A CN112380863A CN202011187198.0A CN202011187198A CN112380863A CN 112380863 A CN112380863 A CN 112380863A CN 202011187198 A CN202011187198 A CN 202011187198A CN 112380863 A CN112380863 A CN 112380863A
- Authority
- CN
- China
- Prior art keywords
- word
- sequence
- semantic
- semantic representation
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多头自注意力机制的序列标注方法,包括以下步骤:步骤1,局部上下文语义编码,利用BLSTM序列化地学习文本中词的局部上下文语义表示,步骤2,全局语义编码,基于步骤1编码的词的局部上下文语义表示,利用多头自注意力机制来编码词的全局语义表示;步骤3,语义特征融合,将步骤1编码的局部上下文语义表示和步骤2编码的全局语义表示进行融合,并将融合结果作为步骤4的输入语义特征,步骤4,序列标注,为了充分考虑序列标注任务中标签之间的依赖关系,利用CRF进行标签的预测,步骤5,模型训练,步骤6,模型推理。本发明在循环神经网络的基础上进一步引入多头自注意力机制来学习词的全局语义表示,并以此提升序列标注的效果。
Description
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种基于多头自注意力机制的序列标注方法。
背景技术
序列标注是自然语言处理任务中的一个重要研究课题,其目标是基于给定的文本序列预测对应的标签序列,主要包括命名实体识别(Named Entity Recognition,NER)、组块分析(Text Chunking)、词性标注(Part-Of-Speech,POS)和意见抽取(OpinionExtraction)等任务。
早期的序列标注方法大多基于规则,需要建立规则模板和大量的专家知识,耗费大量的人力物力,同时还不易扩展、移植到其它领域。比如王宁等人采用基于规则的方式,人工地建立了金融方面公司名称识别的知识库。Toral和Mu基于在线***分析自动构建和维护了一个gazetteers(人名、机构、地方和其它实体列表)来进行实体识别。齐振宁等人构建和定制了一个命名实体识别标注器,虽然具有领域适应性并取得了较好的实验结果,但其仍然是基于人工操作的,耗时严重。
由于基于规则方法的缺点,基于统计学习方法的机器学习模型逐渐被应用在序列标注,比如支持向量机(SVM),隐马尔可夫模型(HMM)、条件随机场(CRF)、最大熵模型(ME)等。例如,Mayfield等人利用SVM从训练数据中抓取数百个特征进行训练。Zhou和Su提出了一个基于HMM的命名实体识别***,可以应用和融合字的简单特征(比如大小写、数字等)。Mccallum和Li将CRFs应用在命名实体识别中,在多个数据集上取得了良好表现。刘艳超等人将ME模型应用到命名实体识别上,同时结合了句子内部的局部特征和全局特征相融合的方法。虽然基于统计学习模型的方法取得了较好的性能,但是仍然严重依赖人工特征,并且存在只能抓取局部特征的缺陷。
近年来,随着深度学习的快速发展,其较强的学习和自动提取特征能力在自然语言处理中大获成功。由此,深度学习也被广泛应用于序列标注的诸多任务中。例如,张苗苗等人将BLSTM-CRF框架模型应用到序列标注,因为BLSTM能够有效利用上下文特征,CRF能够建模句子级别的标签信息,所以取得了最有竞争力的表现。Chiu提出了一个新颖的模型BLSTM-CNN,通过CNN获取字符特征,与词嵌入相拼接送入BLSTM中,虽然效果很好,但是用到了词典或词汇特征。近期,注意力机制逐渐被应用于序列标注的诸多任务重。相比于LSTM或CNN在建模时的语义依赖,注意力机制不用在乎距离的长短。比如,Rei等人在BLSTM-CRF框架的基础上,结合了注意力机制学习权重系数,将两种特征加权求和后输入CRF进行标签预测。Luo等人证明了将注意力机制引入到BLSTM-CRF中,能够提升化学药物实体识别效果,在文档级别上可以提升标注一致性,在句子级别上可以丰富上下文信息。Tan等人提出使用深度注意力网络进行序列标注,采用了N层的深度模型,每一层包含一个非线性层和一个self-attention层,并将最高层的输出作为softmax层的输入。虽然现有的基于深度学习的方法取得了较好的性能,但仍然存在局部依赖性、位置信息获取不准确等缺陷。
总之,现有的序列标注方法大多基于LSTM-CRF框架进行构建,但是采用LSTM作为编码器来学习文本中词的上下文语义表示通常存在两个问题:第一,基于循环神经网络的序列标注模型通常具有局部依赖性,对于远距离的语义信息存在语义损失。并且当两个词间距离越长,这个问题则越明显。第二,基于循环神经网络的序列标注模型还受限于序列化的特征学习,进而无法灵活地建模文本中任意两个词之间的语义关系。
发明内容
本发明的目的是针对现有技术中序列标注方法中存在的局部依赖性与序列化编码的问题,而提供一种基于多头自注意力机制的序列标注方法,
为实现本发明的目的所采用的技术方案是:
一种基于多头自注意力机制的序列标注方法,包括按顺序执行的下列步骤:
步骤1,局部上下文语义编码,利用BLSTM序列化地学习文本中词的局部上下文语义表示:
步骤1.1,对输入的文本进行分词得到对应的词序列;
步骤1.2,对于所述词序列中的每个词,利用BLSTM结构编码每个词对应的字符级向量表示;
步骤1.3,对于所述词序列中的每个词,将步骤1.2中编码的所述字符级向量表示与词嵌入向量表示进行拼接,作为词初始语义表示;
步骤1.4,基于步骤1.3得到的词初始语义表示,使用BLSTM编码每个词的局部上下文语义表示;
步骤2,全局语义编码,基于步骤1编码的词的局部上下文语义表示,利用多头自注意力机制来编码词的全局语义表示:
步骤2.1,采用全连接层将步骤1编码的词的局部上下文语义表示映射到多个不同的特征子空间;
步骤2.2,在步骤2.1得到的不同的特征子空间下,利用自注意力机制编码词的语义表示;
步骤2.3,将步骤2.2计算的每个特征子空间下词的的语义表示进行拼接,并将拼接结果输入一个全连接层,得到每个词对应的全局语义表示;
步骤3,语义特征融合,构建以下三种特征融合方式,将步骤1编码的局部上下文语义表示和步骤2编码的全局语义表示进行融合,并将融合结果作为步骤4的输入语义特征:
步骤3.1,构建一维参数融合方法,实现局部上下文语义和全局语义的线性组合;
步骤3.2,借鉴LSTM中采用的门控机制,构建多维参数融合方法;
步骤3.3,构建自由权重的语义融合方法;
步骤4,序列标注,为了充分考虑序列标注任务中标签之间的依赖关系,利用CRF进行标签的预测:
步骤4.1,对步骤3得到的融合后的语义特征序列进行全连接变换,得到状态特征矩阵,表示每个词的语义和标签之间的关联;
步骤4.2,随机初始化一个转移特征矩阵,表示标签和标签之间的转移关系;
步骤4.3,基于步骤4.1得到的状态特征矩阵和步骤4.2得到的转移特征矩阵,计算任意一个可能的标签序列对应的分值和概率;
步骤5,模型训练:在模型训练过程中,采用最大化标准标签序列对应的概率来对步骤1到步骤4中的参数进行优化;
步骤6,模型推理:在实际应用过程中,采用维特比算法搜索最优的标签序列,进行模型推理。
在上述技术方案中,所述步骤1.1中,采用Stanford NLP工具包对输入的文本进行分词。
在上述技术方案中,所述步骤1.4中,基于步骤1.3得到的词初始语义表示序列E={e1,e2,…,eN},使用BLSTM编码文本中每个词xi的局部上下文语义表示hi:
在上述技术方案中,所述步骤2.1中,将步骤1编码的词局部上下文语义表示序列H={h1,h2,…,hN}映射到M个不同的特征子空间,其中,第i个特征子空间的映射方式如下:
在上述技术方案中,所述步骤2.2中,在步骤2.1得到的不同的特征子空间下,利用基于点积的自注意力机制来编码词的语义表示:
headi=Attention(Qi,Ki,Vi)
式中,dk表示子空间中特征的维度,T表示矩阵的转置操作。
在上述技术方案中,所述步骤2.3中,将步骤2.2计算的每个特征子空间下的语义表示headi进行拼接,并将拼接结果输入一个全连接层,得到每个词对应的全局语义表示序列Z:
Z=[head1;head2;…;headM]Wz式中,Wz为模型参数。
在上述技术方案中,所述步骤3中,一维参数融合后的语义表示:ui=(1-βi)·hi+βi·zi,
式中βi=sigmoid(Wβ[hi;zi]),hi为局部上下文语义表示,zi为全局语义表示,Wβ为模型参数;
多维参数融合后的语义表示:ui=(I-αi)⊙hi+αi⊙zi,
式中αi=sigmoid(Wα[hi;zi]),⊙表示元素相乘,I表示元素全为1的列向量,Wα为模型参数;
构建自由权重的语义融合的语义表示:ui=γi⊙hi+δi⊙zi,
式中γ和δ为两个可训练的参数。
在上述技术方案中,所述步骤4.1中,对步骤3得到的融合后的语义特征序列U={u1,u2,…,uN}进行全连接变换,得到状态特征矩阵P,表示每个词的语义和标签之间的关联:
P=UWp+bp
式中,Wp和bp为模型参数。
基于上述分值,计算标签序列对应的概率:
在模型训练过程中,最大化标准标签序列对应的概率P(Y|X),采用最小化如下负对数似然函数的方式对步骤1到步骤4中的参数进行优化:
所述步骤6中,采用维特比算法搜索最优的标签序列:
与现有技术相比,本发明的有益效果是:
1.本发明在循环神经网络的基础上进一步引入多头自注意力机制来学习词的全局语义表示,并以此提升序列标注的效果,有效缓解了利用循环神经网络进行编码所带来的局部依赖性和顺序编码的问题。
2.循环神经网络编码的局部上下文语义综合考虑了词的近距离语义以及词与词之间的语序关系,而多头自注意力机制编码的全局语义在建模语义是可以不受距离限制,弥补了循环神经中存在的远距离语义建模的缺陷,但缺少了对语序的建模。因此,局部语义和全局语义具有一定的互补性,本发明综合考虑两类语义,构建了三种语义特征的融合方法,将BLSTM学习到的局部语义特征与多头自注意力机制学习到的全局语义特征进行融合,达到优势互补的效果,并将融合结果作为输入语义特征,提升序列标注的效果。
附图说明
附图1是本发明的整体结构示意图。
附图2是基于多头自注意力机制的序列标注方法示意图。
具体实施方式
以下结合具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
本发明首先利用双向长短期记忆单元(BLSTM)学习文本中词的上下文语义特征。随后,基于BLSTM学习到的隐藏表示,采用多头自注意力机制建模文本中任意两个词之间的语义关系,进而得到每个词应关注的全局语义。为了充分考虑局部上下文语义和全局语义的互补性,本发明设计了三种特征融合方式将两部分语义进行融合,并基于融合后的特征,使用条件随机场模型(CRF)进行标签序列的预测。
实施例2
本发明主要采用深度学***台配备不低于8G的内存,CPU核心数不低于4个且主频不低2.6GHz、GPU环境、Linux操作***,并安装Python3.6及以上版本、pytorch0.4及以上版本等必备软件环境。
如图1所示,本发明提供的基于多头自注意力机制的序列标注方法主要包括按顺序执行的下列步骤:
步骤1,局部上下文语义编码:利用双向长短期记忆网络(BLSTM)序列化地学习文本中词的局部上下文语义表示。
步骤1.1)采用Stanford NLP工具包对输入的文本进行分词,得到对应的词序列。
步骤1.2)对于词序列中的每个词,利用双向LSTM(BLSTM)结构编码每个词对应的字符级向量表示。
步骤1.3)对于文本中的每个词,将步骤1.2)编码的字符级向量表示与词嵌入向量表示进行拼接,作为词的初始语义表示。
步骤1.4)使用BLSTM编码文本中每个词的局部上下文语义表示:输入步骤1.3)得到的词初始语义表示,输出每个词的局部上下文语义表示。
步骤2,全局语义编码:基于步骤1)编码的词的局部上下文语义表示,利用多头自注意力机制来编码词的全局语义表示。
步骤2.1)采用全连接层将步骤1编码的词的局部上下文语义表示映射到多个不同的特征子空间。
步骤2.2)在步骤2.1)得到的不同的特征子空间下,利用自注意力机制编码词的语义表示。
步骤2.3)将步骤2.2)计算的每个特征子空间下的语义表示进行拼接,并将拼接结果输入一个全连接层,得到每个词对应的全局语义表示。
步骤3,语义特征融合:构建以下三种特征融合方式,将步骤1)编码的局部语义表示和步骤2)编码的全局语义表示进行融合,并将融合结果作为步骤4的输入语义特征。
步骤3.1)构建一维参数融合方法,实现局部语义和全局语义的线性组合。
步骤3.2)借鉴LSTM中采用的门控机制,构建多维参数融合方法。
步骤3.3)构建自由权重的语义融合方法。
步骤4,序列标注:为了充分考虑序列标注任务中标签之间的依赖关系,本步骤利用CRF进行标签的预测。
步骤4.1)对步骤3,得到的融合后的语义特征序列进行全连接变换,得到状态特征矩阵,表示每个词的语义和标签之间的关联。
步骤4.2)随机初始化一个转移特征矩阵,表示标签和标签之间的转移关系。
步骤4.3)基于步骤4.1)得到的状态特征矩阵和步骤4.2)得到的转移特征矩阵,计算任意一个可能的标签序列对应的分值和概率。
步骤5,模型训练:在模型训练过程中,采用最大化标准标签序列对应的概率来对步骤1到步骤4中的参数进行优化。
步骤6,模型推理:在实际应用过程中,采用维特比算法搜索最优的标签序列,进行模型推理。
实施例3
基于多头自注意力机制的序列标注方法主要包括按顺序执行的下列步骤:
步骤1,局部上下文语义编码:利用双向长短期记忆网络(BLSTM)序列化地学习文本中词的局部上下文语义表示。
步骤1.1,采用Stanford NLP工具包对输入的文本进行分词,得到对应的词序列X={x1,x2,…,xN}。
例如,给定文本“我昨天在天津参加了一场马拉松比赛”,经过分词后可得到词序列{“我”,“昨天”,“在”,“天津”,“参加”,“了”,“一场”,“马拉松”,“比赛”}。
步骤1.2,考虑到文本中的词通常包含丰富的形态特征,比如前缀、后缀信息,因此本步骤对于词序列中的每个词利用双向LSTM(BLSTM)结构编码每个词xi对应的字符级向量表示其中,ci,j表示文本中第i个词的第j个字符。
步骤1.3)对于文本中的每个词,首先利用查表法找到其在预定义词表中的索引,并利用该索引从预训练的词向量集合中寻找对应的向量表示,作为该词的词嵌入向量表示随后,将步骤1.2)编码的字符级向量表示与词对应的词嵌入向量表示进行拼接,作为词的初始语义表示ei:
例如,对于词序列中的第4个词“天津”,其对应的词嵌入向量表示为通过将其字符级特征和词嵌入向量进行拼接,可以得到“天津”的初始语义表示e4=[0.04,-0.77,…,0.31;0.11,0.89,…,-0.25]。
步骤1.4)基于步骤1.3)得到的词初始语义表示序列E={e1,e2,…,eN},使用BLSTM编码文本中每个词xi的局部上下文语义表示hi:
例如,当文本经过BLSTM编码后,词序列中的第4个词“天津”对应的局部上下文语义表示为h4=[0.02,0.11,…,0.76]。
步骤2)全局语义编码:基于步骤1)编码的词的局部上下文语义表示,利用多头自注意力机制来编码词的全局语义表示。
步骤2.1)为了利用自注意力机制学习更多样化的全局语义表示,本步骤采用全连接层将步骤1)编码的词的局部上下文语义表示序列H={h1,h2,…,hN}映射到M个不同的特征子空间。其中,第i个特征子空间的映射方式如下:
步骤2.2)在步骤2.1)得到的不同的特征子空间下,利用基于点积的自注意力机制来编码词的语义表示:
headi=Attention(Qi,Ki,Vi) (8)
式中,dk表示子空间中特征的维度,T表示矩阵的转置操作。
步骤2.3)将步骤2.2)计算的每个特征子空间下的语义表示headi进行拼接,并将拼接结果输入一个全连接层,得到每个词对应的全局语义表示序列Z。
Z=[head1;head2;…;headM]Wz (10)
式中,Wz为模型参数。
步骤3)语义特征融合:注意力机制虽然在建模语义或句法依赖时不受距离限制,能够弥补BLSTM远距离语义建模的缺陷,但注意力机制是一种无序的计算机制,在建模过程中可能会损失序列上的前后关系。因此,本步骤构建了三种特征融合的方式将步骤2)BLSTM学习到的局部语义特征H与步骤3)多头自注意力机制学习到的全局语义特征Z进行融合,达到优势互补的效果,并将融合结果U作为步骤4)的输入语义特征。
步骤3.1)一维参数融合方法:对于文本中的第i个词,首先将其对应的局部上下文语义表示hi和全局语义表示zi进行拼接,随后利用全连接层将其映射到一维空间,并利用sigmoid作为激活函数,得到融合权重βi:
βi=sigmoid(Wβ[hi;zi]) (11)
一维参数融合后的语义表示:ui=(1-βi)·hi+βi·zi (12)
式中,Wβ为模型参数。
例如,词序列中的第4个词“天津”对应的局部上下文语义表示为h4=[0.02,0.11,…,0.76],全局语义表示为z4=[0.14,0.09,…,-0.26]。经过计算,得到β4=0.4,则融合后的语义表示u4=[0.07,0.10,…,0.35]。
步骤3.2)多维参数融合方法:本方法借鉴LSTM中的门控机制,对于文本中的第i个词,首先将其对应的局部语义表示hi和全局语义表示zi进行拼接,随后利用全连接层将其映射到与语义表示相同维度的权重空间,并采用sigmoid作为激活函数,得到融合权重向量αi:
αi=sigmoid(Wα[hi;zi]) (13)
式中,Wα为模型参数。随后,采用对应元素相乘的方法,对局部语义和全局语义进行融合:
多维参数融合后的语义表示:ui=(I-αi)⊙hi+αi⊙zi (14)
式中,⊙表示元素相乘,I表示元素全为1的列向量。
例如,词序列中的第4个词“天津”对应的局部上下文语义表示为h4=[0.02,0.11,…,0.76],全局语义表示为z4=[0.14,0.09,…,-0.26]。经过计算,得到α4=[0.31,0.1,…,0.4],则融合后的语义表示u4=[0.06,0.11,…,0.35]。
步骤3.3)构建自由权重的语义融合方法,具体地,本步骤随机初始化两个可训练的参数γ和δ,并利用两个参数进行语义特征融合:
ui=γi⊙hi+δi⊙zi (15)
例如,词序列中的第4个词“天津”对应的局部上下文语义表示为h4=[0.02,0.11,…,0.76],全局语义表示为z4=[0.14,0.09,…,-0.26]。经过模型优化,γ4=[0.19,0.52,…,-0.11],δi=[-0.22,0.98,…,0.17],则融合后的语义表示u4=[-0.03,0.15,…,0.13]。
步骤4)序列标注:为了充分考虑序列标注任务中标签之间的依赖关系,本步骤利用CRF进行标签的预测。
步骤4.1)对步骤3)得到的融合后的语义特征序列U={u1,u2,…,uN}:(在实际应用中,从步骤3)中选择一种方式对特征进行融合,并将融合结果作为步骤4)的输入)进行全连接变换,得到状态特征矩阵P,表示每个词的语义和标签之间的关联
P=UWp+bp (16)
式中,Wp和bp为模型参数。
例如,对于词序列中的第4个词“天津”,其状态特征可为p4=[0.01,0.91,…,0.00]。
步骤4.2)随机初始化一个转移特征矩阵A,表示标签和标签之间的转移关系,该矩阵在模型训练过程中通过损失反向传播进行优化。
基于上述分值,计算标签序列对应的概率:
步骤5)模型训练:在模型训练过程中,本发明最大化标准标签序列对应的概率P(Y|X)。因此,本发明采用最小化如下负对数似然函数的方式对步骤1)到步骤4)中的参数进行优化:
步骤6)模型推理:在实际应用过程中,本发明采用维特比算法搜索最优的标签序列:
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于多头自注意力机制的序列标注方法,其特征在于,包括按顺序执行的下列步骤:
步骤1,局部上下文语义编码,利用BLSTM序列化地学习文本中词的局部上下文语义表示:
步骤1.1,对输入的文本进行分词得到对应的词序列;
步骤1.2,对于所述词序列中的每个词,利用BLSTM结构编码每个词对应的字符级向量表示;
步骤1.3,对于所述词序列中的每个词,将步骤1.2中编码的所述字符级向量表示与词嵌入向量表示进行拼接,作为词初始语义表示;
步骤1.4,基于步骤1.3得到的词初始语义表示,使用BLSTM编码每个词的局部上下文语义表示;
步骤2,全局语义编码,基于步骤1编码的词的局部上下文语义表示,利用多头自注意力机制来编码词的全局语义表示:
步骤2.1,采用全连接层将步骤1编码的词的局部上下文语义表示映射到多个不同的特征子空间;
步骤2.2,在步骤2.1得到的不同的特征子空间下,利用自注意力机制编码词的语义表示;
步骤2.3,将步骤2.2计算的每个特征子空间下词的的语义表示进行拼接,并将拼接结果输入一个全连接层,得到每个词对应的全局语义表示;
步骤3,语义特征融合,构建以下三种特征融合方式,将步骤1编码的局部上下文语义表示和步骤2编码的全局语义表示进行融合,并将融合结果作为步骤4的输入语义特征:
步骤3.1,构建一维参数融合方法,实现局部上下文语义和全局语义的线性组合;
步骤3.2,借鉴LSTM中采用的门控机制,构建多维参数融合方法;
步骤3.3,构建自由权重的语义融合方法;
步骤4,序列标注,为了充分考虑序列标注任务中标签之间的依赖关系,利用CRF进行标签的预测:
步骤4.1,对步骤3得到的融合后的语义特征序列进行全连接变换,得到状态特征矩阵,表示每个词的语义和标签之间的关联;
步骤4.2,随机初始化一个转移特征矩阵,表示标签和标签之间的转移关系;
步骤4.3,基于步骤4.1得到的状态特征矩阵和步骤4.2得到的转移特征矩阵,计算任意一个可能的标签序列对应的分值和概率;
步骤5,模型训练:在模型训练过程中,采用最大化标准标签序列对应的概率来对步骤1到步骤4中的参数进行优化;
步骤6,模型推理:在实际应用过程中,采用维特比算法搜索最优的标签序列,进行模型推理。
2.如权利要求1所述的一种基于多头自注意力机制的序列标注方法,其特征在于,所述步骤1.1中,采用Stanford NLP工具包对输入的文本进行分词。
7.如权利要求1所述的一种基于多头自注意力机制的序列标注方法,其特征在于,所述步骤2.3中,将步骤2.2计算的每个特征子空间下的语义表示headi进行拼接,并将拼接结果输入一个全连接层,得到每个词对应的全局语义表示序列Z:
Z=[head1;head2;...;headM]Wz式中,Wz为模型参数。
8.如权利要求1所述的一种基于多头自注意力机制的序列标注方法,其特征在于,所述步骤3中,一维参数融合后的语义表示:ui=(1-βi)·hi+βi·zi,
式中βi=sigmoid(Wβ[hi;zi]),hi为局部上下文语义表示,zi为全局语义表示,Wβ为模型参数;
多维参数融合后的语义表示:ui=(I-αi)⊙hi+αi⊙zi,
式中αi=sigmoid(Wα[hi;zi]),⊙表示元素相乘,I表示元素全为1的列向量,Wα为模型参数;
构建自由权重的语义融合的语义表示:ui=γi⊙hi+δi⊙zi,
式中γ和δ为两个可训练的参数。
9.如权利要求1所述的一种基于多头自注意力机制的序列标注方法,其特征在于,所述步骤4.1中,对步骤3得到的融合后的语义特征序列U={u1,u2,...,uN}进行全连接变换,得到状态特征矩阵P,表示每个词的语义和标签之间的关联:
P=UWp+bp
式中,Wp和bp为模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011187198.0A CN112380863A (zh) | 2020-10-29 | 2020-10-29 | 一种基于多头自注意力机制的序列标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011187198.0A CN112380863A (zh) | 2020-10-29 | 2020-10-29 | 一种基于多头自注意力机制的序列标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112380863A true CN112380863A (zh) | 2021-02-19 |
Family
ID=74576393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011187198.0A Pending CN112380863A (zh) | 2020-10-29 | 2020-10-29 | 一种基于多头自注意力机制的序列标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380863A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112967112A (zh) * | 2021-03-24 | 2021-06-15 | 武汉大学 | 一种自注意力机制和图神经网络的电商推荐方法 |
CN112990434A (zh) * | 2021-03-09 | 2021-06-18 | 平安科技(深圳)有限公司 | 机器翻译模型的训练方法及相关装置 |
CN113010685A (zh) * | 2021-02-23 | 2021-06-22 | 安徽科大讯飞医疗信息技术有限公司 | 医学术语标准化方法、电子设备和存储介质 |
CN113158051A (zh) * | 2021-04-23 | 2021-07-23 | 山东大学 | 一种基于信息传播和多层上下文信息建模的标签排序方法 |
CN113240098A (zh) * | 2021-06-16 | 2021-08-10 | 湖北工业大学 | 基于混合门控神经网络的故障预测方法、装置和存储介质 |
CN113378243A (zh) * | 2021-07-14 | 2021-09-10 | 南京信息工程大学 | 一种基于多头注意力机制的个性化联邦学习方法 |
CN114462406A (zh) * | 2022-03-01 | 2022-05-10 | 中国航空综合技术研究所 | 基于多头自注意力模型获取首次出现的航空关键词方法 |
CN115796173A (zh) * | 2023-02-20 | 2023-03-14 | 杭银消费金融股份有限公司 | 针对监管报送需求的数据处理方法和*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109697285A (zh) * | 2018-12-13 | 2019-04-30 | 中南大学 | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 |
CN110457480A (zh) * | 2019-08-16 | 2019-11-15 | 国网天津市电力公司 | 基于交互式注意力机制的细粒度情感分类模型的构建方法 |
CN111274398A (zh) * | 2020-01-20 | 2020-06-12 | 福州大学 | 一种方面级用户产品评论情感分析方法及*** |
CN111767409A (zh) * | 2020-06-14 | 2020-10-13 | 南开大学 | 一种基于多头自注意力机制的实体关系抽取方法 |
CN111783394A (zh) * | 2020-08-11 | 2020-10-16 | 深圳市北科瑞声科技股份有限公司 | 事件抽取模型的训练方法、事件抽取方法和***及设备 |
-
2020
- 2020-10-29 CN CN202011187198.0A patent/CN112380863A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109697285A (zh) * | 2018-12-13 | 2019-04-30 | 中南大学 | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 |
CN110457480A (zh) * | 2019-08-16 | 2019-11-15 | 国网天津市电力公司 | 基于交互式注意力机制的细粒度情感分类模型的构建方法 |
CN111274398A (zh) * | 2020-01-20 | 2020-06-12 | 福州大学 | 一种方面级用户产品评论情感分析方法及*** |
CN111767409A (zh) * | 2020-06-14 | 2020-10-13 | 南开大学 | 一种基于多头自注意力机制的实体关系抽取方法 |
CN111783394A (zh) * | 2020-08-11 | 2020-10-16 | 深圳市北科瑞声科技股份有限公司 | 事件抽取模型的训练方法、事件抽取方法和***及设备 |
Non-Patent Citations (2)
Title |
---|
张志昌等: "融合局部语义和全局结构信息的健康问句分类", 《西安电子科技大学学报》 * |
王旭强等: "基于注意力机制的特征融合序列标注模型", 《HTTPS://KNS.CNKI.NET/KCMS/DETAIL/37.1357.N.20200619.1603.002.HTML》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010685B (zh) * | 2021-02-23 | 2022-12-06 | 安徽讯飞医疗股份有限公司 | 医学术语标准化方法、电子设备和存储介质 |
CN113010685A (zh) * | 2021-02-23 | 2021-06-22 | 安徽科大讯飞医疗信息技术有限公司 | 医学术语标准化方法、电子设备和存储介质 |
CN112990434A (zh) * | 2021-03-09 | 2021-06-18 | 平安科技(深圳)有限公司 | 机器翻译模型的训练方法及相关装置 |
CN112990434B (zh) * | 2021-03-09 | 2023-06-20 | 平安科技(深圳)有限公司 | 机器翻译模型的训练方法及相关装置 |
CN112967112B (zh) * | 2021-03-24 | 2022-04-29 | 武汉大学 | 一种自注意力机制和图神经网络的电商推荐方法 |
CN112967112A (zh) * | 2021-03-24 | 2021-06-15 | 武汉大学 | 一种自注意力机制和图神经网络的电商推荐方法 |
CN113158051B (zh) * | 2021-04-23 | 2022-11-18 | 山东大学 | 一种基于信息传播和多层上下文信息建模的标签排序方法 |
CN113158051A (zh) * | 2021-04-23 | 2021-07-23 | 山东大学 | 一种基于信息传播和多层上下文信息建模的标签排序方法 |
CN113240098A (zh) * | 2021-06-16 | 2021-08-10 | 湖北工业大学 | 基于混合门控神经网络的故障预测方法、装置和存储介质 |
CN113378243A (zh) * | 2021-07-14 | 2021-09-10 | 南京信息工程大学 | 一种基于多头注意力机制的个性化联邦学习方法 |
CN113378243B (zh) * | 2021-07-14 | 2023-09-29 | 南京信息工程大学 | 一种基于多头注意力机制的个性化联邦学习方法 |
CN114462406A (zh) * | 2022-03-01 | 2022-05-10 | 中国航空综合技术研究所 | 基于多头自注意力模型获取首次出现的航空关键词方法 |
CN115796173A (zh) * | 2023-02-20 | 2023-03-14 | 杭银消费金融股份有限公司 | 针对监管报送需求的数据处理方法和*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112380863A (zh) | 一种基于多头自注意力机制的序列标注方法 | |
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN106502985B (zh) | 一种用于生成标题的神经网络建模方法及装置 | |
Yao et al. | Bi-directional LSTM recurrent neural network for Chinese word segmentation | |
CN111666427B (zh) | 一种实体关系联合抽取方法、装置、设备及介质 | |
CN111767409B (zh) | 一种基于多头自注意力机制的实体关系抽取方法 | |
CN111401084B (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
CN112541356B (zh) | 一种生物医学命名实体识别的方法和*** | |
CN114298053B (zh) | 一种基于特征和注意力机制融合的事件联合抽取*** | |
CN112100332A (zh) | 词嵌入表示学习方法及装置、文本召回方法及装置 | |
CN111881256B (zh) | 文本实体关系抽取方法、装置及计算机可读存储介质设备 | |
CN113987169A (zh) | 基于语义块的文本摘要生成方法、装置、设备及存储介质 | |
CN111368542A (zh) | 一种基于递归神经网络的文本语言关联抽取方法和*** | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN110874536A (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
CN112163089A (zh) | 一种融合命名实体识别的军事高技术文本分类方法及*** | |
CN116932722A (zh) | 一种基于跨模态数据融合的医学视觉问答方法及*** | |
Xu et al. | Match-prompt: Improving multi-task generalization ability for neural text matching via prompt learning | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN113076718B (zh) | 一种商品属性抽取方法及其*** | |
CN115019142A (zh) | 基于融合特征的图像标题生成方法、***、电子设备 | |
CN116680575B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN113254586A (zh) | 一种基于深度学习的无监督文本检索方法 | |
CN112633007A (zh) | 一种语义理解模型构建方法及装置、语义理解方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210219 |
|
RJ01 | Rejection of invention patent application after publication |