CN116245106A - 一种基于自回归模型的跨域命名实体识别方法 - Google Patents
一种基于自回归模型的跨域命名实体识别方法 Download PDFInfo
- Publication number
- CN116245106A CN116245106A CN202310250195.4A CN202310250195A CN116245106A CN 116245106 A CN116245106 A CN 116245106A CN 202310250195 A CN202310250195 A CN 202310250195A CN 116245106 A CN116245106 A CN 116245106A
- Authority
- CN
- China
- Prior art keywords
- tag
- label
- sequence
- information
- named entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
Description
技术领域
本发明涉及计算机自然语言处理技术领域,更具体的说是涉及一种基于自回归模型的跨域命名实体识别方法。
背景技术
命名实体识别(NER)是自然语言处理(NLP)中的一项基本任务,旨在从原始文本中识别人物、位置等显著信息,被视为一个特定的序列标记问题。然而,由于文本类型的差异和标注数据的局限性,大多数针对特定领域(源领域)训练的传统方法很难推广到新的领域(目标领域)。因此,为了缓解这一问题,提出了跨域NER,旨在从源域学习信息来增强目标域NER,借用源域的实体信息,在标记数据有限的情况下帮助目标域的实体识别。作为自然语言处理的一个重要研究方向,跨域命名实体识别已经有相当多的研究内容,且在这个过程中,涌现出了大量的方法,其中基于预先训练的语言模型构建的模型最近取得了显著的改进。尽管现有的方法具有良好的性能,但大多数方法都专注于减少源域和目标域之间标记表示的差异,而有价值的标签信息的传输往往没有明确考虑甚至忽略。因此,有人提出了一种新的自回归跨域命名实体识别框架,增强标签信息的传递,帮助模型进行域适应。但是使用该模型解决此跨域命名实体识别问题时存在如下三个问题:
1)训练样本中有标签的语义信息没有利用,即token-token本身的序列信息有损失;
2)label信息挖掘不充分,在经过attention组合后,原始经过LSTM的序列信息会有损失;
3)token-label之间的信息具有语义差异,使用token embedding和labelembedding两者本身并不具有直接的语义关联性,直接使用attention进行QK查询不符合语义,阻碍了label和token之间的attention匹配。
因此,如何提供一种不损失label信息并且能够捕捉token-label和label-token双向信息的基于自回归模型的跨域命名实体识别方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于自回归模型的跨域命名实体识别方法,通过提高源文本与其命名实体标签之间的关系,提高标签信息的可移植性,帮助模型促进域适应。
为了实现上述目的,本发明采用如下技术方案:
一种基于自回归模型的跨域命名实体识别方法,包括以下步骤:
S1.对包括N个字符的输入序列X={x1,x2,...,xN}进行编码,得到输入字符表示序列[h1,h2,...,hN],其中字符表示hi为每个字符xi的d1维向量;
S2.通过标签编码器对训练样本标签y1,...,yi-1进行编码,得到标签表示序列[e1,e2,...,ei-1];
S4.将输入字符表示hi和标记背景信息作为综合中间状态,并将其进一步映射为2d2维向量h'i,通过h'i获取字符表示hi在标签表示序列上的注意力权重/>通过/>对所述标签表示进行加权求和得到标签上下文信息/>
S6.将最终的序列表示u通过线性层映射到实际的标签Y上作为预测标签,将所述预测标签与S2中的所述训练样本标签y1,...,yi-1进行连接得到新标签;
S7.通过所述新标签对所述训练样本标签y1,...,yi-1进行更新,重复执行S2-S7。
优选的,在S1中,对输入序列X={x1,x2,...,xN}进行编码的具体内容包括:
使用预训练后的输入序列编码器和transformer模型的encoder层来编码输入序列,记为fdet(·):
[h1,h2,...,hN]=fdet(x1,x2,...,xN)
其中hi是每个字符xi的d1维向量,用于捕获对应标记的上下文信息。
优选的,S2的具体内容包括:
[e1,e2,...,ei-1]=fre(s1,s2,...,si-1)
优选的,S3的具体内容包括:
将ei-1投影到与hi相同的维度:
e'i-1=W2·ei-1+b2
其中e'i-1是d1维向量;
优选的,S4的具体内容包括:
优选的,S5的具体内容包括:
其中W2、W3、b2、b3为可学习参数;
将hi和相应的标签感知信息zi以及标签上下文信息ei进行连接起来:
其中u是最后的序列表示。
S5还包括:通过可训练矩阵Wo和bo偏置将ui映射到输出空间oi=Wo·ui+bo,并通过归一化函数来获得关于所有命名实体标签的分布。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于自回归模型的跨域命名实体识别方法,具有以下有益效果:
1.该方法能够将原始label信息参与到最终分类中,不损失label信息;
2.该方法能够捕捉token-label和label-token之间的双向信息;
3.该方法比现有方法拥有更广阔的应用场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基于自回归模型的跨域命名实体识别方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于自回归模型的跨域命名实体识别方法,包括以下步骤:
S1.对包括N个字符的输入序列X={x1,x2,...,xN}进行编码,得到输入字符表示序列[h1,h2,...,hN],其中字符表示hi为每个字符xi的d1维向量;
S2.通过标签编码器对训练样本标签y1,...,yi-1进行编码,得到标签表示序列[e1,e2,...,ei-1];
S4.将输入字符表示hi和标记背景信息作为综合中间状态,并将其进一步映射为2d2维向量h'i,通过h'i获取字符表示hi在标签表示序列上的注意力权重/>通过/>对标签表示进行加权求和得到标签上下文信息/>
S6.将最终的序列表示u通过线性层映射到实际的标签Y上作为预测标签,将预测标签与S2中的训练样本标签y1,...,yi-1进行连接得到新标签;
S7.通过新标签对训练样本标签y1,...,yi-1进行更新,重复执行S2-S7。
在本实施例中:
自回归模型指:
即给定一个有N个字符的输入序列X={x1,x2,...,xN},命名实体识别任务的目标是输出相同长度的对应标签序列Y={y1,y2,...,yN},即建模P(Y|X);
为了有效地将信息传递到目标域,分两个阶段训练模型:预训练和微调;第一阶段的预训练指:为了增强目标域中的文本特征提取,进行域自适应预训练(DAPT),即在域相关语料库上预训练输入序列编码器,以缩小源域和目标域在域背景和文本分布方面的差异,并进一步从目标域捕获更多的有效特征。这个过程可以在访问目标域之前学习有价值的标签嵌入,特别是对于共享的命名实体标签;如图1所示,本实施例中采用BERT模型来作为输入序列编码器;通过transformer的encoder层来捕捉训练样本的有标签的语义信息。
第二阶段的微调指:在目标域上对模型进行微调,以将其用于Dtgt。在第一阶段预训练的共享标签嵌入的帮助下,利用一个Bi-LSTM对标签序列进行编码,模型进一步学习共享命名实体标签与目标领域特定命名实体标签(即仅存在于目标领域的标签)之间的关系以及内在的标签依赖信息。进一步帮助模型利用源领域的知识来更好地理解目标领域中看不见的标签;
标签编码器为了建模标记序列和标签序列之间的关系,基于常用的当前字符表示(即hi)和从以前的标签中提取的标签感知信息(即y1:i-1)来预测命名实体的标签;
为了进一步实施上述技术方案,在S1中,对输入序列X={x1,x2,...,xN}进行编码的具体内容包括:
使用预训练后的输入序列编码器和transformer模型的encoder层来编码输入序列,记为fdet(·):
[h1,h2,...,hN]=fdet(x1,x2,...,xN)
其中hi是每个字符xi的d1维向量,用于捕获对应标记的上下文信息。
其中,transformer的encoder层用于捕捉有标签的训练样本的序列语义信息,以便后续的序列表示u中包含输入序列自身的序列语义信息。
由于在token embedding的基础上额外增加了encoder层,因此,本发明能够捕捉到训练样本本身有标签的语义信息。
为了进一步实施上述技术方案,S2的具体内容包括:
[e1,e2,...,ei-1]=fre(s1,s2,...,si-1)
为了进一步实施上述技术方案,S3的具体内容包括:
双注意力模块指将标签编码器中Bi-LSTM的最后一个隐藏状态(即ei-1)视为标签序列的表示,作为查询向量,而将输入序列编码器中的所有字符表示(即h1:N)视为键值矩阵。利用一个全连接层将ei-1投影到与hi相同的维度:
e'i-1=W2·ei-1+b2
其中e'i-1是d1维向量;
为了进一步实施上述技术方案,S4的具体内容包括:
为了进一步实施上述技术方案,S5的具体内容包括:
其中W2、W3、b2、b3为可学习参数;
为了进一步将标签相关知识融合到字符xi中,将hi和相应的标签感知信息zi以及标签上下文信息ei进行连接起来:
其中u是最后的序列表示。
S5还包括:通过可训练矩阵Wo和bo偏置将ui映射到输出空间oi=Wo·ui+bo,并利用一个softmax函数来获得关于所有命名实体标签的分布。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种基于自回归模型的跨域命名实体识别方法,其特征在于,包括以下步骤:
S1.对包括N个字符的输入序列X={x1,x2,...,xN}进行编码,得到输入字符表示序列[h1,h2,...,hN],其中字符表示hi为每个字符xi的d1维向量;
S2.通过标签编码器对训练样本标签序列y1,...,yi-1进行编码,得到标签表示序列[e1,e2,...,ei-1];
S4.将输入字符表示hi和标记背景信息作为综合中间状态,并将其进一步映射为2d2维向量h'i,通过h'i获取字符表示hi在标签表示序列上的注意力权重/>通过/>对所述标签表示进行加权求和得到标签上下文信息/>
u=[h1⊕z1⊕e1,h2⊕z2⊕e2,...,hN⊕zN⊕eN];
S6.将最终的序列表示u通过线性层映射到实际的标签Y上作为预测标签,将所述预测标签与S2中的所述训练样本标签序列y1,...,yi-1进行连接得到新标签序列;
S7.通过所述新标签对所述训练样本标签序列y1,...,yi-1进行更新,重复执行S2-S7。
2.根据权利要求1所述的一种基于自回归模型的跨域命名实体识别方法,其特征在于,在S1中,对输入序列X={x1,x2,...,xN}进行编码的具体内容包括:
使用预训练后的输入序列编码器和transformer模型的encoder层来编码输入序列,记为fdet(·):
[h1,h2,...,hN]=fdet(x1,x2,...,xN)
其中hi是每个字符xi的d1维向量,用于捕获对应标记的上下文信息。
7.根据权利要求1所述的一种基于自回归模型的跨域命名实体识别方法,其特征在于,S5还包括:通过可训练矩阵Wo和bo偏置将ui映射到输出空间oi=Wo·ui+bo,并通过归一化函数来获得关于所有命名实体标签的分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310250195.4A CN116245106A (zh) | 2023-03-14 | 2023-03-14 | 一种基于自回归模型的跨域命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310250195.4A CN116245106A (zh) | 2023-03-14 | 2023-03-14 | 一种基于自回归模型的跨域命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116245106A true CN116245106A (zh) | 2023-06-09 |
Family
ID=86631234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310250195.4A Pending CN116245106A (zh) | 2023-03-14 | 2023-03-14 | 一种基于自回归模型的跨域命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116245106A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821436A (zh) * | 2023-08-24 | 2023-09-29 | 北京遥感设备研究所 | 一种面向模糊查询的字符串谓词准确选择估计方法 |
-
2023
- 2023-03-14 CN CN202310250195.4A patent/CN116245106A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821436A (zh) * | 2023-08-24 | 2023-09-29 | 北京遥感设备研究所 | 一种面向模糊查询的字符串谓词准确选择估计方法 |
CN116821436B (zh) * | 2023-08-24 | 2024-01-02 | 北京遥感设备研究所 | 一种面向模糊查询的字符串谓词准确选择估计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109062893B (zh) | 一种基于全文注意力机制的商品名称识别方法 | |
CN109885824B (zh) | 一种层次的中文命名实体识别方法、装置及可读存储介质 | |
CN106250915B (zh) | 一种融合深度特征和语义邻域的自动图像标注方法 | |
Kang et al. | Generative text steganography based on LSTM network and attention mechanism with keywords | |
CN113626589B (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN111325660B (zh) | 一种基于文本数据的遥感图像风格转换方法 | |
CN115131638B (zh) | 视觉文本预训练模型的训练方法、装置、介质和设备 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN113486669B (zh) | 应急救援输入语音的语义识别方法 | |
CN112446211A (zh) | 文本处理装置、方法、设备和计算机可读存储介质 | |
CN115116066A (zh) | 一种基于字符距离感知的场景文本识别方法 | |
CN110472255A (zh) | 神经网络机器翻译方法、模型、电子终端以及存储介质 | |
CN114863194B (zh) | 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN113656563B (zh) | 一种神经网络搜索方法及相关设备 | |
CN115130463A (zh) | 纠错方法、模型训练方法、计算机介质以及设备 | |
Gupta et al. | [Retracted] CNN‐LSTM Hybrid Real‐Time IoT‐Based Cognitive Approaches for ISLR with WebRTC: Auditory Impaired Assistive Technology | |
CN116245106A (zh) | 一种基于自回归模型的跨域命名实体识别方法 | |
CN113609819B (zh) | 标点符号确定模型及确定方法 | |
CN117875395A (zh) | 多模态预训练模型的训练方法、装置及存储介质 | |
CN113204975A (zh) | 一种基于远程监督的敏感文风识别方法 | |
CN117093864A (zh) | 文本生成模型训练方法以及装置 | |
CN115934883A (zh) | 一种基于语义增强的多特征融合的实体关系联合抽取方法 | |
CN109886105A (zh) | 基于多任务学习的价格牌识别方法、***及存储介质 | |
CN115116427A (zh) | 标注方法、语音合成方法、训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |