CN115081445A - 一种基于多任务学习的短文本实体消歧方法 - Google Patents
一种基于多任务学习的短文本实体消歧方法 Download PDFInfo
- Publication number
- CN115081445A CN115081445A CN202210714659.8A CN202210714659A CN115081445A CN 115081445 A CN115081445 A CN 115081445A CN 202210714659 A CN202210714659 A CN 202210714659A CN 115081445 A CN115081445 A CN 115081445A
- Authority
- CN
- China
- Prior art keywords
- entity
- disambiguation
- task
- model
- short text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于多任务学习的短文本实体消歧方法,属于自然语言处理技术领域,包括:基于知识增强型预训练语言模型,分别进行多任务学习,构建短文本实体消歧模型;其中,多任务包括:指称与实体语义相似度消歧任务、指称掩码与实体语义相似度消歧任务以及指称分类任务;获得候选实体在指称与实体语义相似度消歧任务,以及指称掩码与实体语义相似度消歧任务上的语义相似度得分和,将语义相似得分高的候选实体,作为最终完成实体消歧的预测实体。本发明通过多任务学习的方式让预训练模型在消歧时充分利用指称的上下文信息,学习到更多有助于实体消歧的知识,提高模型的泛化性。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于多任务学习的短文本实体消歧方法。
背景技术
移动互联网时代,短文本由其易传播、易阅读,内容丰富等特点成了当下各互联网平台的主要传播内容,具有丰厚的商业研究价值。例如社交、媒体等平台可以根据用户评论进行舆情监控,捕捉当前舆论热点;电商、自媒体等平台可以将用户对其内容的评论用作对用户及内容画像的辅助,从而实现更精准的内容推荐。
文本的核心内容为命名实体,是指名称(人名、地名、机构名)、表达式(日期、时间、货币量)等具有明确语义信息的文本、字词、短语。为了让机器能够更好地挖掘出文本中更多的价值,对于文本中命名实体的精确理解是很有必要的。然而命名实体是具有歧义性的,例如“苹果”既可以表示一种水果,也可以表示苹果公司、苹果手机等。因此要想正确理解文本中苹果的含义就需要根据其出现的上下文对其进行实体消歧。
传统的长文本实体消歧有丰富的上下文语义信息辅助实体消歧,然而在短文本中,由于上下文语境不够充分、语义稀疏,文本含有噪声等问题的存在,大大增加了实体消歧的难度。为了促进短文本实体消歧技术的发展,近两年来中国知识图谱与语义计算大会(CCKS)联合百度举办了多届短文本实体链指比赛以及评测会议。在相关工作中,使用预训练语言模型进行实体消歧成为了主流的中文短文本实体消歧方法。这些工作使用预训练语言模型对文本进行动态编码或是基于微调预训练语言模型的方式完成实体消歧,对短文本实体消歧的发展起到了很好的推动作用。同时预训练语言模型也被认为是当下甚至未来较长时间内处理自然语言处理(NLP)相关任务的主流方式,因此以预训练语言模型为基础展开对实体消歧的研究是很有必要的。
在查询文本、微博、短视频评论等中文短文本中,由于文本的不规范表达以及稀疏的上下文语境,导致实体消歧模型容易受到待消歧指称的上下文信息匮乏且存在噪声这些问题的困扰,从而无法达到很好的消歧效果。因此,要想处理好中文短文本实体消歧,就要求消歧模型不仅要充分的利用有限的指称上下文信息,还要充分利用指称的其他属性如类别等信息,并想办法提高模型应对噪声的泛化能力。
现有的、围绕着预训练语言模型展开的中文短文实体消歧研究,在应对文本噪声及利用指称类别信息等方向取得了不错的进展,但现有研究仍存在两个不足:1)现有中文短文本实体消歧模型对指称的上下文信息利用不够充分;2)现有中文短文本实体消歧模型中的单模型消歧效果不够理想。
发明内容
为解决上述问题,本发明提供了如下的技术方案。
一种基于多任务学习的短文本实体消歧方法,包括以下步骤:
基于知识增强型预训练语言模型,分别进行多任务学习,构建短文本实体消歧模型;
其中,多任务包括:指称与实体语义相似度消歧任务、指称掩码与实体语义相似度消歧任务以及指称分类任务;
通过对抗训练后的短文本实体消歧模型对短文本实体中的待消歧指称进行预测,基于预测的待消歧指称确定多个相互独立的候选实体;
获得候选实体在指称与实体语义相似度消歧任务,以及指称掩码与实体语义相似度消歧任务上的语义相似度得分和,将语义相似得分高的候选实体,作为最终完成实体消歧的预测实体。
优选地,所述短文本实体消歧模型进行多任务学习中采用硬参数共享进行参数共享。
优选地,所述指称与实体语义相似度消歧任务,包括以下步骤:
将指称上下文与候选实体及实体描述拼接,并进行切词处理后,在指称与候选实体的字符串开始与结束位置分别***指称与实体标识符[M]和[E],以此对指称与候选实体进行标记;
将标记好的序列中***[CLS],[SEP]标识符,得到完整的输入序列;
将序列输入到共享编码层Ernie中,基于注意力机制捕捉指称与候选实体的语义相似向量,将其与模型顶层[CLS]位置输出向量拼接;
通过全连接神经网络将特征向量进行二分类。
优选地,所述指称与实体语义相似度消歧任务,采用交叉熵损失函数进行损失值计算,损失函数表示为:
优选地,所述指称掩码与实体语义相似度消歧任务,包括以下步骤:
将指称使用Ernie对应切词器切词后替换为等长的[MASK]序列,基于此得到将指称掩码的指称上下文序列s={[CLS],q1,q2,...[MASK]...[MASK],...,qn,[SEP]};
将序列s与实体及实体描述拼接并进行切词处理后输入到Ernie中,基于注意力机制获取指称掩码与实体的相似特征向量;
将相似特征向量输入到全连接神经网络中得到指称掩码与候选实体的语义相似得分。
优选地,所述指称掩码与实体语义相似度消歧任务,采用交叉熵损失函数进行损失值计算,损失函数表示为:
优选地,所述指称分类任务,包括以下步骤:
将指称上下文进行切词后,使用指称标识符[M]对实体指称字符串的首尾位置进行标记;
将标记好的指称上下文序列输入到Ernie中得到序列的编码表示;
将顶层[CLS]标识符对应输出向量输入到分类器进行指称类别的判断。
优选地,所述指称分类任务,采用交叉熵损失函数进行损失值计算,损失函数表示为:
式中,labeli是指称类别标签,labeli为软标签;p(labeli,k)表示第i个样本指称属于其第k个类别标签的概率;是模型预测的第i个样本指称属于labeli,k的概率;losstype即为本任务的损失函数。
优选地,所述短文本实体消歧模型的训练过程,包括以下步骤:
根据上述多个任务的输入集x及标签集y计算前向损失值、并反向传播得到模型参数的梯度;
根据embedding矩阵的梯度计算出扰动radv,并加到当前模型的embedding矩阵上;
再次输入x,y,使用加入radv的embedding矩阵对x进行表示,并进行前向损失的计算,反向传播得到对抗训练所得模型参数的梯度,将该梯度与最初模型参数的梯度,按模型参数对应相加得到所求目标梯度;
将embedding矩阵恢复为初值;
根据目标梯度,结合优化器对模型参数进行更新:
模型的总损失函数表示为:
式中,α,β,λ为待确定的损失函数权重,模型在训练过程中采用正负比1:2的负采样方法在每轮训练选择不同的负例进行预训练语言模型的微调。
本发明的有益效果:
本发明提出一种基于多任务学习的短文本实体消歧方法,通过多任务学习的方式让预训练模型在消歧时充分利用指称的上下文信息,学习到更多有助于实体消歧的知识,提高模型的泛化性,从而让模型在短文本实体消歧上取得更好的表现。
在预训练语言模型的选取上本发明选取了知识增强型预训练语言模型(EnhancedRepresentation through Knowledge Integration,Ernie),在预训练的过程中通过对掩码知识的预测让模型学到了更多知识。
本发明所提出的指称与实体语义相似度消歧任务,能够让模型学习到指称与实体的语义是否匹配,指称上下文与候选实体描述语义是否一致。本发明所提出的指称掩码与实体语义相似度消歧任务,能够让模型更充分地利用指称的上下文信息进行消歧。本发明所提出的指称分类任务,为模型提供有助于实体消歧的指称类别信息。本发明所提出的对抗训练任务,提高了模型的泛化性。
附图说明
图1为本发明实施例的基于多任务学习的实体消歧模型图;
图2为本发明实施例的指称与候选实体语义相似度消歧模型图;
图3为本发明实施例的指称掩码与候选实体语义相似消歧模型图;
图4为本发明实施例的指称类别判断模型图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
本发明的一种基于多任务学习的短文本实体消歧方法。模型的整体结构如图1所示。
具体任务及任务的作用如下:
指称与实体语义相似度消歧任务:让模型学习到指称与实体的语义是否匹配,指称上下文与候选实体描述语义是否连续,任务学习方式如图2。
指称掩码与实体语义相似度消歧任务:让模型能够更充分的利用指称的上下文信息进行消歧,任务学习方式如图3。
指称分类任务:为模型提供有助于实体消歧的指称类别信息,任务学习方式如图4。
对抗训练任务:提高模型的泛化性。
本实施例中,一种基于多任务学习的短文本实体消歧方法,包括以下步骤:
S1、基于知识增强型预训练语言模型,分别进行多任务学习,构建短文本实体消歧模型;
其中,多任务包括:指称与实体语义相似度消歧任务、指称掩码与实体语义相似度消歧任务以及指称分类任务;
S2、通过对抗训练后的短文本实体消歧模型对短文本实体中的待消歧指称进行预测,基于预测的待消歧指称确定多个相互独立的候选实体;
S3、获得候选实体在指称与实体语义相似度消歧任务,以及指称掩码与实体语义相似度消歧任务上的语义相似度得分和,将语义相似得分高的候选实体,作为最终完成实体消歧的预测实体。
(1)指称与实体语义相似度消歧任务实施步骤如下:
1.对指称上下文与候选实体及实体描述拼接并进行切词处理后,在指称与候选实体的字符串开始与结束位置分别***指称与实体标识符[M]和[E],以此对指称与候选实体进行标记。
2.在1中标记好的序列中***[CLS],[SEP]标识符,得到完整的输入序列。
3.将2中得到的序列输入到Ernie中。基于注意力机制捕捉指称与候选实体的语义相似向量,将其与模型顶层[CLS]位置输出向量拼接。
4.将步骤3所得特征向量输入到全连接神经网络中做二分类。任务采用交叉熵损失函数进行损失值计算,损失函数可以表示为,
(2)指称掩码与候选实体语义相似消歧任务实施步骤如下:
1.将指称使用Ernie对应切词器切词后替换为等长的[MASK]序列,得到将指称掩码的指称上下文序列s={[CLS],q1,q2,...[MASK]...[MASK],...,qn,[SEP]}。
2.将序列s与实体及实体描述拼接并进行切词等预处理后输入到Ernie中。
3.基于注意力机制获取指称掩码与实体的相似向量。
4.将步骤3得到的特征向量输入到全连接神经网络中得到指称掩码与候选实体的语义相似得分。
任务采用交叉熵损失函数进行损失值计算,损失函数可以表示为,
(3)指称分类任务实施步骤如下:
1.将指称上下文进行切词后,使用指称标识符[M]对实体指称字符串的首尾位置进行标记。
2.将标记好的指称上下文序列输入到Ernie中得到序列的编码表示。
3.将模型顶层[CLS]标识符对应输出向量输入到分类器进行指称类别的判断。
任务采用交叉熵损失函数进行损失值计算,损失函数可以表示为,
式中,labeli是指称类别标签,由于同一指称可能属于两个甚至多个不同的类别,因此这里的labeli使用的是软标签。p(labeli,k)表示第i个样本指称属于其第k个类别标签的概率,是模型预测的第i个样本指称属于labeli,k的概率,losstype即为本任务的损失函数。
(4)模型整体训练过程如下:
1.根据上述多个任务的输入集x及标签集y计算前向损失值、并反向传播得到模型参数的梯度。
2.根据嵌入(embedding)矩阵的梯度按照公式(19)和(20)计算出扰动radv并加到当前模型的embedding矩阵上。
3.再次输入x,y,使用加入radv的embedding矩阵对x进行表示,并进行前向损失的计算,反向传播得到对抗训练所得模型参数的梯度,将该梯度与1中梯度按模型参数对应相加得到所求目标梯度。
4.将embedding矩阵恢复为步骤1时的值。
5.根据步骤3所得梯度结合优化器对模型参数进行更新。
模型的总损失函数可以表示为,
其中α,β,λ为待确定的损失函数权重。模型在训练过程中采用正负比1:2的负采样方法在每轮训练选择不同的负例进行预训练语言模型的微调。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于多任务学习的短文本实体消歧方法,其特征在于,包括以下步骤:
基于知识增强型预训练语言模型,分别进行多任务学习,构建短文本实体消歧模型;
其中,多任务包括:指称与实体语义相似度消歧任务、指称掩码与实体语义相似度消歧任务以及指称分类任务;
通过对抗训练后的短文本实体消歧模型对短文本实体中的待消歧指称进行预测,基于预测的待消歧指称确定多个相互独立的候选实体;
获得候选实体在指称与实体语义相似度消歧任务,以及指称掩码与实体语义相似度消歧任务上的语义相似度得分和,将语义相似得分高的候选实体,作为最终完成实体消歧的预测实体。
2.根据权利要求1所述的基于多任务学习的短文本实体消歧方法,其特征在于,所述短文本实体消歧模型进行多任务学习中采用硬参数共享进行参数共享。
3.根据权利要求1所述的基于多任务学习的短文本实体消歧方法,其特征在于,所述指称与实体语义相似度消歧任务,包括以下步骤:
将指称上下文与候选实体及实体描述拼接,并进行切词处理后,在指称与候选实体的字符串开始与结束位置分别***指称与实体标识符[M]和[E],以此对指称与候选实体进行标记;
将标记好的序列中***[CLS],[SEP]标识符,得到完整的输入序列;
将序列输入到共享编码层Ernie中,基于注意力机制捕捉指称与候选实体的语义相似向量,将其与模型顶层[CLS]位置输出向量拼接;
通过全连接神经网络将特征向量进行二分类。
5.根据权利要求1所述的基于多任务学习的短文本实体消歧方法,其特征在于,所述指称掩码与实体语义相似度消歧任务,包括以下步骤:
将指称使用Ernie对应切词器切词后替换为等长的[MASK]序列,基于此得到将指称掩码的指称上下文序列s={[CLS],q1,q2,...[MASK]...[MASK],...,qn,[SEP]};
将序列s与实体及实体描述拼接并进行切词处理后输入到Ernie中,基于注意力机制获取指称掩码与实体的相似特征向量;
将相似特征向量输入到全连接神经网络中得到指称掩码与候选实体的语义相似得分。
7.根据权利要求1所述的基于多任务学习的短文本实体消歧方法,其特征在于,所述指称分类任务,包括以下步骤:
将指称上下文进行切词后,使用指称标识符[M]对实体指称字符串的首尾位置进行标记;
将标记好的指称上下文序列输入到Ernie中得到序列的编码表示;
将顶层[CLS]标识符对应输出向量输入到分类器进行指称类别的判断。
9.根据权利要求1所述的基于多任务学习的短文本实体消歧方法,其特征在于,所述短文本实体消歧模型的训练过程,包括以下步骤:
根据上述多个任务的输入集x及标签集y计算前向损失值、并反向传播得到模型参数的梯度;
根据embedding矩阵的梯度计算出扰动radv,并加到当前模型的embedding矩阵上;
再次输入x,y,使用加入radv的embedding矩阵对x进行表示,并进行前向损失的计算,反向传播得到对抗训练所得模型参数的梯度,将该梯度与最初模型参数的梯度,按模型参数对应相加得到所求的目标梯度;
将embedding矩阵恢复为初值;
根据目标梯度,结合优化器对模型参数进行更新:
模型的总损失函数表示为:
式中,α,β,λ为待确定的损失函数权重,模型在训练过程中采用正负比1:2的负采样方法在每轮训练选择不同的负例进行预训练语言模型的微调。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210714659.8A CN115081445A (zh) | 2022-06-23 | 2022-06-23 | 一种基于多任务学习的短文本实体消歧方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210714659.8A CN115081445A (zh) | 2022-06-23 | 2022-06-23 | 一种基于多任务学习的短文本实体消歧方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115081445A true CN115081445A (zh) | 2022-09-20 |
Family
ID=83252862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210714659.8A Pending CN115081445A (zh) | 2022-06-23 | 2022-06-23 | 一种基于多任务学习的短文本实体消歧方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115081445A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117952206A (zh) * | 2024-03-27 | 2024-04-30 | 江南大学 | 一种知识图谱链路预测方法 |
-
2022
- 2022-06-23 CN CN202210714659.8A patent/CN115081445A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117952206A (zh) * | 2024-03-27 | 2024-04-30 | 江南大学 | 一种知识图谱链路预测方法 |
CN117952206B (zh) * | 2024-03-27 | 2024-05-31 | 江南大学 | 一种知识图谱链路预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108536679B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN111259127B (zh) | 一种基于迁移学习句向量的长文本答案选择方法 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN110609891A (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN110390049B (zh) | 一种面向软件开发问题的答案自动生成方法 | |
CN114428850B (zh) | 一种文本检索匹配方法和*** | |
CN113761890A (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及*** | |
CN114648016A (zh) | 一种基于事件要素交互与标签语义增强的事件论元抽取方法 | |
CN112349294A (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN111563378A (zh) | 一种联合学习的多文档阅读理解实现方法 | |
CN113239694B (zh) | 一种基于论元短语的论元角色识别的方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配***及方法 | |
CN115081445A (zh) | 一种基于多任务学习的短文本实体消歧方法 | |
CN113657473A (zh) | 一种基于迁移学习的Web服务分类方法 | |
CN113486174A (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN115905187B (zh) | 一种面向云计算工程技术人员认证的智能化命题*** | |
CN110377753B (zh) | 基于关系触发词与gru模型的关系抽取方法及装置 | |
CN114372454A (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
CN116992886A (zh) | 一种基于bert的热点新闻事件脉络生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |