CN115310445A - 基于增强序列标注策略的单阶段联合实体关系抽取方法及*** - Google Patents

基于增强序列标注策略的单阶段联合实体关系抽取方法及*** Download PDF

Info

Publication number
CN115310445A
CN115310445A CN202210846389.6A CN202210846389A CN115310445A CN 115310445 A CN115310445 A CN 115310445A CN 202210846389 A CN202210846389 A CN 202210846389A CN 115310445 A CN115310445 A CN 115310445A
Authority
CN
China
Prior art keywords
entity
word
label
entity relationship
relationship extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210846389.6A
Other languages
English (en)
Inventor
周刚
朱秀宝
陈静
兰明敬
向怡馨
卢记仓
李珠峰
南煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Original Assignee
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN202210846389.6A priority Critical patent/CN115310445A/zh
Publication of CN115310445A publication Critical patent/CN115310445A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于信息抽取技术领域,特别涉及一种基于增强序列标注策略的单阶段联合实体关系抽取方法及***,首先,构建实体关系抽取模型并进行训练,其中,实体关系抽取模型包含用于对输入的文本序列进行编码来输出对应单词词向量表示的编码器,用于对词向量表示进行标签映射的标注组件和实体相关矩阵,用于对标签映射结果进行解码来抽取相关实体关系三元组的解码器;标签映射中,利用标注组件对词向量表示标注由实***置、单词在实体中位置及关系类型组成的组合标签,并利用实体相关矩阵增强组合标签之间的信息交互;然后,将待抽取的目标文本序列输入已训练的实体关系抽取模型,利用该已训练的实体关系抽取模型来输出目标文本序列的相关实体三元组,提升关系实体抽取效果。

Description

基于增强序列标注策略的单阶段联合实体关系抽取方法及 ***
技术领域
本发明属于信息抽取技术领域,特别涉及一种基于增强序列标注策略的单阶段联合实体关系抽取方法及***。
背景技术
早期的实体关系抽取采用流水线方法,即首先使用命名体识别模型抽取文本中的实体,然后再使用关系分类模型预测候选实体对之间的关系。该方法虽然灵活简单、易于实现,两个子任务可以使用独立的数据集,但是存在误差传播、缺少两个子任务的交互以及增加冗余计算等问题。为了解决这些问题,后续的研究提出了联合实体关系抽取方法,即基于神经网络的端到端模型同时抽取文本中存在的实体及关系,通过设计合理的标注策略、向量融合方式及解码方法,不断增强两个子任务之间的交互,不断提升模型的抽取效果,相比于流水线方法取得了更好的性能。
近年来,针对联合实体关系抽取的研究已取得长足进步,但仍然存在如下四个方面的挑战:(1)实体嵌套问题。指在一个实体的内部包含一个或多个其他的实体。例如,“河南博物院”是一个类型为组织机构名的实体,而“河南博物院”中的“河南”同时也是类型为地名的实体。(2)曝光偏差问题。指模型在训练阶段和推理阶段各个组件的输入不一致。例如,CasRel和PRGC等模型虽然能够做到同时编码实体和关系,但是在解码阶段却弱化为流水线方式,训练阶段各个组件的输入均来自真实的标记,而推理阶段各个组件的上输入却来自前一组件的预测结果,如果前一组件预测结果出错,将会导致误差累积。(3)冗余计算问题。例如,CasRel、TPLinker和OneRel等模型在训练阶段通常需要预定义多个关系,并为每个关系建立一个矩阵,在推理阶段,不管文本中是否存在某个或者某些关系,都要遍历所有预定义的关系矩阵来抽取所有的实体关系三元组,造成了冗余计算问题,而且预定义的关系数量越多,推理时间就会越长,占用内存就会越多,耗费更多计算资源。(4)关系重叠问题。根据实体关系三元组中实体的重叠程度可以将句子分为正常(Normal)、实体对重叠(EntityPairOverlap,EPO)和单实体重叠(SingleEntityOverlap,SEO)三种类型。如果一个句子中的所有实体关系三元组都没有重叠的实体,这个句子就属于正常类型;如果一个句子中相同的实体对之间有多个不同的关系,这个句子就属于实体对重叠类型;如果一个句子中的一个实体存在于多个实体关系三元组中,这个句子就属于单实体重叠类型。
发明内容
为此,针对现有技术中的联合实体关系抽取无法同时解决嵌套实体、曝光偏差、冗余计算和重叠关系等技术问题,本发明提供一种基于增强序列标注策略的单阶段联合实体关系抽取方法及***,将联合实体关系抽取任务转化为序列标注任务来提升实体抽取的效果。
按照本发明所提供的设计方案,提供一种基于增强序列标注策略的单阶段联合实体关系抽取方法,包含如下内容:
构建实体关系抽取模型并进行训练,其中,实体关系抽取模型包含用于对输入的文本序列进行编码来输出对应单词词向量表示的编码器,用于对词向量表示进行标签映射的标注组件和实体相关矩阵,用于对标签映射结果进行解码来抽取相关实体关系三元组的解码器;标签映射中,利用标注组件对词向量表示标注由实***置、单词在实体中位置及关系类型组成的组合标签,并利用实体相关矩阵增强组合标签之间的信息交互;
将待抽取的目标文本序列输入已训练的实体关系抽取模型,利用该已训练的实体关系抽取模型来输出目标文本序列的相关实体三元组。
作为本发明中基于增强序列标注策略的单阶段联合实体关系抽取方法,进一步地,实体关系抽取模型利用BERT模型结构作为编码器来获取输入文本序列的词向量表示,且在BERT模型中,首先,将输入文本序列转换为由词嵌入向量、分割嵌入向量和位置嵌入向量组成的待编码嵌入向量;然后将待编码嵌入向量输入值BERT模型中进行编码。
作为本发明中基于增强序列标注策略的单阶段联合实体关系抽取方法,进一步,实体关系抽取模型中利用全连接神经网络来实现标注组件的组合标签标注,将词向量表示中的每个单词标签预测转换为多标签分类问题,利用sigmoid作为激活函数获取每个单词所属组合标签的预测概率,并根据预设的概率阈值来获取单词对应的标签映射。
作为本发明中基于增强序列标注策略的单阶段联合实体关系抽取方法,进一步,每个单词所述组合标签的预测概率的计算过程表示为:pi=sigmoid(Wsxi+bs),其中,
Figure BDA0003752999980000021
R为预定义实体关系的数量,Ws(g)表示网络可训练的权重矩阵,xi表示第i个单词的词向量表示,bs表示网络可训练的偏置常数。
作为本发明基于增强序列标注策略的单阶段联合实体关系抽取方法,进一步地,实体关系抽取模型中利用全连接网络神经网络来实现实体相关矩阵的组合标签信息交互,利用sigmoid作为激活函数获取组合标签为头实体开始单词和尾实体开始单词之间的相关概率,并根据预设的相关概率阈值来得到对应组合标签映射。
作为本发明基于增强序列标注策略的单阶段联合实体关系抽取方法,进一步地,组合标签为头实体开始单词和尾实体开始单词的相关概率计算过程表示为:pis,js=sigmoid(Wm[xis;xjs]+bm),其中,Wm(g)表示网络可训练的权重矩阵,xis表示第i个头实体开始单词的词向量表示,xjs表示第j个尾实体开始单词的词向量表示,bm表示网络可训练的偏置常数。
作为本发明基于增强序列标注策略的单阶段联合实体关系抽取方法,进一步地,实体关系抽取模型中的解码器,首先根据标注组件的标签映射解码出具有关系的头实体和尾实体,以根据标签索引来寻找组合标签;然后,通过将具有相同关系的头实体和尾实体两两组合来生成实体关系三元组,并根据实体相关矩阵的组合标签映射结果来解码出具有关系的头实体开始单词和尾实体开始单词的组合;最后,将标注组件标签映射的解码输出和实体相关矩阵的组合标签映射的解码输出进行匹配,保留有关系的实体关系三元组。
作为本发明基于增强序列标注策略的单阶段联合实体关系抽取方法,进一步地,构建由标注组件损失函数和实体相关矩阵损失函数组成的组合损失函数,并利用NYT、NYT*、WebNLG、WebNLG*四个数据集对实体关系抽取模型进行训练,在训练过程中标注组件和实体相关矩阵共享编码器的编码输出。
作为本发明基于增强序列标注策略的单阶段联合实体关系抽取方法,进一步地,组合损失函数表示为:
Figure BDA0003752999980000031
其中,
Figure BDA0003752999980000032
Figure BDA0003752999980000033
N表示输入文本序列的长度,R表示预定义关系的数量,M表示输入文本序列的最大长度,yi,j表示真实的标签,pi,j和pis,jspis,js示增强序列标注组件中和实体相关矩阵中每个元素的输出概率。
进一步地,本发明还提供一种基于增强序列标注策略的单阶段联合实体关系抽取***,包含:模型训练模块和目标抽取模块,其中,
模型训练模块,用于通过构建实体关系抽取模型并进行模型训练,其中,实体关系抽取模型包含用于对输入的文本序列进行编码来输出对应单词词向量表示的编码器,用于对词向量表示进行标签映射的标注组件和实体相关矩阵,用于对标签映射结果进行解码来抽取相关实体关系三元组的解码器;标签映射中,利用标注组件对词向量表示标注由实***置、单词在实体中位置及关系类型组成的组合标签,并利用实体相关矩阵增强组合标签之间的信息交互;
目标抽取模块,用于将待抽取的目标文本序列输入已训练的实体关系抽取模型,利用该已训练的实体关系抽取模型来输出目标文本序列的相关实体三元组。
本发明的有益效果:
本案利用增强序列标记策略将实***置、单词在实体中的位置及关系类型作为组合标签进行单词标签映射,将联合实体关系抽取任务转化为序列标注任务,解决现有技术中的联合实体关系抽取无法同时解决嵌套实体、曝光偏差、冗余计算和重叠关系等技术问题,提升文本序列中实体和关系的抽取效果,便于实际场景应用。并进一步通过实验数据表明,本案方案与早期的联合实体关系抽取模型相比,性能显著提高,即使与CasRel和TPLinker等先进的模型相比,本案方案中模型参数量也可以减少3.23~5.36MB,单句推理速度提升2~4.2倍,F1值提高0.5%~2.1%。
附图说明:
图1为实施例中基于增强序列标注策略的单阶段联合实体关系抽取流程示意;
图2为实施例中实体关系抽取模型架构示意;
图3为实施例中复杂场景对比结果示意;
图4为实施例中模型在WebNLG*数据集上训练时F1值的变化曲线示意;
图5为实施例中增强序列标注策略示例。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
本发明实施例,参见图1所示,提供一种基于增强序列标注策略的单阶段联合实体关系抽取方法,包含:
S101、构建实体关系抽取模型并进行训练,其中,实体关系抽取模型包含用于对输入的文本序列进行编码来输出对应单词词向量表示的编码器,用于对词向量表示进行标签映射的标注组件和实体相关矩阵,用于对标签映射结果进行解码来抽取相关实体关系三元组的解码器;标签映射中,利用标注组件对词向量表示标注由实***置、单词在实体中位置及关系类型组成的组合标签,并利用实体相关矩阵增强组合标签之间的信息交互;
S102、将待抽取的目标文本序列输入已训练的实体关系抽取模型,利用该已训练的实体关系抽取模型来输出目标文本序列的相关实体三元组。
利用增强序列标记策略将实***置、单词在实体中的位置及关系类型作为组合标签进行单词标签映射,将联合实体关系抽取任务转化为序列标注任务。参见图2所示,将文本序列输入文本序列编码器得到每个单词的词向量表示;然后将所有单词的词向量表示同时输入序列标注组件和实体相关矩阵得到预测结果的映射标签;在解码模块中对序列标注组件和实体相关矩阵预测结果的映射标签进行解码,得到具有关系的头实体和尾实体以及相关的开始单词组合,再将具有相同关系的头实体和尾实体两两组合生成实体关系三元组;最后将相关的实体关系三元组保留,不相关的删除,得到最终的抽取结果,进而解决现有技术中的联合实体关系抽取无法同时解决嵌套实体、曝光偏差、冗余计算和重叠关系等技术问题,提升文本序列中实体抽取效果。
在一条文本中,一个单词可能属于不同类型的实体,同一实体也可能参与不同关系类型的实体关系三元组,由于传统的序列标注策略只能将单词标记为一个标签,因此不能解决嵌套实体问题和重叠关系问题。针对此问题,本案实施例中,利用增强序列标记策略,将每个单词标记为实***置(即头实体或者尾实体)、关系类型和单词在实体中的位置(即开始单词、内部单词或者非实体单词)的组合标签,每个标签的顺序及含义如表1所列。由此可以计算出当输入文本序列长度为N,预定义关系类型数量为R时,每个单词的标签总数为4×R+1,该文本序列需要标注的标签总数为N×(4×R+1)。
表1增强序列标注组件中标签的顺序及含义
Figure BDA0003752999980000051
本案实施例中,进一步地,实体关系抽取模型利用BERT模型结构作为编码器来获取输入文本序列的词向量表示,且在BERT模型中,首先,将输入文本序列转换为由词嵌入向量、分割嵌入向量和位置嵌入向量组成的待编码嵌入向量;然后将待编码嵌入向量输入BERT模型中进行编码。
使用BERT作为文本序列编码器来获取输入文本序列的词向量表示。给定一个长度为N的输入文本序列e=[e1,e2,…,eN],其中ei表示输入文本序列中的第i个单词,需要先将e转换为BERT模型输入需要的嵌入向量t=[t1,t2,…,tN],该向量由词嵌入向量WT、分割嵌入向量WS和位置嵌入向量WP相加而得,计算公式为t=WT+WS+WP。然后,将嵌入向量t输入BERT模型进行编码,其输出向量x=[x1,x2,…,xN]就是输入文本序列的词向量表示,其中xi表示第i个单词的词向量表示,
Figure BDA0003752999980000061
计算公式可表示为x=BERT(t)。
进一步,本案实施例中,实体关系抽取模型利用全连接神经网络来实现标注组件的组合标签标注,将词向量表示中的每个单词标签预测转换为多标签分类问题,利用sigmoid作为激活函数获取每个单词所属组合标签的预测概率,并根据预设的概率阈值来获取单词对应的标签映射。
将每个单词的标签预测转化为多标签分类问题,而不是传统的多分类问题。首先,增强序列标记组件使用全连接神经网络实现,激活函数使用sigmoid。其次,将每个单词的词向量表示输入组件,输出每个单词所属标签的预测概率,计算公式可表示为pi=sigmoid(Wsxi+bs)。其中
Figure BDA0003752999980000062
R为预定义关系的数量,Ws(g)表示可训练的权重矩阵,xi表示第i个单词的词向量表示,bs表示可训练的偏置常数。最后,如果每个单词所属标签的预测概率超过设定阈值,则映射结果为1,否则为0。
进一步地,本案实施例中,实体关系抽取模型利用全连接网络神经网络来实现实体相关矩阵的组合标签信息交互,利用sigmoid作为激活函数获取组合标签为头实体开始单词和尾实体开始单词之间的相关概率,并根据预设的相关概率阈值来得到对应组合标签映射。
引入实体相关矩阵用来增强头实体开始单词和尾实体开始单词的交互,减少输出无意义的实体关系三元组,假设模型最大输入文本序列长度为M,则实体相关矩阵的维度为[M,M]。首先,实体相关矩阵使用全连接神经网络实现,激活函数使用sigmoid。其次,将每个单词的词向量表示输入矩阵,输出头实体开始单词和尾实体开始单词的相关概率,计算公式可表示为pis,js=sigmoid(Wm[xis;xjs]+bm)。其中,Wm(g)表示的是可训练的权重矩阵,xis表示第i个头实体开始单词的词向量表示,xjs表示第j个尾实体开始单词的词向量表示,bm表示可训练的偏置常数。最后,如果头实体开始单词和尾实体开始单词的相关概率超过设定阈值,则映射结果为1,否则为0。
进一步地,本案实施例中,实体关系抽取模型解码器,首先根据标注组件的标签映射解码出具有关系的头实体和尾实体,以根据标签索引来寻找组合标签;然后,通过将具有相同关系的头实体和尾实体两两组合来生成实体关系三元组,并根据实体相关矩阵的组合标签映射结果来解码出具有关系的头实体开始单词和尾实体开始单词的组合;最后,将标注组件标签映射的解码输出和实体相关矩阵的组合标签映射的解码输出进行匹配,保留有关系的实体关系三元组。
解码器由解码增强序列标注组件和解码实体相关矩阵构成。首先,根据增强序列标记组件的输出映射结果,解码具有关系的头实体和尾实体。解码实体可以根据头实体开始单词的标签索引,+R找到头实体内部单词的标签索引,+2×R找到尾实体开始单词的标签索引,+3×R找到尾实体内部单词的标签索引。对应的实体解码算法如下算法1所示:
算法1实体解码算法
Figure BDA0003752999980000071
然后,将具有相同关系的头实体和尾实体两两组合即可生成实体关系三元组。根据实体相关矩阵的输出映射结果,可以解码得到具有关系的头实体开始单词和尾实体开始单词的组合,对应的算法如算法2所示:
算法2实体关系三元组解码算法
Figure BDA0003752999980000072
Figure BDA0003752999980000081
最后将增强序列标记组件的解码结果和实体相关矩阵的解码结果进行匹配,保留有关系的实体关系三元组,删除无意义的实体关系三元组,从而得到最终的抽取结果。
进一步地,本案实施例中,构建由标注组件损失函数和实体相关矩阵损失函数组成的组合损失函数,并利用NYT、NYT*、WebNLG、WebNLG*四个数据集对实体关系抽取模型进行训练,在训练过程中标注组件和实体相关矩阵共享编码器的编码输出。
以联合学习的方式训练模型,在模型训练期间,增强序列标记组件和实体相关矩阵共享文本序列编码器的编码结果,对组合损失函数进行优化。因此,该组合损失函数由增强序列标注组件的损失函数和实体相关矩阵的损失函数两个部分组成,计算公式分别如下所示:
Figure BDA0003752999980000082
Figure BDA0003752999980000083
其中,N表示一个输入文本序列的长度,R表示预定义关系的数量,M表示输入文本序列的最大长度,yi,j表示真实的标签,pi,j和pis,jspis,js示增强序列标注组件中和实体相关矩阵中每个元素的输出概率。最终整体的损失函数可如下所示:
Figure BDA0003752999980000084
进一步地,基于上述的方法,本发明实施例还提供一种基于增强序列标注策略的单阶段联合实体关系抽取***,包含:模型训练模块和目标抽取模块,其中,
模型训练模块,用于通过构建实体关系抽取模型并进行模型训练,其中,实体关系抽取模型包含用于对输入的文本序列进行编码来输出对应单词词向量表示的编码器,用于对词向量表示进行标签映射的标注组件和实体相关矩阵,用于对标签映射结果进行解码来抽取相关实体关系三元组的解码器;标签映射中,利用标注组件对词向量表示标注由实***置、单词在实体中位置及关系类型组成的组合标签,并利用实体相关矩阵增强组合标签之间的信息交互;
目标抽取模块,用于将待抽取的目标文本序列输入已训练的实体关系抽取模型,利用该已训练的实体关系抽取模型来输出目标文本序列的相关实体三元组。
为验证本案方案有效性,下面结合试验数据做进一步解释说明:
在NYT*和WebNLG*数据集上对句子中存在的不同关系重叠类型进行了实验,结果如图3所示。同时,对句子中存在的不同实体关系三元组数量进行了实验,结果如表2所列。
表2本发明模型与基线模型在句子中存在的不同实体关系三元组数量情况下的F1值对比结果
Figure BDA0003752999980000091
由图3和表2可以看出:本案方案基于增强序列标注策略的单阶段联合实体关系抽取在重叠关系和多元实体关系三元组等复杂场景下的实体关系抽取能力明显优于传统的联合抽取模型,而且即使句子中包含的三元组数量不断增加,也能基本保持稳定的抽取性能。
模型通过引入实体相关矩阵增强头实体和尾实体的本发明交互,有效提升了抽取效果。为了证明这一组件的有效性,设计了两组消融实验。第一组消融实验是去掉了实体相关矩阵,第二组消融实验是使用关系预测组件替换实体相关矩阵,实验结果如表3所列。
表3消融实验结果
Figure BDA0003752999980000092
通过第一组消融实验结果可以发现,引入实体相关矩阵能够显著提升精确率,在NYT*/NYT数据集上分别提升了3.6%和3.7%,在WebNLG*/WebNLG数据集上分别提升了0.5%和0.7%,说明仅使用序列标注组件会生成大量无意义的候选实体关系三元组,实体相关矩阵能够起到很好的辅助作用。然而,由于实体相关矩阵较为稀疏,导致在删除无意义候选实体关系三元组的同时,也删除了部分正确的实体关系三元组,因此召回率比较低。
图4展示本案模型、CasRel模型和TPLinker模型在WebNLG*数据集上训练时F1值的变化情况,表4展示了这三个模型在参数量以及在设置不同批大小的情况下单句推理时间的统计信息。
表4计算效率分析结果
Figure BDA0003752999980000101
从图4中可以看到,本案模型在第14轮的时候已经趋近于收敛,显著早于CasRel模型和TPLinker模型,大大减少了训练成本。从表4中可以看到,本案模型是三个模型中参数量最小的,却是三个模型中单句推理速度最快的。
参见图2所示,输入文本序列为“张三五自编自导了《功夫》”,预定义的关系为“导演”和“主演”,则每个单词的标签总共有9个,详细标签已经在图5左侧列出,其中第1行为非实体标签,第2行至第5行为头实体标签,第6行至第9行为尾实体标签。该文本包含(张三五,导演,功夫)和(张三五,主演,功夫)两个实体关系三元组,第一个实体关系三元组的标注结果在图2和4中浅灰色方块标记,第二个实体关系三元组在图2和4中深灰色方块标记,其余非实体的单词在图2中方块标记。
增强序列标记组件的映射结果如图2中的(c)所示,首先,遍历标记为1的头实体标签可以解码得到具有关系的头实体(导演,张三五)和(主演,张三五),遍历标记为1的尾实体标签可以解码得到具有关系的尾实体(导演,《功夫)、(导演,功夫)和(主演,功夫)。然后,将关系为“导演”的头实体和尾实体两两组合生成实体关系三元组(张三五,导演,《功夫)和(张三五,导演,功夫),将关系为“主演”的头实体和尾实体两两组合生成实体关系三元组(张三五,主演,功夫)。
实体相关矩阵的映射结果如图2中的(d)所示,遍历标记为1的所有元素可以解码得到相关开始单词组合(张,功)。最后将增强序列标记组件的解码结果和实体相关矩阵的解码结果进行匹配,保留有关系的实体关系三元组,删除无意义的实体关系三元组,从而得到最终的抽取结果,详细过程如算法2所示。如图2中的解码模块所示,(张三五,导演,《功夫)的开始单词组合为(张,《),不是开始单词相关组合,结果删除;(张三五,导演,功夫)的开始单词组合为(张,功),是开始单词相关组合,结果保留;(张三五,主演,功夫)的开始单词组合为(张,功)是开始单词相关组合,结果保留。所以,最终的实体关系抽取结果为(张三五,导演,功夫)和(张三五,主演,功夫)。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的各实例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不认为超出本发明的范围。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如:只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于增强序列标注策略的单阶段联合实体关系抽取方法,其特征在于,包含如下内容:
构建实体关系抽取模型并进行训练,其中,实体关系抽取模型包含用于对输入的文本序列进行编码来输出对应单词词向量表示的编码器,用于对词向量表示进行标签映射的标注组件和实体相关矩阵,用于对标签映射结果进行解码来抽取相关实体关系三元组的解码器;标签映射中,利用标注组件对词向量表示标注由实***置、单词在实体中位置及关系类型组成的组合标签,并利用实体相关矩阵增强组合标签之间的信息交互;
将待抽取的目标文本序列输入已训练的实体关系抽取模型,利用该已训练的实体关系抽取模型来输出目标文本序列的相关实体三元组。
2.根据权利要求1所述的基于增强序列标注策略的单阶段联合实体关系抽取方法,其特征在于,实体关系抽取模型利用BERT模型结构作为编码器来获取输入文本序列的词向量表示,且在BERT模型中,首先,将输入文本序列转换为由词嵌入向量、分割嵌入向量和位置嵌入向量组成的待编码嵌入向量;然后将待编码嵌入向量输入值BERT模型中进行编码。
3.根据权利要求1所述的基于增强序列标注策略的单阶段联合实体关系抽取方法,其特征在于,实体关系抽取模型中利用全连接神经网络来实现标注组件的组合标签标注,将词向量表示中的每个单词标签预测转换为多标签分类问题,利用sigmoid作为激活函数获取每个单词所属组合标签的预测概率,并根据预设的概率阈值来获取单词对应的标签映射。
4.根据权利要求3所述的基于增强序列标注策略的单阶段联合实体关系抽取方法,其特征在于,每个单词所述组合标签的预测概率的计算过程表示为:pi=sigmoid(Wsxi+bs),其中,pi∈i1×(4×R+1),R为预定义实体关系的数量,Ws(g)表示网络可训练的权重矩阵,xi表示第i个单词的词向量表示,bs表示网络可训练的偏置常数。
5.根据权利要求1所述的基于增强序列标注策略的单阶段联合实体关系抽取方法,其特征在于,实体关系抽取模型中利用全连接网络神经网络来实现实体相关矩阵的组合标签信息交互,利用sigmoid作为激活函数获取组合标签为头实体开始单词和尾实体开始单词之间的相关概率,并根据预设的相关概率阈值来得到对应组合标签映射。
6.根据权利要求5所述的基于增强序列标注策略的单阶段联合实体关系抽取方法,其特征在于,组合标签为头实体开始单词和尾实体开始单词的相关概率计算过程表示为:pis,js=sigmoid(Wm[xis;xjs]+bm),其中,Wm(g)表示网络可训练的权重矩阵,xis表示第i个头实体开始单词的词向量表示,xjs表示第j个尾实体开始单词的词向量表示,bm表示网络可训练的偏置常数。
7.根据权利要求5所述的基于增强序列标注策略的单阶段联合实体关系抽取方法,其特征在于,实体关系抽取模型中的解码器,首先根据标注组件的标签映射解码出具有关系的头实体和尾实体,以根据标签索引来寻找组合标签;然后,通过将具有相同关系的头实体和尾实体两两组合来生成实体关系三元组,并根据实体相关矩阵的组合标签映射结果来解码出具有关系的头实体开始单词和尾实体开始单词的组合;最后,将标注组件标签映射的解码输出和实体相关矩阵的组合标签映射的解码输出进行匹配,保留有关系的实体关系三元组。
8.根据权利要求6所述的基于增强序列标注策略的单阶段联合实体关系抽取方法,其特征在于,构建由标注组件损失函数和实体相关矩阵损失函数组成的组合损失函数,并利用NYT、NYT*、WebNLG、WebNLG*四个数据集对实体关系抽取模型进行训练,在训练过程中标注组件和实体相关矩阵共享编码器的编码输出。
9.根据权利要求8所述的基于增强序列标注策略的单阶段联合实体关系抽取方法,其特征在于,组合损失函数表示为:
Figure FDA0003752999970000021
其中,
Figure FDA0003752999970000022
Figure FDA0003752999970000023
N表示输入文本序列的长度,R表示预定义关系的数量,M表示输入文本序列的最大长度,yi,j表示真实的标签,pi,j和pis,jspis,js示增强序列标注组件中和实体相关矩阵中每个元素的输出概率。
10.一种基于增强序列标注策略的单阶段联合实体关系抽取***,其特征在于,包含:模型训练模块和目标抽取模块,其中,
模型训练模块,用于通过构建实体关系抽取模型并进行模型训练,其中,实体关系抽取模型包含用于对输入的文本序列进行编码来输出对应单词词向量表示的编码器,用于对词向量表示进行标签映射的标注组件和实体相关矩阵,用于对标签映射结果进行解码来抽取相关实体关系三元组的解码器;标签映射中,利用标注组件对词向量表示标注由实***置、单词在实体中位置及关系类型组成的组合标签,并利用实体相关矩阵增强组合标签之间的信息交互;
目标抽取模块,用于将待抽取的目标文本序列输入已训练的实体关系抽取模型,利用该已训练的实体关系抽取模型来输出目标文本序列的相关实体三元组。
CN202210846389.6A 2022-07-19 2022-07-19 基于增强序列标注策略的单阶段联合实体关系抽取方法及*** Pending CN115310445A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210846389.6A CN115310445A (zh) 2022-07-19 2022-07-19 基于增强序列标注策略的单阶段联合实体关系抽取方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210846389.6A CN115310445A (zh) 2022-07-19 2022-07-19 基于增强序列标注策略的单阶段联合实体关系抽取方法及***

Publications (1)

Publication Number Publication Date
CN115310445A true CN115310445A (zh) 2022-11-08

Family

ID=83857754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210846389.6A Pending CN115310445A (zh) 2022-07-19 2022-07-19 基于增强序列标注策略的单阶段联合实体关系抽取方法及***

Country Status (1)

Country Link
CN (1) CN115310445A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115630171B (zh) * 2022-12-21 2023-04-07 白杨时代(北京)科技有限公司 一种实体关系联合抽取方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115630171B (zh) * 2022-12-21 2023-04-07 白杨时代(北京)科技有限公司 一种实体关系联合抽取方法及装置

Similar Documents

Publication Publication Date Title
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN111783462B (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN112100404A (zh) 基于结构化上下文信息的知识图谱预训练方法
CN113158665A (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN111626291B (zh) 一种图像视觉关系检测方法、***及终端
CN113673535B (zh) 一种多模态特征融合网络的图像描述生成方法
CN115879473B (zh) 基于改进图注意力网络的中文医疗命名实体识别方法
CN113190656A (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN113010635B (zh) 一种文本纠错方法及装置
CN114168719A (zh) 一种基于知识图谱嵌入的可解释性多跳问答方法及***
CN111460800A (zh) 一种事件生成方法、装置、终端设备及存储介质
CN112560456A (zh) 一种基于改进神经网络的生成式摘要生成方法和***
CN113971837A (zh) 一种基于知识的多模态特征融合的动态图神经手语翻译方法
CN116069931A (zh) 层级标签文本分类方法、***、设备及存储介质
CN116932722A (zh) 一种基于跨模态数据融合的医学视觉问答方法及***
CN115186147B (zh) 对话内容的生成方法及装置、存储介质、终端
CN114490954B (zh) 一种基于任务调节的文档级生成式事件抽取方法
CN115545033A (zh) 融合词汇类别表征的中文领域文本命名实体识别方法
CN114092931B (zh) 场景文字识别方法、装置、电子设备及存储介质
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN115310445A (zh) 基于增强序列标注策略的单阶段联合实体关系抽取方法及***
CN113688207A (zh) 基于网络的结构阅读理解的建模处理方法和装置
CN111666375B (zh) 文本相似度的匹配方法、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination