CN117251522A - 一种基于潜层关系增强的实体和关系联合抽取模型的方法 - Google Patents
一种基于潜层关系增强的实体和关系联合抽取模型的方法 Download PDFInfo
- Publication number
- CN117251522A CN117251522A CN202311221588.9A CN202311221588A CN117251522A CN 117251522 A CN117251522 A CN 117251522A CN 202311221588 A CN202311221588 A CN 202311221588A CN 117251522 A CN117251522 A CN 117251522A
- Authority
- CN
- China
- Prior art keywords
- layer
- representation
- relationship
- latent
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000000605 extraction Methods 0.000 title claims description 41
- 230000007246 mechanism Effects 0.000 claims abstract description 30
- 238000009826 distribution Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000002474 experimental method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 238000002372 labelling Methods 0.000 description 5
- 238000002679 ablation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于潜层关系增强的实体和关系联合抽取模型的方法,包括文本表示层、潜层关系表示层、融合注意力机制的关系网络层以及解码层,文本表示层用来获取上下文特征表示,由输入Input和Word rep组成;潜变量表示层利用结构化对齐的方式获取文本所蕴含的潜在知识,由Latent space和Refactor组成;融合注意力机制的关系网络层由Relation Module组成,该层采用关系网络学习并获取文本序列中任意元素之间的关系信息,并利用关系注意力机制获取细粒度语义信息的同时降低噪声信息对结果产生的影响。该模型在潜层对获取的上下文特征表示进行进一步的编码和建模,以获取文本序列中所蕴含的潜在知识和语义关系信息,提高模型对文本词汇间关系的捕获能力,从而提高文本最终的特征表示。
Description
技术领域
本发明涉及计算机工程与设计技术领域,具体为一种基于潜层关系增强的实体和关系联合抽取模型的方法。
背景技术
实体和关系联合抽取是信息抽取、知识问答、事实推理、知识图谱构建等一系列任务的核心,其目的是为了从非结构化文本中以三元组(头,关系,尾)的形式抽取出结构化知识。早期的流水线方式不仅容易造成信息的错误传递,同时还忽略了实体抽取和关系抽取两个子任务之间的关联性。当前,更为有效的方式为联合抽取,现有联合抽取研究可分为四种:1.基于序列标注方法;2.基于复制机制方法;3.基于图方法;4.基于预训练语言模型。尽管当前联合抽取能够有效地解决流水线所面临的问题。但在面对重叠三元组问题时,还面临着以下困难和挑战,一方面,联合抽取要求模型能够枚举出所有可能的实体对,这会导致沉重的计算负担;其次,在文本序列中并非所有实体对之间都包含有内部关系,也或具有微弱的关系,这会导致在训练过程中一些实体对会被赋予“无”标签或者错误的标签,使得神经模型难以学习实体对之间的真实关系。
随着深度学***均值后拼接到特征向量中,会造成语义特征信息的丢失。Li等人提出利用BERT模型最后两层输出的隐藏层信息构建二维矩阵特征表示,计算每个实体的位置信息并过滤无用实体。虽然该模型考虑到了文本间的语义关系信息但模型的结构和参数太过于复杂,需要大量的计算资源。张一凡、高建伟等人利用多信息融合和外部知识引入的方法来增加文本所蕴含的语义关系信息,采用将实体知识与知识词嵌入进行融合的方式来提高模型对文本的理解能力,但忽略了原始文本之间的深层语义关系。
因此,为了获取原始文本之间的深层语义关系,同时捕捉序列中词汇、语法以及语义上的潜层关系,本发明在基于序列标注方法研究的基础上,针对当前方法缺少对文本序列中潜层语义关系信息的充分利用问题,提出了一种基于潜层关系增强的实体和关系联合抽取模型的方法。
发明内容
本发明要解决的技术问题是克服现有的缺陷,提供一种基于潜层关系增强的实体和关系联合抽取模型的方法,能够增强文本序列的特征表示,从而提高模型对重叠三元组的抽取能力,可以有效解决背景技术中的问题。
为实现上述目的,本发明提供如下技术方案:一种基于潜层关系增强的实体和关系联合抽取模型的方法,包括文本表示层、潜层关系表示层、融合注意力机制的关系网络层以及解码层,文本表示层用来获取上下文特征表示,由输入Input和Word rep组成;潜变量表示层利用结构化对齐的方式获取文本所蕴含的潜在知识,由Latent space和Refactor组成;融合注意力机制的关系网络层由Relation Module组成,该层采用关系网络学习并获取文本序列中任意元素之间的关系信息,并利用关系注意力机制获取细粒度语义信息的同时降低噪声信息对结果产生的影响。解码层由Decoder组成,该层通过对上层获取到的句子表示进行解码,提取头部和尾部实体并和关系rk进行组合,返回最终三元组结果。
作为本发明的一种优选技术方案,所述文本表示层用于获取输入文本中每个字符带有上下文信息的特征表示,分别采用长短时记忆网络LSTM和BERT预训练语言模型对句子进行编码,通过编码,得到文本序列的上下文表示Si={h1,h2,...,hn|hi∈Rd},其中n表示句子长度,d表示编码嵌入维度。
作为本发明的一种优选技术方案,所述融合注意力机制的关系网络层对于给定的上下文表示,为了获取其在不同距离下的局部信息,首先计算任意距离内两个词表示xi和xj之间的得分向量rh,然后对rh求平均,其中Ri是通过直接特征融合操作全局上下文特征的向量,计算如公式(2)(3)所示:
rh=Wrx[xi;xj]+brx (2)
利用关系的注意力机制来加强实体与实体之间的内部关系,并为每个关系下的上下文词分配不同的权重,同时对噪声信息进行选择过滤,具体计算如公式(4)(5):
eik=vTtanh(Wrrk+WRRi+Wxxi) (4)
其中xi表示特征融合的上下文表示rk表示当前的关系,v、Wr、WR、Wx表示可训练权重,αik表示特征表示的注意力得分,最终,融合关系的特定句子表示如公式(6):
对于获取的融合关系的特定句子表示sk,若该种关系对句子起到肯定作用,则融合关系的句子表示才会对实体的抽取起到积极作用;相反的,该种关系则会混淆解码过程;为此,对sk进行进一步的处理,以降低负面关系信息对最终结果的影响,具体计算如公式(7)(8):
pk=qk☉tanh(W3sk+b3) (8)
其中表示拼接操作,⊙表示点积操作,由于Sigmoid函数的返回值为0-1,则qk可以视为需要保留信息的比例,pk则表示关系信息保留的多少,最终,通过把rh和pk进行拼接,得到最终的单词表示,见公式(9):
作为本发明的一种优选技术方案,所述潜层关系表示层用于获取文本序列潜层空间表示,并在潜层空间上利用结构化对齐的方式获取文本所蕴含的结构化信息,使模型在学习语义特征的同时学习到文本所蕴含结构化信息,从而增强最终的特征表示Hi k。
作为本发明的一种优选技术方案,所述潜层关系表示层将获取到的特征表示映射到潜层空间上,得到潜变量表示Z,并在潜层空间上利用沃瑟斯坦距离将实验数据的实体分布与假设先验的标准正态分布对齐;通过减少它们之间的沃瑟斯坦距离来减少分布之间的差异,进而获取文本所蕴含的潜在结构化知识;该层还能将输入的数据以概率分布的形式嵌入到潜层空间中,可以帮助捕获复杂的实体分布并且保留语义结构。特别的,为了方便计算,使用最大均值差异来近似沃瑟斯坦距离,最大均值差异主要用来度量两个不同但相关的随机变量的分布距离。计算公式如(10):
其中,p(z)=N(0,1)为假设先验的标准正态分布;Z为上下文特征映射到潜层空间上的潜变量表示,q(z)=N(μz,σz 2)其中μz=f(Wμhn+bμ), Wμ、bμ和bμ、bσ表示可训练的参数。在语言模型中,利用获取到的潜变量Z对输入序列X=[x1,x2,...,xn]进行重构来获取上下文语义表示信息。具体来说,q(z)在经过潜层空间变化后,将采样得到的潜变量Z通过映射得到隐藏状态hz,计算公式如(11):
hz=f(Wzq(z)+bz) (11)
其中,Wz、bz是可训练的参数,hz作为初始的解码状态,对输入文本序列进行重构,得到X’=[X1’,X2',...,Xn’],并利用语言模型重新学习输入序列的潜在表示,从而获得既遵循源语义信息又保留结构化信息的语义表示。在语言模型训练过程中,采用重构损失作为损失函数。综上,潜层关系表示层的损失函数由MMD和重构损失组成,计算公式如(12):
其中λ表示MMD损失所占的权重,在经过多轮实验的验证,本文取λ=1.0。
作为本发明的一种优选技术方案,在所述解码层中执行特定关系的解码过程,对于给定的融合上下文关系的句子表示Hi k将其通过一个双向LSTM,将每个单词映射到标记空间,同时为了获取标签之间的相互依赖关系,利用CRF对LSTM的输出进行处理,对于待预测的标签序列y=(y1,y2,…,yL)通过以下公式(13)(14)(15)求得:
其中,Wo和bo表示可训练参数,logP(y|oi k),P表示第i个单词在关系sk下被预测的概率,表示从第t-1个标签转到t个标签的概率;/> 表示第t个词映射到第t个标签的概率。
与现有技术相比,本发明的有益效果是:利用结构化对齐的方式获取文本所蕴含的潜在知识,并通过关系网络加强任意元素间的关系依赖,同时结合关系注意力机制捕获句子中细粒度语义关系信息、过滤噪声信息。最终,主要的有益效果归纳为以下三点:
(1)为了深入获取文本内部潜在的语义关系特征以提高重叠三元组的抽取能力,提出了一种将结构化对齐与关系网络相结合的SREM,该模型能在一定程度上解决重叠三元组问题;
(2)为了获取细粒度的语义信息并过滤掉噪声信息,提出了一种基于关系注意力机制的关系网络,可以更好的构造上下文特征表示;
(3)该文在两个公开数据集上的实验表明,SREM通过增强文本的潜层关系表示,在准确率、召回率以及F1值指标上均表现优秀,验证了模型的有效性。
附图说明
图1为不同重叠类型示例图;
图2为本发明潜层关系增强演示图;
图3为标记方案实例图;
图4为模型SREM整体架构图;
图5为融合关系注意力机制的关系网络图;
图6为在NYT数据集上不同重叠形式下各个方法的F1值的示意图;
图7为句子中含有不同三元组个数时的F1值的示意图;
图8为SREM算法优化。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
联合抽取的目的是在预定义实体和关系类别的基础上,提取出非结构化文本中结构化实体对和它们之间的关系。其中,一个实体对之间的关系可以表示为一个三元组(si,r,oi),si和oi分别表示头部实体和尾部实体,r表示两个实体之间特定的关系。我们的目标是抽取三元组集合Y={(s1,r1,o1),…,(si,ri,oi)|si,oi∈E,ri∈R},其中E和R分别表示预定义的实体集和关系集。
在本申请中,对给定序列,X=(x1,x2,…,xL)其目标是为每个序列分配一个标签,并输出相应的全局最佳标签序列Y=(y1,y2,…,yL)。序列到序列学习的目的是直接对条件概率建模,将一个输入序列映射输出序列,即:
Y=(y1,y2,y3,…,yL)=arg maxyP(y|x) (1)
其中Y为最大化标签之后的输出序列,x和y分别表示输入序列和输出序列。
本申请的标记方案采用典型的BIES(Begin,Inside,End,Single)标签体系,并将三元组的头部标签H和尾部标签T合并到标签体系中,作为实体的标签序列。在标注句子的时候,只有关系对应的头部和尾部实体会被标注,其他单词都被标注为标签0。并且,当一个句子中含有多个三元组时,会根据不同的关系生成不同的标签序列。具体标记方案如图3所示,可以看到,句子中由两个三元组(Apple,Founder,Steve Jobs)和(Steve Jobs,Bornin,American San Francisco),这两个三元组中具有重叠的实体Steve Jobs。该标记方案将根据句子中不同的关系Founder和Born,生成了不同的标记序列。
请参阅图4-8,本发明提供一种技术方案:一种基于潜层关系增强的实体和关系联合抽取模型的方法,SREM整体架构如图4所示,主要由四部分组成:包括文本表示层、潜层关系表示层、融合注意力机制的关系网络层以及解码层,文本表示层用来获取上下文特征表示,由输入Input和Word rep组成;潜变量表示层利用结构化对齐的方式获取文本所蕴含的潜在知识,由Latent space和Refactor组成;融合注意力机制的关系网络层由RelationModule组成,该层采用关系网络学习并获取文本序列中任意元素之间的关系信息,并利用关系注意力机制获取细粒度语义信息的同时降低噪声信息对结果产生的影响。解码层由Decoder组成,该层通过对上层获取到的句子表示进行解码,提取头部和尾部实体并和关系rk进行组合,返回最终三元组结果。
文本表示层:该层的目的是获取输入文本中每个字符带有上下文信息的特征表示,分别采用长短时记忆网络LSTM和BERT预训练语言模型对句子进行编码,通过编码,得到文本序列的上下文表示Si={h1,h2,...,hn|hi∈Rd},其中n表示句子长度,d表示编码嵌入维度。
融合注意力机制的关系网络层:基于数据的标记方案,相同的词在不同关系下所扮演的角色也很可能是不同的,同时考虑到句子中相邻单词之间可能存在很强的依赖性,局部上下文对于预测标签至关重要。例如,方位词经常与介词in、on、at等一起出现。因此,有必要捕获每个单词的局部上下文信息。为了融合局部与全局的上下文关系信息同时获取不同关系下的细粒度语义特征。该文设计了一种融合关系注意力机制的关系网络,整体结构如图5所示。该网络不仅在模拟长期依赖方面是有效的,同时它可以获取细粒度的语义关系信息并根据不同的关系生成不同的上下文表示。
很明显,局部依赖性并不局限在一定距离内。因此,对于给定的上下文表示,为了获取其在不同距离下的局部信息,首先计算任意距离内两个词表示xi和xj之间的得分向量rh,然后对rh求平均,其中Ri是通过直接特征融合操作全局上下文特征的向量,计算如公式(2)(3)所示:
rh=Wrx[xi;xj]+brx (2)
但是,在一个句子中非实体词占绝大部分,这种操作可能会引入大量的无关噪声而导致结果预测的偏差。为此,本申请利用关系的注意力机制来加强实体与实体之间的内部关系,并为每个关系下的上下文词分配不同的权重,同时对噪声信息进行选择过滤,具体计算如公式(4)(5):
eik=vTtanh(Wrrk+WRRi+Wxxi) (4)
其中xi表示特征融合的上下文表示rk表示当前的关系,v、Wr、WR、Wx表示可训练权重,αik表示特征表示的注意力得分,最终,融合关系的特定句子表示如公式(6):
对于获取的融合关系的特定句子表示sk,若该种关系对句子起到肯定作用,则融合关系的句子表示才会对实体的抽取起到积极作用;相反的,该种关系则会混淆解码过程;为此,对sk进行进一步的处理,以降低负面关系信息对最终结果的影响,具体计算如公式(7)(8):
pk=qk☉tanh(W3sk+b3) (8)
其中表示拼接操作,⊙表示点积操作,由于Sigmoid函数的返回值为0-1,则qk可以视为需要保留信息的比例,pk则表示关系信息保留的多少,最终,通过把rh和pk进行拼接,得到最终的单词表示,见公式(9):
潜层关系表示层:该层的目的是获取文本序列潜层空间表示,并在潜层空间上利用结构化对齐的方式获取文本所蕴含的结构化信息,使模型在学习语义特征的同时学习到文本所蕴含结构化信息,从而增强最终的特征表示Hi k。
具体的,将获取到的特征表示映射到潜层空间上,得到潜变量表示Z,并在潜层空间上利用沃瑟斯坦距离(Wasserstein Distance,WD)将实验数据的实体分布与假设先验的标准正态分布对齐。通过减少它们之间的沃瑟斯坦距离来减少分布之间的差异,进而获取文本所蕴含的潜在结构化知识。该层还能将输入的数据以概率分布的形式嵌入到潜层空间中,可以帮助捕获复杂的实体分布并且保留语义结构。特别的,为了方便计算,使用最大均值差异(Maximum Mean Difference,MMD)来近似WD,MMD主要用来度量两个不同但相关的随机变量的分布距离。计算公式如(10):
其中,p(z)=N(0,1)为假设先验的标准正态分布;Z为上下文特征映射到潜层空间上的潜变量表示,q(z)=N(μz,σz 2)其中μz=f(Wμhn+bμ), Wμ、bμ和bμ、bσ表示可训练的参数。
在语言模型(Language Model,LM)中,利用获取到的潜变里Z对输入序列X=[x1,x2,...,xn]进行重构来获取上下文语义表示信息。具体来说,q(z)在经过潜层空间变化后,将采样得到的潜变量Z通过映射得到隐藏状态hz,计算公式如(11):
hz=f(Wzq(z)+bz) (11)
其中,Wz、bz是可训练的参数,hz作为初始的解码状态,对输入文本序列进行重构,得到X’=[X1’,X2',...,Xn’],并利用语言模型重新学习输入序列的潜在表示,从而获得既遵循源语义信息又保留结构化信息的语义表示。在语言模型训练过程中,采用重构损失作为损失函数。综上,潜层关系表示层的损失函数由MMD和重构损失组成,计算公式如(12):
其中λ表示MMD损失所占的权重,在经过多轮实验的验证,本文取λ=1.0。
在解码层中,执行特定关系的解码过程,对于给定的融合上下文关系的句子表示Hi k将其通过一个双向LSTM,将每个单词映射到标记空间,同时为了获取标签之间的相互依赖关系,利用CRF对LSTM的输出进行处理,对于待预测的标签序列y=(y 1,y 2,…,y L)通过以下公式(13)(14)(15)求得:
其中,Wo和bo表示可训练参数,logP(y|oi k),P表示第i个单词在关系sk下被预测的概率,表示从第t-1个标签转到t个标签的概率;/> 表示第t个词映射到第t个标签的概率。
目标和优化:
目标函数:为了获得更好的抽取结果以及对文本序列中的潜在语义信息进行更好的建模,模型对两个任务进行联合训练。第一是联合抽取任务,用来约束关系抽取过程,损失函数采用标准条件随机场中的负对数似然损失,用Lner表示;第二是辅助任务,用来约束数据的建模过程,损失函数采用MMD和重构损失组成的Lwae。最终模型的整体损失函数可以表示为:
Lall=αLner+βLwae (16)
其中,α和β是超参数,分别表示联合抽取任务和辅助任务的可调权重。
算法优化:具体请参考图8。
实验结果和分析:
实验数据:为了验证模型的有效性,本申请在两个公开数据集NYT和WebNLG上对模型进行了评估。数据集的具体统计信息如表1所示。
表1数据集的具体统计信息
实验参数:实验采用Adam算法作为模型的优化算法。若模型编码器采用BERT预训练语言模型,则采用小批量训练,批处理大小设置为6;若采用LSTM作为编码器,则批处理大小设置为32。
具体模型的参数设置如表2所示。
表2实验参数设置表
评价指标:为了对SREM进行评估,采用准确率P、召回率R和F1值作为模型的评价指标,并将F1值作为主要的指标。
对比方法:为了对比验证SREM效果,将其与以下近年来较为先进的实体关系联合抽取方法进行对比:
表3实验结果对比表
ETL-Span:该方法引入分解和跨度策略,首先区分所有头部实体,然后识别相应的尾部实体和关系,但面临头尾实体交互缺失问题。
CASREL:提出了一种级联二进制标记框架,对三元组进行整体的建模。为了应对特征丢失问题需要对实体进行剪枝。
CGT:该模型采用带有生成Transformer的对比训练方法,还引入分批动态注意掩蔽和三重校准两种机制来提高结果可靠性。
BSTP:该方法采用Transformer语法引导神经网络,将Transformer与指针网络连接在一起,共同提取实体和关系。
CopyMTL:该方法改进了CopyRE的复制策略,应用多任务学习框架解决了多标记实体的生成问题,但三元组的数量受到限制。
BERT-JEORE:提出一个端到端的网络模型,利用BERT共享编码进行联合抽取。但该模型采用参数共享方法,会更容易造成误差传递。
实验结果:为了验证SREM的有效性,本申请在两个不同的公开数据集上进行实验,并将实验结果与其他相关研究进行了对比。实验结果如表3所示,整体来看,SREM在联合抽取任务中对比基准模型都取得了很好的结果。
特别的,在实验中SREM lstm代表模型编码器为LSTM,SREM bert代表模型的编码器为预先训练好的BERT预训练语言模型。
分析表3可知,SREM在两个公开数据集上准确率、召回率和F1值均有提升。在数据集NYT上,SREM lstm模型对比目前先进的基准模型CASREL lstm,F1值提升了1.71%,精准率和召回率也分别提升了2.1%和1.35%;当编码器都采用BERT预训练语言模型后SREMbert对比CASRELbert,F1值提升了2.8%,精准率和召回率也分别提升1.76%和3.85%。在数据集WebNLG上,SREM lstm对比CASREL lstm,F1值提升了0.03%,召回率提升了4.11%;SREM bert对比CASRELbert,召回率和F1值分别提升了3.47%和0.72%。结果表明,即使没有使用BERT预训练语言模型编码,SREM的效果也能达到前列,验证了增强并利用文本的潜层语义关系信息对于模型性能的提升是有帮助的。
从表中还可以观察到,现有的基准模型在NYT和WebNLG数据集上所取得的性能存在显著差异,这种差异是由模型在处理重叠三元组能力上的不足所造成的。具体来说,由表2所示,可以清楚的发现NYT数据集,主要由Normal类组成,而WebNLG数据集则主要由EPO类和SEO类组成。由于两个数据集分布的不一致导致其它基线模型在NYT上取得的效果与在WebNLG上存在显著的差异。相比之下,SREM在数据集NYT和WebNLG上都实现了稳定的效果,同样也证明了所提出的模型在解决重叠问题方面的有效性。
实验分析:
根据在NYT数据集上进行的这组实验,分别从重叠问题分析、三元组个数分析、消融实验和负相关参数分析四个方面对模型进行进一步分析。
重叠问题分析:为了进一步验证SREM具有解决重叠三元组问题的能力,我们对NYT数据集的不同句子类型做了进一步的扩展实验,并和其他方法进行对比。图6展示了各个方法在Normal类、EPO类和SEO类三种不同类型下的F1得分。
分析图6可知,SREM在Normal类和EPO类上对比其他基线模型取得了最优的结果,F1值分别为88.5%和93.5%,但在SEO类上F1得分不及CASREL和BSTP模型。其次,还可以观察到,大多数模型在抽取重叠情况下的效果相比于正常情况下提升效果不明显甚至会有下降趋势,而我们的SREM在抽取多实体重叠情况下的效果相比于正常情况下提升效果明显。原因在于SREM能够有效的捕捉文本要素之间的结构知识和潜在关系信息,可以更好的解读复杂句子中的关键重要信息。综上所述,SREM对于处理实体和关系联合抽取中存在的重叠三元组问题具备有效性。
三元组个数问题分析:在实验中,根据句子中含有三元组个数的不同将测试集的句子分为五种,分别为含有1、2、3、4、≥5个三元组。图7展示了各个方法在含有不同三元组个数句子中的F1得分。
根据图7可以观察到,与其他模型相比,SREM在提取多个三元组上有了很大的提升。并且,随着句子中三元组个数的增多,SREM表现得更加稳定。当句子的中三元组个数为2个、3个和4个时,SREM对比基线模型都取得了最优的结果。特别的,当句子中含有三元组的个数为4个时效果最好。证明了SREM在抽取复杂句子情况下的优势。
消融实验分析:为了验证SREM各部分模块的有效性,在NYT数据集上进行了消融实验,实验对比结果如表4所示。其中,SREM-HD表示消去潜层关系表示层;SREM-RN表示消去关系网络层;SREM-ATT表示消去关系注意力机制。
表4消融实验结果
结果表明,三个模块对实验结果都有不同程度的提升,其中关系注意力机制对结果的提升最大。将原因归结于以下几点。(1)潜层关系表示层可以获取文本所蕴含的结构化知识,能够为句子提供额外的语义与句法信息。(2)关系网络层通过计算文本中任意两个元素之间隐含的内在关系,将获取到的局部特征融合到全局特征中,为关系的表示和抽取提供了更好的表示。(3)为了验证关系注意力机制的作用,我们不再构建基于注意力机制的句子表示(公式6),直接使用关系嵌入作为实体抽取的指导。结果表明,模型的精确度下降明显。相反,注意力机制可以从不同的维度获取句子的细粒度语义特征,并且可以减少无关信息带来的噪声,更好的解读复杂句子中的关键信息。综上所述,潜层关系表示、关系网络和关系注意力机制对SREM性能的提升是有效的。
负相关参数分析:在文本中,相比于实体来说,关系的数量要少得多,若在训练过程中,对所有给定关系进行实体解码,将会产生大量的负样本,使得训练很难收敛。所以在训练过程中采取了一种负采样策略,从当前语句中所有负样本中随机选取nneg个负样本来参与模型训练。这里的nneg是一个超参数,在这样的负样本中,由于没有基于这些负面关系的三元组,故将所有的单词都将被标记为标签0。对于一个存在nsp个三元组的正样本句子S来说,模型在解码时会生成ns=nneg+nsp个标签序列。为了平衡模型的收敛速度和泛化能力,在每次迭代训练过程中,随机抽取句子中nneg个负相关关系。通常来说,构建更多的负样本可以提高模型的稳定性和鲁棒性,但在实验中并不认为负样本越多越好,而是针对不同的数据集和不同的模型,合理的做选取。在适当的设置计数随机抽样的情况下,随着迭代次数的增加,几乎可以覆盖句子的所有负关系。因此,nneg应该有一个合理的上限,当超过这个上限值之后,模型的性能就不会再有提高。
在NYT数据集中有24种关系类型。在实验中,基于关系的平均,尝试将nneg的取值区间设置为{2,4,6,8}。经过多轮实验验证,当nneg设置为6时,模型的收敛速度和准确率都取得了最好的性能。因此,将nneg=6设置为最佳的参数,不仅可以加速模型的训练过程,也可以更好地保证模型的性能。
本发明提出的提出了一个基于潜层关系增强的实体和关系联合抽取模型SREM。该模型在潜层对获取的上下文特征表示进行进一步的编码和建模,以获取文本序列中所蕴含的潜在知识和语义关系信息,提高模型对文本词汇间关系的捕获能力,从而提高文本最终的特征表示。实验结果表明,在数据集NYT和WebNLG上取得的F1值分别为92.40%和92.52%,验证了该模型可以有效解决三元组重叠问题。
本发明中未公开部分均为现有技术,其具体结构、材料及工作原理不再详述。尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.一种基于潜层关系增强的实体和关系联合抽取模型的方法,其特征在于:包括文本表示层、潜层关系表示层、融合注意力机制的关系网络层以及解码层,文本表示层用来获取上下文特征表示,由输入Input和Word rep组成;潜变量表示层利用结构化对齐的方式获取文本所蕴含的潜在知识,由Latent space和Refactor组成;融合注意力机制的关系网络层由Relation Module组成,该层采用关系网络学习并获取文本序列中任意元素之间的关系信息,并利用关系注意力机制获取细粒度语义信息的同时降低噪声信息对结果产生的影响。解码层由Decoder组成,该层通过对上层获取到的句子表示进行解码,提取头部和尾部实体并和关系rk进行组合,返回最终三元组结果。
2.根据权利要求1所述的一种基于潜层关系增强的实体和关系联合抽取模型的方法,其特征在于:所述文本表示层用于获取输入文本中每个字符带有上下文信息的特征表示,分别采用长短时记忆网络LSTM和BERT预训练语言模型对句子进行编码,通过编码,得到文本序列的上下文表示Si={h1,h2,...,hn|hi∈Rd},其中n表示句子长度,d表示编码嵌入维度。
3.根据权利要求2所述的一种基于潜层关系增强的实体和关系联合抽取模型的方法,其特征在于:所述融合注意力机制的关系网络层对于给定的上下文表示,为了获取其在不同距离下的局部信息,首先计算任意距离内两个词表示xi和xj之间的得分向量rh,然后对rh求平均,其中Ri是通过直接特征融合操作全局上下文特征的向量,计算如公式(2)(3)所示:
rh=Wrx[xi;xj]+brx (2)
利用关系的注意力机制来加强实体与实体之间的内部关系,并为每个关系下的上下文词分配不同的权重,同时对噪声信息进行选择过滤,具体计算如公式(4)(5):
eik=vTtanh(Wrrk+WRRi+Wxxi) (4)
其中xi表示特征融合的上下文表示rk表示当前的关系,v、Wr、WR、Wx表示可训练权重,αik表示特征表示的注意力得分,最终,融合关系的特定句子表示如公式(6):
对于获取的融合关系的特定句子表示sk,若该种关系对句子起到肯定作用,则融合关系的句子表示才会对实体的抽取起到积极作用;相反的,该种关系则会混淆解码过程;为此,对sk进行进一步的处理,以降低负面关系信息对最终结果的影响,具体计算如公式(7)(8):
pk=qk⊙tanh(W3sk+b3) (8)
其中⊕表示拼接操作,⊙表示点积操作,由于Sigmoid函数的返回值为0-1,则qk可以视为需要保留信息的比例,pk则表示关系信息保留的多少,最终,通过把rh和pk进行拼接,得到最终的单词表示,见公式(9):
4.根据权利要求3所述的一种基于潜层关系增强的实体和关系联合抽取模型的方法,其特征在于:所述潜层关系表示层用于获取文本序列潜层空间表示,并在潜层空间上利用结构化对齐的方式获取文本所蕴含的结构化信息,使模型在学习语义特征的同时学习到文本所蕴含结构化信息,从而增强最终的特征表示Hi k。
5.根据权利要求4所述的一种基于潜层关系增强的实体和关系联合抽取模型的方法,其特征在于:所述潜层关系表示层将获取到的特征表示映射到潜层空间上,得到潜变量表示Z,并在潜层空间上利用沃瑟斯坦距离将实验数据的实体分布与假设先验的标准正态分布对齐;通过减少它们之间的沃瑟斯坦距离来减少分布之间的差异,进而获取文本所蕴含的潜在结构化知识;该层还能将输入的数据以概率分布的形式嵌入到潜层空间中,可以帮助捕获复杂的实体分布并且保留语义结构。特别的,为了方便计算,使用最大均值差异来近似沃瑟斯坦距离,最大均值差异主要用来度量两个不同但相关的随机变量的分布距离。计算公式如(10):
其中,p(z)=N(0,1)为假设先验的标准正态分布;Z为上下文特征映射到潜层空间上的潜变量表示,其中μz=f(Wμhn+bμ),/>Wμ、bμ和bμ、bσ表示可训练的参数。在语言模型中,利用获取到的潜变量Z对输入序列X=[x1,x2,...,xn]进行重构来获取上下文语义表示信息。具体来说,q(z)在经过潜层空间变化后,将采样得到的潜变量Z通过映射得到隐藏状态hz,计算公式如(11):
hz=f(Wzq(z)+bz) (11)
其中,Wz、bz是可训练的参数,hz作为初始的解码状态,对输入文本序列进行重构,得到X’=[X1’,X2’,...,Xn’],并利用语言模型重新学习输入序列的潜在表示,从而获得既遵循源语义信息又保留结构化信息的语义表示。在语言模型训练过程中,采用重构损失作为损失函数。综上,潜层关系表示层的损失函数由MMD和重构损失组成,计算公式如(12):
其中λ表示MMD损失所占的权重,在经过多轮实验的验证,本文取λ=1.0。
6.根据权利要求1所述的一种基于潜层关系增强的实体和关系联合抽取模型的方法,其特征在于:在所述解码层中执行特定关系的解码过程,对于给定的融合上下文关系的句子表示Hi k将其通过一个双向LSTM,将每个单词映射到标记空间,同时为了获取标签之间的相互依赖关系,利用CRF对LSTM的输出进行处理,对于待预测的标签序列y=(y1,y2,…,yL)通过以下公式(13)(14)(15)求得:
其中,Wo和bo表示可训练参数,logP(y|oi k),P表示第i个单词在关系sk下被预测的概率,Ayt-1,yt表示从第t-1个标签转到t个标签的概率;Pt,yt,表示第t个词映射到第t个标签的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311221588.9A CN117251522A (zh) | 2023-09-21 | 2023-09-21 | 一种基于潜层关系增强的实体和关系联合抽取模型的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311221588.9A CN117251522A (zh) | 2023-09-21 | 2023-09-21 | 一种基于潜层关系增强的实体和关系联合抽取模型的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117251522A true CN117251522A (zh) | 2023-12-19 |
Family
ID=89132565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311221588.9A Pending CN117251522A (zh) | 2023-09-21 | 2023-09-21 | 一种基于潜层关系增强的实体和关系联合抽取模型的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117251522A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874174A (zh) * | 2024-03-11 | 2024-04-12 | 华南理工大学 | 基于关系先验偏置的文档关系抽取方法 |
-
2023
- 2023-09-21 CN CN202311221588.9A patent/CN117251522A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874174A (zh) * | 2024-03-11 | 2024-04-12 | 华南理工大学 | 基于关系先验偏置的文档关系抽取方法 |
CN117874174B (zh) * | 2024-03-11 | 2024-05-10 | 华南理工大学 | 基于关系先验偏置的文档关系抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN111597830A (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN111985245A (zh) | 基于注意力循环门控图卷积网络的关系提取方法及*** | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN116204674B (zh) | 一种基于视觉概念词关联结构化建模的图像描述方法 | |
CN114548101B (zh) | 基于可回溯序列生成方法的事件检测方法和*** | |
CN115048447B (zh) | 一种基于智能语义补全的数据库自然语言接口*** | |
CN113657123A (zh) | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及*** | |
CN116383399A (zh) | 一种事件舆情风险预测方法及*** | |
CN117251522A (zh) | 一种基于潜层关系增强的实体和关系联合抽取模型的方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113254581A (zh) | 一种基于神经语义解析的金融文本公式抽取方法及装置 | |
CN116661805A (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN114742016A (zh) | 一种基于多粒度实体异构图的篇章级事件抽取方法及装置 | |
Lin et al. | Distantly supervised relation extraction using multi-layer revision network and confidence-based multi-instance learning | |
CN113901813A (zh) | 一种基于主题特征和隐式句子结构的事件抽取方法 | |
Zhang et al. | Description-enhanced label embedding contrastive learning for text classification | |
Gao et al. | Chinese causal event extraction using causality‐associated graph neural network | |
Wang et al. | Aspect-based sentiment analysis with graph convolutional networks over dependency awareness | |
Sekiyama et al. | Automated proof synthesis for propositional logic with deep neural networks | |
CN116629361A (zh) | 基于本体学习和注意力机制的知识推理方法 | |
CN115964497A (zh) | 一种融合注意力机制与卷积神经网络的事件抽取方法 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |