CN114398489A - 一种基于Transformer的实体关系联合抽取方法、介质及*** - Google Patents

一种基于Transformer的实体关系联合抽取方法、介质及*** Download PDF

Info

Publication number
CN114398489A
CN114398489A CN202111480107.7A CN202111480107A CN114398489A CN 114398489 A CN114398489 A CN 114398489A CN 202111480107 A CN202111480107 A CN 202111480107A CN 114398489 A CN114398489 A CN 114398489A
Authority
CN
China
Prior art keywords
entity
training
word
model
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111480107.7A
Other languages
English (en)
Inventor
张正
常光辉
黄海辉
胡新庭
陈浪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202111480107.7A priority Critical patent/CN114398489A/zh
Publication of CN114398489A publication Critical patent/CN114398489A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明请求保护一种基于Transformer的实体关系联合抽取方法、介质及***,该方法的步骤包括:将训练数据中标注的实体关系的三元组与训练数据使用特殊的标识符连接;将处理过后的训练数据中的词进行向量化映射;将映射过后的训练数据输入到基于注意力机制的实体关系联合抽取模型当中,并通过反向传播算法进行模型的训练,得到实体关系预测模型;再将需要进行实体关系联合抽取的句子输入到训练好的模型中,预测出句子中的三元组关系。本发明通过将三元组抽取任务视为序列到序列的任务,通过参数共享的方法实现模型的联合抽取。

Description

一种基于Transformer的实体关系联合抽取方法、介质及***
技术领域
本发明属于深度学习与自然语言处理技术,具体涉及一种基于Transformer 的实体关系联合抽取方法和***。
背景技术
随着大数据时代的到来,互联网上的数据量急速攀升,其中主要包含大量的 自然语言文本,如此大量的自然语言文本中蕴含了大量的隐藏知识,如何快速 高效地从开放领域的文本中抽取出隐藏的知识,成为了摆在人们面前的重要问 题。为了解决这个问题,信息抽取在1998年的MUC-7会议上被首次提出,实体 关系抽取是文本挖掘、信息抽取的核心任务,其通过对文本信息建模,自动抽 取出实体之间的语义关系,提取出有效的语义知识。
因此,为了从海量的非结构化数据中抽取出隐藏的知识,知识图谱的概念被 提出。在知识图谱中,把海量数据中的人名、地点等专有名词表示为实体,并 将任意两个实体之间的联系表示为关系,通过三元组的形式(主实体,关系,副 实体)构建出知识图谱。因此,为了自动化的抽取出结构化文本中的三元组,研 究者们提出了信息抽取的方法,其中基于流水线和联合学习的方法为现在主要 的两种方法。
目前,实体关系根据抽取方法分为流水线的方法和联合学习的方法。流水线 的方法将实体关系抽取视为两个子任务,先对文本进行命名实体识别,再对命 名实体之间的关系进行识别,称为关系抽取。联合抽取的方法是将命名实体识 别和关系抽取视为一个子任务,通过联合学习的方法直接抽取出数据中的三元 组。避免了命名实体识别的准确率问题带来的误差累计问题,提高了实体关系 抽取的准确率,本专利所做的工作也是基于联合学习的方法。提出了一种新的 实体关系联合抽取的思路。
经过检索,申请公开号CN111666427A,一种实体关系联合抽取方法、装置、 设备及介质,包括:获取训练样本数据;利用所述训练样本数据对预先搭建的 实体关系抽取模型进行训练,得到训练后模型;其中,所述实体关系抽取模型 中包括自注意力层;所述自注意力层用于在训练过程中基于句子中其他三元组 对当前预测关系的影响进行注意力计算;当获取到待进行实体关系抽取的目标 文本,利用所述训练后模型输出对应的实体关系抽取结果。这样,对包括自注 意力层的实体关系抽取模型进行训练,能够在实体关系的抽取过程中考虑其他 三元组对当前预测关系的影响,从而提升实体关系抽取的准确度。
公开号CN111666427A中提出基于Bert+cnn模型进行实体关系联合抽取存 在的问题如下:
1.其存在较高的复杂度,不利于模型的落地,
2.同时,其使用的字级别矩阵难以解决三元组重叠问题,
3.最后,其依赖于CNN模型,该模型在解决长时序问题上也存在诸多弊端, 其无法捕获长距离信息。
本发明专利针对其的改进方法如下:
1.首先,本发明专利引入了半标记半指针网络,相较于公开号CN111666427A 有更好的解决三元组重叠问题的能力,
2.其次,本发明专利使用了transformer模型作为特征提取器,其在解决 长时序问题上优于CN111666427A所提出的模型。
3.最后,本发明模型减低模型复杂度的同时能够获得优于CN111666427A中 所提出的模型三元组抽取的效果。
申请公开号CN113157936A,一种实体关系联合抽取方法、装置、电子设备和 存储介质,该方法包括:获取标记序列;根据所述标记序列确定语义表示;根 据标记序列和所述语义表示确定特征图矩阵;根据特征图矩阵预测实体信息相 关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵; 将三元组相关的字级别矩阵合并得到目标三元组。本申请实施例中实体信息相 关的的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵 是分阶段确定的,通过基于图像语义分割的多阶段实体关系抽取联合方法,使 用语义分割框架进行目标三元组抽取,避免了实体重叠和误差累积的问题,并 通过多阶段渐进式的方式,提升了抽取效果。
公开号CN113157936A中同样提出了一种基于Bert+CRF的实体关系联合抽取 模型,其采用新的标注方案,其存在的问题是:
1.难以解决三元组重叠问题,在实体关系联合抽取问题中,实体与实体之 间可能存在多个关系,然而,目前的分类器会出现分类混淆的情况,该发明专 利同样存在如上情况。
2.其同样基于Bert模型,其模型复杂度较高,同时依赖于CRF模型,该模 型为时序模型,容易出现梯度消失或者梯度***的情况,难以捕获长距离信息。
我们的解决方法如下:
1.我们采用半指针半标记的方案,避免了分类器的混淆情况,进而避免了 三元组的重叠问题。
2.我们的模型基于transformer模型,模型复杂度相对较低,同时避免了 时序模型的缺点,相较于CN113157936A中提出的模型有更好的解决长时序问题 的能力。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种抽取出非结构化数据中的 隐藏信息,构建出知识图谱,同时提高实体关系抽取的性能的基于Transformer 的实体关系联合抽取方法及***。本发明的技术方案如下:
一种基于Transformer的实体关系联合抽取方法,其包括以下步骤:
获取互联网数据集,并对互联网数据集进行预处理,将数据集中的句子与对 应的三元组用预设的标识符连接起来,并标注主实体、关系和副实体的开始位 置和结束位置,并且涉及到多个三元组时需要预设的分隔符,同时训练数据需 要开始和结束标识符,处理后的数据如下;特殊分隔符和特殊的开始和结束标 识符分别指:
[SOS]h(1),r(1),t(1)[S2S_SEQ]
h(2),r(2),t(2)[S2S_SEQ]
...
h(n),r(n),t(n)[EOS]
将处理过后的数据集中的每个字进行向量化映射,同时通过每个字在句中的 位置计算出位置向量,输入到基于Transformer的神经网络模型中,再通过反 向传播算法进行训练,得到基于注意力机制的实体关系联合抽取模型;
将需要进行实体关系抽取的句子输入到训练完成的基于Transformer的实体 关系联合抽取模型中,预测出每个句子中的三元组。
进一步的,所述基于Transformer的神经网络模型的训练过程包括:
1)将输入句子中的每个词或字映射成对应的字向量;
2)在编码层,把训练样例中的每个字对应的字向量作为输入,采用 Transformer编码器学习句子中每个字的上下文信息,同时得到表示向量Hl
3)在通过分类器预测出训练样例中的主实体,其中通过二进制分类器,分别 预测出训练样例中每个主实体的开始位置pstart和结束位置pend,以及主实体的向 量表示
Figure BDA0003394953370000041
4)在解码层中,将编码器输出的表示向量Hl与二进制分类器预测出的主实体
Figure BDA0003394953370000042
通过预设的方式处理或者简单相加,得到新的上下文表示向量Ml,在对Ml进 行解码,通过二进制分类器分类出副实体;
5)根据得到的标签的向量表示进行计算,得到主实体、关系和副实体分别所 在的开始位置和结束位置;
6)选取所有样本的最大似然函数作为模型的目标函数;
7)通过反向传播算法训练模型,更新模型中所有的参数,最终得到收敛的实 体关系联合抽取模型。
进一步的,所述根据训练集中的训练样例和三元组信息,使用特殊的标识 符处理,其中,训练样例需要至少两种标识符,分别是开始标识符和结束标识 符;该样例的三元组信息需要至少三种标识符,分别是开始标识符、分隔符和 结束标识符;其中,三元组处理后的数据如下:
[SOS]h(1),r(1),t(1)[S2S_SEQ]
h(2),r(2),t(2)[S2S_SEQ]
...
h(n),r(n),t(n)[EOS]
其中h,r,t分别代表主实体,关系和副实体,[SOS],[S2S_SEQ],[EOS]分别表示 三元组的开始标识符,三元组分隔符和三元组结束标识符。
进一步的,所述1)将输入句子中的每个词或字映射成对应的字向量,具体包 括:
利用通过word2vec训练得到训练集的字向量表示,将输入训练样例中的每 个字映射成对应的字向量,选取训练样例中长度最长的值为max_len,当句子长 度小于max_len用特殊的占位符补充。
进一步的,所述3)通过二进制分类器,分别预测出训练样例中每个主实体的 开始位置pstart和结束位置pend,以及主实体的向量表示
Figure BDA0003394953370000052
具体包括:
pstart=σ(Wstartxi+bstart)
pend=σ(Wendxj+bend)
其中,pstart代表主实体的开始位置,pend代表副实体的结束位置,Wstart,Wend,bstart和 bend分别是训练参数,主实体标记通过优化下面的似然函数,获得更好的性能:
Figure BDA0003394953370000051
其中,xj表示训练集中第j个句子,i表示句子中字的下标,N表示句子长度,t表示句子中的主实体下标,s表示句子的主实体,pθ(s|xj)表示xj句子中主实体 s的概率,I{z}是指示函数,当z为真时I{z}=1,否则为0,
Figure BDA0003394953370000061
Figure BDA0003394953370000062
分别为 第i个字的标签,当值为1时,表示其为主实体开始位置,否则为结束位置。。
进一步的,所述6)选取所有样本的最大似然函数作为模型的目标函数,具体 包括:
对所有训练样本,通过最大化样本的最大似然函数来训练模型,更新模型中 的参数直至收敛,训练的目标函数Loss定义如下:
Figure BDA0003394953370000063
其中x表示训练集中的句子,s表示主实体,r表示关系,o表示副实体,T表 示三元组的集合。
一种计算机可读存储介质,其该计算机可读存储介质上存储有计算机程序, 该计算机程序被处理器执行时实现如任一项所述的基于Transformer的实体关 系联合抽取方法。
一种基于Transformer的实体关系联合抽取***,其包括:
数据预处理模块,用于将训练数据中的主实体、关系和副实体的开始位置标 识出来;
模型训练模块,用于将训练数据的句子中的每个字映射成对应的词向量,输 入基于Transformer的神经网络模型中,并通过反向传播算法进行训练,得到 实体关系抽取模型;
结果处理模块,用于将需要进行实体关系抽取的句子输入到训练完成的实体 关系抽取模型中,抽取出句子中可能的三元组信息。
本发明的优点及有益效果如下:
本发明提出一种基于Transformer的实体关系联合抽取模型,同时引入半指 针半标记网络,将实体关系联合抽取任务视为序列到序列的任务,先抽取出主 实体,然后再抽取出副实体和关系。在主实体预测阶段,通过半指针半标记网 络,分别预测出句子中主实体的开头位置和结束位置,该过程可以同时预测多 个主实体,在副实体预测阶段,每个半指针半标记网络对应一个三元组关系, 同时预测出副实体的开始位置和结束位置。本发明也针对该模型提出了对应的 优化函数。相对于传统的流水线的抽取方法,本发明不存在错误传播问题,同 时考虑到命名实体识别和关系抽取的相关性。
附图说明
图1是本发明提供优选实施例提供的一种可能的***框架流程图;
图2为本发明实施例提供的一种基于Transformer的神经网络结构图;
图3为本发明实施例提供的一种transformer的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、 详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明提出了一种基于Transformer的实体关系联合抽取方法、介质及***, 包括:
一种基于Transformer的实体关系联合抽取方法,包括:
首先,将训练数据中的训练样例进行数据处理,将训练样例与三元组用预设的 分隔符分隔开,同时训练样例需要开始标识符和结束标识符,多个三元组之间 也需要连接标识符,并标注主实体、关系和副实体的开始位置和结束位置。 将处理过后的训练样例进行字向量化,字向量相较于词向量可以一定程度上避 免OOV问题,但存在切分边界的问题,这里也可以采用词向量化的方法,具体 采用哪种向量化方法,根据不同应用场景进行选择。
将处理后的训练样例中的字向量,输入到基于Transformer的神经网络模型 中,并通过反向传播算法进行模型训练,得到模型所需参数。
将需要进行实体关系抽取的句子输入训练完成的基于Transformer的实体关 系联合抽取模型中,预测出句子中可能的实体关系三元组。。
具体的,如图1所示,图1为本实施例中基于Transformer的实体关系联合 抽取方法流程图,如图所示,该方法主要包括三个阶段:训练数据预处理阶段, 模型训练阶段和模型预测阶段。
步骤101根据训练集中的训练样例和三元组信息,使用预设的标识符处理。 其中,训练样例需要至少两种标识符,分别是开始标识符和结束标识符。该样 例的三元组信息需要至少三种标识符,分别是开始标识符、分隔符和结束标识 符。其中,三元组处理后的数据如下:
[SOS]h(1),r(1),t(1)[S2S_SEQ]
h(2),r(2),t(2)[S2S_SEQ]
...
h(n),r(n),t(n)[EOS]
其中h,r,t分别代表主实体,关系和副实体,[SOS],[S2S_SEQ],[EOS]分别表 示三元组的开始标识符,三元组分隔符和三元组结束标识符。
步骤102,用无标注的语料,通过word2vec训练得到具有语义信息的字向量 表示,提供给模型使用。
步骤103,结合图2,基于Transformer的实体关系联合抽取模型包括以下具 体步骤:
步骤1,利用通过word2vec训练得到训练集的字向量表示,将输入训练样例 中的每个字映射成对应的字向量,选取训练样例中长度最长的值为max_len,当 句子长度小于max_len用特殊的占位符补充。
步骤2,在将字向量与位置向量进行特殊处理,赋予输入向量位置信息,将 其作为模型输入,采用多层的Transformer编码器学习输入句子中每个字的上 下文信息,得到对应的向量表示Hl
步骤3,得到向量表示Hl后,再采用二进制分类器分别预测出主实体的开始 位置pstart和结束位置pend,该过程可以预测出多个主实体,解决了三元组的重叠 问题。该过程的详细过程如下:
pstart=σ(Wstartxi+bstart)
pend=σ(Wendxj+bend)
其中,pstart代表主实体的开始位置,pend代表副实体的结束位置,Wstart,Wend,bstart和 bend分别是训练参数。主实体标记通过优化下面的似然函数,获得更好的性能:
Figure BDA0003394953370000091
其中,I{z}是指示函数,当z为真时I{z}=1,否则为0,xj表示训练集中第j个句子,i表示句子中字的下标,N表示句子长度,t表示句子中的主实体下标,s表 示句子的主实体,pθ(s|xj)表示xj句子中主实体s的概率,。
Figure BDA0003394953370000092
Figure BDA0003394953370000093
分别为 第i个字的标签,当值为1时,表示其为主实体开始位置,否则为结束位置。
步骤4,得到主实体后,将主实体与transformer编码器得到的表示向量Hl进 行特殊处理,得到包含主实体信息的上下文表示向量,再将其输入到解码器当 中,达到解码后的上下文信息,将其再通过二进制分类器分别预测出副实体的 开始位置
Figure BDA0003394953370000094
和副实体的结束位置
Figure BDA0003394953370000095
该过程的详细过程如下:
Figure BDA0003394953370000096
Figure BDA0003394953370000097
其中
Figure BDA0003394953370000098
代表第i个位置是实体开始位置的概率,
Figure BDA0003394953370000099
代表第j个位置是实体结 束位置的概率。Wstart,Wend,bstart和bend分别是训练参数。主实体和关系的似然函数 如下:
Figure BDA0003394953370000101
其中解码器如图3所示,包含多头自注意力机制等。
步骤5,对所有训练样本,通过最大化样本的最大似然函数来训练模型,更新 模型中的参数直至收敛,训练的目标函数Loss定义如下:
Figure BDA0003394953370000102
其中x表示训练集中的句子,s表示主实体,r表示关系,o表示副实体,T表示 三元组的集合。
步骤6,通过反向传播算法训练模型,更新模型中所有的参数,并最终得到 实体关系联合抽取模型。
步骤104,把需要进行实体关系联合抽取的句子,输入到上面得到的实体关 系联合抽取模型中,预测于句子中可能的三元组。
由上述方案可以看出,本方案针对实体关系联合抽取模型中,对整个句子关 系信息利用不足的问题,引入Transformer编码器进行深度特征的提取,可以 提高模型的预测性能,具有良好的实用性。
本发明另一实施例提供一种基于Transformer的实体关系联合抽取***,其 包括:
数据预处理模块,负责将训练数据中的主实体、关系和副实体的开始位置标识 出来。
模型训练模块,负责将训练数据的句子中的每个字映射成对应的词向量,输入 基于Transformer的神经网络模型中,并通过反向传播算法进行训练看,得到 实体关系抽取模型。
结果处理模块,负责将需要进行实体关系抽取的句子输入到训练完成的实体关系抽取模型中,抽取出句子中可能的三元组信息。
本发明中,编码层和解码层的Transformer网络可以替换为其他的神经网络结构。
优选,另一实施例为:一种基于Transformer的实体关系联合抽取***, 其包括:
输入层:输入层利用了与transformer相同的模型输入,将字嵌入、位置嵌入 进行特殊处理得到相应的文本表示输入到模型中。
编码层:我们使用多层transformer编码器对句子进行编码,根据之前的研究 表明,深度学习模型的层次越深越能提取到句子深层次的语义表示,编码层设 计了12层的Transformer,Transformer中多头注意力机制也能起到类似于多 通道卷积神经网络的效果。
解码层:在预测主实体后将其与句子向量表示相加过程会对副实体与关系的预测产生影响,多层解码器可以克服这个问题,输出层会输出副实体的开始位置 和结束位置。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实 体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。 具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、 智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制 台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任 何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序 的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、 静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存 取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快 闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其 他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定, 计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据 信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖 非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅 包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过 程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包 括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者 设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范 围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或 修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (8)

1.一种基于Transformer的实体关系联合抽取方法,其特征在于,包括以下步骤:
获取互联网数据集,并对互联网数据集进行如下预处理,将数据集中的句子与对应的三元组用预设的标识符连接起来,并标注主实体、关系和副实体的开始位置和结束位置,并且涉及到多个三元组时需要预设的分隔符,同时训练数据需要预设的开始和结束标识符,处理后的数据如下;
将处理过后的数据集中的每个字进行向量化映射,同时通过每个字在句中的位置计算出位置向量,输入到基于Transformer的神经网络模型中,再通过反向传播算法进行训练,得到基于Transformer的实体关系联合抽取模型;
将需要进行实体关系抽取的句子输入到训练完成的基于Transformer的实体关系联合抽取模型中,预测出句子中的三元组。
2.根据权利要求1所述的一种基于Transformer的实体关系联合抽取方法,其特征在于,所述基于Transformer的神经网络模型的训练过程包括:
1)将输入句子中的每个词或字映射成对应的字向量;
2)在编码层,把训练样例中的每个字对应的字向量作为输入,采用Transformer编码器学习句子中每个字的上下文信息,同时得到表示向量Hl
3)在通过分类器预测出训练样例中的主实体,其中通过二进制分类器,分别预测出训练样例中每个主实体的开始位置pstart和结束位置pend,以及主实体的向量表示
Figure FDA0003394953360000011
4)在解码层中,将编码器输出的表示向量Hl与二进制分类器预测出的主实体
Figure FDA0003394953360000012
通过预设的方式拼接或者简单相加,得到新的上下文表示向量Ml,在对Ml进行解码,通过二进制分类器分类出副实体;
5)根据得到的标签的向量表示进行计算,得到主实体、关系和副实体分别所在的开始位置和结束位置;
6)选取所有样本的最大似然函数作为模型的目标函数;
7)通过反向传播算法训练模型,更新模型中所有的参数,最终得到收敛的实体关系联合抽取模型。
3.根据权利要求1或2所述的一种基于Transformer的实体关系联合抽取方法,其特征在于,所述根据训练集中的训练样例和三元组信息,使用特殊的标识符处理,其中,训练样例需要至少两种标识符,分别是开始标识符和结束标识符;该样例的三元组信息需要至少三种标识符,分别是开始标识符、分隔符和结束标识符;其中,三元组处理后的数据如下:
[SOS]h(1),r(1),t(1)[S2S_SEQ]
h(2),r(2),t(2)[S2S_SEQ]
...
h(n),r(n),t(n)[EOS]
其中h,r,t分别代表主实体,关系和副实体,[SOS],[S2S_SEQ],[EOS]分别表示三元组的开始标识符,三元组分隔符和三元组结束标识符。
4.根据权利要求2所述的一种基于Transformer的实体关系联合抽取方法,其特征在于,所述1)将输入句子中的每个词或字映射成对应的字向量,具体包括:
利用通过word2vec训练得到训练集的字向量表示,将输入训练样例中的每个字映射成对应的字向量,选取训练样例中长度最长的值为max_len,当句子长度小于max_len用特殊的占位符补充。
5.根据权利要求2所述的一种基于Transformer的实体关系联合抽取方法,其特征在于,所述3)通过二进制分类器,分别预测出训练样例中每个主实体的开始位置pstart和结束位置pend,以及主实体的向量表示
Figure FDA0003394953360000021
具体包括:
pstart=σ(Wstartxi+bstart)
pend=σ(Wendxj+bend)
其中,pstart代表主实体的开始位置,pend代表副实体的结束位置,Wstart,Wend,bstart和bend分别是训练参数,主实体标记通过优化下面的似然函数,获得更好的性能:
Figure FDA0003394953360000031
其中,xj表示训练集中第j个句子,i表示句子中字的下标,N表示句子长度,t表示句子中的主实体下标,s表示句子的主实体,pθ(s|xj)表示xj句子中主实体s的概率,I{z}表示指示函数,当z为真时I{z}=1,否则为0,
Figure FDA0003394953360000032
Figure FDA0003394953360000033
分别为第i个字的标签,当值为1时,表示其为主实体开始位置,否则为结束位置。
6.根据权利要求2所述的一种基于Transformer的实体关系联合抽取方法,其特征在于,所述6)选取所有样本的最大似然函数作为模型的目标函数,具体包括:
对所有训练样本,通过最大化样本的最大似然函数来训练模型,更新模型中的参数直至收敛,训练的目标函数Loss定义如下:
Figure FDA0003394953360000034
其中x表示训练集中的句子,s表示主实体,r表示关系,o表示副实体,T表示三元组的集合。
7.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-6任一项所述的基于Transformer的实体关系联合抽取方法。
8.一种基于Transformer的实体关系联合抽取***,其特征在于,包括:
数据预处理模块,用于将训练数据中的主实体、关系和副实体的开始位置标识出来;
模型训练模块,用于将训练数据的句子中的每个字映射成对应的词向量,输入基于Transformer的神经网络模型中,并通过反向传播算法进行训练,得到基于Transformer的实体关系抽取模型;
结果处理模块,用于将需要进行实体关系抽取的句子输入到训练完成的实体关系抽取模型中,抽取出句子中可能的三元组信息。
CN202111480107.7A 2021-12-06 2021-12-06 一种基于Transformer的实体关系联合抽取方法、介质及*** Pending CN114398489A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111480107.7A CN114398489A (zh) 2021-12-06 2021-12-06 一种基于Transformer的实体关系联合抽取方法、介质及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111480107.7A CN114398489A (zh) 2021-12-06 2021-12-06 一种基于Transformer的实体关系联合抽取方法、介质及***

Publications (1)

Publication Number Publication Date
CN114398489A true CN114398489A (zh) 2022-04-26

Family

ID=81225409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111480107.7A Pending CN114398489A (zh) 2021-12-06 2021-12-06 一种基于Transformer的实体关系联合抽取方法、介质及***

Country Status (1)

Country Link
CN (1) CN114398489A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098617A (zh) * 2022-06-10 2022-09-23 杭州未名信科科技有限公司 三元组关系抽取任务的标注方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098617A (zh) * 2022-06-10 2022-09-23 杭州未名信科科技有限公司 三元组关系抽取任务的标注方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN114612759B (zh) 视频处理方法、查询视频的方法和模型训练方法、装置
CN113590784B (zh) 三元组信息抽取方法、装置、电子设备、及存储介质
CN112434533B (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
WO2021190662A1 (zh) 医学文献排序方法、装置、电子设备及存储介质
CN104750677A (zh) 语音传译装置、语音传译方法及语音传译程序
CN115544303A (zh) 用于确定视频的标签的方法、装置、设备及介质
CN115146068B (zh) 关系三元组的抽取方法、装置、设备及存储介质
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
CN113076756A (zh) 一种文本生成方法和装置
CN114398489A (zh) 一种基于Transformer的实体关系联合抽取方法、介质及***
CN116522905B (zh) 文本纠错方法、装置、设备、可读存储介质及程序产品
CN111814496B (zh) 文本处理方法、装置、设备及存储介质
CN111460224B (zh) 评论数据的质量标注方法、装置、设备及存储介质
CN117453949A (zh) 一种视频定位方法以及装置
CN114648005B (zh) 一种多任务联合学习的多片段机器阅读理解方法及装置
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN113392649B (zh) 一种识别方法、装置、设备及存储介质
CN112818687B (zh) 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质
CN116976341A (zh) 实体识别方法、装置、电子设备、存储介质及程序产品
CN114547313A (zh) 资源类型识别方法以及装置
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质
CN114328894A (zh) 文档处理方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination