CN115146068B - 关系三元组的抽取方法、装置、设备及存储介质 - Google Patents

关系三元组的抽取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115146068B
CN115146068B CN202210618881.8A CN202210618881A CN115146068B CN 115146068 B CN115146068 B CN 115146068B CN 202210618881 A CN202210618881 A CN 202210618881A CN 115146068 B CN115146068 B CN 115146068B
Authority
CN
China
Prior art keywords
target
matrix
entity
relation
elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210618881.8A
Other languages
English (en)
Other versions
CN115146068A (zh
Inventor
王震
聂弘毅
高超
李学龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202210618881.8A priority Critical patent/CN115146068B/zh
Publication of CN115146068A publication Critical patent/CN115146068A/zh
Application granted granted Critical
Publication of CN115146068B publication Critical patent/CN115146068B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开一种关系三元组的抽取方法、装置、设备及存储介质,涉及知识图谱技术领域,能够提高关系三元组抽取的准确率。具体方案包括:获取目标文本,目标文本中包括多个目标元素;根据目标文本、预设的多层感知机模型、预设的关系特征矩阵以及预设的关系权重矩阵,得到目标文本对应的张量,关系特征矩阵用于指示文本元素之间的语义关系,关系权重矩阵用于指示所述语义关系之间的相关性,张量用于指示任意两个目标元素是否满足当前语义关系;获取目标文本中每个目标元素的元素类型,元素类型包括实体元素和非实体元素;根据目标文本中每个目标元素的元素类型和张量从目标文本中确定出至少一个三元组集合。

Description

关系三元组的抽取方法、装置、设备及存储介质
技术领域
本申请涉及知识图谱技术领域,尤其涉及一种关系三元组的抽取方法、装置、设备及存储介质。
背景技术
知识图谱是一个以实体以及实体间关系组成的语义网络,可以对事物进行形式化的描述和表示。通过知识图谱可以实现智能搜索、个性化推荐、***申请反欺诈等应用。构成知识图谱的基本单元是关系三元组。关系三元组是由一组头尾实体对以及一个实体对间的关系组成,可以表示成“头实体,关系,尾实体”的形式,因此,如何从文本信息中抽取出关系三元组是形成知识图谱的关键步骤。
现有技术中,基于表填充的关系三元组抽取方法通过文本的词表来预测词对之间的关系并从文本信息中抽取出关系三元组,然而这种方法只关注了三元组的局部特征,而忽略了三元组间的全局关联,这使得这种方法在三元组抽取过程中会忽略一些重要信息,导致关系三元组抽取的准确率较低。
发明内容
本申请提供一种关系三元组的抽取方法、装置、设备及存储介质,能够提高关系三元组抽取的准确率。
为达到上述目的,本申请采用如下技术方案:
本申请实施例第一方面,提供一种关系三元组的抽取方法,该方法包括:
获取目标文本,目标文本中包括多个目标元素;
根据目标文本、预设的多层感知机模型、预设的关系特征矩阵以及预设的关系权重矩阵,得到目标文本对应的张量,关系特征矩阵用于指示文本元素之间的语义关系的特征,权重矩阵用于指示语义关系之间的相关性,语义关系中包括目标元素之间的目标语义关系,张量用于指示任意两个目标元素是否满足当前语义关系;
获取目标文本中每个目标元素的元素类型,元素类型包括实体元素和非实体元素,实体元素包括实体开头元素,实体非开头元素;
根据目标文本中每个目标元素的元素类型和张量从目标文本中确定出至少一个三元组集合,三元组集合中包括两个实体元素,以及两个实体元素之间的语义关系。
在一个实施例中,根据目标文本、预设的多层感知机模型、预设的关系特征矩阵以及预设的关系权重矩阵,得到目标文本对应的张量,包括:
对每个目标元素进行编码处理,得到目标文本的目标特征序列矩阵;
根据目标特征序列矩阵、预设的多层感知机模型以及预设的关系特征矩阵,得到目标文本对应的张量。
在一个实施例中,对每个目标元素进行编码处理,得到目标文本的目标特征序列矩阵,包括:
获取每个目标元素对应的元素向量,得到目标文本的特征序列矩阵;
将特征序列矩阵输入预设的双向长短期记忆模型中对特征序列矩阵进行编码处理,得到目标特征序列矩阵。
在一个实施例中,根据目标特征序列矩阵、预设的多层感知机模型、预设的关系特征矩阵以及预设的关系权重矩阵,得到目标文本对应的张量,包括:
将目标特征序列矩阵分别输入至预设的第一多层感知机模型和第二多层感知机模型中,得到对应的第一特征矩阵和第二特征矩阵,第一多层感知机模型和第二多层感知机模型的预设参数不同,第一特征矩阵用于指示实体元素中的主语元素,第二特征矩阵用于指示实体元素中的宾语元素;
根据第一特征矩阵、第二特征矩阵、特征矩阵以及关系权重矩阵,得到目标文本对应的张量。
在一个实施例中,根据第一特征矩阵、第二特征矩阵、特征矩阵以及关系权重矩阵,得到目标文本对应的张量,包括:
将多个关系特征矩阵进行叠加得到核心张量;
根据第一特征矩阵、第二特征矩阵、关系权重矩阵以及核心张量得到目标文本对应的张量。
在一个实施例中,根据目标文本中每个目标元素的元素类型和张量从目标文本中确定出至少一个三元组集合,包括:
根据每个元素类型从目标文本中确定多个实体元素集合,根据实体元素集合和张量从目标文本中确定出至少一个三元组集合。
在一个实施例中,获取目标文本中每个目标元素的元素类型,包括:
将目标特征序列矩阵输入至预设的第三多层感知机模型中,得到得分矩阵,得分矩阵用于指示每个目标元素的元素类型评分;
根据得分矩阵以及预设的状态转移矩阵得到预测序列矩阵,并从预测序列矩阵中确定出目标文本中每个目标元素的元素类型,状态转移矩阵用于指示元素类型之间相互转移的概率。
本申请实施例第二方面,提供了一种关系三元组的抽取装置,该装置包括:
第一获取模块,用于获取目标文本,目标文本中包括多个目标元素;
第一处理模块,用于根据目标文本、预设的多层感知机模型、预设的关系特征矩阵以及预设的关系权重矩阵,得到目标文本对应的张量,关系特征矩阵用于指示文本元素之间的语义关系,权重矩阵用于指示语义关系之间的相关性,语义关系中包括目标元素之间的目标语义关系,张量用于指示任意两个目标元素是否满足当前语义关系;
第二获取模块,用于获取目标文本中每个目标元素的元素类型,元素类型包括实体元素和非实体元素,实体元素包括实体开头元素,实体非开头元素;
第二处理模块,用于根据目标文本中每个目标元素的元素类型和张量从目标文本中确定出至少一个三元组集合,三元组集合中包括两个实体元素,以及两个实体元素之间的语义关系。
本申请实施例第三方面,提供了一种电子设备,该电子设备包括存储器和处理器,该存储器存储有计算机程序,该计算机程序被处理器执行时实现本申请实施例第一方面中的关系三元组的抽取方法。
本申请实施例第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本申请实施例第一方面中的关系三元组的抽取方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
本申请实施例提供的关系三元组的抽取方法,通过获取目标文本,目标文本中包括多个目标元素,根据目标文本、预设的多层感知机模型、预设的关系特征矩阵以及预设的关系权重矩阵,得到目标文本对应的张量,关系特征矩阵用于指示文本元素之间的语义关系的特征,权重矩阵用于指示语义关系之间的相关性,语义关系中包括目标元素之间的目标语义关系,张量用于指示任意两个目标元素是否满足当前语义关系,然后获取目标文本中每个目标元素的元素类型,元素类型包括实体元素和非实体元素,实体元素包括实体开头元素,实体非开头元素,最后,根据目标文本中每个目标元素的元素类型和张量从目标文本中确定出至少一个三元组集合,三元组集合中包括两个实体元素,以及两个实体元素之间的语义关系。本申请实施例提供的关系三元组的抽取方法,由于是根据目标文本的张量来对目标文本中的关系三元组进行抽取的,并进一步的考虑到关系之间的相关性,因此可以提高关系三元组抽取的准确性,从而可以提高知识图谱构建的准确性。
附图说明
图1为本申请实施例提供的一种电子设备的内部结构示意图;
图2为本申请实施例提供的一种关系三元组的抽取方法的流程图;
图3为本申请实施例提供的一种关系三元组的抽取模型的示意图;
图4为本申请实施例提供的一种目标文本的张量生成过程的示意图;
图5为本申请实施例提供的一种关系三元组抽取过程的示意图;
图6为本申请实施例提供的一种关系三元组的抽取装置的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
另外,“基于”或“根据”的使用意味着开放和包容性,因为“基于”或“根据”一个或多个条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出的值。
知识图谱是一个以实体以及实体间关系组成的语义网络,可以对事物进行形式化的描述和表示。通过知识图谱可以实现智能搜索、个性化推荐、***申请反欺诈等应用。构成知识图谱的基本单元是关系三元组。关系三元组是由一组头尾实体对以及一个实体对间的关系组成,可以表示成“头实体,关系,尾实体”的形式,因此,如何从文本信息中抽取出关系三元组是形成知识图谱的关键步骤。
现有技术中,基于表填充的关系三元组抽取方法通过文本的词表来预测词对之间的关系并从文本信息中抽取出关系三元组,然而这种方法只关注了三元组的局部特征,而忽略了三元组间的全局关联,这使得这种方法在三元组抽取过程中会忽略一些重要信息,导致关系三元组抽取的准确率较低。
为了解决上述问题,本申请实施例提供了一种关系三元组的抽取方法,通过获取目标文本,目标文本中包括多个目标元素,根据目标文本、预设的多层感知机模型、预设的关系特征矩阵以及预设的关系权重矩阵,得到目标文本对应的张量,关系特征矩阵用于指示文本元素之间的语义关系的特征,权重矩阵用于指示语义关系之间的相关性,语义关系中包括目标元素之间的目标语义关系,张量用于指示任意两个目标元素是否满足当前语义关系,然后获取目标文本中每个目标元素的元素类型,元素类型包括实体元素和非实体元素,实体元素包括实体开头元素,实体非开头元素,最后,根据目标文本中每个目标元素的元素类型和张量从目标文本中确定出至少一个三元组集合,三元组集合中包括两个实体元素,以及两个实体元素之间的语义关系。本申请实施例提供的关系三元组的抽取方法,由于是根据目标文本的张量来对目标文本中的关系三元组进行抽取的,并进一步的考虑到关系之间的相关性,因此可以提高关系三元组抽取的准确性,从而可以提高知识图谱构建的准确性。
本申请实施例提供的关系三元组的抽取方法的执行主体可以为电子设备,该电子设备可以为计算机设备、终端设备,或者服务器,其中,终端设备可以为各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等,本申请对比不作具体限定。
图1为本申请实施例提供的一种电子设备的内部结构示意图。如图1所示,该电子设备包括通过***总线连接的处理器和存储器。其中,该处理器用于提供计算和控制能力。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作***和计算机程序。该计算机程序可被处理器所执行,以用于实现以上各个实施例提供的一种关系三元组的抽取方法的步骤。内存储器为非易失性存储介质中的操作***和计算机程序提供高速缓存的运行环境。
本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
基于上述执行主体,本申请实施例提供一种关系三元组的抽取方法。如图2所示,该方法包括以下步骤:
步骤201、获取目标文本,目标文本中包括多个目标元素。
其中,目标文本中包括多个目标元素。示例的,该目标文本可以为“Mary lives inNew York,America.”该目标文本经过分词后可以得到元素序列:{“Mary”,“lives”,“in”,“New”,“York”,“,”,“America”,“.”}——共计8个元素。这8个元素即为目标元素。
步骤202、根据目标文本、预设的多层感知机模型、预设的关系特征矩阵以及预设的权重矩阵,得到目标文本对应的张量。
其中,关系特征矩阵用于指示文本元素之间的语义关系的特征,权重矩阵用于指示语义关系之间的相关性,语义关系中包括目标元素之间的目标语义关系,张量用于指示任意两个目标元素是否满足当前语义关系。
步骤203、获取目标文本中每个目标元素的元素类型。
其中,元素类型包括实体元素和非实体元素,实体元素包括实体开头元素,实体非开头元素。
示例的,实体开头元素可以用B表示,实体非开头元素可以用I表示,非实体元素可以用O表示,那么上述的目标文本“Mary lives in New York,America.”就可以表示为:“B\O\O\B\I\O\B\O”。
步骤204、根据目标文本中每个目标元素的元素类型和张量从目标文本中确定出至少一个三元组集合,三元组集合中包括两个实体元素,以及两个实体元素之间的语义关系。
可选的,根据目标文本、预设的多层感知机模型、预设的关系特征矩阵以及预设的权重矩阵,得到目标文本对应的张量,包括:对每个目标元素进行编码处理,得到目标文本的目标特征序列矩阵;根据目标特征序列矩阵、预设的多层感知机模型、预设的关系特征矩阵以及预设的权重矩阵,得到目标文本对应的张量。
具体的,对每个目标元素进行编码处理,得到目标文本的目标特征序列矩阵,包括:获取每个目标元素对应的元素向量,得到目标文本的特征序列矩阵;将特征序列矩阵输入预设的双向长短期记忆模型(BiLSTM模型)中对特征序列矩阵进行编码处理,得到目标特征序列矩阵。
在实际实现过程中,首先通过利用分词工具Spacy将目标文本进行分词,即把句子拆分成独立的元素,拆分后的元素包括单词和标点。然后将每个元素wi的词向量ei作为该元素的初始特征,其中元素的词向量是从预先存储且预训练好的Glove 840B词向量文件中直接获取,每个词向量的维度为1×100。因此,整个目标文本的句子S可以表示为由构成的特征序列,nw是这个句子分词后的元素总个数,因此句子S的特征序列维度为nw×100。
然后,我们将句子特征序列输入双向长短期记忆模型模型来对目标文本中的目标元素进行编码,并输出编码后的目标特征序列矩阵H,H的维度为nw×200。
在一个实施例中,根据目标特征序列矩阵、预设的多层感知机模型(Multi-LayerPerceptron,MLP)、多个预设的关系特征矩阵以及预设的权重矩阵,得到目标文本对应的张量,包括:
将目标特征序列矩阵分别输入至预设的第一多层感知机模型和第二多层感知机模型中,得到对应的第一特征矩阵和第二特征矩阵,第一多层感知机模型和第二多层感知机模型的预设参数不同,第一特征矩阵用于指示实体元素中的主语元素,第二特征矩阵用于指示实体元素中的宾语元素,并根据第一特征矩阵、第二特征矩阵和多个关系特征矩阵,得到目标文本对应的张量。
可选的,根据第一特征矩阵、第二特征矩阵、特征矩阵以及关系权重矩阵,得到目标文本对应的张量,包括:将多个关系特征矩阵进行叠加得到核心张量;根据第一特征矩阵、第二特征矩阵、关系权重矩阵以及核心张量得到目标文本对应的张量。
具体的,我们利用目标文本的两个特征矩阵Ms和Mo,一个关系的权重矩阵Mr以及一个核心张量G来生成张量。其中Ms和Mo由H分别经过两组不同的MLP产生,维度都为nw×100,Mr与G都是随机生成的,维度分别为k×50,100×50×100。
三维二元词关系张量的构造函数定义如下:
其中,×123分别表示在张量的三个维度上的模乘,σ()表示sigmoid激活函数。
在一个实施例中,根据目标文本中每个目标元素的元素类型和张量从目标文本中确定出至少一个三元组集合,包括:
根据每个元素类型从目标文本中确定多个实体元素集合,根据实体元素集合和张量从目标文本中确定出至少一个三元组集合。
具体的,获取目标文本中每个目标元素的元素类型,包括:将目标特征序列矩阵输入至预设的第三多层感知机模型中,得到得分矩阵,得分矩阵用于指示每个目标元素的元素类型评分;根据得分矩阵以及预设的状态转移矩阵得到预测序列矩阵,并从预测序列矩阵中确定出目标文本中每个目标元素的元素类型,状态转移矩阵用于指示元素类型之间相互转移的概率。
需要说明的是,获取目标文本中每个目标元素的元素类型即为确定每个目标文本中每个目标元素是实体开头元素或者是实体非开头元素或者是非实体元素。
为了便于本领域技术人员的理解,以执行主体为电子设备为例介绍本申请提供的关系三元组的抽取方法,具体的,该方法包括:
(1)获取目标文本。其中,目标文本中包括多个目标元素。
(2)获取每个目标元素对应的元素向量,得到目标文本的特征序列矩阵。
(3)将特征序列矩阵输入预设的双向长短期记忆模型中对特征序列矩阵进行编码处理,得到目标特征序列矩阵。
(4)将目标特征序列矩阵分别输入至预设的第一多层感知机模型和第二多层感知机模型中,得到对应的第一特征矩阵和第二特征矩阵。
第一多层感知机模型和第二多层感知机模型的预设参数不同,第一特征矩阵用于指示实体元素中的主语元素,第二特征矩阵用于指示实体元素中的宾语元素。
(5)将多个关系特征矩阵进行叠加得到核心张量。
(6)根据第一特征矩阵、第二特征矩阵、关系权重矩阵以及核心张量得到目标文本对应的张量。
关系特征矩阵用于指示文本元素之间的语义关系的特征,语义关系中包括目标元素之间的目标语义关系,关系权重矩阵用于指示语义关系之间的相关性,张量用于指示任意两个目标元素是否满足当前语义关系。
(7)将目标特征序列矩阵输入至预设的第三多层感知机模型中,得到得分矩阵,得分矩阵用于指示每个目标元素的元素类型评分。
(8)根据得分矩阵以及预设的状态转移矩阵得到预测序列矩阵,并从预测序列矩阵中确定出目标文本中每个目标元素的元素类型。
状态转移矩阵用于指示元素类型之间相互转移的概率。元素类型包括实体元素和非实体元素,实体元素包括实体开头元素,实体非开头元素;
(9)根据每个元素类型从目标文本中确定多个实体元素集合,根据实体元素集合和张量从目标文本中确定出至少一个三元组集合。三元组集合中包括两个实体元素,以及两个实体元素之间的语义关系。
可以理解的是,可以根据本申请实施例提供的关系三元组的抽取方法得到对应的关系三元组的抽取模型,该模型可以根据抽取方法的处理内容,分为编码模块,实体识别模块,张量学习模块和结果推理模块,如图3所示,为本申请实施例提供的关系三元组的抽取模型的示意图。
在实际执行过程中,对于某一条输入数据,首先会经过编码模块,实现从文本到向量的转换,编码模块的输出会输入到实体识别模块与张量学习模块,分别进行实体范围标注以及词对之间关系类型预测。以上两个模块的输出结果会输入到结果推理模块中,通过算法推断,输出数据中包含的关系三元组。
具体来说,对于要进行关系三元组抽取的目标文本,首先通过利用分词工具Spacy将句子S进行分词,即把句子拆分成独立的元素(单词和标点)。然后将每个元素wi的词向量ei作为该元素的初始特征,其中元素的词向量是从预训练好的Glove 840B词向量文件中直接获取,每个词向量的维度为1×100。因此,整个句子S可以表示为由构成的特征序列矩阵,nw是这个句子分词后的元素总个数,因此句子S的特征序列矩阵维度为nw×100。
然后,我们将句子特征序列矩阵输入双向长短期记忆模型来对句子的上下文信息进行编码,并输出编码后的句子的目标特征序列矩阵H,H的维度为nw×200。编码模块的输出H将分别输入到实体识别模块和张量学习模块。
示例的,对于输入的句子Mary lives in New York,America.1经过分词后得到句子元素序列:{“Mary”,“lives”,“in”,“New”,“York”,“,”,“America”,“.”}——共计8个元素。从预存的Glove 840B词向量文件中找到这8个元素对应的词向量,从而得到该句子的特征序列矩阵,该特征序列矩阵的尺寸为8×100。将特征序列矩阵输入双向长短期记忆模型中,经过双向长短期记忆模型的重新编码,得到该句子编码后的目标特征序列H,其维度为8×200。
在得到目标文本的目标特征序列H后,将目标特征序列输入到实体识别模块中对目标文本中每个目标元素的元素类型进行确定和标注。
具体而言,我们首先利用多层感知机模型从H得到单词的得分矩阵V,其维度为nw×3,3对应的是BIO三类标记(第一列对应B的得分,第二列对应I的得分,第三列对应O的得分):
V=MLP(H)
然后根据V和预定义的状态转移矩阵T计算预测标签序列的综合分数/>
其中状态转移矩阵T的维度为3×3,对应为BIO三者状态相互转移的概率。
接着根据综合得分计算/>的概率:
其中,YS表示S的所有可能的标注序列集合,是YS中S的任意一个可能的标注序列。我们通过最小化负对数似然损失LER来训练整个实体识别模块,公式如下:
其中,是概率最高的标注序列。该损失函数的目的衡量实体识别模块预测出的概率最高的标注序列与句子的真实标注序列的差距。通过最小化/>可以使得实体识别模块预测结果更接近真实标注序列。
示例的,对于输入的句子S′:Mary lives in New York,America.其中加粗的目标元素为句子中的实体,因此该句子的正确BIO标注序列为B\O\O\B\I\O\B\O。通过编码模块,已经得到该句子的特征序列H∈R8×200。预定义的状态转移矩阵T′,维度为3×3,通过多层感知机模型,得到H的得分矩阵V′,维度为8×3,根据H和V′,得到S′所有可能的标注序列得分与概率最大的预测序列维度为8×1,同时,可以利用损失函数/>计算/>与S′的正确标注序列的差距,从而进一步来对实体识别模块进行训练。
同时,将目标文本的目标特征序列矩阵输入到张量学习模块中,根据预定义的关系集R,其中关系类别数为K,我们使用三维二元词关系张量来描述句子中词与词之间的关系。
三维二元词关系张量的维度为nw×K×nw,该张量中的任意一个元素/>表示句子中第u个元素与第v个元素在关系k下的语义关系。当第u个元素与第v个元素在句子中所对应的两个实体能够与关系k构成三元组时,就认为第u个元素与第v个元素在关系k下存在语义关系,即/>反之,不存在语义关系,即/>
因此,张量学习模块的目的是学习使预测的三维二元词关系张量尽可能接近正确的三维二元词关系张量X。而在张量学习过程中,具体地说,我们利用句子的两个特征矩阵Ms和Mo,一个关系的权重矩阵Mr以及一个核心张量G来构造单词关系张量。其中Ms和Mo由H分别经过两组不同的MLP产生,维度都为nw×100,Mr与G都是随机生成的,维度分别为k×50,100×50×100。
三维二元词关系张量的构造函数定义如下:
×123分别表示在张量的三个维度上的模乘,σ()表示sigmoid激活函数。
另外,考虑到X标签0和1的数量极不平衡,我们采取了两种措施。首先,我们引入一个指标函数α(x),为正样本和负样本分配不同的权重,即:
其中,x为X中的元素,即词对。经过实验测定,α1=10,α2=0.1。
其次,与具有普通标签的样本相比,带有稀有标签的样本通常更难预测。因此,通过下述方法引导模型聚焦于难以预测的样本。
lf(x)=(1-x)γlog(x),
其中,γ是一个用于平衡难、易样本预测的超参数。
基于此,本申请中关于张量学习模块的损失函数为:
其中表示每个词对属于正确类别的概率。
示例的,编码模块输出的特征序列H,维度为8×200定义关系集合R′={lives_in,contains,administrative_division,other_relation},共包含四类关系。
对于输入的句子S′:Mary lives in New York,America.其中存在的关系三元组为(Mary,lives_in,New York),(America,contains,New York),(New York,administrative_division,America)。对于lives_in,contains,administrative_division,other_relation这四类关系,词表如图4中的左图所示。对应实体对存在关系的词对,在词表中元素值为1,反之为0。将词表堆叠之后得到的三维二元词关系张量X′,维度为8×4×8,具体如图4中的右图所示。随机初始化的关系权重矩阵Mr与核心张量G,维度分别为4×50,100×50×100。基于图4中的目标文本的张量形成示意图,本申请实施例提供了一种关系三元组抽取的示意图,如图5所示。
最后,根据从实体识别模块的输出中,我们能够获得句子S中的实体集合,然后对于每个实体对(eti,etj),其中/>本申请使用以下公式,根据张量学习模块的输出/>对实体对中的第k个关系进行推断:
其中,δ是一个设定的阈值,为0.5。li与lj分别代表实体eti与etj的长度(单词数量)。在满足以上不等式条件下,我们的模型将关系三元组(eti,rk,etj)作为一个高可靠的预测结果,并将该三元组记录到Ts中。
示例的,句子的分词后的元素序列:{“Mary”,“lives”,“in”,“New”,“York”,“,”,“America”,“.”},预测的BIO标注序列假设为B\O\O\B\I\O\B\O,预测的三维二元词关系张量/>根据元素序列和标注序列/>得到该句子实体集合为E={et1={w1},et2={w4,w5},et3={w7}},再根据E与三维二元词关系张量/>得到该句子的关系三元组集合Ts={(et1,lives_in,et2),(et3,contains,et2),(et2,administrative_division,et3}。
此外,本申请还提供了不同的关系三元组的抽取方法的测试数据,如表1所示。通过不同的抽取方法的测试数据可以得出:通过与不同的抽取方法的测试结果对比可以得出:本申请的模型由于充分考虑到关系之间的相关性,因而在测试结果上显著优于其他方法。
表1不同的关系三元组的抽取方法的测试数据
如图6所示,本申请实施例还提供了一种关系三元组的抽取装置,该装置包括:
第一获取模块11,用于获取目标文本,目标文本中包括多个目标元素;
第一处理模块12,用于根据目标文本、预设的多层感知机模型、预设的关系特征矩阵以及预设的关系权重矩阵,得到目标文本对应的张量,关系特征矩阵用于指示文本元素之间的语义关系的特征,关系权重矩阵用于指示语义关系之间的相关性,语义关系中包括目标元素之间的目标语义关系,张量用于指示任意两个目标元素是否满足当前语义关系;
第二获取模块13,用于获取目标文本中每个目标元素的元素类型,元素类型包括实体元素和非实体元素,实体元素包括实体开头元素,实体非开头元素;
第二处理模块14,用于根据目标文本中每个目标元素的元素类型和张量从目标文本中确定出至少一个三元组集合,三元组集合中包括两个实体元素,以及两个实体元素之间的语义关系。
在一个实施例中,第一处理模块12具体用于:
对每个目标元素进行编码处理,得到目标文本的目标特征序列矩阵;
根据目标特征序列矩阵、多层感知机模型、关系特征矩阵,以及关系权重矩阵,得到目标文本对应的张量。
在一个实施例中,第一处理模块12具体用于:
获取每个目标元素对应的元素向量,得到目标文本的特征序列矩阵;
将特征序列矩阵输入预设的双向长短期记忆模型中对特征序列矩阵进行编码处理,得到目标特征序列矩阵。
在一个实施例中,第一处理模块12具体用于:
将目标特征序列矩阵分别输入至预设的第一多层感知机模型和第二多层感知机模型中,得到对应的第一特征矩阵和第二特征矩阵,第一多层感知机模型和第二多层感知机模型的预设参数不同,第一特征矩阵用于指示实体元素中的主语元素,第二特征矩阵用于指示实体元素中的宾语元素;
根据第一特征矩阵、第二特征矩阵、特征矩阵以及关系权重矩阵,得到目标文本对应的张量。
在一个实施例中,第一处理模块12具体用于:
将多个关系特征矩阵进行叠加得到核心张量;
根据第一特征矩阵、第二特征矩阵、关系权重矩阵以及核心张量得到目标文本对应的张量。
在一个实施例中,第二处理模块14具体用于:
根据每个元素类型从目标文本中确定多个实体元素集合,根据实体元素集合和张量从目标文本中确定出至少一个三元组集合。
在一个实施例中,第二获取模块13具体用于:
将目标特征序列矩阵输入至预设的第三多层感知机模型中,得到得分矩阵,得分矩阵用于指示每个目标元素的元素类型评分;
根据得分矩阵以及预设的状态转移矩阵得到预测序列矩阵,并从预测序列矩阵中确定出目标文本中每个目标元素的元素类型,状态转移矩阵用于指示元素类型之间相互转移的概率。
本实施例提供的关系三元组的抽取装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再多加赘述。
关于关系三元组的抽取装置的具体限定可以参见上文中对于关系三元组的抽取方法的限定,在此不再赘述。上述关系三元组的抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于服务器中的处理器中,也可以以软件形式存储于服务器中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本申请的另一实施例中,还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时实现如本申请实施例的关系三元组的抽取方法的步骤。
本申请另一实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如本申请实施例的关系三元组的抽取方法的步骤。
本申请另一实施例中,还提供一种计算机程序产品,该计算机程序产品包括计算机指令,当计算机指令在关系三元组的抽取装置上运行时,使得关系三元组的抽取装置执行上述方法实施例所示的方法流程中关系三元组的抽取方法执行的各个步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种关系三元组的抽取方法,其特征在于,所述方法包括:
获取目标文本,所述目标文本中包括多个目标元素;
对每个目标元素进行编码处理,得到所述目标文本的目标特征序列矩阵;
将所述目标特征序列矩阵分别输入至预设的第一多层感知机模型和第二多层感知机模型中,得到对应的第一特征矩阵和第二特征矩阵,所述第一多层感知机模型和所述第二多层感知机模型的预设参数不同,所述第一特征矩阵用于指示所述实体元素中的主语元素,所述第二特征矩阵用于指示所述实体元素中的宾语元素;
将多个所述关系特征矩阵进行叠加得到核心张量,根据所述第一特征矩阵、所述第二特征矩阵、所述关系权重矩阵以及所述核心张量得到所述目标文本对应的张量;
其中,所述关系特征矩阵用于指示文本元素之间的语义关系的特征,所述关系权重矩阵用于指示所述语义关系之间的相关性,所述语义关系中包括所述目标元素之间的目标语义关系,所述张量用于指示任意两个目标元素是否满足当前语义关系;
获取所述目标文本中每个目标元素的元素类型,所述元素类型包括实体元素和非实体元素,所述实体元素包括实体开头元素,实体非开头元素;
根据所述目标文本中每个目标元素的元素类型和所述张量从所述目标文本中确定出至少一个三元组集合,所述三元组集合中包括两个实体元素,以及两个实体元素之间的语义关系。
2.根据权利要求1所述的抽取方法,其特征在于,所述对每个目标元素进行编码处理,得到所述目标文本的目标特征序列矩阵,包括:
获取每个目标元素对应的元素向量,得到所述目标文本的特征序列矩阵;
将所述特征序列矩阵输入预设的双向长短期记忆模型中对所述特征序列矩阵进行编码处理,得到所述目标特征序列矩阵。
3.根据权利要求1所述的抽取方法,其特征在于,所述根据所述目标文本中每个目标元素的元素类型和所述张量从所述目标文本中确定出至少一个三元组集合,包括:
根据每个元素类型从所述目标文本中确定多个实体元素集合,根据所述实体元素集合和所述张量从所述目标文本中确定出至少一个三元组集合。
4.根据权利要求1所述的抽取方法,其特征在于,所述获取所述目标文本中每个目标元素的元素类型,包括:
将所述目标特征序列矩阵输入至预设的第三多层感知机模型中,得到得分矩阵,所述得分矩阵用于指示每个目标元素的元素类型评分;
根据所述得分矩阵以及预设的状态转移矩阵得到预测序列矩阵,并从所述预测序列矩阵中确定出所述目标文本中每个目标元素的元素类型,所述状态转移矩阵用于指示元素类型之间相互转移的概率。
5.一种关系三元组的抽取装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标文本,所述目标文本中包括多个目标元素;
第一处理模块,用于对每个目标元素进行编码处理,得到所述目标文本的目标特征序列矩阵;将所述目标特征序列矩阵分别输入至预设的第一多层感知机模型和第二多层感知机模型中,得到对应的第一特征矩阵和第二特征矩阵,所述第一多层感知机模型和所述第二多层感知机模型的预设参数不同,所述第一特征矩阵用于指示所述实体元素中的主语元素,所述第二特征矩阵用于指示所述实体元素中的宾语元素;将多个所述关系特征矩阵进行叠加得到核心张量,根据所述第一特征矩阵、所述第二特征矩阵、所述关系权重矩阵以及所述核心张量得到所述目标文本对应的张量;
其中,所述关系特征矩阵用于指示文本元素之间的语义关系,所述权重矩阵用于指示所述语义关系之间的相关性,所述语义关系中包括所述目标元素之间的目标语义关系,所述张量用于指示任意两个目标元素是否满足当前语义关系;
第二获取模块,用于获取所述目标文本中每个目标元素的元素类型,所述元素类型包括实体元素和非实体元素,所述实体元素包括实体开头元素,实体非开头元素;
第二处理模块,用于根据所述目标文本中每个目标元素的元素类型和所述张量从所述目标文本中确定出至少一个三元组集合,所述三元组集合中包括两个实体元素,以及两个实体元素之间的语义关系。
6.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现权利要求1至4中任一项所述的关系三元组的抽取方法。
7.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的关系三元组的抽取方法。
CN202210618881.8A 2022-06-01 2022-06-01 关系三元组的抽取方法、装置、设备及存储介质 Active CN115146068B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210618881.8A CN115146068B (zh) 2022-06-01 2022-06-01 关系三元组的抽取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210618881.8A CN115146068B (zh) 2022-06-01 2022-06-01 关系三元组的抽取方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115146068A CN115146068A (zh) 2022-10-04
CN115146068B true CN115146068B (zh) 2023-10-03

Family

ID=83406950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210618881.8A Active CN115146068B (zh) 2022-06-01 2022-06-01 关系三元组的抽取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115146068B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116679889B (zh) * 2023-07-31 2023-11-03 苏州浪潮智能科技有限公司 Raid设备配置信息的确定方法及装置、存储介质
CN116881914B (zh) * 2023-09-06 2023-11-28 国网思极网安科技(北京)有限公司 文件***操作处理方法、***、设备和计算机可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881683A (zh) * 2020-06-28 2020-11-03 吉林大学 关系三元组的生成方法、装置、存储介质和电子设备
CN112016312A (zh) * 2020-09-08 2020-12-01 平安科技(深圳)有限公司 数据关系抽取方法、装置、电子设备及存储介质
CN113157936A (zh) * 2021-03-16 2021-07-23 云知声智能科技股份有限公司 实体关系联合抽取方法、装置、电子设备和存储介质
CN114218931A (zh) * 2021-11-04 2022-03-22 北京百度网讯科技有限公司 信息抽取方法、装置、电子设备和可读存储介质
WO2022078102A1 (zh) * 2020-10-14 2022-04-21 腾讯科技(深圳)有限公司 一种实体识别方法、装置、设备以及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347268B (zh) * 2020-11-06 2024-03-19 华中科技大学 一种文本增强的知识图谱联合表示学习方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881683A (zh) * 2020-06-28 2020-11-03 吉林大学 关系三元组的生成方法、装置、存储介质和电子设备
CN112016312A (zh) * 2020-09-08 2020-12-01 平安科技(深圳)有限公司 数据关系抽取方法、装置、电子设备及存储介质
WO2022078102A1 (zh) * 2020-10-14 2022-04-21 腾讯科技(深圳)有限公司 一种实体识别方法、装置、设备以及存储介质
CN113157936A (zh) * 2021-03-16 2021-07-23 云知声智能科技股份有限公司 实体关系联合抽取方法、装置、电子设备和存储介质
CN114218931A (zh) * 2021-11-04 2022-03-22 北京百度网讯科技有限公司 信息抽取方法、装置、电子设备和可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于句法语义特征的实体关系抽取技术;姚春华;刘潇;高弘毅;鄢秋霞;;通信技术(08);全文 *

Also Published As

Publication number Publication date
CN115146068A (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN109670029B (zh) 用于确定问题答案的方法、装置、计算机设备及存储介质
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111695352A (zh) 基于语义分析的评分方法、装置、终端设备及存储介质
CN115146068B (zh) 关系三元组的抽取方法、装置、设备及存储介质
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN110929515A (zh) 基于协同注意力和自适应调整的阅读理解方法及***
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN112131883B (zh) 语言模型训练方法、装置、计算机设备和存储介质
US20200334410A1 (en) Encoding textual information for text analysis
CN113434636B (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN112863683A (zh) 基于人工智能的病历质控方法、装置、计算机设备及存储介质
CN112085091B (zh) 基于人工智能的短文本匹配方法、装置、设备及存储介质
US10824808B2 (en) Robust key value extraction
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111859967A (zh) 实体识别方法、装置,电子设备
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN117236410A (zh) 一种可信的电子文件大语言模型训练、推理方法和装置
CN116127001A (zh) 敏感词检测方法、装置、计算机设备及存储介质
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN115129862A (zh) 语句实体处理方法、装置、计算机设备及存储介质
CN114281996A (zh) 长文本分类方法、装置、设备及存储介质
CN112307738B (zh) 用于处理文本的方法和装置
CN116796730A (zh) 基于人工智能的文本纠错方法、装置、设备及存储介质
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及***
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant