CN115587192A - 关系信息抽取方法、设备及计算机可读存储介质 - Google Patents

关系信息抽取方法、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN115587192A
CN115587192A CN202211271839.XA CN202211271839A CN115587192A CN 115587192 A CN115587192 A CN 115587192A CN 202211271839 A CN202211271839 A CN 202211271839A CN 115587192 A CN115587192 A CN 115587192A
Authority
CN
China
Prior art keywords
entity
relation
alternative
fact
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211271839.XA
Other languages
English (en)
Inventor
谢耀赓
邴立东
赛赞亚·波利亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Singapore University of Technology and Design
Original Assignee
Alibaba China Co Ltd
Singapore University of Technology and Design
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd, Singapore University of Technology and Design filed Critical Alibaba China Co Ltd
Priority to CN202211271839.XA priority Critical patent/CN115587192A/zh
Publication of CN115587192A publication Critical patent/CN115587192A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种关系信息抽取方法、设备及计算机可读存储介质。该方法包括:获取当前应用领域的文本语料,文本语料包含至少一个句子文本;将句子文本输入关系信息抽取模型,通过关系信息抽取模型抽取句子文本包含的超关系事实,超关系事实包括关系三元组和关系三元组的限定信息。本申请的方法,利用端到端的关系信息抽取模型,将文本语料中的句子文本输入关系信息抽取模型,该关系信息抽取模型抽取并输出句子文本包含的超关系事实,实现了以端到端的方式执行超关系事实的抽取,避免了两阶段方法的错误传播问题,能够抽取到更多有效的超关系事实,提高了模型的召回率和性能。

Description

关系信息抽取方法、设备及计算机可读存储介质
技术领域
本申请涉及计算机技术,尤其涉及一种关系信息抽取方法、设备及计算机可读存储介质。
背景技术
知识图谱(Knowledge Graph)是人工智能中的基础数据结构,可广泛应用于搜索引擎、社交网络和电子商务等领域。通常知识图谱中包含由头实体、关系类别和尾实体构成的关系三元组的信息。例如关系三元组(张三,受教育于,A大学)。在实际应用场景中通常还存在对关系三元组的限定信息,如(张三,受教育于,A大学)可以有时间结束于1967年、取得博士学位等限定信息。将关系三元组与其限定信息形成一个超关系事实(Hyper-Relational Fact),超关系事实可以更好地代表丰富而复杂的知识图谱结构。
关系抽取(Relation Extraction,简称RE)是从文本中提取未知关系事实的方式,是自动构建大规模知识图谱的关键环节。传统的关系抽取模型用于抽取关系三元组,并不关注关系三元组的限定信息。为了抽取超关系事实,目前采用两阶段的关系抽取方法,第一阶段利用传统关系抽取模型从句子文本中抽取关系三元组,第二阶段在根据句子文本和关系三元组抽取限定信息。
然而,两阶段的关系抽取方法容易产生错误传播,导致抽取到的超关系事实的数量减少。
发明内容
本申请提供一种关系信息抽取方法、设备及计算机可读存储介质,用以解决现有的两阶段的关系抽取方法容易产生错误传播,导致抽取到的超关系事实的数量减少的问题。
第一方面,本申请提供一种关系信息抽取方法,包括:
获取当前应用领域的文本语料,所述文本语料包含至少一个句子文本;
将所述句子文本输入关系信息抽取模型,通过所述关系信息抽取模型抽取句子文本包含的超关系事实,所述超关系事实包括关系三元组和所述关系三元组的限定信息。
第二方面,本申请提供一种关系信息抽取方法,包括:
采集用户输入的查询文本;
基于超关系知识图谱搜索所述查询文本匹配的知识信息,向所述用户反馈所述知识信息,所述超关系知识图谱包含超关系事实,所述超关系事实包括关系三元组和所述关系三元组的限定信息;
将所述查询文本包含的句子文本输入关系信息抽取模型,通过所述关系信息抽取模型抽取句子文本包含的超关系事实;
根据抽取到的超关系事实更新所述超关系知识图谱。
第三方面,本申请提供一种关系信息抽取方法,包括:
获取指定领域的文本语料;
根据所述文本语料,将文本语料中的句子文本输入关系信息抽取模型,通过所述关系信息抽取模型抽取句子文本包含的超关系事实,所述超关系事实包括关系三元组和所述关系三元组的限定信息;
根据抽取到的超关系事实构建所述指定领域的超关系知识图谱。
第四方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现上述任一方面所述的方法。
第五方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述任一方面所述的方法。
本申请提供的关系信息抽取方法、设备及计算机可读存储介质,利用端到端的关系信息抽取模型,将文本语料中的句子文本输入关系信息抽取模型,该关系信息抽取模型抽取并输出句子文本包含的超关系事实,实现了以端到端的方式执行超关系事实的抽取,避免了两阶段方法的错误传播问题,能够抽取到更多有效的超关系事实,提高了模型的召回率和性能。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请所基于的一示例网络架构的示意图;
图2为本申请一示例实施例提供的关系信息抽取方法流程图;
图3为本申请另一示例实施例提供的关系信息抽取方法流程图;
图4为本申请一示例实施例提供的立方体填充的示意图;
图5为本申请一示例性实施例提供的训练关系信息抽取模型的流程图;
图6为本申请另一示例实施例提供的关系信息抽取方法流程图;
图7为本申请另一示例实施例提供的关系信息抽取方法流程图;
图8为本申请一示例实施例提供的关系信息抽取装置的结构示意图;
图9为本申请另一示例实施例提供的关系信息抽取装置的结构示意图;
图10为本申请另一示例实施例提供的关系信息抽取装置的结构示意图;
图11为本申请一示例实施例提供的电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
首先对本申请所涉及的名词进行解释:
关系抽取(Relation Extraction,简称RE):是指从纯文本中提取未知关系事实的任务,是自动构建大规模知识图谱的关键环节。
超关系事实(Hyper-Relational Fact):包括关系三元组及关系三元组的限定信息,限定信息是对关系三元组的额外描述信息。限定信息可以包括限定类别和限定内容,限定内容可以是另一实体。限定类别可以是时间、数量、地点、部分-整体、角色等等。超关系事实可以用五元组的形式表示为(头实体,关系类别,尾实体,限定类别,限定值实体)。
超关系抽取(Hyper-Relational Extraction):是指从文本中抽取超关系事实的任务。通过联合抽取每个关系三元组和相应的限定信息来抽取文本中更丰富、更完整的超关系事实。
针对现有的两阶段关系抽取方法容易产生错误传播,导致抽取到的超关系事实的数量减少的问题,本申请提供一种关系信息抽取方法,利用端到端的关系信息抽取模型,将文本语料中的句子文本输入关系信息抽取模型,该关系信息抽取模型抽取并输出句子文本包含的超关系事实,超关系事实包括关系三元组以及关系三元组的限定信息,通过端到端的方式执行超关系事实的抽取,避免了两阶段方法的错误传播问题,能够抽取到更多有效的超关系事实,提高了模型的召回率和性能。
本实施例中,超关系事实包括关系三元组以及关系三元组的限定信息。其中,限定信息用于限定/描述关系三元组,限定信息包括限定类型和限定内容,限定内容可以是命名实体,将作为关系三元组的限定内容的命名实体成为限定值实体。超关系事实可以采用五元组的表示:(头实体,关系类别,尾实体,限定类别,限定值实体)。其中,(头实体,关系类别,尾实体)构成知识图谱中的关系三元组。
另外,本申请提供的关系信息抽取方法所使用的端到端的关系信息抽取模型,可以基于覆盖多个领域的知识的已知文本语料库和已有超关系知识图谱所构建的大规模数据集训练得到,可以应用于各个领域中构建/更新完善超关系知识图谱,具体可以应用于基于超关系知识图谱的问答***、智能客服、搜索引擎、社交网络、电子商务平台等领域中。例如,包含产品信息的超关系知识图谱可以代表用户对电子商务平台的需求等。
示例性地,图1为本申请所基于的一示例网络架构的示意图,如图1所示,该网络架构包括终端和服务器。
其中,服务器可以是部署在云端的服务器集群、或者本地具有计算能力的电子设备。该服务器上存储有关系信息抽取模型,并可以获取指定应用领域的文本语料库,通过服务器中预设运算逻辑,服务器使用关系信息抽取模型对文本语料库中的句子文本进行端到端的超关系抽取,得到句子文本包含的超关系事实,并基于抽取到的超关系事实构建/更新完善当前应用领域的超关系知识图谱。获得的超关系知识图谱可以应用于问答***、智能客服、搜索引擎、社交网络、电子商务平台等领域中。
示例性地,以应用于问答/搜索场景为例,终端可以是发出提问的用户终端,具体可为具有网络通信功能、运算功能以及信息显示功能的硬件设备,其包括但不限于智能手机、平板电脑、台式电脑、物联网设备等。用户通过终端向部署有超关系知识图谱的服务器发送查询文本。服务器接收用户输入的查询文本,基于超关系知识图谱搜索查询文本匹配的知识信息,向用户反馈知识信息。
其中,超关系知识图谱所在的服务器可以是基于关系信息抽取模型抽取超关系事实并构建/更新完善超关系知识图谱的服务器,也可以是独立部署的不具有利用关系信息抽取模型抽取超关系事实能力的服务器。
另外,超关系知识图谱所在的服务器若部署有关系信息抽取模型,具有抽取超关系事实的能力,还可以基于用户输入的查询文本,利用关系信息抽取模型抽取查询文本包含的超关系事实,并将查询文本包含的超关系事实添加到超关系知识图谱中,使得超关系知识图谱包含更加丰富、更趋完备的知识信息。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请一示例实施例提供的关系信息抽取方法流程图。如图2所示,该方法具体步骤如下:
步骤S201、获取当前应用领域的文本语料,文本语料包含至少一个句子文本。
该步骤中,服务器可以实时采集或者获取过去一段时间采集的当前应用领域/场景的文本语料。该文本语料可以是基于用户输入数据确定的文本,如用户输入的文本、或基于用户输入的语音数据转换得到的文本。该文本语料也可以是通过从其他平台获取或从历史数据中提取的文本信息。在不同的应用场景中,服务器获取当前场景下的文本语料的方式不同。
示例性地,在知识问答场景中,实时采集的文本语料可以是用户输入的问题文本,或者是用户输入语音数据转换为的文本信息。
示例性地,在搜索场景中,实时采集的文本语料可以是用户输入查询文本。
示例性地,在用于构建某指定领域知识图谱的场景下,采集的文本语料可以是通过现有多种技术手段搜集到包含指定领域知识的文本语料。例如可以获取指定领域的已有的语料库/知识库等。
通常,获取到文本语料包含一个或者多个句子,该句子为文本信息,本实施例中称之为句子文本。在获取到文本语料之后,可以依据文本语料中句子间的分割方式提取出文本语料包含的句子文本。
步骤S202、将句子文本输入关系信息抽取模型,通过关系信息抽取模型抽取句子文本包含的超关系事实,超关系事实包括关系三元组和关系三元组的限定信息。
本实施例中,为了抽取文本语料包含的超关系事实,将文本语料包含的句子文本输入关系信息抽取模型,利用关系信息抽取模型分别提取句子文本所包含的超关系事实。
其中,超关系事实包括关系三元组和关系三元组的限定信息。限定信息是对关系三元组的额外描述信息,用于限定/描述关系三元组。限定信息包括限定类别和限定内容,限定内容可以是另一命名实体,将作为关系三元组的限定内容的命名实体成为限定值实体。限定类别可以是时间、数量、地点、部分-整体、角色等等。
超关系事实可以表示为由头实体、关系类别、尾实体、限定类别和限定值实体组成的五元组,可以表示为如下形式:(头实体,关系类别,尾实体,限定类别,限定值实体)。其中,(头实体,关系类别,尾实体)构成关系三元组。
示例性地,对于句子文本“Leonard Parker received his PhD from HarvardUniversity in1967.”,基于关系信息抽取模型可以抽取到两个超关系事实:(Parker,Educated At,Harvard,End Time,1967)和(Parker,Educated At,Harvard,AcademicDegree,PhD)。
本实施例中,利用端到端的关系信息抽取模型,将文本语料中的句子文本输入关系信息抽取模型,该关系信息抽取模型抽取并输出句子文本包含的超关系事实,实现了以端到端的方式执行超关系事实的抽取,避免了两阶段方法的错误传播问题,能够抽取到更多有效的超关系事实,提高了模型的召回率和性能。
在一可选实施例中,在通过关系信息抽取模型抽取句子文本包含的超关系事实之后,可以根据抽取到的超关系事实的关系三元组和关系三元组的限定信息,构建或更新超关系知识图谱,从而可以构建或更新完善当前应用领域的超关系知识图谱,可以更好地构建丰富而复杂的超关系知识图谱。相较于普通的知识图谱,超关系知识图谱具有更丰富而复杂的知识图谱结构,包含更加丰富、更趋完备的知识信息。
图3为本申请另一示例实施例提供的关系信息抽取方法流程图。在上述任一方法实施例的基础上,本实施例对利用关系信息抽取模型抽取句子文本包含的超关系事实的具体实现方式进行说明。
本实施例中,将超关系事实的抽取抽象为立方体填空问题,以实现端到端地执行关系信息抽取。将句子文本中每个字作为可能的实体,根据各个字在句子文本中出现的位置,构建句子文本对应的立方体,该立方体包含多个平面,其中最前面的平面(称为第一平面)是包含实体和关系类别的信息的二维表,第一平面对角线上的每个条目(一个单元格内的信息)代表一个可能的实体,而对角线之外的每个条目代表一个潜在的关系三元组,包含对应行和列的实体组成的实体对的关系类别,也即是包含实体对的关系三元组的关系类别。第一平面的条目(称为关系条目)可以包含空标签(如图4中所示的“⊥”)、实体或关系标签(表示关系类别)。而后面的每个平面(称为第二平面)对应于句子文本中的一个字,第二平面表示限定信息维度,包含相应的限定信息。第二平面中每个条目表示对应于第一平面上的关系三元组的可能的限定类别,第二平面对应的字即为对应的限定值实体。第二平面中每个条目(称为限定条目)可以包含空标签(如图4中所示的“⊥”)或限定类别标签(表示限定类别)。
示例性地,以“Parker received his PhD from Harvard”这一简单句子文本为例,可以构建如图4所示的立方体,最前面的第一平面上的关系条目“Educated At”表示了头实体“Parker”和尾实体“Harvard”之间的关系。后面的第二平面上的限定条目“AcademicDegree”对应于第一平面上关系条目“Educated At”对应的关系三元组(Parker,EducatedAt,Harvard)的限定类别,限定值实体为“PhD”,基于此可以确定超关系事实(Parker,Educated At,Harvard,Academic Degree,PhD)。
通过立方体填充的方式,在立方体填充完成后即可确定句子文本可能包含的全部超关系事实,从而可以实现端到端的超关系事实抽取。
另外,句子文本中每个字对应一个平面,也即不同的限定值实体可以在限定信息维度中占据单独的第二平面,并且仍然对应于第一平面中相同的关系三元组,因此基于立方体填充的方法可以抽取出共享相同关系三元组的不同的超关系事实。
本实施例中,假设句子文本s包含n个字(或单词),该句子文本可以表示为s={x1,x2,...,xn},句子中出现的实体是一个连续的字(或单词)跨度,也即实体包含一个字(或单词)或者包含连续的若干个字(或单词),句子文本中的实体可以表示为e={xi,xi+1,...,xj},其中i,j∈{1,...,n}。对于每个句子文本s,关系信息抽取模型的输出是一组超关系事实,其中每个超关系事实包含一个带有限定信息的关系三元组。关联三元组由头实体(用ehead表示)、尾实体(用etail表示)及头实体和尾实体之间的关系类别(用r表示)组成,r∈R,R是预定义的关系类别集。限定信息是关系三元组的一个属性,由限定类别(用q表示)和限定值实体(用evalue表示)组成,q∈Q,Q是预定义的限定类别集。超关系事实包括五个组成部分,可以表示为如下五元组的形式:(ehead,r,etail,q,evalue)。
基于上述立方体填空的方式,如图3所示,上述步骤S202中,将句子文本输入关系信息抽取模型,通过关系信息抽取模型执行如下步骤:
步骤S301、对句子文本中的每个字进行编码,生成句子文本中每个字的上下文化表示。
其中,句子文本中的字通常是指具有语义信息的最小分词单元,例如,若句子文本为中文,则句子文本中的字是指汉字,一个字即为一个汉字。若句子文本为英文,则句子文本中的字是指单词,一个字即是一个单词。
该步骤中,可以利用预训练的语言模型的编码模块,对句子文本中每个字的上下文化表示进行编码。例如,预训练的语言模型可以采用预训练的BERT模型、或者采用XLNet、RoBERTa等其他语言模型。XLNet是一种通用的自回归预训练方法,RoBERTa是一种中文预训练语言模型。
示例性地,以采用预训练的BERT模型为例,将句子文本输入BERT模型,利用BERT模型的编码模块对句子文本中每个字的上下文化表示进行编码,输出句子文本中每个字的上下文化表示组成的上下文化表示序列。基于上述假设,该过程可以表示为:{h1,h2,...,hn}=BERT({x1,x2,...,xn}),其中,hi表示句子文本中第i个字(或单词)xi的上下文化表示。
步骤S302、根据句子文本中每个字的上下文化表示,将每个字作为备选头实体和备选尾实体,确定任意备选头实体和任意备选尾实体形成的备选实体对的关系类别概率信息。
在编码得到句子文本中每个字的上下文化表示之后,将句子文本中出现的每个字作为可能作为关系三元组头实体的备选头实体,将句子文本出现的每个字作为可能作为关系三元组尾实体的备选尾实体,确定任意的备选头实体和任意的备选尾实体行程的备选实体对,并预测备选实体对对应于各关系类别的概率,也即备选实体对之间具有各关系类别的关系的概率。在解码时可以根据备选实体对对应于各关系类别的概率,来确定备选实体对较大概率会具备的关系类别,从而解码出可能的关系三元组。
该步骤中,通过将句子文本中可能作为关系三元组的头实体和尾实体的每对子(或单词)的上下文化表示连接起来,并使用第一前馈神经网络进行投影,得到备选实体对的实体对表示;进一步通过在备选实体对的实体对表示上应用第二前馈神经网络和softmax层,来构建备选实体对在关系类别上的分类概率。其中,第一前馈神经网络和第二前馈神经网络的结构相同但不同共享参数。
具体地,根据句子文本中每个字的上下文化表示,将每个字作为备选头实体和备选尾实体,将任意备选头实体和任意备选尾实体的上下文化表示连接后输入第一前馈神经网络,得到任意备选头实体和任意备选尾实体形成的备选实体对的实体对表示。
该过程可以表示为:gij=FFNpair(hi⊕hj),其中,FFNpair表示第一前馈神经网络,⊕表示连接操作,i,j∈{1,...,n},hi和hj表示句子文本中的任意两个字,gij表示hi作为备选头实体hj作为备选尾实体形成的备选实体对(hi,hj)的实体对表示。
进一步地,将备选实体对的实体对表示经过第二前馈神经网络和softmax层的处理,得到备选实体对对应于任意关系类别的概率。
该过程可以表示为:
Figure BDA0003895066860000071
其中,FFNt表示第二前馈神经网络,Softmax表示Softmax层。
Figure BDA0003895066860000072
表示hi作为备选头实体hj作为备选尾实体形成的备选实体对(hi,hj)之间的关系,对应于第一平面中(hi,hj)对应的关系条目。
Figure BDA0003895066860000073
表示该关系条目对应于各关系类别的概率。
可选地,本实施例中,还可以采用其他经过训练的深度学习模型对任意备选头实体和任意备选尾实体形成的备选实体对在关系类别集上进行分类预测,来确定备选实体对对应于各关系类别的概率。
其中,关系类别集内可以设置“无关系”这一关系类别,备选实体对对应“无关系”这一类别的概率最大时,可以认为备选实体对之间不具有关联关系。
通过该步骤可以确定句子文本包含的可能的关系三元组的概率信息,基于此进一步解码可以抽取出句子文本包含的关系三元组。
步骤S303、将句子文本中的字作为备选限定值实体,根据任意备选实体对的实体对表示和任意备选限定值实体的上下文化表示,确定任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息,备选事实为超关系事实的备选。
本实施例中,为了抽取超关系事实中的限定信息,需要考虑可能的关系三元组和可能的限定值实体之间的相互作用,也即考虑可能构成关系三元组的头实体和尾实体形成的实体对和可能的限定值实体之间的限定相互作用。
可选地,该步骤中可以将句子文本中的每个字作为备选限定值实体,根据任意一个备选实体对的实体对表示和任意一个备选限定值实体的上下文化表示,考虑任意一个备选实体对和任意一个备选限定值实体构成的备选事实对应于各限定类别的概率。
具体地,将任意备选实体对的实体对表示的转置和任意备选限定值实体的上下文化表示,经过双线***互层和softmax层的处理,得到任意备选限定值实体与任意的备选实体对构成的备选事实对应于任意限定类别的概率。
该过程可以表示为:
Figure BDA0003895066860000081
其中,U是双线***互层的双线性权重矩阵,是可训练的模型参数。gT ij表示备选实体对(hi,hj)的实体对表示gij的转置。hk表示任意一个备选限定值实体,也即句子文本中的任意一个字,k∈{1,...,n}。
Figure BDA0003895066860000082
表示备选实体对(hi,hj)和备选限定值实体hk之间的限定关系,对应于hk对应的第二平面中与(hi,hj)对应的限定条目。
Figure BDA0003895066860000083
表示该限定条目对应于各限定类别的概率。
其中,限定类别集内可以设置“无限定关系”这一关系类别,备选事实对应“无限定关系”这一类别的概率最大时,可以备选限定值实体与备选实体对之间不具有限定关系,也即该备选事实不成立,不存在对应的超关系事实。
为了抽取超关系事实中的限定信息,需要考虑每一可能的关系三元组和可能的限定值实体之间的相互作用,也即考虑每一可能构成关系三元组的头实体和尾实体形成的备选实体对和可能的限定值实体之间的限定相互作用。对于一个有n个字(或单词)的句子,有n3个限定交互作用,计算的复杂度较高。
在一可选实施方式中,提供一种立方体剪裁方法,基于句子文本中各个字(或单词)作为实体的可能性大小,仅考虑可能性较大的m个字(或单词)之间的交互作用。这样,可以将需要考虑的交互作用减少到m3。其中,m为预设数量,是一个超参数,可以根据实际应用场景、数据集进行设定,此处不做具体限定。
具体地,在在上述步骤S303之前,为例检测较大可能性作为实体的字(或单词),进行如下剪裁处理:
将备选头实体和备选尾实体为句子文本中同一个字的备选实体对作为目标实体对,将目标实体对对应于任意关系类别的概率中的最大值,作为该字的实体概率,得到句子文本中每个字的实体概率。该过程可以表示为:
Figure BDA0003895066860000091
其中,
Figure BDA0003895066860000092
表示句子文本中第i个字的实体概率,对应于立方体中最前面的第一平面上对角线中的条目。
进一步地,对句子文本中每一个字的实体概率进行排序,并根据排序结果确定m个字作为参考实体。
经过剪裁处理之后,保留m个较大可能作为实体的字(或单词)作为参考实体,在步骤S303中不再考虑参考实体之外的字。将参考实体作为备选限定值实体,根据参考实体对备选实体对进行筛选,去除包含除参考实体外的其他字的备选实体对,保留备选头实体和备选尾实体均为参考实体的备选实体对。
进一步地,在步骤S303中,将参考实体作为备选限定值实体,基于筛选后保留的备选实体对,将任意备选实体对的实体对表示的转置和任意备选限定值实体的上下文化表示,经过双线***互层和softmax层的处理,得到任意备选限定值实体与任意的备选实体对构成的备选事实对应于任意限定类别的概率。该过程可以表示为:
Figure BDA0003895066860000093
Figure BDA0003895066860000096
其中,U是双线***互层的双线性权重矩阵,是可训练的模型参数。gT i’j’表示经筛选后保留的备选实体对(hi’,hj’)的实体对表示gi’j’的转置。hk’表示任意一个参考实体,i’,j’,k’的取值有m种可能,分别对应于剪裁后的m个参考实体。
Figure BDA0003895066860000094
表示备选实体对(hi’,hj’)和备选限定值实体hk’之间的限定关系,对应于hk’对应的第二平面中与(hi’,hj’)对应的限定条目。
Figure BDA0003895066860000095
表示该限定条目对应于各限定类别的概率。
步骤S304、根据备选实体对的关系类别概率信息和任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息,解码出句子文本包含的超关系事实。
本实施例中,若第二平面上存在一个限定条目对应于一个有效的限定信息,则表明对应的关系三元组也存在。
在得到备选实体对的关系类别概率信息以及备选事实的限定类别概率信息之后,首先根据备选事实对应于各限定类别的概率进行解码,确定具有有效限定类别的备选事实,也最大概率的限定类别不是“无限定关系”的限定类别的备选事实,该备选事实对应一个实际存在的超关系事实,根据备选事实中备选头实体、备选尾实体和备选限定值实体在句子文本中的位置,可以确定对应超关系事实中的头实体、尾实体和限定值实体在句子文本中的位置。
进一步地,根据该备选事实对应于各限定类别的概率,取较大概率的限定类别作为对应超关系事实的限定类别。根据备选事实中备选实体对对应于各关系类别的概率,取较大概率的关系类别作为对应超关系事实中头实体和尾实体之间的关系类别,从而解码得到超关系事实的头实体、关系类别、尾实体、限定类别和限定值实体。
在实际应用中,存在句子文本中的多个字(或单词)构成一个实体的情况。本实施例中,在大多数情况(达到97.14%)下,立方体中相邻非空限定条目对应于相同的头实体、尾实体和限定值实体,属于同一超关系事实。而实际应用中,由于难以考虑所有可能的解决方案,解码精度的轻微下降是可以接受的。
在一可选实施例中,在解码之前,将属于同一超关系事实的多个相邻非空限定条目对应的备选事实进行合并,得到一个合并后的备选事实,再根据合并后的每一备选事实确定一个超关系事实。
具体地,根据备选事实中备选头实体、备选尾实体和备选限定值实体在句子文本中的位置,确定备选事实的三维位置信息(也即限定条目在立方体中的位置信息);根据备选事实的三维位置信息,将相邻的具有有效限定类别的至少一个备选事实合并,也即将相邻非空限定条目对应的备选事实进行合并,得到合并后的备选事实。
其中,合并后的备选事实中的头实体由至少一个备选事实的头实体合并得到,合并后的备选事实中的尾实体由至少一个备选事实的尾实体合并得到,合并后的备选事实中的限定值实体由至少一个备选事实的限定值实体合并得到。在将多个备选实体合并为一个实体时,按照多个备选实体在句子文本中出现顺序进行排列并合并为一个实体。
合并后的备选事实对应于任一关系类别的概率根据至少一个备选事实对应于该关系类别的概率求均值确定。
合并后的备选事实对应于任一限定类别的概率根据至少一个备选事实对应于该限定类别的概率求均值确定。
示例性地,合并后的备选事实对应于“关系类别A”的概率为待合并的备选事实对应于“关系类别A”的概率的平均值;合并后的备选事实对应于“关系类别B”的概率为待合并的备选事实对应于“关系类别B”的概率的平均值。合并后的备选事实对应于“限定类别1”的概率为待合并的备选事实对应于“限定类别1”的概率的平均值;合并后的备选事实对应于“限定类别2”的概率为待合并的备选事实对应于“限定类别2”的概率的平均值
进一步地,在进行解码时,根据合并后的每一备选事实解码确定一个超关系事实。解码得到的超关系事实中的头实体、尾实体和限定值实体与备选事实相同。
解码得到的超关系事实的关系类别根据备选事实中的备选实体对对应于任意关系类别的概率确定。例如,可以将备选事实对应的概率最大的关系类别作为解码得到的超关系事实的关系类别。
超关系事实中的限定类别根据备选事实对应于任意限定类别的概率确定。例如,可以将备选事实对应的概率最大的限定类别作为解码得到的超关系事实的限定类别。由此可以解码得到超关系事实的头实体、关系类别、尾实体、限定类别和限定值实体。
通过立方体剪裁的方法可以提高减少需要计算的条目数量,大大减少超关系抽取的计算量,提高了关系信息抽取模型抽取超关系信息的效率和性能。
另外,在训练过程中,立方体填充时大部分条目为空,容易使得学***衡,通过立方体剪裁的方法仅考虑较高可能性的实体相关的条目,减少空条目的比例,从而缓解了负类不平衡的问题。
本实施例提供的关系信息抽取模型可以基于输入的句子文本,通过对句子文本中的每个字进行编码,生成句子文本中每个字的上下文化表示;根据句子文本中每个字的上下文化表示,将每个字作为备选头实体和备选尾实体,确定任意备选头实体和任意备选尾实体形成的备选实体对的关系类别概率信息;将句子文本中的字作为备选限定值实体,根据任意备选实体对的实体对表示和任意备选限定值实体的上下文化表示,确定任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息,备选事实为超关系事实的备选;根据备选实体对的关系类别概率信息和任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息,解码出句子文本包含的超关系事实,实现端到端的超关系抽取,提高了关系信息抽取模型的召回率和性能。
上述方法实施例中所使用的关系信息抽取模型是基于大规模数据集训练得到的。图5位本申请一示例性实施例提供的训练关系信息抽取模型的流程图,如图5所示,关系信息抽取模型的训练过程如下:
步骤S501、获取用于训练关系信息抽取模型的数据集,数据集包括多个句子样本及句子样本包含的超关系事实。
本实施例中,为了构建具有超关系事实的大规模数据集,采用弱监督环境下的远程监督方式,通过获取文本语料库,将文本语料库与已有超关系知识图谱中的超关系事实对齐,来获取句子样本及对齐的超关系事实,也即句子样本与句子样本包含的超关系事实。通过这种方式,可以自动构建用于训练关系信息抽取模型的数据集。
示例性地,为了确保文本语料能够与知识图谱中的超关系事实对齐,可以在基于开源的百科数据集及知识图谱进行远程监督,来获取文本语料及超关系知识图谱。例如可以远程获取开源的维基数据(Wikipedia)和Wikidata知识图谱,该知识图谱是Wikipedia的中心知识图谱,覆盖各个领域的知识信息。
由此构建的数据集包含句子样本及句子样本包含的超关系事实(包含关系三元组的限定信息),能够用于训练关系信息抽取模型,并不限于任何应用领域。
另外,可以对数据集中的少部分训练样本进行人工标注,以获取精准地强监督的验证集,用于在训练结束后选择较优的一组模型参数,作为关系信息抽取模型的模型参数。
步骤S502、将句子样本输入关系信息抽取模型,将句子样本中每个字作为备选头实体和备选尾实体,确定任意备选头实体和任意备选尾实体形成的备选实体对的关系类别概率信息,并将句子样本中的字作为备选限定值实体,确定任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息。
该步骤中,利用关系信息抽取模型基于输入的句子样本,来确定备选实体对的关系类别概率信息和备选事实的限定类别概率信息,与上述实施例中利用关系信息抽取模型基于输入的句子文本确定备选实体对的关系类别概率信息和备选事实的限定类别概率信息的过程一致,具体参见上述步骤S301-S303,此处不再赘述。
步骤S503、根据备选实体对的关系类别概率信息的负对数似然值,以及备选事实的限定类别概率信息的负对数似然值,确定损失值,并根据损失值更新关系信息抽取模型的参数。
在模型训练时,使用负对数似然来确定训练目标。
具体地,根据备选实体对的关系类别概率信息,使用负对数似然计算第一损失L1:
Figure BDA0003895066860000121
其中各个字符的含义参见上述步骤S302中相关说明,此处不再赘述。
根据备选事实的限定类别概率信息,使用负对数似然计算第二损失L2:
Figure BDA0003895066860000122
Figure BDA0003895066860000123
其中各个字符的含义参见上述步骤S303中相关说明,此处不再赘述。
进一步地,训练的损失值为第一损失L1与第二损失L2之和,根据损失值更新关系信息抽取模型的参数,以最小化损失值。
本实施例中,通过自动构建训练关系信息抽取模型使用的大规模数据集,基于该数据集进行模型训练,并采用备选实体对的关系类别概率信息和备选事实的限定类别概率信息的负对数似然作为损失函数,从而训练得到能够准确预测备选实体对的关系类别概率信息和备选事实的限定类别概率信息的关系信息抽取模型,通过解码即可准确地抽取到超关系事实。
在一可选实施例中,上述步骤S501中获取用于训练关系信息抽取模型的数据集,具体可以采用如下方式实现:
步骤S5011、获取已有的文本语料和超关系知识图谱。
为了构建具有超关系事实的大规模数据集,采用弱监督环境下的远程监督方式,通过获取文本语料库,将文本语料库与已有超关系知识图谱中的超关系事实对齐,来获取句子样本及对齐的超关系事实,也即句子样本与句子样本包含的超关系事实。通过这种方式,可以自动构建用于训练关系信息抽取模型的数据集。
步骤S5012、提取已有的文本预料中的句子样本包含的实体,将提取的实体与超关系知识图谱中的相同实体关联。
该步骤中,从文本语料中提取实体,并将抽取的实体关联到已有超关系知识图谱中的实体。
示例性地,在文本语料中检测关系三元组中的命名实体时,可以使用开源的命名实体识别工具(如DBpedia Spotlight)实现,对于文本语料中的限定值实体的提取,可以使用自然语言处理工具(如spaCy),此处对于具体实现过程不再赘述。
另外,对于文本语料中的指代词,使用自然语言分析工具(如CoreNLP)将文本语料中的代词转换为对应的实体,具体实现过程此处不再赘述。
步骤S5013、若超关系知识图谱中的任一超关系事实的头实体、尾实体和限定值实体存在于同一句子样本中,则确定该句子样本包含该超关系事实。
为了将句子样本与超关系知识图谱中的超关系事实对齐,以获取句子样本包含的超关系事实,该步骤中将句子样本中的实体与知识图谱中的实体进行匹配,检测组成每个超关系事实的实体(包括头实体、尾实体和限定值实体)是否存在于每个句子样表中。
若超关系知识图谱中的某一超关系事实的头实体、尾实体和限定值实体存在于同一句子样本中,也即该句子样本包含了该超关系事实的全部实体,则确定该句子样本与该超关系事实对齐,也即该句子样本包含的该超关系事实。
为了确保大规模文本语料库能够与超关系知识图很好地对齐,可以远程获取开源的维基数据(Wikipedia)和Wikidata知识图谱,该知识图谱是Wikipedia的中心知识图谱,覆盖各个领域的知识信息。示例性地,***文章的引言部分通常包含重要的信息,可以使用,***文章的引言部分作为文本语料库。
步骤S5014、根据包含超关系事实的句子样本,以及句子样本包含的超关系事实,构建用于训练关系信息抽取模型的数据集。
通过远程监督的方式可以对齐大量的句子样本和超关系事实,但由于可能存在虚假对齐和已有知识图谱的不完整性,该过程可能会在数据集中引入噪声。然而,由于人工标注时间及预算等各方面的限制,无法从数据集中完全消除此类噪声。本实施例中,选择一部分一部分数据由人工进行手动标注,生成验证集,以用于超参数调整和模型参数的选择。
其中,进行人工标注时识别正确的对齐事实(包括句子样本及对齐的超关系事实)并删除无效对齐事实。在此过程中,标注人员的任务是审查句子样本的每个对齐事实的正确性,其中对齐事实由句子样本和超关系事实组成。如果超关系事实的关系三元组未在句子样本中,或者未进行正确有效的语义表达,则对齐可能无效。例如,对于句子样本“PrinceKoreyasu was the son of Prince Munetaka who was the sixth shogun.”,关系三元组(Prince Koreyasu,Occupation,shogun)被视为无效,因为该句子样本没有明确说明“Prince Koreyasu”成为“shogun”。类似地,如果根据预定义的限定类别集,超关系事实的限定类别在句子中没有语义上表达,则对齐可能无效。例如,对于句子样本“Robin Johnsleft Northamptonshire at the end of the 1971season.”,超关系事实(Robin Johns,member of sports team,Northamptonshire,Start Time,1971)具有无效的限定类别,因为限定类别应更改为“End Time”。人工标注在每个对齐事实上的标注为多类分类结果,具体可以有三个类:“正确的”、“无效三元组”或“无效限定符”。在人工标注过程中仅保留正确的对齐事实,去掉会修正不正确的对齐事实。
另外,为了减少长尾类不平衡,可以使用过滤器确保所有关系类别和限定类别在数据集中至少出现预设次数(如10次等)。
通过上述方式构建的数据集包含句子样本及句子样本包含的超关系事实。超关系事实的限定类别可以分为几大类,例如“时间”、“数量”、“角色”、“部分-整体”和“位置”等,覆盖大多应用领域中知识的基本属性的类型,该数据集能够应用于多种不同应用领域中,可以作为各领域的通用数据集。基于该数据集训练得到的关系信息抽取模型可以用于各种应用领域进行超关系事实的抽取。
图6为本申请另一示例实施例提供的关系信息抽取方法流程图。本实施例提供的方法可以应用于问答***、智能客服、搜索引擎、电子商务平台等应用领域中。如图6所示,该方法具体步骤如下:
步骤S601、采集用户输入的查询文本。
本实施例中,服务器可以实时地采集用户输入的查询文本,例如,问答***和智能客服***中用户输入的问题,搜索引擎中用户输入搜索语句等。
步骤S602、基于超关系知识图谱搜索查询文本匹配的知识信息,向用户反馈知识信息,超关系知识图谱包含超关系事实,超关系事实包括关系三元组和关系三元组的限定信息。
本实施例中,基于包含超关系事实的超关系知识图谱进行搜索,确定与查询文本匹配的知识信息,并实时地向用户反馈知识信息。
步骤S603、将查询文本包含的句子文本输入关系信息抽取模型,通过关系信息抽取模型抽取句子文本包含的超关系事实。
其中,利用关系信息抽取模型抽取句子文本包含的超关系事实的具体实现方式,参见上述步骤S202的相关说明,此处不再赘述。
步骤S604、根据抽取到的超关系事实更新超关系知识图谱。
本实施例中,还可以实时地基于当前用户输入的查询文本,利用端到端的关系信息抽取模型,实时地抽取查询文本中每一句子文本包含的超关系事实。进一步地,将抽取到的超关系事实添加到超关系知识图谱中,从而使得超关系知识图谱包含更加丰富和全面的知识信息,能够提高向用户反馈的知识信息的能力。
图7为本申请另一示例实施例提供的关系信息抽取方法流程图。本实施例提供的方法可以应用于问答***、智能客服、搜索引擎、电子商务平台等应用领域中,进行超关系知识图谱的构建和/或超关系知识图谱的更新完善。如图7所示,该方法具体步骤如下:
步骤S701、获取指定领域的文本语料。
其中,指定领域是指用户当前指定的领域,具体可以是任意应用领域。
步骤S702、根据文本语料,将文本语料中的句子文本输入关系信息抽取模型,通过关系信息抽取模型抽取句子文本包含的超关系事实,超关系事实包括关系三元组和关系三元组的限定信息。
其中,利用关系信息抽取模型抽取句子文本包含的超关系事实的具体实现方式,参见上述步骤S202的相关说明,此处不再赘述。
步骤S703、根据抽取到的超关系事实构建指定领域的超关系知识图谱。
示例性地,若用户想要构建指定领域的超关系知识图谱,可以获取指定领域的文本语料库,利用端到端的关系信息抽取模型,抽取文本语料库包含的超关系事实,基于抽取的超关系事实构建指定领域的超关系知识图谱。另外,可以在普通知识图谱基础上增加关系三元组的限定信息来构建超关系知识图谱,或者新构建一个超关系知识图谱。
示例性地,若指定领域已经有超关系知识图谱,还可以定期地获取该领域产生的新的文本语料,利用端到端的关系信息抽取模型,抽取新的文本语料包含的超关系事实,并将抽取的超关系事实添加到已有的超关系知识图谱中,以丰富和完善超关系知识图谱。
图8为本申请一示例实施例提供的关系信息抽取装置的结构示意图。本实施例提供的装置应用于执行关系信息抽取方法。如图8所示,关系信息抽取装置80包括:文本语料获取模块81和超关系抽取模块82。
其中,文本语料获取模块81用于获取当前应用领域的文本语料,文本语料包含至少一个句子文本。
超关系抽取模块82用于将句子文本输入关系信息抽取模型,通过关系信息抽取模型抽取句子文本包含的超关系事实,超关系事实包括关系三元组和关系三元组的限定信息。
在一可选实施例中,限定信息包含限定类别和限定值实体,超关系事实表示为由头实体、关系类别、尾实体、限定类别和限定值实体组成的五元组。
在一可选实施例中,关系信息抽取装置80还包括:超关系知识图谱模块,用于:根据超关系事实的关系三元组和关系三元组的限定信息,构建或更新超关系知识图谱,超关系知识图谱包含超关系事实。
在一可选实施例中,在实现将句子文本输入关系信息抽取模型,通过关系信息抽取模型抽取句子文本包含的超关系事实时,超关系抽取模块82具体用于:
将句子文本输入关系信息抽取模型,通过关系信息抽取模型进行如下处理:
对句子文本中的每个字进行编码,生成句子文本中每个字的上下文化表示;根据句子文本中每个字的上下文化表示,将每个字作为备选头实体和备选尾实体,确定任意备选头实体和任意备选尾实体形成的备选实体对的关系类别概率信息;将句子文本中的字作为备选限定值实体,根据任意备选实体对的实体对表示和任意备选限定值实体的上下文化表示,确定任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息,备选事实为超关系事实的备选;根据备选实体对的关系类别概率信息和任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息,解码出句子文本包含的超关系事实。
在一可选实施例中,在实现根据句子文本中每个字的上下文化表示,将每个字作为备选头实体和备选尾实体,确定任意备选头实体和任意备选尾实体形成的备选实体对的关系类别概率信息时,超关系抽取模块82还用于:
根据句子文本中每个字的上下文化表示,将每个字作为备选头实体和备选尾实体,将任意备选头实体和任意备选尾实体的上下文化表示连接后输入第一前馈神经网络,得到任意备选头实体和任意备选尾实体形成的备选实体对的实体对表示;将备选实体对的实体对表示经过第二前馈神经网络和softmax层的处理,得到备选实体对对应于任意关系类别的概率。
在一可选实施例中,在实现将句子文本中的字作为备选限定值实体,根据任意备选实体对的实体对表示和任意备选限定值实体的上下文化表示,确定任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息之前,超关系抽取模块82还用于:
将备选头实体和备选尾实体为句子文本中同一个字的备选实体对作为目标实体对,将目标实体对对应于任意关系类别的概率中的最大值,作为该字的实体概率,得到句子文本中每个字的实体概率;对句子文本中每一个字的实体概率进行排序,并根据排序结果确定预设数量的字作为参考实体,将参考实体作为备选限定值实体;根据参考实体对备选实体对进行筛选,去除包含除参考实体外的其他字的备选实体对,保留备选头实体和备选尾实体均为参考实体的备选实体对。
在一可选实施例中,在实现根据任意备选实体对的实体对表示和任意备选限定值实体的上下文化表示,确定任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息,超关系抽取模块82还用于:
将任意备选实体对的实体对表示的转置和任意备选限定值实体的上下文化表示,经过双线***互层和softmax层的处理,得到任意备选限定值实体与任意的备选实体对构成的备选事实对应于任意限定类别的概率。
在一可选实施例中,在实现根据备选实体对的关系类别概率信息和任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息,解码出句子文本包含的超关系事实时,超关系抽取模块82还用于:
根据备选事实中备选头实体、备选尾实体和备选限定值实体在句子文本中的位置,确定备选事实的三维位置信息;根据备选事实的三维位置信息,将相邻的具有有效限定类别的至少一个备选事实合并,得到合并后的备选事实。其中,合并后的备选事实中的头实体由至少一个备选事实的头实体合并得到,合并后的备选事实中的尾实体由至少一个备选事实的尾实体合并得到,合并后的备选事实中的限定值实体由至少一个备选事实的限定值实体合并得到,合并后的备选事实对应于任一关系类别的概率根据至少一个备选事实对应于该关系类别的概率求均值确定,合并后的备选事实对应于任一限定类别的概率根据至少一个备选事实对应于该限定类别的概率求均值确定。
进一步地,超关系抽取模块82还用于:根据合并后的每一备选事实确定一个超关系事实,超关系事实中的头实体、尾实体和限定值实体与备选事实相同,超关系事实中的关系类别根据备选事实中的备选实体对对应于任意关系类别的概率确定,超关系事实中的限定类别根据备选事实对应于任意限定类别的概率确定。
在一可选实施例中,关系信息抽取装置80还包括:数据集构建模块和模型训练模块。
其中,数据集构建模块用于获取用于训练关系信息抽取模型的数据集,数据集包括多个句子样本及句子样本包含的超关系事实。
超关系抽取模块82还用于:将句子样本输入关系信息抽取模型,将句子样本中每个字作为备选头实体和备选尾实体,确定任意备选头实体和任意备选尾实体形成的备选实体对的关系类别概率信息,并将句子样本中的字作为备选限定值实体,确定任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息。
模型训练模块用于根据备选实体对的关系类别概率信息的负对数似然值,以及备选事实的限定类别概率信息的负对数似然值,确定损失值,并根据损失值更新关系信息抽取模型的参数。
在一可选实施例中,数据集构建模块具体用于:
获取已有的文本语料和超关系知识图谱;提取已有的文本预料中的句子样本包含的实体,将提取的实体与超关系知识图谱中的相同实体关联;若超关系知识图谱中的任一超关系事实的头实体、尾实体和限定值实体存在于同一句子样本中,则确定该句子样本包含该超关系事实;根据包含超关系事实的句子样本,以及句子样本包含的超关系事实,构建用于训练关系信息抽取模型的数据集。
本实施例提供的装置具体可以用于执行基于上述任一实施例提供的关系信息抽取方法,具体功能和所能实现的技术效果此处不再赘述。
图9为本申请另一示例实施例提供的关系信息抽取装置的结构示意图。本实施例提供的装置应用于执行关系信息抽取方法。如图9所示,关系信息抽取装置90包括:文本采集模块91、答复模块92、超关系抽取模块93和知识图谱更新模块94。
其中,文本采集模块91用于采集用户输入的查询文本。
答复模块92用于基于超关系知识图谱搜索查询文本匹配的知识信息,向用户反馈知识信息,超关系知识图谱包含超关系事实,超关系事实包括关系三元组和关系三元组的限定信息。
超关系抽取模块93用于将查询文本包含的句子文本输入关系信息抽取模型,通过关系信息抽取模型抽取句子文本包含的超关系事实。
知识图谱更新模块94用于根据抽取到的超关系事实更新超关系知识图谱。
本实施例提供的装置具体可以用于执行基于上述图6对应实施例提供的关系信息抽取方法,具体功能和所能实现的技术效果此处不再赘述。
图10为本申请另一示例实施例提供的关系信息抽取装置的结构示意图。本实施例提供的装置应用于执行关系信息抽取方法。如图10所示,关系信息抽取装置100包括:文本语料获取模块1001、超关系抽取模块1002和知识图谱构建模块1003。
其中,文本语料获取模块1001用于获取指定领域的文本语料。
超关系抽取模块1002用于根据文本语料,将文本语料中的句子文本输入关系信息抽取模型,通过关系信息抽取模型抽取句子文本包含的超关系事实,超关系事实包括关系三元组和关系三元组的限定信息。
知识图谱构建模块1003用于根据抽取到的超关系事实构建指定领域的超关系知识图谱。
本实施例提供的装置具体可以用于执行基于上述图7对应实施例提供的关系信息抽取方法,具体功能和所能实现的技术效果此处不再赘述。
图11为本申请一示例实施例提供的电子设备的结构示意图。如图11所示,该电子设备110包括:处理器1101,以及与处理器1101通信连接的存储器1102,存储器1102存储计算机执行指令。
其中,处理器执行存储器存储的计算机执行指令,以实现上述任一方法实施例所提供的方案,具体功能和所能实现的技术效果此处不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述任一方法实施例所提供的方案,具体功能和所能实现的技术效果此处不再赘述。
本申请实施例还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一方法实施例所提供的方案,具体功能和所能实现的技术效果此处不再赘述。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。“多个”的含义是两个以上,除非另有明确具体的限定。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (14)

1.一种关系信息抽取方法,其特征在于,包括:
获取当前应用领域的文本语料,所述文本语料包含至少一个句子文本;
将所述句子文本输入关系信息抽取模型,通过所述关系信息抽取模型抽取句子文本包含的超关系事实,所述超关系事实包括关系三元组和所述关系三元组的限定信息。
2.根据权利要求1所述的方法,其特征在于,所述限定信息包含限定类别和限定值实体,所述超关系事实表示为由头实体、关系类别、尾实体、限定类别和限定值实体组成的五元组。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
根据所述超关系事实的关系三元组和关系三元组的限定信息,构建或更新超关系知识图谱,所述超关系知识图谱包含超关系事实。
4.根据权利要求2所述的方法,其特征在于,所述将所述句子文本输入关系信息抽取模型,通过所述关系信息抽取模型抽取句子文本包含的超关系事实,包括:
将句子文本输入关系信息抽取模型,通过所述关系信息抽取模型进行如下处理:
对句子文本中的每个字进行编码,生成所述句子文本中每个字的上下文化表示;
根据所述句子文本中每个字的上下文化表示,将每个字作为备选头实体和备选尾实体,确定任意备选头实体和任意备选尾实体形成的备选实体对的关系类别概率信息;
将所述句子文本中的字作为备选限定值实体,根据任意备选实体对的实体对表示和任意备选限定值实体的上下文化表示,确定任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息,所述备选事实为超关系事实的备选;
根据所述备选实体对的关系类别概率信息和任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息,解码出句子文本包含的超关系事实。
5.根据权利要求4所述的方法,其特征在于,所述根据所述句子文本中每个字的上下文化表示,将每个字作为备选头实体和备选尾实体,确定任意备选头实体和任意备选尾实体形成的备选实体对的关系类别概率信息,包括:
根据所述句子文本中每个字的上下文化表示,将每个字作为备选头实体和备选尾实体,将任意备选头实体和任意备选尾实体的上下文化表示连接后输入第一前馈神经网络,得到所述任意备选头实体和任意备选尾实体形成的备选实体对的实体对表示;
将所述备选实体对的实体对表示经过第二前馈神经网络和softmax层的处理,得到所述备选实体对对应于任意关系类别的概率。
6.根据权利要求4所述的方法,其特征在于,所述将所述句子文本中的字作为备选限定值实体,根据任意备选实体对的实体对表示和任意备选限定值实体的上下文化表示,确定任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息之前,还包括:
将备选头实体和备选尾实体为句子文本中同一个字的备选实体对作为目标实体对,将目标实体对对应于任意关系类别的概率中的最大值,作为该字的实体概率,得到句子文本中每个字的实体概率;
对句子文本中每一个字的实体概率进行排序,并根据排序结果确定预设数量的字作为参考实体,将参考实体作为备选限定值实体;
根据参考实体对备选实体对进行筛选,去除包含除参考实体外的其他字的备选实体对,保留备选头实体和备选尾实体均为参考实体的备选实体对。
7.根据权利要求4或6所述的方法,其特征在于,所述根据任意备选实体对的实体对表示和任意备选限定值实体的上下文化表示,确定任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息,包括:
将任意备选实体对的实体对表示的转置和任意备选限定值实体的上下文化表示,经过双线***互层和softmax层的处理,得到任意备选限定值实体与任意的备选实体对构成的备选事实对应于任意限定类别的概率。
8.根据权利要求4-6中任一项所述的方法,其特征在于,所述根据所述备选实体对的关系类别概率信息和任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息,解码出句子文本包含的超关系事实,包括:
根据备选事实中备选头实体、备选尾实体和备选限定值实体在句子文本中的位置,确定备选事实的三维位置信息;
根据备选事实的三维位置信息,将相邻的具有有效限定类别的至少一个备选事实合并,得到合并后的备选事实,其中,合并后的备选事实中的头实体由所述至少一个备选事实的头实体合并得到,合并后的备选事实中的尾实体由所述至少一个备选事实的尾实体合并得到,合并后的备选事实中的限定值实体由所述至少一个备选事实的限定值实体合并得到,合并后的备选事实对应于任一关系类别的概率根据所述至少一个备选事实对应于该关系类别的概率求均值确定,合并后的备选事实对应于任一限定类别的概率根据所述至少一个备选事实对应于该限定类别的概率求均值确定;
根据合并后的每一备选事实确定一个超关系事实,所述超关系事实中的头实体、尾实体和限定值实体与所述备选事实相同,所述超关系事实中的关系类别根据所述备选事实中的备选实体对对应于任意关系类别的概率确定,所述超关系事实中的限定类别根据所述备选事实对应于任意限定类别的概率确定。
9.根据权利要求4所述的方法,其特征在于,还包括:
获取用于训练关系信息抽取模型的数据集,所述数据集包括多个句子样本及句子样本包含的超关系事实;
将所述句子样本输入关系信息抽取模型,将所述句子样本中每个字作为备选头实体和备选尾实体,确定任意备选头实体和任意备选尾实体形成的备选实体对的关系类别概率信息,并将所述句子样本中的字作为备选限定值实体,确定任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息;
根据所述备选实体对的关系类别概率信息的负对数似然值,以及所述备选事实的限定类别概率信息的负对数似然值,确定损失值,并根据损失值更新关系信息抽取模型的参数。
10.根据权利要求9所述的方法,其特征在于,所述获取用于训练关系信息抽取模型的数据集,包括:
获取已有的文本语料和超关系知识图谱;
提取已有的文本预料中的句子样本包含的实体,将提取的实体与超关系知识图谱中的相同实体关联;
若超关系知识图谱中的任一超关系事实的头实体、尾实体和限定值实体存在于同一句子样本中,则确定该句子样本包含该超关系事实;
根据包含超关系事实的句子样本,以及句子样本包含的超关系事实,构建用于训练关系信息抽取模型的数据集。
11.一种关系信息抽取方法,其特征在于,包括:
采集用户输入的查询文本;
基于超关系知识图谱搜索所述查询文本匹配的知识信息,向所述用户反馈所述知识信息,所述超关系知识图谱包含超关系事实,所述超关系事实包括关系三元组和所述关系三元组的限定信息;
将所述查询文本包含的句子文本输入关系信息抽取模型,通过所述关系信息抽取模型抽取句子文本包含的超关系事实;
根据抽取到的超关系事实更新所述超关系知识图谱。
12.一种关系信息抽取方法,其特征在于,包括:
获取指定领域的文本语料;
根据所述文本语料,将文本语料中的句子文本输入关系信息抽取模型,通过所述关系信息抽取模型抽取句子文本包含的超关系事实,所述超关系事实包括关系三元组和所述关系三元组的限定信息;
根据抽取到的超关系事实构建所述指定领域的超关系知识图谱。
13.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-7中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-7中任一项所述的方法。
CN202211271839.XA 2022-10-18 2022-10-18 关系信息抽取方法、设备及计算机可读存储介质 Pending CN115587192A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211271839.XA CN115587192A (zh) 2022-10-18 2022-10-18 关系信息抽取方法、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211271839.XA CN115587192A (zh) 2022-10-18 2022-10-18 关系信息抽取方法、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN115587192A true CN115587192A (zh) 2023-01-10

Family

ID=84780289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211271839.XA Pending CN115587192A (zh) 2022-10-18 2022-10-18 关系信息抽取方法、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN115587192A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117668259A (zh) * 2024-02-01 2024-03-08 华安证券股份有限公司 基于知识图谱的内外规数据联动分析方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117668259A (zh) * 2024-02-01 2024-03-08 华安证券股份有限公司 基于知识图谱的内外规数据联动分析方法及装置
CN117668259B (zh) * 2024-02-01 2024-04-26 华安证券股份有限公司 基于知识图谱的内外规数据联动分析方法及装置

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN107329995B (zh) 一种语义受控的答案生成方法、装置及***
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN109960786A (zh) 基于融合策略的中文词语相似度计算方法
CN111222305A (zh) 一种信息结构化方法和装置
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN112199608A (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
EP3940582A1 (en) Method for disambiguating between authors with same name on basis of network representation and semantic representation
CN111177583A (zh) 一种基于社交平台的人脉分析方法及***
CN113742488B (zh) 基于多任务学习的嵌入式知识图谱补全方法和装置
CN115599899B (zh) 基于飞行器知识图谱的智能问答方法、***、设备及介质
CN111563158A (zh) 文本排序方法、排序装置、服务器和计算机可读存储介质
CN113011172A (zh) 文本处理方法、装置、计算机设备和存储介质
CN115587192A (zh) 关系信息抽取方法、设备及计算机可读存储介质
US11948387B2 (en) Optimized policy-based active learning for content detection
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN113569018A (zh) 问答对挖掘方法及装置
CN117114063A (zh) 用于训练生成式大语言模型和用于处理图像任务的方法
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN113010664B (zh) 一种数据处理方法、装置及计算机设备
CN109299291A (zh) 一种基于卷积神经网络的问答社区标签推荐方法
CN109255019A (zh) 一种基于人工智能的在线题库及其应用方法
CN112507185B (zh) 用户肖像的确定方法和装置
CN114925681A (zh) 知识图谱问答问句实体链接方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination