CN113553854A

CN113553854A - 实体关系的联合抽取方法和联合抽取装置

Info

Publication number: CN113553854A
Application number: CN202111096807.6A
Authority: CN
Inventors: 经小川; 刘萱; 杜婉茹; 王潇茵; 李瑞群
Original assignee: Aerospace Hongkang Intelligent Technology Beijing Co ltd
Current assignee: Aerospace Hongkang Intelligent Technology Beijing Co ltd
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2021-10-26
Anticipated expiration: 2041-09-18
Also published as: CN113553854B

Abstract

公开实体关系的联合抽取方法和联合抽取装置，所述联合抽取方法包括：获取文本数据；基于预设模型，获取所述文本数据的第一特征序列，其中，所述第一特征序列包括多个第一特征向量，所述文本数据的每个字符对应于至少一个第一特征向量，并且每个第一特征向量包括多个第一特征元素；基于所述第一特征序列，将每个第一特征向量映射为互斥二元交叉标记，并将所有互斥二元交叉标记组合为互斥二元交叉标记集合；基于所述互斥二元交叉标记集合，对所述文本数据的实体关系进行联合抽取。该联合抽取方法不仅降低了关系抽取的传播误差，还能够有效地解决重叠实体关系问题。

Description

实体关系的联合抽取方法和联合抽取装置

技术领域

本公开总体说来涉及自然语言处理领域，更具体地讲，涉及一种实体关系的联合抽取方法和联合抽取装置。

背景技术

自然语言处理（Natural Language Processing，NLP）是计算机科学与人工智能领域中的一个重要方向。对于自然语言处理，其中一项基础研究是信息抽取（InformationExtraction，IE）。信息抽取是从自然语言文本中针对实体、关系和事件等多种类型的信息进行抽取并形成结构化数据的过程，其最基本的工作是命名实体识别，而核心在于对实体关系的抽取，即关系抽取（Relation Extraction，RE）。

实体关系通常形式化为一个关系三元组T，由两个实体E1和E2以及它们之间的关系Rs组成：T =< E1, Rs, E2 >，例如<北京, 首都, 中国>。而关系抽取的目标则是从非结构化自然语言文本中抽取出特定类型的实体以及实体对之间的关系，是知识图谱构建等下游任务的基础和数据源。

在早期研究中，关系抽取通常采用流水线方法，即首先使用命名实体识别模块进行实体识别，然后使用关系分类模块对每个实体对进行关系分类。然而，无论是采用流水线方法还是与其类似的分段模型，在初期阶段产生的误差均无法在后续阶段得到修正，即广泛存在传播误差。为了解决这一问题，近期研究针对实体识别和关系分类进行联合学习，通过联合抽取方法同时提取并利用实体和关系之间的关联信息，但是，这种方法的难点在于，自然语言文本中广泛存在重叠实体关系问题。

重叠实体关系问题主要分为两大类：实体对重叠（Entity Pair Overlap ，EPO）和单实体重叠（Single Entity Overlap ，SEO）。重叠实体关系问题是指多个三元组在一个句子中共享一个或两个实体的情况，例如，句子“我出生在中国的首都北京”中包含三个关系三元组：<北京, 首都, 中国>，<我, 出生地, 北京>以及<我, 出生地, 中国>，其中<北京,首都, 中国>和<我, 出生地, 北京>共享实体“北京”，<我, 出生地, 北京>和<我, 出生地, 中国>共享实体“我”。然而，现有的联合抽取方法不能有效解决重叠实体关系问题，存在无法提取出所有共享实体的关系三元组的情况。

发明内容

本公开提供一种实体关系的联合抽取方法和联合抽取装置，从而在降低传播误差的同时解决重叠实体关系问题。

在一个总的方面，提供一种实体关系的联合抽取方法，所述联合抽取方法包括：获取文本数据；基于预设模型，获取所述文本数据的第一特征序列，其中，所述第一特征序列包括多个第一特征向量，所述文本数据的每个字符对应于至少一个第一特征向量，并且每个第一特征向量包括多个第一特征元素；基于所述第一特征序列，将每个第一特征向量映射为互斥二元交叉标记，并将所有互斥二元交叉标记组合为互斥二元交叉标记集合；基于所述互斥二元交叉标记集合，对所述文本数据的实体关系进行联合抽取。

可选地，每个第一特征向量包括的第一特征元素的第二数量基于所述预设模型中预定义的谓词的第一数量来确定。

可选地，基于所述第一特征序列，将每个第一特征向量映射为互斥二元交叉标记的步骤包括：针对任意一个第一特征向量，将该第一特征向量的每个第一特征元素和第一预设阈值进行比较；当所述第一特征元素大于所述第一预设阈值，将所述第一特征元素重新赋值为1；当所述第一特征元素小于或等于所述第一预设阈值，将所述第一特征元素重新赋值为0；基于重新赋值后的所述第一特征元素，将该第一特征向量映射为互斥二元交叉标记。

可选地，基于所述互斥二元交叉标记集合，对所述文本数据的实体关系进行联合抽取的步骤包括：确定每个互斥二元交叉标记中值1的位置信息；基于所述值1的位置信息，将每个互斥二元交叉标记一维化；基于将每个互斥二元交叉标记一维化后得到的第二特征元素，确定第二特征序列；基于所述第二特征序列，对所述文本数据的实体关系进行联合抽取。

可选地，基于所述第二特征序列，对所述文本数据的实体关系进行联合抽取的步骤包括：将所述第二特征元素和第二预设阈值进行比较；基于所述第二特征元素小于所述第二预设阈值，确定所述第二特征元素是无效字符元素；基于所述第二特征元素等于所述第二预设阈值，确定所述第二特征元素是实体中间字符元素；基于所述第二特征元素大于所述第二预设阈值，确定所述第二特征元素是实体首尾字符元素；基于所述实体首尾字符元素，对所述文本数据的实体关系进行联合抽取。

可选地，所述实体首尾字符元素包括实体首字符元素和实体尾字符元素，其中，所述实体首字符元素包括主语实体首字符元素和宾语实体首字符元素，所述实体尾字符元素包括主语实体尾字符元素和宾语实体尾字符元素。

可选地，基于所述实体首尾字符元素，对所述文本数据的实体关系进行联合抽取的步骤包括：基于所述实体首尾字符元素不大于所述第二预设阈值和所述第一数量的第一和值，确定所述实体首尾字符元素是所述主语实体首字符元素；基于所述实体首尾字符元素大于所述第一和值，并且不大于所述第一和值与所述第一数量的第二和值，确定所述实体首尾字符元素是所述宾语实体首字符元素；基于所述实体首尾字符元素大于所述第二和值，并且不大于所述第二和值与所述第一数量的第三和值，确定所述实体首尾字符元素是所述主语实体尾字符元素；基于所述实体首尾字符元素大于所述第三和值，并且不大于所述第三和值与所述第一数量的第四和值，确定所述实体首尾字符元素是所述宾语实体尾字符元素。

可选地，基于所述实体首尾字符元素，对所述文本数据的实体关系进行联合抽取的步骤还包括：基于邻近的所述实体首字符元素与所述实体尾字符元素的差值为第一数量的2倍，将邻近的所述实体首字符元素与所述实体尾字符元素彼此匹配，从而对所述文本数据的实体进行抽取；基于邻近的所述实体首字符元素之间的差值为第一数量，确定邻近的所述实体首字符元素对应的实体是具有相同谓词关系的实体对，从而对所述文本数据的实体关系进行联合抽取。

可选地，基于所述实体首尾字符元素，对所述文本数据的实体关系进行联合抽取的步骤还包括：基于邻近的所述主语实体首字符元素与所述主语实体尾字符元素的差值为第一数量的2倍，将邻近的所述主语实体首字符元素与所述主语实体尾字符元素彼此匹配，从而对所述文本数据的主语实体进行抽取；基于邻近的所述宾语实体首字符元素与所述宾语实体尾字符元素的差值为第一数量的2倍，将邻近的所述宾语实体首字符元素与所述宾语实体尾字符元素彼此匹配，从而对所述文本数据的宾语实体进行抽取；基于邻近的所述主语实体首字符元素与所述宾语实体首字符元素的差值为第一数量，确定邻近的所述主语实体首字符元素对应的实体与所述宾语实体首字符元素对应的实体是具有相同谓词关系的实体对，从而对所述文本数据的实体关系进行联合抽取。

在另一总的方面，提供一种实体关系的联合抽取装置，所述联合抽取装置包括：数据单元，被配置为获取文本数据；编码单元，被配置为基于预设模型，获取所述文本数据的第一特征序列，其中，所述第一特征序列包括多个第一特征向量，所述文本数据的每个字符对应于至少一个第一特征向量，并且每个第一特征向量包括多个第一特征元素；映射单元，被配置为基于所述第一特征序列，将每个第一特征向量映射为互斥二元交叉标记，并将所有互斥二元交叉标记组合为互斥二元交叉标记集合；抽取单元，被配置为基于所述互斥二元交叉标记集合，对所述文本数据的实体关系进行联合抽取。

可选地，映射单元被配置为：针对任意一个第一特征向量，将该第一特征向量的每个第一特征元素和第一预设阈值进行比较；当所述第一特征元素大于所述第一预设阈值，将所述第一特征元素重新赋值为1；当所述第一特征元素小于或等于所述第一预设阈值，将所述第一特征元素重新赋值为0；基于重新赋值后的所述第一特征元素，将该第一特征向量映射为互斥二元交叉标记。

可选地，抽取单元被配置为：确定每个互斥二元交叉标记中值1的位置信息；基于所述值1的位置信息，将每个互斥二元交叉标记一维化；基于将每个互斥二元交叉标记一维化后得到的第二特征元素，确定第二特征序列；基于所述第二特征序列，对所述文本数据的实体关系进行联合抽取。

可选地，抽取单元被配置为：将所述第二特征元素和第二预设阈值进行比较；基于所述第二特征元素小于所述第二预设阈值，确定所述第二特征元素是无效字符元素；基于所述第二特征元素等于所述第二预设阈值，确定所述第二特征元素是实体中间字符元素；基于所述第二特征元素大于所述第二预设阈值，确定所述第二特征元素是实体首尾字符元素；基于所述实体首尾字符元素，对所述文本数据的实体关系进行联合抽取。

可选地，抽取单元被配置为：基于所述实体首尾字符元素不大于所述第二预设阈值和所述第一数量的第一和值，确定所述实体首尾字符元素是所述主语实体首字符元素；基于所述实体首尾字符元素大于所述第一和值，并且不大于所述第一和值与所述第一数量的第二和值，确定所述实体首尾字符元素是所述宾语实体首字符元素；基于所述实体首尾字符元素大于所述第二和值，并且不大于所述第二和值与所述第一数量的第三和值，确定所述实体首尾字符元素是所述主语实体尾字符元素；基于所述实体首尾字符元素大于所述第三和值，并且不大于所述第三和值与所述第一数量的第四和值，确定所述实体首尾字符元素是所述宾语实体尾字符元素。

可选地，抽取单元被配置为：基于邻近的所述实体首字符元素与所述实体尾字符元素的差值为第一数量的2倍，将邻近的所述实体首字符元素与所述实体尾字符元素彼此匹配，从而对所述文本数据的实体进行抽取；基于邻近的所述实体首字符元素之间的差值为第一数量，确定邻近的所述实体首字符元素对应的实体是具有相同谓词关系的实体对，从而对所述文本数据的实体关系进行联合抽取。

可选地，抽取单元被配置为：基于邻近的所述主语实体首字符元素与所述主语实体尾字符元素的差值为第一数量的2倍，将邻近的所述主语实体首字符元素与所述主语实体尾字符元素彼此匹配，从而对所述文本数据的主语实体进行抽取；基于邻近的所述宾语实体首字符元素与所述宾语实体尾字符元素的差值为第一数量的2倍，将邻近的所述宾语实体首字符元素与所述宾语实体尾字符元素彼此匹配，从而对所述文本数据的宾语实体进行抽取；基于邻近的所述主语实体首字符元素与所述宾语实体首字符元素的差值为第一数量，确定邻近的所述主语实体首字符元素对应的实体与所述宾语实体首字符元素对应的实体是具有相同谓词关系的实体对，从而对所述文本数据的实体关系进行联合抽取。

在另一总的方面，提供一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，实现如上所述的实体关系的联合抽取方法。

在另一总的方面，提供一种计算装置，所述计算装置包括：处理器；和存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的实体关系的联合抽取方法。

根据本公开的实施例的实体关系的联合抽取方法和联合抽取装置可以从非结构化文本中联合抽取实体对及其关系，从而降低关系抽取的传播误差。此外，根据本公开的实施例的实体关系的联合抽取方法和联合抽取装置，通过将待处理的自然语言文本中的每个字符转换为互斥二元交叉标记，把复杂的重叠实体抽取问题转换成了标记预测问题，能够有效地解决重叠实体关系问题，从而提高了关系抽取的性能。

将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本公开总体构思的实施而得知。

附图说明

通过下面结合示出实施例的附图进行的描述，本公开的实施例的上述和其他目的和特点将会变得更加清楚，其中。

图1是示出根据本公开的实施例的实体关系的联合抽取方法的流程图。

图2是示出根据本公开的实施例的图1中的步骤S103的流程图。

图3是示出根据本公开的实施例的图1中的步骤S104的流程图。

图4是示出根据本公开的实施例的图3中的步骤S304的流程图。

图5是示出根据本公开的实施例的图4中的步骤S405的流程图。

图6是示出根据本公开的实施例的互斥二元交叉标记的示意图。

图7是示出根据本公开的实施例的实体关系的联合抽取装置的框图。

图8是示出根据本公开的实施例的计算装置的框图。

具体实施方式

提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或***的全面理解。然而，在理解本申请的公开之后，在此描述的方法、设备和/或***的各种改变、修改和等同物将是清楚的。例如，在此描述的操作的顺序仅是示例，并且不限于在此阐述的那些顺序，而是除了必须以特定的顺序发生的操作之外，可如在理解本申请的公开之后将是清楚的那样被改变。此外，为了更加清楚和简明，本领域已知的特征的描述可被省略。

在此描述的特征可以以不同的形式来实现，而不应被解释为限于在此描述的示例。相反，已提供在此描述的示例，以仅示出实现在此描述的方法、设备和/或***的许多可行方式中的一些可行方式，所述许多可行方式在理解本申请的公开之后将是清楚的。

如在此使用的，术语“和/或”包括相关联的所列项中的任何一个以及任何两个或更多个的任何组合。

尽管在此可使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或部分，但是这些构件、组件、区域、层或部分不应被这些术语所限制。相反，这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分进行区分。因此，在不脱离示例的教导的情况下，在此描述的示例中所称的第一构件、第一组件、第一区域、第一层或第一部分也可被称为第二构件、第二组件、第二区域、第二层或第二部分。

在说明书中，当元件（诸如，层、区域或基底）被描述为“在”另一元件上、“连接到”或“结合到”另一元件时，该元件可直接“在”另一元件上、直接“连接到”或“结合到”另一元件，或者可存在介于其间的一个或多个其他元件。相反，当元件被描述为“直接在”另一元件上、“直接连接到”或“直接结合到”另一元件时，可不存在介于其间的其他元件。

在此使用的术语仅用于描述各种示例，并不将用于限制公开。除非上下文另外清楚地指示，否则单数形式也意在包括复数形式。术语“包含”、“包括”和“具有”说明存在叙述的特征、数量、操作、构件、元件和/或它们的组合，但不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。

除非另有定义，否则在此使用的所有术语（包括技术术语和科学术语）具有与由本公开所属领域的普通技术人员在理解本公开之后通常理解的含义相同的含义。除非在此明确地如此定义，否则术语（诸如，在通用词典中定义的术语）应被解释为具有与它们在相关领域的上下文和本公开中的含义一致的含义，并且不应被理想化或过于形式化地解释。

此外，在示例的描述中，当认为公知的相关结构或功能的详细描述将引起对本公开的模糊解释时，将省略这样的详细描述。

根据本公开的实施例的实体关系的联合抽取方法和联合抽取装置可以从非结构化文本中联合抽取实体对及其关系，并且通过将待处理的自然语言文本中的每个字符转换为互斥二元交叉标记，把复杂的重叠实体抽取问题转换成了标记预测问题，从而不仅降低了关系抽取的传播误差，还能够有效地解决重叠实体关系问题，大幅提高了关系抽取的性能。

下面参照图1至图8详细描述根据本公开的实施例的实体关系的联合抽取方法和联合抽取装置。

图1是根据本公开的实施例的实体关系的联合抽取方法的流程图。根据本公开的实施例的实体关系的联合抽取方法可以在具有足够运算能力的计算装置中实现。

参照图1，在步骤S101中，可获取文本数据。这里，文本数据可以是非结构化的自然语言文本。

接下来，在步骤S102中，可基于预设模型，获取文本数据的第一特征序列。这里，预设模型可以是预先训练的BERT（Bidirectional Encoder Representation fromTransformers）模型。可通过将文本数据输入BERT模型，再由BERT模型输出第一特征序列。进一步讲，第一特征序列包括多个第一特征向量，文本数据的每个字符对应于至少一个第一特征向量，并且每个第一特征向量包括多个第一特征元素。更进一步讲，每个第一特征向量包括的第一特征元素的第二数量基于预设模型中预定义的谓词的第一数量N来确定。具体地讲，每个字符对应的第一特征向量的数量，可通过BERT模型预测的该字符对应的谓词关系的数量来确定；此外，每个第一特征向量包括的第一特征元素的第二数量可以是4N+2，也可以由本领域的技术人员根据实际情况来设置。

更具体地讲，预先训练的BERT模型在微调阶段，可通过预定义的谓词的第一数量来调整其参数，从而使BERT模型输出的第一特征序列中，每个第一特征向量包括的第一特征元素的数量为第二数量。

接下来，在步骤S103中，可基于第一特征序列，将每个第一特征向量映射为互斥二元交叉标记，并将所有互斥二元交叉标记组合为互斥二元交叉标记集合。下面参照图2描述根据本公开的实施例的图1中的步骤S103。

图2是示出根据本公开的实施例的图1中的步骤S103的流程图。

参照图2，在步骤S201中，可针对任意一个第一特征向量，将该第一特征向量的每个第一特征元素和第一预设阈值进行比较。这里，第一预设阈值可以是1，也可以由本领域的技术人员根据实际情况来设置。

接下来，在步骤S202中，当第一特征元素大于第一预设阈值，将第一特征元素重新赋值为1。

在步骤S203中，当第一特征元素小于或等于第一预设阈值，将第一特征元素重新赋值为0。

在步骤S204中，基于重新赋值后的第一特征元素，将该第一特征向量映射为互斥二元交叉标记。进一步地，可将所有互斥二元交叉标记组合为互斥二元交叉标记集合。

具体地讲，互斥二元交叉标记可以是由0和1构成的第二特征向量，这里，第二特征向量的维度可以是第二数量（即，如上所述的4N+2）。进一步讲，将每个第一特征向量映射为互斥二元交叉标记之后，文本数据中的每个字符都可对应于至少一个互斥二元交叉标记。

举例来说，BERT模型输出的第一特征序列中的一个第一特征向量可以是

，第一预设阈值可以是1，将该第一特征向量的每个第一特征元素和第一预设阈值进行比较，然后将第一特征元素8.65重新赋值为1，并且将其余的第一特征元素0.1重新赋值为0，最终可以得到对应于该第一特征向量的由0和1构成的第二特征向量

，即互斥二元交叉标记。

返回参照图1，在步骤S104中，可基于互斥二元交叉标记集合，对所述文本数据的实体关系进行联合抽取。下面参照图3描述根据本公开的实施例的图1中的步骤S104。

图3是示出根据本公开的实施例的图1中的步骤S104的流程图。

参照图3，在步骤S301中，可确定每个互斥二元交叉标记中值1的位置信息。这里，值1的位置信息可表示为值1位于互斥二元交叉标记第多少位的信息。例如，当值1位于互斥二元交叉标记的第一位时，值1的位置信息可以是0；当值1位于互斥二元交叉标记的第二位时，值1的位置信息可以是1；当值1位于互斥二元交叉标记的第N+1位时，值1的位置信息可以是N。

接下来，在步骤S302中，可基于值1的位置信息，将每个互斥二元交叉标记一维化。这里，如上所述，互斥二元交叉标记的维度可以是第二数量，通过将每个互斥二元交叉标记一维化，可以更简便地对互斥二元交叉标记进行匹配。

在步骤S303中，可基于将每个互斥二元交叉标记一维化后得到的第二特征元素，确定第二特征序列。这里，第二特征元素可以是如上所述的值1的位置信息。进一步地，在将每个互斥二元交叉标记一维化得到第二特征元素后，文本数据中的每个字符都可对应于至少一个第二特征元素。

在步骤S304中，可基于第二特征序列，对文本数据的实体关系进行联合抽取。下面参照图4描述根据本公开的实施例的图3中的步骤S304。

图4是示出根据本公开的实施例的图3中的步骤S304的流程图。

参照图4，在步骤S401中，可将第二特征元素和第二预设阈值进行比较。这里，第二预设阈值可以是1，也可以由本领域的技术人员根据实际情况来设置。

接下来，在步骤S402中，可基于第二特征元素小于第二预设阈值，确定第二特征元素是无效字符元素。这里，无效字符元素可对应于文本数据中的与要抽取的关系三元组无关的字符。

在步骤S403中，可基于第二特征元素等于第二预设阈值，确定第二特征元素是实体中间字符元素。

在步骤S404中，可基于第二特征元素大于第二预设阈值，确定第二特征元素是实体首尾字符元素。这里，实体首尾字符元素可包括实体首字符元素和实体尾字符元素。进一步地，实体首字符元素可包括主语实体首字符元素和宾语实体首字符元素，以及实体尾字符元素可包括主语实体尾字符元素和宾语实体尾字符元素。

接下来，在步骤S405中，可基于实体首尾字符元素，对文本数据的实体关系进行联合抽取。下面参照图5描述根据本公开的实施例的图4中的步骤S405。

图5是示出根据本公开的实施例的图4中的步骤S405的流程图。

参照图5，在步骤S501中，可基于实体首尾字符元素不大于第二预设阈值和第一数量的第一和值，确定实体首尾字符元素是主语实体首字符元素。具体地讲，第一和值可通过第二预设阈值和第一数量求和得到。进一步讲，第一和值可以是N+1。

接下来，在步骤S502中，可基于实体首尾字符元素大于第一和值，并且不大于第一和值与第一数量的第二和值，确定实体首尾字符元素是宾语实体首字符元素。具体地讲，第二和值可通过第一和值与第一数量求和得到。进一步讲，第二和值可以是2N+1。

在步骤S503中，可基于实体首尾字符元素大于第二和值，并且不大于第二和值与第一数量的第三和值，确定实体首尾字符元素是主语实体尾字符元素。具体地讲，第三和值可通过第二和值与第一数量求和得到。进一步讲，第三和值可以是3N+1。

在步骤S504中，可基于实体首尾字符元素大于第三和值，并且不大于第三和值与第一数量的第四和值，确定实体首尾字符元素是宾语实体尾字符元素。具体地讲，第四和值可通过第三和值与第一数量求和得到。进一步讲，第四和值可以是4N+1。

接下来，在步骤S505中，可基于邻近的实体首字符元素与实体尾字符元素的差值为第一数量的2倍，将邻近的实体首字符元素与实体尾字符元素彼此匹配，从而对文本数据的实体进行抽取。这里，邻近的实体首字符元素与实体尾字符元素的差值为第一数量的2倍可表示两重含义：（1）一个实体首字符元素与一个实体尾字符元素的差值为第一数量的2倍；（2）所述一个实体首字符元素与所述一个实体尾字符元素在第二特征序列中的间隔小于差值同样为第一数量的2倍的所述一个实体首字符元素与其他实体尾字符元素的间隔。进一步地，可通过递归匹配的方式将实体首字符元素与实体尾字符元素彼此匹配。

具体地讲，可基于邻近的主语实体首字符元素与主语实体尾字符元素的差值为第一数量的2倍，将邻近的主语实体首字符元素与主语实体尾字符元素彼此匹配，从而对文本数据的主语实体进行抽取。

同时，可基于邻近的宾语实体首字符元素与宾语实体尾字符元素的差值为第一数量的2倍，将邻近的宾语实体首字符元素与宾语实体尾字符元素彼此匹配，从而对文本数据的宾语实体进行抽取。

接下来，在步骤S506中，可基于邻近的实体首字符元素之间的差值为第一数量，确定邻近的实体首字符元素对应的实体是具有相同谓词关系的实体对，从而对文本数据的实体关系进行联合抽取。这里，谓词关系可通过查找预定义的谓词来确定。进一步讲，邻近的实体首字符元素之间的差值为第一数量可表示两重含义：（1）一个实体首字符元素与另一个实体首字符元素的差值为第一数量；（2）所述一个实体首字符元素与所述另一个实体首字符元素在第二特征序列中的间隔小于差值同样为第一数量的所述一个实体首字符元素与其他实体首字符元素的间隔。

具体地讲，可基于邻近的主语实体首字符元素与宾语实体首字符元素的差值为第一数量，确定邻近的主语实体首字符元素对应的实体与宾语实体首字符元素对应的实体是具有相同谓词关系的实体对，从而对文本数据的实体关系进行联合抽取。

下面参照图6具体描述根据本公开的实施例的互斥二元交叉标记。图6是示出根据本公开的实施例的互斥二元交叉标记的示意图。

参照图6，主语实体“某某赋”和宾语实体“刘某某”中的每一个字符，各自对应于一个由0和1构成的互斥二元交叉标记。

具体地讲，在预先训练的BERT模型中，文本数据中的每个字符都可被分配至少一个序列标记，即BIEO（Begin, Intermediate, End, Other）标记，用于指示每个字符在相应实体中的位置。

对于如图6所示的维度为4N+2的互斥二元标记来讲，从右往左第一位可表示BIEO标记中的O标记信息，从右往左第二位可表示BIEO标记中的I标记信息，从右往左第三位至第2N+2位可表示为BIEO标记中的B标记信息，从右往左第2N+3位至第4N+2位可表示为BIEO标记中的E标记信息。

进一步讲，在互斥二元交叉标记中，当值1位于从右往左第一位时，对应于该互斥二元交叉标记的字符可以是无效字符；当值1位于从右往左第二位时，对应于该互斥二元交叉标记的字符可以是实体中间字符；当值1位于从右往左第三位至第4N+2位时，对应于该互斥二元交叉标记的字符可以是实体首尾字符。

返回参照图3，将通过以下示例详细描述如上所述的步骤S304。

示例一：

根据本公开的实施例的实体关系的联合抽取方法，基于文本数据“《某某赋》是刘某某执导的公安题材电视剧。历史题材电视剧《某某晴空》由李某某执导。”，得到第二特征序列[0, 14, 1, 112, 0, 0, 63, 1, 161, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 0, 0, 0, 14, 1, 1, 112, 0, 0, 63, 1, 161, 0, 0, 0]。这里，预定义的谓词的第一数量N=49，第二特征元素0表示无效字符元素，第二特征元素1表示实体中间字符元素。

接下来，按从左往右的顺序，可以确定第二特征元素14是主语实体首字符元素，第二特征元素112是主语实体尾字符元素，第二特征元素63是宾语实体首字符元素，第二特征元素161是宾语实体尾字符元素。因为第二特征元素14与第二特征元素112的差值是2N，因此匹配邻近的第二特征元素14和第二特征元素112，可以得到主语实体“某某赋”和“某某晴空”。同理，可以得到宾语实体“刘某某”和“李某某”。进一步地，因为第二特征元素14与第二特征元素63的差值是N，因此匹配邻近的第二特征元素14和第二特征元素63，可以确定具有相同谓词关系的实体对“某某赋”和“刘某某”，以及“某某晴空”和“李某某”。

这里，第二特征元素14对应于预定义的谓词中的某一个，可通过查找得知第二特征元素14对应于预定义的谓词中的“导演”。

因此，根据本公开的实施例的实体关系的联合抽取方法，基于文本数据“《某某赋》是刘某某执导的公安题材电视剧。历史题材电视剧《某某晴空》由李某某执导。”，最终得到关系三元组<某某赋，导演，刘某某>和<某某晴空，导演，李某某>。

示例二：

根据本公开的实施例的实体关系的联合抽取方法，基于文本数据“《某某行》是某某文学旗下某某中文网签约作家某某秋风创作的一部东方玄幻小说”，得到第二特征序列[0, 25, 44, 1, 123, 142, 0, 0, 0, 0, 0, 0, 0, 0, 74, 1, 1, 1, 172, 0, 0, 0,0, 93, 1, 1, 191, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]。这里，预定义的谓词的第一数量N=49，第二特征元素0表示无效字符元素，第二特征元素1表示实体中间字符元素。

接下来，按从左往右的顺序，可以确定第二特征元素25和第二特征元素44是主语实体首字符元素，第二特征元素123和第二特征元素142是主语实体尾字符元素，第二特征元素74和第二特征元素93是宾语实体首字符元素，第二特征元素172和第二特征元素191是宾语实体尾字符元素。因为第二特征元素25与第二特征元素123的差值是2N，以及第二特征元素44与第二特征元素142也是2N，因此匹配邻近的第二特征元素25和第二特征元素123，以及第二特征元素44和第二特征元素142，可以得到主语实体“某某行”。同理，可以得到宾语实体“某某中文网”和“某某秋风”。进一步地，因为第二特征元素25与第二特征元素74的差值是N，因此匹配邻近的第二特征元素25和第二特征元素74，可以确定具有相同谓词关系的实体对“某某行”和“某某中文网”。同理，可以确定实体对“某某行”和“某某秋风”。

这里，第二特征元素25和第二特征元素44对应于预定义的谓词中的某两个，可通过查找得知第二特征元素25对应于预定义的谓词中的“连载网站”，以及第二特征元素44对应于预定义的谓词中的“作者”。

因此，根据本公开的实施例的实体关系的联合抽取方法，基于文本数据“《某某行》是某某文学旗下某某中文网签约作家某某秋风创作的一部东方玄幻小说”，最终得到关系三元组<某某行，连载网站，某某中文网>和<某某行，作者，某某秋风>，有效地解决了重叠实体关系问题。

根据如上所述的实体关系的联合抽取方法，能够从非结构化文本中联合抽取实体对及其关系，并且通过将待处理的自然语言文本中的每个字符转换为互斥二元交叉标记，把复杂的重叠实体抽取问题转换成了标记预测问题，从而不仅降低了关系抽取的传播误差，还能够有效地解决重叠实体关系问题，大幅提高了关系抽取的性能。

图7是示出根据本公开的实施例的实体关系的联合抽取装置的框图。根据本公开的实施例的实体关系的联合抽取装置可以在具有足够运算能力的计算装置中实现。

参照图7，根据本公开的实施例的实体关系的联合抽取装置700可包括数据单元710、编码单元720，映射单元730和抽取单元740。

数据单元710可获取文本数据。

编码单元720可基于预设模型，获取所述文本数据的第一特征序列。这里，第一特征序列包括多个第一特征向量，文本数据的每个字符对应于至少一个第一特征向量，并且每个第一特征向量包括多个第一特征元素。

可选择地，每个第一特征向量包括的第一特征元素的第二数量基于预设模型中预定义的谓词的第一数量N来确定。

映射单元730可基于第一特征序列，将每个第一特征向量映射为互斥二元交叉标记，并将所有互斥二元交叉标记组合为互斥二元交叉标记集合。

映射单元730还可针对任意一个第一特征向量，将该第一特征向量的每个第一特征元素和第一预设阈值进行比较；当第一特征元素大于第一预设阈值，将第一特征元素重新赋值为1；当第一特征元素小于或等于第一预设阈值，将第一特征元素重新赋值为0；基于重新赋值后的第一特征元素，将该第一特征向量映射为互斥二元交叉标记。

抽取单元740可基于互斥二元交叉标记集合，对所述文本数据的实体关系进行联合抽取。

抽取单元740可确定每个互斥二元交叉标记中值1的位置信息；基于所述值1的位置信息，将每个互斥二元交叉标记一维化；基于将每个互斥二元交叉标记一维化后得到的第二特征元素，确定第二特征序列；基于第二特征序列，对文本数据的实体关系进行联合抽取。

抽取单元740可将第二特征元素和第二预设阈值进行比较；基于第二特征元素小于第二预设阈值，确定第二特征元素是无效字符元素；基于第二特征元素等于第二预设阈值，确定第二特征元素是实体中间字符元素；基于第二特征元素大于第二预设阈值，确定第二特征元素是实体首尾字符元素；基于实体首尾字符元素，对文本数据的实体关系进行联合抽取。

可选择地，实体首尾字符元素可包括实体首字符元素和实体尾字符元素。进一步地，实体首字符元素可包括主语实体首字符元素和宾语实体首字符元素，以及实体尾字符元素可包括主语实体尾字符元素和宾语实体尾字符元素。

抽取单元740可基于实体首尾字符元素不大于第二预设阈值和第一数量的第一和值，确定实体首尾字符元素是主语实体首字符元素；基于实体首尾字符元素大于第一和值，并且不大于第一和值与第一数量的第二和值，确定实体首尾字符元素是宾语实体首字符元素；基于实体首尾字符元素大于第二和值，并且不大于第二和值与第一数量的第三和值，确定实体首尾字符元素是主语实体尾字符元素；基于实体首尾字符元素大于第三和值，并且不大于第三和值与第一数量的第四和值，确定实体首尾字符元素是宾语实体尾字符元素。

抽取单元740可基于邻近的实体首字符元素与实体尾字符元素的差值为第一数量的2倍，将邻近的实体首字符元素与实体尾字符元素彼此匹配，从而对所述文本数据的实体进行抽取；基于邻近的实体首字符元素之间的差值为第一数量，确定邻近的实体首字符元素对应的实体是具有相同谓词关系的实体对，从而对文本数据的实体关系进行联合抽取。

抽取单元740还可基于邻近的主语实体首字符元素与主语实体尾字符元素的差值为第一数量的2倍，将邻近的主语实体首字符元素与主语实体尾字符元素彼此匹配，从而对所述文本数据的主语实体进行抽取；基于邻近的宾语实体首字符元素与宾语实体尾字符元素的差值为第一数量的2倍，将邻近的宾语实体首字符元素与宾语实体尾字符元素彼此匹配，从而对所述文本数据的宾语实体进行抽取；基于邻近的主语实体首字符元素与宾语实体首字符元素的差值为第一数量，确定邻近的主语实体首字符元素对应的实体与宾语实体首字符元素对应的实体是具有相同谓词关系的实体对，从而对文本数据的实体关系进行联合抽取。

图8是示出根据本公开的实施例的计算装置的框图。

参照图8，根据本公开的实施例的计算装置800可包括处理器810和存储器820。处理器810可包括（但不限于）中央处理器（CPU）、数字信号处理器（DSP）、微型计算机、现场可编程门阵列（FPGA）、片上***（SoC）、微处理器、专用集成电路（ASIC）等。存储器820存储将由处理器810执行的计算机程序。存储器820包括高速随机存取存储器和/或非易失性计算机可读存储介质。当处理器810执行存储器820中存储的计算机程序时，可实现如上所述的实体关系的联合抽取方法。

根据本公开的实施例的实体关系的联合抽取方法可被编写为计算机程序并被存储在计算机可读存储介质上。当所述计算机程序被处理器执行时，可实现如上所述的实体关系的联合抽取方法。计算机可读存储介质的示例包括：只读存储器（ROM）、随机存取可编程只读存储器（PROM）、电可擦除可编程只读存储器（EEPROM）、随机存取存储器（RAM）、动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM）、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-RLTH、BD-RE、蓝光或光盘存储器、硬盘驱动器（HDD）、固态硬盘（SSD）、卡式存储器（诸如，多媒体卡、安全数字（SD）卡或极速数字（XD）卡）、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机***上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

虽然已表示和描述了本公开的一些实施例，但本领域技术人员应该理解，在不脱离由权利要求及其等同物限定其范围的本公开的原理和精神的情况下，可以对这些实施例进行修改。

Claims

1.一种实体关系的联合抽取方法，其特征在于，所述联合抽取方法包括：

获取文本数据；

基于预设模型，获取所述文本数据的第一特征序列，其中，所述第一特征序列包括多个第一特征向量，所述文本数据的每个字符对应于至少一个第一特征向量，并且每个第一特征向量包括多个第一特征元素；

基于所述第一特征序列，将每个第一特征向量映射为互斥二元交叉标记，并将所有互斥二元交叉标记组合为互斥二元交叉标记集合；

基于所述互斥二元交叉标记集合，对所述文本数据的实体关系进行联合抽取。

2.如权利要求1所述的联合抽取方法，其特征在于，每个第一特征向量包括的第一特征元素的第二数量基于所述预设模型中预定义的谓词的第一数量来确定。

3.如权利要求2所述的联合抽取方法，其特征在于，基于所述第一特征序列，将每个第一特征向量映射为互斥二元交叉标记的步骤包括：

针对任意一个第一特征向量，将该第一特征向量的每个第一特征元素和第一预设阈值进行比较；

当所述第一特征元素大于所述第一预设阈值，将所述第一特征元素重新赋值为1；

当所述第一特征元素小于或等于所述第一预设阈值，将所述第一特征元素重新赋值为0；

基于重新赋值后的所述第一特征元素，将该第一特征向量映射为互斥二元交叉标记。

4.如权利要求3所述的联合抽取方法，其特征在于，基于所述互斥二元交叉标记集合，对所述文本数据的实体关系进行联合抽取的步骤包括：

确定每个互斥二元交叉标记中值1的位置信息；

基于所述值1的位置信息，将每个互斥二元交叉标记一维化；

基于将每个互斥二元交叉标记一维化后得到的第二特征元素，确定第二特征序列；

基于所述第二特征序列，对所述文本数据的实体关系进行联合抽取。

5.如权利要求4所述的联合抽取方法，其特征在于，基于所述第二特征序列，对所述文本数据的实体关系进行联合抽取的步骤包括：

将所述第二特征元素和第二预设阈值进行比较；

基于所述第二特征元素小于所述第二预设阈值，确定所述第二特征元素是无效字符元素；

基于所述第二特征元素等于所述第二预设阈值，确定所述第二特征元素是实体中间字符元素；

基于所述第二特征元素大于所述第二预设阈值，确定所述第二特征元素是实体首尾字符元素；

基于所述实体首尾字符元素，对所述文本数据的实体关系进行联合抽取。

6.如权利要求5所述的联合抽取方法，其特征在于，所述实体首尾字符元素包括实体首字符元素和实体尾字符元素，其中，

所述实体首字符元素包括主语实体首字符元素和宾语实体首字符元素，

所述实体尾字符元素包括主语实体尾字符元素和宾语实体尾字符元素。

7.如权利要求6所述的联合抽取方法，其特征在于，基于所述实体首尾字符元素，对所述文本数据的实体关系进行联合抽取的步骤包括：

基于所述实体首尾字符元素不大于所述第二预设阈值和所述第一数量的第一和值，确定所述实体首尾字符元素是所述主语实体首字符元素；

基于所述实体首尾字符元素大于所述第一和值，并且不大于所述第一和值与所述第一数量的第二和值，确定所述实体首尾字符元素是所述宾语实体首字符元素；

基于所述实体首尾字符元素大于所述第二和值，并且不大于所述第二和值与所述第一数量的第三和值，确定所述实体首尾字符元素是所述主语实体尾字符元素；

基于所述实体首尾字符元素大于所述第三和值，并且不大于所述第三和值与所述第一数量的第四和值，确定所述实体首尾字符元素是所述宾语实体尾字符元素。

8.如权利要求7所述的联合抽取方法，其特征在于，基于所述实体首尾字符元素，对所述文本数据的实体关系进行联合抽取的步骤还包括：

基于邻近的所述实体首字符元素与所述实体尾字符元素的差值为第一数量的2倍，将邻近的所述实体首字符元素与所述实体尾字符元素彼此匹配，从而对所述文本数据的实体进行抽取；

基于邻近的所述实体首字符元素之间的差值为第一数量，确定邻近的所述实体首字符元素对应的实体是具有相同谓词关系的实体对，从而对所述文本数据的实体关系进行联合抽取。

9.如权利要求7所述的联合抽取方法，其特征在于，基于所述实体首尾字符元素，对所述文本数据的实体关系进行联合抽取的步骤还包括：

基于邻近的所述主语实体首字符元素与所述主语实体尾字符元素的差值为第一数量的2倍，将邻近的所述主语实体首字符元素与所述主语实体尾字符元素彼此匹配，从而对所述文本数据的主语实体进行抽取；

基于邻近的所述宾语实体首字符元素与所述宾语实体尾字符元素的差值为第一数量的2倍，将邻近的所述宾语实体首字符元素与所述宾语实体尾字符元素彼此匹配，从而对所述文本数据的宾语实体进行抽取；

基于邻近的所述主语实体首字符元素与所述宾语实体首字符元素的差值为第一数量，确定邻近的所述主语实体首字符元素对应的实体与所述宾语实体首字符元素对应的实体是具有相同谓词关系的实体对，从而对所述文本数据的实体关系进行联合抽取。

10.一种实体关系的联合抽取装置，其特征在于，所述联合抽取装置包括：

数据单元，被配置为获取文本数据；

编码单元，被配置为基于预设模型，获取所述文本数据的第一特征序列，其中，所述第一特征序列包括多个第一特征向量，所述文本数据的每个字符对应于至少一个第一特征向量，并且每个第一特征向量包括多个第一特征元素；

映射单元，被配置为基于所述第一特征序列，将每个第一特征向量映射为互斥二元交叉标记，并将所有互斥二元交叉标记组合为互斥二元交叉标记集合；

抽取单元，被配置为基于所述互斥二元交叉标记集合，对所述文本数据的实体关系进行联合抽取。

11.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，实现如权利要求1至9中任意一项所述的实体关系的联合抽取方法。

12.一种计算装置，其特征在于，所述计算装置包括：

处理器；和

存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1至9中任意一项所述的实体关系的联合抽取方法。