CN112395407B

CN112395407B - 企业实体关系的抽取方法、装置及存储介质

Info

Publication number: CN112395407B
Application number: CN202011211617.XA
Authority: CN
Inventors: 陈家银; 陈曦; 麻志毅
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2023-09-19
Anticipated expiration: 2040-11-03
Also published as: CN112395407A

Abstract

本发明公开了一种企业实体关系的抽取方法、装置及存储介质，所述方法包括：获取待抽取的文本数据；将所述文本数据输入预先训练好的实体识别模型的编码层，得到编码后的词向量；将所述词向量输入所述实体识别模型的第一实体识别层，得到包含实体关系的主实体；将所述词向量和所述主实体输入所述实体识别模型的第二实体识别层，得到与所述主实体具有对应关系的客实体。根据本发明公开的企业实体关系的抽取方法，不识别无关系的实体，直接识别有关系的实体，大大降低了负样本带来的噪声影响，提高了模型的训练效率和识别效果。

Description

企业实体关系的抽取方法、装置及存储介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种企业实体关系的抽取方法、装置及存储介质。

背景技术

信息抽取是指从一段文本中抽取实体、事件、关系等类型的信息，形成结构化数据存入数据库中以供用户查询和使用的过程。关系抽取是信息抽取的关键内容，旨在发现现实世界实体间的语义关系。近些年来，该项技术被广泛应用在许多机器学习和自然语言处理任务中，例如，借助信息抽取技术从新闻文本中挖掘企业之间的关系，对构建企业间上下游关系知识库有重要的应用价值。

现有技术中，通过监督学习的方法进行实体识别，先把所有的实体识别出来，再训练一个分类模型给实体两两之间打上标签，这种模型将关系抽取任务分为互不影响的两步，两个模型的误差传递造成最终结果误差过大，而且在实际的企业关系抽取任务中，经常会遇到新闻文本中存在大量企业实体，没有关系的负样本数量很大，带来严重的噪声问题，影响实体关系的识别效果；其次在这种场景下对所有可能的企业实体的关系进行判断，模型的复杂度随文本中实体的数量增加而呈指数增加，大大降低了模型的训练效率和识别效果。

发明内容

本公开实施例提供了一种企业实体关系的抽取方法、装置及存储介质。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

第一方面，本公开实施例提供了一种企业实体关系的抽取方法，包括：

获取待抽取的文本数据；

将文本数据输入预先训练好的实体识别模型的编码层，得到编码后的词向量；

将词向量输入实体识别模型的第一实体识别层，得到包含实体关系的主实体；

将词向量和主实体输入实体识别模型的第二实体识别层，得到与主实体具有对应关系的客实体。

在一个实施例中，将文本数据输入预先训练好的实体识别模型的编码层之前，还包括：

通过IOBES标注准则对文本数据进行标注，得到标注后的文本数据。

在一个实施例中，编码层由BERT网络模型构成。

在一个实施例中，第一实体识别层由第一BILSTM网络模型和第一CRF网络模型构成。

在一个实施例中，将词向量输入实体识别模型的第一实体识别层，得到包含实体关系的主实体，包括：

将词向量输入第一BILSTM网络模型，得到前向隐层序列以及后向隐层序列；

合并前向隐层序列以及后向隐层序列，得到词向量序列；

将词向量序列输入第一CRF网络模型，得到包含实体关系的主实体的位置向量。

在一个实施例中，第二实体识别层由第二BILSTM网络模型和第二CRF网络模型构成。

在一个实施例中，将词向量和主实体输入实体识别模型的第二实体识别层，得到与主实体具有对应关系的客实体，包括：

将词向量序列和包含实体关系的主实体的位置向量输入第二CRF网络模型，得到与主实体具有对应关系的客实体。

根据概率图模型得到实体识别模型的损失函数；

根据损失函数训练实体识别模型。

第二方面，本公开实施例提供了一种企业实体关系的抽取装置，包括：

获取模块，用于获取待抽取的文本数据；

输入模块，用于将文本数据输入预先训练好的实体识别模型的编码层，得到编码后的词向量；

第一抽取模块，用于将词向量输入实体识别模型的第一实体识别层，得到包含实体关系的主实体；

第二抽取模块，用于将词向量和主实体输入实体识别模型的第二实体识别层，得到与主实体具有对应关系的客实体。

第三方面，本公开实施例提供了一种计算机可读介质，其上存储有计算机可读指令，计算机可读指令可被处理器执行以实现上述实施例提供的一种企业实体关系的抽取方法。

本公开实施例提供的技术方案可以包括以下有益效果：

根据本公开实施例提供的企业实体关系的抽取方法，实体识别模型包括第一实体识别层以及第二实体识别层，第一实体识别层直接识别带有关系的主实体，第二实体识别层识别与主实体具有对应关系的客实体。本公开实施例提供的实体关系抽取方法，不识别无关系的实体，直接识别有关系的实体，大大降低了负样本带来的噪声影响，提高了模型的训练效率和识别效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种企业实体关系的抽取方法的流程示意图；

图2是根据一示例性实施例示出的一种新闻文本中实体关系的示例图；

图3是根据一示例性实施例示出的一种企业实体关系的抽取方法的流程示意图；

图4是根据一示例性实施例示出的一种实体识别模型的结构示意图。

图5是根据一示例性实施例示出的一种企业实体关系的抽取装置的结构示意图；

图6是根据一示例性实施例示出的一种企业实体关系的抽取设备的结构示意图；

图7是根据一示例性实施例示出的一种计算机存储介质的示意图。

具体实施方式

为了能够更加详尽地了解本公开实施例的特点与技术内容，下面结合附图对本公开实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本公开实施例。在以下的技术描述中，为方便解释起见，通过多个细节以提供对所披露实施例的充分理解。然而，在没有这些细节的情况下，一个或一个以上实施例仍然可以实施。在其它情况下，为简化附图，熟知的结构和装置可以简化展示。

现有技术中的实体关系抽取方法，都是先把所有的实体识别出来，在实际的企业关系抽取任务中，经常会遇到新闻文本中存在大量企业实体，没有关系的负样本数量很大，带来严重的噪声问题。图2是根据一示例性实施例示出的一种新闻文本中实体关系的示例图。如图2所示，该段新闻文本中出现了6个企业实体，其中，“伊利”、“蒙牛”、“娃哈哈”、“青岛啤酒”是没有关系的，而“史密斯菲尔德”与“万洲国际”存在“子公司”的关系，但在现有的实体关系抽取中，会以实体对的方式去一一判断两个实体的关系，导致出现很多次负样例的重复判断，影响识别效果，并带来不必要的计算。

企业实体关系抽取任务可描述为(s,r，o)三元组的抽取，s和o分别代表含有关系的两个企业实体subject(主实体)和object(客实体)，r代表s和o之间的关系relation。(s,r，o)可以理解为s的r是o。

本公开实施例提供的实体关系抽取方法，先利用输入文本识别带有关系的s和r，然后再去识别o，这样，就可以在企业实体识别的步骤上过滤掉没有关系的实体，减少负样本带来的影响，再利用已确定关系的s与r去识别o，可大大提升模型的识别效率和准确率。

下面将结合附图1-附图4，对本申请实施例提供的企业实体关系的抽取方法进行详细介绍。

参见图1，该方法具体包括以下步骤。

S101获取待抽取的文本数据。

其中，文本数据可以为新闻文本数据，新闻文本数据中往往包含价值含量高的文本信息，例如可以从新闻文本数据中挖掘客户信息、同行信息、投资信息等。可以从各大新网网站上获取待抽取的文本数据。

进一步地，得到待抽取的文本数据之后，对文本数据进行标注，在一种可能的实现方式中，通过IOBES标注准则对文本数据进行标注，得到标注后的文本数据。

S102将文本数据输入预先训练好的实体识别模型的编码层，得到编码后的词向量。

对于给定的文本，需要将其映射到数字表征的向量空间中。传统的One-hot向量化方法得到的词向量存在维度大，稀疏的缺点，word2vec、fasttext等基于词袋模型的编码方法得到的词向量又不能很好的捕捉到全局的语义信息。为了后续能更准确地进行实体间复杂关系的挖掘，本公开实施例中的编码层采用BERT(bidirectional encoderrepresentation from tranformers，变换器的双向编码器表示)网络模型，BERT是一种基于大语料预训练的深度双向编码语言模型，可以很好地学习到文本中潜在的语义信息和上下文信息，更精确地编码输入文本，在很多下游任务的应用中都有很好的表现。

在一种可能的实现方式中，将标注后的文本数据输入BERT网络模型，对于给定的文本w＝[w₁,w₂,w₃,…,w_n]，其中n为文本的长度，得到编码后的词向量e＝[e₁,e₂,e₃,…,e_n]。

由于一篇文档中包含大量句子，对要进行抽取的文档进行切分，切分的准则主要是标点符号，文本长度max_seq_length设定为100，句子长度不超过100个字符。其他的处理过程包括合并多个空白字符和多个连续标点符号等。对于新闻文本中普遍存在的标点符号不规范、标点符号缺失导致的超过规定长度的句子，可以直接进行截断。根据该步骤，得到编码后的词向量e，即：

e＝BERT(w)

S103将词向量输入实体识别模型的第一实体识别层，得到包含实体关系的主实体。

本公开实施例中的实体识别模型，包含第一实体识别层和第二实体识别层两部分，第一实体识别层的任务为对于给定的文本识别出含有特定关系的主实体，第二实体识别层的任务为识别出和主实体具有对应关系的客实体。

具体地，第一实体识别层由第一BILSTM网络模型和第一CRF网络模型构成。在一种可能的实现方式中，将词向量e输入第一BILSTM网络模型，使用BILSTM网络对文本进一步表征学习，主要深化学习上下文信息,其中隐藏维度设置128。得到前向隐层序列和后向隐层序列/>合并前向隐层序列以及后向隐层序列，得到词向量序列/>即：

H＝BILSTM(e)

将词向量序列输入第一CRF网络模型，对实体s与关系r进行识别，具体是CRF网络依据关系r的种类数量(R)进行遍历循环来识别s，得到包含实体关系的主实体s。即：

对主实体s所处的位置进行编码，得到主实***置向量P，根据该步骤，可以直接识别带有关系的主实体，过滤掉了没有关系的实体，大大减少了负样本带来的影响。

S104将词向量和主实体输入实体识别模型的第二实体识别层，得到与主实体具有对应关系的客实体。

具体地，第二实体识别层由第二BILSTM网络模型和第二CRF网络模型构成。为了减小双实体识别层的误差传递，使不同层、不同关系对应的实体识别层之间有更好的信息交互，本公开实施例中的第二BILSTM网络模型和第一BILSTM网络模型的参数是共享的，即第二BILSTM网络模型直接使用第一BILSTM网络模型得到的词向量序列然后将主实***置向量P与H拼接形成新的向量X＝[H,P]，将新的向量X＝[H,P]输入第二CRF网络模型进行识别，得到与主实体具有对应关系的客实体O。即：

根据该步骤，可以识别出与主实体具有对应关系的客实体。从而得到(s、r、o)三元组。

为了便于理解本申请实施例提供的企业实体关系的抽取方法，下面结合附图3和附图4进行说明。如图3所示，该方法主要包括以下步骤。

首先，收集新闻文本数据，生成语料库。在一种可能的实现方式中，可以从各大新闻网站获取新闻数据，然后对收集的文本数据进行标注，可用IOBES标注准则，得到标注后的文本数据。可选地，可用标注后的文本数据训练一下编码层的BERT预训练模型，使之更吻合新闻文本的数据场景。

其次，根据标注后的新闻文本数据训练实体识别模型，实体识别模型的结构如图4所示，包括顺序连接的编码层、第一实体识别层(前NER层)、第二实体识别层(后NER层)。

将标注后的文本输入编码层，编码层由BERT网络模型构成，对于给定的文本w＝[w₁,w₂,w₃,…,w_n]，其中n为文本的长度，得到编码后的词向量e＝[e₁,e₂,e₃,…,e_n]。

将编码后的词向量e输入第一实体识别层，第一实体识别层由第一BILSTM网络模型和第一CRF网络模型构成。将词向量e输入第一BILSTM网络模型，得到前向隐层序列和后向隐层序列/>合并前向隐层序列以及后向隐层序列，得到词向量序列/>将词向量序列/>输入第一CRF网络模型，对实体s与关系r进行识别，具体是CRF网络依据关系r的种类数量(R)进行遍历循环来识别s，得到包含实体关系的主实体s。对主实体s所处的位置进行编码，得到主实***置向量P。如图4所示，第一实体识别层识别出了含有子公司关系的主实体“阿里巴巴”，和有合作关系的主实体“蚂蚁金服”。第一实体识别层的损失函数为：

其中，表示的是文档w_i中第j个字符在关系为r的主实体s中预测正确标签的概率，H_i表示词向量序列，R表示关系r的种类数量。

第二实体识别层由第二BILSTM网络模型和第二CRF网络模型构成。将主实***置向量P与H拼接形成新的向量X＝[H,P]，将新的向量X＝[H,P]输入第二CRF网络模型进行识别，得到与主实体具有对应关系的客实体O。如图4所示，第二实体识别层识别出与主实体“阿里巴巴”具有关系的客实体“蚂蚁金服”识别出与“蚂蚁金服”具有对应关系的“vivo”。第二实体识别层的损失函数为：

其中，表示的是文档w_i中第j个字符在关系为r的客实体o中预测正确标签的概率，H_i表示词向量序列，R表示关系r的种类数量，p_k表示主实体的位置向量。

在本公开实施例中，根据概率图模型得到实体识别模型的损失函数，根据损失函数训练实体识别模型。要从文本中抽取所有可能的(s、r、o)三元组，设计一个三元组级别的目标函数，根据概率的链式法则似然函数可以写为：

其中，D为训练集，w_i为训练集中的文本，T_i表示数据集文档w_i中所有可能的(s,r,o)三元组,s∈T_i表示在关系三元组T_i中出现过，o∈T_i表示o在关系三元组T_i中出现过。即最大化所有三元组在语料中出现的概率，对上式取负对数作为实体识别模型的联合损失函数可得：

最后，可以根据训练好的实体识别模型对企业实体关系进行抽取，将待抽取的新闻文本数据输入实体识别模型，对企业实体关系进行识别，得到抽取的实体关系三元组。

根据本公开实施例提供的企业实体关系的抽取方法，不识别无关系的实体，直接识别有关系的实体，大大降低了负样本带来的噪声影响，提高了模型的训练效率和识别效果。

本公开实施例还提供一种企业实体关系的抽取装置，该装置用于执行上述实施例的企业实体关系的抽取方法，如图5所示，该装置包括：

获取模块501，用于获取待抽取的文本数据；

输入模块502，用于将文本数据输入预先训练好的实体识别模型的编码层，得到编码后的词向量；

第一抽取模块503，用于将词向量输入实体识别模型的第一实体识别层，得到包含实体关系的主实体；

第二抽取模块504，用于将词向量和主实体输入实体识别模型的第二实体识别层，得到与主实体具有对应关系的客实体。

需要说明的是，上述实施例提供的企业实体关系的抽取装置在执行企业实体关系的抽取方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的企业实体关系的抽取装置与企业实体关系的抽取方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

本公开实施例还提供一种与前述实施例所提供的企业实体关系的抽取方法对应的电子设备，以执行上述企业实体关系的抽取方法。

请参考图6，其示出了本申请的一些实施例所提供的一种电子设备的示意图。如图6所示，电子设备包括：处理器600，存储器601，总线602和通信接口603，处理器600、通信接口603和存储器601通过总线602连接；存储器601中存储有可在处理器600上运行的计算机程序，处理器600运行计算机程序时执行本申请前述任一实施例所提供的企业实体关系的抽取方法。

其中，存储器601可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口603(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线602可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。其中，存储器601用于存储程序，处理器600在接收到执行指令后，执行程序，前述本申请实施例任一实施方式揭示的企业实体关系的抽取方法可以应用于处理器600中，或者由处理器600实现。

处理器600可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器600中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器600可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器601，处理器600读取存储器601中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的企业实体关系的抽取方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施例还提供一种与前述实施例所提供的企业实体关系的抽取方法对应的计算机可读存储介质，请参考图7，其示出的计算机可读存储介质为光盘700，其上存储有计算机程序(即程序产品)，计算机程序在被处理器运行时，会执行前述任意实施例所提供的企业实体关系的抽取方法。

需要说明的是，计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的企业实体关系的抽取方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种企业实体关系的抽取方法，其特征在于，包括：

获取待抽取的文本数据；

将所述文本数据输入预先训练好的实体识别模型的编码层，得到编码后的词向量；

将所述词向量输入所述实体识别模型的第一实体识别层，得到包含实体关系的主实体；包括：将所述词向量输入第一BILSTM网络模型，得到前向隐层序列以及后向隐层序列；合并所述前向隐层序列以及所述后向隐层序列，得到词向量序列；将所述词向量序列输入第一CRF网络模型，得到包含实体关系的主实体的位置向量；其中，所述第一实体识别层由第一BILSTM网络模型和第一CRF网络模型构成；

将所述词向量和所述主实体输入所述实体识别模型的第二实体识别层，得到与所述主实体具有对应关系的客实体，包括：将词向量序列和包含实体关系的主实体的位置向量输入第二CRF网络模型，得到与所述主实体具有对应关系的客实体；其中，第二实体识别层由第二BILSTM网络模型和第二CRF网络模型构成，第二BILSTM网络模型和第一BILSTM网络模型的参数是共享的，即第二BILSTM网络模型直接使用第一BILSTM网络模型得到的词向量序列将主实***置向量P与H拼接形成新的向量X＝[H,P]，将新的向量X＝[H,P]输入第二CRF网络模型进行识别，得到与主实体具有对应关系的客实体；

根据概率图模型得到实体识别模型的损失函数，实体识别模型的联合损失函数为：

其中，D为训练集，w_i为训练集中的文本，T_i表示数据集文档w_i中所有可能的(s,r,o)三元组,s∈T_i表示s在关系三元组T_i中出现过，o∈T_i表示O在关系三元组T_i中出现过。

2.根据权利要求1所述的方法，其特征在于，将所述文本数据输入预先训练好的实体识别模型的编码层之前，还包括：

通过IOBES标注准则对所述文本数据进行标注，得到标注后的文本数据。

3.根据权利要求1所述的方法，其特征在于，所述编码层由BERT网络模型构成。

4.根据权利要求1所述的方法，其特征在于，将所述文本数据输入预先训练好的实体识别模型的编码层之前，还包括：

根据概率图模型得到所述实体识别模型的损失函数；

根据所述损失函数训练所述实体识别模型。

5.一种企业实体关系的抽取装置，其特征在于，包括：

获取模块，用于获取待抽取的文本数据；

输入模块，用于将所述文本数据输入预先训练好的实体识别模型的编码层，得到编码后的词向量；

第一抽取模块，用于将所述词向量输入所述实体识别模型的第一实体识别层，得到包含实体关系的主实体；包括：将所述词向量输入第一BILSTM网络模型，得到前向隐层序列以及后向隐层序列；合并所述前向隐层序列以及所述后向隐层序列，得到词向量序列；将所述词向量序列输入第一CRF网络模型，得到包含实体关系的主实体的位置向量；其中，所述第一实体识别层由第一BILSTM网络模型和第一CRF网络模型构成；

第二抽取模块，用于将所述词向量和所述主实体输入所述实体识别模型的第二实体识别层，得到与所述主实体具有对应关系的客实体，包括：将词向量序列和包含实体关系的主实体的位置向量输入第二CRF网络模型，得到与所述主实体具有对应关系的客实体；其中，第二实体识别层由第二BILSTM网络模型和第二CRF网络模型构成，第二BILSTM网络模型和第一BILSTM网络模型的参数是共享的，即第二BILSTM网络模型直接使用第一BILSTM网络模型得到的词向量序列将主实***置向量P与H拼接形成新的向量X＝[H,P]，将新的向量X＝[H,P]输入第二CRF网络模型进行识别，得到与主实体具有对应关系的客实体；

6.一种计算机可读介质，其特征在于，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至4任一项所述的一种企业实体关系的抽取方法。