CN111274394B

CN111274394B - 一种实体关系的抽取方法、装置、设备及存储介质

Info

Publication number: CN111274394B
Application number: CN202010058018.2A
Authority: CN
Inventors: 黄媛; 邓蔚; 李智星; 林智敏; 李子杨; 王晓浪
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2022-10-25
Anticipated expiration: 2040-01-16
Also published as: CN111274394A

Abstract

本发明属于自然语言处理领域，涉及一种实体关系的抽取方法、装置、设备及存储介质，所述方法包括获取每条语料的句法信息并预处理，将预处理后的句法信息输入到BERT模型中；获取语料的序列特征向量和每个词语的实值特征向量；利用词性标注和句法分析，划分出包含实体对的完整短句，利用词向量模型将完整短句中单词与实体的依存关系映射为实值向量；采用基于依存分析的单词级别的注意力机制，获取局部上下文语义特征向量；获得实体对的平移距离特征向量，将各个特征向量进行融合，从而抽取出的实体关系的多粒度特征；将抽取出的多粒度特征输入到分类器中进行分类。本发明能够减少噪声单词和错误句法分析带来的影响，提高了关系抽取的准确率。

Description

一种实体关系的抽取方法、装置、设备及存储介质

技术领域

本发明属于自然语言处理领域，尤其涉及一种基于多粒度表示和注意力机制的实体关系抽取方法、设备及存储介质。

背景技术

随着信息技术的快速发展和计算机的普及，各种各样的信息在互联网上迅猛增加。在信息***的时代，如何从海量信息中快速准确地获取用户感兴趣的信息已经成为亟待解决的问题。在这种背景下，信息抽取技术应运而生。实体关系抽取是信息抽取的关键技术之一，即给定一个句子和其中出现的实体对，实体关系抽取模型需要根据句子语义信息推测实体间的关系，从无结构的自然语言文本中抽取出格式统一的关系数据，建立多个实体之间广泛的信息关联，有助于建立领域本体，促进知识图谱的构建。

经典的实体关系抽取方法主要分为有监督学习方法、半监督学习方法、无监督学习方法和开放式抽取这四大类。有监督的实体关系抽取主要分为基于特征和基于核函数的方法，Zhou等人利用SVM作为分类器，分别研究词汇、句法和语义特征对实体语义关系抽取的影响。有监督方法需要手工标注大量的训练数据，因此继而提出基于半监督的Bootstrapping方法对实体之间的关系进行抽取。Hasegawa等人在ACL会议上首次提出基于无监督的关系抽取方法，该方法无需依存实体关系标注语料，而是首先根据实体对出现的上下文将相似度高的实体对聚为一类，然后选择具有代表性的词语来标记实体之间的关系。为了解决开放域中大量无标签数据问题，开放式抽取方法被提出，又称为远程监督方法。该方法能避免针对特定关系类型人工构建语料库，可以自动完成关系类型发现和关系抽取任务。它作出基本假设:若已知两个实体存在某种语义关系，所有包含这两个实体的句子都潜在地表达了它们之间的语义关系。远程监督的关系抽取通过借助外部领域无关的实体知识库(DBPedia、YAGO、Wikidata、FreeBase等)将高质量的实体关系实例映射到大规模文本中，根据文本对齐方法从中获得训练数据，然后使用监督学习方法来解决关系抽取问题。

随着近年来深度学习在自然语言处理领域的发展，学者们逐渐将深度学习应用到实体关系抽取任务中。基于数据集标记量级的差异，深度学习的实体关系抽取分为有监督和远程监督两类。基于深度学习的有监督实体关系抽取方法能避免经典方法中人工特征选择等步骤，减少并改善特征抽取过程中的误差积累问题，实现自动学习句子特征。Zeng等人在2014年首次提出使用CNN进行关系分类；随后RNN和LSTM网络也用于实体关系抽取任务中，并且取得了很不错的效果。基于深度学习的远程监督关系抽取方法主要是在CNN、RNN和LSTM三种网络的基础上作出了改进，比如PCNN和多示例学习的融合方法、PCNN和注意力机制的融合方法等。

句法分析是自然语言处理中的关键技术之一，包含句法成分分析和依存分析，其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系，如并列、从属、比较等。通过句法成分分析，就能够分析出语句的主干，以及各成分间关系，摒弃句子中的噪声词语。目前大多的基于深度学习的关系抽取方法直接将最短依存路径的句子作为输入，不仅可能造成重要上下文单词语义的缺失，也会带来一定的错误积累问题，最终将导致实体识别的性能差、实体抽取准确率低。

发明内容

针对现有的实体关系抽取技术中存在的不足之处，本发明基于多粒度表示以及注意力机制，提出了一种实体关系的抽取方法、装置、设备及存储介质。

本发明解决上述技术问题所采用的技术方案包括：

在本发明的第一方面，本发明提供了一种实体关系的抽取方法，该方法主要包括：

1)利用外部的自然语言处理工具获取终端或服务器提供的每条语料的句法信息，包括词性标注、句法成分分析以及依存分析；

2)对每条语料进行预处理，将预处理后的语料输入到BERT模型中；获取每条语料的序列特征向量和语料中每个字的实值特征向量；

3)利用步骤1)获取的词性标注和句法成分，获取包含实体对的完整短句，利用词向量模型将所述完整短句中每个字与实体对中两个实体各自的依存关系映射为实值向量；

4)在步骤3)的基础上采用基于依存分析的字级别的注意力机制，获取局部上下文语义特征向量；

5)获得实体对的平移距离特征向量，将各个特征向量进行融合，从而抽取出的实体关系的多粒度特征；

6)将抽取出的实体关系的多粒度特征输入到分类器中进行分类，获取该实体关系特征所属的标签。

在本发明的第二方面，本发明提供了一种实体关系的抽取装置，该装置主要包括：

语料获取模块，用于获取多条语料，所述多条语料中携带有词性标注、句法信息以及依存分析；

预处理模块，用于对所述多条语料进行预处理；

BERT模型模块，用于获取每条语料的序列特征向量和语料中每个字的实值特征向量；

短句获取模块，用于获取包含实体对的完整短句；

词向量模型模块，用于将获取的完整短句中字与实体间的依存关系映射为实值向量；

注意力机制模块，用于基于依存关系所映射的实值向量，采用注意力机制，获取局部上下文语义特征向量；

实体对平移特征模块，用于获取实体对的平移距离特征向量；

多粒度特征融合模块，用于语料序列特征向量、局部上下文语义特征向量和实体对的平移距离特征向量进行融合；

分类器，用于对融合后的多粒度特征进行分类。

在本发明的第三方面，本发明提供了一种实体关系的抽取设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述一种实体关系的抽取方法中的步骤。

在本发明的第四方面，本发明实施例提供了另一种抽取设备，包括处理器、通信接口、显示屏和存储器，所述处理器、通信接口、显示屏和存储器相互连接，其中，所述存储器用于存储支持终端执行上述方法的计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

在本发明的第五方面，本发明还提供了一种实体关系的存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述一种实体关系的抽取方法中的步骤。

本发明的有益效果：

本发明与现有技术相比具有的有益的效果：

1、现有技术都只是单一的使用了句法分析来获取句法的结构信息或者使用依存分析获取各成分之间的依存关系。本发明的方法综合考虑了词性、句法成分分析和依存分析来摒弃无关词语带来的噪声的同时，也减少了外部工具带来的影响。

2、现有技术中的注意力机制中单独考虑单词与目标关系的关联来分配概率值已不足以有效地学习不同的上下文信息。本发明的方法还考虑了上下文单词和实体对的依存关系对于目标分类标签的影响权重，更充分地利用实体对上下文局部语义，能够在一定程度上提高实体关系分类的准确性。

3、现有技术一般都是采用统一粒度的特征来进行关系识别，这样会产生由于特征粒度比较“细”，问题粒度相对比较“粗”而不能识别的区域。本发明的方法融合了各粒度的特征作为分类器最后的特征向量，以获取更丰富的语义信息。

附图说明

图1是本发明实施例提供的一种实体关系的抽取方法的流程示意图；

图2是本发明实施例提供的一种实体关系的抽取方法的神经网络结构图；

图3是本发明实施例提供的关于语料的序列特征向量的获取流程图；

图4是本发明实施例中关于字与实体的实值向量的获取流程图；

图5是本发明实施例中采用注意力机制获得的上下文语义特征向量的流程图；

图6是本发明实施例中采用拼接方式获取的多粒度实体关系特征流程图；

图7是本发明实施例提供的一种实体关系的抽取装置示意图；

图8是本发明实施例提供的一种实体关系的抽取设备示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

需要说明的是，本发明实施例的执行主体可以为各种类型的终端，终端例如可以是计算机、服务器、平板电脑、个人数字助理(英文：Personal Digital Assistant，缩写：PDA)、移动互联网设备(英文：Mobile Internet Device，缩写：MID)等可进行文本处理的设备，本发明对此不作任何限制。

为了缓解实体识别的性能差问题，提高实体抽取的准确性，本申请提出了一种基于专利要素的关键词提取方法、终端、计算机可存储介质。

在一些可行的实施方式中，请参阅图1，为本申请提供的一种基于专利要素的关键词提取方法流程图，主要包括：

3)利用步骤1)获取的词性标注和句法分析，获取包含实体对的完整短句，利用词向量模型将所述完整短句中每个字与实体对中两个实体各自的依存关系映射为实值向量；

4)在步骤3)的基础上采用基于依存分析的字级别的注意力机制，不仅考虑字本身对于关系分类标签的重要程度，同时考虑字与实体对的依赖关系对于关系分类标签的重要程度，以获取局部上下文语义特征向量；

6)替代现有技术采用的单一基于字级别的特征或者基于序列的特征，本发明采用抽取出三种特征形成实体关系的多粒度特征输入到分类器中进行分类，获取该实体关系特征所属的标签。

在一个实施例中，如图2所示，为了获取终端或者服务器提供的语料信息，本实施例采用Stanford CoreNLP的Python接口调用pos_tag模块获取语料的词性，调用parse模块获取语料的句法分析，调用dependency_parse模块获取语料的依存分析结果。

在一个实施例中，如图3所示，关于语料的序列特征向量的获取方式主要包括：

步骤201)在实体对中第一实体的前后分别添加第一字符；

步骤202)在实体对中第二实体的前后分别添加第二字符；

例如，在第一实体的前后添加字符#，变为#实体1#格式，在第二实体前后添加字符$，变为$实体2$格式。

步骤203)将预处理后的语料输入到BERT模型中，得到CLS位置输出每条语料的序列特征向量H₀，以及每条语料中m个字的实值特征向量H₁,H₂,...,H_m；

其中，m个实值特征向量H₁,H₂,...,H_m为语料中每个字的隐藏向量。

另外，对于语料的预处理，还可以是提取文本的标题和首句，同时还可以利用段落结束标志(如回车符、换行符等)对长文本进行分段，使用标点符号(如句末标点、右侧标点等)对段落文本进行分句处理等。另外，基于中文的行文特点，文本各词之间大部分没有明确的分界，对语料的预处理阶段还可以包括对中文/英文文本进行分词、词性标注、新词发现停用词过滤等处理。

在一个实施例中，如图4所示，

步骤301)根据步骤1)的句法分析结果，去除句子中与关系标签语义无关的成分结构短语，得到包含实体对的完整句子；

步骤302)在所述包含实体对的完整句子上，利用步骤1)获取的词性标注去除句子中与关系标签语义无关的词语，得到最短的完整短句；

步骤303)利用词向量模型将所述完整短句中每个字与实体对中两个实体各自的依存关系映射为第一实值向量w_ie1和第二实值向量w_ie2。

其中，第一实值向量w_ie1为第i个字和第一实体之间的依存关系所映射的实值向量；第二实值向量w_ie2为第i个字和第二实体之间的依存关系所映射的实值向量。

在一个优选实施例中，所述词向量模型采用word2vec预训练模型，综合考虑词性特征，优化特征提取方式，得到更多具有代表性特征的有效词语。

为了获取局部上下文语义特征向量，本实施例在步骤3)的基础上采用基于依存分析的字级别的注意力机制，如图5所示，包括：

步骤401)将完整短句中n个字分别对应的隐藏向量w₁,w₂,...w_n输入到注意力机制模型中；使用前馈神经网络，基于每个字与实体对的依存关系，计算每个字与实体对之间的语义关联度，语义关联度的计算公式如下：g_i＝tanh(W[w_i；w_ie1；w_ie2]+b)；

其中，g_i表示第i个字与实体对的语义关联度；w_i为第i个字的隐藏向量。

步骤402)将每个字与实体对之间的语义关联度g₁,g₂,...g_w依次输入到softmax激励函数，得到最终每个上下文字的权重α₁,α₂,...α_w，计算权重表示为

步骤403)采用字级别的注意力机制，将各个字对应的隐藏向量通过加权求和的方式求取出局部上下文语义特征向量H，表示为

其中，

n小于等于m，因为完整短句中的字数量是原句数量的一部分。

在一个实施例中，如图6所示，所述步骤5)包括以下步骤：

步骤501)通过计算BERT输出的实体中各个字向量的平均值得到实体对向量，即第一实体向量e₁和第二实体向量e₂；

步骤502)计算实体对的平移距离特征向量H₁＝(e₁-e₂)；

步骤503)将语料序列特征向量H₀、局部上下文语义特征向量H和实体对的平移距离特征向量H₁进行拼接，并将拼接向量的多粒度特征作为抽取出的实体关系特征；

其中，获得第一实体和第二实体的向量分别表示如下：

H_i表示BERT输出的第一实体的开始向量，H_j表示BERT输出的第一实体的终止向量，H_k表示BERT输出的第二实体的开始向量，H_m表示BERT输出的第二实体的终止向量。

在一个优选实施例中，所述步骤503中，将各个特征向量进行拼接前，还将各个特征向量包括语料序列特征向量H₀、局部上下文语义特征向量H和实体对的平移距离特征向量；采用非线性转换，从而获取更多的潜在特征；所述非线性转换包括经过tanh激活和线性变换。

具体的，

H₀'＝W₀(tanh(H₀))+b；

H'＝W(tanh(H))+b；

H₁'＝W(tanh(e₁-e₂))+b；

H₀'表示经过tanh激活和线性变换后的语料序列特征向量；H'表示经过tanh激活和线性变换后的局部上下文语义特征向量；H₁'表示经过tanh激活和线性变换后的实体对的平移距离特征向量。

优选的，所述步骤6)包括将融合的多粒度特征送进全连接层，再将全连接层的输出送入Softmax分类层进行关系分类。

在本发明的第二方面，本发明提供了一种实体关系的抽取装置，如图7所示，该装置主要包括：

预处理模块，用于对所述多条语料进行预处理；

短句获取模块，用于获取包含实体对的完整短句；

分类器，用于对融合后的多粒度特征进行分类。

如图8所示，本发明实施例中的抽取设备包括：至少一个输入设备；至少一个处理器，例如CPU；至少一个存储器；至少一个输出设备，上述输入设备、处理器、存储器和输出设备通过CAN总线连接。其中，总线用于实现这些组件之间的连接通信。其中，本发明实施例中装置的输入设备和输出设备可以是有线发送端口，也可以为无线设备，例如包括天线装置，用于与其他节点设备进行信令或数据的通信。

该处理器可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合。

该处理器还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic,GAL)或其任意组合。

该存储器可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器也可以包括非易失性存储器3000(non-volatilememory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器还可以包括上述种类的存储器的组合。

可选地，该存储器还用于存储程序指令。该处理器可以调用该存储器存储的程序指令，实现如本发明第一实施例、第二实施例所示的方法。

该总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线，也即是可以不限于CAN总线。

具体的，处理器，用于输入语料的句法信息；将所述语料进行预处理，将预处理后的语料输入到BERT模型中；获取每条语料的序列特征向量和语料中每个字的实值特征向量；根据获取的词性标注和句法成分分析，获取包含实体对的完整短句，利用词向量模型将所述完整短句中每个字与实体对中两个实体各自的依存关系映射为实值向量。采用基于依存分析的字级别的注意力机制，获取局部上下文语义特征向量；获得实体对的平移距离特征向量，将各个特征向量进行融合，从而抽取出的实体关系的多粒度特征；将抽取出的实体关系的多粒度特征输入到分类器中进行分类，获取该实体关系特征所属的标签。前述图1～图6所示的实施例中，各步骤方法流程可以基于该终端的结构实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实体关系的抽取方法，其特征在于，所述方法包括以下步骤：

步骤301)根据步骤1)的句法成分分析结果，去除句子中与关系标签语义无关的成分结构短语，得到包含实体对的完整句子；

步骤303)利用词向量模型将所述完整短句中每个字与实体对中两个实体各自的依存关系映射为第一实值向量w_ie1和第二实值向量w_ie2；

其中，g_i表示第i个字与实体对的语义关联度；w_i为第i个字的隐藏向量，w_ie1为第i个字和第一实体之间的依存关系所映射的实值向量，w_ie2为第i个字和第二实体之间的依存关系所映射的实值向量；

步骤402)将每个字与实体对之间的语义关联度g₁,g₂,...g_w依次输入到softmax激励函数，得到最终实体上下文字的权重α₁,α₂,...α_w，计算权重表示为

步骤501)实体由一个或者多个字组成，通过计算BERT输出的实体中各个字向量的平均值得到实体对向量，即第一实体向量e₁和第二实体向量e₂；

步骤502)计算实体对的平移距离特征向量H₁＝(e₁-e₂)；

其中，获得第一实体向量和第二实体向量表示如下：

H_i表示BERT输出的第一实体的开始向量，H_j表示BERT输出的第一实体的终止向量，H_k表示BERT输出的第二实体的开始向量，H_m表示BERT输出的第二实体的终止向量；

2.根据权利要求1所述的一种实体关系的抽取方法，其特征在于，所述步骤2)包括：

步骤201)在实体对中第一实体的前后分别添加第一字符；

步骤202)在实体对中第二实体的前后分别添加第二字符；

步骤203)将预处理后的语料输入到BERT模型中，输出每条语料的序列特征向量H₀，以及每条语料中m个字的实值特征向量H₁,H₂,...,H_m；

3.根据权利要求1所述的一种实体关系的抽取方法，其特征在于，所述步骤503中，将各个特征向量进行拼接前，还将各个特征向量包括语料序列特征向量H₀、局部上下文语义特征向量H和实体对的平移距离特征向量H₁；采用非线性转换，从而获取更多的潜在特征；所述非线性转换包括经过tanh激活和线性变换。

4.根据权利要求1所述的一种实体关系的抽取方法，其特征在于，所述步骤6)包括将融合的多粒度特征送进全连接层，再将全连接层的输出送入Softmax分类层进行关系分类。

5.一种实体关系的抽取装置，用于实现如权利要求1至4中任意一项所述方法中的步骤，其特征在于，包括：

预处理模块，用于对所述多条语料进行预处理；

短句获取模块，用于获取包含实体对的完整短句；

分类器，用于对融合后的多粒度特征进行分类。

6.一种实体关系的抽取设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任意一项所述方法中的步骤。

7.一种实体关系的存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至4任意一项所述方法中的步骤。