CN111881256B

CN111881256B - 文本实体关系抽取方法、装置及计算机可读存储介质设备

Info

Publication number: CN111881256B
Application number: CN202010693018.XA
Authority: CN
Inventors: 胡浩; 张玉臣; 周洪伟; 何淼; 朱红涛
Original assignee: Henan Jinmingyuan Information Technology Co ltd; Information Engineering University of PLA Strategic Support Force
Current assignee: Henan Jinmingyuan Information Technology Co ltd; Information Engineering University of PLA Strategic Support Force
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2022-11-08
Anticipated expiration: 2040-07-17
Also published as: CN111881256A

Abstract

本发明属于自然语言处理技术领域，特别涉及一种文本实体关系抽取方法、装置及计算机可读存储介质设备，该方法包含：针对输入文本，通过将单词获取词向量表示，以获取其中实体对语句特征；利用点互信息PMI计算实体对关系之间相似度，并通过相似度得到类关系；通过类关系查找实体关系之间隐含内容。本发明考虑实体关系之间的隐含语义，基于点互信息PMI计算实体关系之间的相似度，不需要对训练文本中的实体关系进行人工标注，从而可以快速抽取实体关系，可以对隐含关系进行有效抽取，利用相似度对抽取关系进行归并和精简，实现对噪声数据的过滤，使关系抽取更加精确，提升关系抽取的准确率和召回率，便于实际场景应用。

Description

文本实体关系抽取方法、装置及计算机可读存储介质设备

技术领域

本发明属于自然语言处理技术领域，特别涉及一种文本实体关系抽取方法、装置及计算机可读存储介质设备。

背景技术

关系抽取是将非结构化和半结构化的自然语言文本转化为结构化数据，核心是判断句子中包含的实体对之间的关系。现有的关系抽取方法包括以下三种：1.有监督关系抽取：通过手工标注句子中的关系，接着抽取词法、句法、语义特征，并训练有监督分类器，利用分类器分析测试集的实体关系；2.无监督关系抽取：适用于大规模文本实体的标注，然后利用聚类技术从实体中提取关系字符串。能够抽取高数量的关系对，然而抽取的结果不易对应到知识库中。3.半监督关系抽取：通过较少的种子实例(或模板)实施bootstrap学习。将已知实例运用到大量语料中，抽取出新实例；接着用新实例抽取更多实例，并不断迭代，该方法对训练集依赖少，但抽取的结果精度不高，有时会产生语义转移。在上面三种方法中，有监督学习凭借其抽取精度高好得到了广泛应用，其中远程监督可以解决有监督学习人工标注困难的问题；这种方法不需要标注语料库的替代范式，避免了领域依赖性，并允许使用任意大小的语料库，但提取特征数据包含噪声影响了关系抽取器的提取工作。另一种基于多示例学习的方法，通过给包加标签，建立多示例分类器，并将该分类器应用于未知多示例包的预测，一定程度上缓解了噪音数据的问题。将神经网络应用在关系抽取是目前一种主流方法，然而这种方法不能充分捕捉实体之间上下文的信息，抽取结果无法显示隐含语义。

发明内容

为此，本发明提供一种文本实体关系抽取方法、装置及计算机可读存储介质设备，考虑关系间的类关系通过点互信息PMI计算实体对关系间的相似度得到类关系，进而找出关系之间的隐含内容，使文本实体关系抽取更加准确，便于实际场景应用。

按照本发明所提供的设计方案，一种文本实体关系抽取方法，包含如下内容：

针对输入文本，通过将单词获取词向量表示，以获取其中实体对语句特征；

利用点互信息PMI计算实体对关系之间相似度，并通过相似度得到类关系；

通过类关系查找实体关系之间隐含内容。

作为本发明文本实体关系抽取方法，进一步地，针对输入文本，构建用于关系抽取的神经网络模型，通过模型训练学习，以提取实体关系之间隐含内容；该模型中包含：用于将目标输入文本中单词转化为低维向量的输入层；用于获取输入文本语句特征的双向门控循环单元；用于获取句子向量表示的最大池化层，及用于单词和句子权重分配的注意机制。

作为本发明文本实体关系抽取方法，进一步地，获取词向量表示中，将单词转化为低维向量，假设给定多个单词组成的句子，句子中所有单词使用位置嵌入，每个单词用实值向量表示，单词嵌入通过嵌入矩阵进行编码，将句子中所有单词嵌入和位置嵌入进行连接，获取完整的词向量表示，通过词向量表示以提取实体对与上下文语义相关程度。

作为本发明文本实体关系抽取方法，进一步地，双向门控循环单元包含隐藏状态、重置门结构和更新门结构；将词向量表示输入双向门控循环单元，通过计算重置门结构和更新门结构产生的正反向状态特征值来获取句子高维语义信息。

作为本发明文本实体关系抽取方法，进一步地，语句特征获取包含基于单词级特征获取，假设句子包含多个单词，对对应单词设定加权值，将关系与实体对放入同一嵌入空间，将单词和关系的向量表示连接到两者之间的相关程度。

作为本发明文本实体关系抽取方法，进一步地，语句特征获取还包含基于句子级特征获取，假设集合中包含多个具有实体对的句子，通过句子和预测关系匹配程度进行评分来获取句子对预测关系的权重，以弱化噪音数据。

作为本发明文本实体关系抽取方法，进一步地，实体对关系之间相似度计算中，假设实体对包含多个关系集合，关系集合对应有低维向量集合，使用两个关系的向量内积计算获取两者之间的相似性权重；通过比对关系集合中其他关系与目标关系的相似程度，找到与目标关系相似性权重最高的关系，然后使用点互信息PMI计算目标关系和该相似性权重最高的关系之间的语义相似度；依据语义相似度计算结果，判定与目标关系具有类关系的其他关系。

作为本发明文本实体关系抽取方法，进一步地，通过抽取类关系，找出符合与目标关系具有类关系的其他关系，以挖掘关系之间隐含关系。

进一步地，本发明还提供一种文本实体关系抽取装置，包含：特征表示模块、相似计算模块及关系挖掘模块，其中，

特征表示模块，用于针对输入文本，通过将单词获取词向量表示，以获取其中实体对语句特征；

相似计算模块，用于利用点互信息PMI计算实体对关系之间相似度，并通过相似度得到类关系；

关系挖掘模块，用于通过类关系查找实体关系之间隐含内容。

进一步地，本发明还提供一种计算机可读存储介质设备，其上存储有被处理器运行的计算机程序，所述计算机程序用于执行上述的方法。

本发明的有益效果：

本发明针对现有方法没有考虑实体关系之间的隐含语义及其相似性、从而导致抽取结果不够精确等情形，在基于多级注意的远程监督关系抽取的基础之上考虑实体关系之间的隐含语义，基于点互信息PMI计算实体关系之间的相似度，不需要对训练文本中的实体关系进行人工标注，从而可以快速抽取实体关系，可以对隐含关系进行有效抽取，利用相似度对抽取关系进行归并和精简，实现对噪声数据的过滤，使关系抽取更加精确，提升关系抽取的准确率和召回率，便于实际场景应用。

附图说明：

图1为实施例中文本实体关系抽取方法流程示意图；

图2为实施例中用于关系抽取的神经网络模型示意图；

图3为实施例中类关系挖掘过程示意图。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

自然语言处理过程关系抽取没有考虑实体关系之间的隐含语义及其相似性、从而导致抽取结果不够精确等情形，本发明实施例，本发明实施例，参见图1所示，提供一种文本实体关系抽取方法，包含如下内容：

S101、针对输入文本，通过将单词获取词向量表示，以获取其中实体对语句特征；

S102、利用点互信息PMI计算实体对关系之间相似度，并通过相似度得到类关系；

S103、通过类关系查找实体关系之间隐含内容。

在基于多级注意的远程监督关系抽取的基础上，考虑关系间的类关系，通过点互信息PMI计算实体对关系间的相似度得到类关系，进而找出关系之间的隐含内容，使关系抽取更加准确.

作为本发明实施例中文本实体关系抽取方法，进一步地，针对输入文本，构建用于关系抽取的神经网络模型，通过模型训练学习，以提取实体关系之间隐含内容；该模型中包含：用于将目标输入文本中单词转化为低维向量的输入层；用于获取输入文本语句特征的双向门控循环单元；用于获取句子向量表示的最大池化层，及用于单词和句子权重分配的注意机制。进一步地，获取词向量表示中，将单词转化为低维向量，假设给定多个单词组成的句子，句子中所有单词使用位置嵌入，每个单词用实值向量表示，单词嵌入通过嵌入矩阵进行编码，将句子中所有单词嵌入和位置嵌入进行连接，获取完整的词向量表示，通过词向量表示以提取实体对与上下文语义相关程度。进一步地，双向门控循环单元包含隐藏状态、重置门结构和更新门结构；将词向量表示输入双向门控循环单元，通过计算重置门结构和更新门结构产生的正反向状态特征值来获取句子高维语义信息。进一步地，语句特征获取包含基于单词级特征获取，假设句子包含多个单词，对对应单词设定加权值，将关系与实体对放入同一嵌入空间，将单词和关系的向量表示连接到两者之间的相关程度。进一步地，语句特征获取还包含基于句子级特征获取，假设集合中包含多个具有实体对的句子，通过句子和预测关系匹配程度进行评分来获取句子对预测关系的权重，以弱化噪音数据。进一步地，实体对关系之间相似度计算中，假设实体对包含多个关系集合，关系集合对应有低维向量集合，使用两个关系的向量内积计算获取两者之间的相似性权重；通过比对关系集合中其他关系与目标关系的相似程度，找到与目标关系相似性权重最高的关系，然后使用点互信息PMI计算目标关系和该相似性权重最高的关系之间的语义相似度；依据语义相似度计算结果，判定与目标关系具有类关系的其他关系。通过抽取类关系，找出符合与目标关系具有类关系的其他关系，以挖掘关系之间隐含关系。

用于关系抽取的神经网络模型，参见图2所示，由输入层、双向门控循环单元、最大池化层和注意机制四个部分组成：

a)输入层：给定一个句子，将句子中的单词通过单词嵌入矩阵转化成低维向量。

b)双向门控循环单元：利用神经网络获取语句特征。

c)最大池化层：获取句子的向量表示。

d)注意机制：分为单词注意机制和句子注意机制，计算单词在句子中的权重向量，将词级特征合并为句子级表示，为句子分配不同权重。

输入层中，通过词嵌入的方式将单词转化为一个低维实值向量，为指示句子中实体对的位置，句子中的所有单词使用位置嵌入，用于捕获单词的特征。假设给定一个由x个单词组成的句子W＝{y₁,y₂,…y_x}，每个单词y_i用实值向量表示，单词嵌入由嵌入矩阵

中的列向量进行编码，其中V是固定大小的词汇表。词嵌入用于神经网络计算各单词与实体对间的相对距离。在关系提取任务中，用距离目标实体的距离表示实体对的关系。比如对于句子“Beijing is the capital of China”，单词capital到entity1(北京)与entity2(中国)的相对距离分别为3和2。假设单词嵌入的维度d^m为3，位置嵌入的维度dⁿ为2，将句子中所有的单词嵌入和位置嵌入连接起来，就得到完整的词向量表示d＝d^m+dⁿ。

基于双向门控循环单元的词向量编码，目的是对词向量编码以便获得句子的高维语义信息，包含一个隐藏状态和两个门结构(重置门和更新门)，将句子中词语的词向量输入到双向门控循环单元模型中去，计算不同门结构的特征值来分析词语的高维语义信息。

重置门q_j和更新门Z_j的计算方式分别为公式(1)和公式(2)

q_j＝σ([W_rx]_j+[U_rh(t-1)]_j) (1)

Z_j＝σ([W_Zx]_j+[U_zh(t-1)]j) (2)

σ代表sigmoid函数，q_j是一重置门，[]_j表示向量的第j个元素，x和h(t-1)分别是输入向量和之前的隐藏状态，W_r和U_r是权重矩阵，通过公式(3)(4)计算单元h_j的实际激活：

表示隐藏状态，h_j(t)是输出状态，最后，采用由双向门控循环神经网络产生的正向和反向状态，以和的方式计算第j个单词的高维语义：

语句特征获取，采用基于单词级注意机制和句子级注意机制来获取语句特征。

a)单词级特征获取

句子中不同的单词对提取实体对有不同的作用，为抽取出句子中对关系预测最有意义的词，假设一个句子Z包含n个单词嵌入，Z＝{s₁,s₂,…,s_n}，利用公式(7)得到对应单词的加权值，用V_Za表示：

其中，a_i是单词s_i的权重，k_i是单词a_i与关系r时间的相关程度。

将关系与实体对(e₁,e₂)放入同一嵌入式空间之中，关系r可以表示为[e₂—e₁]。k_i可以表示为：

k_i＝w_d([s_i；r]) (8)

其中，[s_i；r]是单词s_i与关系r的垂直串联，w_d是中间媒介矩阵，把s_i与r的向量表示连接到它们的相关程度。

b)句子级特征获取

假设有一个集合S，包含n个具有实体对(head,tail)的句子S＝{x₁,x₂,L,x_n}，当预测关系为r_sentence时，模型用实值向量s表示集合S，集合S的表示依赖于所有句子。实值向量s为句子向量x_i的加权和：

为避免多实例的问题，使用句子级注意机制来弱化噪音数据，如公式(10)所示。

β_i表示句子对所要预测关系的权重，e_i是一个基于查询的函数，它对输入的句子x_i和预测关系r_sentence的匹配程度进行评分。

e_i＝x_i·A·r_sentence (11)

A为加权对角矩阵，r_sentence·r为关系r_sentence查询相关的向量。

基于类关系的远程监督关系抽取，类关系是指实体对所具有的关系之间具有语义相似性。例如“Beijing is a city of China”，从这句话中可以看出北京和中国的关系是包含关系，但是“Beijing is the capital of China”这句话隐含的也是北京是中国的城市。进行特征提取后，通过Softmax进行归类处理，利用PMI计算实体对关系之间的相似度可以得到类关系，进而通过类关系找出关系之间的隐含内容，使关系抽取可以做出更精准的预测。

假设一个实体对m含有的n个关系集合为{r₁,r₂…r_n}，关系集合{r₁,r₂…r_n}对应的低维向量集合表示为{r′₁,r′₂…r′_n}。

R_ij表示关系r_i与关系r_j的相似性权重，R_ij的取值范围为[0,1]，使用r_i与r_j的向量内积计算得到R_ij，公式如(12)所示：

R_ij＝softmax(r_i'Br′_j) (12)

初始化随机加权对角矩阵B，softmax表示归一化指数函数，用于归一化有限项离散概率分布的梯度对数。通过比对关系集合中其它关系与目标关系r_o的相似程度，找到与目标关系r_o相似性权重最高的关系r_max，然后使用点互信息(PMI)来计算r_o与r_max的语义相似程度，计算方式如式(13)所示。

其中，P(r_o&r_max)是2个关系的共现概率值，P(r_i)与P(r_j)是2个关系单独出现的概率值。

PMI(r_o,r_max)＞0，表示2个关系是相关的，值越大表示相似程度越高；

PMI(r_o,r_max)＝0，表示2个关系是独立的；

PMI(r_o,r_max)＜0，表示2个关系是互斥的；

当PMI(r_o,r_max)＞0，则称二者之间具有类关系。通过抽取类关系，如图3所示，可以找出PMI(r_o,r_max)＞0的关系，挖掘出隐含关系，使关系抽取更加准确。

进一步地，本发明实施例还提供一种文本实体关系抽取装置，包含：特征表示模块、相似计算模块及关系挖掘模块，其中，

进一步地，本发明实施例还提供一种计算机可读存储介质设备，其上存储有被处理器运行的计算机程序，所述计算机程序用于执行上述的方法。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

基于上述的内容，本发明实施例还提供一种服务器，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的***。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述***实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述***实施例中相应内容。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考前述***实施例中的对应过程，在此不再赘述。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

附图中的流程图和框图显示了根据本发明的多个实施例的***、***和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和***，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述***的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种文本实体关系抽取方法，其特征在于，包含如下内容：

通过类关系查找实体关系之间隐含内容；

获取词向量表示中，将单词转化为低维向量，假设给定多个单词组成的句子，句子中所有单词使用位置嵌入，每个单词用实值向量表示，单词嵌入通过嵌入矩阵进行编码，将句子中所有单词嵌入和位置嵌入进行连接，获取完整的词向量表示，通过词向量表示以提取实体对与上下文语义相关程度；

实体对关系之间相似度计算中，假设实体对包含多个关系集合，关系集合对应有低维向量集合，使用两个关系的向量内积计算获取两者之间的相似性权重；通过比对关系集合中其他关系与目标关系的相似程度，找到与目标关系相似性权重最高的关系，然后使用点互信息PMI计算目标关系和该相似性权重最高的关系之间的语义相似度；依据语义相似度计算结果，判定与目标关系具有类关系的其他关系。

2.根据权利要求1所述的文本实体关系抽取方法，其特征在于，针对输入文本，构建用于关系抽取的神经网络模型，通过模型训练学习，以提取实体关系之间隐含内容；该模型中包含：用于将目标输入文本中单词转化为低维向量的输入层；用于获取输入文本语句特征的双向门控循环单元；用于获取句子向量表示的最大池化层，及用于单词和句子权重分配的注意机制。

3.根据权利要求2所述的文本实体关系抽取方法，其特征在于，双向门控循环单元包含隐藏状态、重置门结构和更新门结构；将词向量表示输入双向门控循环单元，通过计算重置门结构和更新门结构产生的正反向状态特征值来获取句子高维语义信息。

4.根据权利要求1或2所述的文本实体关系抽取方法，其特征在于，语句特征获取包含基于单词级特征获取，假设句子包含多个单词，对对应单词设定加权值，将关系与实体对放入同一嵌入空间，将单词和关系的向量表示连接到两者之间的相关程度。

5.根据权利要求4所述的文本实体关系抽取方法，其特征在于，语句特征获取还包含基于句子级特征获取，假设集合中包含多个具有实体对的句子，通过句子和预测关系匹配程度进行评分来获取句子对预测关系的权重，以弱化噪音数据。

6.根据权利要求1所述的文本实体关系抽取方法，其特征在于，通过抽取类关系，找出符合与目标关系具有类关系的其他关系，以挖掘关系之间隐含关系。

7.一种文本实体关系抽取装置，其特征在于，包含：特征表示模块、相似计算模块及关系挖掘模块，其中，

关系挖掘模块，用于通过类关系查找实体关系之间隐含内容；

8.一种计算机可读存储介质设备，其上存储有被处理器运行的计算机程序，所述计算机程序用于执行权利要求1~6任一项所述的方法。