CN108763192B

CN108763192B - 用于文本处理的实体关系抽取方法及装置

Info

Publication number: CN108763192B
Application number: CN201810348221.6A
Authority: CN
Inventors: 朱***; 高翔; 纪达麒; 陈运文
Original assignee: Datagrand Information Technology Shanghai Co ltd
Current assignee: Daguan Data Co ltd
Priority date: 2018-04-18
Filing date: 2018-04-18
Publication date: 2022-04-19
Anticipated expiration: 2038-04-18
Also published as: CN108763192A

Abstract

本申请公开了一种用于文本处理的实体关系抽取方法及装置。该方法包括：输入待处理文本；识别所述待处理文本中的实体，其中，所述待处理文本包括多个实体；根据预设样例对所述实体筛选得到输入实例的上下文特征；通过所述上下文特征计算所述输入实例与种子样例库中的各个种子样例之间的上下文相似度；判断所述上下文相似度是否大于第一预设阈值；如果所述相似度大于所述第一预设阈值，则统计所述相似度大于所述预设阈值的种子样例的个数；判断所述相似度大于所述预设阈值的种子样例的个数是否大于所述第二预设阈值；如果所述相似度大于所述预设阈值的种子样例的个数大于所述第二预设阈值，则将所述输入实例作为所述文本处理得到的实体关系实例。本申请解决了规则方法的高准确低召回的技术问题。

Description

用于文本处理的实体关系抽取方法及装置

技术领域

本申请涉及文本处理技术领域，具体而言，涉及一种用于文本处理的实体关系抽取方法及装置。

背景技术

随着互联网的快速发展，互联网已经成为了人们获取信息的主要渠道，互联网上的文本数据也呈现出***式增长。互联网上的文本数据中包含了丰富的信息，对于构建知识库以及知识图谱有非常重要的作用；但是人工进行相关知识提取工作量极其巨大，如果能利用计算机自动提取出有用的信息，那将具有非常重要的意义。然而互联网上的文本数据几乎都是以自然语言形式存在的无结构数据，计算机无法直接进行处理。

为了解决这个问题，信息抽取技术应运而生，信息抽取技术从无结构化的文本数据中抽取出结构化数据，包括实体、实体间关系、事件等。关系抽取是信息抽取领域中一项关键技术，通常通过命名实体识别技术识别出文本中的实体，再由关系抽取技术识别实体对之间的关系。关系抽取常用的方法包括：基于规则的方法，无监督方法，有监督方法和半监督方法。基于规则的方法存在明显的不足，该方法需要人工编写大量的规则，工作量非常大，不易维护，不能很好的扩展到其他领域。无监督方法将文本进行聚类时，往往效果不是很好，存在召回率和准备率都不高的问题，而且需要很多的人工干预。

基于传统的机器学习算法进行关系分类时，需要人工标注大量训练语料，工作量极大，而且无法解决领域移植性及处理新关系的问题。而半监督方法主要是利用少量的标注实例作为初始种子集合，然后通过不断的迭代，从非结构化数据中抽取相似实例扩展种子集合，针对上述问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种用于文本处理的实体关系抽取方法及装置，以解决规则方法的高准确低召回问题。

为了实现上述目的，根据本申请的一个方面，提供了一种用于文本处理的实体关系抽取方法。

根据本申请的用于文本处理的实体关系抽取方法包括：输入待处理文本；识别所述待处理文本中的实体，其中，所述待处理文本包括多个实体；根据预设样例对所述实体筛选得到输入实例的上下文特征；通过所述上下文特征计算所述输入实例与各个种子样例之间的上下文相似度；判断所述上下文相似度是否大于预设阈值；如果所述相似度大于所述第一预设阈值，则统计所述相似度大于所述预设阈值的种子样例的个数；判断所述相似度大于所述预设阈值的种子样例的个数是否大于所述第二预设阈值；如果所述相似度大于所述预设阈值的种子样例的个数大于所述第二预设阈值，则将所述输入实例作为所述文本处理得到的实体关系实例。

进一步的，所述实体抽取方法开始之前包括：训练词向量模型，具体包括：使用gensim工具训练背景语料得到所述词向量模型。

进一步的，识别所述待处理文本中的实体包括：采用命名实体识别方法获取所述待处理文本中的实体。进一步的，根据预设样例对所述实体筛选得到输入实例的上下文特征包括：对所述待处理文本进行分词；对分词结果进行词性标注；过滤词性标注结果得到待选词；利用上下文窗口获取所述待选词中的目标词；根据所述目标词构成输入实例的上下文特征。

进一步的，通过所述上下文特征计算所述输入实例与种子样例之间的上下文相似度包括：将所述上下文特征代入预设公式得出所述上下文相似度；所述预设公式为：

其中，similarity表示所述上下文相似度。

为了实现上述目的，根据本申请的另一方面，提供了一种用于文本处理的实体关系抽取装置。

根据本申请的用于文本处理的实体关系抽取装置包括：输入模块，输入待处理文本；识别模块，识别所述待处理文本中的实体，其中，所述待处理文本包括多个实体，构建输入实例(实体，实体2，输入文本)；筛选模块，根据预设样例对所述实体筛选得到输入实例的上下文特征；计算模块，通过所述上下文特征计算所述输入实例与各个种子样例之间的上下文相似度；第一判断模块，判断所述上下文相似度是否大于第一预设阈值；统计模块，如果所述相似度大于所述预设阈值，则统计所述相似度大于所述第一预设阈值的种子样例个数；第二判断模块，用于判断所述相似度大于所述预设阈值的种子样例的个数是否大于所述第二预设阈值；结束模块，如果所述相似度大于所述预设阈值的种子样例的个数大于所述第二预设阈值，则将所述输入实例作为所述文本处理得到的实体关系实例。

进一步的，所述实体关系抽取装置还包括：训练模块，用于训练词向量模型，具体包括：使用gensim工具训练背景语料得到所述词向量模型。

进一步的，所述识别模块包括：实体获取模块，采用命名实体识别方法获取所述待处理文本中的实体。

进一步的，所述筛选模块包括：分词模块，用于对所述待处理文本进行分词；标注模块，对分词结果进行词性标注；过滤模块，过滤词性标注结果得到待选词；目标词获取模块，用于利用上下文窗口获取所述待选词中的目标词；上下文特征生成模块，用于获取所述目标词构成输入实例的上下文特征。

进一步的，所述计算模块包括：代入模块，用于将所述上下文特征代入预设公式得出所述上下文相似度。

在本申请实施例中，采用词向量模型与上下文相似度结合的方式，通过计算输入实例与种子样例之间的相似度，与预设阈值进行比较，得到符合预期目标的样例，达到了实体关系抽取的目的，从而实现了提升关系抽取的召回率的技术效果，进而解决了规则方法的高准确低召回的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的用于文本处理的实体关系抽取方法示意图；

图2是根据本申请实施例的生成上下文特征示意图；

图3是根据本申请实施例的用于文本处理的实体关系抽取装置示意图；

图4是根据本申请实施例的筛选模块示意图；以及

图5是根据本申请实施例的方法操作流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，本申请涉及一种用于文本处理的实体关系抽取方法，该方法包括如下的步骤S101至步骤S106：

步骤S101，输入待处理文本；

待处理文本可以是包含了：需要从无结构化的文本数据中抽取出的结构化数据，待处理文本中包括但不限于，实体、实体间关系、事件等。

步骤S102，识别所述待处理文本中的实体，其中，所述待处理文本包括多个实体；

识别待处理文本中的实体的方式是采用命名实体识别方法获取所述待处理文本中的实体。

步骤S103，根据预设样例对所述实体筛选得到输入实例的上下文特征；

作为本实施例的优选，如图2所示，其中步骤S103，根据预设样例对所述实体筛选得到输入实例的上下文特征包括以下步骤S201至步骤S205：

步骤S201，对所述待处理文本进行分词；

步骤S202，对分词结果进行词性标注；

优选的，将分词结果标注为：名词、动词、副词等。

步骤S203，过滤词性标注结果得到待选词；

优选的，只保留所述待选词中的动词和名词。

步骤S204，利用上下文窗口获取所述待选词中的目标词；

优选的，根据上下文窗口(a，b，c，d)得到上下文[left1，right1，left2，right2]，其中left1、right1、left2、right2分别为实体1左边a个词、右边b个词、实体2左边c个词、右边d个词。若实际词数小于窗口大小，则取全部词。

步骤S205，根据所述目标词构成输入实例上下文特征。

步骤S104，通过所述上下文特征计算所述输入实例与各个种子样例之间的上下文相似度；

优选的，将所述上下文特征代入预设公式得出所述上下文相似度；所述预设公式为：

其中，similarity表示所述上下文相似度。

步骤S105，判断所述上下文相似度是否大于第一预设阈值；

步骤S106，如果所述相似度大于所述第一预设阈值，则统计所述相似度大于所述预设阈值的种子样例的个数；

步骤S107，判断所述相似度大于所述预设阈值的种子样例的个数是否大于所述第二预设阈值；

步骤S108，如果所述相似度大于所述预设阈值的种子样例的个数大于所述第二预设阈值，则将所述输入实例作为所述文本处理得到的实体关系实例。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例，还提供了一种用于实施上述方法的装置，如图3所示，该装置包括：输入模块10，输入待处理文本；识别模块20，识别所述待处理文本中的实体，其中，所述待处理文本包括多个实体；筛选模块30，根据预设样例对所述实体筛选得到输入实例的上下文特征；计算模块40，通过所述上下文特征计算所述输入实例与各个种子实例之间的上下文相似度；第一判断模块50，判断所述上下文相似度是否大于第一预设阈值；统计模块60，如果所述相似度大于所述预设阈值，则统计所述相似度大于所述第一预设阈值的种子样例个数；第二判断模块70，用于判断所述相似度大于所述预设阈值的种子样例的个数是否大于所述第二预设阈值；结束模块80，如果所述相似度大于所述预设阈值的种子样例的个数大于所述第二预设阈值，则将所述输入实例例作为所述文本处理得到的实体关系实例。

如图4所示，筛选模块30包括：分词模块301，用于对所述待处理文本进行分词；标注模块302，对分词结果进行词性标注；过滤模块303，过滤词性标注结果得到待选词；目标词获取模块304，用于利用上下文窗口获取所述待选词中的目标词；上下文特征生成模块305，用于获取所述目标词构成输入实例的上下文特征。

如图5所示，本发明的方法操作流程图具体如下：

种子样例生成，根据领域知识编写一些规则模板，识别指定实体关系。规则模板尽量严格，确保高准确率。另外，规则模板应尽可能多的覆盖关系的表达方式。在规则识别出候选种子样例后，通过人工过滤，将错误的样例去除，这样得到最终的种子样例。

训练词向量模型，词向量方法是Hinton在1986年提出的，将单词用一个低维实数向量表示，例如[0.179，-0.157，-0.117，0.909，-0.532，...]这种形式，也就是词向量。而且，在词向量空间中，向量夹角小的两个点，它们所代表的单词在语义上相似或者相关。较好的训练算法得到的词向量，能够较好地反应出词语之间语义上的相似度。

词X和词Y的相似性similarityX，Y用余弦距离来计算：

本实施例使用gensim工具训练词向量。使用的语料是全领域新闻语料。向量维度为128维。

样例上下文特征生成，样例是一个三元组(实体1，实体2，文本内容)。对于给定的样例，我们对文本内容进行分词、词性标注、命名实体识别，得到如下形式的结果[w0/tag0，w1/tag1，…，wi-1/tagi-1，实体1，wi+1/tagi+1，…，wj-1/tagj-1，实体2，wj+1/tagj+1，…，wk/tagk]。按词性过滤，只保留动词、名词。根据上下文窗口(a，b，c，d)得到上下文[left1，right1，left2，right2]，其中left1、right1、left2、right2分别为实体1左边a个词、右边b个词、实体2左边c个词、右边d个词。若实际词数小于窗口大小，则取全部词。最后根据训练好的词向量模型，得到上下文特征的向量表示[[vj-a，…，vj-1]，[vj+1，…，vj+b]，[vk-c，…，vk-1]，[vk+1，…，vk+d]]。

样例相似度计算，对候选样例生成上下文特征，并依次计算与各个种子样例的相似度。对于输入的候选样例特征[[wj-a，…，wj-1]，[wj+1，…，wj+b]，[wk-c，…，wk-1]，[wk+1，…，wk+d]]和种子样例特征[[vj-a，…，vj-1]，[vj+1，…，vj+b]，[vk-c，…，vk-1]，[vk+1，…，vk+d]]，权重向量[[f1，…，fa]，[fa+1，…，fa+b]，[fa+b+1，…，fa+b+c]，[fa+b+c+1，…，fa+b+c+d]]，相似度计算公式如下

这里两个特征向量窗口的实际长度不一定相同，计算分子时取公共位置，计算分母时取种子样例特征向量窗口的实际大小。

需要指出的是，这里的相似度并不满足对称性，是候选样例相对于种子样例的相似度。

种子样例扩展，对于输入的语料集，遍历其中的每篇文档，对文档按大标点(句号，问号等)进行分句。

对每个大句，首先进行命名实体识别，若包含两个指定类型的实体，则构造候选样例(实体1，实体2，文本内容)。否则进行下一句处理。

构造候选样例的上下文特征，计算候选样例与种子样例库中各个样例的相似度，并统计相似度大于给定阈值的样例个数。若得到的样例个数大于给定阈值(如当前种子样例数的10％)，则将候选样例加到样例库中，否则进行下一句处理。

从以上的描述中，可以看出，本申请实现了如下技术效果：通过具有相同实体关系的实体对具有相似的上下文，基于样例上下文相似度扩展样例库，能够有效提升关系抽取的召回率。通过训练词向量模型，使用大规模通用语料进行训练。基于词向量进行上下文相似度计算，能显著提升泛化能力。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种用于文本处理的实体关系抽取方法，其特征在于，包括：

输入待处理文本；

识别所述待处理文本中的实体，其中，所述待处理文本包括多个实体；

根据预设样例对所述实体筛选得到输入实例的上下文特征；

通过所述上下文特征计算所述输入实例与种子样例库中的各个种子样例之间的上下文相似度；

判断所述上下文相似度是否大于第一预设阈值；

如果所述相似度大于所述第一预设阈值，则统计所述相似度大于所述预设阈值的种子样例的个数；

判断所述相似度大于所述预设阈值的种子样例的个数是否大于第二预设阈值；

如果所述相似度大于所述预设阈值的种子样例的个数大于所述第二预设阈值，则将所述输入实例作为所述文本处理得到的实体关系实例。

2.根据权利要求1所述的实体关系抽取方法，其特征在于，在实体关系抽取方法开始之前包括：

训练词向量模型，具体包括：使用gensim工具训练背景语料得到所述词向量模型。

3.根据权利要求1所述的实体关系抽取方法，其特征在于，识别所述待处理文本中的实体包括：

采用命名实体识别方法获取所述待处理文本中的实体。

4.根据权利要求1所述的实体关系抽取方法，其特征在于，根据预设实例对所述实体筛选得到输入实例的上下文特征包括：

对所述待处理文本进行分词；

对分词结果进行词性标注；

过滤词性标注结果得到待选词；

利用上下文窗口获取所述待选词中的目标词；

根据所述目标词构成输入实例上下文特征。

5.根据权利要求1所述的实体关系抽取方法，其特征在于，通过所述上下文特征计算所述输入实例与各个种子样例之间的上下文相似度包括：

将所述上下文特征代入预设公式得出所述上下文相似度；

所述预设公式为：

其中，similarity表示所述上下文相似度。

6.一种用于文本处理的实体关系抽取装置，其特征在于，包括：

输入模块，输入待处理文本；

识别模块，识别所述待处理文本中的实体，其中，所述待处理文本包括多个实体；

筛选模块，根据预设样例对所述实体筛选得到输入实例的上下文特征；

计算模块，通过所述上下文特征计算所述输入实例与各个种子样例之间的上下文相似度；

第一判断模块，判断所述上下文相似度是否大于第一预设阈值；

统计模块，如果所述相似度大于所述预设阈值，则统计所述相似度大于所述第一预设阈值的种子样例个数；

第二判断模块，用于判断所述相似度大于所述预设阈值的种子样例的个数是否大于第二预设阈值；

结束模块，如果所述相似度大于所述预设阈值的种子样例的个数大于所述第二预设阈值，则将所述输入实例作为所述文本处理得到的实体关系实例。

7.根据权利要求6所述的实体关系抽取装置，其特征在于，所述实体关系抽取装置还包括：训练模块，用于训练词向量模型，具体包括：使用gensim工具训练背景语料得到所述词向量模型。

8.根据权利要求6所述的实体关系抽取装置，其特征在于，所述识别模块包括：

实体获取模块，采用命名实体识别方法获取所述待处理文本中的实体。

9.根据权利要求6所述的实体关系抽取装置，其特征在于，所述筛选模块包括：

分词模块，用于对所述待处理文本进行分词；

标注模块，对分词结果进行词性标注；

过滤模块，过滤词性标注结果得到待选词；

目标词获取模块，用于利用上下文窗口获取所述待选词中的目标词；

上下文特征生成模块，用于获取所述目标词构成输入实例的上下文特征。

10.根据权利要求6所述的实体关系抽取装置，其特征在于，所述计算模块包括：

代入模块，用于将所述上下文特征代入预设公式得出所述上下文相似度。