CN109472033A

CN109472033A - 文本中的实体关系抽取方法及***、存储介质、电子设备

Info

Publication number: CN109472033A
Application number: CN201811376209.2A
Authority: CN
Inventors: 蒋运承; 瞿荣; 朱星图; 郑东; 郑一东; 马文俊; 詹捷宇; 刘宇东
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2019-03-15
Anticipated expiration: 2038-11-19
Also published as: CN109472033B

Abstract

本发明涉及一种文本中的实体关系抽取方法及***、存储介质、电子设备。本发明所述的文本中的实体关系抽取方法，包括如下步骤：获取实体三元组关系集合、实体及实体属性集合、以及概念集合；训练文本集的句子与该句子中识别到的两个实体的三元组关系集合；进行远程监督标注，获取包括训练文本集的句子、该句子中识别到的两个实体、两个实体分别对应的概念以及两个实体的关系集合，将句子向量输入实体关系抽取模型并训练；获取每个句子包括两个实体、两个实体分别对应的概念以及两个实体的关系集合。本发明所述的文本中的实体关系抽取方法利用文本中的语义上下文信息抽取出实体间的关系，解决了远程监督过程里存在的错误标注问题。

Description

文本中的实体关系抽取方法及***、存储介质、电子设备

技术领域

本发明涉及文本处理与信息抽取技术领域，特别是涉及一种文本中的实体关系抽取方法及***、存储介质、电子设备。

背景技术

在过去，人们根据现实世界中的知识构建了一些大规模知识库，比如 Wikipedia和DBpedia。这些知识库被广泛地应用在了人工智能和自然语言处理等领域，如问答***、信息抽取等。知识库中包含了大量的三元组事实，例如(New York,CityOf,United States)代表了“纽约是美国的一座城市”这一事实。然而，现存的知识库包含的事实有限且远远不够完整，每天都有新的事实产生。如何标注出新的事实来补全知识库成为了一个亟需解决的难题。采用人工标注的方法来标注事实三元组是一项费时费力的工程，因此现在许多研究把重心转移到如何从复杂多样的互联网资源中自动地标注出新的事实。其中，在大量的文本中进行实体关系的抽取是一项非常重要的任务，也是最核心的任务。尽管现有文本中的实体关系抽取方法在远程监督机制的帮助下能够取得较好的效果，但远程监督的假设存在错误标注的问题。其原因是，在远程监督的假设中，一对实体之间的关系只有一种，将所有出现了这对实体的句子都认为是表达了这一种关系。事实上，两个实体同时出现在一个句子中时，并不一定能表达出知识库中既定的关系，可能表达出其他的关系，或者反映了某一个共同主题，需要根据句子中的语义上下文来判断。

发明内容

基于此，本发明的目的在于，提供一种文本中的实体关系抽取方法，其利用文本中的语义上下文信息抽取出实体间的关系，从根本上解决远程监督过程里存在的错误标注问题。

本发明是通过如下方案实现的：

一种文本中的实体关系抽取方法，包括如下步骤：

获取实体三元组关系集合，获取实体及实体属性集合，获取概念集合；

获取训练文本集的句子与该句子中识别到的两个实体的三元组关系集合；

根据所述实体三元组关系集合、所述实体及实体属性集合以及所述概念集合，对所述训练文本集的句子与该句子中识别到的两个实体的三元组关系集合进行远程监督标注，获取包括训练文本集的句子、该句子中识别到的两个实体、两个实体分别对应的概念以及两个实体的关系集合，并将关系集合放入标注训练集；

根据所述标注训练集，获取训练文本集句子中词语的向量表示；

根据句子中词语的向量表示，获取训练文本集每个句子的句子向量；

将训练文本集每个句子的句子向量输入实体关系抽取模型，根据该句子中被标注的两个实体、该句子中被标注的两个实体分别对应的概念以及该句子中被标注的两个实体的关系训练所述实体关系抽取模型；

获取待抽取文本集每个句子的句子向量；

将待抽取文本集每个句子的句子向量输入所述实体关系抽取模型，获取待抽取文本集每个句子的包括两个实体、两个实体分别对应的概念以及两个实体的关系集合。

本发明所述的文本中的实体关系抽取方法，利用实体在上下文中所属的概念范围代表语义上下文信息，并根据概念范围获得多概念多关系的实体关系训练集，并根据训练集构建出实体关系抽取模型，从根本上解决了远程监督过程中存在的错误标注问题。

在一种实施例中，根据所述实体三元组关系集合、所述实体及实体属性集合以及所述概念集合，对所述训练文本集的句子与该句子中识别到的两个实体的三元组关系集合进行远程监督标注，包括：

对所述训练文本集的句子进行上下文识别，获取该句子识别到的两个实体分别对应的概念。

在一种实施例中，对所述训练文本集的句子进行上下文识别，获取该句子识别到的两个实体分别对应的概念后，还包括如下步骤：

将训练文本集句子中识别到的两个实体与实体三元组关系集合进行匹配；

如果匹配失败，则从实体三元组关系集合随机抽取一种关系，生成包括句子、被标注的两个实体、被标注的两个实体分别对应的概念以及随机抽取的关系集合，并将该数据集作为负样本放入标注训练集。

在一种实施例中，还包括如下步骤：

如果匹配成功，则生成包括句子、被标注的两个实体、被标注的两个实体分别对应的概念以及匹配的关系集合，并对匹配得到的关系进行置信度评分，如果评分结果超过第一设定阈值，则将该数据集作为正样本放入标注训练集，如果评分结果低于第一设定阈值，则将该数据集作为负样本放入标注训练集。

在一种实施例中，对匹配得到的关系进行置信度评分，包括：

根据与句子的上下文共同出现在语料库中的比例，获取该匹配的关系与该句子中上下文的相关程度，相关程度越高，则置信度评分越高。

在一种实施例中，还包括如下步骤：

获取所生成的关系集合中，概念相同的多个关系集合；

判断所述多个关系集合中每一个关系和句子的上下文相关程度；

并将相关程度最大的关系替换到多个关系集合中作为新的关系。

在一种实施例中，将相关程度最大的关系替换到多个关系集合中作为新的关系后，还包括如下步骤：

删除所述标注训练集中的所述多个关系集合；

将包括新的关系的所述多个关系集合放入所述标注训练集中。

进一步地，本发明还提供一种文本中的实体关系抽取***，包括：

第一获取模块，用于获取实体三元组关系集合，获取实体及实体属性集合，获取概念集合；

第二获取模块，用于获取训练文本集的句子与该句子中识别到的两个实体的三元组关系集合；

远程监督标注模块，用于根据所述实体三元组关系集合、所述实体及实体属性集合以及所述概念集合，对所述训练文本集的句子与该句子中识别到的两个实体的三元组关系集合进行远程监督标注，获取包括训练文本集的句子、该句子中识别到的两个实体、两个实体分别对应的概念以及两个实体的关系集合，并将关系集合放入标注训练集；

表示输入模块，用于根据所述标注训练集，获取训练文本集句子中词语的向量表示；

第一表示句子模块，用于根据句子中词语的向量表示，获取训练文本集每个句子的句子向量；

实体关系抽取模型训练模块，用于将训练文本集每个句子的句子向量输入实体关系抽取模型，根据该句子中被标注的两个实体、该句子中被标注的两个实体分别对应的概念以及该句子中被标注的两个实体的关系训练所述实体关系抽取模型；

第二表示句子模块，用于获取待抽取文本集每个句子的句子向量；

实体关系抽取模块，用于将待抽取文本集每个句子的句子向量输入所述实体关系抽取模型，获取待抽取文本集每个句子的包括两个实体、两个实体分别对应的概念以及两个实体的关系集合。

进一步地，本发明还提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述实施例中任意一项所述的文本中的实体关系抽取方法。

进一步地，本发明还提供一种电子设备，包括存储器、处理器以及储存在所述存储器并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时，实现如上述实施例中任意一项所述的文本中的实体关系抽取方法。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为一种实施例中文本中的实体关系抽取方法流程示意图；

图2为一种实施例中训练文本集关系匹配流程示意图；

图3为一种实施例中的远程监督标注流程示意图；

图4为一种实施例中对标注结果进行修正的流程示意图；

图5为一种实施例中实体关系抽取模型的示意图；

图6为一种实施例中文本中的实体关系抽取***结构示意图；

图7为一种实施例中电子设备结构示意图。

具体实施方式

请参阅图1，在一种实施例中，本发明文本中的实体关系抽取方法包括如下步骤：

步骤S101：获取实体三元组关系集合，获取实体及实体属性集合，获取概念集合。

本实施例选用Freebase作为基本知识库。Freebase是一个大规模知识图谱，其中内在的包含了7300多种关系和超过9亿个实体。将Freebase中的资源描述框架(ResourceDescription Framework，RDF)三元组(实体1，关系，实体2) 整理并存储在计算机中，作为本实施例的实体三元组关系集合，记为R，包含例如(New York,CityOf,United States)这样的三元组。另外，将Freebase中的实体及实体的属性信息整理并存储在计算机中，作为本实施例的实体及实体属性集合，记为E，每个实体可以包含零个或多个属性。

本实施例的方案中涉及到多概念知识库的构建和使用，需要准备一个概念字典。所述概念是指根据上下文语境判断出来实体所属的概念范畴。在知识图谱Probase中，包含了数百万个概念，因此使用这一知识库作为本实施例中的概念字典数据源。将关系集合R中每一个关系涉及到的实体及其对应的概念整理并保存在计算机中，作为本实施例的实体及其可能所属概念的集合，记为C，其中概念可以为1个或多个，例如实体及其概念(IBM,Company；Corporation； Client；Organization；Vendor；Supplier；…)。

步骤S102：获取训练文本集的句子与该句子中识别到的两个实体的三元组关系集合。

本实施例采用***新闻文本集作为训练文本集比。对训练文本集D中的每一个新闻文档d，通过标点符号识别每一个句子s的起点和终点，将文档分割成若干个句子。为了进行实体关系抽取任务，还需要对s中的实体进行识别，本发明的方案中使用已有的自然语言处理工具StanfordNLP进行命名实体识别操作。如果s中识别到的实体不等于2个，或者识别到的实体不在集合E 中，则认为该句子无效并抛弃。将每个满足条件的句子s以及识别到的两个实体e₁和e₂记入三元组(s，e₁，e₂)并存储在计算机中，构成句子与该句子中识别到的两个实体的三元组关系集合，记为SE，可以包含例如(New York is the most populouscity in the United States，New York，United States)。

步骤S103：根据所述实体三元组关系集合、所述实体及实体属性集合以及所述概念集合，对所述训练文本集的句子与该句子中识别到的两个实体的三元组关系集合进行远程监督标注，获取包括训练文本集的句子、该句子中识别到的两个实体、两个实体分别对应的概念以及两个实体的关系集合，并将关系集合放入标注训练集。

远程监督的输入包括所述实体三元组关系集合R，所述实体及实体属性集合E，所述概念集合C。对所述训练文本集的句子与该句子中识别到的两个实体的三元组关系集合SE依次通过概念识别、远程监督、关系置信度评分三个操作来进行远程监督标注，获取包括训练文本集的句子、该句子中识别到的两个实体e₁、e₁，两个实体分别对应的概念c₁、c₂，以及两个实体的关系集合 r₁(s，(e₁，c₁，r₁，c₂，e₂))，并将关系集合放入标注训练集。以及获得五元组关系(e₁，c₁，r₁，c₂，e₂)，并将五元组关系放入待建知识库KB。

步骤S104：根据所述标注训练集，获取训练文本集句子中词语的向量表示。

在本步骤中，输入包括标注训练集T_train和Wikipedia文本语料库，输出为词语的向量表示。

为了表示标注训练集T_train中里出现的每个词语，需要进行两步操作：1) 用词向量表示每一个词语，2)结合句子中词语和两个实体的位置关系强化词向量的表达。为了计算出词向量，需要确定词汇表。本发明的方案中把在Wikipedia 中出现了100次以上的词语保存下来共同构成词汇表。然后使用开源的 word2vec工具通过Wikipedia文本语料库中的上下文信息训练得到每个词语的词向量表达并存储在计算机中，记为W，W是一个包含了词语和词语对应词向量的集合。这里可以设置词向量的维数以及上下文窗口的大小，为了保证计算效率，本实施例中设置维数为50，窗口大小为3。假设有一个训练样本(s，(e₁， c₁，r₁，c₂，e₂))，句子s中共包含n个词语即s＝{w₁,w₂,…,w_n}，其中有两个词语对应着实体e₁和e₂。首先通过查询集合W得到每个词语的词向量v，然后记录每个词语到实体e₁和e₂的距离dist₁和dist₂，并把dist₁和dist₂拼接到v的尾部构成一个52维的词向量，最后用处理完的词向量序列(v₁,v₂,…,v_n)作为编码句子s向量的输入。

步骤S105：根据句子中词语的向量表示，获取训练文本集每个句子的句子向量。

在本步骤中，输入为标注训练集T_train的样本里每个句子中词语的词向量，输出是每个句子的句子向量。

因为在实体关系抽取任务中，一个句子中的每个词语都可能包含着重要的特征信息，所以需要把句中每个词语的特征信息整合起来共同表示句子，为后续从句子中抽取实体间关系做准备。步骤3中得到了每个词语的词向量，需要对句子中多个词向量中的特征进行抽取。特征抽取的方式多种多样，本发明的方案中采用卷积神经网络模型(convolutional neural networks，CNN)。具体地说，采用能够有效利用两个实体在句子中位置信息的分段卷积神经网络模型 (PCNN)。PCNN的过程主要包括3步：1)卷积，需要设置步长和过滤器大小，2)最大池化，根据两个实***置把句子分成三段，每段分别做最大池化操作，3)非线性激活及输出操作。通过以上操作后可以把每个输入的句子表示成一个向量，向量的维数可以自行设置，根据以往方案中的建议，可以设置为200 维。

步骤S106：将训练文本集每个句子的句子向量输入实体关系抽取模型，根据该句子中被标注的两个实体、该句子中被标注的两个实体分别对应的概念以及该句子中被标注的两个实体的关系训练所述实体关系抽取模型。

当标注训练集中的每一个句子都用向量表示完成后，就可以作为实体关系抽取模型M的输入，并根据每个训练样本中标注的实体、实体对应的概念、实体的关系三者来训练神经网络模型M的参数。

步骤S107：获取待抽取文本集每个句子的句子向量。

步骤S108：将待抽取文本集每个句子的句子向量输入所述实体关系抽取模型，获取待抽取文本集每个句子的包括两个实体、两个实体分别对应的概念以及两个实体的关系集合。

se为集合SE中的一个元素，即se为关于某个新闻文档中的一个句子及句中所包含的两个实体的三元组。首先对句子s里的两个实体e₁和e₂分别通过上下文进行概念识别得到c₁和c₂，此处的概念识别方法是一个分类的问题，使用朴素贝叶斯分类方法，实体e₁和实体e₂的所有可能的概念可以从集合C中查询得到。

请参阅图2，在一种实施例中，对所述训练文本集的句子进行上下文识别，获取该句子识别到的两个实体分别对应的概念后，还包括如下步骤：

步骤S201：将训练文本集句子中识别到的两个实体与实体三元组关系集合进行匹配。

步骤S202：如果匹配失败，则从实体三元组关系集合随机抽取一种关系，生成包括句子、被标注的两个实体、被标注的两个实体分别对应的概念以及随机抽取的关系集合，并将该数据集作为负样本放入标注训练集。

通过查找实体三元组关系集合R中的关系三元组，利用实体e₁和e₂作为标识和关系三元组(e₁，r，e₂)匹配。如果没有匹配到，则认为知识库的实体e₁和e₂之间没有任何关系，随机取三元组集合R中存在的一种关系r_random，生成标注记录(s，(e₁，c₁，r_random，c₂，e₂))作为负样本放入标注训练集T_train。

在一种实施例中，还包括如下步骤：

其中，图3为本实施例中的远程监督标注流程示意图，如果匹配到了三元组(e₁，r，e₂)，则对匹配得到的关系r₁进行置信度评分。评分的依据是，根据共现情况计算关系r₁和句子s中上下文的相关程度，相关程度越高置信度评分越高。当评分超过设定的第一设定阈值时，生成一条五元组(e₁，c₁，r₁，c₂， e₂)，代表当实体e₁的概念为c₁，且实体e₂的概念为c₂时，e₁和e₂之间有一种关系r₁。并生成一条标注记录(s，(e₁，c₁，r₁，c₂，e₂))作为正样本加入标注训练集T_train。如果评分未超过第一设定阈值时，将标注记录(s，(e₁，c₁，r_random， c₂，e₂))作为负样本加入标注训练集T_train。

请参阅图4，在一种实施例中，还包括如下步骤：

步骤S401：获取所生成的关系集合中，概念相同的多个关系集合。

步骤S402：判断所述多个关系集合中每一个关系和句子的上下文相关程度。

步骤S403：将相关程度最大的关系替换到多个关系集合中作为新的关系。

在对所述训练文本集的句子与该句子中识别到的两个实体的三元组关系集合SE中的所有三元组做完标注后，由于所有的已标注关系都来源于Freebase，如果Freebase本身包含的事实关系存在偏差，将会给后面的计算带来错误，因此需要对标注结果中的正样本进行修正和调整，以改良和优化实体间关系标注的结果。例如对于一个标注的正样本(s，(e₁，c₁，r₁，c₂，e₂))，之前的研究中都假设了标注的关系r₁是正确的，在本发明的方案中，假设概念c₁和c₂是标注正确的，但关系r₁的正确性需要验证和修正。为了降低计算复杂性，本实施例中先筛选出每一条标注的候选关系集合。筛选的方法是，把标注记录中两个概念分别相同的关系计入到候选关系列表R₁中。例如记录(s1，(e₃，c₁，r₂， c₂，e₄))，因为概念c₁和c₂分别与上述记录中相同，所以把实体e₃和e₄在概念 c₁和c₂下表达的关系r₂列入到候选关系列表R₁中。接下来，需要从候选关系中识别出最优的关系。分别计算关系集合R₁中每一个关系r_i和句子s中上下文的相关程度，并将相关程度较大的关系r_max作为关系标注的优化结果。从标注数据集T中删除正样本记录(s，(e₁，c₁，r₁，c₂，e₂))并添加优化后的记录(s， (e₁，c₁，r_max，c₂，e₂))作为一个新的正样本。最后，向待建知识库KB中添加或更新实体e₁和e₂、添加五元组关系(e₁，c₁，r_max，c₂，e₂)。

请参阅图5，其为一种实施例中实体关系抽取模型M的示意图，在本实施例中，把标注训练集T_train按比例随机地分成三个部分T_train(占整个数据集80％)， T_valid(10％)，T_test(10％)，分别代表训练集，验证集，以及测试集，这三个数据集服从同一数据分布。

实体关系抽取模型M的参数包括超参数和普通参数两种。有4个卷积神经网络中的超参数需要设置初始值，设置每批样本大小(Batch size)B＝100，随机梯度下降的学习率(Learning rate)λ＝0.01，神经网络单元丢弃概率(Dropout probability)ρ＝0.5，每个样本的最多使用次数n＝10。设置完超参数后，启动实体关系抽取模型M的训练流程。将处理好的正、负样本成批的输入到卷积神经网络中，记录每个样本的概念识别结果与标注中概念类别之间的误差，实体关系抽取结果与标注中的实体关系之间的误差，通过随机梯度下降算法最小化卷积神经网络的综合误差，不断调整模型M中的普通参数并保存。为了及时发现模型参数的问题，验证模型的泛化能力，每经过5批样本计算后，本发明的方案中使用提前准备好的验证集T_valid来验证当前网络模型M的参数设置是否合理，如果不合理，则及时调整。

在实体关系抽取模型M训练完成后，本发明使用两个公测数据集：1) SemEval-2010Task 8数据集，这个数据集中包含了9种双向的关系以及1种无向的“其它”关系，共包含10717个标注样本，2)NYT10数据集，这个数据集共包含了53种关系，其中有1种关系“NA”代表两实体没有任何关系，这个数据集共包含20202个标注样本，在这两个数据集上分别应用实体关系抽取模型M并统计准确率、召回率以及F1值。

本发明提出的文本中的实体关系抽取方法，使用多概念多关系知识库能够从根本上减少和解决知识库中错误标注的问题。与此同时，本发明提出的文本中的实体关系抽取方法能够有效的利用实体的概念信息，结合实体所在的上下文，在进行关系抽取之前排除噪音关系，缩小关系抽取的搜索空间，提高关系抽取的速度和精度。

请参阅图6，图6为本发明一种实施例中文本中的实体关系抽取***结构示意图，其中，文本中的实体关系抽取***600包括：

第一获取模块601，用于获取实体三元组关系集合，获取实体及实体属性集合，获取概念集合。

第二获取模块602，用于获取训练文本集的句子与该句子中识别到的两个实体的三元组关系集合。

远程监督标注模块603，用于根据所述实体三元组关系集合、所述实体及实体属性集合以及所述概念集合，对所述训练文本集的句子与该句子中识别到的两个实体的三元组关系集合进行远程监督标注，获取包括训练文本集的句子、该句子中识别到的两个实体、两个实体分别对应的概念以及两个实体的关系集合，并将关系集合放入标注训练集。

表示输入模块604，用于根据所述标注训练集，获取训练文本集句子中词语的向量表示。

第一表示句子模块605，用于根据句子中词语的向量表示，获取训练文本集每个句子的句子向量；

实体关系抽取模型训练模块606，用于将训练文本集每个句子的句子向量输入实体关系抽取模型，根据该句子中被标注的两个实体、该句子中被标注的两个实体分别对应的概念以及该句子中被标注的两个实体的关系训练所述实体关系抽取模型；

第二表示句子模块607，用于获取待抽取文本集每个句子的句子向量；

实体关系抽取模块608，用于将待抽取文本集每个句子的句子向量输入所述实体关系抽取模型，获取待抽取文本集每个句子的包括两个实体、两个实体分别对应的概念以及两个实体的关系集合。

在一种实施例中，所述远程监督标注模块603还包括上下文识别单元6031，用于对所述训练文本集的句子进行上下文识别，获取该句子识别到的两个实体分别对应的概念。

在一种实施例中，所述远程监督标注模块603还包括匹配单元6032和随机抽取单元6033，所述匹配单元6032用于将训练文本集句子中识别到的两个实体与实体三元组关系集合进行匹配；所述随机抽取单元6033用于如果匹配失败，从实体三元组关系集合随机抽取一种关系，生成包括句子、被标注的两个实体、被标注的两个实体分别对应的概念以及随机抽取的关系集合，并将该数据集作为负样本放入标注训练集。

在一种实施例中，所述远程监督标注模块603还包括置信度评分单元6034，用于如果匹配成功，生成包括句子、被标注的两个实体、被标注的两个实体分别对应的概念以及匹配的关系集合，并对匹配得到的关系进行置信度评分，如果评分结果超过第一设定阈值，则将该数据集作为正样本放入标注训练集，如果评分结果低于第一设定阈值，则将该数据集作为负样本放入标注训练集。

在一种实施例中，所述远程监督标注模块603还包括：

关系集合获取单元6035，用于获取所生成的关系集合中，概念相同的多个关系集合。

上下文相关程度判断单元6036，用于判断所述多个关系集合中每一个关系和句子的上下文相关程度。

关系替换单元6037，用于并将相关程度最大的关系替换到多个关系集合中作为新的关系。

在一种实施例中，所述远程监督标注模块603还包括：

关系集合删除单元6038，用于删除所述标注训练集中的所述多个关系集合。

关系集合替换单元6039，用于将包括新的关系的所述多个关系集合放入所述标注训练集中。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明提出的文本中的实体关系抽取***，使用多概念多关系知识库能够从根本上减少和解决知识库中错误标注的问题。与此同时，本发明提出的文本中的实体关系抽取方法能够有效的利用实体的概念信息，结合实体所在的上下文，在进行关系抽取之前排除噪音关系，缩小关系抽取的搜索空间，提高关系抽取的速度和精度。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任意一项实施例中的文本中的实体关系抽取方法。

请参阅图7，在一种实施例中，本发明的电子设备700包括存储器710和处理器720，以及储存在所述存储器710并可被所述处理器720执行的计算机程序，所述处理器720执行所述计算机程序时，实现如上述任意一项实施例中的文本中的实体关系抽取方法。

在本实施例中，控制器720可以是一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件。存储介质710可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可读储存介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种文本中的实体关系抽取方法，其特征在于，包括如下步骤：

获取待抽取文本集每个句子的句子向量；

2.根据权利要求1所述的文本中的实体关系抽取方法，其特征在于，根据所述实体三元组关系集合、所述实体及实体属性集合以及所述概念集合，对所述训练文本集的句子与该句子中识别到的两个实体的三元组关系集合进行远程监督标注，包括：

3.根据权利要求2所述的文本中的实体关系抽取方法，其特征在于，对所述训练文本集的句子进行上下文识别，获取该句子识别到的两个实体分别对应的概念后，还包括如下步骤：

4.根据权利要求3所述的文本中的实体关系抽取方法，其特征在于，还包括如下步骤：

5.根据权利要求4所述的文本中的实体关系抽取方法，其特征在于，对匹配得到的关系进行置信度评分，包括：

6.根据权利要求5所述的文本中的实体关系抽取方法，其特征在于，还包括如下步骤：

获取所生成的关系集合中，概念相同的多个关系集合；

将相关程度最大的关系替换到多个关系集合中作为新的关系。

7.根据权利要求6所述的文本中的实体关系抽取方法，其特征在于，将相关程度最大的关系替换到多个关系集合中作为新的关系后，还包括如下步骤：

删除所述标注训练集中的所述多个关系集合；

8.一种文本中的实体关系抽取***，其特征在于，包括：

9.一种计算机可读介质，其上存储有计算机程序，其特征在于：

该计算机程序被处理器执行时实现如权利要求1至7任意一项所述的文本中的实体关系抽取方法。

10.一种电子设备，包括存储器、处理器以及储存在所述存储器并可被所述处理器执行的计算机程序，其特征在于：

所述处理器执行所述计算机程序时，实现如权利要求1至7任意一项所述的文本中的实体关系抽取方法。