CN112036181A - 实体关系识别方法、装置及计算机可读存储介质 - Google Patents

实体关系识别方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN112036181A
CN112036181A CN201910401516.XA CN201910401516A CN112036181A CN 112036181 A CN112036181 A CN 112036181A CN 201910401516 A CN201910401516 A CN 201910401516A CN 112036181 A CN112036181 A CN 112036181A
Authority
CN
China
Prior art keywords
preset
sentence
neural network
entity
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910401516.XA
Other languages
English (en)
Inventor
汤奇峰
宋杭科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jingzan Rongxuan Technology Co ltd
Original Assignee
Shanghai Jingzan Rongxuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jingzan Rongxuan Technology Co ltd filed Critical Shanghai Jingzan Rongxuan Technology Co ltd
Priority to CN201910401516.XA priority Critical patent/CN112036181A/zh
Publication of CN112036181A publication Critical patent/CN112036181A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种实体关系识别方法、装置及计算机可读存储介质,所述实体关系识别方法,包括:将待识别文本输入至预设的基于人工特征及注意力机制的循环神经网络模型进行实体关系识别,其中,所述基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及所述训练样本文本的句子级别的人工特征训练得到的,所述人工特征包括以下至少一种:句子的长度、句子中所包括的实体对之间的语义距离以及句子中所包括的实体的数目;输出所述待识别文本中的预设各实体之间的实体关系的识别结果。采用上述方案,能够兼顾实体关系识别的准确度的同时,提高可解释性。

Description

实体关系识别方法、装置及计算机可读存储介质
技术领域
本发明实施例涉及自然语言处理技术领域,尤其涉及一种实体关系识别方法、装置及计算机可读存储介质。
背景技术
信息抽取的主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据(Structuring)。关系抽取是其重要的子任务,主要从文本中识别出实体(Entities),抽取实体之间的语义关系。
目前,常用的关系抽取主要为以下三种:有监督的学习方法、半监督的学习方法和无监督的学习。有监督的学习方法将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。半监督的学习方法主要采用Bootstrapping进行关系抽取,对于要抽取的关系,半监督的学习方法首先手工设定若干种子实例,然后迭代地从数据中抽取关系对应的关系模板和更多的实例。无监督的学习方法假设拥有相同语义关系的实体对拥有相似的上下文信息,因此可以利用每个实体对对应上下文信息来代表该实体对的语义关系,并对所有实体对的语义关系进行聚类。
然而,有监督的学习方法需要大量的人工标注训练语料,而语料标注工作通常非常耗时耗力。虽然,有监督的学习方法能够抽取更有效的特征,其准确率和召回率都更高,但特征工程实质上由模型替代,可解释性较差。无监督的学习方法包含有较强的实体关系上下文的假设,很难符合实际文本中实体关系的分布情况。半监督的学习方法所抽取到的实体关系结果包含很多噪音,准确性较低。
发明内容
本发明实施例解决的技术问题是如何兼顾实体关系识别的准确度的同时,提高可解释性。
为解决上述技术问题,本发明实施例提供一种实体关系识别方法,包括:将待识别文本输入至预设的基于人工特征及注意力机制的循环神经网络模型进行实体关系识别,其中,所述基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及所述训练样本文本的句子级别的人工特征训练得到的,所述人工特征包括以下至少一种:句子的长度、句子中所包括的实体对之间的语义距离以及句子中所包括的实体的数目;输出所述待识别文本中的预设各实体之间的实体关系的识别结果。
可选的,采用如下方式训练得到所述基于人工特征及注意力机制的循环神经网络模型:基于所述训练样本文本进行词向量训练,得到所述训练样本文本对应的词向量及句向量;对所述训练样本文本进行短句变换处理,得到预设长度的短句;根据预设的实体关系标注文件,分别得到正样本和负样本,其中,所述正样本为:包括具有实体关系的实体对所对应的短句;所述负样本为:包括不具有实体关系的实体对所对应的短句;从所述短句中抽取句子级别的人工特征;将所述训练样本文本对应的句向量及各短句对应的人工特征分别输入至循环神经网络模型中进行迭代训练,直至所述循环神经网络模型中的预设参数收敛,得到所述基于人工特征及注意力机制的循环神经网络模型。
可选的,在所述循环神经网络模型中的预设参数收敛之后,还包括:采用测试样本文本对预设参数收敛后的循环神经网络模型进行测试;判断所述预设参数收敛后的循环神经网络模型的测试指标是否达到设定指标;当所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标后,得到所述基于人工特征及注意力机制的循环神经网络模型;当所述预设参数收敛后的循环神经网络模型的测试指标没有达到设定指标时,继续采用所述训练样本文本对所述预设参数收敛后的循环神经网络模型进行迭代训练,直至所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标。
可选的,所述将所述训练样本文本对应的句向量及各短句对应的人工特征分别输入至所述循环神经网络模型中进行迭代训练,包括:将所述各短句对应的人工特征转换成对应的向量;将所述训练样本文本对应的句向量以及所述各短句对应的人工特征转换成对应的向量合并至同一个向量内;将合并得到的向量输入至所述循环神经网络模型中进行迭代训练。
可选的,采用以下至少一种方式对所述训练样本文本中的句子进行短句变换处理,得到预设长度的短句:按照预设的标点符号,对所述训练样本文本进行短句切分;当短句的长度小于预设长度时,按照预定的拼接方式,将长度小于预设长度的短句拼入相邻短句;当短句的长度大于预设长度时,按照预设的截取条件,截取所述短句中不包含实体的部分并丢弃,将剩下的包含实体的部分拼接形成新的短句。
可选的,在对所述训练样本文本进行短句变换处理时,还包括:丢弃不包括实体对的句子。
可选的,所述输出所述待识别文本中的预设各实体之间的实体关系的识别结果,包括:输出所述待识别文本中包括预设实体且所述实体对之间具有实体关系的内容以及实体关系类别。
可选的,所述基于人工特征及注意力机制的循环神经网络模型,包括:输入层、字嵌入层、门控循环单元层、全连接层及输出层,其中:所述待识别文本从所述输入层输入至所述基于人工特征及注意力机制的循环神经网络模型,所述字嵌入层对所述待识别文本进行向量化处理,得到字向量;所述门控循环单元层对所述待识别文本进行人工特征抽取,得到所述待识别文本对应的句子级别的人工特征;所述全连接层根据所述字嵌入层的向量化处理结果,对所述待识别文本进行转换,得到预设长度的向量;所述输出层基于预设长度的响度进行实体识别,得到待识别文本中的预设各实体之间的实体关系的识别结果。
本发明实施例还提供一种实体关系识别装置,包括:输入单元,适于将待识别文本输入至预设的基于人工特征及注意力机制的循环神经网络模型进行实体关系识别,其中,所述基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及所述训练样本文本的句子级别的人工特征训练得到的,所述人工特征包括以下至少一种:句子的长度、句子中所包括的实体对之间的语义距离以及句子中所包括的实体的数目;输出单元,适于输出所述待识别文本中的预设各实体之间的实体关系的识别结果。
可选的,所述实体关系识别装置还包括:模型构建单元,适于采用如下方式训练得到所述基于人工特征及注意力机制的循环神经网络模型:基于所述训练样本文本进行词向量训练,得到所述训练样本文本对应的词向量及句向量;对所述训练样本文本进行短句变换处理,得到预设长度的短句;根据预设的实体关系标注文件,分别得到正样本和负样本,其中,所述正样本为:包括具有实体关系的实体对所对应的短句;所述负样本为:包括不具有实体关系的实体对所对应的短句;从所述短句中抽取句子级别的人工特征;将所述训练样本文本对应的句向量及各短句对应的人工特征分别输入至循环神经网络模型中进行迭代训练,直至所述循环神经网络模型中的预设参数收敛,得到所述基于人工特征及注意力机制的循环神经网络模型。
可选的,所述模型构建单元,还适于在所述循环神经网络模型中的预设参数收敛之后,采用测试样本文本对预设参数收敛后的循环神经网络模型进行测试;判断所述预设参数收敛后的循环神经网络模型的测试指标是否达到设定指标;当所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标后,得到所述基于人工特征及注意力机制的循环神经网络模型;当所述预设参数收敛后的循环神经网络模型的测试指标没有达到设定指标时,继续采用所述训练样本文本对所述预设参数收敛后的循环神经网络模型进行迭代训练,直至所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标。
可选的,所述模型构建单元,适于将所述各短句对应的人工特征转换成对应的向量;将所述训练样本文本对应的句向量以及所述各短句对应的人工特征转换成对应的向量合并至同一个向量内;将合并得到的向量输入至所述循环神经网络模型中进行迭代训练。
可选的,所述模型构建单元,适于采用以下至少一种方式对所述训练样本文本中的句子进行短句变换处理,得到预设长度的短句:按照预设的标点符号,对所述训练样本文本进行短句切分;当短句的长度小于预设长度时,按照预定的拼接方式,将长度小于预设长度的短句拼入相邻短句;当短句的长度大于预设长度时,按照预设的截取条件,截取所述短句中不包含实体的部分并丢弃,将剩下的包含实体的部分拼接形成新的短句。
可选的,所述模型构建单元,还适于丢弃不包括实体对的句子。
可选的,所述输出单元,适于输出所述待识别文本中包括预设实体且所述实体对之间具有实体关系的内容以及实体关系类别。
可选的,所述基于人工特征及注意力机制的循环神经网络模型,包括:输入层、字嵌入层、门控循环单元层、全连接层及输出层,其中:所述输入层,适于输入所述待识别文本;所述字嵌入层,适于对所述待识别文本进行向量化处理,得到字向量;所述门控循环单元层,适于对所述待识别文本进行人工特征抽取,得到所述待识别文本对应的句子级别的人工特征;所述全连接层,适于根据所述字嵌入层的向量化处理结果,对所述待识别文本进行转换,得到预设长度的向量;所述输出层,适于基于预设长度的响度进行实体识别,得到待识别文本中的预设各实体之间的实体关系的识别结果。
本发明实施例还提供一种实体关系识别装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一种实体关系识别方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一种实体关系识别方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
采用基于人工特征及注意力机制的循环神经网络模型,对待识别文本进行实体关系识别,由于在基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及从所述训练样本文本中抽取的句子级别的人工特征抽取训练得到的,从而可以提高基于人工特征及注意力机制的循环神经网络模型输出的待识别文本的实体关系的识别结果的可解释性,并兼顾实体关系的识别结果的准确度。
附图说明
图1是本发明实施例中一种实体关系识别方法的流程图;
图2是本发明实施例中一种基于人工特征及注意力机制的循环神经网络模型的训练流程图;
图3是本发明实施例中一种实体关系识别装置的结构示意图。
具体实施方式
如上所述,在对实体关系识别时,有监督的学习方法需要大量的人工标注训练语料,而语料标注工作通常非常耗时耗力。虽然,有监督的学习方法能够抽取更有效的特征,其准确率和召回率都更高,但特征工程实质上由模型替代,可解释性较差。无监督的学习方法包含有较强的实体关系上下文的假设,很难符合实际文本中实体关系的分布情况。半监督的学习方法所抽取到的实体关系结果包含很多噪音,准确性较低。
本发明实施例中,采用基于人工特征及注意力机制的循环神经网络模型,对待识别文本进行实体关系识别,由于在基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及从所述训练样本文本中抽取的句子级别的人工特征抽取训练得到的,从而可以提高基于人工特征及注意力机制的循环神经网络模型输出的待识别文本的实体关系的识别结果的可解释性,并兼顾实体关系的识别结果的准确度。
为使本发明实施例的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
参照图1,给出了本发明实施例中一种实体关系识别方法的流程图,所述实体关系识别方法可以包括如下步骤:
步骤11,将待识别文本输入至预设的基于人工特征和注意力机制的循环神经网络模型进行实体关系识别。
在具体实施中,从训练样本文件中抽取句子级别的人工特征。所述人工特征可以包括:句子的长度、句子中所包括的实体对之间的语义距离以及句子中所包括的实体的数目。所抽取到的人工特征随同训练样本文本用于所述基于人工特征和注意力机制的循环神经网络模型的训练。也即所述基于人工特征和注意力机制的循环神经网络模型是基于所述训练样本文本及所述训练样本文本对应的句子级别的人工特征训练得到的。
在具体实施中,可以采用如下方式训练得到所述基于人工特征和注意力机制的循环神经网络模型。参照图2,给出了本发明实施例中一种基于人工特征和注意力机制的循环神经网络模型的训练流程图。
步骤21,基于所述训练样本文本进行词向量训练,得到所述训练样本文本对应的词向量及句向量。
在具体实施中,可以采用Word2vec模型对所述训练样本文本进行词向量训练,得到所述训练样本文本对应的词向量。根据所述训练样本文本对应的词向量得到所述训练样本文本对应的句向量。
步骤22,对所述训练样本文本进行短句变换处理,得到预设长度的短句。
在具体实施中,可以对所述训练样本文本进行短句变换处理,得到预设长度的短句,所述预设长度为(Slmin,Slmax)。在实际应用中,预设长度具体取值可以根据实际应用场景、精度要求等进行设定。
在具体实施中,可以采用以下至少一种方式对所述训练样本文本中的句子进行短句变换处理:按照预设的标点符号,对所述训练样本文本进行短句切分。例如,所述标点符号可以包括逗号、句号、分号或者感叹号等。
在具体实施中,当短句的长度小于预设长度时,可以按照预定的拼接方式,将长度小于预设长度的短句拼入相邻短句,以使得拼接后的短句长度满足预设长度。当短句长度大于预设长度时,可以按照预设的截取条件,截取所述短句中不包含实体的部分并丢弃,将剩下的包含实体的部分拼接成新的短句。拼接所形成的新的短句的长度满足预设长度[Slmin,Slmax],拼接所形成的新的短句的长度的具体取值,可以根据实际需要进行设定。
例如,短句M的长度为100字,预设长度的字数为[20,60],实体A之前有10个字,实体B之后有15个字,实体A与实体B之间有70个字,实体A为2个字,实体B为3个字。取实体A前10个字,实体A后18个字,加实体A共30个字作为片段1;取实体B后10个字,实体B前17个字,及实体B共30个字作为片段2,短句M中除片段1及片段2之外的其他字组成片段3。截取片段3并丢弃,将片段1及片段2拼成新的短句N,短句N的长度为60个字。在实际应用中,短句N的长度也可以为20和60之间的其他取值,具体可以根据实际应用场景进行设定。
为了提高处理效率,对所述训练样本文本中的句子进行短句变换处理时,可以将不包括实体对的句子丢弃。例如,短句G:今天,小明吃了2颗苹果。短句G中包括实体苹果,但是根据预设的实体关系标注文件,实体苹果是手机品牌,而短句G中的苹果是水果,故在短句G中不包含实体对,从而将短句G丢弃。
步骤23,根据预设的实体关系标注文件,分别得到正样本和负样本。
在具体实施中,所述正样本为:包括具有实体关系的实体对的短句;所述负样本为:包括不具有实体关系的实体对所对应的短句。例如,预设的实体关系标注文件中,一个实体为乔布斯,另一个实体为苹果,实体对乔布斯和苹果的实体关系为创始人和手机品牌。一个短句E:乔布斯于1976年创建了苹果公司,并于2007年推出自有设计的苹果手机。短句E中包括实体对乔布斯和苹果,且具有实体关系,因此,将短句E标记为正样本。另一短句F:乔布斯曾经使用过这张桌子。根据预设的实体关系标注文件,实体乔布斯和实体桌子之间不具有实体关系,因此,将短句F标记为负样本。
步骤24,从所述短句中抽取句子级别的人工特征。
例如,以上述短句E为例:乔布斯于1976年创建了苹果公司,并于2007年推出自有设计的苹果手机。短句E的句子级别的人工特征为:句子的长度30个字、句子中所包括的实体对乔布斯与苹果之间的语义距离为22个字、句子中所包括的实体的数为2个,分别为乔布斯和苹果。
步骤25,将所述训练样本文本对应的句向量及各短句对应的人工特征分别输入至循环神经网络模型中进行迭代训练,直至所述循环神经网络模型中的预设参数收敛。
在具体实施中,将得到的训练样本文本对应的句向量,以及各短句对应的人工特征分别输入至循环神经网络模型中进行迭代训练,并观察循环神经网络模型中的预设参数的收敛情况,当循环神经网络模型中的预设参数收敛之后,得到所述基于人工特征及注意力机制的循环神经网络模型,其中,预设参数可以包括在训练样本文本上的平均预测准确率、循环神经网络模型的softmax输出层的L2范数偏差(L2Loss)等。
在具体实施中,输入至所述循环神经网络模型中的文件为一预设的格式。例如,可以将所述训练样本文本对应的句向量及各短句对应的人工特征以表格的形式输入至所述循环神经网络模型中。在所述表格中每一行均有如下字段、训练样本文本短句、文本短句的字编码、短句中已知实体的位置、短句中实体的类别、短句对应的句子级别的人工特征或者短句中存在的实体对关系类别(训练标签)等。
在本发明实施例中,可以将所述各短句对应的人工特征转换成对应的向量;将所述训练样本文本对应的句向量以及所述各短句对应的人工特征转换成对应的向量合并至同一个向量内;将合并得到的向量输入至所述循环神经网络模型中进行迭代训练。
为了提高所述基于人工特征及注意力机制的循环神经网络模型的训练精度,可以采用测试样本文本对预设参数收敛后的循环神经网络模型进行测试,并判断测试指标是否达到设定指标,其中,测试指标可以包括在训练样本文本上的平均预测准确率、循环神经网络模型的softmax输出层的L2范数偏差(L2Loss)等。当所述预设参数收敛后的循环神经网络模型的测试指标没有达到设定指标时,继续采用所述训练样本文本对所述预设参数收敛后的循环神经网络模型进行迭代训练,直至所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标。
在具体实施中,可以采用步骤21至步骤24中对训练样本文本的处理流程对所述测试样本文本进行相同的处理。采用通过步骤21至步骤24处理之后的测试样本文本对预设参数收敛后的循环神经网络模型进行迭代训练。
所述循环神经网络模型可以包括:输入层、字嵌入层、GRU层、全连接层以及softmax输出层,不同层所对应的预设参数不同。相应地,训练得到的所述基于人工特征及注意力机制的循环神经网络模型,包括:输入层、字嵌入层、门控循环单元层、全连接层及输出层,其中:所述待识别文本从所述输入层输入至所述基于人工特征及注意力机制的循环神经网络模型,所述字嵌入层对所述待识别文本进行向量化处理,得到字向量;所述门控循环单元(GRU)层对所述待识别文本进行人工特征抽取,得到所述待识别文本对应的句子级别的人工特征;所述全连接层根据所述字嵌入层的向量化处理结果,对所述待识别文本进行转换,得到预设长度的向量;所述输出层基于预设长度的响度进行实体识别,得到待识别文本中的预设各实体之间的实体关系的识别结果。
此外,在训练得到基于人工特征和注意力机制的循环神经网络模型时,除了考虑训练样本的句子级别的人工特征之外,还引入注意力机制模型,以提高所述循环神经网络模型在训练过程中的注意力焦点和对实体的关注度,提高所得到的基于人工特征和注意力机制的循环神经网络模型对实体关系识别的精确度。
步骤12,输出所述待识别文本中的预设各实体之间的实体关系的识别结果。
在具体实施中,所输出的所述待识别文本中包括预设实体且所述实体对之间具有实体关系的内容以及实体关系类别。
由上述方案可知,采用基于人工特征及注意力机制的循环神经网络模型,对待识别文本进行实体关系识别,由于在基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及从所述训练样本文本中抽取的句子级别的人工特征抽取训练得到的。所抽取的句子级别的人工特征的可解释性较好,通过将训练样本文本的句子级别的人工特征输入至循环神经网络模型进行训练,从而可以提高基于人工特征及注意力机制的循环神经网络模型输出的待识别文本的实体关系的识别结果的可解释性,并兼顾实体关系的识别结果的准确度。
下面通过具体实施例对实体关系识别方法进行说明:对于文章标题为《2型糖尿病治疗中的新话题》长文本“[提要]2型糖尿病是一种慢性进展性疾病,但有研究显示对高血糖患者给予适当治疗后……”,对文章进行按标点符号“。”、“!”、“!”、“?”、“?”、“;”、“;”、“,”、“,”等进行句子划分;然后根据句子长度的阈值对相邻短句进行合并,对长句进行截取。
例如,一个截取后的句子如下:“停药2日后复查口服葡萄糖耐量试验####胰岛素)/(30min血糖-基线血糖)][10]。”,其中截取标识符号为“####”,“####”用于表示丢弃的部分。根据已知实体知识库中实体类型及实体名字对照表,如表1所示:
表1实体类型及实体名字对照表
Disease 2型糖尿病
Drug 格列齐特
Drug 胰岛素
Drug 二甲双胍
Test 空腹血糖
Anatomy β细胞
从所有符合长度要求的句子中,找出包含实体对的句子。例如,句子“让人们感到乐观的是能诱导2型糖尿病的蜜月期的能力并非胰岛素独有。”,包含实体对“2型糖尿病”和“胰岛素”,且根据样本集标注,存在实体关系“Drug_Disease”,因此该句为正样本。例如句子“非肥胖65例和肥胖69例患者经胰岛素泵强化治疗####联用格列齐特及二甲双胍)进行强化血糖控制治疗,”包含实体对“肥胖”和“二甲双胍”,但根据标注信息,不存在实体关系,因此该句为负样本。不包含实体对的句子直接丢弃,不放入样本集。
在确定了句子的正负样本之后,进一步对句子抽取人工特征。人工特征为:
1)实体A与实体B之间的真实距离;
2)文章中包含实体A与实体B组成的实体对的句子的数量;
3)实体A与实体B之间包含相同类型的实体的数量;
4)句子的真实长度;
5)实体A在句子中的位置idx;
6)实体B句子中的位置idx。
例如,句子“让人们感到乐观的是能诱导2型糖尿病的蜜月期的能力并非胰岛素独有。”,该句子对应的人工特征向量为V1=[16;5;50;34;13;28]。
另外由word2vec得到的字向量字典为:
……
糖[3.6743786;-0.82322466;……;-6.430479];
血[-13.011441;-8.47672;……;8.968685];
……
句子“让人们感到乐观的是能诱导2型糖尿病的蜜月期的能力并非胰岛素独有。”,可通过字向量拼接得到句子级别的人工特征向量V2=[1.3566198;-0.13941878;……;-0.35503578;5.332218;8.385963;……;10.479887;……-1.4991436;-0.81694573;……;0.91558063]。
将V1通过循环神经网络(RNN)的双向长短期记忆网络(Long Short Term Memory,LSTM)编码单元层得到的自动特征V3与人工特征V1拼接得到最终的句子向量,并送入基于人工特征及注意力机制的循环神经网络模型的softmax输出层进行分类,得到概率正样本(句子存在实体关系)概率为p,当p>0.5时,预测为正样本,反之为负样本。若p=0.78,则为正样本。
为了便于本领域技术人员更好的理解和实现本发明实施例,本发明实施例还提供一种实体关系识别装置。
参照图3,给出了本发明实施例中一种实体关系识别装置的结构示意图。所述实体关系识别装置30可以包括:输入单元31及输出单元32,其中:
所述输入元31,适于将待识别文本输入至预设的基于人工特征及注意力机制的循环神经网络模型进行实体关系识别,其中,所述基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及所述训练样本文本的句子级别的人工特征训练得到的,所述人工特征包括以下至少一种:句子的长度、句子中所包括的实体对之间的语义距离以及句子中所包括的实体的数目;
所述输出单元32,适于输出所述待识别文本中的预设各实体之间的实体关系的识别结果。
在具体实施中,所述实体关系识别装置30还可以包括:模型构建单元(图3未示出),适于采用如下方式训练得到所述基于人工特征及注意力机制的循环神经网络模型:基于所述训练样本文本进行词向量训练,得到所述训练样本文本对应的词向量及句向量;对所述训练样本文本进行短句变换处理,得到预设长度的短句;根据预设的实体关系标注文件,分别得到正样本和负样本,其中,所述正样本为:包括具有实体关系的实体对所对应的短句;所述负样本为:包括不具有实体关系的实体对所对应的短句;从所述短句中抽取句子级别的人工特征;将所述训练样本文本对应的句向量及各短句对应的人工特征分别输入至循环神经网络模型中进行迭代训练,直至所述循环神经网络模型中的预设参数收敛,得到所述基于人工特征及注意力机制的循环神经网络模型。
在具体实施中,所述模型构建单元,还可以适于在所述循环神经网络模型中的预设参数收敛之后,采用测试样本文本对预设参数收敛后的循环神经网络模型进行测试;判断所述预设参数收敛后的循环神经网络模型的测试指标是否达到设定指标;当所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标后,得到所述基于人工特征及注意力机制的循环神经网络模型;当所述预设参数收敛后的循环神经网络模型的测试指标没有达到设定指标时,继续采用所述训练样本文本对所述预设参数收敛后的循环神经网络模型进行迭代训练,直至所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标。
在具体实施中,所述模型构建单元,适于将所述各短句对应的人工特征转换成对应的向量;将所述训练样本文本对应的句向量以及所述各短句对应的人工特征转换成对应的向量合并至同一个向量内;将合并得到的向量输入至所述循环神经网络模型中进行迭代训练。
在具体实施中,所述模型构建单元,适于采用以下至少一种方式对所述训练样本文本中的句子进行短句变换处理,得到预设长度的短句:按照预设的标点符号,对所述训练样本文本进行短句切分;当短句的长度小于预设长度时,按照预定的拼接方式,将长度小于预设长度的短句拼入相邻短句;当短句的长度大于预设长度时,按照预设的截取条件,截取所述短句中不包含实体的部分并丢弃,将剩下的包含实体的部分拼接形成新的短句。
在具体实施中,所述模型构建单元,还适于丢弃不包括实体对的句子。
在具体实施中,所述输出单元32,适于输出所述待识别文本中包括预设实体且所述实体对之间具有实体关系的内容以及实体关系类别。
在具体实施中,所述基于人工特征及注意力机制的循环神经网络模型,包括:输入层、字嵌入层、门控循环单元层、全连接层及输出层,其中:所述输入层,适于输入所述待识别文本;所述字嵌入层,适于对所述待识别文本进行向量化处理,得到字向量;所述门控循环单元层,适于对所述待识别文本进行人工特征抽取,得到所述待识别文本对应的句子级别的人工特征;所述全连接层,适于根据所述字嵌入层的向量化处理结果,对所述待识别文本进行转换,得到预设长度的向量;所述输出层,适于基于预设长度的响度进行实体识别,得到待识别文本中的预设各实体之间的实体关系的识别结果。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于任一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (18)

1.一种实体关系识别方法,其特征在于,包括:
将待识别文本输入至预设的基于人工特征及注意力机制的循环神经网络模型进行实体关系识别,其中,所述基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及所述训练样本文本的句子级别的人工特征训练得到的,所述人工特征包括以下至少一种:句子的长度、句子中所包括的实体对之间的语义距离以及句子中所包括的实体的数目;
输出所述待识别文本中的预设各实体之间的实体关系的识别结果。
2.根据权利要求1所述的实体关系识别方法,其特征在于,采用如下方式训练得到所述基于人工特征及注意力机制的循环神经网络模型:
基于所述训练样本文本进行词向量训练,得到所述训练样本文本对应的词向量及句向量;
对所述训练样本文本进行短句变换处理,得到预设长度的短句;
根据预设的实体关系标注文件,分别得到正样本和负样本,其中,所述正样本为:包括具有实体关系的实体对所对应的短句;所述负样本为:包括不具有实体关系的实体对所对应的短句;
从所述短句中抽取句子级别的人工特征;
将所述训练样本文本对应的句向量及各短句对应的人工特征分别输入至循环神经网络模型中进行迭代训练,直至所述循环神经网络模型中的预设参数收敛,得到所述基于人工特征及注意力机制的循环神经网络模型。
3.根据权利要求2所述的实体关系识别方法,其特征在于,在所述循环神经网络模型中的预设参数收敛之后,还包括:
采用测试样本文本对预设参数收敛后的循环神经网络模型进行测试;
判断所述预设参数收敛后的循环神经网络模型的测试指标是否达到设定指标;
当所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标后,得到所述基于人工特征及注意力机制的循环神经网络模型;
当所述预设参数收敛后的循环神经网络模型的测试指标没有达到设定指标时,继续采用所述训练样本文本对所述预设参数收敛后的循环神经网络模型进行迭代训练,直至所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标。
4.根据权利要求2所述的实体关系识别方法,其特征在于,所述将所述训练样本文本对应的句向量及各短句对应的人工特征分别输入至所述循环神经网络模型中进行迭代训练,包括:
将所述各短句对应的人工特征转换成对应的向量;
将所述训练样本文本对应的句向量以及所述各短句对应的人工特征转换成对应的向量合并至同一个向量内;
将合并得到的向量输入至所述循环神经网络模型中进行迭代训练。
5.根据权利要求2或3所述的实体关系识别方法,其特征在于,采用以下至少一种方式对所述训练样本文本中的句子进行短句变换处理,得到预设长度的短句:
按照预设的标点符号,对所述训练样本文本进行短句切分;
当短句的长度小于预设长度时,按照预定的拼接方式,将长度小于预设长度的短句拼入相邻短句;
当短句的长度大于预设长度时,按照预设的截取条件,截取所述短句中不包含实体的部分并丢弃,将剩下的包含实体的部分拼接形成新的短句。
6.根据权利要求2或3所述的实体关系识别方法,其特征在于,在对所述训练样本文本进行短句变换处理时,还包括:
丢弃不包括实体对的句子。
7.根据权利要求1所述的实体关系识别方法,其特征在于,所述输出所述待识别文本中的预设各实体之间的实体关系的识别结果,包括:
输出所述待识别文本中包括预设实体且所述实体对之间具有实体关系的内容以及实体关系类别。
8.根据权利要求1所述的实体关系识别方法,其特征在于,所述基于人工特征及注意力机制的循环神经网络模型,包括:输入层、字嵌入层、门控循环单元层、全连接层及输出层,其中:
所述待识别文本从所述输入层输入至所述基于人工特征及注意力机制的循环神经网络模型,所述字嵌入层对所述待识别文本进行向量化处理,得到字向量;所述门控循环单元层对所述待识别文本进行人工特征抽取,得到所述待识别文本对应的句子级别的人工特征;所述全连接层根据所述字嵌入层的向量化处理结果,对所述待识别文本进行转换,得到预设长度的向量;所述输出层基于预设长度的响度进行实体识别,得到待识别文本中的预设各实体之间的实体关系的识别结果。
9.一种实体关系识别装置,其特征在于,包括:
输入单元,适于将待识别文本输入至预设的基于人工特征及注意力机制的循环神经网络模型进行实体关系识别,其中,所述基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及所述训练样本文本的句子级别的人工特征训练得到的,所述人工特征包括以下至少一种:句子的长度、句子中所包括的实体对之间的语义距离以及句子中所包括的实体的数目;
输出单元,适于输出所述待识别文本中的预设各实体之间的实体关系的识别结果。
10.根据权利要求9所述的实体关系识别装置,其特征在于,还包括:模型构建单元,适于采用如下方式训练得到所述基于人工特征及注意力机制的循环神经网络模型:基于所述训练样本文本进行词向量训练,得到所述训练样本文本对应的词向量及句向量;对所述训练样本文本进行短句变换处理,得到预设长度的短句;根据预设的实体关系标注文件,分别得到正样本和负样本,其中,所述正样本为:包括具有实体关系的实体对所对应的短句;所述负样本为:包括不具有实体关系的实体对所对应的短句;从所述短句中抽取句子级别的人工特征;将所述训练样本文本对应的句向量及各短句对应的人工特征分别输入至循环神经网络模型中进行迭代训练,直至所述循环神经网络模型中的预设参数收敛,得到所述基于人工特征及注意力机制的循环神经网络模型。
11.根据权利要求10所述的实体关系识别装置,其特征在于,所述模型构建单元,还适于在所述循环神经网络模型中的预设参数收敛之后,采用测试样本文本对预设参数收敛后的循环神经网络模型进行测试;判断所述预设参数收敛后的循环神经网络模型的测试指标是否达到设定指标;当所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标后,得到所述基于人工特征及注意力机制的循环神经网络模型;当所述预设参数收敛后的循环神经网络模型的测试指标没有达到设定指标时,继续采用所述训练样本文本对所述预设参数收敛后的循环神经网络模型进行迭代训练,直至所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标。
12.根据权利要求10所述的实体关系识别装置,其特征在于,所述模型构建单元,适于将所述各短句对应的人工特征转换成对应的向量;将所述训练样本文本对应的句向量以及所述各短句对应的人工特征转换成对应的向量合并至同一个向量内;将合并得到的向量输入至所述循环神经网络模型中进行迭代训练。
13.根据权利要求10或11所述的实体关系识别装置,其特征在于,所述模型构建单元,适于采用以下至少一种方式对所述训练样本文本中的句子进行短句变换处理,得到预设长度的短句:按照预设的标点符号,对所述训练样本文本进行短句切分;当短句的长度小于预设长度时,按照预定的拼接方式,将长度小于预设长度的短句拼入相邻短句;当短句的长度大于预设长度时,按照预设的截取条件,截取所述短句中不包含实体的部分并丢弃,将剩下的包含实体的部分拼接形成新的短句。
14.根据权利要求10或11所述的实体关系识别装置,其特征在于,所述模型构建单元,还适于丢弃不包括实体对的句子。
15.根据权利要求9所述的实体关系识别装置,其特征在于,所述输出单元,适于输出所述待识别文本中包括预设实体且所述实体对之间具有实体关系的内容以及实体关系类别。
16.根据权利要求9所述的实体关系识别装置,其特征在于,所述基于人工特征及注意力机制的循环神经网络模型,包括:输入层、字嵌入层、门控循环单元层、全连接层及输出层,其中:
所述输入层,适于输入所述待识别文本;
所述字嵌入层,适于对所述待识别文本进行向量化处理,得到字向量;
所述门控循环单元层,适于对所述待识别文本进行人工特征抽取,得到所述待识别文本对应的句子级别的人工特征;
所述全连接层,适于根据所述字嵌入层的向量化处理结果,对所述待识别文本进行转换,得到预设长度的向量;
所述输出层,适于基于预设长度的响度进行实体识别,得到待识别文本中的预设各实体之间的实体关系的识别结果。
17.一种实体关系识别装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至8任一项所述的实体关系识别方法的步骤。
18.一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至8任一项所述的实体关系识别方法的步骤。
CN201910401516.XA 2019-05-14 2019-05-14 实体关系识别方法、装置及计算机可读存储介质 Withdrawn CN112036181A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910401516.XA CN112036181A (zh) 2019-05-14 2019-05-14 实体关系识别方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910401516.XA CN112036181A (zh) 2019-05-14 2019-05-14 实体关系识别方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112036181A true CN112036181A (zh) 2020-12-04

Family

ID=73575748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910401516.XA Withdrawn CN112036181A (zh) 2019-05-14 2019-05-14 实体关系识别方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112036181A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987090A (zh) * 2021-12-28 2022-01-28 北京泷汇信息技术有限公司 句中实体关系模型训练方法及句中实体关系识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055675A (zh) * 2016-06-06 2016-10-26 杭州量知数据科技有限公司 一种基于卷积神经网络和距离监督的关系抽取方法
CN107943847A (zh) * 2017-11-02 2018-04-20 平安科技(深圳)有限公司 企业关系提取方法、装置及存储介质
CN108875809A (zh) * 2018-06-01 2018-11-23 大连理工大学 联合attention机制与神经网络的生物医学实体关系分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055675A (zh) * 2016-06-06 2016-10-26 杭州量知数据科技有限公司 一种基于卷积神经网络和距离监督的关系抽取方法
CN107943847A (zh) * 2017-11-02 2018-04-20 平安科技(深圳)有限公司 企业关系提取方法、装置及存储介质
CN108875809A (zh) * 2018-06-01 2018-11-23 大连理工大学 联合attention机制与神经网络的生物医学实体关系分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987090A (zh) * 2021-12-28 2022-01-28 北京泷汇信息技术有限公司 句中实体关系模型训练方法及句中实体关系识别方法
CN113987090B (zh) * 2021-12-28 2022-03-25 北京泷汇信息技术有限公司 句中实体关系模型训练方法及句中实体关系识别方法

Similar Documents

Publication Publication Date Title
WO2021139424A1 (zh) 文本内涵质量的评估方法、装置、设备及存储介质
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
US20180329894A1 (en) Language conversion method and device based on artificial intelligence and terminal
CN111834014A (zh) 一种医疗领域命名实体识别方法及***
KR20200127020A (ko) 의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체
CN106844351B (zh) 一种面向多数据源的医疗机构组织类实体识别方法及装置
CN108920461B (zh) 一种多类型且含复杂关系的实体抽取方法及装置
CN110276069A (zh) 一种中国盲文错误自动检测方法、***及存储介质
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN104679735A (zh) 语用机器翻译方法
CN114662476A (zh) 一种融合词典与字符特征的字符序列识别方法
CN107451116B (zh) 一种移动应用内生大数据统计分析方法
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN113362815A (zh) 语音交互方法、***、电子设备及存储介质
CN107783958B (zh) 一种目标语句识别方法及装置
CN113160917A (zh) 一种电子病历实体关系抽取方法
CN112036181A (zh) 实体关系识别方法、装置及计算机可读存储介质
CN111046663B (zh) 一种中文表单的智能校正方法
CN114637852B (zh) 医学文本的实体关系抽取方法、装置、设备及存储介质
CN113886521A (zh) 一种基于相似词汇表的文本关系自动标注方法
CN115600595A (zh) 一种实体关系抽取方法、***、设备及可读存储介质
CN114861628A (zh) 训练机器翻译模型的***、方法、电子设备及存储介质
CN110888976B (zh) 一种文本摘要生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20201204