CN111881256B - 文本实体关系抽取方法、装置及计算机可读存储介质设备 - Google Patents

文本实体关系抽取方法、装置及计算机可读存储介质设备 Download PDF

Info

Publication number
CN111881256B
CN111881256B CN202010693018.XA CN202010693018A CN111881256B CN 111881256 B CN111881256 B CN 111881256B CN 202010693018 A CN202010693018 A CN 202010693018A CN 111881256 B CN111881256 B CN 111881256B
Authority
CN
China
Prior art keywords
relations
relation
entity
sentence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010693018.XA
Other languages
English (en)
Other versions
CN111881256A (zh
Inventor
胡浩
张玉臣
周洪伟
何淼
朱红涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Jinmingyuan Information Technology Co ltd
Information Engineering University of PLA Strategic Support Force
Original Assignee
Henan Jinmingyuan Information Technology Co ltd
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Jinmingyuan Information Technology Co ltd, Information Engineering University of PLA Strategic Support Force filed Critical Henan Jinmingyuan Information Technology Co ltd
Priority to CN202010693018.XA priority Critical patent/CN111881256B/zh
Publication of CN111881256A publication Critical patent/CN111881256A/zh
Application granted granted Critical
Publication of CN111881256B publication Critical patent/CN111881256B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于自然语言处理技术领域,特别涉及一种文本实体关系抽取方法、装置及计算机可读存储介质设备,该方法包含:针对输入文本,通过将单词获取词向量表示,以获取其中实体对语句特征;利用点互信息PMI计算实体对关系之间相似度,并通过相似度得到类关系;通过类关系查找实体关系之间隐含内容。本发明考虑实体关系之间的隐含语义,基于点互信息PMI计算实体关系之间的相似度,不需要对训练文本中的实体关系进行人工标注,从而可以快速抽取实体关系,可以对隐含关系进行有效抽取,利用相似度对抽取关系进行归并和精简,实现对噪声数据的过滤,使关系抽取更加精确,提升关系抽取的准确率和召回率,便于实际场景应用。

Description

文本实体关系抽取方法、装置及计算机可读存储介质设备
技术领域
本发明属于自然语言处理技术领域,特别涉及一种文本实体关系抽取方法、装置及计算机可读存储介质设备。
背景技术
关系抽取是将非结构化和半结构化的自然语言文本转化为结构化数据,核心是判断句子中包含的实体对之间的关系。现有的关系抽取方法包括以下三种:1.有监督关系抽取:通过手工标注句子中的关系,接着抽取词法、句法、语义特征,并训练有监督分类器,利用分类器分析测试集的实体关系;2.无监督关系抽取:适用于大规模文本实体的标注,然后利用聚类技术从实体中提取关系字符串。能够抽取高数量的关系对,然而抽取的结果不易对应到知识库中。3.半监督关系抽取:通过较少的种子实例(或模板)实施bootstrap学习。将已知实例运用到大量语料中,抽取出新实例;接着用新实例抽取更多实例,并不断迭代,该方法对训练集依赖少,但抽取的结果精度不高,有时会产生语义转移。在上面三种方法中,有监督学习凭借其抽取精度高好得到了广泛应用,其中远程监督可以解决有监督学习人工标注困难的问题;这种方法不需要标注语料库的替代范式,避免了领域依赖性,并允许使用任意大小的语料库,但提取特征数据包含噪声影响了关系抽取器的提取工作。另一种基于多示例学习的方法,通过给包加标签,建立多示例分类器,并将该分类器应用于未知多示例包的预测,一定程度上缓解了噪音数据的问题。将神经网络应用在关系抽取是目前一种主流方法,然而这种方法不能充分捕捉实体之间上下文的信息,抽取结果无法显示隐含语义。
发明内容
为此,本发明提供一种文本实体关系抽取方法、装置及计算机可读存储介质设备,考虑关系间的类关系通过点互信息PMI计算实体对关系间的相似度得到类关系,进而找出关系之间的隐含内容,使文本实体关系抽取更加准确,便于实际场景应用。
按照本发明所提供的设计方案,一种文本实体关系抽取方法,包含如下内容:
针对输入文本,通过将单词获取词向量表示,以获取其中实体对语句特征;
利用点互信息PMI计算实体对关系之间相似度,并通过相似度得到类关系;
通过类关系查找实体关系之间隐含内容。
作为本发明文本实体关系抽取方法,进一步地,针对输入文本,构建用于关系抽取的神经网络模型,通过模型训练学习,以提取实体关系之间隐含内容;该模型中包含:用于将目标输入文本中单词转化为低维向量的输入层;用于获取输入文本语句特征的双向门控循环单元;用于获取句子向量表示的最大池化层,及用于单词和句子权重分配的注意机制。
作为本发明文本实体关系抽取方法,进一步地,获取词向量表示中,将单词转化为低维向量,假设给定多个单词组成的句子,句子中所有单词使用位置嵌入,每个单词用实值向量表示,单词嵌入通过嵌入矩阵进行编码,将句子中所有单词嵌入和位置嵌入进行连接,获取完整的词向量表示,通过词向量表示以提取实体对与上下文语义相关程度。
作为本发明文本实体关系抽取方法,进一步地,双向门控循环单元包含隐藏状态、重置门结构和更新门结构;将词向量表示输入双向门控循环单元,通过计算重置门结构和更新门结构产生的正反向状态特征值来获取句子高维语义信息。
作为本发明文本实体关系抽取方法,进一步地,语句特征获取包含基于单词级特征获取,假设句子包含多个单词,对对应单词设定加权值,将关系与实体对放入同一嵌入空间,将单词和关系的向量表示连接到两者之间的相关程度。
作为本发明文本实体关系抽取方法,进一步地,语句特征获取还包含基于句子级特征获取,假设集合中包含多个具有实体对的句子,通过句子和预测关系匹配程度进行评分来获取句子对预测关系的权重,以弱化噪音数据。
作为本发明文本实体关系抽取方法,进一步地,实体对关系之间相似度计算中,假设实体对包含多个关系集合,关系集合对应有低维向量集合,使用两个关系的向量内积计算获取两者之间的相似性权重;通过比对关系集合中其他关系与目标关系的相似程度,找到与目标关系相似性权重最高的关系,然后使用点互信息PMI计算目标关系和该相似性权重最高的关系之间的语义相似度;依据语义相似度计算结果,判定与目标关系具有类关系的其他关系。
作为本发明文本实体关系抽取方法,进一步地,通过抽取类关系,找出符合与目标关系具有类关系的其他关系,以挖掘关系之间隐含关系。
进一步地,本发明还提供一种文本实体关系抽取装置,包含:特征表示模块、相似计算模块及关系挖掘模块,其中,
特征表示模块,用于针对输入文本,通过将单词获取词向量表示,以获取其中实体对语句特征;
相似计算模块,用于利用点互信息PMI计算实体对关系之间相似度,并通过相似度得到类关系;
关系挖掘模块,用于通过类关系查找实体关系之间隐含内容。
进一步地,本发明还提供一种计算机可读存储介质设备,其上存储有被处理器运行的计算机程序,所述计算机程序用于执行上述的方法。
本发明的有益效果:
本发明针对现有方法没有考虑实体关系之间的隐含语义及其相似性、从而导致抽取结果不够精确等情形,在基于多级注意的远程监督关系抽取的基础之上考虑实体关系之间的隐含语义,基于点互信息PMI计算实体关系之间的相似度,不需要对训练文本中的实体关系进行人工标注,从而可以快速抽取实体关系,可以对隐含关系进行有效抽取,利用相似度对抽取关系进行归并和精简,实现对噪声数据的过滤,使关系抽取更加精确,提升关系抽取的准确率和召回率,便于实际场景应用。
附图说明:
图1为实施例中文本实体关系抽取方法流程示意图;
图2为实施例中用于关系抽取的神经网络模型示意图;
图3为实施例中类关系挖掘过程示意图。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
自然语言处理过程关系抽取没有考虑实体关系之间的隐含语义及其相似性、从而导致抽取结果不够精确等情形,本发明实施例,本发明实施例,参见图1所示,提供一种文本实体关系抽取方法,包含如下内容:
S101、针对输入文本,通过将单词获取词向量表示,以获取其中实体对语句特征;
S102、利用点互信息PMI计算实体对关系之间相似度,并通过相似度得到类关系;
S103、通过类关系查找实体关系之间隐含内容。
在基于多级注意的远程监督关系抽取的基础上,考虑关系间的类关系,通过点互信息PMI计算实体对关系间的相似度得到类关系,进而找出关系之间的隐含内容,使关系抽取更加准确.
作为本发明实施例中文本实体关系抽取方法,进一步地,针对输入文本,构建用于关系抽取的神经网络模型,通过模型训练学习,以提取实体关系之间隐含内容;该模型中包含:用于将目标输入文本中单词转化为低维向量的输入层;用于获取输入文本语句特征的双向门控循环单元;用于获取句子向量表示的最大池化层,及用于单词和句子权重分配的注意机制。进一步地,获取词向量表示中,将单词转化为低维向量,假设给定多个单词组成的句子,句子中所有单词使用位置嵌入,每个单词用实值向量表示,单词嵌入通过嵌入矩阵进行编码,将句子中所有单词嵌入和位置嵌入进行连接,获取完整的词向量表示,通过词向量表示以提取实体对与上下文语义相关程度。进一步地,双向门控循环单元包含隐藏状态、重置门结构和更新门结构;将词向量表示输入双向门控循环单元,通过计算重置门结构和更新门结构产生的正反向状态特征值来获取句子高维语义信息。进一步地,语句特征获取包含基于单词级特征获取,假设句子包含多个单词,对对应单词设定加权值,将关系与实体对放入同一嵌入空间,将单词和关系的向量表示连接到两者之间的相关程度。进一步地,语句特征获取还包含基于句子级特征获取,假设集合中包含多个具有实体对的句子,通过句子和预测关系匹配程度进行评分来获取句子对预测关系的权重,以弱化噪音数据。进一步地,实体对关系之间相似度计算中,假设实体对包含多个关系集合,关系集合对应有低维向量集合,使用两个关系的向量内积计算获取两者之间的相似性权重;通过比对关系集合中其他关系与目标关系的相似程度,找到与目标关系相似性权重最高的关系,然后使用点互信息PMI计算目标关系和该相似性权重最高的关系之间的语义相似度;依据语义相似度计算结果,判定与目标关系具有类关系的其他关系。通过抽取类关系,找出符合与目标关系具有类关系的其他关系,以挖掘关系之间隐含关系。
用于关系抽取的神经网络模型,参见图2所示,由输入层、双向门控循环单元、最大池化层和注意机制四个部分组成:
a)输入层:给定一个句子,将句子中的单词通过单词嵌入矩阵转化成低维向量。
b)双向门控循环单元:利用神经网络获取语句特征。
c)最大池化层:获取句子的向量表示。
d)注意机制:分为单词注意机制和句子注意机制,计算单词在句子中的权重向量,将词级特征合并为句子级表示,为句子分配不同权重。
输入层中,通过词嵌入的方式将单词转化为一个低维实值向量,为指示句子中实体对的位置,句子中的所有单词使用位置嵌入,用于捕获单词的特征。假设给定一个由x个单词组成的句子W={y1,y2,…yx},每个单词yi用实值向量表示,单词嵌入由嵌入矩阵
Figure BDA0002590018410000041
中的列向量进行编码,其中V是固定大小的词汇表。词嵌入用于神经网络计算各单词与实体对间的相对距离。在关系提取任务中,用距离目标实体的距离表示实体对的关系。比如对于句子“Beijing is the capital of China”,单词capital到entity1(北京)与entity2(中国)的相对距离分别为3和2。假设单词嵌入的维度dm为3,位置嵌入的维度dn为2,将句子中所有的单词嵌入和位置嵌入连接起来,就得到完整的词向量表示d=dm+dn
基于双向门控循环单元的词向量编码,目的是对词向量编码以便获得句子的高维语义信息,包含一个隐藏状态和两个门结构(重置门和更新门),将句子中词语的词向量输入到双向门控循环单元模型中去,计算不同门结构的特征值来分析词语的高维语义信息。
重置门qj和更新门Zj的计算方式分别为公式(1)和公式(2)
qj=σ([Wrx]j+[Urh(t-1)]j) (1)
Zj=σ([WZx]j+[Uzh(t-1)]j) (2)
σ代表sigmoid函数,qj是一重置门,[]j表示向量的第j个元素,x和h(t-1)分别是输入向量和之前的隐藏状态,Wr和Ur是权重矩阵,通过公式(3)(4)计算单元hj的实际激活:
Figure BDA0002590018410000042
Figure BDA0002590018410000043
Figure BDA0002590018410000044
表示隐藏状态,hj(t)是输出状态,最后,采用由双向门控循环神经网络产生的正向和反向状态,以和的方式计算第j个单词的高维语义:
Figure BDA0002590018410000045
语句特征获取,采用基于单词级注意机制和句子级注意机制来获取语句特征。
a)单词级特征获取
句子中不同的单词对提取实体对有不同的作用,为抽取出句子中对关系预测最有意义的词,假设一个句子Z包含n个单词嵌入,Z={s1,s2,…,sn},利用公式(7)得到对应单词的加权值,用VZa表示:
Figure BDA0002590018410000051
其中,ai是单词si的权重,ki是单词ai与关系r时间的相关程度。
将关系与实体对(e1,e2)放入同一嵌入式空间之中,关系r可以表示为[e2—e1]。ki可以表示为:
ki=wd([si;r]) (8)
其中,[si;r]是单词si与关系r的垂直串联,wd是中间媒介矩阵,把si与r的向量表示连接到它们的相关程度。
b)句子级特征获取
假设有一个集合S,包含n个具有实体对(head,tail)的句子S={x1,x2,L,xn},当预测关系为rsentence时,模型用实值向量s表示集合S,集合S的表示依赖于所有句子。实值向量s为句子向量xi的加权和:
Figure BDA0002590018410000052
为避免多实例的问题,使用句子级注意机制来弱化噪音数据,如公式(10)所示。
Figure BDA0002590018410000053
βi表示句子对所要预测关系的权重,ei是一个基于查询的函数,它对输入的句子xi和预测关系rsentence的匹配程度进行评分。
ei=xi·A·rsentence (11)
A为加权对角矩阵,rsentence·r为关系rsentence查询相关的向量。
基于类关系的远程监督关系抽取,类关系是指实体对所具有的关系之间具有语义相似性。例如“Beijing is a city of China”,从这句话中可以看出北京和中国的关系是包含关系,但是“Beijing is the capital of China”这句话隐含的也是北京是中国的城市。进行特征提取后,通过Softmax进行归类处理,利用PMI计算实体对关系之间的相似度可以得到类关系,进而通过类关系找出关系之间的隐含内容,使关系抽取可以做出更精准的预测。
假设一个实体对m含有的n个关系集合为{r1,r2…rn},关系集合{r1,r2…rn}对应的低维向量集合表示为{r′1,r′2…r′n}。
Rij表示关系ri与关系rj的相似性权重,Rij的取值范围为[0,1],使用ri与rj的向量内积计算得到Rij,公式如(12)所示:
Rij=softmax(ri'Br′j) (12)
初始化随机加权对角矩阵B,softmax表示归一化指数函数,用于归一化有限项离散概率分布的梯度对数。通过比对关系集合中其它关系与目标关系ro的相似程度,找到与目标关系ro相似性权重最高的关系rmax,然后使用点互信息(PMI)来计算ro与rmax的语义相似程度,计算方式如式(13)所示。
Figure BDA0002590018410000061
其中,P(ro&rmax)是2个关系的共现概率值,P(ri)与P(rj)是2个关系单独出现的概率值。
PMI(ro,rmax)>0,表示2个关系是相关的,值越大表示相似程度越高;
PMI(ro,rmax)=0,表示2个关系是独立的;
PMI(ro,rmax)<0,表示2个关系是互斥的;
当PMI(ro,rmax)>0,则称二者之间具有类关系。通过抽取类关系,如图3所示,可以找出PMI(ro,rmax)>0的关系,挖掘出隐含关系,使关系抽取更加准确。
进一步地,本发明实施例还提供一种文本实体关系抽取装置,包含:特征表示模块、相似计算模块及关系挖掘模块,其中,
特征表示模块,用于针对输入文本,通过将单词获取词向量表示,以获取其中实体对语句特征;
相似计算模块,用于利用点互信息PMI计算实体对关系之间相似度,并通过相似度得到类关系;
关系挖掘模块,用于通过类关系查找实体关系之间隐含内容。
进一步地,本发明实施例还提供一种计算机可读存储介质设备,其上存储有被处理器运行的计算机程序,所述计算机程序用于执行上述的方法。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
基于上述的内容,本发明实施例还提供一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的***。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述***实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述***实施例中相应内容。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考前述***实施例中的对应过程,在此不再赘述。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
附图中的流程图和框图显示了根据本发明的多个实施例的***、***和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和***,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述***的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种文本实体关系抽取方法,其特征在于,包含如下内容:
针对输入文本,通过将单词获取词向量表示,以获取其中实体对语句特征;
利用点互信息PMI计算实体对关系之间相似度,并通过相似度得到类关系;
通过类关系查找实体关系之间隐含内容;
获取词向量表示中,将单词转化为低维向量,假设给定多个单词组成的句子,句子中所有单词使用位置嵌入,每个单词用实值向量表示,单词嵌入通过嵌入矩阵进行编码,将句子中所有单词嵌入和位置嵌入进行连接,获取完整的词向量表示,通过词向量表示以提取实体对与上下文语义相关程度;
实体对关系之间相似度计算中,假设实体对包含多个关系集合,关系集合对应有低维向量集合,使用两个关系的向量内积计算获取两者之间的相似性权重;通过比对关系集合中其他关系与目标关系的相似程度,找到与目标关系相似性权重最高的关系,然后使用点互信息PMI计算目标关系和该相似性权重最高的关系之间的语义相似度;依据语义相似度计算结果,判定与目标关系具有类关系的其他关系。
2.根据权利要求1所述的文本实体关系抽取方法,其特征在于,针对输入文本,构建用于关系抽取的神经网络模型,通过模型训练学习,以提取实体关系之间隐含内容;该模型中包含:用于将目标输入文本中单词转化为低维向量的输入层;用于获取输入文本语句特征的双向门控循环单元;用于获取句子向量表示的最大池化层,及用于单词和句子权重分配的注意机制。
3.根据权利要求2所述的文本实体关系抽取方法,其特征在于,双向门控循环单元包含隐藏状态、重置门结构和更新门结构;将词向量表示输入双向门控循环单元,通过计算重置门结构和更新门结构产生的正反向状态特征值来获取句子高维语义信息。
4.根据权利要求1或2所述的文本实体关系抽取方法,其特征在于,语句特征获取包含基于单词级特征获取,假设句子包含多个单词,对对应单词设定加权值,将关系与实体对放入同一嵌入空间,将单词和关系的向量表示连接到两者之间的相关程度。
5.根据权利要求4所述的文本实体关系抽取方法,其特征在于,语句特征获取还包含基于句子级特征获取,假设集合中包含多个具有实体对的句子,通过句子和预测关系匹配程度进行评分来获取句子对预测关系的权重,以弱化噪音数据。
6.根据权利要求1所述的文本实体关系抽取方法,其特征在于,通过抽取类关系,找出符合与目标关系具有类关系的其他关系,以挖掘关系之间隐含关系。
7.一种文本实体关系抽取装置,其特征在于,包含:特征表示模块、相似计算模块及关系挖掘模块,其中,
特征表示模块,用于针对输入文本,通过将单词获取词向量表示,以获取其中实体对语句特征;
相似计算模块,用于利用点互信息PMI计算实体对关系之间相似度,并通过相似度得到类关系;
关系挖掘模块,用于通过类关系查找实体关系之间隐含内容;
获取词向量表示中,将单词转化为低维向量,假设给定多个单词组成的句子,句子中所有单词使用位置嵌入,每个单词用实值向量表示,单词嵌入通过嵌入矩阵进行编码,将句子中所有单词嵌入和位置嵌入进行连接,获取完整的词向量表示,通过词向量表示以提取实体对与上下文语义相关程度;
实体对关系之间相似度计算中,假设实体对包含多个关系集合,关系集合对应有低维向量集合,使用两个关系的向量内积计算获取两者之间的相似性权重;通过比对关系集合中其他关系与目标关系的相似程度,找到与目标关系相似性权重最高的关系,然后使用点互信息PMI计算目标关系和该相似性权重最高的关系之间的语义相似度;依据语义相似度计算结果,判定与目标关系具有类关系的其他关系。
8.一种计算机可读存储介质设备,其上存储有被处理器运行的计算机程序,所述计算机程序用于执行权利要求1~6任一项所述的方法。
CN202010693018.XA 2020-07-17 2020-07-17 文本实体关系抽取方法、装置及计算机可读存储介质设备 Active CN111881256B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010693018.XA CN111881256B (zh) 2020-07-17 2020-07-17 文本实体关系抽取方法、装置及计算机可读存储介质设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010693018.XA CN111881256B (zh) 2020-07-17 2020-07-17 文本实体关系抽取方法、装置及计算机可读存储介质设备

Publications (2)

Publication Number Publication Date
CN111881256A CN111881256A (zh) 2020-11-03
CN111881256B true CN111881256B (zh) 2022-11-08

Family

ID=73156111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010693018.XA Active CN111881256B (zh) 2020-07-17 2020-07-17 文本实体关系抽取方法、装置及计算机可读存储介质设备

Country Status (1)

Country Link
CN (1) CN111881256B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051356B (zh) * 2021-04-21 2023-05-30 深圳壹账通智能科技有限公司 开放关系抽取方法、装置、电子设备及存储介质
CN113420551A (zh) * 2021-07-13 2021-09-21 华中师范大学 一种建模实体相似性的生物医学实体关系抽取方法
TWI807400B (zh) * 2021-08-27 2023-07-01 台達電子工業股份有限公司 產生實體關係抽取模型的裝置及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN108647322A (zh) * 2018-05-11 2018-10-12 四川师范大学 基于词网识别大量Web文本信息相似度的方法
CN109840325A (zh) * 2019-01-28 2019-06-04 山西大学 基于点互信息的文本语义相似性度量方法
CN109933781A (zh) * 2018-10-16 2019-06-25 北京信息科技大学 基于sao结构的中文专利文本实体关系抽取方法
CN110046252A (zh) * 2019-03-29 2019-07-23 北京工业大学 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法
CN111177393A (zh) * 2020-01-02 2020-05-19 广东博智林机器人有限公司 一种知识图谱的构建方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2537927A (en) * 2015-04-30 2016-11-02 Fujitsu Ltd Term Probabilistic Model For Co-occurrence Scores
US20190354887A1 (en) * 2018-05-18 2019-11-21 Accenture Global Solutions Limited Knowledge graph based learning content generation
US11625573B2 (en) * 2018-10-29 2023-04-11 International Business Machines Corporation Relation extraction from text using machine learning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN108647322A (zh) * 2018-05-11 2018-10-12 四川师范大学 基于词网识别大量Web文本信息相似度的方法
CN109933781A (zh) * 2018-10-16 2019-06-25 北京信息科技大学 基于sao结构的中文专利文本实体关系抽取方法
CN109840325A (zh) * 2019-01-28 2019-06-04 山西大学 基于点互信息的文本语义相似性度量方法
CN110046252A (zh) * 2019-03-29 2019-07-23 北京工业大学 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法
CN111177393A (zh) * 2020-01-02 2020-05-19 广东博智林机器人有限公司 一种知识图谱的构建方法、装置、电子设备及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Automatic textual Knowledge Extraction based on Paragraph Constitutive Relations;Zuquan Peng et al.;《2019 6th International Conference on Systems and Informatics (ICSAI)》;20200227;第527-532页 *
Pointwise relations between information and estimation in the Poisson channel;Jiantao Jiao et al.;《2013 IEEE International Symposium on Information Theory》;20131007;第449-453页 *
深度学习实体关系抽取研究综述;鄂海红等;《软件学报》;20190328(第06期);第1793-1818页 *
煤矿事故本体自动构建;桂冬冬 等;《工矿自动化》;20190930;第75-79页 *
电子商务领域本体概念及概念间关系的自动抽取研究;李志义等;《情报科学》;20180706(第07期);第85-90页 *
结合语境与布朗聚类特征的上下位关系验证;张志昌等;《计算机工程》;20150215(第02期);第145-150页 *

Also Published As

Publication number Publication date
CN111881256A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN109726389B (zh) 一种基于常识和推理的中文缺失代词补全方法
CN111881256B (zh) 文本实体关系抽取方法、装置及计算机可读存储介质设备
CN110688854B (zh) 命名实体识别方法、装置及计算机可读存储介质
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN112487820B (zh) 一种中文医疗命名实体识别方法
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN112541356B (zh) 一种生物医学命名实体识别的方法和***
CN111797241B (zh) 基于强化学习的事件论元抽取方法及装置
CN106909537B (zh) 一种基于主题模型和向量空间的一词多义分析方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN112380863A (zh) 一种基于多头自注意力机制的序列标注方法
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、***及存储介质
WO2022242074A1 (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN108875024B (zh) 文本分类方法、***、可读存储介质及电子设备
Wu et al. A radical-based method for Chinese named entity recognition
Zheng et al. Distantly supervised named entity recognition with Spy-PU algorithm
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及***
CN114722818A (zh) 一种基于对抗迁移学习的命名实体识别模型
CN113361277A (zh) 基于注意力机制的医学命名实体识别建模方法
CN113822018A (zh) 实体关系联合抽取方法
Aggarwal et al. Text sequence modeling and deep learning
Lanchantin et al. Transfer learning with motiftrans-formers for predicting protein-protein interactions between a novel virus and humans

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant