CN106055675B - 一种基于卷积神经网络和距离监督的关系抽取方法 - Google Patents

一种基于卷积神经网络和距离监督的关系抽取方法 Download PDF

Info

Publication number
CN106055675B
CN106055675B CN201610393749.6A CN201610393749A CN106055675B CN 106055675 B CN106055675 B CN 106055675B CN 201610393749 A CN201610393749 A CN 201610393749A CN 106055675 B CN106055675 B CN 106055675B
Authority
CN
China
Prior art keywords
entity
relationship
sentence
alias
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610393749.6A
Other languages
English (en)
Other versions
CN106055675A (zh
Inventor
凌立刚
朱海鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Measurement Data Technology Co Ltd
Original Assignee
Hangzhou Measurement Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Measurement Data Technology Co Ltd filed Critical Hangzhou Measurement Data Technology Co Ltd
Priority to CN201610393749.6A priority Critical patent/CN106055675B/zh
Publication of CN106055675A publication Critical patent/CN106055675A/zh
Application granted granted Critical
Publication of CN106055675B publication Critical patent/CN106055675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于卷积神经网络和距离监督的关系抽取方法。包括如下步骤:(1)将已有的少量关系映射成所需要的关系类型;(2)扩展已有的关系中实体的不同表达方式;(3)从互联网上获取大量相关的非结构化文本,并建立索引;(4)通过索引查询与实体相关的句子,并分出正负样本;(5)基于卷积神经网络,将样本转换为特征向量;(6)利用获取的特征向量,对文本进行分类,得到新的关系对。本发明基于一个句子可能存在一种关系的假设,从少量的已知关系开始,利用大量来自互联网的非结构化文本,获取得到大量新的结构化信息,也就是发现新的关系。

Description

一种基于卷积神经网络和距离监督的关系抽取方法
技术领域
本发明涉及神经网络、自然语言处理、信息提取和关系抽取,尤其涉及一种基于卷积神经网络和距离监督的关系抽取方法。
背景技术
近年来,随着互联网的快速发展,互联网上的内容和知识越来越多,甚至是以指数翻倍的形式增长,包括新闻,博客,电子邮件,政府文件,聊天记录等等。但是,这些数据都是非机构化的电子文本。如何能够使得人类能够轻松地理解所有这些数据?一个非常好的想法就是把这些非结构化的数据转换成结构化的语义信息。但是庞大的数据量使得人工去注释这些信息变得非常困难,甚至是不可能的。所以,希望能够通过电脑,用计算机技术将这些数据标注成易于人类理解、阅读的文本结构。这就有了关系抽取方法的出现。
关系抽取主要有以下几种方法:
第一,监督方法。这种方法首先对语料库中的句子进行人工标记,标记出实体和实体之间的关系。例如2004年ACE会议的数据包含了1000多个文档,其中标记了16,771个实体对作为关系实例。ACE会议利用这些标记的关系实例作为训练集,通过抽取这些实例的词法、句法以及语义特征,使用监督学习方法得到一个关系分类器。然后用这个分类器去判断测试数据中的实体对是否有某个关系。由于监督方法需要事先人工标记训练数据集,而该工作是比较耗费人力的,所以监督方法不适合大规模开放领域的信息抽取任务。
第二,无监督方法。该类方法抽取两个实体之间的字符串,并对这些字符串进行聚类、精简操作,从而得到关系的字符串表示。该方法适合于大规模数据情况下,也可以产生大量的关系实例,但是此方法得到的关系实例难以直接映射到一个特定的知识库。
第三,半监督方法。该方法以少量的标记数据作为初始种子,然后迭代学习标注模型,并用该模型去标注未标记的数据,把最确信的标注实例添加到已标记的数据中。然而,经过大量的迭代次数之后,其准确率通常会下降的比较多,这是因为标注错误的累积造成的,此现象被称为“语义漂移(semantic drift)”问题。为了减少这种错误,学者进行了深入的研究。其中Co-training方法是一种利用两个条件独立的特征集,来提供不同且互补的信息,从而减少标注错误。类型检查(Type checking)方法是利用一个命名实体识别器去检查关系实例。
基于距离监督的关系抽取方法(DS,Distance Supervision),相比于监督方法,能够利用相当大数量的数据,包括更多的文本内容,更多的关系,更多的实例。由于结合了相当数目的特征,避免了很多由于特征差而出现的问题。由于DS是由数据驱动的,而不是依赖标签好的文本,所以克服了监督方法所遇到的过拟合和领域依赖的问题。相比于无监督方法,DS分类的结果具有明确的而且有意义的关系,抽取出的关系更具有实际的意义,可以为人类服务。DS方法相比于之前的方法,不仅仅使用词性特征,而且还加入了很多语法特征。因此,DS方法,取代了之前比较广泛使用的基于核(Kernel)的方法成为了目前为止主流方法的基础。
深度学习模型在计算机视觉和语音识别方面取得了显著的效果。近年来,有些人将深度学习模型也用在了自然语言处理方面的工作,发现相比于之前的方法,有相当大的效果提升。卷积神经网络(Convolution Neural NetWork)就是其中一种方法。卷积神经网络是由Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效降低反馈神经网络的复杂性,继而提出的一种神经网络。自他们提出这种网络结构以后,更多的研究工作者对网络进行了改进,并在众多学科领域中成为了研究热点。卷积神经网络的特点在于,特征提取和模式分类同时进行,并在训练中产生,权重可以共享,从而减少网络参数,所以网络结构简单,适应性强,速度快。
发明内容
本发明的目的是克服现有技术的不足,提供一种卷积神经网络和基于距离监督的关系抽取方法。
一种基于卷积神经网络和距离监督的关系抽取方法,包含如下步骤:
1)将已有的关系映射成目标关系;
2)扩展已有的关系中实体别名,通过问题扩展寻找实体别名的各种不同的形式;
3)从互联网上,获取实体相关的非结构化文本,并建立索引;
4)通过索引查询与实体别名相关的句子,并分离出正负样本;
5)基于卷积神经网络,将正负样本转换为特征向量;
6)利用获取的特征向量,用多实例多标签模型,对非结构化文本进行分类,得到新的关系对。
上述方案基础上,各步骤可以进一步采用如下优选方案:
步骤1)具体如下:将已有的知识库存在的不同领域、不同地方的关系表达形式映射成需要的目标关系。
所述的步骤2)具体为:
1)寻找已有的关系中实体在***上的重定向链接所对应的实体别名;
2)对没有全名的实体别名进行扩展:缩写转换成全名或在没有后缀的实体别名后面加上后缀;
3)对没有缩写的实体别名进行缩减:首字母缩写或将全名进行部分表述;
4)对步骤1)~3)进行迭代,直到找到满足目标需求的实体别名;
5)采用实体链接和消除歧义对实体别名进行过滤处理。
所述的步骤3)具体为:
1)用已经存在的关系中的实体别名以及实体别名扩展所得到的一个实体别名构建成一个词典;
2)用构建出的词典中的词作为关键词,通过爬虫从互联网上爬取关键词对应的实体相关的网页;
3)对已经爬取的网页进行文本抽取,并对文本内容进行分句处理,获取得到非结构化的文本,并以文件的形式存放;
4)用全文检索工具对已经得到的非结构化的文本建立全文索引。
所述的步骤4)具体为:
1)将已经存在的关系表示成r(e1,e2),其中r是关系名,e1和e2分别是实体1和实体2的名字;
2)以实体1的名字e1作为关键字,用全文检索工具检索实体1相关名字的句子;如果检索得到的句子包含实体2的名称e2,将该句子标记为正样本;否则,将该句子标记为负样本。
所述的步骤5)具体为:
1)用word2vec将正负样本中的每个词转换为词向量;
2)将转换成词向量的句子通过卷积,将所有样本转换成卷积后的序列;
3)用聚合函数将卷积序列池化得到最终的特征。
所述的步骤6)具体为:
1)定义文档集合为C,从C中抽取的实体描述的集合为E,已知的关系标签的集合为R,所有关系的数据库为D,D至少被C中的句子实例化一次;
2)用多实例多标签的模型进行基于距离监督的关系抽取,所述的模型利用硬判别的期望最大化算法,模型的训练步骤分为两步:
第一步,执行E过程,通过最大化以下公式给出的联合概率p的最大似然估计,找出最优的关系标签:
其中,Pi和Ni分别表示第i个实体对的正、负关系标签对应的集合,zi表示第i个实体对的关系标签,yi表示是否持有相应的关系,如果r∈Pi,则如果r∈Ni,则wy和wz分别表示y分类器和z分类器的参数,xi表示第i个句子,r表示关系对应的标签,m表示第m个描述,z′i包含第i个实体对对应组从前一次求联合概率中得到的描述标签,i=1,…,n均进行计算联合概率,n是D中的实体对的个数,Mi是第i个实体对所对应的实体描述集合,对于每个m∈Mi计算以下公式:
其中:P(·)表示最终得到的联合概率,上标*表示该参数最终结果;
第二步,执行M过程,分别最优化y分类器和z分类器的参数,得到新的wy和wz,且分别优化两层分类器的参数,优化公式如下,其中w为每个函数的参数:
本发明与现有技术相比具有的有益的效果:
1.本发明提出的基于距离监督的关系提取的方法,该方法相比于用非常少量的标注好的语料的监督训练方式,能够利用大量的数据,包括更多的文本、更多的关系、更多的实例。而且由于有相当大的数据量,所以能够组合庞大数量的特征提供给分类器,这样就避免了很多因为特征差而带来的问题。
2.本发明提出的方法相比于无监督的方法。无监督的方法存在的问题就是,难以将模型训练得到的结果映射到已知的知识库中去,训练得到的关系难以表达成人类易于人类理解的形式。
3.本发明应用的是多实例多标签(MIML)的模型,这个模型相比于基本的距离监督模型。由于MIML采用了至少存在一次(At Least Once)实例的特征,所以避免了许多因为缺少实例而存在偏差的结果。多实例多标签还用了两层的模型,能够多实体对的描述级别的类别进行表述,又使得实体对能够拥有多个关系类别,更真实的模拟了实际情况。比方说,乔丹既是公牛队的队员,也是黄蜂队的老板。一个实体可能存在多个关系。
4.本发明相比于基本的多实例多标签(MIML)的模型,加上了卷积神经网络层。由于应用了最新的深度学习模型,对文本的表述性更强了,特征相比于原来一般的自然语言特征更具有代表性。因此,性能和准确率都有了比较高的提升。
附图说明
图1是本发明所使用的自然语言模型,其中的第一层是卷积层,也就是将原始的样本转换成词向量的表达方式以后,然后卷积得到卷积序列,第二层是池化层,将卷积序列池化,最后一层连接的是多实例多标签层。
图2是本发明的整个流程图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。
如图1~2所示,一种基于卷积神经网络和距离监督的关系抽取方法,包含如下步骤:
1)将已有的少量关系映射成目标关系。具体如下:将已有的知识库存在的不同领域、不同地方的关系表达形式映射成需要的目标关系。将已有的知识库存在的关系映射成需要的目标关系,因为不同领域、不同地方对关系的表述形式不一样。比方说***(Wikipedia)的信息盒(Info Box)包含的很多事物属性,但是跟我们需要的目标关系不一样。例如:信息盒中University:established对应的是Org:founded。
2)扩展已有的关系中实体别名(实体的不同表达方式),通过问题扩展(QueryExpansion)寻找实体别名的各种不同的形式。具体为:
2.1)寻找已有的关系中实体在***上的重定向链接所对应的实体别名;
***的链接源头文(Anchor Text),链接源头文包含实体各种不同名字的变形,而且在实际的句子中都会出现,对提取实体相关的句子非常有用
2.2)对没有全名的实体别名进行扩展:缩写转换成全名或在没有后缀的实体别名后面加上后缀(例如:有限公司(Ltd),公司(Corp));
2.3)对没有缩写的实体别名进行缩减:首字母缩写或将全名进行部分表述。
2.4)对步骤1)~3)进行迭代,直到找到满足目标需求的实体别名;目标需求可根据实际进行确定,即实体名字合适且数量足够多;
2.5)采用实体链接(Entity Linking)和消除歧义(Disambiguation)对实体别名进行过滤处理。
3)从互联网上,可以是新闻、博客、电子邮件信息、政府文件、聊天记录等等,获取大量实体相关的非结构化文本,并建立索引。具体为:
3.1)用已经存在的关系中的实体别名以及实体别名扩展所得到的一个实体别名构建成一个词典;
3.2)用构建出的词典中的词作为关键词,通过爬虫从互联网上爬取关键词对应的实体相关的网页;
3.3)对已经爬取的网页进行文本抽取,并对文本内容进行分句处理,获取得到大量的非结构化的文本,并以文件的形式存放得到的大量文本;
3.4)用Lucene或者Solr等全文检索工具对已经得到的非结构化的文本建立全文索引。
4)通过索引查询与实体别名相关的句子,并分离出正负样本。具体为:
4.1)将已经存在的关系表示成r(e1,e2),其中r是关系名,e1和e2分别是关系中对应的两个实体的名字,分别定义为实体1和实体2的名字;
4.2)以实体1的名字e1作为关键字,用全文检索工具检索实体1相关名字的句子;如果检索得到的句子包含实体2的名称e2,将该句子标记为正样本;否则,将该句子标记为负样本。
5)基于卷积神经网络,将正负样本转换为特征向量。具体为:
5.1)用word2vec将正负样本中的每个词转换为词向量;
5.2)将转换成词向量的句子通过卷积,将所有样本转换成卷积后的序列;
5.3)用聚合函数(这里是max函数)将句子卷积后得到的卷积序列池化得到最终的特征。
6)利用获取的特征向量,用多实例多标签模型(MIML),对非结构化文本进行分类,得到新的关系对。具体为:
6.1)定义文档集合为C,从C中抽取的实体描述的集合为E,已知的关系标签的集合为R,所有关系的数据库为D,D至少被C中的句子实例化一次;
6.2)用多实例多标签的模型进行基于距离监督的关系抽取,所述的模型利用硬判别的期望最大化算法(EM,Expectation Maximization),模型的训练步骤分为两步:
第一步,执行E过程,通过最大化以下公式给出的联合概率p的最大似然估计,找出最优的关系标签:
其中,Pi和Ni分别表示第i个实体对的正、负关系标签对应的集合,zi表示第i个实体对(Entity Tuple)的关系标签,yi表示是否持有相应的关系(也就是说,如果r∈Pi,则如果r∈Ni,则wy和wz分别表示y分类器和z分类器的参数,xi表示第i个句子,r表示关系对应的标签,m表示第m个描述,z′i包含第i个实体对对应组从前一次求联合概率中得到的描述标签,i=1,…,n均进行计算联合概率,n是D中的实体对的个数,Mi是第i个实体对所对应的实体描述集合,对于每个m∈Mi计算以下公式:
其中:P(·)表示最终得到的联合概率,上标*表示该参数最终结果;
第二步,执行M过程,分别最优化y分类器和z分类器的参数,得到新的wy和wz,且分别优化两层分类器的参数,优化公式如下,其中w为每个函数的参数:
实施例
以***82万左右的词条和大量的***的语料来完成KBP2010的关系抽取任务为例,本发明的实施步骤如下:
说明:
***上有一个词条,也就是对应一个实体,它相关的属性,在每个词条的信息盒(Info Box)中,还有这个词条相关的文章,也就是文本内容。***语料库是大量的来自***的新闻文本,其中包含大量的非结构化的信息。
1.将***上的信息盒(Info Box)的信息映射成KBP所对应的属性类型。比方说将University:established的关系映射成Org:founded的目标属性。映射有些维基上的属性在任务中没有,就把这些属性忽略掉,也有一对多的,就相对应的映射;
2.寻找实体在***上的重定向链接所对应的实体别名;
3.***的链接源头文(Anchor Text):链接源头文包含实体各种不同名字的变形,而且在实际的句子中都会出现,对提取实体相关的句子非常有用;
4.扩展名字:缩写字转换成全名,姓转换成全名,在名字后面加上一些后缀(例如:有限公司(Ltd),公司(Corp));
5.缩减实体名字:跟扩展名字相反,找到所有可能的缩写:首字母缩写,部分表述等等;
6.第4步和第5步以后,再跳到第1步和第2步,迭代进行,直到找到合适的且足够多的实体名字;
7.将***上词条对应的所有文本单独抽取出来放在一起,把***相关的文章也抽取出来放在一起;
8.用分句工具对得到的文本进行分句子,一个句子一行存在新的文件中;
9.用Lucene或者Solr等全文检索工具对已经分好句的文本建立索引;
10.以维基中每个词条的词条名,以及它的别名作为关键字,用Lucene等全文检索工具查询这个词条在所有文本中相关的句子,将这些句子抽取出来;
11.对抽取出来的句子进行简单的处理,如果抽取出来的句子中包含该词条信息盒(Info Box)中所涉及的属性,那么就把这个句子标记为正样本;否则就把这个句子标记为负样本,以供后续分类器分类使用;
12.用word2vec将样本中的每个词转换为词向量;
13.将转换成词向量的句子通过卷积,将所有样本转换成卷积后的序列;
14.用聚合函数(这里是max函数)将句子卷积后得到的卷积序列池话得到最终的特征;
15.设Pi和Ni分别表示第i个实体对的正、负关系标签对应的集合,zi表示第i个实体对(Entity Tuple)的关系标签,yi表示是否持有相应的关系(也就是说,如果r∈Pi那么如果r∈Ni,那么wy和wz分别表示y分类器和z分类器的参数,x表示句子,r表示关系对应的标签,m表示第m个描述。z′i包含第i个实体对对应组从之前的推理中得到的描述标签。通过最大化一下公式所描述的联合概率,得到实体对的新的关系标签:
16.分别最优化y分类器和z分类器的参数,得到新的wy和wz,由于两层的分类器优化过程不相关,所以分别独立优化两组参数,按以下公式:
17.重复迭代步骤15和步骤16直到得到最终的模型。

Claims (6)

1.一种基于卷积神经网络和距离监督的关系抽取方法,其特征在于包含如下步骤:
1)将已有的关系映射成目标关系;
2)扩展已有的关系中实体别名,通过问题扩展寻找实体别名的各种不同的形式,具体为:
2.1)寻找已有的关系中实体在***上的重定向链接所对应的实体别名;
2.2)对没有全名的实体别名进行扩展:缩写转换成全名或在没有后缀的实体别名后面加上后缀;
2.3)对没有缩写的实体别名进行缩减:首字母缩写或将全名进行部分表述;
2.4)对步骤2.1)~2.3)进行迭代,直到找到满足目标需求的实体别名;
2.5)采用实体链接和消除歧义对实体别名进行过滤处理;
3)从互联网上获取实体相关的非结构化文本,并建立索引;
4)通过索引查询与实体别名相关的句子,并分离出正负样本;
5)基于卷积神经网络,将正负样本转换为特征向量;
6)利用获取的特征向量,用多实例多标签模型,对非结构化文本进行分类,得到新的关系对。
2.根据权利要求1所述的一种基于卷积神经网络和距离监督的关系抽取方法,其特征在于步骤1)具体如下:将已有的知识库存在的不同领域、不同地方的关系表达形式映射成需要的目标关系。
3.根据权利要求1所述的一种基于卷积神经网络和距离监督的关系抽取方法,其特征在于所述的步骤3)具体为:
3.1)用已经存在的关系中的实体别名以及实体别名扩展所得到的一个实体别名构建成一个词典;
3.2)用构建出的词典中的词作为关键词,通过爬虫从互联网上爬取关键词对应的实体相关的网页;
3.3)对已经爬取的网页进行文本抽取,并对文本内容进行分句处理,获取得到非结构化的文本,并以文件的形式存放;
3.4)用全文检索工具对已经得到的非结构化的文本建立全文索引。
4.根据权利要求1所述的一种基于卷积神经网络和距离监督的关系抽取方法,其特征在于所述的步骤4)具体为:
4.1)将已经存在的关系表示成r(e1,e2),其中r是关系名,e1和e2分别是实体1和实体2的名字;
4.2)以实体1的名字e1作为关键字,用全文检索工具检索实体1相关名字的句子;如果检索得到的句子包含实体2的名称e2,将该句子标记为正样本;否则,将该句子标记为负样本。
5.根据权利要求1所述的一种基于卷积神经网络和距离监督的关系抽取方法,其特征在于所述的步骤5)具体为:
5.1)用word2vec将正负样本中的每个词转换为词向量;
5.2)将转换成词向量的句子通过卷积,将所有样本转换成卷积后的序列;
5.3)用聚合函数将卷积序列池化得到最终的特征。
6.根据权利要求1所述的一种基于卷积神经网络和距离监督的关系抽取方法,其特征在于所述的步骤6)具体为:
6.1)定义文档集合为C,从C中抽取的实体描述的集合为E,已知的关系标签的集合为R,所有关系的数据库为D,D至少被C中的句子实例化一次;
6.2)用多实例多标签的模型进行基于距离监督的关系抽取,所述的模型利用硬判别的期望最大化算法,模型的训练步骤分为两步:
第一步,执行E过程,通过最大化以下公式给出的联合概率p的最大似然估计,找出最优的关系标签:
其中,Pi和Ni分别表示第i个实体对的正、负关系标签对应的集合,zi表示第i个实体对的关系标签,yi表示是否持有相应的关系,如果r∈Pi,则如果r∈Ni,则wy和wz分别表示y分类器和z分类器的参数,xi表示第i个句子,r表示关系对应的标签,m表示第m个描述,z′i包含第i个实体对对应组从前一次求联合概率中得到的描述标签,i=1,…,n均进行计算联合概率,n是D中的实体对的个数,Mi是第i个实体对所对应的实体描述集合,对于每个m∈Mi计算以下公式:
其中:P(·)表示最终得到的联合概率,上标*表示该参数最终结果;
第二步,执行M过程,分别最优化y分类器和z分类器的参数,得到新的wy和wz,且分别优化两层分类器的参数,优化公式如下,其中w为每个函数的参数:
CN201610393749.6A 2016-06-06 2016-06-06 一种基于卷积神经网络和距离监督的关系抽取方法 Active CN106055675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610393749.6A CN106055675B (zh) 2016-06-06 2016-06-06 一种基于卷积神经网络和距离监督的关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610393749.6A CN106055675B (zh) 2016-06-06 2016-06-06 一种基于卷积神经网络和距离监督的关系抽取方法

Publications (2)

Publication Number Publication Date
CN106055675A CN106055675A (zh) 2016-10-26
CN106055675B true CN106055675B (zh) 2019-10-29

Family

ID=57170315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610393749.6A Active CN106055675B (zh) 2016-06-06 2016-06-06 一种基于卷积神经网络和距离监督的关系抽取方法

Country Status (1)

Country Link
CN (1) CN106055675B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570148B (zh) * 2016-10-27 2019-07-23 浙江大学 一种基于卷积神经网络的属性抽取方法
CN106649819B (zh) * 2016-12-29 2021-04-02 北京奇虎科技有限公司 一种提取实体词和上位词的方法及装置
CN107145503A (zh) * 2017-03-20 2017-09-08 中国农业大学 基于word2vec的远监督非分类关系提取方法及***
CN107392229B (zh) * 2017-06-21 2020-03-13 清华大学 一种基于最面向社会关系抽取的网络表示方法
CN107633362B (zh) * 2017-09-18 2020-11-20 前海梧桐(深圳)数据有限公司 基于生物特征表达企业要素之间联结方式的方法及其***
CN108280055A (zh) * 2017-12-04 2018-07-13 盈盛资讯科技有限公司 一种基于二元关系的知识学习方法和***
CN108154234A (zh) * 2017-12-04 2018-06-12 盈盛资讯科技有限公司 一种基于模板的知识学习方法和***
CN108280061B (zh) 2018-01-17 2021-10-26 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN108764192B (zh) * 2018-06-04 2021-05-18 华中师范大学 一种面向平安城市视频监控应用的多示例多标签学习方法
CN110852066B (zh) * 2018-07-25 2021-06-01 清华大学 一种基于对抗训练机制的多语言实体关系抽取方法及***
CN109815338B (zh) * 2018-12-28 2021-10-22 北京市遥感信息研究所 基于混合高斯模型的知识图谱中关系抽取方法和***
CN112036181A (zh) * 2019-05-14 2020-12-04 上海晶赞融宣科技有限公司 实体关系识别方法、装置及计算机可读存储介质
CN110543634B (zh) * 2019-09-02 2021-03-02 北京邮电大学 语料数据集的处理方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298651A (zh) * 2014-09-09 2015-01-21 大连理工大学 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线***
CN104809481A (zh) * 2015-05-21 2015-07-29 中南大学 一种基于自适应色彩聚类的自然场景文本检测的方法
CN105046284A (zh) * 2015-08-31 2015-11-11 鲁东大学 一种基于特征选择的多示例多标签学习方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298651A (zh) * 2014-09-09 2015-01-21 大连理工大学 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线***
CN104809481A (zh) * 2015-05-21 2015-07-29 中南大学 一种基于自适应色彩聚类的自然场景文本检测的方法
CN105046284A (zh) * 2015-08-31 2015-11-11 鲁东大学 一种基于特征选择的多示例多标签学习方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A probabilistic model for linking named entities in web text with heterogeneous information networks;Shen W, Han J, Wang J.;《Proceedings of the 2014 ACM SIGMOD International Conference on Management of Data》;20141231;全文 *
面向开放域信息抽取的关系知识库建立;潘俊峰;《中国优秀硕士学位论文全文数据库信息科技辑》;20130715;全文 *

Also Published As

Publication number Publication date
CN106055675A (zh) 2016-10-26

Similar Documents

Publication Publication Date Title
CN106055675B (zh) 一种基于卷积神经网络和距离监督的关系抽取方法
Zhao et al. Auto-em: End-to-end fuzzy entity-matching using pre-trained deep models and transfer learning
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN110825881B (zh) 一种建立电力知识图谱的方法
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN106250412B (zh) 基于多源实体融合的知识图谱构建方法
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN104933164B (zh) 互联网海量数据中命名实体间关系提取方法及其***
CN106156286B (zh) 面向专业文献知识实体的类型抽取***及方法
CN105528437B (zh) 一种基于结构化文本知识提取的问答***构建方法
CN109271506A (zh) 一种基于深度学习的电力通信领域知识图谱问答***的构建方法
CN108875051A (zh) 面向海量非结构化文本的知识图谱自动构建方法及***
CN107220237A (zh) 一种基于卷积神经网络的企业实体关系抽取的方法
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN103440287B (zh) 一种基于产品信息结构化的Web问答检索***
Castellano et al. Leveraging knowledge graphs and deep learning for automatic art analysis
CN111241294A (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN113515632B (zh) 基于图路径知识萃取的文本分类方法
Zhang et al. Effective subword segmentation for text comprehension
CN112328800A (zh) 自动生成编程规范问题答案的***及方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
Miao et al. A dynamic financial knowledge graph based on reinforcement learning and transfer learning
CN114238653A (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
CN113535897A (zh) 一种基于句法关系和意见词分布的细粒度情感分析方法
Ramar et al. Technical review on ontology mapping techniques

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A relationship extraction method based on convolutional neural network and distance supervision

Effective date of registration: 20210513

Granted publication date: 20191029

Pledgee: Hangzhou High-tech Financing Guarantee Co.,Ltd.

Pledgor: HANGZHOU LIANGZHI DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2021330000390

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220726

Granted publication date: 20191029

Pledgee: Hangzhou High-tech Financing Guarantee Co.,Ltd.

Pledgor: HANGZHOU LIANGZHI DATA TECHNOLOGY CO.,LTD.

Registration number: Y2021330000390