CN106970981B - 一种基于转移矩阵构建关系抽取模型的方法 - Google Patents

一种基于转移矩阵构建关系抽取模型的方法 Download PDF

Info

Publication number
CN106970981B
CN106970981B CN201710193366.9A CN201710193366A CN106970981B CN 106970981 B CN106970981 B CN 106970981B CN 201710193366 A CN201710193366 A CN 201710193366A CN 106970981 B CN106970981 B CN 106970981B
Authority
CN
China
Prior art keywords
relationship
training
extraction model
sentences
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710193366.9A
Other languages
English (en)
Other versions
CN106970981A (zh
Inventor
罗炳峰
冯岩松
贾爱霞
赵东岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201710193366.9A priority Critical patent/CN106970981B/zh
Publication of CN106970981A publication Critical patent/CN106970981A/zh
Application granted granted Critical
Publication of CN106970981B publication Critical patent/CN106970981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于转移矩阵构建关系抽取模型的方法。本方法为:1)选择基础关系抽取模型M,其输入为一个句子或描述同一对主体和客体的一组句子,其输出为输入句子或输入的一组句子所描述的关系的分布pi,并在中间结果中生成输入句子或输入的一组句子的向量表示si;2)根据si构建一个转移矩阵Ti;3)将该模型M输出的关系分布pi乘以该转移矩阵Ti并归一化,得到输入句子或输入的一组句子可能被标注成的关系的分布oi;4)以该关系分布oi拟合有噪声的标注为目标,训练该基础关系抽取模型M直到达到预设的终止条件,得到关系抽取模型。本模型可以免受噪声的影响,从而可以取得更好的关系抽取效果。

Description

一种基于转移矩阵构建关系抽取模型的方法
技术领域
本发明涉及一种利用转移矩阵增强关系抽取器训练过程中对噪声数据的抵抗能力,从而提高关系抽取性能的方法,属于信息抽取领域。
背景技术
随着信息技术和互联网的发展,人们可以获取到的文本信息变得越来越多,如何利用这些大量的文本信息自动构建知识库,从而使得计算机可以更好地利用蕴含在这些文本中的信息,便成为一项非常重要的问题。
知识库一般由形如(主体,谓词,客体)的三元组构成,比如(中国,首都,北京)这条三元组就蕴含了“中国的首都是北京”这条知识。因而,自动构建知识库的过程就是自动生成这些三元组的过程。关系抽取旨在解决如何自动识别文本中所描述的的两个实例(一个实例可以是一个实体,比如“中国”,也可以是时间、数值等)之间的关系,从而构成三元组填充到知识库当中。
关系抽取任务所使用的数据主要是通过远监督的方法构建的,即利用一些种子知识自动检索出可能阐述这些知识的文字描述,然后使用这些有噪声的数据来训练关系抽取模型。这种方法的好处在于可以低成本的获取大量的训练数据,而缺点则是数据集中会有很大一部分是噪声数据。同时,人工标注的数据也有可能含有噪声,比如人可能会因为粗心而漏标某些数据,或者因为领域知识不足而无法识别一个句子是否在阐述一个关系。由于噪声数据会对模型的训练产生显著的影响,因而一个关系抽取模型的好坏很大程度上取决于它对噪声数据的抵抗能力。
发明内容
本发明的目的是提供一个对训练数据中的噪声有较强抵抗能力的关系抽取模型的构建方法。关系抽取任务的输入可以是一个句子,即判断输入句子所描述的目标主体和目标客体之间的关系;也可以是一组句子,其中每个句子都包含了目标主体和目标客体,即结合这一组句子综合判断目标主体和目标客体之间的关系。假设要抽取|C|个关系,则构建一个|C|×|C|的转移矩阵T,其中矩阵T中的任一元素Tij表示输入句子(或输入的一组句子)所表述的真实关系是i,而它被错误地标注为关系j的概率。如此一来,给定一个基础的关系抽取模型M,设其输出的关系分布为p,在训练过程中本发明便可以不直接用p去拟合有噪声的标注,而是利用转移矩阵T将p转化为其可能被标注成的关系分布o,并利用o去拟合有噪声的标注。通过这种对噪声的显示建模方式,基础关系抽取器M在训练的时候可以免受噪声的影响,从而可以取得更好的关系抽取效果。
为了达到上述目的,本发明的技术方案为:
(1)选择可以生成输入句子的向量表示(或输入的一组句子的整体向量表示)的基础关系抽取模型M,其输出为待处理句子i(或待处理的第i组句子)所描述的关系的分布pi,并在中间结果中生成待处理句子i(或待处理的第i组句子)的向量表示si
(2)根据当前待处理句子i(或待处理的第i组句子)的向量表示si,构建一个转移矩阵Ti。其中
Figure BDA0001256765210000021
(即矩阵Ti的第j行第k列的元素)表示对于待处理的句子i(或待处理的第i组句子)而言,如果其表述的关系是j,其被错误地标注为k的概率(这里的j和k分别与矩阵Ti的第j行第k列相对应)。即此转移矩阵可认为是对输入句子(或输入的一组句子)的噪声模式的一种建模。
(3)训练时,将基础关系抽取模型M预测的输入句子(或输入的一组句子)所描述的关系分布pi乘以转移矩阵Ti并归一化,得到其可能被标注成的关系的分布oi,并以让oi去拟合有噪声的标注为目标进行训练,直到达到预设的终止条件(比如达到预先指定的训练轮数,或者抽取效果相比于前一轮提升很小等)。
(4)经过步骤(3),基础关系抽取模型M已经得到充分的训练。由于转移矩阵的引入,M在训练时也得以避免噪声的影响,从而取得更好的关系抽取效果。在实际使用的时候,直接用M的预测结果即可,不用再使用转移矩阵。
在步骤(1)中,虽然本发明限定基础关系抽取模型M必须可以生成输入句子的向量表示或输入的一组句子的整体向量表示,但是实际上绝大多数关系抽取模型均符合这一要求。对于传统的基于人工制定的特征模板的模型而言,句子的向量表示可以是抽取的特征组成的向量;对于神经网络模型而言,一般可以使用输出层前的那一层作为句子的向量表示(也可以使用其他的能完整建模整个句子的层)。而一组句子的整体向量表示则可以是这一组中每个句子的向量表示的加权平均,或者是先利用循环神经网络对每个句子进一步建模后再对每个句子的向量表示加权平均等。
在步骤(2)中,从句子向量表示(或一组句子的整体向量表示)si到转移矩阵Ti的过程可以由如下式子表示:
Figure BDA0001256765210000031
其中,wjk是用来计算转移矩阵Ti的第j行第k列处的值
Figure BDA0001256765210000032
的参数,上式中wjk的上标T表示转置,b是偏置项。wjk和b在训练开始前随机初始化,并在训练过程中通过反向传播更新。
另外,有的时候一个模型可能会对输入句子(或输入的一组句子)针对每一个关系l都生成一个向量表示sil。此时,转移矩阵Ti可以通过如下式子生成:
Figure BDA0001256765210000033
其中,sij是句子i(或第i组句子)针对关系j的向量表示,wk是关系k的权值向量,上标T表示转置,bj是关系j的偏置项。wk和bj在训练开始前随机初始化,并在训练过程中通过反向传播更新。
并且,句子i的向量表示(或第i组句子的整体向量表示)si也可以经过若干全连接层,得到新的句子i的向量表示(或第i组句子的整体向量表示)s′i后再利用上述式子生成转移矩阵。
在步骤(3)中,可根据训练数据是否可以划分为不同噪声程度的若干子集,而使用两种不同的训练方式。
1)如果训练数据不可根据噪声程度进一步划分,则需要使用渐进的方式进行训练。此时的损失函数如下:
Figure BDA0001256765210000034
其中,N为训练集样本个数,一个样本可以是一个句子也可以是一组句子,
Figure BDA0001256765210000035
表示样本i用基础关系抽取器M的输出pi拟合有噪声的标注的误差,
Figure BDA0001256765210000036
表示样本i可能被标注成的关系的分布oi去拟合有噪声的标注的误差,Trace(Ti)表示转移矩阵Ti的迹(对角线元素之和),α是0到1之间的实数,β是一个实数系数。这里误差loss可以使用包括交叉熵在内的所有可以衡量预测的关系分布与标注的关系之间差异的分段可导函数。Trace(Ti)在这里是一个正则项。考虑到转移矩阵Ti的每一行之和为1,而无噪声的情况下Ti应该是单位阵,则通过控制Ti的迹(对角线元素之和)便相当于控制转移矩阵的噪声建模强度。大的β表示本发明希望Ti趋近于单位阵,而小的(或者是负的)β表示本发明鼓励Ti去对噪声进行建模。
训练开始的时候,α设为1,β设置为较大的正数,即一开始本发明不鼓励对噪声建模,而是希望基础关系抽取模型M快速地从有噪声的标注中学习到基本的分类能力。之后,通过逐渐降低α和β,本发明在训练过程中逐渐强调噪声建模的重要性,从而降低噪声对于M的训练的影响。训练所用的优化方法可以采用包括随机梯度下降在内的所有基于梯度的优化方法。当达到预先设定的终止条件后,训练停止。其中,终止条件可以是训练达到了一定的轮数,或者在开发集上的关系抽取效果不再显著提升等。
2)如果训练数据可按照噪声程度由小到大,划分为若干子集(TD1,TD2,……),则可使用如下的损失函数:
Figure BDA0001256765210000041
其中,S是子集个数,Ni是子集TDi的样本数,一个样本可以是一个句子也可以是一组句子,
Figure BDA0001256765210000042
为子集TDi的第j个样本可能被标注成的关系的分布oij拟合有噪声的标注的误差,βi是子集TDi上转移矩阵Tij的迹的正则项系数。这里由于可以使用对不同子集噪声程度的先验知识,预先指定各个子集上转移矩阵的噪声建模力度,因而可以不使用lossp,而直接优化losso。具体来说,对于噪声程度低的子集,可以设置βi为比较大的正数,而噪声程度高的子集,可以设置βi为负数或者比较小的正数。
上述的损失函数loss,可以使用包括交叉熵在内的所有可以衡量预测的关系分布与标注的关系之间差异的分段可导函数。优化方法可以采用包括随机梯度下降在内的所有基于梯度的优化方法。训练时,除了可以直接在所有子集上训练,也可以先在噪声程度最小的子集上训练,然后将其他子集按照噪声程度从小到大的顺序依次逐渐加入到训练集中。训练的终止条件可以是训练达到了一定的轮数,或者在开发集上的关系抽取效果不再显著提升等。
在步骤(4)中,由于训练时基础关系抽取模型M实际上拟合的是隐含的真实关系分布,所以在实际使用的时候,直接使用基础关系抽取模型M的预测结果即可。
与现有技术相比,本发明的积极效果为:
在训练时,基础关系抽取模型M不用直接拟合有噪声的标注,而是通过转移矩阵将M所预测的输入句子(或输入的一组句子)所描述的关系的分布与有噪声的标注相联系,从而达到了去噪的效果。相比于现有的直接用M的输出拟合有噪声的标注的方法,本发明使得基础关系抽取模型M的训练免受噪声的影响,避免了生成有偏的模型,从而可以达到更好的关系抽取效果。
附图2所示为本发明在抽取客体为时间的关系上的效果(详见下文实施例的描述),抽取结果以准确率-召回率曲线展示,曲线越高表示效果越好。该数据集可以分为不同噪声程度的3个子集,先在可靠的子集上训练再在不可靠的子集上训练的效果(各数据集依次训练),显著优于把所有子集混合到一起训练的效果(混合数据集),说明数据集中的噪声对模型的训练有很大的影响。而用了本专利的转移矩阵方法后,关系抽取效果进一步提升(依次训练+转移矩阵),说明本发明可以有效的提高基础关系抽取模型在训练过程中的抗噪声能力,从而显著提高关系抽取的效果。
附图说明
图1为本发明实施例中的关系抽取方法的框架图示;
图2为本发明实施例中的关系抽取方法的抽取效果图示。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,可以理解的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实例基于维基数据这一开放的百科知识平台中客体为时间的关系,以及***这一语料。本领域技术人员应该清楚地明白,在具体实施过程中也可以采用其他关系集合和其他语料。
具体来说,该实施例中要抽取的关系有12种,包括出生日期、死亡日期、组织成立日期、作品出版日期、航天器发射日期等。数据集构造过程如下:
1)收集维基数据中包含要抽取的关系的三元组,比如(百度,组织成立日期,2000年1月1日);
2)对于一个三元组,找到***中所有同时包含该三元组中的主体和客体的句子,比如“李彦宏于2000年1月1日创建百度”;
3)本发明认为这些同时包含该三元组的主体和客体的句子为这个三元组的自然语言描述。但是,这一假设是不完备的,必然会出现例外的情况。于是本发明进一步假设,句子中提到的时间粒度越细,本发明认为其描述该三元组的可能性最强。比如,包含了“2000年1月1日”和“百度”的句子比只包含“2000年”和“百度”的句子更可能描述(百度,组织成立日期,2000年1月1日)这一三元组。根据这一原理,本发明将数据集分成不同可靠程度的三个子集:包含年月日,包含年月,包含年;
4)本发明将“包含年月日”这一子集的一部分三元组拿出来,当做测试集,剩下的当做训练集(其他两个子集中与测试集三元组有关的句子也被去除)。
如图1所示,是本发明实施例中基于转移矩阵的关系抽取方法的框架图示;
步骤1:生成待处理句子的向量表示。
对于输入的句子,本发明首先要生成其向量表示。这里,本发明首先将句子中的每个词转化为对应的词向量,然后通过卷积神经网络生成句子的向量表示(可参见ZengDaojian,Liu Kang,Chen Yubo,Zhao Jun.Distant Supervision for RelationExtraction via Piecewise Convolutional Neural Networks[C].Conference onEmpirical Methods in Natural Language Processing,2015)。
步骤2:利用基础关系抽取器生成该句子所描述的关系的分布。
获得句子的向量表示si后,本发明通过softmax分类器生成预测的关系分布,具体式子如下:
Figure BDA0001256765210000061
其中,pij是句子i所描述的关系的分布pi的第j项,表示句子i描述关系j的概率,wj是关系j的权值向量,wj的上标T表示转置。
步骤3:对噪声进行建模,生成转移矩阵Ti
这里由于一个句子只有一个向量表示,所以本发明使用方法部分提到的如下公式生成转移矩阵Ti
Figure BDA0001256765210000062
其中
Figure BDA0001256765210000063
是转移矩阵Ti的第j行第k列的元素。
步骤4:利用预测的关系分布pi和转移矩阵Ti生成该句子可能被标注成的关系的分布oi
Figure BDA0001256765210000064
Figure BDA0001256765210000065
其中,oij表示oi的第j个元素,而第二个式子是对o′i进行归一化,从而使得其满足概率分布的性质。
训练时,本发明先在“包含年月日”这一子集上训练15轮,然后加入“包含年月”这一子集再训练15轮,最后加入“包含年”这一子集再训练15轮。其中“包含年月日”,“包含年月”,“包含年”这三个子集的正则化系数(转移矩阵的迹的系数)分别为0.01,-0.01和-0.1。
图2展示了本方法的关系抽取效果,其评价指标是准确率-召回率曲线。具体来说,首先将关系抽取结果按照关系抽取器输出的置信度从高到低排序,依次对每个抽取结果以及比其置信度高的结果计算准确率和召回率,最终绘制成准确率-召回率曲线,该曲线越靠上表示关系抽取效果越好。其中,准确率和召回率的计算方法如下:
Figure BDA0001256765210000071
Figure BDA0001256765210000072
从图中可以看出,在不加转移矩阵的条件下,按照噪声程度从小到大的顺序将不同的数据子集依次加入训练集进行训练(各数据集依次训练),要比直接在全部数据集上训练效果要好(混合数据集),说明数据集中的噪声对训练出来的关系抽取模型的效果具有显著的影响。而加入了转移矩阵之后(依次训练+转移矩阵),可以发现关系抽取效果相比于没加之前有了显著的提升,说明本发明可以有效地建模噪声,使得基础关系抽取器免受噪声的影响,从而取得更好的关系抽取效果。
综上所述,本发明实施例中,以维基数据和***为依托,构造了一个可靠的抽取客体是时间的关系的关系抽取器。在训练抽取器的过程中,本发明所提出的方法可以有效避免数据中噪声对关系抽取器的影响,从而训练出效果更好的关系抽取器。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种基于转移矩阵构建关系抽取模型的方法,其步骤为:
1)选择基础关系抽取模型M,其输出为输入句子i所描述的关系的分布pi,并在中间结果中生成输入句子i的向量表示si
2)根据输入句子i的向量表示si,构建一个转移矩阵Ti;其中,
Figure FDA0002568573660000011
为矩阵Ti的第j行第k列的元素,表示输入句子i表述的关系是j,但被错误地标注为k的概率;
3)将该基础关系抽取模型M输出的关系分布pi乘以该转移矩阵Ti并归一化,得到输入句子可能被标注成的关系的分布oi
4)以该关系分布oi拟合有噪声的标注为目标,训练该基础关系抽取模型M直到达到预设的终止条件,得到关系抽取模型;
其中,训练该基础关系抽取模型M的方法为:a)如果训练数据不能根据噪声程度进一步划分,则训练时使用的损失函数为
Figure FDA0002568573660000012
其中,N为训练数据的样本总数,一个样本是一个句子也可以是一组句子,
Figure FDA0002568573660000013
表示样本i用基础关系抽取器M输出的关系分布pi拟合有噪声的标注的误差,
Figure FDA0002568573660000014
表示样本i可能被标注成的关系分布oi拟合有噪声的标注的误差,Trace(Ti)表示样本i对应的转移矩阵Ti的迹,α是0到1之间的实数,β是一个实数系数;b)如果训练数据能根据噪声程度进一步划分为若干子集,则训练时使用的损失函数为
Figure FDA0002568573660000015
其中,S是子集总数,Ni是子集TDi的样本数,
Figure FDA0002568573660000016
为子集TDi的第j个样本被标注成的关系的分布oij拟合有噪声的标注的误差,βi是子集TDi上转移矩阵Tij的迹的正则项系数。
2.如权利要求1所述的方法,其特征在于,如果所述基础关系抽取模型M对输入句子i仅生成一个向量表示si,则所述
Figure FDA0002568573660000017
其中,wjk是用来计算转移矩阵Ti的第j行第k列处的值
Figure FDA0002568573660000018
的参数,
Figure FDA0002568573660000019
为wjk的转置,b是偏置项,wjk和b在训练过程中通过反向传播更新,|C|为要抽取的关系的集合的大小。
3.如权利要求1所述的方法,其特征在于,如果所述基础关系抽取模型M对输入句子i针对每一个关系l生成一个向量表示sil,则所述
Figure FDA00025685736600000110
其中,sij是输入句子i针对关系j的向量表示,wk是关系k的权值向量,
Figure FDA00025685736600000111
是wk的转置,bj是关系j的偏置项,wk和bj在训练过程中通过反向传播更新,|C|为要抽取的关系的集合的大小。
4.如权利要求1所述的方法,其特征在于,可以再将所述向量表示si经过若干全连接层处理后,得到新的句子i的向量表示s′i,然后根据s′i构建所述转移矩阵Ti
5.一种基于转移矩阵构建关系抽取模型的方法,其步骤为:
1)选择基础关系抽取模型M,其输入为描述同一对主体和客体的一组句子,其输出为该组句子所描述的关系的分布pi,并在中间结果中生成输入的该组句子的整体向量表示si
2)根据该组句子的整体向量表示si,构建一个转移矩阵Ti;其中,
Figure FDA0002568573660000021
为矩阵Ti的第j行第k列的元素,表示该组句子表述的关系是j,但被错误地标注为k的概率;
3)将该基础关系抽取模型M输出的关系分布pi乘以该转移矩阵Ti并归一化,得到输入的一组句子可能被标注成的关系的分布oi
4)以该关系分布oi拟合有噪声的标注为目标,训练该基础关系抽取模型M直到达到预设的终止条件,得到关系抽取模型;
其中,训练该基础关系抽取模型M的方法为:a)如果训练数据不能根据噪声程度进一步划分,则训练时使用的损失函数为
Figure FDA0002568573660000022
其中,N为训练数据的样本总数,一个样本是一个句子也可以是一组句子,
Figure FDA0002568573660000023
表示样本i用基础关系抽取器M输出的关系分布pi拟合有噪声的标注的误差,
Figure FDA0002568573660000024
表示样本i可能被标注成的关系分布oi拟合有噪声的标注的误差,Trace(Ti)表示样本i对应的转移矩阵Ti的迹,α是0到1之间的实数,β是一个实数系数;b)如果训练数据能根据噪声程度进一步划分为若干子集,则训练时使用的损失函数为
Figure FDA0002568573660000025
其中,S是子集总数,Ni是子集TDi的样本数,
Figure FDA0002568573660000026
为子集TDi的第j个样本被标注成的关系的分布oij拟合有噪声的标注的误差,βi是子集TDi上转移矩阵Tij的迹的正则项系数。
6.如权利要求5所述的方法,其特征在于,如果所述基础关系抽取模型M对该组句子仅生成一个向量表示si,则所述
Figure FDA0002568573660000027
其中,wjk是用来计算转移矩阵Ti的第j行第k列处的值
Figure FDA0002568573660000028
的参数,
Figure FDA0002568573660000029
为wjk的转置,b是偏置项,wjk和b在训练过程中通过反向传播更新,|C|为要抽取的关系的集合的大小。
7.如权利要求5所述的方法,其特征在于,如果所述基础关系抽取模型M对该组句子针对每一个关系l生成一个向量表示sil,则所述
Figure FDA0002568573660000031
其中,sij是该组句子针对关系j的向量表示,wk是关系k的权值向量,
Figure FDA0002568573660000032
是wk的转置,bj是关系j的偏置项,wk和bj在训练过程中通过反向传播更新,|C|为要抽取的关系的集合的大小。
8.如权利要求5所述的方法,其特征在于,可以再将所述向量表示si经过若干全连接层处理后,得到该组句子的新的整体向量表示s′i,然后根据s′i构建所述转移矩阵Ti
CN201710193366.9A 2017-03-28 2017-03-28 一种基于转移矩阵构建关系抽取模型的方法 Active CN106970981B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710193366.9A CN106970981B (zh) 2017-03-28 2017-03-28 一种基于转移矩阵构建关系抽取模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710193366.9A CN106970981B (zh) 2017-03-28 2017-03-28 一种基于转移矩阵构建关系抽取模型的方法

Publications (2)

Publication Number Publication Date
CN106970981A CN106970981A (zh) 2017-07-21
CN106970981B true CN106970981B (zh) 2021-01-19

Family

ID=59336048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710193366.9A Active CN106970981B (zh) 2017-03-28 2017-03-28 一种基于转移矩阵构建关系抽取模型的方法

Country Status (1)

Country Link
CN (1) CN106970981B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276066B (zh) * 2018-03-16 2021-07-27 北京国双科技有限公司 实体关联关系的分析方法及相关装置
CN111914091B (zh) * 2019-05-07 2022-10-14 四川大学 一种基于强化学习的实体和关系联合抽取方法
CN110489529B (zh) * 2019-08-26 2021-12-14 哈尔滨工业大学(深圳) 一种基于句法结构和重排序的对话生成方法
CN110795527B (zh) * 2019-09-03 2022-04-29 腾讯科技(深圳)有限公司 候选实体排序方法、训练方法及相关装置
CN113672727B (zh) * 2021-07-28 2024-04-05 重庆大学 一种金融文本实体关系抽取方法及***
CN116542250B (zh) * 2023-06-29 2024-04-19 杭州同花顺数据开发有限公司 一种信息抽取模型获取方法和***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011118526A (ja) * 2009-12-01 2011-06-16 Hitachi Ltd 単語意味関係抽出装置
CN103678703A (zh) * 2013-12-30 2014-03-26 中国科学院自动化研究所 一种借助图随机游走的开放类别命名实体抽取方法及装置
CN104035975A (zh) * 2014-05-23 2014-09-10 华东师范大学 一种利用中文在线资源实现远程监督人物关系抽取的方法
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858261B2 (en) * 2014-06-23 2018-01-02 International Business Machines Corporation Relation extraction using manifold models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011118526A (ja) * 2009-12-01 2011-06-16 Hitachi Ltd 単語意味関係抽出装置
CN103678703A (zh) * 2013-12-30 2014-03-26 中国科学院自动化研究所 一种借助图随机游走的开放类别命名实体抽取方法及装置
CN104035975A (zh) * 2014-05-23 2014-09-10 华东师范大学 一种利用中文在线资源实现远程监督人物关系抽取的方法
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Learning with Noise:Enhance Distantly Supervised Relation Extraction with Dynamic Transition Matrix;Bingfeng luo et al;《https://www.researchgate.net/publication/318737364_Learning_with_Noise_Enhance_Distantly_Supervised_Relation_Extraction_with_Dynamic_Transition_Matrix》;20170131;1-10 *
中文实体关系抽取研究;牟晋娟等;《计算机工程与设计》;20091231;第30卷(第15期);3587-3590 *
基于核方法的中文实体关系抽取研究;黄瑞红等;《中文信息学报》;20080930;第22卷(第5期);102-108 *

Also Published As

Publication number Publication date
CN106970981A (zh) 2017-07-21

Similar Documents

Publication Publication Date Title
CN106970981B (zh) 一种基于转移矩阵构建关系抽取模型的方法
CN108984745B (zh) 一种融合多知识图谱的神经网络文本分类方法
CN109635109B (zh) 基于lstm并结合词性及多注意力机制的句子分类方法
CN108363753B (zh) 评论文本情感分类模型训练与情感分类方法、装置及设备
CN107832400B (zh) 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN106886543B (zh) 结合实体描述的知识图谱表示学习方法和***
WO2022267976A1 (zh) 多模态知识图谱的实体对齐方法、装置及存储介质
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
CN113239186B (zh) 一种基于多依存关系表示机制的图卷积网络关系抽取方法
CN110334219A (zh) 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN110222178A (zh) 文本情感分类方法、装置、电子设备及可读存储介质
CN110674850A (zh) 一种基于注意力机制的图像描述生成方法
CN107220220A (zh) 用于文本处理的电子设备和方法
WO2019196210A1 (zh) 数据分析方法、计算机可读存储介质、终端设备及装置
CN111104509B (zh) 一种基于概率分布自适应的实体关系分类方法
CN103207855A (zh) 针对产品评论信息的细粒度情感分析***及方法
CN110781302B (zh) 文本中事件角色的处理方法、装置、设备及存储介质
CN109214562A (zh) 一种基于rnn的电网科研热点预测与推送方法
US20220036003A1 (en) Methods and systems for automated detection of personal information using neural networks
CN112836051B (zh) 一种在线自学习的法院电子卷宗文本分类方法
CN114722820A (zh) 基于门控机制和图注意力网络的中文实体关系抽取方法
CN114925205B (zh) 基于对比学习的gcn-gru文本分类方法
CN108920446A (zh) 一种工程文本的处理方法
CN113157919A (zh) 语句文本方面级情感分类方法及***
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及***

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant