CN106970981B

CN106970981B - 一种基于转移矩阵构建关系抽取模型的方法

Info

Publication number: CN106970981B
Application number: CN201710193366.9A
Authority: CN
Inventors: 罗炳峰; 冯岩松; 贾爱霞; 赵东岩
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-03-28
Filing date: 2017-03-28
Publication date: 2021-01-19
Anticipated expiration: 2037-03-28
Also published as: CN106970981A

Abstract

本发明公开了一种基于转移矩阵构建关系抽取模型的方法。本方法为：1)选择基础关系抽取模型M，其输入为一个句子或描述同一对主体和客体的一组句子，其输出为输入句子或输入的一组句子所描述的关系的分布p_i，并在中间结果中生成输入句子或输入的一组句子的向量表示s_i；2)根据s_i构建一个转移矩阵T_i；3)将该模型M输出的关系分布p_i乘以该转移矩阵T_i并归一化，得到输入句子或输入的一组句子可能被标注成的关系的分布o_i；4)以该关系分布o_i拟合有噪声的标注为目标，训练该基础关系抽取模型M直到达到预设的终止条件，得到关系抽取模型。本模型可以免受噪声的影响，从而可以取得更好的关系抽取效果。

Description

一种基于转移矩阵构建关系抽取模型的方法

技术领域

本发明涉及一种利用转移矩阵增强关系抽取器训练过程中对噪声数据的抵抗能力，从而提高关系抽取性能的方法，属于信息抽取领域。

背景技术

随着信息技术和互联网的发展，人们可以获取到的文本信息变得越来越多，如何利用这些大量的文本信息自动构建知识库，从而使得计算机可以更好地利用蕴含在这些文本中的信息，便成为一项非常重要的问题。

知识库一般由形如(主体，谓词，客体)的三元组构成，比如(中国，首都，北京)这条三元组就蕴含了“中国的首都是北京”这条知识。因而，自动构建知识库的过程就是自动生成这些三元组的过程。关系抽取旨在解决如何自动识别文本中所描述的的两个实例(一个实例可以是一个实体，比如“中国”，也可以是时间、数值等)之间的关系，从而构成三元组填充到知识库当中。

关系抽取任务所使用的数据主要是通过远监督的方法构建的，即利用一些种子知识自动检索出可能阐述这些知识的文字描述，然后使用这些有噪声的数据来训练关系抽取模型。这种方法的好处在于可以低成本的获取大量的训练数据，而缺点则是数据集中会有很大一部分是噪声数据。同时，人工标注的数据也有可能含有噪声，比如人可能会因为粗心而漏标某些数据，或者因为领域知识不足而无法识别一个句子是否在阐述一个关系。由于噪声数据会对模型的训练产生显著的影响，因而一个关系抽取模型的好坏很大程度上取决于它对噪声数据的抵抗能力。

发明内容

本发明的目的是提供一个对训练数据中的噪声有较强抵抗能力的关系抽取模型的构建方法。关系抽取任务的输入可以是一个句子，即判断输入句子所描述的目标主体和目标客体之间的关系；也可以是一组句子，其中每个句子都包含了目标主体和目标客体，即结合这一组句子综合判断目标主体和目标客体之间的关系。假设要抽取|C|个关系，则构建一个|C|×|C|的转移矩阵T，其中矩阵T中的任一元素T_ij表示输入句子(或输入的一组句子)所表述的真实关系是i，而它被错误地标注为关系j的概率。如此一来，给定一个基础的关系抽取模型M,设其输出的关系分布为p，在训练过程中本发明便可以不直接用p去拟合有噪声的标注，而是利用转移矩阵T将p转化为其可能被标注成的关系分布o，并利用o去拟合有噪声的标注。通过这种对噪声的显示建模方式，基础关系抽取器M在训练的时候可以免受噪声的影响，从而可以取得更好的关系抽取效果。

为了达到上述目的，本发明的技术方案为：

(1)选择可以生成输入句子的向量表示(或输入的一组句子的整体向量表示)的基础关系抽取模型M，其输出为待处理句子i(或待处理的第i组句子)所描述的关系的分布p_i，并在中间结果中生成待处理句子i(或待处理的第i组句子)的向量表示s_i。

(2)根据当前待处理句子i(或待处理的第i组句子)的向量表示s_i，构建一个转移矩阵T_i。其中

(即矩阵T_i的第j行第k列的元素)表示对于待处理的句子i(或待处理的第i组句子)而言，如果其表述的关系是j，其被错误地标注为k的概率(这里的j和k分别与矩阵T_i的第j行第k列相对应)。即此转移矩阵可认为是对输入句子(或输入的一组句子)的噪声模式的一种建模。

(3)训练时，将基础关系抽取模型M预测的输入句子(或输入的一组句子)所描述的关系分布p_i乘以转移矩阵T_i并归一化，得到其可能被标注成的关系的分布o_i，并以让o_i去拟合有噪声的标注为目标进行训练，直到达到预设的终止条件(比如达到预先指定的训练轮数，或者抽取效果相比于前一轮提升很小等)。

(4)经过步骤(3)，基础关系抽取模型M已经得到充分的训练。由于转移矩阵的引入，M在训练时也得以避免噪声的影响，从而取得更好的关系抽取效果。在实际使用的时候，直接用M的预测结果即可，不用再使用转移矩阵。

在步骤(1)中，虽然本发明限定基础关系抽取模型M必须可以生成输入句子的向量表示或输入的一组句子的整体向量表示，但是实际上绝大多数关系抽取模型均符合这一要求。对于传统的基于人工制定的特征模板的模型而言，句子的向量表示可以是抽取的特征组成的向量；对于神经网络模型而言，一般可以使用输出层前的那一层作为句子的向量表示(也可以使用其他的能完整建模整个句子的层)。而一组句子的整体向量表示则可以是这一组中每个句子的向量表示的加权平均，或者是先利用循环神经网络对每个句子进一步建模后再对每个句子的向量表示加权平均等。

在步骤(2)中，从句子向量表示(或一组句子的整体向量表示)s_i到转移矩阵T_i的过程可以由如下式子表示：

其中，w_jk是用来计算转移矩阵T_i的第j行第k列处的值

的参数，上式中w_jk的上标T表示转置，b是偏置项。w_jk和b在训练开始前随机初始化，并在训练过程中通过反向传播更新。

另外，有的时候一个模型可能会对输入句子(或输入的一组句子)针对每一个关系l都生成一个向量表示s_il。此时，转移矩阵T_i可以通过如下式子生成：

其中，s_ij是句子i(或第i组句子)针对关系j的向量表示，w_k是关系k的权值向量，上标T表示转置，b_j是关系j的偏置项。w_k和b_j在训练开始前随机初始化，并在训练过程中通过反向传播更新。

并且，句子i的向量表示(或第i组句子的整体向量表示)s_i也可以经过若干全连接层，得到新的句子i的向量表示(或第i组句子的整体向量表示)s′_i后再利用上述式子生成转移矩阵。

在步骤(3)中，可根据训练数据是否可以划分为不同噪声程度的若干子集，而使用两种不同的训练方式。

1)如果训练数据不可根据噪声程度进一步划分，则需要使用渐进的方式进行训练。此时的损失函数如下：

其中，N为训练集样本个数，一个样本可以是一个句子也可以是一组句子，

表示样本i用基础关系抽取器M的输出p_i拟合有噪声的标注的误差，

表示样本i可能被标注成的关系的分布o_i去拟合有噪声的标注的误差，Trace(T_i)表示转移矩阵T_i的迹(对角线元素之和)，α是0到1之间的实数，β是一个实数系数。这里误差loss可以使用包括交叉熵在内的所有可以衡量预测的关系分布与标注的关系之间差异的分段可导函数。Trace(T_i)在这里是一个正则项。考虑到转移矩阵T_i的每一行之和为1，而无噪声的情况下T_i应该是单位阵，则通过控制T_i的迹(对角线元素之和)便相当于控制转移矩阵的噪声建模强度。大的β表示本发明希望T_i趋近于单位阵，而小的(或者是负的)β表示本发明鼓励T_i去对噪声进行建模。

训练开始的时候，α设为1，β设置为较大的正数，即一开始本发明不鼓励对噪声建模，而是希望基础关系抽取模型M快速地从有噪声的标注中学习到基本的分类能力。之后，通过逐渐降低α和β，本发明在训练过程中逐渐强调噪声建模的重要性，从而降低噪声对于M的训练的影响。训练所用的优化方法可以采用包括随机梯度下降在内的所有基于梯度的优化方法。当达到预先设定的终止条件后，训练停止。其中，终止条件可以是训练达到了一定的轮数，或者在开发集上的关系抽取效果不再显著提升等。

2)如果训练数据可按照噪声程度由小到大，划分为若干子集(TD₁,TD₂，……)，则可使用如下的损失函数：

其中，S是子集个数，N_i是子集TD_i的样本数，一个样本可以是一个句子也可以是一组句子，

为子集TD_i的第j个样本可能被标注成的关系的分布o_ij拟合有噪声的标注的误差，β_i是子集TD_i上转移矩阵T_ij的迹的正则项系数。这里由于可以使用对不同子集噪声程度的先验知识，预先指定各个子集上转移矩阵的噪声建模力度，因而可以不使用l_ossp，而直接优化l_osso。具体来说，对于噪声程度低的子集，可以设置β_i为比较大的正数，而噪声程度高的子集，可以设置β_i为负数或者比较小的正数。

上述的损失函数loss，可以使用包括交叉熵在内的所有可以衡量预测的关系分布与标注的关系之间差异的分段可导函数。优化方法可以采用包括随机梯度下降在内的所有基于梯度的优化方法。训练时，除了可以直接在所有子集上训练，也可以先在噪声程度最小的子集上训练，然后将其他子集按照噪声程度从小到大的顺序依次逐渐加入到训练集中。训练的终止条件可以是训练达到了一定的轮数，或者在开发集上的关系抽取效果不再显著提升等。

在步骤(4)中，由于训练时基础关系抽取模型M实际上拟合的是隐含的真实关系分布，所以在实际使用的时候，直接使用基础关系抽取模型M的预测结果即可。

与现有技术相比，本发明的积极效果为：

在训练时，基础关系抽取模型M不用直接拟合有噪声的标注，而是通过转移矩阵将M所预测的输入句子(或输入的一组句子)所描述的关系的分布与有噪声的标注相联系，从而达到了去噪的效果。相比于现有的直接用M的输出拟合有噪声的标注的方法，本发明使得基础关系抽取模型M的训练免受噪声的影响，避免了生成有偏的模型，从而可以达到更好的关系抽取效果。

附图2所示为本发明在抽取客体为时间的关系上的效果(详见下文实施例的描述)，抽取结果以准确率-召回率曲线展示，曲线越高表示效果越好。该数据集可以分为不同噪声程度的3个子集，先在可靠的子集上训练再在不可靠的子集上训练的效果(各数据集依次训练)，显著优于把所有子集混合到一起训练的效果(混合数据集)，说明数据集中的噪声对模型的训练有很大的影响。而用了本专利的转移矩阵方法后，关系抽取效果进一步提升(依次训练+转移矩阵)，说明本发明可以有效的提高基础关系抽取模型在训练过程中的抗噪声能力，从而显著提高关系抽取的效果。

附图说明

图1为本发明实施例中的关系抽取方法的框架图示；

图2为本发明实施例中的关系抽取方法的抽取效果图示。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实例基于维基数据这一开放的百科知识平台中客体为时间的关系，以及***这一语料。本领域技术人员应该清楚地明白，在具体实施过程中也可以采用其他关系集合和其他语料。

具体来说，该实施例中要抽取的关系有12种，包括出生日期、死亡日期、组织成立日期、作品出版日期、航天器发射日期等。数据集构造过程如下：

1)收集维基数据中包含要抽取的关系的三元组，比如(百度，组织成立日期，2000年1月1日)；

2)对于一个三元组，找到***中所有同时包含该三元组中的主体和客体的句子，比如“李彦宏于2000年1月1日创建百度”；

3)本发明认为这些同时包含该三元组的主体和客体的句子为这个三元组的自然语言描述。但是，这一假设是不完备的，必然会出现例外的情况。于是本发明进一步假设，句子中提到的时间粒度越细，本发明认为其描述该三元组的可能性最强。比如，包含了“2000年1月1日”和“百度”的句子比只包含“2000年”和“百度”的句子更可能描述(百度，组织成立日期，2000年1月1日)这一三元组。根据这一原理，本发明将数据集分成不同可靠程度的三个子集：包含年月日，包含年月，包含年；

4)本发明将“包含年月日”这一子集的一部分三元组拿出来，当做测试集，剩下的当做训练集(其他两个子集中与测试集三元组有关的句子也被去除)。

如图1所示，是本发明实施例中基于转移矩阵的关系抽取方法的框架图示；

步骤1：生成待处理句子的向量表示。

对于输入的句子，本发明首先要生成其向量表示。这里，本发明首先将句子中的每个词转化为对应的词向量，然后通过卷积神经网络生成句子的向量表示(可参见ZengDaojian,Liu Kang,Chen Yubo,Zhao Jun.Distant Supervision for RelationExtraction via Piecewise Convolutional Neural Networks[C].Conference onEmpirical Methods in Natural Language Processing,2015)。

步骤2：利用基础关系抽取器生成该句子所描述的关系的分布。

获得句子的向量表示s_i后，本发明通过softmax分类器生成预测的关系分布，具体式子如下：

其中，p_ij是句子i所描述的关系的分布p_i的第j项，表示句子i描述关系j的概率，w_j是关系j的权值向量，w_j的上标T表示转置。

步骤3：对噪声进行建模，生成转移矩阵T_i。

这里由于一个句子只有一个向量表示，所以本发明使用方法部分提到的如下公式生成转移矩阵T_i：

其中

是转移矩阵T_i的第j行第k列的元素。

步骤4：利用预测的关系分布p_i和转移矩阵T_i生成该句子可能被标注成的关系的分布o_i：

其中，o_ij表示o_i的第j个元素，而第二个式子是对o′_i进行归一化，从而使得其满足概率分布的性质。

训练时，本发明先在“包含年月日”这一子集上训练15轮，然后加入“包含年月”这一子集再训练15轮，最后加入“包含年”这一子集再训练15轮。其中“包含年月日”，“包含年月”，“包含年”这三个子集的正则化系数(转移矩阵的迹的系数)分别为0.01，-0.01和-0.1。

图2展示了本方法的关系抽取效果，其评价指标是准确率-召回率曲线。具体来说，首先将关系抽取结果按照关系抽取器输出的置信度从高到低排序，依次对每个抽取结果以及比其置信度高的结果计算准确率和召回率，最终绘制成准确率-召回率曲线，该曲线越靠上表示关系抽取效果越好。其中，准确率和召回率的计算方法如下：

从图中可以看出，在不加转移矩阵的条件下，按照噪声程度从小到大的顺序将不同的数据子集依次加入训练集进行训练(各数据集依次训练)，要比直接在全部数据集上训练效果要好(混合数据集)，说明数据集中的噪声对训练出来的关系抽取模型的效果具有显著的影响。而加入了转移矩阵之后(依次训练+转移矩阵)，可以发现关系抽取效果相比于没加之前有了显著的提升，说明本发明可以有效地建模噪声，使得基础关系抽取器免受噪声的影响，从而取得更好的关系抽取效果。

综上所述，本发明实施例中，以维基数据和***为依托，构造了一个可靠的抽取客体是时间的关系的关系抽取器。在训练抽取器的过程中，本发明所提出的方法可以有效避免数据中噪声对关系抽取器的影响，从而训练出效果更好的关系抽取器。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。