CN110196978A

CN110196978A - 一种关注关联词的实体关系抽取方法

Info

Publication number: CN110196978A
Application number: CN201910479528.4A
Authority: CN
Inventors: 钟将; 袁红阳; 李青
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2019-09-03

Abstract

本发明公开了一种关注关联词的实体关系抽取方法，所述关注关联词的实体关系抽取方法，包括以下步骤：S1，输入已标签文本和待测文本，进行文本分词，获取每个词语映射的对应的实值向量；S2，将所有词语对应的实值向量两两组合，获取二元组合特征向量，计算二元组合特征向量与关系标签的权重向量，获取句子的二元词组特征；S3，将实值向量输入到神经网络层中，获取文本的语义结构和特征向量表示；S4，将步骤2输出的二元词组特征与步骤3输出的语义特征串联作为最终文本句子的表示，然后将最终文本句子的表示输入至句子级别的关注层，获得句子对于不同关系类型的权重，得到最后的关系分类结果输出。

Description

一种关注关联词的实体关系抽取方法

技术领域

本发明涉及深度学习与自然语言处理领域，具体涉及一种关注关联词的实体关系抽取方法。

背景技术

实体关系抽取是信息抽取领域的热点问题，其主要任务是在实体识别的基础上，在无结构的文本中进行实体关系抽取，实现实体关系的结构化存储与利用。该技术打破了人工阅读理解文本语义及获取关系的限制，在面对大量文本信息处理时具有速度优势，可应用于众多自然语言处理应用领域。例如，通过实体关系抽取，可以辅助知识图谱或者本体知识库的构建；也可以为自动问答***提供支持。从研究上看，该技术还可以提供理论支持，对目前语义网络标注，篇章理解，机器翻译方面都有着重要意义。

目前，基于机器学习方法的关系实体抽取技术主要分为有监督的学习方法、无监督的学习方法和半监督学习方法三种。有监督学习方法是最基本的关系抽取方法，他的思想主要是将已标记的训练数据用来训练关系抽取模型，然后就用这个模型实现数据中实体具备的关系类型进行预测。半监督的学习方法主要采用Bootstrapping进行关系抽取和充分利用现有的freebase进行的远程监督关系抽取。无监督的学习方法通过对所有实体对的语义关系进行聚类，并在此基础上实现关系的识别。中文文本语言特点复杂，大多使用关联词来进一步增强语义信息，而关联词更多倾向于使用两个词语来共同表示实体之间存在的语义关联，例如“因为”和“所以”表示因果关系；但现有的实体抽取方法并未关注关联词对实体提取的影响，难以适应于语言特点复杂的中文文本，实体抽取的准确率不高。

例如申请公布号为CN106202044A的发明专利申请公开了一种基于深度神经网络的实体关系抽取方法，该方法通过提取字特征、句子特征和类别特征，使用卷积神经网络分析得到抽取结果，解决了长短句问题，提高了实体关系抽取的性能，但未关注词语之间的联系，对于语言特点复杂的中文关系，仍存在实体抽取准确率不高的问题。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供一种关注关联词的实体关系抽取方法，通过关注关联词，提高多关联词出现时，实体抽取结果的准确性。

为了实现上述发明目的，本发明提供了以下技术方案：

一种关注关联词的实体关系抽取方法，包括以下步骤：

S1：输入已标签文本和待测文本，进行文本分词，获取每个词语映射的对应的实值向量；

S2：将所有词语对应的实值向量两两组合，获取二元组合特征向量，计算二元组合特征向量与关系标签的权重向量，获取句子的二元词组特征；

S3：将实值向量输入到神经网络层中，获取文本的语义结构和特征向量表示；

S4：将步骤2输出的二元词组特征与步骤3输出的语义特征串联作为最终文本句子的表示，然后将最终文本句子的表示输入至句子级别的关注层，获得句子对于不同关系类型的权重，输出最后的关系分类结果。

将可能存在二元关联词组显式表达语义关系的信息融合到词级的关注层中，充分利用了关联词在中文表达中的语义信息。再与语义特征拼接，结合成一个信息含量很大的向量，最后送入至句子级别的关注层，使整个网络层能够自动学习到更多有助于关系分类的特征，使分类的准确率更高。

优选地，所述步骤S1具体包括以下步骤：

S11：输入已标签文本和待测文本，文本分词，获取词向量；

S12：获取词语相对于句中特征实体对的相对位置的表示向量；

S13：拼接词向量和两个相对位置的表示向量，得到句子的实值向量。

获得句子的实值向量，以获取二元组合特征向量。

优选地，所述步骤S2具体包括以下步骤：

S21：两个词语对应的实值向量组合获取二元组合特征向量，通过将所有词语对应的实值向量两两组合，得到一个特征矩阵X，即特征矩阵X维度为(n²，d)，X_i为特征矩阵的第i个维度；

S22：训练词级注意力矩阵，并采用训练完成的词级注意力矩阵重点关注可能存在的影响关系分类的二元词组向量，计算二元组合特征向量与关系标签的相关性。

通过步骤S2计算二元组合特征向量与关系标签的相关性。

优选地，所述步骤S22具体包括以下步骤：

S221：定义词级注意力矩阵的维度，计算已标签文本的二元组合特征向量与各个关系标签的权重向量α_i，然后通过比较权重向量与文本的真实值，采用机器学习的方式自动通过梯度下降的方式学习调节词级注意力矩阵的参数，得到训练完成的词级注意力矩阵；

S222：通过训练完成的词级注意力矩阵计算待测文本的二元组合特征向量与各个关系标签的权重向量，基于权重向量得到经过词级关注的最终句子表示；

权重向量的具体计算方法如式(1)和式(2)所示，文本的最终句子表示计算方法如式(3)所示：

g_i＝X_ir， (1)

其中，r是本发明需要进行分类的关系标签在词级机器学习网络中的嵌入向量embedding向量，g_i表示每个二元词组与关系标签的相关性；α_i为权重向量，也为词级注意力矩阵，表示对于一个句子当中的所有二元词组与关系向量相似度的归一化值，即在一句文本中，不同的二元词组，根据与关系标签的相似性而所得到的关注权重不同；y为经过上述词级关注的最终句子表示。

训练词级注意力矩阵，以更好地计算待测文本的二元组合特征向量与各个关系标签的权重向量，得到句子经过词级关注的最终句子表示。

优选地，所述步骤S3采用BGRU网络层获取文本的语义结构和特征向量表示，句子的语义特征记做h，第i个句子的语义特征记为h_i，获取文本的语义特征。

优选地，所述步骤S4得到关系分类结果输出的具体过程如下：

第i个句子的向量表示为z_i,其中然后再利用句子级别的注意力机制来充分关注具有相同实体对且具有相同实体关系的语义信息，得到最后的结果分类输出；其中，通过句子级别的注意力机制获取分类结果的计算公式如式(4)至式(8)所示：

e_i＝z_iAr， (4)

o＝Ws+b， (7)

其中，A为句子级别注意力的对角矩阵，d为本发明需要进行分类的关系标签在句子级学习网络中的嵌入向量embedding向量，e_i表示句子与关系标签的相关性；k指的是文本包含的句子总数，β_i是表示每个句子与标签相似度的权重；s指经过句子级别关注的文本表示；W表示维度转换网络层内所有关系标签的embedding矩阵，b表示预训练的偏置矩阵bias矩阵；n_r表示关系类别数量，o_k表示文本与第k个关系标签相关的关系概率值，o_r表示所有关系概率值里面数值最大的关系概率值。

二元词组特征与语义特征拼接，结合成一个信息含量很大的向量，送入至句子级别的关注层，使整个网络层能够自动学习到更多有助于关系分类的特征，使分类的准确率更高。

与现有技术相比，本发明的有益效果：本算法将可能存在二元关联词组显式表达语义关系的信息融合到词级的关注层中，充分利用了关联词在中文表达中的语义信息。再与从BGRU网络层提取的特征拼接，结合成一个信息含量很大的向量，最后送入至句子级别的关注层，使整个网络层能够自动学习到更多有助于关系分类的特征，使分类的准确率更高。

附图说明：

图1为本发明示例性实施例1的一种关注关联词的实体关系抽取方法的算法流程图；

图2为本发明示例性实施例1的一种关注关联词的实体关系抽取方法的算法详细流程图；

图3为本发明示例性实施例1的文本内容关联抽取方法步骤S2的算法流程图；

图4为本发明示例性实施例1的文本内容关联抽取方法步骤S4的算法流程图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

实施例1

如图1或图2所示，本实施例提供一种关注关联词的实体关系抽取方法，包括以下步骤：

输入已标签文本和待测文本，获取文本句中的每个词语对应的词向量和每个词语相对于句中特殊实体对的相对位置的表示向量，并将三个向量拼接后来表示该词语的实值向量。

S11：输入已标签文本和待测文本，文本分词，获取词向量；

利用自然语言处理工具将文本中的词语映射为词向量。

目前常用的中文分词工具有SnowNLP、结巴分词、THULAC以及LTP等。结巴分词基于前缀词典实现词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)，并采用动态规划查找最大概率路径，找出基于词频的最大切分组合；对于未登录词，采用了基于汉字成词能力的HMM模型，采用Viterbi算法进行计算。本实施例使用结巴分词对文本进行分词操作。

文本分词后需利用自然语言处理工具将文本中的词语映射为词向量。可采取onehot representation、Distributed representation以及基于神经网络DNN模型(CBOW模型或Skip-Gram模型)等现有的词向量获取算法获取词向量。本实施例基于word2vec原理将文本映射为词向量，具体方式为调用gensim库训练完成的word2vec工具将分词的文本生成为词向量输出。

gensim是一个python的自然语言处理库，能够将文档根据TF-IDF、LDA、LSI等模型转化成向量模式，以便进行进一步的处理。此外，gensim还实现了word2vec功能，能够将单词转化为词向量。word2vec是***在2013年推出的一个NLP(Natural LanguageProcessing，自然语言处理)工具，它的特点是将所有的词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。word2vec也使用了CBOW与Skip-Gram来训练模型，然后获取词向量，但是word2vec并没有使用传统的DNN模型。word2vec采用霍夫曼树来代替隐藏层和输出层的神经元，霍夫曼树的叶子节点起到输出层神经元的作用，叶子节点的个数即为词汇表的大小，而内部节点则起到隐藏层神经元的作用。

gensim库的word2vec工具使用前，采用已标注的文本训练word2vec工具，生成相应的向量词典。

对于每一个给定的包含n个词语的句子S，利用word2vec将每个词语映射到dw维的词向量中，得到经过词向量映射后的文本表示S∈R^n×dw。

所述特征实体对用于表述每个词语的相对位置。所述特征实体对与文本所属技术领域有关。例如我们输入的训练示例是：实体A，实体B，关系r，句子s。其中句子s中出现了实体A和实体B。实体A和实体B为特征实体对。这里获取的是句子中每个词语相对于这样的实体对的位置，目的是为了获取这样的实体对在句子中的位置信息。

计算句子中每个词语相对于特征实体对中第一个实体的相对位置，再计算与特征实体对中第二个实体的相对位置，得到两个相对位置结果，再将这两个相对位置结果分别为映射位置向量，位置向量的维度为dp维，两个位置向量相结合，得到词语相对于句中特征实体对的相对位置的表示向量。最后将句子中的每个词语都映射为一个维度为2×d_p的相对位置的表示向量。

例如若特征实体为“小红”、“小明”以及“师生”等词语，输入的句子为“今天小红要求小明下周一交作业。”

在这个例子中，小红出现在句子中的下标为2的位置，而小明出现在句子中下标6的位置。而对于句子中的每个字，它与实体小红的相对位置值为：-2，-1，0，1，2，3，4，5，6，7，8，9，10，11；与实体小明的相对位置值为：-6，-5，-4，-3，-2，-1，0，1，2，3，4，5，6，7。

S13：拼接词向量和相对位置的表示向量，得到句子的实值向量；

把映射的词向量与词语相对于句中特征实体对的相对位置的表示向量拼接，得到的句子的最终实值向量，所述实值向量表示为W＝{w1，w2，...，wn}，其中第i个词语的实值向量记做w_i，w_i∈R^d×1,d＝d_w+2d_p。

由于在中文的语义表达中，两个关联词共同出现能增强实体间存在的关系。如：用私有密钥对数据进行加密，那么只有用对应的公开密钥才能解密。

从这句文本可以很明显看出，关联词“只有……才……”增强表示了私有密钥和公开密钥之间存在的条件关系。但如果“只有”或者“才”单个出现时，尽管仍可以表达这样的关系分类结果，但很明显关联词的同时出现能增强语义的表达。

因此考虑二元关联词共同出现影响分类结果的情况，将句子中的每个词语两两组合，组合的方式是将两个词语映射后的实值向量相加再求均值，并训练一个词级的注意力矩阵去重点关注可能存在的影响关系分类的二元词组向量。

如图3所示，步骤S2包括以下步骤：

S21：两个词语对应的实值向量组合获取二元组合特征向量，通过将所有词语对应的实值向量两两组合，得到一个特征矩阵X，即特征矩阵X维度为(n²，d)，X_i为特征矩阵的第i个维度。本实施例实值向量的组合方式为两个词语映射后的实值向量相加再求均值。

步骤S22具体包括以下步骤：

S221：定义词级注意力矩阵的维度，输入已标签的文本，计算已标签文本的二元组合特征向量与各个关系标签的权重向量α_i，然后通过比较权重向量与文本的真实值，采用机器学习的方式自动通过梯度下降的方式学习调节词级注意力矩阵的参数，得到训练完成的词级注意力矩阵。

S222：通过训练完成的词级注意力矩阵计算待测文本的二元组合特征向量与各个关系标签的权重向量，基于权重向量得到经过词级关注的最终句子表示，权重向量的具体计算方法如式(1)和式(2)所示，文本的最终句子表示计算方法如式(3)所示：

g_i＝X_ir， (1)

其中，r是本发明需要进行分类的关系标签在词级机器学习网络中的嵌入向量embedding向量，g_i表示每个二元词组与关系标签的相关性；α_i为权重向量，也为词级注意力矩阵，表示对于一个句子当中的所有二元词组与关系向量相似度的归一化值，即在一句文本中，不同的二元词组，根据与关系标签的相似性而所得到的关注权重不同；y为经过上述词级关注的最终句子表示，这样可以提高多关联词的出现影响分类结果情况下实体提取的准确性。组合向量送入词级关注的机器学习网络的Attention层，通过与词级注意力矩阵的相关运算，给予与关系分类结果相似度更高的关联词更强的权重，之后得到加权后的句子表示y。

将步骤S1得到的实值向量输入至神经网络层，获取文本的语义结构和特征向量表示。本实施例采用BGRU(Bi-directional Gated Recurrent Unit，双向门控循环单元)网络层，这个网络层会提供给输出层输入序列中每个点的完整的过去和未来的上下文信息。GRU是LSTM(Long-short Memory，长短时记忆)模型的简化版，仅仅包含两个门函数，重置门和更新门。

重置门决定先前的信息如何结合当前的输入，更新门决定保留多少先前的信息。由于GRU模型的参数相对更少，因此训练的速度会稍快。本实施例采用BGRU网络层，即包括一个前向的门控循环单元(Forward GRU)网络层和一个后向的门控循环单元(BackwardGRU)网络层。实值向量经过BGRU层得到的序列是一个学习到了长距离语义信息的上层特征向量，用来表示每一个句子的语义特征h，第i个句子的语义特征记为h_i，语义特征的获取方式与现有的实体提取中的语义获取方式类似，本发明的创新点不在此处，在此不做过多赘述。

S4：将步骤S2输出的二元词组特征与步骤S3输出的语义特征直接串联作为最终文本句子的表示，然后再将其输入至训练完成的句子级别的关注层，获得句子对于当前不同关系类型的权重，输出最后的关系分类结果。

如图4所示，我们将上述的两个表示的特征直接拼接，作为一个句子最终的特征向量表示。于是，第i个句子的向量表示为z_i,其中然后再利用句子级别的注意力机制来充分关注具有相同实体对且具有相同实体关系的语义信息，得到最后的结果分类输出。其中，通过句子级别的注意力机制获取分类结果的计算公式如式(4)至式(8)所示：

e_i＝z_iAd， (4)

o＝Ws+b， (7)

其中，A为句子级别注意力的对角矩阵，d为本发明需要进行分类的关系标签在句子级学习网络中的嵌入向量embedding向量，e_i表示句子与关系标签的相关性；k指的是文本包含的句子总数，β_i是表示每个句子与标签相似度的权重；s指经过句子级别关注的文本表示；公式(7)用于转换维度，以便于公式(8)的计算，其中W表示维度转换网络层内所有关系标签的embedding矩阵，b表示预训练的偏置矩阵bias矩阵；n_r表示关系类别数量，o_k表示文本与第k个关系标签相关的关系概率值，o_r表示所有关系概率值里面数值最大的关系概率值。特征向量z_i与每个关系标签的权重β_i计算完成之后，利用softmax分类层来归一化成概率，得到最大的那个概率值及该概率值对应的关系标签作为最终关系分类的输出结果。本实施例中的句子级别注意力的对角矩阵A，所有关系标签的embedding矩阵W以及预训练的bias矩阵均为通过已标签的文本训练更新参数后的矩阵，训练过程与步骤S22词级注意力矩阵训练方式类似，采用机器学习的方式自动通过梯度下降的方式学习调节相应矩阵的参数，得到训练完成的矩阵。

例如要分类的关系种类有5种，即n_r＝5。假如公式7中得到的o如下所示：

[(0，0.3321)，(1，0.0012)，(2，0.9231)，(3，0.1135)，(4，0.0011)]；

数组(0，0.3321)中，“0”表示关系种类标号为0，“0.3321”为对应的具体的概率值；其他数组的含义类似。

这时o_r就是0.9231，通过softmax分类层来归一化成概率，输出最终的概率值与关系种类标号“2”。

与现有的实体关系抽取方法相比，本发明主要做了针对处理面向知识元关系抽取存在的关联词影响抽取结果的改进。本算法将可能存在二元关联词组显式表达语义关系的信息融合到词级的关注层中，充分利用了关联词在中文表达中的语义信息。再与从BGRU网络层提取的特征拼接，结合成一个信息含量很大的向量，最后送入至句子级别的关注层，使整个网络层能够自动学习到更多有助于关系分类的特征，使分类的准确率更高。

以上所述，仅为本发明具体实施方式的详细说明，而非对本发明的限制。相关技术领域的技术人员在不脱离本发明的原则和范围的情况下，做出的各种替换、变型以及改进均应包含在本发明的保护范围之内。

Claims

1.一种关注关联词的实体关系抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的关注关联词的实体关系抽取方法，其特征在于，所述步骤S1具体包括以下步骤：

S11：输入已标签文本和待测文本，文本分词，获取词向量；

3.根据权利要求1所述的关注关联词的实体关系抽取方法，其特征在于，所述步骤S2具体包括以下步骤：

4.根据权利要求3所述的关注关联词的实体关系抽取方法，其特征在于，所述步骤S22具体包括以下步骤：

g_i＝X_ir， (1)

5.根据权利要求4所述的关注关联词的实体关系抽取方法，其特征在于，所述步骤S3采用BGRU网络层获取文本的语义结构和特征向量表示，句子的语义特征记做h，第i个句子的语义特征记为h_i，

6.根据权利要求5所述的关注关联词的实体关系抽取方法，其特征在于，所述步骤S4得到关系分类结果输出的具体过程如下：

e_i＝z_iAr， (4)

o＝Ws+b， (7)