CN113076744A

CN113076744A - 一种基于卷积神经网络的文物知识关系抽取方法

Info

Publication number: CN113076744A
Application number: CN202110410046.0A
Authority: CN
Inventors: 田侃; 唐昌伦; 赵�卓; 张殊; 张晨; 先兴平; 游小琳; 廖嘉欣
Original assignee: Chongqing University of Post and Telecommunications; Three Gorges Museum
Current assignee: Chongqing University of Post and Telecommunications; Three Gorges Museum
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2021-07-06

Abstract

本发明涉及自然语言处理领域，具体涉及一种基于卷积神经网络的文物知识关系抽取方法，包括：获取文物数据集，并对文物数据进行预处理，得到预处理后的文物数据；通过Word2vec的Skip－gram模型对预处理后的文物数据进行词向量的转化，提取句子中每个单词的词汇级别特征；提取文物数据中每条句子的句子级别特征；将所提取的词汇级别特征和句子级别特征进行拼接，得到拼接后的特征向量，将拼接后的特征向量作为分类任务的特征数据，接入全连接层；在全连接层将特征数据经线性变换，再通过Softmax分类器计算分类预测值，得到该句子对应关系的置信度得分。本发明提取的特征置信度更高，提高了关系抽取的效率。

Description

一种基于卷积神经网络的文物知识关系抽取方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于卷积神经网络的文物知识关系抽取方法。

背景技术

随着通信技术与互联网技术的飞速发展，为了实现文物知识的资源共享、有效利用，并让社会公众对文物知识有更多地了解与接触，使博物馆能够更好地为社会、公众提供服务的需求，人们提出利用信息技术将传统的实体博物馆所具有的功能以数字化的形式表现出来。因此可以通过构建知识图谱来建立文物知识之间的联系，达到博物馆数字化展览的目的。关系抽取是知识图谱构建的重要工作之一，关系抽取就是识别出实体和实体之间关系。关系抽取技术是将文物知识中的无结构化的信息转化为结构化的信息存储在知识库中一个必不可少的模块，为之后的数字化博物馆展览提供了一定的支持和帮助。

通常，传统的关系抽取技术采用基于规则的关系抽取技术，需要通过人工构造语法和语义规则，再将已经预处理的语句片段与模式规则进行匹配判定，完成关系抽取的分类。由于基于规则的关系抽取依赖于前期的规则制定，导致关系抽取的覆盖率低、人工成本较高、可移植性较差、很难设计冲突重叠的规则等问题。针对基于规则的关系抽取很难适用于复杂的文物信息关系抽取的问题。本发明考虑了文物信息的多样性与深邃性，利用基于深度学习算法的关系抽取能够自动学习到信息的有效特征，结合卷积深度神经网络提取句子的词汇和句子特征进行关系抽取。

发明内容

本发明针对上述基于规则的关系抽取需要耗费大量人力去设计规则，很难适用于复杂多样的文物信息关系抽取的问题，提供一种基于卷积神经网络的文物知识关系抽取方法。

一种基于卷积神经网络的文物知识关系抽取方法，包括以下步骤：

S1、获取文物数据集，并对文物数据进行预处理，得到预处理后的文物数据；

S2、通过Word2vec的Skip－gram模型对预处理后的文物数据进行词向量的转化，提取句子中每个单词的词汇级别特征；

S3、提取文物数据中每条句子的句子级别特征；

S4、将所提取的词汇级别特征和句子级别特征进行拼接，得到拼接后的特征向量(句子表示)，将拼接后的特征向量作为分类任务的特征数据，接入全连接层；在全连接层将特征数据经线性变换，再通过Softmax分类器计算分类预测值，得到该句子对应关系的置信度得分，置信度得分反映句子的关系。

进一步的，步骤S3中，提取文物数据中每条句子的句子级别特征包括：

S31、针对文物数据中的每条句子提取词特征和位置特征，对词特征和位置特征进行组合拼接，得到拼接后的特征向量；

S32、将拼接后的特征向量送入卷积神经网络中提取句子级别特征，得到卷积神经网络输出的特征向量；

S33、利用最大池化对卷积运算的输出特征向量进行降采样，得到更精准的句子级别特征。

进一步的，卷积神经网络的结构包括输入层、池化层和卷积层，所述池化层用于采用MaxPooling，选取卷积结果计算后的最强特征；所述卷积层用于提取特征。

进一步的，卷积神经网络的处理流程包括以下过程：

S321、将词特征和位置特征组合拼接后得到的特征向量输入到卷积神经网络中，输入为一个k×n的词向量矩阵，其中k为词向量的维度，n为一条句子所包含词语的个数；

S322、对输入矩阵进行窗口截取，窗口大小为l，截取后的窗口表示为：

q_i＝w_i:i+l-1∈R^l×d(1≤i≤m-l+1)

其中，q_i表示窗口大小为l的句子表示，w表示文本嵌入表示，R表示文本的维度为l×d；

S323、卷积层对窗口中的每一个词组进行处理，输出每个词对应的上下文特征向量；第k个卷积核W_k对第i个窗口作用的结果计算如下：

p_k,i＝f(W_kq_i+b)∈R

其中，f(·)为正切函数，W_k表示卷积核，q_i表示窗口大小为l句子表示，b偏置项；

卷积神经网络最终输出为：

p_k＝[p_k,1…p_k,m-l+1]^T∈R^m-l+1。

其中，p_k是第k个卷积核的输出的结果，p_k,1表示第一个窗口输出的卷积结果，R表示输出结果的维度，m表示句子长度，l表示窗口大小。

进一步的，利用最大池化对卷积神经网络的输出结果进行降采样，去除句子中包含的冗余噪声信息，筛选出对于卷积层中最有用的局部特征信息，表达式如下：

p_k,max＝max(p_k)

最大池化操作，并将输出结果拼接起来，经非线性变换，选择双曲正切作为激活函数，计算方法如下，从而得到更精准的句子级别特征：

x＝tanh(W·p_k,max)

其中，x表示更精准的句子级别特征，且x∈R^dc，W为待学习的权重矩阵，tanh为激活函数，p_k,max为池化后的特征向量。

本发明具有以下优势：

(1)采用位置特征，去编码句子中的当前词对于两个标记名词的相对距离。从而能够提取出词特征无法获得的结构信息，提升单词间的关联度，使得提取的特征置信度更高。

(2)采用卷积神经网络自动提取特征，解决基于规则的关系抽取需要耗费大量人力去设计冲突重叠的规则的问题以及规则可移植性较差的问题，实现自动学习特征，提高了关系抽取的效率。

(3)采用最大池化操作，对卷积层的输出结果进行降采样，有利于筛选出对于卷积层中最有用的局部特征信息，作为分类模型的输入。

附图说明

下面结合附图和具体实施方式对本发明做进一步详细的说明。

图1为本发明提供的关系抽取方法模型的图解；

图2为本发明提供的Skip-gram模型的图解；

图3为本发明提供的一种基于卷积神经网络的文物知识关系抽取方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供一种基于卷积神经网络的文物知识关系抽取方法，如图1-图3所示，所述方法具体实施如下：

第一步，获取文物信息数据集，并对文物数据进行预处理，将各部分数据按相应格式对齐存储，得到预处理后的文物数据。

首先将文物信息数据集按8:1:1的比例分为训练集、测试集、验证集3个部分。关系类别文件中一共包含23种要预测的关系，在这个已知类别的文件基础上，根据本发明方法判断输入句子包含的关系属于关系类别文件中的哪一类关系。

在命名实体识别的基础上，对文物信息数据进行预处理，所述预处理包括：将长句进行拆分、简繁体转化、去除各种标点符号、停用词等。

使用分词工具对句子中的文本进行分词，然后将每个句子用训练好的Word2vec等模型转换为原始向量。通过该组件，查找词嵌入将每个输入带标记的单词转换成向量，从而生成用于初始化的word_embedding向量矩阵。词向量进行编码之后，便可以将文本数据转换成数值数据。

第二步，提取句子中每个单词的词汇级别特征。

所述词汇级别特征主要包括名词本身、名词对的类型和实体间的词序列等特征。根据Word2vec的Skip－gram模型进行词向量的转化，从而获取词特征。

Skip-gram模型算法的过程包括：首先根据训练文本数据构建词汇表，然后学习单词的矢量表示。生成的单词矢量文件可以用作以词嵌入作为基础特征。Skip-gram算法模型如图2所示。为了提取词汇级别特征，Skip-gram算法具体操作就是在给出目标单词(中心单词)的情况下，预测它的上下文单词(除中心单词外窗口内的其他单词，这里的窗口大小是2，也就是左右各两个单词)。

假设输入的句子为“陈子昂，字伯玉。”，若目标词是“字”，窗口大小为2，则上下文词是“子昂”、“伯玉”。

第三步，针对文物数据中的每条句子提取词特征和位置特征，对词特征和位置特征进行组合拼接，得到文物数据中每条句子的句子级别特征。

所述句子级别特征主要包括词特征和位置特征。

句子级别特征提取的过程包括：

S32、将拼接后的特征向量送入卷积神经网络提取句子级别特征，得到卷积神经网络输出的特征向量；

S33、利用最大池化对卷积神经网络输出的特征向量进行降采样，从而得到更精准的句子级别特征。

由分布假设理论指出，出现在同一语境中的词往往有相似的含义。因此，在一种优选实施方式中，为了精确捕获文本中的词特征，在提取词特征时，设置单词上下文词的窗口大小，针对句中的单词，提取出对应窗口大小的上下文特征。词特征WF表示一个单词及该单词的上下文的特征向量。

在一个具体的实施例中，假设句子的单词序列为：[陈₁子₂昂₃，字₄伯₅玉₆]，句子中所有单词标记被表示为一个向量列表(x₀，x₁，…，x₆)，x_i代表句子中词嵌入的第i个单词。使用w代表单词上下文窗口大小，设置w＝2,则句子中第二个单词“子”，它的词特征表示为：[x₀,x₁,x₂]。故对于整个句子，词特征WF表示为：

{[x_s,x₀,x₁],[x₀,x₁,x₂],[x₁,x₂,x₃],[x₂,x₃,x₄],[x₃,x₄,x₅],[x₄,x₅,x₆],[x₅,x₆,x_e]}。

一个词的位置特征是指该词分别与相邻两个实体之间的相对距离的组合向量。例如：[陈子昂₁，字₂伯玉₃。]，句子中的“字”字与“陈子昂”和“伯玉”的相对距离分别是1和-1。将相对距离转换成一个随机初始化的维度向量d_e，然后求得相对距离的向量d₁和d₂，其中PF＝[d₁，d₂]。

提取词特征WF和位置特征PF后，对词特征和位置特征进行组合拼接，再进行转置运算，即[WF，PF]^T，得到拼接后的特征向量为X＝{w₁,w₂,.....,w_m}，将由句子的特征向量构成的矩阵X作为卷积神经网络的原始输入进行句子级别特征提取。

发明种所采用的卷积神经网络是一种改进的算法，将卷积神经网络应用在文本数据的关系抽取中。解决基于规则的关系抽取需要耗费大量人力去设计冲突重叠的规则的问题以及规则可移植性较差的问题，实现自动学习特征，提高了关系抽取的效率。并对传统的卷积神经网络的特征向量处理有所修改，传统处理特征向量的流程是：特征向量矩阵输入到卷积层时，卷积层负责提取特征，然后将提取的特征喂入全连接层用于关系分类。而本实施例的核心改进有两个，主要是在特征提取过程中加入位置特征提取以及在卷积层后加入池化层。第一，对文本提取特征时，添加位置特征的提取，可以提取出词特征无法获得的结构信息，提升单词间的关联度，提取出单词的上下文信息；第二，池化层的作用是从卷积核抽取到的若干特征值中选取最大的特征值保留，其他的特征值全部抛弃。特征值最大代表是这些特征中最强的，抛弃其他弱的此类特征。在传统卷积神经网络引入池化层，可以减少模型的参数且选择更优的特征。

卷积神经网络的处理流程具体包括以下过程：

S321、卷积神经网络的输入为词特征和位置特征组合拼接后得到的特征向量，为一个k×n的词向量矩阵，其中k为词向量的维度，n为一条句子所包含词语的个数。卷积核的维度为l×d。

S322、进行卷积操作之前，需要对输入的Embedding矩阵进行窗口截取。窗口截取过程主要包括以下实施过程：

根据卷积核的维度，窗口大小为l，第i个窗口可以表示为：

q_i＝w_i:i+l-1∈R^l×d(1≤i≤m-l+1)

其中，q_i表示窗口大小为l的句子表示，w表示文本嵌入表示，R表示文本的维度为l×d。

S323、卷积层对窗口中的每一个词组进行处理，输出每个词对应的上下文特征向量，而且其对应的仅仅是局部特征。

在卷积神经网络中，由d_c个卷积核组成的集合可以表示为一个张量

则第k个卷积核W_k对第i个窗口作用的结果计算如下：

p_k,i＝f(W_kq_i+b)∈R。

其中，f(·)为正切函数，W_k表示卷积核，q_i表示句子表示，b偏置项。

通过对所有的窗口i(1≤i≤m-l+1)进行卷积计算，得到卷积神经网络最终输出，第k个卷积核的输出的结果为：

p_k＝[p_k,1…p_k,m-l+1]^T∈R^m-l+1。

其中，p_k是卷积神经网络最终输出，p_k,1表示第一个窗口输出的卷积结果，R表示输出结果的维度，m表示句子长度，l表示窗口大小，T表示转置操作。

进一步的，在一个实施例中，利用最大池化对d_c个卷积核的输出结果进行降采样，去除句子中包含的一些冗余的噪声信息，来筛选出对于卷积层中最有用的局部特征信息。根据公式p_k,max＝max(p_k)对d_c个卷积核的输出结果分别做最大池化操作，并将输出结果拼接起来，经非线性变换，选择双曲正切作为激活函数，计算方法如下，从而得到更精准的句子级别特征

x＝tanh(W·p_k,max)

其中，W为待学习的权重矩阵，tanh为激活函数，p_k,max为池化后的特征向量。

第四步，将词汇级别特征和句子级别特征组合拼接，得到拼接后的特征向量(句子表示)，将拼接后的特征向量作为分类任务的特征数据接入全连接层，在全连接层将特征数据经线性变换，最后通过softmax激活函数给出分类预测值，从而预测实体对关系的概率，根据实体对关系的概率计算该句子对应每个关系的置信度得分。得分高的关系即为句子抽取出的关系。

对给定实体对的句子，预测实体对关系的概率如下：

其中，O表示关系概率建模表达式，r表示关系中的第r个关系，x表示句子级别特征，M为待学习的权重矩阵，d为待学习的偏置项，o_k表示O中的第k个元素，n_r为关系类别的数量。

需要说明的是，本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-0nly Memory，ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

以上所述仅是本申请的具体实施方式，应当指出，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于卷积神经网络的文物知识关系抽取方法，其特征在于，包括以下步骤：

S3、提取文物数据中每条句子的句子级别特征；

S4、将所提取的词汇级别特征和句子级别特征进行拼接，得到拼接后的特征向量，将拼接后的特征向量作为分类任务的特征数据，接入全连接层；在全连接层将特征数据经线性变换，再通过Softmax分类器计算分类预测值，得到该句子对应关系的置信度得分，置信度得分反映句子的关系。

2.根据权利要求1所述的一种基于卷积神经网络的文物知识关系抽取方法，其特征在于，步骤S3中，提取文物数据中每条句子的句子级别特征包括：

3.根据权利要求2所述的一种基于卷积神经网络的文物知识关系抽取方法，其特征在于，卷积神经网络的结构包括输入层、池化层和卷积层，所述池化层用于采用MaxPooling，选取卷积结果计算后的最强特征；所述卷积层用于提取特征。

4.根据权利要求2所述的一种基于卷积神经网络的文物知识关系抽取方法，其特征在于，卷积神经网络的的处理流程包括以下过程：

q_i＝w_i:i+l-1∈R^l×d (1≤i≤m-l+1)

p_k,i＝f(W_kq_i+b)∈R

其中，f(·)为正切函数，W_k表示卷积核，q_i表示窗口大小，b偏置项；

卷积神经网络最终输出为：

p_k＝[p_k,1…p_k,m-l+1]^T∈R^m-l+1

5.根据权利要求4所述的一种基于卷积神经网络的文物知识关系抽取方法，其特征在于，利用最大池化对卷积神经网络的输出结果进行降采样，去除句子中包含的冗余噪声信息，筛选出对于卷积层中最有用的局部特征信息，表达式如下：

p_k,max＝max(p_k)

x＝tanh(W·p_k,max)

其中，x表示更精准的句子级别特征，且

W为待学习的权重矩阵，tanh为激活函数，p_k,max为池化后的特征向量。