CN114860955B

CN114860955B - 水产医学知识图谱补全方法、混合卷积模型及其训练方法和设备

Info

Publication number: CN114860955B
Application number: CN202210558822.6A
Authority: CN
Inventors: 于红; 杨惠宁; 邵立铭; 宋奇书; 李光宇; 孙哲涛
Original assignee: Dalian Ocean University
Current assignee: Dalian Ocean University
Priority date: 2022-05-21
Filing date: 2022-05-21
Publication date: 2023-10-03
Anticipated expiration: 2042-05-21
Also published as: CN114860955A

Abstract

本发明涉及一种水产医学知识图谱补全方法、混合卷积模型及其训练方法和设备，属于语义网络领域，为了解决水产医学的知识图谱补全技术中对复杂关系补全效果较差的问题，获取水产医学知识相关语料，要点是识别所述水产医学知识相关语料的实体并构建水产医学实体集；抽取所述水产医学知识相关语料实体间的关系并构建水产医学实体间的关系集；抽取所述水产医学实体和关系组成的三元组并构建水产医学三元组集；对所述三元组预训练，得到实体、关系及三元组的向量表示等，效果是对具有复杂关系的水产医学知识图谱实现补全。

Description

水产医学知识图谱补全方法、混合卷积模型及其训练方法和设备

技术领域

本发明属于语义网络领域，涉及一种水产医学知识图谱补全方法、混合卷积模型及其训练方法和设备。

背景技术

知识图谱是一种揭示实体间关系的语义网络，在医疗、教育、金融等各个领域都得到了广泛应用。在水产医学领域，知识图谱作为一种可视化的知识载体，是水产精准化养殖的关键，但由于水产医学数据存在稀疏、结构复杂等问题，使得构建的水产医学知识图谱并不完备，不能直接应用于水产养殖过程，因此，为实现精准化养殖，需对已构建的水产医学知识图谱进行补全，提升图谱构建质量。目前知识图谱补全方法主要是针对公共领域知识图谱进行补全，没有充分考虑到水产医学知识图谱存在实体结构复杂、特征不明显等特点，用现有方法对水产医学知识图谱进行补全时，图谱补全效果并不明显，所以为了有效提升图谱补全效果，提升图谱质量，需要研究一种针对水产医学知识图谱特点的图谱补全方法。

目前，基于知识图谱补全方法主要有以下几类:基于翻译模型的知识图谱补全方法、基于语义匹配的知识图谱补全方法以及基于神经网络的知识图谱补全方法。基于翻译模型的知识图谱补全方法，将实体和关系投影到连续的低维向量空间中，通过基于距离的打分函数判断三元组的正确性。Bordes等提出TransE模型，将尾实体看做是头实体通过关系翻译得到，对解决单一关系问题取得了很好的效果，但由于TransE模型不能很好地处理1-N、N-1和N-N复杂关系，不适合对复杂关系进行建模；Wang Z等提出TransH模型，该模型将实体投影到由关系构成的超平面上，使得同一实体在不同关系下的表示不同，可以有效解决复杂关系中相似实体的向量表示相近问题。基于翻译模型的知识图谱补全方法结构简单，易于拓展，但对三元组中的复杂语义联系的拟合能力有限。

基于语义匹配的知识图谱补全方法，通过计算实体和关系间语义的可信度来衡量三元组的正确性。Nickel M等提出了RESCAL模型，将关系通过矩阵来表示，实体和关系间为矩阵运算，使得实体和关系可以进行深层次交互，但随着关系矩阵维度增加，模型复杂度变高，容易出现过拟合问题；Yang等提出了DistMult模型，将关系矩阵限制为对角矩阵，简化了RESCAL模型，降低了模型复杂度，但DistMult模型只能有效解决知识图谱中的对称关系；Trouillon等提出了Complex模型将实体和关系映射到复数空间中，复数之间的埃尔米特乘积(Hermitian dot product)不具有交换性，从而能够同时解决对称和非对称关系补全问题。基于语义匹配的知识图谱补全方法有较强的的拟合能力但模型复杂度高，可拓展性较差，特征提取能力有限。

近年来随着神经网络的兴起，逐渐将神经网络应用与知识图谱进行补全任务。TimDettmers等提出ConvE模型，首次将卷积神经网络应用在知识图谱补全任务中，采用CNN提取头实体与关系的语义特征，然而ConvE模型没有考虑到三元组的结构信息，不能捕获三元组的全局特征，导致图谱补全准确率不高；Nguyen等提出ConvKB模型，该模型将整个三元组矩阵作为输入，捕获三元组的全局特征，有效提高了图谱补全效率，但ConvKB模型只提取到了实体和关系全局特征，使得实体和关系间的交互不充分，提取的语义特征不明显，影响图谱补全效果；Jiang X等提出了ConvR模型，在公开数据集上取得了较好的补全效果。但在水产医学领域由于实体的属性关系复杂多样，用现有方法对水产医学知识图谱进行补全时存在补全效果较差问题，不能满足水产医学知识图谱补全需求。

知识图谱补全技术旨在发现三元组中的缺失链接，解决知识图谱不完备问题，即预测缺失三元组是否正确，将正确三元组添加到知识图谱进行补全。早前研究者主要倾向于采用浅层、简单高效的模型来完成知识图谱补全任务，如将关系看做头实体到尾实体翻译的翻译模型，或者通过匹配实体和关系之间的潜在语义来度量它们之间是否存在合理联系的语义匹配模型，但上述嵌入模型只关注三元组结构信息，没有考虑三元组同维度属性，不能深层次挖掘实体和关系的特征。基于此，将卷积神经网络(Convolutional NeuralNetworks，CNN)引入知识图谱补全任务当中，CNN有较强的拟合能力与特征提取能力，可以捕获复杂关系，而且参数明显减少，但现有CNN知识图谱补全模型因实体与关系间交互性较差且三元组特征不明显，导致水产医学知识图谱中复杂关系的补全效果较差。

发明内容

为了解决水产医学的知识图谱补全技术中不能深层次挖掘实体和关系的特征的问题，本发明提出如下技术方案：

一种水产医学知识图谱补全方法，包括：

获取水产医学知识相关语料，识别所述水产医学知识相关语料的实体并构建水产医学实体集；

抽取所述水产医学知识相关语料的实体间的关系并构建水产医学实体间的关系集；

抽取所述水产医学实体和关系组成的三元组并构建水产医学三元组集；

对所述三元组预训练，得到实体、关系及三元组的向量表示；

所述三元组的关系向量作为卷积核对头实体向量进行二维卷积，获取头实体与关系间的局部特征向量，所述三元组的关系向量作为卷积核对尾实体向量进行二维卷积，获取尾实体与关系间的局部特征向量；

将头实体和关系间的局部特征向量、尾实体和关系间的局部特征向量和所述关系向量拼接，得到三元组向量矩阵；

使用卷积核与所述三元组向量矩阵中的每一行进行一维卷积得到特征图，对所得多个特征图拼接得到一个列向量；

将所述列向量和权重向量作点积运算；

根据点积运算所得分数判断一个所述三元组所具有的头实体、尾实体以及关系的正确性；

将判断为正确的三元组所具有的头实体、尾实体以及关系收录在水产医学领域知识图谱。

在一种技术方案中，所述步骤对所述三元组训练，包括通过TransH模型预训练将所述三元组向量表示。

在一种技术方案中，所述步骤通过TransH模型预训练将所述三元组向量表示，包括将水产医学实体间的关系集的每个关系r对应一个关系超平面W_r，在关系超平面W_r上定义关系向量p_r，将头实体h、尾实体t映射到关系超平面上得到头实体映射向量h_r、尾实体映射向量t_r。

在一种技术方案中，所述步骤所述三元组的关系向量作为卷积核对头实体向量进行二维卷积，获取头实体与关系间的局部特征向量；所述三元组的关系向量作为卷积核对尾实体向量进行二维卷积，获取尾实体与关系间的局部特征向量具体包括

将头实体向量V_h重塑为头实体二维矩阵M，

将尾实体向量V_t重塑为尾实体二维矩阵N，

将关系向量V_r切分成大小相等的关系向量片段，每个关系向量片段重塑成二维矩阵作为卷积核V_re，

对于每个关系卷积核V_re，对头实体二维矩阵M进行二维卷积，得到一个卷积特征图F^(e)，第x、y个特征图由公式(1)表示：

式(1)中：f表示激活函数，x表示得到的头实体卷积特征图所在行数，y表示得到的头实体卷积特征图所在列数，e表示第e个关系向量片段，表示第e个关系向量片段重塑所得卷积核，i表示第e个关系向量片段重塑所得卷积核第i行，j表示第e个关系向量片段重塑所得卷积核第j列；

对于每个关系卷积核V_re，对尾实体二维矩阵N进行二维卷积，得到一个卷积特征图F^(e)，第x、y个特征图由公式(2)表示：

式(2)中：f表示激活函数，x表示得到的尾实体卷积特征图所在行数，y表示得到的尾实体卷积特征图所在列数，e表示第e个关系向量片段，表示第e个关系向量片段重塑所得卷积核，i表示第e个关系向量片段重塑所得卷积核第i行，j表示第e个关系向量片段重塑所得卷积核第j列；

将头实体二维矩阵M卷积得到的特征图展平，并将各特征图连接得到头实体与关系间的局部特征向量V_{h_r}，/>表示第c个关系向量片段重塑所得卷积核对头实体二维矩阵M卷积后得到的特征图；

将尾实体二维矩阵N卷积得到的特征图展平，并将各特征图连接得到尾实体与关系间的局部特征向量V_{t_r}，/>表示第c个关系向量片段重塑所得卷积核对尾实体二维矩阵N卷积后得到的特征图；

其中：头实体向量尾实体向量/>关系向量/>d_e、d_r表示头尾实体和关系嵌入维度的大小，头实体二维矩阵/>尾实体二维矩阵/>表示头实体二维矩阵的维度大小、/>表示尾实体二维矩阵的维度大小，关系向量片段V_re∈R^dr/c，卷积核V_re∈R^l×r，c为卷积核的数量，l、r为卷积核的行数和列数；

头实体卷积特征图表示头实体卷积特征图维度；hl、hr表示头实体卷积核的行数、列数；

尾实体卷积特征图表示尾实体卷积特征图维度；tl、tr表示尾实体卷积核的行数、列数。

在一种技术方案中，所述步骤：将头实体和关系间的局部特征向量、尾实体和关系间的局部特征向量和所述关系向量拼接，得到三元组向量矩阵；

将所述列向量和权重向量作点积运算

具体包括：

将头实体与关系间的局部特征向量V_{h_r}、尾实体与关系间的局部特征向量V_{t_r}与关系向量V_r拼接得到三元组向量矩阵D＝[V_{h_r},V_r,V_{t_r}]，D∈R^d×3，d表示三元组向量矩阵的行数，D_i,:表示三元组向量矩阵D中的第i行；

将三元组向量矩阵D输送到卷积层，然后使用卷积核ω与三元组向量矩阵D中的每一行进行一维卷积，得到一个特征图F＝(F₁,F₂,...F_d)∈R^d,映射表示如式(3)所示：

Fi＝g(ω·D_i，:+b) (3)

式(3)中：g表示激活函数；·表示点积运算，ω表示卷积核，D_i,:表示三元组向量矩阵D中的第i行，表示一个超参数，为CNN中的偏置项；

其中在卷积操作中，卷积核ω大小为1×3，卷积核的数量为t，将产生的所有的t个特征图连接得到一个列向量V_F∈R^td×1，将列向量V_F和权重向量w∈R^td×1作点积运算，td×1表示所得列向量V_F和权重向量w的维度。

在一种技术方案中，所述步骤：

将列向量V_F和权重向量w∈R^td×1作点积运算

由公式(4)表示：

f(h,t)＝concat(g([V_{h_r},V_r,V_{t_r}]*Ω))·w (4)

式(4)中:Ω表示卷积核集，w表示权重，它们都是超参数，g代表激活函数，*代表卷积操作，concat表示连接操作，[V_{h_r},V_r,V_{t_r}]表示算法的输入矩阵。

在一种技术方案中，所述步骤：根据点积运算所得分数判断一个所述三元组所具有的头实体、尾实体以及关系的正确性具体包括：设置一个阈值，对于一个任意给定的三元组，如果根据点积运算所得分数低于或不高于所述阈值，则判断所述给定的三元组是正确的，否则判断所述给定的三元组是错误三元组。

一种应用所述方法的混合卷积模型，包括

嵌入层：通过TransH模型预训练将水产医学知识图谱三元组向量表示；

交互层：将所述三元组的关系向量作为卷积核对头实体向量进行二维卷积，获取头实体与关系间的局部特征向量，将所述三元组的关系向量作为卷积核对尾实体向量进行二维卷积，获取尾实体与关系间的局部特征向量；

全局特征提取层：将头实体和关系间的局部特征向量、尾实体和关系间的局部特征向量和所述关系向量拼接，得到三元组向量矩阵；使用卷积核与所述三元组向量矩阵中的每一行进行一维卷积得到特征图，对所得多个特征图拼接得到一个列向量；

一种所述混合卷积模型的训练方法，包括

获取数据作为构建水产医学领域知识图谱的语料，将语料进行预处理、数据清洗，删除噪音、空行、空格、停用词得到初始数据集；

对获取的所述构建水产医学领域知识图谱的语料标注，

从初始数据集中识别所述水产医学知识相关语料的实体并构建水产医学实体集；

从初始数据集中抽取所述水产医学知识相关语料的实体间的关系并构建水产医学实体间的关系集；

从初始数据集中抽取所述水产医学知识相关语料实体和关系组成的三元组并构建水产医学三元组集；

将所述列向量和权重向量作点积运算；

根据点积运算所得分数衡量所述三元组的置信度；

使用Adam优化器对所述混合卷积模型优化，通过最小化损失函数作为最终训练目标来训练所述混合卷积模型。

一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的方法中的步骤。

有益效果：本发明的所述三元组的关系向量作为卷积核对头实体向量进行二维卷积，获取头实体与关系间的局部特征向量，所述三元组的关系向量作为卷积核对尾实体向量进行二维卷积，获取尾实体与关系间的局部特征向量。能够加深头实体、尾实体与关系之间的交互，提取的语义特征更加显著，更易将同一关系对应的不同实体区分开。在此基础上，本发明将头实体和关系间的局部特征向量、尾实体和关系间的局部特征向量和所述关系向量拼接，丰富头尾实体与关系交互特征后的三元组向量矩阵。使用卷积核与所述三元组向量矩阵中的每一行进行一维卷积得到特征图，对所得多个特征图拼接得到一个列向量。因水产医学语料库中包含许多1-N、N-1复杂关系的三元组，若只进行头实体与关系的单一交互，捕捉到的尾实体与关系间的特征不显著，并不能很好地解决1-N复杂关系问题。所以将显著的头尾实体与关系间的交互特征与关系向量拼接再卷积，使得三元组的整体语义结构更加紧密，能够捕获和进一步加强三元组的全局语义特征。模型在丰富头尾实体与关系间的交互的基础上又捕获了三元组的全局特征，保留其翻译特性，从而能对具有复杂关系的水产医学知识图谱实现补全。

附图说明

图1HConvAM模型结构图。

图2TransH复杂关系建模图。

图3交互特征图。

图4全局特征提取图。

图5方法流程图。

具体实施方式

为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例。

本实施例提出一种基于混合卷积的水产医学知识图谱补全方法，所述方法应用于混合卷积模型中，使用TransH作为预训练模型，将关系向量作为卷积核分别对头尾实体进行二维卷积，丰富实体关系间的交互，然后再对三元组进行一卷积，捕获并加强三元组全局特征。

实验使用水产医学相关数据集，进行知识图谱补全相关的链接预测和三元组分类实验。实验结果表明，基于混合卷积的水产医学知识图谱补全方法有效解决了水产医学知识图谱中复杂关系补全效果较差问题，三元组分类准确率均优于现有模型。

所述的混合卷积模型网络包括：混合卷积模型、嵌入层、交互层和全局特征提取层，在一种实施例中，对所述模型网络的各组成详细说明。

混合卷积模型：现有补全模型大都只关注如何丰富实体关系间的交互，进而提升图谱补全效率，忽略了三元组中的翻译特性，在水产医学领域，针对水产医学知识图谱补全效果较差的问题，在已有模型基础上提出两点改进。首先，水产医学领域的属性关系较复杂，使用TransH模型作为预训练模型，将实体投影到由关系构成的超平面上，使得同一实体在不同关系下的表示不同，有效解决复杂关系问题；其次，针对补全过程中实体与关系之间交互性较差并且三元组特征不明显问题，设计采用关系向量作为卷积核分别对头尾实体进行二维卷积，丰富头尾实体与关系之间的交互，得到头尾实体的交互向量，再与关系向量拼接组成三列矩阵，作为CNN的输入并进行一维卷积，在丰富头尾实体与关系交互的基础上捕获实体关系的全局特征，保留其翻译特性，使得提取的语义特征更加显著，进而解决其交互性差与三元组结构特症不明显问题。模型结构如图1所示，由嵌入层，交互层，全局特征提取层组成。

嵌入层：词嵌入是一种对文本算法学习后的表示形式，即将文本中的词转换成数字向量的方法，为模型后续的特征捕获做准备。水产医学领域的体系结构较复杂，实体的属性关系也复杂多样，比如水产医学领域涉及水产品的病害症状、病害防治、病害流行地区等方面，其中，一个属性关系往往包含两个或两个以上的属性值，水产医学语料库中包含很多具有复杂属性关系的语料，如属性关系“防治”，与之对应的有(光合菌防治狂游症)，(净水剂防治狂游症)，(大黄防治狂游症)，(贯众防治狂游症)，(板蓝根防治狂游症)，(氟哌酸防治狂游症)等多个三元组数据，传统TransE嵌入模型不能对复杂关系进行建模，因此，使用TransH作为该方法的嵌入模型，使得到的输入向量具有一定的语义关联。

为了使水产医学知识图谱在复杂关系下有较好的补全效果，使用TransH模型进行预训练，该模型针对每个关系r，都给出一个关系超平面W_r，在W_r上定义关系向量p_r，再将头实体h和尾实体t映射到关系超平面上，得到头实体映射向量h_r，尾实体映射向量t_r，正确三元组满足h_r+p_r≈t_r，即尾实体投影是头实体投影通过关系翻译得到的。对复杂关系进行建模时，针对“防治”这类N-1型关系，如图2所示，当训练数据中含有三元组(光合菌，防治，狂游症)以及(净水剂，防治，狂游症)时，经过TransE训练后，光合菌和净水剂两个实体的向量会无限接近。然而光合菌和净水剂是两个完全不同的药物品种，TransE无法对这两个完全不同的种类进行有效地区分，导致TransE在复杂关系补全问题上的表现较差。经过TransH训练后，分析可得光合菌，净水剂在超平面上的映射是近似的，但h1，h2本身是不同的，可以有效区分，具有区分复杂关系的能力，且与后续改进的模型相比复杂度适中，执行效率较高，所以选择TransH作为预训练模型。

交互层：交互层是解决实体与关系之间交互性较差造成提取特征不显著，模型性能低下、补全效率不高问题的关键。首先，将经过TransH模型预处理之后得到三元组(h,r,t)相应的嵌入矩阵表示为(V_h,V_r,V_t),头实体向量尾实体向量/>关系向量d_e、d_r表示头尾实体和关系嵌入维度的大小。然后，将头实体向量V_h、尾实体向量V_t分别重塑为二维矩阵/>并作为CNN的输入，/>表示头、尾实体二维矩阵的维度大小。将关系向量V_r切分成大小相等的片段V_r1，V_r2，V_r3...V_rc，并将每个关系向量片段/>重塑成二维矩阵作为卷积核V_re∈R^l×r，再分别对头、尾实体矩阵M、N进行卷积，充分获得实体和关系之间的交互特征。c为卷积核的数量，l、r为卷积核的行数和列数。其次，对于每个关系卷积核，对头实体矩阵M进行二维卷积之后得到一个卷积特征图表示头实体卷积特征图维度；hl、hr表示头实体卷积核的行数、列数。计算第x、y个特征图的计算公式如式(1)所示：

式(1)中：f表示激活函数，x表示得到的头实体卷积特征图所在行数，y表示得到的头实体卷积特征图所在列数，e表示第e个关系向量片段，表示第e个关系向量片段重塑所得卷积核，i表示第e个关系向量片段重塑所得卷积核第i行，j表示第e个关系向量片段重塑所得卷积核第j列。

对于每个关系卷积核V_re，对尾实体矩阵N进行二维卷积之后得到一个卷积特征图表示尾实体卷积特征图维度；tl、tr表示尾实体卷积核的行数、列数。计算第x、y个特征图如式(2)所示：

式(2)中：f表示激活函数，x表示得到的尾实体卷积特征图所在行数，y表示得到的尾实体卷积特征图所在列数，e表示第e个关系向量片段，表示第e个关系向量片段重塑所得卷积核，i表示第e个关系向量片段重塑所得卷积核第i行，j表示第e个关系向量片段重塑所得卷积核第j列。

最后，将头实体二维矩阵M卷积得到的特征图展平，并将各特征图连接得到头实体与关系间的局部特征向量V_{h_r}，/>表示第c个关系向量片段重塑所得卷积核对头实体二维矩阵M卷积后得到的特征图。

将尾实体二维矩阵N卷积得到的特征图展平，并将各特征图连接得到尾实体与关系间的局部特征向量V_{t_r}，/>表示第c个关系向量片段重塑所得卷积核对尾实体二维矩阵N卷积后得到的特征图。

V_{h_r}、V_{t_r}作为模型下层的输入。详细交互特征图如图4所示，在该图示中，优选长度为9的头尾实体向量V_h、V_t分别被重塑为3×3的二维矩阵，再将长度为12的关系向量V_r进行分片并重塑，重塑为3个2×2的二维矩阵作为关系卷积核进行卷积操作。

交互层中使用二维卷积比一维卷积获得更多实体关系之间的交互，使用关系向量作为卷积核，不仅加深了头实体关系之间的交互，还扩大了尾实体和关系之间的交互，提取的语义特征更加显著，更易将同一关系对应的不同实体区分开，提高了整体模型的性能，提升了水产医学知识图谱的补全效果。

全局特征提取层：特征提取层主要在扩大头尾实体与关系之间交互的基础上捕捉三元组(V_{h_r},V_r,V_{t_r})相同维度的全局特征，保证其翻译特性。如果将TransH预训练后的三元组向量矩阵直接作为ConvKB模型的输入，然后采用标准卷积核对其进行一维卷积，获取三元组的全局特征，但其使用一维卷积只能获取三元组实体与关系拼接处的交互特征，提取的交互特征不显著，影响模型性能，进而影响对水产医学知识图谱的补全效果。在此基础上，增加头尾实体与和关系之间的交互，获得头实体与关系、尾实体与关系之间的局部特征向量V_{h_r}、V_{t_r}，再与原关系向量V_r进行拼接作为特征提取层的输入，进而捕获三元组的全局语义特征。

全局特征提取层如图4所示。首先，将交互层得到的头尾实体与关系间的局部特征向量V_{h_r}、V_{t_r}与原关系向量V_r进行拼接得到三元组向量矩阵D＝[V_{h_r},V_r,V_{t_r}]∈R^d×3，D_i,:∈R^1×3表示三元组向量矩阵D中的第i行。将D作为特征提取层卷积神经网络的输入输送到卷积层，然后使用卷积核ω与矩阵D中的每一行进行一维卷积，得到一个特征图F＝(F₁,F₂,...F_d)∈R^d,映射表示如式(3)所示：

F_i＝g(ω·D_i，:+b) (3)

式(3)中：g表示激活函数；·表示点积运算，ω表示卷积核，D_i,:表示三元组向量矩阵D中的第i行，表示一个超参数，为CNN中的偏置项。

其中在卷积操作中，卷积核ω大小为1×3，卷积核的数量为t，会产生t个特征图，将所有的特征图连接得到一个列向量V_F∈R^td×1，最后将列向量V_F和权重向量w∈R^td×1作点积运算，得到的分数作为判断三元组(V_{h_r},V_r,V_{t_r})是否正确的依据，打分函数如式(4)所示:

f(h,t)＝concat(g([V_{h_r},V_r,V_{t_r}]*Ω))·w (4)

式中:Ω表示卷积核集，w表示权重，它们都是超参数；g代表激活函数；*代表卷积操作；concat表示连接操作；[V_{h_r},V_r,V_{t_r}]表示算法的输入矩阵。

使用Adam优化器进行模型优化，通过最小化损失函数作为最终训练目标来训练HConvAM模型，损失函数如式(5)所示:

式(5)中R为正例三元组集合，R’为负例三元组集合。R’是通过替换R中的实体所得(如将正确三元组的头实体或尾实体用数据集其他实体代替)。

实验

水产医学知识图谱补全语料库

数据采集与预处理

首先需要从相关网站及书籍上获取数据作为构建水产医学领域知识图谱的语料。为保证数据的全面性和多样性，从水产医学相关书籍中获取34万余字符语料，在水产养殖网上收集相关文献320篇共23万余字符，在水生动物疾病远程辅助诊断服务网上获取5万余字符，共计62万余字符组成专用水产医学语料库。然后将语料进行预处理，数据清洗，删除噪音、空行、空格、停用词等无关语料。得到初始数据集。

水产医学三元组获取

水产医学知识图谱补全是在水产医学知识图谱初步构建的前提下进行的，在获取水产医学相关语料并对其进行标注后，利用水产医学命名实体识别操作从初始数据集中获取水产医学领域相关实体，之后再对其进行水产医学关系抽取操作来获取水产医学相关三元组数据，得到水产医学知识图谱补全语料库，水产医学知识图谱的三元组示例如表1所示。

表1.三元组示例

Table 1.Example table of triples.

语料库选取约450种水产相关疾病，其中包含病害症状、感染、防治、引发、适宜温度、流行地区、流行季节、流行时间等8种属性关系。5295个实体，10519个三元组，训练集、验证集、测试集大致比率为8∶1∶1，数据集统计情况如表2所示。分析水产医学语料可知，水产医学领域的属性关系较复杂，大多数属性关系都有可能对应有两个以上的头实体或属性值，因此，在对这些三元组进行知识图谱补全时，要特别注意这类复杂关系的建模和相关问题的处理。

表2.数据集统计

Table 2.Dataset Statistics

评价方法

采用正确三元组的平均排名MR(MeanRank)、正确三元组的倒数平均排名MRR(MeanReciprocal Rank)、正确三元组排在前N名的比例(Hit@N N＝1,3,10)、三元组分类任务准确率Accuracy作为模型的评价指标。MR、MRR、Hit@N计算过程如公式(6)-(9)所示：

式中D表示三元组集合；|D|表示三元组总个数；rank_i是指第i个正确三元组在三元组集合D中的排名；Ⅱ()表示indicator函数(若条件为真则函数值为1，否则为0)；|C|表示正确三元组个数。由上述计算过程可得MR值越低、MRR值越高、Hit@N越高、Accuracy值越高模型效果越好。

参数设置

使用TransH模型训练后得到的三元组矩阵作为交互层的输入，嵌入维度为256。对模型交互层和全局特征提取层影响较大的参数如卷积核大小l×r∈{2×2,3×3,4×4,5×5}，卷积核数量t∈{50,100,150,200,300,400}，学习速率λ∈{0.01,0.001,0.0001,0.00001}，衰减度dropout∈{0.1,0.2,0.3,0.4，0.5}，以Hit@N值作为衡量模型性能好坏的评判标准，通过在水产医学相关数据基础上反复实验可得，Hit@N值最优时，模型实验迭代次数epoch为400，批处理大小bacthsize为128，衰减度dropout值为0.0001，学习速率λ为0.3。模型交互层中卷积核数量为100，卷积核大小为3×3，全局特征提取层中卷积核大小为1×3，卷积核数量为150。

实验结果与分析

为验证基于混合卷积的水产医学知识图谱补全方法的有效性，设计了对比实验：(1)链接预测，(2)三元组分类。采用水产医学相关数据作为评估两组实验数据集。

链接预测

链接预测即预测知识图谱三元组中缺失的实体或关系。例如给定三元组(？，r，t)或者(h，r，？)，已知三元组尾实体/头实体以及关系，需预测出所缺失头实体/尾实体；或者给定三元组(h，？，t)，已知三元组头尾实体，需预测出该三元组所缺失关系。

为验证该方法有效解决了实体关系交互性较差及三元组特征不明显问题，设计链接预测消融对比实验。实验结果如表3所示。

表3.链接预测消融对比实验结果

Table 3.Ablation experiment results comparison table.

ConvKB模型采用TransE方法预训练作为卷积神经网络的输入，再对其进行一维卷积，提取三元组全局特征，然后通过基于神经网络的合理性函数对三元组的合理性进行度量，模型的MR、MRR、Hit@10值分别为785、0.270、0.301。TransE方法直接将关系作为头实体到尾实体的翻译，可以高效解决简单关系补全问题。但水产医学相关数据中存在许多复杂关系三元组，使用TransE方法不能有效区分针对同一关系不同实体的语义特征，造成模型补全效果较差；TransH+ConvKB模型使用TransH代替TransE方法对三元组进行预训练，TransH方法将实体投影到由关系构成的超平面上，再将关系作为头实体投影到尾实体投影之间的翻译，使得不同实体向量可以具有同一投影向量，在一定程度上有效解决了复杂关系问题，得到具有一定关联的实体关系向量，与ConvKB模型相比，模型的MRR、Hit@10值分别提高了0.020、0.011，MR值降低了30。TransH+ConvKB模型直接将预训练后的三元组矩阵进行一维卷积，然而一维卷积只能获取实体关系间头尾交互处的交互特征，导致实体关系间交互性差且三元组全局特征不明显，模型对复杂关系补全效果较差；本发明提出TransH+ConvAM模型，将关系向量作为卷积核分别对头尾实体进行二维卷积，获得充分交互后的头尾实体交互向量，再与关系向量拼接得到一个三列矩阵，进行一维卷积，捕获全局特征，该模型既丰富了实体关系间的交互，又增强了三元组特征表示。与TransH+ConvKB模型相比，模型的MRR、Hit@10值分别提高了0.049、0.049，MR值降低了81。实验结果表明该方法有效解决了实体关系交互性差且三元组全局特征不明显问题，提升了对图谱复杂关系的补全效果。

为验证该方法有效解决了水产医学知识图谱补全效果较差的问题，设计链接预测模型对比实验，知识图谱补全方法主要有基于翻译模型、基于语义匹配以及基于神经网络三类知识图谱补全方法，每类方法选择两个代表性的模型与本模型做对比实验。实验结果如表4所示。

表4.链接预测不同模型实验结果

Table 4.Model experiment results comparison table.

由表4实验结果可得，提出的基于混合卷积的水产医学知识图谱补全方法的补全效果均优于其他模型，主要是因为本模型既丰富了实体关系间的交互，又捕获并加强了三元组全局特征，模型MR、MRR、Hit@10值分别达到了674、0.339、0.361，与补全效果较好的ConvR模型相比，MRR、Hit@10值分别提升了0.04、0.036,MR值降低了72。实验结果表明，本模型有效增强了水产医学知识图谱中复杂关系的补全效果，进而提升了整个水产医学知识图谱的补全效果，为水产医学知识图谱补全提供了一种新方法。

三元组分类

三元组分类任务即判断知识图谱中三元组的有效性，是一个二分类任务，通过判别测试集中三元组分类的准确度来评估模型的分类效果。为验证本模型的有效性，设计了三元组分类模型对比实验，实验结果如表5所示。

表5.三元组分类对比实验结果

Table 5.Evaluation results of triple classifification.

由表5实验结果可得，提出的基于混合卷积的水产医学知识图谱补全方法的三元组分类准确率均优于其他模型，主要由于本模型有较强的全局特征提取能力，对于三元组的判定更加准确，模型的Accuracy为75.34％，与三元组分类准确率较高的ConvR模型相比，Accuracy提高了6.43％。实验结果表明，基于混合卷积的补全方法在三元组分类任务中效果显著，用于水产医学知识图谱补全性能更好。

(1)针对水产医学知识图谱补全过程中因实体与关系间交互性较差且三元组特征不明显，导致复杂关系的补全效果较差问题，提出了基于混合卷积的水产医学知识图谱补全方法。该模型MR、MRR、Hit@10值分别达到674、0.339、0.361，有效解决了复杂关系补全效果较差的问题，为水产医学知识图谱补全提供一种新方法，也为其他领域的知识图谱补全提供参考。

(2)现已构建的水产医学知识图谱主要以文本数据作为支撑，后续可能会添加图像、视频等多源信息，而本发明仅仅利用了水产医学相关三元组文本数据，因此，下一步工作可以考虑融合多源信息的水产医学知识图谱补全方法。

在一种实施例中，本发明提供一种应用在上述所述混合模型网络中的用于水产医学知识图谱补全方法，包括：

获取水产医学知识相关语料，识别所述水产医学知识相关语料的实体并构建水产医学实体集。

抽取所述水产医学知识相关语料的实体间的关系并构建水产医学实体间的关系集。

抽取所述水产医学实体和关系组成的三元组并构建水产医学三元组集。

对所述三元组预训练，得到实体、关系及三元组的向量表示。

所述三元组的关系向量作为卷积核对头实体向量进行二维卷积，获取头实体与关系间的局部特征向量，所述三元组的关系向量作为卷积核对尾实体向量进行二维卷积，获取尾实体与关系间的局部特征向量。

将头实体和关系间的局部特征向量、尾实体和关系间的局部特征向量和所述关系向量拼接，得到丰富头尾实体与关系交互特征后的三元组向量矩阵。

使用卷积核与所述三元组向量矩阵中的每一行进行一维卷积得到特征图，对所得多个特征图拼接得到一个列向量。

将所述列向量和权重向量作点积运算。

根据点积运算所得分数判断一个所述三元组所具有的头实体、尾实体以及关系的正确性。

在一种实施例中，所述步骤对所述三元组训练，包括通过TransH模型预训练将所述三元组向量表示。作为优选的，该步骤包括将水产医学实体间的关系集的每个关系r对应一个关系超平面W_r，在关系超平面W_r上定义关系向量p_r，将头实体h、尾实体t映射到关系超平面上得到头实体映射向量h_r、尾实体映射向量t_r。

所述步骤所述三元组的关系向量作为卷积核对头实体向量进行二维卷积，获取头实体与关系间的局部特征向量。所述三元组的关系向量作为卷积核对尾实体向量进行二维卷积，获取尾实体与关系间的局部特征向量具体包括

将头实体向量V_h重塑为头实体二维矩阵M。

将尾实体向量V_t重塑为尾实体二维矩阵N。

将关系向量V_r切分成大小相等的关系向量片段，每个关系向量片段重塑成二维矩阵作为卷积核V_re。

将头实体二维矩阵M卷积得到的特征图展平，并将各特征图连接得到头实体与关系间的局部特征向量V_{h_r}，/>表示第c个关系向量片段重塑所得卷积核对头实体二维矩阵M卷积后得到的特征图。

其中：头实体向量尾实体向量/>关系向量/>d_e、d_r表示头尾实体和关系嵌入维度的大小，头实体二维矩阵/>尾实体二维矩阵/>表示头实体二维矩阵的维度大小、/>表示尾实体二维矩阵的维度大小，关系向量片段V_re∈R^dr/c，卷积核V_re∈R^l×r，c为卷积核的数量，l、r为卷积核的行数和列数。

头实体卷积特征图表示头实体卷积特征图维度。hl、hr表示头实体卷积核的行数、列数。

尾实体卷积特征图表示尾实体卷积特征图维度。tl、tr表示尾实体卷积核的行数、列数。

在一种方案中，所述步骤将头实体和关系间的局部特征向量、尾实体和关系间的局部特征向量和所述关系向量拼接，得到丰富头尾实体与关系交互特征后的三元组向量矩阵。

将所述列向量和权重向量作点积运算

具体包括：

将头实体与关系间的局部特征向量V_{h_r}、尾实体与关系间的局部特征向量V_{t_r}与关系向量V_r拼接得到三元组向量矩阵D＝[V_{h_r},V_r,V_{t_r}]，D∈R^d×3，d表示三元组向量矩阵的行数，D_i,:∈R^1×3表示三元组向量矩阵D中的第i行。

F_i＝g(ω·D_i，:+b) (3)

式(3)中：g表示激活函数。·表示点积运算，ω表示卷积核，D_i,:表示三元组向量矩阵D中的第i行，表示一个超参数，为CNN中的偏置项。

在一种方案中，所述步骤：

将列向量V_F和权重向量w∈R^td×1作点积运算

由公式(4)表示：

f(h,t)＝concat(g([V_{h_r},V_r,V_{t_r}]*Ω))·w (4)

在一种方案中，所述步骤：

根据点积运算所得分数判断一个所述三元组所具有的头实体、尾实体以及关系的正确性

具体包括：设置一个阈值，对于一个任意给定的三元组，如果根据点积运算所得分数低于或不高于所述阈值，则判断所述给定的三元组是正确的，否则判断所述给定的三元组是错误三元组。

在一种方案中，所述阈值通过最大化验证集上的分类准确度得到。

在一种实施例中，一种应用所述方法的混合卷积模型，包括

嵌入层：通过TransH模型预训练将水产医学知识图谱三元组向量表示。

交互层：将所述三元组的关系向量作为卷积核对头实体向量进行二维卷积，获取头实体与关系间的局部特征向量，将所述三元组的关系向量作为卷积核对尾实体向量进行二维卷积，获取尾实体与关系间的局部特征向量。

全局特征提取层：将头实体和关系间的局部特征向量、尾实体和关系间的局部特征向量和所述关系向量拼接，得到丰富头尾实体与关系交互特征后的三元组向量矩阵。使用卷积核与所述三元组向量矩阵中的每一行进行一维卷积得到特征图，对所得多个特征图拼接得到一个列向量。

一种所述混合卷积模型的训练方法，包括

获取数据作为构建水产医学领域知识图谱的语料，将语料进行预处理、数据清洗，删除噪音、空行、空格、停用词得到初始数据集。

对获取的所述构建水产医学领域知识图谱的语料标注，

从初始数据集中识别所述水产医学知识相关语料的实体并构建水产医学实体集。

从初始数据集中抽取所述水产医学知识相关语料的实体间的关系并构建水产医学实体间的关系集。

从初始数据集中抽取所述水产医学知识相关语料实体和关系组成的三元组并构建水产医学三元组集。

将所述列向量和权重向量作点积运算。

根据点积运算所得分数衡量所述三元组的置信度。

所述补全方法中对于相关步骤的进一步限定适用在所述模型和训练方法对应步骤的限定。

本发明实施例还提供一种电子设备，该电子设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例提供的方法中的步骤。本发明实施例提供的电子设备能够实现上述方法实施例中的各个实施方式，以及相应有益效果。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例提供的方法，且能达到相同的技术效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，该程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存取存储器(Random AccessMemory，简称RAM)等。

本发明在最大化实体关系间交互的基础上捕获三元组的全局特征，提高图谱中复杂关系的补全效果。首先，采用TransH作为嵌入模型，有效区分同一关系类别下的实体语义差别，解决复杂关系中多个实体语义向量表示相近问题；其次，将关系向量作为卷积核，分别对头尾实体矩阵进行二维卷积，得到头尾实体交互向量，在卷积过程中使得头尾实体与关系充分交互，解决实体关系间交互性较差问题；此外，为有效学习三元组的全局特征，将头尾实体交互向量与关系向量拼接进行一维卷积，捕获三元组全局特征。最后，为验证所提出方法的有效性设计了对比实验，实验结果表明，提出基于混合卷积的水产医学知识图谱补全方法的MR、MRR、Hit@10值分别达到674、0.339、0.361，与补全效果较好的ConvR模型相比，MRR、Hit@10值分别提升了0.04、0.036，MR值降低了72。研究表明，该模型有效解决了复杂关系补全效果较差的问题，为水产医学知识图谱补全提供一种新方法，也为其他领域的知识图谱补全提供参考。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明，任何本领域技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种水产医学知识图谱补全方法，其特征在于，包括：

抽取所述水产医学知识相关语料实体间的关系并构建水产医学实体间的关系集；

使用卷积核与所述三元组向量矩阵中的每一行进行一维卷积得到全局特征图，对所得多个全局特征图拼接得到一个列向量；

将所述列向量和权重向量作点积运算；

将判断为正确的三元组所具有的头实体、尾实体以及关系收录在水产医学领域知识图谱；

其中：所述三元组的关系向量作为卷积核对头实体向量进行二维卷积，获取头实体与关系间的局部特征向量，所述三元组的关系向量作为卷积核对尾实体向量进行二维卷积，获取尾实体与关系间的局部特征向量，具体包括将头实体向量V_h重塑为头实体二维矩阵M，

将尾实体向量V_t重塑为尾实体二维矩阵N，

其中：头实体向量尾实体向量/>关系向量/>d_e、d_r表示头尾实体和关系嵌入维度的大小，头实体二维矩阵/>尾实体二维矩阵/> 表示头实体二维矩阵的维度大小、/>表示尾实体二维矩阵的维度大小，关系向量片段卷积核V_re∈R^l×r，c为卷积核的数量，l、r为卷积核的行数和列数；

2.如权利要求1所述的水产医学知识图谱补全方法，其特征在于，对所述三元组预训练，包括通过TransH模型预训练将所述三元组向量表示。

3.如权利要求2所述的水产医学知识图谱补全方法，其特征在于，通过TransH模型预训练将所述三元组向量表示，包括将水产医学实体间的关系集的每个关系r对应一个关系超平面W_r，在关系超平面W_r上定义关系向量p_r，将头实体h、尾实体t映射到关系超平面上得到头实体映射向量h_r、尾实体映射向量t_r。

4.如权利要求1所述的水产医学知识图谱补全方法，其特征在于，将头实体和关系间的局部特征向量、尾实体和关系间的局部特征向量和所述关系向量拼接，得到三元组向量矩阵；

将所述列向量和权重向量作点积运算；

具体包括：

将头实体与关系间的局部特征向量V_{h_r}、尾实体与关系间的局部特征向量V_{t_r}与关系向量V_r拼接得到三元组向量矩阵D＝[V_{h_r},V_r,V_{t_r}]，D∈R^d×3，d表示三元组向量矩阵的行数，D_i,:∈R^1×3表示三元组向量矩阵D的第i行；

将三元组向量矩阵D输送到卷积层，然后使用卷积核ω对三元组向量矩阵D中的每一行进行一维卷积，得到一个特征图F＝(F₁,F₂,...F_d)∈R^d,映射表示如式(3)所示：

F_i＝g(ω·D_i，:+b) (3)

5.如权利要求4所述的水产医学知识图谱补全方法，其特征在于，将列向量V_F和权重向量w∈R^td×1作点积运算，由公式(4)表示：

f(h,t)＝concat(g([V_{h_r},V_r,V_{t_r}]*Ω))·w (4)

6.如权利要求1所述的水产医学知识图谱补全方法，其特征在于，根据点积运算所得分数判断一个所述三元组所具有的头实体、尾实体以及关系的正确性，具体包括：设置一个阈值，对于一个任意给定的三元组，如果根据点积运算所得分数低于或不高于所述阈值，则判断所述给定的三元组是正确的，否则判断所述给定的三元组是错误三元组。

7.一种应用权利要求1-6任一项所述的水产医学知识图谱补全方法的混合卷积***，其特征在于，包括

全局特征提取层：将头实体和关系间的局部特征向量、尾实体和关系间的局部特征向量和所述关系向量拼接，得到三元组向量矩阵；使用卷积核与所述三元组向量矩阵中的每一行进行一维卷积得到特征图，对所得多个特征图拼接得到一个列向量。

8.一种应用权利要求1-6任一项所述的水产医学知识图谱补全方法的混合卷积模型的训练方法，其特征在于，包括

对获取的所述构建水产医学领域知识图谱的语料标注，

使用卷积核对所述三元组向量矩阵中的每一行进行一维卷积得到特征图，对所得多个特征图拼接得到一个列向量；

将所述列向量和权重向量作点积运算；

根据点积运算所得分数衡量所述三元组的置信度；

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～6中任一项所述的方法中的步骤。