CN109241291A

CN109241291A - 基于深度强化学习的知识图谱最优路径查询***及其方法

Info

Publication number: CN109241291A
Application number: CN201810791353.6A
Authority: CN
Inventors: 黄震华
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2019-01-18
Anticipated expiration: 2038-07-18
Also published as: CN109241291B

Abstract

本发明提出了一种基于深度强化学习的知识图谱最优路径查询方法，包括两个模块，分别为模块一和模块二，所述模块一为知识图谱最优路径模型离线训练模块，模块二为知识图谱最优路径模型在线应用模块，所述知识图谱最优路径模型离线训练模块设有深度强化学习部件，对当前实体作深度强化的训练学习，得出下一实体，再以下一实体作当前实体重复训练学习，得出最优路径模型，再由起始实体与目标实体输入到模块一得出的最优路径模型，最终得到最优路径，本发明增加了模型的泛化能力，提升了计算准确度，本发明的逻辑结构清晰、计算方式灵活，尤其是强化学习与深度学习可以分布式计算，提升了运算效率。

Description

基于深度强化学习的知识图谱最优路径查询***及其方法

技术领域

本发明涉及计算机领域，具体涉及一种基于深度强化学习的知识图谱最优路径查询***及其方法。

背景技术

知识图谱(Knowledge Graph)旨在描述和刻画真实世界中存在的各种实体(Entity)以及实体间的关系(Relation)，通常用有向图来组织和表示，而图中的节点表示实体，而边则由关系构成，关系用来连接两个实体，刻画它们之间是否具有该关系所描述的关联性；如果两个实体间存在一条边，说明它们之间有关联性，否则表示没有关联性。在实际应用中，对知识图谱中的每个实体关系(即图的每条边)附加加一个0～1之间的数值，反映了实体之间的关联程度；根据不同的应用需求，该数值可以表示置信度、紧密度、距离或代价等等，因此称这种知识图谱为概率知识图谱。

概率知识图谱实体间最优路径查询对于知识图谱领域检索两个实体之间的关系具有极其重要的意义，是知识抽取、实体检索、知识图谱网络优化以及知识图谱实体间关系分析等应用的核心技术之一。针对这种复杂的数据查询和检索类型，需要有一种有效的数据组织方式和高效的查询处理方法才能精准有效地计算出用户所需要的结果，因此，提高查询效率并降低处理代价是非常有必要也是极具挑战性的。概率知识图谱的拓扑结构是加权有向图。

目前，主流的图最优路径查询方法有Dijkstra算法、Floyd算法以及Bellman-Ford算法等。然而，随着大数据时代的到来，这些方法的查询效率已经无法满足人们可接受的时间范围以及机器所能容纳的存储空间，它们对于解决数据量极大的最优路经查询已经无能为力。

而且目前发现，对于概率知识图谱这种大规模数据网络，如果想要降低查询时间，往往采用以空间换取时间的策略，将查询频率较高的查询结果进行存储，Landmaeks-BFS方法根据用户对概率知识图谱实体的查询频率排序，将常用实体之间的最优路径剪枝，把实体之间的最优路径存储在集合中，这种方法降低搜索空间，但是忽略了节点在网络中的分散性，查询准确率不高。此外，也有一些在查询数据预处理上采用加速技术，例如基于双向搜索的并行查询方法、基于目标引导的查询方法以及基于分层的查询方法。这些技术在查询效率上满足了要求，然而，由于剪枝舍弃了一些中间点，所以在查询准确度上有所下降，而且如果剪枝不当可能导致查询不到最短路径，如果两点之间剪枝过少，容易退化为宽度优先搜索，时间效率低而且可扩展性差。难以做到在精确的查询概率知识图谱的最短路径需要在时间和空间上达到一个平衡，难以既要保证查询时间满足用户的要求，也要保证查询质量。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷(不足)，提供一种准确度高、泛化能力强、速度快以及易于扩展的概率知识图谱实体间最优路径查询方法。

为解决上述技术问题，本发明的技术方案如下：

一种基于深度强化学习的知识图谱最优路径查询***，包括两个模块，分别为模块一和模块二，所述模块一为知识图谱最优路径模型离线训练模块，模块二为知识图谱最优路径模型在线应用模块，所述知识图谱最优路径模型离线训练模块设有深度强化学习部件，对当前实体作深度强化的训练学习，得出下一实体，再以下一实体作当前实体重复训练学习，得出最优路径模型，再将起始实体与目标实体输入到模块一得出的最优路径模型，最终得到最优路径，通过两个模块之间的配合使用，达到准确度高、泛化能力强、速度快以及易于扩展的目的。

进一步，所述深度强化学习部件由编码器、网络部件和逻辑回归部件组成，所述网络部件包括转换组件与训练组件，所述转换组件包括CNN神经网络和FC神经网络，所述训练组件包括强化学习Policy策略网络和强化学习value价值网络。

进一步，所述强化学习Policy网络采用五层全连接的神经网络组成，强化学习Policy神经网络的前四层节点数目逐级减小，第五层有k个神经元，强化学习Policy神经网络的第一层和第二层以及第二层和第三层均采用dropout技术防止过拟合，激活函数采用tanh函数，第三层和第四层之间采用批标准化技术来增强模型的泛化能力，激活函数采用sigmod函数，第四层与第五层之间采用全连接来得到所要预测的k个关系的概率，作为下一个实体的行为选择；

而所述的强化学习value价值网络采用五层全连接的神经网络组成，强化学习value价值神经网络的第一层到第四层采用逐级递减的全连接神经网络，第五层只有一个神经元，强化学习value价值神经网络第一层和第二层之间以及第二层和第三层之间均采用dropout技术防止过拟合，第一层与第二层的激活函数均采用tanh函数，而第三层激活函数采用sigmod函数，第三层和第四层之间采用批标准化技术来增强模型的泛化能力，激活函数均采用relu函数，第四层和第五层之间采用全连接，其输出结果为Value网络预测的当前状态到目标状态累计带来的收益。

而本发明提出的一种基于深度强化学习的知识图谱最优路径查询方法，该方法具体包括以下步骤：

S1.首先对概率知识图谱中的实体关系按单位时间内用户访问频次从大到小排序，选取n个关系，生成所需的数据样本集；

S2.将数据样本集输入到深度强化学习部件中进行训练学习；

S3.在深度强化学习部件中分别进行阶段1，阶段2和阶段3的三个阶段的训练学习；

阶段1：采用编码器将实体转换成初始词向量，然后通过1-10层CNN卷积神经网络对已编码的初始词向量进一步进行处理转换成深度强化学习部件需要的词向量；

阶段2：基于强化学习Policy网络预测当前实体下一次要经过的关系；

阶段3：基于强化学习价值网络对所选择策略进行价值计算；

S4.经过步骤S3训练学习后，得出查询的最优路径模型；

S5.输入起始实体和目标实体，依次经过转换成词向量，然后融合这两个词向量输入到步骤S4的查询的最优路径模型，直到找到目标实体为止，最终得到一条起点是起始实体，终点是目标实体的最优查询路径。

进一步，所述步骤S1中选取n个关系，n不小于概率知识图谱实体关系总数的1/10，这n个关系中随机选取γ＝n/2个关系，将概率知识图谱中对应的这γ个关系以及每个关系所连接的两个实体组成模型训练所需的数据样本集。

进一步，所述步骤S3的阶段1将输入的实体e₁和e₂经过编码器和网络部件转化为两个词向量G_θ(e₁)与G_θ(e₂)，θ为待优化的网络参数集合，将阶段1得到的两个词向量G_θ(e₁)与G_θ(e₂)进行相似度计算，求出它们的余弦距离，如下式所示：

D_θ(e₁,e₂)＝||G_θ(e₁)-G_θ(e₂)||_cos，

在训练过程中，这两个所接收的数据样本可表示为{(F,e₁,e₂)}，F为每个数据样本的标签，从而构建出训练的损失函数，如下式所示：

其中n为训练样本的总数。

进一步，所述损失函数L(θ)需要最小化，损失函数L(θ)可以细化为：

L_s表示相同实体之间的损失函数，而L_u表示不同实体之间的损失函数，需要使L_u尽可能小，而使L_s尽可能大。

进一步，所述步骤S3的阶段2和阶段3在深度强化学习部件中的训练部件中进行，所述训练部件包括策略网络和价值网络，所述阶段2做策略训练，所述阶段3做价值训练，并优化这两个网络的参数集合，即Policy策略网络的参数θ_p和Value价值网络的参数θ_v，在两个训练的中，设有四元组<状态,回报,动作,模型>，其中，状态用概率知识图谱中的实体来表示。

进一步，所述将策略网络和价值网络中基于目标驱动的深度强化学习的得到策略函数和价值函数：对于策略函数，通过非线性函数估计的神经网络来拟合，得策略函数为f(e_t,g|θ_p)，对于价值函数，同样通过非线性函数估计的神经网络来拟合当前节点到目标节点的收益，得价值函数为h(e_t,g|θ_v)。

进一步，所述将价值函数得到的回报与策略函数所给出的策略估计相乘来表示策略网络的损失函数，如下式所示：

L_f＝log f(e_t,g|θ_p)×((r_t+γh(e_t+1,g|θ_v)-h(e_t,g|θ_v))，

其中，γ∈(0,1)表示折扣因子，并根据L_f对参数θ_p求导，并以梯度上升的方式更新Policy策略网络的参数θ_p，得下式：

表示求导运算，表示策略函数f(e_t,g|θ_p)的熵项，β∈(0,1)为学习率；

若当前策略与选取该策略所带来的收益乘积为正，那么正向更新Policy策略网络的参数θ_p的值，使得下一次预测该状态的可能性增加；若乘积为负，则反向更新Policy策略网络的参数θ_p的值，使得下一次预测该状态的概率尽可能小，直到当前网络预测的策略不再波动为止。

进一步，所述得到的价值函数h(e_t,g|θ_v)与当前实体实际收益r_t+γh(e_t+1,g|θ_v)两者之间作差值的绝对值计算，得到价值网络的损失函数，如下式所示：

L_h＝|(r_t+γ×h(e_t+1,g|θ_v))-h(e_t,g|θ_v)|，

其中，γ∈(0,1)表示折扣因子，并根据L_h对参数θ_v求导，并以梯度下降的方式更新Value价值网络的参数θ_v，得下式：

表示求导运算，若预测的收益h(e_t,g|θ_v)与计算的收益r_t+γh(e_t+1,g|θ_v)之间误差大于用户给定的阈值l，那么更新Value价值网络的参数θ_v，使得预测的收益误差尽可能小，直到预测的收益h(e_t,g|θ_v)与计算的收益r_t+γh(e_t+1,g|θ_v)之间误差在用户给定的阈值的[-l,l]的范围内不再波动为止。

与现有技术相比，本发明技术方案的有益效果是：

(1)本发明提出了概率知识图谱，对实体关系进行0～1间的概率化处理，使得知识图谱上的最优路径查询更符合实际的应用需求。

(2)由于本发明采用强化学习的方式进行训练，一方面减少了现有深度学习方法中由于标签设计的不合理性导致最终计算效果较差的问题，其次这种方式通过保存每一次迭代过程中当前实体到某一实体之间的最短路径，减少了搜索空间，使得模型的适应性更强、准确性更高。

(3)本发明基于深度学习技术，并通过两个结构相同、权值共享且预训练的卷积神经网络对起始词向量和目标词向量进行融合，避免了由于目标实体的改变需要重新开始训练，增加了模型的泛化能力，提升了计算准确度。

(4)本发明每个模块内部的逻辑结构清晰、计算方式灵活，具有很好的松耦合性，可以灵活地设置网络结构，满足计算的需要，同时不受具体开发工具和编程软件的限制，并且能够快速扩展到分布式和并行化的开发环境中，尤其是强化学习与深度学习可以分布式计算，提升了运算效率。

附图说明

图1为一种基于深度强化学习的知识图谱最优路径查询方法的技术框架图。

图2为深度强化学习部件逻辑结构图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。实施例1

本发明提出了一种基于深度强化学习的知识图谱最优路径查询***，如图1所示，包括两个模块，分别为模块一和模块二，模块一为知识图谱最优路径模型离线训练模块，模块二为知识图谱最优路径模型在线应用模块，所述知识图谱最优路径模型离线训练模块设有深度强化学习部件，对当前实体作深度强化的训练学习，通过模块一将数据进行装换训练，就可以得到当前实体到目标实体最优的下一个实体，再将下一个实体重复训练学习，然后得出一个训练好的最优路径模型，然后在模块二中将目标实体和起始实体经过转换输入到模块一生成的最优路径模型中，实现再强化，最后能得到最优查询路径，通过两个模块之间的配合使用，达到准确度高、泛化能力强、速度快以及易于扩展的目的。

而模块一首先构造最优路径模型离线训练的数据样本集，构造如下：首先对概率知识图谱中的实体关系按最近m个单位时间内用户访问频次从大到小排序，进而选取前n个关系，n不小于概率知识图谱实体关系总数的1/8，然后在这n个关系中随机选取γ＝n/2个关系，从而将概率知识图谱中对应的这γ个关系以及每个关系所连接的两个实体组成模型训练所需的数据样本集。

在此基础上，模块一将所构造的每一个数据样本输入到如图2所示的深度强化学习部件中进行训练学习，搜索并获取当前实体所关联的下一个概率最大的关系，获取完成之后融合所选关系对应的下一个实体的回报值来更新深度强化学习部件参数。在模块一迭代这个过程，并不断地更新深度强化学习部件参数，直到当前实体为目标实体或者迭代次数超过了用户给定的最大迭代阈值为止，此时得到了从起始实体到目标实体的一条候选路径。然后，模块一计算当前候选路径的总回报并与之前查询的完整路径总回报对比，如果当前路径的收益高于之前的查询路径，那么将其作为查询的最优路径，得到最优路径模型，反复执行上述过程，直到深度强化学习部件参数收敛为止。

模块一的深度强化学习部件如图2所示，由word2vec(词嵌入)编码器、CNN(Convolutional Neural Network：卷积神经网络)神经网络、FC(Full Connect全连接)神经网络、强化学习Policy(策略)网络、强化学习价值(Value)网络以及逻辑回归部件组成。深度强化学习部件的训练过程主要分为3个阶段，其中，阶段1采用word2vec编码器将实体转换成初始词向量，然后通过多层CNN卷积神经网络对已编码的初始词向量进一步进行处理转换成深度强化学习部件需要的词向量；阶段2基于强化学习Policy(策略)网络预测当前实体下一次要经过的关系；阶段3基于强化学习价值(Value)网络对所选择策略进行价值计算。

在阶段1中，本发明首先输入c个实体，通过word2vec词嵌入编码器分别将这c个实体转换相应的c个词向量，这c个词向量的维度相同，然后，随机从c个实体词向量中任意选择2个词向量，把这两个词向量输入到多层CNN卷积神经网络中，该多层CNN卷积神经网络共有8层结构：第一层分别对输入的2个实体词向量进行卷积处理，第二层对第一层的卷积进行最大池化操作，第三层和第四层继续对第二层池化层所得到的数据进行卷积处理，接着，通过第五层的最大池化层后，依次接入到第六层和第七层中进行卷积处理，最后通过第八层平均池化层得到两个最终的词向量。特别，在第二层和第五层完成最大池化操作后，均对其输出结果进行批标准化处理。从而，第八层得到的词向量为阶段1的输出。多层CNN卷积神经网络训练的任务是计算第八层得到的两个词向量的距离，让正样本得到的词向量距离尽可能小，而负样本得到的词向量距离尽可能大。此外，两个多层卷积神经网络结构完全相同，网络权值共享。

在阶段2中主要对强化学习Policy(策略)网络进行训练。本发明首先以当前实体的词向量和目标实体的词向量作为输入并通过全连接层所得到的输出向量作为Policy网络的输入词向量。Policy网络采用五层全连接的神经网络组成，前四层神经网络节点数目逐级减小，第五层有k个神经元。第一层和第二层之间以及第二层和第三层之间均采用dropout技术防止过拟合，激活函数采用tanh函数。第三层和第四层之间采用批标准化技术来增强模型的泛化能力，同时，激活函数采用sigmod函数。第四层与第五层之间采用全连接来得到所要预测的k个关系的概率，作为下一个实体的行为选择。Policy网络输出的是概率最大的关系，并把它当作Policy网络所得到的行为(Action)。k个关系的选择方式如下：首先选择k₁个置信度最高的关系，然后从剩下的关系中随机选择k-k₁个，并将它们按照置信度从大到小排序，从而得到Policy网络输出的k个置信度最大的关系。Policy网络的训练任务是尽可能选择最好的策略，使得所选择关系到达的下一个实体带来的收益最大

而阶段3主要对强化学习Value(价值)网络进行训练。Value网络的输入和Policy网络的输入相同，即以当前实体的词向量和目标实体的词向量作为输入并通过全连接层所得到的输出向量。Value网络采用五层全连接的神经网络组成，第一层到第四层采用逐级递减的全连接神经网络，第五层只有一个神经元。第一层和第二层之间以及第二层和第三层之间均采用dropout技术防止过拟合，第一层与第二层的激活函数均采用tanh函数，而第三层激活函数采用sigmod函数。第三层和第四层之间采用批标准化技术来增强模型的泛化能力，激活函数均采用relu函数。第四层和第五层之间采用全连接，其输出结果为Value网络预测的当前状态到目标状态累计带来的收益。Value网络的训练任务是使当前状态下预测的收益，与Policy网络所给出关系的置信度和下一状态下所预测的收益之和的误差尽可能小。

模块二以概率知识图谱中的起始实体和目标实体为输入，依次经过word2vec词嵌入编码器和8层CNN卷积神经网络分别转换成一维词向量，然后，融合这两个一维词向量并作为强化学习Policy策略网络和Value价值网络的输入。Policy策略网络和Value价值网络相互交迭，并从起始实体出发，每次给出当前实体到目标实体最优的下一个实体，直到找到目标实体为止。最终得到一条起点是起始实体，终点是目标实体的最优查询路径。

本发明还提出的一种基于深度强化学习的知识图谱最优路径查询方法，具体包括以下步骤：

S1.首先对概率知识图谱中的实体关系按最近m个单位时间内用户访问频次从大到小排序，进而选取前n个关系，n不小于概率知识图谱实体关系总数的1/8，然后在这n个关系中随机选取γ＝n/2个关系，从而将概率知识图谱中对应的这γ个关系以及每个关系所连接的两个实体组成模型训练所需的数据样本集。

S2.然后利用***公司的word2vec词嵌入编码器分别将输入的当前实体和目标实体转换成两个长度为512的一维词向量。

S3.接着，在深度强化学习部件中分别进行阶段1，阶段2和阶段3的三个阶段的训练学习。

阶段1：构造两个结构完全相同并且权值共享的CNN卷积神经网络，构造过程如下：

CNN卷积神经网络的第一层包含512个神经元，采用2个2×1的卷积核，滑动步长固定为2，该层主要对前面word2vec词嵌入编码器得到的一维词向量(长度等于512)进行卷积处理，得到2个长度为256的一维向量。接着，CNN卷积神经网络的第二层针对第一层输出的2个一维词向量使用2个卷积核大小是2×1，滑动步长为1的卷积核进行最大池化操作，从而得到2个长度为256的一维向量。然后在此基础上，对这2个一维向量执行批标准操作。然后，CNN卷积神经网络的第三层采用4个4×1的卷积核对第二层输出的2个经过批标准后的一维向量进行卷积处理，滑动步长固定为4，从而得到8个长度为64的一维向量。接着，CNN卷积神经网络的第四层采用1个4×1的卷积核，滑动步长为1，对第三层输出的8个一维向量再次进行卷积处理，同样得到8个长度为64的一维向量。然后，CNN卷积神经网络的第五层对第四层的8个一维向量再次进行最大池化操作，卷积核大小等于2×1，卷积核个数等于4，滑动步长为2，从而，得到32个长度为32的一维向量。在此基础上，对这32个一维向量执行批标准操作。接着，网络的第六层采用2个4×1的卷积核对第五层输出的32个经过批标准后的一维向量进行卷积处理，滑动步长固定为2，从而，得到64个长度为16的的一维向量。然后，网络的第七层采用4个4×1的卷积核对第六层输出的64个一维向量进行卷积处理，滑动步长为4，从而，得到40个长度为512的一维向量。最后，网络的第八层采用平均池化操作，并最终得到256个长度为4维的一维向量，然后，将这256个一维向量通过全连接与512个神经元相连，从而，得到长度为512的一维向量。

当两个结构完全相同并且权值共享的CNN卷积神经网络构造完毕之后，本发明通过概率知识图谱中的实体以及关系对它们进行训练以及参数优化，过程如下：

这两个CNN卷积神经网络的输入分别是两个实体e₁和e₂，而输出是两个长度为512的一维向量G_θ(e₁)与G_θ(e₂)，其中，θ为待优化的网络参数集合。然后，对这两个一维向量进行相似度计算，即求出它们的余弦距离：D_θ(e₁,e₂)＝||G_θ(e₁)-G_θ(e₂)||_cos，如果e₁和e₂这两个实体差别较大，那么D_θ(e₁,e₂)较大，而如果e₁和相同或者相近，那么D_θ(e₁,e₂)较小。

因此，在训练过程中，这两个CNN卷积神经网络所接收的数据样本可表示为{(F,e₁,e₂)}，其中F为每个数据样本的标签，如果e₁和e₂表示相同实体，那么F＝1，反正F＝0。从而，得到构造训练的损失函数为：

其中n为训练样本的总数。

在此基础上，用L_s表示相同实体之间的损失函数，而L_u表示不同实体之间的损失函数。为了达到最小化损失函数L(θ)的目的，需要使L_u尽可能小，而使L_s尽可能大。从而训练的损失函数L(θ)可以细化为：

在训练过程中，本通过最小化损失函数L(θ)，最终可以让相同的实体距离尽可能小，不同的实体距离尽可能大，增加了样本的区分度。另外，在训练过程中，选取100万个样本实体，从中随机选取25万对相同的实体对作为正样本，并随机选取25万对不相同的实体对作为负样本，混合之后输入到网络中去训练。

通过这两个CNN卷积神经网络计算之后，得到当前实体和目标实体所对应的长度为512的一维向量。接着，将这两个一维向量再次进行全连接操作，即把两个长度为512的一维向量直接连接得到长度为1024的一维向量，然后接入到一个512个神经元的全连接层中，最终得到一个长度为512的一维向量。我们用它来表示融合后的当前实体和目标实体；

阶段2和阶段3主要是训练深度强化学习部件中的Policy策略网络和Value价值网络，并优化这两个网络的参数集合，即Policy策略网络的参数θ_p和Value价值网络的参数θ_v。在不断迭代训练上述两个阶段来搜寻下一个最优策略并动态更新参数θ_p和θ_v，直到获取到全局最优策略为止。每一轮迭代均会在有限步数内找到一个目标实体，并更新参数θ_p和θ_v。特别，模块一设置最大迭代次数c_max，如果当前迭代次数超过了，则停止迭代。

为此，本发明首先基于概率知识图谱定义这两个网络训练过程中所需要的四元组<状态,回报,动作,模型>，其中，状态用概率知识图谱中的实体来表示，例如当前实体e_t、目标实体g以及起始实体s；当前实体e_t到下一实体e_t+1的回报用r_t表示，r_t等于e_t与e_t+1间关系的置信度；动作用m表示，为智能体的行为选择，对应于概率知识图谱中当前实体与下一个实体之间的关系；最后，模型表示Policy策略网络或Value价值网络中基于目标驱动的深度强化学习的策略函数或价值函数：对于策略函数，本发明通过非线性函数估计的神经网络来拟合，即策略函数为f(e_t,g|θ_p)，而对于价值函数，本发明同样非线性函数估计的神经网络来拟合当前节点到目标节点的收益，即价值函数为h(e_t,g|θ_v)

阶段2：首先对Policy策略网络的参数集合θ_p进行随机初始化。接着，Policy策略网络接收当前实体和目标实体对应的一维向量作为输入。Policy策略网络的第一层有256个神经元，与当前实体和目标实体所对应的一维向量(长度为512)进行全连接；第二层有64个神经元；第三层有32个神经元；第四层有16个神经元；第五层有10个神经元，代表输出的10个实体的价值以及选择这个10个实体的概率，这10个实体是由当前实体到下一层实体中前7个置信度较高的实体与剩下的实体中随机选择3个实体共同组成，如果下一层实体数目少于10个，那么多余的实体单元用0填充即可。第一层、第二层和第三层均采用tanh激活函数，而第四层与第五层采用sigmod激活函数。同时，层与层之间采用dropout技术和实施批标准化处理来提高预测精度。最后，第五层10个神经元输出的是Policy策略网络所选的10个关系的概率，然后，通过softmax函数得到概率最大的关系作为行为的选择。

在阶段2的训练过程中，基于价值函数得到的回报与当前策略函数所给出的策略估计相乘来表示Policy策略网络的损失函数为，如下式所示：

L_f＝log f(e_t,g|θ_p)×((r_t+γh(e_t+1,g|θ_v)-h(e_t,g|θ_v))，

其中，γ∈(0,1)表示折扣因子。然后，根据L_f对参数θ_p求导，并以梯度上升的方式更新参数θ_p，即可得：

其中，表示求导运算，表示策略函数f(e_t,g|θ_p)的熵项，β∈(0,1)为学习率，加入该熵项的目的是为了避免Policy策略网络过早获取次优策略，而陷入局部最优。如果当前策略与选取该策略所带来的收益乘积为正，那么正向更新θ_p值，使得下一次预测该状态的可能性增加；如果乘积为负，反向更新θ_p值，使得下一次预测该状态的概率尽可能小，直到当前网络预测的策略不再波动为止；

阶段3：首先对Value价值网络的参数集合θ_v进行随机初始化。接着，与Policy策略网络一样，Value价值网络接收当前实体和目标实体对应的一维向量作为输入。Value网络的第一层有256个神经元，与当前实体和目标实体所对应的一维向量(长度为512)进行全连接；第二层有128个神经元；第三层有64个神经元；第四层有32个神经元；第五层有一个神经元代表当前的状态下的价值。第一层与第二层之间以及第二层与第三层之间都采用dropout技术防止过拟合。第一层与第二层均采用tanh激活函数，第三层与第四层均采用sigmod激活函数。第三层和第四层之间实施批标准化处理来增强模型的泛化能力。第四层与第五层之间采用全连接神经网络最终得到预测的价值。

在阶段3的训练过程中，计算当前实体实际收益r_t+γh(e_t+1,g|θ_v)与所预测收益h(e_t,g|θ_v)之间差值的绝对值，并作为Value价值网络的损失函数，如下式所示：

L_h＝|(r_t+γ×h(e_t+1,g|θ_v))-h(e_t,g|θ_v)|，

其中，γ∈(0,1)表示折扣因子。然后，根据L_h对参数θ_v求导，并以梯度下降的方式更新参数θ_v，即可得：：

其中，表示求导运算。如果预测的收益h(e_t,g|θ_v)与计算的收益r_t+γh(e_t+1,g|θ_v)之间误差大于用户给定的阈值l，那么更新θ_v，使得预测的收益误差尽可能小，直到预测的收益h(e_t,g|θ_v)与计算的收益r_t+γh(e_t+1,g|θ_v)之间误差在用户给定的阈值的[-l,l]的范围内不再波动为止；

S4.在迭代过程中，并不断地更新深度强化学习部件参数，直到当前实体为目标实体或者迭代次数超过了用户给定的最大迭代阈值为止，此时得到了从起始实体到目标实体的一条候选路径。然后，模计算当前候选路径的总回报并与之前查询的完整路径总回报对比，如果当前路径的收益高于之前的查询路径，那么将其作为查询的最优路径模型，反复执行上述过程，直到深度强化学习部件参数收敛为止。

S5.输入两个概率知识图谱中的实体，即起始实体s和目标实体g，通过已训练好的word2vec词嵌入编码器分别将它们转换为长度为512的一维向量。接着，把这两个向量合并成长度为1024的一维向量，并将它作为训练好的多层CNN卷积神经网络的输入，分别得到起始实体和目标实体所对应的长度为512的一维向量。然后在此基础上，再将这两个一维向量通过全连接层生成新的长度为1024的向量，并作为训练好的强化学习Policy策略网络和Value价值网络的输入。Policy策略网络和Value价值网络相互交迭，并从起始实体出发，每次给出当前实体到目标实体最优的下一个实体，直到找到目标实体为止。从而，最终得到一条起点是起始实体s，终点是目标实体g的最优查询路径Path(s,g)。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度强化学习的知识图谱最优路径查询***，其特征在于，包括两个模块，分别为模块一和模块二，所述模块一为知识图谱最优路径模型离线训练模块，模块二为知识图谱最优路径模型在线应用模块，所述知识图谱最优路径模型离线训练模块设有深度强化学习部件，对当前实体作深度强化的训练学习，得出下一实体，再以下一实体作当前实体重复训练学习，得出最优路径模型，再由起始实体与目标实体输入到模块一得出的最优路径模型，最终得到最优路径。

2.根据权利要求1所述基于深度强化学习的知识图谱最优路径查询***，其特征在于，所述深度强化学习部件由编码器、网络部件和逻辑回归部件组成，所述网络部件包括转换组件与训练组件，所述转换组件包括CNN神经网络和FC神经网络，所述训练组件包括强化学习Policy策略网络和强化学习value价值网络。

3.根据权利要求2所述基于深度强化学习的知识图谱最优路径查询***，其特征在于，所述强化学习Policy网络采用五层全连接的神经网络组成，强化学习Policy神经网络的前四层节点数目逐级减小，第五层有k个神经元，强化学习Policy神经网络的第一层和第二层以及第二层和第三层均采用dropout技术防止过拟合，激活函数采用tanh函数，第三层和第四层之间采用批标准化技术来增强模型的泛化能力，激活函数采用sigmod函数，第四层与第五层之间采用全连接来得到所要预测的k个关系的概率，作为下一个实体的行为选择；

所述强化学习value价值网络采用五层全连接的神经网络组成，强化学习value价值神经网络的第一层到第四层采用逐级递减的全连接神经网络，第五层只有一个神经元，强化学习value价值神经网络第一层和第二层之间以及第二层和第三层之间均采用dropout技术防止过拟合，第一层与第二层的激活函数均采用tanh函数，而第三层激活函数采用sigmod函数，第三层和第四层之间采用批标准化技术来增强模型的泛化能力，激活函数均采用relu函数，第四层和第五层之间采用全连接，其输出结果为Value网络预测的当前状态到目标状态累计带来的收益。

4.一种基于深度强化学习的知识图谱最优路径查询方法，其特征在于，包括以下步骤：

S2.将数据样本集输入到深度强化学习部件中进行训练学习；

阶段3：基于强化学习价值网络对所选择策略进行价值计算；

S4.经过步骤S3训练学习后，得出查询的最优路径模型；

5.根据权利要求4所述基于深度强化学习的知识图谱最优路径查询方法，其特征在于，所述步骤S1中选取n个关系，n不小于概率知识图谱实体关系总数的1/10，这n个关系中随机选取γ＝n/2个关系，将概率知识图谱中对应的这γ个关系以及每个关系所连接的两个实体组成模型训练所需的数据样本集。

6.根据权利要求4所述基于深度强化学习的知识图谱最优路径查询方法，其特征在于，所述步骤S3的阶段1将输入的实体e₁和e₂经过编码器和网络部件转化为两个词向量G_θ(e₁)与G_θ(e₂)，θ为待优化的网络参数集合，将阶段1得到的两个词向量G_θ(e₁)与G_θ(e₂)进行相似度计算，求出它们的余弦距离，如下式所示：

D_θ(e₁,e₂)＝||G_θ(e₁)-G_θ(e₂)||_cos，

其中n为训练样本的总数。

所述步骤S3的阶段2和阶段3在深度强化学习部件中的训练部件中进行，所述阶段2做策略训练，所述阶段3做价值训练，在训练过程中优化这两个网络的参数集合，即Policy策略网络的参数θ_p和Value价值网络的参数θ_v，并设有四元组<状态,回报,动作,模型>，其中，状态用概率知识图谱中的实体来表示。

7.根据权利要求6所述基于深度强化学习的知识图谱最优路径查询方法，其特征在于，所述损失函数L(θ)需要最小化，损失函数L(θ)可以细化为：

8.根据权利要求6所述基于深度强化学习的知识图谱最优路径查询方法，其特征在于，所述将策略网络和价值网络中基于目标驱动的深度强化学习的得到策略函数和价值函数：对于策略函数，通过非线性函数估计的神经网络来拟合，得策略函数为f(e_t,g|θ_p)，对于价值函数，同样通过非线性函数估计的神经网络来拟合当前节点到目标节点的收益，得价值函数为h(e_t,g|θ_v)。

9.根据权利要求8所述基于深度强化学习的知识图谱最优路径查询方法，其特征在于，所述将价值函数得到的回报与策略函数所给出的策略估计相乘来表示策略网络的损失函数，如下式所示：

L_f＝logf(e_t,g|θ_p)×((r_t+γh(e_t+1,g|θ_v)-h(e_t,g|θ_v))，

10.根据权利要求8所述基于深度强化学习的知识图谱最优路径查询方法，其特征在于，所述得到的价值函数h(e_t,g|θ_v)与当前实体实际收益r_t+γh(e_t+1,g|θ_v)两者之间作差值的绝对值计算，得到价值网络的损失函数，如下式所示：

L_h＝|(r_t+γ×h(e_t+1,g|θ_v))-h(e_t,g|θ_v)|，