CN109241291A - 基于深度强化学习的知识图谱最优路径查询***及其方法 - Google Patents

基于深度强化学习的知识图谱最优路径查询***及其方法 Download PDF

Info

Publication number
CN109241291A
CN109241291A CN201810791353.6A CN201810791353A CN109241291A CN 109241291 A CN109241291 A CN 109241291A CN 201810791353 A CN201810791353 A CN 201810791353A CN 109241291 A CN109241291 A CN 109241291A
Authority
CN
China
Prior art keywords
layer
entity
network
value
optimal path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810791353.6A
Other languages
English (en)
Other versions
CN109241291B (zh
Inventor
黄震华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN201810791353.6A priority Critical patent/CN109241291B/zh
Publication of CN109241291A publication Critical patent/CN109241291A/zh
Application granted granted Critical
Publication of CN109241291B publication Critical patent/CN109241291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种基于深度强化学习的知识图谱最优路径查询方法,包括两个模块,分别为模块一和模块二,所述模块一为知识图谱最优路径模型离线训练模块,模块二为知识图谱最优路径模型在线应用模块,所述知识图谱最优路径模型离线训练模块设有深度强化学习部件,对当前实体作深度强化的训练学习,得出下一实体,再以下一实体作当前实体重复训练学习,得出最优路径模型,再由起始实体与目标实体输入到模块一得出的最优路径模型,最终得到最优路径,本发明增加了模型的泛化能力,提升了计算准确度,本发明的逻辑结构清晰、计算方式灵活,尤其是强化学习与深度学习可以分布式计算,提升了运算效率。

Description

基于深度强化学习的知识图谱最优路径查询***及其方法
技术领域
本发明涉及计算机领域,具体涉及一种基于深度强化学习的知识图谱最优路径查询***及其方法。
背景技术
知识图谱(Knowledge Graph)旨在描述和刻画真实世界中存在的各种实体(Entity)以及实体间的关系(Relation),通常用有向图来组织和表示,而图中的节点表示实体,而边则由关系构成,关系用来连接两个实体,刻画它们之间是否具有该关系所描述的关联性;如果两个实体间存在一条边,说明它们之间有关联性,否则表示没有关联性。在实际应用中,对知识图谱中的每个实体关系(即图的每条边)附加加一个0~1之间的数值,反映了实体之间的关联程度;根据不同的应用需求,该数值可以表示置信度、紧密度、距离或代价等等,因此称这种知识图谱为概率知识图谱。
概率知识图谱实体间最优路径查询对于知识图谱领域检索两个实体之间的关系具有极其重要的意义,是知识抽取、实体检索、知识图谱网络优化以及知识图谱实体间关系分析等应用的核心技术之一。针对这种复杂的数据查询和检索类型,需要有一种有效的数据组织方式和高效的查询处理方法才能精准有效地计算出用户所需要的结果,因此,提高查询效率并降低处理代价是非常有必要也是极具挑战性的。概率知识图谱的拓扑结构是加权有向图。
目前,主流的图最优路径查询方法有Dijkstra算法、Floyd算法以及Bellman-Ford算法等。然而,随着大数据时代的到来,这些方法的查询效率已经无法满足人们可接受的时间范围以及机器所能容纳的存储空间,它们对于解决数据量极大的最优路经查询已经无能为力。
而且目前发现,对于概率知识图谱这种大规模数据网络,如果想要降低查询时间,往往采用以空间换取时间的策略,将查询频率较高的查询结果进行存储,Landmaeks-BFS方法根据用户对概率知识图谱实体的查询频率排序,将常用实体之间的最优路径剪枝,把实体之间的最优路径存储在集合中,这种方法降低搜索空间,但是忽略了节点在网络中的分散性,查询准确率不高。此外,也有一些在查询数据预处理上采用加速技术,例如基于双向搜索的并行查询方法、基于目标引导的查询方法以及基于分层的查询方法。这些技术在查询效率上满足了要求,然而,由于剪枝舍弃了一些中间点,所以在查询准确度上有所下降,而且如果剪枝不当可能导致查询不到最短路径,如果两点之间剪枝过少,容易退化为宽度优先搜索,时间效率低而且可扩展性差。难以做到在精确的查询概率知识图谱的最短路径需要在时间和空间上达到一个平衡,难以既要保证查询时间满足用户的要求,也要保证查询质量。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷(不足),提供一种准确度高、泛化能力强、速度快以及易于扩展的概率知识图谱实体间最优路径查询方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于深度强化学习的知识图谱最优路径查询***,包括两个模块,分别为模块一和模块二,所述模块一为知识图谱最优路径模型离线训练模块,模块二为知识图谱最优路径模型在线应用模块,所述知识图谱最优路径模型离线训练模块设有深度强化学习部件,对当前实体作深度强化的训练学习,得出下一实体,再以下一实体作当前实体重复训练学习,得出最优路径模型,再将起始实体与目标实体输入到模块一得出的最优路径模型,最终得到最优路径,通过两个模块之间的配合使用,达到准确度高、泛化能力强、速度快以及易于扩展的目的。
进一步,所述深度强化学习部件由编码器、网络部件和逻辑回归部件组成,所述网络部件包括转换组件与训练组件,所述转换组件包括CNN神经网络和FC神经网络,所述训练组件包括强化学习Policy策略网络和强化学习value价值网络。
进一步,所述强化学习Policy网络采用五层全连接的神经网络组成,强化学习Policy神经网络的前四层节点数目逐级减小,第五层有k个神经元,强化学习Policy神经网络的第一层和第二层以及第二层和第三层均采用dropout技术防止过拟合,激活函数采用tanh函数,第三层和第四层之间采用批标准化技术来增强模型的泛化能力,激活函数采用sigmod函数,第四层与第五层之间采用全连接来得到所要预测的k个关系的概率,作为下一个实体的行为选择;
而所述的强化学习value价值网络采用五层全连接的神经网络组成,强化学习value价值神经网络的第一层到第四层采用逐级递减的全连接神经网络,第五层只有一个神经元,强化学习value价值神经网络第一层和第二层之间以及第二层和第三层之间均采用dropout技术防止过拟合,第一层与第二层的激活函数均采用tanh函数,而第三层激活函数采用sigmod函数,第三层和第四层之间采用批标准化技术来增强模型的泛化能力,激活函数均采用relu函数,第四层和第五层之间采用全连接,其输出结果为Value网络预测的当前状态到目标状态累计带来的收益。
而本发明提出的一种基于深度强化学习的知识图谱最优路径查询方法,该方法具体包括以下步骤:
S1.首先对概率知识图谱中的实体关系按单位时间内用户访问频次从大到小排序,选取n个关系,生成所需的数据样本集;
S2.将数据样本集输入到深度强化学习部件中进行训练学习;
S3.在深度强化学习部件中分别进行阶段1,阶段2和阶段3的三个阶段的训练学习;
阶段1:采用编码器将实体转换成初始词向量,然后通过1-10层CNN卷积神经网络对已编码的初始词向量进一步进行处理转换成深度强化学习部件需要的词向量;
阶段2:基于强化学习Policy网络预测当前实体下一次要经过的关系;
阶段3:基于强化学习价值网络对所选择策略进行价值计算;
S4.经过步骤S3训练学习后,得出查询的最优路径模型;
S5.输入起始实体和目标实体,依次经过转换成词向量,然后融合这两个词向量输入到步骤S4的查询的最优路径模型,直到找到目标实体为止,最终得到一条起点是起始实体,终点是目标实体的最优查询路径。
进一步,所述步骤S1中选取n个关系,n不小于概率知识图谱实体关系总数的1/10,这n个关系中随机选取γ=n/2个关系,将概率知识图谱中对应的这γ个关系以及每个关系所连接的两个实体组成模型训练所需的数据样本集。
进一步,所述步骤S3的阶段1将输入的实体e1和e2经过编码器和网络部件转化为两个词向量Gθ(e1)与Gθ(e2),θ为待优化的网络参数集合,将阶段1得到的两个词向量Gθ(e1)与Gθ(e2)进行相似度计算,求出它们的余弦距离,如下式所示:
Dθ(e1,e2)=||Gθ(e1)-Gθ(e2)||cos
在训练过程中,这两个所接收的数据样本可表示为{(F,e1,e2)},F为每个数据样本的标签,从而构建出训练的损失函数,如下式所示:
其中n为训练样本的总数。
进一步,所述损失函数L(θ)需要最小化,损失函数L(θ)可以细化为:
Ls表示相同实体之间的损失函数,而Lu表示不同实体之间的损失函数,需要使Lu尽可能小,而使Ls尽可能大。
进一步,所述步骤S3的阶段2和阶段3在深度强化学习部件中的训练部件中进行,所述训练部件包括策略网络和价值网络,所述阶段2做策略训练,所述阶段3做价值训练,并优化这两个网络的参数集合,即Policy策略网络的参数θp和Value价值网络的参数θv,在两个训练的中,设有四元组<状态,回报,动作,模型>,其中,状态用概率知识图谱中的实体来表示。
进一步,所述将策略网络和价值网络中基于目标驱动的深度强化学习的得到策略函数和价值函数:对于策略函数,通过非线性函数估计的神经网络来拟合,得策略函数为f(et,g|θp),对于价值函数,同样通过非线性函数估计的神经网络来拟合当前节点到目标节点的收益,得价值函数为h(et,g|θv)。
进一步,所述将价值函数得到的回报与策略函数所给出的策略估计相乘来表示策略网络的损失函数,如下式所示:
Lf=log f(et,g|θp)×((rt+γh(et+1,g|θv)-h(et,g|θv)),
其中,γ∈(0,1)表示折扣因子,并根据Lf对参数θp求导,并以梯度上升的方式更新Policy策略网络的参数θp,得下式:
表示求导运算,表示策略函数f(et,g|θp)的熵项,β∈(0,1)为学习率;
若当前策略与选取该策略所带来的收益乘积为正,那么正向更新Policy策略网络的参数θp的值,使得下一次预测该状态的可能性增加;若乘积为负,则反向更新Policy策略网络的参数θp的值,使得下一次预测该状态的概率尽可能小,直到当前网络预测的策略不再波动为止。
进一步,所述得到的价值函数h(et,g|θv)与当前实体实际收益rt+γh(et+1,g|θv)两者之间作差值的绝对值计算,得到价值网络的损失函数,如下式所示:
Lh=|(rt+γ×h(et+1,g|θv))-h(et,g|θv)|,
其中,γ∈(0,1)表示折扣因子,并根据Lh对参数θv求导,并以梯度下降的方式更新Value价值网络的参数θv,得下式:
表示求导运算,若预测的收益h(et,g|θv)与计算的收益rt+γh(et+1,g|θv)之间误差大于用户给定的阈值l,那么更新Value价值网络的参数θv,使得预测的收益误差尽可能小,直到预测的收益h(et,g|θv)与计算的收益rt+γh(et+1,g|θv)之间误差在用户给定的阈值的[-l,l]的范围内不再波动为止。
与现有技术相比,本发明技术方案的有益效果是:
(1)本发明提出了概率知识图谱,对实体关系进行0~1间的概率化处理,使得知识图谱上的最优路径查询更符合实际的应用需求。
(2)由于本发明采用强化学习的方式进行训练,一方面减少了现有深度学习方法中由于标签设计的不合理性导致最终计算效果较差的问题,其次这种方式通过保存每一次迭代过程中当前实体到某一实体之间的最短路径,减少了搜索空间,使得模型的适应性更强、准确性更高。
(3)本发明基于深度学习技术,并通过两个结构相同、权值共享且预训练的卷积神经网络对起始词向量和目标词向量进行融合,避免了由于目标实体的改变需要重新开始训练,增加了模型的泛化能力,提升了计算准确度。
(4)本发明每个模块内部的逻辑结构清晰、计算方式灵活,具有很好的松耦合性,可以灵活地设置网络结构,满足计算的需要,同时不受具体开发工具和编程软件的限制,并且能够快速扩展到分布式和并行化的开发环境中,尤其是强化学习与深度学习可以分布式计算,提升了运算效率。
附图说明
图1为一种基于深度强化学习的知识图谱最优路径查询方法的技术框架图。
图2为深度强化学习部件逻辑结构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。实施例1
本发明提出了一种基于深度强化学习的知识图谱最优路径查询***,如图1所示,包括两个模块,分别为模块一和模块二,模块一为知识图谱最优路径模型离线训练模块,模块二为知识图谱最优路径模型在线应用模块,所述知识图谱最优路径模型离线训练模块设有深度强化学习部件,对当前实体作深度强化的训练学习,通过模块一将数据进行装换训练,就可以得到当前实体到目标实体最优的下一个实体,再将下一个实体重复训练学习,然后得出一个训练好的最优路径模型,然后在模块二中将目标实体和起始实体经过转换输入到模块一生成的最优路径模型中,实现再强化,最后能得到最优查询路径,通过两个模块之间的配合使用,达到准确度高、泛化能力强、速度快以及易于扩展的目的。
而模块一首先构造最优路径模型离线训练的数据样本集,构造如下:首先对概率知识图谱中的实体关系按最近m个单位时间内用户访问频次从大到小排序,进而选取前n个关系,n不小于概率知识图谱实体关系总数的1/8,然后在这n个关系中随机选取γ=n/2个关系,从而将概率知识图谱中对应的这γ个关系以及每个关系所连接的两个实体组成模型训练所需的数据样本集。
在此基础上,模块一将所构造的每一个数据样本输入到如图2所示的深度强化学习部件中进行训练学习,搜索并获取当前实体所关联的下一个概率最大的关系,获取完成之后融合所选关系对应的下一个实体的回报值来更新深度强化学习部件参数。在模块一迭代这个过程,并不断地更新深度强化学习部件参数,直到当前实体为目标实体或者迭代次数超过了用户给定的最大迭代阈值为止,此时得到了从起始实体到目标实体的一条候选路径。然后,模块一计算当前候选路径的总回报并与之前查询的完整路径总回报对比,如果当前路径的收益高于之前的查询路径,那么将其作为查询的最优路径,得到最优路径模型,反复执行上述过程,直到深度强化学习部件参数收敛为止。
模块一的深度强化学习部件如图2所示,由word2vec(词嵌入)编码器、CNN(Convolutional Neural Network:卷积神经网络)神经网络、FC(Full Connect全连接)神经网络、强化学习Policy(策略)网络、强化学习价值(Value)网络以及逻辑回归部件组成。深度强化学习部件的训练过程主要分为3个阶段,其中,阶段1采用word2vec编码器将实体转换成初始词向量,然后通过多层CNN卷积神经网络对已编码的初始词向量进一步进行处理转换成深度强化学习部件需要的词向量;阶段2基于强化学习Policy(策略)网络预测当前实体下一次要经过的关系;阶段3基于强化学习价值(Value)网络对所选择策略进行价值计算。
在阶段1中,本发明首先输入c个实体,通过word2vec词嵌入编码器分别将这c个实体转换相应的c个词向量,这c个词向量的维度相同,然后,随机从c个实体词向量中任意选择2个词向量,把这两个词向量输入到多层CNN卷积神经网络中,该多层CNN卷积神经网络共有8层结构:第一层分别对输入的2个实体词向量进行卷积处理,第二层对第一层的卷积进行最大池化操作,第三层和第四层继续对第二层池化层所得到的数据进行卷积处理,接着,通过第五层的最大池化层后,依次接入到第六层和第七层中进行卷积处理,最后通过第八层平均池化层得到两个最终的词向量。特别,在第二层和第五层完成最大池化操作后,均对其输出结果进行批标准化处理。从而,第八层得到的词向量为阶段1的输出。多层CNN卷积神经网络训练的任务是计算第八层得到的两个词向量的距离,让正样本得到的词向量距离尽可能小,而负样本得到的词向量距离尽可能大。此外,两个多层卷积神经网络结构完全相同,网络权值共享。
在阶段2中主要对强化学习Policy(策略)网络进行训练。本发明首先以当前实体的词向量和目标实体的词向量作为输入并通过全连接层所得到的输出向量作为Policy网络的输入词向量。Policy网络采用五层全连接的神经网络组成,前四层神经网络节点数目逐级减小,第五层有k个神经元。第一层和第二层之间以及第二层和第三层之间均采用dropout技术防止过拟合,激活函数采用tanh函数。第三层和第四层之间采用批标准化技术来增强模型的泛化能力,同时,激活函数采用sigmod函数。第四层与第五层之间采用全连接来得到所要预测的k个关系的概率,作为下一个实体的行为选择。Policy网络输出的是概率最大的关系,并把它当作Policy网络所得到的行为(Action)。k个关系的选择方式如下:首先选择k1个置信度最高的关系,然后从剩下的关系中随机选择k-k1个,并将它们按照置信度从大到小排序,从而得到Policy网络输出的k个置信度最大的关系。Policy网络的训练任务是尽可能选择最好的策略,使得所选择关系到达的下一个实体带来的收益最大
而阶段3主要对强化学习Value(价值)网络进行训练。Value网络的输入和Policy网络的输入相同,即以当前实体的词向量和目标实体的词向量作为输入并通过全连接层所得到的输出向量。Value网络采用五层全连接的神经网络组成,第一层到第四层采用逐级递减的全连接神经网络,第五层只有一个神经元。第一层和第二层之间以及第二层和第三层之间均采用dropout技术防止过拟合,第一层与第二层的激活函数均采用tanh函数,而第三层激活函数采用sigmod函数。第三层和第四层之间采用批标准化技术来增强模型的泛化能力,激活函数均采用relu函数。第四层和第五层之间采用全连接,其输出结果为Value网络预测的当前状态到目标状态累计带来的收益。Value网络的训练任务是使当前状态下预测的收益,与Policy网络所给出关系的置信度和下一状态下所预测的收益之和的误差尽可能小。
模块二以概率知识图谱中的起始实体和目标实体为输入,依次经过word2vec词嵌入编码器和8层CNN卷积神经网络分别转换成一维词向量,然后,融合这两个一维词向量并作为强化学习Policy策略网络和Value价值网络的输入。Policy策略网络和Value价值网络相互交迭,并从起始实体出发,每次给出当前实体到目标实体最优的下一个实体,直到找到目标实体为止。最终得到一条起点是起始实体,终点是目标实体的最优查询路径。
本发明还提出的一种基于深度强化学习的知识图谱最优路径查询方法,具体包括以下步骤:
S1.首先对概率知识图谱中的实体关系按最近m个单位时间内用户访问频次从大到小排序,进而选取前n个关系,n不小于概率知识图谱实体关系总数的1/8,然后在这n个关系中随机选取γ=n/2个关系,从而将概率知识图谱中对应的这γ个关系以及每个关系所连接的两个实体组成模型训练所需的数据样本集。
S2.然后利用***公司的word2vec词嵌入编码器分别将输入的当前实体和目标实体转换成两个长度为512的一维词向量。
S3.接着,在深度强化学习部件中分别进行阶段1,阶段2和阶段3的三个阶段的训练学习。
阶段1:构造两个结构完全相同并且权值共享的CNN卷积神经网络,构造过程如下:
CNN卷积神经网络的第一层包含512个神经元,采用2个2×1的卷积核,滑动步长固定为2,该层主要对前面word2vec词嵌入编码器得到的一维词向量(长度等于512)进行卷积处理,得到2个长度为256的一维向量。接着,CNN卷积神经网络的第二层针对第一层输出的2个一维词向量使用2个卷积核大小是2×1,滑动步长为1的卷积核进行最大池化操作,从而得到2个长度为256的一维向量。然后在此基础上,对这2个一维向量执行批标准操作。然后,CNN卷积神经网络的第三层采用4个4×1的卷积核对第二层输出的2个经过批标准后的一维向量进行卷积处理,滑动步长固定为4,从而得到8个长度为64的一维向量。接着,CNN卷积神经网络的第四层采用1个4×1的卷积核,滑动步长为1,对第三层输出的8个一维向量再次进行卷积处理,同样得到8个长度为64的一维向量。然后,CNN卷积神经网络的第五层对第四层的8个一维向量再次进行最大池化操作,卷积核大小等于2×1,卷积核个数等于4,滑动步长为2,从而,得到32个长度为32的一维向量。在此基础上,对这32个一维向量执行批标准操作。接着,网络的第六层采用2个4×1的卷积核对第五层输出的32个经过批标准后的一维向量进行卷积处理,滑动步长固定为2,从而,得到64个长度为16的的一维向量。然后,网络的第七层采用4个4×1的卷积核对第六层输出的64个一维向量进行卷积处理,滑动步长为4,从而,得到40个长度为512的一维向量。最后,网络的第八层采用平均池化操作,并最终得到256个长度为4维的一维向量,然后,将这256个一维向量通过全连接与512个神经元相连,从而,得到长度为512的一维向量。
当两个结构完全相同并且权值共享的CNN卷积神经网络构造完毕之后,本发明通过概率知识图谱中的实体以及关系对它们进行训练以及参数优化,过程如下:
这两个CNN卷积神经网络的输入分别是两个实体e1和e2,而输出是两个长度为512的一维向量Gθ(e1)与Gθ(e2),其中,θ为待优化的网络参数集合。然后,对这两个一维向量进行相似度计算,即求出它们的余弦距离:Dθ(e1,e2)=||Gθ(e1)-Gθ(e2)||cos,如果e1和e2这两个实体差别较大,那么Dθ(e1,e2)较大,而如果e1和相同或者相近,那么Dθ(e1,e2)较小。
因此,在训练过程中,这两个CNN卷积神经网络所接收的数据样本可表示为{(F,e1,e2)},其中F为每个数据样本的标签,如果e1和e2表示相同实体,那么F=1,反正F=0。从而,得到构造训练的损失函数为:
其中n为训练样本的总数。
在此基础上,用Ls表示相同实体之间的损失函数,而Lu表示不同实体之间的损失函数。为了达到最小化损失函数L(θ)的目的,需要使Lu尽可能小,而使Ls尽可能大。从而训练的损失函数L(θ)可以细化为:
在训练过程中,本通过最小化损失函数L(θ),最终可以让相同的实体距离尽可能小,不同的实体距离尽可能大,增加了样本的区分度。另外,在训练过程中,选取100万个样本实体,从中随机选取25万对相同的实体对作为正样本,并随机选取25万对不相同的实体对作为负样本,混合之后输入到网络中去训练。
通过这两个CNN卷积神经网络计算之后,得到当前实体和目标实体所对应的长度为512的一维向量。接着,将这两个一维向量再次进行全连接操作,即把两个长度为512的一维向量直接连接得到长度为1024的一维向量,然后接入到一个512个神经元的全连接层中,最终得到一个长度为512的一维向量。我们用它来表示融合后的当前实体和目标实体;
阶段2和阶段3主要是训练深度强化学习部件中的Policy策略网络和Value价值网络,并优化这两个网络的参数集合,即Policy策略网络的参数θp和Value价值网络的参数θv。在不断迭代训练上述两个阶段来搜寻下一个最优策略并动态更新参数θp和θv,直到获取到全局最优策略为止。每一轮迭代均会在有限步数内找到一个目标实体,并更新参数θp和θv。特别,模块一设置最大迭代次数cmax,如果当前迭代次数超过了,则停止迭代。
为此,本发明首先基于概率知识图谱定义这两个网络训练过程中所需要的四元组<状态,回报,动作,模型>,其中,状态用概率知识图谱中的实体来表示,例如当前实体et、目标实体g以及起始实体s;当前实体et到下一实体et+1的回报用rt表示,rt等于et与et+1间关系的置信度;动作用m表示,为智能体的行为选择,对应于概率知识图谱中当前实体与下一个实体之间的关系;最后,模型表示Policy策略网络或Value价值网络中基于目标驱动的深度强化学习的策略函数或价值函数:对于策略函数,本发明通过非线性函数估计的神经网络来拟合,即策略函数为f(et,g|θp),而对于价值函数,本发明同样非线性函数估计的神经网络来拟合当前节点到目标节点的收益,即价值函数为h(et,g|θv)
阶段2:首先对Policy策略网络的参数集合θp进行随机初始化。接着,Policy策略网络接收当前实体和目标实体对应的一维向量作为输入。Policy策略网络的第一层有256个神经元,与当前实体和目标实体所对应的一维向量(长度为512)进行全连接;第二层有64个神经元;第三层有32个神经元;第四层有16个神经元;第五层有10个神经元,代表输出的10个实体的价值以及选择这个10个实体的概率,这10个实体是由当前实体到下一层实体中前7个置信度较高的实体与剩下的实体中随机选择3个实体共同组成,如果下一层实体数目少于10个,那么多余的实体单元用0填充即可。第一层、第二层和第三层均采用tanh激活函数,而第四层与第五层采用sigmod激活函数。同时,层与层之间采用dropout技术和实施批标准化处理来提高预测精度。最后,第五层10个神经元输出的是Policy策略网络所选的10个关系的概率,然后,通过softmax函数得到概率最大的关系作为行为的选择。
在阶段2的训练过程中,基于价值函数得到的回报与当前策略函数所给出的策略估计相乘来表示Policy策略网络的损失函数为,如下式所示:
Lf=log f(et,g|θp)×((rt+γh(et+1,g|θv)-h(et,g|θv)),
其中,γ∈(0,1)表示折扣因子。然后,根据Lf对参数θp求导,并以梯度上升的方式更新参数θp,即可得:
其中,表示求导运算,表示策略函数f(et,g|θp)的熵项,β∈(0,1)为学习率,加入该熵项的目的是为了避免Policy策略网络过早获取次优策略,而陷入局部最优。如果当前策略与选取该策略所带来的收益乘积为正,那么正向更新θp值,使得下一次预测该状态的可能性增加;如果乘积为负,反向更新θp值,使得下一次预测该状态的概率尽可能小,直到当前网络预测的策略不再波动为止;
阶段3:首先对Value价值网络的参数集合θv进行随机初始化。接着,与Policy策略网络一样,Value价值网络接收当前实体和目标实体对应的一维向量作为输入。Value网络的第一层有256个神经元,与当前实体和目标实体所对应的一维向量(长度为512)进行全连接;第二层有128个神经元;第三层有64个神经元;第四层有32个神经元;第五层有一个神经元代表当前的状态下的价值。第一层与第二层之间以及第二层与第三层之间都采用dropout技术防止过拟合。第一层与第二层均采用tanh激活函数,第三层与第四层均采用sigmod激活函数。第三层和第四层之间实施批标准化处理来增强模型的泛化能力。第四层与第五层之间采用全连接神经网络最终得到预测的价值。
在阶段3的训练过程中,计算当前实体实际收益rt+γh(et+1,g|θv)与所预测收益h(et,g|θv)之间差值的绝对值,并作为Value价值网络的损失函数,如下式所示:
Lh=|(rt+γ×h(et+1,g|θv))-h(et,g|θv)|,
其中,γ∈(0,1)表示折扣因子。然后,根据Lh对参数θv求导,并以梯度下降的方式更新参数θv,即可得::
其中,表示求导运算。如果预测的收益h(et,g|θv)与计算的收益rt+γh(et+1,g|θv)之间误差大于用户给定的阈值l,那么更新θv,使得预测的收益误差尽可能小,直到预测的收益h(et,g|θv)与计算的收益rt+γh(et+1,g|θv)之间误差在用户给定的阈值的[-l,l]的范围内不再波动为止;
S4.在迭代过程中,并不断地更新深度强化学习部件参数,直到当前实体为目标实体或者迭代次数超过了用户给定的最大迭代阈值为止,此时得到了从起始实体到目标实体的一条候选路径。然后,模计算当前候选路径的总回报并与之前查询的完整路径总回报对比,如果当前路径的收益高于之前的查询路径,那么将其作为查询的最优路径模型,反复执行上述过程,直到深度强化学习部件参数收敛为止。
S5.输入两个概率知识图谱中的实体,即起始实体s和目标实体g,通过已训练好的word2vec词嵌入编码器分别将它们转换为长度为512的一维向量。接着,把这两个向量合并成长度为1024的一维向量,并将它作为训练好的多层CNN卷积神经网络的输入,分别得到起始实体和目标实体所对应的长度为512的一维向量。然后在此基础上,再将这两个一维向量通过全连接层生成新的长度为1024的向量,并作为训练好的强化学习Policy策略网络和Value价值网络的输入。Policy策略网络和Value价值网络相互交迭,并从起始实体出发,每次给出当前实体到目标实体最优的下一个实体,直到找到目标实体为止。从而,最终得到一条起点是起始实体s,终点是目标实体g的最优查询路径Path(s,g)。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于深度强化学习的知识图谱最优路径查询***,其特征在于,包括两个模块,分别为模块一和模块二,所述模块一为知识图谱最优路径模型离线训练模块,模块二为知识图谱最优路径模型在线应用模块,所述知识图谱最优路径模型离线训练模块设有深度强化学习部件,对当前实体作深度强化的训练学习,得出下一实体,再以下一实体作当前实体重复训练学习,得出最优路径模型,再由起始实体与目标实体输入到模块一得出的最优路径模型,最终得到最优路径。
2.根据权利要求1所述基于深度强化学习的知识图谱最优路径查询***,其特征在于,所述深度强化学习部件由编码器、网络部件和逻辑回归部件组成,所述网络部件包括转换组件与训练组件,所述转换组件包括CNN神经网络和FC神经网络,所述训练组件包括强化学习Policy策略网络和强化学习value价值网络。
3.根据权利要求2所述基于深度强化学习的知识图谱最优路径查询***,其特征在于,所述强化学习Policy网络采用五层全连接的神经网络组成,强化学习Policy神经网络的前四层节点数目逐级减小,第五层有k个神经元,强化学习Policy神经网络的第一层和第二层以及第二层和第三层均采用dropout技术防止过拟合,激活函数采用tanh函数,第三层和第四层之间采用批标准化技术来增强模型的泛化能力,激活函数采用sigmod函数,第四层与第五层之间采用全连接来得到所要预测的k个关系的概率,作为下一个实体的行为选择;
所述强化学习value价值网络采用五层全连接的神经网络组成,强化学习value价值神经网络的第一层到第四层采用逐级递减的全连接神经网络,第五层只有一个神经元,强化学习value价值神经网络第一层和第二层之间以及第二层和第三层之间均采用dropout技术防止过拟合,第一层与第二层的激活函数均采用tanh函数,而第三层激活函数采用sigmod函数,第三层和第四层之间采用批标准化技术来增强模型的泛化能力,激活函数均采用relu函数,第四层和第五层之间采用全连接,其输出结果为Value网络预测的当前状态到目标状态累计带来的收益。
4.一种基于深度强化学习的知识图谱最优路径查询方法,其特征在于,包括以下步骤:
S1.首先对概率知识图谱中的实体关系按单位时间内用户访问频次从大到小排序,选取n个关系,生成所需的数据样本集;
S2.将数据样本集输入到深度强化学习部件中进行训练学习;
S3.在深度强化学习部件中分别进行阶段1,阶段2和阶段3的三个阶段的训练学习;
阶段1:采用编码器将实体转换成初始词向量,然后通过1-10层CNN卷积神经网络对已编码的初始词向量进一步进行处理转换成深度强化学习部件需要的词向量;
阶段2:基于强化学习Policy网络预测当前实体下一次要经过的关系;
阶段3:基于强化学习价值网络对所选择策略进行价值计算;
S4.经过步骤S3训练学习后,得出查询的最优路径模型;
S5.输入起始实体和目标实体,依次经过转换成词向量,然后融合这两个词向量输入到步骤S4的查询的最优路径模型,直到找到目标实体为止,最终得到一条起点是起始实体,终点是目标实体的最优查询路径。
5.根据权利要求4所述基于深度强化学习的知识图谱最优路径查询方法,其特征在于,所述步骤S1中选取n个关系,n不小于概率知识图谱实体关系总数的1/10,这n个关系中随机选取γ=n/2个关系,将概率知识图谱中对应的这γ个关系以及每个关系所连接的两个实体组成模型训练所需的数据样本集。
6.根据权利要求4所述基于深度强化学习的知识图谱最优路径查询方法,其特征在于,所述步骤S3的阶段1将输入的实体e1和e2经过编码器和网络部件转化为两个词向量Gθ(e1)与Gθ(e2),θ为待优化的网络参数集合,将阶段1得到的两个词向量Gθ(e1)与Gθ(e2)进行相似度计算,求出它们的余弦距离,如下式所示:
Dθ(e1,e2)=||Gθ(e1)-Gθ(e2)||cos
在训练过程中,这两个所接收的数据样本可表示为{(F,e1,e2)},F为每个数据样本的标签,从而构建出训练的损失函数,如下式所示:
其中n为训练样本的总数。
所述步骤S3的阶段2和阶段3在深度强化学习部件中的训练部件中进行,所述阶段2做策略训练,所述阶段3做价值训练,在训练过程中优化这两个网络的参数集合,即Policy策略网络的参数θp和Value价值网络的参数θv,并设有四元组<状态,回报,动作,模型>,其中,状态用概率知识图谱中的实体来表示。
7.根据权利要求6所述基于深度强化学习的知识图谱最优路径查询方法,其特征在于,所述损失函数L(θ)需要最小化,损失函数L(θ)可以细化为:
Ls表示相同实体之间的损失函数,而Lu表示不同实体之间的损失函数,需要使Lu尽可能小,而使Ls尽可能大。
8.根据权利要求6所述基于深度强化学习的知识图谱最优路径查询方法,其特征在于,所述将策略网络和价值网络中基于目标驱动的深度强化学习的得到策略函数和价值函数:对于策略函数,通过非线性函数估计的神经网络来拟合,得策略函数为f(et,g|θp),对于价值函数,同样通过非线性函数估计的神经网络来拟合当前节点到目标节点的收益,得价值函数为h(et,g|θv)。
9.根据权利要求8所述基于深度强化学习的知识图谱最优路径查询方法,其特征在于,所述将价值函数得到的回报与策略函数所给出的策略估计相乘来表示策略网络的损失函数,如下式所示:
Lf=logf(et,g|θp)×((rt+γh(et+1,g|θv)-h(et,g|θv)),
其中,γ∈(0,1)表示折扣因子,并根据Lf对参数θp求导,并以梯度上升的方式更新Policy策略网络的参数θp,得下式:
表示求导运算,表示策略函数f(et,g|θp)的熵项,β∈(0,1)为学习率;
若当前策略与选取该策略所带来的收益乘积为正,那么正向更新Policy策略网络的参数θp的值,使得下一次预测该状态的可能性增加;若乘积为负,则反向更新Policy策略网络的参数θp的值,使得下一次预测该状态的概率尽可能小,直到当前网络预测的策略不再波动为止。
10.根据权利要求8所述基于深度强化学习的知识图谱最优路径查询方法,其特征在于,所述得到的价值函数h(et,g|θv)与当前实体实际收益rt+γh(et+1,g|θv)两者之间作差值的绝对值计算,得到价值网络的损失函数,如下式所示:
Lh=|(rt+γ×h(et+1,g|θv))-h(et,g|θv)|,
其中,γ∈(0,1)表示折扣因子,并根据Lh对参数θv求导,并以梯度下降的方式更新Value价值网络的参数θv,得下式:
表示求导运算,若预测的收益h(et,g|θv)与计算的收益rt+γh(et+1,g|θv)之间误差大于用户给定的阈值l,那么更新Value价值网络的参数θv,使得预测的收益误差尽可能小,直到预测的收益h(et,g|θv)与计算的收益rt+γh(et+1,g|θv)之间误差在用户给定的阈值的[-l,l]的范围内不再波动为止。
CN201810791353.6A 2018-07-18 2018-07-18 基于深度强化学习的知识图谱最优路径查询***及其方法 Active CN109241291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810791353.6A CN109241291B (zh) 2018-07-18 2018-07-18 基于深度强化学习的知识图谱最优路径查询***及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810791353.6A CN109241291B (zh) 2018-07-18 2018-07-18 基于深度强化学习的知识图谱最优路径查询***及其方法

Publications (2)

Publication Number Publication Date
CN109241291A true CN109241291A (zh) 2019-01-18
CN109241291B CN109241291B (zh) 2022-02-15

Family

ID=65072112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810791353.6A Active CN109241291B (zh) 2018-07-18 2018-07-18 基于深度强化学习的知识图谱最优路径查询***及其方法

Country Status (1)

Country Link
CN (1) CN109241291B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109818786A (zh) * 2019-01-20 2019-05-28 北京工业大学 一种云数据中心应用可感知的分布式多资源组合路径最优选取方法
CN109829579A (zh) * 2019-01-22 2019-05-31 平安科技(深圳)有限公司 最短路线计算方法、装置、计算机设备和存储介质
CN109947098A (zh) * 2019-03-06 2019-06-28 天津理工大学 一种基于机器学习策略的距离优先最佳路径选择方法
CN110288878A (zh) * 2019-07-01 2019-09-27 科大讯飞股份有限公司 自适应学习方法及装置
CN110347857A (zh) * 2019-06-06 2019-10-18 武汉理工大学 基于强化学习的遥感影像的语义标注方法
CN110391843A (zh) * 2019-06-19 2019-10-29 北京邮电大学 多域光网络的传输质量预测、路径选择方法和***
CN110825890A (zh) * 2020-01-13 2020-02-21 成都四方伟业软件股份有限公司 一种预训练模型知识图谱实体关系抽取方法及装置
CN110825821A (zh) * 2019-09-30 2020-02-21 深圳云天励飞技术有限公司 人员关系的查询方法、装置、电子设备及存储介质
CN110956254A (zh) * 2019-11-12 2020-04-03 浙江工业大学 一种基于动态知识表示学习的案件推理方法
CN110990548A (zh) * 2019-11-29 2020-04-10 支付宝(杭州)信息技术有限公司 强化学习模型的更新方法和装置
CN111382359A (zh) * 2020-03-09 2020-07-07 北京京东振世信息技术有限公司 基于强化学习的服务策略推荐方法、装置、电子设备
CN111401557A (zh) * 2020-06-03 2020-07-10 超参数科技(深圳)有限公司 智能体决策制定方法、ai模型训练方法、服务器及介质
CN111563209A (zh) * 2019-01-29 2020-08-21 株式会社理光 一种意图识别的方法、装置及计算机可读存储介质
CN111581343A (zh) * 2020-04-24 2020-08-25 北京航空航天大学 基于图卷积神经网络的强化学习知识图谱推理方法及装置
CN111597209A (zh) * 2020-04-30 2020-08-28 清华大学 一种数据库物化视图构建***、方法以及***创建方法
CN111611339A (zh) * 2019-02-22 2020-09-01 北京搜狗科技发展有限公司 一种输入相关用户的推荐方法及相关装置
CN112801731A (zh) * 2021-01-06 2021-05-14 广东工业大学 一种接单辅助决策的联邦强化学习方法
CN112966591A (zh) * 2021-03-03 2021-06-15 河北工业职业技术学院 面向机械臂抓取任务的知识图谱深度强化学习迁移***
CN113255347A (zh) * 2020-02-10 2021-08-13 阿里巴巴集团控股有限公司 实现数据融合的方法和设备及实现无人驾驶设备的识别方法
CN114248265A (zh) * 2020-09-25 2022-03-29 广州中国科学院先进技术研究所 一种基于元模拟学习的多任务智能机器人学习方法及装置
CN114626530A (zh) * 2022-03-14 2022-06-14 电子科技大学 一种基于双边路径质量评估的强化学习知识图谱推理方法
CN115099401A (zh) * 2022-05-13 2022-09-23 清华大学 基于世界建模的持续学习框架的学习方法、装置及设备
CN115936091A (zh) * 2022-11-24 2023-04-07 北京百度网讯科技有限公司 深度学习模型的训练方法、装置、电子设备以及存储介质
CN117009548A (zh) * 2023-08-02 2023-11-07 广东立升科技有限公司 基于保密装备维护知识图谱监管***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598856A (zh) * 2016-12-14 2017-04-26 广东威创视讯科技股份有限公司 一种路径检测方法及装置
US20170124497A1 (en) * 2015-10-28 2017-05-04 Fractal Industries, Inc. System for automated capture and analysis of business information for reliable business venture outcome prediction
CN106776729A (zh) * 2016-11-18 2017-05-31 同济大学 一种大规模知识图谱路径查询预测器构造方法
CN106934012A (zh) * 2017-03-10 2017-07-07 上海数眼科技发展有限公司 一种基于知识图谱的自然语言问答实现方法和***
CN107577805A (zh) * 2017-09-26 2018-01-12 华南理工大学 一种面向日志大数据分析的业务服务***
CN107944025A (zh) * 2017-12-12 2018-04-20 北京百度网讯科技有限公司 信息推送方法和装置
CN108073711A (zh) * 2017-12-21 2018-05-25 北京大学深圳研究生院 一种基于知识图谱的关系抽取方法和***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124497A1 (en) * 2015-10-28 2017-05-04 Fractal Industries, Inc. System for automated capture and analysis of business information for reliable business venture outcome prediction
CN106776729A (zh) * 2016-11-18 2017-05-31 同济大学 一种大规模知识图谱路径查询预测器构造方法
CN106598856A (zh) * 2016-12-14 2017-04-26 广东威创视讯科技股份有限公司 一种路径检测方法及装置
CN106934012A (zh) * 2017-03-10 2017-07-07 上海数眼科技发展有限公司 一种基于知识图谱的自然语言问答实现方法和***
CN107577805A (zh) * 2017-09-26 2018-01-12 华南理工大学 一种面向日志大数据分析的业务服务***
CN107944025A (zh) * 2017-12-12 2018-04-20 北京百度网讯科技有限公司 信息推送方法和装置
CN108073711A (zh) * 2017-12-21 2018-05-25 北京大学深圳研究生院 一种基于知识图谱的关系抽取方法和***

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109818786B (zh) * 2019-01-20 2021-11-26 北京工业大学 一种云数据中心应用可感知的分布式多资源组合路径最优选取方法
CN109818786A (zh) * 2019-01-20 2019-05-28 北京工业大学 一种云数据中心应用可感知的分布式多资源组合路径最优选取方法
CN109829579A (zh) * 2019-01-22 2019-05-31 平安科技(深圳)有限公司 最短路线计算方法、装置、计算机设备和存储介质
CN111563209A (zh) * 2019-01-29 2020-08-21 株式会社理光 一种意图识别的方法、装置及计算机可读存储介质
CN111611339A (zh) * 2019-02-22 2020-09-01 北京搜狗科技发展有限公司 一种输入相关用户的推荐方法及相关装置
CN109947098A (zh) * 2019-03-06 2019-06-28 天津理工大学 一种基于机器学习策略的距离优先最佳路径选择方法
CN110347857A (zh) * 2019-06-06 2019-10-18 武汉理工大学 基于强化学习的遥感影像的语义标注方法
CN110391843A (zh) * 2019-06-19 2019-10-29 北京邮电大学 多域光网络的传输质量预测、路径选择方法和***
CN110391843B (zh) * 2019-06-19 2021-01-05 北京邮电大学 多域光网络的传输质量预测、路径选择方法和***
CN110288878A (zh) * 2019-07-01 2019-09-27 科大讯飞股份有限公司 自适应学习方法及装置
CN110288878B (zh) * 2019-07-01 2021-10-08 科大讯飞股份有限公司 自适应学习方法及装置
CN110825821A (zh) * 2019-09-30 2020-02-21 深圳云天励飞技术有限公司 人员关系的查询方法、装置、电子设备及存储介质
CN110825821B (zh) * 2019-09-30 2022-11-22 深圳云天励飞技术有限公司 人员关系的查询方法、装置、电子设备及存储介质
CN110956254A (zh) * 2019-11-12 2020-04-03 浙江工业大学 一种基于动态知识表示学习的案件推理方法
CN110990548A (zh) * 2019-11-29 2020-04-10 支付宝(杭州)信息技术有限公司 强化学习模型的更新方法和装置
CN110990548B (zh) * 2019-11-29 2023-04-25 支付宝(杭州)信息技术有限公司 强化学习模型的更新方法和装置
CN110825890A (zh) * 2020-01-13 2020-02-21 成都四方伟业软件股份有限公司 一种预训练模型知识图谱实体关系抽取方法及装置
CN113255347B (zh) * 2020-02-10 2022-11-15 阿里巴巴集团控股有限公司 实现数据融合的方法和设备及实现无人驾驶设备的识别方法
CN113255347A (zh) * 2020-02-10 2021-08-13 阿里巴巴集团控股有限公司 实现数据融合的方法和设备及实现无人驾驶设备的识别方法
CN111382359B (zh) * 2020-03-09 2024-01-12 北京京东振世信息技术有限公司 基于强化学习的服务策略推荐方法、装置、电子设备
CN111382359A (zh) * 2020-03-09 2020-07-07 北京京东振世信息技术有限公司 基于强化学习的服务策略推荐方法、装置、电子设备
CN111581343A (zh) * 2020-04-24 2020-08-25 北京航空航天大学 基于图卷积神经网络的强化学习知识图谱推理方法及装置
CN111581343B (zh) * 2020-04-24 2022-08-30 北京航空航天大学 基于图卷积神经网络的强化学习知识图谱推理方法及装置
CN111597209A (zh) * 2020-04-30 2020-08-28 清华大学 一种数据库物化视图构建***、方法以及***创建方法
CN111597209B (zh) * 2020-04-30 2023-11-14 清华大学 一种数据库物化视图构建***、方法以及***创建方法
CN111401557B (zh) * 2020-06-03 2020-09-18 超参数科技(深圳)有限公司 智能体决策制定方法、ai模型训练方法、服务器及介质
CN111401557A (zh) * 2020-06-03 2020-07-10 超参数科技(深圳)有限公司 智能体决策制定方法、ai模型训练方法、服务器及介质
CN114248265A (zh) * 2020-09-25 2022-03-29 广州中国科学院先进技术研究所 一种基于元模拟学习的多任务智能机器人学习方法及装置
CN114248265B (zh) * 2020-09-25 2023-07-07 广州中国科学院先进技术研究所 一种基于元模拟学习的多任务智能机器人学习方法及装置
CN112801731A (zh) * 2021-01-06 2021-05-14 广东工业大学 一种接单辅助决策的联邦强化学习方法
CN112966591B (zh) * 2021-03-03 2023-01-20 河北工业职业技术学院 面向机械臂抓取任务的知识图谱深度强化学习迁移***
CN112966591A (zh) * 2021-03-03 2021-06-15 河北工业职业技术学院 面向机械臂抓取任务的知识图谱深度强化学习迁移***
CN114626530A (zh) * 2022-03-14 2022-06-14 电子科技大学 一种基于双边路径质量评估的强化学习知识图谱推理方法
CN115099401A (zh) * 2022-05-13 2022-09-23 清华大学 基于世界建模的持续学习框架的学习方法、装置及设备
CN115099401B (zh) * 2022-05-13 2024-04-26 清华大学 基于世界建模的持续学习框架的学习方法、装置及设备
CN115936091A (zh) * 2022-11-24 2023-04-07 北京百度网讯科技有限公司 深度学习模型的训练方法、装置、电子设备以及存储介质
CN115936091B (zh) * 2022-11-24 2024-03-08 北京百度网讯科技有限公司 深度学习模型的训练方法、装置、电子设备以及存储介质
CN117009548A (zh) * 2023-08-02 2023-11-07 广东立升科技有限公司 基于保密装备维护知识图谱监管***
CN117009548B (zh) * 2023-08-02 2023-12-26 广东立升科技有限公司 基于保密装备维护知识图谱监管***

Also Published As

Publication number Publication date
CN109241291B (zh) 2022-02-15

Similar Documents

Publication Publication Date Title
CN109241291A (zh) 基于深度强化学习的知识图谱最优路径查询***及其方法
Han et al. A survey on metaheuristic optimization for random single-hidden layer feedforward neural network
Leng et al. Design for self-organizing fuzzy neural networks based on genetic algorithms
Nagib et al. Path planning for a mobile robot using genetic algorithms
CN108537366B (zh) 基于最优卷积二维化的水库调度方法
Chouikhi et al. Single-and multi-objective particle swarm optimization of reservoir structure in echo state network
Zhang et al. Evolving neural network classifiers and feature subset using artificial fish swarm
CN104732067A (zh) 一种面向流程对象的工业过程建模预测方法
WO2022147583A2 (en) System and method for optimal placement of interacting objects on continuous (or discretized or mixed) domains
Raiaan et al. A systematic review of hyperparameter optimization techniques in Convolutional Neural Networks
Zuo et al. Domain selection of transfer learning in fuzzy prediction models
Fofanah et al. Experimental Exploration of Evolutionary Algorithms and their Applications in Complex Problems: Genetic Algorithm and Particle Swarm Optimization Algorithm
CN116611504A (zh) 一种基于进化的神经架构搜索方法
Parsa et al. Multi-objective hyperparameter optimization for spiking neural network neuroevolution
CN115620046A (zh) 一种基于半监督性能预测器的多目标神经架构搜索方法
Kavipriya et al. Adaptive weight deep convolutional neural network (AWDCNN) classifier for predicting student’s performance in job placement process
Park et al. DAG-GCN: Directed Acyclic Causal Graph Discovery from Real World Data using Graph Convolutional Networks
Guzman et al. Adaptive model predictive control by learning classifiers
Chien et al. Stochastic curiosity maximizing exploration
de Oliveira et al. An evolutionary extreme learning machine based on fuzzy fish swarms
Phatai et al. Cultural algorithm initializes weights of neural network model for annual electricity consumption prediction
Zhang et al. Bandit neural architecture search based on performance evaluation for operation selection
Ikushima et al. Differential evolution neural network optimization with individual dependent mechanism
Srinivasan et al. Electricity price forecasting using evolved neural networks
Chen et al. Deep Recurrent Policy Networks for Planning Under Partial Observability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant