CN113128689A

CN113128689A - 一种调控知识图谱的实体关系路径推理方法及***

Info

Publication number: CN113128689A
Application number: CN202110462388.7A
Authority: CN
Inventors: 陈盛; 王新迎; 闫冬; 徐会芳; 彭国政
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-07-16

Abstract

本发明一种调控知识图谱的实体关系路径推理方法及***，实现调控知识图谱中任意两个实体间的关系路径推理，可进一步应用于调控辅助决策。所述方法包括将调控知识图谱中的实体对进行向量化表示；将向量化表示的实体对，通过预训练的DDPG模型进行推理，得到所述实体对的最优关系路径。通过预训练的DDPG模型进行推理，实现调控知识图谱中任意两个实体间的关系路径推理，可进一步应用于调控辅助决策。其中，利用先验知识库的构建，对调控知识图谱中较好的训练样本进行筛选，从而提高了DDPG模型中经验回放单元内训练样本的质量，提高了神经网络的训练效果；实现了先验知识与深度确定性策略梯度融合的路径推理方法。

Description

一种调控知识图谱的实体关系路径推理方法及***

技术领域

本发明涉及电力调度领域，具体为一种调控知识图谱的实体关系路径推理方法及***。

背景技术

随着电网规模持续扩大和运行特性日趋复杂，电网调控业务复杂度及调控人员承载力强度日益增加。但随着信息化***的不断升级，获取的信息数量及数据维度不断扩增，各类智能化应用越来越多，调度自动化业务逻辑和相关业务知识仅凭人力难以全面掌握。一旦***出现复杂问题，简单的业务逻辑或业务操作不能解决时只能通过增加人力投入来查找可能的故障原因。

故障知识推理任务是进行辅助的逻辑或决策判断，主要可分为基于向量化表示的关系推理和随机游走路径排序两种方法。前者的代表有TransE，TrasH等，其原理是将知识图谱中的不同实体、连接关系以三元组的形式开展迭代训练，将实体和关系进一步转化为不同维度的向量表示，再通过向量之间距离的计算推理不同实体间的关系。向量嵌入表示的方法将“实体-关系-实体”的表示方式转化为向量的加和操作，在知识图谱规模适中且大规模训练优化的基础上可以获得较好的效果，但当知识图谱中出现“一对多”及大量重复关系时，通过向量计算的推理结果准确度将受到大幅影响。路径排序算法PRA(Path RankingAlgorithm)是Ni Lao等人提出，其思想是通过查询知识图谱中任意两个实体间的路径，并以路径长度排序，利用关系路径的特征来判断作为随机游走模型的代表，将两个实体之间存在的路径作为特征，再利用该特征判断两个实体之间是否存在某个关系。这种方法具有更好的可解释性，但它作用在离散的特征空间中，导致难以评估实体和关系之间的相似性，且随着知识图谱规模的扩大，搜索效率将大幅下降。

开展知识推理决策的前提是寻找实体间的关系连接，国内外相关学者作了部分研究，如：XIONG等人提出的DeepPath模型将实体间关系的推理视为关系路径推理，基于Actor-Critic框架的深度强化学习方法进行了求解，并将路径推理结果作为一种关系预测方法；杨瑞达等在文章“基于混合增强智能的知识图谱推理技术研究”中，进一步提出采用混合增强智能的方法进行路径推理，且在训练过程中融合了人工判断，以提高训练收敛效率。不同于常规知识图谱，调控知识图谱中存在大量重复的关系数据，即一个起始实体加上一个关系可对应n个末端实体。但随着实体-关系-实体对数的增加，其连接路径的复杂程度也呈指数级增长，如何在一个具有数十倍于最优路径的选择空间内实现优化选择是待解决的问题。

发明内容

针对现有技术中调控知识图谱具有大量重复关系及数十倍的路径选择问题，本发明提供一种调控知识图谱的实体关系路径推理方法及***，实现调控知识图谱中任意两个实体间的关系路径推理，可进一步应用于调控辅助决策。

本发明是通过以下技术方案来实现：

一种调控知识图谱的实体关系路径推理方法，包括，

将调控知识图谱中的实体对进行向量化表示；

将向量化表示的实体对，通过预训练的DDPG模型进行推理，得到所述实体对的最优关系路径。

优选的，所述预训练的DDPG模型的训练方法如下，

将调控知识图谱中的实体对进行向量化表示；

随机生成一个样本选择概率，若不大于设定的专家经验阈值，则根据调控知识图谱的实体对构建先验知识库，并作为训练样本；

若大于设定的专家经验阈值，则根据调控知识图谱中的实体对，通过DDPG模型的神经网络，生成随机样本，并作为训练样本；

所述的训练样本集合到DDPG模型的经验回放单元，根据对经验回放单元中训练样本的设定采样对DDPG模型的神经网络进行训练。

进一步，所述根据调控知识图谱的实体对构建先验知识库，具体包括，通过深度优先搜索调节知识图谱中任意两个实体之间的存在的所有关系路径，根据训练需要，存储为如下关系路径三元组的格式：

P_n＝{(e_head,r,e_m),...,(e_m,r,e_end)}

式中，P_n为第n条关系路径；e_head，e_end为头部实体及尾部实体；e_m为与头部实体或尾部实体相连的中间实体；r为知识图谱中的关系。

优选的，所述的将调控知识图谱中的实体对进行向量化表示时，将知识图谱中的任意三元组<实体1、关系、实体2>转化为向量空间的连续表示，即实现实体向量1+关系向量＝实体向量2；具体包括如下，

步骤1，根据任意包含多个三元组<实体1、关系、实体2>的知识图谱，确定向量空间的维度n，实体个数|E|，关系个数|R|，并生成(|E|+|R|)*n个向量参数；

步骤2，筛选固定尺寸的三元组，并根据三元组中实体关系向量计算误差，公式如下：

式中，向量e_head为三元组的头实体，向量e_end为三元组的尾实体，向量r为连接头实体和尾实体的关系；

步骤3，采用梯度下降的方式更新三元组中的向量参数；

步骤4，循环步骤2和步骤3，直至误差最小，训练结束，得到实体对的向量化表示。

优选的，所述预训练的DDPG模型中，评论网络根据如下损失函数进行网络学习；

其中，y是目标行动网络Q值；

是目标评论网络的Q值；R是奖励函数；s是状态；a是目标行动网络传给目标评论网络的关系向量；γ是折扣因子；L(θ)为目标行动网络的Q值和目标评论网络的Q值的平方损失；θ为目标行动网络的参数集合；E表示平均值。

进一步，所述奖励函数R如下式所示，

R＝R_complete+R_length

其中，

为推理路径是否达到目标点的奖励值；

为推理路径长度的奖励值。

优选的，所述预训练的DDPG模型中，行动网络基于确定性策略根据下式进行参数更新；

其中，J是目标行动网络的目标函数；θ是目标行动网络的参数集合；s是状态；D是状态空间全集；μ表示目标行动网络输出的确定性动作；Q^μ(s,a)为采用确定性动作μ的Q值；a是目标行动网络传给目标评论网络的关系；▽为梯度表示。

一种调控知识图谱的实体关系路径推理***，包括，

实体向量化嵌入模块，用于将调控知识图谱中的实体对进行向量化表示；

关系推理模块，用于将向量化表示的实体对，通过预训练的DDPG模型进行推理，得到所述实体对的最优关系路径。

优选的，所述的关系推理模块还包括先验知识库构建模块，用于根据调控知识图谱的实体对构建先验知识库；具体包括，通过深度优先搜索调节知识图谱中任意两个实体之间的存在的所有关系路径，根据训练需要，存储为如下关系路径三元组的格式：

P_n＝{(e_head,r,e_m),...,(e_m,r,e_end)}

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的调控知识图谱的实体关系路径推理方法。

与现有技术相比，本发明具有以下有益的技术效果：

本发明通过预训练的DDPG模型进行推理，实现调控知识图谱中任意两个实体间的关系路径推理，可进一步应用于调控辅助决策。其中，利用先验知识库的构建，对调控知识图谱中较好的训练样本进行筛选，从而提高了DDPG模型中经验回放单元内训练样本的质量，提高了神经网络的训练效果；实现了先验知识与深度确定性策略梯度融合的路径推理方法。

进一步的，神经网络学习可实现状态空间与动作输出的复杂关系映射，无需建立环境状态与动作输出之间的数学关系，从而提高了模型的适应性，且神经网络具有记忆功能，在经过训练后，在实际使用中无需进一步进行训练即可开展路径推理，提高了常规基于查询的路径推理方法的效率。

进一步的，神经网络参数更新方式采用经验知识和随机探索相结合的方式开展，可大幅提高神经网络模型的探索效率，实现模型的快速稳定收敛。

进一步的，奖励函数设计以可达性和路径长度反比双重机制，既能保障路径的可用性，又可以实现尽量短的推理路径，提高了模型的可用性。

附图说明

图1为本发明实例中所述推理方法的流程图。

图2为本发明实例中所述包括预训练过程的推理方法的流程图。

图3为本发明实例中所述DDPG模型训练的架构图。

图4为本发明实例中所述***的结构框图。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

本发明一种调控知识图谱的实体关系路径推理方法，如图1所示，其包括，将调控知识图谱中的实体对进行向量化表示；将向量化表示的实体对，通过预训练的DDPG模型进行推理，得到所述实体对的最优关系路径。

上述预训练的DDPG模型，是对现有的DDPG模型的，主要在于通过改进的训练方法实现DDPG模型的改进，如图2所示，包括如下步骤，

S1将调控知识图谱中的实体对进行向量化表示；通过实体向量化嵌入，主要实现知识图谱中实体、关系的向量化表示；表示时将知识图谱中的任意三元组<实体1、关系、实体2>转化为向量空间的连续表示，即实现实体向量1+关系向量＝实体向量2；具体包括如下，

步骤3，采用梯度下降的方式更新三元组中的向量参数；

其中，对于不同的模式选择，S1中的实体向量化嵌入的处理对象不同，在训练时，具体的采用调控知识图谱训练集，而在测试时，具体的采用调控知识图谱测试集，在运行时，具体的采用待推理的调控知识图谱集合。

S2关系推理训练；主要通过先验知识库的构建、深度神经网络学习的改进和行动网络参数更新实现对原有DDPG模型训练进行改进，从而实现对DDPG模型的改进，具体的，如图3所示，

开始训练循环，随机生成一个样本选择概率，若不大于设定的专家经验阈值，则根据调控知识图谱的实体对构建先验知识库，并作为训练样本；若大于设定的专家经验阈值，则根据调控知识图谱中的实体对，通过DDPG模型的神经网络，生成随机样本，并作为训练样本；其中一个完整的样本包括关系向量a，当前时刻状态s，下一时刻状态s_i+1和奖励函数R_i。本优选实例中，专家经验阈值默认设定为0.5。

构建先验知识库具体包括，通过深度优先搜索调节知识图谱中任意两个实体之间的存在的所有关系路径，根据训练需要，存储为如下关系路径三元组的格式：

P_n＝{(e_head,r,e_m),...,(e_m,r,e_end)}

预训练DDPG模型时，评论网络根据如下损失函数进行网络学习；

式中，y是目标行动网络Q值；

是目标评论网络的Q值；R是奖励函数；a是目标行动网络传给目标评论网络的关系向量；γ是折扣因子；L(θ)为目标行动网络的Q值和目标评论网络的Q值的平方损失；θ为目标行动网络的参数集合；E表示平均值。具体的，a是目标行动网络传给目标评论网络的关系向量，即执行策略，y等于目标评论网络的Q值乘以折扣因子γ的加和，目标评论网络的Q值则根据奖励函数R及将下一时刻的状态和目标行动网络得到的动作进行计算。L(θ)为目标行动网络的Q值和目标评论网络的Q值的平方损失，用于目标评论网络参数的训练更新。

在上述损失函数中，奖励函数R设计方面主要考虑路径推理中的必要因素：一是，推理路径能够达到目标点；二是，推理路径的长度，具体的奖励函数R如下式所示，

R＝R_complete+R_length

其中，

为推理路径是否达到目标点的奖励值；

为推理路径长度的奖励值。

预训练DDPG模型时，行动网络基于确定性策略根据下式进行参数更新；

其中，J是目标行动网络的目标函数；θ是目标行动网络的参数集合；s是状态；D是状态空间全集；μ表示目标行动网络输出的确定性动作；Q^μ(s,a)为采用确定性动作μ的Q值；a是目标行动网络传给目标评论网络的关系；

为梯度表示。

通过上述的训练，输出本轮训练结果，判断循环是否结束，结束则保存更新神经网络模型，未结束则重复上的训练循环。

S3训练完成更新DDPG的神经网络后，进行关系推理运行或测试；

步骤1：输入需要进行关系推理的实体对<e_head，e_end>；

步骤2：利用S2已训练好的DDPG模型，将实体对<e_head，e_end>通过向量化表示输入DDPG模型的神经网络；

步骤3：得到输出结果或者验证输出结果。

本发明提出一种基于先验知识与深度确定性策略梯度融合的路径推理方法，实现调控知识图谱中任意两个实体间的关系路径推理，可进一步应用于调控辅助决策。与此对应的，本发明所述的***，如图4所示，包括，

其中，关系推理模块还包括先验知识库构建模块，用于根据调控知识图谱的实体对构建先验知识库；具体包括，通过深度优先搜索调节知识图谱中任意两个实体之间的存在的所有关系路径，根据训练需要，存储为如下关系路径三元组的格式：

P_n＝{(e_head,r,e_m),...,(e_m,r,e_end)}

其中，关系推理模块用于关系推理训练及关系推理运行或测试。

实体向量化嵌入模块主要实现知识图谱中实体、关系的向量化表示。

关系推理模块在进行训练时，主要通过先验知识构建模块实现先验知识库构建、深度神经网络构建后进行深度神经网络参数更新、通过奖励机制设计构建奖励函数，并进行模型训练和模型保存等功能。

关系推理模块在运行或测试时，主要实现基于已训练模型开展知识图谱实体关系路径推理。

上述的神经网络构建具体的，根据调节知识图谱实体、关系向量嵌入维度n，定义状态空间s为2*n个参数，对应输入层神经元个数为2*n，动作空间为知识图谱中关系个数，如关系数量为m，则对应输出层神经元个数为m。根据调节知识图谱规模大小，选择隐层数量及神经元参数个数。构建完成后，进行上述的训练过程。

本发明还提供一种计算机设备，包括存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现如上述的调控知识图谱的实体关系路径推理方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的调控知识图谱的实体关系路径推理方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims

1.一种调控知识图谱的实体关系路径推理方法，其特征在于，包括，

将调控知识图谱中的实体对进行向量化表示；

2.根据权利要求1所述的一种调控知识图谱的实体关系路径推理方法，其特征在于，所述预训练的DDPG模型的训练方法如下，

将调控知识图谱中的实体对进行向量化表示；

3.根据权利要求2所述的一种调控知识图谱的实体关系路径推理方法，其特征在于，所述根据调控知识图谱的实体对构建先验知识库，具体包括，通过深度优先搜索调节知识图谱中任意两个实体之间的存在的所有关系路径，根据训练需要，存储为如下关系路径三元组的格式：

P_n＝{(e_head,r,e_m),...,(e_m,r,e_end)}

4.根据权利要求1或2所述的一种调控知识图谱的实体关系路径推理方法，其特征在于，所述的将调控知识图谱中的实体对进行向量化表示时，将知识图谱中的任意三元组<实体1、关系、实体2>转化为向量空间的连续表示，即实现实体向量1+关系向量＝实体向量2；具体包括如下，

步骤3，采用梯度下降的方式更新三元组中的向量参数；

5.根据权利要求1或2所述的一种调控知识图谱的实体关系路径推理方法，其特征在于，所述预训练的DDPG模型中，评论网络根据如下损失函数进行网络学习；

其中，y是目标行动网络Q值；

6.根据权利要求5所述的一种调控知识图谱的实体关系路径推理方法，其特征在于，所述奖励函数R如下式所示，

R＝R_complete+R_length

其中，

为推理路径是否达到目标点的奖励值；

为推理路径长度的奖励值。

7.根据权利要求1或2所述的一种调控知识图谱的实体关系路径推理方法，其特征在于，所述预训练的DDPG模型中，行动网络基于确定性策略根据下式进行参数更新；

▽J(θ)＝E_s∈D[▽_μQ^μ(s,a)·▽_θμ_θ(s)|a＝μ_θ(s)]

8.一种调控知识图谱的实体关系路径推理***，其特征在于，包括，

9.根据权利要求8所述的一种调控知识图谱的实体关系路径推理***，其特征在于，所述的关系推理模块还包括先验知识库构建模块，用于根据调控知识图谱的实体对构建先验知识库；具体包括，通过深度优先搜索调节知识图谱中任意两个实体之间的存在的所有关系路径，根据训练需要，存储为如下关系路径三元组的格式：

P_n＝{(e_head,r,e_m),...,(e_m,r,e_end)}

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的调控知识图谱的实体关系路径推理方法。