CN116010621B

CN116010621B - 一种基于规则引导的自适应路径生成方法

Info

Publication number: CN116010621B
Application number: CN202310032764.8A
Authority: CN
Inventors: 周光有; 陈昱丞
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-08-11
Anticipated expiration: 2043-01-10
Also published as: CN116010621A

Abstract

本发明公开了一种基于规则引导的自适应路径生成方法，包括：首先将问题中的主题实体进行过滤筛选，然后输入到强化学习的环境中，利用三个符号操作生成三个查询图形成初始空间，再利用规则归纳算法基于主题实体对大规模数据库进行规则归纳并补全稀疏知识库中缺失的中间实体，形成规则查询图构成新的动作决策空间，决策空间是由知识库中的实体及其对应的关系组成，通过策略网络来指导智能体进行动作选择并给予奖励，最终得到需要的关系路径并到达目标实体。本发明提出了规则引导和组合奖励的强化学习方法，在规则引导的基础上，自适应生成动作决策空间，利用关系路径和规则之间的内在关系重构组合奖励缓解稀疏奖励问题。

Description

一种基于规则引导的自适应路径生成方法

技术领域

本发明属于大规模知识库自动问答技术领域，特别是涉及一种基于规则引导的自适应路径生成方法。

背景技术

复杂知识库问答主流方法主要有三类：基于语义解析的方法(Semantic parsingbased method,简称SP-based)、基于信息检索的方法(Information retrieval basedmethod,简称IR-based)和基于强化学习的方(Reinforcement learning based method,简称RL-based)。第一类方法通过构建语义解析器对问题进行解析，从而将自然语言描述转化为结构化查询语句。这类方法受限于查询模板的覆盖率，无法灵活应对复杂问题。第二类方法的核心思想是在知识库中检索与问题相关联的信息，构建问题子图，并对问题和子图进行嵌入表示，从而构建端到端的答案检索。虽然基于信息检索的方法具有较高的灵活性，但是该类方法没有可追踪的推理过程，可解释性差。基于强化学习的方法，将复杂知识库问答建模成一个序列决策的过程，通过模型训练RL代理在KB上执行策略引导的随机游走，直到到达目标实体。该方法的优点在于能够提供更好的灵活性和可解释性。

虽然基于强化学习的方法获得了显著的效果提升，但是仍然面临以下两个方面的挑战：1)现实世界中大部分的知识库都是稀疏的，在多跳问答推理的过程中由于缺少中间实体而产生大量虚假路径，导致模型推理的效率低下。以往通过基于路径编码和序列编码来设计策略网络引导智能体到达目标实体，其并不能有效地排除虚假路径并补全缺失的中间的实体，降低了模型的效率。2)现有的工作仅以到达目标实体作为监督信号给予一定的奖励反馈，这会使得智能体在大量路径探索过程中只存在少量路径会得到一定的奖励反馈，这种极端的稀疏奖励会造成模型的不稳定，导致稀疏奖励问题。

发明内容

本发明的目的是提供一种基于规则引导的自适应路径生成方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了一种基于规则引导的自适应路径生成方法，包括：

构建策略网络，通过策略网络获得动作概率分布；

基于符号操作与所述策略网络构建智能体动作决策空间；

基于所述策略网络与所述智能体动作决策空间构建组合奖励函数；

基于所述智能体动作决策空间、所述动作概率分布、所述组合奖励函数，采用迭代优化策略，实现自适应智能体路径生成。

可选的，构建策略网络,所述策略网络包括：获取复杂问题的候选实体集，基于所述候选实体集对环境状态、动作空间状态进行初始化；采用双向门控循环神经网络对所述复杂问题进行编码表示，知识库中的所有实体和关系均采用嵌入向量表示。

可选的，获取所述候选实体集的过程包括：消除组成所述复杂问题的单词的歧义，通过实体链接工具提取问题中实体提及并链接到知识库中的候选主题实体，得到复杂问题的候选实体集。

可选的，构建所述智能体动作决策空间的过程包括：通过三个符号操作生成三个查询图，所述查询图构成候选动作决策空间；采用规则归纳算法生成规则查询图，基于规则查询图获得缺失的中间实体及其关系，基于所述规则查询图、所述候选动作决策空间获得所述智能体动作决策空间，其中，所述规则查询图基于智能体的动作进行动态更新。

可选的，获得所述规则查询图的过程中包括：在所述候选动作决策空间中选取一条路径，利用所述路径上的实体，基于规则转换集与知识库存在的链接关系引导智能体进行新路径探索，获得规则查询图，其中，所述转换规则集基于规则归纳算法获得，包括正向规则和逆向规则，通过规则匹配度分数与推理路径的匹配度分数的计算结果判断单个规则的质量，所述路径上的实体符合规则适用范围，所述规则适用范围基于规则归纳算法获得。

可选的，通过策略网络获得动作概率分布的过程包括：基于智能体采取动作后的实体与关系组合，采用符号操作对智能体的历史路径进行扩展，获得候选路径，构建图注意力网络编码器，通过图注意力网络编码器对候选路径进行编码；将智能体的历史路径通过双向门控循环神经网络进行编码后，输入至图注意力网络编码器，将双向门控循环神经网络与图注意力网络编码器的输出经过归一化与最大池化后，获得动作概率分布。

可选的，所述组合奖励函数由规则奖励函数与相似度奖励函数构成；

所述规则奖励函数为分段函数，基于智能体当前到达的实体、目标实体、推理路径嵌入向量、复杂问题的嵌入向量与规则的匹配度分数构成；

所述相似度奖励函数基于当前实体嵌入向量、主题实体嵌入向量、问题嵌入向量、相似度权重因子构成。

可选的，所述组合奖励函数为规则奖励函数与相似度奖励函数加权求和，权重值和为1；引入余弦函数对组合奖励函数进行更新，使组合奖励保持最优策略，其中，所述余弦函数基于当前实体嵌入向量、智能体采取动作后下一次的实体及关系获得。

本发明的技术效果为：

(1)提出了自适应扩展动作决策空间，其结合了符号操作和规则引导，补全了稀疏知识库中缺失的中间实体，为智能体提供更好地导航，提高了通过正确路径到达目标实体的概率，相比以往通过基于路径编码和序列编码来设计策略网络引导智能体到达目标答案实体，通过结合规则引导能够更好地排除了虚假路径并补全缺失的中间实体，让智能体在探索的过程中覆盖所有可能路径的同时排除了由于缺失中间实体而造成的虚假路径。同时本发明对规则总结了适用的范围，方便进一步的应用。

(2)利用关系路径和规则之间的内在关系重构组合奖励，使得智能体在大量路径的探索过程中，尽可能多的路径得到奖励反馈，从而缓解稀疏奖励的问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中的方法示意图；

图2为本发明实施例中的通过规则引导智能体探索实例的过程示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

实施例一

如图1所示，本实施例中提供一种基于规则引导的自适应路径生成方法，包括：

将给定问题定义为其中/>为组成问题的单词。知识库问答任务的目标就是找到知识库中一条推理路径，该路径从主题实体e₀出发，通过多跳关系推理，最终到达目标答案实体/>本文提出的模型问答推理过程主要包含以下几个部分：1)给定问题/>首先消除问题中关键字或短语的歧义，使用标准词汇匹配分数为每个问题术语从知识库中收集候选项，模型通过实体链接工具提取问题中实体提及并链接到知识库中的候选主题实体，得到问题的候选实体集合；2)为知识库中的所有实体和关系创建嵌入，对于环境中的初始状态采用从上一部分抽取到的候选实体来初始化定义为s_0；3)智能体扩展路径并更新状态。依据当前状态通过Zhang等人提出的三个符号操作O_t∈{extend，bridging，unite}生成三个查询图构成初始候选动作决策空间A_o，并利用规则归纳算法生成规则查询图构成额外的动作决策空间A_t，补全缺失的中间实体，将缺失的中间实体及其关系加入到原始动作决策空间去，得到最终的动作决策空间A＝A_o+A_t，结合符号操作和规则引导为智能体导航，提高了通过正确路径到达目标实体的概率，具体过程见“算法1”；4)本文通过关系路径和规则之间的内在关系重构组合奖励，让智能体在探索的过程中让尽可能多的路径得到奖励反馈，使得智能体和环境之间得到充分的交互。

马尔可夫决策建模

在强化学习框架下，智能体通过与环境(Environment)进行交互迭代地探索推理路径，策略网络(Policy Network)需要给出监督信号，在每次迭代中指导智能体选择最优的路径进行探索，直到获取目标实体。复杂知识库问答任务被建模为一个马尔可夫决策过程(Markov Decision Process，MDP)，定义为MDP中包括四个重要元素，分别表示：1)S：状态空间。环境的状态描述了推理过程的起始节点，历史推理过程和智能体当前所到达的节点。特别地，在本文中借鉴Zhang等人提出的自适应路径生成器，通过引入符号操作O_t∈{extend，bridging，unite}，针对不同类型的复杂问题自适应地生成推理路径。2)A：动作空间。动作空间分别对应于三个符号操作(Three symbol operation，简称TSO)生成的三个查询图和规则引导生成的规则查询图，为了让知识库结构信息进行更好地传递，本文在查询图的基础上结合了图注意力机制。3)δ：状态转移。状态转移是在当前时间步基于环境的当前状态和候选动作空间。4)R：奖励反馈。强化学习期望智能体能探索出有效的推理路径从而得到及时的奖励(Reward)反馈来优化模型。

知识库一般是稀疏的，在多跳知识库问答推理中缺少很多中间实体，容易产生大量虚假路径，降低了达到目标实体的准确率，导致推理效率低下。以往通过基于路径编码和序列编码来设计策略网络引导智能体进行探索，这样的方法往往缺乏可解释性并且存在大量由于缺失中间实体导致的虚假路径。为了应对上述的挑战，提出了一个强化学习框架以及一个动态完成机制，即基于规则引导的自适应路径生成模型框架RS-DAG。

首先，该模型利用规则结合符号操作o_t为智能体进行导航，自适应生成动作决策空间。其次，利用关系路径和规则之间的内在关系提出了组合奖励，从而缓解模型推理效率低下和稀疏奖励的问题，主要框架如图1所示。首先将问题中的主题实体进行过滤筛选，然后输入到强化学习的环境中，利用Zhang等人定义的三个符号操作生成三个查询图形成初始空间，再利用Ganhotra等人提出的AnyBURL规则归纳算法基于主题实体对KB进行规则归纳(Rule Induction，简称RI)并对补全稀疏知识库中缺失的中间实体，形成规则查询图构成新的动作决策空间，这些决策空间是由知识库中的实体及其对应的关系组成，之后通过策略网络来指导智能体进行动作选择并给予奖励，最终得到需要的关系路径并到达目标实体。

表1

在策略网络中，所有实体和关系都用嵌入向量表示，将全局上下信息、状态信息和查询四元组利用Bi-GRU(双向门控循环神经网络)进行编码表示。具体来说，在时间步t，a_t＝(r_t+1，e_t+1，o_t，h_t)，h_t表示由智能体已经采取动作后的下一次的实体和关系组成。在第t₀-t_h次迭代中，智能体从当前实体，根据不同的符号的操作选择不同的动作扩展对应的历史路径，从而得到当前的候选路径。对于查询图的历史路径的编码，通过图注意力机制进行编码来获得图中相邻的结点的信息和查询图中距离较远的结点之间的上下文信息，首先用Bi-GRU(双向门控循环神经网络)对历史路径迭代产生的子路径进行编码处理作为图注意力网络编码器的输入向量，之后经过归一化和最大池化层输出得到候选路径的图注意力编码，最后输出动作概率。

设计的策略网络创新之处在于通过规则引导的方式自适应的生成动作决策空间，该模型主要包括两个核心部分：(1)基于目标实体的自适应扩展动作决策空间；(2)基于规则路径的组合奖励。

基于目标实体的自适应扩展动作决策空间

基于目标实体的自适应扩展动作决策空间主要是通过规则结合符号操作来设计策略网络引导智能体完成，在补全缺失的中间实体的同时排除了虚假路径，提高了模型的推理效果。在本节中将详细介绍如何通过基于KB中的目标实体的规则挖掘结合三个符号操作来更新动作决策空间，从而减少虚假路径对推理效果的影响。

表2

利用规则挖掘缺失的中间实体

由于在基于强化学习的问答推理中动作决策空间是由实体和关系组成，受Ganhotra等人的启发，利用AnyBURL规则算法从KB中归纳规则挖掘出稀疏知识库中缺失的中间实体及其对应的关系路径，在符号操作O_t生成的查询图构成的初始动作决策空间A₀的基础上，增加规则查询图来动态更新动作决策空间，解决由于稀疏知识库中缺少中间实体而造成的大量虚假路径的问题。为了挖掘出与主题实体相关的规则进行学习，首先通过AnyBURL规则算法基于当前实体从符号操作O_t∈{extend，bridging,unite}生成的知识图中选取一条推理路径，利用推理路径上的实体在知识库中存在的链接关系，通过表1的转换规则挖掘出所缺失的中间实体及其对应的关系。

基于目标实体的规则学习对于挖掘出来的关系和实体构成规则查询图加入到初始的动作决策空间中形成智能体最终的动作决策空间A_t，实验结果表明在三个符号操作的基础上结合规则引导能够有效解决由于中间实体的缺失导致大量虚假路径的问题。

为了挖掘出稀疏知识库中缺失的中间实体，基于Ganhotra等人提出的AnyBURL规则算法总结了如表1所示的基于新事实的规则转换集(正向和逆向规则)，规则Q_t～F(a，b)可以用递归形式F₁(a，o1)～F₂(o₁，o₂)～F₃(o₂，o₃)～...～F_n(o_n，b)

来表示。其中，a、b和o_i对应知识库中关系路径上的实体。为了衡量挖掘出来的规则质量，公式(1)和公式(2)分别给出了如何计算规则匹配度分数cf和由规则引导生成的推理路径的匹配度分数f_i。

其中，H表示规则转换中与主题实体有链接关系的实体数目，M表示在初始动作空间与主题实体存在链接关系的实体数目。κ表示头实体e₀的所有三元组{(e_o，F_i，e_n)，i∈0，..，n}，f_i表示第i跳路径的匹配度分数，e_i表示第i跳路径更新规则事实后的实体，表示由第i跳路径推断的尾实体。

为了更加清晰直观，表2给出了针对复杂查询(heskey，Owen，team，？)的规则挖掘过程，其中初始路径是由符号操作Ot∈{extend，bridging，unite}生成的初步关系推理路径，通过该实例得到的最终匹配度分数cf＝H/M＝0.6。首先将该复杂问题分解成两个查询(heskey，team，？)和(Owen，team，？)，通过对主题实体进行实体链接得到知识库中的链接关系，如表2所示，利用转换规则1和规则2得到共同的实体Gerard，从而挖掘出一条缺失的三元组(Gerard，Teamcoach，LFC)，并将缺失的中间实体及其对应的关系加入到规则查询图中，引导智能体推理得到了一条通过符号操作o_t没有探索到的推理路径，进而排除虚假路径得到目标实体LFC，如表2所示。表2中的规则实体表示为规则转换关系上的实体，符号实体表示通过三个符号操作得到的实体。操作实例如图所示。

对于当前实体，首先通过规则表达式中的第一个实体来进行匹配得到，如果存在匹配上述表1中总结的链式规则将获得其相应的合理性分数，取合理性分数最高的链式规则的尾实体及其对应的关系加入到生成的规则查询图中。通过KB规则挖掘出来的实体和关系组成的规则查询图来构成新的动作决策空间，降低了由于缺少大量中间实体得到的虚假路径对于后续推理过程造成的影响。

在知识库多跳推理问答中，为了精确地获得缺失的中间实体，提出了基于新事实的交替归纳，通过该模块在每次挖掘出来的新的事实中再次归纳新的规则。在图1中，通过策略网络计算出问题注意力编码向量q后，选取出q中排名前K项关注度最高的关系和实体构成规则查询图来更新动作决策空间。规则查询图是由已经挖掘出来的新事实及其关系组成，交替归纳模块通过AnyBURL规则归纳算法从推理出来的新事实中归纳新的规则，然后将新的规则加入到已有的规则查询图中，以此相互促进，从而引导智能体更有效地进行探索，提高了到达目标实体的准确率。

规则的适用范围

为了方便进一步使用规则挖掘缺失的中间实体，基于Ganhotra等人提出的AnyBURL规则算法，总结了以下四个方面的规则适用范围：(1)在知识库推理问答中所涉及到的问题应包含多个实体和多个关系；(2)利用规则挖掘中间实体时，在稀疏知识库中与主题实体相关的链接关系应出现一次或多次；(3)对于路径采样都是基于三个符号操作生成的知识图上的实体进行随机采样，同时保证被采样的实体在稀疏的知识库中存在多个链接关系；(4)利用规则挖掘出的路径的长度L应大于等于缺失的中间实体与主题实体之间存在的链接关系数n。

基于规则路径的组合奖励

在复杂KBQA中，现有的工作仅以到达目标实体作为监督信号给予一定的奖励反馈，这会使得智能体在大量路径探索过程中只存在少量路径会得到一定的奖励反馈，这种极端的稀疏奖励会造成模型的不稳定，导致稀疏奖励问题。

例如LAN等人2019年提出的模型TUL在奖励函数地设置上，只有在提取到答案的时候才能获得累积奖励，He等人2021年提出的模型KG-RS在奖励策略中引入打分函数，通过现有的预训练知识库模型对事实三元组进行打分得到相应的奖励，以上模型奖励函数设计的问题在于智能体到达目标实体之前，许多合理的动作都不能相对应的奖励。因此，提出组合奖励来解决上述问题，与现有存在比较成熟的强化学习的奖励机制相比，设计的组合奖励的创新点在于利用规则排除虚假路径的同时，考虑到了关系路径和规则之间的内在关系，通过组合奖励机制给予虚假路径上合理的动作适当的奖励，实验结果表明该文提出的奖励机制能够很好地缓解稀疏奖励问题。组合奖励主要分为规则奖励、相似度奖励这两部分。

第一部分规则奖励定义为:

其中，e_t代表当前到达的实体，代表目标实体，/>代表规则引导生成的推理路径嵌入向量表示，q代表问题的嵌入向量，cf代表规则的匹配度分数。

当智能体无法得到目标实体时，为了让更多存在合理推理的路径得到适当的奖励反馈，提出了相似度奖励。通过预先训练好的模型来计算路径关系与问题之间，当前实体与主题实体之间的相似度。将相似度奖励定义为：

R_sim＝φcos(h_t，q)+(1-φ)cos(e₀，e_c) (6)

其中，e_c代表当前实体嵌入向量，e₀代表主题实体嵌入向量，q表示问题的嵌入向量，φ∈[0，1]表示相似度权重因子。

提出的组合奖励结合了相似度奖励和规则奖励，将其定义为

R(s_t，a_t)＝αR_r+(1-α)R_sim (7)

其中，α是这两种奖励的权重，s_t代表当前状态，a_t代表候选动作(组合奖励中的实体及其对应的关系)，为了让组合奖励保持最优策略引入了余弦函数ρ(s_t)＝cos(e_c，h_t)，并将组合奖励机制更新为：

R(s_t+1，a_t)＝R(s_t，a_t)+γ·ρ(s_t+1)-ρ(s_t) (8)

其中，γ是可学习参数，表示折扣因子。通过上述的组合奖励机制可以缓解由于极端的稀疏奖励造成模型的不稳定，帮助智能体进行正确的动作选择。

训练策略优化

通过最大预期回报来训练策略网络，将策略网络的累计奖励定义为：

使用经典的REINFORCE来最大化总的奖励回报。

其中，π_θ(a_t|s_t+1)是策略网络输出候选动作的概率分布，R(s_t+1，a_t)是组合奖励。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于规则引导的自适应路径生成方法，其特征在于，包括以下步骤：

构建策略网络，通过策略网络获得动作概率分布；

基于三个符号操作与所述策略网络构建智能体动作决策空间；

基于所述智能体动作决策空间、所述动作概率分布、所述组合奖励函数，采用迭代优化策略，实现自适应智能体路径生成；

构建策略网络,获得所述策略网络的过程包括：获取复杂问题的候选实体集，基于所述候选实体集对环境状态、动作空间状态进行初始化；采用双向门控循环神经网络对所述复杂问题进行编码表示，知识库中的所有实体和关系均采用嵌入向量表示；

获取所述候选实体集的过程包括：消除组成所述复杂问题的单词的歧义，通过实体链接工具提取问题中实体提及并链接到知识库中的候选主题实体，得到复杂问题的候选实体集；

构建所述智能体动作决策空间的过程包括：通过三个符号操作生成三个查询图，所述查询图构成候选动作决策空间；采用规则归纳算法生成规则查询图，基于规则查询图获得缺失的中间实体及其关系，将缺失的中间实体及其关系加入到候选动作决策空间中获得所述智能体动作决策空间，其中，所述规则查询图基于智能体的动作进行动态更新；

获得所述规则查询图的过程中包括：在所述候选动作决策空间中选取一条路径，利用所述路径上的实体，基于规则转换集与知识库存在的链接关系引导智能体进行新路径探索，获得规则查询图，其中，所述规则转换集基于规则归纳算法获得，包括正向规则和逆向规则，通过规则匹配度分数与推理路径的匹配度分数的计算结果判断单个规则的质量，所述路径上的实体符合规则适用范围，所述规则适用范围基于规则归纳算法获得。

2.根据权利要求1所述的基于规则引导的自适应路径生成方法，其特征在于，

通过策略网络获得动作概率分布的过程包括：基于智能体采取动作后的实体与关系组合，采用符号操作对智能体的历史路径进行扩展，获得候选路径，构建图注意力网络编码器，通过图注意力网络编码器对候选路径进行编码；将智能体的历史路径通过双向门控循环神经网络进行编码后，输入至图注意力网络编码器，将双向门控循环神经网络与图注意力网络编码器的输出经过归一化与最大池化后，获得动作概率分布。

3.根据权利要求1所述的基于规则引导的自适应路径生成方法，其特征在于，

所述组合奖励函数由规则奖励函数与相似度奖励函数构成；

4.根据权利要求3所述的基于规则引导的自适应路径生成方法，其特征在于，

所述组合奖励函数为规则奖励函数与相似度奖励函数加权求和，权重值和为1；引入余弦函数对组合奖励函数进行更新，使组合奖励保持最优策略，其中，所述余弦函数基于当前实体嵌入向量、智能体采取动作后下一次的实体及关系获得。