CN116955642A

CN116955642A - 一种基于深度强化学习的知识图谱构建方法

Info

Publication number: CN116955642A
Application number: CN202310729375.0A
Authority: CN
Inventors: 苏中秋; 陈鹏; 王妍妍; 周迅钊; 朱翔鹰
Original assignee: China Electric Rice Information System Co ltd
Current assignee: China Electric Rice Information System Co ltd
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-10-27

Abstract

本发明公开了一种基于深度强化学习的知识图谱构建方法，利用强化学习对语料筛选，并将其用于深度神经网络训练抽取关系三元组，把成熟的网络用于抽取知识数据后导入图数据库的方法。本发明利用远监督和强化学习算法用于语料标注，并提出在文本数据包里再分堆的方法，找到语料实例的先验关系并对其标注，再用于深度神经网络训练；训练效果又将反作用于强化学习模块修改策略参数，以提升文本数据分类质量。准确的标注语料将提升神经网络的训练效果，从而提高神经网络自动抽取关系三元组的质量用于构建知识图谱。

Description

一种基于深度强化学习的知识图谱构建方法

技术领域

本发明涉及一种知识图谱构建方法，特别是一种基于深度强化学习的知识图谱构建方法。

背景技术

知识图谱的构建的基础元素是关系三元组，即SPO(主语、谓语、宾语)三元组，由两个实体元素和一条关系构成。对于大规模知识图谱的构建，通过人工挨个寻找文本数据并标注的方法费时费力，且效率不高,针对不同领域或应用场景都需要单独标注材料人工成本极高。因此需要寻求一些自动化工具进行标注。抽取关系三元组是自然语言处理(NLP)中的一项重要子课题。针对自然语言文本，关系抽取方法主要有模板匹配和神经网络方法。

模板匹配法可以通过正则匹配的方式寻找关系三元组，原理简单但其难点在于为获得较好的抽取效果，需要构建精确的模板，并针对不同的句式需要编写对应的模板，使得工作量巨大且容易遗漏模板；且模板匹配法一般只能抽取一种关系，如果出现重叠现象，如一人分饰多角，则抽取效果不佳。

神经网络关系抽取通常先抽取句子中的实体对，然后再将关系标签与这些实体对匹配，这样做的缺陷是实体抽取阶段的误差会叠加到后续的关系匹配，影响抽取效果。且当句子中存在关系重叠现象时，也会使该分类器迷惑，尤其当训练样本不足，关系抽取效果将大打折扣。

目前利用人工神经网络对关系抽取主要有基于监督的学习方式和半监督的学习方式，也称为远监督学习。基于监督的学习方式需要大量标注处理后的文本数据作为训练集和测试集，如ChatGPT人工智能，训练都需要超大量的标注数据，这对数据准备提出了很高的要求。而基于远监督的学习方式，不需要用户自己准备标注好的训练和测试集，利用远端存在的大知识图谱拉取相应的实体对文本数据，作为标注语料进行学习。远端语料一般按实体对进行分包，但即使同一实体对也可能存在多种关系，将当前包认为是实体的一种关系是不合适的。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于深度强化学习的知识图谱构建方法。

为了解决上述技术问题，本发明公开了一种基于深度强化学习的知识图谱构建方法，包括：知识语料增强模块、模型训练模块和知识图谱管理模块；其中，知识语料增强模块将远端知识库构建的文本数据拉取下来并进行强化学习知识过滤，形成用于训练的标注语料；模型训练模块对所述标注语料进行编码，并对关系抽取模型进行关系抽取训练，得到训练后的关系抽取模型；判断关系抽取模型是否为成熟模型，若为成熟模型则进入知识图谱管理模块，否则回到知识语料增强模块；知识图谱管理模块使用所述成熟模型抽取关系三元组，得到知识数据，将其与已有知识图谱数据融合，并进行切片展示；当关系抽取模型为非成熟模型时，使用指标驱动学习策略，重新进行强化学习知识过滤，并继续执行后续步骤，最终完成基于深度强化学习的知识图谱构建。

本方法具体包括以下步骤：

步骤1，知识语料增强模块针对从远端知识库拉取的文本数据语料包，使用强化学习智能体，进行强化学习知识过滤，得到标记语料，供后续使用；

步骤2，模型训练模块中，将标记语料送给预训练的Bert网络，进行词向量编码和位置编码，得到编码语料；

步骤3，采用级联编码框架下的深度神经网络Bert作为关系抽取模型，将编码语料用于所述关系抽取模型的训练，然后将训练完成后的关系抽取模型保存；

步骤4，每轮训练中，均依据评价指标对关系抽取模型是否成熟进行判断；知识语料增强模块利用评价指标，依据关系抽取模型评价指标构成的奖励函数，完成对强化学习智能体参数的更新；

步骤5，若所述关系抽取模型未成熟，则重复执行步骤1到步骤4，直到所述关系抽取模型训练成熟；

步骤6，将待测的文本数据送入训练成熟的关系抽取模型，抽取得到关系三元组；知识图谱将新抽取的关系三元组与原有知识完成数据融合，去重，并保存在图数据库中，完成基于深度强化学习的知识图谱构建。

进一步，步骤1中所述的进行强化学习知识过滤，具体方法如下：

从远端知识库拉取同一实体对文本数据组成的语料包，通过强化学习智能体对语料包内的语句按先验关系类型进行标记分堆处理，并剔除噪声数据，得到标记语料。

进一步，步骤4中所述的依据评价指标对关系抽取模型是否成熟进行判断，具体方法为：

当模型收敛即奖励函数收敛或者达到最大训练次数时，则判断所述关系抽取模型成熟。

进一步，步骤4中所述的评价指标包括：F1、准确率precise和回调率recall。

进一步，步骤4中所述的依据奖励函数，即以所述奖励函数最大化为目标。

进一步，步骤4中所述的奖励函数R如下：

R＝c₁·F1+c₂·precise+c₃·recall

其中，c₁，c₂和c₃为权重因子。

进一步，所述知识语料增强模块对远端知识库进行强化学习知识过滤，具体包括：

使用Q-learning强化学习算法训练强化学习智能体，并使用强化学习智能体对文本数据语料包再做区分。依据远端知识库里对实体对的先验数据关系，将语料包分为不同的关系堆，以及其它堆，即噪声。剔除掉噪声后，将关系堆里的文本数据打上该堆的关系标签，得到标记语料。

进一步，所述Q-leaming强化学习算法的目标是寻求马尔科夫决策的最佳策略。

进一步，所述Q-learning强化学习算法，具体包括：

维护一张Q表，表里的每个Q值表示未来奖励的期望，采用贝尔曼方程表示的Q-learning算法对Q值进行更新：

Q_new(s，a)＝Q(s，a)+α[R(s，a)+γmaxQ′(s′，a′)-Q(s，a)]

其中，Q_new(s，a)是更新后的Q值，Q(s，a)是当前的Q值，α是学习率，R(s，a)是在状态s下的执行动作a的奖励值，Q′(s′，a′)是在新的状态s′和动作a′的最大奖励的期望；γ是衰减因子

上述对Q值进行更新即指步骤4中所述的对强化学习智能体参数的更新。

有益效果：

1、针对特定领域知识图谱构建复杂，需要人工标注成本高的事实，利用远监督学习和强化学习共同筛选标注文本数据语料，提供给有监督的深度神经网络训练和测试。极大简化人工筛选语料和标注的复杂度，减少数据准备阶段的时间。

2、人工标注抽取关系三元组的效率低，而人工神经网络具有强大的拟合能力并且学习能力强的特点。通过训练神经网络从各种文本数据语料，如报纸文章等电子文档上抽取相关领域的关系三元组，能极大提高搜寻和导入知识效率，加快构建知识图谱。

3、基于远监督学习准备相同实体对语料实例构成的包时，考虑到依据远端知识库的实体关系拉取同一实体对的多个文本数据后构成一个语料包，会给该包赋予一个关系标签。但实体对在不同的环境中可能具有不同的关系，或者同时具有多种关系，那这种描述可能出错或者遗漏句子特征。本发明在包中对实体对的关系做进一步划分堆，利用强化学习筛选语料，以训练模型的成熟度反作用与强化学习策略，增强语料分类能力；通过给某些实体对打上多个关系标签，就能为神经网络提供关系重叠下的训练语料，解决该类问题。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明的总体设计方案示意图。

图2是本发明的远监督学习语料处理的优化示意图。

图3是本发明所述的关系重叠问题示意图。

图4是本发明所所述的级联编码神经网络关系抽取示意图。

具体实施方式

对于知识图谱构建效率低、人工成本高的问题，本发明将这一问题分为三个部分，如图1所示。第一部分：针对知识图谱人工构建效率低的问题，采用人工神经网络拟合关系抽取行为，通过标注的训练语料进行神经网络训练，将人从重复机械劳动中解放出来。第二部分：针对训练所需要的训练集标注任务，需要大量的时间成本问题，采用远监督学习与强化学习结合的方法，在远端文本数据中筛选出有用的知识语料，构建训练数据集。第三部分：对于知识图谱构建的问题，采用海量的语料文本和成熟的训练模型进行关系抽取，将抽取的关系三元组存放在图数据库中，并与已保存的知识完成数据融合，整个***的架构如图1所示。

实施例：

本发明提出一种基于深度神经网络抽取自然文本中的关系三元组，通过强化学习优化训练样本，将成熟的训练模型用于抽取关系三元组，构成知识的基本元素后将其导入图数据库。该方法通过对远端拉取的文本数据包进行再分堆，对同一包内的实体对按照关系进一步细分，并剔除噪声语料，提高模型的准确度和精确度，加速收敛。由多次迭代使得模型趋于成熟，通过成熟模型抽取关系三元组，构建知识图谱，并不断通过导入知识完成数据融合。

本发明提供的技术方案为：一种基于深度强化学习的知识图谱构建方法，它包含强化学习语料增强模块，深度学习网络模型训练模块，以及知识图谱管理模块，主要包含以下步骤：

步骤一、强化学习语料增强模块用于强化深度学习的语料质量。首先从远端知识库拉取同一实体对的多条文本数据句子构成一个语料包，但是从远端拉取的语料可能有较多噪声，不利于作为后续深度学习的训练语料，使用Q-learning强化学习算法(参考：Watkins C J C H，Dayan P.Q-learning[J].Machine learning，1992，8：279-292.)训练强化学习agent(智能体)对拉取的同一语料包再做区分，按远端当前实体对的gold-standard-data(先验数据)关系将其分为不同的小堆，如关系堆1，关系堆2，…，以及其它堆(不属于先验数据里的关系，称为噪声)。强化学习的目标是寻求马尔科夫决策的最佳策略π，即一个马尔科夫决策过程用一个元祖(S，A,P,R,Υ)表示，其中：

S是有限数量状态集，A是有限数量动作集，P是在从状态集S中某一时刻S_t经过动作集中A的某一动作A_t到状态S_t+1的状态转移概率矩阵，R是经历这个动作后环境给予agent的奖励，Υ是折扣因子。

本实例中智能体对每个文本数据语料句子做出的细分分类记为一次动作a；将当前语料包分为若干个语料堆如关系堆1，关系堆2后，…，分堆之后的各个关系堆的状态称为s；R是利用分好类并打上标签的关系语料送入深度学习网络进行训练后，对各项指标加权求和的所得值，即奖励值。基于Q-learning的强化学习算法维护一张Q表，表里的每个Q值表示未来奖励的期望，采用贝尔曼方程表示的Q-learning算法对Q值进行更新：

Q_new(s，a)＝Q(s，a)+α[R(s，a)+γmaxQ′(s′，a′)-Q(s，a)]

其中Q_new(s，a)是更新后的Q值，Q(s，a)是当前的Q值，α是学习率，R(s，a)是在状态s下的执行动作a的奖励值，Q′(s′，a′)是在新的状态s′和动作a′的最大奖励的期望。y是衰减因子，其越接近1，表示越看重未来奖励，越接近0表示越看重当下奖励；采用ε-greedy策略在初始时参数接近1探索多种动作，在学习后期接近0看重近期收益使Q值收敛。

经过强化学习智能体将远端拉取的文本数据包再细分为多个关系堆，剔除掉不属于gold-standard-data所定义的实体对关系的堆，其余的关系堆里的语料都会被打上该堆的关系标签，作为训练语料送给深度学习网络训练，如图2例子所示，从远端拉拉取的语料包，包含实体对“吴京”和“战狼”，如果盲目给当前语料包打上“导演”或者“参演”的标签，那么会使得训练语料的质量很差。通过强化学习智能体对语料更加细致分类，分成多个子堆，然后将正确分类的子堆打上各自的标签，再作为语料将提训练语料质量。注意到同一个句子实例可能被标记为多个关系，因此能为解决关系重叠问题提供学习语料，关系重叠的例子如图3所示，即在同一个句子中实体对“吴京”和“战狼”即是导演也是参演。将最终的语料包分成多批，即多个batch，提供给深度神经网络每一轮学习。

步骤二、深度学习网络模型训练模块，首先使用预训练的Bert网络完成对语料词向量编码和位置编码。

步骤三、利用准备的语料训练采用级联编码框架的深度神经网络Bert，通过预训练的Bert网络找到句子中潜在的主语实体，对其进行标记，然后通过训练网络同时寻找与主语对应潜在的关系和宾语：

f_r(s)→o

上式中的s表示主语，o表示宾语，f_r表示主语与宾语间的潜在关系。级联编码框架的深度神经网络Bert关系抽取示意图如图4所示：通过词向量编码和位置编码构成的向量标记了句子可能的主语“吴京”的起始位置，寻找其潜在的宾语和关系，通过神经网络隐藏层计算，最后在关系“导演”和“参演”下对宾语“战狼”进行了位置标记，从而在当前语句中同时找到了“吴京”和“战狼”的关系有“参演”和“导演”。

每训练一个epoch就计算相应的模型评价指标F1，recall，precise。每5个epoch计算各个指标的平均值，作为当前这一大轮的指标最终值，防止在某个epoch出现指标跳动影响判断。

步骤四、以目标为传导机制、强化学习模块利用这些模型指标值完成对参数的更新。强化学习的奖励函数是：

R＝c₁·F1+c₂·precise+c₃·recall

其意义是奖励函数应使得指标F1，recall，precise尽量最大，这满足神经网络成熟的评价要求。

步骤五、重复步骤一到步骤四、直到模型收敛或者达到最大训练次数，则认为模型训练成熟，并且强化学习智能体也已具备很好的分类效果。

步骤六、准备需要的知识领域文章或其它文本数据语料。将其经过句子分割，词向量和位置向量编码步骤后送入关系抽取网络，抽取得到关系三元组。在知识图谱管理模块中，将数据不断导入图数据库，与原有的知识完成数据融合。当需要使用构建的知识库时，只需要按知识名称查询，并按一定的规则展开，获得当前切面上的所有节点和关系，用以分析或关联。

本发明通过远监督学习与强化学习结合，通过远监督指导实体对的初始关系，并且通过强化学习对关系包中混杂的知识语料再进行细分类为关系堆，将不必要噪声语料剔除后作为神经网络的训练语料。一方面远监督学习和强化学习结合能以较小的人工成本筛选并标注需要的语料，提供给有监督的深度强化学习网络。另一方面，目前的强化学习与远监督方法不能解决同一个包中实体对的关系重叠问题，为此本发明将每个包再次进行了分堆，同一个实例可能被分到多个堆中，各个堆会被单独打上一个标签，从而解决语料在一个包中只有一个关系标签，不能全量标注所有关系的问题。有了训练样本，就能训练深度神经网络完成关系抽取任务；训练时的模型成熟度指标将反作用于强化学习模块，驱动强化学习参数调整，筛选更佳的实例给训练集。采用级联编码的神经网络框架能从关系重叠的知识语料中抽取到多种关系，对于复杂的语料具有更好的抽取效果，最后将成熟的神经网络模型应用在海量的语料上，抽取关系三元组构成知识图谱网络。

具体实现中，本申请提供计算机存储介质以及对应的数据处理单元，其中，该计算机存储介质能够存储计算机程序，所述计算机程序通过数据处理单元执行时可运行本发明提供的一种基于深度强化学习的知识图谱构建方法的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(random access memory，RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来，该计算机程序软件产品可以存储在存储介质中，包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机，服务器，单片机，MUU或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明提供了一种基于深度强化学习的知识图谱构建方法的思路及方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于深度强化学习的知识图谱构建方法，其特征在于，包括：知识语料增强模块、模型训练模块和知识图谱管理模块；其中，知识语料增强模块对远端知识库中的文本数据进行强化学习知识过滤，形成用于训练的标注语料；模型训练模块对所述标注语料进行编码，并对关系抽取模型进行关系抽取训练，得到训练后的关系抽取模型；判断关系抽取模型是否为成熟模型，若为成熟模型则进入知识图谱管理模块，否则回到知识语料增强模块；知识图谱管理模块使用所述成熟模型抽取关系三元组，得到知识数据，将抽取的知识数据与已有的知识图谱数据融合，并进行切片展示；当关系抽取模型为非成熟模型时，使用指标驱动学习策略，重新进行强化学习知识过滤，并继续执行后续步骤，最终完成基于深度强化学习的知识图谱构建。

2.根据权利要求1所述的一种基于深度强化学习的知识图谱构建方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的一种基于深度强化学习的知识图谱构建方法，其特征在于，步骤1中所述的进行强化学习知识过滤，具体方法如下：

从远端知识库拉取同一实体对文本数据组成的语料包，通过强化学习智能体对语料包内的语句按先验关系类型进行标记分堆处理，并剔除噪声数据，得到待用的训练标记语料。

4.根据权利要求3所述的一种基于深度强化学习的知识图谱构建方法，其特征在于，步骤4中所述的依据评价指标对关系抽取模型是否成熟进行判断，具体方法为：

5.根据权利要求4所述的一种基于深度强化学习的知识图谱构建方法，其特征在于，步骤4中所述的评价指标包括：F1、准确率precise和回调率recall。

6.根据权利要求5所述的一种基于深度强化学习的知识图谱构建方法，其特征在于，步骤4中所述的依据奖励函数，即以所述奖励函数最大化为目标。

7.根据权利要求6所述的一种基于深度强化学习的知识图谱构建方法，其特征在于，步骤4中所述的奖励函数R如下：

R＝c₁·F1+c₂·precise+c₃·recall

其中，c₁,c₂和c₃为权重因子。

8.根据权利要求7所述的一种基于深度强化学习的知识图谱构建方法，其特征在于，所述知识语料增强模块对拉取的远端文本数据进行强化学习知识过滤，具体包括：

使用Q-learning强化学习算法训练强化学习智能体，并使用强化学习智能体对文本数据语料包再做区分。依据远端知识库里对实体对的先验数据关系，将语料包分为不同的关系堆，以及其它堆，即噪声堆。剔除掉噪声后，将关系堆里的文本数据打上该堆的关系标签，得到标记语料。

9.根据权利要求8所述的一种基于深度强化学习的知识图谱构建方法，其特征在于，所述Q-learning强化学习算法的目标是寻求马尔科夫决策的最佳策略。

10.根据权利要求9所述的一种基于深度强化学习的知识图谱构建方法，其特征在于，所述Q-learning强化学习算法，具体包括：

Q_new(s,a)＝Q(s,a)+α[R(s,a)+γmaxQ′(s′,s′)-Q(s,a)]

其中，Q_new(s,a)是更新后的Q值，Q(s,a)是当前的Q值，α是学习率，R(s,a)是在状态s下的执行动作a的奖励值，Q^′(s^′,a^′)是在新的状态s^′和动作a^′的最大奖励的期望；γ是衰减因子