CN112699246B

CN112699246B - 基于知识图谱的领域知识推送方法

Info

Publication number: CN112699246B
Application number: CN202011522006.7A
Authority: CN
Inventors: 李蔚清; 颜于升
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2022-09-27
Anticipated expiration: 2040-12-21
Also published as: CN112699246A

Abstract

本发明公开了一种基于知识图谱的领域知识推送方法，包括：收集领域知识文本构建文本知识库；针对知识库文本进行语义分析和主题建模；通过领域知识图谱嵌入获得节点的语义分布向量；依据用户任务描述、任务主题建立任务上下文特征；根据任务描述中的领域实体与知识图谱进行实体对齐，基于图谱节点路径和图节点语义分布特征进行特征扩展并进行任务关联知识召回；将召回文本与用户任务文本进行文本相似度计算获得候选文本得分；根据得分将排序结果文本推送给用户。本发明通过知识图谱的节点关联知识和图谱嵌入技术来提升领域知识推送的文本匹配度和用户体验。

Description

基于知识图谱的领域知识推送方法

技术领域

本发明属于计算机应用技术，具体为一种基于知识图谱的领域知识推送方法。

背景技术

在日益规模化的生产和激烈的服务竞争中，随着大规模的复杂业务***不断出现，企业进行了大量业务知识管理，积累了海量丰富的***管理知识。规模化的复杂***必不可少的会出现诸多缺陷，需要经常进行规范化的***检查和缺陷修复。但是目前现场检修作业一般都是通过工作人员的技术、经验积累来进行***的排查，缺乏有效的实用化的智能支撑手段来帮助工作人员进行规范化的操作、快速获取***故障相关知识以及相关资料的快速更新。

随着业务***的不断发展，覆盖范围不断扩大，数量不断增加，网络架构不断升级，***维护的复杂度不断提高。因此，在***的维护过程中要求运维人员做到操作规范，处理方法符合要求。因此通过企业积累的领域知识构建一套体系化可操作的运维流程和指导业务操作流程的知识推送***，提升整个维护工作的质量和效率的需求是十分必要的。

知识推送是依据一定的协议，自动从服务器中选择特定的与用户相关或用户感兴趣的信息，并通过一定的方式定期传送给用户以减少用户学习成本的一种技术。知识推送主要分三个阶段，用户数据采集阶段，数据加工阶段和推送阶段。它的主要思想是服务器根据获取到的用户的状态和意图主动向用户推送用户感兴趣的信息，并以此减少用户对信息的检索时间，同时根据用户目的和兴趣进行信息的筛选，帮助用户发掘有价值的信息，提高了用户获取信息的准确率和效率。现阶段各个行业都在相关领域进行***中的知识推送技术的相关研究和实验。然而大多仍然采用的是面向开放世界的知识推荐类似的方法，诸如基于内容推荐、基于协同过滤、基于模型的方法。上述经典的理论方法通常采用***收集的用户行为进行用户画像建模，通过物品特征建模、用户协同过滤策略来进行推荐。由于理论方法的不完善常导致冷启动，以及马太效应引起的推送内容局限死板等问题。

经典的推荐算法常服务于多种产品，各个形态信息的推荐，包括图片，音频，文字，视频，商品等，不适用于各行业或领域内的专业知识的推送。

发明内容

本发明提出了一种基于知识图谱的领域知识推送方法。

实现本发明目的的技术方案为：一种基于知识图谱的领域知识推送方法，具体步骤为：

步骤1、构建文本知识库，所述文本知识库由领域知识文本构成；

步骤2、针对知识库文本进行语义分析和主题建模；

步骤3、通过对领域知识图谱进行图嵌入式处理获得知识点的语义分布向量；

步骤4、依据用户任务描述、任务主题建立任务上下文特征向量；

步骤5、将用户任务描述文本中的领域实体与步骤3中的领域知识图谱进行实体对齐，基于图谱节点路径和图节点语义分布特征进行特征扩展并进行任务关联知识召回；

步骤6、将步骤5获得的召回文本与用户任务进行文本相似度计算，获得召回文本得分；

步骤7、根据得分将排序结果文本推送给用户；

步骤8、若用户任务结束则推送终止；当用户场景和状态变化时则重复步骤 4至7。

优选地，文本知识库的构建方法为：按照领域任务需求进行知识范围确定，对内容进行筛选；对文本进行分句，过滤停用词；将最终的文本集合构建为文本知识库。

优选地，针对知识库文本进行语义分析的具体方法为：

将知识文本进行分词，采用无监督的WORD2VEC词嵌入算法对文本进行训练获取词的语义分布向量；

采用基于词向量加权和的方法计算文本句子的语义向量。

优选地，进行文本主题建模的具体方法为：

将知识库中的文本进行分词，根据分词结果对知识库中文本句子做词频统计，将词频低于预设阈值的文本进行词过滤；

对句子进行字符处理，获得知识库文本的BIGRAM字典并用于构建文本到对应词袋向量的映射表；

通过映射表获得知识库文本的词袋向量，将其作为LDA算法的输入进行训练，获得知识库文本的主题分布向量。

优选地，获取知识图谱节点语义分布向量的具体方法为：

步骤3.1、构建领域知识图谱，包括命名实体识别和关系抽取两个任务，采用基于BERT预训练模型进行有监督学习获得领域知识实体和实体间关系；

步骤3.2、获取图谱节点语义分布向量，通过图卷积神经网络对领域知识图谱中的节点拓扑进行学习，获得节点的语义分布向量。

优选地，建立任务上下文特征的具体方法为：

步骤4.1、将用户任务描述文本进行分词处理，利用步骤2训练的词向量进行任务描述的向量化表示，作为此项用户任务的一个语义特征；

步骤4.2、将用户任务主题中的实体进行抽取，利用步骤3训练的知识图谱节点语义分布向量获得运检任务关联的实体表示向量，作为此项用户任务的一个分类特征。

优选地，将用户任务描述文本中的领域实体与步骤3中的领域知识图谱进行实体对齐，基于图谱节点路径和图节点语义分布特征进行特征扩展并进行任务关联知识召回的具体步骤为：

步骤5.1、根据用户任务实体获取任务描述和任务关联***构件，在知识图谱上进行实体对齐操作获得图谱上对应任务实体的子图；

步骤5.2、计算步骤5.1中子图实体的嵌入向量，获得子图的三跳内各路径上实体节点的词嵌入向量；

步骤5.3、将图的各路径种实体节点进行关键路径扩展；

步骤5.4、将步骤4的用户任务上下文特征、任务实体的图嵌入向量、子图节点组合的嵌入向量作为初步的召回条件进行知识库文本过滤，获取任务关联节点知识粗精度的召回文本。

优选地，将步骤5获得的召回文本与用户任务进行文本相似度计算，获得召回文本得分的具体方法为：

步骤6.1、根据步骤2获得的文本知识库主题模型，分别计算召回文本和用户任务的主题分布向量；

步骤6.2、根据词移距离算法，对召回文本与任务描述进行字层面的相似度计算，获得召回文本的词移距离相似度得分；

步骤6.3、根据向量空间的余弦公式进行相似度计算获得召回文本主题的相似度得分；

步骤6.4、基于加权投票策略进行得分计算，根据任务对其中词移距离权重和主题相似度权重进行调整。

本发明与现有技术相比，其显著优点为：

(1)本发明基于领域知识图谱，通过丰富的领域实体关联知识克服推荐***马太效应，根据关联知识扩展推送知识的多样性；

(2)本发明基于场景和用户任务建模，更有效捕捉任务的属性和特征，增强了对具体任务关联知识文本的区分能力，提升文本知识推送的准确度；

(3)本发明基于语义特征计算，有很强的可解释性，同时通过替换特征模型和相似度计算方法可以灵活的适应多样化的场景和任务；

(4)本发明采用非监督的方法，即使在规模化的领域知识中同样可以获得较好的性能和知识推荐的准确度；

(5)本发明有着良好的移植性，可以推广到具有相似的场景和任务需求的各个领域，提供知识推送服务。

下面结合附图对本发明做进一步详细的描述。

附图说明

图1为基于知识图谱的领域知识推送方法的流程图。

图2为命名实体识别流程图。

图3为实体关系抽取流程图。

图4为知识图谱结构示意图。

图5为文本相似度计算流程图。

具体实施方式

一种基于知识图谱的领域知识推送方法，包括如下步骤：

具体地，文本知识库的构建方法为：按照领域任务需求进行知识范围确定，对内容进行筛选。对文本进行分句，停用词过滤等处理，这里的停用词主要由领域的专家进行提供。最终的文本集合构建为文本知识库。

步骤2、针对知识库文本进行语义分析和文本主题建模；

在其中一个实施例中，针对知识库文本进行语义分析的具体方法为：

将知识文本进行分词，采用无监督的WORD2VEC词嵌入算法对文本进行训练获取词的语义分布向量，即词向量。在文本句子的语义向量表示方面，采用基于词向量加权和的方法来进行计算。具体来说，即对于与任务描述文本匹配度高的词汇赋予较高的权重，无关词汇赋予较低的权重。这里匹配度采用字符串匹配的数量来度量。

在其中一个实施例中，进行文本主题建模的具体方法为：

将知识库中的文本进行分词，根据分词结果对知识库中文本句子做词频统计，将词频低于预设阈值的文本进行词过滤。

对句子进行字符处理，获得知识库文本的BIGRAM字典并用于构建文本到对应词袋向量的映射表。最后通过映射表获得知识库文本的词袋向量，将其作为 LDA算法输入进行训练，获得知识库文本的主题分布向量。

在其中一个实施例中，获取知识图谱节点语义分布向量的具体方法为：

步骤3.1、构建领域知识图谱，主要包括命名实体识别和关系抽取两个任务，这里采用基于BERT预训练模型进行有监督学习获得领域知识实体和实体间关系。构建的电力知识图谱主要以三元组的形式存储，形如<变压器，部件，套管>，构建流程分别如图2、3、4所示。

步骤3.2、图谱节点语义分布向量获取。图嵌入是一种知识图谱节点语义分布向量表示技术，可以采用随机游走等算法获得。本实施例采用基于GCN图神经网络来进行图谱节点嵌入表示学习。具体地，通过图卷积神经网络对领域知识图谱中的节点拓扑进行学习，即通过神经网络将图节点的属性和连接关系语义映射到低维空间，从而获得节点的语义分布向量。在训练过程中加入节点属性信息可以有效提升节点分类任务的学习效果。

在其中一个实施例中，建立任务上下文特征的具体方法为：

进一步的实施例中，具体步骤为：

步骤5.3、将上述子图的各路径种实体节点进行关键路径扩展，即将三跳内路径上的节点进行组合获得组合特征的句子嵌入向量，组合方式采用加和平均的方法；

进一步的实施例中，具体步骤为：

步骤6.3、获取召回文本与用户任务的主题相似度，即根据向量空间的余弦公式进行相似度计算获得召回文本主题的相似度得分；

步骤6.4、基于加权投票策略进行最终的得分计算，根据任务可以对其中词移距离权重和主题相似度权重进行调整。投票结果即为候选文档得分。

步骤7、根据得分将排序后的文本推送给用户；

步骤8、若用户任务结束则推送终止；当用户变换场景和状态时则重复步骤 4至7。

本发明主要根据以下几个方面完成领域知识推送：

1)领域知识挖掘：在业务***维护工作中常需要对用户工作内容和场景进行记录和分析，但是信息通常是分散的，关联度不高，特征稀疏。因此对用户所要解决的问题要有丰富的领域知识储备，知识图谱是一个将垂直领域的非结构化文本信息进行实体和关系挖掘，形成具有丰富关联的一种结构化知识表示形式，满足对知识的存储与挖掘需求。

2)任务特征建模：用户的操作和维护任务需要按照一定的规范和流程进行操作。与传统推送***相比，知识推送需以用户具体任务和任务场景作为出发点，无需按照用户喜好和历史操作来进行推断，而是正对海量文本和任务进行知识关联特征挖掘，从而推送与任务有相同语义内涵的知识文本。

3)文本匹配计算：大量的文本召回是知识推送的主要内容，召回精度影响着后续文本相似度计算的最终效果。此外知识推送的结果形式是简短的、高正确率的知识文本，涉及自然语言处理相关技术。

实施例

一种基于知识图谱的领域知识推送方法，如图1所示，其关键步骤和实施如下:

步骤1、收集电力设备知识文本构建文本知识库。

电力领域文本知识库是针对***任务所需知识的文本集合，是进行变电站运检任务辅助知识推送的来源。知识库的来源主要包括电力运检权威书籍、电力运检相关期刊文献、电力科学研究院内部文档、电力运检主题的网络百科问答知识库。

在上述知识来源获得文档后，按照电力运检任务需求进行知识范围确定，主要涉及变压器、断路器、二次非电量装置，保护装置等文档，然后内容进行筛选。接着对于文本进行分句，停用词过滤等处理，这里的停用词主要由电力运检领域的专家进行提供。最终的文本集合构建为电力领域文本语料库。

步骤2、针对电力设备知识库文本进行语义分析和主题建模。具体按照以下步骤实施：

步骤2.1、将设备相关的文本进行分词，包括设备描述、设备运检任务描述以及设备缺陷描述，采用无监督的WORD2VEC词嵌入算法对文本进行训练获取词的语义分布向量。在文本句子的语义向量表示方面，采用基于词向量加权和的方法来进行计算。具体来说，即对于与电力设备运检任务描述文本匹配度高的词汇赋予较高的权重，无关词汇赋予较低的权重。这里匹配度采用字符串匹配的数量来度量。

步骤2.2、知识库文本主题建模。将电力设备文本库中的文本进行分词，并对文本库中的词频进行统计，根据需要对低词频的词汇进行过滤。将知识库中的文本进行分词，根据分词结果对知识库中文本句子做词频统计，将词频低于预设的阈值进行词过滤。然后对句子进行字符处理，获得电力设备知识库文本的 BIGRAM字典并用于构建文本到对应词袋向量的映射表。最后通过映射表获得知识库文本的词袋向量，将其作为LDA算法输入进行训练，获得设备知识库文本的主题分布向量。

语义分析是在这里包括词嵌入和句子嵌入两种。语义分析可以保留句子语义信息，在语义层面上计算文本之间的相似度，区别于简单词汇字形上的相似。

步骤3、通过对电力领域知识图谱进行图嵌入式处理获得节点的语义分布向量。具体按照以下步骤实施：

步骤3.2、图谱节点语义分布向量获取。图嵌入是一种知识图谱节点语义分布向量表示技术，可以采用随机游走等算法获得。本实施采用基于GCN图神经网络来进行图谱节点嵌入表示学习。具体地，通过图卷积神经网络对领域知识图谱中的节点拓扑进行学习，即通过神经网络将图节点的属性和连接关系语义映射到低维空间，从而获得节点的语义分布向量。在训练过程中加入节点属性信息可以有效提升节点分类任务的学习效果。

步骤4、依据用户的电力设备运检任务，以轻瓦斯告警任务为例，通过任务描述建立任务上下文特征。具体按照以下步骤实施：

步骤4.1、将轻瓦斯告警任务描述文本分词处理，利用步骤2训练的词向量进行任务描述的向量化表示，作为轻瓦斯告警任务的一个语义特征；

步骤4.2、将轻瓦斯告警任务主题中的实体进行抽取，利用步骤3训练的知识图谱节点分布向量获得运检任务关联的实体表示向量，作为轻瓦斯告警任务的一个分类特征；

步骤5、根据设备运检任务文本电力设备实体与电力领域知识图谱进行实体对齐，基于图谱节点路径和图节点语义分布特征进行特征扩展并进行任务关联知识召回，具体按照以下步骤实施：

步骤5.1、根据瓦斯告警任务实体获取任务描述和任务关联***构件即瓦斯继电器，在电力领域知识图谱上进行实体对齐操作获得图谱上对应任务关联实体的子图；

步骤5.2、获取步骤5.1中计算的子图实体的嵌入向量以及子图节点三跳内的邻接关系路径中实体节点的词嵌入向量；

步骤5.3、将上述子图节点进行关键路径扩展，即将相邻节点进行组合，同时获取组合特征的句子嵌入，组合方式采用加和平均的方法；

步骤5.4、将步骤4的瓦斯告警任务上下文特征向量、任务实体的图嵌入向量、子图节点组合的嵌入向量作为初步的召回条件进行文本过滤，获取任务关联节点知识粗精度的召回。

步骤6、将步骤5获得的召回文本与用户任务进行文本相似度计算，获得召回文本得分，流程如图5所示。具体按照以下步骤实施：

步骤6.1、根据步骤2获得的文本语料库主题模型，分别计算召回文本和瓦斯运检任务的主题分布向量；

步骤6.2、根据词移距离算法，对候选文本与任务描述进行字层面的相似度计算，获得召回文本的词移距离相似度得分；

词移距离是度量两个文本文档之间距离的一种方式(方法)，用于判断两个文本之间的相似度，即WMD距离越大相似度越小，WMD距离越小文本相似度越大.WMD是通过将一个文档中包含的词语“移动”到另一个文档中的词语，这个“移动”过程产生的距离总和的最小值作为词移距离。

步骤6.3、获取召回文本与瓦斯告警任务的主题相似度，即根据向量空间的余弦公式进行相似度计算获得召回文本的主题相似度得分；

步骤7、根据得分将排序后文本推送给用户。具体按照以下步骤实施：

根据步骤6获得的召回文档的得分进行降序排列，可以按照需要选取一定数量文档进行推送。

Claims

1.一种基于知识图谱的领域知识推送方法，其特征在于，具体步骤为：

步骤2、针对知识库文本进行语义分析和主题建模；

步骤5、将用户任务描述文本中的领域实体与步骤3中的领域知识图谱进行实体对齐，基于图谱节点路径和图节点语义分布特征进行特征扩展并进行任务关联知识召回，具体步骤为：

步骤5.3、将图的各路径中实体节点进行关键路径扩展；

步骤5.4、将步骤4的用户任务上下文特征、任务实体的图嵌入向量、子图节点组合的嵌入向量作为初步的召回条件进行知识库文本过滤，获取任务关联节点知识粗精度的召回文本；

步骤6、将步骤5获得的召回文本与用户任务进行文本相似度计算，获得召回文本得分，具体方法为：

步骤6.4、基于加权投票策略进行得分计算，根据任务对其中词移距离权重和主题相似度权重进行调整；

步骤7、根据得分将排序结果文本推送给用户；

步骤8、若用户任务结束则推送终止；当用户场景和状态变化时则重复步骤4至7。

2.根据权利要求1所述的基于知识图谱的领域知识推送方法，其特征在于，文本知识库的构建方法为：按照领域任务需求进行知识范围确定，对内容进行筛选；对文本进行分句，过滤停用词；将最终的文本集合构建为文本知识库。

3.根据权利要求1所述的基于知识图谱的领域知识推送方法，其特征在于，针对知识库文本进行语义分析的具体方法为：

采用基于词向量加权和的方法计算文本句子的语义向量。

4.根据权利要求1所述的基于知识图谱的领域知识推送方法，其特征在于，进行文本主题建模的具体方法为：

5.根据权利要求1所述的基于知识图谱的领域知识推送方法，其特征在于，获取知识图谱节点语义分布向量的具体方法为：

6.根据权利要求1所述的基于知识图谱的领域知识推送方法，其特征在于，建立任务上下文特征的具体方法为：