CN108846029A

CN108846029A - 基于知识图谱的情报关联分析方法

Info

Publication number: CN108846029A
Application number: CN201810519637.XA
Authority: CN
Inventors: 王念滨; 陈锡瑞; 谢晓东; 王红滨; 周连科; 陈田田; 原明旗; 赵昱杰; 厉原通
Original assignee: Harbin Engineering University
Current assignee: BEIJING SAIXI TECHNOLOGY DEVELOPMENT CO LTD
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2018-11-20
Anticipated expiration: 2038-05-28
Also published as: CN108846029B

Abstract

本发明公开了一种基于知识图谱的情报关联分析方法，属于RDF知识图谱条件下情报相关性检索领域。本发明包括：数据的预处理过程，对下载的情报数据TXT文档进行解析；构建三元组情报知识库；利用IDF和信息熵加权方法，计算每一个三元组和其关键词的权重，并存储到数据库中；通过三元组相似度计算公式来计算每个三元组的相似三元组，并根据相似度进行排序；对RDF三元组进行有效存储；采用Jena TDB提供的API实现基本的SPARQL查询操作，并根据基于三元组相似度的查询方法进行查询扩展；生成查询样例，对检索结果集中根据三元组和关键词的权重进行有效排序，返回top‑k结果。

Description

基于知识图谱的情报关联分析方法

技术领域

本发明涉及一种基于知识图谱的情报分析方案，属于RDF知识图谱条件下情报相关性检索领域。

背景技术

在情报科学中，情报是知识的再加工，传递性和相关性是知识的基本属性。正是情报的传递性和相关性的特点，使不同情报之间存在着一定的关联。随着互联网技术的飞速发展，现代情报呈现出海量级别、多样性、实时性等特点，使得情报知识之间的关联程度也越来越高，这给现代情报分析带来了难点。但随着以机器学习为代表的人工智能技术的长足发展，这给大数据背景下的情报分析带来了可能。情报分析的对象是情报资源，可以单元化为互相关联的各个实体。利用机器学习方法，可以挖掘出情报数据中各个实体以及实体之间的关系。但这种分析方式一般停留在简单的统计语法分析层面，没有深入到情报内容的语义层面，很容易造成语义的缺失问题，这样分析出来的情报不够准确和完整，对于不同情报之间的关联情况也往往不能很好的体现。

知识图谱(Knowledge Graphs)是近年来的一种新兴技术，其技术理论和概念是结合知识库、语义网络以及本体论等思想，由Google于2012年提出的。知识图谱的本质上是一种基于复杂语义网络的图形结构，它充分利用了可视化技术，不仅能够对知识资源和载体进行描述，而且还可以对知识以及知识之间的联系进行分析和描述。它利用图形的方式将复杂的知识绘制并展现出来，用图中的节点来表示知识，用节点之间的边来表示知识之间的关系，这样更直观的体现知识之间的关联。正是图结构的这种特点，使其具有实体概念覆盖率高、语义关系多样、结构友好以及质量较高等优势，从而使得知识图谱日益成为大数据时代最为主要的知识表示方式。同时，知识图谱也被誉为新一代人工智能的发展方向。知识图谱最先应用在搜索引擎领域，例如Google、Bing、百度以及搜狗等搜索引擎厂商纷纷推出自己的知识图谱产品来改善其搜索引擎的检索质量。随后知识图谱在智能搜索、个性化推荐、文本分类、内容分发等领域得到广泛的应用，并取得了良好的效果。由于知识图谱能够充分反映实体之间的关联关系，所以将其应用在情报分析领域也成为可能。

发明内容

本发明的目的是这样实现的：

基于知识图谱的情报关联分析方法，其特征在于，包括以下步骤：

步骤一数据的预处理过程；对下载的情报数据TXT文档进行解析，抽取每篇情报数据的标题、作者、关键词、机构、日期等信息，并去掉停用词和重复项；

步骤二构建三元组情报知识库；将这些实体构建关系，包括情报和作者之间的写作关系，作者和机构的所属单位关系，不同作者之间的合作关系；将这些实体和关系组合在一起，构成三元组数据，并存储到三元组数据库中；在扩展的三元组模式中，采用情报数据的关键词，作为对三元组模式的扩展；

步骤三利用IDF和信息熵加权方法，计算每一个三元组和其关键词的权重，并存储到数据库中；

步骤四通过三元组相似度计算公式来计算每个三元组的相似三元组，并根据相似度进行排序；

步骤五对RDF三元组进行有效存储；采用Jena TDB提供的API实现基本的SPARQL查询操作，并根据基于三元组相似度的查询方法进行查询扩展；

步骤六生成查询样例，对检索结果集中根据三元组和关键词的权重进行有效排序，返回top-k结果。

所述的IDF和信息熵加权方法包括以下步骤：

步骤一计算每个三元组的IDF值计算公式如下所示；

上式中，e表示扩展的三元组中的实体和关系，n表示RDF数据集中三元组数目，F(e)表示e出现在RDF数据集的次数；设IDF(t)为三元组t＝(s,p,o)的IDF值，根据三元组结构的特点，对每一个三元组的IDF值计算公式如下所示，其中γ为调节因子，0＜γ＜1；

IDF(t)＝γ×(IDF(s)+IDF(p)+IDF(o))

步骤二每个三元组的信息熵H(e)的计算过程如下公式所示；

其中，e表示扩展的三元组中的实体和关系，k表示数据分类数量；D₁(e)表示e在数据集中出现的频次，D₂(e^(k))表示e在第k个数据类别中出现的频次，|C|表示数据类别的总数；对于每一个三元组t＝(s,p,o)，其三元组的信息熵值计算公式如下所示；

H(t)＝η×(H(s)+H(p)+H(o))

其中，η为调节因子，0＜η＜1；每个三元组的权重w(t)由IDF值和信息熵H值两部分确定，如下公式所示；其中，|N|表示数据集中三元组的总数；

步骤三对关键词权重的计算过程与三元组相似，分别计算每个关键词的IDF值和信息熵值；首先，对三元组-关键词的IDF计算过程如下公式所示：

设IDF(v_i|e)是属于三元组t＝(s,p,o)的关键词组v＝(v₁,v₂,…,v_n)中关键词v_i的IDF值，e表示三元组t中的头实体s或尾实体o，而不包括它们之间的关系；F(e,v_i)表示三元组头实体s或者尾实体o与关键词v_i的共同出现在数据集中的次数；设IDF(v_i|t)表示三元组-关键词的IDF值，其计算公式如下所示，其中为调节因子，

步骤四计算关键词的信息熵H(v_i|e)的计算过程如下公式所示：

其中，e仅代表头尾实体，不包括它们之间的关系；k表示数据分类数量，D₁(v_i,e)表示关键词v_i和e在数据集中共同出现的次数，D₂(v_i,e^(k))表示关键词v_i和e在第k个数据类别中共同出现的次数，|C|表示数据类别的总数；对于一个三元组t和它的某一个关键词v_i，其信息熵值计算公式如下所示：

H(v_i|t)＝θ×(H(v_i|s)+H(v_i|o))

其中，θ表示调节因子，0＜θ＜1；每个三元组-关键词的权重w(v_i|t)由IDF值和信息熵H两部分组成，如下公式所示：

所述的基于三元组相似度的查询方法包括以下步骤：

步骤一基于三元组相似度的衡量方法；

设t₁和t₂为三元组，则三元组t₁和t₂的相似度计算如下公式所示：

步骤二生成松弛查询的方法；对于一个原始查询其中表示原始查询中的第i个三元组；首先，通过上述公式对原始查询中每个三元组相似度进行计算，得到一组相似的三元组，并根据相似度进行排序，构成相似三元组队列；选取每个三元组的相似三元组队列中的近似三元组，通过替换原始查询中的三元组的方式，来构造松弛查询；

步骤三通过如下公式计算每个子查询与原始查询的相似度，并利用相似度进行排序，根据这个排序来决定每个查询的执行顺序；首先，原始查询会最先执行，然后具有最高相似度的松弛查询会依次执行；

步骤四在原始查询和松弛查询之间的语义相似度设置一个阈值，若两个查询之间的相似度小于这个阈值，则不会被派生。

本发明的有益效果：

目前，对于面向情报知识图谱的相关性检索方法国内外学者都在积极的研究，但面临着诸如不完整的数据和关系、缺乏灵活性查询以及无法体现查询结果集的多样性特点等问题。本发明以RDF三元组检索方法为基础，基于情报数据关联性查询这一主要问题，给出针对性的解决方案，提出了基于扩展的RDF知识图谱关联性检索策略R-SPARQL方法。

附图说明

图1为本发明的算法流程框图；

图2为本发明基于图结构的语义重叠示意图；

图3为本发明原始查询派生松弛查询过程示意图；

图4为本发明在不同松弛度α值的条件下平均召回率和准确率对比图；

图5为本发明在不同松弛度α值的条件下平均查询耗时对比图；

图6为本发明在不同数据集大小的条件下平均召回率对比图；

图7为本发明在不同数据集大小的条件下平均召回率对比图；

图8为本发明在不同数据集大小的条件下平均召回率对比图。

具体实施方式

下面结合附图及运动实例，对本发明做出更加详细的阐述。

情报相关性分析是信息检索和情报学领域的研究重点，如何在情报检索结果中体现多个关联数据的特点是本次发明的主要任务。基于知识图谱的信息检索本质上是一种子图匹配问题，可以将知识图谱视为一种RDF形式的三元组结构，而在其结构上的检索可以使用符合W3C标准的SPARQL语言进行查询。但这种查询方式只会返回符合条件的子图结构，而在查询结果集中不会体现关联性和多样性的特点。

针对这种问题，本发明对基于RDF的知识图谱检索方法进行了深入研究，提出了一种关联性检索方法。该方法的思想是使用关键词和权重扩展了RDF知识图谱的结构。其中，关键词的扩展提供了一种模糊检索的方式，而三元组及关键词的权重用来计算查询三元组的相似度以及对查询结果集进行相关性排序。通过计算相似度，将原始查询派生出多个松弛查询，由此获得更多的、彼此关联的检索结果。

主要发明点及技术效果：

目前，对于面向情报知识图谱的相关性检索方法国内外学者都在积极的研究，但面临着诸如不完整的数据和关系、缺乏灵活性查询以及无法体现查询结果集的多样性特点等问题。本发明以RDF三元组检索方法为基础，基于情报数据关联性查询这一主要问题，给出针对性的解决方案，提出了基于扩展的RDF知识图谱关联性检索策略R-SPARQL方法，其主要观点和内容如下：

(1)三元组模式的扩展方案。由于用户可能不会明确知道要查询的三元组元素的名称，或者只知道与待查询元素相似的实体名称，这样的查询往往查不到数据或者返回错误的结果。因此，为了避免传统的SPARQL查询过于精准的查询方式而提出了一种扩展的三元组模式查询方法。首先，本发明使用一组关键词来扩展RDF知识图谱，每一个三元组都与这组关键词相关联。利用关键词进行扩展的目的在于提供一种模糊检索的方法，以提高检索的灵活性。其次，根据每一个关键词与该三元组之间的关联程度，对每一个关键词分配一个权重，称为三元组-关键词权重。利用权重进行扩展的意义在于对检索结果集进行相关性排序，并且能够体现检索结果的多样性。因此，分配给每个三元组的权重不仅仅代表该三元组在数据集中的重要程度，也应当体现三元组之间的区分能力。利用这种区分能力，并通过权重对检索结果集进行排序，使得结果集中体现多样性的特点。

关键词的获取方法是多样的。例如，在科学文献数据中，可以通过抽取文献的主题词来构建关键词组。在关键词的选取上，还需要进行一些预处理过程。比如，去掉停用词，重复项等操作。不管是三元组的权重还是关键词的权重，都是最终结果集排序的关键因素。利用一组关键词和权重对RDF知识图谱结构进行扩展。三元组的权重可以根据RDF知识图谱数据源的性质以多种方式的计算来获取，本发明采用逆文档频率算法(IDF)和信息熵来对三元组和关键词的权重进行计算，计算的步骤如下。

第一步：计算每个三元组的IDF值计算公式如下所示。

上式中，e表示扩展的三元组中的实体和关系，n表示RDF数据集中三元组数目，F(e)表示e出现在RDF数据集的次数。设IDF(t)为三元组t＝(s,p,o)的IDF值，根据三元组结构的特点，对每一个三元组的IDF值计算公式如下所示，其中γ为调节因子，0＜γ＜1。

IDF(t)＝γ×(IDF(s)+IDF(p)+IDF(o))(2)

第二步：每个三元组的信息熵H(e)的计算过程如下公式所示。

其中，e表示扩展的三元组中的实体和关系，k表示数据分类数量。D₁(e)表示e在数据集中出现的频次，D₂(e^(k))表示e在第k个数据类别中出现的频次，|C|表示数据类别的总数。对于每一个三元组t＝(s,p,o)，其三元组的信息熵值计算公式如下所示。

H(t)＝η×(H(s)+H(p)+H(o))(4)

其中，η为调节因子，0＜η＜1。每个三元组的权重w(t)由IDF值和信息熵H值两部分确定，如下公式所示。其中，|N|表示数据集中三元组的总数。

第三步：对关键词权重的计算过程与三元组相似，分别计算每个关键词的IDF值和信息熵值。首先，对三元组-关键词的IDF计算过程如下公式所示。

设IDF(v_i|e)是属于三元组t＝(s,p,o)的关键词组v＝(v₁,v₂,…,v_n)中关键词v_i的IDF值，e表示三元组t中的头实体s或尾实体o，而不包括它们之间的关系。F(e,v_i)表示三元组头实体s或者尾实体o与关键词v_i的共同出现在数据集中的次数。设IDF(v_i|t)表示三元组-关键词的IDF值，其计算公式如下所示，其中为调节因子，

第四步：计算关键词的信息熵H(v_i|e)的计算过程如下公式所示。

其中，e仅代表头尾实体，不包括它们之间的关系。k表示数据分类数量，D₁(v_i,e)表示关键词v_i和e在数据集中共同出现的次数，D₂(v_i,e^(k))表示关键词v_i和e在第k个数据类别中共同出现的次数，|C|表示数据类别的总数。对于一个三元组t和它的某一个关键词v_i，其信息熵值计算公式如下所示。

H(v_i|t)＝θ×(H(v_i|s)+H(v_i|o))(9)

其中，θ表示调节因子，0＜θ＜1。每个三元组-关键词的权重w(v_i|t)由IDF值和信息熵H两部分组成，如下公式所示。

(2)基于三元组相似度的关联查询方法，本发明提出了一种适用于RDF知识图谱结构的关联查询策略。查询松弛算法是一种非常重要的关联性查询方法，它是指在原始查询中改变或者删除一个或者多个硬性条件，或者对原始查询条件进行扩展，从而得到一个覆盖范围更广的查询处理过程，最终获得与原始查询结果相关联的一组查询结果。具体步骤如下：

第一步：基于三元组相似度的衡量方法。从知识图谱结构上来看，一个实体可能会存在一个或多个边与另一个实体相连，那些直接相连的三元组之间往往是比较相似的，它表示同一个实体可能具有的多种关系，或者同一种关系代表的不同的实体。但事实上，两个三元组之间可能没有直接相连的边，但它们具有相同的实体标签和边标签，那么这些三元组之间的相似程度也是不可忽视的。因此，基于这种考虑提出了基于三元组的语义重叠的概念。语义重叠表示包含在本体概念中具有相同上层概念的数量，这可以表明两个概念的相似程度。两个RDF三元组的语义重叠定义为三元组中具有相同元素的数量，基于图结构的语义重叠如图2所示。

还有一种衡量三元组相似度的方法是基于图嵌入思想，它将知识图谱的三元组嵌入到一个低维向量空间中，三元组中的头尾实体和关系为一个向量。设三元组t＝(s,p,o)，其实体和关系的向量表示分别为和如果三元组成立，那么存在如下等式如果两个三元组t₁＝(s₁,p₁,o₁)和t₂＝(s₂,p₂,o₂)具有较高的相似度，则认为将它们之间的元素互换后，上述等式也是成立的。例如，如果三元组t₁和t₂彼此相似，那么存在或者因此，基于这两种计算方法，将三元组t₁和t₂的相似度计算如下公式所示。

第二步：生成松弛查询的方法。对于一个原始查询其中表示原始查询中的第i个三元组。首先，通过上述公式对原始查询中每个三元组相似度进行计算，得到一组相似的三元组，并根据相似度进行排序，构成相似三元组队列。选取每个三元组的相似三元组队列中的近似三元组，通过替换原始查询中的三元组的方式，来构造松弛查询。

第三步：通过如下公式计算每个子查询与原始查询的相似度，并利用相似度进行排序，根据这个排序来决定每个查询的执行顺序。首先，原始查询会最先执行，然后具有最高相似度的松弛查询会依次执行。

第四步：对于松弛查询数量的限制方案。一个原始查询可以派生出多个松弛查询，对每个松弛查询还会继续派生出多个子松弛查询，将派生的次数称为松弛度α。松弛查询的数量是随着α值的增加呈指数级增长的。如果不加以限制，由原始查询可能会派生出过多的松弛查询。然而，过多的松弛查询可能会检索不到结果或者产生毫无意义的结果。因此，有必要在松弛数量上加以限制。本发明在原始查询和松弛查询之间的语义相似度设置一个阈值，如果两个查询之间的相似度小于这个阈值，则不会被派生。图3展示了由原始查询派生子查询的过程。

(3)查询结果集的top-k选择方案。通常情况下，三元组模式查询通常会返回过多的结果。而且，通过松弛查询进行检索所返回的结果集中，排在前面的结果往往过于近似而没有呈现多样性特点，使用户很难在这些结果集中找到真正想要的数据。本发明基于扩展的RDF三元组模式提出了一种排序模型，根据每一个三元组和它们的关键词之间的关联性对结果子图进行有效排序，最终返回最相关的top-k个结果。设原始查询为派生出m个松弛查询(Q₁,Q₂,…,Q_m)。其中，表示查询Q_j中第i个查询三元组，由一组关键词组进行扩展。由查询Q_j得到一组结果三元组集合(q₁,q₂,…,q_s)。其中，三元组查询得到的结果三元组为q_w，称为三元组到q_w的转移。假设关键词组之间是相互独立的，向q_w的转移概率扩展为每个独立的关键词向q_w的转移概率，可以通过如下公式计算其转移概率。通过这种概率值来对结果集进行排序。

本发明的技术效果为：

本发明提出了一种基于关键词和权重扩展的RDF知识图谱表示方法，通过引入额外变量扩展了SPARQL查询方式。随后，基于扩展的三元组模式提出了一种三元组相似度的查询松弛方法，通过计算原始查询的相似度，生成多个松弛查询，由此扩展了用户的查询意图，最终返回一组最相关的查询结果。最后，通过三元组权重对查询结果集进行相关性排序，充分考虑了结果集的多样性。

通过仿真实验和分析实验结果，对比传统的SPARQL查询和本发明提出的松弛查询方案，以绘图的形式直观的验证了平均召回率、平均准确率和平均查询耗时三项性能的指标。首先，在不同的松弛度条件下，对比分析召回率、准确率和查询耗时的性能指标如图4和图5所示。当α＝0时表示只进行原始查询，随着α值的增加，松弛查询的数量呈指数级增长，因此召回率和准确率也随之增长。但这种效果的提升是以查询耗时的增加为代价的。在不同数据集大小的情况下，对比分析召回率、准确率和查询耗时的性能指标如图6、图7和图8所示。

由于传统的SPARQL查询只会返回满足条件的结果集，没有体现数据之间的关联程度。而本发明提出的R-SPARQL方法，将原始查询扩展为多个子查询，不仅可以返回满足条件的结果集，而且也会返回满足知识图谱结构的关联实体。因此，在平均召回率和平均准确率上，R-SPARQL方法的性能要明显好于传统的SPARQL查询。

本发明提出的基于扩展的RDF知识图谱的情报关联查询方案，通过以下步骤实现。

步骤一：数据的预处理过程。主要任务是对下载的情报数据TXT文档进行解析，抽取每篇情报数据的标题、作者、关键词、机构、日期等信息，并去掉停用词和重复项。

步骤二：构建三元组情报知识库。将这些实体构建关系，例如一篇情报和作者之间的写作关系，作者和机构的所属单位关系，不同作者之间的合作关系。将这些实体和关系组合在一起，构成三元组数据，并存储到三元组数据库中。在扩展的三元组模式中，本发明采用情报数据的关键词，作为对三元组模式的扩展。

步骤三：利用IDF和信息熵加权方法，计算每一个三元组和其关键词的权重，并存储到数据库中。

步骤四：通过三元组相似度计算公式来计算每个三元组的相似三元组，并根据相似度进行排序。

步骤五：对RDF三元组进行有效存储。Jena TDB是一款支持RDF数据存储、查询和更新操作的组件，可以通过RDF格式的本体数据方便地导入到Jena TDB中。本发明采用JenaTDB提供的API实现基本的SPARQL查询操作，以及利用本发明提出的基于三元组相似度的查询松弛模型进行查询扩展。

步骤六：生成查询样例，对检索结果集中根据三元组和关键词的权重进行有效排序，返回top-k个结果。

Claims

1.基于知识图谱的情报关联分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于知识图谱的情报关联分析方法，其特征在于，步骤三中所述的IDF和信息熵加权方法包括以下步骤：

步骤一计算每个三元组的IDF值计算公式如下所示；

IDF(t)＝γ×(IDF(s)+IDF(p)+IDF(o))

步骤二每个三元组的信息熵H(e)的计算过程如下公式所示；

其中，e表示扩展的三元组中的实体和关系，k表示数据分类数量；D₁(e)表示e在数据集中出现的频次，D₂(e^(k))表示e在第k个数据类别中出现的频次，|C|表示数据类别的总数；

对于每一个三元组t＝(s,p,o)，其三元组的信息熵值计算公式如下所示；

H(t)＝η×(H(s)+H(p)+H(o))

H(v_i|t)＝θ×(H(v_i|s)+H(v_i|o))

3.根据权利要求1所述的基于知识图谱的情报关联分析方法，其特征在于，步骤五中所述的基于三元组相似度的查询方法包括以下步骤：

步骤一基于三元组相似度的衡量方法；