CN108846029A - 基于知识图谱的情报关联分析方法 - Google Patents

基于知识图谱的情报关联分析方法 Download PDF

Info

Publication number
CN108846029A
CN108846029A CN201810519637.XA CN201810519637A CN108846029A CN 108846029 A CN108846029 A CN 108846029A CN 201810519637 A CN201810519637 A CN 201810519637A CN 108846029 A CN108846029 A CN 108846029A
Authority
CN
China
Prior art keywords
triple
keyword
idf
similarity
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810519637.XA
Other languages
English (en)
Other versions
CN108846029B (zh
Inventor
王念滨
陈锡瑞
谢晓东
王红滨
周连科
陈田田
原明旗
赵昱杰
厉原通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING SAIXI TECHNOLOGY DEVELOPMENT CO LTD
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201810519637.XA priority Critical patent/CN108846029B/zh
Publication of CN108846029A publication Critical patent/CN108846029A/zh
Application granted granted Critical
Publication of CN108846029B publication Critical patent/CN108846029B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知识图谱的情报关联分析方法,属于RDF知识图谱条件下情报相关性检索领域。本发明包括:数据的预处理过程,对下载的情报数据TXT文档进行解析;构建三元组情报知识库;利用IDF和信息熵加权方法,计算每一个三元组和其关键词的权重,并存储到数据库中;通过三元组相似度计算公式来计算每个三元组的相似三元组,并根据相似度进行排序;对RDF三元组进行有效存储;采用Jena TDB提供的API实现基本的SPARQL查询操作,并根据基于三元组相似度的查询方法进行查询扩展;生成查询样例,对检索结果集中根据三元组和关键词的权重进行有效排序,返回top‑k结果。

Description

基于知识图谱的情报关联分析方法
技术领域
本发明涉及一种基于知识图谱的情报分析方案,属于RDF知识图谱条件下情报相关性检索领域。
背景技术
在情报科学中,情报是知识的再加工,传递性和相关性是知识的基本属性。正是情报的传递性和相关性的特点,使不同情报之间存在着一定的关联。随着互联网技术的飞速发展,现代情报呈现出海量级别、多样性、实时性等特点,使得情报知识之间的关联程度也越来越高,这给现代情报分析带来了难点。但随着以机器学习为代表的人工智能技术的长足发展,这给大数据背景下的情报分析带来了可能。情报分析的对象是情报资源,可以单元化为互相关联的各个实体。利用机器学习方法,可以挖掘出情报数据中各个实体以及实体之间的关系。但这种分析方式一般停留在简单的统计语法分析层面,没有深入到情报内容的语义层面,很容易造成语义的缺失问题,这样分析出来的情报不够准确和完整,对于不同情报之间的关联情况也往往不能很好的体现。
知识图谱(Knowledge Graphs)是近年来的一种新兴技术,其技术理论和概念是结合知识库、语义网络以及本体论等思想,由Google于2012年提出的。知识图谱的本质上是一种基于复杂语义网络的图形结构,它充分利用了可视化技术,不仅能够对知识资源和载体进行描述,而且还可以对知识以及知识之间的联系进行分析和描述。它利用图形的方式将复杂的知识绘制并展现出来,用图中的节点来表示知识,用节点之间的边来表示知识之间的关系,这样更直观的体现知识之间的关联。正是图结构的这种特点,使其具有实体概念覆盖率高、语义关系多样、结构友好以及质量较高等优势,从而使得知识图谱日益成为大数据时代最为主要的知识表示方式。同时,知识图谱也被誉为新一代人工智能的发展方向。知识图谱最先应用在搜索引擎领域,例如Google、Bing、百度以及搜狗等搜索引擎厂商纷纷推出自己的知识图谱产品来改善其搜索引擎的检索质量。随后知识图谱在智能搜索、个性化推荐、文本分类、内容分发等领域得到广泛的应用,并取得了良好的效果。由于知识图谱能够充分反映实体之间的关联关系,所以将其应用在情报分析领域也成为可能。
发明内容
本发明的目的是这样实现的:
基于知识图谱的情报关联分析方法,其特征在于,包括以下步骤:
步骤一数据的预处理过程;对下载的情报数据TXT文档进行解析,抽取每篇情报数据的标题、作者、关键词、机构、日期等信息,并去掉停用词和重复项;
步骤二构建三元组情报知识库;将这些实体构建关系,包括情报和作者之间的写作关系,作者和机构的所属单位关系,不同作者之间的合作关系;将这些实体和关系组合在一起,构成三元组数据,并存储到三元组数据库中;在扩展的三元组模式中,采用情报数据的关键词,作为对三元组模式的扩展;
步骤三利用IDF和信息熵加权方法,计算每一个三元组和其关键词的权重,并存储到数据库中;
步骤四通过三元组相似度计算公式来计算每个三元组的相似三元组,并根据相似度进行排序;
步骤五对RDF三元组进行有效存储;采用Jena TDB提供的API实现基本的SPARQL查询操作,并根据基于三元组相似度的查询方法进行查询扩展;
步骤六生成查询样例,对检索结果集中根据三元组和关键词的权重进行有效排序,返回top-k结果。
所述的IDF和信息熵加权方法包括以下步骤:
步骤一计算每个三元组的IDF值计算公式如下所示;
上式中,e表示扩展的三元组中的实体和关系,n表示RDF数据集中三元组数目,F(e)表示e出现在RDF数据集的次数;设IDF(t)为三元组t=(s,p,o)的IDF值,根据三元组结构的特点,对每一个三元组的IDF值计算公式如下所示,其中γ为调节因子,0<γ<1;
IDF(t)=γ×(IDF(s)+IDF(p)+IDF(o))
步骤二每个三元组的信息熵H(e)的计算过程如下公式所示;
其中,e表示扩展的三元组中的实体和关系,k表示数据分类数量;D1(e)表示e在数据集中出现的频次,D2(e(k))表示e在第k个数据类别中出现的频次,|C|表示数据类别的总数;对于每一个三元组t=(s,p,o),其三元组的信息熵值计算公式如下所示;
H(t)=η×(H(s)+H(p)+H(o))
其中,η为调节因子,0<η<1;每个三元组的权重w(t)由IDF值和信息熵H值两部分确定,如下公式所示;其中,|N|表示数据集中三元组的总数;
步骤三对关键词权重的计算过程与三元组相似,分别计算每个关键词的IDF值和信息熵值;首先,对三元组-关键词的IDF计算过程如下公式所示:
设IDF(vi|e)是属于三元组t=(s,p,o)的关键词组v=(v1,v2,…,vn)中关键词vi的IDF值,e表示三元组t中的头实体s或尾实体o,而不包括它们之间的关系;F(e,vi)表示三元组头实体s或者尾实体o与关键词vi的共同出现在数据集中的次数;设IDF(vi|t)表示三元组-关键词的IDF值,其计算公式如下所示,其中为调节因子,
步骤四计算关键词的信息熵H(vi|e)的计算过程如下公式所示:
其中,e仅代表头尾实体,不包括它们之间的关系;k表示数据分类数量,D1(vi,e)表示关键词vi和e在数据集中共同出现的次数,D2(vi,e(k))表示关键词vi和e在第k个数据类别中共同出现的次数,|C|表示数据类别的总数;对于一个三元组t和它的某一个关键词vi,其信息熵值计算公式如下所示:
H(vi|t)=θ×(H(vi|s)+H(vi|o))
其中,θ表示调节因子,0<θ<1;每个三元组-关键词的权重w(vi|t)由IDF值和信息熵H两部分组成,如下公式所示:
所述的基于三元组相似度的查询方法包括以下步骤:
步骤一基于三元组相似度的衡量方法;
设t1和t2为三元组,则三元组t1和t2的相似度计算如下公式所示:
步骤二生成松弛查询的方法;对于一个原始查询其中表示原始查询中的第i个三元组;首先,通过上述公式对原始查询中每个三元组相似度进行计算,得到一组相似的三元组,并根据相似度进行排序,构成相似三元组队列;选取每个三元组的相似三元组队列中的近似三元组,通过替换原始查询中的三元组的方式,来构造松弛查询;
步骤三通过如下公式计算每个子查询与原始查询的相似度,并利用相似度进行排序,根据这个排序来决定每个查询的执行顺序;首先,原始查询会最先执行,然后具有最高相似度的松弛查询会依次执行;
步骤四在原始查询和松弛查询之间的语义相似度设置一个阈值,若两个查询之间的相似度小于这个阈值,则不会被派生。
本发明的有益效果:
目前,对于面向情报知识图谱的相关性检索方法国内外学者都在积极的研究,但面临着诸如不完整的数据和关系、缺乏灵活性查询以及无法体现查询结果集的多样性特点等问题。本发明以RDF三元组检索方法为基础,基于情报数据关联性查询这一主要问题,给出针对性的解决方案,提出了基于扩展的RDF知识图谱关联性检索策略R-SPARQL方法。
附图说明
图1为本发明的算法流程框图;
图2为本发明基于图结构的语义重叠示意图;
图3为本发明原始查询派生松弛查询过程示意图;
图4为本发明在不同松弛度α值的条件下平均召回率和准确率对比图;
图5为本发明在不同松弛度α值的条件下平均查询耗时对比图;
图6为本发明在不同数据集大小的条件下平均召回率对比图;
图7为本发明在不同数据集大小的条件下平均召回率对比图;
图8为本发明在不同数据集大小的条件下平均召回率对比图。
具体实施方式
下面结合附图及运动实例,对本发明做出更加详细的阐述。
情报相关性分析是信息检索和情报学领域的研究重点,如何在情报检索结果中体现多个关联数据的特点是本次发明的主要任务。基于知识图谱的信息检索本质上是一种子图匹配问题,可以将知识图谱视为一种RDF形式的三元组结构,而在其结构上的检索可以使用符合W3C标准的SPARQL语言进行查询。但这种查询方式只会返回符合条件的子图结构,而在查询结果集中不会体现关联性和多样性的特点。
针对这种问题,本发明对基于RDF的知识图谱检索方法进行了深入研究,提出了一种关联性检索方法。该方法的思想是使用关键词和权重扩展了RDF知识图谱的结构。其中,关键词的扩展提供了一种模糊检索的方式,而三元组及关键词的权重用来计算查询三元组的相似度以及对查询结果集进行相关性排序。通过计算相似度,将原始查询派生出多个松弛查询,由此获得更多的、彼此关联的检索结果。
主要发明点及技术效果:
目前,对于面向情报知识图谱的相关性检索方法国内外学者都在积极的研究,但面临着诸如不完整的数据和关系、缺乏灵活性查询以及无法体现查询结果集的多样性特点等问题。本发明以RDF三元组检索方法为基础,基于情报数据关联性查询这一主要问题,给出针对性的解决方案,提出了基于扩展的RDF知识图谱关联性检索策略R-SPARQL方法,其主要观点和内容如下:
(1)三元组模式的扩展方案。由于用户可能不会明确知道要查询的三元组元素的名称,或者只知道与待查询元素相似的实体名称,这样的查询往往查不到数据或者返回错误的结果。因此,为了避免传统的SPARQL查询过于精准的查询方式而提出了一种扩展的三元组模式查询方法。首先,本发明使用一组关键词来扩展RDF知识图谱,每一个三元组都与这组关键词相关联。利用关键词进行扩展的目的在于提供一种模糊检索的方法,以提高检索的灵活性。其次,根据每一个关键词与该三元组之间的关联程度,对每一个关键词分配一个权重,称为三元组-关键词权重。利用权重进行扩展的意义在于对检索结果集进行相关性排序,并且能够体现检索结果的多样性。因此,分配给每个三元组的权重不仅仅代表该三元组在数据集中的重要程度,也应当体现三元组之间的区分能力。利用这种区分能力,并通过权重对检索结果集进行排序,使得结果集中体现多样性的特点。
关键词的获取方法是多样的。例如,在科学文献数据中,可以通过抽取文献的主题词来构建关键词组。在关键词的选取上,还需要进行一些预处理过程。比如,去掉停用词,重复项等操作。不管是三元组的权重还是关键词的权重,都是最终结果集排序的关键因素。利用一组关键词和权重对RDF知识图谱结构进行扩展。三元组的权重可以根据RDF知识图谱数据源的性质以多种方式的计算来获取,本发明采用逆文档频率算法(IDF)和信息熵来对三元组和关键词的权重进行计算,计算的步骤如下。
第一步:计算每个三元组的IDF值计算公式如下所示。
上式中,e表示扩展的三元组中的实体和关系,n表示RDF数据集中三元组数目,F(e)表示e出现在RDF数据集的次数。设IDF(t)为三元组t=(s,p,o)的IDF值,根据三元组结构的特点,对每一个三元组的IDF值计算公式如下所示,其中γ为调节因子,0<γ<1。
IDF(t)=γ×(IDF(s)+IDF(p)+IDF(o))(2)
第二步:每个三元组的信息熵H(e)的计算过程如下公式所示。
其中,e表示扩展的三元组中的实体和关系,k表示数据分类数量。D1(e)表示e在数据集中出现的频次,D2(e(k))表示e在第k个数据类别中出现的频次,|C|表示数据类别的总数。对于每一个三元组t=(s,p,o),其三元组的信息熵值计算公式如下所示。
H(t)=η×(H(s)+H(p)+H(o))(4)
其中,η为调节因子,0<η<1。每个三元组的权重w(t)由IDF值和信息熵H值两部分确定,如下公式所示。其中,|N|表示数据集中三元组的总数。
第三步:对关键词权重的计算过程与三元组相似,分别计算每个关键词的IDF值和信息熵值。首先,对三元组-关键词的IDF计算过程如下公式所示。
设IDF(vi|e)是属于三元组t=(s,p,o)的关键词组v=(v1,v2,…,vn)中关键词vi的IDF值,e表示三元组t中的头实体s或尾实体o,而不包括它们之间的关系。F(e,vi)表示三元组头实体s或者尾实体o与关键词vi的共同出现在数据集中的次数。设IDF(vi|t)表示三元组-关键词的IDF值,其计算公式如下所示,其中为调节因子,
第四步:计算关键词的信息熵H(vi|e)的计算过程如下公式所示。
其中,e仅代表头尾实体,不包括它们之间的关系。k表示数据分类数量,D1(vi,e)表示关键词vi和e在数据集中共同出现的次数,D2(vi,e(k))表示关键词vi和e在第k个数据类别中共同出现的次数,|C|表示数据类别的总数。对于一个三元组t和它的某一个关键词vi,其信息熵值计算公式如下所示。
H(vi|t)=θ×(H(vi|s)+H(vi|o))(9)
其中,θ表示调节因子,0<θ<1。每个三元组-关键词的权重w(vi|t)由IDF值和信息熵H两部分组成,如下公式所示。
(2)基于三元组相似度的关联查询方法,本发明提出了一种适用于RDF知识图谱结构的关联查询策略。查询松弛算法是一种非常重要的关联性查询方法,它是指在原始查询中改变或者删除一个或者多个硬性条件,或者对原始查询条件进行扩展,从而得到一个覆盖范围更广的查询处理过程,最终获得与原始查询结果相关联的一组查询结果。具体步骤如下:
第一步:基于三元组相似度的衡量方法。从知识图谱结构上来看,一个实体可能会存在一个或多个边与另一个实体相连,那些直接相连的三元组之间往往是比较相似的,它表示同一个实体可能具有的多种关系,或者同一种关系代表的不同的实体。但事实上,两个三元组之间可能没有直接相连的边,但它们具有相同的实体标签和边标签,那么这些三元组之间的相似程度也是不可忽视的。因此,基于这种考虑提出了基于三元组的语义重叠的概念。语义重叠表示包含在本体概念中具有相同上层概念的数量,这可以表明两个概念的相似程度。两个RDF三元组的语义重叠定义为三元组中具有相同元素的数量,基于图结构的语义重叠如图2所示。
还有一种衡量三元组相似度的方法是基于图嵌入思想,它将知识图谱的三元组嵌入到一个低维向量空间中,三元组中的头尾实体和关系为一个向量。设三元组t=(s,p,o),其实体和关系的向量表示分别为如果三元组成立,那么存在如下等式如果两个三元组t1=(s1,p1,o1)和t2=(s2,p2,o2)具有较高的相似度,则认为将它们之间的元素互换后,上述等式也是成立的。例如,如果三元组t1和t2彼此相似,那么存在或者因此,基于这两种计算方法,将三元组t1和t2的相似度计算如下公式所示。
第二步:生成松弛查询的方法。对于一个原始查询其中表示原始查询中的第i个三元组。首先,通过上述公式对原始查询中每个三元组相似度进行计算,得到一组相似的三元组,并根据相似度进行排序,构成相似三元组队列。选取每个三元组的相似三元组队列中的近似三元组,通过替换原始查询中的三元组的方式,来构造松弛查询。
第三步:通过如下公式计算每个子查询与原始查询的相似度,并利用相似度进行排序,根据这个排序来决定每个查询的执行顺序。首先,原始查询会最先执行,然后具有最高相似度的松弛查询会依次执行。
第四步:对于松弛查询数量的限制方案。一个原始查询可以派生出多个松弛查询,对每个松弛查询还会继续派生出多个子松弛查询,将派生的次数称为松弛度α。松弛查询的数量是随着α值的增加呈指数级增长的。如果不加以限制,由原始查询可能会派生出过多的松弛查询。然而,过多的松弛查询可能会检索不到结果或者产生毫无意义的结果。因此,有必要在松弛数量上加以限制。本发明在原始查询和松弛查询之间的语义相似度设置一个阈值,如果两个查询之间的相似度小于这个阈值,则不会被派生。图3展示了由原始查询派生子查询的过程。
(3)查询结果集的top-k选择方案。通常情况下,三元组模式查询通常会返回过多的结果。而且,通过松弛查询进行检索所返回的结果集中,排在前面的结果往往过于近似而没有呈现多样性特点,使用户很难在这些结果集中找到真正想要的数据。本发明基于扩展的RDF三元组模式提出了一种排序模型,根据每一个三元组和它们的关键词之间的关联性对结果子图进行有效排序,最终返回最相关的top-k个结果。设原始查询为派生出m个松弛查询(Q1,Q2,…,Qm)。其中,表示查询Qj中第i个查询三元组,由一组关键词组进行扩展。由查询Qj得到一组结果三元组集合(q1,q2,…,qs)。其中,三元组查询得到的结果三元组为qw,称为三元组到qw的转移。假设关键词组之间是相互独立的,向qw的转移概率扩展为每个独立的关键词向qw的转移概率,可以通过如下公式计算其转移概率。通过这种概率值来对结果集进行排序。
本发明的技术效果为:
本发明提出了一种基于关键词和权重扩展的RDF知识图谱表示方法,通过引入额外变量扩展了SPARQL查询方式。随后,基于扩展的三元组模式提出了一种三元组相似度的查询松弛方法,通过计算原始查询的相似度,生成多个松弛查询,由此扩展了用户的查询意图,最终返回一组最相关的查询结果。最后,通过三元组权重对查询结果集进行相关性排序,充分考虑了结果集的多样性。
通过仿真实验和分析实验结果,对比传统的SPARQL查询和本发明提出的松弛查询方案,以绘图的形式直观的验证了平均召回率、平均准确率和平均查询耗时三项性能的指标。首先,在不同的松弛度条件下,对比分析召回率、准确率和查询耗时的性能指标如图4和图5所示。当α=0时表示只进行原始查询,随着α值的增加,松弛查询的数量呈指数级增长,因此召回率和准确率也随之增长。但这种效果的提升是以查询耗时的增加为代价的。在不同数据集大小的情况下,对比分析召回率、准确率和查询耗时的性能指标如图6、图7和图8所示。
由于传统的SPARQL查询只会返回满足条件的结果集,没有体现数据之间的关联程度。而本发明提出的R-SPARQL方法,将原始查询扩展为多个子查询,不仅可以返回满足条件的结果集,而且也会返回满足知识图谱结构的关联实体。因此,在平均召回率和平均准确率上,R-SPARQL方法的性能要明显好于传统的SPARQL查询。
本发明提出的基于扩展的RDF知识图谱的情报关联查询方案,通过以下步骤实现。
步骤一:数据的预处理过程。主要任务是对下载的情报数据TXT文档进行解析,抽取每篇情报数据的标题、作者、关键词、机构、日期等信息,并去掉停用词和重复项。
步骤二:构建三元组情报知识库。将这些实体构建关系,例如一篇情报和作者之间的写作关系,作者和机构的所属单位关系,不同作者之间的合作关系。将这些实体和关系组合在一起,构成三元组数据,并存储到三元组数据库中。在扩展的三元组模式中,本发明采用情报数据的关键词,作为对三元组模式的扩展。
步骤三:利用IDF和信息熵加权方法,计算每一个三元组和其关键词的权重,并存储到数据库中。
步骤四:通过三元组相似度计算公式来计算每个三元组的相似三元组,并根据相似度进行排序。
步骤五:对RDF三元组进行有效存储。Jena TDB是一款支持RDF数据存储、查询和更新操作的组件,可以通过RDF格式的本体数据方便地导入到Jena TDB中。本发明采用JenaTDB提供的API实现基本的SPARQL查询操作,以及利用本发明提出的基于三元组相似度的查询松弛模型进行查询扩展。
步骤六:生成查询样例,对检索结果集中根据三元组和关键词的权重进行有效排序,返回top-k个结果。

Claims (3)

1.基于知识图谱的情报关联分析方法,其特征在于,包括以下步骤:
步骤一 数据的预处理过程;对下载的情报数据TXT文档进行解析,抽取每篇情报数据的标题、作者、关键词、机构、日期等信息,并去掉停用词和重复项;
步骤二 构建三元组情报知识库;将这些实体构建关系,包括情报和作者之间的写作关系,作者和机构的所属单位关系,不同作者之间的合作关系;将这些实体和关系组合在一起,构成三元组数据,并存储到三元组数据库中;在扩展的三元组模式中,采用情报数据的关键词,作为对三元组模式的扩展;
步骤三 利用IDF和信息熵加权方法,计算每一个三元组和其关键词的权重,并存储到数据库中;
步骤四 通过三元组相似度计算公式来计算每个三元组的相似三元组,并根据相似度进行排序;
步骤五 对RDF三元组进行有效存储;采用Jena TDB提供的API实现基本的SPARQL查询操作,并根据基于三元组相似度的查询方法进行查询扩展;
步骤六 生成查询样例,对检索结果集中根据三元组和关键词的权重进行有效排序,返回top-k结果。
2.根据权利要求1所述的基于知识图谱的情报关联分析方法,其特征在于,步骤三中所述的IDF和信息熵加权方法包括以下步骤:
步骤一计算每个三元组的IDF值计算公式如下所示;
上式中,e表示扩展的三元组中的实体和关系,n表示RDF数据集中三元组数目,F(e)表示e出现在RDF数据集的次数;设IDF(t)为三元组t=(s,p,o)的IDF值,根据三元组结构的特点,对每一个三元组的IDF值计算公式如下所示,其中γ为调节因子,0<γ<1;
IDF(t)=γ×(IDF(s)+IDF(p)+IDF(o))
步骤二每个三元组的信息熵H(e)的计算过程如下公式所示;
其中,e表示扩展的三元组中的实体和关系,k表示数据分类数量;D1(e)表示e在数据集中出现的频次,D2(e(k))表示e在第k个数据类别中出现的频次,|C|表示数据类别的总数;
对于每一个三元组t=(s,p,o),其三元组的信息熵值计算公式如下所示;
H(t)=η×(H(s)+H(p)+H(o))
其中,η为调节因子,0<η<1;每个三元组的权重w(t)由IDF值和信息熵H值两部分确定,如下公式所示;其中,|N|表示数据集中三元组的总数;
步骤三 对关键词权重的计算过程与三元组相似,分别计算每个关键词的IDF值和信息熵值;首先,对三元组-关键词的IDF计算过程如下公式所示:
设IDF(vi|e)是属于三元组t=(s,p,o)的关键词组v=(v1,v2,…,vn)中关键词vi的IDF值,e表示三元组t中的头实体s或尾实体o,而不包括它们之间的关系;F(e,vi)表示三元组头实体s或者尾实体o与关键词vi的共同出现在数据集中的次数;设IDF(vi|t)表示三元组-关键词的IDF值,其计算公式如下所示,其中为调节因子,
步骤四 计算关键词的信息熵H(vi|e)的计算过程如下公式所示:
其中,e仅代表头尾实体,不包括它们之间的关系;k表示数据分类数量,D1(vi,e)表示关键词vi和e在数据集中共同出现的次数,D2(vi,e(k))表示关键词vi和e在第k个数据类别中共同出现的次数,|C|表示数据类别的总数;对于一个三元组t和它的某一个关键词vi,其信息熵值计算公式如下所示:
H(vi|t)=θ×(H(vi|s)+H(vi|o))
其中,θ表示调节因子,0<θ<1;每个三元组-关键词的权重w(vi|t)由IDF值和信息熵H两部分组成,如下公式所示:
3.根据权利要求1所述的基于知识图谱的情报关联分析方法,其特征在于,步骤五中所述的基于三元组相似度的查询方法包括以下步骤:
步骤一基于三元组相似度的衡量方法;
设t1和t2为三元组,则三元组t1和t2的相似度计算如下公式所示:
步骤二生成松弛查询的方法;对于一个原始查询其中表示原始查询中的第i个三元组;首先,通过上述公式对原始查询中每个三元组相似度进行计算,得到一组相似的三元组,并根据相似度进行排序,构成相似三元组队列;选取每个三元组的相似三元组队列中的近似三元组,通过替换原始查询中的三元组的方式,来构造松弛查询;
步骤三通过如下公式计算每个子查询与原始查询的相似度,并利用相似度进行排序,根据这个排序来决定每个查询的执行顺序;首先,原始查询会最先执行,然后具有最高相似度的松弛查询会依次执行;
步骤四在原始查询和松弛查询之间的语义相似度设置一个阈值,若两个查询之间的相似度小于这个阈值,则不会被派生。
CN201810519637.XA 2018-05-28 2018-05-28 基于知识图谱的情报关联分析方法 Expired - Fee Related CN108846029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810519637.XA CN108846029B (zh) 2018-05-28 2018-05-28 基于知识图谱的情报关联分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810519637.XA CN108846029B (zh) 2018-05-28 2018-05-28 基于知识图谱的情报关联分析方法

Publications (2)

Publication Number Publication Date
CN108846029A true CN108846029A (zh) 2018-11-20
CN108846029B CN108846029B (zh) 2021-05-25

Family

ID=64213596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810519637.XA Expired - Fee Related CN108846029B (zh) 2018-05-28 2018-05-28 基于知识图谱的情报关联分析方法

Country Status (1)

Country Link
CN (1) CN108846029B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508389A (zh) * 2018-12-19 2019-03-22 哈尔滨工程大学 一种人员社会关系图谱可视化加速方法
CN109582803A (zh) * 2018-11-30 2019-04-05 广东电网有限责任公司 竞争情报数据库的构建方法和***
CN109710621A (zh) * 2019-01-16 2019-05-03 福州大学 结合语义类节点与边权重的关键词搜索ksanew算法
CN110083732A (zh) * 2019-03-12 2019-08-02 浙江大华技术股份有限公司 图片检索方法、装置及计算机存储介质
CN110082116A (zh) * 2019-03-18 2019-08-02 深圳市元征科技股份有限公司 一种车辆四轮定位数据的评价方法、评价装置及存储介质
CN110222240A (zh) * 2019-05-24 2019-09-10 华中科技大学 一种基于摘要图的空间rdf数据关键词查询方法
CN110457486A (zh) * 2019-07-05 2019-11-15 中国人民解放军战略支援部队信息工程大学 基于知识图谱的人物实体对齐方法及装置
CN110765233A (zh) * 2019-11-11 2020-02-07 中国人民解放军军事科学院评估论证研究中心 基于深度挖掘和知识管理技术的智能信息检索服务***
CN111753055A (zh) * 2020-06-28 2020-10-09 中国银行股份有限公司 一种客户问答自动提示方法及装置
CN113495955A (zh) * 2021-07-08 2021-10-12 北京明略软件***有限公司 一种面向文档的专家推送方法、***、设备及存储介质
CN113901452A (zh) * 2021-09-30 2022-01-07 中国电子科技集团公司第十五研究所 一种基于信息熵的子图模糊匹配安全事件识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030204A (ja) * 2001-07-17 2003-01-31 Takami Yasuda ビデオコンテンツ提供サーバ、ビデオコンテンツ検索用ファイル作成装置、ビデオコンテンツ検索用ファイル作成方法、コンピュータプログラム、ビデオクリップ作成支援装置およびビデオクリップ作成支援方法
CN104166670A (zh) * 2014-06-17 2014-11-26 青岛农业大学 一种基于语义网的信息查询方法
CN104765779A (zh) * 2015-03-20 2015-07-08 浙江大学 一种基于YAGO2s的专利文档查询扩展方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030204A (ja) * 2001-07-17 2003-01-31 Takami Yasuda ビデオコンテンツ提供サーバ、ビデオコンテンツ検索用ファイル作成装置、ビデオコンテンツ検索用ファイル作成方法、コンピュータプログラム、ビデオクリップ作成支援装置およびビデオクリップ作成支援方法
CN104166670A (zh) * 2014-06-17 2014-11-26 青岛农业大学 一种基于语义网的信息查询方法
CN104765779A (zh) * 2015-03-20 2015-07-08 浙江大学 一种基于YAGO2s的专利文档查询扩展方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李大振: "基于语义相似度的RDF本体查询松弛方法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582803A (zh) * 2018-11-30 2019-04-05 广东电网有限责任公司 竞争情报数据库的构建方法和***
CN109508389A (zh) * 2018-12-19 2019-03-22 哈尔滨工程大学 一种人员社会关系图谱可视化加速方法
CN109508389B (zh) * 2018-12-19 2021-05-28 哈尔滨工程大学 一种人员社会关系图谱可视化加速方法
CN109710621B (zh) * 2019-01-16 2022-06-21 福州大学 结合语义类节点与边权重的关键词搜索ksanew方法
CN109710621A (zh) * 2019-01-16 2019-05-03 福州大学 结合语义类节点与边权重的关键词搜索ksanew算法
CN110083732A (zh) * 2019-03-12 2019-08-02 浙江大华技术股份有限公司 图片检索方法、装置及计算机存储介质
CN110083732B (zh) * 2019-03-12 2021-08-31 浙江大华技术股份有限公司 图片检索方法、装置及计算机存储介质
CN110082116A (zh) * 2019-03-18 2019-08-02 深圳市元征科技股份有限公司 一种车辆四轮定位数据的评价方法、评价装置及存储介质
CN110222240A (zh) * 2019-05-24 2019-09-10 华中科技大学 一种基于摘要图的空间rdf数据关键词查询方法
CN110222240B (zh) * 2019-05-24 2021-03-26 华中科技大学 一种基于摘要图的空间rdf数据关键词查询方法
CN110457486A (zh) * 2019-07-05 2019-11-15 中国人民解放军战略支援部队信息工程大学 基于知识图谱的人物实体对齐方法及装置
CN110765233A (zh) * 2019-11-11 2020-02-07 中国人民解放军军事科学院评估论证研究中心 基于深度挖掘和知识管理技术的智能信息检索服务***
CN111753055A (zh) * 2020-06-28 2020-10-09 中国银行股份有限公司 一种客户问答自动提示方法及装置
CN111753055B (zh) * 2020-06-28 2024-01-26 中国银行股份有限公司 一种客户问答自动提示方法及装置
CN113495955A (zh) * 2021-07-08 2021-10-12 北京明略软件***有限公司 一种面向文档的专家推送方法、***、设备及存储介质
CN113901452A (zh) * 2021-09-30 2022-01-07 中国电子科技集团公司第十五研究所 一种基于信息熵的子图模糊匹配安全事件识别方法
CN113901452B (zh) * 2021-09-30 2022-05-17 中国电子科技集团公司第十五研究所 一种基于信息熵的子图模糊匹配安全事件识别方法

Also Published As

Publication number Publication date
CN108846029B (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN108846029A (zh) 基于知识图谱的情报关联分析方法
Batsakis et al. Improving the performance of focused web crawlers
Wang et al. Q2semantic: A lightweight keyword interface to semantic search
Bao et al. Towards an effective XML keyword search
Ganti et al. Keyword++ a framework to improve keyword search over entity databases
CN109829104A (zh) 基于语义相似度的伪相关反馈模型信息检索方法及***
Alwan et al. A survey of schema matching research using database schemas and instances
Li et al. Subjective databases
CN102043812A (zh) 一种医疗信息的检索方法及***
CN102890711A (zh) 一种检索排序方法及***
Zhang et al. A graph based document retrieval method
Hoang et al. The state of the art of ontology-based query systems: A comparison of existing approaches
Li et al. Processing xml keyword search by constructing effective structured queries
Wang et al. Research on discovering deep web entries
Nargesian et al. Optimizing organizations for navigating data lakes
Agrawal et al. Search Engine Results Improvement--A Review
Elbassuoni Effective searching of RDF knowledge bases
Li et al. A structure-based approach of keyword querying for fuzzy XML data
Song et al. Discussions on subgraph ranking for keyworded search
Peng et al. On the marriage of SPARQL and keywords
Ganta et al. Search engine optimization through spanning forest generation algorithm
Nargesian et al. Data lake organization
Li et al. Querying subjective data
Elsayed et al. Enhancing keyword search over relational databases using ontologies
Torabi et al. Web spam detection: new approach with hidden markov models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220708

Address after: 100000 Room 401, block D, No. 8, Tongji South Road, Beijing Economic and Technological Development Zone, Daxing District, Beijing

Patentee after: BEIJING SAIXI TECHNOLOGY DEVELOPMENT Co.,Ltd.

Address before: 150001 Intellectual Property Office, Harbin Engineering University science and technology office, 145 Nantong Avenue, Nangang District, Harbin, Heilongjiang

Patentee before: HARBIN ENGINEERING University

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210525