CN107451210B - 一种基于查询松弛结果增强的图匹配查询方法 - Google Patents

一种基于查询松弛结果增强的图匹配查询方法 Download PDF

Info

Publication number
CN107451210B
CN107451210B CN201710569486.4A CN201710569486A CN107451210B CN 107451210 B CN107451210 B CN 107451210B CN 201710569486 A CN201710569486 A CN 201710569486A CN 107451210 B CN107451210 B CN 107451210B
Authority
CN
China
Prior art keywords
query
graph
relaxation
relaxed
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710569486.4A
Other languages
English (en)
Other versions
CN107451210A (zh
Inventor
马帅
李佳
曹洋
刘旭东
怀进鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201710569486.4A priority Critical patent/CN107451210B/zh
Publication of CN107451210A publication Critical patent/CN107451210A/zh
Application granted granted Critical
Publication of CN107451210B publication Critical patent/CN107451210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于查询松弛结果增强的图匹配查询方法。本发明通过将查询模式图进行属性标签松弛从而查询得到更多图匹配结果。本发明的方法可以生成最优k个基于结构排序或差异结构排序的松弛方法下的查询松弛,对于结构排序,利用用于解决最优k个组合优化问题的Lawler过程生成排序最好的k个松弛查询图;对于差异结构排序,采用最大分散问题的解决方法来生成k个差异松弛查询图;然后执行同时处理多个图匹配查询的批处理优化处理,来同时回答k个松弛查询图的结果,在处理过程中能够最大化共享k个查询图的处理量,从而达到高效处理的技术效果。

Description

一种基于查询松弛结果增强的图匹配查询方法
技术领域
本发明属于图查询领域,具体涉及一种社交网络中基于查询松弛结果增强的图匹配查询方法。
背景技术
相较于传统的关系数据和XML数据,图数据具有更强的表达能力,其既能够表达数据、又可以表达数据之间的联系,被广泛应用于社交网络领域。在社交网络图G(V,E,f)中,可以把人看作图的顶点V,人之间的关系(如合作关系)看作图的边E,人的技能专长等特征用标签函数f表示。图的广泛应用自然而然促进图查询技术(从图中查询信息)的广泛应用。
图查询分为很多种类,如点查询、路径查询、图匹配查询等,其中关于图匹配查询的研究工作近年来越来越多。图匹配查询即给定一个查询模式图Q(VQ,EQ,fQ)和一个数据图G(V,E,f),在数据图G中查找满足查询图Q中拓扑结构和属性节点约束的子图。在社交网络图上的团队推荐查询中,用户可以通过构建查询图Q(VQ,EQ,fQ)来搜索得到一个团队,使得所有队员(VQ)既能够满足所有业务需求(fQ)并且能够紧密合作(EQ)。传统的图匹配查询是基于子图同构语义而定义的,然而其语义是NP完全并且由于限制条件太多经常导致难以查询得到有意义的图匹配结果。因此出现两种放松语义限制来增加图匹配结果的方法:一种方法是采用基于图模拟的图匹配语义放松子图同构语义中要求查询图和匹配图拓补结构完全相同的严格约束;另一方法是在图匹配查询过程中利用语义分类知识,即一个属性标签可以匹配与其语义相关的属性标签,来放松查询图节点与数据图中匹配节点之间属性标签匹配需要完全相同的严格约束,如语义子图同构查询。
现有技术中,即使较小规模的查询图仍然无法在图数据中找到匹配的结果。针对这种情况,我们提出了采用语义图模拟的图匹配查询方法,该方法结合了图模拟和查询标签语义相关匹配两个优化方向的优势,进而在查询时能得到更多匹配结果。
然而,虽然语义图模拟查询方法可以为较小规模的查询图在真实数据集中查询得到比现有传统图查询方法更多的匹配结果,但是在大多数情况下语义图模拟查询方法在数据图中仍然找不到任何匹配结果。具体实验过程及数据如下所示。在通用的两个真实知识库数据集DBpedia和YAGO中,分别抽取出数据图和语义分类知识图,而后随机生成节点数目从2到10变化的查询图,并在数据图中进行语义图模拟查询。在数据图中能得到非空结果的查询图占所有生成的相同节点数目的查询图的比例统计如下:
节点个数 2 4 6 8 10
DBpedia 90% 18% 0% 0% 0%
YAGO 54% 2% 0% 0% 0%
有18%的4个节点的查询图可以在DBpedia数据集上查询得到结果,只有2%的4个节点的查询图可以在YAGO数据集上查询得到结果;没有任何大于等于6个节点的查询图能够在DBpedia或YAGO上查询得到结果。当分别在两个数据集上执行查询约束条件更加严格的子图同构,语义子图同构以及图模拟匹配查询时,能够查询得到结果的查询图百分比远远低于表格中所示数值。
通过进一步详细分析查询结果为空的查询图,以及检查数据图中的数据内容,发现数据图中实际存在大量能够与查询图匹配的有意义节点,但是他们均不能被现有技术中的图模拟、语义分类以及语义图模拟相结合的查询方法搜索出来。
查询松弛技术即是为了解决在查询过程中查询结果过少问题而提出的,其是当用户输入的查询由于约束条件太多导致查询结果较少或为空集时,查询引擎能够自动生成松弛的查询输入,进而可以从数据集中查询得到更多有意义的结果。查询松弛相关技术的应用使得查询引擎的易用性明显增强,在关系数据,XML等领域有相关研究,然而在图匹配查询的领域中还处于空白状态。图匹配查询要求匹配图与查询图是通过各种子图结构匹配约束条件相匹配,由于子图结构查询约束条件较强,容易导致查询结果较少或空集,难以根据用户的输入找到用户满意的结果。然而,因为查询松弛技术的关键因素是如何生成松弛查询图以及如何为松弛查询图进行排序,以及如何快速高效的为生成的最优的一组松弛查询图在数据图中找到匹配结果,而这些问题高度依赖于查询方法的特征,因此查询方法的不同导致现有的查询松弛技术无法应用于图匹配查询过程中。为了解决社交网络中属性标签间存在语义从属关系,社交搜索无法在数据图中查询得到查询图中指定的属性约束的图匹配结果,本发明提出图匹配查询松弛方法将查询图中的属性标签松弛至松弛距离范围内较高级的属性标签再进行搜索,从而具有较高级属性标签及其子孙属性标签的数据节点均可以被查询得到作为查询结果,从而增加图匹配查询结果。
发明内容
本发明提出了一个社交网络中基于查询松弛的图匹配查询方法。社交网络中,用户通过构建查询模式图从数据图中查询得到满足一定结构和属性约束的图匹配查询结果。然而传统图匹配查询方法面临查询结果过少的问题。本发明通过将查询模式图进行属性标签松弛从而查询得到更多图匹配结果,然而对于一个查询图,生成的松弛查询图可以有无穷多个,所以本发明采用结构排序和差异结构排序两种查询松弛排序方法生成用户指定的k个在相应排序方法下最优的松弛查询图,两者综合考虑了查询图,数据图,以及利用了语义分类信息生成使得有意义的潜在查询结果更多的松弛查询图。本发明的方法可以生成最优k个基于结构排序或差异结构排序的松弛方法下的查询松弛,对于结构排序,本发明利用用于解决最优k个组合优化问题的Lawler过程生成排序最好的k个松弛查询图;对于差异结构排序,本发明采用最大分散问题的解决方法来生成k个差异松弛查询图。然后执行同时处理多个图匹配查询的批处理优化处理,来同时回答k个松弛查询图的结果,在处理过程中能够最大化共享k个查询图的处理量,从而达到高效处理的技术效果。最后为松弛查询结果提供溯源解释,即解释结果为何能由查询图Q松弛而产生的松弛查询图在数据图G中查询得到
附图说明
图1为本发明中基于查询松弛技术的图匹配查询方法的流程图;
图2为本发明中得到最优k个查询松弛的处理步骤;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出的社交网络中的基于查询松弛技术的图匹配查询方法,其总体流程如图1所示。第一步,制定松弛排序方法并生成相应排序方法下最优k个基于结构排序或差异结构排序的查询松弛,对于结构排序方法,本发明利用用于解决最优k个组合优化问题的Lawler过程生成排序最好的k个松弛查询图;对于差异结构排序方法,本发明将此问题归约到最大分散问题,进而利用最大分散问题的解决方法来生成k个差异松弛查询图。第二步,将在第一步中得到的排序最优的k个松弛查询图同时在数据图上执行基于批处理优化技术的语义图模拟图匹配查询,分别得到每个松弛查询图的查询结果。第三步,为第二步在结构排序或差异结构排序方法下生成的松弛查询图在数据图上查询得到的图匹配查询结果提供溯源解释,所述k为用户指定的正整数。
本发明中,数据图G(V,E,f)和所述查询图Q(VQ,EQ,fQ)是由节点与边构成的有向图,表达实体和实体之间的链接关系,所述语义关系图T(VT,ET,fT)是由节点与边构成的带根节点的树形图,其表达属性标签之间的语义从属关系。
在社交网络图G上的团队推荐查询中,用户可以通过构建查询图Q来搜索得到一个团队,使得所有队员(VQ)既能够满足所有业务需求(fQ)并且能够紧密合作(EQ)。
其中,用户指定的业务需求可以通过查询图Q的标签fQ来表示,而这些业务需求标签之间通常存在语义从属的关系,比如“数据分析”技能包括“数据挖掘”和“数据库”等技能,“人工智能”技能包括“机器学习”和“自然语言处理”等技能。这些技能标签之间的从属关系可以利用树形图T(VT,ET,fT)来表示,比如“数据分析”、“数据挖掘”、“人工智能”、“机器学习”等标签都是T的节点VT,他们之间的从属关系是T的边ET,比如“数据分析”在语义图T中是“数据库”的父亲节点。
l的标签松弛为δ=l→l′,其中,l为一个标签,l′是l在语义图T中的祖先节点。社交搜索中若无法查询得到专业技能为“数据库”的专业人员,可以将属性标签“数据库”松弛至祖先节点比如松弛距离为1的父亲节点“数据分析”技能再进行搜索,那么标签为“数据分析”和“数据挖掘”技能的专业人员均可以被查询得到作为结果,增加了图匹配查询结果。
Q的查询松弛Δ是一个标签松弛集合,即查询图中出现的所有属性标签的标签松弛组成的集合,并且满足两个条件,所述满足的条件1是对于每个标签松弛δ=l→l′,l是Q中的标签并且l′到l间的距离小于μ,即distT(l′,l)≤μ,μ是正整数,所述满足的条件2是对于Δ中任意两个标签松弛l1→l1′和l2→l2′中,l1≠l2。本发明用
Figure BDA0001349251660000061
表示相应松弛查询图,即根据Δ中的所有标签松弛,将Q中原有标签替换为松弛后的标签。
本发明用μ来约束查询图Q中标签的松弛距离,使得松弛后的查询图
Figure BDA0001349251660000064
表达的查询意图与原始查询图Q表达的查询意图的差异可以控制在可接受范围内。
对于查询图Q(VQ,EQ,fQ)的一个标签松弛δ=l→l′,松弛比率γQ(δ)定义如下
Figure BDA0001349251660000062
其中,rankQ(u)表示查询图Q中能通过有向路径到达节点u的所有节点个数,表示在考虑语义图模拟查询方法特征以及查询图的结构特征下,节点u的标签在松弛后对整体查询图的查询结果数目造成的影响。ρ(x)=ex是一个用于正规化distT(l′,l)的单调递增函数。
越大的distT(l′,l)值表示Q中节点u更容易在G中通过语义图模拟查询找到匹配节点,其效果又被rankQ(u)值加强。松弛比率综合考虑了Q的结构特征,T的语义信息以及语义图模拟的查询特征来衡量Δ的松弛作用。
查询图Q(VQ,EQ,fQ)和数据图G(V,E,f)中,一个标签松弛δ=l→l′的信息比率
Figure BDA0001349251660000063
|cand(G,T)(l)|/|cand(G,T)(l′)|
其中,cand(G,T)(l)是G中所有标签为l及其子孙标签的节点,即f(v)∈descT(l)。
Figure BDA0001349251660000079
标签在数据图中的候选匹配节点数目来衡量δ的松弛效果。越小的
Figure BDA0001349251660000071
值表示松弛查询图更容易在数据图中找到匹配节点。
结构排序公式Γ(Q,Δ)为
Figure BDA0001349251660000072
其中,Δ是查询松弛,Γ(Q,Δ)是一个双目标优化函数,一方面目标生成具有高质量的松弛查询图
Figure BDA0001349251660000073
即松弛查询结果不能与原始查询结果相差太多;另一方面需要查询得到更多原始查询图无法找到但
Figure BDA0001349251660000074
可以查询到的有意义的结果。越小的Γ(Q,Δ)可以找到质量越好的松弛查询图并且找到更多查询结果。
Figure BDA0001349251660000075
表示所有的松弛距离为μ以内的查询松弛。最优k个查询松弛问题即是从
Figure BDA0001349251660000076
中找出一个k个查询松弛的集合,μ和k是常数,使得
Figure BDA0001349251660000077
最优k个查询松弛问题是从所有松弛距离为μ以内的查询松弛图中找到最优的k个松弛查询。
本发明进一步采用差异结构排序松弛方法,使得k个松弛查询图不仅在能够查询得到更多有意义结果且接近原始查询图的前提下,能够在查询结果里提供更多信息,即k个差异松弛查询图之间有较大差异,能够在数据图中查询得到更多的不同的图匹配查询结果。
差异率来衡量两个查询松弛的差异程度。对于任意两个Q的查询松弛Δ1和Δ2,Δ1和Δ2的相似距离ΘQ1,Δ2)为
Figure BDA0001349251660000078
其中,L(Q)表示查询图Q中出现的所有标签。所以相似距离ΘQ1,Δ2)衡量Q的松弛查询图之间重叠的标签个数,其保证生成的属性标签松弛后的k个差异松弛查询图两两之间属性尽量少重合,从而k个差异松弛查询图在数据图中查询得到更多的不同的图匹配查询结果。
差异结构排序公式
Figure BDA0001349251660000081
Figure BDA0001349251660000082
其中,集合S为k个查询松弛Δ1,...,Δk的集合,λ∈[0,1]是用户输入的参数,用于平衡控制查询松弛的松弛程度和差异程度,
Figure BDA0001349251660000083
是Γ(Q,Δ)的正规函数。
Figure BDA0001349251660000084
表示所有的松弛距离为μ以内的查询松弛。最优k个差异查询松弛问题即是从
Figure BDA0001349251660000085
中找出一个k个差异查询松弛的集合,使得
Figure BDA0001349251660000086
最优k个差异查询松弛问题是从所有松弛距离μ以内的查询松弛中找到最优的k个差异查询松弛。通过差异结构排序,得到的k个差异松弛查询图既能够查询得到更多有意义的查询结果,与原始查询图接近,也能够使得k个差异松弛查询图之间有较大差异,进而使得图匹配查询结果能够涵盖更多信息。
本发明中得到最优k个查询松弛的处理步骤如图2所示。
S1,为查询图Q的节点中出现的每一个标签li生成一系列常数μ松弛距离范围内的标签松弛Li,由所有Li构成的标签松弛列表的集合为
Figure BDA0001349251660000087
而后调用生成最优结构排序查询松弛方法得到在
Figure BDA0001349251660000088
范围内的最优查询松弛Δ1,然后将最优查询松弛Δ1
Figure BDA0001349251660000089
作为二元组一起压入堆栈
Figure BDA00013492516600000810
中,所述堆栈
Figure BDA00013492516600000811
为查询松弛和标签松弛列表集合组成的二元组构成的堆栈,进入S2;
S2,判断堆栈
Figure BDA00013492516600000812
是否为空或者已经生成k个查询松弛,如果判断为是,则返回LTR作为最优k个结构排序查询松弛结果,如果判断为否,则进入S3;
S3,从堆栈
Figure BDA00013492516600000813
中弹出栈顶查询松弛ΔK和其空间
Figure BDA00013492516600000814
将ΔK放进结果列表LTR中,作为第|LTR|优的查询松弛,|LTR|指结果列表LTR中存储的元素个数,进入S4;
S4,根据ΔK
Figure BDA0001349251660000091
生成
Figure BDA0001349251660000092
的可行解子空间
Figure BDA0001349251660000093
进入S5;
S5,在每个子空间
Figure BDA0001349251660000094
中采用最优结构排序查询松弛方法生成可行解空间
Figure BDA0001349251660000095
中的最优查询松弛Δi,将Δi
Figure BDA0001349251660000096
作为二元组一起压入堆栈
Figure BDA0001349251660000097
中,进入S2;
在生成最优结构排序查询松弛方法中,给定查询图Q,数据图G,和标签松弛列表的集合
Figure BDA0001349251660000098
m为正整数,该方法从每个列表Li中选取
Figure BDA0001349251660000099
值最小的δ,组合作为当前可行解空间
Figure BDA00013492516600000910
中最优的查询松弛。
在生成最优差异查询松弛中,本发明利用最大分散问题的解决方法来生成最优k个差异查询松弛。最大分散问题是从一个有权重完全图Gc中查找一个由k个节点集合构成的生成子图G′c,并且这个子图边上的权重之和是所有可能的k节点生成子图中最大的。本发明如何将最优k个差异查询松弛问题归约到最大分散问题进行解决的实施例如下所述。
给定查询图Q,数据图G,语义图T,常数μ和k,构建最大分散问题的权重完全图Gc。其中,每个Q的常数μ距离内的查询松弛Δ都对应于Gc中的一个节点uΔ,而且对于Gc中任意两个节点
Figure BDA00013492516600000911
Figure BDA00013492516600000912
其连接边
Figure BDA00013492516600000913
的权重w(e)为
Figure BDA00013492516600000914
其中,
Figure BDA00013492516600000915
U是Q的常数μ距离内所有查询松弛的集合。至此,由于w(e)>0,所以规约方法构建的权重图Gc是最大分散问题的一个实例。可以看出一个由Gc中k个节点构成的节点集合Vk对应于Q的k个查询松弛。
Sk是Vk对应的Q的k个查询松弛,由Vk构成的生成图所有边的权重和Wk
Figure BDA0001349251660000101
其中,
Figure BDA0001349251660000102
如果Vk是最大分散问题的权重图Gc的最优解,那么Wk在Gc中所有可能的k节点生成子图中的权重值最大。因此,
Figure BDA0001349251660000103
是最优k个差异查询松弛问题中Q的所有可能k个查询松弛集合中的最小值。
本发明中,如果最大分散问题的解决方法能够得出该问题的准确结果(节点集合
Figure BDA0001349251660000104
),那么该节点集合
Figure BDA0001349251660000105
对应的Q的k个查询松弛就是最优k个差异查询松弛集合。
在获得松弛查询图
Figure BDA0001349251660000106
在G中的图匹配结果时,最直接的方法是将这k个松弛查询图一个接一个在G上获得图匹配结果。然而,这k个松弛查询图具有完全相同的拓补结构,以及松弛查询图相互之间有很多相同标签,本发明基于批处理优化技术的高效图匹配查询方法来同时获得最优k个松弛查询图的匹配结果。该方法考虑语义图模拟的特征,最大化共享k个松弛查询图之间的重叠部分。批处理查找k个松弛查询图的图匹配的主要步骤为:
批处理图匹配查询包括:步骤1,构建最小匹配树
Figure BDA0001349251660000107
该树状结构旨在将k个查询松弛按两两共享处理和层次迭代方式组织起来;步骤2,有界增量语义图模拟处理,按照最小匹配树的组织结构以共享处理方式得到k个松弛查询图的匹配结果
最小匹配树构建中查询图Q的k个查询松弛Δ1,...,Δk的最小匹配树
Figure BDA0001349251660000108
是由k个查询松弛构成的一个层状结构,其结构包括:(1)
Figure BDA0001349251660000109
的每个节点都是一个查询松弛。(2)
Figure BDA00013492516600001010
有k个叶子节点(第0层),每个叶子节点都对应于k个查询松弛Δ1,...,Δk中的一个。(3)第i+1层的节点是第
Figure BDA00013492516600001011
层查询松弛的最小匹配。所述查询松弛Δ1,...,Δn的匹配是指一个
Figure BDA0001349251660000111
个查询松弛
Figure BDA0001349251660000112
的集合P使得(i)第i+1层的每一个查询松弛
Figure BDA0001349251660000113
是第i层两个查询松弛Δp和Δq(p,q∈[1,n])的联合查询松弛,i为正整数,Δ′j是将Δp和Δq中所有的标签松弛合并使得如果有两个标签松弛作用于同一个标签,那么该标签被松弛至语义图中层次更高的标签,并且(ii)满足条件如果j≠j′,那么Δ′j和Δ′j′对应于两个不同的查询松弛。
如果n个查询松弛集合S=Δ1,...,Δn的匹配P是最小匹配,那么下式在所有匹配中是最小的。
Figure BDA0001349251660000114
其中,Δi∈Δ′(i=1,2)表示Δ′合并Δ1和Δ2,cand(G,T)(l)表示G中所有标签为及其子孙标签的节点,即f(v)∈descT(l)。
最小匹配P将查询松弛集合S中的查询松弛两两配对,使得可以先得到P中松弛查询图在G中的图匹配结果,而后再由该结果恢复得到S中松弛查询图的结果,从而可以实现两两松弛查询图之间的共享处理。另外,最小匹配树可以进一步将这些最小匹配集合内的共享处理以层次关系迭代组织起来,从而最大化共享处理以达到全局处理量最小。
有界增量语义图模拟处理:在构建完毕最小匹配树
Figure BDA0001349251660000115
后,批处理图匹配查询方法沿着
Figure BDA0001349251660000116
从根节点到叶节点,获得所有松弛查询图在G中的图匹配结果。对于
Figure BDA0001349251660000117
中每一个节点u,批处理方法通过重复利用u的父节点pre(u)中的松弛查询图已得到的匹配结果来增量得到u中的松弛查询图的图匹配结果,最终得出
Figure BDA0001349251660000118
中所有叶节点对应的松弛查询图的图匹配结果。
在得到最优k个松弛查询图在G中的图匹配结果后,进行溯源解释松弛查询图查询结果,即分析出G中某些节点在查询图Q松弛为Q′后能够被查询得到,以及由Q到Q′的标签松弛中哪些是得到这些匹配节点所必须的。
最小松弛溯源解释:给定查询图Q,数据图G,语义图T,查询松弛Δ,
Figure BDA0001349251660000121
在数据图G中的图匹配查询结果
Figure BDA0001349251660000122
中的一个节点v,v和Δ的一个溯源解释εΔ(v)是Δ的一个子集,使得v属于
Figure BDA0001349251660000123
可以看出,εΔ(v)利用Δ的子集解释了为什么v在
Figure BDA0001349251660000124
中。v和Δ的最溯源小解释
Figure BDA0001349251660000125
是v和Δ的所有溯源解释中元素数目最小的溯源解释,所以
Figure BDA0001349251660000126
是Δ中的必需部分使得节点v可以被
Figure BDA0001349251660000127
查询得出。
松弛溯源解释问题:给定查询图Q,数据图G,语义图T,k个查询松弛Δ1,...,Δk以及他们在数据图G中的图匹配查询结果
Figure BDA0001349251660000128
常数i∈[1,k],以及
Figure BDA0001349251660000129
中节点v,松弛溯源解释问题即为得到v和Δi的最小松弛溯源解释
Figure BDA00013492516600001210
松弛溯源解释问题通过找到查询松弛中的必要部分,来向用户解释为什么一个松弛查询图的图匹配结果中指定节点能够被查询得到的原因。根据最优k个查询松弛和最优k个差异查询松弛问题生成的两种查询松弛集合,本发明采用两种手段来分别进行两种问题下的松弛溯源解释。
针对最优k个查询松弛溯源解释方法:我们发现在结构排序下生成的k个松弛查询图在数据图中查询得到的图匹配结果中,v和Δ的最小溯源解释
Figure BDA00013492516600001211
一定属于k个查询松弛中的某个查询松弛。因此只要线性扫描一遍k个松弛查询图在数据图G中的k个图匹配查询结果,即可找到Δi是v和Δ的最小溯源解释当且仅当v属于
Figure BDA00013492516600001212
并且Δi中元素数目最小。这种方法是最优处理方法,因为该方法仅仅扫描一遍所有输入即可找到输出结果。
针对最优k个差异查询松弛溯源解释方法:不同于最优k个查询松弛的溯源解释方法,线性扫描无法解释在差异结构排序下生成的k个松弛查询图在数据图中查询得到的图匹配结果。因此本发明采用一种参数处理方法,即用户给定一个参数M,该参数可以平衡处理得到溯源解释的准确度以及处理时间,用户输入的参数数值越大,那么处理得到的溯源解释越准确,相应处理时间也会增加。该方法进行v和Δi的最小溯源解释,其过程分为以下两步。步骤1:从k个查询松弛中找到元素数目最小的查询松弛Δj(j∈[1,k]),使得(a)
Figure BDA0001349251660000131
并且(b)
Figure BDA0001349251660000132
步骤2:按cand(G,T)(l′)降序依次测试Δj中的标签松弛δ=l→l′,依次验证v是否属于
Figure BDA0001349251660000133
如果验证为是则从Δj中去掉δ,所述cand(G,T)(l′)是G中所有标签为l′及其子孙标签的节点,如果验证为否,则不对Δj进行操作,如果Δj\{δ}不属于k个查询松弛之一,则调用语义图模拟查询方法得到图匹配结果
Figure BDA0001349251660000134
并进行计数,当测试完Δj中所有剩余的标签松弛或者已经处理达到M次语义图模拟查询处理,则返回Δj作为v和Δi的溯源解释,M为正整数。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于查询松弛技术的图匹配查询方法,包括:第一步,制定松弛排序方法并生成相应排序方法下最优k个松弛查询图,所述k为用户指定的正整数;第二步,将在第一步中得到的排序最优的k个松弛查询图同时在数据图上执行基于批处理优化的语义图模拟匹配查询,分别得到每个松弛查询图的查询结果;第三步,针对第二步排序下生成的松弛查询图在数据图上查询得到的图匹配查询结果提供溯源解释,所述数据图和所述查询图是由节点与边构成的有向图,表达实体和实体之间的链接关系,所述语义图是由节点与边构成的带根节点的树形图,其表达属性标签之间的语义从属关系。
2.如权利要求1所述的方法,其特征在于,得到所述最优k个松弛查询图的手段包括基于结构排序或差异结构排序,对于结构排序,利用用于解决最优k个组合优化问题的Lawler过程生成排序最优的k个松弛查询图;对于差异结构排序,利用最大分散问题的解决方法生成最优的k个差异松弛查询图。
3.如权利要求1所述的方法,其特征在于,所述批处理优化的语义图模拟匹配查询为进行多个图匹配查询的批处理优化,同时回答k个松弛查询图的结果,最大化共享k个查询图的处理量。
4.如权利要求2所述的方法,其特征在于,生成最优k个松弛查询图的所述结构排序的步骤包括,S1,为查询图Q的节点中出现的每一个属性标签li生成一系列常数μ松弛距离范围内的标签松弛列表Li,所述属性标签li之间存在属性语义从宽泛到细化的语义从属关系,当社交搜索中无法在数据图中查询得到查询图中指定的属性约束的图匹配结果时,将属性标签松弛至松弛距离范围内语义更宽泛的祖先属性标签再进行搜索,所述松弛距离范围内的属性标签包括祖先节点,从而具有更宽泛语义的祖先属性标签和具有其更细化语义的子孙属性标签的数据节点均可以被查询得到作为查询结果,增加了图匹配查询结果,由所有Li构成的标签松弛列表的集合为
Figure FDA0002681544980000021
而后调用生成最优结构排序查询松弛方法得到在
Figure FDA0002681544980000022
范围内的最优查询松弛Δ1,查询松弛为查询图中所有属性标签及其松弛后的属性标签组成的集合,然后将最优查询松弛Δ1
Figure FDA0002681544980000023
作为二元组一起压入堆栈
Figure FDA0002681544980000024
中,所述堆栈
Figure FDA0002681544980000025
为查询松弛和标签松弛列表组成的二元组构成的堆栈,进入S2;
S2,判断堆栈
Figure FDA0002681544980000026
是否为空或者已经生成k个查询松弛,如果判断为是,则返回LTR作为最优k个结构排序查询松弛结果,如果判断为否,则进入S3;
S3,从堆栈
Figure FDA0002681544980000027
中弹出栈顶查询松弛ΔK和其空间
Figure FDA0002681544980000028
将ΔK放进结果列表LTR中,作为第|LTR|优的查询松弛,|LTR|指结果列表LTR中存储的元素个数,进入S4;
S4,根据ΔK
Figure FDA0002681544980000029
调用Lawler过程得到
Figure FDA00026815449800000221
的子空间,进入S5;
S5,在得到的每个子空间中采用最优结构排序查询松弛方法生成最优查询松弛Δi,将Δi和子空间作为二元组一起压入堆栈
Figure FDA00026815449800000211
中,进入S2。
5.如权利要求4所述的方法,其特征在于,在最优结构排序查询松弛方法中,从每个列表Li中选取
Figure FDA00026815449800000212
值最小的标签松弛δ,组合作为当前可行解空间
Figure FDA00026815449800000213
中最优的查询松弛Δ,所述δ为标签松弛δ=l→l′,所述γQ(δ)为松弛比率,所述
Figure FDA00026815449800000214
为通过处理标签在数据图中的候选匹配节点数目来衡量δ的松弛效果,越小的
Figure FDA00026815449800000215
值表示松弛查询图更容易在数据图中找到匹配节点。
6.如权利要求2所述的方法,其特征在于,生成最优k个松弛查询图的所述差异结构排序中,构建最大分散问题的权重完全图Gc,每个查询图Q的常数μ距离范围内的查询松弛Δ都对应于Gc中的一个节点uΔ,对于任意两个节点
Figure FDA00026815449800000216
Figure FDA00026815449800000222
其连接边
Figure FDA00026815449800000218
的权重w(e)为
Figure FDA00026815449800000219
其中,Δ是一个查询松弛,Q为查询图,
Figure FDA00026815449800000220
U是Q的常数μ松弛距离内所有查询松弛的集合,ΘQ1,Δ2)为Δ1和Δ2的相似距离,用于衡量两个查询松弛之间松弛后属性标签的重合程度,其保证生成的属性标签松弛后的k个松弛查询图两两之间属性尽量少重合,从而k个松弛查询图在数据图中查询得到更多的不同的图匹配查询结果,
Figure FDA0002681544980000031
是Γ(Q,Δ)的正规函数,所述Γ(Q,Δ)是结构排序的度量函数,λ∈[0,1]是用户输入的平衡参数,用于平衡控制松弛程度和差异程度,由Gc中k个节点构成的节点集合Vk构成的生成图所有边的权重和Wk
Figure FDA0002681544980000032
Figure FDA0002681544980000033
其中,Sk是Vk对应的Q的k个查询松弛,采用最大分散问题的解决方法可以得到Wk的最大值,即可以得到
Figure FDA0002681544980000034
是Q的所有可能k个查询松弛集合中差异结构排序的度量函数的最小值,从而得到节点集合Vk,其对应的Q的k个查询松弛即为最优k个差异查询松弛集合。
7.如权利要求1所述的方法,其特征在于,所述基于批处理优化的语义图模拟匹配查询的过程包括,构建最小匹配树,树状结构将k个查询松弛按两两共享处理和层次迭代方式组织起来,并进行有界增量语义图模拟处理,有界增量语义图模拟处理基于所述最小匹配树的组织结构按共享处理方式自顶向下增量处理得到k个松弛查询图的匹配结果。
8.如权利要求1所述的方法,其特征在于,在所述溯源解释中,对于结构排序下生成的k个松弛查询图在数据图中查询得到的图匹配结果,线性扫描一遍k个松弛查询图在数据图中的k个图匹配查询结果;对于差异结构排序中生成的k个松弛查询图在数据图中查询得到的图匹配结果,为图匹配结果
Figure FDA0002681544980000035
中匹配节点v提供溯源解释,采用参数设定方式,从k个查询松弛中找到元素数目最小的查询松弛Δj,使得
Figure FDA0002681544980000036
并且
Figure FDA0002681544980000037
所述i,j∈[1,k],Q为查询图,G为数据图,T为语义图,v为节点,
Figure FDA0002681544980000038
为Q和Δ的松弛查询图,按cand(G,T)(l′)降序依次测试Δj中的标签松弛δ=l→l′,依次验证v是否属于
Figure FDA0002681544980000041
如果验证为是,则从Δj中去掉δ,所述cand(G,T)(l′)是G中所有标签为l′及其子孙标签的节点,如果Δj\{δ}不属于k个查询松弛之一,则调用语义图模拟查询方法得到图匹配结果
Figure FDA0002681544980000042
并进行累加计数,当测试完Δj中所有剩余的标签松弛或者已经处理达到M次语义图模拟查询处理,则返回Δj作为v和Δi的溯源解释。
CN201710569486.4A 2017-07-13 2017-07-13 一种基于查询松弛结果增强的图匹配查询方法 Active CN107451210B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710569486.4A CN107451210B (zh) 2017-07-13 2017-07-13 一种基于查询松弛结果增强的图匹配查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710569486.4A CN107451210B (zh) 2017-07-13 2017-07-13 一种基于查询松弛结果增强的图匹配查询方法

Publications (2)

Publication Number Publication Date
CN107451210A CN107451210A (zh) 2017-12-08
CN107451210B true CN107451210B (zh) 2020-11-20

Family

ID=60488632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710569486.4A Active CN107451210B (zh) 2017-07-13 2017-07-13 一种基于查询松弛结果增强的图匹配查询方法

Country Status (1)

Country Link
CN (1) CN107451210B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108335120A (zh) * 2018-03-07 2018-07-27 物数(上海)信息科技有限公司 基于区块链的资产溯源方法、装置、电子设备、存储介质
CN109492111B (zh) * 2018-09-19 2023-05-30 平安科技(深圳)有限公司 最短路径查询方法、***、计算机设备和存储介质
CN113254718B (zh) * 2020-02-13 2023-08-29 南京大学 一种图数据上的语义关联搜索的查询松弛方法
CN113626678A (zh) * 2020-05-06 2021-11-09 北京大学 基于动态次优最小生成树的知识图谱数据挖掘与推荐方法
CN112559807B (zh) * 2020-12-03 2022-06-21 浙江邦盛科技股份有限公司 一种基于多源点并行探索的图模式匹配方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043866A (zh) * 2011-01-25 2011-05-04 苏州普达新信息技术有限公司 基于表单特征的松弛搜索与优化排序方法
US8005817B1 (en) * 2005-11-30 2011-08-23 At&T Intellectual Property Ii, L.P. System and method for providing structure and content scoring for XML
CN105335524A (zh) * 2015-11-27 2016-02-17 中国科学院自动化研究所 一种应用于大规模非规则结构数据的图搜索算法
CN105975488A (zh) * 2016-04-25 2016-09-28 哈尔滨工程大学 一种关系数据库中基于主题类簇单元的关键词查询方法
CN106055653A (zh) * 2016-06-01 2016-10-26 深圳市唯特视科技有限公司 基于图像语义注释的视频浓缩对象检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8005817B1 (en) * 2005-11-30 2011-08-23 At&T Intellectual Property Ii, L.P. System and method for providing structure and content scoring for XML
CN102043866A (zh) * 2011-01-25 2011-05-04 苏州普达新信息技术有限公司 基于表单特征的松弛搜索与优化排序方法
CN105335524A (zh) * 2015-11-27 2016-02-17 中国科学院自动化研究所 一种应用于大规模非规则结构数据的图搜索算法
CN105975488A (zh) * 2016-04-25 2016-09-28 哈尔滨工程大学 一种关系数据库中基于主题类簇单元的关键词查询方法
CN106055653A (zh) * 2016-06-01 2016-10-26 深圳市唯特视科技有限公司 基于图像语义注释的视频浓缩对象检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于概念松弛的高效Web服务查询方法;欧伟杰 等;《计算机学报》;20111215;第34卷(第12期);2381-2390 *
大数据时代的图搜索技术;马帅 等;《信息通信技术》;20131215(第6(2016)期);44-51 *

Also Published As

Publication number Publication date
CN107451210A (zh) 2017-12-08

Similar Documents

Publication Publication Date Title
CN107451210B (zh) 一种基于查询松弛结果增强的图匹配查询方法
Gurumoorthy et al. Efficient data representation by selecting prototypes with importance weights
Singh Scalability and sparsity issues in recommender datasets: a survey
US10622098B2 (en) Systems and methods for predicting chemical reactions
Nikitin et al. Automated evolutionary approach for the design of composite machine learning pipelines
Olteanu et al. On-line relational and multiple relational SOM
WO2019015246A1 (zh) 图像特征获取
US20170330078A1 (en) Method and system for automated model building
Xie et al. Factorization machine based service recommendation on heterogeneous information networks
Ye et al. Variable selection via penalized neural network: a drop-out-one loss approach
Liu et al. Hierarchical adaptive pooling by capturing high-order dependency for graph representation learning
Gao et al. CNL: collective network linkage across heterogeneous social platforms
Seret et al. A new knowledge-based constrained clustering approach: Theory and application in direct marketing
Huang et al. Information fusion oriented heterogeneous social network for friend recommendation via community detection
Leon-Alcaide et al. An evolutionary approach for efficient prototyping of large time series datasets
Chen et al. DPM-IEDA: dual probabilistic model assisted interactive estimation of distribution algorithm for personalized search
CN112905906B (zh) 一种融合局部协同与特征交叉的推荐方法及***
CN114896514B (zh) 一种基于图神经网络的Web API标签推荐方法
Bahrami et al. Automatic image annotation using an evolutionary algorithm (IAGA)
Qayyum et al. A survey on machine learning based requirement prioritization techniques
Han et al. A generalization of recurrent neural networks for graph embedding
Grando et al. Computing vertex centrality measures in massive real networks with a neural learning model
Peng et al. TH-SLP: Web service link prediction based on topic-aware heterogeneous graph neural network
Zhang et al. Imbalanced networked multi-label classification with active learning
Oluigbo et al. Decision-based sampling for node context representation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant