CN104391908B

CN104391908B - 一种图上基于局部敏感哈希的多关键字索引方法

Info

Publication number: CN104391908B
Application number: CN201410655506.6A
Authority: CN
Inventors: 韩京宇; 陈可佳; 曾建辉
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2014-11-17
Filing date: 2014-11-17
Publication date: 2019-03-05
Anticipated expiration: 2034-11-17
Also published as: CN104391908A

Abstract

本发明公开了一种图上基于局部敏感哈希的多关键字索引方法，属于图数据(graph data)管理技术领域，该方法是双层索引来支持图上的多关键字查询。若干图根据顶点关键字在n‑gram空间聚类后，根据聚簇结构构建上层的位图和下层的局部敏感哈希表：上层的位图根据关键字包含的粗粒度的n‑gram(n个连续字母构成的字符串)实现图到类簇的映射；下层的每个类簇对应一个局部敏感哈希表，哈希表的桶中包含细粒度的n‑gram对应的候选图。该索引具有如下优势：(1)查询I/O和关键字个数独立，显著减少多关键字查询的I/O次数，加快查询速度；(2)不同粒度的n‑gram相结合，有效避免索引对拼写错误敏感，提高了概率返回期望的结果。

Description

一种图上基于局部敏感哈希的多关键字索引方法

技术领域

本发明涉及一种图上基于局部敏感哈希的多关键字索引方法，属于图数据管理技术领域。

背景技术

近年来，万维网、社会网络、生物医学、化合物分子结构等领域积累了大量关联复杂的数据，其结构通常抽象为图。为了实现信息获取和分析，图上的关键字查询是一个基本问题。目前图上关键字查询存在以下问题：(1)由于图数据关系复杂，查询分析时经常涉及多个关键字。目前图关键字索引主要基于倒排表及其变体，要依次读取每个(对)关键字对应的候选图，I/O随着关键字个数线性增长，查询效率不高；(2)图数据的索引常假定数据及查询精确且完整，实际无论是图数据还是用户查询，经常会有个别字母拼写错误，这时无法利用索引得到查询结果。

有两种支持图关键字查询的方案，一种方案将图的顶点和边作为记录存储到关系数据库，利用多表连接获得查询结果。Banks是第28届国际大数据库会议(InternationalConference on Very Large Data Bases,VLDB)上《BANKS:Browsing and keywordsearching in relational databases》提出的***，该***利用关系数据库的多表连接实现关键字检索和浏览。DBXplorer是第18届国际数据工程(International Conference onData Engineering，ICDE)会议《DBXplorer:A system for keyword-based search overrelational databases》提出的支持图关键字查询的***，该***提供图形界面，用户交互式地对图结构数据进行关键字查询。另外一种方案直接在图上建索引实现关键字查询支持。EASE是《Information Systems》杂志第36卷第2期提出的一种支持图结构数据的通用索引，它分别将关系表、文档和XML元素当作图的顶点，将主外键、IDERF和超链接当作图的边，构建倒排表支持关键字查询。2007年SIGMOD会议上，《BLINKS:Ranked Keyword Searcheson Graphs》一文提出Blinks双层索引，通过块索引(block index)和块内索引(intra-block index)支持图上的关键字查询。专利《基于Datalog的分布式环境下大图数据查询方法》(申请号CN201210210245，公开号CN102799624A)的发明设计了一种基于Datalog的分布式环境下大图数据查询方法，它利用等价规则和统计数据，提高大图查询执行计划的效率。专利《一种基于邻接节点树的网络图索引方法》(申请号：CN201210063543，公开号：CN102662974B)公开了一种在大型网络图中基于邻接节点树的子图查询方法，该发明利用节点间的邻接关系构建索引树，并以邻接节点树作为大型网络图的索引特征实现子图查询。但这些工作未涉及如何减少多关键字查询I/O的问题。

局部敏感哈希(Locality Sensitive Hashing，LSH)是一种解决近似查询的有效技术，其基本思想是把相似的数据对象以高的概率哈希到相同桶中,非相似的数据对象几乎不被哈希到相同的桶中。查询时，把冲突桶中的数据对象作为候选集。针对不同应用需求和相似性度量,目前提出了多种哈希技术。针对高维数据的余弦相似度计算,文献《Compactprojection:Simple and efficient near neighbor search with practical memoryrequirements》(Proc.of the IEEE Computer Society Conf.on Computer Vision andPattern Recognition,San Francisco:IEEE Computer Society,2010:3477-3484)提出了随机投影敏感哈希函数族。对基于集合的雅可比相似度，文献《On the resemblance andcontainment of documents》(Proc.of the 1997 International Conference onCompression and Complexity of Sequences.Positano:IEEE Computer Society,1997:21-29)提出了最小哈希(Min-Hash)技术,用于近似计算集合数据的相似度。专利《基于加权编辑距离的模糊关键字查询方法及***》(申请号：CN201010240402，公开号:CN101916263B)设计了一种基于加权编辑距离的模糊关键字查询方法，可以更有效地返回用户真实查询的数据，提高用户的满意度。但目前缺少如何应用局部敏感哈希解决图上的多关键字查询的工作。

以上两个方面的工作没有涉及如何有效地支持多关键字查询，减少磁盘I/O的问题，也没有涉及查询时对关键字拼写错误过分敏感的问题。而本发明能够很好地解决上面的问题。

发明内容

本发明目的在于提供了一种图上基于局部敏感哈希的多关键字索引方法，该方法支持图上的多关键字查询，并且该方法解决了关键字容错、位图和局部敏感哈希相结合的双层索引问题。

本发明解决其技术问题所采取的技术方案是：本发明提供了一种图上基于局部敏感哈希的多关键字索引方法，该方法支持图关键字查询的、基于粗粒度n-gram(即：n个连续字母构成的字符串)的位图索引，图经过聚类后，每个类簇用一个粗粒度的n-gram位串来表征，查询时，根据关键字的粗粒度位串和类簇位图的匹配结果识别候选类簇，包括以下三个步骤：

步骤1：类簇位图表示；根据图顶点包含的关键字，将所有图映射到一个粗粒度的n-gram空间，如果n-gram空间共有N个不同的n-gram，每个类簇对应一个长度为n的位串，类簇对应的关键字如果包含第i个n-gram，则位串对应的位为1，否则为0，所有类簇的位串构成位图，记为BT；

步骤2：查询位串表示；根据步骤1的n-gram空间，构建多关键字查询位串Q，查询的关键字包含某个n-gram，则查询位串对应的位为1，否则为0；

步骤3：类簇匹配；如果位图BT中某个位串恰好涵盖查询位串Q中所有为1的位，则该位串的对应类簇是候选类簇。

本发明的磁盘访问次数独立于关键字个数，有效减少了磁盘I/O，使用该索引分成以下两个步骤：

步骤1：哈希索引构建；在一个类簇中，给定图的所有关键字组合{CM₁,…,CM_i,…,CM_n}，一个关键字组合CM_i＝(w¹,…,w^j,…,w^m)，w^j代表关键字，设CM_i对应的细粒度n-gram集合记为NG(CMi)＝(g¹,…,g^j,…,g^M)，g^j是一个细粒度的n-gram；给定一个局部敏感哈希函数族的k个哈希函数{h₁,…,h_j,…,h_k}，每个哈希函数h_j对应一个哈希表T_j，每个哈希函数hj作用于NG(CMi)的M个n-gram上，计算出哈希值，将CM_i对应的图存储到T_J相应桶中；

步骤2：查询关键字匹配；在细粒度的n-gram空间，查询Q的多个关键字表征为NG(Q)＝{q¹,…,q^j,…,qⁿ}，q^j代表一个细粒度的n-gram，根据步骤1的k个哈希函数{h₁,…,h_j,…,h_k}，将Q分别映射到k张哈希表T₁,…,T_j,…,T_k上，在冲突的桶上获取匹配图。

本发明应用于关联复杂数据，如链接的Web网页、社会网络、蛋白质交互网络等图结构数据的存储和查询。

有益效果：

1、本发明查询I/O次数和关键字个数独立，避免了I/O随关键字个数线性增长，提高了查询效率。

2、本发明能够对关键字容错，即便图顶点或查询关键字有拼写错误，仍以高的概率返回候选匹配图。

附图说明

图1本发明的方法流程图。

图2为本发明的类簇和对应关键字示例图。

图3为本发明的双层索引示例图。

图4查询时的哈希过程示例图。

具体实施方式

下面结合说明书附图，对本发明的优选实施例进行详细描述。

如图1所示，本发明提供了一种图上基于局部敏感哈希的多关键字索引方法，该方法支持图关键字查询的、基于粗粒度n-gram(即：n个连续字母构成的字符串)的位图索引，图经过聚类后，每个类簇用一个粗粒度的n-gram位串来表征，查询时，根据关键字的粗粒度位串和类簇位图的匹配结果识别候选类簇，包括以下三个步骤：

步骤1：哈希索引构建；在一个类簇中，给定图的所有关键字组合{CM₁,…,CM_i,…,CM_n}，一个关键字组合CM_i＝(w¹,…,w^j,…,w^m)，w^j代表关键字，设CM_i对应的细粒度n-gram集合记为NG(CMi)＝(g¹,…,g^j,…,g^M)，gj是一个细粒度的n-gram；给定一个局部敏感哈希函数族的k个哈希函数{h₁,…,h_j,…,h_k}，每个哈希函数h_j对应一个哈希表T_j，每个哈希函数hj作用于NG(CMi)的M个n-gram上，计算出哈希值，将CM_i对应的图存储到T_J相应桶中；

如图2所示，本发明假设共有6张图结构数据G₁、G₂、G₃、G₄、G₅和G₆，其包含的关键字分别是kw(G₁)＝{operating system,process,task schedule,real time}，kw(G₂)＝{operating system,process,batch processing}，kw(G₃)＝{database,big data,query,cloud computing}，kw(G₄)＝{data,query,cloud computing}，kw(G₅)＝{graph database,data,query,rdf data}和kw(G₆)＝{relation model,data,query,rdf data}，被分成两个类簇，C₁＝{G₁G₂}和C₂＝{G₃G₄G₅G₆}。

根据上述数据，构建如图3所示的双层索引：上层是位图索引(本例子以2-gram为粗粒度n-gram)，如果C₁对应的单元格为1，表示C₁中关键字包含该2-gram，例如’op’,’pe’,’er’,’ra’等；如果C₁对应的单元格为0，表示C₁中关键字不包含该2-gram，例如’qu’,’ue’,’er’和’ry’等；下层是局部敏感哈希索引，假定有k个哈希函数，则每个类簇内部有k张哈希表，不妨记为T₁,…,T_k。

设哈希表取3-gram作为细粒度的n-gram(注意：哈希表的n-gram要长于上层位图采用的n-gram)，下面以局部敏感哈希函数h₁为例，介绍哈希表T₁的构建过程：(1)将一张图的一个关键字组合的每个关键字取其所有的3-gram，将这个关键字组合的所有3-gram当作一个集合；(2)对集合中每个3-gram，计算其模值，模值＝(每个字符对应ASCII码的和)mod10；(3)取最小模值作为最终的哈希函数值，根据此哈希值将图映射到对应的桶中。据此可以创建第一张哈希表T₁，如图4所示意。

给定多关键字查询Q＝{query,database,rdf}，根据哈希函数h₁，查询结果的计算过程如下：

(1)计算Q的所有3-gram，记为：

NG(Q)＝{que,uer,ery,dat,ata,tab,aba,bas,ase,rdf}；

(2)根据哈希函数h₁计算NG(Q)中每个3-gram的对应模值，即{7,5,4,3,4,8,9,6,5,6}，可知最小模值是3，这就是最终的哈希函数值。

(3)根据哈希函数值，将图映射到哈希表T₁对应的第4个桶(桶编号为3)，取候选图G₅和G₆。

Claims

1.一种基于局部敏感哈希的多关键字索引方法，其特征在于：所述方法的图经过聚类后，每个类簇用一个粗粒度的n-gram位串来表征，查询时，根据关键字的粗粒度位串和类簇位图的匹配结果识别候选类簇，包括如下步骤：

步骤1：类簇位图表示；

根据图顶点包含的关键字，将所有图映射到一个粗粒度的n-gram空间，如果n-gram空间共有N个不同的n-gram，每个类簇对应一个长度为n的位串，类簇对应的关键字如果包含第i个n-gram，则位串对应的位为1，否则为0，所有类簇的位串构成位图，记为BT；

步骤2：查询位串表示；

根据上述步骤1的n-gram空间，构建多关键字查询Q对应的位串，查询的关键字包含某个n-gram，则查询位串对应的位为1，否则为0；

步骤3：类簇匹配；

如果位图BT中某个位串恰好涵盖查询Q对应的位串中所有为1的位，则该位串的对应类簇是候选类簇；

所述方法的磁盘访问次数独立于关键字个数，有效减少了磁盘I/O，使用该索引分成以下两个步骤：

步骤1：哈希索引构建；在一个类簇中，给定图的所有关键字组合{CM₁,…,CM_i,…,CM_n}，一个关键字组合CM_i＝(w¹,…,w^j,…,w^m)，w^j代表关键字，设CM_i对应的细粒度n-gram集合记为NG(CM_i)＝(g¹,…,g^j,…,g^M)，CM_i表示一个关键字组合，g^j是一个细粒度的n-gram；给定一个局部敏感哈希函数族的k个哈希函数{h₁,…,h_j,…,h_k}，每个哈希函数h_j对应一个哈希表T_j，每个哈希函数h_j作用于NG(CM_i)的M个n-gram上，计算出哈希值，将CM_i对应的图存储到一个哈希表T_j相应桶中；

2.根据权利要求1所述的一种基于局部敏感哈希的多关键字索引方法，其特征在于：所述方法支持图关键字查询，基于粗粒度n-gram，即：n个连续字母构成的字符串的位图索引。

3.根据权利要求1所述的一种基于局部敏感哈希的多关键字索引方法，其特征在于：所述方法应用于关联复杂数据，即：链接的Web网页、社会网络、蛋白质交互网络的图结构数据的存储和查询。