CN104077297B - 基于本体的查询方法及装置 - Google Patents

基于本体的查询方法及装置 Download PDF

Info

Publication number
CN104077297B
CN104077297B CN201310102702.6A CN201310102702A CN104077297B CN 104077297 B CN104077297 B CN 104077297B CN 201310102702 A CN201310102702 A CN 201310102702A CN 104077297 B CN104077297 B CN 104077297B
Authority
CN
China
Prior art keywords
key
triple
value pair
checked
calculate node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310102702.6A
Other languages
English (en)
Other versions
CN104077297A (zh
Inventor
刘博�
李建强
刘春辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Priority to CN201310102702.6A priority Critical patent/CN104077297B/zh
Priority to JP2014045906A priority patent/JP5813156B2/ja
Priority to US14/203,765 priority patent/US20140297653A1/en
Publication of CN104077297A publication Critical patent/CN104077297A/zh
Application granted granted Critical
Publication of CN104077297B publication Critical patent/CN104077297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于本体的查询方法及装置,属于信息检索领域。所述方法包括:获取用户输入的待查询三元组,待查询三元组中的已知元素为查询条件,至少一个未知元素为查询对象;在每个计算节点存储的键值对中查找与查询条件相匹配的键值对,并在相匹配的键值对的键值所包含的三个元素中确定查询对象对应的元素,得到在每个计算节点确定的元素;根据在每个计算节点确定的元素获取查询结果。本发明通过将本体构建为键值对并存储在多个计算节点中,根据查询条件和查询对象在键值对中查找相匹配的元素从而得到查询结果,由于键值对之间相互独立,可以进行匹配查找,避免了较为复杂的推理运算,查询速度较快,且本体增大对查询速度的影响较小。

Description

基于本体的查询方法及装置
技术领域
本发明涉及信息检索领域,特别涉及一种基于本体的查询方法及装置。
背景技术
数据查询是一种获取期望数据的重要手段,在传统的查询方法中,用户输入查询关键字后,计算节点将查询关键词与数据库中的数据直接匹配,得到查询结果。例如,用户输入查询关键词“张三”后,计算节点会将与“张三”直接匹配的数据库中的数据返回给用户,如张三的照片、个人网站或论文等。然而,当用户期望获得更精确的查询结果时,如期望查询张三的联系地址时,通过传统的查询方法往往不能实现。为了向用户提供更精确的查询结果,目前提出了一种基于本体的查询方法。本体是对真实世界中的实体及实体之间的关系的描述,描述本体的方式有多种,RDF(Resource Description Framework,资源描述框架)是其中一种使用范围较广的方式。RDF描述的本体由多个三元组构成,一个三元组由三个元素组成:资源、属性值和属性,也称之为主体(Subject)、客体(Object)和描述主体和客体之间的关系的谓语(Predicate),并且,一个三元组的主体/客体/谓语可以是另一个三元组的主体/客体/谓语。将RDF描述的本体存储到计算节点中时,除了存储各个元素之外,为了使计算节点能够识别出各个元素之间的相互关系,还需要存储对应的一套逻辑关系,各个元素及其逻辑关系可以描述为如图1所示的RDF图的形式。由于基于本体的查询能够根据用户的查询关键字之间的关系返回更符合用户要求的查询结果,目前已成为了信息检索领域的研究热点。
2005年Li Chen,Amarnath Gupta和M.Erdem Kurul发表在InternationalConference on Management of Data,COMAD2005b上的文献《A Semantic-aware RDFQuery Algebra》中公布了一种基于本体的查询方法,该方法包括:预先将RDF描述的本体以RDF图的形式存储在一个计算节点中,其中包括RDF的各个元素及对应的逻辑关系;获取用户输入的待查询三元组,待查询三元组中的已知元素为查询条件,未知元素为查询对象;从RDF图中任选一个元素,根据预先存储的逻辑关系推理出该RDF图中的元素在三元组中的位置,如果该RDF图中的元素与查询条件中任一个已知元素在三元组中的位置相同,则将该已知元素与该RDF图中的元素比较;之后以该RDF图中的元素为起点,根据逻辑关系推理出与该已知元素在三元组中的位置相同的RDF图中的下一元素,将该已知元素与RDF图中的下一元素进行比较,直至遍历整个RDF图,记录与该已知元素相匹配的RDF图中的元素;根据该已知元素在三元组中的位置,通过逻辑关系推理出相匹配的RDF图中的元素所处的三元组;并根据查询条件中其余已知元素在确定的三元组中确定查询条件对应的三元组;从查询条件对应的三元组中确定查询对象对应的元素,并将确定的元素作为查询结果。
例如,在一个计算节点上预先存储有如图1所示的RDF图,RDF图中包括RDF的各个元素及对应的逻辑关系;当用户期望查询张三的联系地址时,输入待查询三元组(S=张三,P=联系地址,O=?)到计算节点,其中,待查询三元组中的已知元素主体“张三”和谓语“联系地址”为查询条件,未知元素客体O为查询对象;计算节点在获取用户输入的待查询三元组后,任选一个元素“科技周刊”为起点,根据预先存储的逻辑关系推理出元素“科技周刊”为主体,则将查询条件中的已知元素主体“张三”与“科技周刊”比较;以“科技周刊”为起点,继续根据逻辑关系推理出下一个为主体的元素,并将推理出的元素与已知元素主体“张三”比较,直至遍历整个RDF图;记录与已知元素主体“张三”相匹配的RDF图中的元素主体“张三”;通过逻辑关系推理出元素主体“张三”所处的三元组为;根据另一已知元素谓语“联系地址”确定查询条件对应的三元组为,根据查询对象从确定的三元组中确定查询对象对应的元素为客体“梧桐路32号”,并将客体“梧桐路32号”作为查询结果。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
在现有技术提供的基于本体的查询方法中,由于RDF描述的本体以RDF图的形式存储,在遍历查找RDF图中的每个元素时,需要根据RDF图中每个元素之间的逻辑关系进行推理运算从而遍历RDF图,因此,遍历RDF图所需的时间较长,导致查询速度较慢;并且为了在遍历RDF图时推理逻辑不中断,通常需要将RDF图存储在一个计算节点上,当RDF图不断增大时,RDF图的逻辑关系也更复杂,推理所需的时间更长,查询速度将会大幅度下降。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种基于本体的查询方法及装置。所述技术方案如下:
一方面,提供了一种基于本体的查询方法,其中,多个计算节点中分别存储有根据RDF描述的本体的三元组构建的多个键值对,每个键值对包含一个键和一个键值,所述键值包含所述三元组的三个元素,所述键包含所述三元组的三个元素中的一个元素,所述方法包括:
获取用户输入的至少一个待查询三元组,所述待查询三元组中的已知元素为查询条件,所述待查询三元组中的至少一个未知元素为查询对象;
在每个计算节点存储的键值对中查找与所述查询条件相匹配的键值对,并在相匹配的键值对的键值所包含的三个元素中确定所述查询对象对应的元素,得到在所述每个计算节点确定的所述查询对象对应的元素;
根据在所述每个计算节点确定的所述查询对象对应的元素获取查询结果。
具体地,所述待查询三元组中的已知元素为一个,所述查询条件为所述待查询三元组中的一个已知元素,所述在每个计算节点存储的键值对中查找与所述查询条件相匹配的键值对,包括:
在每个计算节点存储的键值对的键中查找与所述查询条件的一个已知元素相匹配的键,并将所述相匹配的键所对应的键值对作为与所述查询条件相匹配的键值对。
具体地,所述待查询三元组中的已知元素为两个,所述查询条件为所述待查询三元组中的两个已知元素,所述在每个计算节点存储的键值对中查找与所述查询条件相匹配的键值对,包括:
在每个计算节点存储的键值对的键中查找与所述查询条件的其中一个已知元素相匹配的键;
在相匹配的键所对应的键值中查找与所述查询条件的另一个已知元素相匹配的键值,并将所述相匹配的键值所对应的键值对作为与所述查询条件相匹配的键值对。
具体地,所述根据在所述每个计算节点确定的所述查询对象对应的元素获取查询结果,包括:
将在所述每个计算节点确定的所述查询对象对应的元素进行合并,得到查询结果。
具体地,所述待查询三元组中的已知元素为两个,所述查询条件为所述待查询三元组中的两个已知元素,所述在每个计算节点存储的键值对中查找与所述查询条件相匹配的键值对,包括:
在每个计算节点存储的键值对的键中查找与所述查询条件的其中一个已知元素相匹配的键,并查找与查询条件的另一个已知元素相匹配的键,将与所述其中一个已知元素和另一个已知元素相匹配的键所对应的键值对作为与所述查询条件相匹配的键值对。
具体地,所述根据在所述每个计算节点确定的所述查询对象对应的元素获取查询结果,包括:
将在所述每个计算节点确定的所述查询对象对应的元素按照所述查询条件的已知元素进行划分,得到根据所述查询条件的每个已知元素获取到的所述查询对象对应的元素;
将根据所述查询条件的每个已知元素获取到的所述查询对象对应的元素取交集,得到查询结果。
具体地,所述待查询三元组为多个,所述根据在所述每个计算节点确定的所述查询对象对应的元素获取查询结果,包括:
根据每个待查询三元组之间的关系及每个待查询三元组在所述每个计算节点确定的所述查询对象对应的元素获取查询结果。
具体地,所述根据每个待查询三元组之间的关系及每个待查询三元组在所述每个计算节点确定的所述查询对象对应的元素获取查询结果,包括:
如果所述每个待查询三元组之间的关系为与的关系,则将每个待查询三元组在所述每个计算节点确定的所述查询对象对应的元素取交集,得到查询结果;
如果所述每个待查询三元组之间的关系为或的关系,则将每个待查询三元组在所述每个计算节点确定的所述查询对象对应的元素取并集,得到查询结果。
进一步地,所述方法还包括:
根据RDF描述的本体的三元组构建多个键值对,并将构建的多个键值对存储在多个计算节点中。
具体地,所述将构建的多个键值对存储在多个计算节点中,包括:
如果构建的多个键值对中存在键及其对应的键值都相同的至少两个键值对,则在计算节点中存储相同的至少两个键值对中的一个键值对。
具体地,所述将构建的多个键值对存储在多个计算节点中,包括:
将构建的多个键值对中键相同的键值对存储在同一个计算节点中。
另一方面,提供了一种基于本体的查询装置,其中,多个计算节点中分别存储有根据RDF描述的本体的三元组构建的多个键值对,每个键值对包含一个键和一个键值,所述键值包含所述三元组的三个元素,所述键包含所述三元组的三个元素中的一个元素,所述装置包括:
第一获取模块,用于获取用户输入的至少一个待查询三元组,所述待查询三元组中的已知元素为查询条件,所述待查询三元组中的至少一个未知元素为查询对象;
查找模块,用于在每个计算节点存储的键值对中查找与所述第一获取模块获取到的查询条件相匹配的键值对;
第一确定模块,用于在所述查找模块查找到的相匹配的键值对的键值所包含的三个元素中确定所述查询对象对应的元素,得到在所述每个计算节点确定的所述查询对象对应的元素;
第二获取模块,用于根据在所述第一确定模块在每个计算节点确定的所述查询对象对应的元素获取查询结果。
具体地,所述待查询三元组中的已知元素为一个,所述查询条件为所述待查询三元组中的一个已知元素,所述查找模块,用于在每个计算节点存储的键值对的键中查找与所述查询条件的一个已知元素相匹配的键,并将所述相匹配的键所对应的键值对作为与所述查询条件相匹配的键值对。
具体地,所述待查询三元组中的已知元素为两个,所述查询条件为所述待查询三元组中的两个已知元素,所述查找模块,包括:
第一查找单元,用于在每个计算节点存储的键值对的键中查找与所述查询条件的其中一个已知元素相匹配的键;
第二查找单元,用于在所述第一查找单元查找到的相匹配的键所对应的键值中查找与所述查询条件的另一个已知元素相匹配的键值,并将所述相匹配的键值所对应的键值对作为与所述查询条件相匹配的键值对。
具体地,所述第二获取模块,用于将在所述每个计算节点确定的所述查询对象对应的元素进行合并,得到查询结果。
具体地,所述待查询三元组中的已知元素为两个,所述查询条件为所述待查询三元组中的两个已知元素,所述查找模块,用于在每个计算节点存储的键值对的键中查找与所述查询条件的其中一个已知元素相匹配的键,并查找与查询条件的另一个已知元素相匹配的键,将与所述其中一个已知元素和另一个已知元素相匹配的键所对应的键值对作为与所述查询条件相匹配的键值对。
具体地,所述第二获取模块,包括:
划分单元,用于将在所述每个计算节点确定的所述查询对象对应的元素按照所述查询条件的已知元素进行划分,得到根据所述查询条件的每个已知元素获取到的所述查询对象对应的元素;
第一获取单元,用于将所述划分单元划分得到的根据所述查询条件的每个已知元素获取到的所述查询对象对应的元素取交集,得到查询结果。
所述待查询三元组为多个,所述第二获取模块,用于根据每个待查询三元组之间的关系及每个待查询三元组在所述每个计算节点确定的所述查询对象对应的元素获取查询结果。
具体地,所述第二获取模块,包括:
第二获取单元,用于在所述每个待查询三元组之间的关系为与的关系时,将每个待查询三元组在所述每个计算节点确定的所述查询对象对应的元素取交集,得到查询结果;
第三获取单元,用于在所述每个待查询三元组之间的关系为或的关系时,则将每个待查询三元组在所述每个计算节点确定的所述查询对象对应的元素取并集,得到查询结果。
进一步地,所述装置还包括:
构建模块,用于根据RDF描述的本体的三元组构建多个键值对;
存储模块,用于将所述构建模块构建的多个键值对存储在多个计算节点中。
具体地,所述存储模块,用于在构建的多个键值对中存在键及其对应的键值都相同的至少两个键值对时,则在计算节点中存储相同的至少两个键值对中的一个键值对。
具体地,所述存储模块,用于将构建的多个键值对中键相同的键值对存储在同一个计算节点中。
本发明实施例提供的技术方案带来的有益效果是:
通过预先将RDF描述的本体构建成多个键值对并存储在多个计算节点中,当用户查询时,在每个计算节点存储的键值对中查找与查询条件相匹配的键值对,并在相匹配的键值对的键值所包含的三个元素中确定查询对象对应的元素,之后根据确定的元素获取查询结果,不仅提供了一种新的RDF描述的本体的存储方式;并且由于存储的键值对之间是相互独立的,可以直接根据查询条件在存储的键值对中查找相匹配的键值对并得到查询结果,避免了较为复杂的推理运算,查询过程较为简便,且RDF描述的本体增大对查询速度的影响较小。此外,由于键值对存储在多个计算节点中,还可以在多个计算节点中进行并行查找,较大地提高了查询速度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一种RDF描述的本体的示意图;
图2是本发明实施例一提供的一种基于本体的查询方法流程图;
图3是本发明实施例二提供的一种基于本体的查询方法流程图;
图4是本发明实施例二提供的构建键值对并存储构建的键值对的示意图;
图5是本发明实施例三提供的一种基于本体的查询装置的结构示意图;
图6是本发明实施例三提供的一种查找模块的结构示意图;
图7是本发明实施例三提供的一种第二获取模块的结构示意图;
图8是本发明实施例三提供的另一种第二获取模块的结构示意图;
图9是本发明实施例三提供的另一种基于本体的查询装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本发明实施例提供了一种基于本体的查询方法,其中,多个计算节点中分别存储有根据RDF描述的本体的三元组构建的多个键值对,每个键值对包含一个键和一个键值,所述键值包含所述三元组的三个元素,所述键包含所述三元组的三个元素中的一个元素。参见图2,方法流程包括:
201:获取用户输入的至少一个待查询三元组,待查询三元组中的已知元素为查询条件,待查询三元组中的至少一个未知元素为查询对象。
202:在每个计算节点存储的键值对中查找与查询条件相匹配的键值对,并在相匹配的键值对的键值所包含的三个元素中确定查询对象对应的元素,得到在每个计算节点确定的查询对象对应的元素。
具体地,待查询三元组中的已知元素为一个,查询条件为待查询三元组中的一个已知元素,在每个计算节点存储的键值对中查找与查询条件相匹配的键值对,包括:
在每个计算节点存储的键值对的键中查找与查询条件的一个已知元素相匹配的键,并将相匹配的键所对应的键值对作为与查询条件相匹配的键值对。
具体地,待查询三元组中的已知元素为两个,查询条件为待查询三元组中的两个已知元素,在每个计算节点存储的键值对中查找与查询条件相匹配的键值对,包括:
在每个计算节点存储的键值对的键中查找与查询条件的其中一个已知元素相匹配的键;
在相匹配的键所对应的键值中查找与查询条件的另一个已知元素相匹配的键值,并将相匹配的键值所对应的键值对作为与查询条件相匹配的键值对。
具体地,待查询三元组中的已知元素为两个,查询条件为待查询三元组中的两个已知元素,在每个计算节点存储的键值对中查找与查询条件相匹配的键值对,包括:
在每个计算节点存储的键值对的键中查找与查询条件的其中一个已知元素相匹配的键,并查找与查询条件的另一个已知元素相匹配的键,将与其中一个已知元素和另一个已知元素相匹配的键所对应的键值对作为与查询条件相匹配的键值对。
203:根据在每个计算节点确定的查询对象对应的元素获取查询结果。
具体地,根据在每个计算节点确定的查询对象对应的元素获取查询结果,包括:
将在每个计算节点确定的查询对象对应的元素进行合并,得到查询结果。
具体地,根据在每个计算节点确定的查询对象对应的元素获取查询结果,包括:
将在每个计算节点确定的查询对象对应的元素按照查询条件的已知元素进行划分,得到根据查询条件的每个已知元素获取到的查询对象对应的元素;
将根据查询条件的每个已知元素获取到的查询对象对应的元素取交集,得到查询结果。
具体地,待查询三元组为多个,根据在每个计算节点确定的查询对象对应的元素获取查询结果,包括:
根据每个待查询三元组之间的关系及每个待查询三元组在每个计算节点确定的查询对象对应的元素获取查询结果。
具体地,根据每个待查询三元组之间的关系及每个待查询三元组在每个计算节点确定的查询对象对应的元素获取查询结果,包括:
如果每个待查询三元组之间的关系为与的关系,则将每个待查询三元组在每个计算节点确定的查询对象对应的元素取交集,得到查询结果;
如果每个待查询三元组之间的关系为或的关系,则将每个待查询三元组在每个计算节点确定的查询对象对应的元素取并集,得到查询结果。
进一步地,该方法还包括:
根据RDF描述的本体的三元组构建多个键值对,并将构建的多个键值对存储在多个计算节点中。
具体地,将构建的多个键值对存储在多个计算节点中,包括:
如果构建的多个键值对中存在键及其对应的键值都相同的至少两个键值对,则在计算节点中存储相同的至少两个键值对中的一个键值对。
具体地,将构建的多个键值对存储在多个计算节点中,包括:
将构建的多个键值对中键相同的键值对存储在同一个计算节点中。
综上所述,本发明实施例提供的方法,通过预先将RDF描述的本体构建成多个键值对并存储在多个计算节点中,当用户查询时,在每个计算节点存储的键值对中查找与查询条件相匹配的键值对,并在相匹配的键值对的键值所包含的三个元素中确定查询对象对应的元素,之后根据确定的元素获取查询结果,不仅提供了一种新的RDF描述的本体的存储方式;并且由于存储的键值对之间是相互独立的,可以直接根据查询条件在存储的键值对中查找相匹配的键值对并得到查询结果,避免了较为复杂的推理运算,查询过程较为简便,且RDF描述的本体增大对查询速度的影响较小。此外,由于键值对存储在多个计算节点中,还可以在多个计算节点中进行并行查找,较大地提高了查询速度。
实施例二
为了提高在RDF描述的本体中查询用户期望的数据的速度,本发明实施例提供了一种基于本体的查询方法。结合上述实施例一的内容,参见图3,方法流程包括:
301:根据RDF描述的本体的三元组构建多个键值对。
在该步骤中,RDF描述的本体可以为一个或多个RDF图的形式,每个RDF图对应一个RDF格式的文件。RDF描述的本体包含至少一个三元组,每个三元组包含三个元素,三个元素分别为主体、谓语和客体。为了能够实现后续的查询工作,在该步骤中,将RDF描述的本体的三元组构建为键值对的形式,具体包括:将RDF描述的本体的三元组中的每个元素设置为每个键,并将每个元素对应的三元组中的三个元素设置为每个键对应的键值,将每个键及其对应的键值作为每个键值对。其中,将RDF描述的本体的三元组可以根据RDF描述的本体中对应的逻辑关系推理得出。构建得到的键值对中,每个键值对包含一个键和一个键值,键值包含三元组的三个元素,键包含三元组的三个元素中的一个元素。
举例来说,以如图4(a)所示的RDF描述的本体为例,根据该RDF描述的本体对应的逻辑关系推理出其中的三元组,将其中元素A设置为一个键,将元素A对应的三元组中的三个元素(A,org:type,O1)设置为元素A对应的键值,将键A和键值(A,org:type,O1)设置为一个键值对{A,(A,org:type,O1)}。对于RDF描述的本体中的每个三元组都按照上述方法构建键值对,构建的键值对如图4(b)所示。
302:将构建的多个键值对存储在多个计算节点中。
在多个键值对构建完成后,由于各个键值对之间不再具有逻辑上的关联性,可以将构建的多个键值对存储在多个计算节点中,用于后续的查询。其中,每个计算节点都具有一定的存储空间,用于存储构建的键值对。由于键值对所占用的存储空间较小且每个键值对所占用的存储空间的大小相差不大,因此在存储时,计算节点可以为每个键值对分配固定的存储空间。当计算节点存储空间的大小固定时,该计算节点所能存储的键值对的数量也是固定的。例如,当计算节点的存储空间为200MB的空间,为每个键值对分配0.02MB的固定存储空间,则该计算节点可以存储10000个键值对。将构建的多个键值对存储到的计算节点的数量可以根据构建的多个键值对的数量以及计算节点的存储空间和处理速度进行选择,例如可以为4个或5个等,本发明实施例在此不对计算节点的数量进行具体限定。在构建的键值对的数量一定的情况下,计算节点数量越多,则后续查询的速度也越快。当然,选用处理速度较快的计算节点,也可以增加后续查询的速度。
具体地,将构建的多个键值对存储在多个计算节点中的方式包括但不限于:
方式一:如果构建的多个键值对中存在键和及其对应的键值都相同的至少两个键值对,则在多个计算节点中存储相同的至少两个键值对中的一个键值对。
在步骤301中根据多个RDF描述的本体的三元组构建键值对后,由于多个RDF描述的本体的三元组中可能具有三个元素都相同的三元组,则构建的键值对中可能存在键及其对应的键值都相同的至少两个键值对。为了节省计算节点的存储空间,可以在多个计算节点中存储相同的至少两个键值对中的一个键值对,舍弃相同的至少两个键值对中其余的键值对。
例如,在根据步骤301构建键值对后,如果构建的多个键值对中具有2个键值对pair1={A,(A,org:type,O1)},pair2={A,(A,org:type,O1)},pair1的键A和键值(A,org:type,O1)和pair2的键A和键值(A,org:type,O1)都相同,因此,将pair1存储到计算节点中。
方式二:将构建的多个键值对中键相同的键值对存储在同一个计算节点中。
在该方式中,由于在RDF描述的本体中,一个三元组的主体/客体/谓语可以是另一个三元组的主体/客体/谓语,因此,无论是根据一个RDF描述的本体构建的键值对,还是根据多个RDF描述的本体构建的键值对,构建的键值对中都可能存在键相同的键值对。
为了提高后续的查询速度,本实施例提供的方法在存储构建的键值对时,将键相同的键值对存储在同一个计算节点中。具体地,根据每个计算节点所能存储的键值对的数量和构建的键值对中键相同的键值对的数量,将键相同的键值对存储在同一个计算节点中。当每个计算节点所能存储键值对的剩余数量都小于未存储的键相同的键值对的数量,则每个计算节点中任选一个,根据选择的计算节点所能存储的键值对的数量将未存储的键相同的键值对存储在该选择的计算节点中,并将剩余的键相同的键值对存储在另一个计算节点中,直至将剩余的键相同的键值对都存储在计算节点中为止。当然,如果一个键值对的键与其余的键值对都不相同,则可以将该键值对存储到任一个计算节点中。
通过将键相同的键值对存储在同一个计算节点中,使得每个计算节点中存储的键值对中不相同的键的数量较少,从而在后续根据键的匹配查找键值对时,每个计算节点中需要进行较少次数的匹配即可查找到对应的键,从而获取该键所对应的键值对。
需要说明的是,在将构建的多个键值对分别存储在计算节点中时,可以采用上述方式一或方式二进行存储,更优选地,还可以同时采用上述方式一和方式二进行存储。
举例来说,在步骤301中构建键值对后,需要将如图4(b)所示的构建的多个键值对分别存储在6个计算节点中,6个计算节点为计算节点1至计算节点6,对应的所能存储键值对的数量分别为3、4、4、4、3、3。具有相同的键A的键值对的数量为3,则从计算节点1至计算节点6中选取能存储3个键值对的计算节点1,将具有相同的键A的3个键值对存储在计算节点1中,并重新计算计算节点1所能存储键值对的剩余数量为0。具有相同的键org:type的键值对的数量为5,由于计算节点1至计算节点6都不能存储5个键值对,则优先将其他键相同的键值对存储到同一个计算节点中。之后,计算节点2所能存储键值对的剩余数量为4,计算节点3所能存储键值对的剩余数量为1,其余计算节点所能存储键值对的剩余数量为0,则将具有相同的键org:type的5个键值对中的4个存储在计算节点2中,并将具有相同的键org:type的键值对中剩余的1个键值对存储在计算节点3中。将如图4(b)的构建的多个键值对存储在多个计算节点中后,每个计算节点中存储的键值对如图4(c)所示。
除了上述两种方式之外,还可以采用其他方式进行存储,例如,将构建的键值对随机地存储在每个计算节点中。对于具体采用哪种方式将构建的多个键值对存储在多个计算节点中,本发明实施例在此不进行具体限定。
需要说明的是,在根据RDF描述的本体的三元组构建多个键值对,并将构建的多个键值对存储在多个计算节点中后,如果有新的RDF描述的本体的三元组需要添加到多个计算节点中,则可以继续执行上述步骤301至步骤302,将根据新的RDF描述的本体的三元组构建的多个键值对存储在多个计算节点中。
在上述步骤301至步骤302的基础上,本发明实施例可以在存储有键值对的多个计算节点中进行三元组的查询操作,详见以下步骤303至步骤306。
303:获取用户输入的至少一个待查询三元组,待查询三元组中的已知元素为查询条件,待查询三元组中的至少一个未知元素为查询对象。
针对该步骤,在基于RDF描述的本体的查询时,用户通常会输入待查询三元组用于查询。待查询三元组中包含至少一个已知元素,用于标识用户期望查询结果所能够满足的条件。此外,待查询三元组中还包含至少一个未知元素,该未知元素可以为三元组中的主体、谓语、客体中的至少一个,可以将其中的至少一个未知元素作为查询对象。
当待查询三元组中有两个已知元素和一个未知元素时,查询条件可以为待查询三元组中的两个已知元素,查询对象为待查询三元组中一个未知元素;当待查询三元组中有一个已知元素和两个未知元素时,查询条件可以为待查询三元组中的一个已知元素,查询对象可以为待查询三元组中的两个未知元素,也可以为待查询三元组的两个未知元素中的任意一个未知元素。例如,如果待查询三元组为(?s,org:type,?o),则查询条件为待查询三元组中的一个已知元素:谓语org:type;查询对象可以为待查询三元组中的两个未知元素:主体s和客体o,也可以为待查询三元组中的一个未知元素主体s,或客体o。当查询对象为主体s和客体o两个未知元素时,表示用户期望查询满足谓语为org:type的查询条件的主体s和客体o;当查询对象为一个已知元素主体s时,表示用户期望查询满足谓语为org:type的主体s。
具体地,获取用户输入的至少一个待查询三元组时,需要用户输入机器能够识别的语言。由于本发明实施例是基于RDF描述的本体进行查询,因此,需要根据用户采用的RDF描述的本体的查询语言输入的查询语句获取待查询三元组。其中,RDF描述的本体的查询语言有多种,SPARQL(Simple Protocol and RDFQuery Language,简单协议和RDF查询语言)是其中一种常用的查询语言,并且SPARQL还是一种标准化的查询语言,其他查询语言,例如SQL(Structured Query Language,结构化查询语言)等,都可以根据SPARQL类推得到。因此,本发明实施例仅以SPARQL查询语言为例进行说明。当采用SPARQL查询语言时,首先需要获取用户输入的SPARQL查询语句,格式可以为select?s where(?s,p,?o);根据用户输入的句子可以获取待查询三元组。其中,where(?s,p,o)表示查询条件为待查询三元组中的已知元素谓语p和客体o,select?s表示查询对象为待查询三元组中的未知元素主体s。当然,用户也可以不需要输入完整的SPARQL查询语句,而是输入查询关键字例如p和o,采用查询理解技术理解用户输入的查询关键字的语义为期望查询谓语为p,客体为o的主体;之后再根据理解的语义构建SPARQL查询语句,从而确定待查询三元组,或者再根据理解的语义直接确定待查询三元组。其中,采用查询理解技术可以理解出查询关键词之间的语义关系。例如,用户输入查询关键词author,ISMIS,采用查询理解技术可以确定用户期望查找文章ISMIS的作者,则构建SPARQL查询语句select?o where(ISMIS,author,?o),从而根据构建的SPARQL查询语句获取待查询三元组(ISMIS,author,?o)。其中应用的查询理解技术与现有的查询理解的技术相同,具体可以参见在WISE(Web Information System Engineering,网页信息***工程)国际会议上公布的文献《Effective and Efficient Keyword QueryInterpretation Using a Hybrid Graph》,在此不再赘述。
当用户期望查询满足更多条件的结果时,可以按照SPARQL查询语言的语法输入更复杂的SPARQL查询语句,根据输入的SPARQL查询语句可以获取多个待查询三元组,并且多个待查询三元组之间还具有一定的关系。多个待查询三元组之间的关系可以为“与”的关系、“或”的关系,或者其他关系。关系“与”是指查询满足多个待查询三元组中的每个待查询三元组的结果,关系“或”是指查询满足多个待查询三元组的其中一个待查询三元组的结果。可以为不同的多个待查询三元组之间的关系设定不同的关系标识,关系标识可以为一定的文字标识、数字标识等,根据关系标识可以确定多个待查询三元组之间的关系。
例如,当用户输入的SPARQL查询语句为:select?s where{(?s,p1,?o1),and(?s,p2,o2)}时,根据用户输入的SPARQL查询语句,可以获取两个待查询三元组。待查询三元组1为(?s,p1,?o1),其中查询条件为待查询三元组中的已知元素谓语p1,查询对象为待查询三元组中的未知元素主体s。待查询三元组2为(?s,p2,o2),其中查询条件为待查询三元组中的已知元素谓语p2和客体o2,查询对象为待查询三元组中的未知元素主体s。此外,根据关系标识“and”确定待查询三元组1和待查询三元组2之间为与的关系,即查询结果需要既满足待查询三元组1又满足待查询三元组2。又例如,当用户输入的SPARQL查询语句为:select?s where{(?s,p1,?o),or(?s,p2,o2)}时,根据用户输入的SPARQL查询语句,也可以获取待查询三元组1和待查询三元组2。此外,根据关系标识“or”确定待查询三元组1和待查询三元组2之间为或的关系,即查询结果需要满足待查询三元组1或满足待查询三元组2。
举例来说,仍以计算节点1至计算节点6中存储有如图4(c)所示的键值对为例,根据用户输入的SPARQL查询语句select?s where{(?s,org:type,O1),and(?s,org:title,?o)}获取用户输入的两个待查询三元组。其中,待查询三元组1为(?s,org:type,O1),其中查询条件为待查询三元组中的已知元素谓语org:type和客体O1,查询对象为待查询三元组中的未知元素主体s。待查询三元组2为(?s,org:title,?o),其中查询条件为待查询三元组中的已知元素谓语org:title,查询对象为待查询三元组中的未知元素主体s。根据关系标识“and”确定待查询三元组1和待查询三元组2之间为与的关系,即查找结果需要既满足待查询三元组1又满足待查询三元组2。
304:在每个计算节点存储的键值对中查找与查询条件相匹配的键值对。
针对该步骤,在每个计算节点存储的键值对中查找与查询条件相匹配的键值对时,可以依次在每个计算节点存储的键值对中进行查找。优选地,为了节省查找的时间,也可以在每个计算节点存储的键值对中进行并行查找,本发明实施例在此不对在每个计算节点中进行查找的方式进行具体限定。
由于每个计算机中存储的键值对是由键及其对应的键值构成的,一个三元组中的每个元素可以分别作为键,且该三元组的三个元素作为键值,因此通过在每个计算节点存储的键值对的键中查找与已知元素相匹配的键,即可查找到包含该已知元素的三元组的键值对。此外,由于在将构建的多个键值对存储在多个计算节点中时,将键相同的键值对存储到同一个计算节点中,从而使得在每个计算节点存储的键值对中,不同的键的数量较少。在每个计算节点中,可以将该计算节点所存储的键值对中不同的键标识出来,以在标识的不同的键中查找与查询条件的已知元素相匹配的键,而不需要在每个计算节点存储的每个键值对所对应的每个键中查找与查询条件相匹配的键,从而提高了查询速度。
具体地,根据查询条件中已知元素的个数不同,在每个计算节点存储的键值对中查找与查询条件相匹配的键值对的方式也不同,具体包括但不限于以下三种方式:
方式一:当待查询三元组中的已知元素为一个时,查询条件为待查询三元组中的一个已知元素,在每个计算节点存储的键值对的键中查找与查询条件的一个已知元素相匹配的键,并将相匹配的键所对应的键值对作为与查询条件相匹配的键值对。
当查询条件中包含一个已知元素时,在每个计算节点存储的键值对的键中查找与该已知元素相匹配的键。由于没有其它已知元素,查找到的相匹配键所对应的键值对即为与该查询条件相匹配的键值对。
举例来说,待查询三元组2的查询条件为一个已知元素谓语org:title,在计算节点1至计算节点6中按照同样的方式进行查找后,在计算节点1至计算节点5中没有查找到与已知元素谓语org:title相匹配的键值对,在计算节点6中查找到与已知元素谓语org:title相匹配的键“org:title”,并将相匹配的键“org:title”所对应的键值对{org:title,(A,org:title,O5)}和{org:title,(C,org:title,O4)}作为与待查询三元组2的查询条件相匹配的键值对。
方式二:当待查询三元组中的已知元素为两个时,查询条件为待查询三元组中的两个已知元素,在每个计算节点存储的键值对的键中查找与查询条件的其中一个已知元素相匹配的键;在相匹配的键所对应的键值中查找与查询条件的另一个已知元素相匹配的键值,并将相匹配的键值所对应的键值对作为与查询条件相匹配的键值对。
其中,在每个计算节点存储的键值对的键中查找与查询条件的其中一个已知元素相匹配的键时,可以在每个计算节点存储的键值对的键中查找三元组中的两个已知元素中的任意一个已知元素相匹配的键。在相匹配的键所对应的键值中查找与查询条件包含的另一个已知元素相匹配的键值时,具体可以根据另一个已知元素在三元组中的位置,在相匹配的键所对应的键值中根据对应其余已知元素在三元组中的位置查找与其余已知元素相匹配的键值,并将相匹配的键值所对应的键值对作为与该查询条件相匹配的键值对。
举例来说,待查询三元组1中有2个已知元素,查询条件为2个已知元素谓语org:type和客体O1。在计算节点1存储的键值对的键中查找与查询条件的其中一个已知元素谓语org:type相匹配的键,没有查找到与已知元素谓语org:type相匹配的键。在计算节点2存储的键值对的键中查找与查询条件的已知元素谓语org:type相匹配的键,并且查找到与已知元素谓语org:type相匹配的键“org:type”。在相匹配的键“org:type”所对应的键值(A,org:type,O1),(A,org:type,O2),(B,org:type,O1)和(C,org:type,O1)中查找与查询条件的另一个已知元素客体O1相匹配的键值。其中,键值(A,org:type,O1),(B,org:type,O1)和(C,org:type,O1)中的客***置上的元素与已知元素客体O1相匹配,则将相匹配的键值所对应的键值对{org:type,(A,org:type,O1)},{org:type,(B,org:type,O1)}和{org:type,(C,org:type,O1)}作为与待查询三元组1的查询条件相匹配的键值对。同样地,在计算节点3至计算节点6也查找与待查询三元组1的查询条件相匹配的键值对,没有查找到与待查询三元组1的查询条件相匹配的键值对。
方式三:当待查询三元组中的已知元素为两个时,查询条件为待查询三元组中的两个已知元素,在每个计算节点存储的键值对的键中查找与所述查询条件的其中一个已知元素相匹配的键,并查找与查询条件的另一个已知元素相匹配的键,将与所述其中一个已知元素和另一个已知元素相匹配的键所对应的键值对作为与所述查询条件相匹配的键值对。
在该方式中,将分别与查询条件的每个已知元素相匹配的键所对应的键值对都作为该查询条件相匹配的键值对。此时,得到的相匹配的键值对并不都满足与查询条件的两个已知元素都相匹配,可以在后续步骤中再根据相匹配的键值对确定满足与查询条件的两个已知元素都相匹配的元素。
举例来说,待查询三元组1中有2个已知元素,查询条件为2个已知元素谓语org:type和客体O1。在计算节点1存储的键值对的键中查找与查询条件的已知元素谓语org:type相匹配的键,没有查找到相匹配的键;在计算节点1存储的键值对的键中查找与查询条件的已知元素客体O1相匹配的键,也没有查找到相匹配的键。同样地,在计算节点2存储的键值对的键中查找到与谓语org:type相匹配的键,而没有查找到与客体O1相匹配的键,则将与谓语org:type相匹配的键对应的键值对{org:type,(A,org:type,O1)},{org:type,(B,org:type,O1)}和{org:type,(C,org:type,O1)}作为待查询三元组1的查询条件相匹配的键值对;在计算节点3存储的键值对的键中查找到与谓语org:type相匹配的键“org:type”,并且查找到与客体O1相匹配的键“O1”,则将与谓语org:type相匹配的键“org:type”所对应的键值对{org:type,(B,org:type,O3)}和与客体O1相匹配的键“O1”的键值对{O1,(A,org:type,O1)},{O1,(B,org:type,O1)}和{O1,(C,org:type,O1)}都作为待查询三元组1的查询条件相匹配的键值对;在计算节点4至计算节点6中没有查找到与谓语org:type相匹配的键,也没有查找到与客体O1相匹配的键。
除了上述方式一、方式二和方式三之外,还可以采用其他方式在每个计算节点存储的键值对中查找与查询条件相匹配的键值对,对于具体采用哪种方式在每个计算节点存储的键值对中查找与查询条件相匹配的键值对,本发明实施例在此不进行具体限定。
305:在相匹配的键值对的键值所包含的三个元素中确定查询对象对应的元素,得到在每个计算节点确定的查询对象对应的元素。
针对该步骤,由于查询对象为待查询三元组中的未知元素,而相匹配的键值对的键值包含三元组中的三个元素,因此,可以从查找到的相匹配的键值对的键值中确定查询对象对应的元素。对于每个计算节点,都可以在相匹配的键值对的键值所包含的三个元素中确定查询对象对应的元素,从而得在每个计算节点确定的查询对象对应的元素。具体地,从相匹配的键值对的键值所包含的三个元素中获取与查询对象的未知元素在三元组中的位置相对应的元素作为查询对象对应的元素。
此外,根据步骤304中在每个计算节点存储的键值对中查找与查询条件相匹配的键值对的方式不同,查找到的相匹配的键值对也不同,从而在查找到的相匹配的键值对中确定查询对象对应的元素的也不同。
举例来说,对于待查询三元组1,在采用步骤304中的方式二在每个计算节点存储的键值对中查找与查询条件相匹配的键值对后,在计算节点2中查找到相匹配的键值对的键值所包含的三个元素(A,org:type,O1),(B,org:type,O1)和(C,org:type,O1)中确定查询对象主体s对应的元素[A,B,C],得到在计算节点2中确定的元素[A,B,C]。
对于待查询三元组1,在采用步骤304中的方式三在每个计算节点存储的键值对中查找与查询条件相匹配的键值对后,从在计算节点2查找到与已知元素谓语org:type相匹配的键值对的键值(A,org:type,O1),(B,org:type,O1)和(C,org:type,O1)中确定查询对象主体s对应的元素[A,B,C]。从在计算节点3中查找到与已知元素谓语org:type相匹配的键值对的键值(B,org:type,O3)中确定查询对象主体s对应的元素[B]。从在计算节点3中查找到的与已知元素客体O1相匹配的键值对的键值(A,org:type,O1),(B,org:type,O1)和(C,org:type,O1)中确定主体s对应的元素[A,B,C]。
对于待查询三元组2,在采用步骤304中的方式一在每个计算节点存储的键值对中查找与查询条件相匹配的键值对后,在计算节点6中查找到与待查询三元组2的查询条件相匹配的键值对的键值所包含的三个元素(A,org:title,O5)和(C,org:title,O4)中确定查询对象主体s对应的元素[A,C],得到在计算节点6中确定的元素[A,C]。
306:根据在每个计算节点确定的查询对象对应的元素获取查询结果。
针对该步骤,根据步骤304中在每个计算节点存储的键值对中查找与查询条件相匹配的键值对的方式不同,根据在每个计算节点确定的查询对象对应的元素获取查询结果的方式也不同。当待查询三元组为一个时,具体包括以下两种方式:
方式一:如果步骤304中采用方式一或方式二在每个计算节点存储的键值对中查找与查询条件相匹配的键值对,在该步骤中,将在每个计算节点确定的查询对象对应的元素进行合并,得到查询结果。
在该方式中,当根据查询条件在任一个计算节点中查找到相匹配的键值对时,能够在该计算节点中确定得到查询对象对应的元素;当根据查询条件在任一个计算节点中没有查找到相匹配的键值对时,在该计算节点中确定的查询对象对应的元素为零。因此,在确定查询结果时,将在每个计算节点确定的查询对象对应的元素进行合并,即可得到查询结果。
举例来说,如果步骤302获取到的待查询三元组仅为待查询三元组1,在步骤304中采用方式二在每个计算节点存储的键值对中查找到与查询条件相匹配的键值对,并在步骤305中得到每个计算节点确定的元素后,在计算节点2确定的查询对象对应的元素为[A,B,C],在计算节点1、计算节点3至计算节点6中都没有确定的元素,则将计算节点1至计算节点6中确定的元素进行合并后,得到查询结果为[A,B,C]。
方式二:如果步骤304中采用方式三在每个计算节点存储的键值对中查找与查询条件相匹配的键值对,在该步骤中,将在每个计算节点确定的查询对象对应的元素按照查询条件的已知元素进行划分,得到根据查询条件的每个已知元素获取到的查询对象对应的元素;将根据查询条件的每个已知元素获取到的查询对象对应的元素取交集,得到查询结果。
针对该种方式,由于在步骤304中采用方式三在每个计算节点存储的键值对中查找与查询条件相匹配的键值对时,将与其中一个已知元素和另一个已知元素相匹配的键所对应的键值对作为与查询条件相匹配的键值对,因而在步骤305中确定的查询对象对应的元素也是只满足查询条件中的其中一个已知元素或另一个已知元素。而查询结果需要同时满足查询条件中的两个已知元素,因此,需要先获取查询条件的每个已知元素在每个计算节点对应的元素,将根据查询条件的每个已知元素获取到的查询对象对应的元素取交集,得到的交集中的元素为同时满足查询条件中的两个已知元素的查询对象对应的元素。
举例来说,如果步骤302获取到的待查询三元组仅为待查询三元组1,在步骤304中采用方式三在每个计算节点存储的键值对中查找到与查询条件相匹配的键值对,并在步骤305中得到每个计算节点确定的查询对象对应的元素后,将在每个计算节点确定的查询对象对应的元素按照查询条件的已知元素进行划分,得到根据查询条件的每个已知元素获取到的查询对象对应的元素;得到查询条件的已知元素谓语org:type在计算节点1至计算节点6中对应的查询对象对应的元素为[A,B,C,B],并得到查询条件的已知元素客体O1在计算节点1至计算节点6中对应的元素为[A,B,C];将根据查询条件的每个已知元素获取到的查询对象对应的元素取交集,得到查询结果为[A,B,C]。
需要说明的是,当步骤303中获取到的待查询三元组为多个时,根据在每个计算节点确定的查询对象对应的元素获取查询结果,包括:根据每个待查询三元组之间的关系及每个待查询三元组在每个计算节点确定的查询对象对应的元素获取查询结果。
具体地,如果每个待查询三元组之间的关系为与的关系,则将每个待查询三元组在每个计算节点确定的查询对象对应的元素取交集,得到查询结果;如果每个待查询三元组之间的关系为或的关系,则将每个待查询三元组在每个计算节点确定的查询对象对应的元素取并集,得到查询结果。
如果每个待查询三元组之间的关系为与的关系,则表示查询结果应该满足多个待查询三元组中的每个待查询三元组。而每个待查询三元组在每个计算节点确定的查询对象对应的元素中相同的元素能够满足多个待查询三元组中的每个待查询三元组,因此,需要将每个待查询三元组在每个计算节点确定的查询对象对应的元素取交集,得到查询结果。如果每个待查询三元组之间的关系为或的关系,则表示查询结果可以满足多个待查询三元组中的一个即可。而每个待查询三元组在每个计算节点确定的查询对象对应的元素都可以满足多个待查询三元组中的一个,因此,可以将每个待查询三元组在每个计算节点确定的查询对象对应的元素取并集,得到查询结果。当然,在待查询三元组为三个或以上时,多个待查询三元组中可以既包含与的关系,又包含或的关系,则根据每两个待查询三元组之间的关系,将每两个待查询三元组在每个计算节点确定的查询对象对应的元素获取查询结果。
举例来说,在步骤302中获取到的待查询三元组1和待查询三元组2之间为与的关系,待查询三元组1在计算节点1至计算节点6确定的查询对象对应的元素为[A,B,C];待查询三元组2在计算节点1至计算节点6中确定的查询对象对应的元素为[A,C],将[A,B,C]和[A,C]取交集,得到查询结果[A,C]。
需要说明的是,在上述步骤301至步骤302中将RDF描述的本体的三元组构建成多个键值对,并将构建的多个键值对存储在多个计算节点中后,可以根据查询的需要多次执行步骤303至步骤306,从而获取满足用户期望的查询结果。
具体实施时,当用户期望从数据库或网站中查询满足一定查询条件的数据时,可以根据用户输入的查询关键词获取待查询三元组,或者根据用户直接输入的待查询三元组,通过本发明实施例提供的方法获取查询结果。例如,如果用户期望查询张三的联系地址,则输入待查询三元组(张三,联系地址,?o),查询条件为待查询三元组中的已知元素主体“张三”和谓语“联系地址”,查询对象为待查询三元组中未知元素客体o,通过本发明实施例提供的方法可以获取到查询对象相对应的元素,获取到的查询对象对应的元素即为满足用户的查询条件的元素。将获取到的查询对象对应的元素作为查询结果后,可以将查询结果通过显示等方式返回给用户,使用户得到更为精确的查询结果。
综上所述,本发明实施例提供的方法,通过预先将RDF描述的本体构建成多个键值对并存储在多个计算节点中,当用户查询时,在每个计算节点存储的键值对中查找与查询条件相匹配的键值对,并在相匹配的键值对的键值所包含的三个元素中确定查询对象对应的元素,之后根据确定的元素获取查询结果,不仅提供了一种新的RDF描述的本体的存储方式;并且由于存储的键值对之间是相互独立的,可以直接根据查询条件与存储的键值对中查找相匹配的键值对并得到查询结果,避免了较为复杂的推理运算,查询过程较为简便,且RDF描述的本体增大对查询速度的影响较小。此外,由于键值对存储在多个计算节点中,还可以在多个计算节点中进行并行查找,较大地提高了查询速度。
实施例三
本发明实施例提供了一种基于本体的查询装置,该装置用于执行上述实施例一或实施例二提供的基于本体的查询方法。其中,多个计算节点中分别存储有根据RDF描述的本体的三元组构建的多个键值对,每个键值对包含一个键和一个键值,键值包含三元组的三个元素,键包含三元组的三个元素中的一个元素。参见图5,该装置包括:
第一获取模块501,用于获取用户输入的至少一个待查询三元组,待查询三元组中的已知元素为查询条件,待查询三元组中的至少一个未知元素为查询对象;
查找模块502,用于在每个计算节点存储的键值对中查找与第一获取模块501获取到的查询条件相匹配的键值对;
第一确定模块503,用于在查找模块502查找到的相匹配的键值对的键值所包含的三个元素中确定查询对象对应的元素,得到在每个计算节点确定的查询对象对应的元素;
第二获取模块504,用于根据在第一确定模块503在每个计算节点确定的查询对象对应的元素获取查询结果。
具体地,待查询三元组中的已知元素为一个,查询条件为待查询三元组中的一个已知元素,查找模块502,用于在每个计算节点存储的键值对的键中查找与查询条件的一个已知元素相匹配的键,并将相匹配的键所对应的键值对作为与查询条件相匹配的键值对。
具体地,待查询三元组中的已知元素为两个,查询条件为待查询三元组中的两个已知元素,参见图6,查找模块502,包括:
第一查找单元5021,用于在每个计算节点存储的键值对的键中查找与查询条件的其中一个已知元素相匹配的键;
第二查找单元5022,用于在第一查找单元5021查找到的相匹配的键所对应的键值中查找与查询条件的另一个已知元素相匹配的键值,并将相匹配的键值所对应的键值对作为与查询条件相匹配的键值对。
具体地,第二获取模块504,用于将在每个计算节点确定的查询对象对应的元素进行合并,得到查询结果。
具体地,待查询三元组中的已知元素为两个,查询条件为待查询三元组中的两个已知元素,查找模块502,用于在每个计算节点存储的键值对的键中查找与查询条件的其中一个已知元素相匹配的键,并查找与查询条件的另一个已知元素相匹配的键,将与其中一个已知元素和另一个已知元素相匹配的键所对应的键值对作为与查询条件相匹配的键值对。
具体地,参见图7,第二获取模块504,包括:
划分单元5041,用于将在每个计算节点确定的查询对象对应的元素按照查询条件的已知元素进行划分,得到根据查询条件的每个已知元素获取到的查询对象对应的元素;
第一获取单元5042,用于将划分单元5041划分得到的根据查询条件的每个已知元素获取到的查询对象对应的元素取交集,得到查询结果。
具体地,待查询三元组为多个,第二获取模块504,用于根据每个待查询三元组之间的关系及每个待查询三元组在每个计算节点确定的查询对象对应的元素获取查询结果。
具体地,参见图8,第二获取模块504,包括:
第二获取单元5043,用于在每个待查询三元组之间的关系为与的关系时,将每个待查询三元组在每个计算节点确定的查询对象对应的元素取交集,得到查询结果;
第三获取单元5044,用于在每个待查询三元组之间的关系为或的关系时,则将每个待查询三元组在每个计算节点确定的查询对象对应的元素取并集,得到查询结果。
进一步地,参见图9,该装置还包括:
构建模块505,用于根据RDF描述的本体的三元组构建多个键值对;
存储模块506,用于将构建模块505构建的多个键值对存储在多个计算节点中。
具体地,存储模块506,用于在构建的多个键值对中存在键及其对应的键值都相同的至少两个键值对时,则在计算节点中存储相同的至少两个键值对中的一个键值对。
具体地,存储模块506,用于将构建的多个键值对中键相同的键值对存储在同一个计算节点中。
综上所述,本发明实施例的装置,通过预先将RDF描述的本体构建成多个键值对并存储在多个计算节点中,当用户查询时,在每个计算节点存储的键值对中查找与查询条件相匹配的键值对,并在相匹配的键值对的键值所包含的三个元素中确定查询对象对应的元素,之后根据确定的元素获取查询结果,不仅提供了一种新的RDF描述的本体的存储方式;并且由于存储的键值对之间是相互独立的,可以直接根据查询条件与存储的键值对中查找相匹配的键值对并得到查询结果,避免了较为复杂的推理运算,查询过程较为简便,且RDF描述的本体增大对查询速度的影响较小。此外,由于键值对存储在多个计算节点中,还可以在多个计算节点中进行并行查找,较大地提高了查询速度。
需要说明的是:上述实施例提供的基于本体的查询装置在进行基于本体的查询时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将基于本体的查询装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于本体的查询装置与基于本体的查询方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (24)

1.一种基于本体的查询方法,其特征在于,多个计算节点中分别存储有根据资源描述框架RDF描述的本体的三元组构建的多个键值对,每个键值对包含一个键和一个键值,所述键值包含所述三元组的三个元素,所述键包含所述三元组的三个元素中的一个元素,所述方法包括:
获取用户输入的至少一个待查询三元组,所述待查询三元组中的已知元素为查询条件,所述待查询三元组中的至少一个未知元素为查询对象;
在每个计算节点存储的键值对中查找与所述查询条件相匹配的键值对,并在相匹配的键值对的键值所包含的三个元素中确定所述查询对象对应的元素,得到在所述每个计算节点确定的所述查询对象对应的元素;
根据在所述每个计算节点确定的所述查询对象对应的元素获取查询结果。
2.根据权利要求1所述的方法,其特征在于,所述待查询三元组中的已知元素为一个,所述查询条件为所述待查询三元组中的一个已知元素,所述在每个计算节点存储的键值对中查找与所述查询条件相匹配的键值对,包括:
在每个计算节点存储的键值对的键中查找与所述查询条件的一个已知元素相匹配的键,并将所述相匹配的键所对应的键值对作为与所述查询条件相匹配的键值对。
3.根据权利要求1所述的方法,其特征在于,所述待查询三元组中的已知元素为两个,所述查询条件为所述待查询三元组中的两个已知元素,所述在每个计算节点存储的键值对中查找与所述查询条件相匹配的键值对,包括:
在每个计算节点存储的键值对的键中查找与所述查询条件的其中一个已知元素相匹配的键;
在相匹配的键所对应的键值中查找与所述查询条件的另一个已知元素相匹配的键值,并将所述相匹配的键值所对应的键值对作为与所述查询条件相匹配的键值对。
4.根据权利要求2所述的方法,其特征在于,所述根据在所述每个计算节点确定的所述查询对象对应的元素获取查询结果,包括:
将在所述每个计算节点确定的所述查询对象对应的元素进行合并,得到查询结果。
5.根据权利要求3所述的方法,其特征在于,所述根据在所述每个计算节点确定的所述查询对象对应的元素获取查询结果,包括:
将在所述每个计算节点确定的所述查询对象对应的元素进行合并,得到查询结果。
6.根据权利要求1所述的方法,其特征在于,所述待查询三元组中的已知元素为两个,所述查询条件为所述待查询三元组中的两个已知元素,所述在每个计算节点存储的键值对中查找与所述查询条件相匹配的键值对,包括:
在每个计算节点存储的键值对的键中查找与所述查询条件的其中一个已知元素相匹配的键,并查找与查询条件的另一个已知元素相匹配的键,将与所述其中一个已知元素和另一个已知元素相匹配的键所对应的键值对作为与所述查询条件相匹配的键值对。
7.根据权利要求6所述的方法,其特征在于,所述根据在所述每个计算节点确定的所述查询对象对应的元素获取查询结果,包括:
将在所述每个计算节点确定的所述查询对象对应的元素按照所述查询条件的已知元素进行划分,得到根据所述查询条件的每个已知元素获取到的所述查询对象对应的元素;
将根据所述查询条件的每个已知元素获取到的所述查询对象对应的元素取交集,得到查询结果。
8.根据权利要求1至7任一权利要求所述的方法,其特征在于,所述待查询三元组为多个,所述根据在所述每个计算节点确定的所述查询对象对应的元素获取查询结果,包括:
根据每个待查询三元组之间的关系及每个待查询三元组在所述每个计算节点确定的所述查询对象对应的元素获取查询结果。
9.根据权利要求8所述的方法,其特征在于,所述根据每个待查询三元组之间的关系及每个待查询三元组在所述每个计算节点确定的所述查询对象对应的元素获取查询结果,包括:
如果所述每个待查询三元组之间的关系为与的关系,则将每个待查询三元组在所述每个计算节点确定的所述查询对象对应的元素取交集,得到查询结果;
如果所述每个待查询三元组之间的关系为或的关系,则将每个待查询三元组在所述每个计算节点确定的所述查询对象对应的元素取并集,得到查询结果。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据RDF描述的本体的三元组构建多个键值对,并将构建的多个键值对存储在多个计算节点中。
11.根据权利要求10所述的方法,其特征在于,所述将构建的多个键值对存储在多个计算节点中,包括:
如果构建的多个键值对中存在键及其对应的键值都相同的至少两个键值对,则在计算节点中存储相同的至少两个键值对中的一个键值对。
12.根据权利要求10所述的方法,其特征在于,所述将构建的多个键值对存储在多个计算节点中,包括:
将构建的多个键值对中键相同的键值对存储在同一个计算节点中。
13.一种基于本体的查询装置,其特征在于,多个计算节点中分别存储有根据资源描述框架RDF描述的本体的三元组构建的多个键值对,每个键值对包含一个键和一个键值,所述键值包含所述三元组的三个元素,所述键包含所述三元组的三个元素中的一个元素,所述装置包括:
第一获取模块,用于获取用户输入的至少一个待查询三元组,所述待查询三元组中的已知元素为查询条件,所述待查询三元组中的至少一个未知元素为查询对象;
查找模块,用于在每个计算节点存储的键值对中查找与所述第一获取模块获取到的查询条件相匹配的键值对;
第一确定模块,用于在所述查找模块查找到的相匹配的键值对的键值所包含的三个元素中确定所述查询对象对应的元素,得到在所述每个计算节点确定的所述查询对象对应的元素;
第二获取模块,用于根据在所述第一确定模块在每个计算节点确定的所述查询对象对应的元素获取查询结果。
14.根据权利要求13所述的装置,其特征在于,所述待查询三元组中的已知元素为一个,所述查询条件为所述待查询三元组中的一个已知元素,所述查找模块,用于在每个计算节点存储的键值对的键中查找与所述查询条件的一个已知元素相匹配的键,并将所述相匹配的键所对应的键值对作为与所述查询条件相匹配的键值对。
15.根据权利要求13所述的装置,其特征在于,所述待查询三元组中的已知元素为两个,所述查询条件为所述待查询三元组中的两个已知元素,所述查找模块,包括:
第一查找单元,用于在每个计算节点存储的键值对的键中查找与所述查询条件的其中一个已知元素相匹配的键;
第二查找单元,用于在所述第一查找单元查找到的相匹配的键所对应的键值中查找与所述查询条件的另一个已知元素相匹配的键值,并将所述相匹配的键值所对应的键值对作为与所述查询条件相匹配的键值对。
16.根据权利要求14所述的装置,其特征在于,所述第二获取模块,用于将在所述每个计算节点确定的所述查询对象对应的元素进行合并,得到查询结果。
17.根据权利要求15所述的装置,其特征在于,所述第二获取模块,用于将在所述每个计算节点确定的所述查询对象对应的元素进行合并,得到查询结果。
18.根据权利要求13所述的装置,其特征在于,所述待查询三元组中的已知元素为两个,所述查询条件为所述待查询三元组中的两个已知元素,所述查找模块,用于在每个计算节点存储的键值对的键中查找与所述查询条件的其中一个已知元素相匹配的键,并查找与查询条件的另一个已知元素相匹配的键,将与所述其中一个已知元素和另一个已知元素相匹配的键所对应的键值对作为与所述查询条件相匹配的键值对。
19.根据权利要求18所述的装置,其特征在于,所述第二获取模块,包括:
划分单元,用于将在所述每个计算节点确定的所述查询对象对应的元素按照所述查询条件的已知元素进行划分,得到根据所述查询条件的每个已知元素获取到的所述查询对象对应的元素;
第一获取单元,用于将所述划分单元划分得到的根据所述查询条件的每个已知元素获取到的所述查询对象对应的元素取交集,得到查询结果。
20.根据权利要求13至19任一权利要求所述的装置,其特征在于,所述待查询三元组为多个,所述第二获取模块,用于根据每个待查询三元组之间的关系及每个待查询三元组在所述每个计算节点确定的所述查询对象对应的元素获取查询结果。
21.根据权利要求20所述的装置,其特征在于,所述第二获取模块,包括:
第二获取单元,用于在所述每个待查询三元组之间的关系为与的关系时,将每个待查询三元组在所述每个计算节点确定的所述查询对象对应的元素取交集,得到查询结果;
第三获取单元,用于在所述每个待查询三元组之间的关系为或的关系时,则将每个待查询三元组在所述每个计算节点确定的所述查询对象对应的元素取并集,得到查询结果。
22.根据权利要求13所述的装置,其特征在于,所述装置还包括:
构建模块,用于根据RDF描述的本体的三元组构建多个键值对;
存储模块,用于将所述构建模块构建的多个键值对存储在多个计算节点中。
23.根据权利要求22所述的装置,其特征在于,所述存储模块,用于在构建的多个键值对中存在键及其对应的键值都相同的至少两个键值对时,则在计算节点中存储相同的至少两个键值对中的一个键值对。
24.根据权利要求22所述的装置,其特征在于,所述存储模块,用于将构建的多个键值对中键相同的键值对存储在同一个计算节点中。
CN201310102702.6A 2013-03-27 2013-03-27 基于本体的查询方法及装置 Active CN104077297B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310102702.6A CN104077297B (zh) 2013-03-27 2013-03-27 基于本体的查询方法及装置
JP2014045906A JP5813156B2 (ja) 2013-03-27 2014-03-10 オントロジに基づく問い合わせ方法及び装置
US14/203,765 US20140297653A1 (en) 2013-03-27 2014-03-11 Ontology-based query method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310102702.6A CN104077297B (zh) 2013-03-27 2013-03-27 基于本体的查询方法及装置

Publications (2)

Publication Number Publication Date
CN104077297A CN104077297A (zh) 2014-10-01
CN104077297B true CN104077297B (zh) 2017-05-17

Family

ID=51598557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310102702.6A Active CN104077297B (zh) 2013-03-27 2013-03-27 基于本体的查询方法及装置

Country Status (3)

Country Link
US (1) US20140297653A1 (zh)
JP (1) JP5813156B2 (zh)
CN (1) CN104077297B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11625424B2 (en) * 2014-04-24 2023-04-11 Semantic Technologies Pty Ltd. Ontology aligner method, semantic matching method and apparatus
CN104462317A (zh) * 2014-12-01 2015-03-25 苏州朗米尔照明科技有限公司 一种基于标签的数据筛选方法
CN106202092B (zh) 2015-05-04 2020-03-06 阿里巴巴集团控股有限公司 数据处理的方法及***
JP6790905B2 (ja) * 2017-02-20 2020-11-25 富士通株式会社 検出方法、検出装置および検出プログラム
JP6563151B2 (ja) * 2017-03-06 2019-08-21 三菱電機株式会社 オントロジー構築支援装置
CN108334563A (zh) * 2018-01-09 2018-07-27 北京明略软件***有限公司 一种数据查询的方法及装置
JP6855401B2 (ja) * 2018-02-08 2021-04-07 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
CN109299138A (zh) * 2018-08-21 2019-02-01 努比亚技术有限公司 一种数据库高并发查询方法、设备和计算机可存储介质
CN109033456B (zh) * 2018-08-28 2021-02-05 百度在线网络技术(北京)有限公司 一种条件查询方法、装置、电子设备和存储介质
CN111131345B (zh) * 2018-10-30 2022-04-15 伊姆西Ip控股有限责任公司 多云计算环境中的分散式节点查找器
US11586620B2 (en) * 2019-07-29 2023-02-21 Thoughtspot, Inc. Object scriptability
CN111694943B (zh) * 2020-05-29 2021-03-23 刘韩 一种精准信息查询方法及***
US11580111B2 (en) 2021-04-06 2023-02-14 Thoughtspot, Inc. Distributed pseudo-random subset generation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479239A (zh) * 2010-11-29 2012-05-30 国际商业机器公司 预存储rdf三元数据的方法和装置
CN102693310A (zh) * 2012-05-28 2012-09-26 无锡成电科大科技发展有限公司 一种基于关系数据库的资源描述框架查询方法和***
CN102693320A (zh) * 2012-06-01 2012-09-26 中国科学技术大学 一种搜索方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7904478B2 (en) * 2008-01-25 2011-03-08 Intuit Inc. Method and apparatus for displaying data models and data-model instances
US20110078166A1 (en) * 2009-09-29 2011-03-31 Nokia Corporation Method and apparatus for creating and utilizing information representation of queries

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479239A (zh) * 2010-11-29 2012-05-30 国际商业机器公司 预存储rdf三元数据的方法和装置
CN102693310A (zh) * 2012-05-28 2012-09-26 无锡成电科大科技发展有限公司 一种基于关系数据库的资源描述框架查询方法和***
CN102693320A (zh) * 2012-06-01 2012-09-26 中国科学技术大学 一种搜索方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KREAG_基于实体三元组关联图的RDF数据关键词查询方法;李慧颖等;《计算机学报》;20110531;第34卷(第5期);第825-835页 *
语义Web数据管理研究进展;杜小勇等;《软件学报》;20091130(第11期);第2950-2963页 *

Also Published As

Publication number Publication date
JP2014194766A (ja) 2014-10-09
CN104077297A (zh) 2014-10-01
US20140297653A1 (en) 2014-10-02
JP5813156B2 (ja) 2015-11-17

Similar Documents

Publication Publication Date Title
CN104077297B (zh) 基于本体的查询方法及装置
WO2021083239A1 (zh) 一种进行图数据查询的方法、装置、设备及存储介质
Özsu A survey of RDF data management systems
CN106021457B (zh) 基于关键词的rdf分布式语义搜索方法
Dreßler et al. On the efficient execution of bounded jaro-winkler distances
JP2015099586A (ja) データ集約のためのシステム、装置、プログラム、及び方法
US11216474B2 (en) Statistical processing of natural language queries of data sets
US20150213125A1 (en) System and method for skyline queries
CN102270232A (zh) 一种存储优化的语义数据查询***
CN107729371A (zh) 区块链的数据索引及查询方法、装置、设备及存储介质
CN110309171A (zh) 数据库查询方法、服务器和***
Wan et al. LKAQ: Large-scale knowledge graph approximate query algorithm
CN106021306B (zh) 基于本体匹配的案例搜索***
CN108241709A (zh) 一种数据集成方法、装置和***
CN110222240A (zh) 一种基于摘要图的空间rdf数据关键词查询方法
CN104794237B (zh) 网页信息处理方法及装置
CN106909626A (zh) 改进的决策树分类算法实现搜索引擎优化技术
Colucci et al. Common subsumbers in RDF
CN107229704A (zh) 一种基于ksp算法的资源描述框架查询方法和***
US20140337337A1 (en) Similarity Score Lookup and Representation
Li et al. Research on storage method for fuzzy RDF graph based on Neo4j
Curé et al. HAQWA: a Hash-based and Query Workload Aware Distributed RDF Store.
Abburu et al. Effective partitioning and multiple RDF indexing for database triple store
CN109063048A (zh) 一种基于知识库图匹配的数据清洗方法及装置
Aimonier-Davat et al. Online approximative SPARQL query processing for COUNT-DISTINCT queries with web preemption

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant