CN105956126A

CN105956126A - 基于关键字主次分类的xml查询方法

Info

Publication number: CN105956126A
Application number: CN201610298862.6A
Authority: CN
Inventors: 周文欢; 陈梵; 李鹏; 季玮; 花子岚; 方鹏; 孙克成
Original assignee: Nanjing SAC Automation Co Ltd
Current assignee: Nanjing SAC Automation Co Ltd
Priority date: 2016-05-06
Filing date: 2016-05-06
Publication date: 2016-09-21

Abstract

本发明公开了一种基于关键字主次分类的XML查询方法，通过对XML文档上进行数值节点索引、名称节点索引、实体E‑R索引构建和对查询关键字进行主次分类，并对查询表达式的查询语法结构、关键字的主次分类、操作符及其优先级方面进行了规范，用户可以利用自己掌握的关键字信息准确表达用户查询意图，在查询的准确性和有效性上相比于传统的关键字查询都有明显的改进。

Description

基于关键字主次分类的XML查询方法

技术领域

本发明涉及一种基于关键字主次分类的XML查询方法，属于信息查询技术领域。

背景技术

XML是可扩展标记语言的简称，伴随越来越多的Web应用，***平台间的数据交换，信息***中Web信息的发布以及集成等诸多领域都需要XML数据，网络中已涌现了大量符合XML规范的数据，XML技术在Web应用中不可或缺。因此，对于XML数据的有效检索将成为研究的一个重要方向。目前，XML数据检索方法主要有：结构化查询和关键字查询。结构化查询最大的优点就是可以根据用户给出的查询语言表达式获得精确的查询结果，但是它并不适用于普通用户，原因主要在于：用户必须学习与查询语言相关的语法机制，增加了用户使用的难度，制约了用户的使用习惯；另外，即便用户掌握了相关的语法机制，如果对要查询的XML文档的数据结构信息不了解，让用户给出正确的符合结构化查询语法机制的语句是比较困难的。在传统的信息检索领域，关键字查询方式是比较容易被普通用户接受的，它在数据查询中具有简单、便利的特点，因而可以将信息检索领域中关键字查询的优点应用到XML数据的查询处理中。传统信息检索中，在用户给出查询关键字时，一般返回的是整个HTML文档，而在XML关键字查询返回的仅是包含关键字的一个XML文档片段。相比结构化查询方式，XML关键字查询方式对用户的要求不高，不需要用户掌握复杂的查询语法，因此它是一种比较方便的查询方式。

但现有XML关键字查询由于对XML文档自身语义及用户查询意图获取的不足，往往导致大量与用户期望查询不一致或冗余的信息。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于关键字主次分类的XML查询方法，保证用户在不了解XML数据组织结构的情况下也能正确表达查询意图，提高查询的准确性和效率。

为实现上述目的，本发明所采用的技术方案是：一种基于关键字主次分类的XML查询方法，包括如下步骤：

步骤一：根据E-R模型对XML文档进行有效的索引机制建立，包括：数值节点索引建立、名称节点索引建立、实体E-R索引建立；建立完的整个实体E-R索引以虚线为界，分为B+树和链表两个部分；B+树中存储的是实体节点Dewey编码和指向链表的指针，而链表中索引项中存储的则是与实体节点相关的属性节点Dewey码以及其属性节点标签和其数值信息；

步骤二：对用户查询表达式的合法性判断，当用户输入查询表达式符合语法规则之后，从中分别获取主关键字分组和次关键字分组，通过节点所在的节点三元式以及节点的名称节点索引或数值节点索引得到每一个关键字分组的Dewey码集合；

步骤三：根据得到的每个关键字分组的Dewey码集合中的节点及实体B+树索引，确定每个次关键字分组及主关键字分组中关键字节点所对应的实体E-R子树；

步骤四：据查询表达式中的操作符执行操作运算，过滤操作符享有最高优先级，交集或并集运算次之；

步骤五：确定最终结果子树：主次实体子树应在满足过滤条件的情况下，最终进行结果的返回，主实体子树应是对次实体子树的包含。

步骤一中所述数值节点索引是用哈希表来存储每个数值节点的节点信息，链地址方法处理节点存储位置的冲突，每一个索引项包含节点的Dewey码及本位属性节点名称。

步骤一中所述名称节点索引是以哈希表结构来存储节点信息，链地址方法处理节点冲突；

每个存储单元包含节点Dewey码、标记该节点是属于连接节点、属性节点、还是实体节点的标记符，以及该节点所对应的本位实体节点或是最近祖先实体节点的信息。

步骤一中所述实体E-R索引是以B+树结构存储文档中实体节点的相关信息，包括该实体节点的Dewey编码以及实体节点所在实体E-R子树中各个属性节点Dewey码及标签信息。

步骤二的具体方法为：

步骤2-1：根据查询语法结构规则，检查查询用例表达式的合法性：

主关键字的每个分组“[]”中，不能出现单引号标记的数值节点；

主次关键字分组之间需要“|”过滤操作符进行分隔；

次关键字分组“[]”中只能是对一个属性或实体的描述，在一个次关键字分组中不能出现多个非数值节点；

当用户输入的表达式符合语法规则，则进行查询表达式解析；否则，输出提示；

步骤2-2：当用户输入查询表达式符合语法规则之后，算法需要解析用户输入的查询表达式，从中分别获取主关键字分组和次关键字分组，将其存入不同的数组中：对于每个次关键字分组，则需要根据所有的关键字节点对应的索引机制得到次关键字分组的Dewey码集合，不论次关键字组中的节点属于名称节点还是数值节点，都可以通过节点所在的节点三元式以及节点的名称节点索引或数值节点索引得到每一个关键字分组的Dewey码集合。

与现有技术相比，本发明所达到的有益效果是：本发明综合考虑文档自身语义及用户查询语义，保证用户在不了解XML数据组织结构、不掌握复杂查询语法的情况下，可以利用自身掌握的常识性信息，构造相应的查询语法，正确表达查询意图，提高查询的准确性和效率。

附图说明

图1是本发明的算法执行流程图。

图2是XML文档树结构图。

图3是E-R索引结构图。

图4是示例处理步骤图。

具体实施方式

本发明是针对于XML关键字查询时，根据关键字所表达的是查询结果或是查询限制条件，对用户的查询关键字分为两类：表明用户查询结果的关键字是主关键字，表明查询中限制信息的关键字是次关键字，在此分类基础上，提出一种新的基于关键字主次分类的查询表达式，构造相应的查询语法，使用户在不了解XML结构、不掌握复杂查询语法的前提下可以利用自身掌握的常识性信息，对查询用例中的关键字以明确的查询语义。下面对本发明的构思和本发明所涉及的基本信息进行概述。

首先根据E-R模型(E-R模型由实体、属性及关系构成，实体是对现实世界拥有相同信息的对象的抽象表示；属性是对实体所包含信息的抽象)的思想，将XML文档的各个节点进行分类处理，主要类型有四种：XML树中的叶子节点称为数值节点；若一个XML非叶子节点有且仅有一个数值子节点时，该节点被称为属性节点；若一个XML非叶子节点存在至少一个属性子节点时，该节点则是实体节点；若一个XML非叶子节点的子节点中既不存在属性节点也不存在数值节点，该节点为连接节点。同时完成对XML文档树进行索引结构的创建，为用户进行XML关键字查询做好预处理准备。

其次用户在进行查询时虽然不能了解详细的XML结构信息，但是凭借常识性信息，还是可以把握一些可客观信息。比如：属性值与属性之间的对应关系，属性与实体节点之间的对应关系或者给出的关键字节点是一个实体节点还是一个数值节点等等。因此，可以将关键字延伸至一个由关键字组成的表达式，并且为了准确地获取用户给出的关键字查询语义，对用户给出的关键字进行主次分类，主关键字表明用户查询结果，次关键字表明用户查询限制条件，并通过相关的语法规范机制构建查询表达式，使用户的查询意图及查询语义更加明确。其查询表达式语法如下：

查询语法由三部分组成，主关键字表达式、次关键字表达式、操作符。主关键字表达式一般表示的是返回用户期望信息的，而次关键字表达式则是指明查询约束条件的；其查询语法结构如下：

PSO＝(Primary_keyword_expression，Secondary_keyword_expression，opE-Rator)；

Primary_keyword_expression的形式为“[keyword]”；

Secondary_keyword_expression的形式为“[keyword“keyword”]”∪or∩“[keyword“keyword”]”；

主关键字和次关键字表达式之间用“|”符号进行分隔，两种关键字表达式都是由0个或多个关键字分组组成，位于“[]”内。不同的主关键字表达式之间是并(∪)的关系，不同的次关键字表达式之间存在并(∪)和交(∩)两种关系，每一个关键字组中，关键字间由空格分开，被单引号标记的是值节点，其他的均为元素节点。

基于关键字主次分类表达式的查询用例可以是由传统关键字组成的查询用例，也可以是由对关键字进行分类并加入操作运算符的查询，这完全取决于用户对于关键字信息的了解程度。并且它也没有严格规定用户使用语法，使得这种方式的查询更适用于在XML这种数据结构中。

然后根据明确的XML查询语义表达式和已经构造好的索引结构XML文档树确定每个主关键字分组及次关键字分组中关键字节点所对应的实体E-R子树。

最后，根据查询表达式中的操作符执行操作优先级的过滤。确定最终结果子树。主次实体子树应在满足过滤条件的情况下，最终进行结果的返回。主实体子树应是对次实体子树在一定程度上的包含。其操作符定义及操作优先级如下：

(1)交集(∩)操作符

交集操作符在关键字主次分类表达式查询用例中是以“∩”作标识，它需要和过滤操作符一起使用，返回的是与交集操作符连接的两个次关键字分组所匹配的次实体子树。然后主实关键字组对应的主实体子树根据交集操作返回的结果作为查询所要返回结果的一个筛选条件。

(2)并集(∪)操作符

并集操作符在关键字主次分类表达式查询用例中以“∪”作为标识，同样需要与过滤操作符一起使用，返回至少与并集操作符连接的两个关键字分组中的一个所关联的实体子树。并集操作符是比交集操作符更宽松的查询限制条件，因为它仅需要主实体子树关联并集操作符两个子关键字分组中的一个就可以。

(3)过滤(|)操作符

过滤操作符在关键字主次分类表达式查询用例中以“|”作为标识，它将主关键字对应的主实体子树与次关键字对应的次实体子树相关联。如果主实体子树与任何次实体子树都不存在关联，那么过滤操作符就会过滤这次的查询结果；只有当主实体子树与次实体子树存在一定关联性的时候，查询结果才会被保留。

基于关键字主次分类表达式的操作符的优先级是有一定要求的，过滤操作符有着最高的优先级，并集和交集操作符次之，两者优先级等同。查询用例中可以包含多个主关键字分组，这些主关键字分组之间是没有关联、相互独立的，它们可以被分解为单个主关键字分组的表达式。例如：表达式[PK1][PK2]|[SK]就等价于两个独立的表达式[PK1]|[SK]和[PK2]|[SK]。

下面结合附图对本发明作详细描述，如图1所示，基于关键字主次分类的XML查询方法，具体包括以下几个步骤：

步骤1：根据E-R模型对XML文档进行有效的索引机制建立，建立完的整个实体E-R索引以虚线为界，分为B+和链表两个部分；B+树中存储的是实体节点Dewey编码和指向链表的指针，而链表中索引项中存储的则是与实体节点相关的属性节点Dewey码以及其属性节点标签和其数值信息。具体步骤方法如下：

步骤1-1：数值节点索引建立，数值节点索引是一个用哈希表来存储每个数值节点的节点信息，链地址方法处理节点存储位置的冲突。每一个索引项包含节点的Dewey码及本位属性节点名称；

步骤1-2：名称节点索引建立，名称节点索引同样是以哈希表结构来存储节点信息，链地址方法处理节点冲突，每个存储单元包含节点Dewey码、标记该节点是属于连接节点、属性节点、还是实体节点的标记符(分别用0、1、2标记)，以及该节点所对应的本位实体节点或是最近祖先实体节点的信息；

步骤1-3：实体E-R索引建立，实体E-R索引是P&SCE算法的关键索引，它以B+树结构存储文档中实体节点的相关信息，包括该实体节点的Dewey编码以及实体节点所在实体E-R子树中各个属性节点Dewey码及标签信息。

步骤2：对用户查询表达式的合法性判断和表达式的解析，具体步骤方法如下：

步骤2-1：根据查询语法(PKO)结构规则，检查查询用例表达式的合法性。主关键字的每个分组“[]”中，不能出现单引号标记的数值节点。主次关键字分组之间需要“|”过滤操作符进行分隔，次关键字分组“[]”中只能是对一个属性或实体的描述，在一个次关键字分组中不能出现多个非数值节点。如果用户输入的表达式不符合语法规则，会提示用户；

步骤2-2：当用户输入查询表达式符合语法规则之后，算法需要解析用户输入的查询表达式，从中分别获取主关键字分组和次关键字分组，将其存入不同的数组中。对于每个次关键字分组，则需要根据所有的关键字节点对应的索引机制得到次关键字分组的Dewey码集合。不论次关键字组中的节点属于名称节点还是数值节点，都可以通过节点所在的节点三元式以及节点的名称节点索引或数值节点索引得到每一个关键字分组的Dewey码集合。

步骤3：根据得到的每个关键字分组的Dewey码集合中的节点及实体B+树索引，确定每个次关键字分组及主关键字分组中关键字节点所对应的实体E-R子树。

步骤4：据查询表达式中的操作符执行操作运算，上文中对于操作符处理以及优先级已经给出了明确的规则，过滤操作符享有最高优先级，交集(∩)or并集(∪)运算次之。因此，按照查询表达式从左到右的操作符号进行操作，考虑实体子树之间的关联关系。

步骤5：确定最终结果子树。主次实体子树应在满足过滤条件的情况下，最终进行结果的返回。主实体子树应是对次实体子树在一定程度上的包含。这其中的运算需要借助实体B+树索引机制，最终返回相关节点信息。

下面结合具体实施例对本发明作进一步描述，以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如一个XML文档树结构如图2所示，查询实例为：“QC＝[team]|[name“LakE-Rs”]∩[playE-R“Kobe”]”，

step1：构建XML文档的E-R索引结构，如图3所示。

step3：对于查询用例QC，算法P&SCE检查后认为其为有效查询表达式。

Step3：获取主次关键字分组以及操作符，然后匹配关键字节点。对于QC中主关键字分组中只有“team”关键字，次关键字分组中有“name”、“LakE-Rs”、“playE-R”、“Kobe”四个关键字。

Dewey(team)＝{0.0.2.0，0.0.2.1，….，0.0.2.6}

Dewey(name)＝{0.0.0，0.0.2.0.0，0.0.2.0.4.0.0，….}

Dewey(LakE-Rs)＝{0.0.2.0.0.0}

Dewey(playE-R)＝{0.0.2.0.4.0，0.0.2.0.4.1，0.0.2.0.4.2，……}

Dewey(Kobe)＝{0.0.2.0.4.0.0.0}

Step4：从名称节点索引以及数值节点索引中，算法查找每个关键字对应的实体子树节点Dewey码集合。可知，est(team)＝{0.0.2.0，0.0.2.1，….，0.0.2.6}，est(name“LakE-Rs”)＝{0.0.2.0}，est(playE-R“Kobe”)＝{0.0.2.0.4.0}

Step5：根据操作运算符ops执行操作运算，est(team)|est(name“LakE-Rs”)执行下的结果是以同位关联于team(0.0.2.0)为根的实体子树，再考虑交集(∩)操作，很显然team(0.0.2.0)为根的实体子树高位关联于以playE-R(0.0.2.0.4.0)为根的实体子树。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.基于关键字主次分类的XML查询方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于关键字主次分类的XML查询方法，其特征在于，步骤一中所述数值节点索引是用哈希表来存储每个数值节点的节点信息，链地址方法处理节点存储位置的冲突，每一个索引项包含节点的Dewey码及本位属性节点名称。

3.根据权利要求2所述的基于关键字主次分类的XML查询方法，其特征在于，步骤一中所述名称节点索引是以哈希表结构来存储节点信息，链地址方法处理节点冲突；

4.根据权利要求3所述的基于关键字主次分类的XML查询方法，其特征在于，步骤一中所述实体E-R索引是以B+树结构存储文档中实体节点的相关信息，包括该实体节点的Dewey编码以及实体节点所在实体E-R子树中各个属性节点Dewey码及标签信息。

5.根据权利要求1所述的基于关键字主次分类的XML查询方法，其特征在于，步骤二的具体方法为：

主次关键字分组之间需要“|”过滤操作符进行分隔；