CN104346332A

CN104346332A - Xml数据库全文检索方法及***

Info

Publication number: CN104346332A
Application number: CN201310311498.9A
Authority: CN
Inventors: 赵伟; 李�浩; 郑程光; 孙伟丰; 罗正海; 陈丽娟
Original assignee: FOUNDER DIGITAL PUBLISHING TECHNOLOGY (SHANGHAI) CO LTD; Founder Information Industry Holdings Co Ltd; Peking University Founder Group Co Ltd
Current assignee: FOUNDER DIGITAL PUBLISHING TECHNOLOGY (SHANGHAI) CO LTD; Founder Information Industry Holdings Co Ltd; Peking University Founder Group Co Ltd
Priority date: 2013-07-23
Filing date: 2013-07-23
Publication date: 2015-02-11

Abstract

本发明提供了一种XML数据库全文检索方法及***，该方法包括：在XML数据库中设置停用词元数据表、词汇关系元数据表、词根化元数据表、以及中文分词元数据表，并且各元数据表中每一行以一个字符串为主键；在进行查询时，利用所述字符串引用与其对应的词汇表。利用本发明，可以使用户根据自身应用需求来扩展和定制全文检索运行方式。

Description

XML数据库全文检索方法及***

技术领域

本发明涉及数据库技术领域，具体而言，涉及一种XML数据库全文检索方法及***。

背景技术

XML数据库管理***是近年来快速发展的一种新型的数据库管理***（DBMS），它存储和检索的数据是XML文档，并且支持更新XML文档。由于存储和检索的是XML文档，所以XMLDBMS常常被用作文档数据库，全文检索就是XML数据库管理***的一个重要功能。

XML数据的检索和更新语言是由W3C制定的标准的XQuery和XQuery Update。W3C同时制定了XQuery Fulltext标准，作为XMLDBMS的标准的全文检索语言。XQuery Fulltext标准制定了在XQuery Fulltext查询中使用任意的停用词(Stopwords)、词汇关系（Thesaurus）和词根化（Stemming）词汇表的机制。

Stopwords词汇表的作用是在全文检索过程中忽略非常常用的单词，比如冠词，助词，语气词，介词等等，因为这些词在大多数文本中都存在，失去了索引的意义和价值；这些词被列在一个Stopwords词汇表中，做分词和全文检索的词语匹配时，就忽略这些单词，认为它们与任何单词都匹配。

Thesaurus词汇表的作用是定义词汇之间的关系，比如词汇关系，词汇意义的扩展或者缩小关系，常用与不常用关系等，以便在查找一个词的时候也可以找到含有与之有指定关系的其他词语的文本。

Stemming词汇表的作用是在英语等西文语言中作词根匹配，只要两个单词有相同的词根，就可以认为它们相等，虽然他们在字面上并不相同。比如英文中的done和doing在启用词根化选项时是相同的单词。

然而，上述Stopwords、Thesaurus和Stemming词汇表的机制显然不适用于中文。

发明内容

本发明提供一种XML数据库全文检索方法及***，可以使用户根据自身应用需求来扩展和定制全文检索运行方式。

为此，本发明实施例提供如下技术方案：

一种XML数据库全文检索方法，所述方法包括：

在XML数据库中设置停用词元数据表、词汇关系元数据表、词根化元数据表、以及中文分词元数据表，并且各元数据表中每一行以一个字符串为主键；

在进行查询时，利用所述字符串引用与其对应的词汇表。

优选地，所述方法还包括：

接收用户设定的词汇关系名称，并在词汇关系词汇表中使用所述词汇关系名称定义词汇关系；

根据所述词汇关系词汇表生成所述词汇关系元数据表。

优选地，所述方法还包括：

根据用户注册的词根化词汇表生成所述词根化元数据表。

优选地，所述方法还包括：

接收用户注册的一个或多个专业词汇表；

根据所述专业词汇表生成所述中文分词元数据表。

优选地，所述字符串为统一资源定位符URL字符串。

优选地，所述方法还包括：

在进行全文查询时，如果启用了词根化词汇表，则先获取用户查询语句中的关键词和XML节点数据行中的关键词这两个关键词的词根，然后比较这两个词根是否相同。

优选地，所述方法还包括：

如果启用了词根化词汇表，并且需要查询全文索引表，则将词根化词汇表中的每个词都去查询全文索引表，得到多个数据行标识TID位图；

对所述多个TID位图做或运算，得到符合全文检索条件的节点集合。

一种XML数据库全文检索***，所述***包括：

设置单元，用于在XML数据库中设置停用词元数据表、词汇关系元数据表、词根化元数据表、以及中文分词元数据表，并且各元数据表中每一行以一个字符串为主键；

查询单元，用于在进行查询时，利用所述字符串引用与其对应的词汇表。

优选地，所述***还包括：

接收单元，用于接收用户设定的词汇关系名称，和/或接收用户注册的一个或多个专业词汇表；

所述设置单元，具体用于在词汇关系词汇表中使用所述词汇关系名称定义词汇关系，并根据所述词汇关系词汇表生成所述词汇关系元数据表；根据用户注册的词根化词汇表生成所述词根化元数据表；根据所述专业词汇表生成所述中文分词元数据表。

优选地，所述查询单元在进行全文查询时，如果启用了词根化词汇表，则先获取用户查询语句中的关键词和XML节点数据行中的关键词这两个关键词的词根，然后比较这两个词根是否相同。

优选地，所述***还包括：

所述查询单元，在启用了词根化词汇表，并且需要查询全文索引表时，将词根化词汇表中的每个词都去查询全文索引表，得到多个数据行标识TID位图；对所述多个TID位图做或运算，得到符合全文检索条件的节点集合。

本发明实施例提供的XML数据库全文检索方法及***，本发明实施例的方法可以使XQuery Fulltext的全文检索功能更加灵活、完备和可定制，使语料库的管理和使用变得高效，稳定、可靠；特别是可以动态配置的中文分词库的使用，大大提高了中文全文检索的精准度、灵活性和智能性。可扩动态配置的stemming词库，因此可以使XMLDBMS不依赖任何人类语言的语言学特征完成词根化，保持XMLDBMS全文检索内核的独立性和语言无关性。本发明实施例的方法还可以灵活地自定义词汇间关系，以便在全文检索中充分发挥人类语言的灵活性。

附图说明

图1是本发明实施例XML数据库检索方法的流程图；

图2是本发明实施例XML数据库检索***的一种结构示意图；

图3是本发明实施例XML数据库检索***的另一种结构示意图。

具体实施方式

下面将参考附图并结合实施例，来详细说明本发明。

现有***的Stopwords和Thesaurus词汇表是内建的，不可配置，并且它们的Stemming词汇表是使用固定的程序算法实现的，因此需要针对每种自然语言实现不同的算法，灵活性和准确性较低，而且不适合中文语言。

为此，本发明实施例通过在***中实现对这三种资源的配置，并且让用户可以在查询中选择使用他配置的词库来增强***处理所有自然语言的灵活性。

对于全文检索的需求来说，特别是中文的全文检索需求来说，标准的XQuery Fulltext定义的功能还很不完整。首先，中文分词需要中文词库支持，但是词库根据文本内容不同，可能需要很多种，比如日常用语词库，各种科学技术专业词库，例如生物学专业词库，医疗专业词库，化学化工专业词库等等。中文分词库的作用是根据词库中的词汇进行字符切割以便把一个中文字符串切分为合乎语境语义的若干个词语。由于在各种专业词库中有大量专业词汇，这些词汇在日常生活中极少出现；甚至在不同的组合方式下可以分出不同意义的词语集合，导致同一份文本在使用不同的专业词库时可以得到完全不同的分词结果。所以需要为专业文本使用正确的专业词库以便准确分割出该专业的词汇。

另外，XQuery Fulltext标准中的Stemming词汇表和Thesaurus词汇表不够灵活。

为此，本发明实施例提出了一套统一的基于动态语料库的XQuery Fulltext全文检索扩展机制，它包括对语料库的管理和使用；以及在XQuery Fulltext现有的使用Stopwords和Thesaurus词汇表的基础上，使用中文分词词汇表，Stemming词汇表和可以扩展的Thesaurus词汇表。

如图1所示，是本发明实施例XML数据库全文检索方法的流程图，包括以下步骤：

步骤101在XML数据库中设置停用词元数据表、词汇关系元数据表、词根化元数据表、以及中文分词元数据表，并且各元数据表中每一行以一个字符串为主键；

步骤102，在进行查询时，利用所述字符串引用与其对应的词汇表。

在本发明实施例中，上述四种词汇表分别存储在对应的词库中，即Stopwords词库、Thesaurus词库、中文分词词库、Stemming词库。这些词库统称为语料库，它们都是让用户根据自身应用需求来扩展和定制全文检索运行方式的工具。

上述四种语料库分别存储在Stopwords元数据表、Thesaurus元数据表、中文分词元数据表、和Stemming元数据表中。也就是说，元数据表中存储着stopwords/stemming/thesaurus/中文词汇表这几种语料，组成了语料库。其中，每一个表是一个独立的***元数据表。在查询语句中有对某种语料库的词汇表的引用时，就查询对应的元数据表来解析和使用词汇表。

进一步地，为了准确地完成对任意人类语言的词根化（Stemming），不在XML数据库管理***内核实现中依赖于语言本身的特征完成词根化，而是让用户注册Stemming词汇表，用于指定多个单词的词根，这样XML数据库管理***内核完全不需要理解所处理的语言的语言学特征。这样做可以让XML数据库管理***脱离对其所存储的文本的人类语言特征的依赖，以便统一地准确地处理任何一种人类语言文字。

同时为了准确地完成专业性强的中文文本的分词，本发明实施例还提出在XML数据库管理***中让用户可以注册任意多个中文专业词汇表到XML数据库管理***中，在使用XML数据库管理***时用户可以动态地选择使用某一个专业词汇表来完成中文分词。

另外，本发明实施例中，还可以由用户在Thesaurus标准定义的“USE,UF,BT,NT,BTG,NTG,BTP,NTP,TT,RT”几种词汇关系之外，定义任意的词汇关系，比如反义词（可以缩写为ASYN）等，只要在Thesaurus词汇表中使用这种词汇关系名称即可。然后在Xquery Fulltext查询语句中就可以指定这种词汇关系。

存储上述四种语料库的元数据表中每一行以一个字符串为主键，这个字符串通常是一个统一资源定位符（URL）字符串以确保唯一性；在XQuery Fulltext查询中，就使用这个字符串来引用一个词汇表。一个词汇表作为一个字符串构成一个数据行，整体存储在对应的元数据表中。由于这四种词汇表的内容通常并不很大（即使一百万字的词汇表也只有2-3MB的数据量），所以这样做没有任何问题。当XQuery Fulltext中出现了对词汇表（即语料）的引用（其形式为at“url字符串”，是XQuery Fulltext定义的）时，URL字符串被用作查询条件，在对应的语料库的元数据表中查找目标词汇表。目标词汇表从元数据表中取出来后，被按照各自所需的方式解析出来并且装入内存数据结构中以完成快速的查询操作。

要使用一个Stemming词汇表时，用户需要在查询语句中指定“using stemming at URL”的形式。其中“at URL”这部分是可选的，是本发明实施例对XQuery Fulltext语言的扩展。XMLDBMS***默认使用***内置的英语的Stemming词汇表。用户可以注册任意的Stemming词汇表，并且在使用中用一个唯一的字符串（通常是URL）来标识即可。

使用一个Stemming词汇表的方式是将一组词与它们的词根组织成一个整体，构成一个stemming词组。做全文检索时如果启用了Stemming词汇表，则在做关键词比较时，先找到需要比较的两个关键词（即用户查询语句中的关键词和XML数据库中存储的XML节点数据行中的关键词）的词根，然后比较词根是否相同。如果相同，则认为比较的两个关键词相同。

如果要查询全文索引，那么查询引擎将Stemming词组中的每个词都去查询全文索引表得到若干个TID（Tuple id，数据行标识）格式的位图，然后对这些TID格式的位图做或运算，即可得到符合全文检索条件的节点集合。TID是数据行的位置编码，TID位图就是将这些编码以位图的形式存储起来。得到了TID位图，就相当于得到了含有目标数据的数据行的位置，也就意味这查找到了结果。

所述全文索引表是用于高效地检索含有目标关键词的数据行。它以关键词为键值，以TID为值，数据库***用该TID可以得到目标数据行。在***一行数据时，***会对该数据做分词，得到一串关键词，然后将这些关键词以及这个数据行的TID构成若干条索引数据行（每行一个关键词），***全文索引表中，以便查询时能够用其中任何一个关键词找到该数据行。

现有技术对文档的检索通常没有这么细的粒度，通常只能找到含有目标关键词的段落，并且针对的是文本文件。本发明实施例可以定位到XML节点级别，针对XML数据进行检索。

要使用一个中文分词词汇表时，用户需要在其连接会话中用这个词汇表的标识字符串来引用这个词汇表，将它设置为本次连接期间使用的中文分词词汇表。设置之后，这个词汇表被XMLDBMS从中文分词词库这个元数据表中查询出来，并且其中的词语被设置到XMLDBMS***内部的中文分词器对象中。中文分词器在***XML文档时就使用这些词语对文本节点的字符串做分词以便构建全文索引表的键值，以及在执行全文检索时对查询字符串做中文分词。在一次连接期间用户可以多次改变该设置，以便在一次连接期间完成对多种专业文本的分词。

XQuery Fulltext标准使用的Thesaurus的词汇关系是由ISO2788定义的（见http://www.w3.org/TR/xpath-full-text-10/#iso-2788），它定义的词语间关系包括USE,UF,BT,NT,BTG,NTG,BTP,NTP,TT,RT。在thesaurus词汇表中指定词汇间关系的格式是：word1\tRELATIONSHIP\tword2，例如”mom USE mum”。用户可以在RELATIONSHIP这个部分使用任意一个由26个字母组成的字符串代表某种自定义的词语间关系。在全文检索查询语句中，像使用其他标准的关系字符串一样的方式来指定这个关系字符串即可找到与指定单词有指定关系的词语。

在实现层面，以关系字符串和word1为条件来查询得到word2，也就是与word1具有指定关系的词语。比如可以这样指定”love”与”hate”两个单词的反义词关系：”love ASYN hate”，并且这个词汇关系注册在名为”http://www.fouderdpt.com/default/thesaurus”的thesaurus词汇表中。这样在全文检索语句中可以这样指定thesaurus选项：”contains text“love”using thesaurus athttp://www.fouderdpt.com/default/thesaurus relationship ASYN”，这样就可以使用这个词汇关系找到所有含有与”love”反义的词语的那些文本。

本发明实施例的方法可以使XQuery Fulltext的全文检索功能更加灵活、完备和可定制，使语料库的管理和使用变得高效，稳定、可靠；特别是可以动态配置的中文分词库的使用，大大提高了中文全文检索的精准度、灵活性和智能性。可扩动态配置的stemming词库，因此可以使XMLDBMS不依赖任何人类语言的语言学特征完成词根化，保持XMLDBMS全文检索内核的独立性和语言无关性。本发明实施例的方法还可以灵活地自定义词汇间关系，以便在全文检索中充分发挥人类语言的灵活性。

相应地，本发明实施例还提供一种XML数据库全文检索***，如图2所示，是该***的一种结构示意图。

在该实施例中，所述***包括：

设置单元201，用于在XML数据库中设置停用词元数据表、词汇关系元数据表、词根化元数据表、以及中文分词元数据表，并且各元数据表中每一行以一个字符串为主键；

查询单元202，用于在进行查询时，利用所述字符串引用与其对应的词汇表。

如图3所示，是本发明实施例XML数据库全文检索***的另一结构示意图。

与图2所示实施例不同的是，在该实施例中，所述***还包括：接收单元203，用于接收用户设定的词汇关系名称，和/或接收用户注册的一个或多个专业词汇表。

相应地，在该实施例中，设置单元201具体用于在词汇关系词汇表中使用所述词汇关系名称定义词汇关系，并根据所述词汇关系词汇表生成所述词汇关系元数据表；根据用户注册的词根化词汇表生成所述词根化元数据表；根据所述专业词汇表生成所述中文分词元数据表。

相应地，在该实施例中，查询单元202在进行全文查询时，如果启用了词根化词汇表，则先获取用户查询语句中的关键词和XML节点数据行中的关键词这两个关键词的词根，然后比较这两个词根是否相同。

相应地，在该实施例中，查询单元202在启用了词根化词汇表，并且需要查询全文索引表时，将词根化词汇表中的每个词都去查询全文索引表，得到多个数据行标识TID位图；对所述多个TID位图做或运算，得到符合全文检索条件的节点集合。

本发明实施例的***可以使XQuery Fulltext的全文检索功能更加灵活、完备和可定制，使语料库的管理和使用变得高效，稳定、可靠；特别是可以动态配置的中文分词库的使用，大大提高了中文全文检索的精准度、灵活性和智能性。可扩动态配置的stemming词库，因此可以使XMLDBMS不依赖任何人类语言的语言学特征完成词根化，保持XMLDBMS全文检索内核的独立性和语言无关性。本发明实施例的***还可以灵活地自定义词汇间关系，以便在全文检索中充分发挥人类语言的灵活性。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种XML数据库全文检索方法，其特征在于，所述方法包括：

在进行查询时，利用所述字符串引用与其对应的词汇表。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述词汇关系词汇表生成所述词汇关系元数据表。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据用户注册的词根化词汇表生成所述词根化元数据表。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收用户注册的一个或多个专业词汇表；

根据所述专业词汇表生成所述中文分词元数据表。

5.根据权利要求1所述的方法，其特征在于，所述字符串为统一资源定位符URL字符串。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.一种XML数据库全文检索***，其特征在于，所述***包括：

9.根据权利要求8所述的***，其特征在于，所述***还包括：

10.根据权利要求8或9所述的***，其特征在于，

所述查询单元在进行全文查询时，如果启用了词根化词汇表，则先获取用户查询语句中的关键词和XML节点数据行中的关键词这两个关键词的词根，然后比较这两个词根是否相同。

11.根据权利要求10所述的***，其特征在于，所述***还包括：