CN101187941A - 用于最优化索引搜索的方法和设备 - Google Patents
用于最优化索引搜索的方法和设备 Download PDFInfo
- Publication number
- CN101187941A CN101187941A CNA2007101927081A CN200710192708A CN101187941A CN 101187941 A CN101187941 A CN 101187941A CN A2007101927081 A CNA2007101927081 A CN A2007101927081A CN 200710192708 A CN200710192708 A CN 200710192708A CN 101187941 A CN101187941 A CN 101187941A
- Authority
- CN
- China
- Prior art keywords
- node
- key value
- field
- level
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了一种最优化索引搜索设备和方法,所述最优化索引搜索方法包括:在索引中搜索与第一关键字值对应的第一字段;当输入搜索请求时,基于第一字段搜索与搜索请求对应的第二字段;和提取与发现的第二字段对应的标识符。
Description
本申请要求于2006年11月23日提交到韩国知识产权局的第2006-116560号韩国专利申请的利益,其公开包含于此以资参考。
技术领域
本发明的各方面涉及一种最优化索引搜索设备和方法,更具体地讲,涉及一种使用增加存储空间的效率并提供各种操作的索引的搜索方法和最优化索引搜索设备。
背景技术
基于元数据的用户界面(UI)已经随着数字内容技术的进步和不断增长的普及性而变得流行。当存在大量数据时,难以仅使用文件夹和文件名来搜索内容。然而,基于元数据的UI能够改变搜索条件来搜索内容,并使得用户能够容易地记住元数据值。
具体地讲,在基于元数据的浏览中,基于多层次聚类的UI使得用户能够更方便地理解内容的分布,并且能够通过应用多种搜索条件来更有效地访问期望的内容。基于多层次聚类的UI对按层次分类的内容进行聚类,并使用索引以便在聚类之间移动。
聚类指的是将相似的对象分为一组。在多层次聚类中,根据第N条件(N≥1)划分的每个聚类可根据第(N+1)条件被进一步划分为更详细的聚类。内容浏览器通过根据预定条件将整个内容划分为多个聚类并随后将划分的内容提供给用户,来选择基于多层次聚类的UI
图1示出了存储图像信息的表的图解。如图1所示,对于表的每条记录,存在与关于年、月、日的信息对应的字段12。由该表管理的图像经由多层次聚类的UI,根据基于年、月、日字段12的三个层次中的每一层次被进行聚类,并随后被显示在屏幕上。按照标题对最低层次(即,“日”)的聚类进行排序和显示。为了实现多层次聚类的UI,应该从数据库中提取包括在聚类中的图像记录。
如果期望浏览包括在2006年(第一层次)5月(第二层次)1日(第三层次)中的相片,可通过以下查询将记录显示在屏幕上,即,“Select*from Tablewhere year=2006 and month=5 and day=1 order by title”。
当包括关于若干个字段的预定条件的查询(诸如上述查询)在没有适当索引的情况下被处理时,根据图像记录数量的增加,需要更长的时间来处理查询。当在查询中使用等号(=)并且存在关于最低字段的排序条件时,使用多列B+树索引。多列B+树索引组合相应字段并将所述相应字段作为索引的关键字来使用。
图2描述了多列B+树索引20的结构。如图2所示,如果使用多列B+树索引20,则当选择年、月、日作为特定值时,满足预定条件的索引的条目已经按照标题顺序被排列并且彼此相邻。因此,没有可减少查询花费的时间的另外的排列成本。
当浏览第二层次(月)或第一层次(年),而非第三层次(日)时,可使用多列B+树索引。然而,因为仅使用多列B+树索引20获得按照每一高层次显示的聚类名需要更长的时间,所以需要附加索引(如图3所示)。为了使用多列B+树索引20获得将在第一层次上显示的聚类,应该读取索引的所有条目,这不能满***互式屏幕配置所需的响应时间。
图3描述了用于存储多层次聚类的多列B+树索引。如上所述,为了减少响应时间,需要附加索引30以快速搜索存在于相应字段中的值。当用户希望显示配置第一层次的聚类时,使用第一层次聚类的名称作为索引。如果用户希望显示包括在预定聚类(例如,与2005对应的聚类)中的记录时,多列B+树索引连续读取2005的记录(“年=2005”)。
当在第二层次中浏览聚类时,需要“年、月”的多列B+树索引40以减少响应时间。当在第三层次中浏览聚类时,需要“年、月、日”的多列B+树索引50。如果配置全部层次的字段的数量为N,则所需的多列B+树索引的总数为N。因此,第一层次关键字值被重复地存储在N个索引中,并且第二层次关键字值被存储在N-1个索引中,这导致存储空间的浪费。
发明内容
本发明的各方面提供了一种使用增加存储空间的效率并提供各种操作的更有效的索引的最优化索引搜索设备和方法。
根据本发明的一方面,提供了一种最优化索引搜索方法,包括:在索引中搜索与第一关键字值对应的第一字段;当输入搜索请求时,基于第一字段在索引中搜索与搜索请求对应的第二字段;和提取与第二字段对应的标识符。
根据本发明的另一方面,提供了一种最优化索引搜索设备,包括:搜索单元,在索引中搜索与第一关键字值对应的第一字段;并且当输入搜索请求时,基于第一字段搜索与搜索请求对应的第二字段;和提取单元,提取与第二字段对应的标识符。
根据本发明的另一方面,提供了一种用于最优化搜索与用户输入的搜索请求层次对应的字段的索引的单元,所述单元包括:第一字段,存储第一层次的第一关键字值;第二字段,存储第二层次的第二关键字值;第一指针,指向包含不同于所述第一关键字值的第一层次的另一第一关键字值的另一单元的另一节点;第二指针,指向包含不同于所述第二关键字值的第二层次的另一第二关键字值的另一单元的另一节点,其中,用于识别内容的元数据或内容的标识符对应于所述第一关键字值和所述第二关键字值。
根据本发明的另一方面,提供了一种最优化索引搜索方法,包括:在索引中搜索与第一关键字值对应的第一字段;接收对低于第一字段的层次的指定层次的搜索操作;基于第一字段对与指定层次对应的第二字段执行搜索操作;和提取与存储在第二字段中的第二关键字值对应的标识符。
在下面的描述中将部分地阐明本发明另外的方面和/或优点,通过描述部分地将会变得更加清楚,或者通过实施本发明可以了解。
附图说明
通过下面结合附图对实施例进行的描述,本发明的这些和/或其他方面和优点将会变得清楚和更易于理解,其中:
图1示出了存储图像信息的表的图解;
图2描述了多列B+树索引的结构;
图3描述了用于存储多层次聚类的多列B+树索引;
图4是显示根据本发明实施例的最优化索引搜索设备的框图;
图5是显示根据本发明实施例的最优化索引搜索方法的流程图;
图6描述了根据本发明实施例的索引的叶节点;
图7是显示根据本发明实施例的索引节点的结构的示图;
图8描述了根据本发明实施例的索引的叶节点的单元(cell)结构;
图9示出了根据本发明实施例的单元结构的示例;和
图10描述了根据本发明实施例的用于索引搜索的UI。
具体实施方式
现在对本发明实施例进行详细的描述,其示例表示在附图中,其中,相同的标号始终表示相同组件。下面通过参照附图对实施例进行描述以解释本发明。
图4是显示根据本发明实施例的最优化索引搜索设备200的框图。最优化索引搜索设备200包括存储单元205、管理单元207、搜索单元210、UI提供单元215、提取单元220和内容提供单元230。
存储单元205存储索引中的关键字值和标识符。关键字值可存储在索引的每个字段中,标识符可以是记录ID(RID)。索引的每个字段存储指示节点(上一关键字值和下一关键字值存储在其中)的一个或多个指针。如果上一关键字值和/或下一关键字值存在于相同的节点中,则可省略存储指针。将参照图6至图9描述根据本发明各方面的索引结构。
管理单元207管理存储在存储单元205中的值。例如,管理单元207排列、添加、删除和更新存储的值。
搜索单元210在索引中搜索相应字段。如果输入请求,则搜索单元210搜索与请求对应的层次的字段。搜索单元210可包括UI提供单元215,或者UI提供单元215可被单独地布置。
UI提供单元215为用户提供用户界面(UI),以便用户可通过提供的UI搜索与关键字值对应的字段。也就是说,当用户通过UI提供单元215选择关键字值时,经由搜索单元210发现相应字段,这将在图10中示出。
提取单元220提取与发现的字段对应的标识符。标识符可以是记录ID(RID)。提取单元220提取与关键字值对应的RID。
内容提供单元230根据标识符(可以是RID)为用户提供内容的元数据或内容。将参照图10描述包括在最优化索引搜索设备200中的各种操作的示例。
这里使用的术语“单元”的指的是,但不限于,执行特定任务的软件和硬件组件(诸如现场可编程门阵列(FPGA)或专用集成电路(ASIC))。模块可以被配置以驻留在可寻址的存储介质上,并且可被配置以在一个或多个处理器上执行。因此,举例来说,模块可以包括:诸如软件组件、面向对象的软件组件、类组件和任务组件的组件、进程、函数、属性、过程、子程序、程序代码段、驱动程序、固件、微码、电路、数据、数据库、数据结构、表、数组和变量。在组件和模块中提供的功能可被组合为更少的组件和模块,或者可进一步被分离成另外的组件和模块。
图5是显示根据本发明实施例的最优化索引搜索方法的流程图。参照图4和图5,将描述搜索内容的方法。在操作S501中,搜索单元210在索引中搜索与预定关键字值对应的字段。可指定搜索关键字的层次。也就是说,当UI被提供给用户时,用户可经由UI来指定关键字的层次,并且通过搜索单元210发现与关键字值对应的字段。用户可通过移动到搜索到的字段并输入搜索请求来指定层次。当经由UI输入请求时,搜索单元210在索引中搜索与请求对应的层次的字段。图10中示出了更具体的示例。
在操作S511中,提取单元220提取与发现的字段对应的标识符(诸如RID)。
因此,在操作S521中,内容提供单元230根据标识符向用户提供内容的元数据或内容。
图6描述了根据本发明实施例的索引的叶节点。如图6所示,假设在索引的叶节点中,第一层次字段具有数字值,第二层次字段具有英文字母,第三字段具有韩文字母。然而,应该理解,其他和/或不同的值类型、字符类型或符号类型可用于所述字段和不同层次的字段(例如,第一层次字段可以是英文字母,第二层次字段可以是数字值,第三层次字段可以是希腊符号,第四层次字段可以是英文字母)。此时,使用关键字和RID配置的条目可以被存储为单元(cell)结构600。
在传统技术中,整个关键字被识别为二进制字符串并划分前缀。然而,根据本发明的各方面,可通过索引中的字段来区分关键字。例如,在传统技术中,“2005,10”和“2005,12”的前缀是“2005,1*”,而根据本发明的各方面则是“2005”。因此,“1,a,”602和“b,”604本来是“1,a,和“1,b,”,但通过省略相同的层次字段而被存储。
在存储在节点100(节点的页编号(page number))中的“3,a,”606中,第一层次关键字“3”具有存储在相同节点100中的上一关键字“2”和存储在节点300中的下一关键字“4”。因此,第一层次关键字“3”指示该关键字所属的节点100(其中存储有上一关键字)和作为存储下一关键字的节点的节点300。也就是说,索引的每个字段具有指示存储上一关键字和存储下一关键字的节点的指针,从而可快速地发现上一关键字和下一关键字。
当“3,a,”存储在节点200中时,“3,a”608和“”610被划分和存储。也就是说,“3,a,”607和“3,a,”之间的不同是第三字段。因此,只有“”610被存储。当基于叶节点发现关键字时,仍将“3,a”608作为节点前缀单独存储在节点200中,以在没有参考其他节点(即,节点100)的情况下得知高层次的关键字值。例如,当在节点300的“4,a,612中发现第三层次关键字“”时,在没有参考其他节点的情况下,可得知上一关键字是“3,d,”614。然而,即使高层次关键字值与上一单元的关键字值相同,根据其他方面应该理解,单元也没有被划分和存储,而是被整个一起存储(例如,“3,a,”),以在没有参考其他节点的情况下得知高层次的关键字值。在下文中,将参照图7描述索引的详细的节点结构。
图7是显示根据本发明实施例的索引节点的结构的示图。索引结构的特征可以是B+树。在1970年提出的B树包括一些变换的B树版本(诸如,B+树,B*树和前缀B树)。索引可以是甚至能够有效地存储多层次聚类关键字的变换的B+树。此外,因为无论用户搜索什么关键字,都可以在叶节点中发现相应的关键字并且搜索时间将会是相同的,所以索引可以是平衡树。
使用关键字和RID配置的条目可以被存储为单元结构。因为关键字的长度是可变的,所以单元被划分为存储实际数据的区域704和存储数据偏移(offset)的区域702(存储每个关键字的长度),以存储具有可变长度的关键字。因此,存储空间被可变地使用。也就是说,用于存储偏移的区域702从左向右弹性地存储数据,用于存储数据的区域704从右向左弹性地存储数据,从而可有效地使用存储空间。
与此相反,如果两个区域702和704的大小固定,则当实际数据的长度较长时,区域704可能迅速填满,当实际数据的长度相对较短时,区域702可能是“满”,而区域704仍然是空的。因此,不能有效地使用存储空间。
存储节点前缀的偏移的区域706存储节点前缀。如果节点不需要节点前缀,则可以将节点前缀偏移区域706初始化为0。
每个字段可存储指示包含上一关键字的节点和包含下一关键字的节点的指针。如果为所有关键字保留两个4字节的指针,则可能减小用于存储实际数据的空间。因此。如果上一关键字和/或下一关键字与当前关键字存在于同一节点中,则索引的每个字段可省略存储指示存储上一关键字或下一关键字的节点的指针,以确保用于存储实际数据的较大的空间。如果第i层次的上一/下一关键字存在于当前节点中,则第(i+1)层次的上一/下一关键字也存在于当前节点中。如果第i层次的上一/下一关键字存在于另一节点中,则第(i+1)层次的上一/下一关键字也存在于另一节点中。这一原理可用于确保空间。这里,假设第一层次是最高层次。
使用低层次从属于高层次的事实,可基于发现的(或当前的)关键字省略存储指示存储上一关键字或下一关键字的节点的指针。当控制搜索的层次时,因为高层次关键字和低层次关键字被存储在单个条目中,所以不必访问另外的节点。
如果(2000年,9月,1日)是在包括[(2000年,8月,16日),(20日),(9月,1日),(2日),(4日)]的第一节点和包括[(2001年,1月,4日),...]的第二节点中发现的关键字,则当月层次的上一关键字(2000年,8月)存在于当前节点中时,日层次(比月层次进一步再分的聚类层次)的上一关键字也存在于当前节点中。也就是说,月层次值的改变指示日层次值也被改变。当(2000年,8月,16日)是发现的关键字时,如果月层次的下一关键字存在于当前节点中,则日层次的下一关键字也存在于当前节点中。
现在参照图8和图9来描述索引的单元结构。这里,在每个字段中输入的值的单位可以是比特或字节,这显示在附图中。在下文中,单位被表示为预定值。
图8描述了根据本发明实施例的索引的叶节点的单元结构。如图8所示,在计数信息区810中,字段计数字段801显示(或存储)配置单元(或包括在单元中)的字段的数量,发现的关键字存在于所述单元中。例如,参照图6,对于“3,a,”606,计数字段801的值是3。可经由单元的字段计数字段801确定索引中每个层次的边界点。也就是说,在同一节点中,层次的边界点被确定为单元的字段计数值。如果层次的边界点不存在于同一节点中,则可使用节点前缀值发现边界点。因此,可快速发现按照每个层次具有相同关键字值的条目的起点和终点。
上一计数字段802指示上一指针的数量。下一计数字段803指示下一指针的数量。填充字段804是预定的保留存储空间。
指针区域820按层次存储指示存在上一关键字或下一关键字的节点的指针。具体地讲,当浏览第i层次时,上一指针字段822基于第i层次存储上一关键字被存储在其中的节点的指针。这里,指针可以是节点的页编号。例如,上一指针1基于第一层次存储指示存储上一关键字的节点的指针。上一指针2基于第二层次存储指示存储上一关键字的节点的指针。上一指针3基于第三层次存储指示存储上一关键字的节点的指针。参照图6,例如,在存储在节点100中的“3,a,”606中,第一层次关键字“3”具有存储在同一节点100中的上一关键字“2”。因此,单元的上一指针字段822存储节点100的指针。然而,应该理解,当对于所述层次的上一关键字被存储在同一节点中时,可以但非必须省略(即,不存储)指针。
当浏览第i层次时,下一指针字段824基于第i层次存储下一关键字被存储在其中的节点的指针。这里,指针可以是节点的页编号。例如,下一指针1基于第一层次存储指示存储下一关键字的节点的指针。下一指针2基于第二层次存储指示存储下一关键字的节点的指针。下一指针3基于第三层次存储指示存储下一关键字的节点的指针。参照图6,例如,在存储在节点100中的“3,a,”606中,第一层次关键字“3”具有存储在节点300中的下一关键字“4”。因此,单元的下一指针字段824存储节点300的指针。应该理解,当对于所述层次的下一关键字被存储在同一节点中时,可以但非必须省略(即,不存储)指针。
在存储关键字值的区域830中,关键字大小字段832指示第i字段的长度。例如,当层次的总数为x时(即,当层次是年、月、日时,x=3),关键字大小具有第(x-N+i)层次的字段数据长度(字节),其中,N指示字段计数字段的值。关键字字段834指示预定层次的数据,并且存储第(x-N+i)层次的数据。当在计数信息区域810中字段计数字段801的值是2时,第i字段的关键字大小是x-N+i=3-2+1。指示第二层次的字段数据的大小的关键字大小字段832指示月数据的长度。关键字字段834存储关键字的数据值。
参照图6,当基于第一层次提取所有关键字时,可提取“1、2、3、4”。当基于第二层次提取所有关键字时,可提取“1a、1b、2a、3a、3b、3c、3d、4a、5b”。当基于第三层次提取所有关键字时,可提取“1a1b2a、2a3a3a3a3a3b3b”。因此,对于“3,a,”606(或3a),计数字段801的值是3。上一计数字段802的值是0。下一计数字段803的值是2。因为基于第一层次(3)的下一关键字(4)被存储在节点300中,所以下一指针1字段824的值是300。因为上一计数字段802的值是0(即,第一层次(3)、第二层次(3a)和第三层次(3a)的上一值存在于当前节点100中),所以上一指针字段822不存储上一指针。可选择地,根据其他方面,即使上一值存在于当前节点中,上一指针字段822也可存储上一指针(例如,因为第一层次(3)、第二层次(3a)和第三层次(3a)的上一值存在于当前节点100中,所以上一指针1字段、上一指针2字段和上一指针3字段822的每一个都存储值100)。因为基于第二层次(3a)的下一关键字(3b)被存储在节点200中,所以下一指针2字段824的值是200。因为第三层次(3a)的值存在于当前节点100中,所以下一指针3字段824不存储下一指针。可选择地,根据其他方面,即使下一值存在于当前节点中,下一指针字段824也可存储下一指针(例如,因为第三层次(3a)的下一值存在于当前节点100中,所以下一指针3字段824将存储值100)。在关键字大小字段832中,关键字大小1字段的值是4,关键字大小2字段的值是1,关键字大小3字段的值是2。在关键字字段834中,关键字1的字段值是3,关键字2的字段值是a,关键字3的字段值是。
因为在内部节点中没有执行连续的关键字浏览,所以不需要保持存在于不同节点中的关键字之间的链接。因此,可以在内部节点的单元结构中清除包括在叶节点的单元结构中的上一指针和下一指针。与一般的多列B+树索引相同,内部节点可具有区分前缀或保持全部的关键字值的结构。
如上所述,即使节点前缀是已在上一节点的相邻关键字中用作前缀的高层次字段值,也可将节点前缀记录在当前节点中,以在当前节点中通报高层次字段值。节点前缀可以不被存储在存储有更低层次字段值的同一单元中,其可以配置为附加单元。
图9示出了根据本发明实施例的单元结构的示例。在图9中,图6所示的节点200的节点前缀“3,a”910的单元结构参照图8被示出。因为在节点200的节点前缀“3,a”910的单元结构中使用两个字段配置当前关键字,所以字段计数字段801的值是2。因为上一指针和下一指针的数量是0,所以上一计数字段802和下一计数字段803的值是0。关键字大小字段832的值是与“3,a”910的每个关键字大小值对应的1和2。关键字字段834的值是3和a。参照图8描述了每个值的单位。
图10描述了根据本发明实施例的用于索引搜索的UI。如图10所示,用户经由UI请求搜索期望的内容以接收服务。此时,使用根据本发明各方面提供的索引结构的操作(函数)包括find_key、find_next_entry、find_prev_entry、find_first_key、find_last_key、find_next_key、find_prev_key、find_upper_key、和find_down_key。当假设具有高优先权的聚类关键字(或关键字)的层次是1时,年层次是1,月层次是2,日层次是3。如图10中所述,每个字段包括关键字值和RID信息。用户可选择每个字段。
当用户经由UI在字段之间移动时,用户输入搜索请求。例如,当用户经由UI选择2005年5月(表示为“2005,5”字段1000)时,2005,5(第二层次)的值被输入,因此与关键字值对应的标识符被提取。如果存在若干个提取的标识符,则可返回字段1000的第一值,并且可将与字段的标识符对应的内容和内容的元数据提供给用户。因此,用户可经由UI直接指定将发现的关键字的层次(第二层次),从而基于指定的层次使用各种操作来搜索字段。
在下文中,将参照图10详细描述操作。find_key操作在叶节点中搜索与搜索的关键字匹配的条目(或字段),并返回标识符(即RID)。如果存在多个匹配的RID,则返回第一RID。然而,根据其他方面,应该理解,可返回另一RID,或者可返回所有匹配的RID。此时,当与传统技术不同,多列地配置索引时,可指定搜索的关键字的层次。在图10中,如果用户经由UI移动到“2005,5”字段1000,则将5711(a)作为RID返回。也就是说,“2005,5”字段1000包括作为更低层次的字段5和6,并且每个字段包括多个RID值。此时,可返回第一RID(即,5711(a))并且可将与发现的字段1000的标识符对应的内容或内容的元数据提供给用户。此外,可基于“2005,5”关键字(或字段)搜索随后执行的操作。
find_next_entry操作搜索最近发现的条目的下一条目并返回关键字和标识符(如RID)。如果改变搜索的层次的关键字值,则在改变的字段中还返回最高层次号。如果由于在基于第二层次浏览条目时改变第一字段和第二字段而获得新的第二层次关键字,则返回层次号1。如果使用图10中的find_key操作发现“2005,5”,则当执行find_next_entry操作时,将5712(b)作为RID返回。
find_prev_entry操作搜索最近发现的条目的上一条目并返回关键字和标识符(如RID)。如果改变搜索的层次的关键字值,则在改变的字段中还返回最高层次号。如果由于在基于第二层次浏览条目时改变第一字段和第二字段而获得新的第二层次关键字,则返回层次号1。如果使用图10中的find_key操作发现“2005,5”,则当执行find_prev_entry操作时,返回“2005,4”(即,新的关键字值)和5710(c)(即,相应的RID)。因为在基于第二层次发现条目时第二字段值从5改变到4,所以还返回层次号2。
find_fist_key操作返回叶节点的第一关键字和具有相应的关键字的第一标识符(如RID)。此时,与传统技术不同,find_first_key操作可输入将被返回的关键字的层次i。随后将被执行的操作基于第i层次搜索关键字值。如果关于图10中的第二层次执行find_first_key操作,则find_first_key操作搜索“1993,1”并返回0001(d)。
find_last_key操作返回叶节点的最后关键字和具有相应的关键字的最后标识符(如RID)。如果改变高层次字段值,则还返回最高层次号。如果在基于第三层次浏览值时改变第一层次字段值和第二层次字段值,则返回最高层次号1。此时,与传统技术不同,find_last_key操作可输入将被返回的关键字的层次i。随后将被执行的操作基于第i层次搜索关键字值。如果关于图10中的第二层次执行find_last_key操作,则find_last_key操作搜索“2006,12”并返回6220(e)。
find_next_key操作搜索在叶节点中最近发现的关键字值的下一关键字值,并返回下一关键字值和标识符(如RID)。如果改变高层次字段值,则还返回最高层次号。如果在基于第三层次搜索值时改变第一层次字段值和第二层次字段值,则返回最高层次号1。此时,与传统技术不同,如果最近发现的关键字层次是i,则find_next_key操作可返回相应层次上的下一关键字。如果find_key操作搜索到图10中的“2005,5,5”,则当执行find_next_key操作时,返回新的关键字值“2005,5,6”和RID5720(f)。
如果正被搜索的关键字的层次是i,则当字段计数值等于或大于最大字段计数+1-i或者不存在将被发现的节点时,find_next_key操作完成搜索。通过执行read_key_header操作来获得下一计数值。如果下一计数值小于i,则下一关键字存在于当前节点中,因此从当前单元位置反向搜索当前节点的单元。如果下一计数值等于或大于i,则下一关键字存在于另一节点中。在这种情况下,find_next_key操作在由下一指针指示的节点中从第一单元反向搜索单元。
find_prev_key操作在叶节点中搜索最近发现的关键字值的上一关键字值,并返回上一关键字值和标识符(如RID)。如果改变高层次字段值,则还返回最高层次号。如果在基于第三层次搜索值时改变第一层次字段值和第二层次字段值,则返回最高层次号1。此时,与传统技术不同,如果最近发现的关键字层次是i,则find_prev_key操作可返回相应层次上的上一关键字。如果find_key操作搜索到图10中的“2005,5,5”,则当执行find_prev_key操作时,返回新的关键字值“2005,4,6”和RID5706(g)。
如果正被搜索的关键字的层次是i,则当字段计数值等于或大于最大字段计数+1-i或者不存在将被发现的节点时,find_prev_key操作完成搜索。通过执行read_key_header操作来获得上一计数值。如果上一计数值小于i,则上一关键字存在于当前节点中,因此从当前单元位置前向搜索当前节点的单元。如果上一计数值等于或大于i,则上一关键字存在于另一节点中。在这种情况下,find_prev_key操作在由上一指针指示的节点中从最后单元到第一单元来搜索单元。
如果正被搜索的关键字的层次是i,则find_upper_key操作将搜索层次改变为i-1。随后将被执行的所有操作基于第(i-1)层次关键字被执行。此外,当i是1(因为当i是1时,当前层次是最高层次)或者字段计数大于(最大字段计数+1-i)(在这种情况下,最高层次关键字被包括在当前单元中)时,find_upper_key操作完成搜索。通过执行read_key_header操作来获得字段计数值。通过移动到上一单元在当前节点中执行搜索,直到满足搜索结束条件。如果在当前节点的第一条目中也没有发现关键字,则find_upper_key操作在节点前缀中搜索高层次关键字。
如果正被搜索的关键字的层次是i,则find_down_key操作返回第(i+1)层次关键字。随后将被执行的所有操作基于第(i+1)层次关键字被执行。此外,如果i等于最大字段计数(即,i是最低层次),则因为当前层次是最低层次,所以find_down_key操作不具有将被返回的低层次关键字。如果i不等于最大字段计数,则find_down_key操作在当前单元中搜索并返回低层次关键字值。
read_key_header操作读取包括正被浏览的层次的关键字值的单元的头值。如果执行find_next_entry操作、find_prev_entry操作或find_upper_key操作,则最近发现的单元可不包括正被浏览的层次的关键字。也就是说,当正被搜索的关键字的层次是i并且搜索光标所位于的单元的字段计数是f时,产生f<最大字段计数+1-i的情况。此时,已经通报正被搜索的关键字值。因此,输入关键字值和搜索层次i,从而可通过执行find_key操作发现包括相应关键字的单元。此外,当f≥最大字段计数+1-i时,read_key_header操作读取当前单元中的第i信息。如果f<(最大字段计数+1-i),则read_key_header操作通过执行find_key操作读取与第i关键字对应的信息。
如上所述,根据本发明各方面的最优化索引搜索设备和方法提供使用索引的各种操作,从而容易地实现外部模块并增加存储空间的效率。此外,如果将数据聚类到单个层次,则本发明的各方面被设计为与传统B+树索引相同地操作,从而B+树索引或多列B+树索引可被应用于从一个层次到N个层次聚类的数据。
本发明的各方面也可实现为计算机可读记录介质上的计算机可读代码。此外,实现本发明的代码和代码段可由本发明所属领域的编程技术人员容易地解释。计算机可读记录介质为任何可存储其后能由计算机***或计算机代码处理设备读取的数据的数据存储装置。所述计算机可读记录介质的例子包括:只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘、光学数据存储装置和以包括压缩源代码段和加密源代码段的载波实现的计算机数据信号(诸如通过互联网的数据传输),所述压缩源代码段和加密源代码段都包括有所述代码。所述计算机可读记录介质也可分布于网络连接的计算机***上,以便所述计算机可读代码以分布方式被存储并被执行。
虽然已经表示和描述了本发明的一些实施例,但本领域技术人员应该理解,在不脱离本发明的原理和精神的情况下,可以对这些实施例进行修改,本发明的范围由权利要求及其等同物限定。
Claims (17)
1.一种最优化索引搜索方法,包括:
在索引中搜索与第一关键字值对应的第一字段;
当输入搜索请求时,基于第一字段在索引中搜索与搜索请求对应的第二字段;和
提取与第二字段对应的标识符。
2.如权利要求1所述的方法,其中,索引的单元包括:
第一字段,存储第一关键字值;和
第二字段,存储第二关键字值。
3.如权利要求2所述的方法,其中,索引的第一字段和第二字段中的每一个存储上一指针和下一指针中的至少一个,所述上一指针指向包含上一关键字值的上一节点,所述下一指针指向包含下一关键字值的下一节点。
4.如权利要求3所述的方法,其中,如果上一关键字值和字段存在于同一节点中,则该字段不存储上一指针,如果下一关键字值存在于所述同一节点中,则该字段不存储下一指针。
5.如权利要求1所述的方法,其中,索引在当前节点中单独存储高层次关键字值,以允许在没有参考其他节点的情况下浏览预定关键字值的高层次关键字值。
6.如权利要求1所述的方法,还包括:
提供与提取的标识符对应的内容的元数据或内容。
7.如权利要求2所述的方法,其中,所述单元还包括:
字段计数字段,存储所述单元的字段的数量。
8.如权利要求2所述的方法,其中,所述单元还包括:
第一上一指针,指向包含不同于所述第一关键字值的上一第一关键字值的上一节点;和
第二上一指针,指向包含不同于所述第二关键字值的上一第二关键字值的上一节点。
9.如权利要求8所述的方法,其中,
如果上一节点与所述单元的节点是同一节点,则第一上一指针不指向上一节点;
如果上一节点与所述单元的节点是同一节点,则第二上一指针不指向上一节点;和
所述单元还包括存储包括在所述单元中的上一指针的数量的上一计数字段。
10.如权利要求2所述的方法,其中,所述单元还包括:
第一下一指针,指向包含不同于所述第一关键字值的下一第一关键字值的下一节点;
第二下一指针,指向包含不同于所述第二关键字值的下一第二关键字值的下一节点。
11.如权利要求10所述的方法,其中,
如果下一节点与所述单元的节点是同一节点,则第一下一指针不指向下一节点;
如果下一节点与所述单元的节点是同一节点,则第二下一指针不指向下一节点;和
所述单元还包括存储包括在所述单元中的下一指针的数量的下一计数字段。
12.一种用于最优化搜索与用户输入的搜索请求层次对应的字段的索引的单元,所述单元包括:
第一字段,存储第一层次的第一关键字值;
第二字段,存储第二层次的第二关键字值;
第一指针,指向包含不同于所述第一关键字值的第一层次的另一第一关键字值的另一单元的另一节点;
第二指针,指向包含不同于所述第二关键字值的第二层次的另一第二关键字值的另一单元的另一节点,
其中,用于识别内容的元数据或内容的标识符对应于所述第一关键字值和所述第二关键字值。
13.如权利要求12所述的单元,其中,
第一指针是指向包含不同于所述第一关键字值的下一第一关键字值的下一节点的第一下一指针;和
第二指针是指向包含不同于所述第二关键字值的下一第二关键字值的下一节点的第二下一指针。
14.如权利要求13所述的单元,还包括:
下一计数字段,存储包括在所述单元中的下一指针的数量,其中,
如果下一节点与所述单元的节点是同一节点,则第一下一指针不指向下一节点,和
如果下一节点与所述单元的节点是同一节点,则第二下一指针不指向下一节点。
15.一种最优化索引搜索方法,包括:
在索引中搜索与第一关键字值对应的第一字段;
接收对低于第一字段的层次的指定层次的搜索操作;
基于第一字段对与指定层次对应的第二字段执行搜索操作;和
提取与存储在第二字段中的第二关键字值对应的标识符。
16.如权利要求15所述的方法,其中,
接收搜索操作的步骤包括接收用于发现特定关键字值的发现关键字搜索操作,和
执行所述搜索操作的步骤包括:
基于第一字段在索引中搜索存储特定关键字值的第二字段。
17.如权利要求15所述的方法,其中,搜索操作是以下操作中的一种:
发现下一条目操作,用于在指定层次中发现最近发现的关键字值的下一条目;
发现上一条目操作,用于在指定层次中发现最近发现的关键字值的上一条目;
发现第一关键字操作,用于返回与最先存储在叶节点中的第二关键字值对应的标识符;
发现最后关键字操作,用于返回与最后存储在叶节点中的第二关键字值对应的标识符;
发现下一关键字操作,用于搜索最近发现的第二关键字值的下一第二关键字值;
发现上一关键字操作,用于搜索最近发现的第二关键字值的上一第二关键字值;
发现高的关键字操作,用于将指定层次改变为下一更高层次;
发现低的关键字操作,用于将指定层次改变为下一更低层次;和读取关键字头操作,用于读取包括第二关键字值的单元的头值。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060116560A KR100834760B1 (ko) | 2006-11-23 | 2006-11-23 | 최적화된 인덱스 검색 방법 및 장치 |
KR10-2006-0116560 | 2006-11-23 | ||
KR1020060116560 | 2006-11-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101187941A true CN101187941A (zh) | 2008-05-28 |
CN101187941B CN101187941B (zh) | 2011-06-29 |
Family
ID=38829759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007101927081A Expired - Fee Related CN101187941B (zh) | 2006-11-23 | 2007-11-16 | 用于最优化索引搜索的方法和设备 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7970769B2 (zh) |
EP (1) | EP1926030A3 (zh) |
JP (1) | JP2008130084A (zh) |
KR (1) | KR100834760B1 (zh) |
CN (1) | CN101187941B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831224A (zh) * | 2012-08-24 | 2012-12-19 | 北京百度网讯科技有限公司 | 一种数据索引库的建立方法、搜索建议生成方法和装置 |
CN103744897A (zh) * | 2013-12-24 | 2014-04-23 | 华为技术有限公司 | 故障信息的关联搜索方法、***和网络管理*** |
CN104408128A (zh) * | 2014-11-26 | 2015-03-11 | 上海爱数软件有限公司 | 一种基于b+树异步更新索引的读优化方法 |
CN106970936A (zh) * | 2017-02-09 | 2017-07-21 | 阿里巴巴集团控股有限公司 | 数据处理方法及装置、数据查询方法及装置 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101968807A (zh) * | 2010-10-15 | 2011-02-09 | 北京思在信息技术有限责任公司 | 一种内容检索的方法及装置 |
EP2490135A1 (en) | 2011-02-21 | 2012-08-22 | Amadeus S.A.S. | Method and system for providing statistical data from a data warehouse |
KR101440475B1 (ko) * | 2012-10-17 | 2014-09-17 | 주식회사 리얼타임테크 | 혼합 질의 처리를 위한 색인 생성 방법, 혼합 질의 처리 방법 및 색인 자료구조를 기록한 기록 매체 |
KR101549220B1 (ko) * | 2013-10-15 | 2015-09-03 | 네이버 주식회사 | 데이터베이스 관리 방법, 시스템 및 데이터베이스 트리 구조 |
CN104182479B (zh) * | 2014-08-04 | 2018-11-30 | 宇龙计算机通信科技(深圳)有限公司 | 一种处理信息的方法及装置 |
US10303673B2 (en) * | 2015-05-11 | 2019-05-28 | Apple Inc. | Hierarchical data storage |
CN107301208A (zh) * | 2017-06-02 | 2017-10-27 | 北京奇虎科技有限公司 | 一种数据表处理方法和装置 |
KR102351846B1 (ko) * | 2018-11-21 | 2022-01-18 | 한국전자기술연구원 | 분산형 데이터베이스상의 인덱스 병합을 활용한 질의 최적화 방법 |
CN109815240B (zh) | 2019-01-29 | 2022-02-25 | 北京百度网讯科技有限公司 | 用于管理索引的方法、装置、设备和存储介质 |
CN109918472A (zh) * | 2019-02-27 | 2019-06-21 | 北京百度网讯科技有限公司 | 存储和查询数据的方法、装置、设备和介质 |
CN109947709B (zh) * | 2019-04-02 | 2021-10-08 | 北京百度网讯科技有限公司 | 数据存储方法和装置 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2196764A (en) | 1986-10-30 | 1988-05-05 | Apple Computer | Hierarchical file system |
US4945475A (en) | 1986-10-30 | 1990-07-31 | Apple Computer, Inc. | Hierarchical file system to provide cataloging and retrieval of data |
JPH06103134A (ja) | 1992-09-18 | 1994-04-15 | Hitachi Software Eng Co Ltd | インデックスの構築方法 |
JPH07210563A (ja) | 1994-01-13 | 1995-08-11 | Hitachi Ltd | 索引処理方法 |
US5671416A (en) * | 1995-02-24 | 1997-09-23 | Elson; David | Apparatus and a method for searching and modifying source code of a computer program |
KR100256686B1 (ko) | 1997-11-26 | 2000-05-15 | 이계철 | 다중 균형 트리 구조를 이용한 관리정보 트리에서의 노드 검색,생성 및 삭제 방법 |
JP3849279B2 (ja) | 1998-01-23 | 2006-11-22 | 富士ゼロックス株式会社 | インデクス作成方法および検索方法 |
KR100285265B1 (ko) * | 1998-02-25 | 2001-04-02 | 윤덕용 | 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조 |
US6721723B1 (en) | 1999-12-23 | 2004-04-13 | 1St Desk Systems, Inc. | Streaming metatree data structure for indexing information in a data base |
KR100328129B1 (ko) | 1999-12-27 | 2002-03-12 | 오길록 | 메모리 계층 구조를 고려한 압축, 탐색 및 새로운 항목삽입 방법 |
KR100358348B1 (ko) * | 2000-06-01 | 2002-10-25 | (주) 아이티캠프 | 엑스엠엘 데이터의 효과적인 검색을 위한 다중 경로인덱스 방법 |
US6834278B2 (en) * | 2001-04-05 | 2004-12-21 | Thothe Technologies Private Limited | Transformation-based method for indexing high-dimensional data for nearest neighbour queries |
US6859808B1 (en) * | 2001-05-31 | 2005-02-22 | Oracle International Corporation | Mapping logical row identifiers for primary B+tree-like structures to physical row identifiers |
US6970865B1 (en) * | 2001-12-28 | 2005-11-29 | Unisys Corporation | Database searching using trapeze fetch |
JP2004062475A (ja) | 2002-07-29 | 2004-02-26 | Hitachi Ltd | インデクス格納方法 |
WO2004023328A1 (en) * | 2002-09-05 | 2004-03-18 | Stex Technologies Private Limited | Indexed data storage system, method and data structure |
KR100558765B1 (ko) * | 2002-11-14 | 2006-03-10 | 한국과학기술원 | 적응형 경로 인덱스를 이용한 xml 질의 수행 방법 |
US20050102255A1 (en) * | 2003-11-06 | 2005-05-12 | Bultman David C. | Computer-implemented system and method for handling stored data |
KR100942902B1 (ko) * | 2004-01-15 | 2010-02-16 | 엔에이치엔(주) | 웹페이지 검색 방법 및 상기 방법을 컴퓨터에서 구현하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 |
KR100600862B1 (ko) * | 2004-01-30 | 2006-07-14 | 김선권 | 인터넷상의 정보자원에 대한 접근 경로를 체계적으로수집하고 검색하는 방법, 및 이 방법을 실행할 수 있는컴퓨터 프로그램을 수록한 기록매체 |
US7213041B2 (en) * | 2004-10-05 | 2007-05-01 | Unisys Corporation | Saving and restoring an interlocking trees datastore |
US20070214153A1 (en) * | 2006-03-10 | 2007-09-13 | Mazzagatti Jane C | Method for processing an input particle stream for creating upper levels of KStore |
-
2006
- 2006-11-23 KR KR1020060116560A patent/KR100834760B1/ko not_active IP Right Cessation
-
2007
- 2007-08-20 US US11/841,322 patent/US7970769B2/en not_active Expired - Fee Related
- 2007-09-19 JP JP2007242525A patent/JP2008130084A/ja active Pending
- 2007-10-31 EP EP07119765A patent/EP1926030A3/en not_active Withdrawn
- 2007-11-16 CN CN2007101927081A patent/CN101187941B/zh not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831224A (zh) * | 2012-08-24 | 2012-12-19 | 北京百度网讯科技有限公司 | 一种数据索引库的建立方法、搜索建议生成方法和装置 |
CN102831224B (zh) * | 2012-08-24 | 2018-09-04 | 北京百度网讯科技有限公司 | 一种数据索引库的建立方法、搜索建议生成方法和装置 |
CN103744897A (zh) * | 2013-12-24 | 2014-04-23 | 华为技术有限公司 | 故障信息的关联搜索方法、***和网络管理*** |
CN104408128A (zh) * | 2014-11-26 | 2015-03-11 | 上海爱数软件有限公司 | 一种基于b+树异步更新索引的读优化方法 |
CN104408128B (zh) * | 2014-11-26 | 2017-11-03 | 上海爱数信息技术股份有限公司 | 一种基于b+树异步更新索引的读优化方法 |
CN106970936A (zh) * | 2017-02-09 | 2017-07-21 | 阿里巴巴集团控股有限公司 | 数据处理方法及装置、数据查询方法及装置 |
CN106970936B (zh) * | 2017-02-09 | 2020-07-03 | 阿里巴巴集团控股有限公司 | 数据处理方法及装置、数据查询方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
KR20080046905A (ko) | 2008-05-28 |
CN101187941B (zh) | 2011-06-29 |
US7970769B2 (en) | 2011-06-28 |
KR100834760B1 (ko) | 2008-06-05 |
EP1926030A3 (en) | 2009-12-30 |
US20080126298A1 (en) | 2008-05-29 |
JP2008130084A (ja) | 2008-06-05 |
EP1926030A2 (en) | 2008-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101187941B (zh) | 用于最优化索引搜索的方法和设备 | |
CN102368252B (zh) | 将搜索查询应用到内容集 | |
US9576057B2 (en) | User interface for navigating a keyword space | |
CN101276361B (zh) | 一种显示相关关键词的方法及*** | |
US7509306B2 (en) | Index for data retrieval and data structuring | |
US20030135430A1 (en) | Method and apparatus for classification | |
CN105245924B (zh) | 视频信息的推送和显示方法及应用该方法的视频播放器 | |
WO2006052966A2 (en) | Method and system for performing searches for television content using reduced text input | |
CN101099129A (zh) | 组织指向对象的指针 | |
CN102341804A (zh) | 基于拍摄地点来组织数字图像 | |
CN1969275A (zh) | 用于执行基于元数据的搜索的***以及关联管理设备、方法和计算机程序产品 | |
CN105589929A (zh) | 图像检索方法和装置 | |
KR100853308B1 (ko) | 항목 타입별 구조화된 검색 | |
US20160239510A1 (en) | Method for Extracting Useful Content from Setup Files of Mobile Applications | |
EP1160693A2 (en) | Review data retrieval system | |
JP2010518514A (ja) | 電子装置上でコンテンツを表示しナビゲートするためのシステム及び方法 | |
CN101089853B (zh) | 用于浏览内容的设备和方法 | |
WO2004079591A1 (en) | System and method using alphanumeric codes for the identification, description, classification and encoding of information | |
KR101122737B1 (ko) | 지식노드 연결구조를 생성하기 위한 검색 데이터베이스 구축 장치 및 방법 | |
CN100407204C (zh) | 一种标注计算机资源的方法及其*** | |
JP2011175231A (ja) | 地図データ | |
CN105354235A (zh) | 一种搜索结果处理方法及装置 | |
JP2008225584A (ja) | 物品推薦装置、物品推薦システム、物品推薦方法及び物品推薦プログラム | |
CN115809248B (zh) | 数据查询方法和装置以及存储介质 | |
KR101142062B1 (ko) | 멀티미디어 데이터의 문자 기반 메타데이터 검색을수행하는 데이터 베이스 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110629 Termination date: 20121116 |