CN111581215B - 数组树数据储存方法、快速查找方法及可读储存介质 - Google Patents

数组树数据储存方法、快速查找方法及可读储存介质 Download PDF

Info

Publication number
CN111581215B
CN111581215B CN202010384372.4A CN202010384372A CN111581215B CN 111581215 B CN111581215 B CN 111581215B CN 202010384372 A CN202010384372 A CN 202010384372A CN 111581215 B CN111581215 B CN 111581215B
Authority
CN
China
Prior art keywords
array
tree
leaf node
data
pointer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010384372.4A
Other languages
English (en)
Other versions
CN111581215A (zh
Inventor
钟士平
崔建凯
梁庆
潘大林
罗莽
胡磊
岳奕作
肖友平
尹森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010384372.4A priority Critical patent/CN111581215B/zh
Publication of CN111581215A publication Critical patent/CN111581215A/zh
Application granted granted Critical
Publication of CN111581215B publication Critical patent/CN111581215B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了数组树数据储存方法、快速查找方法及可读储存介质。该数组树数据储存方法,包括如下步骤,获取关键字和关键字的数字排列特征,对关键字进行预处理;根据数字排列特征,将关键字映射成数组与树形结构结合表示的链路,建立树形数据结构;将储存数据的内存地址储存至树形数据结构的叶节点;将树形数据结构的叶节点链接。本发明的技术方案中,数组树数据储存方法利用关键字中数字的排列特性,映射成数组与树形结构结合表示的数组树存储链路,以形成检索数据的数据储存方式,数组树数据储存方法索引小于B树索引占用的内存空间,因其查找复杂度只于关键字长度有关,所以较B树、B+树算法有着更高的检索效率。

Description

数组树数据储存方法、快速查找方法及可读储存介质
技术领域
本发明涉及计算机技术领域,具体涉及一种数组树数据储存方法、一种数组树数据快速查找方法及一种计算机可读储存介质。
背景技术
在数据查找算法中,哈希(hash)查找算法虽然等值查找效率极高,但哈希查找算法却同时存在范围查找功能的不足及磁盘IO效率低等问题,使哈希查找算法应用的场景较少。应用较为广泛的是以分治管理思想为代表的B树(balanced tree oforder m)和B+树算法,B树和B+树算法高效的检索效率和完善的功能而被各大数据库厂商采用。但因B树和B+树算法数据结构的限制,存在着索引占用内存资源较高和检索数据集记录数大于10000000后,性能下降较明显的问题。所以,B树和B+树并不适合海量数据的数据检索。随着大数据应用的不断深化,对查找算法的数据存储结构也提出了更高的要求,亟需提出一数据存储方法,以提高检索效率的同时降低数据结构中索引占用的内存资源。
发明内容
本发明的主要目的是提供一种数组树数据储存方法,旨在提高查找效率的同时,解决数据结构中索引占用的内存资源多的问题。
为实现上述目的,本发明提出的一种数组树数据储存方法,包括如下步骤:获取关键字和所述关键字的数字排列特征,对所述关键字进行预处理;
根据所述数字排列特征,所述数字排列特征中数字的排列次序对应树形结构中的层级,所述关键字的数字对应树形结构中本级数组的下标,将所述关键字映射成数组与树形结构结合表示的链路,建立树形数据结构;
根据储存数据的所述关键字的数字排列特性形成的链路,将所述储存数据的内存地址储存至所述树形数据结构的叶节点;
将所述树形数据结构的叶节点链接。
优选地,所述链路为根据所述关键字的所述数字排列特征所形成的或经过的所述树形结构中的数组指针及数组下标组成的顺序记录。
优选地,所述对所述关键字进行预处理的步骤,包括如下步骤:
获取***内对所述关键字的预设长度;
根据所述预设长度,对所述关键字进行长度一致的预处理。
优选地,所述根据储存数据的所述关键字的数字排列特性形成的链路,将所述储存数据的内存地址储存至所述树形数据结构的叶节点的步骤,包括如下步骤:
顺序读取所述关键字数组的下标,获取与所述下标对应的结构数组指针,返回链路记录;
判断所述结构数组是否为最后一级所述树形数据结构的叶节点数组;
若是,则更新叶节点数组链接,将储存数据的内存地址储存至所述树形数据结构的叶节点数组。
优选地,所述顺序读取所述关键字数组的下标,保存链路记录的步骤,包括如下步骤:
顺序读取所述关键字中数组的下标;
根据所述关键字中数组的下标查找对应所述树形数据结构的结构数组,并存储所述数组指针及所述数组下标;
判断所述结构数组是否为叶节点数组;
若是,则返回链路记录。
优选地,所述结构数组包括相邻数组指针、数组长度和次级数组指针,所述相邻数组指针为所述树形数据结构的所述叶节点间的连接指针,所述次级数组指针为所述树形数据结构的次级节点的连接指针。
优选地,所述将多个所述树形数据结构的叶节点顺序链接的步骤,包括如下步骤:
从所述关键字对应的当前叶节点开始,根据链路记录,不断在所述当前叶节点的父节点的结构数组中寻找指向左相邻叶节点的左次级数组指针和指向右相邻叶节点的右次级数组指针;
判断所述左次级数组指针和所述右次级数组指针是否有效;
若否,继续在所述当前叶节点的父节点的结构数组继续寻找;
若是,根据找到的所述左次级数组指针和链路记录,不断在所述左次级数组指针的次级节点数组中寻找所述左相邻叶节点,根据找到的所述右次级数组指针和链路记录,不断在所述右次级数组指针的次级节点数组中寻找所述右相邻叶节点;
进行所述当前叶节点的左链接和右链接;所述左链接为将所述当前叶节点的数组指针写入所述当前叶节点的左相邻叶节点的数组头部;所述右链接为将所述当前叶节点的右相邻叶节点的数组指针写入所述当前叶节点的数组头部。
本发明还提供一种数组树数据快速查找方法,提高了检索效率,用于查找数据库,所述数据库采用如上述任一项所述的数组树数据储存方法进行数据存储,所述数组树数据快速查找方法,包括如下步骤:
获取储存数据的关键字,对所述关键字进行长度一致预处理;
按照数字排列特征和关键字数组所对应的树形结构链路依次检索结构数组内的次级数组指针;
判断当前结构数组内的次级数组指针是否为空;
若是,返回空值;
判断所述当前结构数组的长度是否小于所述关键字中的数字;
若是,返回空值;
判断所述当前结构数组是否为叶节点数组;
若是,返回所述当前结构数组内的数据地址指针及数组下标作为查找结果。
优选地,所述关键字包括开始关键字和结束关键字,所述返回所述当前结构数组内的数据地址指针及数组下标作为查找结果的步骤,包括如下步骤:
返回所述开始关键字和所述结束关键字分别对应的叶节点数组指针及叶节点数组下标;
从所述开始关键字对应的叶节点数组下标开始,依次读取所述开始关键字对应的叶节点数组内的有效数据地址指针;
在所述开始关键字对应的叶节点数组读取完毕后,根据所述开始关键字对应的叶节点数组头部的相邻叶节点数组指针,继续读取相邻叶节点数组中有效数据地址指针,直至读取到所述结束关键字对应的叶节点数组中所述结束关键字对应的叶节点数组下标;
返回所有读取的有效数据地址指针作为查找结果。
本发明还提供了一种计算机可读储存介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的一种数组树数据储存方法或如上述任一项所述的一种数组树数据快速查找方法。
本发明的技术方案中,数组树数据储存方法利用关键字中数字的排列特性,映射成数组与树形结构结合表示的数组树存储链路,以形成便于检索数据的数据储存方式,数组树数据储存方法中每个节点都是一个数组,每个数组最多能生成10个指针,每个数组指针占用4个字节,B树算法中每个树节点至少定义两个指针、一个关键字及数据地址,因此数组树数据储存方法索引小于B树索引占用的内存空间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明数组树数据储存方法第一实施例的流程示意图;
图2为本发明数据关键字的数字排列特征与内存地址之间的对应关系示意图;
图3为本发明的数据排列特征示意图;
图4为本发明的数字排列特征与数组树(A树)链路示意图;
图5为本发明的数组树(A树)结构数组的结构示意图;
图6为本发明的数组树(A树)树叶节点链接示意图;
图7为本发明的数组树(A树)创建索引流程图;
图8为本发明的数组树(A树)叶节点数组与左右相邻叶节点链接示意图;
图9为本发明的数组树算法等值检索流程图;
图10为本发明的数组树算法范围查询流程图;
图11为本发明的数组树算法与二分算法100000循环检索效率对比图;
图12为本发明的数组树算法与二分算法1000000次循环检索效率对比图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请参照图1-图12,具体请参照图1,为实现上述目的,本发明提出的一种数组树数据储存方法,其包括如下步骤:
S100,获取关键字和所述关键字的数字排列特征,对所述关键字进行预处理;
S200,根据所述数字排列特征,所述数字排列特征中数字的排列次序对应树形结构中的层级,所述关键字的数字对应树形结构中本级数组的下标,将所述关键字映射成数组与树形结构结合表示的链路,建立树形数据结构;
S300,根据储存数据的所述关键字的数字排列特性形成的链路,将所述储存数据的内存地址储存至所述树形数据结构的叶节点;
S400,将所述树形数据结构的叶节点顺序链接。
本发明的技术方案中,数组树数据储存方法利用关键字中数字的排列特性,映射成数组与树形结构结合表示的数组树存储链路,以形成便于检索数据的数据储存方式,数组树数据储存方法中每个节点都是一个数组,每个数组最多能生成10个指针,每个数组指针占用4个字节,B树算法中每个树节点至少定义两个指针、一个关键字及数据地址,因此数组树数据储存方法索引小于B树索引占用的内存空间。
将数据关键字Key中的数字排列特征转换成树形结构中的不同链路,并在链路末端存储该数据的内存地址(或数据集索引),其中,每个树节点又对应一个数组。检索时,则依据关键字中的数字排列特性快速通过树形链路找到对应的数据地址,从而实现数据高效检索。本发明是将数组和树型结构结合来实现数据快速查找的算法,即:数组树算法(ArrayTree简称A树算法)。而数据关键字的数字排列特征与内存地址之间的对应关系如图2所示。
数字排列特征:指关键字中数字从左至右的顺序(或从右至左),每一个数字代表树结构相应级别数组的下标,关键字的长度可描述为树的高度。
树型结构中的节点(数组):为长度不超过10的指针数组,每个指针都指向下一级(次级)数组(节点),依此形成链表树结构。而每条链路末端的数组内,存储着数据内存地址,数据关键字Key的每位数字则代表数组的下标,不同的下标组合成不同的数组树(A树)链路。例如任意关键字Key,ID=81628,其数字排列特征可描述如图3所示,其在数组树(A树)中的链路如图4所示。
数组:(以Pascal语言描述);
TLinkList=array[0..9]ofPLinkList;
//动态数组,每个数组单元存储指向下一级(次级)数组的指针;
数组指针:PLinkList=^TLinkList;//指向次级链表指针。
请参照图4,基于本发明的一种数组树数据储存方法的第一实施例,所述链路为根据所述关键字的所述数字排列特征所形成的或经过的所述树形结构中的数组指针及数组下标组成的顺序记录。
请参照图5和图7,基于本发明的一种数组树数据储存方法的第一实施例,本发明的一种数组树数据储存方法的第二实施例中,所述步骤S100中的对所述关键字进行预处理的步骤,包括如下步骤:
S110,获取***内对所述关键字的预设长度;
S120,根据所述预设长度,对所述关键字进行长度一致的预处理。
具体的,本发明在对数据进行检索时,建议关键字Key最大长度固定,这样有利于减少***存储空间。对于关键字长度有不一致,可进行长度一致的补位预处理,如关键字为9176,预处理后变为00009176(检索数据集的中关键字最大长度为8位,***预设长度为8位),***预设长度由***的应用场景确定。
请参照图4和图7,基于本发明的一种数组树数据储存方法的第一实施例,本发明的一种数组树数据储存方法的第三实施例中,所述步骤S200,包括如下步骤:
S210,顺序读取所述关键字数组的下标,获取与所述下标对应的结构数组,返回链路记录;
S220,判断所述结构数组是否为最后一级所述树形数据结构的叶节点数组;
若是,则执行步骤S230,更新叶节点数组链接,将储存数据的内存地址储存至所述树形数据结构的叶节点数组。
具体的,在***初始化载入检索数据集时,根据每一条数据的关键字Key,将其映射成树形结构的链路来表示。
请参照图10,基于本发明的一种数组树数据储存方法的第三实施例,本发明的一种数组树数据储存方法的第四实施例中,所述S220的步骤,包括:
S221,顺序读取所述关键字中数组的下标;
S222,根据所述关键字中数组的下标查找对应所述树形数据结构的结构数组,并存储所述数组指针及所述数组下标;
S223,判断所述结构数组是否为叶节点数组;
若否,则执行步骤S224,则返回链路记录。
具体的,如关键字Key为81628,则映射成树形结构链路步骤(关键字Key从左至右循环取数);
第一位8:在当前数组中(根数组)确认其长度是否小于8,否则将该数组长度扩展为8;接着判断该链表数组下标为8个的次级链表指针不为空?否则,创建一个新的数组(次级数组),并将该次级数组地址写入当前数组下标8的单元内。接着读取关键字Key第二位:1,依据上述过程,完成数字“1”的映射,直至完成关键字Key最后一位8的映射,结束时,则将数据的内存指针(数据集索引号)写入当前数组下标为8的单元内。至此,一条数据记录的A树索引创建完成,逻辑图如图7。
请参照图5,基于本发明的一种数组树数据储存方法的第四实施例,进一步的,所述结构数组包括相邻数组指针、数组长度和次级数组指针,所述相邻数组指针为所述树形数据结构的所述叶节点间的连接指针,所述次级数组指针为所述树形数据结构的次级节点的连接指针。
具体的,相邻数组指针:指树形结构叶节点(A树末端数组)间的链接指针,由于A树结构中,叶节点数组中对应的数据关键字为顺序排列(升或降),所以,将A树结构中的叶节点链接后,能够进行范围查询和遍历。
请参照图6和图8,基于本发明的一种数组树数据储存方法的第四实施例,本发明的一种数组树数据储存方法的第五实施例中,所述S400的步骤,包括如下步骤:
S410,从所述关键字对应的当前叶节点开始,根据链路记录,不断在所述当前叶节点的父节点的结构数组中寻找指向左相邻叶节点的左次级数组指针和指向右相邻叶节点的右次级数组指针;
S420,判断所述左次级数组指针和所述右次级数组指针是否有效;
若否,则执行步骤S430,继续在所述当前叶节点的父节点的结构数组继续寻找;
若是,则执行步骤S440,根据找到的所述左次级数组指针和链路记录,不断在所述左次级数组指针的次级节点数组中寻找所述左相邻叶节点,根据找到的所述右次级数组指针和链路记录,不断在所述右次级数组指针的次级节点数组中寻找所述右相邻叶节点;
S450,进行所述当前叶节点的左链接和右链接;所述左链接为将所述当前叶节点的数组指针写入所述当前叶节点的左相邻叶节点的数组头部;所述右链接为将所述当前叶节点的右相邻叶节点的数组指针写入所述当前叶节点的数组头部。
具体的,如图6所示,一条数据的数组树(A树)链路创建完成后,将进行该叶节点(数组树A树末端数组)链接,即将相邻叶节点从一个方向进行链接(单向,叶节点之间的链接方向与关键字的数字的读取顺序有关)。而寻找相邻叶节点则采用回逆的方法:
1、从叶节点开始,根据链路记录(LinkPath),在其父节点中寻找有效的左右相邻数组指针(以当前下标为准,右邻:下标递增;左邻:下标递减),若未找到,则继续向上的父节点寻找,直至找到为止,否则返回空。
2、找到相邻的父节点后,从该节点向下寻找相邻的有效数组指针(右邻:0下标递增;左邻:最大下标递减),直至链接到叶节点为止,然后,将叶节点的内存地址写入数组的头部(如图:B数组的地址写入A(C)数组头部,C(A)数组的地址写入B数组的头部)。
请参照图9和图10,本发明还提供包括一种数组树数据快速查找方法(用于查找数据库,所述数据库采用如上所述的数组树数据储存方法进行数据存储),所述一种数组树数据快速查找方法的步骤包括:
S510,获取储存数据的关键字,对所述关键字进行长度一致预处理,设置所述关键字的关键字数组;
S520,按照数字排列特征和关键字数组所对应的树形结构链路依次检索结构数组内的次级数组指针;
S530,判断所述当前结构数组内的次级数组指针是否为空;
若是,则执行步骤S540,返回空值;
S550,判断所述当前结构数组的长度是否小于所述关键字中的数字;
若是,则执行步骤S560,返回空值;
S570,判断所述当前结构数组是否为叶节点数组;
若是,则执行步骤S580,返回所述当前结构数组内的数据地址指针及数组下标作为查找结果。
具体的,根据关键字和关键字的数字排列特征,获取关键字数组,A树算法中,索引占用内存:每个数组指针占用4个字节,B树算法中,该算法每个树节点至少定义两个指针(左树和右树)、一个关键字及数据地址,A树算法中索引占用的内存空间约为A树算法中索引占用的内存空间的1/3。A树算法的检索效率只与关键字的长度L有关,即O(L),且A树算法的检索效率大幅优于二分算法(8~10倍效率)。数据地址只存在于叶节点数组中,非叶节点的逻辑运算均在内存中实现,所以能够大幅减少磁盘的IO操作,提高检索效率。在A树结构中,非叶节点是单向顺序链接,所以能够方便的实现范围查找、数据遍历、数据分页等功能。更具体的,当检索到数组指针为空或当前数组长度小于指定的长度时,会被认为没有检索到,将返回空值。若检索到ID最后一位数字且数组内的指针不为空,则返回该指针,即数据的内存地址(或数据集编号)。本技术方案仅就基本的数据结构和功能进行了基本的描述和论证,在实际应用中,可根据需要进行优化和完善。
请参照图9和图10,基于本发明的一种数组树数据快速查找方法的第一实施例,进一步的,所述关键字包括开始关键字和结束关键字;本发明的一种数组树数据快速查找方法的第二实施例中,
所述S560的步骤,包括如下步骤:
S561,返回所述开始关键字和所述结束关键字分别对应的叶节点数组指针及叶节点数组下标;
S562,从所述开始关键字对应的叶节点数组下标开始,依次读取所述开始关键字对应的叶节点数组内的有效数据地址指针;
S563,在所述开始关键字对应的叶节点数组读取完毕后,根据所述开始关键字对应的叶节点数组头部的相邻叶节点数组指针,继续读取相邻叶节点数组中有效数据地址指针,直至读取到所述结束关键字对应的叶节点数组中所述结束关键字对应的叶节点数组下标;
S564,返回所有读取的有效数据地址指针作为查找结果。
具体的,由于数组树(A树)结构下的末端数组存储的是数据的内存地址,且按关键字Key顺序链接排列的,所以数组树(A树)算法可以进行范围查询,依次读取所述开始关键字对应的叶节点数组内的有效数据地址指针便是按照关键字中数字的读取顺序进行读取。查询的基本过程:查找到开始和结束关键字的数组树(A树)地址后,顺序获取它们之间的数组地址即可得到查询的结果,查询的流程如图10所示。
本发明还包括一种计算机可读储存介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现一种数组树数据储存方法或一种数组树数据快速查找方法。
具体的,示意源代码(Pascal语言,在delphi7环境下测试通过)
Figure GDA0002769951090000111
Figure GDA0002769951090000121
Figure GDA0002769951090000131
Figure GDA0002769951090000141
Figure GDA0002769951090000151
Figure GDA0002769951090000161
Figure GDA0002769951090000171
Figure GDA0002769951090000181
请参照图11和图12,在其中一个实施例中
1、进行等值检索速度对比测试
选择二分算法进行对比(二分算法代表了以分治算法的检测效率0(logn))。测试方法:分别在1000、10000、……、50000000条数据集中进行检索,检索数据为随机生成100000(或1000000)条数据(数组形式)
10000次循环查找测试记录如下:
Figure GDA0002769951090000191
(注:测试平台为CPU:Intel E2301 V3;内存:8GB;不同的平台可能测试记录会有略有不同)
测试结论:10000次随机检索中,A树算法在不同的数据集中,效率较二分算法快8~10倍。
2、索引内存空间消耗(理论计算,不包括堆栈空间)
A树算法中,索引占用内存:每个数组指针占用4个字节,
C=(n×4+(n/10)×8)×(1+10+100+....+10L)/10L
C<5n
式中:C表示A树算法中索引占用的内存;n为记录数;n×4表示数据地址占用的内存;(n/10)×8表示数组头部内存空间;L表示关键字的长度。
B树算法中,该算法每个树节点至少定义两个指针(左树和右树)、一个关键字及数据地址,按32位操作***计算,则B树索引占用的内存可计算为:
D=n×4×4=16n
式中:D表示A树算法中索引占用的内存。
因此:A树算法中索引占用的内存空间约为A树算法中索引占用的内存空间的1/3。
在其中一个实施例中,数组树算法可以实现检索数据集的动态删除,即将ID检索数据指针清空,若该数组内指针均为空,则删除该树组,同时将相邻的数组进行链接。由于创建A树索引时,使用的是动态数组,导致创建索引时效率不高,当然,为追求A树索引创建效率,也可以使用静态数组。
在其中一个实施例中,数组树算法同样可以适用于关键字ID重复的数据集,此时,需要定义以下数据结构即可,检索效率不变,但内存资源的消耗会对应增加。
Figure GDA0002769951090000201
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备进入本发明各个实施例所述的方法。
在本说明书的描述中,参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例~第X实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料、方法步骤或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种数组树数据储存方法,其特征在于,包括如下步骤:
获取关键字和所述关键字的数字排列特征,对所述关键字进行长度一致的预处理;
根据所述数字排列特征,所述数字排列特征中数字的排列次序对应树形结构中的层级,所述关键字的数字对应树形结构中本级数组的下标,将所述关键字映射成数组与树形结构结合表示的链路,建立树形数据结构;
根据储存数据的所述关键字的数字排列特性形成的链路,将所述储存数据的内存地址储存至所述树形数据结构的叶节点;
将所述树形数据结构的叶节点链接。
2.根据权利要求1所述的一种数组树数据储存方法,其特征在于,所述链路为根据所述关键字的所述数字排列特征所形成的或经过的所述树形结构中的数组指针及数组下标组成的顺序记录。
3.根据权利要求1所述的一种数组树数据储存方法,其特征在于,所述对所述关键字进行长度一致的预处理的步骤,包括如下步骤:
获取***内对所述关键字的预设长度;
根据所述预设长度,对所述关键字进行长度一致的预处理。
4.根据权利要求1所述的一种数组树数据储存方法,其特征在于,所述根据储存数据的所述关键字的数字排列特性形成的链路,将所述储存数据的内存地址储存至所述树形数据结构的叶节点的步骤,包括如下步骤:
顺序读取所述关键字数组的下标,获取与所述下标对应的结构数组指针,返回链路记录;
判断所述结构数组是否为最后一级所述树形数据结构的叶节点数组;
若是,则更新叶节点数组链接,将储存数据的内存地址储存至所述树形数据结构的叶节点数组。
5.根据权利要求4所述的一种数组树数据储存方法,其特征在于,所述顺序读取所述关键字数组的下标,保存链路记录的步骤,包括如下步骤:
顺序读取所述关键字中数组的下标;
根据所述关键字中数组的下标查找对应所述树形数据结构的结构数组,并存储所述数组指针及所述数组下标;
判断所述结构数组是否为叶节点数组;
若是,则返回链路记录。
6.根据权利要求5所述的一种数组树数据储存方法,其特征在于,所述结构数组包括相邻数组指针、数组长度和次级数组指针,所述相邻数组指针为所述树形数据结构的所述叶节点间的连接指针,所述次级数组指针为所述树形数据结构的次级节点的连接指针。
7.根据权利要求1-6中任一项所述的一种数组树数据储存方法,其特征在于,所述将多个所述树形数据结构的叶节点顺序链接的步骤,包括如下步骤:
从所述关键字对应的当前叶节点开始,根据链路记录,不断在所述当前叶节点的父节点的结构数组中寻找指向左相邻叶节点的左次级数组指针和指向右相邻叶节点的右次级数组指针;
判断所述左次级数组指针和所述右次级数组指针是否有效;
若否,继续在所述当前叶节点的父节点的结构数组继续寻找;
若是,根据找到的所述左次级数组指针和链路记录,不断在所述左次级数组指针的次级节点数组中寻找所述左相邻叶节点,根据找到的所述右次级数组指针和链路记录,不断在所述右次级数组指针的次级节点数组中寻找所述右相邻叶节点;
进行所述当前叶节点的左链接和右链接;所述左链接为将所述当前叶节点的数组指针写入所述当前叶节点的左相邻叶节点的数组头部;所述右链接为将所述当前叶节点的右相邻叶节点的数组指针写入所述当前叶节点的数组头部。
8.一种数组树数据快速查找方法,其特征在于,用于查找数据库,所述数据库采用如权利要求1-7中任一项所述的数组树数据储存方法进行数据存储,所述数组树数据快速查找方法,包括如下步骤:
获取储存数据的关键字,对所述关键字进行长度一致预处理;
按照数字排列特征和关键字数组所对应的树形结构链路依次检索结构数组内的次级数组指针;
判断当前结构数组内的次级数组指针是否为空;
若是,返回空值;
判断所述当前结构数组的长度是否小于所述关键字中的数字;
若是,返回空值;
判断所述当前结构数组是否为叶节点数组;
若是,返回所述当前结构数组内的数据地址指针及数组下标作为查找结果。
9.根据权利要求8所述的一种数组树数据快速查找方法,其特征在于,所述关键字包括开始关键字和结束关键字,所述返回所述当前结构数组内的数据地址指针及数组下标作为查找结果的步骤,包括如下步骤:
返回所述开始关键字和所述结束关键字分别对应的叶节点数组指针及叶节点数组下标;
从所述开始关键字对应的叶节点数组下标开始,依次读取所述开始关键字对应的叶节点数组内的有效数据地址指针;
在所述开始关键字对应的叶节点数组读取完毕后,根据所述开始关键字对应的叶节点数组头部的相邻叶节点数组指针,继续读取相邻叶节点数组中有效数据地址指针,直至读取到所述结束关键字对应的叶节点数组中所述结束关键字对应的叶节点数组下标;
返回所有读取的有效数据地址指针作为查找结果。
10.一种计算机可读储存介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的一种数组树数据储存方法或如权利要求8至9中任一项所述的一种数组树数据快速查找方法。
CN202010384372.4A 2020-05-07 2020-05-07 数组树数据储存方法、快速查找方法及可读储存介质 Active CN111581215B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010384372.4A CN111581215B (zh) 2020-05-07 2020-05-07 数组树数据储存方法、快速查找方法及可读储存介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010384372.4A CN111581215B (zh) 2020-05-07 2020-05-07 数组树数据储存方法、快速查找方法及可读储存介质

Publications (2)

Publication Number Publication Date
CN111581215A CN111581215A (zh) 2020-08-25
CN111581215B true CN111581215B (zh) 2020-12-15

Family

ID=72112003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010384372.4A Active CN111581215B (zh) 2020-05-07 2020-05-07 数组树数据储存方法、快速查找方法及可读储存介质

Country Status (1)

Country Link
CN (1) CN111581215B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434030B (zh) * 2020-11-11 2022-11-18 上海芯翌智能科技有限公司 基于树形结构数据的高性能列表实现方法与设备
CN112416932A (zh) * 2020-11-18 2021-02-26 青岛海尔科技有限公司 建立字段关联关系的方法及装置
CN112800054A (zh) * 2021-01-08 2021-05-14 中国石油天然气集团有限公司 数据模型的确定方法、装置、设备及存储介质
CN115374124B (zh) * 2022-08-29 2023-05-12 钟士平 基于a+树数据结构存储的数据查询方法
CN116028674A (zh) * 2022-09-29 2023-04-28 湖北科技学院 一种智能终端数据通信方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105207793A (zh) * 2014-05-30 2015-12-30 亿阳信通股份有限公司 一种树状拓扑结构中节点信息的获取方法和***
CN106649286A (zh) * 2016-10-15 2017-05-10 语联网(武汉)信息技术有限公司 一种基于双数组字典树进行术语匹配的方法
CN109150962A (zh) * 2018-07-03 2019-01-04 北京东方网信科技股份有限公司 一种通过关键字快速识别http请求头的方法
CN109165224A (zh) * 2018-08-24 2019-01-08 东北大学 一种在区块链数据库上针对关键字key的索引方法
CN110825737A (zh) * 2019-10-18 2020-02-21 支付宝(杭州)信息技术有限公司 索引创建和数据查询方法、装置及设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6694323B2 (en) * 2002-04-25 2004-02-17 Sybase, Inc. System and methodology for providing compact B-Tree
US7069272B2 (en) * 2002-10-09 2006-06-27 Blackrock Financial Management, Inc. System and method for implementing dynamic set operations on data stored in a sorted array
US8356040B2 (en) * 2005-03-31 2013-01-15 Robert T. and Virginia T. Jenkins Method and/or system for transforming between trees and arrays
CN102750328B (zh) * 2012-05-29 2018-08-10 北京城市网邻信息技术有限公司 一种数据结构的构造和存储方法
CN105405070A (zh) * 2015-12-03 2016-03-16 国家电网公司 一种分布式内存电网***构建方法
CN105740428B (zh) * 2016-01-29 2019-02-01 北京大学 一种基于b+树的高维磁盘索引结构和图像检索方法
US20170315924A1 (en) * 2016-04-29 2017-11-02 Netapp, Inc. Dynamically Sizing a Hierarchical Tree Based on Activity
CN106528647B (zh) * 2016-10-15 2019-07-23 传神语联网网络科技股份有限公司 一种基于cedar双数组字典树算法进行术语匹配的方法
CN109684325A (zh) * 2018-11-07 2019-04-26 天津大学 一种高效的rdf数据存储查询***
CN110413611B (zh) * 2019-06-24 2023-05-12 腾讯科技(深圳)有限公司 数据存储、查询方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105207793A (zh) * 2014-05-30 2015-12-30 亿阳信通股份有限公司 一种树状拓扑结构中节点信息的获取方法和***
CN106649286A (zh) * 2016-10-15 2017-05-10 语联网(武汉)信息技术有限公司 一种基于双数组字典树进行术语匹配的方法
CN109150962A (zh) * 2018-07-03 2019-01-04 北京东方网信科技股份有限公司 一种通过关键字快速识别http请求头的方法
CN109165224A (zh) * 2018-08-24 2019-01-08 东北大学 一种在区块链数据库上针对关键字key的索引方法
CN110825737A (zh) * 2019-10-18 2020-02-21 支付宝(杭州)信息技术有限公司 索引创建和数据查询方法、装置及设备

Also Published As

Publication number Publication date
CN111581215A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111581215B (zh) 数组树数据储存方法、快速查找方法及可读储存介质
JP3849279B2 (ja) インデクス作成方法および検索方法
KR101467589B1 (ko) 데이터 구조를 가지는 하나 이상의 장치 판독가능 매체, 및장치 실행가능 명령어를 구비한 하나 이상의 장치 판독가능 매체
CN109885576B (zh) 一种哈希表创建方法及***、计算设备及存储介质
US10754887B1 (en) Systems and methods for multimedia image clustering
CN111868710B (zh) 搜索大规模非结构化数据的随机提取森林索引结构
CN111190904B (zh) 一种图-关系数据库混合存储的方法和装置
JP2012529105A (ja) 分散連想メモリベースを提供する方法、システム、及びコンピュータプログラム製品
RU2005105582A (ru) База данных и система управления знаниями
JP3318834B2 (ja) データファイルシステム及びデータ検索方法
US9292554B2 (en) Thin database indexing
CN109166615B (zh) 一种随机森林哈希的医学ct图像存储与检索方法
US20090216755A1 (en) Indexing Method For Multimedia Feature Vectors Using Locality Sensitive Hashing
CN112115227A (zh) 数据的查询方法、装置、电子设备及存储介质
CN111078952B (zh) 一种基于层次结构的跨模态可变长度哈希检索方法
CN111339381A (zh) 一种字典序分区双数组的字符串批量查询方法及装置
CN114722139A (zh) 可自适应动态伸缩的时空多属性索引方法及其检索方法
CN109885570A (zh) 一种辅助索引结合散列表的多维范围查询方法
CN111309725A (zh) 一种基于哈希算法的电力设备数据存取方法及***
CN111159175B (zh) 基于索引的非完整数据库Skyline查询方法
CN114416741A (zh) 基于多级索引的kv数据写入读取方法、装置及存储介质
CN111767285A (zh) 一种快速判断节点关系的方法
CN109885840A (zh) 通过16位Trie树实现空间优化的词典排序方法
KR100902010B1 (ko) 연관 피드백을 포함한 내용 기반 멀티미디어 검색 방법
CN115374124B (zh) 基于a+树数据结构存储的数据查询方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant