CN102567419B

CN102567419B - 基于树结构的海量数据存储装置及方法

Info

Publication number: CN102567419B
Application number: CN201010621365.8A
Authority: CN
Inventors: 唐旭东; 丰朋
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2010-12-31
Filing date: 2010-12-31
Publication date: 2014-07-16
Anticipated expiration: 2030-12-31
Also published as: JP2014502756A; CN102567419A; EP2660729A4; WO2012088767A1; US20140052710A1; EP2660729A1

Abstract

本发明提出了一种基于树结构的海量数据存储装置及方法。其中，所述基于树结构的海量数据存储装置包括输入/输出模块、数据创建模块、数据查询模块、数据维护模块、存储器和主控制模块。本发明所公开的基于树结构的海量数据存储装置及方法易于扩展、节省存储空间，能够显著提高查询效率。

Description

基于树结构的海量数据存储装置及方法

技术领域

本发明涉及数据存储装置及方法，更具体地，涉及基于树结构的海量数据存储装置及方法。

背景技术

目前，随着信息数据处理需求的日益增长以及不同领域的业务种类的日益丰富，海量数据的存储及查询(例如金融卡的BIN(BankIdentification Number，即***)的存储)变得越来越重要。

通常，在现有的海量数据存储装置及方法中，采用容器(例如结构体)来存储各个数据，即每个不同的数据信息存储在不同的容器中，并且所述多个容器以顺序方式或链表方式存储。在这种数据存储结构中，每个不同的数据信息占用的存储空间是不能复用的。此外，在现有的数据存储结构中，如果需要存储的数据量为n，则其查询操作的时间复杂度大约为O(n)，甚至有时会达到O(nlogn)。

然而，由于随着业务种类的日益丰富，需要存储的数据信息也越来越多，同时基于具体应用需求的数据信息格式(例如结构，位数等)的变化也越来越频繁，从而需要经常对数据信息的存储格式进行动态的调整。

因此，上述现有的技术方案存在如下问题：当在特定应用领域中(例如金融卡***存储)待存储的数据量显著增长时，所需的存储空间将产生量级的增加，从而会消耗大量资源；同时，在数据量显著增长的情况下，查询所需的时间增加，从而会降低整个应用***的效率和性能；当需要改变数据信息的格式时，现有的方式需要对容器的基础结构(例如结构体的定义)进行调整，从而导致***扩展能力不足或者扩展过程复杂。

因此，存在如下需求：提供一种易于扩展、节省存储空间，能够显著提高查询效率的基于树结构的海量数据存储装置及方法。

发明内容

为了解决上述现有技术方案所存在的缺陷，本发明提出了一种基于树结构的海量数据存储装置及方法。

本发明的目的是通过以下技术方案实现的：

一种基于树结构的海量数据存储装置，所述基于树结构的海量数据存储装置包括：

输入/输出模块，所述输入/输出模块用于从应用服务器处接收请求信息并将所述请求信息传送给主控制模块，以及将结果数据或响应信息传送回所述应用服务器；

数据创建模块，所述数据创建模块用于根据来自所述主控制模块的指令和初始数据信息创建所述树结构并将创建的所述树结构存储在存储器中，以及将指向所述树结构的根节点的指针传送回所述主控制模块；

数据查询模块，所述数据查询模块用于根据来自所述主控制模块的指令和数据信息并基于针对所述树结构的预定的查询规则完成指定的查询过程，并将查询结果传送回所述主控制模块；

数据维护模块，所述数据维护模块用于根据来自所述主控制模块的指令和数据信息完成针对所述树结构的维护操作，并将指示操作结果的响应信息传送回所述主控制模块；

存储器，所述存储器用于存储所述树结构；

主控制模块，所述主控制模块用于接收并解析由所述输入/输出模块传送的请求信息，并根据解析结果构造包括数据信息和指令的报文，并将所述报文传送到对应的处理模块，以及将处理模块返回的结果数据或响应信息传送回所述输入/输出模块。

在上面所公开的方案中，优选地，所述数据维护模块进一步包括：

修改单元，所述修改单元用于根据来自所述主控制模块的指令和数据信息查询所述树结构，并修改匹配到的相应的节点的值；

删除单元，所述删除单元用于根据来自所述主控制模块2的指令和数据信息查询所述树结构，并在匹配成功时改变匹配到的最后一个节点的标志位的值；

增加单元，所述增加单元用于根据来自所述主控制模块的指令和数据信息查询所述树结构，并创建没有匹配到的节点。

在上面所公开的方案中，优选地，所述请求信息包括数据信息和/或操作命令信息。

在上面所公开的方案中，优选地，所述树结构是十叉树。

在上面所公开的方案中，优选地，所述十叉树中的每个父节点包括多个指针，所述多个指针分别指向其各个子节点。

在上面所公开的方案中，优选地，所述十叉树中的每个节点包括数据位和标志位，其中所述数据位用于存储对应于所述数据信息的一位数据，所述标志位的值是0和1中的一个。

在上面所公开的方案中，优选地，所述十叉树的根节点的数据位和标志位的值均被设置为0。

在上面所公开的方案中，优选地，所述十叉树中对应于数据信息的最后一个数据位的节点的标志位的值被设置为1，所述十叉树中的其余节点的标志位的值被设置为0。

在上面所公开的方案中，优选地，所述十叉树的每一节点在树结构中所处的层级对应于所述数据信息的每一位在所述数据信息中的顺序。

本发明的目的还通过以下技术方案实现：

一种基于树结构的海量数据存储方法，所述基于树结构的海量数据存储方法包括如下步骤：

(A1)从应用服务器处接收数据信息及初始化指令；

(A2)根据所述初始化指令并基于树结构存储所述数据信息。

在上面所公开的方案中，优选地，所述方法进一步包括：

(A3)接收来自所述应用服务器的查询指令和待查询的数据信息，并基于所述查询指令和待查询的数据信息以及针对所述树结构的预定的查询规则完成指定的查询操作，并将查询结果传送回所述应用服务器。

在上面所公开的方案中，优选地，所述方法进一步包括：

(A4)接收来自所述应用服务器的维护指令和待维护的数据信息，并基于所述维护指令和待维护的数据信息完成针对所述树结构的维护操作，并将指示操作结果的响应信息传送回所述应用服务器。

在上面所公开的方案中，优选地，所述步骤(A4)进一步包括：

(B1)当所述维护指令是修改命令时，根据所述修改命令和待维护的数据信息查询所述树结构，并修改匹配到的相应的节点的值；

(B2)当所述维护指令是删除命令时，根据所述删除命令和待维护的数据信息查询所述树结构，并在匹配成功时改变匹配到的最后一个节点的标志位的值；

(B3)当所述维护指令是增加命令时，根据所述增加命令和待维护的数据信息查询所述树结构，并创建没有匹配到的节点。

在上面所公开的方案中，优选地，所述树结构是十叉树。

本发明所公开的基于树结构的海量数据存储装置及方法具有如下优点：易于扩展；节省存储空间；能够显著提高查询效率。

附图说明

结合附图，本发明的技术特征以及优点将会被本领域技术人员更好地理解，其中：

图1为根据本发明的实施例的基于树结构的海量数据存储装置的结构图；

图2为根据本发明的实施例的十叉树结构的示意图；

图3为根据本发明的实施例的基于树结构的海量数据存储方法的流程图；

具体实施方式

图1是根据本发明的实施例的基于树结构的海量数据存储装置的结构图。如图1所示，本发明所公开的数据存储装置1用于基于树结构存储海量数据。如图1所述，所述数据存储装置1包括主控制模块2、输入/输出模块3、数据创建模块4、数据查询模块5、数据维护模块6和存储器7。其中，所述输入/输出模块3用于从应用服务器处接收请求信息并将所述请求信息传送给主控制模块2，以及将结果数据或响应信息传送回所述应用服务器。所述数据创建模块4用于根据来自所述主控制模块2的指令和初始数据信息创建所述树结构并将创建的所述树结构存储在存储器7中，以及将指向所述树结构的根节点的指针传送回所述主控制模块2。所述数据查询模块5用于根据来自所述主控制模块2的指令和数据信息并基于针对所述树结构的预定的查询规则完成指定的查询过程，并将查询结果传送回所述主控制模块2。所述数据维护模块6用于根据来自所述主控制模块2的指令和数据信息完成针对所述树结构的维护操作，并将指示操作结果的响应信息传送回所述主控制模块2。所述存储器7用于存储所述树结构。所述主控制模块2用于接收并解析由所述输入/输出模块3传送的请求信息，并根据解析结果构造包括数据信息和指令的报文，并将所述报文传送到对应的处理模块，以及将处理模块返回的结果数据或响应信息传送回所述输入/输出模块3。

如图1所示，在本发明所公开的数据存储装置中，优选地，所述数据维护模块6进一步包括修改单元8、删除单元9和增加单元10。其中，所述修改单元8用于根据来自所述主控制模块2的指令和数据信息查询所述树结构，并修改匹配到的相应的节点的值。所述删除单元9用于根据来自所述主控制模块2的指令和数据信息查询所述树结构，并在匹配成功时改变匹配到的最后一个节点的标志位的值。所述增加单元10用于根据来自所述主控制模块2的指令和数据信息查询所述树结构，并创建没有匹配到的节点。

优选地，在本发明所公开的数据存储装置中，所述请求信息包括数据信息和/或操作命令信息。

图2是根据本发明的实施例的十叉树结构的示意图。如图2所示，优选地，在本发明所公开的数据存储装置中，所述树结构是十叉树(即树中的每个父节点至多具有10个子节点)。由于需要存储的数据信息(例如***)是数字集，而每位数字是0-9中的一个，因此所述树结构被选择为十叉树。

如图2所示，优选地，在本发明所公开的数据存储装置中，所述十叉树中的每个父节点包括多个指针，所述多个指针分别指向其各个子节点。

如图2所示，优选地，在本发明所公开的数据存储装置中，所述十叉树中的每个节点包括数据位和标志位，其中所述数据位用于存储对应于所述数据信息(例如***)的一位数据，所述标志位的值是0和1中的一个。

如图2所示，优选地，在本发明所公开的数据存储装置中，所述十叉树的根节点被设置为(0，0)(即所述根节点的数据位和标志位的值均被设置为0)。

如图2所示，优选地，在本发明所公开的数据存储装置中，所述十叉树中对应于数据信息的最后一个数据位的节点的标志位的值被设置为1，所述十叉树中的其余节点的标志位的值被设置为0。

优选地，在本发明所公开的数据存储装置中，所述十叉树的每一级节点对应于所述数据信息的每一位，即每一节点在树结构中所处的层级对应于所述数据信息的每一位在所述数据信息中的顺序(例如第1级子节点对应于数据信息的第1位数据)。

优选地，所述预定的查询规则是自根向上的结合树的查询算法，从而能够基于数据匹配完成所述树结构的遍历。本领域的技术人员应该理解，可以使用能够完成相同功能的任何其它查询算法。

如图1-2所示，示例性地，本发明所公开的数据存储装置的树结构的创建过程如下：创建根节点(所述根节点被设置为(0，0))；从根节点出发，对于每一个数据信息(例如每一个***)中的每一位数据遍历所述树结构；如果针对某一位数据存在匹配的节点，则继续向下遍历；如果针对某一位数据不存在匹配的节点，则基于所述树的结构创建该位数据对应的节点；以此类推，直至对应于每一个所述数据信息的最后一位的节点均已建立。图2示意性地示出了根据数据信息集合[42230，42231，42236，42453，42457，6247，6255，6256，6258](即包括上述9个数据信息)构建的十叉树结构。由上可知，在本发明所公开的数据存储装置中，以树结构按位存储每一个数据信息，即不同的数据信息(例如***)中相同的数字有很大一部分是占用相同的空间，因此可以显著节省存储空间。

如图1-2所示，示例性地，本发明所公开的数据存储装置的树结构的查询过程如下：从根节点出发，对于待查询每一个数据信息(例如每一个***)中的每一位数据遍历所述树结构(即依次匹配树上的节点)；如果匹配到对应于所述数据信息的最后一位数字的节点并且所述节点的标志位的值为1，则查询成功；否则，查询失败。由上可知，在本发明所公开的数据存储装置中，所述十叉树的查询效率与基数N(即数据信息的总量)无关，而与所述数据信息的长度相关，即不管数据信息总量的大小，最多只会比较数据信息的长度次，因此可以显著地提高整个***的性能和效率。

如图1-2所示，示例性地，本发明所公开的数据存储装置的树结构的增加过程如下：从根节点出发，对于待增加的每一个数据信息(例如每一个***)中的每一位数据遍历所述树结构(即依次匹配树上的节点)；如果针对某一位数据存在匹配的节点，则继续向下遍历；如果针对某一位数据不存在匹配的节点，则基于所述树的结构创建该位数据对应的节点；以此类推，直至对应于每一个所述数据信息的最后一位数字的节点均已建立。

如图1-2所示，示例性地，本发明所公开的数据存储装置的树结构的删除过程如下：从根节点出发，对于待删除的每一个数据信息(例如每一个***)中的每一位数据遍历所述树结构(即依次匹配树上的节点)；如果针对某一位数据存在匹配的节点，则继续向下遍历；如果针对某一位数据不存在匹配的节点，则退出；如果匹配到对应于每一个所述数据信息的最后一位数字的节点，则将该节点的标志位的值设置为0；

如图1-2所示，示例性地，当已存在的数据信息的数字值需要改变时，本发明所公开的数据存储装置的树结构的修改过程如下：从根节点出发，对于待修改的每一个数据信息(例如每一个***)中的每一位数据遍历所述树结构(即依次匹配树上的节点)；如果针对某一位数据存在匹配的节点，则将所述节点的数据位设置为新的值并继续向下遍历；以此类推，直至所有需修改的节点的数据位均被设置为新的值。其中，旧的数据信息与新的数据信息的对应关系(即将旧的数据信息修改为对应的新的数据信息)包含在所述请求信息中。

如图1-2所示，示例性地，当已存在的数据信息的长度需要改变时，本发明所公开的数据存储装置的树结构的修改过程如下：(1)当数据信息的长度减短时，修改过程如下：从根节点出发，对于每一个新的减短的数据信息(例如更短的***)中的每一位数据遍历所述树结构(即依次匹配树上的节点)；如果针对某一位数据存在匹配的节点，则继续向下遍历；如果针对某一位数据不存在匹配的节点，则退出；如果匹配到对应于每一个所述新的数据信息的最后一位数字的节点，则将该节点的标志位的值设置为1；(2)当数据信息的长度加长时，修改过程如下：从根节点出发，对于每一个新的加长的数据信息(例如更长的***)中的每一位数据遍历所述树结构(即依次匹配树上的节点)；如果针对某一位数据存在匹配的节点，则继续向下遍历；如果针对某一位数据不存在匹配的节点，则基于所述树的结构创建该位数据对应的节点；以此类推，直至对应于每一个所述新的数据信息的最后一位数字的节点均已建立。

由上可知，在本发明所公开的数据存储装置中，以树结构按位存储每一个数据信息，因此当需要对数据信息(例如***)进行增加，删除以及修改操作时，只需对相应的节点进行操作即可，而不用修改基础数据结构，因而***易于扩展。

图3是根据本发明的实施例的基于树结构的海量数据存储方法的流程图。如图3所示，本发明所公开的基于树结构的海量数据存储方法包括如下步骤：(A1)从应用服务器处接收数据信息及初始化指令；(A2)根据所述初始化指令并基于树结构存储所述数据信息。

如图3所示，本发明所公开的基于树结构的海量数据存储方法进一步包括：(A3)接收来自所述应用服务器的查询指令和待查询的数据信息，并基于所述查询指令和待查询的数据信息以及针对所述树结构的预定的查询规则完成指定的查询操作，并将查询结果传送回所述应用服务器。

如图3所示，本发明所公开的基于树结构的海量数据存储方法进一步包括：(A4)接收来自所述应用服务器的维护指令和待维护的数据信息，并基于所述维护指令和待维护的数据信息完成针对所述树结构的维护操作，并将指示操作结果的响应信息传送回所述应用服务器。

如图3所示，在本发明所公开的基于树结构的海量数据存储方法中，所述步骤(A4)进一步包括：(B1)当所述维护指令是修改命令时，根据所述修改命令和待维护的数据信息查询所述树结构，并修改匹配到的相应的节点的值；(B2)当所述维护指令是删除命令时，根据所述删除命令和待维护的数据信息查询所述树结构，并在匹配成功时改变匹配到的最后一个节点的标志位的值；(B3)当所述维护指令是增加命令时，根据所述增加命令和待维护的数据信息查询所述树结构，并创建没有匹配到的节点。

优选地，在本发明所公开的数据存储方法中，所述树结构是十叉树(即树中的每个父节点至多具有10个子节点)。由于需要存储的数据信息(例如***)是数字集，而每位数字是0-9中的一个，因此所述树结构被选择为十叉树。

优选地，在本发明所公开的数据存储方法中，所述十叉树中的每个父节点包括多个指针，所述多个指针分别指向其各个子节点。

优选地，在本发明所公开的数据存储方法中，所述十叉树中的每个节点包括数据位和标志位，其中所述数据位用于存储对应于所述数据信息(例如***)的一位数据，所述标志位的值是0和1中的一个。

优选地，在本发明所公开的数据存储方法中，所述十叉树的根节点被设置为(0，0)(即所述根节点的数据位和标志位的值均被设置为0)。

优选地，在本发明所公开的数据存储方法中，所述十叉树中对应于数据信息的最后一个数据位的节点的标志位的值被设置为1，所述十叉树中的其余节点的标志位的值被设置为0。

优选地，在本发明所公开的数据存储方法中，所述十叉树的每一级节点对应于所述数据信息的每一位，即每一节点在树结构中所处的层级对应于所述数据信息的每一位在所述数据信息中的顺序(例如第1级子节点对应于数据信息的第1位数据)。

示例性地，在本发明所公开的数据存储方法中，所述树结构的创建过程如下：创建根节点(所述根节点被设置为(0，0))；从根节点出发，对于每一个数据信息(例如每一个***)中的每一位数据遍历所述树结构；如果针对某一位数据存在匹配的节点，则继续向下遍历；如果针对某一位数据不存在匹配的节点，则基于所述树的结构创建该位数据对应的节点；以此类推，直至对应于每一个所述数据信息的最后一位的节点均已建立。由上可知，在本发明所公开的数据存储方法中，以树结构按位存储每一个数据信息，即不同的数据信息(例如***)中相同的数字有很大一部分是占用相同的空间，因此可以显著节省存储空间。

示例性地，在本发明所公开的数据存储方法中，所述树结构的查询过程如下：从根节点出发，对于待查询每一个数据信息(例如每一个***)中的每一位数据遍历所述树结构(即依次匹配树上的节点)；如果匹配到对应于所述数据信息的最后一位数字的节点并且所述节点的标志位的值为1，则查询成功；否则，查询失败。由上可知，在本发明所公开的数据存储方法中，所述十叉树的查询效率与基数N(即数据信息的总量)无关，而与所述数据信息的长度相关，即不管数据信息总量的大小，最多只会比较数据信息的长度次，因此可以显著地提高整个***的性能和效率。

示例性地，在本发明所公开的数据存储方法中，所述树结构的增加过程如下：从根节点出发，对于待增加的每一个数据信息(例如每一个***)中的每一位数据遍历所述树结构(即依次匹配树上的节点)；如果针对某一位数据存在匹配的节点，则继续向下遍历；如果针对某一位数据不存在匹配的节点，则基于所述树的结构创建该位数据对应的节点；以此类推，直至对应于每一个所述数据信息的最后一位数字的节点均已建立。

示例性地，在本发明所公开的数据存储方法中，所述树结构的删除过程如下：从根节点出发，对于待删除的每一个数据信息(例如每一个***)中的每一位数据遍历所述树结构(即依次匹配树上的节点)；如果针对某一位数据存在匹配的节点，则继续向下遍历；如果针对某一位数据不存在匹配的节点，则退出；如果匹配到对应于每一个所述数据信息的最后一位数字的节点，则将该节点的标志位的值设置为0；

示例性地，当已存在的数据信息的数字值需要改变时，在本发明所公开的数据存储方法中，所述树结构的修改过程如下：从根节点出发，对于待修改的每一个数据信息(例如每一个***)中的每一位数据遍历所述树结构(即依次匹配树上的节点)；如果针对某一位数据存在匹配的节点，则将所述节点的数据位设置为新的值并继续向下遍历；以此类推，直至所有需修改的节点的数据位均被设置为新的值。其中，旧的数据信息与新的数据信息的对应关系(即将旧的数据信息修改为对应的新的数据信息)包含在所述请求信息中。

示例性地，当已存在的数据信息的长度需要改变时，在本发明所公开的数据存储方法中，所述树结构的修改过程如下：(1)当数据信息的长度减短时，修改过程如下：从根节点出发，对于每一个新的减短的数据信息(例如更短的***)中的每一位数据遍历所述树结构(即依次匹配树上的节点)；如果针对某一位数据存在匹配的节点，则继续向下遍历；如果针对某一位数据不存在匹配的节点，则退出；如果匹配到对应于每一个所述新的数据信息的最后一位数字的节点，则将该节点的标志位的值设置为1；(2)当数据信息的长度加长时，修改过程如下：从根节点出发，对于每一个新的加长的数据信息(例如更长的***)中的每一位数据遍历所述树结构(即依次匹配树上的节点)；如果针对某一位数据存在匹配的节点，则继续向下遍历；如果针对某一位数据不存在匹配的节点，则基于所述树的结构创建该位数据对应的节点；以此类推，直至对应于每一个所述新的数据信息的最后一位数字的节点均已建立。

由上可知，在本发明所公开的数据存储方法中，以树结构按位存储每一个数据信息，因此当需要对数据信息(例如***)进行增加，删除以及修改操作时，只需对相应的节点进行操作即可，而不用修改基础数据结构，因而***易于扩展。

尽管本发明是通过上述的优选实施方式进行描述的，但是其实现形式并不局限于上述的实施方式。应该认识到：在不脱离本发明主旨和范围的情况下，本领域技术人员可以对本发明做出不同的变化和修改。

Claims

1.一种基于树结构的海量数据存储装置，所述基于树结构的海量数据存储装置包括：

存储器，所述存储器用于存储所述树结构；

主控制模块，所述主控制模块用于接收并解析由所述输入/输出模块传送的请求信息，并根据解析结果构造包括数据信息和指令的报文，并将所述报文传送到对应的处理模块，以及将处理模块返回的结果数据或响应信息传送回所述输入/输出模块；

其中，所述树结构是十叉树，并且所述十叉树的每一节点在树结构中所处的层级对应于所述数据信息的每一位在所述数据信息中的顺序；

其中，所述十叉树中的每个父节点包括多个指针，所述多个指针分别指向其各个子节点，所述十叉树中的每个节点包括数据位和标志位，其中所述数据位用于存储对应于所述数据信息的一位数据，所述标志位的值是0和1中的一个，所述十叉树的根节点的数据位和标志位的值均被设置为0，所述十叉树中对应于数据信息的最后一个数据位的节点的标志位的值被设置为1，所述十叉树中的其余节点的标志位的值被设置为0。

2.根据权利要求1所述的基于树结构的海量数据存储装置，其特征在于，所述数据维护模块进一步包括：

删除单元，所述删除单元用于根据来自所述主控制模块的指令和数据信息查询所述树结构，并在匹配成功时改变匹配到的最后一个节点的标志位的值；

3.根据权利要求2所述的基于树结构的海量数据存储装置，其特征在于，所述请求信息包括数据信息和/或操作命令信息。

4.一种基于树结构的海量数据存储方法，所述基于树结构的海量数据存储方法包括如下步骤：

(A1)从应用服务器处接收数据信息及初始化指令；

(A2)根据所述初始化指令并基于树结构存储所述数据信息；

5.根据权利要求4所述的基于树结构的海量数据存储方法，其特征在于，所述方法进一步包括：

6.根据权利要求5所述的基于树结构的海量数据存储方法，其特征在于，所述方法进一步包括：

7.根据权利要求6所述的基于树结构的海量数据存储方法，其特征在于，所述步骤(A4)进一步包括：