CN111190992B

CN111190992B - 一种非结构化数据的海量存储方法及存储***

Info

Publication number: CN111190992B
Application number: CN201911257354.3A
Authority: CN
Inventors: 陈书平; 于长琦; 王绪繁; 陶俭; 陈竞翔; 姜志山; 王灿; 王玉宝
Original assignee: Huaneng Group Technology Innovation Center Co Ltd; Huaneng Information Technology Co Ltd
Current assignee: Huaneng Group Technology Innovation Center Co Ltd; Huaneng Information Technology Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2023-09-08
Anticipated expiration: 2039-12-10
Also published as: CN111190992A

Abstract

本发明实施例公开了一种非结构化数据的海量存储方法及存储***，包括如下步骤：将云存储空间划分为若干个用于存储不同文件类型的分布式存储模块；利用空间模拟法将分布式存储模块划分为若干个子存储集群，设定数据流在子存储集群和网格存储位置中的存储方式；在相邻两个子存储集群之间设置虚拟通道，架设前端数据源头与子存储集群之间匹配对应的传输通信链路；将若干个相邻子存储集群组成一个存储实现单元，利用同一个存储实现单元的虚拟通道实现快速存储；采用增设存储单元之间的虚拟通道将多个待存储单元作为入库缓冲池，提升了数据库的数据有效存储率，同时监控每个子存储集群顺次完全利用。

Description

一种非结构化数据的海量存储方法及存储***

技术领域

本发明实施例涉及海量存储技术领域，具体涉及一种非结构化数据的海量存储方法及存储***。

背景技术

计算机信息化***中的数据分为结构化数据和非结构化数据，其中非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML,HTML、各类报表、图像和音频/视频信息等等，因此非结构化数据其格式非常多样，标准也是多样性的，而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术，比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。

将非结构化数据进行海量存储时，由于数据***性导致数据在入库存储时的速度慢，严重影响数据存储的及时性，容易出现数据丢失的情况，同时由于海量存储的空间大，合理全面的利用难度大，容易出现空间利用率低的问题。

发明内容

为此，本发明实施例提供一种非结构化数据的海量存储方法及存储***，采用增设存储单元之间的虚拟通道将多个待存储单元作为入库缓冲池，提升了数据库的数据有效存储率，同时监控每个子存储集群顺次完全利用，以解决现有技术中避免数据入库拥堵而造成数据丢失以及海量存储利用率低的问题。

为了实现上述目的，本发明的实施方式提供如下技术方案：一种非结构化数据的海量存储方法及存储***，包括如下步骤：

步骤100、将云存储空间划分为若干个用于存储不同文件类型的分布式存储模块；

步骤200、利用空间模拟法将所述分布式存储模块划分为若干个子存储集群，设定数据流在所述子存储集群中的存储方式；

步骤300、在相邻两个所述子存储集群之间设置虚拟通道，架设前端数据源头与所述子存储集群之间匹配对应的传输通信链路；

步骤400、将若干个相邻所述子存储集群组成一个存储实现单元，利用同一个存储实现单元的所述虚拟通道实现快速存储。

作为本发明的一种优选方案，在步骤200中，所述空间模拟法将所述分布式存储模块按照三维矩阵划分为若干个立体分布的所述子存储集群，同一个类型的数据流按序存储在不同立***置的所述子存储集群内。

作为本发明的一种优选方案，在步骤200中，根据所述子存储集群分布特征，设定数据流在所述子存储集群的存储方式的具体实现步骤为：

沿着立体分布的所述子存储集群的三个直角相交的棱边构建三维直角坐标系；

标记每个所述子存储集群在所述三维直角坐标系内的三维坐标；

具体设定数据流先顺次按照上下层的方式存储，然后在每层子存储集群按照先行后列的方式保存。

作为本发明的一种优选方案，在步骤300中，所述虚拟通道设置在所述三维坐标系中同一层的所述子存储集群之间以及相邻的两层所述子存储集群之间，所述子存储集群整体通过所述虚拟通道实现数据贯通存储，所述虚拟通道将数据流在所述子存储集群沿着“S”形依次顺序保存。

作为本发明的一种优选方案，在步骤400中，所述存储实现单元以其中一个所述子存储集群作为主存储对象，并将其他的所述子存储集群作为缓冲池。

作为本发明的一种优选方案，在步骤400中，在同一个所述存储实现单元通过所述虚拟通道实现快速存储的具体实现步骤为：

步骤401、将一个所述存储实现单元内的主存储对象的导入端口与所述传输通信链路连接导通，将前端数据通过所述主存储对象的导入端口存储在所述主存储对象内；

步骤402、实时监测所述传输通信链路的滞留数据大小，根据滞留数据大小，依次打开同一个存储实现单元的其他作为缓冲池的所述子存储集群；

步骤403、所述前端数据通过虚拟通道导入主存储对象内；

步骤404、利用内存监测器实时监控所述存储实现单元的所述主存储对象的剩余容量，根据所述主存储对象的剩余容量调整到下一个所述存储实现单元的所述主存储对象进行数据存储。

作为本发明的一种优选方案，上一个所述存储实现单元内作为缓冲池的子存储集群是下一个所述存储实现单元的主存储对象。

作为本发明的一种优选方案，在步骤402中，所述传输通信链路与所述存储实现单元的连接端设有若干个分段链路末梢，所述分段链路末梢上均设有与所述存储实现单元内的子存储集群一一对应的入库端口，按照与主存储对象的距离从近到远的顺序将分段链路末梢与作为缓冲池连通，并按照与主存储对象的距离从远到近的顺序将分段链路末梢与作为缓冲池的子存储集群断开。

另外，本发明还提供了一种非结构化数据的海量存储***，其特征在于，包括：

云存储空间分化模块，用于将云存储空间划分为若干个分别存储不同文件类型的分布式存储模块；

存储模块拆分单元，用于将分布式存储模块拆分为三维立体矩阵分布的子存储集群；

虚拟通道单元，用于将两个相邻的子存储集群进行数据互通；

存储实现单元，用于将若干个子存储集群组合分为一个主存储对象和其他多个缓冲池。

作为本发明的一种优选方案，所述虚拟通道单元为每个子存储集群增设用于降低数据入库压力的数据缓冲区，所述数据流从相邻的子存储集群转移到正在存储数据的子存储集群内。

本发明的实施方式具有如下优点：

(1)本发明在将海量数据存储的过程中，为了避免数据入库压力大入库速度慢，采用异步存储的方式，将所有的子存储集群利用虚拟通道贯通连接，将多个待存储单元作为入库缓冲池，提升了数据库的数据有效存储率，避免数据入库拥堵而造成数据丢失的情况。

(2)本发明监控每个子存储集群顺次完全利用，所有子存储集群按需顺次实用，避免出现存储空间浪费的情况。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施方式中海量存储***的结构框图；

图2为本发明实施方式中数据传输交互***的结构框图；

图3为本发明实施方式中海量存储方法的流程示意图；

图4为本发明实施方式中数据传输交互方法的流程示意图。

图中：

1-云存储空间分化模块；2-存储模块拆分单元；3-虚拟通道单元；4-存储实现单元；5-交互记录单元；6-交互通信链路单元；7-数据传输链路单元。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本发明提供了一种非结构化数据的海量存储方法及存储***，本发明先将用于存储海量数据的云存储空间按照非结构化数据的多种类型划分成多个分布式存储模块，再将分布式存储模块划分为若干个立体三维分布的子存储集群，从而可将不同类型的数据分类存储，方便后期的查询交互。

另外，在将海量数据存储的过程中，为了避免数据入库压力大入库速度慢，采用异步存储的方式，将所有的子存储集群利用虚拟通道贯通连接，当将数据保存在其中一个子存储集群时，将与该子存储集群贯通连接若干个子存储集群作为入库缓冲池，提升了数据库的数据有效存储率，避免数据入库拥堵而造成数据丢失的情况。

同时在利用本存储***进行数据交互时，增设用于加快交互速度的交互记录池，在交互记录池内统计对存储***内同一个数据查询频率、同一个请求语句集合以及请求语句查询的数据在子存储集群的分布情况，因此在下次客户端发出数据交互请求时，直接在交互记录池内比对查找，快速的从子存储集群响应查询数据，从而避免在庞大的海量存储***内进行数据筛选引起的请求响应慢的问题。

非结构化数据的海量存储***，包括：

云存储空间分化模块1，用于将云存储空间划分为若干个分别存储不同文件类型的分布式存储模块；

存储模块拆分单元2，用于将分布式存储模块拆分为三维立体矩阵分布的子存储集群；

虚拟通道单元3，用于将两个相邻的子存储集群进行数据互通。

虚拟通道单元3为每个子存储集群增设用于降低数据入库压力的数据缓冲区，所述数据流从相邻的子存储集群转移到正在存储数据的子存储集群内；

存储实现单元4，用于将若干个子存储集群组合分为一个主存储对象和其他多个缓冲池。

海量存储***的工作原理和工作方式将在海量存储方法中细述。

如图3所示，存储方法具体包括如下步骤：

步骤100、将云存储空间划分为若干个用于存储不同文件类型的分布式存储模块。

步骤200、利用空间模拟法将所述分布式存储模块划分为若干个子存储集群，设定数据流在所述子存储集群中的存储方式。

空间模拟法将分布式存储模块按照三维矩阵划分为多个立体分布的子存储集群，同一个类型的数据流按序存储在不同立***置的子存储集群内。

根据所述子存储集群的分布特征，设定数据流在所述子存储集群的存储方式的具体实现步骤为：

(1)沿着立体分布的所述子存储集群的三个直角相交的棱边构建三维直角坐标系；

(2)标记每个所述子存储集群在三维直角坐标系内的三维坐标；

(3)具体设定数据流先顺次按照上下层的方式存储，然后在每层子存储集群按照先行后列的方式保存。

其中在子存储集群内存储数据时，可以按照从上层到下层或从下层到上层的顺序存储，在每一层的子存储集群内按照先行后列或者先列后行的方式存储，这种存储的方式不做具体的限定。

步骤300、在相邻两个所述子存储集群之间设置虚拟通道，架设前端数据源头与所述子存储集群之间匹配对应的传输通信链路。

但是一旦限定存储方式后，则整层的子存储集群支架的虚拟通道的设置也不同。

所述虚拟通道设置在所述三维坐标系中同一层的所述子存储集群之间，虚拟通道可以设置在每行的子存储集群之间，也可以设置在每列的子存储集群之间，相邻的两行或者两列之间的子存储集群同样通过虚拟通道连接。

同样的，虚拟通道也设置在相邻的两层所述子存储集群之间，所述子存储集群整体通过所述虚拟通道实现数据贯通存储，所述虚拟通道将数据流在所述子存储集群沿着“S”形依次顺序保存，从而保证在三维的子存储集群矩阵里，确保不会出现存储入库效率慢的问题。

在数据存储时，如何利用虚拟通道实现快速入库的操作，将在步骤400中细述。

存储实现单元以其中一个所述子存储集群作为主存储对象，并将其他的所述子存储集群作为缓冲池，其中存储实现单元包含的子存储集群的数量可按需自定义，也就是说，当将数据存储到主存储对象时，一旦出现存储速度慢的情况，则数据可先转移到作为缓冲池的子存储集群内，再通过子存储集群之间的虚拟通道转移到主存储对象，实现异步快速存储。

在同一个所述存储实现单元通过所述虚拟通道实现快速存储的具体实现步骤为：

(Ⅰ)将一个所述存储实现单元内的主存储对象的导入端口与所述传输通信链路连接导通，将前端数据通过所述主存储对象的导入端口存储在所述主存储对象内。

(Ⅱ)实时监测所述传输通信链路的滞留数据大小，根据滞留数据大小，依次打开同一个存储实现单元的其他作为缓冲池的所述子存储集群。

所述传输通信链路与所述存储实现单元的连接端设有若干个分段链路末梢，所述分段链路末梢上均设有与所述存储实现单元内的子存储集群一一对应的入库端口，按照与主存储对象的距离从近到远的顺序将分段链路末梢与作为缓冲池连通，同时并按照与主存储对象的距离从远到近的顺序将分段链路末梢与作为缓冲池的子存储集群断开。

(Ⅲ)所述前端数据通过虚拟通道导入主存储对象内。

根据步骤Ⅰ、Ⅱ、Ⅲ，当主存储对象的导入端口出现存储效率低的问题时，则将数据导入与主存储对象关联的其他子存储集群进行缓冲，减小主存储对象的导入端口存储压力，然后作为缓冲池的子存储集群的数据通过虚拟通道异步进入主存储对象内。

而当主存储对象的导入端口的压力减少时，则断开传输通信链路与作为缓冲池的子存储集群连接，因此数据主要还是通过主存储对象的导入端口按照时间顺序存储，因此方便后期的查询和数据对比。

并且按照与主存储对象的距离从近到远的顺序将分段链路末梢与作为缓冲池连通，同时并按照与主存储对象的距离从远到近的顺序将分段链路末梢与作为缓冲池的子存储集群断开，均是为了避免在每个主存储对象完全集满时数据在多个缓冲池的分布杂乱、数据存储顺序完全杂乱的问题。

(Ⅳ)利用内存监测器实时监控所述存储实现单元的所述主存储对象的剩余容量，根据所述主存储对象的剩余容量调整到下一个所述存储实现单元的所述主存储对象进行数据存储。

上一个所述存储实现单元内作为缓冲池的子存储集群是下一个所述存储实现单元的主存储对象。

举例来说，当一行存在六个子存储集群，将三个子存储集群作为一个存储实现单元，则每个存储实现单元包含的子存储集群分别为集群1、集群2和集群3；集群2、集群3和集群4；集群3、集群4和集群5……，因此集群2作为第一个存储实现单元的缓冲池，同时也是第二个存储实现单元的主存储对象，当将数据顺序存储在集群1时，集群1的端口始终保持与传输通信链路之间的连通，集群2和集群3与传输通信链路之间的连通根据集群1的端口存储压力而定，而当集群1的内存用完时，则数据统一存储到集群2，集群2的端口始终保持与传输通信链路之间的连通，而集3和集群4与传输通信链路之间的连通根据集群2的端口存储压力而定，以此类推。

因此在将海量数据存储的过程中，为了避免数据入库压力大入库速度慢，采用异步存储的方式，将所有的子存储集群利用虚拟通道贯通连接，提升了数据库的数据有效存储率，避免数据入库拥堵而造成数据丢失的情况，同时监控每个子存储集群顺次完全利用，避免出现存储空间浪费。

实施例2

众所周知，海量数据在存储后，由于存储空间***的庞大，在后期的数据传输时，则会存在存储空间不完全利用的问题，同时用户在客户端发出查询请求时，需要很长时间的筛选才能找到对应的数据，为了解决上述问题，本发明还提供了一种非结构化数据传输交互***及方法。

如图2所示，数据传输交互***包括：云存储空间分化模块1，用于将云存储空间划分为若干个分别存储不同文件类型的分布式存储模块；

交互记录单元5，用于保存所述子存储集群中请求查询次数高的数据和保存请求语句集合；

交互通信链路单元6，用于构建响应客户端请求语句的交互顺序。

数据传输链路单元7，所述数据传输链路单元7在所述前端数据源头与多个所述子存储集群之间可以分布多条链路，所述交互通信链路单元6在所述前端数据源头与多个所述子存储集群之间有且只有一条链路，

如图4所示，数据传输交互***的具体实现方法包括如下步骤：

步骤100、将云存储空间按照非结构化数据的类型划分为若干个分布式存储模块，并且利用空间模拟法将所述分布式存储模块划分为若干个子存储集群。

步骤200、在相邻两个所述子存储集群之间设置虚拟通道，架设前端数据源头与所述子存储集群之间匹配对应的传输通信链路。

数据传输过程具体如实施例1所述，通过虚拟通道进行数据传输保存，一方面减少海量数据传输的压力，另一方面确保每个子存储集群完全利用不浪费存储空间。

在数据保存后，由于存储***的数据庞大，在数据交互的过程中如何快速交互响应的具体实现过程如步骤300和步骤400所述。

步骤300、从所述云存储空间内申请创建交互记录池的空间，将所述子存储集群中的数据根据统计的客户端请求次数高低在所述交互记录池中备份，并且所述交互记录池的备份数据与所述子存储集群内的数据相同。

同一个所述前端数据源头可以匹配多个所述子存储集群，实现不断地扩张存储空间进行无止境的海量存储，所述交互记录池的个数与所述前端数据源头的分类数量相同。

交互记录池的作用主要就是为了方便用户在客户端查询云存储后端的数据，为了避免操作复杂性，每个前端数据源头针对只布设一个交互记录池。根据大数据的处理***得知，大多对于保存数据的利用率不超过20％，很多都是对同一种类型的数据进行多次访问。

基于这个发现，本实施方式统计每个前端数据源头对于数据的请求查询过程，包括客户发出的请求语句和客户最终查询的具体数据，实时统计查询次数较多的具体数据以及发送较多的同一个请求语句，将查询次数较多的具体数据备份到交互记录池内。

具体的实现过程为：

A、统计的客户端请求次数高低，并将客户端请求次数高的数据在所述交互记录池临时部分存储，具体的实现步骤为：

B、获取客户端对子存储集群内的数据请求查询的请求语句；

C、统计不同请求语句的发送次数，确定响应每个请求语句的数据所在的子存储集群坐标；

D、将客户选择频数由高到低的数据依次保存在所述交互记录池内，同时保存查询次数频数由高到低的请求语句集合；

E、将请求语句集合中的单个请求语句所在的子存储集群坐标集合保存在所述交互记录池内。

也就是说，先把客户端发送的请求语句对比与具体的数据名称对比，如果一致，即可快速的从交互记录池内找到数据，而不需要在庞大的海量数据***中查找，从而实现对客户端请求的快速响应。

如果在交互记录池的数据集合内没有找到具体的数据，则在请求语句集合进行实时对比，一旦对比相同，在通过子存储集群坐标集合也可以一次筛选出包含请求语句的子存储集群，再在具体的子存储集群内查找含有请求语句的数据，最后筛选成功具体的数据。

步骤400、按照所述客户端、所述交互记录池和所述集群区块的通信路径构建双向交互通信链路。

因此所述客户端请求数据交互时，先将请求语句在所述交互记录池内的备份数据进行一次对比；

再将请求语句在所述交互记录池内的所述请求语句集合二次对比，在配对的请求语句所在的子存储集群坐标集合内查询具体的数据；

最后在整个子存储集群内查询响应请求语句的数据。

综上，交互记录池可以实现的功能为，在交互记录池内统计对存储***内同一个数据查询频率、同一个请求语句集合以及请求语句查询的数据在子存储集群的分布情况，因此在下次客户端发出数据交互请求时，直接在交互记录池内比对查找，快速的从子存储集群响应查询数据，从而避免在庞大的海量存储***内进行数据筛选引起的请求响应慢的问题。

另外，作为本发明的一个特征点，定期需要选择性删除所述交互记录池中的备份数据以保持所述交互记录池中的紧急冗余空间，所述选择删除备份数据的执行标准为：先在备份数据中按照查询交互时间前后顺序删除数据；再选择删除查询交互频数低的具体备份数据。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种非结构化数据的海量存储方法，其特征在于，包括如下步骤：

其中在步骤200中，所述空间模拟法将所述分布式存储模块按照三维矩阵划分为若干个立体分布的所述子存储集群，同一个类型的数据流按序存储在不同立***置的所述子存储集群内；

根据所述子存储集群分布特征，设定数据流在所述子存储集群的存储方式的具体实现步骤为：

具体设定数据流先顺次按照上下层的方式存储，然后在每层子存储集群按照先行后列的方式保存；

步骤400、将若干个相邻所述子存储集群组成一个存储实现单元，利用同一个存储实现单元的所述虚拟通道实现快速存储；

其中，在步骤400中，所述存储实现单元以其中一个所述子存储集群作为主存储对象，并将其他的所述子存储集群作为缓冲池；

步骤403、所述前端数据通过虚拟通道导入主存储对象内；

步骤404、利用内存监测器实时监控所述存储实现单元的所述主存储对象的剩余容量，根据所述主存储对象的剩余容量调整到下一个所述存储实现单元的所述主存储对象进行数据存储，上一个所述存储实现单元内作为缓冲池的子存储集群是下一个所述存储实现单元的主存储对象。

2.根据权利要求1所述的一种非结构化数据的海量存储方法，其特征在于，在步骤300中，所述虚拟通道设置在三维坐标系中同一层的所述子存储集群之间以及相邻的两层所述子存储集群之间，所述子存储集群整体通过所述虚拟通道实现数据贯通存储，所述虚拟通道将数据流在所述子存储集群沿着“S”形依次顺序保存。

3.根据权利要求1所述的一种非结构化数据的海量存储方法，其特征在于，在步骤402中，所述传输通信链路与所述存储实现单元的连接端设有若干个分段链路末梢，所述分段链路末梢上均设有与所述存储实现单元内的子存储集群一一对应的入库端口，按照与主存储对象的距离从近到远的顺序将分段链路末梢与作为缓冲池连通，并按照与主存储对象的距离从远到近的顺序将分段链路末梢与作为缓冲池的子存储集群断开。

4.一种非结构化数据的海量存储***，基于权利要求1-3任一项所述的非结构化数据的海量存储方法，其特征在于，包括：

云存储空间分化模块(1)，用于将云存储空间划分为若干个分别存储不同文件类型的分布式存储模块；

存储模块拆分单元(2)，用于将分布式存储模块拆分为三维立体矩阵分布的子存储集群；

虚拟通道单元(3)，用于将两个相邻的子存储集群进行数据互通；

存储实现单元(4)，用于将若干个子存储集群组合分为一个主存储对象和其他多个缓冲池。

5.根据权利要求4所述的一种非结构化数据的海量存储***，其特征在于：所述虚拟通道单元(3)为每个子存储集群增设用于降低数据入库压力的数据缓冲区，所述数据流从相邻的子存储集群转移到正在存储数据的子存储集群内。