CN113836087B

CN113836087B - 一种基于文件模式的大数据层存储方法

Info

Publication number: CN113836087B
Application number: CN202111120316.0A
Authority: CN
Inventors: 张才明
Original assignee: China Institute Of Industrial Relations
Current assignee: China Institute Of Industrial Relations
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2022-07-15
Anticipated expiration: 2041-09-24
Also published as: CN113836087A

Abstract

本发明公开了一种基于文件模式的大数据层存储方法，包括：获取待处理数据，对所述待处理数据进行解析，根据解析结果将所述待处理数据分为若干个子待处理数据；根据若干个子待处理数据建立若干个数据模型；其中，一个子待处理数据建立一个数据模型；根据所述数据模型生成模型文件，将所述模型文件中的数据生成数据层，得到若干个数据层；建立各数据层之间的关联关系，生成数据层集合并进行存储。可以提升数据统计分析、各个维度钻取分析及多个维度计算的性能，实现基于文件模式的大数据层存储，提高存储的安全性及高效性，同时支持多用户写入及任意修改文件。

Description

一种基于文件模式的大数据层存储方法

技术领域

本发明涉及大数据存储技术领域，特别涉及一种基于文件模式的大数据层存储方法。

背景技术

大数据存储，指用存储器，以数据库的形式，存储采集到的数据的过程，常见技术包含三种典型路线：1、基于MPP架构的新型数据库集群：采用Shared Nothing架构，结合MPP架构的高效分布式计算模式，通过列存储、粗粒度索引等多项大数据处理技术，重点面向行业大数据所展开的数据存储方式。具有低成本、高性能、高扩展性等特点，在企业分析类应用领域有着广泛的应用。较之传统数据库，其基于MPP产品的PB级数据分析能力，有着显著的优越性。自然，MPP数据库，也成为了企业新一代数据仓库的最佳选择。2、基于Hadoop的技术扩展和封装：基于Hadoop的技术扩展和封装，是针对传统关系型数据库难以处理的数据和场景(针对非结构化数据的存储和计算等)，利用Hadoop开源优势及相关特性(善于处理非结构、半结构化数据、复杂的ETL流程、复杂的数据挖掘和计算模型等)，衍生出相关大数据技术的过程。伴随着技术进步，其应用场景也将逐步扩大，目前最为典型的应用场景：通过扩展和封装Hadoop来实现对互联网大数据存储、分析的支撑，其中涉及了几十种NoSQL技术。3、大数据一体机：这是一种专为大数据的分析处理而设计的软、硬件结合的产品。它由一组集成的服务器、存储设备、操作***、数据库管理***，以及为数据查询、处理、分析而预安装和优化的软件组成，具有良好的稳定性和纵向扩展性。

现有技术1中，分布式文件***是一种通过计算机网络实现在多台机器上进行分布式存储的文件***，它把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群，设计一般所采用的是“客户机/服务器”模式。分布式文件***的设计需要重点考虑可扩展性、可靠性、性能优化、易用性及高效元数据管理等关键技术。当前大数据领域中，分布式文件***的使用主要以Hadoop HDFS为主。HDFS采用了冗余数据存储，增强了数据可靠性，加快了数据传输速度，除此之外，HDFS还具有兼容的廉价设备、流数据读写、大数据集、简单的数据模型、强大的跨平台兼容性等特点。但是HDFS也存在着自身的不足，比如不适合低延迟数据访问、无法高效存储大量小文件和不支持多用户写入及任意修改文件等。

现有技术2中，分布式数据库HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库，是谷歌BigTable的开源实现，主要用来存储半结构化和非结构化数据。HBase可以支持Native JavaAPI、HBase Shell等多种访问接口，可以根据具体应用场合选择相应的访问方式，而且相对于传统的关系数据库来说，HBase采用了更加简单的数据模型，把数据存储为未经解释的字符串，用户可以把不同格式的结构化数据和非结构化数据都序列化为字符串保存到HBase中，除此之外在数据操作、存储模式、数据索引、数据维护和可伸缩性等方便都有了更易于实现的方式。HBase因为其强大的写入能力和水平扩展能力，比较适合存储日志，用户行为等数据量比较大的数据，这种数据一般不涉及事务级别的读写，对二级索引的需求也不是很高。而且HBase的主键不像Mysql，往往是涉及到业务逻辑的，如果查询条件单一的话，可以把直接把需要查询的字段作为主键的一部分，类似MySQL的联合索引，来提供检索功能。但是HBase存在不支持事务等缺点。

如图2所示，传统的数据库存储方式，其底层数据存放格式都是行记录方式存放，目前绝大多数的基于关系型数据库的传统BI技术，都是这样的，行记录存放数据的局限性在于数据量必然庞大，特别是随着维度和指标的增多，数量库容量将越来越大，计算效率越来越低，分析报表结果展现也越来越慢。传统数据模型都是事先固定好了维度和指标，不能随业务变化进行调整，致分析的广度和深度都受到极大限制；传统的数据模型钻取路径和层次都是预先设置好了，不能突破，一旦超出必须重新做CUBE和建模型，大大增加了成本。

发明内容

本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此，本发明的目的在于提出一种基于文件模式的大数据层存储方法，可以提升数据统计分析、各个维度钻取分析及多个维度计算的性能，实现基于文件模式的大数据层存储，提高存储的安全性及高效性，同时支持多用户写入及任意修改文件。

为达到上述目的，本发明实施例提出了一种基于文件模式的大数据层存储方法，包括：

获取待处理数据，对所述待处理数据进行解析，根据解析结果将所述待处理数据分为若干个子待处理数据；

根据若干个子待处理数据建立若干个数据模型；其中，一个子待处理数据建立一个数据模型；

根据所述数据模型生成模型文件，将所述模型文件中的数据生成数据层，得到若干个数据层；

建立各数据层之间的关联关系，生成数据层集合并进行存储。

根据本发明的一些实施例，根据子待处理数据建立数据模型，包括：

将所述子待处理数据分为用于分析的维度字段、用于对维度做描述的信息字段和用于统计分析的摘要字段；

根据所述维度字段、信息字段及摘要字段建立数据模型。

根据本发明的一些实施例，所述根据所述维度字段、信息字段及摘要字段建立数据模型，包括：

基于计算函数对所述摘要字段进行建模前的计算修改；

基于所述信息字段建立描述脚本，运行描述脚本中设计好的操作程序来进行建模；

在建模过程中，对所述维度字段包括的分析维度使用交叉索引技术进行辅助以加快数据量的访问速度，最终建立数据模型。

根据本发明的一些实施例，所述模型文件包括具体数据及数据统计分析信息。

根据本发明的一些实施例，所述将所述模型文件中的数据生成数据层，包括：

获取所述模型文件中的维度；

建立模型文件中各个维度之间的关联关系，根据所述各个维度之间的关联关系生成数据层。

根据本发明的一些实施例，对所述待处理数据进行解析，根据解析结果将所述待处理数据分为若干个子待处理数据，包括：

获取待处理数据中包括的数据的属性，将所述属性作为解析结果；所述属性包括数据类型、数据名称；

根据所述属性将所述待处理数据进行数据分割，得到若干个子待处理数据。

根据本发明的一些实施例，根据所述各个维度之间的关联关系生成数据层时，包括：对生成数据层的各个维度进行同行排列，并为各个维度对应的数据生成第一标识。

根据本发明的一些实施例，建立各数据层之间的关联关系，生成数据层集合并进行存储时，包括：将各个数据层进行不同行排列，并为各数据层之间的关联关系生成第二标识。

根据本发明的一些实施例，在对数据层集合进行存储时，包括：

获取所述数据层集合的第一个数据层的数据顺序和所述第一个数据层对应的第一数据类型；

根据所述第一个数据层的数据顺序和所述第一个数据层对应的第一数据类型，确定第一数据光束的第一参数；所述第一参数包括第一数据光束的角度、波长和存储介质位置；

根据所述第一参数生成第一数据光束并进行全息数据记录，得到第一全息数据图；

将所述第一全息数据图存储至第一数据存储节点，在存储过程中，检测第一数据存储节点在存储时的数据流速及数据存储时序，根据所述数据流速及所述数据存储时序，确定第一数据存储节点的第一存储状态；

将所述第一存储状态与预设第一存储状态进行比较，根据比较结果对第一数据存储节点的第一存储状态进行调整；

重复上述步骤，直至将数据层集合的最后一个数据层存储至对应的数据存储节点，并对最后一个数据层对应的数据存储节点进行调整后，根据各数据层之间的关联关系建立各数据存储节点之间的关联关系；

获取各数据存储节点的数据访问频率，根据所述数据访问频率的大小对各数据存储节点的位置进行调整。

根据本发明的一些实施例，在对所述待处理数据进行解析前，还包括：

根据适配正则表达式对所述待处理数据进行数据处理，得到正则化数据；

根据所述正则化数据获取待检测字符串，将所述待检测字符串输入字符串匹配自动机中与预设正则字符串进行匹配，将所述待检测字符串分为第一字符串及第二字符串；其中，所述第一字符串是与预设正则字符串相匹配的，所述第二字符串是与预设正则字符串不相匹配的；

将所述第二字符串与敏感字符串进行匹配，将所述第二字符串分为第三字符串及第四字符串；其中，所述第三字符串是与敏感字符串相匹配的，所述第四字符串是与敏感字符串不相匹配的；

将所述第三字符串从所述待检测字符串中剔除，得到目标数据；

获取目标数据包括的若干个第一子目标数据的重要度，根据所述重要度建立第一子目标数据的排队队列，根据所述排队队列获取第一子目标数据的数据信息，并依次打上第一标签；

根据所述数据信息查询预先数据清洗规则文件，获取对应的数据清洗规则，并根据对应的数据清洗规则进行数据清洗；

在数据清洗过程中，第一子目标数据包括若干个第二子目标数据，将完成数据清洗的第二子目标数据上的第一标签更新为第二标签；

获取当前待清洗的第二子目标数据和上一个已完成数据清洗的第二子目标数据的第一差异信息；

获取上一个第二子目标数据在数据清洗前后的第二差异信息；

根据所述第一差异信息及所述第二差异信息更新对第一子目标数据的数据清洗规则包括的数据清洗指标；

根据更新后的数据清洗规则对当前待清洗的第二子目标数据进行数据清洗。

有益效果：

1、通过动态维度的设置，数据处理、模型建立和设计应用各个环节也预置了大量的数学函数和逻辑运算公式，实现了任何字段和数字都可以做为分析维度和分析指标，达到了分析广度和深度的最大化。

2、可以无限钻取，有多少维度就可以钻多少层次，在现有维度不够的情况下，可以通过动态维和新增有关联关系的模型实现增加维度和指标，钻取路径不限，任意路径钻取，灵活性强。

3、打破传统的瓶颈，采用了独创的层数据存放格式，把数据模型中各个维度之间的关系做为一个数据层进行存储，这样会增加存储需要的空间，但是计算和分析数据时效率和速度都得到了大大提高。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是根据本发明一个实施例的一种基于文件模式的大数据层存储方法的流程图；

图2是现有技术中数据库存储方式的示意图；

图3是根据本发明一个实施例的层数据存放格式的示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提出了一种基于文件模式的大数据层存储方法，包括步骤S1-S4：

S1、获取待处理数据，对所述待处理数据进行解析，根据解析结果将所述待处理数据分为若干个子待处理数据；

S2、根据若干个子待处理数据建立若干个数据模型；其中，一个子待处理数据建立一个数据模型；

S3、根据所述数据模型生成模型文件，将所述模型文件中的数据生成数据层，得到若干个数据层；

S4、建立各数据层之间的关联关系，生成数据层集合并进行存储。

上述技术方案的工作原理：获取待处理数据，对所述待处理数据进行解析，根据解析结果将所述待处理数据分为若干个子待处理数据；根据若干个子待处理数据建立若干个数据模型；其中，一个子待处理数据建立一个数据模型；根据所述数据模型生成模型文件，将所述模型文件中的数据生成数据层，得到若干个数据层；建立各数据层之间的关联关系，生成数据层集合并进行存储。

上述技术方案的有益效果：可以提升数据统计分析、各个维度钻取分析及多个维度计算的性能，实现基于文件模式的大数据层存储，提高存储的安全性及高效性，同时支持多用户写入及任意修改文件。

根据所述维度字段、信息字段及摘要字段建立数据模型。

上述技术方案的工作原理：对数据建立模型，所有的信息划分为的三个组成要素：用于分析的维度字段、用于对维度做描述的信息字段和用于统计分析的摘要字段。根据所述维度字段、信息字段及摘要字段建立分布模型。数据模型中包含了3个数据域：维、摘要和信息字段。建模中被定义成维的字段是被做经过交叉索引处理的，可以对任意维和维之间相互快速的潜入来获取我们最需要的信息。数据中用来做数学统计的字段被定义成摘要。信息字段包含了和维相关的额外信息。

上述技术方案的有益效果：层存储技术跟交叉索引技术是相辅相成的，本申请中对所有设计好的维度进行分析，并组织维度和维度之间的关系，每个维度使用递归的方式与其他维度所关联，并建立交叉索引，提高建立数据模型的准确性。

基于计算函数对所述摘要字段进行建模前的计算修改；

上述技术方案的工作原理：提供了大量的计算函数来对一些摘要字段进行建模前的计算修改。基于所述信息字段建立描述脚本，当用户在描述脚本中设计好这些操作时程序会运行这个脚本来进行建模，并且在建模的过程中对对所述维度字段包括的分析维度使用“交叉索引”的技术，以加快数据量的访问速度，最终建立数据模型。

上述技术方案的有益效果：提高了建立数据模型的准确性。

模型文件的大小会比原始的数据文件要大，这取决于用户所设计的维度和数据量多少来决定。

获取所述模型文件中的维度；

上述技术方案的工作原理：获取所述模型文件中的维度；建立模型文件中各个维度之间的关联关系，根据所述各个维度之间的关联关系生成数据层。具体的层可以看做是模型文件中各个维度之间的关联关系，如图3所示，在Customer模型中CustomerA、CustomerB、CustomerC、CustomerD四个维度相互关联并进行排序。

上述技术方案的有益效果：保证数据层的有序性及合理性，同时打破传统的瓶颈，采用了独创的层数据存放格式，把数据模型中各个维度之间的关系做为一个数据层进行存储，这样会增加存储需要的空间，但是计算和分析数据时效率和速度都得到了大大提高。

上述技术方案的工作原理：获取待处理数据中包括的数据的属性，将所述属性作为解析结果；所述属性包括数据类型、数据名称；根据所述属性将所述待处理数据进行数据分割，得到若干个子待处理数据。

上述技术方案的有益效果：根据数据的属性，进行准确的数据分割，进而准确建立相应的数据模型，获取相应的模型文件，建立数据层，进而准确的生成数据层集合。

上述技术方案的工作原理：对生成数据层的各个维度进行同行排列，并为各个维度对应的数据生成第一标识。

上述技术方案的有益效果：采用了独创的层数据存放格式，把数据模型中各个维度之间的关系做为一个数据层进行存储，在存储过程中基于第一标识进行存储，保证存储的准确性，同时查询数据层时，建立关于第一标识的索引机制，便于进行数据查询，提高数据查询的准确性。同时基于对生成数据层的各个维度进行同行排列，便于后续生成数据层集合时，准确且清晰的表示各数据层之间的关联关系。

上述技术方案的工作原理：将各个数据层进行不同行排列，并为各数据层之间的关联关系生成第二标识。如图3所示，存在关联关系1：CustomerC-1000-ProductB-1500。

上述技术方案的有益效果：准确表示各数据层之间的关联关系，同时便于追溯整个数据层集合中的数据关联关系，便于基于数据层集合进行数据查询，提高数据查询的准确性，同时基于不同行排列，准确且清晰的表示各数据层之间的关联关系。

上述技术方案的工作原理：在对数据层集合进行存储时，获取所述数据层集合的第一个数据层的数据顺序和所述第一个数据层对应的第一数据类型；根据所述第一个数据层的数据顺序和所述第一个数据层对应的第一数据类型，确定第一数据光束的第一参数；所述第一参数包括第一数据光束的角度、波长和存储介质位置；根据所述第一参数生成第一数据光束并进行全息数据记录，得到第一全息数据图；将所述第一全息数据图存储至第一数据存储节点，在存储过程中，检测第一数据存储节点在存储时的数据流速及数据存储时序，根据所述数据流速及所述数据存储时序，确定第一数据存储节点的第一存储状态；将所述第一存储状态与预设第一存储状态进行比较，根据比较结果对第一数据存储节点的第一存储状态进行调整；重复上述步骤，直至将数据层集合的最后一个数据层存储至对应的数据存储节点，并对最后一个数据层对应的数据存储节点进行调整后，根据各数据层之间的关联关系建立各数据存储节点之间的关联关系；获取各数据存储节点的数据访问频率，根据所述数据访问频率的大小对各数据存储节点的位置进行调整。具体的第一存储节点为第一位置，第二存储节点为第二位置，第三存储节点为第三位置。第一位置、第二位置、第三位置是从上至下依次排列的。具体的，在第三存储节点的数据访问频率最高，第二存储节点的数据访问频率次之，第一存储节点的数据访问频率最低时，将第三存储节点由第三位置调整至第一位置；第一存储节点由第一位置调整至第三位置。

上述技术方案的有益效果：基于全息数据存储实现对数据层集合的高效存储，全息数据存储是一种高数据存储容量技术，通过在支持的介质上创建每个数据实例的全息图像来实现数据存储，允许使用单个存储卷来存储大量数据。在对数据层集合进行存储时，各数据实现独立存储，即每一个数据层通过一个数据存储节点进行存储，在每一个数据层存储至对应的数据存储节点后，还对数据存储节点的存储状态进行更新，提高基于数据存储节点进行存储数据的可靠性及合理性，进而提高对数据存储节点的利用率。在将各数据层准确存储至对应的数据存储节点后，还基于各数据层之间的关联关系建立各数据存储节点之间的关联关系，保证对数据层集合存储的完整性，提高对数据层集合存储的准确性。根据获取各数据存储节点的数据访问频率，根据所述数据访问频率的大小对各数据存储节点的位置进行调整，便于节省数据查询时间，提高数据查询效率，提高用户体验。

上述技术方案的工作原理及有益效果：在对所述待处理数据进行解析前，根据适配正则表达式对所述待处理数据进行数据处理，得到正则化数据；对待处理数据进行正则化处理，提高待处理数据的准确性及规范性。根据所述正则化数据获取待检测字符串，将所述待检测字符串输入字符串匹配自动机中与预设正则字符串进行匹配，将所述待检测字符串分为第一字符串及第二字符串；其中，所述第一字符串是与预设正则字符串相匹配的，所述第二字符串是与预设正则字符串不相匹配的；提高数据的快速匹配，便于快速且准确的确定第一字符串及第二字符串。将所述第二字符串与敏感字符串进行匹配，将所述第二字符串分为第三字符串及第四字符串；其中，所述第三字符串是与敏感字符串相匹配的，所述第四字符串是与敏感字符串不相匹配的；将所述第三字符串从所述待检测字符串中剔除，得到目标数据；便于快速的确定待检测字符串中的敏感数据，得到目标数据，避免敏感数据的泄露，提高数据的安全性。获取目标数据包括的若干个第一子目标数据的重要度，根据所述重要度建立第一子目标数据的排队队列，根据所述排队队列获取第一子目标数据的数据信息，并依次打上第一标签；排队队列为重要度从高到低进行排列得到。在对第一子目标数据根据排队队列进行数据清洗，实现对重要数据的优先清洗，实现对重要数据的优先处理，便于提高重要数据的安全性。根据所述数据信息查询预先数据清洗规则文件，获取对应的数据清洗规则，并根据对应的数据清洗规则进行数据清洗；数据清洗规则包括数据清洗规则代码和序号。基于每一个第一子目标数据采用对应的数据清洗规则，保证数据清洗的准确性。在数据清洗过程中，第一子目标数据包括若干个第二子目标数据，将完成数据清洗的第二子目标数据上的第一标签更新为第二标签；获取当前待清洗的第二子目标数据和上一个已完成数据清洗的第二子目标数据的第一差异信息；获取上一个第二子目标数据在数据清洗前后的第二差异信息；根据所述第一差异信息及所述第二差异信息更新对第一子目标数据的数据清洗规则包括的数据清洗指标；根据更新后的数据清洗规则对当前待清洗的第二子目标数据进行数据清洗。在对同一个第一子目标数据包括的第二子目标数据进行数据清洗时，随着数据清洗的进程，对相应的数据清洗规则根据清洗结果进行不断更新调整，提高数据清洗的准确性，提高数据清洗的效果。同时也便于保证后续对所述待处理数据进行解析时，获取的解析结果的准确性。

在一实施例中，在对所有的第一子目标数据完成数据清洗后，还包括：对数据清洗后得到的待处理数据进行多次评价，计算所述多次评价的离散值，在确定所述离散值小于预设离散值时，表示数据清洗后得到的待处理数据合格；反之，表示数据清洗后得到的待处理数据不合格；

所述计算所述多次评价的离散值R：

其中，N为评价的次数；X_i为第i次评价的评价值；

为多次评价的评价均值；U为评价信度窗，表示评价可信度的窗口数值。

上述技术方案的工作原理及有益效果：在对所有的第一子目标数据完成数据清洗后，还包括：对数据清洗后得到的待处理数据进行多次评价，计算所述多次评价的离散值，在确定所述离散值小于预设离散值时，表示数据清洗后得到的待处理数据合格；反之，表示数据清洗后得到的待处理数据不合格；准确判断数据清洗后得到的待处理数据是否合格，在确定数据清洗后得到的待处理数据不合格时，重新进行数据清洗，便于保证待处理数据的准确性，进而保证对待处理数据进行解析，得到的解析结果的准确性。基于上述公式便于准确计算出多次评价的离散值，提高了判断离散值与预设离散值大小的准确性，进而提高了判断数据清洗后得到的待处理数据是否合格的准确性。

有益效果：

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于文件模式的大数据层存储方法，其特征在于，包括：

建立各数据层之间的关联关系，生成数据层集合并进行存储；

在对数据层集合进行存储时，包括：

2.如权利要求1所述的基于文件模式的大数据层存储方法，其特征在于，根据子待处理数据建立数据模型，包括：

根据所述维度字段、信息字段及摘要字段建立数据模型。

3.如权利要求2所述的基于文件模式的大数据层存储方法，其特征在于，所述根据所述维度字段、信息字段及摘要字段建立数据模型，包括：

基于计算函数对所述摘要字段进行建模前的计算修改；

4.如权利要求1所述的基于文件模式的大数据层存储方法，其特征在于，所述模型文件包括具体数据及数据统计分析信息。

5.如权利要求1所述的基于文件模式的大数据层存储方法，其特征在于，所述将所述模型文件中的数据生成数据层，包括：

获取所述模型文件中的维度；

6.如权利要求1所述的基于文件模式的大数据层存储方法，其特征在于，对所述待处理数据进行解析，根据解析结果将所述待处理数据分为若干个子待处理数据，包括：

7.如权利要求5所述的基于文件模式的大数据层存储方法，其特征在于，根据所述各个维度之间的关联关系生成数据层时，包括：对生成数据层的各个维度进行同行排列，并为各个维度对应的数据生成第一标识。

8.如权利要求1所述的基于文件模式的大数据层存储方法，其特征在于，建立各数据层之间的关联关系，生成数据层集合并进行存储时，包括：将各个数据层进行不同行排列，并为各数据层之间的关联关系生成第二标识。

9.如权利要求1所述的基于文件模式的大数据层存储方法，其特征在于，在对所述待处理数据进行解析前，还包括：