CN104679889A

CN104679889A - 一种面向大数据处理的数据存储方法和装置

Info

Publication number: CN104679889A
Application number: CN201510117104.5A
Authority: CN
Inventors: 黄先芝; 徐正礼; 魏金雷
Original assignee: Inspur Group Co Ltd
Current assignee: Inspur Group Co Ltd
Priority date: 2015-03-17
Filing date: 2015-03-17
Publication date: 2015-06-03

Abstract

本发明提供一种面向大数据处理的数据存储方法和装置。该方法包括：设置实体对象，并建立超级档案数据表；建立每一个实体对象与所述超级档案数据表中数据行的对应关系，并设置数据行中每一列对应的元数据；针对需存储的当前实体对象，查找与所述当前实体对象对应的超级档案数据表中的数据行；将实体对象相关的所有数据按照其属性存储到所述查找到的超级档案数据表中的数据行中，并位于该数据行中对应元数据的列上。本方案能够提高大数据存储的效率。

Description

一种面向大数据处理的数据存储方法和装置

技术领域

本发明涉及网络通信技术领域，特别涉及一种面向大数据处理的数据存储方法和装置。

背景技术

随着数据收集手段的不断丰富及完善，越来越多的行业数据被积累下来。数据规模已经增长到了传统软件行业无法承载的大数据(百GB、TB、乃至PB)级别。在大数据场景下，如何对大数据进行存储则成为了重要的计算问题。

目前，可以采用关系型数据库来存储大数据。比如，将具有关联关系的多个数据分别存储在不同数据库的不同数据表中，并记录该各个不同数据中存储的数据之间的关系，以便将各个数据关联起来。

可见，目前的利用关联关系将各个数据存储到不同数据库的不同数据表中的做法，数据存储方式松散，其关联关系必须通过关系型数据库来体现，对于大数据，这种松散存储数据及利用关联关系记录不同数据表中数据的做法，则大大降低了数据存储的效率，并会进一步降低后续查找和维护的效率。

发明内容

本发明提供一种面向大数据处理的数据存储方法和装置，能够提高数据存储效率。

一种面向大数据处理的数据存储方法，设置实体对象，并建立超级档案数据表；建立每一个实体对象与所述超级档案数据表中数据行的对应关系，并设置数据行中每一列对应的元数据；

针对需存储的当前实体对象，查找与所述当前实体对象对应的超级档案数据表中的数据行；

将实体对象相关的所有数据按照其属性存储到所述查找到的超级档案数据表中的数据行中，并位于该数据行中对应元数据的列上。

所述建立每一个实体对象与所述超级档案数据表中数据行的对应关系包括：建立每一个实体对象与所述超级档案数据表中一个数据行的对应关系；

所述将实体对象相关的所有数据存储到所述查找到的超级档案数据表中的数据行中包括：将实体对象相关的所有数据存储到所述查找到的超级档案数据表中的一行中。

所述超级档案数据表中的元素包括：数据表(SupDocTable)、键(SupDocKey)、键组件(SupDocKeyComponent)、列簇(SupDocFamily)、GROUP列簇(SupDocGroupFamily)、MAP列簇(SupDocMapFamily)、列(SupDocColumn)中的任意一个或多个。

当所述超级档案数据表中的元素包括列簇时；设置每一个列簇对应的主题域；

所述将实体对象相关的所有数据存储到所述查找到的超级档案数据表中的数据行中包括：将实体对象相关的所有数据中属于同一主题域的数据存储到该主题域对应的列簇中，列簇中的每个列上存储的数据为简单数据类型或者聚合单元的复杂数据类型。

该方法进一步包括：

在每一个实体对象对应的数据行中，设置出计算结果存储列；

利用所述超级档案数据表中对应第一实体对象的数据行中的已有指定数据，推导计算出对应第一实体对象的计算结果，将该计算结果写入所述第一实体对象对应的数据行中的所述计算结果存储列。

该方法进一步包括：

设置汇总聚集计算结果存储表；

利用所述超级档案数据表的所有行上的数据进行汇总聚集计算，将计算结果写入所述汇总聚集计算结果存储表。

一种面向大数据处理的数据存储装置，包括：

设置单元，用于设置实体对象，并建立超级档案数据表；建立每一个实体对象与所述超级档案数据表中数据行的对应关系；

查找单元，用于针对需存储的当前实体对象，查找与所述当前实体对象对应的超级档案数据表中的数据行，并设置数据行中每一列对应的元数据；

存储执行单元，用于将实体对象相关的所有数据按照其属性存储到所述查找到的超级档案数据表中的数据行中，并位于该数据行中对应元数据的列上。

所述设置单元，用于设置所述超级档案数据表中的元素包括：数据表(SupDocTable)、键(SupDocKey)、键组件(SupDocKeyComponent)、列簇(SupDocFamily)、GROUP列簇(SupDocGroupFamily)、MAP列簇(SupDocMapFamily)、列(SupDocColumn)中的任意一个或多个。

所述设置单元在设置所述超级档案数据表中的元素包括列簇时，设置每一个列簇对应的主题域；

所述存储执行单元将实体对象相关的所有数据中属于同一主题域的数据存储到该主题域对应的列簇中，在列簇中的每个列上存储的数据为简单数据类型或者聚合单元的复杂数据类型。

所述装置还包括：第一计算单元，其中，所述设置单元，进一步用于在每一个实体对象对应的数据行中，设置出计算结果存储列；所述第一计算的那样，用于利用所述超级档案数据表中对应第一实体对象的数据行中的已有指定数据，推导计算出对应第一实体对象的计算结果，将该计算结果写入所述第一实体对象对应的数据行中的所述计算结果存储列；

和/或，

所述装置还包括：第二计算单元，其中，所述设置单元，进一步用于设置汇总聚集计算结果存储表；所述第二计算单元，用于利用所述超级档案数据表的所有行上的数据进行汇总聚集计算，将计算结果写入所述汇总聚集计算结果存储表。

可见，本发明实施例提供了一种面向大数据处理的数据存储方法和装置，设置超级档案数据表，并面向实体对象，一个实体对象一个超级档案，将一个实体对象相关的所有数据集中存储到超级档案数据表中对应于该实体对象的数据行，这样，实现了一个实体对象的数据的全息存储，提高了存储效率。

附图说明

图1是本发明一个实施例中一种面向大数据处理的数据存储方法的流程图。

图2是本发明另一个实施例中面向大数据处理的数据存储方法的流程图。

图3是本发明一个实施例中超级档案数据模型元素的示意图。

图4是本发明一个实施例中超级档案数据表上的2种MapReduce操作示意图。

图5是本发明一个实施例面向大数据处理的数据存储装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明一个实施例提出了一种面向大数据处理的数据存储方法，参见图1，该方法包括：

步骤101：设置实体对象，并建立超级档案数据表。

步骤102：建立每一个实体对象与所述超级档案数据表中数据行的对应关系，并设置数据行中每一列对应的元数据。

步骤103：针对需存储的当前实体对象，查找与所述当前实体对象对应的超级档案数据表中的数据行。

步骤104：将实体对象相关的所有数据存储到所述查找到的超级档案数据表中的数据行中。

可见，本发明的该实施例提供了一种面向大数据处理的数据存储方法，设置超级档案数据表，并面向实体对象，一个实体对象一个超级档案，将一个实体对象相关的所有数据集中存储到超级档案数据表中对应于该实体对象的数据行，这样，实现了一个实体对象的数据的全息存储，提高了存储效率。

在本发明一个实施例中，每一个实体对象可以与超级档案数据表中一个数据行对应。

在具体设置超级档案数据表时，在本发明一个实施例中，该表中的元素包括：数据表(SupDocTable)、键(SupDocKey)、键组件(SupDocKeyComponent)、列簇(SupDocFamily)、GROUP列簇(SupDocGroupFamily)、MAP列簇(SupDocMapFamily)、列(SupDocColumn)中的任意一个或多个。

在本发明的一个实施例中，超级档案数据表中的元素包括列簇，每一个列簇对应一个主题域；此时

所述将实体对象相关的所有数据存储到所述查找到的超级档案数据表中的数据行中包括：将实体对象相关的所有数据中属于同一主题域的数据存储到该主题域对应的列簇中，列簇中的每个列上存储的数据为简单数据类型或者聚合单元的复杂数据类型。此种方式可以更为有效地将一个实体对象的属于同一主题的数据集中存储。

在本发明一个实施例中，由于超级档案数据表中实体对象的数据集中存储在一数据行中，因此便于进行后续的利用数据进行对应实体对象的计算处理。比如，

第一种计算处理包括：

第二种计算处理包括：

设置汇总聚集计算结果存储表；

本发明另一个实施例提出了一种面向大数据处理的数据存储方法，参见图2，包括：

步骤201：设置实体对象。

这里，实体对象比如可以是一个人；一辆车；一个案件等。

步骤202：建立超级档案数据表，建立每一个实体对象与所述超级档案数据表中一个数据行的对应关系，并设置数据行中每一列对应的元数据。

这里，参见图3，超级档案数据表中的元素可以包括：数据表(SupDocTable)、键(SupDocKey)、键组件(SupDocKeyComponent)、列簇(SupDocFamily)、GROUP列簇(SupDocGroupFamily)、MAP列簇(SupDocMapFamily)、列(SupDocColumn)。

比如，通过本步骤的处理，实体对象“案件A”对应超级档案数据表中的第一个数据行，记为数据行1，数据行1的各个列元素分别对应一个元数据，比如数据行1包括元数据“时间”、“地点”、“分类”、“涉案人物关系”、“目标结案时间”、“案情分析”等。

步骤203：在数据行中设置列簇，每一个列簇中包括一个以上的元数据，并设置每一个列簇对应的主题域。

比如，可以将一个数据行中，元数据“时间”和“地点”设置为属于同一个列簇，该列簇对应的主题域为基本信息。

步骤204：在每一个实体对象对应的数据行中，设置出计算结果存储列。

步骤205：设置汇总聚集计算结果存储表。

执行到本步骤，则完成了在实际存储大数据之前的预设值处理。

其中，每一个数据行中的各个元素(即列名)则也确定了。

在本发明一个实施例中，可以根据超级档案数据模型元素，设计超级档案Schema定义语言，将数据表定义文件内容映射为可执行的Apache HBaseSchema定义语句，实现Shell命令和Web页面数据建模工具，从而实现上述步骤的处理过程。

步骤206：针对需存储的当前实体对象记为实体对象A，查找与实体对象A对应的超级档案数据表中的数据行。

比如实体对象A对应第二个数据行。

步骤207：将实体对象相关的所有数据按照其属性存储到所述查找到的超级档案数据表中的数据行中，并位于该数据行中对应元数据的列上。

步骤208：在存储时到数据行中时，将实体对象相关的所有数据中属于同一主题域的数据存储到该主题域对应的列簇中，并位于该列簇中对应元数据的列上。

本步骤中，列簇中的每个列上存储的数据为简单数据类型或者聚合单元的复杂数据类型(通过json定义复杂类型数据结构)。

步骤209：当需要针对实体对象1获得其某种计算结果时，利用超级档案数据表中对应实体对象1的数据行中的已有指定数据，推导计算出对应第一实体对象的计算结果1。

步骤210：将计算结果1写入实体对象1对应的数据行中的计算结果存储列。

步骤211：利用所述超级档案数据表的所有行上的数据进行汇总聚集计算，将计算结果2写入汇总聚集计算结果存储表。

上述步骤209至步骤211中的两种计算，可以基于MapReduce操作方法来实现。参见图4，基于MapReduce计算框架，第1种是推导计算(MR-derivator)操作，在整个表的每一个单行上，使用已有数据推导计算得出实体对象新的信息并写入该行的某个列；第2种是聚集计算(MR-aggregator)操作，在整个表的所有行上进行汇总聚集计算，结果写入另外一个数据表(其他超级档案表或一般类型的表)。

上述图2所示过程可以基于NOSQL列存储技术如Apache HBase实现，并且，预先确定列簇中的列名。

本发明一个实施例还提出了一种面向大数据处理的数据存储装置，参见图5，包括：

设置单元501，用于设置实体对象，并建立超级档案数据表；建立每一个实体对象与所述超级档案数据表中数据行的对应关系；

查找单元502，用于针对需存储的当前实体对象，查找与所述当前实体对象对应的超级档案数据表中的数据行；

存储执行单元503，用于将实体对象相关的所有数据存储到所述查找单元所查找到的超级档案数据表中的数据行中。

在本发明一个实施例中，所述设置单元，用于设置所述超级档案数据表中的元素包括：数据表(SupDocTable)、键(SupDocKey)、键组件(SupDocKeyComponent)、列簇(SupDocFamily)、GROUP列簇(SupDocGroupFamily)、MAP列簇(SupDocMapFamily)、列(SupDocColumn)中的任意一个或多个。

在本发明一个实施例中，所述设置单元在设置所述超级档案数据表中的元素包括列簇时，设置每一个列簇对应的主题域；

在本发明一个实施例中，所述装置还包括：第一计算单元，其中，所述设置单元，进一步用于在每一个实体对象对应的数据行中，设置出计算结果存储列；所述第一计算的那样，用于利用所述超级档案数据表中对应第一实体对象的数据行中的已有指定数据，推导计算出对应第一实体对象的计算结果，将该计算结果写入所述第一实体对象对应的数据行中的所述计算结果存储列。

在本发明一个实施例中，所述装置还包括：第二计算单元，其中，所述设置单元，进一步用于设置汇总聚集计算结果存储表；所述第二计算单元，用于利用所述超级档案数据表的所有行上的数据进行汇总聚集计算，将计算结果写入所述汇总聚集计算结果存储表。

本发明的各个实施例至少具有如下的有益效果：

1、利用了超级档案数据表，并面向实体对象，一个实体对象一个超级档案，将一个实体对象相关的所有数据集中存储到超级档案数据表中对应于该实体对象的数据行，比如一行中，这样，实现了一个实体对象的数据的全息存储，提高了存储效率。

2、由于一个实体对象的所有数据都集中存储到超级档案数据表中对应于该实体对象的数据行中，因此，在后续需要向用户展示该实体对象比如一个案件的所有数据(案件发生的时间，地点，人物，案情分析，车辆信息等)则可以非常方便的实现全息展示，无需现有技术中根据预先记录的数据之间的关联关系到关系型数据库的不同数据表中查找的过程，因此，提高了大数据查找和展示的效率。

3、数据模型按照“一个实体对象一个超级档案”的思想，以实体对象为中心组织和聚合数据，全方位展现每个实体对象的相关信息，支持属性动态扩展和多维度数据处理。

4、由于设置出了数据行中每一列对应的元数据，因此可以实现对超级档案数据表的元数据管理，为数据访问的用户展现超级档案Schema信息。

5、通过定义的2种基本的计算处理比如MapReduce处理，以及这2种计算处理的不同编排组合，可以实现在超级档案数据集上的管道式大数据处理计算。

6、数据建模方法和数据建模工具，使得超级档案数据管理员能够方便地定义和扩展数据表Schema，以及Schema定义的版本管理。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种面向大数据处理的数据存储方法，其特征在于，设置实体对象，并建立超级档案数据表；建立每一个实体对象与所述超级档案数据表中数据行的对应关系，并设置数据行中每一列对应的元数据；

2.根据权利要求1所述的方法，其特征在于，所述建立每一个实体对象与所述超级档案数据表中数据行的对应关系包括：建立每一个实体对象与所述超级档案数据表中一个数据行的对应关系；

3.根据权利要求1所述的方法，其特征在于，所述超级档案数据表中的元素包括：数据表(SupDocTable)、键(SupDocKey)、键组件(SupDocKeyComponent)、列簇(SupDocFamily)、GROUP列簇(SupDocGroupFamily)、MAP列簇(SupDocMapFamily)、列(SupDocColumn)中的任意一个或多个。

4.根据权利要求3所述的方法，其特征在于，进一步包括：在数据行中设置列簇，每一个列簇中包括一个以上的所述元数据，并设置每一个列簇对应的主题域；

所述将实体对象相关的所有数据存储到所述查找到的超级档案数据表中的数据行中包括：将实体对象相关的所有数据中属于同一主题域的数据存储到该主题域对应的列簇中的对应元数据处，列簇中的每个列上存储的数据为简单数据类型或者聚合单元的复杂数据类型。

5.根据权利要求1至4中任一所述的方法，其特征在于，该方法进一步包括：

6.根据权利要求1至4中任一所述的方法，其特征在于，该方法进一步包括：

设置汇总聚集计算结果存储表；

7.一种面向大数据处理的数据存储装置，其特征在于，包括：

设置单元，用于设置实体对象，并建立超级档案数据表；建立每一个实体对象与所述超级档案数据表中数据行的对应关系，并设置数据行中每一列对应的元数据；

查找单元，用于针对需存储的当前实体对象，查找与所述当前实体对象对应的超级档案数据表中的数据行；

8.根据权利要求7所述的装置，其特征在于，所述设置单元，用于设置所述超级档案数据表中的元素包括：数据表(SupDocTable)、键(SupDocKey)、键组件(SupDocKeyComponent)、列簇(SupDocFamily)、GROUP列簇(SupDocGroupFamily)、MAP列簇(SupDocMapFamily)、列(SupDocColumn)中的任意一个或多个。

9.根据权利要求8所述的装置，其特征在于，所述设置单元在数据行中设置列簇，每一个列簇中包括一个以上的所述元数据，并设置每一个列簇对应的主题域；

所述存储执行单元将实体对象相关的所有数据中属于同一主题域的数据存储到该主题域对应的列簇中的对应元数据处，在列簇中的每个列上存储的数据为简单数据类型或者聚合单元的复杂数据类型。

10.根据权利要求7至9中任一所述的装置，其特征在于，

和/或，