CN105183391A

CN105183391A - 一种分布式数据平台下数据存储的方法和装置

Info

Publication number: CN105183391A
Application number: CN201510598396.9A
Authority: CN
Inventors: 周龙波; 王晓; 王彦明
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2015-09-18
Filing date: 2015-09-18
Publication date: 2015-12-23
Anticipated expiration: 2035-09-18
Also published as: CN105183391B

Abstract

本发明提供一种分布式数据平台下数据存储的方法和装置，能够在有效记录数据变化的同时，提高数据存储和数据检索的效率。本发明的一种分布式数据平台下数据存储的方法包括：通过将当天的数据与数据状态变化表中的数据进行比较，对发生变化的数据进行分类；将所述分类后的数据分拣到不同的目录下，并按照所述目录的数据存储规则存储在相应的分区下；以及更新所述数据状态变化表。

Description

一种分布式数据平台下数据存储的方法和装置

技术领域

本发明涉及计算机技术领域，特别地涉及一种分布式数据平台下数据存储的方法和装置。

背景技术

大数据——人们用它来描述当前信息***的时代，它不仅仅表现在数据量上的飞跃，而且数据存储种类也越来越多，从传统的关系型数据、Key-Value数据，到形式更加多样的平面文件、图片、音频、视频等等。要分析如此繁杂的数据，对数据平台的计算性能和存储性能都提出了更高的要求。

采用分布式的Hadoop***来做大数据的存储和分析是业界的普遍做法，由于分布式的Hadoop***采用的是文件存储数据的方式，虽然提升了数据的存储量和吞吐量，但是却牺牲了原有的关系型数据库的更新机制，只支持***，删除，覆盖文本文件的操作方式，导致目前数据历史的积累只能采用数据快照的方式。对数据库中存储的数据每天保存一份快照，记录完整的数据状态，并随着时间积累形成历史数据存储。当需要还原或者检索数据状态变化的历史轨迹时，需要通过全量扫描历史数据，进行不同时间点的全域计算比对，找出数据的差异，还原时间点的数据状态。

但是现有的技术方案存在以下的一些缺点：

1.针对关系型数据库的存储方案对大数据量的处理束手无策；而现有分布式文件***采取快照累积的方式，牺牲了大量储存空间，而且在后续的计算上，效率低下；

2.数据检索往往需要进行全量扫描，占用大量***资源；

3.针对线上复杂多变的数据场景，缺乏灵活性。

然而，在大量的应用场景中，一个数据从产生到消亡往往会经过很多状态变化，相应地，数据平台在记录数据状态变化时产生了多份快照，数据存储会急速膨胀，而在数据分析过程中，往往需要对数据进行历史轨迹的跟踪，需要扫描大量的历史数据进行状态的还原，效率低下。因此，如何设计一种机制使数据平台既能够记录数据状态变化且便于分析和还原，是摆在我们面前亟需解决的重要问题。

发明内容

有鉴于此，本发明提供一种分布式数据平台下数据存储的方法和装置，能够在有效记录数据变化的同时，提高数据存储和数据检索的效率。

为实现上述目的，根据本发明的一个方面，提供了一种分布式数据平台下数据存储的方法。

一种分布式数据平台下数据存储的方法，包括：通过将当天的数据与数据状态变化表中的数据进行比较，对发生变化的数据进行分类；将所述分类后的数据分拣到不同的目录下，并按照所述目录的数据存储规则存储在相应的分区下；以及更新所述数据状态变化表。

可选地，所述分类是依据数据生命周期的过程来进行的，且包括在线类、过期类和归档类三种类型。

可选地，对发生变化的数据进行分类的步骤包括：通过查找数据的键名，将当天的数据与数据状态变化表中的数据进行比较；如果所述数据状态变化表中没有所述数据，且所述当天的数据中有所述数据，则所述数据为在线类；如果所述数据状态变化表与所述当天的数据中都有所述数据，但是所述数据的键值不同，则所述数据状态变化表中的所述数据为过期类，且当天的所述数据为在线类；以及如果所述数据状态变化表中有所述数据，且当天的数据中没有所述数据，则所述数据为归档类。

可选地，所述数据存储规则包括分区名称、数据时间和数据生命截止时间3个目录级别。

可选地，所述分区名称包括在线分区、过期分区和归档分区。

可选地，按照所述目录的数据存储规则存储在相应的分区下的步骤包括：所述在线类数据的一级目录分区名称为在线分区，二级目录数据时间为最大时间，三级目录数据生命截止时间为最大时间；所述过期类数据的一级目录分区名称为过期分区，二级目录数据时间为变化时间，三级目录数据生命截止时间为变化时间；以及所述归档类数据的一级目录分区名称为归档分区，二级目录数据时间为变化时间，三级目录数据生命截止时间为最大时间。

可选地，更新所述数据状态变化表的步骤包括：***所述在线类数据的键名、键值、状态变化起始时间和状态变化结束时间，其中，所述状态变化起始时间为变化时间，所述状态变化结束时间为最大时间；以及将所述过期类数据的所述状态变化结束时间设为变化时间。

根据本发明的另一方面，提供了一种分布式数据平台下数据存储的装置。

一种分布式数据平台下数据存储的装置，包括：数据分类模块，用于通过将当天的数据与数据状态变化表中的数据进行比较，对发生变化的数据进行分类；数据存储模块，用于将所述分类后的数据分拣到不同的目录下，并按照所述目录的数据存储规则存储在相应的分区下；以及状态更新模块，用于更新所述数据状态变化表。

可选地，所述分类是依据数据的生命周期的过程来进行的，且包括在线类、过期类和归档类三种类型。

可选地，所述数据分类模块还用于：通过查找数据的键名，将当天的数据与数据状态变化表中的数据进行比较；如果所述数据状态变化表中没有所述数据，且所述当天的数据中有所述数据，则所述数据为在线类；如果所述数据状态变化表与所述当天的数据中都有所述数据，但是所述数据的键值不同，则所述数据状态变化表中的所述数据为过期类，且当天的所述数据为在线类；以及如果所述数据状态变化表中有所述数据，且当天的数据中没有所述数据，则所述数据为归档类。

可选地，所述数据存储模块还用于：所述在线类数据的一级目录分区名称为在线分区，二级目录数据时间为最大时间，三级目录数据生命截止时间为最大时间；所述过期类数据的一级目录分区名称为过期分区，二级目录数据时间为变化时间，三级目录数据生命截止时间为变化时间；以及所述归档类数据的一级目录分区名称为归档分区，二级目录数据时间为变化时间，三级目录数据生命截止时间为最大时间。

可选地，所述状态更新模块还用于：***所述在线类数据的键名、键值、状态变化起始时间和状态变化结束时间，其中，所述状态变化起始时间为变化时间，所述状态变化结束时间为最大时间；以及将所述过期类数据的所述状态变化结束时间设为变化时间。

根据本发明的技术方案，仅在数据状态发生变化时，才需要对该数据进行分类、存储及状态更新等操作，对于未发生变化的数据无需进行二次存储或状态更新，从而可以在有效记录数据变化的同时，提高数据存储和数据检索的效率，有效的节省数据存储空间，而且对过期数据的清理也十分容易和方便。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的一种分布式数据平台下数据存储的方法的主要步骤示意图；

图2是根据本发明实施例的数据分区存储的示意图；

图3是根据本发明实施例的数据清理的示意图；

图4是根据本发明实施例的数据状态变化表的示意图；

图5是根据本发明实施例的一种分布式数据平台下数据存储的装置的主要模块示意图；

图6是本发明实施例与现有技术的存储效果比较示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本发明的一种分布式数据平台下数据存储的方法，仅在数据项状态发生变化时，才需要对该数据项进行分类、存储及状态更新等操作，对于未发生变化的数据项无需进行二次存储或状态更新，从而可以在有效记录数据变化的同时，提高数据存储和数据检索的效率。

图1是根据本发明实施例的一种分布式数据平台下数据存储的方法的主要步骤示意图。如图1所示，本发明的一种分布式数据平台下数据存储的方法主要包括如下的步骤S11至步骤S13。

步骤S11：通过将当天的数据与数据状态变化表中的数据进行比较，对发生变化的数据进行分类。为了适应Hadoop文件***的特点，需要均匀有序的进行数据存放以提高效率。根据数据生命周期的过程，可将数据分成三类，即在线类(ACTIVE)，过期类(EXPIRED)，归档类(HISTORY)。在线类数据表示当前意义有效的数据，有可能会发生变化；过期类数据表示当前意义已经失效的数据；归档类数据表示已被封存不再变化，意义持久有效的数据。

在进行数据分类时，根据预先定义的数据处理规则，通过查找数据的键名，将当天的数据与数据状态变化表中的数据进行比较以确定发生变化的数据；如果所述数据状态变化表中没有所述数据，且所述当天的数据中有所述数据，则所述数据为在线类；如果所述数据状态变化表与所述当天的数据中都有所述数据，但是所述数据的键值不同，则所述数据状态变化表中的所述数据为过期类，且当天的所述数据为在线类；以及如果所述数据状态变化表中有所述数据，且当天的数据中没有所述数据，则所述数据为归档类。

步骤S12：将所述分类后的数据分拣到不同的目录下，并按照所述目录的数据存储规则存储在相应的分区下。其中，所述数据存储规则包括分区名称、数据时间和数据生命截止时间3个目录级别。结合步骤S11中所述的数据分类可知，所述分区名称包括在线分区、过期分区和归档分区。

如图2所示，是根据本发明实施例的数据分区存储的示意图。对于一个稳定运营的大型企业来说，随着时间的递增，过期分区和归档分区内的数据量也会稳步增长，在线分区的数据量在有所新增的同时会尽量保持相对稳定。由图2中可以看出，数据存储时是以时间为主线轴，尽量均匀地存放在这3个顶级目录对应的分区内。

为了便于进行数据的分类存储及查找，在进行数据存储时，会按照所述目录的数据存储规则存储在相应的分区下，对于前述的3类数据相应地包括以下3种情况：

所述在线类数据的一级目录分区名称为在线分区，二级目录数据时间为最大时间，三级目录数据生命截止时间为最大时间；

所述过期类数据的一级目录分区名称为过期分区，二级目录数据时间为变化时间，三级目录数据生命截止时间为变化时间；以及

所述归档类数据的一级目录分区名称为归档分区，二级目录数据时间为变化时间，三级目录数据生命截止时间为最大时间。

下面，举例描述具体的数据存储目录层次结构。例如：

对于在线类数据，数据存储目录层次结构为dp＝ACTIVE/dt＝4712-12-31/end_date＝4712-12-31；

对于过期类数据，数据存储目录层次结构为dp＝EXPIRED/dt＝2013-10-11/end_date＝2013-10-11；

对于归档类数据，数据存储目录层次结构为dp＝HISTORY/dt＝2014-06-22/end_date＝4712-12-31。其中，dp表示数据分区datapartition，dt表示数据时间datatime，end_date表示数据生命截至时间。以归档类数据为例，在存储一个需要归档的数据时，首先是确定存储在“dp＝HISTORY”这个分区中；之后，根据该数据的变化时间“dt＝2014-06-22”可存储于该时间被转移到该分区的数据目录下；最后，根据数据生命截至时间“end_date＝4712-12-31”保存该数据到相应数据表中。其中，由于数据归档代表数据封存，不再变化，其属性的值和意义直到永久，所以其“end_date”是最大时间“4712-12-31”。在实际应用中，可根据具体情况设定数据存储目录层次结构。

图3根据本发明实施例的数据清理的示意图。采用如图2所示的分区存储方式进行数据存储，可以很方便的进行历史数据的清理。如图3所示，对于过期类数据，其数据属性或者度量已发生了变化，当前数据意义已经失效，在对其进行清理时只需要将相应的过期分区删除掉即可，操作简单方便。

步骤S13：更新所述数据状态变化表。当数据的状态发生变化时我们需要对数据的状态进行更新。结合步骤S11及步骤S12可知，在对数据状态变化表进行更新时，需要***所述在线类数据的键名、键值、状态变化起始时间和状态变化结束时间，其中，所述状态变化起始时间为变化时间，所述状态变化结束时间为最大时间；以及将所述过期类数据的所述状态变化结束时间设为变化时间。对于未发生任何变化的数据，无需进行状态更新。

如图4所示，为根据本发明实施例的数据状态变化表的示意图。如左上的表为2014-01-01当天的数据，右上的表为2014-01-02当天的数据，现有的技术方案是将每天的数据进行快照保存，当需要查找某个数据或者进行计算等处理时，需要全量扫描所有快照，既牺牲了大量的储存空间又浪费了***资源。而本发明的方案是将右上的表2014-01-02当天的数据与左上的表2014-01-01当天的数据进行比较，对发生变化的数据项添加记录，不发生变化的数据项无需进行变动。同时，在设计数据状态变化表的结构时，引入了审计字段start_date/end_date来标识数据状态变化的起始和结束时间，并且，为了更好地区分数据，数据表的主键要追加审计字段start_date。

在图4中，将右上的表2014-01-02的数据与左上的表2014-01-01的数据进行比较后，可得出图4箭头下方所示的数据状态变化表mytable。在表mytable中，主键包括键名key和数据状态变化的起始时间start_date，通过主键来区分每一条数据。线上数据记录通常有三种操作：Insert，表示新纪录的产生；Delete，表示记录在线价值的终结；Update，等价于Delete/Update复合操作，表示记录状态的跃迁，即记录前一状态的结束和新状态的产生。例如，将2014-01-02的数据与2014-01-01的数据相比较可看出，key为1的数据发生了变化(Update)，故而在表mytable中，根据主键将key为1且start_date为2014/1/1的数据的end_date修改为变化时间，同时新增加一条记录，主键是key为1且start_date为变化时间。同样，对于key为4的数据，表mytable中直接新增(Insert)即可。通过将每天的数据与数据状态变化表中的数据进行比较，即可找到发生变化的数据，按照表mytable中标识数据状态的方法，无需每天进行快照保存，从而可以有效的节省存储空间，并且保证时间上连续，可以为后继的检索分析提供基础。

由以上的步骤S11至步骤S13所述的数据存储方法，按照本发明的数据存储结构和目录划分，根据数据检索和计算的需要，直接通过编写SQL语句进行查询。例如，如果我们要从图4的表mytable中查找2014-01-01当天“1”的状态，可编写SQL语句如下：

Select*frommytablewherestart_date<＝'2014-01-01'andend_date>'2014-01-01'and[key＝'1']；

如果要从表mytable中查找2014-01-01到2014-01-02这段期间内“1”的状态，可编写SQL语句如下：

Select*frommytablewherestart_date<＝'2014-01-02'andend_date>＝'2014-01-01'and[key＝'1']；

如果要从表mytable中查找“1”当前的最新状态，可编写SQL语句如下：

Select*frommytablewheredp＝('ACTIVE'or[dp＝'HISTORY'])and[key＝'1']。

如此，直接通过编写SQL语句进行数据状态的查询，即可对目录进行预筛选，无须遍历所有的目录，保证在最小的资源使用量下完成数据的检索和计算。

图5是根据本发明实施例的一种分布式数据平台下数据存储的装置的主要模块示意图。如图5所示，本发明的分布式数据平台下数据存储的装置50主要包括数据分类模块51、数据存储模块52和状态更新模块53。

数据分类模块51用于通过将当天的数据与数据状态变化表中的数据进行比较，对发生变化的数据进行分类；数据存储模块52用于将所述分类后的数据分拣到不同的目录下，并按照所述目录的数据存储规则存储在相应的分区下；以及状态更新模块53用于更新所述数据状态变化表。

其中，数据分类模块51在进行数据分类时是依据数据的生命周期的过程来进行的，且包括在线类、过期类和归档类三种类型。

数据分类模块51还可以用于通过查找数据的键名，将当天的数据与数据状态变化表中的数据进行比较；如果所述数据状态变化表中没有所述数据，且所述当天的数据中有所述数据，则所述数据为在线类；如果所述数据状态变化表与所述当天的数据中都有所述数据，但是所述数据的键值不同，则所述数据状态变化表中的所述数据为过期类，且当天的所述数据为在线类；以及如果所述数据状态变化表中有所述数据，且当天的数据中没有所述数据，则所述数据为归档类。

数据存储模块52在进行数据存储时，依据的所述数据存储规则包括分区名称、数据时间和数据生命截止时间3个目录级别，且所述分区名称包括在线分区、过期分区和归档分区。

数据存储模块52还可以用于，所述在线类数据的一级目录分区名称为在线分区，二级目录数据时间为最大时间，三级目录数据生命截止时间为最大时间；所述过期类数据的一级目录分区名称为过期分区，二级目录数据时间为变化时间，三级目录数据生命截止时间为变化时间；以及所述归档类数据的一级目录分区名称为归档分区，二级目录数据时间为变化时间，三级目录数据生命截止时间为最大时间。

状态更新模块53还可以用于***所述在线类数据的键名、键值、状态变化起始时间和状态变化结束时间，其中，所述状态变化起始时间为变化时间，所述状态变化结束时间为最大时间；以及将所述过期类数据的所述状态变化结束时间设为变化时间。

图6是本发明实施例与现有技术的存储效果比较示意图。与现有技术的增量累积处理方式相比，本发明的数据存储方案可以有效的节省数据存储空间。以一个亿级数据的表为例，该表每天新增和变化的数据量在百万级别左右，其空间节省率可由以下公式计算得到。

R a t i o = 1 - \frac{b a s e + \frac{1 + N}{2} \times C + M \times N}{b a s e \times N + (1 + N) \times C / 2}

上式中，base：基数(亿级)、N：天数、C：每日增量(百万级)、M：每日变化量(百万级)。当N趋于无限大时，空间节省率为1，即：时间跨度越长，节省空间越多。在实际应用中，空间节省率已可到90％以上。由此可见，采用本发明的技术方案可以有效的节省数据存储空间，用最小的存储能够保留全部数据的历史痕迹。

根据本发明实施例的技术方案，仅在数据状态发生变化时，才需要对该数据进行分类、存储及状态更新等操作，对于未发生变化的数据无需进行二次存储或状态更新，从而可以在有效记录数据变化的同时，提高数据存储和数据检索的效率，有效的节省数据存储空间，而且对过期数据的清理也十分容易和方便。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种分布式数据平台下数据存储的方法，其特征在于，包括：

通过将当天的数据与数据状态变化表中的数据进行比较，对发生变化的数据进行分类；

将所述分类后的数据分拣到不同的目录下，并按照所述目录的数据存储规则存储在相应的分区下；以及

更新所述数据状态变化表。

2.根据权利要求1所述的方法，其特征在于，所述分类是依据数据生命周期的过程来进行的，且包括在线类、过期类和归档类三种类型。

3.根据权利要求1或2所述的方法，其特征在于，对发生变化的数据进行分类的步骤包括：

通过查找数据的键名，将当天的数据与数据状态变化表中的数据进行比较；

如果所述数据状态变化表中没有所述数据，且所述当天的数据中有所述数据，则所述数据为在线类；

如果所述数据状态变化表与所述当天的数据中都有所述数据，但是所述数据的键值不同，则所述数据状态变化表中的所述数据为过期类，且当天的所述数据为在线类；以及

如果所述数据状态变化表中有所述数据，且当天的数据中没有所述数据，则所述数据为归档类。

4.根据权利要求1所述的方法，其特征在于，所述数据存储规则包括分区名称、数据时间和数据生命截止时间3个目录级别。

5.根据权利要求4所述的方法，其特征在于，所述分区名称包括在线分区、过期分区和归档分区。

6.根据权利要求1所述的方法，其特征在于，按照所述目录的数据存储规则存储在相应的分区下的步骤包括：

7.根据权利要求1所述的方法，其特征在于，更新所述数据状态变化表的步骤包括：

***所述在线类数据的键名、键值、状态变化起始时间和状态变化结束时间，其中，所述状态变化起始时间为变化时间，所述状态变化结束时间为最大时间；以及

将所述过期类数据的所述状态变化结束时间设为变化时间。

8.一种分布式数据平台下数据存储的装置，其特征在于，包括：

数据分类模块，用于通过将当天的数据与数据状态变化表中的数据进行比较，对发生变化的数据进行分类；

数据存储模块，用于将所述分类后的数据分拣到不同的目录下，并按照所述目录的数据存储规则存储在相应的分区下；以及

状态更新模块，用于更新所述数据状态变化表。

9.根据权利要求8所述的装置，其特征在于，所述分类是依据数据的生命周期的过程来进行的，且包括在线类、过期类和归档类三种类型。

10.根据权利要求8或9所述的装置，其特征在于，所述数据分类模块还用于：

11.根据权利要求8所述的装置，其特征在于，所述数据存储规则包括分区名称、数据时间和数据生命截止时间3个目录级别。

12.根据权利要求11所述的装置，其特征在于，所述分区名称包括在线分区、过期分区和归档分区。

13.根据权利要求8所述的装置，其特征在于，所述数据存储模块还用于：

14.根据权利要求8所述的装置，其特征在于，所述状态更新模块还用于：

将所述过期类数据的所述状态变化结束时间设为变化时间。