CN105117402B

CN105117402B - 日志数据分片方法及装置

Info

Publication number: CN105117402B
Application number: CN201510420017.7A
Authority: CN
Inventors: 覃雄派; 陈跃国; 杜小勇; 金国栋
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2015-07-16
Filing date: 2015-07-16
Publication date: 2018-08-28
Anticipated expiration: 2035-07-16
Also published as: CN105117402A

Abstract

本发明提供一种日志数据分片方法及装置。本发明基于分段保序哈希的日志数据分片方法包括：将日志数据的多个属性字段的值域分别划分成N个分段；N为大于1的整数；按照所述N个分段的顺序建立每个所述属性字段对应的所述N个分段与哈希值的映射关系；所述哈希值为连续排列的整数，所述哈希值的排列顺序与所述N个分段的顺序一致；将每个所述哈希值对应的日志数据划分到一个存储单元中。本发明通过哈希函数的保序性，保证了相邻的日志数据被划分到相邻的存储单元，以便支持范围查询能够快速寻找到相关数据。

Description

日志数据分片方法及装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于分段保序哈希的日志数据分片方法及装置。

背景技术

日志数据记录了各类实体发生交互的历史信息，比如用户对商品的购买行为、用户和好友的互动历史、用户的轨迹信息等。基于大量的日志数据，可以进行数据挖掘和机器学习，以便发现其中的规律和特点。在数据挖掘和机器学习时，针对大量的日志数据需要通过数据查询提取数据。这里数据查询主要是指范围查询，比如查询一段时间内某些实体之间的交互信息，以及某个地理范围内的实体之间的交互信息等。然而，为了数据查询更准确和高效，如何针对大量的日志数据进行分片存储显得尤为重要。

现有的基于哈希的日志数据分片方法，是把日志数据根据哈希函数映射到对应的目标地址空间里，从而实现日志数据分片存储，分片之后相邻的日志数据不一定映射到相邻的目标地址空间里，因此分片之后的日志数据只支持点查询，即查询时一次只能提取单条的日志数据，而不支持范围查询，比如一次提取某段时间内的日志数据；因此，利用现有的日志数据分片方法分片后的日志数据，在数据查询时效率较低。

发明内容

本发明提供一种基于分段保序哈希的日志数据分片方法及装置，能够解决现有技术中对日志数据分片后数据查询效率较低的问题。

第一方面，本发明提供一种基于分段保序哈希的日志数据分片方法，包括：

将日志数据的多个属性字段的值域分别划分成N个分段；N为大于1的整数；

按照所述N个分段的顺序建立每个所述属性字段对应的所述N个分段与哈希值的映射关系；所述哈希值为连续排列的整数，所述哈希值的排列顺序与所述N个分段的顺序一致；

将每个所述哈希值对应的日志数据划分到一个存储单元中。

可选地，所述将日志数据的多个属性字段的值域分别划分成N个分段，包括：

获取采样的日志数据，根据所述采样的日志数据在所述多个属性字段的值域上分别建立等深直方图；

根据所述等深直方图将所述值域划分为所述N个分段。

可选地，所述将每个所述哈希值对应的日志数据划分到一个存储单元中，包括：

分别从每个所述属性字段中选择一个所述分段对应的哈希值生成向量，将所述向量作为单元编号；

将所述单元编号对应的日志数据划分到一个所述存储单元中；所述存储单元与所述单元编号一一对应。

可选地，所述将所述单元编号对应的日志数据划分到一个所述存储单元中之后，还包括：

若所述存储单元的存储空间存满之后，记录所述存储单元的元信息，并将所述存储单元中的日志数据写入数据文件中；其中，所述元信息包括：所述各个属性字段的哈希值、所述存储单元存满的次数、所述各个属性字段的值域在所述存储单元的最大值和最小值以及位置信息。

可选地，还包括：

将多个所述存储单元中的日志数据写入同一数据文件，所述数据文件的文件头中包括：所述存储单元的单元编号与所述存储单元中的日志数据在所述数据文件内偏移量的对应关系。

可选地，还包括：

记录所述各个属性字段的映射关系、所述映射关系的启用时间和终止时间、所述存储单元的元信息和数据文件的集合。

第二方面，本发明提供一种基于分段保序哈希的日志数据分片装置，包括：

划分模块，用于将日志数据的多个属性字段的值域分别划分成N个分段；N为大于1的整数；

映射模块，用于按照所述N个分段的顺序建立每个所述属性字段对应的所述N个分段与哈希值的映射关系；所述哈希值为连续排列的整数，所述哈希值的排列顺序与所述N个分段的顺序一致；

所述划分模块，还用于将每个所述哈希值对应的日志数据划分到一个存储单元中。

可选地，所述划分模块，具体用于：

根据所述等深直方图将所述值域划分为所述N个分段。

可选地，所述划分模块，还具体用于：

可选地，还包括：

处理模块，用于若所述存储单元的存储空间存满之后，记录所述存储单元的元信息，并将所述存储单元中的日志数据写入数据文件中；其中，所述元信息包括：所述各个属性字段的哈希值、所述存储单元存满的次数、所述各个属性字段的值域在所述存储单元的最大值和最小值以及位置信息。

本发明提供的基于分段保序哈希的日志数据分片方法及装置，通过将日志数据的多个属性字段的值域分别划分成N个分段；按照所述N个分段的顺序建立每个所述属性字段对应的所述N个分段与哈希值的映射关系；所述哈希值为连续排列的整数，所述哈希值的排列顺序与所述N个分段的顺序一致；将每个所述哈希值对应的日志数据划分到一个存储单元中，由于建立映射关系时哈希值是按照分段的顺序依次排列的，因此建立的映射关系为分段保序的哈希函数，通过哈希函数的保序性，保证了相邻的日志数据被划分到相邻的目标存储空间，以便支持范围查询能够快速寻找到相关数据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明基于分段保序哈希的日志数据分片方法一实施例的流程图；

图2为本发明方法一实施例的映射关系示意图；

图3为本发明方法一实施例的等深直方图的示意图；

图4为本发明基于分段保序哈希的日志数据分片装置一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明基于分段保序哈希的日志数据分片方法一实施例的流程图。图2为本发明方法一实施例的映射关系示意图。如图1所示，本实施例的方法包括：

步骤101、将日志数据的多个属性字段的值域分别划分成N个分段；N为大于1的整数；

步骤102、按照所述N个分段的顺序建立每个所述属性字段对应的所述N个分段与哈希值的映射关系；所述哈希值为连续排列的整数，所述哈希值的排列顺序与所述N个分段的顺序一致；

步骤103、将每个所述哈希值对应的日志数据划分到一个存储单元中。

具体来说，将日志数据的多个属性字段的值域分别划分成N个分段，N个分段可以是等分的，也可以是不等分的，多个属性字段例如是时间戳字段、地理位置信息字段(包括X坐标字段、Y坐标字段)等作为范围查询的属性字段，每个所述分段都对应一个哈希值，即每个分段按照顺序对应从0到N-1的哈希值，顺序越靠前的分段映射的哈希值越小，N个分段与哈希值的映射关系就作为哈希函数，由于映射之后的哈希值为按序的，因此该哈希函数是分段保序的哈希函数，如图2所示，将时间戳字段的值域分成N个分段，每个分段的宽度为1小时。例如，把每个所述属性字段中第一个分段的所有日志数据(也就是每个所述属性字段的值落在第一个分段内的日志数据)都映射到哈希值1对应的哈希桶里，第二个分段的所有日志数据都映射到哈希值2对应的哈希桶里等，即将每个所述哈希值对应的日志数据划分到一个存储单元中。

所谓保序的哈希函数，指属性字段的数据的原值为x和y，如果x<＝y，则Hash(x)<＝Hash(y)，其中，Hash()为哈希函数。保序的哈希函数能支持范围查询，即如果查询条件为a>＝x and a<＝y(a为范围查询的属性字段的值)，那么可以根据x和y的具体值，计算其哈希值，从而迅速找到相关的日志数据。

上述对日志数据进行分片的哈希函数，把属于一个分片的日志数据映射到相同的存储单元中(该存储单元对应一个单元编号)。针对每个范围查询的属性字段(比如时间戳字段、地理位置信息字段)，各个分段的边界直接作为分段哈希函数的边界，分段的最大宽度采用比范围查询更小的尺度。如果范围查询的典型条件是几百米范围，那么地理位置信息字段的分段的边界应该确定为更小的尺度，比如10米。

把日志数据的属性字段中的实体标识(Identity，简称ID)字段、时间戳字段、以及其它作为范围查询条件的字段(比如X坐标位置，和Y坐标位置)等，全部进行哈希操作。对于日志数据的属性字段中的实体标识(Identity，简称ID)字段，使用一般的哈希函数进行映射即可。但是对于作为范围查询条件的属性字段，必须采用保序哈希函数进行映射计算其哈希值。

本实施例提供的基于分段保序哈希的日志数据分片方法，通过将日志数据的多个属性字段的值域分别划分成N个分段；按照所述N个分段的顺序建立每个所述属性字段对应的所述N个分段与哈希值的映射关系；所述哈希值为连续排列的整数，所述哈希值的排列顺序与所述N个分段的顺序一致；将每个所述哈希值对应的日志数据划分到一个存储单元中，由于建立映射关系时哈希值是按照分段的顺序依次排列的，因此建立的映射关系为分段保序的哈希函数，通过哈希函数的保序性，保证了相邻的日志数据被划分到相邻的目标存储空间，以便支持范围查询能够快速寻找到相关数据。

在图1所示的实施方式的基础上，进一步的，在实际应用中，将每个所述哈希值对应的日志数据划分到一个存储单元中的方式可以有多种，可选的，作为一种可实施的方式，分别从每个所述属性字段中选择一个所述分段对应的哈希值生成向量，将所述向量作为单元编号；

将所述单元编号对应的日志数据划分划分到一个所述存储单元中；所述存储单元与所述单元编号一一对应。

具体来说，分别从每个所述属性字段中选择一个所述分段对应的哈希值生成一个多维向量，如将时间戳字段的第一个分段对应的哈希值1、X坐标字段的第一个分段对应的哈希值1、Y坐标字段的第一个分段对应的哈希值1组成一个多维向量(1，1，1)，该多维向量作为一个单元编号；将所述单元编号对应的日志数据划分到一个所述存储单元中，即将在该时间分段内，且X坐标位置、Y坐标位置都在该字段的分段范围内的所有日志数据存储在相应的存储单元中，也就是把每个所述属性字段的值落在第一个分段内的日志数据存储在相应的存储单元中。

在上述实施方式的基础上，进一步的，所述将所述单元编号对应的日志数据划分到一个所述存储单元中之后，还包括：

具体来说，对日志数据进行分片存储时，可以先利用缓冲区进行日志数据缓存，将缓冲区作为存储单元，一个单元编号对应一个缓冲区。

这些缓冲区存满的时候，记录元信息，并且把缓冲区中的日志数据写入数据文件。元信息形如<实体ID Hash，X坐标Hash，Y坐标Hash，时间戳Hash，Full Counter，X min，Xmax，Y min，Y max，TS min，TS max，缓冲区的数据位置信息>，这些元信息的属性分别是实体ID的哈希值、X坐标的哈希值、Y坐标的哈希值、时间戳字段的Hash值、缓冲区填满的次数、各个范围查询字段的最小值和最大值以及该缓冲区的日志数据存放的位置信息(即存放在哪个数据文件中的具***置)。文件***中可以存储元信息记录表，用于数据查询。

图3为本发明方法一实施例的等深直方图的示意图。

在上述实施方式的基础上，进一步的，由于日志数据分布可能会不均匀，为了避免某些分段的日志数据较多，从而只有少数几个单元缓冲区快速地被写满，频繁处理，因此按照日志数据的分布将所述日志数据的多个属性字段的值域分别划分成N个分段。

所述将所述日志数据的多个属性字段的值域分别划分成非均匀的N个分段，具体包括：

根据所述等深直方图将所述值域划分为所述N个分段。

具体来说，如图3所示，由于日志数据首先在内存的缓冲区里面堆积，等到某个缓冲区存满的时候，才需要写入文件***的数据文件中。因此希望每个缓冲区的数据量尽可能的均匀，这些缓冲区一个一个地写满，并被写入文件***中，而不是只有少数几个缓冲区快速地被写满，频繁处理。

针对日志数据分布不均匀的状况，采用非均匀的属性字段的值域分段划分方法。为了支持非均匀的分段划分，在日志数据正式分片存储之前，可以采样一部分数据，用于确定分段如何划分。对采样的日志数据，建立一个等深直方图，直方图的桶的数量为N，这些直方图每个桶的日志数据的数量是一样的，图3中纵坐标的频率指的就是日志数据的数量。

利用等深直方图的桶的边界，构造分段保序哈希函数，把顺序靠前的直方图桶内的日志数据映射到低序号的哈希桶，而其后的各个直方图桶内的记录依次映射到各个更高序号的哈希桶，每个等深直方图的桶的边界划分出的值域段就对应一个分段。如图2所示，等深直方图桶的数量为N，则把第一个直方图桶的所有日志数据(也就是属性字段的值落在该桶内的日志数据)都映射到哈希值1(即第一个哈希桶)，第二个直方图桶的所有日志数据都映射到哈希值2(即第二个哈希桶)等。根据等深直方图桶的边界，建立的哈希函数是一个分段保序的哈希函数，也就是一个直方图桶内的日志数据都映射到一个哈希值，低序号的直方图桶的日志数据的哈希值，小于高序号的直方图桶的日志数据的哈希值。

上述具体实施方式中，通过分段的非均匀划分，避免了由于某些分段的日志数据较多，从而只有少数几个缓冲区快速地被写满，频繁处理的问题。

在前述实施方式的基础上，进一步的，在实际应用中，将所述存储单元中的日志数据写入数据文件中的方式可以有多种，可选的，作为一种可实施的方式，可以将多个所述存储单元中的日志数据写入同一数据文件，所述数据文件的文件头中包括：所述存储单元的单元编号与所述存储单元中的日志数据在所述数据文件内偏移量的对应关系。

具体来说，多个存储单元可以写入同一数据文件也可以写入不同的数据文件中；写入同一数据文件中时，为了快速定位数据文件中的某个存储单元的日志数据，必须在文件头记录所述存储单元的单元编号与该存储单元的日志数据在该数据文件内偏移量的对应关系，以便查询时能够快速定位某个存储单元的日志数据。

由于在对日志数据进行分片时，已经针对范围查询字段比如时间戳字段、坐标字段比如x坐标、y坐标等上，进行了分段保序哈希操作。当查询涉及这些字段的时候，比如范围查询仅仅涉及时间戳字段，查询条件具有如下形式，“[时间常量1]<＝时间and时间<＝[时间常量2]”，查询处理过程描述如下：

首先，对照分段保序哈希的每个哈希桶的边界(即每个分段的边界)，寻找[时间常量1]和[时间常量2]所在的哈希桶，分别是Bucket_i和Bucket_j。

由于哈希函数为保序的，因此对于Bucket_i+1到Bucket_j-1等哈希桶对应的单元缓冲区，其数据一定落在[时间常量1]和[时间常量2]之间，其数据都是(即100％)相关数据。将时间戳字段落在Bucket_i+1的下界和Bucket_j-1的上界的所有元信息记录提取出来，这些元信息对应的数据文件，就是完全相关的数据文件。

对于Bucket_i和Bucket_j两个桶对应的存储单元，仅部分包含相关数据。我们分别对其进行如下操作，提取其对应的时间戳字段上的哈希值，利用这个哈希值查询***元信息记录表，提取所有时间戳哈希值为该哈希值的所有记录，其对应的数据文件，仅部分包含相关数据。提取数据文件后，采用二分查找等方法，将该数据文件的非相关数据过滤掉，即可获得相关数据。至此，所有的相关数据提取完成。

查询元信息记录表的原理如下：比如元信息记录表中的时间戳哈希字段是TS_Hash，上述边界确定以后，提取元信息记录表里，TS_Hash处在这些边界之间的记录，即可寻找到其映射的数据文件的信息。比如，在一个仅包含一个用户ID、一个时间戳字段、X和Y坐标字段的日志数据中，如果TS_Hash_min和TS_Hash_max的值分别为3和5，那么下表1中第2-7行，将被确定为包含查询相关数据的哈希值。

表1

在实际应用中，可选的，作为一种可实施的方式，所述方法还包括：记录所述各个属性字段的映射关系、所述映射关系的启用时间和终止时间、所述存储单元的元信息和数据文件的集合。

具体来说，在日志数据不断分片的过程中，我们不断对日志数据进行监控，了解各个范围查询字段在各个哈希桶上，是否均匀。当日志数据的均匀性发生较大变化的时候，即某些哈希桶数据过于密集，某些哈希桶过于稀疏。

那么，我们基于新的数据采样，使用同上述相同的方法步骤，为范围查询字段设计新的哈希函数。新的哈希函数集设计完成后，记录新的哈希函数集为活动数据纪(ActiveData Epoch)。上次使用的哈希函数集、启用时间和终止时间、元信息以及相应的数据文件称为一个数据纪。

当范围查询字段跨越两个以上数据纪的时候，需要根据数据纪的边界进行范围查询的改写。比如范围查询字段的上、下界为[时间常量1]和[时间常量2]，该查询跨越两个数据纪，两个数据纪的边界为T_C，那么范围查询条件“[时间常量1]<＝时间and时间<＝[时间常量2]”，被改写为“[时间常量1]<＝时间and时间<＝T_C”or“T_C<＝时间and时间<＝[时间常量2]”，余下的步骤与上述实施例中类似。

图4为本发明基于分段保序哈希的日志数据分片装置一实施例的结构示意图。如图4所示，本实施例的装置，可以包括：划分模块401和映射模块402；

其中，划分模块401，用于将日志数据的多个属性字段的值域分别划分成N个分段；N为大于1的整数；

映射模块402，用于按照所述N个分段的顺序建立每个所述属性字段对应的所述N个分段与哈希值的映射关系；所述哈希值为连续排列的整数，所述哈希值的排列顺序与所述N个分段的顺序一致；

所述划分模块401，还用于将每个所述哈希值对应的日志数据划分到一个存储单元中。

可选地，所述划分模块401，具体用于：

根据所述等深直方图将所述值域划分为所述N个分段。

可选地，所述划分模块401，还具体用于：

可选地，还包括：

可选地，所述处理模块，还用于：

本实施例的装置，可以用于执行如图1-3任一所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的软件和硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种日志数据分片方法，其特征在于，包括：

将每个所述哈希值对应的日志数据划分到一个存储单元中。

2.根据权利要求1所述的方法，其特征在于，所述将日志数据的多个属性字段的值域分别划分成N个分段，包括：

根据所述等深直方图将所述值域划分为所述N个分段。

3.根据权利要求1或2所述的方法，其特征在于，所述将每个所述哈希值对应的日志数据划分到一个存储单元中，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述单元编号对应的日志数据划分到一个所述存储单元中之后，还包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求5所述的方法，其特征在于，还包括：

7.一种日志数据分片装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述划分模块，具体用于：

根据所述等深直方图将所述值域划分为所述N个分段。

9.根据权利要求7或8所述的装置，其特征在于，所述划分模块，还具体用于：

10.根据权利要求9所述的装置，其特征在于，还包括：