CN111475507B

CN111475507B - 一种工作负载自适应单层lsmt的键值数据索引方法

Info

Publication number: CN111475507B
Application number: CN202010244527.4A
Authority: CN
Inventors: 陈珂; 周信静; 寿黎但; 骆歆远; 伍赛; 江大伟; 陈刚
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2022-06-21
Anticipated expiration: 2040-03-31
Also published as: CN111475507A

Abstract

本发明公开了一种工作负载自适应单层LSMT的键值数据索引方法。该方法对传统的日志结构合并树(Log‑Structured‑Merge Tree，LSMT)进行了优化，去除了多层设计和固定内存表容量设计，引入了单层LSMT和动态容量内存表的设计。该方法将写入首先将写操作以顺序的方式写入存储设备上的日志文件中，再修改内存表。当内存表的大小达到了容量限制，转换成一个只读内存表，并在后台线程中将只读内存表表合入存储设备上的单层LSMT结构中。在此基础上，本方法能够根据工作负载中的键值读写分布自动优化存储结构。该索引方法能够同时降低对存储设备的读写放大，提升***吞吐和存储设备寿命。同时针对工作负载做出自适应的优化，进一步提升***性能。

Description

一种工作负载自适应单层LSMT的键值数据索引方法

技术领域

本发明属数据库***技术领域，具体地涉及一种工作负载自适应单层LSMT的键值数据索引方法。

背景技术

基于日志结构合并树(Log-Structured-Merge Tree，LSMT)的键值存储***，由于其优秀的处理密集写能力，被广泛应用在数据密集型互联网应用中。但是现有基于LSMT的存储***一般都存在着放大问题和工作负载无感知的问题。放大问题是指用户请求读取/写入的数据量要远小于***实际需要在存储设备上读取/写入的数据量，可以采用放大因子

来量化这个问题。工作负载无感知的问题指的是现有LSMT***无法根据工作负载中的读写分布对存储结构做出更加合适的优化。

为了解决读写放大问题，研究者提出了许多方法，但是这些方法一般牺牲了读放大来换取写放大的降低(如WiscKey、PebblesDB)，无法保证读写都高效。而对于工作负载无感知的问题，也很少有研究者对其进行研究和解决。

发明内容

针对现有技术的不足，本发明提出一种在块存储设备上的工作负载自适应键值数据索引方法。该方法能有效降低读写放大，同时根据工作负载能做出自适应的存储结构优化，进一步读降低延迟。

本发明的目的是通过以下技术方案实现的：一种工作负载自适应单层LSMT的键值数据索引方法，具体包括以下步骤：

(1)对LSMT存储结构进行修改设计，包括以下子步骤：

(1.1)去除LSMT多层结构的中间层，保留最后一层，并将最后一层作为存储层L₀；将原先固定容量的内存表换成动态容量内存表，所述动态容量内存表的容量值为M，引入实数参数R，R＞1，满足

|L₀|为当前存储层的数据量。

(1.2)将存储层L₀根据键范围分区成N个子键空间l₁,l₂,…,l_N，所述子键空间不重叠，且每个子键空间l_i(1≤i≤N)的数据均存储在独立的存储文件中。每个子键空间l_i(1≤i≤N)最多存储T个来自所述动态容量内存表对该子键空间内的数据的更新Run，并且记γ(l_i)为所述子键空间l_i所含有的Run集合，|γ(l_i)|为集合大小；所述Run的键值数据按照键顺序排序，并且一个子键空间的Run之间可重叠；所述T≥1。

(2)将所述动态容量内存表进行合并，具体为：当所述动态容量内存表的容量值超过M，将所述动态容量内存表转换成只读内存表，并在后台线程中启动合并过程，将所述只读内存表合入存储层L₀，同时，建立新的活动内存表，继续处理前端读写请求。所述合并过程具体为：根据存储层L₀的子键空间的范围分区，将所述只读内存表划分成N个Run，记为r₁，r₂，...，r_N，其中r_i属于l_i。然后将r_i写入对应的子键空间l_i对应的存储文件中。当一个子键空间l_i的数据量超过阈值β或|γ(l_i)|＞T时，将γ(l_i)合并成一个Run，即合并之后|γ(l_i)|＝1，并且根据数据量等分成两个子键空间，当合并完成后，索引写步骤完毕。

进一步地，所述阈值β的取值为64MB。

进一步地，该索引方法还包括自适应读优化方法，包括以下子步骤：

(a)将

作为t时刻所述子键空间l_i的读热度统计，对于t时刻的读热度获为：

其中，

为t—1至t时刻之间，对子键空间li的读次数，α为衰减因子，0＜a＜1，

且

(b)将

作为t时刻所述子键空间l_i的写热度统计，对于t时刻的写热度为：

其中，

为t—1至t时刻之间，对子键空间li的写入次数，

且

I^(t)为当前时刻t与上一个时刻t-1之间流逝的时间。

(c)定期运行下述过程：首先根据写热度对子键空间进行聚类，分成四类，分别为：Cold、Warm、WriteBalanced、WriteHeavy。选择写热度最低的Cold类的子键空间，然后根据读热度对所述Cold类的子键空间进行降序排序，并且过滤掉满足如下条件的子键空间l_i：

接着在这个排好序并过滤完毕的Cold类子键空间集合中选择前P个，l₁，l₂，...，l_P，将每个子键空间l_i的γ(l_i)(1≤i≤P)集合合并成一个Run。

公式公式与现有技术相比，本发明具有的有益效果是：本发明提出的索引方法，去掉了传统LSMT的多层设计，引入了动态容量的内存表和自适应读优化机制：

1)使得本发明提出的索引方法相比于现有的LSMT设计有更低的读写放大因子，***读写吞吐量更高，同时提升了存储设备的寿命。

2)本发明提出的索引方法能够根据工作负载中的读写分布，自动做出结构优化，进一步降低***延迟。

附图说明

图1是本发明提出的索引方法流程图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1为本发明在块存储设备上的工作负载自适应键值数据索引方法的流程图，该方法具体包括以下步骤：

(1)对LSMT存储结构进行修改设计，包括以下子步骤：

(1.1)去除LSMT多层结构的中间层，保留最后一层，并将最后一层作为存储层L0；将原先固定容量的内存表换成动态容量内存表，其他结构基本保持不变：保留了日志文件用于在宕机后恢复内存表。所述动态容量内存表的容量值为M，引入实数参数R，R＞1，满足

R用于权衡内存使用量与读写放大，M随着数据量的增长而增长。

(1.2)为了便于后序的自适应读优化，对于存储层L₀引入了动态分区机制：将存储层L₀根据键范围分区成N个子键空间l₁，l₂，...，l_N，所述子键空间不重叠，且每个子键空间l_i(1≤i≤N)的数据均存储在独立的存储文件中。每个子键空间l_i(1≤i≤N)最多存储T个来自所述动态容量内存表对该子键空间内的数据的更新Run，并且记γ(l_i)为所述子键空间l_i所含有的Run集合，|γ(l_i)|为集合大小；所述Run的键值数据按照键顺序排序，并且一个子键空间的Run之间可重叠；所述T≥1。每个子键空间拥有元数据metadata：max_key、num_runs、index_data；所述max_key为描述该子键区间的最大键，用于描述该子键空间的范围；num runs描述该子键空间有多少个Run；index_data为存储了该子键空间每个Run的索引数据。其中，每个Run的索引数据又包含：bloom_filter_data、block_index_data，所述bloom_filter_data为对该Run所建立的布隆过滤器信息；block_index_data对该Run所存储的数据按block进行了划分，其中block为4KB，block_index_data存储的是每个block的最大键，用于快速定位一个查询键可能在的block。最后这些元数据又以<max_key，metadata>为键值数据存储在另外一个独立的传统LSMT键值存储***中，比如LevelDB/RocskDB。由于这些元数据相比于数据要小得多，因此这些元数据一般都能缓存在内存中，不需要执行IO。

(2)将所述动态容量内存表进行合并，具体为：当所述动态容量内存表的容量值超过M，将所述动态容量内存表转换成只读内存表，并在后台线程中启动合并过程，将所述只读内存表合入存储层L₀，同时，建立新的活动内存表，继续处理前端读写请求。所述合并过程具体为：根据存储层L0的子键空间的范围分区，将所述只读内存表划分成N个Run，记为r₁，r₂，...，r_N，其中r_i属于l_i，即r_i中键值数据的最大键≤l_i中存储的键值数据的最大键(通过查询原数据存储LSMT可以得到)，并且r_i中键值数据的最小键＞l_i-1中存储的键值数据的最大键(通过查询原数据存储LSMT可以得到)。然后将r_i写入对应的子键空间l_i对应的存储文件中。同时更新这些元数据，这个更新过程包括修改num_runs和index_data等等。为了限制子键空间内部的查询IO次数，当一个子键空间l_i的数据量超过阈值β(64MB)或|γ(l_i)|＞T时，将γ(l_i)合并成一个Run，即合并之后|γ(l_i)|＝1，并且根据数据量等分成两个子键空间，该过程为***操作。通过引入***操作，保证每个子键空间的查询IO复杂度为O(T)。这个***操作涉及到写入子键空间文件，更新原数据LSMT。当所有的Run都完成了写入，并触发完毕***操作，那么整个合并完成。当合并完成后，索引写步骤完毕。

本发明的一个实施例中还包括自适应读优化方法，包括以下子步骤：

(a)将

作为t时刻所述子键空间l_i的读热度统计，t时刻的读热度值通过以下指数衰减公式得到：

其中，

为t-1至t时刻之间，对子键空间l_i的读次数，α为衰减因子，0＜a＜1，

且

这里采用指数衰减技术是为了让***能够捕捉时间局部性，即最近执行读相对于久远的读更能反应工作负载的当前状态，给予这些读更多的读权重。同时在***中定期更新这些读热度信息。

(b)将

作为t时刻所述子键空间l_i的写热度统计，t时刻的写热度值可以通过以下指数衰减公式获得：

其中，

为t-1至t时刻之间，对子键空间l_i的写入次数，

且

I^(t)为当前时刻t与上一个时刻t-1之间流逝的时间。这里的时刻定义成每次合并的开始时间，即这些写热度信息的更新是在合并的时候进行的，这样能够降低更新开销。引入I^(t)是为了处理***长时间没有写请求的情况，这种情况下，这些写入的权重也应该降低。

(c)有了读写热度之后，我们引入自适应读优化机制。首先根据写热度对子键空间进行聚类，分成四类，分别为：Cold、Warm、WriteBalanced、WriteHeavy。选择对Cold类的子键空间进行优化，因为其他三类的子键空间往往有着更多的写操作，不影响这写子键空间的写入操作性能；根据读热度对所述Cold类的子键空间进行降序排序，并且过滤掉满足如下条件的子键空间l_i：

接着在这个排好序并过滤完毕的Cold类子键空间集合中选择前P个，l₁,l₂,…,l_P，将每个子键空间l_i的γ(l_i)(1≤i≤P)集合合并成一个Run。

用于权衡内存使用量与读写放大，随着数据量的增长而增长。公式公式本发明的一个实施例中，还包括了读操作，所述读操作分为点读操作和范围读操作。对于点读操作，首先查询动态容量内存表，找到即返回结果，如果没有找到，则查询只读内存表，若找到，即完成点读操作。如果所有动态容量内存表都没有找到相应的数据，则通过元数据文件来确定可能包含查询键的子键空间，然后从子键空间中按Run的写入顺序逆序查找Run，如果找到则完成查询，否则宣告查询无法找到查询键。为了优化点读操作，本发明还为每个子键空间的Run配备了一个布隆过滤器，执行Run的查询之前，先查询该布隆过滤器，判断Run是否有可能包含查询键，以很低的代价免去了无效的IO。对于范围读操作，同时查询动态容量内存表和子键空间的Run，并通过归并合并得到查询结果。

将本发明的索引方法用在键值存储***上，与WiscKey和LevelDB相比较，本发明的索引方法完成相同的操作所需要写放大降低了最高4倍，同时读操作性能也保持优秀，在自适应读优化机制下，点读延迟再次降低30％。

Claims

1.一种工作负载自适应单层LSMT的键值数据索引方法，其特征在于，具体包括以下步骤：

(1)对LSMT存储结构进行修改设计，包括以下子步骤：

(1.1)去除LSMT多层结构的中间层，保留最后一层，并将最后一层作为存储层L₀；将原先固定容量的内存表换成动态容量内存表，所述动态容量内存表的容量值为M，引入实数参数R，R>1，满足

|L₀|为当前存储层的数据量；

(1.2)将存储层L₀根据键范围分区成N个子键空间l₁,l₂,…,l_N，所述子键空间不重叠，且每个子键空间l_i(1≤i≤N)的数据均存储在独立的存储文件中；每个子键空间l_i(1≤i≤N)最多存储T个来自所述动态容量内存表对该子键空间内的数据的更新Run，并且记γ(l_i)为所述子键空间l_i所含有的Run集合，|γ(l_i)|为集合大小；所述Run的键值数据按照键顺序排序，并且一个子键空间的Run之间可重叠；所述T≥1；

(2)将所述动态容量内存表进行合并，具体为：当所述动态容量内存表的容量值超过M，将所述动态容量内存表转换成只读内存表，并在后台线程中启动合并过程，将所述只读内存表合入存储层L₀，同时，建立新的活动内存表，继续处理前端读写请求；所述合并过程具体为：根据存储层L₀的子键空间的范围分区，将所述只读内存表划分成N个Run，记为r₁,r₂,…,r_N，其中r_i属于l_i；然后将r_i写入对应的子键空间l_i对应的存储文件中；当一个子键空间l_i的数据量超过阈值β或|γ(l_i)|>t时，将γ(l_i)合并成一个Run，即合并之后|γ(l_i)|＝1，并且根据数据量等分成两个子键空间，当合并完成后，索引写步骤完毕。

2.根据权利要求1所述键值数据索引方法，其特征在于，所述阈值β的取值为64MB。

3.根据权利要求1所述键值数据索引方法，其特征在于，该索引方法还包括自适应读优化方法，包括以下子步骤：

(a)将