CN105487820B - 一种基于时间片轮转机制的树状存储结构写放大优化方法 - Google Patents

一种基于时间片轮转机制的树状存储结构写放大优化方法 Download PDF

Info

Publication number
CN105487820B
CN105487820B CN201510859463.8A CN201510859463A CN105487820B CN 105487820 B CN105487820 B CN 105487820B CN 201510859463 A CN201510859463 A CN 201510859463A CN 105487820 B CN105487820 B CN 105487820B
Authority
CN
China
Prior art keywords
component
data
timeslice
tree
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510859463.8A
Other languages
English (en)
Other versions
CN105487820A (zh
Inventor
岳银亮
李宇哲
王伟平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201510859463.8A priority Critical patent/CN105487820B/zh
Publication of CN105487820A publication Critical patent/CN105487820A/zh
Application granted granted Critical
Publication of CN105487820B publication Critical patent/CN105487820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0634Configuration or reconfiguration of storage systems by changing the state or mode of one or more devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • G06F3/0613Improving I/O performance in relation to throughput

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于时间片轮转机制的树状存储结构写放大优化方法。本方法为:1)选取磁盘空间中一待合并的组件,赋予其占用时间片的权限;其中,磁盘空间为多组件的树状存储结构;2)根据所选组件当前数据量的大小,动态调整时间片的阈值大小;3)所选组件在占用时间片的过程中连续进行若干次合并操作。本发明对拥有时间片的组件具有最高的合并选择优先级,不能进行合并操作的组件将自动放弃时间片,避免不必要的长期占用,导致***资源空闲,可以将LSM‑Tree的整体写吞吐量提升40%以上。

Description

一种基于时间片轮转机制的树状存储结构写放大优化方法
技术领域
本发明属于计算机软件技术领域,涉及到一种基于时间片轮转机制的树状存储结构写放大优化方法。
背景技术
LSM Tree是一种多组件的树状存储结构。总体来说,LSM Tree由内存空间和磁盘空间两部分构成。数据首先会被缓存在内存空间中,当内存空间达到一定阈值时,内存的数据会被批量地刷写到磁盘空间上。磁盘空间由多层组件构成,各层组件都有一个存储数据大小的阈值,阈值自上而下呈指数增长。刚从内存刷写到磁盘的数据会先存储在上层组件中,当组件中的数据达到阈值时,会通过合并操作将本层数据合并到下层组件中。当LSM-Tree中有多个组件的数据量达到阈值时,会根据合并选择优先级机制,选择优先级最高的组件进行合并操作。
写放大是目前影响LSM-Tree性能的主要原因。写放大表示一次合并操作的有效率,其计算公式为:写放大=写操作总IO量/有效移动数据总量,可以看出,写放大越大,表明此次操作的无效IO比例越大,效率就越低,性能也就越差。LSM-Tree写放大较大的原因主要是:在合并操作时,需要从待合并的上下两个组件中各读取一部分数据到内存中进行合并,合并后将结果写回下层组件,而只有上层组件的数据是有效移动数据,下层组件的数据并没有移动,所以下层组件的数据量越大,写放大就越大。现有的LSM-Tree合并选择优先级机制存在缺陷,不能保证各个组件的数据顺利向下层组件移动,一旦数据量增加,数据就会滞留在某一组件中,导致组件在合并时写放大较大,影响整体性能。
发明内容
本发明的主要目的在于提出一种基于时间片轮转的合并机制,通过设定的合并选择机制,选择待合并的组件,赋予其占用时间片(一种合并所需的***资源)的权限,并根据组件当前数据量的大小,动态调整时间片的阈值大小,从而有效控制其占用时间片的时间长短,保证其在占用时间片的过程中连续进行若干次合并操作,从而有效控制组件的文件个数,降低写放大,提升***整体吞吐量。
本发明的技术方案为:
一种基于时间片轮转机制的树状存储结构写放大优化方法,其步骤为:
1)选取磁盘空间中一待合并的组件,赋予其占用时间片的权限;其中,磁盘空间为多组件的树状存储结构;
2)根据所选组件当前数据量的大小,动态调整时间片的阈值大小;
3)所选组件在占用时间片的过程中连续进行若干次合并操作。
进一步的,选择待合并的组件需满足的条件为:组件的数据量大于该组件的数据量阈值。
进一步的,优先选择上次分配时间片的组件的相邻下个组件作为待合并的组件。
进一步的,如果相邻组件不满足组件的数据量大于该组件的数据量阈值条件时,则计算其他组件的当前数据量与对应组件的数据量阈值的比值,选取满足组件的数据量大于该组件的数据量阈值条件且比值最大的组件。
进一步的,动态调整时间片的阈值大小的方法为:T为当前分配时间片占用权限的组件Ci的时间片阈值,T=(超出组件Ci的数据量阈值的数据总量/每次合并平均移动数据量)*每次合并的平均时间;其中每次合并平均移动数据量表示为:当组件Ci参与合并且合并后的数据写回下层组件时,从该组件Ci读取的数据总量。
进一步的,将所选组件每次合并所消耗的时间进行累加,当消耗的总合并时间超过了对应时间片的阈值,则将取消所选组件的占用时间片的权限。
进一步的,当所选组件当前数据量已小于该组件的数据量阈值,则将取消所选组件的占用时间片的权限。
本发明主要包括以下三个阶段:
1)分配时间片占用权限
为LSM-Tree的某个组件分配时间片占用权限。被分配的组件需要满足以下条件:
①被分配的组件必须满足本组件的数据量大于本组件的数据量阈值。
②优先选择上次分配时间片的组件的相邻下个组件进行分配。如组件C2刚刚占用完时间片,则优先选择C3进行分配。
③如果根据条件②选择的组件不满足条件①,或当前时间片的占用权限为空,则计算其他所有组件的当前数据量与对应组件阈值的比值,将满足条件①且比值最大的组件将被分配时间片的占用权限。
④如果所有组件均不满足条件①,则时间片占用权限暂时置空,即没有组件拥有时间片占用权限,等待当有组件满足条件①时再进行分配。
2)使用时间片
当时间片被新的组件占用时,将根据该组件的相关信息,通过如下公式,重新计算时间片的阈值:T=(超出组件Ci的数据量阈值的数据总量/每次合并平均移动数据量)*每次合并的平均时间;T为当前分配时间片占用权限的组件Ci的时间片阈值,其中每次合并移动数据量表示为:当本组件参与合并,且合并后的数据写回下层组件时,从本组件读取的数据总量。经过统计可以计算出每次合并的平均移动数据量。
随后,在每次合并时,会将每次合并所消耗的时间进行累加,一旦总的合并时间超过了时间片的阈值,则将取消其占用时间片的权限。
需要指出的是,当第一次为某一组件分配时间片权限时,由于该组件从未进行过合并操作,因此设置的时间片阈值为固定值。
3)取消时间片占用权限
取消组件的时间片占用权限主要有以下两种情况:
①组件在使用时间片过程中,进行合并操作的总时间大于时间片阈值。
②组件当前数据量已小于该组件的数据量阈值。
取消组件的时间片权限后,会重新进入分配时间片占用权限的阶段,进行下一次时间片的权限分配。
与现有技术相比,本发明的积极效果为:
本发明对拥有时间片的组件具有最高的合并选择优先级,不能进行合并操作的组件将自动放弃时间片,避免不必要的长期占用,导致***资源空闲。
通过使用本发明提供的方式优化LSM-Tree,可以将LSM-Tree的整体写吞吐量提升40%以上。
附图说明
图1为本发明的方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明做进一步说明。
实例1基于时间片轮转机制的树状存储结构写放大优化方法
本发明基于RocksDB进行实现和实验。具体的实现方法如下:
①在***初始化时,将时间片的占用权限置空。
②当有组件(不一定是占用时间片的组件)满足本组件数据量大于本组件阈值时,判断当前时间片是否被组件占用。如果没有被占用,则执行④;如果已经被占用,则判断当前占用时间片的组件是否满足本组件数据量大于本组件阈值,如果不满足,则执行③;如果满足则判断该组件的合并时间是否已超过当前时间片的阈值,如果没有超过,则该组件继续进行合并操作,并在合并完成后执行⑤,否则执行③。
③判断当前占用时间片的组件的相邻下一组件是否满足本组件数据量大于本组件阈值,如当前占用时间片的组件为C2,则判断C3是否满足。如果满足,则根据下一组件的相关信息计算时间片阈值大小,为其分配时间片占用权限,并由该组件进行合并操作,合并操作完成后,执行⑤;如果不满足,则执行④。
④根据如下公式计算所有组件的分数:组件分数=组件数据量÷组件阈值。如果分数最大的组件的分数大于1,则根据该组件信息重新计算时间片阈值大小,为其分配时间片占用权限,并由该组件进行合并操作,合并操作完成后,执行⑤;否则,将时间片占用权限置空。
⑤记录本次合并消耗的时间,并计算自该组件最近一次占用时间片以后所进行的所有合并操作的总时间。

Claims (6)

1.一种基于时间片轮转机制的树状存储结构写放大优化方法,其步骤为:
1)选取磁盘空间中一待合并的组件,赋予其占用时间片的权限;其中,磁盘空间为多组件的树状存储结构;
2)根据所选组件当前数据量的大小,动态调整时间片的阈值大小;其中,动态调整时间片的阈值大小的方法为:T为当前分配时间片占用权限的组件Ci的时间片阈值,T=(超出组件Ci的数据量阈值的数据总量/每次合并平均移动数据量)*每次合并的平均时间;其中每次合并平均移动数据量表示为:当组件Ci参与合并且合并后的数据写回下层组件时,从该组件Ci读取的数据总量;
3)所选组件在占用时间片的过程中连续进行若干次合并操作。
2.如权利要求1所述的方法,其特征在于,选择待合并的组件需满足的条件为:组件的数据量大于该组件的数据量阈值。
3.如权利要求2所述的方法,其特征在于,优先选择上次分配时间片的组件的相邻下个组件作为待合并的组件。
4.如权利要求3所述的方法,其特征在于,如果相邻组件不满足组件的数据量大于该组件的数据量阈值条件时,则计算其他组件的当前数据量与对应组件的数据量阈值的比值,选取满足组件的数据量大于该组件的数据量阈值条件且比值最大的组件。
5.如权利要求1所述的方法,其特征在于,将所选组件每次合并所消耗的时间进行累加,当消耗的总合并时间超过了对应时间片的阈值,则将取消所选组件的占用时间片的权限。
6.如权利要求1所述的方法,其特征在于,当所选组件当前数据量已小于该组件的数据量阈值,则将取消所选组件的占用时间片的权限。
CN201510859463.8A 2015-11-30 2015-11-30 一种基于时间片轮转机制的树状存储结构写放大优化方法 Active CN105487820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510859463.8A CN105487820B (zh) 2015-11-30 2015-11-30 一种基于时间片轮转机制的树状存储结构写放大优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510859463.8A CN105487820B (zh) 2015-11-30 2015-11-30 一种基于时间片轮转机制的树状存储结构写放大优化方法

Publications (2)

Publication Number Publication Date
CN105487820A CN105487820A (zh) 2016-04-13
CN105487820B true CN105487820B (zh) 2018-11-16

Family

ID=55674825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510859463.8A Active CN105487820B (zh) 2015-11-30 2015-11-30 一种基于时间片轮转机制的树状存储结构写放大优化方法

Country Status (1)

Country Link
CN (1) CN105487820B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147204B (zh) * 2019-05-22 2020-03-10 苏州浪潮智能科技有限公司 一种元数据落盘方法、装置、***及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142958A (zh) * 2013-05-10 2014-11-12 华为技术有限公司 一种键值对***中数据的存储方法和相关装置
CN104268709A (zh) * 2014-10-10 2015-01-07 浪潮集团有限公司 一种采用分布式lsm树的rfid***设计方法
CN104809237A (zh) * 2015-05-12 2015-07-29 百度在线网络技术(北京)有限公司 LSM-tree索引的优化方法和装置
CN104915145A (zh) * 2014-03-11 2015-09-16 华为技术有限公司 一种降低LSM Tree写放大的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9727598B2 (en) * 2012-12-19 2017-08-08 Salesforce.Com, Inc. Systems, methods, and apparatuses for fixing logical or physical corruption in databases using LSM trees
US9311252B2 (en) * 2013-08-26 2016-04-12 Globalfoundries Inc. Hierarchical storage for LSM-based NoSQL stores

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142958A (zh) * 2013-05-10 2014-11-12 华为技术有限公司 一种键值对***中数据的存储方法和相关装置
CN104915145A (zh) * 2014-03-11 2015-09-16 华为技术有限公司 一种降低LSM Tree写放大的方法和装置
CN104268709A (zh) * 2014-10-10 2015-01-07 浪潮集团有限公司 一种采用分布式lsm树的rfid***设计方法
CN104809237A (zh) * 2015-05-12 2015-07-29 百度在线网络技术(北京)有限公司 LSM-tree索引的优化方法和装置

Also Published As

Publication number Publication date
CN105487820A (zh) 2016-04-13

Similar Documents

Publication Publication Date Title
CN102193826B (zh) 一种异构多核处理器高效任务调度方法
US8482571B2 (en) Information processing processing apparatus, method for controlling information processing apparatus, and program
US9329986B2 (en) Peak current management in multi-die non-volatile memory devices
US10049040B2 (en) Just in time garbage collection
CN103885812B (zh) 虚拟机规格调整方法及装置
CN104268018B (zh) 一种Hadoop集群中的作业调度方法和作业调度器
US7693884B2 (en) Managing storage systems based on policy-specific proability
CN103634379B (zh) 一种分布式存储空间的管理方法和分布式存储***
CN103412884B (zh) 一种异构存储介质下嵌入式数据库的管理方法
CN103095805A (zh) 一种对数据进行智能分层管理的云存储***
CN107273200B (zh) 一种针对异构存储的任务调度方法
CN110096350B (zh) 基于集群节点负载状态预测的冷热区域划分节能存储方法
CN108170525A (zh) 动态调整多核心处理器的任务负载配置的装置以及方法
CN112269641A (zh) 一种调度方法、装置、电子设备及存储介质
CN106569891A (zh) 一种存储***中任务调度执行的方法和装置
CN103984595A (zh) 一种异构cmp的静态任务调度方法
CN105487820B (zh) 一种基于时间片轮转机制的树状存储结构写放大优化方法
CN105320570A (zh) 资源管理方法和***
CN106033442B (zh) 一种基于共享内存体系结构的并行广度优先搜索方法
CN103425435A (zh) 磁盘存储方法及磁盘存储***
CN104239154A (zh) 一种Hadoop集群中的作业调度方法和作业调度器
CN106682184A (zh) 一种基于日志合并树结构的轻量级合并方法
CN104866238A (zh) 访问请求调度方法及装置
US8990537B2 (en) System and method for robust and efficient free chain management
Ryder A heuristic approach to task dispatching

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant