CN112559381A - 一种面向NVMe的IO确定性优化策略方法 - Google Patents

一种面向NVMe的IO确定性优化策略方法 Download PDF

Info

Publication number
CN112559381A
CN112559381A CN202011014697.XA CN202011014697A CN112559381A CN 112559381 A CN112559381 A CN 112559381A CN 202011014697 A CN202011014697 A CN 202011014697A CN 112559381 A CN112559381 A CN 112559381A
Authority
CN
China
Prior art keywords
window
time
dtwin
nvme
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011014697.XA
Other languages
English (en)
Other versions
CN112559381B (zh
Inventor
肖利民
刘禹廷
秦广军
朱金彬
张锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202011014697.XA priority Critical patent/CN112559381B/zh
Publication of CN112559381A publication Critical patent/CN112559381A/zh
Application granted granted Critical
Publication of CN112559381B publication Critical patent/CN112559381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/023Free address space management
    • G06F12/0253Garbage collection, i.e. reclamation of unreferenced memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0866Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches for peripheral storage systems, e.g. disk cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/72Details relating to flash memory management
    • G06F2212/7205Cleaning, compaction, garbage collection, erase control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/72Details relating to flash memory management
    • G06F2212/7211Wear leveling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

一种面向NVMe的IO确定性优化策略方法,通过基于集合和窗口划分进行优化,能够降低I/O请求的性能抖动等,从而提高垃圾回收效率并进一步延长固态硬盘寿命,其特征在于,包括以下步骤:步骤A,通过对NVMe存储单元集合划分实现不同集合之间相互独立,以便在不同集合之间并行的进行读、写和垃圾回收操作;步骤B,面向划分集合后的NVMe,提出新的I/O请求调度算法,避免发生垃圾回收与I/O请求访问冲突;步骤C,设计新的缓存管理算法感知NVMe集合垃圾回收操作,最大限度的避免垃圾回收操作与I/O请求访问冲突的可能,降低I/O请求的性能抖动。

Description

一种面向NVMe的IO确定性优化策略方法
技术领域
本发明涉及计算机科学技术,例如基于Open Channel SSD的面向NVMe I/O确定性的调度器与缓存优化等,特别是一种面向NVMe的IO确定性优化策略方法。NVMe(Non-Volatile Memory express)是指非易失性存储***及其标准或协议。I/O(或IO,Input/Output)指输入/输出。Open Channel SSD(Solid State Drives)指开放通道固态驱动器或固态硬盘。
背景技术
随着存储***的不断发展,存储介质由于NAND闪存的诞生带了一次巨大的飞跃。其优越的随机读写速度,逐步降低的单位容量价格,越来越受企业用户的青睐。固态硬盘SSD 的发展,伴随着闪存颗粒的位数扩大和闪存控制器的性能增强,因此SATA协议的带宽限制成为了制约SSD持续读写性能的主要瓶颈。由SATA过渡到直接使用PCIe协议的NVMe 协议于是成为了必然。虽然使用NAND的NVM设备在不断的应用和发展,其固有缺陷越来越难以忽视,相比传统机械硬盘等块设备,NAND闪存寿命普遍较低,颗粒的读写代价也不尽相同。闪存芯片从SLC(Single Level Cell,单层单元)发展到了现在的QLC(Quad-level cell,四层单元),带来的是断崖式的寿命减少和速度降低,数据的可靠性也越来越难以保证,SSD行业迫切的需要优秀的管理算法以尽可能缩小性能退化产生的影响。
由于NAND的固态硬盘的物理特性,垃圾回收是其必不可少的操作,但是垃圾回收会带来巨大的时间和空间开销。垃圾回收操作必须占用固态硬盘内部的I/O资源,堵塞上层I/O请求,因而可能会造成某一时刻的某些数据的读写延迟急剧增大,这一现象称为I/O抖动。另一个会引入I/O抖动的因素是用户间串扰。由于固态硬盘容量的不断增加,把它的容量进行分割,划分给不同的用户就成为了可能,但由于其随机写入的特性,用户间的读写操作可能会占用相同的通道,因而在某一用户进行访问时需阻塞其他用户的访问,对于被阻塞的用户来讲,同样引入了急剧增加的延迟。
目前业界对于延迟的解决方案包括:从提高垃圾回收效率方面、优化传统调度器和优化传统缓存管理算法。垃圾回收方面,现有研究从动态确定空闲页比率阈值、减小垃圾回收的阻塞单位和建立可中断的垃圾回收算法方面提高垃圾回收的效率,但都无法完全实现无垃圾回收时的性能。基于主机端与固态硬盘之间相对独立的性质,主机端无法知晓固态硬盘何时处于垃圾回收状态,因而还是无法完全消除垃圾回收操作带来的尾延迟。调度策略方面,现有研究倾向于为固态硬盘的并行度改进与设计调度算法,包括为并行单元单独创建请求队列和创建请求过滤器等方式。缓存管理方面,现有研究大部分集中于对传统LRU(Least recently used,最近最少使用)替换算法的改进,减少缓存替换次数,提高缓存命中率。
发明内容
针对闪存垃圾回收引起的NVMe性能抖动问题,本发明提供一种面向NVMe的IO确定性优化策略方法,通过基于集合和窗口划分进行优化,能够降低I/O请求的性能抖动等,从而提高垃圾回收效率并进一步延长固态硬盘寿命。
本发明的技术解决方案如下:
一种面向NVMe的IO确定性优化策略方法,其特征在于,包括以下步骤:步骤A,通过对NVMe存储单元集合划分实现不同集合之间相互独立,以便在不同集合之间并行的进行读、写和垃圾回收操作;步骤B,面向划分集合后的NVMe,提出新的I/O请求调度算法,避免发生垃圾回收与I/O请求访问冲突;步骤C,设计新的缓存管理算法感知NVMe集合垃圾回收操作,最大限度的避免垃圾回收操作与I/O请求访问冲突的可能,降低I/O请求的性能抖动。
所述步骤A中还包括利用NVMe自身存在若干并行单元,将并行单元进行划分得到相互独立的Set组,确保Set组之间的相互并行;划分后的Set将拥有两种不同的时间窗口:一是完全不进行垃圾回收和磨损平衡操作的确定延迟窗口,即DTWIN;二是为了维护Set性能而进行上述操作的非确定窗口,即NDWIN;确定延迟窗口可以保证窗口内没有任何控制器操作而导致的I/O阻塞;非确定窗口则会因为进行阻塞I/O的一系列操作而不能保证请求的低延迟处理;为分割而开的Set组赋予属性,存储处于窗口内的时间,为属性设定阈值,设定超过阈值为触发器,触发窗口切换。
所述步骤B中还包括主机端将请求发送给pblk,经过集合特征判断后,由调度算法对请求队列进行调度,将操作处于确定延迟窗口的请求直接派遣,将操作处于非确定延迟窗口的请求进行延迟调度。
所述步骤C中新的缓存管理算法具有如下两个功能:一是基于Set对缓存空间进行划分成缓存块,将缓存块与集合建立关联;二是管理算法Set的pblk感知其时间窗口,当感知到相应集合处在非确定性时间窗口内,即该集合可能正在进行垃圾回收操作,则暂时避免将该数据替换出缓存。
所述优化策略方法包括以下环节:环节a,基于LightNVM设备划分拥有不同并行单元 LUN的pblk对象,即集合,并为不同的集合划分不同的时间窗口;环节b,pblk***加载调度器,调度文件***的I/O请求;环节c,pblk***加载缓存管理。
所述环节a包括采用以下步骤为pblk创建窗口的配置和基于时间对窗口切换进行控制:a1)pblk对象,即集合,初始化时分配三个窗口时间阈值,包括处于确定延迟窗口内的最小时间DTWIN_MIN、处于确定延迟窗口的最大时间DTWIN_MAX和处于非确定延迟窗口的最大时间NDWIN_MAX;a2)集合创建后默认处于确定延迟窗口并开始记录时间;a3)当该集合处于DTWIN时,垃圾回收线程将会进行窗口切换的判断;a4)判断时间、错误率、可用块等信息后垃圾回收线程会进行由DTWIN到NDWIN的切换;a5)当该集合处于NDWIN时,垃圾回收线程同样会进行窗口切换的判断;a6)判断时间、可用块等信息后pblk会进行由 NDWIN到DTWIN的切换;a7)重复上述a3-a6。
所述环节a包括采用以下方式对时间进行判断:当集合处于DTWIN时,垃圾回收进程在将集合切换至NDWIN时会将当前集合所处窗口的时间与时间阈值进行比较;当集合处于 DTWIN的时间小于等于DTWIN_MIN时完全不进行窗口切换,即不开始垃圾回收操作;当集合处于DTWIN的时间大于DTWIN_MIN小于等于DTWIN_MAX时,使用读取错误率和可用块限制进行窗口切换的判断;当集合处于DTWIN的时间大于DTWIN_MAX,强制进行DTWIN到NDWIN 的窗口切换;当集合处于NDWIN的时间小于等于NDWIN_MAX时,使用原有的,结束垃圾回收操作的判断进行切换判断;当集合处于NDWIN的时间大于NDWIN_MAX时,强制将集合的时间窗口切换至DTWIN。
所述环节b包括采用以下步骤的调度算法:b1)替换原有pblk的入口函数;b2)通用块层调用入口函数传入bio;b3)调度器获取所属集合的窗口属性;b4)当窗口处于确定时间窗口时,使用原有派遣逻辑进行派遣,当窗口处于非确定延迟窗口时,调用通用块层的generic_make_rq()通知通用块层调度吓一条请求;b5)当新bio到达通用块层时循环上述b2-b4;b1是pblk模块初始化时进行的步骤,b2-b4是pblk运行过程中持续的循环过程。
所述环节c包括采用以下步骤的缓存管理算法:c1)环形缓存初始化,根据LUN数量确定缓存大小,初始化缓存入口地址,和数据写入、冲刷指针;c2)当写入请求写入环形缓存后,对集合所处窗口进行判断;c3)当集合处于确定时间窗口时,缓存正常进行写线程的唤醒工作,对缓存内数据进行冲刷,当集合处于非确定时间窗口时,暂停对写线程的唤醒,避免垃圾回收线程对写线程的调用。
本发明的技术效果是:本发明提出了基于LightNVM的集合划分、时间窗口实现、I/O 调度器以及缓存管理算法。本发明与现有技术相比,其主要优点是:1、提出了pblk(Physical Block Device)的时间窗口实现:在已经实现的多pblk对象配置基础上,加入了时间窗口的概念,实现了pblk对象之间并行的窗口配置和切换,并为查询pblk所处窗口提供了***接口。2、改进的调度算法:传统的调度算法一般基于固态硬盘整体并行度进行设计,但是在固态硬盘容量以及并行度持续增加的背景下,传统调度算法已经无法满足对集合划分以及进行窗口配置后的固态硬盘的I/O请求进行调度的要求。本发明中提出的改进的调度算法满足了这一要求,可以根据固态硬盘的集合划分以及窗口进行调度,减小I/O请求的尾延迟。3、改进的缓存管理算法:本发明提出的缓存管理算法,在现有缓存管理算法的命中率优势上,基于集合和窗口划分进行优化,提高垃圾回收效率并进一步延长固态硬盘寿命。
本发明和传统固态硬盘优化算法的区别在于:(1)减少尾延迟的思路不同:传统的减少请求平均延迟以及尾延迟的解决方案主要集中于优化垃圾回收算法以及减少请求之间的干扰方面,包括缩小垃圾回收阻塞单位、使垃圾回收过程可中断、过滤请求减少串扰等。我们采取了划分集合的方法,分隔开不同用户操作的空间,尽可能减少用户间串扰的发生,采取划分时间窗口的方法,实现I/O延迟的确定性,通过不进行影响性能的垃圾回收操作以尽可能降低DTWIN内的请求延迟。(2)调度器的优化思路不同:传统调度器没有考虑集合划分的问题,我们在考虑了上述因素后提出了改进的调度器。(3)缓存管理算法优化思路不同:传统缓存管理算法集中于提升命中率,减小对固态硬盘块的读写次数,同样没有考虑集合以及窗口的配置,我们在考虑了上述因素后提出了将缓存与集合进行结合的改进方法。
附图说明
图1是本发明的整体结构图。
图2是确定延迟窗口切换到非确定延迟窗口的判断算法。
图3是非确定延迟窗口切换到确定延迟窗口的判断算法。
图4是调度器的结构示意图。
图5是pblk的缓存管理以及判断窗口进行唤醒的示意图。
图中所有字符标记的中文概念列示如下:pblk-开放通道的基于主机端的FTL实现;Req- 操作***通用块层下发的请求;Set-文中的集合概念;DTWIN_MIN-处于确定时间窗口的最短时间;DTWIN_MAX-处于确定时间窗口的最大时间;App-应用层程序;pblk_gc_ts-pblk 的垃圾回收线程;pblk_write_ts-pblk的写线程;pblk_cach-pblk的缓存;NDWIN-非确定时间窗口;generic_make_rq-通用块层的bio下发接口。
具体实施方式
以下结合附图(图1-图5)和实施例对本发明进行说明。
参考图1至图5,一种面向NVMe的IO确定性优化策略方法,包括以下步骤:步骤A,通过对NVMe存储单元集合划分实现不同集合之间相互独立,以便在不同集合之间并行的进行读、写和垃圾回收操作;步骤B,面向划分集合后的NVMe,提出新的I/O请求调度算法,避免发生垃圾回收与I/O请求访问冲突;步骤C,设计新的缓存管理算法感知NVMe集合垃圾回收操作,最大限度的避免垃圾回收操作与I/O请求访问冲突的可能,降低I/O请求的性能抖动。所述步骤A中还包括利用NVMe自身存在若干并行单元,将并行单元进行划分得到相互独立的Set组,确保Set组之间的相互并行;划分后的Set将拥有两种不同的时间窗口:一是完全不进行垃圾回收和磨损平衡操作的确定延迟窗口,即DTWIN;二是为了维护 Set性能而进行上述操作的非确定窗口,即NDWIN;确定延迟窗口可以保证窗口内没有任何控制器操作而导致的I/O阻塞;非确定窗口则会因为进行阻塞I/O的一系列操作而不能保证请求的低延迟处理;为分割而开的Set组赋予属性,存储处于窗口内的时间,为属性设定阈值,设定超过阈值为触发器,触发窗口切换。所述步骤B中还包括主机端将请求发送给pblk,经过集合特征判断后,由调度算法对请求队列进行调度,将操作处于确定延迟窗口的请求直接派遣,将操作处于非确定延迟窗口的请求进行延迟调度。所述步骤C中新的缓存管理算法具有如下两个功能:一是基于Set对缓存空间进行划分成缓存块,将缓存块与集合建立关联;二是管理算法Set的pblk感知其时间窗口,当感知到相应集合处在非确定性时间窗口内,即该集合可能正在进行垃圾回收操作,则暂时避免将该数据替换出缓存。
所述优化策略方法包括以下环节:环节a,基于LightNVM设备划分拥有不同并行单元 LUN的pblk对象,即集合,并为不同的集合划分不同的时间窗口;环节b,pblk***加载调度器,调度文件***的I/O请求;环节c,pblk***加载缓存管理。所述环节a包括采用以下步骤为pblk创建窗口的配置和基于时间对窗口切换进行控制:a1)pblk对象,即集合,初始化时分配三个窗口时间阈值,包括处于确定延迟窗口内的最小时间DTWIN_MIN、处于确定延迟窗口的最大时间DTWIN_MAX和处于非确定延迟窗口的最大时间NDWIN_MAX;a2) 集合创建后默认处于确定延迟窗口并开始记录时间;a3)当该集合处于DTWIN时,垃圾回收线程将会进行窗口切换的判断;a4)判断时间、错误率、可用块等信息后垃圾回收线程会进行由DTWIN到NDWIN的切换;a5)当该集合处于NDWIN时,垃圾回收线程同样会进行窗口切换的判断;a6)判断时间、可用块等信息后pblk会进行由NDWIN到DTWIN的切换; a7)重复上述a3-a6。所述环节a包括采用以下方式对时间进行判断:当集合处于DTWIN时,垃圾回收进程在将集合切换至NDWIN时会将当前集合所处窗口的时间与时间阈值进行比较;当集合处于DTWIN的时间小于等于DTWIN_MIN时完全不进行窗口切换,即不开始垃圾回收操作;当集合处于DTWIN的时间大于DTWIN_MIN小于等于DTWIN_MAX时,使用读取错误率和可用块限制进行窗口切换的判断;当集合处于DTWIN的时间大于DTWIN_MAX,强制进行 DTWIN到NDWIN的窗口切换;当集合处于NDWIN的时间小于等于NDWIN_MAX时,使用原有的,结束垃圾回收操作的判断进行切换判断;当集合处于NDWIN的时间大于NDWIN_MAX时,强制将集合的时间窗口切换至DTWIN。所述环节b包括采用以下步骤的调度算法:b1)替换原有pblk的入口函数;b2)通用块层调用入口函数传入bio;b3)调度器获取所属集合的窗口属性;b4)当窗口处于确定时间窗口时,使用原有派遣逻辑进行派遣,当窗口处于非确定延迟窗口时,调用通用块层的generic_make_rq()通知通用块层调度吓一条请求;b5)当新bio到达通用块层时循环上述b2-b4;b1是pblk模块初始化时进行的步骤,b2-b4是pblk 运行过程中持续的循环过程。所述环节c包括采用以下步骤的缓存管理算法:c1)环形缓存初始化,根据LUN数量确定缓存大小,初始化缓存入口地址,和数据写入、冲刷指针; c2)当写入请求写入环形缓存后,对集合所处窗口进行判断;c3)当集合处于确定时间窗口时,缓存正常进行写线程的唤醒工作,对缓存内数据进行冲刷,当集合处于非确定时间窗口时,暂停对写线程的唤醒,避免垃圾回收线程对写线程的调用。
本文将采用基于Open Channel SSD的LightNVM模拟器搭建,Open Channel SSD的主要特点是将NVMe的控制器部分移交给主机端,也就是说将数据布局和垃圾回收、磨损平衡等算法交给主机端进行处理。该设计方式的最大优势在于,主机端可以实时明确的知晓固态硬盘内部各处的状态,有助于打通主机端与NVMe之间的隔离,可以达到可预测延迟的效果,方案设计整体架构如图1所示。
1、面向I/O确定性的NVMe集合划分优化策略
NVMe的集合划分是本文的一个基础性步骤。NVMe自身存在若干并行单元,将并行单元进行划分可以得到相互独立的Set组。划分后的Set将拥有两种不同的时间窗口:一是完全不进行垃圾回收和磨损平衡操作的确定延迟窗口,即DTWIN;二是为了维护Set性能而进行上述操作的非确定窗口,即NDWIN。因为Set保有NVMe的并行单元,因此可以确保Set之间的相互并行。确定延迟窗口可以保证窗口内没有任何控制器操作而导致的I/O阻塞;非确定窗口则会因为进行阻塞I/O的一系列操作而不能保证请求的低延迟处理。除此之外,为分割而开的Set组赋予属性,存储处于窗口内的时间,为属性设定阈值,设定超过阈值为触发器,触发窗口切换。
本文采用在Ubuntu主机上安装qemu虚拟机的qemu-nvme分支,用于支持NVMe设备,在其上安装虚拟机***,并模拟一块具有多个并行单元的OCSSD设备。并且为了使虚拟机子***支持LightNVM以及pblk,并对子***的内核进行了替换,使用Open Channel SSD 官方提供的内核进行编译安装。
对于研究点一的具体方案设计是:将整块NVMe划分为多个逻辑单元集合,以实现不同集合之间相互独立,在不同集合可以并行的进行读、写和垃圾回收等操作。在此基础上,将集合进行标签化,即为集合赋予确定性和非确定性时间窗口。处在确定性时间窗口的集合一定不会发生垃圾回收操作,即保证了此时的集合不会发生垃圾回收与I/O请求访问冲突;处在非确定性时间窗口的集合在有可能发生垃圾回收等会带来I/O请求响应延迟的操作。由LightNVM的基于host端的控制器pblk为NVMe容量划分Set并管理Set的各种属性以及窗口切换。
在步骤二的具体实现内容中,修改pblk内部代码,引入了时间窗口这一概念。在pblk 原有的判断是否进入垃圾回收进程的基础上,加入了对经过时间的判断。如图2与图3所示,是步骤二中关于窗口切换的伪代码。包括步骤如下:
步骤2.1:pblk对象,即集合,初始化时分配三个窗口时间阈值,包括处于确定延迟窗口内的最小时间(DTWIN_MIN)、处于确定延迟窗口的最大时间(DTWIN_MAX)和处于非确定延迟窗口的最大时间(NDWIN_MAX);
步骤2.2:集合创建后默认处于确定延迟窗口并开始记录时间;
步骤2.3:当该集合处于DTWIN时,垃圾回收线程将会进行窗口切换的判断;
步骤2.4:判断时间、错误率、可用块等信息后垃圾回收线程会进行由DTWIN到NDWIN 的切换;
步骤2.5:当该集合处于NDWIN时,垃圾回收线程同样会进行窗口切换的判断;
步骤2.6:判断时间、可用块等信息后pblk会进行由NDWIN到DTWIN的切换;
步骤2.7:重复上述2.3-2.6步骤。
2、面向NVMe性能抖动的I/O调度算法
本文中实现的调度算法替换了原有入口函数,的因为采用了将调度算法写进pblk的方法,新构建的调度算法可以很轻松的获取当前pblk实例的各种信息,包括当前pblk实例所处的时间窗口、pblk内存储的闪存转换信息、时间窗口阈值等等。
在原有的pblk结构体基础上,优化策略增加了用于标识当前pblk实例拥有的调度算法结构体,并在实例初始化时对调度算法结构体进行初始化,其初始化步骤与pblk的其余工作结构体类似。为了保证与原有代码的兼容性,采取替换pblk入口函数的办法,将原有的 pblk入口函数pblk_make_rq()替换为调度算法的pblk_sche_make_rq()。为了更好的进行请求的调度,在上文中提到的调度算法中编写了具体的调度算法,遍历调用上述入口函数***到请求队列的请求,根据调度器所属的pblk实例的窗口状态,针对性的对请求进行调度。当pblk实例处于DTWIN时,调度算法的入口函数会先进行窗口判断,而后对读、写请求进行派遣,将请求交由NVMe设备进行响应;当pblk实例处于NDWIN时,算法会将请求退回通用块层,通知上层调度属于设备的队列里的下一条bio,以达到比原有设计更加优越的IOPS与响应延迟性能。
具体步骤如下:
步骤3.1:替换原有pblk的入口函数;
步骤3.2:通用块层调用入口函数传入bio;
步骤3.3:调度器获取所属集合的窗口属性;
步骤3.4:当窗口处于确定时间窗口时,使用原有派遣逻辑进行派遣。当窗口处于非确定延迟窗口时,调用通用块层的generic_make_rq()通知通用块层调度吓一条请求;
步骤3.5:当新bio到达通用块层时循环上述3.2-3.4步骤。
步骤3.1是pblk模块初始化时进行的步骤,步骤3.2-3.4是pblk运行过程中持续的循环过程。
3、面向I/O性能抖动的NVMe缓存管理算法
该管理算法具有如下两个功能。一是基于Set对缓存空间进行划分成缓存块,将缓存块与集合建立关联。二是管理算法Set的pblk感知其时间窗口,当感知到相应集合处在非确定性时间窗口内,即该集合可能正在进行垃圾回收操作,则暂时避免将该数据替换出缓存。
pblk代码中对于读取和写入的实现是使用两个单独的线程,读取线程可以直接向下调用 NVM驱动部分进行访问,写入线程不能直接获取经过pblk入口函数进入的bio数据,而是需要通过环形缓存以生产者消费者模型进行数据存入。在需要写入线程进行写入时,程序可以调用pblk_write_kick()对pblk的写线程进行强制唤醒,唤醒后的写线程会根据需要对环形缓存内的数据进行冲刷,即向下调用NVMe驱动将环形缓存的内容写入固态硬盘存储空间内。本文中所具体更改的就是数据***环形缓存时唤醒写线程进行数据换出的逻辑,当缓存检测到当前pblk实例处于NDWIN时,将避免唤醒写线程对用户数据进行写入闪存的操作。如图5所示,当一个写请求被传入pblk时,pblk的缓冲在进行完数据***后对pblk实例所处窗口进行查询,当垃圾回收线程在正在占用缓存区域以及写线程时,避免对cache对写线程的唤醒,减少写入流程对垃圾回收过程的影响。因为在pblk的设计中,写线程是环形缓存的一个单独的消费者,pblk的垃圾回收线程同样使用环形缓存进行数据的暂存操作,所以当用户数据***环形缓存时进行窗口判断可以在最大程度上减少用户唤醒写线程对垃圾回收唤醒写线程的影响,提高垃圾回收的效率,减少垃圾回收的时间,即减少固态硬盘运行过程中处于NDWIN的时间,提高整体延迟和IOPS性能。
具体步骤是:
步骤4.1:环形缓存初始化,根据LUN数量确定缓存大小,初始化缓存入口地址,和数据写入、冲刷指针;
步骤4.2:当写入请求写入环形缓存后,对集合所处窗口进行判断;
步骤4.3:当集合处于确定时间窗口时,缓存正常进行写线程的唤醒工作,对缓存内数据进行冲刷,当集合处于非确定时间窗口时,暂停对写线程的唤醒,避免垃圾回收线程对写线程的调用。
针对闪存垃圾回收引起的NVMe性能抖动问题,本发明将从如下三个层面开展闪存垃圾回收操作与I/O请求访问冲突解决方案的研究工作。通过合理地NVMe存储单元集合划分,实现不同集合之间相互独立,在不同集合并行的进行读、写和垃圾回收操作;面向划分集合后的NVMe,提出新的I/O请求调度算法,避免发生垃圾回收与I/O请求访问冲突;设计新的缓存管理算法感知NVMe集合垃圾回收操作,最大限度的避免垃圾回收操作与I/O 请求访问冲突的可能,降低I/O请求的性能抖动。
本发明的技术方案是:首先,通过合理地NVMe存储单元集合划分,实现不同集合之间相互独立,不同集合间可以并行的进行读、写和垃圾回收操作。NVMe自身存在若干并行单元,将并行单元进行划分可以得到相互独立的Set组。划分后的Set将拥有两种不同的时间窗口:一是完全不进行垃圾回收和磨损平衡操作的确定延迟窗口,即DTWIN;二是为了维护Set性能而进行上述操作的非确定窗口,即NDWIN。因为Set保有NVMe的并行单元,因此可以确保Set之间的相互并行。确定延迟窗口可以保证窗口内没有任何控制器操作而导致的I/O阻塞;非确定窗口则会因为进行阻塞I/O的一系列操作而不能保证请求的低延迟处理。除此之外,为分割而开的Set组赋予属性,存储处于窗口内的时间,为属性设定阈值,设定超过阈值为触发器,触发窗口切换。其次,面向划分集合后的NVMe,提出新的I/O请求调度算法,避免发生垃圾回收与I/O请求访问冲突。主机端将请求发送给pblk,经过集合特征判断后,由调度算法对请求队列进行调度,将操作处于确定延迟窗口的请求直接派遣,将操作处于非确定延迟窗口的请求进行延迟调度。最后,设计新的缓存管理算法感知NVMe集合垃圾回收操作,最大限度的避免垃圾回收操作与I/O请求访问冲突的可能,降低I/O请求的性能抖动。该管理算法具有如下两个功能。一是基于Set对缓存空间进行划分成缓存块,将缓存块与集合建立关联。二是管理算法Set的pblk感知其时间窗口,当感知到相应集合处在非确定性时间窗口内,即该集合可能正在进行垃圾回收操作,则暂时避免将该数据替换出缓存。
主要包括以下研究点:研究点1:基于LightNVM设备划分拥有不同并行单元LUN的pblk对象,即集合,并为不同的集合划分不同的时间窗口;研究点2:pblk***加载调度器,调度文件***的I/O请求;研究点3:pblk***加载缓存管理。其中,研究点1包括为pblk 创建窗口的配置和基于时间对窗口切换进行控制,具体判断如下:步骤1:pblk对象,即集合,初始化时分配三个窗口时间阈值,包括处于确定延迟窗口内的最小时间(DTWIN_MIN)、处于确定延迟窗口的最大时间(DTWIN_MAX)和处于非确定延迟窗口的最大时间 (NDWIN_MAX);步骤2:集合创建后默认处于确定延迟窗口并开始记录时间;步骤3:当该集合处于DTWIN时,垃圾回收线程将会进行窗口切换的判断;步骤4:判断时间、错误率、可用块等信息后垃圾回收线程会进行由DTWIN到NDWIN的切换;步骤5:当该集合处于NDWIN时,垃圾回收线程同样会进行窗口切换的判断;步骤6:判断时间、可用块等信息后pblk会进行由NDWIN到DTWIN的切换;步骤2.7:重复上述2.3-2.6步骤。
研究点1中对时间的具体判断如下:当集合处于DTWIN时,垃圾回收进程在将集合切换至NDWIN时会将当前集合所处窗口的时间与时间阈值进行比较。当处于DTWIN的时间小于等于DTWIN_MIN时完全不进行窗口切换,即不开始垃圾回收操作;当处于DTWIN 的时间大于DTWIN_MIN小于等于DTWIN_MAX时,使用读取错误率和可用块限制进行窗口切换的判断;当处于DTWIN的时间大于DTWIN_MAX,强制进行DTWIN到NDWIN 的窗口切换。当集合处于NDWIN的时间小于等于NDWIN_MAX时,使用原有的,结束垃圾回收操作的判断进行切换判断,当处于NDWIN的时间大于NDWIN_MAX时,强制将集合的时间窗口切换至DTWIN。
研究点2中调度的算法为:步骤2.1:替换原有pblk的入口函数;步骤2.2:通用块层调用入口函数传入bio;步骤2.3:调度器获取所属集合的窗口属性;步骤2.4:当窗口处于确定时间窗口时,使用原有派遣逻辑进行派遣。当窗口处于非确定延迟窗口时,调用通用块层的generic_make_rq()通知通用块层调度吓一条请求;步骤2.5:当新bio到达通用块层时循环上述2.2-2.4步骤。步骤2.1是pblk模块初始化时进行的步骤,步骤2.2-2.4是pblk 运行过程中持续的循环过程。
研究点3中的缓存管理算法为:步骤3.1:环形缓存初始化,根据LUN数量确定缓存大小,初始化缓存入口地址,和数据写入、冲刷指针;步骤3.2:当写入请求写入环形缓存后,对集合所处窗口进行判断;步骤3.3:当集合处于确定时间窗口时,缓存正常进行写线程的唤醒工作,对缓存内数据进行冲刷,当集合处于非确定时间窗口时,暂停对写线程的唤醒,避免垃圾回收线程对写线程的调用。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。在此指明,以上叙述有助于本领域技术人员理解本发明创造,但并非限制本发明创造的保护范围。任何没有脱离本发明创造实质内容的对以上叙述的等同替换、修饰改进和/或删繁从简而进行的实施,均落入本发明创造的保护范围。

Claims (9)

1.一种面向NVMe的IO确定性优化策略方法,其特征在于,包括以下步骤:步骤A,通过对NVMe存储单元集合划分实现不同集合之间相互独立,以便在不同集合之间并行的进行读、写和垃圾回收操作;步骤B,面向划分集合后的NVMe,提出新的I/O请求调度算法,避免发生垃圾回收与I/O请求访问冲突;步骤C,设计新的缓存管理算法感知NVMe集合垃圾回收操作,最大限度的避免垃圾回收操作与I/O请求访问冲突的可能,降低I/O请求的性能抖动。
2.根据权利要求1所述的面向NVMe的IO确定性优化策略方法,其特征在于,所述步骤A中还包括利用NVMe自身存在若干并行单元,将并行单元进行划分得到相互独立的Set组,确保Set组之间的相互并行;划分后的Set将拥有两种不同的时间窗口:一是完全不进行垃圾回收和磨损平衡操作的确定延迟窗口,即DTWIN;二是为了维护Set性能而进行上述操作的非确定窗口,即NDWIN;确定延迟窗口可以保证窗口内没有任何控制器操作而导致的I/O阻塞;非确定窗口则会因为进行阻塞I/O的一系列操作而不能保证请求的低延迟处理;为分割而开的Set组赋予属性,存储处于窗口内的时间,为属性设定阈值,设定超过阈值为触发器,触发窗口切换。
3.根据权利要求1所述的面向NVMe的IO确定性优化策略方法,其特征在于,所述步骤B中还包括主机端将请求发送给pblk,经过集合特征判断后,由调度算法对请求队列进行调度,将操作处于确定延迟窗口的请求直接派遣,将操作处于非确定延迟窗口的请求进行延迟调度。
4.根据权利要求1所述的面向NVMe的IO确定性优化策略方法,其特征在于,所述步骤C中新的缓存管理算法具有如下两个功能:一是基于Set对缓存空间进行划分成缓存块,将缓存块与集合建立关联;二是管理算法Set的pblk感知其时间窗口,当感知到相应集合处在非确定性时间窗口内,即该集合可能正在进行垃圾回收操作,则暂时避免将该数据替换出缓存。
5.根据权利要求1所述的面向NVMe的IO确定性优化策略方法,其特征在于,所述优化策略方法包括以下环节:环节a,基于LightNVM设备划分拥有不同并行单元LUN的pblk对象,即集合,并为不同的集合划分不同的时间窗口;环节b,pblk***加载调度器,调度文件***的I/O请求;环节c,pblk***加载缓存管理。
6.根据权利要求5所述的面向NVMe的IO确定性优化策略方法,其特征在于,所述环节a包括采用以下步骤为pblk创建窗口的配置和基于时间对窗口切换进行控制:a1)pblk对象,即集合,初始化时分配三个窗口时间阈值,包括处于确定延迟窗口内的最小时间DTWIN_MIN、处于确定延迟窗口的最大时间DTWIN_MAX和处于非确定延迟窗口的最大时间NDWIN_MAX;a2)集合创建后默认处于确定延迟窗口并开始记录时间;a3)当该集合处于DTWIN时,垃圾回收线程将会进行窗口切换的判断;a4)判断时间、错误率、可用块等信息后垃圾回收线程会进行由DTWIN到NDWIN的切换;a5)当该集合处于NDWIN时,垃圾回收线程同样会进行窗口切换的判断;a6)判断时间、可用块等信息后pblk会进行由NDWIN到DTWIN的切换;a7)重复上述a3-a6。
7.根据权利要求5所述的面向NVMe的IO确定性优化策略方法,其特征在于,所述环节a包括采用以下方式对时间进行判断:当集合处于DTWIN时,垃圾回收进程在将集合切换至NDWIN时会将当前集合所处窗口的时间与时间阈值进行比较;当集合处于DTWIN的时间小于等于DTWIN_MIN时完全不进行窗口切换,即不开始垃圾回收操作;当集合处于DTWIN的时间大于DTWIN_MIN小于等于DTWIN_MAX时,使用读取错误率和可用块限制进行窗口切换的判断;当集合处于DTWIN的时间大于DTWIN_MAX,强制进行DTWIN到NDWIN的窗口切换;当集合处于NDWIN的时间小于等于NDWIN_MAX时,使用原有的,结束垃圾回收操作的判断进行切换判断;当集合处于NDWIN的时间大于NDWIN_MAX时,强制将集合的时间窗口切换至DTWIN。
8.根据权利要求5所述的面向NVMe的IO确定性优化策略方法,其特征在于,所述环节b包括采用以下步骤的调度算法:b1)替换原有pblk的入口函数;b2)通用块层调用入口函数传入bio;b3)调度器获取所属集合的窗口属性;b4)当窗口处于确定时间窗口时,使用原有派遣逻辑进行派遣,当窗口处于非确定延迟窗口时,调用通用块层的generic_make_rq()通知通用块层调度吓一条请求;b5)当新bio到达通用块层时循环上述b2-b4;b1是pblk模块初始化时进行的步骤,b2-b4是pblk运行过程中持续的循环过程。
9.根据权利要求5所述的面向NVMe的IO确定性优化策略方法,其特征在于,所述环节c包括采用以下步骤的缓存管理算法:c1)环形缓存初始化,根据LUN数量确定缓存大小,初始化缓存入口地址,和数据写入、冲刷指针;c2)当写入请求写入环形缓存后,对集合所处窗口进行判断;c3)当集合处于确定时间窗口时,缓存正常进行写线程的唤醒工作,对缓存内数据进行冲刷,当集合处于非确定时间窗口时,暂停对写线程的唤醒,避免垃圾回收线程对写线程的调用。
CN202011014697.XA 2020-09-24 2020-09-24 一种面向NVMe的IO确定性优化策略方法 Active CN112559381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011014697.XA CN112559381B (zh) 2020-09-24 2020-09-24 一种面向NVMe的IO确定性优化策略方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011014697.XA CN112559381B (zh) 2020-09-24 2020-09-24 一种面向NVMe的IO确定性优化策略方法

Publications (2)

Publication Number Publication Date
CN112559381A true CN112559381A (zh) 2021-03-26
CN112559381B CN112559381B (zh) 2022-10-11

Family

ID=75041144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011014697.XA Active CN112559381B (zh) 2020-09-24 2020-09-24 一种面向NVMe的IO确定性优化策略方法

Country Status (1)

Country Link
CN (1) CN112559381B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089320A (zh) * 2022-08-31 2023-05-09 荣耀终端有限公司 垃圾回收方法和相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019062231A1 (zh) * 2017-09-27 2019-04-04 北京忆恒创源科技有限公司 垃圾回收方法及其存储设备
CN109977032A (zh) * 2017-12-28 2019-07-05 北京忆恒创源科技有限公司 垃圾数据回收控制方法及其装置
CN111580754A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种写友好的闪存固态盘缓存管理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019062231A1 (zh) * 2017-09-27 2019-04-04 北京忆恒创源科技有限公司 垃圾回收方法及其存储设备
CN109977032A (zh) * 2017-12-28 2019-07-05 北京忆恒创源科技有限公司 垃圾数据回收控制方法及其装置
CN111580754A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种写友好的闪存固态盘缓存管理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MATIAS BJRLING 等: "LightNVM: The Linux Open-Channel SSD Subsystem", 《FILE AND STORAGE TECHNOLOGIES (FAST’17)AT: SANTA CLARA》 *
屠雪真等: "一种SSD存储***中的先应式垃圾回收算法", 《电信科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089320A (zh) * 2022-08-31 2023-05-09 荣耀终端有限公司 垃圾回收方法和相关装置
CN116089320B (zh) * 2022-08-31 2023-10-20 荣耀终端有限公司 垃圾回收方法和相关装置

Also Published As

Publication number Publication date
CN112559381B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
TWI704496B (zh) 電子機器、電腦系統及其等之控制方法
CN113508368B (zh) 存储器子***及其操作方法
KR101297563B1 (ko) 스토리지 관리 방법 및 관리 시스템
CN107885456B (zh) 减少io命令访问nvm的冲突
KR101498673B1 (ko) 반도체 드라이브, 그것의 데이터 저장 방법, 그리고 그것을포함한 컴퓨팅 시스템
CN103049397B (zh) 一种基于相变存储器的固态硬盘内部缓存管理方法及***
TWI475561B (zh) Memory system
US20130311707A1 (en) Storage control apparatus and storage control method
EP2413245A1 (en) Storage system provided with a plurality of flash packages
CN111694510B (zh) 数据储存装置与数据处理方法
US20150242310A1 (en) Data Accessing Method And Data Accessing Apparatus
CN103838676B (zh) 数据存储***、数据存储方法及pcm桥
CN105095116A (zh) 缓存替换的方法、缓存控制器和处理器
CN109471594B (zh) 一种mlc闪存读写方法
KR101835604B1 (ko) 메모리를 위한 스케줄러
US8914587B2 (en) Multi-threaded memory operation using block write interruption after a number or threshold of pages have been written in order to service another request
WO2016138785A1 (zh) 一种运行进程的方法及装置
US20120017052A1 (en) Information Handling System Universal Memory Wear Leveling System and Method
CN112559381B (zh) 一种面向NVMe的IO确定性优化策略方法
CN109783019B (zh) 一种数据智能存储管理方法与装置
CN116364148A (zh) 一种面向分布式全闪存储***的磨损均衡方法及***
CN107885667B (zh) 降低读命令处理延迟的方法与装置
Wu et al. Dualfs: A coordinative flash file system with flash block dual-mode switching
Hsieh et al. Multi-channel architecture-based FTL for reliable and high-performance SSD
CN108572924B (zh) 一种3d mlc闪存设备的请求处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant