KR102254501B1 - 부분 순서 보장 기반의 입출력 스케줄러 및 그 방법 - Google Patents

부분 순서 보장 기반의 입출력 스케줄러 및 그 방법 Download PDF

Info

Publication number
KR102254501B1
KR102254501B1 KR1020190015744A KR20190015744A KR102254501B1 KR 102254501 B1 KR102254501 B1 KR 102254501B1 KR 1020190015744 A KR1020190015744 A KR 1020190015744A KR 20190015744 A KR20190015744 A KR 20190015744A KR 102254501 B1 KR102254501 B1 KR 102254501B1
Authority
KR
South Korea
Prior art keywords
write request
order
input
barrier
guaranteed
Prior art date
Application number
KR1020190015744A
Other languages
English (en)
Other versions
KR20200044645A (ko
Inventor
원유집
정재민
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Publication of KR20200044645A publication Critical patent/KR20200044645A/ko
Application granted granted Critical
Publication of KR102254501B1 publication Critical patent/KR102254501B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0659Command handling arrangements, e.g. command buffers, queues, command scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 일 실시예에 따른 입출력 스케줄러가 부분적으로 입출력 순서가 보장되도록 입출력 요청을 스케줄링하는 방법은 입출력 순서 보장의 단위인 에포크(epoch)의 구성을 완료하는 배리어 기반 쓰기 요청을 스케줄링 큐에 입력받는 단계; 상기 스케줄링 큐에서 상기 입력받은 배리어 기반 쓰기 요청을 순서 보장 쓰기 요청으로 변경하는 단계; 및 상기 스케줄링 큐에 포함된 적어도 하나의 순서 보장 쓰기 요청을 디스패치 큐에게 전송하되, 마지막으로 전송되는 순서 보장 쓰기 요청을 상기 배리어 기반 쓰기 요청으로 변경하여 전송하는 단계를 포함한다.

Description

부분 순서 보장 기반의 입출력 스케줄러 및 그 방법{PARTIALLY ORDER PRESERVING I/O SCHEDULER AND METHOD THEREOF}
본 발명은 부분적으로 기록 순서를 보장하는 입출력 스케줄러 및 그 방법에 관한 것이다.
사용자가 파일에 데이터를 쓰면, 파일 시스템에 의해 블록 단위 입출력 요청으로 변환되어 입출력 스케줄러에게 전달된다. 입출력 스케줄러는 블록 디바이스마다 하나씩 존재하며, 블록 디바이스에 대한 입출력 요청들을 관리한다. 입출력 요청들을 효율적으로 처리하기 위해서 입출력 스케줄러는 입출력 요청들을 병합하고, 분리하고, 재정렬한다. 예를 들어, 연속된 블록에 대한 입출력 요청들은 병합하여 한번에 처리될 수 있도록 하고, 블록 번호 순으로 입출력 요청들을 정렬하여 저장장치가 효율적으로 입출력 요청을 처리할 수 있도록 돕는다.
기존 입출력 스케줄러가 입출력 요청들을 재정렬하는 이유는 하드 디스크(HDD)의 탐색 시간을 줄이기 위해서이다. 입출력 요청들이 블록 번호 순으로 정렬되어 전달되면 저장 장치는 효율적으로 디스크 헤드를 움직여 입출력 요청들을 처리할 수 있다. 하지만, 이러한 정렬은 사용자가 원하는 입출력 요청 처리 순서를 임의로 변경할 수 있다. 종래 기술은 사용자가 요청한 입출력 요청의 순서를 전혀 고려하지 않고 있다.
관련 선행기술로는 대한민국 공개특허공보 제10-2011-0019763호(발명의 명칭 : 파일 입출력 스케줄러)가 있다.
본 발명에서는 적어도 하나의 순서 보장 쓰기 요청으로 구성되는 에포크(epoch)라는 단위를 정의하여, 에포크 단위로 사용자가 요청한 입출력 요청의 순서를 보장하는 입출력 스케줄러 및 그 방법을 제공하고자 한다.
본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제(들)로 제한되지 않으며, 언급되지 않은 또 다른 과제(들)은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 입출력 스케줄러가 부분적으로 입출력 순서가 보장되도록 입출력 요청을 스케줄링하는 방법은 입출력 순서 보장의 단위인 에포크(epoch)의 구성을 완료하는 배리어 기반 쓰기 요청을 스케줄링 큐에 입력받는 단계; 상기 스케줄링 큐에서 상기 입력받은 배리어 기반 쓰기 요청을 순서 보장 쓰기 요청으로 변경하는 단계; 및 상기 스케줄링 큐에 포함된 적어도 하나의 순서 보장 쓰기 요청을 디스패치 큐에게 전송하되, 마지막으로 전송되는 순서 보장 쓰기 요청을 상기 배리어 기반 쓰기 요청으로 변경하여 전송하는 단계를 포함한다.
바람직하게는, 상기 스케줄링 큐에 입력받는 단계와 상기 순서 보장 쓰기 요청으로 변경하는 단계의 사이에, 상기 스케줄링 큐로 입력되는 입출력 요청을 차단하는 단계를 더 포함하고, 상기 배리어 기반 쓰기 요청으로 변경하여 전송하는 단계의 이후에, 상기 입출력 요청의 차단을 해제하는 단계를 더 포함할 수 있다.
바람직하게는, 상기 스케줄링 큐에 입력받는 단계의 이전에 상기 에포크를 구성하는 적어도 하나의 순서 보장 쓰기 요청 또는 순서 보장이 되지 않는 적어도 하나의 순서 없는 쓰기 요청을 상기 스케줄링 큐에 입력받는 단계를 더 포함하고, 상기 배리어 기반 쓰기 요청으로 변경하여 전송하는 단계는 상기 스케줄링 큐에 포함된 모든 쓰기 요청을 소정의 기준에 따른 순서로 상기 디스패치 큐에게 전송할 수 있다.
바람직하게는, 상기 배리어 기반 쓰기 요청으로 변경하여 전송하는 단계는 상기 스케줄링 큐에 입력되거나 또는 상기 스케줄링 큐로부터 출력되는 상기 순서 보장 쓰기 요청 및 상기 배리어 기반 쓰기 요청의 개수를 카운트하는 카운터를 이용하여, 전송되는 순서 보장 쓰기 요청이 마지막인지 판단할 수 있다.
바람직하게는, 상기 순서 보장 쓰기 요청은 상기 순서 없는 쓰기 요청에 순서보장에 대응되는 플래그를 설정한 요청이고, 상기 배리어 기반 쓰기 요청은 상기 순서 보장 쓰기 요청에 배리어에 대응되는 플래그를 설정한 요청일 수 있다.
또한, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 부분 순서 보장 기반 입출력 스케줄러는 입출력 순서 보장의 단위인 에포크(epoch)의 구성을 완료하는 배리어 기반 쓰기 요청을 스케줄링 큐에 입력받는 입력부; 상기 스케줄링 큐에서 상기 입력받은 배리어 기반 쓰기 요청을 순서 보장 쓰기 요청으로 변경하는 갱신부; 및 상기 스케줄링 큐에 포함된 적어도 하나의 순서 보장 쓰기 요청을 디스패치 큐에게 전송하되, 마지막으로 전송되는 순서 보장 쓰기 요청을 상기 배리어 기반 쓰기 요청으로 변경하여 전송하는 전송부를 포함한다.
바람직하게는, 상기 입력부가 상기 스케줄링 큐에 상기 배리어 기반 쓰기 요청을 입력받으면 상기 스케줄링 큐로 입력되는 입출력 요청을 차단하고, 상기 전송부가 상기 스케줄링 큐에 포함된 적어도 하나의 순서 보장 쓰기 요청의 전송을 완료하면 상기 입출력 요청의 차단을 해제하는 차단제어부를 더 포함할 수 있다.
바람직하게는, 상기 입력부는 상기 배리어 기반 쓰기 요청을 스케줄링 큐에 입력받기 이전에, 상기 에포크를 구성하는 적어도 하나의 순서 보장 쓰기 요청 또는 순서 보장이 되지 않는 적어도 하나의 순서 없는 쓰기 요청을 상기 스케줄링 큐에 더 입력받고, 상기 전송부는 상기 스케줄링 큐에 포함된 모든 쓰기 요청을 소정의 기준에 따른 순서로 상기 디스패치 큐에게 전송할 수 있다.
바람직하게는, 상기 스케줄링 큐에 입력되거나 또는 상기 스케줄링 큐로부터 출력되는 상기 순서 보장 쓰기 요청 및 상기 배리어 기반 쓰기 요청의 개수를 카운트하는 카운터를 더 포함하고, 상기 전송부는 상기 카운터를 이용하여, 전송되는 순서 보장 쓰기 요청이 마지막인지 판단할 수 있다.
바람직하게는, 상기 순서 보장 쓰기 요청은 상기 순서 없는 쓰기 요청에 순서보장에 대응되는 플래그를 설정한 요청이고, 상기 배리어 기반 쓰기 요청은 상기 순서 보장 쓰기 요청에 배리어에 대응되는 플래그를 설정한 요청일 수 있다.
본 발명은 에포크 단위로 사용자의 파일 입출력 요청의 순서를 유지하여 디스패치 큐에 전달함으로써, 스토리지에 전달되는 쓰기 요청의 순서를 부분적으로 보장하는 효과가 있다.
도 1은 종래의 기술에 따른 호스트와 스토리지 간의 데이터 입출력 과정을 설명하기 위한 도면이다.
도 2는 종래의 기술에 따른 EXT4 파일시스템의 동기화 명령인 fsync()의 동작 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 순서 보장 입출력 스택을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 부분 순서 보장 기반 입출력 스케줄링 방법의 흐름도이다.
도 5는 본 발명의 다른 실시예에 따른 부분 순서 보장 기반 입출력 스케줄링 방법의 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 부분 순서 보장 기반 입출력 스케줄러의 블록도이다.
도 7은 본 발명의 일 실시예에 따른 부분 순서 보장 기반 입출력 스케줄링을 설명하기 위한 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
도 1은 종래의 기술에 따른 호스트와 스토리지 간의 데이터 입출력 과정을 설명하기 위한 도면이다.
도 1을 참조하면, 호스트에서 운영되는 파일시스템은 IO 스케줄러 큐(IO scheduler queue)에 쓰기 요청(write request)를 입력한다. 그리고, 블록 디바이스 드라이버는 IO 스케줄러 큐로부터 하나 이상의 쓰기 요청을 제거하여, 이로부터 쓰기 명령(write command)를 구성한다. 그리고, 블록 디바이스 드라이버는 가능한 경우에 그 쓰기 명령을 스토리지 디바이스에게 전달한다. 이때, 스토리지 디바이스의 커맨드 큐(command queue)가 가득차 있지 않으면, 가능한 경우에 해당할 수 있다. 또한, 스토리지 컨트롤러(storage controller)는 커맨드 큐로부터 그 전달된 쓰기 명령을 제거하고, 호스트로부터 그 쓰기 명령에 관련 데이터를 수신하여 캐시에 저장한다. 수신이 완료되면, 스토리지는 호스트에 시그널을 전송한다. 한편, 캐시에 저장된 데이터는 주기적으로 또는 호스트로부터의 명시적인 요청에 의하여 스토리지 표면에 기록된다.
여기서, 쓰기 요청의 입력 순서(I), 쓰기 명령 전달 순서(D), 데이터 전송 순서(X) 및 데이터 기록 순서(P)를 고려할 때, 다음과 같은 순서 상의 불일치가 존재할 수 있다.
우선, I와 D가 불일치할 수 있다. 이는, IO 스케줄러가 쓰기 요청을 스케줄링 원칙에 따라 재배치(reorder)하거나 병합(coalescence)할 수 있기 때문이다.
또한, D와 X가 불일치할 수 있다. 이는, 스토리지 컨트롤러가 자유롭게 커맨드 큐의 쓰기 명령의 순서를 조정할 수 있기 때문이다.
또한, X와 P가 불일치할 수 있다. 이는, 스토리지의 캐시가 FIFO가 아니기 때문이다. 즉, 플래시 기반 스토리지에서, 데이터 기록 순서는 캐시에 기록된 순서가 아니라, 관련된 맵핑 테이블에 기록된 순서에 따라 결정될 수 있다.
이러한 다양한 순서 상의 불확실성 때문에, 현대의 IO 스택을 이용한 데이터 입출력 과정은 전 과정을 통해 순서가 지켜지기 어려운 것으로 인식되어 왔다.
도 2는 종래의 기술에 따른 EXT4 파일시스템의 동기화 명령인 fsync()의 동작 과정을 설명하기 위한 도면이다.
EXT4(extended file system 4)는 리눅스의 대표적인 저널링 파일 시스템으로, 기존 EXT3 파일 시스템의 향상된 버전이다. 저널링 파일 시스템은 파일 시스템에 변경사항을 반영(commit)하기 전에, 저널안에 생성되는 변경사항을 추적하여 기록하는 파일 시스템이다. 이를 통해, 시스템 충돌이나 전원 문제가 발생할 때 초래될 수 있는 시스템의 손상을 최소화할 수 있는 효과가 있다.
EXT4 파일 시스템에서는 기록 순서를 제어하기 위하여 fsync() 함수를 이용한다. Ordered모드(default)에서는 데이터 블록(D)이 저널 트랜잭션에 앞서 기록된다.
우선, 파일 시스템이 데이터 블록(D)에 대한 쓰기 요청을 입력한다. 이때, 데이터 블록(D)은 다른 파일들에 대한 복수의 블록일 수 있다. 그 후, 어플리케이션 쓰레드는 DMA 전송이 완료될 때까지 대기한다. 그리고, DMA 전송이 완료되면 그 어플리케이션 쓰레드는 JBD 쓰레드를 동작시켜 저널 트랜잭션을 반영하도록 한다. 그 후, 그 어플리케이션 쓰레드는 다시 슬립 상태로 진입하며, JBD 쓰레드가 저널 트랜잭션을 모두 기록한 후, 반환(return)한다.
보다 구체적으로, 저널 트랜잭션은 두개의 쓰기 요청을 통해 반영될 수 있다. 이는, 저널 디스크립터 블록 및 로그 블록(JD)과 커밋 블록(JC)이다. 또한, 저널 트랜잭션을 반영하는 과정에서, JBD 쓰레드는 단일 트랜잭션 내부에서, 그리고 트랜잭션들 간에서 그 기록 순서를 유지할 필요가 있다.
단일 트랜잭션 내부에서는, JBD 쓰레드가 JD를 JC보다 먼저 기록해야 할 필요가 있다. 즉, JBD 쓰레드는 JD가 JC보다 먼저 기록되도록, Transfer-and-Flush 기법을 이용할 수 있다. 이때, Transfer-and-Flush 기법은 JD에 관한 데이터가 DMA를 통해 전송(transfer)되고, 스토리지에 기록(flush)되는 동안 대기한 후, JC에 관한 데이터가 DMA를 통해 전송(transfer)되고, 스토리지에 기록(flush)되도록 함으로써, 그 기록 순서를 지키는 것이다.
또한, 트랜잭션들 간에는, JBD 쓰레드가 저널 트랜잭션의 요청 순서에 따라서 그 트랜잭션들이 기록되도록 해야 할 필요가 있다.
이처럼, EXT4 파일 시스템에서는 fsync()를 이용한 동기화 과정에서, 여러 차례의 컨텍스트 스위치가 발생하며, 데이터 전송과 기록에 따른 대기 시간이 요구되어 전송 오버헤드, 플러시 오버헤드가 필연적으로 발생하게 된다.
도 3은 본 발명의 일 실시예에 따른 순서 보장 입출력 스택을 설명하기 위한 도면이다.
본 발명의 일 실시예에 따른 순서 보장 입출력 스택은 순서 보장 블록 디바이스 레이어에서 새롭게 정의된 배리어 기반 쓰기 명령, 순서 보장 디스패치 모듈(order preserving dispatch module), 에포크 기반 IO 스케줄러(Epoch-based IO scheduler)로 구성될 수 있다. 이와 같은 구성들을 이용함으로써, Transfer-and-Flush 기법을 이용하지 않고도, 부분적으로 쓰기 요청에 대한 순서가 스토리지에까지 반영될 수 있다.
보다 구체적으로, 순서 보장 블록 디바이스 레이어는 쓰기 요청을 두 종류로 구분한다. 순서 보장 쓰기 요청과 순서 없는 쓰기 요청이 그것이다. 여기서, 순서 보장 쓰기 요청은 스토리지 기록 순서가 보장되도록 하기 위한 쓰기 요청이다.
또한, 순서 보장 쓰기 요청의 집합으로, 그 집합 내부에서는 기록 순서가 변경가능한 단위가 에포크이다. 또한, 순서 보장 쓰기 요청에 대응되는 순서 보장 쓰기 명령 중에서 특별한 하나의 타입이 배리어 기반 쓰기 명령이다. 즉, 배리어 기반 쓰기 명령은 에포크를 분류하기 위하여 이용되며, 그 전후의 순서 보장 쓰기 명령 간의 스토리지에서의 기록 순서가 보장된다.
이때, 순서 보장 쓰기 명령 및 배리어 기반 쓰기 명령에는 각각 새로운 속성인 REQ_ORDERED 및 REQ_BARRIER가 이용될 수 있다. 즉, 일반적인 순서 보장 쓰기 명령에는 REQ_ORDERED가 이용되고, 배리어 기반 쓰기 명령에는 REQ_ORDERED와 REQ_BARRIER가 함께 이용될 수 있다.
도 4는 본 발명의 일 실시예에 따른 부분 순서 보장 기반 입출력 스케줄링 방법의 흐름도이다.
단계 S410에서는, 입출력 스케줄러가 입출력 순서 보장의 단위인 에포크(epoch)의 구성을 완료하는 배리어 기반 쓰기 요청을 스케줄링 큐에 입력받는다.
즉, 입출력 스케줄러는 스케줄링 큐에 배리어 기반 쓰기 요청을 입력받으면, 에포크의 구성을 완료할 수 있다. 또한, 배리어 기반 쓰기 요청은 순서 보장 쓰기 요청의 한 종류이며, 에포크의 구성을 완료시키기 위한 목적으로 입력되는 쓰기 요청일 수 있다. 즉, 특정한 어플리케이션 또는 쓰레드가 순서를 보장받기 원하는 다수의 순서 보장 쓰기 요청을 입력할 때, 마지막 순서 보장 쓰기 요청을 배리어 기반 쓰기 요청으로 설정할 수 있다.
한편, 스케줄링 큐에는 순서 보장 쓰기 요청이 적어도 하나 포함되어 있거나 포함되지 않을 수 있다. 또한, 순서 없는 쓰기 요청이 적어도 하나 포함되어 있거나 포함되지 않을 수 있다.
이때, 순서 보장 쓰기 요청은 에포크에 포함될 수 있으나, 순서 없는 쓰기 요청은 에포크에 포함될 수 없다.
단계 S420에서는, 입출력 스케줄러가 스케줄링 큐에서 그 입력받은 배리어 기반 쓰기 요청을 순서 보장 쓰기 요청으로 변경한다.
즉, 입출력 스케줄러는 스케줄링 큐에 포함된 배리어 기반 쓰기 요청을 보통의 순서 보장 쓰기 요청으로 변경한다. 이는, 입출력 스케줄러가 스케줄링 큐에 포함된 쓰기 요청의 순서를 변경하거나, 병합하여 처리할 수 있기 때문이다. 다시 말하면, 스케줄링 큐에 포함된 쓰기 요청의 순서가 변경되거나, 다른 쓰기 요청과 병합되어 처리될 수 있으므로, 입력된 배리어 기반 쓰기 요청이 마지막으로 디스패치 큐에게 전송된다는 보장이 없기 때문이다.
마지막으로 단계 S430에서는, 입출력 스케줄러가 스케줄링 큐에 포함된 적어도 하나의 순서 보장 쓰기 요청을 디스패치 큐에게 전송하되, 마지막으로 전송되는 순서 보장 쓰기 요청을 배리어 기반 쓰기 요청으로 변경하여 전송한다.
예컨대, 입출력 스케줄러는 스케줄링 큐에 포함된 모든 순서 보장 쓰기 요청을 디스패치 큐에게 전송하여, 스토리지에 전달될도록 할 수 있다. 이때, 입출력 스케줄러는 마지막으로 전송되는 순서 보장 쓰기 요청을 배리어 기반 쓰기 요청으로 변경함으로써, 최종적으로 스토리지에서의 에포크에 포함된 적어도 하나의 순서 보장 쓰기 요청의 기록 순서가 보장되도록 할 수 있다.
결과적으로, 앞서 설명한 바와 같이, 본 발명의 입출력 스케줄러는 모든 순서 보장 쓰기 요청 단위로 기록 순서를 보장하지 않으며, 에포크 단위로만 기록 순서를 보장할 수 있다. 즉, 단일한 에포크에 포함된 적어도 하나의 순서 보장 쓰기 요청 간의 기록 순서는 변경될 수 있으나, 다른 에포크에 포함된 적어도 하나의 순서 보장 쓰기 요청과의 기록 순서는 보장될 수 있는 것이다.
한편, 변경된 배리어 기반 쓰기 요청은 SCSI 우선순위 중에서 ordered priority로 설정되어 디스패치 큐에 입력될 수 있다.
이와 같이, 본 발명의 일 실시예에 따른 부분 순서 보장 기반 입출력 스케줄링 방법은 에포크 단위로 사용자의 파일 입출력 요청들의 순서를 유지하여 디스패치 큐에 전달함으로써, 스토리지에 전달되는 쓰기 요청의 순서를 부분적으로 보장하는 효과가 있다.
도 5는 본 발명의 다른 실시예에 따른 부분 순서 보장 기반 입출력 스케줄링 방법의 흐름도이다.
단계 S510에서는, 입출력 스케줄러가 입출력 순서 보장의 단위인 에포크(epoch)의 구성을 완료하는 배리어 기반 쓰기 요청을 스케줄링 큐에 입력받는다.
단계 S520에서는, 입출력 스케줄러가 스케줄링 큐로 입력되는 입출력 요청을 차단한다.
즉, 입출력 스케줄러는 에포크 단위의 기록 순서 보장을 명확하게 하기 위하여 입출력 요청을 차단할 수 있다.
예컨대, 입출력 스케줄러가 입출력 요청을 차단하지 않는다면, 아래의 단계 S530 또는 S540의 도중에 새로운 순서 보장 쓰기 요청을 입력받은 경우, 에포크의 구성이 불명확해질 수 있다.
즉, 입출력 스케줄러는 스케줄링 큐에 포함된 쓰기 요청의 순서를 변경하거나, 병합하여 처리할 수 있기 때문에, 기존의 적어도 하나의 순서 보장 쓰기 요청과 새로운 순서 보장 쓰기 요청이 그 과정에서 뒤섞여 버릴 수 있는 것이다.
단계 S530에서는, 입출력 스케줄러가 스케줄링 큐에서 그 입력받은 배리어 기반 쓰기 요청을 순서 보장 쓰기 요청으로 변경한다.
단계 S540에서는, 입출력 스케줄러가 스케줄링 큐에 포함된 적어도 하나의 순서 보장 쓰기 요청을 디스패치 큐에게 전송하되, 마지막으로 전송되는 순서 보장 쓰기 요청을 배리어 기반 쓰기 요청으로 변경하여 전송한다.
마지막으로 단계 S550에서는, 입출력 스케줄러가 입출력 요청의 차단을 해제한다.
이때, 입출력 스케줄러는 단일 에포크에 대한 처리가 완료되었기 때문에, 입출력 요청의 차단을 해제하여 다시 스케줄링 큐에 입출력 요청을 입력받을 수 있다.
다른 실시예에서는, 입출력 스케줄러가 단계 S510의 이전에, 에포크를 구성하는 적어도 하나의 순서 보장 쓰기 요청 또는 순서 보장이 되지 않는 적어도 하나의 순서 없는 쓰기 요청을 스케줄링 큐에 입력받고, 단계 S540은 스케줄링 큐에 포함된 모든 쓰기 요청을 소정의 기준에 따른 순서로 디스패치 큐에게 전송할 수 있다.
즉, 입출력 스케줄러가 배리어 기반 쓰기 요청을 입력받는 시점에, 스케줄링 큐에는 이미 적어도 하나의 순서 보장 쓰기 요청 또는 적어도 하나의 순서 없는 쓰기 요청이 입력되어 있을 수 있다.
또한, 입출력 스케줄러는 단계 S540에서, 스케줄링 큐에 포함된 모든 쓰기 요청, 즉, 적어도 하나의 순서 보장 쓰기 요청과 (존재한다면) 적어도 하나의 순서 없는 쓰기 요청을 디스패치 큐에게 전송할 수 있다.
나아가, 입출력 스케줄러는 기보유한 스케줄링 규칙(scheduling discipline)에 따라, 쓰기 요청의 순서를 변경하거나, 여러 개의 쓰기 요청을 병합하여 처리할 수 있다.
또 다른 실시예에서는, 순서 보장 쓰기 요청은 순서 없는 쓰기 요청에 순서보장에 대응되는 플래그를 설정한 요청이고, 배리어 기반 쓰기 요청은 순서 보장 쓰기 요청에 배리어에 대응되는 플래그를 설정한 요청일 수 있다.
즉, 순서 없는 쓰기 요청, 순서 보장 쓰기 요청 및 배리어 기반 쓰기 요청은 플래그 설정에 따라 구분될 수 있다. 다시 말하면, 순서 없는 쓰기 요청에 순서보장 플래그를 설정하면 순서 보장 쓰기 요청이 되고, 순서 보장 쓰기 요청에 배리어 플래그를 설정하면 배리어 기반 쓰기 요청이 될 수 있다.
또 다른 실시예에서는, 입출력 스케줄러가 스케줄링 큐에 입력되거나 또는 스케줄링 큐로부터 출력되는 순서 보장 쓰기 요청 및 배리어 기반 쓰기 요청의 개수를 카운트하는 카운터를 이용하여, 전송되는 순서 보장 쓰기 요청이 마지막인지 판단할 수 있다.
즉, 입출력 스케줄러는 스케줄링 큐에서 입력 또는 출력되는 순서 보장 쓰기 요청 및 배리어 기반 쓰기 요청의 개수를 카운트하는 카운터를 포함하여, 스케줄링 큐에 남아있는 순서 보장 쓰기 요청의 개수를 카운트할 수 있다.
한편, 도 7을 참조하면, 사용자가 fsync()를 호출하여 3개의 순서 보장 쓰기 요청(W1, W2, W4)을 생성하고, pdflush 쓰레드가 역시 3개의 순서 없는 쓰기 요청(W3, W5, W6)을 생성하였다.
이때, W4는 REQ_ORDERED 플래그와 REQ_BARRIER 플래그를 모두 가지고 있어, 배리어 기반 쓰기 요청임을 알 수 있다. 즉, 사용자는 {W1, W2, W4}의 에포크를 구성하고자 하였으며, W4의 배리어 기반 쓰기 요청을 통해 에포크의 구성을 완료하였다.
이때, 생성된 쓰기 요청들은 W1, W2, W3, W5, W4, W6의 순서로 입출력 스케줄러의 스케줄링 큐에 입력된다. 그러나, W4는 배리어 기반 쓰기 요청이므로, 입출력 스케줄러가 W4를 스케줄링 큐에 입력받는 순간, 스케줄링 큐를 차단하기 때문에, W6는 스케줄링 큐에 입력되지 못하게 된다. 그 후, 입출력 스케줄러는 W4를 배리어 기반 쓰기 요청에서 순서 보장 쓰기 요청으로 변경한다.
또한, 입출력 스케줄러가 쓰기 요청의 순서를 재배치한 결과, W2, W3, W4, W5, W1의 순서로 변경하여 디스패치 큐에 전송할 수 있다. 이때, 입출력 스케줄러는 마지막으로 전송되는 순서 보장 쓰기 요청인 W1을 새로운 배리어 기반 쓰기 요청으로 변경한다. 그 결과, 사용자는 {W1, W2, W4}의 에포크에 대하여 IO 스케줄링 이후에도 그 순서를 보장받을 수 있게 된다.
도 6은 본 발명의 일 실시예에 따른 부분 순서 보장 기반 입출력 스케줄러의 블록도이다.
도 6을 참조하면, 본 발명의 일 실시예에 따른 부분 순서 보장 기반 입출력 스케줄러(600)는 입력부(610), 갱신부(620) 및 전송부(630)를 포함할 수 있다. 또한, 선택적으로 차단제어부(미도시) 및 카운터(미도시)를 더 포함할 수 있다.
한편, 본 발명의 일 실시예에 따른 부분 순서 보장 기반 입출력 스케줄러(600)는 데스크탑PC, 노트북PC, 스마트폰, 태블릿 및 웨어러블 기기 등과 같이 스토리지에 부분적으로 기록 순서의 보장을 필요로 하는 다양한 종류의 기기에 탑재될 수 있다.
입력부(610)는 입출력 순서 보장의 단위인 에포크(epoch)의 구성을 완료하는 배리어 기반 쓰기 요청을 스케줄링 큐에 입력받는다.
갱신부(620)는 스케줄링 큐에서 그 입력받은 배리어 기반 쓰기 요청을 순서 보장 쓰기 요청으로 변경한다.
전송부(630)는 스케줄링 큐에 포함된 적어도 하나의 순서 보장 쓰기 요청을 디스패치 큐에게 전송하되, 마지막으로 전송되는 순서 보장 쓰기 요청을 배리어 기반 쓰기 요청으로 변경하여 전송한다.
차단제어부(미도시)는 입력부(610)가 스케줄링 큐에 배리어 기반 쓰기 요청을 입력받으면 상기 스케줄링 큐로 입력되는 입출력 요청을 차단한다. 또한, 전송부(630)가 스케줄링 큐에 포함된 적어도 하나의 순서 보장 쓰기 요청의 전송을 완료하면 입출력 요청의 차단을 해제한다.
다른 실시예에서는, 입력부(610)는 배리어 기반 쓰기 요청을 스케줄링 큐에 입력받기 이전에, 에포크를 구성하는 적어도 하나의 순서 보장 쓰기 요청 또는 순서 보장이 되지 않는 적어도 하나의 순서 없는 쓰기 요청을 스케줄링 큐에 더 입력받고, 전송부(630)는 스케줄링 큐에 포함된 모든 쓰기 요청을 소정의 기준에 따른 순서로 디스패치 큐에게 전송할 수 있다.
카운터(미도시)는 스케줄링 큐에 입력되거나 또는 스케줄링 큐로부터 출력되는 순서 보장 쓰기 요청 및 배리어 기반 쓰기 요청의 개수를 카운트한다.
다른 실시예에서는, 전송부(630)는 카운터를 이용하여, 전송되는 순서 보장 쓰기 요청이 마지막인지 판단할 수 있다.
또 다른 실시예에서는, 순서 보장 쓰기 요청은 순서 없는 쓰기 요청에 순서보장에 대응되는 플래그를 설정한 요청이고, 배리어 기반 쓰기 요청은 순서 보장 쓰기 요청에 배리어에 대응되는 플래그를 설정한 요청일 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (10)

  1. 입출력 스케줄러가 부분적으로 입출력 순서가 보장되도록 입출력 요청을 스케줄링하는 방법에 있어서,
    입출력 순서 보장의 단위인 에포크(epoch)의 구성을 완료하는 배리어 기반 쓰기 요청을 스케줄링 큐에 입력받는 단계;
    상기 스케줄링 큐로 입력되는 입출력 요청을 차단하는 단계;
    상기 스케줄링 큐에서 상기 입력받은 배리어 기반 쓰기 요청을 순서 보장 쓰기 요청으로 변경하는 단계;
    상기 스케줄링 큐에 포함된 적어도 하나의 순서 보장 쓰기 요청을 디스패치 큐에게 전송하되, 마지막으로 전송되는 순서 보장 쓰기 요청을 상기 배리어 기반 쓰기 요청으로 변경하여 전송하는 단계; 및
    상기 입출력 요청의 차단을 해제하는 단계
    를 포함하고,
    상기 스케줄링 큐에 입력받는 단계의 이전에
    상기 에포크를 구성하는 적어도 하나의 순서 보장 쓰기 요청 또는 순서 보장이 되지 않는 적어도 하나의 순서 없는 쓰기 요청을 상기 스케줄링 큐에 입력받는 단계
    를 더 포함하고,
    상기 배리어 기반 쓰기 요청으로 변경하여 전송하는 단계는
    상기 스케줄링 큐에 포함된 모든 쓰기 요청을 소정의 기준에 따른 순서로 상기 디스패치 큐에게 전송하는 것을 특징으로 하는 부분 순서 보장 기반 입출력 스케줄링 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 배리어 기반 쓰기 요청으로 변경하여 전송하는 단계는
    상기 스케줄링 큐에 입력되거나 또는 상기 스케줄링 큐로부터 출력되는 상기 순서 보장 쓰기 요청 및 상기 배리어 기반 쓰기 요청의 개수를 카운트하는 카운터를 이용하여, 전송되는 순서 보장 쓰기 요청이 마지막인지 판단하는 것을 특징으로 하는 부분 순서 보장 기반 입출력 스케줄링 방법.
  5. 제1항에 있어서,
    상기 순서 보장 쓰기 요청은
    상기 순서 없는 쓰기 요청에 순서보장에 대응되는 플래그를 설정한 요청이고,
    상기 배리어 기반 쓰기 요청은
    상기 순서 보장 쓰기 요청에 배리어에 대응되는 플래그를 설정한 요청인 것을 특징으로 하는 부분 순서 보장 기반 입출력 스케줄링 방법.
  6. 부분적으로 입출력 순서가 보장되도록 입출력 요청을 스케줄링하는 입출력 스케줄러에 있어서,
    입출력 순서 보장의 단위인 에포크(epoch)의 구성을 완료하는 배리어 기반 쓰기 요청을 스케줄링 큐에 입력받는 입력부;
    상기 스케줄링 큐에서 상기 입력받은 배리어 기반 쓰기 요청을 순서 보장 쓰기 요청으로 변경하는 갱신부;
    상기 스케줄링 큐에 포함된 적어도 하나의 순서 보장 쓰기 요청을 디스패치 큐에게 전송하되, 마지막으로 전송되는 순서 보장 쓰기 요청을 상기 배리어 기반 쓰기 요청으로 변경하여 전송하는 전송부; 및
    상기 입력부가 상기 스케줄링 큐에 상기 배리어 기반 쓰기 요청을 입력받으면 상기 스케줄링 큐로 입력되는 입출력 요청을 차단하고, 상기 전송부가 상기 스케줄링 큐에 포함된 적어도 하나의 순서 보장 쓰기 요청의 전송을 완료하면 상기 입출력 요청의 차단을 해제하는 차단제어부
    를 포함하고,
    상기 입력부는
    상기 배리어 기반 쓰기 요청을 스케줄링 큐에 입력받기 이전에,
    상기 에포크를 구성하는 적어도 하나의 순서 보장 쓰기 요청 또는 순서 보장이 되지 않는 적어도 하나의 순서 없는 쓰기 요청을 상기 스케줄링 큐에 더 입력받고,
    상기 전송부는
    상기 스케줄링 큐에 포함된 모든 쓰기 요청을 소정의 기준에 따른 순서로 상기 디스패치 큐에게 전송하는 것을 특징으로 하는 부분 순서 보장 기반 입출력 스케줄러.
  7. 삭제
  8. 삭제
  9. 제6항에 있어서,
    상기 스케줄링 큐에 입력되거나 또는 상기 스케줄링 큐로부터 출력되는 상기 순서 보장 쓰기 요청 및 상기 배리어 기반 쓰기 요청의 개수를 카운트하는 카운터
    를 더 포함하고,
    상기 전송부는
    상기 카운터를 이용하여, 전송되는 순서 보장 쓰기 요청이 마지막인지 판단하는 것을 특징으로 하는 부분 순서 보장 기반 입출력 스케줄러.
  10. 제6항에 있어서,
    상기 순서 보장 쓰기 요청은
    상기 순서 없는 쓰기 요청에 순서보장에 대응되는 플래그를 설정한 요청이고,
    상기 배리어 기반 쓰기 요청은
    상기 순서 보장 쓰기 요청에 배리어에 대응되는 플래그를 설정한 요청인 것을 특징으로 하는 부분 순서 보장 기반 입출력 스케줄러.
KR1020190015744A 2018-10-19 2019-02-11 부분 순서 보장 기반의 입출력 스케줄러 및 그 방법 KR102254501B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180125445 2018-10-19
KR20180125445 2018-10-19

Publications (2)

Publication Number Publication Date
KR20200044645A KR20200044645A (ko) 2020-04-29
KR102254501B1 true KR102254501B1 (ko) 2021-05-21

Family

ID=70466726

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190015744A KR102254501B1 (ko) 2018-10-19 2019-02-11 부분 순서 보장 기반의 입출력 스케줄러 및 그 방법

Country Status (1)

Country Link
KR (1) KR102254501B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011525010A (ja) 2008-05-30 2011-09-08 ソニー コンピュータ エンタテインメント アメリカ リミテッド ライアビリテイ カンパニー ファイル入出力スケジューラ

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6785793B2 (en) * 2001-09-27 2004-08-31 Intel Corporation Method and apparatus for memory access scheduling to reduce memory access latency
US10630751B2 (en) * 2016-12-30 2020-04-21 Google Llc Sequence dependent data message consolidation in a voice activated computer network environment
KR101687762B1 (ko) * 2014-09-25 2017-01-03 충남대학교산학협력단 저장 장치 및 그것의 커맨드 스케줄링 방법
KR102646724B1 (ko) * 2018-01-12 2024-03-14 삼성전자주식회사 배리어 커맨드에 기초하여 데이터를 순서대로 저장하는 스토리지 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011525010A (ja) 2008-05-30 2011-09-08 ソニー コンピュータ エンタテインメント アメリカ リミテッド ライアビリテイ カンパニー ファイル入出力スケジューラ

Also Published As

Publication number Publication date
KR20200044645A (ko) 2020-04-29

Similar Documents

Publication Publication Date Title
CN110226157B (zh) 用于减少行缓冲冲突的动态存储器重新映射
JP5909566B2 (ja) 計算機システム及びその制御方法
US7490185B2 (en) Data processing system, access control method, and access control device
US11144462B2 (en) Wait classified cache writes in a data storage system
US11005970B2 (en) Data storage system with processor scheduling using distributed peek-poller threads
US20100023532A1 (en) Remote file system, terminal device, and server device
JP2010015610A (ja) 情報処理装置、情報処理装置の制御方法、およびプログラム
US7971004B2 (en) System and article of manufacture for dumping data in processing systems to a shared storage
JP2006285778A (ja) ストレージシステム及び記憶制御方法
US7451285B2 (en) Computer systems, management computers and storage system management method
US7412594B2 (en) Method and apparatus for managing data access and storage of data located on multiple storage devices
CN106844417B (zh) 基于文件目录的热迁移方法及装置
US10671453B1 (en) Data storage system employing two-level scheduling of processing cores
KR102262209B1 (ko) 더미 입출력 요청을 이용한 배리어 명령 전달 방법 및 그 장치
US10169157B2 (en) Efficient state tracking for clusters
US7409486B2 (en) Storage system, and storage control method
KR102254501B1 (ko) 부분 순서 보장 기반의 입출력 스케줄러 및 그 방법
EP3293625B1 (en) Method and device for accessing file, and storage system
CN109634532B (zh) 多VxWorks主机共享访问存储介质的方法
US20120311236A1 (en) Memory system, data control method, and data controller
US10740284B1 (en) Techniques for efficiently performing filesystem reorganization tasks for different filesystems
US8117419B2 (en) Storage apparatus and method for eliminating redundant data storage using storage apparatus
KR102132387B1 (ko) 배리어 기반 로깅 방법 및 장치
KR20200044646A (ko) 듀얼 모드 저널링 방법 및 장치
US9619286B1 (en) Using request service time as fairness heuristic in locking techniques

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right