KR102665540B1

KR102665540B1 - 비휘발성 메모리를 포함하는 raid 시스템

Info

Publication number: KR102665540B1
Application number: KR1020160158487A
Authority: KR
Inventors: 이주평
Original assignee: 삼성전자주식회사
Priority date: 2016-11-25
Filing date: 2016-11-25
Publication date: 2024-05-10
Also published as: US10430278B2; KR20180059201A; US20180150354A1

Abstract

비휘발성 메모리를 포함하는 RAID 시스템이 제공된다. RAID 시스템은 RAID로 구성되고, 데이터 청크와, 상기 데이터 청크에 대응하는 제1 및 제2 패리티를 저장하는 복수의 비휘발성 메모리를 포함하는 메모리 장치, 상기 메모리 장치의 RAID 동작 및 리빌드(rebuild) 동작을 제어하는 RAID 컨트롤러를 포함하되, 상기 RAID 컨트롤러는, 상기 메모리 장치에 저장된 제1 패리티를 이용한 제1 리빌드 동작에서, 제1 리빌드 레이트(rebuild rate)를 갖는 제1 리빌드 관리 정책을 이용하여 상기 제1 리빌드 동작을 수행하고, 상기 메모리 장치에 저장된 제1 및 제2 패리티 비트를 이용한 제2 리빌드 동작에서, 상기 제1 리빌드 레이트와 다른 제2 리빌드 레이트를 갖는 제2 리빌드 관리 정책을 이용하여 상기 제2 리빌드 동작을 수행한다.

Description

비휘발성 메모리를 포함하는 RAID 시스템{RAID SYSTEM INCLUDING NONVOLATIME MEMORY}

본 발명은 RAID 시스템에 관한 것이며, 더욱 구체적으로는 비휘발성 메모리를 포함하는 RAID 시스템에 관한 것이다.

RAID(Redundant Array of Inexpensive Disk)는 중요한 데이터를 가지고 있는 서버 등의 저장 매체에서 주로 사용되는 방법으로, 여러 저장 매체 중 하나의 저장 매체에 패리티(parity)를 저장하여 다른 저장 매체에 저장된 데이터에서 오류가 발생하더라도 이를 정상적인 데이터로 복원할 수 있는 방법이다. 이러한 RAID를 이용하면 입출력 작업의 균형을 이룰 수 있고 서버의 전체적인 성능이 개선될 수 있다.

한편, 데이터의 완전성을 보장하기 위한 시스템에서는 이러한 RAID의 구성 중 패리티 비트를 분산하여 저장하는 RAID 레벨 5 또는 RAID 레벨 6의 시스템이 사용되고 있다. RAID 레벨 5는 데이터 청크 당 하나의 패리티 비트가 분산되어 저장되는 방식이고, RAID 레벨 6은 데이터 청크 당 두 개의 패리티 비트가 분산되어 저장되는 방식이다. 레벨 5 또는 레벨 6의 RAID 시스템을 이용하는 경우, 각각 하나 또는 두 개의 스페어 스토리지 영역을 포함하여 고장 발생 시 해당 스페어 스토리지 영역에 리빌드를 수행한다.

이러한 리빌드 과정은, 패리티 비트 및 전체 RAID 시스템에 포함된 데이터에 접근하여 손실된 데이터를 생성하는 작업이므로, 리빌드 과정에 소요되는 시간이 길뿐만 아니라 전체 RAID 시스템의 I/O 성능에도 큰 영향을 미칠 수 있다.

따라서, RAID 시스템에 포함된 메모리 장치 또는 SSD 드라이브의 고장이 발생하여 리빌드가 발생하기 전에, 통상적인 I/O가 발생하는 동안에 미리 리빌드에 필요한 작업을 수행하여 전체적인 시스템 성능을 확보하는 동시에 신속하게 데이터를 복구하기 위한 리빌드 정책이 필요할 수 있다.

본 발명이 해결하고자 하는 기술적 과제는, RAID 시스템에 포함된 비휘발성 메모리 장치 또는 SSD의 고장 가능성에 따라 미리 리빌드에 필요한 동작을 수행함으로써 RAID 시스템의 고장 발생 시 리빌드 동작에 필요한 시간 및 I/O 요구량을 저감할 수 있는 RAID 시스템을 제공하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른 RAID 시스템은 RAID(Redundant Array of Inexpensive Disk)로 구성되고, 데이터 청크를 저장하는 복수의 제1 메모리 칩과, 스페어 메모리 영역이 정의되는 제2 메모리 칩을 포함하는 비휘발성 메모리 장치, 상기 비휘발성 메모리 장치의 RAID 동작 및 리빌드(rebuild) 동작을 제어하는 RAID 컨트롤러를 포함하되, 상기 RAID 컨트롤러는, 상기 복수의 제1 메모리 칩의 고장 확률(failure probability)을 모니터링하고, 상기 제1 메모리 칩의 고장 확률을 기초로 상기 복수의 제1 메모리 칩 중 두 개 이상이 미리 정한 문턱값을 만족시킨 경우 상기 두 개 이상의 제1 메모리 칩에 저장된 데이터에 대하여 제1 리빌드를 수행하여 상기 제2 메모리 칩에 저장하고, 상기 제1 리빌드의 대상이 되는 제1 메모리 칩 중 하나에 고장(failure)이 발생한 경우, 상기 제2 메모리 칩에 저장된 데이터를 이용하여 상기 고장이 발생한 제1 메모리 칩의 데이터에 대하여 제2 리빌드를 수행한다.

상기 기술적 과제를 달성하기 위한 본 발명의 다른 실시예에 따른 RAID 시스템은, 호스트, 및 상기 호스트와 커플링되는 복수의 SSD(Solid State Drive)를 포함하되, 상기 복수의 SSD는, RAID로 구성되고, 데이터 청크를 저장하는 복수의 제1 메모리 칩과, 스페어 메모리 영역을 포함하는 제2 메모리 칩을 포함하는 비휘발성 메모리 장치, 상기 비휘발성 메모리의 RAID 동작 및 리빌드(rebuild) 동작을 제어하는 RAID 컨트롤러를 포함하되, 상기 RAID 컨트롤러는, 상기 복수의 제1 메모리 칩의 고장 확률을 모니터링하고, 상기 제1 메모리 칩의 고장 확률을 기초로 상기 복수의 제1 메모리 칩 중 두 개 이상이 미리 정한 문턱값을 만족시킨 경우 상기 두 개 이상의 제1 메모리 칩에 저장된 데이터에 대하여 제1 리빌드를 수행하여 상기 제2 메모리 칩에 저장하고, 상기 제1 리빌드의 대상이 되는 제1 메모리 칩 중 하나에 고장이 발생한 경우, 상기 스페어 메모리 칩에 저장된 데이터를 이용하여 상기 고장이 발생한 제1 메모리 칩의 데이터에 대하여 제2 리빌드를 수행한다.

기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

도 1은 본 발명의 일 실시예에 따른 RAID 시스템의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 RAID 시스템의 동작을 설명하기 위한 순서도이다.
도 3a 내지 도 3c는 본 발명의 일 실시예에 따른 RAID 시스템이 수행하는 리빌드 동작을 설명하기 위한 개념도이다.
도 4는 본 발명의 일 실시예에 따른 RAID 시스템이 수행하는 리빌드 동작을 위해 필요한 파라미터를 설명하기 위한 개념도이다.
도 5a 내지 도 5b는 본 발명의 일 실시예에 따른 RAID 시스템이 수행하는 다른 리빌드 동작을 설명하기 위한 개념도이다.
도 6a 내지 도 6b는 본 발명의 일 실시예에 따른 RAID 시스템이 수행하는 또 다른 리빌드 동작을 설명하기 위한 개념도이다.
도 7a 내지 도 7b는 본 발명의 일 실시예에 따른 RAID 시스템이 수행하는 또 다른 리빌드 동작을 설명하기 위한 개념도이다.
도 8은 본 발명의 다른 실시예에 따른 RAID 시스템을 설명하기 위한 블록도이다.
도 9는 본 발명의 일 실시예에 따른 컴퓨팅 시스템의 블록도이다.

이하에서, 도 1 내지 도 9를 참조하여, 본 발명의 몇몇 실시예에 따른 RAID 시스템에 대해 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른 RAID 시스템의 블록도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 RAID 시스템(1)은 메모리 시스템(100) 및 RAID 컨트롤러(200)를 포함한다.

메모리 시스템(100)은 예를 들어, 복수의 비휘발성 메모리 칩들을 포함할 수 있다. 그리고 이러한 복수의 비휘발성 메모리 칩들은 예를 들어, 제1 내지 제k 채널들(CH1~CHk)을 통해 RAID 컨트롤러(200)와 통신할 수 있다.

메모리 시스템(100)에 포함된 복수의 비휘발성 메모리 칩은 예를 들어, NAND 플래시 메모리일 수 있으나 본 발명이 이에 제한되는 것은 아니다.

본 발명의 다른 몇몇 실시예에서, 메모리 시스템(100)가 포함하는 복수의 비휘발성 메모리 칩들은, 각각 하나의 SSD(Solid State Drive)일 수도 있다. 즉, 메모리 시스템(100)는 하나의 RAID로 구성된 복수의 SSD를 포함할 수 있다.

RAID 컨트롤러(200)는 호스트(HOST) 및 메모리 시스템(100)에 커플링될 수 있다. 호스트(HOST)로부터의 요청에 응답하여, RAID 컨트롤러(200)는 메모리 시스템(100)를 액세스하도록 구성될 수 있다. 예를 들어, RAID 컨트롤러(200)는 메모리 시스템(100)의 리드, 라이트, 이레이즈, 및 배경(background) 동작을 제어하도록 구성될 수 있다.

도면에 명확하게 도시하지는 않았으나, RAID 컨트롤러(200)는 메모리 시스템(100) 및 호스트(HOST) 사이에서 인터페이스를 제공하도록 구성될 수 있다. 또한, RAID 컨트롤러(200)는 메모리 시스템(100)를 제어하기 위한 펌웨어(firmware)를 구동하도록 구성될 수 있다.

예시적으로, RAID 컨트롤러(200)는 램(RAM, Random Access Memory), 프로세싱 유닛(processing unit), 호스트 인터페이스(host interface), 그리고 메모리 인터페이스(memory interface)와 같은 잘 알려진 구성 요소들을 더 포함할 수 있다. 여기서, 램(RAM)은 프로세싱 유닛의 동작 메모리, 메모리 시스템(100) 및 호스트(HOST) 사이의 캐시 메모리, 그리고 메모리 시스템 (100) 및 호스트(HOST) 사이의 버퍼 메모리 중 적어도 하나로서 이용될 수 있고, 프로세싱 유닛은 RAID 컨트롤러(200)의 제반 동작을 제어할 수 있다.

한편 본 실시예에 따른 RAID 컨트롤러(200)는, 메모리 시스템(100)에 대해 RAID 리빌드(rebuild)를 수행할 수 있다. 구체적으로, RAID 컨트롤러(200)는 메모리 시스템(100)에 대해 스트라이프(stripe) 단위로 RAID 리빌드를 수행할 수 있다. RAID 컨트롤러(200)가 메모리 시스템(100)에 대하여 수행하는 리빌드 동작과 관련하여, 이하에서 더욱 자세하게 설명한다.

호스트 인터페이스는 호스트(HOST) 및 RAID 컨트롤러(200) 사이의 데이터 교환을 수행하기 위한 프로토콜을 포함할 수 있다. 예시적으로, RAID 컨트롤러(200)는 USB (Universal Serial Bus) 프로토콜, MMC (multimedia card) 프로토콜, PCI (peripheral component interconnection) 프로토콜, PCI-E (PCI-express) 프로토콜, ATA (Advanced Technology Attachment) 프로토콜, Serial-ATA 프로토콜, Parallel-ATA 프로토콜, SCSI (small computer small interface) 프로토콜, ESDI (enhanced small disk interface) 프로토콜, 그리고 IDE (Integrated Drive Electronics) 프로토콜 등과 같은 다양한 인터페이스 프로토콜들 중 적어도 하나를 통해 호스트(HOST)와 통신하도록 구성될 수 있다.

본 실시예에서, RAID 컨트롤러(200) 및 메모리 시스템(100)은 하나의 반도체 장치로 집적될 수 있다. 예시적으로, RAID 컨트롤러(200) 및 메모리 시스템(100)은 하나의 반도체 장치로 집적되어, 메모리 카드를 구성할 수 있다.

한편, RAID 컨트롤러(200) 및 메모리 시스템(100)은 하나의 반도체 장치로 집적되어 반도체 드라이브(SSD, Solid State Drive)를 구성할 수 있다. RAID 컨트롤러(200)와 메모리 시스템(100)이 하나의 반도체 장치로 집적되어 반도체 드라이브(SSD)로 이용되는 경우, 비휘발성 메모리 시스템에 연결된 호스트(HOST)의 동작 속도는 획기적으로 개선될 수 있다. 다만, 본 발명이 이에 한정되는 것은 아니고, RAID 컨트롤러(200)와 메모리 시스템(100)은 탈착 가능하도록 물리적으로 분리되어 구성될 수 있다.

이와는 달리, RAID 컨트롤러(200) 및 메모리 시스템(100)은 하나의 반도체 장치로 집적되어 PC 카드(PCMCIA, personal computer memory card international association), 컴팩트 플래시 카드(CF), 스마트 미디어 카드(SM, SMC), 메모리 스틱, 멀티미디어 카드(MMC, RS-MMC, MMCmicro), SD 카드(SD, miniSD, microSD, SDHC), 유니버설 플래시 기억장치(UFS) 등과 같은 메모리 카드를 구성할 수 있다.

다른 예로서, 비휘발성 메모리 시스템은 컴퓨터, UMPC (Ultra Mobile PC), 워크스테이션, 넷북(net-book), PDA (Personal Digital Assistants), 포터블(portable) 컴퓨터, 웹 타블렛(web tablet), 무선 전화기(wireless phone), 모바일 폰(mobile phone), 스마트폰(smart phone), e-북(e-book), PMP(portable multimedia player), 휴대용 게임기, 네비게이션(navigation) 장치, 블랙박스(black box), 디지털 카메라(digital camera), 3차원 수상기(3-dimensional television), 디지털 음성 녹음기(digital audio recorder), 디지털 음성 재생기(digital audio player), 디지털 영상 녹화기(digital picture recorder), 디지털 영상 재생기(digital picture player), 디지털 동영상 녹화기(digital video recorder), 디지털 동영상 재생기(digital video player), 정보를 무선 환경에서 송수신할 수 있는 장치, 홈 네트워크를 구성하는 다양한 전자 장치들 중 하나, 컴퓨터 네트워크를 구성하는 다양한 전자 장치들 중 하나, 텔레매틱스 네트워크를 구성하는 다양한 전자 장치들 중 하나, RFID 장치, 또는 컴퓨팅 시스템을 구성하는 다양한 구성 요소들 중 하나 등과 같은 전자 장치의 다양한 구성 요소들 중 하나로 제공될 수 있다.

예시적으로, 메모리 시스템(100) 은 다양한 형태들로 패키지화 될 수 있다. 예를 들어, 메모리 시스템(100) 은 PoP(Package on Package), Ball grid arrays(BGAs), Chip scale packages(CSPs), Plastic Leaded Chip Carrier(PLCC), Plastic Dual In Line Package(PDIP), Die in Waffle Pack, Die in Wafer Form, Chip On Board(COB), Ceramic Dual In Line Package(CERDIP), Plastic Metric Quad Flat Pack(MQFP), Thin Quad Flatpack Package(TQFP), Small Outline Integrated Circuit(SOIC), Shrink Small Outline Package(SSOP), Thin Small Outline Package(TSOP), Thin Quad Flatpack Package(TQFP), System In Package(SIP), Multi Chip Package(MCP), Wafer-level Fabricated Package(WFP), Wafer-Level Processed Stack Package(WSP) 등과 같은 방식으로 패키지화될 수 있다.

도 2는 본 발명의 실시예에 따른 RAID 시스템(1)이 수행하는 리빌드 동작을 설명하기 위한 순서도이다.

도 2를 참조하면, 본 발명의 실시예에 따른 RAID 시스템(1)은, RAID 시스템에 포함된 비휘발성 메모리의 고장 확률(failure probability)를 감지하고(S100), 비휘발성 메모리의 고장 확률이 미리 정해진 문턱값을 넘는지 여부를 결정한다(S110). 비휘발성 메모리의 고장 확률이 미리 정해진 문턱값을 넘는 경우, 고장 확률이 문턱값을 넘은 메모리의 수를 판단한다(S120).

고장 확률이 문턱값보다 큰 메모리의 수가 1 개인 경우, 해당 메모리에 저장되어 있던 데이터를 스페어 메모리에 복사한다(S130). 고장 확률이 문턱값보다 큰 메모리의 수가 1 개보다 큰 경우, 해당 메모리들에 저장되어 있던 데이터들의 패리티를 생성하여, 스페어 메모리에 저장한다(S140).

이후, 비휘발성 메모리의 고장 여부를 감지하고(S150), 타겟 메모리에 메모리 고장이 발생하는지 여부를 결정한다(S160). 여기서 타겟 메모리는, 앞서 고장 확률이 문턱값보다 큰 것으로 판단된 메모리를 의미한다.

메모리 고장의 감지 결과 타겟 메모리에 고장이 발생한 경우, 스페어 메모리에 저장된 데이터를 이용하여 고장이 발생한 메모리의 데이터를 리빌드한다(S170). 이와는 달리, 고장이 발생한 메모리가 타겟 메모리에 해당하지 않는 경우, 모든 메모리의 데이터 및 이에 대응하는 패리티를 이용하여 고장이 발생한 메모리의 데이터를 리빌드한다(S180).

이하, 도 3a 내지 도 3c를 이용하여 본 발명의 실시예에 따른 RAID 시스템(1)의 리빌드 과정을 설명한다.

도 3a 내지 도 3c는 본 발명의 일 실시예에 따른 RAID 시스템이 수행하는 리빌드 동작을 설명하기 위한 개념도이다.

도 3a을 참조하면, 본 발명의 일 실시예에 따른 RAID 시스템(1)에 포함된 메모리 시스템(100)은 데이터를 저장되는 복수의 메모리 칩(CHIP1~CHIP9)을 포함할 수 있다. 더욱 구체적으로, 메모리 시스템(100)은 데이터 청크(DATA CHUNK) 및 패리티(PARITY)를 저장하고 있는 8 개의 비휘발성 메모리(CHIP1~CHIP8)와, 비휘발성 메모리(CHIP1~CHIP8)의 고장 발생 시 해당 비휘발성 메모리에 저장된 데이터를 리빌드하기 위한 스페어 메모리(CHIP9)를 포함할 수 있다.

본 발명의 몇몇 실시예에서, 데이터를 저장하기 위한 8 개의 비휘발성 메모리(CHIP1~CHIP8)의 개수는 예시적인 것이며, 본 발명이 이에 제한되는 것은 아니다. RAID 시스템의 구성에 따라, 데이터 청크를 구성하는 데이터가 저장되는 비휘발성 메모리의 개수는 얼마든지 달라질 수 있음은 통상의 기술자에게 자명할 것이다.

또한, 본 발명의 몇몇 실시예에서, 고장이 발생한 해당 비휘발성 메모리에 저장된 데이터를 리빌드하기 위한 스페어 메모리의 개수는 1개보다 클 수 있다. 즉, 메모리 시스템(100)은 본 발명의 일 실시예에 따른 RAID 시스템(1)에 포함된 복수의 메모리 칩(CHIP1~CHIP8) 중 두 개의 메모리 칩에 고장이 발생한 경우에, 고장이 발생한 2 개의 메모리 칩을 리빌드하기 위한 2개의 스페어 메모리를 포함할 수 있다.

이를 위하여, 데이터가 저장된 복수의 메모리 칩(CHIP1~CHIP8)은 P 패리티에 더하여 Q 패리티를 더 저장하도록 구성될 수 있다. 이 때, Q 패리티는 P 패리티와는 다른 종류일 수 있으며, 다시 말하면 Q 패리티를 생성하는 방법은 데이터 청크에 대한 P 패리티를 형성하는 방법과는 다를 수 있다.

본 발명의 일 실시예에 따른 RAID 시스템에 포함된 각각의 비휘발성 메모리 칩(CHIP1~CHIP9)은, 도 3a 내지 도 3c에 도시된 데이터 구조에서 각각의 행(row)으로 구분되는 스트라이프(stripe)를 포함할 수 있다. 본 발명의 일 실시예에서, 하나의 스트라이프는 7 개의 데이터 청크(DATA CHUNK)와, 7개의 데이터 청크(DATA CHUNK)에 대응하여 생성되고 저장된 1 개의 패리티(PARITY)를 포함할 수 있다.

도 3a 내지 도 3c에서, 예를 들어, 7 개의 데이터 청크(D1~D7)가 제1 내지 제7 메모리 칩(CHIP1~CHIP7)에 저장되고, 데이터 청크(D1~D7)에 대응하는 패리티(P1-7)가 생성되어 제8 메모리 칩(CHIP8)에 저장된다. 패리티(P1-7)는 예를 들어, 7 개의 데이터 청크(D1~D7)를 XOR 연산하여 생성된 패리티일 수 있다.

그 밖에 제1 내지 제8 메모리 칩(CHIP1~CHIP8)에는 복수의 데이터 청크들(D8~D55)과, 이에 대응하는 패리티들(P8-14, P22-28, ... P43-49, P50-56)이 저장될 수 있다.

제9 메모리 칩(CHIP9)에는, 메모리 시스템(100)이 리빌드 동작이 수행되기 전에 스페어 영역(S)이 할당된다. 즉, 제9 메모리 칩(CHIP9)의 스페어 영역(S)은 메모리 시스템(100)의 리빌드 동작이 개시된 후 리빌드 대상이 되는 데이터가 저장되어야 하므로, 리빌드 개시 이전에는 비어 있는 영역이다. 이하에서, 리빌드 동작 개시 전 스페어 영역(S)이 할당되는 제9 메모리 칩(CHIP9)를 스페어 메모리 칩으로 지칭한다.

한편, 위에서 설명한 것과 같이 메모리 시스템(100)은 하나의 반도체 장치로 집적될 수 있으므로, 제1 내지 제9 메모리 칩(CHIP1~CHIP9)은 그 명칭과는 달리 하나의 반도체 패키지 안에 집적되어 있는 복수의 메모리 셀을 가리키는 것일 수도 있음은 비휘발성 메모리 분야의 통상의 기술자에게 자명할 것이다.

다시 도 2를 참조하면, 본 발명의 실시예에 따른 RAID 시스템(1)은 고장 확률을 감지한다(S100). 더욱 구체적으로, RAID 컨트롤러(200)는 메모리 시스템(100)에 포함된 각각의 메모리 칩(CHIP1~CHIP9)의 고장 확률을 계산하여 계산된 고장 확률이 문턱값(threshold)을 넘었는지 여부를 결정한다. RAID 컨트롤러(200)의 고장 확률 계산과 관련하여, 도 4를 참조하여 설명한다.

도 4는 본 발명의 일 실시예에 따른 RAID 시스템이 수행하는 리빌드 동작을 위해 필요한 파라미터를 설명하기 위한 개념도이다.

도 4를 참조하면, 메모리 칩(예를 들어 CHIP1)은 예를 들어, NAND 메모리 상태, NAND 마모도 레벨 등 메모리 칩(CHIP1)에 포함된 NAND 메모리 셀의 내구도 또는 이의 건강(health)과 관련된 파라미터를 RAID 컨트롤러(200)에 제공할 수 있다.

RAID 컨트롤러(200)는, 메모리 칩(CHIP1)으로부터 제공받은 해당 메모리 칩(CHIP1)의 상태 정보를 이용하여 메모리 칩(CHIP1)의 고장 확률을 계산할 수 있다. 본 발명의 몇몇 실시예에서, RAID 컨트롤러(200)는 메모리 칩(CHIP1)으로부터 제공받은 상태 정보와, RAID 컨트롤러(200)가 메모리 칩(CHIP1)을 제어하기 위하여 필요한 정보, 예를 들어 P/E(Program/Erase) Cycle, 고칠 수 없는 에러 카운트(Uncorrectable error count) 등의 정보를 이용하여 메모리 칩(CHIP1)의 고장 확률을 계산할 수 있다.

RAID 컨트롤러(200)는 메모리 시스템(100)에 포함된 메모리 칩(CHIP1~CHIP9) 별로 고장 확률을 계산하고, 이를 저장할 수 있다. 또한 RAID 컨트롤러(200)는 메모리 칩(CHIP1~CHIP9)의 고장 확률을 일정한 주기 마다 계산하여 저장할 수도 있다. 이와는 반대로, RAID 컨트롤러(200)는 메모리 칩(CHIP1~CHIP9)의 데이터 전송 또는 이벤트 발생 시 마다 고장 확률을 새로이 계산하여 저장할 수도 있다.

다시 도 3a를 참조하면, 위의 과정을 통하여 RAID 컨트롤러(200)가 계산한 메모리 칩(CHIP1~CHIP9)들의 고장 확률(Failure Probability)가 메모리 칩(CHIP1~CHIP9)에 저장된 데이터 구조와 함께 도시되었다. 물론, 도 3a에 도시된 각각의 칩들(CHIP1~CHIP9)의 고장 확률은 예시적인 것이며, 본 발명의 내용을 제한하는 것은 아니다.

RAID 컨트롤러(200)는, 메모리 칩들(CHIP1~CHIP9)의 고장 확률과는 별도로 고장 확률의 문턱값(threshold)를 미리 정하여 저장할 수 있다. 메모리 칩들(CHIP1~CHIP9)의 고장 확률이 문턱값보다 커지는 경우 문턱값을 초과하는 고장 확률을 갖는 메모리 칩을 대상으로 제1 리빌드를 수행할 수 있다. 이하에서 본 발명의 실시예에 따른 RAID 시스템(1)에 포함된 메모리 칩들(CHIP1~CHIP9)의 고장 확률의 문턱값은 예시적으로 0.1로 설정된 것으로 설명한다.

본 발명의 몇몇 실시예에서, 제1 리빌드는 메모리 칩(CHIP1~CHIP8)에 고장 확률이 미리 정한 문턱값을 초과하는 것으로 계산된 경우, 메모리 칩(CHIP1~CHIP8)의 고장에 대비하여 스페어 영역(S)이 할당된 메모리 칩(CHIP9)에 미리 데이터를 저장하는 과정을 의미한다.

도 3a에 도시된 것과 같이, 메모리 칩(CHIP1~8)들 가운데 제6 메모리 칩(CHIP6)의 고장 확률이 0.11로 미리 정한 문턱값(0.1)을 넘고, 제6 메모리 칩(CHIP6)이 제1 리빌드가 수행될 메모리 칩으로 결정된다.

다음으로, 고장 확률이 미리 정한 문턱값을 넘어 제1 리빌드가 수행될 메모리 칩으로 결정된 메모리 칩의 수를 판단한다(S120).

고장 확률이 문턱값보다 큰 메모리 칩의 개수를 N이라 할 때, N이 1인 경우(N = 1), 해당 메모리 칩에 저장된 데이터를 스페어 메모리 칩에 복사한다(S130). 이는 도 3b에 도시된 데이터 구조를 이용하여 설명한다.

도 3b를 참조하면, 제1 리빌드의 대상이 되는 제6 메모리 칩(CHIP6)에 저장된 데이터(10)가 스페어 영역(S)으로 할당되었던 스페어 메모리(CHIP9)로 복사되어 제공되고, 스페어 메모리(CHIP9)는 제공된 데이터(11)를 스페어 영역(S)에 각각 저장한다. 이로서, 메모리 칩(CHIIP1~9)에 대한 제1 리빌드가 완료될 수 있다.

제1 리빌드 과정이 종료되면, RAID 컨트롤러(200)는 메모리 칩(CHIP1~CHIP8)의 고장 발생 여부를 감지한다(S150, S160). 제1 리빌드가 수행되었던 타겟 메모리(CHIP6)에 고장 발생이 감지된 경우, 스페어 메모리(CHIP9)에 저장되어 있는 데이터(11)를 이용하여 고장이 발생한 메모리 칩(CHIP6)의 데이터를 복구하는 제2 리빌드를 수행한다(S170).

여기서, 앞에서 설명한 것과 같이 하나의 메모리 칩(CHIP6)에 대하여 제1 리빌드가 수행된 경우, 메모리 칩(CHIP6)에 저장된 데이터를 스페어 메모리 칩(CHIP9)으로 직접 복사하였으므로, 스페어 메모리(CHIP9)에 저장된 데이터에 대하여 별도의 리빌드 작업을 수행할 필요가 없다. 따라서 메모리 칩(CHIP6)의 고장 발생과 동시에 스페어 메모리 칩(CHIP9)에 고장이 발생한 메모리 칩(CHIP6)에 저장되어 있던 데이터의 제2 리빌드가 완료될 수 있다.

한편, 앞에서 설명한 경우와는 달리 고장이 발생한 메모리 칩이 제1 리빌드가 수행되었던 타겟 메모리 칩(CHIP6)이 아닌 경우, 고장이 발생한 메모리 칩을 제외한 모든 메모리 칩을 이용하여 고장이 발생 메모리 칩에 대한 제2 리빌드를 수행한다. 예를 들어, 제5 메모리 칩(CHIP5)에 고장이 발생한 경우, 정상적인 메모리 칩들(CHIP1~CHIP4, CHIP6~CHIP8)에 저장된 데이터 청크(DATA CHUNK)와 이에 대응하는 패리티(PARITY)를 이용하여 제2 리빌드를 수행하고, 제2 리빌드의 결과 복구된 제5 메모리 칩(CHIP5)의 데이터를 스페어 메모리 칩(CHIP9)에 저장한다.

본 발명의 일 실시예에 따른 RAID 시스템(1)은, 복수의 비휘발성 메모리를 묶어 데이터 액세스 요청에 따라 동시에 복수의 비휘발성 메모리로 입출력을 할 수 있도록 구성된다. 이는 단일의 시스템 구성보다는 빠르지만, 데이터를 내부적 또는 외부적으로 액세스할 수 있는 입출력(I/O) 대역폭(bandwidth) 또는 쓰루풋(throughput)에는 한계가 존재한다.

RAID 시스템(1)에서 리빌드 동작이 수행되는 경우, RAID 시스템(1) 외부로는 드러나지 않지만 내부적으로 손상된 비휘발성 메모리의 데이터를 리빌드하여 저장하기 위한 데이터의 리드(read), 라이트(write) 동작 및 패리티와 비교하는 동작이 지속적으로 수행될 것이다. 따라서 리빌드 동작은 호스트(HOST)로부터의 메모리 장치(100)의 접근에 대한 대역폭 및 응답 속도에 영향을 미칠 수 있다.

지금까지 설명한 것과 같이, 본 발명의 실시예에 따른 RAID 시스템(1)은 메모리 칩의 고장 확률을 기초로 메모리 칩의 고장 발생 전에 제1 리빌드를 수행한다. 고장 확률이 미리 정한 문턱값을 넘은 메모리 칩(타겟 메모리)의 개수(N)가 1인 경우, 타겟 메모리에 저장되어 있던 데이터는 스페어 메모리에 복사될 수 있다.

이후, 타겟 메모리에서 고장이 발생한 경우, 제2 리빌드가 수행될 수 있다. 제2 리빌드는 타겟 메모리에 저장되어 있던 데이터를 스페어 메모리에 복구하는 작업이므로, 상기의 경우에는 별도의 연산 없이 제2 리빌드가 완료되어 데이터 리빌드가 매우 빠르게 완료될 수 있다.

제1 리빌드가 수행될 메모리 칩으로 결정된 메모리 칩의 수 N이 1보다 큰 경우(N > 1)와 관련하여, 이하 도 5a 내지 도 5b를 이용하여 더욱 자세하게 설명한다.

도 5a 내지 도 5b는 본 발명의 일 실시예에 따른 RAID 시스템이 수행하는 다른 리빌드 동작을 설명하기 위한 개념도이다.

도 5a 및 5b를 참조하면, 본 발명의 일 실시예에 따른 RAID 시스템(1)에 포함된 메모리 시스템(100)에서, 제4 메모리 칩(CHIP4)과 제6 메모리 칩(CHIP6)의 고장 확률이 문턱값(0.1)을 넘은 것으로 감지된다. 도 5a 및 도 5b를 참조하여 기술되는 RAID 시스템(1)의 동작에서, 예시적으로 N = 2인 것으로 설명된다. 따라서, 제4 메모리 칩(CHIP4)과 제6 메모리 칩(CHIP6)에 대하여 제1 리빌드가 수행될 필요가 있다.

제1 리빌드가 수행될 메모리 칩으로 결정된 메모리 칩의 수 N이 1보다 큰 경우(N > 1)에는, 앞서 설명한 RAID 시스템(1)의 동작과 같이 타겟 메모리의 데이터를 그대로 스페어 메모리에 복사하는 것은 불가능하다. 따라서 RAID 컨트롤러(200)는, 제4 메모리 칩(CHIP4)의 데이터(21)와 제6 메모리 칩(CHIP6)의 데이터(20)를 이용하여 패리티를 생성하고, 생성된 패리티를 스페어 메모리(CHIP9)에 저장함으로써(S140) 제1 리빌드를 수행한다.

제4 메모리 칩(CHIP4)의 데이터(21)와 제6 메모리 칩(CHIP6)의 데이터(20)의 패리티를 생성하는 것은, 두 데이터(21, 20)를 XOR 연산하는 것일 수 있으나 본 발명이 이에 제한되는 것은 아니다.

한편, 본 발명의 몇몇 실시예에서, 제4 메모리 칩(CHIP4)의 데이터(21)와 제6 메모리 칩(CHIP6)의 데이터(20)의 제1 리빌드를 수행할 때, 제4 또는 제6 메모리 칩에 저장된 데이터 중 패리티에 해당하는 부분은 제외하고 스페어 메모리(CHIP9)에 저장할 수 있다.

그 이유는 다음과 같다. 두 개의 메모리 칩(CHIP4, CHIP6)에 저장된 데이터 가운데, 하나의 스트라이프의 데이터를 제1 리빌드하여 스페어 메모리(CHIP9)에 저장하는 것은, 두 번의 데이터 읽기와, 한 번의 패리티 생성 연산과, 한번의 쓰기 연산을 필요로 할 수 있다.

예를 들어, RAID 컨트롤러(200)는 동일한 스트라이프 내의 제4 메모리 칩(CHIP4)에 저장된 데이터(D4)와 제6 메모리 칩(CHIP6)에 저장된 데이터(D6)를 읽고, 패리티(P4, 6)를 생성하여 스페어 메모리 칩(CHIP9)에 쓰는 동작을 수행한다.

한편, RAID 컨트롤러(200)는 제4 메모리 칩(CHIP4)에 저장된 데이터(D18)와 제6 메모리 칩(CHIP6)에 저장된 데이터(P15-21)의 경우, 두 데이터에 대한 패리티를 생성하는 것 대신에, 제4 메모리 칩(CHIP4)에 저장된 데이터(D18)를 스페어 메모리(CHIP9)로 저장할 수 있다. 이를 통해, 한번의 패리티 생성 연산의 과정이 생략됨으로써, RAID 시스템(1)의 제1 리빌드 과정에 소요되는 시간을 단축시킬 수 있다.

스페어 메모리(CHIP9)에 패리티에 해당하는 부분을 제외하고 저장하더라도 메모리 칩 고장 발생 시 수행되는 제2 리빌드에 의하여 복구되는 데이터의 무결성은 보장될 수 있다.

즉, 본 실시예에서, 제4 메모리(CHIP4)에 고장이 발생한 경우 스페어 메모리(CHIP9)에 이미 저장된 데이터(D18)을 이용하여 추가적인 연산 없이 제2 리빌드를 완료할 수 있다. 또한, 제6 메모리 칩(CHIP6)에 고장이 발생한 경우 제6 메모리 칩(CHIP6)을 제외한 모든 메모리 칩에 저장된 데이터(D15~D21)를 이용하여 제6 메모리 칩(CHIP6)에 저장되어있던 패리티(P15-21)를 생성하는 제2 리빌드가 수행되고, 제6 메모리 칩(CHIP6)의 데이터가 복구될 수 있다.

한편, 동작 도중 고장이 발생한 메모리 칩이 상기 설명한 두 개의 타겟 메모리(CHIP4, CHIP6)가 아닌 경우, 메모리 시스템(100)에 속한 메모리 전체를 대상으로 제2 리빌드가 수행될 수 있다.

위에서 설명한 것과 같이 두 개의 메모리 칩(CHIP4, CHIP6)에 대하여 제1 리빌드가 수행하는 것에 의하여, 타겟 메모리가 2개 설정된다. 타겟 메모리가 2개로 됨으로써, 전체 메모리 칩 중 고장이 발생한 메모리 칩이 제1 리빌드가 수행된 메모리 칩일 가능성도 2 배로 증가할 수 있다.

도 6a 내지 도 6b는 본 발명의 일 실시예에 따른 RAID 시스템이 수행하는 또 다른 리빌드 동작을 설명하기 위한 개념도이다.

도 6a 및 도 6b를 참조하면, 본 발명의 일 실시예에 따른 RAID 시스템이 수행하는 리빌드 동작은, N = 3인 경우에도 이전의 실시예에 따른 RAID 시스템이 수행하는 것과 실질적으로 유사한 방식으로 수행될 수 있다.

본 발명의 일 실시예에 따른 RAID 시스템(1)에 포함된 메모리 시스템(100)에서, 제3 메모리 칩(CHIP3), 제4 메모리 칩(CHIP4) 및 제6 메모리 칩(CHIP6)의 고장 확률이 문턱값(0.1)을 넘은 것으로 감지된다. 따라서 세 개의 메모리 칩(CHIP3, CHIP4, CHIP6)에 대하여 제1 리빌드가 수행될 필요가 있다.

앞서와 마찬가지로, 제1 리빌드가 수행될 메모리 칩으로 결정된 메모리 칩의 수(N=3)가 1보다 크기 때문에, RAID 컨트롤러(200)는 제3 메모리 칩(CHIP3)의 데이터(32), 제4 메모리 칩(CHIP4)의 데이터(31) 및 제6 메모리 칩(CHIP6)의 데이터(30)를 이용하여 패리티를 생성하고, 생성된 패리티를 스페어 메모리(CHIP9)에 저장함으로써 제1 리빌드를 수행한다.

본 발명의 일 실시예에 따른 RAID 시스템(1)이 수행하는 다른 리빌드 동작에서, 제3 메모리 칩(CHIP3), 제4 메모리 칩(CHIP4) 및 제6 메모리 칩(CHIP6)의 데이터들(32, 31, 30) 가운데 패리티에 해당하는 부분은 제외하고 스페어 메모리(CHIP9)에 저장될 수 있다.

예를 들어, 하나의 스트라이프 내에 포함된 데이터들(D17, D18, P15-21)의 경우, 스페어 메모리(CHIP9)에 저장되는 데이터는 P15-21를 제외한 D17 및 D18에 대하여 패리티를 연산하여 생성한 P17, 18에 해당한다.

이로 인하여, 패리티에 해당하는 부분을 연산하지 않아 데이터들(30, 31, 32)의 제1 리빌드 작업에 필요한 시간이 감소될 수 있다.

이어서, 제3 메모리 칩(CHIP3)에 고장이 발생한 경우, 제1 리빌드를 통해 스페어 메모리(CHIP9)에 저장된 데이터(34)와, 제4 메모리 칩(CHIP4) 및 제6 메모리 칩(CHIP6)에 저장된 데이터들(31, 30)을 이용하여 제3 메모리 칩(CHIP3)에 저장된 데이터(32)를 복구하기 위한 제2 데이터 리빌드가 수행된다.

본 발명의 몇몇 실시예에서, 도 5a 내지 5b를 이용하여 설명된 RAID 시스템(1)이 수행하는 리빌드 동작과, 도 6a 내지 6b를 이용하여 설명된 RAID 시스템(1)이 수행하는 리빌드 동작은, 동일한 시퀀스(sequence)에서 수행될 수 있다.

즉, 제1 리빌드의 대상이 되는 메모리 칩의 개수 N = 2경우에 두 개의 메모리 칩에 대하여 제1 리빌드 동작이 수행되고, 제1 리빌드를 통해 두 개의 메모리 칩에 저장된 데이터의 패리티가 저장되고 스페어 메모리(CHIP9)에 저장된다.

이어서, RAID 컨트롤러(200)는 메모리 시스템(100)에 포함된 메모리 칩들의 고장 확률을 모니터링하고, 메모리 칩의 고장 확률이 미리 정한 문턱값을 넘는 메모리 칩이 추가적으로 감지되는 경우, 해당 메모리 칩을 새로운 타겟 메모리로 포함시킨 후 제1 리빌드를 수행할 수 있다.

도 5a에서 제4 메모리(CHIP4) 및 제6 메모리(CHIP6)가 타겟 메모리로 지정되어 제1 리빌드가 수행되고 스페어 메모리(CHIP9)에 제4 메모리(CHIP4)와 제6 메모리(CHIP6)에 저장된 데이터의 패리티가 저장된다. 이 때, 추가적으로 문턱값(0.1)을 넘는 메모리 칩(CHIP3)이 발견되는 경우, RAID 컨트롤러(200)는 메모리 칩(CHIP3)의 데이터(예를 들어 D3)와 스페어 메모리(CHIP9)에 저장된 데이터(예를 들어 P4, 6) 사이에 패리티 연산을 수행한다. 이를 통해 문턱값을 넘는 메모리 칩들(CHIP3, CHIP4, CHIP6)의 패리티를 다시 생성하도록 제1 리빌드를 수행할 수 있다.

도 7a 내지 도 7b는 본 발명의 일 실시예에 따른 RAID 시스템이 수행하는 또 다른 리빌드 동작을 설명하기 위한 개념도이다.

도 7a 및 7b를 참조하면, 본 발명의 일 실시예에 따른 RAID 시스템에 포함된 메모리 시스템은, 데이터 청크 및 패리티를 저장하기 위한 메모리 칩들(CHIP1~CHIP16)과, 제1 리빌드 및 제2 리빌드를 수행하고 리빌드된 데이터를 저장하기 위한 스페어 메모리(CHIP17)를 포함할 수 있다.

본 발명의 몇몇 실시예에서, RAID 컨트롤러(200)는 제1 리빌드를 수행하기 위한 타겟 메모리로 고장 확률이 높은 메모리들을 선택할 수 있다.

즉, 앞서 설명한 실시예에서 RAID 컨트롤러(200)가 미리 정해진 고장 확률의 문턱값을 기준으로 제1 리빌드가 수행되는 메모리 칩을 선택하였다. 반면에, 본 실시예에서 RAID 컨트롤러(200)는 제1 리빌드가 수행되는 메모리 칩을 선택하기 위하여, 고장 확률이 높은 N 개(예를 들어, N = 4)의 메모리 칩(CHIP3, CHIP4, CHIP6, CHIP15)들에 대하여 제1 리빌드를 수행할 수 있다.

따라서, 본 실시예에서는 각 메모리 칩들의 고장 확률이 문턱값을 넘는 것을 감지하지 않고, 고장 확률이 높은 N 개의 메모리 칩을 선택하여 제1 리빌드를 수행한다. 따라서, 제3 메모리 칩(CHIP3)에 저장된 데이터(42), 제4 메모리 칩(CHIP4)에 저장된 데이터(41), 제6 메모리 칩(CHIP6)에 저장된 데이터(40) 및 제15 메모리 칩(CHIP15)에 저장된 데이터(43)에 대하여 패리티를 생성하고, 스페어 메모리(CHIP17)에 생성된 패리티(44)를 저장한다.

이후에 예를 들어, 제1 리빌드의 대상이 되었던 제3 메모리 칩(CHIP3)에 고장이 발생한 경우, 제4 메모리 칩(CHIP4), 제6 메모리 칩(CHIP6), 제15 메모리 칩(CHIP15)에 저장된 데이터들(41, 40, 43)과 제1 리빌드에 의해 저장된 데이터(44)를 이용하여 제3 메모리 칩(CHIP3)의 데이터를 복구하는 제2 리빌드를 수행한다.

도 8은 본 발명의 또 다른 실시예에 따른 RAID 시스템(3)의 블록도이다.

도 8을 참조하면, 본 발명의 또 다른 실시예에 따른 RAID 시스템(3)은 호스트(300), SSD(150, 250, 350, 450) 및 버스(600)를 포함한다.

본 발명의 또 다른 실시예에 따른 RAID 시스템(3)의 호스트(300)는 도 1을 참조하여 설명한 RAID 컨트롤러(200)와 실질적으로 동일하게 구성 및 동작할 수 있다.

SSD(250)는 복수의 메모리 칩(125, 135, 145, 155), 메모리 컨트롤러(110)를 포함할 수 있다.

메모리 컨트롤러(110)는 복수의 메모리 칩(125, 135, 145, 155)을 제어할 수 있다. 본 발명의 몇몇 실시예에서, 복수의 메모리 칩(125, 135, 145, 155)은 앞서의 실시예에서 설명한 RAID 시스템(1)에 포함된 메모리 시스템(100)에 포함된 비휘발성 메모리들과 구성 및 동작이 동일할 수 있다. 따라서 메모리 컨트롤러(110)에 의하여 복수의 메모리 칩(125, 135, 145, 155)를 대상으로 RAID 시스템이 구성될 수 있다.

또한, 복수의 메모리 칩(125, 135, 145, 155)는 데이터 청크 및 패리티(P)가 저장되는 메모리 칩과, 스페어 메모리 칩을 포함할 수 있다. 메모리 컨트롤러(110)는 이와 같이 구성된 RAID 시스템을 대상으로 각각의 메모리 칩의 고장 확률을 모니터링하고, 메모리 칩의 고장 확률이 미리 정한 문턱값을 만족시킨 경우 메모리 칩에 저장된 데이터에 대하여 제1 리빌드를 수행하여 스페어 메모리 칩에 저장할 수 있다. 또한, 복수의 메모리 칩(125, 135, 145, 155) 중 하나에 고장이 발생한 경우, 스페어 메모리 칩에 저장된 데이터를 이용하여 고장이 발생한 메모리 칩의 데이터를 복구하는 제2 리빌드를 수행할 수 있다.

또한, 호스트(300)에 연결된 각각의 SSD를 대상으로 RAID 시스템이 구성될 수 있다. 즉, SSD(150, 250, 350, 450)는 데이터 청크 및 패리티 비트를 저장하는 SSD와, 스페어 SSD를 포함할 수 있다. 호스트(300)는 이와 같이 구성된 RAID 시스템을 대상으로 SSD의 고장 확률을 모니터링하고, SSD의 고장 확률에 따라 제1 리빌드를 수행하고, SSD의 고장 발생 시 이를 복구하기 위한 제2 리빌드를 수행할 수도 있다.

호스트(300)가 SSD의 고장 확률을 모니터링하는 것은 SSD의 S.M.A.R.T(Self-Monitoring, Analysis and Reporting Technology) 정보를 모니터링하는 것일 수 있다. 더욱 구체적으로, 호스트(300)는 S.M.A.R.T 정보 중 재할당된 섹터수(reallocated sector count), 로우 읽기 에러 발생 비율(raw read error rate) 등의 수치를 모니터링하고, 이들 수치가 소정의 기준값을 넘는 경우에 고장 확률을 계산하고, 고장 여부를 결정할 수 있다.

다음 도 9를 참조하여, 본 발명의 일 실시예에 따른 컴퓨팅 시스템에 대해 설명한다.

도 9는 본 발명의 일 실시예에 따른 컴퓨팅 시스템의 블록도이다.

도 9를 참조하면, 컴퓨팅 시스템(900)은 중앙 처리 장치(910), 램(920, RAM, Random Access Memory), 사용자 인터페이스(930), 전원(940), 그리고 메모리 시스템(800)을 포함할 수 있다.

여기서, 메모리 시스템(800)은 앞서 설명한 실시예들에 따라 컨트롤러(820)가 비휘발성 메모리 장치(810)를 컨트롤하는 시스템일 수 있다. 이러한 메모리 시스템(800)은 시스템 버스(950)를 통해, 중앙처리장치(910), 램(920), 사용자 인터페이스(930), 그리고 전원(940)에 전기적으로 연결될 수 있다. 그리고, 사용자 인터페이스(930)를 통해 제공되거나, 중앙 처리 장치(910)에 의해서 처리된 데이터는 메모리 시스템(800)에 저장될 수 있다.

비록 도 9에서는, 비휘발성 메모리 장치(810)가 컨트롤러(820)를 통해 시스템 버스(950)에 연결되는 것으로 도시되어 있으나, 본 발명의 몇몇 실시예에 따른 컴퓨팅 시스템에서, 비휘발성 메모리 장치(810)는 시스템 버스(950)에 직접 연결되도록 구성될 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

100: 메모리 시스템 200: RAID 컨트롤러
300: 호스트 150, 250, 350, 450: SSD
800: 메모리 시스템 900: 컴퓨팅 시스템
930: 사용자 인터페이스 940: 전원

Claims

RAID(Redundant Array of Inexpensive Disk)로 구성되고, 데이터 청크를 저장하는 복수의 제1 메모리 칩과, 스페어 메모리 영역이 정의되는 제2 메모리 칩을 포함하는 비휘발성 메모리 장치;
상기 비휘발성 메모리 장치의 RAID 동작 및 리빌드(rebuild) 동작을 제어하는 RAID 컨트롤러를 포함하되,
상기 RAID 컨트롤러는,
상기 복수의 제1 메모리 칩의 고장 확률(failure probability)을 모니터링하고,
상기 제1 메모리 칩의 고장 확률을 기초로 상기 복수의 제1 메모리 칩 중 두 개 이상이 미리 정한 문턱값을 만족시킨 경우 상기 두 개 이상의 제1 메모리 칩에 저장된 데이터에 대하여 제1 리빌드를 수행하여 상기 제2 메모리 칩에 저장하고,
상기 제1 리빌드의 대상이 되는 제1 메모리 칩 중 하나에 고장(failure)이 발생한 경우, 상기 제2 메모리 칩에 저장된 데이터를 이용하여 상기 고장이 발생한 제1 메모리 칩의 데이터에 대하여 제2 리빌드를 수행하는 RAID 시스템.
제 1항에 있어서,
상기 두 개 이상의 제1 메모리 칩에 대하여 상기 제1 리빌드를 수행하는 것은,
상기 두 개 이상의 제1 메모리에 저장된 데이터에 대응하는 패리티를 생성하여 상기 제2 메모리 칩에 저장하는 것을 포함하는 RAID 시스템.
제 2항에 있어서,
상기 두 개 이상의 제1 메모리에 저장된 데이터에 대응하는 패리티를 생성하는 것은,
상기 두 개 이상의 제1 메모리 칩에 저장된 데이터를 XOR 연산하는 것을 포함하는 RAID 시스템.
제 2항에 있어서,
상기 복수의 제1 메모리 칩은 상기 데이터 청크에 대응하는 패리티를 더 저장하고,
상기 두 개 이상의 제1 메모리 칩에 대하여 상기 제1 리빌드를 수행하는 것은,
상기 두 개 이상의 제1 메모리 칩에 저장된 상기 데이터 청크에 대응하는 패리티를 제외하고 상기 제2 메모리 칩에 저장하는 것을 포함하는 RAID 시스템.
제 1항에 있어서,
상기 RAID 컨트롤러가 상기 두 개 이상의 제1 메모리 칩에 저장된 데이터에 대하여 제1 리빌드를 수행하는 것은,
상기 복수의 제1 메모리 칩에 고장이 발생하기 전인 RAID 시스템.
제 1항에 있어서,
상기 RAID 컨트롤러는,
상기 두 개 이상의 제1 메모리 칩에 대하여 상기 제1 리빌드를 수행한 후,
상기 미리 정한 문턱값을 만족하는 상기 제1 메모리 칩을 추가적으로 감지한 경우,
상기 제2 메모리 칩에 저장된 상기 제1 리빌드된 데이터와, 상기 추가적으로 감지된 제1 메모리 칩 간의 패리티 계산을 수행하여 상기 제2 메모리 칩에 저장하는 RAID 시스템.
제 1항에 있어서,
상기 RAID 컨트롤러가 상기 제2 리빌드를 수행하는 것은,
상기 제2 메모리 칩에 저장된 데이터와,
상기 제1 리빌드가 수행된 상기 두 개 이상의 제1 메모리 칩 중 상기 고장이 발생한 제1 메모리 칩을 제외한 나머지 제1 메모리 칩에 저장된 데이터를 이용하여 패리티를 계산하는 것을 포함하는 RAID 시스템.
제 1항에 있어서,
상기 RAID 컨트롤러가 복수의 제1 메모리 칩의 고장 확률을 모니터링하는 것은,
상기 비휘발성 메모리 장치로부터 제공받은 제1 정보와, 상기 RAID 컨트롤러가 상기 비휘발성 메모리 장치에 대하여 생성하는 제2 정보를 이용하여 상기 복수의 제1 메모리 칩의 고장 확률을 계산하는 것을 포함하는 RAID 시스템.
제 8항에 있어서,
상기 제1 정보는 NAND 메모리 상태 또는 NAND 마모도 레벨 중 적어도 하나를 포함하고,
상기 제2 정보는 P/E(Program/Erase) Cycle, 고칠 수 없는 에러 카운트 중 적어도 하나를 포함하는 RAID 시스템.
호스트; 및
상기 호스트와 커플링되는 복수의 SSD(Solid State Drive)를 포함하되,
상기 복수의 SSD는,
RAID로 구성되고, 데이터 청크를 저장하는 복수의 제1 메모리 칩과, 스페어 메모리 영역을 포함하는 제2 메모리 칩을 포함하는 비휘발성 메모리 장치,
상기 비휘발성 메모리의 RAID 동작 및 리빌드(rebuild) 동작을 제어하는 RAID 컨트롤러를 포함하되,
상기 RAID 컨트롤러는,
상기 복수의 제1 메모리 칩의 고장 확률을 모니터링하고,
상기 제1 메모리 칩의 고장 확률을 기초로 상기 복수의 제1 메모리 칩 중 두 개 이상이 미리 정한 문턱값을 만족시킨 경우 상기 두 개 이상의 제1 메모리 칩에 저장된 데이터에 대하여 제1 리빌드를 수행하여 상기 제2 메모리 칩에 저장하고,
상기 제1 리빌드의 대상이 되는 제1 메모리 칩 중 하나에 고장이 발생한 경우, 상기 스페어 메모리 영역에 저장된 데이터를 이용하여 상기 고장이 발생한 제1 메모리 칩의 데이터에 대하여 제2 리빌드를 수행하는 RAID 시스템.
삭제
삭제
삭제
삭제
삭제