KR101597384B1

KR101597384B1 - 분할되고 확장가능하며 사용가능한 구조적 저장소에서의 파티션 관리

Info

Publication number: KR101597384B1
Application number: KR1020117009130A
Authority: KR
Inventors: 브래들리 진 캘더; 주 왕; 아릴드 이. 스쿌스볼드; 아릴드 이. 스?스볼드; 샤쉬와트 스리바스타브; 니란잔 니라칸탄; 디팔리 바르드와
Original assignee: 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date: 2008-10-24
Filing date: 2009-10-23
Publication date: 2016-02-24
Also published as: CA2736586A1; RU2011116167A; CN102197372B; JP2012507086A; EP2342634A4; CN102197372A; MY165932A; TW201022953A; BRPI0914183A2; US20100106934A1; IL211627A; WO2010048595A3; KR20110082529A; AU2009308176B2; MX2011003883A; US9996572B2; AU2009308176A1; EP2342634B1; IL211627A0; ZA201101659B

Abstract

확장가능한 구조적 저장 시스템의 파티션 관리가 제공된다. 저장 시스템은 하나 이상의 테이블에 의해 표현되는 저장소를 제공하며, 각각의 테이블은 데이터 엔터티를 나타내는 행을 포함한다. 테이블은 다수의 파티션으로 분할되고, 각각의 파티션은 행들의 인접 범위를 포함하고 있다. 파티션은 테이블 서버에 의해 제공되고 테이블 마스터에 의해 관리된다. 테이블 서버 및 파티션에 대한 로드 분산 정보가 추적되고, 테이블 마스터는 로드 분산 정보에 기초하여 파티션을 분할 및/또는 병합하기로 결정한다.

Description

분할되고 확장가능하며 사용가능한 구조적 저장소에서의 파티션 관리{PARTITION MANAGEMENT IN A PARTITIONED, SCALABLE, AND AVAILABLE STRUCTURED STORAGE}

대량의 계산 및 저장 리소스를 제공하기 위해 서버 팜, 웹 서비스 등을 비롯한 분산 시스템이 점점 더 보편화되고 있다. 예를 들어, 다양한 응용 분야에 대한 엄청난 양의 데이터를 저장 및 검색하는 데 분산 저장 시스템이 이용되어 왔다. 어떤 경우에, 저장 시스템은 데이터를 보다 효율적으로 저장, 검색 및 쿼리하기 위해 구조적 저장소(structured storage)를 이용한다. 구조적 저장 시스템(structured storage system)은 네트워크 전체에 걸쳐 있는 다수의 노드에 데이터를 저장할 수 있다. 이러한 저장을 제공하기 위해 요망되는 컴퓨팅 리소스의 양이 증가함에 따라, 추가 컴퓨팅 장치를 추가하여 필요에 따라 추가 리소스가 추가될 수 있는 유연성 있는 토폴로지를 제공함으로써 이러한 저장 시스템이"확장"될 수 있다. 그에 따라, 구조적 저장 시스템은, 예를 들어, 페타바이트(petabyte)에서 엑사바이트(exabyte)의 저장된 데이터로 확장가능할 수 있다. 그 결과, 데이터가 항상 액세스가능하고 지속가능하여 데이터 손실을 방지하도록 이러한 구조적 저장 시스템 내에서 데이터를 관리하는 것은 종종 복잡하다.

이 요약은 이하에서 상세한 설명에 더 기술되는 일련의 개념을 간략화된 형태로 소개하기 위해 제공된 것이다. 이 요약은 청구된 발명 대상의 주요 특징 또는 필수적인 특징을 명시하기 위한 것이 아니며, 청구된 발명 대상의 범위를 정하는 데 보조 수단으로 사용되기 위한 것도 아니다.

본 발명의 실시예는 구조적 데이터 저장 시스템(structured data storage system)에서의 파티션 관리(partition management)에 관한 것이다. 저장소에서, 구조적 데이터(structured data)는 서로 다른 서버에 의해 제공될 수 있는 다수의 파티션으로 나누어져 있다. 이들 파티션의 위치를 추적하기 위해 파티션 맵(partition map)이 사용된다. 보다 구체적으로는, 파티션 맵을 사용하여, 클라이언트는 어느 서버가 특정 데이터를 제공하고 있는지를 알아낼 수 있다. 파티션에 대한 상세한 로드 정보가 추적된다. 서버들에 걸친 로드 분산을 달성하기 위해 서버들 간에 파티션이 이동될 수 있다. 일부 실시예에서, 더 나은 로드 분산을 달성하기 위해, 분할하기 위한 높은 로드를 가지는 파티션이 식별된다. 파티션을 분할하기 위한 위치가 결정되고, 파티션이 분할되어 자식 파티션을 만들고, 이 자식 파티션이 다른 서버로 오프로딩될 수 있다. 파티션이 자식 파티션으로 분할된 것을 반영하기 위해 파티션 맵이 업데이트된다. 일부 실시예에서, 병합하기 위한 2개 이상의 파티션이 식별된다. 파티션이 병합되고, 병합된 파티션을 반영하기 위해 파티션 맵이 업데이트된다.

구조적 저장소가 추가 전용(append-only) 파일 시스템 인터페이스를 제시하는 스트림 시스템(stream system) 상에 구축된다. 스트림은 추가 전용 파일과 유사하다. 각각의 파티션은 그와 연관된 일련의 스트림을 가진다. 파티션의 모든 지속적 상태가 그와 연관된 일련의 스트림에 유지된다. 일련의 스트림 중에는, 파티션의 모든 다른 스트림에 대한 포인터는 물론 그 파티션의 중요한 정보[파티션에 포함된 모든 행의 파티션 키 범위(partition key range) 등]도 포함하는, 파티션에 대한 메타데이터 스트림이 있다.

첨부 도면을 참조하여 이하에서 본 발명에 대해 상세히 기술한다.
도 1은 본 발명의 실시예를 구현하는 데 사용하기 적당한 예시적인 컴퓨팅 환경의 블록도.
도 2는 본 발명의 일 실시예에 따른 테이블 구조를 나타낸 도면.
도 3은 본 발명의 실시예가 구현될 수 있는 예시적인 시스템을 나타낸 블록도.
도 4는 본 발명의 일 실시예에 따른 파티션을 나타낸 블록도.
도 5는 본 발명의 일 실시예에 따른, 파티션을 분할하는 방법을 나타낸 흐름도.
도 6은 본 발명의 일 실시예에 따른, 부모 파티션이 2개의 자식 파티션으로 분할되는 것의 일례를 나타낸 도면.
도 7은 본 발명의 다른 실시예에 따른, 파티션을 분할하는 방법을 나타낸 흐름도.
도 8은 본 발명의 일 실시예에 따른, 파티션을 병합된 파티션으로 병합하는 방법을 나타낸 흐름도.
도 9는 본 발명의 일 실시예에 따른, 손상된 파티션을 복구하는 방법을 나타낸 흐름도.
도 10은 본 발명의 일 실시예에 따른, 파티션 버전 관리 및 업그레이드 방법을 나타낸 흐름도.

법적 요건을 만족시키기 위해 본 발명의 발명 대상이 본 명세서에 구체적으로 기술되어 있다. 그렇지만, 그 설명 자체가 이 특허의 범위를 제한하기 위한 것은 아니다. 오히려, 발명자는, 현재 또는 장래의 다른 기술과 함께, 이 문서에 기술된 단계와 다른 단계 또는 이 문서에 기술된 단계와 유사한 단계의 조합을 포함시키기 위해, 청구된 발명 대상이 다른 방식으로도 구현될 수 있는 것을 생각하고 있다. 게다가, "단계" 및/또는 "블록"이라는 용어가 이용되는 방법의 서로 다른 구성요소를 암시하기 위해 본 명세서에서 사용될 수 있지만, 개별 단계의 순서가 명확하게 기술되어 있지 않은 한 또 그러한 경우를 제외하고는, 이들 용어가 본 명세서에 개시된 다양한 단계 사이에 임의의 특정의 순서를 암시하는 것으로 해석되어서는 안된다.

본 발명의 실시예는 확장가능하고 사용가능하며 지속가능한 구조적 저장소를 제공한다. 구조적 저장소는 다수의 테이블로 표현되며, 각각의 테이블은 다수의 행을 포함하고, 각각의 행은 데이터 엔터티(data entity)를 나타낸다. 테이블은 다수의 파티션(partition)으로 나누어지고, 각각의 파티션은 테이블로부터의 행들의 범위를 포함하고 있다. 파티션은 테이블 서버(table server)에 저장되고 테이블 마스터(table master)를 사용하여 관리된다.

일부 실시예에서, 로드 분산을 위해 파티션이 분할된다. 테이블 서버 및 파티션에 대한 로드 분산 정보가 추적된다. 로드 분산 정보에 기초하여, 테이블 마스터는 파티션을 로드 분산시키기로 결정하고, 로드를 분산시키기 위해, 파티션을 다른 노드에 재할당할 수 있다. 그에 부가하여, 일부 파티션에 대해, 테이블 마스터는 현재 로드를 분산시키기 위해 파티션을 분할하기로 결정할 수 있다. 테이블 마스터는 분할비(split ratio)를 결정하고, 분할 위치를 확인하기 위한 키 정보(key information)를 얻기 위해, 파티션을 제공하는 테이블 서버에 쿼리한다. 테이블 서버로부터 수신된 키 정보에 기초하여, 테이블 마스터는 테이블 서버에게 파티션을 분할하도록 지시한다. 분할 요청을 수신할 때, 테이블 서버는 대상 파티션을 언로드(unload)하고, 자식 파티션을 만들며, 자식 파티션을 제공하기 시작한다. 일부 실시예에서, 자식 파티션이 다른 테이블 서버에 할당될 수 있다. 자식 파티션을 제공하는 테이블 서버(들)를 반영하기 위해 파티션 맵이 업데이트된다.

일부 실시예에서는, 파티션이 병합된다. 다시 말하자면, 테이블 서버 및 파티션에 대한 로드 분산 정보가 추적된다. 로드 분산 정보에 기초하여, 병합하기 위한 2개 이상의 파티션이 식별된다. 파티션을 제공하는 테이블 서버(들)는 파티션을 제공하는 것을 중단하도록 지시받는다. 파티션이 병합되고 테이블 서버에 로드되며, 테이블 서버는 병합된 파티션을 제공하기 시작한다. 병합된 파티션을 제공하는 테이블 서버를 반영하기 위해 파티션 맵이 업데이트된다.

그에 따라, 한 측면에서, 본 발명의 실시예는 구조적 저장 시스템 내의 하나 이상의 컴퓨팅 장치에 의해 구현되는 방법에 관한 것이며, 여기서 구조적 저장소는 하나 이상의 테이블로 표현되고, 각각의 테이블은 복수의 행을 포함하며, 각각의 행은 구조적 저장 시스템에 의해 저장되는 데이터 엔터티를 나타내고 행을 식별해주는 하나 이상의 키를 포함하고, 복수의 행이 복수의 파티션에 분배되며, 각각의 파티션은 테이블 내의 복수의 행으로부터의 행들의 범위를 포함하고, 복수의 파티션은 복수의 테이블 서버에 저장되며, 테이블 마스터는 복수의 테이블 서버에의 파티션 할당을 제어한다. 이 방법은 파티션을 자식 파티션으로 분할하는 것에 대한 것이고, 파티션에 대한 로드 정보에 기초하여 분할하기 위한 파티션을 식별하는 단계를 포함하며, 여기서 로드 정보는 파티션의 2개 이상의 부분 각각에 대한 로드를 지정하는 정보를 포함한다. 이 방법은 또한, 테이블 마스터에서, 파티션의 2개 이상의 부분 각각에 대한 로드에 기초하여 파티션을 분할하기 위한 분할비를 결정하는 단계를 포함한다. 이 방법은 분할비에 대응하는 파티션 내에서의 실제 위치를 나타내는 키 정보를 얻기 위해 테이블 서버에 쿼리하는 단계를 추가로 포함한다. 이 방법은 또한, 테이블 마스터에서, 테이블 서버로부터 키 정보를 수신하는 단계를 포함하며, 키 정보는 분할비에 대응하는 파티션 내에서의 실제 위치를 나타낸다. 이 방법은 테이블 마스터로부터 테이블 서버로 분할 요청을 송신하는 단계를 추가로 포함하며, 분할 요청은 키 정보에 기초하여 파티션을 분할하라는 것을 나타낸다. 이 방법은 또한 자식 파티션을 만들기 위해 키 정보에 대응하는 위치에서 파티션을 분할하는 단계를 포함한다. 이 방법은 테이블 마스터에 분할 완료를 통지하는 단계를 추가로 포함한다. 이 방법은, 파티션이 자식 파티션으로 분할된 것에 기초하여, 파티션 맵을 업데이트하는 단계를 추가로 포함하고, 파티션 맵은 복수의 파티션과 복수의 파티션을 제공하는 복수의 테이블 서버 간의 매핑을 저장한다.

본 발명의 다른 실시예에서, 한 측면은 구조적 저장 시스템을 관리하는 방법을 수행하는 컴퓨터 사용가능 명령어를 저장하는 하나 이상의 컴퓨터 저장 매체에 관한 것이며, 여기서 구조적 저장 시스템은 하나 이상의 테이블로 표현되고, 각각의 테이블은 복수의 행을 포함하며, 각각의 행은 구조적 저장 시스템에 의해 저장되는 데이터 엔터티를 나타내고 행을 식별해주는 하나 이상의 키를 포함하고, 복수의 행이 복수의 파티션에 분배되며, 각각의 파티션은 테이블 내의 복수의 행으로부터의 행들의 범위를 포함하고, 복수의 파티션은 복수의 테이블 서버에 저장되며, 테이블 마스터는 복수의 테이블 서버에의 파티션 할당을 제어한다. 이 방법은 테이블의 적어도 2개의 파티션을 병합된 파티션으로 병합하는 것에 대한 것이고, 복수의 테이블 서버 상의 복수의 파티션에 대한 로드 정보를 추적하는 단계를 포함한다. 이 방법은 또한, 테이블 마스터에서, 로드 정보에 기초하여 병합할 적어도 2개의 파티션을 식별하는 단계를 포함한다. 이 방법은, 테이블 마스터에서, 병합된 파티션에 대한 메타데이터 스트림을 작성하는 단계를 추가로 포함한다. 이 방법은 또한 적어도 2개의 파티션을 제공하는 적어도 하나의 테이블 서버로부터 적어도 2개의 파티션을 오프로딩하는 단계를 포함한다. 이 방법은, 테이블 마스터에서, 병합된 파티션을 복수의 테이블 서버 중에서 선택된 테이블 서버에 할당하는 단계를 추가로 포함한다. 이 방법은, 선택된 테이블 서버에서, 병합된 파티션을 로드하여 제공하는 단계를 추가로 포함한다.

본 발명의 추가의 실시예는 구조적 저장 시스템을 관리하는 방법을 수행하는 컴퓨터 사용가능 명령어를 저장하는 하나 이상의 컴퓨터 저장 매체에 관한 것이며, 여기서 구조적 저장 시스템은 하나 이상의 테이블로 표현되고, 각각의 테이블은 복수의 행을 포함하며, 각각의 행은 구조적 저장 시스템에 의해 저장되는 데이터 엔터티를 나타내고 행을 식별해주는 하나 이상의 키를 포함하고, 복수의 행이 복수의 파티션에 분배되며, 각각의 파티션은 테이블 내의 복수의 행으로부터의 행들의 범위를 포함하고, 복수의 파티션은 복수의 테이블 서버에 저장되며, 테이블 마스터는 복수의 테이블 서버에의 파티션 할당을 제어한다. 이 방법은 테이블의 파티션을 적어도 2개의 자식 파티션으로 분할하는 것에 대한 것이고, 복수의 테이블 서버 상의 복수의 파티션에 대한 로드 정보를 추적하는 단계를 포함한다. 이 방법은 또한, 테이블 마스터에서, 로드 정보에 기초하여 분할할 파티션을 식별하는 단계를 포함하며, 여기서 파티션에 대한 로드 정보는 파티션의 서로 다른 부분에 대한 서로 다른 로드를 식별해준다. 이 방법은, 테이블 마스터에서, 파티션을 분할하기 위한 분할비를 결정하는 단계를 추가로 포함하고, 여기서 분할비는 로드 정보에 기초하여 지정되고, 파티션의 제1 부분이 로드의 제1 분량을 포함하고 파티션의 제2 부분이 로드의 제2 분량을 포함하는 파티션 내의 지점을 나타낸다. 이 방법은, 테이블 마스터로부터 테이블 서버로, 분할비에 대응하는 파티션 내에서의 실제 위치를 식별해주는 키 정보에 대한 요청을 송신하는 단계를 추가로 포함한다. 이 방법은 또한, 테이블 서버에서, 분할비에 대응하는 파티션에서의 실제 위치를 식별해주는 키 정보를 결정하고 키 정보를 테이블 서버로부터 테이블 마스터로 전달하는 단계를 포함한다. 이 방법은, 테이블 마스터에서, 각각의 자식 파티션에 대한 메타데이터 스트림을 구축하는 단계를 추가로 포함한다. 이 방법은 테이블 마스터로부터 테이블 서버로 분할 요청을 송신하는 단계, 및 테이블 서버에서, 파티션으로부터 자식 파티션을 작성하는 단계를 추가로 포함한다. 이 방법은 또한 테이블 서버에서 파티션을 제공하는 것을 중단하는 단계, 및 테이블 서버에서 자식 파티션을 로드하여 제공하는 단계를 포함한다. 이 방법은 테이블 서버로부터 테이블 마스터로 분할 완료 통지를 송신하는 단계를 추가로 포함한다. 이 방법은, 파티션이 자식 파티션으로 분할된 것에 기초하여, 파티션 맵을 업데이트하는 단계를 추가로 포함하고, 파티션 맵은 복수의 파티션과 복수의 파티션을 제공하는 복수의 테이블 서버 간의 매핑을 저장한다.

본 발명의 실시예의 개요를 간략하게 기술하였지만, 본 발명의 다양한 측면에 대한 일반적인 정황을 제공하기 위해 본 발명의 실시예가 구현될 수 있는 예시적인 운영 환경에 대해 이하에서 기술한다. 먼저 특히 도 1을 참조하면, 본 발명의 실시예를 구현하기 위한 예시적인 운영 환경이 도시되어 있으며 전체적으로 컴퓨팅 장치(100)로서 나타내어져 있다. 컴퓨팅 장치(100)는 적당한 컴퓨팅 환경의 일례에 불과하며 본 발명의 용도 또는 기능의 범위에 관한 어떤 제한을 암시하기 위한 것이 아니다. 컴퓨팅 장치(100)가 예시된 구성요소들 중 어느 하나 또는 예시된 구성요소들의 임의의 조합에 관한 어떤 의존관계 또는 요구사항을 갖는 것으로 해석되어서도 안된다.

본 발명은 일반적으로 컴퓨터 또는 기타 기계[PDA(personal data assistant) 또는 기타 핸드헬드 장치 등]에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령어를 비롯한 컴퓨터 코드 또는 기계 사용가능 명령어와 관련하여 기술될 수 있다. 일반적으로, 루틴, 프로그램, 개체, 구성요소, 데이터 구조, 기타 등등을 포함하는 프로그램 모듈은 특정의 작업을 수행하거나 특정의 추상 데이터 형식을 구현하는 코드를 말한다. 본 발명은 핸드헬드 장치, 가전 제품, 범용 컴퓨터, 전용 컴퓨팅 장치(more specialty computing device), 기타 등등을 비롯한 각종의 시스템 구성에서 실시될 수 있다. 본 발명은 또한 작업이 통신 네트워크를 통해 연결되어 있는 원격 처리 장치에 의해 수행되는 분산 컴퓨팅 환경에서도 실시될 수 있다.

도 1을 참조하면, 컴퓨팅 장치(100)는 메모리(112), 하나 이상의 프로세서(114), 하나 이상의 제시 구성요소(presentation components)(116), 입/출력 포트(118), 입/출력 구성요소(120), 및 예시적인 전원 공급 장치(122)를 직접 또는 간접적으로 연결시키는 버스(110)를 포함하고 있다. 버스(110)는 하나 이상의 버스일 수 있는 것(주소 버스, 데이터 버스, 또는 이들의 조합 등)을 나타낸다. 도 1의 다양한 블록이 명확함을 위해 선으로 나타내어져 있지만, 실제로는, 다양한 구성요소를 구분하는 것이 그렇게 명확하지 않으며, 비유적으로 말하면, 이들 선이 보다 정확하게는 애매모호하다(grey and fuzzy). 예를 들어, 디스플레이 장치와 같은 제시 구성요소(presentation component)를 I/O 구성요소라고 생각할 수 있다. 또한, 프로세서는 메모리를 갖는다. 이러한 것이 기술의 속성임을 잘 알 것이며, 다시 말하지만 도 1의 도면은 단지 본 발명의 하나 이상의 실시예와 관련하여 사용될 수 있는 예시적인 컴퓨팅 장치를 나타낸 것에 불과하다. "워크스테이션", "서버", "랩톱", "핸드헬드 장치", 기타 등등의 카테고리들 간에 구별을 두지 않는데, 그 이유는 이들 모두가 도 1의 범위 내에 속하는 것으로 생각되고 "컴퓨팅 장치"를 말하는 것이기 때문이다.

컴퓨팅 장치(100)는 통상적으로 각종의 컴퓨터 판독가능 매체를 포함하고 있다. 컴퓨터 판독가능 매체는 컴퓨팅 장치(100)에 의해 액세스될 수 있는 사용가능한 매체라면 어느 것이라도 될 수 있고, 휘발성 및 비휘발성 매체, 이동식 및 비이동식 매체 둘다를 포함한다. 제한이 아닌 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등의 정보를 저장하는 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체 둘다를 포함한다. 컴퓨터 저장 매체로는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 원하는 정보를 저장하는 데 사용될 수 있고 또 컴퓨팅 장치(100)에 의해 액세스될 수 있는 임의의 다른 매체가 있지만, 이들로 제한되지 않는다. 통신 매체는 통상적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터를 반송파 또는 기타 전송 메카니즘 등의 피변조 데이터 신호(modulated data signal)에 구현하고 모든 정보 전달 매체를 포함한다. "피변조 데이터 신호"라는 용어는 신호의 특성들 중 하나 이상이 정보를 그 신호에 인코딩하는 방식으로 설정 또는 변경된 신호를 의미한다. 제한이 아닌 예로서, 통신 매체는 유선 네트워크 또는 직접 배선 접속(direct-wired connection) 등의 유선 매체와, 음향, RF, 적외선 및 기타 무선 매체 등의 무선 매체를 포함한다. 상기한 것들 중 임의의 것의 조합도 역시 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.

메모리(112)는 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 메모리는 이동식, 비이동식, 또는 이들의 조합일 수 있다. 예시적인 하드웨어 장치로는 고상 메모리(solid-state memory), 하드 드라이브, 광 디스크 드라이브, 기타 등등이 있다. 컴퓨팅 장치(100)는 메모리(112) 또는 I/O 구성요소(120)와 같은 다양한 엔터티로부터 데이터를 판독하는 하나 이상의 프로세서를 포함한다. 제시 구성요소(들)(116)는 사용자 또는 기타 장치에 데이터 표시(data indication)를 제공한다. 예시적인 제시 구성요소로는 디스플레이 장치, 스피커, 인쇄 구성요소, 진동 구성요소, 기타 등등이 있다.

I/O 포트(118)에 의해 컴퓨팅 장치(100)는 I/O 구성요소(120)를 비롯한 다른 장치(이들 중 일부는 기본 제공되어 있을 수 있음)에 논리적으로 결합될 수 있다. 예시적인 구성요소로는 마이크, 조이스틱, 게임 패드, 위성 안테나, 스캐너, 프린터, 무선 장치, 네트워킹 장치, 기타 등등이 있다.

상위 레벨 데이터 모델

본 발명의 실시예에 따르면, 구조적 저장소는 테이블로 표현되고, 여기서 테이블은 일련의 행을 포함한다. 예시로서, 도 2는 본 발명의 일 실시예에 따른 테이블(200)의 일부분을 나타낸 것이다. 테이블(200) 내의 각각의 행[행(202) 등]은 데이터 엔터티를 나타내고, 속성(204, 206, 208)[열(208)의 데이터 값은 간단함과 명확함을 위해 비어두었음]을 비롯한 일련의 속성을 포함하며, 이들 속성은 일련의 열에 나타내어져 있다. 속성/열은, 예를 들어, 이름, 형식 값 쌍(typed value pair), 또는 이름-다중 형식 값(multiple typed value) 매핑일 수 있다. 행 및/또는 각각의 개별 속성이 버전 관리되거나 버전 관리되지 않을 수 있다. 테이블 자체는 테이블 내의 각각의 행이 동일한 유형을 갖는 동일한 속성을 가지는 경우 고정 스키마(fixed schema)를 가질 수 있거나, 모든 행에 일련의 서로 다른 속성 및 유형이 저장되어 있을 수 있는 경우 어떤 강제 적용된 스키마(schema enforced)도 갖지 않을 수 있다.

구조적 저장소에 대해 수행되는 일련의 표준 동작은 테이블, 행 및 속성을 삽입, 업데이트 및 삭제하는 기능을 포함한다. 그에 부가하여, 지정된 스캔/쿼리와 일치하는 일련의 테이블, 행 또는 속성을 찾기 위해 테이블, 행 및 속성을 스캔하고 쿼리하는 기능이 제공된다.

분할(Partitioning)

테이블이 수십억 또는 수조의 행과 수 테라바이트/페타바이트의 데이터로 증가할 수 있으며, 테이블은 테이블의 서로 다른 부분으로의 트래픽/로드를 처리하기 위해 수천개의 서버에 걸쳐 분산될 필요가 있을 수 있다. 구조적 저장소에 대한 이 확장성을 달성하기 위해, 실시예는 서버에 걸쳐 테이블 및 행을 분산시키기 위해 분할을 이용한다. 분할은 테이블 내의 행을 파티션으로 그룹화하고/나누고, 이어서 파티션이 서로 다른 서버에 할당되어 그로부터 제공(서버에 대한 읽기 및 쓰기 액세스의 제공)될 수 있다.

테이블을 확장가능하도록 만들기 위해, 테이블은 파티션 키(partition key)를 구성하는, 속성이라고 불리우는 1개 내지 다수개의 키를 가진다. 예를 들어, 도 2의 테이블(200)을 참조하면, 테이블(200)의 첫번째 열(204)은 각각의 행/엔터티에 대한 파티션 키를 포함한다. 주어진 테이블에 대해 2개 이상의 파티션 키 속성/열이 있는 경우, 서로 결합된 속성/열은 그 테이블에 대한 복합 파티션 키(composite partition key)를 형성한다. 행에 대한 파티션 키의 값은 엔터티/행이 속하는 파티션을 식별하는 데 사용된다. 동일한 파티션 키 값을 가지는 행은 동일한 파티션으로 그룹화된다고 말해진다.

파티션 키에 부가하여, 각각의 행은 0개 내지 다수개의 추가 행 키(row key) 속성/열을 가질 수 있다. 예를 들어, 다시 도 2의 테이블(200)을 참조하면, 테이블(200)의 두번째 열(206)은 각각의 행/엔터티에 대한 행 키를 포함한다. 행 키는 파티션 내에서의 행의 고유 ID를 나타낸다. 파티션 키는 행 키와 결합되어 테이블 내의 행/엔터티에 대한 기본 키(primary key)(고유 ID)를 나타낸다. 기본 키는 테이블 내의 파티션에 대한 기본 정렬 순서(primary sort order)를 나타낸다. 행 키가 없는 경우, 파티션 키가 기본 키이고 테이블 내의 각각의 엔터티를 일의적으로 식별해야만 한다. 이하에서의 설명이 단일 파티션 키 및 단일 행 키의 측면에서 본 발명의 실시예를 기술하고 있지만, 다수의 파티션 키 및/또는 행 키가 사용될 때에도 똑같이 적용될 수 있다.

파티션 키는 동일한 파티션 키 "값"을 가지는 행을 그룹화하는 데 사용되는 반면, 행 키는 파티션 내의 행의 고유 ID를 나타낸다. 파티션 키 값에 기초하여 테이블 행을 나누는 것을 본 명세서에서 테이블을 분할(partitioning)한다고 말한다. 이것은 테이블의 행을 파티션으로 그룹화/나눈다. 파티션은 동일한 파티션 키 값을 가지는 일련의 행이며, 따라서 동일한 파티션 키를 가지는 모든 행은 항상 동일한 파티션 내에 저장될 것이다. 따라서, 동일한 파티션 키 값을 가지는 2개의 행은 동일한 파티션에 있고, 2개의 파티션에 걸쳐 분할되지 않는다. 그에 부가하여, 일부 실시예에서, 파티션 키 값이 파티션 키 네임스페이스(partition key namespace)에서 인접하여 나타나는 한, 서로 다른 파티션 키 값을 가지는 다수의 행이 동일한 파티션으로 그룹화될 수 있도록 파티션의 정의가 확장된다. 일례로서, 도 2의 테이블(200)을 참조하면, 제1 파티션(P1 210), 제2 파티션(P2 212), 제3 파티션(P3 214) 및 제4 파티션(P4 216)을 포함하는 4개의 파티션이 예시되어 있다. 도 2에 도시된 바와 같이, 일부 파티션은 단일 파티션 키 값의 행을 포함하고 있는 반면, 다른 파티션은 다중 파티션 키 값의 행을 포함하고 있다. 전자의 일례로서, P1(210)은 전체적으로 1의 파티션 키 값을 가지는 행을 포함하고, P2(212)는 전체적으로 2의 파티션 키 값을 가지는 행을 포함한다. 후자의 일례로서, P3(214)는 전체적으로 3, 4 또는 5의 파티션 키 값을 가지는 행을 포함하고, P4(216)는 전체적으로 6 또는 7의 파티션 키 값을 가지는 행을 포함한다.

분할의 이점은 (1) 데이터의 액세스 패턴 및 트래픽 요구에 기초하여 테이블을 파티션으로 나누고 파티션을 서버들에 걸쳐 분산시킴으로써 테이블에 대한 액세스를 스케일링할 수 있는 것, 및 (2) 동일한 파티션 내의 행이 그룹화되어 동일한 테이블 서버로부터 액세스되며, 이로 인해 동작의 범위가 파티션 내로 한정될 때 보다 효율적인 쿼리, 스캔 및 캐싱이 가능하게 되는 것을 포함하지만, 이들로 제한되지 않는다. 파티션에 걸쳐 스캔하는 것이 훨씬 더 효율적인 이유는, 쿼리를 할 때 파티션 키를 지정하지 않는 경우 잠재적으로 전체 테이블에 걸쳐 탐색해야만 하는 것 대신에, 파티션에 대한 단일 테이블 서버로부터 파티션이 액세스되기 때문에, 대체로 파티션 내의 행만 스캔되면 되기 때문이다.

상위 레벨 아키텍처

본 발명의 실시예에 따르면, 본 명세서에서 "테이블 서버"라고 하는 일련의 서버는 구조적 저장 시스템을 저장하고 그에 대한 액세스를 제공한다. 그에 부가하여, 본 명세서에서 "테이블 마스터"라고 하는 일련의 서버는 테이블 서버를 관리한다. "테이블 클라이언트"는 응용 프로그램에게 구조적 저장 시스템에 대한 액세스를 제공한다.

이제 도 3을 참조하면, 본 발명의 일 실시예에 따른 시스템(300)의 상위 레벨 아키텍처를 나타낸 블록도가 제공된다. 본 명세서에 기술된 이 구성 및 기타 구성이 단지 일례로서 기술되어 있다는 것을 잘 알 것이다. 기타 구성 및 요소(예를 들어, 기계, 인터페이스, 기능, 순서, 및 기능 그룹, 기타)가 도시된 것에 부가하여 또는 그 대신에 사용될 수 있으며, 일부 요소는 완전히 생략될 수 있다. 게다가, 본 명세서에 기술된 요소들 중 다수는, 개별 구성요소 또는 분산 구성요소로서 또는 다른 구성요소와 함께, 임의의 적당한 조합으로 임의의 적당한 위치에 구현될 수 있는 기능적 엔터티이다. 본 명세서에서 하나 이상의 엔터티에 의해 수행되는 것으로 기술된 다양한 기능이 하드웨어, 펌웨어 및/또는 소프트웨어에 의해 수행될 수 있다. 예를 들어, 메모리에 저장된 명령어를 실행하는 프로세서에 의해 다양한 기능이 수행될 수 있다.

도시되지 않은 구성요소 중에서도 특히, 시스템(300)은 일반적으로 테이블 마스터(302), 테이블 서버(304, 306, 308, 310) 및 테이블 클라이언트(312)를 포함한다. 각각은, 예를 들어, 도 1을 참조하여 기술된 컴퓨팅 장치(100)와 같은 임의의 유형의 컴퓨팅 장치 상에 존재할 수 있다. 이들 구성요소는 하나 이상의 LAN(local area network) 및/또는 WAN(wide area network)(이들로 제한되지 않음)을 포함할 수 있는 네트워크를 통해 서로 통신을 할 수 있다. 도 3에 단지 1개의 테이블 마스터, 4개의 테이블 서버 및 1개의 테이블 클라이언트만이 도시되어 있지만, 본 발명의 실시예의 범위 내에서 임의의 수의 테이블 마스터, 테이블 서버 및 테이블 클라이언트가 시스템(300) 내에서 이용될 수 있다는 것을 잘 알 것이다.

테이블 마스터(302)는 다음과 같은 일을 맡고 있다: (1) 테이블 서버(304, 306, 308, 310)에 파티션을 할당하는 것, (2) 오류로 인해 파티션이 제공되지 않을 때를 신속하게 판정하고 파티션을 다른 테이블 서버에 재할당하는 것, (3) 테이블 서버(304, 306, 308, 310) 간의 파티션의 로드 분산을 제어하는 것, 및 (4) 테이블 서버(304, 306, 308, 310)의 상태를 모니터링하는 것.

각각의 테이블 서버(304, 306, 308, 310)는 테이블 마스터에 의해 테이블 서버에 할당된 파티션에 대한 읽기 및 쓰기 액세스를 제공하는 일을 맡고 있다. 각각의 테이블 서버(304, 306, 308, 310)는 0개 내지 다수개의 파티션을 호스팅할 수 있다. 도 3의 일례에서, TS1(304)은 파티션 P1 및 P4를 호스팅하고, TS2(306)는 파티션 P2 및 P7을 호스팅하며, TS3(308)는 파티션 P3를 호스팅하고, TS4(310)는 P5 및 P6를 호스팅한다.

테이블 클라이언트(312)는 응용 프로그램에 링크되고, 테이블 서버(304, 306, 308, 310)에 의해 유지되는 파티션에게 명령을 내리는 데 사용된다. 테이블 클라이언트(312)는 파티션 맵을 사용하여 파티션을 제공하는 테이블 서버를 결정하고, 그 테이블 서버로 명령을 송신한다. 테이블 클라이언트(312)는 또한 테이블 서버로부터 다시 결과를 수신하고 이를 응용 프로그램으로 전달한다. 파티션 맵은 파티션과 파티션을 제공하는 테이블 서버 간의 매핑을 저장하는 특수 테이블이며, 테이블 마스터(302)에 의해 유지된다.

도 4에 나타낸 바와 같이, 내부적으로, 테이블 서버에서 제공되는 파티션(400)은 3가지 주요 부분, 즉 업데이트 로그(402), 1개 내지 다수개의 메모리 테이블(404) 및 0개 내지 다수개의 파일 테이블(406)을 포함한다. 업데이트 로그(402)는 영구 저장소 내의 파티션에 대한 최근의 변화를 추적한다. 메모리 테이블(404)은 업데이트 로그에서의 최근의 (델타) 업데이트의 메모리 버전이다. 이들은 파티션(400)에 대한 최근의 델타 변화이다. 메모리 테이블(404)이 충분히 커지거나 충분한 변경이 있는 경우, 메모리 테이블(404)이 저장소에 보관되는 파일 테이블(406)에 대해 검사된다. 이것이 행해질 때, 검사된 메모리 테이블(checkpointed memory table)(404)까지의 업데이트 로그(402) 내의 모든 요청이 업데이트 로그(402)로부터 제거될 수 있다. 앞서 기술한 바와 같이, 파티션은 그의 지속적 상태를 저장하는 일련의 스트림을 가진다. 업데이트 로그(402)는 이들 스트림 중 하나[업데이트 로그 스트림(update log stream)이라고 함]에 저장된다. 모든 파일 테이블(406)은 이들 스트림 중 하나[파일 테이블 스트림(file table stream)이라고 함]에 저장된다.

테이블 서버가 파티션을 로드할 때, 파티션이 마지막으로 오프로딩되기 바로 전의 상태로 메모리 테이블을 다시 재구성하기 위해, 테이블 서버는 가장 최근의 검사점 이후의 업데이트 로그 내의 모든 요청을 재생(replay)한다.

테이블 서버에서 파티션에 액세스할 때, 모든 최근의 변화를 알기 위해 테이블 서버는 먼저 메모리 테이블 내에 일치된 행이 있는지를 살펴보고, 일치하는 것이 없는 경우, 그 데이터가 있는지 자신의 페이지 캐시 및 파일 테이블을 조사한다.

파티션에 대한 다수의 메모리 테이블 및 다수의 파일 테이블이 있을 수 있다. 다수의 메모리 테이블이 있을 수 있는 이유는 하나의 메모리 테이블이 꽉차게 될 때, 그 메모리 테이블이 파일 테이블에 대해 검사될 필요가 있기 때문이다. 이것이 행해질 때, 현재 메모리 테이블은 읽기 전용으로 설정되고, 쓰기(writing)를 위해 파티션에 대한 새 메모리 테이블이 생성된다. 따라서, 파티션은 항상 최근의 (델타) 업데이트에 대해 사용되는 하나의 메모리 테이블을 가지며, 지연되어 검사(lazily checkpointed) 하나 이상의 메모리 테이블을 가질 수 있다. 메모리 테이블이 파일 테이블에 대해 검사되면, 메모리 테이블이 삭제되거나 가비지 수집될 수 있다.

파티션에 대해 모든 검사가 행해진 것으로 인해, 파티션에 대한 다수의 파일 테이블 검사점이 있을 수 있다. 이것은, 파일 테이블로부터 데이터를 읽어야 할 때, 잠재적으로 다수의 파일 테이블이 조사될 필요가 있고 가장 최근 것부터 가장 오래된 것으로 탐색된다. 이렇게 하는 이유는 가장 최근에 쓰여진 파일 테이블이 파티션에 대한 가장 최근의 변화를 포함하기 때문이다. 파티션이 있는지 충분한 파일 테이블이 검사되었을 때, 파티션이 있는지 탐색되는 데이터를 찾기 위해 검색되어야 하는 파일 테이블의 수를 줄이기 위해, 테이블 서버는 파일 테이블을 새로운 병합된 파일 테이블로 지연되어 압축/병합한다.

확장가능하고 사용가능하며 지속가능한 구조적 저장소

본 발명의 실시예는 확장가능한 구조적 저장 시스템을 제공하는 데 분할(partitioning), 로드 분산(load balancing) 및 조절(throttling)을 이용한다. 확장성은 다음과 같은 것들에 의해 제공된다: (1) 테이블을 파티션으로 분할하고 파티션을 데이터 센터 내의 다수의 서버에 걸쳐 분산시키는 것, (2) 로드가 많이 걸린 테이블 서버로부터 로드가 적게 걸린 테이블 서버로 파티션을 이동시키기 위해 로드 분산을 사용하는 것, 및 (3) 너무 많은 트래픽이 보내지는 파티션에 대한 요청을 무시(drop)하도록 조절하는 것 또는 너무 많은 트래픽이 보내지는 테이블 서버에 대한 요청을 무시하는 것.

파티션의 서로 다른 부분에 대한 로드에 기초하여 테이블을 파티션으로 자동으로 분할하고 이어서 테이블 서버에 걸쳐 로드 분산함으로써 확장성이 제공된다. 로드 분산은 시스템이 작업량에 동적으로 적응하게 하고 로드를 많은 수의 컴퓨터에 걸쳐 분산시키며, 그로써 모든 실제 리소스를 효율적으로 이용함으로써 더 나은 확장성을 달성한다. 그에 부가하여, 조절(throttling)은 시스템을 높은 로드로부터 보호하여, 시스템이 효율적인/최적화된 체제로 동작하게 한다.

사용가능성은 테이블 마스터에서 제공되지 않는 파티션을 식별하고 이들을 다른 테이블 서버에 할당하며 파티션 맵을 업데이트함으로써 제공되며, 이에 의해 테이블 클라이언트는 파티션의 새 위치를 찾아내어 그에 액세스할 수 있다. 노드/네트워크 오류의 경우에 파티션을 신속하게 재할당하는 것은 모든 파티션을 액세스가능한 상태로 유지하고 높은 시스템 사용가능성을 가져온다.

지속가능성은 모든 파티션 데이터를 복제된 스트림 계층에 저장함으로써 제공된다. 스트림 계층은 (파일과 유사한) 스트림에/으로부터 데이터를 쓰기/읽기 위해 파일 시스템과 유사한 인터페이스를 제공하고, 스트림 계층은, 시스템 내의 임의의 테이블 서버로부터 데이터가 복제되고 항상 지속가능하며 사용가능하도록 하기 위해, 전체 기능을 제공한다. 따라서, 파티션 맵, 업데이트 로그 및 파일 테이블을 비롯한 파티션 정보는 스트림 계층에 저장된다.

효율적인 스트림 레벨 동작

스트림 계층은 스트림의 한 영역을 다른 스트림에 효율적으로 하드 링크(hard-linking)시키는 기능을 제공한다. 스트림 계층에 있는 각각의 스트림은 익스텐트(extent)라고 하는 데이터 블록의 목록으로 이루어져 있다. 스트림 내의 데이터는 실제로는 그 익스텐트 내에 저장된다. 스트림은 익스텐트의 순서있는 목록이다. 주어진 익스텐트가 다수의 스트림에 존재할 수 있거나, 심지어 동일한 스트림의 순서 있는 익스텐트 목록(ordered extent list)에서 여러번 나타날 수 있다. 스트림 계층은 다른 스트림에 존재하는 일련의 기존의 익스텐트를 링크시킴으로써 스트림을 작성하는 인터페이스를 제공한다. 이 프로세스에서는 실제 데이터 복사가 수반되지 않으며, 따라서 아주 효율적이다. 스트림 계층은 각각의 익스텐트의 참조 카운트(reference count)를 유지한다. 익스텐트가 그를 가리키는 스트림을 갖지 않는 경우, 스트림 계층은 시스템으로부터 이 익스텐트를 가비지 수집/삭제할 것이다.

스트림 계층은 또한, 하나의 원자성 트랜잭션에서, 스트림의 작성, 삭제, 이름 변경 및 익스텐트를 스트림에 하드 링크시키는 것과 같은 다수의 스트림 레벨 동작을 가지는 기능도 지원한다.

구조적 저장 시스템은 파티션의 스트림의 사용되지 않는 부분을 효율적으로 가비지 수집하기 위해 이들 특징을 광범위하게 사용한다. 일례에서, 파티션의 검사가 행해지면, 검사점 이전의 업데이트 로그 내의 모든 메시지가 더 이상 사용되지 않는다. 업데이트 로그 스트림과 동일한 이름의 새 스트림을 작성하는 것, 원래의 스트림으로부터 여전히 사용되는 익스텐트를 새 스트림에 하드 링크시키는 것, 및 원래의 스트림을 삭제하는 것을 원자적으로 수행함으로써 업데이트 로그를 효율적으로 잘라내기 위해 이들 특징이 사용된다. 이들 모두가 하나의 원자성 트랜잭션에서 행해진다. 이것은 오류 처리 논리를 상당히 단순화시킨다. 파티션의 다른 스트림(파일 테이블 스트림 및 메타데이터 스트림 등)에 대해 유사한 방식이 또한 사용된다.

구조적 저장 시스템은 또한, 이후의 섹션에서 기술되는 바와 같이, 파티션의 분할 및 병합을 효율적으로 구현하기 위해 이들 특징을 광범위하게 사용한다. 보다 구체적으로는, 어느 비트도 실제로 복사 또는 이동시키는 일 없이, 원래의 파티션(들)으로부터 분할/병합에 의해 만들어진 자식 파티션(들)으로 데이터를 효율적으로 참조하기 위해 이들 특징이 사용된다.

파티션의 분할, 병합 및 로드 분산

본 발명의 일부 실시예는 저장 시스템 내의 테이블 서버 간의 로드 분산의 균형을 이루게 한다. 일반적으로, 테이블 서버는 각각의 파티션의 로드를 추적하고, 이 정보를 테이블 마스터에게 주기적으로 보고한다. 테이블 마스터는 테이블 서버 간에 파티션을 이동시키는 것으로 로드 분산 결정을 한다. 이것은 원래의 테이블 서버로부터 대상 파티션을 오프로딩하고 파티션을 다른 테이블 서버에 할당함으로써 달성된다.

최적화로서, 본 발명의 일부 실시예는, 파티션이 오프로딩되기 전에 또는 오프로딩될 때, 테이블 마스터로 하여금 "오프로딩 준비(prepare to offload)" 요청을 테이블 서버로 송신하게 할 수 있다. 이 요청을 수신할 때, 테이블 서버는, 파티션이 다시 로드될 때 재생될 필요가 있는 로그의 양을 줄이기 위해, 파티션에 대한 검사를 행할 것이다. 파티션을 제공하기 위한 사용가능성 SLA를 충족시키기 위해 이것이 제공된다.

하나의 파티션이 비교적 높은 로드를 가지는 경우에, 파티션을 2개 이상의 파티션으로 분할하는 것이 바람직하게 될 수 있으며, 이것은 파티션이 2개 이상의 파티션 키 값을 포함하는 경우에만 가능하다. 그 후에, 로드 분산을 달성하기 위해 자식 파티션들 중 하나 이상이 다른 테이블 서버로 오프로딩될 수 있다.

로드 분산 추적을 위해, 각각의 테이블 서버에서, 메모리를 그다지 사용하지 않고, 각각의 파티션 내에서의 세분화된 로드 정보를 추적하기 위해 샘플링 메커니즘이 사용된다. 로드 정보를 추적하기 위해, 파티션이 다수의 파티션 키 범위[본 명세서에서 "버킷(bucket)"이라고 함]로 나누어지고, 각각의 버킷에 대응하는 로드가 추적된다. 보다 구체적으로는, 테이블 서버는 이들 버킷에 속하는 요청들을 확률적으로 샘플링하고, 버킷들에 걸쳐 로드 분산을 추적한다. 예를 들어, 도 2의 테이블(200) 내의 파티션 P3(214)을 참조하면, 로드 추적을 위해 파티션이 2개의 버킷으로 나누어질 수 있다. 제1 버킷은 파티션 키 값이 3인 행을 포함할 것이고, 제2 버킷은 파티션 키 값이 4인 행과 파티션 키 값이 5인 행을 포함할 것이다. 실시예에서, 버킷 경계는 항상 파티션 키 값 상에 있어야만 한다. 즉, 동일한 파티션 키 값을 가지는 행은 항상 동일한 버킷에 있을 것이다. 예를 들어, 파티션 키 값이 3인 행은 로드 추적은 물론 분할을 위해 2개의 버킷으로 분할되지 않을 수 있다.

일부 실시예에서, 수집된 트래픽 샘플에 기초하여, 파티션 내의 키에 걸쳐 트래픽 분산을 보다 정확하게 추적하기 위해 버킷 경계가 동적으로 조정될 수 있다. 즉, 2개의 기존의 버킷이 다른 버킷에 비해 그다지 로드를 갖지 않는 경우, 이들은 하나의 버킷으로 병합될 것이고, 이와 달리, 하나의 버킷이 모든 다른 버킷보다 상당히 더 많은 로드를 포함하는 경우, 그 버킷은 가능한 경우 2개로 분할될 수 있다. 예를 들어, 이전의 일례에서, 제2 버킷이 제1 버킷에 비해 너무 많은 로드를 포함하는 경우, 이는 2개의 작은 버킷으로 분할될 수 있고, 그 중 하나가 파티션 키 값이 4인 행을 포함하고, 그 중 다른 하나가 파티션 키 값이 5인 행을 포함한다. 게다가, 파티션 키 값 3을 포함하는 제1 버킷이 로드가 거의 없는 경우, 이는 파티션 키 값 4를 포함하는 버킷과 병합될 수 있다. 이러한 모니터링 및 버킷 크기의 조정은 모두가 즉시 동적으로 행해진다. 하나의 파티션 내의 파티션 키에 걸쳐 로드 분산을 추적하는 데 사용되는 버킷 레벨 샘플링 방식 이외에, 테이블 서버는 또한 파티션 전체에 대한 작업 로드의 총량을 추적한다. 후자는 테이블 마스터로 전달된다. 따라서, 파티션이 로드에 기초하여 분할되어야 할 때, 테이블 서버 및 테이블 마스터 둘다는 파티션이 어디에서 분할되어야 하는지를 결정하는 데 꽤 정확한 로드 분산 정보를 이용할 수 있다.

이제 도 5를 참조하면, 본 발명의 일 실시예에 따른, 파티션을 분할하는 방법(500)을 나타낸 흐름도가 제공된다. 도 5의 실시예에서, 부모 파티션(P1)은 2개의 자식 파티션[P1'(단지 행의 부분집합을 포함하도록 수정된 원래의 파티션) 및 P2(나머지 행을 포함하는 새 파티션)]으로 분할된다. 도 5가 파티션을 2개의 자식 파티션으로 분할하는 것에 대해 기술하고 있지만, 본 발명의 실시예에 따르면 파티션이 3개 이상의 자식 파티션으로 분할될 수 있다는 것을 잘 알 것이다.

먼저, 블록(502)에 도시된 바와 같이, 테이블 서버, 파티션 및/또는 파티션 일부분(partition portion)(즉, "버킷")에 대한 로드 분산 정보가 추적된다. 상기한 바와 같이 파티션 일부분 레벨에서 세분화된 로드 정보를 추적함으로써, 파티션을 어디에서 분할해야 하는지에 관한 결정이 행해질 수 있다. 로드 정보가 테이블 서버에서 추적되고 주기적으로 테이블 마스터에게 제공된다. 본 실시예에서, 테이블 마스터로 송신되는 로드 정보는 각각의 파티션의 총로드 및 각각의 테이블 서버의 로드를 포함한다. 일부 다른 실시예는 버킷 레벨 정보를 비롯한 모든 로드 추적 정보를 테이블 마스터에게 제공할 수 있다. 로드 분산 및 분할 결정에 도움을 주기 위해 파티션에 대한 부가의 정보, 제한 및 암시가 테이블 서버로부터 테이블 마스터에게 제공된다. 예를 들어, 버킷 정보의 분산에 기초하여, 테이블 서버는 파티션의 "분할 거부(reluctant to split)"를 심각도(degree of severity)로 표시할 수 있으며, 여기서 높음은, 테이블 서버가 파티션을 분할하지 않을 것이기 때문에, 테이블 마스터가 파티션에 대한 분할을 요청해서는 안된다는 것을 의미하고, 중간은 테이블 서버가 파티션을 분할하지 않기로 선택할 수 있고 테이블 마스터가 그 결정을 번복할 수 있는 어떤 상황이 있다는 것을 의미하며, 낮음은 테이블 서버가 수신 대기하고 있다가 테이블 마스터로부터 지시를 받는다는 것을 의미한다.

테이블 마스터는 파티션을 분할할지 여부, 파티션을 병합할지 여부, 및/또는 테이블 서버 간에 파티션을 이동시킬지 여부를 비롯한 로드 정보를 사용하여 로드 분산 결정을 한다. 도 5의 본 실시예에서, 블록(504)에 나타낸 바와 같이, 테이블 마스터는 로드 분산 정보에 기초하여 파티션(P1)을 분할하기로 결정한다.

블록(506)에서, 테이블 마스터는 파티션을 분할하기 위한 분할비를 결정한다. 분할비는 파티션이 분할되어야만 하는 위치를 결정하기 위한 로드비(load ratio)를 나타낸다. 예를 들어, 테이블 마스터는 30%/70% 로드 지점에서 파티션을 분할하기로 결정할 수 있다. 환언하면, 파티션의 제1 부분에 대한 로드가 30%이고 파티션의 나머지에 대한 로드가 70%인 지점에서 파티션이 분할되어야 한다. 블록(508)에서, 테이블 마스터는 분할하라는 요청을 식별된 파티션을 호스팅하는 테이블 서버로 송신한다. 상세하게는, 테이블 마스터는 파티션에서의 분할비에 대응하는 위치를 지정하는 키 정보를 요청한다. 요청에 응답하여, 블록(510)에 나타낸 바와 같이, 테이블 서버는 분할비에 기초하여 파티션을 분할하기 위한 실제 파티션 키 위치를 식별한다. 실제 위치는 분할비에 의해 지정된 로드 분산과 일치하려고 시도하지만, 실제 로드 분산이 달라질 수 있다. 예를 들어, 테이블 마스터에 의해 요청된 분할비는 30%/70% 로드 분산일 수 있지만, 제공될 수 있는 가장 가깝게 일치하는 것은 35%/65% 로드 분산일 수 있다.

일부 실시예에서, 분할을 위한 실제 위치는 파티션 키 정보를 사용하여 식별된다. 예를 들어, 도 2의 파티션 P3(214)이 파티션 키 값 3과 파티션 키 값 4 사이에서 분할되어야 하는 경우, 분할을 식별해주는 키 정보는 파티션 키 값 3 및/또는 파티션 키 값 4일 수 있다. 이러한 변형례 전부가 본 발명의 실시예의 범위에 속하는 것으로 생각된다. 블록(512)에 나타낸 바와 같이, 테이블 서버는 분할비에 대한 키 정보를 테이블 마스터에게 반환한다.

블록(514)에 나타낸 바와 같이, 테이블 마스터는 새 파티션(P2)에 대한 스트림을 자식 파티션들 중 하나로서 구축한다. 파티션의 모든 지속적 상태가 그 파티션에 대한 "스트림"에 유지된다. 파티션의 모든 다른 스트림에 대한 포인터는 물론 그 파티션의 중요한 정보[파티션에 포함된 모든 행의 파티션 키 범위 등]도 포함하는, 파티션에 대한 메타데이터 스트림이 있다. 이 단계에서, 테이블 마스터는 분할비에 대응하는 올바른 파티션 키 범위 정보를 가지는 새 파티션(P2)에 대한 메타데이터 스트림을 작성하는 일을 맡고 있다. 그에 부가하여, 블록(516)에서, 테이블 마스터는 분할 요청을 테이블 서버로 송신한다. 분할 요청은, 그 다음 하트비트에서, 테이블 마스터로부터 테이블 서버에게 제공될 수 있다.

일부 실시예에서, 오류를 처리하기 위해 적절한 마스터 로그가 기록된다. 테이블 마스터는, 각각의 단계가 완료된 후에, 대응하는 단계를 로그하며, 따라서 마스터 오류의 경우에, 로그가 재생될 수 있고, 테이블 마스터는 분할이 중단된 곳으로부터 분할을 재시작할 수 있다.

분할 요청을 수신한 후에, 블록(518)에 나타낸 바와 같이, 테이블 서버는 원래의 파티션(P1)을 제공하는 것을 중단하고 원래의 파티션(P1)을 언로드한다. 블록(520)에 나타낸 바와 같이, 테이블 서버는 또한 원래의 파티션으로부터 2개의 자식 파티션(P1' 및 P2)을 작성한다. 테이블 서버는 원래의 파티션(P1)에서의 정보에 기초하여 (메타데이터 스트림 이외에) 새 파티션(P2) 스트림을 구축한다. 보다 구체적으로는, P2의 키 범위에 속하는 데이터의 일부분이 기본 스트림 계층의 특징을 사용하여 파티션(P1)으로부터 파티션(P2)의 스트림으로 효율적으로 복사/하드 링크될 것이다. 자식 파티션(P1')은 P1의 키 범위를 조정함으로써 "만들어진다". 자식 파티션(P1')은 원래의 파티션(P1)과 동일한 일련의 스트림을 사용한다. 감소된 키 범위를 조정하기 위해 P1'의 메타데이터가 변경된다.

블록(522)에 나타낸 바와 같이, 테이블 서버는 자식 파티션(P1' 및 P2) 둘다를 로드하고 이들 파티션을 제공하기 시작한다. 그에 부가하여, 블록(524)에 나타낸 바와 같이, 테이블 서버는 분할의 완료에 관해 테이블 마스터에게 통지한다. 이 통지는, 그 다음 하트비트에서, 테이블 서버로부터 테이블 마스터에게 제공될 수 있다. 테이블 서버로부터의 분할 완료 통지에 응답하여, 블록(526)에 나타낸 바와 같이, 테이블 마스터는 새 파티션을 반영하기 위해 파티션 맵을 업데이트한다. 이 시점에서, 테이블 마스터는 분할 완료를 고려할 수 있다. 블록(528)에 나타낸 바와 같이, 테이블 마스터는 새로 만들어진 자식 파티션(P2)을 포함하는 새 할당을 테이블 서버로 송신하여 파티션 맵과 일치하도록 한다.

일부 실시예에서, 파티션이 분할된 후에, 테이블 마스터는 자식 파티션을 원래의 파티션이 존재했던 테이블 서버로부터 다른 테이블 서버로 이동시키기로 결정할 수 있다. 이것에 의해 테이블 마스터는 네트워크에 걸쳐 로드를 효과적으로 분산시킬 수 있다. 파티션을 한 테이블 서버로부터 오프로딩하고 이어서 이를 다른 테이블 서버에 할당함으로써 파티션 이동이 달성된다.

본 발명의 다른 실시예에서, 블록(518)에서 원래의 파티션이 언로드되기 전에 새 자식 파티션을 만듦으로써, 도 5를 참조하여 전술한 분할 프로토콜의 성능이 향상될 수 있다. 전술한 방법(500)에 대한 다른 변동도 역시 당업자에게는 명백하게 될 수 있으며, 본 발명의 실시예의 범위 내에 있다.

도 6은 본 발명의 일 실시예에 따른, 도 2의 P3(214)를 분할하는 것의 일례를 나타낸 것이다. 상세하게는, 도 6은 TS3(308) 상에 존재하는 P3(214)의 분할을 수행하기 위한 테이블 마스터(302)와 도 3의 TS3(308) 간의 상호작용을 나타낸 것이다. 먼저, 602에 나타낸 바와 같이, 테이블 마스터(302)는 P3(214)를 분할하기 위한 위치를 식별하기 위해 키 정보를 쿼리하라는 요청을 TS3(308)으로 송신한다. 이 요청은 0.3 분할비를 지정하며, 이는 테이블 마스터가 P3(214)에 대한 로드의 30%를 수신한 P3(214)의 한 부분과 로드의 70%를 수신한 나머지 부분 사이의 위치에서 P3(214)를 분할하고자 한다는 것을 나타낸다.

테이블 마스터(302)로부터의 요청에 응답하여, TS3(308)은 테이블 마스터(302)에 의해 지정된 분할비에 대응하는 키 정보를 결정한다. 키 정보는 분할비로서 테이블 마스터(302)에 의해 지정된 30%/70% 로드 분산에 기초하여 P3(214)의 2개의 부분 사이의 위치를 나타낸다. 본 일례에서, TS3(308)는 파티션 키 값이 3인 행에 대한 로드가 로드의 대략 30%를 가지는 반면 나머지에 대한 로드가 로드의 대략 70%를 가지는 것으로 판정한다. 그에 따라, 본 일례에서 TS3(308)에 의해 결정된 키 정보는 파티션 키 값 4이다. 다양한 실시예에서, P3(214)가 분할되어야 하는 위치를 식별해주기 위해 다른 키 정보가 제공될 수 있다는 것을 잘 알 것이다.

606에서, TS3(214)는 키 정보(즉, 파티션 키 값 4)를 테이블 마스터(302)로 전달한다. 608에서, 테이블 마스터(302)는 새 파티션(PN)에 대한 스트림을 구축한다. 그에 부가하여, 블록(610)에서, 테이블 마스터(302)는 분할 요청을 테이블 마스터로 송신한다. 본 일례에서 분할 요청은 각각의 자식 파티션에 대한 범위를 지정한다. 상세하게는, 하나의 자식 파티션(P3')에 대해, 분할 요청은 하위 파티션 키 값 3 및 상위 파티션 키 값 4를 나타내며, 이는 P3'이 파티션 키 값 3을 가지는 행을 포함한다는 것을 나타낸다. 다른 자식 파티션(PN)에 대해, 분할 요청은 하위 파티션 키 값 4 및 상위 파티션 키 값 6을 나타내고, 이는 PN이 파티션 키 값 4를 가지는 행은 물론 파티션 키 값 5를 가지는 행도 포함한다는 것을 나타낸다.

분할 요청에 기초하여, 612에서, TS3는 원래의 파티션 P3(214)를 제공하는 것을 중단한다. 그에 부가하여, 614에 나타낸 바와 같이 TS3(308)는 P3를 P3' 및 PN으로 분할하고, 616에 나타낸 바와 같이 P3' 및 PN을 제공하기 시작한다. 618에 나타낸 바와 같이, TS3(308)는 이어서 분할 완료 통지를 테이블 마스터(302)로 송신한다. 620에서, 테이블 마스터(302)는 자식 파티션을 반영하기 위해 파티션 맵을 업데이트한다.

이제 도 7을 참조하면, 본 발명의 다른 실시예에 따른, 파티션을 분할하는 방법(700)을 나타낸 흐름도가 제공된다. 도 7의 실시예에서, 부모 파티션(P1)은 2개의 새 자식 파티션(P2, P3)으로 분할되고, 각각의 자식 파티션은 부모 파티션(P1)으로부터의 행의 일부분을 포함한다. 도 7이 파티션을 2개의 자식 파티션으로 분할하는 것에 대해 기술하고 있지만, 본 발명의 실시예에 따르면 파티션이 3개 이상의 자식 파티션으로 분할될 수 있다는 것을 잘 알 것이다.

도 5의 방법(500)과 유사하게, 블록(702)에 나타낸 바와 같이, 처음에 로드 분산 정보가 추적된다. 로드 분산 정보에 의해 테이블 마스터는 파티션을 분할할지 여부, 파티션을 병합할지 여부, 및/또는 테이블 서버 간에 파티션을 이동시킬지 여부를 비롯한 로드 분산 결정을 할 수 있다. 도 7의 본 실시예에서, 블록(704)에 나타낸 바와 같이, 테이블 마스터는 로드 분산 정보에 기초하여 파티션(P1)을 분할하기로 결정한다.

블록(706)에서, 테이블 마스터는 파티션을 분할하기 위한 분할비를 결정한다. 앞서 논의된 바와 같이, 분할비는 파티션이 분할되어야만 하는 위치를 결정하기 위한 로드비(load ratio)를 나타낸다. 예를 들어, 테이블 마스터는 30%/70% 로드 지점에서 파티션을 분할하기로 결정할 수 있다. 블록(708)에서, 테이블 마스터는 분할하라는 요청을 식별된 파티션을 호스팅하는 테이블 서버로 송신한다. 상세하게는, 테이블 마스터는 파티션에서의 분할비에 대응하는 위치를 지정하는 키 정보를 요청한다. 요청에 응답하여, 블록(710)에 나타낸 바와 같이, 테이블 서버는 분할비에 기초하여 파티션을 분할하기 위한 실제 위치를 식별한다. 블록(712)에 나타낸 바와 같이, 테이블 서버는 분할비에 대한 키 정보를 테이블 마스터에게 반환한다.

블록(714)에 나타낸 바와 같이, 테이블 마스터는 새 파티션(P2 및 P3)에 대한 메타데이터 스트림을 구축한다. 일부 실시예에서, 오류를 처리하기 위해 적절한 마스터 로그가 기록된다. 테이블 마스터는, 각각의 단계가 완료된 후에, 대응하는 단계를 로그하며, 따라서 마스터 오류의 경우에, 로그가 재생될 수 있고, 테이블 마스터는 분할이 중단된 곳으로부터 분할을 재시작할 수 있다. 그에 부가하여, 블록(716)에서, 테이블 마스터는 분할 요청을 테이블 서버로 송신한다. 분할 요청은, 그 다음 하트비트에서, 테이블 마스터로부터 테이블 서버에게 제공될 수 있다.

분할 요청에 응답하여, 블록(718)에 나타낸 바와 같이, 테이블 서버는 원래의 파티션(P1)으로부터 2개의 자식 파티션(P2 및 P3)을 작성한다. 테이블 서버는 원래의 파티션(P1)에 기초하여 (메타데이터 스트림 이외에) 새 파티션(P2 및 P2)에 대한 스트림을 구축한다. 보다 구체적으로는, P2의 키 범위에 속하는 데이터의 일부분이 기본 스트림 계층의 특징을 사용하여 파티션(P1)으로부터 파티션(P2)의 스트림으로 효율적으로 복사/하드 링크될 것이다. 이와 유사하게, P3의 키 범위에 속하는 데이터의 일부분이 기본 스트림 계층의 동일한 특징을 사용하여 파티션(P1)으로부터 파티션(P3)의 스트림으로 효율적으로 복사/하드 링크될 것이다.

블록(720)에 나타낸 바와 같이, 테이블 서버는 원래의 파티션(P1)을 제공하는 것을 중단하고 원래의 파티션(P1)을 언로드한다. 그에 부가하여, 블록(722)에 나타낸 바와 같이, 테이블 서버는 자식 파티션(P2 및 P3) 둘다를 로드하고 이들 파티션을 제공하기 시작한다. 블록(724)에 나타낸 바와 같이, 테이블 서버는 분할의 완료에 관해 테이블 마스터에게 통지한다. 이 통지는, 그 다음 하트비트에서, 테이블 서버로부터 테이블 마스터에게 제공될 수 있다. 테이블 서버로부터의 분할 완료 통지에 응답하여, 블록(726)에 나타낸 바와 같이, 테이블 마스터는 새 파티션을 반영하기 위해 파티션 맵을 업데이트한다. 이 시점에서, 테이블 마스터는 분할 완료를 고려할 수 있다. 블록(728)에 나타낸 바와 같이, 테이블 마스터는 새로 만들어진 자식 파티션(P2 및 P3)을 포함하는 새 할당을 테이블 서버로 송신하여 파티션 맵과 일치하도록 한다.

어떤 경우에, 테이블 마스터는, 예를 들어, 로드 분산 정보에 기초하여, 2개 이상의 파티션을 하나의 파티션으로 병합하기로 결정할 수 있다. 일 실시예에서, 2개의 인접 파티션(즉, 테이블에서의 행의 순서에서 인접한 파티션)이 비교적 낮은 로드를 가질 때 병합이 수행된다. 여러 파티션을 하나의 파티션으로 병합하는 것은 시스템에서의 파티션의 수를 줄이는 데 유익할 수 있다.

그에 따라, 도 8은 본 발명의 일 실시예에 따른, 파티션을 병합하는 방법(800)을 나타낸 흐름도이다. 블록(802)에 나타낸 바와 같이, 처음에 로드 분산 정보가 추적된다. 로드 분산 정보에 기초하여, 블록(804)에 나타낸 바와 같이, 테이블 마스터는 2개의 파티션(P1 및 P2)이 새 파티션(P3)으로 병합되어야 하는 것으로 결정한다. 실시예에서, 연속적이고 연결되어 있는(non-disjoint) 파티션 키 범위를 형성하는 파티션만이 병합될 수 있다.

테이블 마스터가 2개의 파티션을 병합하기로 결정할 때, 블록(806)에 나타낸 바와 같이, 테이블 마스터는 '병합 준비' 메시지(들)를 2개의 파티션을 제공하는 테이블 서버(들)로 송신한다. 어떤 경우에, 양 파티션이 단일 테이블 서버에 존재할지도 모르는 반면, 다른 경우에, 파티션은 서로 다른 테이블 서버에 존재한다. '병합 준비' 메시지는 병합된 파티션의 로드 시간을 줄이기 위해 병합 이전에 파티션을 압축할 기회를 테이블 서버(들)에 제공한다.

테이블 마스터는 블록(808)에서 병합된 파티션(P3)에 대한 메타데이터 스트림을 작성하고, 블록(810)에서 부모 파티션이 존재하는 테이블 서버(들)로부터 2개의 부모 파티션(P1 및 P2)을 오프로딩한다. 이어서, 블록(812)에 나타낸 바와 같이, 테이블 마스터는 파티션 맵을 업데이트한다(원자적으로 오래된 파티션 항목을 제거하고 새 파티션 항목을 삽입한다). 테이블 마스터의 관점에서 볼 때, 이 시점에서 병합 트랜잭션이 완료되는데, 그 이유는, 테이블 마스터 장애 조치의 경우에, 새로운 병합된 파티션이, 부트스트랩 동안, 보관된 파티션 맵에서 발견될 것이기 때문이다.

블록(814)에 나타낸 바와 같이, 테이블 마스터는 병합된 파티션(P3)을 테이블 서버에 할당한다. 병합된 파티션이 할당되는 테이블 서버는 시스템 내의 어떤 테이블 서버라도 될 수 있다. 예를 들어, 할당된 테이블 서버는 부모 파티션 중 하나 또는 둘다가 존재했던 테이블 서버일 수 있거나, 시스템 내의 다른 테이블 서버일 수 있다.

할당 시에, 블록(816)에 나타낸 바와 같이, 테이블 서버는 병합된 파티션을 로드한다. 병합된 파티션의 메타데이터 스트림으로부터, 테이블 서버는 이것이 병합된 파티션이라는 것을 알고, 기본 스트림 계층으로부터의 특징을 사용하여 부모 파티션으로부터 데이터를 효율적으로 복사/하드 링크함으로써 부모 파티션으로부터 병합된 파티션의 스트림을 구축한다. 구축이 완료된 후, 테이블 서버는 (다음에 이 파티션이 로드될 때, 스트림이 다시 구축되지 않도록) 이 이벤트를 병합된 파티션의 메타데이터 스트림에 기록하고, 부모 파티션의 스트림을 삭제한다.

손상된 파티션 상태로부터 복구

지속가능한 구조적 저장 시스템은 시스템 상태에서 버그로부터 복구할 수 있어야만 한다. 이 기능을 달성하기 위해, 본 발명의 일 실시예에서의 구조적 저장 시스템은 추가 전용 저장소(append-only store)에 구축되며, 모든 삭제된 데이터는 시스템에서의 임의의 손상을 발견하는 데 충분히 긴 것으로 생각되는 최소 시간 동안 유지된다.

이제 도 9를 참조하면, 본 발명의 일 실시예에 따른, 손상된 파티션 상태로부터 파티션을 복구하는 방법(900)을 나타낸 흐름도가 제공되어 있다. 먼저, 블록(902)에 나타낸 바와 같이, 손상된 파티션이 식별된다. 파티션이 손상되어 제공될 수 없는 경우, 파티션을 제공되지 않는 것으로 표시하는 경고가 발생된다. 이것으로 인해 그 파티션 내의 데이터가 일시적으로 사용가능성을 상실할 수 있게 될 수 있다.

블록(904)에 나타낸 바와 같이, 손상된 파티션이 일관성있는 파티션 상태로 복구된다. 시스템은 (a) 파티션에 대한 모든 이전의 변경이 추가 전용 저장소에 저장되어 있기 때문에, 파티션을 복구할 수 있거나(이는 어떤 데이터 손실도 없이 파티션을 복구할 것임), (b) 파티션을 이전 시점으로 롤백할 수 있다(이는 어쩌면 롤백시와 오류시 사이에 일어난 변경의 손실을 야기할 수 있음). 파티션이 복구되면, 구조적 데이터의 읽기 및 쓰기를 위해 파티션이 다시 제공될 수 있다.

파티션 롤백 동안, 시스템은 여전히 유효한 상태에 있는 가장 최근의 검사점을 찾고, 검사점을 대응하는 로그(여전히 존재하는 경우)와 함께 사용하여 파티션 상태를 재작성한다.

파티션 롤백 동안, 어떤 경우에, 파티션의 현재 메타데이터 및 데이터 내용이 파티션 상태를 복구하는 데 불충분하다. 그 경우에, 시스템은 다른 관련 파티션(대상 파티션을 수반하는 가장 최근의 분할 또는 병합 동안의 대상 파티션의 부모(들)를 포함함)으로부터의 데이터를 사용한다. 보다 구체적으로는, 시스템은 부모 파티션과 대상 파티션으로부터의 가장 최근의 유효한 검사점의 상태를 병합함으로써 파티션의 상태를 재생성한다.

모든 파티션이 복구 또는 재작성된 후에, 블록(906)에 나타낸 바와 같이, 재생성된 시스템에서의 모든 파티션의 키 범위와 일치하도록 파티션 맵이 수정된다. 이것은 시스템을 다시 전역적으로 일관성있는 상태로 되게 한다.

파티션 버전 관리 및 업그레이드

테이블 서버 코드의 업그레이드를 수행할 때, 한번에 테이블 서버의 부분집합에 대해서만 업그레이드가 수행된다. 그에 따라, 테이블 서버는 N개의 업그레이드 영역으로 나누어지고, 각각의 업그레이드 영역이 한번에 하나씩 업그레이드될 수 있다.

도 10을 참조하면, 본 발명의 일 실시예에 따른, 업그레이드 동안의 파티션 버전 관리 방법(1000)을 나타낸 흐름도가 제공되어 있다. 블록(1002)에 나타낸 바와 같이, 파티션이 다음에 업그레이드 프로세스 동안 업그레이드되어야 하는 대상 업그레이드 영역 내의 테이블 서버로부터 이동될 수 있다. 블록(1004)에 나타낸 바와 같이, 새로운 테이블 서버 코드 버전이 대상 업그레이드 영역 내의 테이블 서버에 배포된다.

업그레이드 프로세스 동안, 블록(1006)에 나타낸 바와 같이, 파티션이 새 테이블 서버 코드 버전을 가지는 테이블 서버에 할당될 수 있고, 어쩌면 새 데이터 형식으로 수정되기 시작할 수 있다. 이 수정 이후에, 파티션은 더 새로운 업그레이드된 테이블 서버에 의해서만 제공될 수 있고 이전 버전의 테이블 서버에 의해서는 제공되지 않을지도 모른다. 그에 따라, 파티션이 버전 N의 테이블 서버에 의해 제공된 경우, 블록(1008)에 나타낸 바와 같이, 시스템은 파티션이 버전 N 또는 그 이후 버전의 테이블 서버(또는 다른 방식으로 호환되는 테이블 서버 버전)에 의해서만 제공되도록 한다.

이것은 본 발명의 실시예의 범위 내에서 다수의 다른 방식으로 달성될 수 있다. 예를 들어, 일 실시예에서, 각각의 파티션, 테이블 서버 및 테이블 마스터에 대해 버전 번호가 추적된다. 업그레이드가 행해질 때, 파티션을 제공하는 테이블 서버가 더 높은 버전 번호인 경우, 파티션은 그 버전 번호를 취한다. 그 시점으로부터, 파티션은 그 버전 또는 그보다 높은 버전의 테이블 서버에 의해서만 제공될 수 있다.

다른 실시예에서, 각각의 테이블 서버가 업그레이드되자마자, 테이블 서버는 자신의 버전을 알려주기 위해 테이블 마스터와 통신을 한다. 테이블 마스터는 최신의 테이블 서버 버전을 추적하고, 할당될 파티션은 최신 버전(또는 다른 방식으로 호환되는 버전)을 가지는 테이블 서버에만 할당될 수 있다.

또 다른 실시예에서, 파티션 버전은 파티션 메타데이터와 함께 보관된다. 테이블 서버는 자신에게 할당된 파티션의 버전을 테이블 마스터에게 통지한다. 테이블 서버는 또한 그 자신의 버전 번호를 테이블 마스터에게 보고한다. 테이블 마스터는 그로써 파티션 버전은 물론 테이블 서버 버전도 추적한다. 그 방식으로, 테이블 마스터는 파티션이 호환 버전의 테이블 서버에 할당될 수 있도록 한다.

결론

본 발명이 모든 점에서 제한적인 것이 아니라 예시적인 것으로 보아야 하는 특정의 실시예에 관해 기술되어 있다. 대안의 실시예가 본 발명의 범위를 벗어나지 않고 본 발명과 관련된 기술 분야의 당업자에게는 명백하게 될 것이다.

이상으로부터, 본 발명이 이 시스템 및 방법에 본질적이고 또 명백한 다른 이점들과 함께 이상에서 기술한 모든 목적을 달성하도록 잘 구성되어 있다는 것을 잘 알 것이다. 어떤 특징 및 서브컴비네이션이 유용하고 또 다른 특징 및 서브컴비네이션을 참조하지 않고 이용될 수 있다는 것을 잘 알 것이다. 이것은 청구항에서 고려되고 있으며 또 청구항의 범위 내에 속한다.

Claims

구조적 저장소(structured storage)가 하나 이상의 테이블로 표현되는 구조적 저장 시스템(structured storage system) 내의 하나 이상의 컴퓨팅 장치에 의해 구현되는 방법으로서,
각각의 테이블은 복수의 행을 포함하며, 각각의 행은 상기 구조적 저장 시스템에 의해 저장되는 데이터 엔터티를 나타내고 상기 행을 식별해 주는 하나 이상의 키를 포함하며, 상기 복수의 행은 복수의 파티션 사이에 분배되며, 각각의 파티션은 상기 테이블 내의 상기 복수의 행으로부터의 행들의 범위를 포함하고, 상기 복수의 파티션은 복수의 테이블 서버에 저장되며, 테이블 마스터가 상기 복수의 테이블 서버에의 파티션 할당을 제어하고,
상기 방법은 파티션을 자식 파티션들로 분할하기 위한 것으로서,
상기 파티션에 대한 로드 정보에 기초하여 분할할 파티션을 식별하는 단계(504) - 상기 로드 정보는 상기 파티션의 2개 이상의 부분 각각에 대한 로드를 지정하는 정보를 포함함 -,
상기 테이블 마스터에 의해, 상기 파티션의 2개 이상의 부분 각각에 대한 로드에 기초하여 상기 파티션을 분할하기 위한 분할비를 결정하는 단계(506),
상기 분할비에 대응하는 상기 파티션 내에서의 실제 위치를 나타내는 키 정보에 대해 상기 테이블 서버에 쿼리하는 단계(508),
상기 테이블 마스터에서 상기 테이블 서버로부터 키 정보를 수신하는 단계(510) - 상기 키 정보는 상기 분할비에 대응하는 상기 파티션 내에서의 실제 위치를 나타냄 -,
상기 테이블 마스터로부터 상기 테이블 서버로 분할 요청을 송신하는 단계(516) - 상기 분할 요청은 상기 키 정보에 기초하여 상기 파티션을 분할하라고 지시함 -,
상기 키 정보에 대응하는 위치에서 상기 파티션을 분할하여 상기 자식 파티션을 생성하는 단계(518, 520, 522),
분할 완료를 상기 테이블 마스터에 통지하는 단계(524), 및
상기 파티션이 상기 자식 파티션들로 분할된 것에 기초하여 파티션 맵을 업데이트하는 단계(526) - 상기 파티션 맵은 복수의 파티션과 상기 복수의 파티션을 제공하는(serving) 복수의 테이블 서버 간의 매핑을 저장함 -
를 포함하는 방법.
제1항에 있어서,
상기 테이블 마스터에서, 상기 자식 파티션들 중 적어도 하나의 자식 파티션에 대한 스트림을 구축하는 단계를 더 포함하는 방법.
제1항에 있어서,
상기 파티션을 분할하는 단계는
상기 테이블 서버로부터 상기 파티션을 제공하는 것을 중단하는 단계,
상기 파티션으로부터 상기 자식 파티션들을 작성하는 단계, 및
상기 테이블 서버로부터 상기 자식 파티션들을 로드하여 제공하는 단계를 포함하며,
상기 파티션을 제공하는 것을 중단하는 단계는 상기 파티션의 검사점을 만듦으로써 파티션 리로드(partition reload) 동안 재생되어야 할 로그의 양을 줄이는 것을 포함하고,
상기 파티션의 검사점을 만드는 것은 원자적으로, 새 로그 스트림(new log stream)을 작성하고, 상기 검사점 이후의 익스텐트(extent)를 이전 로그 스트림(old log stream)으로부터 새 로그 스트림으로 하드 링크시키고, 상기 이전 로그 스트림을 삭제하고, 상기 새 로그 스트림을 상기 이전 로그 스트림의 이름으로 이름 변경함으로써, 검사 동안 로그 스트림을 효율적으로 잘라내는 것을 포함하는 방법.
제3항에 있어서,
상기 파티션으로부터 상기 자식 파티션들을 작성하는 단계는 고비용의 데이터 복사 없이 상기 파티션의 스트림으로부터 익스텐트를 원자적으로 하드 링크시킴으로써 상기 자식 파티션들의 스트림들을 효율적으로 구축하는 단계를 포함하는 방법.
제1항에 있어서,
상기 자식 파티션들 중 적어도 하나의 자식 파티션을 제2 테이블 서버에 할당하는 단계, 및 상기 자식 파티션들 중 적어도 하나의 자식 파티션이 상기 제2 테이블 서버에 위치되어 있음을 나타내도록 상기 파티션 맵을 업데이트하는 단계를 더 포함하는 방법.
제1항에 있어서,
로드 모니터링을 위해 상기 파티션의 2개 이상의 부분의 적어도 일부를 병합 또는 분할함으로써 상기 로드 정보에 기초하여 상기 파티션의 2개 이상의 부분의 경계를 조정하는 단계를 더 포함하는 방법.
하나 이상의 테이블로 표현되는 구조적 저장 시스템을 관리하는 방법을 수행하는 컴퓨터 사용가능 명령어를 저장하는 하나 이상의 컴퓨터 저장 매체로서,
각각의 테이블은 복수의 행을 포함하며, 각각의 행은 상기 구조적 저장 시스템에 의해 저장되는 데이터 엔터티를 나타내고 상기 행을 식별해 주는 하나 이상의 키를 포함하고, 상기 복수의 행은 복수의 파티션 사이에 분배되며, 각각의 파티션은 상기 테이블 내의 복수의 행으로부터의 행들의 범위를 포함하고, 상기 복수의 파티션은 복수의 테이블 서버에 저장되며, 테이블 마스터가 상기 복수의 테이블 서버에의 파티션 할당을 제어하고,
상기 방법은 상기 테이블의 적어도 2개의 파티션을 병합된 파티션으로 병합하기 위한 것으로서,
상기 복수의 테이블 서버 상의 복수의 파티션에 대한 로드 정보를 추적하는 단계(802),
상기 테이블 마스터에 의해, 상기 로드 정보에 기초하여 병합할 상기 적어도 2개의 파티션을 식별하는 단계(804),
상기 테이블 마스터에 의해, 상기 병합된 파티션에 대한 메타데이터 스트림을 작성하는 단계(808),
상기 적어도 2개의 파티션을 제공하는 적어도 하나의 테이블 서버로부터 상기 적어도 2개의 파티션을 오프로딩하는 단계(810),
상기 테이블 마스터에 의해, 상기 병합된 파티션을 상기 복수의 테이블 서버 중에서 선택된 테이블 서버에 할당하는 단계(814), 및
상기 선택된 테이블 서버에서 상기 병합된 파티션을 로드하여 제공하는 단계(816)
를 포함하는 컴퓨터 저장 매체.
제7항에 있어서,
상기 적어도 2개의 파티션은 동일한 테이블 서버에 저장되는
컴퓨터 저장 매체.
제7항에 있어서,
상기 선택된 테이블 서버는 상기 적어도 2개의 파티션 중 적어도 하나가 상기 병합된 파티션으로 병합되기 전에 존재했던 테이블 서버를 포함하는
컴퓨터 저장 매체.
제7항에 있어서,
상기 방법은 상기 적어도 2개의 파티션이 상기 병합된 파티션으로 병합되는 것에 기초하여 파티션 맵을 업데이트하는 단계를 더 포함하고,
상기 파티션 맵은 상기 복수의 파티션과 상기 복수의 파티션을 제공하는 복수의 테이블 서버 간의 매핑을 저장하는
컴퓨터 저장 매체.
제7항에 있어서,
상기 방법은 병합 준비 메시지를 상기 테이블 상기 마스터로부터 상기 적어도 2개의 파티션을 제공하는 적어도 하나의 테이블 서버로 송신하는 단계를 더 포함하고,
상기 병합 준비 메시지는, 상기 병합된 파티션에 대한 로드 시간을 줄이기 위해, 적어도 하나의 테이블 서버로 하여금 병합 이전에 적어도 2개의 파티션을 압축(compact)하게 하는
컴퓨터 저장 매체.
하나 이상의 테이블로 표현된 구조적 저장 시스템을 관리하는 방법을 수행하는 컴퓨터 사용가능 명령어를 저장하는 하나 이상의 컴퓨터 저장 매체로서,
각각의 테이블은 복수의 행을 포함하며, 각각의 행은 상기 구조적 저장 시스템에 의해 저장되는 데이터 엔터티를 나타내고 상기 행을 식별해 주는 하나 이상의 키를 포함하며, 상기 복수의 행이 복수의 파티션 사이에 분배되며, 각각의 파티션은 상기 테이블 내의 상기 복수의 행으로부터의 행들의 인접 범위를 포함하고, 상기 복수의 파티션은 복수의 테이블 서버에 저장되며, 테이블 마스터가 복수의 상기 테이블 서버에의 파티션 할당을 제어하고,
상기 방법은, 상기 테이블의 파티션을 적어도 2개의 자식 파티션으로 분할하기 위한 것으로서,
상기 복수의 테이블 서버 상의 상기 복수의 파티션에 대한 로드 정보를 추적하는 단계(702),
상기 테이블 마스터에 의해, 상기 로드 정보에 기초하여 분할하기 위한 상기 파티션을 식별하는 단계(704) - 상기 파티션에 대한 상기 로드 정보는 상기 파티션의 상이한 부분에 대해 상이한 로드를 식별함 -,
상기 테이블 마스터에서, 상기 파티션을 분할하기 위한 분할비를 결정하는 단계(706) - 상기 분할비는 로드 정보에 기초하여 지정되고, 상기 파티션의 제1 부분이 로드의 제1 분량을 포함하고 상기 파티션의 제2 부분이 로드의 제2 분량을 포함하는 상기 파티션 내의 지점을 나타냄 -,
상기 테이블 마스터로부터 상기 테이블 서버로, 상기 분할비에 대응하는 파티션 내에서의 실제 위치를 식별해 주는 키 정보에 대한 요청을 송신하는 단계(708),
상기 테이블 서버에 의해, 상기 분할비에 대응하는 상기 파티션 내에서의 실제 위치를 식별해 주는 상기 키 정보를 결정하는 단계(710),
상기 키 정보를 상기 테이블 서버로부터 상기 테이블 마스터로 전달하는 단계(712),
상기 테이블 마스터에서, 각각의 자식 파티션들에 대한 메타데이터 스트림을 구축하는 단계(714),
상기 테이블 마스터로부터 상기 테이블 서버로 분할 요청을 송신하는 단계(716),
상기 테이블 서버에서, 상기 파티션으로부터 자식 파티션들을 작성하는 단계(718),
상기 테이블 서버에서 상기 파티션을 제공하는 것을 중단하는 단계(720),
상기 테이블 서버에서 상기 자식 파티션을 로드하여 제공하는 단계(722),
상기 테이블 서버로부터 상기 테이블 마스터로 분할 완료 통지를 송신하는 단계(724), 및
상기 파티션이 상기 자식 파티션들로 분할되는 것에 기초하여 파티션 맵을 업데이트하는 단계(726) - 상기 파티션 맵은 복수의 파티션과 복수의 파티션을 제공하는 복수의 테이블 서버 간의 매핑을 저장함 -
를 포함하는 컴퓨터 저장 매체.
제12항에 있어서,
상기 방법은 상기 자식 파티션들 중 적어도 하나의 자식 파티션을 제2 테이블 서버에 할당하는 단계, 및 상기 자식 파티션들 중 적어도 하나의 자식 파티션이 상기 제2 테이블 서버에 위치되어 있음을 나타내기 위해 상기 파티션 맵을 업데이트하는 단계를 더 포함하는
컴퓨터 저장 매체.
제12항에 있어서,
상기 파티션을 제공하는 것을 중단하는 단계는 파티션의 검사점을 만듦으로써 파티션 리로드(partition reload) 동안 재생되어야 할 로그의 양을 줄이는 단계를 포함하고,
상기 파티션의 검사점을 만드는 것은 원자적으로, 새 로그 스트림을 작성하고, 상기 검사점 이후의 익스텐트를 이전 로그 스트림으로부터 새 로그 스트림으로 하드 링크시키고, 상기 이전 로그 스트림을 삭제하고, 상기 새 로그 스트림을 상기 이전 로그 스트림의 이름으로 이름 변경함으로써, 검사 동안에 로그 스트림을 효율적으로 잘라내는 것을 포함하는
컴퓨터 저장 매체.
제12항에 있어서,
상기 파티션으로부터 자식 파티션들을 작성하는 단계는 고비용의 데이터 복사 없이 원자적으로 상기 파티션의 스트림들로부터 익스텐트를 하드 링크시킴으로써 상기 자식 파티션들의 스트림들을 효율적으로 구축하는 단계를 포함하는
컴퓨터 저장 매체.