KR101881637B1

KR101881637B1 - 유전체 데이터 분석을 위한 작업 처리 방법 및 시스템

Info

Publication number: KR101881637B1
Application number: KR1020160061519A
Authority: KR
Inventors: 김진식
Original assignee: 주식회사 케이티
Priority date: 2016-05-19
Filing date: 2016-05-19
Publication date: 2018-08-24
Also published as: KR20170130827A

Abstract

본 발명은 유전체 데이터를 분석할 때 필요한 컴퓨팅 자원을 이용하여 유전체 분석 작업을 처리하는 작업 처리 방법 및 시스템에 관한 것이다. 본 발명의 실시예에 따른 컴퓨팅 자원을 제어하여 유전체 분석 작업을 처리하는 시스템은, 사용자로부터 유전체 분석 작업을 요청받는 접수 처리 모듈; 복수의 파이프라인 이미지 중에서, 상기 유전체 분석 작업에 필요한 파이프라인 이미지를 선정하는 이미지 선정 모듈; 상기 유전체 분석 작업을 수행하는데 요구되는 필요 자원을 확인하고, 컴퓨터 자원을 형성하는 복수의 서버 중에서 상기 필요 자원을 지원할 수 있는 하나 이상의 서버를 작업 분석 서버로 선정하는 자원 관리 모듈; 및 상기 작업 분석 서버로 선정된 하나 이상의 서버에 상기 선정된 파이프라인 이미지를 탑재시켜, 상기 유전체 분석 작업을 상기 선정된 하나 이상의 서버를 통해 처리되게 제어하는 분석 처리 모듈을 포함한다.

Description

유전체 데이터 분석을 위한 작업 처리 방법 및 시스템{Job process method and system for genome data analysis}

본 발명은 작업 처리 기술에 관한 것으로서, 더욱 상세하게는 유전체 데이터를 분석할 때 필요한 컴퓨팅 자원을 이용하여 유전체 분석 작업을 처리하는 작업 처리 방법 및 시스템에 관한 것이다.

최근 들어, 인간 질병에 대한 유전자를 밝히기 위한 연구가 활발하게 진행되고 있다. 이 중에서 인체의 유전정보를 가지고 있는 게놈(genome)을 해독해 유전자 지도를 작성하고 유전자 배열을 분석해, 인간의 질병 발생을 예상하는 프로젝트가 활발하게 진행되고 있다.

상기 프로젝트는 특정 사용자의 게놈 데이터와 레퍼런스 게놈 데이터를 비교하여 변이 발생한 특정 사용자의 유전정보(즉, 염기서열)를 확인하고, 이렇게 확인한 유전정보를 토대로 상기 특정 사용자에 대한 질병 상관관계를 도출한다.

한편, 대규모 컴퓨터 자원을 구축한 컴퓨팅 시스템이 클라이언트 단말로부터 사용자의 염기서열 데이터가 포함된 유전체 데이터를 수신하고, 이 유전체 데이터를 분석한 후 이 분석 결과를 클라이언트 단말로 제공하는 서비스가 개시되었다. 즉, 컴퓨팅 시스템이 유전체 데이터의 분석을 대행하고, 이 분석 결과를 사용자에게 제공하는 서비스가 개시되었다. 아래의 특허문헌은 유전 정보 관리 시스템 및 방법에 관하여 개시한다.

최근 개발이 활발한 차세대 염기서열 분석(NGS: Next Generation Sequencing)은, 먼저 체액 속에서 추출된 DNA(deoxyribonucleic acid)에서 시퀀싱 작업을 통해 파편화된 유전자 서열 디지털 정보(즉, 유전체 분석 raw 데이터)를 생성한 후, 대규모 컴퓨팅 자원을 투입해 여러 가지 분석 절차를 거쳐 실제 유전자 서열 정보 및 변이 정보를 추출하는 유전체 분석 파이프라인(이하 파이프라인) 작업을 수행한다.

파이프라인 작업은 유전체 분석 원시 데이터(raw data)를 기존에 알려진 유전체 표준 서열(즉, 레퍼런스 데이터)과 비교하여 정렬하는 일종의 대규모 퍼즐 맞추기 작업을 통해 최종 유전자 서열을 파악하는 것으로서, 전체 분석 과정 중 가장 많은 컴퓨팅 자원을 소모하게 되고 이를 최적화 및 고속화하는 것이 정보 처리 관점에서 유전자 분석 비용을 낮추는 핵심 기술이 된다.

이러한 파이프라인 작업을 처리하는 플랫폼 및 인프라에서는, 파이프라인이 분석 대상과 분석 목적에 따라 다양한 절차 및 컴퓨팅 리소스를 요구가 요구된다. 예를 들어, 일정 유전자의 영역만 검사하는 타깃 영역 시퀀싱(targeted sequencing)의 경우에는 수백 MB(메가바이트) 용량의 FASTQ라는 형식의 파일 분석이 필요하고, 이를 위해서는 특정 파이프라인 절차를 수행하되, 일정 규모의 CPU 코어와 일정 용량의 메모리가 요구된다.

인간 유전자의 유효한 영역 전반에 대한 유전체 분석은 WES(Whole Exome Sequencing)라고 불리는데 이 경우 수십 GB(기가바이트) 용량의 FASTQ파일 분석이 필요하며, 이를 위해서는 타깃 영역 시퀀싱보다 더 많은 코어와 메모리를 요구하게 되는게 일반적이다. 또한, 암 분석의 경우에는 정상 세포의 DNA와 암 세포의 DNA 데이터 두 가지를 동시 분석하기 때문에 전혀 다른 절차 및 그에 맞는 컴퓨팅 자원(메모리, 코어, 디스크 등)이 필요하다.

이에 따라, 종래에는 대규모의 분석을 수행하기 위해, 분석 유형별로 데이터를 그룹핑한 후에 각각 한꺼번에 필요한 파이프라인 절차를 각 서버에 배포하고 일괄 수행하는 작업을 반복하여 전체 데이터에 대한 처리를 완료한다. 그런데 이러한 종래의 기법은, 분석 유형별 파이프라인 절차가 서로 다르고 복잡할수록, 각 상황별로 인프라를 직접 셋팅하고 관리해야 되므로, 비용이 상승하고 운용의 비효율성이 야기되는 문제점이 있다.

따라서, 각 유형별 인프라를 사전에 미리 셋팅하여(즉, 자동화하여) 운영하는 방식이 있으나, 이 방식은 특정 유형 분석이 몰릴 때 시스템의 전체 유휴율을 상승시키는 문제점이 있다. 부연하면, 빈번히 발생하는 작은 규모의 분석 작업은 서버 하나에도 여러 개를 동시 수행할 수 있는데, 이를 자동화하여 처리하게 되면 분석 규모가 작다고 해도 각 절차에 따라 소모되는 컴퓨팅 자원이 불규칙하고 다수의 분석 작업이 작업 간에 서로 영향을 자원에 영향을 주어 병렬처리의 안정성을 저해한다. 따라서 종래의 파이프라인 처리 기법은, 병렬 처리의 안정성을 위해 서버별로 일부 연산 능력이 남더라도 유휴율을 어느 정도 안정적인 수준으로 확보시킨다. 즉, 종래의 파이프라인 처리 기법에서는, 서버의 유휴율이 임계값 미만으로 남지 않게 제어한다.

그러나 이러한 종래의 파이프라인 처리 기법은, 남아 있는 서버의 자원을 이용하지 않기 때문에 시스템 전체의 효율성을 저하시키는 문제점으로 작용한다.

한국등록특허 10-1188886호

본 발명은 이러한 종래의 문제점을 해결하기 위하여 제안된 것으로, 전체 시스템의 유휴율을 최소화시키고, 다양한 유형의 파이프라인을 자동으로 처리할 수 있는 유전체 데이터 분석을 위한 작업 처리 방법 및 시스템을 제공하는데 그 목적이 있다.

본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

상기 목적을 달성하기 위한 본 발명의 제 1 측면에 따른, 컴퓨팅 자원을 제어하여 유전체 분석 작업을 처리하는 시스템은, 사용자로부터 유전체 분석 작업을 요청받는 접수 처리 모듈; 복수의 파이프라인 이미지 중에서, 상기 유전체 분석 작업에 필요한 파이프라인 이미지를 선정하는 이미지 선정 모듈; 상기 유전체 분석 작업을 수행하는데 요구되는 필요 자원을 확인하고, 컴퓨터 자원을 형성하는 복수의 서버 중에서 상기 필요 자원을 지원할 수 있는 하나 이상의 서버를 작업 분석 서버로 선정하는 자원 관리 모듈; 및 상기 작업 분석 서버로 선정된 하나 이상의 서버에 상기 선정된 파이프라인 이미지를 탑재시켜, 상기 유전체 분석 작업을 상기 선정된 하나 이상의 서버를 통해 처리되게 제어하는 분석 처리 모듈을 포함하는 것을 특징으로 한다.

상기 목적을 달성하기 위한 본 발명의 제 2 측면에 따른 작업 처리 시스템에서 컴퓨팅 자원을 제어하여 유전체 분석 작업을 처리하는 방법은, 사용자로부터 유전체 분석 작업을 요청받는 단계; 복수의 파이프라인 이미지 중에서 상기 유전체 분석 작업에 필요한 파이프라인 이미지를 선정하는 단계; 상기 유전체 분석 작업을 수행하는데 요구되는 필요 자원을 확인하는 단계; 컴퓨터 자원을 형성하는 복수의 서버 중에서 상기 필요 자원을 지원할 수 있는 하나 이상의 서버를 작업 분석 서버로 선정하는 단계; 및 상기 작업 분석 서버로 선정된 하나 이상의 서버에 상기 선정된 파이프 이미지를 탑재시켜, 상기 유전체 분석 작업을 상기 선정된 하나 이상의 서버를 통해 처리되게 제어하는 단계를 포함하는 것을 특징으로 한다.

본 발명은 작업 유형에 따라 파이프라인 이미지를 서버에 탑재시키고, 이 파이프라인 이미지를 통해서 작업이 처리되게 함으로써, 유전체 분석 작업을 빠르게 처리할 수 있을 뿐만 아니라 고객이 원하는 파이프라인을 구동시킬 수 있는 장점이 있다.

또한, 본 발명은 작업 처리시에 서버별 자원 상태를 확인하고, 이 자원 상태와 작업 유형에 따라 하나 이상의 서버를 분석 대상 서버로 선정함으로써, 전체 컴퓨팅 시스템의 유휴율을 최소화하는 이점이 있다. 게다가, 본 발명은 컴퓨팅 자원이 오토스케일링으로 설정되어 있는지 여부에 따라, 분석 대상 서버를 선정하는 정책을 달리함으로써, 전체 시스템의 자원 효율을 더욱 향상시키는 이점이 있다.

또한, 본 발명은 분석 서버가 유전체 분석 작업을 격리 처리할 수 있도록 작업별로 독립적인 처리 환경을 제공함으로써, 작업 처리 안정성을 향상시키는 효과도 있다.

게다가, 본 발명은 작업 처리를 위한 서버 자원을 할당할 때에, 사전에 설정된 단위 기준에서 2의 n배수(n은 자연수)가 되게 자원을 할당함으로써, 자원 단편화가 발생되는 현상을 최소화하는 장점이 있다.

본 명세서에 첨부되는 다음의 도면들은 본 발명의 바람직한 실시예를 예시하는 것이며, 발명을 실시하기 위한 구체적인 내용과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니 된다.
도 1은 본 발명의 일 실시예에 따른, 작업 처리 시스템의 구성을 나타내는 도면이다.
도 2는 이미지 테이블을 예시하는 도면이고, 도 3은 할당 정책 테이블을 예시하는 도면이며, 도 4는 자원 상태 테이블을 예시하는 도면이다.
도 5는 본 발명의 일 실시예에 따른, 작업 처리 시스템에서 컴퓨팅 자원을 할당하고 컴퓨팅 자원에 파이프라인 이미지를 탑재시켜 유전체 분석을 수행하는 방법을 설명하는 흐름도이다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일 실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른, 작업 처리 시스템의 구성을 나타내는 도면이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 작업 처리 시스템(300)은 복수의 서버(310-N), 저장소(320), 접수 처리 모듈(330), 자원 관리 모듈(340), 이미지 선정 모듈(350) 및 분석 처리 모듈(360)을 포함하여, 작업 처리 시스템(300)은 네트워크(200)를 통하여 사용자 단말(100)과 통신한다. 상기 네트워크(200)는 인트라넷, 인터넷망 및 이동통신망을 포함한다.

상기 작업 처리 시스템(300)에 포함된 모듈들은 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 조합을 통해서 구현될 수 있다. 또한, 작업 처리 시스템(300)은, 메모리와 하나 이상의 프로세서를 포함할 수 있으며, 접수 처리 모듈(330), 자원 관리 모듈(340), 이미지 선정 모듈(350) 및 분석 처리 모듈(360)은 상기 메모리에 저장되어, 상기 하나 이상의 프로세서에 의하여 실행되는 프로그램 형태로 구현될 수 있다.

사용자 단말(100)은 사용자 또는 기업이 소유하고 있는 서버, 컴퓨터, 전산 시스템 등과 같은 통신 장치로서, 유전체의 원시 데이터(raw data) 및 작업 분석 유형 정보가 포함된 작업 요청 정보를 작업 처리 시스템(300)으로 전송하여, 작업 처리 시스템(300)에서 분석 완료된 작업 결과를 수신한다. 상기 원시 데이터는 체액 속에 추출된 DNA에서 시퀀싱 작업을 통해 생성된 파편화된 유전자 서열 디지털 정보이다. 상기 사용자 단말(100)은 상기 원시 데이터로서, FASTQ, BAM, VCF 등의 유형의 파일이 포함된 작업 요청 정보를 작업 처리 시스템(300)으로 전송할 수 있다. 또한, 상기 사용자 단말(100)은 상기 작업 분석 유형 정보로서, 암 분석, 희귀질환 분석, 비만 분석 등을 상기 작업 요청 정보에 기록할 수 있다.

복수의 서버(310-N)는 컴퓨팅 자원을 형성하는 수단으로, 물리적인 서버 또는 논리적인 서버가 작업 처리 시스템(300)에 구축될 수 있다. 또한, 서버(310-N)는 메모리, 디스크, CPU 코어 등이 포함된 자원을 보유한다. 상기 서버(310-N)는 분석 처리 모듈(360)의 제어에 의해서, 파이프라인 이미지를 탑재하고 이 파이프라인에 따른 분석 작업을 수행하고, 분석 결과를 저장소(320)에 저장한다. 서버(310-N)는 서로 다른 유형의 작업을 동시에 처리할 수 있으며, 복수의 서버(310-N)가 하나의 작업을 분산 처리할 수도 있다.

상기 파이프라인은, 유전체 원시 데이터를 분석 절차를 거쳐 실제 유전자 서열 정보 및 변이 정보를 확인하고, 이 확인한 정보를 토대로 질병 상관관계 등을 유출하는 일련의 분석 작업을 의미한다. 또한, 후술하는 파이프라인 이미지는, 유전체 분석에 필요한(즉, 파이프라인 처리에 필요한) 하나 이상의 응용 프로그램과 실행 절차 및 옵션들을 정의된 프로그램 패키지이다.

한편, 각각의 서버(310-N)는 파이프라인에 의한 유전체 분석 작업을 처리할 때에, 상기 분석 작업 처리할 때에 사용하기로 설정한 자원(즉, 코어, 메모리 및 디스크)을 이용하여 상기 분석 작업을 격리 실행한다. 상기 격리 실행은, 동일한 서버, 동일한 OS(Operating System)에서 작업이 분석될 때, 메모리, CPU 코어, 디스크(즉, 파일 시스템) 등이 별도의 환경을 갖추어 필요한 프로세스를 처리하는 것을 의미한다. 이러한 격리 실행은, 리눅스 등의 운영체제에 있어서 커널 레벨에서 지원되고 있다.

또한, 각각의 서버(310-N)의 자원이 모여서 형성하는 컴퓨팅 자원은 오토스케일링(auto scaling) 환경으로 설정될 수도 있다. 상기 오토스케일링 환경은, 복수의 서버(310-N) 중에서 일부는 활성화되어 작업을 처리하고 있으나, 일부 서버(310-N)는 비활성화되어 대기 상태로 있다가, 작업이 폭주하여 자원이 부족한 경우에 비활성화된 서버 중에 일부가 활성화되어 컴퓨팅 자원이 동적으로 확장되는 기능이다. 본 발명에 따른 서버(310-N)는 오토스케일링 환경으로 설정되어 동적으로 컴퓨팅 자원이 확장되거나, 오토스케일링 환경으로 미설정되어 전체 컴퓨팅 자원이 고정될 수 있다.

저장소(repository)(320)는 스토리지 장치, 데이터베이스 등과 같은 저장수단으로서, 복수의 파이프라인 이미지를 저장하고, 특히 동일 유형의 파이프라인 이미지를 버전별로 저장한다. 저장소(320)는 원시 데이터(raw data) 및 작업 분석 유형 정보가 포함된 작업 요청 정보를 저장하고, 분석 작업의 결과물을 저장한다. 상기 저장소(320)는 인트라넷, LAN(Local Area Network), WLAN(Wide LAN), SAN(Storage Area Network) 등과 같은 통신 네트워크를 통하여 액세스되는 네트워크 부착형 저장수단일 수도 있다.

특히, 저장소(320)는 이미지 테이블, 할당 정책 테이블 및 자원 상태 테이블을 저장한다.

도 2는 이미지 테이블을 예시하는 도면이고, 도 3은 할당 정책 테이블을 예시하는 도면이며, 도 4는 자원 상태 테이블을 예시하는 도면이다.

도 2 내지 도 4를 참조하여 각 테이블을 설명하면, 이미지 테이블에는 분석 유형 식별정보, 파이프라인 이미지 식별정보 및 이미지의 버전이 매핑되어 저장된다. 즉, 분석 유형에 따라 사용되는 파이프라인 이미지의 식별정보와 이 파이프라인의 버전이 상기 이미지 테이블에 기록된다.

또한, 할당 정책 테이블에는 원시 데이터의 파일 유형과 원시 데이터의 크기에 따라, 필요 자원(즉, 코어 수, 메모리 용량, 디스크 용량)이 매핑되어 기록된다. 즉, 원시 데이터의 파일유형과 파일 용량에 따라 필요 자원이 구분되어 할당 정책 테이블에 기록된다. 상기 할당 정책 테이블에는 자원의 단편화를 최소화하기 위하여, CPU 코어 수와 메모리 용량이 사전에 설정된 기준 단위를 기준으로 2의 n배수(n은 자연수)가 되도록 기록될 수 있다. 예컨대, 필요 코어수는 기준 단위인 1개를 기준으로 2의 n배수(즉, 2개, 4개, 8개, ...)가 되도록 할당 정책 테이블에 기록될 수 있다. 또한, 필요 메모리 용량은 기준 단위인 1GB를 기준으로 2의 n배수(즉, 2GB, 4GB, 8GB, 16GB, ...)로 설정되도록 할당 정책 테이블에 기록될 수 있다.

자원 상태 테이블에는 서버 식별정보, 서버의 총 CPU 코어 개수, 총 메모리 용량, 전체 디스크 용량, 여분 코어 개수, 여분 메모리 용량, 여분 디스크 용량 및 실행 작업 개수가 매핑되어 기록된다. 상기 여분 코어 개수, 여분 메모리 용량 및 여분 디스크 용량은 해당 서버에서 사용 가능한 자원을 의미하고, 상기 실행 작업 수는 해당 서버에서 실행되는 유전체 분석 작업 개수를 의미한다. 상기 여분 코어, 개수, 여분 메모리 용량, 여분 디스크 용량 및 실행 작업수는, 자원 관리 모듈(340)에 의해서 실시간으로 갱신된다.

다시 도 1을 참조하면, 접수 처리 모듈(330)은 사용자 단말(100)로부터 작업 요청 정보를 수신하고, 분석 결과를 사용자 단말(100)로 제공하는 기능을 수행한다. 즉, 접수 처리 모듈(330)은 원시 데이터(raw data) 및 작업 분석 유형 정보가 포함된 작업 요청 정보를 사용자 단말(100)로부터 수신하여 저장소(320)에 저장한다. 또한, 접수 처리 모듈(330)은 저장소(320)에 분석 작업 결과가 저장되면, 분석 작업이 완료되었을 사용자 단말(100)로 통보하여, 상기 분석 작업 결과가 사용자 단말(100)에서 다운로드되거나 열람되게 유도한다.

이미지 선정 모듈(350)은 요청된 작업에 필요한 파이프라인 이미지를 선정한다. 구체적으로, 이미지 선정 모듈(350)은 저장소(320)에 작업 요청 정보가 저장되면, 작업 요청 정보에 포함된 작업 분석 유형 정보를 확인하고, 이 작업 분석 유형 정보가 대응되는 파이프라인 이미지와 버전을 저장소(320)의 이미지 테이블에서 확인하여 선정한다.

자원 관리 모듈(340)은 요청된 작업에 필요한 필요 자원을 확인하고, 더불어 작업을 분석하는 서버(310-N)를 선정한다. 또한, 자원 관리 모듈(340)은 서버(310-N)별 이용되는 자원을 모니터링하여, 저장소(320)의 자원 상태 테이블을 갱신하는 기능을 수행한다.

상기 자원 관리 모듈(340)은 작업 요청 정보에 포함된 원시 데이터의 파일 유형과 크기를 확인하고, 원시 데이터의 파일 유형과 크기에 대응하는 필요 자원(즉, 필요 코어 수, 필요 메모리 용량 및 필요 디스크 용량)를 할당 정책 테이블에서 확인한다. 또한, 자원 관리 모듈(340)은 필요 자원을 지원할 수 있는 하나 이상의 서버를 작업 분석 서버로 선정한다. 이때, 자원 관리 모듈(340)은 컴퓨팅 자원이 오토스케일링으로 설정되어 있는지 여부를 확인하고, 오토 스케일링 환경 설졍 여부에 따라 도 5를 참조하여 후술하는 바와 같이, 최소 개수의 서버를 분석대상 서버로 선정하거나, 부하율이 높은 서버를 분석대상 서버로서 선정할 수 있다. 또한, 자원 관리 모듈(340)은 하나 이상의 작업 분석 서버가 선정되면, 선정된 하나 이상의 서버(310-N)에서 분석 작업을 위해 이용되는 자원을 결정한다.

분석 처리 모듈(360)은 선정된 하나 이상의 서버(310-N)로 파이프라인 이미지를 탑재시키고, 각 파이프라인이 하나 이상의 서버(310-N)에서 격리 실행되게 처리한다. 즉, 분석 처리 모듈(360)은 선정된 서버(310-N)에 파이프라인 이미지를 탑재시키고, 이 서버(310-N)에서 작업 처리에 필요한 자원을 상기 파이프라인을 통한 분석 작업만을 위하여 전용으로 실행되도록 할당한다. 또한, 분석 처리 모듈(360)은 유전체 분석 처리 작업이 서버(310-N)에서 완료되면, 서버(310-N)에 탑재된 파이프라인 이미지를 해제(unloading)한다.

도 5는 본 발명의 일 실시예에 따른, 작업 처리 시스템에서 컴퓨팅 자원을 할당하고 컴퓨팅 자원에 파이프라인 이미지를 탑재시켜 유전체 분석을 수행하는 방법을 설명하는 흐름도이다.

도 5를 참조하면, 접수 처리 모듈(330)은 원시 데이터(raw data) 및 작업 분석 유형 정보가 포함된 작업 요청 정보를 사용자 단말(100)로부터 수신하여, 이 작업 요청 정보를 저장소(320)에 저장한다(S501). 원시 데이터로서, FASTQ, BAM, VCF 등의 유형의 파일이 기록될 수 있다. 또한, 작업 분석 유형 정보로서, 암 분석, 희귀질환 분석, 비만 분석 등과 같이 분석하고자 하는 질병 유형이 기록될 수 있다.

저장소(320)에 작업 요청 정보가 저장되면, 이미지 선정 모듈(350)은 작업 요청 정보에 포함된 작업 분석 유형 정보를 확인하고(S503), 이 작업 분석 유형 정보가 대응되는 파이프라인 이미지와 버전을 저장소(320)의 이미지 테이블에서 확인하여, 요청된 유전체 분석 작업에 이용되는 파이프라인 이미지와 버전을 선정한다(S505).

다음으로, 자원 관리 모듈(340)은 상기 작업 요청 정보에 포함된 원시 데이터의 파일 유형과 크기를 확인하고, 원시 데이터의 파일 유형과 크기에 대응하는 필요 자원(즉, 필요 코어 수, 필요 메모리 및 필요 디스크)를 저장소(320)의 할당 정책 테이블에서 확인한다(S507). 상기 할당 정책 테이블에는 자원의 단편화를 최소화하기 위하여, 필요 자원(즉, 코어 개수 및 메모리 용량)이 기준 단위의 2의 n배수(n은 자연수)로 기록되고, 자원 관리 모듈(340)은 기준 단위에서 2의 n배수에 해당하는 자원을 유전체 분석 작업에 필요한 컴퓨팅 자원으로 확인할 수 있다. 예컨대, 할당 정책 테이블에는 필요 코어수가 기준 단위인 1개를 기준으로 2의 n배수(즉, 2개, 4개, 8개, ...)가 되도록 기록될 수 있고, 필요 메모리 용량이 기준 단위인 1GB를 기준으로 2의 n배수(즉, 2GB, 4GB, 8GB, 16GB, ...)로 되도록 기록될 수 있으며, 이에 따라 자원 관리 모듈(340)은 1개×2n(n은 자연수)인 필요 코어 개수 및 1GB×2n(n은 자연수)인 필요 메모리 용량을 유전체 분석 작업에 필요한 컴퓨팅 자원으로 확인할 수 있다.

다음으로, 자원 관리 모듈(340)은 복수의 서버(310-N)가 포함하는 컴퓨팅 자원이 오토스케일링 환경이 설정되어 있는지 여부를 확인한다(S509).

자원 관리 모듈(340)은 컴퓨팅 자원이 오토스케일링 환경으로 설정된 경우, 저장소(320)의 자원 상태 테이블에서 여분의 자원(즉, 여분 코어, 여분 메모리 용량 및 여분 디스크 용량)을 확인하고, 상기 필요 자원(즉, 필요 코어 수, 필요 메모리 용량 및 필요 디스크 용량)을 지원할 수 있는 최소의 서버를 작업 분석 서버로 선정한다(S511). 부연하면, 자원 관리 모듈(340)은 전체 컴퓨팅 자원이 부족한 경우에 자동으로 비활성화된 서버가 활성화되어 전체 용량이 확장되는 동적인 오토스케일링 환경인 경우에, 상기 필요 자원할 수 있는 최소 개수의 서버를 작업 분석 서버로 선정한다. 즉, 자원 관리 모듈(340)은 하나의 특정 서버에서 상기 필요 자원을 모두 지원할 수 있으며, 상기 특정 서버만을 작업 분석 서버로 선정하고, 반면에 자원 관리 모듈(340)은 하나의 서버에서 상기 필요 자원을 모두 지원할 수 없으면, 서버의 개수를 순차적으로 증가시켜 상기 필요 자원을 지원할 수 있는지 여부를 계속적으로 판별하여 결과적으로 필요 자원을 지원할 수 있는 서버의 개수가 최소 개수가 되게 한다. 이렇게 필요 자원을 지원할 수 있는 최소 개수의 서버가 작업 분석 서버로 선정되면, 컴퓨팅 자원의 단편화가 최소화되고 더불어 오토스케일링 환경에서 불필요한 컴퓨터 자원 확장을 최소화하여 시스템 전체의 유휴율을 최소화시킨다.

한편, 자원 관리 모듈(340)은 컴퓨팅 자원이 오토스케일링 환경으로 설정되지 않은 경우, 저장소(320)의 자원 상태 테이블에서 여분의 자원(즉, 여분 코어, 여분 메모리 용량 및 여분 디스크 용량)을 확인하고, 유휴율이 가장 높은 서버를 작업 분석 서버로 선정한다(S513). 이때, 자원 관리 서버(310-N)는 유휴율이 가장 높은 서버가 상기 필요 자원을 모두 지원할 수 없는 경우, 상기 필요 자원이 모두 지원될 수 있을 때까지 다음 유휴율이 높은 순서에 따라 하나 이상의 서버(310-N)를 추가적으로 선정한다. 부연하면, 자원 관리 모듈(340)은 컴퓨팅 자원이 규모가 일정하게 고정된 정적인 환경인 경우, 유휴율이 높은 서버의 순서에 따라, 상기 필요 자원을 지원할 수 있는 하나 이상의 서버를 작업 분석 서버로 선정한다. 상기 자원 관리 모듈(340)은 서버(310-N)의 유휴율은 여부 코어의 비율, 여분 메모리의 비율, 여부 디스크 용량의 비율 각각에 가중치를 적용하고, 이 가중치가 적용된 여부 코어의 비율, 여분 메모리의 비율 및 여분 디스크 용량 비율을 합산하여 서버의 유휴율을 산출할 수 있다. 이렇게 오토스케일링이 설정되지 않은 환경에서, 유휴율이 높은 서버가 작업 분석 서버로서 선정되면, 전체 시스템의 처리 속도가 향상되고 전체 시스템의 유휴율이 최소화된다.

다음으로, 자원 관리 모듈(340)은 하나 이상의 작업 분석 서버가 선정되면, 선정된 하나 이상의 서버(310-N)에서 분석 작업을 위해 이용되는 자원을 결정하고, 이 확인한 자원을 저장소(320)의 자원 상태 테이블에 여분 자원(즉, 여분 코어, 여분 메모리 및 여분 디스크 용량)과 실행 작업수를 반영하여, 자원 상태 테이블을 갱신한다.

이미지 선정 모듈(350)에서 파이프라인 이미지가 선정되고, 자원 관리 모듈(340)에서 서버가 선정되고 각 서버(310-N)에서 이용되는 자원이 결정되면, 분석 처리 모듈(360)은 상기 선정된 하나 이상의 서버(310-N)로 상기 파이프라인 이미지를 탑재시키고, 각 파이프라인이 하나 이상의 서버(310-N)에서 격리 실행되게 제어한다(S515, S517). 즉, 분석 처리 모듈(360)은 선정된 서버(310-N)에 파이프라인 이미지를 탑재시키고, 이 서버(310-N)에서 작업 처리에 필요한 자원을 상기 파이프라인을 통한 분석 작업만을 위하여 전용으로 실행되도록 할당한다. 그러면, 상기 서버(310-N)는 상기 할당된 자원을 이용하여 상기 파이프라인에 따른 분석 작업을 격리 실행한다. 한편, 서버(310-N)는 상기 파이프라인 이미지가 최초로 탑재하는 경우 저장소(320)에 저장된 상기 파이프라인 이미지를 획득하여, 상기 파이프라인 이미지를 탑재시키고 분석 작업을 격리 실행한다. 반면에, 서버(310-N)는 상기 파이프라인 이미지가 과거에 이미 탑재한 이미지인 경우, 저장소(320)로부터 상기 파이프라인 이미지를 획득하지 않고, 캐쉬된 파이프라인 이미지를 탑재하여 분석 작업을 격리 실행한다.

파이프 라인에 따른 분석 작업을 격리 실행한 하나 이상의 서버(310-N)는 분석 작업이 완료되면, 분석 작업에 대한 결과를 저장소(320)에 저장한다(S519). 그러면, 접수 처리 모듈(330)은 분석 작업이 완료되었음을 사용자 단말(100)로 통보하고, 가입자는 작업 처리 시스템(300)에 접속하여 분석 결과를 다운로드하거나 열람할 수 있다.

또한, 자원 관리 모듈(340)은 분석 작업이 완료되면, 파이프라인에 따른 작업이 서버(310-N)에 완료되면, 상기 파이프라인 이미지 탑재를 해제하여, 이 파이프라인에 따른 작업을 위해 할당한 필요 자원을 반환되게 한다(S521). 그리고 자원 관리 모듈(340)은 상기 반환된 필요 자원이 해당 서버의 여분의 자원에 기록되도록, 저장소(320)의 자원 상태 테이블을 갱신한다.

상술한 바와 같이, 본 발명에 따른 작업 처리 시스템(300)은 작업 유형에 따라 파이프라인 이미지를 하나 이상의 서버(310-N)에 탑재시키고, 이 파이프라인 이미지를 통해서 작업이 처리되게 함으로써, 유전체 분석 작업을 빠르게 처리할 수 있다. 또한, 본 발명에 따른 작업 처리 시스템(300)은 작업 처리시에 서버(310-N)별 자원 상태를 확인하고, 이 자원 상태와 작업 유형에 따라 하나 이상의 서버(310-N)를 분석 대상 서버로 선정함으로써, 전체 컴퓨팅 시스템의 유휴율을 최소화시킨다. 특히, 본 발명에 따른 작업 처리 시스템(300)은 컴퓨팅 자원이 오토스케일링으로 설정되어 있는지 여부에 따라, 서버(310-N)를 선정하는 정책을 달리함으로써, 전체 시스템의 자원 효율을 더욱 향상시킨다. 또한, 본 발명에 따른 작업 처리 시스템(300)은 서버(310-N)에서 유전체 분석 작업을 격리 처리할 수 있도록 작업별로 독립적인 처리 환경을 제공함으로써, 작업 처리 안정성을 향상시킨다.

본 명세서는 많은 특징을 포함하는 반면, 그러한 특징은 본 발명의 범위 또는 특허청구범위를 제한하는 것으로 해석되어서는 안 된다. 또한, 본 명세서에서 개별적인 실시예에서 설명된 특징들은 단일 실시예에서 결합되어 구현될 수 있다. 반대로, 본 명세서에서 단일 실시예에서 설명된 다양한 특징들은 개별적으로 다양한 실시예에서 구현되거나, 적절히 결합되어 구현될 수 있다.

도면에서 동작들이 특정한 순서로 설명되었으나, 그러한 동작들이 도시된 바와 같은 특정한 순서로 수행되는 것으로, 또는 일련의 연속된 순서, 또는 원하는 결과를 얻기 위해 모든 설명된 동작이 수행되는 것으로 이해되어서는 안 된다. 특정 환경에서 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다. 아울러, 상술한 실시예에서 다양한 시스템 구성요소의 구분은 모든 실시예에서 그러한 구분을 요구하지 않는 것으로 이해되어야 한다. 상술한 프로그램 구성요소 및 시스템은 일반적으로 단일 소프트웨어 제품 또는 멀티플 소프트웨어 제품에 패키지로 구현될 수 있다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(시디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

100 : 사용자 단말 200 : 네트워크
300 : 작업 처리 시스템 310 : 서버
320 : 저장소 330 : 접수 처리 모듈
340 : 자원 관리 모듈 350 : 이미지 선정 모듈
360 : 분석 처리 모듈

Claims

컴퓨팅 자원을 제어하여 유전체 분석 작업을 처리하는 시스템에 있어서,
사용자로부터 유전체 분석 작업을 요청받는 접수 처리 모듈;
복수의 파이프라인 이미지 중에서, 상기 유전체 분석 작업에 필요한 파이프라인 이미지를 선정하는 이미지 선정 모듈;
상기 유전체 분석 작업을 수행하는데 요구되는 필요 자원을 확인하고, 컴퓨터 자원을 형성하는 복수의 서버 중에서 상기 필요 자원을 지원할 수 있는 하나 이상의 서버를 작업 분석 서버로 선정하는 자원 관리 모듈; 및
상기 작업 분석 서버로 선정된 하나 이상의 서버에 상기 선정된 파이프라인 이미지를 탑재시켜, 상기 유전체 분석 작업을 상기 선정된 하나 이상의 서버를 통해 처리되게 제어하는 분석 처리 모듈;을 포함하고,
상기 자원 관리 모듈은,
컴퓨팅 자원을 구축하는 복수의 서버가 오토스케일링 환경으로 설정되어 있으면, 복수의 서버 중에서 상기 필요 자원을 지원할 수 있는 최소 개수의 서버를 상기 작업 분석 서버로 선정하고, 컴퓨팅 자원을 구축하는 복수의 서버가 오토스케일링 환경으로 미설정된 경우 복수의 서버 중에서 유휴율이 높은 순서에 근거하여 하나 이상의 서버를 상기 작업 분석 서버로 선정하는 것을 특징으로 하는 작업 처리 시스템.
삭제
삭제
제 1 항에 있어서,
상기 자원 관리 모듈은,
상기 사용자로부터 수신한 원시 데이터의 파일 유형과 용량을 확인하고, 이 원시 데이터의 파일 유형과 용량에 대응되는 필요 자원을 확인하여 상기 유전체 분석 작업을 수행하는데 요구되는 필요 자원을 확인하는 것을 특징으로 하는 작업 처리 시스템.
제 1 항에 있어서,
상기 이미지 선정 모듈은,
상기 유전체 분석 작업의 유형을 확인하고, 이 유형에 해당하는 파이프라인 이미지 식별정보와 버전을 확인하고, 상기 파이프라인 이미지 식별정보와 버전에 해당하는 파이프라인 이미지를 상기 복수의 파이프라인 이미지 중에서 선정하는 것을 특징으로 하는 작업 처리 시스템.
제 1 항에 있어서,
상기 자원 관리 모듈은, 상기 작업 분석 서버로 선정된 각 서버의 여분 자원 중에서 상기 유전체 분석 작업을 위해 할당되는 자원을 결정하고,
상기 작업 분석 서버로 선정된 각 서버는, 할당된 자원을 이용하여 상기 유전체 분석 작업을 격리 실행하여 처리하는 것을 특징으로 하는 작업 처리 시스템.
제 6 항에 있어서,
상기 자원 관리 모듈은,
CPU 코어 개수를 사전에 설정된 단위 개수를 기준으로 2의 n배(n은 자연수)가 되도록 서버에 할당시키는 것을 특징으로 하는 작업 처리 시스템.
제 6 항에 있어서,
상기 자원 관리 모듈은,
메모리 용량이 사전에 설정된 단위 용량을 기준으로 2의 n배(n은 자연수)에 해당하는 용량이 되도록 서버에 할당시키는 것을 특징으로 하는 작업 처리 시스템.
제 1 항에 있어서,
상기 분석 처리 모듈은,
상기 선정된 하나 이상의 서버에서 상기 유전체 분석 작업이 완료되면, 상기 선정된 하나 이상의 서버에 탑재된 파이프라인 이미지 탑재를 해제하는 것을 특징으로 하는 작업 처리 시스템.
작업 처리 시스템에서 컴퓨팅 자원을 제어하여 유전체 분석 작업을 처리하는 방법으로서,
사용자로부터 유전체 분석 작업을 요청받는 단계;
복수의 파이프라인 이미지 중에서 상기 유전체 분석 작업에 필요한 파이프라인 이미지를 선정하는 단계;
상기 유전체 분석 작업을 수행하는데 요구되는 필요 자원을 확인하는 단계;
컴퓨터 자원을 형성하는 복수의 서버 중에서 상기 필요 자원을 지원할 수 있는 하나 이상의 서버를 작업 분석 서버로 선정하는 단계; 및
상기 작업 분석 서버로 선정된 하나 이상의 서버에 상기 선정된 파이프 이미지를 탑재시켜, 상기 유전체 분석 작업을 상기 선정된 하나 이상의 서버를 통해 처리되게 제어하는 단계;를 포함하고,
상기 작업 분석 서버로 선정하는 단계는,
컴퓨팅 자원을 구축하는 복수의 서버가 오토스케일링 환경으로 설정되어 있으면, 복수의 서버 중에서 상기 필요 자원을 지원할 수 있는 최소 개수의 서버를 상기 작업 분석 서버로 선정하고, 컴퓨팅 자원을 구축하는 복수의 서버가 오토스케일링 환경으로 미설정된 경우 복수의 서버 중에서 유휴율이 높은 순서에 근거하여, 하나 이상의 서버를 상기 작업 분석 서버를 선정하는 것을 특징으로 하는 작업 처리 방법.
삭제
삭제
제 10 항에 있어서,
상기 필요 자원을 확인하는 단계는,
상기 사용자로부터 수신한 원시 데이터의 파일 유형과 용량을 확인하는 단계; 및
상기 원시 데이터의 파일 유형과 용량에 대응되는 필요 자원을 확인하여 상기 유전체 분석 작업을 수행하는데 요구되는 필요 자원을 확인하는 단계;를 포함하는 것을 특징으로 하는 작업 처리 방법.
제 10 항에 있어서,
상기 제어하는 단계는,
상기 선정된 하나 이상의 서버에서 상기 유전체 분석 작업이 완료되면, 상기 선정된 하나 이상의 서버에 탑재된 파이프라인 이미지 탑재를 해제하는 단계;를 포함하는 것을 특징으로 하는 작업 처리 방법.