KR101640231B1

KR101640231B1 - 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법

Info

Publication number: KR101640231B1
Application number: KR1020150021461A
Authority: KR
Inventors: 송동호; 인연진; 김영필; 조성완; 이승
Original assignee: 소프트온넷(주)
Priority date: 2015-02-12
Filing date: 2015-02-12
Publication date: 2016-07-18

Abstract

본 발명은 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법에 관한 것이다. 본 발명에 따른 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법은, 클라이언트가 입력 파일을 로딩하여 입력 스플릿을 생성하는 단계와, 마스터 노드가 슬레이브 노드의 가용 리소스를 분석하고, 클라우드 관리 서버로부터 VM 리소스 풀 정보를 전달받아 슬레이브 노드와 VM 노드에 잡(job)을 할당하는 단계와, 생성된 입력 스플릿을 슬레이브 노드가 입력받아 슬레이브 노드와 VM 노드의 태스크 트랙커에 각각 맵 태스크를 할당하고, 생성된 중간 산출물을 리듀스 태스크에 전달하는 단계와, 할당된 맵 태스크가 종료되면, 해당 VM 노드의 자원을 VM 리소스 풀로 환원하는 단계와, 슬레이브 노드와 VM 노드의 태스크 트랙커가 중간 산출물을 입력으로 리듀스 태스크를 실행하여 결과 데이터를 슬레이브 노드의 HDFS에 저장하는 단계, 및 할당된 리듀스 태스크가 종료되면, 해당 VM 노드의 자원을 VM 리소스 풀로 환원하는 단계를 포함한다.
이와 같은 본 발명에 의하면, 실시간으로 처리해야 할 데이터의 컴퓨팅 자원을 분석하여 실시간으로 컴퓨팅 자원을 증감시켜 줌으로써 컴퓨팅 자원을 효율적으로 사용할 수 있다.

Description

자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법{Cloud Driving Method for supporting auto-scaled Hadoop Distributed Parallel Processing System}

본 발명은 클라우드(cloud) 구동 방법에 관한 것으로서, 더 상세하게는 하둡 (Hadoop) 시스템을 사용하여 빅 데이터(big data)를 처리할 때, 입력 데이터를 실시간으로 분석하여 데이터의 크기와 종류에 따른 예상 처리 시간에 따라 필요한 컴퓨팅 자원을 자동으로 증감시켜 줌으로써, 맵 리듀스(Map Reduce) 연산 처리 효율을 향상시킬 수 있는 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법에 관한 것이다.

오늘날 소셜 미디어(social media) 및 멀티미디어의 확산에 따른 비정형 데이터(예를 들면, 기업의 매출액, 개인의 나이와 성별 등의 정형화된 데이터가 아닌 문자 메시지, 음성, 영상, 위치 등 다양한 유형의 데이터)의 폭증으로 인해 기존의 방식으로 저장, 관리 및 분석하기 어려울 정도로 큰 규모를 갖는, 엄청난 양의 데이터인 빅 데이터(big data)가 등장하게 되었다.

스마트폰, 웨어러블(wearable) 디바이스 등으로 인해 개인이 만들어내는 데이터의 정보량이 엄청나게 증가하고, 이러한 빅 데이터의 분석을 통해 기업들은 소비자의 구매 패턴뿐만 아니라 소비자의 관계와 관심, 더 나아가 생활 습관까지 파악할 수 있게 되었다.

이러한 빅 데이터를 분석하기 위한 방법의 하나로 하둡(Hadoop)이 개발되었다. 하둡은 구글 파일 시스템(Google File System)과 상호보완 관계에 있는 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System)과 데이터를 분산시켜 처리한 뒤 하나로 합치는 기술인 맵 리듀스를 구현한 오픈 소스(open source) 기반의 프레임워크(framework)이다. 하둡의 핵심은 두 부분으로 구성되는데, 스토리지 부분(HDFS)과 프로세싱 부분(맵 리듀스)이다. 하둡은 파일들을 대형 블록(예컨대, 64MB 또는 128MB)으로 나누고 이 블록들을 클러스터(cluster) 내의 노드들에 분산하여 저장한다. 저장된 데이터를 프로세싱하기 위하여 하둡 맵 리듀스는 수행 코드를 각 데이터를 저장하고 있는 노드에 전송하고, 이 노드들이 동시에 병렬로 데이터 처리를 수행하게 된다. 이 방식은 데이터와 수행 코드가 동일 노드에서 더 빠르게, 그리고 효과적으로 작동하기 때문에 데이터를 빠르게 처리할 수 있는 장점이 있다.

그러나, 종래 하둡 시스템에서 사용하는 맵 리듀스는 노드 호스트 서버(node host server)의 성능이 상이한 경우 효과적이지 못하고, 한 클러스터에서 여러 맵 리듀스 작업을 동시에 수행하는 경우에는 효율적인 다중-작업 스케줄링을 제공하지 못한다.

또한, 종래 하둡 시스템에서 사용하는 데이터 분석 방법은 맵 리듀스를 시작할 때, 데이터 분석에 할당된 컴퓨팅 자원 내에서 데이터를 처리하기 때문에, 데이터의 양이 기하급수적으로 늘어나는 상황에서는 유휴 컴퓨팅 자원이 있더라도 데이터 분석을 시작하게 되면 유휴 컴퓨팅 자원을 사용하지 못하는 단점이 있다.

한편, 한국 공개특허 제10-2012-0041907호(선행문헌 1)에는 데이터 마이닝 (data mining) 등을 이용한 게놈 계산(genomic computation) 등의 대규모 데이터의 병렬 처리를 보장하기 위해 맵 리듀스(Map Reduce) 상에서 맵퍼(mapper)와 리듀서 (reducer)를 신뢰하지 않으면서 HE(Homomorphic Encryption)를 이용하여 일관된 정확도로 결과값을 사용하여 최종적으로 엔드-투-엔드(end-to-end) 기밀성을 보장하면서 분산 계산하는 "맵 리듀스 기반의 대용량 데이터 분산 계산 방법 및 그 시스템"이 개시되어 있다. 또한, 한국 공개특허 제10-2014-0080795호(선행문헌 2)에는 복수 개의 가상 머신이 가상화 플랫폼으로부터 복수 개의 슬롯(slot)별 태스크 수행 완료시간을 각각 수신하고, 가상 머신이 현재부터 각 가상 머신 내 모든 슬롯이 태스크 수행을 완료하는 수행 완료시간까지의 남은 시간을 연산하여 마스터 노드에 전달하며, 마스터 노드가 수신한 복수 개의 남은 시간에 대한 평균값을 연산하고 그 평균값에 따라 각 가상 머신의 CPU 자원 할당량을 조절하여 각 가상 머신의 태스크 수행시간이 동일하도록 제어함으로써, 가상화 클러스터 환경에서 전체 맵 리듀스 태스크가 균일한 시간 동안 처리되도록 하여 성능을 향상시키고자 하는 "가상화 환경 내 하둡 맵 리듀스의 부하 분산 방법 및 시스템"이 개시되어 있다.

그러나, 상기 선행문헌 1은 대용량 데이터의 저장과 병렬처리 능력을 제공하기 위한 클라우드 컴퓨팅 환경에서 분산 처리기술로 사용되는 맵 리듀스(Map Reduce)가 대규모 데이터를 병렬처리하여 분산 계산하는 프레임워크로서, 데이터 마이닝, 게놈 계산 등에 다양하게 응용될 수는 있지만, 데이터를 맵/리듀스(map/reduce)하는 과정에서 프라이버시(privacy)의 침해가 발생할 수 있는 문제를 해결하기 위한 것이고, 상기 선행문헌 2는 하둡 맵 리듀스가 태스크를 클러스터에 분산하여 처리할 때, 데이터 지역성(data locality)과 구성된 클러스터 환경의 차이로 인해 모든 태스크가 각 노드에서 동시에 끝나지 않고 물결 형태로 종료됨에 따라 모든 태스크가 완료되어야만 종료되는 맵 리듀스의 특성상 심각한 성능 저하가 야기되는 문제에 대응하기 위한 것으로서, 이와 같은 선행문헌 1,2는 전술한 바와 같은 문제점을 내포하고 있다. 즉, 한 클러스터에서 여러 맵 리듀스 작업을 동시에 수행하는 경우에 효율적인 다중-작업 스케줄링을 제공하지 못하고, 데이터의 양이 기하급수적으로 늘어나는 상황에서 유휴 컴퓨팅 자원이 있더라도 데이터 분석을 시작하게 되면 유휴 컴퓨팅 자원을 사용하지 못하게 되는 문제점이 있다.

한국 공개특허 제10-2012-0041907호(2012.05.03 공개) 한국 공개특허 제10-2014-0080795호(2014.07.01 공개)

본 발명은 상기와 같은 사항을 감안하여 창출된 것으로서, 실시간으로 처리해야 할 데이터의 컴퓨팅 자원을 분석하여 실시간으로 컴퓨팅 자원을 증감시켜 줌으로써, 컴퓨팅 자원을 효율적으로 사용할 수 있도록 해주는 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법을 제공함에 그 목적이 있다.

상기의 목적을 달성하기 위하여 본 발명에 따른 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법은, 빅 데이터 처리를 위한 하둡 시스템을 지원하기 위한 것으로, 클라이언트, 마스터 노드, 슬레이브 노드, 클라우드 관리 서버, 및 클라우드 호스트 서버를 구비하는 클라우드 시스템에 기반하여 클라이언트가 요청한 잡(job)의 업무량을 컴파일 타임 혹은 런 타임에 실시간으로 분석하여 이에 필요한 클라우드 시스템의 가상 머신(virtual machine:VM) 리소스 풀(resource pool)로부터 여유 가상 머신(VM)을 계산한 후 자동으로 VM 노드를 증감하여 잡(job)을 재할당하여 구동시킴으로써 잡(job)의 수행 시간을 줄이는 클라우드 구동 방법으로서, a) 상기 클라이언트에 의해 입력 파일을 로딩하여 입력 스플릿(split)을 생성하는 단계와, b) 상기 마스터 노드에 의해 상기 슬레이브 노드의 가용 리소스를 분석하고, 상기 클라우드 관리 서버로부터 VM 리소스 풀 정보를 전달받아 상기 슬레이브 노드와 VM 노드에 잡(job)을 할당하는 단계와, c) 상기 생성된 입력 스플릿을 상기 슬레이브 노드에 의해 입력받아 상기 슬레이브 노드와 VM 노드의 태스크 트랙커에 각각 맵 태스크를 할당하고, 생성된 중간 산출물을 리듀스 태스크에 전달하는 단계와, d) 상기 할당된 맵 태스크가 종료되면, 해당 VM 노드의 자원을 상기 클라우드 관리 서버를 통해 상기 VM 리소스 풀로 환원하는 단계와, e) 상기 슬레이브 노드와 VM 노드의 태스크 트랙커에 의해 상기 중간 산출물을 입력으로 리듀스 태스크를 실행하여 결과 데이터를 슬레이브 노드의 HDFS에 저장하는 단계, 및 f) 상기 할당된 리듀스 태스크가 종료되면, 해당 VM 노드의 자원을 상기 클라우드 관리 서버를 통해 상기 VM 리소스 풀로 환원하는 단계를 포함하는 점에 그 특징이 있다.

여기서, 상기 단계 a)의 입력 스플릿을 생성하는 단계는, a-1) 상기 클라이언트의 잡 클라이언트에 의해 상기 슬레이브 노드의 HDFS에 저장되어 있는 상기 입력 파일을 모두 읽어 들여 파일 포맷에 따라 분석 방법을 구분하여 파일을 분석하는 단계와, a-2) 상기 파일 포맷에 따라 청크(chunk) 단위로 저장되어 있는 상기 입력 파일을 어떻게 분할할지 상세히 지정한 입력 스플릿 데이터를 작성하는 단계, 및 a-3) 상기 파일 포맷에 따라 상기 입력 스플릿 데이터에서 맵 태스크가 쉽게 액세스할 수 있는 키(key)와 값(value)의 쌍으로 이루어진 입력 스플릿 정보를 생성하는 단계를 포함하여 구성될 수 있다.

또한, 상기 단계 b)의 상기 슬레이브 노드와 VM 노드에 잡(job)을 할당하는 단계는, b-1) 상기 마스터 노드의 잡 트랙커가 상기 입력 파일의 청크(chunk)가 물리적으로 어느 슬레이브 노드의 HDFS에 있는지의 정보와, 상기 슬레이브 노드의 가용 리소스를 분석하여 상기 슬레이브 노드에 할당 가능한 맵 태스크와 리듀스 태스크의 개수를 계산하는 단계와, b-2) 상기 클라우드 관리 서버의 리소스 풀 관리부로부터 상기 VM 노드를 할당할 수 있는 VM 리소스 풀 정보를 전달받아, 사용 가능한 VM 노드의 개수와 VM 노드에 할당 가능한 맵 태스크와 리듀스 태스크를 다시 계산하는 단계와, b-3) 상기 마스터 노드의 잡 큐(job queue)에 등록되어 할당되지 않은 잡(job)을 데이터 또는 프로세싱 관점에서 잡(job)의 크기를 분석하고, 가용할 수 있는 상기 VM 리소스 풀의 정보를 이용하여 잡(job)을 큐(queue)에 재배치하는 단계와, b-4) 할당되지 않은 상기 맵 태스크를 상기 계산된 정보에 근거하여, 상기 슬레이브 노드와 상기 VM 노드의 태스크 트랙커에 컴파일 타임에는 정적으로, 런 타임에는 동적으로 각각 할당하여 실행하는 단계, 및 b-5) 맵 태스크들이 완료되었는지 주기적으로 확인하여, 완료되지 않았을 경우, 상기 슬레이브 노드의 가용 리소스를 분석하고, 상기 VM 리소스 풀 정보를 전달받아 상기 슬레이브 노드와 VM 노드에 잡(job)을 할당하는 과정을 반복하는 단계를 포함하여 구성될 수 있다.

또한, 상기 단계 c)의 생성된 중간 산출물을 리듀스 태스크에 전달하는 단계는, c-1) 상기 슬레이브 노드와 상기 VM 노드의 태스크 트랙커가 사용자가 정의한 작업을 키(key)와 값(value)의 입력 포맷에 맞게 상기 맵 태스크를 실행하여 중간 산출물을 생성하는 단계와, c-2) 각각의 상기 슬레이브 노드와 상기 VM 노드의 분할 관리부가 실행중인 맵 태스크의 상기 중간 산출물을 키(key) 값에 따라 교환하고 병합하는 단계, 및 c-3) 상기 맵 태스크의 실행으로 생성된 중간 산출물을 상기 슬레이브 노드와 VM 노드의 태스크 트랙커에서 실행중인 리듀스 태스크에 분산하여 전달하는 단계를 포함하여 구성될 수 있다.

또한, 상기 단계 e)의 결과 데이터를 슬레이브 노드의 HDFS에 저장하는 단계는, e-1) 상기 슬레이브 노드와 상기 VM 노드의 분할 관리부로부터 분산하여 전달받은 중간 산출물을 정렬하고 합산하는 단계, 및 e-2) 상기 슬레이브 노드와 상기 VM 노드의 태스크 트랙커가 상기 합산된 중간 산출물을 입력 값으로 리듀스 태스크를 실행하여 출력 파일을 상기 슬레이브 노드의 HDFS에 저장하는 단계를 포함하여 구성될 수 있다.

이와 같은 본 발명에 의하면, 실시간으로 처리해야 할 데이터의 컴퓨팅 자원을 분석하여 실시간으로 컴퓨팅 자원을 증감시켜 줌으로써 컴퓨팅 자원을 효율적으로 사용할 수 있다.

또한, 클라우드 시스템을 통해 맵 리듀스 작업에 따라 별도의 잡 클러스터를 구성하여 효과적인 다중-작업 스케줄링을 제공함으로써 맵 리듀스 성능을 향상시킬 수 있다.

도 1은 본 발명에 따른 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법의 구현을 위해 채용되는 클라우드 시스템의 구성을 개략적으로 나타낸 도면이다.
도 2는 도 1에 도시된 클라우드 시스템의 클라이언트, 마스터 노드 및 슬레이브 노드의 각각의 내부 구성을 나타낸 도면이다.
도 3은 도 1에 도시된 클라우드 시스템의 마스터 노드에 내장된 잡 트랙커 모듈의 내부 구성을 나타낸 도면이다.
도 4는 도 1에 도시된 클라우드 시스템의 슬레이브 노드에 내장된 태스크 트랙커 모듈의 내부 구성을 나타낸 도면이다.
도 5는 도 1에 도시된 클라우드 시스템의 클라우드 관리 서버 및 클라우드 호스트 서버의 각 내부 구성을 나타낸 도면이다.
도 6은 본 발명에 따른 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법에 있어서, 맵 리듀스의 실행에 따른 데이터의 흐름을 나타낸 도면이다.
도 7은 본 발명에 따른 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법의 전체적인 실행 과정을 나타낸 흐름도이다.
도 8은 본 발명에 따른 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법에 있어서, 입력 스플릿을 생성하는 과정을 나타낸 흐름도이다.
도 9는 본 발명에 따른 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법에 있어서, 슬레이브 노드와 VM 노드에 잡(job)을 할당하는 과정을 나타낸 흐름도이다.
도 10은 본 발명에 따른 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법에 있어서, 생성된 중간 산출물을 리듀스 태스크에 전달하는 과정을 나타낸 흐름도이다.
도 11은 본 발명에 따른 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법에 있어서, 결과 데이터를 슬레이브 노드의 HDFS에 저장하는 과정을 나타낸 흐름도이다.

이하 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.

여기서, 본 발명에 따른 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법에 대해 설명하기에 앞서, 이와 같은 본 발명의 클라우드 구동 방법의 구현을 위해 채용되는 클라우드 시스템에 대해 먼저 설명한다.

도 1은 본 발명에 따른 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법의 구현을 위해 채용되는 클라우드 시스템의 구성을 개략적으로 나타낸 도면이다.

도 1을 참조하면, 본 발명의 클라우드 구동 방법의 구현을 위해 채용되는 클라우드 시스템(100)은 클라이언트(110), 마스터 노드(120), 슬레이브 노드(130), 클라우드 관리 서버(140), 및 클라우드 호스트 서버(150)를 포함하여 구성된다.

여기서, 상기 마스터 노드(120)와 슬레이브 노드(130)는 VM 리소스 풀(102)을 구성하고, 상기 클라우드 관리 서버(140)와 클라우드 호스트 서버(150)는 물리 서버 팜(104)을 구성한다. VM 리소스 풀(102)은 VM 노드(130e∼130g)(도 6 참조)에 CPU, 메모리, HDD, 네트워크 자원을 할당하여 가상 머신(virtual machine;VM)으로 동작하도록 자원을 제공하는 가상화 리소스들의 풀(pool)이다.

상기 클라이언트(110)는, 도 2에 도시된 바와 같이, 상기 슬레이브 노드(130)의 하둡 분산 파일 시스템(HDFS)(133)에 저장되어 있는 입력 파일을 분석하여 입력 스플릿(split), 설정 파일(예를 들면, 다수의 슬레이브 노드 중 어느 슬레이브 노드를 사용할 것인지에 등에 대한 정보가 실려있는 파일), 특정 파일(이것은 일을 수행할 일종의 코드에 해당하는 것으로서, 예를 들면, "Map Reduce.jar"와 같은 파일)을 상기 슬레이브 노드(130)의 HDFS(133)에 저장하고, 상기 잡 트랙커(121)에 맵 리듀스를 시작할 준비가 되었음을 알려주는 잡 클라이언트(job client)(111)와, 상기 마스터 노드(120) 및 슬레이브 노드(130)와 네트워크 통신망(160)을 통해 데이터 통신을 수행하는 통신 인터페이스(112)를 포함하여 구성될 수 있다.

상기 마스터 노드(120)는 도 2에 도시된 바와 같이, 상기 잡 클라이언트(111)가 요청한 잡(job)을 상기 슬레이브 노드(130)와 상기 가상 머신 노드의 태스크 트랙커에 맵 태스크와 리듀스 태스크로 각각 할당하는 잡 트랙커(121)와, 상기 슬레이브 노드(130)의 HDFS(133)(후술됨)의 디렉터리 구조를 관리하는 마스터 노드 관리부(122), 및 상기 슬레이브 노드(130)와 네트워크 통신망(160)을 통해 데이터 통신을 수행하는 통신 인터페이스(123)를 포함하여 구성될 수 있다.

여기서, 상기 잡 트랙커(121)는 도 3에 도시된 바와 같이, 요청된 잡(job)을 큐(queue)로 관리하여 슬레이브 노드(130) 또는 VM 노드(130e∼130g)(도 6 참조)의 태스크 트랙커(131)에 잡(job)을 할당하는 잡(job) 관리부(121a)와, 슬레이브 노드 (130)의 리소스와 클라우드 관리 서버(140)가 관리하는 VM 리소스 풀(102)을 분석하는 리소스 분석부(121b), 및 태스크 트랙커(131)에 할당된 잡(job)을 처리하기 위한 시간을 분석하는 잡(job) 분석부(121c)를 포함하여 구성될 수 있다.

상기 슬레이브 노드(130)는 도 2에 도시된 바와 같이, 상기 마스터 노드(120)의 잡 트랙커(121)의 잡 관리부(121a)가 우선 순위에 따라 할당해 준 맵 태스크들과 리듀스 태스크들을 관리하여 실행하는 태스크 트랙커(task tracker)(131)와, 슬레이브 노드의 가용 리소스 정보를 상기 마스터 노드(120)의 잡 트랙커(121)의 리소스 분석부(121b)에 하트 비트(heart beat)로 전달하는 리소스 모니터부(132)와, 맵 리듀스를 실행하기 위한 실제 데이터가 저장되어 있는 HDFS(133)와, 그 HDFS(133)에 저장된 데이터를 관리하는 슬레이브 노드 관리부(134), 및 상기 마스터 노드(120)와 네트워크 통신망 (160)을 통해 데이터 통신을 수행하는 통신 인터페이스(135)를 포함하여 구성될 수 있다. 그리고, 이와 같은 슬레이브 노드(130)는 다수의 슬레이브 노드들(130a∼130c)로 구성될 수 있다.

여기서, 상기 태스크 트랙커(131)는 도 4에 도시된 바와 같이, 마스터 노드 (120)의 잡 트랙커(121)의 잡 관리부(121a)가 할당해 준 맵 태스크와 리듀스 태스크를 관리하는 태스크 관리부(131a)와, 맵 태스크의 실행으로 나온 중간 산출물을 리듀스 태스크가 진행할 수 있는 입력 데이터로 변환해 주는 분할 관리부(131b)를 포함하여 구성될 수 있다.

상기 클라우드 관리 서버(140)는 도 5에 도시된 바와 같이, 상기 클라우드 호스트 서버(150)에서 동작하는 상기 가상 머신(VM) 노드와 연결하여 제어하는 VM 노드 연결부(141)와, 상기 클라우드 호스트 서버(150)에서 동작하는 상기 VM 노드의 생성, 실행, 삭제를 관리하는 클러스터 관리부(142)와, 상기 VM 노드가 사용하는 리소스 풀을 관리하는 리소스 풀 관리부(143), 및 상기 마스터 노드(120)와 네트워크 통신망(160)을 통해 데이터 통신을 수행하는 통신 인터페이스(144)를 포함하여 구성될 수 있다.

상기 클라우드 호스트 서버(150)는 도 5에 도시된 바와 같이, 상기 클라우드 관리 서버(140)의 VM 노드 연결부(141)의 요청에 따라 활성화된 상기 VM 노드(130e∼130g)(도 6 참조)를 관리하는 VM 노드 관리부(151)와, 하이퍼바이저(Hypervisor) 엔진을 통해 가상화에 필요한 모든 기능을 제공하는 가상화 관리부 (152)와, 상기 클라우드 관리 서버(140)의 클러스터 관리부(142)의 요청에 따라 필요한 VM 노드의 생성, 실행, 삭제 요청을 실행하는 클러스터 에이전트부(153)와, 클라우드 호스트 서버의 CPU, 메모리, 디스크 사용량, VM 노드의 사용량을 상기 클라우드 관리 서버(140)의 리소스 풀 관리부(143)로 전달하는 리소스 모니터부(154), 및 상기 클라우드 관리 서버(140)와 네트워크 통신망(160)을 통해 데이터 통신을 수행하는 통신 인터페이스(155)를 포함하여 구성될 수 있다. 그리고, 이와 같은 클라우드 호스트 서버(150)는 다수의 클라우드 호스트 서버들(150a∼150c)로 구성될 수 있다.

여기서, 상기 VM 노드(130e∼130g)는 CPU, 메모리, HDD, 네트워크 자원을 클라우드 호스트 서버(150)로부터 제공받아 가상 머신(virtual machine;VM)의 역할을 하는 것으로서, 로컬의 물리적인 슬레이브 노드(130)와 동일한 동작을 수행한다.

그러면, 이제 이상과 같은 구성을 갖는 클라우드 시스템을 기반으로 본 발명에 따른 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법에 대해 설명한다.

도 6은 본 발명에 따른 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법에 있어서, 맵 리듀스의 실행에 따른 데이터의 흐름을 나타낸 도면이고, 도 7은 본 발명의 실시예에 따른 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법의 전체적인 실행 과정을 나타낸 흐름도이다.

도 6 및 도 7을 참조하면, 본 발명에 따른 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법은, 빅 데이터 처리를 위한 하둡 시스템을 지원하기 위한 것으로, 전술한 바와 같은 클라이언트(110), 마스터 노드(120), 슬레이브 노드 (130), 클라우드 관리 서버(140), 및 클라우드 호스트 서버(150)를 구비하는 클라우드 시스템에 기반하여 클라이언트(110)가 요청한 잡(job)의 업무량을 컴파일 타임 또는 런 타임에 실시간으로 분석하여 이에 필요한 클라우드 시스템의 가상 머신 (virtual machine:VM) 리소스 풀(resource pool)로부터 여유 가상 머신(VM)을 계산한 후 자동으로 VM 노드를 증감하여 잡(job)을 재할당하여 구동시킴으로써 잡(job)의 수행 시간을 줄이고자 한다.

이상과 같은 본 발명의 클라우드 구동 방법은, 먼저 상기 클라이언트(110)의 잡 클라이언트(111)가 맵 리듀스 연산 처리를 위해 입력 파일(601)을 로딩하여 입력 스플릿(split)(602a∼602d)을 생성한다(단계 S710).

여기서, 이상과 같은 입력 스플릿(split)(602a∼602d)의 생성에 대하여 도 8을 참조하여 더 상세히 설명한다.

도 8은 본 발명에 따른 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법에 있어서, 입력 스플릿을 생성하는 과정을 나타낸 흐름도이다.

도 8을 참조하면, 먼저 상기 클라이언트(110)의 잡 클라이언트(111)에 의해 상기 슬레이브 노드(130)의 HDFS(133)에 저장되어 있는 상기 입력 파일(601)을 모두 읽어 들여 파일 포맷에 따라 분석 방법을 구분하여 파일을 분석한다(단계 S711).

그런 후, 상기 파일 포맷에 따라 청크(chunk) 단위로 저장되어 있는 상기 입력 파일(601)을 어떻게 분할할지 상세히 지정한 입력 스플릿(602a∼602d) 데이터를 작성한다(단계 S712).

그런 다음, 상기 파일 포맷에 따라 상기 입력 스플릿 데이터에서 맵 태스크가 쉽게 액세스할 수 있는 키(key)와 값(value)의 쌍으로 이루어진 입력 스플릿(602a∼602d) 정보를 생성한다(단계 S713).

이렇게 하여, 입력 스플릿(split)(602a∼602d)의 생성이 완료되면, 상기 마스터 노드(120)의 잡 트랙커(121)에 의해 슬레이브 노드(130)의 리소스 모니터부(132)를 통해 슬레이브 노드(130)의 가용 리소스를 분석하고, 상기 클라우드 관리 서버(140)의 리소스 풀 관리부(143)로부터 VM 노드(130e∼130g)를 할당할 수 있는 VM 리소스 풀(102) 정보를 전달받아 상기 슬레이브 노드(130)와 VM 노드(130e∼130g)에 잡(job)을 할당한다(단계 S720).

여기서, 이와 같은 잡(job) 할당에 대하여 도 9를 참조하여 더 상세히 설명한다.

도 9는 본 발명에 따른 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법에 있어서, 슬레이브 노드와 VM 노드에 잡(job)을 할당하는 과정을 나타낸 흐름도이다.

도 9를 참조하면, 먼저 마스터 노드(120)의 잡 트랙커(121)가 상기 입력 파일 (601)의 청크(chunk)가 물리적으로 어느 슬레이브 노드(130)의 HDFS(133)에 있는지의 정보와, 상기 슬레이브 노드(130)의 가용 리소스를 분석하여 상기 슬레이브 노드 (130)에 할당 가능한 맵 태스크와 리듀스 태스크의 개수를 계산한다(단계 S721).

그리고, 상기 클라우드 관리 서버(140)의 리소스 풀 관리부(143)로부터 상기 VM 노드(130e∼130g)를 할당할 수 있는 VM 리소스 풀(102) 정보를 전달받아, 사용 가능한 VM 노드(130e∼130g)의 개수와 VM 노드(130e∼130g)에 할당 가능한 맵 태스크와 리듀스 태스크를 다시 계산한다(단계 S722).

그런 후, 마스터 노드(120)의 잡 큐(job queue)에 등록되어 할당되지 않은 잡(job)을 데이터 또는 프로세싱 관점에서 잡(job)의 크기를 분석하고, 가용할 수 있는 VM 리소스 풀(102)의 정보를 이용하여 잡(job)을 큐(queue)에 재배치한다(단계 S723).

그런 다음, 할당되지 않은 맵 태스크를 상기 계산된 정보에 근거하여, 슬레이브 노드(130)와 상기 VM 노드(130e∼130g)의 태스크 트랙커(131)에 컴파일 타임에는 정적으로, 런 타임에는 동적으로 각각 할당하여 실행한다(단계 S724).

이후, 맵 태스크들이 완료되었는지 주기적으로 확인하여, 완료되지 않았을 경우, 상기 슬레이브 노드의 가용 리소스를 분석하고, 상기 VM 리소스 풀 정보를 전달받아 상기 슬레이브 노드와 VM 노드에 잡(job)을 할당하는 상기 단계 S721부터 단계S724까지의 과정을 반복한다(단계 S725).

이상에 의해 상기 슬레이브 노드(130)와 VM 노드(130e∼130g)에 잡(job)을 할당하는 과정이 완료되면, 상기 슬레이브 노드(130)의 태스크 트랙커(131)는 상기 생성된 입력 스플릿(602a∼602d)을 입력으로 슬레이브 노드(130)와 VM 노드(130e∼130g)의 태스크 트랙커(131)에 각각 맵 태스크를 할당하고, 생성된 중간 산출물을 리듀스 태스크에 전달한다(단계 S730).

여기서, 이상과 같이 생성된 중간 산출물을 리듀스 태스크에 전달하는 것에 대하여 도 10을 참조하여 더 상세히 설명한다.

도 10은 본 발명에 따른 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법에 있어서, 생성된 중간 산출물을 리듀스 태스크에 전달하는 과정을 나타낸 흐름도이다.

도 10을 참조하면, 먼저 슬레이브 노드(130)와 VM 노드(130e∼130g)의 태스크 트랙커(131)는 사용자가 정의한 작업을 키(key)와 값(value)의 입력 포맷에 맞게 맵 태스크를 실행하여 중간 산출물을 생성한다(단계 S731).

그런 후, 각각의 슬레이브 노드(130)와 VM 노드(130e∼130g)의 태스크 트랙커 (131)의 분할 관리부(131b)가 실행중인 맵 태스크의 상기 중간 산출물을 키(key) 값에 따라 교환하고 병합한다(단계 S732).

그런 다음, 상기 맵 태스크의 실행으로 생성된 중간 산출물을 상기 슬레이브 노드(130)와 VM 노드(130e∼130g)의 태스크 트랙커(131)에서 실행중인 리듀스 태스크에 분산하여 전달한다(단계 S733).

이렇게 하여 생성된 중간 산출물의 리듀스 태스크로의 전달이 완료된 후, VM 노드(130e∼130g)의 태스크 트랙커(131)에 할당된 맵 태스크가 종료되면, 해당 VM 노드(130e∼130g)의 자원을 상기 클라우드 관리 서버(140)의 리소스 풀 관리부(143)를 통해 상기 VM 리소스 풀(102)로 환원한다(단계 S740).

그리고, 상기 슬레이브 노드(130)와 VM 노드(130e∼130g)의 태스크 트랙커(131)는 상기 중간 산출물을 입력으로 리듀스 태스크를 실행하여 결과 데이터를 슬레이브 노드(130)의 HDFS(133)에 저장한다(단계 S750).

여기서, 이상과 같은 결과 데이터를 슬레이브 노드(130)의 HDFS(133)에 저장하는 것에 대하여 도 11을 참조하여 더 상세히 설명한다.

도 11은 본 발명에 따른 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법에 있어서, 결과 데이터를 슬레이브 노드의 HDFS에 저장하는 과정을 나타낸 흐름도이다.

도 11을 참조하면, 먼저 상기 슬레이브 노드(130)와 VM 노드(130e∼130g)의 태스크 트랙커(131)의 분할 관리부(131b)는 분산하여 전달받은 중간 산출물을 정렬하고 합산한다(단계 S751).

그런 후, 상기 슬레이브 노드(130)와 VM 노드(130e∼130g)의 태스크 트랙커 (131)는 상기 합산된 중간 산출물을 입력 값으로 리듀스 태스크를 실행하여 출력 파일(603a,603b)을 상기 슬레이브 노드(130)의 HDFS(133)에 저장한다(단계 S752).

이렇게 하여 결과 데이터가 슬레이브 노드(130)의 HDFS(133)에 저장된 후, VM 노드의 태스크 트랙커(131)에 할당된 리듀스 태스크가 종료되면, 해당 VM 노드(130e∼130g)의 자원을 상기 클라우드 관리 서버(140)의 리소스 풀 관리부(143)를 통해 상기 VM 리소스 풀(102)로 환원한다(단계 S760).

이상의 설명에서와 같이, 본 발명에 따른 자동 분산병렬 처리 하둡 시스템을 지원하는 클라우드 시스템은 실시간으로 처리해야 할 데이터의 컴퓨팅 자원을 분석하여 실시간으로 컴퓨팅 자원을 증감시켜 주며, 이에 따라 컴퓨팅 자원을 효율적으로 사용할 수 있는 장점이 있다.

또한, 본 발명에 따른 자동 분산병렬 처리 하둡 시스템을 지원하는 클라우드 시스템은 클라우드 시스템을 통해 맵 리듀스 작업에 따라 별도의 잡 클러스터(job cluster)를 구성하여 효과적인 다중-작업 스케줄링을 제공함으로써 맵 리듀스 성능을 향상시킬 수 있는 장점이 있다.

이상, 바람직한 실시 예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양하게 변경, 응용될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다. 따라서, 본 발명의 진정한 보호 범위는 다음의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

102: VM 리소스 풀 104: 물리 서버 팜
110: 클라이언트 111: 잡 클라이언트
112: 통신 인터페이스 120: 마스터 노드
121: 잡(job) 트랙커 121a: 잡(job) 관리부
121b: 리소스 분석부 121c: 잡(job) 분석부
122: 마스터 노드 관리부 123: 통신 인터페이스
130,130a∼130c: 슬레이브 노드 130e∼130g: VM 노드
131: 태스크 트랙커 131a: 태스크 관리부
131b: 분할 관리부 132: 리소스 모니터부
133: HDFS 134: 슬레이브 노드 관리부
135: 통신 인터페이스 140: 클라우드 관리 서버
141: VM 노드 연결부 142: 클러스터 관리부
143: 리소스 풀 관리부 144: 통신 인터페이스
150,150a∼150c: 클라우드 호스트 서버 151: VM 노드 관리부
152: 가상화 관리부 153: 클러스터 에이전트부
154: 리소스 모니터부 155: 통신 인터페이스
160: 네트워크 통신망 601: 입력 파일
602a∼602d: 입력 스플릿 603a,603b: 출력 파일

Claims

빅 데이터 처리를 위한 하둡 시스템을 지원하기 위한 것으로, 클라이언트, 마스터 노드, 슬레이브 노드, 클라우드 관리 서버, 및 클라우드 호스트 서버를 구비하는 클라우드 시스템에 기반하여 클라이언트가 요청한 잡(job)의 업무량을 컴파일 타임 혹은 런 타임에 실시간으로 분석하여 이에 필요한 클라우드 시스템의 가상 머신(virtual machine:VM) 리소스 풀(resource pool)로부터 여유 가상 머신(VM)을 계산한 후 자동으로 VM 노드를 증감하여 잡(job)을 재할당하여 구동시킴으로써 잡(job)의 수행 시간을 줄이는 클라우드 구동 방법으로서,
a) 상기 클라이언트에 의해 입력 파일을 로딩하여 입력 스플릿(split)을 생성하는 단계와,
b) 상기 마스터 노드에 의해 상기 슬레이브 노드의 가용 리소스를 분석하고, 상기 클라우드 관리 서버로부터 VM 리소스 풀 정보를 전달받아 상기 슬레이브 노드와 VM 노드에 잡(job)을 할당하는 단계와,
c) 상기 생성된 입력 스플릿을 상기 슬레이브 노드에 의해 입력받아 상기 슬레이브 노드와 VM 노드의 태스크 트랙커에 각각 맵 태스크를 할당하고, 생성된 중간 산출물을 리듀스 태스크에 전달하는 단계와,
d) 상기 할당된 맵 태스크가 종료되면, 해당 VM 노드의 자원을 상기 클라우드 관리 서버를 통해 상기 VM 리소스 풀로 환원하는 단계와,
e) 상기 슬레이브 노드와 VM 노드의 태스크 트랙커에 의해 상기 중간 산출물을 입력으로 리듀스 태스크를 실행하여 결과 데이터를 슬레이브 노드의 HDFS에 저장하는 단계, 및
f) 상기 할당된 리듀스 태스크가 종료되면, 해당 VM 노드의 자원을 상기 클라우드 관리 서버를 통해 상기 VM 리소스 풀로 환원하는 단계를 포함하는 것을 특징으로 하는 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법.
제1항에 있어서,
상기 단계 a)의 입력 스플릿을 생성하는 단계는,
a-1) 상기 클라이언트의 잡 클라이언트에 의해 상기 슬레이브 노드의 HDFS에 저장되어 있는 상기 입력 파일을 모두 읽어 들여 파일 포맷에 따라 분석 방법을 구분하여 파일을 분석하는 단계와,
a-2) 상기 파일 포맷에 따라 청크(chunk) 단위로 저장되어 있는 상기 입력 파일을 어떻게 분할할지 상세히 지정한 입력 스플릿 데이터를 작성하는 단계, 및
a-3) 상기 파일 포맷에 따라 상기 입력 스플릿 데이터에서 맵 태스크가 쉽게 액세스할 수 있는 키(key)와 값(value)의 쌍으로 이루어진 입력 스플릿 정보를 생성하는 단계를 포함하는 것을 특징으로 하는 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법.
제1항에 있어서,
상기 단계 b)의 상기 슬레이브 노드와 VM 노드에 잡(job)을 할당하는 단계는,
b-1) 상기 마스터 노드의 잡 트랙커가 상기 입력 파일의 청크(chunk)가 물리적으로 어느 슬레이브 노드의 HDFS에 있는지의 정보와, 상기 슬레이브 노드의 가용 리소스를 분석하여 상기 슬레이브 노드에 할당 가능한 맵 태스크와 리듀스 태스크의 개수를 계산하는 단계와,
b-2) 상기 클라우드 관리 서버의 리소스 풀 관리부로부터 상기 VM 노드를 할당할 수 있는 VM 리소스 풀 정보를 전달받아, 사용 가능한 VM 노드의 개수와 VM 노드에 할당 가능한 맵 태스크와 리듀스 태스크를 다시 계산하는 단계와,
b-3) 상기 마스터 노드의 잡 큐(job queue)에 등록되어 할당되지 않은 잡(job)을 데이터 또는 프로세싱 관점에서 잡(job)의 크기를 분석하고, 가용할 수 있는 상기 VM 리소스 풀의 정보를 이용하여 잡(job)을 큐(queue)에 재배치하는 단계와,
b-4) 할당되지 않은 상기 맵 태스크를 상기 계산된 정보에 근거하여, 상기 슬레이브 노드와 상기 VM 노드의 태스크 트랙커에 컴파일 타임에는 정적으로, 런 타임에는 동적으로 각각 할당하여 실행하는 단계, 및
b-5) 맵 태스크들이 완료되었는지 주기적으로 확인하여, 완료되지 않았을 경우, 상기 슬레이브 노드의 가용 리소스를 분석하고, 상기 VM 리소스 풀 정보를 전달받아 상기 슬레이브 노드와 VM 노드에 잡(job)을 할당하는 과정을 반복하는 단계를 포함하는 것을 특징으로 하는 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법.
제1항에 있어서,
상기 단계 c)의 생성된 중간 산출물을 리듀스 태스크에 전달하는 단계는,
c-1) 상기 슬레이브 노드와 상기 VM 노드의 태스크 트랙커가 사용자가 정의한 작업을 키(key)와 값(value)의 입력 포맷에 맞게 상기 맵 태스크를 실행하여 중간 산출물을 생성하는 단계와,
c-2) 각각의 상기 슬레이브 노드와 상기 VM 노드의 분할 관리부가 실행중인 맵 태스크의 상기 중간 산출물을 키(key) 값에 따라 교환하고 병합하는 단계, 및
c-3) 상기 맵 태스크의 실행으로 생성된 중간 산출물을 상기 슬레이브 노드와 VM 노드의 태스크 트랙커에서 실행중인 리듀스 태스크에 분산하여 전달하는 단계를 포함하는 것을 특징으로 하는 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법.
제1항에 있어서,
상기 단계 e)의 결과 데이터를 슬레이브 노드의 HDFS에 저장하는 단계는,
e-1) 상기 슬레이브 노드와 상기 VM 노드의 분할 관리부로부터 분산하여 전달받은 중간 산출물을 정렬하고 합산하는 단계, 및
e-2) 상기 슬레이브 노드와 상기 VM 노드의 태스크 트랙커가 상기 합산된 중간 산출물을 입력 값으로 리듀스 태스크를 실행하여 출력 파일을 상기 슬레이브 노드의 HDFS에 저장하는 단계를 포함하는 것을 특징으로 하는 자동 분산병렬 처리 하둡 시스템의 지원을 위한 클라우드 구동 방법.