KR20160096313A

KR20160096313A - 빅데이터를 분석하는 분석 애플리케이션을 모니터링하는 장치 및 방법

Info

Publication number: KR20160096313A
Application number: KR1020150017775A
Authority: KR
Inventors: 김병곤
Original assignee: 주식회사 클라우다인
Priority date: 2015-02-05
Filing date: 2015-02-05
Publication date: 2016-08-16

Abstract

빅데이터를 분석하는 분석 애플리케이션을 모니터링하는 장치 및 방법이 개시된다 분석 애플리케이션을 모니터링하는 장치는 다수의 정보 처리 장치 각각에서 실행될 분석 애플리케이션에 대한 메타데이터를 추출하는 메타데이터 추출부, 분석 애플리케이션에 대한 메타데이터를 기반으로 다수의 정보 처리 장치 각각으로부터 분석 애플리케이션에서 동작하는 적어도 하나의 분석 태스크에 대한 처리 정보를 수집하는 정보 수집부 및 적어도 하나의 분석 태스크에 대한 처리 정보를 정렬하여 표시하는 모니터링 제공부를 포함한다. 따라서, 다수의 정보 처리 장치에서 분산 처리되는 빅데이터 분석 결과를 효율적으로 통합하고 관리함으로써 빅데이터의 분석 성능이 향상됨과 동시에 신뢰도 높은 지식 정보를 추론할 수 있다.

Description

빅데이터를 분석하는 분석 애플리케이션을 모니터링하는 장치 및 방법{APPARATUS AND METHOD FOR MONITORING ANALYSIS APPLICATION FOR ANALYZING BIG DATA}

본 발명은 빅데이터 분석 기술에 관한 것으로, 더욱 상세하게는, 병렬 분산 처리 시스템에서 분산 처리되는 빅데이터 분석 결과를 효율적으로 관리할 수 있도록 빅데이터를 분석하는 분석 애플리케이션을 모니터링하는 장치 및 방법에 관한 것이다.

최근 스마트폰, 태블릿 PC와 같은 이동 통신 단말기의 보급이 대중화되고 소셜 네트워크 서비스(SNS, Social Network Service), 사물 네트워크(M2M, Machine To Machine), 센서 네트워크(Sensor Network) 등의 사용이 증가함에 따라 데이터의 양, 생성 속도 및 그 다양성이 기하급수적으로 증가하고 있다.

이처럼 다양하고 방대한 규모를 가지는 빅데이터를 분석하면 지능형 로봇, 차세대 PC, 텔레매틱스, 홈네트워크, 고객 관계 관리, 인공 지능, 검색 엔진 등의 다양한 기술 분야에 활용될 수 있다는 점에서 빅데이터 분석 기술에 대한 연구가 활발하게 진행되고 있다.

빅데이터 분석 기술은 기존의 관계형 데이터베이스로 관리할 수 있는 데이터뿐 아니라 정형, 비정형, 반정형의 데이터를 분석하여 가치있는 지식 정보로 추론하거나 지식 베이스를 구성하는 기술을 의미한다.

다만, 단 한 대의 정보 처리 장치로 방대한 양의 빅데이터를 분석하는 것은 현실적으로 불가능하기 때문에 빅데이터를 다수의 정보 처리 장치로 분산하여 병렬 처리하는 병렬 분산 처리 시스템이 이용되는 추세이다.

병렬 분산 처리 시스템에서 빅데이터는 다수의 정보 처리 장치로 분산되고, 다수의 정보 처리 장치 각각에서 실행되는 분석 애플리케이션을 통해 분석된다.

그러나, 상술한 종래의 빅데이터 분석 기술은 다수의 정보 처리 장치 중 어느 정보 처리 장치의 분석 애플리케이션에서 빅데이터 분석이 실행되었는 지, 빅데이터 분석을 위해 어떠한 자원과 데이터가 이용되었는 지와 등과 같이 빅데이터가 분석되는 과정을 모니터링할 수 없다는 한계가 있다.

그리하여, 시스템 상에 문제가 발생하는 경우, 이를 해결하기 위해 개발자 또는 시스템 운영자가 다수의 정보 처리 장치에서 실행되는 분석 애플리케이션의 분석 작업을 일일이 확인해야 한다는 점에서 시스템을 효율적으로 운영하고 관리할 수 없다는 문제가 있다.

이에 따라 빅데이터 분석 성능이 떨어져 빅데이터 분석을 통해 추론되는 지식에 대한 신뢰도 또한 떨어질 수 있다는 문제가 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 다수의 정보 처리 장치에서 분산 처리되는 빅데이터 분석 결과를 효율적으로 통합하고 관리할 수 있도록 분석 애플리케이션을 모니터링하는 장치를 제공하는 데 있다.

또한, 본 발명의 다른 목적은, 분산 처리되는 빅데이터의 분석 성능을 향상시킴과 동시에 빅데이터로부터 신뢰도 높은 지식 정보를 추론할 수 있도록 분석 애플리케이션을 모니터링하는 방법을 제공하는 데 있다.

상기 목적을 달성하기 위한 본 발명의 일 측면에 따른 분석 애플리케이션을 모니터링하는 장치는, 다수의 정보 처리 장치가 빅데이터를 분산 처리하는 병렬 분산 처리 시스템에서 수행되며, 다수의 정보 처리 장치 각각에서 실행될 분석 애플리케이션에 대한 메타데이터를 추출하는 메타데이터 추출부, 다수의 정보 처리 장치 각각에서 분석 애플리케이션이 실행됨에 따라 분석 애플리케이션에 대한 메타데이터를 기반으로 다수의 정보 처리 장치 각각으로부터 분석 애플리케이션에서 동작하는 적어도 하나의 분석 태스크에 대한 처리 정보를 수집하는 정보 수집부 및 적어도 하나의 분석 태스크에 대한 처리 정보를 정렬하여 표시하는 모니터링 제공부를 포함한다.

여기에서, 분석 애플리케이션은 빅데이터를 분산 처리하는 맵(Map) 함수와 분산 처리된 빅데이터 분석 결과를 통합하는 리듀스(Reduce) 함수로 구성되는 맵리듀스(MapReduce) 프로그램을 의미할 수 있다.

여기에서, 정보 수집부는 다수의 정보 처리 장치 각각으로부터 분석 애플리케이션에서 동작하는 적어도 하나의 분석 태스크에 대한 처리 정보를 수신하고, 적어도 하나의 분석 태스크에 대한 처리 정보와 분석 애플리케이션에 대한 메타데이터를 매핑하여 저장할 수 있다.

여기에서, 분석 애플리케이션에 대한 메타데이터는 다수의 정보 처리 장치 각각에서 실행될 분석 애플리케이션을 식별할 수 있도록 미리 부여된 식별 데이터로, 분석 애플리케이션을 실행할 정보 처리 장치의 식별 정보, 정보 처리 장치에서 분석 애플리케이션의 위치, 실행 경로, 내용, 권리 조건 및 이용 조건 중 적어도 하나가 포함될 수 있다.

여기에서, 적어도 하나의 분석 태스크에 대한 처리 정보는 분석 태스크 각각이 빅데이터를 처리하기 위해 접근한 자원 정보 또는 데이터 정보, 분석 태스크 각각의 식별 정보, 분석 태스크 각각을 동작시킨 함수의 유형 정보, 분석 태스크 각각에 대한 처리 성공 여부나 진행 상태를 표현하는 정보 및 분석 태스크 각각의 동작이 시작된 시간과 종료된 시간 중 적어도 하나를 포함할 수 있다.

여기에서, 병렬 분산 처리 시스템을 운용하는 시스템 운영자 또는 개발자가 적어도 하나의 분석 태스크에 대한 처리 정보의 검색 조건을 입력할 수 있도록 사용자 인터페이스를 제공하는 검색 조건 설정부를 더 포함할 수 있다.

여기에서, 모니터링 제공부는 입력된 검색 조건에 상응하는 적어도 하나의 분석 태스크에 대한 처리 정보를 동작 순서를 기준으로 정렬하여 화면에 표시할 수 있다.

또한, 상기 목적을 달성하기 위한 본 발명의 다른 측면에 따른 분석 애플리케이션을 모니터링하는 방법은, 분석 애플리케이션을 모니터링하는 장치에 의해 수행되며, 다수의 정보 처리 장치 각각에서 실행될 분석 애플리케이션에 대한 메타데이터를 추출하는 단계, 다수의 정보 처리 장치 각각에서 분석 애플리케이션이 실행됨에 따라 분석 애플리케이션에 대한 메타데이터를 기반으로 다수의 정보 처리 장치 각각으로부터 분석 애플리케이션에서 동작하는 적어도 하나의 분석 태스크에 대한 처리 정보를 수집하는 단계 및 적어도 하나의 분석 태스크에 대한 처리 정보를 정렬하여 표시하는 단계를 포함한다.

여기에서, 병렬 분산 처리 시스템을 운용하는 시스템 운영자 또는 개발자가 적어도 하나의 분석 태스크에 대한 처리 정보의 검색 조건을 입력할 수 있도록 사용자 인터페이스를 제공하는 단계를 더 포함할 수 있다.

상술한 바와 같은 본 발명의 실시예에 따른 분석 애플리케이션을 모니터링하는 장치 및 방법에 따르면, 다수의 정보 처리 장치에서 분산 처리되는 빅데이터 분석 결과를 효율적으로 통합하고 관리할 수 있다.

또한, 분산 처리되는 빅데이터의 분석 성능을 향상시킴과 동시에 빅데이터로부터 신뢰도 높은 지식 정보를 추론할 수 있다.

도 1은 본 발명의 실시예에 따른 빅데이터를 분산 처리하는 병렬 분산 처리 시스템을 설명하는 예시도이다.
도 2는 본 발명의 실시예에 따른 분석 애플리케이션을 모니터링하는 장치를 설명하는 블록도이다.
도 3은 본 발명의 실시예에 따른 분석 애플리케이션에서 동작하는 적어도 하나의 분석 태스크에 대한 처리 정보가 제공되는 화면을 설명하는 예시도이다.
도 4는 본 발명의 실시예에 따른 분석 애플리케이션을 통해 처리된 빅데이터 분석 결과가 제공되는 화면을 설명하는 예시도이다.
도 5는 본 발명의 실시예에 따른 검색 조건에 따라 분석 애플리케이션을 모니터링할 수 있도록 제공된 화면을 설명하는 예시도이다.
도 6은 본 발명의 실시예에 따른 분석 애플리케이션을 모니터링하는 방법을 설명하는 흐름도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 실시예에 따른 빅데이터를 분산 처리하는 병렬 분산 처리 시스템을 설명하는 예시도이고, 도 2는 본 발명의 실시예에 따른 분석 애플리케이션을 모니터링하는 장치를 설명하는 블록도이다.

또한, 도 3은 본 발명의 실시예에 따른 분석 애플리케이션에서 동작하는 적어도 하나의 분석 태스크에 대한 처리 정보가 제공되는 화면을 설명하는 예시도이고, 도 4는 본 발명의 실시예에 따른 분석 애플리케이션을 통해 처리된 빅데이터 분석 결과가 제공되는 화면을 설명하는 예시도이며, 도 5는 본 발명의 실시예에 따른 검색 조건에 따라 분석 애플리케이션을 모니터링할 수 있도록 제공된 화면을 설명하는 예시도이다.

도 1 내지 도 5를 참조하여, 빅데이터를 분석하는 분석 애플리케이션을 모니터링하는 기술을 설명하도록 한다.

최근에는 빅데이터를 분석하기 위해 다수의 정보 처리 장치가 구성된 병렬 분산 처리 시스템을 이용하는 것이 일반적이다.

다만, 병렬 분산 처리 시스템을 이용하는 종래의 빅데이터 분석 기술은 빅데이터가 분석되는 과정을 모니터링할 수 있는 기술이 지원되지 않는다. 그리하여, 다수의 정보 처리 장치에서 분산 처리되는 빅데이터 분석 결과를 효율적으로 관리할 수 없다는 문제가 있다. 이로써 빅데이터 분석 성능이 떨어질 수 있고 빅데이터 분석을 통해 추론되는 지식에 대한 신뢰도 또한 떨어질 수 있다는 문제가 있다.

상술한 종래 기술의 문제를 해결하고자, 본 발명은 시스템 운영자 또는 개발자가 다수의 정보 처리 장치를 통해 분산 처리되는 빅데이터 분석 결과를 효율적으로 통합하여 관리할 수 있도록 빅데이터를 분석하는 분석 애플리케이션을 모니터링하는 기술을 제안한다.

본 발명의 실시예에 따른 분석 애플리케이션을 모니터링하는 장치(이하 ‘분석 애플리케이션 모니터링 장치’)(100)는 병렬 분산 처리 시스템(10)에서 구현될 수 있다.

보다 구체적으로, 병렬 분산 처리 시스템(10)는 도 1에 도시된 바와 같이 분산 파일 관리 모듈(20), 리소스 관리 모듈(30), 다수의 정보 처리 장치(40) 및 분석 애플리케이션 모니터링 장치(100)로 구성될 수 있다.

분산 파일 관리 모듈(20)은 대용량의 빅데이터가 효율적으로 처리될 수 있도록 빅데이터를 크기, 저장 위치, 접근 권한 등이 미리 설정된 조건에 맞게 분산하여 파일의 형식으로 관리할 수 있다.

리소스 관리 모듈(30)은 빅데이터를 분석하는 분석 애플리케이션의 실행에 필요한 데이터와 CPU, 메모리 등 자원에 대한 할당을 관리하며, 분석 애플리케이션을 실행하기 전에 분석 프로그램이 로딩(loading)될 수 있다.

여기에서, 분산 파일 관리 모듈(20)과 리소스 관리 모듈(30)은 설명의 편의상 각각의 모듈로 구분하여 설명하였으나, 이는 병렬 분산 처리 시스템(10)에 탑재된 운영체제에서 수행될 수 있는 기능의 일부임에 따라 운영체제 내에서 하나의 모듈로 구성될 수도 있다.

분산 파일 관리 모듈(20)에서 분산된 빅데이터는 리소스 관리 모듈(30)에서 데이터와 자원을 할당받은 분석 애프리케이션을 통해 분석될 수 있다. 다만, 본 발명에서는 대용량의 빅데이터를 신속하고 효율적으로 처리하기 위해 병렬 분산 컴퓨팅 기술을 이용함에 따라 분산 파일 관리 모듈(20) 및 리소스 관리 모듈(30) 각각과 연동된 다수의 정보 처리 장치(40)를 이용하여 빅데이터의 분석을 분산 처리한다.

그리하여, 다수의 정보 처리 장치(40)는 리소스 관리 모듈(30)에서 실행 요청된 분석 애플리케이션을 통해 분산 파일 관리 모듈(20)에서 분산된 빅데이터를 분석할 수 있다.

이에 따라 다수의 정보 처리 장치(40)는 빅데이터를 분석할 수 있는 연산 처리 기능과 다수의 스토리지(storage)를 구비한 스마트폰, 태블릿 PC, PDA(Personal Digital Assistant), 노트북, 컴퓨터뿐만 아니라 웹 서버 또는 클라우드 서버와 같은 분석 서버를 의미할 수 있으나 이에 한정되는 것은 아니다.

정보 처리 장치(40) 각각에서 분석 애플리케이션은 적어도 하나의 분석 태스크의 동작을 통해 실행될 수 있다. 따라서, 분석 애플리케이션에서 동작하는 적어도 하나의 분석 태스크를 역추적하면 분석 애플리케이션을 모니터링할 수 있다.

그리하여, 분석 애플리케이션 모니터링 장치(100)는 분산 파일 관리 모듈(20), 리소스 관리 모듈(30) 및 다수의 정보 처리 장치(40) 각각과 연동되어, 병렬 분산 처리 시스템(10)을 운용하는 시스템 운용자 또는 개발자에게 정보 처리 장치(40) 각각에서 실행하는 분석 애플리케이션을 모니터링할 수 있다.

이 때, 분석 애플리케이션 모니터링 장치(100)는 도 2에 도시된 바와 같이 메타데이터 추출부(110), 정보 수집부(120) 및 모니터링 제공부(130)를 포함할 수 있으며, 검색 조건 설정부(140)를 더 포함할 수 있다.

메타데이터 추출부(110)는 다수의 정보 처리 장치(40)에서 분석 애플리케이션이 실행되기 전에 분석 애플리케이션에 대한 메타데이터(metadata)를 추출할 수 있다.

분석 애플리케이션에 대한 메타데이터는 다수의 정보 처리 장치(40) 각각에서 실행될 분석 애플리케이션을 식별할 수 있도록 미리 부여된 식별 데이터로써 분석 애플리케이션을 실행할 정보 처리 장치(40)의 식별 정보, 정보 처리 장치(40)에서 실행될 분석 애플리케이션의 위치, 실행 경로, 내용, 권리 조건 및 이용 조건 중 적어도 하나를 포함하는 속성 정보를 의미할 수 있으나 이에 한정되는 것은 아니다.

여기에서, 분석 애플리케이션은 빅데이터를 분산 처리하는 맵(Map) 함수와 분산 처리된 빅데이터 분석 결과를 통합하는 리듀스(Reduce) 함수로 구성되는 맵리듀스(MapReduce) 프로그램을 예로 들 수 있으나 이에 한정되지 않고, 하나의 분석 애플리케이션이 N개의 분석 작업을 통해 처리되도록 1:N 구조로 설계된 분석 알고리즘을 포함할 수 있다.

정보 수집부(120)는 리소스 관리 모듈(30)에 의해 다수의 정보 처리 장치 각각(40)에서 분석 애플리케이션이 실행되면, 다수의 정보 처리 장치(40) 각각으로부터 분석 애플리케이션에서 동작하는 적어도 하나의 분석 태스크에 대한 처리 정보를 수집할 수 있다.

상세하게는 다수의 정보 처리 장치(40) 각각으로부터 분석 애플리케이션에서 동작하는 적어도 하나의 분석 태스크에 대한 처리 정보를 동작 순으로 수신하고, 이를 메타데이터 추출부(110)에서 추출된 분석 애플리케이션에 대한 메타데이터와 매핑하여 저장할 수 있다.

이 때, 적어도 하나의 분석 태스크에 대한 처리 정보와 분석 애플리케이션에 대한 메타데이터를 매핑하여 저장하는 이유는 다수의 정보 처리 장치(40) 중 어느 장치의 분석 애플리케이션에서 동작한 태스크(task)인지를 식별하여 이를 추적하기 위함이다.

따라서, 분석 태스크에 대한 처리 정보는 정보 처리 장치(40)에서 분석 태스크 각각이 빅데이터를 처리하기 위해 접근한 자원 정보 또는 데이터 정보, 분석 태스크 각각의 식별 정보, 분석 태스크 각각을 동작시킨 함수의 유형 정보, 분석 태스크 각각에 대한 처리 성공 여부나 진행 상태를 표현하는 정보 및 분석 태스크 각각의 동작이 시작된 시간과 종료된 시간 중 적어도 하나를 포함할 수 있으나 이에 한정되는 것은 아니다.

모니터링 제공부(130)는 정보 수집부(120)에 의해 수집된 적어도 하나의 분석 태스크에 대한 처리 정보를 정렬하여 표시할 수 있다.

도 3을 살펴보면, 분석 태스크에 대한 처리 정보는 적어도 하나의 분석 태스크가 분석 애플리케이션에서 동작한 순으로 정렬되어 표시될 수 있다.

예를 들어, 시스템 운영자 또는 개발자는 분석 애플리케이션에서 동작한 적어도 하나의 분석 태스크 중 Task A와 관련하여, 'task_1404868050785_0002_m_000003'의 식별 정보를 가지며, 맵 함수에 의해 동작한 태스크이고, 실행이 100% 진행(Progress)된 상태로 빅데이터 분석에 성공(Succeeded)한 상태임을 확인할 수 있다. 또한, Task A가 동작한 시간 ‘2014-07-09 11:23:18’과 Task A의 동작이 종료된 시간 ‘2014-07-09 11:24:24’를 확인할 수 있으며, 이를 통해 Task A의 동작에 1분 6초의 시간(Elapsed)이 사용되었음을 확인할 수 있다. 특히, Task A가 빅데이터를 처리하기 위해 접근한 자원 정보 또는 데이터 정보뿐만 아니라 어떠한 액션(Action)을 수행하였는 지 또한 용이하게 확인할 수 있다.

이를 통해 시스템 운영자 또는 개발자는 분석 애플리케이션에서 동작하는 적어도 하나의 분석 태스크의 실행을 모니터링 할 수 있다.

더 나아가, 모니터링 제공부(130)는 정보 수집부(120)에 의해 수집된 적어도 하나의 분석 태스크에 대한 처리 정보를 통합하여 분석 애플리케이션을 통해 처리된 빅데이터 분석 결과를 제공할 수 있다.

예를 들어, 도 4를 통해 분석 애플리케이션에서 맵 함수에 의해 동작한 분석 태스크의 평균 시간(argMapTime)은 50s이고, 맵 함수에 의해 동작이 완료된(mapsCompleted) 분석 태스크와 전체 동작 수(mapsTotal)가 11개임을 확인할 수 있다. 이와 마찬가지로, 리듀스 함수에 의해 동작한 분석 태스크의 평균 시간(argReduceTime)은 1m 13s이고, 리듀스 함수에 의해 동작이 완료된(reducesCompleted) 분석 태스크와 전체 동작 수(reducesTotal)가 3임을 알 수 있다. 더불어, 분석 애플리케이션의 실행이 완료된 시간(finishTime)과 ID, 사용자 ID 등의 정보 또한 확인 가능하다.

본 발명에 따른 분석 애플리케이션 모니터링 장치(100)는 분석 태스크에 대한 처리 정보를 모니터링할 수 있도록 화면에 표시함에 있어 시스템 운영자 또는 개발자에게 분석 태스크에 대한 처리 정보의 검색 조건을 입력할 수 있도록 사용자 인터페이스를 제공하는 검색 조건 설정부(140)가 더 포함될 수 있다.

그리하여, 모니터링 제공부(130)는 시스템 운영자 또는 개발자가 입력한 검색 조건에 상응하는 분석 태스크에 대한 처리 정보를 동작 순서를 기준으로 정렬하여 화면에 표시할 수 있다.

예를 들어, 도 5의 ④에 도시된 바와 같이 시스템 운영자 또는 개발자가 검색 조건을 입력할 수 있는 사용자 인터페이스를 제공할 수 있다. 예를 들어, 시스템 운영자 또는 개발자가 flamingo라는 사용자 식별 정보를 입력하면, 다수의 분석 애플리케이션에서 동작한 적어도 하나의 분석 태스크에 대한 처리 정보 중에서 flamingo에 해당하는 정보가 동작 순서를 기준으로 정렬될 수 있다.

더불어, flamingo에 의해 실행된 분석 애플리케이션에 대한 정보를 요약하여 화면에 표시함으로써 시스템 운영자 또는 개발자가 분석 애플리케이션의 동작을 신속하게 인지할 수 있도록 제공할 수 있다.

상세하게는, 도 5의 ① 또는 ②와 같이 검색 조건에 따라 검색된 분석 애플리케이션에 대한 메타데이터를 표시할 수 있다. 또한, ③을 통해 검색된 분석 애플리케이션에서 동작하는 분석 태스크들에 대한 정보를 표시할 수 있다. 뿐만 아니라, ⑤와 같이 검색된 내용을 다운로드하거나 새로고침을 통해 갱신하는 등의 사용자 인터페이스가 제공될 수 있다.

이를 통해 시스템 운영자 또는 개발자는 사용자 인터페이스를 통해 특정 애플리케이션의 동작 또는 특정 애플리케이션에서 동작하는 분석 태스크에 대한 동작을 용이하게 파악할 수 있다.

여기에서는 분석 애플리케이션 모니터링 장치(100)의 구성을 수행하는 기능에 따라 메타데이터 추출부(110), 정보 수집부(120), 모니터링 제공부(130), 검색 조건 설정부(140) 각각으로 구분하여 설명하였으나, 이에 한정되지 않고 하나의 모듈로 통합되어 구현될 수도 있다.

특히, 본 발명에 따른 분석 애플리케이션 모니터링 장치(100)는 다수의 정보 처리 장치(40)에서 실행되는 분석 애플리케이션의 모니터링을 위해 소스 코드를 수정하지 않는다는 점에서 애플리케이션 동작에 대한 모니터링이 필요한 다양한 기술에 용이하게 적용 가능할 것으로 기대된다.

도 6은 본 발명의 실시예에 따른 분석 애플리케이션을 모니터링하는 방법을 설명하는 흐름도이다.

도 6을 참조하면, 분석 애플리케이션을 모니터링하는 방법은 분석 애플리케이션에 대한 메타데이터를 추출하는 단계(S100), 분석 애플리케이션에 대한 메타데이터를 기반으로 분석 애플리케이션에서 동작하는 적어도 하나의 분석 태스크에 대한 처리 정보를 수집하는 단계(S200) 및 적어도 하나의 분석 태스크에 대한 처리 정보를 정렬하여 표시하는 단계(S300)를 포함할 수 있다.

다수의 정보 처리 장치에서 분석 애플리케이션이 실행되기 전에 분석 애플리케이션에 대한 메타데이터를 추출할 수 있다(S100).

분석 애플리케이션에 대한 메타데이터는 다수의 정보 처리 장치(40) 각각에서 실행될 분석 애플리케이션을 식별할 수 있도록 미리 부여된 식별 데이터로써 분석 애플리케이션을 실행할 정보 처리 장치(40)의 식별 정보, 정보 처리 장치(40)에서 분석 애플리케이션의 위치, 실행 경로, 내용, 권리 조건 및 이용 조건 중 적어도 하나를 포함하는 속성 정보를 의미할 수 있으나 이에 한정되는 것은 아니다.

분석 애플리케이션에 대한 메타데이터가 추출된 후 다수의 정보 처리 장치 각각에서 분석 애플리케이션이 실행됨에 따라 다수의 정보 처리 장치 각각으로부터 분석 애플리케이션에서 동작하는 적어도 하나의 분석 태스크에 대한 처리 정보를 수집할 수 있다(S200).

보다 구체적으로, 다수의 정보 처리 장치 각각으로부터 분석 애플리케이션에서 동작하는 적어도 하나의 분석 태스크에 대한 처리 정보를 처리 순으로 수신하고 이를 식별하기 위해 메타데이터 추출부에서 추출된 분석 애플리케이션에 대한 메타데이터와 매핑하여 저장할 수 있다.

수집된 적어도 하나의 분석 태스크에 대한 처리 정보는 시스템 운영자 또는 개발자가 분석 애플리케이션에서 동작하는 적어도 하나의 분석 태스크의 실행을 모니터링 할 수 있도록 정렬하여 표시할 수 있다(S300).

또한, 적어도 하나의 분석 태스크에 대한 처리 정보를 통합하여 분석 애플리케이션을 통해 처리된 빅데이터 분석 결과를 제공할 수 있다.

이 때, 분석 태스크에 대한 처리 정보를 모니터링할 수 있도록 화면에 표시함에 있어 시스템 운영자 또는 개발자에게 분석 태스크에 대한 처리 정보의 검색 조건을 입력할 수 있도록 사용자 인터페이스를 제공하는 단계가 더 포함될 수 있다.

그리하여, 시스템 운영자 또는 개발자가 입력한 검색 조건에 상응하는 분석 태스크에 대한 처리 정보를 동작 순서를 기준으로 정렬하여 화면에 표시할 수 있다. 이를 통해 시스템 운영자 또는 개발자는 사용자 인터페이스를 통해 특정 애플리케이션의 동작 또는 특정 애플리케이션에서 동작하는 분석 태스크에 대한 동작을 용이하게 파악할 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

10: 병렬 분산 처리 시스템 20: 분산 파일 관리 모듈
30: 리소스 관리 모듈 40: 정보 처리 장치
100: 분석 애플리케이션 모니터링 장치 110: 메타데이터 추출부
120: 정보 수집부 130: 모니터링 제공부
140: 검색 조건 설정부

Claims

다수의 정보 처리 장치가 빅데이터를 분산 처리하는 병렬 분산 처리 시스템에 있어서,
상기 다수의 정보 처리 장치 각각에서 실행될 분석 애플리케이션에 대한 메타데이터(metadata)를 추출하는 메타데이터 추출부;
상기 다수의 정보 처리 장치 각각에서 상기 분석 애플리케이션이 실행됨에 따라 상기 분석 애플리케이션에 대한 메타데이터를 기반으로 상기 다수의 정보 처리 장치 각각으로부터 상기 분석 애플리케이션에서 동작하는 적어도 하나의 분석 태스크(task)에 대한 처리 정보를 수집하는 정보 수집부; 및
상기 적어도 하나의 분석 태스크에 대한 처리 정보를 정렬하여 표시하는 모니터링 제공부를 포함하는 분석 애플리케이션을 모니터링하는 장치.
청구항 1에 있어서,
상기 분석 애플리케이션은,
상기 빅데이터를 분산 처리하는 맵(Map) 함수와 상기 분산 처리된 빅데이터 분석 결과를 통합하는 리듀스(Reduce) 함수로 구성되는 맵리듀스(MapReduce) 프로그램인 것을 특징으로 하는 분석 애플리케이션을 모니터링하는 장치.
청구항 1에 있어서,
상기 정보 수집부는,
상기 다수의 정보 처리 장치 각각으로부터 상기 분석 애플리케이션에서 동작하는 상기 적어도 하나의 분석 태스크에 대한 처리 정보를 수신하고, 상기 적어도 하나의 분석 태스크에 대한 처리 정보와 상기 분석 애플리케이션에 대한 메타데이터를 매핑하여 저장하는 것을 특징으로 하는 분석 애플리케이션을 모니터링하는 장치.
청구항 3에 있어서,
상기 분석 애플리케이션에 대한 메타데이터는,
상기 다수의 정보 처리 장치 각각에서 실행될 분석 애플리케이션을 식별할 수 있도록 미리 부여된 식별 데이터로, 상기 분석 애플리케이션을 실행할 정보 처리 장치의 식별 정보, 상기 정보 처리 장치에서 상기 분석 애플리케이션의 위치, 실행 경로, 내용, 권리 조건 및 이용 조건 중 적어도 하나가 포함되는 것을 특징으로 하는 분석 애플리케이션을 모니터링하는 장치.
청구항 3에 있어서,
상기 적어도 하나의 분석 태스크에 대한 처리 정보는,
상기 분석 태스크 각각이 상기 빅데이터를 처리하기 위해 접근한 자원 정보 또는 데이터 정보, 상기 분석 태스크 각각의 식별 정보, 상기 분석 태스크 각각을 동작시킨 함수의 유형 정보, 상기 분석 태스크 각각에 대한 처리 성공 여부나 진행 상태를 표현하는 정보 및 상기 분석 태스크 각각의 동작이 시작된 시간과 종료된 시간 중 적어도 하나를 포함하는 것을 특징으로 하는 분석 애플리케이션을 모니터링하는 장치.
청구항 3에 있어서,
상기 병렬 분산 처리 시스템을 운용하는 시스템 운영자 또는 개발자가 상기 적어도 하나의 분석 태스크에 대한 처리 정보의 검색 조건을 입력할 수 있도록 사용자 인터페이스를 제공하는 검색 조건 설정부를 더 포함하는 것을 특징으로 하는 분석 애플리케이션을 모니터링하는 장치.
청구항 6에 있어서,
상기 모니터링 제공부는,
상기 입력된 검색 조건에 상응하는 상기 적어도 하나의 분석 태스크에 대한 처리 정보를 동작 순서를 기준으로 정렬하여 화면에 표시하는 것을 특징으로 하는 분석 애플리케이션을 모니터링하는 장치.
분석 애플리케이션을 모니터링하는 장치에 의해 수행되는 방법에 있어서,
상기 다수의 정보 처리 장치 각각에서 실행될 분석 애플리케이션에 대한 메타데이터(metadata)를 추출하는 단계;
상기 다수의 정보 처리 장치 각각에서 상기 분석 애플리케이션이 실행됨에 따라 상기 분석 애플리케이션에 대한 메타데이터를 기반으로 상기 다수의 정보 처리 장치 각각으로부터 상기 분석 애플리케이션에서 동작하는 적어도 하나의 분석 태스크(task)에 대한 처리 정보를 수집하는 단계; 및
상기 적어도 하나의 분석 태스크에 대한 처리 정보를 정렬하여 표시하는 단계를 포함하는 분석 애플리케이션을 모니터링하는 방법.
청구항 8에 있어서,
상기 분석 애플리케이션은,
상기 빅데이터를 분산 처리하는 맵(Map) 함수와 상기 분산 처리된 빅데이터 분석 결과를 통합하는 리듀스(Reduce) 함수로 구성되는 맵리듀스(MapReduce) 프로그램인 것을 특징으로 하는 분석 애플리케이션을 모니터링하는 방법.
청구항 8에 있어서,
상기 적어도 하나의 분석 태스크에 대한 처리 정보를 수집하는 단계는,
상기 다수의 정보 처리 장치 각각으로부터 상기 분석 애플리케이션에서 동작하는 상기 적어도 하나의 분석 태스크에 대한 처리 정보를 수신하고, 상기 적어도 하나의 분석 태스크에 대한 처리 정보와 상기 분석 애플리케이션에 대한 메타데이터를 매핑하여 저장하는 것을 특징으로 하는 분석 애플리케이션을 모니터링하는 방법.
청구항 10에 있어서,
상기 병렬 분산 처리 시스템을 운용하는 시스템 운영자 또는 개발자가 상기 적어도 하나의 분석 태스크에 대한 처리 정보의 검색 조건을 입력할 수 있도록 사용자 인터페이스를 제공하는 단계를 더 포함하는 것을 특징으로 하는 분석 애플리케이션을 모니터링하는 방법.
청구항 11에 있어서,
상기 적어도 하나의 분석 태스크에 대한 처리 정보를 정렬하여 표시하는 단계는,
상기 입력된 검색 조건에 상응하는 상기 적어도 하나의 분석 태스크에 대한 처리 정보를 동작 순서를 기준으로 정렬하여 화면에 표시하는 것을 특징으로 하는 분석 애플리케이션을 모니터링하는 방법.