KR20150038905A

KR20150038905A - 데이터 전처리 장치 및 방법

Info

Publication number: KR20150038905A
Application number: KR1020130117263A
Authority: KR
Inventors: 남궁영환; 이재영; 정아영; 김다운
Original assignee: 삼성에스디에스 주식회사
Priority date: 2013-10-01
Filing date: 2013-10-01
Publication date: 2015-04-09
Also published as: CN104516808A; US9588832B2; US20150095719A1; CN104516808B; KR102117637B1

Abstract

데이터 전처리 장치 및 방법이 개시된다. 본 발명의 일 실시예에 따른 데이터 전처리 장치는, 대상 시스템의 장애 이력 정보 및 상기 대상 시스템의 특성 정보를 이용하여 상기 대상 시스템의 장애 위험도를 계산하는 위험도 분석부; 계산된 상기 장애 위험도에 따라 상기 대상 시스템으로부터의 데이터 수집 주기를 결정하는 수집 주기 설정부; 및 상기 데이터 수집 주기에 따라 상기 대상 시스템으로부터 수집되는 데이터의 전처리를 수행하는 전처리부를 포함한다.

Description

데이터 전처리 장치 및 방법{APPARATUS AND METHOD FOR PREPROCESSINIG DATA}

본 발명의 실시예들은 데이터 전처리 장치 및 방법에 관한 것이다.

최근 들어, 기업 또는 공공기관의 업무가 전산화됨에 따라 별도의 데이터 센터를 구축하는 사례가 많아지고 있다. 데이터 센터의 경우 각각 할당된 작업을 수행하는 복수 개의 서버 및 각 서버들의 모니터링 및 장애 감지를 위한 별도의 모니터링 장비를 포함하여 구성되는 것이 일반적이다.

데이터 센터에 포함된 서버들은 각각 독립적으로 구동되기 보다는 다른 서버들과 함께 구동되는 경우가 많으므로, 일부의 서버에만 장애가 발생하더라도 자칫하면 업무 전체에 지장을 줄 수 있다. 따라서 각 서버들의 장애를 신속하게 감지하여 대응하는 것은 데이터 센터의 운영에 있어 매우 중요하다. 그러나 데이터 센터를 구성하는 각 서버들은 장비 구성요소(중앙처리장치, 메모리, 디스크, 파일 시스템 등), 각 구성요소 별 데이터 측정 주기, 수집되는 데이터의 종류 등이 매우 다양하다. 따라서 각기 다른 서버에서 수집되는 데이터들을 정확하게 분석하기 위해서는 수집되는 원시 데이터들에 대한 전처리 작업이 반드시 필요하다.

미국 공개특허공보 제2012-0179658호 (2012. 07. 12.) 미국 공개특허공보 제2010-0257145호 (2010. 10. 07.)

본 발명의 실시예들은 다양한 사양(specification)으로 구성된 서버들로부터 획득되는 데이터들에 대한 효과적인 전처리 수단을 제공하기 위한 것이다.

본 발명의 일 측면에 따르면, 대상 시스템의 장애 이력 정보 및 상기 대상 시스템의 특성 정보를 이용하여 상기 대상 시스템의 장애 위험도를 계산하는 위험도 분석부; 계산된 상기 장애 위험도에 따라 상기 대상 시스템으로부터의 데이터 수집 주기를 결정하는 수집 주기 설정부; 및 상기 데이터 수집 주기에 따라 상기 대상 시스템으로부터 수집되는 데이터의 전처리를 수행하는 전처리부를 포함하는 데이터 전처리 장치가 제공된다.

상기 위험도 분석부는, 상기 장애 이력 정보에 기초하여 회귀분석 모델, 기계 학습 모델 또는 규칙 기반 모델 중 하나 이상을 포함하는 위험도 분석 모델을 생성하고, 생성된 상기 위험도 분석 모델에 상기 대상 시스템의 특성 정보 또는 상기 대상 시스템의 상태 정보를 적용하여 상기 대상 시스템의 장애 위험도를 계산할 수 있다.

상기 수집 주기 설정부는, 계산된 상기 장애 위험도가 높을수록 상기 데이터 수집 주기가 짧아지도록 상기 대상 시스템으로부터의 데이터 수집 주기를 결정할 수 있다.

상기 수집 주기 설정부는, 계산된 상기 장애 위험도 및 기 설정된 시스템 부하 시간대 정보를 이용하여 상기 대상 시스템으로부터의 데이터 수집 주기를 결정할 수 있다.

상기 수집 주기 설정부는, 상기 시스템 부하 시간대 내의 데이터 수집 주기를 상기 시스템 부하 시간대 외의 데이터 수집 주기보다 짧게 설정할 수 있다.

상기 데이터 전처리 장치는, 상기 대상 시스템의 상태에 따라 상기 전처리부의 데이터 전처리를 위한 계산 구간(time window)을 설정하는 계산 구간 설정부를 더 포함할 수 있다.

상기 계산 구간 설정부는, 상기 대상 시스템의 중앙처리장치 사용률 또는 보조기억장치 사용률이 높아질수록 상기 계산 구간이 짧아지도록 상기 계산 구간을 설정할 수 있다.

상기 대상 시스템의 특성 정보는, 상기 대상 시스템의 하드웨어 사양(specification), 운영 체제(Operation System) 정보, 시스템 설정 정보 및 실행 중인 소프트웨어 정보 중 하나 이상을 포함할 수 있다.

상기 데이터 전처리는, 상기 대상 시스템으로부터 수집되는 데이터의 정규화(normalization), 보간(interpolation), 대치(imputation), 주성분 분석(principal component analysis), 또는 통계 분석 중 하나 이상을 포함할 수 있다.

상기 대상 시스템의 상태 정보는, 상기 대상 시스템의 중앙처리장치(CPU) 사용률 또는 보조기억장치 사용률 중 하나 이상을 포함할 수 있다.

또한, 본 발명의 다른 측면에 따르면, 위험도 분석부에서, 대상 시스템의 장애 이력 정보 및 상기 대상 시스템의 특성 정보를 이용하여 상기 대상 시스템의 장애 위험도를 계산하는 단계; 수집 주기 설정부에서, 계산된 상기 장애 위험도에 따라 상기 대상 시스템으로부터의 데이터 수집 주기를 결정하는 단계; 및 전처리부에서, 상기 데이터 수집 주기에 따라 상기 대상 시스템으로부터 수집되는 데이터의 전처리를 수행하는 단계를 포함하는 데이터 전처리 방법이 제공된다.

상기 위험도 분석 단계는, 상기 장애 이력 정보에 기초하여 회귀분석 모델, 기계 학습 모델 또는 규칙 기반 모델 중 하나 이상을 포함하는 위험도 분석 모델을 생성하는 단계; 및 생성된 상기 위험도 분석 모델에 상기 대상 시스템의 특성 정보 또는 상기 대상 시스템의 상태 정보를 적용하여 상기 대상 시스템의 장애 위험도를 계산하는 단계를 더 포함할 수 있다.

상기 수집 주기를 결정하는 단계는, 계산된 상기 장애 위험도가 높을수록 상기 데이터 수집 주기가 짧아지도록 상기 대상 시스템으로부터의 데이터 수집 주기를 결정할 수 있다.

상기 수집 주기를 결정하는 단계는, 계산된 상기 장애 위험도 및 기 설정된 시스템 부하 시간대 정보를 이용하여 상기 대상 시스템으로부터의 데이터 수집 주기를 결정하도록 구성될 수 있다.

상기 수집 주기를 결정하는 단계는, 상기 시스템 부하 시간대 내의 데이터 수집 주기를 상기 시스템 부하 시간대 외의 데이터 수집 주기보다 짧게 설정하도록 구성될 수 있다.

상기 데이터 전처리 방법은, 상기 전처리를 수행하는 단계의 수행 전, 계산 구간 설정부에서, 상기 대상 시스템의 상태에 따라 상기 전처리부의 데이터 전처리를 위한 계산 구간(time window)을 설정하는 단계를 더 포함할 수 있다.

상기 계산 구간 설정 단계는, 상기 대상 시스템의 중앙처리장치 사용률 또는 보조기억장치 사용률이 높아질수록 상기 계산 구간이 짧아지도록 상기 계산 구간을 설정하도록 구성될 수 있다.

본 발명의 실시예들에 따르면, 서로 다른 종류의 서버들로부터 다양한 수집 주기에 따라 수집된 다양한 형태의 데이터들을 통일성 및 일관성을 가지는 정보로 변환할 수 있다.

또한, 본 발명의 실시예들에 따르면, 각 서버들의 특성 및 상태, 기 설정된 혼잡 시간대 정보 등에 따라 각 서버들의 데이터 수집 주기를 동적으로 변경함으로써 각 서버들의 부담(load)을 경감시킴과 동시에, 수집되는 데이터의 용량 또한 최적의 상태를 유지할 수 있다.

또한, 본 발명의 실시예들에 따를 경우, 각 서버들의 현재 상태를 고려하여 전처리를 위한 계산 구간(time window)을 적응적으로 조절하여 줌으로써 각 서버들의 상태 변화 및 이상 유무를 효율적으로 파악할 수 있다.

도 1은 본 발명의 일 실시예에 따른 데이터 수집 시스템(100)을 설명하기 위한 블록도
도 2는 본 발명의 일 실시예에 따른 데이터 전처리 장치(104)의 상세 구성을 설명하기 위한 블록도
도 3은 본 발명의 일 실시예에 따른 계산 구간 설정부(208)에서의 계산 구간 변경에 따른 효과를 설명하기 위한 그래프
도 4는 본 발명의 일 실시예에 따른 데이터 전처리 방법(400)을 설명하기 위한 흐름도

이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.

본 발명을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

본 발명의 기술적 사상은 청구범위에 의해 결정되며, 이하의 실시예는 본 발명의 기술적 사상을 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 효율적으로 설명하기 위한 일 수단일 뿐이다.

도 1은 본 발명의 일 실시예에 따른 데이터 수집 시스템(100)을 설명하기 위한 블록도이다. 본 발명의 일 실시예에 따른 데이터 수집 시스템(100)은 하나 이상의 서버로부터 각 서버의 성능 또는 현재 상태를 파악할 수 있는 데이터를 수집하고, 수집된 데이터를 바탕으로 각 서버들의 상태를 모니터링하는 시스템을 의미한다. 도시된 바와 같이, 본 발명의 일 실시예에 따른 데이터 수집 시스템(100)은 하나 이상의 서버(102) 및 데이터 전처리 장치(104)를 포함한다.

서버(102)는 중앙처리장치(CPU) 및 보조기억장치(메모리) 등을 갖춘 컴퓨터 시스템으로서, 예를 들어 기업 등의 데이터 센터에 포함된 일군의 컴퓨터 장치일 수 있다. 다만 본 발명의 실시예에서, 서버(102)의 종류는 특별히 제한되지 않으며 일반적인 컴퓨터와 동일 또는 유사한 구성을 가지고 할당된 작업을 수행하는 모든 종류의 컴퓨터 장치를 포함할 수 있다.

데이터 전처리 장치(104)는 하나 이상의 서버(102)로부터 주기적으로 데이터를 수집한다. 데이터 전처리 장치(104)가 서버(102)로부터 수집하는 정보는 예를 들어, 중앙처리장치 사용률, 중앙처리장치 런 큐(run queue), 메모리 사용률, 시스템 온도 등 일반적으로 컴퓨터 장치로부터 해당 컴퓨터 장치의 상태를 파악하기 위하여 수집 가능한 모든 종류의 정보를 포함할 수 있다.

또한, 데이터 전처리 장치(104)는 수집된 데이터의 분석을 위하여 수집된 데이터의 전처리(preprocessing)를 수행한다. 일반적으로 데이터 센터 등을 구성하는 각 서버(102)들은 하드웨어 구성(예를 들어, 중앙처리장치, 메모리, 디스크, 파일 시스템 등)이 다양하다. 또한, 각각의 하드웨어 별로 측정 가능한 항목들 또한 매우 다양하고 세분화되어 있으며, 그 측정 방식 또한 다른 경우가 많다. 예를 들어, 중앙처리장치만 하더라도 중앙처리장치 사용률, 대기시간, 런큐(runqueue) 다양한 속성에 따라 성능 측정 데이터를 수집하게 된다. 따라서 수집된 데이터를 그대로 활용할 경우에는 서로 다른 하드웨어를 가지는 서버들의 상태를 정확히 비교하는 것이 불가능하므로, 데이터 전처리 장치(104)는 수집된 데이터들에 대한 적절한 전처리 과정을 통해 각 데이터들을 동일한 기준에서 비교할 수 있도록 변환한다. 데이터의 전처리 과정과 관련된 상세한 설명은 후술하기로 한다. 이하에서는 전처리된 데이터와의 구분을 위하여 서버(102)로부터 수집된 데이터(즉, 전처리되기 전의 데이터)를 “원시 데이터(Raw Data)”라 칭하기로 한다.

도 2는 본 발명의 일 실시예에 따른 데이터 전처리 장치(104)의 상세 구성을 설명하기 위한 블록도이다. 도시된 바와 같이, 본 발명의 일 실시예에 따른 데이터 전처리 장치(104)는 위험도 분석부(202), 수집 주기 설정부(204) 및 전처리부(206)를 포함하며, 필요에 따라 계산 구간 설정부(208)를 더 포함할 수 있다.

위험도 분석부(202)는 하나 이상의 서버(102) 각각의 장애 이력 정보 및 각 서버(102)들의 특성 정보를 이용하여 각 서버(102)들의 장애 위험도를 계산한다. 먼저, 위험도 분석부(202)는 각 서버(102)로부터 수집된 과거의 장애 이력 정보에 기초하여 각 서버(102) 별 위험도 분석 모델을 생성한다. 본 발명의 실시예들에서 서버의 장애 위험도란 해당 서버에 실제로 장애가 발생할 가능성을 수치화한 것을 의미한다. 상기 장애 위험도 분석을 위하여 회귀분석 모델, 기계 학습 모델 또는 규칙 기반 모델 등의 다양한 분석 기법을 이용할 수 있으나, 본 발명의 실시예들은 특정 분석 모델 내지 기법에 한정되는 것은 아니며, 본 기술분야에서 알려진 방법들을 포함한 다양한 분석 모델을 이용하여 각 서버 별 장애 위험도를 계산할 수 있다.

일 실시예에서, 위험도 분석부(202)는 상기 위험도 분석 모델을 복수 개의 규칙(rule)으로 구성할 수 있다. 예를 들어, 위험도 분석부(202)는 특정 하드웨어 사양 또는 특정 서버 상태를 조건으로 할 때의 위험도를 정의한 복수 개의 규칙을 생성할 수 있으며, 해당 규칙에 따라 각 서버(102)들의 위험도를 계산할 수 있다. 이 외에도, 위험도 분석부(202)는 서버(102)의 특성 및 할당된 작업의 특성 등을 고려한 다양한 위험도 분석 모델 및 기준을 이용하여 각 서버(102)들의 장애 위험도를 계산하도록 구성될 수 있다.

상기와 같이 위험도 분석 모델이 생성되면, 위험도 분석부(202)는 생성된 상기 위험도 분석 모델에 해당 서버(102)의 시스템 특성 정보 또는 현재 상태 정보를 적용하여 서버(102)의 장애 위험도를 계산할 수 있다. 이때 시스템 특성 정보는 각 서버(102)의 하드웨어 사양(specification), 운영 체제(Operation System) 정보, 시스템 설정 정보 및 실행 중인 소프트웨어 정보 등일 수 있다. 예를 들어, 상기 위험도 분석에 따르면, 특정 하드웨어를 가진 서버(102)의 경우, 상기 특정 하드웨어의 온도와 해당 서버(102)의 장애 발생 간에 상관관계가 높다는 결과를 도출할 수 있다. 이 경우, 위험도 분석부(202)는 상기 특정 하드웨어로부터 측정된 온도 정보에 기초하여 해당 서버(102)의 장애 위험도를 계산할 수 있다.

수집 주기 설정부(204)는 위험도 분석부(204)에서 계산된 상기 장애 위험도에 따라 각 서버(102)들의 데이터 수집 주기를 결정한다. 일 실시예에서, 수집 주기 설정부(204)는 계산된 장애 위험도가 높을수록 데이터 수집 주기가 짧아지도록 각 서버(102)들의 데이터 수집 주기를 설정할 수 있다. 그 이유는, 시스템 이상 징후가 감지되었을 때는 시시각각으로 변화하는 상황을 빠르게 파악해야만 원활한 사전 대응이 가능하기 때문이다.

또한, 수집 주기 설정부(204)는 계산된 장애 위험도 이외에 기 설정된 시스템 부하 시간대 정보를 이용하여 각 서버(102)들의 데이터 수집 주기를 결정할 수 있다. 예를 들어, 위험도 분석부(202)는 각 서버(102)로부터 과거에 수집된 데이터를 시계열 분석 기법 등으로 분석하여 각 서버(102)들의 시스템 부하가 높은 시간대를 파악할 수 있다. 이에 따라, 수집 주기 설정부(204)는 각 서버(102)들의 시스템 부하가 높은 시간대의 경우 데이터 수집 주기를 상대적으로 짧게 설정함으로써 각 서버(102)들의 상태를 좀 더 빠른 주기로 수집할 수 있다. 즉, 본 발명의 실시예에서 수집 주기 설정부(204)는 각 서버(102)들의 장애 위험도 및 서버(102) 별 부하 시간대 정보 중 하나 이상의 정보를 고려하여 각 서버(102)들의 데이터 수집 주기를 결정할 수 있다. 또한, 수집 주기 설정부(204)는 각 서버(102)들의 장애 위험도가 변경되거나 할 경우에는 이를 반영하여 기 설정된 데이터 수집 주기를 적응적으로 변경할 수 있다.

전처리부(206)는 수집 주기 결정부(204)에서 결정된 데이터 수집 주기에 따라 각 서버(102)로부터 수집되는 데이터의 전처리를 수행한다. 본 발명의 실시예에서, 각 서버(102)로부터 수집되는 원시 데이터의 전처리는, 상기 원시 데이터의 정규화(normalization), 보간(interpolation), 대치(imputation), 주성분 분석(principal component analysis), 또는 통계 분석 중 하나 이상을 포함할 수 있다.

일 실시예에서, 전처리부(206)는 각 서버(102)로부터 수집한 원시 데이터들에 한 정규화를 수행할 수 있다. 각각의 서버(102)로부터 수집한 데이터를 이용하여 각 서버(102)들의 이상 징후를 사전에 감지하기 위해서는, 수집된 데이터 간의 상호 연관성 분석이 필요하다. 그러나, 수집된 다양한 종류의 데이터는 각각의 측정 항목에 따라 단위 및 수치에 따른 범위 등이 모두 다르다. 따라서, 전처리부(206)는 각 데이터 항목 별 최대값/최소값을 기반으로 데이터의 범위(range)를 알아낸 다음, 이 범위를 기반으로 데이터를 정규화(Normalization)함으로써 각 데이터들이 동일한 기준 하에서 분석될 수 있도록 할 수 있다.

또한, 전처리 작업 수행 시, 전처리부(206)는 수집된 각 데이터의 전처리 이전 약간의 유예 시간(예를 들어, 약 1분)을 둘 수 있다. 수집된 각 데이터들의 정확한 분석을 위해서는 동일한 시간에 수집된 데이터간의 비교가 필요하나, 일부 데이터의 경우 네트워크 지연 등으로 인해 전송이 늦어질 가능성이 있기 때문이다.

전처리부(206)에서 수행되는 데이터 전처리에는 예를 들어 다음과 같은 과정들을 포함할 수 있다.

1. 데이터 클리닝(cleaning) 및 변환 (transformation)

- 결측치(missing value) 대체: 해당 튜플 무시, 기준(Rule)에 따른 결측치 계산, 전문가에 의한 처리

- 평활화(smoothing): 노이즈 데이터 제거를 위해 전체 추세에 벗어나는 데이터를 추세에 맞게 변환

- 정규화(normalization): 데이터에 전체적인 통일성을 부여하는 과정으로서, 최소/최대(min/max) 정규화, Z-스코어(z-score), 데시멀 스케일링(decimal scaling) 등이 있음

- 집합화(aggregation): 데이터를 요약하고 큐브(cube)를 생성 (주로 데이터 웨어하우스(data warehouse)에서 사용함)

- 이상치 확인 및 제거(outlier detection and removal): 데이터 집합에서 대부분의 다른 데이터와 상이한 특징을 보이는 데이터를 분류 및 제거

- 주요 기법: 클러스터링, 통계 추정 기법(예: Grubb? test) 등을 이용

2. 데이터 통합(integration) 및 불일치성 해결

- 다양한 로그 파일/데이터베이스의 통합, 일관성 있는 데이터 형태로 변환

- 주요 문제 및 해결책

1) 중복 문제: 같은 내용의 데이터가 다른 이름으로 저장되어 있는 상태를 의미하는 것으로, 연관관계 분석 등을 통해 중복데이터를 검출

2) 일관성 문제: 계산/통계를 통해 얻을 수 있는 값이 틀린 경우를 의미하는 것으로, 별도의 계산을 통해 기 계산된 값을 검증

3) 표현의 상이성(相異性) 문제: 계량/계측 단위가 다른 경우로 인한 데이터 통일성이 결여된 경우로서, 표현 일치 과정을 통해 해결

4) 데이터 간의 상관분석을 통한 문제 발견 및 해결: 분석 결과치가 0에 가까울수록 서로 무관한 것으로 판단

3. 데이터 축소 (reduction) 또는 표현 특징 추출

- 적은 양으로도 전체 데이터 집합을 잘 대표하는 데이터를 얻는 과정

- 대규모 데이터의 분석 작업시 효율성 향상을 위해 필요

- 차원 축소 방법: 중복 속성, 분석에 무관한 속성을 제거하여 최소 집합을 찾는 과정(stepwise forward selection, stepwise backward elimination)

- 데이터 인코딩, 변환을 통해 저장 크기를 줄임: 손실 또는 무손실 압축기법을 이용

- DWT(discrete wavelet transformation): 선형(linear) 신호 처리 기술로서, 수집된 데이터를 개수는 다르지만 길이는 같은 벡터 (wavelet coefficients)로 변환한 뒤, 여러 개의 벡터 중에서 가장 영향력이 큰 벡터를 선택해서 다른 벡터들을 제거

- PCA(Principal Component Analysis): 데이터를 가장 잘 표현하는 직교좌표상의 데이터 벡터들을 선택, 조합하여 다른 작은 집합을 찾는 방법을 통해 압축. 계산하는 과정이 간단하고 정렬되지 않은 속성들도 처리 가능하며, 빈약한 데이터나 일률적인 데이터 처리 가능

- 일반적으로 PCA는 빈약한 데이터에, DWT는 고차원 데이터 처리에 유용

다음으로, 계산 구간 설정부(208)는 각 서버(102)로부터 수집된 데이터의 전처리를 위한 계산 구간(time window)을 설정한다. 본 발명의 실시예에서, 계산 구간이란 데이터의 전처리를 위해 사용되는 원시 데이터의 구간을 의미한다. 예를 들어, 전처리부(206)에서 특정 데이터의 평균값을 계산하는 전처리를 수행한다고 가정하자. 이 경우, 만약 설정된 계산 구간이 1분일 경우에는 계산 시점으로부터 1분 전까지의 데이터를 이용하여 평균값을 계산하고, 5분일 경우에는 계산 시점으로부터 5분 전까지의 데이터를 이용하여 평균값을 계산하게 된다.

본 발명의 실시예에서, 계산 구간 설정부(208)는 각 서버(102)의 현재 상태에 따라 상기 전처리를 위한 계산 구간을 탄력적으로 설정할 수 있다. 예를 들어, 계산 구간 설정부(208)는 각 서버(102)의 중앙처리장치(CPU) 사용률 또는 보조기억장치(예를 들어, 메모리) 사용률 중 어느 하나가 기준치 이상으로 증가할 경우, 시스템 장애 위험도가 높아진 것으로 판단하여 상기 계산 구간을 짧게 설정할 수 있다. 또한, 계산 구간 설정부(208)는 위험도 분석부(202)에서 계산한 각 서버(102) 별 장애 위험도에 기초하여 각 서버(102)의 현재 상태를 파악하고 이에 따라 상기 계산 구간을 적응적으로 변경할 수 있다. 이와 같이 계산 구간이 짧아질 경우, 원시 데이터의 수집 주기보다 더 촘촘하게 전처리 결과를 생성할 수 있기 때문에 상대적으로 긴 수집 주기로 인한 정보 손실을 보완하는 효과가 있다. 반면, 서버(102)의 유휴 상태가 지속될 경우, 다시 말해 CPU 또는 메모리 사용률이 특정치 이하일 경우, 계산 구간 설정부(208)는 계산 구간을 크게 설정할 수 있으며, 이 경우 전체적인 전처리 계산 결과는 원시 로그 데이터에 비해 상대적으로 요약된 결과(지엽성 보다는 일반성을 갖는)로 나타난다.

도 3은 본 발명의 일 실시예에 따른 계산 구간 설정부(208)에서의 계산 구간 변경에 따른 효과를 설명하기 위한 그래프이다. 도시된 실시예에서는 선형 보간법(linear interpolation)을 이용하여 원시 데이터를 보간한 예를 나타낸 것이다. 선형 보간법은 좌표평면상에 임의의 두 점이 있을 때 그 사이를 직선으로 잇는 방법이다. 도시된 예에서, 빨간색 선은 실제 데이터, 파란색 선은 계산 구간이 짧은 경우의 보간된 데이터, 노란색 선은 계산 구간이 넓은 경우의 보간된 데이터를 각각 나타낸다. 그림에서 알 수 있는 바와 같이, 계산 구간이 짧은 경우가 넓은 경우와 비교하여 실제 데이터와의 유사도가 높은 것을 알 수 있다.

한편, 본 발명의 일 실시예에 따른 데이터 전처리 장치(104)는 데이터베이스(미도시)를 더 포함할 수 있다. 상기 데이터베이스는 전처리부(206)에서 수행한 원시 데이터의 전처리 결과와 함께, 각 서버(102)의 데이터 수집 주기, 계산 구간, 과거 장애 이력, 각 서버(102)의 하드웨어 사양 등의 정보를 저장 및 관리할 수 있다. 저장된 정보는 이후 각 서버(102) 별 위험도 분석, 수집 주기 설정 및 계산 구간 설정을 위한 참고 자료로 사용될 수 있다.

도 4는 본 발명의 일 실시예에 따른 데이터 전처리 방법(400)을 설명하기 위한 흐름도이다. 도시된 흐름도에서는 각 단계들이 시간적 선후 관계를 가지는 것으로 도시되었으나, 이는 예시적인 것으로서 적어도 일부의 단계들은 전후의 단계들과 동시에 수행되거나 또는 순서를 바꾸어 수행될 수도 있음을 유의한다.

402 단계에서, 위험도 분석부(202)는 각 서버(102)들의 장애 이력 정보 및 각 서버(102)의 특성 정보를 이용하여 각 서버(102)들의 장애 위험도를 계산한다. 이때 상기 402 단계는, 장애 이력 정보에 기초하여 회귀분석 모델, 기계 학습 모델 또는 규칙 기반 모델 중 하나 이상을 포함하는 위험도 분석 모델을 생성하는 단계, 및 생성된 위험도 분석 모델에 각 서버(102)들의 특성 정보 또는 상태 정보를 적용하여 각 서버(102)의 장애 위험도를 계산하는 단계를 더 포함할 수 있다. 각 서버(102)들의 특성 정보는 각 서버(102)의 하드웨어 사양(specification), 운영 체제(Operation System) 정보, 시스템 설정 정보 및 실행 중인 소프트웨어 정보 중 하나 이상을 포함할 수 있다.

404 단계에서, 수집 주기 설정부(204)는 계산된 장애 위험도에 따라 각 서버(102)들의 데이터 수집 주기를 결정한다. 일 실시예에서, 상기 404 단계는 상기 402 단계에서 계산된 장애 위험도가 높을수록 데이터 수집 주기가 짧아지도록 각 서버(102)로부터의 데이터 수집 주기를 결정할 수 있다.

또한 상기 404 단계는 계산된 장애 위험도 및 기 설정된 시스템 부하 시간대 정보를 이용하여 각 서버(102)로부터의 데이터 수집 주기를 결정하도록 구성될 수 있으며, 이 경우 시스템 부하 시간대 내의 데이터 수집 주기를 시스템 부하 시간대 외의 데이터 수집 주기보다 짧게 설정하도록 구성될 수 있다.

406 단계에서, 전처리부(206)는 상기 404 단계에서 결정된 데이터 수집 주기에 따라 각 서버(102)로부터 수집되는 데이터의 전처리를 수행한다. 상기 데이터 전처리 과정의 상세 구성에 대해서는 전술한 바와 같다.

또한, 상기 406 단계를 수행하기 전, 계산 구간 설정부(208)에서, 각 서버(102)의 상태에 따라 전처리부(206)의 데이터 전처리를 위한 계산 구간(time window)을 설정하는 단계가 추가될 수 있다. 상기 상태 정보는, 각 서버(102)의 중앙처리장치(CPU) 사용률 또는 보조기억장치 사용률 중 하나 이상을 포함할 수 있다. 또한 이 경우, 계산 구간 설정부(208)는 각 서버(102)의 중앙처리장치 사용률 또는 보조기억장치 사용률이 높아질수록 해당 서버(102)에 대응되는 계산 구간이 짧아지도록 각 서버(102)의 계산 구간을 설정할 수 있다.

한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야에서 통상의 지식을 가진 자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플로피 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다.

그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

100: 데이터 수집 시스템
102: 서버
104: 데이터 전처리 장치
202: 위험도 분석부
204: 수집 주기 설정부
206: 전처리부
208: 계산 구간 설정부

Claims

대상 시스템의 장애 이력 정보 및 상기 대상 시스템의 특성 정보를 이용하여 상기 대상 시스템의 장애 위험도를 계산하는 위험도 분석부;
계산된 상기 장애 위험도에 따라 상기 대상 시스템으로부터의 데이터 수집 주기를 결정하는 수집 주기 설정부; 및
상기 데이터 수집 주기에 따라 상기 대상 시스템으로부터 수집되는 데이터의 전처리를 수행하는 전처리부를 포함하는 데이터 전처리 장치.
청구항 1에 있어서,
상기 위험도 분석부는, 상기 장애 이력 정보에 기초하여 회귀분석 모델, 기계 학습 모델 또는 규칙 기반 모델 중 하나 이상을 포함하는 위험도 분석 모델을 생성하고,
생성된 상기 위험도 분석 모델에 상기 대상 시스템의 특성 정보 또는 상기 대상 시스템의 상태 정보를 적용하여 상기 대상 시스템의 장애 위험도를 계산하는, 데이터 전처리 장치.
청구항 1에 있어서,
상기 수집 주기 설정부는, 계산된 상기 장애 위험도가 높을수록 상기 데이터 수집 주기가 짧아지도록 상기 대상 시스템으로부터의 데이터 수집 주기를 결정하는, 데이터 전처리 장치.
청구항 1에 있어서,
상기 수집 주기 설정부는, 계산된 상기 장애 위험도 및 기 설정된 시스템 부하 시간대 정보를 이용하여 상기 대상 시스템으로부터의 데이터 수집 주기를 결정하는, 데이터 전처리 장치.
청구항 4에 있어서,
상기 수집 주기 설정부는, 상기 시스템 부하 시간대 내의 데이터 수집 주기를 상기 시스템 부하 시간대 외의 데이터 수집 주기보다 짧게 설정하는, 데이터 전처리 장치.
청구항 1에 있어서,
상기 대상 시스템의 상태에 따라 상기 전처리부의 데이터 전처리를 위한 계산 구간(time window)을 설정하는 계산 구간 설정부를 더 포함하는, 데이터 전처리 장치.
청구항 6에 있어서,
상기 계산 구간 설정부는, 상기 대상 시스템의 중앙처리장치 사용률 또는 보조기억장치 사용률이 높아질수록 상기 계산 구간이 짧아지도록 상기 계산 구간을 설정하는, 데이터 전처리 장치.
청구항 2에 있어서,
상기 대상 시스템의 특성 정보는, 상기 대상 시스템의 하드웨어 사양(specification), 운영 체제(Operation System) 정보, 시스템 설정 정보 및 실행 중인 소프트웨어 정보 중 하나 이상을 포함하는, 데이터 전처리 장치.
청구항 1에 있어서,
상기 데이터 전처리는, 상기 대상 시스템으로부터 수집되는 데이터의 정규화(normalization), 보간(interpolation), 대치(imputation), 주성분 분석(principal component analysis), 또는 통계 분석 중 하나 이상을 포함하는, 데이터 전처리 장치.
청구항 2에 있어서,
상기 대상 시스템의 상태 정보는, 상기 대상 시스템의 중앙처리장치(CPU) 사용률 또는 보조기억장치 사용률 중 하나 이상을 포함하는, 데이터 전처리 장치.
위험도 분석부에서, 대상 시스템의 장애 이력 정보 및 상기 대상 시스템의 특성 정보를 이용하여 상기 대상 시스템의 장애 위험도를 계산하는 단계;
수집 주기 설정부에서, 계산된 상기 장애 위험도에 따라 상기 대상 시스템으로부터의 데이터 수집 주기를 결정하는 단계; 및
전처리부에서, 상기 데이터 수집 주기에 따라 상기 대상 시스템으로부터 수집되는 데이터의 전처리를 수행하는 단계를 포함하는 데이터 전처리 방법.
청구항 11에 있어서,
상기 위험도 분석 단계는,
상기 장애 이력 정보에 기초하여 회귀분석 모델, 기계 학습 모델 또는 규칙 기반 모델 중 하나 이상을 포함하는 위험도 분석 모델을 생성하는 단계; 및
생성된 상기 위험도 분석 모델에 상기 대상 시스템의 특성 정보 또는 상기 대상 시스템의 상태 정보를 적용하여 상기 대상 시스템의 장애 위험도를 계산하는 단계를 더 포함하는, 데이터 전처리 방법.
청구항 11에 있어서,
상기 수집 주기를 결정하는 단계는, 계산된 상기 장애 위험도가 높을수록 상기 데이터 수집 주기가 짧아지도록 상기 대상 시스템으로부터의 데이터 수집 주기를 결정하는, 데이터 전처리 방법.
청구항 11에 있어서,
상기 수집 주기를 결정하는 단계는, 계산된 상기 장애 위험도 및 기 설정된 시스템 부하 시간대 정보를 이용하여 상기 대상 시스템으로부터의 데이터 수집 주기를 결정하도록 구성되는, 데이터 전처리 방법.
청구항 14에 있어서,
상기 수집 주기를 결정하는 단계는, 상기 시스템 부하 시간대 내의 데이터 수집 주기를 상기 시스템 부하 시간대 외의 데이터 수집 주기보다 짧게 설정하도록 구성되는, 데이터 전처리 방법.
청구항 11에 있어서,
상기 전처리를 수행하는 단계의 수행 전,
계산 구간 설정부에서, 상기 대상 시스템의 상태에 따라 상기 전처리부의 데이터 전처리를 위한 계산 구간(time window)을 설정하는 단계를 더 포함하는, 데이터 전처리 방법.
청구항 16에 있어서,
상기 계산 구간 설정 단계는, 상기 대상 시스템의 중앙처리장치 사용률 또는 보조기억장치 사용률이 높아질수록 상기 계산 구간이 짧아지도록 상기 계산 구간을 설정하도록 구성되는, 데이터 전처리 방법.
청구항 12에 있어서,
상기 대상 시스템의 특성 정보는, 상기 대상 시스템의 하드웨어 사양(specification), 운영 체제(Operation System) 정보, 시스템 설정 정보 및 실행 중인 소프트웨어 정보 중 하나 이상을 포함하는, 데이터 전처리 방법.
청구항 11에 있어서,
상기 데이터 전처리는, 상기 대상 시스템으로부터 수집되는 데이터의 정규화(normalization), 보간(interpolation), 대치(imputation), 주성분 분석(principal component analysis), 또는 통계 분석 중 하나 이상을 포함하는, 데이터 전처리 방법.
청구항 12에 있어서,
상기 대상 시스템의 상태 정보는, 상기 대상 시스템의 중앙처리장치(CPU) 사용률 또는 보조기억장치 사용률 중 하나 이상을 포함하는, 데이터 전처리 방법.