KR102281431B1

KR102281431B1 - 장애 예측 및 장애 예측 모델링 관리 시스템

Info

Publication number: KR102281431B1
Application number: KR1020190121336A
Authority: KR
Inventors: 윤성군
Original assignee: 주식회사 아이옵스테크놀러지
Priority date: 2019-10-01
Filing date: 2019-10-01
Publication date: 2021-07-27
Also published as: KR20210039040A

Abstract

본 출원은 딥러닝을 통해 모델링하고 장애를 예측하는 관리 시스템이다. 좀 더 구체적으로는, 본 출원은 여러 개의 모델링에서 추출된 서로 다른 모델링 결과를 하나의 플랫폼에서 사용 가능하게 하는 기술이다. 관리 시스템은 데이터를 주고받으며 발생하는 장애를 예측고 장애 발생 확률을 연산하여 모델링하고 최적의 모델링을 선택하는 단계를 포함한다. 관리 시스템은 데이터 수집을 하는 데이터 수집부, 수집된 데이터에 기초하여 장애 확률을 예측하는 장애 확률 예측부와 데이터 수집 주기를 조절하는 데이터 수집 주기 조절부, 모델링을 저장하고 최적의 모델링을 선택하는 모델링 저장부로 구성 되도록 한다. 관리 시스템을 이용하여 물리적으로 별개의 모델링들이 하나의 리소스로 운영 가능하게 되고 이를 위해서 할당한 자원을 효율적으로 활용하도록 한다.

Description

장애 예측 및 장애 예측 모델링 관리 시스템{OBSTACLE PREDICTION AND OBSTACLE PREDICTION MODELING MANAGEMENT SYSTEM}

본 출원은 딥러닝을 통해 모델링하고 장애를 예측하는 관리 시스템이다. 좀 더 구체적으로는, 본 출원은 여러 개의 모델링에서 추출된 서로 다른 모델링 결과를 하나의 플랫폼에서 사용 가능하게 하는 기술이다.

현대 사회에서 정보시스템의 발전으로 인한 편리함은 배제할 수 없게 되었다. 특히 요즘 다양한 분야에서 사용 되고 있는 인공지능이 그 예이다. 자동화 기능에 바탕이 되는 인공지능은 다양한 시장에 분포되어 있다.

인공지능을 이용하여 장애를 예측하는 기술은 IT 자원 구성 요소 별 직접적인 장애 요건 정의를 통해 필요한 핵심 데이터만 추출 가능하고, 학습 과정에서 필요한 데이터를 수시로 추가하는 기능을 제공한다. 또한 시스템 로그기반이 아닌 IT 자원구성 요소 별 실시간 운영 현황 정보 기반의 장애 예측 정보에 대해 알 수 있다.

인공 지능의 일 예인 딥러닝(Deep Learning)은 기계학습과 달리 인간의 개입을 최소화 하고 데이터를 있는 그대로 학습하여 데이터에 대한 특징 또한 기계 스스로 학습한다. 딥러닝(Deep Learning)은 인공신경망(Artifical Neural Network) 기법 중 하나로 입력층과 출력층 사이에 다수의 은닉층(Hidden Layer)을 가지고 있는 모델이다. 딥러닝(Deep Learning)은 다수의 데이터를 신경망 구조를 통해 높은 정확도를 가진 결과값을 생성하며 특정 환경에 대한 사전 이해가 전혀 필요 없는 장점을 가지고 있다.

또한 본 출원은 인공지능 분야의 여러 방법론을 적용하여 기존 방법론과 예측력을 비교 분석 하였다. 머신러닝(Machine Learning), 딥러닝(Deep Learning) 등의 용어로 대표되는 인공지능 분야는 컴퓨터 공학을 이용하여 인간의 두뇌와 같이 컴퓨터가 학습 과정을 거쳐 예측 프로세스 등의 의사결정을 수행하는 체계를 의미한다.

과거에는 다양하고 동시 다발적인 경우의 수를 처리하는데 있어 물리적으로 발생하는 한계로 인하여 주목 받지 못하였으나, 최근 ‘Google’사의 ‘AlphaGo’로 대표되는 딥러닝(Deep Learning) 체계가 실제 인간의 판단 수준과 속도가 대등하거나 오히려 능가할 수 있다는 것을 증명함으로서 전 세계적으로 큰 관심을 받고 있다.

인공지능은 학습 데이터가 많을수록 예측력이 우수해지는 특성이 있으므로, 텍스트 데이터 등의 빅데이터를 원천으로 활용하는 본 출원과 같은 예측 과정에서 더욱 우수한 효과를 기대할 수 있다.

빅데이터 및 인공지능은 제4차 산업혁명의 핵심 기술로서 여러 분야에서 많은 관심을 받고 있지만, 관리, 재무 영역의 연구에 적용된 사례는 아직은 많지 않다. 따라서 본 연구는 관리 시스템에 이러한 새로운 방법론 적용을 시도하고 유용성을 실증해보고자 하였다.

본 출원은 기존의 물리적으로 별개의 모델링들이 하나의 리소스로 운영 가능하게 되고 이를 위해서 할당한 자원을 효율적으로 활용하도록 하는 관리 시스템을 제공하는 데에 그 목적이 있다.

본 출원의 실시 예에 따른 관리 시스템은 데이터를 주고받으며 발생하는 장애를 예측고 장애 발생 확률을 연산하여 모델링하고 최적의 모델링을 선택하는 단계를 포함한다. 관리 시스템은 데이터 수집을 하는 데이터 수집부, 수집된 데이터에 기초하여 장애 확률을 예측하는 장애 확률 예측부와 데이터 수집 주기를 조절하는 데이터 수집 주기 조절부, 모델링을 저장하고 최적의 모델링을 선택하는 모델링 저장부로 구성 되어 있다.

데이터 수집부는 적어도 하나의 외부 클라이언트 혹은 서버와 통신하며, 적어도 하나의 외부 클라이언트 혹은 서버로부터 데이터를 미리 설정한 주기에 따라 수집하는 것이다. 장애 확률 예측부는 데이터 수집부에서 수집된 데이터에 기초하여, 장애 발생 확률을 연산하고, 장애 확률 예측 결과를 딥러닝을 통해 모델링 한다. 데이터 수집 주기 조절부는 장애 확률 예측부에서 연산된 장애 발생 확률에 기초하여, 데이터 수집부의 데이터 수집 주기를 조절 하는 역할을 한다. 모델링 저장부는 장애 확률 예측부의 모델링을 저장하고 다양한 모델링 중에서 최적의 모델링을 선택하는 역할을 한다.

본 출원에 따른 관리 시스템은 물리적으로 별개의 모델링들이 하나의 리소스로 운영 가능하게 되고 이를 위해서 할당한 자원을 효율적으로 활용할 수 있다.

도 1은 본 출원의 관리 시스템(10)을 나타낸 도면이다.
도 2는 본 출원의 실시 예에 따른 도 1의 관리서버(100)의 일 예를 보여주는 도면이다.
도 3본 출원의 관리 서버(100)의 구성 요소 중 하나인 데이터 수집부(110)의 구성을 나타낸 도면이다.
도 4는 본 출원의 데이터 수집 항목 설정 모듈(111)의 예시를 나타낸 도면이다.
도 5는 본 출원의 장애 확률 예측부(120)에서 예측할 수 있는 장애의 종류를 나타낸 도면이다.
도 6은 본 출원의 다른 실시 예에 따른 데이터 수집부(110)를 보여주는 도면이다.
도 7은 데이터 수집부(110)의 표준 행렬 구성 모듈(113)과 정규화 레이어 모듈(114)의 동작을 설명하는 도면이다.
도 8은 자동화 기능이 적용된 데이터 수집 모듈(112)을 나타낸 도면이다.
도 9는 모델링 저장부(140)의 동작을 설명하는 도면이다.
도 10은 모델링 저장부(140)의 프로세스에 대한 과정을 나타낸 도면이다.
도 11은 서버 환경을 검색하고 분류하는 모듈(115)을 포함한 데이터 수집부(110) 도면이다.
도 12는 서버의 환경에 따라 자동 수집 항목을 적용하는 방법을 나타낸 순서도이다.

이하에서는 본 출원의 자세한 내용과 특징은 첨부된 도면을 참조하여 상세히 설명하도록 한다. 그러나 본 명세서가 이하에서 개시되는 실시 예들에 한정 되는 것이 아니라 다양한 형태로 응용 가능하며, 기술되는 설명들은 그러한 응용의 바탕이 되어 상기 응용 방안 모두를 포함하고자 하는 것이다.

도 1은 본 출원의 관리 시스템(10)을 나타낸 도면이다.

도 1을 참조하면, 관리 시스템(10)은 관리 서버(100) 및 복수의 서브 서버(210~240)와 모델링 저장부(140)를 포함한다.

관리 서버(100)는 서브 서버(210~240)로부터 유지 및 관리에 필요한 데이터를 수신할 수 있다. 요청된 데이터는 서브 서버(210~240)의 기능에 따른 정보일 수 있고, 서브 서버(210~240)를 관리하는데 필요한 정보일 수 있다.

관리 서버(100)는 복수의 서브 서버(210~240)와 통신하며 데이터를 주고받을 수 있다. 관리 서버(100)는 데이터를 미리 설정된 주기에 따라 수집하고 장애 발생 확률을 연산하며 데이터 수집 주기를 조절하는 기능을 포함할 수 있다.

관리 시스템(10)에 사용되는 관리 서버(100)는 은행, 보험, 증권회사와 같은 관리 기관들에 적용 가능하다. 관리 시스템(10)에 사용되는 관리 서버(100)에는 관리 업무 시스템, 입수 정보를 저장, 통계, 분석하는 정보 관리 시스템과 같은 데이터를 저장하고 분석하는 시스템이 포함 될 수 있다.

예를 들어, 은행에서 관리 서버(100)를 적용했을 때, 관리 서버(100)는 입출금 프로그램에 대한 데이터를 수집하고 있다. 관리 서버(100)가 데이터 수집 중 시스템 연계가 되지 않는다고 한다면, 연계 항목 장애 발생 확률이 높아진 것이 판단 될 것이다. 그 결과, 관리 서버(100)는 연계 항목 장애 원인에 대한 데이터를 집중 추출을 하게 되고 데이터 수집 주기 또한 빨라지게 된다.

서브 서버(210~240)는 적어도 하나이상이며, 관리 서버(100)와 통신하며 데이터를 주고받아 관리 서버(100)가 데이터를 수집 할 수 있도록 한다. 서브 서버는 외부 클라이언트일 수 있다. 외부 클라이언트는 모니터링 되는 호스트들 일 수 있다. 예를 들어 관리 업무, 고객의 정보, 인터넷 뱅킹, 보안, 서비스에 대한 현황들이 서브 서버(210~240)에 포함 될 수 있다.

서브 서버(210~240)는 예를 들어, Uinx서버, Window서버, Oracle, Web, Was, M/D, Application SAP일 수 있다. 다만, 본 출원의 기술적 사상은 이에 한정되지 않으며, 상기 서브 서버의 개수 및 종류는 다양할 수 있다.

서브 서버(210~240)의 유지 및 관리에 필요한 데이터로는 CPU 사용률, Memory 점유율, Disk 자동 수집과 같은 시스템의 리소스에 대한 데이터일 수 있다. 데이터를 다른 예로는 Mother board 상태, CPU 온도, Device Driver 정보와 같은 시스템의 하드웨어에 관한 정보 일 수 있다. 다만, 본 출원의 기술적 사상은 이에 한정되지 않으며, 서브 서버(210~240)의 유지 및 관리에 필요한 정보는 상기 예시 외에 다양할 수 있다.

관리 시스템(10)에서는 관리 서버(100)와 적어도 하나의 서브 서버(210~240)가 통신을 하며 데이터를 주고받을 수 있다.

본 출원의 일 실시 예에 따른 관리 서버(100)는 미리 설정된 주기에 따라 서브 서버(210~240)로부터 데이터를 수집하고, 수집된 데이터에 기초하여 장애 발생 확률을 연산 할 수 있다.

관리 서버(100)에서 모델링 된 데이터를 모델링 저장부(140)에 전송할 수 있다. 본 출원의 일 실시 예에 따른 모델링 저장부(140)는 여러 개의 모델링에서 추출된 서로 다른 모델 결과를 하나의 플램폼에서 사용 가능하게 할 수 있다.

예를 들어, 관리 서버(100)에서 다양한 종류의 장애 결과를 예측하였고 모델링하였다면, 모델링 저장부는 일괄된 인터페이스를 제공하고 다양한 종류의 결과를 하나의 플램폼에서 사용가능하게 하여 최적의 모델링을 선택할 수 있다.

특히, 본 출원의 실시 예에 따른 관리 서버(100)는 장애 발생 확률에 기초하여 데이터 수집 주기를 조절함으로써, 장애 발생 확률이 높은 데이터를 집중적으로 추출 할 수 있다. 이와 같이 관리 서버(100)를 관리시스템(10)에 적용할 경우, 대용량 데이터 기반 학습 대비 시스템 비용과 학습 시간을 최소화하고 필요한 데이터만을 주기적으로 추출하여 추가 혹은 삭제의 용이성을 제공하여 효율성을 높일 수 있다.

도 2는 본 출원의 실시 예에 따른 도 1의 관리 시스템(10)의 일 예를 보여주는 도면이다.

도 2를 참조하면, 관리 서버(100)는 미리 설정된 주기에 따라 데이터를 수집하고, 수집된 데이터를 이용하여 장애 발생 확률을 연산할 수 있다. 관리서버(100)는 연산된 장애 발생 확률을 바탕으로 주기를 재설정하고, 장애 발생 확률이 높은 데이터를 집중 추출할 수 있다. 관리서버 (100)는 데이터 수집부 (110), 장애 확률 예측부 (120), 데이터 수집 주기 조절부 (130)을 포함할 수 있다.

데이터 수집부(110)는 설치된 소프트웨어와 하드웨어를 자동 검색할 수 있다. 예를 들어, 데이터 수집부(110)는 보안 및 암호화 기능을 포함한 메인 프레임, 통신/인터넷 신기술 접목이 유연한 구조인 개방형 유닉스 시스템과 같은 하드웨어를 자동 검색할 수 있다. 데이터 수집부(110)는 표준 어플리케이션 개발 및 운용 환경을 제공하는 패키지인 패키지화된 프레임 워크와 같은 소프트웨어가 자동 검색을 할 수 있다.

또한 데이터 수집부(110)는 적어도 하나의 서브 서버(210~240)와 통신할 수 있다. 예를 들어, 데이터 수집부(110)는 인터넷, 블루투스, 인트라넷, 와이파이와 같은 인터페이스를 이용하여 서브 서버(210~240)와 통신할 수 있다.

그리고 데이터 수집부(110)는 데이터를 미리 설정된 주기에 따라 수집할 수 있다. 예를 들어, 서브 서버(210~240)가 관리 업무, 고객의 정보, 인터넷 뱅킹, 보안으로 구성되어 있다면 관리 서버(100)가 서브 서버(210~240)의 데이터를 미리 설정된 주기마다 수집하게 된다. 주기가 1분이라면, 1분마다 관리 업무 현황, 고객 정보의 현황, 인터넷 뱅킹 현황, 보안 현황에 대해 관리 서버(100)로 데이터를 전송하게 된다.

데이터 수집부(110)는 데이터 수집 항목에 따라 장애 확률 데이터를 수집 할 수 있고 장애 해제 데이터를 수집할 수 있다. 장애 확률 데이터는 높은 발생 확률을 가진 장애에 대한 데이터라 할 수 있다.

예를 들어, 연계 항목 장애의 발생 확률이 높으면 연계 항목 장애의 원인에 대한 데이터를 수집한다. 장애 해제 데이터는 장애가 해결되고 원 상태로 복구하기 위해 필요한 데이터라고 할 수 있다. 예를 들어, 연계 항목 장애가 발생하였다가 복구되면 원래 수집하고 있던 데이터 항목으로 되돌아가게 된다.

장애 확률 예측부(120)는 수집된 데이터에 기초하여 장애 확률을 예측할 수 있다. 예를 들어, 연계 항목에 대한 데이터가 많다면 연계 항목에서 장애가 발생할 확률이 높을 수 있다. 혹은 연계 항목에 대한 데이터가 전과는 다르게 보인다면 장애가 발생할 확률이 높을 수 있다.

장애 확률 예측 결과는 인공지능 딥러닝을 통해 모델링 할 수 있다. 예를 들어, 발생한 장애의 원인이 여러 가지라면 원인으로 파악되는 확률이 높은 순서대로 인공지능 딥러닝을 이용하여 모델링 할 수 있다. 장애의 원인일 확률이 높은 순서뿐만 아니라, 모델링의 기준은 다양하게 적용될 수 있다.

장애 확률 예측 결과의 모델링에 적용될 가중치는 장애의 구분 혹은 수집 항목에 따라 차등 적용 될 수 있다. 예를 들어, 연계 항목 장애와 인터널 장애가 동시에 발생 하였다면 두 가지의 장애 중에서 비교적 심한 오류를 나타내는 장애를 먼저 해결하도록 가중치를 설정할 수 있다. 가중치를 주는 기준은 비교적 심한 오류에 더 크게 줄 수 도 있지만 다양한 기준을 적용할 수 있다.

데이터 수집 주기 조절부(130)는 장애 확률에 따라, 데이터 수집 주기를 조절할 수 있다. 예를 들어, 장애 발생 확률이 높을 경우에는 데이터 수집 주기를 짧게 하여 장애와 관련된 데이터를 많이 수집하도록 한다. 반대로 장애 발생 확률이 낮을 경우에는 데이터 수집 주기를 길게 하여 필요한 데이터만을 수집하도록 한다.

모델링 저장부(140)는 장애 확률 예측부에서 모델링 된 것을 로딩하고 저장하여 최적의 모델링을 선택하게 된다. 모델링을 저장하는 방식과 모델링을 구성하는 Standard Object Description XML을 포함하여 저장함으로, 모델링을 하나의 플랫폼으로 운영이 가능하게 한다. 기존의 물리적으로 여러 개의 모델링들이 하나의 리소스로 운영이 가능하게 된다.

예를 들어, 모델링 저장부(140)는 딥러닝을 통해 생성된 모델링과 데이터, 그리고 메타 정보를 기준으로 저장 매체에 정보를 저장한다. 저장된 정보는 TCP 혹은 IP 통신으로 로딩하여 사용할 수 있다.

도 3은 본 출원의 관리 서버(100)의 구성 요소 중 하나인 데이터 수집부(110)의 구성을 나타낸 도면이다.

도 3을 참조하면, 데이터 수집부(110)는 장애가 발생했는지의 여부에 따라 장애가 발생 했을 경우에는 발생한 장애에 대한 데이터를, 장애가 복구 되었을 경우에는 장애 발생 전의 데이터를 수집한다.

데이터 수집부(110)는 데이터 수집 항목 설정 모듈(111)과 데이터 수집 모듈(112)을 포함할 수 있으며, 데이터 수집 항목 설정 모듈(111)의 경우, 장애 확률 정보 수집 모듈(111_1)과 장애 해제 정보 수집 모듈(111_2)을 포함할 수 있다.

데이터 수집 항목 설정 모듈(111)은 장애 확률 정보에 따라 데이터의 수집 항목을 설정하도록 조절할 수 있다. 장애 확률 예측부(120)에서 장애 확률이 높아졌을 경우에는 장애와 관련된 데이터만을 집중적으로 수집 할 수 있다. 반면, 장애가 해결되었을 경우에는 원래의 수집 항목으로 되돌아가도록 할 수 있다.

장애 확률 정보 수집 모듈(111_1)은 장애 확률 예측부(120)에서의 장애 확률에 따라 조절될 수 있다. 장애 확률 정보 수집 모듈(111_1)은 특정 장애 발생 확률이 높아졌을 경우에 그 장애에 관한 데이터만을 집중 추출할 수 있다. 예를 들어, 연계 항목 장애 확률이 높아 졌다면 연계 항목 장애의 원인이 될 수 있는 데이터들을 집중적으로 추출하도록 하는 데이터를 데이터 수집 모듈(112)에 줄 수 있다.

장애 해제 정보 수집 모듈(111_2)는 발생한 장애를 해결하고 난 뒤, 원래의 데이터 수집 항목으로 돌아가는 경우를 나타낼 수 있다. 예를 들어, 기존의 관리 현황 고객 정보 현황을 수집하고 있었다면 장애가 발생하였다가 복구되었을 때, 관리 현황, 고객 정보 현황과 같이 원래 수집하고 있던 항목으로 되돌아가 데이터를 수집하도록 하는 데이터를 데이터 수집 모듈(112)에 줄 수 된다.

데이터 수집 모듈(112)은 데이터 수집 항목 설정 모듈(111)을 기반으로 장애 확률 정보 수집 모듈(111_1)에서 특정 장애에 대한 정보를 수집하라는 신호가 오게 되면 특정 장애에 대한 데이터를 수집 하도록 한다.

예를 들어, 연계 항목 장애 확률이 높아 졌다면 연계 항목 장애의 원인이 될 수 있는 데이터들을 집중적으로 추출할 수 있다.

반면, 데이터 수집 모듈(112)에 장애 해제 정보 수집 모듈(111_2)의 데이터가 오게 된다면, 장애를 해결했기 때문에 장애 발생 전의 데이터 수집 항목으로 돌아가도록 한다.

예를 들어, 기존의 관리 현황 고객 정보 현황을 수집하고 있었다면 장애가 발생하였다가 복구되었을 때, 관리 현황, 고객 정보 현황과 같이 원래 수집하고 있던 항목으로 되돌아가 데이터를 수집할 수 있다.

도 4는 본 출원의 데이터 수집 항목 설정 모듈(111)의 예시를 나타낸 도면이다.

도 4를 참고하면, 데이터 수집 항목 설정 모듈(111)은 데이터 수집 항목을 조절하도록 한다. 장애 확률 예측부(120)에서 특정 장애 발생 확률이 높아졌을 경우, 데이터 수집 항목 조절 모듈(111)은 특정 장애와 관련된 데이터를 집중적으로 수집할 수 있도록 한다.

데이터 수집 항목 조절 모듈(111)은 장애가 발생 하였을 경우에, 어떠한 장애인지 파악하고 장애를 해결하기 위해 원인이 되는 데이터를 수집하도록 하는 기능을 할 수 있다.

예를 들어, 장애 확률 예측부에서 장애의 한 종류인 Was 서비스 멈춤(Was Service shutdown)의 확률이 증가한 것으로 판단 된 경우에는 Was 서비스 지연(Was Service delay)이 발생했거나 엄청난 양의 메모리 크기(Heap Memory Size)가 증가 돼서 장애가 발생했다고 판단 할 수 있다.

데이터 수집 항목 설정 모듈(111)은 장애를 해결하기 위해 Was 서비스 지연(Was Service delay)와 엄청난 양의 메모리 크기(Heap Memory Size) 증가 현상이 발생하는 이유에 대한 데이터를 수집하도록 한다. 이러한 방법으로 분석을 하게 되면 장애가 발생한 이유를 파악 할 수 있다.

이와 같이, 데이터 수집 항목 조절 모듈(111)은 장애 확률 예측부(120)의 결과를 바탕으로 수집해야 할 데이터를 파악할 수 있다. 수집해야할 데이터는 데이터 수집 모듈(112)에서 수집하게 된다.

도 5는 본 출원의 장애 확률 예측부(120)에서 예측할 수 있는 장애의 종류를 나타낸 도면이다.

도 5를 참조하면, 장애의 종류는 장애 예측 확률부(120)에서 필요한 데이터이다. 장애는 여러 종류가 있으며 장애를 예측하고 해결하기 위해서는 장애에 관련된 데이터가 필요하다. 장애에는 통제 불가능한 재해를 제외한 발생원인 관점에서 직접적으로 영향을 미치는 장애가 있다.

예를 들면, 인적 장애, 시스템 장애, 기반구조장애와 같은 통제 가능한 요인들에 의한 정보시스템의 기능저하, 오류, 고장이 있다.

장애는 정보시스템 운영상에서 발생되는 사건으로 미약하더라도 정보시스템에 영향을 주게 된다. 이러한 장애들은 환경, 서비스, 설정, 자원, 연계, 성능, 리소스와 같은 정보 시스템의 바탕이 되는 요소들을 통해 예측이 가능하다. 예측 가능한 지표를 적용하여 장애 예측 및 해결을 자동화 할 수 있다.

한편, 도 5에 도시된 장애의 종류는 예시적인 것이며, 본 출원의 기술적 사상은 이에 한정되지 않음이 이해될 것이다. 예를 들어, 본 발명의 다른 일 실시예에 따르면, 상기 장애는 장애가 발생한 부품의 종류에 따라 어댑턴 관련 장애, CPU 관련 장애, 디스크 관련 장애, 전원 관련 장애, FAN 관련 장애, 플랫폼 펌웨어 관련 장애로 구분 될 수 있다.

도 6은 본 출원의 다른 실시 예에 따른 데이터 수집부(110)를 보여주는 도면이다.

도 6을 참조하면, 데이터 수집부(110)는 적어도 하나의 서브 서버(210~240)와 통신할 수 있고, 데이터를 미리 설정된 주기에 따라 수집할 수 있다. 데이터 수집부(110)는 데이터 수집 항목에 따라 장애 확률 데이터를 수집 할 수 있고 장애 해제 데이터를 수집할 수 있다. 그리고 장애 구분에 따라 가중치 적용과 딥러닝을 통한 장애 확률 계산이 가능하다.

데이터 수집부 (110)는 데이터 수집 항목 설정 모듈(111), 데이터 수집 모듈(112), 표준 행렬 구성 모듈(113), 정규화 레이어 모듈(114)을 포함할 수 있다.

데이터 수집 항목 설정 모듈(111)은 도 3에 도시된 데이터 수집 항목 설정 모듈(111)과 동일하다.

데이터 수집 모듈(112)은 도 3에 도시된 데이터 수집 모듈(112)과 동일하다. 이에, 이하에서는 동일하거나 유사한 구성 요서는 동일하거나 유사한 참조번호를 사용하여 설명될 것이며, 중복되는 설명은 명확하고 간결한 설명을 위해 생략될 것 이다.

표준 행렬 구성 모듈(113)은 이전에 수집된 데이터를 행렬로 저장해 둘 수 있다. 장애가 해결되어 초기 설정의 데이터 항목으로 되돌아가는 경우에 집중 추출 항목이 아닌 데이터도 가지고 있어야 한다. 표준 행렬 구성 모듈(113)은 데이터 이탈(drop out)을 방지할 수 있다.

예를 들어, 장애가 해결 되었는데 장애가 발생하기 전의 데이터가 존재하지 않는다면 장애 해결을 위해 집중 추출한 데이터를 기반으로 데이터가 수집 될 수 있다. 그렇다면 새로운 장애가 발생했을 경우에 인지를 하지 못하는 상황이 생길 수 있다. 그렇기 때문에, 장애 발생 이전에 수집된 데이터를 행렬로 저장해두고 장애 해결시 이전에 수집된 데이터로 돌아 가야한다.

정규화 레이어 모듈(114)은 장애의 구분에 따라 혹은 수집 항목에 따라 가중치를 차등 적용하여 가중치가 높은 장애를 먼저 해결 할 수 있다.

예를 들어, 장애의 구분에 따라 가중치를 적용한다면, 연계 항목 장애가 인터널 장애보다 가중치가 클 경우에 정규화 레이어 모듈(114)은 연계 항목 장애를 먼저 해결하도록 할 수 있다.

도 7은 데이터 수집부(110)의 표준 행렬 구성 모듈(113)과 정규화 레이어 모듈(114)의 동작을 설명하는 도면이다.

도 7을 참조하면, 표준 행렬 구성 모듈(113)은 데이터 이탈(drop out)을 방지하기 위하여 매트릭스 형태로 데이터를 관리할 수 있다. 표준 행렬은 메모리에 별도로 저장된다.

예를 들어, 장애가 해제되어 초기 설정의 데이터 항목으로 되돌아가는 경우에 이전에 수집된 데이터 중에서 집중 추출 항목이 아닌 데이터 항목도 가지고 있어야 더 정확한 모델링으로 업데이트 할 수 있다. 정확한 모델링을 통해 장애 확률 예측의 정확성을 높일 수 있다.

정규화 레이어 모듈(114)은 장애의 구분에 따라 혹은 수집 항목에 따라 가중치를 차등 적용할 수 있다.

예를 들어, A 장애와 B 장애의 장애 발생 확률이 같게 나왔을 경우에 가중치가 더 큰 장애를 먼저 해결하도록 할 수 있다.

도 8은 자동화 기능이 적용된 데이터 수집 모듈(112)을 나타낸 도면이다.

도 8을 참조하면, 데이터 수집은 장애가 발생할 확률이 높아지면 해당 팩트들의 수집 주기를 조절하여 장애 관련 정보를 실시간으로 수집한다. 데이터의 주기는 표본에서 만들어진 기대값과 비례하여 자동 조정 하도록 한다. 데이터 자동 병합 기술을 이용하여 장애 발생 확률을 효율적으로 예측하도록 할 수 있다.

또한 데이터 이탈(drop out) 방지를 위한 데이터 수집과 주기재설정으로 변경된 데이터는 메인 데이터를 집중적으로 수집하여 효율적인 운영이 가능하도록 한다.

반면 은닉 모델에서 만들어진 확률을 사용하지 않는 이유는 은닉 계층이 팩트들의 퍼셉트론(perceptron)으로 가공되기 때문이라 할 수 있다. 이때 퍼셉트론(perceptron)이란 일종의 학습 기계로서, 뇌의 학습 기능을 모델화한 기계라고 할 수 있다.

도 9는 모델링 저장부(140)의 동작을 설명하는 도면이다.

도 9를 참조하면, 모델링 저장부(140)는 모델링 저장 매체(141)와 다이나믹 모델 로더(142)를 포함하고 있다.

장애 확률 예측부(120)에서 딥러닝을 통해 만들어진 모델링은 각 환경에 맞는 모델링의 형태가 다를 수 있다. 모델링 저장부(140)를 통해 모델링이 진화 할 수 있거나, 다양하게 변경 가능하게 운영하여 그 정확성과 실효성을 보장 할 수 있도록 한다.

모델링 저장부(140)는 어떤 형태의 목적(Object)이 산출 될지, 어떤 종류(Class)와 메소드로 접근 할지 알 수 없는 상태에서 일괄된 인터페이스를 제공한다. 모델링 저장부(140)는 런타임시 다이나믹하게 로딩 하여 사용 할 수 있게 함으로 여러 개의 모델링에서 추출된 서로 다른 모델 결과를 하나의 플랫폼에서 사용 가능하게 하여 최적의 모델링을 선택할 수 있다. 따라서, 모델링 저장부(140)는 관리서버(100)로부터 생성된 여러 개의 모델링을 로딩하여 저장하고, 여러 개의 모델링 중에서 최적의 모델링을 선택할 수 있다.

구체적으로는, 모델링 저장부(140)는 모델링을 저장하는 방식과 모델링을 구성하는 Standard Object Description XML을 포함하여 저장하도록 하여, 모델링을 하나의 플랫폼으로 운영이 가능하도록 할 수 있다. 모델링 저장부(140)는 기존의 물리적으로 여러 개의 모델링들이 하나의 리소스로 운영 가능하게 되고 이를 위해서 할당한 자원을 효율적으로 활용할 수 있다.

이때, 모델링 저장 매체(141)는 Java의 Reflection을 바탕으로 하여 POJO(Plain Old Java Object)로 구성된다. 모델링 저장부(140)의 다이나믹 모델 로더(142)는 모델링 저장 매체(141)에서 모델링을 로딩 할 수 있다. 다이나믹 모델 로더(142)는 로딩 실패 시에 처음 객체를 생성하고, 생성된 객체는 딥러닝을 통해 생성된 모델과 데이터, 메타 정보를 기준으로 저장매체에 정보를 저장할 수 있다. 다이나믹 모델 로더(142)는 모델링 저장 매체(141)로부터 모델링을 TCP 혹은 IP 통신을 이용하여 메타 정보를 기준으로 로딩하여 사용할 수 있다.

모델링 저장부(140)의 프로세스는 비정형 데이터를 로딩하여 정보를 획득하는 방법과는 다르다. 모델링 저장부(140)의 프로세스는 목적(Object)을 통해서 모델링 된 내용으로 인덱스나, 유니크키 등의 정보는 필요 없으며, 로딩 시 모델링 객체와 가중치가 적용된 팩터들의 정보를 즉시 사용할 수 있다.

도 10은 모델링 저장부(140)의 프로세스에 대한 과정을 나타낸 도면이다.

도 10을 참조하면, 모델링 변경 여부에 따라 모델링 저장부(140)의 프로세스를 따르도록 한다.

모델링 저장부(140)는 모델링 저장부(140)의 유효성을 체크하고 변할 수 있는 데이터들을 로딩한 후, 유효한 환경인지 여부를 파악한다. 모델링 저장부(140)의 작동이 유효한 환경이라면, 예측 모델링 매체를 로딩하고, 데이터를 바인딩 하도록 한다.

모델링 저장부(140)는 예측 모델링과 데이터에 따른 모델링이 다를 경우 모델링을 변경하도록 하고 변경된 모델링을 저장하도록 한다. 모델링 저장부(140)의 예측 모델링과 데이터에 따른 모델링이 같은 경우, 실시간으로 데이터를 수신하고 모델링에 데이터를 바인딩 하여 딥러닝 과정을 거치도록 한다.

도 11은 서버 환경을 검색하고 분류하는 모듈(115)을 포함한 데이터 수집부(110) 도면이다.

도 11을 참조하면, 서버환경 검색 / 분류 모듈(115)은 설치된 시스템을 검색하고 검색된 시스템을 카테고리 별로 분류할 수 있다. 서버 환경 검색 / 분류 모듈(115)은 하드웨어와 소프트웨어의 검색 및 분류 모듈로 구성 되어 소프트웨어와 하드웨어를 자동으로 검색할 수 있다.

하드웨어는 보안 및 암호화 기능을 포함한 메인 프레임, 통신/인터넷 신기술 접목이 유연한 구조인 개방형 유닉스 시스템을 예로 들 수 있다. 소프트웨어는 표준 어플리케이션 개발 및 운용 환경을 제공하는 패키지인 패키지화된 프레임 워크를 예로 들 수 있다.

서버환경 검색 / 분류 모듈(115)이 시스템을 카테고리 별로 분류 하고 데이터 수집 항목 설정 모듈(111)이 서버 환경 맞는 수집 데이터 항목을 자동 설정하도록 한다.

도 12는 서버의 환경에 따라 자동 수집 항목을 적용하는 방법을 나타낸 순서도이다.

도 12를 참조하면, 자동화 기능을 포함한 데이터 수집 모듈(112)은 장애를 대응하는 직접적인 팩터를 서버의 환경에 맞게 자동 수집 할 수 있도록 한다. 시스템이 카테고리 별 고유의 정보를 가지고 있으며, 표준화 하고 표준화 된 카테고리에 맞는 지표를 자동 연계시켜 장애 예측에 필요한 데이터를 적절하게 수집할 수 있도록 한다.

자동화 기능을 포함한 데이터 수집 모듈(112)의 작동 방법은 먼저 설치된 하드웨어를 자동 검색하고 수집하여 카테고리를 분류한다. 하드웨어는 보안 및 암호화 기능을 포함한 메인 프레임, 통신/인터넷 신기술 접목이 유연한 구조인 개방형 유닉스 시스템을 예로 들 수 있다.

그리고 자동화 기능을 포함한 데이터 수집 모듈(112)은 설치된 소프트웨어의 상황을 검색하고 수집한다. 소프트웨어는 표준 어플리케이션 개발 및 운용 환경을 제공하는 패키지인 패키지화된 프레임 워크를 예로 들 수 있다.

자동화 기능을 포함한 데이터 수집 모듈(112)은 하드웨어와 소프트웨어의 정보를 기반으로 서버환경을 파악하고, 수집해야 할 데이터를 자동으로 설정하도록 할 수 있다. 자동화 기능을 포함한 데이터 수집 모듈(112)은 수집할 데이터를 저장하는 표준 행렬 정보 구성을 하고, 데이터를 수집하게 된다.

이상, 첨부된 도면을 참조하여 본 명세서의 실시예를 설명하였지만, 본 명세서가 속하는 기술 분야의 통상의 기술자는 본 출원이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시 될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

10 :　관리시스템
100 : 관리서버
110 : 데이터 수집부
111 : 데이터 수집 항목 설정 모듈
111_1 : 장애 확률 정보 수집 모듈
111_2 : 장애 해제 정보 수집 모듈
113 : 표준 행렬 구성 모듈
114 : 정규화 레이어 모듈
115 : 서버 환경 검색 / 분류 모듈
115_1 : 하드웨어 검색 / 분류 모듈
115_2 : 소프트웨어 검색 / 분류 모듈
120 : 장애 확률 예측부
130 : 데이터 수집 주기 조절부
140 : 모델링 저장부
141 : 모델링 저장 매체
142 : 다이나믹 모델 로더
210 : 서브 서버
220 : 서브 서버
230 : 서브 서버
240 : 서브 서버
S11 : 모델링 저장부의 유효성 체크 및 환경 변수 로딩
S12 : 예측 모델링 매체 로딩
S13 : 모델링 로딩 및 데이터 바인딩
S14 : 모델링 Output Object 생성
S15 : 모델링 Output Object 저장
S16 : 실시간 데이터 수신부
S17 : 데이터 바인딩
S18 : 딥러닝
S21 : 하드웨어 자동 검색 및 분류
S22 : 소프트웨어 자동 검색 및 분류
S23 : 자동 데이터 수집
S24 : 표준 행렬로 데이터 저장
S25 : 데이터 수집

Claims

적어도 하나의 외부 클라이언트와 통신하며, 상기 적어도 하나의 외부 클라이언트로부터 데이터를 미리 설정한 주기에 따라 수집하는 데이터 수집부;
상기 데이터 수집부에서 수집된 데이터에 기초하여, 장애 발생 확률을 연산하는 장애 확률 예측부;
상기 장애 확률 예측부에서 연산된 장애 발생 확률에 기초하여, 상기 데이터 수집부의 데이터 수집 주기를 조절하는 데이터 수집 주기 조절부; 및
상기 장애 확률 예측부의 모델링을 저장하고, 복수의 모델링 중 적어도 하나의 인공지능 모델을 선택하는 모델링 저장부를 포함하고,
상기 데이터 수집부는,
상기 데이터 수집부는 데이터 수집 항목을 설정하거나 해제하는 데이터 수집 항목 설정 모듈;
상기 데이터 수집 항목 설정 모듈로 결정된 수집 대상 데이터를 수집하는 데이터 수집 모듈;
데이터 이탈을 방지하기 위해 이전 데이터를 행렬로 저장하는 표준 행렬 구성 모듈; 및
발생하는 장애에 가중치를 부여하는 정규화 레이어 모듈을 포함하는, 장애 예측 모델링 관리 시스템.
제 1항에 있어서,
상기 모델링 저장부는 일괄된 인터페이스를 제공하고,
상기 복수의 모델링 중 적어도 하나의 모델링을 선택하는, 장애 예측 모델링 관리 시스템.
제 2항에 있어서,
상기 복수의 모델링은 딥러능을 통해 생성되고,
상기 복수의 모델링은 각 환경에 맞도록 형태가 다를 수 있으며,
상기 복수의 모델링은 상기 모델링 저장부를 통해 변경이 가능한, 장애 예측 모델링 관리 시스템.
제 1항에 있어서,
상기 데이터 수집 주기 조절부는 상기 장애 확률 예측부에서 연산된 장애 발생 확률에 기초하여, 상기 데이터 수집부의 데이터 수집 주기를 조절하는 역할을 하며,
상기 장애 발생 확률이 높을 경우에, 상기 데이터 수집 주기 조절부는 상기 데이터 수집 주기를 제1 데이터 수집 주기로 제어하고,
상기 장애 발생 확률이 낮을 경우에, 상기 데이터 수집 주기 조절부는 상기 데이터 수집 주기를 제2 데이터 수집 주기로 제어하고,
상기 제1 데이터 수집 주기는 상기 제2 데이터 수집 주기보다 짧은, 장애 예측 모델링 관리 시스템.
제 1항에 있어서,
상기 장애 확률 예측부는 상기 수집된 데이터 중 소정 데이터가 기준 개수보다 많다면, 상기 소정 데이터에 대한 장애 발생 확률이 높은 것로 장애 예측 결과를 파악하는, 장애 예측 모델링 관리 시스템.
제 5항에 있어서,
상기 장애 예측 결과는 인공지능 딥러닝을 통해 모델링 되며, 모델링에 적용될 가중치는 가변될 수 있는, 장애 예측 모델링 관리 시스템.
제 5항에 있어서,
상기 장애는 정상운영 상태에서 벗어난 현상이며,
상기 장애는 통제 가능 장애와 통제 불가능 장애를 포함하는, 장애 예측 모델링 관리 시스템.
삭제
제 1항에 있어서,
상기 데이터 수집 항목 설정 모듈은 장애 확률 정보에 따라 데이터의 수집 항목을 설정하도록 조절할 수 있으며,
장애 발생 확률이 높아졌을 경우에는 확률이 높은 장애와 관련된 데이터만을 집중적으로 수집하도록 하는 장애 확률 정보 수집 모듈; 및
장애가 해결되고 복구 될 경우에는 원래의 수집 항목으로 되돌아가도록 하는 장애 해제 정보 모듈을 포함하는, 장애 예측 모델링 관리 시스템.
제 9항에 있어서,
상기 데이터 수집 모듈은 상기 장애 확률 정보 수집 모듈을 기초하여, 장애가 발생 했다는 것을 인지하고 상기 장애에 대한 데이터를 수집 하도록 하며,
상기 장애 해제 정보 모듈을 기반으로 장애가 해결되었다는 것을 인지하고 상기 장애 발생 전의 데이터 수집 항목으로 되돌아가도록 하고,
상기 표준 행렬 구성 모듈은 데이터 이탈(drop out)을 방지하기 위하여 데이터를 매트리스 형태로 관리하며, 표준 행렬은 메모리에 별도로 저장 가능하도록 하며,
상기 정규화 레이어 모듈은 장애 구분에 따라 또는 수집 항목 중 적어도 하나에 기초하여, 가중치를 차등 적용하는, 장애 예측 모델링 관리 시스템.