KR102432284B1

KR102432284B1 - It관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법

Info

Publication number: KR102432284B1
Application number: KR1020210099053A
Authority: KR
Inventors: 송영선; 송지윤; 구능모; 장이환
Original assignee: 인프라닉스 아메리카 코퍼레이션
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2022-08-12
Also published as: US11815988B2; US20230032264A1

Abstract

본 발명은 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법에 관한 것이다.
본 발명은 이를 위해 관리대상시스템(110)에서 이벤트 알람이나 장애 등 문제발생시 IT관리자들이 조치한 내역들이 이력데이터로 누적하게 되며 당 데이터들은 상태정보수집부(120)와 관제부(130) 및 연동부(140)의 인공지능기능을 통해 상황별 조치방법을 제시하는 학습데이타로 활용되고, 이후 이벤트나 장애 발생시 학습된 데이터들은 조치방안제시부(150)를 통해 해당하는 현상을 조치하기 위한 방안을 IT관리자에게 제시하며 인공지능기능인 조치부(160)를 통해 자동으로 문제를 조치함을 특징으로 한다.
상기와 같이 구성된 본 발명은 IT 관리자의 관리대상인 시스템과 어플리케이션이 문제발생 시 스마트폰 앱을 통해 실시간 감지되고 인공지능을 통한 분석 및 조치방법이 제시되며 자동조치가 필요할 경우 앱으로부터 지시받은 인공지능 시스템인 자동제어로봇이 해당시스템에 접근하여 조치를 취할 수 있도록 한 매우 유용한 발명인 것이다.

Description

IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법{A system that automatically responds to event alarms or failures in IT management in real time and its operation method}

본 발명의 실시예는 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법에 관한 것으로, 보다 상세하게는 IT 관리자의 관리대상인 시스템과 어플리케이션이 문제발생 시 스마트폰 앱을 통해 실시간 감지되고 인공지능을 통한 분석 및 조치방법이 제시되며 자동조치가 필요할 경우 앱으로부터 지시받은 인공지능 시스템인 자동제어로봇이 해당시스템에 접근하여 조치를 취할 수 있도록 한 매우 유용한 발명인 것이다.

주지하다시피 시스템 장애는 정보. 통신. 컴퓨터 시스템이 하드웨어나 소프트웨어의 이상으로 작업을 계속할 수 없는 상태를 말하는 것으로, 주로 하드웨어보다 운영 체제를 포함한 소프트웨어에 원인이 있는 경우가 많다.

상기 시스템에 문제가 발생하면 정해진 규칙에 의해 이벤트 알람을 발생하고 IT운영자는 이벤트 발생을 통해 해당되는 시스템에 접근하여 문제의 원인을 분석하고 처리하는 운영자 중심의 처리절차를 따른다.

또한 이벤트 별 미리정한 매뉴얼을 관리시스템에 등록한 후 이벤트가 발생하면 시스템상에서 조치방안을 조회하여 자동조치를 하는 방안등이 제시가 되어있다.

그러나 이러한 방식들은 운영자가 처음부터 끝가지 개입되어 조치하고 관리하는 절차를 따르게 된다.

또한 시스템의 이벤트 발생시 자동조치하는 방안에 대해 제시가 되어있지만 이벤트 별 조치방법을 운영자가 작성하여 저장해놓은 저장소를 통해 자동검색 후 운영자에게 전달하는 과정을 거침으로써 기존과 동일한 이벤트가 아닐 경우 자동조치하는 데 있어 한계가 존재한다.

상기한 문제점을 해결하기 위해 종래에는 아래와 같은 선행기술문헌들이 개발되었으나, 여전히 상기한 종래 기술의 문제점을 일거에 해결하지 못하는 커다란 문제점이 발생 되었다.

대한민국 등록특허공보 제1545215호(2015. 08. 11)가 등록된바 있다. 대한민국 등록특허공보 제1654986호(2016. 08. 31)가 등록된바 있다. 대한민국 등록특허공보 제1326451호(2013. 10. 31)가 등록된바 있다. 대한민국 등록특허공보 제2334514호(2021. 03. 25)가 등록된바 있다. 대한민국 공개특허공보 제2016-0132698호(2016. 11. 21)가 공개된바 있다.

본 발명은 상기와 같은 종래 기술의 제반 문제점을 해소하기 위하여 안출한 것으로, IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템에 관리대상시스템, 상태정보수집부, 관제부, 연동부, 조치방안제시부, 조치부, 티켓처리저장부가 구비됨을 제1목적으로 한 것이고, 상기한 기술적 구성에 의한 본 발명의 제2목적은 IT 관리자의 관리대상인 시스템과 어플리케이션이 문제발생 시 스마트폰 앱을 통해 실시간 감지되고 인공지능을 통한 분석 및 조치방법이 제시되며 자동조치가 필요할 경우 앱으로부터 지시받은 인공지능 시스템인 자동제어로봇이 해당시스템에 접근하여 조치를 취할 수 있도록 한 것이고, 제3목적은 관리대상인 시스템에서 문제가 발생 시 IT관리자들이 조치한 내역들을 히스토리 데이타로 누적하게 되며 당 데이타들은 인공지능 엔진인 시스템을 통해 상황별 조치방법에 대해 습득하게 되고 학습된 시스템은 이슈발생 시 해당이슈에 적합한 조치방안을 제시하고 시스템은 조치대상 시스템에 접근하여 자동으로 문제를 해결하도록 한 것이고, 제4목적은 IT시스템의 문제관리나 성능관리 등을 자동화함으로써 24시간 시스템 관제업무 및 제어업무를 수행하는 IT운영센터의 역할을 수행하게 되며 스마트폰 앱을 통해 관제 및 조치가 가능하게 함으로서 장소에 구애받지 않은 곳에서 시스템을 관리하는 가상의 운영센터 구현이 가능해지도록 한 것이고, 제5목적은 관리대상시스템에서 이벤트 알람이나 장애 등 문제발생 시 IT관리자들이 조치한 내역들은 이력데이타로 누적하게 되며 당 데이터들은 인공지능기능인 시스템을 통해 상황별 조치방법을 제시하는 학습데이타로 활용되고, 이후 이벤트나 장애 발생시 학습된 데이터들은 조치방안 제시부를 통해 해당하는 현상을 조치하기 위한 방안을 IT관리자에게 제시하며 인공지능인 시스템 기능을 통해 자동으로 문제를 조치하도록 한 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법을 제공한다.

이러한 목적 달성을 위하여 본 발명은 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템에 관한 것으로, 상기 시스템은, 관리대상시스템에서 이벤트 알람이나 장애 등 문제발생시 IT관리자들이 조치한 내역들이 이력데이터로 누적하게 되며 당 데이터들은 상태정보수집부와 관제부 및 연동부의 인공지능기능을 통해 상황별 조치방법을 제시하는 학습데이타로 활용되고, 이후 이벤트나 장애 발생시 학습된 데이터들은 조치방안제시부를 통해 해당하는 현상을 조치하기 위한 방안을 IT관리자에게 제시하며 인공지능기능인 조치부를 통해 자동으로 문제를 조치함을 특징으로 하는 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템을 제공한다.

또한 본 발명은 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템의 운용방법에 관한 것으로, 상태정보 수집부가 관리대상시스템의 상태정보를 설정 및 수집하고 수집된 상태정보를 상태정보저장부에 저장하는 단계; 관제부가 수집된 시스템의 상태정보의 누적 데이터와 관련된 임계값의 분석을 통해 이벤트 알람 및 장애알람을 발생시키는 단계; 연동부가 관제부에서 발생한 이벤트나 장애랄람을 조치방안제시부와 연동하여 데이터를 주고받는 단게; 조치방안제시부가 알람발생시 조치방안을 제시하거나 과거의 데이터를 기반으로 알람을 예측하여 선조치하는 단계; 조치부가 운영자에 의한 수동조치와 로봇시스템에 의한 자동조치를 선택하는 단계; 및 시스템 문제발생시 IT관리자가 문제를 조치한 처리 내용을 티켓처리저장부가 작성하여 저장하는 단계;가 포함됨을 특징으로 하는 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템의 운용방법을 제공한다.

상기에서 상세히 살펴본 바와 같이 본 발명은 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템에 관리대상시스템, 상태정보수집부, 관제부, 연동부, 조치방안제시부, 조치부, 티켓처리저장부가 구비되도록 한 것이다.

상기한 기술적 구성에 의한 본 발명은 IT 관리자의 관리대상인 시스템과 어플리케이션이 문제발생 시 스마트폰 앱을 통해 실시간 감지되고 인공지능을 통한 분석 및 조치방법이 제시되며 자동조치가 필요할 경우 앱으로부터 지시받은 인공지능 시스템인 자동제어로봇이 해당시스템에 접근하여 조치를 취할 수 있도록 한 것이다.

또한 본 발명은 관리대상인 시스템에서 문제가 발생 시 IT관리자들이 조치한 내역들을 히스토리 데이타로 누적하게 되며 당 데이타들은 인공지능 엔진인 시스템을 통해 상황별 조치방법에 대해 습득하게 되고 학습된 시스템은 이슈발생 시 해당이슈에 적합한 조치방안을 제시하고 시스템은 조치대상 시스템에 접근하여 자동으로 문제를 해결하도록 한 것이다.

그리고 본 발명은 IT시스템의 문제관리나 성능관리 등을 자동화함으로써 24시간 시스템 관제업무 및 제어업무를 수행하는 IT운영센터의 역할을 수행하게 되며 스마트폰 앱을 통해 관제 및 조치가 가능하게 함으로서 장소에 구애받지 않은 곳에서 시스템을 관리하는 가상의 운영센터 구현이 가능해지도록 한 것이다.

특히 본 발명은 관리대상시스템에서 이벤트 알람이나 장애 등 문제발생 시 IT관리자들이 조치한 내역들은 이력데이타로 누적하게 되며 당 데이터들은 인공지능기능인 시스템을 통해 상황별 조치방법을 제시하는 학습데이타로 활용되고, 이후 이벤트나 장애 발생시 학습된 데이터들은 조치방안 제시부를 통해 해당하는 현상을 조치하기 위한 방안을 IT관리자에게 제시하며 인공지능인 시스템 기능을 통해 자동으로 문제를 조치하도록 한 매우 유용한 발명인 것이다.

이하에서는 이러한 효과 달성을 위한 본 발명의 바람직한 실시 예를 첨부된 도면에 따라 상세히 설명하면 다음과 같다.

도 1 은 본 발명에 적용된 IT관리대상의 이벤트 알람이나 장애 문제를 실시
간 자동으로 조치하는 시스템을 보인 전체 블럭 구성도.
도 2 는 본 발명에 적용된 IT관리대상의 이벤트 알람이나 장애 문제를 실시
간 자동으로 조치하는 시스템의 흐름도.
도 3 은 본 발명 수집된 시스템의 각 상태정보들의 데이터와 관련된 임계값
을 설정하는 흐름도.
도 4 는 본 발명 임계값을 설정하기 위해서 수집된 모든 상태정보들의 누적
된 데이터들을 분석하여 결정하는 흐름도.
도 5 는 본 발명 유형별이벤트/장애알람시 상태정보를 분류하는 상태도.
도 6 은 본 발명 시스템별 상태를 수집하기 위해서 시스템들에 수집
기(Agent)가 설치된 현황샘플.
도 7 은 본 발명 수집한 상태정보 샘플.
도 8 은 본 발명 저장된 상태정보(CPU) 샘플.
도 9 는 본 발명 이벤트알람대시보드 및 이벤트알람리스트샘플.
도 10 은 본 발명 연동용 서버현황.
도 11 은 본 발명 이벤트알람 발생에 따른 조치방안제시 샘플.
도 12 는 본 발명 티켓입력 화면 및 티켓처리 저장되는 데이타베이스.

본 발명에 적용된 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법은 도 1 내지 도 12 에 도시된 바와 같이 구성되는 것이다.

하기에서 본 발명을 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 것이다.

그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 설정된 용어들로서 이는 생산자의 의도 또는 관례에 따라 달라질 수 있으므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

또한 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도면에 도시된 바에 한정되지 않는다.

먼저, 본 발명은 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템(100)에 관한 것으로, 상기 시스템은, 관리대상시스템(110)에서 이벤트 알람이나 장애 등 문제발생시 IT관리자들이 조치한 내역들이 이력데이터로 누적하게 되며 당 데이터들은 상태정보수집부(120)와 관제부(130) 및 연동부(140)의 인공지능기능을 통해 상황별 조치방법을 제시하는 학습데이타로 활용되고, 이후 이벤트나 장애 발생시 학습된 데이터들은 조치방안제시부(150)를 통해 해당하는 현상을 조치하기 위한 방안을 IT관리자에게 제시하며 인공지능기능인 조치부(160)를 통해 자동으로 문제를 조치함을 특징으로 구성된다.

상기 본 발명에 적용된 시스템(100)은 다음과 같이 구성된다.

본 발명은 IT운영자가 관리해야 할 시스템 및 어플리케이션이 포함된 관리대상시스템(110)이 구비된다.

또한 본 발명은 상기 관리대상시스템(110)과 연결되며, IT관리대상의 서버 Name, 서버의 IP, 서버의 상태를 나타내는 수집 객체 정의, 객체 이름, 상태메시지 정의를 설정하는 상태정보수집부(120)가 구비된다.

이때 상기 상태정보수집부(120)에는 IT관리자가 인지한 이벤트나 장애시 발생한 현황들을 상태정보수집부를 통해 저장하는 상태정보저장부(125)가 연결 구비됨이 바람직하다.

그리고 본 발명은 상기 상태정보수집부(120)와 연결되며, 수집된 시스템의 상태정보를 통해 이벤트 알람을 발생하는 경우와 고객의 장애신고나 운영자가 문제를 인지하여 장애알람을 발생시키는 관제부(130)가 구비된다.

또한 본 발명은 상기 관제부(130)와 연결되며, 관제부에서 발생한 이벤트나 장애알람을 조치방안 제시부와 연동하여 데이터를 주고받는 기능을 담당하는 연동부(140)가 구비된다.

이때 상기 연동부(140)는 IT관리자 시스템이나 협업시스템 등 외부시스템 등과 연동을 통해 이벤트나 장애알람 발생시 상호간 공유, 필요 데이타 활용 등을 위한 연동 게이트웨이 역할을 수행한다.

그리고 본 발명은 상기 연동부(140)와 연결되며, 알람발생 시 조치방안을 제시하는 부분과 과거의 데이터를 기반으로 알람을 예측하여 선 조치하도록 예측결과를 제시하는 조치방안제시부(150)가 구비된다.

또한 본 발명은 상기 조치방안제시부(150)와 연결되며, 오류를 방지하기 위해 운영자가 한번 Screening하는 운영자에 의한 수동조치와 로봇시스템에 의한 자동조치를 선택하는 조치부(160)가 구비된다.

그리고 본 발명은 상기 조치부(160)와 연결되며, 시스템에 문제 발생시 IT운영자가 문제를 조치한 처리내용이 티켓처리 시스템에 표준화된 양식을 사용하여 세부적으로 작성하여 저장하는 티켓처리저장부(170)가 포함된 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템을 제공한다.

이때 상기 연동부(140)에는 이슈공유와 협업 및 결과를 공유하는 협업시스템과 KPI관리 및 티켓관리가 포함된 외부시스템(145)이 연결 구비됨이 바람직하다.

또한 상기 티켓저리저장부(170)에는 운영자들의 운영노하우 정보를 저장하는 Knowledge DB(175)가 연결 구비됨이 바람직하다.

한편, 본 발명에 적용된 상기 관리대상시스템(110)에는 관리대상시스템의(100) 상태를 나타내는 객체들인 시스템의 자원현황 및 어플리케이션 Port 상태, 웹 URL 성능 등을 주기적으로 수집하는 수집기(115)가 구비된다.

이때 상기 수집기(115)는 CPU이용률, 메모리 이용률, Disk이용률, TCP커넥션 수, Process 수, Process Thread수, I/O트래픽 등이 포함됨이 바람직하다.

또 한편, 상기 조치방안제시부(150)는 조치방안AI부(155)와 이벤트예측AI부(156)가 구비되되, 상기 조치방안AI부(155)는 이벤트나 장애 알람이 발생하여 관제부에서 연동부를 통해 조치방안제시부로 조치방안을 요청하면 머신러닝된 조치방안 AI부를 통해 조치방안에 대한 결과 값을 도출한 후 조치방안제시부로 전달하고, 상기 이벤트예측AI부(156)에서 발생한 예측알람은 관제부로 전달되고 운영자 판단하에 연동부를 통해 머신러닝된 조치방안 AI부를 통해 조치방안을 제시하도록 함이 바람직하다.

한편 본 발명은 상기의 구성부를 적용함에 있어 다양하게 변형될 수 있고 여러 가지 형태를 취할 수 있다.

그리고 본 발명은 상기의 상세한 설명에서 언급되는 특별한 형태로 한정되는 것이 아닌 것으로 이해되어야 하며, 오히려 첨부된 청구범위에 의해 정의되는 본 발명의 정신과 범위 내에 있는 모든 변형물과 균등물 및 대체물을 포함하는 것으로 이해되어야 한다.

상기와 같이 구성된 본 발명 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법의 작용효과를 설명하면 다음과 같다.

우선, 본 발명은 IT 관리자의 관리대상인 시스템과 어플리케이션이 문제발생 시 스마트폰 앱을 통해 실시간 감지되고 인공지능을 통한 분석 및 조치방법이 제시되며 자동조치가 필요할 경우 앱으로부터 지시받은 인공지능 시스템인 자동제어로봇이 해당시스템에 접근하여 조치를 취할 수 있도록 한 매우 유용한 발명인 것이다.

이를 위해 본 발명에 적용된 도 1 은 본 발명에 적용된 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템(100)을 보인 전체 블럭 구성도를 보인 것으로, 관리대상시스템, 상태정보수집부, 관제부, 연동부, 조치방안제시부, 조치부, 티켓처리저장부가 구비된다.

상기한 본 발명 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템(100)의 운용방법은 다음의 각 단계로 진행하게 된다.

먼저, 본 발명은 상태정보 수집부(120)가 관리대상시스템(110)의 상태정보를 설정 및 수집하고 수집된 상태정보를 상태정보저장부(125)에 저장하는 단계를 거친다.(S10)

이때 상기 수집된 모든 상태정보 데이터 들은 시스템 별, 수집항목 별 상태정보들을 분류한 후 상태정보수집부(120)에서 수집된 시간을 마킹하여 순차적으로 저장하며 추후 이력 및 통계분석을 위한 빅 데이타로 활용한다.

이후 본 발명은 관제부(130)가 수집된 시스템의 상태정보의 누적 데이터와 관련된 임계값의 분석을 통해 이벤트 알람 및 장애알람을 발생시키는 단계를 거친다.(S20)

이어서 본 발명은 연동부(140)가 관제부(130)에서 발생한 이벤트나 장애랄람을 조치방안제시부(150)와 연동하여 데이터를 주고받는 단게를 거친다.(S30)

이후 본 발명은 조치방안제시부(150)가 알람발생시 조치방안을 제시하거나 과거의 데이터를 기반으로 알람을 예측하여 선조치하는 단계를 거친다.(S40)

이때 상기 조치방안을 제시하기 위해서 기존에 누적된 데이타, 즉 티켓처리내역이 저장된 데이터와 상태정보를 수집한 데이터를 기반으로 다양한 상황에 따른 조치방안을 학습하게 된다.

이어서 본 발명은 조치부(160)가 운영자에 의한 수동조치와 로봇시스템에 의한 자동조치를 선택하는 단계를 거친다.(S50)

마지막으로 본 발명은 시스템 문제발생시 IT관리자가 문제를 조치한 처리 내용을 티켓처리저장부(170)가 작성하여 저장하는 단계를 거쳐 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템을 운용하게 된다.(S60)

이때 상기 조치부(160)는 이벤트나 장애가 발생한 대상시스템에 대해 제시된 조치방안을 자동으로 선택하면 자동조치를 위해 로봇시스템에 조치방안이 전달되어지며 조치방안에 포함된 대상시스템을 접속하기 위해 대상시스템의 정보들을 검색한다. 상기 대상시스템의 정보들에는 해당시스템의 주소와 로그인 ID 및 패스워드 등 접속정보가 포함된다.

그리고 상기 로봇시스템은 획득한 해당시스템의 접속정보인 IP주소로 접근하여 ID 및 패스워드로 로그인한다.

또한 상기 로봇시스템은 조치방안에 포함되어 있는 처리내용을 토대로 실 운영자가 입력하는 커맨드들을 자동입력하게 되며 최종 커맨드를 통해 조치가 완료되면 조치결과를 운영자에게 통보한다. 이 경우 장애알람이나 이벤트 알람은 관제대상에서 자동 소멸된다.

한편, 상기 티켓처리저장부(170)의 티켓처리내역에는 시스템 문제발생 시간 및 조치시간, 발생된 문제의 현상, 문제발생 시간대의 시스템 상태정보, 발생원인 및 조치내역 등을 포함한다.

세부적으로 기재할 내용에는 문제가 발생한 대상 시스템의 발생 현상 즉 접속 안됨, 간헐적 접속장애, 접속성능저하, 일부 어플리케이션 이용불가, 발생시간, 조치시간 등을 기재한다.

또한 적용된 OS, DB, WAS, 어플리케이션 둥 시스템 현황정보들을 기재한다.

그리고 문제발생 시간 전 후 시간대의 시스템 정보들 중 임계치를 초과한 모든 정보들을 기재한다.

조치내역 작성시에는 시스템로그인, 상태정보확인에 활용된 명령어, 조치시 활용된 명령어, 정상상태 확인절차 등 명령어 레벨까지 세부적으로 작성하여 문제발생시 AI가 조치방안을 학습하기 위한 데이터로 활용된다.

한편, 또한 도 3 은 본 발명 수집된 시스템의 각 상태정보들의 데이터와 관련된 임계값을 설정하는 흐름도를 보인 것이다.

상기 이벤트 알람 및 장애알람을 발생시키는 단계에서 이벤트 알람을 발생시키는 과정은,(도3)

수집된 시스템의 각 상태정보들의 데이터와 관련된 정보의 임계치를 설정하는 단계를 거친다.

이후 수집대상인 시스템의 정보를 수집하는 단계를 거친다.

이어서 수집된 정보와 임계치를 비교하는 단계를 거친다.

이후 수집된 정보가 임계치를 벗어나는가를 판단하는 단계를 거친다.

이어서 임계치를 벗어나지 않으면 전단계로 진행하고, 그렇지 않으면 이벤트람람을 발생시키는 단계;로 진행한 후 종료하게 된다.

이때 상기 임계치는 각 상태정보들의 특성을 고려해서 결정된다.

예를 들어 특정시스템의 TCP Connection수가 평시보다 증가하여 서비스 성능에 영향을 줄 경우 영향을 받게 되는 TCP Connection수를 임계값으로 결정하여 이벤트알람을 발생시키는 기준이 된다.

반면에 시스템에 정상동작 중인 프로세스 수가 특정수 보다 적어 서비스에 영향을 주는 경우에는 평시 프로세스 수와 비교하여 평시보다 적을 경우 이벤트 알람을 발생시키는 기준으로 적용한다.

한편, 도 4 는 본 발명 임계값을 설정하기 위해서 수집된 모든 상태정보들의 누적된 데이터들을 분석하여 결정하는 흐름도를 보인 것이다.

즉, 상기 임계값을 설정하기 위해서는 수집된 모는 상태정보들을 누적된 데이터처리 분석을 수행하거나 티켓처리내역을 분석하여 결정하게 된다.(도4)

즉, 누적된 데이터처리분석은 특정기간 내 수집정보 별 누적데이터 값을 추출하고 누적데이터 값을 분석한 후 수집정보별 임계치를 결정하여 종료하게 된다.

그리고 티켓처리내역분석은 티켓처리 내역 중 영향을 준 수집정보 값을 추출한 후 티켓처리내역을 분석한 후 수집정보별 임계치를 결정하여 종료하게 된다.

이를 보다 상세히 설명하면, 특정 기간 동안의 평균값, 정규분포, 분산, 피크 값, 성능 측정 값, 티켓처리 이력 중 각 상태정보가 서비스 성능에 영향을 준 경우의 상태정보값 등을 종합적으로 분석하여 결정한다.

또한 임계치는 심각도에 따라 임계값을 여러 단계로 정함으로써 심각한 이벤트로 진행되기 전에 IT관리자가 사전에 인지할 수 있도록 한다.

상기 임계치 설정값은 시간이 경과함에 따라 시스템의 환경이 변할 수 있어 최근 기간 동안의 값을 통해 분석하게 되므로 자동으로 변경될 수 있다.

또 한편, 상기 장애알람을 발생시키는 경우는 다음과 같다.

즉, 고객이 어플리케이션 사용 중 발생하는 지연이나 장애발생 등 고객이 먼저 서비스 영향을 인지하는 경우와 IT관리자가 점검 중 인지하는 경우등이 포함되어지며 이러한 상황은 상태정보수집부(120)에서 접수되어 관제부(130)에서 알람화한다. 장애를 나타내는 관제부(130)에서는 장애가 발생한 시스템, 장애시간, 장애현상 등을 알람메시지화 하여 장애알람을 발생하고 알람저장부(135)에 저장된다.

한편, 상기 조치방안제시부(150)가 알람발생시 조치방안을 제시하거나 과거의 데이터를 기반으로 알람을 예측하여 선조치하는 단계는 다음과 같다.

즉, 본 발명은 조치방안AI부(155)가 기능하되, 이 조치방안AI부(155)는, 그 동안 조치한 티켓처리 내용을 기반으로 이벤트 알람이나 장애알람 발생시 조치방안을 제시할 수 있도록 지도 머신러닝 방식을 통해 학습하고, 지도 머신러닝 방식 학습은 훈련 데이터로 부터 하나의 함수를 유추하기 위한 방법으로, 훈련데이터는 입력 객체에 대한 속성을 백터형태로 포함되고 있으며 원하는 결과가 무엇인지 표시되고, 주어진 환경에서 조치방안을 학습을 시키기 위한 훈련 데이터를 생성하기 위해 이벤트나 장애 발생시 처리된 티켓내용이 저장된 티켓처리 저장부에 누적된 데이터들을 활용하게 된다.

한편, 도 5 는 본 발명 유형별이벤트/장애알람시 상태정보를 분류하는 상태도를 보인 것이다.

즉, 상기 조치방안 학습을 위해,(도5)

티켓처리내용들을 시스템 Object 별, 알람유형 별, 장애유형 별, 시스템상태정보 현황들로 분류하고 분류된 경우의 조치된 내용을 매핑하고, 이러한 형태별로 분류된 데이터들은 이슈가 발생한 시스템별 다양한 시스템 상태정보 현황에서의 조치방법을 학습시킬 수 있는 자료로 활용하게 된다.

이때 상기 학습절차를 설명하면 알람저장부(135)로부터 누적된 이벤트 알람이나 장애알람의 내용과 알람이 발생했을 당시의 시스템상태정보들을 매핑한 테이블을 만든다.

상기 해당 이벤트알람이나 장애알람시 영향을 준 상태정보들의 경우에 해당되는 조치된 내역을 찾아 매핑하는 학습을 시킨다.

상기 학습은 정확도 검사를 통해 운영자가 조치한 내용과 일치할 때까지 학습을 반복한다.

상기 시스템들의 운영과정이 길어지고 새로운 유형의 형태가 발생할 경우 학습데이타를 업데이트하게 되며 조치방안에 대한 가이드는 최근 업데이트된 내용을 기준으로 가이드하게 된다.

한편, 본 발명에 적용된 상기 조치방안제시부(150)가 알람발생시 조치방안을 제시하거나 과거의 데이터를 기반으로 알람을 예측하여 선조치하는 단계는 다음과 같다.

본 발명은 이벤트예측AI부(156)가 기능하되, 이 이벤트예측AI부(156)는, 상태정보 별 임계치 초과발생을 예측하기 위해 과거데이타를 대상으로 시계열 패턴분석을 통해 예측하게 된다.

즉, 즉 월 별, 주 별, 요일 별, 시간 별 임계치를 초과한 빈도의 패턴을 분석하여 상태정보별 이벤트가 발생할 시점을 예측하게 된다.

예측 모델의 정확도를 높이기 위해 월 별, 주 별, 요일 별, 일 별 분석 시 빈도 수 차이가 발생하는 정도에 따라 발생 가능성 예측을 위한 지수를 달리한다.

예를 들면 빈도 수의 차이가 월 별 편차가 없으면 월 펙터의 지수는 0으로 하고 주 별 편차가 약간 있으면 주 별 지수는 0.5로 시간 별 편차가 크다면 시간 별 펙터의 지수는 1로 설정하여 적용한다. 편차에 따른 지수를 얼마로 결정하고 지수의 임계치가 어느 정도 일 때 발생가능성이 있는지는 별도의 분석과정을 통해 결정한다.

지수가 1에 근접할수록 해당 기간(월, 주, 요일, 시간)내 임계치를 초과한 상태정보의 이벤트가 발생할 가능성이 높아진다.

장애 유형별 발생가능성은 임계치를 넘은 상태정보들의 조합에 의해 결정된다.

특정시점에 임계치를 초과한 상태정보들이 예측되면 해당 상태정보들의 영향에 따라 어떤 장애유형이 발생했었는지 유형별 이벤트/장애 알람 시 상태정보 분류 테이블을 통해 학습한 결과를 토대로 장애발생을 예측하게 된다. 부연 설명을 하면 CPU, Memory, Disk, Connections, Trafiic, URL Performance 등 모든 시스템 자원이나 성능 별 상태정보 추이를 분석을 통해 특정시점에서 임계치를 넘어 비정상모드가 예측되는 상태정보들을 예측하게 되고 이러한 상태정보들이 장애발생에 영향을 줄 수 있는 요인들이므로 측정시점에 임계치초과가 예상되는 정보들을 장애유형 별 테이블에 매칭시켜 장애발생을 예측하는 트레이닝을 반복적으로 수행하게 된다.

이러한 과정을 거쳐 예측된 장애나 이벤트 알람은 관제부로 전송되며 IT관리자 판단하에 조치방안 제시부를 통해 조치방안을 제시하게 된다.

한편, 도 6 은 본 발명 시스템별 상태를 수집하기 위해서 시스템들에 수집기(Agent)가 설치된 현황샘플을 보인 것이다.

또한 도 7 은 본 발명 수집한 상태정보 샘플을 보인 것이다.

그리고 도 8 은 본 발명 저장된 상태정보(CPU) 샘플을 보인 것이다.

또한 도 9 는 본 발명 이벤트알람대시보드 및 이벤트알람리스트샘플을 보인 것이다.

그리고 도 10 은 본 발명 연동용 서버현황을 보인 것이다.

또한 도 11 은 본 발명 이벤트알람 발생에 따른 조치방안제시 샘플을 보인 것이다.

그리고 도 12 는 본 발명 티켓입력 화면 및 티켓처리 저장되는 데이타베이스를 보인 것이다.

상기와 같은 본 발명은 IT 관리자의 관리대상인 시스템과 어플리케이션이 문제발생 시 스마트폰 앱을 통해 실시간 감지되고 인공지능을 통한 분석 및 조치방법이 제시되며 자동조치가 필요할 경우 앱으로부터 지시받은 인공지능 시스템인 자동제어로봇이 해당시스템에 접근하여 조치를 취할 수 있도록 한 것이고, 제3목적은 관리대상인 시스템에서 문제가 발생 시 IT관리자들이 조치한 내역들을 히스토리 데이타로 누적하게 되며 당 데이타들은 인공지능 엔진인 시스템을 통해 상황별 조치방법에 대해 습득하게 되고 학습된 시스템은 이슈발생 시 해당이슈에 적합한 조치방안을 제시하고 시스템은 조치대상 시스템에 접근하여 자동으로 문제를 해결하도록 한 효과를 제공하게 된다.

본 발명 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법의 기술적 사상은 실제로 동일결과를 반복 실시 가능한 것으로, 특히 이와 같은 본원발명을 실시함으로써 기술발전을 촉진하여 산업발전에 이바지할 수 있어 보호할 가치가 충분히 있다.

<도면의 주요 부분에 대한 부호의 설명>
100: IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템
110: 관리대상시스템
120: 상태정보수집부
130: 관제부
140: 연동부
150: 조치방안제시부
160: 조치부
170: 티켓처리저장부

Claims

IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템(100)에 관한 것으로, 상기 시스템은, 관리대상시스템(110)에서 이벤트 알람이나 장애 문제발생시 IT관리자들이 조치한 내역이 이력데이터로 누적하게 되며 당 데이터들은 상태정보수집부(120)와 관제부(130) 및 연동부(140)의 인공지능기능을 통해 상황별 조치방법을 제시하는 학습데이타로 활용되고, 이후 이벤트나 장애 발생시 학습된 데이터들은 조치방안제시부(150)를 통해 해당하는 현상을 조치하기 위한 방안을 IT관리자에게 제시하며 인공지능기능인 조치부(160)를 통해 자동으로 문제를 조치하되, 상기 시스템(100)에는,
IT운영자가 관리해야 할 시스템 및 어플리케이션이 포함된 관리대상시스템(110);
관리대상시스템(110)과 연결되며, IT관리대상의 서버 Name, 서버의 IP, 서버의 상태를 나타내는 수집 객체 정의, 객체 이름, 상태메시지 정의를 설정하는 상태정보수집부(120);
상태정보수집부(120)에 연결되며, IT관리자가 인지한 이벤트나 장애시 발생한 현황을 상태정보수집부를 통해 저장하는 상태정보저장부(125);
상태정보수집부(120)와 연결되며, 수집된 시스템의 상태정보를 통해 이벤트 알람을 발생하는 경우와 고객의 장애신고나 운영자가 문제를 인지하여 장애알람을 발생시키는 관제부(130);
관제부(130)와 연결되며, 관제부에서 발생한 이벤트나 장애알람을 조치방안 제시부와 연동하여 데이터를 주고받는 기능을 담당하는 연동부(140);가 구비되되, 상기 연동부(140)는 IT관리자 시스템이나 협업시스템, 외부시스템과 연동을 통해 이벤트나 장애알람 발생시 상호간 공유, 필요 데이타 활용을 위한 연동 게이트웨이 역할을 수행하고, 아울러 상기 연동부(140)에는 이슈공유와 협업 및 결과를 공유하는 협업시스템과 KPI관리 및 티켓관리가 포함된 외부시스템(145)이 연결되고,
연동부(140)와 연결되며, 알람발생 시 조치방안을 제시하는 부분과 과거의 데이터를 기반으로 알람을 예측하여 선 조치하도록 예측결과를 제시하는 조치방안제시부(150);
조치방안제시부(150)와 연결되며, 오류를 방지하기 위해 운영자가 한번 Screening하는 과정인 운영자에 의한 수동조치와 로봇시스템에 의한 자동조치를 선택하는 조치부(160); 및
조치부(160)와 연결되며, 시스템에 문제 발생시 IT운영자가 문제를 조치한 처리내용이 티켓처리 시스템에 표준화된 양식을 사용하여 세부적으로 작성하여 저장하는 티켓처리저장부(170);가 포함되되 상기 티켓처리저장부(170)에는 운영자들의 운영노하우 정보를 저장하는 Knowledge DB(175)가 연결 구비됨을 특징으로 하는 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템.
삭제
청구항 1 에 있어서,
상기 관리대상시스템(110)에는,
관리대상시스템의(100) 상태를 나타내는 객체들인 시스템의 자원현황 및 어플리케이션 Port 상태, 웹 URL 성능을 주기적으로 수집하는 수집기(115);가 더 포함됨을 특징으로 하는 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템.
청구항 1 에 있어서,
상기 조치방안제시부(150)는 조치방안AI부(155)와 이벤트예측AI부(156)가 구비되되,
상기 조치방안AI부(155)는 이벤트나 장애 알람이 발생하여 관제부에서 연동부를 통해 조치방안제시부로 조치방안을 요청하면 머신러닝된 조치방안 AI부를 통해 조치방안에 대한 결과 값을 도출한 후 조치방안제시부로 전달하고,
상기 이벤트예측AI부(156)에서 발생한 예측알람은 관제부로 전달되고 운영자 판단하에 연동부를 통해 머신러닝된 조치방안 AI부를 통해 조치방안을 제시함을 특징으로 하는 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템.
청구항 1 의 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템(100)을 이용한 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템(100)의 운용방법에 관한 것으로,
상태정보 수집부(120)가 관리대상시스템(110)의 상태정보를 설정 및 수집하고 수집된 상태정보를 상태정보저장부(125)에 저장하는 단계;(S10)가 포함되되, 상기 수집된 모든 상태정보 데이터는 시스템 별, 수집항목 별 상태정보를 분류한 후 상태정보수집부(120)에서 수집된 시간을 마킹하여 순차적으로 저장하며 추후 이력 및 통계분석을 위한 빅 데이타로 활용하고,
관제부(130)가 수집된 시스템의 상태정보의 누적 데이터와 관련된 임계값의 분석을 통해 이벤트 알람 및 장애알람을 발생시키는 단계;(S20)
연동부(140)가 관제부(130)에서 발생한 이벤트나 장애랄람을 조치방안제시부(150)와 연동하여 데이터를 주고받는 단게;(S30)
조치방안제시부(150)가 알람발생시 조치방안을 제시하거나 과거의 데이터를 기반으로 알람을 예측하여 선조치하는 단계;(S40)가 포함되되, 상기 조치방안을 제시하기 위해서 기존에 누적된 데이타, 즉 티켓처리내역이 저장된 데이터와 상태정보를 수집한 데이터를 기반으로 다양한 상황에 따른 조치방안을 학습하고,
조치부(160)가 운영자에 의한 수동조치와 로봇시스템에 의한 자동조치를 선택하는 단계;(S50)가 포함되되, 상기 조치부(160)는 이벤트나 장애가 발생한 대상시스템에 대해 제시된 조치방안을 자동으로 선택하면 자동조치를 위해 로봇시스템에 조치방안이 전달되어지며 조치방안에 포함된 대상시스템을 접속하기 위해 대상시스템의 정보를 검색하고 및
시스템 문제발생시 IT관리자가 문제를 조치한 처리 내용을 티켓처리저장부(170)가 작성하여 저장하는 단계;(S60)가 포함됨을 특징으로 하는 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템의 운용방법.
청구항 5 에 있어서,
상기 이벤트 알람 및 장애알람을 발생시키는 단계에서 이벤트 알람을 발생시키는 과정은,
수집된 시스템의 각 상태정보들의 데이터와 관련된 정보의 임계치를 설정하는 단계;
이후 수집대상인 시스템의 정보를 수집하는 단계;
이어서 수집된 정보와 임계치를 비교하는 단계;
이후 수집된 정보가 임계치를 벗어나는가를 판단하는 단계; 및
이어서 임계치를 벗어나지 않으면 전단계로 진행하고, 그렇지 않으면 이벤트람람을 발생시키는 단계;로 진행한 후 종료함을 특징으로 하는 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템의 운용방법.
청구항 5 에 있어서,
상기 조치방안제시부(150)가 알람발생시 조치방안을 제시하거나 과거의 데이터를 기반으로 알람을 예측하여 선조치하는 단계는,
조치방안AI부(155)가 기능하되, 이 조치방안AI부(155)는,
그 동안 조치한 티켓처리 내용을 기반으로 이벤트 알람이나 장애알람 발생시 조치방안을 제시할 수 있도록 지도 머신러닝 방식을 통해 학습하고,
지도 머신러닝 방식 학습은 훈련 데이터로 부터 하나의 함수를 유추하기 위한 방법으로, 훈련데이터는 입력 객체에 대한 속성을 백터형태로 포함되고 있으며 원하는 결과가 무엇인지 표시되고, 주어진 환경에서 조치방안을 학습을 시키기 위한 훈련 데이터를 생성하기 위해 이벤트나 장애 발생시 처리된 티켓내용이 저장된 티켓처리 저장부에 누적된 데이터들을 활용함을 특징으로 하는 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템의 운용방법.
청구항 7 에 있어서,
상기 조치방안 학습을 위해,
티켓처리내용들을 시스템 Object 별, 알람유형 별, 장애유형 별, 시스템상태정보 현황들로 분류하고 분류된 경우의 조치된 내용을 매핑하고, 이러한 형태별로 분류된 데이터들은 이슈가 발생한 시스템별 다양한 시스템 상태정보 현황에서의 조치방법을 학습시킬 수 있는 자료로 활용함을 특징으로 하는 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템의 운용방법.
청구항 5 에 있어서,
상기 조치방안제시부(150)가 알람발생시 조치방안을 제시하거나 과거의 데이터를 기반으로 알람을 예측하여 선조치하는 단계는,
이벤트예측AI부(156)가 기능하되, 이 이벤트예측AI부(156)는,
상태정보 별 임계치 초과발생을 예측하기 위해 과거데이타를 대상으로 시계열 패턴분석을 통해 예측함을 특징으로 하는 IT관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템의 운용방법.