KR20230062761A

KR20230062761A - 시스템 장애 통합관리방법

Info

Publication number: KR20230062761A
Application number: KR1020210147539A
Authority: KR
Inventors: 이민재
Original assignee: (주)다인엔시스
Priority date: 2021-10-31
Filing date: 2021-10-31
Publication date: 2023-05-09

Abstract

본 발명은 네트워크, 시스템, 데이터베이스, 어플리케이션 등으로 이루어진 각 솔루션에 대한 이벤트를 통
합적으로 모니터링 하여 시스템의 장애문제를 조기에 발견하며, 상기 문제에 대한 원인 분석된 데이터들에
의해 장애를 자동적으로 관리하여 재사용을 쉽게 관리해 주도록 하는 장애 통합관리 방법에 관한 것이다.
본 발명을 이루기 위한 방법으로, 다수의 개별 솔루션을 네트워크 망으로 구성하여, 상기 시스템을 운영과
정에서 발생되는 장애를 통합 관리하도록 하는 방법에 있어서, 상기 네트워크 망으로 구성된 솔루션을 사
용자인터페이스로 모델링하고, 관리객체간의 연결관계 및 이벤트모델을 설정하여 시스템을 구축한 후 상기
시스템을 운영하는 단계; 상기 시스템에서 장애가 발생하게 되면 시스템 장애 통합관리를 위한 프로그램에
서 장애를 인지하면서 이벤트를 수집하는 단계; 상기 이벤트 수집하여 시스템의 장애 진단엔진에서 장애원
인을 분석하고, 그 결과를 해당 솔루션의 데이터베이스로 제공하는 단계; 상기 문제의 원인과 연관된 솔루
션을 찾아주어 상기 시스템의 장애를 데이터베이스에 기록된 데이터에서 처리과정을 자동으로 실행하는 단
계; 상기 관리시스템을 정상적으로 운영하고, 그에 대한 결과를 평균정상 운영시간, 평균 장애복구 시간
및 평균 장애시간 등의 각 평균값을 산출하여 장애처리 결과 및 현황을 보고서를 출력하는 단계로 이루어
진 것을 특징으로 한다.

Description

시스템 장애 통합관리방법{System hindrance integration management method}

[0002] 본 발명은 전산 시스템 장애 통합관리방법에 관한 것으로, 더욱 상세하게는 네트워크, 시스템, 데이터베이

스, 어플리케이션 등으로 이루어진 각 솔루션에 대한 이벤트를 통합적으로 모니터링 하여 시스템의 장애문

제를 조기에 발견하며, 상기 문제에 대한 원인 분석된 데이터들에 의해 장애를 자동적으로 관리하여 재사

용을 쉽게 관리해 주도록 하는 장애 통합관리 방법에 관한 것이다.

[0003] 일반적으로, 전산시스템의 장애관리로는 네트워크, 데이터베이스, 시스템 등 각 분야별 어플리케이션별로

특화된 솔루션을 제공하고 있으며, 상기 전산시스템 관리자는 각 개별 솔루션들을 통합하여 전체적인 시스

템을 구축하여야만 하며, 또 각 분야별 발생되는 어플리케이션의 이벤트들을 통합해서 관리해 주려면 이에

대한 시스템간의 통합작업을 하여 관리하게 되는 것이다.

[0004] 그러나, 상기와 같이 시스템의 장애를 통합 관리하는 시스템은 고정된 하드웨어(H/W)나 데이터베이스 등을

통합 관리하려면 각 개별 솔루션들의 구성요소들을 전체시스템으로 변경하여 구축하여 사용하거나, 새로이

추가되는 경우 상기 전산시스템을 재 구축하여야 하므로, 유지보수나 업그레이드(upgrade) 등 시스템 관리

에 어려운 문제점을 내포하고 있다.

[0005] 상기와 같은 문제를 해소하기 위한 것으로, 본 발명은 기존의 장애관리 시스템과는 달리 네트워크,

시스템, 데이터베이스, 어플리케이션에 대한 이벤트를 통합적으로 모니터링 하여 문제를 조기에 발견하고,

상기 문제의 원인을 분석하여 그 해결책으로 재사용을 쉽게 해줄 수 있도록 하는데 그 목적이 있다.

[0006] 본 발명을 이루기 위한 방법으로, 다수의 개별 솔루션을 네트워크 망으로 구성하여, 상기 시스템을 운영과

정에서 발생되는 장애를 통합 관리하도록 하는 방법에 있어서, 상기 네트워크 망으로 구성된 솔루션을 사

용자인터페이스로 모델링하고, 관리객체간의 연결관계 및 이벤트모델을 설정하여 시스템을 구축한 후 상기

시스템을 운영하는 단계; 상기 시스템에서 장애가 발생하게 되면 시스템 장애 통합관리를 위한 프로그램에

서 장애를 인지하면서 이벤트를 수집하는 단계; 상기 이벤트 수집하여 시스템의 장애 진단엔진에서 장애원

인을 분석하고, 그 결과를 해당 솔루션의 데이터베이스로 제공하는 단계; 상기 문제의 원인과 연관된 솔루

션을 찾아주어 상기 시스템의 장애를 데이터베이스에 기록된 데이터에서 처리과정을 자동으로 실행하는 단

계; 상기 관리시스템을 정상적으로 운영하고, 그에 대한 결과를 평균정상 운영시간, 평균 장애복구 시간

및 평균 장애시간 등의 각 평균값을 산출하여 장애처리 결과 및 현황을 보고서를 출력하는 단계로 이루어

진 것을 특징으로 한다.

[0007] 또한, 장애 처리하는 단계는 시스템 장애 통합관리를 위한 프로그램을 운영하면서 발생된 장애에 따른 처

리과정 및 결과를 데이터에 의해 자동 장애 관리를 하도록 사전 설정된 것을 특징으로 하며, 상기 장애원

인 분석하는 단계는 시스템을 운영하면서 발생된 장애를 데이터흐름도(DFD) 및 이알디(ERD)로 분석한 것을

특징으로 한다.

[0042] 이상에서 살펴본 바와 같이, 본 발명의 시스템 장애 통합관리방법은 어플리케이션 및 사용자 중심의 관리

객체를 모델링하여 각 관리객체 오브젝트들의 연결관계 및 각 개별 솔루션, 네트워크, 데이터베이스 등의

구성요소를 어플리케이션 중심의 상호관계를 시각적으로 보여주며, 변경된 어플리케이션의 반영여부 파악

이 가능하여 시스템의 다운 타임(down time)의 감소, 관리정보를 활용 및 시스템의 관리 효율성을 증진시

키고, 시스템의 장애관리를 자동화시켜 사용자의 편의를 증진시키는 효과를 갖는다.

[0043] 또한, 시스템을 통합관리 함으로서 각종 분야의 어플리케이션관련 이벤트 등을 하나로 묶을 수 있도록 확

장성이 용이하며, 기존의 고정된 장애관리 시스템과는 크게 다른 새로운 장애 통합관리시스템을 제공할 수

있게 되는 장점을 갖는다.

[0001] 도 1은 본 발명에 따른 시스템 통합 장애관리방법의 알고리즘 각 단계별 흐름도.
도 2는 본 발명에 따른 관리대상을 객체화해서 모델링하는 프로세서의 흐름도.
도 3은 본 발명에 따른 시스템 장애 통합 관리방법의 개념적인 구성에 의한 흐름을 도시한 구성도.
도 4는 본 발명에 따른 시스템 장애 통합 관리방법에 의해 사전 정의된 클래스의 참고도.
도 5는 본 발명에 따른 시스템 장애 통합관리방법에 의한 관리객체 오브젝트들의 연관관계를 도시한 참고
도
*도면의 주요부분에 대한 부호의 설명*
300 : 네트워크400 : 솔루션
500 : 진단엔진600 : 데이터베이스

[0008] 이하, 본 발명의 바람직한 실시 예를 첨부된 도면을 참조하여 상세하게 살펴보면 다음과 같다.

[0009] 도 1은 본 발명에 따른 시스템 통합 장애관리방법의 알고리즘 각 단계별 흐름도 이다.

[0010] 도 1에 도시된 바와 같이, 각각의 개별 솔루션을 네트워크 망으로 구축하기 위한 상기 솔루션들의 하드웨

어(H/W), 소프트웨어(S/W) 및 각 어플리케이션을 정의(S102)하고, 상기 그래픽컬(graphical) 등으로 표현

되는 사용자인터페이스(UI)를 통해 각 솔루션의 관리객체를 모델링(S104)한다.

[0011] 상기 네트워크로 구축된 관리 객체간의 연결관계 및 상기 각 솔루션들의 이벤트 모델을 설정(S106)하고,

상기 시스템을 구축 완료(S108)한다.

[0012] 상기 시스템의 구축이 완료되면, 시스템 장애 통합관리 및 복구를 위해 시스템을 운영(S110)하며, 상기 시

스템에 부가적인 기능을 추가 및 업그레이드(upgrade)를 하는 경우 상기 기능을 추가 설치하고, 시스템에

해당되는 관리객체의 모델을 수정 또는 추가(S112)한다.

[0013] 상기 시스템의 신규기능 추가 및 업그레이드를 하지 않는 경우 운영된 시스템의 관리/복구(S118)하면서 상

황을 모니터링(S120)한다.

[0014] 상기 관리객체의 모델을 수정 또는 추가(S114)한 경우 시스템을 재 가능하여 시스템을 운영테스트(S116)하

고, 그에 따른 시스템을 관리/복구(S118)하면서 상황을 모니터링(S120)한다.

[0015] 상기 시스템 관리/복구과정에서 발생된 장애에 따른 처리과정 및 결과를 데이터로 기록 보관한다.

[0016] 첨부도면 도 2는 본 발명에 따른 관리대상을 객체화해서 모델링하는 프로세서의 흐름도 이다.

[0017] 도 2에 도시된 바와 같이, 시스템 장애 통합관리를 위해 시스템의 구축일정 및 요구사항 등을 정의(S202)

하여 구축계획서를 작성한다.

[0018] 상기 시스템 구축에 관련된 방안 즉, 시스템 설치, 전/후 구성도, 이벤트 흐름도, 운영방안 등과 설치 완

료한 후 시스템 운영 관리교육 및 지원에 대한 각 항목을 정의(S204)한다.

[0019] 상기 시스템의 구축계획과 방안에 대한 검토 및 보완(S206)하고, 상기 시스템 장애 통합관리를 위한 운영

자 인터뷰(S208)를 통해 시스템, DB, N/W의 관리자, 프로그램 개발자, 사용자 등으로 인터뷰 대상자를 구

성할 수 있으며, 상기 인터뷰를 통해 얻어진 결과는 기록하여 보관한다.

[0020] 상기 사용자 인터뷰가 완료되면, 시스템 장애 통합관리를 위한 프로그램(Napier)을 인스톨(S210)하고, 시

스템 통합 장애관리를 위한 객체 설계(비즈니스 어플리케이션과 프로세스의 특성을 파악)한다. 즉, 데이터

흐름도(DFD) 및 이알디(Entity-relationship Diagram) 등 관련문서를 분석하여 모델링을 위한 관리객체를

정의하고, 상기 관리객체에 대한 각종 룰(Rule)을 도출한다. 또한, 모텔링 설계서를 작성(S212)한다.

[0021] 상기 모델링 설계서의 적합성을 검증(S214)하면서 회의록을 기록한다. 상기 모델링 설계서의 검증은 관리

객체들을 시스템 장애 통합관리를 위한 프로그램의 지식베이스(Knowledge base)를 이용하여 GUI(graphical

user interface)로 모델링(S216)하고, 상기 모델링은 자체적으로 제공되는 템플릿(templet)을 이용하며,

드래그 앤 드롭방식으로 쉽게 구현한다. 또한, 관리객체에 대한 룰을 정의하고, 필요시 관리객체에 대한

이벤트, 통계량(statistic), 문제(problem) 및 디덕션 룰(deduction rule) 등 자동 조치사항을 변경하거

나 신규로 등록할 수 있다. 상기 관리객체들은 시스템 장애 통합관리를 위한 프로그램의 어플리케이션에

의해 변경 및 신규 등록한다.

[0022] 상기 관리객체에 대한 이벤트 생성 및 임계치 설정에 필요한 정보를 컨피그 파일로 정의(S218)한다. 또한,

시스템 장애 통합관리를 위한 프로그램을 통하여 다른 솔루션의 이벤트를 연동하여 모니터링 할 경우 인터

페이스 방안을 수립(S220)한다.

[0023] 상기 타 솔루션의 인터페이스를 통하여 시스템 장애 통합관리를 위한 이벤트 인터페이스모듈(S222)을 적용

하거나 새로운 인터페이스를 개발하고, 상기 관리객체의 모델링 및 타 솔루션의 이벤트 인터페이스에 대한

테스트를 수행(S224)한다.

[0024] 상기 테스트 방법은 자체적으로 제공되는 시뮬레이션 테스트 기능을 이용하며, 테스트를 수행하면서 모델

링의 적합성을 검증하는 동시에 설계와 동일한 결과가 나오면 테스트를 종료하고, 상기 설계와 동일한 결

과가 나오지 않으면 반복 테스트를 통하여 테스트를 결과를 기록하여 저장한다.

[0025] 상기 과정에서 관리 대상의 객체화를 위하여 내부적으로는 다음과 같은 종류의 데이터 구조를 갖는다.

[0026] 첫 번째로 이벤트(Event)는 에이전트(Agents)로부터 받은 이벤트들 중에서 "Updata Instance State"이벤

트, "Parameter alarm cancelled"이벤트, "Parameter alarm"이벤트 등 각각의 이벤트 클래스만으로 이벤

트를 테스트(Listener)하여 시스템 장애 통합관리를 위한 프로그램에서 이벤트로 바꾼다.

[0027] 두 번째로 스타트(State)는 에이전트(Agents)에 의해 관리되고 있는 통계형(statistics)을 표현하기 위한

자체 정의한 클래스(Class)이다.

[0028] 세 번째로 시나리오(scenario)는 어떤 문제를 해결하는 솔루션(solution)을 데이터베이스(DB)에 저장할 때

CMIS시나리오 데이터 타입으로 저장된다.

[0029] 네 번째로 오브젝트 스타트(Object state)는 오브젝트 매니저(manager)에 의해 모니터링 되고 있는 오브젝

트의 스타트에 변화가 있을 경우 이를 알려주는 클래스(Class)이다.

[0030] 다섯 번째로 리소스 맵핑(Resource mapping)은 현재 모니터링 되고 있는 어플리케이션 오브젝트들에 대한

정보를 담은 클래스(Class)이다.

[0031] 여섯 번째로 액션(Action)은 액션실행매니저(Action executor manager)에서 실행될 명령어를 담은 클래스

(Class)이다.

[0032] 상기 과정에서 시스템 장애 통합관리를 위해 시스템의 구축 및 타 솔루션과 연동하여 테스트하면서 발생된

장애에 대한 처리과정을 데이터를 기록 관리하고, 상기 기록 관리된 데이터들을 통하여 시스템의 운영 관

리하게 되므로 시스템의 장애 발생시 상기 시스템의 장애를 인지한 다음 상기 장애에 대한 데이터에서 처

리 과정을 자동적으로 수행하여 시스템의 장애를 처리하게 된다.

[0033] 첨부도면 도 3 및 도 4를 통하여 본 발명의 시스템 장애 통합관리방법을 좀더 구체적으로 살펴보면 다음과

같다.

[0034] 도 3은 본 발명에 따른 시스템 장애 통합 관리방법의 개념적인 구성에 의한 흐름을 도시한 구성도 이다.

[0035] 도 4는 본 발명에 따른 시스템 장애 통합 관리방법에 의해 사전 정의된 클래스의 참고도 이다.

[0036] 도 5는 본 발명에 따른 시스템 장애 통합관리방법에 의한 관리객체 오브젝트들의 연관관계를 도시한 참고

도 이다.

[0037] 도 3 내지 도 5에 도시된 바와 같이, 본 발명의 시스템 장애 통합 관리방법으로 클라이언트/서버나 인트라

넷 기반으로서, 다중화된 서버, 운영체계, 미들웨어, 데이터베이스, 인터넷 및 어플리케이션 등 전반에 대

한 이벤트 자동화 관리하기 위한 각 개별 솔루션 등이 무선데이터 통신이 가능하도록 네트워크로 연결되게 구성한다.

[0038] 상기 시스템 장애 통합관리방법에 의해 구축되는 시스템으로는 각 개별 솔루션을 연결하는 네트워크망

(300), 데이터베이스(600) 등 각 분야별 하드웨어(H/W), 소프트웨어(S/W) 및 어플리케이션 등을 정의하고,

상기 각 개별 솔루션(400)을 그래픽컬(graphical:도 4참조)하게 표시하여 사용자인터페이스(UI)를 통한 관

리객체를 모델링한 다음, 상기 관리객체간의 연결관계(도 5참조) 및 이벤트모델을 설정하여 전체적인 시스

템을 구축하게 되는 것이다.

[0039] 여기에서, 각 개별 솔루션(400)의 구성요소들은 세 가지로 분류되는데 하드웨어(H/W), 소프트웨어(S/W) 및

컨테이너로 구성된다. 상기 하드웨어는 어플리케이션이 운영되는 서버의 주요 하드웨어(H/W) 구성요소인

CPU, 메모리, 디스크 등과 N/W 장비들을 정의하며, 상기 소프트웨어는 어플리케이션의 소프트웨어(S/W) 구

성요소로서 프로세서, 웹 서비스, DB 서비스 등을 정의하고, 컨테이너는 상위 개념의 관리 객체를 정의할

수 있도록 관계를 형성한다.

[0040] 상기 시스템 장애 통합 관리방법에 의해 구축되는 시스템 관리 및 장애 복구를 위한 시스템을 운영하고,

상기 각 개별 솔루션(400) 등 상기 시스템에서 장애가 발생하게 되면 상기 장애 통합관리를 위한 프로그램

에서 장애를 인지하면서 이벤트를 수집한다, 상기 이벤트 수집을 통하여 시스템의 장애진단 엔진(500)에서

장애원인을 분석하고, 그 결과를 각 개별 솔루션(400)의 데이터베이스(600)로 제공하며, 상기 문제의 원인

과 연관된 솔루션(400)을 찾아주어 상기 시스템의 장애를 데이터베이스(600)에 기록된 데이터에서 처리과

정을 자동으로 실행하여 장애 처리한 다음, 상기 관리시스템을 정상적으로 운영하고, 그에 대한 장애처리

결과를 SLA(service level agreement)에서 요구되는 기준 즉, 서비스 제공자와 고객사이에서 주고받는 서

비스의 요구되는 기준으로 평균정상 운영시간(Mean Time Between Failure), 평균 장애복구 시간(Mean

Time To Repair) 및 평균 장애시간(Mean Down Time)의 평균값을 산출하여 장애처리 결과 및 현황을 보고서

를 출력하도록 구성되는 것이다.

[0041] 그리고, 본 발명의 바람직한 실시 예에 대하여 도시하고 또한 설명하였으나, 본 발명은 상기한 실시 예에

한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 본 발명이 속하는 분야

에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은

기재된 청구범위 내에 있게 된다.

Claims

다수의 개별 솔루션을 네트워크 망으로 구성하여, 상기 시스템을 운영과정에서 발생되는 장애를 통합 관리
하도록 하는 방법에 있어서,
상기 네트워크 망으로 구성된 솔루션을 사용자인터페이스로 모델링하고, 관리객체간의 연결관계 및 이벤트
모델을 설정하여 시스템을 구축한 후 상기 시스템을 운영하는 단계;
상기 시스템에서 장애가 발생하게 되면 시스템 장애 통합관리를 위한 프로그램에서 장애를 인지하면서 이
벤트를 수집하는 단계;
상기 이벤트 수집하여 시스템의 장애 진단엔진에서 장애원인을 분석하고, 그 결과를 해당 솔루션의 데이터
베이스로 제공하는 단계;
상기 문제의 원인과 연관된 솔루션을 찾아주어 상기 시스템의 장애를 데이터베이스에 기록된 데이터에서
처리과정을 자동으로 실행하는 단계;
상기 관리시스템을 정상적으로 운영하고, 그에 대한 결과를 평균정상 운영시간, 평균 장애복구 시간 및 평
균 장애시간 등의 각 평균값을 산출하여 장애처리 결과 및 현황을 보고서를 출력하는 단계로 이루어진 것
을 특징으로 하는 시스템 장애 통합관리방법.
제 1항에 있어서, 장애 처리하는 단계는 시스템 장애 통합관리를 위한 프로그램을 운영하면서 발생된 장애
에 따른 처리과정 및 결과를 데이터에 의해 자동 장애 관리를 하도록 사전 설정된 것을 특징으로 하는 시
스템 장애 통합 관리방법.
제 1항 또는 제 2항에 있어서, 장애원인 분석하는 단계는 시스템을 운영하면서 발생된 장애를 데이터흐름
도(DFD) 및 이알디(ERD)로 분석한 것을 특징으로 하는 시스템 장애 통합 관리방법.
다수의 개별 솔루션을 네트워크 망으로 구성하여, 상기 시스템을 운영과정에서 발생되는 장애를 통합 관리
하도록 하는 기록매체에 있어서,
상기 시스템을 운영하는 과정에서 발생되는 장애를 인지하고, 이를 이벤트로 수집하는 기능;
상기 수집된 이벤트에서 시스템의 장애원인을 분석하고, 그 결과를 해당 솔루션의 데이터베이스로 제공하
는 기능;
상기 문제의 원인과 연관된 솔루션을 찾아주어 상기 시스템의 장애를 데이터베이스에 기록된 데이터에서
처리과정을 자동으로 실행하는 기능;
상기 시스템을 정상적으로 운영시키고, 그에 대한 결과를 평균정상 운영시간, 평균 장애복구 시간 및 평균
장애시간 등의 각 평균값을 산출하여 장애처리 결과 및 현황을 보고서를 출력하는 기능을 실현시키기 위한
프로그램을 기록하여 컴퓨터로 읽을 수 있는 기록매체.