KR20220092680A - 지능형 통합관제시스템에서의 딥러닝 기반 장애 예측 방법 및 장치 - Google Patents

지능형 통합관제시스템에서의 딥러닝 기반 장애 예측 방법 및 장치 Download PDF

Info

Publication number
KR20220092680A
KR20220092680A KR1020200182898A KR20200182898A KR20220092680A KR 20220092680 A KR20220092680 A KR 20220092680A KR 1020200182898 A KR1020200182898 A KR 1020200182898A KR 20200182898 A KR20200182898 A KR 20200182898A KR 20220092680 A KR20220092680 A KR 20220092680A
Authority
KR
South Korea
Prior art keywords
performance data
data
prediction
deep learning
failure
Prior art date
Application number
KR1020200182898A
Other languages
English (en)
Inventor
박영찬
정성문
김성회
Original Assignee
(주)지케스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)지케스 filed Critical (주)지케스
Priority to KR1020200182898A priority Critical patent/KR20220092680A/ko
Publication of KR20220092680A publication Critical patent/KR20220092680A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0213Standardised network management protocols, e.g. simple network management protocol [SNMP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0695Management of faults, events, alarms or notifications the faulty arrangement being the maintenance, administration or management system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

본 발명에 따른 지능형 통합관제시스템에서의 딥러닝 기반 장애 예측 장치는, 클라우드 기반으로 과거의 소정 기간 동안 성능 데이터를 수집하는 데이터 수집부; RNN(Recurrent Neural Network)과 LSTM(Long Short-Term Memory)을 이용하여 상기 수집된 성능 데이터를 학습하는 데이터 학습 모델; 상기 데이터 학습 모델을 바탕으로 예측 성능 데이터를 생성하는 성능 데이터 예측부; 및 상기 예측 성능 데이터를 이용하여 장애를 예측하는 장애 예측부를 포함하는 것을 특징으로 한다.

Description

지능형 통합관제시스템에서의 딥러닝 기반 장애 예측 방법 및 장치{Apparatus and method for deep learning based failure prediction in intelligent integrated control system}
본 발명은 지능형 통합관제시스템에 관한 것으로, 보다 상세하게는 지능형 통합관제시스템에서 딥러닝 기반으로 장애를 예측하는 방법 및 장치에 관한 것이다.
최근 들어, 전자정부서비스 확대로 공공정보자원에 대한 인프라 및 관리 비용이 증가하고, IT재난으로부터 통합정보자원관리시스템의 전문화된 장애대응체계 필요하며, 신산업 발달에 따른 온라인 공공서비스의 고성능 컴퓨팅 자원 활용의 증가되고 있다.
기술적으로, IoT, 클라우드, 인공지능, 빅데이터 등과 같은 ICT 기술기반 서비스 증가로 인해 실시간 고용량 처리를 위한 클라우드 기반의 고성능 컴퓨팅 자원 활용이 증가하고 있다. 즉, 전자정부서비스에도 각종 고성능 컴퓨팅 자원이 지속적으로 증가하고 이에 따른 관리 및 운영에 대한 대처는 미흡한 현실이다. 또한, 망분리 특성 상 내부 업무망과 인터넷망에서 운영 중인 전자정부 인프라의 효율적인 관리기법이 필요하며, 기존방식의 사후모니터링 패러다임을 넘어 AI 기반의 데이터를 수집 분석하여 딥러닝을 활용한 융합모니터링 시스템이 필요하다.
관제서비스에서 사용하는 인공지능 모델 적용 알고리즘으로, RNN(Recurrent Neural Network)과 LSTM(Long Short-Term Memory)가 있다. RNN은 학습 데이터의 기간이 길어질수록 과거 패턴을 잃어버려 예측이 부정확해지는 한계가 있다. LSTM은 과거의 불필요한 데이터는 지우고 중요 패턴은 계속 저장하는 방식으로 학습 데이터의 기간이 증가하더라도 정확한 예측을 제공한다.
본 발명이 이루고자 하는 기술적 과제는 클라우드 기반으로 데이터를 수집하고 RNN과 LSTM을 이용해 수집된 데이터를 학습하여 장애를 사전 예측하고 실시간 관제를 제공할 수 있는 딥러닝 기반의 지능형 통합관제시스템을 제공하는 데 있다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 지능형 통합관제시스템에서의 딥러닝 기반 장애 예측 장치는, 클라우드 기반으로 과거의 소정 기간 동안 성능 데이터를 수집하는 데이터 수집부; RNN(Recurrent Neural Network)과 LSTM(Long Short-Term Memory)을 이용하여 상기 수집된 성능 데이터를 학습하는 데이터 학습 모델; 상기 데이터 학습 모델을 바탕으로 예측 성능 데이터를 생성하는 성능 데이터 예측부; 및 상기 예측 성능 데이터를 이용하여 장애를 예측하는 장애 예측부를 포함하는 것을 특징으로 한다.
상기 성능 데이터는, 입력 트래픽 사용율, 출력 트래픽 사용율, 메모리 사용율, 스왑 사용율, CPU 사용율, 파일 시스템 사용율, 메모리 사용율을 포함할 수 있다.
상기 성능 데이터는, 온도를 더 포함할 수 있다.
상기 성능 데이터 예측부는 야간 배치 작업을 통해 예측 데이터를 생성할 수 있다.
상기 데이터 학습 모델은 20일 이상 동안 수집된 성능 데이터로 학습을 수행하고, 상기 성능 데이터 예측부는 20일 이상 동안 수집된 성능 데이터로 학습된 데이터 학습 모델을 바탕으로 2시간 이후의 예측 성능 데이터를 생성할 수 있다.
상기 장애 예측부는 상기 예측 성능 데이터가 소정의 임계값을 초과하면 장애로 예측할 수 있다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 지능형 통합관제시스템에서의 딥러닝 기반 장애 예측 방법은, 클라우드 기반으로 과거의 소정 기간 동안 성능 데이터를 수집하는 데이터 수집 단계; RNN(Recurrent Neural Network)과 LSTM(Long Short-Term Memory)을 이용하여 상기 수집된 성능 데이터를 학습하는 데이터 학습 모델 생성 단계; 상기 데이터 학습 모델을 바탕으로 예측 성능 데이터를 생성하는 성능 데이터 예측 단계; 및 상기 예측 성능 데이터를 이용하여 장애를 예측하는 장애 예측 단계를 포함하는 것을 특징으로 한다.
상기 성능 데이터 예측 단계는 야간 배치 작업을 통해 예측 데이터를 생성할 수 있다.
상기 데이터 학습 모델 생성 단계는 20일 이상 동안 수집된 성능 데이터로 학습을 수행하고, 상기 성능 데이터 예측 단계는 20일 이상 동안 수집된 성능 데이터로 학습된 데이터 학습 모델을 바탕으로 2시간 이후의 예측 성능 데이터를 생성할 수 있다.
상기 장애 예측 단계는 상기 예측 성능 데이터가 소정의 임계값을 초과하면 장애로 예측할 수 있다.
본 발명에 의하면, 클라우드 기반으로 데이터를 수집하고 RNN과 LSTM을 이용해 수집된 데이터를 학습하여 장애를 사전 예측하고 실시간 관제를 제공할 수 있는 딥러닝 기반의 지능형 통합관제시스템을 제공할 수 있다.
도 1은 지능형 융합관제서비스의 개념을 나타낸다.
도 2는 기존의 통합관제시스템의 아키텍쳐를 나타낸다.
도 3은 본 발명에 따른 딥러닝 기반의 지능형 통합관제시스템의 아키텍쳐를 나타낸다.
도 4는 자체 통합관리 플랫폼을 구축하여 개별적으로 운영관리하던 형태를 클라우드 기반 단일 플랫폼으로 구축하여 도입 및 운영비용 절감한 구성을 나타낸다.
도 5는 본 발명에 따른 딥러닝 기반의 지능형 통합관제시스템의 구성도를 나타낸다.
도 6은 본 발명에 따른 딥러닝 기반의 지능형 통합관제 서비스의 개념도를 나타낸다.
도 7은 공공기관 외부망 관제 구성을 나타낸다.
도 8은 서버 모니터링 서비스의 시스템 구성도를 나타낸다.
도 9는 서버 성능 관리 화면을 나타낸다.
도 10은 프로세스 감시 화면을 나타낸다.
도 11는 서버 상태 감시의 구성도 및 장애 관리 화면을 나타낸다.
도 12는 네트워크 모니터링 서비스의 시스템 구성도를 나타낸다.
도 13은 네트워크 트래픽 관리의 인/아웃 트래픽 및 실시간 인/아웃 트래픽을 나타낸다.
도 14는 기간별 인/아웃 트래픽 이력과 회선 그룹 인/아웃 트래픽 이력을 나타낸다.
도 15는 환경설비 모니터링 서비스의 시스템 구성도를 나타낸다.
도 16은 장애 모니터링 절차의 흐름도를 나타낸다.
도 17은 인공지능 장애예측 서비스의 서비스 구성도를 나타낸다.
도 18은 서버 모니터링 서비스의 서비스 구성도를 나타낸다.
도 19는 네트워크 모니터링 서비스의 서비스 구성도를 나타낸다.
도 20은 IoT 환경 모니터링 서비스의 서비스 구성도를 나타낸다.
도 21는 인공지능 장애 예측을 기능 별로 정리한 표를 나타낸다.
도 22는 예측 성능 데이터 생성 절차의 일 실시예를 나타낸다.
도 23은 예측 성능 데이터 생성 절차의 다른 실시예를 나타낸다.
도 24는 예측 성능 데이터 생성 절차의 또 다른 실시예를 나타낸다.
도 25는 온도 예측 결과의 예를 나타낸다.
도 26은 일간, 주간, 월간, 연간 트래픽 사용율 예측 결과의 예를 나타낸다.
도 27은 시간별 입출력 트래픽 사용율 예측 결과의 예를 나타낸다.
이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이하 설명 및 첨부된 도면들에서 실질적으로 동일한 구성요소들은 각각 동일한 부호들로 나타냄으로써 중복 설명을 생략하기로 한다. 또한 본 발명을 설명함에 있어 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략하기로 한다.
본 발명의 실시예는 클라우드 기반으로 데이터를 수집하고 RNN과 LSTM을 이용해 수집된 데이터를 학습하여 장애를 사전 예측하고 실시간 관제를 제공할 수 있는 딥러닝 기반의 지능형 통합관제시스템을 제공한다.
도 1은 지능형 융합관제서비스의 개념을 나타낸다. 지능형 융합관제서비스는 시스템 관제(SMS), 네트워크 관제(NMS), 환경설비 관제(FMS) 서비스, 보안관제서비스(ESM), 어플리케이션 관제(APM), 데이터베이스 관제(DBM) 서비스, 연계솔루션 관제서비스(EAI/ESB) 등을 포함한다.
도 2는 기존의 통합관제시스템의 아키텍쳐를 나타내고, 도 3은 본 발명에 따른 딥러닝 기반의 지능형 통합관제시스템의 아키텍쳐를 나타낸다.
예방 측면에서, 기존의 시스템이 시스템 장애 등 장애 예방을 위한 수동 점검 및 진단으로서, 점검은 HW, SW 정기 예방점검, 취약점 점검 및 정보시스템 일일 점검, 진단은 네트워크 상태, 시스템 상태, AP(WEB/WAS/DB) 등 동작상태 확인에 그치는 반면, 본 발명은 인공지능 기반 각종 점검 및 진단 자동화로서, 점검은 실시간으로 각종 점검 및 운영정보를 딥러닝 학습하고, 진단은 시스템 안정성 확보를 위한 시스템 구조진단을 자동화한다.
관제 측면에서, 기존의 시스템이 실시간 장애감시는 On-Premise(구축형) 통합관리시스템 도입으로 실시간 관제하고, 도입기관별 개별적 관제운영으로 장애는 이미 발생한 사건(장비, AP Down 등) 중심의 모니터링이고 성능은 설정된 임계치 기반 탐지인 반면, 본 발명은 수집장비를 통해 운영정보를 클라우드 관제센터로 전송하는 방식으로, 실시간 장애정보, 운영 성능 정보, 사전 장애예측치 생성 및 제공, 성능추이 분석 및 예측치 제공, 인공지능 기반 가변 임계치 적용을 통한 시스템 성능추이 분석을 제공한다.
대응 측면에서, 기존의 시스템이 장애 발생 후 자체대응 방식으로 통합관리시스템의 장애감지, 담당자의 장애통보를 통한 인지, 유지관리 업체를 활용한 장애조치만을 제공하는 반면, 본 발명은 관제센터 중심의 장애대응 방식으로, 센터 전문가의 장애통보 및 장애원인 분석, 현장 장애조치의 이력관리, 학습을 통한 자동정책 적용·대응을 제공한다.
분석 측면에서, 기존의 시스템이 장애 발생 원인 분석 후 복구 방식으로, 네트워크, 시스템, AP 정책 확인 및 최적값 적용, 재발방지 방안 마련·시행을 제공하는 반면, 본 발명은 장애내역의 빅데이터화로, 학습 데이터에 의한 유사 장애에 대한 사전 예방데이터 제공, 학습치 적용에 따른 장애이력 관리화를 제공한다.
도 4는 자체 통합관리 플랫폼을 구축하여 개별적으로 운영관리하던 형태를 클라우드 기반 단일 플랫폼으로 구축하여 도입 및 운영비용 절감한 구성을 나타낸다.
도 5는 본 발명에 따른 딥러닝 기반의 지능형 통합관제시스템의 구성도를 나타내고, 도 6은 본 발명에 따른 딥러닝 기반의 지능형 통합관제 서비스의 개념도를 나타낸다. 본 발명에 따르면, 사이트별 지킴-e 모니터링 클라우드 서비스를 운영하고, 사이트 지킴-e 모니터링 자산/성능/장애 정보를 지킴-e 모니터링 클라우드 센터 M.Cloud TAC에 집중 모니터링하고, 클라우드 서비스별 대시보드로 서버, 네트워크, 서비스 집중 모니터링하며, 지킴-e 모니터링 클라우드 센터 24시간 전문 상주 인력 모니터링 체계로 사이트 상시 모니터링하고, 중요 장애시 전문 모니터링 요원이 사이트 담당자에게 긴급 통보한다.
도 7은 딥러닝 기반의 지능형 통합관제시스템의 서비스 플랫폼을 나타낸다. M.Cloud Management Information Platform(MI)은 구성관리의 핵심요소로 관리대상을 모델링하여 관리한다. Mediation Tier Platform(MOA)는 관리대상의 정보를 수집하고 MI에 반영한다. Common Service Interface는 관리시스템의 공통서비스를 제공한다. 공통서비스로, 환경설정 서비스, Discovery 서비스, 통지 서비스, 감사 서비스, 인증 서비스, ETT(Extraction, Transformation, Transportation) 서비스 등이 있다. Rule Engine(ECS)은 Event Correlation System을 적용하고, Rule set 기반 이벤트 상관 분석 시스템을 적용한다. M2M은, M.Cloud to M.Cloud (구성정보 동기화 및 이벤트 전송), M.Cloud Client Health Check, M.Cloud Client 자산 동기화, M.Cloud Client 이벤트 동기화를 포함한다.
도 8은 서버 모니터링 서비스의 시스템 구성도를 나타낸다. 서버 모니터링 기능은, ICT 인프라 서버 통합 관리, 각종 서버 제품에 대한 통합관제 제공, 통합상황판을 제공하여 장애, 성능을 실시간 모니터링, 다양한 이기종 OS의 AGENT 제공, 프로세스 관리 및 로그 패턴 감시, 보안 관리를 위한 서비스 포트 및 시스템 파일 감시, 서버 리소스 정보 관리를 위한 Systemcall 방식의 Agent 구성, 사용중인 프로세스 및 로그 모니터링, 서버별 리소스(CPU, 메모리, 파일시스템 등) 사용현황 모니터링, 사용자 중심의 접근성 제공, 웹 접속에 의한 사용자 편의성 제공, 별도의 프로그램 설치 없이 시스템 관제를 포함한다.
도 9는 서버 성능 관리 화면을 나타낸다. 별도의 프로그램 설치 없이 시스템을 관제하며, 서버 성능 관리는 Agent의 현황정보를 제공하고, Agent는 데몬 형식으로 운용된다. CPU는 PID / USER / SIZE / %CPU 등을 포함하고, Disk는 시스템 명, 경보상태, Usage(%)를 포함하고, Process 감시는 특정 프로세스 상태 감시를 포함하고, Memory는 시스템 명, 경보상태, Usage(%)를 포함한다.
도 10은 프로세스 감시 화면을 나타낸다. 프로세스 감시는 감시 프로세스의 현황으로, Agent에서 프로세스 감시 대상을 주기적으로 상태 감시하고, 감시 대상 프로세스 Down시 매니저에 해당 프로세스 Down SNMP Trap으로 이벤트를 제공하고, 매니저에서 감시 대상 서버의 프로세스 Down 장애 발생를 감시한다. 로그패턴 감시는 감시 파일의 특정 단어를 감시하고, 파일의 Error, Fail 등 장애 의심 단어를 감시한다.
도 11는 서버 상태 감시의 구성도 및 장애 관리 화면을 나타낸다. 서버 장비는, ICMP를 통한 장비 UP/DOWN 장애감시, SNMP를 통한 성능 임계치 장애감시(Agent 설치 시), 프로세스 감시 설정을 통한 주요 업무프로세스 및 로그패턴 감시(Agent 설치 시)를 포함한다. 서버 상태는 서버 네트워크 상태를 감시하고, 서버 리소스는 SMS Agent가 설치된 SNMP를 통한 매니저와 통신한다.
도 12는 네트워크 모니터링 서비스의 시스템 구성도를 나타낸다. 시스템 모니터링 기능은, SNMP에 의한 트래픽 성능 실시간 모니터링, 백본라우터, 백본스위치, L4Switch, L3Switch, L2Switch 등 관제, 이벤트 및 장애 관리 기능, 장비, 포트/회선별 다양한 이벤트 감지 주기 설정 기능 제공, CPU사용량 초과, Memory사용량 초과 등 이벤트 발생시 즉각적으로 대응 할 수 있도록 제공, 네트워크 이상 트래픽 임계치 장애 관리로 사전 예방 체계 수립, 네트워크 장비에 대한 통합모니터링 기능 제공, 네트워크관리시스템 구현 대비한 유연성 제공, 신속한 장애 대응체계 구축, 온라인 장애처리,구성관리 제공, 다중작업 지원을 위한 멀티태스킹 구조 및 보안기능 제공을 포함한다.
도 13은 네트워크 트래픽 관리의 인/아웃 트래픽 및 실시간 인/아웃 트래픽을 나타낸다. 실시간 트래픽 그래프는 트래픽 실시간 모니터링을 지원하고, 트래픽 이력 그래프는 네트워크 이상 트래픽 모니터링이 가능하고, SNMP Protocol에 의한 인터페이스 정보 자동 수집은 표준프로토콜을 사용하여 정보 수집하고(장비 OID, sysname, 인터페이스 ifSpeed, ifAlias, ifDescr 등), 인터페이스 트래픽 성능 실시간으로 입력량, 입력률, 출력량, 출력률, 입력에러율, 출력에러율 등을 포함한다.
도 14는 기간별 인/아웃 트래픽 이력과 회선 그룹 인/아웃 트래픽 이력을 나타낸다. 회선 그룹별 관리에 의한 중요 장비 집중 관리가 가능하다. 일/주/월/년 트래픽 그래프는 회선에 대한 일/주/월/년 트래픽 표시, 최대/최소/평균 트래픽 제공, 엑셀 저장에 따른 확인이 가능하다. 회선 그룹별 트래픽 그래프는 그룹화된 회선에 대한 트래픽 그래프로서, 회선 내 이상 트래픽 모니터링이 가능하다. 인터페이스 트래픽 성능은 입력량, 입력률, 출력량, 출력률, 입력에러율, 출력에러율, 입력량을 포함한다.
도 15는 환경설비 모니터링 서비스의 시스템 구성도를 나타낸다. 시설장비 모니터링은, M.Cloud Client에서 기본 시설장비 관제 대상 관제시, 온습도계의 온습도 정보 모니터링, 전산실의 UPS 성능 및 장애 이벤트 모니터링을 포함하고. 온습도계와 UPS는 수집 장치와 통신 할 수 있는 IP로 운영힌다. 사이트 전산실에서 다양한 시설장비 관제 대상시, 다양한 시설장비를 연계하는 원격리모트단말(RTU)을 구축하고, 수집 장치와 원격리모트단말(RTU)은 같은 네트워크 망으로 구성하여 수집 장치에서 원격리모트단말(RTU)로 정보를 수집하고, 수집장치는 관리 대상 구성/성능/장애 정보를 연계하고, 온습도계, 항온항습기, UPS, 누수감지, 소발설비, 출입문, 화재감시, 전력량 등 다양한 시설장비를 모니터링한다. 시설장비 모니터링 기능은, 전산센터 및 서버실 온도/습도/풍속 분포 관리, 서버실내 구역별 공조상태를 동 시간 데이터로 관제 가능, SNMP에 의한 트래픽 성능 실시간 모니터링, 웹 화면에 모든 설비 운영 상태 표시, 다양한 알람 (Voice, E-mail, SMS 등) 메뉴 및 아이콘 커스터마이징, 시설장비의 DI 감시 (동작/중지 상태) 및 UPS, 항온항습기, 하론소화기, 배터리, 온/습도 등 AI 감시, 시간별 장애 내역 관리 장애 유형별 통계보고서 제공 등을 포함한다. 환경 설비 모니터링은, 장비별 Data를 기반으로 한 성능 보고서 생성, 전산실내 구역별 공조상태를 실시간 데이터로 관제, 전산실내 온도/습도/풍속분포 관리를 위한 전산실 공조감시, 다양한 포맷의 리포트 문서 변환기능 제공, 경보이력, 제어 및 설정이력, 통계이력, 사용자 접속이력, 데이터이력 등 제공을 포함하고, 보고서 기능으로 설비의 성능을 검사 할 수 있으며 향후 설비 교체에 대한 근거자료로 사용 가능하다.
도 16은 장애 모니터링 절차의 흐름도를 나타낸다. 수집장치는 전산실의 서버, 네트워크, 시설의 데이터를 수집하고, Down 장애 감시, 장애 모니터링을 수행하고, M.Cloud Client는 장애 관리, 장애 통보, 장애 확인, 장애 모니터링, 복구 장애 통보, 담당자 확인, 재해 원인파악을 수행하고, M.Cloud Center는 장애 관리, 장애 모니터링, 장애 복구를 수행한다.
도 17은 인공지능 장애예측 서비스의 서비스 구성도를 나타낸다. 서비스 제공 기능은, 딥러닝 엔진에서 수집 데이터를 학습하여 장애를 예측하는 기능, 예측 장애는 일별로 정해진 특정 시간에 일괄 배치로 발생하여 관리자 사전 관리, 예측 장애 이력 조회 및 학습에 사용되는 과거 데이터의 기간 설정 기능, 딥러닝 엔진에서 수집 데이터를 이용하여 학습하고 검증한 결과 이력 저장, 검색, 사용자가 선택한 회선에 대한 입력 트래픽 사용률, 출력 트래픽 사용률 장애 예측, 사용자가 선택한 서버의 메모리 사용률, SWAP 사용률에 대하여 장애 예측, 사용자가 선택한 서버의 특정 파일시스템 사용률에 대하여 장애 예측, 온도 센서에 대한 장애 예측 등을 포함한다.
도 18은 서버 모니터링 서비스의 서비스 구성도를 나타낸다. 서비스 제공 기능은, 딥러닝 엔진에서 수집 데이터를 학습하여 장애를 예측하는 기능, 각종 서버 제품에 대한 통합관제 제공, 통합상황판을 제공하여 장애, 성능을 실시간 모니터링, 다양한 이기종 OS의 AGENT 제공, 프로세스 관리 및 로그 패턴 감시, 보안 관리를 위한 서비스 포트 및 시스템 파일 감시, 서버 리소스 정보 관리를 위한 Systemcall 방식의 Agent 구성, 사용중인 프로세스 및 로그 모니터링, 서버별 리소스(CPU, 메모리, 파일시스템 등) 사용현황 모니터링, 어플리케이션 프로세스 구동상태 실시간 감시 및 프로세스별 시스템 점유율(CPU/Memory) 정보 제공, 로그파일의 특정 패턴 검출에 의한 장애정보 제공, 업무서버를 통합 관리함으로써 종합적인 장애/성능/구성 정보 및 통계자료 제공 등을 포함한다.
도 19는 네트워크 모니터링 서비스의 서비스 구성도를 나타낸다. 서비스 제공 기능은, SNMP에 의한 트래픽 성능 실시간 모니터링, 백본라우터, 백본스위치, L4Switch, L3Switch, L2Switch 등 관제, 이벤트 및 장애 관리 기능, 장비, 포트/회선별 다양한 이벤트 감지 주기 설정 기능 제공, CPU사용량 초과, Memory사용량 초과 등 이벤트 발생시 즉각적으로 대응 할 수 있도록 제공, 네트워크 이상 트래픽 임계치 장애 관리로 사전 예방 체계 수립, 네트워크 장비에 대한 통합모니터링 기능 제공, 웹기반 자체 운영자 관제화면 제공, 회선 그룹별 관리에 의한 중요 장비 집중 관리 가능, 온라인 장애처리, 구성관리 제공, 다중작업 지원을 위한 멀티태스킹 구조 및 보안기능 제공, 인터페이스 트래픽 성능(입력, 출력, 입력에러, 출력에러)정보 제공 등을 포함한다.
도 20은 IoT 환경 모니터링 서비스의 서비스 구성도를 나타낸다. 서비스 제공 기능은, 전력사용량 실시간 모니터링, 전력사용량 실시간 모니터링 전산센터 및 서버실 온도/습도 분포 관리, 서버실내 구역별 공조상태를 동시간 데이터로 관제 가능, SNMP에 의한 트래픽 성능 실시간 모니터링, 웹 화면에 모든 설비 운영 상태 표시, 다양한 알람 (Voice, E-mail 등) 메뉴 및 아이콘 커스터마이징, 시설장비의 DI 감시(동작/중지 상태) 및 AI 감시, UPS(무정전전원공급장치), 항온항습기 상태정보 모니터링, 화재감시, 누수감시, 출입문 감시 기능 제공, 시간별 장애 내역 관리 장애 유형별 통계보고서 제공, 전산실 기반 시스템의 통합성, 확장성 제공에 의한 전산센터 운영 효율성 제공 등을 포함한다.
도 21는 인공지능 장애 예측을 기능 별로 정리한 표를 나타낸다.
도 22는 예측 성능 데이터 생성 절차의 일 실시예를 나타낸다. SLM 데이터베이스는 트래픽(inUsage, outUsage), 리소스(memoryUsage, swapUsage), 파일시스템(fsUsage), 온도(currentTemp), APC(cpuUsage, memoryUsage)의 성능 데이터를 RNN 학습모델(tensorflow)로 제공하고, RNN 학습모델은 트래픽(inUsage, outUsage), 리소스(memoryUsage, swapUsage), 파일시스템(fsUsage), 온도(currentTemp), APC(cpuUsage, memoryUsage)의 예측 성능 데이터를 생성하여 SLM 데이터베이스에 저장한다.
도 23은 예측 성능 데이터 생성 절차의 다른 실시예를 나타낸다. SLM 데이터베이스로부터 과거의 성능 데이터를 추출하고, RNN 학습모델(tensorflow)은 야간 배치 작업을 통해 예측 성능 데이터를 생성하여 SLM 데이터베이스에 저장한다.
도 24는 예측 성능 데이터 생성 절차의 또 다른 실시예를 나타낸다. SLM 데이터베이스로부터 2시간 간격으로 1일 12건의 데이터를 추출하면, 21일 동안 252건의 데이터가 추출된다. RNN 학습모델(tensorflow)은 예를 들어 01:00에 배치 작업을 수행하여, 1일 12건의 예측 성능 데이터를 생성하여 SLM 데이터베이스에 저장한다.
또한, 성능 장애 예측부는 예측 임계치 장애 기능을 제공한다. 예측 임계치 장애 기능은, 예측 임계치 장애를 위한 attribute 추가 모델링(Interface, FileSystem, Unix, NT 등), Threshold 장애 클래스 이외에 Forecast_Threshold 추가, metric_rule에 forecast attribute 관련 임계치 조건 추가, SLM 예측 데이터를 주기적으로 예측 임계치 attribute 갱신(2시간 마다 2시간 후 예측 데이터로 attribute 갱신) 등을 포함한다.
도 25는 온도 예측 결과의 예를 나타내고, 도 26은 일간, 주간, 월간, 연간 트래픽 사용율 예측 결과의 예를 나타내고, 도 27은 시간별 입출력 트래픽 사용율 예측 결과의 예를 나타낸다.
본 발명의 실시예들은 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 실시예는 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩 업 테이블(look-up table) 등과 같은 집적 회로 구성들을 채용할 수 있다. 본 발명에의 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 실시예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 실시예는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. "매커니즘", "요소", "수단", "구성"과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.
실시예에서 설명하는 특정 실행들은 일 실시예들로서, 어떠한 방법으로도 실시 예의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, "필수적인", "중요하게" 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (12)

  1. 지능형 통합관제시스템에서의 딥러닝 기반 장애 예측 장치에 있어서,
    클라우드 기반으로 과거의 소정 기간 동안 성능 데이터를 수집하는 데이터 수집부;
    RNN(Recurrent Neural Network)과 LSTM(Long Short-Term Memory)을 이용하여 상기 수집된 성능 데이터를 학습하는 데이터 학습 모델;
    상기 데이터 학습 모델을 바탕으로 예측 성능 데이터를 생성하는 성능 데이터 예측부; 및
    상기 예측 성능 데이터를 이용하여 장애를 예측하는 장애 예측부를 포함하는 것을 특징으로 하는 딥러닝 기반 장애 예측 장치.
  2. 제1항에 있어서,
    상기 성능 데이터는, 입력 트래픽 사용율, 출력 트래픽 사용율, 메모리 사용율, 스왑 사용율, CPU 사용율, 파일 시스템 사용율, 메모리 사용율을 포함하는 것을 특징으로 하는 딥러닝 기반 장애 예측 장치.
  3. 제2항에 있어서,
    상기 성능 데이터는, 온도를 더 포함하는 것을 특징으로 하는 딥러닝 기반 장애 예측 장치.
  4. 제1항에 있어서,
    상기 성능 데이터 예측부는 야간 배치 작업을 통해 예측 데이터를 생성하는 것을 특징으로 하는 딥러닝 기반 장애 예측 장치.
  5. 제1항에 있어서,
    상기 데이터 학습 모델은 20일 이상 동안 수집된 성능 데이터로 학습을 수행하고, 상기 성능 데이터 예측부는 20일 이상 동안 수집된 성능 데이터로 학습된 데이터 학습 모델을 바탕으로 2시간 이후의 예측 성능 데이터를 생성하는 것을 특징으로 하는 딥러닝 기반 장애 예측 장치.
  6. 제1항에 있어서,
    상기 장애 예측부는 상기 예측 성능 데이터가 소정의 임계값을 초과하면 장애로 예측하는 것을 특징으로 하는 딥러닝 기반 장애 예측 장치.
  7. 지능형 통합관제시스템에서의 딥러닝 기반 장애 예측 방법에 있어서,
    클라우드 기반으로 과거의 소정 기간 동안 성능 데이터를 수집하는 데이터 수집 단계;
    RNN(Recurrent Neural Network)과 LSTM(Long Short-Term Memory)을 이용하여 상기 수집된 성능 데이터를 학습하는 데이터 학습 모델 생성 단계;
    상기 데이터 학습 모델을 바탕으로 예측 성능 데이터를 생성하는 성능 데이터 예측 단계; 및
    상기 예측 성능 데이터를 이용하여 장애를 예측하는 장애 예측 단계를 포함하는 것을 특징으로 하는 딥러닝 기반 장애 예측 방법.
  8. 제7항에 있어서,
    상기 성능 데이터는, 입력 트래픽 사용율, 출력 트래픽 사용율, 메모리 사용율, 스왑 사용율, CPU 사용율, 파일 시스템 사용율, 메모리 사용율을 포함하는 것을 특징으로 하는 딥러닝 기반 장애 예측 방법.
  9. 제8항에 있어서,
    상기 성능 데이터는, 온도를 더 포함하는 것을 특징으로 하는 딥러닝 기반 장애 예측 방법.
  10. 제7항에 있어서,
    상기 성능 데이터 예측 단계는 야간 배치 작업을 통해 예측 데이터를 생성하는 것을 특징으로 하는 딥러닝 기반 장애 예측 방법.
  11. 제7항에 있어서,
    상기 데이터 학습 모델 생성 단계는 20일 이상 동안 수집된 성능 데이터로 학습을 수행하고, 상기 성능 데이터 예측 단계는 20일 이상 동안 수집된 성능 데이터로 학습된 데이터 학습 모델을 바탕으로 2시간 이후의 예측 성능 데이터를 생성하는 것을 특징으로 하는 딥러닝 기반 장애 예측 방법.
  12. 제7항에 있어서,
    상기 장애 예측 단계는 상기 예측 성능 데이터가 소정의 임계값을 초과하면 장애로 예측하는 것을 특징으로 하는 딥러닝 기반 장애 예측 방법.
KR1020200182898A 2020-12-24 2020-12-24 지능형 통합관제시스템에서의 딥러닝 기반 장애 예측 방법 및 장치 KR20220092680A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200182898A KR20220092680A (ko) 2020-12-24 2020-12-24 지능형 통합관제시스템에서의 딥러닝 기반 장애 예측 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200182898A KR20220092680A (ko) 2020-12-24 2020-12-24 지능형 통합관제시스템에서의 딥러닝 기반 장애 예측 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20220092680A true KR20220092680A (ko) 2022-07-04

Family

ID=82399061

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200182898A KR20220092680A (ko) 2020-12-24 2020-12-24 지능형 통합관제시스템에서의 딥러닝 기반 장애 예측 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20220092680A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102504562B1 (ko) * 2022-10-06 2023-02-28 대한민국 Ai에 의한 재난안전지식 통합관리시스템
KR102588260B1 (ko) * 2023-03-08 2023-10-11 강원석 직관성이 향상된 인포그래픽 시스템
KR102617749B1 (ko) * 2023-02-15 2023-12-27 주식회사 엔티에스솔루션 다수의 검사설비 pc 및 제조설비 pc 의 통합 관제 모니터링 시스템 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102504562B1 (ko) * 2022-10-06 2023-02-28 대한민국 Ai에 의한 재난안전지식 통합관리시스템
WO2024075911A1 (ko) * 2022-10-06 2024-04-11 대한민국(행정안전부 국립재난안전연구원장) Ai에 의한 재난안전지식 통합관리시스템
KR102617749B1 (ko) * 2023-02-15 2023-12-27 주식회사 엔티에스솔루션 다수의 검사설비 pc 및 제조설비 pc 의 통합 관제 모니터링 시스템 및 방법
KR102588260B1 (ko) * 2023-03-08 2023-10-11 강원석 직관성이 향상된 인포그래픽 시스템

Similar Documents

Publication Publication Date Title
KR20220092680A (ko) 지능형 통합관제시스템에서의 딥러닝 기반 장애 예측 방법 및 장치
CN102447570B (zh) 一种基于健康度分析的监控装置及方法
KR101513408B1 (ko) 통신 환경에서의 동적 신뢰도 및 보안 제공
CN109768889A (zh) 一种可视化安全管理智慧运维平台
CN111629043B (zh) 一种基于云端模式的跨平台健康管理***
JP2011154483A (ja) 異常検出装置、プログラム、及び異常検出方法
Alcaraz et al. WASAM: A dynamic wide-area situational awareness model for critical domains in Smart Grids
EP3182247A1 (en) Systems and methods for dynamic ups optimization
CN115860729A (zh) 一种it运维综合管理***
Geldenhuys et al. Dependable iot data stream processing for monitoring and control of urban infrastructures
EP3571820B1 (en) Management of federated systems
CN117833464A (zh) 一种用电信息采集终端在线运行状态安全监测方法
CN116166499A (zh) 数据监测方法、装置、电子设备及非易失性存储介质
CN112558562A (zh) 一种泵站管理***
CN108471442A (zh) 一种基于微信平台的地震台网运维管理***
CN117010665A (zh) 智慧运维idc机房管理***
US6931357B2 (en) Computer network monitoring with test data analysis
CN114143160A (zh) 一种云平台自动化运维***
CN117579651A (zh) 物联网***
CN117670033A (zh) 一种安全检查方法、***、电子设备及存储介质
CN117041251A (zh) 一种基于边缘计算的多数据虚拟化集群管理***
GB2558902A (en) Management of federated systems
KR20200063343A (ko) Trvn 인프라구조의 운용 관리 장치 및 방법
CN114510391A (zh) 一种融合基础架构监控管理***
JP2020141353A (ja) 装置管理方法、管理装置及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination