KR20190099710A - 네트워크 장애 처리 시스템 및 방법 - Google Patents

네트워크 장애 처리 시스템 및 방법 Download PDF

Info

Publication number
KR20190099710A
KR20190099710A KR1020180019500A KR20180019500A KR20190099710A KR 20190099710 A KR20190099710 A KR 20190099710A KR 1020180019500 A KR1020180019500 A KR 1020180019500A KR 20180019500 A KR20180019500 A KR 20180019500A KR 20190099710 A KR20190099710 A KR 20190099710A
Authority
KR
South Korea
Prior art keywords
failure
network
information
vector
system log
Prior art date
Application number
KR1020180019500A
Other languages
English (en)
Other versions
KR102149930B1 (ko
Inventor
권성용
김보섭
이종필
채윤주
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020180019500A priority Critical patent/KR102149930B1/ko
Publication of KR20190099710A publication Critical patent/KR20190099710A/ko
Application granted granted Critical
Publication of KR102149930B1 publication Critical patent/KR102149930B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

네트워크 장애 처리 시스템으로서, 네트워크 장비들의 시스템 로그(Syslog) 정보의 맥락 정보에 벡터화 알고리즘을 적용하여 맥락 벡터를 생성하고, 상기 네트워크 장비들을 포함하는 네트워크에 대한 고장 신고 정보에 벡터화 알고리즘을 적용하여 워드 벡터를 생성하고, 상기 맥락 벡터, 상기 워드 벡터 및 상기 네트워크 장비들의 장애 발생 정보를 포함하는 트레이닝 데이터를 생성하는 데이터 생성부, 그리고 상기 트레이닝 데이터로 장애 예측 모델을 학습시키고, 상기 장애 예측 모델을 이용하여 네트워크 장애와 관련된 시스템 로그 정보 및 고장 신고 정보를 결정하는 장애 예측부를 포함한다.

Description

네트워크 장애 처리 시스템 및 방법{SYSTEM AND METHOD FOR HANDLING NETWORK FAILURE}
본 발명은 시스템 로그(Syslog) 정보 및 고장 신고 정보를 이용하여 네트워크에 발생된 장애를 처리하는 기술에 관한 것이다.
네트워크를 구성하는 네트워크 장비에서 장애가 발생하면, 이를 해결하기 위한 장애 경보가 발생한다. 그러나, 장애 경보가 발생한 모든 상황에서 운용 요원의 현장 투입이 요구되는 것은 아니며, 현장 투입이 필요하다고 판단되어 운용 요원이 출동한 경우에도 해당 장애에 대한 사전 정보가 부족한 상태에서 현장에 파견되어 네트워크 장치를 직접 살펴보고 장애의 원인을 판단해야 하기 때문에, 장애에 대한 효율적인 처리가 어렵다는 문제가 있다.
이를 해결하기 위해 기존 특허들은 네트워크 장비들로부터 수신한 시스템 로그 정보를 이용하나, 다음과 같은 한계가 존재한다. 구체적으로, 한국 등록 특허 제10-02466060 및 제10-0908131의 경우, 네트워크 장치로부터 시스템 로그를 수집, 분류 및 분석하여 장애를 감지하거나 예측한다. 하지만, 상기 방법은 전문가에 의해 정의된 룰에 기반한 통계적 수치 분석에 의존하기 때문에 단순히 사전 징후를 파악할 수 있는 장애에 대해서만 선제적 조치를 취할 수 있다는 한계가 있다. 따라서, HW 고장, SW 오동작 등 다양한 네트워크 장애 원인에 대해서는 사전 파악이 힘들고 선제적 조치 및 예방이 어렵다.
이와 달리, 한국 공개 특허 제10-2015-0097351의 경우 수집된 장애 정보를 분석하여 장애 이벤트를 생성하고 장애 조치 방안을 제안한다. 그러나, 상기 방법은 기존에 수집된 장애 정보 분석에만 의존하는바, 기 발생한 장애에 대해서만 운용 요원에게 조치 방법을 제안할 수 있다는 한계가 있다.
본 발명이 해결하고자 하는 과제는 네트워크 장비로부터 수신한 시스템 로그 정보, 장애 발생 정보, 장애 발생시 고객으로부터 수집한 고장 신고 정보 및 조치 정보를 학습하여, 통신망 운용 중 네트워크 장비로부터 수신한 시스템 로그 정보를 통해 장애의 징후를 감지하고, 장애 발생시 운용 요원이 선제적 조치가 가능하도록 의사결정을 지원하는 시스템 및 방법을 제공하는 것이다.
본 발명의 일 실시예에 따른 네트워크 장애 처리 시스템은 네트워크 장비들의 시스템 로그(Syslog) 정보의 맥락 정보에 벡터화 알고리즘을 적용하여 맥락 벡터를 생성하고, 상기 네트워크 장비들을 포함하는 네트워크에 대한 고장 신고 정보에 벡터화 알고리즘을 적용하여 워드 벡터를 생성하고, 상기 맥락 벡터, 상기 워드 벡터 및 상기 네트워크 장비들의 장애 발생 정보를 포함하는 트레이닝 데이터를 생성하는 데이터 생성부, 그리고 상기 트레이닝 데이터로 장애 예측 모델을 학습시키고, 상기 장애 예측 모델을 이용하여 네트워크 장애와 관련된 시스템 로그 정보 및 고장 신고 정보를 결정하는 장애 예측부를 포함한다.
상기 데이터 생성부는 각 네트워크 장비로부터 수신한 응답 메시지에 기초하여 상기 네트워크 장비들의 장애 발생 정보를 결정한다.
상기 장애 예측부는 상기 장애 예측 모델이 학습된 이후에 수신한 시스템 로그 정보의 맥락 벡터 및 고장 신고 정보의 워드 벡터를 이용하여 상기 장애 예측 모델을 재학습 시키고, 재학습 결과 생성된 맥락 벡터 및 워드 벡터의 원소값을 이용하여 상기 네트워크 장애와 관련된 시스템 로그 정보 및 고장 신고 정보를 결정한다.
본 발명의 일 실시예에 따른 네트워크 장애 처리 시스템은 상기 결정된 시스템 로그 정보, 고장 신고 정보 및 조치 정보를 트레이닝 데이터로 하여 조치 방법 추천 모델을 학습시키는 조치 방법 추천부를 더 포함한다.
상기 조치 방법 추천부는 상기 조치 방법 추천 모델이 학습된 이후에 수신한 시스템 로그 정보 및 고장 신고 정보를 상기 조치 방법 추천 모델에 입력하여 상기 시스템 로그 정보 및 상기 고장 신고 정보에 대한 하나 이상의 조치 방법들을 결정한다.
본 발명에 따르면, 기존에 통계적 수치 분석에 의존한 방식에서 단순히 기 발생한 장애에 대해서만 예측이 가능한 문제점을 해결할 수 있다.
또한, 본 발명에 따르면, 운용요원에게 장애와 연관성이 높은 네트워크 장비에 대한 선제적 조치 방법을 제안할 수 있어 효율적인 장애 처리가 가능하다.
또한, 본 발명에 따르면, 시스템 로그 정보, 고장 신고 정보, 장애 정보 및 조치 정보를 지속적으로 수신하여 학습 모델을 업데이트 할 수 있어 시스템의 안전성 확보가 가능하다.
또한, 본 발명에 따르면, 고객으로부터 수집된 고장 신고 정보를 사용하여 장애 분류 및 예측을 수행하는바, 서비스 품질 유지가 가능하다.
도 1은 본 발명의 한 실시예에 따른 네트워크 장애 처리 시스템이 구현되는환경을 도시한 도면이다.
도 2는 본 발명의 한 실시예에 따른 네트워크 장애 처리 시스템(200)의 구조도이다.
도 3은 본 발명의 한 실시예에 따른 데이터 생성부가 생성한 예시적인 맥락 벡터 및 워드 벡터를 도시한 도면이다.
도 4는 본 발명의 한 실시예에 따른 장애 예측부가 장애 예측 모델을 이용하여 네트워크 장애와 연관성이 큰 시스템 로그 및 고장 신고 정보를 결정하는 방법을 설명한 도면이다.
도 5는 본 발명의 한 실시예에 따른 장애 예측부에 의해 재학습된 결과 생성된 맥락 벡터 및 워드 벡터를 각각 도시한 도면이다.
도 6은 본 발명의 한 실시예에 따른 조치 방법 추천부가 조치 방법 추천 모델을 생성하고, 조치 방법을 추천하는 방법을 설명한 도면이다.
도 7은 본 발명의 한 실시예에 따른 네트워크 장애 처리 시스템이 네트워크 장애에 대한 조치 방법을 추천하는 방법을 설명하는 도면이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 한 실시예에 따른 네트워크 장애 처리 시스템이 구현되는환경을 도시한 도면이다.
도 1을 참고하면, 네트워크(100)는 복수의 네트워크 장비들(110 내지 113)로 구성되며, 복수의 네트워크 장비들(110 내지 113) 각각은 네트워크 장애 처리 시스템(200)으로 시스템 로그 정보를 전송한다.
복수의 네트워크 장비들(110 내지 113)은 Syslog를 지원하는 네트워크 장비이면 되고, 장비의 종류 및 유형은 제한되지 않는다. 예를 들면, 복수의 네트워크 장비들(110 내지 113)은 네트워크(100)를 구성하는 라우터, 게이트웨이, 스위치 또는 허브일 수 있다.
네트워크 장애 처리 시스템(200)은 복수의 네트워크 장비들(110 내지 113)로부터 수신한 시스템 로그 정보, 장애 발생 정보, 장애 발생시 고객으로부터 수집한 고장 신고 정보 및 조치 정보를 포함하는 트레이닝 데이터로 네트워크(100)의 장애 예측 모델을 학습시킨다.
네트워크 장애 처리 시스템(200)은 장애 예측 모델을 이용하여 네트워크 장애와 관련성이 높은 시스템 로그 정보 및 고장 신고 정보를 결정한다.
또한, 네트워크 장애 처리 시스템(200)은 결정된 시스템 로그 정보, 고장 신고 정보 및 조치 정보를 트레이닝 데이터로 하여 조치 방법 추천 모델을 학습시키고, 학습된 조치 방법 추천 모델을 이용하여 의사결정을 지원하는 정보를 운용 요원에게 제공한다.
도 2는 본 발명의 한 실시예에 따른 네트워크 장애 처리 시스템(200)의 구조도이고, 도 3은 본 발명의 한 실시예에 따른 데이터 생성부가 생성한 예시적인 맥락 벡터 및 워드 벡터를 도시한 도면이고, 도 4는 본 발명의 한 실시예에 따른 장애 예측부가 장애 예측 모델을 이용하여 네트워크 장애와 연관성이 큰 시스템 로그 및 고장 신고 정보를 결정하는 방법을 설명한 도면이고, 도 5는 본 발명의 한 실시예에 따른 장애 예측부에 의해 재학습된 결과 생성된 맥락 벡터 및 워드 벡터를 각각 도시한 도면이고, 도 6은 본 발명의 한 실시예에 따른 조치 방법 추천부가 조치 방법 추천 모델을 생성하고, 조치 방법을 추천하는 방법을 설명한 도면이다.
도 2를 참고하면, 네트워크 장애 처리 시스템(200)은 데이터 생성부(210), 장애 예측부(220) 및 조치 방법 추천부(230)를 포함한다.
데이터 생성부(210)는 네트워크(100)를 구성하는 네트워크 장비들(110 내지 130)으로부터 수신한 시스템 로그 정보의 맥락 벡터, 네트워크(100)에 대한 고장 신고 정보의 워드 벡터 및 네트워크 장비들(110 내지 130)의 장애 발생 정보를 포함하는 트레이닝 데이터를 생성하며, 이 경우 지도 학습을 위해 맥락 벡터 및 워드 벡터에는 해당 벡터의 장애 발생 정보가 매핑된다.
구체적으로, 데이터 생성부(210)는 네트워크 장비들(110 내지 130)로부터 수신한 시스템 로그 정보를 딥러닝(Deep learning) 모형이 학습할 수 있도록 시스템 로그 정보의 맥락 정보를 추출하고, 추출한 맥락 정보에 대해 벡터화 알고리즘을 이용하여 맥락 벡터로 표현한다.
여기서, 맥락 벡터는 시스템 로그 정보의 맥락 정보를 나타내는 벡터를 지칭한다.
데이터 생성부(210)는 Word2Vector 또는 Glove 기반의 벡터화 알고리즘을 이용하여 네트워크 장비로부터 수신한 시스템 로그 정보의 맥락 정보를 벡터화할 수 있다. 예를 들면, 도 3을 참고하면, 데이터 생성부(210)는 시스템 로그 정보에서 추출된 맥락 정보 "Timestamp", "IP", "Hostname", "Summary" 및 "Description" 각각에 3차원의 벡터를 할당하여 맥락 벡터를 생성할 수 있다.
이 경우, 생성된 맥락 벡터는 시스템 로그 정보의 시퀀스 정보를 포함한다.
이후, 데이터 생성부(210)는 장애 발생 정보를 결정하고 시스템 로그 정보의 맥락 벡터에 결정된 장애 발생 정보를 매핑한다.
구체적으로, 데이터 생성부(210)는 미리 설정된 시간마다 네트워크 장비들(110 내지 130)로 응답 요청 메시지를 전송하고, 응답 메시지의 수신 여부에 따라 네트워크 장비들(110 내지 130)의 장애 발생 정보를 결정하고, 해당 네트워크 장비의 맥락 벡터와 매핑한다.
데이터 생성부(210)는 특정 시간에 대하여 네트워크 장비들(110 내지 130)로부터 응답 메시지를 수신한 경우, 해당 시간대의 네트워크 장비들(110 내지 130) 각각으로부터 수신한 시스템 로그 정보의 맥락 벡터에 대해 "정상" 장애 발생 정보를 매핑한다.
또한, 데이터 생성부(210)는 특정 네트워크 장비로부터 응답 메시지를 수신하지 못한 경우에도 실제 운용 요원의 조치가 이루어지지 않았을 경우 "정상" 장애 발생 정보를 해당 네트워크 장비로부터 수신한 시스템 로그 정보의 맥락 벡터와 매핑한다.
반대로, 데이터 생성부(210)는 실제 운용 요원의 조치가 이루어졌을 경우 "비정상" 장애 발생 정보 및 실제 운용 요원이 수행한 조치 방법을 나타내는 조치 정보를 추가로 매핑한다. 이 경우, 데이터 생성부(210)는 해당 조치 정보를 별도의 관리 서버(미도시)에서 수신할 수 있다.
데이터 생성부(210)는 고장 신고 정보에 대해서도 딥러닝(Deep learning) 모형이 학습할 수 있도록 워드 벡터로 표현하고, 워드 벡터에 장애 발생 정보를 매핑한다.
여기서, 고장 신고 정보는 네트워크(100)에 대한 고객의 의견 정보를 지칭하며, 고객으로부터 다양한 방식에 의해 수집되어 별도의 데이터베이스(미도시)에 저장될 수 있다. 데이터 생성부(210)는 상기 데이터베이스에 접근하여 고장 신고 정보를 액세스할 수 있다. 또한, 워드 벡터는 고장 신고 정보에 대해 벡터화 알고리즘을 사용하여 고장 신고 정보를 표현한 벡터를 지칭한다.
예를 들면, 도 3을 참고하면, 데이터 생성부(210)는 고장 신고 정보 "자주 인터넷이 끊겼어요"의 각 형태소마다 3차원의 벡터를 할당하여 워드 벡터를 생성할 수 있다.
또한, 데이터 생성부(210)는 시스템 로그 정보의 맥락 벡터와 동일한 방식으로, 고장 신고 정보의 워드 벡터에 대해 "정상" 장애 발생 정보 또는 "비정상" 장애 발생 정보를 매핑한다.
장애 예측부(220)는 데이터 생성부(210)가 생성한 데이터를 트레이닝 데이터로 하여 딥러닝 알고리즘을 통해 네트워크(100)의 장애 예측 모델을 생성한다.
예를 들면, 장애 예측부(220)는 데이터 생성부(210)가 생성한 데이터를 초기 입력 값으로 사용하여 관심-재귀신경망(Attention-Based Long Short-Term Memory Network, Attention-Based LSTM Network) 모델을 학습할 수 있다. 관심-재귀신경망을 사용하여 학습 모델을 생성하는 방법은 공지된 기술인바, 본 명세서에서는 자세한 설명을 생략한다.
장애 예측부(220)는 장애 예측 모델을 이용하여 네트워크 장애와 관련된 시스템 로그 정보의 맥락 벡터 및 고장 신고 정보의 워드 벡터를 결정한다.
예를 들면, 도 4를 참고하면, 장애 예측부(220)는 특정 시간에 수신한 시스템 로그 정보의 맥락 벡터와 고장 신고 정보의 워드 벡터를 관심-재귀신경망을 기반으로 생성된 장애 예측 모델의 히든 레이어로 구성하고, 이미 학습된 관심 레이어들의 가중치들과 재학습을 수행할 수 있다.
도 5는 재학습 결과 생성된 맥락 벡터 및 워드 벡터를 각각 도시한 도면이다.
도 5를 참고하면, 재학습 결과 생성된 맥락 벡터 및 워드 벡터의 원소값은 네트워크 장애와의 관련도를 의미한다. 즉, 재학습 결과 생성된 맥락 벡터 및 워드 벡터의 원소값이 크면 클수록 해당 맥락 벡터와 관련된 시스템 로그 정보 및 해당 워드 벡터와 관련된 고장 신고 정보는 네트워크 장애와 관련도가 높은 것을 의미한다.
장애 예측부(220)는 재학습 결과 생성된 맥락 벡터 및 워드 벡터의 원소값을 이용하여 네트워크 장애와 관련된 시스템 로그 정보 및 고장 신고 정보를 결정한다.
예를 들면, 장애 예측부(220)는 재학습 결과 생성된 맥락 벡터 및 워드 벡터의 원소값 중에서 가장 높은 원소값을 가진 맥락 벡터 및 워드 벡터를 결정할 수 있으며, 상기 맥락 벡터의 시스템 로그 정보 및 상기 워드 벡터의 고장 신고 정보를 네트워크 장애와 관련된 시스템 로그 정보 및 고장 신고 정보로서 결정할 수 있다.
다른 실시예에서, 장애 예측부(220)는 장애 예측 모델이 생성된 이후 네트워크 장비들(110 내지 130)로부터 수신한 시스템 로그 정보의 맥락 벡터 및 별도의 데이터베이스로부터 수신한 고장 신고 정보의 워드 벡터를 장애 예측 모델에 입력하여 네트워크(100) 내 장애 발생 여부를 결정한다.
이 경우, 장애 예측부(220)는 시스템 로그 정보의 맥락 벡터 중 장애 정보와 관련이 높은 "Summary" 및/또는 "Description"부분을 중심으로 벡터간 유사도를 판단할 수 있다. 예를 들면, 장애 예측부(220)는 장애가 발생한 경우의 시스템 로그 정보의 맥락 벡터와 장애 예측 모델이 생성된 이후 수신한 시스템 로그 정보의 맥락 벡터를 비교시 "Summary" 및/또는 "Description"부분을 중심으로 코사인 유사도 알고리즘을 사용하여 벡터 간 유사도를 결정할 수 있다.
장애 예측부(220)는 결정된 시스템 로그 정보 및 고장 신고 정보를 운용 요원에게 제공할 수도 있다.
조치 방법 추천부(230)는 장애 예측부(220)에 의해 결정된 시스템 로그 정보, 고장 신고 정보 및 조치 정보를 트레이닝 데이터로 하여 조치 방법 추천 모델을 학습시키고, 학습된 조치 방법 추천 모델을 이용하여 네트워크 장애에 대한 하나 이상의 조치 방법들을 결정한다.
구체적으로, 도 6을 참고하면, 조치 방법 추천부(230)는 재학습 결과 생성된 맥락 벡터 또는 워드 벡터, 및 관리 서버로부터 수신한 조치 정보를 트레이닝 데이터로 하여 딥러닝 알고리즘을 통해 상기 네트워크의 조치 방법 추천 모델을 학습시킨다. 이 경우, 조치 방법 추천부(230)는 조치 정보에 포함된 실제 운용 요원이 수행한 조치 방법을 Softmax classifier 기반의 조치 방법 추천 모델로 학습할 수 있다.
또한, 조치 방법 추천부(230)는 조치 방법 추천 모델을 이용하여, 조치 정보에 포함된 각 조치 방법과 재학습 결과 생성된 맥락 벡터 및 워드 벡터와의 관련도를 결정하고, 각 조치 방법과 이에 대응하는 관련도를 운용 요원에게 제공할 수 있다. 이 경우, 조치 방법 추천부(230)는 softmax 레이어를 통해 각 조치 방법의 관련도를 계산할 수 있고, 관련도가 높은 상위 특정 개수의 조치 방법을 네트워크 장애에 대한 하나 이상의 조치 방법들로서 결정할 수 있다.
도 7은 본 발명의 한 실시예에 따른 네트워크 장애 처리 시스템이 네트워크 장애에 대한 조치 방법을 추천하는 방법을 설명하는 도면이다.
도 7을 참고하면, 네트워크 장애 처리 시스템(200)은 벡터화 알고리즘을 이용하여 시스템 로그 정보의 맥락 벡터 및 고장 신고 정보의 워드 벡터를 생성하고(S100), 생성된 맥락 벡터 및 워드 벡터에 장애 발생 정보를 매핑한다(S110).
구체적으로, 네트워크 장애 처리 시스템(200)은 네트워크 장비들(110 내지 130)로부터 수신한 시스템 로그 정보를 딥러닝(Deep learning) 모형이 학습할 수 있도록 시스템 로그 정보의 맥락 정보를 추출하고, 추출한 맥락 정보에 대해 벡터화 알고리즘을 이용하여 맥락 벡터로 표현한다. 또한, 네트워크 장애 처리 시스템(200)은 고객으로부터 수신한 고장 신고 정보에 대해 벡터화 알고리즘을 이용하여 고장 신고 정보의 워드 벡터를 생성한다.
또한, 네트워크 장애 처리 시스템(200)은 특정 시간에 네트워크 장비들(110 내지 130)로부터 수신한 응답 메시지를 통해 장애 발생 정보를 결정하고, 지도 학습을 위한 트레이닝 데이터를 위해 해당 시간에 수신한 시스템 로그 정보의 맥락 벡터 및 고장 신고 정보의 워드 벡터에 장애 발생 정보를 맵핑한다.
네트워크 장애 처리 시스템(200)은 장애 발생 정보가 맵핑된 시스템 로그 정보의 맥락 벡터 및 고장 신고 정보를 이용하여 장애 예측 모델을 생성한다(S120). 이 경우, 네트워크 장애 처리 시스템(200)은 관심-재귀신경망 모델을 학습할 수 있다.
네트워크 장애 처리 시스템(200)은 장애 예측 모델을 이용하여 네트워크 장애와 관련된 시스템 로그 정보의 맥락 벡터 및 고장 신고 정보의 워드 벡터를 결정한다(S130).
구체적으로, 네트워크 장애 처리 시스템(200)은 장애 예측 모델 생성 이후 수신된 시스템 로그 정보의 맥락 벡터 또는 고장 신고 정보의 워드 벡터를 이용하여, 장애 예측 모델을 재학습 시키며, 재학습 결과 생성된 맥락 벡터 및 워드 벡터 의 원소값을 이용하여 네트워크 장애와의 관련도를 결정한다.
재학습 결과 생성된 맥락 벡터 및 워드 벡터의 원소값이 클수록 네트워크 장애와 관련도가 높은 벡터인바, 네트워크 장애 처리 시스템(200)은 관련도가 높은 특정 순위의 맥락 벡터 또는 워드 벡터를 네트워크 장애와 관련된 맥락 벡터 또는 워드 벡터로서 결정할 수 있다.
네트워크 장애 처리 시스템(200)은 결정된 맥락 벡터, 워드 벡터 및 조치 정보와의 연관성을 학습한다(S140).
구체적으로, 네트워크 장애 처리 시스템(200)은 결정된 맥락 벡터 또는 워드 벡터에 매핑된 조치 정보에 포함된 조치 방법과 해당 맥락 벡터 또는 해당 워드 벡터를 트레이닝 데이터로 하여 딥러닝 알고리즘을 통해 네트워크(100)의 조치 방법 추천 모델을 생성한다.
이후, 네트워크 장애 처리 시스템(200)은 조치 정보에 포함된 각 조치 방법과 이에 대응하는 관련도를 결정한다(S150). 이 경우, 네트워크 장애 처리 시스템(200)은 조치 방법 추천 모델에 따라 각 조치 방법에 대해 관련도를 결정할 수 있으며, 결정한 조치 방법 및 이에 대한 관련도를 운용 요원에게 제공할 수 있다.
본 발명에 따르면, 기존에 통계적 수치 분석에 의존한 방식에서 단순히 기 발생한 장애에 대해서만 예측이 가능한 문제점을 해결할 수 있다.
또한, 본 발명에 따르면, 운용요원에게 장애와 연관성이 높은 네트워크 장비에 대한 선제적 조치 방법을 제안할 수 있어 효율적인 장애 처리가 가능하다.
또한, 본 발명에 따르면, 시스템 로그 정보, 고장 신고 정보, 장애 정보 및 조치 정보를 지속적으로 수신하여 학습 모델을 업데이트 할 수 있어 시스템의 안전성 확보가 가능하다.
또한, 본 발명에 따르면, 고객으로부터 수집된 고장 신고 정보를 사용하여 장애 분류 및 예측을 수행하는바, 서비스 품질 유지가 가능하다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (5)

  1. 네트워크 장애 처리 시스템으로서,
    네트워크 장비들의 시스템 로그(Syslog) 정보의 맥락 정보에 벡터화 알고리즘을 적용하여 맥락 벡터를 생성하고, 상기 네트워크 장비들을 포함하는 네트워크에 대한 고장 신고 정보에 벡터화 알고리즘을 적용하여 워드 벡터를 생성하고, 상기 맥락 벡터, 상기 워드 벡터 및 상기 네트워크 장비들의 장애 발생 정보를 포함하는 트레이닝 데이터를 생성하는 데이터 생성부, 그리고
    상기 트레이닝 데이터로 장애 예측 모델을 학습시키고, 상기 장애 예측 모델을 이용하여 네트워크 장애와 관련된 시스템 로그 정보 및 고장 신고 정보를 결정하는 장애 예측부
    를 포함하는 네트워크 장애 처리 시스템.
  2. 제1항에서,
    상기 데이터 생성부는
    각 네트워크 장비로부터 수신한 응답 메시지에 기초하여 상기 네트워크 장비들의 장애 발생 정보를 결정하는 네트워크 장애 처리 시스템.
  3. 제1항에서,
    상기 장애 예측부는
    상기 장애 예측 모델이 학습된 이후에 수신한 시스템 로그 정보의 맥락 벡터 및 고장 신고 정보의 워드 벡터를 이용하여 상기 장애 예측 모델을 재학습 시키고, 재학습 결과 생성된 맥락 벡터 및 워드 벡터의 원소값을 이용하여 상기 네트워크 장애와 관련된 시스템 로그 정보 및 고장 신고 정보를 결정하는 네트워크 장애 처리 시스템.
  4. 제3항에서,
    상기 결정된 시스템 로그 정보, 고장 신고 정보 및 조치 정보를 트레이닝 데이터로 하여 조치 방법 추천 모델을 학습시키는 조치 방법 추천부
    를 더 포함하는 네트워크 장애 처리 시스템.
  5. 제4항에서,
    상기 조치 방법 추천부는
    상기 조치 방법 추천 모델이 학습된 이후에 수신한 시스템 로그 정보 및 고장 신고 정보를 상기 조치 방법 추천 모델에 입력하여 상기 시스템 로그 정보 및 상기 고장 신고 정보에 대한 하나 이상의 조치 방법들을 결정하는 네트워크 장애 처리 시스템.
KR1020180019500A 2018-02-19 2018-02-19 네트워크 장애 처리 시스템 및 방법 KR102149930B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180019500A KR102149930B1 (ko) 2018-02-19 2018-02-19 네트워크 장애 처리 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180019500A KR102149930B1 (ko) 2018-02-19 2018-02-19 네트워크 장애 처리 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20190099710A true KR20190099710A (ko) 2019-08-28
KR102149930B1 KR102149930B1 (ko) 2020-08-31

Family

ID=67775175

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180019500A KR102149930B1 (ko) 2018-02-19 2018-02-19 네트워크 장애 처리 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102149930B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210026554A (ko) * 2019-08-30 2021-03-10 주식회사 케이티 자가학습에 기초하여 네트워크 장비에 대한 장애를 판단하는 장치, 방법 및 컴퓨터 프로그램
KR20210108340A (ko) * 2021-08-12 2021-09-02 (주)와치텍 언어학적 분석 기법을 이용한 it 인프라 장애 학습 및 분석 시스템

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023041175A1 (en) * 2021-09-17 2023-03-23 Nokia Solutions And Networks Oy Handover control
KR102391510B1 (ko) 2021-11-15 2022-04-27 (주)테온 인공지능 기반 it 인프라 장비의 사전 장애 예측 방법, 장치 및 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160132698A (ko) * 2015-05-11 2016-11-21 삼성에스디에스 주식회사 지능형 시스템 진단 장치 및 방법
KR20170006552A (ko) * 2015-07-08 2017-01-18 주식회사 케이티 통합 장애 관리 시스템 및 그 관리 방법
KR101797400B1 (ko) * 2016-11-30 2017-11-15 울산대학교 산학협력단 확률밀도 기반의 고장 진단 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160132698A (ko) * 2015-05-11 2016-11-21 삼성에스디에스 주식회사 지능형 시스템 진단 장치 및 방법
KR20170006552A (ko) * 2015-07-08 2017-01-18 주식회사 케이티 통합 장애 관리 시스템 및 그 관리 방법
KR101797400B1 (ko) * 2016-11-30 2017-11-15 울산대학교 산학협력단 확률밀도 기반의 고장 진단 방법 및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210026554A (ko) * 2019-08-30 2021-03-10 주식회사 케이티 자가학습에 기초하여 네트워크 장비에 대한 장애를 판단하는 장치, 방법 및 컴퓨터 프로그램
KR20210108340A (ko) * 2021-08-12 2021-09-02 (주)와치텍 언어학적 분석 기법을 이용한 it 인프라 장애 학습 및 분석 시스템

Also Published As

Publication number Publication date
KR102149930B1 (ko) 2020-08-31

Similar Documents

Publication Publication Date Title
KR102118670B1 (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
KR102149930B1 (ko) 네트워크 장애 처리 시스템 및 방법
US11087227B2 (en) Anomaly detection in spatial and temporal memory system
Aslansefat et al. SafeML: safety monitoring of machine learning classifiers through statistical difference measures
US20190268214A1 (en) Predicting issues before occurrence, detection, or reporting of the issues
Gonzalez et al. Root cause analysis of network failures using machine learning and summarization techniques
KR20190107523A (ko) 시스템 로그 정보를 이용하는 네트워크 장애 처리 시스템 및 방법
KR102328842B1 (ko) 설비 관리 방법 및 이를 실행하는 장치
US11556871B2 (en) Systems and methods for escalation policy activation
JP2017021790A (ja) 隠れマルコフモデルの混合を使用する検証および異常検出のためのシステムおよび方法
Sayan et al. Cyber security assistant: Design overview
US11410049B2 (en) Cognitive methods and systems for responding to computing system incidents
Bellini et al. Towards a novel conceptualization of cyber resilience
KR102258206B1 (ko) 이종 데이터 융합을 이용한 이상 강수 감지 학습 장치, 이상 강수 감지 학습 방법, 이종 데이터 융합을 이용한 이상 강수 감지 장치 및 이상 강수 감지 방법
KR20200140999A (ko) 항공기 센서들을 모델링하기 위한 데이터 기반 기계 학습
Gheibi et al. Dealing with drift of adaptation spaces in learning-based self-adaptive systems using lifelong self-adaptation
Svensson et al. Correlation of intrusion alarms with subjective logic
JP7215574B2 (ja) 監視システム、監視方法及びプログラム
Ibrishimova et al. Automating incident classification using sentiment analysis and machine learning
Harutyunyan et al. Challenges and experiences in designing interpretable KPI-diagnostics for cloud applications
Theodosiadou et al. Real‐time threat assessment based on hidden Markov models
US20200134528A1 (en) Systems and methods for coordinating escalation policy activation
Ding et al. Backward inference in bayesian networks for distributed systems management
Miguelanez-Martin et al. Embedded intelligence supporting predictive asset management in the energy sector
Kumar et al. Trust Evaluation-based Machine Learning for WSNs

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant