KR102376349B1

KR102376349B1 - 자동 패킷 분석 기반의 네트워크 장애 자동 해결 장치 및 그 방법

Info

Publication number: KR102376349B1
Application number: KR1020210080081A
Authority: KR
Inventors: 김신규; 오현세
Original assignee: (주)소울시스템즈
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2022-03-18
Also published as: WO2022270805A1

Abstract

본 발명은 자동 패킷 분석 기반의 네트워크 장애 자동 해결 장치 및 그 방법을 제공하기 위한 것으로, 네트워크 상태에 대한 패킷 정보를 수집하고 분석된 데이터를 통해 특정 영역의 장애 여부를 자동으로 판단하고 네트워크 장애를 자동으로 해결하여, 다양하고 복잡한 네트워크 이슈(성능, 장애 등)에 대해 한 번의 클릭으로 정확하고 빠른 원인 파악 및 해결을 위한 가이드를 제공하고, 네트워크 운영자 누구나 쉽고 편리하게 네트워크를 관리할 수 있게 하며, 정보 수집 및 분석 기능으로 다양한 시스템과 연동하여 사용자 요구 맞춤형 커스터마이징된 네트워크 관리 서비스를 제공할 수 있다.

Description

자동 패킷 분석 기반의 네트워크 장애 자동 해결 장치 및 그 방법{Apparatus and method for automatically solving network failures based on automatic packet}

본 발명은 지능형 네트워크 관리 시스템에 관한 것으로, 특히 네트워크 상태에 대한 패킷 정보를 수집하고 분석된 데이터를 통해 특정 영역의 장애 여부를 자동으로 판단하고 네트워크 장애를 자동으로 해결하여, 다양하고 복잡한 네트워크 이슈(성능, 장애 등)에 대해 한 번의 클릭으로 정확하고 빠른 원인 파악 및 해결을 위한 가이드를 제공하고, 네트워크 운영자 누구나 쉽고 편리하게 네트워크를 관리할 수 있게 하며, 정보 수집 및 분석 기능으로 다양한 시스템과 연동하여 사용자 요구 맞춤형 커스터마이징된 네트워크 관리 서비스를 제공하기에 적당하도록 한 자동 패킷 분석 기반의 네트워크 장애 자동 해결 장치 및 그 방법에 관한 것이다.

일반적으로 지능형 네트워크 기술은 지능 기반의 4차 산업혁명 및 혁신성장을 위해 공통으로 사용될 네트워크 및 인프라 기술들을 총칭하며, 세부적으로는 SDN(Software-Defined Networking), NFV(Network Functions Virtualization), 네트워크 지능 기술, 저지연/시간-확정형 네트워크 기술, 양자정보통신 기술, 네트워크 구조 기술, 전달망 기술, 유무선 액세스 기술 등을 포괄적으로 포함한다.

또한 네트워크 지능화 기술은 데이터의 자동 수집, 기계학습과 같은 인공지능 기술을 활용한 자율 의사 결정을 위한 피드백 등 일련의 절차를 반복하는 방식을 통해 네트워크 종단간 (재)설정, 제어, 관리 및 오케스트레이션 등의 기능을 자동적으로 수행하는 기술을 말한다.

이러한 지능형 네트워크의 의미는 시간이 지남에 따라 진화하고 있으며 주로 계산 및 알고리즘의 획기적인 발전으로 이어지고 있다.

종래기술로는 대한민국 등록특허 제 10-1998863 호의 '네트워크 장비의 통신장애관리와 유지관리를 위한 시스템', 대한민국 등록특허 제 10-2133001 호의 '네트워크 관리 장치, 네트워크 관리 시스템 및 네트워크 관리 방법' 등이 개시된 바 있다.

네트워크가 중단되면 비즈니스의 중단으로 직결된다. 또한 네트워크 성능저하로 인한 업무처리 지연은 조직의 직접적인 손실로 연결된다. 네트워크가 한 번 중단될 경우의 평균 손실액은 미국의 경우 미화 402,542달러에 달한다고 답했다.(출처 : The Rise of AIOps: How Data, Machine Learning, and AI Will Transform Performance Monitoring, Appdynamics News, 2018.12.17.) 따라서 네트워크 중단 상황을 최소화할 필요가 있다.

네트워크의 성능을 평가하는 업타임 인스티튜트(Uptime Institute)는 공개적으로 보고된 네트워크 가동 정지 사례를 연구해왔다. 이를 보면, IT 장애 중 네트워크 장애는 2017년 19%에서 2018년 32%로 대폭 증가하였다. 따라서 네트워크 중단사태 발생 시 신속한 원인추적 및 해결방안을 제시할 수 있는 기술이 요구된다.

종래의 네트워크 관리는 NMS(Network Management System), TMS(Traffic Management System), DPI(Data Packet Inspector) 및 패킷 분석기(Packet Analyzer) 등이 있다.

그러나 장비 및 회선 모니터링 중심의 NMS(Network Management System)는 복잡하게 얽힌 네트워크 이슈 해결에 한계가 있다. 또한 네트워크 트래픽 관리를 위한 TMS(Traffic Management System)는 페이로드(Payload)에 대한 심층분석을 지원하지 못하는 한계가 있다. 또한 DPI(Data Packet Inspector) 및 패킷 분석기(Packet Analyzer)는 매우 복잡하고 어려워 사용이 불편하며 고도의 전문성 필요로 하는 문제점이 있다.

KR

10-1998863

B1

KR

10-2133001

B1

이에 본 발명은 상기와 같은 종래의 제반 문제점을 해결하기 위해 제안된 것으로, 본 발명의 목적은 네트워크 상태에 대한 패킷 정보를 수집하고 분석된 데이터를 통해 특정 영역의 장애 여부를 자동으로 판단하고 네트워크 장애를 자동으로 해결하여, 다양하고 복잡한 네트워크 이슈(성능, 장애 등)에 대해 한 번의 클릭으로 정확하고 빠른 원인 파악 및 해결을 위한 가이드를 제공하고, 네트워크 운영자 누구나 쉽고 편리하게 네트워크를 관리할 수 있게 하며, 정보 수집 및 분석 기능으로 다양한 시스템과 연동하여 사용자 요구 맞춤형 커스터마이징된 네트워크 관리 서비스를 제공할 수 있는 자동 패킷 분석 기반의 네트워크 장애 자동 해결 장치 및 그 방법을 제공하는 데 있다.

도 1은 본 발명의 일 실시예에 의한 자동 패킷 분석 기반의 네트워크 장애 자동 해결 장치의 개념도이다.

이에 도시된 바와 같이, 네트워크의 관리를 수행하는 지능형 네트워크 관리 시스템(100)의 네트워크 장애 자동 해결 장치(110)에 있어서, 상기 네트워크 장애 자동 해결 장치(110)에서 네트워크 상태에 대한 패킷 정보를 수집하고 분석된 데이터를 통해 특정 영역의 장애 여부를 자동으로 판단하고 네트워크 장애를 자동으로 해결하여, 다양하고 복잡한 네트워크 이슈에 대해 한 번의 클릭으로 정확하고 빠른 원인 파악 및 해결을 위한 가이드를 제공하고, 네트워크 운영자 누구나 쉽고 편리하게 네트워크를 관리할 수 있게 하며, 정보 수집 및 분석 기능으로 다양한 시스템과 연동하여 사용자 요구 맞춤형 커스터마이징된 네트워크 관리 서비스를 제공하도록 제어하는 제어부(120)와; 상기 제어부(120)의 제어를 받고, 데이터 센터의 네트워크 장비(210) 또는 원격 지능형 네트워크 관리 장치(220)로부터 패킷 데이터를 네트워크 인터페이스 카드(Network Interface Card, NIC)를 통해 수신하고, 수신한 패킷 데이터를 하나의 데이터 스트림으로 묶어 정보묶음을 생성하기 위해 필요한 원시 데이터(raw data)를 생성하고, 원시 패킷 저장 버퍼에 저장하여, 상기 데이터 센터(210) 또는 상기 원격 지능형 네트워크 관리 장치(220)의 네트워크 패킷, SNMP TRAP, SYSLOG 정보를 포함한 데이터를 측정하는 패킷 캡쳐부(130)와; 상기 제어부(120)의 제어를 받고, 상기 패킷 캡쳐부(130)에서 수집한 패킷에 대한 메타데이터를 생성하고, 메타데이터에는 패킷 확인 시간, 패킷 크기, 세션 ID, 패킷 크기, MAC address 및 TCP 정보가 포함되며, 세션 정보묶음, BPS 정보묶음, PPS 정보묶음, RTT 정보묶음, 타임아웃 정보묶음, TCP 정보묶음, Remarks 정보묶음 및 이벤트 정보묶음을 생성하고, 각 정보묶음의 종류별로 동시에 데이터를 압축하여 저장하는 정보묶음 생성부(140)와; 상기 제어부(120)의 제어를 받고, 정보묶음 생성부(140)에서 생성된 정보묶음을 전달받고, 네트워크 관리에 필요한 성능지표를 생성하고, 성능지표에는 기본 성능지표와 추가 성능지표를 생성하는 성능지표 생성부(150)와; 상기 제어부(120)의 제어를 받고, 상기 성능지표 생성부(150)에서 생성한 성능지표를 바탕으로 정보묶음에서 사용할 정보 종류를 선택한 다음 네트워크의 성능을 분석하여 성능지표 분석결과를 생성하는 성능지표 분석부(160)와; 상기 성능지표 분석부(160)의 분석결과를 이용하여 특정 영역의 장애 여부를 자동으로 판단하고 네트워크 장애를 자동으로 해결하는 네트워크 장애처리부(170);를 포함하여 구성된 것을 특징으로 한다.

도 2는 도 1에서 본 발명이 적용되는 예를 보인 개념도이다.

이에 도시된 바와 같이, 상기 네트워크 장애처리부(170)는, 만약 네트워크의 장애라고 판단될 경우 권고사항을 제시하거나 스스로 네트워크를 제어하고, 만약 스스로 네트워크를 제어하지 못하거나 내용을 허가받지 못한 경우 권고사항 형태로 해결방안을 제시하며, 만약 스스로 네트워크를 제어할 수 있는 경우 SSH로 접속하여 원격 shell command를 사용하여 네트워크의 특정 장비에 접속하여 설정 변경 또는 재부팅을 수행하는 것을 특징으로 한다.

상기 네트워크 장애처리부(170)는, 만약 네트워크에서 특정 hop을 거칠 경우 갑자기 속력이 느려지는 경우에는 해당 hop에서 packet loop이 예상된다고 판단하고, '케이블 배선 확인'이라는 권고사항을 전달하고; 만약 매일 특정 시간대만 되면 네트워크의 서비스가 느려지는 경우, NetFlow가 발견한 특정 위치에 대해서 QoS 적용하여 별도의 QoS 장비 또는 스위치에 접속하고, QoS 기능을 이용하여 해당 위치로부터 서버 요청이 폭주하지 않도록 트래픽의 총량을 조정하여 네트워크 장애를 자동 처리하고, 요청이 시간대별로 분산되도록 클라이언트의 네트워크 접속 시간을 조정하도록 권고하고, 필요한 추가 대역폭에 대한 제안을 포함하여 서버 및 네트워크 증설을 권고하는 것을 특징으로 한다.

도 3은 본 발명의 일 실시예에 의한 자동 패킷 분석 기반의 네트워크 장애 자동 해결 방법을 보인 흐름도이다.

이에 도시된 바와 같이, 지능형 네트워크 관리 시스템(100)의 네트워크 장애 자동 해결 장치(110)에서 네트워크 장애에 대한 자동 해결을 수행하면, 패킷 캡쳐부(130)는 데이터 센터의 네트워크 장비(210)에 대한 NetFlow 정보를 샘플링하거나 또는 원격 지능형 네트워크 관리 장치(220)로부터 패킷 데이터를 네트워크 인터페이스 카드(Network Interface Card, NIC)를 통해 수신하고, 수신한 패킷 데이터를 하나의 데이터 스트림으로 묶어 정보묶음을 생성하기 위해 필요한 원시 데이터(raw data)를 생성하고, 원시 패킷 저장 버퍼에 저장하여, 상기 데이터 센터(210) 또는 상기 원격 지능형 네트워크 관리 장치(220)의 네트워크 패킷, SNMP TRAP, SYSLOG 정보를 포함한 데이터를 측정하는 패킷 캡쳐단계(ST1)와; 상기 패킷 캡쳐단계 후, 정보묶음 생성부(140)는 수집한 패킷에 대한 메타데이터를 생성하고, 메타데이터에는 패킷 확인 시간, 패킷 크기, 세션 ID, 패킷 크기, MAC address 및 TCP 정보가 포함되며, 세션 정보묶음, BPS 정보묶음, PPS 정보묶음, RTT 정보묶음, 타임아웃 정보묶음, TCP 정보묶음, Remarks 정보묶음 및 이벤트 정보묶음을 생성하고, 각 정보묶음의 종류별로 동시에 데이터를 압축하여 저장하는 정보묶음 생성단계(ST2)와; 상기 정보묶음 생성단계 후, 성능지표 생성부(150)는 생성된 정보묶음을 전달받고, 네트워크 관리에 필요한 성능지표를 생성하고, 성능지표에는 기본 성능지표와 추가 성능지표를 생성하는 성능지표 생성단계(ST3)와; 상기 성능지표 생성단계 후, 성능지표 분석부(160)는 생성한 성능지표를 바탕으로 정보묶음에서 사용할 정보 종류를 선택한 다음 네트워크의 성능을 분석하여 성능지표 분석결과를 생성하는 성능지표 분석단계(ST4)와; 상기 성능지표 분석단계 후 네트워크 장애처리부(170)는 분석결과를 이용하여 특정 영역의 장애 여부를 자동으로 판단하고 네트워크 장애를 자동으로 해결하는 네트워크 장애처리단계(ST5);를 포함하여 수행하는 것을 특징으로 한다.

도 4는 도 3에서 네트워크 장애처리의 상세 흐름도이다.

이에 도시된 바와 같이, 상기 네트워크 장애처리단계는, NetFlow 정보와 패킷 정보를 분석한 데이터를 통해 특정 영역의 장애 여부를 판단하고, 어떤 장애처리를 수행할 것인지 판별하는 장애처리 판별단계(ST11, ST12)와; 상기 장애처리 판별단계에서 만약 네트워크의 장애라고 판단될 경우 권고사항을 제시하거나 스스로 네트워크를 제어하고, 만약 스스로 네트워크를 제어하지 못하거나 내용을 허가받지 못한 경우 권고사항 형태로 해결방안을 제시하며, 만약 스스로 네트워크를 제어할 수 있는 경우 SSH로 접속하여 원격 shell command를 사용하여 네트워크의 특정 장비에 접속하여 설정 변경 또는 재부팅을 수행하고, 네트워크 장애처리 결과를 제공하는 장애처리 수행단계(ST13, ST14);를 포함하여 수행하는 것을 특징으로 한다.

본 발명에 의한 자동 패킷 분석 기반의 네트워크 장애 자동 해결 장치 및 그 방법은 네트워크 상태에 대한 패킷 정보를 수집하고 분석된 데이터를 통해 특정 영역의 장애 여부를 자동으로 판단하고 네트워크 장애를 자동으로 해결하여, 다양하고 복잡한 네트워크 이슈(성능, 장애 등)에 대해 한 번의 클릭으로 정확하고 빠른 원인 파악 및 해결을 위한 가이드를 제공하고, 네트워크 운영자 누구나 쉽고 편리하게 네트워크를 관리할 수 있게 하며, 정보 수집 및 분석 기능으로 다양한 시스템과 연동하여 사용자 요구 맞춤형 커스터마이징된 네트워크 관리 서비스를 제공할 수 있는 효과가 있다.

또한 본 발명은 정보 수집에서 분석, 진단, 결과까지 하나의 시스템에서 운영(All-In-One)이 가능하고, 운영환경에 맞는 최적 시스템 선택 옵션 제공(Portable, Rack Mount, Rugged PC, Cloud 등)이 가능하며, 사전 설정작업 없이 즉시 사용(Zero Configuration)이 가능해진다.

또한 본 발명은 일반 NIC(Network Interface Controller)를 이용한 패킷수집기술로 벤더에 의존하지 않는 장점이 있으며, L7 프로토콜 자동분류엔진 내재화로 사용자 환경에 영향받지 않는 장점이 있고, EMS, SIEM, NMS 등과 연동(Rest API) 가능한 장점이 있으며, 사용자 요구에 따른 커스터마이징 서비스가 가능한 효과가 있다.

또한 본 발명은 동일 목적의 외국산 솔루션 가격 대비 약 1/4으로 저렴하면서, 동시에 MTTR(Mean time to repair, 평균장애복구시간)을 1/5 이상 줄여준 효과가 있다. 종래 기술은 시스템 설정정보 수집, 분석, 보고서 작성 문제 해결까지 약 1~2주의 시간이 소요된다. 반면 본 발명은 정보 수집, 분석, 보고서 작성, 문제 해결까지 약 2~3일 이내에 처리 가능한 장점이 있다. (여기서 문제해결 총 소요시간은 일반적 경험 값이며 문제 속성에 따라 다를 수 있다.) 본 발명은 네트워크 정보 수집을 위한 사전 준비(설정) 시간을 단축할 수 있으며, 분석을 통한 문제원인 확인 시간을 단축할 수 있다. 또한 문제 해결을 위한 조치 및 복구 시간을 단축할 수 있다. 또한 최종 보고서 작성시간을 단축할 수 있다.

또한 종래 기술의 경우, 네트워크 관리를 위해서 네트워크 및 솔루션 운영 전문가가 반드시 필요함에 반해, 본 발명은 초급 네트워크 엔지니어에 의해서도 운영이 가능한 장점이 있다.

도 1은 본 발명의 일 실시예에 의한 자동 패킷 분석 기반의 네트워크 장애 자동 해결 장치의 개념도이다.
도 2는 도 1에서 본 발명이 적용되는 예를 보인 개념도이다.
도 3은 본 발명의 일 실시예에 의한 자동 패킷 분석 기반의 네트워크 장애 자동 해결 방법을 보인 흐름도이다.
도 4는 도 3에서 네트워크 장애처리의 상세 흐름도이다.

이와 같이 구성된 본 발명에 의한 자동 패킷 분석 기반의 네트워크 장애 자동 해결 장치 및 그 방법의 바람직한 실시예를 첨부한 도면에 의거하여 상세히 설명하면 다음과 같다. 하기에서 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서, 이는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있으며, 이에 따라 각 용어의 의미는 본 명세서 전반에 걸친 내용을 토대로 해석되어야 할 것이다.

먼저 본 발명은 네트워크 상태에 대한 패킷 정보를 수집하고 분석된 데이터를 통해 특정 영역의 장애 여부를 자동으로 판단하고 네트워크 장애를 자동으로 해결하여, 다양하고 복잡한 네트워크 이슈(성능, 장애 등)에 대해 한 번의 클릭으로 정확하고 빠른 원인 파악 및 해결을 위한 가이드를 제공하고, 네트워크 운영자 누구나 쉽고 편리하게 네트워크를 관리할 수 있게 하며, 정보 수집 및 분석 기능으로 다양한 시스템과 연동하여 사용자 요구 맞춤형 커스터마이징된 네트워크 관리 서비스를 제공하고자 한 것이다.

네트워크의 관리를 수행하는 지능형 네트워크 관리 시스템(100)의 네트워크 장애 자동 해결 장치(110)는 제어부(120), 패킷 캡쳐부(130), 정보묶음 생성부(140), 성능지표 생성부(150), 성능지표 분석부(160), 네트워크 장애처리부(170)를 포함하여 구성될 수 있다.

제어부(120)는 네트워크 장애 자동 해결 장치(110)에서 네트워크 상태에 대한 패킷 정보를 수집하고 분석된 데이터를 통해 특정 영역의 장애 여부를 자동으로 판단하고 네트워크 장애를 자동으로 해결하여, 다양하고 복잡한 네트워크 이슈에 대해 한 번의 클릭으로 정확하고 빠른 원인 파악 및 해결을 위한 가이드를 제공하고, 네트워크 운영자 누구나 쉽고 편리하게 네트워크를 관리할 수 있게 하며, 정보 수집 및 분석 기능으로 다양한 시스템과 연동하여 사용자 요구 맞춤형 커스터마이징된 네트워크 관리 서비스를 제공하도록 제어한다.

패킷 캡쳐부(130)는 제어부(120)의 제어를 받고, 데이터 센터의 네트워크 장비(210) 또는 원격 지능형 네트워크 관리 장치(220)로부터 패킷 데이터를 네트워크 인터페이스 카드(Network Interface Card, NIC)를 통해 수신하고, 수신한 패킷 데이터를 하나의 데이터 스트림으로 묶어 정보묶음을 생성하기 위해 필요한 원시 데이터(raw data)를 생성하고, 원시 패킷 저장 버퍼에 저장하여, 데이터 센터(210) 또는 원격 지능형 네트워크 관리 장치(220)의 네트워크 패킷, SNMP TRAP, SYSLOG 정보를 포함한 데이터를 측정한다.

정보묶음 생성부(140)는 제어부(120)의 제어를 받고, 패킷 캡쳐부(130)에서 수집한 패킷에 대한 메타데이터를 생성하고, 메타데이터에는 패킷 확인 시간, 패킷 크기, 세션 ID, 패킷 크기, MAC address 및 TCP 정보가 포함되며, 세션 정보묶음, BPS 정보묶음, PPS 정보묶음, RTT 정보묶음, 타임아웃 정보묶음, TCP 정보묶음, Remarks 정보묶음 및 이벤트 정보묶음을 생성하고, 각 정보묶음의 종류별로 동시에 데이터를 압축하여 저장한다.

성능지표 생성부(150)는 제어부(120)의 제어를 받고, 정보묶음 생성부(140)에서 생성된 정보묶음을 전달받고, 네트워크 관리에 필요한 성능지표를 생성하고, 성능지표에는 기본 성능지표와 추가 성능지표를 생성한다.

성능지표 분석부(160)는 제어부(120)의 제어를 받고, 성능지표 생성부(150)에서 생성한 성능지표를 바탕으로 정보묶음에서 사용할 정보 종류를 선택한 다음 네트워크의 성능을 분석하여 성능지표 분석결과를 생성한다.

네트워크 장애처리부(170)는 성능지표 분석부(160)의 분석결과를 이용하여 특정 영역의 장애 여부를 자동으로 판단하고 네트워크 장애를 자동으로 해결한다.

이러한 본 발명의 동작을 좀더 상세히 설명하면 다음과 같다.

패킷 캡쳐부(130)는 데이터 센터(210)의 정보를 패킷으로 전달받고, 패킷 데이터를 정보묶음으로 관리한다. 패킷 캡쳐부(130)는 NIC에 패킷이 수집되면, NIC에서의 부하 분산을 위해 각 패킷을 NIC 내부의 개별 queue(하드웨어 버퍼)에 별도로 분산하여 저장한다. 그리고 하드웨어 버퍼에서 데이터를 꺼내어 처리하는 부분은 응용프로그램에서 진행하도록 한다.

또한 패킷 캡쳐부(130)는 NIC 하드웨어 자체에 사전 지정된 개수의 큐(queue)를 생성하도록 한다. 그리고 패킷 캡쳐부(130)는 NIC의 데이터를 읽기 위한 별도의 스레드를 할당한다. 이 때 queue별로 1개씩 할당한다. 또한 NIC 내부 queue의 원시 패킷을 옮겨 저장할 수 있는 별도의 버퍼를 미리 생성한다. 또한 Queue에 패킷이 쌓여있는지의 여부는 자동 또는 수동으로 확인할 수 있게 한다. 만약 자동 확인시 시스템이 queue 확인 후 프로그램에 결과를 알려주기까지 생기는 지연이 있다. 이는 "시스템에서 queue 확인 → 프로그램에 메시지 전송 → 프로그램의 메시지 처리 → queue 처리"하는 과정인데, 이때 '프로그램에 메시지 전송'하는 과정과 '프로그램의 메시지 처리' 과정이 지연 발생의 원인이다. 그래서 무한루프에 기반한 수동 제어로 해당 지연을 회피한다. 즉, "프로그램에서 queue 확인 → queue 처리 → 반복"의 과정을 수행하여 지연을 회피한다.

또한 패킷 캡쳐부(130)는 각 스레드가 한꺼번에 동시에 수행하여 각 큐별 쌓인 데이터 크기를 계산 및 확인한다. 그리고 각 큐별로 버퍼에 저장할 위치를 선정한다. 이때 저장할 데이터의 크기가 버퍼의 잔여 크기 보다 클 경우에는 버퍼를 비어있는 새 버퍼로 교체한다. 또한 미리 저장할 위치를 지정한 다음 각 스레드가 단일 버퍼에 동시에 데이터 쓰기를 수행한다. 일반적으로 단일 버퍼에 여러 스레드가 동시에 쓰기를 수행하면 같은 위치에 다수의 스레드가 동시에 데이터를 쓰는 문제가 발생할 수 있지만, 이 경우 데이터를 쓰는 영역이 겹치지 않으므로 아무런 문제가 없다. 패킷 캡쳐부(130)에서는 사전에 미리 저장할 위치를 지정하므로 메모리 낭비의 여지가 없다. 종래기술의 경우 단일 스레드를 사용하기 때문에 쓰기 속도에 한계가 있거나(최고 10Gbps 내외), FPGA 기반의 별도 하드웨어를 사용하는 방법으로 속도 문제를 해결하는 반면, 본 발명은 순전히 100% 소프트웨어적인 방법으로만 고속처리를 가능하게 하는 장점이 있다.

또한 정보묶음 생성부(140)는 다수의 패킷을 저장하는 버퍼를 관리하고, 각각의 패킷은 L2 헤더, L3 헤더, L4 헤더, 패킷 본문(body 및 payload)을 포함한다.

정보묶음 생성부(140)의 정보묶음 구조는 '저장하고 있는 최초 시간, 저장하고 있는 마지막 시간, 정보 블록 1, 정보 블록 2, 정보 블록 3, ..., 정보 블록 n'과 같은 구조로 이루어져 있다. 정보 블록의 구조는 '압축된 크기, 실제 크기, 압축된 이진 정보 자료'의 구조로 이루어져 있다. 이전 정보 자료 중 고정 길이는 '고정폭 데이터 1, 고정폭 데이터 2, 고정폭 데이터 3, 고정폭 데이터 4, ..., 고정폭 데이터 n'과 같은 구조로 이루어져 있다. 이전 정보 자료 중 가변 길이는 '고정폭 데이터 1(가변 길이 정보 포함), 가별 길이 데이터 1, 고정폭 데이터 2(가변 길이 정보 포함), 가변 길이 데이터 2, 고정폭 데이터 3(가변 길이 정보 포함), 가변 길이 데이터 3, ..., 고정폭 데이터 n(가변 길이 정보 포함), 가변 길이 데이터 n'과 같은 구조로 이루어져 있다.

정보묶음 생성부(140)는 개별 패킷에 대한 메타데이터를 생성한다. 메타데이터에는 패킷 확인 시간, 패킷 크기, 세션 ID, 패킷 크기, MAC address, 각종 TCP 특화 정보 등이 포함된다.

정보묶음 생성부(140)에서 생성하는 정보묶음에는 세션 정보묶음, BPS 정보묶음, PPS 정보묶음, RTT 정보묶음, 타임아웃 정보묶음, TCP 정보묶음, Remarks 정보묶음, 이벤트 정보묶음 등이 포함된다.

세션 정보묶음에는 세션 ID, 클라이언트 IP/port, 서버 IP/port, L4 프로토콜, L7 프로토콜 정보를 저장한다.

BPS 정보묶음에는 세션 ID, 전송 시간(초단위), 클라이언트에서 서버로 초당 전송된 데이터 크기, 서버에서 클라이언트로 초당 전송된 데이터 크기 정보를 저장한다.

PPS 정보묶음에는 세션 ID, 전송 시간(초단위), 클라이언트에서 서버로 초당 전송된 패킷 개수, 서버에서 클라이언트로 초당 전송된 패킷 개수 정보를 저장한다.

RTT(Round Trip Time) 정보묶음에는 세션 ID, 클라이언트에서 서버로의 전송 지연시간, 서버에서 클라이언트로의 전송 지연시간 정보를 저장한다.

타임아웃 정보묶음에 세션 전체 정보, 발생시간 정보를 저장한다.

TCP 정보묶음에는 TCP SYN이 발생한 시간대 및 세션 정보인 TCP SYN, TCP RST가 발생한 시간대 및 세션 정보인 TCP RST, TCP DUP ACK이 발생한 시간대 및 세션 정보인 TCP DUP ACK, TCP 패킷 재전송이 발생한 시간대 및 세션 정보인 TCP 패킷 재전송, 발생한 시간대 및 문제점 종류(TCP Zero Window, Port Reused, Out of Order)인 TCP 기타 문제점 정보를 저장한다.

Remarks 정보묶음에는 HTTP 요청/응답 헤더, DNS query 및 응답 결과, SMTP email 수발신자 ID, FTP/IMAP/POP3 오류 내용 정보를 저장한다.

이벤트 정보묶음에는 사전에 사용자 정의된 임계치 이상이나 이하 또는 변동비 이상일 경우 발생한 이벤트 정보를 저장한다.

성능지표 생성부(150)는 기본 성능지표에 BPS, PPS, latency, timeout의 성능지표가 포함되어 생성한다.

또한 추가 성능지표에 시간별 및 IP별 생성된 flow 개수의 성능지표, TCP 성능지표, TCP 기반 서비스 제공 IP 목록의 성능지표, UDP 기반 서비스 제공 IP 목록, IP별 MAC address의 성능지표, 포트 번호별 데이터 사용 현황의 성능지표, 또는 L7 프로토콜별 성능지표 중에서 하나 이상의 성능지표를 생성한다.

TCP 성능지표는 TCP RST, TCP Zero Windows, TCP DUP ACKS, TCP 재전송, TCP 포트 재사용, TCP 패킷 순서 뒤바뀜의 성능지표가 포함되고, L7 프로토콜별 성능지표에는 DNS 쿼리 결과별 분석, HTTP 접속 현황, SMTP 송신/수신자별 데이터 전송량 측정의 성능지표가 포함될 수 있다.

성능지표 분석부(160)는 분석하고자 하는 성능지표가 BPS 기반 분석, PPS 기반 분석, Timeout 기반 분석, TCP RST 기반 분석, TCP Zero Windows 분석, TCP DUP ACK 분석, TCP 재전송 분석, TCP 포트 재사용 분석, TCP 패킷 순서 뒤바뀜 분석, HTTP error status 분석, 성능지표 추가 분석 중에서 어떤 성능지표 분석인지 판별한다.

성능지표 분석부(160)는 성능지표 분석이 BPS 기반 분석이면 트래픽이 총 가용 대역폭의 85% 이상이면 '트래픽 급증'으로 분석하고, 트래픽 급증 상태가 60초 이상 지속되면 '트래픽 과다 상태 지속'으로 분석하며, 총 트래픽의 50% 이상이 단일 IP에 집중되면 '특정 IP로의 트래픽 집중'으로 분석하고, 사용중인 트래픽이 총 가용 대역폭의 2% 미만이면 '네트워크 장애 의심'으로 분석한다.

PPS 기반 분석이면 만약 Broadcast 패킷이 전체 패킷 중 70% 이상을 점유하는 경우이면 'Broadcast 패킷의 급격한 증가로 인한 높은 대역폭 점유'로 분석하고, 만약 IP 패킷이 아닌 패킷이 전체 패킷의 50% 이상을 점유하는 경우이면 '알 수 없는 패킷이 대역폭을 대폭 점유'로 분석한다.

Timeout 기반 분석이면 만약 사용자가 지정한 기간 동안 초당 20개 IP 이상에 대해서 timeout이 발생한 경우이면 'Network interface shutdown 또는 장비 정전으로 인한 서비스 불가 의심'으로 분석하고, 만약 사용자가 지정한 기간 동안 동시에 초당 10개 이상 ~ 20개 미만 IP에 대해서 timeout이 발생한 경우이면 '케이블 또는 GBIC(Giga Bitrate Interface Converter, 기가비트 인터페이스 컨버터) 불량으로 인한 서비스 끊김 의심'으로 분석한다.

TCP RST 기반 분석이면 만약 동일 서버에서 RST를 초당 10회 이상 보낸 경우이면 '서버측에서 존재하지 않는 Destination port로 Request가 들어오거나, 이미 연결이 종료된 포트로 접속을 시도하는 등의 경우'로 분석하고, 만약 동일 클라이언트에서 RST를 초당 5회 이상 보낸 경우이면 'Application에서 FIN 대신 Reset을 사용하여 연결을 종료하고자 하는 경우'로 분석하며, 만약 동일 클라이언트/서버에서 RST를 초당 3~4회 발생시키는 경우이면, '서버와 클라이언트 양쪽 중 어느 한쪽에서 종료됨을 알리지 않고 종료하는 경우'로 분석한다.

TCP Zero Windows 분석이면 만약 TCP Zero Window 현상이 초당 10회 이상 발생한 IP이면 '방화벽, IPS 등 보안장비 또는 WAN 가속기 등의 오류로 인한 Zero window 생성 의심'으로 분석한다.

TCP DUP ACK 분석이면 만약 특정 IP에서 DUP ACK이 초당 60회 이상 발생한 경우이면 'Network Congestion(충돌)'로 분석한다.

TCP 재전송 분석이면 만약 특정 IP에서 TCP 재전송이 초당 1000회 이상 발생하는 경우이면 '이중화 구간에서의 loop 발생 의심'으로 분석한다.

TCP 포트 재사용 분석이면 만약 TCP 포트 재사용이 초당 3회 이상 확인된 경우이면 '클라이언트 측 local port 고갈 및 서버 time wait 상태 유지 의심'으로 분석한다.

TCP 패킷 순서 뒤바뀜 분석이면 만약 순서 뒤바뀜이 초당 3회 이상 발생한 경우이면 '패킷 유실 등으로 인한 TCP segment loss 발생 의심'으로 분석한다.

HTTP error status 분석이면 만약 상태코드가 HTTP 4XX인 경우 10개 미만의 IP에서 동일 현상이 발견되면 '사용자 입력 문제'로 인식하여 분석하고, 만약 상태코드가 HTTP 5XX이거나 HTTP 4XX이면서 10개 이상의 IP에서 동일 현상이 발견되면 '서버 또는 클라이언트의 코드에 문제가 있는 것'으로 인식하여 분석한다.

성능지표 추가 분석이면 시스템 설정의 추가 또는 사용자의 추가에 따라 성능지표를 추가하여 분석한다.

외부 장치는 데이터 센터의 네트워크 장비(210) 또는 원격 지능형 네트워크 관리 장치(220) 등이 될 수 있다. 데이터 센터의 네트워크 장비(210)는 Tapping 또는 Port Mirroring으로 물리적 네트워크(Physical NW)에 접속하여 데이터를 측정한다. 또한 데이터 센터의 네트워크 장비(210)는 가상 스위치(vSwitch)를 포함한 가상화 환경일 수 있다. 원격 지능형 네트워크 관리 장치(220)는 원격 오피스(remote Office)에 설치된 장치일 수 있다.

또한 본 발명이 적용된 지능형 네트워크 관리 시스템은 정보묶음을 이용하여 네트워크에 대한 자동 진단을 수행할 수 있다. 자동 진단 내용을 보면, 진단 항목을 정의하고, 진단 대상의 상태를 측정하며, 진단 대상의 증상을 제공하고, 예상되는 원인을 제공하며, 예상원인 별 조치방법을 제공하고, 분석 결과 제공한다. 자동 진단 대상은 성능, 사용량, UDP, TCP 또는 HTTP 에러를 포함한다.

네트워크에 대한 자동 진단은 네트워크 상태, 네트워크 사용 및 성능, 장애/이벤트, 응용 서비스, 자동 진단, L2 ~ L7 분석, 통계 및 추이 분석, 이벤트 처리 기능이 포함되며, 이러한 기능을 통해 네트워크에 대한 자동 진단을 수행할 수 있다.

네트워크 상태의 자동 진단에서는 SNMP Trap 정보 분석으로 네트워크 장비상태를 파악하고, Syslog 자료 분석을 수행한다.

네트워크 사용 및 성능의 자동 진단에서는 BPS(Bits Per Second), PPS(Packets Per Second), Latencies, Timeout에 대한 자동 진단을 수행한다.

장애/이벤트의 자동 진단에서는 UDP Flag, TCP Resets, TCP Zero Windows, TCP Reuse, TCP Duplicate ACKs, TCP Retransmission에 대한 자동 진단을 수행한다. 또한 HTTP 4XX, HTTP 5XX에 대한 자동 진단을 수행한다.

응용 서비스의 자동 진단에서는 응용 서비스 자동 인식 및 Payload 상세분석을 수행한다. 그래서 HTTP, DNS, SMTP, POP3, IMAP, FTP에 대한 자동 진단을 수행한다.

문제원인 및 해결방안 제시를 위한 자동 진단에서는 TCP Retransmission, Hop Low, Microburst, RTT(Round Trip Time), TCP Reset, TCP Zero Windows, TCP DUP ACKs, Timeout에 대한 자동 진단을 수행한다.

L2 ~ L7 분석의 자동 진단에서는 Layer 2 분석으로 Mac 사용 분석, Layer 3 분석으로 Hop Account 분석, Layer 4 분석으로 포트별 분석(출발지, 도착지 별), Layer 7 분석으로 응용 서비스에 대한 자동 진단을 수행한다.

통계 및 추이 분석의 자동 진단에서는 성능지표(BPS, PPS, Latency, Timeout), TCP 관련, HTTP 오류, Layer 7 분석, Flow 추이에 대한 자동 진단을 수행한다.

이벤트의 자동 진단에서는 성능별 임계치 설정 및 제어, 알람 생성 및 등급 설정, 알람 등급별 검색 및 조회, Syslog Server(Remote), SNMP Trap Server에 대한 자동 진단을 수행한다. 그리고 알람/이벤트(Event)는 실시간 네트워크 상태 감시 및 알림 서비스를 제공한다.

도 2는 도 1에서 본 발명이 적용되는 예를 보인 개념도이다.

그래서 지능형 네트워크 관리 시스템(100)의 네트워크 장애 자동 해결 장치(110)는 스위치 또는 라우터 등 각종 네트워크 장비(210)에 대해서는 5분 샘플링에 의한 NetFlow를 이용하여 네트워크 정보를 수집하고, 원격 지능형 네트워크 관리 장치(220)에 대해서는 패킷 정보를 수신하여 패킷 분석을 수행한다.

NetFlow는 스위치/라우터에서 제공되는 네트워크 정보로, 각 hop별로 데이터를 수집할 수 있으나 수집시 장비와 네트워크 대역폭에 동시에 부하가 걸려서 실제로는 대부분 5분단위 샘플링 수집을 수행하고 있음

NetFlow는 그 특성상 얻을 수 있는 종류의 데이터가 제한적이다. 즉, L3 또는 그 이하 레벨(L1, L2)의 데이터만 수신할 수 있다.

본 발명의 지능형 네트워크 관리 시스템(100)의 네트워크 장애 자동 해결 장치(110)는 미러링 기반이므로 네트워크 대역폭 부하는 없으나 패킷을 수집하는 해당 구간에 대한 정보만 얻을 수 있으므로, 각 hop별(예: 특정 스위치와 스위치 사이 구간)에 대한 정보를 얻을 수 없다.

지능형 네트워크 관리 시스템(100)의 네트워크 장애 자동 해결 장치(110)는 DPI(Deep Packet Inspection)를 통해 L2~L7까지의 모든 데이터를 세밀하게 분석할 수 있다.

따라서 데이터 센터의 네트워크 장비(210)의 NetFlow와 본 발명이 적용된 원격 지능형 네트워크 관리 장치(220)는 수집하는 네트워크 데이터의 폭(width)과 깊이(depth) 측면에서 상호 보완적인 구성요소라고 할 수 있다.

네트워크 장애 자동 해결 장치(110)는 네트워크 장비(210)의 NetFlow와 본 발명이 적용된 원격 지능형 네트워크 관리 장치(220)를 통해 수집되고 분석된 데이터를 통해 특정 영역의 장애 여부를 판단할 수 있다.

그래서 네트워크 장애처리부(170)는 장애라고 판단될 경우 권고사항을 제시하거나 스스로 네트워크를 제어할 수 있다. 또한 스스로 네트워크를 제어하지 못하거나 내용을 허가받지 못한 경우 권고사항 형태로 해결방안을 제시할 수 있다. 또한 스스로 네트워크를 제어할 수 있는 경우 특정 장비에 접속하여 설정 변경 또는 재부팅 등 수행할 수 있다. 이때는 대부분 SSH로 접속하여 원격 shell command를 사용하여 제어하게 된다.

네트워크 장애처리부(170)는 만약 매우 바쁜 네트워크에서 특정 hop을 거칠 경우 갑자기 속력이 느려지는 경우, 이는 NetFlow를 통해 확인된 패킷량은 정상 수준이거나 또는 NetFlow가 보여주는 BPS 또한 정상일 수 있다. 이때 네트워크 장애 자동 해결 장치(110)는 해당 hop과 관련된 IP들로부터 초당 수백~수천개에 이르는 TCP DUP ACK과 Retransmission을 감지한다. 그래서 이 경우에는 해당 hop에서 packet loop이 예상된다고 판단할 수 있다. Packet loop은 거의 대부분 케이블 배선이 잘못되어 일어나는 경우 발생한다. 이는 설정 변경으로 해결될 수 있는 사안이 아니므로 '케이블 배선 확인'과 같은 권고사항을 전달한다. 여기서 '매우 바쁜 네트워크' 는 측정 당시에 해당 통신을 수행하는 장비들 중 한 개 이상의 장비의 구성요소에서 과부하가 걸리는 경우를 말한다. 이때 통신을 수행하는 장비들은 클라이언트 컴퓨터, 서버 컴퓨터, 클라이언트와 서버를 연결하는 모든 네트워크 장비(스위치, 라우터 및 각종 보안장비 등)을 말한다. 또한 장비의 구성요소는 CPU, RAM, Disk, 네트워크 포트를 말한다.

또한 네트워크 장애처리부(170)는 만약 매일 특정 시간대만 되면 네트워크의 서비스가 느려지는 경우에 대해서도 대처할 수 있다. 이는 데이터 센터의 네트워크 장비(210)의 NetFlow와 원격 네트워크 장애 자동 해결 장치(220) 모두 네트워크 서비스를 관할하는 서버로의 트래픽이 해당 시간대에 급증함을 알리게 된다. 그리고 NetFlow는 특정 위치에서 네트워크 서비스로의 트래픽이 집중됨을 확인할 수 있다. 원격 네트워크 장애 자동 해결 장치(220)는 해당 시간대에만 서버로부터의 응답 지연이 매우 길어짐을 확인할 수 있다. 추가로, 서버 담당자가 해당 시간대에만 CPU와 디스크 사용량이 폭주한다고 보고할 수 있다. 이런 상황에 대해서는 다양한 해결방안을 제시하거나 적용할 수 있다. 즉, NetFlow가 발견한 특정 위치에 대해서 QoS 적용하여 별도의 QoS 장비 또는 스위치에 접속하고, QoS 기능을 이용하여 해당 위치로부터 서버 요청이 폭주하지 않도록 트래픽의 총량을 조정하여 네트워크 장애를 자동 처리할 수 있다. 또한 요청이 시간대별로 분산되도록 클라이언트의 네트워크 접속 시간을 조정하도록 권고할 수 있다. 또한 필요한 추가 대역폭에 대한 제안을 포함하여 서버 및 네트워크 증설을 권고할 수 있다.

패킷 캡쳐단계(ST1)에서는 지능형 네트워크 관리 시스템(100)의 네트워크 장애 자동 해결 장치(110)에서 네트워크 장애에 대한 자동 해결을 수행하면, 패킷 캡쳐부(130)는 데이터 센터의 네트워크 장비(210)에 대한 NetFlow 정보를 샘플링하거나 또는 원격 지능형 네트워크 관리 장치(220)로부터 패킷 데이터를 네트워크 인터페이스 카드(Network Interface Card, NIC)를 통해 수신하고, 수신한 패킷 데이터를 하나의 데이터 스트림으로 묶어 정보묶음을 생성하기 위해 필요한 원시 데이터(raw data)를 생성하고, 원시 패킷 저장 버퍼에 저장하여, 데이터 센터(210) 또는 원격 지능형 네트워크 관리 장치(220)의 네트워크 패킷, SNMP TRAP, SYSLOG 정보를 포함한 데이터를 측정한다.

정보묶음 생성단계(ST2)에서는 패킷 캡쳐단계 후, 정보묶음 생성부(140)는 수집한 패킷에 대한 메타데이터를 생성하고, 메타데이터에는 패킷 확인 시간, 패킷 크기, 세션 ID, 패킷 크기, MAC address 및 TCP 정보가 포함되며, 세션 정보묶음, BPS 정보묶음, PPS 정보묶음, RTT 정보묶음, 타임아웃 정보묶음, TCP 정보묶음, Remarks 정보묶음 및 이벤트 정보묶음을 생성하고, 각 정보묶음의 종류별로 동시에 데이터를 압축하여 저장한다.

성능지표 생성단계(ST3)에서는 정보묶음 생성단계 후, 성능지표 생성부(150)는 생성된 정보묶음을 전달받고, 네트워크 관리에 필요한 성능지표를 생성하고, 성능지표에는 기본 성능지표와 추가 성능지표를 생성한다.

성능지표 분석단계(ST4)에서는 성능지표 생성단계 후, 성능지표 분석부(160)는 생성한 성능지표를 바탕으로 정보묶음에서 사용할 정보 종류를 선택한 다음 네트워크의 성능을 분석하여 성능지표 분석결과를 생성한다.

네트워크 장애처리단계(ST5)에서는 성능지표 분석단계 후 네트워크 장애처리부(170)는 분석결과를 이용하여 특정 영역의 장애 여부를 자동으로 판단하고 네트워크 장애를 자동으로 해결한다.

도 4는 도 3에서 네트워크 장애처리의 상세 흐름도이다.

장애처리 판별단계(ST11, ST12)에서는 NetFlow 정보와 패킷 정보를 분석한 데이터를 통해 특정 영역의 장애 여부를 판단하고, 어떤 장애처리를 수행할 것인지 판별한다.

장애처리 수행단계(ST13, ST14)에서는 장애처리 판별단계에서 만약 네트워크의 장애라고 판단될 경우 권고사항을 제시하거나 스스로 네트워크를 제어하고, 만약 스스로 네트워크를 제어하지 못하거나 내용을 허가받지 못한 경우 권고사항 형태로 해결방안을 제시하며, 만약 스스로 네트워크를 제어할 수 있는 경우 SSH로 접속하여 원격 shell command를 사용하여 네트워크의 특정 장비에 접속하여 설정 변경 또는 재부팅을 수행하고, 네트워크 장애처리 결과를 제공한다.

이처럼 본 발명은 네트워크 상태에 대한 패킷 정보를 수집하고 분석된 데이터를 통해 특정 영역의 장애 여부를 자동으로 판단하고 네트워크 장애를 자동으로 해결하여, 다양하고 복잡한 네트워크 이슈(성능, 장애 등)에 대해 한 번의 클릭으로 정확하고 빠른 원인 파악 및 해결을 위한 가이드를 제공하고, 네트워크 운영자 누구나 쉽고 편리하게 네트워크를 관리할 수 있게 하며, 정보 수집 및 분석 기능으로 다양한 시스템과 연동하여 사용자 요구 맞춤형 커스터마이징된 네트워크 관리 서비스를 제공하게 된다.

이상에서 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다. 따라서 본 발명에 개시된 실시예들은 본 발명의 기술적 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술적 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호범위는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100 : 지능형 네트워크 관리 시스템
110 : 네트워크 장애 자동 해결 장치
120 : 제어부
130 : 패킷 캡쳐부
140 : 정보묶음 생성부
150 : 성능지표 생성부
160 : 성능지표 분석부
170 : 네트워크 장애처리부
210 : 데이터 센터의 네트워크 장비
220 : 원격 지능형 네트워크 관리 장치

Claims

네트워크의 관리를 수행하는 지능형 네트워크 관리 시스템의 네트워크 장애 자동 해결 장치에 있어서,
상기 네트워크 장애 자동 해결 장치에서 네트워크 상태에 대한 패킷 정보를 수집하고 분석된 데이터를 통해 특정 영역의 장애 여부를 자동으로 판단하고 네트워크 장애를 자동으로 해결하여, 다양하고 복잡한 네트워크 이슈에 대해 한 번의 클릭으로 정확하고 빠른 원인 파악 및 해결을 위한 가이드를 제공하고, 네트워크 운영자 누구나 쉽고 편리하게 네트워크를 관리할 수 있게 하며, 정보 수집 및 분석 기능으로 다양한 시스템과 연동하여 사용자 요구 맞춤형 커스터마이징된 네트워크 관리 서비스를 제공하도록 제어하는 제어부와;
상기 제어부의 제어를 받고, 데이터 센터의 네트워크 장비 또는 원격 지능형 네트워크 관리 장치로부터 패킷 데이터를 네트워크 인터페이스 카드를 통해 수신하고, 수신한 패킷 데이터를 하나의 데이터 스트림으로 묶어 정보묶음을 생성하기 위해 필요한 원시 데이터를 생성하고, 원시 패킷 저장 버퍼에 저장하여, 상기 데이터 센터 또는 상기 원격 지능형 네트워크 관리 장치의 네트워크 패킷, SNMP TRAP, SYSLOG 정보를 포함한 데이터를 측정하는 패킷 캡쳐부와;
상기 제어부의 제어를 받고, 상기 패킷 캡쳐부에서 수집한 패킷에 대한 메타데이터를 생성하고, 메타데이터에는 패킷 확인 시간, 패킷 크기, 세션 ID, 패킷 크기, MAC address 및 TCP 정보가 포함되며, 세션 정보묶음, BPS 정보묶음, PPS 정보묶음, RTT 정보묶음, 타임아웃 정보묶음, TCP 정보묶음, Remarks 정보묶음 및 이벤트 정보묶음을 생성하고, 각 정보묶음의 종류별로 동시에 데이터를 압축하여 저장하는 정보묶음 생성부와;
상기 제어부의 제어를 받고, 정보묶음 생성부에서 생성된 정보묶음을 전달받고, 네트워크 관리에 필요한 성능지표를 생성하고, 성능지표에는 기본 성능지표와 추가 성능지표를 생성하는 성능지표 생성부와;
상기 제어부의 제어를 받고, 상기 성능지표 생성부에서 생성한 성능지표를 바탕으로 정보묶음에서 사용할 정보 종류를 선택한 다음 네트워크의 성능을 분석하여 성능지표 분석결과를 생성하는 성능지표 분석부와;
상기 성능지표 분석부의 분석결과를 이용하여 특정 영역의 장애 여부를 자동으로 판단하고 네트워크 장애를 자동으로 해결하는 네트워크 장애처리부;를 포함하여 구성되고,
상기 네트워크 장애처리부는, 만약 네트워크의 장애라고 판단될 경우 권고사항을 제시하거나 스스로 네트워크를 제어하고, 만약 스스로 네트워크를 제어하지 못하거나 내용을 허가받지 못한 경우 권고사항 형태로 해결방안을 제시하며, 만약 스스로 네트워크를 제어할 수 있는 경우 SSH로 접속하여 원격 shell command를 사용하여 네트워크의 특정 장비에 접속하여 설정 변경 또는 재부팅을 수행하고,
상기 네트워크 장애처리부는, 만약 네트워크에서 특정 hop을 거칠 경우 갑자기 속력이 느려지는 경우에는 해당 hop에서 packet loop이 예상된다고 판단하고, '케이블 배선 확인'이라는 권고사항을 전달하고; 만약 매일 특정 시간대만 되면 네트워크의 서비스가 느려지는 경우, NetFlow가 발견한 특정 위치에 대해서 QoS 적용하여 별도의 QoS 장비 또는 스위치에 접속하고, QoS 기능을 이용하여 해당 위치로부터 서버 요청이 폭주하지 않도록 트래픽의 총량을 조정하여 네트워크 장애를 자동 처리하고, 요청이 시간대별로 분산되도록 클라이언트의 네트워크 접속 시간을 조정하도록 권고하고, 필요한 추가 대역폭에 대한 제안을 포함하여 서버 및 네트워크 증설을 권고하는 것을 특징으로 하는 자동 패킷 분석 기반의 네트워크 장애 자동 해결 장치.
삭제
삭제
지능형 네트워크 관리 시스템의 네트워크 장애 자동 해결 장치에서 네트워크 장애에 대한 자동 해결을 수행하면, 패킷 캡쳐부는 데이터 센터의 네트워크 장비에 대한 NetFlow 정보를 샘플링하거나 또는 원격 지능형 네트워크 관리 장치로부터 패킷 데이터를 네트워크 인터페이스 카드를 통해 수신하고, 수신한 패킷 데이터를 하나의 데이터 스트림으로 묶어 정보묶음을 생성하기 위해 필요한 원시 데이터를 생성하고, 원시 패킷 저장 버퍼에 저장하여, 상기 데이터 센터 또는 상기 원격 지능형 네트워크 관리 장치의 네트워크 패킷, SNMP TRAP, SYSLOG 정보를 포함한 데이터를 측정하는 패킷 캡쳐단계와;
상기 패킷 캡쳐단계 후, 정보묶음 생성부는 수집한 패킷에 대한 메타데이터를 생성하고, 메타데이터에는 패킷 확인 시간, 패킷 크기, 세션 ID, 패킷 크기, MAC address 및 TCP 정보가 포함되며, 세션 정보묶음, BPS 정보묶음, PPS 정보묶음, RTT 정보묶음, 타임아웃 정보묶음, TCP 정보묶음, Remarks 정보묶음 및 이벤트 정보묶음을 생성하고, 각 정보묶음의 종류별로 동시에 데이터를 압축하여 저장하는 정보묶음 생성단계와;
상기 정보묶음 생성단계 후, 성능지표 생성부는 생성된 정보묶음을 전달받고, 네트워크 관리에 필요한 성능지표를 생성하고, 성능지표에는 기본 성능지표와 추가 성능지표를 생성하는 성능지표 생성단계와;
상기 성능지표 생성단계 후, 성능지표 분석부는 생성한 성능지표를 바탕으로 정보묶음에서 사용할 정보 종류를 선택한 다음 네트워크의 성능을 분석하여 성능지표 분석결과를 생성하는 성능지표 분석단계와;
상기 성능지표 분석단계 후 네트워크 장애처리부는 분석결과를 이용하여 특정 영역의 장애 여부를 자동으로 판단하고 네트워크 장애를 자동으로 해결하는 네트워크 장애처리단계;를 포함하여 수행하고,
상기 네트워크 장애처리단계는,
NetFlow 정보와 패킷 정보를 분석한 데이터를 통해 특정 영역의 장애 여부를 판단하고, 어떤 장애처리를 수행할 것인지 판별하는 장애처리 판별단계와;
상기 장애처리 판별단계에서 만약 네트워크의 장애라고 판단될 경우 권고사항을 제시하거나 스스로 네트워크를 제어하고, 만약 스스로 네트워크를 제어하지 못하거나 내용을 허가받지 못한 경우 권고사항 형태로 해결방안을 제시하며, 만약 스스로 네트워크를 제어할 수 있는 경우 SSH로 접속하여 원격 shell command를 사용하여 네트워크의 특정 장비에 접속하여 설정 변경 또는 재부팅을 수행하고, 네트워크 장애처리 결과를 제공하는 장애처리 수행단계;
를 포함하여 수행하는 것을 특징으로 하는 자동 패킷 분석 기반의 네트워크 장애 자동 해결 방법.
삭제