KR20200126766A - Operation management apparatus and method in ict infrastructure - Google Patents

Operation management apparatus and method in ict infrastructure Download PDF

Info

Publication number
KR20200126766A
KR20200126766A KR1020190050843A KR20190050843A KR20200126766A KR 20200126766 A KR20200126766 A KR 20200126766A KR 1020190050843 A KR1020190050843 A KR 1020190050843A KR 20190050843 A KR20190050843 A KR 20190050843A KR 20200126766 A KR20200126766 A KR 20200126766A
Authority
KR
South Korea
Prior art keywords
failure
infrastructure
data
analysis
model
Prior art date
Application number
KR1020190050843A
Other languages
Korean (ko)
Inventor
황정연
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020190050843A priority Critical patent/KR20200126766A/en
Publication of KR20200126766A publication Critical patent/KR20200126766A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Abstract

Disclosed is a method for operating and managing an information and communication technology (ICT) infrastructure and facility structure including physical resources and virtualization resources, which provides convenience and efficiency using pre-fault/failure prediction (PFP). According to one embodiment of the present invention, the method comprises the following steps: monitoring physical resources and virtualization resources to collect measurement data and event-related data generated from infrastructure; performing a data analysis including a correlation analysis among variables related to a fault or failure event from the collected measurement data and the event-related data; and using one or more PFP models based on a data analysis result to predict a failure or fault of the infrastructure and a facility.

Description

ICT 인프라의 운용 관리 장치 및 방법{OPERATION MANAGEMENT APPARATUS AND METHOD IN ICT INFRASTRUCTURE}ICT infrastructure operation management device and method {OPERATION MANAGEMENT APPARATUS AND METHOD IN ICT INFRASTRUCTURE}

본 발명은 데이터센터 인프라 운영자를 위한 인공지능 운용자 지원 시스템(AIOAS)에서 인프라 모니터링 시스템을 통해 수집되는 빅-데이터를 활용하여 장애 또는 고장을 사전 예측하는 ICT 인프라의 운용 관리 장치 및 방법에 관한 것이다. The present invention relates to an ICT infrastructure operation management apparatus and method for predicting a failure or failure using big-data collected through an infrastructure monitoring system in an artificial intelligence operator support system (AIOAS) for a data center infrastructure operator.

최근 통신 기술은 소프트웨어 정의 네트워킹(Software Defined Networking: SDN)과 네트워크 기능 가상화(Network Function Virtualization: NFV) 기술에 대하여 표준화가 추진되었으며, 데이터센터 인프라(서버, 네트워크, 스토리지)를 통한 응용서비스를 제공하기 위하여 클라우드 기반의 SDN/NFV 기술을 적용한다.Recently, standardization of communication technologies has been promoted for Software Defined Networking (SDN) and Network Function Virtualization (NFV) technologies, and to provide application services through data center infrastructure (server, network, storage). To do this, we apply cloud-based SDN/NFV technology.

데이터센터 인프라(서버, 네트워크, 스토리지)를 통하여 4차 산업혁명의 응용서비스(스마트시티, 스마트홈, 스마트병원, 스마트농장, 스마트공장 등)를 제공하기 위하여 하이퍼 컨버지드 인프라스트럭처(HCI: Hyper Converged Infrastructure) 및 컴포저블 인프라스트럭처(Composable Infrastructure) 하드웨어(H/W) 기반에 SDN/NFV 소프트웨어 기술을 적용하여 운용자의 의사결정을 최소화하여 인프라 운용관리를 수행하는 자율운용관리시스템(AOMS: Autonomous Operation Management System)을 제공하려는 기술개발이 필요하다.Hyper-converged infrastructure (HCI: Hyper) to provide application services of the 4th industrial revolution (smart city, smart home, smart hospital, smart farm, smart factory, etc.) through data center infrastructure (server, network, storage). Autonomous Operation Management System (AOMS: Autonomous Operation) that minimizes operator's decision making by applying SDN/NFV software technology based on Converged Infrastructure) and Composable Infrastructure hardware (H/W). Management System) needs to be developed.

한편, 이와 같은 현재 데이터센터는, 운용관리 관련 빅-데이터 수집이 미흡하고, 빅-데이터 분석부재로 인하여 인프라 고장발생을 사전예측 하지 못하여 서비스 중단이 빈번히 발생하여 운영 비효율화에 의한 큰 운용비용(OPEX)의 문제, 즉, 운용 비효율화 문제를 안고 있다. On the other hand, in such current data centers, the collection of big-data related to operation management is insufficient, and the occurrence of infrastructure failure is not predicted in advance due to the lack of big-data analysis. OPEX), that is, operational inefficiency.

나아가, 현재 데이터센터는 초기 서비스 제공에 많은 시간이 소요되는데, 사용자의 응용서비스 요구에 대하여 사전 인프라 가상화에 의한 자원관리기능을 자동으로 수행하지 못하여 서비스에 필요한 인프라 자원을 즉시 할당하여 응용서비스를 제공하지 못하기 때문이다. Furthermore, the current data center takes a lot of time to provide initial services, but it does not automatically perform the resource management function by pre-infrastructure virtualization in response to the user's application service request, so the infrastructure resources necessary for the service are immediately allocated to provide application services. Because I can't.

추가적으로, 종래의 기술은 인프라(서버, 네트워크, 스토리지) 운영 시 장애/고장이 발생하게 되면 경보를 SMS(문자)나 운영자 UI 화면 또는 운영자 앱에 경보 메시지를 팝업 형태로 생성한다. 이후 인프라 운영자는 경보에 따라 해당 장비에 대하여 장애/고장의 원인을 파악하여 조치(수리)를 수행하여 중단된 응용서비스를 다시 제공하므로 인프라 고장에 의한 서비스 중단으로 인하여 제공하던 응용서비스를 연속적으로 서비스 품질(QoS)을 보증할 수 없다는 서비스 품질보증의 부재라는 또 다른 문제를 가지고 있다. In addition, the conventional technology generates an alarm in the form of a pop-up on an SMS (text) or operator UI screen or operator app when a failure/breakdown occurs during infrastructure (server, network, storage) operation. Afterwards, the infrastructure operator identifies the cause of the failure/failure for the relevant equipment according to the alarm and performs the action (repair) to provide the interrupted application service again, so that the application service that was provided due to the service interruption due to the infrastructure failure is continuously provided. Another problem is the lack of service quality assurance that quality (QoS) cannot be guaranteed.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, TRVN(Trusted Reality Viewpointing Networking) 인프라 구조에서 인프라 운용을 관리하는 운용자에게 PFP(Pre-Fault/Failure Prediction)을 이용한 편리성 및 효율성을 위한 장치를 제공하는 데 있다.An object of the present invention for solving the above problems is to provide an apparatus for convenience and efficiency using PFP (Pre-Fault/Failure Prediction) to an operator who manages infrastructure operation in a Trusted Reality Viewpointing Networking (TRVN) infrastructure structure. To provide.

상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 상기 장치에서 수행될 수 있는 IMS(Inrastructure Monitoring System)에 의해 수집된 빅-데이터를 이용하여 PFP(Pre-Fault/Failure Prediction)의한 운용 관리 방법을 제공하는 데 있다.Another object of the present invention for solving the above problems is to manage operation by PFP (Pre-Fault/Failure Prediction) using big-data collected by an Infrastructure Monitoring System (IMS) that can be performed in the device. There is a way to provide.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 운용 관리 장치는 물리적 자원 및 가상화 자원을 포함하는 ICT(Information and Communications Technologies) 인프라 및 시설물 구조(infrastructure)에서의 운용 관리 장치로서, 프로세서; 및 상기 프로세서를 통해 실행되는 하나 이상의 명령을 저장하는 메모리를 포함하고, An operation management apparatus according to an embodiment of the present invention for achieving the above object is an operation management apparatus in ICT (Information and Communications Technologies) infrastructure and facility structures including physical resources and virtualization resources, comprising: a processor; And Includes a memory for storing one or more instructions executed through the processor,

상기 하나 이상의 명령은, 상기 물리적 자원 및 가상화 자원을 모니터링하여 상기 ICT 인프라 및 시설물 구조에서 발생하는 측정 데이터 및 이벤트 관련 데이터를 수집하도록 하는 명령; 수집된 측정 데이터 및 이벤트 관련 데이터 중 장애 또는 고장 이벤트와 관련 변수들 간의 상관성 분석을 포함한 데이터 분석을 수행하도록 하는 명령; 및 상기 데이터 분석 결과에 기초하여 하나 이상의 사전장애예측(PFP; Pre Failure Prediction) 모델을 이용해 인프라 및 시설물의 장애 또는 고장을 예측하도록 하는 명령을 포함할 수 있다. The one or more commands may include commands to monitor the physical and virtual resources to collect measurement data and event-related data generated in the ICT infrastructure and facility structure; An instruction for performing data analysis including correlation analysis between failure or failure events and related variables among the collected measurement data and event-related data; And a command to predict a failure or failure of infrastructure and facilities by using one or more Pre Failure Prediction (PFP) models based on the data analysis result.

상기 하나 이상의 사전장애예측(PFP) 모델은, 회귀분석(RA; Regression Analysis), 다중회귀분석(MRA; Multiple Regression Analysis), 및 비선형 성장곡선모델(Nonlinear Growth Curve Model)을 포함할 수 있다.The one or more prior failure prediction (PFP) models may include a regression analysis (RA), a multiple regression analysis (MRA), and a nonlinear growth curve model.

상기 인프라 및 시설물의 장애 또는 고장을 예측하도록 하는 명령은 또한, 상기 변수들 중 종속변수(Yi)와 독립변수(Xi) 간에 강한 상관성이 존재하는 경우, 상기 사전장애예측 모델로서 RA(회귀분석) 또는 MRA(다중회귀분석) 모델을 이용하여 상기 인프라 및 시설물의 장애 또는 고장을 예측하도록 하는 명령을 포함할 수 있다.The command to predict the failure or failure of the infrastructure and facilities is also, if there is a strong correlation between the dependent variable (Y i ) and the independent variable (X i ) among the variables, RA (regression Analysis) or MRA (multiple regression analysis) model to predict the failure or failure of the infrastructure and facilities.

상기 인프라 및 시설물의 장애 또는 고장을 예측하도록 하는 명령은, 상기 측정 데이터 및 이벤트 관련 데이터가 누적수요자료인 경우, 상기 사전장애예측 모델로서 NGCM(비선형성장곡선모델)을 이용해 상기 인프라 및 시설물의 장애 또는 고장을 예측하도록 하는 명령을 포함할 수 있다.The instruction to predict a failure or failure of the infrastructure and facilities is, when the measurement data and event-related data are cumulative demand data, failure of the infrastructure and facilities using NGCM (Nonlinear Long Curve Model) as the preliminary failure prediction model. Or it may contain instructions to predict failure.

상기 NGCM(비선형성장곡선모델)은 로지스틱모델, 프로빗모델, 곰페르츠모델, 음의지수모델, 및 지수모델 중 하나 이상을 포함할 수 있다. The NGCM (nonlinear long curve model) may include at least one of a logistic model, a probit model, a Gompertz model, a negative exponential model, and an exponential model.

상기 하나 이상의 명령은, 상기 모니터링 결과, 상기 데이터 분석의 결과 및 인프라 및 시설물의 장애 또는 고장의 예측 관련 정보를 사용자에게 제공하도록 하는 명령을 더 포함할 수 있다.The at least one command may further include a command to provide the user with information related to the monitoring result, the result of the data analysis, and the prediction of the failure or failure of the infrastructure and facilities.

상기 관련 변수는, 상기 물리적 자원 및 가상화 자원 중 하나 이상의 자원에 대한 측정치, 통지 정보, 임계치, 모니터링 정보 중 하나 이상을 포함할 수 있다. The related variable may include one or more of a measurement value, notification information, a threshold value, and monitoring information for one or more of the physical and virtual resources.

상기 모니터링 정보는, FCAPS(Fault, Configuration, Account, Performance, Security), KQI(Key Quality Indicators), QoE(Quality of Experience), KCI(Key Capacity Indicators), KPI(Key Performance Indicators), 및 SLA((Service Level Agreement) 중 하나 이상을 포함할 수 있다.The monitoring information is FCAPS (Fault, Configuration, Account, Performance, Security), KQI (Key Quality Indicators), QoE (Quality of Experience), KCI (Key Capacity Indicators), KPI (Key Performance Indicators), and SLA (( Service Level Agreement).

상기 ICT 인프라는 서버, 네트워크, 및 스토리지 중 하나 이상을 포함할 수 있다. 상기 시설물은, DBMS(Data Base Management System), 항온항습기, UPS(uninterruptible power supply), 온도계, 습도계, 전력, 밧데리, 및 발전기 중 하나 이상을 포함할 수 있다.The ICT infrastructure may include one or more of a server, a network, and a storage. The facility may include one or more of a DBMS (Data Base Management System), a thermo-hygrostat, an uninterruptible power supply (UPS), a thermometer, a hygrometer, electric power, a battery, and a generator.

상기 다른 목적을 달성하기 위한 본 발명의 일 실시예에 따른 운용 관리 방법은 물리적 자원 및 가상화 자원을 포함하는 ICT(Information and Communications Technologies) 인프라 및 시설물 구조(infrastructure)에서의 운용 관리 방법으로서, 상기 물리적 자원 및 가상화 자원을 모니터링하여 상기 인프라구조에서 발생하는 측정 데이터 및 이벤트 관련 데이터를 수집하는 단계; 수집된 측정 데이터 및 이벤트 관련 데이터 중 장애 또는 고장 이벤트와 관련 변수들 간의 상관성 분석을 포함한 데이터 분석을 수행하는 단계; 및 상기 데이터 분석 결과에 기초하여 하나 이상의 사전 장애 예측(PFP; Pre Failure Prediction) 모델을 이용해 인프라 및 시설물의 장애 또는 고장을 예측하는 단계를 포함할 수 있다. An operation management method according to an embodiment of the present invention for achieving the other object is an operation management method in an ICT (Information and Communications Technologies) infrastructure and facility structure including physical resources and virtual resources, Collecting measurement data and event-related data generated in the infrastructure by monitoring resources and virtualization resources; Performing data analysis including correlation analysis between failure or failure events and related variables among the collected measurement data and event-related data; And predicting a failure or failure of infrastructure and facilities using one or more Pre Failure Prediction (PFP) models based on the data analysis result.

상기 하나 이상의 사전장애예측(PFP) 모델은, 회귀분석(RA; Regression Analysis), 다중회귀분석(MRA; Multiple Regression Analysis), 및 비선형 성장곡선모델(Nonlinear Growth Curve Model)을 포함할 수 있다.The one or more prior failure prediction (PFP) models may include a regression analysis (RA), a multiple regression analysis (MRA), and a nonlinear growth curve model.

상기 인프라 및 시설물의 장애 또는 고장을 예측하는 단계는, 상기 변수들 중 종속변수(Yi)와 독립변수(Xi) 간에 강한 상관성이 존재하는 경우, 상기 사전장애예측 모델로서 RA(회귀분석) 또는 MRA(다중회귀분석) 모델을 이용하여 상기 인프라 및 시설물의 장애 또는 고장을 예측하는 단계를 포함할 수 있다.The step of predicting a failure or failure of the infrastructure and facilities is, when there is a strong correlation between the dependent variable (Y i ) and the independent variable (X i ) among the variables, RA (regression analysis) as the pre-failure prediction model Alternatively, it may include predicting a failure or failure of the infrastructure and facilities using a multiple regression analysis (MRA) model.

상기 인프라 및 시설물의 장애 또는 고장을 예측하는 단계는, 상기 측정 데이터 및 이벤트 관련 데이터가 누적수요자료인 경우, 상기 사전장애예측 모델로서 NGCM(비선형성장곡선모델)을 이용해 상기 인프라 및 시설물의 장애 또는 고장을 예측하는 단계를 포함할 수 있다. The step of predicting a failure or failure of the infrastructure and facilities may include, when the measurement data and event-related data are cumulative demand data, the failure of the infrastructure and facilities or the failure of the infrastructure and facilities using NGCM (nonlinear long curve model) as the preliminary failure prediction model. It may include predicting failure.

상기 NGCM(비선형성장곡선모델)은 로지스틱 모델, 프로빗 모델, 곰페르츠 모델, 음의지수모델, 및 지수모델 중 하나 이상을 포함할 수 있다. The NGCM (Nonlinear Longitudinal Curve Model) may include at least one of a logistic model, a probit model, a Gompertz model, a negative exponential model, and an exponential model.

상기 운용 관리 방법은 상기 모니터링 결과, 상기 데이터 분석의 결과 및 인프라 및 시설물의 장애 또는 고장의 예측 관련 정보를 사용자에게 제공하는 단계를 더 포함할 수 있다.The operation management method may further include providing the monitoring result, the data analysis result, and information related to prediction of a failure or failure of an infrastructure and facilities to a user.

상기 관련 변수는, 상기 물리적 자원 및 가상화 자원 중 하나 이상의 자원에 대한 측정치, 통지 정보, 임계치, 및 모니터링 정보 중 하나 이상을 포함할 수 있다. The related variable may include one or more of a measurement value, notification information, a threshold value, and monitoring information for one or more of the physical and virtual resources.

상기 모니터링 정보는, FCAPS(Fault, Configuration, Account, Performance, Security), KQI(Key Quality Indicators), QoE(Quality of Experience), KCI(Key Capacity Indicators), KPI(Key Performance Indicators), 및 SLA((Service Level Agreement) 중 하나 이상의 데이터를 포함한다.The monitoring information is FCAPS (Fault, Configuration, Account, Performance, Security), KQI (Key Quality Indicators), QoE (Quality of Experience), KCI (Key Capacity Indicators), KPI (Key Performance Indicators), and SLA (( Service Level Agreement).

상기 ICT 인프라는 서버, 네트워크, 및 스토리지 중 하나 이상을 포함할 수 있다. 상기 시설물은, DBMS(Data Base Management System), 항온항습기, UPS(uninterruptible power supply), 온도계, 습도계, 전력, 밧데리, 및 발전기 중 하나 이상을 포함할 수 있다.The ICT infrastructure may include one or more of a server, a network, and a storage. The facility may include one or more of a DBMS (Data Base Management System), a thermo-hygrostat, an uninterruptible power supply (UPS), a thermometer, a hygrometer, electric power, a battery, and a generator.

상기와 같은 본 발명의 실시예들에 따르면, 인프라의 고장을 미리 예측하여 사전 조치(수리)에 의한 고장 사전예방을 통하여 응용서비스의 중단없이(Non-stop) 서비스의 품질보장(QoS)을 연속적으로 제공할 수 있다. According to the embodiments of the present invention as described above, the quality of service guarantees (QoS) without interruption of the application service (Non-stop) by predicting the failure of the infrastructure in advance and preventing the failure by preliminary measures (repair). Can be provided.

좀더 구체적으로, 데이터센터 인프라 자율운용을 위한 2수준(level)의 AIOAS(인공지능 운영자 지원 시스템)의 PFD(사전고장예측) 기술은 운용관리 관련 IMS(인프라 모니터링 시스템)에 의하여 빅-데이터를 수집하여 DCAP(데이터 수집 분석 플랫폼)의 통계적 분석 모듈에서 다양한 FPM(고장예측모델)의 통계적 예측 모델의 알고리즘에 의해 PFD(사전고장예측)를 주기적으로 수행하여 사전 고장 예측 결과를 통보 받아서 고장 발생 전에 유지보수(조치(수리))를 수행하게 되므로 인프라의 고장을 사전에 예방할 수 있다. More specifically, the two-level AIOAS (Artificial Intelligence Operator Support System) PFD (Preliminary Failure Prediction) technology for autonomous operation of data center infrastructure collects big-data by IMS (Infrastructure Monitoring System) related to operation management. In the statistical analysis module of the DCAP (data collection and analysis platform), PFD (preliminary failure prediction) is periodically performed by the statistical prediction model algorithm of various FPM (failure prediction models) to receive notification of pre-failure prediction results and maintain them before failure. Because maintenance (action (repair)) is performed, failure of the infrastructure can be prevented in advance.

또한, 데이터센터 인프라 자율운용을 위한 2수준(level)의 AIOAS(인공지능 운영자 지원 시스템)의 PFD(사전고장예측) 기술은 운용관리 관련 IMS(인프라 모니터링 시스템)에 의하여 빅-데이터를 수집하여 DCAP(데이터 수집 분석 플랫폼)의 통계적 분석 모듈에서 다양한 FPM(고장예측모델)의 통계적 예측 모델의 알고리즘에 의해 PFD를 주기적으로 수행하여 사전 고장 예측 결과를 통보 받아서 고장 발생 전에 유지보수(조치)를 수행하게 되므로 인프라의 고장을 미리 예방하게 되어 제공하던 응용서비스를 중단없이 계속해서 서비스를 제공하게 되므로 서비스 품질보장(QoS) 실현이 가능하다. In addition, the two-level AIOAS (Artificial Intelligence Operator Support System) PFD (Preliminary Failure Prediction) technology for autonomous operation of data center infrastructure collects big-data by IMS (Infrastructure Monitoring System) related to operation management In the statistical analysis module of (Data Collection and Analysis Platform), PFD is periodically performed by the algorithm of statistical prediction models of various FPM (Fault Prediction Models) to receive prior failure prediction results and perform maintenance (measures) before failure occurs. Therefore, it is possible to realize the quality of service (QoS) because it prevents the failure of the infrastructure in advance so that the application service that was provided is continuously provided without interruption.

추가적으로, 데이터센터 인프라 자율운용을 위한 2수준(level) AIOAS(인공지능 운영자 지원 시스템)의 PFP(사전고장예측) 기술은 운용관리 관련 IMS(인프라 모니터링 시스템)에 의하여 빅-데이터를 수집하여 DCAP(데이터 수집 분석 플랫폼)의 통계적 분석 모듈에서 다양한 PFPM(사전고장예측모델)의 통계적 예측 모델의 알고리즘에 의해 PFP(사전고장예측)를 주기적으로 수행하여 사전 고장 예측 결과를 통보 받아서 고장 발생 전에 조치(수리)를 수행하게 되므로 인프라의 고장을 미리 예방하게 되고, 제공하던 응용서비스에 대한 연속적인 품질보장(QoS)이 가능하다. In addition, PFP (Preliminary Failure Prediction) technology of 2-level AIOAS (Artificial Intelligence Operator Support System) for autonomous operation of data center infrastructure collects big-data by IMS (infrastructure monitoring system) related to operation management, In the statistical analysis module of the data collection and analysis platform), PFP (preliminary failure prediction) is periodically performed by the statistical prediction model algorithm of various PFPMs (preliminary failure prediction models) to receive pre-failure prediction results and take measures before failure (repair). ), the failure of the infrastructure is prevented in advance, and continuous quality assurance (QoS) for the provided application service is possible.

도 1은 본 발명의 적용될 수 있는 데이터센터 인프라 및 시설물의 구조 및 이를 대상으로 한 본 발명에 따른 데이터 수집 및 분석을 포함하는 자원 관리의 개념을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 TRVN 인프라의 운용 관리 장치의 블록 구성을 나타낸다.
도 3은 본 발명의 일 실시예에 따른 이벤트 모니터링 분석 플랫폼의 개념도이다.
도 4는 본 발명의 일 실시예에 따라 수집되는 빅데이터의 데이터 모델을 나타낸다.
도 5는 본 발명의 일 실시예에 따라 수집되는 빅데이터의 세부 데이터 모델을 나타낸다.
도 6은 본 발명의 일 실시예에 따라 TRVN(Trusted Reality Viewpointing Networking) 인프라 및 데이터센터 인프라 및 시설물 구조에서의 운용 관리 방법의 일 실시예를 나타낸다.
도 7은 본 발명의 일 실시예에 따른 따른 이벤트 스트리밍 발생 처리(수리) 관련 운용 관리 방법의 일 실시예를 나타낸다.
도 8은 본 발명에 따라 물리적 자원 및 가상화 자원을 포함하는 인프라구조에서 운용 관리를 위해 장애 정보를 수집하는 절차의 일 실시예를 도시한다.
도 9는 본 발명에 따른 상관 분석에 활용되는 산점도의 예를 도시한다.
도 10a, 10b 및 도 10c는 본 발명에서 활용하는 산점도의 다른 실시예를 나타낸다.
도 11a는 본 발명의 일 실시예에 따른 회귀분석 방법에 사용되는, n 개의 자료를 지나는 직선의 회귀방정식이고, 도 11b는 잔차(residual)에 의한 플롯(plot)을 지나는 직선의 회귀방정식을 나타낸다.
도 12는 본 발명의 일 실시예에 따라 다중회귀분석을 이용한 장애예측을 수행하는 경우 적용되는 산점도의 유형에따라 해당하는 변환을 수행하는 방법을 나타낸다.
도 13은 본 발명의 일 실시예에 따라 DCAP에 의해 수행되는 이벤트 장애/고장 관련 빅데이터의 수집, 분석, 사전 장애/고장 예측 분석 방법의 동작 흐름을 나타낸다.
도 14는 본 발명의 일 실시예에 따라 DCAP에 의해 수행되는 사전고장예측 방법의 동작 순서도이다.
도 15는 본 발명의 일 실시예에 따른 물리적 자원 및 가상화 자원을 포함하는 인프라구조에서의 운용 관리 방법의 일 실시예를 나타낸다.
1 is a diagram showing the concept of resource management including data collection and analysis according to the present invention, and the structure of a data center infrastructure and facilities to which the present invention can be applied.
2 is a block diagram of an apparatus for managing operation of a TRVN infrastructure according to an embodiment of the present invention.
3 is a conceptual diagram of an event monitoring analysis platform according to an embodiment of the present invention.
4 shows a data model of big data collected according to an embodiment of the present invention.
5 shows a detailed data model of big data collected according to an embodiment of the present invention.
6 shows an embodiment of an operation management method in a Trusted Reality Viewpointing Networking (TRVN) infrastructure and a data center infrastructure and facility structure according to an embodiment of the present invention.
7 shows an embodiment of an operation management method related to event streaming generation processing (repair) according to an embodiment of the present invention.
8 shows an embodiment of a procedure for collecting failure information for operation management in an infrastructure including physical and virtual resources according to the present invention.
9 shows an example of a scatter plot used for correlation analysis according to the present invention.
10A, 10B and 10C show another embodiment of a scatter plot utilized in the present invention.
FIG. 11A is a regression equation of a straight line passing through n pieces of data used in a regression analysis method according to an embodiment of the present invention, and FIG. 11B shows a regression equation of a straight line passing through a plot by residuals. .
12 illustrates a method of performing a corresponding transformation according to a type of a scatter plot applied when performing failure prediction using multiple regression analysis according to an embodiment of the present invention.
13 is a flowchart illustrating an operation flow of a method for collecting and analyzing event failure/failure related big data performed by a DCAP according to an embodiment of the present invention.
14 is a flowchart illustrating an operation of a method for predicting a failure in advance performed by a DCAP according to an embodiment of the present invention.
15 shows an embodiment of an operation management method in an infrastructure structure including physical and virtual resources according to an embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 더욱 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다. In the present invention, various modifications may be made and various embodiments may be provided, and specific embodiments will be illustrated in the drawings and described in more detail. However, this is not intended to limit the present invention to a specific embodiment, it is to be understood to include all changes, equivalents, and substitutes included in the spirit and scope of the present invention. In describing each drawing, similar reference numerals have been used for similar elements.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는 데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. "및/또는"이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다. Terms such as first, second, A, and B may be used to describe various elements, but the elements should not be limited by the terms. These terms are used only for the purpose of distinguishing one component from another component. For example, without departing from the scope of the present invention, a first element may be referred to as a second element, and similarly, a second element may be referred to as a first element. The term "and/or" includes a combination of a plurality of related stated items or any of a plurality of related stated items.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. When a component is referred to as being "connected" or "connected" to another component, it is understood that it may be directly connected or connected to the other component, but other components may exist in the middle. Should be. On the other hand, when a component is referred to as being "directly connected" or "directly connected" to another component, it should be understood that there is no other component in the middle.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used in the present application are only used to describe specific embodiments, and are not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In the present application, terms such as "comprise" or "have" are intended to designate the presence of features, numbers, steps, actions, components, parts, or combinations thereof described in the specification, but one or more other features. It is to be understood that the presence or addition of elements or numbers, steps, actions, components, parts, or combinations thereof, does not preclude in advance.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which the present invention belongs. Terms as defined in a commonly used dictionary should be interpreted as having a meaning consistent with the meaning in the context of the related technology, and should not be interpreted as an ideal or excessively formal meaning unless explicitly defined in this application. Does not.

본 발명은 소프트웨어 정의 데이터센터(SDDC: Software Defined Datacenter)에서 데이터센터 인프라 및 시설물을 운영하는 운용자가 상황(context) 발생 시 직접 의사결정을 내려 수행하던 것을 최소화하며, AI(인공지능)에 의해 최적의 의사결정을 통해 빠른 응용서비스 제공 및 품질(QoS)을 연속적으로 보장하는 AOM(Autonomous Operation Management: 자율운용관리) 기술에 관한 것이다.The present invention minimizes the fact that an operator who operates data center infrastructure and facilities in a software defined data center (SDDC) makes a decision and executes it directly when a context occurs, and is optimized by AI (artificial intelligence). It relates to AOM (Autonomous Operation Management) technology that continuously guarantees rapid application service provision and quality (QoS) through decision-making.

AOM(자율운용관리) 기술은 미래 4차 산업 응용서비스(스마트시티, 스마트공장, 스마트병원, 스마트농장, 스마트홈, 커넥티드 자동차 등)의 대기시간(latency)을 줄이고 동적으로 인프라의 자원, 구성관리 변경을 자동으로 수행하여 빠른 응용서비스 제공 및 서비스의 품질(QoS)을 연속보장하도록 운용자의 의사결정을 최소화하는 형태의 운용관리를 자율(autonomous)로 수행하기 위한 2수준(Level)의 기술이다.AOM (autonomous operation management) technology reduces the latency of future 4th industrial application services (smart city, smart factory, smart hospital, smart farm, smart home, connected car, etc.) and dynamically configures infrastructure resources It is a two-level technology for autonomously performing operation management in the form of minimizing the operator's decision making to provide fast application service and continuously guarantee quality of service (QoS) by automatically performing management change. .

AOMS(자율운용관리시스템) 기술은 아래와 같이 6단계로 구분할 수 있다. AOMS (autonomous management system) technology can be divided into six stages as follows.

(1) 0수준(Conventional Operation Management): 전통적 운용관리는 CLI를 이용하여 모든 운용 작업을 운용자가 직접 모든 명령어를 수작업으로 단순하게 인프라 및 시설물 운용을 수행하는 단계(One) Level 0 (Conventional Operation Management): Traditional operation management is a step in which the operator directly performs all operations using the CLI and executes all commands manually and simply operates infrastructure and facilities.

(2) 1수준(Automatic Operation Management): 자동 운용관리는 소프트웨어 정의된 자동화 소프트웨어 툴을 적용하여 운용하는 단계로서, 컴퓨터 컨트롤러, 네트워크 컨트롤러, 스토리지 컨트롤러 및 가상화 소프트웨어인 가상머신을 제공하는 다양한 하이퍼바이저(openstack, VMware, Azure, Kubernetes, Docker, Rackspace 등)로 VM(가상머신) 및 컨테이너 등을 생성하는 기능을 사용하여 인프라 운용을 수행하는 단계로 운용에서 얻어지는 빅-데이터를 수집하지 않고, 인프라의 자원 제공을 자동화 컨트롤러를 이용하여 오토스케일링 및 오토-프로비저닝에 의해 운용관리만을 수행하는 단계(2) Level 1 (Automatic Operation Management): Automatic operation management is a step in which software-defined automation software tools are applied and operated, and various hypervisors (openstack, VMware) that provide computer controllers, network controllers, storage controllers, and virtual machines that are virtualization software. , Azure, Kubernetes, Docker, Rackspace, etc.) to perform infrastructure operation using the function to create VMs (virtual machines) and containers, and automate the provision of infrastructure resources without collecting big-data obtained from operation. Step of performing only operation management by auto-scaling and auto-provisioning using a controller

(3) 2수준(Autonomic Operation Management): 제2 수준은 인공지능 운용자지원시스템(AIOAS)으로 클라우드 소프트웨어 정의 센터(SDDC) 기반으로 소프트웨어 정의 컴퓨터(SDC), 소프트웨어 정의 네트워킹(SDN), 네트워크 기능 가상화(NFV) 및 소프트웨어 정의 스토리지(SDS) 기술에 의한 오케스트레이터를 적용하여 TCAS(임계값 교차분석시스템), FDAS(장애/고장 탐지경보시스템), IMS(모니터링시스템), AF(분석프레임워크)의 모듈에서 인공지능 및 통계적모델 기반의 PFPS(사전장애예측 시스템)를 적용하여 사전 장애/고장 예측에 의한 운용관리를 수행하는 단계이다. (3) Level 2 (Autonomic Operation Management): Level 2 is an artificial intelligence operator support system (AIOAS), based on a cloud software definition center (SDDC), software-defined computer (SDC), software-defined networking (SDN), and network function virtualization (NFV). And software-defined storage (SDS) technology by applying the orchestrator to the module of TCAS (Threshold Value Cross Analysis System), FDAS (Fault/Fault Detection and Alarm System), IMS (Monitoring System), AF (Analysis Framework). This step is to perform operation management by predicting failures/failures in advance by applying PFPS (Proactive Failure Prediction System) based on intelligent and statistical models.

제2 수준의 AIOAS(인공지능 운용자지원시스템)는, AOAS(Advanced Operator Assistance System; 첨단 운용자 지원 시스템), IOAS(Intelligence Operator Assistance System; 지능형 운용자 지원 시스템), SOAS(Smart Operator Assistance System; 스마트 운용자 지원 시스템), AIOAS(Artificial Intelligence Operator Assistance System; 인공지능 운용자 지원 시스템) 등으로 지칭될 수 있다. The second level of AIOAS (Artificial Intelligence Operator Assistance System) is AOAS (Advanced Operator Assistance System), IOAS (Intelligence Operator Assistance System; Intelligent Operator Assistance System), SOAS (Smart Operator Assistance System; Smart Operator Assistance). System), AIOAS (Artificial Intelligence Operator Assistance System), and the like.

본 발명에서 사용되는 용어 "장애(fault)"는 기능 단위가 요구대로의 기능을 수행할 수 없게 되는 우발적 조건이나 정상적으로 동작하고 있던 장치가 장치의 일부에 기능적 변화가 생겨 의도했던 동작이 불가능 하게 되는 상태를 총칭하는 의미이다. 즉, 장애는 시스템이 운영은 가능한 상태이나 향후 정상 운영이 아닌 비정상적인 고장상태로 진행할 수도 있는 상태를 의미할 수 있다. The term "fault" used in the present invention is an accidental condition in which a functional unit cannot perform the function as requested, or a device that has been operating normally has a functional change in a part of the device, rendering the intended operation impossible. It is a generic term for state. In other words, a failure may mean a state in which the system is operable, but may proceed to an abnormal failure state other than normal operation in the future.

또한, 용어 "고장(failure)"은 시스템의 기능 단위가 요구된 기능을 수행하는 능력을 잃은 상태로, 동작 자체가 불가능하여 시스템 운영이 불가능한 상태를 의미하는 경우에 사용한다. In addition, the term "failure" is used when the functional unit of the system has lost its ability to perform a requested function, and the operation itself is impossible and thus the system operation is impossible.

AOMS의 제2 수준을 AOAS/IOAS/SOAS/AIOAS라 명칭하며, 아래의 기능 및 그 외 기능을 포함할 수 있다. The second level of AOMS is called AOAS/IOAS/SOAS/AIOAS, and may include the following functions and other functions.

① FDAS(Fault/Failure Detection Alert/Alarm System): 장애/고장 발견(탐지) 경보 시스템① Fault/Failure Detection Alert/Alarm System (FDAS): Fault/Failure Detection Alert/Alarm System

② TCAS(Threshold Crossing Analysis System): 임계값(한계값) 교차 분석 시스템② Threshold Crossing Analysis System (TCAS): A threshold crossing analysis system

③ PFDS(Pre Fault Diagnosis System): 사전 고장 진단 시스템③ PFDS (Pre Fault Diagnosis System): Pre-fault diagnosis system

④ IMS(Infrastructure Monitoring System): 인프라 모니터링 시스템④ IMS (Infrastructure Monitoring System): Infrastructure monitoring system

⑤ PFPS(Pre Failure Prediction System): 사전 고장 예측 시스템⑤ PFPS (Pre Failure Prediction System): Pre-failure prediction system

⑥ ADS(Anomaly Dection Analysis System): 이상 탐지 분석 시스템 ⑥ ADS (Anomaly Dection Analysis System): Anomaly Detection Analysis System

⑦ APAS(Abnormal Prediction Analysis System): 비정상 예측 분석 시스템⑦ Abnormal Prediction Analysis System (APAS): Abnormal Prediction Analysis System

⑧ PMPS(Pre Maintenance Prediction System): 사전유지보수예측시스템 ⑧ PMPS (Pre Maintenance Prediction System): Pre-Maintenance Prediction System

⑨ 그 외 기능 포함⑨ Other features included

(4) 3수준(Semi-Autonomous Operation Management): 반자율 운용관리는 이벤트 상황에 대하여 운용자의 의사결정을 약간 최소화하는 형태의 반자율적인 의사결정을 수행하여 운용관리를 수행하는 단계(4) Level 3 (Semi-Autonomous Operation Management): Semi-autonomous operation management is a step in which operation management is performed by performing semi-autonomous decision-making in a form that slightly minimizes the operator's decision-making for event situations.

(5) 4수준(Autonomousf Operation Management): 자율 운용관리는 인프라 운용 중에 발생되는 다양한 사건(event) 및 상황(situation)에 대하여 운용자의 의사결정을 매우 최소화하며, 문제 해결을 컴퓨터를 지능화된 의사결정시스템(DS: Decision System)의 소프트웨어 프로그램의 알고리즘에 의한 인공지능(AI)의 기계학습(ML) 기반으로 의사결정 수행(action) 및 실행(Execute)을 운영자의 도움없이 자율적으로 수행하여 자율운용관리를 수행하는 단계(5) Level 4 (Autonomousf Operation Management): Autonomous operation management minimizes the operator's decision-making for various events and situations that occur during infrastructure operation, and uses a computer to solve problems. : Decision System), based on machine learning (ML) of artificial intelligence (AI) by algorithm of software program, autonomously performing decision-making (action) and execution (Execute) without the help of an operator to perform autonomous operation management. step

(6) 5수준(Unmanned Autonomous Operation Management): 무인자율 운용관리는 인프라 운용자 없이 데이터센터 인프라를 지능화된 컴퓨터의 소프트웨어 알고리즘에 의해 인공지능(AI)으로 모든 사건(event)과 상황(situation)에 대하여 스스로 판단하여 무인화로 인프라를 운용하는 단계(6) Level 5 (Unmanned Autonomous Operation Management): Unmanned Autonomous Operation Management uses artificial intelligence (AI) to self-determine all events and situations using intelligent computer software algorithms without infrastructure operators. Steps to operate infrastructure unattended

본 발명은, ICT(Information and Communications Technologies) SDDC(소프트웨어 정의 데이터센터) 인프라(서버, 네트워크, 스토리지)의 운영에서 수집된 빅데이터를 이용하여 데이터마이닝의 다양한 통계적 추정/예측(estimation/prediction/forecasting) 모델 알고리즘을 적용하여 인프라의 고장에 대하여 추정/예측 방정식의 최적 모델(optimal model)을 찾아서 그 결과(PFP: 사전고장예측)에 대한 보고서를 고장이 발생하기 전에 운영자 오케스트레이터(orchestrator) UI에 팝업 및 SMS(문자), e-mail, 스마트폰의 앱 등으로 사전 통보(alarm/alert)하는 기능을 갖는 AOMS(자율운용관리시스템)의 2수준의 AIOAS(인공지능운영자지원시스템)에서 PFP(사전고장예측) 기술로 인프라의 고장을 사전예방(Pre prevention)하는 것을 목적으로 한다. The present invention uses the big data collected from the operation of ICT (Information and Communications Technologies) SDDC (software defined data center) infrastructure (server, network, storage) to provide various statistical estimation/forecasting (estimation/prediction/forecasting) of data mining. ) Apply the model algorithm to find the optimal model of the estimation/prediction equation for the failure of the infrastructure and report the result (PFP: Preliminary Failure Prediction) to the operator orchestrator UI before the failure occurs. PFP (Artificial Intelligence Operator Support System) of AOMS (Autonomous Operation Management System), which has the function of pre-notification (alarm/alert) by pop-up, SMS (text), e-mail, and smartphone app, etc. It aims to prevent infrastructure failures with advance failure prediction) technology.

본 발명은 또한, 최종적으로 최적의 추정/예측된 데이터마이닝의 통계적 알고리즘을 AI(인공지능)의 DL(딥러닝)에 대응하는 지도 학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning)의 알고리즘 및 통계적 분석 알고리즘을 DCAP(데이터 수집 분석 플랫폼)의 AF(분석 프레임워크)모듈에 다양한 최적의 알고리즘을 적용하여 운영자의 의사결정을 최소화하여 고장/장애에 대한 예측 결과의 보고서를 즉시 운영자에게 제공하는 기술이다. 그러므로 운영자는 즉시 인프라의 장애/고장의 예측된 결과의 보고서에 의해 인프라에 대한 사전 조치(수리)를 수행하게 되므로 고장을 예방(Prevention)하게 되어 운용비용(OPEX)를 절감하며, 연속적으로 서비스 품질보장을 수행하게 된다.In addition, the present invention also applies the finally optimal estimated/predicted statistical algorithm of data mining to supervised learning, unsupervised learning, and reinforcement learning corresponding to deep learning (DL) of AI (artificial intelligence). (Reinforcement Learning) algorithm and statistical analysis algorithm are applied to the AF (analysis framework) module of DCAP (data collection and analysis platform) to minimize operator's decision making and report of prediction results for failure/failure It is a technology that immediately provides the operator. Therefore, the operator immediately performs preliminary measures (repairs) for the infrastructure according to the report of the predicted results of the failure/breakdown of the infrastructure, thereby preventing the failure and reducing the operating cost (OPEX). The guarantee is carried out.

본 발명의 해결 수단은 첫째, ICT 인프라에서 AOMS(자율운용관리시스템) 기술에서 2수준의 AIOAS(인공지능 운용자지원시스템)의 기능에서 TCAS(임계값 교차분석시스템), FDAS(장애/고장 탐지경보시스템), IMS(모니터링시스템), DCAP(데이터 수집분석플랫폼)의 AF(분석프레임워크)의 모듈에서 인공지능 및 통계적모델 기반의 PFPS(사전장애예측 시스템)를 적용한 장치 및 방법을 통한 인프라 사전 고장을 예측에 의해 운용관리를 수행하는 기술이다. The solution of the present invention is, first, in the AOMS (autonomous operation management system) technology in the ICT infrastructure, TCAS (threshold cross-analysis system), FDAS (failure/failure detection alarm) in the function of the second level AIOAS (artificial intelligence operator support system). System), IMS (monitoring system), DCAP (data collection and analysis platform) AF (analysis framework) module, artificial intelligence and statistical model-based PFPS (Proactive Failure Prediction System) applied device and method through infrastructure pre-failure It is a technology that performs operation management by prediction.

둘째, PFP(사전고장예측)는 인프라의 빅데이터를 이용하여 AF(분석 프레임워크)에서 데이터-마이닝의 다양한 통계적 추정/예측 모델을 적용하여 최적 모델(optimal model)을 찾아서 AF(분석 프레임워크)의 모듈에 AI(인공지능) DL(딥러닝) 및 통계적 최적모델에 대응하는 알고리즘을 AF에 모듈로 적용하여 다양한 고장의 유형에 대하여 주기적으로 수집되는 인프라의 운용 빅-데이터에 대하여 주기적으로 자동(autonomic)화된 프로세스에 의해서 인프라의 고장을 사전 예측한 결과와 시각화된 그림의 보고서가 자동적으로 제공되어 통계학/AI 비전문가도 쉽게 사전고장예측 결과와 그랙픽이 포함된 결과 보고서를 보고 운용자가 쉽게 인프라의 사전 발생될 고장을 쉽게 이해하고 알아볼 수 있도록 제공하는 것이 본 발명의 해결 수단이다.Second, PFP (Prior Failure Prediction) uses the big data of the infrastructure and applies various statistical estimation/prediction models of data-mining in AF (analysis framework) to find the optimal model and AF (analysis framework). By applying the algorithm corresponding to AI (artificial intelligence) DL (deep learning) and statistical optimal model to the module of the AF as a module, the operation of infrastructure that is periodically collected for various types of failures. The result of predicting the failure of the infrastructure and the report of the visualized picture is automatically provided by the autonomic) process, so that even non-statisticians/AI experts can easily see the result report including the failure prediction result and graphic, and the operator can easily advance the infrastructure. It is a solution of the present invention to provide an easy understanding and recognizable failure to occur.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 적용될 수 있는 데이터센터 인프라 및 시설물의 구조 및 이를 대상으로 한 본 발명에 따른 데이터 수집 및 분석을 포함하는 자원 관리의 개념을 나타낸 도면이다.1 is a diagram showing the concept of resource management including data collection and analysis according to the present invention, and the structure of a data center infrastructure and facilities to which the present invention can be applied.

도 1은 본 발명이 적용되는 인프라, 특히 데이터센서 인프라, TRVN(Trust Reality Viewpointing Networking) 인프라의 구조 및 이를 대상으로 하여 본 발명에 따른 데이터 수집 및 분석이 이루어지는 프레임워크를 나타낸다. FIG. 1 shows a structure of an infrastructure to which the present invention is applied, particularly a data sensor infrastructure and a TRVN (Trust Reality Viewpointing Networking) infrastructure, and a framework for collecting and analyzing data according to the present invention.

도 1의 인프라는 응용서비스를 제공하는 데이터센터 인프라일 수 있으며, 본 발명에서는 인프라의 운영 중 발생하는 운영 관련 빅데이터를 수집 및 분석하기 위해 도 1에 도시된 바와 같은 DMMP(100) 및 DCAP(200)를 제공한다. The infrastructure of FIG. 1 may be a data center infrastructure that provides application services, and in the present invention, the DMMP 100 and DCAP (as shown in FIG. 1) in order to collect and analyze big data related to operation generated during operation of the infrastructure. 200).

본 발명이 적용되는 데이터센터 인프라는 물리적 하드웨어(11), 운영체체 또는 하이퍼바이저(12), 네트워크 기능 계층(13), 멀티-클라우드 어댑테이션(14), SDN-C(15), 및 GNFC(Generic NF Controller)(16)를 포함할 수 있다. The data center infrastructure to which the present invention is applied includes physical hardware 11, operating system or hypervisor 12, network function layer 13, multi-cloud adaptation 14, SDN-C 15, and GNFC (Generic NF Controller) (16) may be included.

물리 계층(11)은 데이터센터 인프라의 물리적인 하드웨어로서 컴퓨터, 네트워크 및 스토리지를 포함할 수 있다. The physical layer 11 is the physical hardware of the data center infrastructure and may include computers, networks and storage.

하이퍼바이저/OS 계층(12)은 물리적 하드웨어인 컴퓨터, 네트워크 및 스토리지에 대하여 통합 가상머신을 제공하는 다양한 하이퍼바이저(openstack, VMware, Azure, Kubernetes, Rackspace 등) 또는 OS를 포함하여, VM(가상머신), 컨테이너 등을 생성할 수 있다.The hypervisor/OS layer 12 includes various hypervisors (openstack, VMware, Azure, Kubernetes, Rackspace, etc.) or OS that provide integrated virtual machines for computers, networks, and storage, which are physical hardware, and VMs (virtual machines). ), containers, etc. can be created.

네트워크 기능 계층(Network Function Layer)(13)은 가상화된 VM(Virtual Machine) 및 컨테이너에 대하여 상호간의 연결을 위한 VNF(Virtualized Network Function) 및 PNF(Physical Network Function) 기능을 제공할 수 있다.The network function layer 13 may provide Virtualized Network Function (VNF) and Physical Network Function (PNF) functions for mutual connection to a virtualized VM (Virtual Machine) and container.

여기서, VNF는 VM 및 컨테이너에 소프트웨어 기반의 VNF에 대한 프로토콜을 제공하는 애플리케이션 기능을 제공한다. 즉, VNF는 하나 이상의 네트워크 서비스를 제공하는 소프트웨어 기반 애플리케이션이며, NFVI(Network Functions Virtualization Infrastructure)에서 제공하는 가상화된 인프라를 사용하여 네트워크에 연결하고 프로그래밍 및 확장 가능한 네트워크 서비스를 제공한다. Here, VNF provides application functions that provide protocols for software-based VNFs to VMs and containers. In other words, VNF is a software-based application that provides one or more network services, and connects to the network using a virtualized infrastructure provided by Network Functions Virtualization Infrastructure (NFVI) and provides programmable and scalable network services.

또한, PNF는 물리적인 하드웨어인 네트워크 장비와 연결을 수행하는 계층으로, 표준 이더넷인 IEEE 802.3 및 스토리지와의 연결을 위한 Ethernet, FC 또는 InfiniBand 등의 NIC을 통하여 통신을 수행할 수 있다. In addition, PNF is a layer that connects to network equipment, which is physical hardware, and can communicate through a NIC such as IEEE 802.3, which is standard Ethernet, and Ethernet, FC, or InfiniBand for connection with storage.

한편, VNFM(Virtualized Network Function Managers)은 개별 VNF 인스턴스에 대하여 각각의 EM(Element Management)를 통해, 인스턴스 상태에 대한 모니터링 정보를 수집하여 제공하는 기능을 수행한다. Meanwhile, Virtualized Network Function Managers (VNFM) perform a function of collecting and providing monitoring information on the instance status through each EM (Element Management) for individual VNF instances.

멀티-클라우드 어댑테이션(14)은 클라우드 VIMS(Virtualized Infrastructure Managements)로서, 물리적인 인프라(예를 들어, 컴퓨터, 네트워크, 스토리지 등)에 대하여 가상머신 및 컨테이너를 생성하고, 워크로드를 생성하며, 네트워킹 및 클라우드 모델링을 수행하여, FCAPS(Fault, Configuration, Account, Performance, Security), KQI(Key Quality Indicators), QoE(Quality of Experience), KCI(Key Capacity Indicators), KPI(Key Performance Indicators), 및 SLA(Service Level Agreement) 중 하나 이상의 모니터링 정보 등을 텔리메트리에 대한 메타 데이터를 기반으로 생성하여 DMMP(Data Movement Management Platform)(100)로 제공한다.The multi-cloud adaptation 14 is a cloud VIMS (Virtualized Infrastructure Managements), which creates virtual machines and containers for physical infrastructure (eg, computers, networks, storage, etc.), creates workloads, and creates networking and By performing cloud modeling, FCAPS (Fault, Configuration, Account, Performance, Security), KQI (Key Quality Indicators), QoE (Quality of Experience), KCI (Key Capacity Indicators), KPI (Key Performance Indicators), and SLA ( One or more of the service level agreements) are generated based on meta data for telemetry and provided to the Data Movement Management Platform (DMMP) 100.

SDN-C(15)는 소프트웨어 정의 네트워킹의 컨트롤러의 기능을 수행하며, 0 내지 3계층의 기능을 수행한다. SDN-C(15)는 VE(virtual entity)에 소프트웨어 정의된 네트워킹 프로토콜인 BGP(Border Gateway Protocol), vLAN 및 Netconf/Yang에 의해 구성 관리를 수행한다. The SDN-C 15 functions as a controller for software-defined networking, and performs the functions of layers 0 to 3. The SDN-C (15) performs configuration management by means of Border Gateway Protocol (BGP), vLAN, and Netconf/Yang, which are software-defined networking protocols in VE (virtual entity).

SDN-C 플랫폼은 또한, SLI(Service Logic Interpreter), MySQL 데이터베이스 및 ODL(Opendaylight)의 설치 및 시작 기능을 제공할 수 있으며, 성능 향상을 위해 DPDK(Data Plane Development Kit)를 적용할 수 있다. SDN-C 플랫폼은 또한, SR-IOV(Single Root I/O Virtualization)를 적용하여 네트워크 인터페이스 카드(NIC; Network Interface Card)를 가상화함으로써 CPU의 싸이클을 줄여 서버의 CPU를 사용하지 않으므로 텔리메트리 데이터의 전송의 성능을 향상할 수 있다. 즉, SDN-C는, NIC와 게스트(Guest) OS간의 네트워크 트래픽 전달 성능을 향상하기 위한 목적으로 SR-IOV를 사용할 수 있다. The SDN-C platform can also provide installation and startup functions of SLI (Service Logic Interpreter), MySQL database, and ODL (Opendaylight), and DPDK (Data Plane Development Kit) can be applied to improve performance. The SDN-C platform also applies SR-IOV (Single Root I/O Virtualization) to virtualize the network interface card (NIC) to reduce the CPU cycle and thus does not use the server's CPU. Can improve the performance of the transmission. That is, SDN-C may use SR-IOV for the purpose of improving network traffic transfer performance between the NIC and the guest OS.

정리하면, SDN-C는 IP/VNF 할당, L2 서비스 생성, L3 VPN 서비스 생성, 네트워크 구성관리, VNF 구성관리, SFC(Service Function Chaining) 관리, 마이크로 서비스 API 제공, Netconf/Yang에 의한 구성(configuration) 관리, OSS(Operations Support System) API를 통한 연결을 제공할 수 있다. 또한, SDN-C는 SD-WAN의 생성, TE 터널링의 생성, BGP 구성 관리, SW 업그레이드 등의 기능을 포함할 수 있다. In summary, SDN-C assigns IP/VNF, creates L2 service, L3 VPN service creation, network configuration management, VNF configuration management, SFC (Service Function Chaining) management, microservice API provision, configuration management by Netconf/Yang, and connection through OSS (Operations Support System) API. I can. In addition, SDN-C may include functions such as SD-WAN generation, TE tunneling generation, BGP configuration management, and SW upgrade.

GNFC(Generic VNF Controller)(16)는 APPC(Application Controller)와 VFC(Virtualized Network Function Controller)의 기능을 포함하며, VNF/PNF/서비스 계층1 내지 7에 대한 구성 및 라이프싸이클(lifecycle)의 관리 수행 기능을 포함한다. GNFC (Generic VNF Controller) 16 includes the functions of APPC (Application Controller) and VFC (Virtualized Network Function Controller), and performs configuration and lifecycle management for VNF/PNF/service layers 1 to 7 Includes features.

좀더 구체적으로, GNFC는 마이크로서비스 생성에 의한 모델-구동 라이프싸이클(model-driven lifecycle) 관리, 구성 관리, 개시/중단(Start/stop) 관리, Audit 기능(모니터링 기능), 힐 체크(Heal check) 기능, L4~L7 서비스 기능, 스케일(Scale) 인/아웃(in/out) 기능, 서비스 상태 관리, 소프트웨어 업그레이드 기능을 제공한다. 또한 GNFC는 저장소(Repository)를 통해 마이크로서비스 로직(logic), VNFD(VNF Descriptors), 구성 템플릿(Config Templates), 워크로드 규칙(workload Rule), 정책 캐쉬(Policy cache) 및 이벤트와 관련된 데이터의 저장을 수행하며, DMMP와의 연결을 제공한다.More specifically, GNFC Model-driven lifecycle management by microservice creation, configuration management, start/stop management, audit function (monitoring function), heal check function, L4~L7 service It provides functions, scale in/out functions, service status management, and software upgrade functions. In addition, GNFC stores microservice logic, VNFD (VNF descriptors), config templates, workload rules, policy cache, and event-related data through a repository. And provides a connection with the DMMP.

한편, DMMP(Data Movement Management Platform)(100)은 데이터 이동 관리를 수행하는 플랫폼으로, 모든 소스에서 모든 대상에게 데이터를 전송하고 관련 처리하는 데이터 이동서비스 제공 플랫폼이다. 즉, DMMP는 데이터 필터링, 전송 및 처리를 수행하는 플랫폼으로 구체적으로 아래의 기능을 제공할 수 있다.Meanwhile, the Data Movement Management Platform (DMMP) 100 is a platform that performs data movement management, and is a data movement service providing platform that transmits and processes data from all sources to all targets. That is, the DMMP is a platform that performs data filtering, transmission, and processing, and may specifically provide the following functions.

- 데이터 필터링 기능: 에지 노드(MEC/Cloudlet/OEC) 및 코어 노드 에서 데이터 분석을 위해 사전 수집/변환 처리되는 데이터 프로세스 과정의 라이프싸이클(lifecycle)을 수행하여 데이터를 압축 전송하기 위한 사전 단계의 기능- Data filtering function: A pre-stage function for compressing and transmitting data by performing the lifecycle of the data process process that is pre-collected/converted for data analysis at the edge node (MEC/Cloudlet/OEC) and the core node.

- 데이터 전송 기능: 데이터 수집 장치 내부 및 데이터센터 수집 장치로의 전송 기능으로, 여기서, 전송 방법으로는 파일 기반 및 이벤트 기반의 데이터 이동이 모두 적용되어 사용될 수 있으며, 데이터 전송 프로세스는 최소한의 대기시간(latency), 보장된 전달(delay) 및 고가용성(high availability) 솔루션으로 데이터를 이동 관리하는 기능을 제공함- Data transmission function: This is a function of transmission inside the data collection device and to the data center collection device. Here, as the transmission method, both file-based and event-based data movement can be applied and used, and the data transmission process has a minimum waiting time ( latency), guaranteed delivery (delay) and high availability solutions, providing the ability to move and manage data

- 데이터 처리(processing) 기능: 대기 시간이 짧고 처리량이 많은 데이터의 변환, 집계 및 통계적 모델에 의한 인프라의 고장 진단 및 사전 고장 예측 분석(Prediction Analytics) 모듈에서 활용할 수 있도록 데이터의 수집 가공/변환을 처리하는 기능, 실시간 데이터 처리를 위한 기능을 제공함- Data processing function: Processes data collection processing/transformation for use in infrastructure failure diagnosis and prediction analytics module based on conversion, aggregation and statistical model of data with low latency and high throughput Functions, and functions for real-time data processing

DMM 플랫폼(100)은 Apache Kafka 또는 하둡의 데이터 웨어하우징 등으로 구축될 수 있으며, Restful API를 통하여 전달되는 메시지 및 모니터링에 의한 빅-데이터를 수집하여 스토리지에 저장할 수 있다. The DMM platform 100 may be built with Apache Kafka or Hadoop data warehousing, and may collect messages delivered through Restful API and big-data by monitoring and store them in storage.

데이터 수집분석 플랫폼인 DCAP(Data Collection Analytics Platform)(200)는 멀티클라우드 어댑테이션(14), SDN-C(15), VNF컨트롤러(16)로부터 수집한 DMMP(100)의 빅데이터를 이용하여 이벤트(장애/고장), 사전 진단(diagnosis)분석, 근본원인분석(RCA: Root Cause Analysis), 한계점/임계값(threshold crossing analytics) 및 사전 장애/고장 예측 분석(PFP)을 위해 TCAS(임계값 교차분석시스템), FDAS(장애/고장 탐지경보시스템), IMS(모니터링시스템), AF(분석프레임워크)의 모듈에서 인공지능 및 통계적모델 기반의 PFPS(사전장애예측 시스템)를 적용하여 수행하는 분석 프레임워크이다. The Data Collection Analytics Platform (DCAP) 200, a data collection and analysis platform, uses the big data of the DMMP 100 collected from the multi-cloud adaptation 14, SDN-C 15, and the VNF controller 16. Failure/failure), prior diagnosis (diagnosis) analysis, root cause analysis (RCA), threshold crossing analytics, and TCAS (threshold cross analysis) for pre-failure/failure prediction analysis (PFP) System), FDAS (failure/failure detection and warning system), IMS (monitoring system), and AF (analysis framework) modules, by applying PFPS (pre-failure prediction system) based on artificial intelligence and statistical models. to be.

DCAP(200)는 DMMP(100)와의 연동을 위해 빅데이터 수집 프레임워크, DMMP 제어, DCAP 제어 및 DCAP 오케스트레이션 등의 기능을 제공한다.The DCAP 200 provides functions such as a big data collection framework, DMMP control, DCAP control, and DCAP orchestration for interworking with the DMMP 100.

한편, 도 1에서는 DCAP(200)와 DMMP(100)를 별개의 블록으로 도시하였으나, DMMP(100)은 DCAP(200) 내에 통합된 형태로 존재하거나 각각의 시스템으로 존재할 수도 있다. Meanwhile, in FIG. 1, the DCAP 200 and the DMMP 100 are illustrated as separate blocks, but the DMMP 100 may exist in an integrated form within the DCAP 200 or may exist as respective systems.

도 2는 본 발명의 일 실시예에 따른 TRVN 인프라의 운용 관리 장치의 블록 구성을 나타낸다. 2 is a block diagram of an apparatus for managing operation of a TRVN infrastructure according to an embodiment of the present invention.

도 2의 DCAP(Data Collection Analytics Platform)는 인프라의 물리적 또는 가상화 장치를 응용서비스 운용 중에 발생하는 빅-데이터를 수집하여 분석하는 프레임워크 구성도로 인프라 모니터링 시스템(IMS)(210)을 포함하는 플랫폼을 나타낸다.The Data Collection Analytics Platform (DCAP) of FIG. 2 is a framework configuration diagram that collects and analyzes big-data generated during application service operation of a physical or virtualized device of an infrastructure, and a platform including an infrastructure monitoring system (IMS) 210 Show.

다시 말해, 도 2는 인프라의 물리적 또는 가상화 장치를 운용 중에 발생하는 빅-데이터를 수집하여 분석하는 DCAP(Data Collection Analytics Platform)의 프레임워크 구성도를 나타낸다.In other words, FIG. 2 shows a framework configuration diagram of a Data Collection Analytics Platform (DCAP) that collects and analyzes big-data generated while operating a physical or virtualization device of an infrastructure.

DCAP 오케스트레이터는 DCAP의 프레임워크 구성도에서 운용자 또는 분석가가 활용하는 UI 화면을 제공하는 오케스트레이션으로 IMS(Infrastructure Monitoring System)(210), DCAP 제어관리(220), DMMP의 연동관리(100), DMM 버스 제어관리(230), 빅데이터 수집 프레임워크(240) 및 다양한 유형의 AF(분석 프레임워크)(250) 등으로 구성되어 제공한다.DCAP Orchestrator is an orchestration that provides UI screens used by operators or analysts in the framework diagram of DCAP. IMS (Infrastructure Monitoring System) 210, DCAP control management 220, DMMP interlocking management 100, DMM A bus control management 230, a big data collection framework 240, and various types of AF (analysis framework) 250 are provided.

IMS(Infrastructure Monitoring System)(210)는 DCAP의 TCAS(임계값 교차분석시스템), FDAS(장애/고장 탐지경보시스템)을 통한 에 의한 사전 장애/고장 또는 이벤트에 대한 경고/통보 및 AF(분석프레임워크)의 모듈을 이용한 장애/고장 사전 진단 결과, TCA에 대한 장애/고장 상관분석에 의한 RCA 분석결과, PFP(사전고장예측)에 대한 결과보고서(최적모델의 분석결과 및 시각화된 그래픽 형태) 등에 대한 내용 및 FCAPS, KCI, KQI, QoE, KPI, SLA 등에 대하여 TCAS(임계값 교차분석시스템), FDAS(장애/고장 탐지경보시스템)의 모니터링 수행결과 및 AF(분석프레임워크)의 분석 알고리즘에 의한 분석결과의 보고서를 제공한다.IMS (Infrastructure Monitoring System) 210 is a warning/notification and AF (analysis frame) for pre-failure/failure or events through DCAP's TCAS (Threshold Cross Analysis System), FDAS (Fault/Fault Detection Alarm System). Work) module, failure/failure pre-diagnosis result, RCA analysis result by failure/failure correlation analysis for TCA, result report for PFP (predictive failure prediction) (analysis result of optimal model and visualized graphic form), etc. Contents and FCAPS, KCI, KQI, QoE, KPI, SLA, etc., based on the monitoring results of TCAS (threshold cross-analysis system), FDAS (failure/failure detection and alarm system), and analysis algorithm of AF (analysis framework). Provides a report of the analysis results.

DCAP 컨트롤러(220)는 복수의 API를 포함하여 구성될 수 있으며, 리포팅 API(VM Status, Service Instance Status) 및 API를 통하여 자원의 상태를 제공할 수 있다. The DCAP controller 220 may be configured to include a plurality of APIs, and may provide a status of a resource through a reporting API (VM Status, Service Instance Status) and an API.

DMMP 버스 컨트롤러(230)는 대용량 파일과 최적화된 파일 기반의 데이터 이동 관리 기능을 제공한다. DMMP 버스 컨트롤러(230)는 두 가지 형태로 동작할 수 있는데, 라우터에 대한 메시지 전송 버스로 작동하는 경우와 파일 전송을 수행하는 버스 역할을 하는 데이터 라우터 형태로 동작하는 경우이다. 즉, DMMP 버스 컨트롤러는 메시지, 이벤트 및 데이터 라우팅의 빅데이터를 전달할 수 있다. The DMMP bus controller 230 provides a large file and an optimized file-based data movement management function. The DMMP bus controller 230 can operate in two types, a case of operating as a message transmission bus for a router and a case of operating as a data router functioning as a bus performing file transmission. In other words, the DMMP bus controller can deliver big data of messages, events and data routing.

수집 프레임워크(Collection Framework)(240)는 스트림 데이터, 배치 파일의 데이터를 수집한다. 즉, 수집 프레임워크(240)는 멀티-클라우드 텔리메트리 어댑테이션(14)으로부터 이벤트 스트림 데이터, 배치 파일 데이터를 수집하며, SNMP(Simple Network Management Protocol), Syslog, JSON 및 Rest 등을 통하여 서비스, 네트워크 및 인프라로부터 장애/고장 및 성능에 대한 빅데이터를 수집할 수 있다.The collection framework 240 collects stream data and batch file data. That is, the collection framework 240 collects event stream data and batch file data from the multi-cloud telemetry adaptation 14, and provides services and networks through Simple Network Management Protocol (SNMP), Syslog, JSON, and Rest. And it is possible to collect big data on failure/breakdown and performance from the infrastructure.

DMMP(100)는 서비스 모니터링을 통해 측정 데이터(Measurement data) 및 이벤트 데이터를 포함하는 빅데이터를 수집할 수 있다. 측정 데이터는 KPI(Key Performance Indicators), KQI(Key Quality Indicators), QoE(Quality of Experience), KCI(Key Capacity Indicators)를 포함할 수 있다. 이벤트 데이터는 장애 또는 고장과 관련한 데이터로서, FCAPS(Failure, Configuration, Account, Performance, Security)에 대한 데이터를 포함할 수 있다. The DMMP 100 may collect big data including measurement data and event data through service monitoring. The measurement data may include Key Performance Indicators (KPI), Key Quality Indicators (KQI), Quality of Experience (QoE), and Key Capacity Indicators (KCI). Event data is data related to failure or failure, and may include data on FCAPS (Failure, Configuration, Account, Performance, Security).

분석 프레임워크(Analytics Framework)(250)는 진단 분석(DA; Diagnosis Analysis), 임계치 도달 분석(TCA; Threshold Crossing Analysis), 상관성 분석(CA; Correlation analysis), RCA(Root Cause Analysis), PFP(Pre-Failure Prediction), PMMS(Pre Maintenance Management System) 등을 포함할 수 있다. 각 분석은 통계적 알고리즘을 통해 분석을 수행하며, 분석에 따른 결과와 그래프를 이용한 결과보고서를 제공할 수 있다. The Analytics Framework 250 includes Diagnosis Analysis (DA), Threshold Crossing Analysis (TCA), Correlation Analysis (CA), Root Cause Analysis (RCA), Pre -Failure Prediction), PMMS (Pre Maintenance Management System), etc. may be included. Each analysis performs an analysis through a statistical algorithm, and the result according to the analysis and a result report using a graph can be provided.

AF(분석 프레임워크)는 DA(Diagnosis Analysis), TCA(Threshold Crossing Analysis), CA(Correlation analysis) 및 PFP(Pre-Failure Prediction)를 위한 데이터마이닝의 통계적 알고리즘을 포함한 프레임워크이며, 각각의 다양한 통계적 모델(상관분석, 회귀분석, 비선형증가곡선모델, 시계열분석, 비선형모델, 분류분석(판별분석), 의사결정트리분석, 로지스틱회귀분석, 군집분석, 요인분석, 주성분분석 등) 알고리즘으로 분석한 최적모델의 분석결과에 의한 예측 통계량, 모델판정 통계량 등 및 시각화에 의한 그래프를 포함한 결과보고서 형태로 저장소에 저장되어 운용자에게 제공한다. 해당 분석결과 보고서는 인프라 모니터링 시스템(IMS)을 통해 운용자가 인프라 사전고장예측 결과보고서가 저장된 저장소에서 IMS(인프라 모니터링 시스템)의 UI 화면에서 열어서 볼 수 있도록 제공한다.AF (analysis framework) is a framework that includes statistical algorithms of data mining for Diagnosis Analysis (DA), Threshold Crossing Analysis (TCA), Correlation analysis (CA), and Pre-Failure Prediction (PFP). Model (correlation analysis, regression analysis, nonlinear increasing curve model, time series analysis, nonlinear model, classification analysis (discrimination analysis), decision tree analysis, logistic regression analysis, cluster analysis, factor analysis, principal component analysis, etc.) It is stored in the storage in the form of a result report including a graph by visualization and prediction statistics, model judgment statistics, etc. based on the analysis result of the model and provided to the operator. The analysis result report is provided so that the operator can open it on the UI screen of the IMS (Infrastructure Monitoring System) in the storage where the infrastructure preliminary failure prediction result report is stored through the Infrastructure Monitoring System (IMS).

PMMS(Pre Maintenance Management System)는 인프라 사전고장예측(IPFP)에 의한 결과 보고서에 의해서 인프라의 사전 고장 예방을 위한 유지보수(수리/조치)를 수행한 날짜 및 유지보수 내역을 기록, 저장하여 관리하며, 향후 인프라에 대한 유지보수 수행 일정을 예측하는 PMPS((Pre Maintenance Prediction System; 사전유지보수예측시스템)에 의한 사전유지보수 예측일정 결과를 운용자에게 제공하는 시스템이다.PMMS (Pre Maintenance Management System) records, stores and manages the date of maintenance (repair/measure) performed and maintenance details for the prevention of infrastructure failure in advance according to the result report by the infrastructure advance failure prediction (IPFP). , It is a system that provides the operator with the results of the pre-maintenance prediction schedule by PMPS (Pre Maintenance Prediction System; Pre-Maintenance Prediction System) that predicts the future maintenance schedule for infrastructure.

한편, 도 2에서는 본 발명에 따른 수집되는 빅데이터 수집/정제/변환에 의한 데이터를 활용하여 분석 프레임워크를 수행하기 위한 운용관리 장치의 블록 구성도로 설명하였으나, 도 2에 도시된 수집 프레임워크(240), 분석 프레임워크(250) 및 DMMP(100)은, 인프라 운용 관리 장치가 포함하는 프로세서, 메모리, 데이터베이스 등의 하드웨어와 연동 또는 결합하여 동작할 수 있다. Meanwhile, in FIG. 2, a block diagram of an operation management device for performing an analysis framework using data collected/purified/transformed by big data collected according to the present invention is described, but the collection framework shown in FIG. 240), the analysis framework 250 and the DMMP 100 may operate in conjunction with or in conjunction with hardware such as a processor, memory, and database included in the infrastructure operation management apparatus.

즉, 수집 프레임워크, 분석 프레임워크, DMMP는 하나 이상의 명령을 포함하는 프로그램의 형태로 존재할 수 있으며 상기 하나 이상의 명령은 운용 관리 장치 내 메모리 및 별도의 스토리지에 저장될 수 있으며 상기 운용 관리 장치 내 프로세서를 통해 실행될 수 있다. That is, the collection framework, the analysis framework, and the DMMP may exist in the form of a program including one or more instructions, and the one or more instructions may be stored in a memory and a separate storage in the operation management device, and the processor in the operation management device It can be done through

도 3은 본 발명의 일 실시예에 따른 이벤트 모니터링 분석 플랫폼의 개념도이다. 3 is a conceptual diagram of an event monitoring analysis platform according to an embodiment of the present invention.

도 3은 이벤트 모니터링 분석 플랫폼(EMAP; Event Monitoring Analytics Platform)으로서, 인프라의 물리 장치 또는 가상화 장치의 운용 중 발생하는 이벤트의 빅데이터를 수집하여 FDAS(장애/고장발견경보시스템), TCAS(임계값교차분석시스템) 및 CA(상관분석)을 할 수 있다. 3 is an Event Monitoring Analytics Platform (EMAP), which collects big data of events that occur during the operation of physical devices or virtualization devices of the infrastructure, and collects the FDAS (failure/failure detection alarm system), TCAS (threshold value). Cross-analysis system) and CA (correlation analysis).

모니터링 UI(310)는 데이터베이스 및 분석 엔진을 이용하여 데이터를 분석한 결과 및 한계점(Threshold) 관련 알람의 팝업에 대한 결과를 예를 들어, IMS(인프라 모리터링(관리) 시스템)의 UI 대시 보드, SMS, e-mail 및 앱을 통해 사용자에게 제공한다. 모니터링 UI(310)는 데이터베이스 및 TCA, FDA, CA, PFP 분석 기법을 활용하는 분석 엔진을 통해 수행된 최적모델의 분석결과와 시각화된 그래프의 결과를 저장하여 제공한다. The monitoring UI 310 includes a result of analyzing data using a database and an analysis engine and a result of a pop-up of an alarm related to a threshold, for example, a UI dashboard of an IMS (infrastructure monitoring (management) system), Provided to users through SMS, e-mail and apps. The monitoring UI 310 stores and provides the results of the optimal model analysis and the visualized graph performed through the database and the analysis engine using the TCA, FDA, CA, and PFP analysis techniques.

모니터링 UI(310)는 또한, 쿼리 메트릭스(Query Metrics) 정보를 표현하는 대쉬보드, 알람의 정의 및 생성을 위한 대쉬보드, 알람 업데이트 및 제거를 위한 대쉬보드, 통지(Notification) 방법 및 생성을 위한 대쉬보드를 제공할 수 있다. The monitoring UI 310 also includes a dashboard for expressing query metrics information, a dashboard for defining and generating alarms, a dashboard for updating and removing alarms, a notification method and a dashboard for generation. Board can be provided.

클라이언트CLI(Command Line Interface)(311)는, 클라이언트 CLI로 입력되는 명령어에 따라 시스템 PNF/VNF에 정보를 확인할 수 있도록 모니터링 API를 전달하고 제어하는 클라이언트 라이브러리 형태를 띤다. 클라이언트 CLI(311)는 모니터링 UI가 제공하는 대쉬보드를 통해 구현될 수 있다.The client CLI (Command Line Interface) 311 takes the form of a client library that delivers and controls a monitoring API so that information can be checked to the system PNF/VNF according to a command input to the client CLI. The client CLI 311 may be implemented through a dashboard provided by the monitoring UI.

모니터링 에이전트(Monitoring Agent)(320)는, PNF/VNF에 대하여 컨테이너/Dcoker 모니터링, 리소스 모니터링, 데이터베이스 모니터링, 네트워크 모니터링, 가상머신 모니터링 등의 상태 정보 및 이벤트 발생에 대한 정보를 수신하고, REST API로부터 이벤트 메트릭스 정보를 제공받아 구성정보를 데이터베이스(360)에 저장한다. 수집되는 빅데이터는 CPU 활용성(utilization), 메모리 활용성/가용성(memory utilization/availability), 상태(status) 및 시스템 메트릭스(metrics)을 포함할 수 있다. 모니터링 에이전트는 또한, MySQL, RabbitMQ, Etcd(분산 key-value store) 등으로 구축되어 시스템 메트릭스를 지원하며, 최신 Python, JAVA 및 Go 언어 기반의 모니터링 에이전트 기능을 제공한다.The monitoring agent 320 receives status information and event occurrence information such as container/Dcoker monitoring, resource monitoring, database monitoring, network monitoring, and virtual machine monitoring for PNF/VNF, and Receives event metrics information and stores the configuration information in the database 360. The collected big data may include CPU utilization, memory utilization/availability, status, and system metrics. The monitoring agent is also built with MySQL, RabbitMQ, and Etcd (distributed key-value store) to support system metrics, and provides monitoring agent functions based on the latest Python, JAVA and Go languages.

REST API(330) 또는 RESTful API는 모니터링을 위한 API로서, 거대한 양의 메트릭스을 실시간으로 저장하고 쿼리하는 기능, 메트릭스 통계를 쿼리하는 기능, 알람의 정의, 생성, 업데이트, 쿼리 및 삭제하는 기능, 알람 정보의 내역을 쿼리하고 삭제하는 기능을 수행할 수 있다. REST API (330) or RESTful API is an API for monitoring, the function of storing and querying a huge amount of metrics in real time, the function of querying metrics statistics, the function of defining, creating, updating, querying and deleting alarms, and alarm information. You can query and delete the details.

REST API(330)는 또한, 알람의 과거 알람 정보 데이터를 이용하여 RCA(Root Cause Analysis), DA(Diagnosis Analysis) 및 PFP(Pre Failure Prediction) 등의 고급 통계적분석 수행을 위한 빅데이터 정보를 연결하여 제공할 수 있다.REST API 330 also connects big data information for performing advanced statistical analysis such as RCA (Root Cause Analysis), DA (Diagnosis Analysis), and PFP (Pre Failure Prediction) by using the historical alarm information data of the alarm. Can provide.

메시지큐(340)는 모니터링 API에 게시된 메트릭스 및 임계값, 엔진의 알람 상태 전환 메시지를 수신한다. 메시지큐를 통해 수신된 다양한 메시지들은 유지(Persistence), 통지(Notification), TCA(임계값교차분석), CA/RCA(상관분석/근본원인분석) 및 변환 엔진(Transform Engine)과 같은 다른 PFP(사전고장예측) 통계적분석 구성 모듈에서 사용될 수 있다. 또한 메시지큐는 시스템의 다른 이벤트를 게시하고 그 정보를 이용한 분석에도 사용될 수 있다. 메시지 큐(340)는 Kafka 기반의 MessageQ 또는 Rabbit기반의 MessageQ 일 수 있다. Kafka메시지큐는 고가용성, 고성능, 분산, 내결함성(fault-tolerant)을 가지며 확장 가능한 메시지에 적용될 수 있다.The message queue 340 receives metrics and thresholds posted in the monitoring API, and an alarm state change message of the engine. Various messages received through Message Queuing include persistence, notification, TCA (threshold cross analysis), CA/RCA (correlation analysis/root cause analysis), and other PFPs such as Transform Engine. Pre-failure prediction) It can be used in the statistical analysis configuration module. Message queues can also be used to post other events in the system and analyze them using that information. The message queue 340 may be a Kafka-based MessageQ or a Rabbit-based MessageQ. Kafka Message Queue has high availability, high performance, distributed, fault-tolerant and can be applied to scalable messages.

분석 엔진(350)은 통지(Notification) 모듈, TCA 모듈, 상관 모듈, 분석 모듈, 변환(Transform) 모듈, 내구성(Persistence) 모듈을 포함할 수 있다. 본 실시예에서의 분석 엔진(350)은 도 2의 실시예를 통해 설명된 분석 프레임워크(250)의 동작을 모두 수행할 수 있으며, 동작 면에서 동일한 개념으로 이해될 수도 있다. The analysis engine 350 may include a notification module, a TCA module, a correlation module, an analysis module, a transformation module, and a durability module. The analysis engine 350 in this embodiment may perform all operations of the analysis framework 250 described through the embodiment of FIG. 2, and may be understood as the same concept in terms of operation.

통지 모듈은 MessageQ에서 알람 상태의 메시지를 수신하면, 해당 알람을 전자 메일, SMS(문자), 모바일 앱 또는 UI대쉬보드 상의 팝업 등을 활용해 운영자에게 전달한다. When the notification module receives a message in an alarm state from MessageQ, the notification module delivers the alarm to the operator using e-mail, SMS (text), mobile app, or pop-up on the UI dashboard.

임계치 도달 분석(Threshold/TCA; Threshold Crossing Analysis) 모듈은 메트릭스에 대하여 정의된 임계값을 비교하고, 각 메트릭이 관련 임계치에 도달하면 MessageQ에 경보를 게시할 수 있다. 임계값은 3단계, 예를 들어, 1차경보 65%(녹색), 2차경보 75%(노랑), 3차경보 85%(빨강)로 구분을 임의로 조정하여 적용될 수 있다. 메트릭스는 인프라의 CPU, 메모리, 대역폭, 가상자원(대역폭, 스토리지, 서버, GPU 등)의 사용량, 파일시스템, 물리적자원 등의 사용량 관련 정보를 포함할 수 있으며, 온도, 습도, 전력, 소음 및 이산화탄소 등 그 외 시설물(DBMS, 항온항습기, UPS(uninterruptible power supply), 온도계, 습도계, 전력, 밧데리 등)에 대하여 수집된 정보 등도 포함할 수 있다. 임계치 도달 분석 모듈은 TCA(Threshold Crossing Analysis) 프로그램을 통해 메트릭스의 값이 임계치에 도달하였는지 판단할 수 있다. The Threshold/TCA (Threshold Crossing Analysis) module compares thresholds defined for metrics, and can post an alert to MessageQ when each metric reaches the relevant threshold. The threshold value can be applied by arbitrarily adjusting the classification into three stages, for example, the first alarm 65% (green), the second alarm 75% (yellow), and the third alarm 85% (red). Metrics can include information related to usage such as CPU, memory, bandwidth of infrastructure, usage of virtual resources (bandwidth, storage, server, GPU, etc.), file system, and physical resources, and temperature, humidity, power, noise and carbon dioxide It may also include information collected on other facilities (DBMS, thermo-hygrostat, UPS (uninterruptible power supply), thermometer, hygrometer, power, battery, etc.). The threshold reaching analysis module may determine whether the value of the metric has reached the threshold through a Threshold Crossing Analysis (TCA) program.

CA/RCA/PFP 분석 모듈은 구성정보 데이터베이스(360) 및 MessageQ(340)의 데이터를 활용한 상관분석을 통한 근본원인 분석(RCA; Root Cause Analysis)을 수행함으로써, 경보 및 고장의 근본원인 분석 및 인과관계 분석을 제공할 수 있다. The CA/RCA/PFP analysis module performs root cause analysis (RCA) through correlation analysis using data from the configuration information database 360 and MessageQ 340 to analyze the root cause of alarms and failures. Can provide causal analysis.

변환/통합(Transform/Aggregation) 모듈은 메트릭의 이름과 값을 변환하고 메시지 큐에서 생성되는 새로운 메트릭에 대한 데이터 정보를 통합하며, 시간 기반의 계산을 수행할 수 있다. The Transform/Aggregation module transforms the name and value of a metric, integrates data information on a new metric created in a message queue, and performs time-based calculation.

유지보수(Persistence) 모듈은 MessageQ(340)로부터 메트릭스, 이벤트 및 알람에 대한 상태 관련 히스토리 데이터에 의한 상태관리 데이터베이스(370)에 전달하여 상태관리 데이터베이스(370)로 하여금 해당 히스토리 데이터를 저장하도록 한다.The maintenance module transmits from the MessageQ 340 to the state management database 370 based on state-related history data for metrics, events, and alarms, and causes the state management database 370 to store the corresponding history data.

한편, 구성정보 데이터베이스(Config Database)(360)는 시스템의 구성(PNF/VNF) 정보, 서비스 수행(FCAPS, KQI, QoE, KCI, VNF, SLA 등)에 대한 모니터링 정보를 저장한다. 구성정보 데이터베이스는 예를 들어, MySQL 또는 PostgreSQL 등의 DBMS(Data Base Management System)을 이용하여 구현될 수 있다.Meanwhile, the configuration information database 360 stores system configuration (PNF/VNF) information, and monitoring information on service execution (FCAPS, KQI, QoE, KCI, VNF, SLA, etc.). The configuration information database may be implemented using, for example, a DBMS (Data Base Management System) such as MySQL or PostgreSQL.

상태관리 데이터베이스(Metrics, Event & Alarm Database)(370)는 메트릭스 에 대해 이벤트(장애/고장) 및 알람 기록 상태를 실시간으로 저장한다. 상태관리 데이터베이스는 예를 들어, Vertica 또는 InfluxDB 등을 이용하여 구현될 수 있다. The status management database (Metrics, Event & Alarm Database) 370 stores events (failures/failures) and alarm recording status for metrics in real time. The state management database may be implemented using, for example, Vertica or InfluxDB.

한편, 도 3에서는 본 발명에 따른 인프라 운용 관리 장치에 위해 수행될 수 있는 이벤트 모니터링 분석 플랫폼을 기능적 블록으로 설명하였으나, 도 3에 도시된 블록들은 본 발명에 따른 운용 관리 장치가 포함하는 프로세서, 메모리, 데이터베이스 등의 하드웨어와 연동 또는 결합하여 동작할 수 있다. Meanwhile, in FIG. 3, the event monitoring analysis platform that can be performed for the infrastructure operation management apparatus according to the present invention is described as a functional block, but the blocks shown in FIG. 3 are processor and memory included in the operation management apparatus according to the present invention. , It can operate in conjunction with hardware such as a database.

예를 들어, 도 3의 분석 엔진(350)은 하나 이상의 명령을 포함하는 프로그램의 형태로 존재할 수 있으며, 상기 하나 이상의 명령은 본 발명에 따른 운용 관리 장치의 분석 모듈의 한가지 알고리즘으로 메모리에 저장되고 상기 운용 관리 장치 내 프로세서를 통해 실행될 수 있다. For example, the analysis engine 350 of FIG. 3 may exist in the form of a program including one or more instructions, and the one or more instructions are stored in a memory as an algorithm of the analysis module of the operation management device according to the present invention. It may be executed through a processor in the operation management device.

또한, 도 3의 실시예에서 구성정보 데이터베이스(360) 및 상태관리 데이터베이스(370)는 하나의 데이터베이스로 통합되어 본 발명에 따른 운용 관리 장치에 포함되거나 운용 관리 장치와 연동하는 별도의 데이터베이스로 존재할 수도 있다. In addition, in the embodiment of FIG. 3, the configuration information database 360 and the state management database 370 may be integrated into one database to be included in the operation management device according to the present invention, or exist as a separate database interlocking with the operation management device. have.

도 4는 본 발명의 일 실시예에 따라 수집되는 빅데이터의 데이터 모델을 나타낸다. 4 shows a data model of big data collected according to an embodiment of the present invention.

보다 구체적으로, 도 4는 본 발명에 따른 마이크로서비스 수행 중에 각 Pod의 컨테이너의 VNF에서 생성되는 공통 이벤트 스트림의 빅데이터 모델(Event Streaming BigData Model)의 프로파일의 일 실시예를 나타낸다.More specifically, FIG. 4 shows an embodiment of a profile of an Event Streaming Big Data Model of a common event stream generated in a VNF of a container of each Pod during microservice execution according to the present invention.

본 발명의 일 실시예에 따른 VNF 이벤트 데이터의 프로파일은 아래의 데이터를 포함할 수 있으며, 그 외의 데이터를 또한 포함할 수 있다. The profile of VNF event data according to an embodiment of the present invention may include the following data, and may also include other data.

- 응용서비스 또는 마이크로서비스별 특정 데이터 - Specific data per application or microservice

- 베어 메탈(Bare metal) 및 가상화된 가상머신(VM) 및 컨테이너의 노드에 해당하는 호스트의 데이터- Bare metal and virtualized virtual machine (VM) and host data corresponding to the node of the container

- 공통 이벤트 데이터 모델(예를 들어, Internal header, Fault/Failure, Measurement, Syslog, Notification, StateChange, TCA Alert, Security 및 FlowFileds 등)- Common event data model (e.g. Internal header, Fault/Failure, Measurement, Syslog, Notification, StateChange, TCA Alert, Security and FlowFileds, etc.)

- 공통 헤더 및 도메인 프로파일에 포함될 수 있는 VNF의 특정 이벤트에 대한 내용- VNF specific events that can be included in common headers and domain profiles

- PNF, VNF의 FCAPS, KQI, QoE, KCI, KPI 및 SLA의 모든 모니터링 데이터- All monitoring data of PNF, VNF's FCAPS, KQI, QoE, KCI, KPI and SLA

한편, 각 이벤트 모델은 확장성을 위해 추가 이름(Name) 및 값(Value)을 포함할 수 있다. PNF 및 VNF 인스턴스화 및 데이터 프로파일에는 VNF 별 이벤트 데이터 및 수집기 별 이벤트 스트리밍이 수집되어 저장, 통합, 정제, 변환이 수행될 수 있다. Meanwhile, each event model may include an additional name and value for extensibility. In the PNF and VNF instantiation and data profile, event data for each VNF and event streaming for each collector are collected, and storage, integration, purification, and transformation can be performed.

본 발명에 따른 운용 관리 장치는 장애/고장 관련 빅데이터를 수집하여 분석하며, VM(virtual machine) 및 컨테이너 생성시 수집기와 연결되어 VNF, 컨테이너, 마이크로서비스, 슬라이싱 서비스 각각의 모든 이벤트 데이터를 도 4에 도시된 바와 같은 데이터 프로파일 형태로 수집한다. 또한, 데이터 프로파일에는 텔레메트리 오버헤드를 최적화하기 위한 제어 기능이 제공된다. The operation management device according to the present invention collects and analyzes big data related to failures/failures, and is connected to a collector when creating a virtual machine (VM) and a container to display all event data of each of the VNFs, containers, microservices, and slicing services. It is collected in the form of a data profile as shown in. In addition, data profiles are provided with controls to optimize telemetry overhead.

도 5는 본 발명의 일 실시예에 따라 수집되는 빅데이터의 세부 데이터 모델을 나타낸다. 5 shows a detailed data model of big data collected according to an embodiment of the present invention.

도 5에서는 구체적으로, VNF, 컨테이너, 마이크로 서비스, 슬라이싱 서비스 각각의 모든 이벤트 장애(VNF Event Failure)의 유형, 통지/임계치/모니터링 (Notification/Threshold/Monitoring)에 대한 이름 및 값 관련 세부 데이터 모델을 나타낸다.In FIG. 5, in detail, a detailed data model related to name and value for the type of VNF Event Failure, notification/threshold/monitoring (Notification/Threshold/Monitoring) of each of VNF, container, microservice, and slicing service is shown. Show.

여기서, 장애 유형은 물리적인 인프라 고장, 가상 인프라 고장, 보안 고장 등의 유형을 포함할 수 있다. 통지(Notification)는 컴퓨터 CPU, Memory, 스토리지 볼륨, 스냅샵, 백업 등의 경고 관련 통지 유형을 나타낼 수 있다. 임계치는 CPU, 메모리, 스토리지, NIC, 링크, 대역폭, 트래픽 등의 이용률에 대한 임계치를 나타낼 수 잇다. 여기서, 모니터링 항목은 FCAPS(Fault, Configuration, Accounting, Performance, Security), KPI(Key Performance Indicators), KQI(Key Quality Indicators), QoE(Quility of Experience), KCI(Key Capacity Indicators), SLA(Service Level Agreement) 등의 서비스의 각각에 해당하는 파라미터 값을 모니터링한 데이터를 포함할 수 있다.Here, the failure type may include a physical infrastructure failure, a virtual infrastructure failure, and a security failure. Notification may indicate a notification type related to warnings such as computer CPU, memory, storage volume, snapshot, and backup. The threshold can represent the threshold for utilization of CPU, memory, storage, NIC, link, bandwidth, traffic, etc. Here, the monitoring items are FCAPS (Fault, Configuration, Accounting, Performance, Security), KPI (Key Performance Indicators), KQI (Key Quality Indicators), QoE (Quility of Experience), KCI (Key Capacity Indicators), SLA (Service Level). It can include data that monitored parameter values corresponding to each service such as Agreement).

도 6은 본 발명의 일 실시예에 따라 TRVN(Trusted Reality Viewpointing Networking) 인프라 및 데이터센터 인프라 및 시설물 구조에서의 운용 관리 방법의 일 실시예를 나타낸다. 6 shows an embodiment of an operation management method in a Trusted Reality Viewpointing Networking (TRVN) infrastructure and a data center infrastructure and facility structure according to an embodiment of the present invention.

도 6은 본 발명에 따라, 물리적인 하드웨어 인프라 운용에 대하여 가상머신을 제공하는 다양한 하이퍼바이저(예를 들어, openstack, VMware, Azure, Kubernetes, Rackspace 등)로 VM(Virtual Machine; 가상머신), 컨테이너 등을 생성하여, 고객에게 마이크로서비스 제공 후 이벤트(fault/failure) 발생에 대하여 관리를 수행하는 일련의 절차의 일 예를 나타낸다. 6 is a virtual machine (VM), a container with various hypervisors (eg, openstack, VMware, Azure, Kubernetes, Rackspace, etc.) providing a virtual machine for physical hardware infrastructure operation according to the present invention. It shows an example of a series of procedures for managing the occurrence of an event (fault/failure) after providing a microservice to a customer by creating a etc.

가상화 인프라(virtualized infrastructure)(61)은 물리적인 하드웨어 인프라에 대하여 VM 또는 컨테이너로 가상화를 수행한 후, 마이크로서비스에 대하여 메타데이터 기반의 프로파일에 의해 마이크로 서비스를 설계하여 서비스 정책에 따른 CPU, 메모리, NIC, 내부 스토리지 및 외부 스토리지에 대해서도 가상화를 생성하여 마이크로 서비스에 대한 가상화 자원을 배포한다. The virtualized infrastructure 61 performs virtualization on the physical hardware infrastructure as a VM or container, and then designs microservices according to a metadata-based profile for microservices, Virtualization is also created for NICs, internal storage and external storage to distribute virtualization resources for microservices.

가상화 인프라 관리자(62)는 가상화 인프라에 대한 관리, 즉 제어 및 모니터링을 수행한다. 가상화 인프라 관리자는 PNF, VNF에 대한 제어 및 모니터링을 수행하여 각 데이터베이스에 저장하며, VNF 관리 에이전트와 오케스트레이터 에이전트에 의해 VNFM(64) 및 오케스트레이터(65)와 연동된다. The virtualization infrastructure manager 62 manages, that is, controls and monitors the virtualization infrastructure. The virtualization infrastructure manager controls and monitors PNFs and VNFs and stores them in each database, and is interlocked with the VNFM 64 and the orchestrator 65 by the VNF management agent and the orchestrator agent.

가상화 인프라 관리자(62)는 하나 이상의 컨트롤러, 하나 이상의 모니터링부, 감시부, 통지부를 포함할 수 있다. The virtualization infrastructure manager 62 may include one or more controllers, one or more monitoring units, monitoring units, and notification units.

컨트롤러(Controller)는 멀티-클라우드 적용(Adaption)을 위한 NFVI 컨트롤러(예를 들어, computer, storage, CPU, Memory, NIC 제어를 위한), SDN 컨트롤러, 하이퍼바이저 컨트롤러 및 컨테이너 컨트롤러를 적용하여 가상화 자원을 이미지로 저장하여 오케스트레이터에서 배포 및 스케일링 등을 관리할 수 있다. The controller applies NFVI controller for multi-cloud adaptation (for example, for computer, storage, CPU, memory, NIC control), SDN controller, hypervisor controller, and container controller to save virtualization resources. By saving it as an image, you can manage distribution and scaling in the orchestrator.

모니터링부는, 물리적 하드웨어(L2, L3 스위치 등), 가상화된 VM 및 docker/컨테이너에 의한 VNF에 적용한 vCPU, vMemory, vStorage 및 vNIC에 대한 모니터링에 의한 이벤트 정보(Threshold, Fault, Failure, Status)를 감시부(Inspector)에 전송할 수 있다. The monitoring unit monitors the event information (Threshold, Fault, Failure, Status) by monitoring vCPU, vMemory, vStorage and vNIC applied to the physical hardware (L2, L3 switch, etc.), virtualized VM and VNF by docker/container. It can be transmitted to the inspector.

감시부는, 모니터링부로부터 수신한 정보에 임계값(threshold) 또는 고장(failure)에 대한 메시지가 포함된 경우, 우선 컨트롤러 해당 사실 및 관련 정보를 전달한다. 이를 수신한 컨트롤러는 해당 정보에 기인한 영향(고장)을 탐색하며(Find Affected), 자원을 업데이트하며 관련 정보를 통지부로 전달한다. 이후 감시부는 또한 통지부에 경보(Alert)을 전송하고, 고장(failure) 관련 데이터를 저장한다.When the information received from the monitoring unit includes a message about a threshold or failure, the monitoring unit first transmits the fact and related information to the controller. Receiving this, the controller searches for the impact (breakdown) caused by the information (Find Affected), updates the resource, and delivers the relevant information to the notification unit. Thereafter, the monitoring unit also transmits an alert to the notification unit and stores failure-related data.

통지부는 감시부로부터 수신한 경보를 VNFM(64)의 관리자에게 전송한다. VNFM(64) 해당 경보와 관련한 고장이 발생한 대상을 대기구성(STBY)으로 전환하고, 오케스트레이터(65)에 해당 내용을 전달한다. The notification unit transmits the alert received from the monitoring unit to the manager of the VNFM 64. VNFM (64) converts the target where a failure related to the alarm has occurred to a standby configuration (STBY), and delivers the content to the orchestrator (65).

관리자(즉, VNFM)는 VIM의 VE 가운데 영향을 받는 리소스에 대해 작업을 수행하도록 요청한다. 여기서, 작업은 예를 들어, 특정 리소스의 마이그레이션, 업데이트, 또는 종료할 수 있다. 해당 지시를 받은 VIM은 요청된 가상 자원을 이전하거나 업데이트 또는 종료를 수행할 수 있다. The manager (i.e., VNFM) requests that the VIM's VE perform an action on the affected resource. Here, the task may be, for example, migration, update, or termination of a specific resource. Upon receiving the instruction, the VIM may transfer, update or terminate the requested virtual resource.

어플리케이션/VNF(63)는 VM, 컨테이너에 가상네트워크기능(VNF)을 적용한 어플리케이션 및 어플라이언스로서, IDS, IPS, 방화벽 등의 기능을 탄력적으로 확장하여 수행할 수 있다. 각각의 VNF에는 EM이 적용되어 각 VNF의 상태 데이터를 VNFM(64)로 전송할 수 있다. The application/VNF 63 is an application and appliance in which a virtual network function (VNF) is applied to VMs and containers, and can be performed by elastically expanding functions such as IDS, IPS, and firewall. EM is applied to each VNF so that the state data of each VNF can be transmitted to the VNFM 64.

VNF 관리자(VNF Manager; VNFM)(64)는 어플리케이션/VNF(63) 내 각 VNF와 연결된 EM을 통해 VNF의 실행(Execution) 중인 상태 관리 데이터를 수신하여 가상화 인프라 관리자(62)의 VNFM의 감지부 데이터베이스에 저장하고, CLAM(Close Loop Automation Management) 수행할 수 있다. The VNF Manager (VNFM) 64 receives the VNF's execution state management data through the EM connected to each VNF in the application/VNF 63 and receives the VNFM detection unit of the virtualization infrastructure manager 62. It can be saved in the database and CLAM (Close Loop Automation Management) can be performed.

오케스트레이터(65)는 관리자(Administrator)의 대시보드인 UI에 해당한다.The orchestrator 65 corresponds to a UI that is a dashboard of an administrator.

도 6은 이벤트 스트리밍 관리 시나리오(Event Streaming Management Scenario)의 일 예를 나타내며, 물리적인 PNF 및 가상화된 VNF에서 마이크로서비스 수행 중에 발생되는 이벤트(fault/failure) 관리를 수행하는 일 예를 나타낸다. 6 shows an example of an Event Streaming Management Scenario, and shows an example of managing an event (fault/failure) occurring during microservice execution in a physical PNF and a virtualized VNF.

우선, 운용자(관리자)가 특정 가상 자원에 대한 모니터링의 등록을 요청할 수 있다(S601). 이때, 쿼리 응답에 필터를 사용하여 임계값(threshold)에 대한 범위를 관리자가 지정한 3단계 또는 임의의 단계의 수준으로 적용하여 장애 관리를 수행할 수 있다. 사용자의 쿼리 응답 메시지는 가상 자원이 "경보" 상태에 있는 경우에 가상 자원에 대한 정보를 포함한 보고를 받을 것을 나타낼 수 있다(S601). First, the operator (manager) may request registration of monitoring for a specific virtual resource (S601). In this case, by using a filter in the query response, the range for the threshold value is applied at the level of 3 or an arbitrary level designated by the administrator to perform failure management. The user's query response message may indicate that a report including information on the virtual resource is to be received when the virtual resource is in the "alert" state (S601).

가상 인프라(Virtualized Infrastructure)는 VIMs에 등록한 자원에 대한 모니터링 이벤트를 발생시키는데, 여기서, VIM과 NFVI 간에 가입 메시지 교환이 이루어진다. 또한, VIMs(62)의 모니터링부 에서 가상 인프라의 이벤트(예를 들어, fault/failure)를 수신한다(S602). 이때, VIMs(62)에서는 물리적 인프라 및 가상 인프라로부터 이벤트 상관성, 장애 감지(fault detection), 수집 및 저장이 수행될 수 있다(S603). Virtualized Infrastructure generates a monitoring event for resources registered in VIMs, where subscription messages are exchanged between VIM and NFVI. In addition, an event (eg, fault/failure) of the virtual infrastructure is received from the monitoring unit of the VIMs 62 (S602). In this case, in the VIMs 62, event correlation, fault detection, collection and storage may be performed from the physical infrastructure and the virtual infrastructure (S603).

VIMS는 발견된 장애로 인해 영향을 받는 가상 리소스를 찾기 위해 저장된 데이터베이스에서 조회를 수행하며(S604), 감지된 장애는 관리자에게 장애 통지(fault notification)로 보고된다(S605). 장애 통지를 보고받은 관리자는 해당 엔티티를 대기 구성(STBY: standby configuration)으로 전환한다(S606). VIMs는 사용자로부터 영향을 받는 리소스에 대해 특정 작업(예를 들어, 마이그레이션, 업데이트, 종료)의 수행 요청을 수신하고(S607), 관리자로부터 컨트롤러에 요구된 액션 명령을 실행하여 가상 자원을 이전하거나 종료 등을 수행함으로써, 장애 문제를 해결하는 절차의 시나리오를 수행할 수 있다. The VIMS performs a query in the stored database to find the virtual resource affected by the found failure (S604), and the detected failure is reported to the administrator as a fault notification (S605). The administrator who has received the notification of the failure switches the entity to the standby configuration (STBY) (S606). VIMs receive a request from the user to perform a specific operation (e.g., migration, update, termination) on the affected resource (S607), and transfer or terminate the virtual resource by executing the action command requested to the controller from the administrator. By doing the same, it is possible to perform the scenario of the procedure for solving the problem of failure.

도 7은 본 발명의 일 실시예에 따른 따른 이벤트 스트리밍 발생 후 유지보수 (수리) 관련 운용 관리 방법의 일 실시예를 나타낸다.7 shows an embodiment of an operation management method related to maintenance (repair) after event streaming occurs according to an embodiment of the present invention.

도 7은 이벤트 스트리밍 유지보수 관리 시나리오(Event Streaming Maintenance Management Scenario)를 나타낸 것으로, 물리적인 PNF 및 가상화된 인프라에서 마이크로서비스 수행 중에 발생되는 장애/고장 관련 유지보수 운용 관리를 수행하는 시나리오를 나타낸다.7 shows an Event Streaming Maintenance Management Scenario, and shows a scenario for performing maintenance operation and management related to failure/failure occurring during microservice execution in a physical PNF and a virtualized infrastructure.

우선, 관리자는 VIMs에 쿼리를 요청하여, 자원의 현재 상태에 대한 정보를 획득한다(S701). VNFM은 EM을 통하여 각 VNF의 현재 실행(Execution) 중인 상태에 대한 정보로서 관리자의 쿼리 요청에 응답한다(S702). 여기서, 자원이 "유지보수(Maintenance)" 상태인 경우 관련 유지보수 작업에 대한 정보가 응답에 포함될 수 있다. VIMs의 응답을 수신한 관리자(65)는 VIMs 내 컨트롤러에게 StateChange 요청을 전송한다(S703).First, the manager requests a query to VIMs to obtain information on the current state of the resource (S701). The VNFM responds to the manager's query request as information on the current execution state of each VNF through EM (S702). Here, when the resource is in a "maintenance" state, information on related maintenance work may be included in the response. Upon receiving the response from the VIMs, the manager 65 transmits a StateChange request to the controller in the VIMs (S703).

VIMs의 컨트롤러는 자원 맵(Resource Map)을 쿼리하여 계획된 유지보수 관리 작업의 영향을 받는 가상 리소스를 찾아 관리자에게 전달한다(S704). 컨트롤러는 리소스 맵 데이터베이스에서 영향을 받은 가상 리소스의 상태를 업데이트한다(S705). 컨트롤러는 또한, 해당 정보를 통지부로 알린다(S706). The controller of the VIMs queries a resource map to find virtual resources that are affected by the planned maintenance and management tasks, and transfers them to the administrator (S704). The controller updates the state of the affected virtual resource in the resource map database (S705). The controller also notifies the information to the notification unit (S706).

통지부는 고객(Consumer) 및 관리자(Administrator)에게 해당 통지를 전송한다(S707). 장애 통지를 보고받은 소비자는 해당 엔티티를 대기 구성(STBY: standby configuration)으로 전환한다(S708). 관리자(오케스트레이터)는 VIMs(62)으로 하여금 특정 복구 조치를 수행(action)하도록 요청할 수 있다(S709). 해당 지시를 수신한 VIMs(62)은 물리적 자원을 비우기 위해 요구된 동작을 실행할 수 있다.The notification unit transmits the notification to the customer and the administrator (S707). Upon receiving the notification of the failure, the consumer switches the entity to the standby configuration (STBY) (S708). The manager (orchestrator) may request the VIMs 62 to perform a specific recovery action (S709). Upon receiving the instruction, the VIMs 62 may perform the requested operation to free up physical resources.

컨트롤러는 물리적 리소스가 해제된 후에 그 내용을 관리자에게 알린다(S710). 즉, VIM에서 물리적 시스템이 비었음을 관리자에게 알리는 유지보수 응답(또는 조작으로 인해 오류 상태가 발생)을 전달한다. 해당 응답을 수신한 관리자(Administrator)는 NFVI의 유지보수 작업 및 조정을 실행할 수 있다. After the physical resource is released, the controller notifies the manager of the content (S710). In other words, the VIM delivers a maintenance response (or an error condition has occurred due to operation) notifying the administrator that the physical system is empty. Upon receiving the response, the Administrator can perform NFVI maintenance tasks and adjustments.

도 8은 본 발명에 따라 물리적 자원 및 가상화 자원을 포함하는 인프라구조에서 운용 관리를 위해 장애 정보를 수집하는 절차의 일 실시예를 도시한다. 8 shows an embodiment of a procedure for collecting failure information for operation management in an infrastructure including physical and virtual resources according to the present invention.

즉, 도 8은 인프라 장애 유형(Instructure Fault Type)별 장애 수집의 일 실시예를 나타낸다.That is, FIG. 8 shows an embodiment of collecting faults according to infrastructure fault types.

도 8에서는 도 5에 도시된 바와 같은 이벤트 장애가 여러 레벨의 형태로 나타날 수 있음을 도시한다. 도 8에 도시된 로컬 장애 상관기(local fault correlator)가 장애 알림을 발생시킬 수 있다. In FIG. 8, it is shown that the event failure as shown in FIG. 5 may appear in various levels. A local fault correlator shown in FIG. 8 may generate a fault notification.

여기서, 하나 이상의 장애는 여러 유형의 상관성에 의한 인과 관계를 가질 수 있는데, 예를 들어, 가상 컴퓨터의 메모리 부족, CPU 오버플로우(overflow), 내부 스토리지 장애, 가상 네트워크 장애 및 물리적 하드웨어, 네트워크 장애 등으로 인하여 응용서비스에서는 다양한 유형의 장애가 발생할 수 있다.Here, one or more failures may have a causal relationship due to several types of correlations, for example, memory shortage of the virtual machine, CPU overflow, internal storage failure, virtual network failure and physical hardware, network failure, etc. Due to this, various types of failures may occur in application services.

장애가 VNF 각각의 EM(Element Management)에서 발생한 경우 모든 장애 정보는 VNFM(64)의 DB에 저장되고 이후 OSS(Operations Support System) 의 중앙 장애관리(FM) 시스템으로 전달될 수 있다.When a failure occurs in each of the VNF's EM (Element Management), all fault information is stored in the DB of the VNFM (64), and can then be transferred to the central fault management (FM) system of the OSS (Operations Support System).

여기서, 장애가 발생한 VE(virtual entity) 및 Pod의 컨테이너는 적시에 모든 장애를 처리할 수 있는 성능을 갖추는 것이 바람직하다. Here, it is preferable that the container of the VE (virtual entity) and the Pod in which the failure occurs has the capability to handle all failures in a timely manner.

앞서 살펴본 도1, 도2의 DCAP는 도3에서 살펴본 분석 엔진(350)을 포함하여 탄력성과 가용성을 유지할 수 있다. 분석 엔진은 관리자가 최소한 의사결정으로 관리를 수행할 수 있도록 보고/저장된 장애의 근본원인분석(RCA: Root Cause Analysis)을 동적이고 신속하게 분석함으로써, NFV 기반의 가상머신 또는 컨테이너의 아키텍처가 배포되고 장애 보고 프레임워크가 계층적 방식으로 제공될 수 있다.The DCAP of FIGS. 1 and 2 described above may include the analysis engine 350 shown in FIG. 3 to maintain elasticity and availability. The analysis engine dynamically and quickly analyzes the reported/stored root cause analysis (RCA) so that the administrator can perform management with at least decision-making, so that the architecture of a virtual machine or container based on NFV is deployed. Failure reporting framework can be provided in a hierarchical manner.

또한, 해당 계층 내의 여러 구성요소에서 발생하는 장애 정보는 VIM(62)과 VNFM(64)에서 각각 데이터베이스로 저장되어 오케스트레이터(65)의 데이터베이스로 도1의 DMMP(100) 및 도2의 DMMP Bus 컨트롤러(230)를 통하여 통합 저장될 수 있다. In addition, failure information occurring in various components in the corresponding layer is stored as a database in the VIM 62 and VNFM 64, respectively, to the database of the orchestrator 65, and the DMMP 100 of Fig. 1 and the DMMP Bus of Fig. 2 It may be integrated and stored through the controller 230.

앞서 실시예들을 통해 분석 엔진(예를 들어, 도 2의 250)을 이용하여 여러 유형의 이벤트에 대하여 장애 다중상관분석(multi-correlation analysis)을 수행하여 그 분석결과를 관리자에게 제공할 수 있음을 살펴본 바 있다.According to the above embodiments, it is possible to perform a multi-correlation analysis on various types of events using an analysis engine (for example, 250 in FIG. 2) and provide the analysis result to the manager. I have looked at it.

로컬 장애 상관기(local fault correlator)는 도 3의 실시예를 통해 살펴본 분석 엔진(350) 내 상관성 RCA(Correlation RCA) 모듈에 포함 또는 탑재되어 실행될 수 있으며, 로컬 장애 상관기에 의해 수집되는 데이터는 VIMs 장애 데이터와 VNFM 장애 데이터는 오케스트레이터의 장애 데이터에 통합하여 포함할 수 있다. The local fault correlator may be included or mounted in the correlation RCA module in the analysis engine 350 examined through the embodiment of FIG. 3 and executed, and the data collected by the local fault correlator is VIMs fault. Data and VNFM failure data can be incorporated into orchestrator failure data.

VIMs 장애 데이터는, 물리적 인프라 하드웨어 디바이스인 컴퓨터, 스토리지, 네트워크 및 개별 디바이스인 CPU, 메모리, NIC, Link 등의 fault/failure/notification/ 임계치에 대한 정보를 포함할 수 있다. The VIMs failure data may include information on fault/failure/notification/thresholds of physical infrastructure hardware devices such as computer, storage, network, and individual devices such as CPU, memory, NIC, and link.

VNFM 장애 데이터는 가상 인프라에 대해, SDN-C, APPC-C, VNF-C의 각각의 컨트롤러를 이용해 수집될 수 있으며, 개별 엔티티의 가상머신(VM), 가상네트워크, 가상스토리지, 네트워크 서비스에 적용된 각각의 디바이스의 fault/failure/notification/threshold에 대한 정보를 포함할 수 있다.VNFM failure data can be collected using each controller of SDN-C, APPC-C, and VNF-C for virtual infrastructure, and applied to virtual machines (VM), virtual networks, virtual storage, and network services of individual entities. It may include information about fault/failure/notification/threshold of each device.

또한, 오케스트레이터의 장애 데이터를 저장하는 오케스트레이터의 데이터베이스는 VIMs 데이터베이스와 VNFM 데이터베이스 등과 연동하여 장애 데이터를 통합 저장할 수 있다. In addition, the orchestrator's database that stores the orchestrator's failure data can integrate and store the failure data by interlocking with the VIMs database and the VNFM database.

오케스트레이터의 장애 데이터는, 모니터링에 의해 FCAPS, 마이크로서비스 별로 KPI/KQI/QoE/KCI/SLA 등에 대해 모두 통합 저장/변환/정재 등의 빅데이터 라이프싸이클 프로세스를 수행한 후, 통계적 최적모델 분석 엔진 또는 AI 딥러닝에 의한 장애/고장(fault/failure)에 대한 사전 장애 예측 분석이 수행된 통계적 분석 예측결과와 시각화된 그래프를 포함할 수 있다. 예측 분석 결과는 OSS의 대시보드를 통하여 그래픽 결과를 포함한 보고서 형태로 관리자에게 제공될 수 있다. The orchestrator's failure data is monitored by FCAPS and microservices for each KPI/KQI/QoE/KCI/SLA.After performing big data lifecycle processes such as integrated storage/transformation/replacement, etc., statistical optimal model analysis engine Alternatively, it may include a statistical analysis prediction result and a visualized graph in which preliminary failure prediction analysis for fault/failure by AI deep learning was performed. The predictive analysis results can be provided to the manager in the form of a report including graphic results through the dashboard of OSS.

한편, OSS의 대시보드에는 해당 계층에서 보고된 다른 모든 장애를 유발할 수 있는 하나 이상의 근본원인(root cause) 후보를 선택하기 위해 잘 정의된 상관관계 규칙을 적용할 수 있다.On the other hand, a well-defined correlation rule can be applied to the dashboard of OSS to select one or more root cause candidates that can cause all other failures reported in the corresponding layer.

장애 상관분석(Fault correlation analysis)은 지역적으로 상관된 보고서 또는 다른 장애 상관 관계 분석기의 보고서를 수집하고 일반적인 장애 우선순위 그래프(예를 들어, 다중상관분석에 의한 산점도(scatter plot)와 다중상관분석에 대한 검증 결과를 기반으로 상관관계 규칙을 적용하여 수행될 수 있다. Fault correlation analysis collects locally correlated reports or reports from other failure correlation analyzers and uses general failure priority graphs (e.g., scatter plots from multiple correlation analysis and multiple correlation analysis). It can be performed by applying a correlation rule based on the verification result for

장애 상관기는 OSS 계층에서 다양한 형태의 이벤트 장애의 빅데이터에 활용될 수 있으며, DCAP(Data Collection Analytics Platform)에 포함될 수 있는 데이터 마이닝(data mining) 모듈 또는 AI 딥러닝 모듈에 의해서 다중상관분석(multi-correlation analysis) 및 사전 장애 예측 분석을 수행하는 통계적 분석 모듈을 포함하여, 통계적 분석 및 AI 딥러닝 분석을 제공할 수 있다. The failure correlator can be used for big data of various types of event failures in the OSS layer, and multi-correlation analysis (multi-correlation analysis) by a data mining module or AI deep learning module that can be included in the Data Collection Analytics Platform (DCAP). -correlation analysis) and a statistical analysis module that performs pre-failure prediction analysis, statistical analysis and AI deep learning analysis can be provided.

이하에서는, 도 8에 도시된 바와 같은 인프라구조에서 도 4 및 도 5에 도시된 이벤트 스트림 데이터 모델에 따른 빅데이터가 수집되는 도 3에 도시된 바와 같은 구성정보 데이터베이스(360) 및 상태관리 데이터베이스(370)를 통합한 형태인 도 2의 수집 프레임워크(240), 그리고 측정 및 이벤트 데이터(100)의 데이터베이스를 활용하여, 본 발명에 따른 분석 프레임워크(250)에 의한 상관성 분석에서 이벤트 (fault/failure)의 근본원인(root cause)을 분석하는 구체적인 상관분석 방법을 설명한다. In the following, a configuration information database 360 and a state management database as shown in FIG. 3 in which big data according to the event stream data model shown in FIGS. 4 and 5 are collected in the infrastructure structure as shown in FIG. Using the collection framework 240 of FIG. 2, which is an integrated form of 370), and the database of measurement and event data 100, events (fault/ A detailed correlation analysis method that analyzes the root cause of failure) will be described.

상관분석은 적용하는 데이터의 형태에 따라 모수적 상관계수를 사용하는 방법과 비모수적 상관계수를 사용하는 방법으로 통계적 모델을 구분하여 적용할 수 있다.Correlation analysis can be applied by classifying statistical models by using a parametric correlation coefficient and a nonparametric correlation coefficient according to the type of data to be applied.

모수적 상관분석 방법으로는 피어슨 상관계수를 사용하여 상관분석을 수행하는 방법이 대표적인 방법이다. As a parametric correlation analysis method, a method of performing correlation analysis using Pearson correlation coefficient is a representative method.

피어슨 상관계수(Person correlation coefficient)를 이용하여 본 발명에 따른 이벤트 상관 분석(correlation analysis)을 수행하는 방법은, 확률론과 통계학에서 두 변수(fault/failure(X1), 측정치(measurement) (X2, X3, X4,…, XN), 통지 정보(X2, X3, X4,…, XN), 임계치(X2, X3, X4,…, XN), 및 모니터링 정보(X2, X3, X4,…, XN)) 간에 어떤 선형적 상관성을 갖고 있는지를 분석할 수 있다.The method of performing event correlation analysis according to the present invention using the Person correlation coefficient is two variables (fault/failure (X 1 )), measurement (X 2 ) in probability theory and statistics. , X 3 , X 4 ,…, X N ), notification information (X 2 , X 3 , X 4 ,…, X N ), threshold (X 2 , X 3 , X 4 ,…, X N ), and monitoring It is possible to analyze the linear correlation between information (X 2 , X 3 , X 4 ,..., X N ).

여기서, 두 변수는 서로 독립적인 관계이거나 상관된 관계일 수 있으며 두 변수 간 관계의 강도를 상관계수(Correlation, Correlation coefficient)라 한다. 또한, 상관분석에서는 상관관계의 정도를 나타내는 단위로 모수적 상관계수

Figure pat00001
를 사용하여, 아래 수학식 1에 따라 모집단의 피어슨 상관관계 계수
Figure pat00002
를 나타낼 수 있다. Here, the two variables may be independent or correlated, and the strength of the relationship between the two variables is referred to as a correlation (correlation coefficient). In addition, in correlation analysis, a parametric correlation coefficient is used as a unit indicating the degree of correlation.
Figure pat00001
Using the Pearson correlation coefficient of the population according to Equation 1 below
Figure pat00002
Can represent.

Figure pat00003
Figure pat00003

또한, 표본의 피어슨 상관계수 r 는 아래 수학식 2와 같이 나타낼 수 있다.In addition, the Pearson correlation coefficient r of the sample can be expressed as Equation 2 below.

Figure pat00004
Figure pat00004

한편, 피어슨 상관 분석에서는 몇 가지 가정을 전제하고 분석을 수행한다. 해당 가정들은 선형성, 동변량성, 두 변수의 정규분포성, 독립표본으로 연속형 자료이다. On the other hand, Pearson's correlation analysis assumes several assumptions and performs the analysis. These assumptions are linearity, homovariate, normal distribution of two variables, and independent samples, which are continuous data.

한편, 피어슨 상관 분석에서는 몇 가지 가정을 전제하고 분석을 수행한다. 해당 가정들은 선형성, 동변량성, 두 변수의 정규분포성, 독립표본으로 연속형 자료이다. On the other hand, Pearson's correlation analysis assumes several assumptions and performs the analysis. These assumptions are linearity, homovariate, normal distribution of two variables, and independent samples, which are continuous data.

선형성은 두 변수 X와 Y의 관계가 직선적인지를 알아보는 것으로 이 가정은 분포를 나타내는 산점도(Scatter Plot)를 통하여 확인할 수 있다. Linearity is to find out whether the relationship between two variables X and Y is linear. This assumption can be confirmed through a scatter plot showing the distribution.

도 9는 본 발명에 따른 상관 분석에 활용되는 산점도의 예를 도시한다. 9 shows an example of a scatter plot used for correlation analysis according to the present invention.

두 번째 가정은 동변량성이며, 이는 X의 값에 관계없이 Y의 흩어진 정도가 같은 것을 의미한다. 세 번째 가정은 두 변수의 정규분포성이며 두 변수의 측정치 분포가 모집단에서 모두 정규분포를 나타냄을 의미한다. 마지막으로, 모집단에서 표본을 추출할 때 표본 대상을 확률적으로 선정하는 독립 표본의 가정을 사용할 수 있다.The second assumption is covariance, which means that the degree of scattering of Y is the same regardless of the value of X. The third assumption is the normal distribution of the two variables, which means that the distribution of the measurements of both variables is normal in the population. Finally, when sampling from a population, you can use the assumption of an independent sample that probably selects the sample target.

한편, 단순히 두 개의 변수가 어느 정도 강한 선형관계에 있는가를 측정하는 것을 단순상관분석(simple correlation analysis), 3개 이상의 변수들간의 관계에 대한 강도를 측정하는 다중상관분석(multiple correlation analysis)이라 한다. 또한, 다중상관분석에서 다른 변수들간의 관계를 고정하고 두 변수만의 관계에 대한 강도를 나타내는 것을 편상관계분석(partial correlation analysis)이라고 한다.On the other hand, simply measuring how strongly two variables have a linear relationship is called simple correlation analysis, and multiple correlation analysis, which measures the strength of the relationship between three or more variables. In addition, in the multiple correlation analysis, the relationship between other variables is fixed and the strength of the relationship between only two variables is expressed as partial correlation analysis.

상관관계의 정도를 파악하는 상관계수(Correlation coefficient)는 두 변수간의 연관된 정도를 나타내며, 고장의 근본원인을 설명하는 데 도움이 된다. 두 변수 간 원인과 결과의 인과관계는 회귀분석을 통하여 인과관계의 정도와 수학적 모델로 확인할 수 있다.The correlation coefficient, which determines the degree of correlation, indicates the degree of correlation between two variables, and helps to explain the root cause of failure. The causal relationship between cause and effect between the two variables can be confirmed by the degree of causal relationship and a mathematical model through regression analysis.

구체적인 분석 방법에서, 두 변수에 대한 표본 관측치는 (X i ,Y i )이고, 모두 측정된 값은 연속형 변수라고 가정하고, 분석을 수행한다. In a specific analysis method, it is assumed that sample observations for two variables are ( X i , Y i ), and both measured values are continuous variables, and analysis is performed.

두 변수의 선형 상관관계와 관련해서는 2가지 가설이 사용될 수 있는데, 귀무가설 및 대립가설이 그것이다. Regarding the linear correlation of the two variables, two hypotheses can be used, the null hypothesis and the alternative hypothesis.

귀무가설(null hypothesis)

Figure pat00005
에서는 두 변수 (X i ,Y i ) 간에는 선형 상관관계가 없다. 즉, 두 변수 간 상관계수가 '0', 즉,
Figure pat00006
이라는 의미이다. 따라서, 두 변수 (X i ,Y i )는 서로 독립적이다.Null hypothesis
Figure pat00005
In, there is no linear correlation between the two variables ( X i , Y i ). That is, the correlation coefficient between the two variables is '0', that is,
Figure pat00006
Means. Thus, the two variables ( X i , Y i ) are independent of each other.

대립가설(alternative hypothesis)

Figure pat00007
에서는 두 변수 (X i ,Y i ) 간에 선형 상관관계가 존재한다(
Figure pat00008
). 즉
Figure pat00009
>0.6 이면 이벤트(fault/failure)에 대하여 고장의 근본원인으로 측정치, 통지 정보, 임계치, 및 모니터링 정보 중 하나 이상과 해당 이벤트가 상관관계가 존재한다고 설명할 수 있다. Alternative hypothesis
Figure pat00007
There is a linear correlation between the two variables ( X i ,Y i ) (
Figure pat00008
). In other words
Figure pat00009
If >0.6, it can be explained that there is a correlation between the event (fault/failure) and one or more of the measurement, notification information, threshold, and monitoring information as the root cause of the failure.

이러한 가정 및 가설을 기반으로 하여, 검정통계량(Test Statistics), 즉, t-통계량은 아래의 수학식 3에 의해 표현될 수 있다. Based on these assumptions and hypotheses, test statistics, that is, t-statistics, can be expressed by Equation 3 below.

Figure pat00010
Figure pat00010

여기서, r=상관계수, n=표본의 크기이다. Here, r = correlation coefficient, n = sample size.

만약 귀무가설

Figure pat00011
라면 아래 수학식 4에 의해와 정의되는 검정 통계량을 이용할 수 있다. If null hypothesis
Figure pat00011
If so, the test statistic defined by Equation 4 below can be used.

Figure pat00012
Figure pat00012

여기서, 상관관계가 0<ρ≤+1 이면 양의 상관, -1≤ρ<0 이면 음의 상관, ρ=0이면 무상관 이라고 한다. 하지만 상관관계가 0인 것은, 상관이 없다는 것이 아니라 선형의 상관관계가 아님을 의미한다. Here, if the correlation is 0<ρ≤+1, it is positive correlation, if -1≤ρ<0, it is negative correlation, and if ρ=0, it is called uncorrelated. However, a correlation of 0 does not mean that there is no correlation, but that it is not a linear correlation.

한편, 표본자료에 기초하여 계산된 검정통계량은 귀무가설 H0가 참인 경우에 해당 표본이 얼마나 벗어나 있는지를 측정해준다. 통계량의 값이 큰 경우에는 귀무가설이 해당자료와 일치하지 않는다는 것을 의미한다. 검정 통계량은 어떠한 값을 실제로 관찰되는 것보다 더 극단적으로 받아들일 수 있는 확률을 검정의 p-value 라고 하며, 이는 귀무가설을 참으로 가정한 후에 계산된다. 즉, p 값이 작아질수록 귀무가설과 상반되는 대립가설의 상관성의 증거는 더 증가한다고 할 수 있다.On the other hand, the test statistic calculated based on the sample data measures how far the sample deviates when the null hypothesis H 0 is true. If the value of the statistic is large, it means that the null hypothesis does not agree with the data. The test statistic is called the p-value of the test as the probability of accepting a value more extreme than is actually observed, which is calculated after assuming the null hypothesis is true. In other words, it can be said that as the p value decreases, the evidence of the correlation between the null hypothesis and the contrary hypothesis increases.

정리하면, t(자유도=n-2) 분포표, 혹은 표준정규 분포표로부터 기각역을 구하고 표본으로부터 계산된 검정통계량 값과 비교하여 유의수준

Figure pat00013
값과 비교하여
Figure pat00014
이면 귀무가설을 기각하고 대립가설을 받아들여 유의성이 있다고 판정하며, 따라서, 두 변수(X i ,Y i ) 간에는 선형 상관관계가 있다고 판단할 수 있다. 즉, 어느 이벤트(fault/failure)에 대하여 고장의 근본원인으로 측정치, 통지 정보, 임계치, 및 모니터링 정보 중 하나 이상과 해당 이벤트 사이에 상관관계가 존재한다고 설명할 수 있다. In summary, the rejection range is calculated from the t (degree of freedom = n -2) distribution table or the standard normal distribution table, and the significance level is compared with the test statistic value calculated from the sample.
Figure pat00013
Compared to the value
Figure pat00014
In this case, the null hypothesis is rejected and the alternative hypothesis is accepted to determine that there is significance, and thus, it can be determined that there is a linear correlation between the two variables ( X i ,Y i ). That is, for a certain event (fault/failure), it can be explained that there is a correlation between the event and at least one of the measurement value, notification information, threshold value, and monitoring information as the root cause of the failure.

이어서, 비모수적 상관분석 방법에 대해 살펴본다. Next, a nonparametric correlation analysis method will be examined.

비모수적 상관분석 방법으로는 스피어만 순위 상관계수를 사용한 분석 방법과 켄달의 타우(Kendall's tau)를 사용한 분석 방법을 활용할 수 있다. As a nonparametric correlation analysis method, an analysis method using Spearman rank correlation coefficient and an analysis method using Kendall's tau can be used.

스피어만 순위 상관계수(Spearman rank correlation coefficient)

Figure pat00015
는 비모수적 상관계수로 데이터가 서열척도인 경우로 이산형(discrete) 데이터, 순서형(ordinal) 데이터에 적용이 가능하다. 즉, 자료의 값 대신 순위를 이용하는 경우의 상관계수로서, 데이터를 작은 것부터 차례로 순위를 매겨 서열 순서로 바꾼 뒤 순위를 이용해 상관계수를 산출한다. Spearman rank correlation coefficient
Figure pat00015
Is a nonparametric correlation coefficient and can be applied to discrete and ordinal data when the data is a sequence scale. In other words, as a correlation coefficient in the case of using a ranking instead of the value of the data, the data is ranked in order from smallest to the order of sequence, and then the correlation coefficient is calculated using the ranking.

스피어만 순위 상관계수는

Figure pat00016
는 일종의 데이터 셋(원 자료)을 각각 순위(rank) 자료로 전환한 후, 순위로 전환한 자료로부터 피어슨 상관계수를 구한 것으로 정의한다. 전환된 순위 자료를 각각
Figure pat00017
Figure pat00018
이라 할 때 스피어만 순위 상관계수는 아래 수학식 5와 같이 나타낼 수 있다. The Spearman rank correlation coefficient is
Figure pat00016
Is defined as converting a kind of data set (original data) to rank data, and then calculating Pearson's correlation coefficient from the data converted to rank. Each of the converted ranking data
Figure pat00017
and
Figure pat00018
In this case, the Spearman rank correlation coefficient can be expressed as Equation 5 below.

Figure pat00019
Figure pat00019

스피어만 상관계수는 원 자료 대신 순위(rank) 자료를 이용하므로 피어슨 상관계수보다 이상치 자료에 덜 민감하게 반응하며, 두 변수 간의 연관 관계가 있는지 없는지를 밝혀주며 자료에 이상점이 있거나 표본크기가 작을 때 유용하게 적용되는 상관분석 모델로 선호된다.Since the Spearman correlation coefficient uses rank data instead of the original data, it responds less sensitively to outlier data than Pearson's correlation coefficient, reveals whether there is a relationship between the two variables, and when there is an outlier in the data or the sample size is small. It is preferred as a useful correlation analysis model.

스피어만 상관계수

Figure pat00020
는 -1 과 1 사이의 값을 가지는데 두 변수 내의 순위가 완전히 일치하면 +1이고, 두 변수의 순위가 완전히 반대이면 -1이 되는데, 이를 산점도로 살펴보면 도 10a 내지 도 10c와 같이 나타낼 수 있다. Spearman correlation coefficient
Figure pat00020
Has a value between -1 and 1, and if the ranks within the two variables are completely identical, it is +1, and if the ranks of the two variables are completely opposite, it becomes -1, which can be expressed as shown in Figs. .

도 10a 내지 도 10c는 본 발명에서 활용하는 산점도의 다른 실시예를 나타낸다. 도 10a는

Figure pat00021
인 경우의 산점도를 나타내며, 두 변수는 서로 독립적으로 상호 상관관계가 없다는 것을 확인할 수 있다. 도 10b는
Figure pat00022
인 경우의 산점도를 나타내며, 두 변수 사이에 강한 상관관계가 있음을 나타낸다. 도 10c는
Figure pat00023
인 경우의 산점도를 나타내며, 두 변수 사이에 음의 강한 음의 상관관계가 있음을 의미한다.10A to 10C show another embodiment of a scatter plot used in the present invention. Figure 10a
Figure pat00021
Represents a scatterplot in the case of, and it can be seen that the two variables are independent of each other and have no correlation. Figure 10b is
Figure pat00022
It represents a scatterplot for the case of and indicates that there is a strong correlation between the two variables. Figure 10c
Figure pat00023
Represents a scatterplot for the case of, and means that there is a strong negative negative correlation between the two variables.

스피어만 상관계수를 이용한 분석 방법에서는, 두 변수에 대한 표본 관측치는 (X i ,Y i )이고, 각 변수는 크기 순으로 정렬이 가능하다는 가정을 사용한다.In the analysis method using the Spearman correlation coefficient, the sample observations for two variables are ( X i ,Y i ), and the assumption that each variable can be sorted in order of size is used.

스피어만 상관계수를 이용한 분석에서도 두 변수의 선형 상관관계와 관련해, 귀무가설 및 대립가설의 2가지 가설이 사용될 수 있다. In the analysis using the Spearman correlation coefficient, two hypotheses, the null hypothesis and the alternative hypothesis, can be used in relation to the linear correlation of the two variables.

귀무가설(null hypothesis)

Figure pat00024
에서는 두 변수 (X i ,Y i ) 간에는 선형 상관관계가 없다. 즉, 두 변수 간 상관계수가 '0', 즉,
Figure pat00025
이라는 의미이다. 따라서, 두 변수 (X i ,Y i )는 서로 독립적이다.Null hypothesis
Figure pat00024
In, there is no linear correlation between the two variables ( X i , Y i ). That is, the correlation coefficient between the two variables is '0', that is,
Figure pat00025
Means. Thus, the two variables ( X i , Y i ) are independent of each other.

대립가설(alternative hypothesis)

Figure pat00026
에서는 두 변수 (X i ,Y i ) 간에 선형 상관관계가 존재한다(
Figure pat00027
). 즉
Figure pat00028
>0.6 이면, 어느 이벤트(fault/failure)에 대하여 고장의 근본원인으로 측정치, 통지 정보, 임계치, 및 모니터링 정보 중 하나 이상과 해당 이벤트 사이에 상관관계가 존재한다고 설명할 수 있다. Alternative hypothesis
Figure pat00026
There is a linear correlation between the two variables ( X i ,Y i ) (
Figure pat00027
). In other words
Figure pat00028
If >0.6, it can be explained that for a fault/failure, there is a correlation between the event and one or more of the measurement, notification information, threshold, and monitoring information as the root cause of the failure.

이러한 가정 및 가설을 기반으로 하여, 상관계수 및 검정통계량(Test Statistics)은 아래의 수학식 6 및 수학식 7에 의해 표현될 수 있다. Based on these assumptions and hypotheses, the correlation coefficient and test statistics can be expressed by Equations 6 and 7 below.

Figure pat00029
Figure pat00029

수학식 6,

Figure pat00030
는 x 변수의 i번째 관측치의 순위이고,
Figure pat00031
는 y 변수의 i번째 관측치의 순위이다.Equation 6,
Figure pat00030
Is the rank of the i observation of the x variable,
Figure pat00031
Is the rank of the ith observation of the y variable.

Figure pat00032
Figure pat00032

정리하면, 스피어만 순위 상관계수를 이용한 분석에서, 두 변수(X i ,Y i )가 완전한 양의 상관관계가 있다면 모든 d i 는 0이고,

Figure pat00033
이다. 만약 두 변수(X i ,Y i )가 완전한 음의 상관관계가 있다면 모든 d i 는 [R(x)=1, R(y)=n], [R(x)=2, R(y)=n-1], … , [R(x)= n , R(y)=1] 와 같으며,
Figure pat00034
이다. 즉, 두 변수 간의 순위가 서로 상반되는 순위로 나타나는 경우이다.In summary, in the analysis using Spearman rank correlation coefficient, if two variables ( X i , Y i ) have a complete positive correlation, all d i is 0,
Figure pat00033
to be. If two variables ( X i ,Y i ) are completely negatively correlated, then all d i is [ R ( x ) = 1, R ( y ) = n ], [ R ( x ) = 2, R ( y ) = n -1],… , Is the same as [ R ( x ) = n , R ( y ) = 1],
Figure pat00034
to be. In other words, this is the case in which the rankings between the two variables appear in conflicting rankings.

한편, 비모수적 상관계수를 사용하는 다른 방법으로 켄달의 타우(Kendall's tau) 를 사용하는 방법이 있다. On the other hand, another method of using a nonparametric correlation coefficient is a method of using Kendall's tau.

켄달의 타우(Kendall's tau)

Figure pat00035
는 비모수적 상관계수로서, 켄달의 타우를 사용하는 방법은 측정형 변수나 순서형 변수들간의 상관 관계의 정도를 자료의 순위 값에 의하여 계산한다. 켄달의 타우는 주로 순서형, 분류형의 범주형 변수들의 상관 관계를 계산하는 데 활용된다. Kendall's tau
Figure pat00035
Is a nonparametric correlation coefficient, and Kendall's method of using tau calculates the degree of correlation between the measured variable or the ordinal variable based on the rank value of the data. Kendall's tau is mainly used to calculate the correlation of categorical variables in ordered and classified types.

켄달의 타우를 활용한 분석에서는, 두 변수에 대한 표본 관측치는 (X i ,Y i )이고, 각 변수는 순서형, 분류형의 범주형 변수임을 가정한다.In the analysis using Kendall's tau, it is assumed that the sample observations for the two variables are ( X i ,Y i ), and each variable is a categorical variable of an ordinal type and a classification type.

또한, 앞서 설명한 두 방법과 마찬가지로 두 변수의 선형 상관관계와 관련해서는 2가지 가설이 사용될 수 있는데, 귀무가설 및 대립가설이 그것이다. Also, similar to the two methods described above, two hypotheses can be used in relation to the linear correlation of two variables, the null hypothesis and the alternative hypothesis.

귀무가설(null hypothesis)

Figure pat00036
에서는 두 변수 (X i ,Y i ) 간에는 선형 상관관계가 없다. 즉, 두 변수 간 상관계수가 '0', 즉,
Figure pat00037
이라는 의미이다. 따라서, 두 변수 (X i ,Y i )는 서로 독립적이다.Null hypothesis
Figure pat00036
In, there is no linear correlation between the two variables ( X i , Y i ). That is, the correlation coefficient between the two variables is '0', that is,
Figure pat00037
Means. Thus, the two variables ( X i , Y i ) are independent of each other.

대립가설(alternative hypothesis)

Figure pat00038
에서는 두 변수 (X i ,Y i ) 간에 선형 상관관계가 존재한다(
Figure pat00039
). 즉
Figure pat00040
>0.6 이면, 어느 이벤트(fault/failure)에 대하여 고장의 근본원인으로 측정치, 통지 정보, 임계치, 및 모니터링 정보 중 하나 이상과 해당 이벤트 간의 상관관계가 존재한다고 설명할 수 있다. Alternative hypothesis
Figure pat00038
There is a linear correlation between the two variables ( X i ,Y i ) (
Figure pat00039
). In other words
Figure pat00040
If >0.6, it can be explained that for a certain event (fault/failure) there is a correlation between the event and one or more of measurement, notification information, threshold, and monitoring information as the root cause of the failure.

이러한 가정 및 가설을 기반으로 하여, 켄달의 타우를 이용한 검정통계량(Test Statistics), 즉, t-통계량은 아래의 수학식 8에 의해 표현될 수 있다. Based on these assumptions and hypotheses, the test statistics using Kendall's tau, that is, the t-statistic can be expressed by Equation 8 below.

Figure pat00041
Figure pat00041

where,

Figure pat00042
where,
Figure pat00042

여기서, n =쌍의 관측치 수, ti =주어진 순위에서 동일한(tied) X 관측치 수, ui =주어진 순위에서 동일한(tied) Y 관측치 수를 의미하며, 함수 sgn()은

Figure pat00043
와 같이 표현될 수 있다. Where n = number of observations in pairs, t i = number of tied X observations in a given rank, u i = number of tied Y observations in a given rank, and the function sgn() is
Figure pat00043
It can be expressed as

한편, Kendall의 일치 계수(coefficient of concordance)는 아래 수학식 9와 같이 나타낼 수 있다. Meanwhile, Kendall's coefficient of concordance can be expressed as Equation 9 below.

Figure pat00044
Figure pat00044

where

Figure pat00045
where
Figure pat00045

여기서, R i = sum of rank of K raters for i th person, n = the number of rated person을 의미한다. Here, R i = sum of rank of K raters for i th person, n = the number of rated person.

또한,

Figure pat00046
일 때, kendall 일치계수 표를 이용하며,
Figure pat00047
인 경우는
Figure pat00048
이 적용된다. In addition,
Figure pat00046
When is, the kendall coincidence coefficient table is used,
Figure pat00047
If
Figure pat00048
This applies.

정리하면, 켄달의 타우를 활용하여 본 발명에 따른 상관성 분석을 수행하는 경우,

Figure pat00049
(자유도=n-2) 분포표, 혹은 표준정규 분포표로부터 기각역을 구하고, 표본으로부터 계산된 검정통계량 값과 비교하고 유의수준
Figure pat00050
값과 비교하여
Figure pat00051
이면 귀무가설을 기각하여 대립가설을 받아들여 유의성이 있다고 판정하며, 두 변수(X i ,Y i ) 간에는 선형 상관관계가 있다고 판단할 수 있다. 즉, 어느 이벤트(fault/failure)에 대하여 특정 변수(측정치, 통지 정보, 임계치, 및 모니터링 정보 중 하나 이상)가 고장의 근본원인으로 해당 이벤트와 상관관계가 존재한다고 설명할 수 있다.In summary, when performing the correlation analysis according to the present invention using Kendall's tau,
Figure pat00049
(Degree of freedom = n -2) Calculate the rejection area from the distribution table or the standard normal distribution table, compare it with the test statistic value calculated from the sample, and the significance level
Figure pat00050
Compared to the value
Figure pat00051
In this case, the null hypothesis is rejected, the alternative hypothesis is accepted, and it is determined that there is significance, and there is a linear correlation between the two variables ( X i ,Y i ). That is, for a certain event (fault/failure), it can be explained that a specific variable (at least one of measurement value, notification information, threshold value, and monitoring information) is the root cause of the failure and has a correlation with the event.

이하에서는, 본 발명에 따른 사전고장예측 시스템인 도 2의 AF(250)에 나타낸 PFPS(Pre Failure Prediction System)의 상세 동작에 대해 보다 자세히 살펴본다. Hereinafter, the detailed operation of the Pre Failure Prediction System (PFPS) shown in the AF 250 of FIG. 2, which is a pre-failure prediction system according to the present invention, will be described in more detail.

인프라 PNF, VNF 및 시설물(Facility) 등의 사전 고장 예측을 위한 데이터마이닝의 통계적 모델에는 크게 3가지 유형이 있다.There are three types of statistical models of data mining for pre-failure prediction such as infrastructure PNF, VNF, and facilities.

그 첫째는, 선형 및 비선형에 의한 추정(estimation) 방정식(equation)을 구하여 예측하는 방법이다. 두 번째는, 종속변수(Yi) 시간(time)에 의해 얻어지는 독립변수(Xi)의 데이터를 이용하여 예측하는 시계열 분석(Time series analysis) 예측 방법으로, Forecasting이라 지칭한다. 세번째는 장애/고장 및 비정상 발견/탐지하는 것을 분류분석(classification analytics) 및 판별분석(discriminant analytics), 그룹화(Grouping) 및 군집화(Clustering)을 예측에 적용하는 방법이다. The first is a method of predicting by obtaining an estimation equation based on linear and nonlinearity. The second is a time series analysis forecasting method that predicts using data of the independent variable (X i ) obtained by the dependent variable (Y i ) and time, and is referred to as forecasting. The third is a method of applying classification analytics, discriminant analytics, grouping, and clustering to predicting failure/failure and abnormality detection/detection.

본 발명에서 주어진 빅데이터을 이용한 최적모델이 결정되면, 이에 대응하는 AI DL(deep learning)의 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning) 또는 강화학습(Reinforcement Learning) 등에 대응하는 알고리즘 또는 통계적 최적모델의 알고리즘을 적용하여 사전 장애/고장 예측을 수행하도록 분석절차(alalysis process)를 시스템 형태로 적용하여 데이터를 선택하고 분석모델을 선택하면, 자동(Autonomic)적으로 PFP가 수행되어 예측결과에 대한 보고서를 저장한 다음 운영자에게 사전 고장예측에 대한 결과에 대하여 제공한다.When the optimal model using the big data given in the present invention is determined, the corresponding algorithm or statistical algorithm corresponding to the AI DL (deep learning) supervised learning, unsupervised learning, or reinforcement learning When the analysis process is applied in the form of a system to perform pre-failure/failure prediction by applying the algorithm of the optimal model, selecting the data and selecting the analysis model, PFP is automatically performed and the prediction result The report is saved and then provided to the operator on the results of the preliminary failure prediction.

사전고장예측 - 회귀분석(PFP-RA: Pre Failure Prediction Regression Analysis)Pre Failure Prediction Regression Analysis (PFP-RA)

보다 구체적인 사전고장예측의 방법론의 첫번째로서, 회귀분석(PFP-RA: Pre Failure Prediction Regression Analysis)을 이용한 사전고장예측 방법에 대해 살펴본다. 회귀분석은 다시 단순회귀분석 및 다중회귀분석으로 구분될 수 있다. As the first of a more specific methodology of pre-failure prediction, we will look at a pre-failure prediction method using PFP-RA (Pre Failure Prediction Regression Analysis). Regression analysis can be further divided into simple regression analysis and multiple regression analysis.

우선, 단순회귀분석(Regression Analysis)에서, 회귀분석은 두 변수(Yi, Xi)가 연속형 변수이며, 두 변수(종속변수(Yi)와 독립변수(Xi)) 간에 강한 상관성이 존재하는 경우에 적용하는 모델이다. 예를 들어, 링크의 트래픽 증가량(Yi)과 링크의 CPU 이용률 또는 이용자 수(Xi)간에 각각의 추정 방정식을 구하는 방법으로 사전 해당 링크 대역폭의 폭주 현상을 사전에 예측하는 경우 적용될 수 있다.First, in Regression Analysis, in regression analysis, two variables (Y i , X i ) are continuous variables, and there is a strong correlation between the two variables (the dependent variable (Y i ) and the independent variable (X i )). It is a model that is applied when it exists. For example, it can be applied when predicting the congestion of the corresponding link bandwidth in advance by obtaining each estimation equation between the traffic increase amount (Y i ) of the link and the CPU utilization rate of the link or the number of users (Xi).

단순회귀분석의 모델 방정식은 아래 수학식 10에 따라 정의될 수 있다.The model equation for simple regression analysis may be defined according to Equation 10 below.

Figure pat00052
Figure pat00052

수학식 10에서 오차항(

Figure pat00053
)은 아래와 같은 가정을 바탕으로 적용될 수 있다. The error term in Equation 10 (
Figure pat00053
) Can be applied based on the following assumptions.

- 오차항은 모든 독립변수 값(Xi)에 대하여 동일한 분산(

Figure pat00054
)을 가짐-The error term is the same variance for all values of the independent variable (X i ) (
Figure pat00054
)

- 오차항은 평균값은 "0"임-The average value of the error term is "0"

- 수집된 데이터의 확률분포는 정규분포(normal distribution)를 따름-The probability distribution of the collected data follows the normal distribution.

- 즉, Y의 분산은

Figure pat00055
이고, 오차항(
Figure pat00056
)은
Figure pat00057
인 정규분포를 따른다고 가정-That is, the variance of Y is
Figure pat00055
And the error term (
Figure pat00056
)silver
Figure pat00057
Is assumed to follow the normal distribution of

- Y에 대한 n개의 관찰된(측정된) 값 들로서 Y에 대한 표본,

Figure pat00058
이고 각각의 y값에 대한 x값들이
Figure pat00059
으로 주어져 있다고 가정 -Sample for Y as n observed (measured) values for Y,
Figure pat00058
And the x values for each y value are
Figure pat00059
Assuming that

이제,

Figure pat00060
의 자료를 활용하여 수학식 10에 따른 방정식에 의해
Figure pat00061
Figure pat00062
의 추정치를 얻어 X와 Y의 방정식을 구한다.
Figure pat00063
Figure pat00064
의 추정치를
Figure pat00065
이라고 하면, 얻어지는 회귀모델 방정식은
Figure pat00066
가 된다. 회귀식은 도 11a 및 도 11b의 자료를 고르게 지나가는 최소자승법(Least Squares Method)에 의해 직선방정식으로 추정하여 결정할 수 있다. now,
Figure pat00060
By using the data of Equation 10
Figure pat00061
Wow
Figure pat00062
The equation of X and Y is obtained by obtaining an estimate of.
Figure pat00063
Wow
Figure pat00064
The estimate of
Figure pat00065
If is, the obtained regression model equation is
Figure pat00066
Becomes. The regression equation may be determined by estimating a linear equation using the least squares method that evenly passes through the data of FIGS. 11A and 11B.

도 11a는 본 발명의 일 실시예에 따른 회귀분석 방법에 사용되는, n 개의 자료를 지나는 직선의 회귀방정식이고, 도 11b는 잔차(residual)에 의한 플롯(plot)을 지나는 직선의 회귀방정식을 나타낸다.FIG. 11A is a regression equation of a straight line passing through n pieces of data used in a regression analysis method according to an embodiment of the present invention, and FIG. 11B shows a regression equation of a straight line passing through a plot by residuals. .

여기서, 직선회귀방정식의 절편

Figure pat00067
과 기울기
Figure pat00068
의 값은 아래 수학식 11로 나타낼 수 있다. Where, the intercept of the linear regression equation
Figure pat00067
And slope
Figure pat00068
The value of can be represented by Equation 11 below.

Figure pat00069
Figure pat00069

직선회귀방정식의 x, y는 잔차

Figure pat00070
가 최소가 되는 값들로 구성되며, 따라서
Figure pat00071
Figure pat00072
을 구하는 방법을 최소자승법이라 할 수 있다. 이때,
Figure pat00073
Figure pat00074
을 구하는 정규방정식은 아래 수학식 12에 따라 표현될 수 있다. X and y of the linear regression equation are residuals
Figure pat00070
Consists of the values at which is the minimum, so
Figure pat00071
Wow
Figure pat00072
The method of obtaining is the least squares method. At this time,
Figure pat00073
Wow
Figure pat00074
The regular equation for obtaining is can be expressed according to Equation 12 below.

Figure pat00075
Figure pat00075

Figure pat00076
Figure pat00076

한편, 단순회귀분석의 분석 방법과 관련한 가설로는 귀무가설 및 대립가설이 사용될 수 있다. Meanwhile, the null hypothesis and the alternative hypothesis may be used as hypotheses related to the analysis method of simple regression analysis.

귀무가설(null hypothesis)에서,

Figure pat00077
:
Figure pat00078
, 두 변수 (X i ,Y i )는 직선의 함수관계를 갖지 않으며, 대립가설(alternative hypothesis)에서는
Figure pat00079
:
Figure pat00080
, 두 변수(X i ,Y i )는 직선의 함수관계를 가지는 것으로 가설을 세운다. 여기서,
Figure pat00081
파라미터를 검정하기 위한 검정통계량 t는,
Figure pat00082
로 정의되고, p-value를 구하며, 유의수준
Figure pat00083
값과 비교한다. In the null hypothesis,
Figure pat00077
:
Figure pat00078
, Two variables ( X i , Y i ) do not have a linear functional relationship, and in the alternative hypothesis
Figure pat00079
:
Figure pat00080
, We hypothesize that the two variables ( X i , Y i ) have a linear functional relationship. here,
Figure pat00081
The test statistic t for testing the parameters is,
Figure pat00082
Is defined as, p-value is calculated, and significance level
Figure pat00083
Compare with the value.

이후, 회귀모델을 검정하기 위해, 아래 표 1에 따른 분산분석표(ANOVA: Analysis of Variance Table)에 의해 F 검정통계량를 산출한다. Thereafter, in order to test the regression model, the F test statistic is calculated using an Analysis of Variance Table (ANOVA) according to Table 1 below.

분산의 요인Factor of variance 제곱합Sum of squares 자유도Degrees of freedom 평균제곱Mean square F값F value 회귀return SSRSSR 1One MSR=SSR/1MSR=SSR/1 F=MSR/MSEF=MSR/MSE 잔차Residual SSESSE n-2 n -2 MSE=SSE/(n-2)MSE=SSE/(n-2) system SSTSST n-1 n -1

표 1에서, SSE(residual sum of squares: 잔차제곱합)=

Figure pat00084
, SSR(regression sum of squares: 회귀제곱합)=
Figure pat00085
, SST(total sum of square: 총제곱합)=
Figure pat00086
,
Figure pat00087
, R2(결정계수)=
Figure pat00088
이며, 단순회귀분석에서 결정계수(R2)는 상관계수(r)를 제곱하여 구할 수 있다. 상관계수는 아래 수학식 13에 의해 정의될 수 있다. In Table 1, SSE (residual sum of squares) =
Figure pat00084
, SSR(regression sum of squares)=
Figure pat00085
, SST(total sum of square: total sum of squares)=
Figure pat00086
,
Figure pat00087
, R 2 (coefficient of determination)=
Figure pat00088
In simple regression analysis, the coefficient of determination (R 2 ) can be obtained by squared the correlation coefficient (r). The correlation coefficient may be defined by Equation 13 below.

Figure pat00089
Figure pat00089

상기 식들에서 F-검정통계량에서 얻어진 p-value 값은 유의수준

Figure pat00090
값과 비교하여 단순회귀분석 모델의 적합성 판정할 수 있다. In the above equations, the p-value obtained from the F-test statistic is the significance level.
Figure pat00090
Compared with the value, the suitability of the simple regression analysis model can be determined.

단순회귀 모델의 결론으로, F-통계량 값에 의해 구해진 p-value값과 유의수준

Figure pat00091
값과 비교하여
Figure pat00092
이면 귀무가설을 기각하고 대립가설을 받아들여 유의성이 있다고 판정한다. 또한, 두 변수(Xi,Yi) 간에는 직선의 선형관계가 있다고 판정하고, 구해진
Figure pat00093
의 회귀방정식에 의해 추정된
Figure pat00094
의 파라미터(parameter)의 값을 적용하고, 구한 회귀방정식에 새로운 X i 값을 대입하면 Y i 에 대한 예측 값을 구할 수 있다.As the conclusion of the simple regression model, the p-value and significance level obtained by the F -statistic value
Figure pat00091
Compared to the value
Figure pat00092
In this case, the null hypothesis is rejected and the alternative hypothesis is accepted, and it is judged as having significance. In addition, it is determined that there is a linear relationship between the two variables ( Xi,Yi ), and the obtained
Figure pat00093
Estimated by the regression equation of
Figure pat00094
A predicted value for Y i can be obtained by applying the value of the parameter of and substituting a new value of X i to the obtained regression equation.

단순회귀모델에서 구한 회귀방정식을 통하여 구한 결정계수(R2)는 추정된 회귀방정식의 예측모델의 설명력이 어느 정도인지를 판정할 수 있다. The coefficient of determination (R 2 ) obtained through the regression equation obtained from the simple regression model can determine how much the explanatory power of the predicted model of the estimated regression equation is.

본 발명에 적용될 수 있는 실시예로서, Y i (링크의 트래픽 증가량), X i (링크의 CPU 사용률)를 적용하여 구해진 회귀방정식을 이용하여 링크 대역폭의 사용률을 예측하여 링크 장애/고장을 사전 예측을 수행할 수 있다. 마찬가지로 앞서 실시예들을 통해 수집되는 빅데이터를 각각(X i ,Y i )에 적용하여 회귀방정식을 구하여 PFP(사전 고장 예측)를 수행할 수 있다.As an embodiment applicable to the present invention, link failure/failure is predicted in advance by predicting the utilization rate of the link bandwidth using the regression equation obtained by applying Y i (link traffic increase) and X i (link CPU utilization rate). Can be done. Similarly, PFP (pre-failure prediction) may be performed by obtaining a regression equation by applying the big data collected through the above embodiments to each ( X i , Y i ).

물론, 구해진 회귀방정식을 최종적으로 구한 경우, 사전에 회귀분석에서 가정한 오차들의 정규성, 등분산성 및 독립성을 검토한 후에 가정이 위배되는 것이 없을 때 추정(estimation)한 회귀모델의 직선방정식을 이용하여 예측을 수행할 수 있다.Of course, when the obtained regression equation is finally obtained, after reviewing the normality, equal variance, and independence of the errors assumed in the regression analysis in advance, use the linear equation of the estimated regression model when the assumption is not violated. You can make predictions.

회귀분석을 이용한 사전고장예측의 두번째 방법으로, 다중회귀분석(PFP-MRA: Pre Failure Prediction-Multiple Regression Analysis)을 이용한 예측에 대해 상세히 살펴본다.As the second method of pre-failure prediction using regression analysis, we will look at the prediction using Pre Failure Prediction-Multiple Regression Analysis (PFP-MRA) in detail.

다중회귀분석은 종속변수(반응변수)

Figure pat00095
와 독립변수(설명변수)
Figure pat00096
모두가 정량적인 연속형 변수들을 이용하여 다중회귀방정식을 구하는 모델이다. 이때, 독립변수 Xi가 두 개 이상의 독립변수로 구성되는 경우를 다중회귀분석(Multiple Regression Model) 이라 한다. 다중회귀분석은, 두 변수(Xi, Yi)간에 강한 상관성이 존재하는 경우에 적용할 수 있는 모델이다.Multiple regression analysis is the dependent variable (response variable)
Figure pat00095
And independent variables (explanatory variables)
Figure pat00096
All are models that use quantitative continuous variables to obtain multiple regression equations. In this case, the case where the independent variable X i is composed of two or more independent variables is referred to as multiple regression model. Multiple regression analysis is a model that can be applied when there is a strong correlation between two variables (X i, Y i ).

예를 들어, 본 발명의 일 실시예로서 독립변수 2개 이상을 적용하여 선형의 다중회귀방정식을 구하여 예측하는 경우로서, 트래픽 증가량(Yi)과 이용자 수(X1), CPU 이용률(X2) 및 메모리 사용률(X3) 간에 추정 방정식을 구하는 방법을 이용해, 해당 링크 대역폭의 폭주 현상을 사전에 예측하여 서비스 품질을 연속적으로 보장할 수 있다.For example, as an embodiment of the present invention, as a case of obtaining and predicting a linear multiple regression equation by applying two or more independent variables, traffic increase (Y i ), number of users (X1), CPU utilization (X2), and By using a method of obtaining an estimation equation between the memory usage rates (X3), a congestion phenomenon of a corresponding link bandwidth can be predicted in advance to continuously guarantee a quality of service.

다중회귀분석 모델의 방정식은 아래 수학식 14와 같이 표현될 수 있다.The equation of the multiple regression analysis model can be expressed as Equation 14 below.

Figure pat00097
Figure pat00097

다중회귀분석 모델을 행렬식으로 표현하면 아래 수학식 15와 같다.If the multiple regression analysis model is expressed as a determinant, it is shown in Equation 15 below.

Figure pat00098
Figure pat00098

수학식 15에서,

Figure pat00099
는 종속변수 벡터(차수 kx1),
Figure pat00100
는 설명변수 데이터 행렬(차수 kx(n+1)),
Figure pat00101
는 회귀계수 벡터(차수 (n+1)x1),
Figure pat00102
는 오차 벡터(차수 kx1)이다. In Equation 15,
Figure pat00099
Is the dependent variable vector (order k x1),
Figure pat00100
Is the explanatory variable data matrix (order k x( n +1)),
Figure pat00101
Is the regression coefficient vector(order ( n +1)x1),
Figure pat00102
Is the error vector (order k x1).

아래 표 2는 다중회귀 모델에 대한 자료를 나타낸다.Table 2 below shows the data for the multiple regression model.

Figure pat00103
Figure pat00103

다중회귀분석의 모델 방정식에서 오차항(

Figure pat00104
)에는 아래와 같이, 단순회귀 모델과 동일한 독립성, 등분산성, 정규성의 가정이 적용될 수 있으며, 오차항은 모든 독립변수 값(X i)에 대하여 동일한 분산(
Figure pat00105
)을 가질 수 있다. In the model equation of multiple regression analysis, the error term (
Figure pat00104
), the same assumptions of independence, equal variance, and normality as the simple regression model can be applied as follows, and the error term is the same variance for all independent variable values ( X i ).
Figure pat00105
).

- 오차항은 평균값은 "0"임-The average value of the error term is "0"

- 수집된 데이터의 확률분포는 정규분포(normal distribution)를 따름-The probability distribution of the collected data follows the normal distribution.

- 즉, Y의 분산은

Figure pat00106
이고, 오차항(
Figure pat00107
)은
Figure pat00108
인 정규분포를 따른다고 가정-That is, the variance of Y is
Figure pat00106
And the error term (
Figure pat00107
)silver
Figure pat00108
Is assumed to follow the normal distribution of

- Y(종속변수)에 대한 n개의 관찰된(측정된) 값 들로서 Y에 대한 표본,

Figure pat00109
이고 각각의 y값에 대한 x값들이
Figure pat00110
으로 주어져 있다고 가정 -A sample for Y as n observed (measured) values for Y (dependent variable),
Figure pat00109
And the x values for each y value are
Figure pat00110
Assuming that

다중회귀분석 모델의 방정식에서,

Figure pat00111
는 회귀계수이며, 파라미터(parameter)이다.
Figure pat00112
i-번째 설명변수의 편미분계수로 다른 설명변수의 값이 고정일 때 영향력을 의미한다. 설명변수
Figure pat00113
는 결정론적(deterministic)이고 확률변수가 아니며, 종속변수의 분포는 오차항의 분포와 동일하다). 오차항의 정규성 검정 과정은 우선, 통계량으로 샤피로-윌크(Shapiro Wilk) W-통계량, 콜모고로프-시미르노프(Kolmogorov-Smirnov) D-통계량, 앤더슨-다링(Anderson-Daring) AD 통계량 및 크래이머-폰 미세스(Cramer-von Mises) W-Sq 통계량과 P-value를 구한다. 그리고 유의수준
Figure pat00114
와 비교하여 P-Value <
Figure pat00115
이면 정규성을 따른다고 판단할 수 있다. 그래프로는 Q-Q plot 또는 히스토그램으로 확인할 수 있다.In the equation of the multiple regression model,
Figure pat00111
Is the regression coefficient and is a parameter.
Figure pat00112
Is the partial differential coefficient of the i -th explanatory variable, meaning the influence when the value of the other explanatory variable is fixed. Explanatory variable
Figure pat00113
Is deterministic and not a random variable, and the distribution of the dependent variable is the same as that of the error term). The procedure for testing the normality of the error term is, first, the Shapiro Wilk W-statistic, the Kolmogorov-Smirnov D-statistic, the Anderson-Daring AD statistic, and the Cramer. -Calculate the W-Sq statistics and P-value of Kramer-von Mises. And significance level
Figure pat00114
Compared to P-Value <
Figure pat00115
If it is, it can be judged that it follows normality. As a graph, you can check with QQ plot or histogram.

한편, 정규성이 위배되는 경우는 아래 수학식 16으로 정의될 수 있는 정규변환으로 해결한다. 즉, 수학식 16에 의해 정의되는 파워 변환을 이용해 변환하여 최적 모델을 찾는다.On the other hand, when the normality is violated, it is solved by a normal transformation that can be defined by Equation 16 below. That is, the optimal model is found by converting using power conversion defined by Equation 16.

Figure pat00116
Figure pat00116

추가적으로, 종속변수와 설명변수의 관계에 대하여 선형성을 체크하여, 선형이 아닌 경우는 도 12에 도시된 형태에 따라 아래 표 3에 따른 변환을 한 후에 비선형 회귀방정식의 모델을 적용하여 예측을 수행할 수 있다. In addition, the linearity of the relationship between the dependent variable and the explanatory variable is checked, and if it is not linear, the transformation according to Table 3 below is performed according to the form shown in Fig. 12, and then the model of the nonlinear regression equation is applied to perform prediction. I can.

도 12는 본 발명의 일 실시예에 따라 다중회귀분석을 이용한 장애예측을 수행하는 경우 적용되는 산점도의 유형에 따라 해당하는 변환을 수행하는 방법을 나타낸다. 아래 표 3은 산점도 유형에 따른 변환 후의 회귀방정식을 정리한 것이다.12 shows a method of performing a corresponding transformation according to a type of a scatter plot applied when performing failure prediction using multiple regression analysis according to an embodiment of the present invention. Table 3 below summarizes the regression equations after transformation according to the scatterplot type.

Figure pat00117
Figure pat00117

본 실시예에서 선형성 진단방법으로는 종속변수와 설명변수간의 개별 산점도 또는 잔차에 의한 산점도를 검토하여 선형성을 판단할 수 있다. In the present embodiment, as a method for diagnosing linearity, linearity may be determined by examining individual scatter plots between dependent variables and explanatory variables or scatter plots based on residuals.

OLS(최소자승법) 추정치로는, 오차항의 제곱합으로

Figure pat00118
을 최소화 하는 추정치가 계산될 수 있으며, 이를 행렬로 표시하면 아래 수학식 17과 같이 나타낼 수 있다. As an OLS (least squares method) estimate, the sum of squares of the error terms
Figure pat00118
An estimate that minimizes can be calculated, and when expressed as a matrix, it can be expressed as Equation 17 below.

Figure pat00119
Figure pat00119

Figure pat00120
Figure pat00121
Figure pat00120
Figure pat00121

즉,

Figure pat00122
만약
Figure pat00123
의 역행렬이 존재하면
Figure pat00124
이면
Figure pat00125
(설명변수)들이 상관계수가 서로 0이 아니면
Figure pat00126
OLS(최소자승법)에 의한 추정치는
Figure pat00127
이 된다.In other words,
Figure pat00122
if
Figure pat00123
If there is an inverse matrix of
Figure pat00124
Back side
Figure pat00125
(Explanatory variables) if the correlation coefficient is not 0
Figure pat00126
The estimate by the least squares method (OLS) is
Figure pat00127
Becomes.

여기서, Hat 행렬:

Figure pat00128
멱등행렬(Idempotent)이며, 종속변수 적합방정식
Figure pat00129
이다. 오차 추정치
Figure pat00130
는 종속변수(
Figure pat00131
)와 예측값(
Figure pat00132
) 간의 차이를 의미한다.Here, the Hat matrix:
Figure pat00128
Idempotent, a dependent variable fit equation
Figure pat00129
to be. Error estimate
Figure pat00130
Is the dependent variable (
Figure pat00131
) And predicted value (
Figure pat00132
) Means the difference between.

한편, 가우스 마코프 이론(Gauss Markov Theorem)과 관련하여,

Figure pat00133
는 BLUE(Best Linear Unbiased Estimator)이고
Figure pat00134
이고,
Figure pat00135
이다.
Figure pat00136
의 추정치는
Figure pat00137
이다.Meanwhile, with regard to Gauss Markov Theorem,
Figure pat00133
Is BLUE (Best Linear Unbiased Estimator)
Figure pat00134
ego,
Figure pat00135
to be.
Figure pat00136
Is an estimate of
Figure pat00137
to be.

이어서, 개별 회귀모델에 대한 t-검정 수행에 대해 살펴본다. Next, we look at the t -test performance for each regression model.

개별 회귀모델에 대한 t-검정 수행은, 전체 다중회귀모델을 적용한 후에 추정된 각각의 파라미터(parameter)에 대하여 t-검정에 의한 개별검정을 실시하여 불필요한 설명변수를 제거하여 완전한 회귀모델을 완성하는 방법이다.Performing the t -test for individual regression models is to complete a complete regression model by removing unnecessary explanatory variables by performing individual tests by t-test for each estimated parameter after applying the entire multiple regression model. That's the way.

t-검정은 기울기와 절편에 대하여 개별 파라미터(회귀계수)에 대하여 가설(hypothesis)을 각각 검정할 수 있다. The t- test can test hypotheses for individual parameters (regression coefficients) for slope and intercept, respectively.

① 가정:

Figure pat00138
① Assumption:
Figure pat00138

Figure pat00139
Figure pat00139

② 검정통계량:

Figure pat00140
, ~
Figure pat00141
② Test statistics:
Figure pat00140
, ~
Figure pat00141

Figure pat00142
신뢰구간
Figure pat00143
Figure pat00144
로 추정되고
Figure pat00145
의 신뢰구간은
Figure pat00146
, 따라서 y의 미래 관측치에 대한
Figure pat00147
의 신뢰구간은 아래와 같음③
Figure pat00142
Confidence interval
Figure pat00143
Is
Figure pat00144
Is estimated to be
Figure pat00145
The confidence interval of
Figure pat00146
, Thus for future observations of y
Figure pat00147
The confidence interval of is as follows

Figure pat00148
에 의해서
Figure pat00149
의 신뢰구간(confidence interval)을 구한다.
Figure pat00148
By
Figure pat00149
Find the confidence interval of.

한편, 다중회귀분석에서 개별 회귀계수에 대한 추론은 아래 표 4와 같이 정리될 수 있다.On the other hand, in multiple regression analysis, the inference for individual regression coefficients can be summarized as shown in Table 4 below.

Figure pat00150
Figure pat00150

다중 회귀모델의 개별 회귀모델에 대한 t-검정 수행의 결론으로, T-통계량 값에 의해 구해진 p-value값과 유의수준

Figure pat00151
값과 비교하여
Figure pat00152
이면 귀무가설(H 0) 기각하고 대립가설(H 1)을 받아들여 유의성이 있다고 판정하며, 개별 회귀계수는 유의하다고 판정할 수 있다. As a conclusion of performing t-test for individual regression models of multiple regression models, the p-value and significance level obtained by the T -statistic value
Figure pat00151
Compared to the value
Figure pat00152
If this is the case, the null hypothesis ( H 0 ) is rejected and the alternative hypothesis ( H 1 ) is accepted to determine that there is significance, and the individual regression coefficient can be determined to be significant.

전체 다중회귀모델에 대한 F-검정 수행에 대해 설명하면 아래와 같다.The F -test performance for the entire multiple regression model is described below.

① 가설:① Hypothesis:

- 귀무가설(null hypothesis)

Figure pat00153
:
Figure pat00154
, 모든 설명변수는 유의하지 않다.-Null hypothesis
Figure pat00153
:
Figure pat00154
, All explanatory variables are not significant.

- 대립가설(alternative hypothesis)

Figure pat00155
:
Figure pat00156
, 유의한 설명변수가 하나 이상은 있다.-Alternative hypothesis
Figure pat00155
:
Figure pat00156
, There is one or more significant explanatory variables.

Figure pat00157
파라미터 전체를 검정하기 위한 F-검정통계량②
Figure pat00157
F- test statistic to test all parameters

-

Figure pat00158
, p-value를 구함-
Figure pat00158
, looking for p-value

- 유의수준

Figure pat00159
값과 비교하여 검정한다.-Significance level
Figure pat00159
Test by comparing with the value.

- 다중회귀모델의 적합성을 검정하기 위한 분산분석표(ANOVA: Analysis of Variance Table)에 의한 F 검정통계량으로 검정하며, 분산분석표는 아래 표 5와 같음-Tested by the F test statistics based on the Analysis of Variance Table (ANOVA) to test the suitability of the multiple regression model, and the ANOVA table is shown in Table 5 below.

분산의 요인Factor of variance 제곱합Sum of squares 자유도Degrees of freedom 평균제곱Mean square F값F value 회귀return SSRSSR kk MSR=SSR/kMSR=SSR/k F=MSR/MSE ~F(k,n-k-1)F=MSR/MSE ~F(k, n - k -1) 잔차Residual SSESSE n-k-1 n -k-1 MSE=SSE/n-k-1MSE=SSE/ n - k -1 system SSTSST n-1 n -1 결정계수:

Figure pat00160
Coefficient of determination:
Figure pat00160

표 5에서, SSE(residual sum of squares: 잔차제곱합)=

Figure pat00161
, SSR(regression sum of squares: 회귀제곱합)=
Figure pat00162
, SST(total sum of square: 총제곱합)=
Figure pat00163
,
Figure pat00164
이다.In Table 5, SSE (residual sum of squares) =
Figure pat00161
, SSR(regression sum of squares)=
Figure pat00162
, SST(total sum of square: total sum of squares)=
Figure pat00163
,
Figure pat00164
to be.

위 식에서 F-검정통계량에서 얻어진 p-value 값은 유의수준

Figure pat00165
값과 비교하여 판정할 수 있다. In the above equation, the p-value obtained from the F-test statistic is the significance level.
Figure pat00165
It can be judged by comparing it with the value.

다중회귀모델의 설명력은 결정계수와 수정결정계수 값을 가지고 설명될 수 있다. 이때, 결정계수

Figure pat00166
, 수정결정계수(adjusted
Figure pat00167
)
Figure pat00168
에 의해서 다중회귀방정식의 설명력을 나타낼 수 있다.The explanatory power of a multiple regression model can be explained with the coefficient of determination and the value of the correction coefficient. At this time, the coefficient of determination
Figure pat00166
, Correction coefficient (adjusted
Figure pat00167
)
Figure pat00168
The explanatory power of multiple regression equations can be expressed by

전체 다중회귀모델에 대한 F-검정 수행의 결론으로, F-통계량 값에 의해 구해진 p-value값과 유의수준

Figure pat00169
값과 비교하여
Figure pat00170
이면 귀무가설을 기각하여 대립가설을 받아드려 유의성이 있다고 판정하며, 다중회귀모델은 직선의 선형관계가 있다고 판정하고, 구해진
Figure pat00171
의 다중회귀방정식에 의해 추정된
Figure pat00172
의 파라미터(parameter)의 값을 적용하고, 구한 회귀방정식에 새로운 X i 값을 대입하면 Y i 에 대한 예측 값을 구할 수 있다. As the conclusion of performing the F -test for the entire multiple regression model, the p-value and significance level obtained by the F -statistic value
Figure pat00169
Compared to the value
Figure pat00170
If the negative hypothesis is rejected and the alternative hypothesis is accepted, it is judged that there is significance, and the multiple regression model judges that there is a linear relationship of a straight line, and
Figure pat00171
Estimated by the multiple regression equation of
Figure pat00172
A predicted value for Y i can be obtained by applying the value of the parameter of and substituting a new value of X i to the obtained regression equation.

구해진 결정계수(R 2), 수정결정계수(R adj 2) 및 MSE 의한 값에 기초하여, 추정한 다중회귀방정식의 예측 설명력이 어는 정도인지를 판정할 수 있다. 일 실시예로, Y i (링크의 트래픽 증가량), X 1 (링크의 CPU 사용률), X 2 (링크의 메모리 사용률), …, X k를 적용하여 구해진 다중회귀방정식을 이용하여 링크의 트래픽 증가량에 대하여 링크의 사전 장애/고장 예측을 수행할 수 있다. 마찬가지로 앞서 실시예들을 통해 수집되는 빅데이터를 각각 (X i ,Y i )에 적용하여 회귀방정식을 구하여 PFP(사전 고장 예측)를 수행할 수 있다.Based on the obtained coefficient of determination ( R 2 ), the correction coefficient ( R adj 2 ), and the values of MSE , it is possible to determine what degree the predictive explanatory power of the estimated multiple regression equation is. In one embodiment, Y i (link traffic increase), X 1 (link CPU utilization), X 2 (link memory utilization),… Using the multiple regression equation obtained by applying, X k , it is possible to predict link failure/failure in advance for the amount of traffic increase of the link. Similarly, PFP (pre-failure prediction) may be performed by obtaining a regression equation by applying the big data collected through the above embodiments to ( X i , Y i ), respectively.

단계적 다중회귀분석에서 설명변수에 대한 변수선택 방법은 아래와 같다.The variable selection method for explanatory variables in stepwise multiple regression analysis is as follows.

백워드 방법(backward method)으로, 설명변수 전체에 대하여 다중회귀모델을 적용한 후에 추정된 파라미터에 대하여 t-검정에 의한 개별검정을 실시하여 불필요한 설명변수를 제거하여 완전한 회귀모델을 완성하는 방법이다. As a backward method, a complete regression model is completed by removing unnecessary explanatory variables by performing individual tests by t-test on the estimated parameters after applying multiple regression models to all explanatory variables.

포워드 방법(forward method)으로, 설명변수 초기 상수항만을 포함한 후에 점차 설명변수를 하나씩 증가하여 완전한 회귀모델을 완성하는 방법이다.The forward method is a method of completing a complete regression model by gradually increasing the explanatory variable by one after including only the initial constant term of the explanatory variable.

단계적 방법(stepwise method)으로, 전진 방법의 문제점을 개선하여 전진 방법에 후진 방법이 가미된 방법이다. 전진선택법에 따라 가장 큰 부분 F값을 갖는 설명변수를 선택하여 모델에 포함시키되 새로 추가되는 설명변수로 인하여 필요없게 되는 설명변수가 있을 경우 후진제거법으로 제거해 나가는 방법이다. 물론, 더 이상 추가될 변수도, 제거시킬 변수도 없을 때까지 진행하면서 최적의 설명변수들만으로 다중회귀모델을 얻는 방법이다.It is a stepwise method, which improves the problem of the forward method and adds the backward method to the forward method. According to the forward selection method, the explanatory variable with the largest partial F value is selected and included in the model, but if there is an explanatory variable that is not needed due to the newly added explanatory variable, it is removed by the backward elimination method. Of course, this is a method of obtaining a multiple regression model with only optimal explanatory variables while proceeding until there are no more variables to be added or variables to be removed.

비선형 성장곡선모델(PFP-NGCM: Pre Failure Prediction - Nonlinear Growth Curve Model)을 이용한 사전고장예측Pre-failure prediction using a nonlinear growth curve model (PFP-NGCM: Pre Failure Prediction-Nonlinear Growth Curve Model)

비선형성장곡선모델은(Nonlinear Growth Curve Model) 시간(t)의 연속적인 흐름에 따라 얻어지는 누적수요자료를 갖는 누적분포함수(CDF: Cumulative distribution function)에 대하여 예측(prediction)을 적용하는 모델이다. The Nonlinear Growth Curve Model is a model that applies prediction to a cumulative distribution function (CDF) that has cumulative demand data obtained over a continuous flow of time ( t ).

본 발명의 바람직한 실시예로서, 시간별, 주별, 월별 또는 연도별 트래픽의 볼륨(값)을 매 시간 단위로 누적한 값을 비선형성장곡선모델에 적용하여 예측을 수행할 수 있다.As a preferred embodiment of the present invention, a value obtained by accumulating the volume (value) of traffic per hour, week, month, or year per hour may be applied to a nonlinear long-term curve model to perform prediction.

대표적인 비선형성장곡선 모델로는 로지스틱 모델(Logistic Model), 프로빗 모델(Probit Model), 곰페르츠 모델(Gompertz Model), 음의지수 모델(Negative Exponential Model), 및 지수 모델(Exponential Model)을 들 수 있다. Representative nonlinear long-line models include Logistic Model, Probit Model, Gompertz Model, Negative Exponential Model, and Exponential Model. have.

로지스틱 모델(Logistic Model)은,

Figure pat00173
의 식으로 표현될 수 있으며, 펄성장곡선 모델(Peal Growth Curve Model) 로 불리기도 한다. 프로빗 모델(Probit Model)은,
Figure pat00174
의 식으로 표현될 수 있으며,
Figure pat00175
Figure pat00176
로 정규화(normalization)한 모델이다. 곰페르츠 모델(Gompertz Model)은,
Figure pat00177
로 표현될 수 있으며,
Figure pat00178
를 성장곡선 모델의 자료가 급격히 상승하는 형태의 자료에 적합한 모델이다. 음의지수 모델(Negative Exponential Model)은,
Figure pat00179
에 의해 표현될 수 있다. 또한, 지수 모델(Exponential Model)은
Figure pat00180
에 의해 표현될 수 있다. The logistic model,
Figure pat00173
It can be expressed in terms of consciousness, and is also referred to as the Pearl Growth Curve Model. Probit Model,
Figure pat00174
Can be expressed in terms of consciousness,
Figure pat00175
To
Figure pat00176
It is a model normalized by. The Gompertz Model,
Figure pat00177
Can be expressed as
Figure pat00178
Is a model suitable for data in which the data of the growth curve model rises rapidly. The Negative Exponential Model,
Figure pat00179
Can be expressed by In addition, the Exponential Model
Figure pat00180
Can be expressed by

상기 다섯 가지 비선형성장곡선 모델에서,

Figure pat00181
는 시간에 따른 누적 자료,
Figure pat00182
는 최대 상한값(upper limit),
Figure pat00183
는 추정할 파라미터이다. 또한,
Figure pat00184
을 가정하고 증가곡선모델을 적용한다.In the above five nonlinear long curve models,
Figure pat00181
Is the cumulative data over time,
Figure pat00182
Is the upper limit,
Figure pat00183
Is the parameter to be estimated. In addition,
Figure pat00184
Is assumed and the increasing curve model is applied.

일반적인 비선형 성장곡선모델에 대한 방정식은 아래 수학식 18과 같이 표현될 수 있다.The equation for a general nonlinear growth curve model can be expressed as Equation 18 below.

Figure pat00185
Figure pat00185

수학식 18에서,

Figure pat00186
는 설명변수에 의한 행렬,
Figure pat00187
는 파라미터에 관한 벡터,
Figure pat00188
은 오차항의 벡터이다. 그리고
Figure pat00189
는 설명변수와 파라미터에 관한 함수이다.In Equation 18,
Figure pat00186
Is a matrix by explanatory variables,
Figure pat00187
Is a vector of parameters,
Figure pat00188
Is the vector of the error term. And
Figure pat00189
Is a function for explanatory variables and parameters.

수학식 18에 의해 표현될 수 있는 비선형 방정식의 해는

Figure pat00190
이며,
Figure pat00191
Figure pat00192
에 의해 계산될 수 있다.
Figure pat00193
Figure pat00194
Figure pat00195
(파라미터)에 대한 함수이며, 일반적으로 해는 존재하지 않는다. The solution of a nonlinear equation that can be expressed by Equation 18 is
Figure pat00190
Is,
Figure pat00191
Is
Figure pat00192
Can be calculated by
Figure pat00193
Wow
Figure pat00194
Is
Figure pat00195
It is a function of (parameter), and there is usually no solution.

따라서, 비선형 방정식의 해는 수치해석 방법에 의한 시뮬레이션을 이용하여 최적의 값을 구하게 된다. 이경우

Figure pat00196
에 대한 초기값(starting value)은 오차의 제곱합
Figure pat00197
Figure pat00198
가 최소값을 갖도록 연속적으로 반복하여 수치해석 계산을 적용하여 해를 구한다. 수치해석 계산은
Figure pat00199
Figure pat00200
에 의한 최근값(current value)으로 계산된다. 이때 오차는
Figure pat00201
에 의해서 얻어지며, 행렬
Figure pat00202
는 선형회귀와 유산한 계열을 적용한다. 수치해석에 의한 반복 계산은
Figure pat00203
사이의 어느 한 점을 임의로 정한 초기값에서 시작한다. 이때,
Figure pat00204
Figure pat00205
의 계산은 아래 수학식 19에 포함된
Figure pat00206
에 의해서 반복적으로 수행될 수 있다.Therefore, the optimal value for the solution of the nonlinear equation is obtained using a simulation by a numerical analysis method. in this case
Figure pat00196
The starting value for is the sum of squared errors
Figure pat00197
this
Figure pat00198
The solution is solved by applying numerical analysis calculation by successively repeating so that is the minimum value. Numerical analysis calculation
Figure pat00199
Wow
Figure pat00200
It is calculated as the current value by. At this time, the error is
Figure pat00201
Obtained by, the matrix
Figure pat00202
Applies linear regression and aborted series. Iterative calculation by numerical analysis
Figure pat00203
Start from an initial value arbitrarily determined at any point in between. At this time,
Figure pat00204
Wow
Figure pat00205
The calculation of is included in Equation 19 below
Figure pat00206
Can be performed repeatedly by

Figure pat00207
Figure pat00207

수학식 19식에서 어떤 방법의

Figure pat00208
를 적용하느냐 따라 파라미터에 대한 벡터가 변화되어 계산된다. 또한,
Figure pat00209
를 적용하는 수치해석 계산 방법은 아래 서술하는 방법을 따를 수 있다. 수치해석 계산 방법에 따라 해를 찾는 반복(iteration) 횟수가 달라질 수 있지만, 거의 동일한 해를 구하게 된다. Which method in Equation 19
Figure pat00208
Depending on whether or not is applied, the vector for the parameter is changed and calculated. In addition,
Figure pat00209
The numerical analysis calculation method to which is applied can follow the method described below. Although the number of iterations to find a solution may vary depending on the method of numerical analysis calculations, almost the same solution is obtained.

Figure pat00210
를 적용하는 수치해석 방법으로는
Figure pat00211
으로 표현될 수 있는 Steepest descent 방법,
Figure pat00212
에 의해 정의될 수 있는 Gauss-Newton 방법,
Figure pat00213
으로 표현되는 Newton 방법,
Figure pat00214
으로 정의되는 Marquardt 방법 등이 사용될 수 있다. 이들 4가지 방법 중 Gauss-Newton 방법, Newton 방법, Marquardt 방법이 주로 이용된다.
Figure pat00210
As a numerical analysis method that applies
Figure pat00211
Steepest descent method, which can be expressed as
Figure pat00212
Gauss-Newton method, which can be defined by
Figure pat00213
Newton method expressed as,
Figure pat00214
Marquardt method defined as may be used. Among these four methods, the Gauss-Newton method, Newton method, and Marquardt method are mainly used.

비선형 성장곡선 모델을 적용한 후 모델 선택을 위한 모델선호기준 통계량으로서, 아래의 검정통계량을 이용할 수 있다. As a model preference standard statistic for model selection after applying the nonlinear growth curve model, the following test statistic can be used.

① 정확한 실제 결정계수(Corrected Actual

Figure pat00215
-square) ① Corrected Actual
Figure pat00215
-square)

Figure pat00216
Figure pat00216

여기서,

Figure pat00217
,
Figure pat00218
,
Figure pat00219
,
Figure pat00220
실제값(actual value),
Figure pat00221
예측값(predicted value)이다.
Figure pat00222
는 실제(actual) 자료의 제곱합(Sum of the Square)을 의미하고,
Figure pat00223
에 있어서
Figure pat00224
는 실제 자료의 평균(actual mean)에 의해서 구해진다.here,
Figure pat00217
,
Figure pat00218
,
Figure pat00219
,
Figure pat00220
Actual value,
Figure pat00221
It is a predicted value.
Figure pat00222
Means the sum of the square of the actual data,
Figure pat00223
In
Figure pat00224
Is obtained by the actual mean.

② 정확한 실제 수정결정계수(Corrected Actual Adjusted

Figure pat00225
-square) ② Corrected Actual Adjusted
Figure pat00225
-square)

Figure pat00226
Figure pat00226

여기서,

Figure pat00227
,
Figure pat00228
표본 수,
Figure pat00229
추정된 파라미터의 수이다. 정확한 실제 수정결정계수의 범위는 0과 1사이의 값을 가지며, 1에 근접한 값을 가질수록 좋은 모델임을 나타낸다. 정확한 실제결정계수
Figure pat00230
은 비선형성장곡선모델에서 모델의 설명력을 나타내고, 선형회귀모델에서는
Figure pat00231
이 선형회귀모델의 설명력을 나타낸다. here,
Figure pat00227
,
Figure pat00228
Number of samples,
Figure pat00229
It is the number of estimated parameters. The exact range of the correction coefficient has a value between 0 and 1, and a value closer to 1 indicates a better model. Exact actual coefficient of determination
Figure pat00230
Represents the explanatory power of the model in the nonlinear long curve model, and in the linear regression model
Figure pat00231
It shows the explanatory power of this linear regression model.

③ 예측의 정확성 통계량(a statistic measuring the accuracy of a forecast),

Figure pat00232
③ a statistic measuring the accuracy of a forecast,
Figure pat00232

Figure pat00233
Figure pat00233

④ Theil's 부등식 계수(inequality coefficient)

Figure pat00234
④ Theil's inequality coefficient
Figure pat00234

Figure pat00235
Figure pat00235

예측의 정확성 통계량(

Figure pat00236
)은 다른 모델과 비교하여 작은 값을 가질수록 좋은 모델이고, Theil's의 부등식 계수(
Figure pat00237
)의 계수 값은
Figure pat00238
에 근접할 때 좋은 모델로 결정되며, 예측이 정확한 것으로 판정한다.Prediction accuracy statistic (
Figure pat00236
) Is a better model with smaller values compared to other models, and Theil's inequality coefficient (
Figure pat00237
The coefficient value of) is
Figure pat00238
When it approaches, it is determined as a good model, and the prediction is determined to be correct.

이하에서는 선형, 비선형, 시계열 분석 모두에 적용되는 오차항(

Figure pat00239
)의 가정을 검토한다. In the following, the error term applied to both linear, nonlinear, and time series analysis (
Figure pat00239
)'S assumptions.

오차항의 가정 검토는 오차항의 독립성 검정, 오차항의 등분산성 검정, 오차항의 정규성 검정을 포함할 수 있다. 오차항의 독립성 검정은 더빈-왓슨(Durbin-Watson) 검정 통계량에 의해서 검토하며, 관련 수학식은 아래 수학식 20과 같이 표현될 수 있다.The review of the assumption of the error term may include a test for independence of the error term, a test for equal variance of the error term, and a test for normality of the error term. The independence test of the error term is reviewed by the Durbin-Watson test statistic, and the related equation can be expressed as Equation 20 below.

Figure pat00240
Figure pat00240

Figure pat00241
Figure pat00241

여기서,

Figure pat00242
값은 0부터 4까지의 값을 가질 수 있으며, 2에 가까울수록 오차 항들은 서로 독립이라고 보고, 0에 가까우면 양의 자기상관이 있고, 4에 가까우면 음의 자기상관이 있다고 판단할 수 있다. 음의 자기상관이 있다고 판단되면 독립성 가정에 위배되므로, 선형회귀분석이 아닌 시계열분석으로 예측을 수행한다. 한편, 누적수요 자료인 경우는 비선형성장곡선 모델로 예측을 수행하는 것이 바람직하다.here,
Figure pat00242
The value can have a value from 0 to 4, and the closer to 2, the error terms are considered to be independent of each other, closer to 0, positive autocorrelation, and closer to 4, negative autocorrelation. . If it is determined that there is a negative autocorrelation, the assumption of independence is violated, so the prediction is performed by time series analysis rather than linear regression analysis. On the other hand, in the case of cumulative demand data, it is desirable to perform prediction using a nonlinear long curve model.

오차항의 등분산성 검정은 오차항에 의한 잔차 산점도를 이용한 검토를 통해 수행될 수 있다. 오차항의 등분산성 검정 결과, 이분산성일 때는 OLS(Ordinary Least Square)에 의한 방법보다는 GMM(Generalized Method of Moments)에 의해서 파라미터(parameter)를 추정하는 것이 바람직하다.The test for equal variance of the error term can be performed through review using the residual scatter plot by the error term. As a result of the test for equal variance of the error term, in case of heteroscedasticity, it is preferable to estimate the parameter by GMM (Generalized Method of Moments) rather than by Ordinary Least Square (OLS).

오차항의 정규성 검정은 우선, 통계량으로서 샤피로-윌크(Shapiro Wilk) W-통계량, 콜모고로프-시미르노프(Kolmogorov-Smirnov) D-통계량, 앤더슨-다링 (Anderson-Daring) AD 통계량 및 크래이머-폰 미세스(Cramer-von Mises) W-Sq 통계량과 P-value를 산출한다. 그리고, 산출된 통계량을 유의수준

Figure pat00243
와 비교하여 P-Value <
Figure pat00244
이면 정규성을 따른다고 판단할 수 있다. 그래프로는 Q-Q plot 또는 히스토그램으로 확인한다. First of all, the normality test of the error term is the Shapiro Wilk W-statistic, the Kolmogorov-Smirnov D-statistic, and the Anderson-Daring AD statistic and the Cramer- Calculate the Cramer-von Mises W-Sq statistic and P-value. And, the calculated statistic is the significance level
Figure pat00243
Compared to P-Value <
Figure pat00244
If it is, it can be judged that it follows normality. As a graph, check with QQ plot or histogram.

정규성 검정을 위한 각각의 통계량을 계산하는 식은 아래와 같이 나타낼 수 있다. The equation for calculating each statistic for normality test can be expressed as follows.

- 샤피로-윌크(Shapiro Wilk) W-통계량- Shapiro Wilk W-statistic

Figure pat00245
Figure pat00245

- 콜모고로프-시미르노프(Kolmogorov-Smirnov) D-통계량, CDF(cumulative distribution function) F(x)로 주어진 상태에서의 콜모고로프-시미르노프 통계량- Kolmogorov-Smirnov D-statistic, Kolmogorov-Smirnov statistic given by the cumulative distribution function (CDF) F(x)

Figure pat00246
일 때,
Figure pat00247
Figure pat00246
when,
Figure pat00247

- 앤더슨-다링(Anderson-Daring) AD 통계량- Anderson-Daring AD statistic

Figure pat00248
Figure pat00248

- 크래이머-폰 미세스(Cramer-von Mises) W-Sq 통계량- Kramer-von Mises W-Sq statistic

Figure pat00249
Figure pat00249

도 13은 본 발명의 일 실시예에 따라 DCAP에 의해 수행되는 이벤트 장애/고장 관련 빅데이터의 수집, 분석, 사전 장애/고장 예측 분석 방법의 동작 흐름을 나타낸다. 13 is a flowchart illustrating an operation flow of a method for collecting and analyzing event failure/failure related big data performed by a DCAP according to an embodiment of the present invention.

도 13의 상단에서는 PNF 각 엔티티에서 발생하는 이벤트 장애/고장에 대한 빅데이터 처리 방법(S1310)을 나타내며, 도 13의 하단에서는 VNF 각 엔티티에서 발생하는 이벤트 장애/고장에 대한 빅데이터 처리 방법(S1320)을 나타낸다. The top of FIG. 13 shows a big data processing method (S1310) for event failures/failures occurring in each PNF entity, and the bottom of FIG. 13 shows a big data processing method for event failures/breakdowns occurring in each VNF entity (S1320). ).

우선, PNF와 관련해서는, 각 PNF 엔티티로부터 발생한 장애/고장 알람 발생 및 이벤트 데이터는 수집 프레임워크를 거쳐 DMMP(100)로 전달된다. DMMP(100)는 전달받은 관련 빅데이터를 AF(250)에서 활용한다. 관련 빅데이터를 수신한 분석 프레임워크에서는 PNF 장애/고장, 이벤트 데이터를 정제하고 변환함으로써, TCA 분석, CA 분석 및 PFP분석을 수행하여 장애 진단 및 사전 고장예측 분석을 수행할 수 있다.First, with respect to the PNF, failure/failure alarm generation and event data generated from each PNF entity is transmitted to the DMMP 100 through a collection framework. The DMMP 100 utilizes the transmitted related big data in the AF 250. In the analysis framework that has received the related big data, PNF failure/failure and event data are purified and transformed to perform TCA analysis, CA analysis, and PFP analysis to perform failure diagnosis and pre-failure prediction analysis.

VNF 관련 장애/고장 시에도 마찬가지로, 각 VNF 엔티티로부터 발생한 장애/고장 알람 발생 및 이벤트 데이터는 수집 프레임워크를 거쳐 DMMP(100)로 전달된다. DMMP(100)는 전달받은 관련 빅데이터를 AF(250)에서 활용한다. 관련 빅데이터를 수신한 AF는 VNF 장애/고장, 이벤트 데이터를 정제하고 변환함으로써, TCA 분석, CA 분석 및 PFP분석을 수행하여 장애 진단 및 사전고장예측 분석을 수행할 수 있다. Likewise in the case of a VNF-related failure/failure, the failure/failure alarm generation and event data generated from each VNF entity is transmitted to the DMMP 100 through a collection framework. The DMMP 100 utilizes the transmitted related big data in the AF 250. After receiving the relevant big data, the AF can perform TCA analysis, CA analysis, and PFP analysis by purifying and converting VNF failure/failure and event data to perform failure diagnosis and pre-failure prediction analysis.

AF는 각 분석의 결과로서 TCA 분석 보고서, CA 분석 보고서, 및 PFP분석 보고서를 산출하고 각각의 보고서를 저장한다. 사용자는 IMS 를 통해 알람 내용 관련 임계치 도달 분석 결과와 관련한 보고서, CA 분석결과 보고서, PFP 분석결과 보고서 등을 열람할 수 있다. AF produces a TCA analysis report, CA analysis report, and PFP analysis report as the result of each analysis, and stores each report. Through IMS, users can view reports related to the threshold reached analysis result related to alarm content, CA analysis result report, and PFP analysis result report.

도 14는 본 발명의 일 실시예에 따라 DCAP에 의해 수행되는 사전고장예측 방법의 동작 순서도이다. 14 is a flowchart illustrating an operation of a method for predicting a failure in advance performed by a DCAP according to an embodiment of the present invention.

도 14를 참조하면, DMMP를 통해 이벤트 장애/고장 관련 빅데이터가 통합 수집된다(S1401, S1402). DMMP의 이벤트 데이터에 대해서는 근본원인분석(RCA) 및 상관 분석(CA) 중 하나 이상을 이용한 분석이 수행된다(S1403). 데이터에 대한 분Referring to FIG. 14, event failure/failure related big data is integrated and collected through the DMMP (S1401 and S1402). For the event data of the DMMP, an analysis using at least one of a root cause analysis (RCA) and a correlation analysis (CA) is performed (S1403). Minute for data

석은 PFP 모델 중에서 자료의 특성에 따라 적용 모델을 선택한다(S1404). Seok selects an application model from the PFP models according to the characteristics of the data (S1404).

즉, 본 발명에서는 PFP 적용 모델로서 회귀분석(RA; Regression), 다중회귀분석(MRA; Multiple Regression Analysis), 비선형 성장곡선모델(Nonlinear Growth Curve Model) 등이 사용될 수 있는데, 이들 중 하나가 주어진 데이터의 특성에 따라 적용 모델로 선택될 수 있다. That is, in the present invention, as a PFP applied model, regression analysis (RA), multiple regression analysis (MRA), nonlinear growth curve model, etc. can be used, one of which is given data It can be selected as an application model according to the characteristics of.

여기서, 적용 모델 선택시, 회귀분석 모델은 종속변수(Yi)와 독립변수(Xi)가 연속형변수로 상관성이 존재하는 경우 적용하는 것이 유리하다. 또한, 독립변수(Xi)에 범주형 자료가 포함된 경우는 로지스틱 회귀분석을 적용하는 것이 유리하다. 추가적으로, 비선형 성장곡선 모델은 시간의 연속적인 흐름에 따라 얻어지는 누적수요자료를 가지는 경우 유리하게 적용될 수 있다. 시계열분석 모델은 분석 대상인 데이터가 시간적 순서를 갖는 시계열 관측치에서 얻어진 데이터에 대하여 유리하게 적용될 수 있다. Here, when selecting the applied model, it is advantageous to apply the regression analysis model when the dependent variable (Y i ) and the independent variable (X i ) have a correlation as a continuous variable. In addition, when categorical data are included in the independent variable (X i ), it is advantageous to apply logistic regression analysis. In addition, the nonlinear growth curve model can be advantageously applied when the accumulated demand data are obtained over time. The time series analysis model can be advantageously applied to data obtained from time series observations in which the data to be analyzed have a temporal order.

주어진 데이터의 특성에 따라 적용할 PFP 모델이 선택되면, 선택된 PFP 모델의 파라미터를 추정하고(S1405), 해당 모델의 적합성을 검정한다(S1406). 해당 모델의 적합성 검정이 완료되면 해당 모델의 가정을 검토한다(S1407). When a PFP model to be applied is selected according to the characteristics of the given data, parameters of the selected PFP model are estimated (S1405), and suitability of the corresponding model is tested (S1406). When the suitability test of the model is completed, the assumption of the model is reviewed (S1407).

해당 모델의 가정을 검토한 결과 가정이 위배되어 해당 모델의 적용이 불가능한 것으로 판단되면(S1407의 아니오), 다른 PFP 모델을 선택하고 해당 모델의 파라미터 추정, 적합성 검증, 및 가정 검토 단계를 반복적으로 수행한다(S1405 내지 S1407).As a result of reviewing the assumptions of the model, if the assumption is violated and it is determined that the applicable model is not applicable (No in S1407), another PFP model is selected and the parameters estimation, suitability verification, and assumption review steps of the model are repeatedly performed. It should be (S1405 to S1407).

적용할 모델이 최종 결정되면 모델을 적용했을 경우의 정확도를 측정하고(S1408), 해당 모델을 이용하여 장애/고장을 예측한다(S1409). 이후 신뢰구간을 추정하고(S1410), PMMS에 의한 사전유지 보수를 수행할 수 있다(S1411). When the model to be applied is finally determined, the accuracy when the model is applied is measured (S1408), and failure/failure is predicted using the model (S1409). Thereafter, the confidence interval may be estimated (S1410), and pre-maintenance by PMMS may be performed (S1411).

도 15는 본 발명의 일 실시예에 따른 물리적 자원 및 가상화 자원을 포함하는 인프라구조에서의 운용 관리 방법의 일 실시예를 나타낸다. 15 shows an embodiment of an operation management method in an infrastructure structure including physical and virtual resources according to an embodiment of the present invention.

도15에 도시된 인프라 장애 사전 진단을 위한 운용 관리 방법은 앞서 실시예들을 통해 설명한 DCAP(200) 및 DMMP(100) 중 하나 이상을 포함하는 본 발명에 따른 운용 관리 장치에 의해 수행될 수 있으나, 동작 주체가 이에 한정되는 것은 아니다.The operation management method for preliminary diagnosis of an infrastructure failure shown in FIG. 15 may be performed by the operation management apparatus according to the present invention including at least one of the DCAP 200 and the DMMP 100 described through the above embodiments, The operating subject is not limited thereto.

본 발명에 따른 운용 관리 방법은 바람직하게는, 물리적 자원 및 가상화 자원을 포함하는 ICT(Information and Communications Technologies) 인프라 및 시설물 구조(infrastructure)에서의 운용 관리 방법에 관한 것이다.The operation management method according to the present invention preferably relates to an operation management method in ICT (Information and Communications Technologies) infrastructure and facility structures including physical and virtual resources.

도 15을 참조하면, 본 발명의 운용 관리 장치는, 인프라구조의 물리적 자원 및 가상화 자원을 모니터링하여 인프라구조에서 발생하는 이벤트 관련 데이터를 수집한다(S1510).Referring to FIG. 15, the operation management apparatus of the present invention collects event-related data occurring in the infrastructure by monitoring physical and virtual resources of the infrastructure (S1510).

이후 운용 관리 장치는, 수집된 이벤트 관련 데이터 중 장애 또는 고장 이벤트와 관련 변수 간의 상관성 분석을 포함한 데이터 분석을 수행한다(S1520).Thereafter, the operation management device performs data analysis including a correlation analysis between a failure or failure event and related variables among the collected event-related data (S1520).

운용 관리 장치는, 데이터 분석 결과에 기초하여 하나 이상의 사전 장애 예측(PFP; Pre Failure Prediction) 모델을 이용해 인프라 및 시설물의 장애 또는 고장을 예측한다(S1530).The operation management device predicts a failure or failure of infrastructure and facilities by using one or more Pre Failure Prediction (PFP) models based on the data analysis result (S1530).

여기서, 하나 이상의 사전장애예측(PFP) 모델은 회귀분석(RA; Regression), 다중회귀분석(MRA; Multiple Regression Analysis), 비선형 성장곡선모델(Nonlinear Growth Curve Model) 등을 이용할 수 있다.Here, as the one or more prior failure prediction (PFP) models, regression analysis (RA), multiple regression analysis (MRA), and nonlinear growth curve model may be used.

운용 관리 장치는, 추가적으로, 모니터링의 결과, 데이터 분석의 결과 및 인프라 및 시설물의 장애 또는 고장의 예측 관련 정보를 사용자에게 제공할 수 있다(S1540).Operation management device, additionally, A result of monitoring, a result of data analysis, and information related to prediction of a failure or failure of infrastructure and facilities may be provided to the user (S1540).

살펴본 바와 같은 실시예에 따른 본원발명은 데이터센터 인프라(컴퓨터, 스토리지, 네트워크) 운영을 위한 IMS(인프라 모니터링 시스템)에서 빅-데이터를 수집하여 주기적으로 장애/고장을 사전에 추정/예측(estimation/prediction/ forecasting)하여 미리 이벤트(장애/고장)을 인지하여 조치(수리)를 수행함으로써 사전 인프라 고장 예방(prevention)에 의해 연속적으로 응용서비스의 품질을 보장할 수 있다. The present invention according to the embodiment as described above collects big-data from IMS (infrastructure monitoring system) for data center infrastructure (computer, storage, network) operation, and periodically estimates/predicts failure/failure in advance. Prediction/forecasting), by recognizing events (failures/breakdowns) in advance, and performing measures (repairs), it is possible to continuously guarantee the quality of application services by preventing infrastructure failures in advance.

본 발명의 실시예에 따른 방법의 동작은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다. The operation of the method according to an embodiment of the present invention can be implemented as a computer-readable program or code on a computer-readable recording medium. The computer-readable recording medium includes all types of recording devices that store data that can be read by a computer system. In addition, the computer-readable recording medium may be distributed over a computer system connected through a network to store and execute a computer-readable program or code in a distributed manner.

또한, 컴퓨터가 읽을 수 있는 기록매체는 롬(rom), 램(ram), 플래시 메모리(flash memory), HDD/SDD 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.Further, the computer-readable recording medium may include a hardware device specially configured to store and execute program commands, such as ROM, RAM, flash memory, HDD/SDD, and the like. The program instructions may include not only machine language codes such as those produced by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.

본 발명의 일부 측면들은 장치의 문맥에서 설명되었으나, 그것은 상응하는 방법에 따른 설명 또한 나타낼 수 있고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게, 방법의 문맥에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징으로 나타낼 수 있다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 수행될 수 있다. 몇몇의 실시예에서, 가장 중요한 방법 단계들의 하나 이상은 이와 같은 장치에 의해 수행될 수 있다. While some aspects of the invention have been described in the context of an apparatus, it may also represent a description according to a corresponding method, where a block or apparatus corresponds to a method step or characteristic of a method step. Similarly, aspects described in the context of a method can also be represented by a corresponding block or item or a feature of a corresponding device. Some or all of the method steps may be performed by (or using) a hardware device such as, for example, a microprocessor, a programmable computer or electronic circuit. In some embodiments, one or more of the most important method steps may be performed by such an apparatus.

실시예들에서, 프로그램 가능한 로직 장치(예를 들어, 필드 프로그머블 게이트 어레이)가 여기서 설명된 방법들의 기능의 일부 또는 전부를 수행하기 위해 사용될 수 있다. 실시예들에서, 필드 프로그머블 게이트 어레이는 여기서 설명된 방법들 중 하나를 수행하기 위한 마이크로프로세서와 함께 작동할 수 있다. 일반적으로, 방법들은 어떤 하드웨어 장치에 의해 수행되는 것이 바람직하다.In embodiments, a programmable logic device (eg, a field programmable gate array) may be used to perform some or all of the functionality of the methods described herein. In embodiments, the field programmable gate array may work with a microprocessor to perform one of the methods described herein. In general, the methods are preferably performed by some hardware device.

이상 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다. Although the above has been described with reference to the preferred embodiments of the present invention, those skilled in the art will be able to variously modify and change the present invention within the scope not departing from the spirit and scope of the present invention described in the following claims. You will understand that you can.

100: DMMP
200: DCAP 210: IMS
220: DCAP 컨트롤러 230: DMMP 버스 컨트롤러
240: 수집 프레임워크 250: 분석 프레임워크
100: DMMP
200: DCAP 210: IMS
220: DCAP controller 230: DMMP bus controller
240: collection framework 250: analysis framework

Claims (20)

물리적 자원 및 가상화 자원을 포함하는 ICT(Information and Communications Technologies) 인프라 및 시설물 구조(infrastructure)에서의 운용 관리 장치로서,
프로세서; 및
상기 프로세서를 통해 실행되는 하나 이상의 명령을 저장하는 메모리를 포함하고,
상기 하나 이상의 명령은,
상기 물리적 자원 및 가상화 자원을 이용하여 서비스를 실행하는 명령;
상기 ICT 인프라 및 시설물 구조에서 실행되는 서비스를 모니터링하여 발생하는 측정 데이터 및 이벤트 관련 데이터를 수집하도록 하는 명령;
수집된 측정 데이터 및 이벤트 관련 데이터 중 장애 또는 고장 이벤트와 관련 변수 간의 상관성 분석을 포함한 데이터 분석을 수행하도록 하는 명령; 및
상기 데이터 분석 결과에 기초하여 하나 이상의 사전장애예측(PFP; Pre Failure Prediction) 모델을 이용해 인프라 및 시설물의 장애 또는 고장을 예측하도록 하는 명령을 포함하는, 운용 관리 장치.
As an operation management device in ICT (Information and Communications Technologies) infrastructure and facility structures including physical and virtual resources,
Processor; And
Includes a memory for storing one or more instructions executed through the processor,
The one or more commands,
A command for executing a service using the physical and virtual resources;
An instruction to collect measurement data and event-related data generated by monitoring services executed in the ICT infrastructure and facility structure;
An instruction for performing data analysis including correlation analysis between failure or failure events and related variables among the collected measurement data and event-related data; And
An operation management device comprising a command to predict a failure or failure of infrastructure and facilities using one or more Pre Failure Prediction (PFP) models based on the data analysis result.
청구항 1에 있어서,
상기 하나 이상의 사전장애예측(PFP) 모델은,
회귀분석(RA; Regression Analysis), 다중회귀분석(MRA; Multiple Regression Analysis), 및 비선형 성장곡선모델(NGCM: Nonlinear Growth Curve Model)을 포함하는 운용 관리 장치
The method according to claim 1,
The one or more prior failure prediction (PFP) models,
Operation management device including regression analysis (RA), multiple regression analysis (MRA), and nonlinear growth curve model (NGCM)
청구항 2에 있어서,
상기 인프라 및 시설물의 장애 또는 고장을 예측하도록 하는 명령은,
상기 변수들 중 종속변수(Yi)와 독립변수(Xi) 간에 강한 상관성이 존재하는 경우, 상기 사전장애예측 모델로서 단순회귀분석(RA), 다중회귀분석(MRA) 및 산점도의 유형에 따라 변환 후의 회귀방정식을 이용하여 상기 인프라 및 시설물의 장애 또는 고장을 예측하도록 하는 명령을 포함하는, 운용 관리 장치.
The method according to claim 2,
The instruction to predict the failure or failure of the infrastructure and facilities,
If there is a strong correlation between the dependent variable (Y i ) and the independent variable (X i ) among the above variables, the pre-failure prediction model is based on the type of simple regression analysis (RA), multiple regression analysis (MRA), and scatterplot. An operation management apparatus comprising a command to predict a failure or failure of the infrastructure and facilities using a regression equation after conversion.
청구항 2에 있어서,
상기 인프라 및 시설물의 장애 또는 고장을 예측하도록 하는 명령은,
상기 측정 데이터 및 이벤트 관련 데이터가 누적수요자료인 경우, 상기 사전장애예측 모델로서 비선형 성장곡선모델을 이용해 상기 인프라 및 시설물의 장애 또는 고장을 예측하도록 하는 명령을 포함하는, 운용 관리 장치.
The method according to claim 2,
The instruction to predict the failure or failure of the infrastructure and facilities,
When the measurement data and event-related data are cumulative demand data, the operation management apparatus comprising a command to predict the failure or failure of the infrastructure and facilities using a nonlinear growth curve model as the pre-failure prediction model.
청구항 2에 있어서,
상기 비선형 성장곡선모델은 로지스틱 모델, 프로빗 모델, 곰페르츠 모델, 음의지수모델, 및 지수모델 중 하나 이상을 포함하는, 운용 관리 장치.
The method according to claim 2,
The nonlinear growth curve model includes at least one of a logistic model, a probit model, a Gompertz model, a negative exponential model, and an exponential model.
청구항 1에 있어서,
상기 하나 이상의 명령은,
상기 모니터링의 결과, 상기 데이터 분석의 결과 및 인프라 및 시설물의 장애 또는 고장의 예측 관련 저장된 결과(Output), 정보를 사용자에게 보고서(Report) 형태로 제공하도록 하는 명령을 더 포함하는, 운용 관리 장치.
The method according to claim 1,
The one or more commands,
The monitoring result, the result of the data analysis, and the stored result (Output) related to the prediction of the failure or failure of the infrastructure and facilities, further comprising a command to provide information to the user in the form of a report (Report), operation management device.
청구항 1에 있어서,
상기 관련 변수는, 상기 인프라 및 시설물의 모든 자원에 대한 사용량, 남은 자원량의 측정값, 통지 정보, 임계치, 및 모니터링 정보 중 하나 이상을 포함하는, 운용 관리 장치.
The method according to claim 1,
The related variable includes at least one of a usage of all resources of the infrastructure and facilities, a measurement value of the amount of remaining resources, notification information, a threshold value, and monitoring information.
청구항 1에 있어서,
상기 모니터링하여 발생하는 측정 데이터는,
인프라와 관련하여, FCAPS(Fault, Configuration, Account, Performance, Security), KQI(Key Quality Indicators), QoE(Quality of Experience), KCI(Key Capacity Indicators), KPI(Key Performance Indicators), SLA((Service Level Agreement), 자원의 사용량, 및 남은 자원량의 측정값 중 하나 이상의 빅-데이터를 포함하며,
시설물과 관련하여, 센서를 이용해 수집된 온도값, 습도값, 전력사용량, 소음값, 이산화탄소 발생량, 및 밧데리 잔량 측정값 중 하나 이상의 빅-데이터를 포함하는, 운용 관리 장치.
The method according to claim 1,
Measurement data generated by the monitoring,
Regarding the infrastructure, FCAPS (Fault, Configuration, Account, Performance, Security), KQI (Key Quality Indicators), QoE (Quality of Experience), KCI (Key Capacity Indicators), KPI (Key Performance Indicators), SLA (Service Level Agreement), resource usage, and a measure of the amount of remaining resources, including one or more big-data,
In relation to the facility, the operation management device comprising at least one big-data of temperature value, humidity value, power consumption, noise value, carbon dioxide generation amount, and battery residual amount measured value collected using a sensor.
청구항 1에 있어서,
상기 ICT 인프라는 서버, 네트워크, 및 스토리지 중 하나 이상을 포함하는, 운용 관리 장치.
The method according to claim 1,
The ICT infrastructure includes one or more of a server, a network, and storage, operations management device.
청구항 1에 있어서,
상기 시설물은,
DBMS(Data Base Management System), 항온항습기, UPS(uninterruptible power supply), 온도계, 습도계, 전력, 밧데리, 및 발전기 중 하나 이상을 포함하는, 운용 관리 장치.
The method according to claim 1,
The above facilities,
DBMS (Data Base Management System), a thermo-hygrostat, an uninterruptible power supply (UPS), a thermometer, a hygrometer, an electric power, a battery, and an operation management device comprising one or more of a generator.
물리적 자원 및 가상화 자원을 포함하는 ICT(Information and Communications Technologies) 인프라 및 시설물 구조(infrastructure)에서의 운용 관리 방법으로서,
상기 물리적 자원 및 가상화 자원을 이용하여 서비스를 실행하는 단계;
상기 ICT 인프라 및 시설물 구조에서 실행되는 서비스를 모니터링하여 발생하는 측정 데이터 및 이벤트 관련 데이터를 수집하는 단계;
수집된 측정 데이터 및 이벤트 관련 데이터 중 장애 또는 고장 이벤트와 관련 변수 간의 상관성 분석을 포함한 데이터 분석을 수행하는 단계; 및
상기 데이터 분석 결과에 기초하여 하나 이상의 사전 장애 예측(PFP; Pre Failure Prediction) 모델을 이용해 인프라 및 시설물의 장애 또는 고장을 예측하는 단계를 포함하는, 운용 관리 방법.
As an operation management method in ICT (Information and Communications Technologies) infrastructure and facility structure including physical and virtual resources,
Executing a service using the physical and virtual resources;
Collecting measurement data and event-related data generated by monitoring services executed in the ICT infrastructure and facility structure;
Performing data analysis including correlation analysis between failure or failure events and related variables among the collected measurement data and event-related data; And
And predicting failures or failures of infrastructure and facilities using one or more Pre Failure Prediction (PFP) models based on the data analysis results.
청구항 11에 있어서,
상기 하나 이상의 사전장애예측(PFP) 모델은,
회귀분석(RA; Regression Analysis), 다중회귀분석(MRA; Multiple Regression Analysis), 및 비선형 성장곡선모델(NGCM: Nonlinear Growth Curve Model)을 포함하는, 운용 관리 방법.
The method of claim 11,
The one or more prior failure prediction (PFP) models,
Regression analysis (RA; Regression Analysis), multiple regression analysis (MRA; Multiple Regression Analysis), and nonlinear growth curve model (NGCM: Nonlinear Growth Curve Model), including, operational management method.
청구항 11에 있어서,
상기 인프라 및 시설물의 장애 또는 고장을 예측하는 단계는,
상기 변수들 중 종속변수(Yi)와 독립변수(Xi) 간에 강한 상관성이 존재하는 경우, 상기 사전장애예측 모델로서 단순회귀분석(RA), 다중회귀분석(MRA) 및 산점도의 유형에 따라 변환 후의 회귀방정식을 이용하여 상기 인프라 및 시설물의 장애 또는 고장을 예측하는 단계를 포함하는, 운용 관리 방법.
The method of claim 11,
Predicting a failure or failure of the infrastructure and facilities,
If there is a strong correlation between the dependent variable (Y i ) and the independent variable (X i ) among the above variables, the pre-failure prediction model is based on the type of simple regression analysis (RA), multiple regression analysis (MRA), and scatterplot. And predicting a failure or failure of the infrastructure and facilities by using a regression equation after the conversion.
청구항 11에 있어서,
상기 인프라 및 시설물의 장애 또는 고장을 예측하는 단계는,
상기 측정 데이터 및 이벤트 관련 데이터가 누적수요자료인 경우, 상기 사전장애예측 모델로서 비선형 성장곡선모델을 이용해 상기 인프라 및 시설물의 장애 또는 고장을 예측하는 단계를 포함하는, 운용 관리 방법.
The method of claim 11,
Predicting the failure or failure of the infrastructure and facilities,
When the measurement data and event-related data are cumulative demand data, predicting a failure or failure of the infrastructure and facilities using a nonlinear growth curve model as the pre-failure prediction model.
청구항 12에 있어서,
상기 비선형 성장곡선모델은 로지스틱모델, 프로빗모델, 곰페르츠 모델, 음의지수모델, 및 지수모델 중 하나 이상을 포함하는, 운용 관리 방법.
The method of claim 12,
The nonlinear growth curve model includes at least one of a logistic model, a probit model, a Gompertz model, a negative index model, and an exponential model.
청구항 11에 있어서,
상기 모니터링의 결과, 상기 데이터 분석의 결과 및 인프라 및 시설물의 장애 또는 고장의 예측 관련 저장된 결과(Output), 정보를 사용자에게 보고서(Report) 형태로 제공하는 단계를 더 포함하는, 운용 관리 방법.
The method of claim 11,
The operation management method further comprising the step of providing a result of the monitoring, a result of the data analysis, and a stored result (Output) related to prediction of a failure or failure of an infrastructure and facilities, and information to a user in the form of a report.
청구항 11에 있어서,
상기 관련 변수는, 상기 인프라 및 시설물의 모든 자원에 대한 사용량, 남은 자원의 측정값, 통지 정보, 임계치, 및 모니터링 정보 중 하나 이상을 포함하여 수집하는, 운용 관리 방법
The method of claim 11,
The related variable includes at least one of a usage of all resources of the infrastructure and facilities, a measurement value of the remaining resources, notification information, a threshold value, and monitoring information.
청구항 11에 있어서,
상기 모니터링하여 발생하는 측정 데이터는,
인프라와 관련하여, FCAPS(Fault, Configuration, Account, Performance, Security), KQI(Key Quality Indicators), QoE(Quality of Experience), KCI(Key Capacity Indicators), KPI(Key Performance Indicators), SLA((Service Level Agreement), 자원의 사용량, 및 남은 자원량의 측정값 중 하나 이상의 빅-데이터를 포함하며,
시설물과 관련하여, 센서를 이용해 수집된 온도값, 습도값, 전력사용량, 소음값, 이산화탄소 발생량, 및 밧데리 잔량 측정값 중 하나 이상의 빅-데이터를 포함하는, 운용 관리 방법.
The method of claim 11,
Measurement data generated by the monitoring,
Regarding the infrastructure, FCAPS (Fault, Configuration, Account, Performance, Security), KQI (Key Quality Indicators), QoE (Quality of Experience), KCI (Key Capacity Indicators), KPI (Key Performance Indicators), SLA (Service Level Agreement), resource usage, and a measure of the amount of remaining resources, including one or more big-data,
In relation to the facility, the operation management method comprising at least one big-data of temperature value, humidity value, power consumption, noise value, carbon dioxide generation amount, and battery residual amount measured values collected using a sensor.
청구항 11에 있어서,
상기 ICT 인프라는 서버, 네트워크, 및 스토리지 중 하나 이상을 포함하는, 운용 관리 방법.
The method of claim 11,
The ICT infrastructure includes one or more of a server, a network, and storage, operation management method.
청구항 11에 있어서,
상기 시설물은,
DBMS(Data Base Management System), 항온항습기, UPS(uninterruptible power supply), 온도계, 습도계, 전력, 밧데리 및 발전기 중 하나 이상을 포함하는, 운용 관리 방법.
The method of claim 11,
The above facilities,
Data Base Management System (DBMS), thermo-hygrostat, uninterruptible power supply (UPS), thermometer, hygrometer, power, battery and generator, including one or more of the operation management method.
KR1020190050843A 2019-04-30 2019-04-30 Operation management apparatus and method in ict infrastructure KR20200126766A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190050843A KR20200126766A (en) 2019-04-30 2019-04-30 Operation management apparatus and method in ict infrastructure

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190050843A KR20200126766A (en) 2019-04-30 2019-04-30 Operation management apparatus and method in ict infrastructure

Publications (1)

Publication Number Publication Date
KR20200126766A true KR20200126766A (en) 2020-11-09

Family

ID=73429247

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190050843A KR20200126766A (en) 2019-04-30 2019-04-30 Operation management apparatus and method in ict infrastructure

Country Status (1)

Country Link
KR (1) KR20200126766A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115426244A (en) * 2022-08-09 2022-12-02 武汉虹信技术服务有限责任公司 Network equipment fault detection method based on big data
KR20220161015A (en) 2021-05-28 2022-12-06 삼성에스디에스 주식회사 Apparatus and method for predicting status value of service module based on message delivery pattern
KR102498535B1 (en) * 2022-03-24 2023-02-10 주식회사 인코어드 테크놀로지스 System for managing renewable energy generator

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220161015A (en) 2021-05-28 2022-12-06 삼성에스디에스 주식회사 Apparatus and method for predicting status value of service module based on message delivery pattern
KR102498535B1 (en) * 2022-03-24 2023-02-10 주식회사 인코어드 테크놀로지스 System for managing renewable energy generator
CN115426244A (en) * 2022-08-09 2022-12-02 武汉虹信技术服务有限责任公司 Network equipment fault detection method based on big data
CN115426244B (en) * 2022-08-09 2024-03-15 武汉虹信技术服务有限责任公司 Network equipment fault detection method based on big data

Similar Documents

Publication Publication Date Title
US11614989B2 (en) Method and apparatus for intelligent operation management of infrastructure
EP3720051B1 (en) Anomaly detection and troubleshooting system for a network using machine learning and/or artificial intelligence
US11373123B2 (en) System and method for designing and executing control loops in a cloud environment
US10530740B2 (en) Systems and methods for facilitating closed loop processing using machine learning
US10581667B2 (en) Method and network node for localizing a fault causing performance degradation of a service
US11805005B2 (en) Systems and methods for predictive assurance
US20200401936A1 (en) Self-aware service assurance in a 5g telco network
CN106776288B (en) A kind of health metric method of the distributed system based on Hadoop
US10841173B2 (en) System and method for determining resources utilization in a virtual network
KR20220114986A (en) Apparatus for VNF Anomaly Detection based on Machine Learning for Virtual Network Management and a method thereof
KR20200126766A (en) Operation management apparatus and method in ict infrastructure
Aral et al. Quality of service channelling for latency sensitive edge applications
Cao et al. Load prediction for data centers based on database service
US10372572B1 (en) Prediction model testing framework
Becker et al. Towards aiops in edge computing environments
US11212173B2 (en) Model-driven technique for virtual network function rehoming for service chains
JP2023504103A (en) MODEL UPDATE SYSTEM, MODEL UPDATE METHOD AND RELATED DEVICE
US11392821B2 (en) Detecting behavior patterns utilizing machine learning model trained with multi-modal time series analysis of diagnostic data
WO2020206699A1 (en) Predicting virtual machine allocation failures on server node clusters
KR20210058468A (en) Apparatus and method for artificial intelligence operator support system of intelligent edge networking
US10630561B1 (en) System monitoring with metrics correlation for data center
Tuli et al. Carol: Confidence-aware resilience model for edge federations
Derstepanians et al. Near real-time anomaly detection in NFV infrastructures
Kianpisheh et al. Resource availability prediction in distributed systems: An approach for modeling non-stationary transition probabilities
Alkasem et al. Utility cloud: a novel approach for diagnosis and self-healing based on the uncertainty in anomalous metrics

Legal Events

Date Code Title Description
A201 Request for examination