KR102185190B1 - Method and system for anomaly behavior detection using machine learning - Google Patents

Method and system for anomaly behavior detection using machine learning Download PDF

Info

Publication number
KR102185190B1
KR102185190B1 KR1020180160051A KR20180160051A KR102185190B1 KR 102185190 B1 KR102185190 B1 KR 102185190B1 KR 1020180160051 A KR1020180160051 A KR 1020180160051A KR 20180160051 A KR20180160051 A KR 20180160051A KR 102185190 B1 KR102185190 B1 KR 102185190B1
Authority
KR
South Korea
Prior art keywords
cost
difference
change
threshold
target
Prior art date
Application number
KR1020180160051A
Other languages
Korean (ko)
Other versions
KR20200072169A (en
Inventor
윤정한
최종원
김종욱
황원석
김신규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020180160051A priority Critical patent/KR102185190B1/en
Publication of KR20200072169A publication Critical patent/KR20200072169A/en
Application granted granted Critical
Publication of KR102185190B1 publication Critical patent/KR102185190B1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

본 발명에 따른 이상 징후 탐지 시스템의 동작 방법은, 머신 러닝을 이용하여 학습 데이터에 대한 예측치와 실측치 사이의 비용 변화들을 저장하는 단계, 상기 저장된 비용 변화들 중에서 타겟의 비용 변화와 유사한 패턴을 갖는 이웃을 검색하는 단계, 및 상기 검색된 이웃의 비용 변화와 상기 타겟의 비용 변화의 차이를 근거로 하여 상기 타겟의 정상/비정상을 판단하는 단계를 포함할 수 있다.The method of operating the anomaly symptom detection system according to the present invention comprises the steps of storing cost changes between predicted values and measured values for training data using machine learning, and neighboring neighbors having a pattern similar to the cost change of the target among the stored cost changes. And determining the normal/abnormal of the target based on the difference between the searched neighbor cost change and the target cost change.

Figure R1020180160051
Figure R1020180160051

Description

머신러닝을 이용한 이상징후 탐지 방법 및 시스템{METHOD AND SYSTEM FOR ANOMALY BEHAVIOR DETECTION USING MACHINE LEARNING}Anomalous symptom detection method and system using machine learning {METHOD AND SYSTEM FOR ANOMALY BEHAVIOR DETECTION USING MACHINE LEARNING}

본 발명은 머신 러닝을 이용하여 시간 경과에 따른 변경 정보를 학습하고, 학습 결과를 이용하여 이상 상태를 판단하는 이상징후 탐지 방법 및 시스템에 관한 것이다.The present invention relates to an abnormal symptom detection method and system for learning change information over time using machine learning and determining an abnormal state using the learning result.

최근에 지능형 지속 공격(APT: advanced persistent threat)은 현재 세계 보안업계에서 관심 분야가 되고 있다. APT는 표적형, 장기적인 작전을 통한 활동, 성공률을 높이기 위해서 다중 스킬 체인(skill chain)을 포함하며, 탐지를 우회하기 위한 기법을 사용 함에 따라, 방화벽과 같은 보안 장비에서 탐지하기가 힘들다. 방화벽과 같은 보안 장비의 로그는 하나의 패킷이나 또는 하나의 세션에 대한 단순한 정보를 표현하고 있다. 또한, 로그 시스템에서는 이러한 정보를 일률적으로 나열할 뿐이어서, 상기 정보를 이용하여 네트워크 상에서의 이상 징후를 판단하는 것은 어렵다.Recently, advanced persistent threat (APT) has become an area of interest in the global security industry. APT includes multiple skill chains to increase the target type, long-term operation, and success rate, and it is difficult to detect in security devices such as firewalls as it uses a technique to bypass detection. Logs of security devices such as firewalls represent simple information about one packet or one session. In addition, since the log system only arranges such information uniformly, it is difficult to determine abnormal signs on the network using the information.

미국등록특허: 10,122,743, 등록일: 2018년 11월 6일, 제목: METHODS AND SYSTEMS FOR DETECTING ANONMALOUS BEHAVIOR OF NETWORK-CONNECTED EMBEDDED DEVICESUS Patent: 10,122,743, Registration Date: November 6, 2018, Title: METHODS AND SYSTEMS FOR DETECTING ANONMALOUS BEHAVIOR OF NETWORK-CONNECTED EMBEDDED DEVICES 미국등록특허: US 9,910,980, 등록일: 2018년 3월 6일, 제목: CYBER SECURITYUS Patent: US 9,910,980, Registration Date: March 6, 2018, Title: CYBER SECURITY 미국공개특허: US 2018-0302423, 공개일: 2018년 10월 18일, 제목: NETWORK SECURITY ANOMALY AND THREAT DETECTION USING RARITY SCORINGUS Patent Publication: US 2018-0302423, Publication Date: October 18, 2018, Title: NETWORK SECURITY ANOMALY AND THREAT DETECTION USING RARITY SCORING 미국공개특허: US 2018-0268410, 공개일: 2018년 9월 20일, 제목: SYSTEM AND METHOD OF SOFWARE-IMITATED USER TRANSACTIONS USING MACHINE LEARNINGUS Patent Publication: US 2018-0268410, Publication Date: September 20, 2018, Title: SYSTEM AND METHOD OF SOFWARE-IMITATED USER TRANSACTIONS USING MACHINE LEARNING 미국공개특허: US 2018-0025157, 공개일: 2018년 1월 25일, 제목: AUTOMATED BEHAVIORAL AND STATIC ANALYSIS USING AN INSTRUMENTED SANDBOX AND MACHINE LEARNING CLASSIFICATION FOR MOBILE SECURITYUS Patent Publication: US 2018-0025157, Publication Date: January 25, 2018, Title: AUTOMATED BEHAVIORAL AND STATIC ANALYSIS USING AN INSTRUMENTED SANDBOX AND MACHINE LEARNING CLASSIFICATION FOR MOBILE SECURITY

본 발명의 목적은 머신 러닝 기법을 이용한 학습 모델의 예측치를 기반으로 현 상황의 실측치가 정상인지 비정상인지 판단하는 이상징후 탐지 방법 및 시스템을 제공하는 데 있다.An object of the present invention is to provide a method and system for detecting anomalies that determine whether an actual value of a current situation is normal or abnormal based on a predicted value of a learning model using a machine learning technique.

본 발명의 실시 예에 따른 이상 징후 탐지 시스템의 동작 방법은, 머신 러닝을 이용하여 학습 데이터에 대한 예측치와 실측치 사이의 비용 변화들을 저장하는 단계; 상기 저장된 비용 변화들 중에서 타겟의 비용 변화와 유사한 패턴을 갖는 이웃을 검색하는 단계; 및 상기 검색된 이웃의 비용 변화와 상기 타겟의 비용 변화의 차이를 근거로 하여 상기 타겟의 정상/비정상을 판단하는 단계를 포함할 수 있다.An operating method of an abnormal symptom detection system according to an embodiment of the present invention includes the steps of storing cost changes between a predicted value and an actual measured value of training data using machine learning; Searching for a neighbor having a pattern similar to that of a target among the stored cost changes; And determining the normal/abnormal of the target based on the difference between the searched neighbor cost change and the target cost change.

실시 예에 있어서, 상기 비용 변화들을 저장하는 단계는, 테스트 데이터를 기준으로 비용의 임계값을 결정하는 단계를 더 포함할 수 있다.In an embodiment, the storing of the cost changes may further include determining a cost threshold based on test data.

실시 예에 있어서, 상기 비용은 학습 모델을 이용하여 정상/비정상 유무를 판단하기 위한 상기 타겟의 예측치와 실측치의 차이인 것을 특징으로 한다.In an embodiment, the cost is a difference between a predicted value of the target and an actual measured value for determining the presence or absence of normal/abnormal using a learning model.

실시 예에 있어서, 상기 비용은 학습 모델을 이용하여 정상/비정상 유무를 판단하기 위한 상기 타겟의 예측치와 실측치의 차이를 사전에 결정된 시간 동안에 누적시킨 것을 특징으로 한다.In an embodiment, the cost is characterized by accumulating a difference between a predicted value of the target and an actual measured value for determining the presence or absence of normal/abnormal using a learning model for a predetermined time period.

실시 예에 있어서, 상기 비용의 임계값은 상기 테스트 데이터에서 정상/비정상 예측 테스트를 함으로써 학습 모델의 입장에서 정상이지만 상기 비용이 제 1 기준값 보다 크거나, 비정상이지만 상기 비용이 제 2 기준값 보다 작을 상황에서는 무시하고 결정되는 것을 특징으로 한다.In an embodiment, the threshold of the cost is normal from the perspective of the learning model by performing a normal/abnormal prediction test on the test data, but the cost is greater than the first reference value or abnormal, but the cost is less than the second reference value. It is characterized in that it is ignored and decided.

실시 예에 있어서, 상기 비용 변화들을 저장하는 단계는, 상기 테스트 데이터에서 상기 임계값 보다 상기 비용이 크면서 정상 상황에 대여 제 1 시간 동안 비용 변화를 저장하는 단계를 포함할 수 있다.In an embodiment, the storing of the cost changes may include storing the cost change during a rental first time in a normal situation while the cost is greater than the threshold value in the test data.

실시 예에 있어서, 상기 비용 변화들을 저장하는 단계는, 상기 비용 변화들 사이의 차이를 계산하는 제 1 비용 변화 차이 계산 함수를 결정하는 단계를 더 포함할 수 있다.In an embodiment, the storing of the cost changes may further include determining a first cost change difference calculation function for calculating a difference between the cost changes.

실시 예에 있어서, 상기 비용 변화들을 저장하는 단계는, 상기 제 1 비용 변화 차이 계산 함수를 이용하여 상기 비용 변화들 사이의 차이에 대한 제 1 임계값을 결정하는 단계를 더 포함할 수 있다.In an embodiment, the storing of the cost changes may further include determining a first threshold value for a difference between the cost changes using the first cost change difference calculation function.

실시 예에 있어서, 상기 비용 변화들을 저장하는 단계는, 상기 테스트 데이터에서 상기 임계값 보다 상기 비용이 낮으면서 정상 상황에 대하여 제 2 시간 동안 비용 변화를 저장하는 단계를 포함할 수 있다.In an embodiment, the storing of the cost changes may include storing the cost change for a second time for a normal situation while the cost is lower than the threshold value in the test data.

실시 예에 있어서, 상기 비용 변화들을 저장하는 단계는, 상기 비용 변화들 사이의 차이를 계산하는 제 2 비용 변화 차이 계산 함수를 결정하는 단계를 더 포함할 수 있다.In an embodiment, the storing of the cost changes may further include determining a second cost change difference calculation function for calculating a difference between the cost changes.

실시 예에 있어서, 상기 비용 변화들을 저장하는 단계는, 상기 제 2 비용 변화 차이 계산 함수를 이용하여 상기 비용 변화들 사이의 차이에 대한 제 2 임계값을 결정하는 단계를 더 포함할 수 있다.In an embodiment, the storing of the cost changes may further include determining a second threshold value for a difference between the cost changes using the second cost change difference calculation function.

실시 예에 있어서, 상기 비용 변화들 사이의 차이는 유클리안 거리로 계산되는 것을 특징으로 한다.In an embodiment, the difference between the cost changes is calculated as a Euclidean distance.

실시 예에 있어서, 상기 타겟의 모니터링 현황 정보와 학습 모델을 이용하여 상기 예측치를 계산하는 단계를 더 포함할 수 있다.In an embodiment, it may further include calculating the predicted value using the monitoring status information of the target and the learning model.

실시 예에 있어서, 상기 임계값을 이용하여 상기 타겟의 정상/비정상을 1차적으로 판단하는 단계를 더 포함할 수 있다.In an embodiment, it may further include the step of primarily determining the normal/abnormal of the target using the threshold value.

실시 예에 있어서, 상기 유사한 패턴을 갖는 이웃을 검색하는 단계는, 상기 1차적으로 판단하는 단계에서 상기 타겟이 비정상일 때, 사전에 결정된 시간 동안 상기 타겟의 실측치에 대한 비용 변화를 추출하는 단계; 및 제 1 비용 변화 차이 계산 함수를 이용하여 임계값-초과 비용 변화들 중에서 상기 추출된 비용 변화에 유사한 상기 이웃을 검색하는 단계를 더 포함할 수 있다.In an embodiment, the step of searching for a neighbor having a similar pattern includes: when the target is abnormal in the first determining step, extracting a change in cost of the measured value of the target for a predetermined time; And searching for the neighbor that is similar to the extracted cost change among the threshold-excess cost changes using the first cost change difference calculation function.

실시 예에 있어서, 상기 유사한 패턴을 갖는 이웃을 검색하는 단계는, 상기 1차적으로 판단하는 단계에서 상기 타겟이 정상일 때, 사전에 결정된 시간 동안 상기 타겟의 실측치에 대한 비용 변화를 추출하는 단계; 및 제 2 비용 변화 차이 계산 함수를 이용하여 임계값-이하 비용 변화들 중에서 상기 추출된 비용 변화에 유사한 상기 이웃을 검색하는 단계를 더 포함할 수 있다.In an embodiment, the step of searching for a neighbor having a similar pattern includes: when the target is normal in the first determining step, extracting a change in cost of the measured value of the target for a predetermined time; And searching for the neighbor that is similar to the extracted cost change among cost changes below the threshold value by using the second cost change difference calculation function.

본 발명의 실시 예에 따른 이상 징후 탐지 시스템은, 머신 러닝을 이용하여 테스트 데이터를 학습함으로써 학습 모델을 생성하는 학습기; 상기 학습 모델에 따른 예측치와 실측치의 차이에 대응하는 비용에 대한 임계값을 근거로 하여 타겟에 대한 정상/비정상을 1차적으로 판단하는 예측 기준 판단기; 및 상기 예측 기준 판단기의 상기 타겟에 대한 1차적인 판단 결과를 수신하고, 사전에 결정된 시간 동안 추출된 상기 타겟의 비용 변화와 이웃의 비용 변화의 차이를 계산하고, 상기 계산된 비용 변화 차이값과 비용 변화 차이 제한값을 비교함으로써 상기 타겟에 대한 정상/비정상을 2차적으로 판단하는 비용 변화 기준 판단기를 포함할 수 있다.An abnormal symptom detection system according to an embodiment of the present invention includes: a learner that generates a learning model by learning test data using machine learning; A prediction criterion determiner for primarily determining a normal/abnormal target for a target based on a threshold value for a cost corresponding to a difference between the predicted value and the measured value according to the learning model; And receiving a result of the first determination of the target by the prediction criterion determiner, calculating a difference between the cost change of the target and the cost change of the neighbor extracted for a predetermined time, and the calculated cost change difference value. It may include a cost change criterion determiner secondly determining the normal / abnormal for the target by comparing the difference limit value of the cost change.

실시 예에 있어서, 상기 테스트 데이터에서 상기 임계값 보다 크고 정상 상황에 대해 제 1 시간 동안의 임계값-초과 비용 변화들이 저장되고, 상기 임계값-초과 비용 변화들 사이의 차이를 계산하는 제 1 비용 변화 차이 함수가 결정되고, 상기 제 1 비용 변화 차이 함수를 이용하여 상기 임계값-초과 비용 변화들 사이의 차이에 대한 제 1 임계값이 결정되는 것을 특징으로 한다.In an embodiment, a first cost for calculating a difference between the threshold-excess cost changes is stored in the test data and is greater than the threshold value and for a normal situation for a first time A change difference function is determined, and a first threshold value for a difference between the threshold-excess cost changes is determined using the first cost change difference function.

실시 예에 있어서, 상기 테스트 데이터에서 상기 임계값 보다 낮고 정상 상황에 대해 제 2 시간 동안의 임계값-미만 비용 변화들이 저장되고, 상기 임계값-미만 비용 변화들 사이의 차이를 계산하는 제 2 비용 변화 차이 함수가 결정되고, 상기 제 2 비용 변화 차이 함수를 이용하여 상기 임계값-미만 비용 변화들 사이의 차이에 대한 제 2 임계값이 결정되는 것을 특징으로 한다.In an embodiment, in the test data, a second cost for calculating a difference between the threshold-less cost changes are stored for a second time period for a normal situation that is lower than the threshold value. A change difference function is determined, and a second threshold value for a difference between cost changes less than the threshold value is determined using the second cost change difference function.

실시 예에 있어서, 상기 제 1 임계값 및 상기 제 2 임계값 중 적어도 하나는 상기 비용 변화 차이 제한값이 되고, 상기 비용 변화 기준 판단기는 상기 제 1 임계값 혹은 상기 제 2 임계값을 이용하여 상기 타겟의 정상/비정상을 판단하는 것을 특징으로 한다.In an embodiment, at least one of the first threshold value and the second threshold value becomes the cost change difference limit value, and the cost change criterion determiner uses the first threshold value or the second threshold value to determine the target It is characterized in that it judges the normal / abnormal of.

본 발명의 실시 예에 따른 머신 러닝을 이용한 이상 징후 탐지 시스템 및 그것의 탐지 방법은, 예측치와 실측치 차이에 대한 비용 변화를 근거로 하여 정상/비정상을 판단함으로써 보다 판단의 신뢰성을 향상시킬 수 있다.The abnormal symptom detection system and its detection method using machine learning according to an embodiment of the present invention can further improve the reliability of the judgment by determining normal/abnormal based on a cost change for a difference between a predicted value and an actual measured value.

이하에 첨부되는 도면들은 본 실시 예에 관한 이해를 돕기 위한 것으로, 상세한 설명과 함께 실시 예들을 제공한다. 다만, 본 실시예의 기술적 특징이 특정 도면에 한정되는 것은 아니며, 각 도면에서 개시하는 특징들은 서로 조합되어 새로운 실시 예로 구성될 수 있다.
도 1은 예측치를 이용한 이상징후 탐지 방법의 개념을 보여주는 도면이다.
도 2는 임계값(threshold)을 이용한 이상징후 탐지 방법의 개념을 보여주는 도면이다.
도 3은 일정 구간 동안의 누적 비용(cumulative cost)을 이용한 이상징후 탐지 방법의 개념을 보여주는 도면이다.
도 4는 본 발명의 실시 예에 따른 머신 러닝을 이용한 이상 징후 탐지 시스템(100)을 예시적으로 보여주는 도면이다.
도 5는 본 발명의 실시 예에 따른 머신 러닝을 이용한 이상 징후 탐지 시스템(100)의 이상 징후 판단 과정을 예시적으로 보여주는 도면이다.
도 6는 본 발명의 실시 예에 따른 이상 징후 탐지 시스템(100)의 동작 방법을 예시적으로 보여주는 흐름도이다.
The accompanying drawings are provided to aid understanding of the present embodiment, and provide the embodiments together with a detailed description. However, the technical features of the present embodiment are not limited to a specific drawing, and features disclosed in each drawing may be combined with each other to constitute a new embodiment.
1 is a diagram showing the concept of an abnormal symptom detection method using predicted values.
2 is a diagram showing the concept of a method for detecting anomalies using a threshold.
3 is a diagram showing the concept of a method for detecting anomalies using cumulative costs for a certain period.
4 is a diagram illustrating an abnormal symptom detection system 100 using machine learning according to an embodiment of the present invention.
5 is a diagram illustrating a process of determining an abnormality symptom by the system 100 for detecting an abnormality using machine learning according to an embodiment of the present invention.
6 is a flowchart illustrating an exemplary operation method of the abnormal symptom detection system 100 according to an embodiment of the present invention.

아래에서는 도면들을 이용하여 본 발명의 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있을 정도로 본 발명의 내용을 명확하고 상세하게 기재할 것이다.In the following, the contents of the present invention will be described clearly and in detail to the extent that a person of ordinary skill in the technical field of the present invention can easily implement it using the drawings.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 제 1, 제 2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미이다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미인 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Since the present invention can apply various changes and have various forms, specific embodiments will be illustrated in the drawings and described in detail in the text. However, this is not intended to limit the present invention to a specific form of disclosure, it is to be understood as including all changes, equivalents, or substitutes included in the spirit and scope of the present invention. Terms such as first and second may be used to describe various elements, but the elements should not be limited by the terms. Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which the present invention belongs. Terms as defined in a commonly used dictionary should be interpreted as having a meaning consistent with the meaning of the context of the related technology, and should not be interpreted as an ideal or excessively formal meaning unless explicitly defined in this application. .

도 1은 예측치를 이용한 이상징후 탐지 방법의 개념을 보여주는 도면이다.1 is a diagram showing the concept of an abnormal symptom detection method using predicted values.

머신 러닝(machine learning)을 이용하여 시계열 정보를 학습하고, 학습된 결과(학습모델)를 이용하여 새로 입력되는 정보의 정상/비정상 유무를 판단하는 기술들이 많이 존재한다. 이 때 종래 기술은 학습모델을 이용하여 정상/비정상 유무 타겟에 대해 예측치를 출력한 후, 예측치와 실측치의 차이를 계산하는 비용 함수(cost function)가 정의된다.There are many technologies that learn time series information using machine learning and determine whether or not newly input information is normal or abnormal using the learned result (learning model). In this case, in the prior art, a cost function for calculating a difference between the predicted value and the measured value is defined after outputting a predicted value for a normal/abnormal presence/absence target using a learning model.

도 2는 임계값(threshold)을 이용한 이상징후 탐지 방법의 개념을 보여주는 도면이다. 비용 함수는 예측치와 실측치의 차이를 하나의 실수(cost)로 계산해 준다. 종래 기술은 정상/비정상을 판단하는 기준으로 cost가 사용자가 정의한 임계값(threshold) 보다 크면(예측치와 실측치가 많이 다르면) 비정상으로 판단한다.2 is a diagram showing the concept of a method for detecting anomalies using a threshold. The cost function calculates the difference between the predicted value and the measured value as a single cost. In the prior art, as a criterion for determining normal/abnormal, if the cost is greater than the threshold value defined by the user (if the predicted value and the measured value are significantly different), it is determined as abnormal.

도 3은 일정 구간 동안의 누적 비용(cumulative cost)을 이용한 이상징후 탐지 방법의 개념을 보여주는 도면이다.3 is a diagram showing the concept of a method for detecting anomalies using cumulative costs for a certain period.

한 번의 비용(cost)으로 이상 징후 여부 판단이 어려울 경우, 사용자가 정의한 일정 기간 동안 비용의 누적 비용(cumulative cost)이 사용자가 정의한 임계값(threshold)보다 클 때 비정상으로 판단된다.When it is difficult to determine whether there is an abnormality with a single cost, it is determined as abnormal when the cumulative cost of the cost for a certain period defined by the user is greater than the threshold value defined by the user.

그런데, 종래 기술을 이용하는 경우 정상과 비정상을 구분 짓는 임계값(threshold)를 결정하는 것이 매우 어렵다. 경우에 따라 정상과 비정상을 구분할 수 있는 임계값(threshold)를 쉽게 결정할 수도 있지만, 많은 경우 특정 정상 상황에서는 다른 정상 상황에서보다 비용이 크게 나타나는 경우와 비용 특정 비정상 상황에서는 타 비정상 상황보다 비용이 작게 나타나는 경우가 있기 때문이다.However, in the case of using the prior art, it is very difficult to determine a threshold between normal and abnormal. In some cases, it is also possible to easily determine a threshold to distinguish between normal and abnormal, but in many cases, the cost is higher in certain normal situations than in other normal situations, and costs are lower than in other abnormal situations. This is because there are cases.

만일, 학습 데이터가 매우 충분하고 그에 맞는 적절한 학습 방식이 잘 채택될 수 있다면, 잘 학습된 모델을 이용하여 종래 방식의 임계값(threshold)만으로 정상/비정상을 구분할 수 있을 것이다. 하지만 현실적으로 학습 모델의 출력인 예측치의 정확도를 개선할 수 없는 경우도 많다. 이런 상황에서 최종 목표인 정상/비정상 구분능력을 향상시키기 위해서는 현재 학습 모델의 예측치를 이용하여 정상/비정상을 구분하는 방식에 대한 보완이 유일하면서 큰 효과를 가져 올 수 있다.If the training data is very sufficient and the appropriate learning method can be well adopted, the well-learned model can be used to distinguish normal/abnormal only by the threshold of the conventional method. However, in reality, there are many cases where it is not possible to improve the accuracy of the prediction value that is the output of the learning model. In this situation, in order to improve the final goal, normal/abnormal discrimination ability, supplementing the method of discriminating normal/abnormal using the predicted value of the current learning model can have a unique and great effect.

본 발명의 실시 예에 따른 이상 징후 탐지 시스템 및 그것의 방법은, 임계값(threshold) 결정 방식을 개선함으로써, 현 상황의 실측치가 정상인지 비정상인지 판단에 대한 정확도를 향상시킬 수 있다.The abnormal symptom detection system and method thereof according to an exemplary embodiment of the present invention can improve the accuracy of determining whether the actual measured value of the current situation is normal or abnormal by improving a threshold determination method.

일반적으로 학습 모델은 결정 모델(deterministic model)이므로 같은 입력에 대해서 같은 출력을 수행한다. 그러므로 학습 데이터를 대상으로 분석을 하면 입력되는 정보의 패턴에 따라 비용 변화에도 유사한 패턴이 존재하는 경우가 많다. 학습 데이터를 분석해 보면 정상 상황에서 시간 경과에 따른 비용 변화(cost trend; 코스트 트렌드)와 비정상 상황에서의 비용 변화(cost trend)에는 어느 정도 차이가 존재한다. 잘못 학습된 결과를 모델 수준에서 개선할 수 없을 경우, 그 응답 패턴을 이용하여 잘못된 학습에 의해 특정 패턴에서 일관되게 잘못하는 응답의 문제점이 보완될 수 있다.In general, the learning model is a deterministic model, so it performs the same output for the same input. Therefore, when analyzing the learning data, similar patterns often exist in cost changes according to the patterns of input information. When analyzing the training data, there is some difference between the cost trend (cost trend) over time under normal circumstances and the cost trend under abnormal circumstances. If the incorrectly learned result cannot be improved at the model level, the problem of consistently erroneous responses in a specific pattern may be compensated for by incorrect learning using the response pattern.

비용 변화(cost trend)는 시간 경과에 따른 비용 변화 패턴이다. 학습 데이터를 이용하여 학습 데이터의 시작과 끝까지의 시간에 대해 비용이 변화하는 것을 기록한 것이다. 앞의 도 2 및 도 3에서 학습 데이터에 대해 시간에 따라 모든 차이(difference) 값을 저장한 그래프가 비용 변화(cost trend)이다.A cost trend is a pattern of cost changes over time. Using the training data, the cost changes over the time between the beginning and the end of the training data. In the preceding FIGS. 2 and 3, a graph in which all difference values for training data are stored over time is a cost trend.

종래 기술은 임계값(threshold)를 시간상 한 순간의 비용을 대상으로 하기 때문에 일정 시간 동안 비용이 어떻게 변하는지에 대한 패턴을 표현하는데 한계가 존재한다. 정상과 비정상을 판단하는 임계값(threshold)를 정의할 때 비용 혹은 누적 비용(cumulative cost)로 대변되는 한 순간의 비용을 기준으로 하는 것이 아닌, 비용 변화(cost trend), 즉 일정 시간 동안 비용이 변화하는 패턴을 임계값(threshold) 결정 방식에서 사용한다면, 기존의 임계값(threshold)가 놓치는 부분에 대해 보완될 수 있다.Since the prior art targets a threshold value at one moment in time, there is a limitation in expressing a pattern of how the cost changes over a certain period of time. When defining a threshold for judging normal and abnormal, it is not based on a momentary cost represented by a cost or cumulative cost, but a cost trend, that is, a cost over a period of time. If the changing pattern is used in the threshold determination method, it can be compensated for the part that the existing threshold misses.

도 4는 본 발명의 실시 예에 따른 머신 러닝을 이용한 이상 징후 탐지 시스템(100)을 예시적으로 보여주는 도면이다. 도 4를 참조하면, 이상 징후 탐지 시스템(100)은 학습기(110), 예측 기준 판단기(120), 및 비용 변화 기준 판단기(130)를 포함할 수 있다.4 is a diagram illustrating an abnormal symptom detection system 100 using machine learning according to an embodiment of the present invention. Referring to FIG. 4, the abnormal symptom detection system 100 may include a learner 110, a prediction criterion determiner 120, and a cost change criterion determiner 130.

학습기(110)는 머신 러닝(machine learning)을 이용하여 테스트 데이터를 학습함으로써 학습 모델을 생성할 수 있다. 실시 예에 있어서, 머신 러닝은, 딥 러닝(deep learning)을 포함할 수 있다. 여기서 딥 러닝은, CNN(convolutional neural network), RNN(recurrent neural network), LSTM(long short term memory network) 등 일 수 있다. 하지만 본 발명의 머신 러닝이 여기에 제한되지 않는다고 이해 되어야 할 것이다.The learner 110 may generate a learning model by learning test data using machine learning. In an embodiment, machine learning may include deep learning. Here, the deep learning may be a convolutional neural network (CNN), a recurrent neural network (RNN), a long short term memory network (LSTM), or the like. However, it should be understood that the machine learning of the present invention is not limited thereto.

예측 기준 판단기(120)는 학습기(110)의 학습 모델에 따른 예측치와 실측치의 차이에 대응하는 비용에 대한 임계값을 근거로 하여 타겟에 대한 정상/비정상을 1차적으로 판단할 수 있다.The prediction criterion determiner 120 may primarily determine a normal/abnormal target for a target based on a threshold value for a cost corresponding to a difference between a predicted value according to a learning model of the learner 110 and an actual measured value.

비용 변화 기준 판단기(130)는 예측 기준 판단기(120)의 타겟에 대한 1차적인 판단 결과를 수신하고, 사전에 결정된 시간 동안 추출된 타겟의 비용 변화와 가장 유사한 이웃의 비용 변화의 차이를 계산하고, 계산된 비용 변화 차이값과 비용 변화 차이 제한값을 비교함으로써 타겟에 대한 정상/비정상을 2차적으로 판단할 수 있다.The cost change criterion determiner 130 receives the primary determination result for the target of the prediction criterion determiner 120, and calculates the difference between the cost change of the target extracted for a predetermined time and the cost change of the nearest neighbor. By calculating and comparing the calculated cost change difference value and the cost change difference limit value, it is possible to secondarily determine a normal/abnormal target for a target.

본 발명의 실시 예에 따른 이상 징후 탐지 시스템(100)의 동작은 크게 학습과 판단의 2가지 단계로 구성되며, 학습 데이터는 정상 상황만으로 구성되어 있다.The operation of the abnormal symptom detection system 100 according to an embodiment of the present invention is largely composed of two stages of learning and determination, and the learning data is composed of only normal situations.

학습과 판단을 설명할 때의 가정사항은 다음과 같다. 2개의 비용 변화(cost trend)간 차이(cost trend difference)는 유클리안 거리(Euclidean distance)를 사용할 수 있다. 타겟의 비용 변화(cost trend)가 저장된 비용 변화들 중에 유사한 패턴이 있는지 여부를 판별하는 것은, 유클리안 거리(Euclidean distance)를 기준으로 저장된 비용 변화들 중에서 타겟 비용 변화의 nearest-neighbor(Euclidean distance가 최소값인 cost trend)와 타겟 비용 변화 간의 차이(cost trend difference)가 사용자가 정한 제한값(limit)보다 작을 때 비슷한 패턴이 존재한다고 판단할 수 있다. 한편, 본 발명의 판별 동작이 여기에 제한되지 않는다고 이해되어야 할 것이다. cost trend difference와 유사 패턴 존재 여부를 판단 하는 방법은 다양한 방식으로 적용 가능하다고 이해되어야 할 것이다.The assumptions when explaining learning and judgment are as follows. For the difference between the two cost trends, the Euclidean distance can be used. Determining whether the target cost trend has a similar pattern among stored cost changes is the nearest-neighbor (Euclidean distance) of the target cost change among the stored cost changes based on the Euclidean distance. It can be determined that a similar pattern exists when the difference between the minimum value of is cost trend and the target cost change is less than the limit set by the user. On the other hand, it should be understood that the discrimination operation of the present invention is not limited thereto. It should be understood that the method of determining whether there is a cost trend difference and similar patterns can be applied in various ways.

본 발명의 실시 예에 따른 이상 징후 탐지 시스템(100)의 학습은 다음의 4 단계의 순서로 진행될 수 있다.The learning of the abnormal symptom detection system 100 according to an embodiment of the present invention may be performed in the following order of four steps.

제 1 학습 단계에서, 머신 러닝 기법을 이용해 학습 모델이 생성될 수 있다. 여기서 학습 모델은 머신 러닝을 이용하여 시계열 정보를 학습한 결과이다. In the first learning step, a learning model may be generated using a machine learning technique. Here, the learning model is the result of learning time series information using machine learning.

제 2 학습 단계에서, 테스트 데이터(정상/비정상에 대해 정답을 아는 데이터)를 기준으로 비용(혹은 누적 비용(cumulative cost), 이하 '비용'이라고 함)의 임계값(threshold)를 결정할 수 있다. 이 때, 테스트 데이터에서 정상/비정상 예측 테스트를 함으로써, 학습 모델의 입장에서 예외적인 상황(정상인데 비용이 큰 경우, 비정상인데 비용이 작은 경우)을 무시하고 비용의 임계값(threshold)이 결정될 수 있다.In the second learning step, a threshold of cost (or cumulative cost, hereinafter referred to as'cost') may be determined based on test data (data that knows correct answer for normal/abnormal). At this time, by performing a normal/abnormal prediction test on the test data, the threshold of the cost can be determined by ignoring the exceptional situation (normal but high cost, abnormal but low cost) from the perspective of the learning model. have.

제 3 학습 단계에서, 임계값-초과 비용 변화(threshold-over cost trend) 저장 동작이 수행될 수 있다. 제 2 학습 단계의 결과로써 테스트 데이터에서 임계값(threshold)보다 비용이 크면서 정상 상황에 대해, 사용자가 정한 제 1 시간 동안의 비용 변화(cost trend, pattern 정보)가 저장될 수 있다. 그리고 비용 변화 간의 차이를 계산하는 제 1 비용 변화 차이 함수(diff function, 예: Euclidean distance)가 결정될 수 있다. 제 1 비용 변화 차이 계산 함수(diff function)을 이용하여 비용 변화 간의 차이(cost trend difference)에 대한 제 1 임계값(threshold, cost trend difference limit; 비용 변화 차이 제한값)이 결정될 수 있다.In the third learning step, a threshold-over cost trend storage operation may be performed. As a result of the second learning step, cost trend (pattern information) for a first time determined by a user may be stored for a normal situation while having a cost greater than a threshold in the test data. In addition, a first cost change difference function (eg, Euclidean distance) for calculating a difference between cost changes may be determined. A first threshold value for a cost trend difference (cost trend difference limit) may be determined using a first cost change difference calculation function (diff function).

제 4 학습 단계에서, 임계값-이하 비용 변화(threshold-under cost trend) 저장 동작이 수행될 수 있다. 제 2 학습 단계의 결과로써 테스트 데이터에서 임계값 비용(threshold cost) 작으면서 정상 상황에 대해 사용자가 정한 제 2 시간 동안의 비용 변화(cost trend, pattern 정보)가 저장될 수 있다. 여기서 제 2 시간은 제 3 학습 단계의 제 1 시간과 동일하거나 다를 수 있다. 그리고 비용 변화 간의 차이를 계산하는 제 2 비용 변화 차이 함수(diff function, 예: Euclidean distance)가 결정될 수 있다. 제 2 비용 변화 차이 계산 함수(diff function)을 이용하여 비용 변화 간의 차이(cost trend difference)에 대한 제 2 임계값(threshold, cost trend difference limit)이 결정될 수 있다. 이 때 제 2 비용 변화 차이 계산 함수(diff function)는 임계값-초과 비용 변화의 제 1 비용 변화 차이 계산 함수와 다른 것을 사용할 수 있다.In the fourth learning step, a threshold-under cost trend storage operation may be performed. As a result of the second learning step, a threshold cost in the test data may be small, and a cost trend (pattern information) for a second time determined by the user for a normal situation may be stored. Here, the second time may be the same as or different from the first time of the third learning step. In addition, a second cost change difference function (eg, Euclidean distance) for calculating a difference between cost changes may be determined. A second threshold for a cost trend difference may be determined by using a second cost change difference calculation function. In this case, the second cost change difference calculation function may be different from the first cost change difference calculation function of the threshold-excess cost change.

도 5는 본 발명의 실시 예에 따른 머신 러닝을 이용한 이상 징후 탐지 시스템(100)의 이상 징후 판단 과정을 예시적으로 보여주는 도면이다. 도 5를 참조하면, 이상 징후 판단 과정은 다음의 4 단계의 판단 순서로 진행될 수 있다.5 is a diagram illustrating a process of determining an abnormality symptom by the system 100 for detecting an abnormality using machine learning according to an embodiment of the present invention. Referring to FIG. 5, the abnormal symptom determination process may be performed in the following order of determination of four steps.

제 1 판단 단계에서, 모니터링 현황 정보와 학습 모델을 이용하여 예측치가 계산될 수 있다.In the first determination step, the predicted value may be calculated using the monitoring status information and the learning model.

제 2 판단 단계에서, 도 4에 설명된 학습 2단계에서 결정한 비용의 임계값(threshold)를 이용하여 정상/비정상이 구분될 수 있다.In the second determination step, normal/abnormal may be classified using a threshold of the cost determined in the second learning step described in FIG. 4.

제 3 판단 단계에서, 제 2 판단 단계의 결과로써 타겟이 비정상으로 판단될 경우 이상 징후 판단 과정은 다음과 같이 진행될 수 있다. 타겟에 대한 해당 실측치에 대해 사용자가 정한 기간 동안(예를 들어, 제 1 시간)의 비용 변화(cost trend)가 추출될 수 있다. 타겟에 대한 추출한 비용 변화와 도 4에서 설명된 학습 3단계에서 저장한 임계값-초과 비용 변화(threshold-over cost trend)들 중에서 제 1 비용 변화 차이 계산 함수(diff function)을 이용하여 가장 유사한 비용 변화를 갖는 nearest-neighbor(가장 가까운 이웃)이 검색될 수 있다.In the third determination step, when the target is determined to be abnormal as a result of the second determination step, the abnormal symptom determination process may proceed as follows. For a corresponding measured value for the target, a cost trend for a period determined by the user (eg, the first time) may be extracted. The most similar cost using the first cost change difference calculation function (diff function) among the extracted cost change for the target and the threshold-over cost trend stored in the learning step 3 described in FIG. 4 The nearest-neighbor with variation can be searched for.

예를 들어, 유클리안 거리를 기준으로 nearest-neighbor를 가장 유사한 비용 변화를 찾기 위해 사용한다면, 임계값-초과 비용 변화 내의 모든 비용 변화와의 유클리안 거리를 계산함으로써, 계산된 그 값이 최소인 비용 변화가 nearest-neighbor될 수 있다. 계산된 비용 변화와 검색된 nearest-neighbor에 해당하는 비용 변화와의 비용 변화 차이(예: 두 cost trend간의 Euclidean distance를 사용)가 계산될 수 있다. 계산된 값이 학습 단계에서 결정한 제 1 임계값(비용 변화 차이 제한값, (cost trend difference limit))보다 크면 비정상으로 최종 판단될 수 있다. 반대로, 계산된 값이 학습 단계에서 결정한 제 1 임계값보다 크면 작으면 정상으로 최종 판단될 수 있다.For example, if you use nearest-neighbor based on Euclidean distance to find the most similar cost change, then by calculating the Euclidean distance to all cost changes within the threshold-over-cost change, the calculated value is The minimum cost change can be nearest-neighbored. The difference between the calculated cost change and the cost change corresponding to the searched nearest-neighbor (eg, using the Euclidean distance between two cost trends) can be calculated. If the calculated value is greater than the first threshold value (cost trend difference limit) determined in the learning step, it may be finally determined as abnormal. Conversely, if the calculated value is larger than the first threshold value determined in the learning step, it may be finally determined as normal if it is smaller.

제 4 판단 단계에서, 제 2 판단 단계의 결과로써 타겟이 정상으로 판단될 경우 이상 징후 판단 과정은 다음과 같이 진행될 수 있다. 타겟에 대한 해당 실측치에 대해 사용자가 정한 기간 동안(예를 들어, 제 2 시간)의 비용 변화(cost trend)가 추출될 수 있다. 추출된 비용 변화와 도 4에서 설명한 학습 4단계에서 저장한 임계값-이하 비용 변화(threshold-under cost trend)들 중에서 제 2 비용 변화 차이 계산 함수(diff function)을 이용하여 가장 유사한 비용 변화를 갖는 nearest-neighbor가 검색될 수 있다.In the fourth determination step, when the target is determined to be normal as a result of the second determination step, the abnormal symptom determination process may proceed as follows. For a corresponding measured value for the target, a cost trend for a period (eg, a second time) determined by a user may be extracted. Among the extracted cost changes and the threshold-under cost trends stored in the learning step 4 described in FIG. 4, the second cost change difference calculation function is used to have the most similar cost change. The nearest-neighbor can be searched.

예를 들어, 유클리안 거리를 기준으로 nearest-neighbor를 가장 유사한 비용 변화를 찾기 위해 사용한다면, 임계값-초과 비용 변화 내의 모든 비용 변화와의 유클리안 거리를 계산하고, 계산된 값이 최소인 비용 변화가 nearest-neighbor 일 수 있다. 계산된 비용 변화와 검색된 nearest-neighbor에 해당하는 비용 변화와의 비용 변화 차이(cost trend difference, 예: 두 비용 변화 간의 유클리안 거리를 사용)가 계산 될 수 있다.For example, if nearest-neighbor is used to find the most similar cost change based on the Euclidean distance, calculate the Euclidean distance to all cost changes within the threshold-excess cost change, and the calculated value is the minimum. The change in cost can be nearest-neighbor. The cost trend difference (e.g., using the Euclidean distance between two cost changes) can be calculated between the calculated cost change and the cost change corresponding to the nearest-neighbor retrieved.

계산된 값이 학습 단계에서 결정한 제 2 임계값(비용 변화 차이 제한값(cost trend difference limit))보다 크면 정상으로 최종 판단될 수 있다. 반면에, 계산된 값이 학습 단계에서 결정한 비용 변화 차이 제한값(cost trend difference limit)보다 작으면 비정상으로 최종 판단될 수 있다.If the calculated value is greater than the second threshold (cost trend difference limit) determined in the learning step, it may be finally determined as normal. On the other hand, if the calculated value is less than the cost trend difference limit determined in the learning step, it may be finally determined as abnormal.

도 6는 본 발명의 실시 예에 따른 이상 징후 탐지 시스템(100)의 동작 방법을 예시적으로 보여주는 흐름도이다. 도 4 내지 도 6을 참조하면, 이상 징후 탐지 시스템(100의 동작 방법은 다음과 같이 진행될 수 있다.6 is a flowchart illustrating an exemplary operation method of the abnormal symptom detection system 100 according to an embodiment of the present invention. 4 to 6, the method of operating the abnormal symptom detection system 100 may proceed as follows.

머신 러닝을 이용하여 비용 변화가 저장될 수 있다(S110). 여기서 비용 변화는 임계값-초과 비용 변화 및 임계값-이하 비용 변화를 포함할 수 있다. 이후, 현재 계산된 비용 변화와 가장 유사한 비용 변화를 갖는 이웃이 검색될 수 있다(S120). 이후, 계산된 비용 변화와 검색된 가장 유사한 이웃의 비용 변화 사이의 차이를 근거로 하여 타겟의 정상/비정상이 최종적으로 판단될 수 있다(S130).The cost change may be stored using machine learning (S110). Here, the cost change may include a threshold-excess cost change and a threshold-sub-cost change. Thereafter, a neighbor having a cost change most similar to the currently calculated cost change may be searched (S120). Thereafter, the normal/abnormal target may be finally determined based on the difference between the calculated cost change and the searched most similar neighbor cost change (S130).

실시 예에 따라서는, 단계들 및/혹은 동작들의 일부 혹은 전부는 하나 이상의 비-일시적 컴퓨터-판독가능 매체에 저장된 명령, 프로그램, 상호작용 데이터 구조(interactive data structure), 클라이언트 및/혹은 서버를 구동하는 하나 이상의 프로세서들을 사용하여 적어도 일부가 구현되거나 혹은 수행될 수 있다. 하나 이상의 비-일시적 컴퓨터-판독가능 매체는 예시적으로 소프트웨어, 펌웨어, 하드웨어, 및/혹은 그것들의 어떠한 조합일 수 있다. 또한, 본 명세서에서 논의된 "모듈"의 기능은 소프트웨어, 펌웨어, 하드웨어, 및/혹은 그것들의 어떠한 조합으로 구현될 수 있다.Depending on the embodiment, some or all of the steps and/or actions drive instructions, programs, interactive data structures, clients and/or servers stored in one or more non-transitory computer-readable media. At least some of them may be implemented or performed using one or more processors. The one or more non-transitory computer-readable media may be illustratively software, firmware, hardware, and/or any combination thereof. Also, the functions of the "module" discussed in this specification may be implemented in software, firmware, hardware, and/or any combination thereof.

본 발명의 실시 예들의 하나 이상의 동작들/단계들/모듈들을 구현/수행하기 위한 하나 이상의 비-일시적 컴퓨터-판독가능 매체 및/혹은 수단들은 ASICs(application-specific integrated circuits), 표준 집적 회로들, 마이크로 컨트롤러를 포함하는, 적절한 명령들을 수행하는 컨트롤러, 및/혹은 임베디드 컨트롤러, FPGAs(field-programmable gate arrays), CPLDs(complex programmable logic devices), 및 그와 같은 것들을 포함할 수 있지만, 여기에 한정되지는 않는다.One or more non-transitory computer-readable media and/or means for implementing/performing one or more operations/steps/modules of the embodiments of the present invention include application-specific integrated circuits (ASICs), standard integrated circuits, Controllers that perform appropriate instructions, including microcontrollers, and/or embedded controllers, field-programmable gate arrays (FPGAs), complex programmable logic devices (CPLDs), and the like, but are not limited thereto. Does not.

본 발명의 구성에 따르면, cost를 기반으로 학습모델의 예측치를 개선하지 않고 정상/비정상 판단 능력을 개선할 수 있다. 그리고 Threshold-over Cost trend와 Threshold-under Cost trend를 구분지어 저장함으로써 판단대상이 비교해야 할 대상을 줄여주어 학습 데이터 전체에서 구하는 cost trend와 매번 모두 비교하는 것에 비해 비교시간을 단축하는 효과가 있다. According to the configuration of the present invention, it is possible to improve the normal/abnormal judgment ability without improving the predicted value of the learning model based on cost. In addition, by storing the Threshold-over Cost trend and Threshold-under Cost trend separately, the object to be compared is reduced, thereby reducing the comparison time compared to the cost trend obtained from the entire training data and comparing each time.

한편, 상술 된 본 발명의 내용은 발명을 실시하기 위한 구체적인 실시 예들에 불과하다. 본 발명은 구체적이고 실제로 이용할 수 있는 수단 자체뿐 아니라, 장차 기술로 활용할 수 있는 추상적이고 개념적인 아이디어인 기술적 사상을 포함할 것이다.On the other hand, the contents of the present invention described above are only specific examples for carrying out the invention. The present invention will include not only specific and practically usable means itself, but also technical ideas that are abstract and conceptual ideas that can be utilized as future technologies.

100: 이상 징후 탐지 시스템
110: 학습기
120: 예측 기준 판단기
130: 비용 변화 기준 판단기
100: anomaly detection system
110: learner
120: prediction criteria determiner
130: cost change criterion judge

Claims (20)

이상 징후 탐지 시스템의 동작 방법에 있어서,
머신 러닝을 이용하여 학습 데이터에 대한 예측치와 실측치 사이의 비용 변화들을 저장하는 단계;
상기 저장된 비용 변화들 중에서 타겟의 비용 변화와 유사한 패턴을 갖는 이웃을 검색하는 단계; 및
상기 검색된 이웃의 비용 변화와 상기 타겟의 비용 변화의 차이를 근거로 하여 상기 타겟의 정상/비정상을 판단하는 단계를 포함하고,
상기 비용 변화들을 저장하는 단계는
테스트 데이터에 상응하는 비용을 기반으로 정상과 비정상을 구분하는 상기 비용의 임계값을 결정하는 단계;
상기 임계값을 기반으로 상기 테스트 데이터의 정상/비정상을 판단하는 단계; 및
상기 테스트 데이터에서 상기 임계값보다 상기 비용이 크면서 정상 상황에 대하여 제 1 시간 동안 비용 변화를 저장하는 단계를 포함하고,
상기 비용은 상기 예측치와 실측치의 차이인 것을 특징으로 하는 방법.
In the operation method of the abnormal symptom detection system,
Storing cost changes between the predicted value and the measured value for the training data using machine learning;
Searching for a neighbor having a pattern similar to that of a target among the stored cost changes; And
Determining a normal/abnormal of the target based on a difference between the searched neighbor cost change and the target cost change,
Storing the cost changes comprises:
Determining a threshold value of the cost for distinguishing between normal and abnormal based on a cost corresponding to test data;
Determining normal/abnormal of the test data based on the threshold value; And
In the test data, the cost is greater than the threshold value and includes storing a change in cost for a first time for a normal situation,
The method, characterized in that the cost is a difference between the predicted value and the measured value.
삭제delete 삭제delete 제 1 항에 있어서,
상기 비용은 학습 모델을 이용하여 정상/비정상 유무를 판단하기 위한 상기 예측치와 실측치의 차이를 사전에 결정된 시간 동안에 누적시킨 것을 특징으로 하는 방법.
The method of claim 1,
The cost is a method, characterized in that the difference between the predicted value and the measured value for determining the presence or absence of normal/abnormal using a learning model is accumulated over a predetermined time period.
삭제delete 삭제delete 제 1 항에 있어서,
상기 비용 변화들을 저장하는 단계는,
상기 비용 변화들 사이의 차이를 계산하는 제 1 비용 변화 차이 계산 함수를 결정하는 단계를 더 포함하는 방법.
The method of claim 1,
Storing the cost changes comprises:
And determining a first cost change difference calculation function that calculates a difference between the cost changes.
제 7 항에 있어서,
상기 비용 변화들을 저장하는 단계는,
상기 제 1 비용 변화 차이 계산 함수를 이용하여 상기 비용 변화들 사이의 차이에 대한 제 1 임계값을 결정하는 단계를 더 포함하는 방법.
The method of claim 7,
Storing the cost changes comprises:
And determining a first threshold for a difference between the cost changes using the first cost change difference calculation function.
제 1 항에 있어서,
상기 비용 변화들을 저장하는 단계는,
상기 테스트 데이터에서 상기 임계값 보다 상기 비용이 낮으면서 정상 상황에 대하여 제 2 시간 동안 비용 변화를 저장하는 단계를 포함하는 방법.
The method of claim 1,
Storing the cost changes comprises:
And storing a change in cost for a second time for a normal situation while the cost is lower than the threshold value in the test data.
제 9 항에 있어서,
상기 비용 변화들을 저장하는 단계는,
상기 비용 변화들 사이의 차이를 계산하는 제 2 비용 변화 차이 계산 함수를 결정하는 단계를 더 포함하는 방법.
The method of claim 9,
Storing the cost changes comprises:
And determining a second cost change difference calculation function that calculates the difference between the cost changes.
제 10 항에 있어서,
상기 비용 변화들을 저장하는 단계는,
상기 제 2 비용 변화 차이 계산 함수를 이용하여 상기 비용 변화들 사이의 차이에 대한 제 2 임계값을 결정하는 단계를 더 포함하는 방법.
The method of claim 10,
Storing the cost changes comprises:
And determining a second threshold for the difference between the cost changes using the second cost change difference calculation function.
제 11 항에 있어서,
상기 비용 변화들 사이의 차이는 유클리안 거리로 계산되는 것을 특징으로 하는 방법.
The method of claim 11,
The method, characterized in that the difference between the cost changes is calculated as a Euclidean distance.
제 1 항에 있어서,
상기 타겟의 모니터링 현황 정보와 학습 모델을 이용하여 상기 예측치를 계산하는 단계를 더 포함하는 방법.
The method of claim 1,
And calculating the predicted value by using the monitoring status information of the target and the learning model.
제 1 항에 있어서,
상기 임계값을 이용하여 상기 타겟의 정상/비정상을 1차적으로 판단하는 단계를 더 포함하는 방법.
The method of claim 1,
The method further comprising the step of primarily determining the normal/abnormal of the target using the threshold value.
제 14 항에 있어서,
상기 유사한 패턴을 갖는 이웃을 검색하는 단계는,
상기 1차적으로 판단하는 단계에서 상기 타겟이 비정상일 때, 사전에 결정된 시간 동안 상기 타겟의 실측치에 대한 비용 변화를 추출하는 단계; 및
제 1 비용 변화 차이 계산 함수를 이용하여 임계값-초과 비용 변화들 중에서 상기 추출된 비용 변화에 유사한 상기 이웃을 검색하는 단계를 더 포함하는 방법.
The method of claim 14,
The step of searching for a neighbor having a similar pattern,
When the target is abnormal in the primary determining step, extracting a change in cost of the measured value of the target for a predetermined time; And
And searching for the neighbor similar to the extracted cost change among threshold-excess cost changes using a first cost change difference calculation function.
제 14 항에 있어서,
상기 유사한 패턴을 갖는 이웃을 검색하는 단계는,
상기 1차적으로 판단하는 단계에서 상기 타겟이 정상일 때, 사전에 결정된 시간 동안 상기 타겟의 실측치에 대한 비용 변화를 추출하는 단계; 및
제 2 비용 변화 차이 계산 함수를 이용하여 임계값-이하 비용 변화들 중에서 상기 추출된 비용 변화에 유사한 상기 이웃을 검색하는 단계를 더 포함하는 방법.
The method of claim 14,
The step of searching for a neighbor having a similar pattern,
Extracting a cost change with respect to the measured value of the target for a predetermined time when the target is normal in the primary determining step; And
And searching for the neighbor similar to the extracted cost change among sub-threshold cost changes using a second cost change difference calculation function.
머신 러닝을 이용하여 테스트 데이터를 학습함으로써 학습 모델을 생성하는 학습기;
상기 학습 모델에 따른 예측치와 실측치의 차이에 대응하는 비용에 대한 임계값을 근거로 하여 타겟에 대한 정상/비정상을 1차적으로 판단하는 예측 기준 판단기; 및
상기 예측 기준 판단기의 상기 타겟에 대한 1차적인 판단 결과를 수신하고, 사전에 결정된 시간 동안 추출된 상기 타겟의 비용 변화와 이웃의 비용 변화의 차이를 계산하고, 상기 계산된 비용 변화 차이값과 비용 변화 차이 제한값을 비교함으로써 상기 타겟에 대한 정상/비정상을 2차적으로 판단하는 비용 변화 기준 판단기를 포함하고,
상기 테스트 데이터에서 상기 임계값보다 크고 정상 상황에 대해 제 1 시간 동안의 임계값-초과 비용 변화들이 저장되고,
상기 임계값-초과 비용 변화들 사이의 차이를 계산하는 제 1 비용 변화 차이 함수가 결정되고,
상기 제 1 비용 변화 차이 함수를 이용하여 상기 임계값-초과 비용 변화들 사이의 차이에 대한 제 1 임계값이 결정되는 것을 특징으로 하는 이상 징후 탐지 시스템.
A learner that generates a learning model by learning test data using machine learning;
A prediction criterion determiner for firstly determining a normal/abnormal target for a target based on a threshold value for a cost corresponding to a difference between a predicted value and an actual measured value according to the learning model; And
Receiving the primary determination result of the target by the prediction criterion determiner, calculating the difference between the cost change of the target and the cost change of the neighbors extracted for a predetermined time, and the calculated cost change difference value and Comprising a cost change criterion determiner secondly determining the normal / abnormal for the target by comparing the cost change difference limit value,
Threshold-excess cost changes for a first time for a normal situation that are greater than the threshold value in the test data are stored,
A first cost change difference function for calculating the difference between the threshold-excess cost changes is determined,
And a first threshold value for a difference between the threshold-excess cost changes is determined using the first cost change difference function.
삭제delete 제 17 항에 있어서,
상기 테스트 데이터에서 상기 임계값 보다 낮고 정상 상황에 대해 제 2 시간 동안의 임계값-이하 비용 변화들이 저장되고,
상기 임계값-이하 비용 변화들 사이의 차이를 계산하는 제 2 비용 변화 차이 함수가 결정되고,
상기 제 2 비용 변화 차이 함수를 이용하여 상기 임계값-이하 비용 변화들 사이의 차이에 대한 제 2 임계값이 결정되는 것을 특징으로 하는 이상 징후 탐지 시스템.
The method of claim 17,
In the test data, below-threshold cost changes for a second time for a normal situation and lower than the threshold are stored,
A second cost change difference function for calculating a difference between the threshold-sub-cost changes is determined,
And a second threshold value for a difference between the threshold-less cost changes is determined using the second cost change difference function.
제 19 항에 있어서,
상기 제 1 임계값 및 상기 제 2 임계값 중 적어도 하나는 상기 비용 변화 차이 제한값이 되고,
상기 비용 변화 기준 판단기는 상기 제 1 임계값 혹은 상기 제 2 임계값을 이용하여 상기 타겟의 정상/비정상을 판단하는 것을 특징으로 하는 이상 징후 탐지 시스템.
The method of claim 19,
At least one of the first threshold value and the second threshold value becomes the cost change difference limit value,
The abnormal symptom detection system, wherein the cost change criterion determiner determines normal/abnormal of the target using the first threshold value or the second threshold value.
KR1020180160051A 2018-12-12 2018-12-12 Method and system for anomaly behavior detection using machine learning KR102185190B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180160051A KR102185190B1 (en) 2018-12-12 2018-12-12 Method and system for anomaly behavior detection using machine learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180160051A KR102185190B1 (en) 2018-12-12 2018-12-12 Method and system for anomaly behavior detection using machine learning

Publications (2)

Publication Number Publication Date
KR20200072169A KR20200072169A (en) 2020-06-22
KR102185190B1 true KR102185190B1 (en) 2020-12-01

Family

ID=71142273

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180160051A KR102185190B1 (en) 2018-12-12 2018-12-12 Method and system for anomaly behavior detection using machine learning

Country Status (1)

Country Link
KR (1) KR102185190B1 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220120963A (en) 2021-02-24 2022-08-31 주식회사 와이넷 Monitoring system for machine learning
KR20220120968A (en) 2021-02-24 2022-08-31 주식회사 와이넷 Monitoring method for machine learning
KR20230072253A (en) 2021-11-17 2023-05-24 상명대학교산학협력단 Door access management system applying deep learning
KR20230072280A (en) 2021-11-17 2023-05-24 상명대학교산학협력단 Mysterious symptom detection system using AI variable threshold
KR20230072279A (en) 2021-11-17 2023-05-24 상명대학교산학협력단 Mysterious symptom detection system using AI variable threshold
KR20230119309A (en) 2022-02-07 2023-08-16 상명대학교산학협력단 Anomaly detection method for Individual user using AI variable threshold
KR20230119311A (en) 2022-02-07 2023-08-16 상명대학교산학협력단 Anomaly detection method for each component using AI variable threshold
KR20230119312A (en) 2022-02-07 2023-08-16 상명대학교산학협력단 A method to detect abnormal symptoms occurring during login using text generated during login

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102525187B1 (en) 2021-05-12 2023-04-24 네이버클라우드 주식회사 Method and system for anomaly detection based on time series

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160028750A1 (en) * 2014-07-23 2016-01-28 Cisco Technology, Inc. Signature creation for unknown attacks
JP2017143399A (en) * 2016-02-10 2017-08-17 日本電信電話株式会社 Time series data abnormality monitoring device and time series data abnormality monitoring method

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101693405B1 (en) * 2014-11-28 2017-01-05 건국대학교 산학협력단 Apparatus and method for detecting anomaly intrusion using local deviation factor graph based algorithm

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160028750A1 (en) * 2014-07-23 2016-01-28 Cisco Technology, Inc. Signature creation for unknown attacks
JP2017143399A (en) * 2016-02-10 2017-08-17 日本電信電話株式会社 Time series data abnormality monitoring device and time series data abnormality monitoring method

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220120963A (en) 2021-02-24 2022-08-31 주식회사 와이넷 Monitoring system for machine learning
KR20220120968A (en) 2021-02-24 2022-08-31 주식회사 와이넷 Monitoring method for machine learning
KR20230072253A (en) 2021-11-17 2023-05-24 상명대학교산학협력단 Door access management system applying deep learning
KR20230072280A (en) 2021-11-17 2023-05-24 상명대학교산학협력단 Mysterious symptom detection system using AI variable threshold
KR20230072279A (en) 2021-11-17 2023-05-24 상명대학교산학협력단 Mysterious symptom detection system using AI variable threshold
KR20230119309A (en) 2022-02-07 2023-08-16 상명대학교산학협력단 Anomaly detection method for Individual user using AI variable threshold
KR20230119311A (en) 2022-02-07 2023-08-16 상명대학교산학협력단 Anomaly detection method for each component using AI variable threshold
KR20230119312A (en) 2022-02-07 2023-08-16 상명대학교산학협력단 A method to detect abnormal symptoms occurring during login using text generated during login

Also Published As

Publication number Publication date
KR20200072169A (en) 2020-06-22

Similar Documents

Publication Publication Date Title
KR102185190B1 (en) Method and system for anomaly behavior detection using machine learning
CN109818942B (en) User account abnormity detection method and device based on time sequence characteristics
US11200491B2 (en) Artificial intelligence with cyber security
US20210203605A1 (en) Method and apparatus for detecting abnormal traffic pattern
CN110166462B (en) Access control method, system, electronic device and computer storage medium
Vodenčarević et al. Identifying behavior models for process plants
CN109991951B (en) Multi-source fault detection and diagnosis method and device
CN109800627B (en) Petroleum pipeline signal abnormity detection method and device, equipment and readable medium
KR102247181B1 (en) Method and device for generating anomalous behavior detection model using learning data generated based on xai
US10235629B2 (en) Sensor data confidence estimation based on statistical analysis
KR102153992B1 (en) Method and apparatus for detecting cyber threats using deep neural network
CN111190804A (en) Multi-level deep learning log fault detection method for cloud native system
CN109308415A (en) One kind is towards binary guiding performance fuzz testing method and system
Park et al. RNN-based prediction for network intrusion detection
Moreira et al. Fault diagnosis based on identified discrete-event models
Yadav et al. Ode-augmented training improves anomaly detection in sensor data from machines
US20210064933A1 (en) Anomaly detection by classifying past behavior
CN109635568A (en) A kind of concurrent leak detection method combined based on static analysis and fuzz testing
CN117220920A (en) Firewall policy management method based on artificial intelligence
Bi et al. The diagnostic dendritic cell algorithm for robotic systems
US20050283511A1 (en) Cross-feature analysis
CN104035866B (en) The software action appraisal procedure and device of analysis are called based on system
Moshtaghi et al. Exponentially weighted ellipsoidal model for anomaly detection
Krivic et al. Decreasing uncertainty in planning with state prediction
Srivastava et al. Planning and learning for non-markovian negative side effects using finite state controllers

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant