KR102039540B1 - Device and method for automating process of detecting outlier values of big data - Google Patents

Device and method for automating process of detecting outlier values of big data Download PDF

Info

Publication number
KR102039540B1
KR102039540B1 KR1020190047244A KR20190047244A KR102039540B1 KR 102039540 B1 KR102039540 B1 KR 102039540B1 KR 1020190047244 A KR1020190047244 A KR 1020190047244A KR 20190047244 A KR20190047244 A KR 20190047244A KR 102039540 B1 KR102039540 B1 KR 102039540B1
Authority
KR
South Korea
Prior art keywords
data
outlier detection
value
result
algorithm
Prior art date
Application number
KR1020190047244A
Other languages
Korean (ko)
Inventor
황덕열
공성원
이제동
Original Assignee
(주)위세아이텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)위세아이텍 filed Critical (주)위세아이텍
Priority to KR1020190047244A priority Critical patent/KR102039540B1/en
Priority to PCT/KR2019/005693 priority patent/WO2020218663A1/en
Application granted granted Critical
Publication of KR102039540B1 publication Critical patent/KR102039540B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a device and a method for automating a process of detecting outliers of big data which can provide a user with a variety of information. The device for automating a process of detecting outliers of big data comprises: a database including a plurality of data sets; a data selection unit to determine a first data set to perform outlier detection among the plurality of data sets included in the database, and select a plurality of column items to perform outlier detection among column items of the first data set; a data preprocessing unit to perform preprocessing of the plurality of column items selected by the data selection unit; an outlier detection unit to apply data included in the preprocessed column items to an artificial intelligence algorithm to detect an outlier; a data result unit to generate labeling information based on an outlier detection result, and link the data included in the column items and the labeling information to store a data set; and an outlier detection model generation unit to use the data linked to the labeling information to be stored to construct an outlier detection model.

Description

빅데이터의 이상값 탐지 프로세스 자동화 장치 및 방법{DEVICE AND METHOD FOR AUTOMATING PROCESS OF DETECTING OUTLIER VALUES OF BIG DATA}Device and method for automating outlier detection process of big data {DEVICE AND METHOD FOR AUTOMATING PROCESS OF DETECTING OUTLIER VALUES OF BIG DATA}

본원은 빅데이터의 이상값 탐지 프로세스 자동화 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for automating an outlier detection process for big data.

기계학습, 인공지능에 대한 연구는 시작이 된 시점에 비해서 발전이 빠르지 않았고, 소수의 연구원들에 의한 주제였었다. 풍부한 데이터의 확보, 컴퓨팅 성능향상, 오픈 소스 라이브러리로 인한 빅데이터 시대가 대두되면서부터 인공지능 연구가 활발히 진행되고 있다. 그 중심에는 데이터 마이닝, 머신러닝, 딥러닝 등 최신 학문과 연구가 있다. The study of machine learning and artificial intelligence was not as fast as it began, and was a topic of a few researchers. Artificial intelligence research has been actively conducted since the era of big data due to securing rich data, improving computing performance, and open source libraries. At its core are the latest disciplines and research, including data mining, machine learning, and deep learning.

그러나 머신러닝과 딥러닝 등 수요와 중요성이 폭발적으로 증가하고 있음에도 불구하고 현실적, 물리적, 경제적이 어려움이 존재한다. 그 중에 가장 중요한 요소가 바로 데이터의 확보이다. 머신러닝과 딥러닝의 핵심 요소임에도 불구하고, 정제되어 있는 데이터의 수요는 원활하지 않으며, 공급 또한 따라가지 못하는 실정이다.However, despite the explosive increase in demand and importance, such as machine learning and deep learning, there are real, physical and economic difficulties. The most important factor is the acquisition of data. Despite being a key component of machine learning and deep learning, demand for refined data is not smooth and supply cannot be kept up.

데이터 정제 과정에서 가장 큰 이슈 중의 하나가 데이터 셋의 라벨(레이블, label) 문제이다. 라벨이란 지도학습 알고리즘에서 모델을 학습시키기 위한 정답 값이다. 데이터(data)와 라벨(레이블, label)이 포함되어 있어야, 해당 데이터 셋을 이용하여 문제를 해결하기 위한 머신러닝 알고리즘을 사용할 수 있다. 현재 데이터 셋의 라벨링의 경우 수작업으로 이루어지는 경우가 대다수이며, 라벨링 되어 머신러닝이나 딥러닝에 쓰이는 데이터 셋은 소수이며, 라벨링 되어있지 않은 채 쌓여만 가고 있는 데이터들이 대부분을 차지하고 있다.One of the biggest issues in data cleansing is the labeling of data sets. Labels are the correct values for training the model in supervised learning algorithms. The data and label must be included so that the machine learning algorithm can be used to solve the problem using the data set. Most of the labeling of data sets is done by hand, and there are only a few data sets that are labeled and used for machine learning or deep learning, and most of the data that is not labeled is accumulated.

본원의 배경이 되는 기술은 한국등록특허공보 제10-1880628 (등록일: 2018.07.16)호에 개시되어 있다.The background technology of the present application is disclosed in Korean Patent Publication No. 10-1880628 (Registration Date: July 16, 2018).

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 기존의 기계학습기반의 이상값 탐지에서 문제점이었던 라벨링 칼럼의 필요성을 해소하고, 라벨이 되어 있지 않은 수치형 데이터들을 이용하여 이상값 여부를 자동으로 판별할 수 있는 빅데이터의 이상값 탐지 프로세스 자동화 장치 및 방법을 제공하려는 것을 목적으로 한다.The present invention is to solve the above-mentioned problems of the prior art, to solve the need for a labeling column, which was a problem in the conventional machine learning-based outlier detection, and to automatically determine whether an outlier using an unlabeled numeric data. An object of the present invention is to provide an apparatus and method for automating an outlier detection process for big data that can be determined by using the same method.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 숫자로 이루어진 데이터 셋(수치형 데이터 셋)에 라벨링이 되어있지 않을 경우, 비지도 학습 알고리즘을 사용하여 이상값 탐지할 수 있는 빅데이터의 이상값 탐지 프로세스 자동화 장치 및 방법을 제공하려는 것을 목적으로 한다.The present invention is to solve the above-described problems of the prior art, when the data set consisting of numbers (numerical data set) is not labeled, the abnormality of big data that can detect outliers using an unsupervised learning algorithm It is an object of the present invention to provide an apparatus and method for automating a value detection process.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 이상값 탐지 결과를 이용하여, 데이터 셋을 자동으로 라벨링하고, 사용자가 직접 라벨링을 수정 및 저장할 수 있는 빅데이터의 이상값 탐지 프로세스 자동화 장치 및 방법을 제공하려는 것을 목적으로 한다.The present invention is to solve the above-mentioned problems of the prior art, using an outlier detection result, automatic labeling of the data set, the user can automatically label the data set, the user can directly modify and store the labeling, and The purpose is to provide a method.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 복수개의 이상값 탐지 알고리즘을 동시에 사용하고, 해당 알고리즘을 통해 도출된 결과값을 사용자에게 제공하고, 3개 이상의 이상값 탐지 알고리즘을 사용하여 분석할 경우, 각 알고리즘에 따른 결과값에 가중치를 적용한 결과값을 함께 보여주어 사용자에게 다양한 정보를 제공할 수 있는 빅데이터의 이상값 탐지 프로세스 자동화 장치 및 방법을 제공하려는 것을 목적으로 한다.The present application is to solve the above-mentioned problems of the prior art, using a plurality of outlier detection algorithms at the same time, provide the user with the result value derived through the algorithm, and analyzes using three or more outlier detection algorithms In this case, an object of the present invention is to provide an apparatus and method for automating an outlier detection process for big data capable of providing various information to a user by showing a result value obtained by applying a weight to a result value according to each algorithm.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 이상값 탐지 결과에 기초하여 라벨링한 데이터 셋을 사용하여, 인공지능 기반의 탐지 모델을 구축하고, 인공지능 기반의 탐지 모델을 통해 새로운 데이터의 이상값 여부를 예측할 수 있는 빅데이터의 이상값 탐지 프로세스 자동화 장치 및 방법을 제공하려는 것을 목적으로 한다.The present invention is to solve the above-mentioned problems of the prior art, to build an artificial intelligence-based detection model, using a data set labeled based on the outlier detection results, and to create new data through the artificial intelligence-based detection model An object of the present invention is to provide an apparatus and method for automating an outlier detection process for big data capable of predicting outliers.

다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical problem to be achieved by the embodiments of the present application is not limited to the technical problems as described above, and other technical problems may exist.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 빅데이터의 이상값 탐지 프로세스 자동화 장치는, 복수의 데이터 셋을 포함하는 데이터 베이스, 상기 데이터 베이스에 포함된 복수의 데이터 셋 중 이상값 탐지를 수행할 제1데이터 셋을 결정하고, 상기 제1데이터 셋의 칼럼 항목 중 이상값 탐지를 수행할 복수의 칼럼 항목을 선택하는 데이터 선택부, 상기 데이터 선택부에서 선택된 복수의 칼럼 항목의 전처리를 수행하는 데이터 전처리부, 전처리된 칼럼 항목에 포함된 데이터를 인공지능 알고리즘에 적용하여 이상값을 탐지하는 이상값 탐지부, 이상값 탐지 결과에 기초하여 라벨링 정보를 생성하고, 상기 칼럼 항목에 포함된 데이터와 상기 라벨링 정보를 연계하여 데이터 셋을 저장하는 데이터 결과부 및 라벨링 정보와 연계되어 저장된 데이터를 이용하여 이상값 탐지 모델을 구축하는 이상값 탐지 모델 생성부를 포함할 수 있다.As an technical means for achieving the above technical problem, an apparatus for automating an abnormal value detection process of big data according to an embodiment of the present application, a database including a plurality of data sets, a plurality of data sets included in the database A data selector for determining a first data set for outlier detection and selecting a plurality of column items for outlier detection from among column items of the first data set, and a plurality of columns selected by the data selector A data preprocessor for preprocessing the item, an outlier detection unit for detecting outliers by applying data included in the preprocessed column item to an artificial intelligence algorithm, and generating labeling information based on the outlier detection result, and the column Data result unit and labeling information for storing a data set by linking the labeling information with data included in an item And it is more than the value using the stored data associated detection model outlier detection model generated for building may include a.

본원의 일 실시예에 따르면, 빅데이터의 이상값 탐지 프로세스 자동화 장치는, 상기 이상값 탐지 모델을 이용하여 신규 데이터의 이상값 여부를 예측하는 데이터 예측부를 더 포함할 수 있다. According to an exemplary embodiment of the present disclosure, the apparatus for automating an abnormal value detection process of big data may further include a data predictor configured to predict whether or not the new data has an abnormal value by using the abnormal value detection model.

본원의 일 실시예에 따르면, 상기 데이터 선택부는, 상기 제1데이터 셋의 칼럼 항목 중 이상값 탐지를 수행할 수치형 데이터가 포함된 복수의 칼럼 항목을 선택할 수 있다. According to an embodiment of the present disclosure, the data selector may select a plurality of column items including numerical data to perform abnormal value detection among the column items of the first data set.

본원의 일 실시예에 따르면, 상기 전처리부는, 선택된 칼럼 항목에 포함된 상기 수치형 데이터의 결측치를 전처리할 수 있다. According to an embodiment of the present application, the preprocessor may preprocess missing values of the numerical data included in the selected column item.

본원의 일 실시예에 따르면, 상기 전처리부는, 선택된 칼럼 항목에 포함된 상기 수치형 데이터의 결측치를 최대값, 최빈값, 최소값, 중간값, 0 중 적어도 어느 하나로 치환하는 전처리를 수행할 수 있다.According to an embodiment of the present disclosure, the preprocessor may perform preprocessing to replace the missing value of the numerical data included in the selected column item with at least one of a maximum value, a mode value, a minimum value, a median value, and zero.

본원의 일 실시예에 따르면, 상기 이상값 탐지 모델 생성부는, 지도학습 기반의 인공지능 알고리즘인 이상값 탐지 모델을 구축할 수 있다. According to one embodiment of the present application, the outlier detection model generator may construct an outlier detection model, which is an AI algorithm based on supervised learning.

본원의 일 실시예에 따르면, 상기 이상값 탐지부는, 데이터 특성에 대응하는 인공지능 알고리즘을 적용하여 이상값을 탐지할 수 있다. According to an embodiment of the present application, the outlier detection unit may detect an outlier by applying an artificial intelligence algorithm corresponding to a data characteristic.

본원의 일 실시예에 따르면, 상기 이상값 탐지부는, 선택된 칼럼 항목에 3개 이상의 인공지능 알고리즘이 적용되는 경우, 각각의 인공지능 알고리즘을 통해 추출된 이상값 탐지 결과 및 가중치가 적용된 이상값 탐지 결과를 제공할 수 있다. According to an exemplary embodiment of the present disclosure, when three or more artificial intelligence algorithms are applied to the selected column item, the abnormality detection unit extracts an abnormality detection result and a weighted outlier detection result extracted through each artificial intelligence algorithm. Can be provided.

본원의 일 실시예에 따르면, 상기 가중치가 적용된 이상값 탐지 결과는, [식1]에 의해 산출되고, [식1]

Figure 112019041763072-pat00001
, 여기서, Wk는 가중치이고, Ak 는 알고리즘 n의 결과 값이다.According to an embodiment of the present application, the above-described weighted outlier detection result is calculated by [Equation 1], [Equation 1]
Figure 112019041763072-pat00001
Where W k is a weight and A k is the result of algorithm n.

본원의 일 실시예에 따르면, 상기 데이터 결과부는, 상기 가중치가 적용된 이상값 탐지 결과가 미리 설정된 기준값 이상인 경우, 이상값으로 결정하고, 미리 설정된 이상값 이하인 경우, 정상값으로 결정하여 라벨링 정보를 생성하고, 상기 칼럼 항목에 포함된 데이터와 상기 라벨링 정보를 연계하여 데이터 셋을 저장할 수 있다. According to one embodiment of the present application, the data result unit, if the weighted outlier detection result is greater than or equal to a predetermined reference value, determine as an outlier, and if less than the predetermined outlier value, determine as a normal value to generate labeling information The data set may be stored in association with the data included in the column item and the labeling information.

본원의 일 실시예에 따르면, 이상값 탐지 프로세스 자동화 장치는, 사용자 단말로 상기 라벨링 정보를 연계하여 저장한 데이터 셋을 제공하는 데이터 제공부 및 상기 사용자 단말로부터 데이터 이상값 탐지입력 정보를 수신하는 사용자 입력 수신부를 더 포함할 수 있다. According to one embodiment of the present application, the outlier detection process automation device, a data providing unit for providing a data set stored in association with the labeling information to the user terminal and a user receiving data outlier detection input information from the user terminal The apparatus may further include an input receiver.

본원의 일 실시예에 따르면, 빅데이터의 이상값 탐지 프로세스 자동화 방법은, 복수의 데이터 셋을 포함하는 데이터 베이스에 포함된 복수의 데이터 셋 중 이상값 탐지를 수행할 제1데이터 셋을 결정하고, 상기 제1데이터 셋의 칼럼 항목 중 이상값 탐지를 수행할 복수의 칼럼 항목을 선택하는 단계, 선택된 복수의 칼럼 항목의 전처리를 수행하는 단계, 전처리된 칼럼 항목에 포함된 데이터를 인공지능 알고리즘에 적용하여 이상값을 탐지하는 단계, 이상값 탐지 결과에 기초하여 라벨링 정보를 생성하고, 상기 칼럼 항목에 포함된 데이터와 상기 라벨링 정보를 연계하여 데이터 셋을 저장하는 단계 및 라벨링 정보와 연계되어 저장된 데이터를 이용하여 이상값 탐지 모델을 구축하는 단계를 포함할 수 있다. According to an embodiment of the present disclosure, the method for automating an outlier detection process for big data may include: determining a first data set to perform outlier detection among a plurality of data sets included in a database including a plurality of data sets, Selecting a plurality of column items to perform outlier detection among the column items of the first data set, performing preprocessing of the selected plurality of column items, and applying data included in the preprocessed column items to an artificial intelligence algorithm Detecting an outlier value, generating labeling information based on the outlier detection result, storing a data set by linking the data included in the column item with the labeling information, and storing the data in association with the labeling information. It may include the step of building an outlier detection model using.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.The above-mentioned means for solving the problems are merely exemplary and should not be construed as limiting the present application. In addition to the above-described exemplary embodiments, additional embodiments may exist in the drawings and detailed description of the invention.

전술한 본원의 과제 해결 수단에 의하면, 라벨이 되어 있지 않은 수치형 데이터들을 이용하여 이상값 여부를 자동으로 판별할 수 있다. According to the above-described problem solution means of the present application, it is possible to automatically determine whether or not an abnormal value using the numeric data that is not labeled.

전술한 본원의 과제 해결 수단에 의하면, 숫자로 이루어진 데이터 셋(수치형 데이터 셋)에 라벨링이 되어있지 않은 경우, 비지도 학습 알고리즘을 사용하여 이상값 탐지할 수 있다.According to the above-described problem solving means of the present application, when the data set consisting of numbers (numeric data set) is not labeled, an outlier detection can be detected using an unsupervised learning algorithm.

전술한 본원의 과제 해결 수단에 의하면, 이상값 탐지 결과를 이용하여, 데이터 셋을 자동으로 라벨링하고, 사용자가 직접 라벨링을 수정 및 저장할 수 있다.According to the above-described problem solving means of the present invention, using the outlier detection results, it is possible to automatically label the data set, the user can directly modify and save the labeling.

전술한 본원의 과제 해결 수단에 의하면, 복수개의 이상값 탐지 알고리즘을 동시에 사용하고, 해당 알고리즘을 통해 도출된 결과값을 사용자에게 제공하고, 3개 이상의 이상값 탐지 알고리즘을 사용하여 분석할 경우, 가중치를 적용한 결과값을 함께 보여주어 사용자에게 다양한 정보를 제공할 수 있다.According to the above-described problem solving means of the present application, when using a plurality of outlier detection algorithms at the same time, providing the user with the result value derived through the algorithm, and analyzed using three or more outlier detection algorithm, You can provide various information to the user by showing the result of applying.

전술한 본원의 과제 해결 수단에 의하면, 이상값 탐지 결과에 기초하여 라벨링한 데이터 셋을 사용하여, 인공지능 기반의 탐지 모델을 구축하고, 인공지능 기반의 탐지 모델을 통해 새로운 데이터의 이상값 여부를 예측할 수 있다.According to the above-described problem solving means of the present invention, using the data set labeled based on the outlier detection results, to build an artificial intelligence-based detection model, and whether the new data outliers through the artificial intelligence-based detection model It can be predicted.

전술한 본원의 과제 해결 수단에 의하면, 이상값 탐지 결과를 이용하여 라벨링 된 데이터 셋을 이용하여, 지도학습 알고리즘 모델을 생성하고, 새로운 데이터에 대해서 예측 및 판단할 수 있다.According to the aforementioned problem solving means of the present application, a supervised learning algorithm model can be generated using the data set labeled using the outlier detection result, and predicted and determined for the new data.

다만, 본원에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.However, the effects obtainable herein are not limited to the effects as described above, and other effects may exist.

도 1은 본원의 일 실시예에 따른 이상값 탐지 프로세스 자동화 장치의 개략적인 구성도이다.
도 2는 본원의 일 실시예에 따른 이상값 탐지 프로세스 자동화 장치의 이상값 탐지를 수행할 데이터 셋에 포함된 항목의 일부를 개략적으로 나타낸 도면이다.
도 3은 본원의 일 실시예에 따른 이상값 탐지 프로세스 자동화 장치의 이상값 탐지를 수행할 데이터 항목의 선택 결과를 나타낸 도면이다.
도 4는 본원의 일 실시예에 따른 이상값 탐지 프로세스 자동화 장치의 이상값 탐지 결과를 나타낸 도면이다.
도 5는 본원의 일 실시예에 따른 이상값 탐지 프로세스 자동화 장치의 3개 이상의 알고리즘을 사용했을 때의 이상값 탐지 결과와 가중치가 적용된 이상값 탐지 결과를 예시적으로 나타낸 도면이다.
도 6은 본원의 일 실시예에 따른 이상값 탐지 프로세스 자동화 장치의 가중치를 계산하기 위해서 사용되는 도 5의 결과를 파생변수로 활용한 테이블을 예시적으로 나타낸 도면이다.
도 7은 본원의 일 실시예에 따른 이상값 탐지 프로세스 자동화 장치의 라벨링 정보를 연계하여 데이터 셋을 데이터베이스에 저장하는 결과를 예시적으로 나타낸 도면이다.
도 8은 본원의 일 실시예에 따른 이상값 탐지 프로세스 자동화 방법에 대한 동작 흐름도이다.
1 is a schematic diagram of an apparatus for automating an outlier detection process according to an exemplary embodiment of the present application.
FIG. 2 is a diagram schematically illustrating a part of items included in a data set for performing an outlier detection of an apparatus for detecting an outlier value according to an embodiment of the present disclosure.
FIG. 3 is a diagram illustrating a result of selecting a data item to perform outlier detection by an outlier detection process automation device according to an exemplary embodiment of the present application.
4 is a diagram illustrating an outlier detection result of the apparatus for automating an outlier detection process according to an exemplary embodiment of the present application.
FIG. 5 is a diagram exemplarily illustrating an outlier detection result and an outlier detection result to which weights are applied when three or more algorithms of an apparatus for automating an outlier detection process according to an embodiment of the present application are used.
FIG. 6 is a diagram exemplarily illustrating a table using a result of FIG. 5 as a derived variable used to calculate a weight of an apparatus for automating an outlier detection process according to an embodiment of the present disclosure.
FIG. 7 is a diagram exemplarily illustrating a result of storing a data set in a database by linking labeling information of an outlier detection process automation device according to an exemplary embodiment of the present disclosure.
8 is an operation flowchart for a method for automating an outlier detection process according to an embodiment of the present application.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.DETAILED DESCRIPTION Hereinafter, exemplary embodiments of the present disclosure will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present disclosure. As those skilled in the art would realize, the described embodiments may be modified in various different ways, all without departing from the spirit or scope of the present invention. In the drawings, parts irrelevant to the description are omitted for simplicity of explanation, and like reference numerals designate like parts throughout the specification.

본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결" 또는 "간접적으로 연결"되어 있는 경우도 포함한다. Throughout this specification, when a part is "connected" to another part, it is not only "directly connected" but also "electrically connected" or "indirectly connected" with another element in between. "Includes the case.

본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.Throughout this specification, when a member is said to be located on another member "on", "upper", "top", "bottom", "bottom", "bottom", this means that any member This includes not only the contact but also the presence of another member between the two members.

본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.Throughout this specification, when a part is said to "include" a certain component, it means that it can further include other components, without excluding the other components unless specifically stated otherwise.

도 1은 본원의 일 실시예에 따른 이상값 탐지 프로세스 자동화 장치의 개략적인 구성도이다. 도 2는 본원의 일 실시예에 따른 이상값 탐지 프로세스 자동화 장치의 이상값 탐지를 수행할 데이터 셋에 포함된 항목의 일부를 개략적으로 나타낸 도면이다. 도 3은 본원의 일 실시예에 따른 이상값 탐지 프로세스 자동화 장치의 이상값 탐지를 수행할 데이터 항목의 선택 결과를 나타낸 도면이다. 도 4는 본원의 일 실시예에 따른 이상값 탐지 프로세스 자동화 장치의 이상값 탐지 결과를 나타낸 도면이다. 도 5는 본원의 일 실시예에 따른 이상값 탐지 프로세스 자동화 장치의 3개 이상의 알고리즘을 사용했을 때의 이상값 탐지 결과와 가중치가 적용된 이상값 탐지 결과를 예시적으로 나타낸 도면이다. 도 6은 본원의 일 실시예에 따른 이상값 탐지 프로세스 자동화 장치의 가중치를 계산하기 위해서 사용되는 도 5의 결과를 파생변수로 활용한 테이블을 예시적으로 나타낸 도면이다. 도 7은 본원의 일 실시예에 따른 이상값 탐지 프로세스 자동화 장치의 라벨링 정보를 연계하여 데이터 셋을 데이터베이스에 저장하는 결과를 예시적으로 나타낸 도면이다.1 is a schematic diagram of an apparatus for automating an outlier detection process according to an exemplary embodiment of the present application. FIG. 2 is a diagram schematically illustrating a part of items included in a data set for performing an outlier detection of an apparatus for detecting an outlier value according to an embodiment of the present disclosure. FIG. 3 is a diagram illustrating a result of selecting a data item to perform outlier detection by an outlier detection process automation device according to an exemplary embodiment of the present application. 4 is a diagram illustrating an outlier detection result of the apparatus for automating an outlier detection process according to an exemplary embodiment of the present application. FIG. 5 is a diagram exemplarily illustrating an outlier detection result and an outlier detection result to which weights are applied when three or more algorithms of an apparatus for automating an outlier detection process according to an embodiment of the present application are used. FIG. 6 is a diagram exemplarily illustrating a table using a result of FIG. 5 as a derived variable used to calculate a weight of an apparatus for automating an outlier detection process according to an embodiment of the present disclosure. FIG. 7 is a diagram exemplarily illustrating a result of storing a data set in a database by linking labeling information of an outlier detection process automation device according to an exemplary embodiment of the present disclosure.

도 1을 참조하면, 이상값 탐지 프로세스 자동화 장치(100)는 데이터 베이스(110), 데이터 선택부(120), 데이터 전처리부(130), 이상값 탐지부(140), 데이터 결과부(150), 이상값 탐지 모델 생성부(160), 데이터 예측부(170), 데이터 제공부(180) 및 사용자 입력 수신부(190)를 포함할 수 있다. Referring to FIG. 1, the abnormal value detection process automation device 100 may include a database 110, a data selector 120, a data preprocessor 130, an abnormal value detector 140, and a data result unit 150. The abnormal value detection model generator 160, the data predictor 170, the data provider 180, and the user input receiver 190 may be included.

본원의 일 실시예에 따르면, 이상값 탐지 프로세스 자동화 장치(100)는 숫자로 구성된 데이터의 이상 여부를 파악하는 데에 활용되며, 데이터 종류(특성)에 따라 다양한 알고리즘을 각각 다르게 적용하여 이상값을 탐지할 수 있다. According to one embodiment of the present application, the abnormality detection process automation device 100 is used to determine whether the data composed of the number of abnormalities, and apply different values to each of the various algorithms depending on the type (characteristic) of the data Can be detected.

일예로, 이상값 탐지는, 크게 변별량 탐지와 다변량 탐지로 나눌 수 있는데, 변별량 탐지는 하나의 칼럼 항목 안에서 특정 범위를 상당히 벗어나는 데이터를 자동으로 탐지할 수 있다. 예를 들어, 의료 분야에서 환자의 신체정보에 대한 데이터에서 하나의 칼럼 항목이 몸무게(체중)와 관련된 데이터들의 집단일 경우, 이상값 탐지 프로세스 자동화 장치(100)는 체중이 300kg 이상인 경우, 해당 데이터를 이상값으로 탐지할 수 있다.For example, outlier detection can be largely divided into discrimination detection and multivariate detection, which can automatically detect data that is significantly outside a certain range within a column item. For example, in the medical field, when one column item in the data on the patient's body information is a group of data related to the weight (weight), the outlier detection process automation device 100 has the corresponding data when the weight is 300 kg or more. Can be detected as an outlier.

다른 일예로, 이상값 탐지 프로세스 자동화 장치(100)는 다변량 탐지를 통해 칼럼 상에서 데이터 각각의 값은 이상하지 않지만 해당 데이터를 전체적으로 파악했을 때 이상한 경우를 찾아낼 수 있다. 가령 의료 분야에서 환자의 신체정보에 대한 데이터에서 나이가 5살인데 키가 180cm를 넘는다거나 체중이 90kg를 넘는다면, 이는 각각의 수치는 문제가 없으나 전체를 봤을 때는 이상값이라고 볼 수 있다. As another example, the apparatus 100 for detecting an abnormal value may detect a strange case when the value of each data on the column is not abnormal through the multivariate detection. For example, in the medical field, if the patient's physical information is 5 years old and is over 180cm tall or weighs more than 90kg, this is not a problem, but it is an outlier when viewed in full.

또한, 이상값 탐지 프로세스 자동화 장치(100)는 해당 칼럼 항목의 평균치와 편차치를 과도하게 벗어나는 데이터를 사용자가 직접 확인하도록 사용자 단말(미도시)로 해당 정보를 제공할 수 있다. In addition, the abnormal value detection process automation device 100 may provide the corresponding information to the user terminal (not shown) so that the user directly checks the data that deviates excessively from the average value and the deviation value of the corresponding column item.

본원의 일 실시예에 따르면, 이상값 탐지 프로세스 자동화 장치(100)는 데이터 셋의 특성에 맞게 사용자가 판단하여 알고리즘을 선택할 수 있으며, 이상값의 수를 조절할 수 있다. 또한, 사용자의 용도에 맞게 알고리즘을 추가 및 수정할 수 있다. 달리 말해, 이상값 탐지 프로세스 자동화 장치(100)는 라벨이 없고, 전처리된 수치형 데이터 셋에서 인공지능 기반 자동 이상값 탐지를 실행하고, 사용자의 선택이나, 데이터의 분포에 따라 알고리즘을 선택하고, 사용자로부터 입력받은 이상값의 비율을 이용하여 이상값을 탐지하되, 복수개의 이상값 탐지 알고리즘을 이용하여 한번에 이상값을 탐지할 수 있다. According to one embodiment of the present application, the outlier detection process automation device 100 may determine an algorithm according to a characteristic of a data set by a user, and may adjust the number of outliers. In addition, algorithms can be added and modified to suit the user's purpose. In other words, the outlier detection process automation device 100 executes AI-based automatic outlier detection on a preprocessed numerical data set without a label, selects an algorithm according to a user's selection, or distribution of data, The abnormal value may be detected using a ratio of the abnormal value input from the user, but the abnormal value may be detected at once using a plurality of abnormal value detection algorithms.

또한, 이상값 탐지 프로세스 자동화 장치(100)는 하나의 데이터 셋으로 복수의 이상값 탐지 알고리즘 결과를 확인할 수 있다. 3개 이상의 이상값 탐지 알고리즘을 사용하였을 경우, 3가지 이상의 알고리즘에 따른 이상값 탐지의 결과뿐 아니라, 각 알고리즘의 결과에 가중치가 적용된 이상값 탐지 결과를 함께 도출해 낸다. 이상값 탐지의 결과는 사용자에 의해서 수정 및 저장을 거쳐 라벨링 되어 저장할 수 있다. In addition, the abnormal value detection process automation device 100 may check the results of the plurality of abnormal value detection algorithms with one data set. When three or more outlier detection algorithms are used, not only the results of outlier detection by three or more algorithms, but also the outlier detection results are weighted to the results of each algorithm. The results of the outlier detection can be labeled and stored after modification and storage by the user.

이상값 탐지 프로세스 자동화 장치(100)는 3개 이상의 이상값 탐지 결과가 존재할 경우, 가중치가 적용된 이상값 탐지값을 이용하여 라벨링 정보를 생성함으로써 사용자에게 보다 더 정밀한 라벨링을 제공할 수 있다.The abnormality detection process automation apparatus 100 may provide labeling information to the user by generating labeling information using the weighted outlier detection value when three or more abnormality detection results exist.

이상값 탐지 프로세스 자동화 장치(100)는 데이터에 라벨링이 되어있거나 이상값을 라벨링한 데이터를 지도 학습을 통한 모델을 생성하고 재학습 할 수 있다. 이상값 탐지 프로세스 자동화 장치(100)는 새로운 데이터에 대한 이상값 여부를 예측 및 판단할 수 있다.The abnormality detection process automation apparatus 100 may generate and relearn a model through supervised learning of data that is labeled with data or labeled with an abnormality. The abnormality detection process automation device 100 may predict and determine whether or not an abnormal value is detected for new data.

또한, 이상값 탐지 프로세스 자동화 장치(100)는 기존의 기계학습기반의 이상값 탐지에서 가장 문제가 되었던 라벨링 칼럼의 필요성을 해소하여, 라벨 칼럼이 없이도 이상값을 탐지하여, 해당 이상값 탐지의 결과를 저장하여 라벨로 활용이 가능하다. 또한, 이상값 탐지 프로세스 자동화 장치(100)는 기존의 지도학습기반의 이상값 탐지에서 문제가 되는 라벨링 문제를 해결할 수 있다. 비지도 학습 기반의 인공지능 알고리즘을 이용하여 이상값을 탐지할 수 있다.In addition, the outlier detection process automation device 100 eliminates the need for a labeling column that has been the most problematic in the conventional machine learning based outlier detection, detects outliers without a label column, and results in the outlier detection. You can save it and use it as a label. In addition, the outlier detection process automation device 100 may solve a labeling problem that is a problem in the conventional supervised learning-based outlier detection. An outlier can be detected using an AI algorithm based on unsupervised learning.

또한, 이상값 탐지 프로세스 자동화 장치(100)는 비지도 학습 기반의 이상값 탐지 결과를 확인, 수정 및 저장을 통하여 지도학습 기반의 이상값 탐지 알고리즘 모델을 개발하고, 이상값 여부를 예측 및 판단할 수 있다. 또한, 이상값 탐지 프로세스 자동화 장치(100)는 새로운 데이터와 라벨의 재학습을 통하여 더욱 정확한 이상값 탐지 모델을 생성할 수 있다.In addition, the outlier detection process automation apparatus 100 may develop an outlier detection algorithm model based on supervised learning through checking, modifying, and storing an outlier detection result based on non-supervised learning, and predict and determine an outlier. Can be. In addition, the outlier detection process automation device 100 may generate a more accurate outlier detection model through relearning new data and labels.

달리 말해, 이상값 탐지 프로세스 자동화 장치(100)는 학습 데이터를 수집하고, 통계 및 마이닝 기법을 적용하여 다변량, 단변량 이상 의심 자료를 추출할 수 있다. 이상값 탐지 프로세스 자동화 장치(100)는 기존 Rule 기반 데이터를 적용하여 정상 데이터와 이상데이터로 분류할 수 있다. 이상값 탐지 프로세스 자동화 장치(100)는 분류한 데이터를 기계학습 하여 이상값 탐지 모델을 구축하고, 신규 데이터가 입력된 경우, 이상값 탐지 모델을 이용하여 이상 의심 자료의 정상 및 비정상 라벨링을 수행할 수 있다. In other words, the abnormality detection process automation apparatus 100 may collect training data and extract multivariate, univariate suspicion data by applying statistical and mining techniques. Outlier detection process automation device 100 may be classified into normal data and abnormal data by applying existing rule-based data. The abnormality detection process automation device 100 may machine-learn the classified data to build an abnormality detection model, and when new data is input, perform abnormal and abnormal labeling of the suspected abnormal data by using the abnormality detection model. Can be.

본원의 일 실시예에 따르면, 데이터 베이스(110)는 복수의 데이터 셋을 포함할 수 있다. 데이터 베이스(110)는 수치형 데이터 및/또는 문자형 데이터를 포함하는 복수의 데이터 셋을 포함할 수 있다. 데이터 베이스(110)는 이상값 탐지에 사용되는 복수의 데이터 셋을 포함할 수 있다. 데이터 베이스(110)는 비정형 데이터를 포함할 수 있다. 비정형 데이터, 비구조화 데이터, 비구조적 데이터는 미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보를 의미할 수 있다. 비정형 데이터(Unstructured Data)란 일정한 규격이나 형태를 지닌 숫자데이터(Numeric data)와 달리 그림이나 영상, 문서처럼 형태와 구조가 다른 구조화 되지 않은 데이터를 의미할 수 있다. 예를 들어, 데이터 셋은, 의료 분야, 금융 분야 등에서 도출되는 데이터들의 집합을 포함할 수 있다. 데이터 셋은 로우(Row: 행, 줄)와 컬럼(Column: 열, 칸)이라는 일종의 표 형태로 데이터를 저장할 수 있다. 데이터 셋에 포함된 칼럼 항목은 대표키와 일반 칼럼(데이터)으로 구분될 수 있다. 데이터 셋은 문자형 데이터와 숫자형 데이터를 포함할 수 있다. 일예로, 대표키는 칼럼 항목을 대표하는 항목으로서, 도 2를 참조하면, Col1, Col2, Col3 등과 같은 항목을 대표키라 할 수 있다. According to an embodiment of the present disclosure, the database 110 may include a plurality of data sets. The database 110 may include a plurality of data sets including numeric data and / or character data. The database 110 may include a plurality of data sets used for outlier detection. The database 110 may include unstructured data. Unstructured data, unstructured data, and unstructured data may refer to information that does not have a predefined data model or is not organized in a predefined manner. Unstructured data may refer to unstructured data that is different in form and structure, such as pictures, images, and documents, unlike numeric data having a certain standard or form. For example, the data set may include a collection of data derived from the medical field, the financial field, and the like. A data set can store data in some form of table: rows (rows) and columns (columns). Column items included in the data set may be divided into a representative key and a general column (data). The data set may include character data and numeric data. For example, the representative key is an item representing a column item. Referring to FIG. 2, an item such as Col1, Col2, Col3, and the like may be referred to as a representative key.

본원의 일 실시예에 따르면, 데이터 선택부(120)는 데이터 베이스(110)에 포함된 복수의 데이터 셋 중 이상값 탐지를 수행할 제1 데이터 셋(200)을 결정할 수 있다. 예를 들어, 데이터 선택부(120)는 복수의 의료 데이터 셋 중 이상값 탐지를 수행할 제 1 의료 데이터 셋(200)을 결정할 수 있다. According to an embodiment of the present disclosure, the data selector 120 may determine the first data set 200 to perform outlier detection among a plurality of data sets included in the database 110. For example, the data selector 120 may determine the first medical data set 200 to perform outlier detection among the plurality of medical data sets.

예시적으로 도 2를 참조하면, 데이터 셋은 복수의 칼럼 항목(Col1 내지 Col9)을 포함할 수 있다. 예를 들어, 도 2에 도시된 데이터 셋은 의료 분야에서 도출된 데이터들의 집합일 수 있다. 제1데이터 셋(200)은 문자형 데이터 및 숫자형 데이터를 포함할 수 있다. 복수의 칼럼 항목 각각은 대표키를 기준으로 수집된 데이터일 수 있다. 예를 들어, 제4칼럼 항목(4, Col4)은 성별을 수집한 데이터를 포함하는 칼럼 항목일 수 있다. 또한, 제6칼럼 항목(6, Col6)은 혈액형과 관련된 데이터를 포함하는 칼럼 항목일 수 있다. 또한, 제7칼럼 항목(7, Col7)은 나이를 수집한 데이터를 포함하는 칼럼 항목일 수 있다. 제4칼럼 항목(4, Col4) 및 제6칼럼 항목(6, Col6)은 문자형 데이터를 포함하는 칼럼 항목이고, 제4칼럼 항목(4, Col4) 및 제6칼럼 항목(6, Col6)을 제외한 복수의 칼럼 항목(Col1 내지 Col3, Col5, Col7 내지 Col9)은 수치형 데이터를 포함하는 칼럼 항목이다. For example, referring to FIG. 2, the data set may include a plurality of column items Col1 to Col9. For example, the data set shown in FIG. 2 may be a collection of data derived from the medical field. The first data set 200 may include character data and numeric data. Each of the plurality of column items may be data collected based on the representative key. For example, the fourth column items 4 and Col4 may be column items including data collected with gender. In addition, the sixth column items 6 and Col6 may be column items including data related to blood types. In addition, the seventh column item (7, Col7) may be a column item containing data collected age. The fourth column item (4, Col4) and the sixth column item (6, Col6) are column items containing character data, except for the fourth column item (4, Col4) and the sixth column item (6, Col6). The plurality of column items (Col1 to Col3, Col5, Col7 to Col9) are column items containing numerical data.

또한, 데이터 선택부(120)는 제1데이터 셋(200)의 칼럼 항목 중 이상값 탐지를 수행할 복수의 칼럼 항목을 선택할 수 있다. 예시적으로, 도 3을 참조하면, 데이터 선택부(120)는 제1칼럼 항목(1) 내지 제3칼럼 항목(3), 제5칼럼 항목(5), 제7칼럼 항목 내지 제9칼럼 항목을 이상값 탐지를 수행할 복수의 칼럼 항목으로 선택할 수 있다. 데이터 선택부(120)는 수치형 데이터를 포함하는 복수의 칼럼 항목을 선택할 수 있다. 달리 말해, 데이터 선택부(120)는 도 2에 도시된 데이터 셋의 복수의 칼럼 항목(Col1 내지 Col9) 중 문자형 데이터를 포함하는 제4칼럼(4, Col4) 및 제6칼럼(6, Col6)을 제외한 수치형 데이터에 관한 복수의 칼럼 항목(Col1 내지 Col3, Col5, Col7 내지 Col9)을 선택할 수 있다. In addition, the data selector 120 may select a plurality of column items for outlier detection from among the column items of the first data set 200. For example, referring to FIG. 3, the data selector 120 may include the first column item 1 through the third column item 3, the fifth column item 5, and the seventh through ninth column items. Can be selected as a plurality of column items for outlier detection. The data selector 120 may select a plurality of column items including numerical data. In other words, the data selector 120 may include the fourth columns 4 and Col4 and the sixth column 6 and Col6 including character data among the plurality of column items Col1 to Col9 of the data set illustrated in FIG. 2. A plurality of column items (Col1 to Col3, Col5, Col7 to Col9) related to the numeric data except for may be selected.

본원의 다른 일 실시예에 따르면, 데이터 선택부(120)는 제1데이터 셋(200)의 칼럼 항목 중 이상값 탐지를 수행할 단일 칼럼 항목을 선택할 수 있다. 데이터 선택부(120)는 수치형 데이터를 포함하는 단일 칼럼 항목만을 선택할 수 있다. 단일 칼럼 항목 내의 이상값을 탐지하기 위한 것일 경우, 데이터 선택부(120)는 제1데이터 셋(200)의 칼럼 항목 중 이상값 탐지를 수행할 단일 칼럼 항목을 선택할 수 있다. 일예로, 데이터 선택부(120)는 제1 데이터 셋(200)의 칼럼 항목 중 제1 칼럼 항목(1)을 선택하고, 데이터 전처리부(130)는 제1 칼럼 항목(1)을 전처리하여, 이상값 탐지부(140)는 제 1 칼럼 항목(1)의 이상값을 탐지할 수 있다. According to another exemplary embodiment of the present application, the data selector 120 may select a single column item to perform an outlier detection among the column items of the first data set 200. The data selector 120 may select only a single column item including numerical data. When detecting an abnormal value in a single column item, the data selector 120 may select a single column item to perform abnormal value detection among the column items of the first data set 200. For example, the data selector 120 selects the first column item 1 from the column items of the first data set 200, and the data preprocessor 130 preprocesses the first column item 1. The outlier detection unit 140 may detect the outlier of the first column item 1.

또한, 본원의 일 실시예에 따르면, 데이터 제공부(180)는 사용자 단말(미도시)로 복수의 데이터 셋을 제공할 수 있다. 사용자는 사용자 단말(미도시)에 표시된 복수의 데이터 셋 중 이상값 탐지를 수행할 제1데이터 셋(200)을 선택할 수 있다. 사용자 입력 수신부(190)는 선택된 제1데이터 셋(200)을 이상값 탐지 입력 정보로서 수신할 수 있으며, 데이터 선택부(120)로 해당 입력 정보를 제공할 수 있다. 달리 말해, 데이터 선택부(120)는 사용자가 선택한 입력 정보인 제1데이터 셋(200)에 기반하여, 이상값을 탐지할 데이터 셋을 결정할 수 있다. In addition, according to one embodiment of the present application, the data provider 180 may provide a plurality of data sets to a user terminal (not shown). The user may select the first data set 200 to perform outlier detection among a plurality of data sets displayed on the user terminal (not shown). The user input receiver 190 may receive the selected first data set 200 as outlier detection input information and provide the corresponding input information to the data selector 120. In other words, the data selector 120 may determine a data set for detecting an abnormal value based on the first data set 200 which is input information selected by the user.

또한, 본원의 일 실시예에 따르면, 데이터 제공부(180)는 사용자 단말(미도시)로 선택된 데이터 셋의 복수의 칼럼 항목을 제공할 수 있다. 사용자는 사용자 단말(미도시)에 표시된 복수의 칼럼 항목 중 이상값 탐지를 수행할 복수의 칼럼 항목을 선택할 수 있다. 사용자 입력 수신부(190)는 선택된 복수의 칼럼 항목을 이상값 탐지 입력 정보로서 수신할 수 있으며, 데이터 선택부(120)로 해당 입력 정보를 제공할 수 있다. 달리 말해, 데이터 선택부(120)는 사용자가 선택한 입력 정보인 복수의 칼럼 항목에 기반하여 이상값을 탐지할 칼럼 항목을 선택할 수 있다. In addition, according to an exemplary embodiment of the present application, the data provider 180 may provide a plurality of column items of a data set selected as a user terminal (not shown). The user may select a plurality of column items for outlier detection from among a plurality of column items displayed on the user terminal (not shown). The user input receiver 190 may receive the plurality of selected column items as outlier detection input information, and provide the corresponding input information to the data selector 120. In other words, the data selector 120 may select a column item to detect an abnormal value based on a plurality of column items which are input information selected by the user.

데이터 선택부(120)에서 선택되는 데이터 셋의 칼럼 항목들은 모두 수치형 데이터일 수 있다. 데이터 선택부(120)는 2개 이상의 칼럼 항목을 선택할 수 있다. 또한, 데이터 선택부(120)에서 선택된 칼럼 항목들은 라벨 칼럼을 포함하지 않을 수 있다.All column items of the data set selected by the data selector 120 may be numeric data. The data selector 120 may select two or more column items. In addition, the column items selected by the data selector 120 may not include a label column.

본원의 일 실시예에 따르면, 데이터 전처리부(130)는 데이터 선택부(120)에서 선택된 복수의 칼럼 항목의 전처리를 수행할 수 있다. 데이터 전처리부(130)는 선택된 칼럼 항목에 포함된 수치형 데이터의 결측치를 전처리할 수 있다. 결측치는, 누락된 값, 비어있는 값, 측정 오류로 인해 값이 없는 것을 의미할 수 있다. 데이터 전처리부(130)는 선택된 데이터 셋 및 선택된 복수의 칼럼 항목에 결측치가 포함되어 있는 경우, 최소값, 최대값, 최빈값, 중간값, 평균값 또는 0 중 적어도 어느 하나로 치환하는 전처리를 수행할 수 있다. 복수의 칼럼 항목 중 각 칼럼 항목에 해당하는 최소값, 최대값, 최빈값, 중간값, 평균값은 서로 상이할 수 있다. 예를 들어, 데이터 전처리부(130)는 데이터 셋이 의료 분야에서 환자의 신체정보에 대한 데이터이고, 제1 칼럼 항목에 몸무게(체중)와 관련된 데이터가 포함되어 있는 경우, 제1칼럼 항목의 최소값은 0, 최대값은 300으로 미리 설정할 수 있다. 달리 말해, 데이터 전처리부(130)는 칼럼 항목에 포함된 데이터의 종류, 특성, 대표키(예를 들어, 몸무게, 체중, 저혈압, 고혈압)를 고려하여 최소값, 최대값, 최빈값, 중간값, 평균값을 미리 설정할 수 있으며, 각각에 미리 설정된 기준값에 대응하여 결측치를 치환할 수 있다. According to an exemplary embodiment of the present application, the data preprocessor 130 may perform preprocessing of a plurality of column items selected by the data selector 120. The data preprocessor 130 may preprocess missing values of the numeric data included in the selected column item. Missing values may mean missing values, empty values, or missing values due to measurement errors. When the missing data is included in the selected data set and the plurality of selected column items, the data preprocessor 130 may perform preprocessing by replacing at least one of a minimum value, a maximum value, a mode value, a median value, an average value, or a zero value. The minimum, maximum, mode, median, and average values corresponding to each column item among the plurality of column items may be different from each other. For example, the data preprocessor 130 is a minimum value of the first column item when the data set is data on the body information of the patient in the medical field, and the first column item includes data related to the weight (weight). Is 0 and the maximum value can be preset to 300. In other words, the data preprocessor 130 considers the types, characteristics, and representative keys (eg, weight, weight, low blood pressure, high blood pressure) included in the column item in consideration of the minimum, maximum, mode, median, and average values. Can be set in advance, and missing values can be substituted in correspondence with preset reference values.

또한, 데이터 전처리부(130)는 선택된 칼럼 항목에 결측치가 포함된 경우, 해당 데이터 값을 사용하지 않도록 제거할 수 있다. 예를 들어, 데이터 전처리부(130)는 제1 칼럼 항목의 제1 데이터가 결측치를 포함하는 경우, 최소값, 최대값, 최빈값, 중간값, 평균값 또는 0 중 적어도 어느 하나로 치환하는 전처리를 수행할 수 있다.In addition, when the missing column is included in the selected column item, the data preprocessor 130 may remove the data value from being used. For example, when the first data of the first column item includes a missing value, the data preprocessor 130 may perform preprocessing by substituting at least one of a minimum value, a maximum value, a mode value, a median value, an average value, or zero. have.

데이터 전처리부(130)는 사용자 입력 수신부(190)로부터 제공받은 이상값 탐지 입력 정보에 기반하여 결측치가 포함된 데이터의 전처리를 수행할 수 있다. 예를 들어, 데이터 제공부(180)는 사용자 입력 수신부(190)로부터 선택된 데이터 셋 및 선택된 복수의 칼럼 항목에 결측치가 포함되어 있는 경우 최소값, 최대값, 최빈값, 중간값, 평균값 또는 0 중 적어도 어느 하나로 치환하는 전처리를 수행하도록 하는 이상값 탐지 입력 정보를 제공받을 수 있다. 데이터 전처리부(130)는 사용자 입력 수신부(190)로부터 제공받은 이상값 탐지 입력 정보에 기반하여, 제1칼럼 항목(Col1)에 결측치가 포함되어 있는 경우, 평균값으로 치환하도록 하는 이상값 탐지 입력 정보를 제공받은 경우, 제1칼럼 항목(Col1)에서 발견되는 결측치에 대하여 평균값으로 치환하는 전처리를 수행할 수 있다. The data preprocessor 130 may preprocess the data including the missing value based on the outlier detection input information provided from the user input receiver 190. For example, the data provider 180 may include at least one of a minimum value, a maximum value, a mode value, a median value, an average value, or a zero value when a missing value is included in a data set selected by the user input receiver 190 and a plurality of selected column items. Outlier detection input information may be provided to perform preprocessing with one substitution. The data preprocessing unit 130, based on the outlier detection input information provided from the user input receiver 190, when a missing value is included in the first column item Col1, the outlier detection input information for replacing with an average value. If is provided, the pretreatment of substituting the mean value with respect to the missing value found in the first column item Col1 may be performed.

또한, 데이터 제공부(180)는 사용자 단말(미도시)로 결측치가 포함된 칼럼 항목을 제공할 수 있다. 사용자는 사용자 단말(미도시)에 표시된 칼럼 항목을 확인하고, 결측치를 치환하기 위한 정보를 선택하고, 사용자 입력 수신부(190)는 해당 선택 정보(입력 정보)를 결측치를 치환하기 위한 이상값 탐지 입력 정보로서 데이터 전처리부(130)로 제공하고, 데이터 전처리부(130)는 해당 이상값 탐지 입력 정보에 기반하여 결측치가 포함된 데이터 값을 치환하는 전처리를 수행할 수 있다. In addition, the data provider 180 may provide a column item including missing values to the user terminal (not shown). A user checks a column item displayed on a user terminal (not shown), selects information for replacing a missing value, and the user input receiving unit 190 inputs an outlier detection for replacing the missing value with the corresponding selection information (input information). The data may be provided to the data preprocessor 130 as information, and the data preprocessor 130 may perform preprocessing to replace data values including missing values based on the outlier detection input information.

일예로, 데이터 전처리부(130)는 사용자 입력 수신부(190)로부터 결측치가 포함된 데이터 값을 사용하지 않도록 설정하는 이상값 탐지 입력 정보를 수신하는 경우, 해당 데이터를 사용하지 않도록 하는 전처리를 수행할 수 있다. For example, when the data preprocessor 130 receives the outlier detection input information for disabling the data value including the missing value from the user input receiver 190, the data preprocessor 130 may perform preprocessing to disable the corresponding data. Can be.

다른 일예로, 데이터 전처리부(130)는 수치형 데이터 셋의 결측치를 처리하되, 라벨이 없는 데이터 셋을 이용하여 이상값 탐지를 수행할 수 있는 형태로 전처리할 수 있다. As another example, the data preprocessor 130 may process missing values of the numerical data set, but may preprocess the outliers using a data set without a label.

본원의 일 실시예에 따르면, 이상값 탐지부(140)는 전처리부(130)에서 전처리된 칼럼 항목에 포함된 데이터를 인공지능 알고리즘에 적용하여 이상값을 탐지할 수 있다. 여기서, 인공지능 알고리즘은 비지도 학습기반 인공지능 알고리즘일 수 있다. 비지도 학습(Unsupervised Learning)은 데이터에 대한 레이블(Label), 명시적인 정답이 주어지지 상태에서 컴퓨터를 학습시키는 방법론이다. 즉, (데이터(data)) 형태로 학습을 진행하는 방법이다.According to one embodiment of the present application, the outlier detection unit 140 may detect an outlier by applying data included in a column item preprocessed by the preprocessor 130 to an artificial intelligence algorithm. Here, the artificial intelligence algorithm may be an unsupervised learning based artificial intelligence algorithm. Unsupervised Learning is a methodology for learning a computer with a label for the data and an explicit correct answer. That is, it is a method of learning in the form of (data).

비지도 학습은 데이터의 숨겨진(Hidden) 특징(Feature)이나 구조를 발견하는 방식에 사용된다. 예시적으로, 비지도 학습은 군집(Clustering)으로 구분되는 K-평균(k-Means), 계층 군집 분석(HCA, Hierarchical Cluster Analysis), 기댓값 최대화(Expectation Maximization)를 포함할 수 있다. 또한, 시각화(Visualization)와 차원 축소(Dimensionality Reduction)로 구분되는, 주성분 분석(PCA, Principal Component Analysis), 커널 PCA(Kernel PCA), 지역적 선형 임베딩(LLE, Locally-Linear Embedding), t-SNE(t-distributed Stochastic Neighbor Embedding)을 포함할 수 있다. 또한, 연관 규칙 학습(Association Rule Learning)으로 구분되는 어프라이어리(Apriori), 이클렛(Eclat)을 포함할 수 있다. Unsupervised learning is used to discover hidden features or structures of data. For example, unsupervised learning may include K-Means, Hierarchical Cluster Analysis (HCA), and Expectation Maximization (C-Means). In addition, Principal Component Analysis (PCA), Kernel PCA (KLE), Locally-Linear Embedding (LLE), and t-SNE (Divisionality Reduction) t-distributed Stochastic Neighbor Embedding). Also, it may include an apriori and an eclat classified as association rule learning.

예를 들어, 비지도 학습기반 인공지능 알고리즘은 로지스틱 회귀 알고리즘, 랜덤 포레스트 알고리즘, SVM(Support Vector Machine)알고리즘, 의사결정 알고리즘 및 군집 알고리즘이 이용될 수 있으나 이에 한정되는 것은 아니다. Random Forest 알고리즘은 수많은 Decision Tree들이 Forest를 구성하여 각각의 예측결과를 하나의 결과변수로 평균화하는 알고리즘이고, SVM알고리즘은 데이터의 분포공간에서 가장 큰 폭의 경계를 구분하여 데이터가 속하는 분류를 판단하는 비확률적 알고리즘이다. Extra Tree알고리즘은 Random forest와 비슷하나 속도가 Random forest에 비해 빠른 알고리즘이며, XGBoost알고리즘은 Random Forest의 Tree는 독립적이라면 XGBoost의 Tree의 결 과를 다음 트리에 적용하는 boost방식의 알고리즘이다. Deep Learning알고리즘은 다층구조의 Neural Network을 기반으로 변수의 패턴이 결과에 미치는 영향을 가중치로 조절하며 학습하는 알고리즘이다. 또한, K-means 클러스터링 알고리즘은 전통적인 분류기법으로 대상집단을 거리의 평균값(유사도)을 기준으로 K개의 군집으로 반복 세분화하는 기법이고, SOM알고리즘은 인공신경망을 기반으로 훈련집합의 입력 패턴을 가중치로 학습하여 군집화하는 기법이다. 또한 EM & Canopy 알고리즘은 주어진 초기값으로 가능성이 최대인 것부터 반복 과정을 통해 파라미터 값을 갱신하여 군집화 하는 기법을 의미한다.For example, the unsupervised learning-based AI algorithm may include, but is not limited to, a logistic regression algorithm, a random forest algorithm, a support vector machine (SVM) algorithm, a decision algorithm, and a clustering algorithm. Random Forest algorithm is a algorithm that counts a number of decision trees and averages each prediction result as one result variable. SVM algorithm determines the classification to which data belongs by separating the largest width boundary in the data distribution space. It is a non-probability algorithm. The Extra Tree algorithm is similar to the Random forest, but the algorithm is faster than the Random forest. The XGBoost algorithm is a boost algorithm that applies the result of the XGBoost tree to the next tree if the tree of the Random Forest is independent. Deep Learning Algorithm is an algorithm that learns by adjusting the effect of variable pattern on the weight based on multi-layer Neural Network. In addition, K-means clustering algorithm is a traditional classification technique that repeats the target group into K clusters based on the mean value (similarity) of distance, and the SOM algorithm is based on the artificial neural network. It is a technique of learning and clustering. In addition, EM & Canopy algorithm refers to a technique for clustering by updating the parameter value through the iterative process from the maximum probability to the given initial value.

계층 군집 알고리즘을 사용하면 각 그룹을 더 작은 그룹으로 세분화할 수 있다. 시각화 알고리즘은 레이블이 없는 대규모의 고차원 데이터를 넣으면 도식화가 가능한 2D나 3D 표현으로 생성한다. 차원 축소는 너무 많은 정보를 잃지 않으면서 데이터를 간소화하는데 될 수 있다. 예를 들어 차의 주행거리는 연식과 매우 연관되어 있으므로 차원 축소 알고리즘으로 두 특성을 차의 마모 정도를 나타내는 하나의 특성으로 합칠 수 있으며, 이를 특성 추출(Feature Extraction)이라고 한다. 이상치 탐지는 학습 알고리즘에 주입하기 전에 데이터 셋에서 이상한 값을 자동으로 제거하는 작업으로, 정상 샘플로 훈련되고, 새로운 샘플이 정상인지 아닌지 판단할 수 있다. 연관 규칙 학습은 대량의 데이터에서 특성 간의 흥미로운 관계를 찾아내며, 예를 들어, 어떠한 상품을 구매한 사람이 다른 상품을 구매하는 경향이 있다는 것을 찾을 때 활용된다. 다만, 비지도 학습 기반의 인공지능 알고리즘이 이에 한정되는 것은 아니며, 연구 개발의 결과에 따라 다양한 알고리즘이 포함될 수 있다. Hierarchical clustering algorithms can be used to subdivide each group into smaller groups. Visualization algorithms generate 2D or 3D representations that can be plotted by embedding large, unlabeled, high-dimensional data. Dimensional reduction can be done to simplify data without losing too much information. For example, the mileage of a car is highly related to the age, so the dimensional reduction algorithm can combine the two properties into a single feature that represents the wear of the car. This is called feature extraction. Outlier detection is the automatic removal of strange values from a data set before injection into a learning algorithm, which can be trained with a normal sample and can determine whether a new sample is normal. Association rule learning is used to find interesting relationships between characteristics in large amounts of data, for example, to find that the person who bought a product tends to buy another product. However, the artificial intelligence algorithm based on unsupervised learning is not limited thereto, and various algorithms may be included according to the results of research and development.

또한, 이상값 탐지부(140)는 데이터 특성에 대응하는 인공지능 알고리즘을 적용하여 이상값을 탐지할 수 있다. 달리 말해, 이상값 탐지부(140)는 데이터 전처리부(130)에서 전처리된 데이터들을 데이터 특성에 대응하는 비지도 학습기반의 인공지능 알고리즘을 이용하여 이상값을 탐지할 수 있다. 이상값 탐지부(140)는 데이터의 종류와 분포를 고려하여 선택된 비지도 학습의 인공지능 알고리즘을 적용하여 이상값을 탐지할 수 있다. 데이터 특성은 하나의 칼럼 항목에 포함된 데이터의 특징적인 성질을 의미할 수 있다. 이상값 탐지부(140)는 제1 칼럼 항목(Col1)에 포함된 데이터 특성에 대응하는 제1 인공지능 알고리즘을 적용하여 이상값을 탐지할 수 있다. 예를 들어, 이상값 탐지부(140)는 제1칼럼 항목(Col1)에 포함된 데이터 특성에 대응하여 K-means 클러스터링 알고리즘을 적용하여 제1칼럼 항목(Col1)의 이상값을 탐지할 수 있다. 또한, 이상값 탐지부(140)는 선택된 복수개의 칼럼 항목 예를 들어, 제1 칼럼 항목(Col1) 내지 제3칼럼 항목(Col3)의 특성에 대응하는 인공지능 알고리즘을 적용하여 이상값을 탐지할 수 있다. 이상값 탐지부(140)는 데이터 특성에 대응하는 비지도 학습의 인공지능 알고리즘을 적용하여 이상값을 탐지함으로써, 보다 더 효율적이고 정확하게 이상값을 탐지할 수 있다. 이상값 탐지 결과는 1 또는 0으로 확인이 가능하며 이상값 탐지부(140)는 이상값의 경우 1, 정상값일 경우0으로 해당 데이터의 이상값을 결정할 수 있다. In addition, the outlier detection unit 140 may detect an outlier by applying an artificial intelligence algorithm corresponding to the data characteristic. In other words, the outlier detection unit 140 may detect the outlier using the unsupervised learning-based artificial intelligence algorithm corresponding to the data characteristics of the data preprocessed by the data preprocessor 130. The outlier detection unit 140 may detect an outlier by applying an artificial intelligence algorithm of unsupervised learning selected in consideration of the type and distribution of data. The data characteristic may refer to characteristic characteristics of data included in one column item. The outlier detection unit 140 may detect the outlier by applying a first artificial intelligence algorithm corresponding to the data characteristic included in the first column item Col1. For example, the outlier detection unit 140 may detect an outlier value of the first column item Col1 by applying a K-means clustering algorithm corresponding to data characteristics included in the first column item Col1. . In addition, the outlier detection unit 140 may detect an outlier by applying an artificial intelligence algorithm corresponding to the characteristics of the plurality of selected column items, for example, the first column item Col1 to the third column item Col3. Can be. The outlier detection unit 140 detects the outlier by applying an artificial intelligence algorithm of unsupervised learning corresponding to the data characteristic, thereby detecting the outlier more efficiently and accurately. The abnormal value detection result can be confirmed as 1 or 0, and the abnormal value detection unit 140 can determine the abnormal value of the corresponding data as 1 for the abnormal value and 0 for the normal value.

이상값 탐지부(140)는 데이터 선택부(120)에서 결정된 데이터 셋과 결정된 데이터 셋에서 선택된 복수의 칼럼 항목을 데이터 전처리부(120)에서 전처리가 완료된 복수의 수치형 데이터를 사용하여, 이상값의 개수를 비율로 설정하여 이상값 탐지를 수행할 수 있다. 달리 말해, 이상값 탐지부(140)는 복수의 칼럼 항목에 포함된 데이터를 이용하여 이상값의 개수가 미리 설정된 비율 이하인 경우, 정상값(0)으로 판단하고, 이상값의 개수가 미리 설정된 비율 이상인 경우, 이상값(1)로 판단할 수 있다. The outlier detection unit 140 uses the plurality of column items selected from the data set determined by the data selector 120 and the plurality of column items selected from the determined data set, using the plurality of numerical data whose preprocessing is completed by the data preprocessor 120. Outlier detection can be performed by setting the number of. In other words, when the number of the abnormal values is less than or equal to the preset ratio using the data included in the plurality of column items, the abnormal value detector 140 determines that the abnormal value is 0 and the number of the abnormal values is the preset ratio. In the case of abnormality, it can judge with the abnormal value (1).

예시적으로 도 3과 도 4를 참고하면, 도 4는 도 3의 데이터 셋을 이용하여 이상값 탐지를 한 데이터의 일부이다. 도 3과는 달리 도 4에는 마지막 칼럼 항목에 인공지능 알고리즘에 적용하여 탐지된 이상값 탐지 결과(10)가 포함되어 있다. 도 4에 도시된 제1알고리즘 칼럼 항목(10, Agthm1))에 포함된 데이터들은 이상값 탐지부(140)에서 탐지한 이상값의 탐지 결과일 수 있다.For example, referring to FIGS. 3 and 4, FIG. 4 is a part of data obtained by detecting an outlier using the data set of FIG. 3. Unlike FIG. 3, FIG. 4 includes the outlier detection result 10 detected by applying an artificial intelligence algorithm to the last column item. Data included in the first algorithm column item 10 (Agthm1) illustrated in FIG. 4 may be a detection result of the abnormal value detected by the abnormal value detector 140.

달리 말해, 도 4에 도시된 제1알고리즘을 이용하여 탐지된 이상값의 탐지 결과(10)는 제1칼럼 항목(1) 내지 제3칼럼 항목(3), 제5칼럼 항목(5), 제7칼럼 항목(7) 내지 제8칼럼 항목(8)에 포함된 데이터를 비지도 학습 기반의 제1 인공지능 알고리즘을 이용하여 탐지된 이상값의 탐지결과 일 수 있다. In other words, the detection result 10 of the outlier detected using the first algorithm shown in FIG. 4 includes the first column item 1 to the third column item 3, the fifth column item 5, The data included in the seventh column items 7 to the eighth column item 8 may be a detection result of an abnormal value detected using the first artificial intelligence algorithm based on unsupervised learning.

이상값 탐지부(140)는 제1행(11)의 선택된 복수의 칼럼 항목과 관련하여 이상값을 탐지할 수 있다. 제1행(11)의 이상값 탐지 결과는 0으로, 이상값 탐지부(140)는 제1행(11)에 포함된 데이터들의 이상값의 개수가 미리 설정된 비율 이하인 것으로 판단할 수 있다. 예를 들어, 제1행(11)에는 제1칼럼 항목(1) 내지 제3칼럼 항목(3), 제5칼럼 항목(5), 제7칼럼 항목(7) 내지 제8칼럼 항목(8)에 포함된 제1데이터를 포함할 수 있다. 이상값 탐지부(140)는 제1칼럼 항목(1) 내지 제3칼럼 항목(3), 제5칼럼 항목(5), 제7칼럼 항목(7) 내지 제8칼럼 항목(8)에 포함된 제1데이터를 이용하여 이상값의 탐지 결과를 0(정상값)으로 결정할 수 있다. The outlier detection unit 140 may detect outliers in relation to the plurality of selected column items in the first row 11. The outlier detection result of the first row 11 is 0, and the outlier detection unit 140 may determine that the number of outliers of the data included in the first row 11 is less than or equal to a preset ratio. For example, in the first row 11, the first column item (1) to the third column item (3), the fifth column item (5), the seventh column item (7) to the eighth column item (8) It may include the first data included in. The outlier detection unit 140 is included in the first column item (1) to the third column item (3), the fifth column item (5), the seventh column item (7) to the eighth column item (8) The detection result of the abnormal value may be determined as 0 (normal value) using the first data.

반면, 이상값 탐지부(140)는 제2행(12)에 선택된 복수의 칼럼 항목과 관련하여 이상값을 탐지할 수 있다. 제2행(12)의 이상값 탐지 결과는 1로, 이상값 탐지부(140)는 제2행(12)에 포함된 데이터들의 이상값의 개수가 미리 설정된 비율 이상인 것으로 판단할 수 있다. 예를 들어, 제1행(11)에는 제1칼럼 항목(1) 내지 제3칼럼 항목(3), 제5칼럼 항목(5), 제7칼럼 항목(7) 내지 제8칼럼 항목(8)에 포함된 제2데이터를 포함할 수 있다. 이상값 탐지부(140)는 제1칼럼 항목(1) 내지 제3칼럼 항목(3), 제5칼럼 항목(5), 제7칼럼 항목(7) 내지 제8칼럼 항목(8)에 포함된 제2데이터를 이용하여 이상값의 탐지 결과를 1(이상값)으로 결정할 수 있다. On the other hand, the outlier detection unit 140 may detect outliers in relation to a plurality of column items selected in the second row 12. The outlier detection result of the second row 12 is 1, and the outlier detection unit 140 may determine that the number of outliers of the data included in the second row 12 is greater than or equal to a preset ratio. For example, in the first row 11, the first column item (1) to the third column item (3), the fifth column item (5), the seventh column item (7) to the eighth column item (8) It may include the second data included in. The outlier detection unit 140 is included in the first column item (1) to the third column item (3), the fifth column item (5), the seventh column item (7) to the eighth column item (8) The detection result of the outlier may be determined as 1 (outlier) using the second data.

본원의 일 실시예에 따르면, 사용자는 데이터의 종류와 분포를 고려하여 비지도 학습 기반의 인공지능 알고리즘을 선택할 수 있다. 달리 말해, 데이터 제공부(180)는 전처리된 칼럼 항목을 사용자 단말(미도시)에 표시하고, 사용자는 사용자 단말(미도시)에 표시된 전처리된 칼럼 항목에 포함된 데이터의 종류와 분포를 고려하여 복수의 비지도 학습 기반의 인공지능 알고리즘 중 적어도 어느 하나를 선택할 수 있다. 사용자 입력 수신부(190)는 사용자가 선택한 비지도 학습 기반의 인공지능 알고리즘을 이상값 탐지부(140)로 제공하고, 이상값 탐지부(140)는 사용자가 선택한 비지도 학습 기반의 인공지능 알고리즘을 적용하여 이상값을 탐지할 수 있다. According to an embodiment of the present disclosure, the user may select an AI algorithm based on unsupervised learning in consideration of the type and distribution of data. In other words, the data provider 180 displays the preprocessed column item on the user terminal (not shown), and the user considers the type and distribution of data included in the preprocessed column item displayed on the user terminal (not shown). At least one of the plurality of unsupervised learning-based AI algorithms may be selected. The user input receiving unit 190 provides the unsupervised learning-based artificial intelligence algorithm selected by the user to the outlier detecting unit 140, and the outlier detecting unit 140 provides the unsupervised learning-based artificial intelligence algorithm selected by the user. Apply to detect outliers.

본원의 일 실시예에 따르면, 이상값 탐지부(140)는 선택된 칼럼 항목에 3개 이상의 인공지능 알고리즘이 적용되는 경우, 각각의 인공지능 알고리즘을 통해 추출된 이상값 탐지 결과 및 가중치가 적용된 이상값 탐지 결과를 제공할 수 있다. 3개 이상의 인공지능 알고리즘은 서로 다른 비지도 학습 기반의 인공지능 알고리즘일 수 있다. 예를 들어, 이상값 탐지부(140)는 동일한 행 데이터에 대하여 제1 알고리즘을 이용하여 탐지된 이상값 탐지 결과(10), 제2알고리즘을 이용하여 탐지된 이상값 탐지 결과(20), 제3알고리즘을 이용하여 탐지된 이상값 탐지 결과(30) 및 제1알고리즘 내지 제3알고리즘을 이용하여 탐지된 이상값 탐지 결과를 이용하여 도출된 가중치가 적용된 이상값 탐지 결과(40)를 제공할 수 있다. According to an exemplary embodiment of the present disclosure, when three or more artificial intelligence algorithms are applied to the selected column item, the abnormality detection unit 140 may apply the abnormality detection result and the weighted outlier value extracted through each artificial intelligence algorithm. The detection result can be provided. The three or more artificial intelligence algorithms may be artificial intelligence algorithms based on different unsupervised learning. For example, the outlier detection unit 140 may detect the outlier detection result 10 detected using the first algorithm on the same row data, the outlier detection result 20 detected using the second algorithm, and The outlier detection result 30 detected using the third algorithm and the outlier detection result 40 to which the weight is derived using the outlier detection result detected using the first to third algorithms can be provided. have.

예시적으로 도 5를 참조하면, 제1알고리즘 칼럼 항목(10, Agthm1)에 포함된 데이터는 제1 인공지능 알고리즘에 적용하여 탐지된 이상값 결과일 수 있다. 달리 말해, 이상값 탐지부(140)는 선택된 복수의 칼럼 항목에 포함된 데이터를 제1 인공지능 알고리즘에 적용하여 이상값을 탐지하고, 제1알고리즘 칼럼 항목 (10, Agthm1)과 같은 이상값 결과를 도출해낼 수 있다. For example, referring to FIG. 5, the data included in the first algorithm column item 10 (Agthm1) may be an outlier result detected by applying the first AI algorithm. In other words, the outlier detection unit 140 detects outliers by applying data included in the selected plurality of column items to the first AI algorithm, and results outliers such as the first algorithm column item (10, Agthm1). Can be derived.

또한, 제2알고리즘 칼럼 항목 (20, Agthm2)에 포함된 데이터는 제2 인공지능 알고리즘에 적용하여 탐지된 이상값 결과일 수 있다. 달리 말해, 이상값 탐지부(140)는 선택된 복수의 칼럼 항목에 포함된 데이터를 제2 인공지능 알고리즘에 적용하여 이상값을 탐지하고, 제2알고리즘 칼럼 항목 (20, Agthm2)과 같은 이상값 결과를 도출해낼 수 있다. In addition, the data included in the second algorithm column item 20 (Agthm2) may be an outlier result detected by applying to the second artificial intelligence algorithm. In other words, the outlier detection unit 140 detects outliers by applying data included in the plurality of selected column items to the second artificial intelligence algorithm, and results outliers such as the second algorithm column item (20, Agthm2). Can be derived.

또한, 제3알고리즘 칼럼 항목 (30, Agthm3)에 포함된 데이터는 제3 인공지능 알고리즘에 적용하여 탐지된 이상값 결과일 수 있다. 달리 말해, 이상값 탐지부(140)는 선택된 복수의 칼럼 항목에 포함된 데이터를 제3 인공지능 알고리즘에 적용하여 이상값을 탐지하고, 제3알고리즘 칼럼 항목 (30, Agthm3)과 같은 이상값 결과를 도출해낼 수 있다. In addition, the data included in the third algorithm column item (30, Agthm3) may be an outlier result detected by applying to the third artificial intelligence algorithm. In other words, the outlier detection unit 140 detects outliers by applying data included in the plurality of selected column items to the third artificial intelligence algorithm, and results outliers such as the third algorithm column item (30, Agthm3). Can be derived.

또한, 가중치 칼럼 항목(40, Weighted Outlier)은 사용된 알고리즘의 결과(제1알고리즘 칼럼 항목(10, Agthm1) 내지 제3알고리즘 칼럼 항목 (30, Agthm3)을 이용하여 도출된 가중치가 적용된 이상값 탐지 결과일 수 있다.In addition, the weighted outlier detects the weighted outlier value derived using the result of the algorithm used (first algorithm column item 10, Agthm1) to third algorithm column item 30, Agthm3. May be the result.

가중치 칼럼 항목의 결과 값은 도 6, [식1] 및 [식2]를 참조하여 설명하고자 한다. The result value of the weight column item will be described with reference to FIG. 6, [Equation 1] and [Equation 2].

일예로, 도 5를 참조하면, 이상값 탐지부(140)는 가중치가 적용된 이상값 탐지 결과(40)를 0과 1 사이의 값으로 제공할 수 있다. 이상값 탐지부(140)는 0에 가까울수록 정상값이라고 판단할 수 있으며, 1에 가까울수록 이상값으로 판단할 수 있다. For example, referring to FIG. 5, the outlier detection unit 140 may provide an outlier detection result 40 to which a weight is applied as a value between 0 and 1. FIG. The abnormality detection unit 140 may determine that the value is closer to 0, the normal value, and the closer to 1, the more abnormal value may be determined.

예시적으로 도 5를 참조하면, 노란색, 흰색, 검은색으로 각각의 알고리즘의 이상값 탐지 결과가 표시되어 있다. 노란색의 경우 알고리즘(비지도 학습 기반의 인공지능 알고리즘)을 3개를 사용하였을 때, 두 알고리즘이 같은 결과를 낸 값이고, 흰색의 경우 본인 혼자만 다른 값을 가졌을 때의 경우이고, 검은색의 경우, 3가지 알고리즘을 모두가 동일한 결과값일 경우를 나타낸 값이다. For example, referring to FIG. 5, an outlier detection result of each algorithm is displayed in yellow, white, and black. In the case of yellow, when three algorithms (AI algorithms based on unsupervised learning) are used, the two algorithms produce the same result. In the case of white, only when the user alone has a different value, and in the case of black, In this case, all three algorithms show the same result.

이상값 탐지부(140)는 복수의 알고리즘 결과값(제1알고리즘 내지 제3알고리즘의 결과값)을 이용하여 도 6과 같은 파생변수 도표를 생성할 수 있다. 일예로, 도 6은 도 5의 결과를 이용하여 가중치를 계산하기 위한 파생 변수 도표이다. 도 6안의 값은 알고리즘 각각의 결과에 대한 경우의 수이다.The outlier detection unit 140 may generate a derivative table as shown in FIG. 6 by using a plurality of algorithm result values (the result values of the first to third algorithms). As an example, FIG. 6 is a derivative table for calculating weights using the results of FIG. 5. The value in FIG. 6 is the number of cases for each result of the algorithm.

도 6을 참조하면 행에는 개수(2개, 1개)가 나오고, 열에는 도 5에 선택된 알고리즘(제1알고리즘 내지 제3알고리즘)이 표시되어 있다. 그리고 도 6안의 값은 각 경우에 대한 개수다. 이 값이 의미하는 것은 도 5의 세 알고리즘이 모두 같은 결과를 낸 데이터 셋을 제외(검정색의 경우를 제외)하고, 알고리즘 간의 결과가 엇갈렸을 때 각각의 개수를 가리킨다. Referring to FIG. 6, the number (two and one) is shown in a row, and the algorithm (first to third algorithms) selected in FIG. 5 is displayed. And the value in FIG. 6 is the number for each case. What this value means is that all three algorithms of FIG. 5 exclude the data set that produced the same result (except for black), and indicate the number of each when the results between algorithms are staggered.

예를 들어, 알고리즘 1과 알고리즘 2의 결과는 1이고 알고리즘 3의 결과가 0인 경우, 알고리즘 1과 알고리즘 2의 2개에 해당하는 경우의 수는 한 개씩이 추가되고, 알고리즘 3의 1개에 해당하는 경우의 수를 하나씩 추가하여 도 6과 같은 파생 변수 도표를 생성할 수 있다. For example, if the result of algorithm 1 and algorithm 2 is 1 and the result of algorithm 3 is 0, the number of cases corresponding to two of algorithm 1 and algorithm 2 is added one by one, and one of algorithm 3 is added. Derived variable diagrams as shown in FIG. 6 may be generated by adding the number of the corresponding cases one by one.

달리 말해, 제1알고리즘(Agthm1)의 2개에 해당하는 18개는, 제1알고리즘(Agthm1)을 기준으로 제1알고리즘(Agthm1)과 다른 알고리즘(제2알고리즘 또는 제3알고리즘)이 같은 값을 가지고 있는 경우의 숫자이다. 또한, 제1알고리즘(Agthm1)의 2개에 해당하는 7개는, 제1알고리즘(Agthm1)을 기준으로, 제1알고리즘(Agthm1)이 다른 알고리즘(제2알고리즘 및 제3알고리즘)과 다른 값을 가지고 있는 경우의 숫자이다. 동일한 방법으로 제2알고리즘(Agthm2) 및 제3알고리즘(Agthm3)의 경우의 숫자들이 각각 생성될 수 있다.In other words, 18 corresponding to two of the first algorithm Agthm1 have the same value as that of the first algorithm Agthm1 and another algorithm (the second algorithm or the third algorithm) based on the first algorithm Agthm1. This is the number if you have it. In addition, seven corresponding to two of the first algorithm Agthm1 have a value different from that of the other algorithms (the second algorithm and the third algorithm) based on the first algorithm Agthm1. This is the number if you have it. In the same manner, numbers in the case of the second algorithm Agthm2 and the third algorithm Agthm3 may be generated, respectively.

이상값 탐지부(140)는 도 6에 도시된 파생 변수 도표의 결과 값을 이용하여 각 알고리즘 별 가중치 값을 계산하고, 도 5의 알고리즘 별 결과값에 대입하고 합산하여 도 5의 마지막 열에 해당하는 가중치 칼럼 항목(40)에 포함된 결과값을 도출할 수 있다. The outlier detection unit 140 calculates a weight value for each algorithm by using the result value of the derivative variable diagram shown in FIG. 6, substitutes and sums the result value for each algorithm of FIG. 5, and corresponds to the last column of FIG. 5. A result value included in the weight column item 40 may be derived.

본원의 일 실시예에 따르면, 이상값 탐지부(140)는 알고리즘 1(Agthm1)일 때, 자신을 포함하는 다른 알고리즘이 같은 값을 가지고 있는 데이터 로우가 18개이고, 자신만이 다른 두 알고리즘과 다른 값을 가지고 있는 데이터 로우가 7개로 결과값을 도출할 수 있다. 또한, 알고리즘 2(Agthm2) 일 때, 자신을 포함한 다른 알고리즘이 같은 값을 가지고 있는 데이터 로우가 15개이고, 자신만이 다른 두 알고리즘과 다른 값을 가지고 있는 데이터 로우가 10개로 결과값을 도출할 수 있다. 또한, 알고리즘 3(Agthm3) 일 때, 자신을 포함한 다른 알고리즘이 같은 값을 가지고 있는 데이터 로우가 17개이고, 자신만이 다른 두 알고리즘과 다른 값을 가지고 있는 데이터 로우가 8개로 결과값을 도출할 수 있다. 이를 바탕으로 이상값 탐지부(140)도 6과 같은 파생변수를 생성할 수 있다. (도6참조)According to the exemplary embodiment of the present application, when the outlier detection unit 140 is Algorithm 1 (Agthm1), there are 18 data rows in which another algorithm including itself has the same value, and only the other algorithm is different from the other two algorithms. You can derive the result with seven data rows with values. Also, in Algorithm 2 (Agthm2), it is possible to derive the result with 15 data rows with different algorithms including itself, and 10 data rows with different values from the other algorithms. have. Also, in algorithm 3 (Agthm3), the result value can be derived from 17 data rows with different algorithms including themselves, and 8 data rows with different values from only two other algorithms. have. Based on this, the outlier detection unit 140 may also generate a derivative variable as shown in FIG. 6. (See Fig. 6)

각 행 데이터에 대한 가중치가 적용된 이상값 탐지 결과는 [식1]과 같이 표현될 수 있다. The outlier detection result to which the weight for each row data is applied may be expressed as shown in [Equation 1].

[식1][Equation 1]

Figure 112019041763072-pat00002
Figure 112019041763072-pat00002

여기서,

Figure 112019041763072-pat00003
는 알고리즘 k에 따른 결과의 가중치이고, k는 알고리즘의 식별자,
Figure 112019041763072-pat00004
는 알고리즘 n(또는 k, 각 알고리즘)의 결과 값(1 또는 0)일 수 있다. n은 이상값 탐지부(140)에서 전처리된 칼럼 항목에 포함된 데이터를 인공지능 알고리즘에 적용하여 이상값을 탐지할 경우, 선택된 알고리즘의 총 개수일 수 있다. 가중치는 인공지능 알고리즘이 3개 이상 사용될 경우, 적용되는 값이므로, 여기서의 n은 자연수 3 이상부터 시작될 수 있다. here,
Figure 112019041763072-pat00003
Is the weight of the result according to algorithm k, k is the identifier of the algorithm,
Figure 112019041763072-pat00004
May be the result value (1 or 0) of algorithm n (or k, each algorithm). n may be the total number of selected algorithms when the abnormal value is detected by applying the data included in the column item preprocessed by the abnormal value detector 140 to the artificial intelligence algorithm. Since the weight is a value that is applied when three or more AI algorithms are used, n may be started from a natural number 3 or more.

가중치

Figure 112019041763072-pat00005
(
Figure 112019041763072-pat00006
)는 [식2]와 같이 표현될 수 있다. weight
Figure 112019041763072-pat00005
(
Figure 112019041763072-pat00006
) Can be expressed as shown in [Equation 2].

[식2][Equation 2]

Figure 112019041763072-pat00007
Figure 112019041763072-pat00007

여기서,

Figure 112019041763072-pat00008
는(또는
Figure 112019041763072-pat00009
는) 알고리즘 i(또는k)의 j인 경우의 숫자이다. 경우의 숫자는 알고리즘 1에서 자신을 포함하는 다른 알고리즘이 같은 값을 가지고 있을 경우의 개수(도 6에서의 2개), 자신만이 다른 두 알고리즘과 다른 값을 가지고 있을 경우의 개수(도 6에서의 1개)를 의미할 수 있다. 달리 말해, i는 제1알고리즘, 제2 알고리즘 제 3 알고리즘 각각을 의미하고, j는 경우의 수인 1개, 2개를 의미할 수 있다. here,
Figure 112019041763072-pat00008
Is (or
Figure 112019041763072-pat00009
Is the number in the case of j of the algorithm i (or k). The number of cases is the number of cases where the other algorithm including itself in Algorithm 1 has the same value (two in Fig. 6), and the number of cases when only one of them has a different value from the other two algorithms (in Fig. 6). Can mean one). In other words, i may mean each of the first algorithm and the second algorithm and the third algorithm, and j may mean one or two, which is the number of cases.

이때,

Figure 112019041763072-pat00010
의 n은 알고리즘 i에 해당하는 n일 수 있다(알고리즘의 식별자). 달리 말해,
Figure 112019041763072-pat00011
은 제1알고리즘의 결과값에 대한 가중치 값일 수 있다. 또한,
Figure 112019041763072-pat00012
은 제2알고리즘의 결과값에 대한 가중치 값일 수 있다. 또한,
Figure 112019041763072-pat00013
은 제3알고리즘의 결과값에 대한 가중치 값일 수 있다. At this time,
Figure 112019041763072-pat00010
N may be n corresponding to algorithm i (identifier of algorithm). In other words,
Figure 112019041763072-pat00011
May be a weight value for the result of the first algorithm. Also,
Figure 112019041763072-pat00012
May be a weight value for the result of the second algorithm. Also,
Figure 112019041763072-pat00013
May be a weight value for the result of the third algorithm.

또한,

Figure 112019041763072-pat00014
의 n은 이상값 탐지부(140)에서 전처리된 칼럼 항목에 포함된 데이터를 인공지능 알고리즘에 적용하여 이상값을 탐지할 경우, 선택된 알고리즘의 총 개수일 수 있다. 달리 말해, 앞서 설명된 표에서 제1 알고리즘 내지 3알고리즘 즉 3개에 기반하여 생성된 파생변수의 열에 해당하는 수가
Figure 112019041763072-pat00015
의 n에 해당할 값일 수 있다. Also,
Figure 112019041763072-pat00014
N may be the total number of selected algorithms when the abnormal value is detected by applying the data included in the column item preprocessed by the abnormal value detector 140 to the artificial intelligence algorithm. In other words, in the above-described table, the number corresponding to the columns of the derived variables generated based on the first to third algorithms, or three
Figure 112019041763072-pat00015
It may be a value corresponding to n of.

또한,

Figure 112019041763072-pat00016
의 n은
Figure 112019041763072-pat00017
의 n과 동일한 알고리즘 i에 해당하는 n 일 수 있다. 달리 말해, 제1알고리즘에 대한 가중치 값을 도출하는 경우, 해당
Figure 112019041763072-pat00018
의 n은 1일 수 있다. 또한, 제2알고리즘에 대한 가중치 값을 도출하는 경우, 해당
Figure 112019041763072-pat00019
의 n은 2일 수 있다. 또한, 제3알고리즘에 대한 가중치 값을 도출하는 경우, 해당
Figure 112019041763072-pat00020
의 n은 3일 수 있다.Also,
Figure 112019041763072-pat00016
N is
Figure 112019041763072-pat00017
N may correspond to the same algorithm i as n. In other words, when deriving a weight value for the first algorithm,
Figure 112019041763072-pat00018
N may be 1. In addition, when deriving a weight value for the second algorithm,
Figure 112019041763072-pat00019
N may be 2. In addition, when a weight value for the third algorithm is derived, the corresponding
Figure 112019041763072-pat00020
N may be 3.

예시적으로 도 6, [식1] 및 [식2]를 참고하여 가중치가 적용된 이상값 탐지 결과를 설명하자면, 알고리즘 1의 2개인 경우의 숫자인

Figure 112019041763072-pat00021
는 18이다. 앞서 설명된 방식과 동일하게 3개의 알고리즘 각각 대하여 가중치가 적용된 이상값 탐지 결과에 대한 식을 순차적으로 계산하면
Figure 112019041763072-pat00022
,
Figure 112019041763072-pat00023
,
Figure 112019041763072-pat00024
이다.For example, referring to FIG. 6, [Equation 1] and [Equation 2], the weighted outlier detection result is described.
Figure 112019041763072-pat00021
Is 18. In the same manner as described above, the equations for the weighted outlier detection results are sequentially calculated for each of the three algorithms.
Figure 112019041763072-pat00022
,
Figure 112019041763072-pat00023
,
Figure 112019041763072-pat00024
to be.

[식2]에 해당 결과를 대입하여 W1을 연산하면,

Figure 112019041763072-pat00025
로 표현될 수 있다. Substituting the result in [Equation 2] and calculating W 1 ,
Figure 112019041763072-pat00025
It can be expressed as.

또한,

Figure 112019041763072-pat00026
로 표현될 수 있다. Also,
Figure 112019041763072-pat00026
It can be expressed as.

또한,

Figure 112019041763072-pat00027
로 표현될 수 있다.Also,
Figure 112019041763072-pat00027
It can be expressed as.

즉, [식2]를 통해

Figure 112019041763072-pat00028
와 같은 결과값을 도출할 수 있다. That is, through [Equation 2]
Figure 112019041763072-pat00028
We can derive the same result.

본원의 일 실시예에 따르면, 알고리즘 1의 결과가 1, 알고리즘 2의 결과가 0, 알고리즘 3의 결과가 0인 경우, 이상값 탐지부(140)는 앞서 계산된 가중치 결과를 이용하여 [식1]에 대응하면

Figure 112019041763072-pat00029
으로 계산될 수 있다. According to the exemplary embodiment of the present disclosure, when the result of Algorithm 1 is 1, the Algorithm 2 is 0, and the Algorithm 3 is 0, the outlier detection unit 140 uses the above-described weighted result to calculate [Equation 1]. ]
Figure 112019041763072-pat00029
It can be calculated as

도 6의 결과를 이용하여 각 알고리즘 별 가중치 값을 계산하고, 도 5의 알고리즘 별 결과값에 대입하여 합산하면 도 5의 마지막 열의 결과값인 가중치 칼럼 항목(40)과 같은 결과값이 도출되는 것을 확인할 수 있다. By using the results of FIG. 6 to calculate the weight values for each algorithm and substituting the result values for each algorithm in FIG. 5, the resultant values such as the weight column item 40 which is the result of the last column of FIG. 5 are derived. You can check it.

데이터 결과부(150)는 이상값 탐지 결과에 기초하여 라벨링 정보를 생성하고, 칼럼 항목에 포함된 데이터와 라벨링 정보를 연계하여 데이터 셋을 저장할 수 있다. 데이터 결과부(150)에서 생성한 데이터 셋은 데이터와 라벨링 정보가 연계된 데이터 셋으로서, 제1데이터 셋(200)과는 다른 신규 데이터 셋(300)이다. 데이터 결과부(150)는 이상값 탐지 모델 생성부(160)에서 지도학습 기반의 인공지능 알고리즘을 구축하기에 필요한 데이터(data), 레이블(label) 형태로 데이터 셋을 재생성할 수 있다. 데이터 결과부(150)는 칼럼 항목에 포함된 데이터와 라벨링 정보를 연계하여 생성된 데이터 셋을 데이터 베이스(110)에 저장할 수 있다. The data result unit 150 may generate labeling information based on the outlier detection result and store the data set in association with the labeling information and the data included in the column item. The data set generated by the data result unit 150 is a data set associated with data and labeling information, and is a new data set 300 different from the first data set 200. The data result unit 150 may regenerate the data set in the form of data and label required to build an AI algorithm based on the supervised learning in the outlier detection model generator 160. The data result unit 150 may store the data set generated by linking the data included in the column item and the labeling information in the database 110.

또한, 데이터 결과부(160)는 이상값 탐지에 사용한 전처리가 수행된 복수의 수치형 칼럼 데이터와 사용자의 입력 정보에 기반하여 수정된 이상값 탐지 결과를 신규 데이터 셋(300)을 생성하여 저장할 수 있다. In addition, the data result unit 160 may generate and store a new data set 300 based on a plurality of numerical column data that has been preprocessed for outlier detection and a modified outlier detection result based on user input information. have.

다만, 이상값 탐지부(140)에서 복수개의 이상값 탐지 알고리즘을 사용하였을 경우, 각각의 결과를 모두 라벨화하는 것이 아니라 각 데이터 당 하나의 값을 라벨로 결정할 수 있다. 또한, 데이터 결과부(150)는 데이터 베이스(110)에 저장한 신규 데이터 셋(300)을 다시 불러와 수정을 요청할 수 있다. 예를 들어, 데이터 결과부(150)는 데이터 베이스(110)에 저장된 신규 데이터 셋(300)을 사용자 단말(미도시)에 표시하고, 사용자의 입력 정보에 기반하여 신규 데이터 셋(300)을 수정할 수 있다. However, when the outlier detection unit 140 uses a plurality of outlier detection algorithms, instead of labeling each result, one value for each data may be determined as a label. In addition, the data result unit 150 may request a modification by reloading the new data set 300 stored in the database 110. For example, the data result unit 150 displays the new data set 300 stored in the database 110 on a user terminal (not shown), and modifies the new data set 300 based on user input information. Can be.

또한, 데이터 결과부(150)는 가중치가 적용된 이상값 탐지 결과가 미리 설정된 기준 값 이상인 경우, 이상값으로 결정할 수 있다. 반면, 데이터 결과부(150)는 미리 설정된 이상값 이하인 경우, 정상값으로 결정하여 라벨링 정보를 생성할 수 있다. 데이터 결과부(150)는 칼럼 항목에 포함된 데이터와 라벨링 정보를 연계하여 데이터 셋을 저장할 수 있다. In addition, the data result unit 150 may determine the abnormal value when the abnormal value detection result to which the weight is applied is equal to or greater than a preset reference value. On the other hand, if the data result unit 150 is less than or equal to a preset abnormal value, it may determine the normal value to generate the labeling information. The data result unit 150 may store the data set in association with the data included in the column item and the labeling information.

예시적으로, 도 5와 도 7을 참조하면, 도 5와 달리 도 7에는 알고리즘 결과들이 모두 저장되는 것이 아닌, 라벨링 된 하나의 값(50)이 저장되어 있음 확인할 수 있다. 이 값은 도 5의 결과 중 미리 설정된 값 이상이라고 가정한 경우의 결과값일 수 있다. 여기서, 도 5의 결과는, 가중치 칼럼 항목(40, Weighted Outlier) 을 의미할 수 있다. For example, referring to FIGS. 5 and 7, unlike FIG. 5, not all algorithm results are stored in FIG. 7, but one labeled value 50 is stored. This value may be a result value when it is assumed to be equal to or greater than a preset value among the results of FIG. 5. Here, the result of FIG. 5 may mean a weighted column item 40.

달리 말해, 데이터 결과부(160)는 미리 설정된 기준값(예를 들어, 0.33) 이상이라고 판단되는 경우, 이상값으로 결정하고, 미리 설정된 기준값(예를 들어, 0.33) 이하라고 판단되는 경우, 정상값으로 결정하여, 해당 칼럼 항목에 포함된 데이터와 라벨링 정보를 연계하여 데이터 셋을 저장할 수 있다. 이때, 미리 설정된 기준값은 사용자가 임의로 지정한 값일 수 있으며, 미리 설정된 기준값은 사용자의 편의에 따라 변경 및 수정 가능할 수 있으나, 이에 한정되는 것은 아니다. In other words, when it is determined that the data result unit 160 is equal to or greater than the preset reference value (for example, 0.33), the data result unit 160 determines the abnormal value, and when it is determined to be less than or equal to the preset reference value (for example, 0.33), The data set may be stored by linking the data included in the column item with the labeling information. In this case, the preset reference value may be a value arbitrarily designated by the user, and the preset reference value may be changed and modified according to the user's convenience, but is not limited thereto.

데이터 결과부(150)는 사용자 입력 수신부(190)에서 제공받은 이상값 탐지 입력 정보에 기반하여 이상값 탐지 결과를 수정할 수 있다. 달리 말해, 데이터 결과부(150)는 데이터 제공부(180)가 사용자 단말(미도시)로 제공하고, 사용자 입력 수신부(190)가 수신한 이상값 탐지 결과의 수정 입력 정보에 기반하여 이상값 탐지 결과를 수정할 수 있다. The data result unit 150 may modify the outlier detection result based on the outlier detection input information provided by the user input receiver 190. In other words, the data result unit 150 detects the abnormal value based on the corrected input information of the abnormal value detection result provided by the data provider 180 to the user terminal (not shown) and received by the user input receiver 190. You can modify the result.

데이터 제공부(180)는 이상값 탐지부(140)의 결과에 기초하여, 이상값 탐지 결과를 사용자 단말(미도시)로 제공하고, 사용자는 해당 이상값 탐지 결과를 확인하고, 사용자 입력 수신부(190)는 수정이 필요한 항목에 대응하여 변경된 수정 정보를 데이터 결과부(150)로 제공할 수 있다. 데이터 결과부(150)는 사용자 입력 정보에 기반하여, 최종 결정된 신규 데이터 셋(300)을 데이터 베이스(110)에 저장할 수 있다. The data providing unit 180 provides the abnormal value detection result to the user terminal (not shown) based on the result of the abnormal value detection unit 140, and the user checks the corresponding abnormal value detection result, and the user input receiving unit ( 190 may provide the modified result to the data result unit 150 corresponding to the item that needs to be corrected. The data result unit 150 may store the finally determined new data set 300 in the database 110 based on the user input information.

데이터 결과부(150)는 사용자의 확인을 통하여, 이상값이 아니지만 이상값으로 탐지된 경우, 이상값이지만 정상값으로 판단된 경우 등 이상값 탐지 결과를 수정할 수 있으며, 보다 정확한 신규 데이터 셋(300)을 생성할 수 있다. The data result unit 150 may correct an abnormality detection result such as an abnormal value but a normal value when it is detected as an abnormal value but not an abnormal value through the user's confirmation. ) Can be created.

본원의 일 실시예에 따르면, 이상값 탐지 모델 생성부(160)는 라벨링 정보와 연계되어 저장된 데이터를 이용하여 이상값 탐지 모델을 구축할 수 있다. 여기서, 이상값 탐지 모델은 지도학습 기반의 인공지능 알고리즘일 수 있다. 지도 학습(Supervised Learning)은 데이터에 대한 레이블(Label)-명시적인 정답-이 주어진 상태에서 컴퓨터를 학습시키는 방법이다. 즉, 데이터(data), 레이블(label) 형태로 학습을 진행하는 방법이다. According to one embodiment of the present application, the outlier detection model generator 160 may build an outlier detection model using data stored in association with labeling information. Here, the outlier detection model may be an AI algorithm based on supervised learning. Supervised Learning is a method of learning a computer with a label for the data—an explicit answer. That is, it is a method of learning in the form of data and label.

또한, 이상값 탐지 모델 생성부(160)는 신규 데이터가 입력될 경우, 생성된 이상값 탐지 모델을 재학습시킬 수 있다. 이상값 탐지 모델 생성부(160)는 데이터의 종류와 분포를 고려하여 복수의 지도학습 기반의 인공지능 알고리즘 중 정확성이 높은 알고리즘을 선택하여 이상값 탐지 모델을 구축할 수 있다. In addition, the outlier detection model generation unit 160 may relearn the generated outlier detection model when new data is input. The outlier detection model generation unit 160 may construct an outlier detection model by selecting an algorithm having high accuracy from among a plurality of supervised learning-based AI algorithms in consideration of the type and distribution of data.

이상값 탐지 모델 생성부(160)는 데이터 결과부(150)에서 저장한 데이터를 기초로 이상값 탐지 모델을 구축하기 때문에, 추가적인 전처리 과정과 라벨링 과정이 필요하지 않다. Since the outlier detection model generator 160 builds the outlier detection model based on the data stored in the data result unit 150, no additional preprocessing and labeling processes are required.

데이터 예측부(170)는 이상값 탐지 모델을 이용하여 신규 데이터의 이상값 여부를 예측할 수 있다. 데이터 예측부(170)는 이상값 탐지 모델 생성부(160)에서 구축한 이상값 탐지 모델을 이용하여, 신규 데이터가 입력될 경우, 이상값 여부를 예측하고 판단할 수 있다. 신규 데이터는 기존에 데이터 베이스(110)에 저장되어 있지 않은 신규 데이터일 수 있다. The data predictor 170 may predict whether the new data has an abnormal value by using the abnormal value detection model. The data predictor 170 may predict and determine whether an abnormal value is input when new data is input using the abnormal value detection model built by the abnormal value detection model generator 160. The new data may be new data not previously stored in the database 110.

신규 데이터가 입력되는 경우, 데이터 선택부(120)는 이상값 탐지를 수행할 수치형 데이터만을 선택할 수 있다. 데이터 전처리부(130)는 신규 데이터가 수신(입력)되는 경우, 수치형 데이터의 결측치를 전처리 할 수 있다. When new data is input, the data selector 120 may select only numerical data to perform outlier detection. When new data is received (input), the data preprocessor 130 may preprocess missing values of the numerical data.

데이터 제공부(180)는 사용자 단말(미도시)로 이상값 탐지 입력 정보와 관련된 선택 항목을 제공할 수 있다. 사용자는 사용자 단말(미도시)에 표시된 이상값 탐지 입력 정보와 관련된 선택 항목을 확인하고, 수정 사항을 선택할 수 있다. 이상값 탐지 입력 정보와 관련된 선택 항목은 데이터 선택부(120)의 요청에 따른, 제1 데이터 셋의 결정 및 복수의 칼럼 항목을 선택하기 위한 선택항목을 포함할 수 있다. 또한, 이상값 탐지 입력 정보와 관련된 선택 항목은 데이터 전처리부(130)의 요청에 따른, 결측치를 전처리하기 위한 선택 항목을 포함할 수 있다. 또한, 이상값 탐지 입력 정보와 관련된 선택 항목은 이상값 탐지부(140)의 요청에 따른 인공지능 알고리즘 선택 항목을 포함할 수 있다. 또한, 이상값 탐지 입력 정보와 관련된 선택 항목은 데이터 결과부(150)의 요청에 따른, 이상값 탐지 결과의 확인 및 수정과 관련된 선택 항목을 포함할 수 있다. The data provider 180 may provide a selection item related to the outlier detection input information to a user terminal (not shown). The user may check a selection item related to the outlier detection input information displayed on the user terminal (not shown) and select a correction item. The selection items related to the outlier detection input information may include selection items for determining the first data set and selecting a plurality of column items according to a request of the data selection unit 120. In addition, the selection item related to the outlier detection input information may include a selection item for preprocessing the missing value according to a request of the data preprocessor 130. In addition, the selection item related to the outlier detection input information may include an AI algorithm selection item according to the request of the outlier detection unit 140. In addition, the selection item related to the outlier detection input information may include a selection item related to checking and correcting the outlier detection result according to a request of the data result unit 150.

일예로, 데이터 선택부(120)에서 데이터 제공부(180)를 통해 사용자 단말(미도시)로 제공한 이상값 탐지 입력 정보와 관련된 선택 항목은 복수의 데이터 셋 중 이상값 탐지를 수행할 제1데이터 셋을 결정하기 위한 항목일 수 있다. 또한, 데이터 제공부(180)는 데이터 선택부(120)의 요청에 따라, 사용자로부터 제 1 데이터 셋의 칼럼 항목 중 이상값 탐지를 수행할 복수의 칼럼 항목의 선택 정보를 제공받기 위한 선택 항목을 사용자 단말(미도시)로 제공할 수 있다. For example, the selection item related to the outlier detection input information provided by the data selector 120 to the user terminal (not shown) through the data provider 180 may be configured to perform outlier detection among a plurality of data sets. It may be an item for determining a data set. In addition, the data providing unit 180 selects a selection item for receiving selection information of a plurality of column items to perform outlier detection among column items of the first data set according to a request of the data selecting unit 120. It may be provided to a user terminal (not shown).

사용자 입력 수신부(190)는 사용자 단말(미도시)로부터 데이터 이상값 탐지 입력 정보(이상값 탐지 입력 정보와 관련된 선택 항목)를 수신할 수 있다. 달리 말해, 사용자 입력 수신부(190)는 사용자 단말(미도시)로부터 사용자가 선택한 데이터 이상값 탐지 입력 정보를 수신할 수 있다. 사용자 입력 수신부(190)는 이상값 탐지 입력 정보와 관련된 선택 항목을 요청한 각 유닛(부)에 해당 정보를 제공할 수 있다. The user input receiver 190 may receive data outlier detection input information (selection item related to outlier detection input information) from a user terminal (not shown). In other words, the user input receiver 190 may receive data outlier detection input information selected by a user from a user terminal (not shown). The user input receiver 190 may provide corresponding information to each unit (unit) that has requested a selection item related to the outlier detection input information.

본원의 일 실시예에 따르면, 이상값 탐지 프로세스 자동화 장치(100)는 사용자 단말(미도시)로 이상값 탐지 프로세스 자동화 메뉴를 제공할 수 있다. 예를 들어, 이상값 탐지 프로세스 자동화 장치(100)가 제공하는 어플리케이션 프로그램을 사용자 단말(미도시)이 다운로드하여 설치하고, 설치된 어플리케이션을 통해 이상값 탐지 프로세스 자동화 메뉴가 제공될 수 있다.According to one embodiment of the present application, the outlier detection process automation device 100 may provide an outlier detection process automation menu to a user terminal (not shown). For example, a user terminal (not shown) downloads and installs an application program provided by the abnormal value detection process automation device 100, and an abnormal value detection process automation menu may be provided through the installed application.

이상값 탐지 프로세스 자동화 장치(100)는 사용자 단말(미도시)과 데이터, 콘텐츠, 각종 통신 신호를 네트워크를 통해 송수신하고, 데이터 저장 및 처리의 기능을 가지는 모든 종류의 서버, 단말, 또는 디바이스를 포함할 수 있다.The abnormality detection process automation apparatus 100 transmits and receives data, content, and various communication signals with a user terminal (not shown) through a network, and includes all kinds of servers, terminals, or devices having functions of data storage and processing. can do.

사용자 단말(미도시)은 네트워크를 통해 이상값 탐지 프로세스 자동화 장치(100)와 연동되는 디바이스로서, 예를 들면, 스마트폰(Smartphone), 스마트패드(Smart Pad), 태블릿 PC, 웨어러블 디바이스 등과 PCS(Personal Communication System), GSM(Global System for Mobile communication), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말기 같은 모든 종류의 무선 통신 장치 및 데스크탑 컴퓨터, 스마트 TV와 같은 고정용 단말기일 수도 있다. A user terminal (not shown) is a device interworking with the outlier detection process automation device 100 through a network. For example, a smartphone, a smart pad, a tablet PC, a wearable device, and the like are connected to the PCS (not shown). Personal Communication System (GSM), Global System for Mobile Communication (GSM), Personal Digital Cellular (PDC), Personal Handyphone System (PHS), Personal Digital Assistant (PDA), International Mobile Telecommunication (IMT) -2000, Code Division Multiple Access ) -2000, W-Code Division Multiple Access (W-CDMA), Wireless Broadband Internet (WBRO) terminal, and all kinds of fixed terminals such as desktop computers and smart TVs.

이상값 탐지 프로세스 자동화 장치(100) 및 사용자 단말(미도시) 간의 정보 공유를 위한 네트워크의 일 예로는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5G 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 유무선 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, Wifi 네트워크, NFC(Near Field Communication) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함될 수 있으며, 이에 한정된 것은 아니다.An example of a network for information sharing between the apparatus 100 for outlier detection process and the user terminal (not shown) is a 3rd generation partnership project (3GPP) network, a long term evolution (LTE) network, a 5G network, and a world interoperability (WIMAX). for Microwave Access network, wired and wireless Internet, Local Area Network, Wireless Local Area Network, Wide Area Network, Personal Area Network, Bluetooth Network, Wifi Network , NFC (Near Field Communication) network, satellite broadcasting network, analog broadcasting network, DMB (Digital Multimedia Broadcasting) network, etc., but is not limited thereto.

이하에서는 상기에 자세히 설명된 내용을 기반으로, 본원의 동작 흐름을 간단히 살펴보기로 한다.Hereinafter, based on the details described above, the operation flow of the present application will be briefly described.

도 8은 본원의 일 실시예에 따른 이상값 탐지 프로세스 자동화 방법에 대한 동작 흐름도이다.8 is an operation flowchart for a method for automating an outlier detection process according to an embodiment of the present application.

도 8에 도시된 이상값 탐지 프로세스 자동화 방법은 앞서 설명된 이상값 탐지 프로세스 자동화 장치(100)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 이상값 탐지 프로세스 자동화 장치(100)에 대하여 설명된 내용은 이상값 탐지 프로세스 자동화 방법에 대한 설명에도 동일하게 적용될 수 있다.The outlier detection process automation method illustrated in FIG. 8 may be performed by the outlier detection process automation apparatus 100 described above. Therefore, even if omitted below, the description of the outlier detection process automation device 100 may be equally applied to the description of the outlier detection process automation method.

단계 S801에서 이상값 탐지 프로세스 자동화 장치(100)는 복수의 데이터 셋을 포함하는 데이터 베이스(110)에 포함된 복수의 데이터 셋 중 이상값 탐지를 수행할 제1데이터 셋을 결정하고, 제1데이터 셋의 칼럼 항목 중 이상값 탐지를 수행할 복수의 칼럼 항목을 선택할 수 있다. In operation S801, the apparatus 100 for detecting abnormalities may determine a first data set for performing abnormality detection among a plurality of data sets included in the database 110 including a plurality of data sets, and then determine the first data set. Among the three column items, a plurality of column items for outlier detection may be selected.

단계 S802에서 이상값 탐지 프로세스 자동화 장치(100)는 선택된 복수의 칼럼 항목의 전처리를 수행할 수 있다. In operation S802, the abnormality detection process automation device 100 may perform preprocessing of the plurality of selected column items.

단계 S803에서 이상값 탐지 프로세스 자동화 장치(100)는 전처리된 칼럼 항목에 포함된 데이터를 인공지능 알고리즘에 적용하여 이상값을 탐지할 수 있다. In operation S803, the abnormality detection process automation apparatus 100 may apply the data included in the preprocessed column item to an artificial intelligence algorithm to detect the abnormality.

단계 S804에서 이상값 탐지 프로세스 자동화 장치(100)는 이상값 탐지 결과에 기초하여 라벨링 정보를 생성하고, 칼럼 항목에 포함된 데이터와 상기 라벨링 정보를 연계하여 데이터 셋을 저장할 수 있다.In operation S804, the apparatus 100 for detecting an abnormality value may generate labeling information based on the abnormality detection result, and may store the data set by linking the labeling information with data included in a column item.

단계 S805에서 이상값 탐지 프로세스 자동화 장치(100)는 라벨링 정보와 연계되어 저장된 데이터를 이용하여 이상값 탐지 모델을 구축할 수 있다. In operation S805, the abnormality detection process automation device 100 may build an abnormality detection model using data stored in association with labeling information.

도면에 도시하진 않았으나, 이상값 탐지 프로세스 자동화 장치(100)는 이상값 탐지 모델을 이용하여 신규 데이터의 이상값 여부를 예측할 수 있다. 이상값 탐지 프로세스 자동화 장치(100)는 신규 데이터가 입력되는 경우, 이상값 탐지를 수행할 수치형 데이터를 선택할 수 있다. 또한, 이상값 탐지 프로세스 자동화 장치(100)는 신규 수치형 데이터(신규 데이터)의 결측치를 전처리할 수 있다. 이상값 탐지 프로세스 자동화 장치(100)는 전처리된 신규 데이터를 이상값 탐지 모델을 이용하여 이상값 여부를 예측할 수 있다. 여기서, 이상값 탐지 모델은 라벨링 정보와 연계되어 저장된 데이터를 이용하여 구축된 이상값 탐지 모델로, 지도 학습 기반의 인공지능 알고리즘일 수 있다. Although not shown in the figure, the abnormality detection process automation apparatus 100 may predict whether or not the abnormal value of the new data using the abnormality detection model. The abnormality detection process automation device 100 may select numerical data to perform abnormality detection when new data is input. In addition, the abnormality detection process automation device 100 may preprocess missing values of the new numerical data (new data). The abnormality detection process automation apparatus 100 may predict whether or not the abnormal value is detected by using the abnormality detection model of the preprocessed new data. Here, the outlier detection model is an outlier detection model constructed using data stored in association with labeling information, and may be an AI algorithm based on supervised learning.

상술한 설명에서, 단계 S801 내지 S805는 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.In the above description, steps S801 to S805 may be further divided into additional steps or combined into fewer steps, according to an embodiment of the present disclosure. In addition, some steps may be omitted as necessary, and the order between the steps may be changed.

본원의 일 실시 예에 따른 이상값 탐지 프로세스 자동화 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method for automating an outlier detection process according to an embodiment of the present disclosure may be implemented in the form of program instructions that may be executed by various computer means and recorded in a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks. Magneto-optical media, and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

또한, 전술한 이상값 탐지 프로세스 자동화 방법은 기록 매체에 저장되는 컴퓨터에 의해 실행되는 컴퓨터 프로그램 또는 애플리케이션의 형태로도 구현될 수 있다.In addition, the above-described method for automating an outlier detection process may be implemented in the form of a computer program or an application executed by a computer stored in a recording medium.

전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The above description of the present application is intended for illustration, and it will be understood by those skilled in the art that the present invention may be easily modified in other specific forms without changing the technical spirit or essential features of the present application. Therefore, it should be understood that the embodiments described above are exemplary in all respects and not restrictive. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as distributed may be implemented in a combined form.

본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present application is indicated by the following claims rather than the above description, and it should be construed that all changes or modifications derived from the meaning and scope of the claims and their equivalents are included in the scope of the present application.

100: 이상값 탐지 프로세스 자동화 장치
110: 데이터베이스
120: 데이터 선택부
130: 데이터 전처리부
140: 이상값 탐지부
150: 데이터 결과부
160: 이상값 탐지 모델 생성부
170: 데이터 예측부
100: outlier detection process automation device
110: database
120: data selector
130: data preprocessing unit
140: outlier detection unit
150: data result section
160: outlier detection model generator
170: data prediction unit

Claims (12)

빅데이터의 이상값 탐지 프로세스 자동화 장치에 있어서,
복수의 데이터 셋을 포함하는 데이터 베이스;
상기 데이터 베이스에 포함된 복수의 데이터 셋 중 이상값 탐지를 수행할 제1데이터 셋을 결정하고, 상기 제1데이터 셋의 칼럼 항목 중 이상값 탐지를 수행할 복수의 칼럼 항목을 선택하는 데이터 선택부;
상기 데이터 선택부에서 선택된 복수의 칼럼 항목의 전처리를 수행하는 데이터 전처리부;
전처리된 칼럼 항목에 포함된 데이터를 라벨링 정보가 포함되지 않은 데이터 특성에 대응하는 비지도 학습기반 인공지능 알고리즘에 적용하여 이상값을 탐지하는 이상값 탐지부;
이상값 탐지 결과에 기초하여 라벨링 정보를 생성하고, 상기 칼럼 항목에 포함된 데이터와 상기 라벨링 정보를 연계하여 데이터 셋을 저장하는 데이터 결과부; 및
상기 칼럼 항목에 포함된 데이터와 상기 라벨링 정보를 연계하여 저장된 데이터 셋을 지도학습 기반의 인공지능 알고리즘에 적용하여 이상값 탐지 모델을 구축하는 이상값 탐지 모델 생성부;
를 포함하되,
상기 이상값 탐지부는,
선택된 칼럼 항목에 3개 이상의 인공지능 알고리즘이 적용되는 경우, 각각의 인공지능 알고리즘을 통해 추출된 이상값 탐지 결과 및 가중치가 적용된 이상값 탐지 결과를 제공하되,
상기 가중치가 적용된 이상값 탐지 결과는,
복수개가 적용된 인공지능 알고리즘을 통해 추출된 이상값 탐지 결과에 기반하여 생성된 파생 변수 도표의 결과 값을 각 알고리즘 별 결과값에 대입하여 합산한 결과이고,
상기 파생 변수 도표는,
복수의 알고리즘 중 두 개의 알고리즘의 이상값 탐지 결과 값이 동일한 경우의 개수 및 복수의 알고리즘 중 어느 하나의 알고리즘의 이상값 탐지 결과 값이 상기 어느 하나의 알고리즘과는 다른 두 개의 알고리즘의 이상값 탐지 결과 값과 다른 경우의 개수에 기반하여 생성되는 것인, 이상값 탐지 프로세스 자동화 장치.
In the apparatus for automating an outlier detection process of big data,
A database comprising a plurality of data sets;
A data selector which determines a first data set for outlier detection among a plurality of data sets included in the database and selects a plurality of column items for outlier detection among column items of the first data set. ;
A data preprocessor for preprocessing a plurality of column items selected by the data selector;
An outlier detection unit for detecting outliers by applying data included in a preprocessed column item to an unsupervised learning-based AI algorithm corresponding to a data characteristic not including labeling information;
A data result unit generating labeling information based on an outlier detection result and storing a data set in association with data included in the column item and the labeling information; And
An outlier detection model generator configured to construct an outlier detection model by applying a data set stored in association with the data included in the column item and the labeling information to an AI algorithm based on a map learning;
Including,
The outlier detection unit,
When three or more AI algorithms are applied to the selected column item, the anomaly detection results and weighted outlier detection results are extracted from each AI algorithm.
Outlier detection result to which the weight is applied,
It is the result of substituting the result value of each derived variable table based on the outlier detection result extracted through the plural AI algorithms by substituting the result value of each algorithm.
The derived variable diagram,
The number of cases where the outlier detection value of two algorithms among the plurality of algorithms is the same, and the outlier detection result of two algorithms whose value is outlier detection result of any one of the plurality of algorithms 2. An apparatus for automating an outlier detection process that is generated based on a number of cases different from a value.
제1항에 있어서,
상기 이상값 탐지 모델을 이용하여 신규 데이터의 이상값 여부를 예측하는 데이터 예측부를 더 포함하는, 이상값 탐지 프로세스 자동화 장치.
The method of claim 1,
The apparatus for automating an abnormality detection process, further comprising a data predictor configured to predict whether or not the new data has an abnormal value by using the abnormality detection model.
제1항에 있어서,
상기 데이터 선택부는,
상기 제1데이터 셋의 칼럼 항목 중 이상값 탐지를 수행할 수치형 데이터가 포함된 복수의 칼럼 항목을 선택하는 것인, 이상값 탐지 프로세스 자동화 장치.
The method of claim 1,
The data selection unit,
And selecting a plurality of column items including numerical data to perform outlier detection among the column items of the first data set.
제3항에 있어서,
상기 전처리부는,
선택된 칼럼 항목에 포함된 상기 수치형 데이터의 결측치를 전처리하는 것인, 이상값 탐지 프로세스 자동화 장치.
The method of claim 3,
The preprocessing unit,
And preprocess the missing value of the numerical data included in the selected column item.
제4항에 있어서,
상기 전처리부는,
선택된 칼럼 항목에 포함된 상기 수치형 데이터의 결측치를 최대값, 최빈값, 최소값, 중간값, 0 중 적어도 어느 하나로 치환하는 전처리를 수행하는 것인, 이상값 탐지 프로세스 자동화 장치.
The method of claim 4, wherein
The preprocessing unit,
And performing preprocessing to replace the missing value of the numerical data included in the selected column item with at least one of a maximum value, a mode value, a minimum value, a median value, and zero.
삭제delete 삭제delete 삭제delete 제1항에 있어서,
상기 가중치가 적용된 이상값 탐지 결과는, 하기 [식1]에 의해 산출되고,
[식 1]
Figure 112019083728170-pat00030

여기서,
Figure 112019083728170-pat00031
는 가중치이고,
Figure 112019083728170-pat00032
는 알고리즘 n의 결과 값인 것인, 이상값 탐지 프로세스 자동화 장치.
The method of claim 1,
The abnormal value detection result to which the weight is applied is calculated by the following [Formula 1],
[Equation 1]
Figure 112019083728170-pat00030

here,
Figure 112019083728170-pat00031
Is a weight,
Figure 112019083728170-pat00032
Is an outcome value of algorithm n.
제9항에 있어서,
상기 데이터 결과부는,
상기 가중치가 적용된 이상값 탐지 결과가 미리 설정된 기준값 이상인 경우, 이상값으로 결정하고, 미리 설정된 기준값 이하인 경우, 정상값으로 결정하여 라벨링 정보를 생성하고, 상기 칼럼 항목에 포함된 데이터와 상기 라벨링 정보를 연계하여 데이터 셋을 저장하는 것인, 이상값 탐지 프로세스 자동화 장치.
The method of claim 9,
The data result unit,
When the weighted outlier detection result is greater than or equal to a preset reference value, the controller determines an outlier value, and when the weighted outlier detection result is less than or equal to a preset reference value, determines the normal value to generate labeling information, and generates data and labeling information included in the column item. Outlier detection process automation device for storing the data set in association.
제1항에 있어서,
사용자 단말로 데이터 이상값 탐지 입력 정보와 관련된 선택 항목을 제공하는 데이터 제공부; 및
상기 사용자 단말로부터 데이터 이상값 탐지 입력 정보를 수신하는 사용자 입력 수신부를 더 포함하는, 이상값 탐지 프로세스 자동화 장치.
The method of claim 1,
A data provider for providing a selection item related to data outlier detection input information to a user terminal; And
The apparatus for automating abnormality detection process, further comprising a user input receiving unit configured to receive data abnormality detection input information from the user terminal.
빅데이터의 이상값 탐지 프로세스 자동화 방법에 있어서,
복수의 데이터 셋을 포함하는 데이터 베이스에 포함된 복수의 데이터 셋 중 이상값 탐지를 수행할 제1데이터 셋을 결정하고, 상기 제1데이터 셋의 칼럼 항목 중 이상값 탐지를 수행할 복수의 칼럼 항목을 선택하는 단계;
선택된 복수의 칼럼 항목의 전처리를 수행하는 단계;
전처리된 칼럼 항목에 포함된 라벨링 정보가 포함되지 않은 데이터를 데이터 특성에 대응하는 비지도 학습기반의 인공지능 알고리즘에 적용하여 이상값을 탐지하는 단계;
이상값 탐지 결과에 기초하여 라벨링 정보를 생성하고, 상기 칼럼 항목에 포함된 데이터와 상기 라벨링 정보를 연계하여 데이터 셋을 저장하는 단계; 및
상기 칼럼 항목에 포함된 데이터와 상기 라벨링 정보를 연계하여 저장된 데이터 셋을 지도학습 기반의 인공지능 알고리즘에 적용하여 이상값 탐지 모델을 구축하는 단계,
를 포함하되,
상기 이상값을 탐지하는 단계는,
선택된 칼럼 항목에 3개 이상의 인공지능 알고리즘이 적용되는 경우, 각각의 인공지능 알고리즘을 통해 추출된 이상값 탐지 결과 및 가중치가 적용된 이상값 탐지 결과를 제공하되,
상기 가중치가 적용된 이상값 탐지 결과는,
복수개가 적용된 인공지능 알고리즘을 통해 추출된 이상값 탐지 결과에 기반하여 생성된 파생 변수 도표의 결과 값을 각 알고리즘 별 결과값에 대입하여 합산한 결과이고,
상기 파생 변수 도표는,
복수의 알고리즘 중 두 개의 알고리즘의 이상값 탐지 결과 값이 동일한 경우의 개수 및 복수의 알고리즘 중 어느 하나의 알고리즘의 이상값 탐지 결과 값이 상기 어느 하나의 알고리즘과는 다른 두 개의 알고리즘의 이상값 탐지 결과 값과 다른 경우의 개수에 기반하여 생성되는 것인, 이상값 탐지 프로세스 자동화 방법.
In the method of automating the outlier detection process of big data,
Determine a first data set to perform outlier detection among a plurality of datasets included in a database including a plurality of data sets, and a plurality of column items to perform outlier detection among column items of the first data set. Selecting a;
Performing preprocessing of the selected plurality of column items;
Detecting outliers by applying data that does not include labeling information included in the preprocessed column item to an unsupervised learning-based AI algorithm corresponding to data characteristics;
Generating labeling information based on an outlier detection result and storing a data set in association with data included in the column item and the labeling information; And
Constructing an outlier detection model by applying a data set stored in association with the data included in the column item and the labeling information to an AI algorithm based on a map learning method;
Including,
Detecting the abnormal value,
When three or more AI algorithms are applied to the selected column item, the anomaly detection results and weighted outlier detection results are extracted from each AI algorithm.
Outlier detection result to which the weight is applied,
It is the result of substituting the result value of each derived variable table based on the outlier detection result extracted through the plural AI algorithms by substituting the result value of each algorithm.
The derived variable diagram,
The number of cases where the outlier detection value of two algorithms among the plurality of algorithms is the same, and the outlier detection result of two algorithms whose value is outlier detection result of any one of the plurality of algorithms Wherein the outlier detection process is generated based on a number of cases different from the value.
KR1020190047244A 2019-04-23 2019-04-23 Device and method for automating process of detecting outlier values of big data KR102039540B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190047244A KR102039540B1 (en) 2019-04-23 2019-04-23 Device and method for automating process of detecting outlier values of big data
PCT/KR2019/005693 WO2020218663A1 (en) 2019-04-23 2019-05-13 Device and method for automating process for detecting abnormal values in big data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190047244A KR102039540B1 (en) 2019-04-23 2019-04-23 Device and method for automating process of detecting outlier values of big data

Publications (1)

Publication Number Publication Date
KR102039540B1 true KR102039540B1 (en) 2019-11-01

Family

ID=68535521

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190047244A KR102039540B1 (en) 2019-04-23 2019-04-23 Device and method for automating process of detecting outlier values of big data

Country Status (2)

Country Link
KR (1) KR102039540B1 (en)
WO (1) WO2020218663A1 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102170632B1 (en) * 2019-12-03 2020-10-27 한국항공우주연구원 Method and apparatus for detecting anomalous behavior in real-time in cluestered system
KR102206296B1 (en) * 2020-05-06 2021-01-25 주식회사 이글루시큐리티 Labeling system for Security Control Learning Data and Its Method
KR20210086175A (en) * 2019-12-31 2021-07-08 주식회사 포스코아이씨티 Data preprocessing system
KR20210101557A (en) * 2020-02-10 2021-08-19 주식회사 에너자이(ENERZAi) Method and apparatus for estimating missing section of oil well logging data
KR20220074548A (en) * 2020-11-27 2022-06-03 이화여자대학교 산학협력단 Method and apparatus for null value correction of sensor data
KR20230077255A (en) * 2021-11-25 2023-06-01 (주)유엠로직스 System and method of detection anomalous signs in smart factory using M-SVDD

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113132352B (en) * 2021-03-17 2023-02-10 中国人民解放军战略支援部队信息工程大学 Router threat perception method and system based on flow statistical characteristics
CN113537274A (en) * 2021-04-14 2021-10-22 内蒙古卫数数据科技有限公司 Equipment anomaly identification method based on machine learning technology
CN113688125B (en) * 2021-08-24 2023-12-05 平安国际智慧城市科技股份有限公司 Abnormal value detection method and device based on artificial intelligence, electronic equipment and medium
US20230325654A1 (en) * 2022-04-07 2023-10-12 Qualcomm Incorporated Scalable deep learning design for missing input features

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101834260B1 (en) * 2017-01-18 2018-03-06 한국인터넷진흥원 Method and Apparatus for Detecting Fraudulent Transaction

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005135287A (en) * 2003-10-31 2005-05-26 National Agriculture & Bio-Oriented Research Organization Prediction device, method, and program
KR20110001466A (en) * 2009-06-30 2011-01-06 경희대학교 산학협력단 Method for identifying mislabeled training data with the aid of unlabeled data
KR20170083419A (en) * 2016-01-08 2017-07-18 마우키스튜디오 주식회사 Deep learning model training method using many unlabeled training data and deep learning system performing the same
KR101965598B1 (en) * 2017-02-24 2019-08-13 (주)위세아이텍 APPARATUS AND METHOD for DETECTING DATA OUTLIERS IN FRAUN DETECTION SYSTEM
KR101864286B1 (en) * 2017-11-10 2018-07-04 주식회사 한컴엠디에스 Method and apparatus for using machine learning algorithm

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101834260B1 (en) * 2017-01-18 2018-03-06 한국인터넷진흥원 Method and Apparatus for Detecting Fraudulent Transaction

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102170632B1 (en) * 2019-12-03 2020-10-27 한국항공우주연구원 Method and apparatus for detecting anomalous behavior in real-time in cluestered system
KR20210086175A (en) * 2019-12-31 2021-07-08 주식회사 포스코아이씨티 Data preprocessing system
KR102469610B1 (en) 2019-12-31 2022-11-21 주식회사 포스코아이씨티 Data preprocessing system
KR20210101557A (en) * 2020-02-10 2021-08-19 주식회사 에너자이(ENERZAi) Method and apparatus for estimating missing section of oil well logging data
KR102445233B1 (en) * 2020-02-10 2022-09-20 주식회사 에너자이(ENERZAi) Method and apparatus for estimating missing section of oil well logging data
KR20220129522A (en) * 2020-02-10 2022-09-23 주식회사 에너자이(ENERZAi) Method and apparatus for estimating missing section of oil well logging data
KR102622486B1 (en) * 2020-02-10 2024-01-10 주식회사 에너자이 Method and apparatus for estimating missing section of oil well logging data
KR102206296B1 (en) * 2020-05-06 2021-01-25 주식회사 이글루시큐리티 Labeling system for Security Control Learning Data and Its Method
KR20220074548A (en) * 2020-11-27 2022-06-03 이화여자대학교 산학협력단 Method and apparatus for null value correction of sensor data
KR102531742B1 (en) 2020-11-27 2023-05-11 이화여자대학교 산학협력단 Method and apparatus for null value correction of sensor data
KR20230077255A (en) * 2021-11-25 2023-06-01 (주)유엠로직스 System and method of detection anomalous signs in smart factory using M-SVDD
KR102555371B1 (en) * 2021-11-25 2023-07-17 (주)유엠로직스 System and method of detection anomalous signs in smart factory using M-SVDD

Also Published As

Publication number Publication date
WO2020218663A1 (en) 2020-10-29

Similar Documents

Publication Publication Date Title
KR102039540B1 (en) Device and method for automating process of detecting outlier values of big data
KR102068715B1 (en) Outlier detection device and method which weights are applied according to feature importance degree
Karaboga et al. A novel clustering approach: Artificial Bee Colony (ABC) algorithm
Maraziotis A semi-supervised fuzzy clustering algorithm applied to gene expression data
Rahman et al. Ensemble classifier generation using non-uniform layered clustering and Genetic Algorithm
Tripoliti et al. Modifications of the construction and voting mechanisms of the random forests algorithm
Zhang et al. A rough set-based multiple criteria linear programming approach for the medical diagnosis and prognosis
Xuan et al. Prediction of drug–target interactions based on network representation learning and ensemble learning
CN116682557A (en) Chronic complications early risk early warning method based on small sample deep learning
Mehmood et al. Systematic Framework to Predict Early‐Stage Liver Carcinoma Using Hybrid of Feature Selection Techniques and Regression Techniques
Gligorijevic et al. Improving confidence while predicting trends in temporal disease networks
Escalera et al. Online error correcting output codes
Zhang et al. An intrusion detection method based on stacked sparse autoencoder and improved gaussian mixture model
Hornung et al. Prediction approaches for partly missing multi‐omics covariate data: A literature review and an empirical comparison study
Xie et al. Unsupervised abnormal detection using VAE with memory
CN114221991A (en) Big data-based session recommendation feedback processing method and deep learning service system
Wang et al. Deep sparse autoencoder integrated with three‐stage framework for glaucoma diagnosis
Amirkhan et al. Using recurrent neural networks to predict colorectal cancer among patients
Ukil et al. AutoModeling: integrated approach for automated model generation by ensemble selection of feature subset and classifier
Lu et al. Soft-orthogonal constrained dual-stream encoder with self-supervised clustering network for brain functional connectivity data
Koosha et al. A hierarchical estimation of multi-modal distribution programming for regression problems
Sun et al. Dynamic adjustment of hidden layer structure for convex incremental extreme learning machine
Liu et al. A learning-based system for predicting sport injuries
Zhang et al. Partial modal conditioned GANs for multi-modal multi-label learning with arbitrary modal-missing
Deenadayalan et al. User Feature Similarity Supported Collaborative Filtering for Page Recommendation Using Hybrid Shuffled Frog Leaping Algorithm.

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant