KR102336962B1 - Apparatus for automatically performing labeling through Semi-weakly supervised learning and method therefor - Google Patents

Apparatus for automatically performing labeling through Semi-weakly supervised learning and method therefor Download PDF

Info

Publication number
KR102336962B1
KR102336962B1 KR1020210060935A KR20210060935A KR102336962B1 KR 102336962 B1 KR102336962 B1 KR 102336962B1 KR 1020210060935 A KR1020210060935 A KR 1020210060935A KR 20210060935 A KR20210060935 A KR 20210060935A KR 102336962 B1 KR102336962 B1 KR 102336962B1
Authority
KR
South Korea
Prior art keywords
label
learning
vector
simulation
loss
Prior art date
Application number
KR1020210060935A
Other languages
Korean (ko)
Inventor
박승범
안근진
Original Assignee
호서대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 호서대학교 산학협력단 filed Critical 호서대학교 산학협력단
Priority to KR1020210060935A priority Critical patent/KR102336962B1/en
Application granted granted Critical
Publication of KR102336962B1 publication Critical patent/KR102336962B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H1/00Measuring characteristics of vibrations in solids by using direct conduction to the detector
    • G01H1/12Measuring characteristics of vibrations in solids by using direct conduction to the detector of longitudinal or not specified vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

Provided is a method for automatically performing labeling, comprising the steps of: generating, by a function generating unit, a label generating function by performing decision tree analysis on basic learning data labeled by an actual value; and performing, by a labeling unit, weak-labeling to label raw learning data, which is not labeled, by using the label generating function.

Description

반-약 지도 학습을 통해 자동으로 라벨링을 수행하기 위한 장치 및 이를 위한 방법{Apparatus for automatically performing labeling through Semi-weakly supervised learning and method therefor}Apparatus for automatically performing labeling through Semi-weakly supervised learning and method therefor

본 발명은 자동 라벨링 기술에 관한 것으로, 보다 상세하게는, 반-약 지도 학습을 통해 자동으로 라벨링을 수행하기 위한 장치 및 이를 위한 방법에 관한 것이다. The present invention relates to automatic labeling technology, and more particularly, to an apparatus and method for automatically performing labeling through semi-weak supervised learning.

산업시스템의 상태를 실시간으로 모니터링하고 고장을 사전에 예지하는PHM(Prognostics and Health Management) 기법들은 최근 복잡한 기계 학습 및 딥 러닝 알고리즘에 의해 수행되고 있다. 그러나 이러한 알고리즘의 성능은 얼마나 많은 대량의 라벨 데이터 세트를 수집하는가에 따라 그 성패가 좌우된다. PHM (Prognostics and Health Management) techniques, which monitor the state of industrial systems in real time and predict failures in advance, are recently being performed by complex machine learning and deep learning algorithms. However, the performance of these algorithms depends on how many large label data sets are collected.

한국공개특허 제2020-0023266호 2020년 03월 04일 공개Korean Patent Publication No. 2020-0023266 published on March 04, 2020

본 발명의 목적은 반-약 지도 학습을 통해 자동으로 라벨링을 수행하기 위한 장치 및 이를 위한 방법을 제공함에 있다. An object of the present invention is to provide an apparatus and method for automatically performing labeling through semi-weak supervised learning.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 자동으로 라벨링을 수행하기 위한 방법은 함수생성부가 실측값에 의해 라벨링된 기본 학습데이터에 대해 결정 트리 분석을 실시하여 라벨생성함수를 생성하는 단계와, 라벨링부가 상기 라벨생성함수를 이용하여 라벨이 지정되지 않은 원시 학습데이터에 라벨을 부여하는 약 라벨링을 수행하는 단계를 포함한다. In the method for automatically performing labeling according to a preferred embodiment of the present invention for achieving the object as described above, the function generator performs a decision tree analysis on the basic learning data labeled by the actual value to generate a label generating function. generating, and performing weak labeling in which a labeling unit assigns a label to raw learning data that is not labeled by using the label generating function.

상기 라벨생성함수를 생성하는 단계는 함수생성부가 구름 요소 베어링에서 발생하는 주파수의 특징을 추출하여 요인변수로 설정하는 단계와, 함수생성부가 상기 요인변수와 실측값에 의해 라벨링된 기본 학습데이터에 대한 목표변수를 통해 결정 트리 알고리즘 분석을 수행하여 도출되는 종료 마디를 이용하여 라벨생성함수를 도출하는 단계를 포함한다. The generating of the label generating function includes the steps of: the function generating unit extracting the characteristics of the frequency occurring in the rolling element bearing and setting it as a factor variable; and deriving a label generating function using the end node derived by performing a decision tree algorithm analysis through the target variable.

상기 요인 변수로 설정하는 단계는 함수생성부가 진동센서를 통해 고장 여부가 알려진 베어링에서 발생하는 진동이 측정되고 상기 고장 여부가 레이블링된 센서 데이터를 마련하는 단계와, 함수생성부가 센서 데이터를 FFT 변환하여 FFT 변환 데이터를 생성하는 단계와, 함수생성부가 상기 FFT 변환 데이터를 스펙트럼 데이터로 변환하는 단계와, 함수생성부가 통계 알고리즘을 이용하여 상기 스펙트럼 데이터에서 특징을 추출하여 요인 변수를 설정하는 단계를 포함한다. The step of setting as the factor variable includes the steps of the function generating unit measuring vibration occurring in a bearing whose failure is known through the vibration sensor and preparing sensor data labeled with the failure, and the function generating unit converting the sensor data by FFT generating FFT transformed data; converting the FFT transformed data into spectral data by a function generating unit; and setting a factor variable by extracting features from the spectral data by a function generating unit using a statistical algorithm. .

상기 약한 라벨링(weak labeling)을 수행하는 단계는 라벨링부가 약지도 학습의 확률적 라벨 생성 모델(probabilistic generative model)을 사용하는 것을 특징으로 한다. The performing of the weak labeling is characterized in that the labeling unit uses a probabilistic generative model of weak supervised learning.

상기 기본 학습데이터는 구름 요소 베어링(Rolling Element Bearings, REB)의 이상을 예측하기 위한 인공신경망모델을 학습시키기 위한 데이터인 것을 특징으로 한다. The basic learning data is characterized in that it is data for learning an artificial neural network model for predicting abnormalities of rolling element bearings (REB).

상기 방법은 상기 검증부의 데이터검증부가 상기 라벨생성함수를 통해 라벨링된 센서 데이터를 수신하면, 수신된 센서 데이터 및 그 라벨을 통해 라벨벡터를 생성하는 단계와, 상기 데이터검증부가 모사라벨벡터를 생성하도록 학습이 완료된 검증모델에 상기 라벨벡터를 입력하는 단계와, 상기 검증모델이 상기 라벨벡터를 모사하여 모사라벨벡터를 산출하는 단계와, 상기 데이터검증부가 상기 라벨벡터와 상기 모사라벨벡터의 차이를 나타내는 모사손실이 학습 시 산출된 임계치를 초과하는지 여부를 판단하는 단계와, 상기 모사손실이 상기 임계치 이상이면, 상기 데이터검증부가 상기 수신된 센서 데이터의 라벨에 이상이 있는 것으로 판단하는 단계를 포함한다. The method includes the steps of: when the data verification unit of the verification unit receives the sensor data labeled through the label generation function, generating a label vector through the received sensor data and the label; The step of inputting the label vector into a verification model on which learning is completed, the verification model mimics the label vector to calculate a replica label vector, and the data verification unit represents the difference between the label vector and the replica label vector. Determining whether the simulation loss exceeds a threshold calculated during learning, and if the simulation loss is greater than or equal to the threshold, the data verification unit includes the steps of determining that there is an abnormality in the label of the received sensor data.

상기 방법은 상기 라벨벡터를 생성하는 단계 전, 모델생성부가 복수의 학습용 라벨벡터를 이용하여 검증모델을 학습시키는 단계를 더 포함한다. The method further includes, before the step of generating the label vector, the model generator learning the verification model using a plurality of label vectors for learning.

여기서, 상기 검증모델을 학습시키는 단계는 모델생성부가 상기 실측값으로 라벨링된 기본 학습데이터로부터 학습용 라벨벡터를 생성하는 단계와, 상기 모델생성부가 상기 학습용 라벨벡터를 초기화된 검증모델에 입력하는 단계와, 상기 모델생성부가 상기 학습용 라벨벡터에 대한 검증모델의 연산 결과에 따라 모사손실 및 모사잠재손실을 포함하는 전체 손실을 산출하는 단계와, 상기 모델생성부가 상기 전체 손실이 최소가 되도록 상기 검증모델의 파라미터를 갱신하는 최적화를 수행하는 단계를 포함한다. Here, the step of training the verification model comprises the steps of: a model generation unit generating a label vector for learning from the basic training data labeled with the measured value; , calculating, by the model generation unit, a total loss including a simulation loss and a simulation potential loss according to the operation result of the verification model for the training label vector; and performing optimization to update the parameters.

상기 전체 손실을 산출하는 단계는 상기 검증모델의 인코더가 상기 학습용 라벨벡터에 대한 가중치 연산을 통해 학습용 잠재벡터를 산출하는 단계와, 상기 검증모델의 디코더가 상기 학습용 잠재벡터에 대한 가중치 연산을 통해 상기 학습용 라벨벡터를 모사하는 학습용 모사라벨벡터를 산출하는 단계와, 상기 검증모델의 후방 인코더가 상기 학습용 모사라벨벡터에 대한 가중치 연산을 상기 학습용 잠재벡터를 모사하는 학습용 모사잠재벡터를 산출하는 단계와, 상기 모델생성부가 상기 학습용 모사잠재벡터와 상기 학습용 잠재벡터와의 차이를 나타내는 모사잠재손실을 산출하는 단계와, 상기 모델생성부가 상기 학습용 모사라벨벡터와 상기 학습용 라벨벡터와의 차이를 나타내는 모사손실을 산출하는 단계를 포함한다. Calculating the total loss includes: calculating, by the encoder of the verification model, a learning latent vector through weight calculation on the learning label vector; Calculating a simulation label vector for learning that mimics the label vector for learning, and the rear encoder of the verification model performs weight calculation on the simulation label vector for learning. Calculating, by the model generation unit, a simulation potential loss representing the difference between the training potential vector and the training potential vector, and the model generator generating a simulation loss representing the difference between the training label vector and the training label vector. It includes the step of calculating.

상기 모사손실을 산출하는 단계는 상기 모델생성부가 수학식

Figure 112021054535784-pat00001
에 따라 모사손실을 산출하고, 상기 Ld은 상기 모사손실이고, 상기 x는 학습용 라벨벡터이고, 상기 y는 학습용 모사라벨벡터인 것을 특징으로 한다. The step of calculating the simulation loss is performed by the model generator using the formula
Figure 112021054535784-pat00001
The simulation loss is calculated according to , wherein Ld is the simulation loss, x is a label vector for learning, and y is a simulation label vector for learning.

상기 학습용 모사잠재벡터와 상기 학습용 잠재벡터와의 차이를 나타내는 모사잠재손실을 산출하는 단계는 상기 모델생성부가 수학식

Figure 112021054535784-pat00002
에 따라 모사잠재손실을 산출하고, 상기 Lz는 상기 모사잠재손실이고, 상기 z는 학습용 잠재벡터이고, 상기 h는 학습용 모사잠재벡터인 것을 특징으로 한다. The step of calculating the simulation potential loss representing the difference between the simulation latent vector for learning and the learning latent vector is performed by the model generating unit by the equation
Figure 112021054535784-pat00002
The simulation potential loss is calculated according to , wherein Lz is the simulation potential loss, z is a latent vector for learning, and h is a simulation potential vector for learning.

상기 검증모델을 학습시키는 단계 후, 상기 모델생성부가 수학식

Figure 112021054535784-pat00003
에 따라 임계치를 산출하는 단계를 더 포함한다. After the step of learning the verification model, the model generation unit
Figure 112021054535784-pat00003
The method further includes calculating a threshold according to .

상기 T는 상기 임계치이고, 상기 m은 상기 복수의 학습용 모사라벨벡터와 상기 복수의 학습용 라벨벡터와의 차이를 나타내는 모사손실의 평균이고, 상기 d는 상기 복수의 학습용 모사라벨벡터와 상기 복수의 학습용 라벨벡터와의 차이를 나타내는 모사손실의 표준편차이고, 상기 w는 상기 모사손실의 표준편차에 대한 가중치인 것을 특징으로 한다. Wherein T is the threshold, m is an average of the simulation loss representing the difference between the plurality of training label vectors and the plurality of training label vectors, and d is the plurality of training simulation label vectors and the plurality of training labels. It is the standard deviation of the simulation loss representing the difference from the label vector, and w is a weight for the standard deviation of the simulation loss.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 자동으로 라벨링을 수행하기 위한 장치는 실측값에 의해 라벨링된 기본 학습데이터에 대해 결정 트리 분석을 실시하여 라벨생성함수를 생성하는 함수생성부와, 상기 라벨생성함수를 이용하여 라벨이 지정되지 않은 원시 학습데이터에 라벨을 부여하는 약 라벨링을 수행하는 라벨링부를 포함한다. An apparatus for automatically performing labeling according to a preferred embodiment of the present invention for achieving the above object is a function for generating a label generating function by performing a decision tree analysis on the basic learning data labeled by the actual value It includes a generating unit, and a labeling unit that performs weak labeling by using the label generating function to assign a label to the raw learning data that is not labeled.

상기 함수생성부는 구름 요소 베어링에서 발생하는 주파수의 특징을 추출하여 요인변수로 설정하고, 상기 요인변수와 실측값에 의해 라벨링된 기본 학습데이터에 대한 목표변수를 통해 결정 트리 알고리즘 분석을 수행하여 도출되는 종료 마디를 이용하여 라벨생성함수를 도출하는 것을 특징으로 한다. The function generator extracts the characteristics of the frequency occurring in the rolling element bearing and sets it as a factor variable, and is derived by performing a decision tree algorithm analysis through the target variable for the basic learning data labeled by the factor variable and the measured value. It is characterized by deriving the label generating function using the end node.

상기 함수생성부는 진동센서를 통해 고장 여부가 알려진 베어링에서 발생하는 진동이 측정되고 상기 고장 여부가 레이블링된 센서 데이터를 마련하고, 센서 데이터를 FFT 변환하여 FFT 변환 데이터를 생성하고, 상기 FFT 변환 데이터를 스펙트럼 데이터로 변환하고, 통계 알고리즘을 이용하여 상기 스펙트럼 데이터에서 특징을 추출하여 요인 변수를 설정하는 것을 특징으로 한다. The function generating unit measures vibration occurring in a bearing whose failure is known through a vibration sensor, prepares sensor data labeled with the failure, FFT-converts the sensor data to generate FFT-converted data, and converts the FFT-converted data It is characterized in that it is converted into spectral data, and a factor variable is set by extracting features from the spectral data using a statistical algorithm.

상기 라벨링부는 약지도 학습의 확률적 라벨 생성 모델(probabilistic generative model)을 사용하는 것을 특징으로 한다. The labeling unit is characterized in that it uses a probabilistic generative model of weakly supervised learning.

상기 기본 학습데이터는 구름 요소 베어링(Rolling Element Bearings, REB)의 이상을 예측하기 위한 인공신경망모델을 학습시키기 위한 데이터인 것을 특징으로 한다. The basic learning data is characterized in that it is data for learning an artificial neural network model for predicting abnormalities of rolling element bearings (REB).

상기 검증부는 상기 라벨생성함수를 통해 라벨링된 센서 데이터를 수신하면, 수신된 센서 데이터 및 그 라벨을 통해 라벨벡터를 생성하고, 모사라벨벡터를 생성하도록 학습이 완료된 검증모델에 상기 라벨벡터를 입력하고, 상기 검증모델이 상기 라벨벡터를 모사하여 모사라벨벡터를 산출하면, 상기 라벨벡터와 상기 모사라벨벡터의 차이를 나타내는 모사손실이 학습 시 산출된 임계치를 초과하는지 여부를 판단하여 상기 모사손실이 상기 임계치 이상이면, 상기 수신된 센서 데이터의 라벨에 이상이 있는 것으로 판단하는 데이터검증부를 포함한다. When the verification unit receives the sensor data labeled through the label generation function, the label vector is generated through the received sensor data and the label, and the label vector is input to the verification model that has been trained to generate a replica label vector, , when the verification model simulates the label vector and calculates a simulation label vector, it is determined whether the simulation loss representing the difference between the label vector and the simulation label vector exceeds the threshold calculated during learning, and the simulation loss is the and a data verification unit that determines that there is an abnormality in the label of the received sensor data when it is greater than or equal to the threshold.

상기 검증부는 복수의 학습용 라벨벡터를 이용하여 검증모델을 학습시키는 모델생성부를 포함한다. 여기서, 상기 모델생성부는 상기 실측값으로 라벨링된 기본 학습데이터로부터 학습용 라벨벡터를 생성하고, 상기 학습용 라벨벡터를 초기화된 검증모델에 입력하고, 상기 학습용 라벨벡터에 대한 검증모델의 연산 결과에 따라 모사손실 및 모사잠재손실을 포함하는 전체 손실을 산출하고, 상기 전체 손실이 최소가 되도록 상기 검증모델의 파라미터를 갱신하는 최적화를 수행하는 것을 특징으로 한다. The verification unit includes a model generator for learning the verification model using a plurality of learning label vectors. Here, the model generator generates a training label vector from the basic training data labeled with the measured value, inputs the training label vector to an initialized validation model, and simulates the training label vector according to the operation result of the validation model. It is characterized in that the optimization of calculating the total loss including the loss and the simulated potential loss, and updating the parameters of the verification model so that the total loss is minimized.

상기 검증모델은 인코더, 디코더 및 후방 인코더를 포함하며, 상기 인코더가 상기 학습용 라벨벡터에 대한 가중치 연산을 통해 학습용 잠재벡터를 산출하고, 상기 디코더가 상기 학습용 잠재벡터에 대한 가중치 연산을 통해 상기 학습용 라벨벡터를 모사하는 학습용 모사라벨벡터를 산출하고, 상기 후방 인코더가 상기 학습용 모사라벨벡터에 대한 가중치 연산을 상기 학습용 잠재벡터를 모사하는 학습용 모사잠재벡터를 산출하면, 상기 모델생성부가 상기 학습용 모사잠재벡터와 상기 학습용 잠재벡터와의 차이를 나타내는 모사잠재손실을 산출하고, 상기 학습용 모사라벨벡터와 상기 학습용 라벨벡터와의 차이를 나타내는 모사손실을 산출하는 것을 특징으로 한다. The verification model includes an encoder, a decoder, and a backward encoder, wherein the encoder calculates a learning latent vector by weighting the learning label vector, and the decoder calculates the learning label by weighting the learning latent vector. When a simulation label vector for learning that simulates a vector is calculated, and the rear encoder calculates a simulation latent vector for learning that simulates the latent vector for learning by weighting calculation for the simulation label vector for learning, the model generator is the simulation latent vector for learning It is characterized in that the simulation potential loss indicating the difference between the and the learning latent vector is calculated, and the simulation loss indicating the difference between the learning simulation label vector and the learning label vector is calculated.

상기 모델생성부는 수학식

Figure 112021054535784-pat00004
에 따라 모사손실을 산출하고, 상기 Ld은 상기 모사손실이고, 상기 x는 학습용 라벨벡터이고, 상기 y는 학습용 모사라벨벡터인 것을 특징으로 한다. The model generating unit is
Figure 112021054535784-pat00004
The simulation loss is calculated according to , wherein Ld is the simulation loss, x is a label vector for learning, and y is a simulation label vector for learning.

상기 모델생성부는 수학식

Figure 112021054535784-pat00005
에 따라 모사잠재손실을 산출하고, 상기 Lz는 상기 모사잠재손실이고, 상기 z는 학습용 잠재벡터이고, 상기 h는 학습용 모사잠재벡터인 것을 특징으로 한다. The model generating unit is
Figure 112021054535784-pat00005
The simulation potential loss is calculated according to , wherein Lz is the simulation potential loss, z is a latent vector for learning, and h is a simulation potential vector for learning.

상기 모델생성부는 수학식

Figure 112021054535784-pat00006
에 따라 상기 임계치를 산출하며, 상기 T는 상기 임계치이고, 상기 m은 상기 복수의 학습용 모사라벨벡터와 상기 복수의 학습용 라벨벡터와의 차이를 나타내는 모사손실의 평균이고, 상기 d는 상기 복수의 학습용 모사라벨벡터와 상기 복수의 학습용 라벨벡터와의 차이를 나타내는 모사손실의 표준편차이고, 상기 w는 상기 모사손실의 표준편차에 대한 가중치인 것을 특징으로 한다. The model generating unit is
Figure 112021054535784-pat00006
calculates the threshold according to, T is the threshold, m is the average of the simulation loss representing the difference between the plurality of training label vectors and the plurality of training label vectors, and d is the plurality of training It is a standard deviation of the simulation loss representing the difference between the simulation label vector and the plurality of learning label vectors, and w is a weight for the standard deviation of the simulation loss.

본 발명에 따르면, 소수의 라벨링된 학습 데이터로 라벨생성함수를 생성하고, 생성된 라벨생성함수를 통해 자동으로 복수의 학습 데이터에 대해 라벨링을 수행할 수 있다. According to the present invention, it is possible to generate a label generation function with a small number of labeled training data, and automatically perform labeling on a plurality of training data through the generated label generation function.

도 1은 본 발명의 실시예에 따른 반 약 지도 학습을 통해 자동으로 라벨링을 수행하기 위한 장치의 구성을 설명하기 위한 도면이다.
도 2는 본 발명의 실시예에 따른 반 약 지도 학습을 통해 자동으로 라벨링을 수행하기 위한 장치의 라벨링처리부의 세부적인 구성을 설명하기 위한 도면이다.
도 3은 본 발명의 실시예에 따른 반 약 지도 학습을 통해 자동으로 라벨링을 수행하기 위한 결정 트리(decision tree)의 일례를 도시한 도면이다.
도 4는 본 발명의 실시예에 따른 반 약 지도 학습을 통해 자동으로 라벨링을 수행하기 위한 장치의 검증부의 세부적인 구성을 설명하기 위한 도면이다.
도 5는 본 발명의 실시예에 따른 반 약 지도 학습을 통해 자동으로 라벨링을 수행하기 위한 장치에서 실행되는 검증모델의 구성을 설명하기 위한 도면이다.
도 6은 본 발명의 실시예에 따른 반 약 지도 학습을 통해 자동으로 라벨링을 수행하기 위한 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 실시예에 따른 약한 라벨링을 수행한 데이터의 이상 검증하기 위한 검증모델(VM)을 생성하는 방법을 설명하기 위한 흐름도이다.
도 8은 본 발명의 실시예에 따른 반 약 지도 학습을 통해 자동으로 라벨링된 데이터의 이상 여부를 검증하기 위한 방법을 설명하기 위하 흐름도이다.
도 9는 본 발명의 실시예에 따른 컴퓨팅 장치를 나타내는 도면이다.
1 is a diagram for explaining the configuration of an apparatus for automatically performing labeling through semi-weak supervised learning according to an embodiment of the present invention.
2 is a diagram for explaining the detailed configuration of a labeling processing unit of an apparatus for automatically performing labeling through semi-weak supervised learning according to an embodiment of the present invention.
3 is a diagram illustrating an example of a decision tree for automatically performing labeling through semi-weak supervised learning according to an embodiment of the present invention.
4 is a diagram for explaining a detailed configuration of a verification unit of an apparatus for automatically performing labeling through semi-weak supervised learning according to an embodiment of the present invention.
5 is a diagram for explaining the configuration of a verification model executed in an apparatus for automatically performing labeling through semi-weak supervised learning according to an embodiment of the present invention.
6 is a flowchart illustrating a method for automatically performing labeling through semi-weak supervised learning according to an embodiment of the present invention.
7 is a flowchart illustrating a method of generating a verification model (VM) for verifying anomalies of data subjected to weak labeling according to an embodiment of the present invention.
8 is a flowchart illustrating a method for verifying whether or not automatically labeled data is abnormal through semi-weak supervised learning according to an embodiment of the present invention.
9 is a diagram illustrating a computing device according to an embodiment of the present invention.

본 발명의 상세한 설명에 앞서, 이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 실시예에 불과할 뿐, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다. Prior to the detailed description of the present invention, the terms or words used in the present specification and claims described below should not be construed as being limited to their ordinary or dictionary meanings, and the inventors should develop their own inventions in the best way. It should be interpreted as meaning and concept consistent with the technical idea of the present invention based on the principle that it can be appropriately defined as a concept of a term for explanation. Therefore, the embodiments described in the present specification and the configurations shown in the drawings are only the most preferred embodiments of the present invention, and do not represent all the technical spirit of the present invention, so various equivalents that can be substituted for them at the time of the present application It should be understood that there may be water and variations.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이때, 첨부된 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음을 유의해야 한다. 또한, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다. 마찬가지의 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In this case, it should be noted that in the accompanying drawings, the same components are denoted by the same reference numerals as much as possible. In addition, detailed descriptions of well-known functions and configurations that may obscure the gist of the present invention will be omitted. For the same reason, some components are exaggerated, omitted, or schematically illustrated in the accompanying drawings, and the size of each component does not fully reflect the actual size.

본 발명의 실시예에 따른 반 약 지도 학습을 통해 자동으로 라벨링을 수행하기 위한 장치의 구성에 대해서 설명하기로 한다. 도 1은 본 발명의 실시예에 따른 반 약 지도 학습을 통해 자동으로 라벨링을 수행하기 위한 장치의 구성을 설명하기 위한 도면이다. 도 2는 본 발명의 실시예에 따른 반 약 지도 학습을 통해 자동으로 라벨링을 수행하기 위한 장치의 라벨링처리부의 세부적인 구성을 설명하기 위한 도면이다. 도 3은 본 발명의 실시예에 따른 반 약 지도 학습을 통해 자동으로 라벨링을 수행하기 위한 결정 트리(decision tree)의 일례를 도시한 도면이다. 도 4는 본 발명의 실시예에 따른 반 약 지도 학습을 통해 자동으로 라벨링을 수행하기 위한 장치의 검증부의 세부적인 구성을 설명하기 위한 도면이다. 도 5는 본 발명의 실시예에 따른 반 약 지도 학습을 통해 자동으로 라벨링을 수행하기 위한 장치에서 실행되는 검증모델의 구성을 설명하기 위한 도면이다. A configuration of an apparatus for automatically performing labeling through semi-weak supervised learning according to an embodiment of the present invention will be described. 1 is a diagram for explaining the configuration of an apparatus for automatically performing labeling through semi-weak supervised learning according to an embodiment of the present invention. 2 is a diagram for explaining the detailed configuration of a labeling processing unit of an apparatus for automatically performing labeling through semi-weak supervised learning according to an embodiment of the present invention. 3 is a diagram illustrating an example of a decision tree for automatically performing labeling through semi-weak supervised learning according to an embodiment of the present invention. 4 is a diagram for explaining a detailed configuration of a verification unit of an apparatus for automatically performing labeling through semi-weak supervised learning according to an embodiment of the present invention. 5 is a diagram for explaining the configuration of a verification model executed in an apparatus for automatically performing labeling through semi-weak supervised learning according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 실시예에 따른 라벨링장치(10)는 라벨링처리부(100) 및 검증부(200)를 포함한다. Referring to FIG. 1 , a labeling apparatus 10 according to an embodiment of the present invention includes a labeling processing unit 100 and a verification unit 200 .

라벨링처리부(100)는 본 발명의 실시예에 따라 반 약 지도 학습(Semi-weakly supervised learning)을 통해 자동으로 라벨링을 수행하기 위한 것이다. The labeling processing unit 100 is for automatically performing labeling through semi-weakly supervised learning according to an embodiment of the present invention.

검증부(200)는 라벨링처리부(100)가 자동으로 라벨링을 수행한 데이터를 검증하기 위한 것이다. The verification unit 200 is for verifying data automatically labeled by the labeling processing unit 100 .

이러한 라벨링처리부(100) 및 검증부(200)는 CPU(Central Processing Unit), AP(Application Processor), GPU(Graphic Processing Unit), NPU(Neural Processing Unit) 등으로 구현될 수 있다. The labeling processing unit 100 and the verification unit 200 may be implemented as a central processing unit (CPU), an application processor (AP), a graphic processing unit (GPU), a neural processing unit (NPU), or the like.

도 2를 참조하면, 라벨링처리부(100)는 함수생성부(110) 및 라벨링부(120)를 포함한다. Referring to FIG. 2 , the labeling processing unit 100 includes a function generating unit 110 and a labeling unit 120 .

함수생성부(110)는 분류모델의 학습을 위해 사용하기 위해 실측값(ground truth)으로 라벨링된 기본 학습데이터에 결정 트리(decision tree) 분석을 실시하여 도출된 종료 마디를 이용하여 약지도 감독을 위한 라벨생성함수를 생성한다. 분류모델은 구름 요소 베어링(Rolling Element Bearings, REB)의 이상을 예측하기 위한 인공신경망모델이며, 기본 학습데이터는 구름 요소 베어링(Rolling Element Bearings, REB)의 이상을 예측하기 위한 인공신경망모델을 학습시키기 위한 데이터이다. 라벨생성함수를 생성하기 위하여, 함수생성부(110)는 먼저, 구름 요소 베어링에서 발생하는 진동을 측정하고, 이러한 진동의 주파수의 특징을 추출하여 요인 변수로 설정한다. 이러한 요인 변수는 실측값(ground truth)에 의해 라벨링되며, 라벨링된 라벨은 결정 트리 알고리즘의 목표변수가 될 수 있다. The function generator 110 performs a decision tree analysis on the basic learning data labeled with a ground truth in order to use it for learning the classification model, and uses the derived end node to perform weak guidance supervision. Create a label creation function for The classification model is an artificial neural network model to predict the abnormality of Rolling Element Bearings (REB), and the basic training data is to train the artificial neural network model to predict the abnormality of Rolling Element Bearings (REB). data for In order to generate the label generating function, the function generating unit 110 first measures the vibration generated in the rolling element bearing, extracts the characteristics of the frequency of the vibration, and sets it as a factor variable. These factor variables are labeled by ground truth, and the labeled label can be a target variable of a decision tree algorithm.

함수생성부(110)는 기본 학습데이터인 센서 데이터를 마련한다. 이러한 센서 데이터는 진동센서(vibration sensor: VS)를 통해 고장 여부가 알려진 베어링에서 발생하는 진동을 측정한 것이다. 또한, 센서 데이터는 목표변수인 고장 여부로 라벨링된 상태이다. 함수생성부(110)는 센서 데이터를 FFT(Fast Fourier Transform) 변환하고, FFT 변환 데이터를 스펙트럼 데이터로 변환한 후, 통계 알고리즘을 이용하여 스펙트럼 데이터에서 특징을 추출하여 요인 변수를 설정한다. 예컨대, 통계 알고리즘을 통해 추출되는 특징은 스펙트럼 통계적 특징, 스펙트럼 영역 분리 특징을 포함한다. 또한, 추가적인 실시예에 따르면, 센서 데이터에서 직접 특징을 추출할 수 있다. 센서 데이터에서 직접 추출되는 특징은 타임도메인 특징을 포함한다. The function generator 110 prepares sensor data that is basic learning data. This sensor data is a vibration sensor (vibration sensor: VS) to measure the vibration occurring in the bearing known whether the failure. In addition, the sensor data is in a state labeled with the target variable, whether or not there is a failure. The function generator 110 performs FFT (Fast Fourier Transform) transformation on the sensor data, converts the FFT transformation data into spectral data, and sets factor variables by extracting features from the spectral data using a statistical algorithm. For example, the features extracted through the statistical algorithm include spectral statistical features and spectral domain separation features. Also, according to an additional embodiment, a feature may be directly extracted from sensor data. Features directly extracted from sensor data include time domain features.

함수생성부(110)는 요인변수와 라벨링된 목표변수를 통해 결정 트리 알고리즘 분석을 수행하고, 이를 통해 도출되는 종료 마디를 이용하여 라벨생성함수를 도출한다. 요인 변수는 결정 트리 알고리즘에서 입력 변수가 된다. 즉, 결정 트리의 시작(root) 마디로부터 복수의 종료 마디까지 순차로 연결되는 모든 마디들의 분리조건을 연결하여 라벨생성함수(LF)를 도출한다. 도 3에 결정 트리의 일례가 도시되었다. 도시된 바와 같이, 결정 트리 알고리즘 분석을 통해 시작(root) 마디로부터 복수의 중간 마디 및 복수의 종료 마디가 결정된다. 예컨대, 도 3에 도시된 바와 같이, 종료 마디 중 하나인 제9 노드(N9)의 경우, 제3 노드(N3), 제6 노드(N6) 및 제9 노드(N9)의 분리조건을 모두 결합하여 라벨생성함수(LF)를 생성할 수 있다. The function generating unit 110 performs a decision tree algorithm analysis through the factor variable and the labeled target variable, and derives a label generating function using the end node derived therefrom. The factor variable becomes the input variable in the decision tree algorithm. That is, the label generation function (LF) is derived by connecting the separation conditions of all nodes sequentially connected from the root node of the decision tree to the plurality of ending nodes. An example of a decision tree is shown in FIG. 3 . As shown, a plurality of intermediate nodes and a plurality of ending nodes are determined from a root node through decision tree algorithm analysis. For example, as shown in FIG. 3 , in the case of the ninth node N9, which is one of the ending nodes, the separation conditions of the third node N3, the sixth node N6, and the ninth node N9 are all combined. to create a label generation function (LF).

도출된 라벨생성함수(LF)는 라벨링부(120)에 제공된다. 이에 따라, 라벨링부(120)는 라벨생성함수(LF)를 이용하여 라벨이 지정되지 않은 원시 학습데이터에 라벨을 부여하는 약한 라벨링(weak labeling)을 수행할 수 있다. The derived label generation function LF is provided to the labeling unit 120 . Accordingly, the labeling unit 120 may perform weak labeling of assigning a label to the unlabeled raw learning data using the label generating function (LF).

도 4 및 도 5를 참조하면, 검증부(200)는 모델생성부(210) 및 데이터검증부(220)를 포함한다. 또한, 본 발명의 실시예에 따라 모델생성부(210)가 생성한 검증모델(VM)은 데이터검증부(220)에서 실행될 수 있다. 특히, 검증모델(VM)이 CPU(Central Processing Unit), GPU(Graphic Processing Unit), NPU(Neural Processing Unit) 등인 데이터검증부(220)에서 실행될 때, 검증모델(VM)을 실행시키는 CPU(Central Processing Unit), GPU(Graphic Processing Unit), NPU(Neural Processing Unit) 등의 명령모듈(instruction module)은 검증모델(VM)과 동치인 하드웨어로 설명될 수 있다. 4 and 5 , the verification unit 200 includes a model generation unit 210 and a data verification unit 220 . In addition, the verification model VM generated by the model generation unit 210 according to an embodiment of the present invention may be executed by the data verification unit 220 . In particular, when the verification model (VM) is executed in the data verification unit 220, which is a CPU (Central Processing Unit), GPU (Graphic Processing Unit), NPU (Neural Processing Unit), etc., CPU (Central) that executes the verification model (VM) Processing Unit), a graphic processing unit (GPU), an instruction module such as a neural processing unit (NPU), etc. may be described as hardware equivalent to the verification model (VM).

모델생성부(210)는 본 발명의 실시예에 따른 심층학습모델(Deep Learning Model)인 검증모델(VM: Verification Model)을 학습(deep learning)시키기 위한 것이다. 즉, 모델생성부(210)는 검증모델(VM)이 라벨벡터(x)를 모사하여 모사라벨벡터(y)를 산출하도록 학습시킨다. 학습이 완료된 검증모델(VM)은 데이터검증부(220) 및 데이터검증부(220)과 연동하여 실행된다. The model generator 210 is for deep learning a verification model (VM), which is a deep learning model according to an embodiment of the present invention. That is, the model generator 210 trains the verification model VM to simulate the label vector (x) to calculate the simulated label vector (y). The trained verification model VM is executed in conjunction with the data verification unit 220 and the data verification unit 220 .

데이터검증부(220)는 라벨링부(120)로부터 라벨생성함수(LF)를 통해 라벨링된 센서 데이터를 수신하고, 데이터검증부(220)는 수신된 센서 데이터를 임시로 저장할 수 있다. 그리고 데이터검증부(220)는 센서 데이터 및 그 라벨을 이용하여 라벨벡터(x)를 생성한다. 생성된 라벨벡터(x)를 검증모델(VM)에 입력한다. 데이터검증부(220)는 학습이 완료된 검증모델(VM)이 라벨벡터(x)를 모사하여 모사라벨벡터(y)를 산출하면, 라벨벡터와 모사라벨벡터의 차이를 나타내는 모사손실이 검증모델(VM)의 학습 시, 기 산출된 임계치를 초과하는지 여부를 판단한다. 모사손실이 임계치 이상이면, 센서 데이터의 라벨에 이상이 있는 것으로 판단한다. The data verification unit 220 receives the sensor data labeled through the label generation function LF from the labeling unit 120, and the data verification unit 220 may temporarily store the received sensor data. And the data verification unit 220 generates a label vector (x) using the sensor data and the label. The generated label vector (x) is input to the verification model (VM). The data verification unit 220 calculates the simulation label vector (y) by simulating the label vector (x) by the training-complete verification model (VM), the simulation loss representing the difference between the label vector and the simulation label vector is calculated by the verification model ( VM), it is determined whether it exceeds a pre-calculated threshold. If the simulation loss is greater than or equal to the threshold, it is determined that there is an error in the label of the sensor data.

도 5를 참조하면, 검증모델(VM)은 인코더(encoder: EN) 및 디코더(decoder: DE)를 포함한다. Referring to FIG. 5 , the verification model VM includes an encoder (EN) and a decoder (DE).

인코더(EN)는 컨벌루션(Convolution) 연산 및 활성화함수에 의한 연산을 포함하는 복수의 컨벌루션층(Convolution Layer: CL)을 포함한다. 또한, 인코더(EN)는 복수의 컨벌루션층(CL) 각각에 연결되는 풀링층(Pooling Layer: PL)을 더 포함할 수 있다. 이러한 풀링층(PL)은 다운 샘플링(down-sampling)을 위한 것이다. The encoder EN includes a plurality of convolution layers (CL) including a convolution operation and an operation by an activation function. In addition, the encoder EN may further include a pooling layer (PL) connected to each of the plurality of convolutional layers CL. This pooling layer PL is for down-sampling.

디코더(DE)는 디컨벌루션(Deconvolution) 연산 및 활성화함수에 의한 연산을 포함하는 복수의 디컨벌루션층(Deconvolution Layer: DL)을 포함한다. 또한, 디코더(DE)는 복수의 디컨벌루션층(DL) 각각에 연결되는 언풀링층(Unpooling layer: UL)을 더 포함할 수 있다. 이러한 언풀링층(UL)은 업샘플링(up-sampling)을 하기 위한 것이다. The decoder DE includes a plurality of deconvolution layers (DLs) including a deconvolution operation and an operation by an activation function. Also, the decoder DE may further include an unpooling layer (UL) connected to each of the plurality of deconvolutional layers DL. The unpooling layer UL is for up-sampling.

전술한 복수의 컨벌루션층(CL) 혹은 복수의 디컨벌루션층(DL)에서 사용되는 활성화함수는 시그모이드(Sigmoid), 하이퍼볼릭탄젠트(tanh: Hyperbolic tangent), ELU(Exponential Linear Unit), ReLU(Rectified Linear Unit), Leakly ReLU, Maxout, Minout, Softmax 등을 예시할 수 있다. The activation functions used in the plurality of convolutional layers (CL) or the plurality of deconvolution layers (DL) described above are Sigmoid, Hyperbolic tangent (tanh), Exponential Linear Unit (ELU), and ReLU ( Rectified Linear Unit), Leakly ReLU, Maxout, Minout, Softmax, etc. can be exemplified.

전술한 바와 같이, 검증모델(VM)은 복수의 계층을 포함하며, 복수의 계층은 복수의 연산을 포함한다. 또한, 복수의 계층 간은 가중치(w: weight)로 연결된다. 어느 하나의 계층의 연산 결과는 가중치가 적용되어 다음 계층 노드의 입력이 된다. 즉, 검증모델(VM)의 어느 한 계층은 이전 계층으로부터 가중치를 적용한 값을 입력 받고, 이에 대한 연산을 수행하고, 그 연산 결과를 다음 계층의 입력으로 전달한다. As described above, the verification model VM includes a plurality of layers, and the plurality of layers includes a plurality of operations. In addition, a plurality of layers are connected by a weight (w: weight). The calculation result of one layer is weighted and becomes the input of the node of the next layer. That is, one layer of the verification model (VM) receives a weighted value from the previous layer, performs an operation on it, and transfers the operation result to the input of the next layer.

인코더(EN)는 라벨벡터(x)가 입력되는 경우, 입력된 라벨벡터(x)에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행하여 잠재벡터(Latent Vector: z)를 산출하여 출력할 수 있다. When a label vector (x) is input, the encoder (EN) calculates and outputs a latent vector (z) by performing a plurality of operations in which a plurality of inter-layer weights are applied to the input label vector (x). can do.

또한, 본 발명의 실시예에 따르면, 학습 시, 도 5에 도시된 바와 같이, 인코더(EN)는 디코더(DE)의 후방에 배치될 수 있다. 디코더(DE)의 전방에 배치된 인코더(EN)와의 구분을 위하여, 디코더(DE)의 후방에 배치된 인코더(EN)를 후방 인코더(EN)라고 칭하기로 한다. 후방 인코더(EN)는 학습용 모사라벨벡터(y)를 입력받을 수 있다. 이와 같이, 학습용 모사라벨벡터(y)가 입력되는 경우, 후방 인코더(EN)는 입력된 모사라벨벡터(y)에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행하여 학습용 모사잠재벡터(h)를 산출하여 출력할 수 있다. Further, according to an embodiment of the present invention, during learning, as shown in FIG. 5 , the encoder EN may be disposed behind the decoder DE. In order to distinguish it from the encoder EN disposed in front of the decoder DE, the encoder EN disposed behind the decoder DE will be referred to as a rear encoder EN. The backward encoder (EN) may receive a simulation label vector (y) for learning. In this way, when the replica label vector for learning (y) is input, the rear encoder (EN) performs a plurality of operations in which a plurality of inter-layer weights are applied to the input replica label vector (y) to perform a plurality of simulation potential vectors for learning ( h) can be calculated and output.

디코더(DE)는 인코더(EN)로부터 출력된 잠재벡터(z)가 입력되면, 잠재벡터(z)에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행하여 라벨벡터(x)를 모사하는 모사라벨벡터(y)를 생성한다. When the latent vector (z) output from the encoder (EN) is input, the decoder (DE) performs a plurality of operations in which a plurality of inter-layer weights are applied to the latent vector (z) to simulate the label vector (x). A copy label vector (y) is created.

다음으로, 본 발명의 실시예에 따른 반 약 지도 학습을 통해 자동으로 라벨링을 수행하기 위한 방법에 대해서 설명하기로 한다. 도 6은 본 발명의 실시예에 따른 반 약 지도 학습을 통해 자동으로 라벨링을 수행하기 위한 방법을 설명하기 위한 흐름도이다. Next, a method for automatically performing labeling through semi-weak supervised learning according to an embodiment of the present invention will be described. 6 is a flowchart illustrating a method for automatically performing labeling through semi-weak supervised learning according to an embodiment of the present invention.

도 6을 참조하면, 라벨링처리부(100)의 함수생성부(110)는 분류모델의 학습을 위해 사용하기 위해 실측값(ground truth)으로 라벨링된 기본 학습데이터에 결정 트리(decision tree) 분석을 실시하여 도출된 종료 마디를 이용하여 약지도 감독을 위한 라벨생성함수를 생성한다. 이를 위하여, 함수생성부(110)는 먼저, 구름 요소 베어링에서 발생하는 진동을 측정하고, 이러한 진동의 주파수의 특징을 추출하여 요인 변수로 설정한다. 이러한 요인 변수는 결정 트리 알고리즘의 목표변수로 라벨링된다. Referring to FIG. 6 , the function generating unit 110 of the labeling processing unit 100 performs a decision tree analysis on the basic training data labeled with a ground truth in order to be used for learning the classification model. Using the derived end node, a label generating function is created for the supervision of the abbreviation. To this end, the function generating unit 110 first measures the vibration generated in the rolling element bearing, extracts the frequency characteristics of the vibration, and sets it as a factor variable. These factor variables are labeled as target variables of the decision tree algorithm.

보다 구체적으로 설명하면, 함수생성부(110)는 S110 단계에서 센서 데이터를 마련한다. 이러한 센서 데이터는 기본 학습데이터가 될 수 있다. 특히, 센서 데이터는 진동센서(vibration sensor: VS)를 통해 고장 여부가 알려진 베어링에서 발생하는 진동을 측정한 것이다. 또한, 센서 데이터는 목표변수인 고장 여부로 라벨링된 상태이다. More specifically, the function generating unit 110 provides sensor data in step S110. Such sensor data may be basic learning data. In particular, the sensor data is a measurement of vibration occurring in a bearing whose failure is known through a vibration sensor (VS). In addition, the sensor data is in a state labeled with the target variable, whether or not there is a failure.

다음으로, 함수생성부(110)는 S120 단계에서 센서 데이터를 FFT(Fast Fourier Transform) 변환하여 FFT 변환 데이터를 생성한다. 그리고 함수생성부(110)는 S130 단계에서 FFT 변환 데이터를 스펙트럼 데이터로 변환한다. 이어서, 함수생성부(110)는 S140 단계에서 통계 알고리즘을 이용하여 스펙트럼 데이터에서 특징을 추출하여 요인 변수를 설정한다. 예컨대, 통계 알고리즘을 통해 추출되는 특징은 스펙트럼 통계적 특징, 스펙트럼 영역 분리 특징을 포함한다. 또한, 추가적인 실시예에 따르면, 센서 데이터에서 직접 특징을 추출할 수 있다. 센서 데이터에서 직접 추출되는 특징은 타임도메인 특징을 포함한다. 스펙트럼 통계적 특징은 root mean square frequency (RMSF), root variance frequency (RVF), spectral density (SD), 평균(mean), 편포도(skewness), 첨도(kurtosis), 엔트로피(entropy), 합(sum) 등을 포함한다. 스펙트럼 영역 분리 특징은 상, 중, 하 영역(high spectrum, mid spectrum, sub spectrum)을 포함한다. 그리고 타임도메인 특징은 실효치(root mean square :rms), 최대절대값(max absolute value), peek to peek[abs(max(x))+abs(min(x))], 자기회귀계수(autoressive coefficients) 등을 포함한다. Next, the function generating unit 110 generates FFT transformed data by performing FFT (Fast Fourier Transform) transformation on the sensor data in step S120 . And the function generator 110 converts the FFT-converted data into spectral data in step S130. Next, the function generator 110 sets factor variables by extracting features from the spectral data using a statistical algorithm in step S140 . For example, the features extracted through the statistical algorithm include spectral statistical features and spectral domain separation features. Also, according to an additional embodiment, a feature may be directly extracted from sensor data. Features directly extracted from sensor data include time domain features. Spectral statistical characteristics include root mean square frequency (RMSF), root variance frequency (RVF), spectral density (SD), mean, skewness, kurtosis, entropy, and sum. etc. The spectral region separation feature includes upper, middle, and lower regions (high spectrum, mid spectrum, and sub spectrum). And time domain features include root mean square (rms), max absolute value, peek to peek[abs(max(x))+abs(min(x))], autoressive coefficients ), etc.

다음으로, 함수생성부(110)는 S150 단계에서 앞서 설정된 요인변수와 라벨링된 목표변수를 통해 결정 트리 알고리즘 분석을 수행하고, 이를 통해 도출되는 종료 마디를 이용하여 라벨생성함수를 도출한다. 요인 변수는 결정 트리 알고리즘에서 입력 변수가 된다. 즉, 도 3에 도시된 바와 같이, 결정 트리의 시작(root) 마디로부터 복수의 종료 마디까지 순차로 연결되는 모든 마디들의 분리조건을 연결하여 라벨생성함수(LF)를 도출한다. Next, the function generating unit 110 performs a decision tree algorithm analysis through the factor variables and the labeled target variables previously set in step S150, and derives the label generating function using the end node derived therefrom. The factor variable becomes the input variable in the decision tree algorithm. That is, as shown in FIG. 3, the label generation function LF is derived by connecting the separation conditions of all nodes sequentially connected from the root node of the decision tree to the plurality of ending nodes.

다음으로, 라벨링부(120)는 S160 단계에서 라벨생성함수(LF)를 이용하여 라벨이 지정되지 않은 원시 학습데이터에 라벨을 부여하는 약한 라벨링(weak labeling)을 수행한다. Next, the labeling unit 120 performs weak labeling by using the label generation function (LF) in step S160 to assign a label to the unlabeled raw learning data.

한편, 본 발명에 따르면, 전술한 약한 라벨링(weak labeling)을 수행한 데이터를 검증하기 위한 검증모델이 제공된다. 이러한 검증모델은 학습모델이다. 본 발명에 따르면, 전술한 인코더(EN) 및 디코더(DE)를 포함하는 검증모델(VM)을 이용하여 약한 라벨링을 수행한 데이터의 이상 검증함으로써 정상 상태를 유지하도록 할 수 있다. 이러한 학습모델을 생성하는 방법에 대해서 설명하기로 한다. 도 7은 본 발명의 실시예에 따른 약한 라벨링을 수행한 데이터의 이상 검증하기 위한 검증모델(VM)을 생성하는 방법을 설명하기 위한 흐름도이다. Meanwhile, according to the present invention, a verification model for verifying data on which the aforementioned weak labeling has been performed is provided. This verification model is a learning model. According to the present invention, it is possible to maintain a normal state by verifying anomalies of data on which weak labeling has been performed using the verification model VM including the above-described encoder EN and decoder DE. A method of generating such a learning model will be described. 7 is a flowchart illustrating a method of generating a verification model (VM) for verifying anomalies of data subjected to weak labeling according to an embodiment of the present invention.

도 5 및 도 7을 참조하면, 모델생성부(210)는 S210 단계에서 검증모델(VM)을 초기화한다. 이러한 초기화는 검증모델(VM)의 파라미터, 즉, 가중치(w)를 초기화하는 것을 의미한다. 초기화가 완료되면, 모델생성부(210)는 S220 단계에서 학습용 초기화된 검증모델(VM)에 학습용 라벨벡터(x)를 마련한다. 학습용 라벨벡터(x)는 센서 데이터 및 센서 데이터에 대한 라벨을 포함한다. 이러한 센서 데이터는 진동센서(vibration sensor: VS)를 통해 베어링에서 발생하는 진동을 측정한 것이다. 또한, 라벨은 베어링의 고장 여부이다. 5 and 7 , the model generator 210 initializes the verification model VM in step S210. This initialization means initializing the parameters of the verification model VM, that is, the weight w. When the initialization is completed, the model generation unit 210 prepares the training label vector (x) in the initialized verification model (VM) for training in step S220. The training label vector (x) includes sensor data and labels for sensor data. This sensor data is a vibration sensor (vibration sensor: VS) that measures the vibration generated in the bearing. Also, the label is whether the bearing is faulty.

이어서, 모델생성부(210)는 S230 단계에서 생성된 학습용 라벨벡터(x)를 검증모델(VM)에 입력한다. Next, the model generation unit 210 inputs the training label vector (x) generated in step S230 to the verification model (VM).

그러면, 검증모델(VM)은 S240 단계에서 학습용 라벨벡터(x)에 대해 인코더(EN), 디코더(DE) 및 후방 인코더(EN)에 의한 연산을 수행한다. 이러한 연산에 대해 보다 상세하게 설명하면 다음과 같다. 먼저, 인코더(EN)는 학습용 라벨벡터(x)에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행하여 학습용 잠재벡터(z)를 산출한다. 이어서, 디코더(DE)는 학습용 잠재벡터(z)에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행하여 학습용 모사라벨벡터(y)를 산출한다. 그런 다음, 후방 인코더(EN)는 학습용 모사라벨벡터(y)에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행하여 학습용 모사잠재벡터(h)를 산출한다. Then, the verification model (VM) performs an operation by the encoder (EN), the decoder (DE) and the backward encoder (EN) on the training label vector (x) in step S240. These operations will be described in more detail as follows. First, the encoder (EN) calculates a learning latent vector (z) by performing a plurality of operations to which a plurality of inter-layer weights are applied to the learning label vector (x). Next, the decoder DE calculates a simulation label vector y for learning by performing a plurality of operations in which a plurality of inter-layer weights are applied to the learning latent vector z. Then, the backward encoder (EN) calculates a simulation latent vector (h) for learning by performing a plurality of operations in which a plurality of inter-layer weights are applied to the simulation label vector (y) for learning.

다음으로, 모델생성부(210)는 S250 단계에서 학습용 모사잠재벡터(h)와 학습용 잠재벡터(z)와의 차이를 나타내는 모사잠재손실(Lz)을 산출하고, 학습용 모사라벨벡터(y)와 학습용 라벨벡터(x)와의 차이를 나타내는 모사손실(Ld)을 산출함으로써 전체 손실을 산출한다. Next, the model generation unit 210 calculates a simulation potential loss (Lz) representing the difference between the simulation potential vector (h) for learning and the latent vector for learning (z) in step S250, and the simulation label vector for learning (y) and for learning The total loss is calculated by calculating the simulation loss (Ld) representing the difference from the label vector (x).

모사잠재손실(Lz)은 다음의 수학식 1과 같다. The simulated potential loss (Lz) is expressed in Equation 1 below.

Figure 112021054535784-pat00007
Figure 112021054535784-pat00007

여기서, Lz는 모사잠재손실을 나타낸다. z는 학습용 잠재벡터이고, h는 학습용 모사잠재벡터를 나타낸다. 또한, i 및 n은 학습에 사용되는 복수의 데이터의 인덱스의 인덱스이다. Here, Lz represents the simulated potential loss. z is a latent vector for learning, and h is a simulation latent vector for learning. In addition, i and n are indexes of indexes of a plurality of data used for learning.

또한, 모사손실(Ld)은 다음의 수학식 2와 같다. In addition, the simulation loss (Ld) is as shown in Equation 2 below.

Figure 112021054535784-pat00008
Figure 112021054535784-pat00008

수학식 2에서 Ld는 모사손실을 나타내며, x는 학습용 라벨벡터이고, y는 학습용 모사라벨벡터이다. 또한, i 및 n은 학습에 사용되는 복수의 데이터의 인덱스를 나타낸다. In Equation 2, Ld denotes a simulation loss, x is a label vector for learning, and y is a simulation label vector for learning. In addition, i and n indicate indexes of a plurality of data used for learning.

그런 다음, 모델생성부(210)는 S260 단계에서 모사손실(Ld) 및 모사잠재손실(Lz)을 포함하는 전체 손실이 최소화되도록 역전파(Backpropagation) 알고리즘을 통해 검증모델(VM)의 가중치(w)를 갱신하는 최적화를 수행한다. Then, the model generation unit 210 is the weight (w) of the verification model (VM) through a backpropagation algorithm so that the total loss including the simulation loss (Ld) and the simulation potential loss (Lz) is minimized in step S260 ) to update the optimization.

전술한 S220 단계 내지 S260 단계는 서로 다른 복수의 학습용 라벨벡터(x)를 이용하여 산출되는 전체 손실이 기 설정된 기준치 이하가 될 때까지 반복하여 가중치(w)가 갱신되도록 반복 수행될 수 있다. 이를 위하여, 모델생성부(210)은 S170 단계에서 전체 손실이 기 설정된 기준치 이하인지 여부를 판별하여 학습 완료 여부를 판단한다. 즉, 모델생성부(210)는 전체 손실이 기 설정된 기준치 이하인 경우, 학습이 충분히 이루어진 것으로 판단하여 학습 완료를 결정한다. Steps S220 to S260 described above may be repeatedly performed so that the weight w is updated repeatedly until the total loss calculated using a plurality of different learning label vectors x is less than or equal to a preset reference value. To this end, the model generator 210 determines whether the learning is completed by determining whether the total loss is less than or equal to a preset reference value in step S170. That is, when the total loss is less than or equal to a preset reference value, the model generator 210 determines that learning has been sufficiently accomplished and determines completion of learning.

학습이 완료되면, 모델생성부(210)는 S280 단계에서 라벨벡터(x)와 모사라벨벡터(y)와의 차이, 즉, 모사손실의 임계치(T)를 산출한다. 이러한 임계치(T)는 다음의 수학식 3에 따라 산출된다. When the learning is completed, the model generation unit 210 calculates the difference between the label vector (x) and the simulation label vector (y), that is, the threshold value (T) of the simulation loss in step S280. This threshold value T is calculated according to the following Equation (3).

Figure 112021054535784-pat00009
Figure 112021054535784-pat00009

수학식 3에서, T는 임계치를 나타낸다. 또한, m은 복수의 학습용 모사라벨벡터(y)와 복수의 학습용 라벨벡터(x)와의 차이를 나타내는 모사손실(Ld)의 평균을 나타낸다. d는 복수의 학습용 모사라벨벡터(y)와 복수의 학습용 라벨벡터(x)와의 차이를 나타내는 모사손실(Ld)의 표준편차이다. w는 모사손실(Ld)의 표준편차에 대한 가중치이며, 미리 설정되는 값이다. In Equation 3, T represents a threshold. In addition, m represents the average of the simulation loss (Ld) representing the difference between the plurality of training label vectors (y) and the plurality of training label vectors (x). d is the standard deviation of the simulation loss (Ld) representing the difference between the plurality of training label vectors (y) and the plurality of training label vectors (x). w is a weight for the standard deviation of the simulation loss (Ld), and is a preset value.

전술한 바와 같은 절차에 따라 검증모델(VM)에 대한 학습이 완료되면, 검증모델(VM)을 이용하여 반 약 지도 학습을 통해 자동으로 라벨링된 데이터의 이상 여부를 확인할 수 있다. 이러한 방법에 대해서 설명하기로 한다. 도 8은 본 발명의 실시예에 따른 반 약 지도 학습을 통해 자동으로 라벨링된 데이터의 이상 여부를 검증하기 위한 방법을 설명하기 위하 흐름도이다. When the learning of the verification model (VM) is completed according to the procedure as described above, it is possible to check whether the labeled data is abnormal through semi-weak supervised learning using the verification model (VM). These methods will be described. 8 is a flowchart illustrating a method for verifying whether or not automatically labeled data is abnormal through semi-weak supervised learning according to an embodiment of the present invention.

도 8을 참조하면, 검증부(210)의 데이터검증부(220)는 S310 단계에서 라벨링부(120)로부터 전술한 도 6에서 설명된 바와 같은 방법으로 라벨생성함수(LF)를 통해 라벨링된 센서 데이터를 수신할 수 있다. 그러면, 데이터검증부(220)는 S320 단계에서 수신된 센서 데이터 및 그 라벨을 통해 라벨벡터(x)를 생성한다. Referring to FIG. 8 , the data verification unit 220 of the verification unit 210 is a sensor labeled through the label generation function (LF) in the same manner as described in FIG. 6 above from the labeling unit 120 in step S310. data can be received. Then, the data verification unit 220 generates a label vector (x) through the sensor data and the label received in step S320.

이어서, 데이터검증부(220)는 S330 단계에서 라벨벡터(x)를 도 7에서 설명된 바에 따라 학습이 완료된 검증모델(VM)에 입력한다. Next, the data verification unit 220 inputs the label vector (x) to the verification model (VM) in which learning is completed as described in FIG. 7 in step S330.

그러면, 검증모델(VM)은 S340 단계에서 입력된 라벨벡터(x)를 모사하여 모사라벨벡터(pseudo-sensor vector)를 산출한다. 즉, 검증모델(VM)의 인코더(EN)는 라벨벡터(x)에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행하여 잠재벡터(z)를 산출하고, 검증모델(VM)의 디코더(DE)는 잠재벡터(z)에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행하여 모사라벨벡터(y)를 산출한다. Then, the verification model (VM) calculates a pseudo-sensor vector by simulating the label vector (x) input in step S340. That is, the encoder EN of the verification model VM calculates a latent vector z by performing a plurality of operations in which a plurality of inter-layer weights are applied to the label vector x, and the decoder of the verification model VM (DE) calculates a simulated label vector (y) by performing a plurality of operations in which a plurality of inter-layer weights are applied to the latent vector (z).

데이터검증부(220)는 S350 단계에서 모사라벨벡터(y)와 라벨벡터(x)의 차이를 나타내는 모사손실(Ld)이 앞서 S380 단계에서 산출된 임계치(T)를 초과하는지 여부를 판단한다. The data verification unit 220 determines whether the simulation loss (Ld) representing the difference between the simulation label vector (y) and the label vector (x) exceeds the threshold value (T) calculated in the step S380 in step S350 .

S250 단계의 판단 결과, 모사손실이 임계치(T) 이상이면, 데이터검증부(220)는 S260 단계에서 해당 센서 데이터에 대한 라벨링이 이상이 있는 것으로 판정한다. 데이터검증부(220)는 센서 데이터에 대한 라벨링이 이상이 있는 것으로 판정되면, 해당 센서 데이터를 폐기할 수 있다. As a result of the determination in step S250, if the simulation loss is greater than or equal to the threshold value T, the data verification unit 220 determines that there is an abnormality in the labeling of the corresponding sensor data in step S260. When it is determined that the labeling of the sensor data is abnormal, the data verification unit 220 may discard the corresponding sensor data.

도 9는 본 발명의 실시예에 따른 컴퓨팅 장치를 나타내는 도면이다. 도 9의 컴퓨팅 장치(TN100)는 본 명세서에서 기술된 장치, 예컨대, 라벨링장치(10)가 될 수 있다. 9 is a diagram illustrating a computing device according to an embodiment of the present invention. The computing device TN100 of FIG. 9 may be the device described herein, for example, the labeling device 10 .

도 9의 실시예에서, 컴퓨팅 장치(TN100)는 적어도 하나의 프로세서(TN110), 송수신 장치(TN120), 및 메모리(TN130)를 포함할 수 있다. 또한, 컴퓨팅 장치(TN100)는 저장 장치(TN140), 입력 인터페이스 장치(TN150), 출력 인터페이스 장치(TN160) 등을 더 포함할 수 있다. 컴퓨팅 장치(TN100)에 포함된 구성 요소들은 버스(bus)(TN170)에 의해 연결되어 서로 통신을 수행할 수 있다.In the embodiment of FIG. 9 , the computing device TN100 may include at least one processor TN110 , a transceiver device TN120 , and a memory TN130 . In addition, the computing device TN100 may further include a storage device TN140 , an input interface device TN150 , an output interface device TN160 , and the like. Components included in the computing device TN100 may be connected by a bus TN170 to communicate with each other.

프로세서(TN110)는 메모리(TN130) 및 저장 장치(TN140) 중에서 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(TN110)는 중앙 처리 장치(CPU: central processing unit), 그래픽 처리 장치(GPU: graphics processing unit), 또는 본 발명의 실시예에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 프로세서(TN110)는 본 발명의 실시예와 관련하여 기술된 절차, 기능, 및 방법 등을 구현하도록 구성될 수 있다. 프로세서(TN110)는 컴퓨팅 장치(TN100)의 각 구성 요소를 제어할 수 있다. The processor TN110 may execute a program command stored in at least one of the memory TN130 and the storage device TN140. The processor TN110 may mean a central processing unit (CPU), a graphics processing unit (GPU), or a dedicated processor on which methods according to an embodiment of the present invention are performed. The processor TN110 may be configured to implement procedures, functions, and methods described in connection with an embodiment of the present invention. The processor TN110 may control each component of the computing device TN100 .

메모리(TN130) 및 저장 장치(TN140) 각각은 프로세서(TN110)의 동작과 관련된 다양한 정보를 저장할 수 있다. 메모리(TN130) 및 저장 장치(TN140) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(TN130)는 읽기 전용 메모리(ROM: read only memory) 및 랜덤 액세스 메모리(RAM: random access memory) 중에서 적어도 하나로 구성될 수 있다.Each of the memory TN130 and the storage device TN140 may store various information related to the operation of the processor TN110. Each of the memory TN130 and the storage device TN140 may be configured as at least one of a volatile storage medium and a nonvolatile storage medium. For example, the memory TN130 may include at least one of a read only memory (ROM) and a random access memory (RAM).

송수신 장치(TN120)는 유선 신호 또는 무선 신호를 송신 또는 수신할 수 있다. 송수신 장치(TN120)는 네트워크에 연결되어 통신을 수행할 수 있다. The transceiver TN120 may transmit or receive a wired signal or a wireless signal. The transceiver TN120 may be connected to a network to perform communication.

한편, 전술한 본 발명의 실시예에 따른 방법은 다양한 컴퓨터수단을 통하여 판독 가능한 프로그램 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. Meanwhile, the method according to the embodiment of the present invention described above may be implemented in the form of a program readable by various computer means and recorded in a computer readable recording medium. Here, the recording medium may include a program command, a data file, a data structure, etc. alone or in combination. The program instructions recorded on the recording medium may be specially designed and configured for the present invention, or may be known and available to those skilled in the art of computer software. For example, the recording medium includes magnetic media such as hard disks, floppy disks and magnetic tapes, optical recording media such as CD-ROMs and DVDs, and magneto-optical media such as floppy disks ( magneto-optical media) and hardware devices specially configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions may include high-level languages that can be executed by a computer using an interpreter or the like as well as machine language such as generated by a compiler. Such hardware devices may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 이와 같이, 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 균등론에 따라 다양한 변화와 수정을 가할 수 있음을 이해할 것이다. Although the present invention has been described above using several preferred embodiments, these examples are illustrative and not restrictive. As such, those of ordinary skill in the art to which the present invention pertains will understand that various changes and modifications can be made in accordance with the doctrine of equivalents without departing from the spirit of the present invention and the scope of rights set forth in the appended claims.

10: 라벨링장치
100: 라벨링처리부
110: 함수생성부
120: 라벨링부
200: 검증부
210: 모델생성부
220: 데이터검증부
10: labeling device
100: labeling processing unit
110: function generator
120: labeling unit
200: verification unit
210: model generation unit
220: data verification unit

Claims (22)

자동으로 라벨링을 수행하기 위한 방법에 있어서,
함수생성부가 실측값에 의해 라벨링된 기본 학습데이터에 대해 결정 트리 분석을 실시하여 라벨생성함수를 생성하는 단계; 및
라벨링부가 상기 라벨생성함수를 이용하여 라벨이 지정되지 않은 원시 학습데이터에 라벨을 부여하는 약 라벨링을 수행하는 단계;
를 포함하며,
데이터검증부가 상기 라벨생성함수를 통해 라벨링된 센서 데이터를 수신하면, 수신된 센서 데이터 및 그 라벨을 통해 라벨벡터를 생성하는 단계;
상기 데이터검증부가 모사라벨벡터를 생성하도록 학습이 완료된 검증모델에 상기 라벨벡터를 입력하는 단계;
상기 검증모델이 상기 라벨벡터를 모사하여 모사라벨벡터를 산출하는 단계;
상기 데이터검증부가 상기 라벨벡터와 상기 모사라벨벡터의 차이를 나타내는 모사손실이 학습 시 산출된 임계치를 초과하는지 여부를 판단하는 단계;
상기 모사손실이 상기 임계치 이상이면, 상기 데이터검증부가 상기 수신된 센서 데이터의 라벨에 이상이 있는 것으로 판단하는 단계;
를 포함하는 것을 특징으로 하는
자동으로 라벨링을 수행하기 위한 방법.
In a method for automatically performing labeling,
generating a label generating function by performing a decision tree analysis on the basic learning data labeled by the actual value by the function generating unit; and
performing drug labeling in which a labeling unit assigns a label to the raw learning data that is not labeled using the label generation function;
includes,
generating a label vector based on the received sensor data and the label when the data verification unit receives the labeled sensor data through the label generating function;
inputting the label vector into a verification model that has been trained so that the data verification unit generates a simulated label vector;
calculating, by the verification model, a simulated label vector by simulating the label vector;
determining, by the data verification unit, whether the simulation loss representing the difference between the label vector and the simulated label vector exceeds a threshold calculated during learning;
determining that there is an abnormality in the label of the received sensor data by the data verification unit when the simulation loss is greater than or equal to the threshold;
characterized in that it comprises
A method for performing labeling automatically.
제1항에 있어서,
상기 라벨생성함수를 생성하는 단계는
함수생성부가 구름 요소 베어링에서 발생하는 주파수의 특징을 추출하여 요인변수로 설정하는 단계; 및
함수생성부가 상기 요인변수와 실측값에 의해 라벨링된 기본 학습데이터에 대한 목표변수를 통해 결정 트리 알고리즘 분석을 수행하여 도출되는 종료 마디를 이용하여 라벨생성함수를 도출하는 단계;
를 포함하는 것을 특징으로 하는
자동으로 라벨링을 수행하기 위한 방법.
According to claim 1,
The step of generating the label generating function is
extracting, by a function generating unit, a characteristic of a frequency occurring in a rolling element bearing and setting it as a factor variable; and
deriving a label generating function using an end node derived by a function generator performing a decision tree algorithm analysis through a target variable on the basic learning data labeled by the factor variable and the actual value;
characterized in that it comprises
A method for performing labeling automatically.
제2항에 있어서,
상기 요인 변수로 설정하는 단계는
함수생성부가 진동센서를 통해 고장 여부가 알려진 베어링에서 발생하는 진동이 측정되고 상기 고장 여부가 레이블링된 센서 데이터를 마련하는 단계;
함수생성부가 센서 데이터를 FFT 변환하여 FFT 변환 데이터를 생성하는 단계;
함수생성부가 상기 FFT 변환 데이터를 스펙트럼 데이터로 변환하는 단계;
함수생성부가 통계 알고리즘을 이용하여 상기 스펙트럼 데이터에서 특징을 추출하여 요인 변수를 설정하는 단계;
를 포함하는 것을 특징으로 하는
자동으로 라벨링을 수행하기 위한 방법.
3. The method of claim 2,
The step of setting as the factor variable is
providing sensor data in which the function generator measures vibration occurring in a bearing whose failure is known through a vibration sensor and labels the failure;
FFT-converting the sensor data by a function generator to generate FFT-converted data;
converting the FFT-converted data into spectral data by a function generator;
setting factor variables by extracting features from the spectral data by a function generator using a statistical algorithm;
characterized in that it comprises
A method for performing labeling automatically.
삭제delete 삭제delete 삭제delete 제1항에 있어서,
상기 라벨벡터를 생성하는 단계 전,
모델생성부가 복수의 학습용 라벨벡터를 이용하여 검증모델을 학습시키는 단계;
를 더 포함하며,
상기 검증모델을 학습시키는 단계는
모델생성부가 상기 실측값으로 라벨링된 기본 학습데이터로부터 학습용 라벨벡터를 생성하는 단계;
상기 모델생성부가 상기 학습용 라벨벡터를 초기화된 검증모델에 입력하는 단계;
상기 모델생성부가 상기 학습용 라벨벡터에 대한 검증모델의 연산 결과에 따라 모사손실 및 모사잠재손실을 포함하는 전체 손실을 산출하는 단계;
상기 모델생성부가 상기 전체 손실이 최소가 되도록 상기 검증모델의 파라미터를 갱신하는 최적화를 수행하는 단계;
를 포함하는 것을 특징으로 하는
자동으로 라벨링을 수행하기 위한 방법.
According to claim 1,
Before the step of generating the label vector,
learning the verification model by the model generator using a plurality of training label vectors;
further comprising,
The step of training the verification model is
generating, by a model generator, a label vector for training from the basic training data labeled with the actual value;
inputting, by the model generator, the label vector for training into an initialized verification model;
calculating, by the model generator, a total loss including a simulation loss and a simulation potential loss according to an operation result of a verification model for the training label vector;
performing, by the model generator, optimization of updating the parameters of the verification model so that the overall loss is minimized;
characterized in that it comprises
A method for performing labeling automatically.
제7항에 있어서,
상기 전체 손실을 산출하는 단계는
상기 검증모델의 인코더가 상기 학습용 라벨벡터에 대한 가중치 연산을 통해 학습용 잠재벡터를 산출하는 단계;
상기 검증모델의 디코더가 상기 학습용 잠재벡터에 대한 가중치 연산을 통해 상기 학습용 라벨벡터를 모사하는 학습용 모사라벨벡터를 산출하는 단계;
상기 검증모델의 후방 인코더가 상기 학습용 모사라벨벡터에 대한 가중치 연산을 상기 학습용 잠재벡터를 모사하는 학습용 모사잠재벡터를 산출하는 단계;
상기 모델생성부가 상기 학습용 모사잠재벡터와 상기 학습용 잠재벡터와의 차이를 나타내는 모사잠재손실을 산출하는 단계; 및
상기 모델생성부가 상기 학습용 모사라벨벡터와 상기 학습용 라벨벡터와의 차이를 나타내는 모사손실을 산출하는 단계;
를 포함하는 것을 특징으로 하는
자동으로 라벨링을 수행하기 위한 방법.
8. The method of claim 7,
The step of calculating the total loss is
calculating, by the encoder of the verification model, a latent vector for learning through weight calculation on the label vector for learning;
calculating, by the decoder of the verification model, a simulation label vector for learning that simulates the label vector for learning through weight calculation on the latent vector for learning;
calculating, by the backward encoder of the verification model, a simulation latent vector for learning that simulates the latent vector for learning by performing weight calculation on the simulation label vector for learning;
calculating, by the model generator, a simulation potential loss representing a difference between the training latent vector and the training latent vector; and
calculating, by the model generator, a simulation loss representing a difference between the training label vector and the training label vector;
characterized in that it comprises
A method for performing labeling automatically.
제8항에 있어서,
상기 모사손실을 산출하는 단계는
상기 모델생성부가 수학식
Figure 112021054535784-pat00010
에 따라 모사손실을 산출하고,
상기 Ld은 상기 모사손실이고,
상기 x는 학습용 라벨벡터이고,
상기 y는 학습용 모사라벨벡터인 것을 특징으로 하는
자동으로 라벨링을 수행하기 위한 방법.
9. The method of claim 8,
The step of calculating the simulation loss is
The model generation unit
Figure 112021054535784-pat00010
Calculate the simulation loss according to
The Ld is the simulation loss,
Where x is a label vector for learning,
wherein y is a simulated label vector for learning
A method for performing labeling automatically.
제8항에 있어서,
상기 학습용 모사잠재벡터와 상기 학습용 잠재벡터와의 차이를 나타내는 모사잠재손실을 산출하는 단계는
상기 모델생성부가 수학식
Figure 112021054535784-pat00011
에 따라 모사잠재손실을 산출하고,
상기 Lz는 상기 모사잠재손실이고,
상기 z는 학습용 잠재벡터이고,
상기 h는 학습용 모사잠재벡터인 것을 특징으로 하는
자동으로 라벨링을 수행하기 위한 방법.
9. The method of claim 8,
The step of calculating the simulation potential loss representing the difference between the simulation latent vector for learning and the latent vector for learning is
The model generation unit
Figure 112021054535784-pat00011
Calculate the simulated potential loss according to
The Lz is the simulation potential loss,
wherein z is a latent vector for learning,
wherein h is a simulation latent vector for learning
A method for performing labeling automatically.
제7항에 있어서,
상기 검증모델을 학습시키는 단계 후,
상기 모델생성부가
수학식
Figure 112021054535784-pat00012
에 따라 임계치를 산출하는 단계;
를 더 포함하며,
상기 T는 상기 임계치이고,
상기 m은 상기 복수의 학습용 모사라벨벡터와 상기 복수의 학습용 라벨벡터와의 차이를 나타내는 모사손실의 평균이고,
상기 d는 상기 복수의 학습용 모사라벨벡터와 상기 복수의 학습용 라벨벡터와의 차이를 나타내는 모사손실의 표준편차이고,
상기 w는 상기 모사손실의 표준편차에 대한 가중치인 것
을 특징으로 하는
자동으로 라벨링을 수행하기 위한 방법.
8. The method of claim 7,
After the step of training the verification model,
The model generation unit
formula
Figure 112021054535784-pat00012
calculating a threshold according to
further comprising,
wherein T is the threshold,
Wherein m is the average of the simulation loss representing the difference between the plurality of training label vectors and the plurality of training label vectors,
Wherein d is the standard deviation of the simulation loss representing the difference between the plurality of training label vectors and the plurality of training label vectors,
The w is the weight for the standard deviation of the simulation loss
characterized by
A method for performing labeling automatically.
자동으로 라벨링을 수행하기 위한 장치에 있어서,
실측값에 의해 라벨링된 기본 학습데이터에 대해 결정 트리 분석을 실시하여 라벨생성함수를 생성하는 함수생성부;
상기 라벨생성함수를 이용하여 라벨이 지정되지 않은 원시 학습데이터에 라벨을 부여하는 약 라벨링을 수행하는 라벨링부;
를 포함하며,
상기 라벨생성함수를 통해 라벨링된 센서 데이터를 수신하면, 수신된 센서 데이터 및 그 라벨을 통해 라벨벡터를 생성하고,
모사라벨벡터를 생성하도록 학습이 완료된 검증모델에 상기 라벨벡터를 입력하고,
상기 검증모델이 상기 라벨벡터를 모사하여 모사라벨벡터를 산출하면,
상기 라벨벡터와 상기 모사라벨벡터의 차이를 나타내는 모사손실이 학습 시 산출된 임계치를 초과하는지 여부를 판단하여 상기 모사손실이 상기 임계치 이상이면, 상기 수신된 센서 데이터의 라벨에 이상이 있는 것으로 판단하는
데이터검증부;
를 더 포함하는 것을 특징으로 하는
자동으로 라벨링을 수행하기 위한 장치.
In the apparatus for automatically performing labeling,
a function generator for generating a label generating function by performing a decision tree analysis on the basic learning data labeled by the measured values;
a labeling unit for performing drug labeling for applying a label to raw learning data that is not labeled by using the label generating function;
includes,
When the labeled sensor data is received through the label generation function, a label vector is generated through the received sensor data and the label,
Input the label vector to the verification model that has been trained to generate a simulated label vector,
When the verification model simulates the label vector and calculates the simulated label vector,
It is determined whether the simulation loss representing the difference between the label vector and the simulation label vector exceeds the threshold calculated during learning, and if the simulation loss is greater than or equal to the threshold, it is determined that there is an abnormality in the label of the received sensor data
data verification unit;
characterized in that it further comprises
Device for performing labeling automatically.
제12항에 있어서,
상기 함수생성부는
구름 요소 베어링에서 발생하는 주파수의 특징을 추출하여 요인변수로 설정하고,
상기 요인변수와 실측값에 의해 라벨링된 기본 학습데이터에 대한 목표변수를 통해 결정 트리 알고리즘 분석을 수행하여 도출되는 종료 마디를 이용하여 라벨생성함수를 도출하는 것을 특징으로 하는
자동으로 라벨링을 수행하기 위한 장치.
13. The method of claim 12,
The function generating unit
Extract the characteristics of the frequency occurring in the rolling element bearing and set it as a factor variable,
Characterized in deriving a label generating function using the ending node derived by performing a decision tree algorithm analysis through the target variable for the basic learning data labeled by the factor variable and the actual value.
Device for performing labeling automatically.
제13항에 있어서,
상기 함수생성부는
진동센서를 통해 고장 여부가 알려진 베어링에서 발생하는 진동이 측정되고 상기 고장 여부가 레이블링된 센서 데이터를 마련하고,
센서 데이터를 FFT 변환하여 FFT 변환 데이터를 생성하고,
상기 FFT 변환 데이터를 스펙트럼 데이터로 변환하고,
통계 알고리즘을 이용하여 상기 스펙트럼 데이터에서 특징을 추출하여 요인 변수를 설정하는 것을 특징으로 하는
자동으로 라벨링을 수행하기 위한 장치.
14. The method of claim 13,
The function generating unit
Vibration occurring in the bearing for which the failure is known is measured through the vibration sensor, and sensor data labeled with the failure is prepared,
FFT transforms sensor data to generate FFT transform data,
converting the FFT-converted data into spectral data;
Characterized in setting factor variables by extracting features from the spectral data using a statistical algorithm
Device for performing labeling automatically.
삭제delete 삭제delete 삭제delete 제12항에 있어서,
복수의 학습용 라벨벡터를 이용하여 검증모델을 학습시키는 모델생성부;
를 더 포함하며,
상기 모델생성부는
상기 실측값으로 라벨링된 기본 학습데이터로부터 학습용 라벨벡터를 생성하고,
상기 학습용 라벨벡터를 초기화된 검증모델에 입력하고,
상기 학습용 라벨벡터에 대한 검증모델의 연산 결과에 따라 모사손실 및 모사잠재손실을 포함하는 전체 손실을 산출하고,
상기 전체 손실이 최소가 되도록 상기 검증모델의 파라미터를 갱신하는 최적화를 수행하는 것을 특징으로 하는
자동으로 라벨링을 수행하기 위한 장치.
13. The method of claim 12,
a model generator for learning the verification model using a plurality of learning label vectors;
further comprising,
The model generation unit
A label vector for learning is generated from the basic learning data labeled with the measured value,
Input the label vector for training into the initialized verification model,
Calculate the total loss including the simulation loss and the simulation potential loss according to the operation result of the verification model for the training label vector,
characterized in that performing optimization to update the parameters of the verification model so that the overall loss is minimized
Device for performing labeling automatically.
제18항에 있어서,
상기 검증모델은 인코더, 디코더 및 후방 인코더를 포함하며,
상기 인코더가 상기 학습용 라벨벡터에 대한 가중치 연산을 통해 학습용 잠재벡터를 산출하고,
상기 디코더가 상기 학습용 잠재벡터에 대한 가중치 연산을 통해 상기 학습용 라벨벡터를 모사하는 학습용 모사라벨벡터를 산출하고,
상기 후방 인코더가 상기 학습용 모사라벨벡터에 대한 가중치 연산을 상기 학습용 잠재벡터를 모사하는 학습용 모사잠재벡터를 산출하면,
상기 모델생성부가 상기 학습용 모사잠재벡터와 상기 학습용 잠재벡터와의 차이를 나타내는 모사잠재손실을 산출하고,
상기 학습용 모사라벨벡터와 상기 학습용 라벨벡터와의 차이를 나타내는 모사손실을 산출하는 것을 특징으로 하는
자동으로 라벨링을 수행하기 위한 장치.
19. The method of claim 18,
The verification model includes an encoder, a decoder and a backward encoder,
The encoder calculates a latent vector for learning through weight calculation on the label vector for learning,
The decoder calculates a simulation label vector for learning that simulates the label vector for learning through weight calculation on the latent vector for learning,
When the rear encoder calculates a simulation latent vector for learning that simulates the learning latent vector by performing weight calculation on the simulation label vector for learning,
The model generator calculates the simulation potential loss representing the difference between the training potential vector and the training latent vector,
It characterized in that for calculating the simulation loss representing the difference between the simulation label vector for learning and the label vector for learning
Device for performing labeling automatically.
제19항에 있어서,
상기 모델생성부는
수학식
Figure 112021054535784-pat00013
에 따라 모사손실을 산출하고,
상기 Ld은 상기 모사손실이고,
상기 x는 학습용 라벨벡터이고,
상기 y는 학습용 모사라벨벡터인 것을 특징으로 하는
자동으로 라벨링을 수행하기 위한 장치.
20. The method of claim 19,
The model generation unit
formula
Figure 112021054535784-pat00013
Calculate the simulation loss according to
The Ld is the simulation loss,
Where x is a label vector for learning,
wherein y is a simulated label vector for learning
Device for performing labeling automatically.
제19항에 있어서,
상기 모델생성부는
수학식
Figure 112021054535784-pat00014
에 따라 모사잠재손실을 산출하고,
상기 Lz는 상기 모사잠재손실이고,
상기 z는 학습용 잠재벡터이고,
상기 h는 학습용 모사잠재벡터인 것을 특징으로 하는
자동으로 라벨링을 수행하기 위한 장치.
20. The method of claim 19,
The model generation unit
formula
Figure 112021054535784-pat00014
Calculate the simulated potential loss according to
The Lz is the simulation potential loss,
wherein z is a latent vector for learning,
wherein h is a simulation latent vector for learning
Device for performing labeling automatically.
제18항에 있어서,
상기 모델생성부는
수학식
Figure 112021054535784-pat00015
에 따라 상기 임계치를 산출하며,
상기 T는 상기 임계치이고,
상기 m은 상기 복수의 학습용 모사라벨벡터와 상기 복수의 학습용 라벨벡터와의 차이를 나타내는 모사손실의 평균이고,
상기 d는 상기 복수의 학습용 모사라벨벡터와 상기 복수의 학습용 라벨벡터와의 차이를 나타내는 모사손실의 표준편차이고,
상기 w는 상기 모사손실의 표준편차에 대한 가중치인 것
을 특징으로 하는
자동으로 라벨링을 수행하기 위한 장치.
19. The method of claim 18,
The model generation unit
formula
Figure 112021054535784-pat00015
Calculate the threshold according to
wherein T is the threshold,
Wherein m is the average of the simulation loss representing the difference between the plurality of training label vectors and the plurality of training label vectors,
Wherein d is the standard deviation of the simulation loss representing the difference between the plurality of training label vectors and the plurality of training label vectors,
The w is the weight for the standard deviation of the simulation loss
characterized by
Device for performing labeling automatically.
KR1020210060935A 2021-05-11 2021-05-11 Apparatus for automatically performing labeling through Semi-weakly supervised learning and method therefor KR102336962B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210060935A KR102336962B1 (en) 2021-05-11 2021-05-11 Apparatus for automatically performing labeling through Semi-weakly supervised learning and method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210060935A KR102336962B1 (en) 2021-05-11 2021-05-11 Apparatus for automatically performing labeling through Semi-weakly supervised learning and method therefor

Publications (1)

Publication Number Publication Date
KR102336962B1 true KR102336962B1 (en) 2021-12-07

Family

ID=78868028

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210060935A KR102336962B1 (en) 2021-05-11 2021-05-11 Apparatus for automatically performing labeling through Semi-weakly supervised learning and method therefor

Country Status (1)

Country Link
KR (1) KR102336962B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102533365B1 (en) * 2021-12-22 2023-05-17 호서대학교 산학협력단 Apparatus for vision inspection using auto-encoder and method therefor

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200023266A (en) 2017-03-17 2020-03-04 뉴럴라 인코포레이티드 Online progressive real-time learning to tag and label data streams for deep neural networks and neural network applications

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200023266A (en) 2017-03-17 2020-03-04 뉴럴라 인코포레이티드 Online progressive real-time learning to tag and label data streams for deep neural networks and neural network applications

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Frank Mokaya, 5 MARS: A Muscle Activity Recognition System enabling self-configuring musculoskeletal sensor networks, 2013 ACM/IEEE International Conference on IPSN, (2013.04.11.) *
Frank Mokaya외 5인, "MARS: A Muscle Activity Recognition System enabling self-configuring musculoskeletal sensor networks", 2013 ACM/IEEE International Conference on IPSN, (2013.04.11.) 1부.*
Geun-Jin Ahn et al., "Study on Auto Labeling Technique through Week-Supervision Learning", Korea IT Service Society 2020 Fall Conference, (2020. 10.30.) *
안근진외 1인, "Week-Supervision 학습을 통한 Auto Labeling 기법 연구", 한국IT서비스학회 2020추계학술대회, (2020. 10.30.) 1부.*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102533365B1 (en) * 2021-12-22 2023-05-17 호서대학교 산학협력단 Apparatus for vision inspection using auto-encoder and method therefor

Similar Documents

Publication Publication Date Title
US20210011791A1 (en) Abnormality detection system, abnormality detection method, abnormality detection program, and method for generating learned model
CN110321603B (en) Depth calculation model for gas path fault diagnosis of aircraft engine
JP7233807B2 (en) Computer-implemented method, computer system, and computer program for simulating uncertainty in artificial neural networks
US10671077B2 (en) System and method for full-stack verification of autonomous agents
KR102026449B1 (en) Simulation Data Preprocessing Technique for Development of Damage Detecting Method for Bridges Based on Convolutional Neural Network
KR20200129639A (en) Model training method and apparatus, and data recognizing method
TWI687711B (en) Epicenter distance estimation device, epicenter distance estimation method, and computer-readable recording medium
KR20160089210A (en) Method and apparatus for training language model, method and apparatus for recognizing language
KR20200128938A (en) Model training method and apparatus, and data recognizing method
US20220067588A1 (en) Transforming a trained artificial intelligence model into a trustworthy artificial intelligence model
KR20220038907A (en) Data prediction method based on generative adversarial network and apparatus implementing the same method
KR102336962B1 (en) Apparatus for automatically performing labeling through Semi-weakly supervised learning and method therefor
KR20200130759A (en) Zero Shot Recognition Apparatus for Automatically Generating Undefined Attribute Information in Data Set and Method Thereof
KR20180068475A (en) Method and device to recognize based on recurrent model and to train recurrent model
CN112257751A (en) Neural network pruning method
KR102489473B1 (en) Method and system for predicting climate indices using artificial intelligence model capable of providing uncertainty and relevance for climate index prediction result
US20220101198A1 (en) Automated generation of a machine learning model from computational simulation data
CN114037052A (en) Training method and device for detection model, electronic equipment and storage medium
US11537846B2 (en) Neural network architecture with concurrent uncertainty output
CN116204786A (en) Method and device for generating designated fault trend data
JP2024003643A (en) Method of learning neural network, computer program, and remaining life prediction system
US11158059B1 (en) Image reconstruction based on edge loss
US20230086261A1 (en) Clustering device, clustering method, and clustering program
JP2022136412A (en) Performance prediction device, performance prediction method and performance prediction program
JP2023518789A (en) Methods for selecting datasets for updating artificial intelligence modules

Legal Events

Date Code Title Description
GRNT Written decision to grant