KR102169396B1 - 순환 시계열 데이터를 위한 특징 추출방법 및 장치 - Google Patents

순환 시계열 데이터를 위한 특징 추출방법 및 장치 Download PDF

Info

Publication number
KR102169396B1
KR102169396B1 KR1020190027851A KR20190027851A KR102169396B1 KR 102169396 B1 KR102169396 B1 KR 102169396B1 KR 1020190027851 A KR1020190027851 A KR 1020190027851A KR 20190027851 A KR20190027851 A KR 20190027851A KR 102169396 B1 KR102169396 B1 KR 102169396B1
Authority
KR
South Korea
Prior art keywords
time series
series data
cyclic time
data
segments
Prior art date
Application number
KR1020190027851A
Other languages
English (en)
Other versions
KR20200108969A (ko
Inventor
최영근
이태훈
강필균
남궁정현
Original Assignee
에스케이 텔레콤주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이 텔레콤주식회사 filed Critical 에스케이 텔레콤주식회사
Priority to KR1020190027851A priority Critical patent/KR102169396B1/ko
Publication of KR20200108969A publication Critical patent/KR20200108969A/ko
Application granted granted Critical
Publication of KR102169396B1 publication Critical patent/KR102169396B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

본 실시예는 모니터링 기법 고도화를 위한 데이터 탐색 단계에서, 취득한 순환 다변량 시계열의 정보를 최대한 보존 가능하면서도 각 세그멘트의 시간적 의존성이 반영될 수 있도록 하여 순환 다변량 시계열 데이터에 대한 모니터링 품질 향상 및 효과적인 시각화가 이루어질 수 있도록 하는 특징 추출방법 및 장치에 관한 것이다.

Description

순환 시계열 데이터를 위한 특징 추출방법 및 장치{Method and Apparatus for Cyclic Time Series Data Feature Extraction}
본 실시예는 순환 시계열 데이터를 위한 특징 추출방법 및 장치에 관한 것이다. 더욱 상세하게는, 순환 다변량 시계열 데이터에 대한 모니터링 품질 향상을 위한 특징 추출방법 및 장치에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
최근 센서 및 정보 기술의 발달로 다양한 분야(제조, 의료, 금융 등)에서 관찰대상의 상태를 모니터링하기 위한 센서가 설치되고, 센서들로부터 고차원의 시계열 데이터가 수집되어 관찰대상에 대한 분석과 모니터링이 가능해졌다. 모니터링 목적의 센서기반 다변량 시계열 데이터는 보통 초단위로 지속적으로 수집되고, 수백개 이상의 변수(센서)에 대하여 상태를 기록하고 있다. 전문가가 수백-수천 종류의 시계열을 수동으로 모니터링하기는 현실적으로 어려우므로, 데이터 구조를 손상시키지 않으면서 특정 정보가 손실되지 않도록 하는 정밀한 특징 추출 방법이 이후의 분석 기법 개발에 필수적이다.
한편, 많은 경우 센서 기반의 고차원 다변량 시계열은 주기성을 갖고 있으나 그 주기가 가변적인 순환 다변량 시계열(cyclic multivariate time series)이다. 순환 다변량 시계열에 대하여는 주기에 따라 시계열을 분할하여 각각을 독립된 세그멘트(segment) 샘플로 취급하고 특징 추출 기법을 적용할 수 있다. 다만, 이러한, 순환 시계열에 고정주기 세그멘테이션을 적용한다면 데이터의 구조를 왜곡할 위험이 존재한다.
이에, 순환 다변량 시계열에 대한 모니터링 기법 고도화를 위해, 데이터 탐색 단계에서 취득한 순환 다변량 시계열의 정보를 최대로 보존하면서도, 각 세그멘트의 시간적 의존성을 반영할 수 있도록 하는 새로운 기술을 필요로 한다.
본 실시예는 모니터링 기법 고도화를 위한 데이터 탐색 단계에서, 취득한 순환 다변량 시계열의 정보를 최대한 보존 가능하면서도 각 세그멘트의 시간적 의존성이 반영될 수 있도록 하여 순환 다변량 시계열 데이터에 대한 모니터링 품질 향상 및 효과적인 시각화가 이루어질 수 있도록 하는 특징 추출방법 및 장치를 제공하는 데 그 목적이 있다.
본 실시예는, 적어도 하나 이상의 센서로부터 모니터링 대상에 대하여 측정된 순환 시계열 데이터를 수집하는 과정; 상기 순환 시계열 데이터를 상기 모니터링 대상에 상응하는 도메인 정보를 기반으로 전처리하여 전처리 순환 시계열 데이터를 생성하는 과정; 상기 전처리 순환 시계열 데이터를 상기 모니터링 대상에 맞춰 정의되는 가변 주기를 기준으로 분할하여 서로 상이한 가변 길이를 갖는 복수의 세그멘트를 형성하는 과정; 및 상기 복수의 세그멘트를 딥러닝 모델에 적용하고, 적용결과에 따라 각 세그멘트별 특징 벡터를 추출하는 과정을 포함하는 것을 특징으로 하는 순환 시계열 데이터를 위한 특징 추출방법을 제공한다.
또한, 본 실시예의 다른 측면에 의하면, 적어도 하나 이상의 센서로부터 모니터링 대상에 대하여 측정된 순환 시계열 데이터를 수집하는 수집부; 상기 순환 시계열 데이터를 상기 모니터링 대상에 상응하는 도메인 정보를 기반으로 전처리하여 전처리 순환 시계열 데이터를 생성하는 데이터 처리부; 상기 전처리 순환 시계열 데이터를 상기 모니터링 대상에 맞춰 정의되는 가변 주기를 기준으로 분할하여 서로 상이한 가변 길이를 갖는 복수의 세그멘트를 형성하는 분할부; 및 상기 복수의 세그멘트를 딥러닝 모델에 적용하고, 적용결과에 따라 각 세그멘트별 특징 벡터를 추출하는 추출부를 포함하는 것을 특징으로 하는 순환 시계열 데이터를 위한 특징 추출장치를 제공한다.
또한, 본 실시예의 다른 측면에 의하면, 하드웨어와 결합되어, 적어도 하나 이상의 센서로부터 모니터링 대상에 대하여 측정된 순환 시계열 데이터를 수집하는 과정; 상기 순환 시계열 데이터를 상기 모니터링 대상에 상응하는 도메인 정보를 기반으로 전처리하여 전처리 순환 시계열 데이터를 생성하는 과정; 상기 전처리 순환 시계열 데이터를 상기 모니터링 대상에 맞춰 정의되는 가변 주기를 기준으로 분할하여 서로 상이한 가변 길이를 갖는 복수의 세그멘트를 형성하는 과정; 및 상기 복수의 세그멘트를 딥러닝 모델에 적용하고, 적용결과에 따라 각 세그멘트별 특징 벡터를 추출하는 과정을 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램을 제공한다.
본 실시예에 의하면, 모니터링 기법 고도화를 위한 데이터 탐색 단계에서, 취득한 순환 다변량 시계열의 정보를 최대한 보존 가능하면서도 각 세그멘트의 시간적 의존성이 반영될 수 있도록 하는 특징 추출방법을 제공함으로써 순환 다변량 시계열 데이터에 대한 모니터링 품질 향상 및 효과적인 시각화가 이루어질 수 있도록 하는 효과가 있다.
도 1은 본 실시예에 따른 시계열 데이터를 위한 특징 추출장치를 개략적으로 나타낸 블록 구성도이다.
도 2는 본 실시예에 따른 시계열 데이터를 위한 특징 추출방법을 설명하기 위한 순서도이다.
도 3은 본 실시예에 따른 시계열 데이터에 상응하는 세그멘테이션 방법을 설명하기 위한 예시도이다.
도 4 내지 도 6은 본 실시예에 따른 시계열 데이터의 시각화 방법을 설명하기 위한 예시도이다.
이하, 본 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
순환 시계열은 연속적인 기간 동안 반복적인 패턴을 보이는 시계열을 일컫는다. 순환 시계열의 주기는 가변적일 수 있다는 점에서 주기적 시계열보다 정교한 분석을 요구한다.
본 실시예의 경우, 센서들로부터 획득되는 다변량의 순환 시계열에 대한 딥러닝 기반 특징 추출과 시각화 방법에 관한 내용을 개시한다. 보다 구체적으로는, 모니터링 기법 고도화를 위한 데이터 탐색 단계에서, 취득한 순환 다변량 시계열의 정보를 최대한 보조하는 시각화 방법을 제공하는 데 있다. 이를 위해, 순환 다변량 시계열에 대하여 각 세그멘트의 시간적 의존성을 반영하는 특징 추출법을 제안하고, 이에 대한 효과적인 시각화의 실시예를 제안한다.
도 1은 본 실시예에 따른 시계열 데이터를 위한 특징 추출장치를 개략적으로 나타낸 블록 구성도이다.
본 실시예에 따른 특징 추출장치(120)는 수집부(122), 데이터 처리부(124), 분할부(126), 학습부(128), 추출부(129) 및 시각화부(130)를 포함한다. 이때, 본 실시예에 따른 특징 추출장치(120)에 포함되는 구성요소는 반드시 이에 한정되는 것은 아니다.
수집부(122)는 적어도 하나 이상의 센서(110)로부터 모니터링 대상(100)에 대하여 측정된 시계열 데이터를 수집한다. 이러한, 시계열 데이터는 바람직하게는 센서(110)를 통해 측정된 모니터링 대상(100)에 대한 측정 데이터일 수 있다.
한편, 많은 경우 센서 기반의 고차원 다변량 시계열은 주기성을 갖고 있으나 그 주기가 가변적인 경우가 대부분이다. 이 점에 기인하여, 이하에서는, 수집부(122)가 센서(11)로부터 수집하는 시계열 데이터가 연속적인 기간 동안 반복적인 패턴을 보이면서도, 그 주기가 가변적인 순환 다변량 시계열 데이터(ex: 길이 T와 변수 P개를 가지는 다변량 시계열 X={X1, X2,...,XT│Xt∈RP})인 것으로 예시하여 설명하도록 한다.
본 실시예에 있어서 수집부(122)는 상기의 시계열 데이터와 더불어, 모니터링 대상(100)에 상응하는 참조 데이터를 추가로 수집할 수 있다. 보다 자세하게는, 수집부(122)는 모니터링 대상(100)과 관련하여 상기의 시계열 데이터가 취득된 환경과 배경을 기록한 참조 데이터를 추가로 수집할 수 있다. 이러한, 참조 데이터는 바람직하게는 모니터링 대상(100)과 관련한 메타 정보 또는 이벤트 정보일 수 있다.
예컨대, 시계열 데이터가 반도체 제조 공정과 관련하여 수집된 데이터인 경우, 참조 데이터는 웨이퍼의 생산 조건(recipe), 설비 가동 이후의 경과 시간(lifetime of equipment), 시각(timestamp), 수율(yield) 등일 수 있다.
또한, 시계열 데이터가 심전도 데이터인 경우, 참조 데이터는 환자의 나이, 성별, 병명, 수술 후 경과 시간 등일 수 있다.
한편, 참조 데이터의 종류는 (타임스탬프, 사건 기록)을 단위 개체로 하는 시계열일 수도 있고, (세그멘트 ID, 시작시각, 완료시각)을 단위 개체로 하는 비-시계열 tuple의 집합일 수도 있으며, (세그멘트 ID, 특징1, 특징2, ...)를 단위 개체로 하는 벡터의 집합일 수 있다.
본 실시예에 있어서, 참조 데이터는 이후, 시계열 데이터를 세그멘테이션하는 과정에서 가변적인 시간 간격 단위 기반의 특징 추출을 위한 파라미터로서 사용될 수 있다. 또한, 참조 데이터는 추출된 특징 벡터들을 시각화할 때, 도면의 가독성을 높이는 요소로서 활용될 수 있다.
한편, 참조 데이터는 센서(110)로부터 수집되어 상기의 시계열 데이터와 함께 전송되는 것이 바람직하나 반드시 이에 한정되는 것은 아니다. 예컨대, 다른 실시예에서, 수집부(122)는 사용자 혹은 기 설정된 기록 장치로부터 참조 데이터를 제공받을 수도 있다. 본 실시예에서는 수집부(122)가 상기의 참조 데이터를 수집하는 방법에 대하여 특정 방법으로 한정하지는 않는다.
데이터 처리부(124)는 본 실시예에 따른 시계열 데이터를 위한 특징 추출의 효율성을 높이기 위해 전처리 과정을 수행하는 장치를 의미한다.
이를 위해, 데이터 처리부(124)는 먼저, 시계열 데이터에 대하여 결측 변수 제거, 상수 변수 제거, 중복 변수 제거, 결측치 대체 등과 같은 기본적인 전처리 과정을 수행할 수 있다.
즉, 데이터 처리부(124)는 대부분의 시간에 대하여 결측(NaN or NULL)인 변수를 제거한다.
데이터 처리부(124)는 두 변수의 선형 상관관계를 측정하고, 계산된 상관관계가 미리 정해놓은 임계치를 넘는 경우 두 변수 중 한개를 제거한다. 한편, 두 변수의 선형 상관관계를 측정함에 있어서, 시계열의 길이가 길어질 수록 차원의 저주로 인해 의미 없는 상관 계수 값이 나오므로 데이터 처리부(124)는 서브샘플링 기반의 계산을 고려할 수 있다. 즉, 데이터 처리부(124)는 길이 k의 윈도우만큼 n회 랜덤 샘플링하여 두 변수의 선형 상관관계를 측정하고, n개 중 최대값, 평균값, 최소값 등의 기준이 미리 정해놓은 임계치를 넘는 경우 두 변수 중 한개를 제거한다.
데이터 처리부(124)는 시간 축에 대해 국소적으로 결측이 존재하는 경우 선형보간법에 의하여, 혹은 직전의 값으로 대체한다.
본 실시예에 따른 데이터 처리부(124)는 모니터링 대상(100)에 상응하는 도메인 정보를 반영하여 시계열 데이터에 대한 추가적인 전처리 과정을 수행할 수 있다. 여기서, 도메인 정보는 모니터링 대상(100)에 대한 분석목표 및 모니터링 목적 등일 수 있다.
데이터 처리부(124)는 모니터링 대상(100)에 상응하는 도메인 정보를 기반으로 모니터링 대상(100)에 대한 분석 목표와 상이한 데이터 및 도메인 정보별 기 정의된 허용 범위를 벗어나는 데이터를 시계열 데이터 상에서 필터링한다.
예컨대, 데이터 처리부(124)는 모니터링 대상(100)의 분석 목표와 무관함을 경험적으로 알고 있는 변수를 제거할 수 있다.
또한, 데이터 처리부(124)는 센서 값의 허용 범위가 스펙으로 주어지거나 경험적으로 기준을 세워놓은 경우, 허용 범위를 벗어나는 관측값을 제거하거나, 허용 범위의 끝점으로 절단할 수 있다.
한편, 데이터 처리부(124)의 전처리 과정을 통해 시계열 데이터의 길이는 T → T', 변수 개수는 P → P'로 축소되고, X'={X1, X2,...,XT'│Xt∈RP'}의 전처리 시계열 데이터가 생성된다.
분할부(126)는 전처리된 시계열 데이터에 대한 세그멘테이션을 수행한다. 한편, 순환 시계열은 연속적인 기간 동안 반복적인 특성을 보이면서도 반복의 시간 간격이 일정하지 않으므로, 간격의 가변성에 강인한 파형 특징 추출을 위하여, 고정적인 시간 단위가 아닌 가변적인 시간 간격 단위 기반의 특징 추출 적용을 필요로 한다. 예를 들어, 반도체 생산 공정에서는 단위 웨이퍼의 생산 시간이 균일하지 않으며, 심음도(phonocardiogram, PCG), 심전도(electrocardiogram, ECG), 뇌전도(electroencephalograms, EEG) 등의 생체 신호 또한 호흡 및 심장박동 같은 생리적인 활동에 의존하므로 고정된 주기를 갖고 있지 않다.
이 점에 기인하여, 본 실시예에 따른 분할부(126)는 데이터 처리부(124)로부터 수신한 전처리 시계열 데이터를 모니터링 대상(100)에 맞춰 정의되는 가변 주기를 기준으로 분할하여 서로 상이한 가변 길이를 갖는 복수의 세그멘트를 형성한다.
분할부(126)는 수집부(122)를 통해 수집된 참조 데이터 혹은 기 정의된 알고리즘을 활용하여 순환 패턴의 시작점과 끝점을 파악할 수 있다. 이를 기반으로, 분할부(126)는 각 세그멘트에 상응하는 시작점과 끝점을 유동적으로 조절하여 상기의 가변 주기를 결정할 수 있다.
예컨대, 분할부(126)는 반도체 생산 공정의 실시 예에서는 step id(세부 공정 타입) 정보를 이용하여 웨이퍼 생산의 시작점과 끝점을 추출할 수 있다.
분할부(126)는 심전도의 실시 예에서는 세그멘테이션을 위한 참조 데이터가 없으므로 R피크를 기준으로 1회의 심장 박동을 정의하여 ECGkit과 같은 세그멘테이션 툴을 활용한다.
도 3을 참조하면, 분할부(126)가 참조 데이터 혹은 기 정의된 알고리즘을 활용하여 측정 데이터를 세그멘트 단위로 분할한 것을 확인할 수 있다. 이때, 생산 주기가 측정 데이터의 수집 주기보다 짧은 경우에는 측정 데이터 수집 주기 단위로 데이터를 분할한다.
분할부(126)는 상기의 세그멘테이션을 통해 N(N=자연수)개의 반복 패턴을 인식하고, 각 반복 패턴의 길이를 T1,...,TN이라고 할때 아래 수학식 1과 같은 시계열 집합을 세그멘테이션의 결과로 얻을 수 있다.
Figure 112019024986160-pat00001
(단, T1 + T2 + ...+ TN≤T')
여기서, X"는 2차원 행렬의 리스트 [(T1 × P'),(T2 × P'),...,(TN × P')]로도 표현 가능하다.
한편, 분할부(126)는 상기의 반복 패턴의 특성정보를 고려하여 복수의 섹멘트의 길이를 적응적으로 조정할 수 있다. 예컨대, 분할부(126)는 도메인 전문가의 의견에 기반하여, 반복 패턴의 길이 T1,...,TN 자체의 변이(Variation) 보다 파형 자체의 변이가 중요하다고 판단된 경우 각 반복 패턴이 동일한 길이 Tc를 가지도록 Bicubic 혹은 Bilinear 보간법으로 시간축에 대한 리사이징을 적용한다. 이렇게 리사이징을 적용하게 되면 결과적으로 세그멘테이션 결과 X"는 N × Tc × P'의 크기를 가지는 3차원 텐서가 된다.
학습부(128)는 본 실시예에 따른 시계열 학습 과정에서 이용되는 딥러닝 모델을 제공하는 장치를 의미한다.
학습부(128)는 데이터 상의 특징 벡터 추출과 관련한 정보들을 딥러닝 기법을 통해 선 학습하고, 이를 통해 구축된 딥러닝 모델을 본 실시예에 따른 시계열 데이터의 특징 벡터 추출을 위한 기준 데이터로서 제공할 수 있다.
본 실시예에 따른 학습부(128)는 입력 데이터가 수신되는 경우, 입력 차원에서 특징 차원으로 변환 후 다시 입력 데이터를 그대로 복원하도록 학습을 진행하고, 이를 기반으로, 특징 벡터의 추출이 이루어질 수 있도록 하는 딥러닝 모델을 제공한다. 한편, 학습부(130)가 특징 벡터의 추출을 위한 딥러닝 모델을 구축하는 방법은 종래의 딥러닝 분야에서 딥러닝 모델을 구축하는 방법과 동일하며, 이에 자세한 설명은 생략하도록 한다.
한편, 학습부(128)를 통해 제공되는 딥러닝 모델은 다층-퍼셉트론(Multi-Layer Perceptron)을 기본으로 한다. 예컨대, 학습 모델은 1D Convolutional/ Transposed Convolutional Layer, Recurrent Layer, Gated Recurrent Unit(GRU), Long Short-Term Memory(LSTM), Fully Connected Layer, Residual Layer(Skip Connection), Pooling/Up-pooling Layer, Batch Normalization Layer, Non-linear Activation Layer를 포함하여 구성될 수 있다.
추출부(129)는 분할부(126)를 통해 형성된 복수의 세그멘트를 학습부(128)의 딥러닝 모델에 입력 데이터로서 적용하고, 적용결과에 따라 각 세그멘트별 특징 벡터를 추출한다.
추출부(129)는 복수의 세그멘트를 딥러닝 모델에 적용함으로써, 입력 차원 P'에서 특징 차원 Q(ex: 0 ~ 100)로 변환 후 다시 입력 데이터 X"를 그대로 복원하도록 하는 학습이 진행될 수 있도록 한다. 한편, 딥러닝 모델을 통해 수행되는 복수의 세그멘트들 학습의 목적 함수는 수학식 2와 같다.
Figure 112019024986160-pat00002
여기서 fθ(·)는 (T1 × P')의 크기의 행렬을 Q 차원의 벡터로 변환해주는 인코더 네트워크 함수이며, 상기 기술된 연산을 조합하여 생성 가능한다. gθ(·)는 Q 차원의 벡터를 (T1 × P') 크기의 행렬로 변환해주는 디코터 네트워크 함수이며, 역시 상기 기술된 연산을 조합하여 생성한다.
본 실시예에 있어서, 추출부(129)는 복수의 세그멘트를 딥러닝 모델에 적용함으로써 Z={Z1,Z2,...,ZN│Zi∈RQ}의 고정 길이 특징 벡터를 취득한다. 한편, 본 실시예의 경우, 고차원 다변량 시계열의 변수간 상호작용과 시각 종속성을 고려한 딥러닝 기반의 특징 추출 방식을 적용함에 따라 데이터 구조를 손상시키지 않으면서 특정 정보가 손실되지 않도록 하는 정밀한 특징 추출이 가능한 효과가 있다.
시각화부(130)는 추출부(129)를 통해 취득된 고정 길이 특징 벡터들을 시각화하여 제공하는 장치를 의미한다.
본 실시예에 있어서, 시각화부(130)는 특징 벡터를 2차원 또는 3차원 좌표공간에 도시한다. 보다 자세하게는, 시각화부(130)는 시계열 데이터의 특성상 반응 변수(Response Variable)를 취득하기 어려운 경우가 많으므로, 지도 학습(Supervised Learning)이 아닌 분포 변화 관찰을 통해 데이터의 이해도를 향상시키는 저차원 시각화 기술을 적용한다.
시각화부(130)는 추출부(129)를 통해 취득된 고정 길이 특징 벡터에 대하여 PCA(Principal Component Analysis) 혹은 t-SNE(t-distributed Stochastic Neighbor Embedding)의 알고리즘을 통해 Q 차원을 2차원 혹은 3차원으로 줄인 N개의 샘플을 얻는다. 도 4를 참조하면, 시각화부(130)가 N개의 샘플을 각 세그멘트의 각 자료점(Data Point)에 대응시켜 좌표공간에 도시할 수 있다. 여기서, 자료점의 좌표는 세그멘트의 특징 벡터에 대응된다.
본 실시예에 따른, 시각화부(130)는 특징 벡터를 시각화하는 과정에 있어서, 앞서 수집부(122)를 통해 수집된 참조 데이터를 활용할 수 있다. 시각화부(130)는 세그멘트들에 대응되는 참조 데이터를 활용하여 자료점마다 배색(coloring), 크기(marker size), 모양(marker type)을 다르게 하여 자료의 분포를 보다 효율적으로 파악할 수 있도록 한다. 보다 자세하게는, 참조 데이터가 이산형(discrete)인 경우(ex: 세그멘트에 대응되는 생산품의 종류, 설비의 작동 모드)에는 이산형의 배색 혹은 서로 다른 점 모양을 적용할 수 있다. 또한, 참조 데이터가 연속형(continuous)인 경우(ex: 세그멘트가 생산된 시각, 생산 설비의 기대수명, 세그멘트에 대응되는 생산품의 품질지표)에는 연속형의 배색 혹은 서로 다른 점 크기를 적용할 수 있다.
이하, 본 실시예에 따른 특징 추출방법에 따른 반도체 제조 공정에서의 센서 모니터링 방법에 대해 예시적으로 설명하도록 한다.
반도체 제조 공정에서 특징 추출장치(120)는 설비와 공정을 감시하는 센서로부터 다변량 시계열을 취득할 수 있고, 취득된 다변량 시계열은 웨이퍼 하나가 주기 하나에 대응하는 순환시계열의 특성을 지닌다고 할 수 있다.
특징 추출장치(120)는 공정의 생산 정보를 주기 정보에 대한 참조 데이터로서 이용할 수 있다. 예를 들어, 특징 추출장치(120)는 세부 공정(step)의 시작점과 끝점 정보를 이용하여 도 3에서처럼 다변량 시계열의 시작과 끝을 정하여 분리할 수 있다. 이후, 특징 추출장치(120)는 도 3에서처럼 분리된 세그멘트들의 길이를 일괄적으로 리사이징한다.
도 4는 특징 추출장치(120)가 리사이징된 세그멘트들로부터 길이 2의 특징 벡터를 추출하여 시각화한 그림이다. 여기서, 각 웨이퍼가 자료점 하나에 대응된다. 본 실시예에서의 특징 추출장치(120)는 convolutional autoencoder를 이용하여 다변량 시계열 세그멘트로부터 길이 40의 특징 벡터를 추출한 뒤, 추츨된 특징 벡터에 다시 한 번 t-SNE 기법을 적용하여 길이 2의 특징 벡터로 결과값을 획득하였다
도 5는 특징 추출장치(120)가 도 4에 웨이퍼 단위의 참조 데이터를 결합하여 그래프의 활용성을 높인 실시예이다. 도 5를 참조하면, 도면의 상단 좌측은 자료점의 색상을, 웨이퍼의 종류에 따라 이산적으로 다르게 배색된 것을 확인할 수 있다. 또한, 상단 우측은 자료점의 색상을, 설비의 정지 직전에 생산된 웨이퍼인지 여부에 따라 이산적으로 배색된 것을 확인할 수 있다. 또한, 하단 좌측은 자료점의 색상을, 웨이퍼의 생산 시각에 따라 연속 스케일로 배색된 것을 확인할 수 있다. 마지막으로, 하단 우측은 자료점의 크기를, 각 웨이퍼의 수율에 따라 연속적으로 다르게 설정된 것을 확인할 수 있다.
도 6은 복수 필드의 참조 데이터를 동일 그래프에 적용한 실시예이다. 도 6을 참조하면 도면의 상단 좌측처럼 점 모양에는 웨이퍼의 종류를 대응시키고 점의 배색에는 설비의 정지 직전에 생산된 웨이퍼를 이산적으로 배색시킬 수 있으며, 더 나아가 상단 우측처럼 점의 크기에 웨이퍼의 수율을 대응시킬 수 있다. 다른 예로는, 도면의 하단 좌측처럼 점 모양에는 웨이퍼의 종류를 대응시키고 점의 배색에는 웨이퍼 생산 시각을 대응시킬 수 있으며, 추가적으로 하단 우측에서처럼 점의 크기에 웨이퍼의 수율을 대응시킬 수 있다.
도 2는 본 실시예에 따른 시계열 데이터를 위한 특징 추출방법을 설명하기 위한 순서도이다.
특징 추출장치(120)는 적어도 하나 이상의 센서(110)로부터 모니터링 대상(100)에 대하여 측정된 시계열 데이터를 수집한다(S202). 단계 S202에서 특징 추출장치(120)는 센서(110)로부터 연속적인 기간 동안 반복적인 패턴을 보이면서도, 그 주기가 가변적인 순환 다변량 시계열 데이터를 수신할 수 있다.
또한, 특징 추출장치(120)는 시계열 데이터와 더불어, 모니터링 대상(100)에 상응하는 참조 데이터를 추가로 수집할 수 있다.
특징 추출장치(120)는 단계 S202에서 수집한 시계열 데이터를 모니터링 대상(100)에 상응하는 도메인 정보를 기반으로 전처리하여, 전처리 시계열 데이터를 생성한다(S204). 단계 S204에서 특징 추출장치(120)는 모니터링 대상(100)에 상응하는 도메인 정보를 기반으로 모니터링 대상(100)에 대한 분석 목표와 상이한 데이터 및 도메인 정보별 기 정의된 허용 범위를 벗어나는 데이터를 시계열 데이터 상에서 필터링한다.
특징 추출장치(120)는 센서 값의 허용 범위가 스펙으로 주어지거나 경험적으로 기준을 세워놓은 경우, 허용 범위를 벗어나는 관측값을 제거하거나, 허용 범위의 끝점으로 절단할 수 있다.
특징 추출장치(120)는 단계 S204의 전처리 시계열 데이터를 가변 주기를 기준으로 분할하여 가변 길이를 갖는 복수의 세그멘트를 형성한다(S206). 단계 S206에서 특징 추출장치(120)는 단계 S202에서 수집된 참조 데이터 혹은 기 정의된 알고리즘을 활용하여 순환 패턴의 시작점과 끝점을 파악할 수 있다. 이를 기반으로, 특징 추출장치(120)는 각 세그멘트에 상응하는 시작점과 끝점을 유동적으로 조절하여 상기의 가변 주기를 결정할 수 있다.
특징 추출장치(120)는 분리된 세그멘트들의 길이를 일괄적으로 리사이징하여 제공한다.
특징 추출장치(120)는 단계 S206의 복수의 세그멘트를 딥러닝 모델에 적용하고, 적용결과에 따라 각 세그멘트별 특징 벡터를 추출한다(S208). 단계 S208에서 특징 추출장치(120)는 복수의 세그멘트를 입력 데이터로써 딥러닝 모델에 적용함으로써, 입력 차원 P'에서 특징 차원 Q(ex: 0 ~ 100)로 변환 후 다시 입력 데이터 X"를 그대로 복원하도록 하는 학습이 진행될 수 있도록 한다. 이후, 특징 추출장치(120)는 학습 결과로서 고정 길이 특징 벡터를 취득한다.
특징 추출장치(120)는 단계 S208에서 추출한 특징 벡터를 2차원 또는 3차원 좌표공간 상에 도시한다(S210). 단계 S210에서 특징 추출장치(120)는 특징 벡터를 시각화하는 과정에 있어서, 단계 S202에서 수집된 참조 데이터를 활용할 수 있다. 특징 추출장치(120)는 세그멘트들에 대응되는 참조 데이터를 활용하여 자료점마다 배색(coloring), 크기(marker size), 모양(marker type)을 다르게 하여 자료의 분포를 보다 효율적으로 파악할 수 있도록 한다.
여기서, 단계 S202 내지 S210은 앞서 설명된 특징 추출장치(120)의 각 구성요소의 동작에 대응되므로 더 이상의 상세한 설명은 생략한다.
도 2에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 2에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 2의 순서로 한정되는 것은 아니다.
전술한 바와 같이 도 2에 기재된 특징 추출방법은 프로그램으로 구현되고 컴퓨터의 소프트웨어를 이용하여 읽을 수 있는 기록매체(CD-ROM, RAM, ROM, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등)에 기록될 수 있다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 모니터링 대상 110: 센서
120: 특징 추출장치 122: 수집부
124: 데이터 처리부 126: 분할부
128: 학습부 129: 추출부
130: 시각화부

Claims (10)

  1. 적어도 하나 이상의 센서로부터 모니터링 대상에 대하여 측정된 순환 시계열 데이터를 수집하는 과정;
    상기 순환 시계열 데이터를 상기 모니터링 대상에 상응하는 도메인 정보를 기반으로 전처리하여 전처리 순환 시계열 데이터를 생성하는 과정;
    상기 전처리 순환 시계열 데이터를 상기 모니터링 대상에 맞춰 정의되는 가변 주기를 기준으로 분할하여 서로 상이한 가변 길이를 갖는 복수의 세그멘트를 형성하는 과정; 및
    상기 복수의 세그멘트를 딥러닝 모델에 적용하고, 적용결과에 따라 각 세그멘트별 특징 벡터를 추출하는 과정
    을 포함하는 것을 특징으로 하는 순환 시계열 데이터를 위한 특징 추출방법.
  2. 제 1항에 있어서,
    상기 순환 시계열 데이터는,
    소정 기간동안 반복적인 패턴을 보이되, 상기 패턴의 시간 간격이 가변적인 순환 다변량 시계열 데이터(cyclic multivariate time series)인 것을 특징으로 하는 순환 시계열 데이터를 위한 특징 추출방법.
  3. 제 1항에 있어서,
    상기 생성하는 과정은,
    상기 도메인 정보를 기반으로 상기 모니터링 대상에 대한 분석 목표와 상이한 데이터 및 상기 도메인 정보별 기 정의된 허용 범위를 벗어나는 데이터를 상기 순환 시계열 데이터 상에서 필터링하여 상기 전처리 순환 시계열 데이터를 생성하는 것을 특징으로 하는 순환 시계열 데이터를 위한 특징 추출방법.
  4. 제 1항에 있어서,
    상기 수집하는 과정은, 상기 모니터링 대상과 관련하여 상기 순환 시계열 데이터가 취득된 환경과 배경을 기록한 참조 데이터를 추가로 수집하고,
    상기 형성하는 과정은, 상기 참조 데이터를 기반으로 결정되는 상기 가변 주기를 기반으로 상기 복수의 세그멘트를 형성하는 것을 특징으로 하는 순환 시계열 데이터를 위한 특징 추출방법.
  5. 제 4항에 있어서,
    상기 형성하는 과정은,
    상기 참조 데이터를 기반으로 상기 각 세그멘트에 상응하는 시작점과 끝점을 유동적으로 조절하여 상기 가변 주기를 결정하는 것을 특징으로 하는 순환 시계열 데이터를 위한 특징 추출방법.
  6. 제 1항에 있어서,
    상기 형성하는 과정은,
    상기 복수의 세그멘트를 기반으로 N(N=자연수)개의 반복 패턴을 인식하고, 인식된 반복 패턴의 특성정보를 고려하여 상기 복수의 세그멘트의 길이를 적응적으로 조정하여 제공하는 것을 특징으로 하는 순환 시계열 데이터를 위한 특징 추출방법.
  7. 제 6항에 있어서,
    상기 형성하는 과정은,
    상기 각 세그멘트 간 동일한 길이를 갖도록 시간축에 대하여 리사이징을 적용하는 것을 특징으로 하는 순환 시계열 데이터를 위한 특징 추출방법.
  8. 제 1항에 있어서,
    상기 추출하는 과정은,
    상기 적용결과에 따라 상기 복수의 세그멘트에 상응하는 입력 차원을 기 정의된 특징 차원의 벡터로 변환하고, 변환된 특징 차원의 벡터로부터 상기 복수의 세그멘트를 복원하는 학습을 수행하여 상기 각 세그멘트별 특징 벡터를 추출하는 것을 특징으로 하는 순환 시계열 데이터를 위한 특징 추출방법.
  9. 적어도 하나 이상의 센서로부터 모니터링 대상에 대하여 측정된 순환 시계열 데이터를 수집하는 수집부;
    상기 순환 시계열 데이터를 상기 모니터링 대상에 상응하는 도메인 정보를 기반으로 전처리하여 전처리 순환 시계열 데이터를 생성하는 데이터 처리부;
    상기 전처리 순환 시계열 데이터를 상기 모니터링 대상에 맞춰 정의되는 가변 주기를 기준으로 분할하여 서로 상이한 가변 길이를 갖는 복수의 세그멘트를 형성하는 분할부; 및
    상기 복수의 세그멘트를 딥러닝 모델에 적용하고, 적용결과에 따라 각 세그멘트별 특징 벡터를 추출하는 추출부
    를 포함하는 것을 특징으로 하는 순환 시계열 데이터를 위한 특징 추출장치.
  10. 하드웨어와 결합되어,
    적어도 하나 이상의 센서로부터 모니터링 대상에 대하여 측정된 순환 시계열 데이터를 수집하는 과정;
    상기 순환 시계열 데이터를 상기 모니터링 대상에 상응하는 도메인 정보를 기반으로 전처리하여 전처리 순환 시계열 데이터를 생성하는 과정;
    상기 전처리 순환 시계열 데이터를 상기 모니터링 대상에 맞춰 정의되는 가변 주기를 기준으로 분할하여 서로 상이한 가변 길이를 갖는 복수의 세그멘트를 형성하는 과정; 및
    상기 복수의 세그멘트를 딥러닝 모델에 적용하고, 적용결과에 따라 각 세그멘트별 특징 벡터를 추출하는 과정
    을 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램.

KR1020190027851A 2019-03-12 2019-03-12 순환 시계열 데이터를 위한 특징 추출방법 및 장치 KR102169396B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190027851A KR102169396B1 (ko) 2019-03-12 2019-03-12 순환 시계열 데이터를 위한 특징 추출방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190027851A KR102169396B1 (ko) 2019-03-12 2019-03-12 순환 시계열 데이터를 위한 특징 추출방법 및 장치

Publications (2)

Publication Number Publication Date
KR20200108969A KR20200108969A (ko) 2020-09-22
KR102169396B1 true KR102169396B1 (ko) 2020-10-23

Family

ID=72707027

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190027851A KR102169396B1 (ko) 2019-03-12 2019-03-12 순환 시계열 데이터를 위한 특징 추출방법 및 장치

Country Status (1)

Country Link
KR (1) KR102169396B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102570598B1 (ko) * 2021-06-24 2023-08-28 주식회사 틸더 결측 심전도 신호 재생성 장치 및 방법
CN115114345B (zh) * 2022-04-02 2024-04-09 腾讯科技(深圳)有限公司 特征表示的提取方法、装置、设备、存储介质及程序产品
KR20240017694A (ko) * 2022-08-01 2024-02-08 한국전자기술연구원 시계열 데이터의 품질 검증을 수행하는 전자장치 및 그 수행 방법
KR102589602B1 (ko) * 2022-11-14 2023-10-17 주식회사 티라유텍 결측치 처리를 위한 장치 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034497A1 (en) 2017-07-27 2019-01-31 Nec Laboratories America, Inc. Data2Data: Deep Learning for Time Series Representation and Retrieval

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034497A1 (en) 2017-07-27 2019-01-31 Nec Laboratories America, Inc. Data2Data: Deep Learning for Time Series Representation and Retrieval

Also Published As

Publication number Publication date
KR20200108969A (ko) 2020-09-22

Similar Documents

Publication Publication Date Title
KR102169396B1 (ko) 순환 시계열 데이터를 위한 특징 추출방법 및 장치
CN110020623B (zh) 基于条件变分自编码器的人体活动识别***及方法
Rai et al. ECG signal processing for abnormalities detection using multi-resolution wavelet transform and Artificial Neural Network classifier
Wang et al. Arrhythmia classification algorithm based on multi-head self-attention mechanism
Lu et al. Feature selection for ECG signal processing using improved genetic algorithm and empirical mode decomposition
Padmavathi et al. Naïve Bayes classifier for ECG abnormalities using multivariate maximal time series motif
Bento et al. ECG biometrics using spectrograms and deep neural networks
CN114041786B (zh) 心冲击图信号的检测方法、装置以及设备
Chashmi et al. An efficient and automatic ECG arrhythmia diagnosis system using DWT and HOS features and entropy-based feature selection procedure
CN115337018B (zh) 基于整体动态特征的心电信号分类方法及***
JP2023544242A (ja) 心イベントを検出及び/又は予測するための、心電図処理システム
JP2019025311A (ja) データ生成装置、生体データ計測システム、識別器生成装置、データ生成方法、識別器生成方法及びプログラム
Li et al. A deep learning approach to cardiovascular disease classification using empirical mode decomposition for ECG feature extraction
CN113476056B (zh) 一种基于频域图卷积神经网络的运动想象脑电信号分类方法
CN114366060A (zh) 一种基于心率变异性的健康预警方法、装置及电子设备
CN113749658A (zh) 基于集成学习的心肺耦合抑郁状态识别方法及***
CN111870241B (zh) 基于优化的多维样本熵的癫痫发作信号检测方法
CN110179451B (zh) 心电信号质量检测方法、装置、计算机设备和存储介质
Gupta et al. Nonlinear technique-based ECG signal analysis for improved healthcare systems
JP5207172B2 (ja) 波形解析装置及び波形解析プログラム
Liu et al. Model-driven parametric monitoring of high-dimensional nonlinear functional profiles
CN113229798B (zh) 模型迁移训练方法、装置、计算机设备及可读存储介质
US20210298625A1 (en) System and method for detecting and predicting an occurrence of cardiac events from electrocardiograms
Celin et al. A novel method for ECG classification using polynomial based curve fitting
CN114287950A (zh) 基于持续同调和傅里叶变换的心脏病计算机辅助分类方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant