KR102575359B1

KR102575359B1 - 시계열 데이터 압축 및 복원 방법

Info

Publication number: KR102575359B1
Application number: KR1020190002884A
Authority: KR
Inventors: 송명근; 강명주; 이병언; 조명수; 고영진; 김건우; 김상연; 서현; 우동준; 최재웅
Original assignee: 삼성전자주식회사; 서울대학교 산학협력단
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2023-09-05
Also published as: US20200220555A1; KR20200086548A; KR102683174B1; US10819368B2; KR20230058029A

Abstract

시계열 데이터 압축 및 복원 방법이 제공된다. 시계열 데이터 압축 방법은, 시계열 데이터(time series data)를 포함하는 원본 데이터를 리드(read)하고, 상기 원본 데이터에 대한 눈금(unit)을 측정하고, 클러스터링 기법을 사용하여 압축 후 데이터와 상기 원본 데이터 사이의 허용 오차를 결정하기 위한 문턱값(threshold)을 결정하고, 상기 원본 데이터 중 이상 점(abnormal point)을 보존하기 위해 최장 거리 다운샘플링(Longest Distance downsampling)을 수행하고, 상기 원본 데이터 중 시작 점(start point) 및 최종 점(end point)을 저장하고, 상기 시작 점과 상기 최종 점을 제외하고, 상기 최장 거리 다운샘플링 수행 결과에 대해 드롭 아웃(drop out)을 수행하고, 상기 원본 데이터가 갖는 값들의 개수가, 상기 원본 데이터 길이의 a 배(여기서 a는 0과 1 사이의 값을 갖는 실수)보다 작은 경우, 상기 원본 데이터가 갖는 값들 중 적어도 일부를 기준 점(reference point)으로서 저장하는 것을 포함한다.

Description

시계열 데이터 압축 및 복원 방법{METHOD FOR COMPRESSING AND RESTORING TIME SERIES DATA}

본 발명은 시계열 데이터 압축 및 복원 방법에 관한 것이다.

반도체 공정에서 다양한 센싱 데이터가 발생할 수 있다. 센서 데이터는 시간에 따라 나열되는 값을 포함하는 시계열 데이터을 형태를 갖는 것이 일반적이다. 이와 같은 반도체 공정에서 생성되는 시계열 데이터는 그 양이 매우 커서 일반적인 스토리지에 보관하기에 어려움이 발생할 수 있다.

따라서 이와 같은 시계열 데이터를 압축 및 복원하는 기술이 필요하다. 그런데 동일 도메인에서 손실 압축을 이용하여 시계열 데이터를 압축 및 복원하는 경우, 압축 데이터의 압축률을 더 높이고 복원 데이터의 품질을 향상시키기 위한 방안이 요구된다.

본 발명이 해결하고자 하는 기술적 과제는, 시계열 데이터의 압축률을 높이고 복원 데이터의 품질을 향상시키기 위한 시계열 데이터 압축 및 복원 방법을 제공하는 것이다.

본 발명의 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제는 아래의 기재로부터 해당 기술 분야의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른 시계열 데이터 압축 방법은, 시계열 데이터(time series data)를 포함하는 원본 데이터를 리드(read)하고, 원본 데이터에 대한 눈금(unit)을 측정하고, 클러스터링 기법을 사용하여 압축 후 데이터와 원본 데이터 사이의 허용 오차를 결정하기 위한 문턱값(threshold)을 결정하고, 원본 데이터 중 이상 점(abnormal point)을 보존하기 위해 최장 거리 다운샘플링(Longest Distance downsampling)을 수행하고, 원본 데이터 중 시작 점(start point) 및 최종 점(end point)을 저장하고, 시작 점과 최종 점을 제외하고, 최장 거리 다운샘플링 수행 결과에 대해 드롭 아웃(drop out)을 수행하고, 원본 데이터가 갖는 값들의 개수가, 원본 데이터 길이의 a 배(여기서 a는 0과 1 사이의 값을 갖는 실수)보다 작은 경우, 원본 데이터가 갖는 값들 중 적어도 일부를 기준 점(reference point)으로서 저장하는 것을 포함한다.

상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른 시계열 데이터 복원 방법은, 시계열 데이터의 압축 결과를 리드하고, 압축 결과에 대해 선형 보간(linear interpolation)을 수행하고, 원본 데이터에 대한 눈금이 측정되었는지 판단하고, 원본 데이터에 대한 눈금이 측정된 경우, 눈금을 이용하여 선형 보간이 수행된 압축 결과를 복원하고, 원본 데이터에 대한 눈금이 측정되지 않은 경우, 원본 데이터가 갖는 값을 이용하여 선형 보간이 수행된 압축 결과를 복원하는 것을 포함한다.

상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른 컴퓨팅 장치는, 시계열 데이터를 포함하는 원본 데이터를 리드하고, 원본 데이터에 대한 눈금을 측정하고, 클러스터링 기법을 사용하여 압축 후 데이터와 원본 데이터 사이의 허용 오차를 결정하기 위한 문턱값을 결정하고, 원본 데이터 중 이상 점을 보존하기 위해 최장 거리 다운샘플링을 수행하고, 원본 데이터 중 시작 점 및 최종 점을 저장하고, 시작 점과 최종 점을 제외하고, 최장 거리 다운샘플링 수행 결과에 대해 드롭 아웃을 수행하고, 원본 데이터가 갖는 값들의 개수가, 원본 데이터 길이의 a 배보다 작은 경우, 원본 데이터가 갖는 값들 중 적어도 일부를 기준 점으로서 저장하는 시계열 데이터 압축 모듈; 및 시계열 데이터의 압축 결과를 리드하고, 압축 결과에 대해 선형 보간을 수행하고, 원본 데이터에 대한 눈금이 측정되었는지 판단하고, 원본 데이터에 대한 눈금이 측정된 경우, 눈금을 이용하여 선형 보간이 수행된 압축 결과를 복원하고, 원본 데이터에 대한 눈금이 측정되지 않은 경우, 원본 데이터가 갖는 값을 이용하여 선형 보간이 수행된 압축 결과를 복원하는 시계열 데이터 복원 모듈을 포함한다.

상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른 하나 이상의 인스트럭션을 포함하는 프로그램이 저장된 컴퓨터로 판독 가능한 기록 매체에 있어서, 하나 이상의 인스트럭션은, 시계열 데이터를 포함하는 원본 데이터를 리드하고, 원본 데이터에 대한 눈금을 측정하고, 클러스터링 기법을 사용하여 압축 후 데이터와 원본 데이터 사이의 허용 오차를 결정하기 위한 문턱값을 결정하고, 원본 데이터 중 이상 점을 보존하기 위해 최장 거리 다운샘플링을 수행하고, 원본 데이터 중 시작 점 및 최종 점을 저장하고, 시작 점과 최종 점을 제외하고, 최장 거리 다운샘플링 수행 결과에 대해 드롭 아웃을 수행하고, 원본 데이터가 갖는 값들의 개수가, 원본 데이터 길이의 a 배보다 작은 경우, 원본 데이터가 갖는 값들 중 적어도 일부를 기준 점으로서 저장하는 것을 수행한다.

상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른 하나 이상의 인스트럭션을 포함하는 프로그램이 저장된 컴퓨터로 판독 가능한 기록 매체에 있어서, 하나 이상의 인스트럭션은, 시계열 데이터의 압축 결과를 리드하고, 압축 결과에 대해 선형 보간을 수행하고, 원본 데이터에 대한 눈금이 측정되었는지 판단하고, 원본 데이터에 대한 눈금이 측정된 경우, 눈금을 이용하여 선형 보간이 수행된 압축 결과를 복원하고, 원본 데이터에 대한 눈금이 측정되지 않은 경우, 원본 데이터가 갖는 값을 이용하여 선형 보간이 수행된 압축 결과를 복원하는 것을 수행한다.

기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

도 1은 본 발명의 일 실시예에 따른 컴퓨팅 시스템을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 시계열 데이터 압축 방법을 설명하기 위한 순서도이다.
도 3 내지 도 7은 본 발명의 일 실시예에 따른 시계열 데이터 압축 방법을 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따른 시계열 데이터 복원 방법을 설명하기 위한 순서도이다.
도 9 내지 도 13은 본 발명의 일 실시예에 따른 시계열 데이터 복원 방법을 설명하기 위한 도면이다.

이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시예들을 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른 컴퓨팅 시스템을 설명하기 위한 도면이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 컴퓨팅 시스템(1)은 프로세서(10), 메모리(20), 스토리지(30), 압축 모듈(40), 복원 모듈(50) 및 I/O 인터페이스(60)를 포함한다. 프로세서(10), 메모리(20), 스토리지(30), 압축 모듈(40), 복원 모듈(50) 및 I/O 인터페이스(60)는 버스(90)를 통해 서로 데이터를 주고 받을 수 있다.

먼저 압축 모듈(40)은 도 2 내지 도 7을 참조하여 구체적으로 후술할 시계열 데이터에 대한 압축을 수행한다. 그리고 복원 모듈(50)은 도 8 내지 도 13을 참조하여 구체적으로 후술할 시계열 데이터에 대한 복원을 수행한다. 즉 압축 모듈(40) 및 복원 모듈(40)은 본 발명의 다양한 실시예에 따른 시계열 데이터 압축 및 복원 방법을 수행한다.

압축 모듈(40) 및 복원 모듈(40)은 소프트웨어로 구현될 수 있다. 예를 들어 압축 모듈(40) 및 복원 모듈(40)이 수행하는 압축 및 복원 기능은 하나 이상의 인스트럭션을 포함하는 프로그램 또는 어플리케이션으로 구현될 수 있다. 이와 같은 프로그램 또는 어플리케이션은 컴퓨터로 판독 가능한 기록 매체에 저장될 수 있다.

또한, 압축 모듈(40) 및 복원 모듈(40)은 하드웨어로 구현될 수도 있다. 예를 들어, 압축 모듈(40) 및 복원 모듈(40)이 수행하는 압축 및 복원 기능은 해당 기능을 수행하도록 설계된 여러 가지 반도체 소자들을 포함하는 반도체 회로와 같은 하드웨어로 구현될 수도 있다.

또한, 압축 모듈(40) 및 복원 모듈(40) 중 일부는 소프트웨어로 구현되고, 다른 일부는 하드웨어로 구현될 수도 있다.

프로세서(10)는 컴퓨팅 시스템(1) 전반을 제어할 수 있다. 특히, 프로세서(10)는 소프트웨어로 구현된 압축 모듈(40) 및 복원 모듈(50)에 해당하는 어플리케이션 또는 프로그램을 실행할 수 있다. 본 실시예에서, 프로세서(110)는 CPU(Central Processing Unit)을 포함할 수 있으나, 본 발명의 범위가 이에 제한되는 것은 아니다.

메모리(20)는 소프트웨어 또는 하드웨어로 구현된 압축 모듈(40) 및 복원 모듈(50)의 실행 또는 구동에 있어서 필요한 저장 공간을 제공한다. 구체적으로, 메모리(20)는 압축 모듈(40) 및 복원 모듈(50)에 해당하는 어플리케이션 또는 프로그램을 로드하여 프로세서(110)가 실행할 수 있도록 하거나, 압축 모듈(40) 및 복원 모듈(50)에 해당하는 어플리케이션 또는 프로그램이 실행되는 동안, 또는 하드웨어로 구현된 압축 모듈(40) 및 복원 모듈(50)이 구동되는 동안 사용되는 데이터를 저장하는 등의 환경을 제공할 수 있다. 본 실시예에서, 메모리(20)는 DRAM(Dynamic Random Access Memory)을 포함할 수 있으나, 본 발명의 범위가 이에 제한되는 것은 아니다.

스토리지(30) 역시 소프트웨어 또는 하드웨어로 구현된 압축 모듈(40) 및 복원 모듈(50)의 실행 또는 구동에 있어서 필요한 저장 공간을 제공한다. 구체적으로 스토리지(30)는 압축 모듈(40) 및 복원 모듈(50)의 실행 또는 구동 중 저장이 필요한 데이터를, 컴퓨팅 시스템(1)의 전원이 오프된 경우에도 유지할 수 있도록 하는 저장 공간을 제공할 수 있다. 본 실시예에서, 스토리지(30)는 SSD(Solid State Drive), HDD(Hard Disk Drive) 등을 포함할 수 있으나, 본 발명의 범위가 이에 제한되는 것은 아니다.

I/O 인터페이스(60)는 다른 외부 장치와의 연결 인터페이스를 제공한다. 예를 들어 압축 모듈(40) 및 복원 모듈(50)의 실행 또는 구동 과정 또는 그 결과는 I/O 인터페이스(60)를 통해 연결된 다른 주변 장치(예를 들어 디스플레이 장치)에 전달되어 사용자에게 시각적으로 표시될 수 있다.

이와 같은 컴퓨팅 장치(1)의 구성은 오로지 예시적인 일 구현례에 불과하고 본 발명의 범위가 이에 한정되는 것은 아니다. 예를 들어, 컴퓨팅 장치(1)는 네트워크 상의 다른 장치들과의 데이터 교환을 제공하는 네트워크 인터페이스 등 추가적인 요소들을 더 포함할 수도 있고, 도 1에 도시된 요소들 중 일부를 생략할 수도 있다.

이제 도 2 내지 도 7을 참조하여, 압축 모듈(40)이 수행하는 시계열 데이터 압축 방법을 설명하도록 한다.

도 2는 본 발명의 일 실시예에 따른 시계열 데이터 압축 방법을 설명하기 위한 순서도이다. 그리고 도 3 내지 도 7은 본 발명의 일 실시예에 따른 시계열 데이터 압축 방법을 설명하기 위한 도면이다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 시계열 데이터 압축 방법은, 시계열 데이터를 포함하는 원본 데이터를 리드(S201)하는 것을 포함한다.

여기서 시계열 데이터는 시간에 따라 나열되는 복수의 값을 갖는 데이터를 말한다. 예를 들어 온도 센서로 측정한 센싱 데이터는 시간이 지남에 따라 나열되는 복수의 온도 값을 가질 수 있다. 이와 같은 시계열 데이터는 x 축을 시간으로 하고 y 축을 데이터 값으로 하는 2 차원 그래프로 표현될 수 있다.

이와 같은 시계열 데이터는 반도체 공정 중에 사용되는 여러 가지의 센서들로부터 획득될 수 있다. 그리고 시계열 데이터는 도 1에서 설명한 것과 같은 스토리지(30)에 저장된 후, 추후 반도체 공정의 결함 검출 또는 기타 다양한 목적에 따른 분석을 위해 사용될 수 있다.

그런데 시계열 데이터는 시간이 지남에 따라 연속적으로 생성되기 때문에 그 양이 방대한 경우가 많다. 따라서 시계열 데이터를 그대로 저장하기 보다는 압축을 하여 저장을 하는 것이 효율적이다. 이를 위해, 압축 모듈(40)은 먼저, 예컨대 도 1에서 설명한 것과 같은 메모리(20) 또는 스토리지(30)에 저장된 시계열 데이터를 리드한다.

다음으로 상기 방법은, 원본 데이터에 대한 눈금(unit)을 측정하는 것을 포함한다.

센서에 따라 센싱 데이터의 측정 단위는 각각 다를 수 있다. 예를 들어 어떤 센서는 센싱 데이터를 정수 단위로 생성하는 반면, 다른 센서는 센싱 데이터를 소수점 이하 단위로 생성할 수도 있다. 그런데 센싱 데이터 중에는 특정한 눈금을 가지고 측정되어, 그 값들이 이산적(discrete)인 경우가 있다.

이산적인 값들을 갖는 센싱 데이터의 경우, 그 눈금을 인지할 수 있다면, 압축된 데이터를 복원하는 과정에 있어서 눈금을 이용하여 원본 데이터와 거의 다름 없는 품질을 갖는 복원 데이터를 획득할 수 있다. 따라서 압축 모듈(40)은 원본 데이터에 대한 눈금을 측정한 후, 측정한 눈금을 예컨대 스토리지(30)에 저장해 둔다.

도 3은 원본 데이터에 대한 눈금을 측정하는 일 구현례를 수도 코드(pseudo code)로 표현한 도면이다. 도 3을 참조하면, 원본 데이터에 대한 눈금을 측정하는 것은 다음과 같은 과정을 통해 수행될 수 있다.

먼저 원본 데이터(Original Data) 중 인접한 데이터의 값의 차이(difference)를 제1 차분 값(Dx)으로 측정한다.

다음으로 인접한 제1 차분 값(Dx)의 차이를 제2 차분 값(DDx)으로 측정한다.

그 후 제2 차분 값(DDx) 중 최소 값을 눈금으로 결정한다. 만일 그 최소 값이 0이 되는 경우에는, 0을 제외한 제2 차분 값(DDx) 중 최소 값을 눈금으로 결정한다.

예를 들어 원본 데이터가 "1, 2, 3, 4, 3, 3, 4, 4, 2"를 포함하는 경우, 이에 대한 제1 차분 값(Dx)은 "1, 1, 1, 1, 0, 1, 0, 2"이 되고, 이에 대한 제2 차분 값(DDx)은 "0, 0, 0, 1, 1, 1, 2"가 될 것이다. 이 경우 0을 제외한 최소 값 '1'이 눈금으로 결정될 수 있다.

만일 눈금으로 모든 제1 차분 값(Dx)을 나눌 수 있으면 변수 "divided"에 참(True)를 설정하고, 그렇지 않으면 변수 "divided"에 거짓(False)을 설정한다.

다시 도 2를 참조하면, 본 발명의 일 실시예에 따른 시계열 데이터 압축 방법은, 클러스터링 기법을 사용하여 압축 후 데이터와 원본 데이터 사이의 허용 오차를 결정하기 위한 문턱값을 결정(S205)하는 것을 포함한다.

본 발명에 따른 시계열 데이터 압축 방법은 손실 알고리즘을 사용하기 때문에, 압축 후 데이터와 원본 데이터의 값의 차이가 발생할 수 있다. 그런데 압축 후 데이터와 원본 데이터의 값의 차이를 허용하는 범위가 너무 넓으면 정보가 손실되는 문제가 발생하고, 반대로 압축 후 데이터와 원본 데이터의 값의 차이를 허용하는 범위가 너무 좁으면 압축률이 낮아지는 문제가 발생한다. 따라서 압축 알고리즘의 성능을 높이기 위해, 압축 모듈(40)은 클러스터링 기법을 사용하여 압축 후 데이터와 원본 데이터 사이의 허용 오차를 결정하기 위한 문턱값을 적절히 결정한다.

도 4는 클러스터링 기법을 사용하여 압축 후 데이터와 원본 데이터 사이의 허용 오차를 결정하기 위한 문턱값을 결정하는 일 구현례를 수도 코드로 표현한 도면이다. 도 4를 참조하면, 문턱값을 결정하는 것은 다음과 같은 과정을 통해 수행될 수 있다.

먼저 원본 데이터(Original Data) 중 인접한 데이터의 값의 차이를 제1 차분 값(Dx)으로 측정한다. 그리고 1 차분 값(Dx)을 클러스터 데이터(Clustered Data)로 설정한다.

다음으로 K 평균 클러스터링(K-means clustering)을 이용하여 제1 차분 값(Dx)을 2 개의 클러스터로 분할한다.

다음으로 분할된 2 개의 클러스터 중 더 큰 제1 클러스터를 클러스터 데이터(Clustered Data)로 설정하고, K 평균 클러스터링을 반복 수행하여 제1 클러스터를 2 개의 클러스터로 분할하는 과정을, 분할된 2 개의 클러스터 중 더 큰 제2 클러스터가 85 % 미만에 도달할 때까지 반복 수행한다.

그 후 분할된 2 개의 클러스터 중 더 큰 제2 클러스터가 85 % 미만에 도달한 경우, 제2 클러스터에 포함된 데이터 세트(data set)의 98 % 지점에 대응하는 값을 문턱값으로 결정한다.

다시 도 2를 참조하면, 본 발명의 일 실시예에 따른 시계열 데이터 압축 방법은, 원본 데이터 중 이상 점을 보존하기 위해 최장 거리 다운샘플링을 수행(S207)하는 것을 포함한다.

특히 반도체 공정에서 센서를 통해 검출된 센서 데이터들은 이상 점에 대한 분석이 중요할 수 있다. 이상 점은, (반드시 그런 것은 아니지만) 센서를 통해 검출된 센서 데이터가 정상 동작하는 경우의 동작 범위를 벗어나는 경우에 해당되는 데이터일 수 있으며, 이와 같은 경우 이상 점을 분석하는 것은 반도체 공정상의 결함 원인을 규명할 수 있는 단서가 될 수 있기 때문이다.

그런데 이와 같은 이상 점은, 시계열 데이터의 소정의 구간에서, 중간 값에 해당하기 보다는 최대 값 또는 최소 값에 해당하는 경우가 대부분이다. 따라서 압축이 완료된 결과가 이와 같은 이상 점을 누락하지 않도록 하기 위해, 바꾸어 말하면 이상 점을 압축된 결과에서도 보존하기 위해, 압축 모듈(40)은 최장 거리 다운샘플링을 수행한다.

본 실시예에서 최장 거리 다운샘플링을 수행하는 것은, 최장 거리 다운샘플링을 수행하기 위한 하나 이상의 구간(interval)을 설정하고, 하나 이상의 구간 각각에서 하나의 데이터를 샘플링하되, 하나 이상의 구간 각각에서 샘플링된 데이터들을 연결했을 때의 총 거리가 가장 긴 거리가 되도록 샘플링을 수행하는 것을 포함한다. 도 5는 다이나믹 프로그래밍(dynamic programming) 기법을 이용하여 최장 거리 다운샘플링을 수행하는 일 구현례를 수도 코드로 표현한 도면이다.

한편, 위에서 설명하는 최장 거리 다운샘플링은 하나 이상의 구간을 설정하기 위해 사용되는 윈도우 사이즈(window size)가 단일 사이즈를 갖는 경우이다. 윈도우 사이즈가 단일 사이즈를 갖는다는 것은 최장 거리 다운샘플링을 수행하기 위한 하나 이상의 구간의 크기가 모두 동일함을 의미한다.

그런데 실제 센서 데이터들은 각각의 구간 별로 정보의 양이 다를 수 있다. 예를 들어 제1 구간에서는 정보의 양이 상대적으로 많고, 제2 구간에서는 정보의 양이 상대적으로 적을 수 있다. 이와 같은 경우 동일한 레이트(rate)로 샘플링을 하는 것보다는 각각의 구간 별로 서로 다른 레이트로 샘플링을 하는 것이, 그 압축 품질을 높일 수 있는 길이다.

이를 위해, 압축 모듈(40)은 가변길이 구간 최장거리 다운샘플링(Longest Distance downsampling with Flexible Interval, LDFI)을 수행한다. 가변길이 구간 최장거리 다운샘플링은, 최장 거리 다운샘플링을 수행하기 위한 하나 이상의 구간을 설정하기 위해 사용되는 윈도우 사이즈를 가변길이로 설정하여 최장 거리 다운샘플링을 수행하는 것을 말한다.

도 6은 가변길이 구간 최장거리 다운샘플링을 수행하는 일 구현례를 수도 코드로 표현한 도면이다.

도 6을 참조하면, 최장 거리 다운샘플링을 수행하는 것은, 제1 윈도우 사이즈로 최장 거리 다운샘플링을 수행한 다운샘플링 결과와, 원본 데이터와의 값의 차이가 문턱값을 초과하는 경우, 제1 윈도우 사이즈를 그 절반에 해당하는 제2 윈도우 사이즈로 분할하고, 제2 윈도우 사이즈로 최장 거리 다운샘플링을 수행하는 것을 포함한다.

다시 도 2를 참조하면, 본 발명의 일 실시예에 따른 시계열 데이터 압축 방법은, 원본 데이터 중 시작 점 및 최종 점을 저장(S209)하는 것을 포함한다.

반도체 공정에서 센싱되는 대부분의 시계열 데이터에서, 시작 점과 최종 점은 해당 공정에서 중요한 의미를 갖는 경우가 많기 때문에, 압축 모듈(40)은 원본 데이터 중 시작 점 및 최종 점을 예컨대 스토리지(30)에 저장한다.

그리고 본 발명의 일 실시예에 따른 시계열 데이터 압축 방법은, 시작 점과 최종 점을 제외하고, 최장 거리 다운샘플링 수행 결과에 대해 드롭 아웃을 수행(S211)하는 것을 포함한다.

드롭 아웃은, 최장 거리 다운샘플링 수행 결과에서 추가로 불필요한 데이터를 제거하여 압축률을 더 높이는 것을 말한다. 단, 드롭 아웃은 반도체 공정에서 중요한 의미를 가질 수 있는 시작 점과 최종 점에 대해서는 수행하지 않는다.

도 7은 드롭 아웃을 수행하는 일 구현례를 수도 코드로 표현한 도면이다.

도 7을 참조하면, 드롭 아웃을 수행하는 것은, 최장 거리 다운샘플링 수행 결과로부터 삭제될 후보(candidate)를 결정하고, 후보의 값과, 이에 대응하는 원본 데이터의 값의 차이를 비교하고, 후보의 값과, 원본 데이터의 값의 차이가 문턱값을 초과하는 경우, 후보를 최장 거리 다운샘플링 수행 결과에서 삭제하는 것을 포함한다.

다시 도 2를 참조하면, 본 발명의 일 실시예에 따른 시계열 데이터 압축 방법은, 원본 데이터가 갖는 값들의 개수가, 원본 데이터 길이의 a 배(여기서 a는 0과 1 사이의 값을 갖는 실수)보다 작은 경우, 원본 데이터가 갖는 값들 중 적어도 일부를 기준 점으로서 저장(S213, S215)하는 것을 포함한다.

여기서 a 값은 실제 구현 목적에 따라 적절하게 선택될 수 있으나, a 값은 예를 들어 0.1로 설정될 수 있다. 즉 원본 데이터가 갖는 값들의 개수가, 원본 데이터 길이의 1/10보다 작은 경우에는, 원본 데이터 자체의 값의 종류가 적은 경우로 판단하여, 원본 데이터가 갖는 값들 중 적어도 일부를 기준 점으로서 저장하고, 이를 복원시 사용하기 위한 것이다. 이 경우 눈금 값에는 -1을 설정할 수 있다.

그리고 본 발명의 일 실시예에 따른 시계열 데이터 압축 방법은, 표준 편차를 연산(S217)하는 것을 포함한다.

압축 모듈(40)은 이제까지 수행한 결과 데이터로부터 표준 편차를 연산하여 그 값을 예컨대 스토리지(30)에 저장해 둘 수 있다. 표준 편차는 후술할 복원 과정에 있어서 노이즈를 추가하기 위해 사용될 수 있다.

그리고 본 발명의 일 실시예에 따른 시계열 데이터 압축 방법은, 압축 결과를 저장(S219)하는 것을 포함한다.

압축 모듈(40)은 이제까지 수행한 압축 결과를 예컨대 스토리지(30)에 저장해 둘 수 있다.

이와 같은 본 발명에 따른 시계열 데이터 압축 방법은, 클러스터링 기법을 사용하여 문턱값을 결정하고, 이를 기반으로 가변길이 구간 최장거리 다운샘플링 및 드롭 아웃을 수행하여 압축률을 높이면서도 압축 품질을 향상시키는 유리한 효과를 갖는다.

이제 도 8 내지 도 13을 참조하여, 복원 모듈(50)이 수행하는 시계열 데이터 복원 방법을 설명하도록 한다.

도 8은 본 발명의 일 실시예에 따른 시계열 데이터 복원 방법을 설명하기 위한 순서도이다. 그리고 도 9 내지 도 13은 본 발명의 일 실시예에 따른 시계열 데이터 복원 방법을 설명하기 위한 도면이다.

도 8을 참조하면, 본 발명의 일 실시예에 따른 시계열 데이터 복원 방법은, 시계열 데이터의 압축 결과를 리드(S801)하는 것을 포함한다.

즉, 복원 모듈(50)은 앞서 도 2 내지 도 7에 따라 설명한 바와 같이 압축 모듈(40)이 예컨대 스토리지(30)에 저장해 둔 시계열 데이터의 압축 결과를 리드한다.

다음으로 상기 방법은, 압축 결과에 대해 선형 보간(linear interpolation)을 수행(S803)하는 것을 포함한다.

선형 보간은 압축 결과의 이상 점들을 연결하는 방식으로 수행될 수 있다. 도 10을 참조하면, 도 10의 그래프(G1)는 원본 데이터를 나타낸 그래프이고 그래프(G2)는 압축 결과에 대해 선형 보간이 수행된 그래프이다.

다시 도 8을 참조하면, 본 발명의 일 실시예에 따른 시계열 데이터 복원 방법은, 압축 결과에 대한 표준 편차를 이용하여, 선형 보간이 수행된 압축 결과에 노이즈(noise)를 추가(S805)하는 것을 포함한다.

반도체 공정에서 생성되는 센싱 데이터는 노이즈에 해당하지 않는 원래의 값도 중요하지만, 노이즈 자체가 중요한 경우도 있다. 예를 들어, 센싱 데이터에 발생하는 노이즈 레벨을 가늠하여 분석을 수행해야 하는 경우가 있다.

이와 같은 경우 선형 보간이 수행된 압축 결과에 가상의 노이즈를 추가할 수 있는데, 본 발명에서는 노이즈 없이 복원된 데이터와 원본 데이터와의 차이의 표준 편차를 저장해 두었다가, 복원 데이터에 노이즈를 입히는 방식으로 노이즈 추가가 구현된다.

도 11은 노이즈 추가를 수행하는 일 구현례를 수도 코드로 표현한 도면이다.

도 11을 참조하면, 노이즈를 추가하는 것은, 표준 편차와 평균이 0인 가우스 분포(Gaussian distribution)를 따르는 랜덤 순열을, 선형 보간이 수행된 압축 결과의 복원 구간의 길이에 부합하도록 생성하는 것을 포함한다. 여기서 복원 구간은 좌측 절반 구간 및 우측 절반 구간을 포함한다.

또한, 노이즈를 추가하는 것은, 복원 구간에서 좌측 이상 점(abnormal point)의 값이 우측 이상 점의 값보다 작은 경우, 랜덤 순열을 내림차순 정렬하고, 복원 구간에서 좌측 이상 점의 값이 우측 이상 점의 값보다 큰 경우, 랜덤 순열을 오름차순 정렬하는 것을 포함한다.

또한, 노이즈를 추가하는 것은, 정렬된 랜덤 순열의 좌측 절반을 좌측 절반 구간에 더하고, 정렬된 랜덤 순열의 우측 절반을 우측 절반 구간에 더하는 것을 포함한다.

이와 같이 하는 이유는, 노이즈를 추가할 때 단순히 랜덤 순열을 추가하는 것보다, 압축 알고리즘의 특성을 고려하여 노이즈를 보다 현실적인 형태로 만들기 위한 것이다. 본 발명에서 사용하는 압축 알고리즘은 길이를 기반으로 이상 점을 찾고, 이상 점이 아닌 값들을 제거하는 방식으로 수행되므로, 복원 구간에서 좌측 이상 점과 우측 이상 점에 비해 중간의 점들의 값들은 그 차이가 그다지 크지 않은 경향을 보인다.

이에 따라, 도 12를 함께 참조하면, 연속된 이상점이 하측 이상 점과 상측 이상 점을 연속으로 포함하는 경우, 복원 구간 중 좌측 절반 부분(A)에서는 복원 데이터(즉, 선형 보간이 수행된 압축 결과)가 원본 데이터보다 아래 쪽에 나타나는 경향을 보이며, 우측 절반 부분(B)에서는 복원 데이터가 원본 데이터보다 위 쪽에 나타나는 경향을 보인다.

따라서 이와 같은 경향성을 반영하여 노이즈를 추가하게 되면, 도 13에 도시된 바와 같이, 원본 데이터의 경향성에 더욱 부합하는 노이즈 추가가 가능하다. 도 13에서 "noise_added_stepwise"로 표시된 그래프는 경향성을 반영하지 않고 단순히 랜덤한 순열로 생성한 노이즈를 추가한 것이고, "noise_added_stepwise_new_method"로 표시된 그래프는 경향성을 반영하여 원본 데이터의 경향성에 더욱 부합하는 노이즈 추가가 된 경우이다.

이와 같이 경향성을 반영하여 노이즈를 추가하게 되면, 복원 구간에서 극소 이상 점보다 더 작거나 극대 이상 점보다 더 큰 값이 나타나는 경우 최대값 또는 최소값이 달라지게 되어 센싱 데이터의 분석을 어렵게 만드는 현상을 방지할 수도 있다.

다시 도 8을 참조하면, 본 발명의 일 실시예에 따른 시계열 데이터 복원 방법은, 원본 데이터에 대한 눈금이 측정되었는지 판단(S807)하는 것을 포함한다.

복원 모듈(50)은, 원본 데이터에 대한 눈금이 측정된 경우(S807, Y), 눈금을 이용하여 선형 보간이 수행된 압축 결과를 복원(S809)한다.

한편, 복원 모듈(50)은, 원본 데이터에 대한 눈금이 측정되지 않은 경우(S807, N), 원본 데이터가 갖는 값을 이용하여 선형 보간이 수행된 압축 결과를 복원(S811)한다.

도 9는 이와 같은 단계(S807, S809, S811)에 대한 일 구현례를 수도 코드로 표현한 도면이다.

도 9를 참조하면, 눈금의 값이 0 이상인 경우, 눈금을 이용하여 선형 보간이 수행된 압축 결과를 복원하는 것은, 선형 보간이 수행된 압축 결과의 값과, 그 좌측의 이상 점이 갖는 값을 비교하여, 선형 보간이 수행된 압축 결과의 값을 좌측의 이상 점과 눈금의 정수 배만큼 차이가 나는 점 중 가장 가까운 값으로 대체하는 것을 포함한다.

이를 수식으로 나타내면, 좌측의 이상 점의 좌표가 (x0, y0)이고, 우측의 이상 점의 좌표가 (x1, y1)인 경우, 대체할 값 y은 다음과 같이 연산될 수 있다. 여기서 x는 시간 값에 해당하므로 결정될 수 있는 값이다.

y = y0 + round((y1-y0)/(x1-x0)*(x-x0)/unit)*unit

이와 달리, 눈금의 값이 -1인 경우, 원본 데이터가 갖는 값을 이용하여 선형 보간이 수행된 압축 결과를 복원하는 것은, 선형 보간이 수행된 압축 결과의 값과, 원본 데이터가 갖는 값을 비교하여, 선형 보간이 수행된 압축 결과의 값을 원본 데이터가 갖는 값 중 가장 가까운 값으로 대체하는 것을 포함한다.

다음으로 상기 방법은, 복원된 데이터를 출력(S811)하는 것을 포함한다

복원 모듈(50)은 복원된 데이터를 I/O 인터페이스(60)를 통해 디스플레이 또는 프린터 등 다양한 출력 장치에 출력할 수 있다. 물론 복원 모듈(50)은 복원된 데이터를 스토리지(30)에 저장해 둘 수도 있다.

이제까지 설명한 본 발명의 다양한 실시예에 따르면, 본 발명에 따른 시계열 데이터 압축 방법은, 클러스터링 기법을 사용하여 문턱값을 결정하고, 이를 기반으로 가변길이 구간 최장거리 다운샘플링 및 드롭 아웃을 수행하여 압축률을 높이면서도 압축 품질을 향상시키는 유리한 효과를 갖는다.

그리고 본 발명에 따른 시계열 데이터 복원 방법은, 눈금 또는 기준 점을 이용하여 복원의 정확도를 높일 수 있을뿐 아니라, 노이즈 추가를 하여 노이즈 레벨의 경향성을 복원 데이터에 나타낼 수 있다는 유리한 효과를 갖는다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였으나, 본 발명은 상기 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 제조될 수 있으며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

1: 컴퓨팅 시스템 10: 프로세서
20: 메모리 30: 스토리지
40: 압축 모듈 50: 복원 모듈
60: I/O 인터페이스

Claims

특정 간격으로 시간에 따라 나열되는 값들을 갖는 시계열 데이터(time series data)를 포함하는 원본 데이터를 리드(read)하고,
상기 특정 간격인 상기 원본 데이터에 대한 눈금(unit)을 측정하고,
클러스터링 기법을 사용하여 상기 원본 데이터를 압축한 압축 데이터와 상기 원본 데이터 사이의 허용 오차를 결정하기 위한 문턱값(threshold)을 결정하고,
상기 원본 데이터에 대해 최장 거리 다운샘플링(Longest Distance downsampling)을 수행하고,
상기 원본 데이터 중 상기 시계열 데이터의 시작 점(start point) 및 상기 시계열 데이터의 최종 점(end point)을 저장하고,
상기 원본 데이터에서 상기 시계열 데이터의 상기 시작 점과 상기 시계열 데이터의 상기 최종 점을 제외한 원본 데이터에 대해, 상기 최장 거리 다운 샘플링을 수행한 최장 거리 다운샘플링 수행 결과에 대해 드롭 아웃(drop out)을 수행하고,
상기 원본 데이터가 갖는 값들의 개수가, 상기 원본 데이터의 길이의 a 배(여기서 a는 0과 1 사이의 값을 갖는 실수)보다 작은 경우, 상기 원본 데이터가 갖는 값들 중 적어도 일부를 기준 점(reference point)으로서 저장하는 것을 포함하는 시계열 데이터 압축 방법.
제1항에 있어서,
상기 최장 거리 다운샘플링을 수행하는 것은,
상기 최장 거리 다운샘플링을 수행하기 위한 하나 이상의 구간(interval)을 설정하기 위해 사용되는 윈도우 사이즈(window size)를 가변길이로 설정하여 상기 최장 거리 다운샘플링을 수행하는 가변길이 구간 최장거리 다운샘플링(Longest Distance downsampling with Flexible Interval, LDFI)을 수행하는 것을 포함하는 시계열 데이터 압축 방법.
제1항에 있어서,
상기 원본 데이터에 대한 눈금을 측정하는 것은,
상기 원본 데이터 중 서로 인접한 2개의 원본 데이터의 값의 차이(difference)를 제1 차분 값으로 측정하고,
상기 제1 차분 값 중 서로 인접한 2개의 제1 차분 값의 차이를 제2 차분 값으로 측정하고,
상기 제2 차분 값 중 최소 값을 상기 눈금으로 결정하는 것을 포함하는 시계열 데이터 압축 방법.
제1항에 있어서,
상기 문턱값을 결정하는 것은,
상기 원본 데이터 중 서로 인접한 2개의 원본 데이터의 값의 차이(difference)를 제1 차분 값으로 측정하고,
K 평균 클러스터링(K-means clustering)을 이용하여 상기 제1 차분 값을 2 개의 클러스터로 분할하고,
상기 분할된 2 개의 클러스터 중 더 큰 제1 클러스터에 대해 상기 K 평균 클러스터링을 반복 수행하여 상기 제1 클러스터를 2 개의 클러스터로 분할하고,
상기 분할된 2 개의 클러스터 중 더 큰 제2 클러스터가 85 % 미만에 도달한 경우, 상기 제2 클러스터의 98 % 지점에 대응하는 값을 상기 문턱값으로 결정하는 시계열 데이터 압축 방법.
제1항에 있어서,
상기 드롭 아웃을 수행하는 것은,
상기 최장 거리 다운샘플링 수행 결과로부터 삭제될 후보(candidate)를 결정하고,
상기 후보의 값과, 이에 대응하는 상기 원본 데이터의 값의 차이를 비교하고,
상기 후보의 값과, 상기 원본 데이터의 값의 차이가 상기 문턱값을 초과하는 경우, 상기 후보를 상기 최장 거리 다운샘플링 수행 결과에서 삭제하는 것을 포함하는 시계열 데이터 압축 방법.
삭제
삭제
삭제
특정 간격으로 시간에 따라 나열되는 값들을 갖는 시계열 데이터(time series data)를 포함하는 원본 데이터를 리드(read)하고,
상기 특정 간격인 상기 원본 데이터에 대한 눈금(unit)을 측정하고,
클러스터링 기법을 사용하여 상기 원본 데이터를 압축한 압축 데이터와 상기 원본 데이터 사이의 허용 오차를 결정하기 위한 문턱값(threshold)을 결정하고,
상기 원본 데이터에 대해 최장 거리 다운샘플링(Longest Distance downsampling)을 수행하고,
상기 원본 데이터 중 상기 시계열 데이터의 시작 점(start point) 및 상기 시계열 데이터의 최종 점(end point)을 저장하고,
상기 원본 데이터에서 상기 시계열 데이터의 시작 점과 상기 시계열 데이터의 상기 최종 점을 제외한 원본 데이터에 대해, 상기 최장 거리 다운 샘플링을 수행한 최장 거리 다운샘플링 수행 결과에 대해 드롭 아웃(drop out)을 수행하고,
상기 원본 데이터가 갖는 값들의 개수가, 상기 원본 데이터의 길이의 a 배(여기서 a는 0과 1 사이의 값을 갖는 실수)보다 작은 경우, 상기 원본 데이터가 갖는 값들 중 적어도 일부를 기준 점(reference point)으로서 저장하는 것을 수행하는 하나 이상의 인스트럭션을 포함하는 프로그램이 저장된 컴퓨터로 판독 가능한 기록 매체.
삭제