KR102037796B1

KR102037796B1 - 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치 및 방법

Info

Publication number: KR102037796B1
Application number: KR1020190036176A
Authority: KR
Inventors: 김건민; 김지혁
Original assignee: (주)위세아이텍
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2019-11-26

Abstract

피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치 및 방법이 개시되며, 본원의 일 실시예에 따른 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치는, 원본 데이터의 변수명과 상기 원본 데이터의 카테고리 변수의 변화과정을 기록하는 딕셔너리를 생성하는 원본 데이터 처리부, 상기 카테고리 변수에 대한 더미 변수를 생성하는 더미 변수 생성부, 상기 원본 데이터로부터 더미 변수 생성 이후 변화된 데이터에 대해 스케일링 및 주성분 분석을 수행하는 데이터 분석부, 상기 주성분 분석 이후 변화된 데이터로부터 사용 변수를 선택하고 비사용 변수의 변수명을 추출하는 변수 선택부 및 상기 딕셔너리와 상기 원본 데이터의 변수명 및 피처 엔지니어링이 수행된 데이터의 변수명에 기초하여 변수의 변화과정을 시각화하는 시각화부를 포함할 수 있다.

Description

피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치 및 방법{DEVICE AND METHOD FOR VISUALIZING RESULT DATA CORRESPONDENCE RELATIONSHIP BY FEATURE ENGINEERING}

본원은 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치 및 방법에 관한 것이다.

기존의 정형 데이터에 대한 머신 러닝 과정은 주어진 원본 데이터에 대해 피처 엔지니어링을 실시한 후의 가공된 데이터를 이용하여 성능을 높이는 방식을 사용하고 있다.

그러나 사용자는 원본 데이터보다 가공된 데이터가 머신 러닝 모델의 성능을 높인다는 사실 이외에는 가공된 데이터의 변수에 대한 정보를 알기 어렵다. 머신 러닝 과정을 시행한 후 예측 결과에 대한 인사이트를 얻기 위해서 학습에 사용된 가공된 데이터가 원본 데이터와 어떤 관계가 있는지에 대한 정보를 파악할 필요성이 있으나, 가공된 데이터와 원본 데이터와의 대응 관계를 제공하는 기술과 관련하여 그 개발 수준이 마땅치 않은 실정이다.

본원의 배경이 되는 기술은 한국공개특허공보 제10-2018-0058600 호에 개시되어 있다.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 피처 엔지니어링 시행 후의 가공된 데이터와 원본 데이터의 대응관계를 시각화하여 변수의 변화 과정을 추적할 수 있는 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치 및 방법을 제공하는 것을 목적으로 한다.

다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들도 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치는, 원본 데이터의 변수명과 상기 원본 데이터의 카테고리 변수의 변화과정을 기록하는 딕셔너리를 생성하는 원본 데이터 처리부, 상기 카테고리 변수에 대한 더미 변수를 생성하는 더미 변수 생성부, 상기 원본 데이터로부터 더미 변수 생성 이후 변화된 데이터에 대해 스케일링 및 주성분 분석을 수행하는 데이터 분석부, 상기 주성분 분석 이후 변화된 데이터로부터 사용 변수를 선택하고 비사용 변수의 변수명을 추출하는 변수 선택부 및 상기 딕셔너리와 상기 원본 데이터의 변수명 및 피처 엔지니어링이 수행된 데이터의 변수명에 기초하여 변수의 변화과정을 시각화하는 시각화부를 포함할 수 있다.

본원의 일 실시예에 따르면, 상기 원본 데이터 처리부는 상기 원본 데이터의 변수명과 상기 카테고리 변수의 서로 다른 값의 이름과 개수에 대한 정보를 추출할 수 있다.

본원의 일 실시예에 따르면, 상기 더미 변수 생성부는, 상기 원본 데이터의 카테고리 변수를 상기 더미 변수로 변환할 수 있다.

본원의 일 실시예에 따르면, 상기 데이터 분석부는, 더미 변수 생성 이후 상기 원본 데이터로부터 변화된 제1데이터에 대해 스케일링을 수행하고, 스케일링 이후 변화된 제2데이터의 변수에 대해 주성분 분석을 수행할 수 있다.

본원의 일 실시예에 따르면, 상기 변수 선택부는, 상기 주성분 분석 이후 변화된 제3데이터의 변수명을 추출하고, 상기 제3데이터의 변수 중 원본 데이터의 변수와 상기 더미 변수를 제외한 나머지 변수를 상기 사용 변수로 선택할 수 있다.

본원의 일 실시예에 따르면, 상기 피처 엔지니어링이 수행된 데이터의 변수명은 상기 사용 변수 선택 이후 변화된 제4데이터에 대한 변수명을 포함하고,

상기 시각화부는 상기 원본 데이터와 상기 피처 엔지니어링 시행후의 데이터의 대응 관계를 시각화할 수 있다.

본원의 일 실시예에 따른 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 방법은, (a) 원본 데이터의 변수명과 상기 원본 데이터의 카테고리 변수의 변화과정을 기록하는 딕셔너리를 생성하는 단계, (b) 상기 카테고리 변수에 대한 더미 변수를 생성하는 단계, (c) 상기 원본 데이터로부터 더미 변수 생성 이후 변화된 데이터에 대해 스케일링 및 주성분 분석을 수행하는 단계, (d) 상기 주성분 분석 이후 변화된 데이터로부터 사용 변수를 선택하고 비사용 변수의 변수명을 추출하는 단계 및 (e) 상기 딕셔너리와 상기 원본 데이터의 변수명 및 피처 엔지니어링이 수행된 데이터의 변수명에 기초하여 변수의 변화과정을 시각화하는 단계를 포함할 수 있다.

본원의 일 실시예에 따르면, 상기 (a)단계는, 상기 원본 데이터의 변수명과 상기 카테고리 변수의 서로 다른 값의 이름과 개수에 대한 정보를 추출할 수 있다.

본원의 일 실시예에 따르면, 상기 (b)단계는, 상기 원본 데이터의 카테고리 변수를 상기 더미 변수로 변환할 수 있다.

본원의 일 실시예에 따르면, 상기 (c)단계는, 더미 변수 생성 이후 상기 원본 데이터로부터 변화된 제1데이터에 대해 스케일링을 수행하고, 스케일링 이후 변화된 제2데이터의 변수에 대해 주성분 분석을 수행할 수 있다.

본원의 일 실시예에 따르면, 상기 (d)단계는, 상기 주성분 분석 이후 변화된 제3데이터의 변수명을 추출하고 상기 제3데이터의 변수 중 원본 데이터의 변수와 상기 더미 변수를 제외한 나머지 변수를 상기 사용 변수로 선택할 수 있다.

본원의 일 실시예에 따르면, 상기 피처 엔지니어링이 수행된 데이터의 변수명은 상기 사용 변수 선택 이후 변화된 제4데이터에 대한 변수명을 포함하고, 상기 (e)단계는, 상기 원본 데이터와 상기 피처 엔지니어링 시행후의 데이터의 대응 관계를 시각화 할 수 있다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.

전술한 본원의 과제 해결 수단에 의하면, 피처 엔지니어링 시행 후의 가공된 데이터와 원본 데이터의 대응관계를 시각화하여 변수의 변화 과정을 추적할 수 있는 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치 및 방법을 제공할 수 있다.

도 1은 본원의 일 실시예에 따른 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치의 구성을 도시한 도면이다.
도 2는 본원의 일 실시예에 따른, 피처 엔지니어링에 의한 결과 데이터 시각화 장치의 시각화의 흐름을 도시한 도면이다.
도 3은 본원의 일 실시예에 따른 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치에 의한 시각화의 예를 도시한 도면이다.
도 4는 본원의 일 실시예에 따른 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 방법의 흐름을 도시한 도면이다.
도 5는 본원의 일 실시예에 따른 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치에 의한 숫자 변화 과정의 시각화를 도시한 도면이다.
도 6 내지 도 20은 본원의 일 실시예에 따른 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치의 각 변수 변화의 시각화를 도시한 도면이다.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

도 1은 본원의 일 실시예에 따른 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치의 구성을 도시한 도면이고, 도 2는 본원의 일 실시예에 따른, 피처 엔지니어링에 의한 결과 데이터 시각화 장치의 시각화의 흐름을 도시한 도면이다.

도 1을 참조하면, 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치(100)는 원본 데이터 처리부(110), 더미 변수 생성부(120), 데이터 분석부(130), 변수 선택부(140) 및 시각화부(150)를 포함할 수 있다. 원본 데이터 처리부(110)는 원본 데이터의 변수명과 상기 원본 데이터의 카테고리 변수의 변화과정을 기록하는 딕셔너리를 생성할 수 있다. 원본 데이터 처리부(110)는 원본 데이터의 변수명과 각 카테고리 변수의 서로 다른 값의 이름과 변수의 개수를 추출할 수 있다. 또한, 상기 딕셔너리는 변수의 변화에 따라 원본 데이터 처리부(110) 및 후술하는 더미 변수 생성부(120), 데이터 분석부(130), 변수 선택부(140)에 의해 변수의 변화과정이 갱신될 수 있다.

더미 변수 생성부(120)는 카테고리 변수에 대한 더미 변수를 생성할 수 있다. 더미 변수 생성부(120)는 원본 데이터의 카테고리 변수를 더미 변수로 변환할 수 있다. 구체적으로 더미 변수 생성부(120)는 원본 데이터의 카테고리 변수인 Sort, Move, Rest 및 Nagative를 더미 변수로 변환하여 상기 더미 변수를 생성할 수 있다. 예시적으로, 원본 데이터에 3개의 범주형 변수 ('Sort', 'Move', 'Rest')와 5개의 수치형 변수 ('Longest', 'Most', 'TotalMon', 'TotalTax', 'TotalDelay')가 포함된 경우, 더미 변수 생성부(120)는 범주형 변수부터 알파벳 순으로 변수를 정렬할 수 있다. 또한, 더미 변수 생성부(120)는 정렬된 순서대로 리스트 [1], [2], ..., [8]을 value로 하는 key-value 쌍을 생성할 수 있고, 범주형 변수와 수치형 변수를 구분하기 위해 각각 접두어 ‘Cat_', 'Num_'을 변수 이름 앞에 붙이고 변수의 개수가 변화하는 것을 기록하기 위해 이름 끝에 00을 붙일 수 있다. (딕셔너리의 예시: {'Cat_Move00' : [1], 'Cat_Rest00' : [2], 'Cat_Sort00' : [3], 'Num_Longest00' : [4], 'Num_Most00' : [5], 'Num_TotalDelay00' : [6], 'Num_TotalMon00' : [7], 'Num_TotalTax00' : [8]}) 또한, 더미 변수 생성부(120)는 삭제될 변수를 나타낼 key-value 쌍 Dropped_column' : [9]을 추가할 수 있다. ([9] 포함 예시: {'Cat_Move00' : [1], 'Cat_Rest00' : [2], 'Cat_Sort00' : [3], 'Num_Longest00' : [4], 'Num_Most00' : [5], 'Num_TotalDelay00' : [6], 'Num_TotalMon00' : [7], 'Num_TotalTax00' : [8], 'Dropped_column' : [9]})

또한, 더미 변수 생성부(120)는 더미 변수를 생성함으로써 원본 데이터로부터 변화되는 제1데이터를 생성할 수 있다. 더미 변수 생성부(120)는 더미 변수 생성과 스케일링에 의해 변화된 원본 데이터에 대응하여 딕셔너리를 갱신할 수 있다. 즉 제1데이터 생성에 따른 변수의 변화과정에 기초하여 딕셔너리를 갱신할 수 있다. 변수의 변화 발생시마다 딕셔너리가 갱신됨으로써, 상기 딕셔너리가 피처 엔지니어링에 의한 결과데이터 대응 관계의 시각화에 대한 근거로 활용될 수 있다. 딕셔너리가 갱신되는 규칙에 대해 살펴보면, 예시적으로, 원본 데이터에 3개의 범주형 변수 ('Sort', 'Move', 'Rest')와 5개의 수치형 변수 ('Longest', 'Most', 'TotalMon', 'TotalTax', 'TotalDelay')가 포함된 경우, 범주형 변수 ‘Sort’는 3가지 종류의 값(0, 1, 2), 'Move'는 2가지 종류의 값(0, 1), ‘Rest'는 2가지 종류의 값(0, 1)을 각각 가지고 있다고 가정한다. 그러면 전술한 예시와 같은 딕셔너리가 생성될 수 있다. 더미 변수 생성부(120)는 더미 변수로 변경할 범주형 변수를 선택할 수 있다. 예시적으러 범주형 변수 중 Rest', 'Sort'가 더미 변수로 변경할 변수로 선택되면, 선택한 변수 외의 변수들의 value(리스트)는 value의 가장 마지막 값을 추가할 수 있다. (예시: {'Cat_Move00' : [1, 1], 'Num_Longest00' : [4, 4], 'Num_Most00' : [5, 5], 'Num_TotalDelay00' : [6, 6], 'Num_TotalMon00' : [7, 7], 'Num_TotalTax00' : [8, 8], 'Dropped_column' : [9, 9]}) 더미 변수로 변경할 변수는 다음과 같이 갱신될 수 있다. Sort의 경우 변수의 개수가 3개이므로 기존의 ‘Cat_Sort00 : [3]’을 포함하여 총 3개의 key-value쌍이 필요하다. 따라서 ‘Cat_Sort01 : [3]’, ‘Cat_Sort02 : [3]’를 추가할 수 있다. 먼저, 기존 value의 값을 산출하고, (예를 들어 3) ort가 가진 값의 개수에 역수를 취한 값을 산출한다.(3 -> 1/3) 이후, 상기 역수값을 기존 value값에 계속적으로 추가한다. (3 -> 3.33 -> 3.66, 즉, 3.33, 3.66을 Cat_Sort00’, ‘Cat_Sort01’, ‘Cat_Sort02’의 value에 각각 추가) 따라서 ‘Cat_Sort00' : [3, 3], 'Cat_Sort01' : [3, 3.33], 'Cat_Sort02' : [3, 3.66]로 갱신되고, 동일한 방식으로 ‘Cat_Rest00' : [2, 2], 'Cat_Rest01' : [2, 2.5]로 갱신될 수 있다. 따라서 최종적으로 갱신된 딕셔너리는 다음과 같다. {'Cat_Move00' : [1, 1], 'Cat_Rest00' : [2, 2], 'Cat_Rest01' : [2, 2.5], 'Cat_Sort00' : [3, 3], 'Cat_Sort01' : [3, 3.33], 'Cat_Sort02' : [3, 3.66], 'Num_Longest00' : [4, 4], 'Num_Most00' : [5, 5], 'Num_TotalDelay00' : [6, 6], 'Num_TotalMon00' : [7, 7], 'Num_TotalTax00' : [8, 8], 'Dropped_column' : [9, 9]}

전술한 딕셔너리의 갱신 규칙은 후술하는 딕셔너리의 갱신에서도 동일하게 적용될 수 있다.

데이터 분석부(130)는 상기 원본 데이터로부터 더미 변수 생성 이후 변화된 데이터에 대해 스케일링 및 주성분 분석을 수행할 수 있다. 구체적으로, 데이터 분석부(130)는 더미 변수 생성 이후 원본 데이터로부터 변화된 제1데이터에 대해 스케일링을 수행할 수 있다. 스케일링은 변수의 크기(척도)를 조절하는 기법 의미하며, 데이터의 피쳐 또는 독립 변수의 구간을 표준화 하는 방법론을 의미한다. 예시적으로, 데이터 분석부(130)는 스탠다드 스케일(Standard scale)을 사용하여 스케일링을 수행할 수 있다. 스케일링에 대해 살펴보면, 스케일링은 그 종류에 상관없이 변수의 개수는 변하지 않는다. 따라서 모든 변수들의 value(리스트)에 대해 각 value의 가장 마지막 값을 각각 그대로 추가할 수 있다. 즉, 스케일링을 시행할 경우의 최종적으로 갱신되는 딕셔너리는 다음과 같다.

{'Cat_Move00' : [1, 1], 'Cat_Rest00' : [2, 2], 'Cat_Sort00' : [3, 3], 'Num_Longest00' : [4, 4], 'Num_Most00' : [5, 5], 'Num_TotalDelay00' : [6, 6], 'Num_TotalMon00' : [7, 7], 'Num_TotalTax00' : [8, 8], 'Dropped_column' : [9, 9]}

또한, 데이터 분석부(130)는 제1데이터에 대한 스케일링 이후 변화되는 데이터인 제2데이터를 생성할 수 있다. 데이터 분석부(130)는 스케일링 이후 변화된 제2데이터의 변수에 대해 주성분 분석을 수행할 수 있다. 또한, 상기 주성분 분석(PCA, Principal Component Analysis)은 새로운 변수를 추출하고 변수의 차원을 축소하는 기법을 의미한다. 구체적으로, 주성분 분석은 서로 연관되어 있는 변수들이 관측되었을 때, 이 변수들이 전체적으로 가지고 있는 정보들을 최대한 확보하는 작은 수의 새로운 변수(=주성분)을 생성하는 기법을 의미한다. 데이터 분석부(130)는 제2데이터의 변수 중 TotalDelay, Longest, Phone, TotalMon, SucNum 및 MNYear 에 대해 주성분 분석을 수행할 수 있다. 즉 데이터 분석부(130)는 상기 6개의 변수에 대해 주성분 분석을 수행하여 3개의 새로운 변수를 추출할 수 있다. 데이터 분석부(130)는 제2데이터에 대한 주성분 분석 이후 변화되는 데이터인 제3데이터를 생성할 수 있다. 또한, 데이터 분석부(130)는 제2데이터 및 제3데이터 각각의 생성에 따른 변수의 변화과정에 기초하여 딕셔너리를 갱신할 수 있다.

주성분 분석에 따른 딕셔너리의 갱신에 대해 살펴보면, 먼저 데이터 분석부(130)는 주성분 분석을 적용할 변수를 선택할 수 있다. 예시적으로, 범주형 변수 'Sort', 'Rest', 수치형 변수 ‘Longest', 'Most', 'TotalDelay'가 선택된 경우를 통해 설명한다. 또한 본 예시에서는 3차원으로 축소한다고 가정한다. (즉, 주성분을 3개만 남긴다고 가정한다) 데이터 분석부(130)는 선택한 변수 외의 변수들의 value(리스트)는 value의 가장 마지막 값을 추가할 수 있다. 예시는 다음과 같다.

{'Cat_Move00' : [1, 1], 'Num_TotalMon00' : [7, 7], 'Num_TotalTax00' : [8, 8], 'Dropped_column' : [9, 9]}

주성분 분석을 통해 생성되는 3개의 주성분은 주성분 분석 대상으로 선택된 상기 5개의 변수('Sort', 'Rest', ‘Longest', 'Most', 'TotalDelay') 모두에게 영향을 받을 수 있다. 따라서 기존의 5개의 변수를 포함하여 총 15개(5x3)의 key-value 쌍이 요구된다. 따라서 데이터 분석부(130)는 5x(3-1)=10개의 key-value쌍을 다음과 같이 추가할 수 있다.

['Cat_Rest01' : [2], 'Cat_Sort01' : [3], 'Num_Longest01' : [4], 'Num_Most01' : [5], 'Num_TotalDelay01' : [6], 'Cat_Rest02' : [2], 'Cat_Sort02' : [3], 'Num_Longest02' : [4], 'Num_Most02' : [5], 'Num_TotalDelay02' : [6]]

이후 다음과 같은 규칙으로 딕셔너리를 갱신할 수 있다. A) 선택된 5개의 변수의 value의 초기값을 산출한다.(2, 3, 4, 5, 6 ) B) A에서 구한값 중 가장 큰 값을 산출한다. (6) C) 축소된 차원의 수에 +1을 연산하고 역수값을 산출한다. (1/3+1=0.25) D) C에서 구한 값을 B에서 구한 값에 축소된 차원의 수만큼 더한 값을 산출한다. (6.25, 6.5, 6.75) E) 갱신된key- value쌍은 다음과 같다.

['Cat_Rest00' : [2, 6.25], 'Cat_Sort00' : [3, 6.25], 'Num_Longest00' : [4, 6.25], 'Num_Most00' : [5, 6.25], 'Num_TotalDelay00' : [6, 6.25], 'Cat_Rest01' : [2, 6.5], 'Cat_Sort01' : [3, 6.5], 'Num_Longest01' : [4, 6.5], 'Num_Most01' : [5, 6.5], 'Num_TotalDelay01' : [6, 6.5], 'Cat_Rest02' : [2, 6.75], 'Cat_Sort02' : [3, 6.75], 'Num_Longest02' : [4, 6.75], 'Num_Most02' : [5, 6.75], 'Num_TotalDelay02' : [6, 6.75]]

최종적으로 갱신된 딕셔너리는 다음과 같다.

{'Cat_Move00' : [1, 1], 'Cat_Rest00' : [2, 6.25], 'Cat_Rest01' : [2, 6.5], 'Cat_Rest02' : [2, 6.75], 'Cat_Sort00' : [3, 6.25], 'Cat_Sort01' : [3, 6.5], 'Cat_Sort02' : [3, 6.75], 'Num_Longest00' : [4, 6.25], 'Num_Longest01' : [4, 6.5], 'Num_Longest02' : [4, 6.75], 'Num_Most00' : [5, 6.25], 'Num_Most01' : [5, 6.5], 'Num_Most02' : [5, 6.75], 'Num_TotalDelay00' : [6, 6.25], 'Num_TotalDelay01' : [6, 6.5], 'Num_TotalDelay02' : [6, 6.75], 'Num_TotalMon00' : [7, 7], 'Num_TotalTax00' : [8, 8], 'Dropped_column' : [9, 9]}

변수 선택부(140)는 상기 주성분 분석 이후 변화된 데이터로부터 사용 변수를 선택하고 비사용 변수의 변수명을 추출할 수 있다. 사용 변수의 선택은 머신러닝 모델의 성능을 보다 향상시키기 위해 이루어질 수 있다. 변수 선택부(140)는, 주성분 분석 이후 변화된 제3데이터의 변수명을 추출할 수 있다. 변수 선택부(140)는 제3데이터의 변수 중 원본 데이터의 변수와 상기 더미 변수를 제외한 나머지 변수를 상기 사용 변수로 선택할 수 있다. 구체적으로, 변수 선택부(140)는 제3데이터의 변수 중 원본 데이터의 Rest 변수와 Sort 변수로부터 생성된 더미변수 Rest_1, Rest_2, Rest_3, Sort_P, Sort_C, Sort_B를 제외한 나머지 변수를 사용 변수로 선택할 수 있다. 또한, 변수 선택부(140)는 사용 변수로 선택되지 않은 변수를 삭제하되, 해당 변수의 변수명을 추출할 수 있다. 또한, 변수 선택부(140)는 사용 변수 선택에 따라 변화된 제3데이터를 통해 제4데이터를 생성할 수 있으며, 제4데이터의 생성에 따른 변수의 변화과정에 기초하여 딕셔너리를 갱신할 수 있다.

도 3은 본원의 일 실시예에 따른 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치에 의한 시각화의 예를 도시한 도면이다.

시각화부(150)는 딕셔너리와 상기 원본 데이터의 변수명 및 피처 엔지니어링이 수행된 데이터의 변수명에 기초하여 변수의 변화과정을 시각화할 수 있다. 피처 엔지니어링이 수행된 데이터의 변수명은 상기 사용 변수 선택 이후 변화된 제4데이터에 대한 변수명을 포함할 수 있다. 시각화부(150)는 상기 원본 데이터와 상기 피처 엔지니어링 시행후의 데이터의 대응 관계를 시각화할 수 있다. 시각화부(150)는 원본 데이터와 피처 엔지니어링 과정에서 발생한 4가지 데이터(제1데이터 내지 제4데이터)에 대해 변수명을 추출하고, 변수의 변화 과정을 기록한 딕셔너리를 생성한 후 이를 이용하여 원본 데이터와 피처 엔지니어링 시행 후의 데이터의 대응 관계를 시각화 할 수 있다.

예시적으로, 시각화부(150)는 갱신이 끝난 딕셔너리를 pandas를 이용하여 dataframe으로 바꿀 수 있다. 하기 표 1은 딕셔너리를 pandas를 이용하여 dataframe으로 바꾼 예를 도시한다.

Cat_Move00	Cat_Move01	Cat_Rest00	Cat_Sort00	Cat_Sort01	Cat_Sort02	Num_Longest00	Num_Most00	Num_TotalDelay00	Num_TotalMon00	Num_TotalTax00	Dropped_column
1	1	2	3	3	3	4	5	6	7	8	9
1	1,5	2	3	3.33	3.66	4	5	6	7	8	9
1	1.5	2	3	3.33	3.66	4	5	6	7	8	9
1	1.5	2	3	3.33	3.66	9	9	9	9	8	9

시각화부(150)는 dataframe의 column명과 각 column별로 숫자가 변화하는 과정을 이용하여 시각화를 실시할 수 있다.도 5는 본원의 일 실시예에 따른 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치에 의한 숫자 변화 과정의 시각화를 도시한 도면이다.

하기 표 2는 피처 엔지니어링 중 하나인 머신러닝 모델에 사용되는 데이터의 예를 나타내며, 각 데이터는 사용자에 따라 변경될 수 있다.

[표 2]

도 3을 참조하면, 원본 데이터와 피처 엔지니어링 시행 후의 데이터의 대응 관계를 파악할 수 있으며, 머신러닝에 사용된 데이터의 변수가 원본 데이터의 어느 변수로부터 파생되었고, 어떤 변화 과정을 거쳤는지 추적할 수 있다.

도 6 내지 도 20은 본원의 일 실시예에 따른 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치의 각 변수 변화의 시각화를 도시한 도면이다.

도 4는 본원의 일 실시예에 따른 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 방법의 흐름을 도시한 도면이다.

도 4에 도시된 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 방법은 앞선 도 1내지 도 3을 통해 설명된 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치(100)에 의하여 수행된다. 따라서, 이하 생략된 내용이라고 하더라도 도 1내지 도 3을 통해 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치(100)에 대하여 설명된 내용은 도 4에도 동일하게 적용될 수 있다.

도 4를 참조하면, 단계 S410에서 원본 데이터 처리부(110)는 원본 데이터의 변수명과 상기 원본 데이터의 카테고리 변수의 변화과정을 기록하는 딕셔너리를 생성할 수 있다. 원본 데이터 처리부(110)는 원본 데이터의 변수명과 각 카테고리 변수의 서로 다른 값의 이름과 변수의 개수를 추출할 수 있다.

단계 S420에서 더미 변수 생성부(120)는 카테고리 변수에 대한 더미 변수를 생성할 수 있다. 더미 변수 생성부(120)는 원본 데이터의 카테고리 변수를 더미 변수로 변환할 수 있다. 또한, 더미 변수 생성부(120)는 더미 변수를 생성함으로써 원본 데이터로부터 변화되는 제1데이터를 생성할 수 있다.

단계 S430에서 데이터 분석부(130)는 상기 원본 데이터로부터 더미 변수 생성 이후 변화된 데이터에 대해 스케일링 및 주성분 분석을 수행할 수 있다. 구체적으로, 데이터 분석부(130)는 더미 변수 생성 이후 원본 데이터로부터 변화된 제1데이터에 대해 스케일링을 수행할 수 있다. 또한, 데이터 분석부(130)는 제1데이터에 대한 스케일링 이후 변화되는 데이터인 제2데이터를 생성할 수 있다. 데이터 분석부(130)는 스케일링 이후 변화된 제2데이터의 변수에 대해 주성분 분석을 수행할 수 있다.

단계 S440에서 변수 선택부(140)는 상기 주성분 분석 이후 변화된 데이터로부터 사용 변수를 선택하고 비사용 변수의 변수명을 추출할 수 있다. 변수 선택부(140)는, 주성분 분석 이후 변화된 제3데이터의 변수명을 추출할 수 있다. 변수 선택부(140)는 제3데이터의 변수 중 원본 데이터의 변수와 상기 더미 변수를 제외한 나머지 변수를 상기 사용 변수로 선택할 수 있다. 또한, 변수 선택부(140)는 사용 변수로 선택되지 않은 변수를 삭제하되, 해당 변수의 변수명을 추출할 수 있다. 또한, 변수 선택부(140)는 사용 변수 선택에 따라 변화된 제3데이터를 통해 제4데이터를 생성할 수 있다.

단계 S450에서 시각화부(150)는 딕셔너리와 상기 원본 데이터의 변수명 및 피처 엔지니어링이 수행된 데이터의 변수명에 기초하여 변수의 변화과정을 시각화할 수 있다. 피처 엔지니어링이 수행된 데이터의 변수명은 상기 사용 변수 선택 이후 변화된 제4데이터에 대한 변수명을 포함할 수 있다. 시각화부(150)는 상기 원본 데이터와 상기 피처 엔지니어링 시행후의 데이터의 대응 관계를 시각화할 수 있다. 시각화부(150)는 원본 데이터와 피처 엔지니어링 과정에서 발생한 4가지 데이터(제1데이터 내지 제4데이터)에 대해 변수명을 추출하고, 변수의 변화 과정을 기록한 딕셔너리를 생성한 후 이를 이용하여 원본 데이터와 피처 엔지니어링 시행 후의 데이터의 대응 관계를 시각화 할 수 있다 .

본원의 일 실시 예에 따른, 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 방법은, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.

100: 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치
110: 원본 데이터 처리부
120: 더미 변수 생성부
130: 데이터 분석부
140: 변수 선택부
150: 시각화부

Claims

피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치에 있어서,
원본 데이터의 변수명과 상기 원본 데이터의 카테고리 변수의 변화과정을 기록하는 딕셔너리를 생성하는 원본 데이터 처리부;
상기 카테고리 변수에 대한 더미 변수를 생성하는 더미 변수 생성부;
상기 원본 데이터로부터 더미 변수 생성 이후 변화된 데이터에 대해 스케일링 및 주성분 분석을 수행하는 데이터 분석부;
상기 주성분 분석 이후 변화된 데이터로부터 사용 변수를 선택하고 비사용 변수의 변수명을 추출하는 변수 선택부; 및
상기 딕셔너리와 상기 원본 데이터의 변수명 및 피처 엔지니어링이 수행된 데이터의 변수명에 기초하여 변수의 변화과정을 시각화하는 시각화부를 포함하고,
상기 데이터 분석부는,
더미 변수 생성 이후 상기 원본 데이터로부터 변화된 제1데이터에 대해 스케일링을 수행하고, 스케일링 이후 변화된 제2데이터의 변수에 대해 주성분 분석을 수행하는 것인, 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치.
제1항에 있어서,
상기 원본 데이터 처리부는
상기 원본 데이터의 변수명과 상기 카테고리 변수의 서로 다른 값의 이름과 개수에 대한 정보를 추출하는 것인, 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치.
제1항에 있어서,
상기 더미 변수 생성부는,
상기 원본 데이터의 카테고리 변수를 상기 더미 변수로 변환하는 것인, 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치.
삭제
제1항에 있어서,
상기 변수 선택부는,
상기 주성분 분석 이후 변화된 제3데이터의 변수명을 추출하고,
상기 제3데이터의 변수 중 원본 데이터의 변수와 상기 더미 변수를 제외한 나머지 변수를 상기 사용 변수로 선택하는 것인, 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치.
제5항에 있어서,
상기 피처 엔지니어링이 수행된 데이터의 변수명은 상기 사용 변수 선택 이후 변화된 제4데이터에 대한 변수명을 포함하고,
상기 시각화부는 상기 원본 데이터와 상기 피처 엔지니어링 시행후의 데이터의 대응 관계를 시각화 하는 것인, 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 장치.
피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 방법에 있어서,
(a) 원본 데이터의 변수명과 상기 원본 데이터의 카테고리 변수의 변화과정을 기록하는 딕셔너리를 생성하는 단계;
(b) 상기 카테고리 변수에 대한 더미 변수를 생성하는 단계;
(c) 상기 원본 데이터로부터 더미 변수 생성 이후 변화된 데이터에 대해 스케일링 및 주성분 분석을 수행하는 단계;
(d) 상기 주성분 분석 이후 변화된 데이터로부터 사용 변수를 선택하고 비사용 변수의 변수명을 추출하는 단계; 및
(e) 상기 딕셔너리와 상기 원본 데이터의 변수명 및 피처 엔지니어링이 수행된 데이터의 변수명에 기초하여 변수의 변화과정을 시각화하는 단계를 포함하고,
상기 (c)단계는,
더미 변수 생성 이후 상기 원본 데이터로부터 변화된 제1데이터에 대해 스케일링을 수행하고, 스케일링 이후 변화된 제2데이터의 변수에 대해 주성분 분석을 수행하는 것인, 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 방법.
제7항에 있어서,
상기 (a)단계는,
상기 원본 데이터의 변수명과 상기 카테고리 변수의 서로 다른 값의 이름과 개수에 대한 정보를 추출하는 것인, 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 방법.
제7항에 있어서,
상기 (b)단계는,
상기 원본 데이터의 카테고리 변수를 상기 더미 변수로 변환하는 것인, 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 방법.
삭제
제7항에 있어서,
상기 (d)단계는,
상기 주성분 분석 이후 변화된 제3데이터의 변수명을 추출하고
상기 제3데이터의 변수 중 원본 데이터의 변수와 상기 더미 변수를 제외한 나머지 변수를 상기 사용 변수로 선택하는 것인, 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 방법.
제11항에 있어서,
상기 피처 엔지니어링이 수행된 데이터의 변수명은 상기 사용 변수 선택 이후 변화된 제4데이터에 대한 변수명을 포함하고,
상기 (e)단계는,
상기 원본 데이터와 상기 피처 엔지니어링 시행후의 데이터의 대응 관계를 시각화 하는 것인, 피처 엔지니어링에 의한 결과 데이터 대응 관계의 시각화 방법.
제7항 내지 제9항 및 제 11 내지 12항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터에서 판독 가능한 기록매체.