KR100484375B1 - 데이터마이닝의 분류 의사 결정 나무에서 극단값을 가지는 관심 노드 분류를 통한 자료의 통계적 분류 방법 - Google Patents

데이터마이닝의 분류 의사 결정 나무에서 극단값을 가지는 관심 노드 분류를 통한 자료의 통계적 분류 방법 Download PDF

Info

Publication number
KR100484375B1
KR100484375B1 KR10-2002-0006440A KR20020006440A KR100484375B1 KR 100484375 B1 KR100484375 B1 KR 100484375B1 KR 20020006440 A KR20020006440 A KR 20020006440A KR 100484375 B1 KR100484375 B1 KR 100484375B1
Authority
KR
South Korea
Prior art keywords
classification
child node
variable
response
max
Prior art date
Application number
KR10-2002-0006440A
Other languages
English (en)
Other versions
KR20030066862A (ko
Inventor
이영섭
Original Assignee
이영섭
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이영섭 filed Critical 이영섭
Priority to KR10-2002-0006440A priority Critical patent/KR100484375B1/ko
Publication of KR20030066862A publication Critical patent/KR20030066862A/ko
Application granted granted Critical
Publication of KR100484375B1 publication Critical patent/KR100484375B1/ko

Links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)

Abstract

데이터마이닝의 한 기법인 의사결정나무 중 분류 의사 결정 나무를 형성함에 있어서, max(PL 1, PR 1) 또는 max(PL 0, PR 0)에 기초한 분류방법(splitting method)으로, 독립 변수(x)와 그의 분계점(threshold)을 분류 기준으로 선정하고, 선정한 분류 기준에 따라 자식 노드를 분류한다. 다음, 모든 자식노드에 대해 분류 과정의 종료 여부를 판단하여 분류 과정이 종료하지 않은 것으로 판단되는 자식노드에 대하여는 분류 과정을 반복한다. 이렇게 하면, 불균형적인 분류 의사 결정 나무 구조가 형성될 수도 있지만 이 것 때문에 오히려 더 설명력이 있고, 원하는 부분 집합을 찾기엔 더 빠르고 간결하여 효과적인 분류 의사 결정 나무 구조를 얻을 수 있다.

Description

데이터마이닝의 분류 의사 결정 나무에서 극단값을 가지는 관심 노드 분류를 통한 자료의 통계적 분류 방법{statistic classification method of data using one-sided extreme splitting criteria for classification trees in data mining}
본 발명은 데이터마이닝에서 통계적인 분류법으로 사용되는 의사 결정 나무 방법에 대한 것으로써, 특히 반응 변수가 범주형 변수로써 각 관찰치를 의사 결정 나무에 의하여 계급을 예측하는 분류 의사 결정 나무 방법에 관한 것이다.
데이터마이닝에서 사용하는 통계적인 분류법으로는 로지스틱 회귀분석 (logistic regression), 신경망 분석(neural networks) 및 의사 결정 나무 방법 등이 있다. 이중에서 의사 결정 나무는 어떤 계급(class)이나 값(value)을 분류하기 위하여 여러 개의 조건문(if-then문)을 사용하는데, 이것을 룰(rules)이라고도 한다. 의사 결정 나무에서는 반응 변수의 특성에 따라 두 가지로 나누어지는데, 그것은 분류 의사 결정 나무(Classification Trees, 분류 나무)와 회귀 의사 결정 나무(Regression Trees, 회귀나무)이다. 분류 나무는 반응 변수가 범주형 변수로써 의사 결정 나무에 의하여 각 관찰치의 계급을 예측하는 것이며, 회귀 나무는 반응 변수가 연속적인 값으로써 회귀 분석에서와 같이 반응 값을 예측하는 것이 목적이다.
도 1a와 도 1b는 하나의 독립 변수에 의하여 회귀 나무와 분류 나무에서 반응 변수가 어떻게 분할되는 가를 보여주고 있다. 회귀 나무에서는, 도 1a에 나타낸 바와 같이, 반응 변수(Y)의 평균을 최대한 잘 분류하는 독립 변수(X)와 그의 분계점을 찾는 것이 목적이고, 분류 나무에서는, 도 1b에 나타낸 바와 같이, 반응 변수(Y)의 계급을 최대한 잘 분류하는 독립 변수(X)와 그의 분계점을 찾는 것이 목적이다.
도 2a는 의사 결정 나무 구조의 예시이고, 도 2b는 의사 결정 나무에 의한 분할을 기하학적인 모형으로 나타낸 것이다.
의사 결정 나무의 형성 구조를 보면, 데이터가 이항 분류(binary splits)에 의하여 더 작은 부분 집합으로 반복적으로 분할된다. 도 2a에서처럼 각각의 나무 구조에서 어미 노드로부터 이항 분류에 의하여 두 자식 노드로 나뉘어 진다. 이 때, 분류 기준은 하나의 독립 변수와 그의 분계점으로 이루어진다. 예를 들면, 뿌리 어미 노드에서 X(1)<t1이면 왼쪽 자식 노드로 가고, X(1)≥t1 이면 오른쪽 자식 노드로 간다. 다음 단계에서는 X(1)<t1 인 자식노드(지금은 어미노드)에서 X(2) <t2이면 다시 왼쪽 자식 노드로, 그렇지 않으면 오른쪽 자식노드로 가게 된다. 첫 번째 분류 변수인 X(1)는 아래 단계에서 다시 나타날 수 있다. 이렇게 반복적인 부분 집합으로 분류하는 것이 의사 결정 나무의 구조이며 이러한 분할을 기하학적인 모형으로 나타낸 것이 도 2b이다.
각 단계에서 분류 기준이 되는 분류 함수는 불순도를 계산하여 결정한다. 종래의 분류방법(splitting method)은 왼쪽과 오른쪽 자식 노드의 관찰치 수를 가중치로 한 각각의 불순도를 평균한 후에 어미 노드의 불순도와의 차이가 가장 많이 나게 하는 독립변수와 그의 분계점을 그 단계에서의 분류기준으로 결정한다.
한편, 의사 결정 나무를 형성하는데 있어서 고려해야 할 두 가지 요소가 있다. 첫 번째는 예측에 있어서의 정확성(accuracy)이고, 두 번째는 해석력 (interpretability)이다. 이 두 가지는 양립할 수 없고 하나를 향상시키려면 다른 하나는 희생하여야 한다.
그런데 종래의 방법은 정확성에만 중점을 두었기 때문에 해석력에서는 별 관심이 없었다.
본 발명이 이루고자 하는 기술적 과제는 정확성을 크게 손상하지 않는 범위 내에서 해석력이 높은 분류 의사 결정 나무를 형성할 수 있는 새로운 분류 방법(splitting method)을 제공하는 것이다. 여기에서 해석력이 높다는 것은 자료에서 관심 있는 노드(부분집합)를 가능한 한 빨리, 간결하고 효과적으로 단지 몇 개의 조건문으로 찾을 수 있다는 것이다.
이러한 과제를 해결하기 위하여 본 발명에서는 관심 있는 노드 중 반응변수의 값이 극단적으로 크거나 작은 노드를 빨리 찾아 분류해 나간다.
구체적으로는, X는 독립 변수(분류 변수), Y는 반응 변수, PR 0은 오른쪽 자식 노드의 반응변수(Y)가 0인 비율, PR 1은 오른쪽 자식 노드의 반응변수(Y)가 1인 비율, PL 0은 왼쪽 자식 노드의 반응변수(Y)가 0인 비율, PL 1은 왼쪽 자식 노드의 반응변수(Y)가 1인 비율, max(PL 1, PR 1)는 각 독립 변수(X)와 그의 분계점들에 대한 PL 1과 PR 1 둘 중에서 큰 비율, min(PL 0, PR 0)은 각 독립 변수(X)와 그의 분계점들에 대한 PL 0 과 PR 0 둘 중에서 작은 비율이라고 정의할 때, 각 독립변수와 그의 분계점에 의해 생성된 큰(작은)비율들 중 가장 큰(작은)값이 그 단계에서의 분류기준이 된다. max(PL 1, PR 1)(또는 min(PL 0, PR 0))을 불순도 측정법으로 하여 독립변수(X)와 그의 분계점을 분류기준으로 선정하는 1단계, 상기 1단계에서 분리된 오른쪽과 왼쪽의 자식 노드 각각에 대하여 다시 max(PL 1, PR 1)(또는 min(PL 0, PR 0))을 기준으로 하여 새로운 자식 노드들을 계속하여 분리해 나가면서 의사결정나무를 형성해나가는 2단계, 분류과정의 종료여부를 판단하는 3단계, 상기 3단계에서 분류과정이 종료하지 않은 것으로 판단되는 자식 노드의 경우에 제 2단계로 다시 돌아가서 반복하는 제 4단계를 통하여 분류 의사결정나무를 형성한다.
상기 제 3 단계는 자식 노드의 관찰치 수가 소정의 값 이하로 떨어진 경우에는 분류 과정 종료로 판단하고 자식 노드의 관찰치 수가 상기 소정의 값을 초과한 경우에는 분류 과정 계속으로 판단하는 단계이거나, 자식 노드의 관찰치 수가 전체 관찰치 수의 소정의 비율 이하로 떨어진 경우에는 분류 과정 종료로 판단하고 자식 노드의 관찰치 수가 상기 소정의 비율을 초과한 경우에는 분류 과정 계속으로 판단하는 단계일 수 있다.
한편 max(PL 1, PR 1) 대신 min(PL 0, P R 0)을 유도하는 독립변수(x)와 그의 분계점을 분류기준으로 선정해도 결과는 동일하다. 왜냐하면 PL 0=1-PL 1, PR 0=1-PR 1이기 때문이다. 따라서 편의상 의사결정나무 각 단계에서 max(PL 1, PR 1)을 불순도를 결정하는 새로운 기준법으로 한다
또는 X는 독립 변수(분류 변수), Y는 반응 변수, PR 0은 오른쪽 자식 노드의 반응변수(Y)가 0인 비율, PR 1은 오른쪽 자식 노드의 반응변수(Y)가 1인 비율, PL 0은 왼쪽 자식 노드의 반응변수(Y)가 0인 비율, PL 1은 왼쪽 자식 노드의 반응변수(Y)가 1인 비율, max(PL 0, PR 0)은 각 독립 변수(X)와 그의 분계점들에 대한 PL 0 과 PR 0 둘 중에서 큰 비율, min(PL 1, PR 1)는 각 독립 변수(X)와 그의 분계점들에 대한 PL 1과 PR 1 둘 중에서 작은 비율이라고 정의할 때, 각 독립변수와 그의 분계점에 의해 생성된 큰(작은)비율들 중 가장 큰(작은)값이 그 단계에서의 분류기준이 된다. max(PL 0, PR 0)(또는 min(PL 1, PR 1))을 불순도 측정법으로 하여 독립변수(X)와 그의 분계점을 분류기준으로 선정하는 1단계, 상기 1단계에서 분리된 오른쪽과 왼쪽의 자식 노드 각각에 대하여 다시 max(PL 0, PR 0)(또는 min(PL 1, PR 1))을 기준으로 하여 새로운 자식 노드들을 계속하여 분리해 나가면서 의사결정나무를 형성해나가는 2단계, 분류과정의 종료여부를 판단하는 3단계, 상기 3단계에서 분류과정이 종료하지 않은 것으로 판단되는 자식 노드의 경우에 제 2단계로 다시 돌아가서 반복하는 제 4단계를 통하여 분류 의사결정나무를 형성한다.
상기 제 3 단계는 자식 노드의 관찰치 수가 소정의 값 이하로 떨어진 경우에는 분류 과정 종료로 판단하고 자식 노드의 관찰치 수가 상기 소정의 값을 초과한 경우에는 분류 과정 계속으로 판단하는 단계이거나, 자식 노드의 관찰치 수가 전체 관찰치 수의 소정의 비율 이하로 떨어진 경우에는 분류 과정 종료로 판단하고 자식 노드의 관찰치 수가 상기 소정의 비율을 초과한 경우에는 분류 과정 계속으로 판단하는 단계일 수 있다.
한편 max(PL 0, PR 0) 대신 min(PL 1, P R 1)을 유도하는 독립변수(X)와 그의 분계점을 분류기준으로 선정해도 결과는 동일하다. 왜냐하면 PL 1=1-PL 0, PR 1=1-PR 0 이기 때문이다. 따라서 편의상 의사결정나무 각 단계에서 max(PL 0, PR 0)을 불순도를 결정하는 새로운 기준법으로 한다
그러면 도면을 참고로 하여 본 발명의 실시 예에 따른 분류 방법을 사용하여 분류 의사 결정 나무를 형성하는 과정에 대하여 설명한다.
도 3은 본 발명의 실시 예에 따른 분류 방법을 사용하여 분류 의사 결정 나무를 형성하는 과정을 나타내는 흐름도이다.
먼저, 용어를 정의한다.
X: 독립 변수(분류 변수)
Y: 반응 변수
N: 뿌리(어미) 노드의 총 관찰 치수
NR: 오른쪽 자식 노드의 총 관찰 치수
NL: 왼쪽 자식 노드의 총 관찰 치수
PR: NR/N
PL: NL/N
PR 0: 오른쪽 자식 노드의 반응변수(Y)가 0인 비율
PR 1: 오른쪽 자식 노드의 반응변수(Y)가 1인 비율
PL 0: 왼쪽 자식 노드의 반응변수(Y)가 0인 비율
PL 1: 왼쪽 자식 노드의 반응변수(Y)가 1인 비율
그러면, 아래의 표 1에 주어진 분류 대상 자료를 예로 들어 분류 의사 결정 나무를 형성하는 과정을 설명한다.
관찰치 당뇨 여부(Y) 최저 혈압(X1) 나이(X2)
1 1 88 30
2 1 80 50
3 1 83 45
4 0 77 23
5 1 95 35
6 0 85 42
표 1은 총 관찰 치수(N)가 6이고, 당뇨 여부를 반응 변수(Y)로 하며, 최저 혈압(확장기 혈압)을 첫 번째 독립 변수(X1)로 하고, 나이를 두 번째 독립 변수(X2)로 하는 분류 대상 자료이다. 반응 변수(Y)에서 0은 당뇨가 아님을 나타내고 1은 당뇨임을 나타낸다. 이하의 분류 나무 형성에 있어서는 당뇨인 계층(반응변수가 1) 또는 당뇨가 아닌 계층(반응변수가 0)에만 관심이 있으며 그러한 노드(또는 부분집합)를 가능한 한 빨리 효과적으로 찾고자 한다.
먼저, 도 3에 나타낸 바와 같이, 모든 독립 변수(X1, X2)와 그의 분계점에 대한 PL 1, PR 1을 계산한다(단계 2). 표 1의 자료에서 X2 ≤42를 독립 변수와 그의 분계점으로 하여 분류했을 때, PL 1, PR 1을 계산하는 방법을 예로써 설명한다. 여기에서 X2는 나이를 나타내는 독립변수이고, 42는 그의 분계점(threshold)이다.
표 1의 자료에서 X2 ≤42를 분류 기준으로 하여 분류하면, 표 2와 같이 분류된다.
왼쪽 노드 오른쪽 노드
관찰치 당뇨여부 최저혈압 나이 관찰치 당뇨여부 최저혈압 나이
1 1 88 30 2 1 80 50
4 0 77 23 3 1 83 45
5 1 95 35
6 0 85 42
왼쪽 노드의 관찰치 수(NL)는 4이고, 오른쪽 노드의 관찰치 수(NR)는 2이다.
PL 1: 왼쪽 자식 노드의 반응변수(Y)가 1인 비율 = 1/2
PR 1: 오른쪽 자식 노드의 반응변수(Y)가 1인 비율 = 1
PL 0: 왼쪽 자식 노드의 반응변수(Y)가 0인 비율 = 1/2
PR 0: 오른쪽 자식 노드의 반응변수(Y)가 0인 비율 = 0
(PL 1, PR 1)=(1/2, 1)
다음, max(PL 1, PR 1)을 판단한다(단계 4). 위의 예에서 max(P L 1, PR 1)=max(1/2,1)=1 이 된다. 즉, 오른쪽 노드에는 모든 관찰치의 반응 변수가 1이므로 비율이 1 인 순수한 집단이 된다. 다음, 같은 독립변수(X2)에서 다른 분계점, 예를 들면 X2≤35로 왼쪽과 오른쪽 노드로 분류하면 다른 max(PL 1, PR 1)값을 갖는다. 마찬가지로 다른 독립 변수(X1)에서 모든 분계점에 대하여 또 다른 max(PL 1, PR 1)값들을 갖는다. 이러한 방법으로 모든 독립변수와 모든 분계점에 대해 자식 노드로 분류하면 각각의 max(PL 1, PR 1) 값들을 구할 수 있다. 이들 중 최대값이 이 단계에서의 분류기준-분류변수와 분계점이 된다. 즉, 최대값 중 최대값이 이 단계에서의 불순도가 되며 분류기준이 된다(단계 6). 또한 위의 예에서 독립변수(X2)의 42를 기준으로 하여 분류하였으나 36에서 42사이의 어느 한 값을 분류기준으로 선정하더라도 마찬가지이다. max(PL 1, PR 1) 대신 min(PL 0, PR 0)을 유도하는 독립변수(X)와 그의 분계점을 분류기준으로 선정해도 결과는 동일하다. 왜냐하면 PL 0=1-PL 1, PR 0=1-PR 1이기 때문이다.
한편 당뇨가 아닌 계층에 관심을 가졌다면 max(PL 0, PR 0) 나 min(PL 1, PR 1)을 유도하는 독립 변수(X)와 그의 분계점을 분류 기준으로 선정한다.
다음, 위의 단계에서 분리된 왼쪽 자식 노드와 오른쪽 자식 노드 각각에 대하여 반복하여 위의 분류기준을 그대로 적용한다. 이때 왼쪽과 오른쪽 자식 노드는 새로운 각각의 어미 노드가 되어서 자식 노드들을 분류해 나간다. 위의 예에서 오른쪽 노드는 모든 관찰치의 반응 변수 값이 1인 순수한 노드이므로 더 이상 분류할 필요가 없다. 왼쪽노드에서는 단계 2 로 돌아가서 단계 6 까지를 반복하여 분류 변수와 그의 분계점을 구한다. 즉, 왼쪽 노드의 모든 독립 변수(X1,X2)의 모든 분계점에 대한 max(PL 1, PR 1) 값을 구하여서 그 중에서 최대값을 다음 단계에서의 분류기준-분류변수와 분계점으로 삼는다. 즉, 최대값 중 최대값이 다음 단계에서의 불순도가 되며 분류기준이 된다(단계 6). 표 2의 자료 중 왼쪽 노드의 관찰치만 사용하여 X1 ≤85 를 독립 변수와 그의 분계점으로 하여 분류했을 때, PL 1, PR 1을 계산하는 방법을 예로써 설명한다. 여기에서 X1은 최저 혈압을 나타내는 독립변수이고, 85는 그의 분계점(threshold)이다.
표 2의 왼쪽 노드 자료에서 X1 ≤85을 분류 기준으로 하여 분류하면, 표 3와 같이 분류된다.
왼쪽 노드 오른쪽 노드
관찰치 당뇨여부 최저혈압 나이 관찰치 당뇨여부 최저혈압 나이
4 0 77 23 1 1 88 30
6 0 85 42 5 1 95 35
왼쪽 노드의 관찰치 수(NL)는 2이고, 오른쪽 노드의 관찰치 수(NR)는 2이다.
PL 1: 왼쪽 자식 노드의 반응변수(Y)가 1인 비율 = 0
PR 1: 오른쪽 자식 노드의 반응변수(Y)가 1인 비율 = 1
PL 0: 왼쪽 자식 노드의 반응변수(Y)가 0인 비율 = 1
PR 0: 오른쪽 자식 노드의 반응변수(Y)가 0인 비율 = 0
(PL 1, PR 1)=(0, 1)
다음, max(PL 1, PR 1)을 판단한다(단계 4). 위의 예에서 max(P L 1, PR 1)=max(0,1)=1 이 된다. 즉, 오른쪽(왼쪽) 노드에는 모든 관찰치의 반응 변수가 1(0)이므로 비율이 1 인 순수한 집단이 된다. 다음, 같은 독립변수(X1)에서 다른 분계점, 예를 들면 X1≤88로 왼쪽과 오른쪽 노드로 분류하면 다른 max(PL 1, PR 1)값을 갖는다. 마찬가지로 다른 독립 변수(X2)에서 모든 분계점에 대하여 또 다른 max(PL 1, PR 1)값들을 갖는다. 이러한 방법으로 모든 독립변수와 모든 분계점에 대해 자식 노드로 분류하면 각각 max(PL 1, PR 1)값들을 갖게 된다. 이들 중 최대값이 이 단계에서의 분류기준-분류변수와 분계점이 된다. 즉, 최대값 중 최대값이 이 단계에서의 불순도가 되며 분류기준이 된다(단계 6). 또한 위의 예에서 독립변수(X1)의 85를 기준으로 하여 분류하였으나 85에서 87사이의 어느 한 값을 분류기준으로 선정하더라도 마찬가지이다. max(PL 1, PR 1) 대신 min(PL 0, PR 0)을 유도하는 독립변수(X)와 그의 분계점을 분류기준으로 선정해도 결과는 동일하다. 왜냐하면 PL 0=1-PL 1, PR 0=1-PR 1이기 때문이다.
다음, 좌우 두 자식노드 각각에 대하여 분류과정의 종료 기준을 만족하는지 여부를 판단한다(단계10). 분류 과정의 종료 기준은 다음의 세 가지가 있고 이 중 어느 하나를 만족하면 의사결정나무의 분류 과정을 종료한다. 첫째는 미리 정해 놓은 자식 노드의 최소 관찰치 수로써, 위의 단계에 의하여 의사결정나무가 계속 분류해 나갈 때 어떤 노드에서의 자식 노드의 관찰치 수가 미리 정한 숫자(예 2)보다 적게 분류될 때는 더 이상 분류하지 않고 그 단계에서의 어미 노드에서 중단한다. 둘째는 미리 노드의 크기를 원래 총 관찰치수의 몇 퍼센트(예 5%)로 정하고, 첫 번째와 같은 방법으로 분류과정의 종료 여부를 결정한다. 셋째는 PL 1=1(PL 0=0),PL 1=0(PL 0=1) 또는 PR 1=1(PR 0=0),PR 1=0(P R 0=1)일 때, 즉 순수 자식 노드가 될 때는 그 자식노드에서는 더 이상 분류할 필요가 없어 그 노드에서 더 이상의 분류를 중단한다. 이상의 세 가지 조건 중 어느 것도 만족하지 않는 자식 노드에 대하여는 해당 자식 노드를 어미 노드로 하여 단계 2에서 단계 10까지의 분류 과정을 반복함으로써 의사결정나무를 계속해서 분류해 나간다.
위의 표 2의 예에서는, 오른쪽 자식 노드는 순수 노드, 즉 PR 1=1이므로 분류를 종료하고, 왼쪽 자식 노드에 대하여는 세 가지 분류 종료 기준 중 어느 것도 만족하지 않으므로 분류를 계속하여 표 3을 만든다. 표 3에서는, 왼쪽과 오른쪽 자식 노드는 모두가 순수 노드, 즉 PL 1=0, PR 1=1이므로 분류를 종료한다.
표 1,2,3을 종합하면 표5 와 같은 간단한 형태의 의사결정나무가 만들어진다.
이하에서는 캘리포니아 주립대학에 있는 데이터 저장소에서 피마 어메리칸 인디안 족의 자료를 가지고 본 발명에 따른 분류법과 종래의 CART 분류법을 비교 분석한다.
도 4는 CART 분류법에 의하여 21세 이상의 피마족 여성 768명의 대상으로 그들의 당뇨병 여부를 반응 변수로 하고, 당뇨병에 영향을 미칠 것이라고 생각되는 8개의 독립 변수를 사용하여 분류한 분류 의사 결정 나무이고, 도 5는 본 발명의 실시예에 따른 분류 방법을 사용하여 21세 이상의 피마족 여성 768명의 대상으로 그들의 당뇨병 여부를 반응 변수로 하고, 당뇨병에 영향을 미칠 것이라고 생각되는 8개의 독립 변수를 사용하여 분류한 분류 의사 결정 나무이다.
8개의 독립 변수와 반응 변수에 대한 설명은 다음과 같다.
PRGN: 임신 횟수
PLASMA: 혈당량
BP: 확장기 혈압(최저 혈압) (mmHg)
THICK: 삼두근 두께
INSULIN: 인슐린
BODY: 몸무게를 키의 제곱으로 나눈 것(bmi)
PEDIGREE: 당뇨병 혈통관계(유전적 요인)
AGE: 나이
RESPONSE: 반응변수(당뇨병이면 1, 아니면 0)
비교의 편의상 노드 중 최소 관찰치 수는 표본 집단의 5%인 35로 미리 정하였으며 자식 노드 중 하나가 이 최소관찰치수보다 작게 분류되면 그 단계에서는 더 이상 분류하지 않는다. 각각의 노드에서 p는 계급 0과 계급 1의 비율을 말하며 sz는 노드 크기(%)이다.
도 4를 보면, 기존의 방법인 CART 분류법에 의한 분류나무는 6 단계까지 내려간 균형적인 나무구조를 하고 있다. 가장 강력한 변수는 PLASMA로써 첫 번째 분류함수를 포함하여 5번이나 나타났다. 그 다음으로 BODY(3번), PEDIGREE(3번) 순이며 전체적으로는 큰 무리가 없는 나무 구조이나 균형적이어서 관심 있는 노드(예, 당뇨가 아닌 계층, 반응변수 0)를 찾고자 한다면 여러 단계를 거쳐야 순수한 노드를 찾을 수 있기 때문에 설명력이 떨어진다.
도 5를 보면 (max(PL 0, PR 0)), 본 발명에 따른 분류나무는 불균형적인 나무 구조이나 구조는 아주 간결하다. 계급 0의 비율이 높은 노드만 찾기 때문에 구조 형태가 불균형적으로 오른쪽으로 치우쳐 있다. BODY와 PLASMA가 각각 반복적으로 교호 작용을 일으키면서 계급 0의 비율이 높은 부분 집합을 분리해 나가고 있다. 즉, 반응 변수에 이 두 변수가 결합하여 단조 의존적(monotone dependence)인 관계를 가지고 있음을 알 수 있다. 자료를 간단하면서도 보다 설득력 있게 설명하고 있다.
도 6을 보면 (max(PL 1, PR 1)), 본 발명에 따른 분류나무는 불균형적인 나무구조이나 아주 간결하다. 계급 1의 비율이 높은 노드만 찾기 때문에 구조 형태가 불균형적으로 왼쪽으로 치우쳐 있다. 계급 1의 나무구조의 앞의 몇 부분에서 분류한 다음 더 이상의 계급 1의 순수노드를 찾을 수 없어, 몇 단계 후부터는 계급 0을 계속하여 분류해 나갔음을 알 수 있다. PLASMA가 중요한 변수임을 알 수 있으며 자료를 간단하면서도 보다 설득력 있게 설명하고 있다.
이상과 같이, 본 발명에 따른 분류법을 사용하여 형성한 나무 구조는 불균형적인 나무 구조를 가지지만 이 것 때문에 오히려 더 설명력이 있고, 원하는 부분 집합을 찾기엔 더 빠르고 간결하여 효과적이다.
도 1a는 회귀 의사 결정 나무에서의 분할 형태를 나타내는 그래프이고,
도 1b는 분류 의사 결정 나무에서의 분할 형태를 나타내는 그래프이고,
도 2a는 의사 결정 나무 구조의 예시이고,
도 2b는 의사 결정 나무에 의한 분할을 기하학적인 모형으로 나타낸 것이고,
도 3은 본 발명의 실시 예에 따른 분류 방법을 사용하여 분류 의사 결정 나무를 형성하는 과정을 나타내는 흐름도이고,
도 4는 기존의 방법(CART) 분류법에 의하여 21세 이상의 피마족 여성 768명의 대상으로 그들의 당뇨병 여부를 반응 변수로 하고, 당뇨병에 영향을 미칠 것이라고 생각되는 8개의 독립 변수를 사용하여 형성된 분류 의사 결정 나무이고,
도 5는 본 발명의 실시 예(max(PL 0, PR 0))에 따른 분류 방법을 사용하여 21세 이상의 피마족 여성 768명의 대상으로 그들의 당뇨병 여부를 반응 변수로 하고, 당뇨병에 영향을 미칠 것이라고 생각되는 8개의 독립 변수를 사용하여 형성된 분류 의사 결정 나무이다.
도 6은 본 발명의 실시 예(max(PL 1, PR 1))에 따른 분류 방법을 사용하여 21세 이상의 피마족 여성 768명의 대상으로 그들의 당뇨병 여부를 반응 변수로 하고, 당뇨병에 영향을 미칠 것이라고 생각되는 8개의 독립 변수를 사용하여 형성된 분류 의사 결정 나무이다.

Claims (4)

  1. (정정) X는 독립 변수(분류 변수), Y는 반응 변수, PR 0은 오른쪽 자식 노드의 반응변수(Y)가 0인 비율, PR 1은 오른쪽 자식 노드의 반응변수(Y)가 1인 비율, PL 0은 왼쪽 자식 노드의 반응변수(Y)가 0인 비율, PL 1은 왼쪽 자식 노드의 반응변수(Y)가 1인 비율, max(PL 1, PR 1)는 각 독립 변수(x)에 대한 (PL 1, PR 1) 중에서 PL 1과 PR 1 둘 중 하나가 최대인 (PL 1, PR 1) 쌍, min(PL 0, PR 0)은 각 독립 변수(X)에 대한 (PL 0, PR 0) 중에서 PL 0과 PR 0 둘 중 하나가 최소인 (PL 0, PR 0)쌍이라고 정의할 때,
    max(PL 1, PR 1) 또는 min(PL 0, PR 0)을 유도하는 독립 변수(X)와 그 분계점을 분류 기준으로 선정하는 제1 단계,
    상기 제1 단계에서 선정한 분류 기준에 따라 자식 노드를 결정하는 제2 단계,
    분류 과정의 종료 여부를 판단하는 제3 단계
    를 포함하는 분류 의사 결정 나무의 형성을 통한 자료의 통계적 분류 방법.
  2. (정정) X는 독립 변수(분류 변수), Y는 반응 변수, PR 0은 오른쪽 자식 노드의 반응변수(Y)가 0인 비율, PR 1은 오른쪽 자식 노드의 반응변수(Y)가 1인 비율, PL 0은 왼쪽 자식 노드의 반응변수(Y)가 0인 비율, PL 1은 왼쪽 자식 노드의 반응변수(Y)가 1인 비율, min(PL 1, PR 1)은 각 독립 변수(x)에 대한 (PL 1, PR 1) 중에서 PL 1과 PR 1 둘 중 하나가 최소인 (PL 1, PR 1) 쌍, max(PL 0, PR 0)은 각 독립 변수(X)에 대한 (PL 0, PR 0) 중에서 PL 0과 PR 0 둘 중 하나가 최대인 (PL 0, PR 0)쌍이라고 정의할 때,
    min(PL 1, PR 1) 또는 max(PL 0, PR 0)을 유도하는 독립 변수(X)와 그 분계점을 분류 기준으로 선정하는 제1 단계,
    상기 제1 단계에서 선정한 분류 기준에 따라 자식 노드를 결정하는 제2 단계,
    분류 과정의 종료 여부를 판단하는 제3 단계
    를 포함하는 분류 의사 결정 나무의 형성을 통한 자료의 통계적 분류 방법.
  3. (정정) 제1항 또는 제2항에서,
    상기 제3 단계는 자식 노드의 관찰 치수가 소정의 값 이하로 떨어진 경우에는 분류 과정 종료로 판단하고 자식 노드의 관찰 치수가 상기 소정의 값을 초과한 경우에는 분류 과정 계속으로 판단하는 단계인 분류 의사 결정 나무의 형성을 통한 자료의 통계적 분류 방법.
  4. (정정) 제1항 또는 제2항에서,
    상기 제3 단계는 자식 노드의 관찰 치수가 전체 관찰 치수의 소정의 비율 이하로 떨어진 경우에는 분류 과정 종료로 판단하고 자식 노드의 관찰 치수가 상기 소정의 비율을 초과한 경우에는 분류 과정 계속으로 판단하는 단계인 분류 의사 결정 나무의 형성을 통한 자료의 통계적 분류 방법.
KR10-2002-0006440A 2002-02-05 2002-02-05 데이터마이닝의 분류 의사 결정 나무에서 극단값을 가지는 관심 노드 분류를 통한 자료의 통계적 분류 방법 KR100484375B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0006440A KR100484375B1 (ko) 2002-02-05 2002-02-05 데이터마이닝의 분류 의사 결정 나무에서 극단값을 가지는 관심 노드 분류를 통한 자료의 통계적 분류 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0006440A KR100484375B1 (ko) 2002-02-05 2002-02-05 데이터마이닝의 분류 의사 결정 나무에서 극단값을 가지는 관심 노드 분류를 통한 자료의 통계적 분류 방법

Publications (2)

Publication Number Publication Date
KR20030066862A KR20030066862A (ko) 2003-08-14
KR100484375B1 true KR100484375B1 (ko) 2005-04-20

Family

ID=32220509

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0006440A KR100484375B1 (ko) 2002-02-05 2002-02-05 데이터마이닝의 분류 의사 결정 나무에서 극단값을 가지는 관심 노드 분류를 통한 자료의 통계적 분류 방법

Country Status (1)

Country Link
KR (1) KR100484375B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100497211B1 (ko) * 2002-03-02 2005-06-23 (주)비엘시스템스 데이터 마이닝을 위한 최적의 의사 결정 나무 선택 장치및 그 방법
KR100860410B1 (ko) * 2006-11-09 2008-09-26 한국전자통신연구원 두 파일에서 이중 회귀나무 모형을 이용하여 통계적 결합을통해 하나의 파일을 구성하기 위한 파일 결합 방법
KR102617331B1 (ko) * 2015-11-24 2023-12-26 주식회사 인코어드 테크놀로지스 전력 수요 분석 장치 및 이를 포함하는 전력 관리 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09330224A (ja) * 1996-06-10 1997-12-22 Fujitsu Ltd 決定木生成装置
US5787274A (en) * 1995-11-29 1998-07-28 International Business Machines Corporation Data mining method and system for generating a decision tree classifier for data records based on a minimum description length (MDL) and presorting of records
JPH1131226A (ja) * 1997-07-11 1999-02-02 Canon Inc 情報処理方法及び装置
KR20010041803A (ko) * 1998-03-12 2001-05-25 클라스 노린, 쿨트 헬스트룀 메모리 장치에서 데이터값의 기억 어드레스를 결정하는방법 및 액세스 장치
JP2001282817A (ja) * 2000-03-31 2001-10-12 Toshiba Corp 決定木のデータマイニング方法および装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5787274A (en) * 1995-11-29 1998-07-28 International Business Machines Corporation Data mining method and system for generating a decision tree classifier for data records based on a minimum description length (MDL) and presorting of records
JPH09330224A (ja) * 1996-06-10 1997-12-22 Fujitsu Ltd 決定木生成装置
JPH1131226A (ja) * 1997-07-11 1999-02-02 Canon Inc 情報処理方法及び装置
KR20010041803A (ko) * 1998-03-12 2001-05-25 클라스 노린, 쿨트 헬스트룀 메모리 장치에서 데이터값의 기억 어드레스를 결정하는방법 및 액세스 장치
JP2001282817A (ja) * 2000-03-31 2001-10-12 Toshiba Corp 決定木のデータマイニング方法および装置

Also Published As

Publication number Publication date
KR20030066862A (ko) 2003-08-14

Similar Documents

Publication Publication Date Title
Abdulsalam et al. Classification using streaming random forests
Lindsey et al. Variable selection in linear regression
Boullé MODL: a Bayes optimal discretization method for continuous attributes
Pathak et al. An assessment of decision tree based classification and regression algorithms
Duch et al. Comparison of feature ranking methods based on information entropy
US7233931B2 (en) Feature regulation for hierarchical decision learning
US20030069652A1 (en) Regulation of hierarchic decisions in intelligent systems
Williams et al. Evaluating machine learning algorithms for automated network application identification
CN108280236A (zh) 一种基于LargeVis的随机森林可视化数据分析方法
US7269597B2 (en) Chart-ahead method for decision tree construction
KR100484375B1 (ko) 데이터마이닝의 분류 의사 결정 나무에서 극단값을 가지는 관심 노드 분류를 통한 자료의 통계적 분류 방법
CN114117945B (zh) 基于用户-服务交互图的深度学习云服务QoS预测方法
US7293000B2 (en) Information integration method for decision regulation in hierarchic decision systems
KR100498651B1 (ko) 데이터마이닝의 분류 의사 결정 나무에서 분산이 작은, 즉 순수한 관심 노드 분류를 통한 자료의 통계적 분류 방법
Last et al. A feature-based serial approach to classifier combination
Lin et al. A new density-based scheme for clustering based on genetic algorithm
Luchian et al. Evolutionary automated classification
Hatami et al. A graph-based multi-label feature selection using ant colony optimization
Leroux et al. Information gain ratio correction: improving prediction with more balanced decision tree splits
KR100727555B1 (ko) 시간 가중치 엔트로피를 이용한 결정 트리 생성 방법 및이를 기록한 기록매체
KR100784966B1 (ko) 유비쿼터스 환경에서 추론 엔진을 이용한 의사 결정 트리생성 방법
CN106991432A (zh) 基于评分机制的森林优化算法的特征选择方法
Manzali et al. Impure decision trees for Auc and log loss optimization
Suharsono Ensemble ROCK methods and ensemble SWFM methods for clustering of cross citrus accessions based on mixed numerical and categorical dataset
KR102535636B1 (ko) 뉴럴 네트워크 구조 탐색 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee
R401 Registration of restoration
FPAY Annual fee payment

Payment date: 20130412

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20140410

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170403

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20180403

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20190402

Year of fee payment: 15