KR101035038B1 - 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법 - Google Patents

분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법 Download PDF

Info

Publication number
KR101035038B1
KR101035038B1 KR1020100099164A KR20100099164A KR101035038B1 KR 101035038 B1 KR101035038 B1 KR 101035038B1 KR 1020100099164 A KR1020100099164 A KR 1020100099164A KR 20100099164 A KR20100099164 A KR 20100099164A KR 101035038 B1 KR101035038 B1 KR 101035038B1
Authority
KR
South Korea
Prior art keywords
feature
classifier
category
matrix
generating
Prior art date
Application number
KR1020100099164A
Other languages
English (en)
Inventor
정도헌
성원경
정한민
조민희
홍순찬
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020100099164A priority Critical patent/KR101035038B1/ko
Priority to PCT/KR2010/007243 priority patent/WO2012050252A1/ko
Application granted granted Critical
Publication of KR101035038B1 publication Critical patent/KR101035038B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법에 관한 것으로서, 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 데이터베이스, 각 데이터베이스의 학습 대상 문서로부터 자질을 추출하고, 상기 추출된 자질과 범주의 유사도를 구하여 자질별 가중치를 연산한 후, 각 자질에 대해 가중치를 포함하는 자질 특성 매트릭스 및 용어 벡터를 생성하여 신규로 수집되는 분류대상 문서의 범주를 결정하는 개별 분류기를 생성하는 분류기 생성 장치, 복수개의 결합 대상 자질 특성 매트릭스에 출현한 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한 후 상기 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 분류기 동적 결합 장치를 포함한다.
따라서, 본 발명에 따르면, 대용량의 문서를 학습시킬 수 있는 대용량 분류기 생성을 위해 복수의 결합대상 데이터베이스를 동적으로 결합하여 어떤 데이터베이스에 대해서도 범용적으로 적용할 수 있다.

Description

분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법{System and Method for automatic generation of classifier for large data using of dynamic combination of classifier}
본 발명은 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법에 관한 것으로, 더욱 상세하게는 분류기 생성 장치가 각 데이터베이스의 학습 대상 문서로부터 자질을 추출하고, 상기 추출된 자질과 범주의 유사도를 구하여 자질별 가중치를 연산한 후, 각 자질에 대해 가중치를 포함하는 자질 특성 매트릭스 및 용어 벡터를 생성하여 신규로 수집되는 분류대상 문서의 범주를 결정하는 개별 분류기를 생성하고, 분류기 동적 결합 장치가 복수개의 결합 대상 자질 특성 매트릭스에 출현한 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한 후 상기 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 자유롭게 생성하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법에 관한 것이다.
다양한 학술정보 데이터베이스를 구축하고 서비스하는 경우, 서비스 고도화를 위해 개별 문서의 자동 분류와 통합 분류 및 검색 체계의 적용이 중요한 기술적 요소가 된다.
그러나, 자동범주화를 실제 서비스에 적용하기 위해서는 두 가지 문제가 반드시 해결되어야 한다. 첫째, 대용량 문서를 학습할 수 있는 대용량 기반의 분류기 생성기법이 만들어져야 하고 둘째, 도메인 지식 기반의 마이닝 기술에 비해 일반적으로 사용할 수 있는 안정적이고 범용적인 기술이 개발되어야 한다는 점이다. 즉, 대용량 데이터 환경에 적용이 가능한 대용량 학습기반의 자동범주화 기법과 범용적으로 사용할 수 있는 기법의 개발이 필요하다.
또한, 자동범주화 기법을 실제 서비스에 응용하고자 할 때, 경우에 따라서는 수백만건 이상의 정보자원을 처리해야 하는 경우가 있는데, 이때 범주를 대표하는 문서를 잘 선택하거나, 문서를 대표하는 자질을 선택하고 자질을 축소하는 기법이 필요하게 되므로 비교적 자질 축소 기법에 민감하지 않은 분류기의 개발이 중요하다. 여기서, 자질은 키워드 또는 용어를 의미한다.
또한, 통합정보 서비스를 하는 경우, 서비스를 위한 표준 주제 분류 체계에 맞도록 여러 자원을 자동 분류해야 하는데, 학술논문과 특허, 학술논문과 연구보고서 등 이기종 데이터베이스 간의 교차 자동분류 성능이 현저히 떨어지기 때문에 대용량 환경에서 분류기를 범용화 시키기에 어려운 기술적 문제점이 존재한다.
본 발명은 상기한 문제점을 해결하기 위하여 것으로, 본 발명의 목적은 대용량의 문서를 학습시킬 수 있는 대용량 분류기 생성을 위해 복수의 결합대상 데이터베이스를 동적으로 결합하여 어떤 데이터베이스에 대해서도 범용적으로 적용할 수 있는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법을 제공하는데 있다.
상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 데이터베이스, 각 데이터베이스의 학습 대상 문서로부터 자질을 추출하고, 상기 추출된 자질과 범주의 유사도를 구하여 자질별 가중치를 연산한 후, 각 자질에 대해 가중치를 포함하는 자질 특성 매트릭스 및 용어 벡터를 생성하여 신규로 수집되는 분류대상 문서의 범주를 결정하는 개별 분류기를 생성하는 분류기 생성 장치, 복수개의 결합 대상 자질 특성 매트릭스에 출현한 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한 후 상기 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 분류기 동적 결합 장치를 포함하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템이 제공된다.
상기 분류기 생성 장치는 각 데이터베이스별로 구비되어 있다.
상기 분류기 생성장치는 상기 학습 대상 문서를 구성하는 모든 자질에 대해 상기 용어 벡터를 선형 결합하여 투표결과가 높은 값을 상기 분류 대상 문서의 범주로 결정한다.
상기 분류기 동적 결합 장치는 상기 결합 대상 데이터베이스를 일정 크기의 용량으로 분할하여 각 용량에 대한 통합 매트릭스를 생성하고, 각 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성한다.
또한, 상기 분류기 동적 결합 장치는 상기 생성된 통합 매트릭스를 개별 자질 특성 매트릭스와 통합 또는 다른 통합 매트릭스와 통합하는 과정을 반복적으로 수행하여 새로운 하나의 통합 매트릭스를 생성한다.
본 발명의 다른 측면에 따르면, 학습 대상 문서로부터 자질을 추출하는 자질 추출부, 상기 추출된 자질과 범주의 유사도를 구하고, 그 유사도를 이용하여 자질별 가중치를 구하는 가중치 연산부, 상기 학습 대상 문서를 구성하는 각 자질에 대해 상기 가중치 연산부에서 구해진 가중치를 포함하는 자질 특성 매트릭스를 생성하는 자질 특성 매트릭스 생성부, 상기 학습 대상 문서를 구성하는 각 자질에 대해 가중치가 표시된 용어 벡터를 생성하는 용어벡터 생성부, 신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 용어벡터 생성부에서 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정하는 범주 결정부를 포함하는 분류기 생성 장치가 제공된다.
상기 자질 추출부는 학습 대상 문서의 키워드 필드를 이용하는 방법, 코퍼스 사전을 기반으로 제목 또는 초록의 비구조적 정보로부터 정보를 추출하여 이용하는 방법, 스테밍 또는 형태소 분석기법을 이용하는 자연어 처리방법들 중 적어도 하나를 통해 자질을 추출한다.
상기 가중치 연산부는 코사인, 다이스, 자카드, 로그승산비 중 적어도 하나의 유사계수를 이용하거나 다양한 거리계수를 이용하여 유사도를 구한다.
상기 가중치 연산부는 자질 가중치에 역문헌 빈도(Inverse Document Frequency)를 추가한
Figure 112010065722142-pat00001
를 이용하여 최종 자질별 가중치(
Figure 112010065722142-pat00002
)를 구한다.
상기 용어벡터 생성부는 각 자질에 대해 "범주, 가중치" 쌍으로 구성된 용어벡터를 생성한다.
상기 범주 결정부는 상기 신규로 수집되는 분류 대상 문서를 구성하는 자질들에 대해 분류기에서 학습되어 저장된 용어벡터를 매칭하여 벡터정보의 주제별 가중치값을 모두 합한 후, 투표형식으로 계산한 결과의 최대값을 갖는 특정범주를 최종범주로 결정한다.
상기 자질 특성 매트릭스는 자질별 문서번호, 범주코드, 가중치, 범주 특성값을 포함하되, 상기 범주 특성값은 자질이 출현하고 특정 범주에 속하는 경우의 빈도수, 자질이 출현하지 않으나 특정 범주에 속하는 경우의 빈도수, 자질이 출현하나 특정 범주에 속하지 않은 경우의 빈도수, 자질이 출현하지 않으면서 특정 범주에도 속하지 않은 경우의 빈도수를 포함한다.
본 발명의 또 다른 측면에 따르면, 복수개의 결합 대상 데이터베이스내 자질 특성 매트릭스로부터 자질을 추출하는 자질 추출부, 상기 추출된 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하는 통합 매트릭스 생성부, 상기 통합 매트릭스를 구성하는 각 자질과 범주의 유사도를 각각 구하고, 그 유사도를 이용하여 자질별 가중치를 구하는 가중치 연산부, 상기 통합 매트릭스를 구성하는 각 자질에 대해 가중치가 표시된 용어 벡터를 생성하여 상기 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 용어벡터 생성부를 포함하는 분류기 동적 결합 장치가 제공된다.
상기 분류기 동적 결합 장치는 신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 용어벡터 생성부에서 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정하는 범주 결정부를 더 포함할 수 있다.
또한, 상기 분류기 동적 결합 장치는 상기 결합 대상 데이터베이스를 일정 크기의 용량으로 분할하는 용량 분할부를 더 포함할 수 있다.
상기 통합 매트릭스 생성부는 상기 용량 분할부에 의해 분할된 각 용량에 대한 통합 매트릭스를 병렬로 동시에 생성한다.
또한, 상기 분류기 동적 결합 장치는 상기 통합 매트릭스 생성부에서 생성된 통합 매트릭스를 개별 자질 특성 매트릭스와 통합 또는 다른 통합 매트릭스와 통합하는 과정을 피라미드식으로 반복적으로 수행하여 새로운 통합 매트릭스를 생성하는 통합 매트릭스 생성 관리부를 더 포함할 수 있다.
상기 통합 매트릭스 생성부는 상기 자질 특성 매트릭스에 출현한 자질값의 전체 셋을 만들고 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한다.
또한, 상기 통합 매트릭스 생성부는 각 자질에 대해 전체 범주 리스트에서 빠진 범주는 자동으로 계산하여 그 범주에 대한 필드를 메모리상에 동적으로 생성하고, 각 자질에 대한 전체 범주 특성값을 합산하여 통합 매트릭스를 생성하고, 그 결과를 데이터베이스에 저장한다.
또한, 상기 통합 매트릭스 생성부는 상기 자질 추출부에서 추출된 고유한 자질의 리스트를 만들고, 상기 결합 대상 자질 특성 매트릭스로부터 전체 범주코드를 추출하여 범주코드 리스트를 만든 후, 각 개별 테이블에서 특정 자질에 대한 정보가 있는 경우 전체 범주코드에 대한 범주 특성값을 추출하되, 존재하지 않은 범주코드에 대해서는 범주 특성값을 계산하여 생성한다.
또한, 상기 통합 매트릭스 생성부는 각 개별 테이블 중에서 특정 자질이 존재하지 않은 경우, 해당 자질을 만들고 상기 범주코드 리스트에 있는 모든 범주코드별로 범주 특성값을 각각 생성한다.
본 발명의 또 다른 측면에 따르면, (a) 복수의 분류기 생성장치가 각 데이터베이스의 학습 대상 문서로부터 자질을 각각 추출하는 단계, (b) 상기 복수의 분류기 생성장치가 상기 추출된 자질과 범주의 유사도를 구하여 자질별 가중치를 각각 연산하는 단계, (c) 상기 복수의 분류기 생성장치가 상기 학습 대상 문서를 구성하는 각 자질에 대해 상기 연산된 가중치를 포함하는 자질 특성 매트릭스 및 용어 벡터를 생성하여 신규로 수집되는 분류 대상 문서의 범주를 각각 결정하는 개별 분류기를 각각 생성하는 단계, (d) 분류기 동적 결합 장치가 복수개의 결합 대상 자질 특성 매트릭스에 출현한 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하는 단계, (e) 상기 분류기 동적 결합 장치가 상기 생성된 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 단계를 포함하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법이 제공된다.
상기 (c)단계는 상기 학습 대상 문서를 구성하는 각 자질에 대해 상기 연산된 가중치를 포함하는 자질 특성 매트릭스를 생성하는 단계, 상기 학습 대상 문서를 구성하는 각 자질에 대해 가중치가 표시된 용어 벡터를 생성하는 단계, 신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정하는 개별 분류기를 생성하는 단계를 포함한다.
본 발명의 또 다른 측면에 따르면, 분류기 동적 결합 장치가 분류기의 동적 결합에 의해 대용량 분류기를 자동으로 생성하는 방법에 있어서, (a) 결합 대상 데이터베이스내의 자질 특성 매트릭스로부터 자질을 추출하는 단계, (b) 상기 추출된 자질에 대한 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하는 단계, (c) 상기 통합 매트릭스를 구성하는 각 자질과 범주의 유사도를 구하고, 그 유사도를 이용하여 자질별 가중치를 구하는 단계, (d) 상기 통합 매트릭스를 구성하는 각 자질에 대한 가중치가 포함된 용어 벡터를 생성하여 상기 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 단계를 포함하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법이 제공된다.
상기 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법은 신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 용어벡터 생성부에서 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정하는 단계를 더 포함할 수 있다.
상기 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법은 상기 (b)단계 이후, 상기 생성된 통합 매트릭스를 개별 자질 특성 매트릭스와 통합 또는 다른 통합 매트릭스와 통합하는 과정을 피라미드식으로 반복적으로 수행하여 새로운 거대한 통합 매트릭스를 생성하는 단계를 더 포함할 수 있다.
상기 (b)단계는, 상기 자질 특성 매트릭스에 출현한 자질값의 전체 셋을 만들고 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하되, 각 자질에 대해 전체 범주 리스트에서 빠진 범주는 자동으로 계산하여 그 범주에 대한 필드를 메모리상에 동적으로 생성하고, 각 자질에 대한 전체 범주 특성값을 합산하여 통합 매트릭스를 생성하고, 그 결과를 데이터베이스에 저장한다.
또한, 상기 (b)단계는, 상기 자질 특성 매트릭스에서 추출된 고유한 자질의 리스트를 만들고, 전체 범주코드를 추출하여 범주코드 리스트를 만든 후, 각 개별 테이블에서 특정 자질에 대한 정보가 있는 경우 전체 범주코드에 대한 범주 특성값을 추출하되, 존재하지 않은 범주코드에 대해서는 범주 특성값을 계산하여 생성하고, 상기 각 개별 테이블 중에서 특정 자질이 존재하지 않은 경우, 해당 자질을 만들고 상기 범주코드 리스트에 있는 모든 범주코드별로 범주 특성값을 각각 생성한다.
본 발명의 또 다른 측면에 따르면, 분류기 동적 결합 장치가 분류기의 동적 결합에 의해 대용량 분류기를 자동으로 생성하는 방법에 있어서, (a) 결합 대상 데이터베이스를 일정 크기의 용량으로 분할하는 단계, (b) 각 분할된 용량내의 자질 특성 매트릭스로부터 자질을 추출하는 단계, (c) 상기 추출된 자질에 대한 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하는 단계, (d) 상기 통합 매트릭스에 표시된 각 자질과 범주의 유사도를 구하고, 그 유사도를 이용하여 자질별 가중치를 구하는 단계, (e) 상기 통합 매트릭스에 표시된 각 자질에 대한 가중치가 포함된 용어 벡터를 생성하여 상기 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 단계를 포함하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법이 제공된다.
상술한 바와 같이 본 발명에 따르면, 대용량의 문서를 학습시킬 수 있는 대용량 분류기 생성을 위해 복수의 결합대상 데이터베이스를 동적으로 결합하여 어떤 데이터베이스에 대해서도 범용적으로 적용할 수 있다.
또한, 여러 개의 자질특성 매트릭스를 생성하고 이를 동적으로 자유롭게 구성함에 의해, 실제로 대용량의 매트릭스를 생성하는 것과 작은 용량의 매트릭스를 다수 생성하여 동적으로 결합하는 것의 수치상 차이가 전혀 없는 효과가 있다.
도 1은 본 발명의 실시예에 따른 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템을 나타낸 도면.
도 2는 본 발명의 실시예에 따른 분류기 생성 장치의 구성을 개략적으로 나타낸 블럭도.
도 3은 본 발명에 따른 분류기 동적 결합 장치의 구성을 개략적으로 나타낸 블럭도.
도 4는 본 발명의 실시예에 따른 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법을 나타낸 흐름도.
도 5 및 도 6은 본 발명의 실시예에 따른 분류기 동적 결합 장치가 개별 분류기의 동적 결합에 의해 대용량 분류기를 자동으로 생성하는 방법을 나타낸 흐름도.
본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.
이하에서 설명되는 자질은 키워드 또는 용어를 의미한다.
도 1은 본 발명의 실시예에 따른 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템을 나타낸 도면이다.
도 1을 참조하면, 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템은 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 복수의 데이터베이스(100a, 100b, .., 100n, 이하 100이라 칭함), 각 데이터베이스별로 구비된 분류기 생성 장치(200a, 200b,..., 200n, 이하 200이라 칭함), 분류기 동적 결합 장치(300)를 포함한다.
상기 데이터베이스(100)는 문서의 분류체계와 용어 속성을 포함하는 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 공간을 의미하며, 예를 들어, 과학기술동향이 저장되는 GTB 데이터베이스, 국내학술논문이 저장되는 SOC, 해외학술논문이 저장되는 NDS 데이터베이스, 상기의 세 개의 데이터베이스가 통합된 GNS 데이터베이스 등으로 분류될 수 있다.
상기 분류기 생성 장치(200)는 각 데이터베이스(100)의 학습 대상 문서로부터 자질을 추출하고, 상기 추출된 자질과 범주의 유사도를 구하여 자질별 가중치를 연산한 후, 각 자질에 대해 가중치를 포함하는 자질 특성 매트릭스 및 용어 벡터를 생성하여 신규로 수집되는 분류 대상 문서의 범주를 결정하는 개별 분류기를 데이터베이스(100)별로 생성한다. 이때, 상기 분류기 생성장치(200)는 학습 대상 문서를 구성하는 모든 자질에 대한 용어 벡터를 선형 결합하여 투표결과가 높은 값을 상기 분류 대상 문서의 범주로 결정한다. 여기서, 상기 용어 벡터는 각 자질에 대해 "범주, 가중치" 쌍으로 구성된다.
상기와 같은 역할을 수행하는 분류기 생성 장치(200)에 대한 상세한 설명은 도 2를 참조하기로 한다.
상기 분류기 동적 결합 장치(300)는 복수개의 결합 대상 자질 특성 매트릭스에 출현한 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한 후 상기 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성한다. 상기 생성된 통합 분류기는 대용량 분류기일 수 있다.
또한, 상기 분류기 동적 결합 장치(300)는 상기 결합 대상 데이터베이스를 일정 크기의 용량으로 분할하여 각 용량에 대한 통합 매트릭스를 생성하고, 각 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성한다. 이때, 상기 분류기 동적 결합 장치(300)는 각 용량에 대한 통합 매트릭스를 병렬로 동시에 생성한다.
또한, 상기 분류기 동적 결합 장치(300)는 상기 생성된 통합 매트릭스를 개별 자질 특성 매트릭스와 통합 또는 다른 통합 매트릭스와 통합하는 과정을 반복적으로 수행하여 새로운 커다란 통합 매트릭스를 생성한다. 즉, 상기 분류기 동적 결합 장치(300)는 개별 자질 특성 매트릭스를 다양하게 조합하여 통합 매트릭스를 생성하는 것처럼, 통합 매트릭스를 개별 자질 특성 매트릭스 또는 다른 통합 매트릭스와 다양하게 조합하여 새로운 거대한 통합 매트릭스를 생성할 수 있다.
상기와 같은 분류기 동적 결합 장치(300)는 상기 분류기 생성 장치(200)에서 생성된 자질 특성 매트릭스를 결합하는 방법을 이용하여 분류기의 동적 결합을 수행한다.
또한, 상기 분류기 동적 결합 장치(300)는 학습할 대상 문헌이 많은 경우, 결합 대상 데이터베이스를 적당한 크기로 분할하고, 동적으로 결합하여 거대한 통합 매트릭스를 다시 생성하게 된다. 이때, 학습대상 문헌을 랜덤하게 섞거나 자질 축소 등을 고려하지 않아도 된다.
상기와 같은 역할을 수행하는 분류기 동적 결합 장치(300)에 대한 상세한 설명은 도 3을 참조하기로 한다.
도 2는 본 발명의 실시예에 따른 분류기 생성 장치의 구성을 개략적으로 나타낸 블럭도이다.
도 2를 참조하면, 분류기 생성 장치(200)는 자질 추출부(210), 가중치 연산부(220), 자질 특성 매트릭스 생성부(225), 용어벡터 생성부(230), 범주 결정부(240), 저장부(250)를 포함한다.
상기 자질 추출부(210)는 학습 대상 문서로부터 자질을 추출한다. 즉, 상기 자질 추출부(210)는 학습 대상 문서의 키워드 필드를 이용하는 방법, 코퍼스 사전을 기반으로 제목 또는 초록의 비구조적 정보로부터 정보를 추출하여 이용하는 방법, 스테밍 또는 형태소 분석기법을 이용하는 자연어 처리방법들 중 적어도 하나를 통해 자질을 추출한다.
상기 가중치 연산부(220)는 상기 자질 추출부(210)에서 추출된 자질과 범주의 유사도를 구하고, 그 유사도를 이용하여 자질별 가중치를 구한다. 여기서, 자질별 가중치는 자질(키워드)과 범주(주제분야)의 연관도를 의미한다.
또한, 상기 가중치 연산부(220)는 코사인, 다이스, 자카드 또는 로그승산비 등의 유사계수를 이용하거나 다양한 거리계수를 이용하여 유사도를 구한다.
예를 들어, 학습 대상 문서에 나타난 n개의 단어 자질집합과 후보범주 m개의 집합을 각각 F={f1, f2, f3, ..., fn}와 C={c1, c2, c3, ...., cn}로 표현하고, 자질 fi가 범주 cj에 대하여 가지는 가중치를 vs(fi, cj)라고 한다.
이때, 키워드에 해당하는 자질 f와 키워드가 속한 주제분야를 의미하는 범주 c간의 관계는 표1과 같다.
범주 cj 소속 범주 cj 미소속
자질 fi 출현 TP TN
자질 fi 미출현 FP FN
상기 가중치 연산부(220)는 자질에 대한 가중치를 부여하기 위하여 수학식 1을 이용하여 코사인 유사계수(cos(fi, cj))를 구하고, 상기 구해진 코사인 유사계수를 이용한 수학식 2를 이용하여 자질별 가중치(vs(fi, cj))를 구한다.
Figure 112010065722142-pat00003
여기서, TP는 자질 fi가 출현하고 범주 cj에 속하는 경우의 빈도수를 말하고, FP는 자질 fi가 출현하지 않으나 범주 cj에 속하는 경우의 빈도수, TN은 자질 fi가 출현하나 범주 cj에 속하지 않은 경우의 빈도수를 말하고, FN은 자질 fi가 출현하지 않으면서 범주 cj에 속하지 않은 경우의 빈도수를 말한다.
Figure 112010065722142-pat00004
여기서, fi: 자질, cj: 범주, tf: 용어 빈도수, df: 문헌 빈도수, cos(fi, cj): 코사인 유사계수일 수 있다.
즉, 상기 가중치 연산부(220)는 자질 가중치에 역문헌 빈도수(Inverse Document Frequency)를 추가한 수학식 2를 이용하여 최종 자질별 가중치를 구한다.
또한, 상기 가중치 연산부(220)는 수학식 3과 같은 로그승산비(lor(fi,c)j) 공식을 이용하여 유사도를 구할 수 있다.
Figure 112010065722142-pat00005
n개의 자질을 갖는 문헌 d로 구성된 데이터베이스의 경우, 상기 가중치 연산부(220)는 각 계산된 자질별 가중치를 이용하여 수학식 4와 같은 자질값 벡터(d)로 표현할 수 있다.
Figure 112010065722142-pat00006
여기서, 문헌 벡터d를 구성하는 vs(fi, cj)는 코사인, 다이스, 자카드 또는 로그승산비 등의 유사계수를 이용하거나 다양한 거리계수를 이용하여 산출한 문헌 d안의 자질 fi의 가중치를 의미한다.
상기 자질 특성 매트릭스 생성부(225)는 학습 대상 문서를 구성하는 각 자질에 대해 상기 가중치 연산부(220)에서 구해진 가중치를 포함하는 자질 특성 매트릭스를 생성한다. 즉, 상기 자질 특성 매트릭스 생성부(225)는 학습 대상 문서를 구성하는 개별 자질에 대해 문서번호, 범주 코드, 가중치, 범주 특성값 등으로 필드가 구성된 자질 특성 매트릭스를 생성한다. 여기서, 상기 범주 특성값은 자질이 출현하고 특정 범주에 속하는 경우의 빈도수, 자질이 출현하지 않으나 특정 범주에 속하는 경우의 빈도수, 자질이 출현하나 특정 범주에 속하지 않은 경우의 빈도수, 자질이 출현하지 않으면서 특정 범주에도 속하지 않은 경우의 빈도수를 말한다.
상기 자질 특성 매트릭스는 분류기 동적 결합 장치가 복수의 분류기를 동적으로 결합할 때 이용된다.
상기 용어벡터 생성부(230)는 학습 대상 문서를 구성하는 각 자질에 대해 가중치가 표시된 용어 벡터를 생성한다. 상기 생성된 용어벡터는 각 자질에 대해 "범주, 가중치"의 쌍으로 구성되어 있다.
상기 범주 결정부(240)는 신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 용어벡터 생성부(230)에서 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정한다.
즉, 상기 범주 결정부(240)는 상기 신규로 수집되는 분류 대상 문서를 구성하는 자질들에 대해 분류기에서 학습되어 저장된 용어벡터를 매칭하여 벡터정보의 주제별 가중치값을 모두 합한 후, 투표형식으로 계산한 결과의 최대값을 갖는 특정범주를 최종범주로 결정한다.
따라서, 상기 범주 결정부(240)는 수학식 5를 이용하여 상기 분류 대상 문서의 범주를 결정한다.
Figure 112010065722142-pat00007
여기서, fi: 자질, cj: 범주, vs(fi, cj): 자질별 가중치값을 의미한다.
예를 들어, 실험 문서인 d={f1, f2, f3, ..., fn}, 주제 범주를 C={c1, c2, c3, ...., cn}라고 할 때, 자질 fi가 범주 cj에 대하여 가지는 가중치를 vs(fi, cj)라고 하면, 자질값 투표 분류기는 수학식 5를 만족하는 범주 cj를 문서에 할당한다.
상기 저장부(250)에는 각 자질별 범주코드, 가중치, 범주 특성값 등이 표시된 자질 특성 매트릭스가 저장되어 있다.
도 3은 본 발명에 따른 분류기 동적 결합 장치의 구성을 개략적으로 나타낸 블럭도이다.
도 3을 참조하면, 분류기 동적 결합 장치(300)는 자질 추출부(310), 통합 매트릭스 생성부(320), 가중치 연산부(330), 용어벡터 생성부(340), 범주 결정부(350)를 포함한다.
상기 자질 추출부(310)는 복수개의 결합 대상 자질 특성 매트릭스로부터 자질을 추출한다. 이때, 상기 자질 추출부(310)는 각 자질에 대해 분류기 생성 장치에 의해 생성된 자질 특성 매트릭스에서 자질을 추출하게 된다.
상기 통합 매트릭스 생성부(320)는 상기 추출된 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한다. 즉, 상기 통합 매트릭스 생성부(320)는 상기 자질 특성 매트릭스에 출현한 자질값의 전체 셋을 만들고 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한다.
이때, 상기 통합 매트릭스 생성부(320)는 각 자질에 대해 전체 범주 리스트에서 빠진 범주는 자동으로 계산하여 그 범주에 대한 필드를 메모리상에 동적으로 생성하고, 각 자질에 대한 전체 범주 특성값을 합산하여 통합 매트릭스를 생성하며, 그 결과를 데이터베이스에 저장한다.
또한, 상기 통합 매트릭스 생성부(320)는 상기 자질 추출부(310)에서 추출된 고유한 자질의 리스트를 만들고, 상기 결합 대상 자질 특성 매트릭스로부터 전체 범주코드를 추출하여 범주코드 리스트를 만든다. 그런 다음 상기 통합 매트릭스 생성부(320)는 각 개별 테이블에서 특정 자질에 대한 정보가 있는 경우 전체 범주코드에 대한 범주 특성값을 추출하고, 존재하지 않은 범주코드에 대해서는 범주 특성값을 계산하여 생성한다.
또한, 상기 통합 매트릭스 생성부(320)는 각 개별 테이블 중에서 특정 자질이 존재하지 않은 경우, 해당 자질을 만들고 상기 범주코드 리스트에 있는 모든 범주코드별로 범주 특성값을 각각 생성한다.
즉, 상기 통합 매트릭스 생성부(320)는 자질이 모든 개별 테이블에 출현하지는 않으므로, 자질의 개수, 전체 문헌의 수 등 각 자질 특성 매트릭스의 통합 정보를 동적으로 산출하여 TP, TN, FP, FN, 유사도, 역문헌빈도(IDF) 등의 범주 특성값을 재계산하게 된다.
다시 말하면, 상기 통합 매트릭스 생성부(320)는 각 자질에 대해 범주별로 TP, TN, FP, FN을 합산한다. 이때, 각 자질에 대해 전체 범주 리스트에서 빠진 범주는 자동으로 계산하여 그 범주에 대한 필드를 생성하게 된다.
예를 들어, 기 설정된 범주코드 정보가 "바이오, 화학, 지리, 수학"의 4가지인데, 특정 자질에 "수학"에 해당하는 범주가 없다면, 상기 통합 매트릭스 생성부(320)는 다른 자질의 값으로부터 전체의 합을 구하고, 모든 범주에 대해 FP와 FN을 구하여 "수학"에 대한 범주를 생성하게 된다.
상기 가중치 연산부(330)는 상기 통합 매트릭스 생성부(320)에서 생성된 통합 매트릭스를 구성하는 각 자질과 범주의 유사도를 구하고, 그 유사도를 이용하여 자질별 가중치를 구한다. 상기 자질별 가중치를 계산하는 방법은 수학식 1 내지 수학식 3을 이용한다.
상기 용어벡터 생성부(340)는 상기 통합 매트릭스를 구성하는 각 자질에 대해 가중치가 표시된 용어 벡터를 생성하여 상기 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성한다. 상기 생성된 용어벡터는 각 자질에 대해 "범주, 가중치"의 쌍으로 구성되어 있다.
상기 범주 결정부(350)는 신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 용어벡터 생성부(340)에서 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정한다.
즉, 상기 범주 결정부(350)는 신규로 수집되는 분류 대상 문서를 구성하는 자질들에 대해 분류기에서 학습되어 저장된 용어벡터를 매칭하여 벡터정보의 주제별 가중치값을 모두 합한 후, 투표형식으로 계산한 결과의 최대값을 갖는 특정범주를 최종범주로 결정한다. 이때, 상기 범주 결정부(350)는 수학식 5를 이용하여 상기 분류 대상 문서의 최종 범주를 결정한다.
상기 분류기 동적 결합 장치(300)는 상기 결합 대상 데이터베이스를 일정 크기의 용량으로 분할하는 용량 분할부(미도시)를 더 포함할 수 있다. 그러면, 상기 통합 매트릭스 생성부(320)는 상기 용량 분할부(미도시)에 의해 분할된 각 용량에 대한 통합 매트릭스를 병렬로 동시에 생성하게 된다.
상기 용량 분할부(미도시)는 이질적인 데이터베이스의 용량이 일정 용량 이상인 경우, 그 크기를 분할하여 대용량의 데이터를 처리할 수 있도록 한다.
또한, 상기 분류기 동적 결합 장치(300)는 통합 매트릭스 생성 관리부(370)를 더 포함할 수도 있다. 상기 통합 매트릭스 생성 관리부(370)는 상기 통합 매트릭스 생성부(320)에서 생성된 통합 매트릭스를 개별 자질 특성 매트릭스와 통합 또는 다른 통합 매트릭스와 통합하는 과정을 피라미드식으로 반복적으로 수행하여 새로운 통합 매트릭스를 생성한다.
즉, 상기 통합 매트릭스 생성 관리부(370)는 개별 자질 특성 매트릭스를 다양하게 조합하여 통합 매트릭스를 생성하는 것처럼, 상기 통합 매트릭스 생성부(320)에서 생성된 통합 매트릭스를 개별 자질 특성 매트릭스 또는 다른 통합 매트릭스와 다양하게 조합하여 새로운 거대한 통합 매트릭스를 생성한다.
도 4는 본 발명의 실시예에 따른 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법을 나타낸 흐름도이다.
도 4를 참조하면, 분류기 생성장치는 해당 데이터베이스의 학습 대상 문서로부터 자질을 추출하고(S400), 상기 추출된 자질과 범주의 유사도를 구하여 자질별 가중치를 연산한다(S402).
그런 다음 상기 분류기 생성 장치는 상기 학습 대상 문서를 구성하는 각 자질에 대해 상기 연산된 가중치를 포함하는 자질 특성 매트릭스 및 용어 벡터를 생성한다(S404). 상기 자질 특성 매트릭스는 자질, 범주, 유사도, 가중치, 범주 특성값 등이 표시되어 있다.
상기 S404의 수행 후, 상기 분류기 생성장치는 신규로 수집되는 분류 대상 문서에 대해 상기 생성된 용어 벡터를 이용하여 범주를 결정한다(S406). 즉, 상기 분류기 생성 장치는 신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산하고, 그 계산한 결과 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정한다.
상기 S406이 수행되면, 상기 분류기 생성 장치는 상기 S404에서 생성된 자질 특성 매트릭스를 분류기 동적 결합 장치에 제공한다(S408).
상기 분류기 동적 결합 장치는 상기 분류기 생성 장치로부터의 복수개의 결합 대상 자질 특성 매트릭스에 출현한 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한다(S410). 즉, 상기 분류기 동적 결합 장치는 상기 자질 특성 매트릭스에 출현한 자질값의 전체 셋을 만들고 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한다. 이때, 각 자질에 대해 전체 범주 리스트에서 빠진 범주는 자동으로 계산하여 그 범주에 대한 필드를 메모리상에 동적으로 생성하고, 각 자질에 대한 전체 범주 특성값을 합산하여 통합 매트릭스를 생성하고, 그 결과를 데이터베이스에 저장한다.
상기 S410의 수행 후, 상기 분류기 동적 결합 장치는 상기 생성된 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성한다(S412).
도 5는 본 발명의 실시예에 따른 분류기 동적 결합 장치가 개별 분류기의 동적 결합에 의해 대용량 분류기를 자동으로 생성하는 방법을 나타낸 흐름도이다.
도 5를 참조하면, 분류기 동적 결합 장치는 결합 대상 데이터베이스내의 자질 특성 매트릭스로부터 자질을 추출하고(S500), 상기 추출된 자질에 대한 코드정보를 리스트화하고 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한다(S502). 이때, 상기 분류기 동적 결합 장치는 기 설정된 범주코드 정보를 근거로 적어도 하나의 범주가 존재하지 않은 자질이 존재하는 경우, 해당 자질에 대해 전체 범주 리스트에서 자동으로 해당 범주에 대한 필드를 생성하여, 통합 매트릭스를 생성하게 된다.
또한, 상기 분류기 동적 결합 장치는 상기 생성된 통합 매트릭스를 개별 자질 특성 매트릭스와 통합 또는 다른 통합 매트릭스와 통합하는 과정을 피라미드식으로 반복적으로 수행하여 새로운 거대한 통합 매트릭스를 생성할 수 있다.
상기 S502의 수행 후, 상기 분류기 동적 결합 장치는 상기 통합 매트릭스를 구성하는 각 자질과 범주의 유사도를 구하고(S504), 그 유사도를 이용하여 자질별 가중치를 구한다(S506). 이때, 상기 분류기 동적 결합 장치는 코사인, 다이스, 자카드 또는 로그승산비 등의 유사계수를 이용하거나 다양한 거리계수를 이용하여 유사도를 구하고, 그 유사도를 이용하여 자질별 가중치를 구한다.
상기 S506의 수행 후, 상기 분류기 동적 결합 장치는 상기 통합 매트릭스를 구성하는 각 자질에 대해 가중치를 포함하는 용어 벡터를 생성하여 상기 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성한다(S508).
그런 다음, 상기 분류기 동적 결합 장치는 신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정한다(S510).
도 6은 본 발명의 실시예에 따른 분류기 동적 결합 장치가 개별 분류기의 동적 결합에 의해 대용량 분류기를 자동으로 생성하는 방법을 나타낸 흐름도이다.
도 6을 참조하면, 분류기 동적 결합 장치는 결합 대상 데이터베이스를 일정 크기의 용량으로 분할한다(S600).
그런 다음 상기 분류기 동적 결합 장치는 각 분할된 용량내의 자질 특성 매트릭스로부터 각각 자질을 추출하고(S602), 상기 추출된 자질에 대한 코드정보를 리스트화하고 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한다(S604).
S606부터 S612는 도 5의 S504부터 S510과 상응하므로, 그 설명은 생략하기로 한다.
상기와 같은 방법에 의해 상기 분류기 동적 결합 장치는 대용량의 학습 문서를 자동으로 분할하고 동적으로 결합할 수 있다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100 : 데이터베이스 200 : 분류기 생성 장치
210, 310 : 자질 추출부 220, 330 : 가중치 연산부
225 : 자질 특성 매트릭스 생성부 230, 340 : 용어벡터 생성부
240, 350 : 범주 결정부 250, 360 : 저장부
370 : 통합 매트릭스 생성 관리부 300 : 분류기 동적 결합 장치
320 : 통합 매트릭스 생성부

Claims (29)

  1. 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 데이터베이스;
    각 데이터베이스의 학습 대상 문서로부터 자질을 추출하고, 상기 추출된 자질과 범주의 유사도를 구하여 자질별 가중치를 연산한 후, 각 자질에 대해 가중치를 포함하는 자질 특성 매트릭스 및 용어 벡터를 생성하여 신규로 수집되는 분류대상 문서의 범주를 결정하는 개별 분류기를 생성하는 분류기 생성 장치; 및
    복수개의 결합 대상 자질 특성 매트릭스에 출현한 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한 후 상기 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 분류기 동적 결합 장치;
    를 포함하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템.
  2. 제1항에 있어서,
    상기 분류기 생성 장치는 각 데이터베이스별로 구비된 것을 특징으로 하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템.
  3. 제1항에 있어서,
    상기 분류기 생성장치는 상기 학습 대상 문서를 구성하는 모든 자질에 대해 상기 용어 벡터를 선형 결합하여 투표결과가 높은 값을 상기 분류 대상 문서의 범주로 결정하는 것을 특징으로 하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템.
  4. 제1항에 있어서,
    상기 분류기 동적 결합 장치는 상기 결합 대상 데이터베이스를 일정 크기의 용량으로 분할하여 각 용량에 대한 통합 매트릭스를 생성하고, 각 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템.
  5. 제1항에 있어서,
    상기 분류기 동적 결합 장치는 상기 생성된 통합 매트릭스를 개별 자질 특성 매트릭스와 통합 또는 다른 통합 매트릭스와 통합하는 과정을 반복적으로 수행하여 새로운 하나의 통합 매트릭스를 생성하는 것을 특징으로 하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템.
  6. 학습 대상 문서로부터 자질을 추출하는 자질 추출부;
    상기 추출된 자질과 범주의 유사도를 구하고, 그 유사도를 이용하여 자질별 가중치를 구하는 가중치 연산부;
    상기 학습 대상 문서를 구성하는 각 자질에 대해 상기 가중치 연산부에서 구해진 가중치를 포함하는 자질 특성 매트릭스를 생성하는 자질 특성 매트릭스 생성부;
    상기 학습 대상 문서를 구성하는 각 자질에 대해 가중치가 표시된 용어 벡터를 생성하는 용어벡터 생성부; 및
    신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 용어벡터 생성부에서 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정하는 범주 결정부;
    를 포함하는 분류기 생성 장치.
  7. 제6항에 있어서,
    상기 자질 추출부는 학습 대상 문서의 키워드 필드를 이용하는 방법, 코퍼스 사전을 기반으로 제목 또는 초록의 비구조적 정보로부터 정보를 추출하여 이용하는 방법, 스테밍 또는 형태소 분석기법을 이용하는 자연어 처리방법들 중 적어도 하나를 통해 자질을 추출하는 것을 특징으로 하는 분류기 생성 장치.
  8. 제6항에 있어서,
    상기 가중치 연산부는 코사인, 다이스, 자카드, 로그승산비 중 적어도 하나의 유사계수를 이용하거나 다양한 거리계수를 이용하여 유사도를 구하는 것을 특징으로 하는 분류기 생성 장치.
  9. 제6항에 있어서,
    상기 가중치 연산부는 자질 가중치에 역문헌 빈도(Inverse Document Frequency)를 추가한
    Figure 112011015858182-pat00008
    를 이용하여 최종 자질별 가중치(
    Figure 112011015858182-pat00009
    )를 구하되,
    vs는 가중치, fi는 자질, cj는 범주, tf는 용어 빈도수, N은 전체 문헌 수, df는 문헌 빈도수인 것을 특징으로 하는 분류기 생성 장치.
  10. 제6항에 있어서,
    상기 용어벡터 생성부는 각 자질에 대해 "범주, 가중치" 쌍으로 구성된 용어벡터를 생성하는 것을 특징으로 하는 분류기 생성 장치.
  11. 제6항에 있어서,
    상기 범주 결정부는 상기 신규로 수집되는 분류 대상 문서를 구성하는 자질들에 대해 분류기에서 학습되어 저장된 용어벡터를 매칭하여 벡터정보의 주제별 가중치값을 모두 합한 후, 투표형식으로 계산한 결과의 최대값을 갖는 특정범주를 최종범주로 결정하는 것을 특징으로 하는 분류기 생성 장치.
  12. 제6항에 있어서,
    상기 자질 특성 매트릭스는 자질별 문서번호, 범주코드, 가중치, 범주 특성값을 포함하되,
    상기 범주 특성값은 자질이 출현하고 특정 범주에 속하는 경우의 빈도수, 자질이 출현하지 않으나 특정 범주에 속하는 경우의 빈도수, 자질이 출현하나 특정 범주에 속하지 않은 경우의 빈도수, 자질이 출현하지 않으면서 특정 범주에도 속하지 않은 경우의 빈도수를 포함하는 것을 특징으로 하는 분류기 생성 장치.
  13. 복수개의 결합 대상 데이터베이스내 자질 특성 매트릭스로부터 자질을 추출하는 자질 추출부;
    상기 추출된 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하는 통합 매트릭스 생성부;
    상기 통합 매트릭스를 구성하는 각 자질과 범주의 유사도를 각각 구하고, 그 유사도를 이용하여 자질별 가중치를 구하는 가중치 연산부; 및
    상기 통합 매트릭스를 구성하는 각 자질에 대해 가중치가 표시된 용어 벡터를 생성하여 상기 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 용어벡터 생성부;
    를 포함하는 분류기 동적 결합 장치.
  14. 제13항에 있어서,
    신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 용어벡터 생성부에서 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정하는 범주 결정부를 더 포함하는 분류기 동적 결합 장치.
  15. 제13항에 있어서,
    상기 결합 대상 데이터베이스를 일정 크기의 용량으로 분할하는 용량 분할부를 더 포함하는 분류기 동적 결합 장치.
  16. 제13항에 있어서,
    상기 통합 매트릭스 생성부는 용량 분할부에 의해 분할된 각 용량에 대한 통합 매트릭스를 병렬로 동시에 생성하는 것을 특징으로 하는 분류기 동적 결합 장치.
  17. 제13항에 있어서,
    상기 통합 매트릭스 생성부에서 생성된 통합 매트릭스를 개별 자질 특성 매트릭스와 통합 또는 다른 통합 매트릭스와 통합하는 과정을 피라미드식으로 반복적으로 수행하여 새로운 통합 매트릭스를 생성하는 통합 매트릭스 생성 관리부를 더 포함하는 분류기 동적 결합 장치.
  18. 제13항에 있어서,
    상기 통합 매트릭스 생성부는 상기 자질 특성 매트릭스에 출현한 자질값의 전체 셋을 만들고 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하는 것을 특징으로 하는 분류기 동적 결합 장치.
  19. 제18항에 있어서,
    상기 통합 매트릭스 생성부는 각 자질에 대해 전체 범주 리스트에서 빠진 범주는 자동으로 계산하여 그 범주에 대한 필드를 메모리상에 동적으로 생성하고, 각 자질에 대한 전체 범주 특성값을 합산하여 통합 매트릭스를 생성하고, 그 결과를 데이터베이스에 저장하는 것을 특징으로 하는 분류기 동적 결합 장치.
  20. 제13항에 있어서,
    상기 통합 매트릭스 생성부는 상기 자질 추출부에서 추출된 고유한 자질의 리스트를 만들고, 상기 결합 대상 자질 특성 매트릭스로부터 전체 범주코드를 추출하여 범주코드 리스트를 만든 후, 각 개별 테이블에서 특정 자질에 대한 정보가 있는 경우 전체 범주코드에 대한 범주 특성값을 추출하되,
    존재하지 않은 범주코드에 대해서는 범주 특성값을 계산하여 생성하는 것을 특징으로 하는 분류기 동적 결합 장치.
  21. 제20항에 있어서,
    상기 통합 매트릭스 생성부는 각 개별 테이블 중에서 특정 자질이 존재하지 않은 경우, 해당 자질을 만들고 상기 범주코드 리스트에 있는 모든 범주코드별로 범주 특성값을 각각 생성하는 것을 특징으로 하는 분류기 동적 결합 장치.
  22. (a) 복수의 분류기 생성장치가 각 데이터베이스의 학습 대상 문서로부터 자질을 각각 추출하는 단계;
    (b) 상기 복수의 분류기 생성장치가 상기 추출된 자질과 범주의 유사도를 구하여 자질별 가중치를 각각 연산하는 단계;
    (c) 상기 복수의 분류기 생성장치가 상기 학습 대상 문서를 구성하는 각 자질에 대해 상기 연산된 가중치를 포함하는 자질 특성 매트릭스 및 용어 벡터를 생성하여 신규로 수집되는 분류 대상 문서의 범주를 각각 결정하는 개별 분류기를 각각 생성하는 단계;
    (d) 분류기 동적 결합 장치가 복수개의 결합 대상 자질 특성 매트릭스에 출현한 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하는 단계; 및
    (e) 상기 분류기 동적 결합 장치가 상기 생성된 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 단계;
    를 포함하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법.
  23. 제22항에 있어서,
    상기 (c)단계는,
    상기 학습 대상 문서를 구성하는 각 자질에 대해 상기 연산된 가중치를 포함하는 자질 특성 매트릭스를 생성하는 단계;
    상기 학습 대상 문서를 구성하는 각 자질에 대해 가중치가 표시된 용어 벡터를 생성하는 단계; 및
    신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정하는 개별 분류기를 생성하는 단계를 포함하는 것을 특징으로 하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법.
  24. 분류기 동적 결합 장치가 분류기의 동적 결합에 의해 대용량 분류기를 자동으로 생성하는 방법에 있어서,
    (a) 결합 대상 데이터베이스내의 자질 특성 매트릭스로부터 자질을 추출하는 단계;
    (b) 상기 추출된 자질에 대한 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하는 단계;
    (c) 상기 통합 매트릭스를 구성하는 각 자질과 범주의 유사도를 구하고, 그 유사도를 이용하여 자질별 가중치를 구하는 단계; 및
    (d) 상기 통합 매트릭스를 구성하는 각 자질에 대한 가중치가 포함된 용어 벡터를 생성하여 상기 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 단계;
    를 포함하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법.
  25. 제24항에 있어서,
    신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 생성된 용어벡터들을 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정하는 단계를 더 포함하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법.
  26. 제24항에 있어서,
    상기 (b)단계 이후, 상기 생성된 통합 매트릭스를 개별 자질 특성 매트릭스와 통합 또는 다른 통합 매트릭스와 통합하는 과정을 피라미드식으로 반복적으로 수행하여 새로운 거대한 통합 매트릭스를 생성하는 단계를 더 포함하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법.
  27. 제24항에 있어서,
    상기 (b)단계는, 상기 자질 특성 매트릭스에 출현한 자질값의 전체 셋을 만들고 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하되,
    각 자질에 대해 전체 범주 리스트에서 빠진 범주는 자동으로 계산하여 그 범주에 대한 필드를 메모리상에 동적으로 생성하고, 각 자질에 대한 전체 범주 특성값을 합산하여 통합 매트릭스를 생성하고, 그 결과를 데이터베이스에 저장하는 것을 특징으로 하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법.
  28. 제24항에 있어서,
    상기 (b)단계는, 상기 자질 특성 매트릭스에서 추출된 고유한 자질의 리스트를 만들고, 전체 범주코드를 추출하여 범주코드 리스트를 만든 후, 각 개별 테이블에서 특정 자질에 대한 정보가 있는 경우 전체 범주코드에 대한 범주 특성값을 추출하되, 존재하지 않은 범주코드에 대해서는 범주 특성값을 계산하여 생성하고,
    상기 각 개별 테이블 중에서 특정 자질이 존재하지 않은 경우, 해당 자질을 만들고 상기 범주코드 리스트에 있는 모든 범주코드별로 범주 특성값을 각각 생성하는 것을 특징으로 하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법.
  29. 분류기 동적 결합 장치가 분류기의 동적 결합에 의해 대용량 분류기를 자동으로 생성하는 방법에 있어서,
    (a) 결합 대상 데이터베이스를 일정 크기의 용량으로 분할하는 단계;
    (b) 각 분할된 용량내의 자질 특성 매트릭스로부터 자질을 추출하는 단계;
    (c) 상기 추출된 자질에 대한 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하는 단계;
    (d) 상기 통합 매트릭스에 표시된 각 자질과 범주의 유사도를 구하고, 그 유사도를 이용하여 자질별 가중치를 구하는 단계; 및
    (e) 상기 통합 매트릭스에 표시된 각 자질에 대한 가중치가 포함된 용어 벡터를 생성하여 상기 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 단계;
    를 포함하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법.
KR1020100099164A 2010-10-12 2010-10-12 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법 KR101035038B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100099164A KR101035038B1 (ko) 2010-10-12 2010-10-12 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법
PCT/KR2010/007243 WO2012050252A1 (ko) 2010-10-12 2010-10-21 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100099164A KR101035038B1 (ko) 2010-10-12 2010-10-12 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR101035038B1 true KR101035038B1 (ko) 2011-05-19

Family

ID=44366142

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100099164A KR101035038B1 (ko) 2010-10-12 2010-10-12 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법

Country Status (2)

Country Link
KR (1) KR101035038B1 (ko)
WO (1) WO2012050252A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101339103B1 (ko) 2011-10-05 2013-12-09 (주)워드워즈 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
CN112800172A (zh) * 2021-02-07 2021-05-14 重庆大学 一种基于两阶段注意力机制的代码搜索方法
KR20210084723A (ko) * 2019-12-27 2021-07-08 동국대학교 산학협력단 기계학습을 기반으로 구축된 형태소 분석기를 이용한 문장 분석 장치 및 그 동작 방법
KR20210108024A (ko) * 2020-02-25 2021-09-02 경희대학교 산학협력단 문맥적 관련성을 고려한 의료 문서 검색 방법 및 장치

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678848B2 (en) 2018-02-12 2020-06-09 Wipro Limited Method and a system for recognition of data in one or more images
US11630987B2 (en) 2018-04-30 2023-04-18 International Business Machines Corporation Neural belief reasoner
US11068718B2 (en) 2019-01-09 2021-07-20 International Business Machines Corporation Attribute classifiers for image classification
CN111723257B (zh) * 2020-06-24 2023-05-02 山东建筑大学 基于用水规律的用户画像方法与***
CN113139143B (zh) * 2021-03-31 2022-07-12 杭州电子科技大学 面向智慧校园的网页表数据与关系型数据库数据集成方法
US11922285B2 (en) 2021-06-09 2024-03-05 International Business Machines Corporation Dividing training data for aggregating results of multiple machine learning elements

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020072140A (ko) * 2001-03-09 2002-09-14 서정연 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법
KR100816923B1 (ko) 2006-04-13 2008-03-26 엘지전자 주식회사 문서 분류 시스템 및 그 방법
KR20080053103A (ko) * 2006-12-08 2008-06-12 포항공과대학교 산학협력단 연관규칙 탐사 기법을 이용하여 추출한 다수의 연관분류규칙에 의한 다중범주 문서의 자동 분류 방법 및 장치
KR20090108530A (ko) * 2008-04-11 2009-10-15 한국전자통신연구원 지능형 정보 서비스를 위한 계층적 문서 분류 장치 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090048261A (ko) * 2007-11-09 2009-05-13 조선대학교산학협력단 문서분류를 위한 의미적 주제선정방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020072140A (ko) * 2001-03-09 2002-09-14 서정연 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법
KR100816923B1 (ko) 2006-04-13 2008-03-26 엘지전자 주식회사 문서 분류 시스템 및 그 방법
KR20080053103A (ko) * 2006-12-08 2008-06-12 포항공과대학교 산학협력단 연관규칙 탐사 기법을 이용하여 추출한 다수의 연관분류규칙에 의한 다중범주 문서의 자동 분류 방법 및 장치
KR20090108530A (ko) * 2008-04-11 2009-10-15 한국전자통신연구원 지능형 정보 서비스를 위한 계층적 문서 분류 장치 및 방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101339103B1 (ko) 2011-10-05 2013-12-09 (주)워드워즈 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
KR20210084723A (ko) * 2019-12-27 2021-07-08 동국대학교 산학협력단 기계학습을 기반으로 구축된 형태소 분석기를 이용한 문장 분석 장치 및 그 동작 방법
KR102352481B1 (ko) * 2019-12-27 2022-01-18 동국대학교 산학협력단 기계학습을 기반으로 구축된 형태소 분석기를 이용한 문장 분석 장치 및 그 동작 방법
KR20210108024A (ko) * 2020-02-25 2021-09-02 경희대학교 산학협력단 문맥적 관련성을 고려한 의료 문서 검색 방법 및 장치
KR102370171B1 (ko) * 2020-02-25 2022-03-03 경희대학교 산학협력단 문맥적 관련성을 고려한 의료 문서 검색 방법 및 장치
CN112800172A (zh) * 2021-02-07 2021-05-14 重庆大学 一种基于两阶段注意力机制的代码搜索方法

Also Published As

Publication number Publication date
WO2012050252A1 (ko) 2012-04-19

Similar Documents

Publication Publication Date Title
KR101035038B1 (ko) 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법
CN112732919B (zh) 一种面向网络安全威胁情报的智能分类标签方法及***
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及***
KR20190062848A (ko) 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템 및 그 방법
JP7103496B2 (ja) 関連スコア算出システム、方法およびプログラム
Marzuki et al. Data mining discretization methods and performances
Elagib et al. Big data analysis solutions using MapReduce framework
Yin et al. Maximum entropy model for mobile text classification in cloud computing using improved information gain algorithm
Babalou et al. Large-scale ontology matching: a review of the literature
CN103207804B (zh) 基于集群作业日志的MapReduce负载模拟方法
CN112860850B (zh) 人机交互方法、装置、设备及存储介质
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
Hardaya et al. Application of text mining for classification of community complaints and proposals
Rupasingha et al. Domain-aware web service clustering based on ontology generation by text mining
CN107577690B (zh) 海量信息数据的推荐方法及推荐装置
Mohit et al. A novel approach to text clustering using shift k-medoid
CN116304155A (zh) 基于二维图片的三维构件检索方法、装置、设备及介质
Shen et al. A cross-database comparison to discover potential product opportunities using text mining and cosine similarity
CN116186298A (zh) 信息检索方法和装置
Zheng et al. Variant map construction to detect symmetric properties of genomes on 2D distributions
CN110929085B (zh) 基于元语义分解的电力客服留言生成模型样本处理***及方法
CN114003706A (zh) 关键词组合生成模型训练方法及装置
Amane et al. Multi-Label Classification of Learning Objects Using Clustering Algorithms Based on Feature Selection
CN116955648B (zh) 一种基于非隐私数据关联的知识图谱分析方法
WO2018003115A1 (ja) 分析支援装置、分析支援方法、および分析支援プログラム

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140408

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150511

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160406

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170327

Year of fee payment: 7