KR101240330B1 - 다차원 문서 분류 시스템 및 방법 - Google Patents

다차원 문서 분류 시스템 및 방법 Download PDF

Info

Publication number
KR101240330B1
KR101240330B1 KR1020120077375A KR20120077375A KR101240330B1 KR 101240330 B1 KR101240330 B1 KR 101240330B1 KR 1020120077375 A KR1020120077375 A KR 1020120077375A KR 20120077375 A KR20120077375 A KR 20120077375A KR 101240330 B1 KR101240330 B1 KR 101240330B1
Authority
KR
South Korea
Prior art keywords
document
classification system
features
learning
target documents
Prior art date
Application number
KR1020120077375A
Other languages
English (en)
Inventor
정창후
최성필
전홍우
김태홍
엄정호
정성재
정한민
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020120077375A priority Critical patent/KR101240330B1/ko
Application granted granted Critical
Publication of KR101240330B1 publication Critical patent/KR101240330B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 다차원 문서 분류 시스템 및 방법에 관한 것으로, 각 데이터베이스에 저장된 학습 대상 문서들을 대상으로 기 설정된 기준에 따라 부분 분류 체계를 생성하는 분류 체계 생성부, 각 부분 분류 체계에 포함된 학습 집합이 임계치 이상인지의 여부를 판단하고, 그 판단결과를 근거로 학습 대상 문서로부터 자질들을 추출하거나, 추출된 자질들을 확장하는 자질 추출부, 상기 자질 추출부에서 추출 또는 확장된 자질들을 해당 부분 분류 체계에 대한 학습 모델로 생성하는 분류기 생성부를 포함한다.

Description

다차원 문서 분류 시스템 및 방법{System and Method for mutidimensional document classification}
본 발명은 다차원 문서 분류 시스템 및 방법에 관한 것으로, 보다 상세하게는 데이터베이스에 저장된 학습 대상 문서들을 대상으로 기 설정된 기준에 따라 부분 분류 체계를 생성하고, 각 부분 분류 체계에 포함된 학습 집합이 임계치 이상인지의 여부를 판단하여, 그 판단결과에 따라 학습 대상 문서로부터 자질들을 추출하거나, 추출된 자질들을 확장하여 해당 부분 분류 체계에 대한 학습 모델로 생성하는 다차원 문서 분류 시스템 및 방법에 관한 것이다.
다양한 학술정보 데이터베이스를 구축하고 서비스하는 경우, 서비스 고도화를 위해 개별 문서의 자동 분류와 통합 분류 및 검색 체계의 적용이 중요한 기술적 요소가 된다.
그러나, 자동범주화를 실제 서비스에 적용하기 위해서는 두 가지 문제가 반드시 해결되어야 한다. 첫째, 대용량 문서를 학습할 수 있는 대용량 기반의 분류기 생성기법이 만들어져야 하고 둘째, 도메인 지식 기반의 마이닝 기술에 비해 일반적으로 사용할 수 있는 안정적이고 범용적인 기술이 개발되어야 한다는 점이다. 즉, 대용량 데이터 환경에 적용 가능한 대용량 학습기반의 자동범주화 기법과 범용적으로 사용할 수 있는 기법의 개발이 필요하다.
또한, 자동범주화 기법을 실제 서비스에 응용하고자 할 때, 경우에 따라서는 수백만건 이상의 정보자원을 처리해야 하는 경우가 있는데, 이때 범주를 대표하는 문서를 잘 선택하거나, 문서를 대표하는 자질을 선택하고 자질을 축소하는 기법이 필요하게 되므로 비교적 자질 축소 기법에 민감하지 않은 분류기의 개발이 중요하다. 여기서, 자질은 키워드 또는 용어를 의미한다.
또한, 통합정보 서비스를 하는 경우, 서비스를 위한 표준 주제 분류 체계에 맞도록 여러 자원을 자동 분류해야 하는데, 학술논문과 특허, 학술논문과 연구보고서 등 이기종 데이터베이스 간의 교차 자동분류 성능이 현저히 떨어지기 때문에 대용량 환경에서 분류기를 범용화 시키기에 어려운 기술적 문제점이 존재한다.
또한, 텍스트 문서의 양이 폭발적으로 증가하면서 이러한 텍스트 문서를 자동으로 분류하기 위한 시스템의 필요성이 증가하고 있다. 그러나, 분류 체계의 복잡성과 각 분류 체계에 필요한 학습 집합의 불균등한 분포 문제로 인해 단일 분류 시스템으로는 이러한 요구사항을 충족시키기가 어려운 상황이다. 예를 들어 조선일보 신문기사와 같은 뉴스 미디어의 경우 대분류 18개, 중분류 433개, 소분류 1060개로 분류 체계가 복잡할 뿐만 아니라 각 분류 당 학습 집합 규모의 편차가 아주 심하다. 이러한 뉴스 미디어 전체를 한 번에 분류하는 방법은 비효율적일 뿐만 아니라 분류의 정확성 또한 심각하게 낮아지는 결과를 초래한다.
본 발명은 상기한 문제점을 해결하기 위하여 안출된 것으로, 복잡한 분류 체계 및 학습 집합의 규모를 고려하여, 부분 분류 체계를 생성할 수 있는 다차원 문서 분류 시스템 및 방법을 제공하는데 있다..
본 발명의 다른 목적은 분류 코드의 깊이 및 학습 집합의 규모를 고려하여 분류 체계를 그룹핑한 후, 각 그룹에 가장 적합한 문서 분류 알고리즘을 적용함으로써 문서 분류의 효율성을 높일 수 있는 다차원 문서 분류 시스템 및 방법을 제공하는데 있다.
본 발명의 또 다른 목적은 분류체계의 종류/규모/깊이 및 학습 집합의 규모에 따른 가변적 부분 분류체계 생성을 지원하고, 생성된 각 분류 체계에 가장 적합한 분류 방법을 적용할 수 있는 다차원 문서 분류 시스템 및 방법을 제공하는데 있다.
상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 각 데이터베이스에 저장된 학습 대상 문서들을 대상으로 기 설정된 기준에 따라 부분 분류 체계를 생성하는 분류 체계 생성부, 각 부분 분류 체계에 포함된 학습 집합이 임계치 이상인지의 여부를 판단하고, 그 판단결과를 근거로 학습 대상 문서로부터 자질들을 추출하거나, 추출된 자질들을 확장하는 자질 추출부, 상기 자질 추출부에서 추출 또는 확장된 자질들을 해당 부분 분류 체계에 대한 학습 모델로 생성하는 분류기 생성부를 포함하는 분류기 장치가 제공된다.
상기 분류기 장치는 새로운 문서가 입력된 경우, 입력 문서에서 자질들을 추출하고, 상기 생성된 학습 모델 중에서 상기 추출된 자질들을 포함하는 학습 모델로 상기 문서를 분류하는 문서 분류부를 더 포함할 수 있다.
상기 자질 추출부는 학습 집합이 임계치 이상인 부분 분류체계의 경우, 해당 부분 분류체계의 학습 대상 문서로부터 자질들을 추출하고, 학습 집합이 임계치 이상이 아닌 부분 분류체계의 경우, 해당 부분 분류 체계의 학습 대상 문서로부터 자질들을 추출하고, 외부 언어 자원을 활용하여 자질들을 확장할 수 있다.
상기 자질 추출부는 시소러스 또는 워드넷의 외부 자원을 활용하여 자질들을 확장하되, 시소러스를 이용하여 자질을 확장하는 경우, 시소러스로부터 각 자질들의 RT(related term), NT(narrow term), BT(broad term) 등의 추가 정보를 활용하여 자질들을 확장하고, 워드넷을 이용하여 자질을 확장하는 경우, 워드넷의 synset을 이용하여 자질들을 확장할 수 있다.
본 발명의 다른 측면에 따르면, 데이터베이스에 저장된 학습 대상 문서들을 대상으로 기 설정된 기준에 따라 부분 분류 체계를 생성하고, 각 부분 분류 체계에 포함된 학습 집합이 임계치 이상인지의 여부를 판단하여, 그 판단결과를 근거로 학습 대상 문서로부터 자질들을 추출하거나, 추출된 자질들을 확장하여 해당 부분 분류 체계에 대한 학습 모델로 생성하는 분류기 장치, 새로운 문서가 입력된 경우, 그 문서에서 자질들을 추출하고, 상기 추출된 자질들이 상기 분류기 장치에서 생성된 학습 모델중에서 포함된 학습 모델로 문서를 분류하는 문서 분류 장치를 포함하는 다차원 문서 분류 시스템이 제공된다.
본 발명의 또 다른 측면에 따르면, 분류기 장치가 다차원 문서 분류를 위한 방법에 있어서, (a) 각 데이터베이스에 저장된 학습 대상 문서들을 대상으로 기 설정된 기준에 따라 부분 분류 체계를 생성하는 단계, (b) 각 부분 분류 체계에 포함된 학습 집합이 임계치 이상인지의 여부를 판단하고, 그 판단결과를 근거로 학습 대상 문서로부터 자질들을 추출하거나, 추출된 자질들을 확장하는 단계, (c) 상기 추출 또는 확장된 자질들을 해당 부분 분류 체계에 대한 학습 모델로 생성하는 단계를 포함하는 다차원 문서 분류 방법이 제공된다.
상기 다차원 문선 분류 방법은 상기 (c) 단계 이후, 새로운 문서가 입력된 경우, 입력 문서에서 자질들을 추출하고, 상기 생성된 학습 모델중에서 상기 추출된 자질들을 포함하는 학습 모델로 문서를 분류하는 단계를 더 포함할 수 있다.
상기 (b)단계는 각 부분 분류 체계에 포함된 학습 집합이 임계치 이상인지의 여부를 판단하는 단계, 상기 판단결과 학습 집합이 임계치 이상인 부분 분류체계의 경우, 해당 부분 분류체계의 학습 대상 문서로부터 자질들을 추출하고, 학습 집합이 임계치 이상이 아닌 부분 분류체계의 경우, 해당 부분 분류 체계의 학습 대상 문서로부터 자질들을 추출하고, 외부 언어 자원을 활용하여 자질들을 확장하는 단계를 포함할 수 있다.
상기 외부 언어 자원을 활용하여 자질들을 확장하는 단계는, 시소러스를 이용하여 자질을 확장하는 경우, 시소러스로부터 각 자질들의 RT(related term), NT(narrow term), BT(broad term) 등의 추가 정보를 활용하여 자질들을 확장하고, 워드넷을 이용하여 자질을 확장하는 경우, 워드넷의 synset을 이용하여 자질들을 확장하는 것을 특징으로 한다.
본 발명의 또 다른 측면에 따르면, 각 데이터베이스에 저장된 학습 대상 문서들을 대상으로 기 설정된 기준에 따라 부분 분류 체계를 생성하는 단계, 각 부분 분류 체계에 포함된 학습 집합이 임계치 이상인지의 여부를 판단하고, 그 판단결과를 근거로 학습 대상 문서로부터 자질들을 추출하거나, 추출된 자질들을 확장하는 단계, 상기 추출 또는 확장된 자질들을 해당 부분 분류 체계에 대한 학습 모델로 생성하는 단계를 포함하는 다차원 문서 분류 방법이 프로그램으로 기록되고 컴퓨터에서 판독 가능한 기록매체.
본 발명에 따르면, 복잡한 분류 체계 및 학습 집합의 규모를 고려하여, 부분 분류 체계를 생성할 수 있다.
또한, 분류 코드의 깊이 및 학습 집합의 규모를 고려하여 분류 체계를 그룹핑한 후, 각 그룹에 가장 적합한 문서 분류 알고리즘을 적용함으로써 문서 분류의 효율성을 높일 수 있다.
또한, 분류체계의 종류/규모/깊이 및 학습 집합의 규모에 따른 가변적 부분 분류체계 생성을 지원하고, 생성된 각 분류 체계에 가장 적합한 분류 방법을 적용할 수 있다.
도 1은 본 발명에 따른 다차원 문서 분류를 위한 시스템을 나타낸 도면.
도 2는 본 발명에 따른 분류기 장치의 구성을 개략적으로 나타낸 블럭도.
도 3은 본 발명에 따른 분류기 장치가 다차원의 문서 분류를 위해 분류기를 생성하는 방법을 나타낸 흐름도.
도 4는 본 발명에 따른 워드넷의 synset을 이용하여 자질을 확장하는 방법을 설명하기 위한 예시도.
본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.
도 1은 본 발명에 따른 다차원 문서 분류를 위한 시스템을 나타낸 도면이다.
도 1을 참조하면, 다차원 문서 분류를 위한 시스템은 학습 대상 문서들이 저장된 데이터베이스(100), 분류기 장치(200), 문서 분류 장치(300)를 포함한다.
데이터베이스(100)는 뉴스가 저장된 데이터베이스, 기술 문헌들이 저장된 데이터베이스 등을 모두 포함한다. 데이터베이스(100)에 저장된 문헌들은 기 설정된 분류 체계에 따라 분류되어 있다.
분류기 장치(200)는 데이터베이스(100)에 저장된 학습 대상 문서들을 대상으로 기 설정된 기준에 따라 부분 분류 체계를 생성하고, 각 부분 분류 체계에 포함된 학습 집합이 임계치 이상인지의 여부를 판단한다. 여기서 학습 집합은 학습 대상 문서들의 집합을 의미하므로, 분류기 장치(200)는 학습 집합에 포함된 학습 대상 문서의 수가 임계치 이상인지의 여부를 판단하는 것이다.
분류기 장치(200)는 각 부분 분류 체계에 포함된 학습 집합이 임계치 이상인 경우, 해당 부분 분류체계의 학습 대상 문서로부터 자질들을 추출하여 해당 부분 분류 체계에 대한 학습 모델을 생성한다. 여기서, 학습 모델은 자질들의 집합을 의미할 수 있다. 예를 들어, 부분 분류 체계가 ‘정치’, ‘경제’, ‘스포츠' 인 경우, 분류기 장치(200)는 정치분야에 해당하는 자질들로 구성된 학습 모델, 경제 분야에 해당하는 자질들로 구성된 학습 모델, 스포츠 분야에 해당하는 자질들로 구성된 학습 모델을 생성한다.
또한, 분류기 장치(200)는 각 부분 분류 체계에 포함된 학습 집합이 임계치 이상이 아닌 경우, 해당 부분 분류 체계의 학습 대상 문서로부터 자질들을 추출하고, 외부 언어 자원을 활용하여 자질들을 확장한 후, 해당 부분 분류 체계에 대한 학습 모델을 생성한다.
또한, 분류기 장치(200)는 기 설정된 분류 체계의 종류, 규모, 깊이, 학습 집합의 규모 등을 고려하여 그 분류 체계를 부분 분류 체계로 생성한다. 이는 각 부분 분류체계에 가장 적합한 문서 분류 알고리즘을 적용함으로써 문서 분류의 효율성을 높일 수 있다. 예를 들어, 신문기사의 경우 소분류의 분류 정보를 알고 싶은 경우에 소분류 체계에 대한 학습 집합을 이용하여 한 번에 바로 소분류까지 분류하는 방법을 사용할 수도 있지만, 이 방법보다는 대분류를 먼저 수행하고, 그 다음에 중분류를 수행한 후, 다시 소분류를 수행하는 방법을 사용하는 것이 더욱 효과적이다. 대분류에서는 학습 집합의 규모가 충분하지만 소분류까지 내려갈 경우 학습 집합의 편중 현상이 심해지기 때문이다. 따라서 대분류에서는 문서 자체가 가지고 있는 자질만을 사용하여 분류기 학습을 수행할 수 있지만, 소분류에서는 학습 집합의 부족 현상으로 인해 발생하는 자질 추출의 빈약함을 보완하기 위해서 외부 언어 자원을 활용하여 자질을 확장한다.
상기와 같은 역할을 수행하는 분류기 장치(200)에 대한 상세한 설명은 도 2를 참조하기로 한다.
문서 분류 장치(300)는 분류기 장치(200)에서 생성된 학습 모델을 이용하여 새로 입력된 문서를 분류한다. 즉, 문서 분류 장치(300)는 새로운 문서가 입력되면, 입력 문서에서 자질들을 추출하고, 그 추출된 자질들을 포함하는 학습 모델을 확인 한 후, 그 학습 모델의 부분 분류 체계로 입력 문서를 분류한다.
도 2는 본 발명에 따른 분류기 장치의 구성을 개략적으로 나타낸 블럭도이다.
도 2를 참조하면, 분류기 장치(200)는 분류 체계 생성부(210), 자질 추출부(220), 분류기 생성부(230), 학습 모델 DB(240)를 포함한다.
분류 체계 생성부(210)는 각 데이터베이스에 저장된 학습 대상 문서들을 대상으로 기 설정된 기준에 따라 부분 분류 체계를 생성한다. 즉, 분류 체계 생성부(210)는 기 설정된 분류 체계의 종류, 깊이, 학습 집합의 규모 등을 고려하여 기 설정된 분류체계를 부분화시켜 부분 분류 체계를 생성한다. 기 설정된 기준은 알고리즘 또는 사용자에 의해 설정될 수 있다.
자질 추출부(220)는 각 부분 분류 체계에 포함된 학습 집합에서 자질들을 추출한다. 이때 자질 추출부(220)는 학습 대상 문서의 키워드 필드를 이용하는 방법, 코퍼스 사전을 기반으로 제목, 초록 또는 본문의 비구조적 정보로부터 스테밍 또는 형태소 분석기법을 이용하는 자연어 처리방법 등을 이용하여 자질을 추출한다.
또한, 자질 추출부(220)는 각 부분 분류 체계에 포함된 학습 집합이 임계치 이상인지의 여부를 판단하고, 그 판단결과를 근거로 학습 대상 문서로부터 자질들을 추출하거나, 추출된 자질들을 확장할 수 있다.
즉, 자질 추출부(220)는 학습 집합이 임계치 이상인 부분 분류체계의 경우, 해당 부분 분류체계의 학습 대상 문서로부터 자질들을 추출한다.
만약, 학습 집합이 임계치 이상이 아닌 부분 분류체계의 경우, 자질 추출부(220)는 해당 부분 분류 체계의 학습 대상 문서로부터 자질들을 추출하고, 외부 언어 자원을 활용하여 자질들을 확장한다. 이때, 외부 언어 자원은 시소러스, 워드넷 등을 포함할 수 있다.
분류기 생성부(230)는 자질 추출부(220)에서 추출 또는 확장된 자질들을 해당 부분 분류 체계에 대한 학습 모델로 생성한다.
예를 들어, 부분 분류 체계가 ‘정치’, ‘경제’, ‘스포츠' 인 경우, 분류기 생성부(230)는 정치분야에 해당하는 자질들로 구성된 학습 모델, 경제 분야에 해당하는 자질들로 구성된 학습 모델, 스포츠 분야에 해당하는 자질들로 구성된 학습 모델을 생성한다.
상기 분류기 생성부(230)에서 생성된 학습 모델들은 학습 모델 데이터베이스(240)에 저장된다.
상기와 같이 구성된 분류기 장치(200)는 학습 모델 데이터베이스(240)에 저장된 학습 모델들을 이용하여 새로 입력된 문서의 분류를 수행하는 문서 분류부(250)를 더 포함할 수 있다.
문서 분류부(250)는 새로운 문서가 입력되면, 입력문서에서 자질들을 추출하고, 그 추출된 자질들을 이용하여 문서 분류를 수행한다. 이때, 문서 분류부(250)는 분류기 생성부(230)에서 설정해놓은 다양한 부분 분류 체계에 맞게 단계적으로 분류를 수행하면서, 최종 문서 분류 결과를 제공한다.
다시 말하면, 문서 분류부(250)는 새로운 문서가 입력된 경우, 입력 문서에서 자질들을 추출하고, 학습 모델 데이터베이스(240)에 저장된 학습 모델중에서 상기 추출된 자질들을 포함하는 학습 모델로 입력 문서를 분류한다.
예를 들어, 부분 분류 체계가 ‘정치’, ‘경제’로 구분된 경우, '이명박’ 혹은 ‘박근혜’와 같은 정치인의 이름이나 ‘선거’ 혹은 ‘지방자치’와 같은 정치에 관련된 키워드가 문서에 존재할 때 정치 분야로 문서를 분류하고, 'IMF'나 ‘수출입’ 혹은 ‘인플레이션’과 같은 경제에 관련된 키워드가 문서에 존재하면 경제 분야로 문서를 분류한다.
또한, 문서 분류부(250)는 추출된 자질들을 포함하는 학습 모델이 2개 이상인 경우, 자질들을 가장 많이 포함하는 학습모델의 부분 분류 체계로 문서를 분류할 수 있다.
도 3은 본 발명에 따른 분류기 장치가 다차원의 문서 분류를 위해 분류기를 생성하는 방법을 나타낸 흐름도, 도 4는 본 발명에 따른 워드넷의 synset을 이용하여 자질을 확장하는 방법을 설명하기 위한 예시도이다.
도 3을 참조하면, 분류기 장치는 각 데이터베이스에 저장된 학습 대상 문서들을 대상으로 기 설정된 기준에 따라 부분 분류 체계를 생성한다(S302). 즉, 분류기 장치는 기 설정된 분류 체계의 종류, 규모, 깊이, 학습 집합의 규모 등을 고려하여 기 설정된 분류체계를 부분화시켜 부분 분류 체계를 생성한다. 기 설정된 기준은 알고리즘 또는 사용자에 의해 설정될 수 있다. 기 설정된 기준에 대해 학습 집합의 규모를 예를 들면, 100개 이상인 학습집합들을 묶고, 50~99개의 학습 집합들을 묶고, 50 이하의 학습 집합들을 묶어라 등의 형태일 수 있다.
따라서, 분류기 장치는 복잡한 분류 체계를 ‘정치’, ‘경제’, ‘스포츠’와 같이 종류별로 부분화시킬 수 있고, 학습 집합의 규모가 많은 것과 적당한 것과 적은 것으로 부분화시킬 수도 있으며, 깊이별로 ‘대분류’, ‘중분류’, ‘소분류’와 같이 부분화시킬 수도 있다.
단계 S302의 수행 후, 분류기 장치는 각 부분 분류 체계에 포함된 학습 집합이 임계치 이상인지의 여부를 판단한다(S304). 즉, 분류기 장치는 각 부분 분류 체계에 포함된 학습 집합들이 기 설정된 임계치 이상이여서 학습집합으로 충분한지의 여부를 판단한다.
단계 S304의 판단결과 임계치 이상인 경우, 분류기 장치는 해당 부분 분류체계의 학습 대상 문서로부터 자질들을 추출한다(S306). 이때, 분류기 장치는 학습 대상 문서의 키워드 필드를 이용하는 방법, 코퍼스 사전을 기반으로 제목, 초록 또는 본문의 비구조적 정보로부터 스테밍 또는 형태소 분석기법을 이용하는 자연어 처리방법 등을 이용하여 자질을 추출한다. 여기서, 자질은 예를 들면, 키워드일 수 있다.
또한, 분류기 장치는 제목에 존재하는 키워드에 가중치를 더하여 자질을 추출할 수도 있다.
단계 S306이 수행되면, 분류기 장치는 해당 부분 분류 체계에 대한 학습 모델을 생성한다(S308). 여기서, 학습 모델은 각 부분 분류 체계를 대표하는 자질들로 구성될 수 있다. 예를 들어, 부분 분류 체계가 ‘정치’, ‘경제’, ‘스포츠' 인 경우, 정치분야에 해당하는 자질들로 구성된 학습 모델, 경제 분야에 해당하는 자질들로 구성된 학습 모델, 스포츠 분야에 해당하는 자질들로 구성된 학습 모델을 생성한다.
만약, 단계 S304의 판단결과 임계치 이상이 아닌 경우, 분류기 장치는 해당 부분 분류 체계의 학습 대상 문서로부터 자질들을 추출하고(S310), 외부 언어 자원을 활용하여 자질들을 확장한다(S312). 이때, 외부 언어 자원은 시소러스, 워드넷 등을 포함할 수 있다.
먼저, 시소러스를 이용하여 자질을 확장하는 경우, 분류기 장치는 시소러스로부터 각 자질들의 RT(related term), NT(narrow term), BT(broad term) 등의 추가 정보를 활용하여 자질들을 확장한다. 즉, 시소러스에는 각 자질들의 RT(related term), NT(narrow term), BT(broad term) 등의 관계가 저장되어 있으므로, 각 자질들의 동의어, 하위어, 관련어 등을 획득할 수 있다.
또한, 워드넷을 이용하여 자질을 확장하는 경우, 분류기 장치는 워드넷의 synset을 이용하여 자질들을 확장한다. 워드넷의 synset을 이용할 경우에 상위어 시퀀스(hypernym sequence)의 유사도를 이용한 synset disambiguation 방법을 적용한다.
워드넷의 synset을 이용하여 자질을 확장하는 방법에 대해 도 4를 참조하면, 자질(키워드)을 워드넷의 synset으로 매핑하고, 매핑된 synset의 hypernym(상위어)을 찾아서, hypernym sequence 리스트를 생성한다. 그리고, hypernym sequence 리스트중에서 해당 자질이 존재하는 문맥 정보와 가장 유사한 hypernym sequence를 찾는다. 그런 다음 찾아진 hypernym sequence에 포함된 정보(상위어, 하위어, 유사어, 정의문, 예제문 등) 중에서 적어도 하나의 추가 정보를 활용하여 자질들을 확장한다.
상기와 같이 각 분류체계별로 자질들이 확장되면, 분류기 장치는 단계 S308을 수행한다.
상기와 같이 학습모델이 생성된 후, 새로운 문서가 입력되면, 분류기 장치는 입력문서에서 자질들을 추출하고, 그 추출된 자질들을 이용하여 문서 분류를 수행한다. 이때, 분류기 장치는 단계 S302에서 설정해놓은 다양한 부분 분류 체계에 맞게 단계적으로 분류를 수행하면서, 최종 문서 분류 결과를 제공한다.
분류기 장치가 학습 모델을 생성하는 방법에 대해 표 1을 참조하여 설명하기로 한다.
분류체계 A B C D E F G H I
학습집합규모 105 47 9 97 52 11 95 49 10
기 설정된 기준이 '90개 이상인 학습집합들을 묶고, 40~89개의 학습집합들을 묶고, 40 미만의 학습 집합들을 묶는다'이라고 가정하여 설명하기로 한다.
이 경우, 분류기 장치는 90개 이상의 학습 집합들을 묶어 S1 = {A, D, G}, 40~89개의 학습집합들을 묶어 S2 = {B, E, H}, 40미만의 학습 집합들을 묶어 S3 = {C, F, I}의 부분 분류 체계를 생성한다.
그런 후, 분류기 장치는 S1의 학습 집합이 충분하다고 판단하여, 핵심 키워드만을 추출하여 자질로 활용한다.
또한, 분류기 장치는 S2의 학습 집합이 조금 부족하다고 판단하여 시소러스를 추가적으로 사용하여 자질들을 확장한다.
또한, 분류기 장치는 S3의 학습 집합이 아주 부족하다고 판단하여 시소러스뿐만 아니라 워드넷도 함께 사용하여 자질들을 확장한다. 그러면 S1, S2, S3에 대한 균형 잡힌 학습 모델이 생성된다.
그런 후, 분류기 장치는 S1, S2, S3를 기준으로 학습을 수행하여 학습 모델을 생성한다.
그런 후, 분류기 장치는 새로운 문서가 입력되면, S1, S2, S3를 기준으로 문서 분류를 수행한다. 그리고 다시 S1, S2, 혹은 S3 안에서 부분 분류를 수행한다. 그러면 최종적으로 A에서 I 사이의 분류 값을 얻을 수 있다.
다차원 문서 분류를 위한 방법은 프로그램으로 작성 가능하며, 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 프로그래머에 의하여 용이하게 추론될 수 있다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100 : 데이터 베이스 200 : 분류기 장치
210 : 분류 체계 생성부 220 : 자질 추출부
230 : 분류기 생성부 240 : 분류기 DB
250 : 문서 분류부 300 : 문서 분류 장치

Claims (10)

  1. 데이터베이스에 저장된 학습 대상 문서들을 대상으로 기 설정된 기준에 따라 부분 분류 체계를 생성하는 분류 체계 생성부;
    각 부분 분류 체계에 포함된 학습 집합의 학습 대상 문서 수가 임계치 이상인지의 여부를 판단하여, 학습 집합의 학습 대상 문서 수가 임계치 이상인 부분 분류체계의 경우, 해당 부분 분류체계의 학습 대상 문서로부터 자질들을 추출하고, 학습 집합의 학습 대상 문서 수가 임계치 이상이 아닌 부분 분류체계의 경우, 해당 부분 분류 체계의 학습 대상 문서로부터 자질들을 추출하고, 외부 언어 자원을 활용하여 자질들을 확장하는 자질 추출부; 및
    상기 자질 추출부에서 추출 또는 확장된 자질들을 해당 부분 분류 체계에 대한 학습 모델로 생성하는 분류기 생성부;
    를 포함하는 분류기 장치.
  2. 제1항에 있어서,
    새로운 문서가 입력된 경우, 입력 문서에서 자질들을 추출하고, 상기 생성된 학습 모델 중에서 상기 추출된 자질들을 포함하는 학습 모델로 상기 문서를 분류하는 문서 분류부를 더 포함하는 것을 특징으로 하는 분류기 장치.
  3. 삭제
  4. 제1항에 있어서,
    상기 자질 추출부는 시소러스 또는 워드넷의 외부 언어 자원을 활용하여 자질들을 확장하되,
    시소러스를 이용하여 자질을 확장하는 경우, 시소러스로부터 각 자질들의 RT(related term), NT(narrow term), BT(broad term) 등의 추가 정보를 활용하여 자질들을 확장하고, 워드넷을 이용하여 자질을 확장하는 경우, 워드넷의 synset을 이용하여 자질들을 확장하는 것을 특징으로 하는 분류기 장치.
  5. 데이터베이스에 저장된 학습 대상 문서들을 대상으로 기 설정된 기준에 따라 부분 분류 체계를 생성하고, 각 부분 분류 체계에 포함된 학습 집합의 학습 대상 문서 수가 임계치 이상인지의 여부를 판단하여, 학습 집합의 학습 대상 문서 수가 임계치 이상인 부분 분류체계의 경우, 해당 부분 분류체계의 학습 대상 문서로부터 자질들을 추출하여 해당 분분 분류 체계에 대한 학습 모델을 생성하고, 학습 집합의 학습 대상 문서 수가 임계치 이상이 아닌 부분 분류체계의 경우, 해당 부분 분류 체계의 학습 대상 문서로부터 자질들을 추출하고, 외부 언어 자원을 활용하여 자질들을 확장하여 해당 부분 분류 체계에 대한 학습 모델로 생성하는 분류기 장치; 및
    새로운 문서가 입력된 경우, 그 문서에서 자질들을 추출하고, 상기 추출된 자질들을 포함하는 학습 모델로 상기 문서를 분류하는 문서 분류 장치;
    를 포함하는 다차원 문서 분류 시스템.
  6. 분류기 장치가 다차원 문서 분류를 위한 방법에 있어서,
    (a) 각 데이터베이스에 저장된 학습 대상 문서들을 대상으로 기 설정된 기준에 따라 부분 분류 체계를 생성하는 단계;
    (b) 각 부분 분류 체계에 포함된 학습 집합의 학습 대상 문서 수가 임계치 이상인지의 여부를 판단하여, 학습 집합의 학습 대상 문서 수가 임계치 이상인 부분 분류체계의 경우, 해당 부분 분류체계의 학습 대상 문서로부터 자질들을 추출하고, 학습 집합의 학습 대상 문서 수가 임계치 이상이 아닌 부분 분류체계의 경우, 해당 부분 분류 체계의 학습 대상 문서로부터 자질들을 추출하고, 외부 언어 자원을 활용하여 자질들을 확장하는 단계;
    (c) 상기 추출 또는 확장된 자질들을 해당 부분 분류 체계에 대한 학습 모델로 생성하는 단계;
    를 포함하는 다차원 문서 분류 방법.
  7. 제6항에 있어서,
    상기 (c) 단계 이후,
    새로운 문서가 입력된 경우, 입력 문서에서 자질들을 추출하고, 상기 생성된 학습 모델중에서 상기 추출된 자질들을 포함하는 학습 모델로 문서를 분류하는 단계를 더 포함하는 것을 특징으로 하는 다차원 문서 분류 방법.
  8. 삭제
  9. 제6항에 있어서,
    상기 외부 언어 자원을 활용하여 자질들을 확장하는 단계는,
    시소러스를 이용하여 자질을 확장하는 경우, 시소러스로부터 각 자질들의 RT(related term), NT(narrow term), BT(broad term) 등의 추가 정보를 활용하여 자질들을 확장하고, 워드넷을 이용하여 자질을 확장하는 경우, 워드넷의 synset을 이용하여 자질들을 확장하는 것을 특징으로 하는 다차원 문서 분류 방법.
  10. 분류기 장치에 의해 실행될 때,
    각 데이터베이스에 저장된 학습 대상 문서들을 대상으로 기 설정된 기준에 따라 부분 분류 체계를 생성하는 단계;
    각 부분 분류 체계에 포함된 학습 집합의 학습 대상 문서 수가 임계치 이상인지의 여부를 판단하여, 학습 집합의 학습 대상 문서 수가 임계치 이상인 부분 분류체계의 경우, 해당 부분 분류체계의 학습 대상 문서로부터 자질들을 추출하고, 학습 집합의 학습 대상 문서 수가 임계치 이상이 아닌 부분 분류체계의 경우, 해당 부분 분류 체계의 학습 대상 문서로부터 자질들을 추출하고, 외부 언어 자원을 활용하여 자질들을 확장하는 단계; 및
    상기 추출 또는 확장된 자질들을 해당 부분 분류 체계에 대한 학습 모델로 생성하는 단계를 포함하는 다차원 문서 분류 방법이 프로그램으로 기록되고 컴퓨터에서 판독 가능한 기록매체.
KR1020120077375A 2012-07-16 2012-07-16 다차원 문서 분류 시스템 및 방법 KR101240330B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120077375A KR101240330B1 (ko) 2012-07-16 2012-07-16 다차원 문서 분류 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120077375A KR101240330B1 (ko) 2012-07-16 2012-07-16 다차원 문서 분류 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR101240330B1 true KR101240330B1 (ko) 2013-03-11

Family

ID=48181264

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120077375A KR101240330B1 (ko) 2012-07-16 2012-07-16 다차원 문서 분류 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101240330B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210004036A (ko) * 2019-07-03 2021-01-13 아주대학교산학협력단 메타데이터를 이용한 독립 분류 모델의 동작 방법 및 그 장치
KR20220093924A (ko) * 2020-12-28 2022-07-05 한국과학기술원 해시태그 피드백 구조의 순환 생성 모델 기반 해시태그 추출 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080019440A (ko) * 2006-08-28 2008-03-04 한국과학기술정보연구원 통계 기반 문서 분류를 통한 시소러스 확장 방법 및하이브리드 문서 분류 방법
KR20110057421A (ko) * 2009-11-24 2011-06-01 한국전자통신연구원 단일 클래스 범주의 문서 분류 장치 및 방법
KR20110062274A (ko) * 2009-12-03 2011-06-10 한국과학기술정보연구원 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법
KR20110097287A (ko) * 2010-02-25 2011-08-31 숭실대학교산학협력단 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080019440A (ko) * 2006-08-28 2008-03-04 한국과학기술정보연구원 통계 기반 문서 분류를 통한 시소러스 확장 방법 및하이브리드 문서 분류 방법
KR20110057421A (ko) * 2009-11-24 2011-06-01 한국전자통신연구원 단일 클래스 범주의 문서 분류 장치 및 방법
KR20110062274A (ko) * 2009-12-03 2011-06-10 한국과학기술정보연구원 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법
KR20110097287A (ko) * 2010-02-25 2011-08-31 숭실대학교산학협력단 부분 워드넷을 결합한 온톨로지에 의한 문서 분류 시스템 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210004036A (ko) * 2019-07-03 2021-01-13 아주대학교산학협력단 메타데이터를 이용한 독립 분류 모델의 동작 방법 및 그 장치
KR102267487B1 (ko) * 2019-07-03 2021-06-22 아주대학교산학협력단 메타데이터를 이용한 독립 분류 모델의 동작 방법 및 그 장치
KR20220093924A (ko) * 2020-12-28 2022-07-05 한국과학기술원 해시태그 피드백 구조의 순환 생성 모델 기반 해시태그 추출 방법 및 장치
KR102571595B1 (ko) 2020-12-28 2023-08-28 한국과학기술원 해시태그 피드백 구조의 순환 생성 모델 기반 해시태그 추출 방법 및 장치

Similar Documents

Publication Publication Date Title
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及***
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
Witten Text Mining.
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN110188349A (zh) 一种基于抽取式多文档摘要方法的自动化写作方法
CN107679035B (zh) 一种信息意图检测方法、装置、设备和存储介质
Zhang et al. Continuous word embeddings for detecting local text reuses at the semantic level
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN107609113A (zh) 一种文本自动分类方法
Alsallal et al. Intrinsic plagiarism detection using latent semantic indexing and stylometry
Subramaniam et al. Test model for rich semantic graph representation for Hindi text using abstractive method
Sousa et al. Word sense disambiguation: an evaluation study of semi-supervised approaches with word embeddings
Weerasinghe et al. Feature Vector Difference based Authorship Verification for Open-World Settings.
CN114997288A (zh) 一种设计资源关联方法
Akther et al. Compilation, analysis and application of a comprehensive Bangla Corpus KUMono
Bender et al. Unsupervised estimation of subjective content descriptions
Perez-Tellez et al. On the difficulty of clustering microblog texts for online reputation management
Campbell et al. Content+ context networks for user classification in twitter
Li et al. Computational linguistics literature and citations oriented citation linkage, classification and summarization
KR101240330B1 (ko) 다차원 문서 분류 시스템 및 방법
Shah et al. An automatic text summarization on Naive Bayes classifier using latent semantic analysis
CN103034657A (zh) 文档摘要生成方法和装置
Thijs et al. Using noun phrases extraction for the improvement of hybrid clustering with text-and citation-based components. The example of “Information Systems Research”

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160202

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161228

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee