KR100756921B1 - 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. - Google Patents

문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. Download PDF

Info

Publication number
KR100756921B1
KR100756921B1 KR1020060019513A KR20060019513A KR100756921B1 KR 100756921 B1 KR100756921 B1 KR 100756921B1 KR 1020060019513 A KR1020060019513 A KR 1020060019513A KR 20060019513 A KR20060019513 A KR 20060019513A KR 100756921 B1 KR100756921 B1 KR 100756921B1
Authority
KR
South Korea
Prior art keywords
document
similar
documents
classification
list
Prior art date
Application number
KR1020060019513A
Other languages
English (en)
Other versions
KR20070089449A (ko
Inventor
김재호
최기선
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020060019513A priority Critical patent/KR100756921B1/ko
Priority to US11/464,073 priority patent/US20070203885A1/en
Publication of KR20070089449A publication Critical patent/KR20070089449A/ko
Application granted granted Critical
Publication of KR100756921B1 publication Critical patent/KR100756921B1/ko

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F25REFRIGERATION OR COOLING; COMBINED HEATING AND REFRIGERATION SYSTEMS; HEAT PUMP SYSTEMS; MANUFACTURE OR STORAGE OF ICE; LIQUEFACTION SOLIDIFICATION OF GASES
    • F25BREFRIGERATION MACHINES, PLANTS OR SYSTEMS; COMBINED HEATING AND REFRIGERATION SYSTEMS; HEAT PUMP SYSTEMS
    • F25B43/00Arrangements for separating or purifying gases or liquids; Arrangements for vaporising the residuum of liquid refrigerant, e.g. by heat
    • F25B43/003Filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01DSEPARATION
    • B01D35/00Filtering devices having features not specifically covered by groups B01D24/00 - B01D33/00, or for applications not specifically covered by groups B01D24/00 - B01D33/00; Auxiliary devices for filtration; Filter housing constructions
    • B01D35/14Safety devices specially adapted for filtration; Devices for indicating clogging
    • B01D35/147Bypass or safety valves
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01DSEPARATION
    • B01D35/00Filtering devices having features not specifically covered by groups B01D24/00 - B01D33/00, or for applications not specifically covered by groups B01D24/00 - B01D33/00; Auxiliary devices for filtration; Filter housing constructions
    • B01D35/16Cleaning-out devices, e.g. for removing the cake from the filter casing or for evacuating the last remnants of liquid
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01DSEPARATION
    • B01D35/00Filtering devices having features not specifically covered by groups B01D24/00 - B01D33/00, or for applications not specifically covered by groups B01D24/00 - B01D33/00; Auxiliary devices for filtration; Filter housing constructions
    • B01D35/30Filter housing constructions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01DSEPARATION
    • B01D37/00Processes of filtration
    • B01D37/04Controlling the filtration
    • B01D37/046Controlling the filtration by pressure measuring
    • CCHEMISTRY; METALLURGY
    • C02TREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02FTREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02F1/00Treatment of water, waste water, or sewage
    • C02F1/50Treatment of water, waste water, or sewage by addition or application of a germicide or by oligodynamic treatment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mechanical Engineering (AREA)
  • Water Supply & Treatment (AREA)
  • Power Engineering (AREA)
  • Analytical Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Hydrology & Water Resources (AREA)
  • Environmental & Geological Engineering (AREA)
  • Thermal Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 문서 분류방법 및 상기 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
이러한 본 발명에 따른 문서 분류방법은 문서에 분류코드를 부여하여 분류하는 문서 분류방법에 있어서, 분류코드들이 부여된 학습용 문서들의 구조 정보를 이용하여 상기 학습용 문서들의 내용을 재구성하고 색인목록을 생성하는 문서 색인 단계와, 상기 색인목록을 이용하여 상기 학습용 문서들 중 입력문서와 유사한 유사문서들을 검색하는 문서 검색 단계 및 상기 유사문서들의 분류코드를 이용하여 상기 입력문서의 분류코드 목록을 생성하는 분류코드 생성 단계를 포함한다.
이러한 본 발명에 따르면, 검색 키워드 선택 없이 한 번의 실행으로 원하는 정보를 쉽고 빠르게 찾을 수 있고, 문서를 대표하는 몇 개의 키워드가 아닌 문서의 내용에 기반을 두어 분류를 수행하므로 보다 정확한 분류 결과를 얻을 수 있는 효과가 있다.
문서 색인 단계, 문서 검색 단계, 분류코드 생성 단계, 문서 재구성, 의미태그

Description

문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수 있는 기록매체.{METHOD OF CLASSIFYING DOCUMENTS, COMPUTER READABLE RECORD MEDIUM ON WHICH PROGRAM FOR EXECUTING THE METHOD IS RECORDED}
도 1은 일본어 특허문서의 구조를 나타낸 도.
도 2는 본 발명의 일 실시 예에 따른 문서 분류방법을 나타낸 도.
도 3은 본 발명의 일 실시 예에 따른 문서 분류방법의 문서 색인 단계를 개략적으로 나타낸 도.
도 4는 n(n=6)개의 의미태그에 따라 문서를 재구성하는 방법을 나타낸 도.
도 5는 본 발명의 일 실시 예에 따른 문서 분류방법의 문서 검색 단계를 개략적으로 나타낸 도.
도 6은 입력문서의 검색질의와 학습용 문서들의 색인목록을 동일한 의미태그별로 비교하여 유사문서의 목록을 생성하는 방법을 나타낸 도.
도 7은 입력문서의 검색질의와 학습용 문서들의 색인목록을 의미태그별로 교차 비교하여 유사문서의 목록을 생성하는 방법을 나타낸 도.
도 8은 본 발명의 일 실시 예에 따른 문서 분류방법의 분류코드 생성 단계를 개략적으로 나타낸 도.
** 도면의 주요 부분에 관한 부호의 설명 **
302 : 학습용 문서 재구성 단계 304 : 학습용 문서 키워드 추출 단계
305 : 색인목록 생성 단계 306 : 색인목록
502 : 입력문서 재구성 단계 504 : 입력문서 키워드 추출 단계
505 : 검색 질의 생성 단계 508 : 유사문서목록 생성 단계
509, 509a, 509b: 유사문서 목록
802 : 분류코드 목록
본 발명은 문서 분류방법 및 상기 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
하나의 문서는 문서 전체의 키워드 또는 문서 내용을 요약한 부분의 키워드를 사용하여 키워드별 가중치와 함께 벡터로 표현될 수 있다.
기존의 문서 분류방법들은 기계 학습을 통하여, 분류코드가 부여된 훈련 집합 내의 모든 학습용 문서들로부터 추출한 분류코드 별 키워드 벡터와의 유사도로 주어진 문서를 분류하거나, 문서-문서 키워드 벡터의 비교를 통하여 검색한 훈련 집합 내의 모든 학습용 문서들 중 가장 유사한 학습용 문서의 분류에 따라 주어진 문서를 분류하였다.
한편, 특허문서와 같은 문서들은 일반문서와는 달리 내용이 고도로 구조화 되어 있기 때문에, 그 정보를 활용하면 자동 분류에 도움이 되지만 기존 방법들은 이를 잘 이용하지 않고 있는 실정이다.
예를 들어, 일본어 특허문서는 <종래의 기술>, <발명이 해결하려고 하는 과제>, <과제를 해결하기 위한 수단>, <실시예>, <발명의 효과>, <청구항> 등으로 자세히 구조화되어 있기 때문에 이러한 정보를 이용하면 자동 분류에 큰 도움이 된다. 예를 들어, <종래의 기술>은 기술적 배경과 기술분야에 관련된 정보를 포함하고 있기 때문에 다른 부분보다 분류에 도움이 될 수 있다. <발명이 해결하려고 하는 과제>과 <과제를 해결하기 위한 수단>은 특허문서를 대표하여 요약서에 주로 사용되기 때문에 <청구항>와 더불어 중요한 정보를 담고 있다고 볼 수 있다.
이전까지 이러한 특허의 구조적 특성을 적절히 잘 이용한 방법은 없었다.
따라서 일본어 특허문서 등과 같이 고도로 구조화된 문서의 구조적 특성을 적절히 활용하여 문서를 효율적으로 분류하는 방법이 요구된다.
본 발명은 종래 기술의 제반 문제점을 해결하기 위한 것으로서, 구조화된 문서에 분류코드를 자동으로 부여하는 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수 있는 기록매체를 제공하는 것을 목적으로 한다.
본 발명의 다른 목적은 사용자가 문서에서 직접 키워드를 추출하지 않아도 문서 자체의 내용을 자동으로 분석하여 분류하는 문서 분류방법 및 그 문서 분류방 법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수 있는 기록매체를 제공하는 것을 목적으로 한다.
이와 같은 기술적 과제를 달성하기 위한 본 발명에 따른 문서 분류방법은 문서에 분류코드를 부여하여 분류하는 문서 분류방법에 있어서, 분류코드들이 부여된 학습용 문서들의 구조 정보를 이용하여 상기 학습용 문서들의 내용을 재구성하고 색인목록을 생성하는 문서 색인 단계와, 상기 색인목록을 이용하여 상기 학습용 문서들 중 입력문서와 유사한 유사문서들을 검색하는 문서 검색 단계 및 상기 유사문서들의 분류코드를 이용하여 상기 입력문서의 분류코드 목록을 생성하는 분류코드 생성 단계를 포함한다.
상기 문서 색인 단계는 상기 학습용 문서들 각각을 상기 학습용 문서들의 구조 정보를 반영하는 n(n은 양의 정수)개의 의미태그별로 재구성하는 학습용 문서 재구성 단계와, 상기 n개의 의미태그에 포함된 문서내용마다 키워드를 추출하는 학습용 문서 키워드 추출 단계 및 상기 키워드에 따라 상기 n개의 의미태그에 대응하는 n개의 색인목록을 생성하는 색인목록 생성 단계를 포함한다.
상기 n은 4 이상 8 이하인 것을 특징으로 한다.
상기 문서 검색 단계는 상기 입력문서의 내용을 상기 n개의 의미태그에 따라 재구성하는 입력문서 재구성 단계와, 상기 n개의 의미태그에 포함된 문서내용마다 키워드를 추출하는 입력문서 키워드 추출 단계와, 상기 키워드에 따라 상기 n개의 의미태그에 대응하는 n개의 검색 질의를 생성하는 검색 질의 생성 단계 및 상기 n 개의 색인 목록과 상기 n개의 검색 질의를 비교하여 상기 입력문서와 유사한 유사문서의 목록을 생성하는 유사문서목록 생성 단계를 포함한다.
상기 검색 질의 생성 단계에서, 동의어 사전을 이용하여 상기 n개의 검색 질의에 포함된 어휘의 범위를 확장한다.
상기 유사문서목록 생성 단계에서, 상기 n개의 색인 목록과 상기 n개의 검색 질의를 동일한 의미태그별로 비교하여 상기 입력문서와 유사한 유사문서의 목록을 생성하는 것을 특징으로 한다.
상기 유사문서목록 생성 단계에서, 상기 n개의 색인 목록과 상기 n개의 검색 질의를 n개의 의미태그별로 교차 비교하여 상기 입력문서와 유사한 유사문서의 목록을 생성하는 것을 특징으로 한다.
상기 유사문서목록 생성 단계에서, 상기 n개의 검색 질의에 포함된 어휘의 사용빈도에 비례하는 가중치를 부여하여 상기 유사문서목록에 포함된 유사문서의 유사도 점수와 검색순위를 결정하는 것을 특징으로 한다.
상기 분류코드 생성 단계에서, 상기 유사문서목록 생성 단계에서 결정된 유사문서의 유사도 점수와 검색순위에 따라 상기 입력 문서의 분류코드별 점수를 계산하여 상기 입력문서의 분류코드 목록을 생성하는 것을 특징으로 한다.
본 발명에 따른 컴퓨터로 읽을 수 있는 기록매체는 문서에 분류코드를 부여하여 문서 분류방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 있어서, 분류코드들이 부여된 학습용 문서들의 구조 정보를 이용하여 상기 학습용 문서들의 내용을 재구성하고 색인목록을 생성하는 문서 색인 단계, 상 기 색인목록을 이용하여 상기 학습용 문서들 중 입력문서와 유사한 유사문서들을 검색하는 문서 검색 단계, 및 상기 유사문서들의 분류코드를 이용하여 상기 입력문서의 분류코드 목록을 생성하는 분류코드 생성 단계를 포함하는 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램으로 기록한 컴퓨터로 읽을 수 있는 기록매체이다.
이하에서는 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예들을 상세히 설명한다.
본 발명은 구조화된 문서의 분류에 적합한 것으로, 이하에서는 특히 고도로 구조화된 일본어 특허문서를 예로 들어 설명한다.
먼저 일본어 특허문서의 구조를 살펴본다.
도 1은 일본어 특허문서의 구조를 나타낸 도이다.
도 1에 도시된 바와 같이, 일본어 특허문서는 <서지정보>(100), <요약>(101), <청구항>(102), <상세한 설명>(103), <도면의 설명>(104), <도면>(105)으로 된 6개의 큰 영역으로 이루어져 있다. <요약>과 <상세한 설명>은 [목적](110), [발명이 해결하려는 문제](111), [작용](112), [발명의 효과](113) 등의 세분화된 요소로 구성되어 있다. 여기서 큰 영역의 제목은 고정된 제목인 반면, 세분화된 요소의 제목은 거의 고정되어 있긴 하지만 사용자가 정의하고 쓰기도 하기 때문에 다양한 태그가 나타나기도 한다. 실제로 1993년 일본어 특허 문서 347,227건에서 <요약>과 <상세한 설명>에서 세분화된 요소의 태그를 추출한 결과, 3,516개의 태그가 추출되었다. 본 발명에서는 이러한 태그를 사용자 정의 태그로 정의한다. 이러한 사용자 정의 태그를 이용하기 위해서는 후술하는 바와 같이 사용자 정의 태그를 군집화하여 몇 개로 줄일 필요가 있다.
도 2는 본 발명의 일 실시 예에 따른 문서 분류방법을 나타낸 도이다.
도 2에 도시된 바와 같이, 문서에 분류코드를 부여하여 분류하는 문서 분류방법에 있어서, 본 발명의 일 실시 예에 따른 문서 분류방법은 분류코드들이 부여된 학습용 문서들의 구조 정보를 이용하여 상기 학습용 문서들의 내용을 재구성하고 색인목록을 생성하는 문서 색인 단계(21)와, 상기 색인목록을 이용하여 상기 학습용 문서들 중 입력문서와 유사한 유사문서들을 검색하는 문서 검색 단계(22) 및 상기 유사문서들의 분류코드를 이용하여 상기 입력문서의 분류코드 목록을 생성하는 분류코드 생성 단계(23)를 포함한다.
이하에서는 각 단계별로 본 발명의 일 실시 예에 따른 문서 분류방법을 상세히 설명한다.
< 문서 색인 단계(21) >
문서 색인 단계(21)에서는 분류할 입력문서에 대한 유사문서를 검색하기 위하여 학습용 문서들(301)을 색인한다.
이러한 문서 색인 단계(21)는 도 3에 도시된 바와 같이, 학습용 문서들(301) 각각을 학습용 문서들(301)의 구조 정보를 반영하는 n(n은 양의 정수)개의 의미태그별로 재구성하는 학습용 문서 재구성 단계(302)와, 상기 n개의 의미태그에 포함된 문서내용마다 키워드를 추출하는 학습용 문서 키워드 추출 단계(304) 및 상기 키워드에 따라 상기 n개의 의미태그에 대응하는 n개의 색인목록(306)을 생성하는 색인목록 생성 단계(305)를 포함하도록 하는 것이 바람직하다.(이하에서는 설명의 편의상 n=6으로 하여 설명한다. 그러나 본 발명의 범위는 n=6에 한정되지 않는다.)
이러한 문서 색인 단계(21)를 보다 상세히 설명하면 다음과 같다.
먼저 학습용 문서 재구성 단계(302)에서는, 학습용 문서들(301)을 도 4와 같이 미리 정의한 <기술분야>, <목적>, <해결방법>, <청구>, <설명>, <예>의 6개의 의미태그별로 재구성하여 각 의미태그 영역(303) 별로 나눈다.
다음으로 학습용 문서 키워드 추출 단계(304)에서는, 나눠진 각 의미태그 영역(303)에서 키워드를 추출한다.
다음으로 색인목록 생성 단계(305)에서는, 검색을 위한 색인목록(306)을 각각의 의미태그별로 생성한다.
본 발명에서는 학습용 문서에 나타나는 사용자 정의 태그를 이용하여 학습용 문서를 재구성한다. 상기에서 설명한 바와 같이 다양한 사용자 정의 태그가 존재하기 때문에 사용자 정의 태그에 나타나는 중심어에 의해서 사용자 정의 태그들을 군집화한 후 이용한다. 먼저 사용자 정의 태그의 마지막 명사는 중심어라는 규칙을 이용하여 사용자 정의 태그에서 중심어를 추출하여 그 빈도 수로 정렬한다. 예를 들어, 3,516개 사용자 정의 태그에서 추출된 1,475개의 중심어 중에서 100개의 고빈도 중심어를 수작업으로 군집화한다. 이들 중심어를 예를 들어, <기술분야>, <목적>, <해결방법>, <청구>, <설명>, <예> 6개의 의미 태그로 분류한다.
100개의 중심어에 의해 1,940개의 사용자 정의 태그가 분류된다. 이는 누적 빈도로 보았을 때, 사용자 정의 태그 전체 빈도의 99.86%에 해당하는 수이기 때문에 중심어로 분류된 1,940개 외의 사용자 정의 태그는 무시한다.
표 1은 6개의 의미 태그로 분류된 사용자 정의 태그의 예를 보여 준다.
Figure 112006014845068-pat00001
이때, "課題を解決するための手段及び作用 (과제를 해결하려는 수단 및 작용)"와 같이 등위 접속사로 연결된 사용자 정의 태그는 "해결방법"과 "설명"으로 다중 분류가 가능하게 한다. 이렇게 구해진 6개 의미태그 별로 내용을 모아 앞서 설명한 대로 도 4와 같이 학습용 문서를 재구성한다. 어떤 부분은 지워지기도 하고, 어떤 부분은 다중 분류로 인하여 중복되어 여러 군데에 들어가기도 한다.
< 문서 검색 단계(22) >
문서 검색 단계(22)에서는 제 1단계(21)에서 생성된 색인목록(306)을 이용하여 분류할 입력문서에 대한 유사문서를 검색한다.
이러한 문서 검색 단계(22)는 도 5에 도시된 바와 같이, 입력문서(501)의 내용을 상기 6개의 의미태그에 따라 재구성하는 입력문서 재구성 단계(502)와, 상기 6개의 의미태그에 포함된 문서내용마다 키워드를 추출하는 입력문서 키워드 추출 단계(504)와, 상기 키워드에 따라 상기 6개의 의미태그에 대응하는 6개의 검색 질의(506)를 생성하는 검색 질의 생성 단계(505) 및 6개의 색인 목록(306)과 6개의 검색 질의(506)를 비교하여 입력문서(501)와 유사한 유사문서의 목록(509)을 생성하는 유사문서목록 생성 단계(508)를 포함하도록 하는 것이 바람직하다.
이러한 문서 검색 단계(22)를 보다 상세히 설명하면 다음과 같다.
먼저 입력문서 재구성 단계(502)에서는, 학습용 문서 재구성 단계(302)에서와 같은 방법으로 입력문서(501)를 도 4와 같이 미리 정의한 <기술분야>, <목적>, <해결방법>, <청구>, <설명>, <예>의 6개의 의미태그별로 재구성하여 각 의미태그 영역(503) 별로 나눈다.
다음으로 입력문서 키워드 추출 단계(504)에서는, 나눠진 각 의미태그 영역(503)에서 키워드를 추출한다.
다음으로 검색 질의 생성 단계(505)에서는, 상기 키워드에 따라 상기 6개의 의미태그에 대응하는 6개의 검색 질의(506)를 생성한다.
이때, 검색의 적용범위를 넓히기 위하여 추출된 키워드는 동의어 사전을 이용하여 6개의 검색 질의에 포함된 어휘의 범위를 확장하여 최종적으로 6개의 검색질의(506)를 생성한다.
다음으로 유사문서목록 생성 단계(508)에서는, 6개의 색인 목록(306)과 6개의 검색 질의9506)를 비교하여 입력문서(501)와 유사한 유사문서의 목록(509)을 생성한다.
이러한 유사문서목록 생성 단계(508)에서, 6개의 색인 목록(306)과 상기 6개의 검색 질의(506)를 동일한 의미태그별로 비교하여 입력문서(501)와 유사한 유사문서의 목록(509)을 생성할 수 있다.
즉 도 6에 도시된 바와 같이, 6개의 검색질의(506)와 6개의 색인목록(306)을 동일한 의미태그별로 비교하여 검색한 6개의 결과에 가중치를 주어 합쳐서 유사문서 목록(509a)을 생성한다.
이와 같이 유사문서를 검색할 때, 문서 전체가 아닌 같은 의미태그 별 내용을 비교하는 점에 본 발명의 일 특징이 있다. 이는 기술분야가 같고, 해결하려는 문제와 해결 방법이 같으면 유사한 문서로 본다는 가정에서 나온 것이다.
그러나 이렇게 같은 의미태그끼리의 1 대 1 매핑만 하게 되면 다음과 같은 이유로 성능이 더 떨어질 수도 있다.
첫째, 특허의 청구범위를 넓히기 위하여 청구항에 사용되는 단어들은 모호하고 일반적인 용어가 주로 사용된다. 그래서 청구 영역끼리 비교하면 재현율이 떨어질 수 있다.
둘째, 사용자가 정의한 사용자 정의 태그를 100% 신뢰할 수 없다. 사용자는 “[해결하고자 하는 문제]”라고 쓰고서는 해결하는 방법에 대해서도 같이 기술할 수도 있다.
셋째, 본 방법의 의미태그 분류를 100% 신뢰할 수 없다. 중심어를 기준으로 사용자 정의 태그를 군집화하였다고 하지만 오류는 존재하기 마련이다. “과제의 설명”은 “목표”로 분류되어야 하지만 본 방법에 의하면 “설명”으로 분류된다.
따라서 유사문서목록 생성 단계에서, 상기 6개의 색인 목록과 상기 6개의 검색 질의를 6개의 의미태그별로 교차 비교하여 상기 입력문서와 유사한 유사문서의 목록을 생성하는 것이 보다 바람직하다.
즉 도 7에 도시된 바와 같이, 서로 다른 의미 영역끼리의 비교도 허용하는 교차 비교로 나온 36개의 결과를 합하여 유사문서목록(509b)을 생성하는 것이다.
한편, 상기 6개의 검색 질의에 포함된 어휘의 사용빈도에 비례하는 가중치를 부여하여 상기 유사문서목록에 포함된 유사문서의 유사도 점수와 검색순위를 결정하도록 하는 것이 바람직하다.
한편, 검색의 정확도를 높이기 위해서 불필요한 단어는 검색 질의에서 제거할 수도 있다. こと(것), 發明 (발명), 目的 (목적), 問題 (문제), 課題 (과제), 請求 (청구), 記載 (기재) 등이 그 예이다.
< 분류코드 생성 단계(23) >
분류코드 생성 단계(23)에서는 도 8에 도시된 바와 같이, 문서 검색 단계(22)에서 생성된 유사문서 목록(509)을 이용하여 입력문서의 분류코드 목록(802)를 제시한다.
이를 보다 상세히 설명하면, 유사문서목록 생성 단계(508)에서 결정된 유사문서의 유사도 점수와 검색순위에 따라 입력문서(501)의 분류코드별 점수를 계산하여 입력문서(501)의 분류코드 목록(802)을 생성한다.
입력문서의 분류코드별 점수를 계산할 때, 수학식 1과 같이 유사문서의 유사도 점수와 순위를 고려한다.
Figure 112006014845068-pat00002
Figure 112006014845068-pat00003
Score doc (d)는 유사문서로 검색된 문서 d의 유사도 점수이다. rank (d)는 문서 d가 유사문서로 검색된 순위이다. 문서 가중치 weight doc (d)는 문서가 k등 이내일 때는 1을, k등보다 크고 N(=200)등 이내일 때는
Figure 112006014845068-pat00004
값을 받게 된다. 문서 유사도 점수와 가중치가 곱해진 값이 해당 문서의 분류코드 (c) 별로 합산이 되어 분류코드 점수 Score category (c)가 계산되고, 이 값을 순위화하여 최종적으로 입력문서(501)의 분류코드 목록을 제시하는 것이다.
이상에서 상세히 설명한 바와 같이 본 발명에 따르면, 문서 자체를 입력으로 하여 분류를 수행하므로, 검색 키워드 선택과 같은 수고 없이 한 번의 실행으로 원하는 정보를 쉽고 빠르게 찾을 수 있다.
또한, 문서를 대표하는 몇 개의 키워드가 아닌 문서의 내용에 기반을 두어 분류를 수행하므로 보다 정확한 분류 결과를 얻을 수 있다.
본 발명에 의한 문서분류 방법은 컴퓨터로 읽을 수 있는 기록매체에 저장될 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시 예들을 설명하였지만, 상술한 본 발명의 기술적 구성은 본 발명이 속하는 기술 분야의 당업자가 본 발명의 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.
그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해되어야 하고, 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
본 발명에 따르면, 문서 자체를 입력하여 분류하므로, 검색 키워드 선택과 같은 수고 없이 한 번의 실행으로 원하는 정보를 쉽고 빠르게 찾을 수 있다.
또한, 문서를 대표하는 몇 개의 키워드가 아닌 문서의 내용에 기반을 두어 분류를 수행하므로 보다 정확한 분류 결과를 얻을 수 있다.

Claims (10)

  1. 문서에 분류코드를 부여하여 분류하는 문서 분류방법에 있어서,
    분류코드들이 부여된 학습용 문서들의 구조 정보를 이용하여 상기 학습용 문서들의 내용을 재구성하고 색인목록을 생성하는 문서 색인 단계;
    상기 색인목록을 이용하여 상기 학습용 문서들 중 입력문서와 유사한 유사문서들을 검색하는 문서 검색 단계; 및
    상기 유사문서들의 분류코드를 이용하여 상기 입력문서의 분류코드 목록을 생성하는 분류코드 생성 단계;를 포함하고,
    상기 문서 색인 단계는
    상기 학습용 문서들 각각을 상기 학습용 문서들의 구조 정보를 반영하는 n(n은 양의 정수)개의 의미태그별로 재구성하는 학습용 문서 재구성 단계;
    상기 n개의 의미태그에 포함된 문서내용마다 키워드를 추출하는 학습용 문서 키워드 추출 단계; 및
    상기 키워드에 따라 상기 n개의 의미태그에 대응하는 n개의 색인목록을 생성하는 색인목록 생성 단계;
    를 포함하는 문서 분류방법.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 n은 4 이상 8 이하인 것을 특징으로 하는 문서 분류방법.
  4. 제 1 항에 있어서,
    상기 문서 검색 단계는
    상기 입력문서의 내용을 상기 n개의 의미태그에 따라 재구성하는 입력문서 재구성 단계;
    상기 n개의 의미태그에 포함된 문서내용마다 키워드를 추출하는 입력문서 키워드 추출 단계;
    상기 키워드에 따라 상기 n개의 의미태그에 대응하는 n개의 검색 질의를 생성하는 검색 질의 생성 단계; 및
    상기 n개의 색인 목록과 상기 n개의 검색 질의를 비교하여 상기 입력문서와 유사한 유사문서의 목록을 생성하는 유사문서목록 생성 단계
    를 포함하는 문서 분류방법.
  5. 제 4 항에 있어서,
    상기 검색 질의 생성 단계에서,
    동의어 사전을 이용하여 상기 n개의 검색 질의에 포함된 어휘의 범위를 확장하는 것을 특징으로 하는 문서 분류방법.
  6. 제 4 항에 있어서,
    상기 유사문서목록 생성 단계에서,
    상기 n개의 색인 목록과 상기 n개의 검색 질의를 동일한 의미태그별로 비교하여 상기 입력문서와 유사한 유사문서의 목록을 생성하는 것을 특징으로 하는 문서 분류방법.
  7. 제 4 항에 있어서,
    상기 유사문서목록 생성 단계에서,
    상기 n개의 색인 목록과 상기 n개의 검색 질의를 n개의 의미태그별로 교차 비교하여 상기 입력문서와 유사한 유사문서의 목록을 생성하는 것을 특징으로 하는 문서 분류방법.
  8. 제 6 항 또는 제 7 항에 있어서,
    상기 유사문서목록 생성 단계에서,
    상기 n개의 검색 질의에 포함된 어휘의 사용빈도에 비례하는 가중치를 부여하여 상기 유사문서목록에 포함된 유사문서의 유사도 점수와 검색순위를 결정하는 것을 특징으로 하는 문서 분류방법.
  9. 제 8 항에 있어서,
    상기 분류코드 생성 단계에서,
    상기 유사문서목록 생성 단계에서 결정된 유사문서의 유사도 점수와 검색순위에 따라 상기 입력 문서의 분류코드별 점수를 계산하여 상기 입력문서의 분류코드 목록을 생성하는 것을 특징으로 하는 문서 분류방법.
  10. 문서에 분류코드를 부여하여 분류하는 문서 분류방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 있어서,
    상기 문서 분류방법은
    분류코드들이 부여된 학습용 문서들의 구조 정보를 이용하여 상기 학습용 문서들의 내용을 재구성하고 색인목록을 생성하는 문서 색인 단계;
    상기 색인목록을 이용하여 상기 학습용 문서들 중 입력문서와 유사한 유사문서들을 검색하는 문서 검색 단계; 및
    상기 유사문서들의 분류코드를 이용하여 상기 입력문서의 분류코드 목록을 생성하는 분류코드 생성 단계를 포함하고,
    상기 문서 색인 단계는
    상기 학습용 문서들 각각을 상기 학습용 문서들의 구조 정보를 반영하는 n(n은 양의 정수)개의 의미태그별로 재구성하는 학습용 문서 재구성 단계;
    상기 n개의 의미태그에 포함된 문서내용마다 키워드를 추출하는 학습용 문서 키워드 추출 단계; 및
    상기 키워드에 따라 상기 n개의 의미태그에 대응하는 n개의 색인목록을 생성하는 색인목록 생성 단계;
    를 포함하는, 컴퓨터로 읽을 수 있는 기록매체.
KR1020060019513A 2006-02-28 2006-02-28 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. KR100756921B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020060019513A KR100756921B1 (ko) 2006-02-28 2006-02-28 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
US11/464,073 US20070203885A1 (en) 2006-02-28 2006-08-11 Document Classification Method, and Computer Readable Record Medium Having Program for Executing Document Classification Method By Computer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060019513A KR100756921B1 (ko) 2006-02-28 2006-02-28 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.

Publications (2)

Publication Number Publication Date
KR20070089449A KR20070089449A (ko) 2007-08-31
KR100756921B1 true KR100756921B1 (ko) 2007-09-07

Family

ID=38445245

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060019513A KR100756921B1 (ko) 2006-02-28 2006-02-28 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.

Country Status (2)

Country Link
US (1) US20070203885A1 (ko)
KR (1) KR100756921B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101064256B1 (ko) 2009-12-03 2011-09-14 한국과학기술정보연구원 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법
KR101092059B1 (ko) 2009-11-26 2011-12-12 주식회사 알에스엔 노출도 분석을 이용한 유사문서 분류 장치

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8966389B2 (en) * 2006-09-22 2015-02-24 Limelight Networks, Inc. Visual interface for identifying positions of interest within a sequentially ordered information encoding
US9015172B2 (en) 2006-09-22 2015-04-21 Limelight Networks, Inc. Method and subsystem for searching media content within a content-search service system
US7917492B2 (en) * 2007-09-21 2011-03-29 Limelight Networks, Inc. Method and subsystem for information acquisition and aggregation to facilitate ontology and language-model generation within a content-search-service system
TWI356315B (en) * 2007-10-16 2012-01-11 Inst Information Industry Method and system for constructing data tag based
US8538184B2 (en) * 2007-11-06 2013-09-17 Gruntworx, Llc Systems and methods for handling and distinguishing binarized, background artifacts in the vicinity of document text and image features indicative of a document category
KR101045762B1 (ko) * 2008-11-03 2011-07-01 한국과학기술원 실시간 시맨틱 어노테이션 장치 및 이를 활용하여 사용자가입력한 자연어 스트링을 실시간으로 의미 가독형 지식 구조 문서로 생성하는 방법
KR101136037B1 (ko) * 2009-11-06 2012-04-18 동국대학교 산학협력단 문서의 색인화 및 검색을 위한 방법 및 장치
US9684683B2 (en) * 2010-02-09 2017-06-20 Siemens Aktiengesellschaft Semantic search tool for document tagging, indexing and search
US8380719B2 (en) * 2010-06-18 2013-02-19 Microsoft Corporation Semantic content searching
WO2012040356A1 (en) * 2010-09-24 2012-03-29 International Business Machines Corporation Providing question and answers with deferred type evaluation using text with limited structure
US10198506B2 (en) * 2011-07-11 2019-02-05 Lexxe Pty Ltd. System and method of sentiment data generation
CN102968414A (zh) * 2011-08-31 2013-03-13 上海夏尔软件有限公司 基于不同字段类型的高效单据录入方法
CN102591920B (zh) * 2011-12-19 2013-11-20 刘松涛 对文档管理***中的文档集合进行分类的方法以及***
CN103049263B (zh) * 2012-12-12 2015-06-10 华中科技大学 一种基于相似性的文件分类方法
EP2992457A4 (en) * 2013-05-01 2016-11-09 Hewlett Packard Development Co CONTENT CLASSIFICATION
JP5603468B1 (ja) * 2013-07-31 2014-10-08 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
KR102094934B1 (ko) 2014-11-19 2020-03-31 한국전자통신연구원 자연어 질의 응답 시스템 및 방법
WO2016093836A1 (en) 2014-12-11 2016-06-16 Hewlett Packard Enterprise Development Lp Interactive detection of system anomalies
US10803074B2 (en) 2015-08-10 2020-10-13 Hewlett Packard Entperprise Development LP Evaluating system behaviour
CN107797982B (zh) * 2016-08-31 2021-05-07 百度在线网络技术(北京)有限公司 用于识别文本类型的方法、装置和设备
US10419269B2 (en) 2017-02-21 2019-09-17 Entit Software Llc Anomaly detection
KR102110523B1 (ko) * 2018-09-28 2020-05-13 배재대학교 산학협력단 문서 분석 기반 주요 요소 추출 시스템 및 방법
JP7293780B2 (ja) * 2019-03-25 2023-06-20 富士フイルムビジネスイノベーション株式会社 情報処理装置、文書管理システム及びプログラム
US11803583B2 (en) * 2019-11-07 2023-10-31 Ohio State Innovation Foundation Concept discovery from text via knowledge transfer

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06195343A (ja) * 1992-12-25 1994-07-15 Mitsubishi Electric Corp 文書格納表示方式
JPH08305726A (ja) * 1995-04-28 1996-11-22 Fuji Xerox Co Ltd 情報検索装置
JPH10116290A (ja) 1996-10-11 1998-05-06 Mitsubishi Electric Corp 文書分類管理方法及び文書検索方法
KR20020064821A (ko) * 2001-02-03 2002-08-10 (주)엔퀘스트테크놀러지 문서 장르 학습 시스템 및 그 방법과 그를 이용한 문서장르 분류시스템 및 그 방법
JP2003157264A (ja) 2001-11-21 2003-05-30 Nec Corp 文章管理システム、その管理方法及びそのプログラム
KR20030094966A (ko) * 2002-06-11 2003-12-18 주식회사 코스모정보통신 통제학습 기반의 문서 자동분류시스템 및 그 방법
KR20050000468A (ko) * 2003-06-24 2005-01-05 울림정보기술(주) 사용자 분류정의에 의한 학습 기반의 문헌 정보 분류방법및 그 기록매체
KR20060016933A (ko) * 2004-08-19 2006-02-23 함정우 문서분류장치 및 문서분류방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3669016B2 (ja) * 1994-09-30 2005-07-06 株式会社日立製作所 文書情報分類装置
US6154213A (en) * 1997-05-30 2000-11-28 Rennison; Earl F. Immersive movement-based interaction with large complex information structures
US6397213B1 (en) * 1999-05-12 2002-05-28 Ricoh Company Ltd. Search and retrieval using document decomposition

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06195343A (ja) * 1992-12-25 1994-07-15 Mitsubishi Electric Corp 文書格納表示方式
JPH08305726A (ja) * 1995-04-28 1996-11-22 Fuji Xerox Co Ltd 情報検索装置
JPH10116290A (ja) 1996-10-11 1998-05-06 Mitsubishi Electric Corp 文書分類管理方法及び文書検索方法
KR20020064821A (ko) * 2001-02-03 2002-08-10 (주)엔퀘스트테크놀러지 문서 장르 학습 시스템 및 그 방법과 그를 이용한 문서장르 분류시스템 및 그 방법
JP2003157264A (ja) 2001-11-21 2003-05-30 Nec Corp 文章管理システム、その管理方法及びそのプログラム
KR20030094966A (ko) * 2002-06-11 2003-12-18 주식회사 코스모정보통신 통제학습 기반의 문서 자동분류시스템 및 그 방법
KR20050000468A (ko) * 2003-06-24 2005-01-05 울림정보기술(주) 사용자 분류정의에 의한 학습 기반의 문헌 정보 분류방법및 그 기록매체
KR20060016933A (ko) * 2004-08-19 2006-02-23 함정우 문서분류장치 및 문서분류방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101092059B1 (ko) 2009-11-26 2011-12-12 주식회사 알에스엔 노출도 분석을 이용한 유사문서 분류 장치
KR101064256B1 (ko) 2009-12-03 2011-09-14 한국과학기술정보연구원 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법

Also Published As

Publication number Publication date
KR20070089449A (ko) 2007-08-31
US20070203885A1 (en) 2007-08-30

Similar Documents

Publication Publication Date Title
KR100756921B1 (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
US8341159B2 (en) Creating taxonomies and training data for document categorization
JP5531395B2 (ja) 単語親和度による単語クラスタの識別
US9317593B2 (en) Modeling topics using statistical distributions
US9081852B2 (en) Recommending terms to specify ontology space
US8332439B2 (en) Automatically generating a hierarchy of terms
US8108405B2 (en) Refining a search space in response to user input
US8543380B2 (en) Determining a document specificity
KR100666064B1 (ko) 인터랙티브 검색 쿼리 개선 시스템 및 방법
EP2045731A1 (en) Automatic generation of ontologies using word affinities
CN107992633A (zh) 基于关键词特征的电子文档自动分类方法及***
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
JPWO2011070832A1 (ja) 検索キーワードから文書データを検索する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム
US20090094209A1 (en) Determining The Depths Of Words And Documents
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
JP2009294939A (ja) 文書分類装置
Ghanem et al. Stemming effectiveness in clustering of Arabic documents
JP4426041B2 (ja) カテゴリ因子による情報検索方法
Chung et al. Developing a specialized directory system by automatically classifying Web documents
JP2009217406A (ja) 文書検索装置及び方法、並びに、プログラム
BAZRFKAN et al. Using machine learning methods to summarize persian texts
Aksan et al. The Turkish National Corpus (TNC): comparing the architectures of v1 and v2
EP2090992A2 (en) Determining words related to a given set of words

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20110901

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee