KR20120038575A

KR20120038575A - 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법

Info

Publication number: KR20120038575A
Application number: KR1020100100089A
Authority: KR
Inventors: 박래정
Original assignee: 재단법인 한국특허정보원
Priority date: 2010-10-14
Filing date: 2010-10-14
Publication date: 2012-04-24
Also published as: KR101179613B1

Abstract

본 발명은 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법에 관한 것으로, 특히 국제 특허 분류에 따라 각 클래스가 이미 결정된 N개의 모집단 특허 문서로부터 적어도 하나의 식별항목에 포함된 내용을 추출하여 각 특허 문서별 트랜잭션을 구성하는 단계; 상기 각 트랜잭션에 포함된 내용으로부터 형태소 분석기를 통해 키워드를 추출하는 단계; 상기 추출된 키워드로부터 상기 각 해당 클래스에 대한 빈발항목 및 연관규칙을 생성하는 단계; 및 분류 대상 특허 문서를 상기 생성된 각 클래스별 빈발항목 및 연관규칙에 적용하여 클래스를 분류하는 단계;를 포함하는 것을 특징으로 한다.

Description

빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법{Method of automatic patent document categorization adjusting association rules and frequent itemset}

본 발명은 특허 문서 분류 방법에 관한 것으로, 보다 상세하게는 빈발항목과 연관규칙을 이용하여 특허 문서를 국제 특허 분류 기준에 따라 자동으로 분류할 수 있는 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법에 관한 것이다.

한미 FTA(Free Trade Agreement) 체결로 특허, 상표, 저작권 등으로 구성되는 지적재산권에 대한 권리의 기한 연장에 따라 특허 보호가 강화됨으로써 국가산업 경쟁력과 직결되는 특허정보에 대한 관심이 어느 때보다 요구되고 있다.

특허정보란 산업재산권과 관련된 정보로서 특허 출원된 기술 내용 및 권리로 주장된 사항, 출원인 및 발명자 등의 인적사항, 기타 서지사항 등에 대한 정보를 의미한다. 산업이 고도화, 복잡화, 다양화됨에 따라 엄청난 특허기술 정보량이 쏟아지고 있는데 기업이 변화하고 있는 산업 사회에서 생존하기 위해서 이러한 정보를 적절하게 기업경영전략에 반영하지 않으면 안 된다.

현재 우리나라를 포함한 미국, 일본, 유럽과 같은 주요국의 특허청은 이러한 특허정보를 인터넷상에서 검색할 수 있는 검색 사이트를 운영하고 있으며, 이외에도 상업적 목적으로 개발된 다수의 유료 검색 사이트들이 운영되고 있다. 그 중에서도 IPC(International Patent Classification)분류체계에 의한 특허분류시스템은 미국, 유럽, 국제(WIPO-PCT), 일본 등 국제 협약에 의해 운영하고 있는 분류체계 방식이다.

하지만, 현재까지 대한민국에서는 IPC 분류시 기계에 의한 시스템보다는 사람에 의한 1:1 분류를 하고 있어 적지 않은 시간이 걸리고 있는 실정이다. 또한, 분류 건수가 상당하고, 정확한 분류를 위해서는 청구항을 비롯한 전체적인 상세설명에 대한 이해가 필요하기 때문에 분류자에게도 적지않은 스트레스를 주고 있다.

이에 따라, 특허 문서를 자동으로 정확히 분류할 수 있는 방법이 요구되고 있는 실정이다.

본 발명의 목적은 출원된 특허를 국제 특허 분류에 따라 자동으로 분류할 수 있는 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법을 제공함에 있다.

또한, 본 발명의 목적은 출원된 특허를 분류함에 있어 'Apriori' 알고리즘을 이용하여 효과적으로 분류할 수 있는 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법을 제공함에 있다.

상기한 목적을 달성하기 위하여, 본 발명에 따른 방법은 국제 특허 분류에 따라 각 클래스가 이미 결정된 N개의 모집단 특허 문서로부터 적어도 하나의 식별항목에 포함된 내용을 추출하여 각 특허 문서별 트랜잭션을 구성하는 단계; 상기 각 트랜잭션에 포함된 내용으로부터 형태소 분석기를 통해 키워드를 추출하는 단계; 상기 추출된 키워드로부터 상기 각 해당 클래스에 대한 빈발항목 및 연관규칙을 생성하는 단계; 및 분류 대상 특허 문서를 상기 생성된 각 클래스별 빈발항목 및 연관규칙에 적용하여 클래스를 분류하는 단계;를 포함하는 것을 특징으로 한다.

또한, 상기 키워드를 추출하는 단계는 상기 각 트랜잭션에 포함된 내용에서 불용어를 제거하는 단계;를 더 포함하는 것을 특징으로 한다.

이때, 상기 추출할 식별항목은 출원번호, IPC 분류, 발명의 명칭, 대표 청구항, 핵심키워드 및 기술분야의 식별항목 중에서 선택된 어느 하나 이상인 것을 특징으로 한다.

한편, 상기 키워드를 추출하는 단계는 각 특허 문서별로 상기 추출된 키워드 중에서, 중복된 키워드를 제거하는 단계;를 더 포함하는 것을 특징으로 한다.

또한, 상기 키워드를 추출하는 단계는 각 특허 문서별로 상기 추출된 키워드 중에서, 유사한 키워드는 대표어로 치환하는 단계;를 더 포함하는 것을 특징으로 한다.

이때, 상기 빈발항목은 'Apriori' 알고리즘에 의해 최소의 지지도 이상의 발생지지도를 가지는 조합으로 구성하는 것을 특징으로 한다.

또한, 상기 빈발항목 및 연관규칙을 생성하는 단계 이후에 상기 각 클래스간 중복 키워드에 대해 상기 키워드의 출현 개수를 고려하여 가중치를 부여하는 것을 특징으로 한다.

본 발명에 따르면, 출원된 특허 문서의 IPC 분류시 종래에 수작업으로 하던 것을 자동으로 분류함으로써 인력의 소모를 줄일 수 있으며, 빠른 시간 내에 분류가 가능하다는 장점이 있다.

또한, 본 발명에 따르면 특허 문서 분류시 'Apriori' 알고리즘을 적용하고, 지지도와 신뢰도를 기반으로 가중치를 부여함으로써 특허 분류의 정확도를 높일 수 있게 되는 장점이 있다.

도 1은 본 발명의 실시예에 따른 특허 문서 분류의 개념을 나타내는 블록도.
도 2는 본 발명의 실시예에 따른 빈발항목과 연관규칙을 이용한 특허문서 자동분류 절차를 나타내는 흐름도.

본 발명에서는 이미 분류체계가 완성된 특허 문서의 A에서 H까지의 8개 클래스별 청구항 1항과 발명의 명칭을 문서별로 추출하여 불용어를 제거하고, 형태소 분석기를 이용하여 추출한 키워드 데이터 조합에서 발생한 빈발항목과 연관규칙의 집합을 이용하여 특허문서를 자동으로 분류, 추천해 주는 방법을 제안한다.

문서 분류란 여러 개의 분류 카테고리를 정해놓고 문서의 내용에 관련된 하나 또는 그 이상의 카테고리에 문서를 배정함으로써 유사한 문서들끼리 집단화하는 작업이다.

특허문서 분류는 상술한 바와 같이 대부분 사람에 의해 수작업으로 이루어져 왔으나, 출원되는 특허의 양이 점차 많아지고 그 분류범위 및 형태가 다양해지면서 문서 분류의 자동화에 대한 필요성이 널리 인식되면서 현재까지 여러 분야에서 다양한 연구가 이루어져 왔다.

단순히 문서에 나타나는 키워드의 빈출 정도를 이용하여 분류 카테고리를 지정하는 통계적인 분류방법과는 달리 본 발명에서는 연관규칙분석기법인 'Apriori' 알고리즘을 이용하여 특허문서 내용을 바탕으로 동일 국제특허분류 내의 문서들 간에 연관성 있는 키워드들의 집합을 추출하여 각 카테고리 별로 의미적으로 대표성을 가진 키워드들로 분류규칙을 생성한 후 이를 새로운 문서의 국제특허분류 예측에 사용한다. 또한, 본 발명에서는 효율적인 키워드 생성을 위한 데이터 전처리 방안을 제시하고, 지지도와 신뢰도를 기반으로 데이터마이닝 실험을 통하여 성능을 검증한다.

본 발명에서는 A-H까지의 8개 클래스의 발명의 명칭과 대표 청구항으로 접근된 문서들의 텍스트들을 데이터마이닝 기법을 이용하여 각 클래스와 연관된 빈발 항목과 연관규칙생성을 통하여 IPC 자동분류를 추천한다.

본 발명은 이미 IPC분류가 끝난 기등록된 특허정보를 대상으로 발명의 명칭, 대표청구항 데이터를 추출한다. 다음으로, 특허문서만이 가지고 있는 불용어에 대한 제거를 실시하고 그 이후 형태소분석기를 적용하여 추출한 중복성이 제거된 단어 조합에 연관규칙 탐사 기법인 데이터마이닝의 대표적인 알고리즘 'Apriori'을 이용하여 분석하고 IPC 자동분류 추천방법을 제안한다. 이와 관련된 본 발명의 상세한 구현 방법은 다음과 같은 순서로 설명한다.

먼저, 본 발명의 주제에 필요한 연관규칙 탐사기법, Apriori 알고리즘, 형태소분석, 최대빈발항목집합, 키워드 검색 기술 등에 대한 기본 개념과 기술을 설명한다. 다음으로, 연관규칙 탐사를 위한 데이터의 생성을 위하여 발명의 명칭과 대표청구항의 데이터 변환, 정제, 보완처리 과정과 형태소분석 적용 방법, 한 트랜잭션(문서)에서 단어 간의 중복성을 제거한 단어 추출방법, 각 트랜잭션별로 중복성이 제거된 단어 리스트에 연관성 분석 알고리즘인 'Apriori' 알고리즘을 적용하여 최소지지도별 빈발항목을 구하는 방법과 각 지지도별 빈발항목 집합에서 항목집합 간의 중복성을 제거한 최대빈발항목집합을 구하는 방법을 설명한다.

마지막으로 IPC 자동분류의 효율성을 검증하기 위하여 이미 분류가 완성된 문서와 비교를 통하여 빈발항목, 연관규칙에 의한 결과, 또한 CPU, Memory 등의 하드웨어 처리 효율성을 함께 파악하는 다양한 실험을 통하여 본 발명의 효율성을 검증한다.

특허정보(Patent information)란 특허 출원된 기술 내용 및 권리로 주장된 사항, 출원인 및 발명자 등의 인적사항, 기타 서지사항 등에 대한 정보를 의미한다. 본 발명에서는 편의상 특허정보라는 표현을 사용하지만, 특허와 동일하게 기술 내용을 권리의 대상으로 하는 실용신안에 관한 정보도 특허정보의 범주에 포함되며, 본 발명이 동일하게 적용될 수 있음은 자명하다. 보다 넓은 의미로는 특허, 실용신안, 디자인, 상표와 같이 산업재산권 4권에 관한 정보를 모두 포함하는 개념으로써 특허정보라는 용어를 사용할 수 있다. 한편, 이러한 특허정보는 연구 또는 기술 개발 시에 선행기술을 이해하고 분석하기 위한 권리 분석 기술 자료로써 이용된다.

본 발명이 적용되는 국제특허분류(IPC)는 미국(USPC), 일본(JPC), 유럽(ECLA)등 각국마다 다른 분류체계를 사용하여 왔으나, 국제적으로 통일된 특허분류체계가 필요함에 따라 1968년에 도입되었다.

상기 국제특허분류는 특허문헌을 체계적으로 정리해서 특허문헌에 포함되어 있는 기술 및 권리정보에 용이하게 접근할 수 있게 하기 위하여 도입되었으며, 특허정보의 모든 이용자에게 정보를 선택적으로 보급하기 위하여 도입되었다. 또한, 주어진 기술분야에서 공지기술을 조사하기 위한 용도로 사용할 수 있으며, 여러 영역에서의 기술발전을 평가하는 공업소유권 통계를 내기 위한 목적으로도 사용될 수 있다.

이러한, 국제특허분류(IPC)는 섹션, 클래스, 서브클래스 및 메인그룹 또는 서브그룹의 계층구조로 구성된다. 하기 <표 1>은 국제특허분류(IPC) F16K 1/00(or 1/02)의 구조를 예시로 나타낸 표이다.

분류기호	F	-	16	K	1/100	1/20
구분	섹션	서브섹션	클래스	서브클래스	메인그룹	서브그룹
분류	기계공학	공업일반	기계요소	밸브	리프트밸브	나사스핀들

한편, 상기 섹션 항목은 다음과 같이 구분된다.

- 섹션별 구분(섹션 타이틀)

A섹션 : 생활필수품

B섹션 : 처리조작, 운수

C섹션 : 화학, 야금

D섹션 : 섬유, 종이

E섹션 : 고정구조물

F섹션 : 기계공학, 조명, 가열, 무기, 폭파

G섹션 : 물리학

H섹션 : 전기

후술하는 본 발명에서는 상기 IPC 분류에서 섹션별 분류하는 것을 예시로 설명하며, 하위 분류인 서브섹션, 클래스, 서브클래스, 메인그룹, 서브그룹 등의 분류에도 동일하게 적용될 수 있다.

한편, 문서의 분류란 정해진 분류체계 하에서 분류하고자 하는 각 문헌들을 가장 적합한 카테고리에 배정함으로써 문헌을 집단화하는 작업이다. 과거에는 다루어야할 정보의 양이 적었기 때문에 문서의 분류가 수작업으로 가능하였지만, 웹(WWW)에서와 같이 매일 대량의 정보들이 만들어지고 있는 현대의 상황에서 모든 문서의 수작업에 의한 분류는 불가능하다고 할 수 있으며, 따라서 문서의 자동 분류에 대한 연구가 활발하게 진행되고 있다.

하지만, 특허문서는 일반 문서와 웹페이지와는 다르게 몇 가지 특징을 가지고 있기 때문에 기존의 방법으로는 분류가 어려우며 여러 가지 특징들이 고려되어야 한다. 특허문서의 특징을 요약하면 다음과 같다.

1. 발명의 명칭과 청구항 1항을 기존으로 IPC가 분류된다.

2. 초록, 청구항, 기술분야, 발명의 명칭이 의미적으로 연관성을 가진다.

3. 발명의 범위를 넓히기 위하여 청구항에는 다소 넓고 일반적인 용어를 많이 사용한다.

4. 많은 기술용어를 포함한다. 다른 특허에서는 사용하지 않는 용어를 사용하거나 정의하기도 한다.

5. 특허문서의 길이가 다양하다.

상기 특징 중에서 본 발명에서는 첫 번째와 두 번째 특징에 초점을 맞추어 특허문서를 대상으로 특허분류를 수행한다.

본 발명에서 대상으로 하고 있는 특허문서는 하기 <표 2>와 같이 서지정보, 요약, 대표도, 특허청구의 범위, 명세서, 도면 등의 6개의 큰 영역으로 이루어져 있다. 명세서는 다시 기술분야, 발명의 상세한 설명, 실시예, 도면의 간단한 설명 등으로 세부항목으로 이루어져 있다. 이중 기술분야는 기술적 배경과 기술에 대한 이해를 높여주는 정보를 포함하고 있어 다른 부분보다 분류에 도움을 줄 수 있다. 그러므로 이러한 세분화된 요소를 분류의 자질로 고려한다면, 특허분류에서 좋은 성능을 얻을 수 있다.

1. 서지사항	출원정보, 공개정보, 출원인, 발명인
2. 요약	특허 문서의 전체 요약 정보
3. 대표도	대표도면 정보
4. 특허청구의 범위	청구항 1항 내지 n항
5. 명세서	기술분야, 발명의 상세한 설명, 실시예, 도면의 간단한 설명
6. 도면	도면1, 도면 2, 도면 3, ...

특허 데이터 명세서의 속성은 이와 같이 출원번호, 공개번호, 공개일자, 등록번호, 등록일자 등의 서지정보와 발명의 명칭, 초록, 청구항, 상세 설명 등으로 이루어져 있으며 실제로 발명의 명칭과 청구항 1항은 IPC 분류의 기본정보가 된다.

특허 데이터는 상술한 바와 같이 일반적인 웹상의 데이터나 일상생활에서 사용하는 데이터와는 상이한 특징을 가지고 있다. 따라서, 본 발명의 실시 예에 따라 사용자가 직관적으로 알아보기 쉽고 분석을 용이하게 하기 위해 적절한 처리과정을 거친 정제된 데이터가 필요하다. 이를 위하여 본 발명에서는 등록특허 데이터의 발명의 명칭과 청구항 1항에 대하여 데이터 변환과 데이터 정제 및 보정단계를 수행한다.

즉, 등록특허파일을 추출하여 하나의 문서를 하나의 트랜잭션으로 만든다. 각 트랜잭션별로 참조한 실제문서에서 출원번호, IPC, 발명의 명칭, 청구항 1항을 추출하여 하나의 트랜잭션으로 구성한다. 그 후 각 문서의 불용어를 제거하고 형태소 분석기를 통하여 하나의 문서를 하나의 트랜잭션으로 구성한다. 이때 각 트랜잭션별로 문서에서 단어를 추출한 키워드가 중복되지 않게 구성한다.

이하 본 발명의 바람직한 실시 예에 따른 상세한 설명을 첨부된 도면들을 참조하여 설명한다. 하기에는 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.

도 1은 본 발명의 실시예에 따른 특허 문서 분류의 개념을 나타내는 블록도이다. 먼저, 기분류된 다수의 특허 문서(100)를 출원번호(111), IPC(112), 발명 명칭(113), 도면(114), 초록(115), 청구항(116) 등 각 식별항목 단위로 추출하여 트랜잭션(110)을 구성한다. 그런 다음, 상기 각 식별항목의 내용으로부터 추출한 키워드에 분류 알고리즘(120)을 적용하여 빈발항목(121) 및 연관규칙(122)을 생성한다. 다음으로, 본 발명의 실시예에 따라 연관 규칙 룰셋(130)을 이용하여 상기 빈발항목(121) 및 연관규칙(122)에 지지도와 신뢰도를 기반으로 하여 스코어(131) 및 가중치(132)를 설정한다. 이와 같이 각 분류 카테고리별로 생성된 빈발 항목 및 연관규칙(122)을 분류 대상 특허에 적용함으로써 최종적으로 대상 특허 문서를 분류(140)한다.

이하, 본 발명의 실시예에 따라 특허 문서를 분류하는 방법을 보다 상세히 셜명하기로 한다.

한편, 테스트용으로 사용된 특허데이터는 한국특허정보원에서 운영중인 KIPRIS 검색시스템을 이용한 것으로 2010년 1월, 2월에 등록된 대상으로 한다.

<데이터 가공>

특허데이터는 1년에 20만여건이 출원되고 있으며 등록여부에 상관없이 특허문서의 체계인 IPC분류는 이루어진다. 또한, IPC분류기준은 발명의 명칭과 청구항 1항에 의존하고 있지만 실제로 분류자의 주관적인 판단에 의해 분류가 되고 있는 실정이다. 하지만, 본 발명에서는 학문적 이론에 근거하여 분류체계를 설정한다.

이에 따라, 특허데이터의 전체 항목 중에서 불필요한 단어(조사나 특정단어)들을 제거하는 과정을 거치고, 본 발명에 필요한 연관규칙 탐사를 위해 데이터 모델을 구축한다. 한편, 본 발명에서 적용되는 항목들은 출원번호, IPC분류, 발명의 명칭, 청구항 1항, 초록, 핵심키워드 등이다.

본 발명에서는 IPC분류기준이 되는 발명의 명칭과 청구항 1항을 기준으로 모델링을 완성하고 이를 하나의 트랜잭션으로 정의(S201)하였다. 즉 하나의 트랜잭션에는 출원번호, IPC분류, 발명의 명칭, 청구항 1항, 초록, 핵심키워드 등으로 구성되며 이들 항목은 XML형태의 하나의 공보형태로 되어있기 때문에 'Java XML Sax Parser'를 통하여 파싱 과정을 거치며 알아보기 쉽고 분석에 용이하게 하기 위해 적절한 변환과정이 필요하다.

하기 <표 3>은 한국등록특허의 추출XML 속성 정보이고, <표 4>는 추출 XML 결과이다.

1. 서지사항	<KR_Application_Number></KR_Application_Number>
2. 요약	<KR_abstract></KR_abstract>
3. 대표도	<KR_draw></KR_draw>
4. 특허청구의 범위	<KR_cliaims></KR_cliaims>
5. 명세서	<KR_description></KR_description>
6. 도면	<KR_figure></KR_figure>

출원번호	IPC	발명의명칭	청구항 1항	핵심키워드	기술분야
---	---	---	---	---	---

<특허문서 데이터 정제 및 보정>

특허데이터는 서지사항뿐만 아니라 초록, 청구항, 상세설명, 기술정보 등 다양한 정보가 있기 때문에 필요한 데이터만 선별하는 정제작업을 한다(S202). 본 발명에서는 발명의 명칭과 청구항 1항, 핵심 키워드, 기술정보를 기준으로 트랜잭션을 정의한다. 또한, 특허데이터의 속성상 “제조방법”, “것”, “1”, “2” , “방법”, “제조”, “것”, “본”, “내”, “이”, “수”, “상기”, “발명”, “용”, “등”, “사”, “포함”, “이” 등의 불용어를 사전에 제거(S203)하는 전처리 과정을 거친다. 또한, 본 발명에서는 추출한 단어그룹의 개수가 20개를 초과한 데이터에 대해서만 의미 있는 중요한 문서라고 정의하며 또한 핵심키워드로 명시된 단어를 추출하여 단어그룹에 추가한다. 데이터의 특성상 같은 의미의 단어가 다르게 표기되어있는 경우가 있어 유사의미의 단어에 대해 대표어로 표기하는 보정작업을 실시한다(S205). 하기 <표 5>는 단어의 개수가 20개 이상이고 대표어로 보정작업이 완료된 문서의 하나의 트랜잭션으로 처리한 테이블을 나타낸다.

TID	출원번호	IPC	발명의명칭	청구항 1항	핵심키워드
트랜잭션번호

<형태소 분석 및 키워드 추출>

추출한 키워드그룹의 개수가 20개를 초과한 데이터에 대해서만 의미 있는 중요한 문서라고 정의하고 하나의 트랜잭션으로 나타내고 이 문서목록에 있는 문서 전문을 한글 형태소분석기를 적용하여 키워드를 도출한다. 한글 형태소분석기를 적용한 결과데이터에서 'Score'가 100 이상인 형태소는 체언으로 명사, 대명사, 수사, 의존명사를 포함하므로 Score가 100 이상으로 구분된 형태소를 키워드로 추출한다. 이때, 각 형태소는 하나의 문서 안에서도 중복되고 다른 문서에서도 중복이 되므로 하나의 트랜잭션 내에서는 키워드가 중복이 되지 않게 추출(S204)한다.

본 발명의 실험에 이용한 Apriori알고리즘의 구현은 오라클(10g) 데이터베이스의 한 행에 하나의 트랜잭션 항목집합으로 구성하여 varchar2데이터 타입으로 생성하여 적용하였으며 255자 이하로 구성하였다. 하나의 키워드가 분류의 기준이 될 수 있다고 판단하고 키워드의 개수에는 제한을 두지 않았다. 본 발명에서는 한 트랜잭션내 키워드가 중복되지 않는 키워드 리스트를 '중복배제키워드'라 정의한다. 하기 <표 6>은 각 트랜잭션에 포함된 문서를 한글형태소분석기를 적용하여 추출한 중복배제키워드리스트 결과 테이블이다.

T1	키워드1	키워드2	키워드3	키워드4	키워드5	키워드6	키워드7	키워드8
T2	키워드	키워드2	키워드3	키워드4	키워드5	키워드6	키워드7	키워드8
?	?	?	?	?	?	?	?	?
-	-	-	-	-	-	-	-	-

<빈발항목집합 추출 및 연관규칙생성>

상기 <표 6>에서 나온 각 트랜잭션별 키워드들을 대상으로 초록, 청구항 1항, 기술분야에 대해서 연관성 분석 알고리즘인 Apriori 알고리즘을 적용하여 분석한다. 이때, 최소지지도를 변경해가며 각 지지도별(Support Degree) 빈발항목집합들을 구한다. 본 발명의 실시예에서는 0.5%의 지지도로 정의하였다. 빈발항목집합에서 최소지지도보다 높은 모든 항목집합이 들어있으므로 항목간의 중복성이 존재한다. 본 발명에서는 키워드 간의 연관성 연구를 목적으로 하므로 각 트랜잭션의 유일한 키워드가 존재하여야 한다. 중복성이 존재하는 빈발항목집합(Frequent Item)으로부터 자신 이외에 다른 빈발항목집합에 포함되지 않는 최대빈발항목 집합인 MFI(Maximum Frequent Item)를 구한다(S206).

연관규칙 마이닝 알고리즘인 Apriori는 두 단계를 통하여 연관성 분석을 수행하며, 첫 번째 단계는 최소의 지지도(minimum support)이상의 발생지지도(transaction)를 가지는 조합을 찾아 빈발단어 항목을 구성한다. 두 번째 단계는 데이터베이스로부터 연관규칙을 생성하기 위하여 빈발항목집합(L)에 대해서 빈발항목집합의 모든 공집합이 아닌 부분집합들을 찾는다. 각각의 그러한 부분집합(A)에 대하여, 만약 Support(A)에 대한 Support(L)의 비율이 적어도 최소 신뢰도(minimum confidence)이상이면 A->(L-A)의 형태의 규칙을 출력한다. 이 규칙의 지지도는 support(L)이고, 신뢰도는 support(L)/support(A)이다. Apriori 알고리즘에서 후보집합의 생성은 Apriori-gen을 상용하여 새로운 후보항목집합을 만들게 함으로써 후보항목의 수를 줄일 수 있다. 이에 따라 연관규칙을 찾는 시간이 감소 된다. 이때, 본 발명에 적용된 데이터마이닝 Apriori 알고리즘은 다음과 같다.

단계 0. 최소지지도 s_min을 정한다.

k=1

C₁=[{i₁},{i₂},...,{i_m}]

L₁={c∈C₁| supp (c) ≥ s_min

단계 1. k=k+1

L_k _-1로부터 C_k 형성 (apriori-gen 함수)

단계 1-1. (join) L_k _-1의 집합들을 접합하여 k- 항목 집합군을 형성한다.

C= L_k _-1 * L_k _-1

단계 1-2. (prune) C의 (k-1)- 항목 부분집합이 L_k _-1에 속하지 않을 때 이를 모두 제거한 후 C_k를 형성한다. C_k=Φ이면 Stop.

단계 2. C_k의 집합 중 지지도가 최소지지도 이상인 것을 모아 L_k를 생성한다.

L_k={c∈C_k | supp (c) ≥ s_min}

이때, L_k 는 후보 k-항목집합을 의미하며, C_k 는 빈발 K-항목집합을 의미한다.

상기 <표 6>의 트랜잭션별 키워드 결과를 Apriori 알고리즘을 최소지지도별로 조정하며 적용하여 하기 <표 7>과 같이 각 최소지지도별(Support degree) 빈발항목집합 (Frequent Itemset)들을 구하고, 하기 <표 8>과 같이 연관규칙을 생성한다.

키워드1(지지도)
키워드1, 키워드2(지지도)
키워드2, 키워드3(지지도)
키워드1, 키워드2, 키워드3, 키워드4(지지도)
XXX,XXX,XXX,XXX,XXX(support)
XXX,XXX,XXX,XXX,XXX(support)

키워드1 <- 키워드1,키워드3(0.5, 100.0)
키워드3 <- 키워드5,키워드6(0.5, 100.0)
키워드4 <- 키워드5,키워드7(0.5, 100.0)
키워드6 <- 키워드5,키워드8(0.5, 100.0)
키워드7 <- 키워드6,키워드8(0.6, 84.6)
키워드8 <- 키워드6,키워드9(0.6, 84.6)

<특허문서 자동분류 방법 -빈발항목과 연관규칙생성에 의한 정확도 계산>

특허데이터의 키워드는 문서의 내용을 대표하는 단어로서 정확한 키워드를 추출하는 것은 특허문서 자동분류체계의 효율성을 극대화시킨다. 따라서 단순히 하나의 문서마다 문서 전문에 존재하는 키워드에 대해 Apriori 알고리즘을 적용하여 빈발항목을 추출하는 방법의 단점을 극복하기 위하여 본 발명에서는 연관규칙 룰 셋을 이용하여 지지도와 신뢰도를 기반으로 하여 가중치를 주는 방법을 제안한다. 본 발명에서는 이러한 방법을 빈발항목과 연관규칙에 의한 정확도 계산방법이라고 정의한다.

<클래스간 키워드 중복제거 및 가중치 부여에 의한 정확도 계산>

특허문서에서는 중복키워드는 반드시 고려해야할 대상이다. 즉 키워드의 출현 횟수가 늘어났다는 것은 그만큼 특허문서의 중요키워드일 확률이 높아진다. 한 문서 내에서의 중복키워드도 중요하지만 다른 클래스들과의 키워드 중복도 반드시 고려되어야 한다. 왜냐하면, 고유의 키워드가 될 수도 있고 이중키워드가 될 수도 있기 때문이다.

이때, 각 클래스 간에 발생한 중복키워드와 중복키워드항목집합의 단어들의 연관규칙셋의 중복제거를 통하여 정확도를 높여 기존의 단어와 차별화를 할 수 있는 분석방법을 본 발명에서는 가중치기반 키워드추출방법이라 정의한다.

빈발항목 중복키워드 추출 및 제거 개념은 하기 <표 9>와 같다.

A클래스	B클래스	C클래스	D클래스
A *A,B(X)* A1,C1,D1 A,C,D,F	A2 *A,B(X)* A1,C1,D1 A1,C2,D2,F2	A3 *A,B(X)* A3,C3,D3 A3,C3,D3,F3	A4 *A,B(X)* A4,C4,D4 A4,C4,D4,F4

이때, 상기 <표 9>에서 A1, C1, D1처럼 A클래스와 B클래스의 교집합인 항목집합인 경우 A클래스인지 B클래스인지 확실히 구분해 줄 수 있는 가중치가 필요하다. 따라서, 본 발명에서는 가중치를 원래 가지고 있던 값의 2배의 수치를 기준으로 부여한다.

하기 <표 10>은 가중치 부여의 개념을 나타낸 표이다.

A클래스	B클래스
*A,B(X)* A1,C1,D1 A1,C1,D1,F1	*A,B(X)* A1,C1,D1 A1,C2,D2,F2

상기 <표 10>을 참조하면, A1, C1, D1에서 A1의 출현개수, C1의 출현개수 및 D1의 출현개수를 합하여 정확도를 계산하여 A클래스인지 B클래스인지에 대한 구분을 명확히 할 수 있다.

<정확도 계산에 의한 특허문서분류 기준항목>

본 발명이 적용된 실험예에서는 사용하는 데이터를 두 개 부류로 나누었는데, 본 발명에서 제안하는 빈발항목집합과 연관규칙생성에 의한 정확도 계산 방법과 클래스간 키워드 중복제거 및 가중치 부여에 의한 정확도 계산방법으로 적용할 문서전문을 실험데이터라 정의하며, 정확도 계산방법의 효율성을 검증 및 비교하기 위한 특허문서전문을 검증데이터라 정의한다. 즉 실험데이터는 빈발항목집합을 구하는데 사용된 이미 IPC부여가 끝난 2010년 등록된 10,000건중 8,000건이고 검증데이터는 최대빈발항목집합을 평가 및 검증하기 위해 이미 IPC부여가 되었지만 아직 부여되지 않았다고 가정하는 즉 이미 답을 알고 있는 나머지 2,000건이다.

실험데이터의 한 빈발항목집합 항목집합의 항목들이 검증데이터의 한 트랜잭션 키워드 항목들에 속할 때 이 빈발항목집합 항목은 완전매치(Complete match)한다고 정의한다. 또한 빈발항목집합과 검증용데이터 간에 매치되는 포인트를 구하기 위하여 특허문서의 초록, 청구항 1항, 기술배경에 대하여 다음과 같이 빈발항목매치도, 연관규칙룰 매치도를 구한다.

<빈발항목 집합 및 아이템셋의 가중치 설정>

검증데이터의 트랜잭션에 완전매치되는 빈발항목집합을 아이템셋별로 추출한다. 아이템셋의 가중치는 2~3가지 종류로 하여 결정한다. 본 발명의 실시예에서는 가중치를 1, 3, 9, 27, 81과 1, 5, 10, 300, 500의 방법으로 2가지로 정의하였다. 이때, FIC를 빈발항목집합수라 정의하고 Sup를 지지도, Conf는 신뢰도, FIA는 빈발항목집합 가중치라 정의한다.

<검증데이터 매치수>

빈발항목집합 키워드들을 모두 포함하는 검증데이터의 트랜잭션 수를 검증데이터 매치수라 정의하면, 검증데이터 매치수 Score1은 하기 <수학식 1>과 같이 산출될 수 있다.

이때, 실험데이터로 구한 각 지지도별 빈발항목집합의 항목집합은 키워드들과 키워드의 지지도로 구성되며, 이들 키워드들 간의 연관성의 척도는 빈발항목집합의 단일 항목집합의 키워드들과 검증데이터의 단일 트랜잭션에 나오는 키워드와 비교하여 판정한다. 본 발명의 실시예에서는 최소지지도별 연관성 분석으로 나온 빈발항목집합과 검증데이터와의 매치도 판정의 정확성을 높이기 위하여 빈발항목집합수와 검증데이터매치수를 곱한 정확도를 본 발명의 비교 기준항목으로 제안한다.

<연관규칙룰셋에 의한 신뢰도, 지지도기반의 매치도>

검증데이터를 기준으로 연관규칙롤셋의 지지도, 신뢰도를 기반으로 하여 연관성 척도를 수치화한 값을 나타내는데, 검증데이터의 각 트랜잭션에 매치되는 것으로 표현하는 매치도 Score2는 하기 <수학식 2>와 같이 산출될 수 있다.

<클래스간 키워드 중복제거 및 가중치 부여>

클래스간 발생한 중복키워드에 대하여 전체에 발생한 키워드는 일괄삭제하고 부분적으로 발생한 키워드에 대해서는 그 구분을 확실히 하기 위하여 중복이 발생한 클래스에 2배의 가산점(Weight)을 부여하여 정확도를 높인다(S207). 이때, 가산점은 하기와 같이 산출될 수 있다.

Weight = IF(Each class Score[A1,C1,D1] > Each class Score[A1,C1,D1])

TRUE A Score * 2 , FALSE B Score * 2

<초록, 청구항 1항, 기술배경의 각 항목에 합에 의한 매치도 계산>

특허문서의 분류는 어느 한 항목에 의존하는 것이 아니라서 각 항목의 합을 계산하여 정확도를 높이는 방법이 중요하다. 이는 특허문서의 중요한 특징 중의 하나로서 정확도를 높이는 방법으로 사용될 수 있다. 각 초록, 청구항 1항 및 기술배경에 대해 하기 <수학식 3>과 같이 매치도를 산출(S208)할 수 있다.

이와 같이, 각 분류 대상 특허 문서에 대해 각 클래스간 빈발항목 및 연관 규칙을 적용하여 매치도를 산출함으로써 특허 문서의 IPC 분류를 자동으로 수행할 수 있다(S208).

한편, 본 발명의 실시 예에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 안되며 후술하는 특허 청구의 범위뿐만 아니라 이 특허 청구의 범위와 균등한 것들에 의해 정해져야 한다.

100 : 특허 문서 110 : 트랜잭션
120 : 분류 알고리즘 130 : 연관 규칙 룰셋
140 : 분류

Claims

국제 특허 분류에 따라 각 클래스가 이미 결정된 N개의 모집단 특허 문서로부터 적어도 하나의 식별항목에 포함된 내용을 추출하여 각 특허 문서별 트랜잭션을 구성하는 단계;
상기 각 트랜잭션에 포함된 내용으로부터 형태소 분석기를 통해 키워드를 추출하는 단계;
상기 추출된 키워드로부터 상기 각 해당 클래스에 대한 빈발항목 및 연관규칙을 생성하는 단계; 및
분류 대상 특허 문서를 상기 생성된 각 클래스별 빈발항목 및 연관규칙에 적용하여 클래스를 분류하는 단계;를 포함하는 것을 특징으로 하는 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법.
제1항에 있어서, 상기 키워드를 추출하는 단계는,
상기 각 트랜잭션에 포함된 내용에서 불용어를 제거하는 단계;를 더 포함하는 것을 특징으로 하는 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법.
제1항에 있어서, 상기 추출할 식별항목은,
출원번호, IPC 분류, 발명의 명칭, 대표 청구항, 핵심키워드 및 기술분야의 식별항목 중에서 선택된 어느 하나 이상인 것을 특징으로 하는 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법.
제1항에 있어서, 상기 키워드를 추출하는 단계는,
각 특허 문서별로 상기 추출된 키워드 중에서, 중복된 키워드를 제거하는 단계;를 더 포함하는 것을 특징으로 하는 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법.
제1항에 있어서, 상기 키워드를 추출하는 단계는,
각 특허 문서별로 상기 추출된 키워드 중에서, 유사한 키워드는 대표어로 치환하는 단계;를 더 포함하는 것을 특징으로 하는 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법.
제1항에 있어서, 상기 빈발항목은,
'Apriori' 알고리즘에 의해 최소의 지지도 이상의 발생지지도를 가지는 조합으로 구성하는 것을 특징으로 하는 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법.
제1항에 있어서, 상기 빈발항목 및 연관규칙을 생성하는 단계 이후에,
상기 각 클래스간 중복 키워드에 대해 상기 키워드의 출현 개수를 고려하여 가중치를 부여하는 것을 특징으로 하는 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법.