KR20180072167A

KR20180072167A - 유사특허 추출 시스템 및 그 방법

Info

Publication number: KR20180072167A
Application number: KR1020160175455A
Authority: KR
Inventors: 경진영; 윤장혁; 최덕용
Original assignee: 특허법인 해담; 윤장혁; 최덕용
Priority date: 2016-12-21
Filing date: 2016-12-21
Publication date: 2018-06-29

Abstract

기업에서 기술 아이템을 사업화할 경우 특허침해와 같이 사업화에 장애를 유발하는 장벽특허가 존재할 수 있다. 장벽특허가 존재할 경우, 기업은 무효화 전략, 회피설계, 비침해 논리개발과 같은 대응전략을 수립할 수 있으며, 본 발명은 장벽특허를 무력화시킬 수 있는 선행특허를 발굴하는 시스템의 제안을 목표로 한다. 미국 특허청 특허에 대한 서지정보와 전문정보를 포괄하는 특허 데이터베이스(10)에 기반하여, 본 시스템은 장벽특허에 대한 키워드 그룹 설정 모듈, 임의의 특허가 키워드 그룹의 내용을 담고는 정도를 파악하는 정보엔트로피 계산 모듈, 토픽모델링을 통해 장벽특허와 임의의 특허간의 의미론적 특허 유사도 계산 모듈을 거쳐, 최종적으로 장벽특허를 무효화시킬 수 있는 잠재성을 지닌 선행특허들을 추천한다.

Description

유사특허 추출 시스템 및 그 방법 {SYSTEM FOR EXTRACTING SIMILAR PATENTS AND METHOD THEREOF}

본 발명은 기준특허와 유사한 특허들을 자동으로 추출하는 유사특허 추출 시스템 및 그 방법에 관한 것이다.

일반적으로, 사업화하고자 하는 기술 아이템에 대해 특허침해와 같이 사업화에 장애를 유발하는 특허를 장벽특허라 일컫는다. 따라서 기업체에서 특정 아이템을 사업화할 경우, 다른 출원인이 등록해 놓은 특허를 고려하지 않는다면 힘들게 개발한 제품을 시장에서 판매할 때 특허침해의 문제가 발생할 수 있다. 즉, 해당 기업이 특허권자라고 하더라도 다른 출원인의 특허를 침해하지 않아야 비로소 자신의 특허권을 실시할 수 있게 된다. 그러므로, 현재 개발중인 제품에 대해 어떤 특허가 문제가 될 수 있는지를 파악하고 이에 대한 대응전략을 수립하고, 그에 맞추어 발명개발을 진행할 필요가 있다. 예를 들어, 개발기술 아이템에 대한 장벽특허가 존재할 경우 장벽특허의 무효화 전략, 회피설계, 비침해 논리개발 등과 같은 대응전략을 수립할 수 있으며, 이는 고도의 특허 및 기술 전문지식을 필요로 한다.

앞서 언급한 장벽특허에 대한 대응전략 중, 본 발명은 무효화 전략을 지원하는 것을 목표로 한다. 이미 특허권을 획득한 특허의 경우에도 청구범위에 기재된 발명의 전부 또는 일부에 무효사유가 존재할 수 있는데, 이는 특허성이 부정되어야 할 특허가 심사의 미비로 특허권을 받은 것을 의미한다. 특허의 무효가 확정되면 해당 특허권의 효력은 처음부터 없던 것으로 취급되므로 침해의 문제가 발생하지 않는데, 무효화 전략은 특허침해의 판단을 통해 침해를 부정하기 어려운 경우에 선택하는 대응전략이다. 이러한 특허의 무효화 요인은 주로 신규성 및 진보성에 의해 발생하며, 장벽특허로 인식되는 핵심특허의 무효화 요인 검토를 위해서는 해당 장벽특허에 관련된 선행특허문헌들을 수집하여 분석하는 과정을 거치게 된다.

실무적으로 보면, 장벽특허에 대한 선행특허문헌 분석의 대부분의 과정이 전문가에 의한 정성적 작업으로 이루어지고 있다. 즉, 기술 전문가가 장벽특허에 기재된 기술에 대한 검토를 한 다음, 특허 검색식을 작성하여 특허검색서비스로부터 관련특허들을 수집한 후 기술적인 연관성을 지닌 특허들을 일일이 선정하게 된다. 그러나, 이러한 작업이 적게는 수천 건 많게는 수만 건에 이르는 관련특허들을 대상으로 하기 때문에 많은 시간과 인력이 투입된다. 현업 경험에 따르면, 1인이 하루에 최대 약 1,000건(30초에 1건을 검토한다는 가정) 정도의 특허 데이터만을 개략적으로 검토할 수 있으며, 선행특허에 대한 청구범위를 포함한 상세내용까지 검토할 경우 1일 최대 300건도 쉽지 않은 실정이다. 또한, 반복적인 검토작업의 한계로 인해 판단 착오가 빈번히 발생하는 문제점이 발생할 수 있다.

다음으로 발명적 관점에서 보면, 기존 발명방법들은 수집된 특허집합에 대해 키워드 유사성 또는 구조적 유사성을 분석하여 특허간의 유사관계를 파악하는 형태이며, 이들은 수집범위 내에 포함되지 않거나 잠재적으로 다른 분야에 존재하면서 장벽특허를 무효화시킬 수 있는 선행특허기술들에 대한 분석이 어렵다는 점에서 장벽특허에 대한 선행특허기술을 발굴하는 방법론에 적용하기에는 한계점을 지닌다.

따라서, 기존에는 유사특허를 추출하기 위해 모집단에서 사람이 직접 특허 특허문서를 일일이 검토하고 유사특허를 추출하는 단순 반복 작업을 통해 유사특허를 필터링하고 있어 많은 시간과 인력이 투입된다.

하기의 특허문헌은 특허문서 검색 및 분류 방법 및 그 시스템에 관한 것이나, 상술한 문제에 대한 해결책을 제시하지 못하고 있다.

한국 공개특허공보 제10-2006-0047306호

본 발명은 상기한 종래 기술의 문제점을 해결하기 위한 것으로써, 기준특허의 키워드를 중심으로 키워드의 존재 여부와 출현 빈도 등의 정보엔트로피를 계산하여 기준특허에 대한 유사특허를 추출하는 유사특허 추출 시스템 및 그 방법을 제공한다.

또한, 키워드 기반으로 추출된 후보특허와 기준특허 간의 주제모델링 분석을 통해 텍스트 유사도를 계산하여 텍스트 관점에서의 유사특허를 추출할 수 있는 유사특허 추출 시스템 및 그 방법을 제공한다.

상기와 같은 목적을 달성하기 위한 본 발명의 실시예에 따른 유사특허 추출 방법은, (a) 복수의 특허문서 중 관심대상인 적어도 어느 하나의 기준특허를 선정한 후 해당 기준특허에 대한 주요 키워드를 포함한 특허정보를 설정하는 단계; (b) 상기에서 설정된 키워드를 이용하여 특허 모집단 또는 특허 데이터베이스에 수록된 전체 특허를 대상으로 해당 키워드에 대한 정보엔트로피를 계산하는 단계; 및 (c) 상기에서 산출된 정보엔트로피를 기초로 기준특허와 유사한 적어도 하나 이상의 후보특허를 선정하여 제공하는 단계;를 포함할 수 있다.

상기 추출 방법은, 상기에서 선정된 후보특허들에 대한 단어빈도 정보를 기초로 각 후보특허의 주제(topic) 분석을 수행하여 주제별 확률분포를 산출하고, 각 후보특허의 주제별 확률분포를 이용하여 기준특허와의 텍스트 유사도를 산출하는 단계; 및 상기에서 산출된 유사도에 따라 기준특허와 유사한 텍스트 구조를 갖는 유사특허를 추출하여 제공하는 단계;를 더 포함할 수 있다.

상기에서 특허정보는 기준특허의 특허번호, 조사구간 및 IPC분류코드 중 어느 하나 이상을 포함할 수 있다.

또한, 상기와 같은 목적을 달성하기 위한 본 발명의 실시예에 따른 유사특허 추출 시스템은, 복수의 특허문서 중 관심대상인 적어도 어느 하나의 기준특허를 선정한 후 해당 기준특허에 대한 주요 키워드를 포함한 특허정보를 설정하는 기준특허설정부; 복수의 특허문서에서 각 문서별로 주요 키워드를 추출하여 문서 내 출현빈도를 각각 측정하는 빈도측정부; 상기 빈도측정부에서 측정된 문서내 전체 단어의 출현수에 대한 주요 키워드의 문서 내 출현빈도 확률을 통해 각 문서의 정보 엔트로피를 산출하는 정보량산출부; 및 상기에서 산출된 정보엔트로피를 기초로 기준특허와 유사한 적어도 하나 이상의 후보특허를 선정하는 후보특허선정부;를 포함할 수 있다.

그리고, 추출 시스템은, 상기에서 선정된 후보특허들에 대한 단어빈도 정보를 기초로 각 후보특허의 주제(topic) 분석을 수행하여 주제별 확률분포를 산출하고, 각 후보특허의 주제별 확률분포를 이용하여 기준특허와의 텍스트 유사도를 산출하는 유사도산출부; 및 상기에서 산출된 유사도에 따라 기준특허와 유사한 텍스트 구조를 갖는 유사특허를 추출하여 제공하는 유사특허추출부;를 더 포함할 수 있다.

본 발명의 실시예에 의하면, 사용자가 분석하고자 하는 기술적 관점을 포함하는 정도를 반영하여 선행특허문헌들을 분석할 수 있다. 기존 특허검색서비스들은 불린검색(Boolean search)을 기반으로 하고 있어 검색결과가 사용자가 분석하고자 하는 기술적 관점에 대한 내용을 얼마나 포함하는지를 고려하지 않는 반면, 본 시스템은 사용자의 기술적 관점을 담은 관심어 그룹들과 이들에 대한 가중치를 설정하여 임의의 특허문서들이 사용자가 보고자 하는 기술적 관점과 얼마나 연관되어 있는지를 파악할 수 있는 이점이 있다.

또한, 본 시스템은 검색식 작성 및 선행특허문헌 선별과 같은 작업에 있어 조사전문가에 대한 의존성을 낮출 수 있으며, 본 시스템의 자동화 프로세스를 통해 선행특허기술 수집 및 내용 분석에 소요되는 시간을 획기적으로 단축할 수 있다.

도 1은 본 발명에 의한 유사특허 추출 시스템을 설명하기 위한 개념도이다.
도 2는 본 발명의 실시예에 의한 유사특허 추출 시스템을 설명하기 위한 구성도이다.
도 3은 도 2에 도시된 유사도산출부의 세부 구성을 나타낸 도면이다.
도 4는 본 발명의 실시예에 의한 유사특허 추출 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 실시예에 의한 유사특허 추출 시스템을 나타낸 UI화면이다.
도 6은 도 4의 기준특허 정보 입력 및 키워드 추천 화면을 나타낸 도면이다.
도 7은 도 4의 정보량 계산 결과를 나타낸 화면이다.
도 8a 내지 도 8c는 도 4의 텍스트 유사도 산출에 적용된 LDA를 설명하기 위한 도면이다.
도 9는 도 4의 텍스트 유사도 계산 결과를 나타낸 화면이다.
도 10은 본 발명의 실시예에 의한 기준특허와 유사한 특허문서를 추출하여 보여주는 최종 화면이다.

이하, 본 발명의 다양한 실시 예들이 첨부된 도면을 참조하여 기재된다. 실시 예 및 이에 사용된 용어들은 본 발명에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성 요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.

도 1은 본 발명에 의한 유사특허 추출 시스템을 설명하기 위한 개념도이다.

일반적으로, 특허나 발명 검색에서는 최대한 넓은 범위의 모집단을 얻기 위하여 검색식을 개략적으로 작성한 후 다양한 응용 기술이나 이질적인 특징을 가지는 특허문서들을 모두 수집하고 있다. 결과적으로 이는 모집단에 노이즈가 포함되어 노이즈를 제거하는 과정이나 관심특허를 추출하는 과정이 필연적으로 발생하게 된다.

본 발명은 특허 데이터베이스 또는 모집단으로부터 관심대상인 기준특허를 선정하고, 이와 유사한 유사특허를 효율적으로 추출하기 위한 방법을 제안하는 것이다. 여기서 기준특허는 임의 기업의 사업화에 장애가 되는 장벽특허이거나 관심대상 특허 또는 노이즈특허일 수 있다. 중요한 것은 미리 설정된 기준특허와 유사한 특허들을 자동으로 조사하여 추출한다는 것이다. 본 발명의 실시예에서는 기준특허가 장벽특허인 경우를 예로 들어 설명한다.

유사특허를 추출하는 방법은 섀넌 정보엔트로피(Shannon entropy)를 이용하여 기준특허와 키워드 빈도 및 의미론적 유사도 분석을 이용하여 유사도가 높은 특허문서들을 군집화하여 일괄 추출하는 것이다.

본 발명은 주어진 장벽특허가 존재한다는 가정하에, 이를 무력화시킬 수 있는 잠재성을 지닌 선행특허들을 특허 데이터베이스로부터 자동으로 발굴하는 시스템의 제안을 목표로 한다. 제안되는 시스템은 기준특허가 주어졌을 경우, 1) 이 장벽특허에 대한 키워드(이하, '관심어' 라고도 함)를 추출하여 분석자가 분석하고자 하는 기술적 관점을 설정하는 관심어 그룹 설정 모듈, 2) 임의의 특허에 대해 관심어 그룹의 정보를 얼마나 많은 정도로 기술하고 있는지를 분석하는 정보엔트로피 계산 모듈, 3) 토픽 모델링을 활용하여 장벽특허와 임의의 특허간의 의미론적 특허 유사도를 계산하는 모듈로 구성될 수 있다.

도 2는 본 발명의 실시예에 의한 유사특허 추출 시스템을 설명하기 위한 구성도이다.

도 2를 참조하면, 본 발명의 실시예에 의한 유사특허 추출 시스템(1)은 특허 데이터베이스(10), 기준특허설정부(110), 정보처리부(130) 및 유사특허추출부(150)로 이루어져 있으며, 정보처리부(130)는 키워드추천부(131), 빈도측정부(133), 정보량산출부(135), 후보특허선정부(137) 및 유사도산출부(139)를 포함할 수 있다.

특허 데이터베이스(10)는 각 국가별 특허정보가 저장된 데이터베이스 또는 특허문서 검색 시스템에 의해 키워드 검색식을 통해 수집된 특허리스트(Excel)일 수 있다. 특허문서 검색 시스템은 구글특허(Google Patent), 델피온(Delphi-in), 키프리스(Kipris), 윕스온(WIPSON), 윈텔립스(WINTELIPS), NDSL 등과 같은 검색 시스템일 수 있다.

기준특허설정부(110)는 기준특허의 등록번호, 기준특허의 출원일을 감안한 조사구간, 핵심 키워드 및 기준특허가 속하는 IPC분류코드 중 하나 이상을 사용자로부터 입력받아 설정하도록 구성되어 있다. 키워드는 적어도 하나 이상으로 구성되며, 키워드는 후술할 특허문서의 정보엔트로피 계산에 이용된다.

키워드추천부(131)는 기준특허의 등록번호가 입력되면 해당 특허에서 자동으로 키워드를 추출하여 사용자에게 제공하는 것이다. 문서에서 자동으로 키워드를 추출하는 방법에는 대표적으로 단어 사전인 WordNet(https://wordnet.princeton.edu/)을 이용하는 방법과 딥 러닝 기반으로 학습된 모델을 이용하는 방법이 있는데, 본 시스템에서는 복합어의 추출이 가능한 딥 러닝 기반의 AlchemyAPI(http://www.alchemyapi.com/)를 이용한다. AlchemyAPI는 IBM의 인공지능 기반 데이터 분석 플랫폼인 Watson에 포함되어 있는 이미지, 음성, 텍스트 등의 분석이 가능한 툴이다. 특히 텍스트에 대해서는 개체 인식, 감성 분석, 초록 등 다양한 기능을 지원하는데, 본 시스템은 AlchemyAPI의 키워드 추출 기능을 사용하여 기준특허에서 중요도를 가지는 키워드들을 자동 추출한다. 이와 같은 키워드 추천은 사용자의 키워드 설정에 편의를 돕기 위한 것이며, 키워드 선정의 정확성을 높이기 위해서는 사용자가 기준특허의 내용을 직접 파악하여 적절한 키워드를 선정하는 것이다.

빈도측정부(133)는 특허 데이터베이스(10)에 저장된 복수의 특허문서에서 각 특허문서별로 기준특허의 설정 키워드를 추출하고, 추출된 키워드의 특허문서 내 출현 빈도를 각각 측정하도록 구성되어 있다.

정보량산출부(135)는 측정된 특허문서내 전체 단어의 출현수에 대한 미리 설정된 키워드의 특허문서 내 출현빈도 확률의 합산을 통해 각 특허문서의 정보엔트로피를 산출하도록 구성되어 있다. 상기에서 설정된 키워드는 키워드 별로 가중치를 다르게 설정하여 정보엔트로피 계산에 반영할 수 있다.

정보엔트로피는 정보이론의 중요한 개념으로서, 어떠한 상황에서 불확실성을 측정하는 것이다. 즉 불확실성이 높은 상황에서는 높은 정보엔트로피 값을 가지며, 불확실성이 낮은 상황에서는 낮은 정보엔트로피 값을 가진다. 예를 들어, 동전을 던지는 사건은 주사위를 던지는 사건보다 낮은 불확실성, 다시 말해, 발생할 수 있는 사건이 2가지인 경우가 6가지일 경우보다 낮은 불확실성과 정보엔트로피 값을 가진다. 또한, 같은 상황에서 각 사건이 발생하는 확률에 따라 하나의 시스템의 정보량이 변화한다. 즉 사건의 수와 다른 조건이 같은 상황에서 각 사건의 발생 확률이 다르다고 가정한다면, 각 사건의 발생확률이 모두 같은 경우 사건에 대한 예측이 더욱 어려워지므로 이 경우 가장 높은 정보엔트로피 값을 가지게 된다.

이와 같은 정보엔트로피는 이산확률 분포에 대해 하기 수학식 1의 섀넌 엔트로피(Shannon entropy) 알고리즘을 활용하여 측정하는 것이 가능하다. 해당 수학식을 활용할 경우 하나의 시스템에 대한 정보의 량을 수치로 나타낼 수 있는데, 이는 해당 시스템의 정보의 다양성의 정도를 의미한다. 즉, 특허문서가 사용자가 원하는 정보, 즉 관심어를 골고루 포함하고 있다면 관심문서일 확률이 높기 때문에 관심어에 대한 정보량을 측정하여 특허문서의 정보엔트로피를 산출하는 것이다.

단, i는 관심어이며, pi는 관심어 i의 확률 값임.

후보특허선정부(137)는 산출된 정보엔트로피를 기초로 기준특허와 유사한 적어도 하나 이상의 후보특허를 선정하여 제공하도록 구성되어 있다. 후보특허 선정 기준은 미리 설정된 기준값이나 순위별 건수로 정해질 수 있다.

그리고, 유사도산출부(139)는 빈도측정부(133)에서 생성된 복수의 특허문서에 대한 단어빈도 정보를 기초로 각 특허문서의 주제 분석을 통해 주제별 확률분포를 산출하고, 각 특허문서의 주제별 확률분포를 이용하여 선정된 기준특허와의 유사도를 산출하도록 구성되어 있다.

여기서, 유사도산출부(139)는 도 3에 도시된 바와 같이 주제확률분포산출부(140), 유사도계산부(142) 및 유사특허군집화부(144)를 포함할 수 있다. 주제확률분포산출부(140)는 빈도측정부(133)에서 생성된 단어빈도 정보에 대해 주제 모델링 알고리즘을 통해 각 특허문서가 각각의 주제에 속할 확률분포를 산출하도록 구성되어 있고, 유사도계산부(142)는 후보특허선정부(137)에서 기준특허로 선정된 특허문서의 주제 확률분포와 다른 비교대상 특허문서의 주제 확률분포를 비교하여, 기준특허로 선정된 특허문서와 다른 비교대상 특허문서 간의 유사도를 계산하도록 구성되어 있고, 유사특허군집화부(144)는 유사도산출부(139)에서 산출된 유사도에 기초하여 기준특허와 유사한 특허문서들을 군집화하여 제공하도록 구성되어 있다. 여기서, 비교대상 특허문서는 후보특허선정부(137)를 통해 선정된 후보특허일 수 있다.

상기에서 주제 모델링 알고리즘으로는 LDA(Latent Dirichlet Allocation), LSA(Latent Semantic Analysis), 및 PLSA(Probabilistic Latent Semantic Analysis) 중 어느 하나의 알고리즘이 이용될 수 있고, 유사도 측정 알고리즘으로는 헬링거 디스턴스(Hellinger distance), 코사인 유사도(Cosine similarity) 및 자카드계수(Jaccard similarity coefficient) 중 어느 하나가 이용될 수 있다. 상기의 알고리즘들은 공지의 기술이므로 상세한 설명은 생략한다.

그리고, 유사특허추출부(150)는 유사특허군집화부(144)에서 산출된 특허문서별 유사도 정보에 따라 기준특허와 유사한 텍스트 구조를 갖는 유사특허를 추출하여 제공하게 된다. 여기서, 유사특허추출부(150)는 산출된 특허문서별 유사도 정보와 미리 설정된 임계값을 비교하여 기준특허와 유사한 유사특허를 추출하여 제공할 수 있다. 이때 유사특허는 특허번호(등록번호, 출원번호 등), 발명의 명칭, 출원인정보 등 서지사항을 추출하여 클라이언트의 화면(170) 상에 제공할 수 있다.

이와 같이 본 발명에서는 기준특허의 키워드를 이용하여 특허문서별 정보엔트로피를 구한 후 특허문서별 정보엔트로피를 기준으로 후보특허를 선정한다. 선정된 후보특허와 기준특허와의 텍스트 유사도를 다시 계산하고 계산된 유사도값과 정보엔트로피에 따라 유사특허를 최종적으로 추출하여 제공하게 된다. 물론, 정보엔트로피만을 이용하여 유사특허를 선정 및 추출할 수도 있다.

여기서, 키워드는 특허문서별 정보엔트로피 계산에 이용되며, 유사특허는 각 특허문서의 정보엔트로피를 기준으로 선정되며, 유사도는 기준특허의 주제 확률분포와 다른 특허문서의 주제 확률분포 간의 벡터를 측정하여 산출된다.

또한, 각 특허문서의 정보엔트로피를 계산하기 위해 Shannon entropy 알고리즘이 이용될 수 있고, 각 특허문서의 주제 확률분포를 획득하기 위해 Latent Dirichlet Allocation, Latent Semantic Analysis 또는 Probabilistic Latent Semantic Analysis 알고리즘이 이용될 수 있고, 특허문서간 유사도를 측정하기 위해 Hellinger distance, Cosine similarity 또는 Jaccard similarity coefficient 알고리즘이 이용될 수 있다.

이와 같이 구성된 관심문서 추출 시스템의 제반 동작과정을 도 4 내지 도 10을 참조하여 보다 구체적으로 살펴본다.

도 4는 본 발명의 실시예에 의한 관심문서인 유사특허 추출 방법을 나타낸 순서도이다.

먼저, 사용자는 유사특허 추출프로그램을 클라이언트에 설치한 상태에서, 프로그램을 구동하여 특허추출 시스템(1)에 접속한다. 추출프로그램의 유저 인터페이스는 도 5에 도시된 바와 같이 기준특허 번호(등록번호 또는 출원번호), 조사구간, 키워드, IPC 등 기준특허 정보를 입력하기 위한 입력창이 구비되어 있다(S10, S20).

기준특허의 등록번호를 입력한 후 우측 상단에 위치된 특허선정 버튼을 클릭하면 추출 시스템(1)은 해당 기준특허의 기본 정보를 특허 데이터베이스(10)로부터 추출하여 도 6과 같이 기준특허정보 출력 창에 디스플레이한다(S30). 이어, 정보처리부(130)는 AlchemyAPI와 같은 외부의 키워드 추출 시스템(미 도시됨)으로 기준특허의 문서정보(초록, 청구범위 등)를 전송하여 키워드를 추천받고 추천된 키워드를 키워드 추천창에 디스플레이할 수도 있다. 키워드 추출 시스템은 공지의 기술이므로 상세한 설명은 생략한다.

사용자는 키워드 추출 시스템으로부터 추천된 키워드를 참고하거나 또는 임의로 키워드를 선정하여 입력하면 기준특허의 키워드를 기준으로 특허 데이터베이스(10)에 저장된 유사특허를 검색하게 된다(S40). 기준특허 정보에서 조사구간은 기준특허의 출원일 이전에 공개된 특허를 대상으로 조사하는 것을 의미하며, IPC 코드는 해당 IPC를 보유하고 있는 특허를 대상으로 조사하게 되는 것을 의미한다. 이와 같이 IPC코드와 조사구간을 설정함으로써, 조사대상 특허를 임의로 조정할 수 있어 필요에 따라 추출 시스템(1)의 계산 속도를 줄일 수 있다.

이어, 추출 시스템(1)의 빈도측정부(133)는 특허 데이터베이스(10)에 저장된 복수의 특허문서에 포함된 설정 키워드를 추출하고, 해당 키워드의 출현 빈도를 산출하여 복수의 특허문서에 대한 단어빈도 정보를 생성할 수 있다. 여기서, 키워드의 출현 빈도(tf)는 특정 단어가 특허문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 특허문서의 길이에 따라 단어의 빈도값을 조절하여 산출할 수 있다. 예컨대, 빈도측정부(133)는 단어 출현 빈도(tf)로 출현횟수를 이용할 수도 있지만, 하기 수학식 2에 의해 산출할 수도 있다. 이때, 특허문서 내에서 출현 빈도가 가장 높은 단어는 '1'값을 가질 것이고, 그 외의 단어는 1보다 작은 값을 가질 것이다.

여기서, t: 임의의 단어, d: 임의의 특허문서, w: 특허문서 d에 있는 임의의 단어, f(t,d): 특허문서 d에 들어 있는 단어 t의 빈도임.

정보량산출부(135)는 설정된 키워드를 기준으로 각 특허의 정보엔트로피(Shannon Entorpy)를 산출할 수 있다. 키워드는 기준특허와 관련된 키워드이며, 사용자에 의해 설정될 수 있으며, 키워드 별로 가중치가 다르게 설정될 수 있다. 여기서 가중치는 해당 키워드의 출현 빈도에 대해 가중치를 적용할 수 있다는 의미이다.

구체적으로, 정보량산출부(135)는 특허문서가 포함하고 있는 단어들 중 키워드에 포함된 단어와 포함되지 않은 단어의 빈도를 이용하여 키워드에 대한 정보엔트로피를 산출할 수 있다. 각 단어의 빈도 정보는 빈도측정부(133)에서 측정된 빈도 정보를 이용할 수 있다.

여기서, 정보엔트로피는 하기 수학식 3에 의해 산출될 수 있다.

여기서, n: 각 특허문서의 필요 정보량의 값을 의미, k: 키워드의 분류 수, h_i: 각 키워드의 발생 확률로서, 하나의 특허문서내의 전체 단어 출현수에 대한 키워드 i에 해당하는 단어의 출현빈도 확률임.

예를 들면, 키워드의 키워드가 Stereo, Lithography 및 3D로 3개인 경우, 특정 특허문서의 키워드에 포함된 단어와 키워드에 포함되지 않은 단어의 빈도는 하기 표 1과 같다.

여기서, 특정 특허문서에서의 Stereo의 hi는 Stereo의 출현 빈도인 4를 전체 단어의 출현 빈도인 50으로 나눈값이 될 수 있다. 이를 바탕으로 상기 표 2의 키워드(k1~k3)를 수학식 3에 적용하면, 해당 특허문서의 정보엔트로피는 '1.08'이 될 수 있다.

표 1의 매트릭스는 하나의 특허문서에 대해 각각 발생한다. 본 발명에서는 키워드 리스트를 제외한 나머지 단어들은 하나의 단어처럼 취급하여 단어 군(비키워드)을 형성하여, 핵심 단어들(키워드)에 대한 정보량의 구성을 극대화하였다.

이어, 후보특허선정부(137)는 산출된 각 특허문서의 정보엔트로피와 미리 설정된 기준값(정보엔트로피)을 기준으로 기준특허와 유사한 후보특허를 선정하게 된다(S50). 여기에서, 각 특허문서의 정보엔트로피가 미리 설정된 기준값보다 큰 경우에만 해당 특허문서가 기준특허와 유사한 후보특허로 선정될 것이다. 이와 같이 선정된 후보특허는 도 7과 같이 정보엔트로피 순으로 제공될 수 있다. 이때 후보특허 정보는 특허번호, 발명의 명칭 및 정보엔트로피(구성요소유사도 값)가 디스플레이될 수 있다. 여기서, 기준값은 정보엔트로피가 아니라 순위로도 설정될 수도 있다. 예컨대, 기준값이 500건으로 설정되어 있을 경우 정보엔트로피 순위로 1위부터 500위까지의 특허가 후보특허로 선정되는 것이다.

필요에 따라 정보엔트로피만을 이용하여 유사특허를 추출할 수 있다.

예컨대, 정보량산출부(135)에서는 기준특허설정부(110)에서 선정된 키워드들을 이용하여 전체 특허를 대상으로 해당 키워드들에 대한 정보엔트로피를 계산한다. 기준특허설정부(110)에서 저장된 키워드들이 특허 내에 고르게 존재할수록 높은 엔트로피를 가지게 되고, 1~2가지의 일부 키워드들에 편중될 경우에는 상대적으로 낮은 엔트로피를 가지게 된다. 이를 본 시스템의 관점에서 보면, 기술적으로 분석자가 관심을 가지는 키워드들이 전부 존재하는 특허는 높은 엔트로피를 나타내고, 특정 키워드만 존재하는 특허는 상대적으로 낮은 엔트로피를 나타내게 된다. 따라서 높은 정보엔트로피를 가지는 특허는 분석자가 무효화 시키고 싶은 장벽특허의 내용과 관련이 높은 특허라고 할 수 있다.

반면 정보엔트로피가 낮은 특허는 분석자가 무효화시키고 싶은 내용을 일부만 포함하여 장벽특허를 무효화 시키기에는 무리가 있는 특허일 것으로 판단된다. 우선 본 모듈에서는 각 특허의 정보 중에서 제목, 초록, 전체 청구항, 상세한 설명과 같이 특허의 내용과 관련된 텍스트정보를 합친다. 특허마다 합쳐진 전체 텍스트에 대해서 출현하는 단어의 개수를 구하고 그 중에서 관심어의 출현 빈도를 계산한다. 따라서 각 특허를 관심어의 벡터로 표현할 수 있고 표현된 특허-관심어 벡터와 수학식 3을 이용하여 개별 특허의 정보량을 구할 수 있다.

수학식 3은 변형된 정보량 계산식으로 관심을 두고 있는 정보의 양을 계산한다. 따라서 수학식 3을 이용하면 불필요한 정보를 제외하고 분석자가 관심을 두고 있는 정보가 얼마나 다채롭게 표현되어지는지를 의미하는 지표를 계산할 수 있다. 정보량을 계산한 뒤 본 후보특허선정부(137)에서는 정보량을 내림차순으로 정렬하여 사전에 정해진 개수만큼의 후보 특허를 선정하고 이를 사용자에게 보여준다. 선정된 후보특허들에 대해서는 추가적인 처리없이 다음 모듈인 유사도산출부(139)에서 유사도를 계산하게 된다.

유사도산출부(139)는 선정된 후보특허들에 대한 단어빈도 정보를 기초로 각 특허문서의 주제(topic) 분석을 수행하여 주제별 확률분포를 산출하고, 각 특허문서의 주제별 확률분포를 이용하여 기준특허와의 텍스트 유사도를 산출하게 된다(S60).

유사도산출부(139)는 주제확률분포산출부(140), 유사도계산부(142) 및 유사특허군집화부(144)를 포함할 수 있다.

주제확률분포산출부(140)는 기준특허와 유사한 유사특허를 추출하기 위해서 주제 모델링 알고리즘을 이용하여 특허문서 간의 벡터 유사도를 분석함으로써 특허문서 간의 잠재적인 연관관계까지 고려할 수 있다. 만일, 후보특허선정부(137)에 의해 복수개의 후보특허가 선정된 경우, 유사특허군집화부(144)는 일예로, 도 8에 도시된 바와 같이 빈도측정부(133)를 통해 생성된 각 후보특허의 단어별 가중치에 대해 주제 모델링 알고리즘을 적용하여 각각의 특허문서가 각 주제에 속할 확률분포를 산출할 수 있다. 예컨대, 주제 모델링 알고리즘은 잠재적 디리클레 할당(LDA; Latent Dirichlet Allocation) 알고리즘이 될 수 있다.

LDA 알고리즘은 공지기술로 특허문서의 주제(Topic)별 분류에서 일반적으로 사용되는 툴로서, 도 8와 같은 매트랩 코드(Matlab Code)를 참조하여 간단하게 설명하고자 한다. 기본적으로 LDA 알고리즘은 특허문서가 단어의 묶음이고, 특허문서는 특정 주제를 가지고 있으며, 주제는 특허문서들마다 공유된다는 전제에서 시작된다. 예를 들어 도 8a와 같이 8개의 특허문서가 있고, 각 특허문서는 총 16개의 단어로 이루어져 있다고 가정할 경우 단어의 출현빈도에 따라 칼라로 표시하는 것이 가능하다. 예컨대, 초록색이 짙을수록 단어의 출현빈도가 높은 것이고, 파란색이 짙을수록 출현빈도가 낮은 것을 의미한다. 도 8a의 7번 특허문서의 경우 매트릭스(3,4)의 단어만 출현빈도가 상당히 높은 것을 알 수 있다.

도 8b는 주제에 대한 분포를 나타내는 것으로, 8개의 주제(Topic1~Topic8)가 있고 주제별로 어떤 단어들을 가지고 있는지를 나타낸다. 즉, 주제는 단어들에 대한 분포를 의미한다. 예컨대, 주제1의 경우는 첫 번째에서 네 번째((1,1)~(1,4))까지 단어들의 출현빈도가 높은 것이다. 따라서, 각 특허문서별 단어별 가중치에 대해 LDA를 적용하면 도 8b와 같은 비슷한 양상을 보이게 되며, 이를 통해 각 주제를 찾게 된다.

도 8c는 각 특허문서에 대한 주제의 분포를 나타낸 것으로, 빨간색은 데이터를 만들 때 사용된 것이고, 파란색이 LDA를 통해서 찾아낸 것이다. 즉, x축에 해당되는 주제의 순서를 무시했을 때, 결국 LDA를 통해 각 특허문서의 주제를 유사하게 찾아낼 수 있다는 것을 알 수 있다.

상기 LDA(Latent Dirichlet Allocation) 외에도 주제 모델링 알고리즘으로 LSA(Latent Semantic Analysis) 또는 PLSA(Probabilistic latent semantic analysis)가 사용될 수도 있다.

주제(Topic; '기술분야'에 해당됨)의 수는 추출 시스템(1)에 미리 설정될 수 있으며, 주제의 수는 여러 번의 테스트에 걸쳐 8개 내지 10개로 분류하는 것이 가장 적절한 것으로 확인되었다. 따라서, 하기 표 3과 같이 주제를 먼저 9개로 분류한 후 다수의 특허문서에 LDA를 적용하여 각 주제별로 분류하였다.

하기 표 2에서와 같이 LDA의 결과로 도출된 각 주제에 속하는 특허 특허문서의 수와 각 주제를 구성하는 주요 키워드 정보를 나타낼 수 있으며, 각 주제에 대응하는 주요 키워드 정보를 이용하여, 해당 주제의 특성을 판단하는 것이 가능하다. 예를 들어 Topic 1의 경우 작은 입자를 접착하는 방식(Adhesive particulate bonding)의 기술 군집임을 유추할 수 있다.

이와 같이 주제확률분포산출부(140)는 주제별 키워드를 추출하고, 각 특허 특허문서별로 각 주제에 속할 확률분포를 하기 표 3과 같이 산출할 수 있다.

이어, 유사도계산부(142는 각 주제에 속할 확률분포를 이용하여 특허문서간 유사도 분석을 실행하여 특허문서간 유사도를 산출할 수 있으며, 유사도는 헬링거 디스턴스(Hellinger distance), 코사인 유사도(Cosine Similarity) 및 자카드계수(Jaccard similarity coefficient) 중 어느 하나의 알고리즘에 의해 산출될 수 있다.

일예로, 유사도계산부(142)는 하기 수학식 4의 헬링거 디스턴스(Hellinger distance; H(P,Q)에 의해 후보특허선정부(137)에서 선정된 기준특허와 다른 비교 대상 특허문서 사이의 유사도를 산출할 수 있다.

여기서, i는 주제, k는 주제의 개수, pi는 기준특허 특허문서의 주제 확률분포, qi는 비교대상 특허문서의 주제 확률분포임.

헬링거 디스턴스로 산출되는 결과값(H(P,Q)은 0에서 1 사이의 값을 가지게 되는 데, 결과값이 작을수록 두 특허문서 사이의 유사도 정도가 크고, 결과값이 클수록 두 특허문서 간의 유사도 정도가 작다. 따라서, 최종 유사도 값(S(P,Q)은 직관적인 이해가 용이하도록 헬링커 디스턴스의 결과값(H(P,Q)을 하기 수학식 5와 같이 1로 감산한 후 감산된 값을 유사도 값으로 사용할 수도 있다.

하기 표 4는 상기 수학식 4 및 5에 의해 산출된 특허문서별 유사도 매트릭스의 일례를 나타낸 것이다.

이어, 유사특허군집화부(144)는 유사도계산부(142)에 의해 산출된 유사도 정보에 기초하여 기준특허와 유사한 유사특허들을 군집화하여 제공하게 된다. 이때 기준특허가 복수개일 경우 기준특허 별로 유사특허를 군집화하는 것도 가능하다.

본 발명에서 제시하는 시스템의 마지막 모듈인 유사도 계산 모듈에서는 앞 단계에서 정보량을 기준으로 장벽특허 무효화의 가능성이 있다고 판단된 후보특허들에 대해, 토픽모델링을 기반으로 장벽특허와의 텍스트 구조적 유사도를 계산한다. 토픽모델링은 문서들의 집합에서 단어들의 출현을 기반으로 잠재적인 토픽들을 파악하고, 토픽과 단어 간의 연관관계를 이용하여 각 문서들이 어떤 토픽을 어느 정도 포함하고 있는지 추론할 수 있는 알고리즘이다. 토픽모델링의 최종 계산물로 문서와 토픽 간의 확률분포를 얻을 수 있는데, 본 모듈에서는 각 특허 마다 가지고 있는 토픽의 확률분포를 이용하여 특허 간 텍스트구조의 유사도를 계산한다. 따라서 기준특허와 유사한 텍스트로 구성되어있는 특허는 높은 유사도를 나타낼 것이며 특허의 내용을 구성하는 단어가 장벽특허와 달라질수록 특허에서 다루고 있는 주제가 변화하므로, 낮은 유사도를 나타낼 것이다. 유사도를 계산 할 때에는 코사인 유사도(Cosine similarity), 자카드 계수(Jaccard coefficient), 유클리드 거리(Euclidean distance) 등 다양한 방법을 이용할 수 있지만, 본 시스템에서는 특허의 토픽분포가 확률분포라는 점에 착안하여, 두 확률분포간의 유사도를 계산하는데 사용되는 헬링거 거리(Hellinger distance)를 사용한다. 따라서 본 유사도계산모듈의 최종 계산물은 각각의 후보특허들과 장벽특허간의 헬링거 거리이며, 헬링거 거리의 수식은 수학식 4와 같다. 또한 유사도는 1에 가까울수록 유사하다는 의미이고 0에 가까울수록 다르다는 의미를 가지는 것과 반대로, 헬링거 거리는 유사할수록 0에 가까워지고 다를수록 1에 가까워지는 특성을 보이기 때문에, 직관적인 이해를 돕기 위해서 수학식 5를 이용하여 헬링거 거리를 유사도의 의미를 가지도록 변환한다.

이후, 유사특허추출부(150)는 유사특허군집화부(144)를 통해 군집화된 기준특허와 그 유사특허를 미리 설정된 임계값을 기준으로 필터링하여 제거 또는 추출할 수 있다. 즉, 유사특허추출부(150)는 기준특허와 비교대상 특허문서 간의 유사도 정보를 미리 설정된 임계값과 비교하여 기준특허와 유사한 관심문서들을 선별하여 추천할 수 있다.

즉, 도 9에서 보는 바와 같이, 추출 시스템(1)에서는 기준특허와 유사한 특허문서를 군집화하여 제공하게 되는 데, 해당 기준특허와 유사한 유사특허들 간의 텍스트 유사도에 대한 정보를 제공하게 된다.

이어, 도 9의 우측 상단에 위치된 특허목록 저장 버튼을 클릭하면, 도 10에서와 같이 유사특허추출부(150)에 의해 추출된 유사특허들의 정보와 유사도 값이 순위별로 저장되며, 저장된 특허목록을 유사특허출력부(170)를 통해 디스플레이할 수 있다. 저장되는 특허목록은 엑셀파일이나 텍스트파일일 수 있으며, 유사도값은 정보엔트로피 기반 구성요소 유사도 값과 유사도산출부(139)에 의해 산출된 텍스트유사도 값일 수 있다.

유사도 분석 과정에 앞서 사용자는 기준특허와의 유사도를 분석할 때 도 5에서 특허명세서의 분석 범위(초록, 청구범위, 상세한 설명 등)를 선택할 수 있는데, 이는 정보량 분석 모듈에서와 마찬가지로 특허명세서 전체를 대상으로 유사특허를 조사하는 경우에는 상세한 설명을 포함한 특허명세서 전체를 사용하도록 하고, 청구항 단위로 유사특허를 조사하고자 하는 경우에는 전체 청구항까지만 사용하도록 하여 분석자의 목적에 잘 부합하는 결과를 도출할 수 있도록 하기 위함이다. 다만, 분석 범위가 늘어날수록 유사도 분석에 소요되는 시간은 증가된다.

유사도 분석 후에 최종적으로 후보특허들의 순위는 다양한 기준으로 결정될 수 있다. 그러나 본 유사도 모듈에서 계산되는 유사도는 기술적인 유사성이 아닌 텍스트 구조상 단어의 출현 빈도에 따른 구조적인 유사도이기 때문에 유사도 자체만으로 유사 기술의 가능성을 판단하기보다는 정보량을 중심으로 하고 구조적 유사도는 참고의 수준으로 사용하는 것이 바람직하다. 따라서 최종적으로 순위를 매길 때에는 정보량을 기준으로 순위를 매기며, 유사도는 추후 분석자가 개별 특허들을 점검할 때 참고하는 용도로 사용할 수도 있다.

이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고 후술하는 특허청구범위에 의해 한정되며, 본 발명의 구성은 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 그 구성을 다양하게 변경 및 개조할 수 있다는 것을 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 쉽게 알 수 있다.

1: 특허 추출시스템 10: 특허 데이터베이스
110: 기준특허설정부 130: 정보처리부
131: 키워드추천부 133: 빈도측정부
135: 정보량산출부 137: 후보특허선정부
139: 유사도산출부 140: 주제확률분포산출부
142: 유사도계산부 144: 유사특허군집화부
150: 유사특허추출부 170: 유사특허출력부

Claims

(a) 복수의 특허문서 중 관심대상인 적어도 어느 하나의 기준특허를 선정한 후 해당 기준특허에 대한 주요 키워드를 포함한 특허정보를 설정하는 단계;
(b) 상기에서 설정된 키워드를 이용하여 특허 모집단 또는 특허 데이터베이스에 수록된 전체 특허를 대상으로 해당 키워드에 대한 정보엔트로피를 계산하는 단계; 및
(c) 상기에서 산출된 정보엔트로피를 기초로 기준특허와 유사한 적어도 하나 이상의 후보특허를 선정하여 제공하는 단계;를 포함하는 유사특허 추출 방법.
청구항 1에 있어서,
(d) 상기에서 선정된 후보특허들에 대한 단어빈도 정보를 기초로 각 후보특허의 주제(topic) 분석을 수행하여 주제별 확률분포를 산출하고, 각 후보특허의 주제별 확률분포를 이용하여 기준특허와의 텍스트 유사도를 산출하는 단계; 및
(e) 상기에서 산출된 유사도에 따라 기준특허와 유사한 텍스트 구조를 갖는 유사특허를 추출하여 제공하는 단계;를 더 포함하는 유사특허 추출 방법.
청구항 1에 있어서,
상기 (a)단계에서 특허정보는 기준특허의 특허번호, 조사구간 및 IPC분류코드 중 어느 하나 이상을 포함하는 유사특허 추출 방법.
청구항 1에 있어서, 상기 정보 엔트로피(n)는,
하기 수식인 섀넌 엔트로피(Shannon entropy)에 의해 산출되는 유사특허 추출 방법.
[수식]

여기서, n: 각 특허문서의 필요 정보량의 값을 의미, k: 분류된 키워드의 수, h_i: 각 키워드의 발생 확률로서, 하나의 특허문서내의 전체 단어 출현수에 대한 키워드 i에 해당하는 단어의 출현빈도 확률임.
청구항 1에 있어서,
상기 기준특허는 사업화에 장애가 되는 장벽특허 또는 관심대상 특허인 것을 특징으로 하는 유사특허 추출 방법.
청구항 2에 있어서,
상기 (d)단계는,
상기 단어빈도 정보에 대해 주제(topic) 모델링 알고리즘을 적용하여 선정된 후보특허가 각 주제에 속할 확률분포를 산출하는 단계;
상기 각 후보특허의 주제별 확률분포와 기준특허의 주제 확률분포를 이용하여 기준특허와 비교대상 후보특허 간의 유사도를 산출하는 단계; 및
상기에서 산출된 유사도에 기초하여 상기 기준특허와 유사한 특허문서들을 군집화하여 제공하는 단계;를 포함하는 유사특허 추출 방법.
청구항 6에 있어서,
상기 주제 모델링 알고리즘은 LDA(Latent Dirichlet Allocation), LSA(Latent Semantic Analysis) 및 PLSA(Probabilistic latent semantic analysis) 중 어느 하나의 알고리즘이고, 상기 유사도는 헬링거 디스턴스(Hellinger distance), 코사인 유사도(Cosine Similarity) 및 자카드계수(Jaccard similarity coefficient) 중 어느 하나의 알고리즘에 의해 산출되는 유사특허 추출 방법.
청구항 2에 있어서,
상기 (e)단계의 유사도는,
상기 각 특허문서가 해당 주제에 속할 확률분포가 하기 수식의 헬링거 디스턴스(Hellinger distance; H(P,Q)에 적용되어 산출되는 유사특허 추출 방법.
[수식]

여기서, k는 주제, t는 주제의 개수, p_k는 기준특허의 주제 확률분포, q_k는 비교대상 특허문서의 주제 확률분포임.
청구항 8에 있어서,
상기 헬링거 디스턴스(H(P,Q)가 특허문서간의 확률분포가 동일할 경우 그 값이 '0' 이므로, 상기 유사도는 편의상 하기 수식에 의해 최종 값(S(P,Q), similarity)이 결정되는 유사특허 추출 방법.
[수식]
복수의 특허문서 중 관심대상인 적어도 어느 하나의 기준특허를 선정한 후 해당 기준특허에 대한 주요 키워드를 포함한 특허정보를 설정하는 기준특허설정부;
복수의 특허문서에서 각 문서별로 주요 키워드를 추출하여 문서 내 출현빈도를 각각 측정하는 빈도측정부;
상기 빈도측정부에서 측정된 문서내 전체 단어의 출현수에 대한 주요 키워드의 문서 내 출현빈도 확률을 통해 각 문서의 정보 엔트로피를 산출하는 정보량산출부; 및
상기에서 산출된 정보엔트로피를 기초로 기준특허와 유사한 적어도 하나 이상의 후보특허를 선정하는 후보특허선정부;를 포함하는 유사특허 추출 시스템.
청구항 10에 있어서,
상기에서 선정된 후보특허들에 대한 단어빈도 정보를 기초로 각 후보특허의 주제(topic) 분석을 수행하여 주제별 확률분포를 산출하고, 각 후보특허의 주제별 확률분포를 이용하여 기준특허와의 텍스트 유사도를 산출하는 유사도산출부; 및
상기에서 산출된 유사도에 따라 기준특허와 유사한 텍스트 구조를 갖는 유사특허를 추출하여 제공하는 유사특허추출부;를 더 포함하는 유사특허 추출 시스템.
청구항 10에 있어서,
상기 정보 엔트로피(n)는,
하기 수식인 섀넌 엔트로피(Shannon entropy)에 의해 산출되는 유사특허 추출 시스템.
[수식]

여기서, n: 각 특허문서의 필요 정보량의 값을 의미, k: 분류된 키워드의 수, h_i: 각 키워드의 발생 확률로서, 하나의 특허문서내의 전체 단어 출현수에 대한 키워드 i에 해당하는 단어의 출현빈도 확률임.
청구항 11에 있어서,
상기 유사도산출부는,
생성된 단어빈도 정보에 대해 주제 모델링 알고리즘을 통해 각 특허문서가 각각의 주제에 속할 확률분포를 산출하는 주제확률분포산출부;
상기 기준특허설정부에서 기준특허로 선정된 특허문서의 주제 확률분포와 다른 비교대상 문서의 주제 확률분포를 비교하여, 기준특허와 다른 특허문서 간의 유사도를 계산하는 유사도계산부; 및
상기 유사도계산부에서 산출된 유사도에 기초하여 상기 기준특허와 유사한 특허문서들을 군집화하여 제공하는 유사특허군집화부;를 포함하는 유사특허 추출 시스템.
청구항 11에 있어서,
상기 유사도계산부는,
상기 각 특허문서가 해당 주제에 속할 확률분포가 하기 수식의 헬링거 디스턴스(Hellinger distance; H(P,Q)에 적용되어 산출되는 것을 특징으로 하는 유사특허 추출 시스템.
[수식]

여기서, k는 주제, t는 주제의 개수, p_k는 기준특허의 주제 확률분포, q_k는 비교대상 특허문서의 주제 확률분포임.