KR20180086084A

KR20180086084A - 인공 지능 기술을 적용한 기계 학습 기반의 입력 특허 집합과 관계성 높은 특허 집합을 생성하는 방법 및 장치

Info

Publication number: KR20180086084A
Application number: KR1020170010055A
Authority: KR
Inventors: 강민수; 황재성
Original assignee: (주)광개토연구소
Priority date: 2017-01-20
Filing date: 2017-01-20
Publication date: 2018-07-30

Abstract

본 발명은 인공 지능 기술을 적용한 기계 학습 기반의 입력 특허 집합과 관계성 높은 특허 집합을 생성하는 방법 및 장치에 관한 것이다. 본 발명은 (A) 컴퓨터 장치가, 입력 특허 집합 또는 상기 입력 특허 집합에 속하는 특허 중에서 선별 처리를 통하여 구성되는 선별 특허 집합으로 가공 대상 특허 집합을 확정하는 단계; (B) 상기 컴퓨터 장치가, (B1) 상기 가공 대상 특허 집합에 대하여, 상기 가공 대상 특허 집합에 속하는 특허인 가공 대상 특허 집합 특허별로 관련 특허를 추출하고, (B2) 추출된 상기 관련 특허로 관련 후보 특허 집합을 생성하는 단계; (C) 상기 컴퓨터 장치가, 상기 가공 대상 특허 집합에 속하지 않는 특허들을 포함하는 대조 특허 집합이 획득된 상태에서, (C1) 상기 가공 대상 특허 집합에 속하는 가공 대상 특허 집합 특허와 상기 대조 특허 집합에 속하는 대조 특허 집합 특허에 각기 다른 속성값을 부여하고, (C2) 상기 가공 대상 특허 집합 특허와 상기 대조 특허 집합 특허를 대상으로 적어도 하나 이상의 기계 학습 기반의 분류 모델을 생성하는 단계; (D) 상기 컴퓨터 장치가, (D1) 상기 분류 모델을 관련 후보 특허 집합 특허에 적용하여, 상기 관련 후보 특허 집합 특허마다 분류 모델값을 생성하고, (D2) 상기 분류 모델값을 사용하여 관련 후보 특허 집합 특허 중에서 관련 특허 집합을 생성하는 단계;를 포함하는 방법으로 프로세싱한다.
본 발명을 활용하면, 첫째, 주어지는 특허 집합과 관계성이 높은 특허들을 효과적으로 발굴할 수 있고, 둘째, 관계성 높은 특허 집합을 발굴하여, 주어지는 특허 집합을 비용 효율적으로 보충할 수 있다.

Description

인공 지능 기술을 적용한 기계 학습 기반의 입력 특허 집합과 관계성 높은 특허 집합을 생성하는 방법 및 장치{Device and Method on Making Highly Related Patent Set from Input Patent Set Based on Machine Learning Methodology Using Artificial Intelligence Technology}

본 발명은 인공 지능 기술을 적용한 기계 학습 기반의 입력 특허 집합과 관계성 높은 특허 집합을 생성하는 방법 및 장치에 관한 것으로 더욱 더 상세하게는 주어진 특허 집합의 계량 통계학적 특성과 관계성 높은 특허 집합을 기계 학습 알고리즘을 사용하여 생성하는 인공 지능 기술을 적용한 기계 학습 기반의 입력 특허 집합과 관계성 높은 특허 집합을 생성하는 방법 및 장치에 관한 것이다.

글로벌 기술 집단 지성의 결집체인 특허 데이터는 21세기 지식 경제 시대에서 그 중요성이 더욱 더 높아져 가고 있다. 이에 따라, 특허 데이터를 대상으로 하는 검색이나 분석, 그리고, 검색이나 분석을 기반으로 한 특허 정보의 시각화 및 콘텐츠화의 중요성도 아울러 증대되고 있다. 특허 검색의 결과로 특허 집합이 생성되며, 특허 분석은 생성/가공된 특허 집합을 대상으로 이루어진다.

이때, 검색 결과 또는 분석의 대상이 되는 특허 집합에는 3가지 중요한 문제가 발생한다.

첫째는 노이즈와 누락의 문제이다. 특히, 키워드를 사용하는 검색에서는 그 키워드를 사용하지 않은 특허를 추출하지 못하는 문제가 통상적으로 발생하고 있다. 이는 입력된 키워드에 시소러스를 적용하여 검색 결과를 확장하는 경우에도 여전히 많은 누락 특허가 발생하고 있다. 가장 중요한 이유 중의 하나는 동일 컨셉을 표현할 때, 특허 명세서 작성자마다 다양한 방식으로 표현하는 경향으로 파악된다. 한편, 검색어가 포함된 문서라 하더라도 그 검색어가 중요하게 사용되지 않는 경우에도 사실 상의 노이즈가 되게 된다. 특히, 노이즈의 문제는 누락을 방지하기 위하여 검색 범위를 넓힐 때 더욱 더 많이 발생하게 된다.

둘째는 특허 집합의 최신성의 문제이다. 특허 데이터의 사용자는 특정 시점을 기준으로 한 특허 집합을 생성하게 되는데, 시간이 경과하게 되면 이러한 특허 집합은 진부화가 되게 된다. 따라서, 특허 집합 생성 시점과 최근 시점 사이에 발생한 특허를 효과적으로 보충할 필요성이 있는데, 보충을 위해서는 많은 시간과 비용이 따르게 된다. 한편, 특정 시점에 생성된 특허 집합에 대해서도 그 특정 시점 이전에 발생된 특허의 누락의 문제가 있을 수 있으며, 이 집합에도 다른 특허와는 관계성이 약한 노이즈 특허가 포함되어 있을 수 있다.

셋째, 자신이 보유하고 있는 특허 집합과 종합적으로 관련성 높은 타 특허로 이루어진 특허 집합을 발굴하려 하는 경우, 시간이나 비용이 너무 많이 소요되게 된다. 물론, 개별 특허별로 인용 특허나 피인용 등을 발굴할 수 있다. 하지만, 이럴 경우 너무 많은 특허들이 나타나게 되는 문제가 있거나, 인용 관계가 없는 특허나, 다른 국가의 특허를 발굴하기는 극히 어렵게 된다.

최근 인공 지능 기술의 한 분야 또는 통계학의 한 분야로 기계 학습 방법론이 많이 연구되고 다양한 알고리즘이 개발되어 오고 있다. 이러한 다양한 기계 학습 알고리즘은 기존의 통계학적 방법보다 월등이 나은 성능을 보여주고 있다.

본 발명은 이러한 기계 학습 기반 기술을 활용하여 위에 제시한 문제를 해결하기 위해 고안된 것이다.

[인용 문헌]

KR 1020120033381 A1

KR 1020120046670 A1

본 발명이 해결하고자 하는 첫 번째 기술적 과제는 인공 지능 기술을 적용한 기계 학습 기반의 입력 특허 집합과 관계성 높은 특허 집합을 생성하는 방법을 제시하는 것이다.

본 발명이 해결하고자 하는 두 번째 기술적 과제는 인공 지능 기술을 적용한 기계 학습 기반의 입력 특허 집합과 관계성 높은 특허 집합을 생성하는 장치를 제시하는 것이다.

본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 적어도 2 이상의 특허를 포함하는 특허 집합이 입력되었을 때, 주어진 입력 특허 집합과 관계성이 존재하는 관련 특허 집합을 생성하는 방법으로서, (A) 컴퓨터 장치가, 입력 특허 집합 또는 상기 입력 특허 집합에 속하는 특허 중에서 선별 처리를 통하여 생성되는 특허를 포함하는 선별 특허 집합 중 어느 하나로 가공 대상 특허 집합을 확정하는 단계; (B) 상기 컴퓨터 장치가, (B1) 상기 가공 대상 특허 집합에 대하여, 상기 가공 대상 특허 집합에 속하는 특허인 가공 대상 특허 집합 특허별로 관련 특허를 추출하고, (B2) 추출된 상기 관련 특허로 관련 후보 특허 집합을 생성 하는 단계; (C) 상기 컴퓨터 장치가, 상기 가공 대상 특허 집합에 속하지 않는 특허들을 포함하는 대조 특허 집합이 생성된 상태에서, (C1) 상기 가공 대상 특허 집합에 속하는 가공 대상 특허 집합 특허와 상기 대조 특허 집합에 속하는 대조 특허 집합 특허에 각기 다른 속성값을 부여하고, (C2) 상기 가공 대상 특허 집합 특허와 상기 대조 특허 집합 특허를 대상으로 적어도 하나 이상의 기계 학습 기반의 분류 모델을 생성하는 단계; (D) 상기 컴퓨터 장치가, (D1) 상기 분류 모델을 관련 후보 특허 집합 특허에 적용하여, 상기 관련 후보 특허 집합 특허마다 분류 모델값을 생성하고, (D2) 상기 분류 모델값을 직접 또는 변형 사용하여 관련 후보 특허 집합 특허 중에서 관련 특허 집합을 생성하는 단계;를 포함하는 방법을 제시한다.

상기 (A) 단계에서, 상기 선별 처리는 (A1) 입력 특허 집합에 속하는 개별 특허별로, 상기 개별 특허와 상기 입력 특허 집합에서 상기 개별 특허를 제외한 여특허로 구성되는 여특허 집합으로 분할하는 단계; (A2) 상기 개별 특허별로 상기 개별 특허와 상기 여특허 집합 간의 관계성 측정값을 생성하는 단계; (A3) 상기 관계성 측정값을 사용하여 선별 특허 집합을 생성하는 단계;를 포함하는 것이 바람직하다.

상기 관계성 측정값은 상기 개별 특허와 상기 여특간의 적어도 하나 이상의 관계성 파라미터별로 관계성 파라미터 값을 생성하는 방식으로 처리하는 것이 바람직하다.

상기 관련 특허 집합에는 상기 입력 특허 집합에 속하는 특허가 포함되지 않는 것인 것이며, 상기 관련 후보 특허 집합에는 상기 입력 특허 집합에 속하는 특허가 포함되지 않는 것인 것이 바람직하다.

상기 (B-1) 단계에서, 상기 가공 대상 특허 집합 특허별로 관련 특허를 추출하는 것은 상기 가공 대상 특허 집합 특허와의 인용 관계 특허, 피인용 관계 특허, 공동 인용 관계 특허, 공동 피인용 관계 특허, 공동 키워드 관계 특허, 공동 특허 분류 관계 특허, 공동 발명자 관계 특허 중 어느 하나 이상의 관계를 가지는 특허를 추출하는 것인 것이 바람직하다.

상기 (B-1) 단계에서, 상기 가공 대상 특허 집합 특허별로 관련 특허를 추출하는 것은 상기 가공 대상 특허 집합 특허별로 관련 특허를 추출하는 것은 기 설정된 제한 조건을 부가하여 생성하는 것인 것이며, 상기 제한 조건은 시간 종류별 시간 범위 제한, 권리자 종류별 권리자 제한, 특허 속성 종류별 특허 속성 제한, 권리자 속성 종류별 권리자 속성 제한, 특허 발행 국가 제한 중 어느 하나 이상인 것이며, 상기 시간 종류는 출원일, 공개일, 등록일, 우선일 중 어느 하나인 것이며, 상기 특허 권리자 종류는 출원인, 현재 권리자 중 어느 하나 이상인 것이며, 상기 특허 속성 종류는 거래 이력, 소송 사용 이력, 표준 특허풀 등재, 계량화된 인용 또는 피인용 특성, 특허 평가 속성, 특허 분류 속성 중 어느 하나 이상인 것이며, 권리자 속성은 권리자의 국적, 권리자의 규모, 권리자의 기관 속성, 권리자 평가 속성 및 권리자 분류 속성 중 어느 하나 이상인 것이 바람직하다.

상기 (B-2) 단계에서, 추출된 상기 관련 특허로 관련 후보 특허 집합을 생성하는 것은 상기 가공 대상 특허 집합 특허별로 추출된 관련 특허를 합집합 연산을 통하여 생성하거나, 상기 관련 특허에 관계성 종류별 관계성 분포 정보를 포함하여 생성하는 것이 바람직하다.

상기 대조 특허 집합의 획득은 대조 집합의 생성을 통해서 이루어진다. 상기 대조 집합의 생성은 상기 (A) 단계나 그 이전 단계 또는 (A) 단계 이후의 단계에서 생성되거나 별도의 과정을 통해서 생성될 수 있다. 상기 대조 집합의 획득은 상기 (C1) 단계 이전에 생성되면 된다. 상기 대조 집합의 생성은, 상기 (A) 단계 이후에 생성되는 경우에는 상기 관련 후보 특허 집합에서 랜덤 하게 기 설정된 개수의 특허를 추출하는 제1 방식, 상기 관련 후보 특허 집합에서 상기 가공 대상 특허 집합과의 관계성 종류별 관계성 분포 정보가 하위인 특허 순으로 기 설정된 개수의 특허를 추출하는 제2 방식이 있을 수 있다. 한편, 상기 대조 특허 집합은 상기 입력 특허 집합이 기 설정된 적어도 2 이상의 노드로 구성되는 분류 체계 상에서 특정한 위치에 속하는 특허 집합일 경우, 상기 분류 체계 상 상기 입력 특허 집합과 인접성이 있는 분류 체계 상에 속하는 특허 집합에 포함되어 있는 상기 관련 후보 특허 집합 특허에서 추출하는 제3 방식이 사용될 수 있다. 한편, 상기 대조 집합의 생성은, 상기 (A) 단계나 그 이전에 생성되는 상기 입력 특허 집합이 기 설정된 적어도 2 이상의 노드로 구성되는 분류 체계 상에서 특정한 위치에 속하는 특허 집합일 경우, 상기 분류 체계 상 상기 입력 특허 집합과 인접성이 있는 분류 체계 상에 속하는 특허 집합에 포함되어 특허로 생성되는 제4의 방식이 될 수 있을 것이다.

상기 (C2)에서 상기 분류 모델을 생성하는 것은 (C2-1) 상기 가공 대상 특허 집합에 대하여 트레이닝 가공 대상 특허 집합과 테스트 가공 대상 특허 집합으로 2분화하고, 상기 대조 특허 집합에 대하여 트레이닝 대조 특허 집합과 테스트 대조 특허 집합으로 2분화하는 단계; (C2-2) 상기 트레이닝 가공 대상 특허 집합에 속하는 트레이닝 가공 대상 특허 집합 특허별 설명 변수값을 입수하고, 상기 트레이닝 대조 특허 집합에 속하는 트레이닝 대조 특허 집합 특허별 설명 변수값을 입수하며, 상기 속성값을 반응 변수값으로 입수하는 단계; (C2-3) 상기 설명 변수값과 반응 변수값으로 기 설정된 기계 학습 알고리즘을 사용하여 분류 모델을 생성하는 것인 것이 바람직하다.

상기 (C2-2)에 있어서, 상기 트레이닝 가공 대상 특허 집합 특허별 설명 변수값은 상기 트레이닝 가공 대상 특허 집합에 속하는 모든 특허별로 생성되는 것이며, 상기 트레이닝 가공 대상 특허 집합 중에서 1개의 트레이닝 가공 대상 특허 집합 특허를 선택하고, 상기 선택된 1개의 트레이닝 가공 대상 특허 집합 특허와 상기 선택된 1개의 트레이닝 특허가 제외된 트레이닝 가공 대상 특허 집합과의 적어도 하나 이상의 관계성 파라미터별 관계성 파라미터 값을 생성하고 저장하는 과정을 상기 트레이닝 가공 대상 특허 집합 특허 모두에 대하여 실행하는 방식으로 생성되며, 상기 트레이닝 대조 특허 집합 특허별 설명 변수값은 상기 트레이닝 대조 특허 집합에 속하는 모든 특허별로 생성되는 것이며, 상기 트레이닝 대조 특허 집합 중에서 1개의 트레이닝 대조 특허 집합 특허를 선택하고, 상기 선택된 1개의 트레이닝 대조 특허 집합 특허와 상기 선택된 1개의 트레이닝 특허가 제외된 트레이닝 대조 특허 집합과의 적어도 하나 이상의 관계성 파라미터별 관계성 파라미터 값을 생성하고 저장하는 과정을 상기 트레이닝 대조 특허 집합 특허 모두에 대하여 실행하는 방식으로 생성되는 것인 것이 바람직하다.

상기 관계성 파라미터는 선택 특허가 속해 있었고 상기 선택 특허만이 제외된 특허로 구성되는 비교 특허 집합과 상기 선택 특허 간의 관계성으로 정의되는 것이며, 상기 관계성 파라미터는 인용 관계성 파라미터, 피인용 관계성 파라미터, 공동 인용 관계성 파라미터, 공동 피인용 관계성 파라미터, 공동 키워드 관계성 파라미터, 공동 특허 분류 관계성 파라미터, 공동 발명자 관계성 파라미터, 특성 키워드 관계성 파라미터 중 어느 하나 이상인 것이며, 상기 관계성 파라미터 값은 기 설정된 인용 관계성 파라미터 값의 생성 방법, 기 설정된 피인용 관계성 파라미터 값의 생성 방법, 기 설정된 공동 인용 관계성 파라미터 값의 생성 방법, 기 설정된 공동 피인용 관계성 파라미터 값의 생성 방법, 기 설정된 공동 키워드 관계성 파라미터 값의 생성 방법, 기 설정된 공동 특허 분류 관계성 파라미터 값의 생성 방법, 기 설정된 공동 발명자 관계성 파라미터 값의 생성 방법 중 어느 하나 이상의 방법에 의해 생성되는 것인 것이 바람직하다.

특성 키워드 관계성 파라미터는 상기 키워드별로 기 설정된 가중치 부여 방식에 따라 키워드별로 가중치가 부여된 관계성 파라미터인 것이 바람직하다.

상기 기계 학습 알고리즘은 부스팅, 딥러닝, 랜덤 포리스트 중 어느 하나 또는 어느 2 이상을 결합한 것인 것이 바람직하다.

상기 분류 모델은 특허별로 준비되는 관계성 파라미터 값 집합을 입력 받았을 때, 상기 특허가 서로 다른 속성값을 가지는 2개의 특허 집합 중 어느 한 집합과의 관계성에 대한 적어도 하나 이상의 계량 통계학적 수치값을 분류 모델값으로 생성하는 것인 것이 바람직하다.

제1항에 있어서, 상기 (D1) 단계는 (D1-1) 상기 관련 후보 특허 집합 특허마다 상기 관련 후보 특허 집합 특허와 상기 가공 대상 특허 집합 간의 관계성 파라미터 값 집합을 생성하는 단계;및 (D1-2) 상기 생성된 관계성 파라미터 값 집합을 상기 분류 모델에 적용하여, 상기 관련 후보 특허 집합 특허별로 분류 모델값으로 생성하는 단계;를 포함하는 것이 바람직하다.

제1항에 있어서, 상기 (D2)는 (D2-1) 상기 관련 후보 특허 집합 특허별 분류 모델값을 사용하여, 기 설정된 선별 기준을 충족시키는 관련 후보 특허 집합으로 관련 특허 집합을 생성하는 것이거나, (D2-2) 상기 관련 후보 특허 집합 특허에 대하여 상기 분류 모델값을 직접 또는 변형 사용한 기준으로 소팅하여 서열 정보가 포함된 상기 관련 후보 특허 집합 특허로 관련 특허 집합을 생성하는 것인 것이 바람직하다.

제1항에 있어서, (E) 상기 컴퓨터 장치가, (E1) 생성된 상기 분류 모델을 상기 입력 특허 집합에 적용하여, 입력 특허별 분류 모델값을 생성하는 단계; 및 (E2) 상기 입력 특허별 분류 모델값 또는 상기 입력 특허별 분류 모델값을 변형한 값(변환값 또는 랭킹 등이 예시될 수 있다.) 기 설정된 기준을 충족시키는 입력 특허만으로 상기 가공 대상 특허 집합을 생성하는 단계;를 더 포함하는 것이 바람직하다.

(F) 상기 컴퓨터 장치가, (F1) 상기 관련 특허 집합을 구성하는 관련 특허 집합 특허별로 상기 관련 특허 집합 특허와 상기 가공 대상 특허 집합 간의 적어도 하나 이상의 관계성 파라미터별 관계성 파라미터 값을 부가한 관련 특허 집합 특허 데이터를 생성하는 단계; (F2) 상기 관계성 파라미터 값에 대응되는 관계성 텍스트 데이터를 추출하고, 상기 추출된 관계성 텍스트 데이터를 부가한 관련 특허 집합 특허 데이터를 생성하는 단계; 중 어느 하나 이상의 단계를 처리하는 것인 것이 바람직하다.

본 발명이 이루고자 하는 다른 기술적 과제를 달성하기 위하여 적어도 2 이상의 특허를 포함하는 특허 집합이 입력되었을 때, 주어진 입력 특허 집합과 관련성이 존재하는 관련 특허 집합을 생성하는 컴퓨터 장치로서, (A) 입력 특허 집합 또는 상기 입력 특허 집합에 속하는 특허 중에서 선별 처리를 통하여 생성되는 특허를 포함하는 선별 특허 집합 중 어느 하나로 가공 대상 특허 집합을 확정하는 단계를 수행하는 프로세스; (B) (B1) 상기 가공 대상 특허 집합에 대하여, 상기 가공 대상 특허 집합에 속하는 특허인 가공 대상 특허 집합 특허별로 관련 특허를 추출하고, (B2) 추출된 상기 관련 특허로 관련 후보 특허 집합을 생성하는 단계를 수행하는 프로세스; (C) 상기 가공 대상 특허 집합에 속하지 않는 특허들을 포함하는 대조 특허 집합이 생성된 상태에서, (C1) 상기 가공 대상 특허 집합에 속하는 가공 대상 특허 집합 특허와 상기 대조 특허 집합에 속하는 대조 특허 집합 특허에 각기 다른 속성값을 부여하고, (C2) 상기 가공 대상 특허 집합 특허와 상기 대조 특허 집합 특허를 대상으로 적어도 하나 이상의 기계 학습 기반의 분류 모델을 생성하는 단계를 수행하는 프로세스; (D) (D1) 상기 분류 모델을 관련 후보 특허 집합 특허에 적용하여, 상기 관련 후보 특허 집합 특허마다 분류 모델값을 생성하고, (D2) 상기 분류 모델값을 직접 또는 상기 분류 모델값을 변형한 값을 사용하여 관련 후보 특허 집합 특허 중에서 관련 특허 집합을 생성하는 단계를 수행하는 프로세스를 처리하는 프로세서;를 포함하며, 선택적으로 적어도 하나 이상의 타 장치로부터 입력 특허 집합에 대응되는 입력 특허 정보를 입수 받거나, 생성된 상기 관련 특허 집합을 상기 프로세서 또는 상기 타 장치로 전송하는 통신부;를 더 포함하는 것을 특징으로 하는 장치를 제시한다.

본 발명을 활용하면 다음과 같은 효과가 있다.

첫째, 주어지는 특허 집합과 관계성이 높은 특허들을 효과적으로 발굴할 수 있다.

둘째, 관계성 높은 특허 집합을 발굴하여, 주어지는 특허 집합을 비용 효율적으로 보충할 수 있다.

셋째, 특정 시점 이전에 생성된 특허 집합에 대하여 특정 시점 이후에 발생되는 관계성 높은 특허를 발굴하여 과거에 생성된 특허 집합을 보충할 수 있다.

넷째, 키워드 검색 결과에 적용 시 효과적으로 노이즈를 제거할 수 있으며, 키워드에 의해 제한되는 검색 결과에서 누락될 가능성 높은 특허를 효과적으로 보충할 수 있어, 키워드를 사용한 검색에서 사용자 의도에 부합하는 검색 결과를 생성할 수 있다.

다섯째, 관계성 높은 특허들에 랭킹을 부여하고, 관계성의 근거 정보를 생성하여 제공할 수 있어, 사용자가 자신의 의도에 부합하는 관계성 높은 특허들을 취사 선택할 수 있다.

도 1은 본 발명에 따라 입력 특허 집합에 대한 관련 특허 집합을 생성하는 처리를 수행하기 위한 방법을 수행하는 컴퓨팅 장치의 예시적 구성을 개략적으로 도시한 개념도이다.
도 2에는 본 발명의 DB부에 대한 일 실시예적 구성이 도시되어 있다.
도 3은 본 발명의 장치의 관련 특허 집합 생성 프로세스에 대한 일 실시예를 제시하고 있다.
도 4는 본 발명의 장치의 선별 처리 프로세스에 대한 일 실시예를 제시하고 있다.
도 5는 상기 프로세서가 본 발명의 기계 학습 기반의 분류 모델을 생성하는 예시적인 방법에 대한 일 실시예를 도시하고 있다.
도 6은 상기 프로세서가 (C2)의 분류 모델을 생성하는 상세한 방법에 대한 일 실시예를 도시하고 있다.
도 7은 상기 프로세서가 관련 후보 특허 집합 특허를 대상으로 생성된 상기 분류 모델을 적용하여 분류 모델값을 생성하는 예시적인 방법을 도시하고 있다.
도 8은 상기 프로세서가 관련 후보 특허 집합별 모델값 자체 또는 모델값이 변환값을 적용하여, 관련 특허 집합을 생성하는 방법에 대한 일 실시예를 도시하고 있다.
도 9는 상기 프로세서가 생성된 분류 모델을 입력 특허 집합에 적용하여 가공 대상 특허 집합의 품질을 높이는 처리는 수행하는 일 실시예적 방법에 대해 도시하고 있다.
도 10은 상기 프로세서가 관련 특허 집합 특허에 부가 정보를 부가한 정보를 생성하는 일 실시예적 방법을 도시하고 있다.

이하, 도면을 참조하면서 더욱 더 상세하게 설명한다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 통상의 기술자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다.

본 명세서에서 '모델링'또는 '모델 생성'은 절차에 따라 머신 러닝(machine running)을 수행함을 일컫는 용어인 바, 인간의 교육 활동과 같은 정신적 작용을 지칭하도록 의도된 것이 아님을 통상의 기술자는 잘 이해할 수 있을 것이다.

또한, 본 발명의 상세한 설명 및 청구항들에 걸쳐, '포함하다'라는 단어 및 그것의 변형은 다른 기술적 특징들, 부가물들, 구성요소들 또는 단계들을 제외하는 것으로 의도된 것이 아니다. 통상의 기술자에게 본 발명의 다른 목적들, 장점들 및 특성들이 일부는 본 설명서로부터, 그리고 일부는 본 발명의 실시로부터 드러날 것이다. 아래의 예시 및 도면은 실례로서 제공되며, 본 발명을 한정하는 것으로 의도된 것이 아니다.

더욱이 본 발명은 본 명세서에 표시된 실시예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

본 명세서에서 달리 표시되거나 분명히 문맥에 모순되지 않는 한, 단수로 지칭된 항목은, 그 문맥에서 달리 요구되지 않는 한, 복수의 것을 아우른다. 이하, 통상의 기술자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

본 명세서에서 “특허”의 개념은 광의의 개념으로서, 특정 국가의 특허뿐만 아니라, 각 국가의 특허의 모든 특허를 포함하는 개념이며, 개별 특허 또는 전세계의 공개/등록된 특허에 포함된 서지 정보, 가공 서지 정보, 명세서에 포함된 정보 또는 이 정보의 가공 정보를 포함하는 것으로 이해되어야 한다.

본 발명의 몇몇 실시예는 특허 정보 서비스 시스템 및/또는 현재 알려져 있거나 향후 개발될 기타 특허 정보 서비스(A공, 분석, 추천, 거래, 검색, 리포팅, 시각화 등을 예시적으로 포함함) 시스템 상에서 구현될 수 있다. 본 발명에 따른 방법으로서 제공되는 특허 정보 서비스 추천 시스템들을 실시하기 위한 컴퓨팅 장치(1000)는 전형적으로 컴퓨터 하드웨어(예컨대, 컴퓨터 프로세서(1100), 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨터 시스템의 구성요소들을 포함할 수 있는 클라이언트 컴퓨터 및 서버 컴퓨터; 전자 통신선, 라우터, 스위치 등등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS) 및 스토리지 영역 네트워크(SAN)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어(즉, 컴퓨터 하드웨어로 하여금 특정의 방식으로 기능하게 하는 인스트럭션들)의 조합을 활용하여 원하는 시스템 성능을 달성한다.

도 1은 본 발명에 따라 입력 특허 집합에 대한 관련 특허 집합을 생성하는 처리를 수행하기 위한 방법을 수행하는 컴퓨팅 장치(1000)의 예시적 구성을 개략적으로 도시한 개념도이다.

도 1에는 본 발명에 따른 방법을 수행하는 컴퓨팅 장치(1000)가 도시되는 바, 컴퓨팅 장치(1000)(100)는 프로세서(1100) 및 DB부(1200)를 포함하며, 선택적으로 통신부(1300)를 포함할 수 있다. 상기 컴퓨팅 장치(1000)는 유무선 네트워크(3000)을 통하여 적어도 하나 이상의 타 장치(2000)과 연결되어 있다. 상기 타 장치(2000)의 예는 상기 컴퓨팅 장치(1000)를 사용하는 사용자의 컴퓨터(개인용 컴퓨터 또는 서버 또는 기타 장치)나, 상기 컴퓨팅 장치(1000)에 데이터를 제공해 주거나 데이터를 받는 서버나 장치일 수 있다.

상기 컴퓨팅 장치(1000)는 본 발명의 방법에 따라 데이터를 처리한다. 아래에서 상술되는 바와 같이 본 발명의 방법이 컴퓨터 하드웨어 및 소프트웨어의 조합을 활용하여 구현될 것이라는 점은 통상의 기술자는 용이하게 이해할 것이다.

도 2에는 본 발명의 DB부(1200)에 대한 일 실시예적 구성이 도시되어 있다. 상기 DB부(1200)에는 기반 데이터부(1210)와 가공 데이터부(1220)를 포함하고 있으며, 선택적으로 파라미터 데이터부를 더 포함하고 있을 수 있다. 상기 기반 데이터부(1210)에는 특허 서지 데이터부(1211), 특허 명세서 데이터부(1212)를 포함하고 있다. 상기 가공 데이터부(1220)에는 가공 서지 데이터부(1221), 가공 인용 데이터부(1222), 가공 특허 분류 데이터부(1223), 가공 키워드 데이터부(1224)를 포함하고 있다. 상기 본 발명의 프로세서(1100)는 상기 기반 데이터부(1210)의 데이터를 대상으로 가공 데이터를 생성하는 기능을 수행할 수 있다. 한편, 본 발명의 컴퓨팅 장치(1000)는 본 발명의 실행을 위한 가공 데이터를 직접 생성하지 않고, 기 생성된 가공 데이터를 입수하는 방식으로, 본 발명을 실시할 수도 있다.

상기 특허 서지 데이터부(1211)에는 특허와 관련된 각종 번호 정보, 각종 날짜 정보, 권리자 정보, 발명자 정보, 각종 특허 분류 정보, 각종 인용(레러펀스) 정보, 각종 이력 정보, 각종 상태 정보가 포함되어 있다. 각종 번호 정보에는 출원번호, 공개번호, 등록번호, 우선권 주장 번호, 원 출원번호, 국제 출원 번호 등이 있다. 각종 날짜에는 출원일, 공개일, 등록일, 우선권 주장일, 원출원일, 국제 출원일 등이 있다. 권리자에는 출원인, 양도인, 양수인, 현재 권리자 등이 있다. 특허 분류에는 IPC, CPC, USPC, FI, Fterm 등이 있다. 인용 정보에는 통상적인 인용 정보, 심사관에 의해 인용된 인용 정보, 선행 기술 조사에서 조사된 인용 정보 등이 있다. 이력 정보에는 양도 이력, 소송 이력이나 분쟁 이력 등이 있다. 상태 정보에는 공개, 등록, 소멸, 취하 등이 있다. 한편, 상기 특허 서지 데이터부(1211)에는 특허 분류 종류별 특허 분류의 개수 정보가 더 포함되어 있을 수 있다.

상기 특허 명세서 데이터부(1212)에는 명세서의 페이지수, 도면수, 청구항수, 독립항 수, 종속항 수 등과 같은 정보를 포함하고 있을 수 있으며, 상기 프로세스가 생성한 i번째 특허(Pi)별로 추출된 키워드 및 키워드의 개수 정보를 포함하고 있을 수 있다.

상기 가공 서지 데이터부(1221)에는 서지 사항을 가공한 정보가 포함되어 있다. 특허에 대응되는 주 특허 분류, 부 특허 분류의 구분, 상기 특허 분류 각각에 대한 특허 분류 체계별로의 부모 특허 분류, 상기 특허 분류의 적어도 하나 이상의 언어로 된 타이틀 정보 등이 특허 분류 정보를 가공한 데이터의 예가 되며, 이러한 수준의 가공은 당업자에게 자명한 것으로 보아 상세한 가공 방법은 생략한다.

상기 가공 인용 데이터부(1222)는 특정 특허의 인용 정보를 가공한 데이터와 특정 특허의 피인용 정보를 가공한 데이터를 포함하고 있다. 가공은 인용 여부, 심사관에 의한 인용 여부를 포함하고 있으며, 선택적으로 인용 관계에 있는 두 특허 간의 출원일 또는 우선일 기준으로 한 시간 거리, 권리자(출원인, 현재 권리자 등)의 일치 여부, 공동 인용(co-backward citation) 정보, 공동 피인용(co-forward citation) 정보, 공동 키워드(co-keyword) 정보를 생성할 수 있다. 한편, 상기 가공 인용 데이터부(1222)에는 특정 특허별 인용수, 피인용수, 심사관 인용수, 심사관 피인용수 정보, 연도별 피인용수와 연도별 심사관 피인용수 정보 등이 포함되어 있을 수 있다. 아울러 상기 가공 인용 데이터부(1222)는 하기의 공동 인용 정보, 공동 피인용 정보뿐만 아니라, 인용 및 피인용과 관련하여 상기 프로세서(1100)가 생성하거나 입수한 각종 관계성 파라미터값 정보도 아울러 저장하고 있다.

상기 프로세스가 공동 인용 정보의 생성 방법에 대해서 설명한다. 3개의 칼럼으로 된 특허 인용 관계 데이터가 행렬 A가 있다고 가정하자. 첫번째 칼럼은 자기 자신의 특허 식별 번호(self-patent identification number)이며, 두번째 칼럼은 자기가 인용하고 있는 적어도 하나 이상의 선행 특허인 backward citation 특허의 특허 식별 번호(backward citation patent identification number)이며, 세번째 칼럼은 심사관 인용 여부에 대한 플래그 정보이다.

이때, 상기 프로세서(1100)는 첫번째 칼럼과 두번째 칼럼의 정보를 이용하여 인용 관계 행렬 A를 생성할 수 있다.

인용 관계 행렬 A의 원소인 Aij는 i번째 특허(Pi)가 j번째 특허(Pj)를 인용하는 경우에는 1, 그렇지 않는 경우에는 0이 대응된다.

이때, A 행렬과 A의 전치 행렬인 A^T를 곱한 AA^T 는 i번째 특허와 j번째 특허의 co-backward citation의 개수 정보를 생성한다. 만약 이 개수가 n개라면, Pi와 Pj가 공통으로 인용하는 선행 특허가 j개가 있다는 것이다. 한편, A의 전치 행렬인 A^T와 A 행렬과 곱한 A^TA 는 i번째 특허와 j번째 특허의 co-forward citation의 개수 정보를 생성한다. 이 때, 상기 행렬 A는 심사관 인용 만으로도 생성할 수 있음은 당업자에게 자명할 것이다.

한편, 행렬 A를 이용하여 피인용 행렬 A'을 생성할 수 있게 된다. 피인용 관계 행렬 A'의 원소인 A'ij는 i번째 특허(Pi)가 j번째 특허(Pj)에 의해 인용되는 경우에는 1, 그렇지 않는 경우에는 0이 대응된다.

상기 A, AA^T, A^TA, A'는 실시간 생성을 위해서는 엄청난 전산 자원이 소모되므로, 주기적으로 생성하여 저장해 놓는 것이 바람직하다.

상기 프로세서(1100)는 특허별로 부여되어 있는 특허 분류 정보와 특허 분류 체계 정보를 사용하여, 하기와 같은 특허 분류 관계 행렬 C를 생성할 수 있다.

특허 분류 관계 행렬 C의 원소인 Cij는 i번째 특허(Pi)가 j번째 특허 분류(Cj)를 포함하고 있는 경우에는 1, 그렇지 않은 경우에는 0이 대응된다.

이때, C와 C^T를 곱한 CC^T는 i번째 특허 Pi와 j번째 특허 Pj가 공유하는 특허 분류의 개수인 공동 특허 분류(co-classification) 개수 정보를 포함한다. 상기 CC^T는 가공 특허 분류 데이터부(1223)의 일부를 구성한다.

상기 가공 키워드부에는 특허 명세서의 전 범위 또는 특정 범위(제목, 초록, 특허 청구 범위 등)에서 추출하여 가공한 키워드 데이터가 포함되어 있다. 상기 프로세스는 특허 명세서의 전 범위 또는 일부 범위에서 입수되는 텍스트 정보(예, 특허 청구 범위)를 형태소 분석한 다음, 기 설정된 키워드 추출 규칙(명사, 명사+명사, 명사 of 명사 등)을 사용하여 키워드를 추출하고 저장한다. 이어, 상기 프로세스는 추출된 키워드별로 TF(Term Frequency)나 IDF(Invert Document Frequency) 등과 같은 가공 정보를 생성하고, 각 키워드별로 TFIDF 등과 같은 키워드의 문서 대표성 계량 정보를 생성할 수 있다. 상기 프로세서(1100)는 상기 문서 대표성 계량 정보가 기 설정된 수준 이상은 키워드만으로 i번째 특허(Pi)에 대한 키워드 집합(keyword set)을 생성할 수 있다.

상기 프로세서(1100)는 i번째 특허(Pi)에 대한 키워드 집합(keyword set) 데이터로 하기와 같은 키워드 관계 행렬 K을 생성할 수 있다.

특허 분류 관계 행렬 K의 원소인 Kij는 i번째 특허(Pi)가 j번째 키워드(Kj)를 포함하고 있는 경우에는 1, 그렇지 않은 경우에는 0이 대응된다.

이때, K와 K^T를 곱한 KK^T는 i번째 특허 Pi와 j번째 특허 Pj가 공유하는 키워드의 개수인 공동 키워드(co-keyword) 개수 정보를 포함한다. 상기 KK^T는 상기 가공 키워드 데이터부(1224)의 일부를 구성한다.

상기 프로세서(1100)는 i번째 특허(Pi)에 대한 발명자 집합(keyword set) 데이터로 하기와 같은 발명자 관계 행렬 I을 생성할 수 있다.

발명자 관계 행렬 I의 원소인 Iij는 i번째 특허(Pi)가 j번째 발명자(Ij)를 포함하고 있는 경우에는 1, 그렇지 않은 경우에는 0이 대응된다.

이때, I와 I^T를 곱한 II^T는 i번째 특허 Pi와 j번째 특허 Pj가 공유하는 발명자 개수인 공동 발명자 (co-inventor) 개수 정보를 포함한다. 상기 II^T는 가공 키워드 데이터부(1224)의 일부를 구성한다. 한편, 상기 발명자는 동명이인의 문제를 최대한 회피하기 위하여, 발명자 표기에서 "출원인+발명자 이름"의 형태로 정보 처리될 수 있다. 물론, 이 경우에도 동일 출원인과 관계된 동명 이인의 문제를 여전히 남지만, 상대적으로 동명이인의 문제를 줄일 수 있게 된다.

도 3은 본 발명의 장치의 관련 특허 집합 생성 프로세스에 대한 일 실시예를 제시하고 있다.

본 발명의 상기 컴퓨터 장치는 (A) 컴퓨터 장치가, 입력 특허 집합 또는 상기 입력 특허 집합에 속하는 특허 중에서 선별 처리를 통하여 생성되는 특허를 포함하는 선별 특허 집합으로 가공 대상 특허 집합을 확정(S11)하는 단계; (B) 상기 컴퓨터 장치가, (B1) 상기 가공 대상 특허 집합에 대하여, 상기 가공 대상 특허 집합에 속하는 특허인 가공 대상 특허 집합 특허별로 관련 특허를 추출(S12)하고, (B2) 추출된 상기 관련 특허로 관련 후보 특허 집합을 생성(S13) 하는 단계; (C) 상기 컴퓨터 장치가, 상기 가공 대상 특허 집합에 속하지 않는 특허들을 포함하는 대조 특허 집합을 생성하고, (C1) 상기 가공 대상 특허 집합에 속하는 가공 대상 특허 집합 특허와 상기 대조 특허 집합에 속하는 대조 특허 집합 특허에 각기 다른 속성값을 부여하고, (C2) 상기 가공 대상 특허 집합 특허와 상기 대조 특허 집합 특허를 대상으로 적어도 하나 이상의 기계 학습 기반의 분류 모델을 생성하는 단계(S14); (D) 상기 컴퓨터 장치가, (D1) 상기 분류 모델을 관련 후보 특허 집합 특허에 적용하여, 상기 관련 후보 특허 집합 특허마다 분류 모델값(S15)을 생성하고, (D2) 상기 분류 모델값을 직접 또는 변형 사용하여 관련 후보 특허 집합 특허 중에서 관련 특허 집합을 생성(S16)하는 단계;를 포함하는 방법을 사용하여 적어도 2 이상의 특허를 포함하는 특허 집합이 입력되었을 때, 주어진 입력 특허 집합과 관계성이 존재하는 관련 특허 집합을 생성한다.

입력 특허 집합은 상기 프로세서(1100)가 인지할 수 있는 적어도 2 이상의 특허 번호(출원번호, 공개 번호 또는 등록 번호 등) 또는 특허 식별 번호(이하, 양자를 통칭하여 특허 식별 번호라 한다.)를 포함한다. 입력 특허 집합의 대표적인 예는 특허 검색의 결과로 생성된 것 또는 상기 프로세서(1100)에 업로드되거나 입력되거나 전송되어 온 임의의 특허 식별 번호 리스트가 될 수 있다. 특허 분석의 대상이 되는 특허 집합에는 통상적으로 특허 식별 번호 리스트가 포함되어 있으며, 이러한 특허 집합도 본 발명의 입력 특허 집합일 수 있다.

도 4는 본 발명의 장치의 선별 처리 프로세스에 대한 일 실시예를 제시하고 있다.

선별 처리는 입력 특허 집합에서 일부의 특허를 제외하는 선별 과정을 거쳐서 가공 대상 특허 집합을 생성하는 것을 말한다. 선별 처리가 필요한 이유는 크게 2가지이다. 첫째, 입력 특허 집합에 노이즈나 다른 특허들과 관계성이 약한 특허들이 포함되어 있을 수 있기 때문이다. 이러한 특허들은 생성되는 관련 특허 집합의 품질을 떨어뜨리는 주요 원인이 된다. 둘째, 입력 특허 집합을 모두 사용하지 않더라도 관련 특허 집합의 생성에 큰 문제가 없기 때문이다. 그 이유는 관련 특허 집합은 관련 후보 특허 집합을 통해서 생성되고, 관련 후보 특허 집합은 통상적으로 입력 특허 집합 또는 선별 처리를 거친 선별 특허 집합의 10배에서 수 백배의 크기가 되기 때문에, 입력 특허 집합을 사용하던 선별 특허 집합을 사용하던 관련 후보 특허 집합을 통한 관련 특허 집합의 생성에는 큰 영향이 없기 때문이다. 따라서, 입력 특허 집합을 그대로 가공 대상 특허 집합으로 사용해도 되고, 입력 특허 집합에 기 설정된 선별 처리를 거친 선별 특허 집합을 가공 대상 특허 집합으로 사용할 수 있게 된다.

상기 선별 처리는 컴퓨터 장치가 (A1) 입력 특허 집합에 속하는 개별 특허별로, 상기 개별 특허와 상기 입력 특허 집합에서 상기 개별 특허를 제외한 여특허로 구성되는 여특허 집합(complementary patent set)으로 분할(S21)하는 단계; (A2) 상기 개별 특허별로 상기 개별 특허와 상기 여특허 집합 간의 관계성 측정값을 생성(S22)하는 단계; (A3) 상기 관계성 측정값을 사용하여 선별 특허 집합을 생성(S23)하는 단계;를 포함하는 방식으로 처리되는 것이 바람직하다.

상기 (A1)을 통하여, Pi별로 입력 특허 집합 InputSet 는 Pi와 Pi가 없는 InputSet(without Pi) 분할 쌍으로 양분된다. 만약 InputSet에 100개의 특허가 있다면, 이러한 분할 쌍은 100개가 만들어진다. 본 발명에서 InputSet(without Pi)는 Pi의 여특허 집합이 된다. 여특허 집합을 구성하는 특허들은 여특허가 된다.

이때, Pi가 InputSet(without Pi)와 얼마나 관련성이 높은 지를 관계성 파라미터를 통해서 계량화한다.

본 발명의 관계성 파라미터에 대해서 상세히 설명한다. 본 발명의 관계성 파라미터는 특정 특허 Pi와 Pi와의 관계성을 측정할 타겟 특허 집합인 setT 사이에서 구성된다. InputSet(without Pi)는 setT의 한 예가 된다. 즉, 본 발명의 관계성 파라미터는 모두 특정 특허 1개와 특허 집합 1개를 대상으로 정의되는 것이다.

관계성 파라미터는 직접 인용 관계성 파라미터, 직접 피인용 관계성 파라미터, 공동 인용 관계성 파라미터, 공동 피인용 관계성 파라미터, 공동 특허 분류 관계성 파라미터, 공동 키워드 관계성 파라미터, 공동 발명자 관계성 파라미터 등이 있다.

한편, 관계성 파라미터에는 개수 중심의 양적 관계성 파라미터와 분포를 반영하는 질적 관계성 파라미터가 있다. 양적 관계성 파라미터는 Pi와 InputSet(without Pi)를 구성하는 개별 특허 중 관계성이 발생하는 InputSet(without Pi)에 속해 있는 특허수가 될 수 있다. 한편, 질적 관계성 파라미터는 Pi와 InputSet(without Pi)를 구성하는 개별 특허 중 관계성이 발생하는 InputSet(without Pi)에 속해 있는 특허수들의 분포 측정값(예, 최소값, 최대값, 제1사분위수, 중앙값, 제3사분위수, 평균, 표준 편차 등의 n개의 변량이 있을 때의 계량화된 통계값들의 집합)이 될 수 있다.

양적 관계성 파라미터의 종류	계량 방법(1)	계량 방법 (2) : 계량 방법(1)의 값을 아래 값으로 나눔 처리
직접 인용	Pi가 직접 인용하는 InputSet(without Pi)에 있는 Pj의 개수(특허수)	Pi가 인용하는 특허수
직접 피인용	Pi를 직접 인용하는 InputSet(without Pi)에 있는 Pj의 개수(특허수)	Pi를 인용하는 특허수
공동 인용	Pi와 공동 인용 관계에 있는 InputSet(without Pi)에 있는 Pj의 개수(특허수)	Pi가 인용하는 특허수*Pj가 인용하는 특허수
공동 피인용	Pi와 공동 피인용 관계에 있는 InputSet(without Pi)에 있는 Pj의 개수(특허수)	Pi를 인용하는 특허수*Pj를 인용하는 특허수
공동 특허 분류	Pi의 특허 분류와 같은 특허 분류를 1개 이상 포함하고 있는 InputSet(without Pi)에 있는 Pj의 개수(특허수)	Pi의 특허 분류수
공동 키워드	Pi에서 추출한 키워드와 같은(동등/대응/고도 연관된) 키워드를 1개 이상 포함하고 있는 InputSet(without Pi)에 있는 Pj의 개수(특허수)	Pi의 키워드수
공동 발명자	Pi의 발명자와 같은 발명자를 1개 이상 포함하고 있는 InputSet(without Pi)에 있는 Pj의 개수(특허수)	Pi의 발명자수

상기 계량 방법 (2)를 취하는 경우, 각 관계성 파라미터의 종류별로 정규화를 하여 관계성 파라미터 값을 계산하는 것이 바람직하다. 물론, 인용의 경우, 심사관 인용만으로 처리할 수도 있으며, 각종 특허 분류를 독립적으로 처리할 수도 있으며, 키워드는 동등/대등/고도 연관된 키워드나 시소러스 관계에 해당하는 키워드는 같은 키워드로 처리할 수도 있을 것이다.

아래 표 2는 질적 관계성 파라미터의 예시가 된다.

질적 관계성 파라미터의 종류	1차 계량값	계량 방법 (3) 1차 계량값에 대한 처리
공동 인용	Pi와 공동 인용 관계에 있는 InputSet(without Pi)에 있는 Pj와의 자카드 계수값	1차 계량값들의 분포 측정값
공동 피인용	Pi와 공동 피인용 관계에 있는 InputSet(without Pi)에 있는 Pj와의 자카드 계수값	1차 계량값들의 분포 측정값
공동 특허 분류	Pi의 특허 분류와 같은 특허 분류를 1개 이상 포함하고 있는 InputSet(without Pi)에 있는 Pj와의 자카드 계수값	1차 계량값들의 분포 측정값
공동 키워드	Pi에서 추출한 키워드와 같은(동등/대응/고도 연관된) 키워드를 1개 이상 포함하고 있는 InputSet(without Pi)에 있는 Pj와의 자카드 계수값	1차 계량값들의 분포 측정값
공동 발명자	Pi의 발명자와 같은 발명자를 1개 이상 포함하고 있는 InputSet(without Pi)에 있는 Pj와의 자카드 계수값	1차 계량값들의 분포 측정값

자카드 계수(Jaccard Coefficient)값은 강도(strength)를 측정하는 예시적인 방법이다. 공동 인용을 예로 들면서 자카드 계수를 설명한다. Pi가 인용하는 특허가 n(Pi)개, Pj가 인용하는 특허가 n(Pj)개가 있고, Pi와 Pj 모두 인용하는 특허가 n(Pi and Pj)개가 있을 때, 1) n(Pi and Pj)/(n(Pi)+n(Pj)) 또는 2) n(Pi and Pj)/n(Pi or Pj)가 자카드 계수의 예가 될 수 있다. 이때, n(Pi or Pj)는 Pi가 인용하는 특허와 Pj가 인용하는 특허를 합집합 연산(중복 제거)했을 때의 합집합의 특허수가 된다. 공동 인용의 자카드 계수의 설명으로 당업자는 공동 피인용, 공동 특허 분류, 공동 키워드, 공동 발명자 등에서도 본 발명 사상을 적용할 수 있음은 자명할 것이다. 한편, 질적 관계성 파라미터와 관련된 상기 계량 방법 (3)의 값들은 상기 1차 계량값이 정규화 처리된 다음 측정되는 것이 바람직하다.

특허수들의 분포 측정값에는 예시적으로 최소값, 최대값, 제1사분위수, 중앙값, 제3사분위수, 평균, 표준 편차 등의 n개의 변량이 있을 때의 계량화된 통계값들이 될 수 있다.

(A3) 상기 관계성 측정값을 사용하여 선별 특허 집합을 생성하는 것은 예시적으로 다음 과정을 거칠 수 있다. InputSet을 구성하는 모든 Pi별로, 1) 양적 관계성 파라미터수(이 경우, Pi별로 최대값은 7이 되고 최소값은 0이 됨), 2) 양적 관계성 파라미터별 계량 방법(1)을 적용한 값의 합계, 3) 양적 관계성 파라미터별 계량 방법(2)를 적용한 값의 합계 중 어느 하나 이상을 계산한다. 이어, 예시적으로 각각의 값에서 상위 n%(예를 들면 75% 등)에 해당하는 특허만을 추출하거나, 값들의 분포에서 m분위수 이상의 값을 가지는 특허만을 추출하는 것과 같은 선별 정책에 따른 선별 처리를 수행한다. 이와 같은 선별 과정을 거처 선별 특허 집합이 생성된다.

(A3) 상기 관계성 측정값을 사용하여 선별 특허 집합을 생성하는 처리에는 질적 관계성 파라미터값을 사용할 수도 있을 것이다. InputSet을 구성하는 모든 Pi별로, 1) 질적 관계성 파라미터별 계량 방법(3)을 적용한 중앙값 합계를 기준으로 상위 n%(예를 들면 75% 등)에 해당하는 특허만을 추출하는 방법, 2) m의 수치값을 100에서 낮추어 가는 방식으로 처리하여 질적 관계성 파라미터별 상위 m%를 가지는 특허들을 추출하여 합집합 연산하고 최종적으로 전체 InputSet의 특허 중에서 n%(예, 75%)만을 남기도록 하는 방법 등이 예시적으로 사용될 수 있다.

물론, 선별 특허 집합을 생성하는데, 양적 관계성 파라미터와 질적 관계성 파라미터를 모두 사용하여 처리(예, 양적 관계성 파라미터로 n/2%, 질적 관계성 파라미터로 n/2를 일단 추출하고, 합집합 연산을 수행한 다음 n의 조금씩 키우는 방식으로 전체 n%를 추출하는 등)할 수 있음은 당업자에게 자명할 것이다.

본 발명에서는 가공 대상 특허 집합은 입력 특허 집합이 되거나 상기 선별 특허 집합이 된다.

이어, 관련 후보 특허 집합을 생성하는 방법에 대해서 설명한다. 상기 프로세서(1100)는 (B1) 상기 가공 대상 특허 집합에 대하여, 상기 가공 대상 특허 집합에 속하는 특허인 가공 대상 특허 집합 특허별로 관련 특허를 추출하고, (B2) 추출된 상기 관련 특허로 관련 후보 특허 집합을 생성하는 단계를 거처 관련 후보 특허 집합을 생성한다.

상기 가공 대상 특허 집합, ProcessingSet에 속하는 Pi에 대하여, Pi와 관련 특허를 입수한다. 상기 프로세서(1100)는 관련 특허로 Pi와 직접 인용 관계에 있는 특허, 직접 피인용 관계에 있는 특허, 공동 인용 관계에 있는 특허, 공동 피인용 관계에 있는 특허, 공동 특허 분류 관계에 있는 특허, 공동 키워드 관계에 있는 특허, 공동 발명자 관계에 있는 특허를 추출한다. 상기 프로세서(1100)는 추출된 관련 특허를 합집합 연산하여 관련 후보 특허 집합을 생성한다. 이때 상기 프로세스는 합집한 연산을 수행한 관련 후보 특허 집합을 구성하는 특허들에 대하여 가중치를 부여할 수 있다. 가중치의 예는 관련 회수가 될 수 있다. 예를 들면, 관련 후보 특허 집합 특허 Pj가 Pi와 공동 인용 관계와 공동 발명자 관계에 해당하는 경우에는 관련 회수는 2가 된다.

이때, 상기 프로세서(1100)는 상기 관련 후보 특허 집합을 생성할 때 특별한 조건을 만족하는 특허만으로 관련 후보 특허 집합을 생성하는 처리를 수행할 수 있다. 상기 프로세서(1100)는 상기 (B-1) 단계에서, 상기 가공 대상 특허 집합 특허별로 관련 특허를 추출하는 것은 상기 가공 대상 특허 집합 특허별로 관련 특허를 추출하는 것은 기 설정된 제한 조건을 부가하여 생성할 수 있다. 상기 제한 조건은 시간 종류별 시간 범위 제한, 권리자 종류별 권리자 제한, 특허 속성 종류별 특허 속성 제한, 권리자 속성 종류별 권리자 속성 제한, 특허 발행 국가 제한 중 어느 하나 이상인 것이며, 상기 시간 종류는 출원일, 공개일, 등록일, 우선일 중 어느 하나인 것이며, 상기 특허 권리자 종류는 출원인, 현재 권리자 중 어느 하나 이상인 것이며, 상기 특허 속성 종류는 거래 이력, 소송 사용 이력, 표준 특허풀 등재, 계량화된 인용 또는 피인용 특성, 특허 평가 속성, 특허 분류 속성 중 어느 하나 이상인 것이며, 권리자 속성은 권리자의 국적, 권리자의 규모, 권리자의 기관 속성, 권리자 평가 속성 및 권리자 분류 속성 중 어느 하나 이상일 수 있다. 예를 들면, 상기 관련 후보 특허 집합은 2014년1월1일에서 2016년 12월31일까지 공개되거나 미공개 등록된 특허 중에서만 생성될 수도 있으며, 미국 특허청 발행의 특허 중에서 우선권 주장이 있는(외국에서 미국에 출원된) 특허 중에서만 생성될 수도 있다.

도 5는 상기 프로세서(1100)가 본 발명의 기계 학습 기반의 분류 모델을 생성하는 예시적인 방법에 대한 일 실시예를 도시하고 있다.

상기 프로세서(1100)가 분류 모델을 생성하는 방법은 우선적으로 상기 가공 대상 특허 집합에 속하지 않는 특허들을 포함하는 대조 특허 집합을 생성(S31)하고, (C1) 상기 가공 대상 특허 집합에 속하는 가공 대상 특허 집합 특허와 상기 대조 특허 집합에 속하는 대조 특허 집합 특허에 각기 다른 속성값을 부여(S32)하고, (C2) 상기 가공 대상 특허 집합 특허와 상기 대조 특허 집합 특허를 대상으로 적어도 하나 이상의 기계 학습 기반의 분류 모델을 생성(S33)하는 단계;를 거친다.

대조 특허 집합이 필요한 이유는 분류 모델을 생성하기 위해서는 가공 대상 특허 집합에 대응되는 반대 또는 이질적 성격의 특허 집합이 필요하기 때문이다. 분류 모델 적용 시 예시적으로 가공 대상 특허 집합에 속한 특허에는 속성값 1을, 대조 특허 집합에 속하는 특허에는 속성값 0을 할당할 수 있다.

상기 프로세서(1100)가 상기 대조 특허 집합을 생성하는 것은 예시적으로 다음 3가지 방법 중 어느 하나 이상의 방법을 사용할 수 있다.

첫째, 상기 프로세서(1100)가 상기 관련 후보 특허 집합에서 랜덤 하게 기 설정된 개수의 특허를 추출하는 제1 방식이다.

둘째, 상기 프로세서(1100)가 상기 관련 후보 특허 집합에서 상기 가공 대상 특허 집합과의 관계성 종류별 관계성 분포 정보가 하위인 특허 순으로 기 설정된 개수의 특허를 추출하는 제2 방식이다. 이 방식은 상기 입력 특허 집합을 대상으로 선별 특허 집합을 생성하는 것과 동일한 방식을 취하되 다만, 선별 특허 집합이 상위 순위의 특허를 추출하는 것인데 반하여, 상기 제2 방식은 하위 순위의 특허를 추출하는 방식을 취한다는 특징이 있다.

셋째, 상기 프로세서(1100)가 상기 입력 특허 집합이 기 설정된 적어도 2 이상의 노드로 구성되는 분류 체계 상에서 특정한 위치에 속하는 특허 집합일 경우, 상기 분류 체계 상 상기 입력 특허 집합과 인접성이 있는 분류 체계 상에 속하는 특허 집합에 포함되어 있는 상기 관련 후보 특허 집합 특허에서 추출하는 제3 방식이다. 상기 제3의 방식을 적용할 때, 상기 제2의 방식에 해당하는 특허만을 대상으로 상기 제3의 방식을 실시할 수 있을 것임을 당업자에게 자명할 것이다.

도 6은 상기 프로세서(1100)가 (C2)의 분류 모델을 생성하는 상세한 방법에 대한 일 실시예를 도시하고 있다.

상기 프로세서(1100)는 (C2-1) 상기 가공 대상 특허 집합에 대하여 트레이닝 가공 대상 특허 집합과 테스트 가공 대상 특허 집합으로 2분화하고, 상기 대조 특허 집합에 대하여 트레이닝 대조 특허 집합과 테스트 대조 특허 집합으로 2분화(S41)하는 단계; (C2-2) 상기 트레이닝 가공 대상 특허 집합에 속하는 트레이닝 가공 대상 특허 집합 특허별 설명 변수값을 입수하고, 상기 트레이닝 대조 특허 집합에 속하는 트레이닝 대조 특허 집합 특허별 설명 변수값을 입수(S42)하며, 상기 속성값을 반응 변수값으로 입수하는 단계; 및 (C2-3) 상기 설명 변수값과 반응 변수값으로 기 설정된 기계 학습 알고리즘을 사용하여 분류 모델(S43)을 생성하는 처리를 수행한다.

트레이닝 가공 대상 특허 집합과 테스트 가공 대상 특허 집합은 8:2 또는 7:3의 비율로 분할할 수 있다. 트레이닝 대조 특허 집합과 테스트 대조 특허 집합도 마찬가지이다. 상기 속성값은 분류 모델 적용 시 가공 대상 특허 집합 특허에는 1을, 대조 특허 집합 특허에는 분류값 0을 할당할 수 있다.

이어, 상기 프로세서(1100)가 트레이닝 가공 대상 특허 집합 특허와 트레이닝 대조 특허 집합 특허에 대해서 설명 변수값을 생성하는 방법에 대해서 설명한다.

트레이닝 가공 대상 특허 집합 특허와 트레이닝 대조 특허 집합 특허에 대해서 설명 변수값을 생성하는 방법은 동일하므로, 편의상 트레이닝 가공 대상 특허 집합 특허와 트레이닝 대조 특허 집합 특허 모두 Pi라고 표시한다. 설명 변수값은 모든 Pi에 대하여 생성한다.

먼저 트레이닝 가공 대상 특허 집합을 대상으로 한 설명 변수값을 생성하는 방법을 설명한다. 이 방법은 트레이닝 대조 특허 집합을 대상으로 설명 변수값을 생성하는 방법과 동등하므로, 트레이닝 대조 특허 집합을 대상으로 설명 변수값을 생성하는 상세한 방법은 당업자에게 자명할 것이다.

상기 프로세서(1100)는 트레이닝 가공 대상 특허 집합 TrainProcessingSet을 구성하는 모든 Pi를 대상으로 하기와 같은 과정을 수행한다.

첫째, TrainProcessingSet에서 Pi를 선택하고, Pi와 TrainProcessingSet(without Pi)로 집합을 2분화한다.

둘째, Pi와 TrainProcessingSet(without Pi)를 대상으로 관계성 파라미터별로 관계성 파라미터 값을 생성하고 저장한다. 상기 관계성 파라미터는 상기에서 설명한 양적 관계성 파라미터 및 질적 관계성 파라미터가 될 수 있으며, 상기 프로세서(1100)는 관계성 파라미터 값의 생성을 위해서 상기에서 설명한 양적 관계성 파라미터값 생성 방법 및 질적 관계성 파라미터값 생성 방법을 실시할 수 있다.

한편, 상기 관계성 파라미터 값을 생성할 때, 상기 프로세서(1100)는 다음과 같은 특성 키워드 관계성 파라미터 처리를 수행할 수 있다. 상기 특성 키워드는 상기 트레이닝 가공 대상 특허 집합 또는 상기 가공 대상 특허 집합에 포함된 특허들에서 추출한 키워드에 대하여 가중치를 부여한 것이다. 가중치는 상기 키워드가 상기 트레이닝 가공 대상 특허 집합 또는 상기 가공 대상 특허 집합에서 나타난 회수 또는 그 회수의 정규화 처리값이 될 수 있다. 하기 표 3은 공동 키워드의 경우와 특성 가중치 적용 공동 키워드의 처리가 어떻게 달라지는 지 비교하고 있다.

	공동 키워드	특성 가중치 적용 공동 키워드
양적 관계성 파라미터	Pi에서 추출한 키워드와 같은(동등/대응/고도 연관된) 키워드를 1개 이상 포함하고 있는 TrainProcessingSet(without Pi)에 있는 Pj의 개수(특허수)	Pi에서 추출한 키워드와 같은(동등/대응/고도 연관된) 키워드를 1개 이상 포함하고 있는 TrainProcessingSet(without Pi)에 있는 Pj별로 서로 일치하는 키워드들의 가중치의 합계
질적 관계성 파라미터	Pi에서 추출한 키워드와 같은(동등/대응/고도 연관된) 키워드를 1개 이상 포함하고 있는 TrainProcessingSet(without Pi)에 있는 Pj와의 자카드 계수값	Pi에서 추출한 키워드와 같은(동등/대응/고도 연관된) 키워드를 1개 이상 포함하고 있는 TrainProcessingSet(without Pi)에 있는 Pj와의 키워드들의 가중치가 반영된 자카드 계수값

Pi와 Pj 간에 공동 키워드가 n(K1, ,, Kn)개가 있을 때, 각 키워드 Ki는 가중치 wi를 가질 수 있다. 이 경우, Pi와 Pj 간의 자카드 계수는 분자 = sum(wi(Ki)), 분모 = sum(wj(K'j))가 된다.

wi(Ki)는 키워드 Ki의 가중치, wj(K'j)는 키워드 K'j의 가중치, K'은 Pi에서 추출한 키워드 또는 Pj에서 추출한 키워드이다.

상기 특성 가중치 적용 공동 키워드의 처리는 적용 방법(1), 적용 방법(2) 및 적용 방법(3)에서 가중치가 반영된 수식만 다를 뿐, 분모에 나누기 처리, 분포값의 사용 등에서는 공동 키워드와 동일하다.

한편, 상기 입력 특허 집합이 키워드를 포함한 검색(키워드 검색)의 결과에서 생성된 것인 경우에는 상기 프로세서(1100)는 상기 검색 키워드에 대해서 기 설정된 높은 가중치를 부여하여 양적 관계성 파라미터값 및 질적 관계성 파라미터값을 생성할 수 있다.

하기 표 4는 분류 모델의 생성을 위한 데이터 모델의 한 예를 제시하고 있다.

반응 변수값 = 속성값(Y)	설명 변수값(X)
Y = 1	1) 트레이닝 가공 대상 특허 집합 특허 Pi의 양적 관계성 파라미터값 2) 트레이닝 가공 대상 특허 집합 특허 Pi의 질적 관계성 파라미터값
Y = 0	1) 트레이닝 대조 특허 집합 특허 Pi의 양적 관계성 파라미터값 2) 트레이닝 대조 특허 집합 특허 Pi의 질적 관계성 파라미터값

상기 프로세서(1100)가 분류 모델을 생성하기 위해 사용하는 상기 기계 학습 알고리즘은 부스팅, 딥러닝, 랜덤 포리스트 중 어느 하나 또는 어느 2 이상을 결합한 것을 사용한다.

분류 문제는 위와 같이 반응 변수가 카테고리화 되어있을 때 설명 변수를 이용하여 반응 변수를 추정하는 문제로 다음과 같은 목적 함수를 최소화하는 함수를 찾는 것이다.

함수의 집합이 무엇이냐에 따라 상기 문제를 푸는 방법이 달라지고 나오는 결과물 역시 다른 분류 모형이 나온다. 예를 들어, 함수의 집합을 의사 결정 나무의 앙상블 형태 함수로 하게 되면 추정하는 방법은 최급 강하법(steepest descent method)를 이용하여 문제를 풀게 되고, 나오는 결과물은 부스팅 분류 모형이 나오게 된다. 그리고 함수의 집합을 뉴럴 네트워크 함수로 하게 되면 추정하는 방법은 역전파 알고리즘(Back Propagation)을 이용하여 문제를 풀게 되고, 나오는 결과물은 딥러닝 형태 중 하나인 심층 신경망 분류 모형이 나오게 된다.

부스팅 분류 모형은 앙상블 모형 중 하나이다. 앙상블 모형이라 하면, 약한 학습기 여러 개를 더하기로 결합한 모형을 뜻한다. 부스팅 분류 모형의 약한 학습기는 의사 결정 나무 모형이다. 본래 의사 결정 나무 모형은 학습시킬 때마다 다른 의사 결정 나무가 학습되는 불안정성이 치명적인 약점으로 지적되고 있으나, 앙상블함으로써 이런 치명적인 약점들은 자연스럽게 해결되며, 성능도 기존의 강한 학습기를 하나 사용하는 것에 비해 좋은 것으로 알려져 있다.

부스팅 분류 모형을 적용하기 위해서 우선적으로 조정해야할 모수들이 크게 2가지가 있다. 첫번째는 약한 학습기인 의사 결정 나무의 깊이에 대한 것과 두번째는 약한 학습기의 개수에 대한 것이다. 조정해야 할 모수들은 흔히 많이 쓰이는 기법인 k겹 교차검증법(k-fold Cross Validation)이나 학습-검증-테스트(Train-Validation-Test)를 통해 결정을 하게 된다.

딥러닝 모형은 이미지, 영상, 음성, 자연어 처리등 광범위하게 사용되고 있으며, 각 분야마다 특화된 딥러닝 모형들을 사용하고 있다. 예를 들어 이미지의 경우는 Convolutional Neural Network 모형이 많이 사용되고 있고, 영상 자료나 자연어 처리는 Recurrent Neural Network나 Long Short Term Memory 모형이 사용되고 있다. 딥러닝 모형은 수학적으로 성능이 좋다고 밝혀진 것은 없으나 경험적으로 많은 분야에서 기존에 사용되는 모형에 비해 압도적인 성능향상을 보여주고 있다. 딥러닝 모형 중 심층 신경망 모형을 적용하기 위해서 우선적으로 조정해야할 모수들이 상당히 많다. 첫번째로 활성화 함수(Activation Function)에 대한 종류에 대한 선택, 두번째로 숨겨진 노드(Hidden Node)의 수, 세번째로 숨겨진 층(Hidden Layer)의 수, 네번째로 드롭아웃 (Dropout)비율을 얼마를 할 것인가에 대한 것이다. 모수들을 조정하기 위해서 부스팅 분류 모형에서 모수를 조정하는 것과 마찬가지로 k겹 교차검증법(k-fold Cross Validation)이나 학습-검증-테스트(Train-Validation-Test)를 통해 결정을 하게 된다.

본 특허에서는 심층 신경망 분류 모형과 부스팅 분류 모형을 혼합한 모형을 사용할 수도 있다. 딥러닝 모형 중 하나인 심층 신경망 분류 모형을 사용하여 설명 변수와 반응 변수 사이의 복잡한 현상을 파악하고자 하나 조정해야 할 모수들이 많아 조정해야 할 모수 전부를 최적화 시키기가 굉장히 어렵다. 따라서 조정해야 할 모수들을 개략적으로 최적화시키고 나머지 설명되지 않았던 부분을 부스팅 분류 모형으로 최적화시킨다. 수식화하면 다음과 같다.

학습 방법은 심층 신경망 분류 모형을 먼저 학습시키고 심층 신경망 분류 모형으로부터 나온 분류 점수를 오프셋(offset)으로 두고 부스팅 분류 모형을 학습시키는 방법으로 할 수 있다.

도 7은 상기 프로세서(1100)가 관련 후보 특허 집합 특허를 대상으로 생성된 상기 분류 모델을 적용하여 분류 모델값을 생성하는 예시적인 방법을 도시하고 있다.

상기 프로세서(1100)는 (D1-1) 상기 관련 후보 특허 집합 특허마다 상기 관련 후보 특허 집합 특허와 상기 가공 대상 특허 집합 간의 관계성 파라미터 값 집합을 생성(S51)하는 단계;및 (D1-2) 상기 생성된 관계성 파라미터 값 집합을 상기 분류 모델에 적용하여, 상기 관련 후보 특허 집합 특허별로 분류 모델값으로 생성(S52)하는 단계;를 처리한다.

상기 (D1-1)에서 관련 후보 특허 집합 특허 Pi마다 가공 대상 특허 집합(ProcessingSet) 간의 관계성 파라미터 값을 생성하는 방법은 가공 대상 특허 집합의 모든 특허를 대상으로 Pi와의 관계성 파라미터를 생성한다는 것만 제외하고는 상기에서 설명한 바와 완전히 동등하다. 즉, (D1-1) 단계에서는 관련 후보 특허 집합 특허 Pi가 있으므로, 가공 대상 특허 집합에서 특정한 특허를 추출하고 추출된 특허(예, Px)를 제외한 나머지 특허 집합(Set(without Px)을 생성하는 등과 같은 집합의 2분화 과정이 불필요하게 된다.

상기 프로세서(1100)는 상기 분류 모델을 사용하여, 상기 (D1-1)에서 생성된 관련 후보 특허 집합 특허와 가공 대상 특허 집합 간의 관계성 파라미터 값들을 입력 변수로 받고, 출력값으로 분류 모델값을 생성한다. 분류 모델값은 모델값 자체일 수도 있지만, 모델값 자체를 로지스틱 변환 등과 같은 목적별 변환 처리를 수행하여 생성되는 0~1까지의 값, 백분위값, 서열값 또는 등급 등이 될 수 있다.

도 8은 상기 프로세서(1100)가 관련 후보 특허 집합별 모델값 자체 또는 모델값이 변환값을 적용하여, 관련 특허 집합을 생성하는 방법에 대한 일 실시예를 도시하고 있다.

상기 프로세서(1100)는 (D2-1) 상기 관련 후보 특허 집합 특허별 분류 모델값을 사용하여, 기 설정된 선별 기준을 충족시키는 관련 후보 특허 집합으로 관련 특허 집합을 생성(S61)하는 것이거나, (D2-2) 상기 관련 후보 특허 집합 특허에 대하여 상기 분류 모델값을 기준으로 소팅하여 서열 정보가 포함된 상기 관련 후보 특허 집합 특허로 관련 특허 집합을 생성(S62)하는 처리를 수행한다.

도 9는 상기 프로세서(1100)가 생성된 분류 모델을 입력 특허 집합에 적용하여 가공 대상 특허 집합의 품질을 높이는 처리는 수행하는 일 실시예적 방법에 대해 도시하고 있다.

상기 프로세서(1100)는 (E1) 생성된 상기 분류 모델을 상기 입력 특허 집합에 적용하여, 입력 특허별 분류 모델값을 생성하는 단계; 및 (E2) 상기 입력 특허별 분류 모델값이 기 설정된 기준을 충족시키는 입력 특허만으로 상기 가공 대상 특허 집합을 생성하는 단계를 처리한다.

분류 모델이 가공 대상 특허 집합에 적용되면, 가공 대상 특허 집합의 선별 품질이 올라가게 된다. 따라서, 가공 대상 특허 집합을 사용하는 관련 후보 특허 집합의 품질이 올라가게 되며, 최종적으로 관련 특허 집합의 품질이 올라가게 된다.

도 10은 상기 프로세서(1100)가 관련 특허 집합 특허에 부가 정보를 부가한 정보를 생성하는 일 실시예적 방법을 도시하고 있다.

상기 프로세서(1100)는 (F1) 상기 관련 특허 집합을 구성하는 관련 특허 집합 특허별로 상기 관련 특허 집합 특허와 상기 가공 대상 특허 집합 간의 적어도 하나 이상의 관계성 파라미터별 관계성 파라미터 값을 부가한 관련 특허 집합 특허 데이터를 생성(S81)하는 단계; 및 (F2) 상기 관계성 파라미터 값에 대응되는 관계성 텍스트 데이터를 추출하고, 상기 추출된 관계성 텍스트 데이터를 부가한 관련 특허 집합 특허 데이터를 생성(S82)하는 처리를 수행한다. 관계성 텍스트 데이터는 공동 키워드, 공동 발명자의 이름 등 텍스트 형태로 제공될 수 있는 다양한 키워드를 말한다.

본 발명의 상기 프로세서(1100)은 생성된 관련 특허 집합에 입력 특허 집합을 구성하는 개별 특허의 특정 국가의 패밀리 특허 및/또는 여러 나라의 패밀리 특허를 추가하는 프로세스를 수행할 수도 있다. 이러한 프로세스를 통하여 생성되는 관련 특허에는 패밀리 특허라는 태그나 패밀리를 식별하는 번호 정보(예, 특정 국가 내에서의 패밀리 네트워크에서의 모 출원 번호 또는 글로벌 패밀리 네트워크에서의 모 출원 번호 등)가 포함되어 있는 것이 바람직할 것이다.

이상과 같이 본 발명의 핵심적 특징 중의 하나는 1개의 모델 또는 정해진 개수의 모델을 생성한 다음, 그 모델에 다수의 특허 집합을 적용하는 것이 아니라, 입력되는 특허 집합마다 분류 모델을 생성하고, 관련 특허 집합을 생성하는 것이다. 이를 통해서, 입력 특허 집합의 속성을 가장 잘 반영하는 개별적인 분류 모델이 생성되고, 따라서 최적화된 관련 특허 집합이 생성되게 된다.

상기에는 본 발명 사상의 핵심은 인공 지능 기술을 적용한 기계 학습 기반의 입력 문서 집합과 관계성 높은 문서 집합을 생성하는 방법 및 장치에 관한 것이며, 상기에서는 이러한 본 발명 사상을 특허 데이터에 적용하였다. 상기에서 설명한 본 발명 사상은 특허 문서 뿐만 아니라 논문 문서나 기타 문서에서도 적용될 수 있다.

하기 [표 5]는 본 발명 사상과 관련하여 논문과 특허의 차이점과 동등성을 대비하고 있다.

특허에 포함/추출 데이터 계열	데이터	논문 포함 대응 데이터	논문 비고
날짜	출원일	투고일
	공개일/등록일	게제일
번호	출원번호/공개번호/등록번호	논문 ID
	특허 식별 번호	논문 식별 번호
인적 정보	출원인	논문 저자 소속 기관
	발명자	논문 저자
특허 분류	IPC/CPC/FI/FT	X	저널의 분류 체계를 활용할 수도 있음
인용	backward citation/forward citation	backward citation/forward citation	심사관 인용 개념은 없음
키워드	특허 명세서의 각 필드(초록, 특허 청구 범위 등)에서 추출 가능	논문 구성 필드에서 추출 가능 논문 색인어 정보 활용 가능

상기 표 5에서 비교한 바와 같이 특허 정보에 대응되는 거의 모든 필드가 논문에도 대응되어 있다. 특히, 논문에도 인용 정보가 있으므로, 본 발명의 가공 인용 데이터부(1222)에 포함되는 모든 인용(심사관 인용 등의 일부는 제외) 데이터를 논문 데이터에서도 생성할 수 있음을 물론일 것이다. 한편, 논문에서도 키워드를 추출할 수 있으므로, 본 발명의 가공 키워드 데이터부(1224)에 포함된 모든 키워드 데이터를 논문 데이터에서도 생성할 수 있음을 물론일 것이다. 아울러, 상기 프로세서(1100)는 키워드를 중심으로 본 발명 사상을 적용하여, 입력 특허 집합을 대상으로 관련 논문 집합을 생성할 수도 있으며, 논문 집합을 입력받았을 때 관련 특허 집합을 생성할 수도 있을 것이다.

본 발명은 특허 정보 산업 및 인공 지능과 기계 학습을 활용하는 산업, 대량의 문서 집합에서 고도로 관련 문서 정보의 추출하는 업무과 관련된 산업 전반에 광범위하게 활용 가능하다.

1000 : 컴퓨팅 장치
1100 : 프로세서
1200 : DB부
1210 : 기반 데이터부
1211 : 특허 서지 데이터부
1212 : 특허 명세서 데이터부
1220 : 가공 데이터부
1221 : 가공 서지 데이터부
1222 : 가공 인용 데이터부
1223 : 가공 특허 분류 데이터부
1224 : 가공 키워드 데이터부
1300 : 통신부
2000 : 타 장치
3000 : 유무선 네트워크

Claims

적어도 2 이상의 특허를 포함하는 특허 집합이 입력되었을 때, 주어진 입력 특허 집합과 관계성이 존재하는 관련 특허 집합을 생성하는 방법으로서,
(A) 컴퓨터 장치가,
입력 특허 집합 또는 상기 입력 특허 집합에 속하는 특허 중에서 선별 처리를 통하여 생성되는 특허를 포함하는 선별 특허 집합으로 가공 대상 특허 집합을 확정하는 단계;
(B) 상기 컴퓨터 장치가,
(B1) 상기 가공 대상 특허 집합에 대하여, 상기 가공 대상 특허 집합에 속하는 특허인 가공 대상 특허 집합 특허별로 관련 특허를 추출하고,
(B2) 추출된 상기 관련 특허 중 적어도 일부로 관련 후보 특허 집합을 생성 하는 단계;
(C) 상기 컴퓨터 장치가,
상기 가공 대상 특허 집합에 속하지 않는 특허들을 포함하는 대조 특허 집합이 획득된 상태에서,
(C1) 상기 가공 대상 특허 집합에 속하는 가공 대상 특허 집합 특허와 상기 대조 특허 집합에 속하는 대조 특허 집합 특허에 각기 다른 속성값을 부여하고,
(C2) 상기 가공 대상 특허 집합 특허와 상기 대조 특허 집합 특허를 대상으로 적어도 하나 이상의 기계 학습 기반의 분류 모델을 생성하는 단계;
(D) 상기 컴퓨터 장치가,
(D1) 상기 분류 모델을 관련 후보 특허 집합 특허에 적용하여, 상기 관련 후보 특허 집합 특허마다 상기 분류 모델값을 생성하고,
(D2) 상기 분류 모델값을 직접 또는 변형 사용하여 관련 후보 특허 집합 특허 중에서 관련 특허 집합을 생성하는 단계;를 포함하는 방법.
제 1항에 있어서,
상기 (A) 단계에서, 상기 선별 처리는
(A1) 입력 특허 집합에 속하는 개별 특허별로, 상기 개별 특허와 상기 입력 특허 집합에서 상기 개별 특허를 제외한 여특허로 구성되는 여특허 집합으로 분할하는 단계;
(A2) 상기 개별 특허별로 상기 개별 특허와 상기 여특허 집합 간의 관계성 측정값을 생성하는 단계;
(A3) 상기 관계성 측정값을 사용하여 선별 특허 집합을 생성하는 단계;를 포함하는 것을 특징으로 하는 방법.
제 2항에 있어서,
상기 관계성 측정값은 상기 개별 특허와 상기 여특허 집합 간의 적어도 하나 이상의 관계성 파라미터별로 관계성 파라미터 값을 생성하는 방식으로 처리하는 것을 특징으로 하는 방법.
제 1항에 있어서,
상기 관련 특허 집합에는 상기 입력 특허 집합에 속하는 특허가 포함되지 않는 것인 것이며,
상기 관련 후보 특허 집합에는 상기 입력 특허 집합에 속하는 특허가 포함되지 않는 것인 것을 특징으로 하는 방법.
제 1항에 있어서,
상기 (B-1) 단계에서, 상기 가공 대상 특허 집합 특허별로 관련 특허를 추출하는 것은
상기 가공 대상 특허 집합 특허와의 인용 관계 특허, 피인용 관계 특허, 공동 인용 관계 특허, 공동 피인용 관계 특허, 공동 키워드 관계 특허, 공동 특허 분류 관계 특허, 공동 발명자 관계 특허 중 어느 하나 이상의 관계를 가지는 특허를 추출하는 것인 것을 특징으로 하는 방법.
제 1항에 있어서,
상기 (B-1) 단계에서, 상기 가공 대상 특허 집합 특허별로 관련 특허를 추출하는 것은
상기 가공 대상 특허 집합 특허별로 관련 특허를 추출하는 것은 기 설정된 제한 조건을 부가하여 생성하는 것인 것이며,
상기 제한 조건은 시간 종류별 시간 범위 제한, 권리자 종류별 권리자 제한, 특허 속성 종류별 특허 속성 제한, 권리자 속성 종류별 권리자 속성 제한, 특허 발행 국가 제한 중 어느 하나 이상인 것이며,
상기 시간 종류는 출원일, 공개일, 등록일, 우선일 중 어느 하나인 것이며,
상기 특허 권리자 종류는 출원인, 현재 권리자 중 어느 하나 이상인 것이며,
상기 특허 속성 종류는 거래 이력, 소송 사용 이력, 표준 특허풀 등재, 계량화된 인용 또는 피인용 특성, 특허 평가 속성, 특허 분류 속성 중 어느 하나 이상인 것이며,
권리자 속성은 권리자의 국적, 권리자의 규모, 권리자의 기관 속성, 권리자 평가 속성 및 권리자 분류 속성 중 어느 하나 이상인 것을 특징으로 하는 방법.
제 1항에 있어서,
상기 (B-2) 단계에서, 추출된 상기 관련 특허로 관련 후보 특허 집합을 생성하는 것은
상기 가공 대상 특허 집합 특허별로 추출된 관련 특허를 합집합 연산을 통하여 생성하거나, 상기 관련 특허에 관계성 종류별 관계성 분포 정보를 포함하여 생성하는 것을 특징으로 하는 방법.
제 1항에 있어서,
상기 대조 특허 집합을 생성하는 것은
상기 관련 후보 특허 집합에서 랜덤 하게 기 설정된 개수의 특허를 추출하는 제1 방식,
상기 관련 후보 특허 집합에서 상기 가공 대상 특허 집합과의 관계성 종류별 관계성 분포 정보가 하위인 특허 순으로 기 설정된 개수의 특허를 추출하는 제2 방식,
상기 입력 특허 집합이 기 설정된 적어도 2 이상의 노드로 구성되는 분류 체계 상에서 특정한 위치에 속하는 특허 집합일 경우, 상기 분류 체계 상 상기 입력 특허 집합과 인접성이 있는 분류 체계 상에 속하는 특허 집합에 포함되어 있는 상기 관련 후보 특허 집합 특허에서 추출하는 제3 방식 중 어느 하나 인 것을 특징으로 하는 방법.
제 1항에 있어서,
상기 (C2)에서 상기 분류 모델을 생성하는 것은
(C2-1) 상기 가공 대상 특허 집합에 대하여 트레이닝 가공 대상 특허 집합과 테스트 가공 대상 특허 집합으로 2분화하고, 상기 대조 특허 집합에 대하여 트레이닝 대조 특허 집합과 테스트 대조 특허 집합으로 2분화하는 단계;
(C2-2) 상기 트레이닝 가공 대상 특허 집합에 속하는 트레이닝 가공 대상 특허 집합 특허별 설명 변수값을 입수하고, 상기 트레이닝 대조 특허 집합에 속하는 트레이닝 대조 특허 집합 특허별 설명 변수값을 입수하며, 상기 속성값을 반응 변수값으로 입수하는 단계;
(C2-3) 상기 설명 변수값과 반응 변수값으로 기 설정된 기계 학습 알고리즘을 사용하여 분류 모델을 생성하는 것인 것을 특징으로 하는 방법.
제 9항에 있어서,
상기 (C2-2)에 있어서,
상기 트레이닝 가공 대상 특허 집합 특허별 설명 변수값은
상기 트레이닝 가공 대상 특허 집합에 속하는 모든 특허별로 생성되는 것이며,
상기 트레이닝 가공 대상 특허 집합 중에서 1개의 트레이닝 가공 대상 특허 집합 특허를 선택하고, 상기 선택된 1개의 트레이닝 가공 대상 특허 집합 특허와 상기 선택된 1개의 트레이닝 특허가 제외된 트레이닝 가공 대상 특허 집합과의 적어도 하나 이상의 관계성 파라미터별 관계성 파라미터 값을 생성하고 저장하는 과정을 상기 트레이닝 가공 대상 특허 집합 특허 모두에 대하여 실행하는 방식으로 생성되며,
상기 트레이닝 대조 특허 집합 특허별 설명 변수값은
상기 트레이닝 대조 특허 집합에 속하는 모든 특허별로 생성되는 것이며,
상기 트레이닝 대조 특허 집합 중에서 1개의 트레이닝 대조 특허 집합 특허를 선택하고, 상기 선택된 1개의 트레이닝 대조 특허 집합 특허와 상기 선택된 1개의 트레이닝 특허가 제외된 트레이닝 대조 특허 집합과의 적어도 하나 이상의 관계성 파라미터별 관계성 파라미터 값을 생성하고 저장하는 과정을 상기 트레이닝 대조 특허 집합 특허 모두에 대하여 실행하는 방식으로 생성되는 것인 것을 특징으로 하는 방법.
제 10항에 있어서,
상기 관계성 파라미터는
선택 특허가 속해 있었고 상기 선택 특허만이 제외된 특허로 구성되는 비교 특허 집합과 상기 선택 특허
간의 관계성으로 정의되는 것이며,
상기 관계성 파라미터는 인용 관계성 파라미터, 피인용 관계성 파라미터, 공동 인용 관계성 파라미터, 공동 피인용 관계성 파라미터, 공동 키워드 관계성 파라미터, 공동 특허 분류 관계성 파라미터, 공동 발명자 관계성 파라미터, 특성 키워드 관계성 파라미터 중 어느 하나 이상인 것이며,
상기 관계성 파라미터 값은 기 설정된 인용 관계성 파라미터 값의 생성 방법, 기 설정된 피인용 관계성 파라미터 값의 생성 방법, 기 설정된 공동 인용 관계성 파라미터 값의 생성 방법, 기 설정된 공동 피인용 관계성 파라미터 값의 생성 방법, 기 설정된 공동 키워드 관계성 파라미터 값의 생성 방법, 기 설정된 공동 특허 분류 관계성 파라미터 값의 생성 방법, 기 설정된 공동 발명자 관계성 파라미터 값의 생성 방법 중 어느 하나 이상의 방법에 의해 생성되는 것인 것을 특징으로 하는 방법.
제 11항에 있어서,
상기 특성 키워드 관계성 파라미터는 상기 키워드별로 기 설정된 가중치 부여 방식에 따라 키워드별로 가중치가 부여된 관계성 파라미터인 것을 특징으로 하는 방법.
제 9항에 있어서,
상기 기계 학습 알고리즘은 부스팅, 딥러닝, 랜덤 포리스트 중 어느 하나 또는 어느 2 이상을 결합한 것인 것을 특징으로 하는 방법.
제 9항에 있어서,
상기 분류 모델은 특허별로 준비되는 관계성 파라미터 값 집합을 입력 받았을 때, 상기 특허가 서로 다른 속성값을 가지는 2개의 특허 집합 중 어느 한 집합과의 관계성에 대한 적어도 하나 이상의 계량 통계학적 수치값을 분류 모델값으로 생성하는 것인 것을 특징으로 하는 방법.
제1항에 있어서,
상기 (D1) 단계는
(D1-1) 상기 관련 후보 특허 집합 특허마다 상기 관련 후보 특허 집합 특허와 상기 가공 대상 특허 집합 간의 관계성 파라미터 값 집합을 생성하는 단계;및
(D1-2) 상기 생성된 관계성 파라미터 값 집합을 상기 분류 모델에 적용하여, 상기 관련 후보 특허 집합 특허별로 분류 모델값으로 생성하는 단계;를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 (D2)는
(D2-1) 상기 관련 후보 특허 집합 특허별 분류 모델값을 사용하여, 기 설정된 선별 기준을 충족시키는 관련 후보 특허 집합으로 관련 특허 집합을 생성하는 것이거나,
(D2-2) 상기 관련 후보 특허 집합 특허에 대하여 상기 분류 모델값을 기준으로 소팅하여 서열 정보가 포함된 상기 관련 후보 특허 집합 특허로 관련 특허 집합을 생성하는 것인 것을 특징으로 하는 방법.
제1항에 있어서,
(E) 상기 컴퓨터 장치가,
(E1) 생성된 상기 분류 모델을 상기 입력 특허 집합에 적용하여, 입력 특허별 분류 모델값을 생성하는 단계; 및
(E2) 상기 입력 특허별 분류 모델값이 기 설정된 기준을 충족시키는 입력 특허만으로 상기 가공 대상 특허 집합을 생성하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
(F) 상기 컴퓨터 장치가,
(F1) 상기 관련 특허 집합을 구성하는 관련 특허 집합 특허별로 상기 관련 특허 집합 특허와 상기 가공 대상 특허 집합 간의 적어도 하나 이상의 관계성 파라미터별 관계성 파라미터 값을 부가한 관련 특허 집합 특허 데이터를 생성하는 단계;
(F2) 상기 관계성 파라미터 값에 대응되는 관계성 텍스트 데이터를 추출하고, 상기 추출된 관계성 텍스트 데이터를 부가한 관련 특허 집합 특허 데이터를 생성하는 단계; 중 어느 하나 이상의 단계를 처리하는 것인 것을 특징으로 하는 방법.
적어도 2 이상의 특허를 포함하는 특허 집합이 입력되었을 때, 주어진 입력 특허 집합과 관련성이 존재하는 관련 특허 집합을 생성하는 컴퓨터 장치로서,
(A) 입력 특허 집합 또는 상기 입력 특허 집합에 속하는 특허 중에서 선별 처리를 통하여 생성되는 특허를 포함하는 선별 특허 집합 중 어느 하나로 가공 대상 특허 집합을 확정하는 단계를 수행하는 프로세스;
(B) (B1) 상기 가공 대상 특허 집합에 대하여, 상기 가공 대상 특허 집합에 속하는 특허인 가공 대상 특허 집합 특허별로 관련 특허를 추출하고, (B2) 추출된 상기 관련 특허로 관련 후보 특허 집합을 생성하는 단계를 수행하는 프로세스;
(C) 상기 가공 대상 특허 집합에 속하지 않는 특허들을 포함하는 대조 특허 집합이 생성된 상태에서, (C1) 상기 가공 대상 특허 집합에 속하는 가공 대상 특허 집합 특허와 상기 대조 특허 집합에 속하는 대조 특허 집합 특허에 각기 다른 속성값을 부여하고, (C2) 상기 가공 대상 특허 집합 특허와 상기 대조 특허 집합 특허를 대상으로 적어도 하나 이상의 기계 학습 기반의 분류 모델을 생성하는 단계를 수행하는 프로세스;
(D) (D1) 상기 분류 모델을 관련 후보 특허 집합 특허에 적용하여, 상기 관련 후보 특허 집합 특허마다 분류 모델값을 생성하고, (D2) 상기 분류 모델값을 직접 또는 변형하여 사용하여 관련 후보 특허 집합 특허 중에서 관련 특허 집합을 생성하는 단계를 수행하는 프로세스를 처리하는 프로세서;를 포함하며,
선택적으로, 적어도 하나 이상의 타 장치로부터 입력 특허 집합에 대응되는 입력 특허 정보를 입수 받거나, 생성된 상기 관련 특허 집합을 상기 프로세서 또는 상기 타 장치로 전송하는 통신부;를 더 포함하는 것을 특징으로 하는 장치.