KR102671752B1

KR102671752B1 - Gam을 이용한 특허 데이터 분석 장치 및 방법

Info

Publication number: KR102671752B1
Application number: KR1020210081277A
Authority: KR
Inventors: 전성해; 박상성
Original assignee: 청주대학교 산학협력단
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2024-05-31
Also published as: KR20220170446A

Abstract

본 명세서는 특허 데이터 분석 장치 및 방법에 관한 것으로 상세하게는, GAM을 이용한 특허 데이터 분석 장치 및 방법에 관한 것이다. 본 명세서의 일 실시예에 따른 특허 데이터 분석 방법은 복수의 특허 데이터로부터 상기 키워드를 포함하는 특허 행렬을 생성하는 단계, GAM(Generalized Additive Model)을 이용하여 상기 특허 행렬로부터 상기 키워드 별로 유의 확률인 P값(P-value)을 산출하는 단계, P값을 미리 설정된 기준값과 비교하여 상기 키워드 각각의 등장 빈도수에 기반한 복수의 회귀 플롯(regression plot)을 생성하는 단계 및 복수의 회귀 플롯의 기울기에 따라 상기 키워드를 분류하는 기술 다이어그램을 생성하는 단계를 포함한다.

Description

GAM을 이용한 특허 데이터 분석 장치 및 방법{APPARATUS AND METHOD FOR ANALYZING PATENT DATA USING GAM}

본 명세서는 특허 데이터 분석 장치 및 방법에 관한 것으로 상세하게는, GAM을 이용한 특허 데이터 분석 장치 및 방법에 관한 것이다.

특허 기술은 기술 발전에 따라 고도화 되며, 사회의 여러 분야에 다양한 영향을 미친다. 이러한 영향력을 통해 기술은 사회를 변화 시키므로 인간의 삶의 질을 향상시키도록 끊임없는 새로운 개발이 요구된다.

이러한 이유로, 특허 기술은 사회 변화에 따라 트렌드가 급속도로 변화한다. 따라서, 트렌드에 발빠르게 대처하기 위해서는 어느 분야의 특허 기술이 지속적으로 성장 가능한지 또는 정체되거나 위측 될지 분석하는 특허 분석 기술이 매우 중요하다.

종래의 특허 기술 분석은 다량의 특허 데이터를 정량적으로 분석하는 방법으로 특허 데이터와 특허 데이터에 포함된 키워드의 빈도수에 기반한 특허 행렬이 사용되었다.

그러나, 이러한 특허 행렬은 키워드의 빈도수가 매우 적거나 없어도 특허 행렬에 포함되므로 특허 행렬이 높은 희소성을 갖는다. 희소한(Sparse) 특허 행렬을 이용하는 경우 특허 기술 분석이 편향적이고 매우 비효율적인 문제점이 있다.

따라서, 특허 행렬의 희소성 문제를 극복하고, 특정 분야의 특허 기술의 지속가능 여부를 직관적으로 파악할 수 있는 기술의 필요성이 요구된다.

본 명세서의 목적은 GAM을 이용하여 특허 행렬의 희소성 문제를 해결할 수 있는 특허 데이터 분석 장치 및 방법을 제공하는 것이다.

또한, 본 명세서의 목적은 회귀 플롯 및 기술 다이어그램을 통해 지속 가능한 특허 기술을 시각적으로 분석할 수 있는 특허 데이터 분석 장치 및 방법을 제공하는 것이다.

본 명세서의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 명세서의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 명세서의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 명세서의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

본 명세서의 일 실시예에 따른 특허 데이터 분석 방법은 복수의 특허 데이터로부터 상기 키워드를 포함하는 특허 행렬을 생성하는 단계, GAM(Generalized Additive Model)을 이용하여 상기 특허 행렬로부터 상기 키워드 별로 유의 확률인 P값(P-value)을 산출하는 단계, P값을 미리 설정된 기준값과 비교하여 상기 키워드 각각의 등장 빈도수에 기반한 복수의 회귀 플롯(regression plot)을 생성하는 단계 및 복수의 회귀 플롯의 기울기에 따라 상기 키워드를 분류하는 기술 다이어그램을 생성하는 단계를 포함한다.

또한, 본 명세서의 일 실시예에서 특허 행렬을 생성하는 단계는 텍스트 마이닝 기법을 이용하여 상기 복수의 특허 데이터로부터 상기 키워드를 추출하는 단계 및 키워드, 상기 복수의 특허 데이터 및 키워드의 등장 빈도수를 포함하는 특허 행렬을 생성하는 단계를 포함한다.

또한, 본 명세서의 일 실시예에서 키워드 별로 P값을 산출하는 단계는 GAM을 이용하여 특허 행렬에 포함된 키워드 각각의 회귀 계수를 산출하는 단계 및 회귀 계수에 대한 가설 검정을 통해 상기 키워드 별로 상기 P값을 추출하는 단계를 포함한다.

또한, 본 명세서의 일 실시예에서 GAM은 하기의 수학식 1에 의해 표현된다.

<수학식 1>

여기서, y_i는 GAM의 결과 값, 는 절편, i는 특허 데이터 개수, j는 키워드 개수, 는 오차를 의미한다.

또한, 본 명세서의 일 실시예에서 회귀 플롯을 생성하는 단계는 P값이 미리 설정된 기준값보다 작으면 회귀 플롯을 생성하고, P값이 미리 설정된 기준값과 같거나 크면 회귀 플롯을 생성하지 않는 단계를 포함한다.

또한, 본 명세서의 일 실시예에서 복수의 회귀 플롯의 기울기에 따라 특허 키워드를 분류하는 기술 다이어그램을 생성하는 단계는 복수의 회귀 플롯 중 기울기가 0보다 큰 회귀 플롯의 키워드를 이용하여 기술 다이어그램을 생성하는 단계를 포함한다.

또한, 본 명세서의 일 실시예에 따른 특허 데이터 분석 장치는 복수의 특허 데이터로부터 상기 키워드를 포함하는 특허 행렬을 생성하는 행렬 생성부, GAM(Generalized Additive Model)을 이용하여 상기 특허 행렬로부터 상기 키워드 별로 유의 확률인 P값(P-value)을 산출하는 P값 산출부, P값을 미리 설정된 기준값과 비교하여 상기 키워드 각각의 등장 빈도수에 기반한 복수의 회귀 플롯(regression plot)을 생성하는 플롯 생성부 및 복수의 회귀 플롯의 기울기에 따라 상기 키워드를 분류하는 기술 다이어그램을 생성하는 다이어그램 생성부를 포함한다.

또한, 본 명세서의 일 실시예에서 행렬 생성부는 텍스트 마이닝 기법을 이용하여 상기 복수의 특허 데이터로부터 상기 키워드를 추출하고, 키워드, 복수의 특허 데이터 및 키워드의 등장 빈도수를 포함하는 특허 행렬을 생성한다.

또한, 본 명세서의 일 실시예에서 P값 산출부는 GAM을 이용하여 특허 행렬에 포함된 키워드 각각의 회귀 계수를 산출하고, 상기 회귀 계수에 대한 가설 검정을 통해 상기 키워드 별로 상기 P값을 추출한다.

<수학식 1>

또한, 본 명세서의 일 실시예에서 플롯 생성부는 P값이 미리 설정된 기준값보다 작으면 회귀 플롯을 생성하고, 상기 P값이 미리 설정된 기준값과 같거나 크면 회귀 플롯을 생성하지 않는다.

또한, 본 명세서의 일 실시예에서 다이어그램을 생성부는 복수의 회귀 플롯 중 기울기가 0보다 큰 회귀 플롯의 키워드를 이용하여 기술 다이어그램을 생성한다.

본 명세서의 일 실시예에 따른 특허 데이터 분석 장치 및 방법은 GAM을 이용하여 특허 행렬의 희소성 문제를 해결할 수 있다.

또한, 본 명세서의 일 실시예에 따른 특허 데이터 분석 장치 및 방법은 회귀 플롯 및 기술 다이어그램을 통해 지속 가능한 특허 기술을 시각적으로 분석할 수 있다.

도 1은 본 명세서의 일 실시예에 따른 특허 데이터 분석 장치의 구성도이다.
도 2는 본 명세서의 일 실시예에서 특허 행렬을 나타낸 도면이다.
도 3은 본 명세서의 일 실시예에서 블록체인과 관련된 키워드 및 키워드의 P값을 나타낸 표이다.
도 4는 본 명세서의 일 실시예에서 키워드 각각의 회귀 플롯을 나타낸 표이다.
도 5는 본 명세서의 일 실시예에서 키워드를 분류한 표이다.
도 6은 본 명세서의 일 실시예에서 복수의 그룹을 포함하는 기술 다이어그램을 나타낸 도면이다.
도 7은 본 명세서의 일 실시예에 따른 특허 데이터 분석 방법의 순서도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명한다.

도 1은 본 명세서의 일 실시예에 따른 특허 데이터 분석 장치의 구성도이고, 도 2는 본 명세서의 일 실시예에서 특허 행렬을 나타낸 도면이고, 도 3은 본 명세서의 일 실시예에서 블록체인 기술과 관련된 키워드 및 키워드의 P값을 나타낸 표이고, 도 4는 본 명세서의 일 실시예에서 키워드 각각의 회귀 플롯을 나타낸 표이고, 도 5는 본 명세서의 일 실시예에서 키워드를 분류한 표이고, 도 6은 본 명세서의 일 실시예에서 복수의 그룹을 포함하는 기술 다이어그램을 나타낸 도면이다. 이하, 도 1 내지 도 6을 참조하여 특허 데이터 분석 장치를 설명하도록 한다.

도 1을 참조하면, 특허 데이터 분석 장치(100)는 특정 기술 분야의 복수의 특허 데이터에 포함된 키워들을 분류하는 장치로써, 행렬 생성부(110), P값 산출부(130), 플롯 생성부(150), 다이어그램 생성부(170)를 포함한다. 특정 기술 분야는 인공지능(AI), 블록체인, 통신, 반도체 등 다양한 기술 분야 중 어느 한 분야일 수 있다. 이하에서는 설명의 편의를 위해 특정 기술 분야는 블록체인 기술임을 전제로 하여 설명하도록 한다.

행렬 생성부(110)는 수집된 복수의 특허 데이터로부터 키워드를 포함하는 특허 행렬을 생성한다. 구체적으로, 행렬 생성부(110)는 텍스트 마이닝 기법을 이용하여 복수의 특허 데이터로부터 키워드를 추출하고, 키워드, 복수의 특허 데이터 및 키워드의 등장 빈도수를 포함하는 특허 행렬을 생성한다.

보다 상세하게, 행렬 생성부(110)는 복수의 특허 데이터에 포함된 텍스트 정보로부터 말뭉치를 추출한다. 말뭉치(Corpus)란 컴퓨터가 텍스트를 가공, 처리, 분석할 수 있도록 텍스트 정보를 모아 놓은 형태로써, 행렬 생성부(110)는 말뭉치에서 불용어, 구두점, 숫자를 제거하여 복수의 키워드를 추출한다.

이후, 행렬 생성부(110)는 복수의 키워드를 이용하여 문서-단어 행렬인 특허 행렬을 생성한다. 특허 행렬이란 복수의 특허 데이터 각각에 대한 복수의 키워드의 등장 빈도를 나타낸 행렬이다.

도 2를 참조하면, 복수의 키워드는 특허 행렬(120)의 열 제목(124)에 표시되고, 복수의 특허 데이터(10) 각각은 특허 행렬의 행 제목(122)에 표시되며, 키워드 각각의 등장 빈도수가 행렬 내부에 표시된다.

도 2에 도시된 바와 같이, 특허 데이터 P1에는 키워드 access가 1번 등장하였고, 특허 데이터 P2에는 키워드 bitcoin이 1번 등장하였음을 알 수 있다. 이와 같이, 특허 행렬을 이용하면 각각의 특허 데이터에서 어느 키워드가 얼마나 많이 등장했는지 파악할 수 있어 해당 특허 데이터의 세부 기술 파악이 용이할 수 있다.

P값 산출부(130)는 GAM(Generalized Additive Model)을 이용하여 특허 행렬로부터 키워드 별로 유의 확률인 P값(P-value)을 산출한다. 구체적으로, P값 산출부(130)는 GAM을 이용하여 특허 행렬에 포함된 키워드 각각의 회귀 계수를 산출하고, 회귀 계수에 대한 가설 검정을 통해 키워드 별로 P값을 추출한다.

여기서, GAM이란 일반화 가법 모델로써 가산성을 유지하면서 각 변수의 비선형함수들을 허용하여 표준선형모델을 확장하는 모델이다. 행렬 생성부(110)에 의해 생성된 특허 행렬은 특허 데이터에 특정 키워드가 등장하지 않아 등장 빈도수 0값을 갖더라도 해당 키워드를 특허 행렬 내부에 표시한다. 이에 따라 희소성의 문제가 발생하므로 본 명세서에서의 특허 데이터 분석 장치(100)는 이러한 문제를 해결하기 위해 GAM을 이용한다.

한편, GAM은 하기의 수학식 1에 의해 표현될 수 있다.

<수학식 1>

또한, GAM은 수학식 1을 펼쳐 하기의 수학식 2와 같이 나타낼 수 있다.

<수학식 2>

여기서, y_i는 GAM의 결과 값, 는 절편, 내지 는 회귀 계수, 내지 는 키워드 i는 특허 데이터 개수,는 오차를 의미한다.

이때, P값 산출부(130)는 키워드 별로 회귀 계수를 생성하므로, 각각의 회귀 계수는 같거나 서로 다를 수 있다. 이와 같이, 본 명세서의 특허 데이터 분석 장치(l00)는 특허 행렬 전체에 대한 회귀 계수가 아닌 특허 행렬에 포함된 키워드 별로 회귀 계수를 생성하여 개별적 모델링을 수행하므로 희소성 문제를 해결할 수 있다.

이후, P값 산출부(130)는 생성된 회귀 계수에 대한 가설 검정을 통해 키워드 별로 P값을 추출한다. P값(P-value)은 통계적 가설 검정(Statistical hypothesis test)에서의 유의 확률로써, 귀무가설(null hypothesis, H₀)이 맞다고 가정할 때 표본에서 실제로 관측된 통계치와 같거나 더 극단적인 통계치가 관측될 확률을 의미한다.

예컨대, '=0'이라는 하나의 가설을 검정하는 경우 귀무가설(H₀)은 =0 이고, 대립 가설(Alternative hypothesis, H₁)은 0으로 설정될 수 있다. P값 산출부(130)는 귀무가설이 맞다고 가정할 때 즉, H₀: =0 일때, 표본에서 실제로 관측된 통계치와 같거나 더 극단적인 통계치가 관출될 확률을 구하여 P값을 산출할 수 있다.

이러한 P값은 0에서 1사이의 값을 가지며, 0.05 이하인 경우 95% 신뢰 수준의 유의미(significant)한 값이라고 판단될 수 있고, 0.01 이하인 경우 99% 신뢰 수준의 유의미한 값이라고 판단될 수 있다.

도 3에 도시된 바와 같이, P값 산출부(130)는 블록체인과 관련된 각각의 키워드에 서로 다른 P값을 산출할 수 있다. 예컨대, 'access, address, android, assort, authentication, bankcard, bitcoin, configuration'의 경우 P값은 각각 '0.0464, 0.0001, 0.0007, 0.0299, 0.0246, 0.0003, 0.0001, 0.0021'을 가져 0.05이하이므로 유의미한 값이라고 판단될 수 있고, 이러한 P값을 갖는 키워드는 후술할 플롯 생성부에 의해 회귀 플롯이 생성될 수 있다.

플롯 생성부(150)는 P값을 미리 설정된 기준값과 비교하여 키워드 각각의 등장 빈도수에 기반한 복수의 회귀 플롯(regression plot)을 생성한다. 상세하게 플롯 생성부(150)는 플롯 생성부는 P값이 미리 설정된 기준값보다 작으면 회귀 플롯을 생성하고, P값이 미리 설정된 기준값과 같거나 크면 회귀 플롯을 생성하지 않는다. 이때, 미리 설정된 기준값은 P값이 유의미한 값을 갖는 0.05 또는 0.01일 수 있다.

도 4에는 'access, address, android, assort, authentication, bankcard, bitcoin, configuration' 각각의 키워드에 대한 회귀 플롯이 도시 된다. 회귀 플롯의 가로축은 시간, 세로축은 빈도수(또는 중요도)를 의미하고, 회귀 플롯 내부의 점(200)들은 관측값을 의미한다.

회귀 플롯 각각의 내부에는 추세선(210)이 형성되어 기울기를 가지며, 기울기는 키워드의 등장 빈도수가 높을수록 가파른 양의 기울기를 갖는다. 따라서, 형성된 기울기를 통해 회귀 플롯의 키워드가 지속 가능한 기술에 관한 키워드인지 또는 정체되거나 위축되는 기술에 관한 키워드인지 여부가 판단될 수 있다.

다이어그램 생성부(170)는 복수의 회귀 플롯의 기울기에 따라 키워드를 분류하는 기술 다이어그램을 생성한다. 도 4 및 도 5를 참조하면, 복수의 회귀 플롯 중 'access, address, configuration'의 키워드를 갖는 회귀 플롯은 기울기가 0보다 크고, 'android, bankcard, bitcoin'의 키워드를 갖는 회귀 플롯은 기울기가 0보다 작으며, 'assort, authentication'의 키워드를 갖는 회귀 플롯은 기울기가 0이다.

다이어그램 생성부(170)는 이와 같이 기울기에 따라 키워드를 분류할 수 있다. 예컨대, 도 5를 참조하면 기울기가 0보다 큰 회귀 플롯의 키워드는 16개, 기울기가 0인 회귀 플롯의 키워드는 4개, 기울기가 0보다 작은 회귀 플롯의 키워드는 12개로 분류되었다.

다이어그램 생성부(170)는 분류된 키워드에 기초하여 특정 분야의 기술인 블록체인의 기술 다이어그램을 생성한다. 구체적으로, 기울기에 따라 분류된 키워드를 제1 그룹, 제2 그룹 및 제3 그룹으로 나누어 표시한 기술 다이어그램을 생성할 수 있다.

도 6에 도시된 바와 같이, 제1 그룹(300)은 기울기가 0보다 큰 회귀 플롯의 키워드 모음이다. 제1 그룹(300)에 속하는 키워드들은 지속적으로 발전 가능한 기술과 관련된 키워드(positive trend)로 collaboration management가 필요하고, 제2 그룹(310)은 기울기가 0인 회귀 플롯의 키워드 모음으로, 제2 그룹(310)에 속하는 키워드들은 성장 또는 위축되지 않고 정체된 기술로 general management가 필요하다. 또한, 제3 그룹(320)은 기울기가 0보다 작은 회귀 플롯의 키워드 모음으로, 제3 그룹(320)에 속하는 키워드들은 지속적으로 위축되는 기술과 관련된 키워드(negative trend)로 effective and efficient management가 필요하다.

이와 같이, 다이어그램 생성부(170)는 시각적으로 인지되는 기술 다이어그램을 생성함으로써 사용자가 성장, 정체 또는 위축되는 키워드를 쉽게 파악할 수 있고, 그룹에 따라 서로 다른 관리 방법을 수행함으로써 최적의 대응을 할 수 있다.

한편, 본 명세서의 일 실시예에서, 다이어그램 생성부(170)는 복수의 회귀 플롯 중 기울기가 0보다 큰 회귀 플롯의 키워드를 이용하여 기술 다이어그램을 생성할 수 있다. 이에 따라 다이어그램 생성부(170)는 지속적으로 성장 가능한 키워드만으로 구성된 기술 다이어그램을 생성할 수 있고, 사용자는 신속하게 성장 가능한 키워드를 파악할 수 있다.

도 7은 본 명세서의 일 실시예에 따른 특허 데이터 분석 방법의 순서도이다. 도면을 참조하면, 특허 데이터 분석 장치(100)는 복수의 특허 데이터로부터 키워드를 포함하는 특허 행렬을 생성한다(S110). 구체적으로, 특허 데이터 분석 장치(100)는 텍스트 마이닝 기법을 이용하여 복수의 특허 데이터로부터 키워드를 추출하고, 키워드, 복수의 특허 데이터 및 키워드의 등장 빈도수를 포함하는 특허 행렬을 생성한다.

또한, 특허 데이터 분석 장치(100)는 GAM(Generalized Additive Model)을 이용하여 특허 행렬로부터 키워드 별로 유의 확률인 P값(P-value)을 산출한다(S130). 즉, 특허 데이터 분석 장치(100)는 GAM을 이용하여 특허 행렬에 포함된 키워드 각각의 회귀 계수를 산출하고, 회귀 계수에 대한 가설 검정을 통해 키워드 별로 P값을 추출한다.

이후, 특허 데이터 분석 장치(100)는 P값을 미리 설정된 기준값과 비교하여 키워드 각각의 등장 빈도수에 기반한 복수의 회귀 플롯(regression plot)을 생성하고(S150), 복수의 회귀 플롯의 기울기에 따라 키워드를 분류하는 기술 다이어그램을 생성한다(S170).

이와 같이, 본 명세서의 일 실시예에 따른 특허 데이터 분석 장치 및 방법은 GAM을 이용하여 특허 행렬의 희소성 문제를 해결할 수 있다.

이상과 같이 본 발명에 대해서 예시한 도면을 참조로 하여 설명하였으나, 본 명세서에 개시된 실시 예와 도면에 의해 본 발명이 한정되는 것은 아니며, 본 발명의 기술사상의 범위 내에서 통상의 기술자에 의해 다양한 변형이 이루어질 수 있음은 자명하다. 아울러 앞서 본 발명의 실시 예를 설명하면서 본 발명의 구성에 따른 작용 효과를 명시적으로 기재하여 설명하지 않았을지라도, 해당 구성에 의해 예측 가능한 효과 또한 인정되어야 함은 당연하다.

Claims

복수의 특허 데이터에 포함된 키워드를 분류하는 특허 데이터 분석 방법에 있어서,
상기 복수의 특허 데이터로부터 상기 키워드를 포함하는 특허 행렬을 생성하는 단계;
GAM(Generalized Additive Model)을 이용하여 상기 특허 행렬로부터 상기 키워드 별로 유의 확률인 P값(P-value)을 산출하는 단계;
상기 P값을 미리 설정된 기준값과 비교하여 상기 키워드 각각의 등장 빈도수에 기반한 복수의 회귀 플롯(regression plot)을 생성하는 단계; 및
상기 복수의 회귀 플롯의 기울기에 따라 상기 키워드를 분류하는 기술 다이어그램을 생성하는 단계를 포함하는
특허 데이터 분석 방법.
제1항에 있어서,
상기 특허 행렬을 생성하는 단계는
텍스트 마이닝 기법을 이용하여 상기 복수의 특허 데이터로부터 상기 키워드를 추출하는 단계; 및
상기 키워드, 상기 복수의 특허 데이터 및 키워드의 등장 빈도수를 포함하는 특허 행렬을 생성하는 단계를 포함하는
특허 데이터 분석 방법.
제1항에 있어서,
상기 키워드 별로 P값을 산출하는 단계는
상기 GAM을 이용하여 특허 행렬에 포함된 키워드 각각의 회귀 계수를 산출하는 단계; 및
상기 회귀 계수에 대한 가설 검정을 통해 상기 키워드 별로 상기 P값을 추출하는 단계를 포함하는
특허 데이터 분석 방법.
제1항에 있어서,
상기 GAM은
하기의 수학식 1에 의해 표현되는 특허 데이터 분석 방법.

<수학식 1>

여기서, y_i는 GAM의 결과 값, 는 절편, i는 특허 데이터 개수, j는 키워드 개수, 는 오차를 의미한다.
제1항에 있어서,
상기 회귀 플롯을 생성하는 단계는
상기 P값이 미리 설정된 기준값보다 작으면 회귀 플롯을 생성하고, 상기 P값이 미리 설정된 기준값과 같거나 크면 회귀 플롯을 생성하지 않는 단계를 포함하는
특허 데이터 분석 방법.
제1항에 있어서,
상기 기술 다이어그램을 생성하는 단계는
상기 복수의 회귀 플롯 중 기울기가 0보다 큰 회귀 플롯의 키워드를 이용하여 기술 다이어그램을 생성하는 단계를 포함하는
특허 데이터 분석 방법.
복수의 특허 데이터에 포함된 키워드를 분류하는 특허 데이터 분석 장치에 있어서,
상기 복수의 특허 데이터로부터 상기 키워드를 포함하는 특허 행렬을 생성하는 행렬 생성부;
GAM(Generalized Additive Model)을 이용하여 상기 특허 행렬로부터 상기 키워드 별로 유의 확률인 P값(P-value)을 산출하는 P값 산출부;
상기 P값을 미리 설정된 기준값과 비교하여 상기 키워드 각각의 등장 빈도수에 기반한 복수의 회귀 플롯(regression plot)을 생성하는 플롯 생성부; 및
상기 복수의 회귀 플롯의 기울기에 따라 상기 키워드를 분류하는 기술 다이어그램을 생성하는 다이어그램 생성부를 포함하는
특허 데이터 분석 장치.
제7항에 있어서,
상기 행렬 생성부는
텍스트 마이닝 기법을 이용하여 상기 복수의 특허 데이터로부터 상기 키워드를 추출하고, 상기 키워드, 상기 복수의 특허 데이터 및 키워드의 등장 빈도수를 포함하는 특허 행렬을 생성하는
특허 데이터 분석 장치.
제7항에 있어서,
상기 P값 산출부는
상기 GAM을 이용하여 특허 행렬에 포함된 키워드 각각의 회귀 계수를 산출하고, 상기 회귀 계수에 대한 가설 검정을 통해 상기 키워드 별로 상기 P값을 추출하는
특허 데이터 분석 장치.
제7항에 있어서,
상기 GAM은
하기의 수학식 1에 의해 표현되는 특허 데이터 분석 장치.

<수학식 1>

여기서, y_i는 GAM의 결과 값, 는 절편, i는 특허 데이터 개수, j는 키워드 개수, 는 오차를 의미한다.
제7항에 있어서,
상기 플롯 생성부는
상기 P값이 미리 설정된 기준값보다 작으면 회귀 플롯을 생성하고, 상기 P값이 미리 설정된 기준값과 같거나 크면 회귀 플롯을 생성하지 않는
특허 데이터 분석 장치.
제7항에 있어서,
상기 다이어그램 생성부는
상기 복수의 회귀 플롯 중 기울기가 0보다 큰 회귀 플롯의 키워드를 이용하여 기술 다이어그램을 생성하는
특허 데이터 분석 장치.