KR102671752B1 - Gam을 이용한 특허 데이터 분석 장치 및 방법 - Google Patents

Gam을 이용한 특허 데이터 분석 장치 및 방법 Download PDF

Info

Publication number
KR102671752B1
KR102671752B1 KR1020210081277A KR20210081277A KR102671752B1 KR 102671752 B1 KR102671752 B1 KR 102671752B1 KR 1020210081277 A KR1020210081277 A KR 1020210081277A KR 20210081277 A KR20210081277 A KR 20210081277A KR 102671752 B1 KR102671752 B1 KR 102671752B1
Authority
KR
South Korea
Prior art keywords
keywords
keyword
value
regression
patent data
Prior art date
Application number
KR1020210081277A
Other languages
English (en)
Other versions
KR20220170446A (ko
Inventor
전성해
박상성
Original Assignee
청주대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 청주대학교 산학협력단 filed Critical 청주대학교 산학협력단
Priority to KR1020210081277A priority Critical patent/KR102671752B1/ko
Publication of KR20220170446A publication Critical patent/KR20220170446A/ko
Application granted granted Critical
Publication of KR102671752B1 publication Critical patent/KR102671752B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/923Intellectual property
    • Y10S707/93Intellectual property intellectual property analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Marketing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 명세서는 특허 데이터 분석 장치 및 방법에 관한 것으로 상세하게는, GAM을 이용한 특허 데이터 분석 장치 및 방법에 관한 것이다. 본 명세서의 일 실시예에 따른 특허 데이터 분석 방법은 복수의 특허 데이터로부터 상기 키워드를 포함하는 특허 행렬을 생성하는 단계, GAM(Generalized Additive Model)을 이용하여 상기 특허 행렬로부터 상기 키워드 별로 유의 확률인 P값(P-value)을 산출하는 단계, P값을 미리 설정된 기준값과 비교하여 상기 키워드 각각의 등장 빈도수에 기반한 복수의 회귀 플롯(regression plot)을 생성하는 단계 및 복수의 회귀 플롯의 기울기에 따라 상기 키워드를 분류하는 기술 다이어그램을 생성하는 단계를 포함한다.

Description

GAM을 이용한 특허 데이터 분석 장치 및 방법{APPARATUS AND METHOD FOR ANALYZING PATENT DATA USING GAM}
본 명세서는 특허 데이터 분석 장치 및 방법에 관한 것으로 상세하게는, GAM을 이용한 특허 데이터 분석 장치 및 방법에 관한 것이다.
특허 기술은 기술 발전에 따라 고도화 되며, 사회의 여러 분야에 다양한 영향을 미친다. 이러한 영향력을 통해 기술은 사회를 변화 시키므로 인간의 삶의 질을 향상시키도록 끊임없는 새로운 개발이 요구된다.
이러한 이유로, 특허 기술은 사회 변화에 따라 트렌드가 급속도로 변화한다. 따라서, 트렌드에 발빠르게 대처하기 위해서는 어느 분야의 특허 기술이 지속적으로 성장 가능한지 또는 정체되거나 위측 될지 분석하는 특허 분석 기술이 매우 중요하다.
종래의 특허 기술 분석은 다량의 특허 데이터를 정량적으로 분석하는 방법으로 특허 데이터와 특허 데이터에 포함된 키워드의 빈도수에 기반한 특허 행렬이 사용되었다.
그러나, 이러한 특허 행렬은 키워드의 빈도수가 매우 적거나 없어도 특허 행렬에 포함되므로 특허 행렬이 높은 희소성을 갖는다. 희소한(Sparse) 특허 행렬을 이용하는 경우 특허 기술 분석이 편향적이고 매우 비효율적인 문제점이 있다.
따라서, 특허 행렬의 희소성 문제를 극복하고, 특정 분야의 특허 기술의 지속가능 여부를 직관적으로 파악할 수 있는 기술의 필요성이 요구된다.
본 명세서의 목적은 GAM을 이용하여 특허 행렬의 희소성 문제를 해결할 수 있는 특허 데이터 분석 장치 및 방법을 제공하는 것이다.
또한, 본 명세서의 목적은 회귀 플롯 및 기술 다이어그램을 통해 지속 가능한 특허 기술을 시각적으로 분석할 수 있는 특허 데이터 분석 장치 및 방법을 제공하는 것이다.
본 명세서의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 명세서의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 명세서의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 명세서의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
본 명세서의 일 실시예에 따른 특허 데이터 분석 방법은 복수의 특허 데이터로부터 상기 키워드를 포함하는 특허 행렬을 생성하는 단계, GAM(Generalized Additive Model)을 이용하여 상기 특허 행렬로부터 상기 키워드 별로 유의 확률인 P값(P-value)을 산출하는 단계, P값을 미리 설정된 기준값과 비교하여 상기 키워드 각각의 등장 빈도수에 기반한 복수의 회귀 플롯(regression plot)을 생성하는 단계 및 복수의 회귀 플롯의 기울기에 따라 상기 키워드를 분류하는 기술 다이어그램을 생성하는 단계를 포함한다.
또한, 본 명세서의 일 실시예에서 특허 행렬을 생성하는 단계는 텍스트 마이닝 기법을 이용하여 상기 복수의 특허 데이터로부터 상기 키워드를 추출하는 단계 및 키워드, 상기 복수의 특허 데이터 및 키워드의 등장 빈도수를 포함하는 특허 행렬을 생성하는 단계를 포함한다.
또한, 본 명세서의 일 실시예에서 키워드 별로 P값을 산출하는 단계는 GAM을 이용하여 특허 행렬에 포함된 키워드 각각의 회귀 계수를 산출하는 단계 및 회귀 계수에 대한 가설 검정을 통해 상기 키워드 별로 상기 P값을 추출하는 단계를 포함한다.
또한, 본 명세서의 일 실시예에서 GAM은 하기의 수학식 1에 의해 표현된다.
<수학식 1>
여기서, yi는 GAM의 결과 값, 는 절편, i는 특허 데이터 개수, j는 키워드 개수, 는 오차를 의미한다.
또한, 본 명세서의 일 실시예에서 회귀 플롯을 생성하는 단계는 P값이 미리 설정된 기준값보다 작으면 회귀 플롯을 생성하고, P값이 미리 설정된 기준값과 같거나 크면 회귀 플롯을 생성하지 않는 단계를 포함한다.
또한, 본 명세서의 일 실시예에서 복수의 회귀 플롯의 기울기에 따라 특허 키워드를 분류하는 기술 다이어그램을 생성하는 단계는 복수의 회귀 플롯 중 기울기가 0보다 큰 회귀 플롯의 키워드를 이용하여 기술 다이어그램을 생성하는 단계를 포함한다.
또한, 본 명세서의 일 실시예에 따른 특허 데이터 분석 장치는 복수의 특허 데이터로부터 상기 키워드를 포함하는 특허 행렬을 생성하는 행렬 생성부, GAM(Generalized Additive Model)을 이용하여 상기 특허 행렬로부터 상기 키워드 별로 유의 확률인 P값(P-value)을 산출하는 P값 산출부, P값을 미리 설정된 기준값과 비교하여 상기 키워드 각각의 등장 빈도수에 기반한 복수의 회귀 플롯(regression plot)을 생성하는 플롯 생성부 및 복수의 회귀 플롯의 기울기에 따라 상기 키워드를 분류하는 기술 다이어그램을 생성하는 다이어그램 생성부를 포함한다.
또한, 본 명세서의 일 실시예에서 행렬 생성부는 텍스트 마이닝 기법을 이용하여 상기 복수의 특허 데이터로부터 상기 키워드를 추출하고, 키워드, 복수의 특허 데이터 및 키워드의 등장 빈도수를 포함하는 특허 행렬을 생성한다.
또한, 본 명세서의 일 실시예에서 P값 산출부는 GAM을 이용하여 특허 행렬에 포함된 키워드 각각의 회귀 계수를 산출하고, 상기 회귀 계수에 대한 가설 검정을 통해 상기 키워드 별로 상기 P값을 추출한다.
또한, 본 명세서의 일 실시예에서 GAM은 하기의 수학식 1에 의해 표현된다.
<수학식 1>
여기서, yi는 GAM의 결과 값, 는 절편, i는 특허 데이터 개수, j는 키워드 개수, 는 오차를 의미한다.
또한, 본 명세서의 일 실시예에서 플롯 생성부는 P값이 미리 설정된 기준값보다 작으면 회귀 플롯을 생성하고, 상기 P값이 미리 설정된 기준값과 같거나 크면 회귀 플롯을 생성하지 않는다.
또한, 본 명세서의 일 실시예에서 다이어그램을 생성부는 복수의 회귀 플롯 중 기울기가 0보다 큰 회귀 플롯의 키워드를 이용하여 기술 다이어그램을 생성한다.
본 명세서의 일 실시예에 따른 특허 데이터 분석 장치 및 방법은 GAM을 이용하여 특허 행렬의 희소성 문제를 해결할 수 있다.
또한, 본 명세서의 일 실시예에 따른 특허 데이터 분석 장치 및 방법은 회귀 플롯 및 기술 다이어그램을 통해 지속 가능한 특허 기술을 시각적으로 분석할 수 있다.
도 1은 본 명세서의 일 실시예에 따른 특허 데이터 분석 장치의 구성도이다.
도 2는 본 명세서의 일 실시예에서 특허 행렬을 나타낸 도면이다.
도 3은 본 명세서의 일 실시예에서 블록체인과 관련된 키워드 및 키워드의 P값을 나타낸 표이다.
도 4는 본 명세서의 일 실시예에서 키워드 각각의 회귀 플롯을 나타낸 표이다.
도 5는 본 명세서의 일 실시예에서 키워드를 분류한 표이다.
도 6은 본 명세서의 일 실시예에서 복수의 그룹을 포함하는 기술 다이어그램을 나타낸 도면이다.
도 7은 본 명세서의 일 실시예에 따른 특허 데이터 분석 방법의 순서도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명한다.
도 1은 본 명세서의 일 실시예에 따른 특허 데이터 분석 장치의 구성도이고, 도 2는 본 명세서의 일 실시예에서 특허 행렬을 나타낸 도면이고, 도 3은 본 명세서의 일 실시예에서 블록체인 기술과 관련된 키워드 및 키워드의 P값을 나타낸 표이고, 도 4는 본 명세서의 일 실시예에서 키워드 각각의 회귀 플롯을 나타낸 표이고, 도 5는 본 명세서의 일 실시예에서 키워드를 분류한 표이고, 도 6은 본 명세서의 일 실시예에서 복수의 그룹을 포함하는 기술 다이어그램을 나타낸 도면이다. 이하, 도 1 내지 도 6을 참조하여 특허 데이터 분석 장치를 설명하도록 한다.
도 1을 참조하면, 특허 데이터 분석 장치(100)는 특정 기술 분야의 복수의 특허 데이터에 포함된 키워들을 분류하는 장치로써, 행렬 생성부(110), P값 산출부(130), 플롯 생성부(150), 다이어그램 생성부(170)를 포함한다. 특정 기술 분야는 인공지능(AI), 블록체인, 통신, 반도체 등 다양한 기술 분야 중 어느 한 분야일 수 있다. 이하에서는 설명의 편의를 위해 특정 기술 분야는 블록체인 기술임을 전제로 하여 설명하도록 한다.
행렬 생성부(110)는 수집된 복수의 특허 데이터로부터 키워드를 포함하는 특허 행렬을 생성한다. 구체적으로, 행렬 생성부(110)는 텍스트 마이닝 기법을 이용하여 복수의 특허 데이터로부터 키워드를 추출하고, 키워드, 복수의 특허 데이터 및 키워드의 등장 빈도수를 포함하는 특허 행렬을 생성한다.
보다 상세하게, 행렬 생성부(110)는 복수의 특허 데이터에 포함된 텍스트 정보로부터 말뭉치를 추출한다. 말뭉치(Corpus)란 컴퓨터가 텍스트를 가공, 처리, 분석할 수 있도록 텍스트 정보를 모아 놓은 형태로써, 행렬 생성부(110)는 말뭉치에서 불용어, 구두점, 숫자를 제거하여 복수의 키워드를 추출한다.
이후, 행렬 생성부(110)는 복수의 키워드를 이용하여 문서-단어 행렬인 특허 행렬을 생성한다. 특허 행렬이란 복수의 특허 데이터 각각에 대한 복수의 키워드의 등장 빈도를 나타낸 행렬이다.
도 2를 참조하면, 복수의 키워드는 특허 행렬(120)의 열 제목(124)에 표시되고, 복수의 특허 데이터(10) 각각은 특허 행렬의 행 제목(122)에 표시되며, 키워드 각각의 등장 빈도수가 행렬 내부에 표시된다.
도 2에 도시된 바와 같이, 특허 데이터 P1에는 키워드 access가 1번 등장하였고, 특허 데이터 P2에는 키워드 bitcoin이 1번 등장하였음을 알 수 있다. 이와 같이, 특허 행렬을 이용하면 각각의 특허 데이터에서 어느 키워드가 얼마나 많이 등장했는지 파악할 수 있어 해당 특허 데이터의 세부 기술 파악이 용이할 수 있다.
P값 산출부(130)는 GAM(Generalized Additive Model)을 이용하여 특허 행렬로부터 키워드 별로 유의 확률인 P값(P-value)을 산출한다. 구체적으로, P값 산출부(130)는 GAM을 이용하여 특허 행렬에 포함된 키워드 각각의 회귀 계수를 산출하고, 회귀 계수에 대한 가설 검정을 통해 키워드 별로 P값을 추출한다.
여기서, GAM이란 일반화 가법 모델로써 가산성을 유지하면서 각 변수의 비선형함수들을 허용하여 표준선형모델을 확장하는 모델이다. 행렬 생성부(110)에 의해 생성된 특허 행렬은 특허 데이터에 특정 키워드가 등장하지 않아 등장 빈도수 0값을 갖더라도 해당 키워드를 특허 행렬 내부에 표시한다. 이에 따라 희소성의 문제가 발생하므로 본 명세서에서의 특허 데이터 분석 장치(100)는 이러한 문제를 해결하기 위해 GAM을 이용한다.
한편, GAM은 하기의 수학식 1에 의해 표현될 수 있다.
<수학식 1>
여기서, yi는 GAM의 결과 값, 는 절편, i는 특허 데이터 개수, j는 키워드 개수, 는 오차를 의미한다.
또한, GAM은 수학식 1을 펼쳐 하기의 수학식 2와 같이 나타낼 수 있다.
<수학식 2>
여기서, yi는 GAM의 결과 값, 는 절편, 내지 는 회귀 계수, 내지 는 키워드 i는 특허 데이터 개수,는 오차를 의미한다.
이때, P값 산출부(130)는 키워드 별로 회귀 계수를 생성하므로, 각각의 회귀 계수는 같거나 서로 다를 수 있다. 이와 같이, 본 명세서의 특허 데이터 분석 장치(l00)는 특허 행렬 전체에 대한 회귀 계수가 아닌 특허 행렬에 포함된 키워드 별로 회귀 계수를 생성하여 개별적 모델링을 수행하므로 희소성 문제를 해결할 수 있다.
이후, P값 산출부(130)는 생성된 회귀 계수에 대한 가설 검정을 통해 키워드 별로 P값을 추출한다. P값(P-value)은 통계적 가설 검정(Statistical hypothesis test)에서의 유의 확률로써, 귀무가설(null hypothesis, H0)이 맞다고 가정할 때 표본에서 실제로 관측된 통계치와 같거나 더 극단적인 통계치가 관측될 확률을 의미한다.
예컨대, '=0'이라는 하나의 가설을 검정하는 경우 귀무가설(H0)은 =0 이고, 대립 가설(Alternative hypothesis, H1)은 0으로 설정될 수 있다. P값 산출부(130)는 귀무가설이 맞다고 가정할 때 즉, H0: =0 일때, 표본에서 실제로 관측된 통계치와 같거나 더 극단적인 통계치가 관출될 확률을 구하여 P값을 산출할 수 있다.
이러한 P값은 0에서 1사이의 값을 가지며, 0.05 이하인 경우 95% 신뢰 수준의 유의미(significant)한 값이라고 판단될 수 있고, 0.01 이하인 경우 99% 신뢰 수준의 유의미한 값이라고 판단될 수 있다.
도 3에 도시된 바와 같이, P값 산출부(130)는 블록체인과 관련된 각각의 키워드에 서로 다른 P값을 산출할 수 있다. 예컨대, 'access, address, android, assort, authentication, bankcard, bitcoin, configuration'의 경우 P값은 각각 '0.0464, 0.0001, 0.0007, 0.0299, 0.0246, 0.0003, 0.0001, 0.0021'을 가져 0.05이하이므로 유의미한 값이라고 판단될 수 있고, 이러한 P값을 갖는 키워드는 후술할 플롯 생성부에 의해 회귀 플롯이 생성될 수 있다.
플롯 생성부(150)는 P값을 미리 설정된 기준값과 비교하여 키워드 각각의 등장 빈도수에 기반한 복수의 회귀 플롯(regression plot)을 생성한다. 상세하게 플롯 생성부(150)는 플롯 생성부는 P값이 미리 설정된 기준값보다 작으면 회귀 플롯을 생성하고, P값이 미리 설정된 기준값과 같거나 크면 회귀 플롯을 생성하지 않는다. 이때, 미리 설정된 기준값은 P값이 유의미한 값을 갖는 0.05 또는 0.01일 수 있다.
도 4에는 'access, address, android, assort, authentication, bankcard, bitcoin, configuration' 각각의 키워드에 대한 회귀 플롯이 도시 된다. 회귀 플롯의 가로축은 시간, 세로축은 빈도수(또는 중요도)를 의미하고, 회귀 플롯 내부의 점(200)들은 관측값을 의미한다.
회귀 플롯 각각의 내부에는 추세선(210)이 형성되어 기울기를 가지며, 기울기는 키워드의 등장 빈도수가 높을수록 가파른 양의 기울기를 갖는다. 따라서, 형성된 기울기를 통해 회귀 플롯의 키워드가 지속 가능한 기술에 관한 키워드인지 또는 정체되거나 위축되는 기술에 관한 키워드인지 여부가 판단될 수 있다.
다이어그램 생성부(170)는 복수의 회귀 플롯의 기울기에 따라 키워드를 분류하는 기술 다이어그램을 생성한다. 도 4 및 도 5를 참조하면, 복수의 회귀 플롯 중 'access, address, configuration'의 키워드를 갖는 회귀 플롯은 기울기가 0보다 크고, 'android, bankcard, bitcoin'의 키워드를 갖는 회귀 플롯은 기울기가 0보다 작으며, 'assort, authentication'의 키워드를 갖는 회귀 플롯은 기울기가 0이다.
다이어그램 생성부(170)는 이와 같이 기울기에 따라 키워드를 분류할 수 있다. 예컨대, 도 5를 참조하면 기울기가 0보다 큰 회귀 플롯의 키워드는 16개, 기울기가 0인 회귀 플롯의 키워드는 4개, 기울기가 0보다 작은 회귀 플롯의 키워드는 12개로 분류되었다.
다이어그램 생성부(170)는 분류된 키워드에 기초하여 특정 분야의 기술인 블록체인의 기술 다이어그램을 생성한다. 구체적으로, 기울기에 따라 분류된 키워드를 제1 그룹, 제2 그룹 및 제3 그룹으로 나누어 표시한 기술 다이어그램을 생성할 수 있다.
도 6에 도시된 바와 같이, 제1 그룹(300)은 기울기가 0보다 큰 회귀 플롯의 키워드 모음이다. 제1 그룹(300)에 속하는 키워드들은 지속적으로 발전 가능한 기술과 관련된 키워드(positive trend)로 collaboration management가 필요하고, 제2 그룹(310)은 기울기가 0인 회귀 플롯의 키워드 모음으로, 제2 그룹(310)에 속하는 키워드들은 성장 또는 위축되지 않고 정체된 기술로 general management가 필요하다. 또한, 제3 그룹(320)은 기울기가 0보다 작은 회귀 플롯의 키워드 모음으로, 제3 그룹(320)에 속하는 키워드들은 지속적으로 위축되는 기술과 관련된 키워드(negative trend)로 effective and efficient management가 필요하다.
이와 같이, 다이어그램 생성부(170)는 시각적으로 인지되는 기술 다이어그램을 생성함으로써 사용자가 성장, 정체 또는 위축되는 키워드를 쉽게 파악할 수 있고, 그룹에 따라 서로 다른 관리 방법을 수행함으로써 최적의 대응을 할 수 있다.
한편, 본 명세서의 일 실시예에서, 다이어그램 생성부(170)는 복수의 회귀 플롯 중 기울기가 0보다 큰 회귀 플롯의 키워드를 이용하여 기술 다이어그램을 생성할 수 있다. 이에 따라 다이어그램 생성부(170)는 지속적으로 성장 가능한 키워드만으로 구성된 기술 다이어그램을 생성할 수 있고, 사용자는 신속하게 성장 가능한 키워드를 파악할 수 있다.
도 7은 본 명세서의 일 실시예에 따른 특허 데이터 분석 방법의 순서도이다. 도면을 참조하면, 특허 데이터 분석 장치(100)는 복수의 특허 데이터로부터 키워드를 포함하는 특허 행렬을 생성한다(S110). 구체적으로, 특허 데이터 분석 장치(100)는 텍스트 마이닝 기법을 이용하여 복수의 특허 데이터로부터 키워드를 추출하고, 키워드, 복수의 특허 데이터 및 키워드의 등장 빈도수를 포함하는 특허 행렬을 생성한다.
또한, 특허 데이터 분석 장치(100)는 GAM(Generalized Additive Model)을 이용하여 특허 행렬로부터 키워드 별로 유의 확률인 P값(P-value)을 산출한다(S130). 즉, 특허 데이터 분석 장치(100)는 GAM을 이용하여 특허 행렬에 포함된 키워드 각각의 회귀 계수를 산출하고, 회귀 계수에 대한 가설 검정을 통해 키워드 별로 P값을 추출한다.
이후, 특허 데이터 분석 장치(100)는 P값을 미리 설정된 기준값과 비교하여 키워드 각각의 등장 빈도수에 기반한 복수의 회귀 플롯(regression plot)을 생성하고(S150), 복수의 회귀 플롯의 기울기에 따라 키워드를 분류하는 기술 다이어그램을 생성한다(S170).
이와 같이, 본 명세서의 일 실시예에 따른 특허 데이터 분석 장치 및 방법은 GAM을 이용하여 특허 행렬의 희소성 문제를 해결할 수 있다.
또한, 본 명세서의 일 실시예에 따른 특허 데이터 분석 장치 및 방법은 회귀 플롯 및 기술 다이어그램을 통해 지속 가능한 특허 기술을 시각적으로 분석할 수 있다.
이상과 같이 본 발명에 대해서 예시한 도면을 참조로 하여 설명하였으나, 본 명세서에 개시된 실시 예와 도면에 의해 본 발명이 한정되는 것은 아니며, 본 발명의 기술사상의 범위 내에서 통상의 기술자에 의해 다양한 변형이 이루어질 수 있음은 자명하다. 아울러 앞서 본 발명의 실시 예를 설명하면서 본 발명의 구성에 따른 작용 효과를 명시적으로 기재하여 설명하지 않았을지라도, 해당 구성에 의해 예측 가능한 효과 또한 인정되어야 함은 당연하다.

Claims (12)

  1. 복수의 특허 데이터에 포함된 키워드를 분류하는 특허 데이터 분석 방법에 있어서,
    상기 복수의 특허 데이터로부터 상기 키워드를 포함하는 특허 행렬을 생성하는 단계;
    GAM(Generalized Additive Model)을 이용하여 상기 특허 행렬로부터 상기 키워드 별로 유의 확률인 P값(P-value)을 산출하는 단계;
    상기 P값을 미리 설정된 기준값과 비교하여 상기 키워드 각각의 등장 빈도수에 기반한 복수의 회귀 플롯(regression plot)을 생성하는 단계; 및
    상기 복수의 회귀 플롯의 기울기에 따라 상기 키워드를 분류하는 기술 다이어그램을 생성하는 단계를 포함하는
    특허 데이터 분석 방법.
  2. 제1항에 있어서,
    상기 특허 행렬을 생성하는 단계는
    텍스트 마이닝 기법을 이용하여 상기 복수의 특허 데이터로부터 상기 키워드를 추출하는 단계; 및
    상기 키워드, 상기 복수의 특허 데이터 및 키워드의 등장 빈도수를 포함하는 특허 행렬을 생성하는 단계를 포함하는
    특허 데이터 분석 방법.
  3. 제1항에 있어서,
    상기 키워드 별로 P값을 산출하는 단계는
    상기 GAM을 이용하여 특허 행렬에 포함된 키워드 각각의 회귀 계수를 산출하는 단계; 및
    상기 회귀 계수에 대한 가설 검정을 통해 상기 키워드 별로 상기 P값을 추출하는 단계를 포함하는
    특허 데이터 분석 방법.
  4. 제1항에 있어서,
    상기 GAM은
    하기의 수학식 1에 의해 표현되는 특허 데이터 분석 방법.

    <수학식 1>


    여기서, yi는 GAM의 결과 값, 는 절편, i는 특허 데이터 개수, j는 키워드 개수, 는 오차를 의미한다.
  5. 제1항에 있어서,
    상기 회귀 플롯을 생성하는 단계는
    상기 P값이 미리 설정된 기준값보다 작으면 회귀 플롯을 생성하고, 상기 P값이 미리 설정된 기준값과 같거나 크면 회귀 플롯을 생성하지 않는 단계를 포함하는
    특허 데이터 분석 방법.
  6. 제1항에 있어서,
    상기 기술 다이어그램을 생성하는 단계는
    상기 복수의 회귀 플롯 중 기울기가 0보다 큰 회귀 플롯의 키워드를 이용하여 기술 다이어그램을 생성하는 단계를 포함하는
    특허 데이터 분석 방법.
  7. 복수의 특허 데이터에 포함된 키워드를 분류하는 특허 데이터 분석 장치에 있어서,
    상기 복수의 특허 데이터로부터 상기 키워드를 포함하는 특허 행렬을 생성하는 행렬 생성부;
    GAM(Generalized Additive Model)을 이용하여 상기 특허 행렬로부터 상기 키워드 별로 유의 확률인 P값(P-value)을 산출하는 P값 산출부;
    상기 P값을 미리 설정된 기준값과 비교하여 상기 키워드 각각의 등장 빈도수에 기반한 복수의 회귀 플롯(regression plot)을 생성하는 플롯 생성부; 및
    상기 복수의 회귀 플롯의 기울기에 따라 상기 키워드를 분류하는 기술 다이어그램을 생성하는 다이어그램 생성부를 포함하는
    특허 데이터 분석 장치.
  8. 제7항에 있어서,
    상기 행렬 생성부는
    텍스트 마이닝 기법을 이용하여 상기 복수의 특허 데이터로부터 상기 키워드를 추출하고, 상기 키워드, 상기 복수의 특허 데이터 및 키워드의 등장 빈도수를 포함하는 특허 행렬을 생성하는
    특허 데이터 분석 장치.
  9. 제7항에 있어서,
    상기 P값 산출부는
    상기 GAM을 이용하여 특허 행렬에 포함된 키워드 각각의 회귀 계수를 산출하고, 상기 회귀 계수에 대한 가설 검정을 통해 상기 키워드 별로 상기 P값을 추출하는
    특허 데이터 분석 장치.
  10. 제7항에 있어서,
    상기 GAM은
    하기의 수학식 1에 의해 표현되는 특허 데이터 분석 장치.

    <수학식 1>


    여기서, yi는 GAM의 결과 값, 는 절편, i는 특허 데이터 개수, j는 키워드 개수, 는 오차를 의미한다.
  11. 제7항에 있어서,
    상기 플롯 생성부는
    상기 P값이 미리 설정된 기준값보다 작으면 회귀 플롯을 생성하고, 상기 P값이 미리 설정된 기준값과 같거나 크면 회귀 플롯을 생성하지 않는
    특허 데이터 분석 장치.
  12. 제7항에 있어서,
    상기 다이어그램 생성부는
    상기 복수의 회귀 플롯 중 기울기가 0보다 큰 회귀 플롯의 키워드를 이용하여 기술 다이어그램을 생성하는
    특허 데이터 분석 장치.
KR1020210081277A 2021-06-23 2021-06-23 Gam을 이용한 특허 데이터 분석 장치 및 방법 KR102671752B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210081277A KR102671752B1 (ko) 2021-06-23 2021-06-23 Gam을 이용한 특허 데이터 분석 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210081277A KR102671752B1 (ko) 2021-06-23 2021-06-23 Gam을 이용한 특허 데이터 분석 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220170446A KR20220170446A (ko) 2022-12-30
KR102671752B1 true KR102671752B1 (ko) 2024-05-31

Family

ID=84538616

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210081277A KR102671752B1 (ko) 2021-06-23 2021-06-23 Gam을 이용한 특허 데이터 분석 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102671752B1 (ko)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101616544B1 (ko) * 2014-03-03 2016-04-28 고려대학교 산학협력단 Lda를 이용한 특허 문헌 분석 방법
KR101620841B1 (ko) * 2014-10-22 2016-05-23 고려대학교 산학협력단 통계적 분석에 기반한 기술계층다이어그램 모델을 이용한 특허분석방법

Also Published As

Publication number Publication date
KR20220170446A (ko) 2022-12-30

Similar Documents

Publication Publication Date Title
US11574077B2 (en) Systems and methods for removing identifiable information
US20090037440A1 (en) Streaming Hierarchical Clustering
CN106126577A (zh) 一种基于数据源划分矩阵的加权关联规则挖掘方法
CN106815307A (zh) 公共文化知识图谱平台及其使用办法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN101639859A (zh) 表分类装置、表分类方法以及表分类程序
CN107273474A (zh) 基于潜在语义分析的自动摘要抽取方法及***
CN110378148B (zh) 一种面向云平台的多域数据隐私保护方法
Sree et al. Data analytics: why data normalization
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN115577701A (zh) 针对大数据安全的风险行为识别方法、装置、设备及介质
AU2012393536B2 (en) System, method and computer program product for multivariate statistical validation of well treatment and stimulation data
US11288266B2 (en) Candidate projection enumeration based query response generation
Al-Yahya Stylometric analysis of classical Arabic texts for genre detection
Christen et al. Towards automated data linkage and deduplication
Claster et al. Unsupervised artificial neural nets for modeling movie sentiment
CN106156179A (zh) 一种信息检索方法及装置
KR102671752B1 (ko) Gam을 이용한 특허 데이터 분석 장치 및 방법
CN113742396A (zh) 一种对象学习行为模式的挖掘方法及装置
Kharisma et al. Comparison of Naïve Bayes Algorithm Model Combinations with Term Weighting Techniques in Sentiment Analysis
CN116302984A (zh) 一种测试任务的根因分析方法、装置及相关设备
Vera et al. Knowledge redundancy approach to reduce size in association rules
Kiranmayee et al. Explorative data analytics of brain tumour data using R
Terko et al. Neurips conference papers classification based on topic modeling
CN105718801A (zh) 一种基于编程模式和模式匹配的漏洞聚类方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant