KR101593898B1 - Methodology of Comparing Technologies between Competitive Companies Using Statistical Method and Machine Learning Method - Google Patents

Methodology of Comparing Technologies between Competitive Companies Using Statistical Method and Machine Learning Method Download PDF

Info

Publication number
KR101593898B1
KR101593898B1 KR1020140114030A KR20140114030A KR101593898B1 KR 101593898 B1 KR101593898 B1 KR 101593898B1 KR 1020140114030 A KR1020140114030 A KR 1020140114030A KR 20140114030 A KR20140114030 A KR 20140114030A KR 101593898 B1 KR101593898 B1 KR 101593898B1
Authority
KR
South Korea
Prior art keywords
ipc
word
principal component
generating
analysis
Prior art date
Application number
KR1020140114030A
Other languages
Korean (ko)
Inventor
박상성
장동식
김현우
김갑조
이준혁
전성해
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020140114030A priority Critical patent/KR101593898B1/en
Application granted granted Critical
Publication of KR101593898B1 publication Critical patent/KR101593898B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a method for analyzing technologies between competing companies. The method comprises the following steps of: generating word-based data from patent documents to be analyzed; extracting core keywords from the word-based data using the keyword analysis; generating an international patent classification (IPC) code network through the IPC code analysis from the word-based data; and generating technology analysis data by using the extracted core keywords and the generated IPC code network. As the technology analysis data includes information on technologies that are common to competing companies and technologies that are specific to individual companies, technologies between competing companies can be compared and analyzed through the extraction of core keywords for a patent document and the establishment of an IPC code network.

Description

통계적인 방법과 기계학습 방법을 이용한 경쟁 기업들 간의 기술 비교 및 분석 방법{Methodology of Comparing Technologies between Competitive Companies Using Statistical Method and Machine Learning Method}[TECHNICAL FIELD] The present invention relates to a statistical method and a machine learning method,

본 발명은 경쟁 기업들 간의 기술을 분석하는 방법에 관한 것으로서, 보다 구체적으로, 특허문서에 대한 핵심 키워드 추출 및 IPC 코드 네트워크 구축을 통한 경쟁 기업들 간의 기술을 비교 분석하는 방법에 관한 것이다.The present invention relates to a method of analyzing technology among competing companies, and more particularly, to a method of comparing key words extracted from patent documents and technologies of competing companies by constructing an IPC code network.

특허제도는 발명자에게 특정 기간 동안 개발된 기술을 독점적으로 행사할 수 있는 권한을 부여한다. 이러한 권한을 통해 많은 회사들은 그들의 기술을 보호받기 위해 해당 기술에 대한 상세한 정보를 문서 속에 담아 특허로 등록하는데 많은 노력을 기울고 있다. 비록 논문이나 보고서에서도 개발된 기술에 대해 많은 정보를 얻을 수 있지만, 특허 문서는 명칭, 요약, 발명자, 출원일, 특허번호, 청구항, 인용정보, 국제 특허 분류 (IPC) 코드, 도면 등과 같은 다양한 정보를 담고 있기 때문에 기술 조사에 있어서는 논문이나 보고서보다 더 좋은 자료다.The patent system empowers the inventor to exclusively exercise technology developed over a specific period of time. With this authority, many companies are putting a lot of effort into registering patents in their documents with detailed information about the technology in order to protect their technology. Although a lot of information can be obtained about a technology developed in a thesis or a report, a patent document includes various information such as name, summary, inventor, filing date, patent number, claim, citation information, international patent classification (IPC) code, It is better data than a paper or a report in a technical investigation because it contains.

기술을 효율적으로 요약하고 분석하여 얻어낸 결과는 기술 예측이나 혁신과 같은 기술경영 분야에서 중요하게 쓰인다. 이를 위해 다양한 분석방법이 있는데, 정성적인 기술 예측으로는 델파이와 같은 기법이 있다. 하지만 이는 전문가의 경험이나 지식을 바탕으로 이루어지기 때문에 주관적일 수 있다는 단점이 있다. The results obtained by efficiently summarizing and analyzing technology are important in technical management fields such as technology prediction and innovation. There are various analytical methods for this, and there are techniques such as Delphi for qualitative technology prediction. However, this is based on the experience and knowledge of the experts, so it can be subjective.

반면에 통계적 방법 혹은 기계 학습 알고리즘에 기반을 둔 정량적인 방법은 특허 정보와 같은 객관적인 데이터를 이용하기 때문에 분석의 결과 역시 객관적이다. 하지만 정량적인 방법 중 역시 기술 정의를 내리는 과정에서 전문가가 아닌 이상 정확히 판단하기는 어렵다. On the other hand, the quantitative method based on statistical methods or machine learning algorithms uses objective data such as patent information, so the result of the analysis is also objective. However, among the quantitative methods, it is difficult to judge precisely unless you are an expert in the process of defining a technology.

이와 같이 하나의 정량적인 방법으로 분석한 결과에 대해서는 전문가가 아닌 일반인들이 판단하고 결과에 대한 검증이 어려울 수 있다는 단점이 있다. In this way, the results of the analysis by one quantitative method can be judged by the general public and not verified by the experts.

한국공개특허 "조사 대상 문서의 문서 특징 분석 장치(10-2006-0095565)"Korea Open Patent "Document Characteristic Analysis Apparatus for Investigated Documents (10-2006-0095565)"

본 발명이 해결하고자 하는 과제는 특허문서에 대한 핵심 키워드 추출 및 IPC 코드 네트워크 구축을 통한 경쟁 기업들 간의 기술을 비교 분석하는 방법을 제공하는 것이다.A problem to be solved by the present invention is to provide a method for comparing and analyzing technologies among competing companies by extracting key keywords for a patent document and establishing an IPC code network.

본 발명은 상기 과제를 해결하기 위하여, 경쟁 기업들 간의 기술을 분석하는 방법에 있어서, 분석하고자 하는 특허 문서들로부터 단어 기반 데이터를 생성하는 단계; 상기 단어 기반 데이터로부터 키워드 분석을 이용하여 핵심 키워드를 추출하는 단계; 상기 단어 기반 데이터로부터 IPC(국제특허분류) 코드 분석을 통해 IPC 코드 네트워크를 생성하는 단계; 및 상기 추출된 핵심 키워드 및 상기 생성된 IPC 코드 네트워크를 이용하여 기술 분석 데이터를 생성하는 단계를 포함하고, 상기 기술 분석 데이터는 경쟁 기업들에 공통되는 기술 및 개별 기업에 특정되는 기술에 대한 정보를 포함하는 것을 특징으로 하는 방법을 제공한다.According to an aspect of the present invention, there is provided a method for analyzing a technology among competing companies, the method comprising: generating word-based data from patent documents to be analyzed; Extracting a core keyword from the word-based data using keyword analysis; Generating an IPC code network from the word-based data through IPC (International Patent Classification) code analysis; And generating technology analysis data using the extracted core keyword and the generated IPC code network, wherein the technology analysis data includes information on a technology common to competitors and technology specific to an individual company The method comprising the steps of:

본 발명의 다른 실시예에 의하면, 상기 단어 기반 데이터를 생성하는 단계는, 상기 특허 문서들로부터 텍스트 마이닝 방법을 이용하여 단어들을 추출할 수 있고, 상기 단어 기반 데이터를 생성하는 단계는, 문장분석(parsing) 및 말뭉치분석(corpus)를 이용하여 수행되는 것을 특징으로 하는 방법일 수 있다.According to another embodiment of the present invention, the step of generating the word-based data may include extracting words from the patent documents using a text mining method, and the step of generating the word- parsing, and corpus analysis. < RTI ID = 0.0 >

본 발명의 다른 실시예에 의하면, 상기 핵심 키워드를 추출하는 단계는, 상기 단어 기반 데이터로부터 특허-단어 행렬을 생성하여 빈도수에 따라 단어들 중 핵심 키워드를 선정하는 것을 특징으로 하는 방법일 수 있다.According to another embodiment of the present invention, the step of extracting the key keyword may be a method of generating a patent-word matrix from the word-based data and selecting a core keyword among the words according to the frequency.

본 발명의 다른 실시예에 의하면, 상기 핵심 키워드를 추출하는 단계는, 상기 단어 기반 데이터로부터 특허-단어 행렬을 생성하고, 주성분분석을 통해 특허-주성분분석 행렬을 생성하는 단계; 상기 특허-주성분분석 행렬을 이용하여 회귀모델을 생성하는 단계; 상기 생성된 회귀모델의 매개변수들 중 제 1 임계치 이하의 유의확률(p-value)을 갖는 매개변수에 해당하는 주성분을 선택하는 단계; 및 상기 선택된 주성분에 속하는 하나 이상의 단어를 핵심 키워드로 선정하는 단계를 포함할 수 있고, 상기 주성분분석 결과, 제 2 임계치 이상의 고유 값을 갖는 주성분만을 이용하여 축소된 특허-주성분분석 행렬을 생성하는 단계를 더 포함할 수 있으며, 상기 선택된 주성분에 속하는 하나 이상의 단어를 핵심 키워드로 선정하는 단계는, 상기 주성분에 속하는 단어들 중 제 3 임계치 이상의 주성분 점수를 갖는 단어 또는 주성분 점수가 높은 순서에 따라 소정의 단어를 핵심 키워드로 선정하는 것을 특징으로 하는 방법일 수 있다.According to another embodiment of the present invention, the step of extracting the key keyword includes generating a patent-word matrix from the word-based data and generating a patent-principal component analysis matrix through principal component analysis; Generating a regression model using the patent-principal component analysis matrix; Selecting a principal component corresponding to a parameter having a significant probability (p-value) below a first threshold among the parameters of the generated regression model; And selecting one or more words belonging to the selected principal component as a core keyword, and generating a reduced patent-principal component analysis matrix using only principal components having an eigenvalue of a second threshold value or more as a result of the principal component analysis Wherein the step of selecting one or more words belonging to the selected principal component as a core keyword includes a step of selecting a word having a principal component score of a third threshold or more among the words belonging to the principal component, And a word is selected as a key keyword.

본 발명의 다른 실시예에 의하면, 상기 IPC 코드 네트워크를 생성하는 단계는, 상기 단어 기반 데이터로부터 IPC 코드를 추출하는 단계; 상기 추출된 IPC 코드로부터 특허-IPC 코드 행렬을 생성하고, 소셜네트워크분석을 통해 IPC 코드 네트워크를 생성하는 단계; 및 상기 IPC 코드 네트워크에서 연결된 두 IPC 코드 간 선형회귀모델을 생성하고, 상기 선형회귀모델의 매개변수의 유의확률이 제 4 임계치 이하인지를 판단하여 상기 두 IPC 코드 간의 연결이 통계적 유의성이 있는지를 판단하는 단계를 포함하는 방법일 수 있다.According to another embodiment of the present invention, the step of generating the IPC code network comprises: extracting an IPC code from the word-based data; Generating a patent-IPC code matrix from the extracted IPC code, and generating an IPC code network through a social network analysis; And generating a linear regression model between two IPC codes connected in the IPC code network and judging whether the connection probability between the two IPC codes is statistically significant by judging whether the significance probability of the parameter of the linear regression model is lower than a fourth threshold value The method comprising the steps of:

본 발명의 다른 실시예에 의하면, 상기 IPC 코드 네트워크를 생성하는 단계는, 상기 두 IPC 코드 간의 연결이 통계적 유의성이 있는지를 판단한 결과에 따라 상기 IPC 코드 네트워크를 수정하는 단계를 더 포함할 수 있고, 상기 소셜네트워크분석을 통해 IPC 코드 네트워크를 생성하는 단계는, IPC 코드 간의 공분산 또는 상관계수를 이용하여 상기 IPC 코드 네트워크를 생성하는 것을 특징으로 하는 방법일 수 있다.According to another embodiment of the present invention, the step of generating the IPC code network may further include modifying the IPC code network according to a result of determining whether the connection between the two IPC codes is statistically significant, The step of generating the IPC code network through the social network analysis may be a method of generating the IPC code network using a covariance between IPC codes or a correlation coefficient.

본 발명에 따르면, 특허문서에 대한 핵심 키워드 추출 및 IPC 코드 네트워크 구축을 통한 경쟁 기업들 간의 기술을 비교 분석이 가능하다. 키워드 분석시 분석 대상 기업들에게서 공통적으로 나타나는 상위 키워드를 통해 해당 산업의 전반적인 기술에 대해 파악하고 이해할 수 있고, 같은 방법으로 하나의 기업에 대한 기술 정보 역시 알아낼 수 있다. IPC 코드 분석시 IPC 코드 네트워크를 구축하여 경쟁 회사들의 공통된 기술을 정의할 수 있고, 이를 통해 해당 산업의 전반적인 기술에 대해 파악하고 이해할 수 있으며, 같은 방법으로 하나의 기업에 대한 기술 정의를 내리고, 다른 기업들과 비교를 할 수 있다. 상기 분석방법들로 도출된 결과를 비교하여 최종적인 결과로 해당 기업들의 기술적 강점과 약점을 찾아내어 이해할 수 있으며, 기업은 상기 방법을 이용해 경쟁사와의 경쟁에서 우위를 선점하기 위해 기술개발의 로드맵과 방향을 제시할 수 있다. According to the present invention, it is possible to comparatively analyze technologies among competing companies by extracting key keywords for patent documents and establishing an IPC code network. In keyword analysis, it is possible to grasp and understand the general technology of the relevant industry through the top keywords common to the analyzed companies, and also to find the technical information of one company in the same way. In IPC code analysis, IPC code network can be established to define the common technology of competitors. Through this, it is possible to grasp and understand the general technology of the relevant industry. In the same way, Comparisons can be made with companies. As a result, it is possible to find out the technical strengths and weaknesses of the companies by comparing the results obtained by the above analysis methods. In order to prevail the advantage in competition with competitors using the above method, Direction can be presented.

도 1은 본 발명의 일 실시예에 따른 경쟁 기업들 간의 기술을 분석하는 방법의 흐름도이다.
도 2 내지 3은 본 발명의 다른 실시예에 따른 경쟁 기업들 간의 기술을 분석하는 방법의 흐름도이다.
도 4 내지 6은 본 발명의 또 다른 실시예에 따른 경쟁 기업들 간의 기술을 분석하는 방법의 흐름도이다.
FIG. 1 is a flowchart of a method for analyzing technology among competing companies according to an embodiment of the present invention.
2 to 3 are flowcharts of a method for analyzing a technology among competing companies according to another embodiment of the present invention.
4 to 6 are flowcharts of a method for analyzing a technique among competing companies according to another embodiment of the present invention.

본 발명에 관한 구체적인 내용의 설명에 앞서 이해의 편의를 위해 본 발명이 해결하고자 하는 과제의 해결 방안의 개요 혹은 기술적 사상의 핵심을 우선 제시한다.Prior to the description of the concrete contents of the present invention, for the sake of understanding, the outline of the solution of the problem to be solved by the present invention or the core of the technical idea is first given.

본 발명의 일 실시예에 따른 경쟁 기업들 간의 기술을 분석하는 방법은, 분석하고자 하는 특허 문서들로부터 단어 기반 데이터를 생성하는 단계, 상기 단어 기반 데이터로부터 키워드 분석을 이용하여 핵심 키워드를 추출하는 단계, 상기 단어 기반 데이터로부터 IPC(국제특허분류) 코드 분석을 통해 IPC 코드 네트워크를 생성하는 단계, 및 상기 추출된 핵심 키워드 및 상기 생성된 IPC 코드 네트워크를 이용하여 기술 분석 데이터를 생성하는 단계를 포함하고, 상기 기술 분석 데이터는 경쟁 기업들에 공통되는 기술 및 개별 기업에 특정되는 기술에 대한 정보를 포함하는 것을 특징으로 한다.A method for analyzing a technology among competing companies according to an embodiment of the present invention includes generating word-based data from patent documents to be analyzed, extracting core keywords from the word-based data using keyword analysis , Generating an IPC code network from the word-based data through IPC (International Patent Classification) code analysis, and generating technical analysis data using the extracted core keyword and the generated IPC code network , The technical analysis data includes information on technologies common to competitors and technologies specific to individual companies.

이하 첨부된 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있는 실시 예를 상세히 설명한다. 그러나 이들 실시예는 본 발명을 보다 구체적으로 설명하기 위한 것으로, 본 발명의 범위가 이에 의하여 제한되지 않는다는 것은 당업계의 통상의 지식을 가진 자에게 자명할 것이다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. It will be apparent to those skilled in the art, however, that these examples are provided to further illustrate the present invention, and the scope of the present invention is not limited thereto.

본 발명이 해결하고자 하는 과제의 해결 방안을 명확하게 하기 위한 발명의 구성을 본 발명의 바람직한 실시예에 근거하여 첨부 도면을 참조하여 상세히 설명하되, 당해 도면에 대한 설명시 필요한 경우 다른 도면의 구성요소를 인용할 수 있음을 미리 밝혀둔다. 아울러 본 발명의 바람직한 실시 예에 대한 동작 원리를 상세하게 설명함에 있어 본 발명과 관련된 공지 기능 혹은 구성에 대한 구체적인 설명 그리고 그 이외의 제반 사항이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명을 생략한다.
BRIEF DESCRIPTION OF THE DRAWINGS The above and other features and advantages of the present invention will become more apparent by describing in detail preferred embodiments thereof with reference to the attached drawings in which: It is possible to quote the above. In the following detailed description of the principles of operation of the preferred embodiments of the present invention, it is to be understood that the present invention is not limited to the details of the known functions and configurations, and other matters may be unnecessarily obscured, A detailed description thereof will be omitted.

도 1은 본 발명의 일 실시예에 따른 경쟁 기업들 간의 기술을 분석하는 방법의 흐름도이다.FIG. 1 is a flowchart of a method for analyzing technology among competing companies according to an embodiment of the present invention.

본 발명의 일 실시예에 따른 경쟁 기업들 간의 기술을 분석하는 방법은 핵심 키워드 추출 및 IPC 코드 네트워크 구축을 병행하여 경쟁 기업들에 공통되는 기술 및 개별 기업에 특정되는 기술에 대한 정보를 포함하는 기술 분석 데이터를 생성한다. 상기 생성된 기술 분석 데이터를 이용하여 사용자는 분석하고자 하는 각 기업들의 보유 기술에 대한 차이점과 상대적인 강점 및 약점을 비교 분석하는데 이용할 수 있다.
A method for analyzing a technology among competing companies according to an embodiment of the present invention includes analyzing a technology common to competitors and a technique including information on a technology specified by an individual company in parallel with core keyword extraction and IPC code network construction And generates analysis data. Using the generated technology analysis data, the user can use the difference and relative strengths and weaknesses of the respective companies' technology to be analyzed.

110 단계는 분석하고자 하는 특허 문서들로부터 단어 기반 데이터를 생성하는 단계이다.Step 110 is a step of generating word-based data from the patent documents to be analyzed.

보다 구체적으로, 분석하고자 하는 특허 문서들로부터 단어 기반 데이터를 생성한다. 분석하고자 하는 기술 분야에 관련된 특허 문서 또는 비교 분석하고자 하는 기업들의 특허 문서들을 분석하여 단어 기반 데이터를 생성한다. 분석에 사용되는 문서는 특허 문서들로, 특허 문서의 발명의 명칭, 요약, 발명의 상세한 설명, IPC 코드, 또는 특허청구범위 중 하나 이상의 부분을 이용하여 단어들을 추출한다. 특허 문서들로부터 텍스트 마이닝 방법을 이용하여 단어들을 추출할 수 있다. 문장분석(parsing) 및 말뭉치분석(corpus)를 이용하여 전처리를 수행할 수 있다.
More specifically, word-based data is generated from patent documents to be analyzed. Analyze the patent documents related to the technical field to be analyzed or the patent documents of the companies to be comparatively analyzed to generate word-based data. Documents used for analysis are patent documents, extracting words using one or more of the name of the patent document, the abstract, the detailed description of the invention, the IPC code, or the claims. From the patent documents, words can be extracted using a text mining method. The preprocessing can be performed using parsing and corpus analysis.

120 단계는 상기 단어 기반 데이터로부터 키워드 분석을 이용하여 핵심 키워드를 추출하는 단계이다.Step 120 is a step of extracting core keywords from the word-based data using keyword analysis.

보다 구체적으로, 110 단계에서 생성된 단어 기반 데이터로부터 키워드 분석을 수행하여 핵심 키워드를 추출한다. 단어 기반 데이터로부터 모든 단어를 추출한 후, 특수문자, 전치사, 공백 등 불용어를 제거한다. 불용어를 제거한 후, 핵심 키워드 후보로 단어들을 선정한다. 선정된 단어들을 이용하여 특허-단어 행렬을 생성하고, 군집분석을 통해 해당 특허문서에 각 단어의 나타난 빈도수에 따라 핵심 키워드를 선정할 수 있다. 군집분석은 데이터 간의 유사도를 정의하고, 그 유사도에 가까운 것부터 순서대로 합쳐가는 분석방법이다. 빈도수가 높은 빈도수 상위 순서에 따라 미리 설정된 수의 핵심 키워드를 선정할 수 있다. 단어들 중 10개의 단어들을 핵심 키워드를 선정할 수 있다.More specifically, keyword analysis is performed on the word-based data generated in step 110 to extract a core keyword. After extracting all the words from the word-based data, remove the abbreviations such as special characters, prepositions, and spaces. After eliminating the abbreviations, the words are selected as the key keyword candidates. We can generate a patent-word matrix using the selected words, and select key keywords according to the frequency of occurrence of each word in the patent document through cluster analysis. Cluster analysis is an analytical method that defines similarities between data and combines them in order from the closest similarities. It is possible to select a predetermined number of key keywords according to the order in which the frequency is high and the frequency is high. Ten keywords among words can be selected as key keywords.

또는, 도 2와 같이, 주성분분석 및 회귀모델을 이용하여 객관적으로 핵심 키워드를 추출할 수 있다.Alternatively, as shown in FIG. 2, key keywords can be extracted objectively using principal component analysis and regression model.

210 단계는 상기 단어 기반 데이터로부터 특허-단어 행렬을 생성하고, 주성분분석을 통해 특허-주성분분석 행렬을 생성하는 단계이다.In step 210, a patent-word matrix is generated from the word-based data, and a patent-principal component analysis matrix is generated through principal component analysis.

보다 구체적으로, 상기 단어 기반 데이터로부터 추출된 단어들을 이용하여 특허-단어 행렬을 생성한다. 특허-단어 행렬은 특허문서와 단어간의 관계를 나타낸 행렬로, 문서에 각 단어가 나타나는 빈도수를 나타낸다. 상기 특허-단어 행렬은 다음과 같이 나타낼 수 있다.More specifically, a patent-word matrix is generated using words extracted from the word-based data. Patents - Word matrices represent the relationship between patent documents and words, and represent the frequency with which each word appears in the document. The patent-word matrix can be expressed as follows.

Figure 112014082743351-pat00001
Figure 112014082743351-pat00001

상기와 같이, 각 단어가 각 문서에 나타나는 빈도수로 Document 1에 Term 1이 출현된 횟수는 0이다. As described above, the number of times that Term 1 appears in Document 1 is 0, with each word appearing in each document.

추출된 단어들 중 핵심 키워드를 선정하는 것은 매우 어려우며, 선정된 키워드에 따라 이후 결과에 지대한 영향을 미치기 때문에 섣불리 단어의 개수를 줄일 수 없다. 구조화된 데이터에서 열(단어)의 수 행(문서)의 수보다 큰바, 각 단어들 사이에 상관관계가 존재하는 것들로 묶어 차원을 줄이는 것이 효과적이다. 객관적이고 핵심 키워드를 추출하기 위하여, 주성분 분석(Principal component analysis, PCA)을 이용하여 행렬의 희소성을 해결하면서 동시에 손실될 수 있는 정보를 가능한 보존할 수 있다. 특허-단어 행렬로부터 주성분분석을 통해 특허-주성분분석 행렬을 생성한다. 주성분분석은 다양한 변수들에 대해 분석하는 소위 다변량(multivariate) 분석인데, 많은 변수들로부터 몇 개의 주성분들을 추출하는 방법이다. 즉, 주성분분석은 차원축소(dimension reduction)를 위한 것으로, 여기서 주성분이라는 것은 많은 변수들을 설명하는 주된(principal) 성분이라는 의미이다. 상기 주성분분석은 상관행렬을 이용하여 수행될 수 있다. 또는 공분산행렬을 이용하여 수행될 수도 있다.It is very difficult to select the key words among the extracted words, and the number of words can not be reduced because the selected keywords have a great influence on the subsequent results. In structured data, it is effective to reduce the dimension by grouping together the number of rows (words) that are larger than the number of documents (documents) and there is a correlation between the words. In order to extract objective and key keywords, principal component analysis (PCA) can be used to solve the scarcity of the matrix while preserving information that can be lost at the same time. Patent-principal component analysis matrix is generated from principal component analysis from patent-word matrix. Principal component analysis is a so-called multivariate analysis that analyzes various variables. It extracts several principal components from many variables. Principal component analysis is for dimension reduction, where the principal component is the principal component that describes many variables. The principal component analysis may be performed using a correlation matrix. Or a covariance matrix.

특허-단어 행렬로부터 주성분분석을 통해 생성되는 특허-주성분분석 행렬은 다음과 같이 나타낼 수 있다.The patent-principal component analysis matrix generated from the patent-word matrix by principal component analysis can be expressed as follows.

Figure 112014082743351-pat00002
Figure 112014082743351-pat00002

주성분분석을 통해 생성되는 특허-주성분분석 행렬은 주성분(PC)의 개수는 처음 변수인 단어(Term)의 개수만큼 생성된다.The number of principal components (PC) in the patent-principal component analysis matrix generated by the principal component analysis is generated by the number of the first variable term.

여기서, 효율적인 분석을 위하여, PC의 개수를 줄일 수 있다. 상기 주성분분석 결과, 제 2 임계치 이상의 고유 값을 갖는 주성분만을 이용하여 축소된 특허-주성분분석 행렬을 생성할 수 있다. 유의미한 주성분만을 이용하여 분석을 수행하기 위하여, 주성분의 고유 값이 제 2 임계치 이상의 고유 값을 갖는 주성분만을 이용하여 행렬의 열의 수를 줄일 수 있다. 주성분분석을 통해 각 주성분에 대한 고유 값(eigen value)와 각 주성분에서의 키워드별 주성분 점수를 산출할 수 있다. 상기 산출된 각 주성분의 고유 값이 제 2 임계치 이상인 경우의 주성분만을 이용하여 특허-주성분분석 행렬을 축소한다. 상기 제 2 임계치는 1일 수 있다. 즉, 고유 값이 1이상인 주성분만을 이용하여 주성분의 수를 줄여 차원축소가 가능하다. 표 2에 주어진 것과 같이, 주성분의 수가 n 개 존재하였을 때, 고유 값이 제 2 임계치 이상인 주성분이 PC1과 PC2인 경우, n 개에서 2 개로 차원이 축소된 특허-주성분분석 행렬은 다음과 같이 나타낼 수 있다.Here, for efficient analysis, the number of PCs can be reduced. As a result of the principal component analysis, a reduced patent-principal component analysis matrix can be generated using only the principal component having an eigenvalue equal to or greater than the second threshold value. In order to perform the analysis using only the significant principal component, the number of columns of the matrix can be reduced by using only the principal component having the eigenvalue of the principal component equal to or greater than the second threshold value. The eigen value for each principal component and the principal component score for each principal component in the principal component can be calculated through principal component analysis. And the patent-principal component analysis matrix is reduced using only the principal component when the eigenvalues of the calculated principal components are equal to or greater than the second threshold value. The second threshold may be one. That is, it is possible to reduce the size by reducing the number of principal components using only the principal component having an eigenvalue of 1 or more. As shown in Table 2, when the number of principal components is n and the principal components whose eigenvalues are equal to or larger than the second threshold value are PC1 and PC2, the patent-principal component analysis matrix whose dimension is reduced from n to two is expressed as follows .

Figure 112014082743351-pat00003
Figure 112014082743351-pat00003

220 단계는 상기 특허-주성분분석 행렬을 이용하여 회귀모델을 생성하는 단계이다.Step 220 is a step of generating a regression model using the patent-principal component analysis matrix.

보다 구체적으로, 특허-주성분분석 행렬을 이용하여 회귀모델을 생성한다. 회귀모델은 하나 또는 그 이상의 독립변수의 종속변수에 대한 영향의 추정을 할 수 있는 통계기법으로 주성분의 통계적 분석이 가능하다. 즉, 회귀모델을 생성하여 선택된 주성분들 중 통계적으로 유의한 주성분을 찾을 수 있다. 주성분분석은 통계적으로 유의한 분석이 아닌바, 회귀모델을 이용함으로써 통계적으로 유의한 분석이 가능하다. 상기 문서-주성분석 행렬로부터 회귀모델을 생성한다. 회귀모델은 다음과 같이 나타낼 수 있다.More specifically, a regression model is generated using the patent-principal component analysis matrix. A regression model is a statistical technique that can estimate the effect of one or more independent variables on dependent variables. Statistical analysis of the principal components is possible. In other words, a statistically significant principal component of the selected principal components can be found by creating a regression model. Principal component analysis is not statistically significant but statistically significant by using regression model. A regression model is generated from the document-principal analysis matrix. The regression model can be expressed as:

Figure 112014082743351-pat00004
Figure 112014082743351-pat00004

230 단계는 상기 생성된 회귀모델의 매개변수들 중 제 1 임계치 이하의 유의확률(p-value)을 갖는 매개변수에 해당하는 주성분을 선택하는 단계이다.Step 230 is a step of selecting a principal component corresponding to a parameter having a significant probability (p-value) below the first threshold among the parameters of the generated regression model.

보다 구체적으로, 130 단계에서 생성된 회귀모델에서 통계적으로 유의한 주성분을 선택하기 위하여, 회귀모델의 매개변수를 이용한다. 수학식 1에서 β1과 β2는 유의확률(p-value)을 갖는다. 제 1 임계치 이하인 유의확률을 갖는 매개변수에 해당하는 주성분을 유의한 주성분으로 선택할 수 있다. 상기 제 1 임계치는 0.05일 수 있다. 유의확률이 0.05 이하인 매개변수에 해당하는 주성분을 유의한 주성분으로 선택할 수 있다. 만약 여러 개의 단어가 존재한다면 모든 단어들의 중요도를 임의로 정하기 어려우며 각각의 단어가 실제로 영향을 미치는지 여부를 확인하기 어렵다. 따라서, 주성분분석과 회귀모델을 통해 핵심 키워드를 선정함으로써 정확도와 속도 면에서 매우 효율적이다.More specifically, in order to select statistically significant principal components in the regression model generated in step 130, the parameters of the regression model are used. In Equation (1), β 1 and β 2 have a significant probability (p-value). The principal component corresponding to the parameter having the probability of being less than the first threshold value can be selected as the significant principal component. The first threshold may be 0.05. The principal component corresponding to the parameter having the probability of 0.05 or less can be selected as a significant principal component. If there are several words, it is difficult to randomize the importance of all the words and it is difficult to confirm whether each word actually affects it. Therefore, selecting key keywords through principal component analysis and regression model is very efficient in terms of accuracy and speed.

240 단계는 상기 선택된 주성분에 속하는 하나 이상의 단어를 핵심 키워드로 선정하는 단계이다.Step 240 is a step of selecting one or more words belonging to the selected principal component as a core keyword.

보다 구체적으로, 주성분에 포함된 단어들 중 하나 이상의 단어를 핵심 키워드로 선정한다. 주성분에 포함된 단어들 중 핵심 키워드를 선정한다. 주성분에 포함된 단어들이 복수인 경우, 상기 주성분에 속하는 단어들 중 제 3 임계치 이상의 주성분 점수를 갖는 단어 또는 주성분 점수가 높은 순서에 따라 소정의 단어를 핵심 키워드로 선택할 수 있다. 주성분은 복수의 단어를 포함할 수 있고, 각 단어들의 주성분 부하(선형 계수) 즉, 주성분 점수를 이용하여 최종적으로 핵심 키워드를 선정할 수 있다. 상기 주성분 점수가 제 3 임계치 이상의 주성분 점수를 갖는 단어를 핵심 키워드로 선택할 수 있다. 주성분 점수는 -1 내지 1일 수 있고, 상기 제 3 임계치는 0일 수 있다. 또는 주성분 점수가 높은 단어들 순서대로 핵심 키워드를 선정할 수 있다. 미리 설정된 수만큼 선정하거나, 또는 단어 및 문서의 양에 따라 선정되는 단어의 수가 달라질 수 있다. 제 3 임계치와 단어의 수 둘 모두에 따라 선정될 수도 있다. 수학식 1에서 β1의 유의확률이 0.05 이하인 경우, PC1이 유의한 주성분이고, 상기 주성분에 속한 단어들은 다음과 같을 수 있다.More specifically, one or more words included in the principal component are selected as key keywords. Select key words among the words included in the main component. If there are a plurality of words included in the principal component, a word having a principal component score of a third threshold or more among the words belonging to the principal component or a predetermined word may be selected as a core keyword according to the order in which the principal component score is high. The principal component may include a plurality of words, and the core keyword may be finally selected using the principal component load (linear coefficient) of the words, that is, the principal component score. It is possible to select a word having a principal component score of the third component or more as a key keyword. The principal component score may be from -1 to 1, and the third threshold may be zero. Or key words in order of the words having a high principal component score. A predetermined number of words may be selected, or the number of words selected may be varied according to the amount of words and documents. May be selected according to both the third threshold and the number of words. Or less, the significance probability of 0.05 1 β in equation (1), and a main component PC1 is noted, the word belonging to the major component may be as follows.

Figure 112014082743351-pat00005
Figure 112014082743351-pat00005

제 3 임계치가 0일 경우, 상기 5 개의 단어가 핵심 키워드로 선정되고, 제 3 임계치가 0.5일 경우, patent, application, data가 핵심 키워드로 선정될 수 있다. 주성분 점수가 가장 높은 단어를 핵심 키워드로 선정하는 경우, patent을 핵심 키워드로 선정될 수 있다.
If the third threshold value is 0, the five keywords are selected as the core keyword, and if the third threshold value is 0.5, the patent, application, and data may be selected as key keywords. If a keyword with the highest principal component score is selected as a core keyword, the patent may be selected as a key keyword.

130 단계는, 상기 단어 기반 데이터로부터 IPC(국제특허분류) 코드 분석을 통해 IPC 코드 네트워크를 생성하는 단계이다.Step 130 is a step of generating an IPC code network from the word-based data through IPC (International Patent Classification) code analysis.

보다 구체적으로, 110 단계에서 생성된 단어 기반 데이터로부터 IPC 코드를 추출하여, IPC 코드 간의 상관관계를 분석하여, IPC 코드 간의 관계를 나타내는 IPC 코드 네트워크를 생성한다. More specifically, the IPC code is extracted from the word-based data generated in step 110, and the correlation between the IPC codes is analyzed to generate the IPC code network indicating the relationship between the IPC codes.

IPC 코드 네트워크는 구체적으로, 도 3의 단계를 거쳐 생성될 수 있다.The IPC code network can be specifically generated through the steps of FIG.

310 단계는 상기 단어 기반 데이터로부터 IPC 코드를 추출하는 단계이다.Step 310 is a step of extracting an IPC code from the word-based data.

보다 구체적으로, IPC(International Patent Classification) 코드는 국제 특허 분류 코드로 1968년 국제협약에 의해 확립된 국제적인 특허 분류 기준이다. 섹션-클래스-그룹의 단위로 형성된다. IPC 코드는 해당 발명이 어느 기술분야에 속하는지를 알 수 있는바, IPC 코드를 이용하여 해당 특허 문서의 기술을 분석하는데 용이하다. IPC 코드는 일정한 형식을 갖는바, 상기 단어 기반 데이터로부터 IPC 코드의 형식을 갖는 IPC 코드를 추출한다.More specifically, the International Patent Classification (IPC) code is an international patent classification code established by the International Convention in 1968 as an international patent classification code. Section-class-group. Since the IPC code can know to which technology field the invention belongs, it is easy to analyze the description of the patent document using the IPC code. The IPC code has a predetermined format, and extracts IPC codes having the format of IPC code from the word-based data.

320 단계는 상기 추출된 IPC 코드로부터 특허-IPC 코드 행렬을 생성하고, 소셜네트워크분석을 통해 IPC 코드 네트워크를 생성하는 단계이다.In step 320, a patent-IPC code matrix is generated from the extracted IPC code, and an IPC code network is created through a social network analysis.

보다 구체적으로, 소셜네트워크분석(Social Network Analysis)을 이용하여 IPC 코드를 분석할 수 있다. 소셜네트워크분석을 이용한 IPC 코드 분석에 있어서, SNA 노드는 IPC코드이고, 노드 간의 연결은 IPC 코드 간의 연결을 나타낸다. 이를, IPC 코드 네트워크라 한다. IPC 코드 네트워크에서 각각의 연결은 서로 다른 IPC 코드들의 기술적 연관성을 나타낸다. 하나의 IPC 코드가 여러 다른 IPC 코드들과 연결이 되어있다면 해당 IPC 코드는 주요 기술이거나 대표적인 기술임을 확인할 수 있다. 추출된 IPC 코드를 이용하여 특허-IPC 코드 행렬을 생성하고, 생성된 특허-IPC 코드 행렬로부터 소셜네트워크분석을 이용하여 IPC 코드 네트워크를 생성한다. IPC 코드 중 앞 네자리만을 이용할 수 있다. 상기 추출된 IPC 코드와 상기 IPC 코드가 나타난 특허문서 간의 행렬을 생성한다. 분석을 용이하게 하기 위하여, 소셜네트워크분석을 이용하여 상기 특허-IPC 코드 행렬로부터 IPC 코드 네트워크를 생성한다. 소셜네트워크분석은 수학의 그래프이론에 따라 연결 구조와 연결 강도 등을 바탕으로 구성인자의 영향력을 측정하는 분석방법으로, 확산되는 내용과 함께 연결의 맥락을 파악하여 분석할 수 있다. IPC 코드 네트워크는 미리 설정된 수의 상위 IPC 코드를 이용하여 생성될 수 있다.More specifically, IPC codes can be analyzed using Social Network Analysis. In IPC code analysis using social network analysis, the SNA node is an IPC code, and a connection between nodes indicates a connection between IPC codes. This is called an IPC code network. Each connection in the IPC code network represents the technical association of the different IPC codes. If one IPC code is associated with several different IPC codes, it can be confirmed that the corresponding IPC code is a key technology or a representative technology. Generates a patent-IPC code matrix using the extracted IPC code, and generates an IPC code network from the generated patent-IPC code matrix using the social network analysis. Only the first four digits of the IPC code are available. And generates a matrix between the extracted IPC code and the patent document in which the IPC code is displayed. To facilitate the analysis, an IPC code network is generated from the patent-IPC code matrix using a social network analysis. Social network analysis is an analytical method that measures the influence of constituent factors on the basis of connection structure and connection strength according to the graph theory of mathematics. The IPC code network can be generated using a preset number of upper IPC codes.

IPC 코드 네트워크를 생성함에 있어서, IPC 코드 간의 공분산 또는 상관계수를 이용하여 상기 IPC 코드 네트워크를 생성할 수 있다. In generating the IPC code network, the IPC code network can be generated using the covariance between the IPC codes or the correlation coefficient.

IPC 코드간의 공분산 값을 이용하여 두 IPC 코드 간의 연결관계를 판단할 수 있다. IPC 코드 간의 공분산은 다음과 같이 산출할 수 있다.The covariance value between the IPC codes can be used to determine the connection relationship between the two IPC codes. The covariance between IPC codes can be calculated as follows.

Figure 112014082743351-pat00006
Figure 112014082743351-pat00006

공분산의 절대값이 증가할 때, X와 Y의 연관성이 커진다. 공분산이 임계치 이상인 경우, 두 IPC 간에 연관성이 있다고 판단하고, 두 IPC 코드를 연결할 수 있다. 상기 임계치는 미리 설정되어 있을 수 있다. 공분산의 마이너스 또는 플러스 부호는 연관성의 방향을 나타내고, 공분산 값의 크기는 X나 Y의 범위에 따라 변한다. 즉, 그들의 연관성이 강하지 않더라도, X나 Y의 범위가 크다면 공분산 값 또한 커질 수 있다. 이러한 공분산을 이용한 방법의 문제점을 해결하기 위하여, 표준화된 공분산 값으로부터 상관계수를 산출하여 IPC 코드 네트워크 생성에 이용할 수 있다. 상기 상관계수는 다음과 같이 산출할 수 있다.When the absolute value of the covariance increases, the relationship between X and Y increases. If the covariance is above the threshold, the two IPCs are considered to be relevant and the two IPC codes can be concatenated. The threshold value may be set in advance. The minus or plus sign of the covariance represents the direction of the association, and the magnitude of the covariance varies with the range of X or Y. That is, even if their association is not strong, the covariance value can also be large if the range of X or Y is large. In order to solve the problem of the method using the covariance, the correlation coefficient may be calculated from the standardized covariance value and used for generating the IPC code network. The correlation coefficient can be calculated as follows.

Figure 112014082743351-pat00007
Figure 112014082743351-pat00007

상기 IPC 코드 간의 상관계수가 임계치 이상인 경우, IPC 코드간에 연관성이 높다고 판단하여, IPC 코드를 서로 연결함으로써 IPC 코드 네트워크 생성할 수 있다. When the correlation coefficient between the IPC codes is equal to or larger than the threshold value, it is determined that the association between the IPC codes is high, and an IPC code network can be generated by connecting the IPC codes.

330 단계는 상기 IPC 코드 네트워크에서 연결된 두 IPC 코드 간 선형회귀모델을 생성하고, 상기 선형회귀모델의 매개변수의 유의확률이 제 4 임계치 이하인지를 판단하여 상기 두 IPC 코드 간의 연결이 통계적 유의성이 있는지를 판단하는 단계이다. Step 330 generates a linear regression model between two IPC codes connected in the IPC code network and judges whether the significance of the parameters of the linear regression model is less than a fourth threshold value so that the connection between the two IPC codes is statistically significant .

보다 구체적으로, 320 단계에서 생성된 IPC 코드 네트워크에서의 연결이 통계적으로 유의성을 확인하여 IPC 코드 네트워크의 정확성과 객관성을 높일 수 있다. 이를 위하여, 상기 IPC 코드 네트워크에서 연결된 두 IPC 코드 간 선형회귀모델을 생성한다. 상기 생성된 선행회귀모델을 분석하여 상기 두 IPC 코드 간의 연결이 통계적 유의성이 있는지를 판단한다. 상기 선형회귀모델의 매개변수의 유의확률이 제 4 임계치 이하인 경우, 두 IPC 코드 간의 연결은 통계적으로 유의한 것으로 판단할 수 있다. More specifically, the connection in the IPC code network generated in step 320 can be statistically confirmed to improve the accuracy and objectivity of the IPC code network. To this end, a linear regression model between two IPC codes connected in the IPC code network is created. The generated pre-regression model is analyzed to determine whether the connection between the two IPC codes is statistically significant. If the significance probability of the parameters of the linear regression model is less than or equal to the fourth threshold value, the connection between the two IPC codes can be judged to be statistically significant.

선형회귀모델과 선형회귀모델의 매개변수(회귀모수)의 유의확률(p-value)을 이용하여 기술 간의 관계를 나타내고, 다음과 같은 식으로 IPC 코드들의 통계적 유의성을 확인한다.We use the significance (p-value) of the parameters (linear regression model and linear regression model) of the linear regression model to show the relationship between the technologies and confirm the statistical significance of the IPC codes as follows.

Figure 112014082743351-pat00008
Figure 112014082743351-pat00008

선형회귀모델에서 b1은 매개변수이고, 이 값은 IPCi에 대한 IPCj의 의존도를 나타낸다. 또한, IPCj에 대한 IPCi의 통계적 유의성을 확인하기 위하여, b1의 유의확률을 산출한다. 유의확률은 관측 데이터에서 가장 작은 유의도의 확률 값을 나타내며, 이 값은 통계적 유의성을 판단하는데 이용된다. 유의확률이 0.05 이하이면 95%의 수준에서 두 IPC 코드의 연관성이 유의하다고 판단한다. 모든 IPC 코드들에 대해 이 방법을 적용하여 통계적 유의성을 확인한다.In the linear regression model, b 1 is a parameter, which represents the dependence of IPC j on IPC i . Also, in order to confirm the statistical significance of IPC i for IPC j , the significance probability of b 1 is calculated. The significance probability represents the probability value of the least significance in the observation data, and this value is used to determine the statistical significance. If the probability of significance is less than 0.05, the relevance of the two IPC codes is judged to be significant at the level of 95%. This method is applied to all IPC codes to confirm statistical significance.

340 단계는 상기 두 IPC 코드 간의 연결이 통계적 유의성이 있는지를 판단한 결과에 따라 상기 IPC 코드 네트워크를 수정하는 단계이다.Step 340 is a step of modifying the IPC code network according to a result of determining whether the connection between the two IPC codes is statistically significant.

보다 구체적으로, 330 단계의 판단결과, 유의성이 없거나, 임계치 이상의 유의확률을 갖는 두 IPC 코드 간의 연결을 제거할 수 있다. 또는 새로운 연결을 추가할 수도 있다. 통계적 유의성을 이용하여 IPC 코드 네트워크를 수정함으로써 정확한 분석이 가능하다.
More specifically, as a result of the determination in step 330, the connection between the two IPC codes having no significance or having a significant probability greater than or equal to the threshold value can be removed. Or you can add a new connection. By analyzing the IPC code network using statistical significance, accurate analysis is possible.

140 단계는 상기 추출된 핵심 키워드 및 상기 생성된 IPC 코드 네트워크를 이용하여 기술 분석 데이터를 생성하는 단계이다.Step 140 is a step of generating technical analysis data using the extracted core keyword and the generated IPC code network.

보다 구체적으로, 핵심 키워드 추출 결과와 IPC 코드 네트워크의 결과를 포함하는 기술 분석 데이터를 생성할 수 있다. 생성된 기술 분석 데이터를 사용자에게 제공함으로써 경쟁 기업들 간의 기술 분석에 이용하도록 할 수 있다.More specifically, it is possible to generate the technical analysis data including the result of the core keyword extraction and the result of the IPC code network. The generated technical analysis data can be provided to the user, so that it can be used for technical analysis among competing companies.

상기 기술 분석 데이터는 경쟁 기업들에 공통되는 기술 및 개별 기업에 특정되는 기술에 대한 정보를 포함할 수 있다. 분석하고자 하는 경쟁 기업들의 특허문서 또는 해당 기술 분야에 관련되 특허 문서에 대응하는 핵심 키워드와 IPC 코드 네트워크를 이용하여 경쟁 기업들에 공통되는 기술에 대한 정보와, 분석하고자 하는 경쟁 기업들 중 하나의 기업에 대응하는 핵심 키워드와 IPC 코드 네트워크를 이용하여 개별 기업에 특정되는 기술에 대한 정보를 구분하여 기술 분석 데이터를 생성할 수 있다. 이를 통해 분석 대상 기술분야의 공통 기술과 하나의 기업에서만 특정하게 나타나는 기술들을 알 수 있도록 하는바, 해당 기술분야의 기술트렌드와 특정기업의 기술개발 방향, 장점 및 단점을 알 수 있다. 이를 비교 분석함으로써 기술개발의 로드맵과 방향을 제시하는데 이용될 수 있다.
The technical analysis data may include information on technologies common to competitors and technologies specific to individual companies. It is necessary to analyze the patent documents of the competitors to be analyzed or the key keywords corresponding to the patent documents related to the technical field, information on the technologies common to the competitors using the IPC code network, Technology analysis data can be generated by dividing information on a technology specified by an individual company using a core keyword corresponding to a company and an IPC code network. Through this, it is possible to identify common technologies in the technology field to be analyzed and the technologies that are unique to only one company, so that the technical trends of the technology field and the technical development directions, advantages and disadvantages of the specific companies can be understood. By comparing and analyzing these, it can be used to present the roadmap and direction of technology development.

도 4 내지 6은 본 발명의 또 다른 실시예에 따른 경쟁 기업들 간의 기술을 분석하는 방법의 흐름도이다.4 to 6 are flowcharts of a method for analyzing a technique among competing companies according to another embodiment of the present invention.

도 4는 키워드를 분석하는 방법에 대한 흐름도로, 단어 기반 데이터로부터 키워드를 추출한다. 키워드를 추출함에 있어서, 모든 기업에 대한 키워드와 하나의 기업에 특정되는 키워드를 구분하여 추출할 수 있다. 상위 10개의 키워드를 선택하고, 선택된 단어들을 이용하여 대표적인 기술들을 정의함으로써 키워드 분석을 수행할 수 있다.4 is a flowchart of a method of analyzing a keyword, which extracts keywords from word-based data. In extracting keywords, keywords for all companies and keywords specified for one company can be distinguished and extracted. Keyword analysis can be performed by selecting the top ten keywords and defining representative techniques using the selected words.

도 5는 IPC 코드를 분석하는 방법에 대한 흐름도로, 역시 단어 기반 데이터로부터 IPC 코드를 추출한다. 모든 기업에서 공통되는 IPC 코드에 해당하는 기술을 정의할 수 있고, 하나의 기업에 특정되는 기술을 정의할 수 있다. 상기 IPC 코드들에 대한 IPC 코드 네트워크를 생성하고, 이를 통해 경쟁기업들에 대한 기술관계모델을 생성할 수 있다. 대표 기술, IPC 코드 네트워크, 및 기술관계모델을 이용하여 경쟁기업들 간 비교 분석을 수행할 수 있다.FIG. 5 is a flowchart of a method of analyzing IPC codes, which extracts IPC codes from word-based data. It is possible to define a technology corresponding to IPC code common to all companies, and to define a technology specific to one company. An IPC code network for the IPC codes can be generated, and a technology relation model for competitors can be created. It is possible to perform comparative analysis between competitors using representative technology, IPC code network, and technology relation model.

도 6과 같이, 도 4의 키워드 분석 및 도 5의 IPC 코드 분석을 통한 결과를 결합하여 최종적인 경쟁 기업들 간의 기술 비교 분석을 수행할 수 있다.
As shown in FIG. 6, the keyword analysis of FIG. 4 and the IPC code analysis of FIG. 5 may be combined to perform a technical comparison analysis among the final competitive companies.

본 발명의 실시예는 단어 기반 데이터를 생성하고, 단어 기반 데이터로부터 핵심 키워드를 추출하고, IPC 코드 분석을 통해 IPC 코드 네트워크를 생성하고, 추출된 핵심 키워드 및 생성된 IPC 코드 네트워크를 이용하여 기술 분석 데이터를 생성하는 하나 이상의 처리부(프로세서) 또는 모듈, 처리부에서 산출되는 결과를 저장하는 하나 이상의 저장부(데이터베이스), 및 기술 분석 데이터를 사용자에게 제공되는 통신부 또는 디스플레이부를 포함할 수 있다.The embodiment of the present invention generates word-based data, extracts core keywords from the word-based data, generates an IPC code network through IPC code analysis, and performs a technology analysis using the extracted core keyword and the generated IPC code network One or more processing units (processors) or modules for generating data, one or more storage units (databases) for storing the results calculated in the processing units, and a communication unit or display unit provided to the user with the technology analysis data.

본 발명의 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.Embodiments of the present invention may be implemented in the form of program instructions that can be executed on various computer means and recorded on a computer readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions recorded on the medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. As described above, the present invention has been described with reference to particular embodiments, such as specific elements, and specific embodiments and drawings. However, it should be understood that the present invention is not limited to the above- And various modifications and changes may be made thereto by those skilled in the art to which the present invention pertains.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.Accordingly, the spirit of the present invention should not be construed as being limited to the embodiments described, and all of the equivalents or equivalents of the claims, as well as the following claims, belong to the scope of the present invention .

Claims (10)

경쟁 기업들 간의 기술을 분석하는 방법에 있어서,
분석하고자 하는 특허 문서들로부터 단어 기반 데이터를 생성하는 단계;
상기 단어 기반 데이터로부터 키워드 분석을 이용하여 핵심 키워드를 추출하는 단계;
상기 단어 기반 데이터로부터 IPC(국제특허분류) 코드 분석을 통해 IPC 코드 네트워크를 생성하는 단계; 및
상기 추출된 핵심 키워드 및 상기 생성된 IPC 코드 네트워크를 이용하여 기술 분석 데이터를 생성하는 단계를 포함하고,
상기 기술 분석 데이터는 경쟁 기업들에 공통되는 기술 및 개별 기업에 특정되는 기술에 대한 정보를 포함하고,
상기 IPC 코드 네트워크를 생성하는 단계는,
상기 단어 기반 데이터로부터 IPC 코드를 추출하는 단계;
상기 추출된 IPC 코드로부터 특허-IPC 코드 행렬을 생성하고, 소셜네트워크분석을 통해 IPC 코드 네트워크를 생성하는 단계;
상기 IPC 코드 네트워크에서 연결된 두 IPC 코드 간 선형회귀모델을 생성하고, 상기 선형회귀모델의 매개변수의 유의확률이 제 4 임계치 이하인지를 판단하여 상기 두 IPC 코드 간의 연결이 통계적 유의성이 있는지를 판단하는 단계; 및
상기 두 IPC 코드 간의 연결이 통계적 유의성이 있는지를 판단한 결과에 따라 상기 IPC 코드 네트워크를 수정하는 단계를 포함하는 것을 특징으로 하는 방법.
In the method of analyzing the technology among competing companies,
Generating word-based data from patent documents to be analyzed;
Extracting a core keyword from the word-based data using keyword analysis;
Generating an IPC code network from the word-based data through IPC (International Patent Classification) code analysis; And
Generating technical analysis data using the extracted core keyword and the generated IPC code network,
The technology analysis data includes information on technologies common to competitors and technologies specific to individual companies,
Wherein the generating the IPC code network comprises:
Extracting an IPC code from the word-based data;
Generating a patent-IPC code matrix from the extracted IPC code, and generating an IPC code network through a social network analysis;
A linear regression model between two IPC codes connected in the IPC code network is generated and it is determined whether the significance of the parameters of the linear regression model is below a fourth threshold value and whether or not the connection between the two IPC codes is statistically significant step; And
And modifying the IPC code network according to a result of determining whether a connection between the two IPC codes is statistically significant.
제 1 항에 있어서,
상기 단어 기반 데이터를 생성하는 단계는,
상기 특허 문서들로부터 텍스트 마이닝 방법을 이용하여 단어들을 추출하는 것을 특징으로 하는 방법.
The method according to claim 1,
Wherein the step of generating the word-
And extracting words from the patent documents using a text mining method.
제 1 항에 있어서,
상기 단어 기반 데이터를 생성하는 단계는,
문장분석(parsing) 및 말뭉치분석(corpus)를 이용하여 수행되는 것을 특징으로 하는 방법.
The method according to claim 1,
Wherein the step of generating the word-
Parsing and corpus. ≪ RTI ID = 0.0 > 8. < / RTI >
제 1 항에 있어서,
상기 핵심 키워드를 추출하는 단계는,
상기 단어 기반 데이터로부터 특허-단어 행렬을 생성하여 빈도수에 따라 단어들 중 핵심 키워드를 선정하는 것을 특징으로 하는 방법.
The method according to claim 1,
The extracting of the key keyword may include:
Generating a patent-word matrix from the word-based data and selecting a core keyword among the words according to the frequency.
제 1 항에 있어서,
상기 핵심 키워드를 추출하는 단계는,
상기 단어 기반 데이터로부터 특허-단어 행렬을 생성하고, 주성분분석을 통해 특허-주성분분석 행렬을 생성하는 단계;
상기 특허-주성분분석 행렬을 이용하여 회귀모델을 생성하는 단계;
상기 생성된 회귀모델의 매개변수들 중 제 1 임계치 이하의 유의확률(p-value)을 갖는 매개변수에 해당하는 주성분을 선택하는 단계; 및
상기 선택된 주성분에 속하는 하나 이상의 단어를 핵심 키워드로 선정하는 단계를 포함하는 방법.
The method according to claim 1,
The extracting of the key keyword may include:
Generating a patent-word matrix from the word-based data, and generating a patent-principal component analysis matrix through principal component analysis;
Generating a regression model using the patent-principal component analysis matrix;
Selecting a principal component corresponding to a parameter having a significant probability (p-value) below a first threshold among the parameters of the generated regression model; And
Selecting one or more words belonging to the selected principal component as a key keyword.
제 5 항에 있어서,
상기 주성분분석 결과, 제 2 임계치 이상의 고유 값을 갖는 주성분만을 이용하여 축소된 특허-주성분분석 행렬을 생성하는 단계를 더 포함하는 방법.
6. The method of claim 5,
And generating a reduced patent-principal component analysis matrix using only the principal component having an eigenvalue equal to or greater than the second threshold as a result of the principal component analysis.
제 5 항에 있어서,
상기 선택된 주성분에 속하는 하나 이상의 단어를 핵심 키워드로 선정하는 단계는,
상기 주성분에 속하는 단어들 중 제 3 임계치 이상의 주성분 점수를 갖는 단어 또는 주성분 점수가 높은 순서에 따라 소정의 단어를 핵심 키워드로 선정하는 것을 특징으로 하는 방법.
6. The method of claim 5,
Selecting one or more words belonging to the selected principal component as a core keyword,
Wherein a word having a principal component score of a third threshold or more among the words belonging to the principal component or a predetermined word is selected as a core keyword in a descending order of the principal component score.
삭제delete 삭제delete 제 1 항에 있어서,
상기 소셜네트워크분석을 통해 IPC 코드 네트워크를 생성하는 단계는,
IPC 코드 간의 공분산 또는 상관계수를 이용하여 상기 IPC 코드 네트워크를 생성하는 것을 특징으로 하는 방법.
The method according to claim 1,
Wherein the step of generating the IPC code network through the social network analysis comprises:
Wherein the IPC code network is generated using a covariance or a correlation coefficient between IPC codes.
KR1020140114030A 2014-08-29 2014-08-29 Methodology of Comparing Technologies between Competitive Companies Using Statistical Method and Machine Learning Method KR101593898B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140114030A KR101593898B1 (en) 2014-08-29 2014-08-29 Methodology of Comparing Technologies between Competitive Companies Using Statistical Method and Machine Learning Method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140114030A KR101593898B1 (en) 2014-08-29 2014-08-29 Methodology of Comparing Technologies between Competitive Companies Using Statistical Method and Machine Learning Method

Publications (1)

Publication Number Publication Date
KR101593898B1 true KR101593898B1 (en) 2016-02-15

Family

ID=55357486

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140114030A KR101593898B1 (en) 2014-08-29 2014-08-29 Methodology of Comparing Technologies between Competitive Companies Using Statistical Method and Machine Learning Method

Country Status (1)

Country Link
KR (1) KR101593898B1 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101768807B1 (en) * 2016-04-12 2017-08-17 고려대학교 산학협력단 Method for technology forecasting using patent analysis and expert survey
KR20190086937A (en) * 2018-01-15 2019-07-24 청주대학교 산학협력단 Method for analyzing technological documents using Bayesian networks
KR101982636B1 (en) 2017-11-28 2019-08-28 고려대학교 산학협력단 Method and apparatus for generating prediction model of company performance
CN112270586A (en) * 2020-11-12 2021-01-26 广东烟草广州市有限公司 Traversal method, system, equipment and storage medium based on linear regression
KR102311644B1 (en) * 2021-01-29 2021-10-12 한국과학기술정보연구원 Data analysis apparatus, and control method thereof
KR102593852B1 (en) * 2023-03-30 2023-10-26 특허법인 다나 Technology derivation system and method for business transformation

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"특허 경영 전략(사회 네트워크 분석)", 박상성, 2013.07.17. www.ocwee.com/KoreanUniv/ko_021/pdf/10.pdf*
"특허 경영 전략(텍스트 마이닝)", 박상성, 2013.07.17. www.ocwee.com/KoreanUniv/ko_021/pdf/04.pdf*
"특허분석을 위한 빅 데이터학습", 전성해, 한국지능시스템학회 논문지 제23권 제5호, pp.406-411, 2013.10.30*

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101768807B1 (en) * 2016-04-12 2017-08-17 고려대학교 산학협력단 Method for technology forecasting using patent analysis and expert survey
KR101982636B1 (en) 2017-11-28 2019-08-28 고려대학교 산학협력단 Method and apparatus for generating prediction model of company performance
KR20190086937A (en) * 2018-01-15 2019-07-24 청주대학교 산학협력단 Method for analyzing technological documents using Bayesian networks
KR102034103B1 (en) * 2018-01-15 2019-10-18 청주대학교 산학협력단 Method for analyzing technological documents using Bayesian networks
CN112270586A (en) * 2020-11-12 2021-01-26 广东烟草广州市有限公司 Traversal method, system, equipment and storage medium based on linear regression
CN112270586B (en) * 2020-11-12 2024-01-02 广东烟草广州市有限公司 Traversal method, system, equipment and storage medium based on linear regression
KR102311644B1 (en) * 2021-01-29 2021-10-12 한국과학기술정보연구원 Data analysis apparatus, and control method thereof
KR102593852B1 (en) * 2023-03-30 2023-10-26 특허법인 다나 Technology derivation system and method for business transformation

Similar Documents

Publication Publication Date Title
KR101593898B1 (en) Methodology of Comparing Technologies between Competitive Companies Using Statistical Method and Machine Learning Method
CN105912625B (en) A kind of entity classification method and system towards link data
JP4427500B2 (en) Semantic analysis device, semantic analysis method, and semantic analysis program
CN106777957B (en) The new method of biomedical more ginseng event extractions on unbalanced dataset
KR101505546B1 (en) Keyword extracting method using text mining
KR20180072167A (en) System for extracting similar patents and method thereof
KR101616544B1 (en) Method for analyzing patent documents using a latent dirichlet allocation
US9268842B2 (en) Information processing apparatus, control method for the same, and computer-readable recording medium
CN110825839B (en) Association relation analysis method for targets in text information
US20170154294A1 (en) Performance evaluation device, control method for performance evaluation device, and control program for performance evaluation device
KR101625124B1 (en) The Technology Valuation Model Using Quantitative Patent Analysis
US11520994B2 (en) Summary evaluation device, method, program, and storage medium
Kumar et al. Sanskrit compound processor
KR101600870B1 (en) Keyword extracting method based on statistical methods
CN111198934B (en) Information processing method and related equipment
KR101620841B1 (en) Patent Analysis Method using A Hierarchical Diagram of Technology based on Statistical Patent Analysis
CN115292506A (en) Knowledge graph ontology construction method and device applied to office field
JP2008282111A (en) Similar document retrieval method, program and device
KR20160085514A (en) The selection method of representative technology using social network mining
KR101562301B1 (en) A method and apparatus of forecasting emerging technology
Sangati et al. Efficiently extract recurring tree fragments from large treebanks
JP4592556B2 (en) Document search apparatus, document search method, and document search program
JP2002269120A (en) Device and method for classifying document and program recording medium for performing the document classifying method
JP6804913B2 (en) Table structure estimation system and method
JP5703958B2 (en) Information search device, information search method, and information search program

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190423

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20200128

Year of fee payment: 5