KR20190092055A - Device and method on recommendatation of technolgy terms with cooccurence potential - Google Patents
Device and method on recommendatation of technolgy terms with cooccurence potential Download PDFInfo
- Publication number
- KR20190092055A KR20190092055A KR1020180011377A KR20180011377A KR20190092055A KR 20190092055 A KR20190092055 A KR 20190092055A KR 1020180011377 A KR1020180011377 A KR 1020180011377A KR 20180011377 A KR20180011377 A KR 20180011377A KR 20190092055 A KR20190092055 A KR 20190092055A
- Authority
- KR
- South Korea
- Prior art keywords
- keyword
- evaluation
- attribute
- relationship
- recommended
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명은 미래 연구 가능성 높은 기술 키워드 추천 장치 및 방법에 관한 것으로서 더욱 더 상세하게는 현재 시점까지 공기(co-occurrence)하지 않은 기술 키워드 중 가까운 미래에 공기할 가능성이 높아 연구 가치가 있는 기술 키워드를 발굴해 주는 미래 연구 가능성 높은 기술 키워드 추천 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for recommending technology keywords with high potential for future research, and more particularly, technology keywords that are highly likely to be aired in the near future among technology keywords that have not been co-occurrence to the present time. The present invention relates to a device and a method for recommending a technology keyword that has a high potential for future research.
기존에 존재하고 있던 요소 기술 간의 융합(convergence, fusion)을 통하여 새로운 기술을 개발하는 것은 신기술 개발 방법의 중요한 축을 이루고 있다. 아울러, 기존에 존재하고 있던 요소 기술 간의 결합의 신규성과 비자명성은 특허 요건을 구성하고 있는 특허의 핵심 사상이 된다.Developing new technologies through convergence between existing element technologies is an important axis of new technology development methods. In addition, the novelty and non-obviousness of the combination between the existing element technologies become the core idea of patents that constitute patent requirements.
요소 기술 간의 융합을 연구하는 많은 방법 중의 하나는 공기 분석(occurrence analysis)이다. 공기 분석은 동일한 문서나 이벤트에 함께 등장한 요소의 연관 패턴에 대한 분석 또는 마이닝을 포함하고 있다. 요소가 키워드일 경우에는 코키워드(co-keyword) 분석이 되고, 요소가 특허 분류인 경우에는 공동 분류(co-classification) 분석이 된다.One of the many ways to study fusion between urea techniques is occurrence analysis. Air analysis involves analyzing or mining the association patterns of elements that appear together in the same document or event. If the element is a keyword, a co-keyword analysis is performed. If the element is a patent classification, a co-classification analysis is performed.
하지만, 이러한 코키워드 분석이나 공동 분류 분석은 근본적으로 다음과 같은 문제가 있다.However, such co-keyword analysis or co-classification analysis fundamentally has the following problems.
첫째, 타인에 의해 이미 공기가 발생한 키워드나 특허 분류이므로, 이러한 것들에 대한 연구(R&D)는 특허성이 없거나 적어도 특허성 중 진보성이 낮을 가능성이 높다.First, since keywords or patent classifications in which air has already been generated by others, research on these things (R & D) is likely to be unpatented or at least less progressive.
둘째, 공기 관계가 특허 문서에서 발견된 것인 경우, 그 공기 관계는 이미 타인에 의해서 법률적으로 선점된 기술 영역이 될 가능성이 높다. 아울러, 타인의 특허 문서에서 발생된 공기 관계에 있는 요소 기술들을 실시할 경우, 특허권 침해의 가능성도 상대적으로 높을 수 있다.Second, if an air relationship is found in a patent document, the air relationship is likely to be a technical area already legally occupied by others. In addition, the possibility of patent infringement may be relatively high when implementing the airborne element technologies generated in the patent documents of others.
이에, 기존의 공개된 문서에서 공기 관계가 없어, 선점이나 연구의 가치가 상대적으로 더 높을 수 있는 미래 연구 가능성 높은 기술 키워드 추천 방법의 개발이 요청되어 왔다. 공개된 문서에서 공기 관계가 없는 키워드 쌍은 타인에 의해 법률적으로 선점되거나 연구되지 않았을 가능성이 더 높을 수 있다. 나아가, 추천되는 기술 키워드의 유망성이나 미래 연구 가치에 대한 분석 정보가 연구자들에게 제공될 경우, 기술 융합을 획기적으로 촉진시킬 수 있을 것이다.Accordingly, there has been a request for the development of a technology keyword recommendation method with a high possibility of future research, which may have a higher value in preemption or research because there is no air relationship in existing published documents. In a published document, keyword pairs with no affairs may be more likely not legally preempted or studied by others. Furthermore, if information is provided to researchers on the prospects of the recommended technology keywords or the future research value, technology convergence can be greatly promoted.
본 발명이 해결하고자 하는 첫번째 기술적 과제는 기술 키워드 추천 장치를 개시하는 것이다.The first technical problem to be solved by the present invention is to disclose a technology keyword recommendation device.
본 발명이 해결하고자 하는 두번째 기술적 과제는 기술 키워드 추천 장치의 기술 키워드 추천 방법을 개시하는 것이다.A second technical problem to be solved by the present invention is to disclose a technology keyword recommendation method of the technology keyword recommendation apparatus.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 기술 키워드 추천 장치의 정보 처리 방법에 있어서, 상기 기술 키워드 추천 장치가 (A)문서 집합에서 생성한 키워드-문서 식별자 정보를 사용하여 코키워드 매트릭스를 생성하는 단계; (B)상기 코키워드 매트릭스의 키워드-코키워드별로 키워드-코키워드 속성 데이터를 생성하는 단계; (C)개별 키워드에 대하여 상기 코키워드 매트릭스 및 키워드-코키워드 속성 데이터를 사용하여 상기 키워드의 추천 키워드 후보군을 생성하는 단계; 및 (D) 상기 추천 키워드 후보군에서 상기 개별 키워드에 대한 추천 키워드를 선별하는 단계;를 포함하며, 상기 (C) 단계에서 상기 추천 키워드는 상기 개별 키워드와 코키워드 관계에 있는 적어도 하나 이상의 코키워드와 코키워드 관계에 있는 것이며, 상기 (C) 단계에서 상기 추천 키워드는 상기 개별 키워드와 코키워드 관계에 있지 아니한 것이며, 상기 코키워드 및 상기 추천 키워드는 적어도 하나 이상의 키워드 평가 속성을 가지는 것이며, 상기 키워드-코키워드는 적어도 하나 이상의 키워드-코키워드 관계 평가 속성을 가지는 것인 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법을 제시한다.In order to achieve the technical problem to be achieved by the present invention, in the information processing method of the technology keyword recommendation apparatus, the technology keyword recommendation apparatus generates a co-keyword matrix using the keyword-document identifier information generated from (A) the document set. Making; Generating keyword-co-keyword attribute data for each keyword-co-keyword of the co-keyword matrix; (C) generating a recommended keyword candidate group for the keyword using the co-keyword matrix and keyword-co-keyword attribute data for each individual keyword; And (D) selecting a recommendation keyword for the individual keyword from the recommendation keyword candidate group, wherein in the step (C), the recommendation keyword includes at least one cokeyword having a cokeyword relationship with the individual keyword. The keyword is in a co-keyword relationship, and in the step (C), the recommended keyword is not in a co-keyword relationship with the individual keyword, the co-keyword and the recommended keyword have at least one keyword evaluation attribute, and the keyword- The co-keyword has at least one keyword-cokeyword relationship evaluation attribute.
상기 키워드 평가 속성에는 시간 기준 키워드 평가 속성, 기업 기준 키워드 평가 속성, 연구자 기준 키워드 평가 속성, 투자 기준 키워드 평가 속성, R&D 연속성 기준 키워드 평가 속성, 관심도 기준 키워드 평가 속성 중 적어도 하나 이상을 포함하는 하위 키워드 평가 속성을 포함하는 것이며, 상기 키워드 평가 속성 사용하는 키워드 평가 속성값에는 상기 하위 키워드 평가 속성별 하위 키워드 속성값을 직접 사용하거나, 적어도 2 이상의 상기 하위 키워드 평가 속성값을 변수화하여 사용하거나, 목적별 모델링을 통하여 상기 하위 키워드 평가 속성값을 처리한 결과값 중 어느 하나 이상을 포함하고 있는 것이며, 상기 키워드-코키워드 관계 평가 속성에는 시간 기준 관계 평가 속성, 기업 기준 관계 평가 속성, 연구자 기준 관계 평가 속성, 투자 기준 관계 평가 속성, R&D 연속성 기준 관계 평가 속성, 관심도 기준 관계 평가 속성, 관계 강도 속성 중 적어도 하나 이상을 포함하는 하위 관계 평가 속성을 포함하는 것이며, 상기 키워드-코키워드 관계 평가 속성 사용하는 관계 평가 속성값에는 상기 하위 관계 평가 속성별 하위 관계 속성값을 직접 사용하거나, 적어도 2 이상의 상기 하위 관계 평가 속성값을 변수화하여 사용하거나, 목적별 모델링을 통하여 상기 하위 관계 평가 속성값을 처리한 결과값 중 어느 하나 이상을 포함하고 있는 것이 바람직하다.상기 키워드 평가 속성에는 상기 키워드가 포함되어 있는 키워드-문서 집합의 평가 속성을 포함하는 것인 것이며, 상기 키워드-코키워드 평가 속성에는 상기 키워드-코키워드별로 상기 키워드와 상기 코키워드가 모두 포함되어 있는 키워드-코키워드-문서 집합의 평가 속성을 포함하는 것인 것이 바람직하다.The keyword evaluation attribute may include a sub-keyword including at least one of a time-based keyword evaluation attribute, an enterprise-based keyword evaluation attribute, a researcher-based keyword evaluation attribute, an investment-based keyword evaluation attribute, an R & D continuity-based keyword evaluation attribute, and an interest-based keyword evaluation attribute. It includes a rating attribute, the keyword evaluation attribute value used by the keyword evaluation attribute is used directly by the sub-keyword attribute value for each of the sub-keyword evaluation attributes, or by using at least two or more of the sub-keyword evaluation attribute values, or by purpose The keyword-cokeyword relationship evaluation attribute includes a time-based relationship evaluation attribute, a company-based relationship evaluation attribute, and a researcher-based relationship evaluation attribute. Relationship of investment criteria And a sub-relationship evaluation attribute including at least one of an evaluation attribute, an R & D continuity-based relationship evaluation attribute, an interest-based relationship evaluation attribute, and a relationship strength attribute. Any one or more of a result value of directly using the sub-relationship attribute value for each of the sub-relationship evaluation attributes, using at least two or more sub-relationship evaluation attribute values as a variable, or processing the sub-relationship evaluation attribute values through modeling for each purpose The keyword evaluation attribute may include an evaluation attribute of a keyword-document set including the keyword, and the keyword-cokeyword evaluation attribute may include the keyword and the keyword-by-keyword keyword. Keyword-cokeyword-document containing all of the above keyword It is preferable to include the evaluation attribute of the set.
상기 (D) 단계는 상기 키워드 평가 속성값 및 상기 키워드-코키워드 관계 평가 속성값을 추천 키워드 평가 함수로 처리하는 제1 방법 및 상기 키워드 평가 속성값 및 상기 키워드-코키워드 관계 평가 속성값을 예측 모델로 처리하는 제2 방법 중 어느 하나 이상의 방법으로 수행되는 것인 것이 바람직하다.Step (D) is a first method of processing the keyword evaluation attribute value and the keyword-cokeyword relationship evaluation attribute value as a recommended keyword evaluation function, and predicting the keyword evaluation attribute value and the keyword-cokeyword relationship evaluation attribute value. It is preferred that the method is performed by any one or more of the second methods of processing the model.
상기 (D) 단계는 상기 추천 키워드를 구성하는 문자열이 상기 키워드를 포함하고 있는 경우, 상기 추천 키워드를 배제하는 방식으로 처리되는 것인 것이 바람직하다.In the step (D), when the character string constituting the recommendation keyword includes the keyword, it is preferably processed in a manner of excluding the recommendation keyword.
상기 (A) 단계에서, 상기 코키워드는 적어도 하나 이상의 키워드 평가 속성값을 가지는 것이며, 상기 코키워드 매트릭스는 상기 코키워드에 대한 코키워드 평가 속성값이 기 설정된 기준 이상을 초과하는 코키워드만으로 구성되는 것인 것이 바람직하다.In the step (A), the co-keyword has at least one keyword evaluation attribute value, and the co-keyword matrix is composed of only the co-keyword whose co-keyword evaluation attribute value for the co-keyword exceeds a predetermined criterion It is preferable that it is.
(A1) 상기 코키워드 매트릭스를 가공하여 매개 코키워드 매트릭스를 생성하고 상기 생성된 매개 코키워드 매트릭스를 사용하여 상기 (B)단계를 실행하는 단계;를 더 포함하며, 상기 코키워드 매트릭스를 가공하여 매개 코키워드 매트릭스를 생성하는 것은 (A11) 키워드별로 코키워드에 대한 키워드 평가 속성 및 키워드-코키워드 관계 평가 속성을 반영하여 매개 키워드를 생성하는 단계; 및 (A12) 상기 매개 키워드만으로 상기 키워드-매개 코키워드 매트릭스를 축약하는 단계;를 포함하는 것이 바람직하다.(A1) processing the co-keyword matrix to generate an intermediate co-keyword matrix, and performing the step (B) using the generated intermediate co-keyword matrix. Generating the co-keyword matrix (A11) generating a keyword by reflecting the keyword evaluation attribute and the keyword-co-keyword relationship evaluation attribute for the keyword for each keyword; And (A12) shortening the keyword-mediated cokeyword matrix with only the mediated keyword.
상기 키워드 평가 속성값 및 상기 키워드-코키워드 관계 평가 속성값을 예측 모델로 처리하는 방법은 (E1) 제1 기준 시점을 기준으로 생성된 키워드-추천 키워드 데이터를 생성하는 단계; (E2) 상기 제1 기준 시점을 기준으로 상기 키워드-추천 키워드의 생성에 사용되는 상기 키워드, 상기 코키워드, 상기 추천 키워드 및 상기 키워드-코키워드 중 적어도 어느 하나 이상에 대한 독립 변수별 독립 변수값을 생성하는 단계; (E3) 상기 제1 기준 시점으로부터 제2 기준 시점까지의 기간을 대상으로 상기 키워드-추천 키워드에 대한 반응 변수값을 생성하는 단계; (E4) 상기 반응 변수값과 상기 독립 변수값을 대상으로 기 설정된 기계 학습 알고리즘을 적용하여 모델링을 수행하여 예측 모델을 생성하는 단계; (E5) 모델 적용 시점을 기준으로 상기 키워드-추천 키워드의 생성에 사용되는 상기 키워드, 상기 코키워드, 상기 추천 키워드 및 상기 키워드-코키워드 중 적어도 어느 하나 이상에 대한 독립 변수별 독립 변수값을 생성하는 단계; (E6) 상기 생성된 예측 모델에 상기 (E5) 단계에서 생성된 독립 변수값을 적용하여 예측 정보를 생성하는 단계; 및 (E7) 상기 예측 정보를 사용하여, 상기 키워드-추천 키워드 평가 정보를 생성하는 단계;를 포함하는 것이 바람직하다.The method for processing the keyword evaluation attribute value and the keyword-cokeyword relationship evaluation attribute value as a prediction model includes: (E1) generating keyword-recommended keyword data generated based on a first reference time point; (E2) independent variable values for each independent variable for at least one of the keyword, the co-keyword, the recommended keyword, and the keyword-co-keyword used to generate the keyword-recommended keyword based on the first reference time point Generating a; (E3) generating a response variable value for the keyword-recommended keyword for a period from the first reference time point to the second reference time point; (E4) generating a predictive model by performing modeling by applying a preset machine learning algorithm to the response variable value and the independent variable value; (E5) generate independent variable values for each independent variable for at least one of the keyword, the co-keyword, the recommended keyword, and the keyword-co-keyword used to generate the keyword-recommended keyword based on a model application time point Making; (E6) generating prediction information by applying the independent variable value generated in the step (E5) to the generated prediction model; And (E7) generating the keyword-recommended keyword evaluation information using the prediction information.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 상기 방법 중 어느 하나의 방법을 실시하는 것을 특징으로 하는 기술 키워드 추천 장치를 제시한다.In order to achieve the technical problem to be achieved by the present invention, it proposes a technology keyword recommendation apparatus characterized in that any one of the above method is carried out.
본 발명을 활용하면 다음과 같은 효과가 있다.Utilizing the present invention has the following effects.
첫째, 기존의 공개된 문서에서 공기 관계가 없어, 선점이나 연구의 가치가 상대적으로 더 높을 수 있는 미래 연구 가능성 높은 기술 키워드를 체계적으로 발굴할 수 있다.First, there is no air relationship in the existing published documents, so it is possible to systematically identify technical keywords with high potential for future research that may have a higher preemption or research value.
둘째, 추천 되는 기술 키워드에 포함되는 추천 근거 정보를 통하여, 데이터 및 분석 자료에 기반하여 연구/기술 개발 대상을 체계적으로 좁힐 수 있다.Second, through the recommendation evidence information included in the recommended technology keyword, it is possible to systematically narrow the subject of research / technical development based on data and analysis data.
셋째, 보유하고 있는 기술에 대한 새로운 확장, 연계, 활용 및 응용 분야를 동종 분야뿐만 아니라 이종 분야에 까지 효과적으로 탐색할 수 있다.Third, new expansion, linkage, utilization, and application of the technology can be effectively explored not only in the same field but also in other fields.
넷째, 키워드 추천을 위해서 생성되는 키워드-코키워드 매트릭스, 코키워드 평가 정보, 키워드-코키워드 관계 평가 정보, 코키워드의 코키워드 평가 정보, 코키워드의 코키워드 관계 평가 정보는 기술 키워드 추천 뿐만 아니라 다양한 기술 정보 분석에서 활용될 수 있다.Fourth, the keyword-cokeyword matrix generated for the keyword recommendation, the cokeyword evaluation information, the keyword-cokeyword relationship evaluation information, the cokeyword evaluation information, and the cokeyword relationship evaluation information are various as well as technical keyword recommendations. It can be used in technical information analysis.
도 1은 본 발명의 기술 키워드 추천 장치가 구현되는 네트워크적 구성 관한 일 실시예적 도면이다.
도 2는 본 발명의 기술 키워드 추천 장치의 키워드 데이터 생성 모듈에 관한 일 실시예적 도면이다.
도 3은 본 발명의 기술 키워드 추천 장치의 추천 키워드 모듈에 관한 일 실시예적 도면이다.
도 4는 본 발명의 기술 키워드 추천 장치의 추천 키워드 예측 모델 모듈에 관한 일 실시예적 도면이다.
도 5는 본 발명의 기술 키워드 추천 장치의 데이터부에 관한 일 실시예적 도면이다.
도 6은 본 발명의 기술 키워드 추천 장치의 정보 처리 방법에 관한 일 실시예적 도면이다.
도 7은 본 발명의 기술 키워드 추천 장치의 코키워드 매트릭스 생성 방법에 관한 일 실시예적 도면이다.
도 8은 본 발명의 기술 키워드 추천 장치의 키워드, 키워드-코키워드별로 속성 데이터 생성 방법에 관한 일 실시예적 도면이다.
도 9는 본 발명의 기술 키워드 추천 장치의 개별 키워드에 대한 키워드의 추천 키워드 후보군 생성 방법에 관한 일 실시예적 도면이다.
도 10은 본 발명의 기술 키워드 추천 장치의 매개 코키워드 매트릭스 생성 방법에 관한 일 실시예적 도면이다.
도 11은 본 발명의 기술 키워드 추천 장치의 매개 코키워드 매트릭스의 활용 방법에 관한 일 실시예적 도면이다.
도 12는 본 발명의 기술 키워드 추천 장치의 추천 키워드 평가 함수 처리 방법에 관한 일 실시예적 도면이다.
도 13은 본 발명의 기술 키워드 추천 장치의 추천 모델 생성 방법에 관한 일 실시예적 도면이다.
도 14는 본 발명의 기술 키워드 추천 장치의 추천 모델의 적용 방법에 관한 일 실시예적 도면이다.
도 15는 본 발명의 기술 키워드 추천 장치의 기술 키워드 추천 방법에 관한 일 실시예적 도면이다.1 is a diagram illustrating a network configuration in which a technology keyword recommendation apparatus of the present invention is implemented.
2 is a diagram illustrating an embodiment of a keyword data generation module of a technology keyword recommendation apparatus according to the present invention.
3 is a diagram for one embodiment of a recommendation keyword module of a technology keyword recommendation apparatus according to the present invention.
4 is a diagram illustrating an exemplary keyword prediction model module of a technology keyword recommendation apparatus according to the present invention.
5 is an exemplary diagram of a data unit of a technology keyword recommendation apparatus according to the present invention.
6 is an exemplary diagram of an information processing method of a technology keyword recommendation apparatus according to the present invention.
7 is a diagram for one example of a method for generating a co-keyword matrix of a technology keyword recommendation apparatus according to the present invention.
8 is a diagram for describing attribute data generation for each keyword and keyword-cokeyword, according to an embodiment of the present invention.
FIG. 9 is a diagram for describing a method of generating a keyword recommendation group for a keyword of an individual keyword in the apparatus for recommending keyword of the present invention.
10 is a diagram for one embodiment of a method for generating an intermediate co-keyword matrix of a technology keyword recommendation apparatus according to the present invention.
FIG. 11 is a diagram for one embodiment of a method of using an intermediate co-keyword matrix of a technology keyword recommendation apparatus according to the present invention.
FIG. 12 is a diagram for describing a method of processing a recommended keyword evaluation function, according to an embodiment of the present invention.
FIG. 13 is a diagram for one example of a method of generating a recommendation model in a technology keyword recommendation apparatus according to the present invention.
14 is a diagram illustrating an example of a method for applying a recommendation model to a technology keyword recommendation apparatus according to the present invention.
15 is a diagram for describing a technology keyword recommendation method of the technology keyword recommendation apparatus according to the present invention.
도면을 참조하면서 본 발명 사상에 대해서 더욱 더 상세하게 설명한다.The idea of the present invention will be described in more detail with reference to the drawings.
본 발명의 기술 키워드 추천 장치(100)는 유무선 네트워크(500)를 통하여 적어도 하나 이상의 사용자 시스템(200)과 정보를 주고 받는다. 사용자 시스템(200)은 개인 사용자 단말기일 수도 있지만, 특정한 서비스를 수행하는 서버, 기능 모듈, 프로세서, 장치, 또는 기타 시스템일 수 있다.The technology
상기 기술 키워드 추천 장치(100)는 문서에서 키워드 데이터를 생성하는 키워드 데이터 생성 모듈(1000), 추천 키워드의 생성 및 입출력 처리를 수행하는 추천 키워드 처리 모듈(2000), 예측 기반의 추천 키워드 정보 처리는 수행하는 추천 키워드 예측 모듈(3000), 기술 키워드 추천 장치(100)가 보유, 입수, 가공 및 처리하는 데이터를 저장하는 데이터부(4000) 및 내부 또는 상기 사용자 시스템(200)과의 정보 처리를 담당하는 서비스 지원부(5000)를 포함한다.The technology
도 6에서 예시되듯이, 본 발명의 기술 키워드 추천 장치(100)는 키워드-문서 식별자 정보를 사용하여 코키워드 매트릭스를 생성(S11)하고, 키워드-코키워드별로 키워드-코키워드 속성 데이터를 생성(S12)하며, 개별 키워드에 대한 키워드의 추천 키워드 후보군을 생성(S13)하고, 개별 키워드에 대한 추천 키워드를 선별(S14)하는 기능을 수행한다. 각각에 대해서 상세히 후술한다. As illustrated in FIG. 6, the technical
도 2를 참조하면서 상기 키워드 데이터 생성 모듈(1000)을 설명한다. 상기 키워드 데이터 생성 모듈(1000)은 기반 키워드 데이터 생성 모듈(1100)과 키워드-코키워드 모듈(1200)을 포함한다. 상기 기반 키워드 데이터 생성 모듈(1100)에는 문서 데이터로부터 키워드 데이터를 생성하는 키워드 생성 모듈(1110), 생성된 키워드의 속성 데이터를 생성하는 키워드 속성 생성 모듈(1120) 및 키워드에 대한 평가 데이터를 생성하는 키워드 평가 모듈(1130)을 포함할 수 있다. 한편, 상기 키워드-코키워드 모듈(1200)은 키워드별로 코키워드를 생성하는 코키워드 생성 모듈(1210), 키워드-코키워드 쌍에 대한 속성 정보를 생성하는 키워드-코키워드 속성 생성 모듈(1220) 및 키워드-코키워드에 대한 평가 정보를 생성하는 키워드-코키워드 평가 모듈(1230)을 포함하고 있다.The keyword
도 2에서 예시되듯이, 상기 기반 키워드 데이터 생성 모듈(1100)의 키워드 생성 모듈(1110)은 문서의 특정 부분에 대한 형태소 분석 및 키워드 추출(S21)한 다음, 문서에 대한 대표성 높은 키워드 추출 및 키워드-문서 식별자값을 생성(S22)한다. 상기 키워드-코키워드 모듈(1200)의 코키워드 생성 모듈(1210)은 키워드-문서 식별자 정보를 사용하여 키워드-문서 식별자 행렬을 생성(S23)하고, 키워드-문서 식별자 행렬로 코키워드 매트릭스를 생성(S24)한다.As illustrated in FIG. 2, the
상기 키워드 생성 모듈(1110)의 정보 처리 방법에 대해서 더욱 더 상세하게 설명한다.The information processing method of the
상기 키워드 생성 모듈(1110)이 처리하는 문서는 각 국가의 특허 문서, 논문 및 위키피디어와 같은 비정형 문서 등이 있다. 특허 문서에서는 특허 문서 전체 또는 발명의 명칭, 요약, 배경 기술 및 특허 청구 범위 필드 등과 같은 특허 명세서를 구성하는 특정 필드만이 대상이 될 수 있다. 논문도 제목, 요약, 결론 등과 같은 특정한 필드나 논문 전체가 될 수 있다. 상기 특허 문서는 각국 특허청이 발행하는 각 국가별 표준 언어로 된 문서도 있지만, 기계 번역을 통한 특허 문서 또는 KPA/PAJ 등과 같은 영문 초록 등도 본 발명의 특허 문서가 된다. 이하, 특허 문서를 대상으로 설명하나, 본 발명 사상은 특허 문서 뿐만 아니라, 논문이나 위키피디어 문서 등과 같은 비정형 문서에서도 적용됨은 당연할 것이다.Documents processed by the
상기 키워드 생성 모듈(1110)은 형태소 분석기 등과 같은 텍스트 처리 도구를 통하여 특허 문서에서 품사 태킹(tagging) 처리를 수행한 다음, 기 설정된 키워드 후보 추출 규칙을 사용하여 특허 문서에서 키워드 후보군을 추출한다. 키워드 후보 추출 규칙의 예는 i) 명사 또는 명사열, ii) 형용사 + 명사열, iii) 명사열+형용사+명사열, iv) 명사열+전치사+명사열, v)형용사+명사열+전치사+명사열 등이 있다. 상기 키워드 생성 모듈(1110)은 추출된 키워드 후보별로 TF/IDF 등과 같은 통상적인 키워드 선별 규칙을 적용하거나, 사전 데이터부(4510) 또는 용어 데이터부(4520) 등과 같은 언어 자원 데이터부(4500)에 조회한 다음 문서 중요도 점수를 계산한다. 문서 중요도 점수가 기 설정된 기준을 상회하거나, 문서 중요도 랭킹이 기 설정된 기준 내에 들어오는 키워드를 문서를 대표하는 키워드로 선별한다. 문서별로 n개의 키워드에 대하여, i) 문서 중요도 점수, ii) 문서의 각 필드(독립항 또는 종속항 등 세부 필드 등도 포함될 수 있다)별에서 출현 회수, 키워드의 단어수, 키워드의 문자수 등과 같은 기본적인 문서-키워드 속성도 집계되어 저장한다.The
상기와 같은 과정을 통하여 문서 식별자-키워드 매트릭스가 생성된다. 문서의 범위는 목적에 따라 i) 특정 국가내의 모든 특허 문서 또는 ii) 특정 국가 내의 제한 조건을 충족하는 특허 문서, i) 적어도 2 이상 국가의 모든 특허 문서 또는 ii) 적어도 2 이상 국가의 제한 조건을 충족하는 특허 문서가 될 수 있다. 제한 조건은 검색 키워드 제한, 시간 제한, 주체(권리자, 출원인 등) 제한, 주체 속성(기업/대기업/일정 규모 이상의 기업, 대학, 연구 기관, 개인 등) 제한, 속성 제한(거래 회수, 소송 사용, 표준 특허풀 등재, (심사관) 인용/피인용 회수 등), 기술 분야(IPC/CPC/FI/FT 등) 제한 중에서 선택되는 2 이상이 될 수 있다.Through the above process, the document identifier-keyword matrix is generated. The scope of the document, depending on the purpose, is i) any patent document in a particular country or ii) a patent document satisfying a restriction in a particular country, i) any patent document in at least two countries or ii) a restriction in at least two countries. It can be a patent document that satisfies. Constraints include search keyword restrictions, time limits, subjects (authors, applicants, etc.), subject attributes (corporate / large company / oversized companies, universities, research institutes, individuals, etc.), attribute restrictions (counts of transactions, litigation use, Standard patent pool registration, (examiner's citation / citation count, etc.), and the technical field (IPC / CPC / FI / FT, etc.) restrictions can be two or more.
예시적으로 미국 전체 특허에 대한 상기 문서 식별자-키워드 매트릭스의 형태는 하기 표 1과 같다.By way of example, the form of the document identifier-keyword matrix for all US patents is shown in Table 1 below.
(예시적으로 n >= 900만, m>=100만, 각 셀에서 1은 Pi에 KWj가 존재함을 의미, 빈 칸은 존재하지 않음을 의미)(E.g. n> = 9 million, m> = 1 million, 1 in each cell means that KWj exists in Pi, blank means no space)
표 1에서 X축은 키워드, Y 축은 문서 식별자가 된다.In Table 1, the X axis is a keyword and the Y axis is a document identifier.
상기 표 1과 같은 행렬 A가 있을 때 P1에는 KW1, KW2, KW3이 포함되어 있음을 알 수 있다. 이때, 키워드별 문서 중요도 등과 같은 속성 정보가 사용되면 상기 표 1과 같은 행렬은 큐브가 된다. Z 축에는 특허(Pi)만의 경우에는 특허 속성 정보(예, 시간, 주체, 속성, 기술 분야 등)가 대응되고, 키워드(KWj) 만의 경우에는 키워드 속성 정보(키워드 길이, 단어수, 특정 사전 등재 여부, 특정 사전 등재 용어 포함 여부 등)가 대응되며, (Pi, KWj)의 경우에는 KWj의 Pi에서의 키워드 속성 정보(종합적 평가 정보 포함)가 대응된다. 이때, 설명의 편의상 종합적 평가 정보만을 적용하면, 상기 표 1은 하기 표 2와 같이 1 => 실수(실수의 가장 간단한 예는 not 1인 자연수가 된다)로 변형될 수 있다.When there is a matrix A as shown in Table 1, it can be seen that P1 includes KW1, KW2, and KW3. In this case, when attribute information such as document importance of each keyword is used, the matrix shown in Table 1 becomes a cube. In the Z axis, patent attribute information (e.g., time, subject, attribute, technical field, etc.) corresponds to patent Pi only, and keyword attribute information (keyword length, number of words, specific dictionary entry) for keyword KWj only. Whether or not a specific dictionary entry term is included), and in the case of (Pi, KWj), keyword attribute information (including comprehensive evaluation information) in Pi of KWj corresponds. In this case, if only comprehensive evaluation information is applied for convenience of description, Table 1 may be transformed into 1 => real number (the simplest example of a real number becomes a natural number not 1) as shown in Table 2 below.
본 발명에서는 실제 정보 처리는 표 2와 같은 행렬 또는 상기에서 설명한 큐브를 통해서 처리된다. 다만, 발명 사상의 용이한 설명을 위하여 표 2과 같이 자연수를 사용한 것을 설명한다.In the present invention, the actual information processing is processed through the matrix shown in Table 2 or the cube described above. However, for the sake of easy description of the inventive idea, it uses natural numbers as shown in Table 2.
상기 표 2와 같은 행렬을 A라 하면, 트랜스포즈(transpose) 행렬 At를 생성하면 하기 표 3과 같이 된다.If A is the matrix shown in Table 2, a transpose matrix A t is generated as shown in Table 3 below.
이때, 상기 KW1은 P1, P2에서 존재한다. 이와 같이 KWj마다 KWj를 포함하고 있는 특허 집합 PS(KWj)이 대응된다. 상기 키워드 속성 생성 모듈(1120)은 상기 PS(KWj)를 분석하여 예시적으로하기 표 4 내지 표 5와 같은 키워드별 키워드 평가 속성 변수별 키워드 평가 속성 정보를 생성(S31)한다. 하기 표 4 내지 표 5는 예시적으로 "bluetooth low energy"라는 키워드에 대한 것이다. "bluetooth low energy"라는 키워드를 포함하고 있는 특허 집합(PS(bluetooth low energy))을 구성하는 1,232개의 특허의 집합적 속성을 분석하여 하기 표 4 내지 표 5와 같은 키워드별 키워드 평가 속성 변수별 키워드 평가 속성 정보가 생성된다.At this time, the KW1 is present in P1, P2. In this manner, the patent set PS (KWj) corresponding to KWj corresponds to each of KWj. The keyword
하기 표 4 내지 표 5는 임의의 특허 집합에 대한 집합적 속성을 변수화하는데 사용될 수 있다.Tables 4 to 5 below can be used to variable the collective attributes for any patent set.
표 4 내지 표 5에서 예시하는 바와 같이, 상기 키워드 평가 속성에는 시간 기준 키워드 평가 속성, 기업 기준 키워드 평가 속성, 연구자 기준 키워드 평가 속성, 투자 기준 키워드 평가 속성, R&D 연속성 기준 키워드 평가 속성, 관심도 기준 키워드 평가 속성 중 적어도 하나 이상을 포함하는 하위 키워드 평가 속성을 포함하는 것이 있다.As illustrated in Tables 4 to 5, the keyword evaluation attribute includes a time-based keyword evaluation attribute, an enterprise-based keyword evaluation attribute, a researcher-based keyword evaluation attribute, an investment-based keyword evaluation attribute, an R & D continuity-based keyword evaluation attribute, and an interest-based keyword. Some include lower keyword evaluation attributes including at least one of the evaluation attributes.
상기 키워드 평가 모듈(1130)은 키워드에 대한 평가 정보를 생성한다. 키워드 평가 정보는 키워드 속성 정보를 사용하여 기 설정된 평가 모델/수식/알고리즘을 적용한 평가값을 말한다. 예시적으로 상기 키워드 평가 모듈(1130)은 하기와 같은 방식으로 키워드 평가 모델을 생성할 수 있다.The
상기 키워드 평가 모듈(1130)은 (KEM1) 제1 기준 시점을 기준으로 상기 키워드별 키워드 속성 정보를 독립 변수로 하는 독립 변수값을 생성하는 단계; (KEM2) 제1 기준 시점으로부터 제2 기준 시점까지의 기간을 대상으로 상기 키워드에 대한 반응 변수값(예, 키워드 빈도 증감율)을 생성하는 단계; (KEM3) 상기 반응 변수값과 상기 독립 변수값을 대상으로 기 설정된 기계 학습 알고리즘을 적용하여 모델링을 수행하여 키워드 평가 모델을 생성하는 단계를 통하여 키워드 평가 모델을 생성할 수 있다. 이어, 상기 키워드 평가 모듈(1130)은 (KEM3) 키워드 평가 모델의 적용 시점을 기준으로 키워드에 대한 독립 변수별 독립 변수값을 생성하고 (KEM5)생성된 예측 모델에 생성된 독립 변수값을 적용하는 방식으로 키워드별로 키워드 평가값을 생성할 수 있게 된다. 키워드 평가값은 평가 점수, 평가 등급 등이 될 수 있다.The
예시적으로, 상기 키워드 평가 모듈(1130)은 "bluetooth low energy"라는 키워드에 대하여 평가 점수 99.9, 평가 등급 S를 부여할 수 있다. 평가 점수나 평가 등급을 부여할 때, 표 4 내지 표 5에 나타나 있는 "bluetooth low energy"라는 키워드에 대한 키워드 속성 평가 정보가 사용된다.For example, the
이어, 상기 키워드-코키워드 모듈(1200)의 정보 처리 방법에 대해서 설명한다.Next, an information processing method of the keyword-
이때, 상기 키워드-코키워드 모듈(1200)의 코키워드 생성 모듈(1210)은 At*A 처리를 통해서 키워드-코키워드 행렬(CoA)을 생성한다. 상기 표 2의 데이터와 같은 예에서, 예시적으로 (KW2, KW3)은 코키워드 관계가 된다. 그리고, (KW2, KW3)는 특히 P1, P3에 나타나며, 빈도는 2가 된다. 이때, P1, P3가 가지는 특허 속성(시간, 주체, 인용/피인용, 거래, 소송, 표준, 기술 분야 등)이 적용되면 (KW2, KW3)의 다양한 속성이 발생한다. 코키워드 (KWi, KWj)에 대응되는 특허 집합 PS(KWi,KWj)의 집합적 속성을 활용하면, (KWi, KWj)에 대하여 표 4와 같은 키워드-코키워드 속성 정보가 생성될 수 있다.At this time, the
본 발명의 키워드-코키워드 속성 생성 모듈(1220)은 (KWi, KWj)에 대하여 표 4 내지 표 5와 같은 키워드-코키워드별 키워드-코키워드 관계 평가 속성 정보를 생성(S32)한다. 키워드-코키워드 관계 평가 속성에는 시간 기준 관계 평가 속성, 기업 기준 관계 평가 속성, 연구자 기준 관계 평가 속성, 투자 기준 관계 평가 속성, R&D 연속성 기준 관계 평가 속성, 관심도 기준 관계 평가 속성, 관계 강도 속성 중 적어도 하나 이상을 포함하는 하위 관계 평가 속성을 포함할 수 있다.The keyword-cokeyword
한편, 상기 키워드-코키워드 평가 모듈(1230)은 키워드-코키워드 관계 속성 정보를 사용하여 기 설정된 적어도 하나 이상의 관계 평가 정보를 생성한다. 상기 키-코 관계 평가 정보의 생성은 전술한 상기 키워드 평가 모듈(1130)이 키워드에 대한 키워드 평가 정보를 생성하는 방식이 준용될 수 있다. 물론, 상기 키워드-코키워드 평가 모듈(1230)은 키-코의 빈도나 최근 n년간의 비중 등과 같은 간단하고 직관적인 평가 정보를 생성할 수도 있다.Meanwhile, the keyword-
도 3 및 도 9를 참조하면서 본 발명의 추천 키워드 처리 모듈(2000)의 구성 및 정보 처리에 대해서 설명한다.The configuration and information processing of the recommendation
상기 추천 키워드 처리 모듈(2000)은 개별 키워드에 대하여 추천 키워드를 생성하는 추천 키워드 생성 모듈(2100), 추천 키워드의 속성 정보를 생성하는 추천 키워드 속성 생성 모듈(2200), 추천 키워드의 평가 정보를 생성하는 추천 키워드 평가 모듈(2300)을 포함하고 있으며, 상기 추천 키워드 처리 모듈(2000)에게 개별 키워드를 전송하고 추천 키워드 정보를 전송받는 입출력 모듈(2400)을 포함하고 있다. The recommendation
상기 추천 키워드 처리 모듈(2000)은 키워드별 코키워드 및 코키워드의 코키워드를 입수(S41)하고, 코키워드의 코키워드가 개별 키워드를 포함하는 지 비교하여 1차 탈락 코키워드의 코키워드를 선별(S42)하며, 코키워드 평가 정보, 키워드-코키워드 관계 평가 정보, 코키워드의 코키워드 평가 정보, 코키워드의 코키워드 관계 평가 정보를 입수(S43)하고, 키워드 평가 정보 및 관계 평가 정보로 2차 탈락 코키워드의 코키워드를 선별(S44)하며, 추천 키워드 후보군을 선별(S45)한다.The recommendation
개별 키워드(Ki)가 있을 때, 개별 키워드의 코키워드는 CoA를 조회함으로써 입수할 수 있다. 개별 키워드의 코키워드(CoA(Ki))가 있을 때, n개의 코키워드CoA(Ki)j의 코키워드(CoA(Ki))마다 이들의 코키워드 CoA(CoA(Ki)j)를 생성할 수 있게 된다. 왜냐하면, 코키워드CoA(Ki)j도 전체 키워드 집합의 원소이며, 따라서, 코키워드CoA(Ki)j에 대한 코키워드들도 CoA를 통해서 입수될 수 있게 된다. 따라서, Ki가 있을 때, CoA(CoA(Ki)j)를 생성할 수 있게 되며, 이들은 원칙적으로 본 발명의 추천 키워드가 될 수 있다.When there is an individual keyword Ki, the keyword of the individual keyword can be obtained by querying CoA. When there are co-keywords (CoA (Ki)) of individual keywords, each co-keyword CoA (Ki) j of n co-keywords CoA (Ki) j can be generated. Will be. Because co-keyword CoA (Ki) j is also an element of the entire keyword set, the co-keywords for co-keyword CoA (Ki) j can also be obtained through CoA. Therefore, when Ki is present, CoA (CoA (Ki) j) can be generated, which can in principle be the recommended keyword of the present invention.
하지만, Ki에 대하여 CoA(CoA(Ki)j)를 구할 경우 CoA(CoA(Ki)j)의 개수가 너무 많게 되어, 저장 공간 비용 및 정보 수요자의 검토 비용/시간이 너무 많이 올라가는 문제점이 있다. 통상적으로 Ki에 대해서 CoA(Ki)의 개수는 n(작은 정수)~500 정도이나, CoA(CoA(Ki)j)의 개수는 n2~5002 정도가 되기 때문이다. 특히, Ki의 개수가 100만 정도 이상이면, CoA(CoA(Ki)j)의 행의 개수는 수십억 내지 수백억 행 이상이 되어 저장, 가공 및 조회 처리에 많은 비용이 들어 간다. 따라서, 이를 체계적으로 줄일 수 있는 발명 사상이 필요하다.However, when CoA (CoA (Ki) j) is obtained for Ki, the number of CoA (CoA (Ki) j) becomes too large, which leads to a problem that the storage space cost and the information consumer's review cost / time increase too much. Usually, the number of CoA (Ki) is about n (small integer) to 500 for Ki, but the number of CoA (CoA (Ki) j) is about n 2 to 500 2 . In particular, when the number of Ki is about 1 million or more, the number of CoA (CoA (Ki) j) rows may be billions to billions or more, and the cost of storing, processing, and retrieving is expensive. Therefore, there is a need for an inventive concept that can systematically reduce this.
기본적인 접근 방법은 CoA(Ki)의 개수를 줄이는 것이다. 이를 위해서 본 발명의 추천 키워드 처리 모듈(2000)의 추천 키워드 생성 모듈(2100)은 하기와 같은 알고리즘을 적용할 수 있다.The basic approach is to reduce the number of CoA (Ki). To this end, the recommendation
첫째,i) Ki-CoA(Ki)의 빈도, 빈도의 최근성 및 빈도의 증가 속도, ii) CoA(Ki)의 키워드 속성(평가 점수 포함), iii) 키워드-코키워드 관계 평가 속성, iv) CoA(Ki)-CoA(CoA(Ki)j) 개수, 개수의 최근성 및 개수의 증가 속도 등에 기 설정된 가중치를 부여하여 CoA(Ki) 중에서 매개 CoA(Ki)인 MCoA(Ki)를 선별한다. Ki별로 선별된/축약된 매개 CoA(Ki)만으로 매개 코키워드 매트릭스(MCoA)를 생성한다. 상기 추천 키워드 생성 모듈(2100)은 MCoA*CoA와 같은 행렬 연산을 통하여 개별 키워드 Ki에 대한 CoA((MCoA(Ki))j)를 생성한다. 이러한 사상은 도 10 및 도 11에 잘 나타나 있다. 본 발명의 추천 키워드 생성 모듈(2100)은 키워드별 코키워드에 대한 키워드 평가 속성 및 키워드-코키워드 관계 평가 속성을 반영하여 키워드별 매개 키워드를 생성(S51)하고, 키워드별 매개 키워드만으로 키워드-매개 코키워드 매트릭스를 축약(S52)한다. 상기 추천 키워드 생성 모듈(2100)은 키워드-코키워드 매트릭스를 입수하고, 키워드-코키워드 매트릭스에 매개 코키워드를 반영(S61)하여, 키워드-매개 코키워드 매트릭스와 매개 키워드 반영 키워드-코키워드 매트릭스를 연산(S62)을 수행한다.First, i) the frequency of Ki-CoA (Ki), the recency of the frequency and the rate of increase of the frequency, ii) the keyword attributes of CoA (Ki) (including evaluation scores), iii) the keyword-cokeyword relationship evaluation attributes, iv) MCoA (Ki), which is a medium CoA (Ki), is selected from CoA (Ki) by assigning predetermined weights to the number of CoA (Ki) -CoA (CoA (Ki) j), the recency of the number, and the rate of increase of the number. A mediated cokeyword matrix (MCoA) is generated with only CoA (Ki) selected / abbreviated by Ki. The recommendation
둘째, 역 매핑으로 CoA(CoA(Ki)j)와 관계 평가 속성이 좋은 CoA(Ki)를 선정하는 것이다. 관계 평가 속성에는 빈도, 빈도의 최근성 등을 포함하는 시간 기준 관계 평가 속성, 기업 기준 관계 평가 속성, 연구자 기준 관계 평가 속성, 투자 기준 관계 평가 속성, R&D 연속성 기준 관계 평가 속성, 관심도 기준 관계 평가 속성, 관계 강도 속성 중 적어도 하나 이상을 포함하는 하위 관계 평가 속성이 있을 수 있다. 아울러, 키워드로서의 CoA(CoA(Ki)j)의 키워드 평가 속성을 종합적으로 고려하여 소수 CoA(Ki)를 선정하거나, CoA(Ki)의 선별 랭킹을 생성할 수 있다. 예시적으로 요약하면, i) 다수의 CoA(CoA(Ki)j)와 코키워드 관계에 있고(CoA(CoA(Ki)j)들의 관점에서는 중첩성이 높고), ii) CoA(CoA(Ki)j)들의 키워드 평가 속성이 좋으며, iii) CoA(CoA(Ki)j)들과의 코키워드 관계가 많고, 최근에 밀집해 있는 CoA(Ki)들을 선정하여 매개 키워드 MCoA(Ki)로 처리할 수 있다. 하나의 CoA(CoA(Ki)j)에 대하여 적어도 1개 이상의 매개 키워드 MCoA(Ki)가 대응될 수 있지만, 매개 키워드의 개수는 3을 넘지 않는 것이 바람직하다.Second, CoA (CoA (Ki) j) and CoA (Ki) with good relationship evaluation properties are selected as inverse mapping. Relationship evaluation properties include time-based relationship evaluation properties including frequency, recentness of frequency, enterprise-based relationship evaluation properties, researcher-based relationship evaluation properties, investment-based relationship evaluation properties, R & D continuity-based relationship evaluation properties, interest-based relationship evaluation properties There may be a subordinate relationship evaluation attribute that includes at least one of a relationship strength attribute. In addition, a small number of CoA (Ki) may be selected in consideration of the keyword evaluation attribute of CoA (CoA (Ki) j) as a keyword, or a selective ranking of CoA (Ki) may be generated. By way of example, i) is in a cokeyword relationship with a number of CoAs (CoA (Ki) j) (overlapping in terms of CoA (CoA (Ki) j)), ii) CoA (CoA (Ki) j ) Has good keyword evaluation attributes, and iii) CoA (Ki) j has a lot of co-keyword relationships, and recently clustered CoA (Ki) can be selected and processed as an intermediate keyword MCoA (Ki). . At least one medium keyword MCoA (Ki) may correspond to one CoA (CoA (Ki) j), but the number of medium keywords is preferably not more than three.
다른 방법은 CoA((MCoA(Ki))j)의 개수를 줄이는 것이다. 키워드로서의 CoA(CoA(Ki)j)의 키워드 평가 속성을 적용하여 기 설정된 기준 이상이 되는 CoA(CoA(Ki)j)만을 선별하는 것이다.Another method is to reduce the number of CoA ((MCoA (Ki)) j). By applying the keyword evaluation attribute of CoA (CoA (Ki) j) as a keyword, only CoA (CoA (Ki) j) that is higher than or equal to a predetermined criterion is selected.
이때, CoA(CoA(Ki)j)에 Ki의 표현을 포함하고 있는 경우가 발생한다. 이럴 경우, CoA(CoA(Ki)j)는 Ki의 관점에서 자명한 경우가 있을 수 있다. 이러한 자명한 경우는 배제 처리를 수행하는 것이 바람직할 것이다. 자명성의 판단은 본 발명의 추천 키워드 생성 모듈(2100)이 수행한다. 자명한 경우의 대표적인 예로는 CoA(CoA(Ki)j)와 Ki 사이에서 system, device 등과 같은 DF(document frequency) 빈도가 높은 표현(with/without전치사) 만이 차이가 나는 경우이다. 한편, 많은 경우, DF가 낮더라도 CoA(CoA(Ki)j)에 Ki가 포함되어 있는 경우라면 좋은 추천 키워드가 되기는 쉽지 않을 수 있다. 이러한 배제 처리 필요성이 높은 CoA(CoA(Ki)j)는 Ki별로 별도로 저장하여 관리하는 것이 바람직할 것이다.At this time, there occurs a case where CoA (CoA (Ki) j) includes the expression Ki. In this case, CoA (CoA (Ki) j) may be self-explanatory in terms of Ki. In such evident cases, it may be desirable to perform the exclusion process. The determination of self-explanation is performed by the recommendation
이어, 본 발명의 추천 키워드 속성 생성 모듈(2200)의 정보 처리 방법에 대해서 설명한다. 상기 추천 키워드 속성 생성 모듈(2200)은 추천 키워드의 속성을 생성한다. 추천 키워드의 속성은 크게 3가지 계열이 있다. 첫번째는 CoA(Ki)와 CoA(CoA(Ki)j)간의 관계 속성이다. 상기 관계 속성은 CoA(Ki)와 CoA(CoA(Ki)j)를 함께 포함하는 특허 집합인 PS(CoA(Ki), CoA(CoA(Ki)j)에 대한 속성 평가로 처리할 수 있으며, 구체적인 방법은 전술한 바와 같다. 두번째는 Ki와 CoA(Ki)의 관계 속성이다. 세번째는 CoA(CoA(Ki)j) 자체의 속성이다. 본 발명의 추천 키워드 평가 모듈(2300)은 이러한 3가지 계열의 추천 키워드 속성을 종합하여 추천 키워드의 평가 정보를 생성한다. Next, the information processing method of the recommendation keyword
이어, 상기 추천 키워드 평가 모듈(2300)이 평가 함수를 사용하여 추천 키워드 평가 정보를 처리하는 방법에 대해서 도 12를 참조하면서 설명한다. 상기 추천 키워드 평가 모듈(2300)은 코키워드 평가 정보, 키워드-코키워드 관계 평가 정보, 코키워드의 코키워드 평가 정보, 코키워드의 코키워드 관계 평가 정보에 대한 추천 규칙에 따른 추천 가중치값을 생성(S71)하고, 추천 가중치값을 적용한 추천 키워드 평가 함수를 생성(S72)하며, 개별 키워드별로 생성된 추천 키워드 후보군에 추천 키워드 평가 함수를 적용(S73)하여 추천 키워드 평가값을 기준으로 개별 키워드별 추천 키워드를 선별(S74) 처리한다.Next, a method of processing the recommended keyword evaluation information by using the evaluation
이어, 상기 추천 키워드 예측 모듈(3000)이 예측 모델을 사용하여 추천 키워드 평가 정보를 처리하는 방법에 대해서 도 13 내지 도 14를 참조하면서 설명한다. 상기 추천 키워드 예측 모듈(3000)은 변수를 생성하는 변수 생성 모듈(3100)과 모델링을 수행하는 모델링 모듈(3200) 및 모델을 적용하는 모델 적용 모듈(3300)을 포함하고 있다. 먼저 예측 모델을 생성하는 방법에 대해서 설명한다.Next, a method of processing the recommended keyword evaluation information by using the prediction
상기 추천 키워드 예측 모듈(3000)은 제1 기준 시점을 기준으로 생성된 키워드-추천 키워드 데이터를 생성(S81)하고, 제1 기준 시점을 기준으로 키워드-추천 키워드의 생성에 사용되는 키워드, 코키워드, 추천 키워드 및 키워드-코키워드에 대한 독립 변수별 독립 변수값을 생성(S82)한 다음, 제1 기준 시점으로부터 제2 기준 시점까지의 기간을 대상으로 키워드-추천 키워드에 대한 반응 변수값을 생성(S83)하고, 반응 변수값과 독립 변수값을 대상으로 기계 학습 알고리즘을 적용하여 모델링을 수행하여 예측 모델을 생성(S84)한다.The recommended
예를 들면, 2018년 1월 기준이라면, 제1 기준 시점은 2014년12월31일이 될 수 있으며, 제2 기준 시점은 2017년12월31일이 될 수 있다. 상기 추천 키워드 예측 모듈(3000)은 2014년12월31일을 기준으로 Ki별로 Ki-CoA(CoA(Ki)j), (매개 키워드를 사용하는 경우에는 Ki-CoA((MCoA(Ki))j))), 데이터에 대하여 독립 변수별 독립 변수값을 생성한다. 독립 변수의 예는 PS(Ki), PS(CoA(Ki)j), PS(Ki,CoA(Ki)), PS(Ki,CoA(CoA(Ki)j))에 대한 집합적 속성이 될 수 있다. PS(Ki), PS(CoA(Ki)j), PS(Ki,CoA(Ki)), PS(Ki,CoA(CoA(Ki)j))에 대한 집합적 속성의 예는 상기 표 4 내지 ㅍ 5표에 예시되어 있다.For example, as of January 2018, the first reference time point may be December 31, 2014, and the second reference time point may be December 31, 2017. The recommended
반응 변수는 2015년1월1일부터 2017년12월31일까지 Ki-CoA(CoA(Ki)j)의 존재 여부 또는 빈도가 될 수 있다. 존재 여부를 반응 변수로 할 경우에는 상기 예측 모델은 분류 모델이 되며, 빈도가 될 경우에는 상기 예측 모델은 회귀 모델(regression model)이 된다. 기계 학습 알고리즘은 부스팅(boosting) 등과 같은 앙상블 계열의 알고리즘이나, 딥러닝(deep learning)과 같은 신경망(neural network) 계열의 알고리즘을 사용할 수 있다.The response variable may be the presence or frequency of Ki-CoA (CoA (Ki) j) from January 1, 2015 to December 31, 2017. In the presence or absence of a response variable, the predictive model is a classification model, and when the frequency is a predictive model, the prediction model is a regression model. The machine learning algorithm may use an ensemble based algorithm such as boosting or a neural network based algorithm such as deep learning.
예측 모델의 테스팅은 백테스팅(back testing)을 하는 것이 가장 바람직하다. 하지만, 70% 정도의 데이터는 모델링용, 30% 정도의 데이터는 테스팅으로 사용하는 방식으로 테스팅을 할 수도 있다. 한편, 5 fold cross validation 등을 통하여 각 알고리즘마다 최적 파라미터 집합에 대한 튜닝을 할 수 있다.The testing of the predictive model is most preferably back testing. However, testing can be done by using 70% of the data for modeling and 30% of the data for testing. Meanwhile, it is possible to tune the optimal parameter set for each algorithm through 5 fold cross validation.
이어, 상기 추천 키워드 예측 모듈(3000)이 생성된 예측 모델을 적용하는 방법에 대해서 설명한다. 상기 추천 키워드 예측 모듈(3000)은 모델 적용 시점을 기준으로 키워드-추천 키워드의 생성에 사용되는 키워드, 코키워드, 추천 키워드 및 키워드-코키워드에 대한 독립 변수별 독립 변수값을 생성(S91)하고, 생성된 예측 모델에 생성된 독립 변수값을 적용하여 예측 정보를 생성(S92)한다. 상기 추천 키워드 평가 모듈(2300)은 예측 정보를 사용하여, 키워드-추천 키워드 평가 정보를 생성(S93)한다. 상기에서 모델 적용 시점의 예는 2018년 1월1일이 될 수 있다.Next, a method of applying the generated prediction model by the recommended
본 발명의 구현 과정에서 생성된 모든 데이터는 본 발명의 데이터부(4000)에 저장된다. 상기 데이터부(4000)에는 기술 문서 데이터(4100)를 포함하고 있는데, 기술 문서 데이터(4100)에는 특허 문서 데이터(4110) 및 논문 문서 데이터(4120) 등이 포함되고 있다. 상기 키워드 DB부(4200)에는 문서에서 추출한 키워드가 문서 식별 정보와 함께 저장되어 있는 문서-키워드 DB(4210), 키워드에 대한 속성 정보가 저장되어 있는 키워드 DB(4220), 키워드 및 그 키워드와 코키워드 관계에 있는 키워드에 관한 제반 정보가 저장되어 있는 키워드-코키워드 DB(4230), 키워드별 추천 키워드에 관한 제반 정보가 저장되어 있는 키워드-추천 키워드 DB(4240) 및 키워드 추천을 위한 규칙, 함수, 가중치 등에 대한 정책 정보가 저장되어 있는 키워드 추천 규칙 DB(4250)를 포함하고 있다. 모델 지원 DB부(4300)에는 키워드별, 키워드-코키워드별 파라미터 정보가 저장되어 있는 키워드 파라미터 DB부(4310), 키워드별, 키워드-코키워드별 메타 정보가 저장되어 있는 키워드 메타 정보 DB부(4320)가 포함되어 있다. 비기술문서 DB부(4400)에는 위키피디어나 기타 비특허, 비논문 문서 데이터가 포함되어 있다. 언어 자원 데이터부(4500)에는 번역용 사전 등과 같은 각종 사전 데이터가 포함되어 있는 사전 데이터부(4510) 및 각종 기술 분야별 용어 데이터, 일렉트로피디어, 위키피디어 표제어, 워드넷 용어 등과 같은 가 포함되어 있는 용어 데이터부(4520)가 포함되어 있다.All data generated during the implementation of the present invention is stored in the
이어, 도 15를 참조하면서 본 발명의 기술 키워드 추천 장치(100)의 기술 키워드 추천 처리 방법을 설명한다.Next, the technical keyword recommendation processing method of the technical
상기 기술 키워드 추천 장치(100)는 적어도 하나 이상의 개별 키워드를 입수(S10)하고, 입수 키워드에 대한 추천 키워드를 조회(S102)하며, 추천 키워드 리스트 및 추천 근거 정보를 입수(S103)하고, 추천 키워드 리스트 및 추천 근거 정보를 제공(S104)한다.The technical
하기 표 6는 US 특허를 기준으로 하여 개별 키워드 convex optimization에 대한 추천 키워드 정보의 예시이다. 추천 키워드를 생성하기 위하여 매개 키워드를 사용했으며, 1개의 추천 키워드에 매개 키워드 2 이상이 사용되는 경우가 다수 있다.Table 6 below is an example of recommended keyword information for individual keyword convex optimization based on US patents. In order to generate a recommended keyword, a media keyword is used, and there are many cases in which two or more media keywords are used in one recommendation keyword.
하기 표 7는 US 특허를 기준으로 하여 바이오 산업 분야의 개별 키워드 genome wide association study에 대한 추천 키워드 정보의 예시이다. 추천 키워드를 생성하기 위하여 매개 키워드를 사용했으며, 1개의 추천 키워드에 매개 키워드 2 이상이 사용되는 경우가 다수 있다.Table 7 below is an example of recommended keyword information for individual keyword genome wide association study in the bio industry based on US patents. In order to generate a recommended keyword, a media keyword is used, and there are many cases in which two or more media keywords are used in one recommendation keyword.
하기 표 8는 US 특허를 기준으로 하여 바이오 산업 분야의 개별 키워드 improving meat quality에 대한 추천 키워드 정보의 예시이다. 추천 키워드를 생성하기 위하여 매개 키워드를 사용했으며, 1개의 추천 키워드에 매개 키워드 2 이상이 사용되는 경우가 다수 있다.Table 8 below is an example of recommended keyword information for the individual keyword improving meat quality in the bio industry based on US patents. In order to generate a recommended keyword, a media keyword is used, and there are many cases in which two or more media keywords are used in one recommendation keyword.
하기 표 9는 US 특허를 기준으로 하여 IT 산업 분야의 개별 키워드 convolutional neural network에 대한 추천 키워드 정보의 예시이다. 추천 키워드를 생성하기 위하여 매개 키워드를 사용했으며, 1개의 추천 키워드에 매개 키워드 2 이상이 사용되는 경우가 다수 있다.Table 9 below is an example of recommended keyword information for individual keyword convolutional neural network in the IT industry based on US patent. In order to generate a recommended keyword, a media keyword is used, and there are many cases in which two or more media keywords are used in one recommendation keyword.
본 발명은 기술 정보 산업, 연구 개발 지원 사업, 데이터 기술 산업, 텍스트 처리 산업, 인공 지능 산업 등에 광범위하게 활용할 수 있다.INDUSTRIAL APPLICABILITY The present invention can be widely used in the technology information industry, research and development support business, data technology industry, text processing industry, artificial intelligence industry and the like.
100 : 기술 키워드 추천 장치
1000 : 키워드 데이터 생성 모듈
1000 : 키워드 데이터 생성 모듈
1100 : 기반 키워드 데이터 생성 모듈
1110 : 키워드 생성 모듈
1120 : 키워드 속성 생성 모듈
1130 : 키워드 평가 모듈
1200 : 키워드-코키워드 모듈
1210 : 코키워드 생성 모듈
1220 : 키워드-코키워드 속성 생성 모듈
1320 : 모델 검증 모듈
200 : 사용자 시스템
2000 : 추천 키워드 처리 모듈
2100 : 추천 키워드 생성 모듈
220 : 추천키워드 속성 생성 모듈
2300 : 추천 키워드 평가 모듈
2310 : 키워드-코키워드 평가 모듈
2400 : 입출력 모듈
3000 : 추천 키워드 예측 모듈
3100 : 변수 생성 모듈
3110 : 독립 변수 생성 모듈
3120 : 종속 변수 생성 모듈
3200 : 모델링 모듈
3210 : 모델 생성 모듈
3300 : 모델 적용 모듈
4000 : 데이터부
4000 : 데이터부
4100 : 기술 문서 데이터
4110 : 특허 문서 데이터
4120 : 논문 문서 데이터
4200 : 키워드 DB부
4210 : 문서-키워드 DB
4220 : 키워드 DB
4230 : 키워드-코키워드 DB
4240 : 키워드-추천 키워드 DB
4250 : 키워드 추천 규칙 DB
4300 : 모델 지원 DB부
4310 : 키워드 파라미터 DB부
4320 : 키워드 메타 정보 DB부
4400 : 비기술문서 DB부
500 : 유무선 네트워크
5000 : 서비스 지원부
5100 : 통신부
5200 : 관리부100: technology keyword recommendation device
1000: Keyword Data Generation Module
1000: Keyword Data Generation Module
1100: Based Keyword Data Generation Module
1110: keyword generation module
1120: Keyword attribute generation module
1130: keyword evaluation module
1200 keyword-cokeyword module
1210: cokeyword generation module
1220: Keyword-cokeyword attribute generation module
1320: Model Verification Module
200: user system
2000: Suggested Keyword Processing Module
2100: keyword generation module
220: recommendation keyword attribute generation module
2300: keyword suggestion module
2310 keyword-cokeyword evaluation module
2400: I / O module
3000: Suggested Keyword Prediction Module
3100: variable generation module
3110: Independent variable generation module
3120: dependent variable generation module
3200: Modeling Module
3210: Model Generation Module
3300: Model Application Module
4000: data section
4000: data section
4100: Technical document data
4110: Patent Document Data
4120: Thesis Document Data
4200 keyword DB
4210: Document-Keyword DB
4220: keyword DB
4230: keyword-cokeyword DB
4240: Keyword-Recommended Keyword DB
4250: Keyword Recommendation Rule DB
4300: DB support model
4310: Keyword parameter DB section
4320: keyword meta information DB
4400: DB of non technical documents
500: wired and wireless network
5000: Service Support Department
5100: communication unit
5200: management
Claims (9)
(A)문서 집합에서 생성한 키워드-문서 식별자 정보를 사용하여 코키워드 매트릭스를 생성하는 단계;
(B)상기 코키워드 매트릭스의 키워드-코키워드별로 키워드-코키워드 속성 데이터를 생성하는 단계;
(C)개별 키워드에 대하여 상기 코키워드 매트릭스 및 키워드-코키워드 속성 데이터를 사용하여 상기 키워드의 추천 키워드 후보군을 생성하는 단계; 및
(D) 상기 추천 키워드 후보군에서 상기 개별 키워드에 대한 추천 키워드를 선별하는 단계;를 포함하며,
상기 (C) 단계에서 상기 추천 키워드는 상기 개별 키워드와 코키워드 관계에 있는 적어도 하나 이상의 코키워드와 코키워드 관계에 있는 것이며,
상기 (C) 단계에서 상기 추천 키워드는 상기 개별 키워드와 코키워드 관계에 있지 아니한 것이며,
상기 코키워드 및 상기 추천 키워드는 적어도 하나 이상의 키워드 평가 속성을 가지는 것이며,
상기 키워드-코키워드는 적어도 하나 이상의 키워드-코키워드 관계 평가 속성을 가지는 것인 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.In the information processing method of the technical keyword recommendation apparatus, the technical keyword recommendation apparatus
(A) generating a co-keyword matrix using keyword-document identifier information generated from the document set;
Generating keyword-co-keyword attribute data for each keyword-co-keyword of the co-keyword matrix;
(C) generating a recommended keyword candidate group for the keyword using the co-keyword matrix and keyword-co-keyword attribute data for each individual keyword; And
(D) selecting the recommended keyword for the individual keyword in the recommendation keyword candidate group;
In the step (C), the recommended keyword is a co-keyword relationship with at least one co-keyword having a co-keyword relationship with the individual keyword,
In the step (C), the recommended keyword is not in a co-keyword relationship with the individual keyword,
The co-keyword and the recommended keyword have at least one keyword evaluation attribute,
And the keyword-cokeyword has at least one keyword-cokeyword relationship evaluation attribute.
상기 키워드 평가 속성에는 시간 기준 키워드 평가 속성, 기업 기준 키워드 평가 속성, 연구자 기준 키워드 평가 속성, 투자 기준 키워드 평가 속성, R&D 연속성 기준 키워드 평가 속성, 관심도 기준 키워드 평가 속성 중 적어도 하나 이상을 포함하는 하위 키워드 평가 속성을 포함하는 것이며,
상기 키워드 평가 속성 사용하는 키워드 평가 속성값에는 상기 하위 키워드 평가 속성별 하위 키워드 속성값을 직접 사용하거나, 적어도 2 이상의 상기 하위 키워드 평가 속성값을 변수화하여 사용하거나, 목적별 모델링을 통하여 상기 하위 키워드 평가 속성값을 처리한 결과값 중 어느 하나 이상을 포함하고 있는 것이며,
상기 키워드-코키워드 관계 평가 속성에는 시간 기준 관계 평가 속성, 기업 기준 관계 평가 속성, 연구자 기준 관계 평가 속성, 투자 기준 관계 평가 속성, R&D 연속성 기준 관계 평가 속성, 관심도 기준 관계 평가 속성, 관계 강도 속성 중 적어도 하나 이상을 포함하는 하위 관계 평가 속성을 포함하는 것이며,
상기 키워드-코키워드 관계 평가 속성 사용하는 관계 평가 속성값에는 상기 하위 관계 평가 속성별 하위 관계 속성값을 직접 사용하거나, 적어도 2 이상의 상기 하위 관계 평가 속성값을 변수화하여 사용하거나, 목적별 모델링을 통하여 상기 하위 관계 평가 속성값을 처리한 결과값 중 어느 하나 이상을 포함하고 있는 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.,The method of claim 1,
The keyword evaluation attribute may include a sub-keyword including at least one of a time-based keyword evaluation attribute, an enterprise-based keyword evaluation attribute, a researcher-based keyword evaluation attribute, an investment-based keyword evaluation attribute, an R & D continuity-based keyword evaluation attribute, and an interest-based keyword evaluation attribute. Contains an evaluation attribute,
The keyword evaluation attribute value used for the keyword evaluation attribute may be directly used by the sub-keyword attribute value for each of the sub-keyword evaluation attributes, or by using at least two or more of the sub-keyword evaluation attribute values in a variable manner, or by evaluating the sub-keywords through purpose-specific modeling. Contains at least one of the result of processing the attribute value,
The keyword-cokeyword relationship evaluation property includes time-based relationship evaluation property, company-based relationship evaluation property, researcher-based relationship evaluation property, investment-based relationship evaluation property, R & D continuity-based relationship evaluation property, interest-based relationship evaluation property, and relationship strength property. Includes child relationship evaluation attributes that include at least one,
The sub-attribute attribute value for each of the sub-relationship evaluation attributes is directly used for the relationship-assessment attribute value using the keyword-co-keyword relationship evaluation attribute, or at least two or more sub-relation evaluation attribute values are used, or through purpose-based modeling. And an information processing method of the technical keyword recommendation apparatus, wherein any one or more of the result values of the sub-relationship evaluation attribute values are included.
상기 키워드 평가 속성에는 상기 키워드가 포함되어 있는 키워드-문서 집합의 평가 속성을 포함하는 것인 것이며,
상기 키워드-코키워드 평가 속성에는 상기 키워드-코키워드별로 상기 키워드와 상기 코키워드가 모두 포함되어 있는 키워드-코키워드-문서 집합의 평가 속성을 포함하는 것인 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.,The method of claim 2,
The keyword evaluation attribute is to include the evaluation attribute of the keyword-document set that includes the keyword,
The keyword-co-keyword evaluation attribute includes information about a keyword-co-keyword-document evaluation attribute including both the keyword and the co-keyword for each keyword-co-keyword. Treatment method.,
상기 (D) 단계는
상기 키워드 평가 속성값 및 상기 키워드-코키워드 관계 평가 속성값을 추천 키워드 평가 함수로 처리하는 제1 방법 및
상기 키워드 평가 속성값 및 상기 키워드-코키워드 관계 평가 속성값을 예측 모델로 처리하는 제2 방법 중 어느 하나 이상의 방법으로 수행되는 것인 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.The method of claim 2,
Step (D) is
A first method of processing the keyword evaluation attribute value and the keyword-cokeyword relationship evaluation attribute value with a recommended keyword evaluation function; and
And the second method of processing the keyword evaluation attribute value and the keyword-cokeyword relationship evaluation attribute value as a prediction model.
상기 (D) 단계는
상기 추천 키워드를 구성하는 문자열이 상기 키워드를 포함하고 있는 경우, 상기 추천 키워드를 배제하는 방식으로 처리되는 것인 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.The method of claim 2,
Step (D) is
And when the character string constituting the recommendation keyword includes the keyword, it is processed in a manner of excluding the recommendation keyword.
상기 (A) 단계에서,
상기 코키워드는 적어도 하나 이상의 키워드 평가 속성값을 가지는 것이며,
상기 코키워드 매트릭스는 상기 코키워드에 대한 코키워드 평가 속성값이 기 설정된 기준 이상을 초과하는 코키워드만으로 구성되는 것인 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.The method of claim 2,
In the step (A),
The cokeyword has at least one keyword evaluation attribute value,
The co-keyword matrix is an information processing method of a technology keyword recommendation apparatus, characterized in that the co-keyword evaluation attribute value for the co-keyword is composed of only the co-keyword exceeding a predetermined criterion.
(A1) 상기 코키워드 매트릭스를 가공하여 매개 코키워드 매트릭스를 생성하고 상기 생성된 매개 코키워드 매트릭스를 사용하여 상기 (B)단계를 실행하는 단계;를 더 포함하며,
상기 코키워드 매트릭스를 가공하여 매개 코키워드 매트릭스를 생성하는 것은
(A11) 키워드별로 코키워드에 대한 키워드 평가 속성 및 키워드-코키워드 관계 평가 속성을 반영하여 매개 키워드를 생성하는 단계; 및
(A12) 상기 매개 키워드만으로 상기 키워드-매개 코키워드 매트릭스를 축약하는 단계;를 포함하는 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.The method of claim 4, wherein
(A1) processing the co-keyword matrix to generate an intermediate co-keyword matrix and performing step (B) using the generated intermediate co-keyword matrix;
Processing the cokeyword matrix to generate an intermediate cokeyword matrix
Generating an intermediate keyword by reflecting a keyword evaluation attribute and a keyword-cokeyword relationship evaluation attribute for the keyword for each keyword; And
(A12) shortening the keyword-mediated co-keyword matrix using only the mediated keyword.
상기 키워드 평가 속성값 및 상기 키워드-코키워드 관계 평가 속성값을 예측 모델로 처리하는 방법은
(E1) 제1 기준 시점을 기준으로 생성된 키워드-추천 키워드 데이터를 생성하는 단계;
(E2) 상기 제1 기준 시점을 기준으로 상기 키워드-추천 키워드의 생성에 사용되는 상기 키워드, 상기 코키워드, 상기 추천 키워드 및 상기 키워드-코키워드 중 적어도 어느 하나 이상에 대한 독립 변수별 독립 변수값을 생성하는 단계;
(E3) 상기 제1 기준 시점으로부터 제2 기준 시점까지의 기간을 대상으로 상기 키워드-추천 키워드에 대한 반응 변수값을 생성하는 단계;
(E4) 상기 반응 변수값과 상기 독립 변수값을 대상으로 기 설정된 기계 학습 알고리즘을 적용하여 모델링을 수행하여 예측 모델을 생성하는 단계;
(E5) 모델 적용 시점을 기준으로 상기 키워드-추천 키워드의 생성에 사용되는 상기 키워드, 상기 코키워드, 상기 추천 키워드 및 상기 키워드-코키워드 중 적어도 어느 하나 이상에 대한 독립 변수별 독립 변수값을 생성하는 단계;
(E6) 상기 생성된 예측 모델에 상기 (E5) 단계에서 생성된 독립 변수값을 적용하여 예측 정보를 생성하는 단계; 및
(E7) 상기 예측 정보를 사용하여, 상기 키워드-추천 키워드 평가 정보를 생성하는 단계;를 포함하는 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.The method of claim 4, wherein
The method for processing the keyword evaluation attribute value and the keyword-cokeyword relationship evaluation attribute value as a prediction model
(E1) generating keyword-recommended keyword data generated based on the first reference time point;
(E2) independent variable values for each independent variable for at least one of the keyword, the co-keyword, the recommended keyword, and the keyword-co-keyword used to generate the keyword-recommended keyword based on the first reference time point Generating a;
(E3) generating a response variable value for the keyword-recommended keyword for a period from the first reference time point to the second reference time point;
(E4) generating a predictive model by performing modeling by applying a preset machine learning algorithm to the response variable value and the independent variable value;
(E5) generate independent variable values for each independent variable for at least one of the keyword, the co-keyword, the recommended keyword, and the keyword-co-keyword used to generate the keyword-recommended keyword based on a model application time point Doing;
(E6) generating prediction information by applying the independent variable value generated in the step (E5) to the generated prediction model; And
(E7) generating the keyword-recommended keyword evaluation information by using the prediction information.
A technical keyword recommendation apparatus according to any one of claims 1 to 8, which is implemented.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180011377A KR102515655B1 (en) | 2018-01-30 | 2018-01-30 | Device and method on recommendatation of technolgy terms with cooccurence potential |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180011377A KR102515655B1 (en) | 2018-01-30 | 2018-01-30 | Device and method on recommendatation of technolgy terms with cooccurence potential |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190092055A true KR20190092055A (en) | 2019-08-07 |
KR102515655B1 KR102515655B1 (en) | 2023-03-30 |
Family
ID=67621700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180011377A KR102515655B1 (en) | 2018-01-30 | 2018-01-30 | Device and method on recommendatation of technolgy terms with cooccurence potential |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102515655B1 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070084004A (en) | 2004-11-05 | 2007-08-24 | 가부시키가이샤 아이.피.비. | Keyword extracting device |
KR20100068532A (en) | 2008-12-15 | 2010-06-24 | 한국전자통신연구원 | Apparatus and method for keyword extraction and associative word network configuration of document data |
KR20130091392A (en) * | 2012-02-08 | 2013-08-19 | 숭실대학교산학협력단 | Apparatus and method for recommending keyword |
KR20130125999A (en) * | 2012-05-10 | 2013-11-20 | 경북대학교 산학협력단 | A method and an apparatus of keyword extraction and a communication assist device |
KR101507521B1 (en) | 2014-03-31 | 2015-03-31 | 주식회사 솔샘넷 | Method and apparatus for classifying automatically IPC and recommending F-Term |
-
2018
- 2018-01-30 KR KR1020180011377A patent/KR102515655B1/en active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070084004A (en) | 2004-11-05 | 2007-08-24 | 가부시키가이샤 아이.피.비. | Keyword extracting device |
KR20100068532A (en) | 2008-12-15 | 2010-06-24 | 한국전자통신연구원 | Apparatus and method for keyword extraction and associative word network configuration of document data |
KR20130091392A (en) * | 2012-02-08 | 2013-08-19 | 숭실대학교산학협력단 | Apparatus and method for recommending keyword |
KR20130125999A (en) * | 2012-05-10 | 2013-11-20 | 경북대학교 산학협력단 | A method and an apparatus of keyword extraction and a communication assist device |
KR101507521B1 (en) | 2014-03-31 | 2015-03-31 | 주식회사 솔샘넷 | Method and apparatus for classifying automatically IPC and recommending F-Term |
Also Published As
Publication number | Publication date |
---|---|
KR102515655B1 (en) | 2023-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mowlaei et al. | Aspect-based sentiment analysis using adaptive aspect-based lexicons | |
Tang et al. | Patentminer: topic-driven patent analysis and mining | |
Bagheri et al. | Care more about customers: Unsupervised domain-independent aspect detection for sentiment analysis of customer reviews | |
US8543533B2 (en) | Inferring influence and authority | |
US20190392035A1 (en) | Information object extraction using combination of classifiers analyzing local and non-local features | |
Kim et al. | Enriching text representation with frequent pattern mining for probabilistic topic modeling | |
Mousavi Nejad et al. | Establishing a strong baseline for privacy policy classification | |
JP6061337B2 (en) | Rule generation device and extraction device | |
US11574287B2 (en) | Automatic document classification | |
KR20130108503A (en) | Ascribing actionable attributes to data that describes a personal identity | |
Deng et al. | Exploring and inferring user–user pseudo‐friendship for sentiment analysis with heterogeneous networks | |
Linton et al. | An extension to a DEA support system used for assessing R&D projects | |
Chakraborty et al. | A network based stratification approach for summarizing relevant comment tweets of news articles | |
TWI254880B (en) | Method for classifying electronic document analysis | |
CN105511869A (en) | Demand tracking system and method based on user feedback | |
Chen et al. | Automated chat transcript analysis using topic modeling for library reference services | |
Tazibt et al. | Latent Dirichlet allocation-based temporal summarization | |
Qiu et al. | CLDA: An effective topic model for mining user interest preference under big data background | |
Cho et al. | Topic category analysis on twitter via cross-media strategy | |
CN115062135B (en) | Patent screening method and electronic equipment | |
KR101658890B1 (en) | Method for online evaluating patents | |
KR101456187B1 (en) | Method for evaluating patents based on complex factors | |
Song et al. | Detecting positive opinion leader group from forum | |
Zhuo | Consumer demand behavior mining and product recommendation based on online product review mining and fuzzy sets | |
KR101456189B1 (en) | Method for evaluating patents using engine and evaluation server |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right |