KR20190092055A - Device and method on recommendatation of technolgy terms with cooccurence potential - Google Patents

Device and method on recommendatation of technolgy terms with cooccurence potential Download PDF

Info

Publication number
KR20190092055A
KR20190092055A KR1020180011377A KR20180011377A KR20190092055A KR 20190092055 A KR20190092055 A KR 20190092055A KR 1020180011377 A KR1020180011377 A KR 1020180011377A KR 20180011377 A KR20180011377 A KR 20180011377A KR 20190092055 A KR20190092055 A KR 20190092055A
Authority
KR
South Korea
Prior art keywords
keyword
evaluation
attribute
relationship
recommended
Prior art date
Application number
KR1020180011377A
Other languages
Korean (ko)
Other versions
KR102515655B1 (en
Inventor
강민수
황재성
Original Assignee
(주)광개토연구소
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)광개토연구소 filed Critical (주)광개토연구소
Priority to KR1020180011377A priority Critical patent/KR102515655B1/en
Publication of KR20190092055A publication Critical patent/KR20190092055A/en
Application granted granted Critical
Publication of KR102515655B1 publication Critical patent/KR102515655B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a device to recommend a technology keyword having more potential to be studied and a method thereof. According to the present invention, an information processing method for the technology keyword recommending device includes: a step (A) of generating a co-keyword matrix by using keyword-document identifier information generated from a document group; a step (B) of generating keyword-co-keyword attribute data by keyword-co-keyword of the co-keyword matrix; a step (C) of generating a recommendation keyword candidate group for the keyword; and a step (D) of selecting a recommendation keyword for an individual keyword from the recommendation keyword candidate group. Through the present invention, since there is not a co-occurrence in a previously disclosed document, a technology keyword having more potential to be studied can be systematically discovered.

Description

미래 연구 가능성 높은 기술 키워드 추천 장치 및 방법{Device and method on recommendatation of technolgy terms with cooccurence potential}Device and method recommendation technique with high potential for future research {Device and method on recommendatation of technolgy terms with cooccurence potential}

본 발명은 미래 연구 가능성 높은 기술 키워드 추천 장치 및 방법에 관한 것으로서 더욱 더 상세하게는 현재 시점까지 공기(co-occurrence)하지 않은 기술 키워드 중 가까운 미래에 공기할 가능성이 높아 연구 가치가 있는 기술 키워드를 발굴해 주는 미래 연구 가능성 높은 기술 키워드 추천 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for recommending technology keywords with high potential for future research, and more particularly, technology keywords that are highly likely to be aired in the near future among technology keywords that have not been co-occurrence to the present time. The present invention relates to a device and a method for recommending a technology keyword that has a high potential for future research.

기존에 존재하고 있던 요소 기술 간의 융합(convergence, fusion)을 통하여 새로운 기술을 개발하는 것은 신기술 개발 방법의 중요한 축을 이루고 있다. 아울러, 기존에 존재하고 있던 요소 기술 간의 결합의 신규성과 비자명성은 특허 요건을 구성하고 있는 특허의 핵심 사상이 된다.Developing new technologies through convergence between existing element technologies is an important axis of new technology development methods. In addition, the novelty and non-obviousness of the combination between the existing element technologies become the core idea of patents that constitute patent requirements.

요소 기술 간의 융합을 연구하는 많은 방법 중의 하나는 공기 분석(occurrence analysis)이다. 공기 분석은 동일한 문서나 이벤트에 함께 등장한 요소의 연관 패턴에 대한 분석 또는 마이닝을 포함하고 있다. 요소가 키워드일 경우에는 코키워드(co-keyword) 분석이 되고, 요소가 특허 분류인 경우에는 공동 분류(co-classification) 분석이 된다.One of the many ways to study fusion between urea techniques is occurrence analysis. Air analysis involves analyzing or mining the association patterns of elements that appear together in the same document or event. If the element is a keyword, a co-keyword analysis is performed. If the element is a patent classification, a co-classification analysis is performed.

하지만, 이러한 코키워드 분석이나 공동 분류 분석은 근본적으로 다음과 같은 문제가 있다.However, such co-keyword analysis or co-classification analysis fundamentally has the following problems.

첫째, 타인에 의해 이미 공기가 발생한 키워드나 특허 분류이므로, 이러한 것들에 대한 연구(R&D)는 특허성이 없거나 적어도 특허성 중 진보성이 낮을 가능성이 높다.First, since keywords or patent classifications in which air has already been generated by others, research on these things (R & D) is likely to be unpatented or at least less progressive.

둘째, 공기 관계가 특허 문서에서 발견된 것인 경우, 그 공기 관계는 이미 타인에 의해서 법률적으로 선점된 기술 영역이 될 가능성이 높다. 아울러, 타인의 특허 문서에서 발생된 공기 관계에 있는 요소 기술들을 실시할 경우, 특허권 침해의 가능성도 상대적으로 높을 수 있다.Second, if an air relationship is found in a patent document, the air relationship is likely to be a technical area already legally occupied by others. In addition, the possibility of patent infringement may be relatively high when implementing the airborne element technologies generated in the patent documents of others.

이에, 기존의 공개된 문서에서 공기 관계가 없어, 선점이나 연구의 가치가 상대적으로 더 높을 수 있는 미래 연구 가능성 높은 기술 키워드 추천 방법의 개발이 요청되어 왔다. 공개된 문서에서 공기 관계가 없는 키워드 쌍은 타인에 의해 법률적으로 선점되거나 연구되지 않았을 가능성이 더 높을 수 있다. 나아가, 추천되는 기술 키워드의 유망성이나 미래 연구 가치에 대한 분석 정보가 연구자들에게 제공될 경우, 기술 융합을 획기적으로 촉진시킬 수 있을 것이다.Accordingly, there has been a request for the development of a technology keyword recommendation method with a high possibility of future research, which may have a higher value in preemption or research because there is no air relationship in existing published documents. In a published document, keyword pairs with no affairs may be more likely not legally preempted or studied by others. Furthermore, if information is provided to researchers on the prospects of the recommended technology keywords or the future research value, technology convergence can be greatly promoted.

1020100068532 A1020100068532 A 1015075210000 B1015075210000 B 1020070084004 A1020070084004 A

본 발명이 해결하고자 하는 첫번째 기술적 과제는 기술 키워드 추천 장치를 개시하는 것이다.The first technical problem to be solved by the present invention is to disclose a technology keyword recommendation device.

본 발명이 해결하고자 하는 두번째 기술적 과제는 기술 키워드 추천 장치의 기술 키워드 추천 방법을 개시하는 것이다.A second technical problem to be solved by the present invention is to disclose a technology keyword recommendation method of the technology keyword recommendation apparatus.

본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 기술 키워드 추천 장치의 정보 처리 방법에 있어서, 상기 기술 키워드 추천 장치가 (A)문서 집합에서 생성한 키워드-문서 식별자 정보를 사용하여 코키워드 매트릭스를 생성하는 단계; (B)상기 코키워드 매트릭스의 키워드-코키워드별로 키워드-코키워드 속성 데이터를 생성하는 단계; (C)개별 키워드에 대하여 상기 코키워드 매트릭스 및 키워드-코키워드 속성 데이터를 사용하여 상기 키워드의 추천 키워드 후보군을 생성하는 단계; 및 (D) 상기 추천 키워드 후보군에서 상기 개별 키워드에 대한 추천 키워드를 선별하는 단계;를 포함하며, 상기 (C) 단계에서 상기 추천 키워드는 상기 개별 키워드와 코키워드 관계에 있는 적어도 하나 이상의 코키워드와 코키워드 관계에 있는 것이며, 상기 (C) 단계에서 상기 추천 키워드는 상기 개별 키워드와 코키워드 관계에 있지 아니한 것이며, 상기 코키워드 및 상기 추천 키워드는 적어도 하나 이상의 키워드 평가 속성을 가지는 것이며, 상기 키워드-코키워드는 적어도 하나 이상의 키워드-코키워드 관계 평가 속성을 가지는 것인 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법을 제시한다.In order to achieve the technical problem to be achieved by the present invention, in the information processing method of the technology keyword recommendation apparatus, the technology keyword recommendation apparatus generates a co-keyword matrix using the keyword-document identifier information generated from (A) the document set. Making; Generating keyword-co-keyword attribute data for each keyword-co-keyword of the co-keyword matrix; (C) generating a recommended keyword candidate group for the keyword using the co-keyword matrix and keyword-co-keyword attribute data for each individual keyword; And (D) selecting a recommendation keyword for the individual keyword from the recommendation keyword candidate group, wherein in the step (C), the recommendation keyword includes at least one cokeyword having a cokeyword relationship with the individual keyword. The keyword is in a co-keyword relationship, and in the step (C), the recommended keyword is not in a co-keyword relationship with the individual keyword, the co-keyword and the recommended keyword have at least one keyword evaluation attribute, and the keyword- The co-keyword has at least one keyword-cokeyword relationship evaluation attribute.

상기 키워드 평가 속성에는 시간 기준 키워드 평가 속성, 기업 기준 키워드 평가 속성, 연구자 기준 키워드 평가 속성, 투자 기준 키워드 평가 속성, R&D 연속성 기준 키워드 평가 속성, 관심도 기준 키워드 평가 속성 중 적어도 하나 이상을 포함하는 하위 키워드 평가 속성을 포함하는 것이며, 상기 키워드 평가 속성 사용하는 키워드 평가 속성값에는 상기 하위 키워드 평가 속성별 하위 키워드 속성값을 직접 사용하거나, 적어도 2 이상의 상기 하위 키워드 평가 속성값을 변수화하여 사용하거나, 목적별 모델링을 통하여 상기 하위 키워드 평가 속성값을 처리한 결과값 중 어느 하나 이상을 포함하고 있는 것이며, 상기 키워드-코키워드 관계 평가 속성에는 시간 기준 관계 평가 속성, 기업 기준 관계 평가 속성, 연구자 기준 관계 평가 속성, 투자 기준 관계 평가 속성, R&D 연속성 기준 관계 평가 속성, 관심도 기준 관계 평가 속성, 관계 강도 속성 중 적어도 하나 이상을 포함하는 하위 관계 평가 속성을 포함하는 것이며, 상기 키워드-코키워드 관계 평가 속성 사용하는 관계 평가 속성값에는 상기 하위 관계 평가 속성별 하위 관계 속성값을 직접 사용하거나, 적어도 2 이상의 상기 하위 관계 평가 속성값을 변수화하여 사용하거나, 목적별 모델링을 통하여 상기 하위 관계 평가 속성값을 처리한 결과값 중 어느 하나 이상을 포함하고 있는 것이 바람직하다.상기 키워드 평가 속성에는 상기 키워드가 포함되어 있는 키워드-문서 집합의 평가 속성을 포함하는 것인 것이며, 상기 키워드-코키워드 평가 속성에는 상기 키워드-코키워드별로 상기 키워드와 상기 코키워드가 모두 포함되어 있는 키워드-코키워드-문서 집합의 평가 속성을 포함하는 것인 것이 바람직하다.The keyword evaluation attribute may include a sub-keyword including at least one of a time-based keyword evaluation attribute, an enterprise-based keyword evaluation attribute, a researcher-based keyword evaluation attribute, an investment-based keyword evaluation attribute, an R & D continuity-based keyword evaluation attribute, and an interest-based keyword evaluation attribute. It includes a rating attribute, the keyword evaluation attribute value used by the keyword evaluation attribute is used directly by the sub-keyword attribute value for each of the sub-keyword evaluation attributes, or by using at least two or more of the sub-keyword evaluation attribute values, or by purpose The keyword-cokeyword relationship evaluation attribute includes a time-based relationship evaluation attribute, a company-based relationship evaluation attribute, and a researcher-based relationship evaluation attribute. Relationship of investment criteria And a sub-relationship evaluation attribute including at least one of an evaluation attribute, an R & D continuity-based relationship evaluation attribute, an interest-based relationship evaluation attribute, and a relationship strength attribute. Any one or more of a result value of directly using the sub-relationship attribute value for each of the sub-relationship evaluation attributes, using at least two or more sub-relationship evaluation attribute values as a variable, or processing the sub-relationship evaluation attribute values through modeling for each purpose The keyword evaluation attribute may include an evaluation attribute of a keyword-document set including the keyword, and the keyword-cokeyword evaluation attribute may include the keyword and the keyword-by-keyword keyword. Keyword-cokeyword-document containing all of the above keyword It is preferable to include the evaluation attribute of the set.

상기 (D) 단계는 상기 키워드 평가 속성값 및 상기 키워드-코키워드 관계 평가 속성값을 추천 키워드 평가 함수로 처리하는 제1 방법 및 상기 키워드 평가 속성값 및 상기 키워드-코키워드 관계 평가 속성값을 예측 모델로 처리하는 제2 방법 중 어느 하나 이상의 방법으로 수행되는 것인 것이 바람직하다.Step (D) is a first method of processing the keyword evaluation attribute value and the keyword-cokeyword relationship evaluation attribute value as a recommended keyword evaluation function, and predicting the keyword evaluation attribute value and the keyword-cokeyword relationship evaluation attribute value. It is preferred that the method is performed by any one or more of the second methods of processing the model.

상기 (D) 단계는 상기 추천 키워드를 구성하는 문자열이 상기 키워드를 포함하고 있는 경우, 상기 추천 키워드를 배제하는 방식으로 처리되는 것인 것이 바람직하다.In the step (D), when the character string constituting the recommendation keyword includes the keyword, it is preferably processed in a manner of excluding the recommendation keyword.

상기 (A) 단계에서, 상기 코키워드는 적어도 하나 이상의 키워드 평가 속성값을 가지는 것이며, 상기 코키워드 매트릭스는 상기 코키워드에 대한 코키워드 평가 속성값이 기 설정된 기준 이상을 초과하는 코키워드만으로 구성되는 것인 것이 바람직하다.In the step (A), the co-keyword has at least one keyword evaluation attribute value, and the co-keyword matrix is composed of only the co-keyword whose co-keyword evaluation attribute value for the co-keyword exceeds a predetermined criterion It is preferable that it is.

(A1) 상기 코키워드 매트릭스를 가공하여 매개 코키워드 매트릭스를 생성하고 상기 생성된 매개 코키워드 매트릭스를 사용하여 상기 (B)단계를 실행하는 단계;를 더 포함하며, 상기 코키워드 매트릭스를 가공하여 매개 코키워드 매트릭스를 생성하는 것은 (A11) 키워드별로 코키워드에 대한 키워드 평가 속성 및 키워드-코키워드 관계 평가 속성을 반영하여 매개 키워드를 생성하는 단계; 및 (A12) 상기 매개 키워드만으로 상기 키워드-매개 코키워드 매트릭스를 축약하는 단계;를 포함하는 것이 바람직하다.(A1) processing the co-keyword matrix to generate an intermediate co-keyword matrix, and performing the step (B) using the generated intermediate co-keyword matrix. Generating the co-keyword matrix (A11) generating a keyword by reflecting the keyword evaluation attribute and the keyword-co-keyword relationship evaluation attribute for the keyword for each keyword; And (A12) shortening the keyword-mediated cokeyword matrix with only the mediated keyword.

상기 키워드 평가 속성값 및 상기 키워드-코키워드 관계 평가 속성값을 예측 모델로 처리하는 방법은 (E1) 제1 기준 시점을 기준으로 생성된 키워드-추천 키워드 데이터를 생성하는 단계; (E2) 상기 제1 기준 시점을 기준으로 상기 키워드-추천 키워드의 생성에 사용되는 상기 키워드, 상기 코키워드, 상기 추천 키워드 및 상기 키워드-코키워드 중 적어도 어느 하나 이상에 대한 독립 변수별 독립 변수값을 생성하는 단계; (E3) 상기 제1 기준 시점으로부터 제2 기준 시점까지의 기간을 대상으로 상기 키워드-추천 키워드에 대한 반응 변수값을 생성하는 단계; (E4) 상기 반응 변수값과 상기 독립 변수값을 대상으로 기 설정된 기계 학습 알고리즘을 적용하여 모델링을 수행하여 예측 모델을 생성하는 단계; (E5) 모델 적용 시점을 기준으로 상기 키워드-추천 키워드의 생성에 사용되는 상기 키워드, 상기 코키워드, 상기 추천 키워드 및 상기 키워드-코키워드 중 적어도 어느 하나 이상에 대한 독립 변수별 독립 변수값을 생성하는 단계; (E6) 상기 생성된 예측 모델에 상기 (E5) 단계에서 생성된 독립 변수값을 적용하여 예측 정보를 생성하는 단계; 및 (E7) 상기 예측 정보를 사용하여, 상기 키워드-추천 키워드 평가 정보를 생성하는 단계;를 포함하는 것이 바람직하다.The method for processing the keyword evaluation attribute value and the keyword-cokeyword relationship evaluation attribute value as a prediction model includes: (E1) generating keyword-recommended keyword data generated based on a first reference time point; (E2) independent variable values for each independent variable for at least one of the keyword, the co-keyword, the recommended keyword, and the keyword-co-keyword used to generate the keyword-recommended keyword based on the first reference time point Generating a; (E3) generating a response variable value for the keyword-recommended keyword for a period from the first reference time point to the second reference time point; (E4) generating a predictive model by performing modeling by applying a preset machine learning algorithm to the response variable value and the independent variable value; (E5) generate independent variable values for each independent variable for at least one of the keyword, the co-keyword, the recommended keyword, and the keyword-co-keyword used to generate the keyword-recommended keyword based on a model application time point Making; (E6) generating prediction information by applying the independent variable value generated in the step (E5) to the generated prediction model; And (E7) generating the keyword-recommended keyword evaluation information using the prediction information.

본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 상기 방법 중 어느 하나의 방법을 실시하는 것을 특징으로 하는 기술 키워드 추천 장치를 제시한다.In order to achieve the technical problem to be achieved by the present invention, it proposes a technology keyword recommendation apparatus characterized in that any one of the above method is carried out.

본 발명을 활용하면 다음과 같은 효과가 있다.Utilizing the present invention has the following effects.

첫째, 기존의 공개된 문서에서 공기 관계가 없어, 선점이나 연구의 가치가 상대적으로 더 높을 수 있는 미래 연구 가능성 높은 기술 키워드를 체계적으로 발굴할 수 있다.First, there is no air relationship in the existing published documents, so it is possible to systematically identify technical keywords with high potential for future research that may have a higher preemption or research value.

둘째, 추천 되는 기술 키워드에 포함되는 추천 근거 정보를 통하여, 데이터 및 분석 자료에 기반하여 연구/기술 개발 대상을 체계적으로 좁힐 수 있다.Second, through the recommendation evidence information included in the recommended technology keyword, it is possible to systematically narrow the subject of research / technical development based on data and analysis data.

셋째, 보유하고 있는 기술에 대한 새로운 확장, 연계, 활용 및 응용 분야를 동종 분야뿐만 아니라 이종 분야에 까지 효과적으로 탐색할 수 있다.Third, new expansion, linkage, utilization, and application of the technology can be effectively explored not only in the same field but also in other fields.

넷째, 키워드 추천을 위해서 생성되는 키워드-코키워드 매트릭스, 코키워드 평가 정보, 키워드-코키워드 관계 평가 정보, 코키워드의 코키워드 평가 정보, 코키워드의 코키워드 관계 평가 정보는 기술 키워드 추천 뿐만 아니라 다양한 기술 정보 분석에서 활용될 수 있다.Fourth, the keyword-cokeyword matrix generated for the keyword recommendation, the cokeyword evaluation information, the keyword-cokeyword relationship evaluation information, the cokeyword evaluation information, and the cokeyword relationship evaluation information are various as well as technical keyword recommendations. It can be used in technical information analysis.

도 1은 본 발명의 기술 키워드 추천 장치가 구현되는 네트워크적 구성 관한 일 실시예적 도면이다.
도 2는 본 발명의 기술 키워드 추천 장치의 키워드 데이터 생성 모듈에 관한 일 실시예적 도면이다.
도 3은 본 발명의 기술 키워드 추천 장치의 추천 키워드 모듈에 관한 일 실시예적 도면이다.
도 4는 본 발명의 기술 키워드 추천 장치의 추천 키워드 예측 모델 모듈에 관한 일 실시예적 도면이다.
도 5는 본 발명의 기술 키워드 추천 장치의 데이터부에 관한 일 실시예적 도면이다.
도 6은 본 발명의 기술 키워드 추천 장치의 정보 처리 방법에 관한 일 실시예적 도면이다.
도 7은 본 발명의 기술 키워드 추천 장치의 코키워드 매트릭스 생성 방법에 관한 일 실시예적 도면이다.
도 8은 본 발명의 기술 키워드 추천 장치의 키워드, 키워드-코키워드별로 속성 데이터 생성 방법에 관한 일 실시예적 도면이다.
도 9는 본 발명의 기술 키워드 추천 장치의 개별 키워드에 대한 키워드의 추천 키워드 후보군 생성 방법에 관한 일 실시예적 도면이다.
도 10은 본 발명의 기술 키워드 추천 장치의 매개 코키워드 매트릭스 생성 방법에 관한 일 실시예적 도면이다.
도 11은 본 발명의 기술 키워드 추천 장치의 매개 코키워드 매트릭스의 활용 방법에 관한 일 실시예적 도면이다.
도 12는 본 발명의 기술 키워드 추천 장치의 추천 키워드 평가 함수 처리 방법에 관한 일 실시예적 도면이다.
도 13은 본 발명의 기술 키워드 추천 장치의 추천 모델 생성 방법에 관한 일 실시예적 도면이다.
도 14는 본 발명의 기술 키워드 추천 장치의 추천 모델의 적용 방법에 관한 일 실시예적 도면이다.
도 15는 본 발명의 기술 키워드 추천 장치의 기술 키워드 추천 방법에 관한 일 실시예적 도면이다.
1 is a diagram illustrating a network configuration in which a technology keyword recommendation apparatus of the present invention is implemented.
2 is a diagram illustrating an embodiment of a keyword data generation module of a technology keyword recommendation apparatus according to the present invention.
3 is a diagram for one embodiment of a recommendation keyword module of a technology keyword recommendation apparatus according to the present invention.
4 is a diagram illustrating an exemplary keyword prediction model module of a technology keyword recommendation apparatus according to the present invention.
5 is an exemplary diagram of a data unit of a technology keyword recommendation apparatus according to the present invention.
6 is an exemplary diagram of an information processing method of a technology keyword recommendation apparatus according to the present invention.
7 is a diagram for one example of a method for generating a co-keyword matrix of a technology keyword recommendation apparatus according to the present invention.
8 is a diagram for describing attribute data generation for each keyword and keyword-cokeyword, according to an embodiment of the present invention.
FIG. 9 is a diagram for describing a method of generating a keyword recommendation group for a keyword of an individual keyword in the apparatus for recommending keyword of the present invention.
10 is a diagram for one embodiment of a method for generating an intermediate co-keyword matrix of a technology keyword recommendation apparatus according to the present invention.
FIG. 11 is a diagram for one embodiment of a method of using an intermediate co-keyword matrix of a technology keyword recommendation apparatus according to the present invention.
FIG. 12 is a diagram for describing a method of processing a recommended keyword evaluation function, according to an embodiment of the present invention.
FIG. 13 is a diagram for one example of a method of generating a recommendation model in a technology keyword recommendation apparatus according to the present invention.
14 is a diagram illustrating an example of a method for applying a recommendation model to a technology keyword recommendation apparatus according to the present invention.
15 is a diagram for describing a technology keyword recommendation method of the technology keyword recommendation apparatus according to the present invention.

도면을 참조하면서 본 발명 사상에 대해서 더욱 더 상세하게 설명한다.The idea of the present invention will be described in more detail with reference to the drawings.

본 발명의 기술 키워드 추천 장치(100)는 유무선 네트워크(500)를 통하여 적어도 하나 이상의 사용자 시스템(200)과 정보를 주고 받는다. 사용자 시스템(200)은 개인 사용자 단말기일 수도 있지만, 특정한 서비스를 수행하는 서버, 기능 모듈, 프로세서, 장치, 또는 기타 시스템일 수 있다.The technology keyword recommendation apparatus 100 of the present invention exchanges information with at least one user system 200 through the wired / wireless network 500. The user system 200 may be a personal user terminal, but may be a server, function module, processor, device, or other system that performs a particular service.

상기 기술 키워드 추천 장치(100)는 문서에서 키워드 데이터를 생성하는 키워드 데이터 생성 모듈(1000), 추천 키워드의 생성 및 입출력 처리를 수행하는 추천 키워드 처리 모듈(2000), 예측 기반의 추천 키워드 정보 처리는 수행하는 추천 키워드 예측 모듈(3000), 기술 키워드 추천 장치(100)가 보유, 입수, 가공 및 처리하는 데이터를 저장하는 데이터부(4000) 및 내부 또는 상기 사용자 시스템(200)과의 정보 처리를 담당하는 서비스 지원부(5000)를 포함한다.The technology keyword recommendation apparatus 100 may include a keyword data generation module 1000 for generating keyword data from a document, a recommendation keyword processing module 2000 for generating a recommendation keyword and performing input / output processing, and recommendation-based recommendation keyword information processing. Responsible for processing information with the recommendation keyword prediction module 3000 to perform, the data unit 4000 storing data that the technology keyword recommendation apparatus 100 possesses, obtains, processes, and processes, and the internal or the user system 200. It includes a service support unit 5000.

도 6에서 예시되듯이, 본 발명의 기술 키워드 추천 장치(100)는 키워드-문서 식별자 정보를 사용하여 코키워드 매트릭스를 생성(S11)하고, 키워드-코키워드별로 키워드-코키워드 속성 데이터를 생성(S12)하며, 개별 키워드에 대한 키워드의 추천 키워드 후보군을 생성(S13)하고, 개별 키워드에 대한 추천 키워드를 선별(S14)하는 기능을 수행한다. 각각에 대해서 상세히 후술한다. As illustrated in FIG. 6, the technical keyword recommendation apparatus 100 according to the present invention generates a co-keyword matrix using keyword-document identifier information (S11), and generates keyword-co-keyword attribute data for each keyword-co-keyword ( S12), and generates a recommended keyword candidate group for the keywords for the individual keywords (S13), and selects the recommended keywords for the individual keywords (S14). Each will be described later in detail.

도 2를 참조하면서 상기 키워드 데이터 생성 모듈(1000)을 설명한다. 상기 키워드 데이터 생성 모듈(1000)은 기반 키워드 데이터 생성 모듈(1100)과 키워드-코키워드 모듈(1200)을 포함한다. 상기 기반 키워드 데이터 생성 모듈(1100)에는 문서 데이터로부터 키워드 데이터를 생성하는 키워드 생성 모듈(1110), 생성된 키워드의 속성 데이터를 생성하는 키워드 속성 생성 모듈(1120) 및 키워드에 대한 평가 데이터를 생성하는 키워드 평가 모듈(1130)을 포함할 수 있다. 한편, 상기 키워드-코키워드 모듈(1200)은 키워드별로 코키워드를 생성하는 코키워드 생성 모듈(1210), 키워드-코키워드 쌍에 대한 속성 정보를 생성하는 키워드-코키워드 속성 생성 모듈(1220) 및 키워드-코키워드에 대한 평가 정보를 생성하는 키워드-코키워드 평가 모듈(1230)을 포함하고 있다.The keyword data generation module 1000 will be described with reference to FIG. 2. The keyword data generation module 1000 includes a base keyword data generation module 1100 and a keyword-cokeyword module 1200. The base keyword data generation module 1100 includes a keyword generation module 1110 for generating keyword data from document data, a keyword attribute generation module 1120 for generating attribute data of the generated keyword, and generating evaluation data for the keyword. The keyword evaluation module 1130 may be included. Meanwhile, the keyword-cokeyword module 1200 may include a cokeyword generation module 1210 for generating a cokeyword for each keyword, a keyword-cokeyword attribute generation module 1220 for generating attribute information for the keyword-cokeyword pair, and The keyword-cokeyword evaluation module 1230 generates evaluation information on the keyword-cokeyword.

도 2에서 예시되듯이, 상기 기반 키워드 데이터 생성 모듈(1100)의 키워드 생성 모듈(1110)은 문서의 특정 부분에 대한 형태소 분석 및 키워드 추출(S21)한 다음, 문서에 대한 대표성 높은 키워드 추출 및 키워드-문서 식별자값을 생성(S22)한다. 상기 키워드-코키워드 모듈(1200)의 코키워드 생성 모듈(1210)은 키워드-문서 식별자 정보를 사용하여 키워드-문서 식별자 행렬을 생성(S23)하고, 키워드-문서 식별자 행렬로 코키워드 매트릭스를 생성(S24)한다.As illustrated in FIG. 2, the keyword generation module 1110 of the based keyword data generation module 1100 performs stemming and keyword extraction (S21) on a specific portion of a document, and then extracts and keywords highly representative of the document. Generate a document identifier value (S22). The co-keyword generation module 1210 of the keyword-cokeyword module 1200 generates a keyword-document identifier matrix using keyword-document identifier information (S23), and generates a co-keyword matrix using the keyword-document identifier matrix ( S24).

상기 키워드 생성 모듈(1110)의 정보 처리 방법에 대해서 더욱 더 상세하게 설명한다.The information processing method of the keyword generation module 1110 will be described in more detail.

상기 키워드 생성 모듈(1110)이 처리하는 문서는 각 국가의 특허 문서, 논문 및 위키피디어와 같은 비정형 문서 등이 있다. 특허 문서에서는 특허 문서 전체 또는 발명의 명칭, 요약, 배경 기술 및 특허 청구 범위 필드 등과 같은 특허 명세서를 구성하는 특정 필드만이 대상이 될 수 있다. 논문도 제목, 요약, 결론 등과 같은 특정한 필드나 논문 전체가 될 수 있다. 상기 특허 문서는 각국 특허청이 발행하는 각 국가별 표준 언어로 된 문서도 있지만, 기계 번역을 통한 특허 문서 또는 KPA/PAJ 등과 같은 영문 초록 등도 본 발명의 특허 문서가 된다. 이하, 특허 문서를 대상으로 설명하나, 본 발명 사상은 특허 문서 뿐만 아니라, 논문이나 위키피디어 문서 등과 같은 비정형 문서에서도 적용됨은 당연할 것이다.Documents processed by the keyword generation module 1110 include patent documents, articles, and atypical documents such as Wikipedia in each country. In a patent document, only specific fields constituting the patent specification, such as the entire patent document or the name, summary, background technology, and claims fields, etc. of the invention can be targeted. The article can be a whole field or a specific field, such as title, summary, or conclusion. The patent document may be a document in a standard language for each country issued by the respective patent offices, but a patent document through machine translation or an English abstract such as KPA / PAJ may also be a patent document of the present invention. Hereinafter, the present invention will be described with reference to patent documents, but the present invention will be applicable to atypical documents such as papers and Wikipedia documents as well as patent documents.

상기 키워드 생성 모듈(1110)은 형태소 분석기 등과 같은 텍스트 처리 도구를 통하여 특허 문서에서 품사 태킹(tagging) 처리를 수행한 다음, 기 설정된 키워드 후보 추출 규칙을 사용하여 특허 문서에서 키워드 후보군을 추출한다. 키워드 후보 추출 규칙의 예는 i) 명사 또는 명사열, ii) 형용사 + 명사열, iii) 명사열+형용사+명사열, iv) 명사열+전치사+명사열, v)형용사+명사열+전치사+명사열 등이 있다. 상기 키워드 생성 모듈(1110)은 추출된 키워드 후보별로 TF/IDF 등과 같은 통상적인 키워드 선별 규칙을 적용하거나, 사전 데이터부(4510) 또는 용어 데이터부(4520) 등과 같은 언어 자원 데이터부(4500)에 조회한 다음 문서 중요도 점수를 계산한다. 문서 중요도 점수가 기 설정된 기준을 상회하거나, 문서 중요도 랭킹이 기 설정된 기준 내에 들어오는 키워드를 문서를 대표하는 키워드로 선별한다. 문서별로 n개의 키워드에 대하여, i) 문서 중요도 점수, ii) 문서의 각 필드(독립항 또는 종속항 등 세부 필드 등도 포함될 수 있다)별에서 출현 회수, 키워드의 단어수, 키워드의 문자수 등과 같은 기본적인 문서-키워드 속성도 집계되어 저장한다.The keyword generation module 1110 performs a part-of-speech tagging process on a patent document through a text processing tool such as a morpheme analyzer, and then extracts a keyword candidate group from a patent document using a predetermined keyword candidate extraction rule. Examples of keyword candidate extraction rules include: i) noun or noun string, ii) adjective + noun string, iii) noun string + adjective + noun string, iv) noun string + preposition + noun string, v) adjective + noun string + preposition + Noun strings. The keyword generation module 1110 may apply a general keyword selection rule such as TF / IDF or the like to the extracted keyword candidates or may apply the language resource data 4500 such as the dictionary data section 4510 or the term data section 4520. Look up and calculate the document importance score. Keywords whose document importance scores exceed the predetermined criteria or whose document importance ranking falls within the predetermined criteria are selected as keywords representing the documents. For n keywords per document, the basics such as: i) document importance score, ii) number of occurrences in each field of the document (which may include subfields or independent fields, etc.), number of words in the keyword, number of characters in the keyword, etc. Document-keyword attributes are also aggregated and stored.

상기와 같은 과정을 통하여 문서 식별자-키워드 매트릭스가 생성된다. 문서의 범위는 목적에 따라 i) 특정 국가내의 모든 특허 문서 또는 ii) 특정 국가 내의 제한 조건을 충족하는 특허 문서, i) 적어도 2 이상 국가의 모든 특허 문서 또는 ii) 적어도 2 이상 국가의 제한 조건을 충족하는 특허 문서가 될 수 있다. 제한 조건은 검색 키워드 제한, 시간 제한, 주체(권리자, 출원인 등) 제한, 주체 속성(기업/대기업/일정 규모 이상의 기업, 대학, 연구 기관, 개인 등) 제한, 속성 제한(거래 회수, 소송 사용, 표준 특허풀 등재, (심사관) 인용/피인용 회수 등), 기술 분야(IPC/CPC/FI/FT 등) 제한 중에서 선택되는 2 이상이 될 수 있다.Through the above process, the document identifier-keyword matrix is generated. The scope of the document, depending on the purpose, is i) any patent document in a particular country or ii) a patent document satisfying a restriction in a particular country, i) any patent document in at least two countries or ii) a restriction in at least two countries. It can be a patent document that satisfies. Constraints include search keyword restrictions, time limits, subjects (authors, applicants, etc.), subject attributes (corporate / large company / oversized companies, universities, research institutes, individuals, etc.), attribute restrictions (counts of transactions, litigation use, Standard patent pool registration, (examiner's citation / citation count, etc.), and the technical field (IPC / CPC / FI / FT, etc.) restrictions can be two or more.

예시적으로 미국 전체 특허에 대한 상기 문서 식별자-키워드 매트릭스의 형태는 하기 표 1과 같다.By way of example, the form of the document identifier-keyword matrix for all US patents is shown in Table 1 below.

KW1KW1 KW2KW2 KW3KW3 . . .. . . KWmKWm P1P1 1One 1One 1One P2P2 1One 1One 1One P3P3 1One 1One . . .. . . PnPn 1One 1One

(예시적으로 n >= 900만, m>=100만, 각 셀에서 1은 Pi에 KWj가 존재함을 의미, 빈 칸은 존재하지 않음을 의미)(E.g. n> = 9 million, m> = 1 million, 1 in each cell means that KWj exists in Pi, blank means no space)

표 1에서 X축은 키워드, Y 축은 문서 식별자가 된다.In Table 1, the X axis is a keyword and the Y axis is a document identifier.

상기 표 1과 같은 행렬 A가 있을 때 P1에는 KW1, KW2, KW3이 포함되어 있음을 알 수 있다. 이때, 키워드별 문서 중요도 등과 같은 속성 정보가 사용되면 상기 표 1과 같은 행렬은 큐브가 된다. Z 축에는 특허(Pi)만의 경우에는 특허 속성 정보(예, 시간, 주체, 속성, 기술 분야 등)가 대응되고, 키워드(KWj) 만의 경우에는 키워드 속성 정보(키워드 길이, 단어수, 특정 사전 등재 여부, 특정 사전 등재 용어 포함 여부 등)가 대응되며, (Pi, KWj)의 경우에는 KWj의 Pi에서의 키워드 속성 정보(종합적 평가 정보 포함)가 대응된다. 이때, 설명의 편의상 종합적 평가 정보만을 적용하면, 상기 표 1은 하기 표 2와 같이 1 => 실수(실수의 가장 간단한 예는 not 1인 자연수가 된다)로 변형될 수 있다.When there is a matrix A as shown in Table 1, it can be seen that P1 includes KW1, KW2, and KW3. In this case, when attribute information such as document importance of each keyword is used, the matrix shown in Table 1 becomes a cube. In the Z axis, patent attribute information (e.g., time, subject, attribute, technical field, etc.) corresponds to patent Pi only, and keyword attribute information (keyword length, number of words, specific dictionary entry) for keyword KWj only. Whether or not a specific dictionary entry term is included), and in the case of (Pi, KWj), keyword attribute information (including comprehensive evaluation information) in Pi of KWj corresponds. In this case, if only comprehensive evaluation information is applied for convenience of description, Table 1 may be transformed into 1 => real number (the simplest example of a real number becomes a natural number not 1) as shown in Table 2 below.

KW1KW1 KW2KW2 KW3KW3 . . .. . . KWmKWm P1P1 99 77 33 P2P2 88 66 44 P3P3 55 66 . . .. . . PnPn 44 55

본 발명에서는 실제 정보 처리는 표 2와 같은 행렬 또는 상기에서 설명한 큐브를 통해서 처리된다. 다만, 발명 사상의 용이한 설명을 위하여 표 2과 같이 자연수를 사용한 것을 설명한다.In the present invention, the actual information processing is processed through the matrix shown in Table 2 or the cube described above. However, for the sake of easy description of the inventive idea, it uses natural numbers as shown in Table 2.

상기 표 2와 같은 행렬을 A라 하면, 트랜스포즈(transpose) 행렬 At를 생성하면 하기 표 3과 같이 된다.If A is the matrix shown in Table 2, a transpose matrix A t is generated as shown in Table 3 below.

P1P1 P2P2 P3P3 . . .. . . PnPn KW1KW1 99 88 KW2KW2 77 55 44 KW3KW3 33 66 66 . . .. . . KWmKWm 55

이때, 상기 KW1은 P1, P2에서 존재한다. 이와 같이 KWj마다 KWj를 포함하고 있는 특허 집합 PS(KWj)이 대응된다. 상기 키워드 속성 생성 모듈(1120)은 상기 PS(KWj)를 분석하여 예시적으로하기 표 4 내지 표 5와 같은 키워드별 키워드 평가 속성 변수별 키워드 평가 속성 정보를 생성(S31)한다. 하기 표 4 내지 표 5는 예시적으로 "bluetooth low energy"라는 키워드에 대한 것이다. "bluetooth low energy"라는 키워드를 포함하고 있는 특허 집합(PS(bluetooth low energy))을 구성하는 1,232개의 특허의 집합적 속성을 분석하여 하기 표 4 내지 표 5와 같은 키워드별 키워드 평가 속성 변수별 키워드 평가 속성 정보가 생성된다.At this time, the KW1 is present in P1, P2. In this manner, the patent set PS (KWj) corresponding to KWj corresponds to each of KWj. The keyword attribute generation module 1120 analyzes the PS (KWj) and generates keyword evaluation attribute information for each keyword evaluation attribute variable as shown in Tables 4 to 5 below (S31). Tables 4 to 5 below exemplarily refer to the keyword "bluetooth low energy". Analyzes the collective attributes of 1,232 patents that constitute the patent set (PS (bluetooth low energy)) including the keyword "bluetooth low energy" and then keyword by keyword evaluation attribute variable as shown in Tables 4 to 5 below. Evaluation attribute information is generated.

하기 표 4 내지 표 5는 임의의 특허 집합에 대한 집합적 속성을 변수화하는데 사용될 수 있다.Tables 4 to 5 below can be used to variable the collective attributes for any patent set.

수평가 속성 변수 그룹Horizontal autumn attribute variable group 평가 속성 변수Evaluation attribute variable R&D 총량R & D total 총 공개된 특허수Total published patents R&D의 최근성Recent R & D 1-3년 동안 공개된 특허수No. of patents published for 1-3 years R&D의 최근성Recent R & D 비율 : 1-3년/전 기간 공개된 특허수Ratio: Number of patents published for 1-3 years / previous period R&D의 최근성Recent R & D 비율 : 1년/1-3년 공개된 특허수Ratio: 1 year / 1-3 years R&D 트렌드R & D Trend 1년전 공개된 특허수No. of patents published a year ago R&D 트렌드R & D Trend 2년전 공개된 특허수No. of patents published two years ago R&D 트렌드R & D Trend 3년전 공개된 특허수No. of patents published three years ago 자특허 거래량Own Patent Volume 합계 : 특허가 거래된 회수Total: Number of patents traded 자특허 거래의 최근성Recentness of own patent transaction 합계 : 1-3 년간 특허가 거래된 회수Total: Number of patents traded for 1-3 years 자특허 거래의 최근성Recentness of own patent transaction 비율 : 1-3년/전 기간 특허가 거래된 회수Percentage: Number of patents traded for 1-3 years / full period 자국내 특허 포트폴리오Domestic Patent Portfolio 평균 : US 패밀리 특허수(>=1)Average: US Family Patent Count (> = 1) 자국내 특허 포트폴리오Domestic Patent Portfolio 평균 : 1-2년 간 생성된 US 패밀리 특허수(>=1)Average: Number of US family patents created over 1-2 years (> = 1) 자글로벌 특허 포트폴리오Global patent portfolio 평균 : 해외 패밀리 특허수(>=1)Average: Number of overseas family patents (> = 1) 자글로벌 특허 포트폴리오Global patent portfolio 평균 : 1-2년 간 생성된 해외 패밀리 특허수Average: Number of overseas family patents created in 1-2 years 자국가별 특허 포트폴리오Patent Portfolio by Country 평균 : CN 패밀리 특허수(>=1)Average: CN Family Patent Count (> = 1) 자국가별 특허 포트폴리오Patent Portfolio by Country 평균 : 1-2년 간 생성된 CN 패밀리 특허수(>=1)Average: Number of CN Family Patents Created in 1-2 Years (> = 1) 자국가별 특허 포트폴리오Patent Portfolio by Country 평균 : EU 패밀리 특허수(>=1)Average: EU Family Patent Count (> = 1) 자국가별 특허 포트폴리오Patent Portfolio by Country 평균 : 1-2년 간 생성된 EU 패밀리 특허수(>=1)Average: Number of EU family patents created in 1-2 years (> = 1) 자국가별 특허 포트폴리오Patent Portfolio by Country 평균 : JP 패밀리 특허수(>=1)Average: Number of JP Family Patents (> = 1) 자국가별 특허 포트폴리오Patent Portfolio by Country 평균 : 1-2년 간 생성된 JP 패밀리 특허수(>=1)Average: Number of JP Family Patents created in 1-2 years (> = 1) 자국가별 특허 포트폴리오Patent Portfolio by Country 평균 : KR 패밀리 특허수(>=1)Average: KR Family Patent Count (> = 1) 자국가별 특허 포트폴리오Patent Portfolio by Country 평균 : 1-2년 간 생성된 KR 패밀리 특허수(>=1)Average: number of KR family patents created for 1-2 years (> = 1) 자권리 유지를 위한 비용 지출Expenses to maintain your rights 평균 : 연차유지기간Average: Annual maintenance period 자권리 유지를 위한 비용 지출Expenses to maintain your rights 비율 : 1-3년전 소멸된 특허 중 연차료 불납으로 소멸된 특허Ratio: Patents extinguished due to annual nonpayment among patents extinguished 1-3 years ago

수평가 속성 변수 그룹Horizontal autumn attribute variable group 평가 속성 변수Evaluation attribute variable 관심의 총량Total amount of interest 합계 : 심사관 피인용수Total: Examiner Citations 관심의 최근성Recentness of interest 합계 : 1-3 년간 심사관 피인용수Total: Examiner citations for 1-3 years 관심의 최근성Recentness of interest 비율 : 1-3년/전 기간 심사관 피인용수Ratio: 1-3 years / citation of examiners 관심의 최근성Recentness of interest 비율 : 1년/1-3년 심사관 피인용수Ratio: 1 year / 1-3 years Citation by examiner 장참자규모 속성Property Scale Attributes 평균 : 전 기간 권리자 규모Average: Size of all rights holders 장참자규모 속성Property Scale Attributes 비율 : 1-3년/전 기간 권리자 규모Ratio: 1-3 years / previous period holders' size 장참자규모 속성Property Scale Attributes 비율 : 1년/1-3년 권리자 규모Ratio: 1 year / 1-3 years 장참자비기업 참여자 속성Non-Company Participant Attributes 비율 : 대학이 현재 권리자인 특허Proportion: Patent in which the university is currently the owner 장참자비기업 참여자 속성Non-Company Participant Attributes 비율 : 연구 기관이 현재 권리자인 특허Proportion: Patent in which the research institution is currently the owner 장참자NPE(Patent Troll etc.) 참여 속성Patten Troll etc. Participant Attributes 비율 : NPE가 현재 권리자인 특허Percentage: Patents in which NPE is the current owner &연성자사의 선행 R&D에 대한 참조& Reference to ductile's preceding R & D 평균 : self 특허 레퍼런스수(>=1)Average: self patent references (> = 1) &연성자사의 선행 R&D에 대한 참조& Reference to ductile's preceding R & D 비율 : self 특허 레퍼런스가 있는 특허/자신의 전체 특허Proportion: Patent with own patent reference / own patent &연성자사의 후행 R&D에 의한 참조의 최근성Recency of references by trailing R & D 합계 : self 피인용수Total: self citations &연성자사의 후행 R&D에 의한 참조의 최근성Recency of references by trailing R & D 합계 : 1-3 년간 self 피인용수Total: self citation for 1-3 years &연성자사의 후행 R&D에 의한 참조의 최근성Recency of references by trailing R & D 비율 : 1-3년/전 기간 self 피인용수Ratio: 1-3 years / previous period self citations &연성자사의 후행 R&D에 의한 참조의 최근성Recency of references by trailing R & D 비율 : 1년/1-3년 self 피인용수Ratio: 1 year / 1-3 years self citation 쟁분쟁량Dispute 합계 : 특허가 소송에 사용된 회수Total: Number of times a patent was used in litigation 쟁분쟁의 최근성The relevance of disputes 합계 : 1-3 년간 특허가 소송에 사용된 회수Total: Number of patents used in litigation for 1-3 years 쟁분쟁의 최근성The relevance of disputes 비율 : 1-3년/전 기간 특허가 소송에 사용된 회수Ratio: 1-3 years / number of times the patent was used in litigation over the entire period 쟁분쟁의 최근성The relevance of disputes 비율 : 1년/1-3년 특허가 소송에 사용된 회수Percentage: Number of patents used in litigation for 1 year / 1-3 years 환관련 산업Ring industry 관련성이 가장 높은 WIPO IndustryMost relevant WIPO Industry 환관련 산업Ring industry 관련성이 가장 높은 WIPO Industry의 비중Share of the most relevant WIPO Industry 환관련 산업Ring industry 관련성이 두번째로 높은 WIPO IndustryThe second most relevant WIPO Industry 환관련 산업Ring industry 관련성이 두번째로 높은 WIPO Industry의 비중Share of WIPO Industry, the second most relevant 환관련 산업Ring industry 관련성이 세번째로 높은 WIPO IndustryThird most relevant WIPO Industry 환관련 산업Ring industry 관련성이 세번째로 높은 WIPO Industry의 비중WIPO Industry's share of the third most relevant 환표준Exchange standard 비율 : 표준 특허수/전체 특허Ratio: standard patents / total patents

표 4 내지 표 5에서 예시하는 바와 같이, 상기 키워드 평가 속성에는 시간 기준 키워드 평가 속성, 기업 기준 키워드 평가 속성, 연구자 기준 키워드 평가 속성, 투자 기준 키워드 평가 속성, R&D 연속성 기준 키워드 평가 속성, 관심도 기준 키워드 평가 속성 중 적어도 하나 이상을 포함하는 하위 키워드 평가 속성을 포함하는 것이 있다.As illustrated in Tables 4 to 5, the keyword evaluation attribute includes a time-based keyword evaluation attribute, an enterprise-based keyword evaluation attribute, a researcher-based keyword evaluation attribute, an investment-based keyword evaluation attribute, an R & D continuity-based keyword evaluation attribute, and an interest-based keyword. Some include lower keyword evaluation attributes including at least one of the evaluation attributes.

상기 키워드 평가 모듈(1130)은 키워드에 대한 평가 정보를 생성한다. 키워드 평가 정보는 키워드 속성 정보를 사용하여 기 설정된 평가 모델/수식/알고리즘을 적용한 평가값을 말한다. 예시적으로 상기 키워드 평가 모듈(1130)은 하기와 같은 방식으로 키워드 평가 모델을 생성할 수 있다.The keyword evaluation module 1130 generates evaluation information on the keyword. The keyword evaluation information refers to an evaluation value to which a preset evaluation model / formula / algorithm is applied using keyword attribute information. For example, the keyword evaluation module 1130 may generate a keyword evaluation model in the following manner.

상기 키워드 평가 모듈(1130)은 (KEM1) 제1 기준 시점을 기준으로 상기 키워드별 키워드 속성 정보를 독립 변수로 하는 독립 변수값을 생성하는 단계; (KEM2) 제1 기준 시점으로부터 제2 기준 시점까지의 기간을 대상으로 상기 키워드에 대한 반응 변수값(예, 키워드 빈도 증감율)을 생성하는 단계; (KEM3) 상기 반응 변수값과 상기 독립 변수값을 대상으로 기 설정된 기계 학습 알고리즘을 적용하여 모델링을 수행하여 키워드 평가 모델을 생성하는 단계를 통하여 키워드 평가 모델을 생성할 수 있다. 이어, 상기 키워드 평가 모듈(1130)은 (KEM3) 키워드 평가 모델의 적용 시점을 기준으로 키워드에 대한 독립 변수별 독립 변수값을 생성하고 (KEM5)생성된 예측 모델에 생성된 독립 변수값을 적용하는 방식으로 키워드별로 키워드 평가값을 생성할 수 있게 된다. 키워드 평가값은 평가 점수, 평가 등급 등이 될 수 있다.The keyword evaluation module 1130 may include generating an independent variable value having the keyword attribute information for each keyword as an independent variable based on a first reference time point (KEM1); (KEM2) generating a response variable value (eg, keyword frequency increase / decrease rate) for the keyword for a period from the first reference time point to the second reference time point; (KEM3) The keyword evaluation model may be generated by generating a keyword evaluation model by performing modeling by applying a preset machine learning algorithm to the response variable value and the independent variable value. Subsequently, the keyword evaluation module 1130 generates an independent variable value for each independent variable for the keyword based on the application time point of the (KEM3) keyword evaluation model and applies the generated independent variable value to the generated prediction model (KEM5). In this way, keyword evaluation values can be generated for each keyword. The keyword evaluation value may be an evaluation score, an evaluation grade, and the like.

예시적으로, 상기 키워드 평가 모듈(1130)은 "bluetooth low energy"라는 키워드에 대하여 평가 점수 99.9, 평가 등급 S를 부여할 수 있다. 평가 점수나 평가 등급을 부여할 때, 표 4 내지 표 5에 나타나 있는 "bluetooth low energy"라는 키워드에 대한 키워드 속성 평가 정보가 사용된다.For example, the keyword evaluation module 1130 may assign an evaluation score 99.9 and an evaluation grade S to a keyword “bluetooth low energy”. When assigning an evaluation score or an evaluation grade, keyword attribute evaluation information for the keyword "bluetooth low energy" shown in Tables 4 to 5 is used.

이어, 상기 키워드-코키워드 모듈(1200)의 정보 처리 방법에 대해서 설명한다.Next, an information processing method of the keyword-cokeyword module 1200 will be described.

이때, 상기 키워드-코키워드 모듈(1200)의 코키워드 생성 모듈(1210)은 At*A 처리를 통해서 키워드-코키워드 행렬(CoA)을 생성한다. 상기 표 2의 데이터와 같은 예에서, 예시적으로 (KW2, KW3)은 코키워드 관계가 된다. 그리고, (KW2, KW3)는 특히 P1, P3에 나타나며, 빈도는 2가 된다. 이때, P1, P3가 가지는 특허 속성(시간, 주체, 인용/피인용, 거래, 소송, 표준, 기술 분야 등)이 적용되면 (KW2, KW3)의 다양한 속성이 발생한다. 코키워드 (KWi, KWj)에 대응되는 특허 집합 PS(KWi,KWj)의 집합적 속성을 활용하면, (KWi, KWj)에 대하여 표 4와 같은 키워드-코키워드 속성 정보가 생성될 수 있다.At this time, the co-keyword generation module 1210 of the keyword-cokeyword module 1200 generates a keyword-cokeyword matrix CoA through A t * A processing. In the example as in the data of Table 2 above, for example, (KW2, KW3) has a co-keyword relationship. And, (KW2, KW3) is particularly shown in P1, P3, the frequency is 2. At this time, when patent attributes (time, subject, citation / citation, transaction, litigation, standard, technical field, etc.) of P1 and P3 are applied, various attributes of (KW2, KW3) occur. By using the collective attributes of the patent set PS (KWi, KWj) corresponding to the co-keywords (KWi, KWj), keyword-cokeyword attribute information as shown in Table 4 may be generated for (KWi, KWj).

본 발명의 키워드-코키워드 속성 생성 모듈(1220)은 (KWi, KWj)에 대하여 표 4 내지 표 5와 같은 키워드-코키워드별 키워드-코키워드 관계 평가 속성 정보를 생성(S32)한다. 키워드-코키워드 관계 평가 속성에는 시간 기준 관계 평가 속성, 기업 기준 관계 평가 속성, 연구자 기준 관계 평가 속성, 투자 기준 관계 평가 속성, R&D 연속성 기준 관계 평가 속성, 관심도 기준 관계 평가 속성, 관계 강도 속성 중 적어도 하나 이상을 포함하는 하위 관계 평가 속성을 포함할 수 있다.The keyword-cokeyword attribute generation module 1220 of the present invention generates keyword-cokeyword relationship evaluation attribute information for each keyword-cokeyword as shown in Tables 4 to 5 with respect to (KWi, KWj) (S32). The keyword-cokeyword relationship evaluation property includes at least one of time-based relationship evaluation property, enterprise-based relationship evaluation property, researcher-based relationship evaluation property, investment-based relationship evaluation property, R & D continuity-based relationship evaluation property, interest-based relationship evaluation property, relationship strength property. It can include sub-relationship evaluation attributes that include one or more.

한편, 상기 키워드-코키워드 평가 모듈(1230)은 키워드-코키워드 관계 속성 정보를 사용하여 기 설정된 적어도 하나 이상의 관계 평가 정보를 생성한다. 상기 키-코 관계 평가 정보의 생성은 전술한 상기 키워드 평가 모듈(1130)이 키워드에 대한 키워드 평가 정보를 생성하는 방식이 준용될 수 있다. 물론, 상기 키워드-코키워드 평가 모듈(1230)은 키-코의 빈도나 최근 n년간의 비중 등과 같은 간단하고 직관적인 평가 정보를 생성할 수도 있다.Meanwhile, the keyword-cokeyword evaluation module 1230 generates at least one or more relationship evaluation information using keyword-cokeyword relationship attribute information. In the generation of the key-nose relationship evaluation information, the above-described method of generating the keyword evaluation information for the keyword by the keyword evaluation module 1130 may apply mutatis mutandis. Of course, the keyword-cokeyword evaluation module 1230 may generate simple and intuitive evaluation information such as the frequency of key-coins or the weight of the last n years.

도 3 및 도 9를 참조하면서 본 발명의 추천 키워드 처리 모듈(2000)의 구성 및 정보 처리에 대해서 설명한다.The configuration and information processing of the recommendation keyword processing module 2000 of the present invention will be described with reference to FIGS. 3 and 9.

상기 추천 키워드 처리 모듈(2000)은 개별 키워드에 대하여 추천 키워드를 생성하는 추천 키워드 생성 모듈(2100), 추천 키워드의 속성 정보를 생성하는 추천 키워드 속성 생성 모듈(2200), 추천 키워드의 평가 정보를 생성하는 추천 키워드 평가 모듈(2300)을 포함하고 있으며, 상기 추천 키워드 처리 모듈(2000)에게 개별 키워드를 전송하고 추천 키워드 정보를 전송받는 입출력 모듈(2400)을 포함하고 있다. The recommendation keyword processing module 2000 generates a recommendation keyword generation module 2100 for generating a recommendation keyword for each individual keyword, a recommendation keyword attribute generation module 2200 for generating attribute information of the recommendation keyword, and generates evaluation information for the recommendation keyword. And a recommendation keyword evaluation module 2300, and an input / output module 2400 for transmitting the individual keyword to the recommendation keyword processing module 2000 and receiving the recommendation keyword information.

상기 추천 키워드 처리 모듈(2000)은 키워드별 코키워드 및 코키워드의 코키워드를 입수(S41)하고, 코키워드의 코키워드가 개별 키워드를 포함하는 지 비교하여 1차 탈락 코키워드의 코키워드를 선별(S42)하며, 코키워드 평가 정보, 키워드-코키워드 관계 평가 정보, 코키워드의 코키워드 평가 정보, 코키워드의 코키워드 관계 평가 정보를 입수(S43)하고, 키워드 평가 정보 및 관계 평가 정보로 2차 탈락 코키워드의 코키워드를 선별(S44)하며, 추천 키워드 후보군을 선별(S45)한다.The recommendation keyword processing module 2000 obtains a keyword for each keyword and a keyword for the keyword, S41, and compares the keyword for the first dropout keyword by comparing the keyword with the keyword. (S42), and obtains the keyword evaluation information, keyword-cokeyword relationship evaluation information, the cokeyword evaluation information of the cokeyword, the cokeyword relationship evaluation information (S43), and as keyword evaluation information and relationship evaluation information 2 The key word of the drop-out cokeyword is selected (S44), and the recommended keyword candidate group is selected (S45).

개별 키워드(Ki)가 있을 때, 개별 키워드의 코키워드는 CoA를 조회함으로써 입수할 수 있다. 개별 키워드의 코키워드(CoA(Ki))가 있을 때, n개의 코키워드CoA(Ki)j의 코키워드(CoA(Ki))마다 이들의 코키워드 CoA(CoA(Ki)j)를 생성할 수 있게 된다. 왜냐하면, 코키워드CoA(Ki)j도 전체 키워드 집합의 원소이며, 따라서, 코키워드CoA(Ki)j에 대한 코키워드들도 CoA를 통해서 입수될 수 있게 된다. 따라서, Ki가 있을 때, CoA(CoA(Ki)j)를 생성할 수 있게 되며, 이들은 원칙적으로 본 발명의 추천 키워드가 될 수 있다.When there is an individual keyword Ki, the keyword of the individual keyword can be obtained by querying CoA. When there are co-keywords (CoA (Ki)) of individual keywords, each co-keyword CoA (Ki) j of n co-keywords CoA (Ki) j can be generated. Will be. Because co-keyword CoA (Ki) j is also an element of the entire keyword set, the co-keywords for co-keyword CoA (Ki) j can also be obtained through CoA. Therefore, when Ki is present, CoA (CoA (Ki) j) can be generated, which can in principle be the recommended keyword of the present invention.

하지만, Ki에 대하여 CoA(CoA(Ki)j)를 구할 경우 CoA(CoA(Ki)j)의 개수가 너무 많게 되어, 저장 공간 비용 및 정보 수요자의 검토 비용/시간이 너무 많이 올라가는 문제점이 있다. 통상적으로 Ki에 대해서 CoA(Ki)의 개수는 n(작은 정수)~500 정도이나, CoA(CoA(Ki)j)의 개수는 n2~5002 정도가 되기 때문이다. 특히, Ki의 개수가 100만 정도 이상이면, CoA(CoA(Ki)j)의 행의 개수는 수십억 내지 수백억 행 이상이 되어 저장, 가공 및 조회 처리에 많은 비용이 들어 간다. 따라서, 이를 체계적으로 줄일 수 있는 발명 사상이 필요하다.However, when CoA (CoA (Ki) j) is obtained for Ki, the number of CoA (CoA (Ki) j) becomes too large, which leads to a problem that the storage space cost and the information consumer's review cost / time increase too much. Usually, the number of CoA (Ki) is about n (small integer) to 500 for Ki, but the number of CoA (CoA (Ki) j) is about n 2 to 500 2 . In particular, when the number of Ki is about 1 million or more, the number of CoA (CoA (Ki) j) rows may be billions to billions or more, and the cost of storing, processing, and retrieving is expensive. Therefore, there is a need for an inventive concept that can systematically reduce this.

기본적인 접근 방법은 CoA(Ki)의 개수를 줄이는 것이다. 이를 위해서 본 발명의 추천 키워드 처리 모듈(2000)의 추천 키워드 생성 모듈(2100)은 하기와 같은 알고리즘을 적용할 수 있다.The basic approach is to reduce the number of CoA (Ki). To this end, the recommendation keyword generation module 2100 of the recommendation keyword processing module 2000 of the present invention may apply the following algorithm.

첫째,i) Ki-CoA(Ki)의 빈도, 빈도의 최근성 및 빈도의 증가 속도, ii) CoA(Ki)의 키워드 속성(평가 점수 포함), iii) 키워드-코키워드 관계 평가 속성, iv) CoA(Ki)-CoA(CoA(Ki)j) 개수, 개수의 최근성 및 개수의 증가 속도 등에 기 설정된 가중치를 부여하여 CoA(Ki) 중에서 매개 CoA(Ki)인 MCoA(Ki)를 선별한다. Ki별로 선별된/축약된 매개 CoA(Ki)만으로 매개 코키워드 매트릭스(MCoA)를 생성한다. 상기 추천 키워드 생성 모듈(2100)은 MCoA*CoA와 같은 행렬 연산을 통하여 개별 키워드 Ki에 대한 CoA((MCoA(Ki))j)를 생성한다. 이러한 사상은 도 10 및 도 11에 잘 나타나 있다. 본 발명의 추천 키워드 생성 모듈(2100)은 키워드별 코키워드에 대한 키워드 평가 속성 및 키워드-코키워드 관계 평가 속성을 반영하여 키워드별 매개 키워드를 생성(S51)하고, 키워드별 매개 키워드만으로 키워드-매개 코키워드 매트릭스를 축약(S52)한다. 상기 추천 키워드 생성 모듈(2100)은 키워드-코키워드 매트릭스를 입수하고, 키워드-코키워드 매트릭스에 매개 코키워드를 반영(S61)하여, 키워드-매개 코키워드 매트릭스와 매개 키워드 반영 키워드-코키워드 매트릭스를 연산(S62)을 수행한다.First, i) the frequency of Ki-CoA (Ki), the recency of the frequency and the rate of increase of the frequency, ii) the keyword attributes of CoA (Ki) (including evaluation scores), iii) the keyword-cokeyword relationship evaluation attributes, iv) MCoA (Ki), which is a medium CoA (Ki), is selected from CoA (Ki) by assigning predetermined weights to the number of CoA (Ki) -CoA (CoA (Ki) j), the recency of the number, and the rate of increase of the number. A mediated cokeyword matrix (MCoA) is generated with only CoA (Ki) selected / abbreviated by Ki. The recommendation keyword generation module 2100 generates CoA ((MCoA (Ki)) j) for individual keywords Ki through a matrix operation such as MCoA * CoA. This idea is well illustrated in FIGS. 10 and 11. The keyword generation module 2100 of the present invention generates keyword-mediated keywords for each keyword by reflecting keyword evaluation attributes and keyword-co-keyword relationship evaluation attributes for keyword-by-keyword keywords (S51), and keyword-mediated using only keyword-specific keywords. The cokeyword matrix is abbreviated (S52). The recommended keyword generation module 2100 obtains a keyword-cokeyword matrix, reflects the mediated cokeyword in the keyword-cokeyword matrix (S61), and generates a keyword-mediated cokeyword matrix and a mediated keyword reflection keyword-cokeyword matrix. Operation S62 is performed.

둘째, 역 매핑으로 CoA(CoA(Ki)j)와 관계 평가 속성이 좋은 CoA(Ki)를 선정하는 것이다. 관계 평가 속성에는 빈도, 빈도의 최근성 등을 포함하는 시간 기준 관계 평가 속성, 기업 기준 관계 평가 속성, 연구자 기준 관계 평가 속성, 투자 기준 관계 평가 속성, R&D 연속성 기준 관계 평가 속성, 관심도 기준 관계 평가 속성, 관계 강도 속성 중 적어도 하나 이상을 포함하는 하위 관계 평가 속성이 있을 수 있다. 아울러, 키워드로서의 CoA(CoA(Ki)j)의 키워드 평가 속성을 종합적으로 고려하여 소수 CoA(Ki)를 선정하거나, CoA(Ki)의 선별 랭킹을 생성할 수 있다. 예시적으로 요약하면, i) 다수의 CoA(CoA(Ki)j)와 코키워드 관계에 있고(CoA(CoA(Ki)j)들의 관점에서는 중첩성이 높고), ii) CoA(CoA(Ki)j)들의 키워드 평가 속성이 좋으며, iii) CoA(CoA(Ki)j)들과의 코키워드 관계가 많고, 최근에 밀집해 있는 CoA(Ki)들을 선정하여 매개 키워드 MCoA(Ki)로 처리할 수 있다. 하나의 CoA(CoA(Ki)j)에 대하여 적어도 1개 이상의 매개 키워드 MCoA(Ki)가 대응될 수 있지만, 매개 키워드의 개수는 3을 넘지 않는 것이 바람직하다.Second, CoA (CoA (Ki) j) and CoA (Ki) with good relationship evaluation properties are selected as inverse mapping. Relationship evaluation properties include time-based relationship evaluation properties including frequency, recentness of frequency, enterprise-based relationship evaluation properties, researcher-based relationship evaluation properties, investment-based relationship evaluation properties, R & D continuity-based relationship evaluation properties, interest-based relationship evaluation properties There may be a subordinate relationship evaluation attribute that includes at least one of a relationship strength attribute. In addition, a small number of CoA (Ki) may be selected in consideration of the keyword evaluation attribute of CoA (CoA (Ki) j) as a keyword, or a selective ranking of CoA (Ki) may be generated. By way of example, i) is in a cokeyword relationship with a number of CoAs (CoA (Ki) j) (overlapping in terms of CoA (CoA (Ki) j)), ii) CoA (CoA (Ki) j ) Has good keyword evaluation attributes, and iii) CoA (Ki) j has a lot of co-keyword relationships, and recently clustered CoA (Ki) can be selected and processed as an intermediate keyword MCoA (Ki). . At least one medium keyword MCoA (Ki) may correspond to one CoA (CoA (Ki) j), but the number of medium keywords is preferably not more than three.

다른 방법은 CoA((MCoA(Ki))j)의 개수를 줄이는 것이다. 키워드로서의 CoA(CoA(Ki)j)의 키워드 평가 속성을 적용하여 기 설정된 기준 이상이 되는 CoA(CoA(Ki)j)만을 선별하는 것이다.Another method is to reduce the number of CoA ((MCoA (Ki)) j). By applying the keyword evaluation attribute of CoA (CoA (Ki) j) as a keyword, only CoA (CoA (Ki) j) that is higher than or equal to a predetermined criterion is selected.

이때, CoA(CoA(Ki)j)에 Ki의 표현을 포함하고 있는 경우가 발생한다. 이럴 경우, CoA(CoA(Ki)j)는 Ki의 관점에서 자명한 경우가 있을 수 있다. 이러한 자명한 경우는 배제 처리를 수행하는 것이 바람직할 것이다. 자명성의 판단은 본 발명의 추천 키워드 생성 모듈(2100)이 수행한다. 자명한 경우의 대표적인 예로는 CoA(CoA(Ki)j)와 Ki 사이에서 system, device 등과 같은 DF(document frequency) 빈도가 높은 표현(with/without전치사) 만이 차이가 나는 경우이다. 한편, 많은 경우, DF가 낮더라도 CoA(CoA(Ki)j)에 Ki가 포함되어 있는 경우라면 좋은 추천 키워드가 되기는 쉽지 않을 수 있다. 이러한 배제 처리 필요성이 높은 CoA(CoA(Ki)j)는 Ki별로 별도로 저장하여 관리하는 것이 바람직할 것이다.At this time, there occurs a case where CoA (CoA (Ki) j) includes the expression Ki. In this case, CoA (CoA (Ki) j) may be self-explanatory in terms of Ki. In such evident cases, it may be desirable to perform the exclusion process. The determination of self-explanation is performed by the recommendation keyword generation module 2100 of the present invention. A representative example of the case is a case where only a high frequency of document frequency (DF) such as system and device differs between CoA (CoA (Ki) j) and Ki (with / without preposition). On the other hand, in many cases, even if DF is low, if CoA (CoA (Ki) j) includes Ki, it may not be easy to be a good keyword. CoA (CoA (Ki) j) having a high need for such an exclusion process may be stored and managed separately for each Ki.

이어, 본 발명의 추천 키워드 속성 생성 모듈(2200)의 정보 처리 방법에 대해서 설명한다. 상기 추천 키워드 속성 생성 모듈(2200)은 추천 키워드의 속성을 생성한다. 추천 키워드의 속성은 크게 3가지 계열이 있다. 첫번째는 CoA(Ki)와 CoA(CoA(Ki)j)간의 관계 속성이다. 상기 관계 속성은 CoA(Ki)와 CoA(CoA(Ki)j)를 함께 포함하는 특허 집합인 PS(CoA(Ki), CoA(CoA(Ki)j)에 대한 속성 평가로 처리할 수 있으며, 구체적인 방법은 전술한 바와 같다. 두번째는 Ki와 CoA(Ki)의 관계 속성이다. 세번째는 CoA(CoA(Ki)j) 자체의 속성이다. 본 발명의 추천 키워드 평가 모듈(2300)은 이러한 3가지 계열의 추천 키워드 속성을 종합하여 추천 키워드의 평가 정보를 생성한다. Next, the information processing method of the recommendation keyword attribute generation module 2200 of the present invention will be described. The recommendation keyword attribute generation module 2200 generates an attribute of the recommendation keyword. There are three main categories of recommended keyword attributes. The first is the relationship attribute between CoA (Ki) and CoA (CoA (Ki) j). The relationship attribute may be treated as an attribute evaluation for PS (CoA (Ki), CoA (CoA (Ki) j), which is a patent set including CoA (Ki) and CoA (CoA (Ki) j). The method is as described above, the second is an attribute of Ki and CoA (Ki), and the third is an attribute of CoA (CoA (Ki) j) itself The recommended keyword evaluation module 2300 of the present invention is the three series. The evaluation information of the recommended keyword is generated by synthesizing the recommended keyword attributes.

이어, 상기 추천 키워드 평가 모듈(2300)이 평가 함수를 사용하여 추천 키워드 평가 정보를 처리하는 방법에 대해서 도 12를 참조하면서 설명한다. 상기 추천 키워드 평가 모듈(2300)은 코키워드 평가 정보, 키워드-코키워드 관계 평가 정보, 코키워드의 코키워드 평가 정보, 코키워드의 코키워드 관계 평가 정보에 대한 추천 규칙에 따른 추천 가중치값을 생성(S71)하고, 추천 가중치값을 적용한 추천 키워드 평가 함수를 생성(S72)하며, 개별 키워드별로 생성된 추천 키워드 후보군에 추천 키워드 평가 함수를 적용(S73)하여 추천 키워드 평가값을 기준으로 개별 키워드별 추천 키워드를 선별(S74) 처리한다.Next, a method of processing the recommended keyword evaluation information by using the evaluation keyword evaluation module 2300 will be described with reference to FIG. 12. The recommendation keyword evaluation module 2300 generates a recommendation weight value according to the recommendation rule for the co-keyword evaluation information, the keyword-co-keyword relationship evaluation information, the co-keyword evaluation information, and the co-keyword relationship evaluation information. S71), generating a recommended keyword evaluation function to which the recommended weight value is applied (S72), and applying a recommended keyword evaluation function to the recommended keyword candidate group generated for each keyword (S73) to recommend each keyword based on the recommended keyword evaluation value. The keyword is sorted (S74).

이어, 상기 추천 키워드 예측 모듈(3000)이 예측 모델을 사용하여 추천 키워드 평가 정보를 처리하는 방법에 대해서 도 13 내지 도 14를 참조하면서 설명한다. 상기 추천 키워드 예측 모듈(3000)은 변수를 생성하는 변수 생성 모듈(3100)과 모델링을 수행하는 모델링 모듈(3200) 및 모델을 적용하는 모델 적용 모듈(3300)을 포함하고 있다. 먼저 예측 모델을 생성하는 방법에 대해서 설명한다.Next, a method of processing the recommended keyword evaluation information by using the prediction keyword prediction module 3000 will be described with reference to FIGS. 13 to 14. The recommended keyword prediction module 3000 includes a variable generation module 3100 for generating a variable, a modeling module 3200 for performing modeling, and a model application module 3300 for applying a model. First, a method of generating a prediction model will be described.

상기 추천 키워드 예측 모듈(3000)은 제1 기준 시점을 기준으로 생성된 키워드-추천 키워드 데이터를 생성(S81)하고, 제1 기준 시점을 기준으로 키워드-추천 키워드의 생성에 사용되는 키워드, 코키워드, 추천 키워드 및 키워드-코키워드에 대한 독립 변수별 독립 변수값을 생성(S82)한 다음, 제1 기준 시점으로부터 제2 기준 시점까지의 기간을 대상으로 키워드-추천 키워드에 대한 반응 변수값을 생성(S83)하고, 반응 변수값과 독립 변수값을 대상으로 기계 학습 알고리즘을 적용하여 모델링을 수행하여 예측 모델을 생성(S84)한다.The recommended keyword prediction module 3000 generates keyword-recommended keyword data generated based on the first reference time point (S81), and a keyword and a co-keyword used to generate the keyword-recommended keyword based on the first reference time point. After generating the independent variable value for each of the independent variables for the recommended keyword and the keyword-cokeyword (S82), the response variable value for the keyword-recommended keyword is generated for the period from the first reference time point to the second reference time point. In operation S83, a predictive model is generated by modeling by applying a machine learning algorithm to the response variable value and the independent variable value (S84).

예를 들면, 2018년 1월 기준이라면, 제1 기준 시점은 2014년12월31일이 될 수 있으며, 제2 기준 시점은 2017년12월31일이 될 수 있다. 상기 추천 키워드 예측 모듈(3000)은 2014년12월31일을 기준으로 Ki별로 Ki-CoA(CoA(Ki)j), (매개 키워드를 사용하는 경우에는 Ki-CoA((MCoA(Ki))j))), 데이터에 대하여 독립 변수별 독립 변수값을 생성한다. 독립 변수의 예는 PS(Ki), PS(CoA(Ki)j), PS(Ki,CoA(Ki)), PS(Ki,CoA(CoA(Ki)j))에 대한 집합적 속성이 될 수 있다. PS(Ki), PS(CoA(Ki)j), PS(Ki,CoA(Ki)), PS(Ki,CoA(CoA(Ki)j))에 대한 집합적 속성의 예는 상기 표 4 내지 ㅍ 5표에 예시되어 있다.For example, as of January 2018, the first reference time point may be December 31, 2014, and the second reference time point may be December 31, 2017. The recommended keyword prediction module 3000 is Ki-CoA (CoA (Ki) j) for each Ki as of December 31, 2014, and (Ki-CoA ((MCoA (Ki)) j when each keyword is used). ))) Creates an independent variable value for each independent variable for the data. Examples of independent variables can be collective attributes for PS (Ki), PS (CoA (Ki) j), PS (Ki, CoA (Ki)), PS (Ki, CoA (CoA (Ki) j)). have. Examples of collective attributes for PS (Ki), PS (CoA (Ki) j), PS (Ki, CoA (Ki)), PS (Ki, CoA (CoA (Ki) j)) are shown in Tables 4 to 3 above. Illustrated in Table 5.

반응 변수는 2015년1월1일부터 2017년12월31일까지 Ki-CoA(CoA(Ki)j)의 존재 여부 또는 빈도가 될 수 있다. 존재 여부를 반응 변수로 할 경우에는 상기 예측 모델은 분류 모델이 되며, 빈도가 될 경우에는 상기 예측 모델은 회귀 모델(regression model)이 된다. 기계 학습 알고리즘은 부스팅(boosting) 등과 같은 앙상블 계열의 알고리즘이나, 딥러닝(deep learning)과 같은 신경망(neural network) 계열의 알고리즘을 사용할 수 있다.The response variable may be the presence or frequency of Ki-CoA (CoA (Ki) j) from January 1, 2015 to December 31, 2017. In the presence or absence of a response variable, the predictive model is a classification model, and when the frequency is a predictive model, the prediction model is a regression model. The machine learning algorithm may use an ensemble based algorithm such as boosting or a neural network based algorithm such as deep learning.

예측 모델의 테스팅은 백테스팅(back testing)을 하는 것이 가장 바람직하다. 하지만, 70% 정도의 데이터는 모델링용, 30% 정도의 데이터는 테스팅으로 사용하는 방식으로 테스팅을 할 수도 있다. 한편, 5 fold cross validation 등을 통하여 각 알고리즘마다 최적 파라미터 집합에 대한 튜닝을 할 수 있다.The testing of the predictive model is most preferably back testing. However, testing can be done by using 70% of the data for modeling and 30% of the data for testing. Meanwhile, it is possible to tune the optimal parameter set for each algorithm through 5 fold cross validation.

이어, 상기 추천 키워드 예측 모듈(3000)이 생성된 예측 모델을 적용하는 방법에 대해서 설명한다. 상기 추천 키워드 예측 모듈(3000)은 모델 적용 시점을 기준으로 키워드-추천 키워드의 생성에 사용되는 키워드, 코키워드, 추천 키워드 및 키워드-코키워드에 대한 독립 변수별 독립 변수값을 생성(S91)하고, 생성된 예측 모델에 생성된 독립 변수값을 적용하여 예측 정보를 생성(S92)한다. 상기 추천 키워드 평가 모듈(2300)은 예측 정보를 사용하여, 키워드-추천 키워드 평가 정보를 생성(S93)한다. 상기에서 모델 적용 시점의 예는 2018년 1월1일이 될 수 있다.Next, a method of applying the generated prediction model by the recommended keyword prediction module 3000 will be described. The recommended keyword prediction module 3000 generates an independent variable value for each independent variable for a keyword, a co-keyword, a recommended keyword, and a keyword-co-keyword used in generating a keyword-recommended keyword based on a model application time point (S91). In operation S92, prediction information is generated by applying the generated independent variable value to the generated prediction model. The recommended keyword evaluation module 2300 generates keyword-recommended keyword evaluation information using the prediction information (S93). An example of the time of applying the model may be January 1, 2018.

본 발명의 구현 과정에서 생성된 모든 데이터는 본 발명의 데이터부(4000)에 저장된다. 상기 데이터부(4000)에는 기술 문서 데이터(4100)를 포함하고 있는데, 기술 문서 데이터(4100)에는 특허 문서 데이터(4110) 및 논문 문서 데이터(4120) 등이 포함되고 있다. 상기 키워드 DB부(4200)에는 문서에서 추출한 키워드가 문서 식별 정보와 함께 저장되어 있는 문서-키워드 DB(4210), 키워드에 대한 속성 정보가 저장되어 있는 키워드 DB(4220), 키워드 및 그 키워드와 코키워드 관계에 있는 키워드에 관한 제반 정보가 저장되어 있는 키워드-코키워드 DB(4230), 키워드별 추천 키워드에 관한 제반 정보가 저장되어 있는 키워드-추천 키워드 DB(4240) 및 키워드 추천을 위한 규칙, 함수, 가중치 등에 대한 정책 정보가 저장되어 있는 키워드 추천 규칙 DB(4250)를 포함하고 있다. 모델 지원 DB부(4300)에는 키워드별, 키워드-코키워드별 파라미터 정보가 저장되어 있는 키워드 파라미터 DB부(4310), 키워드별, 키워드-코키워드별 메타 정보가 저장되어 있는 키워드 메타 정보 DB부(4320)가 포함되어 있다. 비기술문서 DB부(4400)에는 위키피디어나 기타 비특허, 비논문 문서 데이터가 포함되어 있다. 언어 자원 데이터부(4500)에는 번역용 사전 등과 같은 각종 사전 데이터가 포함되어 있는 사전 데이터부(4510) 및 각종 기술 분야별 용어 데이터, 일렉트로피디어, 위키피디어 표제어, 워드넷 용어 등과 같은 가 포함되어 있는 용어 데이터부(4520)가 포함되어 있다.All data generated during the implementation of the present invention is stored in the data unit 4000 of the present invention. The data unit 4000 includes technical document data 4100, and the technical document data 4100 includes patent document data 4110 and thesis document data 4120. The keyword DB unit 4200 includes a document-keyword DB 4210 in which a keyword extracted from a document is stored together with document identification information, a keyword DB 4220 in which attribute information about a keyword is stored, a keyword, and the keyword and its code. Keyword-co-keyword DB 4230, which stores general information about keywords in a keyword relationship, keyword-recommended keyword DB 4240, which stores general information on keyword-specific suggestions, and rules and functions for keyword recommendation. , Keyword recommendation rule DB 4250 that stores policy information about the weights, and the like. The model support DB unit 4300 includes a keyword parameter DB unit 4310 which stores parameter information for each keyword and keyword-co-keyword, and a keyword meta information DB unit for storing meta information for each keyword and keyword-co-keyword ( 4320). The non-technical document DB unit 4400 includes Wikipedia or other non-patent, non-thesis document data. The language resource data unit 4500 includes a dictionary data unit 4510 including various dictionary data such as a translation dictionary, and terminology data for various technical fields, such as an electronic word, a Wikipedia heading word, and a word net term. The term data portion 4520 is included.

이어, 도 15를 참조하면서 본 발명의 기술 키워드 추천 장치(100)의 기술 키워드 추천 처리 방법을 설명한다.Next, the technical keyword recommendation processing method of the technical keyword recommendation apparatus 100 of this invention is demonstrated with reference to FIG.

상기 기술 키워드 추천 장치(100)는 적어도 하나 이상의 개별 키워드를 입수(S10)하고, 입수 키워드에 대한 추천 키워드를 조회(S102)하며, 추천 키워드 리스트 및 추천 근거 정보를 입수(S103)하고, 추천 키워드 리스트 및 추천 근거 정보를 제공(S104)한다.The technical keyword recommendation apparatus 100 obtains at least one or more individual keywords (S10), inquires a recommended keyword for the obtained keyword (S102), obtains a recommended keyword list and recommendation evidence information (S103), and recommends a keyword. The list and recommendation evidence information are provided (S104).

하기 표 6는 US 특허를 기준으로 하여 개별 키워드 convex optimization에 대한 추천 키워드 정보의 예시이다. 추천 키워드를 생성하기 위하여 매개 키워드를 사용했으며, 1개의 추천 키워드에 매개 키워드 2 이상이 사용되는 경우가 다수 있다.Table 6 below is an example of recommended keyword information for individual keyword convex optimization based on US patents. In order to generate a recommended keyword, a media keyword is used, and there are many cases in which two or more media keywords are used in one recommendation keyword.

추천 키워드Suggested Keywords 추천 점수  Recommended score 추천 강도Recommended strength 추천 키워드 점수  Suggested keyword score 추천 키워드 특허수Recommended keyword patents 매개 키워드Mediated keywords 매개 키워드 점수  Mediated keyword score 매개 키워드 개수Mediated keyword count channel state information prioritychannel state information priority 90.5       90.5 1010 78.4       78.4 44 channel statechannel state 99.9       99.9 22 prioritized csiprioritized csi 90.7       90.7 1010 91.2       91.2 55 channel statechannel state 99.9       99.9 22 channel state information prioritychannel state information priority 90.5       90.5 1010 78.4       78.4 44 channel state informationchannel state information 99.9       99.9 22 prioritized csiprioritized csi 90.7       90.7 1010 91.2       91.2 55 channel state informationchannel state information 99.9       99.9 22 dmri datadmri data 91.2       91.2 1010 53.9       53.9 33 resonance imagingresonance imaging 99.9       99.9 1One app state informationapp state information 90.6       90.6 1010 79.8       79.8 88 state informationstate information 99.8       99.8 1One rm encoderrm encoder 90.0       90.0 99 60.1       60.1 44 channel statechannel state 99.9       99.9 22 available data resource elementavailable data resource element 90.4       90.4 99 58.8       58.8 33 channel statechannel state 99.9       99.9 22 qcl assumptionqcl assumption 90.1       90.1 99 93.8       93.8 1111 channel statechannel state 99.9       99.9 22 channel state information reporting modechannel state information reporting mode 90.4       90.4 99 58.6       58.6 44 channel statechannel state 99.9       99.9 22 reference signal resource setreference signal resource set 90.2       90.2 99 57.4       57.4 33 channel statechannel state 99.9       99.9 22 rm encoderrm encoder 90.0       90.0 99 60.1       60.1 44 channel state informationchannel state information 99.9       99.9 22 available data resource elementavailable data resource element 90.4       90.4 99 58.8       58.8 33 channel state informationchannel state information 99.9       99.9 22 qcl assumptionqcl assumption 90.1       90.1 99 93.8       93.8 1111 channel state informationchannel state information 99.9       99.9 22 channel state information reporting modechannel state information reporting mode 90.4       90.4 99 58.6       58.6 44 channel state informationchannel state information 99.9       99.9 22 reference signal resource setreference signal resource set 90.2       90.2 99 57.4       57.4 33 channel state informationchannel state information 99.9       99.9 22 processing circuitry setprocessing circuitry set 90.0       90.0 99 60.0       60.0 88 magnetic resonancemagnetic resonance 99.8       99.8 22 minibatchminibatch 89.6       89.6 99 58.7       58.7 44 neural networkneural network 99.9       99.9 1One input feature mapinput feature map 89.7       89.7 99 98.8       98.8 88 neural networkneural network 99.9       99.9 1One long short term memory layerlong short term memory layer 89.8       89.8 99 92.1       92.1 99 neural networkneural network 99.9       99.9 1One

하기 표 7는 US 특허를 기준으로 하여 바이오 산업 분야의 개별 키워드 genome wide association study에 대한 추천 키워드 정보의 예시이다. 추천 키워드를 생성하기 위하여 매개 키워드를 사용했으며, 1개의 추천 키워드에 매개 키워드 2 이상이 사용되는 경우가 다수 있다.Table 7 below is an example of recommended keyword information for individual keyword genome wide association study in the bio industry based on US patents. In order to generate a recommended keyword, a media keyword is used, and there are many cases in which two or more media keywords are used in one recommendation keyword.

천키드 추천 점수 Chunky referral score 추천 강도Recommended strength 추천 키워드 점수  Suggested keyword score 추천 키워드 특허수Recommended keyword patents 매개 키워드Mediated keywords 매개 키워드 점수  Mediated keyword score acenratsu 86.6 acenratsu 86.6 1010 73.7       73.7 88 copy numbercopy number 79.6       79.6 acenratsu 86.6 acenratsu 86.6 1010 73.7       73.7 88 sequence analysissequence analysis 73.8       73.8 gtnere 85.2 gtnere 85.2 99 51.4       51.4 44 large datalarge data 86.0       86.0 fo 83.9 fo 83.9 99 51.2       51.2 66 video modevideo mode 93.6       93.6 ltoooto 82.4 ltoooto 82.4 88 65.9       65.9 88 copy number variationcopy number variation 99.1       99.1 l e ylien 82.4 l e ylien 82.4 88 65.9       65.9 88 copy number variationcopy number variation 99.1       99.1 egreioi 82.4 egreioi 82.4 88 65.9       65.9 88 copy number variationcopy number variation 99.1       99.1 btifs 81.7 btifs 81.7 88 65.9       65.9 88 copy number variationcopy number variation 99.1       99.1 fnse y batpi 81.7 fnse y batpi 81.7 88 65.9       65.9 88 copy number variationcopy number variation 99.1       99.1 y batpi 81.7 y batpi 81.7 88 65.9       65.9 88 copy number variationcopy number variation 99.1       99.1 olcin f ifrnrrmtto 81.7 olcin f ifrnrrmtto 81.7 88 65.9       65.9 88 copy number variationcopy number variation 99.1       99.1 81.7       81.7 88 65.9       65.9 88 copy number variationcopy number variation 99.1       99.1 e ylien 81.7 e ylien 81.7 88 65.9       65.9 88 copy number variationcopy number variation 99.1       99.1 eeagntc rfln 81.7 eeagntc rfln 81.7 88 65.9       65.9 88 copy number variationcopy number variation 99.1       99.1 ifrnrrmtto 81.7 ifrnrrmtto 81.7 88 65.9       65.9 88 copy number variationcopy number variation 99.1       99.1 ifrnrrmttocleto 81.7 ifrnrrmttocleto 81.7 88 65.9       65.9 88 copy number variationcopy number variation 99.1       99.1 iouua 82.5 iouua 82.5 88 57.4       57.4 99 copy number variationcopy number variation 99.1       99.1 condtbsopoesnsre 82.5 condtbsopoesnsre 82.5 88 88.6       88.6 1919 data setdata set 42.1       42.1 rcsig evr condtbs 82.4 rcsig evr condtbs 82.4 88 88.6       88.6 1919 data setdata set 42.1       42.1 eoassacdt 82.9 eoassacdt 82.9 88 63.2       63.2 44 data setdata set 42.1       42.1

하기 표 8는 US 특허를 기준으로 하여 바이오 산업 분야의 개별 키워드 improving meat quality에 대한 추천 키워드 정보의 예시이다. 추천 키워드를 생성하기 위하여 매개 키워드를 사용했으며, 1개의 추천 키워드에 매개 키워드 2 이상이 사용되는 경우가 다수 있다.Table 8 below is an example of recommended keyword information for the individual keyword improving meat quality in the bio industry based on US patents. In order to generate a recommended keyword, a media keyword is used, and there are many cases in which two or more media keywords are used in one recommendation keyword.

추천 키워드Suggested Keywords 추천 점수  Recommended score 추천 강도Recommended strength 추천 키워드 점수  Suggested keyword score 추천 키워드 특허수Recommended keyword patents 매개 키워드Mediated keywords 매개 키워드 점수  Mediated keyword score 매개 키워드 개수Mediated keyword count qpcr master mixqpcr master mix 78.2       78.2 1010 50.3       50.3 66 quantitative pcrquantitative pcr 98.8       98.8 1One epigenetic variationepigenetic variation 75.6       75.6 99 53.1       53.1 55 quantitative pcrquantitative pcr 98.8       98.8 1One clinical complete remissionclinical complete remission 75.6       75.6 99 80.4       80.4 1313 quantitative pcrquantitative pcr 98.8       98.8 1One clinical partial remissionclinical partial remission 75.5       75.5 99 80.4       80.4 1313 quantitative pcrquantitative pcr 98.8       98.8 1One clinical stable diseaseclinical stable disease 75.5       75.5 99 80.4       80.4 1313 quantitative pcrquantitative pcr 98.8       98.8 1One microrna expression signaturemicrorna expression signature 75.0       75.0 88 53.1       53.1 55 mirna expressionmirna expression 89.9       89.9 1One detecting cpg methylationdetecting cpg methylation 74.7       74.7 88 56.8       56.8 1313 quantitative pcrquantitative pcr 98.8       98.8 1One detecting cpgdetecting cpg 74.3       74.3 88 51.1       51.1 1717 quantitative pcrquantitative pcr 98.8       98.8 1One droplet digital pcrdroplet digital pcr 74.2       74.2 88 62.4       62.4 1515 quantitative pcrquantitative pcr 98.8       98.8 1One level of rna expressionlevel of rna expression 74.9       74.9 88 60.2       60.2 2222 quantitative pcrquantitative pcr 98.8       98.8 1One caudal type homeoboxcaudal type homeobox 74.7       74.7 88 63.2       63.2 1212 quantitative pcrquantitative pcr 98.8       98.8 1One caudal typecaudal type 74.6       74.6 88 59.6       59.6 1212 quantitative pcrquantitative pcr 98.8       98.8 1One tbx5tbx5 74.8       74.8 88 95.6       95.6 3232 quantitative pcrquantitative pcr 98.8       98.8 1One real time methylation specific pcrreal time methylation specific pcr 74.8       74.8 88 59.0       59.0 2020 quantitative pcrquantitative pcr 98.8       98.8 1One let 7dlet 7d 73.6       73.6 77 67.4       67.4 99 mirna expressionmirna expression 89.9       89.9 1One next generation sequencing technologynext generation sequencing technology 74.1       74.1 77 50.3       50.3 1010 mirna expressionmirna expression 89.9       89.9 1One cpg methylation statuscpg methylation status 73.7       73.7 77 55.2       55.2 2121 quantitative pcrquantitative pcr 98.8       98.8 1One dna junctiondna junction 74.0       74.0 77 65.3       65.3 1919 quantitative pcrquantitative pcr 98.8       98.8 1One digital pcrdigital pcr 73.8       73.8 77 93.4       93.4 151151 quantitative pcrquantitative pcr 98.8       98.8 1One lim homeoboxlim homeobox 74.1       74.1 77 58.6       58.6 1515 quantitative pcrquantitative pcr 98.8       98.8 1One

하기 표 9는 US 특허를 기준으로 하여 IT 산업 분야의 개별 키워드 convolutional neural network에 대한 추천 키워드 정보의 예시이다. 추천 키워드를 생성하기 위하여 매개 키워드를 사용했으며, 1개의 추천 키워드에 매개 키워드 2 이상이 사용되는 경우가 다수 있다.Table 9 below is an example of recommended keyword information for individual keyword convolutional neural network in the IT industry based on US patent. In order to generate a recommended keyword, a media keyword is used, and there are many cases in which two or more media keywords are used in one recommendation keyword.

추천 키워드Suggested Keywords 추천 점수  Recommended score 추천 강도Recommended strength 추천 키워드 점수  Suggested keyword score 추천 키워드 특허수Recommended keyword patents 매개 키워드Mediated keywords 매개 키워드 점수  Mediated keyword score 매개 키워드 개수Mediated keyword count aggregated dependencyaggregated dependency 95.0       95.0 1010 73.4       73.4 1212 computer storagecomputer storage 99.5       99.5 22 candidate hotwordcandidate hotword 95.0       95.0 1010 99.1       99.1 1212 computer storagecomputer storage 99.5       99.5 22 data describing entitydata describing entity 94.2       94.2 1010 65.0       65.0 55 computer storagecomputer storage 99.5       99.5 22 respective time to liveeach time to live 94.1       94.1 1010 64.3       64.3 88 computer storagecomputer storage 99.5       99.5 22 acoustic feature of audio dataacoustic feature of audio data 94.9       94.9 1010 73.1       73.1 77 computer storagecomputer storage 99.5       99.5 22 audio data acoustic featureaudio data acoustic feature 94.9       94.9 1010 73.1       73.1 77 computer storagecomputer storage 99.5       99.5 22 aggregated dependencyaggregated dependency 95.0       95.0 1010 73.4       73.4 1212 computer storage mediumcomputer storage medium 99.9       99.9 22 candidate hotwordcandidate hotword 95.0       95.0 1010 99.1       99.1 1212 computer storage mediumcomputer storage medium 99.9       99.9 22 data describing entitydata describing entity 94.2       94.2 1010 65.0       65.0 55 computer storage mediumcomputer storage medium 99.9       99.9 22 respective time to liveeach time to live 94.1       94.1 1010 64.3       64.3 88 computer storage mediumcomputer storage medium 99.9       99.9 22 acoustic feature of audio dataacoustic feature of audio data 94.9       94.9 1010 73.1       73.1 77 computer storage mediumcomputer storage medium 99.9       99.9 22 audio data acoustic featureaudio data acoustic feature 94.9       94.9 1010 73.1       73.1 77 computer storage mediumcomputer storage medium 99.9       99.9 22 zero day malwarezero day malware 93.4       93.4 1010 64.7       64.7 77 machine learningmachine learning 100.0      100.0 1One computing resource service provider systemcomputing resource service provider system 92.5       92.5 99 59.5       59.5 88 computer storagecomputer storage 99.5       99.5 1One hardware acceleration planehardware acceleration plane 92.0       92.0 99 52.6       52.6 1111 computer storagecomputer storage 99.5       99.5 1One feature vector modelfeature vector model 91.8       91.8 99 51.9       51.9 55 feature vectorfeature vector 95.8       95.8 1One use of machine learning techniqueuse of machine learning technique 93.3       93.3 99 60.3       60.3 66 machine learningmachine learning 100.0      100.0 1One machine learning technique usemachine learning technique use 93.3       93.3 99 60.3       60.3 66 machine learningmachine learning 100.0      100.0 1One monitoring activity of software applicationmonitoring activity of software application 92.4       92.4 99 74.8       74.8 88 machine learningmachine learning 100.0      100.0 1One software application monitoring activitysoftware application monitoring activity 92.4       92.4 99 74.8       74.8 88 machine learningmachine learning 100.0      100.0 1One

본 발명은 기술 정보 산업, 연구 개발 지원 사업, 데이터 기술 산업, 텍스트 처리 산업, 인공 지능 산업 등에 광범위하게 활용할 수 있다.INDUSTRIAL APPLICABILITY The present invention can be widely used in the technology information industry, research and development support business, data technology industry, text processing industry, artificial intelligence industry and the like.

100 : 기술 키워드 추천 장치
1000 : 키워드 데이터 생성 모듈
1000 : 키워드 데이터 생성 모듈
1100 : 기반 키워드 데이터 생성 모듈
1110 : 키워드 생성 모듈
1120 : 키워드 속성 생성 모듈
1130 : 키워드 평가 모듈
1200 : 키워드-코키워드 모듈
1210 : 코키워드 생성 모듈
1220 : 키워드-코키워드 속성 생성 모듈
1320 : 모델 검증 모듈
200 : 사용자 시스템
2000 : 추천 키워드 처리 모듈
2100 : 추천 키워드 생성 모듈
220 : 추천키워드 속성 생성 모듈
2300 : 추천 키워드 평가 모듈
2310 : 키워드-코키워드 평가 모듈
2400 : 입출력 모듈
3000 : 추천 키워드 예측 모듈
3100 : 변수 생성 모듈
3110 : 독립 변수 생성 모듈
3120 : 종속 변수 생성 모듈
3200 : 모델링 모듈
3210 : 모델 생성 모듈
3300 : 모델 적용 모듈
4000 : 데이터부
4000 : 데이터부
4100 : 기술 문서 데이터
4110 : 특허 문서 데이터
4120 : 논문 문서 데이터
4200 : 키워드 DB부
4210 : 문서-키워드 DB
4220 : 키워드 DB
4230 : 키워드-코키워드 DB
4240 : 키워드-추천 키워드 DB
4250 : 키워드 추천 규칙 DB
4300 : 모델 지원 DB부
4310 : 키워드 파라미터 DB부
4320 : 키워드 메타 정보 DB부
4400 : 비기술문서 DB부
500 : 유무선 네트워크
5000 : 서비스 지원부
5100 : 통신부
5200 : 관리부
100: technology keyword recommendation device
1000: Keyword Data Generation Module
1000: Keyword Data Generation Module
1100: Based Keyword Data Generation Module
1110: keyword generation module
1120: Keyword attribute generation module
1130: keyword evaluation module
1200 keyword-cokeyword module
1210: cokeyword generation module
1220: Keyword-cokeyword attribute generation module
1320: Model Verification Module
200: user system
2000: Suggested Keyword Processing Module
2100: keyword generation module
220: recommendation keyword attribute generation module
2300: keyword suggestion module
2310 keyword-cokeyword evaluation module
2400: I / O module
3000: Suggested Keyword Prediction Module
3100: variable generation module
3110: Independent variable generation module
3120: dependent variable generation module
3200: Modeling Module
3210: Model Generation Module
3300: Model Application Module
4000: data section
4000: data section
4100: Technical document data
4110: Patent Document Data
4120: Thesis Document Data
4200 keyword DB
4210: Document-Keyword DB
4220: keyword DB
4230: keyword-cokeyword DB
4240: Keyword-Recommended Keyword DB
4250: Keyword Recommendation Rule DB
4300: DB support model
4310: Keyword parameter DB section
4320: keyword meta information DB
4400: DB of non technical documents
500: wired and wireless network
5000: Service Support Department
5100: communication unit
5200: management

Claims (9)

기술 키워드 추천 장치의 정보 처리 방법에 있어서, 상기 기술 키워드 추천 장치가
(A)문서 집합에서 생성한 키워드-문서 식별자 정보를 사용하여 코키워드 매트릭스를 생성하는 단계;
(B)상기 코키워드 매트릭스의 키워드-코키워드별로 키워드-코키워드 속성 데이터를 생성하는 단계;
(C)개별 키워드에 대하여 상기 코키워드 매트릭스 및 키워드-코키워드 속성 데이터를 사용하여 상기 키워드의 추천 키워드 후보군을 생성하는 단계; 및
(D) 상기 추천 키워드 후보군에서 상기 개별 키워드에 대한 추천 키워드를 선별하는 단계;를 포함하며,
상기 (C) 단계에서 상기 추천 키워드는 상기 개별 키워드와 코키워드 관계에 있는 적어도 하나 이상의 코키워드와 코키워드 관계에 있는 것이며,
상기 (C) 단계에서 상기 추천 키워드는 상기 개별 키워드와 코키워드 관계에 있지 아니한 것이며,
상기 코키워드 및 상기 추천 키워드는 적어도 하나 이상의 키워드 평가 속성을 가지는 것이며,
상기 키워드-코키워드는 적어도 하나 이상의 키워드-코키워드 관계 평가 속성을 가지는 것인 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.
In the information processing method of the technical keyword recommendation apparatus, the technical keyword recommendation apparatus
(A) generating a co-keyword matrix using keyword-document identifier information generated from the document set;
Generating keyword-co-keyword attribute data for each keyword-co-keyword of the co-keyword matrix;
(C) generating a recommended keyword candidate group for the keyword using the co-keyword matrix and keyword-co-keyword attribute data for each individual keyword; And
(D) selecting the recommended keyword for the individual keyword in the recommendation keyword candidate group;
In the step (C), the recommended keyword is a co-keyword relationship with at least one co-keyword having a co-keyword relationship with the individual keyword,
In the step (C), the recommended keyword is not in a co-keyword relationship with the individual keyword,
The co-keyword and the recommended keyword have at least one keyword evaluation attribute,
And the keyword-cokeyword has at least one keyword-cokeyword relationship evaluation attribute.
제1항에 있어서,
상기 키워드 평가 속성에는 시간 기준 키워드 평가 속성, 기업 기준 키워드 평가 속성, 연구자 기준 키워드 평가 속성, 투자 기준 키워드 평가 속성, R&D 연속성 기준 키워드 평가 속성, 관심도 기준 키워드 평가 속성 중 적어도 하나 이상을 포함하는 하위 키워드 평가 속성을 포함하는 것이며,
상기 키워드 평가 속성 사용하는 키워드 평가 속성값에는 상기 하위 키워드 평가 속성별 하위 키워드 속성값을 직접 사용하거나, 적어도 2 이상의 상기 하위 키워드 평가 속성값을 변수화하여 사용하거나, 목적별 모델링을 통하여 상기 하위 키워드 평가 속성값을 처리한 결과값 중 어느 하나 이상을 포함하고 있는 것이며,
상기 키워드-코키워드 관계 평가 속성에는 시간 기준 관계 평가 속성, 기업 기준 관계 평가 속성, 연구자 기준 관계 평가 속성, 투자 기준 관계 평가 속성, R&D 연속성 기준 관계 평가 속성, 관심도 기준 관계 평가 속성, 관계 강도 속성 중 적어도 하나 이상을 포함하는 하위 관계 평가 속성을 포함하는 것이며,
상기 키워드-코키워드 관계 평가 속성 사용하는 관계 평가 속성값에는 상기 하위 관계 평가 속성별 하위 관계 속성값을 직접 사용하거나, 적어도 2 이상의 상기 하위 관계 평가 속성값을 변수화하여 사용하거나, 목적별 모델링을 통하여 상기 하위 관계 평가 속성값을 처리한 결과값 중 어느 하나 이상을 포함하고 있는 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.,
The method of claim 1,
The keyword evaluation attribute may include a sub-keyword including at least one of a time-based keyword evaluation attribute, an enterprise-based keyword evaluation attribute, a researcher-based keyword evaluation attribute, an investment-based keyword evaluation attribute, an R & D continuity-based keyword evaluation attribute, and an interest-based keyword evaluation attribute. Contains an evaluation attribute,
The keyword evaluation attribute value used for the keyword evaluation attribute may be directly used by the sub-keyword attribute value for each of the sub-keyword evaluation attributes, or by using at least two or more of the sub-keyword evaluation attribute values in a variable manner, or by evaluating the sub-keywords through purpose-specific modeling. Contains at least one of the result of processing the attribute value,
The keyword-cokeyword relationship evaluation property includes time-based relationship evaluation property, company-based relationship evaluation property, researcher-based relationship evaluation property, investment-based relationship evaluation property, R & D continuity-based relationship evaluation property, interest-based relationship evaluation property, and relationship strength property. Includes child relationship evaluation attributes that include at least one,
The sub-attribute attribute value for each of the sub-relationship evaluation attributes is directly used for the relationship-assessment attribute value using the keyword-co-keyword relationship evaluation attribute, or at least two or more sub-relation evaluation attribute values are used, or through purpose-based modeling. And an information processing method of the technical keyword recommendation apparatus, wherein any one or more of the result values of the sub-relationship evaluation attribute values are included.
제2항에 있어서,
상기 키워드 평가 속성에는 상기 키워드가 포함되어 있는 키워드-문서 집합의 평가 속성을 포함하는 것인 것이며,
상기 키워드-코키워드 평가 속성에는 상기 키워드-코키워드별로 상기 키워드와 상기 코키워드가 모두 포함되어 있는 키워드-코키워드-문서 집합의 평가 속성을 포함하는 것인 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.,
The method of claim 2,
The keyword evaluation attribute is to include the evaluation attribute of the keyword-document set that includes the keyword,
The keyword-co-keyword evaluation attribute includes information about a keyword-co-keyword-document evaluation attribute including both the keyword and the co-keyword for each keyword-co-keyword. Treatment method.,
제2항에 있어서,
상기 (D) 단계는
상기 키워드 평가 속성값 및 상기 키워드-코키워드 관계 평가 속성값을 추천 키워드 평가 함수로 처리하는 제1 방법 및
상기 키워드 평가 속성값 및 상기 키워드-코키워드 관계 평가 속성값을 예측 모델로 처리하는 제2 방법 중 어느 하나 이상의 방법으로 수행되는 것인 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.
The method of claim 2,
Step (D) is
A first method of processing the keyword evaluation attribute value and the keyword-cokeyword relationship evaluation attribute value with a recommended keyword evaluation function; and
And the second method of processing the keyword evaluation attribute value and the keyword-cokeyword relationship evaluation attribute value as a prediction model.
제2항에 있어서,
상기 (D) 단계는
상기 추천 키워드를 구성하는 문자열이 상기 키워드를 포함하고 있는 경우, 상기 추천 키워드를 배제하는 방식으로 처리되는 것인 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.
The method of claim 2,
Step (D) is
And when the character string constituting the recommendation keyword includes the keyword, it is processed in a manner of excluding the recommendation keyword.
제2항에 있어서,
상기 (A) 단계에서,
상기 코키워드는 적어도 하나 이상의 키워드 평가 속성값을 가지는 것이며,
상기 코키워드 매트릭스는 상기 코키워드에 대한 코키워드 평가 속성값이 기 설정된 기준 이상을 초과하는 코키워드만으로 구성되는 것인 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.
The method of claim 2,
In the step (A),
The cokeyword has at least one keyword evaluation attribute value,
The co-keyword matrix is an information processing method of a technology keyword recommendation apparatus, characterized in that the co-keyword evaluation attribute value for the co-keyword is composed of only the co-keyword exceeding a predetermined criterion.
제4항에 있어서,
(A1) 상기 코키워드 매트릭스를 가공하여 매개 코키워드 매트릭스를 생성하고 상기 생성된 매개 코키워드 매트릭스를 사용하여 상기 (B)단계를 실행하는 단계;를 더 포함하며,
상기 코키워드 매트릭스를 가공하여 매개 코키워드 매트릭스를 생성하는 것은
(A11) 키워드별로 코키워드에 대한 키워드 평가 속성 및 키워드-코키워드 관계 평가 속성을 반영하여 매개 키워드를 생성하는 단계; 및
(A12) 상기 매개 키워드만으로 상기 키워드-매개 코키워드 매트릭스를 축약하는 단계;를 포함하는 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.
The method of claim 4, wherein
(A1) processing the co-keyword matrix to generate an intermediate co-keyword matrix and performing step (B) using the generated intermediate co-keyword matrix;
Processing the cokeyword matrix to generate an intermediate cokeyword matrix
Generating an intermediate keyword by reflecting a keyword evaluation attribute and a keyword-cokeyword relationship evaluation attribute for the keyword for each keyword; And
(A12) shortening the keyword-mediated co-keyword matrix using only the mediated keyword.
제4항에 있어서,
상기 키워드 평가 속성값 및 상기 키워드-코키워드 관계 평가 속성값을 예측 모델로 처리하는 방법은
(E1) 제1 기준 시점을 기준으로 생성된 키워드-추천 키워드 데이터를 생성하는 단계;
(E2) 상기 제1 기준 시점을 기준으로 상기 키워드-추천 키워드의 생성에 사용되는 상기 키워드, 상기 코키워드, 상기 추천 키워드 및 상기 키워드-코키워드 중 적어도 어느 하나 이상에 대한 독립 변수별 독립 변수값을 생성하는 단계;
(E3) 상기 제1 기준 시점으로부터 제2 기준 시점까지의 기간을 대상으로 상기 키워드-추천 키워드에 대한 반응 변수값을 생성하는 단계;
(E4) 상기 반응 변수값과 상기 독립 변수값을 대상으로 기 설정된 기계 학습 알고리즘을 적용하여 모델링을 수행하여 예측 모델을 생성하는 단계;
(E5) 모델 적용 시점을 기준으로 상기 키워드-추천 키워드의 생성에 사용되는 상기 키워드, 상기 코키워드, 상기 추천 키워드 및 상기 키워드-코키워드 중 적어도 어느 하나 이상에 대한 독립 변수별 독립 변수값을 생성하는 단계;
(E6) 상기 생성된 예측 모델에 상기 (E5) 단계에서 생성된 독립 변수값을 적용하여 예측 정보를 생성하는 단계; 및
(E7) 상기 예측 정보를 사용하여, 상기 키워드-추천 키워드 평가 정보를 생성하는 단계;를 포함하는 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.
The method of claim 4, wherein
The method for processing the keyword evaluation attribute value and the keyword-cokeyword relationship evaluation attribute value as a prediction model
(E1) generating keyword-recommended keyword data generated based on the first reference time point;
(E2) independent variable values for each independent variable for at least one of the keyword, the co-keyword, the recommended keyword, and the keyword-co-keyword used to generate the keyword-recommended keyword based on the first reference time point Generating a;
(E3) generating a response variable value for the keyword-recommended keyword for a period from the first reference time point to the second reference time point;
(E4) generating a predictive model by performing modeling by applying a preset machine learning algorithm to the response variable value and the independent variable value;
(E5) generate independent variable values for each independent variable for at least one of the keyword, the co-keyword, the recommended keyword, and the keyword-co-keyword used to generate the keyword-recommended keyword based on a model application time point Doing;
(E6) generating prediction information by applying the independent variable value generated in the step (E5) to the generated prediction model; And
(E7) generating the keyword-recommended keyword evaluation information by using the prediction information.
제1항 내지 제8항의 방법 중 어느 하나의 방법을 실시하는 것을 특징으로 하는 기술 키워드 추천 장치.
A technical keyword recommendation apparatus according to any one of claims 1 to 8, which is implemented.
KR1020180011377A 2018-01-30 2018-01-30 Device and method on recommendatation of technolgy terms with cooccurence potential KR102515655B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180011377A KR102515655B1 (en) 2018-01-30 2018-01-30 Device and method on recommendatation of technolgy terms with cooccurence potential

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180011377A KR102515655B1 (en) 2018-01-30 2018-01-30 Device and method on recommendatation of technolgy terms with cooccurence potential

Publications (2)

Publication Number Publication Date
KR20190092055A true KR20190092055A (en) 2019-08-07
KR102515655B1 KR102515655B1 (en) 2023-03-30

Family

ID=67621700

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180011377A KR102515655B1 (en) 2018-01-30 2018-01-30 Device and method on recommendatation of technolgy terms with cooccurence potential

Country Status (1)

Country Link
KR (1) KR102515655B1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070084004A (en) 2004-11-05 2007-08-24 가부시키가이샤 아이.피.비. Keyword extracting device
KR20100068532A (en) 2008-12-15 2010-06-24 한국전자통신연구원 Apparatus and method for keyword extraction and associative word network configuration of document data
KR20130091392A (en) * 2012-02-08 2013-08-19 숭실대학교산학협력단 Apparatus and method for recommending keyword
KR20130125999A (en) * 2012-05-10 2013-11-20 경북대학교 산학협력단 A method and an apparatus of keyword extraction and a communication assist device
KR101507521B1 (en) 2014-03-31 2015-03-31 주식회사 솔샘넷 Method and apparatus for classifying automatically IPC and recommending F-Term

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070084004A (en) 2004-11-05 2007-08-24 가부시키가이샤 아이.피.비. Keyword extracting device
KR20100068532A (en) 2008-12-15 2010-06-24 한국전자통신연구원 Apparatus and method for keyword extraction and associative word network configuration of document data
KR20130091392A (en) * 2012-02-08 2013-08-19 숭실대학교산학협력단 Apparatus and method for recommending keyword
KR20130125999A (en) * 2012-05-10 2013-11-20 경북대학교 산학협력단 A method and an apparatus of keyword extraction and a communication assist device
KR101507521B1 (en) 2014-03-31 2015-03-31 주식회사 솔샘넷 Method and apparatus for classifying automatically IPC and recommending F-Term

Also Published As

Publication number Publication date
KR102515655B1 (en) 2023-03-30

Similar Documents

Publication Publication Date Title
Mowlaei et al. Aspect-based sentiment analysis using adaptive aspect-based lexicons
Tang et al. Patentminer: topic-driven patent analysis and mining
Bagheri et al. Care more about customers: Unsupervised domain-independent aspect detection for sentiment analysis of customer reviews
US8543533B2 (en) Inferring influence and authority
US20190392035A1 (en) Information object extraction using combination of classifiers analyzing local and non-local features
Kim et al. Enriching text representation with frequent pattern mining for probabilistic topic modeling
Mousavi Nejad et al. Establishing a strong baseline for privacy policy classification
JP6061337B2 (en) Rule generation device and extraction device
US11574287B2 (en) Automatic document classification
KR20130108503A (en) Ascribing actionable attributes to data that describes a personal identity
Deng et al. Exploring and inferring user–user pseudo‐friendship for sentiment analysis with heterogeneous networks
Linton et al. An extension to a DEA support system used for assessing R&D projects
Chakraborty et al. A network based stratification approach for summarizing relevant comment tweets of news articles
TWI254880B (en) Method for classifying electronic document analysis
CN105511869A (en) Demand tracking system and method based on user feedback
Chen et al. Automated chat transcript analysis using topic modeling for library reference services
Tazibt et al. Latent Dirichlet allocation-based temporal summarization
Qiu et al. CLDA: An effective topic model for mining user interest preference under big data background
Cho et al. Topic category analysis on twitter via cross-media strategy
CN115062135B (en) Patent screening method and electronic equipment
KR101658890B1 (en) Method for online evaluating patents
KR101456187B1 (en) Method for evaluating patents based on complex factors
Song et al. Detecting positive opinion leader group from forum
Zhuo Consumer demand behavior mining and product recommendation based on online product review mining and fuzzy sets
KR101456189B1 (en) Method for evaluating patents using engine and evaluation server

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right