KR102403168B1 - Method for calculating for weight score of word ussing sub-importance - Google Patents

Method for calculating for weight score of word ussing sub-importance Download PDF

Info

Publication number
KR102403168B1
KR102403168B1 KR1020200021481A KR20200021481A KR102403168B1 KR 102403168 B1 KR102403168 B1 KR 102403168B1 KR 1020200021481 A KR1020200021481 A KR 1020200021481A KR 20200021481 A KR20200021481 A KR 20200021481A KR 102403168 B1 KR102403168 B1 KR 102403168B1
Authority
KR
South Korea
Prior art keywords
word
importance
patent document
calculating
detailed
Prior art date
Application number
KR1020200021481A
Other languages
Korean (ko)
Other versions
KR20210039909A (en
Inventor
박상준
김도언
Original Assignee
(주)디앤아이파비스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020190122095A external-priority patent/KR102085216B1/en
Application filed by (주)디앤아이파비스 filed Critical (주)디앤아이파비스
Priority to KR1020200021481A priority Critical patent/KR102403168B1/en
Publication of KR20210039909A publication Critical patent/KR20210039909A/en
Application granted granted Critical
Publication of KR102403168B1 publication Critical patent/KR102403168B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

단어의 중요도 스코어 산출 방법이 제공된다. 상기 단어의 중요도 스코어 산출 방법은 서버가, 대상특허문서로부터 중요도 스코어의 산출 대상이 되는 단어를 획득하는 단계; 상기 서버가, 전체 특허문서에서의 상기 단어의 제1 세부 중요도, 상기 대상특허문서의 기술분야정보에 대응되는 특허분류정보에서의 상기 단어의 제2 세부 중요도 및 상기 전체 특허문서 중 상기 단어가 포함된 검색특허문서의 제3 세부 중요도 하나 이상의 세부 중요도를 산출하는 단계; 및 상기 서버가, 상기 제1 세부 중요도, 상기 제2 세부 중요도 및 상기 제3 세부 중요도 중 하나 이상에 기초하여 상기 단어의 상기 중요도 스코어를 산출하는 단계를 포함한다.A method for calculating the importance score of a word is provided. The method for calculating the importance score of the word includes, by a server, obtaining a word, which is a target for calculating the importance score, from a target patent document; The server includes the first detailed importance of the word in the entire patent document, the second detailed importance of the word in the patent classification information corresponding to the technical field information of the target patent document, and the word in the entire patent document calculating at least one specific importance of a third specific importance of the searched patent document; and calculating, by the server, the importance score of the word based on one or more of the first detailed importance, the second detailed importance, and the third detailed importance.

Description

세부 중요도를 이용하여 단어의 중요도 스코어 산출 방법{Method for calculating for weight score of word ussing sub-importance}{Method for calculating for weight score of word using sub-importance}

본 발명은 단어의 중요도 스코어 산출 방법, 장치 및 컴퓨터프로그램에 관한 것이다. The present invention relates to a method, apparatus and computer program for calculating the importance score of a word.

최근 인터넷을 중심으로 방대한 양의 정보가 유입되고 있고, 스마트 폰 등 휴대용 기기의 소지자가 증가함에 따라 많은 양의 정보 중 필요한 정보만을 획득하는 기술이 주목되고 있다. 이를 위해, 다양한 전자 문서들의 단어 중 핵심 단어만을 추출하는 기술이 연구되고 있다.Recently, a vast amount of information is flowing mainly through the Internet, and as the number of owners of portable devices such as smart phones increases, a technology for acquiring only necessary information among a large amount of information is attracting attention. To this end, a technology for extracting only key words among words of various electronic documents is being studied.

종래의 단어 추출 기술은 핵심 내용을 포함하는 단어를 추출하는 방식과 문서의 구조나 어휘를 바꾸어 문서를 재구성하는 방법이 존재한다. 이러한 종래 단어 추출 기술은 단어를 추출하는데에 몇 가지 단점을 가지고 있다. Conventional word extraction technology includes a method of extracting a word including a core content and a method of reconstructing a document by changing the structure or vocabulary of the document. This conventional word extraction technique has several disadvantages in extracting words.

예를 들어, 종래 단어 추출 기술은 단순히, 검색된 여러 문서들 중에서 공통적으로 다루고 있는 단어를 추출하거나, 해당 문서에서 자주 사용되는 단어들만을 추출하고 있다. 이에 따라, 종래 단어 추출 기술은 문서의 내용에 따른 특정 분야에서 빈번히 사용되기는 하나 큰 의미를 가지고 있지 않은 단어까지 추출되는 문제점이 있다.For example, the conventional word extraction technology simply extracts a commonly handled word from among several searched documents or extracts only frequently used words in a corresponding document. Accordingly, the conventional word extraction technology has a problem in that even words that are frequently used in a specific field according to the content of the document but do not have a great meaning are extracted.

따라서, 문서 내에 빈번히 반복되더라고 의미상 중요도가 낮은 단어는 추출하지 않고, 주요 핵심 내용을 포함하는 단어들을 문서로부터 추출할 수 있는 단어 추출 기술이 요구되고 있다.Accordingly, there is a need for a word extraction technology capable of extracting words including main core contents from a document without extracting words with low semantic importance even if they are frequently repeated in a document.

공개특허공보 제10-2017-0142526호, 2017.12.28Laid-open Patent Publication No. 10-2017-0142526, 2017.12.28

본 발명이 해결하고자 하는 과제는 대상특허문서에 포함된 단어의 중요도 스코어를 산출할 수 있는 단어의 중요도 스코어 산출 방법, 장치 및 컴퓨터프로그램을 제공하는 것이다.SUMMARY OF THE INVENTION An object of the present invention is to provide a method, apparatus and computer program for calculating the importance score of a word capable of calculating the importance score of a word included in a target patent document.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The problems to be solved by the present invention are not limited to the problems mentioned above, and other problems not mentioned will be clearly understood by those skilled in the art from the following description.

상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 단어의 중요도 스코어 산출 방법은 서버가, 대상특허문서로부터 중요도 스코어의 산출 대상이 되는 단어를 획득하는 단계; 상기 서버가, 전체 특허문서에서의 상기 단어의 제1 세부 중요도, 상기 대상특허문서의 기술분야정보에 대응되는 특허분류정보에서의 상기 단어의 제2 세부 중요도 및 상기 전체 특허문서 중 상기 단어가 포함된 검색특허문서의 제3 세부 중요도 하나 이상의 세부 중요도를 산출하는 단계; 및 상기 서버가, 상기 제1 세부 중요도, 상기 제2 세부 중요도 및 상기 제3 세부 중요도 중 하나 이상에 기초하여 상기 단어의 상기 중요도 스코어를 산출하는 단계를 포함한다.According to an aspect of the present invention, there is provided a method for calculating an importance score of a word for solving the above-described problem, the method comprising: acquiring, by a server, a word to be calculated an importance score from a target patent document; The server includes the first detailed importance of the word in the entire patent document, the second detailed importance of the word in the patent classification information corresponding to the technical field information of the target patent document, and the word in the entire patent document calculating at least one specific importance of a third specific importance of the searched patent document; and calculating, by the server, the importance score of the word based on one or more of the first detailed importance, the second detailed importance, and the third detailed importance.

바람직하게, 상기 단어의 세부 중요도를 산출하는 단계는 상기 전체 특허문서의 전체 단어수 대비 상기 전체 특허문서에서의 상기 단어의 출현횟수의 제1 출현비율 및 상기 전체 특허문서의 전체 문장수 대비 상기 전체 특허문서의 문장 중에서 상기 단어가 출현된 출현 문장수의 제2 출현비율에 기초하여 상기 제1 세부 중요도를 산출하는 단계를 포함할 수 있다.Preferably, the calculating of the detailed importance level of the word comprises: a first appearance ratio of the number of appearances of the word in the entire patent document compared to the total number of words in the entire patent document, and the total number of sentences in the entire patent document The method may include calculating the first detailed importance level based on a second appearance ratio of the number of appearance sentences in which the word appears in the sentences of the patent document.

바람직하게, 상기 제1 세부 중요도를 산출하는 단계는 하기의 수학식을 이용하여 상기 제1 세부 중요도를 산출하는 단계를 포함할 수 있다.Preferably, the calculating of the first detailed importance may include calculating the first detailed importance using the following equation.

<수학식><Equation>

Figure 112020018611531-pat00001
Figure 112020018611531-pat00001

여기서, 상기 W1은 제1 세부 중요도이고, 상기 wpw은 상기 전체 특허문서에서의 상기 단어의 출현횟수이고, 상기 WPW은 전체 특허문서의 전체 단어수이고, 상기 wps은 상기 전체 특허문서의 문장 중에서 상기 단어가 출현된 출현 문장수이고, 상기 WPS은 상기 전체 특허문서의 전체 문장수이고, 상기 a1은 상기 제2 출현비율의 조절 상수이다.Here, W 1 is the first detailed importance level, the wpw is the number of appearances of the word in the entire patent document, the WPW is the total number of words in the entire patent document, and the wps is the total number of words in the entire patent document. is the number of sentences in which the word appears, the WPS is the total number of sentences in the entire patent document, and a1 is an adjustment constant of the second appearance ratio.

바람직하게, 상기 단어의 세부 중요도를 산출하는 단계는 상기 특허분류정보의 전체 단어수 대비 상기 특허분류정보에서의 상기 단어의 출현횟수의 제3 출현비율 및 상기 전체 특허문서의 전체 문장수 대비 상기 전체 특허문서의 문장 중에서 상기 단어가 출현된 출현 문장수의 제4 출현비율에 기초하여 상기 제2 세부 중요도를 산출하는 단계를 포함할 수 있다.Preferably, the calculating of the detailed importance of the word includes a third appearance ratio of the number of appearances of the word in the patent classification information compared to the total number of words in the patent classification information and the total number of sentences in the entire patent document The method may include calculating the second detailed importance level based on a fourth appearance ratio of the number of appearance sentences in which the word appears in the sentences of the patent document.

바람직하게, 상기 제2 세부 중요도를 산출하는 단계는 하기의 수학식을 이용하여 상기 제2 세부 중요도를 산출하는 단계를 포함할 수 있다.Preferably, the calculating of the second detailed importance level may include calculating the second detailed importance level using the following equation.

<수학식><Equation>

Figure 112020018611531-pat00002
Figure 112020018611531-pat00002

여기서, 상기 W2은 제2 세부 중요도이고, 상기 ipcw은 상기 특허분류정보에서의 상기 단어의 출현횟수이고, 상기 IPCW은 특허분류정보의 전체 단어수이고, 상기 ipcs은 상기 전체 특허문서의 문장 중에서 상기 단어가 출현된 출현 문장수이고, 상기 IPCS은 상기 전체 특허문서의 전체 문장수이고, 상기 a2은 상기 제4 출현비율의 조절 상수이다.Here, W 2 is the second detailed importance level, the ipcw is the number of appearances of the word in the patent classification information, the IPCW is the total number of words in the patent classification information, and the ipcs is the total number of words in the patent classification information. The number of occurrence sentences in which the word appears, the IPCS is the total number of sentences in the entire patent document, and a2 is the adjustment constant of the fourth occurrence ratio.

바람직하게, 상기 단어의 세부 중요도를 산출하는 단계는 상기 검색특허문서 각각의 참조 정보에 기초하여 상기 검색특허문서 각각의 영향력 값을 산출하고, 상기 영향력 값을 이용하여 상기 검색특허문서의 제3 세부 중요도를 산출하는 단계를 포함할 수 있다.Preferably, the calculating of the detailed importance of the word includes calculating an influence value of each of the searched patent documents based on the reference information of each of the searched patent documents, and using the influence value, the third detail of the searched patent document It may include calculating the importance.

바람직하게, 상기 단어의 상기 중요도 스코어를 산출하는 단계는 상기 제1 세부 중요도, 상기 제2 세부 중요도 및 상기 제3 세부 중요도 중 복수를 합산하여 상기 중요도 스코어로 산출하는 단계를 포함할 수 있다.Preferably, the calculating of the importance score of the word may include calculating the importance score by summing a plurality of among the first detailed importance level, the second detailed importance level, and the third detailed importance level.

바람직하게, 상기 중요도 스코어의 산출 대상이 되는 단어를 획득하는 단계는 상기 대상특허문서에 포함된 단어 중 불용어로 설정된 단어를 상기 중요도 스코어의 산출 대상이 되는 단어에서 제외시키는 단계를 포함할 수 있다.Preferably, the step of obtaining the word to be calculated of the importance score may include excluding a word set as a stop word among words included in the target patent document from the word to be calculated of the importance score.

상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 단어의 중요도 스코어 산출 장치는 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함할 수 있다. In accordance with one aspect of the present invention for solving the above problems, an apparatus for calculating a word importance score includes: a memory for storing one or more instructions; and a processor executing the one or more instructions stored in the memory.

바람직하게, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로 써, 상기 단어의 중요도 스코어 산출 방법을 수행할 수 있다.Preferably, the processor may execute the method of calculating the importance score of the word by executing the one or more instructions.

상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 단어의 중요도 스코어 산출 컴퓨터프로그램은 하드웨어인 컴퓨터와 결합되어, 단어의 중요도 스코어 산출 방법을 수행할 수 있도록 컴퓨터에서 독출가능한 기록매체에 저장될 수 있다The computer program for calculating the importance score of a word according to an aspect of the present invention for solving the above-described problem may be stored in a computer-readable recording medium so as to be combined with a computer which is hardware, and to perform the method for calculating the importance score of a word. have

본 발명은 전체 특허문서, 특허분류정보 및 검색특허문서 각각에서 특정 단어에 대한 세부 중요도를 산출하여 단어의 중요도 스코어 산출함으로써 중요도 스코어를 세분화하여 정확하게 산출할 수 있다.According to the present invention, the importance score can be subdivided and accurately calculated by calculating the specific importance of a specific word in each of the entire patent document, the patent classification information, and the search patent document and calculating the importance score of the word.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.Effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the following description.

도 1은 본 발명의 일 실시예에 따른 시스템을 설명하기 위한 예시도이다.
도 2는 본 발명의 일 실시예에 따른 대상특허문서로부터 중요도 스코어의 산출 대상이 되는 단어를 획득하는 방법을 설명하기 위한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 단어의 제1 세부 중요도를 산출하는 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 단어의 제2 세부 중요도를 산출하는 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 단어의 제3 세부 중요도를 산출하는 방법을 설명하기 위한 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 단어의 중요도 스코어를 산출하는 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 일 실시예에 따른 단어의 중요도 스코어 산출 장치의 구성도이다.
1 is an exemplary diagram for explaining a system according to an embodiment of the present invention.
2 is a flowchart for explaining a method of obtaining a word, which is a calculation target of an importance score, from a target patent document according to an embodiment of the present invention.
3 is a flowchart illustrating a method of calculating a first detailed importance level of a word according to an embodiment of the present invention.
4 is a flowchart illustrating a method of calculating a second detailed importance level of a word according to an embodiment of the present invention.
5 is a flowchart illustrating a method of calculating a third detailed importance level of a word according to an embodiment of the present invention.
6 is a flowchart illustrating a method of calculating an importance score of a word according to an embodiment of the present invention.
7 is a block diagram of an apparatus for calculating an importance score of a word according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. Advantages and features of the present invention and methods of achieving them will become apparent with reference to the embodiments described below in detail in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, and only the present embodiments allow the disclosure of the present invention to be complete, and those of ordinary skill in the art to which the present invention pertains. It is provided to fully understand the scope of the present invention to those skilled in the art, and the present invention is only defined by the scope of the claims.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.The terminology used herein is for the purpose of describing the embodiments and is not intended to limit the present invention. In this specification, the singular also includes the plural unless specifically stated otherwise in the phrase. As used herein, “comprises” and/or “comprising” does not exclude the presence or addition of one or more other components in addition to the stated components. Like reference numerals refer to like elements throughout, and "and/or" includes each and every combination of one or more of the recited elements. Although "first", "second", etc. are used to describe various elements, these elements are not limited by these terms, of course. These terms are only used to distinguish one component from another. Accordingly, it goes without saying that the first component mentioned below may be the second component within the spirit of the present invention.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.Unless otherwise defined, all terms (including technical and scientific terms) used herein will have the meaning commonly understood by those of ordinary skill in the art to which this invention belongs. In addition, terms defined in a commonly used dictionary are not to be interpreted ideally or excessively unless specifically defined explicitly.

명세서에서 사용되는 "부" 또는 “모듈”이라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부" 또는 “모듈”은 어떤 역할들을 수행한다. 그렇지만 "부" 또는 “모듈”은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부" 또는 “모듈”은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부" 또는 “모듈”은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부" 또는 “모듈”들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부" 또는 “모듈”들로 결합되거나 추가적인 구성요소들과 "부" 또는 “모듈”들로 더 분리될 수 있다.As used herein, the term “unit” or “module” refers to a hardware component such as software, FPGA, or ASIC, and “unit” or “module” performs certain roles. However, “part” or “module” is not meant to be limited to software or hardware. A “unit” or “module” may be configured to reside on an addressable storage medium or to reproduce one or more processors. Thus, as an example, “part” or “module” refers to components such as software components, object-oriented software components, class components and task components, processes, functions, properties, Includes procedures, subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays, and variables. Components and functionality provided within “parts” or “modules” may be combined into a smaller number of components and “parts” or “modules” or as additional components and “parts” or “modules”. can be further separated.

공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 하나의 구성요소와 다른 구성요소들과의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용시 또는 동작시 구성요소들의 서로 다른 방향을 포함하는 용어로 이해되어야 한다. 예를 들어, 도면에 도시되어 있는 구성요소를 뒤집을 경우, 다른 구성요소의 "아래(below)"또는 "아래(beneath)"로 기술된 구성요소는 다른 구성요소의 "위(above)"에 놓여질 수 있다. 따라서, 예시적인 용어인 "아래"는 아래와 위의 방향을 모두 포함할 수 있다. 구성요소는 다른 방향으로도 배향될 수 있으며, 이에 따라 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다.Spatially relative terms "below", "beneath", "lower", "above", "upper", etc. It can be used to easily describe the correlation between a component and other components. Spatially relative terms should be understood as terms including different directions of components during use or operation in addition to the directions shown in the drawings. For example, when a component shown in the drawing is turned over, a component described as “beneath” or “beneath” of another component may be placed “above” of the other component. can Accordingly, the exemplary term “below” may include both directions below and above. Components may also be oriented in other orientations, and thus spatially relative terms may be interpreted according to orientation.

본 명세서에서, 컴퓨터는 적어도 하나의 프로세서를 포함하는 모든 종류의 하드웨어 장치를 의미하는 것이고, 실시 예에 따라 해당 하드웨어 장치에서 동작하는 소프트웨어적 구성도 포괄하는 의미로서 이해될 수 있다. 예를 들어, 컴퓨터는 스마트폰, 태블릿 PC, 데스크톱, 노트북 및 각 장치에서 구동되는 사용자 클라이언트 및 애플리케이션을 모두 포함하는 의미로서 이해될 수 있으며, 또한 이에 제한되는 것은 아니다.In this specification, a computer refers to all types of hardware devices including at least one processor, and may be understood as encompassing software configurations operating in the corresponding hardware device according to embodiments. For example, a computer may be understood to include, but is not limited to, smart phones, tablet PCs, desktops, notebooks, and user clients and applications running on each device.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

본 명세서에서 설명되는 각 단계들은 컴퓨터에 의하여 수행되는 것으로 설명되나, 각 단계의 주체는 이에 제한되는 것은 아니며, 실시 예에 따라 각 단계들의 적어도 일부가 서로 다른 장치에서 수행될 수도 있다.Each step described in this specification is described as being performed by a computer, but the subject of each step is not limited thereto, and at least a portion of each step may be performed in different devices according to embodiments.

도 1은 본 발명의 일 실시예에 따른 시스템을 설명하기 위한 예시도이다.1 is an exemplary diagram for explaining a system according to an embodiment of the present invention.

본 발명에 따른 단어의 중요도 스코어를 산출하기 위한 시스템은 서버(10) 및 전자 장치(20)를 포함한다.The system for calculating the importance score of a word according to the present invention includes a server 10 and an electronic device 20 .

서버(10)는 대상특허문서를 획득하고, 획득된 대상특허문서로부터 중요도 스코어 산출의 대상이 되는 단어를 획득하고, 단어의 중요도 스코어를 산출하기 위한 구성이다.The server 10 is configured to obtain a target patent document, obtain a word that is a target for calculating an importance score from the acquired target patent document, and calculate an importance score of the word.

구체적으로, 서버(10)는 전자 장치(20)로부터 대상특허문서를 입력 받거나, 외부 서버로부터 대상특허문서를 획득할 수 있다. Specifically, the server 10 may receive a target patent document from the electronic device 20 or may acquire a target patent document from an external server.

본 명세서에서, 특허문서는 대상특허문서 및 검색특허문서를 포함하는 개념으로, 각국 특허청에 특허 등록을 받기 위해 출원인이 제출하는 기술 내용에 대한 문서일 수 있다. 다만, 이에 한정되는 것은 아니고, 특허문서는, 특허 출원을 위한 직무 발명서, 논문 등 기술 내용을 포함한 다양한 문서를 포함하는 개념으로 이해될 수 있다. 일 실시예에 따라, 대상특허문서는 특허 출원을 위한 직무 발명서, 논문 중 적어도 하나이고, 유사특허문서는 특허 출원을 위한 직무 발명서, 논문, 특허출원서 중 적어도 하나일 수 있다. 일 실시예에 따라, 검색특허문서는 전체 특허문서 중 단어를 포함하여 서버(10)로부터 검색된 특허문서일 수 있다.In the present specification, a patent document is a concept including a target patent document and a search patent document, and may be a document about technical content submitted by an applicant to obtain a patent registration at each country's patent office. However, the present invention is not limited thereto, and a patent document may be understood as a concept including various documents including technical contents, such as a job invention for a patent application, and a thesis. According to an embodiment, the target patent document may be at least one of a job invention book and a thesis for a patent application, and the similar patent document may be at least one of a job invention book, a thesis, and a patent application for a patent application. According to an embodiment, the search patent document may be a patent document retrieved from the server 10 including words among all patent documents.

전자 장치(20)는 서버(10)로 특허문서를 제공하기 위한 구성이다. 본 발명에 따른 전자 장치(200)는 스마트 폰으로 구현될 수 있으나, 이는 일 실시예에 불과할 뿐, 스마트폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 영상 전화기, 전자책 리더기(e-book reader), 데스크탑 PC (desktop PC), 랩탑 PC(laptop PC), 넷북 컴퓨터(netbook computer), 워크스테이션(workstation), 서버, PDA(personal digital assistant), PMP(portable multimedia player) 또는 웨어러블 장치(wearable device) 중 적어도 하나를 포함할 수 있다.The electronic device 20 is configured to provide a patent document to the server 10 . The electronic device 200 according to the present invention may be implemented as a smart phone, but this is only an exemplary embodiment, and a smart phone, a tablet personal computer (PC), a mobile phone, a video phone, e-book reader, desktop PC, laptop PC, netbook computer, workstation, server, PDA (personal digital assistant), PMP (portable multimedia) player) or a wearable device.

도 2는 본 발명의 일 실시예에 따른 대상특허문서로부터 중요도 스코어의 산출 대상이 되는 단어를 획득하는 방법을 설명하기 위한 흐름도이다.2 is a flowchart for explaining a method of obtaining a word, which is a calculation target of an importance score, from a target patent document according to an embodiment of the present invention.

도 2를 참조하면, 단계 S110에서, 서버(10)는 대상특허문서에 대해 형태소 분석을 수행하여 명사만을 추출할 수 있다. 이때, 서버(10)는 대상특허문서로부터 명사를 추출하는 한 형태소 분석법의 종류는 한정되지 않음을 유의한다.Referring to FIG. 2 , in step S110 , the server 10 may extract only nouns by performing morphological analysis on the target patent document. In this case, it is noted that the type of morpheme analysis method is not limited as long as the server 10 extracts the noun from the target patent document.

이어서, 단계 S120에서, 서버(10)는 추출된 명사에 기초하여 대상특허문서의 기술분야정보를 결정할 수 있다. 이때, 서버(10)는 미리 저장된 기술분야정보별 단어 데이터와 추출된 명사를 비교하고, 비교 결과, 추출된 명사가 최다 포함된 기술분야정보를 대상특허문서의 기술분야정보로 결정할 수 있다.Then, in step S120, the server 10 may determine the technical field information of the target patent document based on the extracted noun. At this time, the server 10 may compare the word data for each technology field information stored in advance with the extracted nouns, and as a result of the comparison, determine the technology field information including the most extracted nouns as the technology field information of the target patent document.

이후, 단계 S130에서, 서버(10)는 대상특허문서에 포함된 단어 중 불용어로 설정된 단어를 중요도 스코어의 산출 대상이 되는 단어에서 제외시킬 수 있다. 구체적으로, 서버(10)는 대상특허문서의 기술분야정보에 대응되는 기술분야정보별 불용어 데이터를 독출하고, 대상특허문서에 포함되어 추출된 단어 중 독출된 기술분야정보별 불용어 데이터에 포함된 단어를 중요도 스코어의 산출 대상이 되는 단어에서 제외시킬 수 있다.Thereafter, in step S130 , the server 10 may exclude a word set as a stop word among words included in the target patent document from a word to be calculated for the importance score. Specifically, the server 10 reads stopword data for each technical field information corresponding to the technical field information of the target patent document, and words included in the read stopword data for each technical field information among the extracted words included in the target patent document may be excluded from the target of the calculation of the importance score.

여기서, 불용어는 해당 기술분야에서 빈번하게 사용되는 단어이지만 기술적 의미를 갖지 않는 단어를 의미할 수 있다. 예를 들어, IT 기술분야에서 컴퓨터는 빈번하게 사용되나 IT 기술과 관련한 기술적 의미를 갖지 않아 불용어로 정의될 수 있다.Here, the stop word may mean a word that is frequently used in the relevant technical field but does not have a technical meaning. For example, although a computer is frequently used in the field of IT technology, it may be defined as an obsolete word because it does not have a technical meaning related to IT technology.

이에 따라, 단계 S140에서, 서버(10)는 대상특허문서로부터 추출한 단어 중 불용어가 아닌 단어를 중요도 스코어의 산출 대상이 되는 단어로 획득할 수 있다.Accordingly, in step S140 , the server 10 may obtain a word that is not a stopword among the words extracted from the target patent document as a word to be calculated for the importance score.

도 3은 본 발명의 일 실시예에 따른 단어의 제1 세부 중요도를 산출하는 방법을 설명하기 위한 흐름도이다.3 is a flowchart illustrating a method of calculating a first detailed importance level of a word according to an embodiment of the present invention.

도 3을 참조하면, 단계 S210에서, 서버(10)는 전체 특허문서의 전체 단어수를 카운트하고, 전체 특허문서에서의 단어의 출현횟수를 카운트할 수 있다.Referring to FIG. 3 , in step S210 , the server 10 may count the total number of words in the entire patent document and may count the number of appearances of the word in the entire patent document.

이후, 단계 S220에서, 서버(10)는 전체 특허문서의 전체 단어수 대비 전체 특허문서에서의 단어의 출연횟수를 제1 출현비율로 산출할 수 있다.Thereafter, in step S220 , the server 10 may calculate the number of appearances of words in the entire patent document relative to the total number of words in the entire patent document as the first appearance ratio.

이어서, 단계 S230에서, 서버(10)는 전체 특허문서의 전체 문장수를 카운트하고, 전체 특허문서의 문장 중에서 단어가 출현된 출현 문장수를 카운트할 수 있다.Subsequently, in step S230 , the server 10 may count the total number of sentences in the entire patent document, and may count the number of sentences in which the word appears among the sentences of the entire patent document.

단계 S240에서, 서버(10)는 전체 특허문서의 문장 중에서 단어가 출현된 출현 문장수 대비 전체 특허문서의 전체 문장수를 제2 출현비율로 산출할 수 있다.In step S240 , the server 10 may calculate the total number of sentences in the entire patent document compared to the number of sentences in which the word appears among the sentences of the entire patent document as the second occurrence ratio.

이를 위해, 서버(10)는 전체 특허문서로부터 단어를 검색하고, 단어가 포함된 문장을 검색할 수 있다. 또한, 서버(10)는 전체 특허문서의 문장 성분을 분석하여 전체 단어수와 전체 문장수를 카운트할 수 있다.To this end, the server 10 may search for a word from the entire patent document and search for a sentence including the word. Also, the server 10 may count the total number of words and the total number of sentences by analyzing the sentence components of the entire patent document.

최종적으로, 단계 S250에서, 서버(10)는 제1 출현비율과 제2 출현비율에 기초하여 제1 세부 중요도를 산출할 수 있다.Finally, in step S250 , the server 10 may calculate the first detailed importance level based on the first appearance rate and the second appearance rate.

이때, 서버(10)는 하기의 수학식 1을 이용하여 제1 세부 중요도를 산출할 수 있다.In this case, the server 10 may calculate the first detailed importance level by using Equation 1 below.

<수학식 1><Equation 1>

Figure 112020018611531-pat00003
Figure 112020018611531-pat00003

여기서, W1은 제1 세부 중요도이고, wpw은 전체 특허문서에서의 단어의 출현횟수이고, WPW은 전체 특허문서의 전체 단어수이고, wps은 전체 특허문서의 문장 중에서 단어가 출현된 출현 문장수이고, WPS은 전체 특허문서의 전체 문장수이고, a1은 제2 출현비율의 조절 상수이다.Here, W1 is the first detailed importance, wpw is the number of occurrences of words in the entire patent document, WPW is the total number of words in the entire patent document, and wps is the number of occurrence sentences in which the word appears in the entire patent document , WPS is the total number of sentences in the entire patent document, and a1 is the adjustment constant of the second appearance ratio.

수학식 1을 살펴보면, 서버(10)는 전체 특허문서에서의 단어의 출현횟수가 많고 전체 특허문서의 문장 중에서 단어가 출현된 출현 문장수가 적을수록 제1 세부 중요도를 크게 산출할 수 있다.Referring to Equation 1, the server 10 may calculate the first detailed importance to a greater extent as the number of occurrences of the word in the entire patent document is large and the number of occurrences of the word in the sentences of the entire patent document is small.

즉, 서버(10)는 전체 특허문서에서 하나의 문장에 단어가 중복하여 사용될수록 제1 세부 중요도를 크게 산출할 수 있다.That is, the server 10 can calculate the first detailed importance to a greater extent as a word is repeatedly used in one sentence in the entire patent document.

한편, 서버(10)는 제2 출현비율의 조절 상수를 증가시켜 전체 특허문서의 문장 중에서 단어가 출현된 출현 문장수가 적더라도 제2 출현비율을 증가시킬 있고, 제2 출현비율의 조절 상수를 감소시켜 전체 특허문서의 문장 중에서 단어가 출현된 출현 문장수가 많더라도 제2 출현비율을 감소시킬 수 있다.On the other hand, the server 10 increases the control constant of the second appearance ratio to increase the second appearance ratio even if the number of sentences in which the word appears among the sentences of the entire patent document is small, and reduces the adjustment constant of the second appearance ratio Thus, even if the number of sentences in which a word appears among the sentences of the entire patent document is large, the second appearance ratio can be reduced.

일 실시 예에서, 서버(10)는 특허문서에서의 단어의 제1 세부 중요도를 산출하는한 세부 중요도 산출 방법의 종류는 제한되지 않음을 유의한다.Note that, in an embodiment, the type of the detailed importance calculation method is not limited as long as the server 10 calculates the first detailed importance level of the word in the patent document.

예를 들어, 서버(10)는 텍스트 분석법 중 하나로 출연 빈도에 기초하여 중요도를 산출하는 TF-IDF(Term Frequency-Inverse Document Frequency) 분석법을 이용하여 제1 세부 중요도를 산출할 수 있다.For example, the server 10 may calculate the first detailed importance level by using a Term Frequency-Inverse Document Frequency (TF-IDF) analysis method that calculates importance based on appearance frequency as one of the text analysis methods.

도 4는 본 발명의 일 실시예에 따른 단어의 제2 세부 중요도를 산출하는 방법을 설명하기 위한 흐름도이다.4 is a flowchart illustrating a method of calculating a second detailed importance level of a word according to an embodiment of the present invention.

도 4를 참조하면, 단계 S310에서, 서버(10)는 특허분류정보의 전체 단어수를 카운트하고, 특허분류정보에서의 단어의 출현횟수를 카운트할 수 있다.Referring to FIG. 4 , in step S310 , the server 10 may count the total number of words in the patent classification information and count the number of appearances of the word in the patent classification information.

여기서, 특허분류정보는 기술분야에 따라 특허를 분류할 수 있는 코드로써, IPC(International Patent Classfication), CPC(Cooperative Patent Classification) 및 F-Term 중 어느 하나일 수 있다.Here, the patent classification information is a code capable of classifying patents according to technical fields, and may be any one of International Patent Classification (IPC), Cooperative Patent Classification (CPC), and F-Term.

이후, 단계 S320에서, 서버(10)는 특허분류정보의 전체 단어수 대비 특허분류정보에서의 단어의 출연횟수를 제3 출현비율로 산출할 수 있다.Thereafter, in step S320 , the server 10 may calculate the number of appearances of words in the patent classification information relative to the total number of words in the patent classification information as the third appearance ratio.

이어서, 단계 S330에서, 서버(10)는 특허분류정보의 전체 문장수를 카운트하고, 전체 특허문서의 문장 중에서 단어가 출현된 출현 문장수를 카운트할 수 있다.Next, in step S330 , the server 10 may count the total number of sentences in the patent classification information, and may count the number of sentences in which a word appears among all the sentences of the patent document.

단계 S340에서, 서버(10)는 전체 특허문서의 문장 중에서 단어가 출현된 출현 문장수 대비 전체 특허문서의 전체 문장수를 제4 출현비율로 산출할 수 있다.In step S340 , the server 10 may calculate the total number of sentences in the entire patent document compared to the number of sentences in which the word appears among the sentences of the entire patent document as the fourth occurrence ratio.

이를 위해, 서버(10)는 특허분류정보로부터 단어를 검색하고, 단어가 포함된 문장을 검색할 수 있다. 또한, 서버(10)는 특허분류정보의 문장 성분을 분석하여 전체 단어수와 전체 문장수를 카운트할 수 있다.To this end, the server 10 may search for a word from the patent classification information and search for a sentence including the word. Also, the server 10 may count the total number of words and the total number of sentences by analyzing the sentence components of the patent classification information.

최종적으로, 단계 S350에서, 서버(10)는 제3 출현비율과 제4 출현비율에 기초하여 제2 세부 중요도를 산출할 수 있다.Finally, in step S350 , the server 10 may calculate the second detailed importance based on the third and fourth prevalence rates.

이때, 서버(10)는 하기의 수학식 2를 이용하여 제2 세부 중요도를 산출할 수 있다.In this case, the server 10 may calculate the second detailed importance level by using Equation 2 below.

<수학식2><Equation 2>

Figure 112020018611531-pat00004
Figure 112020018611531-pat00004

여기서, W2은 제2 세부 중요도이고, ipcw은 특허분류정보에서의 단어의 출현횟수이고, IPCW은 특허분류정보의 전체 단어수이고, ipcs은 전체 특허문서의 문장 중에서 단어가 출현된 출현 문장수이고, IPCS은 전체 특허문서의 전체 문장수이고, a2은 제4 출현비율의 조절 상수이다.Here, W 2 is the second specific importance, ipcw is the number of occurrences of words in the patent classification information, IPCW is the total number of words in the patent classification information, and ipcs is the number of occurrence sentences in which words appear in the entire patent document sentences , IPCS is the total number of sentences in the entire patent document, and a2 is the adjustment constant of the fourth appearance ratio.

수학식 2를 살펴보면, 서버(10)는 특허분류정보에서의 단어의 출현횟수가 많고 전체 특허문서의 문장 중에서 단어가 출현된 출현 문장수가 적을수록 제2 세부 중요도를 크게 산출할 수 있다.Referring to Equation 2, the server 10 can calculate the second detailed importance as the number of occurrences of the word in the patent classification information increases and the number of occurrences of the word among the sentences of the entire patent document decreases.

즉, 서버(10)는 특허분류정보에서 하나의 문장에 단어가 중복하여 사용될수록 제2 세부 중요도를 크게 산출할 수 있다.That is, the server 10 may calculate the second detailed importance to a greater extent as a word is repeatedly used in one sentence in the patent classification information.

한편, 서버(10)는 제4 출현비율의 조절 상수를 증가시켜 전체 특허문서의 문장 중에서 단어가 출현된 출현 문장수 적더라도 제4 출현비율을 증가시킬 있고, 제4 출현비율의 조절 상수를 감소시켜 전체 특허문서의 문장 중에서 단어가 출현된 출현 문장수 많더라도 제4 출현비율을 감소시킬 수 있다.On the other hand, the server 10 increases the adjustment constant of the fourth appearance rate to increase the fourth appearance rate even if the number of appearance sentences in which a word appears among the sentences of the entire patent document is small, and reduces the adjustment constant of the fourth appearance rate Thus, the fourth appearance ratio can be reduced even if there are many occurrences of the word among the sentences of the entire patent document.

일 실시 예에서, 서버(10)는 특허문서에서의 단어의 제2 세부 중요도를 산출하는한 세부 중요도 산출 방법의 종류는 제한되지 않음을 유의한다.Note that, in an embodiment, the type of the detailed importance calculation method is not limited as long as the server 10 calculates the second detailed importance level of the word in the patent document.

예를 들어, 서버(10)는 텍스트 분석법 중 하나로 출연 빈도에 기초하여 중요도를 산출하는 TF-IDF(Term Frequency-Inverse Document Frequency) 분석법을 이용하여 제2 세부 중요도를 산출할 수 있다.For example, the server 10 may calculate the second detailed importance level by using a Term Frequency-Inverse Document Frequency (TF-IDF) analysis method that calculates importance based on appearance frequency as one of the text analysis methods.

도 5는 본 발명의 일 실시예에 따른 단어의 제3 세부 중요도를 산출하는 방법을 설명하기 위한 흐름도이다.5 is a flowchart illustrating a method of calculating a third detailed importance level of a word according to an embodiment of the present invention.

도 5를 참조하면, 단계 S410에서, 서버(10)는 전체 특허문서 중에서 중요도 스코어의 산출 대상이 되는 단어를 포함하는 검색특허문서를 검색할 수 있다.Referring to FIG. 5 , in step S410 , the server 10 may search for a search patent document including a word to be calculated an importance score among all patent documents.

단계 S420에서, 서버(10)는 검색특허문서 각각의 참조 정보에 기초하여 검색특허문서 각각의 영향력 값을 산출할 수 있다.In step S420 , the server 10 may calculate an influence value of each of the searched patent documents based on the reference information of each of the searched patent documents.

구체적으로, 서버(10)는 검색특허문서의 참조 정보인 출원인, 발명자, 권리자 중 하나 이상이 다른 특허문서과 동일한 항목의 개수, 참조 정보인 인용 횟수 및 피인용 횟수에 기초하여 영향력 값을 산출할 수 있다.Specifically, the server 10 calculates an influence value based on the number of items identical to one or more of the applicant, inventor, and right holder, which are reference information of the search patent document, and the number of citations and citations, which are reference information, as other patent documents. have.

즉, 서버(10)는 검색특허문서가 다른 특허문서와 관련된 정도를 영향력 값으로 산출할 수 있다. 예를 들어, 서버(10)는 검색특허문서는 여러 특허문서로부터 인용될 때, 해당 특허문서에 검색특허문서가 영향력을 끼친 것으로 판단하여 검색특허문서의 영향력 값으로 산출할 수 있다. That is, the server 10 may calculate the degree to which the searched patent document is related to another patent document as an influence value. For example, when the searched patent document is cited from several patent documents, the server 10 may determine that the searched patent document has an influence on the corresponding patent document, and may calculate it as an influence value of the searched patent document.

단계 S430에서, 서버(10)는 검색특허문서 각각에 대해 산출된 영향력 값을 이용하여 검색특허문서의 제3 세부 중요도를 산출할 수 있다.In step S430, the server 10 may calculate the third detailed importance of the search patent document by using the calculated influence value for each of the search patent documents.

구체적으로, 서버(10)는 검색특허문서 각각에 대해 산출된 영향력 값의 평균을 산출하고, 산출된 평균을 제3 세부 중요도로 산출할 수 있다.Specifically, the server 10 may calculate the average of the calculated influence values for each of the search patent documents, and calculate the calculated average as the third detailed importance level.

도 6은 본 발명의 일 실시예에 따른 단어의 중요도 스코어를 산출하는 방법을 설명하기 위한 흐름도이다.6 is a flowchart illustrating a method of calculating an importance score of a word according to an embodiment of the present invention.

도 6을 참조하면, 단계 S510에서, 서버(10)는 상술된 제1 세부 중요도, 제2 세부 중요도 및 제3 세부 중요도를 독출할 수 있다.Referring to FIG. 6 , in step S510 , the server 10 may read the above-described first detailed importance, second detailed importance, and third detailed importance.

이때, 서버(10)는 제1 세부 중요도, 제2 세부 중요도 및 제3 세부 중요도 각각에 대응하여 설정된 최소 세부 중요도 값과 제1 세부 중요도, 제2 세부 중요도 및 제3 세부 중요도 각각을 대소 비교하고, 최소 세부 중요도 값 미만이 세부 중요도에 대해 재산출 과정을 수행할 수 있다.At this time, the server 10 compares each of the first detailed importance, the second detailed importance, and the third detailed importance with the minimum detailed importance value set corresponding to each of the first detailed importance, the second detailed importance, and the third detailed importance, , the recalculation process may be performed for the detailed importance that is less than the minimum detailed importance value.

이후, 단계 S520에서, 서버(10)는 제1 세부 중요도, 제2 세부 중요도 및 제3 세부 중요도가 최소 세부 중요도 값 이상이면 제1 세부 중요도, 제2 세부 중요도 및 제3 세부 중요도 중 복수를 합산하여 중요도 스코어로 산출할 수 있다.Thereafter, in step S520 , the server 10 sums a plurality of the first detailed importance, the second detailed importance, and the third detailed importance if the first detailed importance, the second detailed importance, and the third detailed importance are equal to or greater than the minimum detailed importance value Thus, it can be calculated as an importance score.

단계 S540에서, 서버(10)는 산출된 중요도 스코어를 내부의 메모리 또는 프로세서로 출력하거나, 외부 서버로 송신할 수 있다.In step S540, the server 10 may output the calculated importance score to an internal memory or processor, or may transmit it to an external server.

도 7은 일 실시 예에 따른 단어의 중요도 스코어 산출 장치의 구성도이다.7 is a block diagram of an apparatus for calculating an importance score of a word according to an exemplary embodiment.

프로세서(102)는 하나 이상의 코어(core, 미도시) 및 그래픽 처리부(미도시) 및/또는 다른 구성 요소와 신호를 송수신하는 연결 통로(예를 들어, 버스(bus) 등)를 포함할 수 있다.The processor 102 may include one or more cores (not shown) and a graphic processing unit (not shown) and/or a connection path (eg, a bus, etc.) for transmitting and receiving signals to and from other components. .

일 실시예에 따른 프로세서(102)는 메모리(104)에 저장된 하나 이상의 인스트럭션을 실행함으로써, 도 1 내지 도 6과 관련하여 설명된 단어의 중요도 스코어 산출 방법을 수행한다.The processor 102 according to an embodiment executes one or more instructions stored in the memory 104 , thereby performing the method of calculating the importance score of a word described with reference to FIGS. 1 to 6 .

예를 들어, 프로세서(102)는 메모리에 저장된 하나 이상의 인스트럭션을 실행함으로써 대상특허문서로부터 중요도 스코어의 산출 대상이 되는 단어를 획득하고, 전체 특허문서에서의 단어의 제1 세부 중요도, 대상특허문서의 기술분야정보에 대응되는 특허분류정보에서의 단어의 제2 세부 중요도 및 전체 특허문서 중 단어가 포함된 검색특허문서의 제3 세부 중요도 하나 이상의 세부 중요도를 산출하며, 제1 세부 중요도, 제2 세부 중요도 및 제3 세부 중요도 중 하나 이상에 기초하여 단어의 중요도 스코어를 산출할 수 있다. For example, the processor 102 obtains a word to be calculated for an importance score from the target patent document by executing one or more instructions stored in the memory, and the first detailed importance of the word in the entire patent document, the A second detailed importance of a word in the patent classification information corresponding to the technical field information and a third detailed importance of a search patent document including a word among all patent documents are calculated. An importance score of the word may be calculated based on one or more of the importance and the third detailed importance.

한편, 프로세서(102)는 프로세서(102) 내부에서 처리되는 신호(또는, 데이터)를 일시적 및/또는 영구적으로 저장하는 램(RAM: Random Access Memory, 미도시) 및 롬(ROM: Read-Only Memory, 미도시)을 더 포함할 수 있다. 또한, 프로세서(102)는 그래픽 처리부, 램 및 롬 중 적어도 하나를 포함하는 시스템온칩(SoC: system on chip) 형태로 구현될 수 있다. On the other hand, the processor 102 is a RAM (Random Access Memory, not shown) and ROM (Read-Only Memory: ROM) for temporarily and / or permanently storing a signal (or, data) processed inside the processor 102. , not shown) may be further included. In addition, the processor 102 may be implemented in the form of a system on chip (SoC) including at least one of a graphic processing unit, a RAM, and a ROM.

메모리(104)에는 프로세서(102)의 처리 및 제어를 위한 프로그램들(하나 이상의 인스트럭션들)을 저장할 수 있다. 메모리(104)에 저장된 프로그램들은 기능에 따라 복수 개의 모듈들로 구분될 수 있다.The memory 104 may store programs (one or more instructions) for processing and controlling the processor 102 . Programs stored in the memory 104 may be divided into a plurality of modules according to functions.

본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.The steps of a method or algorithm described in connection with an embodiment of the present invention may be implemented directly in hardware, as a software module executed by hardware, or by a combination thereof. A software module may include random access memory (RAM), read only memory (ROM), erasable programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), flash memory, hard disk, removable disk, CD-ROM, or It may reside in any type of computer-readable recording medium well known in the art to which the present invention pertains.

본 발명의 구성 요소들은 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 애플리케이션)으로 구현되어 매체에 저장될 수 있다. 본 발명의 구성 요소들은 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있으며, 이와 유사하게, 실시 예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다.The components of the present invention may be implemented as a program (or application) to be executed in combination with a computer, which is hardware, and stored in a medium. Components of the present invention may be implemented as software programming or software components, and similarly, embodiments may include various algorithms implemented as data structures, processes, routines, or combinations of other programming constructs, including C, C++ , may be implemented in a programming or scripting language such as Java, assembler, or the like. Functional aspects may be implemented in an algorithm running on one or more processors.

이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다. As mentioned above, although embodiments of the present invention have been described with reference to the accompanying drawings, those skilled in the art to which the present invention pertains know that the present invention may be embodied in other specific forms without changing the technical spirit or essential features thereof. you will be able to understand Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive.

10 : 서버
102 : 프로세서
104: 메모리
10 : Server
102: processor
104: memory

Claims (1)

단어의 중요도 스코어 산출 방법에 있어서,
서버가, 대상특허문서로부터 중요도 스코어의 산출 대상이 되는 단어를 획득하는 단계;
상기 서버가, 전체 특허문서에서의 상기 단어의 제1 세부 중요도, 상기 대상특허문서의 기술분야정보에 대응되는 특허분류정보에서의 상기 단어의 제2 세부 중요도 및 상기 전체 특허문서 중 상기 단어가 포함된 검색특허문서의 제3 세부 중요도 중 하나 이상의 세부 중요도를 산출하는 단계; 및
상기 서버가, 상기 제1 세부 중요도, 상기 제2 세부 중요도 및 상기 제3 세부 중요도 중 하나 이상에 기초하여 상기 단어의 상기 중요도 스코어를 산출하는 단계를 포함하고,
상기 단어의 상기 중요도 스코어를 산출하는 단계는
상기 특허분류정보의 전체 단어수 대비 상기 특허분류정보에서의 상기 단어의 출현횟수의 제3 출현비율 및 상기 전체 특허문서의 전체 문장수 대비 상기 전체 특허문서의 문장 중에서 상기 단어가 출현된 출현 문장수의 제4 출현비율에 기초하여 상기 제2 세부 중요도를 산출하는 단계; 및
상기 제1 세부 중요도, 상기 제2 세부 중요도 및 상기 제3 세부 중요도 중 복수를 합산하여 상기 중요도 스코어로 산출하는 단계를 포함하고,
상기 제2 세부 중요도를 산출하는 단계는
하기의 수학식을 이용하여 상기 제2 세부 중요도를 산출하는 단계를 포함하는 단어의 중요도 스코어 산출 방법.

<수학식>
Figure 112021110476411-pat00012

여기서, 상기 W2은 제2 세부 중요도이고, 상기 ipcw은 상기 특허분류정보에서의 상기 단어의 출현횟수이고, 상기 IPCW은 특허분류정보의 전체 단어수이고, 상기 ipcs은 상기 전체 특허문서의 문장 중에서 상기 단어가 출현된 출현 문장수이고, 상기 IPCS은 상기 전체 특허문서의 전체 문장수이고, 상기 a2은 상기 제4 출현비율의 조절 상수이다.
In the method of calculating the importance score of a word,
obtaining, by the server, a word to be calculated an importance score from the target patent document;
The server includes the first detailed importance of the word in the entire patent document, the second detailed importance of the word in the patent classification information corresponding to the technical field information of the target patent document, and the word in the entire patent document calculating at least one of the third detailed importance levels of the searched patent document; and
calculating, by the server, the importance score of the word based on at least one of the first detailed importance level, the second detailed importance level, and the third detailed importance level;
Calculating the importance score of the word comprises:
A third appearance ratio of the number of appearances of the word in the patent classification information compared to the total number of words in the patent classification information and the number of appearance sentences in which the word appears in the entire patent document compared to the total number of sentences in the entire patent document calculating the second detailed importance level based on a fourth appearance ratio of ; and
calculating the importance score by summing a plurality of the first detailed importance level, the second detailed importance level, and the third detailed importance level;
The step of calculating the second detailed importance
and calculating the second detailed importance level by using the following equation.

<Equation>
Figure 112021110476411-pat00012

Here, W2 is the second detailed importance level, the ipcw is the number of appearances of the word in the patent classification information, the IPCW is the total number of words in the patent classification information, and the ipcs is the total number of words in the patent classification information. The number of occurrence sentences in which the word appears, the IPCS is the total number of sentences in the entire patent document, and a2 is the adjustment constant of the fourth occurrence ratio.
KR1020200021481A 2019-10-02 2020-02-21 Method for calculating for weight score of word ussing sub-importance KR102403168B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200021481A KR102403168B1 (en) 2019-10-02 2020-02-21 Method for calculating for weight score of word ussing sub-importance

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190122095A KR102085216B1 (en) 2019-10-02 2019-10-02 Method, apparatus and program for calculating for weight score of word
KR1020200021481A KR102403168B1 (en) 2019-10-02 2020-02-21 Method for calculating for weight score of word ussing sub-importance

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020190122095A Division KR102085216B1 (en) 2019-10-02 2019-10-02 Method, apparatus and program for calculating for weight score of word

Publications (2)

Publication Number Publication Date
KR20210039909A KR20210039909A (en) 2021-04-12
KR102403168B1 true KR102403168B1 (en) 2022-05-27

Family

ID=81791978

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200021481A KR102403168B1 (en) 2019-10-02 2020-02-21 Method for calculating for weight score of word ussing sub-importance

Country Status (1)

Country Link
KR (1) KR102403168B1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100295354B1 (en) 1996-05-29 2001-09-17 모리시타 요이찌 Document information retrieval system
JP2016186768A (en) 2015-03-27 2016-10-27 日本放送協会 Candidate keyword evaluation device and candidate keyword evaluation program
KR101850993B1 (en) * 2016-12-08 2018-04-23 서울시립대학교 산학협력단 Method and apparatus for extracting keyword based on cluster

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101897080B1 (en) * 2016-05-26 2018-09-11 아주대학교산학협력단 Method and Apparatus for generating association rules between medical words in medical record document
KR20170142526A (en) 2016-06-17 2017-12-28 천세욱 Apparatus and method of generating word set for analyzing text
KR102011667B1 (en) * 2016-11-29 2019-08-20 (주)아크릴 Method for drawing word related keyword based on deep learning and computerprogram

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100295354B1 (en) 1996-05-29 2001-09-17 모리시타 요이찌 Document information retrieval system
JP2016186768A (en) 2015-03-27 2016-10-27 日本放送協会 Candidate keyword evaluation device and candidate keyword evaluation program
KR101850993B1 (en) * 2016-12-08 2018-04-23 서울시립대학교 산학협력단 Method and apparatus for extracting keyword based on cluster

Also Published As

Publication number Publication date
KR20210039909A (en) 2021-04-12

Similar Documents

Publication Publication Date Title
KR102085217B1 (en) Method, apparatus and system for determining similarity of patent documents
CN111428010B (en) Man-machine intelligent question-answering method and device
CN110472043B (en) Clustering method and device for comment text
US11676507B2 (en) Food description processing methods and apparatuses
JP6713136B2 (en) Causal sentence analysis device, causal sentence analysis system, program, and causal sentence analysis method
KR102085214B1 (en) Method and system for acquiring word set of patent document
KR102472200B1 (en) Method for calculating for weight score using appearance rate of word
KR102085216B1 (en) Method, apparatus and program for calculating for weight score of word
KR102403168B1 (en) Method for calculating for weight score of word ussing sub-importance
KR102360080B1 (en) Method for calculating for weight score of word based reference information of patent document
US10380151B2 (en) Information processing to search for related expressions
RU2711123C2 (en) Method and system for computer processing of one or more quotes in digital texts for determination of their author
CN116204624A (en) Response method, response device, electronic equipment and storage medium
KR102383965B1 (en) Method, apparatus and system for determining similarity of patent documents based on similarity score and dissimilarity score
KR102405867B1 (en) Method, apparatus and system for determining importance of patent documents using artificial intelligence model
KR20210039910A (en) Method, apparatus and program for calculating for weight score of word
KR20210039917A (en) Method, apparatus and system for determining similarity of patent documents using artificial intelligence model
KR102263309B1 (en) Method and system for acquiring word set of patent document using image information
KR102297962B1 (en) Method and system for acquiring word set meaning information of patent document
KR102291930B1 (en) Method and system for acquiring a word set of a patent document including a compound noun phrase
KR102085355B1 (en) Method, apparatus and program for generating for thesaurus of patent document
KR102255961B1 (en) Method and system for acquiring word set of patent document by correcting error word
KR102255962B1 (en) Method and system for acquiring word set of patent document using template information
KR102300352B1 (en) Method, apparatus and system for determining similarity of patent documents based on importance score
KR102315214B1 (en) Method, apparatus and system for determining similarity of patent documents using similarity scores and dissimilarity scores

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant