KR20200106108A - System and method for patent information word embedding based on deep learning - Google Patents

System and method for patent information word embedding based on deep learning Download PDF

Info

Publication number
KR20200106108A
KR20200106108A KR1020190022092A KR20190022092A KR20200106108A KR 20200106108 A KR20200106108 A KR 20200106108A KR 1020190022092 A KR1020190022092 A KR 1020190022092A KR 20190022092 A KR20190022092 A KR 20190022092A KR 20200106108 A KR20200106108 A KR 20200106108A
Authority
KR
South Korea
Prior art keywords
vector
word
search condition
deep learning
word embedding
Prior art date
Application number
KR1020190022092A
Other languages
Korean (ko)
Inventor
이진원
Original Assignee
이진원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이진원 filed Critical 이진원
Priority to KR1020190022092A priority Critical patent/KR20200106108A/en
Publication of KR20200106108A publication Critical patent/KR20200106108A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Technology Law (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Disclosed are a deep learning based patent information word embedding method and a system therefor. The deep learning based patent information word embedding method comprises the following steps of: building, by a noise detection system, a word-to-vector engine or a sentence-to-vector engine through deep learning of patent documents from a patent information DB; receiving, by the noise detection system, a search condition for searching for a patent document desired by a user; specifying, by the noise detection system, a raw data patent list including patent list data corresponding to the received search condition; converting, by the noise detection system, each of patent documents included in the specified patent list into a word vector set or a sentence vector set through the word-to-vector engine or the sentence-to-vector engine; and detecting noise documents among the patent documents included in the patent list based on the converted word vector set or sentence vector set for each patent document. Therefore, in the patent search list, noise can be detected more accurately and quickly by using deep learning.

Description

딥러닝 기반의 특허정보 워드임베딩 방법 및 그 시스템 {System and method for patent information word embedding based on deep learning}Deep learning-based patent information word embedding based on deep learning {System and method for patent information word embedding based on deep learning}

본 발명은 딥러닝 기반의 특허정보 워드임베딩 방법 및 그 시스템에 관한 것이다. 보다 상세하게는 딥러닝 기반으로 특허문헌에 최적화된 특허정보의 워드임베딩 방법 및 그 시스템에 관한 것이다. The present invention relates to a deep learning-based patent information word embedding method and system thereof. In more detail, it relates to a method and a system for word embedding of patent information optimized for patent documents based on deep learning.

연구 및 기술개발 등 다양한 분야에서 특허정보의 중요성은 매우 커지고 있다. The importance of patent information is increasing in various fields such as research and technology development.

하지만 특허정보 분석이 용이하지 않은 점은 키워드 기반의 검색엔진에 따라 사용자가 원하는 기술 또는 특징이 그 컨텍스트로 포함된 특허문헌 뿐만 아니라, 전혀 무관한 특허문헌들인 노이즈까지 검색 리스트에 포함되어 검색결과로 나오기 때문일 수 있다.However, the fact that it is not easy to analyze patent information is that according to the keyword-based search engine, not only patent documents in which the technology or features desired by the user are included in the context, but also noise, which is completely irrelevant patent documents, are included in the search list and are displayed as search results. It may be because it comes out.

특히 검색하고자 하는 기술의 특징이 매우 빈번히 사용되는 용어들을 이용하는 방법외에는 마땅히 검색식을 작성할 방법이 없는 경우에는 이러한 노이즈는 검색 리스트에서 상당히 많은 비중을 차지할 수 밖에 없으며, 이는 특허분석에서 매우 많은 리소스를 요구하게 되는 문제점이 있다.In particular, if there is no way to create a search expression other than the method of using terms that are used very frequently, the characteristic of the technology to be searched for, this noise inevitably occupies a significant portion of the search list, which takes a lot of resources in the patent analysis. There is a problem to be asked.

따라서 사용자가 원하는 기술적 특징을 갖는 특허문헌을 검색하기 위한 소정의 검색식을 입력받고 검색식에 상응하는 검색 리스트를 획득한 후에, 특허문헌의 기술분류(예컨대, IPC 등)를 이용하여 일률적으로 노이즈를 제거하는 방식도 사용되고 있지만, 기술이 갈수록 융합되어 가고 있는 환경에서 이러한 방식은 실제 노이즈가 아님에도 불구하고 노이즈로 취급될 리스크가 존재한다. 더욱이 다른 기술분류에서도 사용자가 원하는 기술적 특징이 컨텍스트로 포함되어 있을 가능성은 존재하므로 이러한 노이즈 제거 방식은 바람직하지 않을 수 있다.Therefore, after the user inputs a predetermined search formula to search for a patent document having the desired technical characteristics and obtains a search list corresponding to the search formula, noise is uniformly applied by using the technical classification of the patent document (eg, IPC, etc.). A method of removing is also used, but in an environment where technologies are increasingly fused, there is a risk of being treated as noise even though this method is not actual noise. Moreover, since there is a possibility that the technical characteristics desired by the user are included in the context in other technical classifications, such a noise removal method may not be desirable.

따라서 효과적이고 빠른 시간내에 노이즈를 제거할 수 있는 기술적 사상이 요구된다. Therefore, a technical idea that can effectively and quickly remove noise is required.

한국공개특허 10-2018-0086084 "인공 지능 기술을 적용한 기계 학습 기반의 입력 특허 집합과 관계성 높은 특허 집합을 생성하는 방법 및 장치"Korean Patent Laid-Open Publication No. 10-2018-0086084 "Method and apparatus for generating a patent set having a high relationship with an input patent set based on machine learning applying artificial intelligence technology"

본 발명이 이루고자 하는 기술적인 과제는 딥러닝을 이용하여 보다 정확하고 빠른 속도로 특허 검색 리스트 중 노이즈를 검출할 수 있는 방법 및 그 시스템을 제공하는 것이다. A technical problem to be achieved by the present invention is to provide a method and a system for detecting noise in a patent search list more accurately and at a faster speed using deep learning.

상기 기술적 과제를 달성하기 위한 특허정보의 노이즈 검출 방법은 노이즈 검출 시스템이 특허정보 DB로부터 특허문헌의 딥러닝을 통해 워드투벡터 엔진 또는 센텐스투벡터 엔진을 구축하는 단계, 상기 노이즈 검출 시스템이 사용자가 원하는 특허문헌을 검색하기 위한 검색조건을 입력받는 단계, 상기 노이즈 검출 시스템이 입력받은 검색조건에 상응하는 특허목록 데이터를 포함하는 로 데이터 특허 리스트를 특정하는 단계, 상기 노이즈 검출 시스템이 특정한 특허 리스트에 포함된 특허문헌들 각각을 워드투벡터 엔진 또는 센텐스투벡터 엔진을 통해 워드벡터 세트 또는 센텐스 벡터 세트로 변환하는 단계, 및 변환한 특허문헌별 워드벡터 세트 또는 센텐스벡터 세트에 기초하여 상기 특허 리스트에 포함된 특허문헌들 중 노이즈 문헌을 검출하는 단계를 포함한다.The noise detection method of patent information to achieve the above technical problem is the step of constructing a word-to-vector engine or a centen-to-vector engine through deep learning of the patent document from the patent information DB by the noise detection system, and the noise detection system Receiving a search condition for searching for a desired patent document, specifying a raw data patent list including patent list data corresponding to the search condition received by the noise detection system, and specifying a patent list by the noise detection system Converting each of the patent documents included in the word-to-vector engine into a word vector set or a sentence vector set through a word-to-vector engine or a centen-to-vector engine, and based on the converted word vector set or sentence vector set for each patent document And detecting noise documents among the patent documents included in the patent list.

상기 딥러닝 기반의 특허정보 워드임베딩 방법은 상기 노이즈 검출 시스템이 상기 검색조건에 포함된 검색 키워드들을 상기 워드투벡터 엔진을 통해 검색조건 워드벡터 세트로 변환하는 단계를 더 포함하며, 상기 변환한 특허문헌별 워드벡터 세트 및 센텐스벡터 세트에 기초하여 상기 특허 리스트에 포함된 특허문헌들 중 노이즈 문헌을 검출하는 단계는 상기 검색조건 워드벡터 세트에 더 기초하여 상기 노이즈 문헌을 검출하는 단계를 포함할 수 있다.The deep learning-based patent information word embedding method further includes the step of converting, by the noise detection system, the search keywords included in the search condition into a search condition word vector set through the word-to-vector engine, and the converted patent The step of detecting a noise document among the patent documents included in the patent list based on a word vector set and a sense vector set for each document includes the step of detecting the noise document further based on the search condition word vector set. I can.

상기 검색조건 워드벡터 세트에 더 기초하여 상기 노이즈 문헌을 검출하는 단계는 상기 노이즈 검출 시스템이 상기 검색조건 워드벡터 세트들과 상기 특허문헌들 각각에서 미리 설정된 특정 파트에 포함된 워드들에 대한 특정파트 워드벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단하는 단계를 포함할 수 있다.The step of detecting the noise document further based on the search condition word vector set includes, by the noise detection system, a specific part for words included in a specific part preset in each of the search condition word vector sets and the patent documents. Comparing the set of word vectors may include determining whether or not a predetermined reference condition is satisfied.

상기 노이즈 검출 시스템이 상기 검색조건 워드벡터 세트들과 상기 특허문헌들 각각 중에서 미리 설정된 특정 파트에 포함된 워드들에 대한 특정파트 워드벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단하는 단계는 상기 검색조건 워드벡터 세트에 포함된 벡터들을 소정의 벡터연산을 통하여 제1특징벡터를 생성하고, 상기 특정파트 워드벡터 세트를 소정의 벡터연산을 통하여 제2특징벡터를 생성하는 단계, 생성한 상기 제1특징벡터와 상기 제2특징벡터의 유사도에 기초하여 상기 미리 정해진 기준조건을 만족하는지를 판단하는 단계를 포함할 수 있다.Determining, by the noise detection system, whether or not a predetermined reference condition is satisfied by comparing the search condition word vector sets and a specific part word vector set for words included in a predetermined specific part among each of the patent documents Is a step of generating a first feature vector through a predetermined vector operation on the vectors included in the search condition word vector set, and generating a second feature vector through a predetermined vector operation on the specific part word vector set. And determining whether the predetermined reference condition is satisfied based on the similarity between the first feature vector and the second feature vector.

상기 딥러닝 기반의 특허정보 워드임베딩 방법은 상기 노이즈 검출 시스템이 상기 검색조건에 포함된 검색문장을 상기 센텐스투벡터 엔진을 통해 검색조건 센텐스벡터로 변환하는 단계를 더 포함하며, 상기 변환한 특허문헌별 워드벡터 세트 또는 센텐스벡터 세트에 기초하여 상기 특허 리스트에 포함된 특허문헌들 중 노이즈 문헌을 검출하는 단계는 상기 검색조건 센텐스벡터에 더 기초하여 상기 노이즈 문헌을 검출하는 단계를 포함할 수 있다.The deep learning-based patent information word embedding method further includes the step of converting, by the noise detection system, a search sentence included in the search condition into a search condition sentence vector through the centen-to-vector engine, and the converted The step of detecting a noise document among the patent documents included in the patent list based on a word vector set or a sense vector set for each patent document includes detecting the noise document further based on the search condition sense vector. can do.

상기 검색조건 센텐스벡터에 더 기초하여 상기 노이즈 문헌을 검출하는 단계는 상기 노이즈 검출 시스템이 상기 검색조건 센텐스벡터와 상기 특허문헌들 각각에서 미리 설정된 복수의 특정파트들에 해당하는 센텐스들을 각각 센텐스벡터로 변환한 특정파트 센텐스벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단하는 단계를 포함할 수 있다.The step of detecting the noise document further based on the search condition sense vector may include, by the noise detection system, the search condition sense vector and the senses corresponding to a plurality of specific parts preset in each of the patent documents, respectively. It may include the step of determining whether or not a predetermined reference condition is satisfied by comparing a set of specific part sentence vectors converted into a sentence vector.

상기 노이즈 검출 시스템이 상기 검색조건 센텐스벡터와 상기 특허문헌들 각각에서 미리 설정된 복수의 특정파트들에 해당하는 센텐스들을 각각 센텐스벡터로 변환한 특정파트 센텐스벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단하는 단계는 상기 특정파트 센텐스벡터 세트에 포함된 벡터들을 소정의 벡터연산을 통해 제3특징벡터를 생성하는 단계, 상기 검색조건 센텐스벡터와 상기 제3특징벡터의 유사도에 기초하여 상기 미리 정해진 기준조건을 만족하는지를 판단하는 단계를 포함할 수 있다.The noise detection system compares the search condition sense vector and a set of specific part scent vectors obtained by converting the sentences corresponding to a plurality of specific parts preset in each of the patent documents into a sense vector, and a predetermined reference The step of determining whether the condition is satisfied may include generating a third feature vector through a predetermined vector operation on vectors included in the specific part sense vector set, and the search condition sense vector and the third feature vector It may include determining whether the predetermined reference condition is satisfied based on the degree of similarity.

상기 검색조건 센텐스벡터와 상기 제3특징벡터의 유사도에 기초하여 상기 미리 정해진 기준조건을 만족하는지를 판단하는 단계는 상기 노이즈 검출 시스템이 상기 검색조건 센텐스벡터와 상기 제3특징벡터의 코사인 유사도를 연산하고, 연산한 코사인 유사도가 소정의 임계값 내인지를 판단하는 단계를 포함할 수 있다.The step of determining whether the predetermined reference condition is satisfied based on the similarity between the search condition sentence vector and the third feature vector, the noise detection system calculates the cosine similarity of the search condition sentence vector and the third feature vector. Computing and determining whether the calculated cosine similarity is within a predetermined threshold.

상기 복수의 특정파트들은 특허문헌의 제목, 요약, 또는 대표청구항 중 적어도 두개를 포함할 수 있다.The plurality of specific parts may include at least two of the title, summary, or representative claim of the patent document.

상기 기술적 과제를 해결하기 위한 특허정보의 노이즈 검출 시스템은 특허정보 DB로부터 특허문헌의 딥러닝을 통해 구축된 워드투벡터 엔진 또는 센텐스투벡터 엔진, 사용자가 원하는 특허문헌을 검색하기 위한 검색조건을 입력받고, 입력받은 검색조건에 상응하는 특허목록 데이터를 포함하는 로 데이터인 특허 리스트를 특정하는 특정모듈, 상기 특허 리스트에 포함된 특허문헌들 각각의 적어도 일부가 상기 워드투벡터 엔진 또는 상기 센텐스투벡터 엔진을 통해 워드벡터 세트 또는 센텐스 벡터 세트로 변환되면, 변환된 특허문헌별 워드벡터 세트 또는 센텐스벡터 세트에 기초하여 상기 특허 리스트에 포함된 특허문헌들 중 노이즈 문헌을 검출하기 위한 제어모듈을 포함한다.The patent information noise detection system to solve the above technical problem is a word-to-vector engine or centen-to-vector engine built through deep learning of patent documents from patent information DB, and search conditions for searching for patent documents desired by users. A specific module that specifies a patent list, which is raw data including patent list data corresponding to the inputted and received search conditions, and at least a part of each of the patent documents included in the patent list is the word-to-vector engine or the sentence Control for detecting noise documents among patent documents included in the patent list based on the converted word vector set or sentence vector set for each patent document when converted into a word vector set or a sentence vector set through a two vector engine Includes modules.

상기 워드투벡터 엔진은 상기 검색조건에 포함된 검색 키워드들을 상기 워드투벡터 엔진을 통해 검색조건 워드벡터 세트로 변환하고, 상기 제어모듈은 상기 검색조건 워드벡터 세트에 더 기초하여 상기 노이즈 문헌을 검출한다.The word-to-vector engine converts the search keywords included in the search condition into a search condition word vector set through the word-to-vector engine, and the control module detects the noise document further based on the search condition word vector set. do.

상기 제어모듈은 상기 검색조건 워드벡터 세트들과 상기 특허문헌들 각각에서 미리 설정된 특정 파트에 포함된 워드들에 대한 특정파트 워드벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단할 수 있다.The control module may determine whether or not a predetermined reference condition is satisfied by comparing the search condition word vector sets and a specific part word vector set for words included in a specific part preset in each of the patent documents. .

상기 제어모듈은 상기 검색조건 워드벡터 세트에 포함된 벡터들을 소정의 벡터연산을 통하여 제1특징벡터를 생성하고, 상기 특정파트 워드벡터 세트를 소정의 벡터연산을 통하여 제2특징벡터를 생성하고, 생성한 상기 제1특징벡터와 상기 제2특징벡터의 유사도에 기초하여 상기 미리 정해진 기준조건을 만족하는지를 판단할 수 있다.The control module generates a first feature vector through a predetermined vector operation on the vectors included in the search condition word vector set, and generates a second feature vector through a predetermined vector operation on the specific part word vector set, It may be determined whether the predetermined reference condition is satisfied based on the similarity between the generated first feature vector and the second feature vector.

상기 센텐스투벡터 엔진은 상기 검색조건에 포함된 검색문장을 상기 센텐스투벡터 엔진을 통해 검색조건 센텐스벡터로 변환하고, 상기 제어모듈은 상기 검색조건 센텐스벡터에 더 기초하여 상기 노이즈 문헌을 검출할 수 있다.The centen-to-vector engine converts the search sentence included in the search condition into a search condition centen- vector through the cent-to-vector engine, and the control module further comprises the noise document based on the search condition centen- vector. Can be detected.

상기 제어모듈은 상기 검색조건 센텐스벡터와 상기 특허문헌들 각각에서 미리 설정된 복수의 특정파트들에 해당하는 센텐스들을 각각 센텐스벡터로 변환한 특정파트 센텐스벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단할 수 있다.The control module compares the search condition scent vector and scents corresponding to a plurality of specific parts preset in each of the patent documents to a specific part scent vector set, respectively, and a predetermined reference condition It can be determined whether or not is satisfied.

상기 제어모듈은 상기 특정파트 센텐스벡터 세트에 포함된 벡터들을 소정의 벡터연산을 통하여 제3특징벡터를 생성하고, 상기 검색조건 센텐스벡터와 상기 제3특징벡터의 유사도에 기초하여 상기 미리 정해진 기준조건을 만족하는지를 판단할 수 있다.The control module generates a third feature vector through a predetermined vector operation from vectors included in the specific part sense vector set, and based on the similarity between the search condition sense vector and the third feature vector, the predetermined It can be judged whether or not the standard conditions are satisfied.

본 발명의 기술적 사상에 따르면 딥러닝을 이용하여 보다 정확하고 빠른 속도로 특허 검색 리스트 중 노이즈를 검출할 수 있는 효과가 있다.According to the technical idea of the present invention, there is an effect of detecting noise in a patent search list more accurately and at a faster speed by using deep learning.

또한 특허문헌 전체가 아니라 제목, 대표청구항, 요약 등 해당 특허문헌의 기술적 특징을 대표할 만한 파트만을 이용한 워드벡터 또는 센텐스벡터를 이용하는 경우 보다 노이즈 검출의 정확성이 높아질 수 있는 효과가 있다. In addition, there is an effect that the accuracy of noise detection can be increased compared to the case of using a word vector or a sentence vector using only parts that represent technical characteristics of the patent document, such as the title, representative claim, and summary, rather than the entire patent document.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 기술적 사상에 따른 딥러닝 기반의 특허정보 워드임베딩 시스템의 논리적인 구성을 개략적으로 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시 예에 따른 딥러닝 기반의 특허정보 워드임베딩 방법을 개략적으로 설명하기위한 플로우 차트를 나타낸다.
도 3은 본 발명의 실시 예에 따른 딥러닝 기반의 특허정보 워드임베딩 방법을 위한 검색조건의 일 예를 설명하기 위한 도면이다.
도 4는 본 발명의 실시 예에 따른 딥러닝 기반의 특허정보 워드임베딩 방법을 위해 선택적으로 이용되는 파트 정보를 설명하기 위한 도면이다.
Brief description of each drawing is provided in order to more fully understand the drawings cited in the detailed description of the present invention.
1 is a diagram schematically illustrating a logical configuration of a deep learning-based patent information word embedding system according to the technical idea of the present invention.
FIG. 2 is a flowchart schematically illustrating a deep learning-based patent information word embedding method according to an embodiment of the present invention.
3 is a diagram illustrating an example of a search condition for a deep learning-based patent information word embedding method according to an embodiment of the present invention.
4 is a diagram for explaining part information selectively used for a deep learning-based patent information word embedding method according to an embodiment of the present invention.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.In the present invention, since various transformations can be applied and various embodiments can be provided, specific embodiments will be illustrated in the drawings and described in detail in the detailed description. However, this is not intended to limit the present invention to a specific embodiment, it is to be understood to include all conversions, equivalents, and substitutes included in the spirit and scope of the present invention. In describing the present invention, when it is determined that a detailed description of a related known technology may obscure the subject matter of the present invention, a detailed description thereof will be omitted.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 아니 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.Terms such as first and second may be used to describe various components, but the components should not be limited by the terms. These terms are used only for the purpose of distinguishing one component from another component.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. The terms used in the present application are used only to describe specific embodiments, and are not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise.

본 명세서에 있어서, “포함하다”또는 “가지다”등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.In the present specification, terms such as "include" or "have" are intended to designate the presence of features, numbers, steps, actions, components, parts, or a combination of these described in the specification, but one or more other It is to be understood that the presence or addition of features, numbers, steps, actions, components, parts, or combinations thereof, does not preclude in advance the possibility of being excluded.

또한, 본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터를 '전송'하는 경우에는 상기 구성요소는 상기 다른 구성요소로 직접 상기 데이터를 전송할 수도 있고, 적어도 하나의 또 다른 구성요소를 통하여 상기 데이터를 상기 다른 구성요소로 전송할 수도 있는 것을 의미한다. 반대로 어느 하나의 구성요소가 다른 구성요소로 데이터를 '직접 전송'하는 경우에는 상기 구성요소에서 다른 구성요소를 통하지 않고 상기 다른 구성요소로 상기 데이터가 전송되는 것을 의미한다.In addition, in the present specification, when one component'transmits' data to another component, the component may directly transmit the data to the other component, or through at least one other component. This means that the data may be transmitted to the other component. Conversely, when one component'directly transmits' data to another component, it means that the data is transmitted from the component to the other component without passing through the other component.

이하, 첨부된 도면들을 참조하여 본 발명의 실시 예들을 중심으로 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.Hereinafter, the present invention will be described in detail based on embodiments of the present invention with reference to the accompanying drawings. The same reference numerals in each drawing indicate the same member.

도 1은 본 발명의 기술적 사상에 따른 딥러닝 기반의 특허정보 워드임베딩 시스템의 논리적인 구성을 개략적으로 설명하기 위한 도면이다. 1 is a diagram schematically illustrating a logical configuration of a deep learning-based patent information word embedding system according to the technical idea of the present invention.

도 1을 참조하면, 본 발명의 기술적 사상에 따른 딥러닝 기반의 특허정보 워드임베딩 방법을 구현하기 위해서는 노이즈 검출시스템(100)이 구현될 수 있다. 상기 노이즈 검출시스템(이하, 검출 시스템, 100)은 소정의 데이터 처리시스템(미도시)에 설치되어 본 발명의 기술적 사상을 구현할 수 있다. Referring to FIG. 1, in order to implement a deep learning-based patent information word embedding method according to the technical idea of the present invention, a noise detection system 100 may be implemented. The noise detection system (hereinafter, the detection system 100) may be installed in a predetermined data processing system (not shown) to implement the technical idea of the present invention.

상기 데이터 처리시스템은 본 발명의 기술적 사상을 구현하기 위한 연산능력을 가진 시스템을 의미하며, 일반적으로 네트워크를 통해 클라이언트가 접속가능한 네트워크 서버뿐만 아니라 개인용 컴퓨터, 휴대 단말 등과 같이 본 발명의 기술적 사상에 따라 오브젝트 검출을 이용한 서비스를 수행할 수 있는 어떠한 시스템도 본 명세서에서 정의되는 상기 데이터 처리시스템으로 정의될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다. The data processing system refers to a system having computing power for realizing the technical idea of the present invention, and in general, according to the technical idea of the present invention, such as a personal computer, a portable terminal, as well as a network server accessible to a client through a network. An average expert in the technical field of the present invention can easily infer that any system capable of performing a service using object detection can be defined as the data processing system defined in the present specification.

상기 데이터 처리시스템은 프로세서 및 저장장치를 포함할 수 있다. 상기 프로세서는 본 발명의 기술적 사상을 구현하기 위한 프로그램을 구동시킬 수 있는 연산장치를 의미할 수 있으며, 상기 프로세서는 상기 프로그램을 구동하여 본 명세서에서 정의되는 기능을 수행할 수 있다. The data processing system may include a processor and a storage device. The processor may mean an operation device capable of driving a program for implementing the technical idea of the present invention, and the processor may perform a function defined in the present specification by driving the program.

상기 저장장치는 상기 프로그램을 저장할 수 있는 데이터 저장수단을 의미할 수 있으며, 구현 예에 따라 복수의 저장수단으로 구현될 수도 있다. 또한 상기 저장장치는 상기 데이터 처리시스템에 포함된 주 기억장치 뿐만 아니라, 상기 프로세서에 포함될 수 있는 임시 저장장치 또는 메모리 등을 포함하는 의미일 수도 있다.The storage device may mean a data storage means capable of storing the program, and may be implemented as a plurality of storage means according to implementation examples. In addition, the storage device may mean not only a main storage device included in the data processing system, but also a temporary storage device or a memory that may be included in the processor.

상기 검출시스템(100)은 도 1에서는 어느 하나의 물리적 장치로 구현된 것처럼 도시하였지만, 필요에 따라 복수의 물리적 장치가 유기적으로 결합되어 본 발명의 기술적 사상에 따른 검출시스템(100)을 구현할 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.Although the detection system 100 is illustrated as being implemented as any one physical device in FIG. 1, a plurality of physical devices are organically combined as needed to implement the detection system 100 according to the technical idea of the present invention. The average expert in the technical field of the present invention will be able to easily deduce.

이하 본 명세서에서 검출의 대상이 되는 노이즈는 사용자가 특허검색을 수행한 검색결과인 특허 리스트들 중 사용자가 원하는 기술적 특징과는 무관하다고 판단되는 특허문헌일 수 있다.Hereinafter, noise to be detected in the present specification may be a patent document that is determined to be irrelevant to a technical feature desired by a user among patent lists, which is a search result of a user's patent search.

일반적으로 검색결과로 획득되는 로 데이터인 특허 리스트들 중에는 상당한 수의 노이즈가 포함되어 있다. 이는 키워드를 통한 특허검색에 필연적일 수 밖에 없는 것으로 여겨지고 있다.A significant number of noises are contained in patent lists, which are raw data generally obtained as search results. This is believed to be inevitable for patent search through keywords.

왜냐하면 키워드와 연산자만으로는 사용자가 원하는 기술적 특징을 명확하게 표현하기가 불가능한 경우가 많기 때문이다. 또한 최대한 기술적 특징을 키워드와 연산자로 표현한다고 하다라도 기술적 특징이 매우 일반적인 단어들로만 설명될 수 밖에 없을 때에는 검색결과에서 사용자가 원하는 특허문헌보다는 오히려 노이즈가 더 많이 포함되어 있는 경우도 빈번하다.This is because in many cases it is impossible to clearly express the technical characteristics desired by the user only with keywords and operators. In addition, even if the technical characteristics are expressed as keywords and operators as much as possible, when the technical characteristics can only be described with very general words, the search results often contain more noise than the patent documents desired by the user.

따라서 선행기술의 검색 또는 특허분석 등에서 이러한 노이즈로 인해 불필요하게 소요되는 시간 등의 리소스 낭비가 심각한 상황이다.Therefore, there is a serious waste of resources, such as unnecessary time, due to noise in search of prior art or patent analysis.

이러한 문제점을 해결하기 위한 상기 검출시스템(100)은 딥러닝 기반의 엔진을 이용하여 노이즈를 상당히 높은 신뢰수준으로 검출할 수 있다.The detection system 100 for solving this problem can detect noise with a considerably high confidence level using an engine based on deep learning.

본 발명의 기술적 사상에 따른 검출시스템(100)은 딥러닝 기반으로 학습된 워드투벡터(word to vector, word2vec) 엔진(130) 및/또는 센텐스투벡터(sentence to vector, sentece2vec) 엔진(140)을 구비할 수 있다. The detection system 100 according to the technical idea of the present invention includes a word to vector (word2vec) engine 130 and/or a sentence to vector (sentence to vector, sentece2vec) engine 140 learned based on deep learning. ) Can be provided.

워드투벡터 엔진(130)은 워드를 벡터로 변환하는 뉴럴 네트워크 기반의 엔진일 수 있다. 또한 센텐스투벡터 엔진(140)은 센텐스를 벡터로 변환하는 뉴럴 네트워크 기반의 엔진일 수 있다.The word-to-vector engine 130 may be an engine based on a neural network that converts words into vectors. In addition, the centen-to-vector engine 140 may be an engine based on a neural network that converts centens into vectors.

상기 워드투벡터 엔진(130) 및/또는 센텐스투벡터 엔진(140)은 다수의 특허문헌을 딥러닝 기반의 뉴럴네트워크 모델을 통해 학습될 수 있다.The word-to-vector engine 130 and/or the centen-to-vector engine 140 may learn a number of patent documents through a deep learning-based neural network model.

알려진 바와 같이 학습된 워드투벡터 엔진은 기존의 심볼릭(symbolic) 방식 또는 통계적(staticsical) 방식의 NLP(Natural Language Processing)의 문제점인 워드 즉 단어를 어느 하나의 단일한 상징(의미)로 보는 것이 아니라, 모든 단어를 벡터로 표현하되 단어 사이의 유사성과 차이점을 계산하는 방식을 이용할 수 있다. 이러한 방식은 워드의 주변단어와의 관계를 통해 단어가 표현하는 바를 예측하는 것으로써, 워드들은 각각 학습된 워드투벡터 엔진을 통해 워드벡터로 변환되며 벡터간의 유사도(또는 거리(distance))가 크다면 실제 그 의미도 유사하다고 판단될 수 있는 장점이 있다.As is known, the learned word-to-vector engine does not view words as a single symbol (meaning), which is a problem of NLP (Natural Language Processing) of the conventional symbolic method or staticsical method. , All words are expressed as vectors, but the similarity and difference between words can be calculated. This method predicts what the word represents through the relationship with the surrounding words of the word, and each word is converted to a word vector through the learned word-to-vector engine, and the similarity (or distance) between vectors is large. If it is, there is an advantage that the actual meaning can be judged to be similar.

특히 특허문헌과 같이 매우 많은 문헌들이 학습되고, 여기에는 매우 많은 문장들이 존재하며, 이러한 문장들에 포함된 단어들의 주변단어가 동일 또는 유사하다면 실제로 그 단어의 의미가 유사할 가능성은 매우 클 수 있다. 또한 이러한 특징은 기술분야가 동일 또는 유사하면 더욱 강화될 수 있어서 워드투벡터 엔진의 정확도는 증대될 수 있는 특징이 있다.In particular, a very large number of documents such as patent documents are learned, and there are a large number of sentences here, and if the surrounding words of the words included in these sentences are the same or similar, the possibility that the meaning of the word is actually similar can be very high. . In addition, this characteristic can be further enhanced if the technical field is the same or similar, and thus the accuracy of the word-to-vector engine can be increased.

마찬가지로 센텐스투벡터 엔진 역시 하나의 센텐스를 벡터로 표현하되 주변 센텐스와의 관계를 통해 센텐스가 표현하는 바를 예측하게 되고, 유사한 의미를 갖는 센텐스벡터는 벡터 공간 상에서 유사한 위치에 존재할 가능성이 높아지게 되어 유사의미 기반의 검색에 용이할 수 있다.Likewise, the Sentence-to-Vector engine also expresses one Sentence as a vector, but predicts what the Sentence represents through the relationship with the surrounding Sentence, and the Sentence Vector with similar meaning is likely to exist in a similar position in the vector space. As this increases, it can be easy to search based on similar meaning.

이러한 워드투벡터 및 센텐스투벡터를 생성하기 위한 학습 알고리즘에 대해서는 공지된 다양한 방식이 존재하므로, 본 명세서에서는 본 발명의 기술적 특징을 명확하게 하기 위해 상세한 설명은 생략하도록 한다.Since there are various known methods for the learning algorithm for generating the word-to-vector and centen-to-vector, detailed descriptions of the technical features of the present invention will be omitted in this specification.

상기 검출시스템(100)은 상술한 바와 같이 워드투벡터 엔진(130) 및/또는 센텐스투벡터 엔진(140)을 통해 검색결과로 획득된 특허 리스트 중에서 노이즈를 효과적으로 검출할 수 있다. As described above, the detection system 100 can effectively detect noise from a patent list obtained as a search result through the word-to-vector engine 130 and/or the centen-to-vector engine 140.

이러한 기능을 위해 구현되는 검출시스템(100)은 도 1과 같은 구성을 가질 수 있다. The detection system 100 implemented for this function may have a configuration as shown in FIG. 1.

상기 검출시스템(100)은 제어모듈(110), 특정모듈(120), 워드투벡터 엔진(130), 및/또는 센텐스투벡터 엔진(140)을 포함할 수도 있다. The detection system 100 may include a control module 110, a specific module 120, a word-to-vector engine 130, and/or a centen-to-vector engine 140.

상기 검출시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 필요한 하드웨어 리소스(resource) 및/또는 소프트웨어를 구비한 논리적인 구성을 의미할 수 있으며, 반드시 하나의 물리적인 구성요소를 의미하거나 하나의 장치를 의미하는 것은 아니다. 즉, 상기 검출시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 구비되는 하드웨어 및/또는 소프트웨어의 논리적인 결합을 의미할 수 있으며, 필요한 경우에는 서로 이격된 장치에 설치되어 각각의 기능을 수행함으로써 본 발명의 기술적 사상을 구현하기 위한 논리적인 구성들의 집합으로 구현될 수도 있다. 또한, 상기 검출시스템(100)은 본 발명의 기술적 사상을 구현하기 위한 각각의 기능 또는 역할별로 별도로 구현되는 구성들의 집합을 의미할 수도 있다. 예컨대, 상기 제어모듈(110), 특정모듈(120), 워드투벡터 엔진(130), 및/또는 센텐스투벡터 엔진(140) 각각은 서로 다른 물리적 장치에 위치할 수도 있고, 동일한 물리적 장치에 위치할 수도 있다. 또한, 구현 예에 따라서는 상기 제어모듈(110), 특정모듈(120), 워드투벡터 엔진(130), 및/또는 센텐스투벡터 엔진(140) 각각을 구성하는 소프트웨어 및/또는 하드웨어의 결합 역시 서로 다른 물리적 장치에 위치하고, 서로 다른 물리적 장치에 위치한 구성들이 서로 유기적으로 결합되어 각각의 상기 모듈들을 구현할 수도 있다.The detection system 100 may mean a logical configuration including hardware resources and/or software necessary to implement the technical idea of the present invention, and must mean one physical component or one I do not mean the device. That is, the detection system 100 may refer to a logical combination of hardware and/or software provided to implement the technical idea of the present invention, and if necessary, it is installed in a device separated from each other to perform each function. By doing so, it may be implemented as a set of logical configurations for implementing the technical idea of the present invention. In addition, the detection system 100 may mean a set of components implemented separately for each function or role for implementing the technical idea of the present invention. For example, the control module 110, the specific module 120, the word-to-vector engine 130, and/or the centen-to-vector engine 140 may each be located in a different physical device, or the same physical device. May be located. In addition, depending on the implementation example, a combination of software and/or hardware constituting each of the control module 110, the specific module 120, the word-to-vector engine 130, and/or the centen-to-vector engine 140 Also, components located in different physical devices and components located in different physical devices may be organically combined with each other to implement the respective modules.

또한, 본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스(resource)의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본 발명의 기술분야의 평균적 전문가에게는 용이하게 추론될 수 있다.In addition, in this specification, a module may mean a functional and structural combination of hardware for performing the technical idea of the present invention and software for driving the hardware. For example, the module may mean a predetermined code and a logical unit of a hardware resource for executing the predetermined code, and does not necessarily mean a physically connected code or a single type of hardware. Can be easily inferred by an average expert in the technical field of the present invention.

상기 제어모듈(110)은 본 발명의 기술적 사상을 구현하기 위해 상기 검출시스템(100)에 포함된 구성들(예컨대, 특정모듈(120), 워드투벡터 엔진(130), 및/또는 센텐스투벡터 엔진(140))을 제어하거나 이들의 기능 및/또는 리소스를 관리할 수 있다. The control module 110 includes components included in the detection system 100 in order to implement the technical idea of the present invention (eg, a specific module 120, a word to vector engine 130, and/or The vector engine 140 may be controlled or its functions and/or resources may be managed.

상기 특정모듈(120)은 검색조건 및 검색조건에 따른 검색결과인 특허 리스트를 특정할 수 있다.The specific module 120 may specify a search condition and a patent list that is a search result according to the search condition.

본 발명의 기술적 사상에 따르면 상기 검색조건은 종래와 같이 검색식을 포함할 수도 있지만, 자연어로 자유롭게 표현된 자연어 문장이 포함될 수 있다. According to the technical idea of the present invention, the search condition may include a search expression as in the prior art, but a natural language sentence freely expressed in a natural language may be included.

상기 자연어 문장은 사용자가 자기가 원하는 기술적 특징을 표현할 수 있도록 자연어로 작성된 문장일 수 있다. 이러한 자연어 문장은 하나 또는 복수 개일 수도 있다. 보다 많은 정보가 자연어 문장에 포함될수록 보다 정확하게 기술적 특징이 벡터 공간상에 매핑될 수 있음은 물론이다.The natural language sentence may be a sentence written in natural language so that the user can express a desired technical characteristic. One or more of these natural language sentences may be used. It goes without saying that the more information is included in the natural language sentence, the more accurately the technical features can be mapped onto the vector space.

이러한 일 예는 도 3을 참조하여 설명하도록 한다.An example of this will be described with reference to FIG. 3.

도 3은 본 발명의 실시 예에 따른 딥러닝 기반의 특허정보 워드임베딩 방법을 위한 검색조건의 일 예를 설명하기 위한 도면이다.3 is a diagram illustrating an example of a search condition for a deep learning-based patent information word embedding method according to an embodiment of the present invention.

도 3을 참조하면, 상기 검출시스템(100)은 도 3에 도시된 바와 같은 소정의 UI를 제공하고 검색조건을 입력받을 수 있다.Referring to FIG. 3, the detection system 100 may provide a predetermined UI as shown in FIG. 3 and receive a search condition.

검색조건은 검색문장 및/또는 검색식을 포함할 수 있다. 상기 검출시스템(100)은 검색문장을 입력받기 위한 UI(10) 및/또는 필요에 따라 검색식을 입력받기 위한 UI(11)를 사용자에게 제공할 수 있다. The search condition may include a search sentence and/or a search expression. The detection system 100 may provide a user with a UI 10 for inputting a search sentence and/or a UI 11 for inputting a search expression as needed.

본 발명의 기술적 사상에 따르면 검색식은 반드시 검색조건으로 입력받지 않을 수도 있다. 만약 상기 검출시스템(100)이 특허검색 엔진에 포함되어 있는 경우에는, 검색결과인 특허 리스트를 특정하기 위해 검색식을 입력으로 받을 수도 있다. According to the technical idea of the present invention, the search expression may not necessarily be input as a search condition. If the detection system 100 is included in the patent search engine, a search expression may be received as an input to specify a patent list as a search result.

하지만 실시 예에 따라 상기 검출시스템(100)은 이미 특허 리스트를 외부의 특허 검색 엔진으로부터 수신한 사용자에게 특허 리스트 자체를 입력받을 수도 있고, 이러한 경우에는 특허 리스트를 검색하지 않아도 되므로 검색식이 검색조건으로써 요구되지 않아도 무방하다.However, according to an embodiment, the detection system 100 may receive the patent list itself from a user who has already received the patent list from an external patent search engine, and in this case, the search formula does not need to search the patent list. It does not matter if it is not required.

또한 사용자가 직접 검색결과로 획득한 특허 리스트를 상기 검출시스템(100)에 입력하는 경우, 상기 검출시스템(100)은 입력받은 특허 리스트에 대한 정보(예컨대, 제목, 상태, 출원일, 출원인, 요약 등)를 소정의 UI(13)를 통해 사용자에게 제공할 수도 있다.In addition, when a user directly inputs a patent list acquired as a search result into the detection system 100, the detection system 100 provides information on the received patent list (e.g., title, status, filing date, applicant, summary, etc.). ) May be provided to the user through a predetermined UI 13.

어떠한 경우든 상기 특정모듈(120)은 검색조건 및 특허 리스트를 특정할 수 있다.In any case, the specific module 120 may specify a search condition and a patent list.

그러면 상기 워드투벡터 엔진(130)은 검색조건에 기초하여 검색조건에 상응하는 워드벡터 세트를 생성할 수 있다. 그리고 상기 워드투벡터 엔진(130)은 특허 리스트에 포함된 특허문헌들 각각에 상응하는 워드벡터 세트를 생성할 수 있다. Then, the word-to-vector engine 130 may generate a word vector set corresponding to the search condition based on the search condition. In addition, the word-to-vector engine 130 may generate a word vector set corresponding to each of the patent documents included in the patent list.

본 명세서에서 세트는 하나 또는 복수의 벡터를 포함하는 집합을 의미할 수 있다.In the present specification, a set may mean a set including one or a plurality of vectors.

검색조건에 상응하는 워드벡터 세트는 검색조건에 포함된 검색문장 즉 자연어 문장에 기초하여 생성될 수도 있다. 만약 검색식이 검색조건에 포함된 경우는 검색식에 이용된 검색키워드 각각이 상기 워드투벡터 엔진(130)에 의해 워드벡터로 변환될 수도 있다. The word vector set corresponding to the search condition may be generated based on a search sentence included in the search condition, that is, a natural language sentence. If the search expression is included in the search condition, each search keyword used in the search expression may be converted into a word vector by the word-to-vector engine 130.

구현 예에 따라서는 검색문장에 기초하여 생성된 워드벡터 세트와 검색식에 기초하여 생성된 워드벡터 세트가 같이 이용될 수도 있다. 예컨대, 검색문장에 기초하여 생성된 워드벡터 세트와 검색식에 기초하여 생성된 워드벡터 세트가 소정의 벡터 연산을 통해 연산되어 검색조건에 상응하는 하나의 특징벡터로 도출될 수 있다. According to an implementation example, a word vector set generated based on a search sentence and a word vector set generated based on a search expression may be used together. For example, a word vector set generated based on a search sentence and a word vector set generated based on a search expression may be calculated through a predetermined vector operation to derive one feature vector corresponding to the search condition.

어떠한 경우든 상기 제어모듈(110)은 검색조건에 상응하는 워드벡터 세트를 특정할 수 있고, 이러한 워드벡터 세트를 통해 검색조건에 상응하는 검색조건 특징벡터를 생성할 수 있다. 예컨대, 워드벡터 세트에 포함된 벡터들 각각에 대해 소정의 가중치를 부여하여 소정의 벡터 연산(예컨대, 벡터 합)을 수행함으로써 워드벡터 세트별로 특징벡터를 생성할 수 있다. 만약 검색문장에 기초하여 생성된 워드벡터 세트와 검색식에 기초하여 생성된 워드벡터 세트 모두가 이용되는 경우, 워드벡터 세트별 특징벡터를 다시 벡터 연산하여 검색조건에 상응하는 검색조건 특징벡터를 생성할 수 있다.In any case, the control module 110 may specify a word vector set corresponding to the search condition, and generate a search condition feature vector corresponding to the search condition through the word vector set. For example, a feature vector may be generated for each word vector set by performing a vector operation (eg, vector sum) by assigning a predetermined weight to each of the vectors included in the word vector set. If both the word vector set generated based on the search sentence and the word vector set generated based on the search expression are used, the feature vector for each word vector set is vector-calculated to generate a search condition feature vector corresponding to the search condition. can do.

한편 상기 제어모듈(110)은 특허문헌들 각각에 상응하는 특징벡터를 생성할 수 있다. 워드투벡터 엔진(130)에 의해 특허문헌들 각각에 상응하는 워드벡터 세트는 특허문헌에 포함된 모든 단어들이 워드벡터로 변환될 수도 있지만, 특허문헌에는 통상 해당 특허문헌의 기술적 특징과는 무관하게 상투적으로 포함되는 문장 또는 단어들이 다수 존재하므로 특허문헌별로 해당 특허문헌의 기술적 특징이 잘 반영된 파트(부분)만을 선별하고 선별된 파트에 존재하는 워드들만을 워드벡터로 변환하여 워드벡터 세트를 생성하는 것이 더욱 높은 노이즈 검출 성능을 보일 수 있다.Meanwhile, the control module 110 may generate a feature vector corresponding to each of the patent documents. The word vector set corresponding to each of the patent documents by the word-to-vector engine 130 may convert all words included in the patent documents into word vectors, but the patent documents are usually irrespective of the technical characteristics of the corresponding patent documents. Since there are many sentences or words that are normally included, it selects only the parts (parts) that reflect the technical characteristics of the patent documents well for each patent document, and converts only the words existing in the selected parts into word vectors to create a word vector set. Can show higher noise detection performance.

본 발명의 기술적 사상에 따르면 상기 특허문헌의 기술적 특징이 잘 반영된 파트(부분)는 특허문헌의 제목, 청구항, 및/또는 요약 중 적어도 하나를 포함할 수 있다. According to the technical idea of the present invention, the part (part) in which the technical characteristics of the patent document are well reflected may include at least one of the title, claim, and/or summary of the patent document.

도 4는 본 발명의 실시 예에 따른 딥러닝 기반의 특허정보 워드임베딩 방법을 위해 선택적으로 이용되는 파트 정보를 설명하기 위한 도면인데, 도 4에 도시된 바와 같이 특허문헌에는 다양한 항목의 컨텍스트들이 존재한다. 이중에서 특허문헌의 기술적 특징과는 무관한 부분이 상당수 존재할 수 있으며, 본 발명의 실시 예에 의하면 특허문헌의 기술적 특징이 잘 반영된 파트(부분)는 특허문헌의 제목 즉, 발명의 명칭(20) 부분, 청구항 부분(21), 및/또는 요약부분(22)으로 선택될 수 있다.FIG. 4 is a diagram for explaining part information selectively used for a deep learning-based patent information word embedding method according to an embodiment of the present invention. As shown in FIG. 4, contexts of various items exist in the patent document. do. Among them, there may be a large number of parts irrelevant to the technical characteristics of the patent document, and according to the embodiment of the present invention, the part (part) in which the technical characteristics of the patent document are well reflected is the title of the patent document, that is, the name of the invention (20). It may be selected as part, claim part 21, and/or summary part 22.

또한 청구항에서는 일부의 청구항만이 선택될 수도 있다. 예컨대, 대표 청구항(예컨대, 청구항 제1항 또는 독립항들만)만이 선택될 수도 있다.Also, only some of the claims may be selected in the claims. For example, only representative claims (eg, only claim 1 or independent claims) may be selected.

실시 예에 따라 제목, 청구항, 및 요약 모두를 선별할 경우에는 특허문헌별로 워드벡터 세트는 3개가 생성될 수 있다. 이처럼 특허문헌으로부터 생성되며 선별된 파트로부터 제한적으로 선택되어 생성되는 워드벡터 세트를 본 명세서에서는 특정파트 워드벡터 세트로 정의하기로 한다.According to an embodiment, when selecting all of the title, claim, and summary, three word vector sets may be generated for each patent document. In this specification, a word vector set that is generated from the patent document and is limitedly selected from the selected parts and generated is defined as a specific part word vector set.

그러면 각각의 특정파트 워드벡터 세트는 소정의 벡터 연산을 통해 하나의 벡터로 생성될 수 있다. 예컨대, 각각의 특정파트 워드벡터 세트는 동일한 가중치를 가지고 단순히 벡터합으로 연산될 수 있다. 다양한 벡터 연산 및 가중치가 적용될 수 있음은 물론이다. 그리고 연산된 특정파트 워드벡터 세트들 각각에 상응하는 벡터들이 다시 소정의 벡터 연산을 통해 하나의 벡터로 생성될 수 있다. 예컨대, 특허문헌별로 특정파트 워드벡터 세트들이 3개씩 생성되면, 특정파트 워드벡터 세트별로 벡터연산을 통해 하나의 벡터들이 생성될 수 있고, 이렇게 특정파트 워드벡터 세트별로 생성된 3개의 벡터가 다시 소정의 벡터 연산을 통해 하나의 벡터로 생성될 수 있다. 이렇게 생성된 벡터를 본 명세서에서는 특징벡터로 정의하기로 한다.Then, each specific part word vector set can be generated as one vector through a predetermined vector operation. For example, each specific part word vector set can be calculated simply as a vector sum with the same weight. It goes without saying that various vector operations and weights can be applied. Further, vectors corresponding to each of the calculated specific part word vector sets may be generated as one vector through a predetermined vector operation. For example, if three specific part word vector sets are generated for each patent document, one vector can be generated through vector operation for each specific part word vector set, and the three vectors generated for each specific part word vector set are determined again. It can be created as a single vector through the vector operation of. In this specification, the generated vector will be defined as a feature vector.

그러면 상기 제어모듈(110)에 의해 특허문헌별로 하나의 특징벡터가 생성될 수 있다.Then, one feature vector can be generated for each patent document by the control module 110.

그리고 이러한 특허문헌별 특징벡터가 상술한 바와 같은 검색조건 특징벡터와 비교되어 노이즈 여부가 판단될 수 있다.In addition, the feature vectors for each patent document may be compared with the search condition feature vector as described above to determine whether there is noise.

상기 제어모듈(110)은 생성한 검색조건 특징벡터와 특허문헌별 특징벡터의 유사도를 판단할 수 있다. 유사도는 벡터 디스턴스에 기초할 수 있으며, 코사인 유사도가 이용될 수 있다. 상기 제어모듈(110)은 검색조건 특징벡터와 특허문헌별 특징벡터의 코사인 유사도를 연산하고 연산한 값이 소정의 임계값 내인지 여부에 따라 노이즈를 판단할 수 있다.The control module 110 may determine the similarity between the generated search condition feature vector and the feature vector for each patent document. The similarity can be based on the vector distance, and cosine similarity can be used. The control module 110 may calculate the cosine similarity of the search condition feature vector and the feature vector for each patent document, and determine noise according to whether the calculated value is within a predetermined threshold.

한편, 상기 제어모듈(110)은 센텐스투벡터 엔진(140)을 이용하여 센텐스 벡터 기반의 노이즈 검출을 수행할 수도 있다. 물론, 실시 예에 따라서는 상술한 바와 같은 워드벡터 기반의 노이즈 검출 결과 및 센텐스벡터 기반의 노이즈 검출 결과를 모두 이용하여 최종적으로 특허문헌별로 노이즈 여부를 판다할 수 있다. 예컨대, 워드벡터 기반의 유사도 값 및 센텐스벡터 기반의 유사도 값 각각을 소정의 가중치를 이용하여 합산하여 소정의 기준값 내인지 여부에 따라 노이즈 여부를 판단할 수도 있다.Meanwhile, the control module 110 may perform a sense vector-based noise detection using the sense-to-vector engine 140. Of course, depending on the embodiment, it is possible to finally determine whether there is noise for each patent document by using both the word vector-based noise detection result and the sentence vector-based noise detection result as described above. For example, a word vector-based similarity value and a sense vector-based similarity value may be summed using a predetermined weight to determine whether the noise is within a predetermined reference value.

상기 제어모듈(110) 센텐스투벡터 엔진(140)에 의해 생성되는 검색문장에 상응하는 센텐스를 검색조건 센텐스벡터로 특정할 수 있다. 만약 검색문장에 복수의 센텐스가 포함되어 있는 경우 센텐스별로 센텐스벡터가 생성될 수 있고, 이러한 경우 상기 제어모듈(110)은 소정의 벡터 연산을 통해 특징벡터를 생성할 수 있다. 그러면 상기 제어모듈(110)은 검색조건 특징벡터(센텐스벡터)를 생성할 수 있다.The control module 110 may specify a sentence corresponding to a search sentence generated by the sense-to-vector engine 140 as a search condition sense vector. If a plurality of senses are included in the search sentence, a sense vector may be generated for each sensation. In this case, the control module 110 may generate a feature vector through a predetermined vector operation. Then, the control module 110 may generate a search condition feature vector (centence vector).

한편 상기 제어모듈(110)은 센텐스벡터 기반의 노이즈 검출에 있어서도 특허문헌의 특정파트만을 이용할 수 있고, 이는 전술한 바와 같다.On the other hand, the control module 110 can use only a specific part of the patent document even in detecting noise based on a sentence vector, which is the same as described above.

그러면 상기 제어모듈(110)은 특정파트별로 센텐스벡터 세트를 특정할 수 있다. 실시 예에 따라서는 특정파트별로 하나의 센텐스벡터만이 생성될 수도 있다. 또는 특정파트별로 복수의 센텐스벡터가 생성될 수도 있다. Then, the control module 110 may specify a set of sense vectors for each specific part. Depending on the embodiment, only one sense vector may be generated for each specific part. Alternatively, a plurality of sense vectors may be generated for each specific part.

어떠한 경우든 상기 제어모듈(110)은 전술한 바와 같이 특정파트별 센텐스벡터 세트에 포함된 센텐스벡터들에 기초하여 특허문헌별로 특징벡터를 생성할 수 있다. In any case, the control module 110 may generate a feature vector for each patent document based on the sense vectors included in the sense vector set for each specific part as described above.

예컨대, 상기 제어모듈(110)은 제목에 상응하는 제1센텐스벡터, 대표 청구항 1에 상응하는 제2센텐스벡터, 및 요약에 상응하는 제3센텐스벡터를 생성하고, 이들 제1센텐스벡터, 제2센텐스벡터, 및 제3센텐스벡터를 소정의 방식(예컨대, 동일한 가중치를 부여한 벡터 합)으로 벡터연산을 통해 특징벡터를 생성할 수 있다. For example, the control module 110 generates a first sentence vector corresponding to the title, a second sentence vector corresponding to the representative claim 1, and a third sentence vector corresponding to the summary. A feature vector may be generated by vector operation using a vector, a second centen vector, and a third centen vector in a predetermined manner (eg, a vector sum to which the same weight is assigned).

즉, 상기 제어모듈(110)은 특허분헌별로 특정파트에 기초한 특징벡터를 생성할 수 있다.That is, the control module 110 may generate a feature vector based on a specific part for each patent contribution.

그러면 상기 제어모듈(110)은 검색조건에 상응하는 특징벡터(센텐스벡터) 및 특허문헌별 특징벡터(센텐스벡터)에 기초하여 유사도를 판단할 수 있고, 이에 따라 노이즈 여부를 판단할 수 있다.Then, the control module 110 may determine the degree of similarity based on the feature vector (centence vector) corresponding to the search condition and the feature vector (centence vector) for each patent document, and accordingly, determine whether there is noise. .

이러한 본 발명의 실시 예에 따른 노이즈 검출방법을 도식화하면 도 2와 같을 수 있다.A schematic diagram of a noise detection method according to an exemplary embodiment of the present invention may be as shown in FIG. 2.

도 2는 본 발명의 일 실시 예에 따른 딥러닝 기반의 특허정보 워드임베딩 방법을 개략적으로 설명하기위한 플로우 차트를 나타낸다. FIG. 2 is a flowchart schematically illustrating a deep learning-based patent information word embedding method according to an embodiment of the present invention.

도 2를 참조하면, 상기 검출시스템(100)은 딥러닝 기반의 엔진을 구축할 수 있다(S100). 상기 엔진은 워드투벡터 엔진(130) 또는 센텐스투벡터 엔진(140) 중 적어도 하나일 수 있다.Referring to FIG. 2, the detection system 100 may build a deep learning-based engine (S100). The engine may be at least one of a word-to-vector engine 130 and a centen-to-vector engine 140.

그리고 상기 검출시스템(100)은 검색조건 및 특허 리스트를 특정할 수 있다(S110).Further, the detection system 100 may specify a search condition and a patent list (S110).

그러면 상기 검출시스템(100)은 워드벡터 기반의 노이즈 검출(S120 내지 S150) 또는 센텐스벡터 기반의 노이즈 검출(S120-1 내지 S150) 중 적어도 하나를 수행할 수 있다.Then, the detection system 100 may perform at least one of a word vector-based noise detection (S120 to S150) or a sense vector-based noise detection (S120-1 to S150).

워드벡터 기반의 노이즈 검출은 전술한 바와 같이 상기 검출시스템(100)이 검색조건에 상응하는 워드벡터 세트가 적어도 하나 생성되면, 이에 기초하여 검색조건 특징벡터(워드벡터)를 생성할 수 있다(S120).In the word vector-based noise detection, as described above, when the detection system 100 generates at least one word vector set corresponding to a search condition, a search condition feature vector (word vector) may be generated based on this (S120). ).

그리고 상기 검출시스템(100)은 특허문헌별로 특정파트 워드벡터 세트를 특정하고, 이에 기초하여 특허문헌별 특징벡터(워드벡터)를 생성할 수 있다(S130). In addition, the detection system 100 may specify a specific part word vector set for each patent document, and generate a feature vector (word vector) for each patent document based on this (S130).

그러면 생성된 검색조건 특징벡터(워드벡터) 및 특허문헌별 특징벡터(워드벡터)의 유사도를 판단하고(S140), 판단결과에 기초하여 해당 특허문헌이 노이즈인지 여부를 검출할 수 있다(S150).Then, the similarity of the generated search condition feature vector (word vector) and the feature vector (word vector) for each patent document is determined (S140), and whether the corresponding patent document is noise can be detected based on the determination result (S150). .

센텐스벡터 기반의 노이즈 검출은 전술한 바와 같이 상기 검출시스템(100)이 검색조건에 상응하는 센텐스벡터가 적어도 하나 생성되면, 이에 기초하여 검색조건 특징벡터(센텐스벡터)를 생성할 수 있다(S120-1).As described above, when the detection system 100 generates at least one sense vector corresponding to a search condition, as described above, in the sense vector-based noise detection, a search condition feature vector (centence vector) may be generated based on this. (S120-1).

그리고 상기 검출시스템(100)은 특허문헌별로 특정파트 센텐스벡터를 적어도 하나특정하고, 이에 기초하여 특허문헌별 특징벡터(센텐스벡터)를 생성할 수 있다(S130-1). In addition, the detection system 100 may specify at least one specific part sense vector for each patent document, and generate a feature vector (centence vector) for each patent document based on this (S130-1).

그러면 생성된 검색조건 특징벡터(센텐스벡터) 및 특허문헌별 특징벡터(센텐스벡터)의 유사도를 판단하고(S140-1), 판단결과에 기초하여 해당 특허문헌이 노이즈인지 여부를 검출할 수 있다(S150).Then, it is possible to determine the similarity of the generated search condition feature vector (centence vector) and the feature vector (centence vector) for each patent document (S140-1), and detect whether the corresponding patent document is noise based on the determination result. Yes (S150).

상기 검출시스템(100)은 전술한 바와 같이 워드벡터 기반의 노이즈 검출 또는 센텐스벡터 기반의 노이즈 검출 중 어느 하나만 수행할 수도 있고, 이들 모두를 수행한 결과에 기초하여 최종적으로 노이즈 검출을 수행할 수도 있다.As described above, the detection system 100 may perform either only word vector-based noise detection or sentence vector-based noise detection, or may finally perform noise detection based on a result of performing all of them. have.

본 발명의 실시 예에 따른 딥러닝 기반의 특허정보 워드임베딩 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 광 데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.The deep learning-based patent information word embedding method according to an embodiment of the present invention may be implemented as a computer-readable code on a computer-readable recording medium. The computer-readable recording medium includes all types of recording devices that store data that can be read by a computer system. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, hard disk, floppy disk, and optical data storage device. In addition, the computer-readable recording medium is distributed over a computer system connected through a network, so that computer-readable codes can be stored and executed in a distributed manner. In addition, functional programs, codes, and code segments for implementing the present invention can be easily inferred by programmers in the technical field to which the present invention belongs.

본 발명은 도면에 도시된 일 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.Although the present invention has been described with reference to the exemplary embodiment shown in the drawings, this is only exemplary, and those of ordinary skill in the art will appreciate that various modifications and other equivalent embodiments are possible therefrom. Therefore, the true technical protection scope of the present invention should be determined by the technical idea of the attached registration claims.

Claims (17)

특허정보의 워드임베딩 방법에 있어서,
워드 임베딩 시스템이 청구항에 기재된 청구항 키워드에 대응되는 대체 키워드를 적어도 하나 상기 상세한 설명으로부터 탐색하는 단계;
상기 워드 임베딩 시스템이 상기 청구항 키워드를 상기 대체 키워드로 대체한 확장 청구항 문장을 적어도 하나 생성하는 단계; 및
상기 워드 임베딩 시스템이 생성한 적어도 하나의 확장 청구항 문장을 학습 데이터에 포함시켜 소정의 딥러닝 워드임베딩 알고리즘을 통해 학습하는 단계를 포함하는 딥러닝 기반의 특허정보 워드임베딩 방법.
In the word embedding method of patent information,
Searching, by the word embedding system, from the detailed description at least one alternative keyword corresponding to the claim keyword in the claim;
Generating at least one extended claim sentence in which the word embedding system replaces the claim keyword with the replacement keyword; And
A deep learning based patent information word embedding method comprising the step of learning through a predetermined deep learning word embedding algorithm by including at least one extended claim sentence generated by the word embedding system in training data.
제1항에 있어서, 상기 딥러닝 기반의 특허정보 워드임베딩 방법은.
워드 임베딩 시스템이 특허정보 DB로부터 특허 청구항과 발명의 상세한 설명을 분리하는 단계를 더 포함하는 딥러닝 기반의 특허정보 워드임베딩 방법.
The method of claim 1, wherein the deep learning-based patent information word embedding method.
Deep learning-based patent information word embedding method further comprising the step of separating, by the word embedding system, the patent claim and the detailed description of the invention from the patent information DB.
제1항에 있어서, 상기 딥러닝 기반의 특허정보 워드임베딩 방법은,
특허 청구항에 사용되는 비기술적 형식단어를 삭제하는 단계를 더 포함하는 딥러닝 기반의 특허정보 워드임베딩 방법. 상기 노이즈 문헌을 검출하는 단계는,
상기 노이즈 검출 시스템이 상기 검색조건 워드벡터 세트들과 상기 특허문헌들 각각에서 미리 설정된 특정 파트에 포함된 워드들에 대한 특정파트 워드벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단하는 단계를 포함하는 딥러닝 기반의 특허정보 워드임베딩 방법.
The method of claim 1, wherein the deep learning-based patent information word embedding method comprises:
Deep learning-based patent information word embedding method further comprising the step of deleting non-technical formal words used in patent claims. The step of detecting the noise document,
Determining, by the noise detection system, whether or not a predetermined reference condition is satisfied by comparing the search condition word vector sets with a specific part word vector set for words included in a specific part preset in each of the patent documents Deep learning-based patent information word embedding method comprising a.
제3항에 있어서, 상기 노이즈 검출 시스템이 상기 검색조건 워드벡터 세트들과 상기 특허문헌들 각각 중에서 미리 설정된 특정 파트에 포함된 워드들에 대한 특정파트 워드벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단하는 단계는,
상기 검색조건 워드벡터 세트에 포함된 벡터들을 소정의 벡터연산을 통하여 제1특징벡터를 생성하고, 상기 특정파트 워드벡터 세트를 소정의 벡터연산을 통하여 제2특징벡터를 생성하는 단계;
생성한 상기 제1특징벡터와 상기 제2특징벡터의 유사도에 기초하여 상기 미리 정해진 기준조건을 만족하는지를 판단하는 단계를 포함하는 딥러닝 기반의 특허정보 워드임베딩 방법.
The method of claim 3, wherein the noise detection system satisfies a predetermined reference condition by comparing the search condition word vector sets and a specific part word vector set for words included in a predetermined specific part among each of the patent documents. The step of determining whether or not,
Generating a first feature vector from vectors included in the search condition word vector set through a predetermined vector operation, and generating a second feature vector from the specific part word vector set through a predetermined vector operation;
And determining whether the predetermined reference condition is satisfied based on the similarity between the generated first feature vector and the second feature vector.
제1항에 있어서, 상기 딥러닝 기반의 특허정보 워드임베딩 방법은.
상기 노이즈 검출 시스템이 상기 검색조건에 포함된 검색문장을 상기 센텐스투벡터 엔진을 통해 검색조건 센텐스벡터로 변환하는 단계를 더 포함하며,
상기 변환한 특허문헌별 워드벡터 세트 또는 센텐스벡터 세트에 기초하여 상기 특허 리스트에 포함된 특허문헌들 중 노이즈 문헌을 검출하는 단계는,
상기 검색조건 센텐스벡터에 더 기초하여 상기 노이즈 문헌을 검출하는 단계를 포함하는 딥러닝 기반의 특허정보 워드임베딩 방법.
The method of claim 1, wherein the deep learning-based patent information word embedding method.
The noise detection system further comprises converting, by the noise detection system, a search sentence included in the search condition into a search condition sense vector through the centen-to-vector engine,
The step of detecting a noise document among the patent documents included in the patent list based on the converted word vector set or sentence vector set for each patent document,
Deep learning-based patent information word embedding method comprising the step of detecting the noise document further based on the search condition sense vector.
제5항에 있어서, 상기 검색조건 센텐스벡터에 더 기초하여 상기 노이즈 문헌을 검출하는 단계는,
상기 노이즈 검출 시스템이 상기 검색조건 센텐스벡터와 상기 특허문헌들 각각에서 미리 설정된 복수의 특정파트들에 해당하는 센텐스들을 각각 센텐스벡터로 변환한 특정파트 센텐스벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단하는 단계를 포함하는 딥러닝 기반의 특허정보 워드임베딩 방법.
The method of claim 5, wherein the detecting of the noise document further based on the search condition sense vector comprises:
The noise detection system compares the search condition sense vector and the specific part scent vector set obtained by converting each of the scents corresponding to a plurality of specific parts preset in each of the patent documents into a scent vector, and a predetermined reference Deep learning-based patent information word embedding method comprising the step of determining whether a condition is satisfied.
제6항에 있어서, 상기 노이즈 검출 시스템이 상기 검색조건 센텐스벡터와 상기 특허문헌들 각각에서 미리 설정된 복수의 특정파트들에 해당하는 센텐스들을 각각 센텐스벡터로 변환한 특정파트 센텐스벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단하는 단계는,
상기 특정파트 센텐스벡터 세트에 포함된 벡터들을 소정의 벡터연산을 통해 제3특징벡터를 생성하는 단계;
상기 검색조건 센텐스벡터와 상기 제3특징벡터의 유사도에 기초하여 상기 미리 정해진 기준조건을 만족하는지를 판단하는 단계를 포함하는 딥러닝 기반의 특허정보 워드임베딩 방법.
According to claim 6, The noise detection system is a specific part sense vector set in which the search condition sense vector and the senses corresponding to a plurality of specific parts preset in each of the patent documents are converted into a sense vector, respectively. The step of determining whether a predetermined reference condition is satisfied by comparing
Generating a third feature vector by performing a predetermined vector operation on vectors included in the specific part sense vector set;
And determining whether the predetermined reference condition is satisfied based on the similarity between the search condition sentence vector and the third feature vector.
제7항에 있어서, 상기 검색조건 센텐스벡터와 상기 제3특징벡터의 유사도에 기초하여 상기 미리 정해진 기준조건을 만족하는지를 판단하는 단계는,
상기 노이즈 검출 시스템이 상기 검색조건 센텐스벡터와 상기 제3특징벡터의 코사인 유사도를 연산하고, 연산한 코사인 유사도가 소정의 임계값 내인지를 판단하는 단계를 포함하는 딥러닝 기반의 특허정보 워드임베딩 방법.
The method of claim 7, wherein determining whether the predetermined reference condition is satisfied based on a similarity between the search condition sense vector and the third feature vector,
Deep learning-based patent information word embedding comprising the step of calculating, by the noise detection system, a cosine similarity of the search condition sense vector and the third feature vector, and determining whether the calculated cosine similarity is within a predetermined threshold. Way.
제7항에 있어서, 상기 복수의 특정파트들은,
특허문헌의 제목, 요약, 또는 대표청구항 중 적어도 두개를 포함하는 딥러닝 기반의 특허정보 워드임베딩 방법.
The method of claim 7, wherein the plurality of specific parts,
Deep learning-based patent information word embedding method including at least two of the title, summary, or representative claim of the patent document.
데이터 처리장치 설치되며 제1항 내지 제9항 중 어느 한 항에 기재된 방법을 수행하기 위한 컴퓨터 판독가능한 기록매체.
A computer readable recording medium provided with a data processing device and for performing the method according to any one of claims 1 to 9.
특허정보의 워드 임베딩 시스템에 있어서,
특허정보 DB로부터 특허문헌의 딥러닝을 통해 구축된 워드투벡터 엔진 또는 센텐스투벡터 엔진;
사용자가 원하는 특허문헌을 검색하기 위한 검색조건을 입력받고, 입력받은 검색조건에 상응하는 특허목록 데이터를 포함하는 로 데이터인 특허 리스트를 특정하는 특정모듈;
상기 특허 리스트에 포함된 특허문헌들 각각의 적어도 일부가 상기 워드투벡터 엔진 또는 상기 센텐스투벡터 엔진을 통해 워드벡터 세트 또는 센텐스 벡터 세트로 변환되면, 변환된 특허문헌별 워드벡터 세트 또는 센텐스벡터 세트에 기초하여 상기 특허 리스트에 포함된 특허문헌들 중 노이즈 문헌을 검출하기 위한 제어모듈을 포함하는 딥러닝 기반의 특허정보 워드임베딩 시스템.
In the word embedding system of patent information,
A word-to-vector engine or centen-to-vector engine built through deep learning of patent documents from patent information DB;
A specific module for receiving a search condition for searching for a patent document desired by a user, and specifying a patent list, which is raw data including patent list data corresponding to the input search condition;
When at least a part of each of the patent documents included in the patent list is converted into a word vector set or a sensation vector set through the word-to-vector engine or the centen-to-vector engine, the converted word vector set or sen A deep learning-based patent information word embedding system comprising a control module for detecting noise documents among patent documents included in the patent list based on a tense vector set.
제11항에 있어서, 상기 워드투벡터 엔진은.
상기 검색조건에 포함된 검색 키워드들을 상기 워드투벡터 엔진을 통해 검색조건 워드벡터 세트로 변환하고,
상기 제어모듈은,
상기 검색조건 워드벡터 세트에 더 기초하여 상기 노이즈 문헌을 검출하는 딥러닝 기반의 특허정보 워드임베딩 시스템.
The method of claim 11, wherein the word-to-vector engine.
Converting the search keywords included in the search condition into a search condition word vector set through the word-to-vector engine,
The control module,
Deep learning-based patent information word embedding system for detecting the noise document further based on the search condition word vector set.
제12항에 있어서, 상기 제어모듈은,
상기 검색조건 워드벡터 세트들과 상기 특허문헌들 각각에서 미리 설정된 특정 파트에 포함된 워드들에 대한 특정파트 워드벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단하는 딥러닝 기반의 특허정보 워드임베딩 시스템.
The method of claim 12, wherein the control module,
Deep learning-based patent information for determining whether or not a predetermined reference condition is satisfied by comparing the search condition word vector sets and a specific part word vector set for words included in a specific part preset in each of the patent documents Word embedding system.
제13항에 있어서, 상기 제어모듈은,
상기 검색조건 워드벡터 세트에 포함된 벡터들을 소정의 벡터연산을 통하여 제1특징벡터를 생성하고, 상기 특정파트 워드벡터 세트를 소정의 벡터연산을 통하여 제2특징벡터를 생성하고, 생성한 상기 제1특징벡터와 상기 제2특징벡터의 유사도에 기초하여 상기 미리 정해진 기준조건을 만족하는지를 판단하는 딥러닝 기반의 특허정보 워드임베딩 시스템.
The method of claim 13, wherein the control module,
Vectors included in the search condition word vector set are subjected to a predetermined vector operation to generate a first feature vector, and a second feature vector is generated from the specific part word vector set through a predetermined vector operation. A deep learning-based patent information word embedding system that determines whether the predetermined reference condition is satisfied based on the similarity between one feature vector and the second feature vector.
제11항에 있어서, 상기 센텐스투벡터 엔진은,
상기 검색조건에 포함된 검색문장을 상기 센텐스투벡터 엔진을 통해 검색조건 센텐스벡터로 변환하고,
상기 제어모듈은,
상기 검색조건 센텐스벡터에 더 기초하여 상기 노이즈 문헌을 검출하는 딥러닝 기반의 특허정보 워드임베딩 시스템.
The method of claim 11, wherein the centen-to-vector engine,
Converting the search sentence included in the search condition into a search condition sentence vector through the centen-to-vector engine,
The control module,
A deep learning-based patent information word embedding system that further detects the noise document based on the search condition sense vector.
제15항에 있어서, 상기 제어모듈은,
상기 검색조건 센텐스벡터와 상기 특허문헌들 각각에서 미리 설정된 복수의 특정파트들에 해당하는 센텐스들을 각각 센텐스벡터로 변환한 특정파트 센텐스벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단하는 딥러닝 기반의 특허정보 워드임베딩 시스템.
The method of claim 15, wherein the control module,
Whether the search condition sense vector satisfies a predetermined reference condition by comparing a set of specific part scent vectors obtained by converting each of the scents corresponding to a plurality of specific parts preset in each of the patent documents to a scent vector Deep learning-based patent information word embedding system that judges.
제16항에 있어서, 상기 제어모듈은,
상기 특정파트 센텐스벡터 세트에 포함된 벡터들을 소정의 벡터연산을 통하여 제3특징벡터를 생성하고, 상기 검색조건 센텐스벡터와 상기 제3특징벡터의 유사도에 기초하여 상기 미리 정해진 기준조건을 만족하는지를 판단하는 딥러닝 기반의 특허정보 워드임베딩 시스템.


The method of claim 16, wherein the control module,
A third feature vector is generated through a predetermined vector operation of vectors included in the specific part sense vector set, and the predetermined reference condition is satisfied based on the similarity between the search condition sense vector and the third feature vector. Deep learning-based patent information word embedding system that determines whether or not.


KR1020190022092A 2019-02-25 2019-02-25 System and method for patent information word embedding based on deep learning KR20200106108A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190022092A KR20200106108A (en) 2019-02-25 2019-02-25 System and method for patent information word embedding based on deep learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190022092A KR20200106108A (en) 2019-02-25 2019-02-25 System and method for patent information word embedding based on deep learning

Publications (1)

Publication Number Publication Date
KR20200106108A true KR20200106108A (en) 2020-09-11

Family

ID=72472698

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190022092A KR20200106108A (en) 2019-02-25 2019-02-25 System and method for patent information word embedding based on deep learning

Country Status (1)

Country Link
KR (1) KR20200106108A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220079109A (en) * 2020-12-04 2022-06-13 (주)윕스 A method for searching the similar patents based on artificial intelligence and an apparatus thereof
WO2023101364A1 (en) * 2021-11-30 2023-06-08 엘지이노텍 주식회사 Neural network training method
WO2023195769A1 (en) * 2022-04-05 2023-10-12 주식회사 타날리시스 Method for extracting similar patent documents by using neural network model, and apparatus for providing same

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180086084A (en) 2017-01-20 2018-07-30 (주)광개토연구소 Device and Method on Making Highly Related Patent Set from Input Patent Set Based on Machine Learning Methodology Using Artificial Intelligence Technology

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180086084A (en) 2017-01-20 2018-07-30 (주)광개토연구소 Device and Method on Making Highly Related Patent Set from Input Patent Set Based on Machine Learning Methodology Using Artificial Intelligence Technology

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220079109A (en) * 2020-12-04 2022-06-13 (주)윕스 A method for searching the similar patents based on artificial intelligence and an apparatus thereof
WO2023101364A1 (en) * 2021-11-30 2023-06-08 엘지이노텍 주식회사 Neural network training method
WO2023195769A1 (en) * 2022-04-05 2023-10-12 주식회사 타날리시스 Method for extracting similar patent documents by using neural network model, and apparatus for providing same

Similar Documents

Publication Publication Date Title
Umer et al. CNN-based automatic prioritization of bug reports
US20170116203A1 (en) Method of automated discovery of topic relatedness
US7840521B2 (en) Computer-based method and system for efficient categorizing of digital documents
JP7136752B2 (en) Methods, devices, and non-transitory computer-readable media for generating data related to scarcity data based on received data input
US20200097545A1 (en) Automated and optimal encoding of text data features for machine learning models
KR20180077691A (en) Apparatus and method for sentence abstraction
KR102074909B1 (en) Apparatus and method for classifying software vulnerability
KR20200106108A (en) System and method for patent information word embedding based on deep learning
Hu et al. Protecting your children from inappropriate content in mobile apps: An automatic maturity rating framework
KR102088357B1 (en) Device and Method for Machine Reading Comprehension Question and Answer
CN113360912A (en) Malicious software detection method, device, equipment and storage medium
KR20190115319A (en) Mobile apparatus and method for classifying a sentence into a plurality of classes
KR102334255B1 (en) Text data collection platform construction and integrated management method for AI-based voice service
CN111443964A (en) Method, apparatus and computer program product for updating a user interface
KR20200071877A (en) Method and System for information extraction using a self-augmented iterative learning
EP3404553A1 (en) Open information extraction method and system for extracting reified ternary relationship
KR20220073088A (en) A method and system of switching specialized lightweight neural networks for concept-drift adaptation in resource-constrained mobile devices
US20230169176A1 (en) Graph exploration framework for adversarial example generation
US20090094177A1 (en) Method for efficient machine-learning classification of multiple text categories
JP6563350B2 (en) Data classification apparatus, data classification method, and program
KR102280439B1 (en) Apparatus for analyzing intention of query and method thereof
KR20200103200A (en) System and method for patent information niose detection based on deep learning
KR20200101506A (en) System and method for patent information niose detection based on deep learning
KR20200106109A (en) System and method for patent information multilingual machine translation based on deep learning
TW202324202A (en) Extracting explanations from attention-based models