KR20200106108A - 딥러닝 기반의 특허정보 워드임베딩 방법 및 그 시스템 - Google Patents

딥러닝 기반의 특허정보 워드임베딩 방법 및 그 시스템 Download PDF

Info

Publication number
KR20200106108A
KR20200106108A KR1020190022092A KR20190022092A KR20200106108A KR 20200106108 A KR20200106108 A KR 20200106108A KR 1020190022092 A KR1020190022092 A KR 1020190022092A KR 20190022092 A KR20190022092 A KR 20190022092A KR 20200106108 A KR20200106108 A KR 20200106108A
Authority
KR
South Korea
Prior art keywords
vector
word
search condition
deep learning
word embedding
Prior art date
Application number
KR1020190022092A
Other languages
English (en)
Inventor
이진원
Original Assignee
이진원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이진원 filed Critical 이진원
Priority to KR1020190022092A priority Critical patent/KR20200106108A/ko
Publication of KR20200106108A publication Critical patent/KR20200106108A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Technology Law (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

딥러닝 기반의 특허정보 워드임베딩 방법 및 그 시스템이 개시된다. 상기 딥러닝 기반의 특허정보 워드임베딩 방법은 노이즈 검출 시스템이 특허정보 DB로부터 특허문헌의 딥러닝을 통해 워드투벡터 엔진 또는 센텐스투벡터 엔진을 구축하는 단계, 상기 노이즈 검출 시스템이 사용자가 원하는 특허문헌을 검색하기 위한 검색조건을 입력받는 단계, 상기 노이즈 검출 시스템이 입력받은 검색조건에 상응하는 특허목록 데이터를 포함하는 로 데이터 특허 리스트를 특정하는 단계, 상기 노이즈 검출 시스템이 특정한 특허 리스트에 포함된 특허문헌들 각각을 워드투벡터 엔진 또는 센텐스투벡터 엔진을 통해 워드벡터 세트 또는 센텐스 벡터 세트로 변환하는 단계, 및 변환한 특허문헌별 워드벡터 세트 또는 센텐스벡터 세트에 기초하여 상기 특허 리스트에 포함된 특허문헌들 중 노이즈 문헌을 검출하는 단계를 포함한다.

Description

딥러닝 기반의 특허정보 워드임베딩 방법 및 그 시스템 {System and method for patent information word embedding based on deep learning}
본 발명은 딥러닝 기반의 특허정보 워드임베딩 방법 및 그 시스템에 관한 것이다. 보다 상세하게는 딥러닝 기반으로 특허문헌에 최적화된 특허정보의 워드임베딩 방법 및 그 시스템에 관한 것이다.
연구 및 기술개발 등 다양한 분야에서 특허정보의 중요성은 매우 커지고 있다.
하지만 특허정보 분석이 용이하지 않은 점은 키워드 기반의 검색엔진에 따라 사용자가 원하는 기술 또는 특징이 그 컨텍스트로 포함된 특허문헌 뿐만 아니라, 전혀 무관한 특허문헌들인 노이즈까지 검색 리스트에 포함되어 검색결과로 나오기 때문일 수 있다.
특히 검색하고자 하는 기술의 특징이 매우 빈번히 사용되는 용어들을 이용하는 방법외에는 마땅히 검색식을 작성할 방법이 없는 경우에는 이러한 노이즈는 검색 리스트에서 상당히 많은 비중을 차지할 수 밖에 없으며, 이는 특허분석에서 매우 많은 리소스를 요구하게 되는 문제점이 있다.
따라서 사용자가 원하는 기술적 특징을 갖는 특허문헌을 검색하기 위한 소정의 검색식을 입력받고 검색식에 상응하는 검색 리스트를 획득한 후에, 특허문헌의 기술분류(예컨대, IPC 등)를 이용하여 일률적으로 노이즈를 제거하는 방식도 사용되고 있지만, 기술이 갈수록 융합되어 가고 있는 환경에서 이러한 방식은 실제 노이즈가 아님에도 불구하고 노이즈로 취급될 리스크가 존재한다. 더욱이 다른 기술분류에서도 사용자가 원하는 기술적 특징이 컨텍스트로 포함되어 있을 가능성은 존재하므로 이러한 노이즈 제거 방식은 바람직하지 않을 수 있다.
따라서 효과적이고 빠른 시간내에 노이즈를 제거할 수 있는 기술적 사상이 요구된다.
한국공개특허 10-2018-0086084 "인공 지능 기술을 적용한 기계 학습 기반의 입력 특허 집합과 관계성 높은 특허 집합을 생성하는 방법 및 장치"
본 발명이 이루고자 하는 기술적인 과제는 딥러닝을 이용하여 보다 정확하고 빠른 속도로 특허 검색 리스트 중 노이즈를 검출할 수 있는 방법 및 그 시스템을 제공하는 것이다.
상기 기술적 과제를 달성하기 위한 특허정보의 노이즈 검출 방법은 노이즈 검출 시스템이 특허정보 DB로부터 특허문헌의 딥러닝을 통해 워드투벡터 엔진 또는 센텐스투벡터 엔진을 구축하는 단계, 상기 노이즈 검출 시스템이 사용자가 원하는 특허문헌을 검색하기 위한 검색조건을 입력받는 단계, 상기 노이즈 검출 시스템이 입력받은 검색조건에 상응하는 특허목록 데이터를 포함하는 로 데이터 특허 리스트를 특정하는 단계, 상기 노이즈 검출 시스템이 특정한 특허 리스트에 포함된 특허문헌들 각각을 워드투벡터 엔진 또는 센텐스투벡터 엔진을 통해 워드벡터 세트 또는 센텐스 벡터 세트로 변환하는 단계, 및 변환한 특허문헌별 워드벡터 세트 또는 센텐스벡터 세트에 기초하여 상기 특허 리스트에 포함된 특허문헌들 중 노이즈 문헌을 검출하는 단계를 포함한다.
상기 딥러닝 기반의 특허정보 워드임베딩 방법은 상기 노이즈 검출 시스템이 상기 검색조건에 포함된 검색 키워드들을 상기 워드투벡터 엔진을 통해 검색조건 워드벡터 세트로 변환하는 단계를 더 포함하며, 상기 변환한 특허문헌별 워드벡터 세트 및 센텐스벡터 세트에 기초하여 상기 특허 리스트에 포함된 특허문헌들 중 노이즈 문헌을 검출하는 단계는 상기 검색조건 워드벡터 세트에 더 기초하여 상기 노이즈 문헌을 검출하는 단계를 포함할 수 있다.
상기 검색조건 워드벡터 세트에 더 기초하여 상기 노이즈 문헌을 검출하는 단계는 상기 노이즈 검출 시스템이 상기 검색조건 워드벡터 세트들과 상기 특허문헌들 각각에서 미리 설정된 특정 파트에 포함된 워드들에 대한 특정파트 워드벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단하는 단계를 포함할 수 있다.
상기 노이즈 검출 시스템이 상기 검색조건 워드벡터 세트들과 상기 특허문헌들 각각 중에서 미리 설정된 특정 파트에 포함된 워드들에 대한 특정파트 워드벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단하는 단계는 상기 검색조건 워드벡터 세트에 포함된 벡터들을 소정의 벡터연산을 통하여 제1특징벡터를 생성하고, 상기 특정파트 워드벡터 세트를 소정의 벡터연산을 통하여 제2특징벡터를 생성하는 단계, 생성한 상기 제1특징벡터와 상기 제2특징벡터의 유사도에 기초하여 상기 미리 정해진 기준조건을 만족하는지를 판단하는 단계를 포함할 수 있다.
상기 딥러닝 기반의 특허정보 워드임베딩 방법은 상기 노이즈 검출 시스템이 상기 검색조건에 포함된 검색문장을 상기 센텐스투벡터 엔진을 통해 검색조건 센텐스벡터로 변환하는 단계를 더 포함하며, 상기 변환한 특허문헌별 워드벡터 세트 또는 센텐스벡터 세트에 기초하여 상기 특허 리스트에 포함된 특허문헌들 중 노이즈 문헌을 검출하는 단계는 상기 검색조건 센텐스벡터에 더 기초하여 상기 노이즈 문헌을 검출하는 단계를 포함할 수 있다.
상기 검색조건 센텐스벡터에 더 기초하여 상기 노이즈 문헌을 검출하는 단계는 상기 노이즈 검출 시스템이 상기 검색조건 센텐스벡터와 상기 특허문헌들 각각에서 미리 설정된 복수의 특정파트들에 해당하는 센텐스들을 각각 센텐스벡터로 변환한 특정파트 센텐스벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단하는 단계를 포함할 수 있다.
상기 노이즈 검출 시스템이 상기 검색조건 센텐스벡터와 상기 특허문헌들 각각에서 미리 설정된 복수의 특정파트들에 해당하는 센텐스들을 각각 센텐스벡터로 변환한 특정파트 센텐스벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단하는 단계는 상기 특정파트 센텐스벡터 세트에 포함된 벡터들을 소정의 벡터연산을 통해 제3특징벡터를 생성하는 단계, 상기 검색조건 센텐스벡터와 상기 제3특징벡터의 유사도에 기초하여 상기 미리 정해진 기준조건을 만족하는지를 판단하는 단계를 포함할 수 있다.
상기 검색조건 센텐스벡터와 상기 제3특징벡터의 유사도에 기초하여 상기 미리 정해진 기준조건을 만족하는지를 판단하는 단계는 상기 노이즈 검출 시스템이 상기 검색조건 센텐스벡터와 상기 제3특징벡터의 코사인 유사도를 연산하고, 연산한 코사인 유사도가 소정의 임계값 내인지를 판단하는 단계를 포함할 수 있다.
상기 복수의 특정파트들은 특허문헌의 제목, 요약, 또는 대표청구항 중 적어도 두개를 포함할 수 있다.
상기 기술적 과제를 해결하기 위한 특허정보의 노이즈 검출 시스템은 특허정보 DB로부터 특허문헌의 딥러닝을 통해 구축된 워드투벡터 엔진 또는 센텐스투벡터 엔진, 사용자가 원하는 특허문헌을 검색하기 위한 검색조건을 입력받고, 입력받은 검색조건에 상응하는 특허목록 데이터를 포함하는 로 데이터인 특허 리스트를 특정하는 특정모듈, 상기 특허 리스트에 포함된 특허문헌들 각각의 적어도 일부가 상기 워드투벡터 엔진 또는 상기 센텐스투벡터 엔진을 통해 워드벡터 세트 또는 센텐스 벡터 세트로 변환되면, 변환된 특허문헌별 워드벡터 세트 또는 센텐스벡터 세트에 기초하여 상기 특허 리스트에 포함된 특허문헌들 중 노이즈 문헌을 검출하기 위한 제어모듈을 포함한다.
상기 워드투벡터 엔진은 상기 검색조건에 포함된 검색 키워드들을 상기 워드투벡터 엔진을 통해 검색조건 워드벡터 세트로 변환하고, 상기 제어모듈은 상기 검색조건 워드벡터 세트에 더 기초하여 상기 노이즈 문헌을 검출한다.
상기 제어모듈은 상기 검색조건 워드벡터 세트들과 상기 특허문헌들 각각에서 미리 설정된 특정 파트에 포함된 워드들에 대한 특정파트 워드벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단할 수 있다.
상기 제어모듈은 상기 검색조건 워드벡터 세트에 포함된 벡터들을 소정의 벡터연산을 통하여 제1특징벡터를 생성하고, 상기 특정파트 워드벡터 세트를 소정의 벡터연산을 통하여 제2특징벡터를 생성하고, 생성한 상기 제1특징벡터와 상기 제2특징벡터의 유사도에 기초하여 상기 미리 정해진 기준조건을 만족하는지를 판단할 수 있다.
상기 센텐스투벡터 엔진은 상기 검색조건에 포함된 검색문장을 상기 센텐스투벡터 엔진을 통해 검색조건 센텐스벡터로 변환하고, 상기 제어모듈은 상기 검색조건 센텐스벡터에 더 기초하여 상기 노이즈 문헌을 검출할 수 있다.
상기 제어모듈은 상기 검색조건 센텐스벡터와 상기 특허문헌들 각각에서 미리 설정된 복수의 특정파트들에 해당하는 센텐스들을 각각 센텐스벡터로 변환한 특정파트 센텐스벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단할 수 있다.
상기 제어모듈은 상기 특정파트 센텐스벡터 세트에 포함된 벡터들을 소정의 벡터연산을 통하여 제3특징벡터를 생성하고, 상기 검색조건 센텐스벡터와 상기 제3특징벡터의 유사도에 기초하여 상기 미리 정해진 기준조건을 만족하는지를 판단할 수 있다.
본 발명의 기술적 사상에 따르면 딥러닝을 이용하여 보다 정확하고 빠른 속도로 특허 검색 리스트 중 노이즈를 검출할 수 있는 효과가 있다.
또한 특허문헌 전체가 아니라 제목, 대표청구항, 요약 등 해당 특허문헌의 기술적 특징을 대표할 만한 파트만을 이용한 워드벡터 또는 센텐스벡터를 이용하는 경우 보다 노이즈 검출의 정확성이 높아질 수 있는 효과가 있다.
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 기술적 사상에 따른 딥러닝 기반의 특허정보 워드임베딩 시스템의 논리적인 구성을 개략적으로 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시 예에 따른 딥러닝 기반의 특허정보 워드임베딩 방법을 개략적으로 설명하기위한 플로우 차트를 나타낸다.
도 3은 본 발명의 실시 예에 따른 딥러닝 기반의 특허정보 워드임베딩 방법을 위한 검색조건의 일 예를 설명하기 위한 도면이다.
도 4는 본 발명의 실시 예에 따른 딥러닝 기반의 특허정보 워드임베딩 방법을 위해 선택적으로 이용되는 파트 정보를 설명하기 위한 도면이다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 아니 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 명세서에 있어서, “포함하다”또는 “가지다”등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터를 '전송'하는 경우에는 상기 구성요소는 상기 다른 구성요소로 직접 상기 데이터를 전송할 수도 있고, 적어도 하나의 또 다른 구성요소를 통하여 상기 데이터를 상기 다른 구성요소로 전송할 수도 있는 것을 의미한다. 반대로 어느 하나의 구성요소가 다른 구성요소로 데이터를 '직접 전송'하는 경우에는 상기 구성요소에서 다른 구성요소를 통하지 않고 상기 다른 구성요소로 상기 데이터가 전송되는 것을 의미한다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시 예들을 중심으로 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 기술적 사상에 따른 딥러닝 기반의 특허정보 워드임베딩 시스템의 논리적인 구성을 개략적으로 설명하기 위한 도면이다.
도 1을 참조하면, 본 발명의 기술적 사상에 따른 딥러닝 기반의 특허정보 워드임베딩 방법을 구현하기 위해서는 노이즈 검출시스템(100)이 구현될 수 있다. 상기 노이즈 검출시스템(이하, 검출 시스템, 100)은 소정의 데이터 처리시스템(미도시)에 설치되어 본 발명의 기술적 사상을 구현할 수 있다.
상기 데이터 처리시스템은 본 발명의 기술적 사상을 구현하기 위한 연산능력을 가진 시스템을 의미하며, 일반적으로 네트워크를 통해 클라이언트가 접속가능한 네트워크 서버뿐만 아니라 개인용 컴퓨터, 휴대 단말 등과 같이 본 발명의 기술적 사상에 따라 오브젝트 검출을 이용한 서비스를 수행할 수 있는 어떠한 시스템도 본 명세서에서 정의되는 상기 데이터 처리시스템으로 정의될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
상기 데이터 처리시스템은 프로세서 및 저장장치를 포함할 수 있다. 상기 프로세서는 본 발명의 기술적 사상을 구현하기 위한 프로그램을 구동시킬 수 있는 연산장치를 의미할 수 있으며, 상기 프로세서는 상기 프로그램을 구동하여 본 명세서에서 정의되는 기능을 수행할 수 있다.
상기 저장장치는 상기 프로그램을 저장할 수 있는 데이터 저장수단을 의미할 수 있으며, 구현 예에 따라 복수의 저장수단으로 구현될 수도 있다. 또한 상기 저장장치는 상기 데이터 처리시스템에 포함된 주 기억장치 뿐만 아니라, 상기 프로세서에 포함될 수 있는 임시 저장장치 또는 메모리 등을 포함하는 의미일 수도 있다.
상기 검출시스템(100)은 도 1에서는 어느 하나의 물리적 장치로 구현된 것처럼 도시하였지만, 필요에 따라 복수의 물리적 장치가 유기적으로 결합되어 본 발명의 기술적 사상에 따른 검출시스템(100)을 구현할 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
이하 본 명세서에서 검출의 대상이 되는 노이즈는 사용자가 특허검색을 수행한 검색결과인 특허 리스트들 중 사용자가 원하는 기술적 특징과는 무관하다고 판단되는 특허문헌일 수 있다.
일반적으로 검색결과로 획득되는 로 데이터인 특허 리스트들 중에는 상당한 수의 노이즈가 포함되어 있다. 이는 키워드를 통한 특허검색에 필연적일 수 밖에 없는 것으로 여겨지고 있다.
왜냐하면 키워드와 연산자만으로는 사용자가 원하는 기술적 특징을 명확하게 표현하기가 불가능한 경우가 많기 때문이다. 또한 최대한 기술적 특징을 키워드와 연산자로 표현한다고 하다라도 기술적 특징이 매우 일반적인 단어들로만 설명될 수 밖에 없을 때에는 검색결과에서 사용자가 원하는 특허문헌보다는 오히려 노이즈가 더 많이 포함되어 있는 경우도 빈번하다.
따라서 선행기술의 검색 또는 특허분석 등에서 이러한 노이즈로 인해 불필요하게 소요되는 시간 등의 리소스 낭비가 심각한 상황이다.
이러한 문제점을 해결하기 위한 상기 검출시스템(100)은 딥러닝 기반의 엔진을 이용하여 노이즈를 상당히 높은 신뢰수준으로 검출할 수 있다.
본 발명의 기술적 사상에 따른 검출시스템(100)은 딥러닝 기반으로 학습된 워드투벡터(word to vector, word2vec) 엔진(130) 및/또는 센텐스투벡터(sentence to vector, sentece2vec) 엔진(140)을 구비할 수 있다.
워드투벡터 엔진(130)은 워드를 벡터로 변환하는 뉴럴 네트워크 기반의 엔진일 수 있다. 또한 센텐스투벡터 엔진(140)은 센텐스를 벡터로 변환하는 뉴럴 네트워크 기반의 엔진일 수 있다.
상기 워드투벡터 엔진(130) 및/또는 센텐스투벡터 엔진(140)은 다수의 특허문헌을 딥러닝 기반의 뉴럴네트워크 모델을 통해 학습될 수 있다.
알려진 바와 같이 학습된 워드투벡터 엔진은 기존의 심볼릭(symbolic) 방식 또는 통계적(staticsical) 방식의 NLP(Natural Language Processing)의 문제점인 워드 즉 단어를 어느 하나의 단일한 상징(의미)로 보는 것이 아니라, 모든 단어를 벡터로 표현하되 단어 사이의 유사성과 차이점을 계산하는 방식을 이용할 수 있다. 이러한 방식은 워드의 주변단어와의 관계를 통해 단어가 표현하는 바를 예측하는 것으로써, 워드들은 각각 학습된 워드투벡터 엔진을 통해 워드벡터로 변환되며 벡터간의 유사도(또는 거리(distance))가 크다면 실제 그 의미도 유사하다고 판단될 수 있는 장점이 있다.
특히 특허문헌과 같이 매우 많은 문헌들이 학습되고, 여기에는 매우 많은 문장들이 존재하며, 이러한 문장들에 포함된 단어들의 주변단어가 동일 또는 유사하다면 실제로 그 단어의 의미가 유사할 가능성은 매우 클 수 있다. 또한 이러한 특징은 기술분야가 동일 또는 유사하면 더욱 강화될 수 있어서 워드투벡터 엔진의 정확도는 증대될 수 있는 특징이 있다.
마찬가지로 센텐스투벡터 엔진 역시 하나의 센텐스를 벡터로 표현하되 주변 센텐스와의 관계를 통해 센텐스가 표현하는 바를 예측하게 되고, 유사한 의미를 갖는 센텐스벡터는 벡터 공간 상에서 유사한 위치에 존재할 가능성이 높아지게 되어 유사의미 기반의 검색에 용이할 수 있다.
이러한 워드투벡터 및 센텐스투벡터를 생성하기 위한 학습 알고리즘에 대해서는 공지된 다양한 방식이 존재하므로, 본 명세서에서는 본 발명의 기술적 특징을 명확하게 하기 위해 상세한 설명은 생략하도록 한다.
상기 검출시스템(100)은 상술한 바와 같이 워드투벡터 엔진(130) 및/또는 센텐스투벡터 엔진(140)을 통해 검색결과로 획득된 특허 리스트 중에서 노이즈를 효과적으로 검출할 수 있다.
이러한 기능을 위해 구현되는 검출시스템(100)은 도 1과 같은 구성을 가질 수 있다.
상기 검출시스템(100)은 제어모듈(110), 특정모듈(120), 워드투벡터 엔진(130), 및/또는 센텐스투벡터 엔진(140)을 포함할 수도 있다.
상기 검출시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 필요한 하드웨어 리소스(resource) 및/또는 소프트웨어를 구비한 논리적인 구성을 의미할 수 있으며, 반드시 하나의 물리적인 구성요소를 의미하거나 하나의 장치를 의미하는 것은 아니다. 즉, 상기 검출시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 구비되는 하드웨어 및/또는 소프트웨어의 논리적인 결합을 의미할 수 있으며, 필요한 경우에는 서로 이격된 장치에 설치되어 각각의 기능을 수행함으로써 본 발명의 기술적 사상을 구현하기 위한 논리적인 구성들의 집합으로 구현될 수도 있다. 또한, 상기 검출시스템(100)은 본 발명의 기술적 사상을 구현하기 위한 각각의 기능 또는 역할별로 별도로 구현되는 구성들의 집합을 의미할 수도 있다. 예컨대, 상기 제어모듈(110), 특정모듈(120), 워드투벡터 엔진(130), 및/또는 센텐스투벡터 엔진(140) 각각은 서로 다른 물리적 장치에 위치할 수도 있고, 동일한 물리적 장치에 위치할 수도 있다. 또한, 구현 예에 따라서는 상기 제어모듈(110), 특정모듈(120), 워드투벡터 엔진(130), 및/또는 센텐스투벡터 엔진(140) 각각을 구성하는 소프트웨어 및/또는 하드웨어의 결합 역시 서로 다른 물리적 장치에 위치하고, 서로 다른 물리적 장치에 위치한 구성들이 서로 유기적으로 결합되어 각각의 상기 모듈들을 구현할 수도 있다.
또한, 본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스(resource)의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본 발명의 기술분야의 평균적 전문가에게는 용이하게 추론될 수 있다.
상기 제어모듈(110)은 본 발명의 기술적 사상을 구현하기 위해 상기 검출시스템(100)에 포함된 구성들(예컨대, 특정모듈(120), 워드투벡터 엔진(130), 및/또는 센텐스투벡터 엔진(140))을 제어하거나 이들의 기능 및/또는 리소스를 관리할 수 있다.
상기 특정모듈(120)은 검색조건 및 검색조건에 따른 검색결과인 특허 리스트를 특정할 수 있다.
본 발명의 기술적 사상에 따르면 상기 검색조건은 종래와 같이 검색식을 포함할 수도 있지만, 자연어로 자유롭게 표현된 자연어 문장이 포함될 수 있다.
상기 자연어 문장은 사용자가 자기가 원하는 기술적 특징을 표현할 수 있도록 자연어로 작성된 문장일 수 있다. 이러한 자연어 문장은 하나 또는 복수 개일 수도 있다. 보다 많은 정보가 자연어 문장에 포함될수록 보다 정확하게 기술적 특징이 벡터 공간상에 매핑될 수 있음은 물론이다.
이러한 일 예는 도 3을 참조하여 설명하도록 한다.
도 3은 본 발명의 실시 예에 따른 딥러닝 기반의 특허정보 워드임베딩 방법을 위한 검색조건의 일 예를 설명하기 위한 도면이다.
도 3을 참조하면, 상기 검출시스템(100)은 도 3에 도시된 바와 같은 소정의 UI를 제공하고 검색조건을 입력받을 수 있다.
검색조건은 검색문장 및/또는 검색식을 포함할 수 있다. 상기 검출시스템(100)은 검색문장을 입력받기 위한 UI(10) 및/또는 필요에 따라 검색식을 입력받기 위한 UI(11)를 사용자에게 제공할 수 있다.
본 발명의 기술적 사상에 따르면 검색식은 반드시 검색조건으로 입력받지 않을 수도 있다. 만약 상기 검출시스템(100)이 특허검색 엔진에 포함되어 있는 경우에는, 검색결과인 특허 리스트를 특정하기 위해 검색식을 입력으로 받을 수도 있다.
하지만 실시 예에 따라 상기 검출시스템(100)은 이미 특허 리스트를 외부의 특허 검색 엔진으로부터 수신한 사용자에게 특허 리스트 자체를 입력받을 수도 있고, 이러한 경우에는 특허 리스트를 검색하지 않아도 되므로 검색식이 검색조건으로써 요구되지 않아도 무방하다.
또한 사용자가 직접 검색결과로 획득한 특허 리스트를 상기 검출시스템(100)에 입력하는 경우, 상기 검출시스템(100)은 입력받은 특허 리스트에 대한 정보(예컨대, 제목, 상태, 출원일, 출원인, 요약 등)를 소정의 UI(13)를 통해 사용자에게 제공할 수도 있다.
어떠한 경우든 상기 특정모듈(120)은 검색조건 및 특허 리스트를 특정할 수 있다.
그러면 상기 워드투벡터 엔진(130)은 검색조건에 기초하여 검색조건에 상응하는 워드벡터 세트를 생성할 수 있다. 그리고 상기 워드투벡터 엔진(130)은 특허 리스트에 포함된 특허문헌들 각각에 상응하는 워드벡터 세트를 생성할 수 있다.
본 명세서에서 세트는 하나 또는 복수의 벡터를 포함하는 집합을 의미할 수 있다.
검색조건에 상응하는 워드벡터 세트는 검색조건에 포함된 검색문장 즉 자연어 문장에 기초하여 생성될 수도 있다. 만약 검색식이 검색조건에 포함된 경우는 검색식에 이용된 검색키워드 각각이 상기 워드투벡터 엔진(130)에 의해 워드벡터로 변환될 수도 있다.
구현 예에 따라서는 검색문장에 기초하여 생성된 워드벡터 세트와 검색식에 기초하여 생성된 워드벡터 세트가 같이 이용될 수도 있다. 예컨대, 검색문장에 기초하여 생성된 워드벡터 세트와 검색식에 기초하여 생성된 워드벡터 세트가 소정의 벡터 연산을 통해 연산되어 검색조건에 상응하는 하나의 특징벡터로 도출될 수 있다.
어떠한 경우든 상기 제어모듈(110)은 검색조건에 상응하는 워드벡터 세트를 특정할 수 있고, 이러한 워드벡터 세트를 통해 검색조건에 상응하는 검색조건 특징벡터를 생성할 수 있다. 예컨대, 워드벡터 세트에 포함된 벡터들 각각에 대해 소정의 가중치를 부여하여 소정의 벡터 연산(예컨대, 벡터 합)을 수행함으로써 워드벡터 세트별로 특징벡터를 생성할 수 있다. 만약 검색문장에 기초하여 생성된 워드벡터 세트와 검색식에 기초하여 생성된 워드벡터 세트 모두가 이용되는 경우, 워드벡터 세트별 특징벡터를 다시 벡터 연산하여 검색조건에 상응하는 검색조건 특징벡터를 생성할 수 있다.
한편 상기 제어모듈(110)은 특허문헌들 각각에 상응하는 특징벡터를 생성할 수 있다. 워드투벡터 엔진(130)에 의해 특허문헌들 각각에 상응하는 워드벡터 세트는 특허문헌에 포함된 모든 단어들이 워드벡터로 변환될 수도 있지만, 특허문헌에는 통상 해당 특허문헌의 기술적 특징과는 무관하게 상투적으로 포함되는 문장 또는 단어들이 다수 존재하므로 특허문헌별로 해당 특허문헌의 기술적 특징이 잘 반영된 파트(부분)만을 선별하고 선별된 파트에 존재하는 워드들만을 워드벡터로 변환하여 워드벡터 세트를 생성하는 것이 더욱 높은 노이즈 검출 성능을 보일 수 있다.
본 발명의 기술적 사상에 따르면 상기 특허문헌의 기술적 특징이 잘 반영된 파트(부분)는 특허문헌의 제목, 청구항, 및/또는 요약 중 적어도 하나를 포함할 수 있다.
도 4는 본 발명의 실시 예에 따른 딥러닝 기반의 특허정보 워드임베딩 방법을 위해 선택적으로 이용되는 파트 정보를 설명하기 위한 도면인데, 도 4에 도시된 바와 같이 특허문헌에는 다양한 항목의 컨텍스트들이 존재한다. 이중에서 특허문헌의 기술적 특징과는 무관한 부분이 상당수 존재할 수 있으며, 본 발명의 실시 예에 의하면 특허문헌의 기술적 특징이 잘 반영된 파트(부분)는 특허문헌의 제목 즉, 발명의 명칭(20) 부분, 청구항 부분(21), 및/또는 요약부분(22)으로 선택될 수 있다.
또한 청구항에서는 일부의 청구항만이 선택될 수도 있다. 예컨대, 대표 청구항(예컨대, 청구항 제1항 또는 독립항들만)만이 선택될 수도 있다.
실시 예에 따라 제목, 청구항, 및 요약 모두를 선별할 경우에는 특허문헌별로 워드벡터 세트는 3개가 생성될 수 있다. 이처럼 특허문헌으로부터 생성되며 선별된 파트로부터 제한적으로 선택되어 생성되는 워드벡터 세트를 본 명세서에서는 특정파트 워드벡터 세트로 정의하기로 한다.
그러면 각각의 특정파트 워드벡터 세트는 소정의 벡터 연산을 통해 하나의 벡터로 생성될 수 있다. 예컨대, 각각의 특정파트 워드벡터 세트는 동일한 가중치를 가지고 단순히 벡터합으로 연산될 수 있다. 다양한 벡터 연산 및 가중치가 적용될 수 있음은 물론이다. 그리고 연산된 특정파트 워드벡터 세트들 각각에 상응하는 벡터들이 다시 소정의 벡터 연산을 통해 하나의 벡터로 생성될 수 있다. 예컨대, 특허문헌별로 특정파트 워드벡터 세트들이 3개씩 생성되면, 특정파트 워드벡터 세트별로 벡터연산을 통해 하나의 벡터들이 생성될 수 있고, 이렇게 특정파트 워드벡터 세트별로 생성된 3개의 벡터가 다시 소정의 벡터 연산을 통해 하나의 벡터로 생성될 수 있다. 이렇게 생성된 벡터를 본 명세서에서는 특징벡터로 정의하기로 한다.
그러면 상기 제어모듈(110)에 의해 특허문헌별로 하나의 특징벡터가 생성될 수 있다.
그리고 이러한 특허문헌별 특징벡터가 상술한 바와 같은 검색조건 특징벡터와 비교되어 노이즈 여부가 판단될 수 있다.
상기 제어모듈(110)은 생성한 검색조건 특징벡터와 특허문헌별 특징벡터의 유사도를 판단할 수 있다. 유사도는 벡터 디스턴스에 기초할 수 있으며, 코사인 유사도가 이용될 수 있다. 상기 제어모듈(110)은 검색조건 특징벡터와 특허문헌별 특징벡터의 코사인 유사도를 연산하고 연산한 값이 소정의 임계값 내인지 여부에 따라 노이즈를 판단할 수 있다.
한편, 상기 제어모듈(110)은 센텐스투벡터 엔진(140)을 이용하여 센텐스 벡터 기반의 노이즈 검출을 수행할 수도 있다. 물론, 실시 예에 따라서는 상술한 바와 같은 워드벡터 기반의 노이즈 검출 결과 및 센텐스벡터 기반의 노이즈 검출 결과를 모두 이용하여 최종적으로 특허문헌별로 노이즈 여부를 판다할 수 있다. 예컨대, 워드벡터 기반의 유사도 값 및 센텐스벡터 기반의 유사도 값 각각을 소정의 가중치를 이용하여 합산하여 소정의 기준값 내인지 여부에 따라 노이즈 여부를 판단할 수도 있다.
상기 제어모듈(110) 센텐스투벡터 엔진(140)에 의해 생성되는 검색문장에 상응하는 센텐스를 검색조건 센텐스벡터로 특정할 수 있다. 만약 검색문장에 복수의 센텐스가 포함되어 있는 경우 센텐스별로 센텐스벡터가 생성될 수 있고, 이러한 경우 상기 제어모듈(110)은 소정의 벡터 연산을 통해 특징벡터를 생성할 수 있다. 그러면 상기 제어모듈(110)은 검색조건 특징벡터(센텐스벡터)를 생성할 수 있다.
한편 상기 제어모듈(110)은 센텐스벡터 기반의 노이즈 검출에 있어서도 특허문헌의 특정파트만을 이용할 수 있고, 이는 전술한 바와 같다.
그러면 상기 제어모듈(110)은 특정파트별로 센텐스벡터 세트를 특정할 수 있다. 실시 예에 따라서는 특정파트별로 하나의 센텐스벡터만이 생성될 수도 있다. 또는 특정파트별로 복수의 센텐스벡터가 생성될 수도 있다.
어떠한 경우든 상기 제어모듈(110)은 전술한 바와 같이 특정파트별 센텐스벡터 세트에 포함된 센텐스벡터들에 기초하여 특허문헌별로 특징벡터를 생성할 수 있다.
예컨대, 상기 제어모듈(110)은 제목에 상응하는 제1센텐스벡터, 대표 청구항 1에 상응하는 제2센텐스벡터, 및 요약에 상응하는 제3센텐스벡터를 생성하고, 이들 제1센텐스벡터, 제2센텐스벡터, 및 제3센텐스벡터를 소정의 방식(예컨대, 동일한 가중치를 부여한 벡터 합)으로 벡터연산을 통해 특징벡터를 생성할 수 있다.
즉, 상기 제어모듈(110)은 특허분헌별로 특정파트에 기초한 특징벡터를 생성할 수 있다.
그러면 상기 제어모듈(110)은 검색조건에 상응하는 특징벡터(센텐스벡터) 및 특허문헌별 특징벡터(센텐스벡터)에 기초하여 유사도를 판단할 수 있고, 이에 따라 노이즈 여부를 판단할 수 있다.
이러한 본 발명의 실시 예에 따른 노이즈 검출방법을 도식화하면 도 2와 같을 수 있다.
도 2는 본 발명의 일 실시 예에 따른 딥러닝 기반의 특허정보 워드임베딩 방법을 개략적으로 설명하기위한 플로우 차트를 나타낸다.
도 2를 참조하면, 상기 검출시스템(100)은 딥러닝 기반의 엔진을 구축할 수 있다(S100). 상기 엔진은 워드투벡터 엔진(130) 또는 센텐스투벡터 엔진(140) 중 적어도 하나일 수 있다.
그리고 상기 검출시스템(100)은 검색조건 및 특허 리스트를 특정할 수 있다(S110).
그러면 상기 검출시스템(100)은 워드벡터 기반의 노이즈 검출(S120 내지 S150) 또는 센텐스벡터 기반의 노이즈 검출(S120-1 내지 S150) 중 적어도 하나를 수행할 수 있다.
워드벡터 기반의 노이즈 검출은 전술한 바와 같이 상기 검출시스템(100)이 검색조건에 상응하는 워드벡터 세트가 적어도 하나 생성되면, 이에 기초하여 검색조건 특징벡터(워드벡터)를 생성할 수 있다(S120).
그리고 상기 검출시스템(100)은 특허문헌별로 특정파트 워드벡터 세트를 특정하고, 이에 기초하여 특허문헌별 특징벡터(워드벡터)를 생성할 수 있다(S130).
그러면 생성된 검색조건 특징벡터(워드벡터) 및 특허문헌별 특징벡터(워드벡터)의 유사도를 판단하고(S140), 판단결과에 기초하여 해당 특허문헌이 노이즈인지 여부를 검출할 수 있다(S150).
센텐스벡터 기반의 노이즈 검출은 전술한 바와 같이 상기 검출시스템(100)이 검색조건에 상응하는 센텐스벡터가 적어도 하나 생성되면, 이에 기초하여 검색조건 특징벡터(센텐스벡터)를 생성할 수 있다(S120-1).
그리고 상기 검출시스템(100)은 특허문헌별로 특정파트 센텐스벡터를 적어도 하나특정하고, 이에 기초하여 특허문헌별 특징벡터(센텐스벡터)를 생성할 수 있다(S130-1).
그러면 생성된 검색조건 특징벡터(센텐스벡터) 및 특허문헌별 특징벡터(센텐스벡터)의 유사도를 판단하고(S140-1), 판단결과에 기초하여 해당 특허문헌이 노이즈인지 여부를 검출할 수 있다(S150).
상기 검출시스템(100)은 전술한 바와 같이 워드벡터 기반의 노이즈 검출 또는 센텐스벡터 기반의 노이즈 검출 중 어느 하나만 수행할 수도 있고, 이들 모두를 수행한 결과에 기초하여 최종적으로 노이즈 검출을 수행할 수도 있다.
본 발명의 실시 예에 따른 딥러닝 기반의 특허정보 워드임베딩 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 광 데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
본 발명은 도면에 도시된 일 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (17)

  1. 특허정보의 워드임베딩 방법에 있어서,
    워드 임베딩 시스템이 청구항에 기재된 청구항 키워드에 대응되는 대체 키워드를 적어도 하나 상기 상세한 설명으로부터 탐색하는 단계;
    상기 워드 임베딩 시스템이 상기 청구항 키워드를 상기 대체 키워드로 대체한 확장 청구항 문장을 적어도 하나 생성하는 단계; 및
    상기 워드 임베딩 시스템이 생성한 적어도 하나의 확장 청구항 문장을 학습 데이터에 포함시켜 소정의 딥러닝 워드임베딩 알고리즘을 통해 학습하는 단계를 포함하는 딥러닝 기반의 특허정보 워드임베딩 방법.
  2. 제1항에 있어서, 상기 딥러닝 기반의 특허정보 워드임베딩 방법은.
    워드 임베딩 시스템이 특허정보 DB로부터 특허 청구항과 발명의 상세한 설명을 분리하는 단계를 더 포함하는 딥러닝 기반의 특허정보 워드임베딩 방법.
  3. 제1항에 있어서, 상기 딥러닝 기반의 특허정보 워드임베딩 방법은,
    특허 청구항에 사용되는 비기술적 형식단어를 삭제하는 단계를 더 포함하는 딥러닝 기반의 특허정보 워드임베딩 방법. 상기 노이즈 문헌을 검출하는 단계는,
    상기 노이즈 검출 시스템이 상기 검색조건 워드벡터 세트들과 상기 특허문헌들 각각에서 미리 설정된 특정 파트에 포함된 워드들에 대한 특정파트 워드벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단하는 단계를 포함하는 딥러닝 기반의 특허정보 워드임베딩 방법.
  4. 제3항에 있어서, 상기 노이즈 검출 시스템이 상기 검색조건 워드벡터 세트들과 상기 특허문헌들 각각 중에서 미리 설정된 특정 파트에 포함된 워드들에 대한 특정파트 워드벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단하는 단계는,
    상기 검색조건 워드벡터 세트에 포함된 벡터들을 소정의 벡터연산을 통하여 제1특징벡터를 생성하고, 상기 특정파트 워드벡터 세트를 소정의 벡터연산을 통하여 제2특징벡터를 생성하는 단계;
    생성한 상기 제1특징벡터와 상기 제2특징벡터의 유사도에 기초하여 상기 미리 정해진 기준조건을 만족하는지를 판단하는 단계를 포함하는 딥러닝 기반의 특허정보 워드임베딩 방법.
  5. 제1항에 있어서, 상기 딥러닝 기반의 특허정보 워드임베딩 방법은.
    상기 노이즈 검출 시스템이 상기 검색조건에 포함된 검색문장을 상기 센텐스투벡터 엔진을 통해 검색조건 센텐스벡터로 변환하는 단계를 더 포함하며,
    상기 변환한 특허문헌별 워드벡터 세트 또는 센텐스벡터 세트에 기초하여 상기 특허 리스트에 포함된 특허문헌들 중 노이즈 문헌을 검출하는 단계는,
    상기 검색조건 센텐스벡터에 더 기초하여 상기 노이즈 문헌을 검출하는 단계를 포함하는 딥러닝 기반의 특허정보 워드임베딩 방법.
  6. 제5항에 있어서, 상기 검색조건 센텐스벡터에 더 기초하여 상기 노이즈 문헌을 검출하는 단계는,
    상기 노이즈 검출 시스템이 상기 검색조건 센텐스벡터와 상기 특허문헌들 각각에서 미리 설정된 복수의 특정파트들에 해당하는 센텐스들을 각각 센텐스벡터로 변환한 특정파트 센텐스벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단하는 단계를 포함하는 딥러닝 기반의 특허정보 워드임베딩 방법.
  7. 제6항에 있어서, 상기 노이즈 검출 시스템이 상기 검색조건 센텐스벡터와 상기 특허문헌들 각각에서 미리 설정된 복수의 특정파트들에 해당하는 센텐스들을 각각 센텐스벡터로 변환한 특정파트 센텐스벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단하는 단계는,
    상기 특정파트 센텐스벡터 세트에 포함된 벡터들을 소정의 벡터연산을 통해 제3특징벡터를 생성하는 단계;
    상기 검색조건 센텐스벡터와 상기 제3특징벡터의 유사도에 기초하여 상기 미리 정해진 기준조건을 만족하는지를 판단하는 단계를 포함하는 딥러닝 기반의 특허정보 워드임베딩 방법.
  8. 제7항에 있어서, 상기 검색조건 센텐스벡터와 상기 제3특징벡터의 유사도에 기초하여 상기 미리 정해진 기준조건을 만족하는지를 판단하는 단계는,
    상기 노이즈 검출 시스템이 상기 검색조건 센텐스벡터와 상기 제3특징벡터의 코사인 유사도를 연산하고, 연산한 코사인 유사도가 소정의 임계값 내인지를 판단하는 단계를 포함하는 딥러닝 기반의 특허정보 워드임베딩 방법.
  9. 제7항에 있어서, 상기 복수의 특정파트들은,
    특허문헌의 제목, 요약, 또는 대표청구항 중 적어도 두개를 포함하는 딥러닝 기반의 특허정보 워드임베딩 방법.
  10. 데이터 처리장치 설치되며 제1항 내지 제9항 중 어느 한 항에 기재된 방법을 수행하기 위한 컴퓨터 판독가능한 기록매체.
  11. 특허정보의 워드 임베딩 시스템에 있어서,
    특허정보 DB로부터 특허문헌의 딥러닝을 통해 구축된 워드투벡터 엔진 또는 센텐스투벡터 엔진;
    사용자가 원하는 특허문헌을 검색하기 위한 검색조건을 입력받고, 입력받은 검색조건에 상응하는 특허목록 데이터를 포함하는 로 데이터인 특허 리스트를 특정하는 특정모듈;
    상기 특허 리스트에 포함된 특허문헌들 각각의 적어도 일부가 상기 워드투벡터 엔진 또는 상기 센텐스투벡터 엔진을 통해 워드벡터 세트 또는 센텐스 벡터 세트로 변환되면, 변환된 특허문헌별 워드벡터 세트 또는 센텐스벡터 세트에 기초하여 상기 특허 리스트에 포함된 특허문헌들 중 노이즈 문헌을 검출하기 위한 제어모듈을 포함하는 딥러닝 기반의 특허정보 워드임베딩 시스템.
  12. 제11항에 있어서, 상기 워드투벡터 엔진은.
    상기 검색조건에 포함된 검색 키워드들을 상기 워드투벡터 엔진을 통해 검색조건 워드벡터 세트로 변환하고,
    상기 제어모듈은,
    상기 검색조건 워드벡터 세트에 더 기초하여 상기 노이즈 문헌을 검출하는 딥러닝 기반의 특허정보 워드임베딩 시스템.
  13. 제12항에 있어서, 상기 제어모듈은,
    상기 검색조건 워드벡터 세트들과 상기 특허문헌들 각각에서 미리 설정된 특정 파트에 포함된 워드들에 대한 특정파트 워드벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단하는 딥러닝 기반의 특허정보 워드임베딩 시스템.
  14. 제13항에 있어서, 상기 제어모듈은,
    상기 검색조건 워드벡터 세트에 포함된 벡터들을 소정의 벡터연산을 통하여 제1특징벡터를 생성하고, 상기 특정파트 워드벡터 세트를 소정의 벡터연산을 통하여 제2특징벡터를 생성하고, 생성한 상기 제1특징벡터와 상기 제2특징벡터의 유사도에 기초하여 상기 미리 정해진 기준조건을 만족하는지를 판단하는 딥러닝 기반의 특허정보 워드임베딩 시스템.
  15. 제11항에 있어서, 상기 센텐스투벡터 엔진은,
    상기 검색조건에 포함된 검색문장을 상기 센텐스투벡터 엔진을 통해 검색조건 센텐스벡터로 변환하고,
    상기 제어모듈은,
    상기 검색조건 센텐스벡터에 더 기초하여 상기 노이즈 문헌을 검출하는 딥러닝 기반의 특허정보 워드임베딩 시스템.
  16. 제15항에 있어서, 상기 제어모듈은,
    상기 검색조건 센텐스벡터와 상기 특허문헌들 각각에서 미리 설정된 복수의 특정파트들에 해당하는 센텐스들을 각각 센텐스벡터로 변환한 특정파트 센텐스벡터 세트를 비교하여 미리 정해진 기준조건을 만족하는지 여부를 판단하는 딥러닝 기반의 특허정보 워드임베딩 시스템.
  17. 제16항에 있어서, 상기 제어모듈은,
    상기 특정파트 센텐스벡터 세트에 포함된 벡터들을 소정의 벡터연산을 통하여 제3특징벡터를 생성하고, 상기 검색조건 센텐스벡터와 상기 제3특징벡터의 유사도에 기초하여 상기 미리 정해진 기준조건을 만족하는지를 판단하는 딥러닝 기반의 특허정보 워드임베딩 시스템.


KR1020190022092A 2019-02-25 2019-02-25 딥러닝 기반의 특허정보 워드임베딩 방법 및 그 시스템 KR20200106108A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190022092A KR20200106108A (ko) 2019-02-25 2019-02-25 딥러닝 기반의 특허정보 워드임베딩 방법 및 그 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190022092A KR20200106108A (ko) 2019-02-25 2019-02-25 딥러닝 기반의 특허정보 워드임베딩 방법 및 그 시스템

Publications (1)

Publication Number Publication Date
KR20200106108A true KR20200106108A (ko) 2020-09-11

Family

ID=72472698

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190022092A KR20200106108A (ko) 2019-02-25 2019-02-25 딥러닝 기반의 특허정보 워드임베딩 방법 및 그 시스템

Country Status (1)

Country Link
KR (1) KR20200106108A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220079109A (ko) * 2020-12-04 2022-06-13 (주)윕스 인공 지능 기반의 유사 특허 검색 방법 및 그 장치
WO2023101364A1 (ko) * 2021-11-30 2023-06-08 엘지이노텍 주식회사 신경망의 학습 방법
WO2023195769A1 (ko) * 2022-04-05 2023-10-12 주식회사 타날리시스 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180086084A (ko) 2017-01-20 2018-07-30 (주)광개토연구소 인공 지능 기술을 적용한 기계 학습 기반의 입력 특허 집합과 관계성 높은 특허 집합을 생성하는 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180086084A (ko) 2017-01-20 2018-07-30 (주)광개토연구소 인공 지능 기술을 적용한 기계 학습 기반의 입력 특허 집합과 관계성 높은 특허 집합을 생성하는 방법 및 장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220079109A (ko) * 2020-12-04 2022-06-13 (주)윕스 인공 지능 기반의 유사 특허 검색 방법 및 그 장치
WO2023101364A1 (ko) * 2021-11-30 2023-06-08 엘지이노텍 주식회사 신경망의 학습 방법
WO2023195769A1 (ko) * 2022-04-05 2023-10-12 주식회사 타날리시스 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치

Similar Documents

Publication Publication Date Title
Umer et al. CNN-based automatic prioritization of bug reports
US20170116203A1 (en) Method of automated discovery of topic relatedness
US7840521B2 (en) Computer-based method and system for efficient categorizing of digital documents
JP7136752B2 (ja) 受信したデータ入力に基づいて過少データに関連するデータを生成する方法、デバイス、および非一時的コンピュータ可読媒体
US20200097545A1 (en) Automated and optimal encoding of text data features for machine learning models
KR20180077691A (ko) 문장 추상화 장치 및 방법
KR102074909B1 (ko) 소프트웨어 취약점 분류 장치 및 방법
KR20200106108A (ko) 딥러닝 기반의 특허정보 워드임베딩 방법 및 그 시스템
KR102088357B1 (ko) 기계독해기반 질의응답방법 및 기기
CN113360912A (zh) 恶意软件检测方法、装置、设备及存储介质
US20220366040A1 (en) Deep learning based detection of malicious shell scripts
KR20190115319A (ko) 문장을 복수의 클래스들로 분류하는 모바일 장치 및 방법
KR102334255B1 (ko) AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법
KR20200071877A (ko) 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템
CN111443964A (zh) 更新用户界面的方法、设备和计算机程序产品
KR20220073088A (ko) 자원이 제약된 모바일 기기에서 동적 데이터 변환에 적응하기 위한 전문화된 경량 신경망 교체 방법 및 장치
US20230169176A1 (en) Graph exploration framework for adversarial example generation
US20090094177A1 (en) Method for efficient machine-learning classification of multiple text categories
JP6563350B2 (ja) データ分類装置、データ分類方法、及びプログラム
KR102280439B1 (ko) 질의의도를 분석하기 위한 장치 및 방법
EP3404553A1 (en) Open information extraction method and system for extracting reified ternary relationship
KR20200103200A (ko) 딥러닝 기반의 특허정보 노이즈 검출방법 및 그 시스템
KR20200101506A (ko) 딥러닝 기반의 특허정보 노이즈 검출방법 및 그 시스템
KR20200106109A (ko) 딥러닝 기반의 특허정보 멀티링규얼 머신 트랜슬레이션 방법 및 그 시스템
TW202324202A (zh) 從基於注意力之模型提取解釋