KR20200071877A

KR20200071877A - 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템

Info

Publication number: KR20200071877A
Application number: KR1020180155786A
Authority: KR
Inventors: 최기선; 김은경; 남상하; 윤수지; 이민호; 정유성
Original assignee: 한국과학기술원
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2020-06-22

Abstract

자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템이 제시된다. 본 발명에서 제안하는 자율 증강형 반복 학습을 이용한 정보 추출 방법은 지식베이스와 텍스트 코퍼스를 이용하여 개체명과 관계명이 정의된 기계 학습용 데이터를 생성하기 위하여 지식베이스와 텍스트 코퍼스를 수집 및 저장하는 단계, 상기 저장된 정보 추출 관련 지식베이스 및 텍스트 코퍼스를 이용하여 문장 벡터 모델을 생성하고 이를 이용하여 개체명 연결 및 관계 추출 학습데이터를 생성하는 단계, 상기 학습 데이터를 이용하여 정보 추출을 수행하는 단계, 상기 정보 추출 방법 및 시스템에 의해 생성된 결과 데이터에 대한 기존 지식베이스와의 유사성 및 일치성을 검증하는 신뢰도 검증 단계 및 검증된 신뢰도 데이터를 기준으로 새롭게 지식베이스를 증강하는 단계를 반복적하고, 정보 추출에 유효한 학습데이터를 생성하고 관리하는 단계를 포함한다.

Description

자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템{Method and System for information extraction using a self-augmented iterative learning}

본 발명은 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템에 관한 것이다.

딥러닝, 기계학습을 포함한 인공지능 분야에서는 방대한 양의 데이터 확보가 중요하다. 방대한 양의 데이터를 확보하는 것뿐만 아니라 데이터의 질적인 측면까지 고려되고 기계학습이 가능한 형태로 준비되어야 한다.

하지만, 데이터를 기계가 이해할 수 있는 형태로 변경하는 전처리 과정인 어노테이션(Annotation)작업의 비용은 높다. 최근 지식베이스를 활용한 자동 어노테이션 수행방식인 Distant Supervision이 두루 사용되나, Distant Supervision 방식 자체의 제한점을 보유하고 있어 단일 학습으로는 정확도 높은 관계 추출 시스템 개발의 어려움이 존재한다.

도 1은 Distant Supervision 방식의 기본 워크플로우이다.

Distant Supervision 방식의 개념은 다음과 같다.

<PERSON, 출생지, CITY>와 같은 트리플렛을 가진 데이터베이스 또는 지식베이스를 활용한다. 트리플렛으로부터 엔티티/텍스트 매칭은 자동으로 관계 인스턴스를 학습 인스턴스로 생성하는 데 사용된다.

아래는 Distant Supervision 방식에서의 문제점 사례이다.

주어진 트리플렛 <"버락 오바마", 출생지, "하와이">에 대하여 다음의 두 문장을 자동으로 어노테이션 할 수 있다.

올바른 사례: "버락 오바마는 하와이에서 태어났다."

잘못된 사례: "버락 오바마하 하와이를 방문했다."

'~를 방문했다' 라는 문장으로부터 수집할 수 있는 정보는, 관계명 "출생지"를 학습하기 위하여 옳지 못한 사례이다. 이러한 잘못된 사례가 대량으로 수집되어 전체 관계 추출의 학습데이터의 질을 낮추는 문제점이 발생할 수 있다.

트리플렛 형태의 사실 튜플을 포함하는 데이터베이스 또는 지식베이스는 접근 및 사용이 용이하나 하기와 같은 극복사항이 필요하다.

지식베이스에 포함된 지식의 분야/형태에 의해 새로운 지식 수집의 방향성이 결정되나 공개된 지식베이스는 주기적 업데이트가 잘 되고 있지 않다. 일례로, 최신 국제 연구에서 다수 참조되고 있는 지식베이스 중 하나인 DBpedia 의 경우 공식 배포된 최신 버전은 2016년 10월 버전이다.

일회성으로 지식베이스를 참조하는 형태의 연구가 대부분이나, 관계를 표현하는 두 개체간의 제한적인 레코드로 인해 실제 방대한 지식베이스의 데이터 양 중 실제 텍스트와 정렬되어 학습될 수 있는 트리플렛의 개수에는 매우 제약이 있다.

정보 추출(Information Extraction)이란 비정형적인 텍스트를 입력으로 받아서 데이터베이스 형식과 같이 구조화된 형태의 출력을 산출해내는 기술을 일컫는다. 자연언어 처리 과정을 기반으로 하는 정보 추출 시스템의 구조는 목적이나 방법에 따라 부분적인 차이는 있지만 일반적으로 (1) 개체 추출과 (2) 관계 추출의 두 단계로 구분된다.

개체 추출이란 문장에 존재하는 어휘 중 특정한 인물, 사건, 장소, 이벤트 등의 개체표현(entity mention)을 찾아내고 이를 지식베이스에 존재하는 특정 개체로 연결하여 의미를 파악하는 기술을 말한다. 예를 들어 아래 예문 1에서는 '알파고', '구글', '딥마인드', ' AI' 등 일련의 어휘 집합이 '개체 표현'이 될 수 있으며, 그 중 개체 표현 'AI'를 위키피디아 지식베이스의 특정 개체로 연결하고자 하는 경우- 컴퓨터 공학 분야의 하나인 '인공지능', 스티븐 스필버그 감독의 영화 제목 'A.I', 호흡기 질병 중 하나인 '조류 인플루엔자' 등이 후보 개체로 나열될 수 있다.

<예문 1>

알파고 는 구글 의 딥마인드 가 개발한 AI 바둑 프로그램이다.

관계 추출이란 문장에서 나타나는 한 쌍의 개체간의 의미적 연관관계를 분류하여 구조적인 트리플렛(Triplet)으로 구성하는 작업을 의미한다. 트리플렛이란 두 개체 간의 관계를 <개체1, 관계, 개체2>와 같이 세 개의 항으로 표현하는 구조이다. 예를 들어 상기 예문 1로부터 <구글, developer, 알파고>, <딥마인드, developer, 알파고>, <구글, subsidary, 딥마인드>등의 관계 트리플렛을 추출하는 방식이다.

2000년대 초반까지의 개체 추출 및 관계 추출 기술은 수작업으로 만든 학습 데이터를 통하여 추출 규칙을 찾아내거나, 훈련용 학습 데이터로부터 특징 벡터를 생성하여 다양한 기계학습을 적용하여 사전 정의된 관계에 해당하는 예시에 대한 관계 유형을 추출하는 데 초점이 맞춰졌다. 그러나 정보 추출 시스템을 위한 학습 데이터의 생성은 많은 비용과 시간을 소요하는 작업이다. 2000년대 후반 대용량의 지식베이스(Knowledge Base)의 보급이 확대되면서 지식베이스와 텍스트 정렬 기반의 휴리스틱을 통하여 기계학습에 사용되는 학습 데이터를 자동으로 생성하는 형태인 원거리 감독(Distant Supervision) 패러다임이 제시되었다.

Distant Supervision은 어떤 관계(예, 'developer')를 가진 키워드 쌍이 포함되어 있는 문장이 있다면, 해당 문장은 두 키워드의 관계를 표현할 가능성이 높다는 가정에 기초하여, 텍스트내의 키워드를 주어진 지식베이스의 개체에 정렬한 다음 이 정렬된 데이터를 학습 데이터로 직접 사용하여 관계 추출 시스템을 학습하는 방법이다. 원거리 감독법의 접근 방법에 따라 상기 예문 1은 관계 유형 'developer'를 표현하는 예시라고 가정할 수 있다.

그러나 자동으로 생성된 학습 데이터는 지식베이스의 인스턴스를 구성하는 두 개체가 포함된 문장은 인스턴스의 관계를 표현한다는 Distant Supervision의 가정에 의해 학습데이터에 오류를 포함하는 문제점이 있다. 따라서 오류가 포함된 학습 데이터를 이용한 기존의 정보 추출 시스템은 적절한 분류 작업을 수행할 수 없다는 문제점이 있다.

대한민국 공개특허 10-2018-0092733호 발명은 Distant Supervision 가정을 이용한 방법에서 발생하는 오류를 제거하며 관계 추출용 학습 데이터를 생성하는 방법에 관한 것으로, 신뢰도 데이터 기준의 오류 제거 및 관계명 기준의 반복적 군집 방법을 통해 유사한 군집 내의 데이터를 선택함으로써 오류를 제거하여 유효한 학습데이터를 생성하는 방법에 관한 것이므로, 관계 추출 장치에 의해 새롭게 발견되는 지식에 대하여 지식베이스를 업데이트 하거나 관계 추출 장치의 학습 능력을 향상시키지 못하는 문제점이 있다.

대한민국 공개특허 10-2016-0108886호 발명은 개방형 정보 추출을 이용하여 지식베이스를 자동으로 확장하는 방법 및 장치에 관한 것으로, 입력 문장에 의존구조 분석을 수행하여 문장으로부터 의존 관계 레이블을 이용한 트리플렛을 생성하여 지식베이스를 확장하는 방법에 관한 발명인데, 이는 공개된 기존 지식베이스에 잘 정의되어 있는 관계 유형과 새롭게 증강된 의존 관계 레이블간의 상관관계를 통한 정렬작업의 문제점을 해결하지 못하여 실제 지식베이스 증강을 통한 지식베이스(혹은 온톨로지) 기반의 정보 추출 방법에 적절한 결과를 제공할 수 없다는 문제점이 있다.

본 발명이 이루고자 하는 기술적 과제는 단일 학습을 이용한 정보 추출 시스템에서 처리하지 못하는 자율 증강된 지식을 인식하여 학습함으로써 정보 추출 시스템 성능 향상시키기 위한 방법 및 장치를 제공하는데 있다. Distant Supervision을 이용한 데이터 수집에서부터 학습 데이터 생성과 지식베이스화까지의 장치를 유기적으로 결합함으로써 정보 추출 시스템의 전체 성능을 개선하고자 한다. 관계 추출 학습에 사용될 Distant Supervision 기반의 학습 레이블 데이터 자동 생성에 있어 반복적으로 증강되는 시스템에 의하여 새롭게 발견된 신뢰성 높은 신규 데이터가 지식베이스에 추가됨으로써 관계 추출 학습에 사용되는 코퍼스의 자동 확장 방법으로 이용한다.

일 측면에 있어서, 본 발명에서 제안하는 자율 증강형 반복 학습을 이용한 정보 추출 방법은 지식베이스와 텍스트 코퍼스를 이용하여 개체명과 관계명이 정의된 기계 학습용 데이터를 생성하기 위하여 지식베이스와 텍스트 코퍼스를 수집 및 저장하는 단계, 상기 저장된 정보 추출 관련 지식베이스 및 텍스트 코퍼스를 이용하여 문장 벡터 모델을 생성하고 이를 이용하여 개체명 연결 및 관계 추출 학습데이터를 생성하는 단계, 상기 학습 데이터를 이용하여 정보 추출을 수행하는 단계, 상기 정보 추출 방법 및 시스템에 의해 생성된 결과 데이터에 대한 기존 지식베이스와의 유사성 및 일치성을 검증하는 신뢰도 검증 단계 및 검증된 신뢰도 데이터를 기준으로 새롭게 지식베이스를 증강하는 단계를 반복적하고, 정보 추출에 유효한 학습데이터를 생성하고 관리하는 단계를 포함한다.

본 발명의 실시예들에 따른 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템은 기존에 Distant Supervision을 이용한 정보 추출 학습 데이터 방식에서 단일 레이블 작업으로 인한 학습 데이터 부족 및 학습으로 발생하는 오류를 감소하기 위한 자율 증강형 반복 학습을 특징으로 하는 정보 추출 방법 및 시스템에 관한 것으로서, 정보 추출을 위한 Distant Supervision의 배경지식으로 사용되는 지식베이스를 지속적으로 증가시키면서 동시에 지식베이스 기준의 신뢰도 검증 및 정보 추출 결과와 학습 데이터 간의 유사성 기준의 반복적 클러스터링을 통해 정보 추출 학습 데이터의 신뢰도를 높이는 방법 및 시스템이다.

도 1은 본 발명의 일 실시예에 따른 Distant Supervision 방식의 기본 워크플로우이다.
도 2는 본 발명의 일 실시예에 따른 자율 증강형 반복 학습을 이용한 정보 추출 시스템의 구성을 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템의 지식관리장치의 상세 구성요소를 설명하기 위한 도면이다.

본 발명은 비구조화된 텍스트로부터 Distant Supervision을 이용한 정보 추출 시에 단일 학습으로 발생하는 오류를 감소하기 위한 자율 증강형 반복 학습을 특징으로 하는 정보 추출 방법 및 시스템에 관한 것으로, 더욱 상세하게는 Distant Supervision을 이용하여 구축된 학습 데이터를 기계학습을 이용한 정보 추출 장치에 전달하고, 입력된 학습 데이터와 기계학습 지식 정보를 이용하여 새로운 정보 추출 모델을 생성하며, 정보 추출 장치에 의해 발견된 새로운 지식을 기존 학습 데이터와 합하여 다음 단계의 학습 데이터로 사용할 수 있도록 지식베이스를 매 단계 자동 증강하여 정보 추출을 할 수 있는 방법 및 시스템에 관한 것이다.

본 발명의 실시예들에 따른 자율 증강형 반복 학습을 이용한 정보 추출 방법은 입력지식베이스와 입력 문서로부터 <개체1, 관계, 개체2> 형태의 트리플렛을 추출할 수 있다.

트리플렛 내의 개체1과 개체2는 입력 문서에 포함된 일련의 문장 집합 내의 개체 표현 중 입력 지식베이스에 연결될 수 있는 각 개체를 나타내고, 관계는 그 개체들간의 특정 관계를 기술할 수 있는 입력 지식베이스의 관계 유형 중 하나를 의미할 수 있다. 이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다.

도 2는 본 발명의 일 실시예에 따른 자율 증강형 반복 학습을 이용한 정보 추출 시스템의 구성을 나타내는 도면이다.

제안하는 자율 증강형 반복 학습을 이용한 정보 추출 시스템은 관계 추출용 데이터를 수집할 수 있도록 수집/전처리된 지식을 데이터로 제공하고, 이로부터 제공되는 지식 전처리 결과 데이터와 학습 결과 데이터를 증강하여 지식베이스에 저장하는 지식관리장치(100), 지식베이스에 미리 저장된 학습 지식을 Distant Supervision 방식을 사용하여 기계학습 장치로 제공하는 학습데이터 생성장치(200) 및 학습데이터 생성장치(200)로부터 제공된 학습 지식을 제공받아와 기계학습 수행 후 정보 추출 결과데이터를 상기 지식관리장치로 제공하는 기계학습 정보추출장치(300)를 포함한다.

도 2에 도시된 바와 같이, 지식관리장치(100)는 정보 추출에 사용될 입력 지식베이스와 입력 텍스트문서로부터 수집하고자 하는 데이터를 상기 학습 데이터 생성장치(200)가 수집할 수 있도록, 지식베이스에 기저장된 수집/전처리 지식을 상기 학습 데이터 생성장치(200)로 제공하고, 상기 기계학습 정보 추출 장치(300)의 지식베이스 기반 학습이 가능하도록 지식베이스에 기저장된 학습 지식을 상기 기계학습 정보 추출 장치(300)로 제공하며, 상기 학습데이터 생성장치(200)로부터 제공되는 지식 전처리 결과 데이터와 상기 기계학습 정보 추출 장치(300)로부터 제공되는 정보 추출 결과데이터를 증강하여 지식관리장치(100)에 저장한다.

도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 학습데이터 생성장치(200)는 새롭게 추가되는 외부의 입력 텍스트 문서 데이터를 수집하고, 지식관리 장치(100)로부터 제공되는 수집/전처리된 지식을 시용하여 수집된 신규 텍스트 문서의 지식 전처리 과정을 수행하며, 생성된 지식 전처리 결과 데이터를 상기 기계학습 정보추출장치(300)로 제공한다.

상세하게, 학습 데이터 생성장치(200)에서는 Distant Supervision 방식을 이용하여 문장내에서 지식베이스에 정렬되는 두 개의 서로 다른 개체를 찾고, 그 개체를 문장내에서 식별가능하도록 특정 태그를 부착한 후, 태깅된 두 개의 개체 사이의 관계 유형 하나를 정답으로 부착한다. 예를 들어 "손흥민은 현재 잉글랜드 토트넘에서 뛰고 있다"라는 문장에 대하여 식별 가능한 개체를 모두 찾으면 다음의 예시와 같다.

"<e>손흥민</e>은 현재 <e>잉글랜드</e> <e>토트넘</e>에서 뛰고 있다"

이 중에서 두 개의 서로 다른 개체 사이의 의미 있는 연결이 지식베이스에 존재하는 경우 두 개의 개체를 특정 관계 유형 하나로 부착하여 다음의 예시와 같이 표기한다.

"<e1>손흥민</e1>은 현재 <e>잉글랜드</e> <e2>토트넘</e2>에서 뛰고 있다", DB O:club

이때 특정 관계 유형에 직접 포함되는 개체의 경우 서브젝트 개체를 가리키는 <e1> 태그와 오브젝트 개체를 가리키는 <e2>로 기입하며, 관계 유형에 직접 포함되지는 않으나 문장 내에서 개체로 밝혀진 것에 대하여는 개체임을 나타내는 태그 <e>를 기입한다. 상기에서 여러번 언급한 바와 같이 주어진 문장 하나에 대하여 부착할 수 있는 관계 유형은 학습 단계에 사용되는 지식베이스의 미리 정의된 관계 유형 중 하나로 선택한다.

상기에 설명된 Distant Supervision 방식을 이용하여 정렬된 학습 데이터는 각가의 문장에 대하여 문장 벡터 형식으로 변환하는 임베딩 모델인 문장 벡터 모델을 생성하여 상기 기계학습 정보 추출 장치(300)로 그 데이터를 전달한다. 문장 벡터 모델의 생성을 위해서는 기존에 잘 알려진 문장 벡터 모델인 Doc2Vec, CNN, RNN등을 이용하여 생성하나 어떠한 문장 벡터 모델을 사용하는지에 대한 제한사항이 없다. 하나의 구현예로 RNN 모델에서는 문장을 구성하는 어휘별로의 임베딩을 구하고, 마지막 히든 스테이트 값이 문장의 의미를 나타내는 문장 임베딩 벡터가 되며 출력은 문장에서 각각의 어휘가 갖는 관계 정보가 된다.

도 2에 도시된 바와 같이, 기계학습 정보추출장치(300)는 학습데이터 생성장치(200)로부터 제공된 지식 전처리 결과데이터와, 상기 지식관리장치(100)로부터 제공된 학습 지식을 이용하여 지식베이스 기반의 정보추출 학습과정을 수행하고, 그 학습 결과데이터를 상기 지식관리장치(100)로 제공한다. 기계학습 정보추출장치(300)는 Logistic regression, CNN, LSTM 등 을 이용하여 다양한 형태의 관계 유형 분류기로 구성되나, 본 발명에서 제안하는 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템의 구성요소인 기계학습 정보추출장치(300)는 구현 가능한 어떠한 관계 추출 알고리즘이라도 사용될 수 있으며 알고리즘을 구현하기 위하여 사용된 프로그래밍 언어나, 운영체제, 계산환경에 대한 한정사항이 없다.

도 3은 본 발명의 일 실시예에 따른 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템의 지식관리장치의 상세 구성요소를 설명하기 위한 도면이다.

도 3에 도시된 바와 같이, 본 발명의 실시예에 따른 지식 수집 장치(111)는 지식베이스(113)에 포함될 지식을 수집하는 장치로 기록하고자 하는 모든 추출 정보인 트리플렛, 트리플렛 자체의 신뢰도 스코어, 트리플렛을 추출한 원문 문장, 트리플렛을 추출한 정보 추출 모듈 정보를 관계형 데이터베이스에 저장하며; 관계형 데이터베이스에 저장된 트리플 중 상기 지식 검증 장치(112)에 의하여 기존 지식베이스(113)장치에 포함된 데이터 유형과 동일한 형태의 트리플렛 데이터를 입력으로 받아 지식 검증 장치(112)로 전달한다.

상세하게, 지식 검증 장치(112)는 상기 지식 수집 장치(111)로부터 전달받은 데이터를 기존 지식베이스(113) 장치에 포함되어 있는 데이터와의 유사성 및 지식베이스 규격을 확인 하여 새롭게 추가될 지식의 신뢰성을 검토한 후 기존 지식베이스에 새롭게 저장한다. 지식 검증 장치에서는 기존 지식베이스 온톨로지에 사용된 클래스/인스턴스 정보를 이용하여 개체의 유효성을 판단하며 지식베이스 온톨로지에 사용된 도메인/레인지 정보를 이용하여 관계 유형의 적절성을 판단한다. 예를 들어, 기계학습 정보추출 장치(300)에 의해 발견된 새로운 지식후보가 '<손흥민, DBO:birthPlace, 토트넘>'인 경우 관계 유형 '출생지'는 지식베이스에 정의되어있는 유형의 도메인 상 '사람(PERSON)'을 서브젝트 개체로 가지며, 지식베이스에 정의되어있는 유형의 레인지상 '지역(LOCATION)'을 오브젝트로 가지는 경우 상기 예문 지식인 '<손흥민-출생지-토트넘>'의 경우 관계 유형 'DBO:birthPlace의 오브젝트 레인지 불일치로 지식베이스의 신규 엔트리로 등록될 수 없게 된다.

또한 기존 지식베이스 온톨로지에 사용된 클래스/인스턴스 정보가 밝혀지지 않았거나 특정 관계 유형에 있어 도메인/레인지 정보가 한정되지 않아 특정 대상으로 한정할 수 없는 경우 기계학습 정보추출 장치(300)에 의해 발견된 새로운 지식후보는 모두 새로운 지식으로 추가될 수 있도록 한다. 예를 들어, 기계학습 정보추출 장치(300)에 의해 발견된 새로운 지식후보 '<손흥민, DBO:related, 황의조>', '<손흥민, DBO:related, 축구>'처럼 관계 유형 'DBO:related'의 경우 오브젝트로 가질 수 있는 개체의 유형을 특정한 개체 클래스로 한정할 수 없는 경우 기계학습 정보추출 장치(300)에 의해 추가된 지식 후보는 기존 지식베이스 온톨로지에 사용된 지식간의 유사성을 바탕으로 새롭게 발견된 지식의 유효성 검증시 필터링 되지 않도록 한다.

본 발명의 실시예에 따른 지식 검증 장치(112)는 기계학습 정보추출장치(300)에 의해 새롭게 발견되는 지식에 대하여 특정 신뢰도 이상으로 판별된 트리플렛 형태의 지식에 대하여 지식베이스(113)에 새로운 데이터를 업데이트 수행한다. 기계학습 정보추출장치(300)는 Logistic regression, CNN, LSTM 등을 이용하여 다양한 형태의 관계 유형 분류기로 구성되며, 이 경우 지식베이스에 정의되어있는 각 관계 유형별 포함될 확률값을 학습 단계 및 예측 단계에 출력할 수 있으므로 이 값을 지식 검증 장치(112)의 신뢰도 값으로 전달하여 지식베이스에 추가될 지식의 최종 신뢰도 값을 계산하기 위한 재료로 제공한다. 예를 들어 Logistic regression 기반의 분류기에서 "<e1>손흥민</e1>은 현재 잉글랜드 <e2>토트넘</e2>에서 뛰고 있다”라는 문장에 대한 학습 결과로 "<DBO:club, 0.72>"라고 출력하는 경우 신규 지식 트리플 <손흥민, DBO:club, 토트넘>"의 경우 신뢰도 후보값으로 0.72값을 갖게 된다.

또한, 기계학습 정보추출장치(300)에 의해 새롭게 발견되는 지식은, 신규 지식 트리플렛 자체를 바탕으로 기존 지식베이스(113)와의 유사성을 기반으로 클러스터링을 진행한 후 기존의 신뢰도 높은 지식으로부터 너무 먼 거리의 학습데이터를 제거하는 후처리를 적용한다. 이때 지식베이스의 정의된 관계 유형별로 모든 트리플렛의 인스턴스를 군집하여 '관계별 벡터 모델'을 생성하며 지식베이스 시드에 포함되어 있던 지식을 중심으로 한 너무 먼거리(threshold)에 위치한 데이터는 노이즈로 필터링 한다.

또한, Distant Supervision에 의해 학습에 사용된 문장과 새롭게 정보를 추출한 문장에 대하여 모두 문장 임베딩 모델을 생성하고 클러스터링을 진행한후 기존 학습 데이터를 중심으로 너무 먼거리에 위치한 문장은 다음 학습데이터 사용하지 않도록 필터링하여 반복학습에 의해 무분별하게 증가되는 Distant Supervision기반 학습데이터의 노이즈를 제거함으로써 학습 데이터의 유효성을 극대화할 수 있다.

이러한 본 발명의 일 실시예에 따르면, 사람의 개입이 없이도 보다 효율적으로 데이터 수집 및 처리를 가능하게 하고, 특히 이전 단계의 학습 모델로부터 밝혀진 새로운 지식을 지식베이스에 자동으로 등록하고 증강된 학습 데이터를 통하여 지속적인 학습 방법을 갱신할 수 있는 자율 증강형 모델로서, 종래에 사용하였던 입력 지식베이스와 입력 문서로부터 정보 추출기가 단일적으로 Distant Supervision 방식을 이용하여 학습 데이터를 생성하고 기계 학습을 이용한 학습 모델을 생성하는 방식의 제한점을 해결하며 동시에 반복적이며 무제한적으로 정보 추출을 수행할 수 있다.

본 발명이 이루고자 하는 기술적 과제는 상기한 문제점들을 해결하기 위해 고안된 것으로, 단일 학습을 이용한 정보 추출 시스템에서 처리하지 못하는 자율 증강된 지식을 인식하여 학습함으로써 정보 추출 시스템의 성능을 향상시키거나 Distant Supervision을 이용한 데이터 수집에서부터 학습 데이터 생성과 지식베이스화까지의 장치를 유기적으로 결합함으로써 정보 추출 시스템의 전체 성능을 개선할 수 있는 자율 증강 반복 학습 방법 및 시스템을 제공하고자 한다.

또한, 본 발명의 목적은, 관계 추출 학습에 사용될 Distant Supervision 기반의 학습 레이블 데이터 자동 생성에 있어 반복적으로 증강되는 시스템에 의하여 새롭게 발견된 신뢰성 높은 신규 데이터가 지식베이스에 추가됨으로써 관계 추출 학습에 사용되는 코퍼스의 자동 확장 방법으로 이용할 수 있는 자율 증강 반복 학습 방법 및 시스템을 제공하는데 있다.

상기 목적을 달성하기 위하여, 본 발명에 따른 자율 증강형 반복 학습을 이용한 정보 추출 시스템은 추출하고자 하는 관계 추출용 데이터를 수집할 수 있도록 수집/전처리된 지식을 데이터로 제공하고, 이로부터 제공되는 지식 전처리 결과 데이터와 학습 데이터 생성장치로부터 제공되는 학습 결과 데이터를 증강하여 지식베이스에 저장하는 지식관리장치(100), 기계학습 장치의 지식베이스 학습이 가능하도록 지식베이스에 미리 저장된 학습 지식을 Distant Supervision 방식을 사용하여 기계학습 장치로 제공하는 학습데이터 생성장치(200) 및 학습데이터 생성장치로부터 제공된 학습 지식을 제공받아와 지식베이스 기반의 기계학습을 수행한 후 학습 결과인 정보 추출 결과데이터를 상기 지식관리장치로 제공하는 기계학습 정보추출장치(300)를 포함하는 것을 특징으로 한다.

본 발명의 실시예들에 따르면 종래의 방법에 비해 이전 단계의 학습 모델이 예측한 새로운 지식을 다음 단계의 학습 데이터에 추가함으로써 선순환적으로 정보 추출 시스템의 성능을 개선할 수 있도록 하는 효과가 있으며 지식베이스의 수동 증강으로부터 발생하는 한계점을 해결하기 위하여 사람의 개입 없이 자동으로 지식베이스를 증강할 수 있다.

본 발명에서는 다른 방법에서는 시도되지 않았던 반복 학습 결과를 누적적으로 이용하여 관계 추출 시스템의 정확도를 향상시키는 방법으로, 최근 다양한 인공지능 기반 작업의 기계학습을 위한 학습 데이터 생성 방식으로 각광받고 있는 외부 비전문가 집단 지성을 활용한 크라우드소싱 작업의 콜드 스타트 문제를 해결하고 대량의 데이터상에서의 롱테일을 발견하기 위해 활용할 수 있는 방법 및 시스템이다.

사용자의 집단 지성을 이용하는 크라우드소싱은 사용자의 행동 기록을 통한 협업 필터링이므로 각각의 사용자별 잠재된 지식을 이용하고 있어 사용자 사이의 신뢰도 기준의 판단이 어렵고 사용자 개개인별로 얻을 수 있는 정보가 다르기 때문에 정보 추출에 사용되는 특정 관계에 대한 프로파일을 구성하기 어려운 반면, 지식베이스 자율 증강형 반복 학습을 이용한 지식베이스 증강 기법은 추출된 지식 결과와 기존 지식 베이스와의 내용 자체의 유사성 및 신뢰도를 분석하므로 협업 필터링에서 발생하는 콜드 스타트 문제를 자연스럽게 해결할 수 있다. 특히 기존 항목간의 유사성을 단순하게 비교하는 것에서 벗어나, 정보가 추출된 원천 지식의 자료 안에 내재한 패턴을 분석하고 벡터로 생성하여 비교하는 기법을 통해 필터링 기법을 고도화할 수 있는 방법 및 시스템이다. 이 방법에 의해 지식베이스를 구성하는 지식에 대한 세부적 정보를 유추함으로써 높은 정확도로 다음 단계의 정보 추출에 활용할 수 있다.

또한, 학습 데이터상에서 발견 개수가 적어 단편적인 기계 학습 분류기에 의해 효율적으로 추출되기 어려운 관계 학습 유형인 '롱테일' 문제에 대하여, 관계 유형별 비대칭적 쏠림 현상을 극복하기 위한 반복적 기계 학습 분류 기술을 활용하여 유효한 학습데이터를 생성하고 관리할 수 있다.

본 발명은 관계 추출 장치에 의해 새롭게 발견되는 지식에 대하여 지식베이스를 업데이트 하거나 관계 추출 장치의 학습 능력을 향상시키지 못하는 문제점을 해결할 수 있다. 또한, 자율 증강형 학습부는 학습되는 외부 지식 데이터를 통해 지식베이스내의 모순된 지식을 수정할 수 있다.

본 발명의 실시예에 따르면, 공개된 기존 지식베이스에 잘 정의되어 있는 관계 유형과 새롭게 증강된 의존 관계 레이블간의 상관관계를 통한 정렬작업의 문제점을 해결할 수 있다. 또한, 실제 지식베이스 증강을 통한 지식베이스(혹은 온톨로지) 기반의 정보 추출 방법에 적절한 결과를 제공할 수 있다.

본 발명은 지식베이스/데이터베이스로부터 중요 지식 추출 기술, 지식 검색 및 질의응답시스템, 필수 지식 기반 지식베이스 자동 확충 시스템 등에 적용 및 응용될 수 있다. 또한, 빅데이터 환경의 신속한 접근 및 효율적 관리 및 빅데이터 연계 및 상호운용성 확보 통한 고부가 서비스 생성에 대한 시장성을 갖고 있다.

뿐만 아니라, 대용량의 지식베이스가 중요도에 의해 정렬될 수 있어 지식 체계화가 가능하고, 다양한 언어 지식베이스의 통합 해석법에 대한 기술 목표를 선점 확보할 수 있다.

본 발명은 지식베이스 및 데이터베이스를 취급하는 모든 시스템에서 사용이 가능하여 시장성은 매우 높다고 판단된다.

기업이 보유하고 있는 사내 인트라 데이터, 정부/지자체가 제공하는 공용데이터 등 데이터가 포함한 특질에 종속없이 정보 축적 시스템 및 검색이 필요한 기업에 대하여 사업화가 가능하다. 한국어뿐만 아니라 다양한 언어로 활용이 가능한 장치로 국내 기업 대상으로 한정하지 않는다.

빅데이터 관련 기업 및 정부 부처 에서 즉각적 기술적용 가능하고, 빅데이터 상에서 반복적인 추출 과정을 통한 데이터 신뢰도 예측이 가능하며, 빅데이터 상의 비정형 데이터의 구조화 작업이 가능하다. 따라서, 지식베이스 및 데이터베이스를 이용한 검색 업체 에서 즉각적 기술적용이 가능하다.

본 발명은 지식베이스 구축에 대한 개발/유지 비용을 감소시킬 수 있다. 사람의 개입 없이 효율적인 데이터베이스 관리 및 유지를 가능하게 하고, 이전 단계의 학습 모델로부터 밝혀진 새로운 지식을 지식베이스에 자동으로 등록하고 증강된 학습 데이터를 통하여 지속적인 기계 학습용 데이터 생산이 가능하다. 또한, 지속적으로 확장되어 효율적으로 사용될 수 있고, 정확한 지식데이터를 보유할 수 있는 지식베이스를 구축할 수 있다.

본 발명의 실시예에 따르면, 정보 추출 기술 고도화 작업의 자동화가 가능하고, 이전 단계의 학습 모델로부터 밝혀진 새로운 지식을 지식베이스에 자동으로 등록하고 증강된 학습 데이터를 통하여 지속적인 기계 학습용 데이터를 생산할 수 있다. 지식베이스 관련 연구분야와 연구팀에서 사용 가능한 공용 데이터를 발행함으로써 유사 연구의 지속성 지원이 가능하다. 대용량 데이터의 신뢰주기 관리에 따른 활용성이 향상되며, 지식베이스 표준형 지식 증강 및 지식원천문장에 대한 병합관리로 보유 데이터에 관한 연관정보 획득이 용이하다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.　 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.　 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.　 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.　 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.　 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.　 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.　 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.　 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.　 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.　 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.　

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.　 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

지식베이스와 텍스트 코퍼스를 이용하여 개체명과 관계명이 정의된 기계 학습용 데이터를 생성하기 위하여 지식베이스와 텍스트 코퍼스를 수집 및 저장하는 단계;
상기 저장된 정보 추출 관련 지식베이스 및 텍스트 코퍼스를 이용하여 문장 벡터 모델을 생성하고 이를 이용하여 개체명 연결 및 관계 추출 학습데이터를 생성하는 단계;
상기 학습 데이터를 이용하여 정보 추출을 수행하는 단계;
상기 정보 추출 방법 및 시스템에 의해 생성된 결과 데이터에 대한 기존 지식베이스와의 유사성 및 일치성을 검증하는 신뢰도 검증 단계; 및
검증된 신뢰도 데이터를 기준으로 새롭게 지식베이스를 증강하는 단계를 반복적하고, 정보 추출에 유효한 학습데이터를 생성하고 관리하는 단계
를 포함하는 정보 추출 방법.
제 1항에 있어서,
상기 신뢰도 검증 단계에서 클러스터링을 수행한 후 신뢰도 데이터와 기존 지식베이스의 유사도를 기준으로 지식베이스에 새로운 트리플렛 형태의 지식을 추가하는
정보 추출 방법.