KR102464998B1

KR102464998B1 - 상식적인 질문 답변 추론 방법 및 장치

Info

Publication number: KR102464998B1
Application number: KR1020210017327A
Authority: KR
Inventors: 박영택; 바트셀렘; 김민성; 이민호
Original assignee: 숭실대학교산학협력단
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2022-11-09
Also published as: KR20220114157A

Abstract

본 발명은 상식적인 질문 답변 추론 방법 및 장치를 개시한다. 본 발명에 따르면, 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 질문과 복수의 답변 각각에 대한 복수의 조합에서 복수의 엔티티를 추출하고, 상기 복수의 조합별로 지식 그래프를 참조하여 상기 추출된 복수의 엔티티 사이의 하나 이상의 경로를 추출하고, 데이터 증강(data augmentation)을 통해 상기 하나 이상의 경로를 문장으로 변환하고, 상기 문장과 상기 질문을 조합하여 제1 임베딩 벡터를 생성하고, 상기 복수의 조합 각각에 대한 제2 임베딩 벡터를 생성하고, 멀티-헤드 어텐션(multi-head attention) 모듈에 상기 제1 임베딩 벡터 및 제2 임베딩 벡터를 입력하여 복수의 조합 각각의 어텐션 스코어를 계산하고, 상기 어텐션 스코어를 통해 상기 질문에 대응되는 복수의 답변 중 하나를 정답으로 추론하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 설명 가능한 상식적인 질문 답변 추론 완성 장치가 제공된다.

Description

상식적인 질문 답변 추론 방법 및 장치{Commonsense question answer reasoning method and apparatus}

본 발명은 상식적인 질문 답변 추론 방법 및 장치에 관한 것이다.

Commonsense Questions Answering(상식적인 질문 답변 문제)은 인공지능이 직면한 큰 과제중 하나이며, 이는 질문에 답변이 명시적으로 표현되지 않은 질문에 대해 정확하게 대답하는 것을 목표로 한다.

Commonsense question answering은 질문과 후보 답변들이 주어지면 자동으로 질문에 대한 하나의 정답을 선택하는 시스템이다. n개의 질문이 포함된 상식 질문 답변 작업에 CommonsenseQA 데이터셋을 사용하고 각 질문에는 정답 1개와 오답 4개로 총 5개의 후보 답변으로 구성되어 있다.

Commonsense question에 대한 답변을 할때 외부의 상식적인 지식이나 사실이 필요하다.

이때, 지식 그래프에서 이러한 질문 답변에 대한 지식 및 사실을 찾을 수 있다.

지식 그래프는 트리플 형태(s, r, t)로 사실 정보를 갖고 있으나, 완전하지 않은 지식 그래프는 인공지능 기반 시스템에서 사용하기가 어려운 문제점이 있다.

종래기술에는 지식그래프에서 경로(경로) 정보를 추출하고 이를 활용하여 Commonsense Question에 답하는 방식이 제공될 수 있으나, 지식 그래프의 불완전성으로 인해 추출된 경로 정보에서 의미있는 정답을 찾는 것이 어려운 문제점이 있다.

종래기술에서는 이러한 문제점을 해결하기 위해 경로를 증가시켰지만 생성된 경로들은 신경망 모델에서 학습이 잘 되지 않는 문제점이 있다.

대한민국공개특허 제10-2019-0133931호

상기한 종래기술의 문제점을 해결하기 위해, 본 발명은 질문과 정답 사이의 관계를 파악할 수 있는 상식적인 질문 답변 추론 방법 및 장치를 제안하고자 한다.

상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따르면, 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 질문과 복수의 답변 각각에 대한 복수의 조합에서 복수의 엔티티를 추출하고, 상기 복수의 조합별로 지식 그래프를 참조하여 상기 추출된 복수의 엔티티 사이의 하나 이상의 경로를 추출하고, 데이터 증강(data augmentation)을 통해 상기 하나 이상의 경로를 문장으로 변환하고, 상기 문장과 상기 질문을 조합하여 제1 임베딩 벡터를 생성하고, 상기 복수의 조합 각각에 대한 제2 임베딩 벡터를 생성하고, 멀티-헤드 어텐션(multi-head attention) 모듈에 상기 제1 임베딩 벡터 및 제2 임베딩 벡터를 입력하여 복수의 조합 각각의 어텐션 스코어를 계산하고, 상기 어텐션 스코어를 통해 상기 질문에 대응되는 복수의 답변 중 하나를 정답으로 추론하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 설명 가능한 상식적인 질문 답변 추론 완성 장치가 제공된다.

상기 프로그램 명령어들은, 상기 질문을 토큰화하여 복수의 엔티티를 추출하고, 상기 지식 그래프에 상기 질문에서 추출된 복수의 엔티티에 대응되는 단어들이 상기 지식 그래프에 존재하는지 검사할 수 있다.

상기 프로그램 명령어들은, 상기 질문에서 추출된 엔티티와 상기 답변에서 추출된 엔티티를 연결하는 경로 중 미리 설정된 길이 이하의 경로를 선택하고, 상기 선택된 경로를 문장으로 변환할 수 있다.

상기 프로그램 명령어들은, back-translation을 통해 제1 언어로 이루어진 상기 하나 이상의 경로를 제2 언어로 변역하고, 상기 번역된 제2 언어를 다시 제1 언어로 번역하여 상기 하나 이상의 경로를 문장으로 변환할 수 있다.

상기 프로그램 명령어들은, RoBERTa 모델을 이용하여 상기 제1 임베딩 벡터 및 상기 제2 임베딩 벡터를 생성하고, 상기 제1 임베딩 벡터를 생성하기 위한 제1 입력 데이터는 시작 토큰 <s>, 상기 질문, 서로 다른 세그먼트를 분리하는 토큰 <sep>, 상기 문장 및 종료 토큰 </s>으로 구성되고, 상기 제2 임베딩 벡터를 생성하기 위한 제2 입력 데이터는 시작 토큰 <s>, 상기 질문, 서로 다른 세그먼트를 분리하는 토큰 <sep>, 상기 복수의 답변 중 하나 및 종료 토큰 </s>으로 구성될 수 있다.

상기 멀티-헤드 어텐션(multi-head attention) 모듈은 상기 복수의 조합에 대응되는 복수의 학습 모델을 포함하고, 상기 복수의 학습 모델은 상기 복수의 조합 각각에 대한 제2 임베딩 벡터와 복수의 조합 각각으로부터 추출된 하나 이상의 경로를 변환환 문장으로부터 생성된 제2 임베딩 벡터가 입력 받아 복수의 어텐션 스코어를 계산할 수 있다.

본 발명의 다른 측면에 따르면, 프로세서 및 메모리를 포함하는 장치에서 상식적인 질문 답변을 추론하는 방법으로서, 상기 복수의 조합별로 지식 그래프를 참조하여 상기 추출된 복수의 엔티티 사이의 하나 이상의 경로를 추출하는 단계; 데이터 증강(data augmentation)을 통해 상기 하나 이상의 경로를 문장으로 변환하는 단계; 상기 문장과 상기 질문을 조합하여 제1 임베딩 벡터를 생성하는 단계; 상기 복수의 조합 각각에 대한 제2 임베딩 벡터를 생성하는 단계; 멀티-헤드 어텐션(multi-head attention) 모듈에 상기 제1 임베딩 벡터 및 제2 임베딩 벡터를 입력하여 복수의 조합 각각의 어텐션 스코어를 계산하는 단계; 및 상기 어텐션 스코어를 통해 상기 질문에 대응되는 복수의 답변 중 하나를 정답으로 추론하는 단계를 포함하는 상식적인 질문 답변 추론 방법이 제공된다.

본 발명의 또 다른 측면에 따르면, 상기한 방법을 수행하는 컴퓨터 판독 가능한 프로그램이 제공된다.

본 발명에 따르면, Data Augmentation과 질문 답변 임베딩 값을 활용하여 Multi-head Attention 메커니즘을 통해 불완전한 지식 그래프를 사용하여 의미있는 경로를 찾기 어려운 문제점을 해결할 수 있다.

도 1은 본 발명의 바람직한 일 실시예에 따른 상식적인 질문 답변 추론 장치의 구성의 도시한 도면이다.
도 2는 본 실시예에 따른 상식적인 질문 답변 추론 과정을 설명하기 위한 도면이다.
도 3은 본 실시예에 따른 경로의 임베딩 과정을 설명하기 위한 도면이다.
도 4는 본 실시예에 따른 질문과 답변의 조합에 대한 임베딩 과정을 설명하기 위한 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

도 1은 본 발명의 바람직한 일 실시예에 따른 상식적인 질문 답변 추론 장치의 구성의 도시한 도면이다.

도 1에 도시된 바와 같이, 본 실시예에 따른 장치는 프로세서(100) 및 메모리(102)를 포함할 수 있다.

프로세서(100)는 컴퓨터 프로그램을 실행할 수 있는 CPU(central processing unit)나 그밖에 가상 머신 등을 포함할 수 있다.

메모리(102)는 고정식 하드 드라이브나 착탈식 저장 장치와 같은 불휘발성 저장 장치를 포함할 수 있다. 착탈식 저장 장치는 컴팩트 플래시 유닛, USB 메모리 스틱 등을 포함할 수 있다. 메모리(102)는 각종 랜덤 액세스 메모리와 같은 휘발성 메모리도 포함할 수 있다.

이와 같은 메모리(102)에는 프로세서(100)에 의해 실행 가능한 프로그램 명령어들이 저장된다.

본 실시예에 따른 프로그램 명령어들은, 질문과 복수의 답변 각각에 대한 복수의 조합에서 복수의 엔티티를 추출하고, 상기 복수의 조합별로 지식 그래프를 참조하여 상기 추출된 복수의 엔티티 사이의 하나 이상의 경로를 추출하고, 데이터 증강(data augmentation)을 통해 상기 하나 이상의 경로를 문장으로 변환하고, 상기 문장과 상기 질문을 조합하여 제1 임베딩 벡터를 생성하고, 상기 복수의 조합 각각에 대한 제2 임베딩 벡터를 생성하고, 멀티-헤드 어텐션(multi-head attention) 모듈에 상기 제1 임베딩 벡터 및 제2 임베딩 벡터를 입력하여 복수의 조합 각각의 어텐션 스코어를 계산하고, 상기 어텐션 스코어를 통해 상기 질문에 대응되는 복수의 답변 중 하나를 정답으로 추론한다.

일반적으로 Commonsense question answering은 5개의 답변 중 하나를 정답으로 선택하는 것이므로, 경로 추출, 문장 변환, 임베딩 및 어텐션 스코어 계산은 하나의 질문과 5개의 답변에 대한 5개의 조합 각각에 대해 수행될 수 있다.

도 2는 본 실시예에 따른 상식적인 질문 답변 추론 과정을 설명하기 위한 도면이다.

도 2에서는 Where do adult use glue sticks?라는 질문과 Office라는 하나의 답변에 대한 추론 과정을 나타낸 것이다.

본 실시예에 따르면, 하나의 질문과 복수의 답변 각각에 대한 추론 과정이 수행되며, 최종적으로 복수의 답변 중 하나를 정답으로 결정한다.

도 2를 참조하면, 질문과 답변에 대해 복수의 엔티티를 추출하고, 추출된 엔티티가 지식 그래프에 존재하는지 확인한다.

본 실시예에 따른 장치는 질문을 토큰화하여 복수의 엔티티를 추출하며, 복수의 엔티티는 질문에 포함된 여러 단어 중 명사에 해당하는 단어와 답변을 포함하는 단어일 수 있다.

이는 Concept matching 과정으로 정의될 수 있고, n-grams 기법을 활용해 엔티티가 될 수 있는 단어들이 지식 그래프에 존재하는지 검사한다.

예를 들어, “What is likely the result of a small episode of falling?" 문장이 있을 때, 복수의 엔티티는 {result, small, episode, fall} 일 수 있다. 종래에는 “falling asleep”같은 경우 지식 그래프에서 매칭될 수 있는 경우가 {fall, fall_asleep, asleep}와 같이 세 개 전부 나오게 된다.

의미적으로 볼 때, “fall”과 “fall_asleep” 다른 의미를 가지므로 유용하지 않다. 본 실시예에서는 다른 의미를 갖지 않는 엔티티를 추출하기 위해 비교적 긴 단어 조합으로 이루어진 엔티티를 활용하게 된다.

이후, 지식 그래프를 참조하여 복수의 엔티티에 대한 하나 이상의 경로를 추출한다.

본 실시예에 따르면, 불완전한 지식 그래프를 사용하여 질문으로부터 정보 추출이 어려운 문제점을 피하기 위해 상기한 바와 같이 하나 이상의 경로를 추출한다.

질문과 답변으로부터 추출된 엔티티

를 가지고 지식 그래프에서 두 엔티티 사이에 존재하는 하나 이상의 경로(path)를 추출한다. 경로의 길이는 짧은 것부터 긴 것까지 다양하게 존재할 수 있다.

본 실시예에 따르면, 복수의 경로 중 의미있는 경로를 선택하기 위해 비교적 길이가 짧은 경로(예를 들어, 5 이하)를 선택한다.

지식 그래프에서 질문으로부터 추출한 엔티티를 시작으로 답변에서 추출한 엔티티까지 도달하는 경로들을 다음과 같이 표현할 수 있다

: .

많은 경로들을 전부 사용하는 것은 비효율적이므로 랜덤 워크 확률을 이용하여 경로 당 스코어를 계산하고, 이를 통해 추론에 사용할 경로를 선택한다.

도 2에서는 "adult-->capableof-->work-->atlocation-->office"와 "glue_stick-->atlocation-->office" 두 개의 경로가 추출되는 것을 예시적으로 나타낸다.

본 실시예에서는 경로를 학습에 사용하기 위해서 Data augmentation을 활용하여 경로를 의미있는 문장으로 변환한다.

Data augmentation할 때 back-translation 방식을 통해 경로를 문장으로 변환한다.

이 방법은 경로를 특정 언어로 번역 후 다시 원래 언어로 번역하는 방식이다.

people->capableOf->taste_food<-capableOf<-tongues와 같은 경로가 추출된 경우, back-translation 방식을 통해 경로를 프랑스어로 먼저 번역하고 다시 영어로 번역하여 "people can taste food with a tongue" 와 같은 문장을 생성한다.

입력 경로와 변환된 문장은 다르지만 역 번역 후에도 의미는 같다.

본 실시예에 따르면, 하나 이상의 경로를 문장으로 변환하고, 변환된 최종 문장과 질문을 RoBERTa(transformer-based language model)를 이용하여 임베딩한다.

이는 변환된 문장을 다차원 공간이 임베딩하여 변환된 문장에 상응하는 임베딩 벡터를 생성하는 것이다.

RoBERTa 모델 중 next sentence prediction task를 fine-tuning하여 사용할 수 있다.

도 3은 본 실시예에 따른 경로의 임베딩 과정을 설명하기 위한 도면이다.

도 3을 참조하면, RoBERTa 모델에 입력 데이터(제1 입력 데이터)는 아래와 같이, 시작 토큰 <s>, 질문(q), 서로 다른 세그먼트를 분리하기 위한 토큰 <sep>, Data Augmentation 결과값인 변환된 문장(s) 및 종료 토큰 </s>으로 구성된다.

Input Data:

또한, 본 실시예에 따르면, 변환된 문장뿐만 아니라, 질문과 답변의 조합에 대해서도 임베딩을 수행한다.

도 4는 본 실시예에 따른 질문과 답변의 조합에 대한 임베딩 과정을 설명하기 위한 도면이다.

도 4를 참조하면, 아래의 입력 데이터(제2 입력 데이터)를 사용하며, 제2 입력 데이터는 시작 토큰 <s>, 질문(q), 서로 다른 세그먼트를 분리하기 위한 토큰 <sep>, 답변(Answer choice) 및 마지막을 의미하는 </s> 토큰을 사용한다.

본 실시예에 따르면, 어텐션 메커니즘을 이용하여 변환된 문장 및 질문을 포함하는 제1 입력 데이터를 통해 생성된 임베딩 벡터와 질문 및 답변을 포함하는 제2 입력 데이터를 통해 생성된 임베딩 벡터 사이의 의미적 유사성을 비교한다.

의미적 유사성 비교를 통해 질문과 복수의 답변 사이의 관계가 유의미한지 여부를 파악할 수 있다.

도 5는 본 실시예에 따른 질문에 대한 정답을 결정하는 과정을 설명하기 위한 도면이다.

도 5를 참조하면, 하나의 질문 및 복수의 답변 각각의 복수의 조합(Question+choice1 내지 Question+choice5)에 대응되는 복수의 학습된 모델이 제공되고, 각 모델은 복수의 조합 각각에 대한 임베딩 벡터와 복수의 조합 각각으로부터 추출된 하나 이상의 경로를 변환환 문장으로부터 생성된 임베딩 벡터가 입력된다.

각 모델은 임베딩 벡터의 비교를 통해 의미적 유사성에 대한 어텐션 스코어(score1 내지 score5)를 출력하고, 소프트맥스(softmax)를 통해 가장 높은 값을 질문에 대한 정답으로 결정한다.

상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

Claims

상식적인 질문 답변 추론 완성 장치로서,
프로세서; 및
상기 프로세서에 연결되는 메모리를 포함하되,
상기 메모리는,
질문과 복수의 답변 각각에 대한 복수의 조합에서 복수의 엔티티를 추출하고,
상기 복수의 조합별로 지식 그래프를 참조하여 상기 추출된 복수의 엔티티 사이의 하나 이상의 경로를 추출하고,
데이터 증강(data augmentation)을 통해 상기 하나 이상의 경로를 문장으로 변환하고,
상기 문장과 상기 질문을 조합하여 제1 임베딩 벡터를 생성하고,
상기 복수의 조합 각각에 대한 제2 임베딩 벡터를 생성하고,
멀티-헤드 어텐션(multi-head attention) 모듈에 상기 제1 임베딩 벡터 및 제2 임베딩 벡터를 입력하여 복수의 조합 각각의 어텐션 스코어를 계산하고,
상기 어텐션 스코어를 통해 상기 질문에 대응되는 복수의 답변 중 하나를 정답으로 추론하도록,
상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장한 설명 가능한 상식적인 질문 답변 추론 완성 장치.
제1항에 있어서,
상기 프로그램 명령어들은,
상기 질문을 토큰화하여 복수의 엔티티를 추출하고, 상기 지식 그래프에 상기 질문에서 추출된 복수의 엔티티에 대응되는 단어들이 상기 지식 그래프에 존재하는지 검사하는 상식적인 질문 답변 추론 완성 장치.
제1항에 있어서,
상기 프로그램 명령어들은,
상기 질문에서 추출된 엔티티와 상기 답변에서 추출된 엔티티를 연결하는 경로 중 미리 설정된 길이 이하의 경로를 선택하고, 상기 선택된 경로를 문장으로 변환하는 상식적인 질문 답변 추론 완성 장치.
제1항에 있어서,
상기 프로그램 명령어들은,
back-translation을 통해 제1 언어로 이루어진 상기 하나 이상의 경로를 제2 언어로 번역하고, 상기 번역된 제2 언어를 다시 제1 언어로 번역하여 상기 하나 이상의 경로를 문장으로 변환하는 상식적인 질문 답변 추론 완성 장치.
제1항에 있어서,
상기 프로그램 명령어들은,
RoBERTa 모델을 이용하여 상기 제1 임베딩 벡터 및 상기 제2 임베딩 벡터를 생성하고,
상기 제1 임베딩 벡터를 생성하기 위한 제1 입력 데이터는 시작 토큰 <s>, 상기 질문, 서로 다른 세그먼트를 분리하는 토큰 <sep>, 상기 문장 및 종료 토큰 </s>으로 구성되고,
상기 제2 임베딩 벡터를 생성하기 위한 제2 입력 데이터는 시작 토큰 <s>, 상기 질문, 서로 다른 세그먼트를 분리하는 토큰 <sep>, 상기 복수의 답변 중 하나 및 종료 토큰 </s>으로 구성되는 상식적인 질문 답변 추론 완성 장치.
제1항에 있어서,
상기 멀티-헤드 어텐션(multi-head attention) 모듈은 상기 복수의 조합에 대응되는 복수의 학습 모델을 포함하고,
상기 복수의 학습 모델은 상기 복수의 조합 각각에 대한 제2 임베딩 벡터와 복수의 조합 각각으로부터 추출된 하나 이상의 경로를 변환환 문장으로부터 생성된 제2 임베딩 벡터가 입력 받아 복수의 어텐션 스코어를 계산하는 상식적인 질문 답변 추론 완성 장치.
프로세서 및 메모리를 포함하는 장치에서 상식적인 질문 답변을 추론하는 방법으로서,
질문과 복수의 답변 각각에 대한 복수의 조합에서 복수의 엔티티를 추출하는 단계;
상기 복수의 조합별로 지식 그래프를 참조하여 상기 추출된 복수의 엔티티 사이의 하나 이상의 경로를 추출하는 단계;
데이터 증강(data augmentation)을 통해 상기 하나 이상의 경로를 문장으로 변환하는 단계;
상기 문장과 상기 질문을 조합하여 제1 임베딩 벡터를 생성하는 단계;
상기 복수의 조합 각각에 대한 제2 임베딩 벡터를 생성하는 단계;
멀티-헤드 어텐션(multi-head attention) 모듈에 상기 제1 임베딩 벡터 및 제2 임베딩 벡터를 입력하여 복수의 조합 각각의 어텐션 스코어를 계산하는 단계; 및
상기 어텐션 스코어를 통해 상기 질문에 대응되는 복수의 답변 중 하나를 정답으로 추론하는 단계를 포함하는 상식적인 질문 답변 추론 방법.
제7항에 있어서,
RoBERTa 모델을 이용하여 상기 제1 임베딩 벡터 및 상기 제2 임베딩 벡터를 생성하고,
상기 제1 임베딩 벡터를 생성하기 위한 제1 입력 데이터는 시작 토큰 <s>, 상기 질문, 서로 다른 세그먼트를 분리하는 토큰 <sep>, 상기 문장 및 종료 토큰 </s>으로 구성되고,
상기 제2 임베딩 벡터를 생성하기 위한 제2 입력 데이터는 시작 토큰 <s>, 상기 질문, 서로 다른 세그먼트를 분리하는 토큰 <sep>, 상기 복수의 답변 중 하나 및 종료 토큰 </s>으로 구성되는 상식적인 질문 답변 추론 방법.
제7항에 있어서,
상기 멀티-헤드 어텐션(multi-head attention) 모듈은 상기 복수의 조합에 대응되는 복수의 학습 모델을 포함하고,
상기 복수의 학습 모델은 상기 복수의 조합 각각에 대한 제2 임베딩 벡터와 복수의 조합 각각으로부터 추출된 하나 이상의 경로를 변환환 문장으로부터 생성된 제2 임베딩 벡터가 입력 받아 복수의 어텐션 스코어를 계산하는 상식적인 질문 답변 추론 방법.
제7항에 따른 방법을 수행하는 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램.