KR102464998B1 - 상식적인 질문 답변 추론 방법 및 장치 - Google Patents

상식적인 질문 답변 추론 방법 및 장치 Download PDF

Info

Publication number
KR102464998B1
KR102464998B1 KR1020210017327A KR20210017327A KR102464998B1 KR 102464998 B1 KR102464998 B1 KR 102464998B1 KR 1020210017327 A KR1020210017327 A KR 1020210017327A KR 20210017327 A KR20210017327 A KR 20210017327A KR 102464998 B1 KR102464998 B1 KR 102464998B1
Authority
KR
South Korea
Prior art keywords
question
embedding vector
combinations
paths
answer
Prior art date
Application number
KR1020210017327A
Other languages
English (en)
Other versions
KR20220114157A (ko
Inventor
박영택
바트셀렘
김민성
이민호
Original Assignee
숭실대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교산학협력단 filed Critical 숭실대학교산학협력단
Priority to KR1020210017327A priority Critical patent/KR102464998B1/ko
Publication of KR20220114157A publication Critical patent/KR20220114157A/ko
Application granted granted Critical
Publication of KR102464998B1 publication Critical patent/KR102464998B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 상식적인 질문 답변 추론 방법 및 장치를 개시한다. 본 발명에 따르면, 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 질문과 복수의 답변 각각에 대한 복수의 조합에서 복수의 엔티티를 추출하고, 상기 복수의 조합별로 지식 그래프를 참조하여 상기 추출된 복수의 엔티티 사이의 하나 이상의 경로를 추출하고, 데이터 증강(data augmentation)을 통해 상기 하나 이상의 경로를 문장으로 변환하고, 상기 문장과 상기 질문을 조합하여 제1 임베딩 벡터를 생성하고, 상기 복수의 조합 각각에 대한 제2 임베딩 벡터를 생성하고, 멀티-헤드 어텐션(multi-head attention) 모듈에 상기 제1 임베딩 벡터 및 제2 임베딩 벡터를 입력하여 복수의 조합 각각의 어텐션 스코어를 계산하고, 상기 어텐션 스코어를 통해 상기 질문에 대응되는 복수의 답변 중 하나를 정답으로 추론하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 설명 가능한 상식적인 질문 답변 추론 완성 장치가 제공된다.

Description

상식적인 질문 답변 추론 방법 및 장치{Commonsense question answer reasoning method and apparatus}
본 발명은 상식적인 질문 답변 추론 방법 및 장치에 관한 것이다.
Commonsense Questions Answering(상식적인 질문 답변 문제)은 인공지능이 직면한 큰 과제중 하나이며, 이는 질문에 답변이 명시적으로 표현되지 않은 질문에 대해 정확하게 대답하는 것을 목표로 한다.
Commonsense question answering은 질문과 후보 답변들이 주어지면 자동으로 질문에 대한 하나의 정답을 선택하는 시스템이다. n개의 질문이 포함된 상식 질문 답변 작업에 CommonsenseQA 데이터셋을 사용하고 각 질문에는 정답 1개와 오답 4개로 총 5개의 후보 답변으로 구성되어 있다.
Commonsense question에 대한 답변을 할때 외부의 상식적인 지식이나 사실이 필요하다.
이때, 지식 그래프에서 이러한 질문 답변에 대한 지식 및 사실을 찾을 수 있다.
지식 그래프는 트리플 형태(s, r, t)로 사실 정보를 갖고 있으나, 완전하지 않은 지식 그래프는 인공지능 기반 시스템에서 사용하기가 어려운 문제점이 있다.
종래기술에는 지식그래프에서 경로(경로) 정보를 추출하고 이를 활용하여 Commonsense Question에 답하는 방식이 제공될 수 있으나, 지식 그래프의 불완전성으로 인해 추출된 경로 정보에서 의미있는 정답을 찾는 것이 어려운 문제점이 있다.
종래기술에서는 이러한 문제점을 해결하기 위해 경로를 증가시켰지만 생성된 경로들은 신경망 모델에서 학습이 잘 되지 않는 문제점이 있다.
대한민국공개특허 제10-2019-0133931호
상기한 종래기술의 문제점을 해결하기 위해, 본 발명은 질문과 정답 사이의 관계를 파악할 수 있는 상식적인 질문 답변 추론 방법 및 장치를 제안하고자 한다.
상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따르면, 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 질문과 복수의 답변 각각에 대한 복수의 조합에서 복수의 엔티티를 추출하고, 상기 복수의 조합별로 지식 그래프를 참조하여 상기 추출된 복수의 엔티티 사이의 하나 이상의 경로를 추출하고, 데이터 증강(data augmentation)을 통해 상기 하나 이상의 경로를 문장으로 변환하고, 상기 문장과 상기 질문을 조합하여 제1 임베딩 벡터를 생성하고, 상기 복수의 조합 각각에 대한 제2 임베딩 벡터를 생성하고, 멀티-헤드 어텐션(multi-head attention) 모듈에 상기 제1 임베딩 벡터 및 제2 임베딩 벡터를 입력하여 복수의 조합 각각의 어텐션 스코어를 계산하고, 상기 어텐션 스코어를 통해 상기 질문에 대응되는 복수의 답변 중 하나를 정답으로 추론하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 설명 가능한 상식적인 질문 답변 추론 완성 장치가 제공된다.
상기 프로그램 명령어들은, 상기 질문을 토큰화하여 복수의 엔티티를 추출하고, 상기 지식 그래프에 상기 질문에서 추출된 복수의 엔티티에 대응되는 단어들이 상기 지식 그래프에 존재하는지 검사할 수 있다.
상기 프로그램 명령어들은, 상기 질문에서 추출된 엔티티와 상기 답변에서 추출된 엔티티를 연결하는 경로 중 미리 설정된 길이 이하의 경로를 선택하고, 상기 선택된 경로를 문장으로 변환할 수 있다.
상기 프로그램 명령어들은, back-translation을 통해 제1 언어로 이루어진 상기 하나 이상의 경로를 제2 언어로 변역하고, 상기 번역된 제2 언어를 다시 제1 언어로 번역하여 상기 하나 이상의 경로를 문장으로 변환할 수 있다.
상기 프로그램 명령어들은, RoBERTa 모델을 이용하여 상기 제1 임베딩 벡터 및 상기 제2 임베딩 벡터를 생성하고, 상기 제1 임베딩 벡터를 생성하기 위한 제1 입력 데이터는 시작 토큰 <s>, 상기 질문, 서로 다른 세그먼트를 분리하는 토큰 <sep>, 상기 문장 및 종료 토큰 </s>으로 구성되고, 상기 제2 임베딩 벡터를 생성하기 위한 제2 입력 데이터는 시작 토큰 <s>, 상기 질문, 서로 다른 세그먼트를 분리하는 토큰 <sep>, 상기 복수의 답변 중 하나 및 종료 토큰 </s>으로 구성될 수 있다.
상기 멀티-헤드 어텐션(multi-head attention) 모듈은 상기 복수의 조합에 대응되는 복수의 학습 모델을 포함하고, 상기 복수의 학습 모델은 상기 복수의 조합 각각에 대한 제2 임베딩 벡터와 복수의 조합 각각으로부터 추출된 하나 이상의 경로를 변환환 문장으로부터 생성된 제2 임베딩 벡터가 입력 받아 복수의 어텐션 스코어를 계산할 수 있다.
본 발명의 다른 측면에 따르면, 프로세서 및 메모리를 포함하는 장치에서 상식적인 질문 답변을 추론하는 방법으로서, 상기 복수의 조합별로 지식 그래프를 참조하여 상기 추출된 복수의 엔티티 사이의 하나 이상의 경로를 추출하는 단계; 데이터 증강(data augmentation)을 통해 상기 하나 이상의 경로를 문장으로 변환하는 단계; 상기 문장과 상기 질문을 조합하여 제1 임베딩 벡터를 생성하는 단계; 상기 복수의 조합 각각에 대한 제2 임베딩 벡터를 생성하는 단계; 멀티-헤드 어텐션(multi-head attention) 모듈에 상기 제1 임베딩 벡터 및 제2 임베딩 벡터를 입력하여 복수의 조합 각각의 어텐션 스코어를 계산하는 단계; 및 상기 어텐션 스코어를 통해 상기 질문에 대응되는 복수의 답변 중 하나를 정답으로 추론하는 단계를 포함하는 상식적인 질문 답변 추론 방법이 제공된다.
본 발명의 또 다른 측면에 따르면, 상기한 방법을 수행하는 컴퓨터 판독 가능한 프로그램이 제공된다.
본 발명에 따르면, Data Augmentation과 질문 답변 임베딩 값을 활용하여 Multi-head Attention 메커니즘을 통해 불완전한 지식 그래프를 사용하여 의미있는 경로를 찾기 어려운 문제점을 해결할 수 있다.
도 1은 본 발명의 바람직한 일 실시예에 따른 상식적인 질문 답변 추론 장치의 구성의 도시한 도면이다.
도 2는 본 실시예에 따른 상식적인 질문 답변 추론 과정을 설명하기 위한 도면이다.
도 3은 본 실시예에 따른 경로의 임베딩 과정을 설명하기 위한 도면이다.
도 4는 본 실시예에 따른 질문과 답변의 조합에 대한 임베딩 과정을 설명하기 위한 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
도 1은 본 발명의 바람직한 일 실시예에 따른 상식적인 질문 답변 추론 장치의 구성의 도시한 도면이다.
도 1에 도시된 바와 같이, 본 실시예에 따른 장치는 프로세서(100) 및 메모리(102)를 포함할 수 있다.
프로세서(100)는 컴퓨터 프로그램을 실행할 수 있는 CPU(central processing unit)나 그밖에 가상 머신 등을 포함할 수 있다.
메모리(102)는 고정식 하드 드라이브나 착탈식 저장 장치와 같은 불휘발성 저장 장치를 포함할 수 있다. 착탈식 저장 장치는 컴팩트 플래시 유닛, USB 메모리 스틱 등을 포함할 수 있다. 메모리(102)는 각종 랜덤 액세스 메모리와 같은 휘발성 메모리도 포함할 수 있다.
이와 같은 메모리(102)에는 프로세서(100)에 의해 실행 가능한 프로그램 명령어들이 저장된다.
본 실시예에 따른 프로그램 명령어들은, 질문과 복수의 답변 각각에 대한 복수의 조합에서 복수의 엔티티를 추출하고, 상기 복수의 조합별로 지식 그래프를 참조하여 상기 추출된 복수의 엔티티 사이의 하나 이상의 경로를 추출하고, 데이터 증강(data augmentation)을 통해 상기 하나 이상의 경로를 문장으로 변환하고, 상기 문장과 상기 질문을 조합하여 제1 임베딩 벡터를 생성하고, 상기 복수의 조합 각각에 대한 제2 임베딩 벡터를 생성하고, 멀티-헤드 어텐션(multi-head attention) 모듈에 상기 제1 임베딩 벡터 및 제2 임베딩 벡터를 입력하여 복수의 조합 각각의 어텐션 스코어를 계산하고, 상기 어텐션 스코어를 통해 상기 질문에 대응되는 복수의 답변 중 하나를 정답으로 추론한다.
일반적으로 Commonsense question answering은 5개의 답변 중 하나를 정답으로 선택하는 것이므로, 경로 추출, 문장 변환, 임베딩 및 어텐션 스코어 계산은 하나의 질문과 5개의 답변에 대한 5개의 조합 각각에 대해 수행될 수 있다.
도 2는 본 실시예에 따른 상식적인 질문 답변 추론 과정을 설명하기 위한 도면이다.
도 2에서는 Where do adult use glue sticks?라는 질문과 Office라는 하나의 답변에 대한 추론 과정을 나타낸 것이다.
본 실시예에 따르면, 하나의 질문과 복수의 답변 각각에 대한 추론 과정이 수행되며, 최종적으로 복수의 답변 중 하나를 정답으로 결정한다.
도 2를 참조하면, 질문과 답변에 대해 복수의 엔티티를 추출하고, 추출된 엔티티가 지식 그래프에 존재하는지 확인한다.
본 실시예에 따른 장치는 질문을 토큰화하여 복수의 엔티티를 추출하며, 복수의 엔티티는 질문에 포함된 여러 단어 중 명사에 해당하는 단어와 답변을 포함하는 단어일 수 있다.
이는 Concept matching 과정으로 정의될 수 있고, n-grams 기법을 활용해 엔티티가 될 수 있는 단어들이 지식 그래프에 존재하는지 검사한다.
예를 들어, “What is likely the result of a small episode of falling?" 문장이 있을 때, 복수의 엔티티는 {result, small, episode, fall} 일 수 있다. 종래에는 “falling asleep”같은 경우 지식 그래프에서 매칭될 수 있는 경우가 {fall, fall_asleep, asleep}와 같이 세 개 전부 나오게 된다.
의미적으로 볼 때, “fall”과 “fall_asleep” 다른 의미를 가지므로 유용하지 않다. 본 실시예에서는 다른 의미를 갖지 않는 엔티티를 추출하기 위해 비교적 긴 단어 조합으로 이루어진 엔티티를 활용하게 된다.
이후, 지식 그래프를 참조하여 복수의 엔티티에 대한 하나 이상의 경로를 추출한다.
본 실시예에 따르면, 불완전한 지식 그래프를 사용하여 질문으로부터 정보 추출이 어려운 문제점을 피하기 위해 상기한 바와 같이 하나 이상의 경로를 추출한다.
질문과 답변으로부터 추출된 엔티티
Figure 112021015640418-pat00001
를 가지고 지식 그래프에서 두 엔티티 사이에 존재하는 하나 이상의 경로(path)를 추출한다. 경로의 길이는 짧은 것부터 긴 것까지 다양하게 존재할 수 있다.
본 실시예에 따르면, 복수의 경로 중 의미있는 경로를 선택하기 위해 비교적 길이가 짧은 경로(예를 들어, 5 이하)를 선택한다.
지식 그래프에서 질문으로부터 추출한 엔티티를 시작으로 답변에서 추출한 엔티티까지 도달하는 경로들을 다음과 같이 표현할 수 있다
Figure 112021015640418-pat00002
: .
많은 경로들을 전부 사용하는 것은 비효율적이므로 랜덤 워크 확률을 이용하여 경로 당 스코어를 계산하고, 이를 통해 추론에 사용할 경로를 선택한다.
도 2에서는 "adult-->capableof-->work-->atlocation-->office"와 "glue_stick-->atlocation-->office" 두 개의 경로가 추출되는 것을 예시적으로 나타낸다.
본 실시예에서는 경로를 학습에 사용하기 위해서 Data augmentation을 활용하여 경로를 의미있는 문장으로 변환한다.
Data augmentation할 때 back-translation 방식을 통해 경로를 문장으로 변환한다.
이 방법은 경로를 특정 언어로 번역 후 다시 원래 언어로 번역하는 방식이다.
people->capableOf->taste_food<-capableOf<-tongues와 같은 경로가 추출된 경우, back-translation 방식을 통해 경로를 프랑스어로 먼저 번역하고 다시 영어로 번역하여 "people can taste food with a tongue" 와 같은 문장을 생성한다.
입력 경로와 변환된 문장은 다르지만 역 번역 후에도 의미는 같다.
본 실시예에 따르면, 하나 이상의 경로를 문장으로 변환하고, 변환된 최종 문장과 질문을 RoBERTa(transformer-based language model)를 이용하여 임베딩한다.
이는 변환된 문장을 다차원 공간이 임베딩하여 변환된 문장에 상응하는 임베딩 벡터를 생성하는 것이다.
RoBERTa 모델 중 next sentence prediction task를 fine-tuning하여 사용할 수 있다.
도 3은 본 실시예에 따른 경로의 임베딩 과정을 설명하기 위한 도면이다.
도 3을 참조하면, RoBERTa 모델에 입력 데이터(제1 입력 데이터)는 아래와 같이, 시작 토큰 <s>, 질문(q), 서로 다른 세그먼트를 분리하기 위한 토큰 <sep>, Data Augmentation 결과값인 변환된 문장(s) 및 종료 토큰 </s>으로 구성된다.
Input Data:
Figure 112021015640418-pat00003
또한, 본 실시예에 따르면, 변환된 문장뿐만 아니라, 질문과 답변의 조합에 대해서도 임베딩을 수행한다.
도 4는 본 실시예에 따른 질문과 답변의 조합에 대한 임베딩 과정을 설명하기 위한 도면이다.
도 4를 참조하면, 아래의 입력 데이터(제2 입력 데이터)를 사용하며, 제2 입력 데이터는 시작 토큰 <s>, 질문(q), 서로 다른 세그먼트를 분리하기 위한 토큰 <sep>, 답변(Answer choice) 및 마지막을 의미하는 </s> 토큰을 사용한다.
본 실시예에 따르면, 어텐션 메커니즘을 이용하여 변환된 문장 및 질문을 포함하는 제1 입력 데이터를 통해 생성된 임베딩 벡터와 질문 및 답변을 포함하는 제2 입력 데이터를 통해 생성된 임베딩 벡터 사이의 의미적 유사성을 비교한다.
의미적 유사성 비교를 통해 질문과 복수의 답변 사이의 관계가 유의미한지 여부를 파악할 수 있다.
도 5는 본 실시예에 따른 질문에 대한 정답을 결정하는 과정을 설명하기 위한 도면이다.
도 5를 참조하면, 하나의 질문 및 복수의 답변 각각의 복수의 조합(Question+choice1 내지 Question+choice5)에 대응되는 복수의 학습된 모델이 제공되고, 각 모델은 복수의 조합 각각에 대한 임베딩 벡터와 복수의 조합 각각으로부터 추출된 하나 이상의 경로를 변환환 문장으로부터 생성된 임베딩 벡터가 입력된다.
각 모델은 임베딩 벡터의 비교를 통해 의미적 유사성에 대한 어텐션 스코어(score1 내지 score5)를 출력하고, 소프트맥스(softmax)를 통해 가장 높은 값을 질문에 대한 정답으로 결정한다.
상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

Claims (10)

  1. 상식적인 질문 답변 추론 완성 장치로서,
    프로세서; 및
    상기 프로세서에 연결되는 메모리를 포함하되,
    상기 메모리는,
    질문과 복수의 답변 각각에 대한 복수의 조합에서 복수의 엔티티를 추출하고,
    상기 복수의 조합별로 지식 그래프를 참조하여 상기 추출된 복수의 엔티티 사이의 하나 이상의 경로를 추출하고,
    데이터 증강(data augmentation)을 통해 상기 하나 이상의 경로를 문장으로 변환하고,
    상기 문장과 상기 질문을 조합하여 제1 임베딩 벡터를 생성하고,
    상기 복수의 조합 각각에 대한 제2 임베딩 벡터를 생성하고,
    멀티-헤드 어텐션(multi-head attention) 모듈에 상기 제1 임베딩 벡터 및 제2 임베딩 벡터를 입력하여 복수의 조합 각각의 어텐션 스코어를 계산하고,
    상기 어텐션 스코어를 통해 상기 질문에 대응되는 복수의 답변 중 하나를 정답으로 추론하도록,
    상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장한 설명 가능한 상식적인 질문 답변 추론 완성 장치.
  2. 제1항에 있어서,
    상기 프로그램 명령어들은,
    상기 질문을 토큰화하여 복수의 엔티티를 추출하고, 상기 지식 그래프에 상기 질문에서 추출된 복수의 엔티티에 대응되는 단어들이 상기 지식 그래프에 존재하는지 검사하는 상식적인 질문 답변 추론 완성 장치.
  3. 제1항에 있어서,
    상기 프로그램 명령어들은,
    상기 질문에서 추출된 엔티티와 상기 답변에서 추출된 엔티티를 연결하는 경로 중 미리 설정된 길이 이하의 경로를 선택하고, 상기 선택된 경로를 문장으로 변환하는 상식적인 질문 답변 추론 완성 장치.
  4. 제1항에 있어서,
    상기 프로그램 명령어들은,
    back-translation을 통해 제1 언어로 이루어진 상기 하나 이상의 경로를 제2 언어로 번역하고, 상기 번역된 제2 언어를 다시 제1 언어로 번역하여 상기 하나 이상의 경로를 문장으로 변환하는 상식적인 질문 답변 추론 완성 장치.
  5. 제1항에 있어서,
    상기 프로그램 명령어들은,
    RoBERTa 모델을 이용하여 상기 제1 임베딩 벡터 및 상기 제2 임베딩 벡터를 생성하고,
    상기 제1 임베딩 벡터를 생성하기 위한 제1 입력 데이터는 시작 토큰 <s>, 상기 질문, 서로 다른 세그먼트를 분리하는 토큰 <sep>, 상기 문장 및 종료 토큰 </s>으로 구성되고,
    상기 제2 임베딩 벡터를 생성하기 위한 제2 입력 데이터는 시작 토큰 <s>, 상기 질문, 서로 다른 세그먼트를 분리하는 토큰 <sep>, 상기 복수의 답변 중 하나 및 종료 토큰 </s>으로 구성되는 상식적인 질문 답변 추론 완성 장치.
  6. 제1항에 있어서,
    상기 멀티-헤드 어텐션(multi-head attention) 모듈은 상기 복수의 조합에 대응되는 복수의 학습 모델을 포함하고,
    상기 복수의 학습 모델은 상기 복수의 조합 각각에 대한 제2 임베딩 벡터와 복수의 조합 각각으로부터 추출된 하나 이상의 경로를 변환환 문장으로부터 생성된 제2 임베딩 벡터가 입력 받아 복수의 어텐션 스코어를 계산하는 상식적인 질문 답변 추론 완성 장치.
  7. 프로세서 및 메모리를 포함하는 장치에서 상식적인 질문 답변을 추론하는 방법으로서,
    질문과 복수의 답변 각각에 대한 복수의 조합에서 복수의 엔티티를 추출하는 단계;
    상기 복수의 조합별로 지식 그래프를 참조하여 상기 추출된 복수의 엔티티 사이의 하나 이상의 경로를 추출하는 단계;
    데이터 증강(data augmentation)을 통해 상기 하나 이상의 경로를 문장으로 변환하는 단계;
    상기 문장과 상기 질문을 조합하여 제1 임베딩 벡터를 생성하는 단계;
    상기 복수의 조합 각각에 대한 제2 임베딩 벡터를 생성하는 단계;
    멀티-헤드 어텐션(multi-head attention) 모듈에 상기 제1 임베딩 벡터 및 제2 임베딩 벡터를 입력하여 복수의 조합 각각의 어텐션 스코어를 계산하는 단계; 및
    상기 어텐션 스코어를 통해 상기 질문에 대응되는 복수의 답변 중 하나를 정답으로 추론하는 단계를 포함하는 상식적인 질문 답변 추론 방법.
  8. 제7항에 있어서,
    RoBERTa 모델을 이용하여 상기 제1 임베딩 벡터 및 상기 제2 임베딩 벡터를 생성하고,
    상기 제1 임베딩 벡터를 생성하기 위한 제1 입력 데이터는 시작 토큰 <s>, 상기 질문, 서로 다른 세그먼트를 분리하는 토큰 <sep>, 상기 문장 및 종료 토큰 </s>으로 구성되고,
    상기 제2 임베딩 벡터를 생성하기 위한 제2 입력 데이터는 시작 토큰 <s>, 상기 질문, 서로 다른 세그먼트를 분리하는 토큰 <sep>, 상기 복수의 답변 중 하나 및 종료 토큰 </s>으로 구성되는 상식적인 질문 답변 추론 방법.
  9. 제7항에 있어서,
    상기 멀티-헤드 어텐션(multi-head attention) 모듈은 상기 복수의 조합에 대응되는 복수의 학습 모델을 포함하고,
    상기 복수의 학습 모델은 상기 복수의 조합 각각에 대한 제2 임베딩 벡터와 복수의 조합 각각으로부터 추출된 하나 이상의 경로를 변환환 문장으로부터 생성된 제2 임베딩 벡터가 입력 받아 복수의 어텐션 스코어를 계산하는 상식적인 질문 답변 추론 방법.
  10. 제7항에 따른 방법을 수행하는 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램.
KR1020210017327A 2021-02-08 2021-02-08 상식적인 질문 답변 추론 방법 및 장치 KR102464998B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210017327A KR102464998B1 (ko) 2021-02-08 2021-02-08 상식적인 질문 답변 추론 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210017327A KR102464998B1 (ko) 2021-02-08 2021-02-08 상식적인 질문 답변 추론 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20220114157A KR20220114157A (ko) 2022-08-17
KR102464998B1 true KR102464998B1 (ko) 2022-11-09

Family

ID=83110478

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210017327A KR102464998B1 (ko) 2021-02-08 2021-02-08 상식적인 질문 답변 추론 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102464998B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170337481A1 (en) 2016-05-17 2017-11-23 Xerox Corporation Complex embeddings for simple link prediction
US20200242444A1 (en) 2019-01-30 2020-07-30 Baidu Usa Llc Knowledge-graph-embedding-based question answering
KR102194837B1 (ko) 2020-06-30 2020-12-23 건국대학교 산학협력단 지식기반 질문 응답 방법 및 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190133931A (ko) 2018-05-24 2019-12-04 한국과학기술원 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법
KR102138130B1 (ko) * 2018-11-27 2020-07-27 한국과학기술원 개념 그래프 기반 질의응답 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170337481A1 (en) 2016-05-17 2017-11-23 Xerox Corporation Complex embeddings for simple link prediction
US20200242444A1 (en) 2019-01-30 2020-07-30 Baidu Usa Llc Knowledge-graph-embedding-based question answering
KR102194837B1 (ko) 2020-06-30 2020-12-23 건국대학교 산학협력단 지식기반 질문 응답 방법 및 장치

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Liu, Yinhan, et al. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv: 1907.11692. 2019.
SAXENA, Apoorv et al. Improving multi-hop question answering over knowledge graphs using knowledge base embeddings. 55th Annual Meeting of the Association for Computational Linguistics. 2020.
Trouillon, Théo, et al. Complex embeddings for simple link prediction. International Conference on Machine Learning (ICML). 2016.
바트셀렘, 김민성, 박영택. 경로 임베딩 기반 지식 그래프 완성 방식. 정보과학회논문지. vol.47. no.8. 2020.

Also Published As

Publication number Publication date
KR20220114157A (ko) 2022-08-17

Similar Documents

Publication Publication Date Title
Dos Santos et al. Learning character-level representations for part-of-speech tagging
CN111709243B (zh) 一种基于深度学习的知识抽取方法与装置
US5895446A (en) Pattern-based translation method and system
Fonseca et al. A two-step convolutional neural network approach for semantic role labeling
US20210117458A1 (en) Response selecting apparatus, response selecting method, and response selecting program
US12026472B2 (en) Dialogue processing apparatus, learning apparatus, dialogue processing method, learning method and program
CN110245349B (zh) 一种句法依存分析方法、装置及一种电子设备
CN112581327A (zh) 基于知识图谱的法律推荐方法、装置和电子设备
Wan et al. Evaluating and improving factuality in multimodal abstractive summarization
US20220189333A1 (en) Method of generating book database for reading evaluation
US20190129948A1 (en) Generating method, generating device, and recording medium
Qiu et al. Confabulation based sentence completion for machine reading
CN110909174B (zh) 一种基于知识图谱的简单问答中实体链接的改进方法
KR102464998B1 (ko) 상식적인 질문 답변 추론 방법 및 장치
CN115905852A (zh) 基于预训练提示的故事生成方法、***、存储介质和终端
KR102442422B1 (ko) 질의문과 지식 그래프 관계 학습을 이용한 지식 완성 방법 및 장치
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN114896973A (zh) 一种文本处理方法、装置及电子设备
Kouylekov et al. Towards entailment-based question answering: ITC-irst at CLEF 2006
CN106681982B (zh) 英文长篇小说摘要生成方法
Le et al. Text summarization evaluation using semantic probability distributions
US20230076884A1 (en) Storage medium, output method, and output device
KR102649948B1 (ko) 계층 기반 단어 대체를 통한 텍스트 데이터 증강 장치 및 방법
Salaberria Saizar et al. Image captioning for effective use of language models in knowledge-based visual question answering
Cekiç et al. Long Form Question Answering Dataset Creation for Business Use Cases using Noise-Added Siamese-BERT.

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant