KR101662450B1

KR101662450B1 - 다중 소스 하이브리드 질의응답 방법 및 시스템

Info

Publication number: KR101662450B1
Application number: KR1020150076509A
Authority: KR
Inventors: 이근배; 박선영; 권순철; 남대환; 한상도; 이규송; 김병수
Original assignee: 포항공과대학교 산학협력단
Priority date: 2015-05-29
Filing date: 2015-05-29
Publication date: 2016-10-05

Abstract

사용자로부터 온전한 문장으로 구성된 질문이나 키워드가 나열된 질문을 입력받고 다양한 리소스와 검색기술을 활용하여 그에 대한 적절한 대답을 출력하는 다중 소스 하이브리드 질의응답 방법 및 시스템이 개시된다. 다중 소스 하이브리드 질의응답 방법은, 컴퓨팅 장치에서 수행되는 다중 소스 하이브리드 질의응답 방법으로서, 자연언어로 이루어진 질문 또는 키워드가 입력되면 질문 또는 키워드를 구별하는 단계, 및 키워드를 처리하여 자연어 리포트를 출력하고, 질문을 처리하여 정답을 출력하는 단계를 포함한다. 정보검색 기반 질의 응답 시스템과 지식베이스 기반 질의 응답 시스템을 동시에 사용하고 여기서 얻은 결과를 통합하기 위한 다양한 전략들을 사용함으로써, 지식베이스 기반 질의 응답 시스템과 정보 검색 기반 질의 응답 시스템을 각각 사용했을 때의 한계점을 보완할 수 있다.

Description

다중 소스 하이브리드 질의응답 방법 및 시스템{MULTI-SOURCE HYBRID QUESTION ANSWERING METHOD AND SYSTEM THEREOF}

본 발명은 질의응답 시스템에 관한 것으로, 더욱 상세하게는, 사용자로부터 온전한 문장으로 구성된 질문이나 키워드가 나열된 질문을 입력받고 다양한 리소스와 검색기술을 활용하여 그에 대한 적절한 대답을 출력하는 다중 소스 하이브리드 질의 응답 방법 및 시스템에 관한 것이다.

기존의 질의 응답 시스템 연구는 온전한 문장으로 이루어진 질문에 대해서 정확한 정답을 출력하는 것을 목표로 하였다. 질의 응답 시스템은 정보 검색의 궁극적인 목표로서 기하급수적으로 증가하는 빅데이터(Big Data)에서 사용자가 원하는 정보를 전달해주는 고도의 기술이다.

하지만 TV 등의 가전제품, 모바일 디바이스, 웨어러블(wearable) 디바이스 등에 질의 응답 기술이 탑재됨을 가정했을 때, 이러한 기기들을 사용자가 일상 생활에 이용하면서 질의를 통해 원하는 정보를 얻고자 하는 요구가 증가하고 있다. 이때, 사용자는 문법적으로 완전한 형태의 문장뿐만 아니라 “김연아 금메달”과 같이 키워드(keyword)의 나열을 통해 관련 정보를 얻고자할 가능성이 크다.

이러한 분위기에서, 예를 들어, 애플의 시리(Siri), 구글의 나우(Now), 마이크로소프트의 개인비서 서비스 코타나(Cortana)와 같은 자연언어 처리 기술과 데이터 활용을 접목한 고도의 기술이 주목받고 있다.

일반적으로 질의 응답 시스템(Question Answering System)은 정보 검색 기반 질의 응답 시스템(Information Retrieval-based Question Answering System)과 지식베이스 기반 질의 응답 시스템(Knowledgebase-based Question Answering System) 두 가지로 나뉜다. 정보검색 기반 질의응답 시스템은 사용자의 질문에서 키워드를 추출하여 쿼리를 구성하고 문서 검색을 통해 정답을 포함하는 문서를 추출하고 그 문서에서 단락을 추출하고, 단락에서 문장을 추출해서 그 안에서 정답을 찾는다. 텍스트를 기반으로 정답을 찾는 구조이므로, 구조화된 온톨로지 정보 활용이 어렵고 정답 후보들 간의 중의성 해결이나 동의어 처리가 어렵다.

또한 지식베이스 기반 질의응답 시스템은 구조화된 지식베이스에서 정답을 찾는 질의응답 시스템이다. 최근 야고(Yago), 프리베이스(Freebase) 등의 거대한 지식베이스의 증가로 지식베이스를 이용한 오픈 도메인 질의 응답 시스템에 대한 중요성이 높아지고 있다. 하지만, 종래의 오픈 도메인 질의 응답 시스템은 문서 검색 과정이 없기 때문에 정답을 찾는데 있어서 정답 후보의 컨텍스트 정보를 활용할 수 없다는 한계가 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 사용자로부터 온전한 문장으로 구성된 질문이나 키워드가 나열된 질문을 입력받고 다양한 리소스와 검색기술을 활용하여 그에 대한 적절한 대답을 출력하는 다중 소스 하이브리드 질의 응답 방법 및 시스템을 제공하는데 있다.

본 발명의 다른 목적은, 지식베이스 온톨로지를 이용한 오픈 도메인 의미적 정답 유형 검출 전략을 활용하여 지식베이스 기반 질의응답 시스템과 정보검색 기반 질의응답 시스템을 동시에 사용하는 다중 소스 하이브리드 질의응답 방법 및 시스템을 제공하는데 있다.

본 발명의 또 다른 목적은, 지식베이스 기반 질의응답과 정보검색 기반 질의응답을 통해 추출한 정답 후보 랭킹 전략을 이용하여 효과적이고 신뢰성 높은 다중 소스 하이브리드 질의응답 방법 및 시스템을 제공하는데 있다.

본 발명의 또 다른 목적은, 텍스트 정보와 지식베이스의 온톨로지 정보, 지식베이스를 활용한 개체 중의성 해결 정보, 텍스트에 대한 트리플 추출 결과 정보, 언어 분석 정보 등을 통합한 자원을 이용하여 질의응답에 대한 성능과 신뢰성을 높일 수 있는 다중 소스 하이브리드 질의응답 방법 및 시스템을 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명의 일 측면에서는, 컴퓨팅 장치에서 수행되는 다중 소스 하이브리드 질의응답 방법으로서, 자연어로 이루어진 문장 또는 키워드가 입력되면 문장 또는 키워드를 구별하는 단계, 키워드의 입력에 대한 키워드 처리를 통해 자연어 리포트를 출력하는 단계, 및 문장의 입력에 대한 질문 처리를 통해 정답을 출력하는 단계를 포함하는, 다중 소스 하이브리드 질의응답 방법을 제공한다.

상기 목적을 달성하기 위한 본 발명의 다른 측면에서는, 다중 소스 하이브리드 질의응답 방법을 수행하는 컴퓨팅 장치로서, 자연어로 이루어진 문장 또는 키워드가 입력되면 문장 또는 키워드를 구별하는 입력 분류부, 키워드의 입력에 대한 키워드 처리를 통해 자연어 리포트를 출력하는 키워드 처리부, 및 문장의 입력에 대한 질문 처리를 통해 정답을 출력하는 질문 처리부를 포함하는, 다중 소스 하이브리드 질의응답 시스템을 제공한다.

여기에서, 질문 처리부는 질문 분석기, 오픈 도메인 의미적 정답 유형 검출기, 지식베이스 기반 질의응답 시스템 모듈, 정보검색 기반 질의응답 시스템 모듈, 및 정답 후보 랭킹 모듈을 포함하고, 정답 후보 랭킹 모듈은 질문에서 포커스를 추출하고, 포커스를 속성으로 가지는 트리플을 추출하고, 트리플을 추출하기 위해 사용한 질문분석 결과를 이용하여 쿼리를 생성할 수 있다.

또한, 정답 후보 랭킹 모듈은, 질문을 평서문을 바꾸고 평서문의 포커스를 정답 후보로 치환한 문장을 가설로 생성하고 정답 후보를 포함하는 문장 또는 단락을 텍스트로 생성하는 가설 및 텍스트 생성기, 질문분석 결과와 다중 정보 레이블 데이터베이스를 구성하는 정보를 자질로 추출하는 자질 추출기, 및 가설 및 텍스트에 대하여 텍스트를 기반으로 가설이 참임을 유추하는 기계학습 기반 텍스트 함의 인식 모듈을 포함할 수 있다.

여기에서, 정답 후보 랭킹 모듈은, 최종 스코어 계산 모듈을 더 포함하고, 최종 스코어 계산 모듈은, 오픈 도메인 의미적 정답 유형 기반의 스코어, 텍스트 함의 인식 기반의 스코어, 정답 후보가 추출된 문장과 질문분석 결과의 의미적 유사도에 기초한 스코어를 토대로 정답을 출력할 수 있다.

여기에서, 다중 소스 하이브리드 질의응답 시스템은 다중 정보 레이블 데이터베이스를 구축하는 데이터베이스 생성부를 더 포함할 수 있다. 데이터베이스 생성부는, 자연어 텍스트를 처리하는 자연언어처리기, 자연어 텍스트의 문장에서 트리플을 추출하는 트리플 추출기, 추출된 트리플에서 개체명을 인식하고 인식된 개체명을 지식베이스의 개체에 매칭하는 개체명 인식 및 매칭 모듈, 및 지식베이스의 개체에 기설정된 고유 식별자를 토대로 개체에 대한 식별자를 다중 정보 레이블 데이터베이스에 레이블링하는 개체 유형 추출기를 구비할 수 있다.

상술한 바와 같은 본 발명의 실시예에 따른 마이크로폰 어레이와 좌표변환 기법을 이용하는 음원 추적 방법 및 시스템을 이용할 경우에는, 사용자로부터 온전한 문장으로 구성된 질문이나 키워드가 나열된 질문을 입력받고 다양한 리소스와 검색기술을 활용하여 그에 대한 적절한 대답을 효과적으로 신뢰성 높게 출력할 수 있다.

또한, 지식베이스 온톨로지를 이용한 오픈 도메인 의미적 정답 유형 검출 전략을 활용하여 지식베이스 기반 질의응답 시스템과 정보검색 기반 질의응답 시스템을 동시에 사용하는 다중 소스 하이브리드 질의응답 방법 및 시스템을 제공할 수 있다.

또한, 지식베이스 기반 질의응답과 정보검색 기반 질의응답을 통해 추출한 정답 후보 랭킹 전략을 이용하여 다중 소스 하이브리드 질의응답 방법 및 시스템의 성능을 개선할 수 있다.

또한, 텍스트 정보와 지식베이스의 온톨로지 정보, 지식베이스를 활용한 개체 중의성 해결 정보, 텍스트에 대한 트리플 추출 결과 정보, 언어 분석 정보 등을 통합한 자원을 이용하여 질의응답에 대한 성능과 신뢰성을 높일 수 있는 장점이 있다.

더욱이 본 실시예에 의하면, 질문 형태의 사용자 입력과 키워드 형태의 사용자 입력을 모두 처리할 수 있는 질의응답 시스템을 제공할 수 있다. 즉, 최근 화두가 되고 있는 로봇 저널리즘과 같은 자연어 생성 기술을 일부 활용하여, 사용자가 입력한 키워드에 리포트를 출력하거나 또는 질문에 적합한 단답형의 답을 출력할 수 있고 리포트를 출력할 수 있는 질의응답 시스템을 제공할 수 있다.

아울러, 본 실시예에 의하면, 사용자가 다양한 형태로 입력할 수 있는 인터페이스를 제공하는 것뿐만 아니라 다양한 자원을 활용하는 질의응답 시스템 및 방법을 제공할 수 있다. 즉, 기존의 지식베이스 기반 질의응답 시스템에서는 정답을 찾을 때 컨텍스트(context) 정보를 활용하지 못하는 한계를 갖고, 정보검색 기반 질의응답 시스템에서는 구조화된 온톨로지 정보 활용이 어렵고 정답 후보들 간의 중의성 해결이나 동의어 처리가 어려운 문제가 있으나, 본 실시예에 따른 질의응답 방법 및 시스템은 사용자의 입력이 키워드인지 문장인지에 따라 적절한 응답할 수 있을 뿐 아니라, 지식베이스 기반 질의응답 시스템과 정보검색 기반 질의응답 시스템을 동시에 사용하면서 두 시스템에서 얻은 결과를 통합하기 위한 다양한 리소스와 전략들을 활용하여 지식베이스 기반 질의응답 시스템과 정보검색 기반 질의응답 시스템을 각각 사용할 때의 한계점을 보완할 수 있는 장점이 있다.

도 1은 본 발명의 일실시예에 따른 다중 소스 하이브리드 질의응답 시스템(이하, 간략히 하이브리드 질의응답 시스템이라 함)에 대한 블록도이다.
도 2는 도 1의 하이브리드 질의응답 시스템에 채용할 수 있는 입력 분류기에 대한 예시도이다.
도 3은 도 1의 하이브리드 질의응답 시스템에 채용할 수 있는 오픈 도메인 의미적 정답 유형 검출기에 대한 블록도이다.
도 4는 도 1의 다중 정보 레이블 데이터베이스를 구축하는 데이터베이스 생성부에 대한 예시도이다.
도 5는 도 1의 지식베이스 기반 질의응답 시스템 모듈의 처리를 이용하여 지식베이스 기반 질의응답 시스템 모듈의 정답 후보에 해당하는 컨텍스트 정보를 얻는 과정에 대한 예시도이다.
도 6은 도 1의 정답 후보 랭킹 모듈의 다른 실시예에 대한 예시도이다.
도 7은 도 1의 정답 후보 랭킹 모듈의 또 다른 실시예에 대한 예시도이다.
도 8은 본 발명의 다른 실시예에 따른 다중 소스 하이브리드 질의응답 시스템에 대한 블록도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

또한, 본 명세서에서 오해의 소지가 없는 한 어떤 문자의 첨자가 다른 첨자를 가질 때, 표시의 편의를 위해 첨자의 다른 첨자는 첨자와 동일한 형태로 표시될 수 있다.

본 명세서에서 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일실시예에 따른 다중 소스 하이브리드 질의응답 시스템(이하, 간략히 하이브리드 질의응답 시스템이라 함)에 대한 블록도이다. 도 2는 도 1의 하이브리드 질의응답 시스템에 채용할 수 있는 입력 분류기에 대한 예시도이다.

본 실시예에 따른 하이브리드 질의응답 시스템은 입력 분류부(2), 질문 처리부(10) 및 키워드 처리부(20)를 포함한다. 하이브리드 질의응답 시스템은 사용자 입력이 키워드인지 문장인지 분류하고, 키워드로 분류되면 구조화된 지식베이스와 자연어 생성 템플릿 데이터를 이용하여 사용자의 키워드에 대한 리포트를 출력하며, 질문으로 분류되면 질문에 대한 정확한 답을 정보검색 기반 질의응답과 지식베이스 기반 질의응답 기술을 동시에 활용하여 정답을 출력한다.

지식베이스 기반 질의응답 시스템과 정보검색 기반 질의응답 시스템을 동시에 사용하기 위해서, 하이브리드 질의응답 시스템은 구조화된 지식베이스의 온톨로지를 사용한 오픈 도메인 의미적 정답 유형 검출기를 사용할 수 있고, 지식베이스 기반 질의응답과 정보검색 기반 질의응답을 통해 추출한 정답 후보 랭킹 모듈을 사용할 수 있으며, 또한 텍스트 정보와 지식베이스의 온톨로지 정보, 지식베이스를 활용한 개체 중의성 해결(Named entity disambiguation) 정보, 트리플 추출 결과 정보, 언어 분석 정보 등을 통합한 새로운 형태의 자원을 사용할 수 있다.

본 실시예의 하이브리드 질의응답 시스템을 도 1 및 도 2를 참조하여 좀더 구체적으로 설명하면 다음과 같다. 도 1은 하이브리드 질의응답 시스템의 전체적인 구성과 동작 흐름을 예시한다. 도 2는 질문과 키워드를 자동으로 분류하는 모듈을 예시한다.

먼저, 도 1 및 도 2를 참조하면, 입력 분류부(2)는 이진 분류기(binary-classifier) 모델을 학습하여, 사용자의 입력이 들어왔을 때 자동으로 분류해주는 모듈을 포함할 수 있다. 예를 들어, 훈련 데이터가 키워드와 질의문으로 구성되어 있으면, 키워드와 질의문의 구문 구조가 상이하기 때문에 훈련 자질로는 품사 정보와 유니-그램(uni-gram), 바이-그램(bi-gram) 정보를 활용할 수 있다.

사용자의 입력이 "Tom Cruise Film"(In2)과 같은 경우, 입력 분류부(2)는 해당 사용자 입력을 키워드(Out2)로 분류하고, 분류 결과를 키워드 처리부(20)로 전달한다.

키워드 처리부(20)는 입력 분류부(2)로부터 받은 키워드를 처리하여 해당 키워드에 대한 자연어 리포트를 출력할 수 있다. 즉, 키워드 처리부(20)는 키워드에 대한 적절한 자연어 리포트를 출력하기 위해 키워드 매칭 모듈(21), 쿼리 생성기(22), 트리플 추출기(23) 및 응답 생성기(24)의 세부 모듈을 포함할 수 있다.

또한, 키워드 처리부(20)는 키워드에 대한 적절한 자연어 리포트를 출력하기 위해 구조화된 지식베이스(18)를 사용할 수 있다. 본 실시예에서 구조화된 지식베이스(18)는 <entity; relation; entity>(<개체: 속성: 개체>)의 트리플로 이루어질 수 있다. 예를 들면, 김연아의 생일이 1990년 9월 5일이라는 내용을 포함하는 키워드의 트리플 구조, 타입 또는 속성은 <Kim yuna; birthDate; 1990-09-05>와 같이 표현될 수 있다.

다시 말해서, 키워드 처리부(20)는 먼저 사용자의 키워드를 구조화된 지식베이스의 개체와 속성으로 매칭하고, 검출한 개체와 속성을 포함하는 트리플을 추출하기 위해 쿼리를 구성하여 트리플을 추출할 수 있다. 예를 들면, 입력 분류부(2)로부터 전달받은 입력 셋이 "Tom Cruise, film"이면, 키워드 매칭 모듈(21)에서는 미리 설정된 조건에 따라 "Tom Cruise, film"을 "Tom_Cruise starring"으로 매칭하고, 쿼리 생성기(22)에서는 "Tom_Cruise"와 관련된 트리플 중 "starring"을 속성으로 가지는 트리플을 추출하기 위한 쿼리를 생성한다. 그리고 트리플 추출기(23)는 쿼리 생성기(22)에서 생성된 쿼리를 이용하여 구조화된 지식베이스(18)에서 트리플을 추출한다. 생성된 트리플을 자연어 생성을 위한 템플릿 데이터베이스(25)를 이용하여 자연어 리포트를 출력한다. 자연어 리포트는 예를 들어 "Tom Cruise starred at Interview with the vampire, and Top Gun…"과 같이 구성될 수 있다. 템플릿 데이터베이스(25)는 자연어 생성 자원을 포함할 수 있다.

전술한 키워드 처리부(20)에 있어서, 키워드 매칭 모듈(21)은 키워드 엔티티 매칭 모듈과 키워드 프로퍼티 매칭 모듈을 포함하고, 키워드 엔티티 매칭 모듈은 키워드 엔티티 매칭 데이터베이스를 토대로 키워드 엔티티 매칭 훈련기에 의해 학습되어 만들어진 키워드 엔티티 매칭 모델에서 입력 키워드와 매칭되는 엔티티를 추출하여 질의 생성기로 전달하고, 키워드 프로퍼티 매칭 모듈은 키워드 프로퍼티 매칭 데이터베이스를 토대로 키워드 프로퍼티 매칭 훈련기에 의해 학습된 키워드 프로퍼티 매칭 모델에서 입력 키워드와 매칭되는 프로퍼티를 추출하여 질의 생성기(22)로 전달할 수 있다. 그리고 응답 생성기(24)는 그 입력단에 연결되는 트리플 추출기(23)에서 추출된 트리플에 대응하는 자연어를 자연어 생성 자원(25)에서 추출하여 자연어 리포트를 출력할 수 있다. 자연어 생성 자원(25)은 자연어 생성 자원 데이터베이스를 토대로 자연어 생성 자원 생성기에 의해 준비될 수 있다.

한편, 사용자의 입력이 "Where was Kim yuna born?"(In1)과 같은 질문인 경우, 입력 분류부(2)는 해당 사용자 입력을 질문(Out1) 또는 의문문으로 분류하고, 분류 결과를 질문 처리부(10)로 전달한다.

질문 처리부(10)는 입력 분류부(2)로부터 받은 질문을 처리하여 해당 질문에 대한 정답을 출력할 수 있다. 즉, 질문 처리부(20)는 문장 질의에 대한 적절한 응답을 출력하기 위해 질의 문장을 처리하여 적절한 정답을 출력한다. 사용자의 문장 질의를 처리하기 위한 질문 처리부(10)의 세부모듈은 크게 질문 분석기(11)와 오픈도메인 의미적 정답 유형 검출기(12)와 정보검색 기반 질의응답 시스템 모듈(13)과 지식베이스 기반 질의응답 시스템 모듈(14) 및 정답 후보 랭킹 모듈(15)을 포함할 수 있다. 또한, 질문 처리부(10)는 정보검색 기반 질의응답 시스템 모듈(13)과 정답 후보 랭킹 모듈(15)에서 다중 정보 레이블 데이터베이스(16)를 사용할 수 있다. 다중 정보 레이블 데이터베이스(16)는 오프라인에서 데이터베이스 생성부(17)에 의해 구축될 수 있다.

질문 처리부(10)의 일부 구성요소를 좀더 구체적으로 설명하면, 질문 분석기(11)는, 사용자의 질의가 들어오면 포커스(Focus)를 추출하고, 개체명 인식, 유사어 상위어 추출과 어휘레벨에서의 분석, 구문구조 레벨에서의 분석, 의미적 레벨에서의 분석 등 다각도의 언어 분석을 수행할 수 있다. 여기에서 포커스(Focus)란 "Where was Kim yuna born?"이라는 질문에서, 정답 또는 정답 후보와 치환되면 사용자가 알고자 하는 평서문 형태의 정답 문장이 되는 부분을 말한다.

질문 분석기(11)는 포커스를 얻기 위해 어휘 분석과 구문 분석 결과를 이용한 규칙 기반의 방법을 이용할 수 있다. 예를 들어, 먼저 질문을 평서문의 형태로 "Kim yuna was born in where"와 같이 변환하고, 규칙 기반으로 "where"가 포커스인 것을 검출한다. 그리고 "Where"를 이 질문에서의 정답인 "Bucheon"과 치환하면, "Kim yuna was born in Bucheon"과 같은 결과를 얻을 수 있다.

질문 분석 결과는 질문 분석기(11)가 질문에 대하여 어휘 레벨에서의 분석, 의미분석, 구문 분석한 결과에 대응할 수 있다.

이와 같이, 포커스(Focus)는 정답 또는 정답 후보와 치환되는 부분으로서 포커스의 유형이 곧 정답의 유형이 될 수 있다. 질문 분석이 끝나면, 질문 처리부(10)는 질문의 분석 결과를 활용하여 오픈 도메인 의미적 정답 유형을 검출한다.

정보검색 기반 질의응답 시스템 모듈(13)은 대규모 텍스트를 정보원으로 하여 정보요구 또는 질의에 대한 적합한 응답이 포함되었을 것으로 판단되는 문단을 검색하여 제공할 수 있다. 즉, 정보검색 기반 질의응답 시스템 모듈(13)은 사용자 입력의 질문에서 키워드를 추출하여 쿼리를 구성하고 문서 검색을 통해 정답을 포함하는 문서를 추출하고 그 문서에서 단락을 추출하고, 단락에서 문장을 추출해서 그 안에서 정답을 찾을 수 있다.

참고로, 위에서 설명한 정보검색 기반 질의응답 시스템과 아래에서 설명할 지식베이스 기반 질의응답 시스템은 일반적인 지식베이스 기반 질의 응답 시스템과 정보 검색 기반 질의응답 시스템을 통칭할 수 있다. 본 실시예에 따른 다중소스 하이브리드 질의응답 시스템은 질의 분석 결과를 지식베이스의 속성으로 매칭하고, 질문에서 인식된 개체명을 지식베이스의 개체로 매칭한다. 또한 질문의 구문구조 분석 결과 등을 이용하여 쿼리를 구성하고 쿼리를 이용하여 지식베이스에서 정보를 추출한다. 이 정보들의 집합은 정답 후보이다.

지식베이스 기반 질의응답 시스템 모듈(14)은 구조화된 지식베이스(18)에서 질문에 대한 정답을 검색하는 시스템이다. 여기에서, 지식베이스(18)는 어휘-의미 패턴 템플릿 모듈과 해석적 파서 모듈을 포함할 수 있으나 이에 한정되지는 않는다. 즉, 본 실시예에 따른 지식베이스 기반 질의응답 시스템 모듈(14)은 의미적 파서를 사용하지 않고 일반적인 파서를 이용하여 구현될 수 있다. 이하에서는 의미적 파서로서 해석적 파서를 포함하는 경우를 중심으로 설명한다.

어휘-의미 패턴 템플릿 모듈은 어휘-의미 패턴 사전을 포함하고, 패턴 일치자 모듈과 템플릿 적용 모듈과 형식 질의 변환 모듈을 포함할 수 있으며, 여기서 패턴 일치자 모듈은 질의 문장으로부터 자질을 확인하여 자질 값이 일치하는 어휘-의미 패턴을 찾고, 템플릿 적용 모듈은 일치한 어휘-의미 패턴에 해당하는 템플릿을 질의 문장에 적용하여 실제 형식 질의 언어로 변환하고 지식베이스로부터의 응답을 받아 출력할 수 있다.

해석적 파서 모듈은 자연어-속성 사전, 결합규칙 사전, 개체명 사전 등을 포함하고, 파서, 후보 생성 모듈, 후보 평가 모듈 및 형식 질의 변환 모듈을 포함할 수 있으며, 질의 문장으로부터 어순이나 어휘의 변화에 독립적으로 형식적인 의미표현을 추출하는 과정을 거쳐 지식베이스(18)로부터 응답을 추출한다. 여기서, 파서는 질의 문장을 중첩되지 않는 복수의 부분으로 나누며, 후보 생성 모듈은 분할된 부분 문장으로부터 자연어-속성 사전과 개체명 사전을 이용하여 속성과 개체명으로 번역한 뒤 결합 규칙에 의거 문장으로 재결합하여 형식적 의미표현의 후보를 생성하고, 후보 평가 모듈은 질의-정답 데이터베이스를 토대로 후보 평가 모델 훈련기에 의해 준비된 후보 평가 모델을 이용할 수 있다. 그리고 형식 질의 변환 모듈은 후보 평가 모듈이 가장 우수하다고 평가한 형식적 의미표현을 지식베이스 데이터베이스에 질의 가능한 실제 형식 질의 언어로 변환하고 데이터베이스로부터 응답을 받아 출력할 수 있다.

전술한 해석적 파서 모듈은 자연어 문장으로부터 순수하게 형식적인 의미표현만을 도출해낼 수 있다. 이러한 해석적 파서를 이용하면, 입력 문장의 어순이나 어휘의 변화에 민감하지 않아서 문장의 변이에도 사용자의 정보 요구를 잘 파악해내는 것이 가능하며, 어휘-의미패턴 규칙 템플릿을 보조적으로 활용하여 패턴에 일치하는 단순한 문장이 내포하는 간단한 정보요구를 쉽게 해결하는 것이 가능하다.

한편, 오픈 도메인 의미적 정답 유형 검출기(12)와 정답 후보 랭킹 모듈(15)은 아래에서 도면을 참조하여 좀더 상세히 설명될 것이다.

도 3은 도 1의 하이브리드 질의응답 시스템에 채용할 수 있는 오픈 도메인 의미적 정답 유형 검출기에 대한 블록도이다.

도 3을 참조하면, 본 실시예에 따른 오픈 도메인 의미적 정답 유형 검출기(이하, 간략히 정답 유형 검출기라고 함)(12)는 지식베이스 활용 검출부(12a) 및 기계학습 기반 검출부(12b)를 포함하며, 오픈 도메인 방식으로 의미적 정답 유형을 검출한다. 여기에서 정답 유형은 사용자가 질문을 통해 얻고자 하는 정답의 유형이다.

기존의 정보검색 기반 질의응답 시스템에서 문서에서 단락, 단락에서 문장, 문장에서 정답을 찾는 방식으로 질의에 대한 정답을 찾기 때문에, 문장의 개체 중에서 정답의 유형과 다른 유형을 필터링할 수 있지만, 텍스트를 기반으로 정답을 찾기 때문에 구조화된 온톨로지 정보 활용이 어렵고 정답 후보들 간의 중의성 해결이나 동의어 처리가 어렵다. 이에 본 실시예에서는 정답 유형을 검출할 때 지식베이스를 사용하여 정보검색 기반 질의응답 시스템의 한계를 극복한다. 즉, 본 실시예에 따른 정답 유형 검출기(12)는 소규모의 정답 유형 셋을 사용하지 않고 지식베이스 온톨로지를 정답 유형으로 사용하여 정보검색 기반 질의응답 시스템 결과의 유형뿐 아니라 지식베이스 기반 질의응답 시스템 결과의 유형과 비교할 수 있다. 뿐만 아니라 질문 분석 결과를 활용하여 질문의 의미적 정답 유형을 추출하기 때문에 오픈 도메인 의미적 정답 유형 검출기라 칭할 수 있다.

본 실시예의 정답 유형 검출기(12)는 속성 매칭 모듈(121), 속성 아규먼트(argument) 타입 추출 모듈(122) 및 포커스(focus) 유형 검출기(123)를 포함하고, 오픈 도메인 의미적 정답 유형을 검출하기 위해 질의 분석 결과 및/또는 지식베이스 온톨로지를 정답 유형 온톨로지로 이용할 수 있다. 아규먼트 타입(argument type) 또는 그 속성은 커맨드(Command) 속성에 중첩되며 실행 시 스크립트에 전달되는 하나 이상의 인수를 지정할 수 있다.

여기에서 속성 매칭 모듈(121)은 문장의 본동사를 중심으로 질의 분석 결과와 지식베이스 속성 간의 의미적 유사도를 측정하여, 질문이 가지는 의미적 서술어를 지식베이스의 속성에 매칭할 수 있다. 속성 매칭 모듈(121)은 데이터베이스(124)의 지식베이스 속성 정보를 토대로 속성 매칭 시 일정한 문턱값(threshold)을 넘으면 해당 속성에 매칭하고 문턱값을 넘지 않으면 해당 속성에 매칭하지 않는 것으로 결정할 수 있다. 속성 아규먼트 타입 추출 모듈(122)은 속성 매칭 모듈(121)에서 매칭된 지식베이스의 속성을 토대로 해당 속성의 아규먼트에 해당하는 개체의 유형을 파악한다.

그리고 포커스는 질의에서 정답과 치환되는 부분이기 때문에 포커스 유형 검출기(123)는 포커스의 유형이 정답의 유형이라는 정보를 활용한다. 즉, 포커스 유형 검출기(123)는 질문 분석 결과, 기설정 포커스와 질문 내 서술어의 관계 등을 활용하여 포커스와 질문이 가지는 의미적 서술어 관계를 추출할 수 있다.

예를 들면, "Where was Kim yuna born?"이라는 질문에서 포커스(Focus)는 "Where"에 해당하고 where과 의미적 서술어 "was born"의 관계는 주어-동사 관계이다. 여기서 "was born"과 지식베이스의 birthPlace라는 특정 속성은 서로 매핑되고, birthPlace라는 속성의 아규먼트(argument)가 서브젝트(subject) 위치에 위치한 장소(place)에 해당하므로, 포커스는 의미적 서술어의 주어부에 대응하며, 따라서 "place"가 포커스의 유형이 된다.

한편, 오픈 도메인 의미적 정답 유형 검출기(12)는 지식베이스 활용 검출부(12a)에서의 속성 매칭에 실패하거나 해당 속성의 아규먼트 유형이 "물건", "사물", "Thing" 등과 같이 지나치게 광범위해서 정답 유형으로서의 기능이 불가능한 경우, 기계학습 기반 검출부(12b)를 사용하여 오픈 도메인 의미적 정답 유형을 검출할 수 있다.

기계학습 기반 검출부(12b)는 정답 유형 검출기(125)와 지식베이스 온톨로지 매칭 모듈(127)을 포함하고, 기계학습 기반 알고리즘을 사용하고 질문 분석 결과를 자질로 사용하여 정답 유형 즉, 오픈 도메일 의미적 정답 유형을 검출한다. 정답 유형 검출기(125)는 정답 유형 검출 모델 학습기(1250)에 연결될 수 있다.

정답 유형 검출기(125)를 위한 학습데이터에는 지식베이스 온톨로지가 레이블링(labling)되어 있지 않을 수 있다. 따라서, 본 실시예의 기계학습 기반 검출부(12b)는 기존에 사용되었던 정답 유형 온톨로지와 지식베이스 온톨로지를 매핑한 기존 정답 유형 온톨로지 매핑 테이블(1270)을 사전에 구축할 수 있다. 그리고 지식베이스 온톨로지 매칭 모듈(127)에서의 기존 정답 유형 온톨로지와 지식베이스 온톨로지 매핑은 어휘를 벡터화한 의미적 유사도와 두 어휘의 유사어 간의 비교 등을 통해서 자동으로 생성될 수 있으며, 사람이 매핑 결과를 검토하는 방식으로 노동력 또는 시스템 부하를 최소화할 수 있다.

질의 분석 및 오픈 도메인 의미적 정답 유형 검출의 다음 단계는 정보검색 기반 질의응답 시스템 모듈과 지식베이스 기반 질의응답 시스템 모듈에서의 질의 처리이다. 두 질의응답 시스템 모듈들은 동시에 작동할 수 있다. 여기서 언급하는 두 질의응답 시스템 모듈은 일반적인 지식베이스 기반 질의응답 시스템과 정보검색 기반 질의응답 시스템에 대응할 수 있다.

여기서, 지식베이스 기반 질의응답 시스템은 질의 분석 결과를 지식베이스의 속성으로 매칭하고, 질문에서 인식된 개체명은 지식베이스의 개체로 매칭할 수 있다. 또한 지식베이스 기반 질의응답 시스템은 질문의 구문구조 분석 결과 등을 이용하여 쿼리를 구성하고 쿼리를 이용하여 지식베이스에서 정보를 추출할 수 있다. 이 정보들의 집합은 정답 후보이다.

정보검색 기반 질의응답 시스템은 질문 분석 결과를 이용하여 쿼리를 구성하고 이 쿼리로 문서를 검색한다. 그리고 문서의 단락들과 질문 분석 결과를 비교하여 정답이 포함될 가능성이 높은 단락들을 추출하고, 그 단락들에서도 정답이 포함될 가능성이 높은 주요 문장을 추출한다. 그런 다음, 추출된 문장들에서 개체들을 추출한다. 추출한 개체들은 문장, 트리플 등을 포함하며 정답 후보가 된다.

본 실시예의 정보검색 기반 질의응답 시스템이 기존의 정보검색 기반 질의응답 시스템과 다른 점은 문서 검색시, 일반적인 텍스트를 사용하는 것이 아니라 다양한 정보가 레이블되어 있는 다중 정보 레이블 데이터베이스(도 1의 16 참조)를 사용한다는 점이다. 또한 본 실시예의 정보검색 기반 질의응답 시스템은 문서 검색, 단락검색 및 문장검색을 기재된 순서대로 검색을 수행하는 것과 동시에 문장 단위로 색인한 데이터베이스를 이용하여, 문서 및 단락 검색 과정을 건너뛰고, 문장 단위의 검색과 트리플 단위의 검색을 수행할 수 있다.

도 4는 도 1의 다중 정보 레이블 데이터베이스를 구축하는 데이터베이스 생성부에 대한 예시도이다.

도 4를 참조하면, 본 실시예에 따른 데이터베이스 생성부(17)는 다중 정보 추출부(170), 다중 정보 레이블 모듈(176) 및 다중 정보 생인 모듈(177)을 포함하며, 여기서 다중 정보 추출부(170)는 자연 언어 처리기(171), 트리플 추출기(172), 개체명 인식 및 매칭 모듈(173), 개체 유형 추출기(174) 및 시간 정보 추출기(175)를 포함하고, 다중 정보 색인 모듈(177)은 트리플 단위 색인(178), 문장 단위 색인(179) 및 문서 단위 색인(180) 등의 서브 모듈을 포함할 수 있다.

데이터베이스 생성부(17)에서 다중 정보 레이블 데이터베이스를 구축하는 방법은, 다중 정보 추출부(170)에서 일반 텍스트 데이터에서 자연어처리 도구(Natural Language Processing Tool)을 이용하여 문서를 구성하고 있는 문장들에 대하여 어휘 레벨에서 분석, 구문구조 레벨에서의 분석, 의미 레벨에서의 분석, 상호 참조(Co-reference) 해결 등을 수행하고 그 결과를 다중 정보 레이블 모듈(176)을 통해 레이블링할 수 있다. 여기서, 다중 정보 추출부(170)는 트리플 추출기(172)를 활용하여 문장에서 트리플을 추출할 수 있다. 트리플 추출기(172)는 장문을 분절할 수 있다. 예를 들어, 문장 "Kim was born in 1990 in Bucheon, gyeonggi, and moved to Gunpo when she was six years old."에서 트리플을 추출하면, <Kim; was born in; 1990> <Kim; was born in; Bucheon> <Kim;was born in; Gyeonggi> <Kim;moved to;Gunpo>을 포함할 수 있다.

다중 정보 추출부(170)를 사용하면, 트리플 추출기(172)를 통해 검색 대상을 작은 단위로 나누어서 효율적인 검색을 수행할 수 있다. 또한, 개체명 인식 및 매칭 모듈(173)을 통해 문장에서 개체를 인식하여 지식베이스의 개체에 매칭할 수 있다. 지식베이스의 개체는 고유의 식별자를 가지므로 그 식별자를 레이블링할 수 있다.

또한, 다중 정보 추출부(170)를 사용하면, 개체 유형 추출기(174)를 통해 매칭된 개체의 지식베이스 온톨로지 타입도 레이블링할 수 있다. 물론, 타입이 정의되지 않은 경우도 포함할 수 있다. 게다가, 지식베이스에서 날짜 및 시간 정보를 개체로 보지 않는 경우, 시간 정보 추출기(175)를 통해 날짜 및 시간도 따로 레이블링할 수 있다.

전술한 다중 정보 추출부(170)를 사용하면, 자연어 텍스트의 각 문장에 대해서 다양한 정보를 레이블링하고 옵셋(offset)도 레이블링할 수 있다. 그리고, 본 실시예에서는 다중 정보 색인 모듈(177)을 통해 레이블링된 데이터를 문서 검색이 가능하도록 문서 단위로 색인(180)하거나, 문장 단위로 색인(179)하거나, 트리플 단위로 색인(178)하거나, 이들의 조합 단위로 색인하여 다중 정보 레이블 데이터베이스(16)를 구성할 수 있다.

본 실시예에 의하면, 지식베이스 기반 질의응답 시스템과 정보검색 기반 질의응답 시스템에서 정답 후보를 추출하여 정답 후보의 개체 유형 및 오픈 도메인 의미적 정답 유형 검출기의 정답 유형과 비교하여 점수화(scoring) 또는 랭킹을 수행할 수 있다.

여기서 지식베이스 기반 질의응답 시스템의 결과인 객체의 유형은 지식베이스 온톨로지에서 제공되며, 본 실시예의 시스템에 구축된 색인을 통해 얻지 않을 수 있다. 여기서, 지식베이스는 온톨로지 개념을 포함한다.

그리고 정보검색 기반 질의응답 시스템의 경우 앞서 언급한 다중 정보 레이블 데이터베이스(16)를 사용함으로써 원문(질문)의 각 개체에 지식베이스 온톨로지가 레이블링되어 있어서 오픈 도메인 의미적 정답 유형과 비교할 수 있다.

도 5는 도 1의 지식베이스 기반 질의응답 시스템 모듈의 처리 결과를 이용하여 지식베이스 기반 질의응답 시스템 모듈의 정답 후보에 해당하는 컨텍스트 정보를 얻는 과정에 대한 예시도이다.

도 5를 참조하면, 본 실시예에 따른 다중 소스 하이브리드 질의응답 시스템의 정답 후보 랭킹 모듈(15)은 쿼리 생성기(151)와 검색 모듈(152)을 포함하고, 지식베이스 기반 질의응답 시스템 모듈의 처리 결과에 해당하는 컨텍스트 정보를 얻을 수 있다.

다시 말해서, 지식베이스 기반 질의 응답 시스템의 결과는 단답형의 개체로서 컨텍스트 정보를 포함할 수 없다. 그러나, 정보검색 기반 질의응답 시스템의 결과와 통합하여 정답 후보를 랭킹하기 위해서는 컨텍스트 정보가 필요하다. 따라서, 정답 후보 랭킹 모듈(15)은 구조화된 지식베이스로부터 얻은 결과와 질문의 문장분석 결과의 결합을 토대로 다중 정보 레이블 데이터베이스를 검색하고 검색 결과를 지식베이스 결과의 컨텍스트 정보로 간주하여 통합 정답 랭킹을 수행할 수 있다. 다시 말해서, 정답 후보 랭킹 모듈(15)은 질문에서 인식한 개체명을 지식베이스의 개체와 매칭하고, 질문의 구분구조 분석 결과를 이용하여 쿼리를 생성하고, 쿼리를 통해 지식베이스에서 얻은 문장을 검색하여 질문의 중요 키워드나 단어에 대한 컨텍스트 정보를 얻을 수 있다.

예를 들어, "Where was Kim yuna born?"이라는 질문이 있을 때, 질문 분석 결과 중에 "Kim yuna"라는 단어가 중요하다는 정보가 있으면, "Kim yuna"와 지식베이스 기반 질의응답 시스템의 결과 예시인 "Bucheon"을 결합하여 쿼리를 만들고 이 쿼리를 통해 "Kim yuna Bucheon"이 나온 문장을 검색하여 지식베이스 기반 질의응답 시스템의 결과 "Bucheon"에 대한 컨텍스트 정보를 얻을 수 있다.

이를 위해, 쿼리 생성기(151)는 지식베이스 기반 질의응답 시스템의 결과에 컨텍스트 정보가 없을 때 질문분석 결과를 이용하여 쿼리를 생성한다. 그리고 검색 모듈(152)은 쿼리 생성기(151)에서 생성된 쿼리를 이용하여 다중 정보 레이블 데이터베이스(16)에서 개체를 검색 및/또는 추출한다. 개체는 문장, 문장에서 추출한 트리플, 또는 그 외 해당 문장에 대한 다양한 언어분석 결과를 포함할 수 있다.

도 6은 도 1의 정답 후보 랭킹 모듈의 다른 실시예에 대한 예시도이다.

도 6을 참조하면, 본 실시예에 따른 정답 후보 랭킹 모듈(15)은 가설 및 텍스트 생성기(153), 자질 추출기(154) 및 기계학습 기반 텍스트 함의 인식 모듈(155)을 포함하고, 텍스트 함의 인식(Textual Entailment Recognition)을 토대로 평서문으로 치환된 질문과 정답 후보를 처리하여 정답 후보 신뢰 스코어를 생성할 수 있다. 여기서, 정답 후보 신뢰 스코어(confidence score)는 텍스트 함의 인식 스코어에 해당한다.

좀더 구체적으로 설명하면, 본 실시예의 정답 후보 랭킹 모듈(15)은 텍스트 함의 인식 기술을 정답 후보 랭킹에 활용할 수 있다. 즉, 정답 후보 랭킹 모듈(15)은 질문 분석기의 질문 분석 단계에서 질문을 평서문으로 바꾼 문장(예컨대, Kim yuna was born in where)과 정답 후보(Bucheon) 그리고 정답 후보가 포함된 문장(예컨대, Kim yuna was born in Bucheon ~~) 등을 입력받는다. 그러면, 정답 후보 랭킹 모듈(15)은 먼저 가설 및 텍스트 생성기(153)를 통해 정답 후보를 포커스(Focus)와 치환하여 정답 후보가 포함된 문장을 생성한다(Kim yuna was born in Bucheon). 이 문장은 텍스트 함의 인식 이론에서 H가 된다. 또한 정답 후보가 추출된 문장은 T가 된다. 이 T는 H가 참이 됨을 증명할 수 있는 일종의 증거(evidence)로 이용된다. 이렇게 H와 T가 정해졌을 때 자질 추출기(154)에 의해 추출된 각 H와 T에서 자질들을 이용하여 기계학습 기반으로 모델을 만들어 사용하는 방식으로 텍스트 함의 인식 이론을 적용할 수 있다. 최종 출력은 H가 참이 되는 신뢰 스코어(confidence score)이고, 상기의 자질들로는 질문 분석 결과, 다중 정보 레이블 데이터베이스에 태깅된 다양한 정보들이 활용될 수 있다.

본 실시예에서 텍스트 함의 인식 이론은 기계학습 기반 텍스트 함의 인식 모듈(155)을 통해 주어진 텍스트 T(=text)와 H(=Hypothesis)에 대해서 T를 기반으로 H가 참임을 유추할 수 있는지 판단한다. 이러한 함의 인식 이론은 기계학습 기반 텍스트 함의 인식 모듈(155)에 의해 구현되어 주어진 텍스트와 가설에 대한 정답 후보 신뢰 스코어를 생성할 수 있다. 여기서, 기계학습 기반 텍스트 함의 인식 모듈(155)은 함의 인식 모델 학습기(150)에 의해 학습될 수 있다.

도 7은 도 1의 질문 처리부의 다른 실시예에 대한 예시도이다.

도 7을 참조하면, 본 실시예에 따른 질문 처리부는 유형 비교 모듈(12a), 의미적 유사도 측정 모듈(19) 및 최종 스코어 계산 모듈(156)을 포함한다. 최종 스코어 계산 모듈(156)은 정답 후보 랭킹 모듈(15)에 포함될 수 있으나, 이에 한정되지는 않는다.

유형 비교 모듈(12a)은 오픈 도메인 의미적 정답 유형 검출기에서의 검출 결과와 지식베이스 기반 질의응답 시스템을 통해 얻은 정답 후보들의 개체 유형과 정보검색 기반 질의응답 시스템을 통해 얻은 정답 후보들의 개체 유형을 비교하여 각 정답 후보들의 오픈 도메인 의미적 정답 유형 스코어를 출력한다. 유형이 일치하면, 오픈 도메인 의미적 정답 유형 스코어는 상대적으로 높고, 유형이 일치하지 않으면, 오픈 도메인 의미적 정답 유형 스코어는 상대적으로 낮을 수 있다.

의미적 유사도 측정 모듈(19)은 정답 후보가 추출된 문장과 질문 분석 결과에 기초하여 의미적 유사도를 측정하고, 측정 결과로서 정답 후보 포함 문장 스코어를 출력한다. 여기서, 정답 후보 검출 결과는 최종 스코어 계산 모듈(15)이 다중 정보 레이블 데이터베이스에서 추출한 질의응답 처리 결과에 대응하고, 질문 분석 결과는 질문 분석기가 다중 정보 레이블 데이터베이스에서 추출한 질문 분석 결과에 대응할 수 있다.

최종 스코어 계산 모듈(156)은 오픈 도메인 의미적 정답 유형을 통해 측정한 스코어(오픈 도메인 의미적 정답 유형 스코어), 텍스트 함의 인식 스코어, 및 정답 후보 포함 문장 스코어를 토대로 정답에 대한 최종 스코어를 계산하고 계산 결과로서 최종적인 정답 또는 최종 정답 리스트를 출력한다. 텍스트 함의 인식 스코어는 정답 후보 랭킹 모듈에서 최종 스코어 계산 모듈(156)의 입력단에 연결되는 기계학습 기반 텍스트 함의 인식 모듈(도 6의 155 참조)의 함의 인식 결과에 대응할 수 있다.

도 8은 본 발명의 다른 실시예에 따른 다중 소스 하이브리드 질의응답 시스템에 대한 블록도이다.

본 실시예에 따른 하이브리드 질의응답 시스템은 네트워크에 연결되는 서버 장치의 적어도 일부 기능부 또는 이러한 기능부의 기능을 수행하는 구성부로 구현될 수 있다. 또한, 하이브리드 질의응답 시스템은 유선 또는 무선 네트워크를 통해 하나 이상의 다른 사용자 단말과 연결되는 컴퓨팅 장치로 구현될 수 있다.

도 8을 참조하면, 본 실시예에 따른 하이브리드 질의응답 시스템은 프로세서(100), 메모리(110), 데이터베이스(120) 및 입출력 장치(130)를 포함하고, 전술한 다중 소스 하이브리드 질의응답 방법을 수행할 수 있다.

프로세서(100)는 하나 이상의 코어, 캐시 메모리 및 인터페이스를 포함할 수 있다. 프로세서(100)가 멀티 코어 구조를 구비하는 경우, 멀티 코어(multi-core)는 두 개 이상의 독립 코어를 단일 집적 회로로 이루어진 하나의 패키지로 통합한 것을 지칭할 수 있다. 그리고 프로세서(100)가 단일 코어 구조를 구비하는 경우, 단일 코어는 중앙 처리 장치(CPU)를 지칭할 수 있다. 중앙 처리 장치(CPU)는 MCU(micro control unit)와 주변 장치(외부 확장 장치를 위한 집적회로)가 함께 배치되는 SOC(system on chip)로 구현될 수 있으나, 이에 한정되지는 않는다. 코어는 처리할 명령어를 저장하는 레지스터(register), 비교, 판단, 연산을 담당하는 산술논리연산장치(arithmetic logical unit, ALU), 명령어의 해석과 실행을 위해 CPU를 내부적으로 제어하는 제어부(control unit), 내부 버스 등을 구비할 수 있다.

또한, 프로세서(100)는 하나 이상의 데이터 프로세서, 이미지 프로세서, 또는 코덱(CODEC)을 포함할 수 있으나, 이에 한정되지는 않는다. 데이터 프로세서, 이미지 프로세서 또는 코덱은 별도로 구성될 수도 있다.

또한, 프로세서(100)는 주변장치 인터페이스와 메모리 인터페이스를 구비할 수 있고, 그 경우 주변장치 인터페이스는 프로세서(100)와 입출력 장치(130) 및 여러 다른 주변 장치를 연결하고, 메모리 인터페이스는 프로세서(100)와 메모리(110)및/또는 데이터베이스(120)를 연결할 수 있다.

전술한 프로세서(100)는 다중 소스 하이브리드 질의응답 방법을 수행하기 위해 하나 이상의 소프트웨어 프로그램에 의해 데이터 입력, 데이터 처리 및 데이터 출력을 실행할 수 있다. 또한, 프로세서(100)는 메모리(100)에 저장되어 있는 특정한 소프트웨어 모듈(명령어 세트)을 실행하여 해당 모듈에 대응하는 특정한 여러 가지의 기능을 수행할 수 있다. 즉, 프로세서(100)는 메모리(100)에 저장된 소프트웨어 모듈들에 의해 구현되는 다중 소스 하이브리드 질의응답 방법을 위한 모듈들에 의해 컴퓨팅 장치에서 자체적으로 또는 네트워크로 연결된 다른 사용자 단말의 질의에 대하여 정답 또한 자연어 리포트를 제공할 수 있다.

메모리(110)는 하나 이상의 자기 디스크 저장 장치와 같은 고속 랜덤 액세스 메모리 및/또는 비휘발성 메모리, 하나 이상의 광 저장 장치 및/또는 플래시 메모리를 포함할 수 있다. 메모리(110)는 소프트웨어, 프로그램, 명령어 집합 또는 이들의 조합을 저장할 수 있다.

소프트웨어의 구성요소는 운영 체제(operating system) 모듈, 통신 모듈, 그래픽 모듈, 사용자 인터페이스 모듈, MPEG(moving picture experts group) 모듈, 카메라 모듈, 하나 이상의 애플리케이션 모듈 등을 포함할 수 있다. 모듈은 명령어들의 집합으로서 명령어 세트(instruction set) 또는 프로그램으로 표현될 수 있다.

또한, 소프트웨어의 구성요소는 본 실시예에 따른 다중 소스 하이브리드 질의응답 방법의 구현을 위해 입력 분류부(2), 질문 처리부(10) 및 키워드 처리부(20)를 포함할 수 있다. 입력 분류부(2), 질문 처리부(10) 및 키워드 처리부(20) 각각은 하나 이상의 모듈을 포함할 수 있다. 입력 분류부(2), 질문 처리부(10) 및 키워드 처리부(20)는 프로세서(100)에 의해 실행되어 해당 기능을 수행할 수 있다.

운영 체제는 예컨대 MS WINDOWS, LINUX, 다윈(Darwin), RTXC, UNIX, OS X, iOS, 맥 OS, VxWorks, 구글 OS, 안드로이드(android), 바다(삼성 OS), 플랜 9 등과 같은 내장 운영 체제를 포함할 수 있고, 하이브리드 질의응답 시스템의 시스템 작동(system operation)을 제어하는 여러 가지의 구성요소를 구비할 수 있다. 전술한 운영 체제는 여러 가지의 하드웨어(장치)와 소프트웨어 구성요소(모듈) 사이의 통신을 수행하는 기능도 구비할 수 있으나, 이에 한정되지는 않는다.

데이터베이스(120)는 다중 정보 레이블 데이터베이스, 구조화된 지식베이스, 자연어 생성 자원, 지식베이스 속성 정보 데이터베이스, 지식베이스 온톨로지 데이터베이스(기존 정답 유형 온톨로지 매핑 테이블 포함), 키워드 엔티티 매칭 데이터베이스, 키워드 엔티티 매칭 모델 데이터베이스, 키워드 프로퍼티 매칭 데이터베이스, 키워드 프로퍼티 매칭 모델 데이터베이스, 지식기반 데이터베이스, 자연어 생성 자원 데이터베이스, 자연어 생성 자원, 어휘-의미 패턴 사전 데이터베이스, 자연어-속성 사전 데이터베이스, 결합규칙 사전 데이터베이스, 개체명 사전 데이터베이스, 후보 평가 모델 데이터베이스 등을 포함할 수 있다.

입출력 장치(130)는 키보드, 마우스, 터치패드, 디스플레이장치, 터치패널, 보조저장장치 등의 외부 장치 또는 주변 장치를 포함한다. 입출력 장치(130)는 입출력 인터페이스를 통해 프로세서(100)와 연결될 수 있다.

또한, 입출력 장치(130)는 네트워크를 통해 외부 장치와 연결되는 통신 장치를 포함할 수 있다. 통신 장치는 하나 이상의 무선 통신 서브시스템을 포함할 수 있다. 무선 통신 서브시스템은 무선 주파수(radio frequency) 수신기 및 송수신기 및/또는 광(예컨대, 적외선) 수신기 또는 송수신기를 포함할 수 있다. 네트워크는 예를 들어, GSM(Global System for Mobile Communication), EDGE(Enhanced Data GSM Environment), CDMA(Code Division Multiple Access), W-CDMA(W-Code Division Multiple Access), LTE(Long Term Evolution), LTE-Advanced, OFDMA(Orthogonal Frequency Division Multiple Access), WiMax, Wi-Fi(Wireless Fidelity), Bluetooth 등을 포함할 수 있다.

한편, 본 실시예에 있어서, 하이브리드 질의응답 시스템의 구성요소들은 컴퓨팅 장치에 탑재되는 기능 블록 또는 모듈일 수 있으나, 이에 한정되지 않는다. 전술한 구성요소들은 이들이 수행하는 일련의 기능(하이브리드 질의응답 방법)을 구현하기 위한 소프트웨어 형태로 컴퓨터 판독 가능 매체(기록매체)에 저장되거나 혹은 캐리어 형태로 원격지에 전송되어 다양한 컴퓨팅 장치에서 동작하도록 구현될 수 있다. 여기서 컴퓨터 판독 가능 매체는 네트워크를 통해 연결되는 복수의 컴퓨터 장치나 클라우드 시스템에 탑재될 수 있고, 복수의 컴퓨터 장치나 클라우드 시스템 중 적어도 하나 이상은 메모리나 소정의 저장장치에 하이브리드 질의응답 방법을 수행하기 위한 프로그램이나 소스 코드 형태로 저장될 수 있다.

즉, 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하는 형태로 구현될 수 있으나, 이에 한정되지는 않는다. 컴퓨터 판독 가능 매체에 기록되는 프로그램은 본 실시예의 방법이나 시스템을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것을 포함할 수 있다.

또한, 컴퓨터 판독 가능 매체는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 하드웨어 장치는 본 실시예의 하이브리드 질의응답 방법을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

전술한 실시예들에 의하면, 정보검색 기반 질의 응답 시스템과 지식베이스 기반 질의 응답 시스템을 동시에 사용하고 여기서 얻은 결과를 통합하기 위한 다양한 전략들을 사용함으로써, 지식베이스 기반 질의 응답 시스템과 정보 검색 기반 질의 응답 시스템을 각각 사용했을 때의 한계점을 보완할 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

컴퓨팅 장치에서 수행되는 다중 소스 하이브리드 질의응답 방법으로서,
자연언어로 이루어진 문장 또는 키워드가 입력되면 상기 문장 또는 키워드를 구별하는 단계;
상기 키워드의 입력에 대한 키워드 처리를 통해 자연어 리포트를 출력하는 단계; 및
상기 문장의 입력에 대한 질문 처리를 통해 정답을 출력하는 단계를 포함하며,
상기 정답을 출력하는 단계는,
상기 질문에서 포커스를 추출하는 단계, 및
상기 포커스를 추출하기 위해 이용한 질문분석 결과를 활용하여 오픈 도메인 의미적 정답 유형을 검출하는 단계를 포함하며,
여기서, 상기 포커스는 정답과 치환되면 사용자가 알고자 하는 평서문 형태의 정답 문장이 되는 부분을 지칭하며,
상기 오픈 도메인 의미적 정답 유형을 검출하는 단계는, 정답 유형으로 지식베이스 온톨로지를 사용하고 상기 질문분석 결과를 활용하여 상기 질문의 의미적 정답 유형을 추출하고, 상기 정답 유형의 검출을 위해 상기 질문에 대한 문장의 본동사를 중심으로 수행한 질문분석 결과와 구조화된 지식베이스 속성 간의 의미적 유사도를 측정하고, 상기 질문이 가지는 의미적 서술어를 상기 지식베이스의 속성에 매칭하며,
상기 지식베이스 온톨로지는 미리 저장된 정답유형 온톨로지와 지식베이스 온톨로지 매핑 테이블에 의해 매핑되며,
상기 정답유형 온톨로지와 상기 지식베이스 온톨로지의 매핑은 어휘를 벡터화한 의미적 유사도와 두 어휘의 유사어 간의 비교를 통해 정답 유형을 자동 생성하는, 다중 소스 하이브리드 질의응답 방법.
청구항 1에 있어서,
상기 자연어 리포트를 출력하는 단계는,
상기 키워드를 토대로 쿼리를 생성하는 단계;
상기 쿼리를 이용하여 구조화된 지식베이스에서 트리플을 추출하는 단계; 및
상기 트리플을 자연어 응답을 생성하는 단계를 포함하는,
다중 소스 하이브리드 질의응답 방법.
삭제
삭제
삭제
삭제
청구항 1에 있어서,
상기 오픈 도메인 의미적 정답 유형을 검출하는 단계에서 1차적인 정답 유형을 검출하는데 실패하면, 상기 오픈 도메인 의미적 정답 유형을 검출하는 단계 후에 수행되는 기계학습 알고리즘을 이용하여 1차적인 정답 유형을 검출하는 단계를 더 포함하는, 다중 소스 하이브리드 질의응답 방법.
청구항 1에 있어서,
상기 정답을 출력하는 단계는, 오픈 도메인 의미적 정답 유형을 검출하는 단계 후에, 지식베이스 기반 질의응답 시스템 모듈을 통해 상기 질문분석 결과를 지식베이스의 속성과 매칭하고, 상기 질문에서 인식된 개체명은 지식베이스의 개체로 매칭하며, 상기 질문의 구문구조 분석 결과를 이용하여 쿼리를 구성하고, 상기 쿼리를 이용하여 상기 지식베이스에서 정보들을 추출하는 지식베이스 기반 질의응답 처리 단계를 더 포함하는, 다중 소스 하이브리드 질의응답 방법.
청구항 8에 있어서,
상기 쿼리를 이용하여 상기 지식베이스에서 추출되는 정보들은 상기 쿼리를 다중 정보 레이블 데이터베이스에 입력하여 얻은 결과로서 컨텍스트 정보를 포함하고, 상기 컨텍스트 정보는 문장 또는 문장에서 추출한 트리플을 포함하는, 다중 소스 하이브리드 질의응답 방법.
청구항 8에 있어서,
상기 정답을 출력하는 단계는, 오픈 도메인 의미적 정답 유형을 검출하는 단계 후에, 상기 질문분석 결과를 이용하여 쿼리를 구성하고, 상기 쿼리를 이용하여 문서를 다중 정보 레이블 데이터베이스에서 검색하며, 검색된 문서의 단락들과 상기 질문분석 결과를 비교하여 정답이 포함될 가능성이 상대적으로 높은 단락들을 추출하고, 상기 추출된 단락들에서 정답이 포함될 가능성이 상대적으로 높은 주요 문장을 추출하고, 상기 문장에서 개체들을 추출하는 정보검색 기반 질의응답 처리 단계를 더 포함하는, 다중 소스 하이브리드 질의응답 방법.
청구항 10에 있어서,
상기 정보검색 기반 질의응답 처리 단계는 상기 다중 정보 레이블 데이터베이스의 검색 시 문서 검색, 단락 검색 및 문장 검색을 기재된 순서대로 수행하며, 문장 단위로 색인한 데이터베이스를 이용하여 문서 및 단락 검색 과정을 생략하고 문장 단위의 검색과 트리플 단위의 검색을 수행하는, 다중 소스 하이브리드 질의응답 방법.
청구항 10에 있어서,
상기 지식베이스 기반 질의응답 처리 단계와 상기 정보검색 기반 질의응답 처리 단계는 동시에 수행되며, 상기 정보들의 집합 및 상기 개체들 중 적어도 어느 하나는 정답 후보인, 다중 소스 하이브리드 질의응답 방법.
청구항 12에 있어서,
상기 정답을 출력하는 단계는, 상기 지식베이스 기반 질의응답 처리 단계와 상기 정보검색 기반 질의응답 처리 단계 후에, 텍스트 함의 인식을 이용한 정답 후보 랭킹 단계를 더 포함하며,
상기 텍스트 함의 인식은, 상기 질문을 평서문으로 바꾸고, 상기 질문의 포커스(Focus)를 정답 후보와 치환한 문장을 가설로 설정하고, 상기 정답 후보를 포커스와 치환한 문장과 상기 정답 후보가 추출된 문장에서 자질을 이용하여 기계학습 기반으로 모델을 만들어 사용하되, 상기 자질은 질문분석 결과, 다중 정보 레이블 데이터베이스에 태깅된 정보를 포함하는, 다중 소스 하이브리드 질의응답 방법.
청구항 13에 있어서,
상기 정답 후보 랭킹 단계는, 오픈 도메인 의미적 정답 유형을 통해 측정한 스코어, 텍스트 함의 인식을 통해 얻은 스코어, 상기 정답 후보가 추출된 문장과 상기 질문분석 결과의 의미적 유사도를 측정한 스코어를 토대로 상기 정답을 출력하는, 다중 소스 하이브리드 질의응답 방법.
다중 소스 하이브리드 질의응답 방법을 수행하는 컴퓨팅 장치로서,
자연언어로 이루어진 질문 또는 키워드가 입력되면 상기 질문 또는 키워드를 구별하는 입력 분류부;
상기 키워드에 대한 질의응답 처리를 통해 자연어 리포트를 출력하는 키워드 처리부; 및
상기 질문에 대한 질의응답 처리를 통해 정답을 출력하는 질문 처리부를 포함하며,
상기 질문 처리부는,
상기 질문이 들어오면 어휘 분석과 구분 분석을 수행하고 포커스를 추출하는 질문 분석기;
상기 포커스를 추출하기 위해 이용한 질문분석 결과를 토대로 오픈 도메인 의미적 정답 유형을 검출하는 오픈 도메인 의미적 정답 유형 검출기;
상기 질문분석 결과를 자질로 사용하여 구조화된 지식베이스에서 개체 또는 정답 후보를 검출하는 지식베이스 기반 질의응답 시스템 모듈;
상기 질문의 본동사를 중심으로 질문분석 결과와 지식베이스 속성 간의 의미적 유사도를 측정하여 상기 질문이 가지는 의미적 서술어를 지식베이스의 속성에 매칭하는 정보검색 기반 질의응답 시스템 모듈; 및
상기 오픈 도메인 의미적 정답 유형 검출기의 검출 결과를 다중 정보 레이블 데이터베이스 및 지식베이스에서 검색한 유형과 비교하여 얻은 오픈 도메인 의미적 정답 유형 스코어와, 상기 정보검색 기반 질의응답 시스템 모듈에서 텍스트 함의 인식을 통해 얻은 텍스트 함의 인식 스코어와, 상기 질문 분석 결과와 상기 정답 후보의 검출 결과를 토대로 얻은 정답 후보 포함 문장 스코어를 이용하여 상기 정답을 출력하는 정답 후보 랭킹 모듈을 포함하는, 다중 소스 하이브리드 질의응답 시스템.
청구항 15에 있어서,
상기 키워드 처리부는,
상기 키워드를 토대로 쿼리를 생성하는 쿼리 생성기;
상기 쿼리를 이용하여 구조화된 지식베이스에서 트리플을 추출하는 트리플 추출기; 및
상기 트리플을 이용하여 자연어 응답을 생성하는 응답 생성기를 포함하는,
다중 소스 하이브리드 질의응답 시스템.
삭제
청구항 15에 있어서,
상기 지식베이스 기반 질의응답 시스템 모듈과 상기 정보검색 기반 질의응답 시스템 모듈은 동시에 수행되는, 다중 소스 하이브리드 질의응답 시스템.
청구항 15에 있어서,
상기 오픈 도메인 의미적 정답 유형 검출기는, 정답 유형의 검출을 위해 지식베이스 온톨로지를 사용하고, 상기 지식베이스 온톨로지는 미리 저장된 정답유형 온톨로지와 지식베이스 온톨로지 매핑 테이블에 의해 매핑되며, 상기 정답유형 온톨로지와 상기 지식베이스 온톨로지의 매핑은 어휘를 벡터화한 의미적 유사도와 두 어휘의 유사어 간의 비교를 통해 정답 유형을 자동 생성하는, 다중 소스 하이브리드 질의응답 시스템.
청구항 19에 있어서,
상기 오픈 도메인 의미적 정답 유형 검출기는, 지식베이스 활용 검출부, 및 기계학습 기반 검출부를 포함하고,
상기 지식베이스 활용 검출부는,
상기 질문이 가지는 의미적 서술어를 기설정의 구조화된 지식베이스의 속성 간의 의미적 유사도를 측정하여 상기 질문이 가지는 의미적 서술어를 상기 지식베이스의 속성에 매칭하는 속성 매칭 모듈과,
상기 지식베이스의 속성에 따라 상기 속성의 아규먼트에 해당하는 개체의 유형을 상기 질문의 정답 유형으로 결정하는 속성 아규먼트 타입 추출 모듈과,
기설정 포커스와 서술어의 관계 및 질문분석 결과 중 어느 하나 이상을 이용하여 정답 후보의 유형을 결정하는 포커스 유형 검출기를 구비하며,
상기 기계학습 기반 검출부는,
상기 지식베이스 활용 검출부에서의 속성 매칭 실패 또는 속성의 아규먼트 유형이 문턱값(threshold)을 넘지 않는 경우에 수행되며,
상기 질문 분석 결과를 이용하여 정답의 유형을 결정하는 정답 유형 검출기와,
상기 정답 유형 검출기에서 검출된 정답의 유형에 기초하여 기설정 정답 유형 온톨로지와 지식베이스 온톨로지 매핑 테이블을 이용하여 오픈 도메인 의미적 정답 유형을 출력하는 지식베이스 온톨로지 매칭 모듈을 구비하는,
다중 소스 하이브리드 질의응답 시스템.