KR102033435B1 - 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈 - Google Patents

자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈 Download PDF

Info

Publication number
KR102033435B1
KR102033435B1 KR1020140161859A KR20140161859A KR102033435B1 KR 102033435 B1 KR102033435 B1 KR 102033435B1 KR 1020140161859 A KR1020140161859 A KR 1020140161859A KR 20140161859 A KR20140161859 A KR 20140161859A KR 102033435 B1 KR102033435 B1 KR 102033435B1
Authority
KR
South Korea
Prior art keywords
question
questions
answer
correct
user
Prior art date
Application number
KR1020140161859A
Other languages
English (en)
Other versions
KR20160060247A (ko
Inventor
허정
김영래
김현기
류법모
배용진
오효정
이충희
이형직
임수종
임준호
장명길
최미란
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020140161859A priority Critical patent/KR102033435B1/ko
Priority to US14/945,921 priority patent/US9613025B2/en
Publication of KR20160060247A publication Critical patent/KR20160060247A/ko
Application granted granted Critical
Publication of KR102033435B1 publication Critical patent/KR102033435B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈에 대하여 개시한다. 본 발명의 일면에 따른 자연어 질의응답 시스템은, 사용자 질문을 패러프라이즈(Paraphrase)하여 복수의 변형질문을 생성하는 변환 모듈; 상기 사용자 질문 및 상기 각 변형질문을 각기 입력받아, 그에 대응하는 정답후보들을 각기 선별하는 복수의 질의응답엔진; 및 검색된 상기 정답후보들 중에서 적어도 하나의 정답후보를 정답으로 검출하는 검출 모듈을 포함하는 것을 특징으로 한다.

Description

자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈{System and Method for Question and answer of Natural Language and Paraphrase Module}
본 발명은 질의응답기술에 관한 것으로서, 더 구체적으로는 사용자 질의에 대한 정답을 검출할 수 있는 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈에 관한 것이다.
자연어 질의응답기술은 사용자의 질문을 분석하여 다양한 콘텐츠에서 질문의 의도에 맞는 정답을 검색하고, 그 중 정답을 추출하여 사용자에게 제시하는 기술이다.
모바일 시대의 도래와 함께 모바일 기기의 하드웨어적인 한계(작은 화면으로 인해 검색결과 제시의 한계)를 극복하기 위해서 자연어 질의응답기술이 다시 각광을 받고 있다.
아이폰의 경우, '시리'라는 기술을 제시하면서 음성으로 사용자가 질문을 하고 그 질문에 응답하는 기술을 선보인 바 있다.
종래의 자연어 질의응답은 사용자의 질문을 분석하는 질문분석단계, 관련 콘텐츠를 검색하는 문서검색단계, 검색된 문서에서 정답을 추출하는 정답추출단계 및 추출된 정답을 제시하는 정답제시단계의 4단계로 구성되었다.
종래의 자연어 질의응답은 빅데이터의 데이터 잉여성(Data Redundancy)에 기반하여 질문과 동일한 문장구조 및 어휘로 구성된 문장이나 문단을 검색하고, 해당 문장이나 문단에서 정답후보를 찾는 방식이었다.
이 방식은 기본적으로 사용자의 질문과 동일한 문장구조 및 어휘로 구성된 콘텐츠가 광범위한 웹의 어딘가에는 있을 거라는 가정에 기반하고 있다. 그러나, 이 접근법은 웹이라는 빅데이터에 기반하고 있는 것으로 웹의 단점인 거짓정보에 대한 필터링이 전제되어야 한다.
뿐만 아니라, 종래의 자연어 질의응답은 백과사전, 위키피디아 사전, 국어사전등과 같이 신뢰도 높은 제한된 콘텐츠를 대상으로 수행될 수도 있으나, 이 경우 정답포함 문장 및 문단 검색에 한계가 있어, 재현율과 정확도가 낮아질 수 있었다.
본 발명은 전술한 바와 같은 기술적 배경에서 안출된 것으로서, 사용자 질문을 패러프라이즈하여 그에 대응하는 정답을 검색할 수 있는 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈을 제공하는 것을 그 목적으로 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일면에 따른 자연어 질의응답 시스템은, 사용자 질문을 패러프라이즈(Paraphrase)하여 복수의 변형질문을 생성하는 변환 모듈; 상기 사용자 질문 및 상기 각 변형질문을 각기 입력받아, 그에 대응하는 정답후보들을 각기 선별하는 복수의 질의응답엔진; 및 검색된 상기 정답후보들 중에서 적어도 하나의 정답후보를 정답으로 검출하는 검출 모듈을 포함하는 것을 특징으로 한다.
본 발명의 다른 면에 따른 패러프라이즈 모듈은, 사용자 질문을 분석하는 분석부; 및 상기 사용자 질문 내 어휘나 구를 다른 언어의 어휘나 구로 대체, 상기 사용자 질문의 구문 구조를 변환 상기 사용자 질문 내 어휘를 동의어로 대체 중 적어도 하나를 수행하여 상기 사용자 질문이 패러프라이즈(Paraphrase)된 복수의 변형질문을 생성하는 변환부를 포함하고, 상기 사용자 질문 및 상기 복수의 변형질문은 질의응답엔진에 제공되는 것을 특징으로 한다.
본 발명의 또 다른 면에 따른 자연어 질의응답 시스템에 의한 자연어 질의응답 방법은, 사용자 질문을 패러프라이즈(Paraphrase)하여 복수의 변형질문을 생성하는 단계; 복수의 질의응답엔진에 의해 상기 사용자 질문 및 상기 각 변형질문을 각기 입력받아, 그에 대응하는 정답후보를 각기 선별하는 단계; 및 검색된 상기 정답후보들 중에서 적어도 하나의 정답후보를 정답으로 검출하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 따르면, 사용자 질문을 패러프라이즈하여 그에 대응하는 정답을 검색할 수 있다.
도 1은 본 발명의 실시예에 따른 자연어 질의응답 시스템을 도시한 구성도.
도 2는 본 발명의 실시예에 따른 변환 모듈을 도시한 구성도.
도 3은 본 발명의 실시예에 따른 사용자 질문에 대한 정답 검출 과정을 도시한 도면.
도 4는 본 발명의 실시예에 따른 자연어 질의응답 방법을 도시한 흐름도.
본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이제 본 발명의 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다. 도 1은 본 발명의 실시예에 따른 자연어 질의응답 시스템을 도시한 구성도이다.
도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 자연어 질의응답 시스템(10)은 변환 모듈(1100), 분산 엔진(1200) 및 검출 모듈(1300)을 포함한다. 본 발명의 실시예에 따른 자연어 질의응답 시스템(10)은 검출된 정답을 표출하는 제시 모듈(미도시)을 더 포함할 수 있다.
변환 모듈(1100)은 사용자 질문을 패러프라이즈(Paraphrase)하여 복수의 변형질문을 생성한다.
상세하게는, 변환 모듈(1100)은 사용자 질문 내 어휘나 구를 동일하게 번역될 수 있는 동의어나 유의어일 가능성이 큰 어휘나 구로 대체, 사용자 질문의 구문 구조를 변환 사용자 질문 내 어휘를 동의어로 대체 중 적어도 하나를 수행하여 사용자 질문과 동일 의미의 다양한 문장 구조와 어휘로 구성된 복수의 변형질문을 생성할 수 있다. 여기서, 변환 모듈(1100)에 의한 동의어나 유의어일 가능성이 큰 어휘나 구의 선택은 사전 등에 의해서 확인될 수 있다.
이때, 변환 모듈(1100)은 복수의 변형질문의 신뢰도를 확인하고, 신뢰도를 고려하여 복수의 변형질문을 선택할 수 있다. 변환 모듈(1100)이 복수의 변형질문을 생성하는 과정에 대해서는 도 2를 참조하여 후술하도록 한다.
변환 모듈(1100)은 사용자 질문 및 복수의 변형질문을 분산 엔진(1200)에 제공한다. 이때, 사용자 질문 및 복수의 변형질문의 개수가 복수의 질의응답엔진의 개수 이상이면, 변환 모듈(1100)은 복수 회에 걸쳐서 사용자 질문 및 복수의 변형질문을 전달할 수 있다.
분산 엔진(1200)은 복수의 질의응답엔진을 포함하고, 각 질의응답엔진은 사용자 질문 및 복수의 변형질문을 각기 입력받아, 기설정된 데이터베이스로부터 그에 대응하는 정답후보를 검색한다.
상세하게는, 각 질의응답엔진은 정답후보를 검색함과 동시에 또는 그와 순차적으로 추출된 정답후보들이 정답일 가능성인 신뢰도 값을 계산하고, 신뢰도 값을 기반으로 신뢰도가 높은 순으로 복수의 정답후보들을 정렬하고, 그중 상위 N개를 선정해서 출력할 수 있다. 이때, 각 질의응답엔진은 사용자 질문 및 변형질문의 신뢰도, 정답후보를 추출한 문장과 입력질문의 유사도 값, Support Evidence Score등의 다양한 기술을 이용하여 정답후보의 신뢰도값을 계산할 수 있다.
예를 들어, 분산 엔진(1200)은 포털 사이트 등과 같은 웹으로부터 사용자 질문 및 복수의 변형질문에 대한 정답후보를 검출할 수 있다.
검출 모듈(1300)은 검색된 정답후보들 중에서 신뢰도가 높은 적어도 하나의 정답후보를 정답으로 검출한다.
상세하게는, 검출 모듈(1300)은 복수의 질의응답엔진으로부터 전달받은 정답후보들과 각 정답후보의 신뢰도 값을 이용하여 정답후보들 중에서 가장 신뢰도가 높은 정답후보를 정답으로 검출할 수 있다.
또는, 검색된 정답후보들 중에서 가장 많이 포함된 정답후보일수록 사용자 질문에 적합한 정답일 가능성이 크므로, 검출 모듈(1300)은 검색된 정답후보들 중에서 가장 많이 포함된 정답후보를 정답으로 선택할 수 있다. 검출 모듈(1300)이 정답후보들 중에서 정답을 선별하는 과정에 대해서는 도 3을 참조하여 후술하도록 한다.
제시 모듈(미도시)은 예컨대, 표시수단으로서 검출된 정답을 사용자에게 제공한다.
요컨대, 본 발명의 실시예는 "정답이 포함된 문장이나 문단과 동일한 문장구조와 어휘로 구성된 동일의미의 질문을 사용자의 질문으로부터 패러프레이징하여 만들 수 있다"라는 가정하에 콘텐츠에 대한 잉여성이 아니라 질문의 잉여성을 기반으로, 사용자의 질문을 다양한 문장구조 및 어휘들로 패러프레이징하고, 그 결과 생성된 변형질문들과 비슷한 문장구조 및 어휘로 구성된 콘텐츠에서 정답을 추출할 수 있다.
이러한 구성에 의해, 본 발명의 실시예는 빅데이터가 아닌 제한된 콘텐츠를 대상으로 자연어 질의응답을 해야 하는 환경에서 발생할 수 있는 재현율 저하의 문제를 해결할 수 있고, 다양한 동일의미의 질문을 고루 만족시키는 정답을 선정함으로써, 질의응답의 정확도를 높일 수 있다.
더불어, 본 발명의 실시예는 빅데이터에 해당하는 콘텐츠에 적용되면, 자연어 질의응답의 성능을 더욱 개선할 수 있다.
이하, 도 2를 참조하여 본 발명의 실시예에 따른 변환 모듈에 대하여 설명한다. 도 2는 본 발명의 실시예에 따른 변환 모듈을 도시한 구성도이다.
도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 변환 모듈(1100)은 분석부(1110), 제1 내지 제4 데이터베이스(1131~1134), 제1 변환부(1121), 제2 변환부(1122), 평가부(1140) 및 순위화부(1150)를 포함한다.
분석부(1110)는 사용자 질문에 대해 형태소 분석, 개체명 인식 및 구문분석 등과 같은 고정밀 자연어 분석을 수행하고, 그 결과, 형태소, 개체명 및 구문의 구조를 파악한다.
여기서, 형태소 분석은 의미의 기능을 부여하는 언어의 형태론적 수준의 최소단위를 파악하는 것일 수 있다. 즉, 분석부(1110)는 형태소 분석을 통해 사용자 질문에 포함된 형태소를 파악한다.
또한, 개체명 인식은 문장 등으로부터 회사이름, 사람이름, 지역명, 영화명 등 세상에 존재하는 실물에 대한 이름(개체명)을 자동으로 인식하는 것일 수 있다. 예를 들어, 분석부(1110)는 개체명 인식을 통해 파악된 형태소 중 "Apple"이라는 단어가 있을 때 과일이 아닌 회사 Apple을 지칭하는 것임을 자동으로 인식할 수 있다.
그리고, 구문분석은 인공어 또는 자연어 단위들 간의 관계를 좀 더 기본적인 작은 단위로 나누어 구문의 구조를 결정하고, 그 작은 단위들 간의 관계를 설정하는 것일 수 있다. 즉, 분석부(1110)는 구문분석을 통해 사용자 질문 내 형태소 등의 구문 구조와 그들 간의 관계를 확인할 수 있다.
그 결과, 분석부(1110)는 형태소, 개체명, 구문분석 결과와 사용자 질문을 제1 변환부(1121) 및 제2 변환부(1122)로 전달한다.
제1 데이터베이스(1131)는 이중언어 코퍼스(Corpus)로서, 단어-단어, 관용구-관용구 등과 같이 의미상 동일한 것으로 추정되는 한글 어휘(구)와 영어 어휘(구)의 쌍을 저장한다. 더불어, 제1 데이터베이스(1131)는 한글 어휘(구)와 영어 어휘(구)의 쌍의 사용빈도 및 통계정보 중 적어도 하나를 함께 저장한다.
여기서, 코퍼스란 말뭉치 또는 말모듬으로 불리며, 인간의 음성 언어나 텍스트를 대용량 컴퓨터에 저장하고, 이를 필요에 따라 가공하여 언어 연구에 사용하는 대규모 언어 데이터베이스로서, 빅데이터로부터 수집된 것일 수 있다. 본 발명의 코퍼스는 다양한 언어에 대한 데이터베이스일 수 있지만, 본 명세서에서는 한국어-영어 번역 코퍼스를 포함하는 이중 언어를 사용하는(Bi-Lingual) 코퍼스인 경우를 예로 들어 설명한다.
제1 변환부(1121)는 통계 기반의 모델로서, 제1 데이터베이스(1131) 내 코퍼스 상의 한국어휘 및 영어어휘의 쌍 데이터를 이용하여 사용자 질문 내 형태소 및 개체명에 대한 어휘단위의 패러프라이즈를 수행한다. 여기서, 제1 변환부(1121)는 어휘단위가 아니라, 사전화된 구를 기반으로 구 단위의 패러프라이즈를 수행할 수도 있음은 물론이다. 예를 들어, 제1 변환부(1121)는 사용자 질문 내 한국어의 어휘나 구를 그와 동일한 의미일 가능성이 큰 어휘나 구로 변환하는 패러프라이즈를 수행할 수 있다.
예를 들면, 제1 변환부(1121)는 사용자 질문 내 포함된 형태소나 개체명을 확인하고, 사용자 질문 내 형태소나 개체명이 한국어면, 영어로 변환한 후 통계적으로 그와 동일한 의미를 갖는 한국어들로 변환하는 어휘나 구 단위의 패러프라이즈를 수행할 수 있다. 또는, 제1 변환부(1121)는 사용자 질문 내 형태소나 개체명이 영어일 경우, 통계적으로 그와 동일 또는 유사한 의미를 갖는 한국어들과 변환하는 어휘나 구 단위의 패러프라이즈를 수행할 수 있다.
그리고, 제1 변환부(1121)는 제2 데이터베이스(1132) 내 언어 모델을 이용하여 패러프라이즈된 어휘에 다양한 조사나 접사를 붙여, 자연스러운 패러프라이즈 질문을 생성한다.
이를 위해, 제1 변환부(1121)는 본 발명의 수행 사전에, 코퍼스를 기반으로 통계적으로 동일 의미에 해당하는 어휘나 구를 사전화하고, 사전화된 어휘나 구를 기반으로 언어 모델을 학습하여 제2 데이터베이스(1132)에 저장한다. 바꿔말해, 제1 변환부(1121)는 코퍼스를 기반으로 명사나 어근 등에 붙을 적절한 조사나 어미가 무엇인지를 학습한 결과 생성된 언어 모델을 제2 데이터베이스(1132)에 저장할 수 있다.
제2 변환부(1122)는 규칙 기반 모델로서, 제3 데이터베이스(1133) 내 동의어 사전을 기반으로 사용자 질문 내 어휘나 구를 기설정된 규칙에 맞춰 동의어로 변환한다. 그리고, 제2 변환부(1122)는 제4 데이터베이스(1134) 내 구문규칙에 기반하여 어휘나 구가 변환된 사용자 질문의 구문 구조를 수동/능동과 같이 변경한다. 이때, 제2 변환부(1122)는 파악된 개체명을 참조하여 사용자 질문 내 어휘나 구의 동의어를 검색할 수 있다.
제2 변환부(1122)는 제2 데이터베이스(1132) 내 언어 모델을 이용하여 동의어 대치 및 구문구조 변경되어 생성된 질문들에 대해 조사 및 접사를 문법에 맞도록 정정하는 후처리를 수행하여 자연스러운 패러프라이즈 질문을 생성한다. 이를 위해, 제2 변환부(1122)는 사전에 코퍼스를 기반으로 명사나 어근 등에 붙을 적절한 조사나 어미가 무엇인지를 학습할 수 있다.
평가부(1140)는 제1 변환부(1121) 및 제2 변환부(1122)로부터 패러프라이즈 질문을 전달받아, 기설정된 검증을 통해 그 신뢰도 값을 계산한다.
상세하게는, 평가부(1140)는 수동 또는 자동으로 패러프라이즈 질문의 원 질문(사용자 질문)에 대비한 의미보존성, 문법보존성 및 표현대중성 등을 확인하여 신뢰도 값을 계산할 수 있다. 이하, 평가부(1140)가 의미보전성, 문법보존성 및 표현대중성을 확인하는 것에 대해 설명한다.
먼저, 의미보존성은 패러프라이즈 질문이 원 질문의 의미를 얼마나 보존하고 있는지 여부일 수 있다. 이에, 평가부(1140)는 의미보존성에 대한 자동 평가를 수행할 경우, 원 질문 내 어휘들 간의 의미적 관계와 패러프라이즈 질문 내의 어휘들 간의 의미적 관계에 대한 유사도를 측정함에 따라, 패러프라이즈 질문의 의미보존성을 확인할 수 있다.
상세하게는, 평가부(1140)는 원 질문과 패러프라이즈 질문 간 대응되는 두 어휘의 의미적 연관성을 통계적으로 처리하거나, 워드넷과 같은 어휘자원을 이용하여 두 어휘가 의미상 상하관계인지, 동의/유의관계인지 등을 확인할 수 있다. 그리고, 평가부(1140)는 의미상 유사성을 수치화함에 따라 의미보존성을 수치화한 제1 값을 산출할 수 있다.
다음으로, 문법보존성은 생성된 문장이 문법적으로 얼마나 정확하고 자연스러운지 여부일 수 있다. 이에, 평가부(1140)는 패러프라이즈 질문의 구문적 제한이나 선호조건이 격틀정보와 얼마나 일치하는지를 측정하여 패러프라이즈 질문의 문법보존성을 확인할 수 있다.
여기서, 격틀정보는 특정 용언에 대해 주격, 목적격, 부사격 등이 어떤 의미를 가진 어휘가 올 수 있다고 정의한 것일 수 있다. 또한, 구문적 제한이나 선호조건은 다음과 같다. 예를 들면, 격틀은 생성된 문장 내 동사인 '먹다'의 목적격은 '음식'이고, 주격은 '동물'일 수 있음을 나타내는 것이다. 그런데, 목적격의 '음식'이라는 의미범주 중에서 '먹다'가 선호하는 것은 '액체가 아닌 먹거리'를 선호한다. 왜냐하면 '액체 종류의 먹거리'는 '먹다'보다는 '마시다'를 선호하기 때문이다. 이것이 바로 선호조건이라고 할 수 있다. 또한, '먹다'의 주격으로 '동물'의 의미범주가 와야 하는데, '동물'이 아닌 돌이나 금속과 같은 '물체'가 오면 의미상 틀리므로, 이 같은 조건을 제한조건이라고 한다.
평가부(1140)는 확인결과, 패러프라이즈 질문의 문법보존성을 수치화한 제2값을 산출할 수 있다.
마지막으로, 표현대중성(Popularity)은 패러프라이즈 질문 내 어휘들이 일반 사용자이나, 콘텐츠에 의해 얼마나 많이 사용되는지 여부일 수 있다. 이에, 평가부(1140)는 제1 데이터베이스(1131) 내 코퍼스로부터 각 어휘나 구의 사용빈도 및 통계정보 중 적어도 하나를 확인하여 표현대중성을 수치화한 제3값을 산출할 수 있다.
평가부(1140)는 패러프라이즈 질문의 의미보존성의 제1값, 문법보존성의 제2값 및 표현대중성의 제3값을 종합하여 패러프라이즈 질문의 신뢰도 값을 계산하고, 패러프라이즈 질문과 신뢰도 값을 함께 출력할 수 있다.
더불어, 평가부(1140)는 각 어휘에 어떤 조사나 어미가 붙을 때에 대한 언어모델에 제공하는 가중치 값을 함께 고려하여 신뢰도 값을 계산할 수 있다. 예를 들어, 특정어휘에 대한 어미로 'A'가 붙을 가능성이 0.7이라면, 이와 같은 값들을 모두 고려할 수 있다. 여기서, 원 질문(사용자 질문)의 신뢰도는 1이고, 각 변형질문의 신뢰도는 0 이상 내지 1 미만의 값일 수 있다.
순위화부(1150)는 평가부(1140)로부터 복수의 패러프라이즈 질문과 그 신뢰도 값을 전달받아, 신뢰도 값을 기반으로 복수의 패러프라이즈 질문을 순위화한다. 그리고, 순위화부(1150)는 신뢰도 값이 큰 순으로 기설정된 N개의 패러프라이즈 질문을 정답 검색에 사용될 N개의 변형질문으로 선택하여 출력한다.
한편, 전술한 예에서는 변환 모듈(1100)이 4개의 데이터베이스를 포함하는 경우를 예로 들어 설명하였다. 하지만, 변환 모듈(1100)은 섹션이 나눠진 하나의 데이터베이스에 코퍼스, 언어 모델, 동의어 사전, 구문 규칙 등이 모두 포함될 수도 있음은 물론이다. 또한, 변환 모듈(1100)은 그 구현 형태에 따라 2, 3개 또는 5개 이상의 데이터베이스를 구비할 수도 있다.
또한, 전술한 예에서는 변환 모듈(1100)이 패러프라이즈를 수행하는 제1 및 제2 변환부(1121, 1122)를 포함하는 경우를 예로 들어 설명하였지만, 변환 모듈(1100)은 하나 또는 세 개 이상의 변환부를 포함할 수도 있음은 물론이다. 예를 들어, 제2 변환부(1122)는 사용자 질문 내 어휘를 동의어로 대체하는 제3 변환부와 패러프라이즈 질문의 구문 구조를 변경하는 제4 변환부로 구성될 수도 있다.
또는, 전술한 예에서 제1 변환부(1121) 및 제2 변환부(1122)에서 조사나 접사를 변형하는 기능을 하는 구성요소는 제1 및 제2 변환부(1121, 1122)와 별개의 하나 이상의 구성요소일 수도 있다.
이와 같이, 본 발명의 실시예는 기존 자연어 질의응답의 데이터 잉여성을 패러프레이징에 반영하여, 사용자의 질문을 동일한 의미의 다양한 질문들로 패러프레이즈하고, 패러프라이즈된 질문들을 분산된 질의응답엔진의 입력으로 던져서 추출되는 정답후보를 통합하여 제시할 수 있다.
이 같이, 본 발명의 실시예는 콘텐츠에 대한 잉여성이 아닌, 질문의 잉여성을 기반으로 패러프라이즈를 수행하기 때문에, 제한된 콘텐츠를 대상으로 하는 자연어 질의응답에서 재현율과 정확도를 향상시킬 수 있다.
더 나아가, 본 발명의 실시예는 빅데이터에 해당하는 콘텐츠에 적용되어, 자연어 질의응답의 성능을 더욱 개선할 수 있을 것으로 기대된다.
이하, 도 3을 참조하여 본 발명의 실시예에 따른 사용자 질문에 대한 정답 검출 과정에 대해서 설명한다. 도 3은 본 발명의 실시예에 따른 사용자 질문에 대한 정답 검출 과정을 도시한 도면이다.
도 3에서는 사용자 질문이 "안두희에 의해 암살된 대한민국 임시정부 주석은 누구일까요?"일 경우, 변환 모듈(1100)은 예컨대 아래와 같은 변형질문 1과 2를 생성할 수 있다.
변형질문 1: "안두희 총격에 사망한 대한민국 임시정보 주석은?"
변형질문 2: "안두희가 저격하여 서거하신 대한민국 임시정부 주석은?"
그러면, 각 질의응답엔진이 사용자 질문, 변형질문 1 및 변형질문 2를 각기 입력받아, 도 3과 같이 각 질문에 대한 정답후보 리스트를 검색하고, 각 정답후보에 대한 신뢰도를 산출한다. 이때, 각 정답후보에 대한 신뢰도는 해당 정답후보가 검색된 데이터베이스의 신뢰도 등에 의해 확인될 수 있다.
도 3의 정답후보 리스트와 같이, 원 질문의 정답후보로 '김구', '이승만', '여운형'이 제시되었고, 변형질문 1의 정답후보로 '이승만', '김구', '김규식'이 제시되었고, 변형질문 2의 정답후보로는 '김구', '김학규', '이승만'이 제시되었다.
검출 모듈(1300)은 하기의 수학식 1과 같이 각 질문(사용자 질문 및 변형질문)의 신뢰도 값과 각 질문에 대한 정답으로 검색된 정답후보의 신뢰도 값을 곱한 값의 평균을 이용하여 각 정답후보의 통합신뢰도를 산출할 수 있다.
Figure 112014111691110-pat00001
여기서, N은 변형질문의 총 개수일 수 있다.
즉, 검출 모듈(1300)은 각 질의응답엔진으로부터 제공받은 정답후보 중에서 중복되는 것이 있을 수 있으므로, 상기 수학식 1을 통해 중복되는 정답후보의 신뢰도 값을 종합한 통합 신뢰도 값을 산출한다.
도 3의 오른쪽 "정답통합" 블록과 같이, 검출 모듈(1300)의 통합신뢰도 확인 결과, 각 정답후보 중에서 '김구'가 0.678로 가장 신뢰도가 높음을 알 수 있다.
결국, 검출 모듈(1300)은 사용자의 질문 "안두희에 의해 암살된 대한민국 임시정부 주석은 누구인가요?"의 정답으로 '김구'를 검출하고, 제시 모듈(미도시)은 '김구'를 사용자에게 출력할 수 있다.
이 같은, 본 발명의 실시예는 자연어 질의응답의 원천기반 기술로 활용되어, 자연어를 인터페이스로 하는 예컨대, 지능형 콜센터 QA, 텍스트 빅데이터 QA, 헬스케어 QA, 지능 로봇, 스마트 단말 QA 등과 같은 다양한 서비스 분야에서 활용될 수 있다.
또한, 본 발명의 실시예는 음성인식 기술과 융합되어, 앞에서 언급한 다양한 분야의 모바일 인터페이스로 사용자의 자연어 질문을 이해하고, 분석하여 원하는 정보를 제공할 수 있으므로, 한층 더 지능형 모바일 시장에 크게 기여할 수 있다.
이하, 도 4를 참조하여 본 발명의 실시예에 따른 자연어 질의응답 방법에 대해서 설명한다. 도 4는 본 발명의 실시예에 따른 자연어 질의응답 방법을 도시한 흐름도이다.
도 4를 참조하면, 자연어 질의응답 시스템(10)은 사용자 질문을 패러프라이즈(Paraphrase)하여 복수의 변형질문을 생성한다(S410).
상세하게는, 자연어 질의응답 시스템(10)은 사용자 질문 내 어휘나 구를 다른 언어로 대체하고, 사용자 질문 내 어휘를 동의어로 대체한 후 구문 구조를 변환하는 것 중 적어도 하나를 수행하여 사용자 질문을 패러프라이즈할 수 있다.
또한, 자연어 질의응답 시스템(10)은 사용자 질문을 패러프라이즈한 복수의 패러프라이즈 질문에 대해 의미보존성, 문법보존성 및 표현대중성 중 적어도 하나를 확인하여 상기 복수의 패러프라이즈 질문의 신뢰도 값을 계산하고, 계산된 신뢰도 값이 큰 순으로 복수의 패러프라이즈 질문 중에서 N개의 변형질문을 선택하여 출력할 수 있다.
자연어 질의응답 시스템(10)은 복수의 질의응답엔진에 의해 사용자 질문 및 각 변형질문을 각기 입력받아, 그에 대응하는 정답후보를 각기 선별한다(S420).
자연어 질의응답 시스템(10)은 검색된 정답후보들 중에서 적어도 하나의 정답후보를 정답으로 검출한다(S430). 자연어 질의응답 시스템(10)은 복수의 질의응답엔진으로부터 전달받은 상기 정답후보들과 상기 각 정답후보의 신뢰도 값을 확인하고, 정답후보들 중에서 중복되는 정답후보를 통합하는 통합 신뢰도 값을 산출하고, 통합 신뢰도 값이 가장 높은 정답후보를 정답으로 검출할 수 있다.
이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.

Claims (20)

  1. 사용자 질문을 패러프라이즈(Paraphrase)하여 복수의 변형질문을 생성하는 변환 모듈;
    상기 사용자 질문 및 상기 각 변형질문을 각기 입력받아, 그에 대응하는 정답후보들 각기 선별하는 복수의 질의응답엔진; 및
    상기 사용자 질문의 신뢰도, 상기 각 변형질문의 신뢰도 및 상기 정답후보들 각각의 신뢰도를 모두 이용하여, 검색된 상기 정답후보들 중에서 적어도 하나의 정답후보를 정답으로 검출하는 검출 모듈
    을 포함하는 자연어 질의응답 시스템.
  2. 제1항에 있어서, 상기 변환 모듈은,
    상기 사용자 질문에 대해 형태소 분석, 개체명 인식 및 구문 분석 중 적어도 하나를 수행하는 분석부를 포함하고,
    상기 분석부의 분석 결과를 이용하여 상기 사용자 질문을 패러프라이즈하는 것인 자연어 질의응답 시스템.
  3. 제1항에 있어서, 상기 변환 모듈은,
    상기 사용자 질문 내 어휘나 구를 다른 언어로 대체, 상기 사용자 질문의 구문 구조를 변환 및 상기 사용자 질문 내 어휘나 구를 동의어로 대체 중 적어도 하나를 수행하여 상기 복수의 변형질문을 생성하는 것인 자연어 질의응답 시스템.
  4. 제1항에 있어서, 상기 변환 모듈은,
    코퍼스(Corpus)와 언어 모델 기반으로 상기 사용자 질문 내 어휘나 구에 대한 이중 언어의 어휘나 구의 쌍을 확인하고, 확인된 상기 이중 언어의 어휘나 구의 쌍을 이용하여 상기 사용자 질문에 대한 어휘나 구 단위의 패러프라이즈를 수행하는 제1 변환부
    를 포함하는 자연어 질의응답 시스템.
  5. 제1항에 있어서, 상기 변환 모듈은,
    동의어 사전을 기반으로 상기 사용자 질문 내 형태소 및 개체명 중 적어도 하나를 동의어로 대체한 후 구문 구조를 변경하는 패러프라이즈를 수행하는 제2 변환부
    를 포함하는 것인 자연어 질의응답 시스템.
  6. 제1항에 있어서, 상기 변환 모듈은,
    기학습된 언어 모델을 기반으로 상기 사용자 질문 내 어휘나 구를 패러프라이즈한 후 문법적으로 알맞은 조사 및 접사를 결정하여 문법에 부합하는 상기 복수의 변형질문을 생성하는 것인 자연어 질의응답 시스템.
  7. 제1항에 있어서, 상기 변환 모듈은,
    상기 사용자 질문을 패러프라이즈한 복수의 패러프라이즈 질문에 대해 의미보존성, 문법보존성 및 표현대중성 중 적어도 하나를 확인하여 상기 복수의 패러프라이즈 질문의 신뢰도 값을 계산하는 평가부; 및
    상기 신뢰도 값이 큰 순으로 상기 복수의 패러프라이즈 질문 중에서 N개의 변형질문을 선택하여 출력하는 순위화부
    를 포함하는 것인 자연어 질의응답 시스템.
  8. 제7항에 있어서, 상기 변환 모듈은,
    기학습된 언어 모델로부터 상기 복수의 패러프라이즈 질문 내 어휘나 구에 특정 조사나 접사가 붙을 가능성에 대한 가중치 값을 고려하여 상기 복수의 패러프라이즈 질문의 신뢰도 값을 계산하는 것인 자연어 질의응답 시스템.
  9. 제1항에 있어서, 상기 각 질의응답엔진은,
    상기 각 정답후보에 대한 신뢰도 값을 계산하고, 상기 각 정답후보 중에서 상기 신뢰도 값이 큰 순으로 K개의 정답후보 리스트를 상기 검출 모듈에 제공하는 것인 자연어 질의응답 시스템.
  10. 제1항에 있어서, 상기 검출 모듈은,
    상기 복수의 질의응답엔진으로부터 전달받은 상기 정답후보들과 상기 각 정답후보의 신뢰도 값을 통합하여 상기 정답후보들 중에서 가장 신뢰도 값이 큰 정답후보를 상기 정답으로 검출하는 것인 자연어 질의응답 시스템.
  11. 사용자 질문을 분석하는 분석부; 및
    상기 사용자 질문 내 어휘나 구를 다른 언어의 어휘나 구로 대체, 상기 사용자 질문의 구문 구조를 변환 상기 사용자 질문 내 어휘를 동의어로 대체 중 적어도 하나를 수행하여 상기 사용자 질문이 패러프라이즈(Paraphrase)된 복수의 변형질문을 생성하는 변환부를 포함하고,
    상기 사용자 질문 및 상기 복수의 변형질문은 질의응답엔진에 제공되는 것이고,
    상기 복수의 변형질문은 상기 사용자 질문을 패러프라이즈한 복수의 패러프라이즈 질문 중에서 신뢰도 값이 큰 순으로 선택된 N개의 변형질문을 포함하고, 상기 복수의 패러프라이즈 질문 내 어휘나 구에 특정 조사나 접사가 붙을 가능성에 대한 가중치 값을 고려하여 계산된 신뢰도값을 갖는 것
    인 패러프라이즈 모듈.
  12. 제11항에 있어서, 상기 분석부는,
    상기 사용자 질문으로부터 형태소 인식, 개체명 인식 및 구문 구조 분석 중 적어도 하나를 수행하는 것인 패러프라이즈 모듈.
  13. 제11항에 있어서, 상기 변환부는,
    이중 언어의 어휘나 구 쌍을 포함하는 코퍼스(Corpus) 기반으로 상기 사용자 질문 내 어휘나 구를 그와 동일한 의미를 갖는 어휘나 구로 대체하는 제1 변환부를 포함하는 것인 패러프라이즈 모듈.
  14. 제11항에 있어서, 상기 변환부는,
    동의어 사전으로 상기 사용자 질문 내 형태소를 기확인된 개체명 기반으로 동의어로 변환하고, 상기 동의어에 대한 변환이 이루어진 상기 사용자 질문에 대한 구문 구조를 변경하는 제2 변환부를 포함하는 것인 패러프라이즈 모듈.
  15. 제11항에 있어서,
    상기 사용자 질문을 패러프라이즈한 복수의 패러프라이즈 질문에 대해 의미보존성, 문법보존성 및 표현대중성 중 적어도 하나를 확인하여 상기 복수의 패러프라이즈 질문의 신뢰도 값을 계산하는 평가부; 및
    상기 신뢰도 값이 큰 순으로 상기 복수의 패러프라이즈 질문 중에서 N개의 변형질문을 선택하여 출력하는 순위화부
    를 더 포함하는 패러프라이즈 모듈.
  16. 제15항에 있어서, 상기 평가부는,
    기학습된 언어 모델로부터 상기 복수의 패러프라이즈 질문 내 어휘나 구에 특정 조사나 접사가 붙을 가능성에 대한 가중치 값을 고려하여 상기 복수의 패러프라이즈 질문의 신뢰도 값을 계산하는 것인 패러프라이즈 모듈.
  17. 자연어 질의응답 시스템에 의한 자연어 질의응답 방법으로서,
    사용자 질문을 패러프라이즈(Paraphrase)하여 복수의 변형질문을 생성하는 단계;
    복수의 질의응답엔진에 의해 상기 사용자 질문 및 상기 각 변형질문을 각기 입력받아, 그에 대응하는 정답후보들을 각기 선별하는 단계; 및
    상기 사용자 질문의 신뢰도, 상기 각 변형질문의 신뢰도 및 상기 정답후모들 각각의 신뢰도를 모두 이용하여, 검색된 상기 정답후보들 중에서 적어도 하나의 정답후보를 정답으로 검출하는 단계
    를 포함하는 자연어 질의응답 방법.
  18. 제17항에 있어서, 상기 복수의 변형질문을 생성하는 단계는,
    상기 사용자 질문 내 어휘나 구를 다른 언어로 대체하는 단계; 및
    상기 사용자 질문 내 어휘를 동의어로 대체한 후 구문 구조를 변환하는 단계;
    중 적어도 하나를 포함하는 것인 자연어 질의응답 방법.
  19. 제17항에 있어서, 상기 복수의 변형질문을 생성하는 단계는,
    상기 사용자 질문을 패러프라이즈한 복수의 패러프라이즈 질문에 대해 의미보존성, 문법보존성 및 표현대중성 중 적어도 하나를 확인하여 상기 복수의 패러프라이즈 질문의 신뢰도 값을 계산하는 단계; 및
    상기 신뢰도 값이 큰 순으로 상기 복수의 패러프라이즈 질문 중에서 N개의 변형질문을 선택하여 출력하는 단계
    를 포함하는 것인 자연어 질의응답 방법.
  20. 제17항에 있어서, 상기 검출하는 단계는,
    상기 복수의 질의응답엔진으로부터 전달받은 상기 정답후보들과 상기 각 정답후보의 신뢰도 값을 확인하는 단계;
    상기 정답후보들 중에서 중복되는 정답후보를 통합하여 상기 각 정답후보에 대한 통합 신뢰도 값을 산출하는 단계; 및
    상기 통합 신뢰도 값이 가장 큰 정답후보를 상기 정답으로 검출하는 단계
    를 포함하는 것인 자연어 질의응답 방법.
KR1020140161859A 2014-11-19 2014-11-19 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈 KR102033435B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140161859A KR102033435B1 (ko) 2014-11-19 2014-11-19 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈
US14/945,921 US9613025B2 (en) 2014-11-19 2015-11-19 Natural language question answering system and method, and paraphrase module

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140161859A KR102033435B1 (ko) 2014-11-19 2014-11-19 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈

Publications (2)

Publication Number Publication Date
KR20160060247A KR20160060247A (ko) 2016-05-30
KR102033435B1 true KR102033435B1 (ko) 2019-11-11

Family

ID=55962255

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140161859A KR102033435B1 (ko) 2014-11-19 2014-11-19 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈

Country Status (2)

Country Link
US (1) US9613025B2 (ko)
KR (1) KR102033435B1 (ko)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9400956B2 (en) * 2014-11-05 2016-07-26 International Business Machines Corporation Answer interactions in a question-answering environment
KR102033435B1 (ko) * 2014-11-19 2019-11-11 한국전자통신연구원 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈
US11301632B2 (en) * 2015-01-23 2022-04-12 Conversica, Inc. Systems and methods for natural language processing and classification
CN108140019B (zh) * 2015-10-09 2021-05-11 三菱电机株式会社 语言模型生成装置、语言模型生成方法以及记录介质
US10380154B2 (en) * 2015-10-17 2019-08-13 International Business Machines Corporation Information retrieval using structured resources for paraphrase resolution
US10373060B2 (en) * 2015-10-17 2019-08-06 International Business Machines Corporation Answer scoring by using structured resources to generate paraphrases
EP3380950A1 (en) * 2015-11-25 2018-10-03 Koninklijke Philips N.V. Reader-driven paraphrasing of electronic clinical free text
US9984063B2 (en) 2016-09-15 2018-05-29 International Business Machines Corporation System and method for automatic, unsupervised paraphrase generation using a novel framework that learns syntactic construct while retaining semantic meaning
US9953027B2 (en) * 2016-09-15 2018-04-24 International Business Machines Corporation System and method for automatic, unsupervised paraphrase generation using a novel framework that learns syntactic construct while retaining semantic meaning
KR102589638B1 (ko) 2016-10-31 2023-10-16 삼성전자주식회사 문장 생성 장치 및 방법
TWI647638B (zh) * 2016-11-15 2019-01-11 財團法人工業技術研究院 互動式推薦系統與方法
US10275514B2 (en) * 2016-11-22 2019-04-30 International Business Machines Corporation System and method for generating improved search queries from natural language questions
US10540440B2 (en) 2017-06-05 2020-01-21 International Business Machines Corporation Relation extraction using Q and A
CN107609101B (zh) * 2017-09-11 2020-10-27 远光软件股份有限公司 智能交互方法、设备及存储介质
CN108509477B (zh) * 2017-09-30 2019-10-11 平安科技(深圳)有限公司 语义识别方法、电子装置及计算机可读存储介质
US10572596B2 (en) 2017-11-14 2020-02-25 International Business Machines Corporation Real-time on-demand auction based content clarification
KR102033175B1 (ko) * 2017-11-15 2019-10-16 (주)페르소나시스템 머신 러닝 기반의 챗봇용 데이터 추가 장치
KR102102388B1 (ko) * 2017-11-20 2020-04-21 주식회사 마인즈랩 학습 문장 생성 시스템 및 이를 이용한 유사 문장 생성 방법
US20190163756A1 (en) * 2017-11-29 2019-05-30 International Business Machines Corporation Hierarchical question answering system
US10387576B2 (en) * 2017-11-30 2019-08-20 International Business Machines Corporation Document preparation with argumentation support from a deep question answering system
KR102034647B1 (ko) * 2017-12-22 2019-10-22 주식회사 솔트룩스 복수의 질의 응답 모듈을 가지는 자동 질의 응답 시스템
KR102441422B1 (ko) * 2018-01-11 2022-09-07 한국전자통신연구원 개인 정보 보호가 가능한 개인화된 질의응답 시스템, 클라우드 서버 및 이의 공통 신경망 모델 제공 방법
KR20190101630A (ko) * 2018-02-23 2019-09-02 삼성전자주식회사 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
US11544605B2 (en) 2018-03-07 2023-01-03 International Business Machines Corporation Unit conversion in a synonym-sensitive framework for question answering
US11036926B2 (en) * 2018-05-21 2021-06-15 Samsung Electronics Co., Ltd. Generating annotated natural language phrases
KR102133825B1 (ko) 2018-06-22 2020-07-16 서강대학교 산학협력단 단어자질을 강화한 음성 대화 방법 및 시스템
JP7169125B2 (ja) * 2018-08-29 2022-11-10 株式会社日立製作所 質問回答システム、質問回答処理方法、及び質問回答統合システム
US10803242B2 (en) 2018-10-26 2020-10-13 International Business Machines Corporation Correction of misspellings in QA system
US11928985B2 (en) 2018-10-30 2024-03-12 International Business Machines Corporation Content pre-personalization using biometric data
KR102143157B1 (ko) * 2018-11-26 2020-08-11 주식회사 솔트룩스 온톨로지 기반 패러프레이즈 문장 생성을 위한 시스템 및 방법
US10586532B1 (en) * 2019-01-28 2020-03-10 Babylon Partners Limited Flexible-response dialogue system through analysis of semantic textual similarity
US11238027B2 (en) * 2019-03-22 2022-02-01 International Business Machines Corporation Dynamic document reliability formulation
US11586973B2 (en) 2019-03-22 2023-02-21 International Business Machines Corporation Dynamic source reliability formulation
US12001422B2 (en) 2019-03-28 2024-06-04 International Business Machines Corporation Accuracy of QA systems by normalizing logical queries
US11842729B1 (en) * 2019-05-08 2023-12-12 Apple Inc. Method and device for presenting a CGR environment based on audio data and lyric data
CN110543555A (zh) * 2019-08-15 2019-12-06 阿里巴巴集团控股有限公司 一种用于智能客服中的标问召回方法和装置
JP7316165B2 (ja) * 2019-09-20 2023-07-27 株式会社日立製作所 情報処理方法および情報処理装置
KR102129704B1 (ko) * 2019-11-01 2020-07-02 주식회사 보인정보기술 문항 자동 생성 방법 및 시스템
US11531818B2 (en) * 2019-11-15 2022-12-20 42 Maru Inc. Device and method for machine reading comprehension question and answer
US20230069935A1 (en) * 2019-11-20 2023-03-09 Korea Advanced Institute Of Science And Technology Dialog system answering method based on sentence paraphrase recognition
EP3828781A1 (en) * 2019-11-28 2021-06-02 42 Maru Inc. Method and apparatus for generating question and answer dataset based on input paragraph
CN112667796B (zh) * 2021-01-05 2023-08-11 网易(杭州)网络有限公司 一种对话回复方法、装置、电子设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100145694A1 (en) * 2008-12-05 2010-06-10 Microsoft Corporation Replying to text messages via automated voice search techniques
US20100145673A1 (en) * 2008-12-09 2010-06-10 Xerox Corporation Cross language tool for question answering
US8447589B2 (en) 2006-12-22 2013-05-21 Nec Corporation Text paraphrasing method and program, conversion rule computing method and program, and text paraphrasing system

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030006201A (ko) * 2001-07-12 2003-01-23 서정연 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템
KR100546743B1 (ko) * 2003-10-02 2006-01-26 한국전자통신연구원 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템
US7937265B1 (en) * 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
US20080040339A1 (en) 2006-08-07 2008-02-14 Microsoft Corporation Learning question paraphrases from log data
KR101173556B1 (ko) 2008-12-11 2012-08-13 한국전자통신연구원 토픽맵 기반 색인 장치, 토픽맵 기반 검색 장치, 토픽맵 기반 검색 시스템 및 그 방법
KR101173561B1 (ko) 2010-10-25 2012-08-13 한국전자통신연구원 질문 형태 및 도메인 인식 장치 및 그 방법
US20120178057A1 (en) * 2011-01-10 2012-07-12 Duanhe Yang Electronic English Vocabulary Size Evaluation System for Chinese EFL Learners
KR101859198B1 (ko) * 2011-05-31 2018-05-21 에스케이플래닛 주식회사 집단지성 서비스 시스템 및 그 방법
KR20130116128A (ko) 2012-04-14 2013-10-23 윤재민 티티에스를 이용한 음성인식 질의응답 시스템 및 그것의 운영방법
KR102033435B1 (ko) * 2014-11-19 2019-11-11 한국전자통신연구원 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447589B2 (en) 2006-12-22 2013-05-21 Nec Corporation Text paraphrasing method and program, conversion rule computing method and program, and text paraphrasing system
US20100145694A1 (en) * 2008-12-05 2010-06-10 Microsoft Corporation Replying to text messages via automated voice search techniques
US20100145673A1 (en) * 2008-12-09 2010-06-10 Xerox Corporation Cross language tool for question answering

Also Published As

Publication number Publication date
US20160140958A1 (en) 2016-05-19
US9613025B2 (en) 2017-04-04
KR20160060247A (ko) 2016-05-30

Similar Documents

Publication Publication Date Title
KR102033435B1 (ko) 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈
CN106649786B (zh) 基于深度问答的答案检索方法及装置
US9959776B1 (en) System and method for automated scoring of texual responses to picture-based items
US9471559B2 (en) Deep analysis of natural language questions for question answering system
US9575955B2 (en) Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
JP5825676B2 (ja) ノン・ファクトイド型質問応答システム及びコンピュータプログラム
US10503828B2 (en) System and method for answering natural language question
US9020805B2 (en) Context-based disambiguation of acronyms and abbreviations
US20160155058A1 (en) Non-factoid question-answering system and method
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
CN109460552B (zh) 基于规则和语料库的汉语语病自动检测方法及设备
US9141601B2 (en) Learning device, determination device, learning method, determination method, and computer program product
KR101500617B1 (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
CN109783806B (zh) 一种利用语义解析结构的文本匹配方法
KR20130045547A (ko) 작문 자동 평가를 위한 예제기반 오류 검출 시스템 및 방법
Khader et al. Textual entailment for Arabic language based on lexical and semantic matching
Garrido et al. GEO-NASS: A semantic tagging experience from geographical data on the media
CN117251527A (zh) 医学循证方法、***、电子设备及存储介质
KR101757222B1 (ko) 한글 문장에 대한 의역 문장 생성 방법
Bhaskar et al. A hybrid question answering system for Multiple Choice Question (MCQ)
KR20100072730A (ko) 상호 정보를 이용한 형태소 품사 태깅 장치 및 방법
Sprugnoli et al. Crowdsourcing for the identification of event nominals: an experiment
Şahin et al. ANALYSIS OF LEXICO-SYNTACTIC PATTERNS FOR ANTONYM PAIR EXTRACTION FROM ATurkish CORPUS
Samanta et al. Carbon to Diamond: An Incident Remediation Assistant System From Site Reliability Engineers’ Conversations in Hybrid Cloud Operations
KR102010344B1 (ko) 지문 및 문제 해설 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right