KR20140128346A - 논팩토이드형 질의 응답 시스템 및 컴퓨터 프로그램 - Google Patents

논팩토이드형 질의 응답 시스템 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20140128346A
KR20140128346A KR1020147023478A KR20147023478A KR20140128346A KR 20140128346 A KR20140128346 A KR 20140128346A KR 1020147023478 A KR1020147023478 A KR 1020147023478A KR 20147023478 A KR20147023478 A KR 20147023478A KR 20140128346 A KR20140128346 A KR 20140128346A
Authority
KR
South Korea
Prior art keywords
answer
question
evaluation
candidate
qualities
Prior art date
Application number
KR1020147023478A
Other languages
English (en)
Other versions
KR101968102B1 (ko
Inventor
오종훈
켄타로 토리사와
치카라 하시모토
타쿠야 카와다
사에거 스테인 드
준이치 카자마
이어우 왕
Original Assignee
도쿠리츠 교세이 호진 죠호 츠신 켄큐 키코
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 도쿠리츠 교세이 호진 죠호 츠신 켄큐 키코 filed Critical 도쿠리츠 교세이 호진 죠호 츠신 켄큐 키코
Publication of KR20140128346A publication Critical patent/KR20140128346A/ko
Application granted granted Critical
Publication of KR101968102B1 publication Critical patent/KR101968102B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

논팩토이드형의 질의 응답 시스템에 있어서, 정확도를 보다 높이는 것이 가능한 질의 응답 시스템을 제공하기 위해서 질의 응답 시스템(160)은 질문에 응답해서 말뭉치 기억부(178)로부터 회답 후보를 추출하는 후보문 검색부(222)와, 질문과 회답 후보 각각의 조합에 대해서 자질을 생성하는 자질 벡터 생성부(232)와, 자질 벡터가 주어지면 원인이 된 질문 및 회답 후보의 조합에 대하여 옳은 조합인 정도를 나타내는 스코어를 산출하도록 학습한 SVM(176)과, 산출된 스코어가 가장 높은 회답 후보를 회답으로서 출력하는 회답문 랭킹부(234)를 포함하도록 한다. 자질은 질문에 대한 형태소 해석 및 구문 해석의 결과와, 질문 중 포지티브 또는 네거티브의 평가가 되는 구 및 그 극성과, 자질 내의 명사의 의미 클래스에 의거하여 생성된다.

Description

논팩토이드형 질의 응답 시스템 및 컴퓨터 프로그램{NON-FACTOID QUESTION ANSWERING SYSTEM AND COMPUTER PROGRAM}
본 발명은 질의 응답 시스템에 관한 것으로서, 특히 어떤 것의 이유 또는 방법 등을 묻는, 소위 WHY형, HOW형 질문 등의, 논팩토이드 질문이라고 불리는 질문에 대한 응답 시스템에 관한 것이다.
어떠한 사실에 대한 질의 응답(QA)에 관한 연구는 최근에 큰 진보를 이루고 있다. 예를 들면 미국의 퀴즈 프로그램에서 이러한 종류의 시스템이 인간에 승리한 것은 기억에 새롭다. 그 정확도는 사실에 관한 질문에 대해서는 85%정도라고 한다. 이러한 사실에 관한 질의 응답 시스템 이외의 영역에서도, 동일하게 정확도가 높은 질의 응답 시스템에 대한 연구에 대해서도 그 필요성이 인정받기 시작하고 있다. 그러나, 사실에 관한 것이 아닌 질문, 예를 들면 「왜」 또는 「어떻게」에 관한 질문에 대해서는 아직 많은 연구가 진행되어 있지 않은 것이 실정이다.
그러한 시스템의 예로서, 후술의 비특허문헌 1에 기재된 시스템이 있다. 이 시스템에서는 질문과 말뭉치(corpus) 내의 각 문장에 대하여 형태소 해석을 행하고, 형태소 해석의 결과로부터 얻어진 단어의 문서 빈도, 각 문장 중의 단어 빈도, 문서 총수, 문서의 길이 등을 이용하여 질문과의 연관성을 나타내는 문서의 스코어를 산출한 뒤, 스코어가 높은 소정 개수의 문서를 말뭉치로부터 선택한다. 마지막으로 선택된 문서 중에 포함되는 단락, 및 1∼3개의 연속하는 단락를 회답 후보로 하여 주로 질문 중의 단어와 회답 후보에 포함되는 단어 사이에서 산출되는 스코어에 의해 질문에 대한 회답을 선택한다.
그러나, 후술하는 바와 같이 이 시스템에서는 충분한 성능이 얻어지지 않는 것을 알 수 있었다. 그래서, 이 시스템을 더욱 개량한 시스템으로서, 후술의 비특허문헌 2에 기재된 바와 같은 시스템을 생각할 수 있다. 이 시스템은, 예를 들면 비특허문헌 1에 기재된 기술에 의해 몇개의 회답 후보를 선택한 후, 또한 각 회답 후보를 소정의 스코어에 의해 리랭킹한다고 하는 것이다.
이하, 이 시스템을 실현할 경우의 실현예로서 전형적이라고 생각되는 것에 대해서, 비특허문헌 2의 기재에 의거하여 설명한다. 또한, 사실에 관한 것이 아닌 것에 관한 질문을, 이하, 「논팩토이드형의 질문」이라고 부른다.
도 1을 참조하여, 이 질의 응답 시스템(30)은 예를 들면 인터넷 상에서 검색 가능한 대단히 다수의 문장(여기에서는 일본어에 한정해서 생각한다.)으로 이루어지는 말뭉치를 말뭉치 기억부(48)에 기억하고 있고, 텍스트 통신이 가능한 휴대전화 등의 서비스 이용단말(44)로부터 송신되는 논팩토이드형의 질문을 받고, 회답 처리부(40)가 그 회답으로서의 확률이 높은 몇개의 회답문을 말뭉치 기억부(48)에 기억된 다수의 문장 중에서 선택하여 회답문 리스트(50)로서 서비스 이용단말(44)에 회신한다. 회답 처리부(40)가 회답문의 랭킹을 할 때에는 서포트 벡터 머신(SVM)(46)을 사용하고, 학습 처리부(42)가 미리 이 SVM(46)에 대한 지도학습을 행한다.
학습 처리부(42)는 미리 논팩토이드형의 질문과, 그것에 대한 옳은 회답 또는 잘못된 회답과, 회답이 옳은지의 여부를 나타내는 플래그로 이루어지는 몇개의 일본어의 QA문을 기억하기 위한 QA문 기억부(60)와, QA문 기억부(60)에 기억된 QA문에 대한 해석을 행하여 SVM(46)의 학습에 사용하기 위한 자질(feature)로서 미리 선택한 통어(統語)에 관한 통계적 정보의 다양한 조합과, 그 QA문의 회답이 질문에 대한 정답인가 아닌가를 나타내는 플래그로 이루어지는 학습 데이터를 생성하기 위한 학습 데이터 생성부(62)와, 학습 데이터 생성부(62)가 생성한 학습 데이터를 기억하는 학습 데이터 기억부(64)와, 학습 데이터 기억부(64)에 기억된 학습 데이터를 사용하여 SVM(46)의 지도학습을 행하는 학습 처리부(66)를 포함한다. 이 학습의 결과, SVM(46)은 학습 데이터 생성부(62)가 생성한 것과 동종 조합의 자질을 SVM(46)이 받으면, 그 자질의 조합을 발생시킨 질문문 및 회답 후보의 조합이 옳은 조합인지의 여부, 즉 회답 후보가 질문에 대한 옳은 대답인가 아닌가를 나타내는 척도를 출력하게 된다.
말뭉치 기억부(48)에 기억된 각 문장에 대해서는 미리 학습 데이터 생성부(62)가 각 회답문에 대하여 행한 것과 같은 해석 처리를 행하고, SVM(46)에 주는 자질을 생성하기 위해서 필요한 정보를 각 문장에 대하여 부여하고 있는 것으로 한다.
이것에 대하여 회답 처리부(40)는, 서비스 이용단말(44)로부터 질문문을 받은 것에 응답하여 그 질문문에 대하여 미리 정해진 문법적인 해석을 행하고, 그 질문문에 포함되는 각 단어에 대해서 자질을 생성하기 위해서 필요한 정보(품사, 활용형, 의존 구조 등)를 출력하기 위한 질문문 해석부(86)와, 서비스 이용단말(44)로부터 질문문을 받은 것에 응답하여 말뭉치 기억부(48)로부터 질문에 대한 소정 개수 (예를 들면 300개)의 회답 후보문을 검색해 추출하기 위한 후보문 검색부(82)와, 후보문 검색부(82)가 출력하는 소정 개수의 후보문을 그 문법 정보와 함께 기억하기 위한 회답 후보문 기억부(84)를 포함한다.
또한, 이 예에서는 말뭉치 기억부(48)로부터 후보문을 검색해 추출해서 회답 후보문 기억부(84)에 기억하고 있지만, 이렇게 후보문을 좁힐 필요는 없다. 예를 들면, 말뭉치 기억부(48)에 기억되어 있는 전문을 회답 후보문으로 해도 된다. 이 경우, 후보문 검색부(82)는 말뭉치 기억부(48)에 기억되어 있는 문장을 모두 읽어내는 기능을 가지기만 하면 되고, 회답 후보문 기억부(84)는 후보문 검색부(82)가 읽어낸 문장을 일시적으로 축적하기만 하는 기능을 하면 된다. 또한, 말뭉치 기억부(48)는 이 예에서는 질의 응답 시스템(30)이 로컬로 유지되어 있지만, 이 예는 그러한 형태에는 한정되지 않는다. 예를 들면, 말뭉치(48)가 원격에 있어도 좋고, 1개에 한하지 않고 복수개의 기억장치에 분산되어 기억되어 있어도 좋다.
회답 처리부(40)는 또한 질문문 해석부(86)로부터 출력되는 정보와 회답 후보문 기억부(84)에 기억된 회답 후보문 각각의 조합에 의거하여 SVM(46)에 주어야 할 자질 벡터를 생성하기 위한 자질 벡터 생성부(88)와, 질문문과 각 회답 후보문의 조합에 대하여 자질 벡터 생성부(88)로부터 주어지는 자질 벡터를 SVM(46)에 주고, 그 결과, SVM(46)로부터 출력되는 결과에 의거하여 회답 후보문 기억부(84)에 기억된 회답문의 각각을 랭킹하고, 상위의 소정 개수의 회답문 후보를 회답문 리스트(50)로서 출력하기 위한 회답문 랭킹부(90)를 포함한다. SVM(46)은 통상, 대상을 2개의 클래스로 분류하는 초평면을 수학적으로 구하고, 그 결과에 의거하여 입력이 어느 클래스에 속하는지를 정하고, 그 결과를 포지티브/네거티브의 극성 정보로 출력하는 것이 기본적 기능이지만, 그 초평면으로부터 입력에 의해 정해지는 점까지의 거리를 출력할 수도 있다. 이 거리는, 회답문으로서의 적합성을 나타내는 것으로 생각되므로, 회답문 랭킹부(90)는 이 거리와 SVM(46)가 출력하는 극성 정보의 조합을 회답 후보문의 스코어로서 사용한다.
이 질의 응답 시스템(30)에서는, 미리 QA문 기억부(60)에 질문문과, 그 질문문에 대한 회답으로서 적합한 문장의 조합, 및 질문문에 대한 회답으로서 틀린 문장의 조합을 다수 기억한다. 각 조합에는 그 회답이 옳은 것인지의 여부를 나타내는 플래그를 미리 수작업으로 부여해 둔다. 학습 데이터 생성부(62)가 이들 조합으로부터 SVM(46)의 학습을 행하기 위한 학습 데이터를 생성하고, 학습 데이터 기억부(64)에 격납한다. 학습 처리부(66)가 학습 데이터 기억부(64)에 기억된 학습 데이터를 사용하여 SVM(46)의 학습을 행한다. 이 처리의 결과, SVM(46)은 학습 데이터 생성부(62)가 생성하는 것과 같은 종류의 자질 조합을 받으면, 그 자질이 얻어진 원래의 문장의 조합(질문문과 회답 후보)이 옳은지의 여부, 즉 회답 후보가 그 질문문에 대한 회답으로서 옳은지 아닌지의 척도를 나타내는 값을 출력할 수 있게 된다.
한편, 말뭉치 기억부(48)에는 다수의 문장으로 이루어지는 말뭉치가 기억되어 있다. 이들 각 문장에는 미리 학습 데이터 생성부(62)가 행하는 것과 동종의 해석 처리가 행하여져 있고, 학습 데이터의 일부와 같은, 회답 후보의 랭킹을 위한 정보가 부여되어 있다. 서비스 이용단말(44)로부터 질문문을 받으면 후보문 검색부(82)가 기존의 후보문 검색 처리를 행하고, 질문문에 대한 회답 후보를 소정 개수만큼 말뭉치 기억부(48) 중에서 추출한다. 후보문 검색부(82)에 의해 추출된 회답 후보문은 회답 후보의 랭킹을 위한 정보와 함께 회답 후보문 기억부(84)에 격납된다.
한편, 질문문 해석부(86)는 질문문에 대하여 소정의 해석 처리를 행하고, 자질을 생성하기 위해서 필요한 정보를 생성해서 자질 벡터 생성부(88)에 부여한다. 자질 벡터 생성부(88)는 질문문 해석부(86)로부터 정보를 받으면 회답 후보문 기억부(84)에 기억되어 있는 각 회답 후보문의, 회답 후보의 랭킹을 위한 정보와 맞춤으로써 학습 데이터 생성부(62)에 의해 생성되는 학습 데이터와 같은 구성(단 회답 후보가 정답인가 아닌가를 나타내는 플래그을 제외한다.)의 자질 벡터를 생성하고, 회답문 랭킹부(90)에 준다.
회답문 랭킹부(90)는 자질 벡터 생성부(88)로부터 주어지는, 각 회답 후보와 질문문의 조합으로부터 얻은 자질 벡터를 SVM(46)에 준다. SVM(46)은 주어지는 각 조합의 자질 벡터마다 그 조합에 포함되는 회답 후보가 그 조합에 포함되는 질문에 대한 회답으로서 어느 정도 적합할지를 나타내는 스코어를 출력한다. 회답문 랭킹부(90)는 질문문과 각 회답 후보의 조합을, 그것들의 스코어에 의해 내림차순으로 정렬하고, 스코어가 상위인 소정 개수의 회답 후보를 서비스 이용단말(44)로부터 주어진 질문문에 대한 회답문 리스트(50)로서 서비스 이용단말(44)에 회신한다.
마사키 무라타, 사치요 츠카와키, 토시유키 카나마루, 칭 마, 히토시 이사하라, 「논팩토이드형의 일본어의 질문에 대하여, 회답의 형태에 따른 가중을 한 회답 검색을 이용하여 회답하는 시스템(A system for answering non-factoid Japanese questions by using passage retrieval weighted based on type of answer)」, In Proc. of NTCIR-6. 류이치로 히가시나가, 히데키 이소자키, 「WHY형 질문을 위한 말뭉치를 사용한 질의 응답 시스템(Corpus-basedquestion answering for why-questions)」, In Proc. of IJCNLP, pp.418-425. 테츠지 나카가와, 켄타로우 이누이, 사다오 쿠로하시, 「의존 트리에 의거한 잠재 변수를 갖는 CRF를 사용한 감정의 분류(Tetsuji Nakagawa, Kentaro Inui, and Sadao Kurohashi, Dependencytree-based sentiment classification using CRFs with hidden variables.)」, In Proc. of Human Language Technologies:The 2010 Annual Conference of Computational Linguistics, Pp.786-794, Los Angeles, California, June. Association for ComputationalLinguistics.
비특허문헌 1에 기재된 시스템에서는 충분한 정확도가 얻어지지 않는 것을 알 수 있다. 특히, 사실에 관한 질의 응답 시스템의 성능에 비하면, 논팩토이드형의 질의 응답 시스템의 성능은 상당히 낮아 논팩토이드형의 질의 응답 시스템의 성능향상에 대한 요구가 커지고 있다. 특히, 향후 단순한 사실에 관한 질문 뿐만 아니라, 어떠한 사상의 원인/이유에 관한 질문이나 어떠한 사상으로부터 그 귀결되는 결과에 관한 질문 등을 처리할 수 있는 질의 응답 시스템이 필요할 것으로 예상된다.
따라서 본 발명의 목적은, 이유 또는 방법에 관한 질문에 관한 질의 응답 시스템에 있어서 정확도를 보다 높이는 것이 가능한 질의 응답 시스템을 제공하는 것이다.
본 발명의 제 1 국면에 의한 질의 응답 시스템은, 논팩토이드형의 질문의 입력을 받고, 그 질문에 대한 회답을 생성하는 논팩토이드형의 질의 응답 시스템이다. 이 시스템은 처리 대상의 언어의 문서로서 컴퓨터 판독 가능한 문서로 이루어지는 말뭉치를 기억하기 위한 말뭉치 기억수단에 접속되어서 사용된다. 이 시스템은 질문의 입력을 받은 것에 응답하여 말뭉치 기억수단으로부터 그 질문에 대한 복수개의 회답 후보를 검색해 추출하기 위한 후보 검색수단과, 질문의 입력을 받은 것에 응답하여 상기 질문과 후보 검색수단에 기억된 회답 후보 각각의 조합에 대해서 소정의 자질 집합을 생성하기 위한 자질 생성수단과, 자질 생성수단에 의해 생성되는 자질의 집합이 주어지면 그 자질의 집합을 생성하는 원인이 된 질문 및 회답 후보의 조합에 대해서 그 회답 후보가 상기 질문에 대한 옳은 회답인 정도를 나타내는 스코어를 산출하도록 미리 학습된 스코어 산출수단과, 질문과 회답 후보에 기억된 회답 후보 각각의 조합에 대해서 스코어 산출수단에 의해 산출된 스코어에 의거하여 질문에 대한 옳은 회답일 가능성이 가장 높은 회답 후보를 질문에 대한 회답으로서 출력하는 회답 선택수단을 포함한다. 후보 검색수단에 의해 검색된 회답 후보의 각각에는 자질 생성수단에 의한 자질의 생성에 필요한 정보가 부여되어 있다. 자질 생성수단은 질문에 대해서 형태소 해석 및 구문 해석을 행하여 형태소 정보 및 통어 정보를 출력하기 위한 구문 해석수단과, 질문 중 어떤 평가기준에 따라서 제 1 클래스로 분류되는 구(phrase)와 제 2 클래스로 분류되는 구를 특정하기 위한 평가수단을 포함한다. 제 1 클래스 및 제 2 클래스에는 각각 서로 상반되는 평가의 극성이 할당되어 있다. 이 질의 응답 시스템은 또한, 질문과 회답 후보 각각의 조합에 대해서, 구문 해석수단에 의한 해석 결과와, 평가수단에 의해 특정된 구의 부분 및 그 평가 클래스의 극성과, 회답 후보에 부여되어 있는 자질 생성용의 정보에 의거하여 자질의 집합을 생성하기 위한 자질 집합 생성수단을 포함한다.
바람직하게는, 자질 생성수단은 또한, 구문 해석수단의 출력에 포함되는 각 명사를 미리 준비된 복수개의 단어의 의미 클래스 중 어느 하나로 분류하고, 상기 명사를 대응하는 의미 클래스로 변환하기 위한 의미 클래스 변환수단을 포함한다. 자질 집합 생성수단은 질문과 회답 후보 각각의 조합에 대해서 구문 해석수단에 의한 해석 결과와, 평가수단에 의해 특정된 구의 부분 및 그 평가 클래스의 극성과, 의미 클래스 변환수단에 의한 변환이 된 후의 구문 해석수단의 출력과, 회답 후보에 부여되어 있는 자질 생성용의 정보에 의거하여 자질의 집합을 생성하기 위한 제 1 수단을 포함한다.
제 1 수단이 평가수단에 의해 특정된 구의 부분 및 평가 클래스의 극성에 의거하여 생성하는 자질은 질문 중의 구의 평가 클래스의 극성과 회답 후보 중의 구의 평가 클래스의 극성이 일치하는지의 여부를 나타내는 정보를 포함해도 좋다.
보다 바람직하게는, 제 1 수단이 평가수단에 의해 특정된 구의 부분 및 평가 클래스의 극성에 의거하여 생성하는 자질은 질문 중의 구의 평가 클래스의 극성과 회답 후보 중의 구의 평가 클래스의 극성이 일치할 때의 그 극성을 나타내는 정보를 더 포함한다.
제 1 수단이 생성하는 자질은 구문 해석수단의 출력으로부터 얻어지고, 평가수단의 출력 또는 의미 클래스 변환수단의 출력을 사용하지 않고 얻어지는 자질과, 구문 해석수단의 출력에 평가수단의 출력을 조합시켜서 얻어지는 자질과, 구문 해석수단의 출력에 의미 클래스 변환수단의 출력을 조합시켜서 얻어지는 자질을 포함해도 좋다.
또는, 제 1 수단이 생성하는 자질은 구문 해석수단의 출력에 평가수단의 출력을 조합시키고, 또한 의미 클래스 변환수단의 출력을 조합시켜서 얻어지는 자질을 포함해도 좋다.
본 발명의 제 2 국면에 의한 컴퓨터 프로그램은 논팩토이드형의 질문의 입력을 받고, 그 질문에 대한 회답을 생성하는 논팩토이드형의 질의 응답 시스템을 컴퓨터에 의해 실현시키는 컴퓨터 프로그램이다. 이 컴퓨터는 처리 대상 언어의 문서이며, 컴퓨터 판독 가능한 문서로 이루어지는 말뭉치를 기억하기 위한 말뭉치 기억수단에 접속된다. 제 2 국면에 의한 컴퓨터 프로그램은 컴퓨터를 질문의 입력을 받은 것에 응답하여 말뭉치 기억수단으로부터 그 질문에 대한 복수개의 회답 후보를 검색해 추출하기 위한 후보 검색수단과, 질문의 입력을 받은 것에 응답하여 그 질문과 후보 검색수단에 기억된 회답 후보 각각의 조합에 대해서 소정의 자질 집합을 생성하기 위한 자질 생성수단과, 자질 생성수단에 의해 생성되는 자질의 집합이 주어지면 그 자질의 집합을 생성하는 원인이 된 질문 및 회답 후보의 조합에 대해서 상기 회답 후보가 상기 질문에 대한 옳은 회답인 정도를 나타내는 스코어를 산출하도록 미리 학습된 스코어 산출수단과, 질문과 회답 후보에 기억된 회답 후보 각각의 조합에 대해서 스코어 산출수단에 의해 산출된 스코어에 의거하여 질문에 대한 옳은 회답일 가능성이 가장 높은 회답 후보를 질문에 대한 회답으로서 출력하는 회답 선택수단으로서 기능시킨다. 후보 검색수단에 의해 검색된 회답 후보의 각각에는 자질 생성수단에 의한 자질의 생성에 필요한 정보가 부여되어 있다. 컴퓨터를 자질 생성수단으로서 기능시키는 프로그램 부분은, 컴퓨터를 질문에 대해서 형태소 해석 및 구문 해석을 행하며 형태소 정보 및 통어 정보를 출력하기 위한 구문 해석수단과, 질문 중 어떤 평가기준에 따라서 제 1 평가 클래스로 분류되는 구와 제 2 평가 클래스로 분류되는 구를 특정하기 위한 평가수단으로서 기능시킨다. 이 컴퓨터 프로그램은 또한, 컴퓨터를 질문과 회답 후보 각각의 조합에 대해서 구문 해석수단에 의한 해석 결과와, 평가수단에 의해 평가된 구의 부분 및 그 평가 클래스의 극성과, 회답 후보에 부여되어 있는 자질 생성용의 정보에 의거하여 자질의 집합을 생성하기 위한 자질 집합 생성수단으로서 기능시킨다.
도 1은 종래의 논팩토이드형의 질의 응답 시스템의 개략 구성을 나타내는 블럭도이다.
도 2는 논팩토이드형의 질문과 그 회답 후보의 예를 나타내는 도면이다.
도 3은 논팩토이드형의 질문의 회답 후보의 예를 나타내는 도면이다.
도 4는 본 발명의 일실시형태에 의한 질의 응답 시스템이 이용되는 장면을 설명하는 도면이다.
도 5는 본 발명의 일실시형태에 의한 질의 응답 시스템의 블럭도이다.
도 6은 n-gram의 구성을 설명하기 위한 모식도이다.
도 7은 통어 구조에 의존하는 n-gram의 구성을 설명하기 위한 도면이다.
도 8은 본 발명의 일실시형태에 의한 질의 응답 시스템에서 사용하는 자질의 일람을 표형식으로 나타내는 도면이다.
도 9는 논팩토이드형의 질문과 그 회답 후보의 조합의 예를 나타내는 도면이다.
도 10은 본 발명에 의한 질의 응답 시스템의 실험 결과를, 종래 기술의 성능과 비교해서 표형식으로 나타내는 도면이다.
도 11은 본 발명에 의한 질의 응답 시스템에 있어서, 사용하는 자질의 조합을 바꾸었을 때의 성능을 서로 비교해서 표형식으로 나타내는 도면이다.
도 12는 본 발명의 일실시형태에 의한 질의 응답 시스템을 실현하기 위한 컴퓨터의 외관을 나타내는 모식도이다.
도 13은 도 12에 나타내는 컴퓨터의 하드웨어 구성을 설명하는 블럭도이다.
이하의 설명 및 도면에서는 동일한 부품에는 동일한 참조번호를 부여하고 있다. 따라서, 그것들에 관한 상세한 설명은 반복하지 않는다.
[도입]
본원 발명에서는 논팩토이드형의 질문과 그 회답 사이에는 이하와 같은 관계가 있는 것에 착안하여 이것을 제 1 가정으로 했다. 즉,
·바람직하지 못한 일이 일어나면, 그 이유도 무언가 바람직하지 못한 것인 경우가 많고,
· 바람직한 일이 일어나면, 그 이유도 또한 바람직한 경우가 많다,
라고 하는 점에 착안한 것이다.
예를 들면, 도 2에 나타나 있는 바와 같은 질문 Q1과, 그 회답 후보 A1-1 및 A1-2의 조합(110)을 고려한다. 회답 후보 A1-1의 하선부(120)는 암에 관한 바람직하지 못한 사상을 설명하고 있는 것에 대해, 회답 후보 A1-2의 하선부(122)는 암을 예방하기 위한 바람직한 대응을 서술하고 있다. 본 발명은 위의 조합에서는 질문 Q1에 대한 회답으로 회답 후보 A1-1 쪽이 보다 적합하다고 하는 것이다. 본 명세서에서는 설명을 간략하게 하기 위해서, 그러한 「바람직하다」 및 「바람직하지 못하다」라고 하는 평가의 방향을 「극성」이라고 부르고, 「바람직한 사상을 서술하는 구」 및 「바람직하지 못한 사상을 서술하는 구」과 같은, 극성을 수반하는 평가의 대상이 되는 구를 「평가구」라고 부른다. 즉, 본원 발명에서는 구는 소정 평가기준에 따라서 「바람직한 사상을 서술하는 구」라고 하는 제 1 평가 클래스와, 「바람직하지 못한 사상을 서술하는 구」라고 하는 제 2 평가 클래스 중 어느 하나로 분류된다. 이들 평가 클래스에는 「바람직하다」 및 「바람직하지 못하다」라고 하는 것과 같이, 서로 상반되는 극성이 할당되어 있다. 또한, 여기에서는 극성으로서 「바람직하다/바람직하지 못하다」라고 하는 것을 생각했지만, 이것 이외에도 평가기준에 따라 극성은 다양하게 생각할 수 있다. 예를 들면 「증가/감소」, 「활성/불활성」, 「맛있다/맛없다」, 「개선/악화」, 「채택/비채택」, 「기쁘다/슬프다」 등을 생각할 수 있다.
본 발명의 제 2 가정은, 질문 중의 단어의 어휘 의미론적인 클래스와, 회답문 중의 그것들과의 사이에는 상당히 강한 연관관계가 있다는 것이다. 예를 들면, 도 2에 나타내는 질문 Q1과 같이 병에 관한 질문문에 대한 회답은, 많은 경우 (회답 후보 A1-1과 같이)화학물질에 관한 것이거나, 또는 바이러스 또는 몸의 일부 등에 관한 언급을 포함한다. 이와 같이, 예를 들면 병과, 병에 관련되는 유해한 물질 등을 의미하는 단어 사이의 통계적인 연관관계를 이용함으로써 질문문에 대한 적합한 회답을 보다 정확하게 파악할 수 있게 된다. 그래서, 이하에 서술하는 실시형태에서는 의미적으로 가까운 단어를 의미 클래스로 묶어서 자질로서 사용하기로 했다. 의미 클래스의 구축을 수작업으로 행하거나, 기존의 의미에 의거하는 시소러스(thesauruses)를 사용하거나 할 수도 있지만, 본 실시형태에서는 웹 문서로 이루어지는 대규모 말뭉치로부터 EM(Expectation-Maximazation)법을 이용하여 자동적으로 구축한 단어 클래스군을 사용하는 것으로 했다. 이 방법에 대해서는 Kazama and Torisawa, Inducing Gazetteers for Named Entity Recognition by Large-scale Clustering of Dependency Relations」(http://http://www.aclweb.org/anthology-new/P/P08/P08-1047.pdf)에 상세가 기재되어 있다.
더욱 문제가 되는 것은, 회답 후보 중에는 극성이 다른 복수의 구를 포함하는 것이 있다고 하는 것이다.
예를 들면, 도 3에 도 2의 회답 후보 A1-2와 유사한 회답 후보 A1-3을 나타낸다. 도 3에 나타내는 회답 후보 A1-3은 암의 예방에 관한 바람직하지 못한 평가구(140)와, 암의 예방에 관한 바람직한 평가구(142)를 포함하고 있다. 이러한 경우에는, 도 2에 나타내는 질문 Q1에 대한 회답으로서 도 2에 나타내는 회답 후보 A1-1과, 도 3에 나타내는 회답 후보 A1-3 중 어느 것을 채용 할 것인가라고 하는 문제가 남는다. 본 발명에서는 그러한 문제에 대처하기 위해서 평가의 극성과, 질문문 및 회답 후보의 쌍방의 그 극성에 결부된 평가구의 내용의 조합을 사용하는 것으로 했다.
평가구의 내용에 관해서 통계적 처리를 할 때의 데이터의 희소성 문제(data sparseness problem)를 해결하기 위해서 평가의 극성과 단어의 의미 클래스를 효과적으로 조합시킨 자질의 세트를 개발했다. 이들 자질을 이용한 지도 하 학습에 의해 논팩토이드형의 질문문에 대한 회답 후보의 스코어링을 행하는 분류기의 학습을 행했다. 실험의 결과에 대해서는 뒤에 서술한다.
[구성]
도 4를 참조하여, 본 실시형태에 의한 논팩토이드형 질의 응답 시스템(160)은 미리 인터넷 상의 대량의 문서로 이루어지는 문서 집합(164)을 획득해 두고, 인터넷(162)을 통해서 서비스 이용단말(166)로부터 논팩토이드형의 질문을 받은 것에 응답하여 축적해 둔 문서 집합(164)으로부터 그 질문에 대한 회답으로서 어울리는 것의 리스트를 생성하고, 서비스 이용단말(166)에 회신하는 것이다. 본 실시형태에서는 서비스 이용단말(166)로부터의 질문은 웹의 폼으로의 입력 데이터로서 논팩토이드형 질의 응답 시스템(160)에 송신되는 것으로 한다.
도 5를 참조하여, 이 질의 응답 시스템(160)은 미리 인터넷으로부터 취득한 대량의 문서로 이루어지는 문서 집합(164)으로서, 각 문장에 대해서 회답 후보를 랭킹하기 위한 자질 형성에 필요한 정보가 부여된 문서의 집합을 기억하기 위한 말뭉치 기억부(178)와, 서비스 이용단말(166)로부터 질문문을 받은 것에 응답하여 말뭉치 기억부(178)에 기억된 문장 주에서 받은 질문에 대한 회답으로서 어울리는 것을 몇개정도 추출하고, 랭크 부여하여 상위의 소정 개수를 리스트한 회답문 리스트(174)를 서비스 이용단말(166)에 대하여 출력하기 위한 회답 처리부(170)와, 회답 처리부(170)가 회답 후보의 랭킹시에 사용하는 SVM(176)과, 미리 준비된 학습 데이터에 의해 SVM(176)에 대한 지도학습을 행하고, SVM(176)이 질문문과 회답문의 조합으로부터 얻어진 미리 정하는 자질의 조합을 받으면, 그 조합이 옳을 것인가 아닌가, 즉 그 조합 중의 질문에 대하여 그 조합 중의 회답문이 옳은 회답인가 아닌가를 나타냄과 아울러, 그 회답의 정확도가 어느 정도일지를 나타내는 스코어를 출력하도록 하는 학습 처리부(172)를 포함한다.
회답 처리부(170)는 서비스 이용단말(166)로부터 질문을 받은 것에 응답하여 종래의 기술과 같은 처리에 의해 말뭉치 기억부(178)를 검색하고, 다수의 문장 중에서 소정 개수(예를 들면 300개)의 회답 후보문을 추출하기 위한 후보문 검색부(222)와, 후보문 검색부(222)에 의해 추출된 후보문을 기억하기 위한 회답 후보문 기억부(224)와, 서비스 이용단말(166)로부터 질문문을 받은 것에 응답하여 질문문에 대한 해석 처리, 즉 자질에 이용되는 형태소 해석 및 구문 해석(통어적 해석)을 행하여 형태소 정보 및 통어 정보를 출력하기 위한 질문문 해석부(226)와, 질문문 해석부(226)가 출력하는 정보 중 단어에 대하여 소정의 통계적 확률 모델을 적용함으로써 의미 클래스를 추정하고, 의미 클래스를 나타내는 정보를 단어에 부여해서 출력하기 위한 의미 클래스 변환부(230)와, 질문문 해석부(226)의 출력에 대하여 평가를 행하여 이미 서술한 바와 같이 평가구와 그 극성을 정해서 평가구마다 출력하기 위한 평가 처리부(228)를 포함한다.
또한, 도시하고 있지 않지만, 말뭉치 기억부(178)에 기억되는 문서의 각 문장에 대해서도 미리 질문문 해석부(226), 평가 처리부(228) 및 의미 클래스 변환부(230)에 의해 행하여지는 처리와 같은 처리를 행해 둔다. 이렇게 해 둠으로써 뒤에 질문과 회답 후보의 세트로부터 자질 벡터를 생성하기 위한 처리량을 줄일 수 있다.
회답 처리부(170)는 또한, 질문문 해석부(226)의 출력과, 평가 처리부(228)의 출력과, 의미 클래스 변환부(230)의 출력을 받고, 또한 회답 후보문 기억부(224)로부터 각 회답 후보문과 부수 정보를 읽어내고, 질문문과 회답 후보의 쌍방의 정보에 의거하여 SVM(176)에 적용하는 자질 벡터를 생성하기 위한 자질 벡터 생성부(232)와, 회답 후보문마다 자질 벡터 생성부(232)가 출력하는 자질 벡터를 SVM(176)에 적용함으로써 SVM(176)로부터 얻어지는 스코어에 의거하여 회답 후보를 랭킹하고, 상위의 소정 개수의 회답 후보로 이루어지는 회답문 리스트(174)를 생성하여 서비스 이용단말(166)에 회신하기 위한 회답문 랭킹부(234)를 포함한다.
학습 처리부(172)는 다수의 QA문을 그 조합의 적부를 나타내는 플래그와 함께 기억하기 위한 QA문 기억부(190)와, QA문 기억부(190)에 기억되어 있는 질문문과 회답 후보의 조합의 각각에 대하여 질문문 해석부(226)와 같은 처리를 행하기 위한 QA문 해석부(192)와, QA문 해석부(192)의 출력 중의 각 단어에 대하여 통계적 모델을 이용하여 의미 클래스 정보를 부여하기 위한 의미 클래스 변환부(196)와, QA문의 질문문 및 회답문의 각각에 대하여 평가 처리를 행함으로써 평가구를 나타내는 태그와 그 극성을 부여해서 출력하기 위한 평가 처리부(194)와, QA문 해석부(192), 평가 처리부(194), 및 의미 클래스 변환부(196)가 출력하는 정보를 조합시킴으로써 SVM(176)의 학습을 행하기 위한 학습 데이터(자질 벡터)를 생성해서 출력하는 학습 데이터 생성부(198)와, 학습 데이터 생성부(198)가 출력하는 학습 데이터를 기억하기 위한 학습 데이터 기억부(200)와, 학습 데이터 기억부(200)에 기억된 학습 데이터를 사용하여 SVM(176)에 대하여 지도학습을 행하기 위한 SVM 학습부(202)를 포함한다.
본 실시형태에서는 6억건의 일본어 문서를 인터넷으로부터 수집하여 말뭉치 기억부(178)에 격납했다.
(회답 후보의 추출)
후보문 검색부(222)로서는, 본 실시형태에서는 http://lucene.apache.org/solr에서 배포되어 있는 Solr를 사용한다. 본 실시형태에서는 후보문 검색부(222)는 질문문 1개에 대하여 말뭉치 기억부(178)에 격납되어 있는 6억건의 문서 중에서 예를 들면 회답을 포함할 가능성이 높은 순서로, 상위의 소정 개수(예를 들면 300개)의 문서를 추출하도록 조정한다. 또한, 추출한 각 문서는 5개의 연속하는 문장으로 이루어지는 회답 후보의 집합으로 분할된다. 문서의 분할 방법의 오류에 의해 옳은 회답이 얻어지지 않을 가능성을 적게 하기 위해서, 분할되는 문서에 대해서는 서로 2개의 문장까지는 공유할 수 있게 하고 있다.
후보문 검색부(222)에서는 또한, 이와 같이 하여 질문(q)에 대하여 얻어진 회답 후보(ac)의 각각을, 이하의 식(1)에 나타내는 스코어링 함수 S(q, ac)에 의해 스코어링한다. 또한, 본 실시형태에서는 회답 후보를 추출하기 위해서 질문 중에 포함되는 단어를 포함하는 부분이며, 또한 인과관계를 나타내는 3개의 실마리어(이유, 원인, 및 요인)를 포함하는 것을 검색한다. 후보문 검색부(222)는 식(1)에 의한 랭킹을 통해 질문에 대한 회답 후보를 300개 선택하고, 회답 후보문 기억부(224)를 거쳐서 회답문 랭킹부(234)에 준다.
식(1)에 나타내는 스코어링 함수 S(q, ac)는 각 회답 후보에 대하여 tf(대수화 색인어 빈도)-idf(문서 빈도의 역수)를 닮은 스코어를 할당한다. 여기에서, 식(1)의 1/dist(t1, t2)는 tf와 같은 역활을 하고, 1/df(t2)는, 질문(q) 및 회답 후보(ac)가 공유하는 주어진 t1 및 t2에 대한 idf이다.
Figure pct00001
단, T는 질문(q)에서 추출한 명사, 동사, 및 형용사의 단어 중, 회답 후보(ac)에 출현하는 단어로 구성되는 집합을 나타낸다. 또한, 실마리어가 회답 후보(ac)에 존재할 경우, 이들 단어들을 단어 집합(T)에 추가한다. N은 문서의 합계수(6억)이며, dist(t1,t2)는 회답 후보(ac) 중의 단어 t1 및 t2 사이의 거리(문자수)이다. df(t) 는 단어(t)의 문서 빈도이며, φ∈{0, 1}은 지표이며, ts(t1,t2)>1이라면 φ=1, 그렇지 않으면 φ=0이다.
(회답 후보의 랭킹)
상기한 바와 같이, 랭킹에는 3종류의 자질 집합을 사용하는 지도학습된 분류기(SVM)를 사용한다. 자질 집합은 (1) 질문과 회답 후보의 형태소 분석 및 통어 분석의 결과를 나타내는 자질(「MSA」로 나타낸다.),(2) 질문과 회답 후보에 드러나는 의미적 단어 클래스를 나타내는 자질 (「SWC」로 나타낸다.), 및 (3) 평가 분석의 결과를 나타내는 자질(「SA」로 나타낸다.)을 포함한다.
《MSA》
MSA는 회답 후보의 재랭킹을 위해서 종래부터 널리 사용되고 있는 자질이다. 이 자질은 질문과 회답 후보 사이의 형태소, 문절, 및 통어 구조 레벨에서의 연관관계를 밝히기 위한 것이다.
질문과 그 회답 후보에 포함되는 모든 문장을 3가지 방법으로 나타냈다. 즉, 형태소의 모임(a bag of morphemes), 문절의 모임(a bag of word phrases), 통어 구조 체인의 모임이다. 이것들은 각각, 형태소 분석 프로그램(예를 들면 http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN) 및 구문 해석 프로그램(예를 들면 http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP)을 이용하여 얻을 수 있다.
본 실시형태에서는 질문 및 회답 후보의 각각으로부터 형태소, 문절, 및 통어 구조의 n-gram(n은 1∼3)을 추출한다. 예를 들면, 문장이 도 6(A)에 나타낸 바와 같이 연속하는 4개의 문절 A, B, C 및 D로 이루어지는 부분(240)을 포함하는 것으로 한다. 이 4개의 문절로부터 얻어지는 문절 3-gram은, 도 6(B1)에 나타내는 문절 A, B 및 C로 이루어지는 3-gram(242)과, 도 6(B2)에 나타내는 문절 B, C 및 D 로 이루어지는 3-gram(244)이다.
이것에 대하여, 통어 구조 n-gram이란 본 명세서에서는 통어 구조의 네트워크 중에서 연속하는 3개의 문절을 갖는 패스를 말한다. 예를 들면, 도 7(A)에 나타내는 바와 같은 통어 구조의 네트워크(260)가 얻어진 것으로 한다. 이 네트워크(260) 중에서 3-gram을 추출하면, 도 7(B1)에 나타내는 문절 A, B 및 C로 이루어지는 3-gram(262)과, 도 7(B2)에 나타내는 문절 A, C 및 D로 이루어지는 3-gram(264)이 얻어진다. 이것들을 도 6과 비교하면 그 차이를 알 수 있다. 또한, 통어 구조 n-gram의 1-gram은 문절 1-gram과 일치하므로 사용하지 않는다.
MSA로서는 도 8의 표(270)에 나타내는 MSA1∼MSA4의 4종류의 자질을 사용할 수 있다. 그 설명은 도 8에 나타낸 바와 같으므로 개개에서는 반복하지 않는다. 또한, MSA2는 예를 들면 도 2의 「타입의 암」과 같이, 질문 중의 단어를 포함하는 n-gram이다.
《SWC》
단어 의미 클래스란 의미적으로 유사한 단어의 집합을 말한다. 본 실시형태에서는 상기한 Kazama 및 Torisawa의 문헌에 기재된 명사의 클러스터링 기술을 이용하여 이러한 단어 의미 클래스를 구축했다. 이 문헌에 기재된 알고리즘은 의미적으로 유사한 단어는 유사한 문맥에서 나타나는 경향이 있다,라고 하는 가정에 의거한 것이다. 이 방법은 단어간의 통어적 의존 관계를 문맥으로서 취급함으로써 비동사의 의존 관계에 관한 은닉 클래스(hidden class)에 대한 확률 모델을 이하의 식(2)에 의해 정의한다.
Figure pct00002
단, 여기에서의 n은 명사이며, v는 문법적 관계 r(한국어, 일본어에서는 조사)에 의해 명사(n)가 종속하는 동사 또는 명사이며, c는 은닉 클래스이다. 의존 관계의 빈도는 6억건의 문서로 이루어진 말뭉치로부터 얻을 수 있었다. 모델 파라미터 p(n|c), p(<v,r>|c) 및 p(c)는 EM 알고리즘을 이용하여 추정했다. 이 기술을 이용하여 550만의 명사를 500개의 클래스로 클러스터링할 수 있었다. 즉, 각 명사(n)에 대하여 EM 클러스터링에 의해 의미적 클래스를 나타내는 은닉 변수에 관한 확률 분포를 추정한다. 이 분포로부터 각 명사(n)에 대하여 c=argmaxc*p(c*|n)를 만족하는 클래스(c)를 할당한다. 이 결과, 화학물질, 영양소, 병 등을 의미하는 단어에 대한 명확한 의미적 클래스를 얻을 수 있었다.
SWC는 질문 중의 단어와 회답 후보 중의 단어 사이의 관련성을 반영시키기 위한 것이다. 학습 데이터 중에 특정의 의미 클래스의 단어를 갖는 질문과 특정의 의미 클래스의 단어를 갖는 회답 후보가 있고, 서로의 관계가 긍정적인(회답 후보가 질문에 대한 옳은 회답이다.) 경우에는, SVM은 학습 데이터의 질문과 같은 의미 클래스의 단어가 질문 중에 있으면 다른 조건이 일정한 것으로 해서 학습 데이터의 회답 중의 특정 의미 클래스의 단어와 같은 의미 클래스의 단어를 갖는 회답 후보를 그 질문에 대한 회답으로서 선택할 것이다.
마찬가지의 처리를 단어의 의미 레벨이 아니라 단어 레벨로 생각할 수도 있다. 즉, 특정의 단어 레벨에서의 연관관계를 통계적으로 모델화할 수도 있다. 그러나, 그 경우에는 단어와 단어라고 하는 조합이 지나치게 특정적이여서 데이터의 희소성 문제가 발생하여 모델의 범용화가 어렵고, 모델의 신뢰성을 높일 수 없다.
도 8에 나타내는 바와 같이, SWC로서는 SWC1과 SWC2라고 하는 2종류를 사용한다. 그것들의 설명은 도 8에 기재한 바와 같다.
SWC1을 얻기 위해서는 이하의 순서에 따른다. 우선, MSA1의 n-gram 내의 명사를 모두 그것들이 속하는 의미 클래스로 변환한다. 얻어진 n-gram 중에서 적어도 1개의 단어의 의미 클래스를 갖는 n-gram을 SWC1로서 채용한다.
SWC2는 회답 후보 중의 n-gram이며, 질문 중에 존재하는 단어와 같은 단어를 그것들의 의미 클래스로 바꾼 것이다.
이들의 자질은 질문과 회답 후보 중의 단어의 의미 클래스의 대응 관계를 나타내는 것이다.
《SA》
SA라고 하는 자질은 또한 2종류로 분류된다. 제 1은 단어 레벨에서의 평가 분석이다(단어의 극성). 이것을 도 8에서는 SA@W1∼SA@W4로 나타낸다. 제 2는 구 레벨에서의 평가 분석이다(구 극성). 이것들은 도 8에서는 SA@P1∼SA@P10으로 나타낸다.
(1) 단어 극성(SA@W)
단어의 극성 부여는 미리 준비된 단어의 극성 경향을 위한 사전의 참조에 의해 행한다. 사전으로서는 본 실시형태에서는 비특허문헌 3에 의해 소개된 툴 프로그램에 의해 제공되는 것을 사용한다. 이 자질은 질문 중의 단어의 극성과 옳은 회답 중의 단어의 극성의 관련을 밝히기 위한 것이다. 여기에서는, 전제에 따라 학습의 결과, 질문 중의 단어의 극성과 선택되는 회답 중의 단어의 극성은 서로 같은 경우가 많아질 것이다.
도 8에 나타내는 SA@W1과 SA@W2는 단어 극성 n-gram 중, 단어 극성을 가지는 단어를 적어도 1개 이상 갖는 것으로부터 얻어지는 평가 분석 자질이다. 이것들의 n-gram은 MSA1의 n-gram 내의 모든 명사를 사전 참조에 의해 대응하는 단어 극성으로 변환해서 얻어진다. SA@W1은 질문과 회답 후보 중의 모든 단어 극성 n-gram에 관한 것이다. SA@W2는 SA@W1에서 얻어진 n-gram 중, 원래의 n-gram이 질문의 단어를 포함하는 것이다.
또한, 단어 극성을 단어의 의미 클래스와 조합시킴으로써 분류기가 이들 조합 중 특히 의미 있는 것을 식별할 수 있게 한다. 예를 들면 단어의 극성으로서 네거티브이며 또한 의미 클래스가 「조건」인 단어는, 「바람직하지 못한 조건」을 나타낼 것이다. 이 결과, 이들 네거티브의 조건을 나타내는 단어와, 병에 관한 질문 사이의 연관관계를 분류기에 학습시킬 수 있다. SA@W3과 SA@W4가 이러한 종류의 자질이다. 이것들은 각각, SA@W1 및 SA@W2와 마찬가지로 정의된다. 단, SA@W1 및 SA@W2에 있어서의 단어의 극성을, 단어의 의미 클래스와 단어의 극성으로 치환하는 점이 다르다. SA@W3과 SA@W4의 n-gram을 (단어)클래스-극성 결합 n-gram이라고 부른다.
(2) 구 극성(SA@P)
본 실시형태에서는 평가구의 추출 및 그 극성의 판정은 기존의 툴 프로그램(상술의 비특허문헌 3에 의한다.)을 사용한다. 실험의 결과, 질문 내의 단어를 포함하지 않는 평가구에 대해서는 옳은 회답을 결정짓기 위해서 유용하지 않은 것을 알 수 있었다. 따라서, 본 실시형태에서는 질문 내의 단어를 적어도 1개 이상 포함하는 문장으로부터 추출된 평가구만을, 구 극성의 자질 생성을 위해서 사용하는 것으로 했다.
구 극성에 관한 자질로서 크게 3가지 카테고리의 자질을 사용한다. 제 1 카테고리는 도 8에 나타내는 SA@P1 및 SA@P2를 포함한다. 제 2 카테고리는 도 8의 SA@p3∼SA@P5를 포함한다. 제 3 카테고리는 도 8의 SA@P6∼SA@P10을 포함한다.
제 1 카테고리의 자질은 질문과 그 회답 후보 사이에서의 평가구의 극성의 일치에 관한 것이다. 질문과 회답 후보 사이에서의 평가구의 조합을 조사한다. 그것들 중에 극성이 일치하는 것이 있으면, 그것을 나타내는 지표와 그 극성을 각각 SA@P1 및 SA@P2라고 한다.
제 2 카테고리의 자질은 평가구는 대부분의 경우, 옳은 회답의 중심부를 구성한다,라고 하는 가정에 의거하는 것이다. 평가구의 내용을 나타내는 자질을 사용할 필요가 있다. 도 8의 SA@P3∼SA@P5는 그것을 위한 것이다. 이들 자질의 내용에 대해서는 도 8을 참조하면 된다.
제 3 카테고리의 자질은 단어의 의미 클래스를 사용함으로써 상술한 질문 또는 회답의 내용에 관한 자질을 일반화하기 위한 것이다. 도 8을 참조하면 알 수 있는 바와 같이, 이들 자질은 평가구로부터 얻은 단어의 의미 클래스 n-gram 및 클래스·극성 결합 n-gram을, 그 구 극성과 조합시킨 것이다. 이들 자질의 내용에 대해서는 도 8을 참조하면 된다.
[동작]
이상에 설명한 본 실시형태에 의한 논팩토이드형의 질의 응답 시스템(160)의 동작은, 기본적으로 도 1에 나타내는 종래의 것과 같은 순서를 밟는다. 즉, SVM(176)의 학습과, 회답 처리부(170)에 의한 질문의 처리이다. 이것들에 앞서서, 평가 처리부(194)에서 사용하는 평가 툴 및 사전, 및 의미 클래스 변환부(196)에서 사용하는 통계적 확률 모델을 작성해 둘 필요가 있다. 이 확률 모델은 식(2)에 의한 것이다. 또한, 다수의 문장을 수집하여 말뭉치 기억부(178)에 격납한다. 이것들에 대해서는 이미 서술한 바와 같이, 자질 벡터 생성부(232)가 자질을 생성하기 위해서 필요한 정보를 작성해 두고, 각 문장에 부여해 둔다. 한편, 수작업으로 작성한 질문과 그 회답으로 이루어지는 복수의 조합(QA문)을 준비하고, QA문 기억부(190)에 격납한다. 이들 질문과 회답의 조합으로서는, 어떤 질문과 그 질문에 대한 옳은 회답으로 이루어지는 세트를 준비한다. 이들 질문과 회답의 조합으로서는 가능한 한 많은 종류의 질문을 사용하는 것이 바람직하다. 그것을 위해서는 가능한 한 많은 사람에게 이 QA문의 작성에 참가하게 하는 것이 이상적이다. 단, 현실적으로는 이 준비에 참가하는 사람의 수는 한정되는 경우가 많고, 그 점에서 시스템에 어떤 제약이 생길 수 있는 것은 어쩔 수 없다.
이어서, QA문 해석부(192)에 의해 이들 QA문의 각각에 대한 형태소 해석, 및 구문 해석 등을 행하고, 얻어진 품사 정보, 의존 관계 등을 나타내는 정보를 QA문에 부여해서 평가 처리부(194), 의미 클래스 변환부(196), 및 학습 데이터 생성부(198)에 준다.
평가 처리부(194)는 주어진 QA문의 각각 중의 질문 및 회답의 각각에 대해서 평가구의 탐색을 행하고, 그 범위와 그 극성을 태그로서 해당 부분에 부여해서 학습 데이터 생성부(198)에 준다. 의미 클래스 변환부(196)는 주어진 QA문의 각각 중의 명사에 대해서 단어의 의미 클래스로 변환한 것을 생성하고, 학습 데이터 생성부(198)에 준다.
학습 데이터 생성부(198)는 QA문마다 QA문 해석부(192)로부터의 형태소 및 통어 정보, 평가 처리부(194)로부터의 평가에 관한 정보, 의미 클래스 변환부(196)로부터의 의미 클래스에 관한 정보에 의거하여 도 8에 나타낸 각종의 자질을 생성하고, QA문에 부여되어 있는 플래그(회답이 질문에 대한 것으로서 어울릴 것인가 아닌가를 나타내는 플래그)를 부여하여 학습 데이터를 생성하여 학습 데이터 기억부(200)에 격납한다.
SVM 학습부(202)는 학습 데이터 기억부(200)에 격납된 학습 데이터를 사용하여 SVM(176)의 학습을 행한다. 학습이 끝난 SVM(176)은 회답문 랭킹부(234)에 의해 이용 가능한 상태로 된다.
《회답의 검색》
회답문 랭킹부(234)에 SVM(176)이 장착됨으로써 회답 처리부(170)에 의한 회답 처리가 가능하게 된다. 서비스 이용단말(166)이 질문을 회답 처리부(170)에 송신하면 질문문 해석부(226) 및 후보문 검색부(222)가 이 질문을 받는다.
후보문 검색부(222)는 질문을 받은 것에 응답하여 말뭉치 기억부(178)에 기억된 다수의 문장 중에서 회답 후보로서의 가능성이 높은 상위 300개의 회답 후보문을 검색하고, 회답 후보문 기억부(224)에 출력한다. 이 때, 회답 후보문의 스코어 작성에 사용되는 척도는 식(1)에 나타낸 바와 같다.
한편, 질문문 해석부(226)는 수신한 질문에 대하여 형태소 해석 및 구문 해석을 행하여 형태소 정보 및 통어 정보를 출력한다.
평가 처리부(228)는 질문문 해석부(226)가 출력하는 정보에 대하여 평가 처리를 행하고, 평가구의 범위와 그 극성을 나타내는 태그를 부여해 자질 벡터 생성부(232)에 준다. 의미 클래스 변환부(230)는 질문문 해석부(226)가 출력하는 정보 중, 명사에 대하여 식(2)에 의해 나타내어지는 의미 클래스 추정을 위한 통계적 모델을 적용함으로써 그 의미 클래스를 추정하고, 의미 클래스를 나타내는 정보로 변환해서 자질 벡터 생성부(232)에 준다.
자질 벡터 생성부(232)는 평가 처리부(228)가 출력하는 평가 태그가 부여된 질문문, 질문문 해석부(226)로부터 출력되는 형태소 정보 및 구문 해석 정보, 의미 클래스 변환부(230)에 의해 출력되는 정보, 및 회답 후보문 기억부(224)에 기억되어 있는 회답 후보문의 각각에 미리 부여되어 있는 같은 정보에 의거하여 질문과 각 회답 후보의 조합의 각각에 대해서, 도 8에 나타내는 바와 같은 자질을 구하고, 그것들로 이루어지는 자질 벡터를 생성한다. 자질 벡터 생성부(232)는 질문과 각 회답 후보의 조합의 각각을 회답문 랭킹부(234)에 준다.
회답문 랭킹부(234)는 주어진 조합에 SVM(176)를 적용함으로써 조합의 각각에 대해서 회답 후보가 질문에 대한 회답으로서 적절한 것인가 아닌가를 나타내는 스코어를 얻는다. 회답문 랭킹부(234)는 또한, 이 스코어에 따라서 각 조합을 내림차순으로 정렬하고, 상위의 소정 개수를 스코어의 순서로 늘어놓음으로써 회답문 리스트(174)를 생성한다. 회답문 랭킹부(234)는 이렇게 해서 얻어진 회답문 리스트(174)를 서비스 이용단말(166)에 대하여 회신한다.
[실험]
상기한 실시형태에 의해, 논팩토이드형의 질문에 대한 회답의 정확도로서 어느 향상이 얻어지는지에 대해서 실험에 의해 조사했다.
(1) 데이터
상기 실시형태를 평가하기 위해서 수작업에 의해 테스트 집합을 구축했다. 테스트 집합의 구축은 질문의 생성과, 그것에 대한 회답의 검증이다. 되도록이면 많은 사람에 의해 이 테스트 집합을 구축하는 것이 바람직하지만, 실제로는 여러가지 제약으로부터 한정된 인원수(4명)에 의한 작업이 되었다. 실제로는 질문의 범위는 보다 넓어질 것이기 때문에, 이하의 실험의 결과는 실제의 응용에 상기 실시형태를 사용했을 때의 성능의 상한을 나타내는 것으로 된다고 생각된다.
질문의 생성 처리에서는 미리 수집한 문장 중에서 이유, 원인, 요인 등, 이미 서술한 실마리어를 적어도 1개 포함하는 부분을 추출했다. 추출된 부분으로부터 4명의 작업자가 어떠한 사상에 대한 이유를 기재했다고 생각되는, 연속하는 3개의 문장으로 이루어지는 부분을 추출하여 그 기재로부터 그 부분이 옳은 회답이 되는 것 같은 논팩토이드형의 질문을 작성했다. 그 결과, 362개의 논팩토이드형의 질문이며, 그 회답이 원래의 말뭉치에 포함되어 있는 것이 얻어졌다.
회답의 검증에서는 상기 실시형태의 시스템을 사용하고, 질문마다 우선 상위 20개의 회답 후보를 검색하고, 그것들과 질문의 조합의 모두에 대해서 수작업으로 체크를 행했다. 평가자간의 평가의 일치도를 나타내는 척도(Fleiss' Kappa)는 0.611이며, 거의 일치한 평가로 되어 있었다. 각 질문에 대한 옳은 회답은 다수결에 의해 정해졌다.
이 실험에서는 검색된 20개의 회답 후보 중에 옳은 회답이 포함되어 있었던 것은 362개의 질문 중, 불과 61.6%(223개의 질문)이었다. 상위 20개의 회답 후보 중에는 평균으로 4.1개의 정답이 포함되어 있었다. 본 실시형태에 의하면, 이 실험 조건에서는 회답 후보의 상위 20개의 재랭킹밖에 할 수 없으므로 61.6%라고 하는 것이 이 실험에서 얻어지는 성능의 상한이라고 하게 된다. 실험에서 사용한 샘플의 예를 도 9에 나타낸다. 도 9에는 질문 및 회답 후보의 세트(280)와, 질문 및 회답 후보의 세트(282)를 나타낸다.
(2) 실험의 세트업
실험에서는 상기한 테스트 집합을 사용하고, 10분할 교차 검정을 행함으로써 시스템의 평가를 행했다. 학습에는 선형 커널을 갖는 TinySVM(http://chasen.org/∼taku/software/TinySVM/)을 사용했다. 평가는 P@1(상위 1개의 정확도)과, MAP(Mean Average Precision: 평균 정확도(AP)의 평균)에 의하여 행했다.
P@1은 질문 중 몇개에 대해서 최상위의 회답으로서 옳은 것이 얻어졌는지를 나타낸다. MAP은 톱의 n개의 회답 후보의 전체품질을 이하의 식에 의해 평가하는 것이다.
Figure pct00003
여기에서, Q는 논팩토이드형의 질문의 집합, Aq는 논팩토이드형의 질문 q∈Q에 대한 옳은 회답의 집합, Prec(k)는 상위 n개의 회답 후보의 제 k위치에 있어서의 정확도, rel(k)는 랭크 k가 Aq 내의 옳은 회답일 때에 1, 그렇지 않으면 0이 되는 지표를 각각 나타낸다.
(3) 결과
5개의 다른 시스템에 대해서 상기 설정의 실험에 의해 얻어진 결과를 도 10에 나타낸다. 도 10에 있어서 B-QA는 비특허문헌 1에 기재된 시스템을 발명자가 실장한 것이며, 이것이 기본 시스템이 된다. B-Ranker는 B-QA의 회답 검색 시스템에 형태소 정보 및 통어 정보로부터 얻은 자질(MSA)을 사용한 재랭킹을 부여한 것이다. 본 실시형태에 의한 시스템은 「본 발명」으로서 나타내고 있고, 도 8에 예시한 모든 자질을 이용한 것이다. 「상한」이라고 기재한 것은 톱 20의 회답 후보 중에 옳은 회답이 존재할 때에는 반드시 그 상위 n개의 회답 후보 중에 n개의 옳은 회답을 모두 예시하는 시스템을 가리킨다. 이것은 본 실험에서 기대할 수 있는 최상의 결과(상한)를 나타낸다. 각 시스템에 의한 결과를 상한 시스템과 비교한 것을 괄호 내에 나타낸다.
실험에서는 또한, 본 발명에 의한 시스템에 있어서 최초로 검색된 20개의 회답 후보에 질문을 생성할 때에 사용한 원래의 문장 부분을 더한 21개의 회답 후보를 더 사용하는 완전한 회답 검색이 가능한 모듈도 평가했다. 그 결과를 「Retrieval-Oracle」로서 나타낸다. 도 10의 결과로부터 본원 발명에 의한 시스템을 이용하여 최초로 21개의 회답 후보(반드시 정답을 포함한다.)를 선택하는 시스템(Retrieval-Oracle)에서는, P@1에서 70.2%라고 하는 높은 정확도를 나타내는 것을 알 수 있다.
도 10으로부터, 본원 발명에 의한 시스템이 비교 대상이 되는 2개의 시스템과 비교해서 높은 정확도를 나타내는 것을 알 수 있다. 특히, B-QA에 대하여 P@1에서 11.6%라고 하는 정확도의 향상이 얻어진다. B-Ranker에 대한 정확도의 향상(P@1에서 6.4%)이 얻어짐으로써 선행기술 문헌에서 사용하고 있던 자질 집합과 비교하여 본 발명에서 채용한 자질 집합이 뛰어난 것을 알 수 있다. 또한, B-Ranker와 B-QA 사이에 성능의 차가 있기 때문에 재랭킹이 유효한 것도 알 수 있다.
각 자질의 공헌도를 조사하기 위해서, 다양한 조합의 자질을 이용한 경우의 실험을 행했다. 실험에서는 MSA를 기본 자질로 설정하고, MSA 자질과 다른 자질의 여러가지 조합을 사용했다. 또한, MSA를 사용하지 않는 시스템에 대해서도 실험을 행했다. 결과를 도 11에 정리한다.
도 11에 있어서, MSA+SWC+SA가 가장 바람직한 실시형태이고, MSA는 B-Ranker를 나타낸다. SA는 2개의 그룹, 즉 SA@W(단어와 그 극성을 나타내는 자질)와, SA@P(구와 그 극성을 나타내는 자질)로 분할했다. MSA+SWC+SA와 다른 결과 사이의 성능의 차이로부터 사용한 자질의 모두가 정확도의 향상에 공헌하고 있는 것을 알 수 있다. P@1이라고 하는 관점에서는, 구와 그 극성에 관한 자질인 SA@P에 의해 가장 높은 개선이 얻어지는 것을 알 수 있다. 즉, 본 발명과 MSA+SWC+SA@W 사이의 성능의 차이는 4.4%에 달하고 있다. 이 사실에 의해, 「바람직하지 못한 일이 일어나면 그 이유도 무엇인지 바람직하지 못한 경우가 많고, 바람직한 일이 일어나면 그 이유도 또한 바람직한 것인 경우가 많다.」라고 하는, 본원 발명의 착상의 근원이 되는 가정이 옳을 가능성이 높은 것을 나타낸다.
《실시형태의 효과》
이상과 같이 이 실시형태에 의하면, 상기한 가정에 의거하여 질문 중의 평가 구와, 회답 후보 중의 평가 구를 특정하고, 그것들의 극성이 같을 경우에 회답 후보가 옳은 것이다,라고 하는 생각에 의거하여 자질을 선택함으로써, 회답 검색의 정확도의 향상을 얻을 수 있었다. 또한, 그러한 평가에 관한 통계적 모델을 학습할 때에 질문이 넓은 범위에 걸칠 가능성이 있는 것, 그것에 대해서 학습을 위한 데이터의 범위 및 수에는 한계가 있는 것을 감안하여, 질문 및 회답 후보 중의 명사에 대해서 의미 클래스를 도입하고, 그들 명사를 의미 클래스로 치환한 것으로부터 자질을 도출했다. 이들 자질의 도입에 의해 회답을 검색하는 대상이 되는 말뭉치가 대단히 많은 문장을 포함하고, 또한 학습 데이터에 한계가 있을 경우여도 종래의 논팩토이드형의 질의 응답 시스템과 비교해서 크게 정확도가 향상된 논팩토이드형의 질의 응답 시스템을 얻을 수 있었다.
[컴퓨터에 의한 실현]
이 실시형태의 시스템 중, 회답 처리부(170) 및 학습 처리부(172)는 각각, 컴퓨터 하드웨어와, 그 컴퓨터 하드웨어에 의해 실행되는 프로그램과, 컴퓨터 하드웨어에 격납되는 데이터에 의하여 실현된다. 양자가 동일한 컴퓨터 하드웨어 내에 실장되어도 좋다. 도 12는 이 컴퓨터 시스템(330)의 외관을 나타내고, 도 13은 컴퓨터 시스템(330)의 내부 구성을 나타낸다.
도 12를 참조하여, 이 컴퓨터 시스템(330)은 메모리 포트(352) 및 DVD(Digital Versatile Disc) 드라이브(350)를 갖는 컴퓨터(340)와, 키보드(346)와, 마우스(348)와, 모니터(342)를 포함한다.
도 13을 참조하여, 컴퓨터(340)는 메모리 포트(352) 및 DVD 드라이브(350)에 추가해서, CPU(중앙처리장치)(356)와, CPU(356), 메모리 포트(352) 및 DVD 드라이브(350)에 접속된 버스(366)와, 부팅 프로그램 등을 기억하는 판독 전용 메모리(ROM)(358)와, 버스(366)에 접속되어 프로그램 명령, 시스템 프로그램, 및 작업 데이터 등을 기억하는 랜덤 억세스 메모리(RAM)(360)를 포함한다. 컴퓨터 시스템(330)은 또한, 타단말과의 통신을 가능하게 하는 네트워크에의 접속을 제공하는 네트워크 인터페이스(I/F)(344)를 포함한다.
컴퓨터 시스템(330)에 논팩토이드형의 질의 응답 시스템으로서의 동작을 행하게 하기 위한 컴퓨터 프로그램은, DVD 드라이브(350) 또는 메모리 포트(352)에 장착되는 DVD(362) 또는 리무버블 메모리(364)에 기억되고, 또한 하드디스크(354)에 전송된다. 또는, 프로그램은 도면에 나타내지 않은 네트워크를 통해서 컴퓨터(340)에 송신되어 하드디스크(354)에 기억되어도 좋다. 프로그램은 실행의 때에 RAM(360)에 로드된다. DVD(362)로부터, 리무버블 메모리(364)로부터, 또는 네트워크 IF(344)를 통해서 직접적으로 RAM(360)에 프로그램을 로드해도 좋다.
이 프로그램은 컴퓨터(340)에 이 실시형태의 논팩토이드형의 질의 응답 시스템으로서 동작을 행하게 하는 복수의 명령을 포함한다. 이 동작을 행하게 하는데에 필요한 기본적 기능의 몇개는 컴퓨터(340) 상에서 동작하는 오퍼레이팅 시스템(OS) 또는 서드파티의 프로그램, 또는 컴퓨터(340)에 인스톨되는 각종 프로그래밍 툴키트의 모듈에 의해 제공된다. 따라서, 이 프로그램은 이 실시형태의 시스템 및 방법을 실현하는데에 필요한 기능 모두를 반드시 포함하지 않아도 좋다. 이 프로그램은, 명령 중 원하는 결과가 얻어지도록 제어된 방식으로 적절한 기능 또는 프로그래밍 툴키트 내의 적절한 프로그램 툴을 불러냄으로써, 상기한 논팩토이드형의 질의 응답 시스템으로서의 동작을 실행하는 명령만을 포함하고 있으면 좋다. 컴퓨터 시스템(330)의 동작은 주지이다. 따라서 여기에서는 반복하지 않는다.
상기 실시형태에서는 질문은 서비스 이용단말로부터 텍스트로 송신되는 것으로 하고, 회답도 텍스트로 회신되는 것으로 했다. 그러나 본 발명은 그러한 실시형태에는 한정되지 않고, 예를 들면 음성에 의한 질의 응답 시스템에 적용할 수도 있다. 이 경우, 도 5에 나타내는 서비스 이용단말(166)이 휴대전화이며, 후보문 검색부(222) 및 질문문 해석부(226)의 전단계에서 서비스 이용단말(166)로부터 수신한 질문의 음성신호에 대하여 음성인식을 행함으로써 질문을 텍스트 데이터로 변환하는 것이라도 좋다. 이 경우, 회답문 랭킹부(234)의 출력으로서는 회답문 리스트(174)를 웹페이지의 형식으로 서비스 이용단말(166)에 회신해도 좋고, 가장 스코어가 높은 회답에 의거하여 음성 합성을 행함으로써 음성으로서 서비스 이용단말(166)에 회신해도 좋다.
또한, 상기 실시형태는 일본어에 관한 것이었다. 그러나 본 발명은 일본어만에 한정해서 적용 가능한 것은 아니다. 어떠한 언어이든 학습 데이터를 작성 가능하고, 또한 컴퓨터 판독 가능한 문장을 충분하게 많이 수집할 수 있는 언어이면, 어떤 언어에도 적용할 수 있다.
또한, 상기 실시형태에서는 말뭉치 기억부(178)에 기억된 문장에 대해서는 미리 질문문 해석부(226), 평가 처리부(228), 및 의미 클래스 변환부(230)에 의한 처리와 같은 처리를 행해서 그것들의 결과를 해당 문장에 관련시켜 기억하고 있는 것으로 했다. 그렇게 함으로써 자질 벡터 생성부(232)에서의 자질 생성을 위한 처리 시간을 단축할 수 있다. 그러나 본 발명은 그러한 실시형태에는 한정되지 않는다. 구체적으로는, 말뭉치 기억부(178)에 기억된 문서에는 예를 들면 후보문 검색부(222)에 의한 후보문의 검색에 필요한 정보만 부여해 두고, 자질 벡터 생성부(232)에 의한 자질 벡터 생성의 때에 선택된 후보문의 각각에 대해서 자질의 생성에 필요한 처리(질문문 해석부(226), 평가 처리부(228) 및 의미 클래스 변환부(230)에 의한 처리와 같은 처리)를 행하도록 하여도 좋다.
또한, 후보문 검색부(222)에 의한 질문에 대한 회답 후보문의 검색에 있어서는, 상기 실시형태에서는 주로 문서 빈도, 문서 내의 단어 빈도에 의거하여 질문문과 유사한 어휘로 이루어지는 문장을 검색하고 있다. 그러나, 본 발명은 그러한 실시형태에는 한정되지 않는다. 질문에 대한 회답이 될 가능성이 있는 문장을 추출할 수 있다고 생각되는 기준이면, 어떤 기준을 사용해도 좋다.
상기 실시형태에서는 평가 클래스로서 서로 상반되는 평가로 되는 2개의 클래스로 대상을 분류할 경우에 대하여 설명했다. 그러나 본 발명은 그러한 실시형태에는 한정되지 않는다. 예를 들면, 평가 클래스를 일정한 순서가 부여되는 복수의 클래스로 하고, 대상을 그들 복수의 평가 클래스 중 어느 하나로 분류하도록 해도 좋다. 또한, 2개 이상의 평가의 기준을 설치하고, 그들 2개 이상의 기준에 의해 대상을 복수개의 평가 클래스로 분류하도록 하여도 좋다.
금회 개시된 실시형태는 단지 예시이며, 본 발명이 상기한 실시형태에만 제한되는 것은 아니다. 본 발명의 범위는 발명의 상세한 설명의 기재를 참작하면서, 특허 청구범위의 각 청구항에 의해 나타내어지고, 거기에 기재된 문언과 균등한 의미 및 범위 내에서의 모든 변경을 포함한다.
(산업상의 이용 가능성)
본 발명은 자연 언어 처리를 이용한 이유 또는 방법에 관한 질문에 관한 질의 응답 시스템이며, 정확도를 보다 높이는 것이 가능한 질의 응답 시스템 등의 제조, 이용 및 대출 등을 행하는 산업에 있어서 이용할 수 있다.
30 : 질의 응답 시스템 40, 170 : 회답 처리부
42, 172 : 학습 처리부 44, 166 : 서비스 이용단말
46, 176 : SVM 48, 178 : 말뭉치 기억부
50, 174 : 회답문 리스트 60, 190 : QA문 기억부
62, 198 : 학습 데이터 생성부 64, 200 : 학습 데이터 기억부
66 : 학습 처리부 82, 222 : 후보문 검색부
84, 224 : 회답 후보문 기억부 86, 226 : 질문문 해석부
88, 232 : 자질 벡터 생성부 90, 234 : 회답문 랭킹부
160 : 논팩토이드형의 질의 응답 시스템 192 : QA문 해석부
194, 228 : 평가 처리부 196, 230 : 의미 클래스 변환부

Claims (6)

  1. 논팩토이드형의 질문의 입력을 받고, 상기 질문에 대한 회답을 생성하는 논팩토이드형의 질의 응답 시스템으로서,
    처리 대상의 언어의 문서로서 컴퓨터 판독 가능한 문서로 이루어지는 말뭉치를 기억하기 위한 말뭉치 기억수단에 접속되어서 사용되고,
    질문의 입력을 받은 것에 응답하여 상기 말뭉치 기억수단으로부터 상기 질문에 대한 복수개의 회답 후보를 검색해 추출하기 위한 후보 검색수단과,
    질문의 입력을 받은 것에 응답하여, 상기 질문과 상기 후보 검색수단에 기억된 회답 후보 각각의 조합에 대해서 소정의 자질의 집합을 생성하기 위한 자질 생성수단과,
    상기 자질 생성수단에 의해 생성되는 상기 자질의 집합이 주어지면, 상기 자질의 집합을 생성하는 원인이 된 질문 및 회답 후보의 조합에 대해서 상기 회답 후보가 상기 질문에 대한 옳은 회답인 정도를 나타내는 스코어를 산출하도록 미리 학습된 스코어 산출수단과,
    상기 질문과 상기 회답 후보에 기억된 회답 후보 각각의 조합에 대해서, 상기 스코어 산출수단에 의해 산출된 스코어에 의거하여 상기 질문에 대한 옳은 회답일 가능성이 가장 높은 회답 후보를 상기 질문에 대한 회답으로서 출력하는 회답 선택수단을 포함하고,
    상기 후보 검색수단에 의해 검색된 회답 후보의 각각에는 상기 자질 생성수단에 의한 자질의 생성에 필요한 정보가 부여되어 있으며,
    상기 자질 생성수단은,
    상기 질문에 대해서 형태소 해석 및 구문 해석을 행하여 형태소 정보 및 통어 정보를 출력하기 위한 구문 해석수단과,
    상기 질문 중, 어떤 평가기준에 따라서 제 1 평가 클래스로 분류되는 구와 제 2 평가 클래스로 분류되는 구를 특정하기 위한 평가수단을 포함하고, 상기 제 1 평가 클래스 및 제 2 평가 클래스에는 각각 서로 상반되는 평가의 극성이 할당되어 있고,
    상기 질의 응답 시스템은 상기 질문과 상기 회답 후보 각각의 조합에 대해서 상기 구문 해석수단에 의한 해석 결과와, 상기 평가수단에 의해 특정된 구의 부분 및 그 평가 클래스의 극성과, 상기 회답 후보에 부여되어 있는 자질 생성용의 정보에 의거하여 상기 자질의 집합을 생성하기 위한 자질 집합 생성수단을 더 포함하는 것을 특징으로 하는 논팩토이드형의 질의 응답 시스템.
  2. 제 1 항에 있어서,
    상기 자질 생성수단은 상기 구문 해석수단의 출력에 포함되는 각 명사를 미리 준비된 복수개의 단어의 의미 클래스 중 어느 하나로 분류하고, 상기 명사를 대응하는 의미 클래스로 변환하기 위한 의미 클래스 변환수단을 더 포함하고,
    상기 자질 집합 생성수단은 상기 질문과 상기 회답 후보 각각의 조합에 대해서 상기 구문 해석수단에 의한 해석 결과와, 상기 평가수단에 의해 특정된 구의 부분 및 그 평가 클래스의 극성과, 상기 의미 클래스 변환수단에 의한 변환이 된 후의 상기 구문 해석수단의 출력과, 상기 회답 후보에 부여되어 있는 자질 생성용의 정보에 의거하여 상기 자질의 집합을 생성하기 위한 제 1 수단을 포함하는 것을 특징으로 하는 논팩토이드형의 질의 응답 시스템.
  3. 제 2 항에 있어서,
    상기 제 1 수단은 상기 평가수단에 의해 특정된 구의 부분 및 평가 클래스의 극성에 의거하여 생성하는 자질은 질문 중의 구의 평가 클래스의 극성과 회답 후보 중의 구의 평가 클래스의 극성이 일치하는지의 여부를 나타내는 정보를 포함하는 것을 특징으로 하는 논팩토이드형의 질의 응답 시스템.
  4. 제 2 항에 있어서,
    상기 제 1 수단이 생성하는 자질은 상기 구문 해석수단의 출력으로부터 얻어지고, 상기 평가수단의 출력 또는 상기 의미 클래스 변환수단의 출력을 사용하지 않고 얻어지는 자질과, 상기 구문 해석수단의 출력에 상기 평가수단의 출력을 조합시켜서 얻어지는 자질과, 상기 구문 해석수단의 출력에 상기 의미 클래스 변환수단의 출력을 조합시켜서 얻어지는 자질을 포함하는 것을 특징으로 하는 논팩토이드형의 질의 응답 시스템.
  5. 제 2 항에 있어서,
    상기 제 1 수단이 생성하는 자질은 상기 구문 해석수단의 출력에 상기 평가수단의 출력을 조합시키고, 또한 상기 의미 클래스 변환수단의 출력을 조합시켜서 얻어지는 자질을 포함하는 것을 특징으로 하는 논팩토이드형의 질의 응답 시스템.
  6. 논팩토이드형의 질문의 입력을 받고, 상기 질문에 대한 회답을 생성하는 논팩토이드형의 질의 응답 시스템을 컴퓨터에 의해 실현시키는 컴퓨터 프로그램으로서,
    상기 컴퓨터는 처리 대상의 언어의 문서로서 컴퓨터 판독 가능한 문서로 이루어지는 말뭉치를 기억하기 위한 말뭉치 기억수단에 접속되고,
    상기 컴퓨터 프로그램은 상기 컴퓨터를,
    질문의 입력을 받은 것에 응답하여 상기 말뭉치 기억수단으로부터 상기 질문 에 대한 복수개의 회답 후보를 검색해 추출하기 위한 후보 검색수단과,
    질문의 입력을 받은 것에 응답하여 상기 질문과 상기 후보 검색수단에 기억된 회답 후보 각각의 조합에 대해서 소정의 자질 집합을 생성하기 위한 자질 생성수단과,
    상기 자질 생성수단에 의해 생성되는 상기 자질의 집합이 주어지면, 상기 자질의 집합을 생성하는 원인이 된 질문 및 회답 후보의 조합에 대해서 상기 회답 후보가 상기 질문에 대한 옳은 회답인 정도를 나타내는 스코어를 산출하도록 미리 학습된 스코어 산출수단과,
    상기 질문과 상기 회답 후보에 기억된 회답 후보 각각의 조합에 대해서, 상기 스코어 산출수단에 의해 산출된 스코어에 의거하여 상기 질문에 대한 옳은 회답일 가능성이 가장 높은 회답 후보를 상기 질문에 대한 회답으로서 출력하는 회답 선택수단으로서 기능시키고,
    상기 후보 검색수단에 의해 검색된 회답 후보의 각각에는 상기 자질 생성수단에 의한 자질의 생성에 필요한 정보가 부여되어 있으며,
    상기 컴퓨터를 상기 자질 생성수단으로서 기능시키는 프로그램 부분은 상기 컴퓨터를,
    상기 질문에 대해서 형태소 해석 및 구문 해석을 행하고, 형태소 정보 및 통어 정보를 출력하기 위한 구문 해석수단과,
    상기 질문 중, 어떤 평가기준에 따라서 제 1 평가 클래스로 분류되는 구와 제 2 평가 클래스로 분류되는 구를 특정하기 위한 평가수단으로서 기능시키며, 상기 제 1 평가 클래스 및 제 2 평가 클래스에는 각각 서로 상반되는 평가의 극성이 할당되어 있고,
    상기 컴퓨터 프로그램은 또한, 상기 컴퓨터를 상기 질문과 상기 회답 후보 각각의 조합에 대해서, 상기 구문 해석수단에 의한 해석 결과와, 상기 평가수단에 의해 특정된 구의 부분 및 그 평가 클래스의 극성과, 상기 회답 후보에 부여되어 있는 자질 생성용의 정보에 의거하여 상기 자질의 집합을 생성하기 위한 자질 집합 생성수단으로서 기능시키는 것을 특징으로 하는 컴퓨터 프로그램.
KR1020147023478A 2012-02-23 2013-01-23 논팩토이드형 질의 응답 시스템 및 컴퓨터 프로그램 KR101968102B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2012-036972 2012-02-23
JP2012036972A JP5825676B2 (ja) 2012-02-23 2012-02-23 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
PCT/JP2013/051327 WO2013125286A1 (ja) 2012-02-23 2013-01-23 ノン・ファクトイド型質問応答システム及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
KR20140128346A true KR20140128346A (ko) 2014-11-05
KR101968102B1 KR101968102B1 (ko) 2019-04-11

Family

ID=49005480

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147023478A KR101968102B1 (ko) 2012-02-23 2013-01-23 논팩토이드형 질의 응답 시스템 및 컴퓨터 프로그램

Country Status (6)

Country Link
US (1) US9697477B2 (ko)
EP (1) EP2819031A4 (ko)
JP (1) JP5825676B2 (ko)
KR (1) KR101968102B1 (ko)
CN (1) CN104137102B (ko)
WO (1) WO2013125286A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160060253A (ko) * 2014-11-19 2016-05-30 한국전자통신연구원 자연어 질의 응답 시스템 및 방법
KR20170122755A (ko) * 2015-03-06 2017-11-06 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템
KR20190060995A (ko) * 2016-10-07 2019-06-04 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 논팩토이드형 질의응답 시스템 및 방법 그리고 그것을 위한 컴퓨터 프로그램
KR20190081112A (ko) * 2017-12-29 2019-07-09 주식회사 헤르스 딥러닝 기술을 활용한 화학물질 안전관리의 질의응답 관리시스템

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
JP5825676B2 (ja) * 2012-02-23 2015-12-02 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
JP6150282B2 (ja) * 2013-06-27 2017-06-21 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
US9471874B2 (en) 2013-12-07 2016-10-18 International Business Machines Corporation Mining forums for solutions to questions and scoring candidate answers
US9276939B2 (en) * 2013-12-17 2016-03-01 International Business Machines Corporation Managing user access to query results
KR101559376B1 (ko) 2014-02-24 2015-10-12 서울대학교산학협력단 엔트로피를 최대화하는 실시간 조합 자질 구축 방법 및 이를 수행하는 조합 자질 구축 장치
US9471601B2 (en) 2014-03-25 2016-10-18 International Business Machines Corporation Images for a question answering system
US9754207B2 (en) 2014-07-28 2017-09-05 International Business Machines Corporation Corpus quality analysis
US9886479B2 (en) 2014-07-29 2018-02-06 International Business Machines Corporation Managing credibility for a question answering system
JP6414956B2 (ja) * 2014-08-21 2018-10-31 国立研究開発法人情報通信研究機構 質問文生成装置及びコンピュータプログラム
KR101581816B1 (ko) * 2014-10-14 2016-01-05 서강대학교산학협력단 기계학습을 이용한 음성인식방법
US9946763B2 (en) * 2014-11-05 2018-04-17 International Business Machines Corporation Evaluating passages in a question answering computer system
US20160125751A1 (en) * 2014-11-05 2016-05-05 International Business Machines Corporation Answer management in a question-answering environment
JP6087333B2 (ja) 2014-11-26 2017-03-01 株式会社ユニバーサルエンターテインメント 情報提供システム、情報提供方法、及びプログラム
JP6345577B2 (ja) 2014-11-26 2018-06-20 株式会社ユニバーサルエンターテインメント 情報提供システム、情報提供方法、プログラム、及びデータ構造
US10061842B2 (en) 2014-12-09 2018-08-28 International Business Machines Corporation Displaying answers in accordance with answer classifications
US10127284B2 (en) * 2014-12-18 2018-11-13 International Business Machines Corporation Scoring attributes in deep question answering systems based on algorithmic source code influences
US9928269B2 (en) * 2015-01-03 2018-03-27 International Business Machines Corporation Apply corrections to an ingested corpus
CN104794109B (zh) * 2015-04-09 2017-06-23 山西大学 一种应用于学习机的智能解答***
US10102275B2 (en) 2015-05-27 2018-10-16 International Business Machines Corporation User interface for a query answering system
US9727552B2 (en) 2015-05-27 2017-08-08 International Business Machines Corporation Utilizing a dialectical model in a question answering system
FR3037843B1 (fr) * 2015-06-24 2018-01-05 Gaztransport Et Technigaz Procede et dispositif de decoupe de matiere isolante fibreuse ou alveolaire
US10223440B2 (en) * 2015-06-29 2019-03-05 International Business Machines Corporation Question and answer system emulating people and clusters of blended people
JP6544131B2 (ja) * 2015-08-14 2019-07-17 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP6618735B2 (ja) * 2015-08-31 2019-12-11 国立研究開発法人情報通信研究機構 質問応答システムの訓練装置及びそのためのコンピュータプログラム
US10146858B2 (en) 2015-12-11 2018-12-04 International Business Machines Corporation Discrepancy handler for document ingestion into a corpus for a cognitive computing system
CN105630917A (zh) * 2015-12-22 2016-06-01 成都小多科技有限公司 智能应答方法及装置
US9842161B2 (en) 2016-01-12 2017-12-12 International Business Machines Corporation Discrepancy curator for documents in a corpus of a cognitive computing system
US10176250B2 (en) 2016-01-12 2019-01-08 International Business Machines Corporation Automated curation of documents in a corpus for a cognitive computing system
US9720981B1 (en) 2016-02-25 2017-08-01 International Business Machines Corporation Multiple instance machine learning for question answering systems
JP6623852B2 (ja) * 2016-03-09 2019-12-25 富士通株式会社 検索制御プログラム、検索制御装置及び検索制御方法
US10592519B2 (en) 2016-03-29 2020-03-17 Microsoft Technology Licensing, Llc Computational-model operation using multiple subject representations
US20170293621A1 (en) * 2016-04-06 2017-10-12 International Business Machines Corporation Natural language processing based on textual polarity
US20170293620A1 (en) * 2016-04-06 2017-10-12 International Business Machines Corporation Natural language processing based on textual polarity
US10706044B2 (en) 2016-04-06 2020-07-07 International Business Machines Corporation Natural language processing based on textual polarity
CN107402912B (zh) * 2016-05-19 2019-12-31 北京京东尚科信息技术有限公司 解析语义的方法和装置
JP6767042B2 (ja) * 2016-09-26 2020-10-14 国立研究開発法人情報通信研究機構 シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム
JP6721179B2 (ja) * 2016-10-05 2020-07-08 国立研究開発法人情報通信研究機構 因果関係認識装置及びそのためのコンピュータプログラム
WO2018066489A1 (ja) * 2016-10-07 2018-04-12 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム
US10699215B2 (en) * 2016-11-16 2020-06-30 International Business Machines Corporation Self-training of question answering system using question profiles
US10303763B2 (en) * 2017-01-06 2019-05-28 International Business Machines Corporation Process for identifying completion of domain adaptation dictionary activities
JP2019020893A (ja) 2017-07-13 2019-02-07 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答装置
JP6218057B1 (ja) * 2017-07-14 2017-10-25 Jeインターナショナル株式会社 自動応答サーバー装置、端末装置、応答システム、応答方法、およびプログラム
US10902738B2 (en) * 2017-08-03 2021-01-26 Microsoft Technology Licensing, Llc Neural models for key phrase detection and question generation
JP6972788B2 (ja) 2017-08-31 2021-11-24 富士通株式会社 特定プログラム、特定方法および情報処理装置
US10387572B2 (en) * 2017-09-15 2019-08-20 International Business Machines Corporation Training data update
US11409749B2 (en) * 2017-11-09 2022-08-09 Microsoft Technology Licensing, Llc Machine reading comprehension system for answering queries related to a document
US11449762B2 (en) 2018-02-20 2022-09-20 Pearson Education, Inc. Real time development of auto scoring essay models for custom created prompts
US11443140B2 (en) * 2018-02-20 2022-09-13 Pearson Education, Inc. Systems and methods for automated machine learning model training for a custom authored prompt
JP6691340B2 (ja) * 2018-03-07 2020-04-28 株式会社哲英 質問応答システム、質問受付回答システム、第1次回答システム、及びそれらを用いた質問応答方法
JP6772213B2 (ja) * 2018-04-23 2020-10-21 日本電信電話株式会社 質問応答装置、質問応答方法及びプログラム
US11106664B2 (en) * 2018-05-03 2021-08-31 Thomson Reuters Enterprise Centre Gmbh Systems and methods for generating a contextually and conversationally correct response to a query
JP7126682B2 (ja) * 2018-05-11 2022-08-29 国立研究開発法人情報通信研究機構 対話システム及びそのコンピュータプログラム
CN110489531B (zh) * 2018-05-11 2023-05-30 阿里巴巴集团控股有限公司 高频问题的确定方法和装置
JP7081671B2 (ja) 2018-08-06 2022-06-07 富士通株式会社 評価プログラム、評価方法および情報処理装置
RU2704738C1 (ru) * 2018-10-15 2019-10-30 Общество с ограниченной ответственностью "Уралинновация" Автоматизированная информационно-голосовая вопросно-ответная система
US11822588B2 (en) * 2018-10-24 2023-11-21 International Business Machines Corporation Supporting passage ranking in question answering (QA) system
CN109739956B (zh) * 2018-11-08 2020-04-10 第四范式(北京)技术有限公司 语料清洗方法、装置、设备及介质
CN111309875B (zh) * 2018-12-10 2023-08-04 百度在线网络技术(北京)有限公司 问题应答的方法、装置、设备和存储介质
CN111382573A (zh) * 2018-12-12 2020-07-07 百度在线网络技术(北京)有限公司 用于答案质量评估的方法、装置、设备和存储介质
DE112019006005T5 (de) * 2019-01-08 2021-09-02 Mitsubishi Electric Corporation Semantische-Beziehungen-Lerneinrichtung, Semantische-Beziehungen-Lernverfahren und Semantische-Beziehungen-Lernprogramm
US11093491B2 (en) 2019-01-16 2021-08-17 International Business Machines Corporation Question answering system using topic-sensitive source reliability scoring
US11262978B1 (en) * 2019-06-19 2022-03-01 Amazon Technologies, Inc. Voice-adapted reformulation of web-based answers
CN110837738B (zh) * 2019-09-24 2023-06-30 平安科技(深圳)有限公司 相似问识别方法、装置、计算机设备及存储介质
RU2722461C1 (ru) * 2019-11-19 2020-06-01 Общество с ограниченной ответственностью "Уралинновация" Голосовая роботизированная вопросно-ответная система и способ ее автоматического взаимодействия с электронным устройством пользователя
RU2724600C1 (ru) * 2019-11-19 2020-06-25 Общество с ограниченной ответственностью "Уралинновация" Голосовая роботизированная вопросно-ответная система и способ ее автоматического взаимодействия с электронным устройством пользователя
CN111339268B (zh) * 2020-02-19 2023-08-15 北京百度网讯科技有限公司 实体词识别方法和装置
US20210279605A1 (en) * 2020-03-06 2021-09-09 International Business Machines Corporation Efficiently generating accurate responses to a multi-facet question by a question answering system
US20220318230A1 (en) * 2021-04-05 2022-10-06 Vianai Systems, Inc. Text to question-answer model system
CN115455160A (zh) * 2022-09-02 2022-12-09 腾讯科技(深圳)有限公司 一种多文档阅读理解方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040016799A (ko) * 2002-08-19 2004-02-25 마츠시타 덴끼 산교 가부시키가이샤 문서 검색 시스템 및 질문 응답 시스템
JP2009116662A (ja) * 2007-11-07 2009-05-28 National Institute Of Information & Communication Technology 質問応答装置、質問応答方法、及びプログラム
JP2009157791A (ja) * 2007-12-27 2009-07-16 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、装置、プログラム並びにそのプログラムを記録した記録媒体
KR20130021944A (ko) * 2011-08-24 2013-03-06 한국전자통신연구원 서술형 질의 응답 방법 및 장치

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002247029A (ja) * 2000-02-02 2002-08-30 Sony Corp 認証装置、認証システムおよびその方法、処理装置、通信装置、通信制御装置、通信システムおよびその方法、情報記録方法およびその装置、情報復元方法およびその装置、その記録媒体
CN101377777A (zh) * 2007-09-03 2009-03-04 北京百问百答网络技术有限公司 一种自动问答方法和***
US8543565B2 (en) * 2007-09-07 2013-09-24 At&T Intellectual Property Ii, L.P. System and method using a discriminative learning approach for question answering
CN101872349B (zh) 2009-04-23 2013-06-19 国际商业机器公司 处理自然语言问题的方法和装置
JP5825676B2 (ja) * 2012-02-23 2015-12-02 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
JP5924666B2 (ja) * 2012-02-27 2016-05-25 国立研究開発法人情報通信研究機構 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム
JP6206840B2 (ja) * 2013-06-19 2017-10-04 国立研究開発法人情報通信研究機構 テキストマッチング装置、テキスト分類装置及びそれらのためのコンピュータプログラム
JP6150282B2 (ja) * 2013-06-27 2017-06-21 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
JP6150291B2 (ja) * 2013-10-08 2017-06-21 国立研究開発法人情報通信研究機構 矛盾表現収集装置及びそのためのコンピュータプログラム
JP5907393B2 (ja) * 2013-12-20 2016-04-26 国立研究開発法人情報通信研究機構 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
JP5904559B2 (ja) * 2013-12-20 2016-04-13 国立研究開発法人情報通信研究機構 シナリオ生成装置、及びそのためのコンピュータプログラム
JP6403382B2 (ja) * 2013-12-20 2018-10-10 国立研究開発法人情報通信研究機構 フレーズペア収集装置、及びそのためのコンピュータプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040016799A (ko) * 2002-08-19 2004-02-25 마츠시타 덴끼 산교 가부시키가이샤 문서 검색 시스템 및 질문 응답 시스템
JP2009116662A (ja) * 2007-11-07 2009-05-28 National Institute Of Information & Communication Technology 質問応答装置、質問応答方法、及びプログラム
JP2009157791A (ja) * 2007-12-27 2009-07-16 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、装置、プログラム並びにそのプログラムを記録した記録媒体
KR20130021944A (ko) * 2011-08-24 2013-03-06 한국전자통신연구원 서술형 질의 응답 방법 및 장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
류이치로 히가시나가, 히데키 이소자키, 「WHY형 질문을 위한 말뭉치를 사용한 질의 응답 시스템(Corpus-basedquestion answering for why-questions)」, In Proc. of IJCNLP, pp.418-425.
마사키 무라타, 사치요 츠카와키, 토시유키 카나마루, 칭 마, 히토시 이사하라, 「논팩토이드형의 일본어의 질문에 대하여, 회답의 형태에 따른 가중을 한 회답 검색을 이용하여 회답하는 시스템(A system for answering non-factoid Japanese questions by using passage retrieval weighted based on type of answer)」, In Proc. of NTCIR-6.
테츠지 나카가와, 켄타로우 이누이, 사다오 쿠로하시, 「의존 트리에 의거한 잠재 변수를 갖는 CRF를 사용한 감정의 분류(Tetsuji Nakagawa, Kentaro Inui, and Sadao Kurohashi, Dependencytree-based sentiment classification using CRFs with hidden variables.)」, In Proc. of Human Language Technologies:The 2010 Annual Conference of Computational Linguistics, Pp.786-794, Los Angeles, California, June. Association for ComputationalLinguistics.

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160060253A (ko) * 2014-11-19 2016-05-30 한국전자통신연구원 자연어 질의 응답 시스템 및 방법
KR20170122755A (ko) * 2015-03-06 2017-11-06 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템
KR20190060995A (ko) * 2016-10-07 2019-06-04 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 논팩토이드형 질의응답 시스템 및 방법 그리고 그것을 위한 컴퓨터 프로그램
KR20190081112A (ko) * 2017-12-29 2019-07-09 주식회사 헤르스 딥러닝 기술을 활용한 화학물질 안전관리의 질의응답 관리시스템

Also Published As

Publication number Publication date
EP2819031A1 (en) 2014-12-31
KR101968102B1 (ko) 2019-04-11
EP2819031A4 (en) 2016-05-18
CN104137102B (zh) 2017-06-13
WO2013125286A1 (ja) 2013-08-29
US9697477B2 (en) 2017-07-04
US20150026106A1 (en) 2015-01-22
JP5825676B2 (ja) 2015-12-02
JP2013171550A (ja) 2013-09-02
CN104137102A (zh) 2014-11-05

Similar Documents

Publication Publication Date Title
KR101968102B1 (ko) 논팩토이드형 질의 응답 시스템 및 컴퓨터 프로그램
Hill et al. Learning distributed representations of sentences from unlabelled data
Zhou et al. Predicting discourse connectives for implicit discourse relation recognition
KR102256240B1 (ko) 논팩토이드형 질의 응답 시스템 및 방법
Zhang et al. Entity linking leveraging automatically generated annotation
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
US8832064B2 (en) Answer determination for natural language questioning
Jabbar et al. Empirical evaluation and study of text stemming algorithms
Chen et al. Towards robust unsupervised personal name disambiguation
JP2006244262A (ja) 質問回答検索システム、方法およびプログラム
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
JP2011118689A (ja) 検索方法及びシステム
Rentoumi et al. United we stand: Improving sentiment analysis by joining machine learning and rule based methods
CN109284389A (zh) 一种文本数据的信息处理方法、装置
JP6942759B2 (ja) 情報処理装置、プログラム及び情報処理方法
Sunitha A hybrid parts of speech tagger for Malayalam language
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
Jurdziński Word embeddings for morphologically complex languages
Shekhar et al. Computational linguistic retrieval framework using negative bootstrapping for retrieving transliteration variants
Kirilin et al. ICL-HD at SemEval-2016 Task 10: improving the detection of minimal semantic units and their meanings with an ontology and word embeddings
Lai et al. An unsupervised approach to discover media frames
Li et al. A unified model for solving the OOV problem of chinese word segmentation
Tran et al. Modelling consequence relationships between two action, state or process Vietnamese sentences for improving the quality of new meaning-summarizing sentence
Glavaš et al. From requirements to code: syntax-based requirements analysis for data-driven application development
Zhao et al. Automatic Recognition and Extraction of English Verb Types Based on Index Line Clustering

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right