JP6649536B1 - 対話処理装置、学習装置、対話処理方法、学習方法及びプログラム - Google Patents

対話処理装置、学習装置、対話処理方法、学習方法及びプログラム Download PDF

Info

Publication number
JP6649536B1
JP6649536B1 JP2019566974A JP2019566974A JP6649536B1 JP 6649536 B1 JP6649536 B1 JP 6649536B1 JP 2019566974 A JP2019566974 A JP 2019566974A JP 2019566974 A JP2019566974 A JP 2019566974A JP 6649536 B1 JP6649536 B1 JP 6649536B1
Authority
JP
Japan
Prior art keywords
question
answer
history
document
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019566974A
Other languages
English (en)
Other versions
JPWO2020240709A1 (ja
Inventor
康仁 大杉
康仁 大杉
いつみ 斉藤
いつみ 斉藤
京介 西田
京介 西田
久子 浅野
久子 浅野
準二 富田
準二 富田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Application granted granted Critical
Publication of JP6649536B1 publication Critical patent/JP6649536B1/ja
Publication of JPWO2020240709A1 publication Critical patent/JPWO2020240709A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

対話における現在の質問を表す単語列である質問Qiと、前記質問Qiに対する回答Aiの生成に用いられる文書Pと、過去のk個の質問をそれぞれ表す単語列である質問履歴{Qi−1,・・・,Qi−k}と、前記k個の質問に対する回答をそれぞれ表す単語列である回答履歴{Ai−1,・・・,Ai−k}とを入力として、予め学習済みのモデルパラメータを用いて、抽出形式又は生成形式の機械読解によって前記回答Aiを生成する生成手段、を有することを特徴とする。

Description

本発明は、対話処理装置、学習装置、対話処理方法、学習方法及びプログラムに関する。
機械読解に関する研究が従来から盛んに行われている。機械読解とは、文書と質問とを入力として、文書から質問に対する回答を生成する技術のことである。また、機械読解で回答を生成する際の方法として、文書内の単語を抜き出して回答を生成する「抽出形式」と、文書内の単語以外の単語も用いて回答を生成する「生成形式」との2通りが知られている。一般に、抽出形式よりも生成形式の方が、より自然な文を回答として生成できることが知られている。
ここで、従来から盛んに研究されている機械読解は一問一答形式である。すなわち、機械読解では、仮に複数の質問が入力されたとしても、これらの質問は独立に扱われ、それぞれの質問に対して独立に回答が生成される。これに対して、近年では、質問と回答とが交互に繰り返されるような対話型の機械読解も研究されている。
対話型の機械読解とは、文書と現在の質問と過去の質問履歴と過去の回答履歴とを入力として、現在の質問に対する回答を生成する技術のことである。このため、対話型の機械読解では、質問と回答とが繰り返される中で、これまでの対話の内容(つまり、これまでの質問履歴と回答履歴)を踏まえた回答を生成することができる。例えば、非特許文献1には、現在の質問に対する回答を抽出形式によって生成する対話型の機械読解として、文書内で回答となる範囲の開始位置と終了位置とを出力する技術が記載されている。
Hsin-Yuan Huang, Eunsol Choi, and Wen-tau Yih. Flowqa: Grasping flow in history for conversational machine comprehension. arXiv preprint arXiv:1810.06683, 2018.
しかしながら、例えば非特許文献1に記載されている対話型の機械読解は抽出形式によって回答を生成しているため、生成形式によっては回答を生成することができなかった。このように、従来の対話型の機械読解では、抽出形式又は生成形式のいずれか一方のみが適用可能であった。
本発明の実施の形態は、上記の点に鑑みてなされたもので、抽出形式と生成形式とのいずれにも適用可能な対話型の機械読解を実現することを目的とする。
上記目的を達成するため、本発明の実施の形態における対話処理装置は、対話における現在の質問を表す単語列である質問Qと、前記質問Qに対する回答Aの生成に用いられる文書Pと、過去のk個の質問をそれぞれ表す単語列である質問履歴{Qi−1,・・・,Qi−k}と、前記k個の質問に対する回答をそれぞれ表す単語列である回答履歴{Ai−1,・・・,Ai−k}とを入力として、予め学習済みのモデルパラメータを用いて、抽出形式又は生成形式の機械読解によって前記回答Aを生成する生成手段、を有することを特徴とする。
抽出形式と生成形式とのいずれにも適用可能な対話型の機械読解を実現することができる。
本発明の実施の形態における対話処理装置の全体構成(推論時)の一例を示す図である。 本発明の実施の形態における対話処理装置の全体構成(学習時)の一例を示す図である。 本発明の実施の形態における対話処理の一例を示すフローチャートである。 本発明の実施の形態における学習処理の一例を示すフローチャートである。 本発明の実施の形態における対話処理装置のハードウェア構成の一例を示す図である。
以下、本発明の実施の形態(以降、「本実施形態」とも表す。)について説明する。本実施形態では、抽出形式と生成形式とのいずれにも適用可能な対話型の機械読解を実現する対話処理装置10について説明する。すなわち、文書と現在の質問と過去の質問履歴と過去の回答履歴とを入力として、抽出形式又は生成形式によって現在の質問に対する回答を生成することで、対話型の機械読解を実現する対話処理装置10について説明する。なお、文書は、「パッセージ」や「検索対象テキスト」等と称されてもよい。
<対話処理装置10の全体構成>
対話型の機械読解では、ニューラルネットワークにより実現されるモデルを用いて現在の質問に対する回答を生成する。このため、モデルのパラメータ(以降、「モデルパラメータ」とも表す。)を学習する「学習時」と、学習済みのモデルパラメータを用いて現在の質問に対する回答を生成する「推論時」とが存在する。なお、モデルパラメータは、例えば、補助記憶装置等の記憶装置に記憶される。
≪推論時における対話処理装置10の全体構成≫
推論時における対話処理装置10の全体構成について、図1を参照しながら説明する。図1は、本発明の実施の形態における対話処理装置10の全体構成(推論時)の一例を示す図である。
図1に示すように、推論時における対話処理装置10は、機能部として、対話処理部100を有する。対話処理部100は、現在の質問Qと文書Pと質問履歴{Qi−1,・・・,Qi−k}と回答履歴{Ai−1,・・・,Ai−k}とを入力として、学習済みのモデルパラメータを用いて抽出形式又は生成形式により回答Aを生成する。そして、対話処理部100は、生成した回答Aを出力する。ここで、iは対話の中で質問(及びその回答)が何番目であるかを表すインデックスであり、kは現在の質問Qに対する回答Aを生成する際に履歴として考慮する過去の回答及び質問の個数である。kは、例えば、予め設定される。
また、現在の質問Q及び過去の質問Qi−1,・・・,Qi−kの各々は、それぞれ1つ以上の単語で構成されるテキスト(つまり、文字列)である。同様に、過去の回答Ai−1,・・・,Ai−kの各々は、それぞれ1つ以上の単語で構成されるテキストである。同様に、文書Pも1つ以上の単語で構成されるテキストである。以降では、文書Pを構成する単語数(つまり、文書Pの長さ)をTで表す。ただし、Tは、文書Pを構成する単語数に限られず、例えば、「文書Pを構成する単語数+特殊文字数」であってもよい。なお、特殊文字としては、例えば、文頭を表す文字、文末を表す文字、パディングに用いられる文字、単語や文同士を結合する際に用いられる文字等が挙げられる。
なお、対話型の機械読解では複数の文書が含まれる文書集合が入力されることもあるが、本実施形態では、単一の文書Pが入力されるものとする。また、本実施形態では、文書Pの長さとしては、1段落程度の単語数(例えば、数百語程度)を想定する。
図1に示すように、対話処理部100には、質問符号化部110と、文脈符号化部120と、文脈結合部130と、回答生成部140とが含まれる。これらの各機能部はそれぞれ1つ以上のニューラルネットワークにより実現される。
質問符号化部110は、文書Pと現在の質問Qとを入力として、学習済みモデルパラメータを用いて現在の質問Qで条件付けされた文書Pの特徴量{u ,・・・,u }を算出する(つまり、現在の質問Qを符号化する。)。なお、u ,・・・,u はそれぞれd次元のベクトルである。
文脈符号化部120は、文書Pと質問履歴{Qi−1,・・・,Qi−k}と回答履歴{Ai−1,・・・,Ai−k}とを入力として、学習済みモデルパラメータを用いて、質問履歴{Qi−1,・・・,Qi−k}で条件付けされた文書Pの特徴量{ui−1 ,・・・,ui−k },・・・,{ui−1 ,・・・,ui−k }と、回答履歴{Ai−1,・・・,Ai−k}で条件付けされた文書Pの特徴量{vi−1 ,・・・,vi−k },・・・,{vi−1 ,・・・,vi−k }とを算出する(つまり、質問履歴{Qi−1,・・・,Qi−k}と回答履歴{Ai−1,・・・,Ai−k}とをそれぞれ符号化する。)。なお、t=1,・・・,Tに対して、ui−1 ,・・・,ui−k ,vi−1 ,・・・,vi−k はそれぞれd次元のベクトルである。
ここで、例えば非特許文献1に記載されている対話型の機械読解では、回答履歴中の各回答は文書内で回答となる範囲の開始位置と終了位置との組で表現される一方で、質問履歴中の各質問はテキストで表現される。これに対して、本実施形態では、上述したように、回答履歴{Ai−1,・・・,Ai−k}中の各回答も、質問履歴{Qi−1,・・・,Qi−k}中の各質問もいずれもテキストで表現される。このため、本実施形態では、質問履歴に関する文書Pの特徴量{ui−1 ,・・・,ui−k }(t=1,・・・,T)と、回答履歴に関する文書Pの特徴量{vi−1 ,・・・,vi−k }(t=1,・・・,T)とを等価に扱うことが可能となる。
文脈結合部130は、質問符号化部110で算出された特徴量{u ,・・・,u }と、文脈符号化部120で算出された特徴量{ui−1 ,・・・,ui−k }及び{vi−1 ,・・・,vi−k }(t=1,・・・,T)とを入力として、学習済みモデルパラメータを用いて特徴量o(t=1,・・・,T)を算出する。これらの特徴量oはd×(1+2k)次元のベクトルであり、現在の質問Qと質問履歴{Qi−1,・・・,Qi−k}と回答履歴{Ai−1,・・・,Ai−k}とを反映した特徴量である。
回答生成部140は、文脈結合部130で算出された特徴量o(t=1,・・・,T)を入力として、学習済みモデルパラメータを用いて回答Aを生成する。このとき、回答生成部140は、後述するように抽出形式又は生成形式により回答Aを生成する。
≪学習時における対話処理装置10の全体構成≫
学習時における対話処理装置10の全体構成について、図2を参照しながら説明する。図2は、本発明の実施の形態における対話処理装置10の全体構成(学習時)の一例を示す図である。
図2に示すように、学習時における対話処理装置10は、機能部として、対話処理部100と、更新部200とを有する。なお、対話処理部100は推論時と同様であるため、その説明を省略する。ただし、学習時では、対話処理部100は、学習済みでないモデルパラメータを用いて回答Aを生成する。
更新部200は、現在の質問Qに対する正解回答
と、対話処理部100によって生成された回答Aとを入力として、教師あり学習の手法によりモデルパラメータを更新する。これにより、モデルパラメータが学習される。なお、以降では、現在の質問Qに対する正解回答を「^A」とも表記する。
<対話処理>
以降では、現在の質問Qと文書Pと質問履歴{Qi−1,・・・,Qi−k}と回答履歴{Ai−1,・・・,Ai−k}とを入力として、学習済みのモデルパラメータを用いて抽出形式又は生成形式により回答Aを生成する処理(対話処理)について、図3を参照しながら説明する。図3は、本発明の実施の形態における対話処理の一例を示すフローチャートである。
ステップS101:質問符号化部110は、文書Pと現在の質問Qとを入力として、学習済みモデルパラメータを用いて現在の質問Qで条件付けされた文書Pの特徴量u (t=1,・・・,T)を算出する。
ここで、質問符号化部110を実現するニューラルネットワークのモデルとしては、例えば、以下の参考文献1に記載されているBERT(Bidirectional Encoder Representations from Transformers)と呼ばれるモデルを採用することができる。
[参考文献1]
J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova. Bert:Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
質問符号化部110を実現するニューラルネットワークのモデルはBERT以外の他の符号化モデルでもよいが、BERTのような「Transformerモデルを用いた事前学習を行うことによって、言語理解に関する知識を持つモデル」を用いることで、より高い精度を実現することが可能となる。なお、Transformerモデルについては、以下の参考文献2を参照されたい。
[参考文献2]
A. Vaswani, N. Shazeer, N. Parmar, and J. Uszkoreit. Attention is all you need, arXiv preprint arXiv:1706.03762, 2017.
質問符号化部110を実現するニューラルネットワークのモデルとして上記の参考文献1に記載されているBERTを採用する場合、質問符号化部110は、文書Pと現在の質問Qとをセパレータトークン[SEP]で結合した上で、モデルに入力する。これにより、現在の質問Qで条件付けされた文書Pの特徴量u (t=1,・・・,T)が得られる。
なお、質問符号化部110を実現するニューラルネットワークのモデルはBERTに限られず、文書Pと現在の質問Qとを入力として現在の質問Qで条件付けされた文書Pの特徴量u (t=1,・・・,T)を算出するモデルであれば任意のモデルを採用することが可能である。
ステップS102:文脈符号化部120は、文書Pと質問履歴{Qi−1,・・・,Qi−k}と回答履歴{Ai−1,・・・,Ai−k}とを入力として、学習済みモデルパラメータを用いて、質問履歴{Qi−1,・・・,Qi−k}で条件付けされた文書Pの特徴量{ui−1 ,・・・,ui−k }(t=1,・・・,T)と、回答履歴{Ai−1,・・・,Ai−k}で条件付けされた文書Pの特徴量{vi−1 ,・・・,vi−k }(t=1,・・・,T)とを算出する。
ここで、文脈符号化部120を実現するニューラルネットワークのモデルとしては、例えば、上記の参考文献1に記載されているBERTを採用することができる。文脈符号化部120を実現するニューラルネットワークのモデルとしてBERTを採用する場合、文脈符号化部120は、質問履歴{Qi−1,・・・,Qi−k}を符号化するモデルと、回答履歴{Ai−1,・・・,Ai−k}を符号化するモデルとが含まれる。したがって、この場合、文脈符号化部120は、質問履歴中の各質問と文書Pとをセパレータトークン[SEP]で結合した上で、質問履歴{Qi−1,・・・,Qi−k}を符号化するモデルに入力する。同様に、文脈符号化部120は、回答履歴中の各回答と文書Pとをセパレータトークン[SEP]で結合した上で、回答履歴{Ai−1,・・・,Ai−k}を符号化するモデルに入力する。
文脈符号化部120を実現するニューラルネットワークのモデルはBERT以外の他の符号化モデルでもよいが、BERTのような「Transformerモデルを用いた事前学習を行うことによって、言語理解に関する知識を持つモデル」を用いることで、より高い精度を実現することが可能となる。なお、Transformerモデルについては、上記の参考文献2を参照されたい。
より具体的には、例えば、或る過去の質問Qi−j(j∈{1,・・・,k})を符号化する場合、文脈符号化部120は、この過去の質問Qi−jと文書Pとをセパレータトークン[SEP]で結合した上で、質問履歴{Qi−1,・・・,Qi−k}を符号化するモデルに入力する。これにより、過去の質問Qi−jで条件付けされた文書Pの特徴量{ui−j ,・・・,ui−j }が得られる。
同様に、例えば、或る過去の回答Ai−j(j∈{1,・・・,k})を符号化する場合、文脈符号化部120は、この過去の回答Ai−jと文書Pとをセパレータトークン[SEP]で結合した上で、回答履歴{Ai−1,・・・,Ai−k}を符号化するモデルに入力する。これにより、過去の回答Ai−jで条件付けされた文書Pの特徴量{vi−j ,・・・,vi−j }が得られる。
以上により、過去の質問Qi−j(j=1,・・・,k)でそれぞれ条件付けされた文書Pの特徴量{ui−1 ,・・・,ui−k }(t=1,・・・,T)と、過去の回答Ai−j(j=1,・・・,k)でそれぞれ条件付けされた文書Pの特徴量{vi−1 ,・・・,vi−k }(t=1,・・・,T)とが算出される。
なお、文脈符号化部120を実現するニューラルネットワークのモデルはBERTに限られず、文書Pと質問履歴{Qi−1,・・・,Qi−k}と回答履歴{Ai−1,・・・,Ai−k}とを入力として、質問履歴{Qi−1,・・・,Qi−k}で条件付けされた文書Pの特徴量{ui−1 ,・・・,ui−k }(t=1,・・・,T)と、回答履歴{Ai−1,・・・,Ai−k}で条件付けされた文書Pの特徴量{vi−1 ,・・・,vi−k }(t=1,・・・,T)とを算出するモデルであれば任意のモデルを採用することが可能である。
ステップS103:文脈結合部130は、質問符号化部110で算出された特徴量{u ,・・・,u }と、文脈符号化部120で算出された特徴量{ui−1 ,・・・,ui−k }及び{vi−1 ,・・・,vi−k }(t=1,・・・,T)とを入力として、学習済みモデルパラメータを用いて特徴量o(t=1,・・・,T)を算出する。具体的には、文脈結合部130は、o=[u ;ui−1 ;・・・;ui−k ;vi−1 ;・・・;vi−k ]として、各t=1,・・・,Tに対して特徴量oを算出すればよい。ここで、演算子「;」は次元方向の連結を表す。これにより、特徴量o(t=1,・・・,T)が得られる。なお、この場合、各特徴量o(t=1,・・・,T)はd×(1+2k)次元のベクトルである。
ここで、文脈結合部130を実現するニューラルネットワークのモデルとしては、特徴量{u ,・・・,u }と特徴量{ui−1 ,・・・,ui−k }及び{vi−1 ,・・・,vi−k }(t=1,・・・,T)とを入力として、現在の質問Qと質問履歴{Qi−1,・・・,Qi−k}と回答履歴{Ai−1,・・・,Ai−k}とを反映した特徴量o(t=1,・・・,T)を算出可能なモデルであれば、任意のモデルを採用することが可能である。具体的には、例えば、RNN(Recurrent Neural Network)等を採用することが可能である。
ただし、文脈結合部130は必ずしもニューラルネットワークで実現されている必要はなく、文脈結合部130は、各t=1,・・・,Tに対して、上記の演算子「;」によりu と{ui−1 ,・・・,ui−k }と{vi−1 ,・・・,vi−k }とを結合する処理を行ってもよい。
ステップS104:回答生成部140は、文脈結合部130で算出された特徴量o(t=1,・・・,T)を入力として、学習済みモデルパラメータを用いて抽出形式又は生成形式により回答Aを生成する。
(1)抽出形式により回答Aを生成する場合
抽出形式により回答Aを生成する場合、回答生成部140を実現するニューラルネットワークのモデルとしては、例えば、以下の参考文献3に記載されているBiDAF(BiDirectional Attention Flow)と呼ばれるモデルを採用することができる。この場合、回答生成部140をBiDAFのModeling LayerとOutput Layerとで実現する。具体的には、回答生成部140は、参考文献3に記載されているBiDAFのModeling Layerに特徴量o(t=1,・・・,T)を入力して、Output Layerの出力として文書Pの各単語が回答Aの開始位置である確率と終了位置である確率とを出力する。そして、回答生成部140は、これらの確率に基づいて動的計画法によって回答Aとなる文書Pの範囲を推定した上で、当該範囲内の単語を文書Pから抜き出すことで回答Aを生成する。
[参考文献3]
Min Joon Seo, Aniruddha Kembhavi, Ali Farhadi, and Hannaneh Hajishirzi. Bidirectional attention flow for machine comprehension. In ICLR 2017.
なお、抽出形式により回答Aを生成する場合に、回答生成部140を実現するニューラルネットワークのモデルはBiDAFに限られず、特徴量o(t=1,・・・,T)を入力として、抽出形式により回答Aを生成するモデルであれば任意のモデルを採用することが可能である。
(2)生成形式により回答Aを生成する場合
生成形式により回答Aを生成する場合、回答生成部140を実現するニューラルネットワークのモデルとしては、例えば、以下の参考文献4に記載されているSequence-to-sequence attentional modelと呼ばれるモデルやPointer-generatorと呼ばれるモデルを採用することができる。この場合、回答生成部140を、Sequence-to-sequence attentional modelの符号化器(Encoder)と復号化器(Decoder)、又は、Pointer-generatorの符号化器と復号化器で実現する。具体的には、回答生成部140は、参考文献4に記載されているSequence-to-sequence attentional model又はPointer-generatorの符号化器に特徴量o(t=1,・・・,T)を入力して、文書Pの各単語を重視する確率(参考文献4に記載されているAttention Distribution)を算出する。そして、回答生成部140は、これらの確率を復号化器(参考文献4に記載されているSequence-to-sequence attentional model又はPointer-generatorの復号化器)に入力して、回答Aを生成する。なお、このとき、回答生成部140は、文書Pの各単語を重視する確率と、所定の語彙集合中の単語を重視する確率(参考文献4に記載されているVocabulary Distribution)とに基づいて、文書P中の単語をコピー又は所定の語彙集合中の単語を生成することで回答Aを生成する。
[参考文献4]
Abigail See, Peter J. Liu, and Christopher D. Manning. Get to the point: Summarization with pointer-generator networks. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 1073-1083, July 2017.
なお、生成形式により回答Aを生成する場合に、回答生成部140を実現するニューラルネットワークのモデルはSequence-to-sequence attentional modelやPointer-generatorに限られず、特徴量o(t=1,・・・,T)を入力として、生成形式により回答Aを生成するモデルであれば任意のモデルを採用することが可能である。
以上のように、本実施形態に係る対話処理装置10は、現在の質問Qと文書Pと質問履歴{Qi−1,・・・,Qi−k}と回答履歴{Ai−1,・・・,Ai−k}とを入力として、抽出形式又は生成形式により回答Aを生成することができる。すなわち、本実施形態に係る対話処理装置10は、過去の各回答Ai−j(j=1,・・・,k)がテキストである回答履歴{Ai−1,・・・,Ai−k}を入力することができるため、回答生成部140を実現するニューラルネットワークのモデルとして、抽出形式により回答Aを生成するモデル又は生成形式により回答Aを生成するモデルのいずれも採用することが可能となる。
また、本実施形態に係る対話処理装置10では、質問履歴{Qi−1,・・・,Qi−k}と回答履歴{Ai−1,・・・,Ai−k}とが共にテキストであるため、質問履歴に関する文書Pの特徴量{ui−1 ,・・・,ui−k }(t=1,・・・,T)と、回答履歴に関する文書Pの特徴量{vi−1 ,・・・,vi−k }(t=1,・・・,T)とを等価に扱うことが可能となる。
<学習処理>
以降では、対話処理部100に含まれる各機能部(質問符号化部110、文脈符号化部120、文脈結合部130及び回答生成部140)を実現するニューラルネットワークのモデルパラメータを学習する処理(学習処理)について、図4を参照しながら説明する。図4は、本発明の実施の形態における学習処理の一例を示すフローチャートである。
ここで、学習処理に用いる学習用データのデータセットとしては、例えば、以下の参考文献5に記載されているデータセット(QuAC)を用いることができる。
[参考文献5]
Eunsol Choi, He He, Mohit Iyyer, Mark Yatskar, Wentau Yih, Yejin Choi, Percy Liang, and Luke Zettlemoyer. 2018. QuAC : Question Answering in Context. In EMNLP. ArXiv: 1808.07036.
各学習用データには、現在の質問Qと、文書Pと、質問履歴{Qi−1,・・・,Qi−k}と、回答履歴{Ai−1,・・・,Ai−k}と、正解回答^Aとが含まれる。なお、回答生成部140を実現するニューラルネットワークのモデルが抽出形式により回答Aを生成するモデルである場合、正解回答^Aは、文書P内で正解の回答となる範囲の開始位置と終了位置との組で表現される。一方で、生成形式により回答Aを生成するモデルである場合、正解回答^Aは、正解の回答を表す1以上の単語で表現される。
図4のステップS201〜ステップS204は、各学習用データに対して繰り返し実行される。これらのステップS201〜ステップS204は、図3のステップS101〜ステップS104とそれぞれ同様であるため、その説明を省略する。ただし、現在の質問Q、文書P、質問履歴{Qi−1,・・・,Qi−k}及び回答履歴{Ai−1,・・・,Ai−k}は、各学習用データに含まれるものを用いる。また、モデルパラメータは、学習済みでないモデルパラメータを用いる。
ステップS205:更新部200は、正解回答^Aと対話処理部100によって生成された回答Aとを入力として、既知の教師あり学習の手法によりモデルパラメータを更新する。なお、回答生成部140を実現するニューラルネットワークのモデルが抽出形式により回答Aを生成するモデルである場合、更新部200は、当該回答Aを生成する際に用いた開始位置及び終了位置を用いて、当該回答Aと正解回答^Aとの誤差を算出する。
上記のステップS205は、例えば、所定の個数の学習用データで構成されるミニバッチ毎に実行される。
以上により、本実施形態に係る対話処理装置10は、対話処理部100に含まれる各機能部を実現するニューラルネットワークのモデルパラメータを学習することができる。
<実験結果>
次に、本実施形態に係る対話処理装置10を用いて、従来技術と比較を行った実験結果について説明する。データセットとしては、以下の3種類のQuACの抽出型(抽出形式の機械読解に用いられるデータセット)を用いた。
・学習セット:81,425 QA
・開発セット:7,354 QA
・テストセット:7,353 QA
なお、学習セットはモデルパラメータの学習にのみ用いた。
また、本実施形態に係る対話処理装置10では、質問符号化部110及び文脈符号化部120をBERTで実現し、回答生成部140をBiDAFのModeling LayerとOutput Layerとで実現した。なお、BERTの設定条件は以下とした。
・最大系列長:384 tokens
・スライド幅:128 tokens
・最大のクエリ(質問)の長さ:64 tokens
・最大の回答の長さ:30 tokens
・Fine-tuning:2 epoch
なお、最大系列長とはBERTに入力可能な単語長である。スライド幅は最大系列長を超える長さの単語列をBERTに入力する場合に用いられ、スライド幅ずつ単語列をスライドさせながらBERTに入力される。本実験では最大系列長が384 tokens、スライド幅が128 tokensであるため、384 tokensを超える単語列をBERTに入力する場合にはスライド前後で一部の単語列をオーバラップさせながらBERTに入力される。
このとき、非特許文献1に記載されている従来手法(FlowQA)と、本実施形態に係る対話処理装置10の手法(本実施形態の手法)とのF値(開発セットを用いた場合のF値及びテストセットを用いた場合のF値)の比較結果を以下の表1に示す。
上記の比較結果に示されているように、本実施形態の手法は、従来手法と比較して、開発セット及びテストセットいずれでもF値が高くなっている。このため、本実施形態の手法は、従来手法と比較して、より高い精度で適切な回答を生成できていることがわかる。
<対話処理装置10のハードウェア構成>
最後に、本実施形態に係る対話処理装置10のハードウェア構成について、図5を参照しながら説明する。図5は、本発明の実施の形態における対話処理装置10のハードウェア構成の一例を示す図である。
図5に示すように、本実施形態に係る対話処理装置10は、ハードウェアとして、入力装置301と、表示装置302と、外部I/F303と、RAM(Random Access Memory)304と、ROM(Read Only Memory)305と、プロセッサ306と、通信I/F307と、補助記憶装置308とを有する。これら各ハードウェアは、それぞれがバスBを介して相互に通信可能に接続されている。
入力装置301は、例えばキーボードやマウス、タッチパネル等である。表示装置302は、例えばディスプレイ等である。なお、対話処理装置10は、入力装置301及び表示装置302の少なくとも一方を有していなくてもよい。
外部I/F303は、外部装置とのインタフェースである。外部装置には、記録媒体303a等がある。対話処理装置10は、外部I/F303を介して、記録媒体303a等の読み取りや書き込みを行うことができる。記録媒体303aとしては、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等が挙げられる。なお、記録媒体303aには、対話処理装置10が有する各機能部(例えば、対話処理部100や更新部200)を実現する1以上のプログラムが記録されていてもよい。
RAM304は、プログラムやデータを一時保持する揮発性の半導体メモリである。ROM305は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。
プロセッサ306は、例えばCPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の演算装置であり、ROM305や補助記憶装置308等からプログラムやデータをRAM304上に読み出して処理を実行する。対話処理装置10が有する各機能部は、例えば、補助記憶装置308に格納されている1以上のプログラムがプロセッサ306に実行させる処理により実現される。なお、対話処理装置10は、プロセッサ306としてCPUとGPUとの両方を有していてもよいし、CPU又はGPUのいずれか一方のみを有していてもよい。
通信I/F307は、対話処理装置10を通信ネットワークに接続するためのインタフェースである。対話処理装置10が有する各機能部を実現する1以上のプログラムは、通信I/F307を介して、所定のサーバ装置等から取得(ダウンロード)されてもよい。
補助記憶装置308は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等であり、プログラムやデータを格納している不揮発性の記憶装置である。補助記憶装置308に格納されているプログラムやデータには、例えば、OS、対話処理装置10が有する各機能部を実現する1以上のプログラム等がある。
本実施形態に係る対話処理装置10は、図5に示すハードウェア構成を有することにより、上述した対話処理及び学習処理を実現することができる。なお、図5に示す例では、本実施形態に係る対話処理装置10が1台の装置(コンピュータ)で実現されている場合について説明したが、これに限られない。本実施形態に係る対話処理装置10は、複数台の装置(コンピュータ)で実現されていてもよい。また、1台の装置(コンピュータ)には、複数のプロセッサ306や複数のメモリ(RAM304やROM305、補助記憶装置308等)が含まれていてもよい。
本発明は、具体的に開示された上記の実施の形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更が可能である。
10 対話処理装置
100 対話処理部
110 質問符号化部
120 文脈符号化部
130 文脈結合部
140 回答生成部
200 更新部

Claims (7)

  1. 対話における現在の質問を表す単語列である質問Qと、前記質問Qに対する回答Aの生成に用いられる文書Pと、過去のk個の質問をそれぞれ表す単語列である質問履歴{Qi−1,・・・,Qi−k}と、前記k個の質問に対する回答をそれぞれ表す単語列である回答履歴{Ai−1,・・・,Ai−k}とを入力として、予め学習済みのモデルパラメータを用いて、抽出形式又は生成形式の機械読解によって前記回答Aを生成する生成手段、
    を有することを特徴とする対話処理装置。
  2. 抽出形式又は生成形式の機械読解による前記回答Aの生成に用いられる特徴量であって、前記質問Qと質問履歴{Qi−1,・・・,Qi−k}と回答履歴{Ai−1,・・・,Ai−k}とを反映した特徴量の数をTとして、
    前記生成手段には、
    前記質問履歴{Qi−1,・・・,Qi−k}に関する前記文書Pの特徴量{ui−1 ,・・・,ui−k }(t=1,・・・,T)と、前記回答履歴{Ai−1,・・・,Ai−k}に関する前記文書Pの特徴量{vi−1 ,・・・,vi−k }(t=1,・・・,T)とを算出する第1の算出手段が含まれる、ことを特徴とする請求項1に記載の対話処理装置。
  3. 前記生成手段には、
    前記質問Qに関する前記文書Pの特徴量u (t=1,・・・,T)を算出する第2の算出手段と、
    前記特徴量u (t=1,・・・,T)と前記特徴量{ui−1 ,・・・,ui−k }(t=1,・・・,T)と前記特徴量{vi−1 ,・・・,vi−k }(t=1,・・・,T)とをtに関してそれぞれ結合することで、前記質問Qと質問履歴{Qi−1,・・・,Qi−k}と回答履歴{Ai−1,・・・,Ai−k}とを反映した特徴量として特徴量o(t=1,・・・,T)を算出する結合手段と、
    特徴量o(t=1,・・・,T)を用いて、前記抽出形式又は生成形式の機械読解によって前記回答Aを生成する回答生成手段と、が含まれることを特徴とする請求項2に記載の対話処理装置。
  4. 対話における現在の質問を表す単語列である質問Qと、前記質問Qに対する回答Aの生成に用いられる文書Pと、過去のk個の質問をそれぞれ表す単語列である質問履歴{Qi−1,・・・,Qi−k}と、前記k個の質問に対する回答をそれぞれ表す単語列である回答履歴{Ai−1,・・・,Ai−k}とを入力として、モデルパラメータを用いて、抽出形式又は生成形式の機械読解によって前記回答Aを生成する生成手段と、
    前記回答Aと、前記質問Qに対する正解の回答とを用いて、教師あり学習により前記モデルパラメータを更新する更新手段と、
    を有することを特徴とする学習装置。
  5. 対話における現在の質問を表す単語列である質問Qと、前記質問Qに対する回答Aの生成に用いられる文書Pと、過去のk個の質問をそれぞれ表す単語列である質問履歴{Qi−1,・・・,Qi−k}と、前記k個の質問に対する回答をそれぞれ表す単語列である回答履歴{Ai−1,・・・,Ai−k}とを入力として、予め学習済みのモデルパラメータを用いて、抽出形式又は生成形式の機械読解によって前記回答Aを生成する生成手順、
    をコンピュータが実行することを特徴とする対話処理方法。
  6. 対話における現在の質問を表す単語列である質問Qと、前記質問Qに対する回答Aの生成に用いられる文書Pと、過去のk個の質問をそれぞれ表す単語列である質問履歴{Qi−1,・・・,Qi−k}と、前記k個の質問に対する回答をそれぞれ表す単語列である回答履歴{Ai−1,・・・,Ai−k}とを入力として、モデルパラメータを用いて、抽出形式又は生成形式の機械読解によって前記回答Aを生成する生成手順と、
    前記回答Aと、前記質問Qに対する正解の回答とを用いて、教師あり学習により前記モデルパラメータを更新する更新手順と、
    をコンピュータが実行することを特徴とする学習方法。
  7. コンピュータを、請求項1乃至3の何れか一項に記載の対話処理装置における各手段、又は、請求項4に記載の学習装置における各手段、として機能させるためのプログラム。
JP2019566974A 2019-05-28 2019-05-28 対話処理装置、学習装置、対話処理方法、学習方法及びプログラム Active JP6649536B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/021142 WO2020240709A1 (ja) 2019-05-28 2019-05-28 対話処理装置、学習装置、対話処理方法、学習方法及びプログラム

Publications (2)

Publication Number Publication Date
JP6649536B1 true JP6649536B1 (ja) 2020-02-19
JPWO2020240709A1 JPWO2020240709A1 (ja) 2021-09-13

Family

ID=69568248

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019566974A Active JP6649536B1 (ja) 2019-05-28 2019-05-28 対話処理装置、学習装置、対話処理方法、学習方法及びプログラム

Country Status (3)

Country Link
US (1) US12026472B2 (ja)
JP (1) JP6649536B1 (ja)
WO (1) WO2020240709A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282722A (zh) * 2021-05-07 2021-08-20 中国科学院深圳先进技术研究院 机器阅读理解方法、电子设备及存储介质
WO2021171575A1 (ja) * 2020-02-28 2021-09-02 日本電信電話株式会社 学習装置、テキスト生成装置、学習方法、テキスト生成方法及びプログラム
WO2022003762A1 (ja) * 2020-06-29 2022-01-06 日本電信電話株式会社 質問応答装置、質問応答方法及び質問応答プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324717B (zh) * 2020-02-24 2023-06-27 武汉大学 一种面向开放域问答的基于机器阅读理解的答案获取方法及***
EP4328762A1 (en) * 2021-04-23 2024-02-28 Fujitsu Limited Information processing program, information processing method, and information processing device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132812A (ja) * 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP2018206307A (ja) * 2017-06-09 2018-12-27 エヌ・ティ・ティ レゾナント株式会社 情報処理装置、情報処理方法、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6813591B2 (ja) * 2016-11-25 2021-01-13 日本電信電話株式会社 モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム
JP7087938B2 (ja) * 2018-06-07 2022-06-21 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132812A (ja) * 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP2018206307A (ja) * 2017-06-09 2018-12-27 エヌ・ティ・ティ レゾナント株式会社 情報処理装置、情報処理方法、及びプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021171575A1 (ja) * 2020-02-28 2021-09-02 日本電信電話株式会社 学習装置、テキスト生成装置、学習方法、テキスト生成方法及びプログラム
WO2021171732A1 (ja) * 2020-02-28 2021-09-02 日本電信電話株式会社 学習装置、テキスト生成装置、学習方法、テキスト生成方法及びプログラム
JPWO2021171732A1 (ja) * 2020-02-28 2021-09-02
JP7409476B2 (ja) 2020-02-28 2024-01-09 日本電信電話株式会社 学習装置、テキスト生成装置、学習方法、テキスト生成方法及びプログラム
WO2022003762A1 (ja) * 2020-06-29 2022-01-06 日本電信電話株式会社 質問応答装置、質問応答方法及び質問応答プログラム
JPWO2022003762A1 (ja) * 2020-06-29 2022-01-06
JP7468654B2 (ja) 2020-06-29 2024-04-16 日本電信電話株式会社 質問応答装置、質問応答方法及び質問応答プログラム
CN113282722A (zh) * 2021-05-07 2021-08-20 中国科学院深圳先进技术研究院 机器阅读理解方法、电子设备及存储介质
CN113282722B (zh) * 2021-05-07 2024-03-29 中国科学院深圳先进技术研究院 机器阅读理解方法、电子设备及存储介质

Also Published As

Publication number Publication date
JPWO2020240709A1 (ja) 2021-09-13
US12026472B2 (en) 2024-07-02
WO2020240709A1 (ja) 2020-12-03
US20220229997A1 (en) 2022-07-21

Similar Documents

Publication Publication Date Title
JP6649536B1 (ja) 対話処理装置、学習装置、対話処理方法、学習方法及びプログラム
US11972365B2 (en) Question responding apparatus, question responding method and program
Chen et al. Extending context window of large language models via positional interpolation
US11062179B2 (en) Method and device for generative adversarial network training
US20210390271A1 (en) Neural machine translation systems
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN108052512B (zh) 一种基于深度注意力机制的图像描述生成方法
CN110472242B (zh) 一种文本处理方法、装置和计算机可读存储介质
US20200134463A1 (en) Latent Space and Text-Based Generative Adversarial Networks (LATEXT-GANs) for Text Generation
JP7315065B2 (ja) 質問生成装置、質問生成方法及びプログラム
JP7342971B2 (ja) 対話処理装置、学習装置、対話処理方法、学習方法及びプログラム
CN110807335B (zh) 基于机器学习的翻译方法、装置、设备及存储介质
CN111401084A (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
JP7070653B2 (ja) 学習装置、音声認識順位推定装置、それらの方法、およびプログラム
JP7417679B2 (ja) 情報抽出方法、装置、電子機器及び記憶媒体
CN111401037B (zh) 自然语言的生成方法、装置、电子设备及存储介质
JP2021033995A (ja) テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体
RU2712101C2 (ru) Предсказание вероятности появления строки с использованием последовательности векторов
CN111814489A (zh) 口语语义理解方法及***
CN114528387A (zh) 基于对话流自举的深度学习对话策略模型构建方法和***
WO2023241415A1 (zh) 用于生成文本的配乐的方法、装置、电子设备和介质
CN112364659A (zh) 一种无监督的语义表示自动识别方法及装置
Wang et al. Augmentation with projection: Towards an effective and efficient data augmentation paradigm for distillation
CN115879480A (zh) 语义约束机器翻译方法、装置、电子设备及存储介质
KR102674639B1 (ko) 신경망 모델 기반 암호문을 복호화하기 위한 전자 장치 및 전자 장치의 제어 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191204

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20191204

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20191227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200116

R150 Certificate of patent or registration of utility model

Ref document number: 6649536

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150