JP2021140486A

JP2021140486A - 回答生成装置及びプログラム

Info

Publication number: JP2021140486A
Application number: JP2020038077A
Authority: JP
Inventors: 拓誠高橋; Hiroaki Takahashi; 元樹谷口; Motoki Taniguchi; 友紀谷口; Tomonori Taniguchi; 智子大熊; Tomoko Okuma
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2021-09-16
Also published as: US20210279288A1; CN113360609A; US11481445B2

Abstract

【課題】質問と、その質問に関連するテキスト等の解析の対象となるデータである解析対象データが与えられたときに、その質問に対する複数の回答を解析対象データから抽出し得る技術を提供する。【解決手段】回答生成装置は、関連テキスト２２及び質問２４を入力する入力部１６、プロセッサ１０、出力部１８、モデル記憶部２０を備える。プロセッサ１０は、プログラムを実行することで、事前に用意した複数の単一回答モデルを用いて質問２４に対する回答を関連テキスト２２からそれぞれ独立に抽出し、抽出された回答の各トークンの出現頻度を算出し、出現頻度に基づき、単一あるいは複数の回答を抽出して出力部１８に出力する。【選択図】図４

Description

本発明は、回答生成装置及びプログラムに関する。

従来から、質問と関連テキストが与えられたときに、適切な回答を関連テキストから抽出する技術が提案されている。

特許文献１には、極性で回答することができる質問に対して、精度よく、極性で回答することができるようにする装置が記載されている。機械読解部は、入力された文章及び質問文に基づいて、当該文章における当該質問文に対する回答の根拠となる範囲を推定するための予め学習された読解モデルを用いて、当該範囲の始端及び終端を推定する。判断部は、機械読解部の処理によって得られる情報に基づいて、質問文に対する回答の極性が正か否かを判断するための予め学習された判断モデルを用いて、当該質問文に対する回答の極性を判断する。

特許文献２には、精度の高い質問応答を実現する装置が記載されている。装置は、文書及び質問を入力として、所定の第１の語彙と、文書及び質問に含まれる単語により構成される第２の語彙との和集合に含まれる単語を用いて、質問に対する回答文を生成する処理を学習済モデルにより実行する回答生成手段を有する。学習済モデルは、回答文に含まれる単語が第２の語彙に含まれるか否かについて予め学習した学習済ニューラルネットワークを含み、該学習済ニューラルネットワークにより、回答文の生成時に、該回答文に含まれる単語として、第２の語彙に含まれる単語が選択される確率を増減させる。

特開２０１９−２２０１４２号公報特開２０１９−１９１８２７号公報

本発明は、質問と、その質問に関連するテキスト等の解析の対象となるデータである解析対象データが与えられたときに、その質問に対する複数の回答を解析対象データから抽出し得る技術を提供することを目的とする。

請求項１に記載の発明は、質問及び解析の対象となるデータである解析対象データを入力する入力部と、プロセッサと、出力部と、を備え、前記プロセッサは、プログラムを実行することで、前記質問及び前記解析対象データが入力された場合に、事前に用意した複数の単一回答モデルを用いて前記質問に対する回答を前記解析対象データからそれぞれ独立に抽出し、抽出された前記回答の各トークン毎の出現頻度を算出し、前記出現頻度に基づき、単一あるいは複数の回答を抽出して前記出力部に出力する、回答生成装置である。

請求項２に記載の発明は、前記プロセッサは、第１閾値、及び前記第１閾値よりも小さい第２閾値を用い、前記出現頻度が前記第１閾値以上の場合に、前記出現頻度が前記第１閾値以上となるトークンを単一回答と判定して出力し、前記出現頻度が前記第１閾値未満であって前記第２閾値以上の場合に、前記出現頻度が前記第１閾値未満であって前記第２閾値以上となるトークンを複数回答と判定して出力し、前記出現頻度が前記第２閾値未満の場合に、対象トークンを回答として選択しない、請求項１に記載の回答生成装置である。

請求項３に記載の発明は、前記プロセッサは、連続する複数の前記トークンに対して判定結果が同一である場合に、各トークンを出力結果として出力することに代えて、系列長が最大となるようにトークンを連続的に選択して出力する、請求項２に記載の回答生成装置である。

請求項４に記載の発明は、前記プロセッサは、処理対象トークンに対して単一回答として判定した後、次の処理対象トークンに対して複数回答あるいは回答なしと判定した場合、単一回答と判定したトークンのみを出力する、請求項２に記載の回答生成装置である。

請求項５に記載の発明は、前記プロセッサは、前記複数の回答の回答数以上の前記複数の単一回答モデルを用いる、請求項１−４のいずれかに記載の回答生成装置である。

請求項６に記載の発明は、前記複数の単一回答モデルのそれぞれは、深層学習方法に基づき前記質問及び前記解析対象データを分散表現に符号化し、符号化された前記分散表現に基づき、前記回答の開始点及び終了点を推定するための全結合層により最大確率の回答範囲を前記解析対象データから抽出するモデルである、請求項１−５のいずれかに記載の回答生成装置である。

請求項７に記載の発明は、前記複数の単一回答モデルのそれぞれは、質問に対して単一の回答のみが付与された学習データを用いて学習される、請求項１−６のいずれかに記載の回答生成装置である。

請求項８に記載の発明は、前記解析対象データは、テキストデータであり、前記トークンは、前記テキストデータ中の単語あるいは文字列である、請求項１−７のいずれかに記載の回答生成装置である。

請求項９に記載の発明は、コンピュータに、質問及び解析の対象となるデータである解析対象データを入力するステップと、事前に用意した複数の単一回答モデルを用いて前記質問に対する回答を前記解析対象データからそれぞれ独立に抽出するステップと、抽出された前記回答の各トークン毎の出現頻度を算出するステップと、前記出現頻度に基づき、単一あるいは複数の回答を抽出して出力するステップと、を実行させるプログラムである。

請求項１，９に記載の発明によれば、質問と解析対象データが与えられたときに、その質問に対する複数の回答を解析対象データから抽出できる。

請求項２，３，４に記載の発明によれば、さらに、単一回答、複数回答、回答なしのいずれかを判定して出力できる。

請求項５，６に記載の発明によれば、さらに、回答の精度を上げることができる。

請求項７に記載の発明によれば、さらに、学習データを確保できる。

請求項８に記載の発明によれば、さらに、テキストデータから単語あるいは文字列を回答として抽出できる。

関連テキスト及び質問の説明図（その１）である。関連テキスト及び質問の説明図（その２）である。単一回答ＱＡと複数回答ＱＡの回答の平均異なり数を示すグラフ図である。実施形態の回答生成装置の構成ブロック図である。実施形態の機能ブロック図である。実施形態の機械読解モデルの構成図である。実施形態の処理フローチャートである。

以下、図面に基づき本発明の実施形態について、解析の対象となるデータである解析対象データとしてテキストデータを例にとり説明する。

＜基本原理＞
まず、本実施形態の基本原理について説明する。

機械読解タスクは、与えられたテキストを読み解き質問に回答することを目的としており、モデルの読解能力をベンチマークする上でも重要なタスクである。例えばＳＱｕＡＤ（Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. SQuAD: 100,000+ questions for machine comprehension of text. In EMNLP, 2016.）のような抽出型機械読解では、質問および関連テキスト(コンテキスト) が与えられたとき、最も適切な回答をコンテキストの中から抽出する。

図１は、質問（Ｑｕｅｓｔｉｏｎ）及び関連テキスト（Ｃｏｎｔｅｘｔ）の一例を示す。関連テキスト中の、質問に対する適切な回答として「Ｒｕｓｓｅｌ」を抽出する。

但し、これまでの抽出型機械読解は、質問に対する正解が一つの回答範囲に基づく質問応答（以下、「単一回答ＱＡ」という）に限定しており、複数の回答が同時に成立するような質問応答には対応できない。

他方で、複数の範囲における回答を抽出するために、適切な回答を過不足なく抽出するためのモデルがいくつか提案されている。しかし、これらのモデルはいずれも複数回答ＱＡをもつ機械読解のデータを用いて学習することを前提としており、このような複雑なデータを常に用意することは現実的ではない。

単一回答のみ可能とするモデル（以下、「単一回答モデル」という）を適用した場合、モデルにより推定される回答は常に一つに限定される。本願出願人は、いくつかの単一回答モデルを複数回答ＱＡに適用したところ、各モデルの出力する回答が分散することを見出した。

図２は、単一回答ＱＡの例と複数回答ＱＡの例を示す。図２における上段は関連テキストであり、中段は単一回答モデルによる回答であり、下段は複数（具体的には１０個）の単一回答モデルによる回答である。単一回答モデルは、回答として「５０」を抽出するが、複数の単一回答モデルは、回答として「100 peso note」、「500 peso notes」を抽出し、回答が分散する。

同様に、単一／複数回答ＱＡにおける各モデルの回答の一致度を比較すると、単一回答ＱＡの方が回答の一致度が高い傾向にあることが分かる。

図３は、単一回答ＱＡと複数回答ＱＡの回答の一致度を示す。図３において、ＤＲＯＰ（single-span）は単一回答ＱＡを示し、ＤＲＯＰ（multi-span）は複数回答ＱＡを示す。また、縦軸は回答の平均異なり数を示し、各モデルの推定した回答が完全一致した場合を異なり数＝１としている。各モデルは、
ＢｉＤＡＦ：（Minjoon Seo, Aniruddha Kembhavi, Ali Farhadi, and Hannaneh Hajishirzi. Bidirectional attention flow for machine comprehension. arXiv preprint arXiv:1611.01603, 2016.）
ＱＡＮｅｔ：（Adams Wei Yu, David Dohan, Minh-Thang Luong, Rui Zhao, Kai Chen, Mohammad Norouzi, and Quoc V Le. Qanet: Combining local convolution with global
self-attention for reading comprehension. arXiv preprint arXiv:1804.09541, 2018.）
ＢＥＲＴ_ＢＡＳＥ：（Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. In NAACL, 2019.）
ＢＥＲＴ_{ＬＡＲＧＥ}：（Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. In NAACL, 2019.）
である。

単一回答ＱＡモデルは、事前に学習した１０個の単一回答ＱＡモデルである。図３に示されるように、単一回答ＱＡの方が回答の平均異なり数が少なく、回答の一致度が高い。これは、各単一回答ＱＡモデルは、最適と考える回答を一つしか出力しない制約に起因するものである。従って、複数の回答がコンテキストに散在する場合、各モデルの回答はしばしば一致しない。

そこで、本実施形態では、複数の単一回答ＱＡモデルの回答が、複数回答ＱＡにおいて特に一致しない性質を利用する。具体的には、単一回答しかできないモデルを複数組み合わせることで、複数回答可能なモデルを実現する。

具体的なモデルは以下の通りである。

典型的な抽出型機械読解のデータセットであるＳＱｕＡＤでは、質問に対して与えられたコンテキストの中から最も適切な回答を一つ抽出することが目的とされており、既に多くのモデルによって人間の読解能力を上回ることが報告されている。その後、ＳＱｕＡＤ２．０（Pranav Rajpurkar, Robin Jia, and Percy Liang. Know what you don't know: Unanswerable questions for SQuAD. In ACL, 2018.）では質問に対する回答がコンテキストに存在しない場合に回答不可と回答するための質問が新しく追加されている。ＤＲＯＰ（Dheeru Dua, Yizhong Wang, Pradeep Dasigi, Gabriel Stanovsky, Sameer Singh, and Matt Gardner. DROP: A reading comprehension benchmark requiring discrete reasoning over paragraphs. In NAACL, 2019.）では、従来取り組まれていなかった複数の回答範囲の抽出(複数回答ＱＡ) を考慮するための質問が追加されている。ＳＱｕＡＤ２．０は単一回答／回答なしの２パターンであるが、ＤＲＯＰは一つ以上の任意の数の回答を求められることから、ＤＲＯＰのほうがより多様な回答パターンを要求されるデータセットであるといえる。

Ｈｕ等（Minghao Hu, Yuxing Peng, Zhen Huang, and Dongsheng Li. A multi-type multi-span network for reading comprehension that requires discrete reasoning. In EMNLP-IJCNLP, 2019.）による複数回答モデルは、質問に対する回答がコンテキスト中に何個あるか予測し、予測された回答数に基づき回答範囲を繰り返し抽出するモデルにより、ＤＲＯＰの複数回答ＱＡを回答可能であることを示している。Ｅｆｒａｔ等（Avia Efrat, Elad Segal, and Mor Shoham. Tag-based multi-span extraction in reading comprehension. arXiv preprint arXiv:1909.13375, 2019.）は、回答抽出を系列ラベリング問題と見立て、各トークンにＢＩＯタグを付与するMulti-span Head を提案している。ここで、「トークン」は、単語や文字列等の文の最小構成要素である。これらのモデルは複数回答が可能であるものの、学習のために複数回答ＱＡを含む機械読解のデータをあらかじめ十分に用意しておく必要がある。

そこで、本実施形態は、単一回答のみ対象とした抽出型機械読解のデータセットだけを必要とし、単一回答しかできない単純なモデルを複数組み合わせることで、複数回答ＱＡを回答可能とする。本実施形態は、単一回答しかできない複数のモデルの回答が、複数回答ＱＡにおいて特に一致しない性質を利用するものといえる。

以下、本実施形態についてより詳細に説明する。

＜構成＞
図４は、本実施形態における回答生成装置の構成ブロック図を示す。

回答生成装置は、コンピュータで構成され、プロセッサ１０、ＲＯＭ１２、ＲＡＭ１４、入力部１６、出力部１８、及びモデル記憶部２０を備える。

プロセッサ１０は、ＲＯＭ１２あるいはその他のプログラムメモリに記憶された処理プログラムを読み出し、ＲＡＭ１４を作業メモリとして用いて実行することで、機械読解タスクを実現する。プロセッサ１０は、入力された関連テキスト及び質問に基づき、モデル記憶部２０に記憶された学習済モデルを用いて関連テキストから質問に対する適切な単一あるいは複数回答を抽出する。

入力部１６は、キーボードや通信インターフェイス等で構成され、関連テキスト２２及び質問２４を入力する。関連テキスト２２や質問２４は、基本的にはテキストデータであるが、画像データであってもよい。画像データの場合、ＯＣＲ（Optical Character Recognition）技術を用いてテキストデータに変換する。

出力部１８は、ディスプレイや通信インターフェイス等で構成され、プロセッサ１０での機械読解タスクの結果、すなわち関連テキストから抽出された回答を出力する。

モデル記憶部２０は、Ｎ個の異なる単一回答モデルを記憶する。Ｎ個の異なる単一回答モデルは、単一回答ＱＡのデータセットのみを用いて事前に学習した学習済モデルである。単一回答モデルは、例えば公知のＢＥＲＴ（Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. In NAACL, 2019.）を用いることができるが、これに限定されない。単一回答モデルについてはさらに後述する。

なお、プロセッサ１０は、広義的なプロセッサを指し、汎用的なプロセッサ（例えば CPU：Central Processing Unit等）や、専用のプロセッサ（例えば GPU：Graphics Processing Unit、ASIC：Application Specific Integrated Circuit、FPGA：Field Programmable Gate Array 、プログラマブル論理デバイス等）を含むものである。また、プロセッサの動作は、１つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。

図５は、プロセッサ１０で実行される機械読解処理を機能的に示す。

プロセッサ１０は、関連テキスト２２及び質問２４を入力する。関連テキスト２２は任意であるが、例えば、
「In the first quarter, Cincinnati trailed early as Patriots kicker Stephen Gostkowski got a 31-yard field goal, while QB Tom Brady completed a 1-yard TD pass to LB Mike Vrabel.(…) QB Carson Palmer completing a 1-yard TD pass to LB Mike Vrabel.(…)」
であるとする。質問２４も任意であるが、例えば、
「Which two players both completed 1-yard TD pass ?」
であるとする。ここで、質問が、正解が一つの回答に限定されるのではなく、正解が複数の回答を含むことに留意されたい（上記の質問では、２つの正解を含む）。

機械読解モデル２６は、Ｎ個の異なる単一回答モデル（Ｍ＝｛ｍ_１、・・・、ｍ_Ｎ｝）から構成され、これらの単一回答モデルは予め単一回答ＱＡのみを用いて学習しておく。単一回答モデルとして、例えば公知のＢＥＲＴを用いた場合、質問Ｑ及び関連テキスト（コンテキスト）を入力し、回答の開始点と終了点を表す確率分布を出力すべく学習する。Ｎ個の異なる単一回答モデルからは、Ｎ個の独立な回答候補が得られる。それぞれの回答候補は、開始点と終了点を表す確率分布である。図５では、機械読解モデル２６から、
「Ｂｒａｄｙ」
「Ｔｏｍ」
「ＣａｒｓｏｎＰａｌｍｅｒ」
「ＴｏｍＢｒａｄｙｃｏｍｐｌｅｔｅｄ」
・・・
「Ｐａｌｍｅｒ」
等が開始点と終了点におけるトークン、すなわち単語や文字列が出力されたことを示す。
Ｎ個の異なる単一回答モデルからのＮ個の独立な回答候補は、ＲＣ−リライタ２８に供給される。

ＲＣ−リライタ２８は、Ｎ個の独立な回答候補のうち、最終的にどの回答を採用すべきかを選択する単一／複数回答選択部３０を備える。単一／複数回答選択部３０は、関連テキスト（コンテキスト）中の特定のトークン（文字列や単語列）に回答範囲が集中していれば対象トークンが単一回答であり、他方で複数のトークンに回答範囲が分散していれば複数回答になると決定して回答選択を行う。図５では、複数のトークンに回答範囲が分散していると決定され、最終回答として複数の回答
「ＴｏｍＢｒａｄｙ」
「ＣａｒｓｏｎＰａｌｍｅｒ」
が出力されたことを示す。特定トークンに回答範囲が集中しているか、あるいは複数トークンに回答範囲が分散しているかは、回答の一致度を算出し、当該回答の一致値を予め設定された閾値と大小比較することで決定され得る。

図６は、機械読解モデル２６を模式的に示す。機械読解モデル２６は、Ｎ個の異なる単一回答モデルＭ＝｛ｍ_１，ｍ_２，・・・、ｍ_Ｎ｝から構成され、それぞれのモデルは単一回答ＱＡデータセットのみを用いて学習する。ＢＥＲＴに基づく単一回答モデルでは、質問ＱおよびコンテキストＣが与えられたとき、
x = [CLS]Q[SEP]C[SEP]
をＢＥＲＴへの入力とする。ここで、[CLS] はペア文全体の表現を表すトークン、[SEP] は入力ペアの分割を明示するためのトークンを表す。従って、x をＢＥＲＴへ入力することで、長さＬのトークン系列に対するｄ次元の分散表現Ｈ
Ｈ・Ｒ^ｄ×Ｌ
が得られる。
回答範囲の抽出のため、２種類の全結合層を用いて回答の開始点と終了点を予測するための確率分布を以下の式に基づき計算する。

ここで、Ws，We は重み行列、bs，be はバイアス項である。

最終的に、単一回答モデルｍ_ｉは、pstart とpend が最大となるトークンを回答の開始点および終了点として回答ａｍ_ｉを抽出する。

このように回答の抽出は確率分布の最大値に基づくため、単一回答モデルｍ_ｉはコンテキストＣに潜在する回答の個数にかかわらず、常に回答を一つだけ抽出する。機械読解モデル２６のＮ個の異なる単一回答モデルは、以上のようにして独立したＮ個の回答候補をＲＣ−リライタ２８に出力する。

ＲＣ−リライタ２８の単一／複数回答選択部３０は、コンテキストＣ中の特定のトークンに回答範囲が集中していれば対象トークンが単一回答であり、複数のトークンに回答範囲が分散していれば複数回答になると決定して回答を選択する。

具体的には、最初に各回答の一致度を算出するために、コンテキストＣに含まれているすべてのトークンＴ＝｛ｔ_１、ｔ_２、・・・｝に対して、各トークンが回答候補ａに出現した頻度を計算する。

トークンｔ１が回答候補ａに出現した頻度ｆｉは、以下の式で算出される。

この計算をコンテキストＣ中のすべてのトークンに対して適用することで、トークン単位で回答候補ａに出現した頻度を表す系列Ｆ＝｛ｆ_１、ｆ_２、・・・｝を得る。

続いて、各トークンの回答候補における出現頻度Ｆを参照しながら、予め設定した２つの閾値である閾値ｕ及び閾値ｌに基づき最終的な回答ａを得る。ここで、ｕ＞ｌであり、ｕ≧０．５×Ｎである。

より具体的には、下記の操作に基づき、コンテキストＣ中のすべてのトークンを選別する。

操作１：ｆ_ｉ≧ｕを満たす場合、ｔ_ｉを単一回答のトークンと決定して最終回答に追加する(単一回答ＱＡ)
操作２：ｕ＞ｆ_ｉ≧ｌを満たす場合、ｔ_ｉを複数回答のトークンと決定して回答に追加する（複数回答ＱＡ）
操作３：ｌ＞ｆ_ｉを満たす場合、ｔ_ｉを回答のトークンでないと決定する
以上の操作１〜操作３により、最終回答として単一回答または複数回答が得られる。
例えば、
ｕ＝０．９×Ｎ
ｌ＝０．２×Ｎ
とすると、出現頻度ｆ_ｉ≧０．９×Ｎ、つまり一致度が９０％以上である場合、単一回答ＱＡとなる。また、出現頻度ｆ_ｉが０．９＞ｆ_ｉ≧０．２Ｎ、つまり一致度が９０％未満２０％以上である場合、複数回答ＱＡとなる。また、出現頻度ｆ_ｉ＞０．２×Ｎ、つまり一致度が２０％未満であれば、回答なしと決定される。

なお、操作１または操作２において、連続する複数のトークンＴに対して同じ操作が繰り返される場合、各トークンを個別に最終回答に追加するのではなく、系列の長さが最大となるトークンを最終回答に追加する。

また、ｔ_ｊに対して操作１を実行した後、ｔ_ｊ＋１に対する処理が操作１以外であった場合、操作１で得られたトークン系列を単一回答として最終回答に追加し、回答の選択を終了する。

ＲＣ−リライタ２８の単一／複数回答選択部３０では、機械読解モデル２６が抽出した回答候補をトークン単位の頻度に基づき再構成するため、図５に示すように、
「Ｔｏｍ」
「Ｂｒａｄｙ」
という別々に抽出されたトークンから
「ＴｏｍＢｒａｄｙ」
といった回答を構成可能である。

＜処理フローチャート＞
図７は、本実施形態の処理フローチャートを示す。Ｓ１０１〜Ｓ１０３の処理がモデルの学習処理であり、Ｓ１０４〜Ｓ１０７の処理が学習済モデルを用いた回答作成処理である。

まず、複数Ｎ個の単一回答モデルを用意する（Ｓ１０１）。単一回答モデルの数Ｎ及び種類は任意であるが、例えばＢＥＲＴに基づく単一回答モデルを２０個用意する。なお、単一回答モデルは、同一種類あるいは異なる種類のいずれでもよい。

次に、用意した複数の単一回答モデルのそれぞれについて、単一回答ＱＡデータセットのみを用いて学習する（Ｓ１０２）。すなわち、質問及び関連テキスト（コンテキスト）を入力し、回答の開始点と終了点を表す確率分布を出力するように学習する。学習済モデルは、記憶部に記憶される（Ｓ１０３）。学習処理が終了した後、次に、回答作成処理に移行する。

まず、関連テキスト及び質問を入力する（Ｓ１０４）。

次に、記憶部に記憶された学習済モデル、すなわち機械読解モデル２６を用いて回答を出力する（Ｓ１０５）。機械読解モデル２６のＮ個の単一回答モデルは、独立したＮ個の回答候補を出力する。

次に、機械読解モデル２６から出力されたＮ個の回答から、ＲＣ−リライタ２８により単一／複数回答を選択する（Ｓ１０６）。すなわち、２つの閾値ｕ、ｌを用いた下記の判定操作に基づき、コンテキスト中のすべてのトークンｔ_ｉを選別する。
操作１：ｆ_ｉ≧ｕを満たす場合、ｔ_ｉを単一回答のトークンと決定して最終回答に追加する(単一回答ＱＡ)
操作２：ｕ＞ｆ_ｉ≧ｌを満たす場合、ｔ_ｉを複数回答のトークンと決定して回答に追加する（複数回答ＱＡ）
操作３：ｌ＞ｆ_ｉを満たす場合、ｔ_ｉを回答のトークンでないと決定する
以上のようにして単一／複数回答、あるいは回答なしを選択すると、これらの選択結果を最終回答として出力する（Ｓ１０７）。

データセットとして、ＤＲＯＰ（Dheeru Dua, Yizhong Wang, Pradeep Dasigi, Gabriel Stanovsky, Sameer Singh, and Matt Gardner. DROP: A reading comprehension benchmark requiring discrete reasoning over paragraphs. In NAACL, 2019.）に含まれる抽出型機械読解のうち、回答が一つのものを単一回答ＱＡ(single-span)、回答が二つ以上のものを複数回答ＱＡ（multi-span) として使用した。なお、ＤＲＯＰの複数回答ＱＡは学習データとして使用せず、評価時のみ使用した。従って、学習時にはＤＲＯＰ(single-span) のみ使用した。

表１に、実施例に使用した単一／複数回答ＱＡの統計量を示す。

単一回答の抽出型機械読解モデルとして、ＢｉＤＡＦ、ＱＡ_Ｎｅｔ、及びＢＥＲＴを使用した。ＢＥＲＴは、事前学習済みモデルのＢＥＲＴ_ＢＡＳＥ及びＢＥＲＴ_{ＬＡＲＧＥ}を用いた。
機械読解モデル２６として使用するために、異なるシードを設定した２０個のモデルを事前に学習した。学習時には、Ａｄａｍによる最適化を行った。
表２に、各モデルで使用したパラメータを示す。

また、ＲＣ−リライタ２８における、回答選択する際の各トークンの頻度に対する２つの閾値を
ｕ＝０．９Ｎ
ｌ＝０．２Ｎ
に設定した。なお、Ｎは機械読解モデル２６で用いるモデルの数に対応し、実施例では
Ｎ＝２０
である。

＜比較例＞
他方、比較例として、機械読解モデル２６として用意したモデルと同様の条件で学習した単一回答モデルをベースラインとして用意した。さらに、単一回答モデルにおける性能の上限値としてOraclesingle を用意した。Oraclesingle では、各質問に付与された複数の真の回答のうち、Ｆ１の値が最も高くなる回答を一つ抽出する。

Ｄｕａ等に倣い、ＤＲＯＰの評価用に変更したＥＭ(Exact Match) およびＦ１(macro-averaged) を使用した。ＥＭでは、正解に含まれるすべての回答とモデルの予測した回答が完全に一致することで評価値が１となる。また、Ｆ１は正解と予測回答でアライメントを取り、すべての組み合わせに対してＦ１を計算したのち規格化を行うため、複数の回答を過不足なく得ることで評価値が最大化される。

表３に、ＤＲＯＰの複数回答ＱＡ(multi-span) の実施結果を示す。

表３に示すように、ベースラインの単一回答モデルとＲＣ−リライタ２８（RC-rewriter）を用いた手法を比較すると、すべてのモデルでＦ１が約１０ポイント向上することを確認できた。

さらに、単一回答モデルは回答を一つしか抽出しないため、Oraclesingleを含むすべてのモデルでＥＭ＝０となる。他方で、実施例の手法は最大５．６１％の複数回答ＱＡでコンテキスト中のすべての回答を正しく抽出できることが確認された。

以上説明したように、本実施形態では、特定の単一回答モデルに依存することなく、複数回答ＱＡにおける性能を大幅に向上させることが可能である。

＜変形例１＞
本実施形態における機械読解モデル２６として用いる単一回答モデルの数および種類は任意に設定し得る。

本願出願人は、単一回答モデルの数を最小（Ｎ＝１）にした条件と比較して、モデルの数を増やすことで性能が向上することを確認している。同時に、モデルの数が増えすぎると性能が低下する傾向にあることも確認している。従って、ある程度の数の単一回答モデルを用意することは、複数回答ＱＡを解くために必要であるものの、モデル数を際限なく増やすことによる性能向上は見込めず、適切な数を設定することが望ましい。一般的には、所望の回答数以上の数であり、所望の回答数に応じて設定される上限数以下とし得る。

また、本実施形態において、単一回答モデルは同種類ではなく、互いに異なる種類の単一回答モデルを組み合わせることが望ましい。

表４に、異なる単一回答モデルを組み合わせた場合とそうでない場合の比較結果を示す。

表４において、比較するモデル間で単一回答モデルの数を統一するため、組み合わせモデルの各モデルの数は５個とし、合計２０個の単一回答モデルを用いた。multi-span において、組み合わせモデルを同一種類の単一回答モデルと比較した場合、ＥＭで０．５４ポイント、Ｆ１で２．９ポイント性能向上することを確認した。

以上より、機械読解モデル２６として用いる単一回答モデルは、最も性能の高い単一回答モデルのみ使用するのではなく、多様な種類の単一回答モデルを組み合わせることが、複数回答ＱＡの正解率を向上させる上で望ましいといえる。

＜変形例２＞
本実施形態では、解析対象データとして関連テキスト等のテキストデータとしたが、他のデータ形式、例えば画像データにも同様に適用し得る。解析対象データが画像データの場合、トークンとしてピクセルを用いることができる。

１０プロセッサ、１２ＲＯＭ、１４ＲＡＭ、１６入力部、１８出力部、２０モデル記憶部、２２関連テキスト（コンテキスト）、２４質問。

Claims

質問及び解析の対象となるデータである解析対象データを入力する入力部と、
プロセッサと、
出力部と、
を備え、前記プロセッサは、プログラムを実行することで、
前記質問及び前記解析対象データが入力された場合に、事前に用意した複数の単一回答モデルを用いて前記質問に対する回答を前記解析対象データからそれぞれ独立に抽出し、
抽出された前記回答の各トークン毎の出現頻度を算出し、
前記出現頻度に基づき、単一あるいは複数の回答を抽出して前記出力部に出力する、
回答生成装置。
前記プロセッサは、
第１閾値、及び前記第１閾値よりも小さい第２閾値を用い、前記出現頻度が前記第１閾値以上の場合に、前記出現頻度が前記第１閾値以上となるトークンを単一回答と判定して出力し、前記出現頻度が前記第１閾値未満であって前記第２閾値以上の場合に、前記出現頻度が前記第１閾値未満であって前記第２閾値以上となるトークンを複数回答と判定して出力し、前記出現頻度が前記第２閾値未満の場合に、対象トークンを回答として選択しない、
請求項１に記載の回答生成装置。
前記プロセッサは、
連続する複数の前記トークンに対して判定結果が同一である場合に、各トークンを出力結果として出力することに代えて、系列長が最大となるようにトークンを連続的に選択して出力する、
請求項２に記載の回答生成装置。
前記プロセッサは、
処理対象トークンに対して単一回答として判定した後、次の処理対象トークンに対して複数回答あるいは回答なしと判定した場合、単一回答と判定したトークンのみを出力する、
請求項２に記載の回答生成装置。
前記プロセッサは、
前記複数の回答の回答数以上の前記複数の単一回答モデルを用いる、
請求項１〜４のいずれかに記載の回答生成装置。
前記複数の単一回答モデルのそれぞれは、深層学習方法に基づき前記質問及び前記解析対象データを分散表現に符号化し、符号化された前記分散表現に基づき、前記回答の開始点及び終了点を推定するための全結合層により最大確率の回答範囲を前記解析対象データから抽出するモデルである、
請求項１〜５のいずれかに記載の回答生成装置。
前記複数の単一回答モデルのそれぞれは、質問に対して単一の回答のみが付与された学習データを用いて学習される、
請求項１〜６のいずれかに記載の回答生成装置。
前記解析対象データは、テキストデータであり、
前記トークンは、前記テキストデータ中の単語あるいは文字列である、
請求項１〜７のいずれかに記載の回答生成装置。
コンピュータに、
質問及び解析の対象となるデータである解析対象データを入力するステップと、
事前に用意した複数の単一回答モデルを用いて前記質問に対する回答を前記解析対象データからそれぞれ独立に抽出するステップと、
抽出された前記回答の各トークン毎の出現頻度を算出するステップと、
前記出現頻度に基づき、単一あるいは複数の回答を抽出して出力するステップと、
を実行させるプログラム。