WO2020213531A1

WO2020213531A1 - 発話ペア獲得装置、発話ペア獲得方法、およびプログラム

Info

Publication number: WO2020213531A1
Application number: PCT/JP2020/016149
Authority: WO
Inventors: 航光田; 東中　竜一郎; 太一片山; 準二富田
Original assignee: 日本電信電話株式会社
Priority date: 2019-04-16
Filing date: 2020-04-10
Publication date: 2020-10-22
Also published as: US20220207239A1; JP2020177366A; US12019986B2

Abstract

入力発話に対して適切な出力発話を出力するために必要な拡張用の発話ペアを獲得することができる。　発話ペア獲得装置は、入力発話および入力発話に対する出力発話からなる拡張元発話ペアの集合である拡張元発話ペアデータと、発話の集合である比較用発話データとに含まれる単語の特徴の度合いを比較し、比較結果に基づいて、拡張元発話ペアの特徴となるキーワードからなるキーワードリストを抽出するキーワード抽出部と、抽出したキーワードリストと、任意の発話ペアの集合である抽出用発話ペアの集合からなる抽出用発話ペアデータとに基づいて、抽出用発話ペアのうち、キーワードリストについて所定の条件を満たす抽出用発話ペアを拡張用発話ペアとして抽出する発話ペア抽出部と、を含む。

Description

発話ペア獲得装置、発話ペア獲得方法、およびプログラム

　本発明は、発話ペア獲得装置、発話ペア獲得方法、およびプログラムに関する。

　対話システムを介して、人間はコンピュータと対話を行い、種々の情報を得たり、要望を満たしたりする。また、対話システムには、所定のタスクを達成するだけではなく、日常会話を行う対話システムも存在する。このような対話システムによって、人間は精神的な安定を得たり、承認欲を満たしたり、信頼関係を築いたりする。対話システムの類型については参考文献１に記載されている。

［参考文献１］河原達也，音声対話システムの進化と淘汰-歴史と最近の技術動向-，人工知能学会誌，Vol. 28，No. 1，p45-51，2013

　近年、対話システムにおいて、入力されたユーザの入力発話に対して、システムの出力発話を出力する方法として、Deep Learningを用いた発話生成モデルが注目されている。この手法は、入力発話と出力発話がペアになった学習データを用意し、それを元に発話を生成するモデルを学習する手法である。発話生成モデルは、入力発話と出力発話とをそれぞれベクトルとして捉えて、ベクトルの対応関係を学習する。発話生成モデルを利用することで、発話の文字列ではなく意味内容が理解できるようになるため、出力する出力発話の品質が向上する。発話生成モデルの詳細は非特許文献１に記載されている。

　発話生成モデルを学習する上で、学習データとなる発話ペアの品質は生成モデルの性能に直接影響するため、品質のよい学習データを大量に得られることが望ましい。例えば、任意の入力発話に対して質問を生成する発話生成装置や、任意の入力発話に対してその内容を支持する発話を生成する発話生成装置を学習する場合、人手で入力発話と出力発話のペアを記述することで、学習データを用意するのが一般的である。

Vinyals, O., Le, Q.: A neural conversational model. In: Proc. ICML Deep Learning Workshop (2015)

　発話生成モデルを学習するためには、多量かつ高品質な学習データが必要であるが、人手で作成できるデータの量には限界がある。そのため、人手で収集した学習データだけでは、幅広いバリエーションが存在する入力発話に対応できず、入力発話に適した出力発話を出力するように発話生成モデルを学習できない場合がある。

　本発明は、上記事情を鑑みて成されたものであり、入力発話に対して適切な出力発話を出力するために必要な拡張用の発話ペアを獲得することができる発話ペア獲得装置、発話ペア獲得方法、およびプログラムを提供することを目的とする。

　上記目的を達成するために、第１の発明に係る発話ペア獲得装置は、入力発話および前記入力発話に対する出力発話からなる拡張元発話ペアの集合である拡張元発話ペアデータと、発話の集合である比較用発話データとに含まれる単語の特徴の度合いを比較し、比較結果に基づいて、前記拡張元発話ペアの特徴となるキーワードからなるキーワードリストを抽出するキーワード抽出部と、抽出した前記キーワードリストと、任意の発話ペアの集合である抽出用発話ペアの集合からなる抽出用発話ペアデータとに基づいて、前記抽出用発話ペアのうち、前記キーワードリストについて所定の条件を満たす抽出用発話ペアを拡張用発話ペアとして抽出する発話ペア抽出部と、発話ペア抽出部と、を含んで構成されている。

　また、第１の発明に係る発話ペア獲得装置において、前記キーワード抽出部は、前記拡張元発話ペアデータにおける、前記入力発話と、前記比較用発話データとに含まれる単語の特徴の度合いを比較し、前記入力発話用のキーワードリストを抽出し、前記出力発話と、前記比較用発話データとに含まれる単語の特徴の度合いを比較し、前記出力発話用のキーワードリストを抽出し、前記発話ペア抽出部は、前記抽出用発話ペアに含まれる前記入力発話が、前記入力発話用のキーワードリストについて所定の条件を満たし、かつ、当該入力発話に対する出力発話が、前記出力発話用のキーワードリストについて所定の条件を満たす場合に、当該抽出用発話ペアを前記拡張用発話ペアとして抽出するようにしてもよい。

　また、第１の発明に係る発話ペア獲得装置において、前記所定の条件を、前記抽出用発話ペアに含まれる単語が、前記キーワードリストのキーワードにマッチした割合であって、任意に設定可能な割合とするようにしてもよい。

　第２の発明に係る発話ペア獲得方法は、入力発話および前記入力発話に対する出力発話からなる拡張元発話ペアの集合である拡張元発話ペアデータと、発話の集合である比較用発話データとに含まれる単語の特徴の度合いを比較し、比較結果に基づいて、前記拡張元発話ペアの特徴となるキーワードからなるキーワードリストを抽出するステップと、抽出した前記キーワードリストと、任意の発話ペアの集合である抽出用発話ペアの集合からなる抽出用発話ペアデータとに基づいて、前記抽出用発話ペアのうち、前記キーワードリストについて所定の条件を満たす抽出用発話ペアを拡張用発話ペアとして抽出するステップと、を含んで実行することを特徴とする。

　第３の発明に係るプログラムは、コンピュータに、入力発話および前記入力発話に対する出力発話からなる拡張元発話ペアの集合である拡張元発話ペアデータと、発話の集合である比較用発話データとに含まれる単語の特徴の度合いを比較し、比較結果に基づいて、前記拡張元発話ペアの特徴となるキーワードからなるキーワードリストを抽出し、抽出した前記キーワードリストと、任意の発話ペアの集合である抽出用発話ペアの集合からなる抽出用発話ペアデータとに基づいて、前記抽出用発話ペアのうち、前記キーワードリストについて所定の条件を満たす抽出用発話ペアを拡張用発話ペアとして抽出する、ことを実行させるためのプログラムである。

　本発明の発話ペア獲得装置、発話ペア獲得方法、およびプログラムによれば、入力発話に対して適切な出力発話を出力するために必要な拡張用の発話ペアを獲得することができる、という効果が得られる。

本発明の実施の形態に係る発話ペア獲得装置の構成を示すブロック図である。発話ペア獲得装置として機能するコンピュータの一例を示す概略ブロック図である。拡張元発話ペアデータの例として、支持発話ペアデータの例を示す図である。比較用発話データの例を示す図である。各単語について検定を行った結果として得られた単語および単語のｐ値の一例を示す図である。抽出用発話ペアデータの例として、Twitter（登録商標）のリプライペア集合の例を示す図である。発話ペア抽出部が出力する、拡張用発話ペアからなる拡張用発話ペアデータの例を示す図である。本発明の実施の形態に係る発話ペア獲得装置における処理ルーチンを示すフローチャートである。

　以下、図面を参照して本発明の実施の形態を詳細に説明する。

　本発明の実施の形態では、人手で収集した学習データ（入力発話と出力発話のペア）をもとに、その学習データと類似するデータを多量のテキストデータから獲得することで、学習に利用できる学習データの量を増やす手法を用いる。

＜本発明の実施の形態に係る発話ペア獲得装置の構成＞

　図１は、本発明の実施の形態の発話ペア獲得装置１０のシステム構成の一例を示すブロック図である。図１に示す構成の発話ペア獲得装置１０は、ＣＰＵと、ＲＡＭと、後述する各処理ルーチンを実行するためのプログラムおよび各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。

　図２は、発話ペア獲得装置１０として機能するコンピュータの一例を示す概略ブロック図である。例えば、発話ペア獲得装置１０は、図２に示すコンピュータ５０で実現することができる。コンピュータ５０はＣＰＵ５１、一時記憶領域としてのメモリ５２、及び不揮発性の記憶部５３を備える。また、コンピュータ５０は、入出力装置等（図示省略）が接続される入出力interface（Ｉ／Ｆ）５４、及び記録媒体に対するデータの読み込み及び書き込みを制御するread/write（Ｒ／Ｗ）部５５を備える。また、コンピュータ５０は、インターネット等のネットワークに接続されるネットワークＩ／Ｆ５６を備える。ＣＰＵ５１、メモリ５２、記憶部５３、入出力Ｉ／Ｆ５４、Ｒ／Ｗ部５５、及びネットワークＩ／Ｆ５６は、バス５７を介して互いに接続される。

　記憶部５３は、Hard Disk Drive（ＨＤＤ）、solid state drive（ＳＳＤ）、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部５３には、コンピュータ５０を機能させるためのプログラムが記憶されている。ＣＰＵ５１は、プログラムを記憶部５３から読み出してメモリ５２に展開し、プログラムが有するプロセスを順次実行する。

　以上が図２におけるコンピュータの電気的な構成の一例の説明である。

　以下、図１の発話ペア獲得装置１０について説明する。図１に示すように、発話ペア獲得装置１０は、キーワード抽出部１２と、発話ペア抽出部１４とを含んで構成されている。

　本発明の実施の形態の発話ペア獲得装置１０は、対話システムを支持発話生成システムとする場合を例に説明する。本発明の実施の形態では、支持発話ペアからなる支持発話ペアデータを拡張元発話ペアデータとして、拡張用発話ペアデータを獲得する。支持発話ペアデータとは、特定のトピックに対して肯定的（または否定的）な意見を述べる発話、および、その具体的な理由を、入力発話と出力発話としてペアにしたペア集合である。支持発話ペアデータの入力発話と出力発話とのペアは、例えば、「横浜は良い」という入力発話に対する「海が綺麗だ」という出力発話のペアである。

　なお、本手法の適用対象は、支持発話ペアデータの入力発話に限定されるものではなく、質問に関する発話ペアデータ、反論に関する発話ペアデータといった任意の発話ペアデータを拡張元発話ペアデータとすることができる。

　発話ペア獲得装置１０は、拡張用発話ペアデータ、比較用発話データ、および抽出用発話ペアデータの各々の入力データを受け付けて各処理部おいて処理を行うが、それぞれの入力データについて説明する。

　拡張元発話データは、人手で収集した支持発話ペアの集合を収録したデータである。人手で収集したデータでなく、任意の発話ペアの集合を拡張元発話ペアデータとして利用可能である。

　比較用発話データは、拡張元発話ペアデータに特徴的なキーワードを抽出するために利用される発話の集合を収録したデータである。比較用発話データは、さまざまな発話または文を含むデータであれば何を用いてもよい。例えば、Twitter（登録商標）におけるツイート、ブログ記事における文、およびテキストチャットにおける各発話などを収録したデータを比較用発話データとして利用できる。

　抽出用発話ペアデータは、新たに獲得したい拡張用発話ペアの抽出元となる発話ペアである抽出用発話ペアの集合を収録したデータである。任意の発話ペアの集合を拡張用発話ペアの集合である抽出用発話ペアデータとして利用可能である。抽出用発話ペアは、例えば、Twitter（登録商標）のリプライペア、またはWeb掲示板における投稿のペアを用いることができる。リプライペアは、特定のツイートと、特定のツイートに対する返信となるツイートとのペアである。また、投稿のペアは、掲示板の特定の投稿と、特定の投稿に対する返信となる投稿とのペアである。本発明の実施の形態では、Twitter（登録商標）のリプライペアを抽出用発話ペアに用いた例について説明する。

　以下、発話ペア獲得装置１０の各処理部について説明する。

　キーワード抽出部１２は、拡張元発話ペアデータと、比較用発話データとに含まれる単語の特徴の度合いを比較し、比較結果に基づいて、拡張元発話ペアの特徴となるキーワードからなるキーワードリストを抽出する。詳細には以下に説明するように、キーワード抽出部１２は、拡張元発話ペアデータにおける、入力発話と、比較用発話データとに含まれる単語の特徴の度合いを比較し、入力発話用のキーワードリストを抽出する。また、キーワード抽出部１２は、出力発話と、比較用発話データとに含まれる単語の特徴の度合いを比較し、出力発話用のキーワードリストを抽出する。

　図３に、拡張元発話ペアデータの例として、支持発話ペアデータの例を示す。各行は１ペアに対応しており、１列目が入力発話、２列目が出力発話となっている。これらの発話で特徴的な単語をキーワードとして抽出する。

　図４に、比較用発話データの例を示す。図４の例では、参考文献２に記載の手法で収集された雑談対話における発話を比較用発話データとして収集した。

［参考文献２］Higashinaka, R., Imamura, K., Meguro, T., Miyazaki, C., Kobayashi,N., Sugiyama, H., Hirano, T., Makino, T., Matsuo, Y.: Towards an open domain conversational system fully based on natural language processing. In: Proc. COLING,pp.928-939 (2014)

　図４の例では、各行は１発話に対応している。キーワード抽出部１２は、比較用発話データに収録された発話を拡張元発話ペアデータに含まれる入力発話および出力発話とは異なる発話としてみなし、拡張元発話ペアデータと比較することで、拡張元発話ペアデータから特徴的なキーワードを列挙する。

　キーワード抽出部１２では、キーワードを抽出するにあたって、入力された各発話データに含まれる単語の出現頻度を計算する。出現頻度が特徴の度合いの一例である。各発話データとは、拡張元発話データの入力発話、拡張元発話データの出力発話、および比較用発話データの３つである。入力発話用のキーワードリストを出力するために、拡張元発話データの入力発話の単語と比較用発話データの単語とを比較する。出力発話用のキーワードリストを出力するために、拡張元発話データの出力発話の単語と比較用発話データの単語とを比較する。このように、入力発話および出力発話のそれぞれに対するキーワードリストを抽出するのは、入力発話と出力発話とでは、特徴的なキーワードが異なるため、それぞれについて分別して抽出するためである。また、それぞれについて分別して抽出するのは、抽出後段の発話ペア抽出部１４の処理で、拡張元発話ペアデータの入力発話および出力発話のいずれにも類似する抽出用発話ペアを抽出対象とするためのである。

　以降、入力発話用のキーワードを例に、キーワードリストの抽出について説明を行う。

　単語の出現頻度を計算するにあたって、各発話データに含まれる発話を形態素解析し、分かち書きの形式にすることで単語の頻度を数えられるように形態素解析する。形態素解析器は何を用いてもよいが、例えば参考文献３のＪＴＡＧを用いる。

［参考文献３］Fuchi, T., Takagi, S.: Japanese morphological analyzer using word co-occurrence-JTAG-. In: Proc. COLING (1998)

　キーワード抽出部１２は、各単語の出現頻度を計算する。

　表１に、各発話データに含まれる単語の出現頻度を計算した結果をまとめた表を示す。

　表１は分割表と呼ばれる。各発話データにおいて、着目した特定の単語（ターゲット）とそれ以外の単語（その他）の出現した回数がＡ～Ｄに入る。Ａは、特定の単語が拡張元発話データの入力発話として出現した回数である。Ｂは、特定の単語以外の単語が入力発話として出現した回数である。Ｃは、特定の単語が比較用発話データの発話に出現した回数である。Ｄは、特定の単語以外の単語が比較用発話データの発話に出現した回数である。

　分割表を用いて、単語ごとに拡張元発話データでどれぐらい特徴的に出現しているかをχ^２検定を用いて計算する。χ^２検定は検定が可能な任意のツールを用いて実現が可能である。例えば、参考文献４のscipyのchi2 contingency関数を用いて計算が可能である。

［参考文献４］"scipy.org" URL:https://www.scipy.org/

　キーワード抽出部１２は、χ^２検定を行い、拡張元発話データで期待値よりも有意に出現頻度が高い単語のリストを作成する。有意水準は一般的に0.01や0.05を利用する。ここでは0.05とする。

　図５に、各単語について検定を行った結果として得られた単語および単語のｐ値の一例を示す。図５の検定結果に示すように、各行に単語と、その単語が拡張元発話データにおいてどの程度特徴的であるかを表すスコア（ｐ値）が並んでいる。キーワード抽出部１２は、検定結果から、有意水準で定めた値よりも小さいｐ値の単語をキーワードとして抽出し、キーワードリストを作成する。キーワード抽出部１２は、拡張元発話データの入力発話、および、拡張元発話データの出力発話のそれぞれで上記の検定を行うことで、入力発話用のキーワードリスト、および入力発話用のキーワードリストを作成する。

　なお、本発明の実施の形態では、χ^２検定を用いてキーワードリストを作成したが、各単語の出現頻度が求められる手法であれば、どのような手法を用いてキーワードリストを作成してもよい。他の手法としては、例えば、フィッシャーの正確確率検定を用いて各単語の有意差を求めて、キーワードリストを作成してもよい。

　発話ペア抽出部１４は、抽出用発話ペアデータの抽出用発話ペアのうち、キーワードリストについて所定の条件を満たす抽出用発話ペアを拡張用発話ペアとして抽出する。詳細には以下に説明するように、発話ペア抽出部１４は、抽出用発話ペアに含まれる入力発話および出力発話が、それぞれ条件を満たす場合に、当該抽出用発話ペアを拡張用発話ペアとして抽出する。入力発話の所定の条件は、当該入力発話に含まれる単語が、入力発話用のキーワードリストに含まれるキーワードにマッチする割合が、閾値以上となることである。出力発話の条件は、当該出力発話に含まれる単語が、出力発話用のキーワードリストに含まれるキーワードにマッチする割合が、閾値以上となることである。

　図６に、抽出用発話ペアデータの例として、Twitter（登録商標）のリプライペア集合の例を示す。各行が１リプライペアに対応しており、各ペアはスペースで区切られ、１ツイート目と、１ツイート目に対する返信の２ツイート目で構成される。１ツイート目は入力発話とみなされ、２ツイート目は出力発話とみなされる。ただし、抽出用発話ペアデータには多くのノイズが含まれているため、キーワード抽出部１２で抽出したキーワードリストの各々を用いて拡張元発話ペアデータと類似する抽出用発話ペアのみを抽出する必要がある。以下、抽出用発話ペアのうち入力発話とみなす発話を、抽出用発話ペアの入力発話として扱い、抽出用発話ペアのうち出力発話とみなす発話を、抽出用発話ペアの出力発話として扱う。

　発話ペア抽出部１４は、抽出用発話ペアデータに含まれる抽出用発話ペアの各々について、拡張用発話ペアを抽出するために、入力発話用のキーワードリストと抽出用発話ペアの入力発話とを比較する。また、発話ペア抽出部１４は、出力発話用のキーワードリストと抽出用発話ペアデータの出力発話とを比較する。以下、比較手法では、入力発話用のキーワードリストを例に説明を行う。

　発話ペア抽出部１４は、まず、抽出用発話ペアデータの抽出用発話ペアの各々について、参考文献３のＪＴＡＧなどを利用して形態素解析を行い、分かち書きの形式に変換する。なお、抽出用発話ペアの形態素解析は事前に行っておいてもよい。以降、各単語について、入力発話用のキーワードリストにマッチするキーワードがあるかどうかを確認する。

　発話ペア抽出部１４は、抽出用発話ペアの入力発話に含まれる全単語について、入力発話用のキーワードリストに含まれるキーワードとマッチした割合を計算する。単語がマッチした割合が閾値以上の割合になっていれば、当該入力発話が、拡張元発話ペアデータに含まれる入力発話の特徴に類似すると判定する。閾値は任意の値を設定可能であり、閾値を高くすれば精度よく少数の拡張用発話ペアが獲得され、閾値を低くすれば精度が下がるが多数の拡張用発話ペアを獲得できる。ここでは、0.5を閾値として設定する。なお、単語の割合ではなく、単語の個数の閾値としてもよい。

　発話ペア抽出部１４は、同様に、出力発話でも比較を行う。発話ペア抽出部１４は、抽出用発話ペアの出力発話に含まれる全単語について、出力発話用のキーワードリストに含まれるキーワードとマッチした単語の割合を計算する。マッチした単語の割合が閾値以上の割合になっていれば、当該出力発話が、拡張元発話ペアデータに含まれる出力発話の特徴に類似すると判定する。このように、抽出用発話ペアに含まれる単語が、キーワードリスト（入力発話用のキーワードリストまたは出力発話用のキーワードリスト）のキーワードにマッチした割合を判定の条件とし、割合の閾値を任意に設定することができる。

　発話ペア抽出部１４は、抽出用発話ペアの各々について上記比較を行い、入力発話および出力発話の比較結果がそれぞれ閾値以上である場合に、当該抽出用発話ペアを、拡張用発話ペアとして抽出する。

　表２に抽出用発話ペアから拡張用発話ペアを抽出する例を示す。

　表２は、抽出用発話ペア（Twitterのリプライペア）から拡張用発話ペアを抽出する場合の例である。下線はキーワードリストに含まれる単語であることを表す。

　表２のように、抽出される抽出用発話ペアには拡張元発話ペアには含まれない単語である「亜鉛」や「インスタ」などの単語が含まれており、より入力発話のバリエーションが増えていることがわかる。

　図７に、発話ペア抽出部１４が出力する、拡張用発話ペアからなる拡張用発話ペアデータの例を示す。拡張用発話ペアは、拡張元発話ペアデータに類似した発話ペアだけが抽出されている。なぜなら、拡張用発話ペアは、拡張元発話ペアデータに含まれる特徴的なキーワードを含んでいるからである。すなわち、拡張用発話ペアの入力発話は、拡張元発話ペアデータに含まれる入力発話と類似する特徴を有している。また、拡張用発話ペアの出力発話は、拡張元発話ペアデータに含まれる出力発話と類似する特徴を有している。そのため、拡張用発話ペアデータを拡張元発話ペアデータと共に発話生成モデルの学習に用いることで、よりさまざまな入力に対応可能な発話生成モデルの学習が可能となる。

＜本発明の実施の形態に係る発話ペア獲得装置の作用＞

　次に、本発明の実施の形態に係る発話ペア獲得装置１０の作用について説明する。図８は、発話ペア獲得装置１０の処理ルーチンを示すフローチャートの一例である。

　ステップＳ１００では、キーワード抽出部１２は、拡張元発話ペアデータにおける入力発話と、比較用発話データとに含まれる単語の特徴の度合いを比較し、入力発話用のキーワードリストを抽出する。具体的な単語の特徴の度合いの比較は、上述したように単語の出現割合を計算し、χ^２検定により比較すればよい。

　ステップＳ１０２では、キーワード抽出部１２は、拡張元発話ペアデータにおける出力発話と、比較用発話データとに含まれる単語の特徴の度合いを比較し、出力発話用のキーワードリストを抽出する。

　ステップＳ１０４では、発話ペア抽出部１４は、抽出用発話ペアデータから処理対象の抽出用発話ペアを選択する。

　ステップＳ１０６では、発話ペア抽出部１４は、選択した抽出用発話ペアの入力発話について、入力発話用のキーワードリストに含まれるキーワードとマッチした単語の割合が、閾値以上であるかを判定する。閾値以上であればステップＳ１０８へ移行し、閾値未満であればステップＳ１１２へ移行する。

　ステップＳ１０８では、発話ペア抽出部１４は、選択した抽出用発話ペアの出力発話について、出力発話用のキーワードリストに含まれるキーワードとマッチした単語の割合が、閾値以上であるかを判定する。閾値以上であればステップＳ１１０へ移行し、閾値未満であればステップＳ１１２へ移行する。

　ステップＳ１１０では、発話ペア抽出部１４は、選択中の抽出用発話ペアを拡張用発話ペアとして抽出する。

　ステップＳ１１２では、発話ペア抽出部１４は、全ての抽出用発話ペアについて処理を終了したかを判定し、終了していればステップＳ１１４へ移行し、終了していなければステップＳ１０４に戻って次の抽出用発話ペアを選択して処理を繰り返す。

　ステップＳ１１４では、発話ペア抽出部１４は、抽出した拡張用発話ペアからなる拡張用発話ペアデータを出力して処理を終了する。

　以上説明したように、本発明の実施の形態に係る発話ペア獲得装置によれば、入力発話に対して適切な出力発話を出力するために必要な拡張用の発話ペアを獲得することができる。

　多量のテキストデータから学習データを抽出することで、学習に利用可能なデータの入力発話のバリエーションを増やせる。これにより、人手で収集した学習データに含まれる入力発話よりもより多くの入力発話に対して適切な出力発話を生成できるようになり、発話生成モデルの品質が向上する。

　なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

　例えば、上述した実施の形態では、入力発話用のキーワードリストと、出力発話用のキーワードリストとを用いて、比較し、拡張用発話ペアを抽出する場合を例に説明したが、これに限定されるものではない。例えば、キーワード抽出部１２で、出力発話用のキーワードリストのみを抽出し、発話ペア抽出部１４で、拡張用発話ペアの出力発話のみを出力発話用のキーワードリストと比較して、拡張用発話ペアを抽出するようにしてもよい。なぜならば、発話生成モデルの学習に用いる学習データとして、出力発話のバリエーションを多く獲得したい場合には、少なくとも出力発話の特徴が類似している拡張用発話ペアが得られればよいからである。

　また、例えば、発話ペア抽出部１４における入力発話の閾値と、出力発話の閾値とを異ならせるようにしてもよい。例えば、相対的に、入力発話の閾値を低くし出力発話の閾値を高く設定する。このようにすることにより、入力発話側の特徴の類似もある程度担保しつつ、出力発話側の特徴がより類似するような発話ペアに絞り込んで拡張用発話ペアを抽出することができる。

１０発話ペア獲得装置
１２キーワード抽出部
１４発話ペア抽出部

Claims

　入力発話および前記入力発話に対する出力発話からなる拡張元発話ペアの集合である拡張元発話ペアデータと、発話の集合である比較用発話データとに含まれる単語の特徴の度合いを比較し、比較結果に基づいて、前記拡張元発話ペアの特徴となるキーワードからなるキーワードリストを抽出するキーワード抽出部と、
　抽出した前記キーワードリストと、任意の発話ペアの集合である抽出用発話ペアの集合からなる抽出用発話ペアデータとに基づいて、前記抽出用発話ペアのうち、前記キーワードリストについて所定の条件を満たす抽出用発話ペアを拡張用発話ペアとして抽出する発話ペア抽出部と、
　を含む発話ペア獲得装置。
　前記キーワード抽出部は、前記拡張元発話ペアデータにおける、前記入力発話と、前記比較用発話データとに含まれる単語の特徴の度合いを比較し、前記入力発話用のキーワードリストを抽出し、前記出力発話と、前記比較用発話データとに含まれる単語の特徴の度合いを比較し、前記出力発話用のキーワードリストを抽出し、
　前記発話ペア抽出部は、前記抽出用発話ペアに含まれる前記入力発話が、前記入力発話用のキーワードリストについて所定の条件を満たし、かつ、当該入力発話に対する出力発話が、前記出力発話用のキーワードリストについて所定の条件を満たす場合に、当該抽出用発話ペアを前記拡張用発話ペアとして抽出する請求項１に記載の発話ペア獲得装置。
　前記所定の条件を、前記抽出用発話ペアに含まれる単語が、前記キーワードリストのキーワードにマッチした割合であって、任意に設定可能な割合とする請求項１または請求項２に記載の発話ペア獲得装置。
　入力発話および前記入力発話に対する出力発話からなる拡張元発話ペアの集合である拡張元発話ペアデータと、発話の集合である比較用発話データとに含まれる単語の特徴の度合いを比較し、比較結果に基づいて、前記拡張元発話ペアの特徴となるキーワードからなるキーワードリストを抽出するステップと、
　抽出した前記キーワードリストと、任意の発話ペアの集合である抽出用発話ペアの集合からなる抽出用発話ペアデータとに基づいて、前記抽出用発話ペアのうち、前記キーワードリストについて所定の条件を満たす抽出用発話ペアを拡張用発話ペアとして抽出するステップと、
　を含む発話ペア獲得方法。
　コンピュータに、
　入力発話および前記入力発話に対する出力発話からなる拡張元発話ペアの集合である拡張元発話ペアデータと、発話の集合である比較用発話データとに含まれる単語の特徴の度合いを比較し、比較結果に基づいて、前記拡張元発話ペアの特徴となるキーワードからなるキーワードリストを抽出し、
　抽出した前記キーワードリストと、任意の発話ペアの集合である抽出用発話ペアの集合からなる抽出用発話ペアデータとに基づいて、前記抽出用発話ペアのうち、前記キーワードリストについて所定の条件を満たす抽出用発話ペアを拡張用発話ペアとして抽出する、
　ことを実行させるためのプログラム。