JP2015118710A

JP2015118710A - 対話装置、方法及びプログラム

Info

Publication number: JP2015118710A
Application number: JP2015003544A
Authority: JP
Inventors: 裕美若木; Yumi Wakagi; 尚義永江; Hisayoshi Nagae; 康顕有賀; Yasuaki Ariga; 憲治岩田; Kenji Iwata; 住田　一男; Kazuo Sumita; 一男住田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-01-09
Filing date: 2015-01-09
Publication date: 2015-06-25

Abstract

【課題】話者が異なる言語で又は同じ言語で対話をする場合に、対話に応じて知識を補うための情報を提示して対話を支援することを可能にする。
【解決手段】実施形態によれば、入力部、音声認識部、対話履歴データベース、推定部、判定部、生成部、選択部、提示部を含む。入力部は、話者間の対話の音声を入力する。音声認識部は、入力音声を音声認識して、対応するテキスト情報に変換する。対話履歴データベースは、テキスト情報の全部又は一部を対話履歴として記憶する。推定部は、テキスト情報に基づいて、発話行為を推定する。判定部は、推定された発話行為に基づいて、補足情報を提示するかどうか判定する。生成部は、補足情報を提示すると判定された場合に、補足情報の候補を生成する。選択部は、対話履歴を利用して、補足情報の候補のうちから、提示すべきものを選択する。提示部は、選択された補足情報を提示する。
【選択図】図２

Description

本発明の実施形態は、対話支援装置、方法及びプログラムに関する。

近年、音声による機械翻訳器が登場し、知らない言語の相手と会話することが可能になってきた。しかし、入力された情報を正しく翻訳しさえすれば、その情報について、その情報を発した元の話者と同様の理解を、もう一方の話者が得られるとは限らない。例えば、地名又は料理名などのような名称（固有表現）等の中には、元の話者の文化圏又は国等では一般に良く知られているが、もう一方の話者の文化圏等では一般に良く知られていないようなものも多く存在し、たとえ元の話者が発した名称等が訳語に翻訳されたとしても、もう一方の話者は、知識がないために、その訳語を理解できないことがある。

また、ある名称等について、それを理解する人（例えば、その名称等が一般的であるような文化圏等の人）が丁寧に説明したつもりでも、話者の間で、背景知識が大きく異なるため、同様のイメージが伝わらない場合がある。例えば、レストランにおいて料理名からその内容が分からないために、説明を求めて説明を受けた場合に、文化圏等によって一般的な調理法が異なるなどの前提知識の相違によって、実際にはイメージが正しく伝わっておらず、結局、実際に食べるまではどのような料理かが分からないということがある。

説明する人が、聞き手の文化圏等を考慮して、聞き手の文化圏における類似する料理又は調理法に喩えること又は違いを説明することによって、説明することができれば、聞き手もイメージしやすい。しかしながら、説明する人が、聞き手の文化圏等に関する知識を持たない場合も多く、そのような場合には、喩えること又は違いを説明することが難しい。

これは、背景知識の異なる話者が、同じ言語で会話をする場合にも、同様に生じ得る。

従来、翻訳をする際に、特定の固有名詞については、その訳語に必ず補足情報を付加して出力するシステムが知られている。しかし、音声による対話時に、特定の固有表現が出現するごとに常に補足情報が出力されるのでは、かえって煩わしく、スムーズな対話を阻害する。

また、ユーザが音声ガイドと対話する際に、音声ガイドがユーザの戸惑いを検出して、戸惑いを解消するための情報を提供するシステムが知られている。しかし、このシステムでは、ユーザが戸惑いを示さない場合には機能せず、また、あらかじめユーザが戸惑わないように音声ガイドが先回りして情報を提供することもできない。さらに、このシステムは、背景知識の異なる人間同士の会話を対象とするものではない。

特開２００４−２２０４１６号公報特開２０００−２５９１７７号公報

話者が異なる言語で又は同じ言語で対話をする場合に、対話に応じて知識を補うための情報を提示して対話を支援する技術は、知られていなかった。

本実施形態は、話者が異なる言語で又は同じ言語で対話をする場合に、対話に応じて知識を補うための情報を提示して対話を支援することの可能な対話支援装置、方法及びプログラムを提供することを目的とする。

実施形態によれば、入力部と、音声認識部と、対話履歴データベースと、推定部と、判定部と、生成部と、選択部と、提示部とを備える。入力部は、複数の話者による対話に係る音声を入力する。音声認識部は、入力された前記音声を音声認識して、対応するテキスト情報に変換する。対話履歴データベースは、前記テキスト情報の全部又は一部を対話履歴として記憶する。推定部は、前記テキスト情報に基づいて、発話行為を推定する。判定部は、推定された前記発話行為に基づいて、補足情報を提示するかどうか判定する。生成部は、前記補足情報を提示すると判定された場合に、補足情報の候補を生成する。選択部は、前記対話履歴を利用して、前記補足情報の候補のうちから、提示すべきものを選択する。提示部は、選択された前記補足情報を提示する。

第１の実施形態に係る対話支援装置の構成例を示す図である。第１の実施形態に係る対話支援装置の処理手順の一例を示すフローチャートである。第１の実施形態に係る対話支援装置の利用シチュエーションを説明するための図である。音声認識処理部の処理手順の一例を示すフローチャートである。音声認識処理部の処理手順の他の一例を示すフローチャートである。機械翻訳部の処理手順の一例を示すフローチャートである。発話行為推定部の処理手順の一例を示すフローチャートである。発話行為タグの例を示す図である。提示要否判定部の処理手順の一例を示すフローチャートである。補足情報提示可否データベースの一例を示す図である。提示候補生成部の処理手順の一例を示すフローチャートである。補足説明データベースの一例を示す図である。候補選択部の処理手順の一例を示すフローチャートである。第１の実施形態に係る対話支援装置の動作例を説明するための図である。対話例を示す図である。対話支援装置の他の構成例を示す図である。対話支援装置のさらに他の構成例を示す図である。補足情報提示内容データベースの例を示す。対話例を示す図である。第２の実施形態に係る対話支援装置の構成例を示す図である。第２の実施形態に係る対話支援装置の処理手順の一例を示すフローチャートである。

以下、図面を参照しながら本発明の実施形態に係る対話支援装置について詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。

（第１の実施形態）
対話しようとする二人の話者が、共通の言語（自然言語）を使用できない場合（例えば、それらの話者が、いずれも、母国語のみを使用し且つ相手の母国語を理解できない場合、あるいは、それらの話者の一方又は両方は、複数の言語を使用できるが、それらの話者が共通して使用できる言語がない場合など）において、そのような話者の間に翻訳器を介在させることによって、それら話者が異なる言語（例えばそれぞれの母国語等）を使用して対話をすることを支援することができる。しかし、一般に、話者同士の背景知識には差があることも多い。それゆえ、翻訳器が一方の話者により発せられた情報を他方の話者向けに正しく翻訳しさえすれば、一方の話者から他方の話者へ情報が正しく伝わる、ということが必ずしも期待できないことがある。これは、背景知識に差がある二人の話者が、共通の言語で会話をする場合にも、同様に生じ得る。

第１の実施形態では、対話に機械翻訳が介在する場合に、対話に応じて知識を補うための情報を提示する場合を例にとって説明する。

第１の実施形態において、対話支援装置を利用する二人の話者を、第一話者及び第二話者と呼ぶものとする。

以下では、第一話者を客、第二話者を接客者（例えば接客する側である店員等）とし、第一話者が理解及び（音声入力のために）発話する第一言語を日本語とし、第二話者が理解及び（音声入力のために）発話する第二言語を英語とした具体例を使用するものとする。もちろん、本実施形態はこれに制限されるものではなく、第一言語が日本語以外の言語でも可能であり、第二言語が英語以外の言語でも可能である。

また、以下では、第一話者をレストランの客、第二話者をレストランの接客者とする場合を例に取って説明する。もちろん、本実施形態はこれに制限されるものではなく、他のサービスを提供する際の異言語間のコミュニケーション、商品を販売する際の異言語間のコミュニケーションなど、異言語間の様々な接客コミュニケーションに適用可能である。

また、以下では、対話を支援する対話支援装置として、接客者が客を接客する接客コミュニケーションを支援する接客支援装置を例にとって説明するが、本実施形態は、接客以外の対話にも適用可能である。

以下では、第一話者と第二話者が異なる言語を使用して会話する際の対話状態を利用して、一方の話者にとって未知情報があることを判断し、翻訳結果を出力する際に所定のタイミングで該一方の話者向けに補足情報（例えば、説明文）を提示する例を示す。ここでは、一方の話者を第一話者として説明するが、これに制限されない。また、未知情報があることを判断し、翻訳結果を出力する際に第二話者向けに補足情報を提示する対象を、一方の話者ではなく、両方の話者とすることも可能である。

最初に、図３を参照しながら、本実施形態の接客支援装置（対話支援装置）の利用シチュエーションの例を示す。

まず、ＳＴＥＰ−Ｃ１において、第二話者（接客者）が、英語により、注文を聞くための内容（例えば、“Are you ready to order?”）を発話する。すると、ＳＴＥＰ−Ｃ２において、接客支援装置が、その内容を日本語に翻訳し、その翻訳内容（例えば、「ご注文はお決まりですか？」）を提示（発声及び／又は表示）する。

ＳＴＥＰ−Ｃ３において、上記翻訳内容を聞いた及び又は読んだ第一話者（客）が、日本語により、お勧め料理を尋ねるための内容（例えば、「お勧めの料理は何ですか？」）を発話する。すると、ＳＴＥＰ−Ｃ４において、接客支援装置が、その内容を英語に翻訳し、その翻訳内容（例えば、“Which one do you recommend?”）を提示（発声及び／又は表示）する。

ＳＴＥＰ−Ｃ５において、上記翻訳内容を聞いた及び又は読んだ第二話者が、英語により、お勧め料理を答えるための内容（例えば、“I recommend Wiener Schnizel.”）を発話する。すると、ＳＴＥＰ−Ｃ６において、接客支援装置が、その内容を日本語に翻訳し、その翻訳内容（例えば、「ウィンナーシュニッチェルがおすすめです。」）を提示（発声及び／又は表示）する。

ここで、更に、本実施形態の接客支援装置は、詳しくは後述するように補足情報の提示の要否を判定しており、補足情報の提示が必要であると判断したとすると、この例において、例えば、ＳＴＥＰ−Ｃ７において、補足情報（この例の場合、第一話者（客）に対応する日本語により、例えば「ウィンナーシュニッチェルは、ウィーン風カツレツで、オーストリアの代表的な料理です。」）を提示（発声及び／又は表示）する。

図１に、本実施形態の接客支援装置の機能構成例を示す。

図１に示されるように、本実施形態の接客支援装置は、入力部１０１、音声認識部１０２、機械翻訳部１０３、発話行為推定部１０４、提示要否判定部１０５、提示候補生成部１０６、候補選択部１０７、提示部１０８を含む。

入力部１０１は、第一話者が発した第一言語による音声と、第二話者が発した第二言語による音声を受け付ける。入力部１０１は、例えば、マイクロフォンを用いて、音声を入力し、これをデジタイズして、音声認識部１０２に渡しても良い。

音声認識部１０２は、第一言語又は第二言語である入力言語による音声情報を認識し、その入力言語によるテキスト情報（翻訳前テキスト）に変換する。

機械翻訳部１０３は、上記テキスト情報をもとに、その入力言語（第一言語又は第二言語）から他方の言語（第二言語又は第一言語）へ翻訳したテキスト（翻訳テキスト）を生成する。

発話行為推定部１０４は、翻訳テキスト及び／又は翻訳前テキストから、発話行為を推定する。

対話履歴データベース１２１は、音声認識部１０２で得られる翻訳前テキストによる対話履歴と、機械翻訳部１０３で得られる翻訳テキストによる対話履歴とを保存するためのデータベースであるである。対話履歴データベース１２１に、更に、発話行為推定部１０４で推定された発話行為による対話履歴を保存しても良い。

対話履歴データベース１２１は、候補選択部１０７が、候補選択時に参照する。

補足情報提示要否データベース１２２は、補足情報を提示するかどうかを判定するために使用する情報を格納するためのデータベースであるである。

提示要否判定部１０５は、推定された発話行為から、第一話者にとっての未知情報が存在し、かつ、その未知情報に対する補足情報を提示するかどうかについて、判定する。

補足説明データベース１２３は、提示すべき補足情報の候補（提示候補）を生成する際に使用する知識情報（補足説明）を格納するためのデータベースである。

提示候補生成部１０６は、提示要否判定部１０５により補足情報の提示が必要であると判定された場合に、補足説明データベース１２３を参照して、補足情報（あるいは、補足説明）の候補を生成（あるいは、取得）する。

候補選択部１０７は、生成（あるいは、取得）された補足情報（あるいは、補足説明）の候補のうちから、提示すべきもの（あるいは、提示のために使用すべきもの）を選択する。その際、候補選択部１０７は、対話履歴データベース１２１を参照して、選択を行う。

提示部１０８は、翻訳結果を提示するととともに、補足情報を、所定のタイミングで提示する。提示部１０８は、例えば、翻訳結果と補足情報を、聴覚的に提示（例えば、スピーカから発声）しても良いし、それと共に又はその代わりに、視覚的に提示（例えば、液晶ディスプレイ等の表示画面に表示）しても良い。なお、翻訳結果と補足情報で同一の提示方法を使用しても良いし、補足情報を、翻訳結果とは異なる方法で提示しても良い。例えば、翻訳結果と補足情報を、いずれも、視聴覚的に提示しても良いし、翻訳結果は聴覚的にのみ表示し、補足情報は視覚的にのみ提示しても良いし、それら以外の提示方法も可能である。

また、提示部１０８は、翻訳結果を視覚的に表示する場合に、翻訳前テキストも併せて視覚的に表示するようにしても良い。

さらに、提示部１０８は、補足情報を提示するにあたって、補足情報の提示であることをユーザ知らしめるために、音を鳴らす、表示を点滅させる、装置を振動させるなどの処理を行っても良い。

なお、本実施形態では、補足情報を、客向けに第一言語で提示する例を中心に説明しているが、補足情報を、接客者向けに第二言語で提示すること、両者向けに第一言語及び第二言語で提示することを可能にしても良く、これらの場合に、客向けの補足情報を聴覚的に提示するときであっても、接客者のみに向けた補足情報は、客に聞こえないように、視覚的に提示するようにしても良い。

図２に、本実施形態の全体的な処理手順の一例を示す。

ユーザが会話を行うと、いずれの話者の音声も入力部１０１に入り（ステップＳ１）、音声認識部１０２による音声認識（ステップＳ２）、機械翻訳部１０３による機械翻訳（ステップＳ３）が順次行われる。なお、例えば、ステップＳ３以降の適当なタイミングで（例えば、ステップＳ３の直後で）、提示部１０８において機械翻訳結果を提示しても良い。

更に、発話行為推定部１０４による発話行為の推定（ステップＳ４）、提示要否判定部１０５による補足情報の提示要否判定（ステップＳ４）が順次行われる。

提示が必要と判定された場合には（ステップＳ５）、提示候補生成部１０６により、補足情報の候補（提示候補）の生成（ステップＳ６）が行われ、次いで、候補選択部１０７により、提示候補の中から提示に使用する１以上の提示候補を選択する（ステップＳ７）。なお、提示候補をそのまま補足情報としても良いし、ステップＳ７において、候補選択部１０７により、提示候補をもとに説明文を生成して、これを補足情報としても良い。そして、提示部１０８において、適切なタイミングで、補足情報を提示する（ステップＳ８）。そして、ステップＳ１に戻って、一連の処理を繰り返す。

一方、提示が不要と判定された場合には（ステップＳ５）、ステップＳ６〜８をスキップして、ステップＳ１に戻って、一連の処理を繰り返す。

以下、図４〜図１３を参照しながら、各構成の処理例についてより詳しく説明する。

（音声認識部１０２）
図４に、音声認識部１０２の処理の例を示す。

ステップＳ１１において、入力部１において受け付けられた音声を、入力部１から入力する。

ステップＳ１２において、入力音声を、音声認識を行うことによって、テキスト化する（翻訳前テキストを生成する）。

ステップＳ１３において、翻訳前テキストを出力する。

なお、音声認識時に言語判定を必要とする場合には、図５に示すように、音声認識部１０２は、ステップＳ１４において、言語判定を行う。言語判定では、入力音声から、直接、言語を特定する処理を行っても良いし、その代わりに、例えば、予め接客者（店員）とその声の特徴と使用する言語との対応を設定しておき、入力音声の特徴から話者が接客者か否かを判定することによって、接客者に対応する言語か否かを判定するようにしても良い。あるいは、発話内容から抽出される特徴などを使用しても良い。あるいは、ユーザ自身が、発話と同時に又は発話の前若しくは後に、ボタン等により言語選択を指示しても良い。あるいは、入力部１０１において、話者ごとに専用のマイクロフォンを用意し、マイクロフォンと言語との対応を設定しておき、音声が、いずれのマイクロフォンから入力されたかによって、話者と言語を特定する方法も可能である。また、発話される方向と話者とを対応付けておき、発話される方向を推定し、その推定結果によって話者を特定しても良い。また、第一話者と第二話者のボタンを用意し、話者がボタンを押して、選択しても良い。その際、例えば、第一話者／第二話者が選択されて、音声が入力されたときに、自動的に第二話者／第一話者が選択された状態にすることによって、交互に発話する場合のボタン操作を不要とし、同じ話者が続けて発話するときにのみ、その話者のボタンを押すようにしても良い。また、これらの他にも、言語を特定又は指定する様々な方法が可能である。なお、この場合、ステップＳ１２では、ステップＳ１４における言語判定の結果に従って、音声認識、テキスト化を行う。

（機械翻訳部１０３）
図６に、機械翻訳部１０３の処理の例を示す。

ステップＳ２１おいて、音声認識部１０２によりテキスト化された翻訳前テキストを、入力する。

ステップＳ２２おいて、入力テキストの言語判定を行う。

音声認識部１０２において言語判定が行われない場合に、言語判定は、上記した音声認識部１０２における言語判定と同様でも良い。その代わりに、例えば、翻訳前テキストから、言語判定を行っても良い。

音声認識部１０２において言語判定が行われる場合に、言語判定は、音声認識部１０２による言語判定結果を利用して、ステップＳ２２を省略しても良いし、ステップＳ２２で独自に言語判定を行っても良い。

ここで、入力された言語が第一言語である場合、ステップＳ２３において、第一言語から第二言語への翻訳を行い、ステップＳ２４において、第二言語のテキスト（翻訳テキスト）を出力する。

一方、入力された言語が第二言語である場合、ステップＳ２３において、第二言語から第一言語への翻訳を行い、ステップＳ２４において、第一言語のテキスト（翻訳テキスト）を出力する。

例えば、ステップＳ２２において、入力言語が日本語であるか英語であるかを判定し、かりに英語と判定したならば、入力テキストを、英語から日本語へ翻訳し、日本語の翻訳テキストを出力する。

（発話行為推定部１０４）
図７は、発話行為推定部１０４の処理の例を示す。

発話行為推定部１０４は、発話行為推定の処理（ステップＳ３２）においては、常に翻訳後のテキストを使って両言語に対して判定できるようにしても良いし、機械翻訳部１０３のステップＳ２２の言語判定の判定結果又は音声認識部１０２のステップＳ１４の言語判定の判定結果を利用して、翻訳前か翻訳後を選択し、常に同一言語に対して推定するようにしても良い。

ここでは、常に第二言語でテキスト入力される場合を例示する。

ステップＳ３１において、翻訳前または翻訳後の第二言語のテキスト（すなわち、第一話者に係る翻訳テキストまたは第二話者に係る翻訳前テキスト）が入力される。

ステップＳ３２において、ステップ４０２で得られたテキストを用いて、発話行為タグの推定を行う。

なお、発話行為タグの推定時に、対話履歴を使って、前の発話も考慮するようにしても良い。すなわち、ステップＳ３１において、対話履歴データベース１２１にある履歴情報（発話内容と話者タグ）も併せて入力し、ステップＳ３２において、ステップ４０２で得られたテキストと、上記履歴情報（発話内容と話者タグ）を用いて、発話行為タグの推定を行っても良い。

ステップＳ３３において、発話行為タグ推定結果として得られた発話行為タグを出力する。

図８に、発話行為タグの例を示す。この例では、「挨拶」「謝辞・謝罪」「相槌」「応答」「質問」「提案」「情報伝達」「要求」といった発話行為タグが定義されている。

発話行為の推定には、機械学習などの統計的手法を用いて行う方法、手掛り表現などからルールで推定する方法など、種々の方法が利用できる。例えば、「ウィンナーシュニッチェルはいかがですか？」という入力であれば、発話行為タグ＝「提案」、「はい」という入力であれば、発話行為タグ＝「応答」、「ウィンナーシュニッチェルを１つ」という入力であれば、発話行為タグ＝「依頼」、「ウィンナーシュニッチェルというのはどんな料理ですか？」であれば、発話行為タグ＝「質問」のように、発話行為タグを推定することができる。

（提示要否判定部１０５）
図９に、提示要否判定部１０５の処理の例を示す。

ステップＳ４１において、発話行為推定部１０４により出力された発話行為タグと、機械翻訳部１０３のステップＳ２２の言語判定の判定結果または音声認識部１０２のステップＳ１４の言語判定の判定結果とを使用して、話者判定を行う。

例えば、第一話者が客であり、第二話者が接客者である場合に、事前に接客者の言語である英語が第二言語であると設定しておけば、言語判定結果を利用して言語が第二言語であれば第二話者である接客者が話者タグとして得られる。

なお、その代わりに、例えば、予め接客者（店員）とその声の特徴との対応を設定しておき、入力音声の特徴から、話者が接客者か否かを判定するようにしても良い。

また、前述したように、音声認識部１０２または機械翻訳部１０３において、言語判定のために話者判定を行っている場合には、その結果を利用しても良い。

次に、ステップＳ４２において、発話行為タグと話者タグが入力され、ステップＳ４３において、入力された発話行為タグと話者タグの組み合わせを使用して、補足情報提示要否データベース１２２を参照する。

図１０に、補足情報提示要否データベース１２２の例を示す。この例では、「話者タグ」、「発話行為タグ」、「提示要否」の３つ組データが複数定義されており、「話者タグ」と「発話行為タグ」の組み合わせに対応する「提示要否」欄の内容を参照することによって、要否判定が可能になる。なお、この例では、便宜上、「提示が必要」を○で、「提示が不要」を×で示している。

さらに、各条件に対して、補足情報を提示する提示タイミングを合わせて記述しても良い。提示タイミングを記述する場合には、「提示タイミング」欄の内容に従って、補足情報を提示することになり、提示タイミングを記述しない場合には、予め定められたタイミングで（例えば、直ちに、あるいは、接客者の次の発言の後で、など）補足情報を提示することになる。

なお、本実施形態では、補足情報は第一話者の使用する第一言語で提示される場合を例にとって説明しているが、各条件に対して、補足情報を提示する際に使用する言語を記載する欄を設けても良い。この場合には、「言語」欄に記載された言語で補足情報を提示することになる。これによって、例えば、補足情報を、客向けに第一言語で提示することと、補足情報を、接客者向けに第二言語で提示することを指示できるようになる。また、この場合に、「言語」欄には、第一言語又は第二言語を記載するようにしても良い。さらに、「言語」欄に、第一言語と第二言語の両方を記載することを、可能にしても良い。

図１０の例の場合、ステップＳ４３では、ステップＳ４２で入力された「発話行為タグ」と「話者タグ」の組み合わせに対応する「提示要否」欄の内容（「提示タイミング」欄を設ける場合には、「提示要否」欄の内容及び「提示タイミング」欄の内容）を取得する。

ステップＳ４４において、補足情報提示要否データベース１２２上で、ステップＳ４２で入力された「発話行為タグ」と「話者タグ」の組み合わせに対応する「提示要否」欄の内容が、「提示が必要」に該当するかを判定する。

「提示が必要」と判定された場合には、ステップＳ４５において、提示要求を出し、提示が不要と判定された場合には、ステップＳ４６において、非提示要求を出す。

「提示タイミング」欄を設ける場合に、「提示タイミング」欄の内容は、提示要求に付加するなどして、提示候補生成部１０６と候補選択部１０７を介して、提示部１０８に伝えても良いし、あるいは、「提示タイミング」欄の内容を提示部１０８に（候補選択部１０７が「提示タイミング」欄の内容を使用する場合には、候補選択部１０７にも）直接伝えるようにしても良い。

なお、「提示タイミング」欄を設ける場合に、「提示タイミング」欄の内容は、ステップＳ４４において、「提示が必要」に該当すると判定されたときのみ、ステップＳ４６の前に取得するようにしても良い。

（提示候補生成部１０６）
図１１に、提示候補生成部１０６の処理の例を示す。

提示要否判定部１０５により提示要求が出力された場合にのみ、提示候補生成部１０６の処理を行う。

提示候補生成部１０６は、提示候補生成の処理（ステップＳ５２）においては、常に翻訳後のテキストを使って両言語に対して判定できるようにしても良いし、機械翻訳部１０３のステップＳ２２の言語判定の判定結果または音声認識部１０２のステップＳ１４の言語判定の判定結果を利用して、翻訳前か翻訳後を選択し、常に同一言語で判定できるようにしても良い。ここでは、常に第二言語でテキスト入力される場合を例示する。

ステップＳ５１において、翻訳前または翻訳後の第二言語のテキスト（すなわち、第一話者に係る翻訳テキストまたは第二話者に係る翻訳前テキスト）が入力される。

次に、ステップＳ５２において、テキストから、キーワードを抽出する。

ステップＳ５３において、ステップＳ５２で抽出された各キーワードについて、それが補足説明データベース１２３上に存在するかを確認する。あるキーワードについて、補足説明データベース１２３上に１つ以上のキーワードの補足説明が登録されている場合には、ステップＳ５４において、当該補足説明を出力する。一方、あるキーワードについて、１つもキーワードが登録されていない場合には、ステップＳ５５において、ｎｕｌｌを出力する。

図１２に、補足説明データベース１２３の例を示す。補足説明データベース１２３には、索引付けされたキーワードである「単語」欄、補足説明に関する言語情報を示す「言語」欄、複数の補足説明間の優先度を示す「優先度」欄、各言語に対応して与えられる「補足説明」欄の項目がある。この具体例では、接客者が使用する第二言語である英語の“ＷｉｅｎｅｒＳｃｈｎｉｔｚｅｌ”を、日本語、イタリア語などを使用する客にとって、未知情報であるものとしてキーワード登録している。なお、図１２の例では、「優先度」欄に記載されている数値が低い程、優先度が高いものとする。

例えば、図１２の具体例において、ステップＳ５１のテキスト入力が常に第二言語の場合に、ステップＳ５２でキーワードとして“ＷｉｅｎｅｒＳｃｈｎｉｔｚｅｌ”が得られたとき、ステップＳ５４では、「ウィーン風カツレツ」「油で揚げた牛肉」「オーストリアの代表的な料理」の３つの補足説明を出力する。

（候補選択部１０７）
図１３に、候補選択部１０７の処理の例を示す。

ステップＳ６１において、提示候補生成部１０６により出力された補足説明を、提示候補として入力する。

ステップＳ６２において、複数の補足情報のうちから、提示すべき１以上の補足情報を選択する。

候補選択の際には、対話履歴データベース１２１の情報（例えば、発話内容のみ、あるいは、発話内容と話者タグ）を調べて、既に発話された内容と類似する補足説明を除いた補足説明を選択するのが望ましい。あるいは、対話履歴データベース１２１の情報から話者タグと発話行為タグの組み合わせにより既知情報を判定して、既知情報と類似する補足説明を除いた補足説明を選択しても良い。例えば、ある対話履歴において、話者タグ＝「客」であり、「ウィンナーシュニッチェルが食べたいんですが、…」のような内容であり、発話行為タグ＝「願望」である場合には、ウィンナーシュニッチェルについては知っているはずなので、図１２のＪＰ−３（日本語、優先度３）の「オーストリアの代表的な料理」のような一般的な知識による補足説明を選択しない、といった判断をしても良い。

この選択にあたっては、例えば、優先度の高いものから順に、予め定められた個数（例えば、１つ、２つ、など）の補足説明を選択しても良い。

また、この選択にあたっては、「提示タイミング」欄の内容を考慮しても良い。例えば、提示タイミングが「判定直後」であれば、一番優先度の高い補足説明を選択しても良い。あるいは、例えば、提示タイミングが「次発話の直後」であれば、次発話で使われた発話内容と類似する補足説明を除いた補足説明を選択するなどしても良い。

ステップＳ６３において、選択された１つ以上の補足説明から、補足情報（ここでは、説明文とする）を生成する。

ステップＳ６４において、生成された説明文を出力する。

例えば、「ウィンナーシュニッチェルはどんな料理ですか？」と客が質問した場合、話者タグ＝「客」であり、発話行為タグ＝「質問」であるので、「接客者の回答後」に補足説明あるいは補足説明をもとに生成された説明文を提示することが予定される。そこで、接客者が「ウィンナーシュニッチェルは油であげた牛肉です」と回答した場合、補足説明データベース１２３のうち、ＪＰ−２（日本語、優先度２）の補足説明が回答されてしまったため、これを補足説明から除いて、例えば、ＪＰ−２（日本語、優先度２）の補足説明とＪＰ−３（日本語、優先度３）の補足説明から、「ウィーン風カツレツで、オーストリアの代表的な料理です」のような説明文を生成して出力するようにしても良い。

また、例えば「ウィンナーシュニッチェルはいかがですか？」と接客者が提案した場合、話者タグ＝「接客者」であり、発話行為タグ＝「提案」であるので、「接客者の発話直後」に補足情報（説明文）を提示することになる。このとき、優先度の高い２つの補足説明（ＪＰ−１とＪＰ−２）を使用して、「ウィーン風カツレツで、油であげた牛肉になります」のような補足説明を生成して出力するようにしても良い。

あるいは、話者タグ＝「接客者」であり、発話行為タグ＝「提案」であるようなときには、具体的な調理法などが出ないようにするように、補足説明データベース１２３で発話行為タグ及び／又は接客者タグごとの優先度を付けても良い。

なお、選択された補足説明をそのまま補足情報としても良い。

（提示部１０８）
提示部１０８は、前述したように、少なくとも補足情報を所定のタイミングで提示する。

図１４に、本実施形態の接客支援装置の動作例を示す。

客が日本語で「ウィンナーシュニッチェルって何ですか？」と質問すると、その英語による翻訳結果が得られ、これが提示される。

ここで、話者タグ＝「客」であり、発話行為タグ＝「質問」であるので、「接客者の回答後」のタイミングで補足情報を提示することになる。補足説明は、例えば、ＪＰ−１（日本語、優先度１）の補足説明「ウィーン風カツレツ」が選択される。

上記質問に対して、接客者が「油であげた牛肉です。」と回答すると、その日本語による翻訳結果が得られ、これが提示される。また、このタイミングで、例えば「ウィーン風カツレツです。」のような説明文が補足情報として提示される。

図１５に、本実施形態の接客支援装置を使用した対話例と補足説明の例を示す。

対話例１では、客が「今日のお勧めコースの内容は何ですか？」と質問したとすると、話者タグ＝「客」かつ発話行為タグ＝「質問」であることから、提示要求が出されるが、補足説明データベースに登録されているキーワードが存在せず、結局、補足情報の提示はない。

次に、接客者が「○○○○、ウィンナーシュニッチェル、○○○○です。」と回答したとすると、話者タグ＝「接客者」かつ発話行為タグ＝「回答」であることから、提示要求が出される。また、提示タイミングは、例えば「接客者の発話直後」となる。そして、補足説明データベースに登録されているキーワード＝ウィンナーシュニッチェルが存在し、現在、「接客者の発話直後」であるので、このタイミングで、例えば「ウィンナーシュニッチェルは、ウィーン風カツレツです。」のような説明文が補足情報として提示される。

対話例２では、客が「ウィンナーシュニッチェルって何ですか？」と質問したとすると、話者タグ＝「客」かつ発話行為タグ＝「質問」であることから、提示要求が出される。また、提示タイミングは、例えば「接客者の回答後」となる。そして、補足説明データベースに登録されているキーワード＝ウィンナーシュニッチェルが存在し、説明文を補足情報として提示することになる。

ここで、接客者が「当店のシュニッチェルは牛肉を油で揚げたものです。」と回答したとする。この場合、ＪＰ−２（日本語、優先度２）の補足説明「油であげた牛肉」に類似する内容が発話されたので、これを候補から除外し、例えば、ＪＰ−１（日本語、優先度１）の補足説明「ウィーン風カツレツ」が選択される。そして、現在、「接客者の回答後」であるので、このタイミングで、例えば「いわゆるウィーン風カツレツです。」のような説明文が補足情報として提示される。

以上では、｛第一話者＝客＝第一言語＝日本語、第二話者＝接客者＝第二言語＝英語｝の組み合わせを例にとって説明したが、これに制限されない。他の如何なる組み合わせも可能である。例えば、｛第一話者＝客＝第一言語＝英語、第二話者＝接客者＝第二言語＝日本語｝であっても良いし、例えば、日本語と中国語の組み合わせ、あるいは、英語と中国語の組み合わせであっても良い。

また、言語の組み合わせは、予め２つの言語に固定されていても良いし、３以上の言語からユーザが自由に選択できるようにしても良い。また、客と接客者の一方又は両方の言語が予め１つの言語に固定されていても良いし、ユーザが自由に選択できるようにしても良い。

また、第一話者が接客者であり、第二話者が客であっても良い。さらに、２名の話者が接客者−客という関係でなくても良い。

また、以上では、未知情報があることを判断して補足情報を提示する対象を、第一話者としたが、第二話者とすることも、両方の話者とすることも可能である。また、第一話者を対象にするか、第二話者を対象にするか、両方の話者を対象にするかについて、予め固定されていても良いし、ユーザが自由に選択できるようにしても良い。

以上のように、本実施形態によれば、話者が異なる言語で又は同じ言語で対話をする場合に、対話に応じて知識を補うための情報を提示して対話を支援することが可能になる。

（第１の変形例）
図１６に、ボタンにより言語選択を行う場合の構成例を示す。この場合、これまで説明した構成において、入力部１０１の前に、言語選択入力部１１１を設け、言語選択入力部１１１により入力する言語を指定あるいは選択する。

（第２の変形例）
図１７に、提示内容判定する場合の構成例を示す。この場合、提示要否判定部１０５の代わりに提示内容判定部１１２を設ける。また、補足説明データベース１２３に加えて、所定数の他のデータベースを設ける。ここでは、一例として、たとえば各料理に関する推奨情報を保持する商品情報データベース１２５と、たとえば各料理の残り数のような管理情報を保持する管理情報データベース１２６を設けるものとする。

また、補足情報提示要否データベース１２２の代わりに補足情報提示内容データベース１２４を使用する。

図１８に、補足情報提示内容データベース１２４の例を示す。補足情報提示内容データベース１２４が、補足情報提示要否データベース１２２と相違する点は、「表示要否」欄の代わりに、「参照データベース」欄を有する点である。「参照データベース」には、提示要否ではなく、参照すべきデータベースが記載される。例えば、ＤＢ１は補足説明データベース１２３を示し、ＤＢ２は商品情報データベース１２５を示し、ＤＢ３は管理情報データベース１２６を示す。なお、必ず「参照データベース」欄にいずれかのデータベースを記載するようにしても良いし、「参照データベース」欄を空欄にする（すなわち、空欄は、提示が不要であることを示す）ことを、可能にしても良い。

本実施形態では、提示内容判定部１１２は、「参照データベース」欄の内容によって、参照すべきデータベースを特定する。なお、「参照データベース」欄を空欄にすることを、可能にする場合には、提示内容判定部１１２は、提示の要否及び提示が必要である場合において参照すべきデータベースを特定する。

図１９に、本実施形態における対話例を示す。客の質問あるいは接客者の提案の際には、補足情報を提示する点は上述のシステムと同様である。（ａ）の客の質問「ウィンナーシュニッチェルって何ですか？」と、（ｂ）の接客者の提案「ウィンナーシュニッチェルはいかがでしょうか？」は、補足説明データベース１２３を参照するので、いずれも、第１の実施形態と同様の結果になる。

これらに対して、（ｃ）のように客が「ウィンナーシュニッチェルをお願いします。」と要求をした場合には、管理情報データベース１２６を参照することになる。たとえば、管理情報データベース１２６には、各料理ごとの残り数が保持されており、ウィンナーシュニッチェルに対応する残り数を検索して、例えば「残り１人前」のような補足情報を提示し、既に売切れてしまった料理の注文を受けないようにしても良い。その際、補足情報提示内容データベース１２４に「言語」として第二言語が指示されている場合に、例えば「残り１人前」のような補足情報を接客者向けに第二言語で提示するようにしても良い。

また、（ｄ）のように接客者が「ウィンナーシュニッチェルですね。」と確認をした場合には、商品情報データベース１２５を参照することになり、たとえば、接客者向け及び／又は客向けに、さらに追加で頼むと良いお勧め情報（例えばウィンナーシュニッチェルに合うお勧めワインリストのような情報）のような補足情報を提示するようにしても良い。

なお、ここで説明した各種データベースは一例であり、様々なデータベースを利用して補足情報を生成し、提示することが可能である。

なお、第１の実施形態における第１の変形例と第２の変形例の一方又は両方を、第２の実施形態に組み合わせて実施することが可能である。

（第２の実施形態）
以下では、第２の実施形態について、第１の実施形態と相違する点を中心に説明する。

第１の実施形態は、異なる言語を使用する話者の対話に機械翻訳を利用する際に、補足説明を提示するものであったが、第２の実施形態は、背景知識の異なる話者が、機械翻訳を利用せず、同一の言語で対話をする際に、補足説明を提示するものである。

図２０に、本実施形態の接客支援装置の機能構成例を示す。

図２０に示されるように、本実施形態の接客支援装置は、入力部１０１、音声認識部１０２、話者特定部１１０３、発話行為推定部１０４、提示要否判定部１０５、提示候補生成部１０６、候補選択部１０７、提示部１０８を含む。すなわち、図１の構成例において、機械翻訳部１０３の代わりに話者特定部１１０３を有するものである。

入力部１０１は、特定の言語（例えば、日本語、英語など、両話者に共通の言語）により、第一話者による音声と、第二話者による音声とを受け付ける。

音声認識部１０２は、特定の言語により、音声情報を認識し、テキスト情報に変換する。

話者特定部１１０３は、話者を特定する。

話者特定部１１０３は、第１の実施形態で例示した話者特定方法（言語により話者を特定するものを除く）を使用しても良いし、他のどのような方法でも良い。

なお、音声認識部１０２が話者を特定する機能を有する場合には、音声認識部１０２が有する話者特定機能を、話者特定部１１０３としても良い。

発話行為推定部１０４は、テキスト情報から発話行為を推定する。

対話履歴データベース１２１は、次の点以外、第１の実施形態と同様である。本実施形態では、両話者が共通の言語を使用し、機械翻訳を行わないので、機械翻訳部で得られる翻訳テキストによる対話履歴を保存しない。

補足情報提示要否データベース１２２は、第１の実施形態と同様である。

提示要否判定部１０５は、第１の実施形態と同様である。また、本実施形態では、話者特定部１１０３により話者特定結果を利用することができる。

補足説明データベース１２３は、次の点以外、第１の実施形態と同様である。本実施形態では、両話者が共通の言語を使用し、機械翻訳を行わないので、「言語」欄は不要であり、「単語」欄と「補足説明」欄には同一の言語が使用される。

提示候補生成部１０６は、第１の実施形態と同様である。

候補選択部１０７は、第１の実施形態と同様である。

提示部１０８は、第１の実施形態と同様である。ただし、本実施形態では、翻訳テキストを提示することはない。また、提示部１０８は、補足情報のみを提示するようにしても良い。

図２１に、本実施形態の全体的な処理手順の一例を示す。

ユーザが会話を行うと、いずれの話者の音声も入力部１０１に入り（ステップＳ１０１）、音声認識部１０２による音声認識（ステップＳ１０２）、話者特定部１１０３による話者の特定（ステップＳ１０３）が順次行われる。

更に、発話行為推定部１０４による発話行為の推定（ステップＳ１０４）、提示要否判定部１０５による補足情報の提示要否判定（ステップＳ１０４）が順次行われる。

提示が必要と判定された場合には（ステップＳ１０５）、提示候補生成部１０６により、補足情報の候補（提示候補）の生成（ステップＳ１０６）が行われ、次いで、候補選択部１０７により、提示候補の中から提示に使用する１以上の提示候補を選択する（ステップＳ１０７）。なお、提示候補をそのまま補足情報としても良いし、ステップＳ１０７において、候補選択部１０７により、提示候補をもとに説明文を生成して、これを補足情報としても良い。そして、提示部１０８において、適切なタイミングで、補足情報を提示する（ステップＳ１０８）。そして、ステップＳ１０１に戻って、一連の処理を繰り返す。

一方、提示が不要と判定された場合には（ステップＳ１０５）、ステップＳ１０６〜１０８をスキップして、ステップＳ１０１に戻って、一連の処理を繰り返す。

図２０及び図２１を参照して説明した構成に、更に、第１の実施形態で説明した第１の変形例と第２の変形例の一方又は両方を組み合わせて実施することも可能である。

なお、第２の変形例を適用する場合に、補足情報提示内容データベース１２４は、第１の実施形態と同様で構わない。

なお、以上の各実施形態又は各変形例で説明したデータベースは、例えば、対話支援装置の内部に存在しても良い。あるいは、一部又は全部のデータベースが、例えばＬＡＮ等のネットワーク上に存在し、対話支援装置が該ネットワークを介してデータベースから情報を取得するようにしても良い。

また、上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の対話支援装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷなど）、半導体メモリ、またはこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の対話支援装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合または読み込む場合はネットワークを通じて取得または読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０１…入力部、１０２…音声認識部、１０３…機械翻訳部、１０４…発話行為推定部、１０５…提示要否判定部、１０６…提示候補生成部、１０７…候補選択部、１０８…提示部、１１１…言語選択入力部、１１２…提示内容判定部、１１０３…話者特定部、１２１…対話履歴データベース、１２２…補足情報提示要否データベース、１２３…補足説明データベース、１２４…補足情報提示内容データベース、１２５…管理情報データベース、商品情報データベース１２６。

Claims

入力されたテキスト情報に基づく発話行為タグ及び話者タグに基づいて、補足情報を補足説明データベースから生成する生成部と、
前記補足情報を出力する出力部と
を備えることを特徴とする、対話装置。
前記テキスト情報の全部又は一部を対話履歴として記憶する対話履歴データベースと、
前記テキスト情報に基づいて、発話行為タグを推定する推定部と、
推定された前記発話行為タグと前記話者タグとに基づいて、前記補足情報を出力するかどうかを判定する判定部と、
前記補足情報のうち、提示に使用する１以上の提示候補を選択する選択部と
をさらに備え、
前記生成部は、前記補足情報を出力すると判定された場合に、前記補足情報を生成することを特徴とする、請求項１に記載の対話装置。
前記テキスト情報に対する話者を特定する話者特定部をさらに備え、
前記判定部は、推定された前記発話行為タグおよび特定された前記話者に基づいて、前記補足情報を出力するかどうか判定することを特徴とする、請求項２に記載の対話装置。
第一言語による前記テキスト情報を翻訳して、当該第一言語とは異なる第二言語による翻訳後のテキスト情報を生成する機械翻訳部を更に備え、
前記対話履歴データベースは、前記第一言語又は前記第二言語による翻訳前又は翻訳後のテキスト情報の全部または一部を記憶することを特徴とする、請求項２または請求項３に記載の対話装置。
前記判定部は、前記テキスト情報に対する話者を特定するか又は話者特定結果を取得し、推定された前記発話行為タグおよび特定された前記話者に基づいて、前記補足情報を出力するかどうかを判定することを特徴とする、請求項２乃至請求項４のいずれか１項に記載の対話装置。
前記選択部は、前記１以上の提示候補のうちで、既に対応する内容が前記対話履歴に含まれているものは、候補から除外することを特徴とする、請求項２乃至請求項５のいずれか１項に記載の対話装置。
前記生成部は、前記補足情報を出力すると判定されるもととなった前記テキスト情報に、予め未知情報として登録されているキーワードが存在する場合に、前記補足情報を生成することを特徴とする、請求項２乃至請求項６のいずれか１項に記載の対話装置。
前記生成部は、参照データベースを参照して生成を実行するものであり、
前記判定部は、前記生成部、予め定められた複数の参照データベースのうちのいずれかの参照データベースを参照すべきかを判定することを特徴とする、請求項２乃至請求項７のいずれか１項に記載の対話装置。
前記推定部は、前記対話履歴をも利用して、前記発話行為タグを推定することを特徴とする、請求項２乃至請求項８のいずれか１項に記載の対話装置。
前記対話履歴データベースは、推定された前記発話行為タグを、当該推定された前記発話行為タグのもととなった前記テキスト情報とともに記憶することを特徴とする、請求項２乃至請求項９のいずれか１項に記載の対話装置。
前記選択部は、前記発話行為タグを含む前記対話履歴を利用して、前記１以上の提示候補のうちから、提示すべきものを選択する請求項１０に記載の対話装置。
前記判定部は、前記補足情報を出力すると判定される場合に、前記補足情報を出力する出力タイミングをも判定し、
前記出力部は、前記出力タイミングに従って、前記補足情報を出力する、請求項２乃至請求項１１のいずれか１項に記載の対話装置。
生成部および出力部を備えた対話装置の対話方法であって、
前記生成部が、入力されたテキスト情報に基づく発話行為タグ及び話者タグに基づいて、補足情報を補足説明データベースから生成するステップと、
前記出力部が、前記補足情報を出力するステップと
を有することを特徴とする、対話方法。
生成部および出力部を備えた対話装置としてコンピュータを機能させるためのプログラムであって、
入力されたテキスト情報に基づく発話行為タグ及び話者タグに基づいて、補足情報を補足説明データベースから生成する生成部と、
前記補足情報を出力する出力部と
をコンピュータに実現させるためのプログラム。