JP3944159B2

JP3944159B2 - 質問応答システムおよびプログラム

Info

Publication number: JP3944159B2
Application number: JP2003428503A
Authority: JP
Inventors: 由美市村
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2003-12-25
Filing date: 2003-12-25
Publication date: 2007-07-11
Anticipated expiration: 2023-12-25
Also published as: US20050143999A1; US7580835B2; JP2005189363A

Description

本発明は、ユーザが音声で入力した質問に応答する質問応答システムおよびプログラムに関する。

ユーザの検索要求に適合する文書を検索して提示する文書検索技術が広く普及している。しかし、文書検索は、「Ａ病院について教えて」といった検索要求を満足することはできるが、「Ａ病院の診療時間は？」「Ａ病院の場所は？」といった質問に対して直接的な回答を返すことができない。文書検索は文書全体や文書中の段落（パッセージ）を出力するものであるに過ぎず、質問に回答するものではない。質問者であるユーザは出力結果から回答を自分で探さなくてはならない。

質問に対する回答を直接的に出力するものとして、例えば下記特許文献１のような質問応答システムが知られている。

質問への回答を得るための知識源も含めた音声ベースの質問応答システムの提供が切望されている。具体的には、マイクロフォンや携帯電話などの音声入力デバイスから音声で質問を入力でき、録音装置に蓄積されたボイスメモ等に基づいて構築された音声データベースに対する検索によって、質問に対する回答を生成して出力できるような質問応答システムである。

従来の質問応答システムは専らテキストデータベースを用い、テキストで表現された質問に対する回答を検索するというものである。音声入力デバイスを介して質問を音声で入力できるものもあるが、検索対象のデータベースはあくまでテキスト形式である。質問が音声で与えられた場合は、まず音声認識システムを用いて質問音声データをテキストに変換してから検索が行われる。回答はテキストのまま出力してもよいし、そのテキストを音声合成デバイスから音声で出力してもよい。
特開２００２−１３２８１１公報

現状の音声認識技術では、１００％の精度で音声データをテキストデータに変換できるわけではないことから、従来のシステムでは音声認識処理を誤ると正しい回答が得られない可能性が高い。

例えば、「Ａ病院の診療時間は？」という質問が音声で入力された場合、音声認識部により「Ａ病院」「診療」「時間」といった単語が正しく認識されなければならない。これらは検索タームに相当する。

ここで、「Ａ病院」のようなローカルな固有名詞は、一般に音声認識辞書に登録されていないことが多く、この部分の音声の認識を誤る可能性が高い。一方、「診療」「時間」のような一般的な名詞は辞書に登録されている可能性が高く、高い精度で音声認識できると考えられる。

ここで、音声認識の精度が高い場合には、テキストデータベースの検索を行った方が精度の高い回答を出せるが、音声認識の精度が低い場合には、テキストデータベースを検索対象とせずに、音声波形から得られた音声特徴パラメータ時系列データをそのまま用いて音声データベースを検索すれば、テキストデータベースの検索では回答を得られない場合にも、回答を出せる可能性がある。特に、自分の入力した音声データが登録された音声データベースを自分の音声による質問で検索する場合には高い検索精度が期待される。

したがって本発明は、知識源として音声データベースとテキストデータを併用する質問応答システムおよびプログラムを提供することを目的とする。

本発明の一観点に係る質問応答システムはテキストデータ及び音声データが記憶されたテキストデータベース及び音声データベースを併用して質問に対する回答を出力する質問応答システムにおいて、前記質問の音声信号を入力する入力手段と、前記音声信号に音声認識処理を行ってテキストデータ及び認識精度評価値を含む音声認識結果を得る音声認識手段と、前記認識精度評価値を閾値と比較判定する判定手段と、前記判定手段の判定結果に従って、前記認識精度評価値が前記閾値以上ならば前記テキストデータを検索タームとして用いて前記テキストデータベースを検索し、前記認識精度評価値が閾値を下回るならば前記音声信号を用いて前記音声データベースを検索する検索手段と、前記検索手段による検索結果から前記回答を生成する回答生成手段とを具備する。

本発明によれば、知識源として音声データベースとテキストデータを併用する質問応答システムおよびプログラムを提供できる。

図１は本発明の一実施形態に係る質問応答システムの構成を示すブロック図である。本実施形態の質問応答システムは、入力部１０１、話者認識部１０２、音声認識部１０３、情報抽出部１０４、質問応答部１０５、出力部１０６、更新制御部１０７、データベース更新部１０８、辞書更新部１０９、テキストデータベース１１０、音声データベース１１１、および認識辞書１１２から構成される。

入力部１０１は、マイクロフォン、キーボード、入力ペン、あるいはマウス等の入力デバイスに相当し、出力部１０６は、ディスプレイやスピーカー等の出力デバイスに相当する。本実施形態は少なくともこれら入出力デバイスを備えたコンピュータにおいて実行可能なソフトウェアとして実現することができる。この場合、話者認識部１０２、音声認識部１０３、情報抽出部１０４、質問応答部１０５、更新制御部１０７、データベース更新部１０８、および辞書更新部１０９はコンピュータプログラムのモジュールに相当する。質問応答部１０５は、検索部１１３、判定部１１４、および回答生成部１１５から構成されている。

テキストデータベース１１０、音声データベース１１１、および認識辞書１１２は例えば磁気ディスク装置等の記録媒体に記録されている。認識辞書１１２は単語辞書１１２ａおよび単語Ｎグラム（Ｎ−ｇｒａｍ）辞書１１２ｂからなる。単語辞書１１２ａは認識対象の単語の発音（音素表記）を記述したものであり、単語Ｎグラム辞書１１２ｂは単語間の接続関係を確率値で記述したものである。

本実施形態に係る質問応答システムは、質問応答部１０５がテキストデータベース１１０と音声データベース１１１を併用する点で従来の質問応答システムとは構成が異なる。また、本実施形態に係る質問応答システムはデータベースおよび認識辞書をメンテナンスするために、更新制御部１０７、データベース更新部１０８、および辞書更新部１０９を備える点でも従来の質問応答システムとは構成が異なる。

まず本実施形態に係る質問応答システムの全体的な処理の流れを図１に沿って説明したのち、図２を参照しながら質問応答処理の詳細な手順を説明する。

（全体的な処理の流れ）まず、知識データベースを構成するデータの登録が次のようになされる。ユーザは入力部１０１を介して、登録しておきたいデータを音声で入力する。質問が入力されると、この質問の音声信号が入力部１０１から話者認識部１０２に出力される。話者認識部１０２はこの音声信号に基づく音声データをあらかじめ登録してあるユーザ情報と照合することによりデータ登録者を認識する。話者認識技術については公知であり、例えば特開平１１−１８４４９２号公報の記載を参考にすることができる。話者認識によりユーザが認識されたら、この音声データは音声認識部１０３に送られる。音声認識部１０３は認識辞書１１２を用い、該音声データについての音声認識を行ってテキストデータに変換する。変換元の音声データは音声データベース１１１に記憶され、変換により得られたテキストデータはテキストデータベース１１０に記憶される。音声データベース１１１には、音声認識部１０３による音声認識処理の途中結果として得られる音声特徴パラメータ時系列も記憶される。なお、音声認識の具体的な処理の流れについては後述する。また、話者認識部１０２が認識した登録者情報も双方のデータベース１１０，１１１に記憶される。次に、上記テキストデータが情報抽出部１０４に送られる。情報抽出部１０４はテキストデータから公知の情報抽出技術を利用して時間情報や人名情報などの情報を情報タイプ別に抽出し、この結果をテキストデータベース１１０に出力する。なお、話者認識を経ることなく知識データベース（音声データベース１１１又はテキストデータベース１１０）にデータが登録されてもよい。

知識データベースが構築されたら、ユーザからの質問の受付を開始できる。まず、ユーザは入力部１０１を介して、質問を音声で入力する。質問が入力されると、その音声信号が入力部１０１から話者認識部１０２に出力される。話者認識部１０２は、該音声信号に基づく質問の音声データをあらかじめ登録してあるユーザ情報と照合し、質問者を認識する。次に、質問の音声データは音声認識部１０３に送られる。音声認識部１０３は認識辞書１１２を用いて質問の音声データをテキストデータに変換する。

次に、質問応答部１０５が起動される。質問応答部１０５は、質問の音声データに対する音声認識結果を評価し、この評価結果に応じて音声データベース１１１またはテキストデータベース１１０のいずれかを検索し、ユーザに提示する回答を生成する。なお、生成する回答の内容は、話者認識部１０２による認識結果に基づくユーザ情報に応じた情報開示のセキュリティが考慮される。質問応答部１０５により生成された回答は出力部１０６を介し、音声または表示テキストによってユーザに提示される。

本実施形態に係る質問応答システムは適切なタイミングで更新制御部１０７を起動する。更新制御部１０７は、入力された質問に対する回答の根拠に相当する発生源データについて、メンテナンス上不要であるならばそれを削除するか否かをユーザインタフェースを介してユーザに問い合わせる。ユーザは入力部１０１を介して答えを返すと、この答えの指示に応じてデータベース更新部１０８が起動される。データベース更新部１０８は、音声データベース１１１とテキストデータベース１１０に記憶されるデータのうち、指示に該当するものを削除する。また、更新制御部１０７は、入力された質問に対する回答が正しいか否かをユーザに問い合わせる。ユーザが入力部１０１を介して回答は誤りである旨を本システムに伝えると、更新制御部１０７は、入力された質問に対する回答の根拠に相当する音声データの音声認識結果および質問の音声認識結果を提示する。ユーザは入力部１０１を介して音声認識結果の修正情報を指示すると、この指示に応じて、データベース更新部１０８と辞書更新部１０９が起動される。データベース更新部１０８は、テキストデータベース１１０に記憶されているデータのうち、該当するデータを修正情報に応じて修正する。辞書更新部１０９は、単語Ｎグラム辞書１１２ｂに記憶された辞書情報を更新制御部１０７から与えられる修正情報に従って更新する。

（質問応答処理の詳細な手順）図２は質問応答部１０５の処理手順の一例を示すフローチャートである。質問応答部１０５は、まず話者認識部１０２が認識した質問者のユーザ情報を受け取る（ステップＳ２０１）。次に、音声認識部１０３による質問音声Ｘに対する音声認識の結果として、音声特徴パラメータ時系列Ｙと、事後確率Ｐ（Ｗ｜Ｙ）を最大にする単語列Ｗと、事後確率Ｐ（Ｗ｜Ｙ）の最大値とを受け取る（ステップＳ２０２）。

（音声認識の具体的な処理の流れ）図３は音声認識部の処理手順の一例を示すフローチャートである。音声波形信号Ｘが入力されると、音声分析器３０１は、この音声波形信号Ｘを分析することにより音声特徴パラメータとよばれる多次元の音声特徴量のパラメータ時系列Ｙに変換する。この音声分析においては雑音除去や歪みの補正も行われる。ここでは、統計モデル（音響モデル３０２）に基づく音声認識を考えると、音声認識は音声特徴パラメータ時系列Ｙに対する事後確率Ｐ（Ｗ｜Ｙ）が最大となる単語列Ｗを求める問題として定式化できる。確率Ｐ（Ｗ｜Ｙ）は、ベイズの定理により次の式（１）のように変形できる。
Ｐ（Ｗ｜Ｙ）＝Ｐ（Ｗ）Ｐ（Ｙ｜Ｗ）／Ｐ（Ｙ）…（１）
この式（１）において、分母のＰ（Ｙ）は単語列Ｗに無関係な項であり、Ｐ（Ｗ｜Ｙ）を最大にするには、分子のＰ（Ｗ）Ｐ（Ｙ｜Ｗ）を最大にする単語列Ｗを求めれば良い。なお、Ｐ（Ｙ｜Ｗ）は音響モデルの確率、Ｐ（Ｗ）は言語モデルの確率として算出される。

音響モデル３０２は、音素を単位とした音声特徴量パターンの分布の統計モデル、例えば３状態の隠れマルコフモデルで表現することができ、これは、音声コーパスを音声分析して抽出される特徴量から推定することができる。

一方、言語モデルは単語連鎖の統計値であるＮグラムに基づく確率モデル、例えば、Ｎ＝３の単語トライグラムで表現することができる。これは、テキストコーパスを形態素解析して単語に分割し、読みを付与したデータから推定することができる。例えば、「いる」という動詞の次に「か」という助詞が接続し、その次に「も」という助詞が接続する条件付き確率は0.011であるといった単語連鎖の統計値を推定し、これを単語Ｎグラム辞書１１２ｂに記憶しておく。

認識エンジン３０３は、音声特徴パラメータ時系列Ｙと、事後確率Ｐ（Ｗ｜Ｙ）を最大にする単語列Ｗと、事後確率Ｐ（Ｗ｜Ｙ）の最大値とを出力する。事後確率Ｐ（Ｗ｜Ｙ）の最大値は音声認識の精度評価値として用いられる。なお、音声認識処理を如何に実現するかについては、例えば次の参考文献（特開平１１−１８４４９２号公報、特開昭５９−１２１０９８号公報）の記載を参考にすることができる。

図２に戻り、質問応答処理の詳細な手順の説明を再開する。ステップＳ２０３において、事後確率Ｐ（Ｗ｜Ｙ）の最大値がしきい（閾）値以上であるか否かを判断する。事後確率Ｐ（Ｗ｜Ｙ）の最大値すなわち音声認識の精度評価値がしきい値以上である場合には、判定部１１４は検索対象のデータベースとしてテキストデータベースを選択してステップＳ２０６に進む。一方、音声認識の精度評価値がしきい値を下回る場合には、判定部１１４は検索対象のデータベースとして音声データベースを選択してステップＳ２０４に進む。

ステップＳ２０４において、検索部１１３は音声認識結果を利用せずに、音声特徴パラメータ時系列Ｙを用いることにより質問音声で音声データベース１１１の検索を行う（ステップＳ２０４）。これにより質問者と登録者が一致する検索結果が得られたならば、これを回答として提示する（ステップＳ２０５）。時系列データの検索は、例えば、質問音声の音声特徴パラメータ時系列Ｙの長さをＴとすると、音声データベース１１１の各音声データから長さＴの音声特徴パラメータ時系列Ｚ（ｉ）を順次取り出し、ＹとＺ（ｉ）の距離を計算し、ＹとＺ（ｉ）の距離が最小になるＺ（ｉ）を含む音声データを検索結果とする、あるいは、ＹとＺ（ｉ）の距離の平均が最小になる音声データを検索結果とする、などにより得ることができる。時系列データの検索については、種々のアルゴリズムが提案されており、これらを適宜利用してもよい。例えば、特開２００２−２２１９８４号公報に記載の音声検索方法を用いてもよい。

一方、ステップＳ２０６において、情報抽出部１０４は音声認識部１０３による音声認識結果として得られた単語列Ｗから、検索タームと情報タイプを認識する（ステップＳ２０６）。例えば、「Ａ病院の診療時間は？」との質問がなされた場合、検索タームとして「Ａ病院」「診療」「時間」を認識し、回答の情報タイプとして「TIME」を認識する。なお、回答すべき情報タイプの認識処理については、例えば次の参考文献（特開２００３−９２５０８公報、特開２００３−２９３１７８公報）の記載を参考にすることができる。

次に、検索部１１３は上記検索タームを用いてテキストデータベース１１０をテキスト検索する（ステップＳ２０７）。テキスト検索については良く知られた技術であり、ここでは詳細な説明を省略する。さらに、検索部１１３はこのテキスト検索により得られた上位Ｎ件（例えば、Ｎ＝２０）のテキストから、情報抽出部１０４により抽出された情報タイプにマッチする文字列を検索する（ステップＳ２０８）。回答生成部１１５は、検索された文字列のうち、質問者と登録者が一致するデータに含まれる文字列を回答として生成する。生成された回答は出力部１０６に出力される（ステップＳ２０９）。以上により、質問応答部１０５の処理を終了する。

なお、ステップＳ２０１、ステップＳ２０５、およびステップＳ２０９は、いずれも付加的なステップであり、実施の形態に応じて省略してもよい。例えばステップＳ２０１の話者認識が省略される場合、質問者（ユーザ）の認識結果によらず、ステップＳ２０４あるいはステップＳ２０８で得られた結果は、そのまま回答として提示されることになる。

また、ステップＳ２０５において質問者と登録者が一致するデータに制限して回答を出力することに代えて、質問者と登録者が一致しないデータも回答に含め、質問者と登録者が一致するデータを優先して回答するようにしてもよい。あるいは、データを登録する際、登録者がアクセス権を設定するようにしておき、質問者がアクセス権をもたないデータを回答に含めないようにしてもよい。

同様に、ステップＳ２０９において質問者と登録者が一致するテキストデータに含まれる文字列のみを回答とすることに代えて、質問者と登録者が一致しないテキストデータに含まれる文字列をも回答に含めるようにし、質問者と登録者が一致するテキストデータに含まれる文字列を優先して回答するようにしてもよい。あるいは、テキストデータの登録の際に、登録者がアクセス権を設定するようにし、質問者がアクセス権をもたないテキストデータに含まれる文字列を回答に含めないようにしてもよい。

以上説明したように本実施形態によれば、質問応答部１０４がテキストデータベース１１０と音声データベース１１１を併用するよう構成された質問応答システムを提供できる。具体的には、質問応答部１０４は質問の音声認識結果の品質すなわちここでは音声認識の精度評価値に応じて、テキストデータベース１１０と音声データベース１１１とを適切に使い分けて検索を行い、高精度かつ頑強に回答を得ることができる。

（データベースおよび認識辞書の更新）更新制御部１０７の制御によるデータベースおよび認識辞書の更新について説明する。ユーザインタフェースに係わる処理における質問応答システムからの出力はスピーカーによる音声でも、ディスプレイデバイスによる表示でもよいが、ここでは、例えばディスプレイによる視覚的表示を例に挙げる。更新制御部１０７は入力部１０１および質問応答部１０５に接続されており、データベース更新部１０８および辞書更新部１０９を制御する。更新制御部１０７には、図４ないし図６に示すＧＵＩ(Graphical User Interface)を構成する幾つかの画面が関連付けられている。図４は、回答表示画面の一例を示す図、図５は発生源データ表示画面の一例を示す図、図６は認識結果修正画面の一例を示す図である。

図４では、「Ａ病院の診療時間は？」という質問音声が入力された場合に、本実施形態の質問応答システムが表示する回答表示画面の一例が示されている。ディスプレイには、処理モード、質問の認識結果、回答番号、回答文字列、入力された質問に対する回答の根拠に相当する発生源データの登録日、登録者が表示されている。処理モードとは、音声認識結果を利用してテキストデータベース１１０の検索を行ったか、音声認識結果を利用せずに音声データベース１１１を検索したかの区別を示すものである。

各回答の横には、発生源データ表示ボタン（４０１、４０２）と、不正解を指示するためのチェックボックス（４０３、４０４）が配置されている。ユーザが発生源データ表示ボタン４０１や４０２をマウス等でクリック（当該ボタンを押す）すると、ディスプレイには図５に示すように発生源データの情報が表示される。この発生源データ自体が誤っている、あるいは古い情報である場合などの理由により、これを削除したい場合、ユーザはマウス等で削除ボタン５０１をクリックすればよい。削除ボタン５０１を通じて削除が指示されると、データベース更新部１０８は該当するデータをテキストデータベース１１０および音声データベース１１１から削除する。当該発生源データの削除を望まない場合、ユーザが前画面に戻るボタン５０２をマウス等でクリックすると、再び図４の表示画面に復帰する。

図４の表示に基づいて回答１が不正解であることを知ったユーザが、チェックボックス４０３をチェックし、認識結果修正ボタン４０５をクリックすると、ディスプレイには図６に示すような認識結果修正画面が表示される。

図６に示す認識結果修正画面を通じて、音声認識部１０３による音声認識結果の修正を実行することができる。修正の対象は、質問の認識結果、ならびに、不正解にチェックされた回答の根拠に相当する発生源データの認識結果である。認識結果が多数ある場合は、次の認識結果ボタン６０２をクリックすると、次の結果が表示される。ここで、まず誤った認識結果を選択するべく認識結果ボタン６０２の横に配置されたチェックボックス６０１をユーザがマウス等でチェックしたのち、修正実行ボタン６０３をマウス等でクリックすると、データベース更新部１０８と辞書更新部１０９が起動される。すなわち、データベース更新部１０８は、チェックボックス６０１のチェック内容に基づいて、テキストデータベース１１０に記憶され、該当する認識結果を修正する。同様に、辞書更新部１０９は、チェックボックス６０１のチェック内容に基づいて単語Ｎグラム辞書１１２ｂに記憶されている辞書情報を修正する。すなわち単語Ｎグラム辞書１１２ｂには、連鎖する３単語とその連鎖確率が辞書情報として記述されている。例えば、誤った認識結果に該当する３単語の連鎖確率の値を一定の割合で減少させる、あるいは、正しい認識結果に該当する３単語の連鎖確率の値を一定の割合で増加させるなどして辞書情報を修正する。

なお、上記ではディプレイによる表示例を示したが、これに代えてスピーカーを通じた音声出力とすることもできる。この場合は、音声に基づく対話的な操作に従って処理を進めることができる。すなわち、ユーザが音声で質問をすると、質問応答システムは「回答は２件あります。」「１件目の回答、午前９時から午後３時までです。２件目の回答、午前１０時から午後３時までです。」のようにスピーカーを通じて音声で回答する。続いて、質問応答システムは「発生源データを修正しますか？」とスピーカーから問い返す。これに応じてユーザが「はい」と音声で回答すると、質問応答システムは「１件目の発生源データを再生します。登録日、２００２年７月３日、登録者、ヤマダ、Ａ病院の診療時間は午前９時から午後３時までです。」「この情報を削除しますか？」のようにスピーカーから問い返す。これに応じてユーザが「はい」と音声で回答すると、上記のように画面に表示された削除ボタン５０１をクリックすることと同等の操作がなされたことになり、同様の結果が得られる。

なお、以上説明した本発明の実施形態は日本語でなされた質問を扱うものとして説明したが、本発明は質問の自然言語を特定の言語に限定するものではない。例えば、英語の質問を扱う場合には、英語でなされた質問を解析するために、日本語形態素解析に代えて、part-of-speech tagging （品詞同定）やstemming（活用語尾の削除）などの公知技術を適用すればよい。

以上説明した本発明の実施形態によれば、音声認識の精度が悪くても、知識源を構成する音声データベースとテキストデータベースとを上述のように併用する（選択的に用いる）ことから、高精度で、かつカバレッジが広く、頑健な質問応答システムを提供できる。

従来の質問応答システムは、新聞記事、ＷＷＷ(World Wide Web)文書、社内文書など、第三者への開示が了解された文書の中から回答を探すといった使い方が想定されており、個人的な情報を知識源とする質問応答システムは想定されていない。例えば個人的なメモ情報をデータベースに蓄積するようになると、データの登録者と検索者を認識し、情報が他人に対してみだりに開示されないように、逆に、自分の登録した情報は優先して開示されるように情報開示方法をコントロールする必要がある。しかしながら、従来の質問応答システムでは、このような情報開示方法をコントロールするための具体的手段は考慮されていない。

これに対し本実施形態によれば、データの登録者と検索者を認識して情報開示方法をコントロールする手段を備えることから、意図されない第三者に対してみだりに情報を開示しないようセキュリティを備えた質問応答システムを提供できる。また、自分が登録した情報に基づく回答を優先して表示することにより、ユーザへの適応性が高い質問応答システムを提供することもできる。

データを無条件で蓄積し続けると、当然ながら古いデータは消去されることなく残存する。新聞記事、ＷＷＷ文書、社内文書のような文書は、普遍性のある文書も多く、必ずしも古い日付の文書が不要とは見なせない。これに対し、個人的なメモ情報は頻繁に更新されることが予想され、古い情報と新しい情報が混在していることが混乱を招く恐れがある。従来の質問応答システムでは、このような古い情報を削除する具体的手段は考慮されていない。例えば、あるとき、「Ａ病院の診療時間は９時から３時まで」というデータを登録しておいたとする。その後、診療時間が変更になり、「Ａ病院の診療時間は１０時から３時まで」という新しいデータを登録したとする。この状態で、「Ａ病院の診療時間は？」と質問すると、「９時から３時まで」という回答と、「１０時から３時まで」という２つの回答が提示され、質問者は困惑する。

これに対し本実施形態によれば、同一の質問に対し複数回答が提示された場合、どちらの回答が正しいかの判断に有用な情報として、例えば、回答の根拠に相当する発生源データ（source data；元データともいう）、その発生源データの登録日、登録者などを提示することができる。さらに、発生源データを削除するか否かをユーザに問い合わせ、該ユーザからの要求に応じて不要なデータを削除できる。したがって、データベースの更新が容易になり保守性に優れた質問応答システムを提供することもできる。

質問に対する回答が誤っている場合、音声認識を誤ったことが原因である可能性がある。例えば、「Ａ病院」の部分を誤って「Ａ美容院」「Ｂ病院」と音声認識してしまうと、質問に対して正しく回答できない。本実施形態によれば、質問に対する回答が誤っている場合には、この回答の根拠に相当するデータや質問の音声認識結果をユーザに提示して修正を受け付けるようにし、さらには、その修正結果を音声認識辞書に反映することができ、次回以降の検索が正しく行われるようになる。

また、本実施形態によれば、入力された質問に対する回答がどのような処理で得られたかをユーザに確認させることもでき、ユーザに適応した質問応答システムの構築も可能である。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の一実施形態に係る質問応答システムの構成を示すブロック図質問応答部の処理手順の一例を示すフローチャート音声認識部の処理手順の一例を示すフローチャート更新制御部の処理に関連する回答表示画面の一例を示す図更新制御部の処理に関連する発生源データ表示画面の一例を示す図更新制御部の処理に関連する認識結果修正画面の一例を示す図

符号の説明

１０１…入力部、１０２…話者認識部、１０３…音声認識部、１０４…情報抽出部、１０５…質問応答部、１０６…出力部、１０７…更新制御部、１０８…データベース更新部、１０９…辞書更新部、１１０…テキストデータベース、１１１…音声データベース、１１２…認識辞書、１１２ａ…単語辞書、１１２ｂ…単語Ｎグラム辞書、１１３…検索部、１１４…判定部、１１５…回答生成部

Claims

テキストデータ及び音声データが記憶されたテキストデータベース及び音声データベースを併用して質問に対する回答を出力する質問応答システムにおいて、
前記質問の音声信号を入力する入力手段と、
前記音声信号に音声認識処理を行ってテキストデータ及び認識精度評価値を含む音声認識結果を得る音声認識手段と、
前記認識精度評価値を閾値と比較判定する判定手段と、
前記判定手段の判定結果に従って、前記認識精度評価値が前記閾値以上ならば前記テキストデータを検索タームとして用いて前記テキストデータベースを検索し、前記認識精度評価値が閾値を下回るならば前記音声信号を用いて前記音声データベースを検索する検索手段と、
前記検索手段による検索結果から前記回答を生成する回答生成手段とを具備する質問応答システム。
前記音声信号から質問者を認識する話者認識手段をさらに具備し、前記回答生成手段は、前記テキストデータベース又は音声データベースから前記検索結果として得られるテキストデータ又は音声データのうち、前記テキストデータベース又は音声データベースに認識された質問者によって記憶されたテキストデータ又は音声データを質問者以外のユーザによって記憶されたテキストデータ又は音声データに優先して取り出すことにより前記回答を生成する請求項１に記載の質問応答システム。
前記音声信号から質問者を認識する話者認識手段をさらに具備し、前記回答生成手段は、前記テキストデータベース又は音声データベースから前記検索結果として得られるテキストデータ又は音声データのうち、認識された質問者がアクセス権を有するテキストデータ又は音声データのみを前記回答として生成する請求項１に記載の質問応答システム。
前記テキストデータベース又は音声データベースから前記検索結果として得られる複数のテキストデータ又は複数の音声データを提示する提示手段と、
前記提示手段により提示された複数のテキストデータのいずれか又は音声データのいずれかと同一のデータをユーザからの要求に応じて前記テキストデータベース又は音声データベースから削除する手段とをさらに具備する請求項１に記載の質問応答システム。
前記音声認識結果を含む修正用画面を提示する提示手段と、
前記修正用画面上でのユーザの修正指示に従って前記テキストデータベースを修正する手段とをさらに具備する請求項１に記載の質問応答システム。
前記音声認識結果を含む修正用画面を提示する提示手段と、
前記修正用画面上でのユーザの修正指示に従って前記音声認識手段に用いる音声認識用辞書を修正する修正手段をさらに具備する請求項１に記載の質問応答システム。
テキストデータ及び音声データが記憶されたテキストデータベース及び音声データベースを併用して質問に対する回答を出力する質問応答プログラムにおいて、
前記質問の音声信号を入力する入力手順と、
前記音声信号に音声認識処理を行ってテキストデータ及び認識精度評価値を含む音声認識結果を得る音声認識手順と、
前記認識精度評価値を閾値と比較判定する判定手順と、
前記判定手順の判定結果に従って、前記認識精度評価値が前記閾値以上ならば前記テキストデータを検索タームとして用いて前記テキストデータベースを検索し、前記認識精度評価値が閾値を下回るならば前記音声信号を用いて前記音声データベースを検索する検索手順と、
前記検索手順による検索結果から前記回答を生成する回答生成手順とをコンピュータに実行させる質問応答プログラム。
前記音声信号から質問者を認識する話者認識手順をさらに具備し、前記回答生成手順は、前記テキストデータベース又は音声データベースから前記検索結果として得られるテキストデータ又は音声データのうち、前記テキストデータベース又は音声データベースに認識された質問者によって記憶されたテキストデータ又は音声データを質問者以外のユーザによって記憶されたテキストデータ又は音声データに優先して取り出すことにより前記回答を生成する請求項７に記載の質問応答プログラム。
前記音声信号から質問者を認識する話者認識手順をさらに具備し、前記回答生成手順は、前記テキストデータベース又は音声データベースから前記検索結果として得られるテキストデータ又は音声データのうち、認識された質問者がアクセス権を有するテキストデータ又は音声データのみを前記回答として生成する請求項７に記載の質問応答プログラム。
前記テキストデータベース又は音声データベースから前記検索結果として得られる複数のテキストデータ又は複数の音声データを提示する提示手順と、
前記提示手順により提示された複数のテキストデータのいずれか又は音声データのいずれかと同一のデータをユーザからの要求に応じて前記テキストデータベース又は音声データベースから削除する手順とをさらに具備する請求項７に記載の質問応答プログラム。
前記音声認識結果を含む修正用画面を提示する提示手順と、
前記修正用画面上でのユーザの修正指示に従って前記テキストデータベースを修正する手順とをさらに具備する請求項７に記載の質問応答プログラム。
前記音声認識結果を含む修正用画面を提示する提示手順と、
前記修正用画面上でのユーザの修正指示に従って前記音声認識処理に用いる音声認識用辞書を修正する修正手順をさらに具備する請求項７に記載の質問応答プログラム。