JP3944159B2 - 質問応答システムおよびプログラム - Google Patents

質問応答システムおよびプログラム Download PDF

Info

Publication number
JP3944159B2
JP3944159B2 JP2003428503A JP2003428503A JP3944159B2 JP 3944159 B2 JP3944159 B2 JP 3944159B2 JP 2003428503 A JP2003428503 A JP 2003428503A JP 2003428503 A JP2003428503 A JP 2003428503A JP 3944159 B2 JP3944159 B2 JP 3944159B2
Authority
JP
Japan
Prior art keywords
voice
database
text
speech
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003428503A
Other languages
English (en)
Other versions
JP2005189363A (ja
Inventor
由美 市村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003428503A priority Critical patent/JP3944159B2/ja
Priority to US10/946,514 priority patent/US7580835B2/en
Publication of JP2005189363A publication Critical patent/JP2005189363A/ja
Application granted granted Critical
Publication of JP3944159B2 publication Critical patent/JP3944159B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ユーザが音声で入力した質問に応答する質問応答システムおよびプログラムに関する。
ユーザの検索要求に適合する文書を検索して提示する文書検索技術が広く普及している。しかし、文書検索は、「A病院について教えて」といった検索要求を満足することはできるが、「A病院の診療時間は?」「A病院の場所は?」といった質問に対して直接的な回答を返すことができない。文書検索は文書全体や文書中の段落(パッセージ)を出力するものであるに過ぎず、質問に回答するものではない。質問者であるユーザは出力結果から回答を自分で探さなくてはならない。
質問に対する回答を直接的に出力するものとして、例えば下記特許文献1のような質問応答システムが知られている。
質問への回答を得るための知識源も含めた音声ベースの質問応答システムの提供が切望されている。具体的には、マイクロフォンや携帯電話などの音声入力デバイスから音声で質問を入力でき、録音装置に蓄積されたボイスメモ等に基づいて構築された音声データベースに対する検索によって、質問に対する回答を生成して出力できるような質問応答システムである。
従来の質問応答システムは専らテキストデータベースを用い、テキストで表現された質問に対する回答を検索するというものである。音声入力デバイスを介して質問を音声で入力できるものもあるが、検索対象のデータベースはあくまでテキスト形式である。質問が音声で与えられた場合は、まず音声認識システムを用いて質問音声データをテキストに変換してから検索が行われる。回答はテキストのまま出力してもよいし、そのテキストを音声合成デバイスから音声で出力してもよい。
特開2002−132811公報
現状の音声認識技術では、100%の精度で音声データをテキストデータに変換できるわけではないことから、従来のシステムでは音声認識処理を誤ると正しい回答が得られない可能性が高い。
例えば、「A病院の診療時間は?」という質問が音声で入力された場合、音声認識部により「A病院」「診療」「時間」といった単語が正しく認識されなければならない。これらは検索タームに相当する。
ここで、「A病院」のようなローカルな固有名詞は、一般に音声認識辞書に登録されていないことが多く、この部分の音声の認識を誤る可能性が高い。一方、「診療」「時間」のような一般的な名詞は辞書に登録されている可能性が高く、高い精度で音声認識できると考えられる。
ここで、音声認識の精度が高い場合には、テキストデータベースの検索を行った方が精度の高い回答を出せるが、音声認識の精度が低い場合には、テキストデータベースを検索対象とせずに、音声波形から得られた音声特徴パラメータ時系列データをそのまま用いて音声データベースを検索すれば、テキストデータベースの検索では回答を得られない場合にも、回答を出せる可能性がある。特に、自分の入力した音声データが登録された音声データベースを自分の音声による質問で検索する場合には高い検索精度が期待される。
したがって本発明は、知識源として音声データベースとテキストデータを併用する質問応答システムおよびプログラムを提供することを目的とする。
本発明の一観点に係る質問応答システムはテキストデータ及び音声データが記憶されたテキストデータベース及び音声データベースを併用して質問に対する回答を出力する質問応答システムにおいて、前記質問の音声信号を入力する入力手段と、前記音声信号に音声認識処理を行ってテキストデータ及び認識精度評価値を含む音声認識結果を得る音声認識手段と、前記認識精度評価値を閾値と比較判定する判定手段と、前記判定手段の判定結果に従って、前記認識精度評価値が前記閾値以上ならば前記テキストデータを検索タームとして用いて前記テキストデータベースを検索し、前記認識精度評価値が閾値を下回るならば前記音声信号を用いて前記音声データベースを検索する検索手段と、前記検索手段による検索結果から前記回答を生成する回答生成手段とを具備する。
本発明によれば、知識源として音声データベースとテキストデータを併用する質問応答システムおよびプログラムを提供できる。
図1は本発明の一実施形態に係る質問応答システムの構成を示すブロック図である。本実施形態の質問応答システムは、入力部101、話者認識部102、音声認識部103、情報抽出部104、質問応答部105、出力部106、更新制御部107、データベース更新部108、辞書更新部109、テキストデータベース110、音声データベース111、および認識辞書112から構成される。
入力部101は、マイクロフォン、キーボード、入力ペン、あるいはマウス等の入力デバイスに相当し、出力部106は、ディスプレイやスピーカー等の出力デバイスに相当する。本実施形態は少なくともこれら入出力デバイスを備えたコンピュータにおいて実行可能なソフトウェアとして実現することができる。この場合、話者認識部102、音声認識部103、情報抽出部104、質問応答部105、更新制御部107、データベース更新部108、および辞書更新部109はコンピュータプログラムのモジュールに相当する。質問応答部105は、検索部113、判定部114、および回答生成部115から構成されている。
テキストデータベース110、音声データベース111、および認識辞書112は例えば磁気ディスク装置等の記録媒体に記録されている。認識辞書112は単語辞書112aおよび単語Nグラム(N−gram)辞書112bからなる。単語辞書112aは認識対象の単語の発音(音素表記)を記述したものであり、単語Nグラム辞書112bは単語間の接続関係を確率値で記述したものである。
本実施形態に係る質問応答システムは、質問応答部105がテキストデータベース110と音声データベース111を併用する点で従来の質問応答システムとは構成が異なる。また、本実施形態に係る質問応答システムはデータベースおよび認識辞書をメンテナンスするために、更新制御部107、データベース更新部108、および辞書更新部109を備える点でも従来の質問応答システムとは構成が異なる。
まず本実施形態に係る質問応答システムの全体的な処理の流れを図1に沿って説明したのち、図2を参照しながら質問応答処理の詳細な手順を説明する。
(全体的な処理の流れ)まず、知識データベースを構成するデータの登録が次のようになされる。ユーザは入力部101を介して、登録しておきたいデータを音声で入力する。質問が入力されると、この質問の音声信号が入力部101から話者認識部102に出力される。話者認識部102はこの音声信号に基づく音声データをあらかじめ登録してあるユーザ情報と照合することによりデータ登録者を認識する。話者認識技術については公知であり、例えば特開平11−184492号公報の記載を参考にすることができる。話者認識によりユーザが認識されたら、この音声データは音声認識部103に送られる。音声認識部103は認識辞書112を用い、該音声データについての音声認識を行ってテキストデータに変換する。変換元の音声データは音声データベース111に記憶され、変換により得られたテキストデータはテキストデータベース110に記憶される。音声データベース111には、音声認識部103による音声認識処理の途中結果として得られる音声特徴パラメータ時系列も記憶される。なお、音声認識の具体的な処理の流れについては後述する。また、話者認識部102が認識した登録者情報も双方のデータベース110,111に記憶される。次に、上記テキストデータが情報抽出部104に送られる。情報抽出部104はテキストデータから公知の情報抽出技術を利用して時間情報や人名情報などの情報を情報タイプ別に抽出し、この結果をテキストデータベース110に出力する。なお、話者認識を経ることなく知識データベース(音声データベース111又はテキストデータベース110)にデータが登録されてもよい。
知識データベースが構築されたら、ユーザからの質問の受付を開始できる。まず、ユーザは入力部101を介して、質問を音声で入力する。質問が入力されると、その音声信号が入力部101から話者認識部102に出力される。話者認識部102は、該音声信号に基づく質問の音声データをあらかじめ登録してあるユーザ情報と照合し、質問者を認識する。次に、質問の音声データは音声認識部103に送られる。音声認識部103は認識辞書112を用いて質問の音声データをテキストデータに変換する。
次に、質問応答部105が起動される。質問応答部105は、質問の音声データに対する音声認識結果を評価し、この評価結果に応じて音声データベース111またはテキストデータベース110のいずれかを検索し、ユーザに提示する回答を生成する。なお、生成する回答の内容は、話者認識部102による認識結果に基づくユーザ情報に応じた情報開示のセキュリティが考慮される。質問応答部105により生成された回答は出力部106を介し、音声または表示テキストによってユーザに提示される。
本実施形態に係る質問応答システムは適切なタイミングで更新制御部107を起動する。更新制御部107は、入力された質問に対する回答の根拠に相当する発生源データについて、メンテナンス上不要であるならばそれを削除するか否かをユーザインタフェースを介してユーザに問い合わせる。ユーザは入力部101を介して答えを返すと、この答えの指示に応じてデータベース更新部108が起動される。データベース更新部108は、音声データベース111とテキストデータベース110に記憶されるデータのうち、指示に該当するものを削除する。また、更新制御部107は、入力された質問に対する回答が正しいか否かをユーザに問い合わせる。ユーザが入力部101を介して回答は誤りである旨を本システムに伝えると、更新制御部107は、入力された質問に対する回答の根拠に相当する音声データの音声認識結果および質問の音声認識結果を提示する。ユーザは入力部101を介して音声認識結果の修正情報を指示すると、この指示に応じて、データベース更新部108と辞書更新部109が起動される。データベース更新部108は、テキストデータベース110に記憶されているデータのうち、該当するデータを修正情報に応じて修正する。辞書更新部109は、単語Nグラム辞書112bに記憶された辞書情報を更新制御部107から与えられる修正情報に従って更新する。
(質問応答処理の詳細な手順)図2は質問応答部105の処理手順の一例を示すフローチャートである。質問応答部105は、まず話者認識部102が認識した質問者のユーザ情報を受け取る(ステップS201)。次に、音声認識部103による質問音声Xに対する音声認識の結果として、音声特徴パラメータ時系列Yと、事後確率P(W|Y)を最大にする単語列Wと、事後確率P(W|Y)の最大値とを受け取る(ステップS202)。
(音声認識の具体的な処理の流れ)図3は音声認識部の処理手順の一例を示すフローチャートである。音声波形信号Xが入力されると、音声分析器301は、この音声波形信号Xを分析することにより音声特徴パラメータとよばれる多次元の音声特徴量のパラメータ時系列Yに変換する。この音声分析においては雑音除去や歪みの補正も行われる。ここでは、統計モデル(音響モデル302)に基づく音声認識を考えると、音声認識は音声特徴パラメータ時系列Yに対する事後確率P(W|Y)が最大となる単語列Wを求める問題として定式化できる。確率P(W|Y)は、ベイズの定理により次の式(1)のように変形できる。
P(W|Y)=P(W)P(Y|W)/P(Y)…(1)
この式(1)において、分母のP(Y)は単語列Wに無関係な項であり、P(W|Y)を最大にするには、分子のP(W)P(Y|W)を最大にする単語列Wを求めれば良い。なお、P(Y|W)は音響モデルの確率、P(W)は言語モデルの確率として算出される。
音響モデル302は、音素を単位とした音声特徴量パターンの分布の統計モデル、例えば3状態の隠れマルコフモデルで表現することができ、これは、音声コーパスを音声分析して抽出される特徴量から推定することができる。
一方、言語モデルは単語連鎖の統計値であるNグラムに基づく確率モデル、例えば、N=3の単語トライグラムで表現することができる。これは、テキストコーパスを形態素解析して単語に分割し、読みを付与したデータから推定することができる。例えば、「いる」という動詞の次に「か」という助詞が接続し、その次に「も」という助詞が接続する条件付き確率は0.011であるといった単語連鎖の統計値を推定し、これを単語Nグラム辞書112bに記憶しておく。
認識エンジン303は、音声特徴パラメータ時系列Yと、事後確率P(W|Y)を最大にする単語列Wと、事後確率P(W|Y)の最大値とを出力する。事後確率P(W|Y)の最大値は音声認識の精度評価値として用いられる。なお、音声認識処理を如何に実現するかについては、例えば次の参考文献(特開平11−184492号公報、特開昭59−121098号公報)の記載を参考にすることができる。
図2に戻り、質問応答処理の詳細な手順の説明を再開する。ステップS203において、事後確率P(W|Y)の最大値がしきい(閾)値以上であるか否かを判断する。事後確率P(W|Y)の最大値すなわち音声認識の精度評価値がしきい値以上である場合には、判定部114は検索対象のデータベースとしてテキストデータベースを選択してステップS206に進む。一方、音声認識の精度評価値がしきい値を下回る場合には、判定部114は検索対象のデータベースとして音声データベースを選択してステップS204に進む。
ステップS204において、検索部113は音声認識結果を利用せずに、音声特徴パラメータ時系列Yを用いることにより質問音声で音声データベース111の検索を行う(ステップS204)。これにより質問者と登録者が一致する検索結果が得られたならば、これを回答として提示する(ステップS205)。時系列データの検索は、例えば、質問音声の音声特徴パラメータ時系列Yの長さをTとすると、音声データベース111の各音声データから長さTの音声特徴パラメータ時系列Z(i)を順次取り出し、YとZ(i)の距離を計算し、YとZ(i)の距離が最小になるZ(i)を含む音声データを検索結果とする、あるいは、YとZ(i)の距離の平均が最小になる音声データを検索結果とする、などにより得ることができる。時系列データの検索については、種々のアルゴリズムが提案されており、これらを適宜利用してもよい。例えば、特開2002−221984号公報に記載の音声検索方法を用いてもよい。
一方、ステップS206において、情報抽出部104は音声認識部103による音声認識結果として得られた単語列Wから、検索タームと情報タイプを認識する(ステップS206)。例えば、「A病院の診療時間は?」との質問がなされた場合、検索タームとして「A病院」「診療」「時間」を認識し、回答の情報タイプとして「TIME」を認識する。なお、回答すべき情報タイプの認識処理については、例えば次の参考文献(特開2003−92508公報、特開2003−293178公報)の記載を参考にすることができる。
次に、検索部113は上記検索タームを用いてテキストデータベース110をテキスト検索する(ステップS207)。テキスト検索については良く知られた技術であり、ここでは詳細な説明を省略する。さらに、検索部113はこのテキスト検索により得られた上位N件(例えば、N=20)のテキストから、情報抽出部104により抽出された情報タイプにマッチする文字列を検索する(ステップS208)。回答生成部115は、検索された文字列のうち、質問者と登録者が一致するデータに含まれる文字列を回答として生成する。生成された回答は出力部106に出力される(ステップS209)。以上により、質問応答部105の処理を終了する。
なお、ステップS201、ステップS205、およびステップS209は、いずれも付加的なステップであり、実施の形態に応じて省略してもよい。例えばステップS201の話者認識が省略される場合、質問者(ユーザ)の認識結果によらず、ステップS204あるいはステップS208で得られた結果は、そのまま回答として提示されることになる。
また、ステップS205において質問者と登録者が一致するデータに制限して回答を出力することに代えて、質問者と登録者が一致しないデータも回答に含め、質問者と登録者が一致するデータを優先して回答するようにしてもよい。あるいは、データを登録する際、登録者がアクセス権を設定するようにしておき、質問者がアクセス権をもたないデータを回答に含めないようにしてもよい。
同様に、ステップS209において質問者と登録者が一致するテキストデータに含まれる文字列のみを回答とすることに代えて、質問者と登録者が一致しないテキストデータに含まれる文字列をも回答に含めるようにし、質問者と登録者が一致するテキストデータに含まれる文字列を優先して回答するようにしてもよい。あるいは、テキストデータの登録の際に、登録者がアクセス権を設定するようにし、質問者がアクセス権をもたないテキストデータに含まれる文字列を回答に含めないようにしてもよい。
以上説明したように本実施形態によれば、質問応答部104がテキストデータベース110と音声データベース111を併用するよう構成された質問応答システムを提供できる。具体的には、質問応答部104は質問の音声認識結果の品質すなわちここでは音声認識の精度評価値に応じて、テキストデータベース110と音声データベース111とを適切に使い分けて検索を行い、高精度かつ頑強に回答を得ることができる。
(データベースおよび認識辞書の更新)更新制御部107の制御によるデータベースおよび認識辞書の更新について説明する。ユーザインタフェースに係わる処理における質問応答システムからの出力はスピーカーによる音声でも、ディスプレイデバイスによる表示でもよいが、ここでは、例えばディスプレイによる視覚的表示を例に挙げる。更新制御部107は入力部101および質問応答部105に接続されており、データベース更新部108および辞書更新部109を制御する。更新制御部107には、図4ないし図6に示すGUI(Graphical User Interface)を構成する幾つかの画面が関連付けられている。図4は、回答表示画面の一例を示す図、図5は発生源データ表示画面の一例を示す図、図6は認識結果修正画面の一例を示す図である。
図4では、「A病院の診療時間は?」という質問音声が入力された場合に、本実施形態の質問応答システムが表示する回答表示画面の一例が示されている。ディスプレイには、処理モード、質問の認識結果、回答番号、回答文字列、入力された質問に対する回答の根拠に相当する発生源データの登録日、登録者が表示されている。処理モードとは、音声認識結果を利用してテキストデータベース110の検索を行ったか、音声認識結果を利用せずに音声データベース111を検索したかの区別を示すものである。
各回答の横には、発生源データ表示ボタン(401、402)と、不正解を指示するためのチェックボックス(403、404)が配置されている。ユーザが発生源データ表示ボタン401や402をマウス等でクリック(当該ボタンを押す)すると、ディスプレイには図5に示すように発生源データの情報が表示される。この発生源データ自体が誤っている、あるいは古い情報である場合などの理由により、これを削除したい場合、ユーザはマウス等で削除ボタン501をクリックすればよい。削除ボタン501を通じて削除が指示されると、データベース更新部108は該当するデータをテキストデータベース110および音声データベース111から削除する。当該発生源データの削除を望まない場合、ユーザが前画面に戻るボタン502をマウス等でクリックすると、再び図4の表示画面に復帰する。
図4の表示に基づいて回答1が不正解であることを知ったユーザが、チェックボックス403をチェックし、認識結果修正ボタン405をクリックすると、ディスプレイには図6に示すような認識結果修正画面が表示される。
図6に示す認識結果修正画面を通じて、音声認識部103による音声認識結果の修正を実行することができる。修正の対象は、質問の認識結果、ならびに、不正解にチェックされた回答の根拠に相当する発生源データの認識結果である。認識結果が多数ある場合は、次の認識結果ボタン602をクリックすると、次の結果が表示される。ここで、まず誤った認識結果を選択するべく認識結果ボタン602の横に配置されたチェックボックス601をユーザがマウス等でチェックしたのち、修正実行ボタン603をマウス等でクリックすると、データベース更新部108と辞書更新部109が起動される。すなわち、データベース更新部108は、チェックボックス601のチェック内容に基づいて、テキストデータベース110に記憶され、該当する認識結果を修正する。同様に、辞書更新部109は、チェックボックス601のチェック内容に基づいて単語Nグラム辞書112bに記憶されている辞書情報を修正する。すなわち単語Nグラム辞書112bには、連鎖する3単語とその連鎖確率が辞書情報として記述されている。例えば、誤った認識結果に該当する3単語の連鎖確率の値を一定の割合で減少させる、あるいは、正しい認識結果に該当する3単語の連鎖確率の値を一定の割合で増加させるなどして辞書情報を修正する。
なお、上記ではディプレイによる表示例を示したが、これに代えてスピーカーを通じた音声出力とすることもできる。この場合は、音声に基づく対話的な操作に従って処理を進めることができる。すなわち、ユーザが音声で質問をすると、質問応答システムは「回答は2件あります。」「1件目の回答、午前9時から午後3時までです。2件目の回答、午前10時から午後3時までです。」のようにスピーカーを通じて音声で回答する。続いて、質問応答システムは「発生源データを修正しますか?」とスピーカーから問い返す。これに応じてユーザが「はい」と音声で回答すると、質問応答システムは「1件目の発生源データを再生します。登録日、2002年7月3日、登録者、ヤマダ、A病院の診療時間は午前9時から午後3時までです。」「この情報を削除しますか?」のようにスピーカーから問い返す。これに応じてユーザが「はい」と音声で回答すると、上記のように画面に表示された削除ボタン501をクリックすることと同等の操作がなされたことになり、同様の結果が得られる。
なお、以上説明した本発明の実施形態は日本語でなされた質問を扱うものとして説明したが、本発明は質問の自然言語を特定の言語に限定するものではない。例えば、英語の質問を扱う場合には、英語でなされた質問を解析するために、日本語形態素解析に代えて、part-of-speech tagging (品詞同定)やstemming(活用語尾の削除)などの公知技術を適用すればよい。
以上説明した本発明の実施形態によれば、音声認識の精度が悪くても、知識源を構成する音声データベースとテキストデータベースとを上述のように併用する(選択的に用いる)ことから、高精度で、かつカバレッジが広く、頑健な質問応答システムを提供できる。
従来の質問応答システムは、新聞記事、WWW(World Wide Web)文書、社内文書など、第三者への開示が了解された文書の中から回答を探すといった使い方が想定されており、個人的な情報を知識源とする質問応答システムは想定されていない。例えば個人的なメモ情報をデータベースに蓄積するようになると、データの登録者と検索者を認識し、情報が他人に対してみだりに開示されないように、逆に、自分の登録した情報は優先して開示されるように情報開示方法をコントロールする必要がある。しかしながら、従来の質問応答システムでは、このような情報開示方法をコントロールするための具体的手段は考慮されていない。
これに対し本実施形態によれば、データの登録者と検索者を認識して情報開示方法をコントロールする手段を備えることから、意図されない第三者に対してみだりに情報を開示しないようセキュリティを備えた質問応答システムを提供できる。また、自分が登録した情報に基づく回答を優先して表示することにより、ユーザへの適応性が高い質問応答システムを提供することもできる。
データを無条件で蓄積し続けると、当然ながら古いデータは消去されることなく残存する。新聞記事、WWW文書、社内文書のような文書は、普遍性のある文書も多く、必ずしも古い日付の文書が不要とは見なせない。これに対し、個人的なメモ情報は頻繁に更新されることが予想され、古い情報と新しい情報が混在していることが混乱を招く恐れがある。従来の質問応答システムでは、このような古い情報を削除する具体的手段は考慮されていない。例えば、あるとき、「A病院の診療時間は9時から3時まで」というデータを登録しておいたとする。その後、診療時間が変更になり、「A病院の診療時間は10時から3時まで」という新しいデータを登録したとする。この状態で、「A病院の診療時間は?」と質問すると、「9時から3時まで」という回答と、「10時から3時まで」という2つの回答が提示され、質問者は困惑する。
これに対し本実施形態によれば、同一の質問に対し複数回答が提示された場合、どちらの回答が正しいかの判断に有用な情報として、例えば、回答の根拠に相当する発生源データ(source data;元データともいう)、その発生源データの登録日、登録者などを提示することができる。さらに、発生源データを削除するか否かをユーザに問い合わせ、該ユーザからの要求に応じて不要なデータを削除できる。したがって、データベースの更新が容易になり保守性に優れた質問応答システムを提供することもできる。
質問に対する回答が誤っている場合、音声認識を誤ったことが原因である可能性がある。例えば、「A病院」の部分を誤って「A美容院」「B病院」と音声認識してしまうと、質問に対して正しく回答できない。本実施形態によれば、質問に対する回答が誤っている場合には、この回答の根拠に相当するデータや質問の音声認識結果をユーザに提示して修正を受け付けるようにし、さらには、その修正結果を音声認識辞書に反映することができ、次回以降の検索が正しく行われるようになる。
また、本実施形態によれば、入力された質問に対する回答がどのような処理で得られたかをユーザに確認させることもでき、ユーザに適応した質問応答システムの構築も可能である。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の一実施形態に係る質問応答システムの構成を示すブロック図 質問応答部の処理手順の一例を示すフローチャート 音声認識部の処理手順の一例を示すフローチャート 更新制御部の処理に関連する回答表示画面の一例を示す図 更新制御部の処理に関連する発生源データ表示画面の一例を示す図 更新制御部の処理に関連する認識結果修正画面の一例を示す図
符号の説明
101…入力部、102…話者認識部、103…音声認識部、104…情報抽出部、105…質問応答部、106…出力部、107…更新制御部、108…データベース更新部、109…辞書更新部、110…テキストデータベース、111…音声データベース、112…認識辞書、112a…単語辞書、112b…単語Nグラム辞書、113…検索部、114…判定部、115…回答生成部

Claims (12)

  1. テキストデータ及び音声データが記憶されたテキストデータベース及び音声データベースを併用して質問に対する回答を出力する質問応答システムにおいて、
    前記質問の音声信号を入力する入力手段と、
    前記音声信号に音声認識処理を行ってテキストデータ及び認識精度評価値を含む音声認識結果を得る音声認識手段と、
    前記認識精度評価値を閾値と比較判定する判定手段と、
    前記判定手段の判定結果に従って、前記認識精度評価値が前記閾値以上ならば前記テキストデータを検索タームとして用いて前記テキストデータベースを検索し、前記認識精度評価値が閾値を下回るならば前記音声信号を用いて前記音声データベースを検索する検索手段と、
    前記検索手段による検索結果から前記回答を生成する回答生成手段とを具備する質問応答システム。
  2. 前記音声信号から質問者を認識する話者認識手段をさらに具備し、前記回答生成手段は、前記テキストデータベース又は音声データベースから前記検索結果として得られるテキストデータ又は音声データのうち、前記テキストデータベース又は音声データベースに認識された質問者によって記憶されたテキストデータ又は音声データを質問者以外のユーザによって記憶されたテキストデータ又は音声データに優先して取り出すことにより前記回答を生成する請求項1に記載の質問応答システム。
  3. 前記音声信号から質問者を認識する話者認識手段をさらに具備し、前記回答生成手段は、前記テキストデータベース又は音声データベースから前記検索結果として得られるテキストデータ又は音声データのうち、認識された質問者がアクセス権を有するテキストデータ又は音声データのみを前記回答として生成する請求項1に記載の質問応答システム。
  4. 前記テキストデータベース又は音声データベースから前記検索結果として得られる複数のテキストデータ又は複数の音声データを提示する提示手段と、
    前記提示手段により提示された複数のテキストデータのいずれか又は音声データのいずれかと同一のデータをユーザからの要求に応じて前記テキストデータベース又は音声データベースから削除する手段とをさらに具備する請求項1に記載の質問応答システム。
  5. 前記音声認識結果を含む修正用画面を提示する提示手段と、
    前記修正用画面上でのユーザの修正指示に従って前記テキストデータベースを修正する手段とをさらに具備する請求項1に記載の質問応答システム。
  6. 前記音声認識結果を含む修正用画面を提示する提示手段と、
    前記修正用画面上でのユーザの修正指示に従って前記音声認識手段に用いる音声認識用辞書を修正する修正手段をさらに具備する請求項1に記載の質問応答システム。
  7. テキストデータ及び音声データが記憶されたテキストデータベース及び音声データベースを併用して質問に対する回答を出力する質問応答プログラムにおいて、
    前記質問の音声信号を入力する入力手順と、
    前記音声信号に音声認識処理を行ってテキストデータ及び認識精度評価値を含む音声認識結果を得る音声認識手順と、
    前記認識精度評価値を閾値と比較判定する判定手順と、
    前記判定手順の判定結果に従って、前記認識精度評価値が前記閾値以上ならば前記テキストデータを検索タームとして用いて前記テキストデータベースを検索し、前記認識精度評価値が閾値を下回るならば前記音声信号を用いて前記音声データベースを検索する検索手順と、
    前記検索手順による検索結果から前記回答を生成する回答生成手順とをコンピュータに実行させる質問応答プログラム。
  8. 前記音声信号から質問者を認識する話者認識手順をさらに具備し、前記回答生成手順は、前記テキストデータベース又は音声データベースから前記検索結果として得られるテキストデータ又は音声データのうち、前記テキストデータベース又は音声データベースに認識された質問者によって記憶されたテキストデータ又は音声データを質問者以外のユーザによって記憶されたテキストデータ又は音声データに優先して取り出すことにより前記回答を生成する請求項7に記載の質問応答プログラム。
  9. 前記音声信号から質問者を認識する話者認識手順をさらに具備し、前記回答生成手順は、前記テキストデータベース又は音声データベースから前記検索結果として得られるテキストデータ又は音声データのうち、認識された質問者がアクセス権を有するテキストデータ又は音声データのみを前記回答として生成する請求項7に記載の質問応答プログラム。
  10. 前記テキストデータベース又は音声データベースから前記検索結果として得られる複数のテキストデータ又は複数の音声データを提示する提示手順と、
    前記提示手順により提示された複数のテキストデータのいずれか又は音声データのいずれかと同一のデータをユーザからの要求に応じて前記テキストデータベース又は音声データベースから削除する手順とをさらに具備する請求項7に記載の質問応答プログラム。
  11. 前記音声認識結果を含む修正用画面を提示する提示手順と、
    前記修正用画面上でのユーザの修正指示に従って前記テキストデータベースを修正する手順とをさらに具備する請求項7に記載の質問応答プログラム。
  12. 前記音声認識結果を含む修正用画面を提示する提示手順と、
    前記修正用画面上でのユーザの修正指示に従って前記音声認識処理に用いる音声認識用辞書を修正する修正手順をさらに具備する請求項7に記載の質問応答プログラム。
JP2003428503A 2003-12-25 2003-12-25 質問応答システムおよびプログラム Expired - Fee Related JP3944159B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003428503A JP3944159B2 (ja) 2003-12-25 2003-12-25 質問応答システムおよびプログラム
US10/946,514 US7580835B2 (en) 2003-12-25 2004-09-22 Question-answering method, system, and program for answering question input by speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003428503A JP3944159B2 (ja) 2003-12-25 2003-12-25 質問応答システムおよびプログラム

Publications (2)

Publication Number Publication Date
JP2005189363A JP2005189363A (ja) 2005-07-14
JP3944159B2 true JP3944159B2 (ja) 2007-07-11

Family

ID=34697521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003428503A Expired - Fee Related JP3944159B2 (ja) 2003-12-25 2003-12-25 質問応答システムおよびプログラム

Country Status (2)

Country Link
US (1) US7580835B2 (ja)
JP (1) JP3944159B2 (ja)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006039120A (ja) * 2004-07-26 2006-02-09 Sony Corp 対話装置および対話方法、並びにプログラムおよび記録媒体
JP4027357B2 (ja) * 2004-10-08 2007-12-26 キヤノン株式会社 文字列入力装置およびその制御方法
US8221126B2 (en) * 2004-11-22 2012-07-17 Bravobrava L.L.C. System and method for performing programmatic language learning tests and evaluations
US8033831B2 (en) * 2004-11-22 2011-10-11 Bravobrava L.L.C. System and method for programmatically evaluating and aiding a person learning a new language
US8272874B2 (en) * 2004-11-22 2012-09-25 Bravobrava L.L.C. System and method for assisting language learning
JP4287386B2 (ja) * 2005-01-31 2009-07-01 株式会社東芝 情報検索システム、方法及びプログラム
US7672931B2 (en) * 2005-06-30 2010-03-02 Microsoft Corporation Searching for content using voice search queries
TWI270052B (en) * 2005-08-09 2007-01-01 Delta Electronics Inc System for selecting audio content by using speech recognition and method therefor
JP4867654B2 (ja) * 2006-12-28 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
US20090144056A1 (en) * 2007-11-29 2009-06-04 Netta Aizenbud-Reshef Method and computer program product for generating recognition error correction information
US8275803B2 (en) * 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
US8332394B2 (en) 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US20110125734A1 (en) * 2009-11-23 2011-05-26 International Business Machines Corporation Questions and answers generation
WO2011154584A1 (es) * 2010-06-11 2011-12-15 Foodlinker Company S.L. Procedimiento y sistema de transmisión de datos relativos a un producto y usos correspondientes
WO2012040356A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Providing question and answers with deferred type evaluation using text with limited structure
CA2812338C (en) 2010-09-24 2019-08-13 International Business Machines Corporation Lexical answer type confidence estimation and application
US9002773B2 (en) 2010-09-24 2015-04-07 International Business Machines Corporation Decision-support application and system for problem solving using a question-answering system
US8943051B2 (en) 2010-09-24 2015-01-27 International Business Machines Corporation Lexical answer type confidence estimation and application
US8892550B2 (en) 2010-09-24 2014-11-18 International Business Machines Corporation Source expansion for information retrieval and information extraction
CN103221915B (zh) 2010-09-24 2017-02-08 国际商业机器公司 在开域类型强制中使用本体信息
EP2622428A4 (en) 2010-09-28 2017-01-04 International Business Machines Corporation Providing answers to questions using hypothesis pruning
WO2012047541A1 (en) 2010-09-28 2012-04-12 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
EP2622510A4 (en) 2010-09-28 2017-04-05 International Business Machines Corporation Providing answers to questions using logical synthesis of candidate answers
CN102737631A (zh) * 2011-04-15 2012-10-17 富泰华工业(深圳)有限公司 互功式语音识别电子装置及方法
WO2013056343A1 (en) * 2011-09-30 2013-04-25 Ming Li System, method and computer program for correcting speech recognition information
US10614725B2 (en) 2012-09-11 2020-04-07 International Business Machines Corporation Generating secondary questions in an introspective question answering system
US9146987B2 (en) * 2013-06-04 2015-09-29 International Business Machines Corporation Clustering based question set generation for training and testing of a question and answer system
US9230009B2 (en) 2013-06-04 2016-01-05 International Business Machines Corporation Routing of questions to appropriately trained question and answer system pipelines using clustering
TWI508057B (zh) * 2013-07-15 2015-11-11 Chunghwa Picture Tubes Ltd 語音辨識系統以及方法
US9507852B2 (en) * 2013-12-10 2016-11-29 Google Inc. Techniques for discriminative dependency parsing
US9348900B2 (en) 2013-12-11 2016-05-24 International Business Machines Corporation Generating an answer from multiple pipelines using clustering
US9613093B2 (en) 2014-10-16 2017-04-04 International Business Machines Corporation Using question answering (QA) systems to identify answers and evidence of different medium types
US9747901B1 (en) * 2015-02-27 2017-08-29 Amazon Technologies, Inc. Speech interaction for unmanned aerial vehicles
KR102558437B1 (ko) * 2015-11-27 2023-07-24 삼성전자주식회사 질의 응답 처리 방법 및 이를 지원하는 전자 장치
US9589049B1 (en) * 2015-12-10 2017-03-07 International Business Machines Corporation Correcting natural language processing annotators in a question answering system
JP2017151860A (ja) * 2016-02-26 2017-08-31 富士通株式会社 検索制御プログラム、検索制御装置及び検索制御方法
CN106446205A (zh) * 2016-10-01 2017-02-22 深圳市分享投融网络有限公司 基于互联网形成专家有偿知识音频合辑的方法及装置
JP2018170001A (ja) * 2017-03-29 2018-11-01 西日本電信電話株式会社 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム
CN111326137A (zh) * 2018-12-13 2020-06-23 允匠智能科技(上海)有限公司 一种基于办公智能化的语音机器人交互***
US11062700B1 (en) * 2018-12-13 2021-07-13 Amazon Technologies, Inc. Query answering with controlled access knowledge graph
JP2021189658A (ja) * 2020-05-28 2021-12-13 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
CN114186015A (zh) * 2020-09-15 2022-03-15 株式会社理光 信息检索方法、装置及计算机可读存储介质
CN112182252B (zh) * 2020-11-09 2021-08-31 浙江大学 基于药品知识图谱的智能用药问答方法及其设备
CN113990302B (zh) * 2021-09-14 2022-11-25 北京左医科技有限公司 电话随访语音识别方法、装置及***
CN114520003B (zh) * 2022-02-28 2024-06-28 安徽淘云科技股份有限公司 语音交互方法、装置、电子设备和存储介质
CN117725148B (zh) * 2024-02-07 2024-06-25 湖南三湘银行股份有限公司 一种基于自学习的问答词库更新方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59121098A (ja) 1982-12-28 1984-07-12 株式会社東芝 連続音声認識装置
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
JP3919314B2 (ja) 1997-12-22 2007-05-23 株式会社東芝 話者認識装置及びその方法
JPH11282857A (ja) * 1998-03-27 1999-10-15 Animo:Kk 音声検索装置および記録媒体
JP2000010578A (ja) * 1998-06-19 2000-01-14 Ntt Data Corp 音声メッセージ送受信システム、及び音声メッセージ処理方法
US6829603B1 (en) * 2000-02-02 2004-12-07 International Business Machines Corp. System, method and program product for interactive natural dialog
JP2001215995A (ja) * 2000-02-04 2001-08-10 Toyota Motor Corp 音声認識装置
US20010039493A1 (en) * 2000-04-13 2001-11-08 Pustejovsky James D. Answering verbal questions using a natural language system
US7962326B2 (en) * 2000-04-20 2011-06-14 Invention Machine Corporation Semantic answering system and method
US6957213B1 (en) * 2000-05-17 2005-10-18 Inquira, Inc. Method of utilizing implicit references to answer a query
JP2002132811A (ja) 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP3686934B2 (ja) 2001-01-25 2005-08-24 独立行政法人産業技術総合研究所 異種環境音声データの音声検索方法及び装置
JP2003108362A (ja) * 2001-07-23 2003-04-11 Matsushita Electric Works Ltd コミュニケーション支援装置およびコミュニケーション支援システム
JP3795409B2 (ja) * 2001-09-14 2006-07-12 富士通株式会社 音声認識装置及び方法
JP2003169147A (ja) * 2001-11-30 2003-06-13 Buzzhits Kk 顧客応答システム及び方法
JP4094283B2 (ja) * 2001-12-05 2008-06-04 学校法人早稲田大学 辞書システムおよびプログラム
JP2004302660A (ja) 2003-03-28 2004-10-28 Toshiba Corp 質問応答システム、質問応答方法及びプログラム
JP4114927B2 (ja) 2003-08-13 2008-07-09 株式会社東芝 文書検索システム、質問応答システム、文書検索方法

Also Published As

Publication number Publication date
US20050143999A1 (en) 2005-06-30
US7580835B2 (en) 2009-08-25
JP2005189363A (ja) 2005-07-14

Similar Documents

Publication Publication Date Title
JP3944159B2 (ja) 質問応答システムおよびプログラム
US8612212B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
EP2572355B1 (en) Voice stream augmented note taking
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP4510953B2 (ja) 音声認識におけるノンインタラクティブ方式のエンロールメント
JP3962763B2 (ja) 対話支援装置
EP1617409B1 (en) Multimodal method to provide input to a computing device
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP2007034871A (ja) 文字入力装置および文字入力装置プログラム
KR20080052279A (ko) 실생활 정보제공 대화형 tv 에이전트 서비스 방법 및장치
JP2009042968A (ja) 情報選別システム、情報選別方法及び情報選別用プログラム
JP4383328B2 (ja) 意味的速記のためのシステム及び方法
JP5723711B2 (ja) 音声認識装置および音声認識プログラム
JP4089861B2 (ja) 音声認識文章入力装置
JP4820240B2 (ja) 単語分類装置及び音声認識装置及び単語分類プログラム
JP4839291B2 (ja) 音声認識装置およびコンピュータプログラム
JP2004348552A (ja) 音声文書検索装置および方法およびプログラム
JP4220151B2 (ja) 音声対話装置
JP5008248B2 (ja) 表示処理装置、表示処理方法、表示処理プログラム、および記録媒体
JP2004295578A (ja) 翻訳装置
EP3742301A1 (en) Information processing device and information processing method
JP3029403B2 (ja) 文章データ音声変換システム
JP2007171275A (ja) 言語処理装置及び現後処理方法
JP2010085522A (ja) 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070320

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070406

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100413

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees