JP2007041319A

JP2007041319A - 音声認識装置および音声認識方法

Info

Publication number: JP2007041319A
Application number: JP2005225877A
Authority: JP
Inventors: Takeshi Inoue; 剛井上; Sumiyuki Okimoto; 純幸沖本; Hiroshi Kutsumi; 洋九津見; Takashi Tsuzuki; 貴史續木
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2005-08-03
Filing date: 2005-08-03
Publication date: 2007-02-15
Anticipated expiration: 2025-08-03
Also published as: JP4680714B2

Abstract

【課題】ユーザに学習用の特別な発声を要求することなく、ユーザの負担が少なく自然に音声認識の個人適応を行うことができ、かつ誤認識を減らすことできる音声認識装置および音声認識方法を提供する。
【解決手段】音声認識装置を備える音声対話型情報検索システムは、音声認識辞書１０２および音声認識パラメータ記憶部１０３を用いて、ユーザより入力された音声の音声認識を行う音声認識部１０１と、システムの状態遷移が停滞状態から脱出したか否かを判定する停滞脱出判定部１０４と、動作仕様に従って対話を制御し、ユーザからの入力に対し次のシステム状態を決定し、停滞脱出判定部１０４の判定結果に応じて音声認識辞書１０２および音声認識パラメータ１０３を変更する対話制御部１０５と、システム状態に応じた画面や応答音声を出力する応答音声・画面出力部１１０とを備える。
【選択図】図１

Description

本発明は、入力された音声を音声認識辞書を用いて認識し、認識結果によりシステム状態を遷移させて対話を行う音声認識装置に関する。

一般的な音声認識の方法の一つとして、予め認識辞書内に登録された語彙を表す種々の音響パターンとユーザから入力された音声信号とを比較することでスコアを計算し、最も類似したパターンを示す認識辞書内語彙を認識結果の候補とする手法がある。

このような一般的な音声認識方法では、多くのユーザに対して高い認識精度を実現するために作成された音響モデルを用いて音声認識を行っているため、ユーザによっては一般的な音響モデルが適応していないために、認識精度が低くなり、誤認識を多く起こしてしまう場合が生じる。

また、従来においては、例えば認識スコアを利用して認識信頼度を計算し、最も類似した認識候補が得られた場合も、認識信頼度に基づいてリジェクトを行い、再入力を促す手法がある。このようなリジェクト機能を設けることで、例えば音声以外の雑音が入力された場合に誤認識が発生してシステムが誤動作するのを防ぐことができる。

このような音声認識方法では、得られた認識信頼度が所定の値より低い場合、リジェクトなどの機能により誤認識・誤システム動作を防ぐことができるが、反面、通常の音声入力に対しても認識信頼度が低い場合にはリジェクトを行うので、ユーザによっては、特定の認識可能な語彙に対して誤ってリジェクトされてしまう場合が生じる。

そこで、このような誤認識・誤リジェクトの対策として、音声認識に利用している一般不特定話者向けの音響モデルを現在のユーザの音響モデルに適応するため、ユーザ自身の発声を用いて再学習させる（話者適応・話者学習）ことで認識精度を向上させる方法や、リジェクトが行われた際にユーザの再発声時の認識精度を向上させる方法が提案されている。

例えば、話者適応・話者学習の方法としては、少数の音声を用いて音響モデルを学習し、さらに誤認識される単語については話者学習を行う方法（例えば、特許文献１参照）が開示されている。一方、再発声時の認識精度を向上させる方法としては、言い直しだと判定した場合には前回と今回の両認識候補を用いて認識結果を定める手法（例えば、特許文献２参照）や、言い直しの発声に対しては前回の認識結果の上位候補を認識対象語彙とする手法（例えば、特許文献３参照）が開示されている。
特開２００３−１６２２９２号公報特開平１１−１４９２９４号公報特許第３１１２０３７号

上記のような従来の方法では、少数の学習用発声でユーザの音響モデルを学習可能とする工夫や、再発声時の認識候補や認識対象語彙を変化させることで認識精度を向上させる工夫がされている。

しかしながら、これらの学習による話者適応では、ユーザに適したモデルを学習させる際に少数とはいえ、操作とは直接関係の無い単語を一定量ユーザに発声させるため、ユーザの負担は少なくない。また、再入力時の認識精度向上方法では、再発声時の認識精度は上がるものの、再び前回リジェクトされた発声と同じ発声をユーザが行ったときはやはりリジェクトされてしまい、その度に再発声を行わなくてならない。

例えば、特許文献１では、初めに少数ではあるが話者適応用の学習発声をユーザに促し、さらに度々誤認識する単語については誤認識を起こす部分の発声を話者に促し、その入力を基に話者学習を行うが、ユーザに余分な発声を促すためユーザの負担を増やしてしまう。また、特許文献２では、言い直しと検出された場合に前回の認識結果を含め出力する認識候補を調整するが、前回リジェクトされた発声と同じ発声が入力されたときにリジェクトされてしまい、その度に再発声を行わなくてならない。また、特許文献３では、リジェクトされた次の認識は前回の上位候補のみを認識対象語彙として認識を行うが、特許文献２と同様、前回リジェクトされた発声と同じ発声が入力されたときに正しく認識できない。

そこで、本発明はこのような従来の課題を解決するためになされたものであって、ユーザに学習用の特別な発声を要求することなく、ユーザの負担が少なく自然に音声認識の個人適応を行うことができ、かつ誤認識を減らすことできる音声認識装置および音声認識方法を提供することを目的とする。

上記目的を達成するため、本発明に係る音声認識装置は、入力された音声を認識し、認識結果により対話を行う音声認識装置であって、入力された音声を音声認識辞書を用いて認識して認識結果を出力する音声認識手段と、前記音声認識手段の認識結果によりシステム状態を遷移させて応答を行う対話制御手段と、今回の認識結果で前記システム状態が先に進まず停滞している状態である停滞状態から脱出したか否かを判定するとともに、前記停滞状態から脱出したと判定した場合、今回の認識結果が言い直しおよび言い換えの少なくとも１つであるか否かを判定する停滞脱出判定手段と、前記言い直しまたは言い換えであると判定された場合、対話制御に関する設定および音声認識に関する設定の少なくとも１つを変更する変更制御手段とを備えることを特徴とする。

本発明に係る音声認識装置および音声認識方法によれば、ユーザの発声の特徴とシステムの音声認識用パラメータや音声認識辞書の不適合を解消するために、学習用の特別な発声を要求するのではなく、一度の言い直しまたは言い換えにて正しく認識された結果を利用してユーザに適した学習を行うため、ユーザにとって自然で負担の少ない音声認識の個人適応を行うことができる。さらに、音声認識の個人適応を行うので、次からは前回誤認識した発声と同様の発声を行っても正しく認識が可能となるため、誤認識が減ることにより、円滑な音声操作を実現することができる。

本発明の実施の形態に係る音声認識装置は、入力された音声を認識し、認識結果により対話を行う音声認識装置であって、入力された音声を音声認識辞書を用いて認識して認識結果を出力する音声認識手段と、前記音声認識手段の認識結果によりシステム状態を遷移させて応答を行う対話制御手段と、今回の認識結果で前記システム状態が先に進まず停滞している状態である停滞状態から脱出したか否かを判定するとともに、前記停滞状態から脱出したと判定した場合、今回の認識結果が言い直しおよび言い換えの少なくとも１つであるか否かを判定する停滞脱出判定手段と、前記言い直しまたは言い換えであると判定された場合、対話制御に関する設定および音声認識に関する設定の少なくとも１つを変更する変更制御手段とを備えることを特徴とする。

これによって、通常の音声操作の中で、ユーザ適応を随時行っていくため、ユーザ適応のために特別な発声が必要なく、ユーザにとって自然で負担の少ない音声認識の個人適応を行うことができる。さらに、音声認識の個人適応を行うので、次からは前回誤認識した発声と同様の発声を行っても正しく認識が可能となるため、誤認識が減ることにより、円滑な音声操作を実現することができる。

また、前記システム状態の停滞状態は、前記音声認識結果のリジェクトによる同一システム状態が続く状態であり、前記停滞脱出判定手段は、今回の認識結果が前回の認識結果と同一単語である場合、言い直しであると判定し、今回の認識結果が前回の認識結果と同一単語では無いが、あらかじめ定められた同じシステム動作を実行する認識単語である場合、言い換えであると判定してもよい。

また、前記システム状態の停滞状態は、２つのシステム状態の往復が繰り返し続く状態であり、前記停滞脱出判定手段は、今回の認識結果が前々回の認識結果と同一単語である場合、言い直しであると判定し、今回の認識結果が前々回の認識結果と同一単語では無いが、あらかじめ定められた同じシステム動作を実行する認識単語である場合、言い換えであると判定してもよい。

これによって、誤ってリジェクトされることによる音声操作の停滞および誤って認識されることによる音声操作の停滞が減ることになり、円滑な音声操作が実現できる。

前記変更制御手段は、前記対話制御に関する設定の変更としてリジェクトの閾値の変更を行い、前記音声認識に関する設定の変更として前記音声認識辞書への新規追加または変更を行ってもよい。これによって、リジェクション精度及び認識精度向上が可能となり、ユーザにとって負担が少ない音声認識の個人適応と円滑な各種音声操作を実現することができる。

また、前記変更制御手段は、前記リジェクトの閾値を認識対象単語ごとに設定し変更してもよい。これによって、認識対象単語ごとの個人適応が可能となり、よりユーザにとって負担が少ない音声認識の個人適応と円滑な各種音声操作を実現することができる。

また、前記変更制御手段は、前記リジェクトの閾値、および、前記音声認識辞書への新規追加または変更を、ユーザごとに設定してもよい。これによって、複数のユーザが利用しても適切な適応が可能となり、よりユーザにとって負担が少ない音声認識の個人適応と円滑な各種音声操作を実現することができる。

また、前記音声認識装置は、さらに、前記停滞状態から脱出した際に、今回の認識結果が前回の認識結果と同一単語では無く、かつあらかじめ定められた同じシステム動作を実行する認識単語でない場合、今回の認識結果の省略語を作成する省略語作成手段を備え、前記音声認識手段は、前記省略語を用いて前回の認識結果を再認識し、前記変更制御手段は、前記音声認識手段の再認識結果に応じて前記省略語を前記音声認識辞書へ新規追加してもよい。これによって、省略語をユーザが利用しても適切な適応が可能となり、よりユーザにとって負担が少ない音声認識の個人適応と円滑な各種音声操作を実現することができる。

なお、本発明は、このような音声認識装置として実現することができるだけでなく、このような音声認識装置が備える特徴的な手段をステップとする音声認識方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。

以下、本発明の各実施の形態について、それぞれ図面を参照しながら説明する。

（実施の形態１）
図１は、本発明の実施の形態１に係る音声認識装置を備えた音声対話型情報検索システムの構成を示すブロック図である。

音声対話型情報検索システムは、音声を入力して対話しながら情報を検索するためのシステムであり、図１に示すように音声認識部１０１、音声認識辞書１０２、音声認識パラメータ記憶部１０３、停滞脱出判定部１０４、対話制御部１０５、対話履歴記憶部１０６、システム仕様記憶部１０７、データベース検索部１０８、データベース記憶部１０９、応答音声・画面出力部１１０、およびタイマー１１１を備えている。

音声認識部１０１は、音声認識辞書１０２および音声認識パラメータ記憶部１０３を用いて、ユーザより入力された音声の音声認識を行い、認識結果を出力する。音声認識辞書１０２は、認識対象語彙が登録されている辞書である。音声認識パラメータ記憶部１０３は、音声認識用パラメータを記憶している。

対話制御部１０５は、予めシステムの開発者によって決められた動作仕様に従って対話を制御し、ユーザからの入力に対し次のシステム状態を決定する。具体的には、対話制御部１０５は、音声認識部１０１より入力される音声認識結果、停滞脱出判定部１０４より入力される停滞脱出か否かの判定結果、対話履歴記憶部１０６より入力される現在および過去の対話履歴を利用してシステム仕様記憶部１０７から次のシステム状態を決定する。また、対話制御部１０５は、必要があれば音声認識辞書１０２や音声認識パラメータ１０３の変更、およびデータベース検索をデータベース検索部１０８に要求する。なお、システム状態とはシステムの開発者によって決められたシステムの動作仕様におけるシステムの一状態を示す。

停滞脱出判定部１０４は、対話制御部１０５より入力される現在と過去のユーザの認識結果等の情報を用いてシステムの状態遷移が停滞状態から脱出したか否かを判定する。対話履歴記憶部１０６は、対話制御部１０５から入力される音声認識結果やシステムの出力（出力画面情報・出力応答情報）結果など各システム状態における様々な情報を保存する。システム仕様記憶部１０７は、開発者によってあらかじめ決められたシステムの動作仕様を記憶している。

データベース検索部１０８は、対話制御部１０５からの情報検索要求に対し、データベース記憶部１０９にあるデータベースから検索を行う。データベース記憶部１０９は、データベース検索部１０８の検索対象データベースを格納している。応答音声・画面出力部１１０は、対話制御部１０５より入力されるシステム状態に応じた画面や応答音声を出力する。タイマー１１１は、対話制御部１０５の要求により現時刻を対話制御部１０５に出力する。

次に、上記のように構成された音声対話型情報検索システムにおいて、番組情報を検索する際の具体的な動作について説明する。図２は音声対話型情報検索システムでの対話全体の動作の流れを示すフローチャートである。

対話制御部１０５は、対話開始のシステム状態を決定し、決定したシステム状態での画面と応答音声を決定し、応答音声・画面出力部１１０から出力することで、ユーザに対して入力要求を行う（ステップＳ２０１）。図３は具体的な出力画面例を示すである。ここでは、例えば図３に示すように番組情報を検索する際のメニュー画面が出力され、エージェントの吹き出しの内容３０１が応答音声として音声出力される。なお、吹き出し自体も画面表示してもよい。また、この例では図３における認識可能な語彙は四角で囲まれた語彙のみであるとする。例えば、四角「１．番組名検索」３０２を選択するのに認識可能な語彙としては「１番」「１」「番組名検索」「１．番組名検索」であるとする。

音声認識部１０１は、システムからの応答音声・画面による入力要求に対しするユーザからの入力音声の認識処理を行う（ステップＳ２０２）。より詳細には、まず、対話制御部１０５は、音声認識部１０１に現在のシステム状態で認識可能な語彙の通知と音声認識処理実行の要求を行う。より具体的には、図３に示すシステム状態においては、音声認識部１０１は四角で囲まれた語彙を認識対象語彙として音声認識処理を開始する。次に、音声認識部１０１は、ユーザの入力音声に対して認識処理を行い、対話制御部１０５に対し、認識結果を出力する。ここで、出力される認識結果は、ユーザの発声に最も近い認識対象語彙の単語だけではなく、認識に関する後に記述するような詳細な情報も含め出力する。

図４および図５は出力される認識結果の具体的な例を示す図であり、図４は１位の認識結果を中心とした音声認識の全体的な情報を示しており、図５は他の候補も含めた認識結果の情報を示している。ここで、項目４０１は認識結果が出力された日時であり、項目４０２は入力された音声の区間、即ち音声認識部１０１が認識処理を行っていた区間のうち音声であると判断したで区間である。項目４０３は認識対象語彙の中で最も近いと判断された単語、即ち認識結果の候補が１位の単語であり、項目４０４は音声認識辞書とは関係なく音響的に近いカナ文字を認識結果とした文字列であり、一般には音声タイプライタの結果と呼ばれるものである。項目４０５は入力音声区間の中で認識結果の単語がマッチングした区間である。項目４０６は認識度合を示す認識スコアであり、スコアが高い方がより認識度合が高いことを示している。項目４０７は認識信頼度を示し、どの程度認識結果が妥当かを示している。認識信頼度は一般的には、認識候補のスコアの差や音声タイプライタと認識候補の差などを用いて計算する場合が多い。項目４０８はリジェクト用閾値であり、音声認識パラメータ記憶部１０２に記憶されている変数である。

対話制御部１０５は、このリジェクト閾値と認識信頼度との比較を行いシステムとして認識結果を受け入れるか否かの判定を行う。具体的にはリジェクト閾値より認識信頼度が低い場合、対話制御部１０５は認識結果をリジェクト、即ち入力結果として処理せず、再度同じシステム状態での入力を促す。例えば、図４の例では認識信頼度が「４．５」でリジェクト閾値が「３．５」であるので、対話制御部１０５はこの認識結果「番組名検索」をシステムへの入力として認め対話制御を行う。なお、このリジェクト閾値は、予めシステム開発者が決定しても良いし、評価実験を行うことにより決定してもよい。具体的には何人かの被験者にこの辞書セットの単語を発声させ、その結果を基に決定してもよい。

また、図５において、項目５０１は認識候補の認識スコアのよってソートされた結果の認識候補順位であり、項目５０２から項目５０５は各認識候補の情報であり、その内容は図４で説明した認識結果１位の結果の情報と同じである。

対話制御部１０５は、ステップＳ２０２で音声認識部１０１から入力された音声認識結果と対話履歴記憶部１０６に蓄積されている前回の認識結果を停滞脱出判定部１０４に出力する。

次に、停滞脱出判定部１０４は、今回の入力が停滞の脱出であるか否かの判定を行い、その結果を対話制御部１０５に出力する（ステップＳ２０３）。対話制御部１０５は、この結果を対話履歴記憶部１０６に書き込む。

ここで、停滞脱出判定部１０４における停滞脱出判定動作について、音声認識の誤リジェクトによる停滞を例に取り、詳細に説明する。図６は、停滞脱出判定部１０４における停滞脱出判定動作の流れを示すフローチャートである。

まず、停滞脱出判定部１０４は、今回の音声認識結果および前回の認識結果を取得する（ステップＳ６０１）。そして、その音声認識結果に基づいてリジェクトか否かの判定を行う（ステップＳ６０２）。この判定の結果、リジェクトと判定した場合（ステップＳ６０２でＹＥＳ）、停滞脱出判定部１０４は停滞脱出でないという判定結果を出力する。これは、リジェクトとは認識結果の信頼度が低いため認識結果として採用されないということであるので、その場合は次のシステム状態へ進まない状態、即ち停滞からの脱出ではないためである。

一方、リジェクトでないと判定した場合（ステップＳ６０２でＮＯ）は、対話履歴から前回の発声がリジェクトであったか否かの判定を行う（ステップＳ６０３）。この判定の結果、前回の発声がリジェクトでないと判定した場合（ステップＳ６０３でＮＯ）は、前回の発声においては停滞が発生していないため、停滞脱出判定部１０４は今回の発声は停滞の脱出ではないという判定結果を出力する。

一方、前回の発声をリジェクトと判定した場合（ステップＳ６０３でＹＥＳ）、前回の発声によりシステムは停滞状態であったことを示すため、停滞脱出判定部１０４は、今回の発声により停滞状態から脱出できたという判定し、言い直しであるか否かの判定を行う（ステップＳ６０４）。ここでのいい直しとは、前回の発声と今回の発声が同じであることを意味する。例えば、ユーザが図３のような出力画面において「番組名検索」と発声し、リジェクとされて再度入力を促されたときにもう一度「番組名検索」と発声する場合などである。この言い直し判定は、前回の認識結果と今回の認識結果とを比較することで行い、言い直しであると判定した場合（ステップＳ６０４でＹＥＳ）、停滞脱出判定部１０４は言い直しによる停滞の脱出であるという判定結果を出力する。

一方、言い直しでないと判定した場合（ステップＳ６０４でＮＯ）は、停滞脱出判定部１０４は、言い換えであるか否かの判定を行う（ステップＳ６０４）。ここでの言い換えとは、前回の発声と今回の発声が発声語彙は異なるが、発声内容が同じ、即ち発声によるシステム動作が同じ発声を意味する。例えば、ユーザが図３のような出力画面において「番組名検索」と発声し、リジェクトされて再入力を促されたときに「１番」と発声する場合などである。この言い換えの判定は、言い直しの判定と同様に前回の認識結果と今回の認識結果の比較を行うことで判定を行う。より具体的には、前回の認識結果と今回の認識結果との語彙が異なり、且つシステム仕様として認識結果が同じ動作を実行する語彙であれば言い換えであると判定する。システム仕様として認識結果が同じ動作か否かの判定は、システム仕様記憶部１０７に定義される各システム仕様により判定する。具体的には、システム仕様記憶部１０７には図７に示されるように、認識結果として受け付ける語彙とその語彙を受け付けたときどの状態に遷移するかが記憶されており、ここで一つの選択可能項目に対応する単語を言い換え対象語として扱う。

この判定の結果、言い換えであると判定した場合（ステップＳ６０５でＹＥＳ）、停滞脱出判定部１０４は、言い換えによる停滞脱出であるという判定結果を出力する。一方、言い換えでないと判定した場合（ステップＳ６０５でＮＯ）、停滞脱出判定部１０４は停滞脱出ではないという判定結果を出力する。

以上のように、停滞脱出判定部１０４は停滞脱出判定の動作を行う。
次に、対話制御部１０５は、停滞脱出判定処理（ステップＳ２０３）までに得られている音声認識結果および停滞脱出判定結果に基づいて、音声認識辞書やリジェクト閾値、音響モデルといった音声認識パラメータの変更を行う（ステップＳ２０４）。

次に、対話制御部１０５は、認識結果に基づいて次のシステム状態と、このシステム状態における応答音声および画面の出力について決定し、応答音声・画面出力部１１０に出力する（ステップＳ２０５）。ここで必要であれば、対話制御部１０５は、データベース検索部１０８に対しデータベース記憶部１０９からのデータの検索を要求した結果を応答音声・画面出力部１１０に出力する。

そして、対話制御部１０５は、システム仕様記憶部１０７に定義されているシステム仕様に従い、対話の終了か否かを判定する。この結果、対話の終了でない場合（ステップＳ２０６でＮＯ）には、再び入力音声の認識処理（ステップＳ２０２）より上記ステップを繰り返し、対話の終了である場合（ステップＳ２０６でＹＥＳ）には、対話を終了する。

次に、システムの具体動作例をシステムのシステム出力画面と対話履歴記憶部１０６に保存される対話履歴データの具体例を用いて説明する。

図８は、動作例で対象とする対話履歴データの具体例を示す図である。項目８０１はシステム状態の変化を一元管理するために振られているステップ番号、項目８０２はシステム状態の種類を示すシステム状態、項目８０３はシステムが応答を出力した日時を示す応答出力開始時刻、項目８０４は音声認識部１０１から得られる音声認識結果の１位候補の単語、項目８０５も同様に音声認識結果から得られる認識信頼度、項目８０６は音声認識部１０１からの音声認識結果に基づいて対話制御部１０５が判定したリジェクト判定結果、項目８０７は対話履歴記憶部１０６に保存される前回の認識結果と今回音声認識部１０１が出力した認識結果に基づいて停滞脱出判定部１０４が判定した言い直しによる停滞脱出の判定結果、項目８０８は項目８０７と同様にして停滞脱出判定部１０４が判定した言い換えによる停滞脱出の判定結果、項目８０９は音声認識パラメータ記憶部１０３に保存されており、認識結果からも取得できるリジェクト閾値である。なお、この図には示していないが、各ステップにおける図４で示されるような認識結果の詳細情報や図５に示されるような表示画面についての情報、具体的には表示されている単語やシステムがどのような応答文を出力したかを示す出力応答文など他の情報も対話履歴記憶部１０６には保存してもよい。

例えば、ユーザが、図３に示すメニュー画面で「番組名検索」と発声したとする。この認識結果の認識信頼度（０．４７）がリジェクト閾値（０．３５）より高いので、対話制御部１０５は、次のシステム状態を決定し、画面遷移と応答文の出力を行う（図８のステップ＝１）。具体的には、システムからは応答音声・画面出力部１１０によって図９に示されるような画面と「番組名の頭文字を指定してください」という応答音声が出力される。次に、ユーザは「あ行」と発声し、これも先の発声と同様に、認識確信度（０．３６）がリジェクト閾値（０．３５）より高いため、正しく受け付けられる（図８のステップ＝２）。システムからは応答音声・画面出力部１１０によって図１０のような画面と「どの番組ですか？」という応答が出力される。次に、ユーザはそのリストには見たい番組が無く「次の画面」と発声するが、この発声に対する認識結果では、認識信頼度（０．３３）がリジェクト閾値（０．３５）より低いためリジェクトであると判定される（図８のステップ＝３）。リジェクトと判定された場合、対話制御部１０５は再度そのシステム状態で（今の場合、対話＝状態３）再度入力を促す。なお、この動作はユーザが正しく発声しているのに対し、対話制御部１０５が誤ってリジェクトしてしまったシステムの誤動作であり、リジェクト閾値がユーザにとって正しく設定されていないため生じる動作である。

再度同じシステム状態で、システムより入力を促されたユーザは再び「次の画面」と発声し、その音声認識の結果における認識信頼度（０．３８）はリジェクト閾値（０．３５）より高いので、対話制御部１０５はその結果を受け付ける（図８のステップ＝４）。ここで、このステップでは停滞脱出判定部１０４が「前回の発声はリジェクト」かつ「今回の発声は言い直し」であるので「言い直しによる停滞脱出」と判定し、項目８０７にその情報が記憶される。更にこのステップでは、対話制御部１０５は検出した誤動作と正しい動作を用いて、誤動作したはじめの発声を次からは受け付けるよう個人適応を行う。即ち、音声認識パラメータ、今回の例ではリジェクト閾値を変更し、次のステップからこの値を利用して音声認識を行う。具体的には、現在のリジェクト閾値「０．３５」を前回の誤ってリジェクトされた発声における信頼度でも正しく認識できるように「０．３０」に変更する。この閾値の変更は、システム開発者が予め設定した、決まった割合で変更を行っても良い。また、現在のリジェクト閾値と誤ってリジェクトされたときの認識信頼度を利用した計算により閾値の変更を行ってもよい。より具体的には、現在のリジェクト閾値と誤ってリジェクトされたときの認識信頼度の差分が一定値以内であれば、リジェクト閾値を誤ってリジェクトされたときの認識信頼度に設定し、差分が一定値以上であれば、現在のリジェクト閾値と誤ってリジェクトされたときの認識信頼度の間の重み付き平均値を利用してリジェクト閾値を設定しても良い。また、リジェクトされた単語と正しく認識された単語の認識信頼度を用いて閾値の変更を行ってもよい。具体的には、現在のリジェクト閾値と誤ってリジェクトされたときの認識信頼度を用いた計算方法と同様の方法で決定する。

言い直しの結果を受け付けた対話制御部１０５は、次のシステム状態を決定し、画面遷移と応答文の出力を行う。具体的には、システムからは応答音声・画面出力部１１０によって、図１１に示されるような画面と「どの番組ですか？」という応答音声が出力される。ユーザはこの画面にも見たい番組が無いので、さらに「次の画面」と発声する。この発声の認識結果における認識信頼度はステップ３の時と同じ「０．３３」である。この認識信頼度はステップ３ではリジェクトされた値であるが、対話制御部１０５はこの認識信頼度「０．３３」と前ステップで適応させたリジェクト閾値「０．３」とを比較した結果、本ステップではこの発声をリジェクトせず、次のシステム状態を決定し、画面遷移と応答文の出力を行う。具体的には、システムからは応答音声・画面出力部１１０によって、図１２に示されるような画面と「どの番組ですか？」という応答音声が出力される（図８のステップ＝５）。ユーザはこの画面の中では見たい番組を見つけ、「ｉしたい」と番組を選択する発声を行う（図８のステップ＝６）。図１３は、以上の一連の動作をまとめた図であり、上から順に図８のステップ＝１からステップ＝６に対応する。

次に、言い換えを利用したリジェクト閾値の変更動作例について、対話履歴データの具体例を用いて説明する。図１４は、動作例で対象とする対話履歴データの具体例を示す図である。なお、対話履歴データの項目は図８と同じであるので、説明は省略する。更に、上記言い直しによるリジェクト閾値の変更動作例との発声の違いはステップ３〜ステップ５のみであるので、図１４のステップ３からステップ５の動作例についてのみ説明する。

システムから応答音声・画面出力部１１０によって図１０のような画面と「どの番組ですか？」という応答が出力される。ユーザはそのリストには見たい番組が無いため「次の画面」と発声するが、この発声に対する認識結果では、認識信頼度（０．３３）はリジェクト閾値（０．３５）より低いためリジェクトであると判定される（図１４のステップ＝３）。リジェクトと判定された場合、対話制御部１０５は再度そのシステム状態で（今の場合対話＝状態３）再度入力を促す。

再度同じシステム状態で、システムより入力を促されたユーザは「次の画面」と同じシステム動作を行うコマンドである「５番」と発声する。この音声認識の結果における認識信頼度（０．３８）はリジェクト閾値（０．３５）より高いので、対話制御部１０５はその結果を受け付ける（図１４のステップ＝４）。ここで、このステップでは停滞脱出判定部１０４が「前回の発声はリジェクト」かつ「今回の発声は言い換え」であるので「言い換えによる停滞脱出」と判定し、項目１４０８にその情報が記憶される。さらに、このステップでは、対話制御部１０５は検出した誤動作と正しい動作を用いて、誤動作したはじめの発声を次からは受け付けるよう個人適応を行う。即ち、音声認識パラメータ、今回の例ではリジェクト閾値を変更し、次のステップからこの値を利用して音声認識を行う。具体的には現在のリジェクト閾値「０．３５」を前回の誤ってリジェクトされた発声における信頼度でも正しく認識できるように「０．３」に変更する。以降の動作は上記言い直しによるリジェクト閾値の変更動作例と同じであるので省略する。

なお、上記具体例の中では「言い直しまたは言い換えによる停滞脱出」を１回検出した段階でリジェクト閾値を変更したが、音声認識パラメータの変更を行う基準としての停滞脱出検出の回数は可変に設定できるようにしてもよい。例えば３回に設定すると、「言い直しまたは言い換えによる停滞脱出」が３回検出されたらリジェクト閾値の変更を行うことになる。この場合、例えば３回分の認識結果における認識信頼度を用いてリジェクト閾値を変更してもよい。より具体的には、３回分の認識結果における信頼度の最低値や平均値、重み付け平均値により決定する。

また、上記具体例ではリジェクト閾値を１つしか持たない例について述べたが、単語ごとにリジェクト閾値を持ち、「言い直しまたは言い換えによる停滞脱出」を単語ごとに検出し、閾値を変更してもよい。具体的には、例えば図１５のようなデータを音声認識パラメータ記憶部１０３に保存する。ここで、項目１５０１は停滞脱出をしたことによりリジェクト閾値が変更された単語であり、項目１５０２はその単語のリジェクト閾値である。なお、このリストに無い単語はデフォルト値、例えば上記具体例では「０．３５」を利用する。

図１６は本実施の形態を利用した場合と利用しない場合の対話シーケンスの例を示す図である。この図１６に示す例では、本実施の形態を利用した場合の方がユーザの発声が１回少なくて済む。この例では、ユーザは２ページ目で番組の選択を決定しているが、より多くのページを見ていく場合のように多くのステップを有する対話では本実施の形態の有効性は顕著に現れることになることは容易に理解できる。また、一度検索が終わり、再び同じ番組をはじめから選択する場合も本実施の形態を用いれば前回リジェクトされた発声方法でも初めから認識されることになる。

このように本実施の形態によると、一連の対話シーケンスの中で、誤動作と正しい動作を検出することで音声認識パラメータを適切に変更することが可能となる。この結果、次に前回誤動作をした発声を行ってもシステムは正しい動作が可能となるため、何度も繰り返し言い直しをする必要が無く、スムーズでユーザに負担の掛からない対話が実現できる。また、本実施の形態による音声認識パラメータの変更は、変更のために特別な発声を促すわけでは無いので、ユーザの負担も少ない。

なお、本実施の形態は、図１７に示すように上記構成に加えてＥＰＧ（Electronic Program Guide）を受信するＥＰＧ受信部２０１を備え、ＥＰＧを対象として音声認識を行って情報を検索する音声対話型情報検索システムにおいても適用することが可能である。この場合、ＥＰＧ受信部２０１で受信されたＥＰＧは、データベース記憶部１０９に記憶される。対話制御部１０５は、データベース記憶部１０９に記憶されているＥＰＧを用いて音声認識辞書１０２を作成する。そして、音声認識部１０１は、ＥＰＧを用いて作成された音声認識辞書１０２を用いて、ユーザより入力された音声の音声認識を行う。また、データベース検索部１０８は、データベース記憶部１０９に記憶されているＥＰＧ等を対象として検索を行うことになる。

（実施の形態２）
上記実施の形態１によれば、誤動作と正しい動作を検出することで音声認識パラメータの個人適応が可能となり、ユーザに負担の少ない個人適応が実現できるが、同様の適応を音声認識辞書の追加という形でも行える。本実施の形態では、誤動作と正しい動作の検出しを行い、音声認識辞書の変更または新たに登録を行う方法について述べる。

本実施の形態は、上記実施の形態１とは図１における対話制御部１０５における停滞脱出判定結果に基づいて個人適応する対象が異なるものであり、他は実施の形態１と同様である。従って、基本的には図１から図１２を参照することとする。以下、本実施の形態における対話制御部１０５の動作と、前実施の形態では述べていない音声認識辞書の変更処理ついて説明する。

本実施の形態における辞書変更・登録による個人適応の動作例について、対話履歴記憶部１０６に記憶されている対話履歴データの具体例を用いて説明する。

図１８は、対話履歴記憶部１０６に記憶されている対話履歴データの具体例を示す図である。図１８に示される対話履歴データの例は実施の形態１での対話シーケンスにおける対話履歴データの例（図８）と同様の履歴であり、図８には示されていなかった項目「認識結果２」が示されている点、および図８に示されていた項目「応答出力開始時刻」が省略されている点を除いては図８と同じものである。なお、既に述べたが認識結果２は音声認識辞書を使わず、音響的に近いかな文字列を音声認識結果として出力されたものであり、認識結果の一例を示した図４における音声認識結果２と同一のものである。

以下、図１８の項目「ステップ」を用い、順に具体的動作を説明する。
ステップ３では、ユーザの発声「次の画面」に対し、音声認識部１０１は認識結果２「スイノダメン」、認識信頼度「０．３３」、リジェクト閾値「０．３５」を出力する。対話制御部１０５は、認識信頼度がリジェクト閾値より低いため、リジェクトと判定し、再度そのシステム状態での再度入力を促す。ステップ４では、ユーザの再発声「次の画面」に対し、音声認識部１０１は認識結果２「ツリノガメン」、認識信頼度「０．３８」、リジェクト閾値「０．３５」を出力し、停滞脱出判定部１０４は「言い直しによる停滞脱出」との判定を出力する。対話制御部１０５は、これらの結果を受けて、誤動作したステップ３における発声が次回からは正しく認識されるように、個人適応を行う。即ち、ステップ３でリジェクトされた発声に対する音声認識結果２の「スリノダメン」をステップ４で正しく認識されたコマンド「次の画面」に対応させて音声認識辞書１０２に新規に登録を行う。

図１９は音声認識辞書の具体例を示す図である。項目１８０１は単語ごとにユニークに付与される単語番号、項目１８０２はシステム仕様で同じ意味として扱われる番号を同一番号として付与された意味番号、項目１８０３は単語の表記、項目１８０４は単語の読みである。ここで、上記例においては、図１９の単語番号１３０が新規登録されたことになる。

ステップ５では、ユーザが「次の画面」と発声する。音声認識部１０１からはステップ３の時と同様に音声認識結果２として「スイノダメン」という結果が出力されるが、このときの音声認識時には音声認識辞書１０２に「スイノダメン」が「次の画面」と対応された状態で登録されているため、高い確信度（今の場合０．４５）が結果として出力される。このように、ステップ５における発声は個人適応されたことに伴い、ステップ３と同様の発声であるにもかかわらず正しく認識が行われる。

なお、上記具体例の中では言い直しの「言い直しによる停滞脱出」を１回検出した段階で認識辞書の変更を行ったが、認識辞書変更を行う基準としての停滞脱出検出の回数は可変に設定できるようにしてもよい。例えば３回に設定すると、「言い直しによる停滞脱出」が３回検出されたら認識辞書の変更を行うことになる。ここで、３回分の認識結果における認識結果を全て登録しても良いが、組み合わせて作成した文字列を登録してもよい。具体的には「ツギノガメン」に対して「スイノダメン」「ツイノダメン」「スギノダメン」に対して、全てが共通している「ダ」の部分だけを変更した「ツギノダメン」を登録してもよい。さらに、変更されたかな文字を記憶し、このユーザは「ガ」を「ダ」とよく間違えると判定した場合、他の単語についても「ガ」を「ダ」に変更してもよい。具体的には「前の画面」に対し「マエノダメン」という読みを付与し、音声認識辞書に追加登録しても良い。

また、本実施の形態では言い直しの停滞の判定により音声認識辞書の追加・変更の例についてのみ述べたが、実施の形態１と同様にすれば言い換えの場合も音声認識辞書の追加・変更を行うことができる。

このように本実施の形態によると、一連の対話シーケンスの中で、誤動作と正しい動作を検出することで音声認識パラメータだけでなく、音声認識辞書についても適切に変更することが可能となる。この結果、次に前回誤動作をした発声を行ってもシステムは正しい動作が可能となるため、何度も繰り返し言い直しをする必要が無く、スムーズでユーザに負担の掛からない対話が実現できる。また、本実施の形態による音声認識辞書の変更は、認識率を上げるために特別な発声を促すわけでは無く自然な対話から認識率を上げるため、ユーザの負担も少ない。

なお、本実施の形態における音声認識辞書への追加・変更と上記実施の形態１における音声認識パラメータの変更とを組み合わせて実施することも可能である。

（実施の形態３）
上記実施の形態１および実施の形態２によれば、一連の対話シーケンスの中で、誤動作と正しい動作を検出することで音声認識パラメータおよび認識辞書をユーザに適したものに変更しているが、上記実施の形態１および実施の形態２においては、「言い換え」を前回リジェクトされた単語が、今回正しく認識された単語と同一のシステム動作を行う単語であるかをシステム仕様記憶部にある図７のようなデータを用い判定している。しかし、「言い換え」には様々な形があり、事前にシステム仕様に登録できない場合がある。特にＥＰＧを用いた番組検索システムにおいては、日々更新される番組名を認識対象とする必要があり、予め言い換えについてシステム開発者が登録しておくことができない。本実施の形態は、このような場合に対処するものである。

図２０は、本発明の実施の形態３に係る音声認識装置を備えた音声対話型情報検索システムの構成を示すブロック図である。

本実施の形態３と上記実施の形態１および実施の形態２との相違点は、省略語作成部３０１とユーザ発声記憶部３０４が追加されたことによる停滞脱出判定部３０２の動作が異なる点であり、他の動作は上記実施の形態１および実施の形態２と同一である。従って、本実施の形態においては、動作が異なる停滞脱出判定部３０２の言い換え判定の動作についてのみ説明する。

停滞脱出判定部３０２は、上記実施の形態１および実施の形態２と同様に図６のフローチャートに従って、言い直しおよび言い換えによる停滞脱出の判定を行うが、図６のステップＳ６０５における処理、即ち今回の発声が言い換えか否かの判定を行う処理が異なる。図２１は本実施の形態における言い換え判定動作の流れを示すフローチャートである。

まず、今回の発声が前回の発声と同一のシステム動作を行う認識単語であるか否かを判定する（ステップＳ２００１）。この判定の結果、前回の発声と同一のシステム動作を行う認識単語である場合（ステップＳ２００１でＹＥＳ）、これまでの実施の形態同様の動作であり、言い換えによる停滞脱出と判定する（図６のステップＳ６０５でＹＥＳの判定）。一方、前回の発声と同一のシステム動作を行う認識単語でない場合（ステップＳ２００１でＮＯ）、今回の認識対象語彙から省略語が作成される（ステップＳ２００２）。省略語の作成は、今回の認識対象語彙を用いて省略語作成部３０１において行われる。

省略語作成部３０１は、今回の認識対象語彙を受け取り、予め定義されているルールに基づいて省略語を作成する。省略語作成方法としては、形態素解析ツールなどを用いて今回の認識対象語彙を形態素に分解し、その分解結果を基に作成する。例えば、一つの形態素を省略語としても良いし、複数の形態素をつなげて省略語としても良い。より具体的には例えば、「発掘あるある広辞苑」という単語に対して「発掘」「あるある」「広辞苑」「あるある広辞苑」といった省略語を作成したり、「冬のレクイエム」という単語に対して「冬レク」といった省略語を作成したりする。省略語作成部３０１で作成された省略語は、停滞脱出判定部３０２を介して対話制御部３０３に保持される。

次に、音声認識部１０１は、対話制御部３０３に保持されている省略語作成部３０１で作成された省略語を用いて、ユーザ発声記憶部３０４に記憶されている前回リジェクトされた発声について、再度認識を行う（ステップＳ２００３）。

そして、停滞脱出判定部３０２は、再認識結果の信頼度とリジェクト閾値とを比較する（ステップＳ２００４）。ここで、再認識結果の信頼度がリジェクト閾値より高い場合（ステップＳ２００４でＹＥＳ）、対話制御部３０３は、認識候補１位の省略語を今回認識された単語と同じ動作を行う単語としてシステム仕様記憶部１０７および音声認識辞書１０２に登録（ステップＳ２００５）し、言い換えによる停滞脱出と判定する（図６のステップＳ６０５でＹＥＳの判定）。一方、再認識結果の信頼度がリジェクト閾値より低い場合（ステップＳ２００４でＮＯ）、停滞脱出判定部３０２は言い換えによる停滞脱出では無いと判定する（図６のステップＳ６０５でＮＯの判定）。

以上の動作より、システム仕様で音声認識辞書１０２に登録されていない省略語をユーザが発声してリジェクトされても、次の発声で正しい表現での発声を行い認識されれば、前回発声した省略語は新たに登録されるため、次回から認識が可能となる。これにより、省略語を発声してしまうユーザに対して何度もリジェクトすることが無く、スムーズでユーザに負担の掛からない対話が実現できる。さらに、本実施の形態による省略語の作成には特別な発声を促すわけでは無いので、ユーザの負担も少ない。

（実施の形態４）
上記実施の形態１から実施の形態３によれば、一連の対話シーケンスの中で、誤動作と正しい動作を検出することで音声認識パラメータの変更および認識辞書の変更を行い、個人適応を可能としたが、複数のユーザが利用することを想定していないため、複数のユーザが利用した場合、正しく個人適応できない。本実施の形態は、このような場合に対処するものである。

図２２は、本発明の実施の形態４に係る音声認識装置を備えた音声対話型情報検索システムの構成を示すブロック図である。

本実施の形態と上記実施の形態３との相違点は、ユーザ入力部４０１およびユーザ情報記憶部４０２が追加されたことによる対話制御部４０３における個人適応処理が異なる点であり、他は実施の形態１から実施の形態３までと同一である。従って、本実施の形態においては、複数ユーザが利用する際の対話制御部４０３の動作について説明する。

対話制御部４０３は、ユーザ入力部４０１からユーザ名が入力されると、ユーザ情報記憶部４０２より、入力されたユーザ名に適応された音声認識パラメータや認識対象辞書が登録されていているか否かの確認を行う。もし、入力されたユーザ名に適応された音声認識パラメータや認識対象語彙が無い場合、音声認識パラメータや音声認識辞書は初期値を利用してシステムを動作させる。もし、ユーザ適応されていないユーザが、システムを利用中に停滞脱出判定部３０２により誤動作と正しい動作のシーケンスが検出され、実施の形態１から実施の形態３で説明したような音声認識パラメータや音声認識対象語彙の変更が必要となると、対話制御部４０３はユーザ情報記憶部４０２に新規ユーザのユーザ名と音声認識パラメータや辞書を変更した単語についての各種情報を記憶する。

一方、ユーザ入力部４０１より入力されたユーザ名に適応された音声認識パラメータや認識対象辞書がユーザ情報記憶部４０２に登録されている場合、対話制御部４０３はユーザ情報記憶部４０２から以前登録されたユーザ名の個人適応後の音声認識パラメータや新規認識辞書登録単語を抽出し、音声認識パラメータ記憶部１０３や音声認識辞書１０２にその情報を登録する。

図２３はユーザ情報記憶部４０２に記憶される各種情報の具体例を示す図である。なお、図２３の例では単語ごとにリジェクト閾値を持つ場合の具体例を示す。項目２２０１はユーザ名であり、項目２２０２は停滞単語、すなわち音声認識パラメータや辞書を変更した単語であり、項目２２０３は停滞脱出回数、すなわち何度停滞脱出が検出されたかを示し、項目２２０４は変更した音声認識パラメータであるリジェクト閾値、項目２２０５は音声認識辞書に追加した新規登録読みである。

図２３に示されるデータがユーザ情報記憶部４０２に記憶されている場合、ユーザ入力部４０１からユーザ名Ａが入力されると、対話制御部４０３はユーザ名Ａの個人適応情報として「次の画面」の単語に対し、リジェクト閾値「３．４」を、新規読み登録として「ツリノダメン」を、「前の画面」に対しリジェクト閾値「３．５」を、新規読み登録として「マエノダメン」をそれぞれ音声認識パラメータ記憶部１０３および音声認識辞書１０２に登録する。

以上の動作より、一連の対話シーケンスの中で、誤動作と正しい動作を検出することで音声認識パラメータおよび音声認識辞書の個人適応が可能となるだけではなく、複数のユーザがシステムを利用した際にも正しく個人適応が可能となり、ユーザに負担の少ない個人適応と円滑な対話が実現できる。

なお、本実施の形態ではユーザ入力部の入力を基にユーザの判別を行い、複数のユーザに対応した個人適応を行ったが、話者識別や話者判別の技術は現在一般的に存在するので、それらの技術を用いてユーザの判別を行ってもよい。

（実施の形態５）
上記実施の形態１から実施の形態４ではシステムの停滞状態として、誤ったリジェクトによる停滞状態を対象としたが、誤認識により誤ったシステム状態へ遷移した場合に発生する停滞状態について述べていない。そこで、本実施の形態は、このような停滞状態に対処するものである。

誤認識により誤ったシステム状態へ遷移した場合に発生するシステムの停滞状態の具体例としては、「時間検索」とユーザが発声したのに対し、システムがこれを「ジャンル検索」と認識し、ユーザが思っていたシステム状態と別のシステム状態へ遷移するような場合がある。このとき、ユーザはこの誤認識によるシステムの誤った状態遷移を基に戻すために「戻る」といった元の状態に戻るためのコマンドを発声する。システムの状態が戻るとユーザは再度「時間検索」を発声する。この一連の動作は２つのシステム状態の往復が繰り返し続く状態であり、一つの停滞状態といえる。

本実施の形態では、上記実施の形態４と比べシステム構成としての変更はなく、異なるのは停滞脱出判定部３０２における停滞判定の動作処理（図６のフローチャート）であり、他は実施の形態４と同様である。

本実施の形態における停滞脱出判定部３０２の動作処理について説明する。図２４は本実施の形態における停滞脱出判定部３０２の動作の流れを示すフローチャートである。なお、下記の説明における過去の認識結果は対話履歴記憶部１０６に記憶されているデータを参照して利用し、言い直しや言い換えの判定は上記実施の形態１から実施の形態４に述べた方法と同じ方法で行う。

まず、停滞脱出判定部３０２は、今回の音声認識結果を取得する（ステップＳ２３０１）。次に、この音声認識結果がリジェクトか否かの判定を行う（ステップＳ２３０２）。この判定の結果、リジェクトと判定した場合（ステップＳ２３０２でＹＥＳ）、停滞脱出ではないと判定し、処理を終了する。一方、リジェクトではないと判定した場合（ステップＳ２３０２でＮＯ）、前回の発声が状態を戻す発声（上記例では「戻る」）であったか否かを判定する（ステップＳ２３０３）。この判定の結果、前回の発声が状態を戻す発声でない場合（ステップＳ２３０３でＮＯ）、停滞脱出では無いと判定し、処理を終了する。一方、前回の発声が状態を戻す発声である場合（ステップＳ２３０３でＹＥＳ）、今回の発声が前々回の発声の言い直しか否かの判定を行う（ステップＳ２３０４）。この判定の結果、言い直しである場合（ステップＳ２３０４でＹＥＳ）、いい直しによる停滞脱出と判定し、処理を終了する。一方、言い直しでない場合（ステップＳ２３０４でＮＯ）、今回の発声が前々回の発声の言い換えか否かの判定を行う（ステップＳ２３０５）。この判定の結果、言い換えである場合（ステップＳ２３０５でＹＥＳ）、言い換えによる停滞脱出と判定し、処理を終了する。一方、言い換えでない場合（ステップＳ２３０５でＮＯ）、停滞脱出ではないと判定し、処理を終了する。なお、このようにして検出された言い直しや言い換えによる停滞脱出は、上記実施の形態１から実施の形態４で述べた、誤ったリジェクトによる停滞からの脱出と区別して対話履歴保存部１０６に保存する。

このようにして誤認識による停滞脱出の判定を行い、音声認識用パラメータや認識時書の変更を行う。具体的には例えば、上記実施の形態２で述べたような認識辞書の変更を行う。より具体的には、前々回の誤認識された発声に対しての音声認識結果のうち、音声認識辞書を使わず、音響的に近いかな文字列を音声認識結果として出力された結果（例えば図４の認識結果２）を、今回得られた正しく認識された結果の単語に対応付けて音声認識辞書に追加する。

以上の動作より、誤ったリジェクトによるシステム状態の停滞のみでなく、誤認識によるシステム状態の停滞を利用した個人適応を行うので、次に前回誤動作をした発声を行っても誤認識による停滞が発生しなくなるため、スムーズでユーザに負担の掛からない対話が実現できる。また、本実施の形態による音声認識パラメータや音声認識辞書の変更は、専用の特別な発声を促すわけでは無く自然な対話から認識率を上げるため、ユーザの負担も少ない。

なお、上記各実施の形態において、音声認識部は音声認識手段に、停滞脱出判定部は停滞脱出判定手段に、対話制御部は対話制御手段および変更制御手段に、省略語作成部は省略語作成手段に対応する。

本発明に係る音声認識装置および音声認識方法は、音声対話型インタフェースを持つ多くのシステムに対して利用可能であり、例えば家庭内の情報検索システムやカーナビゲーションシステム、携帯端末からの情報検索などにおいて有用であり、その利用可能性は非常に大きい。

本発明の実施の形態１に係る音声認識装置を備えた音声対話型情報検索システムの構成を示すブロック図である。本発明における対話全体の処理の流れを示すフローチャートである。本発明における音声対話型情報検索システムの出力画面例を示す図である。本発明の実施の形態１における音声認識部から出力されて格納される認識結果例を示す図である。本発明の実施の形態１における音声認識部から出力されて格納される認識結果例を示す図である。本発明の実施の形態１における停滞脱出判定部における処理の流れを示すフローチャートである。本発明の実施の形態１におけるシステム仕様記憶部におけるシステム動作仕様例を示す図である。本発明の実施の形態１における対話履歴記憶部に記憶される対話履歴データ例を示す図である。本発明における音声対話型情報検索システムの出力画面例を示す図である。本発明における音声対話型情報検索システムの出力画面例を示す図である。本発明における音声対話型情報検索システムの出力画面例を示す図である。本発明における音声対話型情報検索システムの出力画面例を示す図である。本発明の実施の形態１の対話例におけるシステム動作概略を示す図である。本発明の実施の形態１における対話履歴記憶部に記憶される対話履歴データ例を示す図である。本発明の実施の形態１における単語ごとにリジェクト閾値を設定しているデータ例を示す図である。本発明の実施の形態１における対話シーケンスにおいて、本技術を利用した場合としない場合の比較を示す図である。本発明の実施の形態１に係る音声対話型情報検索システムの他の構成を示すブロック図である。本発明の実施の形態２における対話履歴記憶部に記憶される対話履歴データ例を示す図である。本発明の実施の形態２における音声認識辞書に記憶される認識対象語彙の例を示す図である。本発明の実施の形態３に係る音声認識装置を備えた音声対話型情報検索システムの構成を示すブロック図である。本発明の実施３の形態による言い換え判定動作の処理の流れを示すフローチャートである。本発明の実施４に係る音声認識装置を備えた音声対話型情報検索システムの構成を示すブロック図である。本発明の実施４の形態おけるユーザ情報記憶部に記憶されるユーザ情報データ例を示す図である。本発明の実施５の形態おける停滞脱出判定部における処理を示すフローチャートである。

符号の説明

１０１音声認識部
１０２音声認識辞書部
１０３音声認識パラメータ記憶部
１０４、３０２停滞脱出判定部
１０５、３０３、４０３対話制御部
１０６対話履歴記憶部
１０７システム仕様記憶部
１０８データベース検索部
１０９データベース記憶部
１１０応答音声・画面出力部
１１１タイマー
２０１ＥＰＧ受信部
３０１省略語作成部
３０４ユーザ発声記憶部
４０１ユーザ入力部
４０２ユーザ情報記憶部

Claims

入力された音声を認識し、認識結果により対話を行う音声認識装置であって、
入力された音声を音声認識辞書を用いて認識して認識結果を出力する音声認識手段と、
前記音声認識手段の認識結果によりシステム状態を遷移させて応答を行う対話制御手段と、
今回の認識結果で前記システム状態が先に進まず停滞している状態である停滞状態から脱出したか否かを判定するとともに、前記停滞状態から脱出したと判定した場合、今回の認識結果が言い直しおよび言い換えの少なくとも１つであるか否かを判定する停滞脱出判定手段と、
前記言い直しまたは言い換えであると判定された場合、対話制御に関する設定および音声認識に関する設定の少なくとも１つを変更する変更制御手段と
を備えることを特徴とする音声認識装置。
前記システム状態の停滞状態は、前記音声認識結果のリジェクトによる同一システム状態が続く状態であり、
前記停滞脱出判定手段は、今回の認識結果が前回の認識結果と同一単語である場合、言い直しであると判定し、今回の認識結果が前回の認識結果と同一単語では無いが、あらかじめ定められた同じシステム動作を実行する認識単語である場合、言い換えであると判定する
ことを特徴とする請求項１記載の音声認識装置。
前記システム状態の停滞状態は、２つのシステム状態の往復が繰り返し続く状態であり、
前記停滞脱出判定手段は、今回の認識結果が前々回の認識結果と同一単語である場合、言い直しであると判定し、今回の認識結果が前々回の認識結果と同一単語では無いが、あらかじめ定められた同じシステム動作を実行する認識単語である場合、言い換えであると判定する
ことを特徴とする請求項１記載の音声認識装置。
前記変更制御手段は、前記対話制御に関する設定の変更としてリジェクトの閾値の変更を行い、前記音声認識に関する設定の変更として前記音声認識辞書への新規追加または変更を行う
ことを特徴とする請求項１記載の音声認識装置。
前記変更制御手段は、前記リジェクトの閾値を認識対象単語ごとに設定し変更する
ことを特徴とする請求項４記載の音声認識装置。
前記変更制御手段は、前記リジェクトの閾値、および、前記音声認識辞書への新規追加または変更を、ユーザごとに設定する
ことを特徴とする請求項４記載の音声認識装置。
前記音声認識装置は、さらに、
前記停滞状態から脱出した際に、今回の認識結果が前回の認識結果と同一単語では無く、かつあらかじめ定められた同じシステム動作を実行する認識単語でない場合、今回の認識対象語彙の省略語を作成する省略語作成手段を備え、
前記音声認識手段は、前記省略語を用いて前回の認識結果を再認識し、
前記変更制御手段は、前記音声認識手段の再認識結果に応じて前記省略語を前記音声認識辞書へ新規追加する
ことを特徴とする請求項１記載の音声認識装置。
入力された電子番組表に関する音声を認識し、認識結果により対話を行う電子番組表用音声認識装置であって、
入力された電子番組表に関する音声を電子番組表に対応する音声認識辞書を用いて認識して認識結果を出力する音声認識手段と、
前記音声認識手段の認識結果によりシステム状態を遷移させて応答を行う対話制御手段と、
今回の認識結果で前記システム状態が先に進まず停滞している状態である停滞状態から脱出したか否かを判定するとともに、前記停滞状態から脱出したと判定した場合、今回の認識結果が言い直しおよび言い換えの少なくとも１つであるか否かを判定する停滞脱出判定手段と、
前記言い直しまたは言い換えであると判定された場合、対話制御に関する設定および音声認識に関する設定の少なくとも１つを変更する変更制御手段と
を備えることを特徴とする電子番組表用音声認識装置。
入力された音声を認識し、認識結果により対話を行う音声認識方法であって、
入力された音声を音声認識辞書を用いて認識して認識結果を出力する音声認識ステップと、
前記音声認識ステップにおける認識結果によりシステム状態を遷移させて応答を行う対話制御ステップと、
今回の認識結果で前記システム状態が先に進まず停滞している状態である停滞状態から脱出したか否かを判定するとともに、前記停滞状態から脱出したと判定した場合、今回の認識結果が言い直しおよび言い換えの少なくとも１つであるか否かを判定する停滞脱出判定ステップと、
前記言い直しまたは言い換えであると判定された場合、対話制御に関する設定および音声認識に関する設定の少なくとも１つを変更する変更制御ステップと
を含むことを特徴とする音声認識方法。
入力された音声を認識し、認識結果により対話を行うためのプログラムであって、
入力された音声を音声認識辞書を用いて認識して認識結果を出力する音声認識ステップと、
前記音声認識ステップにおける認識結果によりシステム状態を遷移させて応答を行う対話制御ステップと、
今回の認識結果で前記システム状態が先に進まず停滞している状態である停滞状態から脱出したか否かを判定するとともに、前記停滞状態から脱出したと判定した場合、今回の認識結果が言い直しおよび言い換えの少なくとも１つであるか否かを判定する停滞脱出判定ステップと、
前記言い直しまたは言い換えであると判定された場合、対話制御に関する設定および音声認識に関する設定の少なくとも１つを変更する変更制御ステップとをコンピュータに実行させる
ことを特徴とするプログラム。