JP2006337942A

JP2006337942A - 音声対話装置及び割り込み発話制御方法

Info

Publication number: JP2006337942A
Application number: JP2005165837A
Authority: JP
Inventors: Takeshi Ono; 健大野
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2005-06-06
Filing date: 2005-06-06
Publication date: 2006-12-14

Abstract

【課題】バージイン機能を有効とする期間を最適化する。
【解決手段】信号処理装置１４は、システム応答に対する割り込みタイミングを予測し、予測される割り込みタイミング以降、バージイン機能を有効にし、システム応答が出力されている最中に、訂正発話として割り込むように入力される発話音声に対する音声認識処理を実行することで実現する。
【選択図】図１

Description

本発明は、発話された音声に応じて対話をする音声対話装置に関し、詳しくは、バージイン機能を有する音声対話装置及び割り込み発話制御方法に関する。

ユーザによる発話に応じて、音声対話をする音声対話装置が考案されている。このような音声対話装置には、当該音声対話装置によるシステム応答に対するユーザによる割り込み発話を認識するバージイン機能を有するものがある。

例えば、バージイン機能を有する音声対話装置として、ユーザの音声対話装置に対する習熟度を検出し、検出された習熟度に応じてバージイン機能を有効にするタイミングを制御することで、誤認識を低減した音声対話を実現する技術が開示されている（例えば、特許文献１。）。
特開平２００１−３３１１９６号公報

このようなバージイン機能は、ユーザによる割り込み発話に対応することができるものの、バージイン機能を有効としている間、システムの演算能力資源が消費されてしまうため、限られた演算能力資源を有効活用するために、バージイン機能を有効とするタイミングを適切に制御する必要がある。

また、バージイン機能を有効としている間は、ノイズを検出してしまう可能性が高くなり、誤認識を引き起こす原因となるため、同様にバージイン機能を有効とするタイミングを適切に制御する必要がある。

しかしながら、特許文献１で開示されている技術では、システム応答に割り込んで発話をしたいというユーザの要求がない場合でも、バージイン機能を有効としてしまうため、限られたシステム演算能力資源を必要以上に消費してしまったり、さらには、ノイズなどの検出による誤認識の発生を引き起こしてしまう可能性がある。

そこで、本発明は、上述した実情に鑑みて提案されたものであり、割り込み発話を認識するバージイン機能を有効とする期間を最適化することができる音声対話装置及び割り込み発話制御方法を提供することを目的とする。

本発明の音声対話装置は、発話音声を入力する入力手段と、前記入力手段によって入力された発話音声を認識する音声認識手段と、前記音声認識手段による音声認識結果に応じたシステム応答を生成するシステム応答生成手段と、前記システム応答生成手段によって生成された前記システム応答を出力する出力手段と、前記出力手段から前記システム応答が出力されている最中に、前記入力手段から訂正発話として割り込むように入力される発話音声に対する音声認識処理を実行させるよう前記音声認識手段を制御する割り込み制御手段と、前記入力手段から訂正発話として割り込むように入力される発話音声の割り込みタイミングを予測する割り込みタイミング予測手段と、前記割り込みタイミング予測手段によって予測される割り込みタイミング以降、前記割り込み制御手段が有効となるよう制御する制御手段とを備えることにより、上述の課題を解決する。

また、本発明の割り込み発話制御方法は、入力された発話音声を認識する音声認識工程と、前記音声認識工程による音声認識結果に応じたシステム応答を生成するシステム応答生成工程と、前記システム応答生成工程によって生成された前記システム応答が出力されている最中に、訂正発話として割り込むように入力される発話音声に対する音声認識処理を実行させるよう前記音声認識工程を制御する割り込み制御工程と、訂正発話として割り込むように入力される発話音声の割り込みタイミングを予測する割り込みタイミング予測工程と、前記割り込みタイミング予測工程によって予測される割り込みタイミング以降、前記割り込み制御工程が有効となるよう制御する制御工程とを備えることにより、上述の課題を解決する。

本発明の音声対話装置は、割り込みタイミング予測手段によって予測される割り込みタイミング以降、割り込み制御手段を有効にして、入力手段から訂正発話として割り込むように入力される発話音声に対する音声認識処理を実行させる。

これにより、システム応答に割り込んで発話する場合のみ割り込み制御手段が、限定的に有効とされるため、割り込み発話を認識する期間を最適化できる。

したがって、音声対話装置の限られたシステム演算能力資源を必要以上に消費してしまうことを抑制することを可能とし、ノイズなどの不必要な音声要素の検出を極力排除でき、誤認識の発生を低減させることを可能とする。

また、本発明の割り込み発話制御方法は、予測される割り込みタイミング以降、割り込み制御を有効にして、訂正発話として割り込むように入力される発話音声に対する音声認識処理を実行させる。

これにより、システム応答に割り込んで発話する場合のみ割り込み制御が、限定的に有効とされるため、割り込み発話を認識する期間を最適化できる。

以下、本発明の実施の形態について図面を参照して説明する。

［第１の実施形態］
まず、図１を用いて、本発明の第１の実施の形態として示す音声対話装置の構成について説明をする。図１に、本発明の第１の実施の形態として示す音声対話装置は、車両や、携帯端末装置などに搭載されるナビゲーション装置に適用した場合の構成である。

この音声対話装置をナビゲーション装置に適用すると、ナビゲーション装置で要求される各種機能を、ユーザとシステムとのインタラクティブな対話によって動作させることができる。

なお、本発明は、これに限定されるものではなく、各種情報処理装置に搭載されて、各種機能をインタラクティブに段階的に動作させることができる、どのようなアプリケーションにも適用することができる。

図１に示すように、音声対話装置は、信号処理ユニット１と、マイク２と、スピーカ３と、入力装置４と、ディスプレイ５とを備えている。なお、本発明に関わる主要構成要素ではないことから、図示しないが、携帯端末装置のナビゲーション装置であれば、他に送受信手段を備え、また車両に搭載されたナビゲーション装置であれば、送受信手段または通信接続手段等を備えた構成であってもよい。

信号処理ユニット１は、マイク２から入力されるユーザによって発話された音声をデジタル音声信号に変換して出力するＡ／Ｄコンバータ１１と、システム応答として信号処理装置１４から出力されるデジタル音声信号をアナログ音声信号に変換して出力するＤ／Ａコンバータ１２と、Ｄ／Ａコンバータ１２から出力されるアナログ音声信号を増幅する出力アンプ１３と、信号処理装置１４と、外部記憶装置１５とを備えている。

信号処理装置１４は、ＣＰＵ（Central Processing Unit）２１と、メモリ２２とを備えており、マイク２から、Ａ／Ｄコンバータ１１を介して入力されるユーザによって発話された音声の音声認識処理を実行し、音声認識処理結果を出力する。また、信号処理装置１４は、バージイン機能を備えており、当該信号処理装置１４によるシステム応答に割り込むように入力されたユーザの発話に対しても音声認識処理を実行することができる。

ＣＰＵ２１は、信号処理装置１４を統括的に制御する制御手段である。ＣＰＵ２１は、メモリ２２に記憶されている処理プログラムを読み出して実行し、音声認識処理を制御したり、バージイン機能の制御を行う。

通常、バージイン機能は、有効となっておらず機能していない。バージイン機能は、システム応答に対して、ユーザによる割り込み発話がなされると予測された場合にのみ有効となり、割り込み発話に対する音声認識処理が実行される。なお、バージイン機能を有効化させるタイミングについては、後で、詳細に説明をする。

メモリ２２は、ＣＰＵ２１で実行される処理プログラムや、使用頻度の高い各種データ等をあらかじめ記憶している。また、メモリ２２は、ＣＰＵ２１によって、音声認識処理が実行される場合には、外部記憶装置１５から読み出された認識対象語及びその音響モデルとが格納され認識対象語の辞書が構築される。

信号処理装置１４のＣＰＵ２１は、このメモリ２２に構築された辞書を参照して、ユーザによって発話された発話音声の音声特徴パターンと、認識対象語の音響モデルの音声パターンとの一致度を演算することで音声認識処理を行う。なお、バージイン機能を有効化させるタイミングについては、後で、詳細に説明をする。

外部記憶装置１５は、ナビゲーション装置で使用される各種データや、信号処理装置１４で実行される音声認識処理で使用される認識対象データや、システム応答用の音声データなどが記憶されている。外部記憶装置１５は、認識対象データとして、音声認識処理で音声認識の対象となる認識対象語や、認識対象語の音響モデル、さらに、認識対象語とその接続関係を規定したネットワーク文法などを記憶している。認識対象語の音響モデルは、音響的に意味を持つ部分単語モデルを定義したものである。

ネットワーク文法とは、認識対象語の接続関係を規定するためのルールであり、例えば、図２に示すような階層構造で表すことができる。図２に示す例では、認識対象語である“駅名”を下位の階層Ｂとし、この下位の階層Ｂに接続される上位の階層Ａとして“都道府県名”を規定している。

信号処理装置１４は、図２に示すように認識対象語に対して規定された階層構造をなすネットワーク文法を用いることで、ユーザによって、例えば、「神奈川県の鶴見駅」といったような発話がなされた場合でも、音声認識をすることができる。

また、“都道府県名”と、“駅名”とを、それぞれ個別に有するネットワーク文法を切り替えて用いれば、「神奈川県」で発話が一旦完了され、その後「鶴見駅」と発話された場合でも音声認識をすることができる。

マイク２は、ユーザの発話を、当該音声対話装置に入力する。マイク２から入力されたユーザの発話は、電気信号である音声信号に変換され、Ａ／Ｄコンバータ１１でデジタル音声信号に変換されて信号処理装置１４に供給される。

スピーカ３は、システムの発話として、信号処理装置１４から出力され、Ｄ／Ａコンバータ１２でアナログ音声信号に変換され、出力アンプ１３で信号増幅されたアナログ音声信号を音声として出力する。

入力装置４は、ユーザによって押下される発話スイッチ４ａ及び訂正スイッチ４ｂを備えている。発話スイッチ４ａは、音声認識の開始指示を行うためのスイッチである。一方、訂正スイッチ４ｂは、ユーザによって発話された音声が、システムにおいて誤認識された場合に、訂正を行うためのスイッチである。なお、この訂正スイッチ４ｂを一定期間押し続けると、音声認識処理を途中で終了させることができる。

ディスプレイ５は、例えばＬＣＤ（液晶表示装置）等で実現され、ナビゲーションの行き先や、探索条件設定時のガイダンス表示を行ったり、経路誘導等の画面を表示したり、信号処理装置１４による音声認識処理結果である応答画像を表示させたりする。

続いて、図３に示すフローチャートを用いて、音声対話装置の処理動作について説明をする。本フローチャートでは、ナビゲーション装置の所定の機能を動作させる場合に、ユーザが、要求される設定事項を音声対話装置を介して入力し、ナビゲーション装置を動作させるまでの一連の処理工程を示している。

まず、ステップＳ１において、信号処理装置１４は、ユーザによる発話スイッチ４ａの操作によって、発話開始が指示されたことに応じて、発話された音声に対する音声認識処理を開始する。

ステップＳ２において、信号処理装置１４は、音声認識処理が開始されたことに応じて初期応答を行う。

まず、信号処理装置１４は、認識対象データとして外部記憶装置１５に記憶されている音声認識処理で音声認識の対象となる認識対象語や、認識対象語の音響モデル、さらに、認識対象語とその接続関係を規定したネットワーク文法などを読み出し、メモリ２２に設定する。

そして、信号処理装置１４は、外部記憶装置１５に記憶された告知音声データを読み出して、Ｄ／Ａコンバータ１２、出力アンプ１３、スピーカ３を介して出力させることで、処理を開始した旨をユーザに告知する。

ユーザは、スピーカ３を介して出力される、信号処理装置１４による処理が開始された旨を知らせる告知音声を聞いたことに応じて、認識対象データに含まれる認識対象語の発話を開始する。

ユーザによって発話され、マイク２を介して入力された音声は、Ａ／Ｄコンバータ１１でデジタル音声信号に変化されて、信号処理装置１４に出力される。

ステップＳ３において、信号処理装置１４は、入力された音声の取り込みを開始する。

通常、信号処理装置１４は、発話スイッチ４ａの操作がなされるまでは、Ｄ／Ａコンバータ１２の出力（デジタル音声信号）の平均パワーを演算している。信号処理装置１４は、上述したステップＳ１において、発話スイッチ４ａの操作がなされると、演算された平均パワーと、入力されたデジタル音声信号の瞬間パワーとを比較する。

そして、信号処理装置１４は、入力されたデジタル音声信号が、演算された平均パワーよりも所定値以上大きくなった場合に、ユーザが発話をした音声区間であると判断して、音声の取り込みを開始する。

その後も、信号処理装置１４は、平均パワーの演算を継続して実行し、平均パワーが所定値よりも小さくなった場合に、ユーザの発話が終了したと判断をする。

ステップＳ４において、信号処理装置１４は、取り込まれた発話音声と、外部記憶装置１５からメモリ２２に読み込まれた認識対象語との一致度演算を開始する。一致度は、音声区間部分のデジタル音声信号と、個々の認識対象語がどの程度似ているのかをスコアとして示したものである。例えば、信号処理装置１４は、スコアの値が大きい認識対象語ほど一致度が高いとして評価する。

なお、信号処理装置１４は、この一致度演算を実行している間も、並列処理により音声取り込みを継続して実行する。

ステップＳ５において、デジタル音声信号の瞬間パワーが所定時間以上、所定値以下となったことに応じて、ユーザの発話が終了したと判断し、音声取り込みを終了する。

ステップＳ６において、信号処理装置１４は、一致度演算が終了したことに応じて、求められた一致度の最も大きい認識対象語を音声認識結果として決定する。

ステップＳ７において、信号処理装置１４は、ナビゲーション装置の所定の機能を動作させるために要求される情報がユーザとの対話によって全て入力された場合、音声対話が完了したと判断して、ステップＳ８へと進める。また、信号処理装置１４は、要求される全ての情報が、まだ入力されていない場合には、ステップＳ９へと進める。

例えば、ナビゲーション装置によって、ディスプレイ５に表示される地図を、北方向を上にして表示させるよう指示する「ノースアップ」といったコマンドが、ユーザによって発話された場合、このコマンドを一言だけ入力すればナビゲーション装置の機能を動作させることができるため、ステップＳ７からステップＳ８へと進むことになる。

一方、ナビゲーション装置に、経路探索をするための目的地を設定する場合など、複数の設定事項がナビゲーション装置から要求される際には、ステップＳ７からステップＳ９へと進み、全ての設定事項が入力されるまでこの処理ループを繰り返すことになる。

ステップＳ８において、信号処理装置１４は、音声対話が完了したことに応じて、音声対話により確定された事項に基づき、ナビゲーション装置の所定の機能を動作させるコマンドを発行して処理を終了する。

ステップＳ９において、信号処理装置１４は、システム応答を出力した場合に、ユーザによって割り込み発話されるかどうかを予測する。

具体的には、信号処理装置１４は、ステップＳ６の音声認識結果に応じて決定されるシステム応答のうち、どの箇所を出力している最中に、ユーザにより訂正スイッチ４ｂが押下され割り込み発話がなされるかを予測する。

例えば、ナビゲーション装置に経路探索するための目的地を設定する場合に、ステップＳ６における音声認識結果より、「行き先を神奈川県鶴間駅に設定します」というようなシステム応答がなされるとする。

「行き先」というのは、システム応答として定められた定型応答である。「神奈川県」というのは、ユーザの発話を、信号処理装置１４が音声認識処理した結果によって決まる可変応答である。したがって、信号処理装置１４は、このようなシステム応答においては、「神奈川県」以降の応答が出力された場合に、ユーザによって訂正スイッチ４ｂが押下され訂正発話がなされ、割り込み発話される可能性が高いと予測することができる。

一方、ステップＳ６で決定される音声認識結果によっては、信号処理装置１４は、システム応答として、定型応答のみを応答する場合もある。このような場合、ユーザによって割り込み発話がなされる可能性が非常に低いため、割り込み発話がなされないと予測する。

信号処理装置１４は、ユーザによって割り込み発話なされると予測した場合には、ステップＳ１０へと進み、割り込み発話がなされないと予測した場合には、ステップＳ１１へと進む。

ステップＳ１０において、信号処理装置１４は、割り込み発話がなされると予測したことに応じて、ステップＳ６の音声認識結果に応じて決定されるシステム応答の可変応答箇所以降を出力する際にバージイン機能を有効化する。

例えば、信号処理装置１４は、「行き先を神奈川県鶴間駅に設定します」というようなシステム応答をする場合には、図４に示すように、タイミングＡ以降、つまり可変応答箇所である「神奈川県」以降のシステム応答において、バージイン機能を有効化する。

信号処理装置１４は、ステップＳ１０が終了すると、ステップＳ３へと戻り、システム応答に対してなされたユーザの発話に対する音声認識処理を実行する。

ステップＳ１１において、信号処理装置１４は、割り込み発話がなされると予測されなかったことに応じて、ステップＳ６の音声認識結果に応じたシステム応答を行う。このとき、バージイン機能は、通常時のままとし有効化しない。

信号処理装置１４は、ステップＳ１１が終了すると、ステップＳ３へと戻り、システム応答に対してなされたユーザの発話に対する音声認識処理を実行する。

このような処理動作をする音声対話装置において、ナビゲーション装置に経路探索をするための目的地を設定する場合のユーザの発話と音声対話装置のシステム応答は、例えば、図５に示す（１）〜（４）のような流れとなる。なお、音声対話装置の処理動作を明確にするため、上述した図３で示したフローチャートのステップ番号を適宜示すものとする。

（１）図５に示すように、まず、発話スイッチ４ａが押下されたこと（ステップＳ１）に応じて、信号処理装置１４は、経路探索処理を実行するにあたりユーザによって発話されることが推定される認識対象語に対応する認識対象データを、外部記憶装置１５から読み出してメモリ２２に設定し、「コマンドをどうぞ」という第１のシステム応答（システム初期応答）を出力する（ステップＳ２）。

ユーザは、これに応答して、「行き先」という第１の応答発話を行う。信号処理装置１４は、第１の応答発話を取り込んで、一致度演算をし、第１の応答発話に応じた処理を実行する（ステップＳ３〜ステップＳ７、ステップＳ９）。

（２）次に、信号処理装置１４は、「行き先のコマンドをどうぞ」という第２のシステム応答を出力し、第２のシステム応答を出力したことで推定される認識対象語に対応した認識対象データを、外部記憶装置１５から読み出してメモリ２２に設定する（ステップＳ１１）。

ユーザは、これに応答して、「駅」という第２の応答発話を行う。信号処理装置１４は、第２の応答発話を取り込んで、一致度演算をし、第２の応答発話に応じた処理を実行する（ステップＳ３〜ステップＳ７、ステップＳ９）。

（３）信号処理装置１４は、「都道府県名と駅名をどうぞ」という第３のシステム応答を出力し、第３のシステム応答を出力したことで推定される認識対象語に対応した認識対象データを、外部記憶装置１５から読み出してメモリ２２に設定する（ステップＳ１１）。

ユーザは、これに応答して、「神奈川県の鶴見駅」という第３の応答発話を行う。信号処理装置１４は、第３の応答発話を取り込んで、一致度演算をし、第３の応答発話に応じた処理を実行する（ステップＳ３〜ステップＳ７、ステップＳ９）。

信号処理装置１４は、一致の最も高い認識対象語を音声認識処理結果とし、この音声認識処理結果を含む「行き先を、神奈川県の鶴間駅に設定します」という第４のシステム応答を出力する（ステップＳ１１）。

このとき、信号処理装置１４は、第４のシステム応答において、図４に示すタイミングＡ以降でバージイン機能を有効化させる。

ユーザは、バージイン機能が有効化されたことに応じて、訂正スイッチ４ｂを押下して、「鶴見駅」という訂正発話をし、システム応答に割り込む（ステップＳ１０）。

（４）信号処理装置１４は、システム応答に割り込まれた訂正発話を取り込んで、一致度演算をし、割り込まれた訂正発話を考慮した「行き先を、神奈川県の鶴見駅に設定します」という第５のシステム応答をし、所定時間内に、訂正スイッチ４ｂが押下されなかったことに応じて、「探索条件をどうぞ」という第６のシステム応答を出力する（ステップＳ１０）。

このように、音声対話装置は、システム応答の中に音声認識結果に応じて決まる可変応答箇所がある場合、この可変応答箇所が発話されるタイミングでバージイン機能を限定的に有効とすることで、音声対話装置の限られたシステム演算能力資源を必要以上に消費してしまうことを抑制することができる。また、このようにバージイン機能を限定的に有効とすることで、ノイズなどの不必要な音声要素の検出を極力排除できるため、誤認識の発生を低減させることができる。

［第２の実施の形態］
続いて、本発明の第２の実施の形態として示す音声対話装置について説明をする。第２の実施の形態として示す音声対話装置は、図１を用いて説明した第１の実施の形態として示す音声対話装置と同一の構成である。したがって、第２の実施の形態として示す音声対話装置の構成については、説明を省略する。

第２の実施の形態として示す音声対話装置は、上述した第１の実施の形態として示した音声対話装置と同様に、バージイン機能を限定的に有効とすることで、音声対話装置の限られたシステム演算能力資源を必要以上に消費してしまうことを抑制することができると共に、ノイズなどの不必要な音声要素の検出を極力排除できるため、誤認識の発生を低減させることができる。

このとき、第２の実施の形態として示す音声対話装置の信号処理装置１４は、ユーザの発話による割り込みを予測する際、システム応答の中の誤認識される可能性の最も高い箇所を推定し、推定された箇所が発話されるタイミングを、バージイン機能を有効化するタイミングとする。

したがって、第２の実施の形態として示す音声対話装置の処理動作は、第１の実施の形態として示した音声対話装置の処理動作として図３に示したフローチャートにおいて、割り込み発話の予測箇所を決めるステップＳ９、ステップＳ１０の処理内容が、変更されるだけである。したがって、この変更箇所のステップのみを説明し、それ以外の第２の実施の形態として示す音声対話装置の処理動作の説明は省略をする。

具体的には、まず、信号処理装置１４は、ステップＳ６の音声認識結果に応じて決定されるシステム応答を出力する場合に、最も誤認識される可能性のある箇所を推定する。そして、最も誤認識される可能性の高い箇所が発話されるタイミング以降を、ユーザにより訂正スイッチ４ｂが押下され割り込み発話がなされると予測する。

例えば、ナビゲーション装置に経路探索をするための目的地を設定する場合に、ステップＳ６における認識結果より、「行き先を神奈川県鶴間駅に設定します」というようなシステム応答がなされるとする。

第１の実施の形態でも説明したように、「行き先」というのは、システム応答として定められた定型応答である。「神奈川県」というのは、ユーザの発話を信号処理装置１４が音声認識処理した結果によって決まる可変応答である。また、「鶴間駅」というのも、ユーザの発話を信号処理装置１４が音声認識処理した結果によって決まる可変応答である。

信号処理装置１４は、システム応答に複数含まれている可変応答、例えば、「神奈川県」、「鶴間駅」という音声認識結果のうち、どちらが誤認識される可能性が高いかを推定し、推定された音声認識結果を出力するタイミング以降において、ユーザが割り込み発話を開始する可能性が高いと予測する。

信号処理装置１４は、誤認識の高い音声認識結果を推定する場合、まず複数の認識候補を用いる。例えば、ユーザが、「神奈川県の鶴見駅」と発話したのに対して、信号処理装置１４で、「神奈川県の鶴間駅」と誤認識した場合、認識候補第一位は、当然、「神奈川県の鶴間駅」である。

また、認識候補第二位として、「神奈川県の鶴見駅」となり両者のスコアが近接しているとする。このような場合、「神奈川県」という部分は、両者に共通した単語であるため信頼度が高いといえる。つまり、誤認識の可能性が非常に低いと考えられる。一方、「鶴間駅」と「鶴見駅」とは、その差が明瞭ではないため、上述した「神奈川県」ほど信頼度が高いとはいえない。

そこで、信号処理装置１４は、この「鶴間駅」と「鶴見駅」とが誤認識の可能性が高い部分であるとする。

つまり、信号処理装置１４は、「行き先を神奈川県鶴間駅に設定します」というシステム応答をする場合には、図６に示すように、タイミングＢ以降、つまり「鶴間駅」以降のシステム応答において、ユーザによって割り込み発話される可能性が高いと予測する。

ステップＳ１０において、信号処理装置１４は、割り込み発話がなされると予測したことに応じて、音声認識結果に応じて決定されるシステム応答の可変応答箇所のうち、誤認識の可能性が高い可変応答箇所以降を出力する際にバージイン機能を有効化する。

このように、音声対話装置は、システム応答の中に、音声認識結果に応じて決まる可変応答箇所が複数ある場合、誤認識の可能性が高い可変応答箇所が発話されるタイミングでバージイン機能を有効化し、有効となる期間を限定することで、音声対話装置の限られたシステム演算能力資源を必要以上に消費してしまうことを抑制することができる。また、このようにバージイン機能を有効とするタイミングを規定して、有効となる期間を限定することで、ノイズなどの不必要な音声要素の検出を極力排除できるため、誤認識の発生を低減させることができる。

［第３の実施の形態］
続いて、本発明の第３の実施の形態として示す音声対話装置について説明をする。第３の実施の形態として示す音声対話装置は、図１を用いて説明した第１の実施の形態として示す音声対話装置と同一の構成である。したがって、第３の実施の形態として示す音声対話装置の構成については、説明を省略する。

第３の実施の形態として示す音声対話装置は、上述した第１の実施の形態として示した音声対話装置と同様に、バージイン機能を限定的に有効とすることで、音声対話装置の限られたシステム演算能力資源を必要以上に消費してしまうことを抑制することができると共に、ノイズなどの不必要な音声要素の検出を極力排除できるため、誤認識の発生を低減させることができる。

このとき、第３の実施の形態として示す音声対話装置の信号処理装置１４は、ユーザの発話による割り込みを予測する際、システム応答の中の誤認識される可能性の最も高い箇所を推定し、推定された箇所を問い合わせるシステム応答を行う。そして、このシステム応答において、推定された箇所を直接的に問い合わせるタイミングを、バージイン機能を有効化するタイミングとする。

したがって、第３の実施の形態として示す音声対話装置の処理動作は、第１の実施の形態として示した音声対話装置の処理動作として図３に示したフローチャートにおいて、割り込み発話の予測箇所を決めるステップＳ９、ステップＳ１０の処理内容が、変更されるだけである。したがって、この変更箇所のステップのみを説明し、それ以外の第３の実施の形態として示す音声対話装置の処理動作の説明は省略をする。

具体的には、まず、信号処理装置１４は、ステップＳ６の音声認識結果に応じて決定されるシステム応答を出力する場合に、最も誤認識される可能性の高い箇所を推定する。次に、信号処理装置１４は、最も誤認識される可能性の高い箇所を問い合わせて、発話を要求するシステム応答を行う。そして、信号処理装置１４は、このシステム応答に含まれる、誤認識される可能性の高い箇所を直接的に問い合わせる箇所にて、ユーザにより訂正スイッチ４ｂが押下され割り込み発話がなされる可能性が最も高いと予測する。

例えば、ナビゲーション装置に経路探索をするための目的地を設定する場合に、ステップＳ６における認識結果より、システム応答の候補として、「行き先を神奈川県鶴間駅に設定します」というようなシステム応答が挙げられたとする。

信号処理装置１４は、システム応答に複数含まれている可変応答、例えば、「神奈川県」、「鶴間駅」という音声認識結果のうち、どちらが誤認識される可能性が高いかを推定する。

そこで、信号処理装置１４は、この「鶴間駅」と「鶴見駅」といった“駅名”に対する音声認識結果が誤認識の可能性が高い部分であるとする。

したがって、信号処理装置１４は、誤認識の可能性の高い“駅名”を問い合わせるシステム応答を生成する。例えば、上述の例では、「神奈川県の何駅でしょうか？」というようなシステム応答を生成し出力する。

このとき、信号処理装置１４は、「神奈川県の何駅でしょうか？」というシステム応答をする場合には、図７に示すように、タイミングＣ以降、つまり「何駅」以降のシステム応答において、ユーザによって割り込み発話される可能性が高いと予測する。

ステップＳ１０において、信号処理装置１４は、割り込み発話がなされると予測したことに応じて、誤認識の可能性が高い可変応答箇所を問い合わせるシステム応答を行い、この誤認識の可能性が高い可変応答箇所を直接的に問い合わせる際にバージイン機能を有効化する。

このように、音声対話装置は、システム応答の中に、音声認識結果に応じて決まる可変応答箇所がある場合、誤認識の可能性が高い可変応答箇所を問い合わせ、この可変応答箇所の発話を要求するシステム応答を出力。そして、このシステム応答において、誤認識の可能性が高い可変応答箇所を直接的に問い合わせるタイミングでバージイン機能を有効化し、有効となる期間を限定することで、音声対話装置の限られたシステム演算能力資源を必要以上に消費してしまうことを抑制することができる。また、このようにバージイン機能を有効とするタイミングを規定して、有効となる期間を限定することで、ノイズなどの不必要な音声要素の検出を極力排除できるため、誤認識の発生を低減させることができる。

［第４の実施の形態］
続いて、本発明の第４の実施の形態として示す音声対話装置について説明をする。第４の実施の形態として示す音声対話装置は、図１を用いて説明した第１の実施の形態として示す音声対話装置と同一の構成である。したがって、第４の実施の形態として示す音声対話装置の構成については、説明を省略する。

第４の実施の形態として示す音声対話装置は、上述した第１の実施の形態として示した音声対話装置と同様に、バージイン機能を限定的に有効とすることで、音声対話装置の限られたシステム演算能力資源を必要以上に消費してしまうことを抑制することができると共に、ノイズなどの不必要な音声要素の検出を極力排除できるため、誤認識の発生を低減させることができる。

図８に、第４の実施の形態として示す音声対話装置の処理動作を示す。図８に示すように、第４の実施の形態として音声対話装置の処理動作は、図３に示したフローチャートで示した第１の実施の形態として示す音声対話装置の処理動作において、ステップＳ１０を、ステップＳ１０ａに代えただけである。したがって、それ以外のステップには、同一ステップ番号を付し、説明を省略する。

ステップＳ１０ａにおいて、信号処理装置１４は、割り込み発話がなされると予測したことに応じて、例えば、ステップＳ６の音声認識結果に応じて決定されるシステム応答の可変応答箇所を全て出力した後に、システム応答の出力を一時的に停止し、この停止期間中においてバージイン機能を有効化する。

例えば、信号処理装置１４は、「行き先を神奈川県鶴間駅に設定します」というようなシステム応答をする場合には、図９に示すように、可変応答箇所である「鶴間駅」を発話した後、タイミングＤにおいて、システム応答を一時的に停止する。

信号処理装置１４は、このようにシステム応答を一時的に停止した後、バージイン機能を有効化し、訂正スイッチ４ｂが押下され、ユーザからの割り込み発話がなされるのを待機する。信号処理装置１４は、所定の時間、システム応答を停止させると、バージイン機能を無効とし、システム応答を再開する。図９に示す例では、信号処理装置１４は、バージイン機能が無効とされた後に、定型応答である「に設定します」というシステム応答を出力する。

システム応答を一時的に停止させる期間は、図９に示すように、必ずしも可変応答箇所を全て出力した後でなくてもよく、システム応答中に、ユーザの訂正発話を促すことができる箇所であればどこに設けるようにしてもよい。

このように、音声対話装置は、システム応答を出力している最中に、一時的にシステム応答を停止させ、この停止期間において、バージイン機能を有効化し、ユーザからの割り込み発話の待機をする。これにより、ユーザが割り込み発話をし易い状況を設定しながら、バージイン機能が有効となる期間を限定することができるため、音声対話装置の限られたシステム演算能力資源を必要以上に消費してしまうことを抑制することができる。また、このようにバージイン機能を有効とするタイミングを規定して、有効となる期間を限定することで、ノイズなどの不必要な音声要素の検出を極力排除できるため、誤認識の発生を低減させることができる。

なお、上述の実施の形態は本発明の一例である。このため、本発明は、上述の実施形態に限定されることはなく、この実施の形態以外であっても、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることは勿論である。

本発明の実施の形態として示す音声対話装置の構成について説明するための図である。ネットワーク文法について説明するための図である。本発明の第１乃至第３の実施の形態として示す音声対話装置の処理動作について説明するための図である。本発明の第１の実施の形態として示す音声対話装置において、バージイン機能を有効化するタイミングについて説明するための図である。本発明の第１の実施の形態として示す音声対話装置とユーザとの間でなされる音声対話の一例を示した図である。本発明の第２の実施の形態として示す音声対話装置において、バージイン機能を有効化するタイミングについて説明するための図である。本発明の第３の実施の形態として示す音声対話装置において、バージイン機能を有効化するタイミングについて説明するための図である。本発明の第４の実施の形態として示す音声対話装置の処理動作について説明するためのフローチャートである。本発明の第４の実施の形態として示す音声対話装置において、バージイン機能を有効化するタイミングについて説明するための図である。

符号の説明

１信号処理ユニット
２マイク
３スピーカ
４入力装置
４ａ発話スイッチ
４ｂ訂正スイッチ
５ディスプレイ
１１Ａ／Ｄコンバータ
１２Ｄ／Ａコンバータ
１３出力アンプ
１４信号処理装置
１５外部記憶装置
２１ＣＰＵ（Central Processing Unit）

Claims

発話音声を入力する入力手段と、
前記入力手段によって入力された発話音声を認識する音声認識手段と、
前記音声認識手段による音声認識結果に応じたシステム応答を生成するシステム応答生成手段と、
前記システム応答生成手段によって生成された前記システム応答を出力する出力手段と、
前記出力手段から前記システム応答が出力されている最中に、前記入力手段から訂正発話として割り込むように入力される発話音声に対する音声認識処理を実行させるよう前記音声認識手段を制御する割り込み制御手段と、
前記入力手段から訂正発話として割り込むように入力される発話音声の割り込みタイミングを予測する割り込みタイミング予測手段と、
前記割り込みタイミング予測手段によって予測される割り込みタイミング以降、前記割り込み制御手段が有効となるよう制御する制御手段とを備えることを
を特徴とする音声対話装置。
前記割り込みタイミング予測手段は、前記システム応答生成手段によって生成された前記システム応答に、前記音声認識手段による音声認識結果に応じて決定される可変応答箇所が含まれる場合、前記出力手段によって前記可変応答箇所が出力されるタイミングを、前記割り込みタイミングとして予測すること
を特徴とする請求項１記載の音声対話装置。
前記システム応答に含まれる前記可変応答箇所のうち、誤認識される可能性の高い可変応答箇所を推定する誤認識推定手段を備え、
前記割り込みタイミング予測手段は、前記システム応答に含まれる、前記誤認識推定手段によって推定された誤認識される可能性の高い可変応答箇所が、前記出力手段によって出力されるタイミングを、前記割り込みタイミングとして予測すること
を特徴とする請求項２記載の音声対話装置。
前記システム応答に含まれる前記可変応答箇所のうち、誤認識される可能性の高い可変応答箇所を推定する誤認識推定手段を備え、
前記システム応答生成手段は、前記誤認識推定手段によって推定された誤認識される可能性の高い可変応答箇所を問い合わせて、前記可変応答箇所の発話を要求するシステム応答を生成し、
前記タイミング予測手段は、前記システム応答に含まれる、前記誤認識される可能性の高い可変応答箇所を直接的に問い合わせる箇所が、前記出力手段によって出力されるタイミングを、前記割り込みタイミングとして予測すること
を特徴とする請求項２記載の音声対話装置。
前記制御手段は、前記出力手段から前記システム応答が出力されている最中に、前記システム応答の出力を一時的に停止させると共に、前記システム応答の出力が一時的に停止された停止期間中に前記割り込み制御手段が有効となるよう制御すること
を特徴とする請求項１記載の音声対話装置。
入力された発話音声を認識する音声認識工程と、
前記音声認識工程による音声認識結果に応じたシステム応答を生成するシステム応答生成工程と、
前記システム応答生成工程によって生成された前記システム応答が出力されている最中に、訂正発話として割り込むように入力される発話音声に対する音声認識処理を実行させるよう前記音声認識工程を制御する割り込み制御工程と、
訂正発話として割り込むように入力される発話音声の割り込みタイミングを予測する割り込みタイミング予測工程と、
前記割り込みタイミング予測工程によって予測される割り込みタイミング以降、前記割り込み制御工程が有効となるよう制御する制御工程とを備えることを
を特徴とする割り込み発話制御方法。