JP2006337942A - 音声対話装置及び割り込み発話制御方法 - Google Patents

音声対話装置及び割り込み発話制御方法 Download PDF

Info

Publication number
JP2006337942A
JP2006337942A JP2005165837A JP2005165837A JP2006337942A JP 2006337942 A JP2006337942 A JP 2006337942A JP 2005165837 A JP2005165837 A JP 2005165837A JP 2005165837 A JP2005165837 A JP 2005165837A JP 2006337942 A JP2006337942 A JP 2006337942A
Authority
JP
Japan
Prior art keywords
system response
response
interrupt
voice
timing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005165837A
Other languages
English (en)
Inventor
Takeshi Ono
健 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2005165837A priority Critical patent/JP2006337942A/ja
Publication of JP2006337942A publication Critical patent/JP2006337942A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 バージイン機能を有効とする期間を最適化する。
【解決手段】 信号処理装置14は、システム応答に対する割り込みタイミングを予測し、予測される割り込みタイミング以降、バージイン機能を有効にし、システム応答が出力されている最中に、訂正発話として割り込むように入力される発話音声に対する音声認識処理を実行することで実現する。
【選択図】 図1

Description

本発明は、発話された音声に応じて対話をする音声対話装置に関し、詳しくは、バージイン機能を有する音声対話装置及び割り込み発話制御方法に関する。
ユーザによる発話に応じて、音声対話をする音声対話装置が考案されている。このような音声対話装置には、当該音声対話装置によるシステム応答に対するユーザによる割り込み発話を認識するバージイン機能を有するものがある。
例えば、バージイン機能を有する音声対話装置として、ユーザの音声対話装置に対する習熟度を検出し、検出された習熟度に応じてバージイン機能を有効にするタイミングを制御することで、誤認識を低減した音声対話を実現する技術が開示されている(例えば、特許文献1。)。
特開平2001−331196号公報
このようなバージイン機能は、ユーザによる割り込み発話に対応することができるものの、バージイン機能を有効としている間、システムの演算能力資源が消費されてしまうため、限られた演算能力資源を有効活用するために、バージイン機能を有効とするタイミングを適切に制御する必要がある。
また、バージイン機能を有効としている間は、ノイズを検出してしまう可能性が高くなり、誤認識を引き起こす原因となるため、同様にバージイン機能を有効とするタイミングを適切に制御する必要がある。
しかしながら、特許文献1で開示されている技術では、システム応答に割り込んで発話をしたいというユーザの要求がない場合でも、バージイン機能を有効としてしまうため、限られたシステム演算能力資源を必要以上に消費してしまったり、さらには、ノイズなどの検出による誤認識の発生を引き起こしてしまう可能性がある。
そこで、本発明は、上述した実情に鑑みて提案されたものであり、割り込み発話を認識するバージイン機能を有効とする期間を最適化することができる音声対話装置及び割り込み発話制御方法を提供することを目的とする。
本発明の音声対話装置は、発話音声を入力する入力手段と、前記入力手段によって入力された発話音声を認識する音声認識手段と、前記音声認識手段による音声認識結果に応じたシステム応答を生成するシステム応答生成手段と、前記システム応答生成手段によって生成された前記システム応答を出力する出力手段と、前記出力手段から前記システム応答が出力されている最中に、前記入力手段から訂正発話として割り込むように入力される発話音声に対する音声認識処理を実行させるよう前記音声認識手段を制御する割り込み制御手段と、前記入力手段から訂正発話として割り込むように入力される発話音声の割り込みタイミングを予測する割り込みタイミング予測手段と、前記割り込みタイミング予測手段によって予測される割り込みタイミング以降、前記割り込み制御手段が有効となるよう制御する制御手段とを備えることにより、上述の課題を解決する。
また、本発明の割り込み発話制御方法は、入力された発話音声を認識する音声認識工程と、前記音声認識工程による音声認識結果に応じたシステム応答を生成するシステム応答生成工程と、前記システム応答生成工程によって生成された前記システム応答が出力されている最中に、訂正発話として割り込むように入力される発話音声に対する音声認識処理を実行させるよう前記音声認識工程を制御する割り込み制御工程と、訂正発話として割り込むように入力される発話音声の割り込みタイミングを予測する割り込みタイミング予測工程と、前記割り込みタイミング予測工程によって予測される割り込みタイミング以降、前記割り込み制御工程が有効となるよう制御する制御工程とを備えることにより、上述の課題を解決する。
本発明の音声対話装置は、割り込みタイミング予測手段によって予測される割り込みタイミング以降、割り込み制御手段を有効にして、入力手段から訂正発話として割り込むように入力される発話音声に対する音声認識処理を実行させる。
これにより、システム応答に割り込んで発話する場合のみ割り込み制御手段が、限定的に有効とされるため、割り込み発話を認識する期間を最適化できる。
したがって、音声対話装置の限られたシステム演算能力資源を必要以上に消費してしまうことを抑制することを可能とし、ノイズなどの不必要な音声要素の検出を極力排除でき、誤認識の発生を低減させることを可能とする。
また、本発明の割り込み発話制御方法は、予測される割り込みタイミング以降、割り込み制御を有効にして、訂正発話として割り込むように入力される発話音声に対する音声認識処理を実行させる。
これにより、システム応答に割り込んで発話する場合のみ割り込み制御が、限定的に有効とされるため、割り込み発話を認識する期間を最適化できる。
したがって、音声対話装置の限られたシステム演算能力資源を必要以上に消費してしまうことを抑制することを可能とし、ノイズなどの不必要な音声要素の検出を極力排除でき、誤認識の発生を低減させることを可能とする。
以下、本発明の実施の形態について図面を参照して説明する。
[第1の実施形態]
まず、図1を用いて、本発明の第1の実施の形態として示す音声対話装置の構成について説明をする。図1に、本発明の第1の実施の形態として示す音声対話装置は、車両や、携帯端末装置などに搭載されるナビゲーション装置に適用した場合の構成である。
この音声対話装置をナビゲーション装置に適用すると、ナビゲーション装置で要求される各種機能を、ユーザとシステムとのインタラクティブな対話によって動作させることができる。
なお、本発明は、これに限定されるものではなく、各種情報処理装置に搭載されて、各種機能をインタラクティブに段階的に動作させることができる、どのようなアプリケーションにも適用することができる。
図1に示すように、音声対話装置は、信号処理ユニット1と、マイク2と、スピーカ3と、入力装置4と、ディスプレイ5とを備えている。なお、本発明に関わる主要構成要素ではないことから、図示しないが、携帯端末装置のナビゲーション装置であれば、他に送受信手段を備え、また車両に搭載されたナビゲーション装置であれば、送受信手段または通信接続手段等を備えた構成であってもよい。
信号処理ユニット1は、マイク2から入力されるユーザによって発話された音声をデジタル音声信号に変換して出力するA/Dコンバータ11と、システム応答として信号処理装置14から出力されるデジタル音声信号をアナログ音声信号に変換して出力するD/Aコンバータ12と、D/Aコンバータ12から出力されるアナログ音声信号を増幅する出力アンプ13と、信号処理装置14と、外部記憶装置15とを備えている。
信号処理装置14は、CPU(Central Processing Unit)21と、メモリ22とを備えており、マイク2から、A/Dコンバータ11を介して入力されるユーザによって発話された音声の音声認識処理を実行し、音声認識処理結果を出力する。また、信号処理装置14は、バージイン機能を備えており、当該信号処理装置14によるシステム応答に割り込むように入力されたユーザの発話に対しても音声認識処理を実行することができる。
CPU21は、信号処理装置14を統括的に制御する制御手段である。CPU21は、メモリ22に記憶されている処理プログラムを読み出して実行し、音声認識処理を制御したり、バージイン機能の制御を行う。
通常、バージイン機能は、有効となっておらず機能していない。バージイン機能は、システム応答に対して、ユーザによる割り込み発話がなされると予測された場合にのみ有効となり、割り込み発話に対する音声認識処理が実行される。なお、バージイン機能を有効化させるタイミングについては、後で、詳細に説明をする。
メモリ22は、CPU21で実行される処理プログラムや、使用頻度の高い各種データ等をあらかじめ記憶している。また、メモリ22は、CPU21によって、音声認識処理が実行される場合には、外部記憶装置15から読み出された認識対象語及びその音響モデルとが格納され認識対象語の辞書が構築される。
信号処理装置14のCPU21は、このメモリ22に構築された辞書を参照して、ユーザによって発話された発話音声の音声特徴パターンと、認識対象語の音響モデルの音声パターンとの一致度を演算することで音声認識処理を行う。なお、バージイン機能を有効化させるタイミングについては、後で、詳細に説明をする。
外部記憶装置15は、ナビゲーション装置で使用される各種データや、信号処理装置14で実行される音声認識処理で使用される認識対象データや、システム応答用の音声データなどが記憶されている。外部記憶装置15は、認識対象データとして、音声認識処理で音声認識の対象となる認識対象語や、認識対象語の音響モデル、さらに、認識対象語とその接続関係を規定したネットワーク文法などを記憶している。認識対象語の音響モデルは、音響的に意味を持つ部分単語モデルを定義したものである。
ネットワーク文法とは、認識対象語の接続関係を規定するためのルールであり、例えば、図2に示すような階層構造で表すことができる。図2に示す例では、認識対象語である“駅名”を下位の階層Bとし、この下位の階層Bに接続される上位の階層Aとして“都道府県名”を規定している。
信号処理装置14は、図2に示すように認識対象語に対して規定された階層構造をなすネットワーク文法を用いることで、ユーザによって、例えば、「神奈川県の鶴見駅」といったような発話がなされた場合でも、音声認識をすることができる。
また、“都道府県名”と、“駅名”とを、それぞれ個別に有するネットワーク文法を切り替えて用いれば、「神奈川県」で発話が一旦完了され、その後「鶴見駅」と発話された場合でも音声認識をすることができる。
マイク2は、ユーザの発話を、当該音声対話装置に入力する。マイク2から入力されたユーザの発話は、電気信号である音声信号に変換され、A/Dコンバータ11でデジタル音声信号に変換されて信号処理装置14に供給される。
スピーカ3は、システムの発話として、信号処理装置14から出力され、D/Aコンバータ12でアナログ音声信号に変換され、出力アンプ13で信号増幅されたアナログ音声信号を音声として出力する。
入力装置4は、ユーザによって押下される発話スイッチ4a及び訂正スイッチ4bを備えている。発話スイッチ4aは、音声認識の開始指示を行うためのスイッチである。一方、訂正スイッチ4bは、ユーザによって発話された音声が、システムにおいて誤認識された場合に、訂正を行うためのスイッチである。なお、この訂正スイッチ4bを一定期間押し続けると、音声認識処理を途中で終了させることができる。
ディスプレイ5は、例えばLCD(液晶表示装置)等で実現され、ナビゲーションの行き先や、探索条件設定時のガイダンス表示を行ったり、経路誘導等の画面を表示したり、信号処理装置14による音声認識処理結果である応答画像を表示させたりする。
続いて、図3に示すフローチャートを用いて、音声対話装置の処理動作について説明をする。本フローチャートでは、ナビゲーション装置の所定の機能を動作させる場合に、ユーザが、要求される設定事項を音声対話装置を介して入力し、ナビゲーション装置を動作させるまでの一連の処理工程を示している。
まず、ステップS1において、信号処理装置14は、ユーザによる発話スイッチ4aの操作によって、発話開始が指示されたことに応じて、発話された音声に対する音声認識処理を開始する。
ステップS2において、信号処理装置14は、音声認識処理が開始されたことに応じて初期応答を行う。
まず、信号処理装置14は、認識対象データとして外部記憶装置15に記憶されている音声認識処理で音声認識の対象となる認識対象語や、認識対象語の音響モデル、さらに、認識対象語とその接続関係を規定したネットワーク文法などを読み出し、メモリ22に設定する。
そして、信号処理装置14は、外部記憶装置15に記憶された告知音声データを読み出して、D/Aコンバータ12、出力アンプ13、スピーカ3を介して出力させることで、処理を開始した旨をユーザに告知する。
ユーザは、スピーカ3を介して出力される、信号処理装置14による処理が開始された旨を知らせる告知音声を聞いたことに応じて、認識対象データに含まれる認識対象語の発話を開始する。
ユーザによって発話され、マイク2を介して入力された音声は、A/Dコンバータ11でデジタル音声信号に変化されて、信号処理装置14に出力される。
ステップS3において、信号処理装置14は、入力された音声の取り込みを開始する。
通常、信号処理装置14は、発話スイッチ4aの操作がなされるまでは、D/Aコンバータ12の出力(デジタル音声信号)の平均パワーを演算している。信号処理装置14は、上述したステップS1において、発話スイッチ4aの操作がなされると、演算された平均パワーと、入力されたデジタル音声信号の瞬間パワーとを比較する。
そして、信号処理装置14は、入力されたデジタル音声信号が、演算された平均パワーよりも所定値以上大きくなった場合に、ユーザが発話をした音声区間であると判断して、音声の取り込みを開始する。
その後も、信号処理装置14は、平均パワーの演算を継続して実行し、平均パワーが所定値よりも小さくなった場合に、ユーザの発話が終了したと判断をする。
ステップS4において、信号処理装置14は、取り込まれた発話音声と、外部記憶装置15からメモリ22に読み込まれた認識対象語との一致度演算を開始する。一致度は、音声区間部分のデジタル音声信号と、個々の認識対象語がどの程度似ているのかをスコアとして示したものである。例えば、信号処理装置14は、スコアの値が大きい認識対象語ほど一致度が高いとして評価する。
なお、信号処理装置14は、この一致度演算を実行している間も、並列処理により音声取り込みを継続して実行する。
ステップS5において、デジタル音声信号の瞬間パワーが所定時間以上、所定値以下となったことに応じて、ユーザの発話が終了したと判断し、音声取り込みを終了する。
ステップS6において、信号処理装置14は、一致度演算が終了したことに応じて、求められた一致度の最も大きい認識対象語を音声認識結果として決定する。
ステップS7において、信号処理装置14は、ナビゲーション装置の所定の機能を動作させるために要求される情報がユーザとの対話によって全て入力された場合、音声対話が完了したと判断して、ステップS8へと進める。また、信号処理装置14は、要求される全ての情報が、まだ入力されていない場合には、ステップS9へと進める。
例えば、ナビゲーション装置によって、ディスプレイ5に表示される地図を、北方向を上にして表示させるよう指示する「ノースアップ」といったコマンドが、ユーザによって発話された場合、このコマンドを一言だけ入力すればナビゲーション装置の機能を動作させることができるため、ステップS7からステップS8へと進むことになる。
一方、ナビゲーション装置に、経路探索をするための目的地を設定する場合など、複数の設定事項がナビゲーション装置から要求される際には、ステップS7からステップS9へと進み、全ての設定事項が入力されるまでこの処理ループを繰り返すことになる。
ステップS8において、信号処理装置14は、音声対話が完了したことに応じて、音声対話により確定された事項に基づき、ナビゲーション装置の所定の機能を動作させるコマンドを発行して処理を終了する。
ステップS9において、信号処理装置14は、システム応答を出力した場合に、ユーザによって割り込み発話されるかどうかを予測する。
具体的には、信号処理装置14は、ステップS6の音声認識結果に応じて決定されるシステム応答のうち、どの箇所を出力している最中に、ユーザにより訂正スイッチ4bが押下され割り込み発話がなされるかを予測する。
例えば、ナビゲーション装置に経路探索するための目的地を設定する場合に、ステップS6における音声認識結果より、「行き先を神奈川県鶴間駅に設定します」というようなシステム応答がなされるとする。
「行き先」というのは、システム応答として定められた定型応答である。「神奈川県」というのは、ユーザの発話を、信号処理装置14が音声認識処理した結果によって決まる可変応答である。したがって、信号処理装置14は、このようなシステム応答においては、「神奈川県」以降の応答が出力された場合に、ユーザによって訂正スイッチ4bが押下され訂正発話がなされ、割り込み発話される可能性が高いと予測することができる。
一方、ステップS6で決定される音声認識結果によっては、信号処理装置14は、システム応答として、定型応答のみを応答する場合もある。このような場合、ユーザによって割り込み発話がなされる可能性が非常に低いため、割り込み発話がなされないと予測する。
信号処理装置14は、ユーザによって割り込み発話なされると予測した場合には、ステップS10へと進み、割り込み発話がなされないと予測した場合には、ステップS11へと進む。
ステップS10において、信号処理装置14は、割り込み発話がなされると予測したことに応じて、ステップS6の音声認識結果に応じて決定されるシステム応答の可変応答箇所以降を出力する際にバージイン機能を有効化する。
例えば、信号処理装置14は、「行き先を神奈川県鶴間駅に設定します」というようなシステム応答をする場合には、図4に示すように、タイミングA以降、つまり可変応答箇所である「神奈川県」以降のシステム応答において、バージイン機能を有効化する。
信号処理装置14は、ステップS10が終了すると、ステップS3へと戻り、システム応答に対してなされたユーザの発話に対する音声認識処理を実行する。
ステップS11において、信号処理装置14は、割り込み発話がなされると予測されなかったことに応じて、ステップS6の音声認識結果に応じたシステム応答を行う。このとき、バージイン機能は、通常時のままとし有効化しない。
信号処理装置14は、ステップS11が終了すると、ステップS3へと戻り、システム応答に対してなされたユーザの発話に対する音声認識処理を実行する。
このような処理動作をする音声対話装置において、ナビゲーション装置に経路探索をするための目的地を設定する場合のユーザの発話と音声対話装置のシステム応答は、例えば、図5に示す(1)〜(4)のような流れとなる。なお、音声対話装置の処理動作を明確にするため、上述した図3で示したフローチャートのステップ番号を適宜示すものとする。
(1)図5に示すように、まず、発話スイッチ4aが押下されたこと(ステップS1)に応じて、信号処理装置14は、経路探索処理を実行するにあたりユーザによって発話されることが推定される認識対象語に対応する認識対象データを、外部記憶装置15から読み出してメモリ22に設定し、「コマンドをどうぞ」という第1のシステム応答(システム初期応答)を出力する(ステップS2)。
ユーザは、これに応答して、「行き先」という第1の応答発話を行う。信号処理装置14は、第1の応答発話を取り込んで、一致度演算をし、第1の応答発話に応じた処理を実行する(ステップS3〜ステップS7、ステップS9)。
(2)次に、信号処理装置14は、「行き先のコマンドをどうぞ」という第2のシステム応答を出力し、第2のシステム応答を出力したことで推定される認識対象語に対応した認識対象データを、外部記憶装置15から読み出してメモリ22に設定する(ステップS11)。
ユーザは、これに応答して、「駅」という第2の応答発話を行う。信号処理装置14は、第2の応答発話を取り込んで、一致度演算をし、第2の応答発話に応じた処理を実行する(ステップS3〜ステップS7、ステップS9)。
(3) 信号処理装置14は、「都道府県名と駅名をどうぞ」という第3のシステム応答を出力し、第3のシステム応答を出力したことで推定される認識対象語に対応した認識対象データを、外部記憶装置15から読み出してメモリ22に設定する(ステップS11)。
ユーザは、これに応答して、「神奈川県の鶴見駅」という第3の応答発話を行う。信号処理装置14は、第3の応答発話を取り込んで、一致度演算をし、第3の応答発話に応じた処理を実行する(ステップS3〜ステップS7、ステップS9)。
信号処理装置14は、一致の最も高い認識対象語を音声認識処理結果とし、この音声認識処理結果を含む「行き先を、神奈川県の鶴間駅に設定します」という第4のシステム応答を出力する(ステップS11)。
このとき、信号処理装置14は、第4のシステム応答において、図4に示すタイミングA以降でバージイン機能を有効化させる。
ユーザは、バージイン機能が有効化されたことに応じて、訂正スイッチ4bを押下して、「鶴見駅」という訂正発話をし、システム応答に割り込む(ステップS10)。
(4)信号処理装置14は、システム応答に割り込まれた訂正発話を取り込んで、一致度演算をし、割り込まれた訂正発話を考慮した「行き先を、神奈川県の鶴見駅に設定します」という第5のシステム応答をし、所定時間内に、訂正スイッチ4bが押下されなかったことに応じて、「探索条件をどうぞ」という第6のシステム応答を出力する(ステップS10)。
このように、音声対話装置は、システム応答の中に音声認識結果に応じて決まる可変応答箇所がある場合、この可変応答箇所が発話されるタイミングでバージイン機能を限定的に有効とすることで、音声対話装置の限られたシステム演算能力資源を必要以上に消費してしまうことを抑制することができる。また、このようにバージイン機能を限定的に有効とすることで、ノイズなどの不必要な音声要素の検出を極力排除できるため、誤認識の発生を低減させることができる。
[第2の実施の形態]
続いて、本発明の第2の実施の形態として示す音声対話装置について説明をする。第2の実施の形態として示す音声対話装置は、図1を用いて説明した第1の実施の形態として示す音声対話装置と同一の構成である。したがって、第2の実施の形態として示す音声対話装置の構成については、説明を省略する。
第2の実施の形態として示す音声対話装置は、上述した第1の実施の形態として示した音声対話装置と同様に、バージイン機能を限定的に有効とすることで、音声対話装置の限られたシステム演算能力資源を必要以上に消費してしまうことを抑制することができると共に、ノイズなどの不必要な音声要素の検出を極力排除できるため、誤認識の発生を低減させることができる。
このとき、第2の実施の形態として示す音声対話装置の信号処理装置14は、ユーザの発話による割り込みを予測する際、システム応答の中の誤認識される可能性の最も高い箇所を推定し、推定された箇所が発話されるタイミングを、バージイン機能を有効化するタイミングとする。
したがって、第2の実施の形態として示す音声対話装置の処理動作は、第1の実施の形態として示した音声対話装置の処理動作として図3に示したフローチャートにおいて、割り込み発話の予測箇所を決めるステップS9、ステップS10の処理内容が、変更されるだけである。したがって、この変更箇所のステップのみを説明し、それ以外の第2の実施の形態として示す音声対話装置の処理動作の説明は省略をする。
ステップS9において、信号処理装置14は、システム応答を出力した場合に、ユーザによって割り込み発話されるかどうかを予測する。
具体的には、まず、信号処理装置14は、ステップS6の音声認識結果に応じて決定されるシステム応答を出力する場合に、最も誤認識される可能性のある箇所を推定する。そして、最も誤認識される可能性の高い箇所が発話されるタイミング以降を、ユーザにより訂正スイッチ4bが押下され割り込み発話がなされると予測する。
例えば、ナビゲーション装置に経路探索をするための目的地を設定する場合に、ステップS6における認識結果より、「行き先を神奈川県鶴間駅に設定します」というようなシステム応答がなされるとする。
第1の実施の形態でも説明したように、「行き先」というのは、システム応答として定められた定型応答である。「神奈川県」というのは、ユーザの発話を信号処理装置14が音声認識処理した結果によって決まる可変応答である。また、「鶴間駅」というのも、ユーザの発話を信号処理装置14が音声認識処理した結果によって決まる可変応答である。
信号処理装置14は、システム応答に複数含まれている可変応答、例えば、「神奈川県」、「鶴間駅」という音声認識結果のうち、どちらが誤認識される可能性が高いかを推定し、推定された音声認識結果を出力するタイミング以降において、ユーザが割り込み発話を開始する可能性が高いと予測する。
信号処理装置14は、誤認識の高い音声認識結果を推定する場合、まず複数の認識候補を用いる。例えば、ユーザが、「神奈川県の鶴見駅」と発話したのに対して、信号処理装置14で、「神奈川県の鶴間駅」と誤認識した場合、認識候補第一位は、当然、「神奈川県の鶴間駅」である。
また、認識候補第二位として、「神奈川県の鶴見駅」となり両者のスコアが近接しているとする。このような場合、「神奈川県」という部分は、両者に共通した単語であるため信頼度が高いといえる。つまり、誤認識の可能性が非常に低いと考えられる。一方、「鶴間駅」と「鶴見駅」とは、その差が明瞭ではないため、上述した「神奈川県」ほど信頼度が高いとはいえない。
そこで、信号処理装置14は、この「鶴間駅」と「鶴見駅」とが誤認識の可能性が高い部分であるとする。
つまり、信号処理装置14は、「行き先を神奈川県鶴間駅に設定します」というシステム応答をする場合には、図6に示すように、タイミングB以降、つまり「鶴間駅」以降のシステム応答において、ユーザによって割り込み発話される可能性が高いと予測する。
ステップS10において、信号処理装置14は、割り込み発話がなされると予測したことに応じて、音声認識結果に応じて決定されるシステム応答の可変応答箇所のうち、誤認識の可能性が高い可変応答箇所以降を出力する際にバージイン機能を有効化する。
このように、音声対話装置は、システム応答の中に、音声認識結果に応じて決まる可変応答箇所が複数ある場合、誤認識の可能性が高い可変応答箇所が発話されるタイミングでバージイン機能を有効化し、有効となる期間を限定することで、音声対話装置の限られたシステム演算能力資源を必要以上に消費してしまうことを抑制することができる。また、このようにバージイン機能を有効とするタイミングを規定して、有効となる期間を限定することで、ノイズなどの不必要な音声要素の検出を極力排除できるため、誤認識の発生を低減させることができる。
[第3の実施の形態]
続いて、本発明の第3の実施の形態として示す音声対話装置について説明をする。第3の実施の形態として示す音声対話装置は、図1を用いて説明した第1の実施の形態として示す音声対話装置と同一の構成である。したがって、第3の実施の形態として示す音声対話装置の構成については、説明を省略する。
第3の実施の形態として示す音声対話装置は、上述した第1の実施の形態として示した音声対話装置と同様に、バージイン機能を限定的に有効とすることで、音声対話装置の限られたシステム演算能力資源を必要以上に消費してしまうことを抑制することができると共に、ノイズなどの不必要な音声要素の検出を極力排除できるため、誤認識の発生を低減させることができる。
このとき、第3の実施の形態として示す音声対話装置の信号処理装置14は、ユーザの発話による割り込みを予測する際、システム応答の中の誤認識される可能性の最も高い箇所を推定し、推定された箇所を問い合わせるシステム応答を行う。そして、このシステム応答において、推定された箇所を直接的に問い合わせるタイミングを、バージイン機能を有効化するタイミングとする。
したがって、第3の実施の形態として示す音声対話装置の処理動作は、第1の実施の形態として示した音声対話装置の処理動作として図3に示したフローチャートにおいて、割り込み発話の予測箇所を決めるステップS9、ステップS10の処理内容が、変更されるだけである。したがって、この変更箇所のステップのみを説明し、それ以外の第3の実施の形態として示す音声対話装置の処理動作の説明は省略をする。
ステップS9において、信号処理装置14は、システム応答を出力した場合に、ユーザによって割り込み発話されるかどうかを予測する。
具体的には、まず、信号処理装置14は、ステップS6の音声認識結果に応じて決定されるシステム応答を出力する場合に、最も誤認識される可能性の高い箇所を推定する。次に、信号処理装置14は、最も誤認識される可能性の高い箇所を問い合わせて、発話を要求するシステム応答を行う。そして、信号処理装置14は、このシステム応答に含まれる、誤認識される可能性の高い箇所を直接的に問い合わせる箇所にて、ユーザにより訂正スイッチ4bが押下され割り込み発話がなされる可能性が最も高いと予測する。
例えば、ナビゲーション装置に経路探索をするための目的地を設定する場合に、ステップS6における認識結果より、システム応答の候補として、「行き先を神奈川県鶴間駅に設定します」というようなシステム応答が挙げられたとする。
第1の実施の形態でも説明したように、「行き先」というのは、システム応答として定められた定型応答である。「神奈川県」というのは、ユーザの発話を信号処理装置14が音声認識処理した結果によって決まる可変応答である。また、「鶴間駅」というのも、ユーザの発話を信号処理装置14が音声認識処理した結果によって決まる可変応答である。
信号処理装置14は、システム応答に複数含まれている可変応答、例えば、「神奈川県」、「鶴間駅」という音声認識結果のうち、どちらが誤認識される可能性が高いかを推定する。
信号処理装置14は、誤認識の高い音声認識結果を推定する場合、まず複数の認識候補を用いる。例えば、ユーザが、「神奈川県の鶴見駅」と発話したのに対して、信号処理装置14で、「神奈川県の鶴間駅」と誤認識した場合、認識候補第一位は、当然、「神奈川県の鶴間駅」である。
また、認識候補第二位として、「神奈川県の鶴見駅」となり両者のスコアが近接しているとする。このような場合、「神奈川県」という部分は、両者に共通した単語であるため信頼度が高いといえる。つまり、誤認識の可能性が非常に低いと考えられる。一方、「鶴間駅」と「鶴見駅」とは、その差が明瞭ではないため、上述した「神奈川県」ほど信頼度が高いとはいえない。
そこで、信号処理装置14は、この「鶴間駅」と「鶴見駅」といった“駅名”に対する音声認識結果が誤認識の可能性が高い部分であるとする。
したがって、信号処理装置14は、誤認識の可能性の高い“駅名”を問い合わせるシステム応答を生成する。例えば、上述の例では、「神奈川県の何駅でしょうか?」というようなシステム応答を生成し出力する。
このとき、信号処理装置14は、「神奈川県の何駅でしょうか?」というシステム応答をする場合には、図7に示すように、タイミングC以降、つまり「何駅」以降のシステム応答において、ユーザによって割り込み発話される可能性が高いと予測する。
ステップS10において、信号処理装置14は、割り込み発話がなされると予測したことに応じて、誤認識の可能性が高い可変応答箇所を問い合わせるシステム応答を行い、この誤認識の可能性が高い可変応答箇所を直接的に問い合わせる際にバージイン機能を有効化する。
このように、音声対話装置は、システム応答の中に、音声認識結果に応じて決まる可変応答箇所がある場合、誤認識の可能性が高い可変応答箇所を問い合わせ、この可変応答箇所の発話を要求するシステム応答を出力。そして、このシステム応答において、誤認識の可能性が高い可変応答箇所を直接的に問い合わせるタイミングでバージイン機能を有効化し、有効となる期間を限定することで、音声対話装置の限られたシステム演算能力資源を必要以上に消費してしまうことを抑制することができる。また、このようにバージイン機能を有効とするタイミングを規定して、有効となる期間を限定することで、ノイズなどの不必要な音声要素の検出を極力排除できるため、誤認識の発生を低減させることができる。
[第4の実施の形態]
続いて、本発明の第4の実施の形態として示す音声対話装置について説明をする。第4の実施の形態として示す音声対話装置は、図1を用いて説明した第1の実施の形態として示す音声対話装置と同一の構成である。したがって、第4の実施の形態として示す音声対話装置の構成については、説明を省略する。
第4の実施の形態として示す音声対話装置は、上述した第1の実施の形態として示した音声対話装置と同様に、バージイン機能を限定的に有効とすることで、音声対話装置の限られたシステム演算能力資源を必要以上に消費してしまうことを抑制することができると共に、ノイズなどの不必要な音声要素の検出を極力排除できるため、誤認識の発生を低減させることができる。
図8に、第4の実施の形態として示す音声対話装置の処理動作を示す。図8に示すように、第4の実施の形態として音声対話装置の処理動作は、図3に示したフローチャートで示した第1の実施の形態として示す音声対話装置の処理動作において、ステップS10を、ステップS10aに代えただけである。したがって、それ以外のステップには、同一ステップ番号を付し、説明を省略する。
ステップS10aにおいて、信号処理装置14は、割り込み発話がなされると予測したことに応じて、例えば、ステップS6の音声認識結果に応じて決定されるシステム応答の可変応答箇所を全て出力した後に、システム応答の出力を一時的に停止し、この停止期間中においてバージイン機能を有効化する。
例えば、信号処理装置14は、「行き先を神奈川県鶴間駅に設定します」というようなシステム応答をする場合には、図9に示すように、可変応答箇所である「鶴間駅」を発話した後、タイミングDにおいて、システム応答を一時的に停止する。
信号処理装置14は、このようにシステム応答を一時的に停止した後、バージイン機能を有効化し、訂正スイッチ4bが押下され、ユーザからの割り込み発話がなされるのを待機する。信号処理装置14は、所定の時間、システム応答を停止させると、バージイン機能を無効とし、システム応答を再開する。図9に示す例では、信号処理装置14は、バージイン機能が無効とされた後に、定型応答である「に設定します」というシステム応答を出力する。
システム応答を一時的に停止させる期間は、図9に示すように、必ずしも可変応答箇所を全て出力した後でなくてもよく、システム応答中に、ユーザの訂正発話を促すことができる箇所であればどこに設けるようにしてもよい。
このように、音声対話装置は、システム応答を出力している最中に、一時的にシステム応答を停止させ、この停止期間において、バージイン機能を有効化し、ユーザからの割り込み発話の待機をする。これにより、ユーザが割り込み発話をし易い状況を設定しながら、バージイン機能が有効となる期間を限定することができるため、音声対話装置の限られたシステム演算能力資源を必要以上に消費してしまうことを抑制することができる。また、このようにバージイン機能を有効とするタイミングを規定して、有効となる期間を限定することで、ノイズなどの不必要な音声要素の検出を極力排除できるため、誤認識の発生を低減させることができる。
なお、上述の実施の形態は本発明の一例である。このため、本発明は、上述の実施形態に限定されることはなく、この実施の形態以外であっても、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることは勿論である。
本発明の実施の形態として示す音声対話装置の構成について説明するための図である。 ネットワーク文法について説明するための図である。 本発明の第1乃至第3の実施の形態として示す音声対話装置の処理動作について説明するための図である。 本発明の第1の実施の形態として示す音声対話装置において、バージイン機能を有効化するタイミングについて説明するための図である。 本発明の第1の実施の形態として示す音声対話装置とユーザとの間でなされる音声対話の一例を示した図である。 本発明の第2の実施の形態として示す音声対話装置において、バージイン機能を有効化するタイミングについて説明するための図である。 本発明の第3の実施の形態として示す音声対話装置において、バージイン機能を有効化するタイミングについて説明するための図である。 本発明の第4の実施の形態として示す音声対話装置の処理動作について説明するためのフローチャートである。 本発明の第4の実施の形態として示す音声対話装置において、バージイン機能を有効化するタイミングについて説明するための図である。
符号の説明
1 信号処理ユニット
2 マイク
3 スピーカ
4 入力装置
4a 発話スイッチ
4b 訂正スイッチ
5 ディスプレイ
11 A/Dコンバータ
12 D/Aコンバータ
13 出力アンプ
14 信号処理装置
15 外部記憶装置
21 CPU(Central Processing Unit)

Claims (6)

  1. 発話音声を入力する入力手段と、
    前記入力手段によって入力された発話音声を認識する音声認識手段と、
    前記音声認識手段による音声認識結果に応じたシステム応答を生成するシステム応答生成手段と、
    前記システム応答生成手段によって生成された前記システム応答を出力する出力手段と、
    前記出力手段から前記システム応答が出力されている最中に、前記入力手段から訂正発話として割り込むように入力される発話音声に対する音声認識処理を実行させるよう前記音声認識手段を制御する割り込み制御手段と、
    前記入力手段から訂正発話として割り込むように入力される発話音声の割り込みタイミングを予測する割り込みタイミング予測手段と、
    前記割り込みタイミング予測手段によって予測される割り込みタイミング以降、前記割り込み制御手段が有効となるよう制御する制御手段とを備えることを
    を特徴とする音声対話装置。
  2. 前記割り込みタイミング予測手段は、前記システム応答生成手段によって生成された前記システム応答に、前記音声認識手段による音声認識結果に応じて決定される可変応答箇所が含まれる場合、前記出力手段によって前記可変応答箇所が出力されるタイミングを、前記割り込みタイミングとして予測すること
    を特徴とする請求項1記載の音声対話装置。
  3. 前記システム応答に含まれる前記可変応答箇所のうち、誤認識される可能性の高い可変応答箇所を推定する誤認識推定手段を備え、
    前記割り込みタイミング予測手段は、前記システム応答に含まれる、前記誤認識推定手段によって推定された誤認識される可能性の高い可変応答箇所が、前記出力手段によって出力されるタイミングを、前記割り込みタイミングとして予測すること
    を特徴とする請求項2記載の音声対話装置。
  4. 前記システム応答に含まれる前記可変応答箇所のうち、誤認識される可能性の高い可変応答箇所を推定する誤認識推定手段を備え、
    前記システム応答生成手段は、前記誤認識推定手段によって推定された誤認識される可能性の高い可変応答箇所を問い合わせて、前記可変応答箇所の発話を要求するシステム応答を生成し、
    前記タイミング予測手段は、前記システム応答に含まれる、前記誤認識される可能性の高い可変応答箇所を直接的に問い合わせる箇所が、前記出力手段によって出力されるタイミングを、前記割り込みタイミングとして予測すること
    を特徴とする請求項2記載の音声対話装置。
  5. 前記制御手段は、前記出力手段から前記システム応答が出力されている最中に、前記システム応答の出力を一時的に停止させると共に、前記システム応答の出力が一時的に停止された停止期間中に前記割り込み制御手段が有効となるよう制御すること
    を特徴とする請求項1記載の音声対話装置。
  6. 入力された発話音声を認識する音声認識工程と、
    前記音声認識工程による音声認識結果に応じたシステム応答を生成するシステム応答生成工程と、
    前記システム応答生成工程によって生成された前記システム応答が出力されている最中に、訂正発話として割り込むように入力される発話音声に対する音声認識処理を実行させるよう前記音声認識工程を制御する割り込み制御工程と、
    訂正発話として割り込むように入力される発話音声の割り込みタイミングを予測する割り込みタイミング予測工程と、
    前記割り込みタイミング予測工程によって予測される割り込みタイミング以降、前記割り込み制御工程が有効となるよう制御する制御工程とを備えることを
    を特徴とする割り込み発話制御方法。
JP2005165837A 2005-06-06 2005-06-06 音声対話装置及び割り込み発話制御方法 Pending JP2006337942A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005165837A JP2006337942A (ja) 2005-06-06 2005-06-06 音声対話装置及び割り込み発話制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005165837A JP2006337942A (ja) 2005-06-06 2005-06-06 音声対話装置及び割り込み発話制御方法

Publications (1)

Publication Number Publication Date
JP2006337942A true JP2006337942A (ja) 2006-12-14

Family

ID=37558528

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005165837A Pending JP2006337942A (ja) 2005-06-06 2005-06-06 音声対話装置及び割り込み発話制御方法

Country Status (1)

Country Link
JP (1) JP2006337942A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008157987A (ja) * 2006-12-20 2008-07-10 Toyota Motor Corp 対話制御装置、対話制御方法及び対話制御プログラム
JP2012073364A (ja) * 2010-09-28 2012-04-12 Toshiba Corp 音声対話装置、方法、プログラム
JP2014077969A (ja) * 2012-10-12 2014-05-01 Honda Motor Co Ltd 対話システム及び対話システム向け発話の判別方法
JP2018124484A (ja) * 2017-02-02 2018-08-09 トヨタ自動車株式会社 音声認識装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008157987A (ja) * 2006-12-20 2008-07-10 Toyota Motor Corp 対話制御装置、対話制御方法及び対話制御プログラム
JP2012073364A (ja) * 2010-09-28 2012-04-12 Toshiba Corp 音声対話装置、方法、プログラム
JP2014077969A (ja) * 2012-10-12 2014-05-01 Honda Motor Co Ltd 対話システム及び対話システム向け発話の判別方法
JP2018124484A (ja) * 2017-02-02 2018-08-09 トヨタ自動車株式会社 音声認識装置

Similar Documents

Publication Publication Date Title
US10706853B2 (en) Speech dialogue device and speech dialogue method
US9224404B2 (en) Dynamic audio processing parameters with automatic speech recognition
KR20190001434A (ko) 발화 인식 모델을 선택하는 시스템 및 전자 장치
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
JP7365985B2 (ja) 音声を認識するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
JP5431282B2 (ja) 音声対話装置、方法、プログラム
JP6675078B2 (ja) 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
JP2008033198A (ja) 音声対話システム、音声対話方法、音声入力装置、プログラム
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2006337942A (ja) 音声対話装置及び割り込み発話制御方法
JP2006208486A (ja) 音声入力装置
KR102417899B1 (ko) 차량의 음성인식 시스템 및 방법
JP6673243B2 (ja) 音声認識装置
JP2018116206A (ja) 音声認識装置、音声認識方法及び音声認識システム
JP2007127896A (ja) 音声認識装置及び音声認識方法
JP2007183516A (ja) 音声対話装置及び音声認識方法
JP4951422B2 (ja) 音声認識装置、および音声認識方法
JP6966374B2 (ja) 音声認識システム及びコンピュータプログラム
KR100749088B1 (ko) 대화형 네비게이션 시스템 및 그 제어방법
JP2007127895A (ja) 音声入力装置及び音声入力方法
JP2006337963A (ja) 音声対話装置及び訂正発話認識方法
JP2006251059A (ja) 音声対話装置および音声対話方法
JP6999236B2 (ja) 音声認識システム
JP2006023444A (ja) 音声対話装置
EP2760019B1 (en) Dynamic audio processing parameters with automatic speech recognition