JP5739718B2

JP5739718B2 - 対話装置

Info

Publication number: JP5739718B2
Application number: JP2011092683A
Authority: JP
Inventors: 雄一吉田; 拓長田
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2011-04-19
Filing date: 2011-04-19
Publication date: 2015-06-24
Anticipated expiration: 2031-04-19
Also published as: JP2012226068A; US20120271633A1; US9002705B2

Description

本発明は、ユーザの発話内容に対応した応答行動を行う対話装置に関するものである。

従来、ユーザとコミュニケーションをとることが可能なコミュニケーションロボット等に利用される対話装置では、文単位、あるいは複数の文が区切りなく発話されたユーザの音声を認識することが必要となるため、統計的音声認識手法を利用した連続音声認識が適用されている。このような統計的音声認識手法の探索アルゴリズムとしては、１パス探索とマルチパス探索が知られている。

１パス探索は、図１６（ａ）に示すように、入力された音声における単語候補の探索を一度だけ行う手法である。１パス探索は、ユーザの発話区間を始端から終端まで連続して探索するため、認識精度が比較的高いという利点がある。しかし、１パス探索は、大語彙になるほど処理量が多くなるため、複雑なモデル（音響モデルおよび言語モデル）の導入が困難であるという問題があった。

そこで、現在は、図１６（ｂ）に示すように、ユーザの発話内容の探索を複数回行うマルチパス探索が広く利用されている。マルチパス探索では、図１６（ｂ）に示すように、まず発話区間の始端から終端に向かって簡易な（精度の荒い）モデルを用いた第１パス探索を行った後、発話区間の終端から始端に向かって複雑な（精度の高い）モデルを用いた第２パス探索を行う。マルチパス探索は、各パスにおいて簡易なモデルから詳細なモデルに切り替えることで全体の計算量を抑えることをできるため、実装がしやすいという利点がある。

その一方で、図１６（ｂ）に示すようなマルチパス探索では、発話区間全体についての第２パス探索が終わらなければ音声認識の認識結果を出力することができないという問題があった。すなわち、図１６（ｂ）に示すマルチパス探索では、発話の途中で応答行動を決定するためのキーフレーズが出てきても、逐次認識結果を出力することができず、発話区間の終端まで探索を行わなければ認識結果を出力することができなかった。このように、ユーザの発話音声を聞きながら逐次認識結果を出力するには、音声認識の結果を何らかの基準に従って認識途中で早期に確定する必要がある。

そこで、現在では、図１６（ｃ）に示すように、発話区間を所定長さの区間に分割し、当該分割した区間ごとに認識結果を早期確定して逐次出力する逐次認識技術が提案されている（例えば特許文献１、非特許文献１，２参照）。このような逐次認識技術は、例えば、発話の書き起こしや字幕作成を音声認識で自動化する分野で主に利用されている。

特許文献１では、発話区間の音声を認識して意味表現を取り出し、その意味表現の列を意味的なまとまりごとに分割した上で、分割したそれぞれの意味表現に対する処理を行う音声対話システムが提案されている。また、非特許文献１では、早期確定を行うフレームの間隔（発話区間を区切る間隔）を１．５〜３秒に設定し、その周辺で１パス目の終端単語を探索することにより、発話区間が短いことで懸念される認識率の低下を回避する技術が提案されている。そして、非特許文献２では、３００ｍｓｅｃごとに１パス探索における最尤単語列の比較を行うことで、早期確定を行うことができる終端単語を探索することで、単語確定平均遅れ時間を５１２ｍｓｅｃに抑えた逐次音声認識の技術が提案されている。

特開平６−２５９０９０号公報（図１参照）

瀬川修、他２名「端点検出を行わない連続音声認識手法」、音声言語情報処理３４−１８ｐｐ．１０１−１０６、２０００年１２月今井亨、他３名「最ゆう単語列逐次比較による音声認識結果の早期確定」、電子情報通信学会論文誌Ｄ−ＩＩＶｏｌ．Ｊ８４−Ｄ−ＩＩＮｏ．９ｐｐ．１９４２−１９４９、２００１年９月

しかしながら、特許文献１および非特許文献１，２で提案された技術は、いずれも簡易なモデルを用いた第１パス探索（以下、適宜１パス目という）の結果から早期確定するフレームの間隔を特定しているため、１パス目における探索結果が誤っている場合、間違えた単語の区切りが第２パス探索（以下、適宜２パス目という）の探索結果に影響し、認識率が低下してしまうという問題があった。

また、音声対話による逐次認識では、発話の書き起こしや字幕作成の場合よりも速いレスポンスが求められるため、早期確定を行う間隔をより短くする必要がある。しかし、特許文献１および非特許文献１，２で提案された技術は、認識結果のレスポンスを上げるために早期確定するフレームの間隔を短くすると、音声認識を行う区間が短くなって単語同士の境界の探索が不安定となり、認識率が低下してしまうという問題があった。

本発明は、前記した問題点に鑑み創案されたものであり、音声認識の認識結果を早期確定して逐次認識結果を出力することができるとともに、早期確定するフレームの間隔を短くした場合であっても、認識率の低下を抑制することができる対話装置を提供することを課題とする。

前記課題を解決するために本発明に係る対話装置は、入力された音声を音声認識することでユーザの発話内容を認識し、当該発話内容に対応した所定の応答行動を行う対話装置であって、前記音声中における前記ユーザの発話の始端となる発話始端フレームを認識開始位置に設定するとともに、当該認識開始位置から所定の時間長だけ進んだ位置のフレームを認識終了位置に設定し、既に設定された前記認識終了位置を、当該認識終了位置から前記所定の時間長だけ進んだ位置のフレームに繰り返し更新することで、音声認識を実施する前記認識終了位置の異なる複数の認識区間を設定する認識区間設定手段と、前記認識区間において音声認識を行う音声認識手段と、前記音声認識手段による認識結果の中に所定のキーフレーズが含まれる場合、当該キーフレーズに対応した所定の応答行動を決定する応答行動決定手段と、前記応答行動決定手段によって決定された応答行動を逐次実行する応答行動実行手段と、を備え、前記音声認識手段が、前記ユーザの発話区間において、前記発話始端フレームから発話の終端となる発話終端フレームに向かって単語候補の探索を行う第１パス探索部と、前記第１パス探索部による探索結果に従って、前記認識終了位置の異なる複数の認識区間のそれぞれについて、前記認識終了位置から前記認識開始位置に向かって前記単語候補の探索を行う第２パス探索部と、を備え、前記認識区間設定手段が、前記第２パス探索部による探索結果の中に前記ユーザの発話の区切りが含まれる場合、前記認識開始位置を、当該発話の区切りの先頭の位置のフレームに更新し、前記応答行動決定手段が、前記第２パス探索部による探索結果の中に前記所定のキーフレーズが含まれる場合、当該キーフレーズに対応して予め定められた前記所定の応答行動を決定する構成とした。

このような構成を備える対話装置は、認識区間設定手段によって、ユーザの発話区間を所定の時間長ごとに区切るとともに、当該区切りの位置を認識終了位置とする複数の長さの認識区間を設定し、音声認識手段によって、当該複数の認識区間のそれぞれについて音声認識を行うことで、前記した区切りの位置で音声認識の認識結果を早期確定することができ、複数の認識区間ごとの認識結果（部分認識結果）を出力することができる。

また、このような構成を備える対話装置は、認識区間設定手段によって、予め設定された認識終了位置を所定の時間長だけ進んだ位置のフレームに繰り返し更新することで、複数の長さの認識区間を設定し、第１パス探索部によって、ユーザの発話区間全体の探索を行い、第２パス探索部によって、当該複数の認識区間のそれぞれについて探索を行うことで、速度と精度を両立させながら音声認識を行うことができる。

また、このような構成を備える対話装置は、第２パス探索部によってショートポーズやフィラー等のユーザの発話の区切りが検出された場合、認識区間設定手段によって、予め設定された認識開始位置を当該発話の区切りの位置の先頭のフレームに更新する。従って、対話装置は、認識終了位置が繰り返し更新されることで認識区間が繰り返し延長される場合であっても、当該認識区間を短縮させることができる。そのため、対話装置は、長い発話に対して第２パス探索による逆向き探索区間の増加を抑えて探索にかかる処理時間を削減することができるとともに、応答速度を維持することができる。

また、本発明に係る対話装置は、前記応答行動決定手段が、前記第２パス探索部による探索結果の中に複数の単語からなる所定のキーフレーズが含まれる場合、当該キーフレーズに対応した所定の応答行動を決定することが好ましい。

このような構成を備える対話装置は、応答行動決定手段によって、第２パス探索部による探索結果の中に複数の単語からなるキーフレーズが含まれるか否かによって応答行動を決定する。従って、対話装置は、認識区間を短い時間（例えば２００ｍｓｅｃ）で区切って連続音声認識を行った場合において、第２パス探索部の探索結果の中に誤った単語候補が含まれる場合であっても、一つの単語候補のみで応答行動を決定しないため、応答行動の決定をより精度よく厳密に行うことができる。

また、本発明に係る対話装置は、前記第２パス探索部が、探索を行った前記単語候補ごとに、当該単語候補の確からしさを示す単語信頼度を算出し、前記応答行動決定手段が、前記第２パス探索部による探索結果の中に前記所定のキーフレーズが含まれるとともに、当該キーフレーズと一致する単語候補の前記単語信頼度が予め定められた所定値よりも高い場合、前記キーフレーズに対応した前記所定の応答行動を決定することが好ましい。

このような構成を備える対話装置は、応答行動決定手段によって、第２パス探索部による探索結果の中にキーフレーズが含まれるとともに、当該キーフレーズと一致する単語候補の単語信頼度が所定以上である場合のみ応答行動を決定するため、応答行動の決定をより精度よく厳密に行うことができる。

また、本発明に係る対話装置は、前記キーフレーズと、当該キーフレーズに対応した前記所定の応答行動と、当該所定の応答行動のカテゴリを示す応答行動カテゴリと、をそれぞれ関連付けて記憶する応答行動記憶手段と、前記応答行動決定手段によって既に決定された応答行動の履歴を記憶する応答行動履歴記憶手段と、を備え、前記応答行動決定手段が、前記第２パス探索部による探索結果の中に前記所定のキーフレーズが含まれる場合、前記応答行動記憶手段および前記応答行動履歴記憶手段を参照することで、今回決定しようとする応答行動の前記応答行動カテゴリと、前回決定された応答行動の前記応答行動カテゴリと、が一致するか否かを判定し、両者が一致する場合、前記キーフレーズに対応した前記所定の応答行動を決定することが好ましい。

このような構成を備える対話装置は、応答行動決定手段によって、今回決定しようとする応答行動が前回決定した応答行動と同じカテゴリに属する場合のみ、今回の応答行動を決定するため、第２パス探索部による誤探索の結果、前回決定された応答行動と全く関連しない、誤った探索結果に基づいた応答行動が決定されることを防止することができる。

また、本発明に係る対話装置は、前記応答行動実行手段が、前記第２パス探索部による最後の探索結果に従って決定された応答行動と、前記第２パス探索部による最後よりも前の探索結果に従って決定された応答行動と、が異なる場合、最後の探索結果に従って決定された応答行動を実行することが好ましい。

このような構成を備える対話装置は、応答行動実行手段によって、第２パス探索部による最終的な探索結果に従って決定された応答行動を実行するため、第２パス探索部による途中の探索結果が誤っていた場合であっても、誤った応答行動が実行されることを防止することができる。

また、本発明に係る対話装置は、前記応答行動実行手段が、前記応答行動決定手段によって決定された応答行動の実行を開始した後に、前記第２パス探索部による最後の探索が行われた場合において、現在実行中の応答行動に対応した前記第２パス探索部による探索結果の認識結果と、前記第２パス探索部による最後の探索結果と、が異なる場合、現在実行中の応答行動を中止して当該応答行動を訂正するための所定の応答行動を実行した後、前記第２パス探索部による最後の探索結果に従って、前記応答行動決定手段によって決定された応答行動を実行することが好ましい。

このような構成を備える対話装置は、第２パス探索部による途中の探索結果（発話区間途中の探索結果）が誤っていた場合において、当該誤った探索結果に従って既に応答行動が決定および実行されてしまった場合であっても、当該誤った応答行動を訂正した上で、第２パス探索部による最終的な探索結果（発話区間終端の探索結果）に従って応答行動を実行することができる。

本発明に係る対話装置によれば、ユーザの発話区間を所定の時間長ごとに区切った認識区間について連続音声認識を行うことで、逐次認識のレスポンスを確保しながら、認識区間の長さを確保して認識率の低下を抑制することができる。

本発明の第１実施形態に係る対話装置の構成を示すブロック図である。本発明の第１実施形態に係る対話装置の詳細な構成を示すブロック図である。本発明の第１実施形態に係る対話装置の音声認識手段による探索処理の概要を示す概略図である。本発明の第１実施形態に係る対話装置の音声認識手段による一連の処理を示す概略図であって、（ａ）は、ユーザの発話例を示す図、（ｂ）は、認識区間の設定例を示す図、（ｃ）は、ユーザの発話例に対する認識結果の例を示す図、である。本発明の第１実施形態に係る対話装置の応答行動決定手段が予め保持するテーブルを示す概略図である。本発明の第１実施形態に係る対話装置の動作を示すフローチャートである。本発明の第１実施形態に係る対話装置の動作における認識区間の設定処理を示すフローチャートである。本発明の第１実施形態に係る対話装置の動作における認識開始位置の更新処理を示すフローチャートである。本発明の第１実施形態に係る対話装置の動作における応答行動の決定処理の一例を説明するための図であって、（ａ）は、応答行動の決定処理を示すフローチャート、（ｂ）は、応答行動の決定処理の具体例を示す図、である。本発明の第１実施形態に係る対話装置の動作における応答行動の決定処理のその他の例を説明するための図であって、（ａ）は、応答行動の決定処理を示すフローチャート、（ｂ）は、応答行動の決定処理の具体例を示す図、である。本発明の第１実施形態に係る対話装置の動作における応答行動の実行処理の一例を示すフローチャートである。本発明の第１実施形態に係る対話装置の動作における応答行動の実行処理のその他の例を示すフローチャートである。本発明の第２実施形態に係る対話装置の詳細な構成を示すブロック図である。本発明の第２実施形態に係る対話装置の応答行動記憶手段が予め保持するテーブルを示す概略図である。本発明の第２実施形態に係る対話装置の動作における応答行動の決定処理の一例を説明するための図であって、（ａ）は、応答行動の決定処理の詳細を示すフローチャート、（ｂ）は、応答行動の決定処理の具体例を示す図、である。従来の探索処理の概要を示す概略図であって、（ａ）は、１パス探索を示す概略図、（ｂ）、（ｃ）は、それぞれマルチパス探索を示す概略図、である。

本発明に係る対話装置について、図面を参照しながら説明する。なお、以下の説明では、各実施形態について、同一の構成については同一の名称及び符号を付し、詳細説明を適宜省略する。

［第１実施形態］
以下、本発明の第１実施形態に係る対話装置１について、図１〜図５を参照しながら詳細に説明する。対話装置１は、入力されたユーザの音声（以下、適宜入力音声という）から当該ユーザの発話内容を認識し、この発話内容に対応した応答行動を行うものである。対話装置１は、例えば前記したコミュニケーションロボットや、音声を用いて航空券やチケット等の購入を行うシステム等に利用される。

対話装置１は、ここでは図１に示すように、音声入力手段１０と、認識区間設定手段２０と、音声認識手段３０と、応答行動決定手段４０と、応答行動実行手段５０と、を備えている。以下、対話装置１の各要素について、詳細に説明する。

音声入力手段１０は、図２に示すように、外部からユーザの音声が入力されるものである。音声入力手段１０は、例えばオーディオインターフェイスであり、図示しない外部マイク等を介して入力された音声を、図１に示すように、音声時系列データとして認識区間設定手段２０に出力する。

認識区間設定手段２０は、図２に示すように、音声認識を行う区間を示す認識区間を設定するものである。認識区間設定手段２０は、具体的には、音声認識の認識区間の始端となる認識開始位置と、音声認識の認識区間の終端となる認識終了位置と、を設定することで、所定長さ（所定フレーム間隔）の認識区間を設定する。認識区間設定手段２０は、図２に示すように、音声分析部２１と、認識開始位置設定部２２と、認識終了位置設定部２３と、認識終了位置更新部２４と、認識開始位置更新部２５と、を備えることが好ましい。

音声分析部２１は、図２に示すように、音声時系列データを音声特徴ベクトルの時系列に変換するものである。音声分析部２１は、ユーザの音声を含む音声時系列データを所定時間長、例えば１０ｍｓｅｃ程度の時間間隔でフレームに分断し、ケプストラム分析によってそれぞれのフレームごとに特徴量を分析することで、音声時系列データに対応した音声特徴ベクトルの時系列を生成する。なお、音声特徴ベクトルの具体例としては、例えばＭＦＣＣ（Mel Frequency Cepstral Coefficient）、ΔＭＦＣＣ、ΔΔＭＦＣＣ、Δ対数パワー等が挙げられる。

音声分析部２１には、図２に示すように、音声入力手段１０からユーザの音声を含む音声時系列データが入力される。そして、音声分析部２１は、前記した手法によって音声時系列データを音声特徴ベクトルの時系列に変換し、図２に示すように、当該音声特徴ベクトルの時系列を認識開始位置設定部２２と、認識終了位置更新部２４と、第１パス探索部３１と、にそれぞれ出力する。

認識開始位置設定部２２は、図２に示すように、音声認識の認識区間における認識開始位置を設定するものである。認識開始位置設定部２２は、例えば音声特徴ベクトルの時系列のパワー情報を用いて、音声特徴ベクトルのパワーが予め定めた所定の閾値を超えるフレームを入力音声におけるユーザの発話の始端となる発話始端フレームとして検出する。そして、認識開始位置設定部２２は、当該発話始端フレームを認識開始位置に設定する。

認識開始位置設定部２２には、図２に示すように、音声分析部２１から音声特徴ベクトルの時系列が入力される。そして、認識開始位置設定部２２は、前記した手法によって入力音声の認識開始位置を設定し、図２に示すように、当該認識開始位置を認識終了位置設定部２３と、認識開始位置更新部２５と、第１パス探索部３１と、第２パス探索部３２と、にそれぞれ出力する。

認識終了位置設定部２３は、図２に示すように、音声認識の認識区間における認識終了位置を設定するものである。認識終了位置設定部２３は、具体的には、認識開始位置設定部２２によって設定された認識開始位置から予め定められた時間長だけ進んだ位置のフレームを認識終了位置に設定する。ここで、予め定められた時間長としては、例えば形態素解析における一つの形態素に相当する時間長とすることが好ましく、具体的には２００ｍｓｅｃとすることがより好ましい。

認識終了位置設定部２３には、図２に示すように、認識開始位置設定部２２から認識開始位置が入力される。そして、認識終了位置設定部２３は、前記した手法によって入力音声の認識終了位置を設定し、図２に示すように、当該認識終了位置を認識終了位置更新部２４と、第２パス探索部３２と、にそれぞれ出力する。

認識終了位置更新部２４は、図２に示すように、音声認識の認識区間における認識終了位置を更新するものである。認識終了位置更新部２４は、具体的には認識終了位置設定部２３によって既に設定された認識終了位置を、予め定められた時間長だけ進んだ位置のフレームに繰り返し更新する。すなわち、認識終了位置更新部２４は、既に設定された認識終了位置を所定の時間長分だけずらすことで、認識区間を当該所定の時間長だけ延長する。なお、予め定められた時間長としては、前記したように、例えば形態素解析における一つの形態素に相当する時間長とすることが好ましく、具体的には２００ｍｓｅｃとすることがより好ましい。

このように、認識終了位置更新部２４によって、認識終了位置を繰り返し更新することで、ユーザの発話区間を所定の時間長ごとに区切ることができ、当該区切りの位置で音声認識の認識結果を早期確定することができる。また、所定の時間長を例えば２００ｍｓｅｃに設定することで、早期確定を行うフレームの間隔を従来よりも短くすることができるため、当該区切りの位置でその都度部分認識結果を出力することができ、対話装置１のレスポンスを向上させることができる。

ここで、図３に示すように、ユーザの発話区間の始端のフレームに認識開始位置ｓ１が設定され、当該認識開始位置ｓ１から例えば２００ｍｓｅｃ進んだ位置のフレームに認識終了位置ｅ１が設定されているとする。この場合、認識終了位置更新部２４は、認識終了位置ｅ１を、当該認識終了位置ｅ１から２００ｍｓｅｃ進んだ位置のフレームに更新して認識終了位置ｅ２とする。また、認識終了位置更新部２４は、同じように、認識終了位置ｅ２を認識終了位置ｅ３に更新する。これにより、認識区間設定手段２０は、長さの異なる複数の認識区間（ｓ１〜ｅ１の区間：２００ｍｓｅｃ、ｓ１〜ｅ２の区間：４００ｍｓｅｃ、ｓ１〜ｅ３の区間：６００ｍｓｅｃ）を設定することができる。

なお、認識終了位置更新部２４は、例えば音声特徴ベクトルの時系列のパワー情報を用いて、音声特徴ベクトルのパワーが予め定めた所定の閾値未満となるフレームを、入力音声におけるユーザの発話の終端となる発話終端フレームとして検出している。そして、認識開始位置設定部２２によって設定された認識開始位置から予め定められた時間長（例えば２００ｍｓｅｃ）だけ進んだ位置までの間に、前記した発話終端フレームが存在する場合、当該発話終端フレームを認識終了位置に設定する。

認識終了位置更新部２４には、図２に示すように、音声分析部２１から音声特長ベクトルの時系列が、認識終了位置設定部２３から認識終了位置が入力される。そして、認識終了位置更新部２４は、前記した手法によって認識終了位置を更新し、図２に示すように、当該更新後の認識終了位置を第１パス探索部３１と、第２パス探索部３２と、にそれぞれ出力する。

認識開始位置更新部２５は、図２に示すように、音声認識の認識区間における認識開始位置を更新するものである。認識開始位置更新部２５は、具体的には図３に示すように、後記する第２パス探索部３２による探索結果の中にユーザの発話の区切りが含まれる場合、認識開始位置設定部２２によって既に設定された認識開始位置を、当該発話の区切りの位置の先頭のフレームに更新する。

ここで、前記したユーザの発話の区切りとは、例えば発話中におけるショート・ポーズ（息継ぎ）、フィラー（「えー」等の音声）等のことを示しており、ショート・ポーズの場合は、入力音声中における例えば２００ｍｓｅｃ未満の無音区間のことを意味している。なお、第２パス探索部３２は、後記するように、精度の高いモデルを用いて最終的な単語候補を探索しているため、その探索結果に含まれるユーザの発話の区切りも精度の高いものとなる。従って、認識開始位置更新部２５は、入力音声をユーザの発話の区切りの位置で適切に区切ることができる。

前記したように、認識開始位置更新部２５によって認識開始位置が更新された場合、前記した認識終了位置更新部２４は、当該更新された認識開始位置から、予め定められた時間長だけ進んだ位置（例えば２００ｍｓｅｃ）のフレームに認識終了位置を更新する。すなわち、図３に示すように、第２パス探索部３２による３回目の探索結果（ｓ１〜ｅ３の区間における探索結果）の中に、ユーザの発話の区切りが含まれる場合、認識開始位置更新部２５は、当該発話の区切りの先頭のフレームを新しい認識開始位置ｓ２に設定する。そして、認識終了位置更新部２４は、認識終了位置ｅ３を、認識開始位置ｓ２から２００ｍｓｅｃ進んだ位置のフレームに更新して認識終了位置ｅ４とする。このように、認識開始位置更新部２５によって認識開始位置が更新された場合、これに対応して、認識終了位置更新部２４も前記更新後の認識開始位置を基準として認識終了位置を再度更新する。

このような認識開始位置更新部２５を備える対話装置１は、第２パス探索部３２によってショートポーズやフィラー等のユーザの発話の区切りが検出された場合、当該認識開始位置更新部２５によって、予め設定された認識開始位置を当該発話の区切りの位置の先頭のフレームに更新する。従って、対話装置１は、認識終了位置更新部２４によって認識終了位置が繰り返し更新されることで認識区間が繰り返し延長される場合であっても、認識開始位置更新部２５によって当該認識区間を短縮させることができる。そのため、対話装置１は、長い発話に対して第２パス探索による逆向き探索区間の増加を抑えて探索にかかる処理時間を削減することができるとともに、応答速度を維持することができる。

認識開始位置更新部２５には、図２に示すように、認識開始位置設定部２２から認識開始位置が、第２パス探索部３２から第２パス探索結果が入力される。そして、認識開始位置更新部２５は、前記した手法によって認識開始位置を更新し、図２に示すように、当該更新後の認識開始位置を第２パス探索部３２に出力する。以下、対話装置１の残りの構成について説明を続ける。

音声認識手段３０は、図２に示すように、認識区間において音声認識を行うものである。音声認識手段３０は、具体的には音声分析部２１によって生成された音声特徴ベクトルの時系列を入力として、言語モデル（Language Model）、音響モデル（Acoustic Model）、単語辞書（Word Dictionary）を用いた尤度計算によって入力音声のテキスト化を行なう。

ここで、言語モデルは、単語間の接続関係を規定するものであり、予め膨大なテキストデータを形態素解析することで作成される。言語モデルは、例えば単語Ｎ−ｇｒａｍモデルを用いることができる。また、音響モデルは、音素（ローマ字１文字にほぼ相当）や音節（かな１文字に相当）の周波数パターンを保持するものであり、予め膨大な音声データを収集して作成される。音響モデルは、例えば隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）を用いることができる。そして、単語辞書は、認識対象の語彙（＝単語の集合）とその発音を規定するものである。なお、言語モデル、音響モデルおよび単語辞書は、図示しない記憶手段に記憶されており、音声認識手段３０に入出力可能に構成されている。音声認識手段３０は、図２に示すように、第１パス探索部３１と、第２パス探索部３２と、を備えることが好ましい。

第１パス探索部３１は、図３に示すように、ユーザの発話区間において、発話始端フレームから発話終端フレームに向かって単語候補の探索を行うものである。ここで、発話始端フレームとは、具体的には前記した認識開始位置設定部２２によって最初に設定された認識開始位置（認識開始位置更新部２５によって更新されていない認識開始位置、例えば図３におけるｓ１）のことを意味している。また、発話終端フレームとは、具体的には前記した認識終了位置更新部２４によってユーザの発話の終端のフレームに設定された認識終了位置（例えば図３におけるｅ７）のことを意味している。すなわち、第１パス探索部３１は、入力音声中におけるユーザの発話区間全体（始端から終端まで）に対して音声認識を行う。

第１パス探索部３１は、前記した言語モデル、音響モデルおよび単語辞書を用いて、音声特徴ベクトルの時系列の入力と並行して、ｌｅｆｔ−ｔｏ−ｒｉｇｈｔにフレーム同期ビーム探索を行う。第１パス探索部３１によって行われる第１パス探索は、後記する第２パス探索の前段処理であり、入力音声に対する単語の絞り込みを目的としている。従って、第１パス探索部３１は、精度よりも高速性を重視したヒューリスティックな探索を行う。

第１パス探索部３１は、具体的には精度の荒い言語モデルである単語２−ｇｒａｍ（ｂｉｇｒａｍ）モデルや、精度の荒い音響モデルを用いて入力音声に対応した音声特徴ベクトルの時系列に対してリアルタイムに第１パス探索を行い、第１パス探索結果として、単語トレリス（単語候補集合）を出力する。この単語トレリスは、第1パス探索中の各フレームにおける単語候補をインデックス化したものであり、音声認識のいわば中間結果に相当するものである。また、この単語トレリスには、単語候補ごとの尤度も含まれている。

第１パス探索部３１には、図２に示すように、音声分析部２１から音声特徴ベクトルの時系列が、認識開始位置設定部２２から認識開始位置（発話区間の始端）が、認識終了位置更新部２４から更新された認識終了位置（発話区間の終端）が入力される。そして、第１パス探索部３１は、前記した手法によって第１パス探索を行い、当該第１パス探索結果（単語トレリス）を第２パス探索部３２に出力する。

第２パス探索部３２は、図３に示すように、認識区間において、認識終了位置から認識開始位置に向かって単語候補の探索を行うものである。第２パス探索部３２は、前記した言語モデル、音響モデルおよび単語辞書を用いて、第１パス探索部３１による第１パス探索が終了した後に、ｒｉｇｈｔ−ｔｏ−ｌｅｆｔにスタックデコーディングサーチを行う。第２パス探索部３２によって行う第２パス探索は、前記した第１パス探索の後段処理であり、第１パス探索によって得られた中間結果に対して再探索を行い、最終的な単語候補（仮説）を決定することを目的としている。従って、第２パス探索部３２は、高速性よりも精度を重視した探索を行う。

第２パス探索部３２は、具体的には精度の高い言語モデルである単語３−ｇｒａｍ（ｔｒｉｇｒａｍ）モデルや、精度の高い音響モデルを用いて単語トレリスに対して逆向きに第２パス探索を行い、第２パス探索結果として、最終的な単語候補を出力する。このように、第２パス探索部３２は、第１パス探索部３１によって絞り込まれた結果（単語トレリス）に対して逆向きに探索を行うため、第１パス探索で算出された単語候補の尤度を未探索部分の先読みとして反映させることができ、仮説（単語候補）の入力全体に対する評価を得ながら探索を進めることができる。

第２パス探索部３２は、第１パス探索部３１とは異なり、例えば図３に示すように、長さの異なる複数の認識区間のそれぞれに対して単語候補の探索を行う。第２パス探索部３２は、例えば第１パス探索部３１によって単語トレリスが生成されると、当該単語トレリス上において、認識終了位置設定部２３によって設定された認識終了位置ｅ１から、認識開始位置設定部２２によって設定された認識開始位置ｓ１まで、逆向きに探索を行う。また、第２パス探索部３２は、認識終了位置更新部２４によって認識終了位置がｅ１からｅ２に更新されると、当該単語トレリス上において、認識終了位置更新部２４によって更新された認識終了位置ｅ２から、認識開始位置設定部２２によって設定された認識開始位置ｓ１まで、逆向きに探索を行う。

また、第２パス探索部３２は、認識開始位置更新部２５によって認識開始位置ｓ１がｓ２に更新されると、当該単語トレリス上において、認識終了位置更新部２４によって更新された認識終了位置ｅ４から、認識開始位置更新部２５によって更新された認識開始位置ｓ２まで、逆向きに探索を行う。また、第２パス探索部３２は、認識終了位置更新部２４によって認識終了位置ｅ４がｅ５に更新されると、当該単語トレリス上において、認識終了位置更新部２４によって更新された認識終了位置ｅ５から、認識開始位置更新部２５によって更新された認識開始位置ｓ２まで、逆向きに探索を行う。また、第２パス探索部３２は、認識終了位置更新部２４によって認識終了位置ｅ５がｅ６に更新されると、当該単語トレリス上において、認識終了位置更新部２４によって更新された認識終了位置ｅ６から、認識開始位置更新部２５によって更新された認識開始位置ｓ２まで、逆向きに探索を行う。そして、第２パス探索部３２は、認識終了位置更新部２４によって認識終了位置ｅ６がｅ７に更新されると、当該単語トレリス上において、認識終了位置更新部２４によって更新された認識終了位置ｅ７（発話の終端）から、認識開始位置更新部２５によって更新された認識開始位置ｓ２まで、逆向きに探索を行う。

このように、第２パス探索部３２は、認識区間設定手段２０によって設定された複数の長さの認識区間のそれぞれについて第２パス探索を行い、設定された認識区間の数に応じた第２パス探索結果を生成する。なお、第２パス探索部３２は、探索を行った単語候補ごとに、当該単語候補の確からしさを示す単語信頼度を算出することが好ましい。単語信頼度とは、より具体的には単語候補と音声との音響的な近さを示す音響スコアや、単語間の接続確率を示す言語スコアが挙げられる。これにより、後記するように、応答行動決定手段４０によって、第２パス探索部３２による探索結果の中にキーフレーズが含まれるとともに、当該キーフレーズに該当する単語候補の単語信頼度が所定以上である場合のみ、対応した応答行動を決定するように構成することができる。

第２パス探索部３２には、図２に示すように、第１パス探索部３１から第１パス探索結果が、認識開始位置設定部２２から認識開始位置が、認識終了位置設定部２３から認識終了位置が、認識終了位置更新部２４から更新後の認識終了位置が、認識開始位置更新部２５から更新後の認識開始位置が入力される。そして、第２パス探索部３２は、前記した手法によって第２パス探索を行い、当該第２パス探索結果を認識開始位置更新部２５と、応答行動決定手段４０と、に出力する。以下、対話装置１の残りの構成について説明を続ける。

応答行動決定手段４０は、図２に示すように、音声認識手段３０の認識結果に従って、応答行動を決定するものである。応答行動決定手段４０は、予め定めた所定のキーフレーズと、このキーフレーズに対応した応答行動と、の関係を例えばテーブル形式等によって予め保持している。そして、応答行動決定手段４０は、音声認識手段３０による認識結果、より詳しくは第２パス探索部３２による第２パス探索結果に含まれる単語候補の終端単語がキーフレーズと一致するか否かを前記したテーブルを参照して判定し、一致する場合は当該キーフレーズに対応した応答行動を決定する。

前記したキーフレーズとは、具体的には第２パス探索部３２による第２パス探索結果に含まれることが想定される単語のことを意味している。また、終端単語とは、第２パス探索部３２による第２パス探索結果に含まれる単語候補（単語列）のうち、終端に位置する単語のことを意味している。例えば、「海岸にはどんなごみがあるの。」という音声を対話装置１に入力した場合において、第２パス探索部３２による第２探索結果に「海岸」、「には」、「どんな」、「ごみ」という４つの単語候補が含まれる場合、終端単語は「ごみ」となる。

応答行動決定手段４０には、音声認識手段３０から複数の認識区間に対応した複数の音声認識の結果が入力される。例えば、図４（ａ）に示すように、音声入力手段１０に対して、ユーザから「海岸にはどんなごみがあるの。」という音声が入力された場合、図４（ｂ）に示すように、認識区間設定手段２０によって、発話区間内における長さの異なる複数の認識区間が設定され、図４（ｃ）に示すように、音声認識手段３０によって、複数の認識区間のそれぞれについて音声認識が行われ、その認識結果が応答行動決定手段４０に逐次入力される。そして、応答行動決定手段４０は、図４（ｃ）における「認識区間のフレーム数：１００」の認識結果に含まれる終端単語がキーフレーズに一致するため、当該「認識区間のフレーム数：１００」の認識結果が入力された時点で、当該認識結果に従って応答行動を決定する。

なお、図４（ｃ）における「認識区間のフレーム数」とは、認識区間の長さをフレーム数で示したものであり、「フレーム」とは、前記したように、ユーザの音声における１０ｍｓｅｃ程度の区間のことを意味している。従って、１フレームを１０ｍｓｅｃとすると、図４（ｃ）における２行目（フレーム数：２０）の認識区間の長さは２００ｍｓｅｃ、３行目（フレーム数：４０）の認識区間の長さは４００ｍｓｅｃ、４行目（フレーム数：６０）の認識区間の長さは６００ｍｓｅｃ、となり、認識区間が２００ｍｓｅｃずつ増加していることになる。

ここで、前記した応答行動決定手段４０は、第２パス探索部３２による第２探索結果に含まれる１つの終端単語と、予め定められた１つのキーフレーズと、が一致するか否かを判定しているが、終端単語を含む複数単語からなる終端単語群と、予め定められた複数の単語からなるキーフレーズと、が一致するか否かを判定することが好ましい。

この場合、応答行動決定手段４０は、例えば図５に示すように、複数の単語からなるキーフレーズと、当該キーフレーズに対応した応答行動と、の関係を例えばテーブル形式等によって予め保持している。そして、応答行動決定手段４０は、第２パス探索部３２による第２パス探索結果に含まれる終端単語と、当該終端単語の一つ前に位置する単語と、からなる終端単語群がキーフレーズと一致するか否かを前記したテーブルを参照して判定し、一致する場合は当該キーフレーズに対応した応答行動を決定する。

なお、図５における応答行動の欄の「ＴＹＰＥ」、「ＡＭＯＵＮＴ」、「ＰＡＲＴＩＣＩＰＡＴＥ」、「ＳＣＨＥＤＵＬＥ」は、それぞれ応答行動の種類を示しており、例えば応答行動決定手段４０によって、応答行動「ＴＹＰＥ」が決定された場合は、後記する応答行動実行手段５０によって、ごみの種類を返答するような応答行動が実行されることになる。また、例えば応答行動決定手段４０によって、応答行動「ＡＭＯＵＮＴ」が決定された場合は、後記する応答行動実行手段５０によって、ごみの量を返答するような応答行動が実行されることになる。

応答行動決定手段４０には、音声認識手段３０から複数の認識区間に対応した複数の音声認識の結果が入力される。例えば、図４（ａ）に示すように、音声入力手段１０に対して、ユーザから「海岸にはどんなごみがあるの。」という音声が入力された場合、図４（ｂ）に示すように、認識区間設定手段２０によって、発話区間内における長さの異なる複数の認識区間が設定され、図４（ｃ）に示すように、音声認識手段３０によって、複数の認識区間のそれぞれについて音声認識が行われ、その認識結果が応答行動決定手段４０に逐次入力される。そして、応答行動決定手段４０は、図４（ｃ）における「認識区間のフレーム数：１２０」の認識結果に含まれる終端単語群がキーフレーズに一致するため、当該「認識区間のフレーム数：１２０」の認識結果が入力された時点で、当該認識結果に従って応答行動を決定する。

このような応答行動決定手段４０を備える対話装置１は、当該応答行動決定手段４０によって、第２パス探索部３２による探索結果の中に複数の単語からなるキーフレーズが含まれるか否かによって応答行動を決定する。従って、対話装置１は、認識区間を短い時間（例えば２００ｍｓｅｃ）で区切って連続音声認識を行った場合において、第２パス探索部３２の探索結果の中に誤った単語候補が含まれる場合であっても、一つの単語候補のみで応答行動を決定しないため、応答行動の決定をより精度よく厳密に行うことができる。

また、前記した応答行動決定手段４０は、前記したように第２パス探索部３２が探索を行った単語候補ごとの単語信頼度を算出した場合、当該単語信頼度を閾値処理することで応答行動を決定することが好ましい。

この場合、応答行動決定手段４０は、第２パス探索部３２による第２パス探索結果に含まれる終端単語が、予め定められたキーフレーズと一致するか否かを判定すると同時に、終端単語の単語信頼度が、予め定められた所定値よりも高いか否かを判定する閾値処理を行う。そして、応答行動決定手段４０は、終端単語がキーフレーズと一致し、単語信頼度が所定値よりも高い場合のみ、キーフレーズに対応した応答行動を決定する。

応答行動決定手段４０には、音声認識手段３０から複数の認識区間に対応した複数の音声認識の結果が入力される。例えば、図４（ａ）に示すように、音声入力手段１０に対して、ユーザから「海岸にはどんなごみがあるの。」という音声が入力された場合、図４（ｂ）に示すように、認識区間設定手段２０によって、発話区間内における長さの異なる複数の認識区間が設定され、図４（ｃ）に示すように、音声認識手段３０によって、複数の認識区間について順番に音声認識が行われ、その認識結果が応答行動決定手段４０に入力される。

そして、応答行動決定手段４０は、図４（ｃ）における「認識区間のフレーム数：１２０」の認識結果に含まれる終端単語（群）がキーフレーズと一致する場合において、終端単語の単語信頼度が所定値よりも高い場合、当該「認識区間のフレーム数：１２０」の認識結果が入力された時点で、当該認識結果に従って応答行動を決定する。一方、応答行動決定手段４０は、図４（ｃ）における「認識区間のフレーム数：１２０」の認識結果に含まれる終端単語の単語信頼度が所定値未満である場合、当該「認識区間のフレーム数：１２０」の認識結果を採用せずに、次の「認識区間のフレーム数：１４０」の認識結果を参照する。そして、応答行動決定手段４０は、図４（ｃ）における「認識区間のフレーム数：１４０」の認識結果に含まれる終端単語がキーフレーズと一致する場合において、終端単語の単語信頼度が所定値よりも高い場合、当該「認識区間のフレーム数：１４０」の認識結果が入力された時点で、当該認識結果に従って応答行動を決定する。

このような応答行動決定手段４０を備える対話装置１は、当該応答行動決定手段４０によって、第２パス探索部３２による探索結果の中にキーフレーズが含まれるとともに、当該キーフレーズと一致する単語候補の単語信頼度が所定以上である場合のみ応答行動を決定するため、応答行動の決定をより精度よく厳密に行うことができる。

応答行動決定手段４０には、図２に示すように、第２パス探索部３２から第２パス探索結果が入力される。そして、応答行動決定手段４０は、前記した手法によって応答行動を決定し、当該決定された応答行動を応答行動実行手段５０に出力する。

応答行動実行手段５０は、図２に示すように、応答行動決定手段４０によって決定された応答行動を実行するものである。ここで、応答行動実行手段５０は、ユーザの発話区間途中の第２パス探索結果により決定された応答行動よりも、ユーザの発話区間終端の第２パス探索結果により決定された応答行動を優先して実行することが好ましい。

この場合、応答行動実行手段５０は、応答行動決定手段４０から発話区間途中の第２パス探索結果により決定された応答行動が入力されると、発話区間終端の第２パス探索結果により決定された応答行動が入力されるまで、発話区間途中の第２パス探索結果により決定された応答行動の実行を行わずに予約する。なお、発話区間途中の第２パス探索結果とは、例えば図３におけるｅ１〜ｅ６（発話区間の途中）に認識終了位置が設定された認識区間における音声認識結果のことを意味しており、発話区間終端の第２パス探索結果とは、例えば図３におけるｅ７（発話区間の終端）に認識終了位置が設定された認識区間における音声認識結果のことを意味している。

応答行動実行手段５０は、応答行動決定手段４０から発話区間終端の第２パス探索結果により決定された応答行動が入力されると、発話区間途中の第２パス探索結果により決定された応答行動と、発話区間終端の第２パス探索結果により決定された応答行動と、が一致するか否かを判定する。そして、応答行動実行手段５０は、両者が相違する場合は、発話区間途中の第２パス探索結果により決定された応答行動を破棄し、発話区間終端の第２パス探索結果により決定された応答行動を実行する。一方、応答行動実行手段５０は、両者が一致する場合は、発話区間終端の第２パス探索結果により決定された応答行動を破棄し、発話区間途中の第２パス探索結果により決定された応答行動を実行する。

このような応答行動実行手段５０を備える対話装置１は、当該応答行動実行手段５０によって、第２パス探索部３２による最終的な探索結果に従って決定された応答行動を実行するため、第２パス探索部３２による途中の探索結果が誤っていた場合であっても、誤った応答行動が実行されることを防止することができる。

また、応答行動決定手段４０は、ユーザの発話区間途中の第２パス探索結果により決定された応答行動と、ユーザの発話区間終端の第２パス探索結果により決定された応答行動と、が異なる場合において、ユーザの発話区間途中の第２パス探索結果により決定された応答行動を既に実行している場合は、これを訂正するための応答行動を実行することが好ましい。

この場合、応答行動実行手段５０は、応答行動決定手段４０から発話区間途中の第２パス探索結果により決定された応答行動が入力されると、これを実行する。そして、応答行動実行手段５０は、応答行動決定手段４０から発話区間終端の第２パス探索結果により決定された応答行動が入力されると、発話区間途中の第２パス探索結果により決定された応答行動と、発話区間終端の第２パス探索結果により決定された応答行動と、が一致するか否かを判定する。そして、応答行動実行手段５０は、両者が相違する場合は、既に実行している発話区間途中の第２パス探索結果により決定された応答行動を中止し、かつ、これを訂正するための応答行動を実行する。一方、応答行動実行手段５０は、両者が一致する場合は、発話区間終端の第２パス探索結果により決定された応答行動を破棄し、発話区間途中の第２パス探索結果により決定された応答行動の実行を継続する。

例えば、「海岸にはどんなごみがあるの。」という音声を対話装置１に入力した場合において、第２パス探索部３２による発話区間途中の第２探索結果が誤っている場合（例えば、「海岸」、「には」、「どんな」、「ごむ」と認識した場合）、応答行動実行手段５０は、当該第２探索結果により決定された応答行動の実行を開始する。しかし、当該応答行動の実行中に、第２パス探索部３２による発話区間終端の正しい第２探索結果（例えば、「海岸」、「には」、「どんな」、「ごみ」、「が」、「ある」、「の」と認識）により決定された応答行動が応答行動決定手段４０から入力された場合、応答行動実行手段５０は、実行中の応答行動を中止し、かつ、これを訂正するための応答行動（例えば「間違えました」という音声出力）を実行する。そして、応答行動実行手段５０は、発話区間終端の第２探索結果により決定された応答行動の実行を開始する。

このような応答行動実行手段５０を備える対話装置１は、第２パス探索部３２による途中の探索結果（発話区間途中の探索結果）が誤っていた場合において、当該誤った探索結果に従って既に応答行動が決定および実行されてしまった場合であっても、当該誤った応答行動を訂正した上で、第２パス探索部３２による最終的な探索結果（発話区間終端の探索結果）に従って応答行動を実行することができる。

応答行動実行手段５０には、図２に示すように、応答行動決定手段４０から決定された応答行動が入力される。そして、応答行動実行手段５０は、前記したように当該応答行動を実行する。

以上のような構成を備える対話装置１は、認識区間設定手段２０によって、ユーザの発話区間を所定の時間長ごとに区切るとともに、当該区切りの位置を認識終了位置とする複数の長さの認識区間を設定し、音声認識手段３０によって、当該複数の認識区間のそれぞれについて音声認識を行うことで、前記した区切りの位置で音声認識の認識結果を早期確定することができ、複数の認識区間ごとの認識結果（部分認識結果）を出力することができる。

また、対話装置１は、認識区間設定手段２０および音声認識手段３０が図２に示すような構成を備える場合、認識終了位置更新部２４によって、予め設定された認識終了位置を所定の時間長だけ進んだ位置のフレームに繰り返し更新することで、複数の長さの認識区間を設定し、第１パス探索部３１によって、ユーザの発話区間全体の探索を行い、第２パス探索部３２によって、当該複数の認識区間のそれぞれについて探索を行うことで、速度と精度を両立させながら音声認識を行うことができる。

従って、対話装置１によれば、ユーザの発話区間を所定の時間長ごとに区切った認識区間について連続音声認識を行うことで、逐次認識のレスポンスを確保しながら、認識区間の長さを確保して認識率の低下を抑制することができる。

［対話装置１の動作］
以下、第１実施形態に係る対話装置１の動作について、図６を参照しながら簡単に説明する。

まず、対話装置１は、音声入力手段１０に音声が入力されると（ステップＳ１）、認識区間設定手段２０によって、音声認識を行う認識区間を設定する（ステップＳ２）。次に、対話装置１は、音声認識手段３０によって、設定された認識区間における音声認識を行う（ステップＳ３）。次に、対話装置１は、応答行動決定手段４０によって、音声認識手段３０による認識結果の中に予め定められたキーフレーズがあるか否かを判定する（ステップＳ４）。

そして、対話装置１は、音声認識手段３０による認識結果の中にキーフレーズがある場合（ステップＳ４においてＹｅｓ）、応答行動決定手段４０によって、キーフレーズに対応した応答行動を決定する（ステップＳ５）。一方、対話装置１は、音声認識手段３０による認識結果の中にキーフレーズがない場合（ステップＳ４においてＮｏ）、ステップＳ３に戻る。次に、対話装置１は、応答行動実行手段５０によって、応答行動決定手段４０によって決定された応答行動を実行し（ステップＳ６）、処理を終了する。なお、対話装置１は、音声認識手段３０による認識結果の中にキーフレーズがない場合（ステップＳ４においてＮｏ）、ステップＳ３に戻る前に認識開始位置を更新することもできる（ステップＳ７）。

（認識区間の設定処理（ステップＳ２）の詳細）
以下、図６における認識区間の設定処理（ステップＳ２）の詳細について、図７を参照しながら簡単に説明する。

まず、対話装置１は、音声分析部２１によって、入力された音声の１フレーム分を分析し、音声特徴ベクトルに変換する（ステップＳ２１）。次に、対話装置１は、認識開始位置設定部２２によって、例えば音声特徴ベクトルのパワー情報を用いて、当該１フレームがユーザの発話区間の中か否かを判定する（ステップＳ２２）。そして、対話装置１は、当該１フレームがユーザの発話区間の中である場合（ステップＳ２２においてＹｅｓ）、ステップＳ２３に進む。一方、対話装置１は、当該１フレームがユーザの発話区間の中ではない場合（ステップＳ２２においてＮｏ）、ステップＳ２１に戻る。

次に、対話装置１は、認識開始位置設定部２２によって、例えば音声特徴ベクトルのパワー情報を用いて、当該１フレームがユーザの発話区間の始端であるか否かを判定する（ステップＳ２３）。そして、対話装置１は、当該１フレームがユーザの発話区間の始端である場合（ステップＳ２３においてＹｅｓ）、認識開始位置設定部２２によって、分析中のフレームを認識開始位置に設定し（ステップＳ２４）、ｆ＝０とした後（ステップＳ２５）、ステップＳ２９に進む。なお、ステップＳ２５におけるｆは、認識区間における認識開始位置から分析中のフレームまでのフレーム数のことを意味している。

一方、対話装置１は、当該１フレームがユーザの発話区間の始端ではない場合（ステップＳ２３においてＮｏ）、認識終了位置更新部２４によって、当該１フレームがユーザの発話区間の終端であるか否かを判定する（ステップＳ２６）。そして、対話装置１は、当該１フレームがユーザの発話区間の終端である場合（ステップＳ２６においてＹｅｓ）、認識終了位置更新部２４によって、分析中のフレームを認識終了位置に設定し（ステップＳ２７）、認識区間の設定処理を終了する。

一方、対話装置１は、当該１フレームがユーザの発話区間の終端ではない場合（ステップＳ２６においてＮｏ）、ｆ＝ｆ＋１とした後（ステップＳ２８）、ｆ＜Ｎであるか否を判定する（ステップＳ２９）。なお、ステップＳ２９におけるＮは、認識終了位置設定部２３によって認識終了位置を設定する際の間隔（または認識終了位置更新部２４によって認識終了位置を更新する際の間隔）に相当するフレーム数であり、前記認識終了位置設定部２３が認識終了位置を設定（前記した認識終了位置更新部２４が認識終了位置を更新）する場合に用いる「予め定められた時間長」に相当するものである。

例えば、前記したように、入力音声の１フレームの長さを１０ｍｓｅｃとし、認識終了位置設定部２３によって認識終了位置を設定（認識終了位置更新部２４によって認識終了位置を更新）する際の間隔を２００ｍｓｅｃとした場合、ステップＳ２９におけるＮは２０（＝２００／１０）となる。このように、ステップＳ２９の処理では、認識終了位置設定部２３が認識終了位置を設定（認識終了位置更新部２４による認識終了位置の更新）する際のフレーム数をカウントしている。

そして、対話装置１は、ｆ＜Ｎである場合（ステップＳ２９においてＹｅｓ）、ステップＳ２１に戻る。一方、対話装置１は、ｆ＜Ｎではない場合（ステップＳ２９においてＮｏ）、認識終了位置設定部２３（認識終了位置更新部２４）によって、分析中のフレームを認識終了位置に設定し（ステップＳ３０）、ｆ＝０とし（ステップＳ３１）、認識区間の設定処理を終了する。

（認識開始位置の更新処理（ステップＳ７）の詳細）
以下、図６における認識開始位置の更新処理（ステップＳ７）の詳細について、図８を参照しながら簡単に説明する。

まず、対話装置１は、認識開始位置更新部２５によって、第２パス探索部３２による探索結果の中に発話の区切りがあるか否かを判定する（ステップＳ７１）。そして、対話装置１は、第２パス探索部３２による探索結果の中に発話の区切りがある場合（ステップＳ７１においてＹｅｓ）、認識開始位置更新部２５によって、発話の区切りの先頭のフレームを認識開始位置に設定し（ステップＳ７２）、ｆ＝０とし（ステップＳ７３）、認識開始位置の更新処理を終了する。一方、対話装置１は、第２パス探索部３２による探索結果の中に発話の区切りがない場合（ステップＳ７１においてＮｏ）、認識開始位置の更新処理を終了する。

（応答行動の決定処理（ステップＳ５）の一例の詳細）
以下、図６における応答行動の決定処理（ステップＳ５）の一例の詳細について、図９を参照（適宜図４（ｃ）および図５参照）しながら簡単に説明する。なお、以下の説明では、まず図９（ａ）を参照しながらフローチャートによって一連の処理の流れを説明するとともに、図９（ｂ）を参照しながら一連の処理の具体例についても説明する。

まず、対話装置１は、図９（ａ）に示すように、応答行動決定手段４０によって、第２パス探索部３２による探索結果（認識結果）を取得する（ステップＳ５１１）。この処理によって、対話装置１は、例えば図９（ｂ）における「認識区間１２０フレームの時の認識結果例（図４（ｃ）参照）」に示すような結果を得る。

次に、対話装置１は、図９（ａ）に示すように、応答行動決定手段４０によって、第２パス探索結果の中からキーフレーズを検出する（ステップＳ５１２）。この処理によって対話装置１は、例えば図９（ｂ）における「キーフレーズの検出結果」に示すような結果を得る。

次に、対話装置１は、図９（ａ）に示すように、応答行動決定手段４０によって、検出したキーフレーズに対応した応答行動を決定し（ステップＳ５１３）、応答行動の決定処理を終了する。この処理によって対話装置１は、例えば図９（ｂ）における「決定した応答行動」に示すような結果を得る。なお、図９（ｂ）における「決定した応答行動」は、応答行動決定手段４０が前記した図５のテーブルを用いて決定したものである。

（応答行動の決定処理（ステップＳ５）のその他の例の詳細）
以下、図６における応答行動の決定処理（ステップＳ５）のその他の例の詳細について、図１０を参照（適宜図４（ｃ）および図５参照）しながら簡単に説明する。なお、以下の説明では、まず図１０（ａ）を参照しながらフローチャートによって一連の処理の流れを説明するとともに、図１０（ｂ）を参照しながら一連の処理の具体例についても説明する。

まず、対話装置１は、図１０（ａ）に示すように、応答行動決定手段４０によって、第２パス探索部３２による探索結果（認識結果）を取得する（ステップＳ５２１）。この処理によって、対話装置１は、例えば図１０（ｂ）における「認識区間１２０フレームの時の認識結果例（図４（ｃ）参照）」に示すような結果を得る。

次に、対話装置１は、図１０（ａ）に示すように、応答行動決定手段４０によって、第２パス探索結果の中からキーフレーズを検出する（ステップＳ５２２）。また、対話装置１は、図１０（ａ）に示すように、応答行動決定手段４０によって、検出したキーフレーズの中に終端単語Ｗｅがあるかを判定する（ステップＳ５２３）。そして、対話装置１は、検出したキーフレーズの中に終端単語Ｗｅがある場合（ステップＳ５２３においてＹｅｓ）、ステップＳ５２４に進む。これらの処理によって対話装置１は、例えば図１０（ｂ）における「キーフレーズの検出結果」に示すような結果を得る。

次に、対話装置１は、図１０（ａ）に示すように、応答行動決定手段４０によって、終端単語Ｗｅの単語信頼度Ｓｅが所定の値αを超えるか否かを判定する（ステップＳ５２４）。そして、対話装置１は、図１０（ａ）、（ｂ）に示すように、終端単語Ｗｅの単語信頼度Ｓｅが所定の値αを超える場合（ステップＳ５２４においてＹｅｓ）、対応した応答行動を決定して応答行動の決定処理を終了する（ステップＳ５２５）。一方、対話装置１は、図１０（ａ）、（ｂ）に示すように、終端単語Ｗｅの単語信頼度Ｓｅが所定の値α未満である場合（ステップＳ５２４においてＮｏ）、終端単語Ｗｅをキーフレーズとしてみなさずに破棄し、応答行動の決定処理を終了する（ステップＳ５２６）。

（応答行動の実行処理（ステップＳ６）の一例の詳細）
以下、図６における応答行動の実行処理（ステップＳ６）の一例の詳細について、図１１を参照しながら簡単に説明する。

まず、対話装置１は、応答行動決定手段４０から応答行動が入力されると（ステップＳ６１１）、応答行動実行手段５０によって、発話区間途中の探索結果により既に決定された応答行動があるか否かを判定する（ステップＳ６１２）。そして、対話装置１は、発話区間途中の探索結果により既に決定された応答行動がある場合（ステップＳ６１２においてＹｅｓ）、ステップＳ６１３に進む。一方、対話装置１は、発話区間途中の探索結果により既に決定された応答行動がない場合（ステップＳ６１２においてＮｏ）、ステップＳ６１４に進み、応答行動実行手段５０によって、入力された応答行動の実行を予約し（ステップＳ６１４）、応答行動の実行処理を終了する。

次に、対話装置１は、応答行動実行手段５０によって、応答行動決定手段４０から入力された応答行動が発話区間終端の認識結果により決定された応答行動であるか否かを判定する（ステップＳ６１３）。そして、対話装置１は、応答行動決定手段４０から入力された応答行動が発話区間終端の認識結果により決定された応答行動である場合（ステップＳ６１３においてＹｅｓ）、ステップＳ６１５に進む。一方、対話装置１は、応答行動決定手段４０から入力された応答行動が発話区間終端の認識結果により決定された応答行動ではない場合（ステップＳ６１３においてＮｏ）、応答行動の実行処理を終了する。

次に、対話装置１は、応答行動実行手段５０によって、応答行動決定手段４０から入力された応答行動が、発話区間終端の認識結果により決定された応答行動と、相違するか否かを判定する（ステップＳ６１５）。そして、対話装置１は、応答行動決定手段４０から入力された応答行動が、発話区間終端の認識結果により決定された応答行動と、相違する場合（ステップＳ６１５でＹｅｓ）、発話区間終端の認識結果により決定された応答行動を優先的に実行し（ステップＳ６１６）、応答行動の実行処理を終了する。一方、対話装置１は、応答行動決定手段４０から入力された応答行動が、発話区間終端の認識結果により決定された応答行動と、相違しない場合（ステップＳ６１５でＮｏ）、発話区間途中の探索結果により決定された応答行動を実行し（ステップＳ６１７）、応答行動の実行処理を終了する。

（応答行動の実行処理（ステップＳ６）のその他の例の詳細）
以下、図６における応答行動の実行処理（ステップＳ６）のその他の例の詳細について、図１２を参照しながら簡単に説明する。

まず、対話装置１は、応答行動決定手段４０から応答行動が入力されると（ステップＳ６２１）、応答行動実行手段５０によって、発話区間途中の探索結果により既に決定された応答行動があるか否かを判定する（ステップＳ６２２）。そして、対話装置１は、発話区間途中の探索結果により既に決定された応答行動がある場合（ステップＳ６２２においてＹｅｓ）、ステップＳ６２３に進む。一方、対話装置１は、発話区間途中の探索結果により既に決定された応答行動がない場合（ステップＳ６２２においてＮｏ）、ステップＳ６２４に進み、応答行動実行手段５０によって、入力された応答行動の実行を継続し（ステップＳ６２４）、応答行動の実行処理を終了する。

次に、対話装置１は、応答行動実行手段５０によって、応答行動決定手段４０から入力された応答行動が発話区間終端の認識結果により決定された応答行動であるか否かを判定する（ステップＳ６２３）。そして、対話装置１は、応答行動決定手段４０から入力された応答行動が発話区間終端の認識結果により決定された応答行動である場合（ステップＳ６２３においてＹｅｓ）、ステップＳ６２５に進む。一方、対話装置１は、応答行動決定手段４０から入力された応答行動が発話区間終端の認識結果により決定された応答行動ではない場合（ステップＳ６２３においてＮｏ）、応答行動の実行処理を終了する。

次に、対話装置１は、応答行動実行手段５０によって、応答行動決定手段４０から入力された応答行動が、発話区間終端の認識結果により決定された応答行動と、相違するか否かを判定する（ステップＳ６２５）。そして、対話装置１は、応答行動決定手段４０から入力された応答行動が、発話区間終端の認識結果により決定された応答行動と、相違する場合（ステップＳ６２５でＹｅｓ）、訂正のための応答行動を実行し（ステップＳ６２６）、発話区間終端の認識結果により決定された応答行動を優先的に実行し（ステップＳ６２７）、応答行動の実行処理を終了する。一方、対話装置１は、応答行動決定手段４０から入力された応答行動が、発話区間終端の認識結果により決定された応答行動と、相違しない場合（ステップＳ６２５でＮｏ）、応答行動の実行処理を終了する。

［第２実施形態］
以下、第２実施形態に係る対話装置１Ａについて、図１３および図１４を参照しながら簡単に説明する。対話装置１Ａは、図１３に示すように、応答行動記憶手段６０と、応答行動履歴記憶手段７０と、を更に備える以外は、第１実施形態に係る対話装置１と同様の構成を備えている。従って、以下の説明では、対話装置１との相違点を中心に説明を行い、当該対話装置１と重複する構成については詳細説明を省略する。

応答行動記憶手段６０は、応答行動決定手段４０が決定する応答行動に関する情報を記憶するものである。応答行動記憶手段６０は、ここでは図１４に示すように、キーフレーズと、これに対応した応答行動と、当該応答行動のカテゴリを示す応答行動カテゴリと、をそれぞれ関連付けたテーブルを記憶しており、図１３に示すように、必要に応じて応答行動決定手段４０に出力可能に構成されている。応答行動記憶手段６０は、具体的には、データを記憶することができるメモリ、ハードディスク等で具現される。

応答行動履歴記憶手段７０は、応答行動決定手段４０によって既に決定された応答行動の履歴を記憶するものである。応答行動履歴記憶手段７０は、具体的には応答行動決定手段４０によって決定された応答行動を、例えば表形式で記憶しており、図１３に示すように、必要に応じて応答行動決定手段４０に出力可能に構成されている。また、応答行動履歴記憶手段７０には、図１３に示すように、応答行動決定手段４０によって決定された応答行動が逐次入力される。応答行動履歴記憶手段７０は、具体的には、データを記憶することができるメモリ、ハードディスク等で具現される。

このような応答行動記憶手段６０および応答行動履歴記憶手段７０を備える対話装置１Ａは、応答行動決定手段４０による応答行動の決定処理を２段階に分けて行う。すなわち、応答行動決定手段４０は、第２パス探索部３２による第２パス探索結果に含まれる終端単語（群）が、予め定められたキーフレーズと一致するか否かを判定すると同時に、応答行動決定手段４０によって今回決定された応答行動の応答行動カテゴリと、応答行動決定手段４０によって前回決定された応答行動の応答行動カテゴリと、が一致するか否かを判定する。そして、応答行動決定手段４０は、終端単語（群）がキーフレーズと一致し、両者のカテゴリが一致する場合のみ、キーフレーズに対応した応答行動を決定する。

応答行動決定手段４０によって今回決定された応答行動の応答行動カテゴリと、応答行動決定手段４０によって前回決定された応答行動の応答行動カテゴリと、が一致するか否かを判定は、応答行動履歴記憶手段７０に記憶された前回の応答行動履歴を、応答行動記憶手段６０に記憶されたテーブルに照らし合わせることで行う。

このような構成を備える対話装置１Ａは、応答行動決定手段４０によって、今回決定しようとする応答行動が前回決定した応答行動と同じカテゴリに属する場合のみ、今回の応答行動を決定するため、第２パス探索部３２による誤探索の結果、前回決定された応答行動と全く関連しない、誤った探索結果に基づいた応答行動が決定されることを防止することができる。
［対話装置１Ａの動作］
以下、第２実施形態に係る対話装置１Ａの動作について、図１５を参照しながら簡単に説明する。なお、対話装置１Ａは、応答行動の決定処理（図６のステップＳ５）以外の処理は、対話装置１と同様であるため、以下の説明では、対話装置１Ａにおける応答行動の実行処理についてのみ説明する。また、以下の説明では、まず図１５（ａ）を参照しながらフローチャートによって一連の処理の流れを説明するとともに、図１５（ｂ）を参照しながら一連の処理の具体例についても説明する。

まず、対話装置１Ａは、図１５（ａ）に示すように、応答行動決定手段４０によって、第２パス探索部３２による認識結果を取得する（ステップＳ５３１）。この処理によって、対話装置１Ａは、例えば図１５（ｂ）における「認識区間１２０フレームの時の認識結果例（図４（ｃ）参照）」に示すような結果を得る。

次に、対話装置１Ａは、図１５（ａ）に示すように、応答行動決定手段４０によって、第２パス探索結果の中からキーフレーズを検出する（ステップＳ５３２）。また、対話装置１Ａは、図１５（ａ）に示すように、応答行動決定手段４０によって、検出したキーフレーズの中に終端単語Ｗｅがあるかを判定する（ステップＳ５３３）。そして、対話装置１Ａは、検出したキーフレーズの中に終端単語Ｗｅがある場合（ステップＳ５３３においてＹｅｓ）、ステップＳ５３４に進む。これらの処理によって対話装置１Ａは、例えば図１５（ｂ）における「キーフレーズの検出結果」に示すような結果を得る。なお、対話装置１Ａは、検出したキーフレーズの中に終端単語Ｗｅがない場合（ステップＳ５３３においてＮｏ）、ステップＳ５３６に進む。

次に、対話装置１Ａは、図１５（ａ）に示すように、応答行動決定手段４０によって、終端単語Ｗｅに対応した応答行動を仮決定する（ステップＳ５３４）。この処理によって対話装置１Ａは、例えば図１５（ｂ）における「仮決定した応答行動と該当する応答行動カテゴリ」に示すような結果を得る。次に、対話装置１Ａは、図１５（ａ）に示すように、応答行動決定手段４０によって、仮決定した応答行動が前回決定した応答行動カテゴリに該当するか否かを判定する（ステップＳ５３５）。

そして、対話装置１Ａは、図１５（ａ）に示すように、仮決定した応答行動が前回決定した応答行動カテゴリに該当する場合（ステップＳ５３５においてＹｅｓ）、応答行動決定手段４０によって、仮決定した応答行動を決定する（ステップＳ５３６）。この処理によって対話装置１Ａは、例えば図１５（ｂ）における「前回決定した応答行動カテゴリがＲＥＦＵＳＥの場合」に示すような結果を得る。一方、対話装置１Ａは、図１５（ａ）に示すように、仮決定した応答行動が前回決定した応答行動カテゴリに該当しない場合（ステップＳ５３５においてＮｏ）、応答行動決定手段４０によって、前記した終端単語Ｗｅをキーフレーズとしてみなさず、仮決定した応答行動を破棄し（ステップＳ５３７）、応答行動の決定処理を終了する。この処理によって対話装置１Ａは、例えば図１５（ｂ）における「前回決定した応答行動カテゴリがＢＥＡＣＨＣＬＥＡＮの場合」に示すような結果を得る。次に、対話装置１Ａは、図１５（ａ）に示すように、応答行動決定手段４０によって決定された応答行動を応答行動履歴記憶手段７０に記憶させ（ステップＳ５３８）、応答行動の決定処理を終了する。

［対話プログラム］
ここで、前記した対話装置１，１Ａは、一般的なコンピュータを、前記した各手段および各部として機能させるプログラムにより動作させることで実現することができる。このプログラムは、通信回線を介して配布することも可能であるし、ＣＤ−ＲＯＭ等の記録媒体に書き込んで配布することも可能である。

以上、本発明に係る対話装置１，１Ａについて、発明を実施するための形態により具体的に説明したが、本発明の趣旨はこれらの記載に限定されるものではなく、特許請求の範囲の記載に基づいて広く解釈されなければならない。また、これらの記載に基づいて種々変更、改変等したものも本発明の趣旨に含まれることはいうまでもない。

例えば、対話装置１，１Ａは、前記したように、外部から音声入力手段１０に対して音声が入力され、音声分析部２１によって当該音声（音声時系列データ）を音声特徴ベクトルに変換する構成としたが、音声分析部２１の構成を省略し、音声入力手段１０において、入力音声を音声特徴ベクトルに変換する構成としても構わない。

また、対話装置１，１Ａの応答行動決定手段４０は、前記したように、音声認識手段３０の第２パス探索部３２による認識結果に含まれることが想定される単語を示すキーフレーズと、このキーフレーズに対応して行う応答行動と、の関係を例えばテーブル形式等によって予め保持している構成としたが（図５参照）、これらを外部の図示しない記憶手段に予め記憶させ、応答行動決定手段４０が適宜読み出す構成としても構わない。

１，１Ａ対話装置
１０音声入力手段
２０認識区間設定手段
２１音声分析部
２２認識開始位置設定部
２３認識終了位置設定部
２４認識終了位置更新部
２５認識開始位置更新部
３０音声認識手段
３１第１パス探索部
３２第２パス探索部
４０応答行動決定手段
５０応答行動実行手段
６０応答行動記憶手段
７０応答行動履歴記憶手段

Claims

入力された音声を音声認識することでユーザの発話内容を認識し、当該発話内容に対応した所定の応答行動を行う対話装置であって、
前記音声中における前記ユーザの発話の始端となる発話始端フレームを認識開始位置に設定するとともに、当該認識開始位置から所定の時間長だけ進んだ位置のフレームを認識終了位置に設定し、既に設定された前記認識終了位置を、当該認識終了位置から前記所定の時間長だけ進んだ位置のフレームに繰り返し更新することで、音声認識を実施する前記認識終了位置の異なる複数の認識区間を設定する認識区間設定手段と、
前記認識区間において音声認識を行う音声認識手段と、
前記音声認識手段による認識結果の中に所定のキーフレーズが含まれる場合、当該キーフレーズに対応した所定の応答行動を決定する応答行動決定手段と、
前記応答行動決定手段によって決定された応答行動を逐次実行する応答行動実行手段と、を備え、
前記音声認識手段は、
前記ユーザの発話区間において、前記発話始端フレームから発話の終端となる発話終端フレームに向かって単語候補の探索を行う第１パス探索部と、
前記第１パス探索部による探索結果に従って、前記認識終了位置の異なる複数の認識区間のそれぞれについて、前記認識終了位置から前記認識開始位置に向かって前記単語候補の探索を行う第２パス探索部と、を備え、
前記認識区間設定手段は、前記第２パス探索部による探索結果の中に前記ユーザの発話の区切りが含まれる場合、前記認識開始位置を、当該発話の区切りの先頭の位置のフレームに更新し、
前記応答行動決定手段は、前記第２パス探索部による探索結果の中に前記所定のキーフレーズが含まれる場合、当該キーフレーズに対応して予め定められた前記所定の応答行動を決定することを特徴とする対話装置。
前記応答行動決定手段は、前記第２パス探索部による探索結果の中に複数の単語からなる所定のキーフレーズが含まれる場合、当該キーフレーズに対応した所定の応答行動を決定することを特徴とする請求項１に記載の対話装置。
前記第２パス探索部は、探索を行った前記単語候補ごとに、当該単語候補の確からしさを示す単語信頼度を算出し、
前記応答行動決定手段は、前記第２パス探索部による探索結果の中に前記所定のキーフレーズが含まれるとともに、当該キーフレーズと一致する単語候補の前記単語信頼度が予め定められた所定値よりも高い場合、前記キーフレーズに対応した前記所定の応答行動を決定することを特徴とする請求項１または請求項２に記載の対話装置。
前記キーフレーズと、当該キーフレーズに対応した前記所定の応答行動と、当該所定の応答行動のカテゴリを示す応答行動カテゴリと、をそれぞれ関連付けて記憶する応答行動記憶手段と、
前記応答行動決定手段によって既に決定された応答行動の履歴を記憶する応答行動履歴記憶手段と、を備え、
前記応答行動決定手段は、前記第２パス探索部による探索結果の中に前記所定のキーフレーズが含まれる場合、前記応答行動記憶手段および前記応答行動履歴記憶手段を参照することで、今回決定しようとする応答行動の前記応答行動カテゴリと、前回決定された応答行動の前記応答行動カテゴリと、が一致するか否かを判定し、両者が一致する場合、前記キーフレーズに対応した前記所定の応答行動を決定することを特徴とする請求項１から請求項３のいずれか一項に記載の対話装置。
前記応答行動実行手段は、前記第２パス探索部による最後の探索結果に従って決定された応答行動と、前記第２パス探索部による最後よりも前の探索結果に従って決定された応答行動と、が異なる場合、最後の探索結果に従って決定された応答行動を実行することを特徴とする請求項１から請求項４のいずれか一項に記載の対話装置。
前記応答行動実行手段は、前記応答行動決定手段によって決定された応答行動の実行を開始した後に、前記第２パス探索部による最後の探索が行われた場合において、現在実行中の応答行動に対応した前記第２パス探索部による探索結果の認識結果と、前記第２パス探索部による最後の探索結果と、が異なる場合、現在実行中の応答行動を中止して当該応答行動を訂正するための所定の応答行動を実行した後、前記第２パス探索部による最後の探索結果に従って、前記応答行動決定手段によって決定された応答行動を実行することを特徴とする請求項１から請求項５のいずれか一項に記載の対話装置。