JP2005037615A

JP2005037615A - クライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2005037615A
Application number: JP2003199375A
Authority: JP
Inventors: Hidenori Yatake; 英紀八竹; Mayuko Kishimoto; 真由子岸本; Junpei Koga; 純平古賀; Yasuaki Nakajima; 康暁中嶋
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2003-07-18
Filing date: 2003-07-18
Publication date: 2005-02-10

Abstract

【課題】音声認識のための音声入力を行うユーザに与えるストレスを低減するクライアント装置を提供する。
【解決手段】音声認識クライアント１は、発話切出しの進行状況を判断する音声入力／認識状態判断部５と、上記音声入力／認識状態判断部５の判断結果に応じて、上記発話切出しの進行状況をユーザに提示する音声入力／認識状態提示部６とを備えている。上記構成によれば、音声認識クライアント１に提示された発話切出しの進行状況を視認することにより、自己が発した音声が音声認識サーバ２において音声認識されていることを確認することができる。したがって、自己の発話が確実に音声認識サーバ２において認識されているか否かの不安をユーザに与えることがない。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、分散型音声認識システムに関するものであり、特に発話切出しの進行状況を表示することができるクライアント装置に関するものである。
【０００２】
【従来の技術】
従来の音声認識技術においては、特許文献１の信号処理装置のように、発話自動切り出し（エンドポインティング）に関する技術が存在する。この技術は、音声認識に先立って音量やパワーの変化などに基づいて、ユーザの発話区間を特定する技術であり、発話部分に対してのみ音声認識を行うために用いられる。
【０００３】
この技術を活用すれば、音声認識エンジンは本当に音声認識が必要な部分のみ認識処理を行えば良いことになるので、与えられる負荷が軽くなり多重度（同時処理可能数）をあげることができる。
【０００４】
また、この技術は、音声認識を開始するために音声以外のトリガーを必要としないことから、ハンズフリーでの音声認識を実現するために重要となる。音声認識開始のためにスイッチを押さなければならないということは、手作業を行っている際には不便となるからである。
【０００５】
また、従来の発話切り出しを伴う音声認識の場合には、発話切り出しの終了から音声認識の終了までにあまり時間がかからないため、発話入力開始から音声認識結果が得られるまでの音声認識処理全体の開始状態と終了状態とを表示すれば十分であった。
【０００６】
一方、特許文献２や特許文献３においては、分散音声認識という技術が記載されている。分散音声認識技術は、発話切り出し、特徴量抽出、音声認識、自然言語解釈、といった音声認識の一連の処理を、クライアントおよびサーバに適切に分散して処理する技術である。当該技術によれば、クライアントのマシンスペック以上のパワーが必要な高精度な音声認識処理をシステム全体で実現したり、負荷分散やフェイルセーフを実現したりすることができる。
【０００７】
【特許文献１】
特開平７−６４５７８号公報（１９９５年３月１０日公開）
【０００８】
【特許文献２】
米国特許第５，８１９，２２０号公報（１９９８年１０月０６日登録）
【０００９】
【特許文献３】
特表２００２−５４０４７９号公報（平成１４年１１月２６日公表）
【００１０】
【発明が解決しようとする課題】
ところが、分散音声認識技術では、発話切り出し終了のあと、リモートのサーバに音声あるいは音声特徴量を送信してからサーバから認識結果を得るまでの時間において、その間ユーザは音声入力を行わずに待機しておかなければならないことになる。
【００１１】
特に、クライアントとサーバが、インターネットなどの長距離ベストエフォート型の通信手段を介して設置されるような場合には、音声を入力してから音声認識の結果が得られるまでの遅延時間が大きくなる場合がある。遅延時間が大きくなることにより、それだけユーザが待機しなければならない時間も長くなってしまうので、ユーザに与えるストレスが増大するという問題が生じる。
【００１２】
本発明は、上記従来の問題点に鑑みなされたものであって、その目的は、音声認識のための音声入力を行うユーザに与えるストレスを低減することが可能なクライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【００１３】
【課題を解決するための手段】
上記課題を解決するため、本発明におけるクライアント装置は、クライアント装置にてユーザが入力した音声を、発話切出しした後に音声認識サーバにおいて音声認識する分散型音声認識システムに用いるクライアント装置であって、上記発話切出しの進行状況を判断する音声入力／認識状態判断手段と、上記音声入力／認識状態判断手段の判断結果に応じて、上記発話切出しの進行状況をユーザに提示する音声入力／認識状態提示手段とを備えていることを特徴としている。
【００１４】
また、本発明における分散型音声認識システムは、クライアント装置にてユーザが入力した音声を、発話切出しした後に音声認識サーバにおいて音声認識する分散型音声認識システムであって、上記クライアント装置が、上記発話切出しの進行状況を判断する音声入力／認識状態判断手段と、上記音声入力／認識状態判断手段の判断結果に応じて、上記発話切出しの進行状況をユーザに提示する音声入力／認識状態提示手段とを備えていることを特徴としている。
【００１５】
上記構成によれば、音声入力／認識状態提示手段により発話切出しの進行状況がユーザに提示されるので、クライアント装置は、発話切出しの進行状況をユーザに提示することが可能となる。
【００１６】
よって、クライアント装置のユーザは、クライアント装置に提示された発話切出しの進行状況を視認することにより、自己が発した音声が音声認識サーバにおいて音声認識されていることを確認することができる。したがって、自己の発話が確実に音声認識サーバにおいて認識されているか否かの不安をユーザに与えることがないので、より利便性のよい分散型音声認識システムを提供することができる。
【００１７】
さらに、本発明のクライアント装置は、上記構成のクライアント装置において、上記発話切出しを実行する発話切出し手段を備えている一方、上記音声入力／認識状態判断手段は、上記発話切出し手段による発話切出しの進行状況を検出する音声入力状態判断手段を備えていることを特徴としている。
【００１８】
また、本発明における分散型音声認識システムは、上記構成の分散型音声認識システムにおいて、上記クライアント装置が、上記発話切出しを実行する発話切出し手段を備えているとともに、上記クライアント装置の音声入力／認識状態判断手段が、上記発話切出し手段による発話切出しの進行状況を検出する音声入力状態判断手段を備えていることを特徴としている。
【００１９】
上記構成によれば、クライアント装置側でユーザの入力した音声を発話切出しした後に、発話切出し後の音声データをクライアント装置側から音声認識サーバに送信することができるので、クライアント装置−音声認識サーバ間での通信料金を抑えたり、通信帯域を節約したりすることができる。また、クライアント装置内で発話切出しを行って、その進行状況を音声入力／認識状態判断手段にて判断するので、発話切出しの進行状況の送信が他の機器を介することなくクライアント装置内で行われる。よって、音声入力／認識状態提示手段による発話切出しの進行状況の提示を、発話切出しに対して遅延無く行うことができる。
【００２０】
さらに、本発明のクライアント装置は、上記構成のクライアント装置において、上記音声入力／認識状態判断手段は、上記音声認識サーバにおいて実行される発話切出しの進行状況を、音声認識状態データとして受信する音声認識状態データ受信手段を備えていることを特徴としている。
【００２１】
また、本発明における分散型音声認識システムは、上記構成の分散型音声認識システムにおいて、上記音声認識サーバが、上記発話切出しを実行するものであるとともに、その発話切出しの進行状況を判断して上記クライアント装置に送信する音声認識状態判断手段を備えており、上記クライアント装置の音声入力／認識状態判断手段が、上記音声認識状態判断手段から送信される発話切出しの進行状況を、音声認識状態データとして受信する音声認識状態データ受信手段を備えていることを特徴としている。
【００２２】
上記構成によれば、発話切出しが音声認識サーバ側において行われるので、クライアント装置に発話切出し機能を実現するための構成を設ける必要はない。また、音声認識状態データ受信手段は、発話切出し機能を実現するためのリソースに比べて少ないリソースにて実現可能である。よって、クライアント装置としてリソースの少ない携帯電話等の小型機器を用いることができる。
【００２３】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力／認識状態判断手段が、音声入力の受付開始から所定時間内に所定音量レベルを超えるユーザの音声入力があるか否かを判断するとともに、上記音声入力／認識状態提示手段は、上記音声入力／認識状態判断手段により音声入力の受付開始から所定時間内に所定音量レベルを超えるユーザの音声入力がないと判断された場合に、ユーザの入力音声の音量レベルが小さいことをユーザに提示することを特徴としている。
【００２４】
上記構成によれば、音声入力／認識状態判断手段によりユーザの入力音声の音量レベルが小さいと判断された場合に、音声入力／認識状態提示手段により音声入力のエラー提示をさせることができる。したがって、ユーザはそのエラー提示を確認することによって、再度音声入力を行う際により大きな声で発声するというように、音声入力エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができる。
【００２５】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力／認識状態判断手段が、発話切出しが開始してから所定時間内にユーザの発話が終了したか否かを判断するとともに、上記音声入力／認識状態提示手段が、上記音声入力／認識状態判断手段による上記発話切出しの終了に関する判断結果に基づき、ユーザの発話終了が検知できないことをユーザに提示することを特徴としている。
【００２６】
上記構成によれば、音声入力／認識状態判断手段により、発話切出しが開始してから所定時間内にユーザの発話が終了しなかったと判断された場合に、音声入力／認識状態提示手段により音声認識のエラー提示をさせることができる。ここで、発話切出しの終了から所定時間内にユーザの発話終了を検知できない要因のひとつとして、音声入力を行う場所の周辺における騒音や雑音が大きい、ということを挙げることができる。
【００２７】
したがって、ユーザはそのエラー提示を確認することによって、再度音声入力を行う際により静かな場所で発声するというように、音声認識エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができる。
【００２８】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力／認識状態判断手段が、発話切出しが終了してから所定時間内に上記音声認識サーバから上記クライアント装置が音声認識結果を受信したか否かを判断するとともに、上記音声入力／認識状態提示手段が、上記音声入力／認識状態判断手段による音声認識結果の受信に関する判断結果に基づき、上記クライアント装置と上記音声認識サーバとの間における通信に異常があることをユーザに提示することを特徴としている。
【００２９】
上記構成によれば、音声入力／認識状態判断手段により、発話切出しが終了してから所定時間内に音声認識結果が音声認識サーバから受信されないと判断した場合には、音声入力／認識状態提示手段により、クライアント装置と音声認識サーバとの間における通信に異常があることをユーザに提示することができる。
【００３０】
したがって、ユーザは、そのエラー提示を確認することによって、管理者にクライアント−サーバ間の通信の復旧を依頼するというように、通信エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができる。
【００３１】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力／認識状態判断手段が、上記クライアント装置から送信された音声が上記音声認識サーバに格納された音声認識文法データと一致しているか否かに関する音声認識結果情報を上記音声認識サーバから受信する一方、上記音声入力／認識状態提示手段は、上記音声入力／認識状態判断手段により受信された上記音声認識結果情報に基づき、ユーザの入力音声が音声認識文法データに一致していないことをユーザに提示することを特徴としている。
【００３２】
上記構成によれば、音声入力／認識状態判断手段により音声認識結果情報が受信され、それに基づき、音声入力／認識状態提示手段によりユーザの入力音声が音声認識文法データに一致していないことがユーザに提示される。なお、音声認識文法データとは、種々の語句をその用例とともに格納したデータである。音声認識サーバは、入力された音声に最も近い語句をこの音声認識文法データから抽出することにより音声認識を行っているのである。
【００３３】
したがって、ユーザは、音声入力／認識状態判断手段の提示を確認することによって、自身が入力した音声は音声認識文法データに格納されていない語句に関するものであることを判断できる。よって、ユーザは、上記提示を確認した後に再度の音声入力を行う際には、別の語句を音声入力することができるので、より利便性のよい分散型音声認識システムを提供することができる。
【００３４】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力／認識状態提示手段が、発話切出し後の音声データを上記音声認識サーバがサンプリング単位ずつ音声認識した音声認識結果を、部分認識完了単位毎に順次受信してユーザに提示することを特徴としている。
【００３５】
上記構成によれば、音声認識結果が部分認識完了単位毎にユーザに順次受信されてユーザに提示されるので、ユーザは、音声入力中においても自己の発声が正確に音声認識されているか否かを判断することができる。したがって、より利便性のよい分散型音声認識システムを提供することができる。
【００３６】
また、上記課題を解決するために、本発明の音声認識サーバは、クライアント装置にてユーザが入力した音声を、音声認識サーバにおいて発話切出しした後に音声認識する分散型音声認識システムに用いる音声認識サーバであって、上記発話切出しの進行状況を判断して上記クライアント装置に送信する音声認識状態判断手段を備えていることを特徴としている。
【００３７】
上記構成によれば、音声認識サーバにおける発話切出しの進行状況がクライアント装置に送信されるので、クライアント装置に、発話切出しの進行状況を判断する音声入力／認識状態判断手段と、上記音声入力／認識状態判断手段の判断結果に応じて上記発話切出しの進行状況をユーザに提示する音声入力／認識状態提示手段とを設けることにより、クライアント装置において発話切出しの進行状況をユーザに提示することが可能となる。
【００３８】
よって、クライアント装置のユーザは、クライアント装置に提示された発話切出しの進行状況を視認することにより、自己が発した音声が音声認識サーバにおいて音声認識されていることを確認することができる。したがって、自己の発話が確実に音声認識サーバにおいて認識されているか否かの不安をユーザに与えることがないので、より利便性のよい分散型音声認識システムを提供することができる。
【００３９】
さらに、本発明の音声認識サーバは、上記構成において、上記音声認識状態判断手段が、発話切出しが終了してから所定時間内にユーザの発話が終了したか否かを判断するとともに、その判断結果を上記クライアント装置に送信することを特徴としている。
【００４０】
上記構成によれば、音声認識サーバにおいて発話切出しが終了してから所定時間内に発話の終了を検知しなかった場合には、その判断結果を音声認識サーバからクライアント装置側に送信することにより、クライアント装置側の音声入力／認識状態提示手段によりユーザに提示することができる。
【００４１】
したがって、ユーザはそのエラー提示を確認することによって、再度音声入力を行う際により静かな場所で発声するというように、音声認識エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができる。
【００４２】
さらに、本発明の音声認識サーバは、上記構成において、上記クライアント装置から送信されるユーザの入力音声が、記憶手段に格納された音声認識文法データと一致しているか否かに関する音声認識結果情報を上記クライアント装置に送信することを特徴としている。
【００４３】
上記構成によれば、音声認識サーバから音声認識結果情報をクライアント装置側に送信することにより、クライアント装置の音声入力／認識状態提示手段においてユーザの入力音声が音声認識文法データに一致していないことをユーザに提示することができる。
【００４４】
したがって、ユーザは、音声入力／認識状態判断手段の提示を確認することによって、自身が入力した音声は音声認識文法データに格納されていない語句に関するものであることを判断できる。よって、ユーザは、上記提示を確認した後に再度の音声入力を行う際には、別の語句を音声入力することができるので、より利便性のよい分散型音声認識システムを提供することができる。
【００４５】
さらに、本発明の音声認識サーバは、上記構成において、発話切出し後の音声データをサンプリング単位ずつ音声認識するとともに、その音声認識結果を部分認識完了単位毎に順次上記クライアント装置に送信することを特徴としている。
【００４６】
上記構成によれば、音声認識の結果が部分認識完了単位毎にクライアント装置に送信されるので、クライアント装置においてその音声認識結果をユーザに提示することにより、ユーザは、音声入力中においても自己の発声が正確に音声認識されているか否かを判断することができる。したがって、より利便性のよい分散型音声認識システムを提供することができる。
【００４７】
なお、上記クライアント装置における音声入力／認識状態判断手段および音声入力／認識状態提示手段を、本発明による音声認識プログラムによりコンピュータ上で実行させることができる。また、上記音声認識サーバにおける音声認識状態判断手段を、本発明による音声認識プログラムによりコンピュータ上で実行させることができる。
【００４８】
さらに、上記音声認識プログラムをコンピュータ読み取り可能な記録媒体に記憶させることにより、任意のコンピュータ上で上記音声認識プログラムを実行させることができる。
【００４９】
【発明の実施の形態】
〔実施の形態１〕
本発明の音声認識クライアントの一実施形態について、図１ないし図１０を用いて示す。
【００５０】
図１に示すように、本実施の形態の音声認識クライアント（クライアント装置）１は、音声認識サーバ２に接続されることにより、分散型音声認識システムを構築している。なお、図１においては音声認識クライアント１と音声認識サーバ２とは１対１にて接続されているが、実際は複数の音声認識クライアントに対して１つの音声認識サーバがネットワーク接続されている。以下に、音声認識クライアント１および音声認識サーバ２の構成を具体的に説明する。
【００５１】
（１．音声認識クライアント１の構成）
音声認識クライアント１は、図１に示すように、音声入力部３と、制御部４と、音声入力／認識状態判断部（音声入力／認識状態判断手段）５と、音声入力／認識状態提示部（音声入力／認識状態提示手段）６と、記憶部７とを備えている。
【００５２】
音声入力部３は、ユーザが発話する音声を音声データとして音声認識サーバ２に送信し、該サーバから得られる音声認識結果としてのテキストデータを取得するものである。より具体的には、音声入力部３は、音声入力Ｉ／Ｆ８と、音声データ変換部９と、音声データ送信部１０と、テキストデータ受信部１１とを備えている。
【００５３】
音声入力Ｉ／Ｆ８は、ユーザが発話する音声を電気信号に変換するものであり、マイクロフォン等の一般的なインターフェースを用いることができる。音声データ変換部９は、音声入力Ｉ／Ｆ８により変換された電気信号を、ネットワークにて送信可能なデジタル信号に変換するものである。音声データ送信部１０は、音声データ変換部９により変換されたデジタル信号を、音声認識サーバ２に送信するものである。テキストデータ受信部１１は、音声データ送信部１０より送信された音声データを音声認識サーバ２が認識した結果であるテキストデータを受信するものである。
【００５４】
なお、音声データ送信部１０により音声認識サーバに送信されるデータは、サーバ側での音声認識に必要十分なデータであればその形態は問わない。つまり、音声そのものでも良いし、送信前に圧縮などの処理を施したデータでも良いし、あるいは音声認識に必要な特徴量の抽出を事前にクライアント側で実施した後のデータであってもよい。
【００５５】
上記構成により、音声入力部３は、ユーザが発話した音声を音声データとして音声認識サーバ２に送信し、該サーバから得られる音声認識結果としてのテキストデータを取得する。
【００５６】
次に、制御部４について説明する。制御部４は、音声認識クライアント１を統括的に制御するものであり、テキストデータ処理部１２を備えている。テキストデータ処理部１２は、テキストデータ受信部１１により音声認識サーバ２から受信されたテキストデータに基づき、各種アプリケーションを実行するものである。テキストデータ処理部１２により実行されるアプリケーションとしては、テキストデータの入力が必要なアプリケーション、たとえば文書作成アプリケーション、電子メール作成アプリケーション、チケット予約アプリケーションなど、種々のアプリケーションを用いることができる。
【００５７】
次に、音声入力／認識状態判断部５について説明する。音声入力／認識状態判断部５は、音声認識クライアント１における音声入力処理および音声認識サーバ２における音声認識処理が正常に実行されているか否かを判断するものである。より具体的には、音声入力／認識状態判断部５は、音声入力状態判断部（音声入力状態判断手段）１３と、音声認識状態データ受信部（音声認識状態データ受信手段）１４とを備えている。
【００５８】
音声入力状態判断部１３は、音声入力部３における音声入力が正常に行われているか否かを監視するものである。具体的には、音声入力状態判断部１３は、所定時間が経過しても音声入力Ｉ／Ｆ８に所定レベル以上の音声が入力されないときには、音声入力が正常に行われていないと判断する。その他、音声データ送信部１０による音声データの送信が音声入力開始から所定時間を経過しても行われない場合や、テキストデータ受信部１１によるテキストデータの受信が音声入力開始から所定時間を経過しても行われない場合においても、音声入力状態判断部１３は音声入力が正常に行われていないと判断する。
【００５９】
一方、音声認識状態データ受信部１４は、音声認識サーバ２から後述する音声認識状態データを受信するものである。ここで、音声認識状態データとは、音声認識サーバ２において音声認識処理が正常に実行されているか否かを示すデータである。なお、音声認識状態データは、クライアント側で音声認識の完了やエラー発生の状況を表示するために必要十分なデータであればその形態は問わない。すなわち、音声認識状態データは、音声認識完了が確認できるイベントデータであることが最低限必要であり、その他クライアント側で認識結果テキストやエラー表示をしたい場合には、それに応じて音声認識状態データの内容を詳細化すればよい。
【００６０】
上記構成により、音声入力／認識状態判断部５は、音声入力状態判断部１３の判断結果を参照することによって、音声入力部３における音声入力処理が正常に行われているか否かを把握することができる。さらに、音声入力／認識状態判断部５は、その音声認識状態データを参照することによって、音声認識サーバ２において音声認識処理が正常に行われているか否かを把握することができる。
【００６１】
次に、音声入力／認識状態提示部６について説明する。音声入力／認識状態提示部６は、音声入力あるいは音声認識が正常に行われているか否かの判断結果を音声入力／認識状態判断部５から受信し、音声認識クライアント１に設けられたディスプレイ等の表示手段（図示せず）に、音声入力の状態あるいは音声認識の状態を表示するものである。
【００６２】
なお、図１において、音声入力／認識状態提示部６は、テキストデータ処理部１２と別ブロックの構成で示したが、必ずしもこの構成に限定されるものではない。すなわち、テキストデータ処理部１２により実行されるアプリケーションによって、音声入力／認識状態表示が実現されていてもよい。
【００６３】
次に、記憶部７について説明する。記憶部７は、音声認識クライアント１における処理に必要な種々のデータを記憶するものである。特に、記憶部７は、音声入力／認識状態表示データ１５を格納している。この音声入力／認識状態表示データ１５は、音声入力／認識状態提示部６が音声入力／認識状態を表示するための画像データである。
【００６４】
以上の構成により、音声認識クライアント１は、ユーザが音声入力Ｉ／Ｆ８に対して発話した音声を、音声データとして音声認識サーバに送信し、該サーバによる音声認識の結果得られたテキストデータを取得し、所望の処理を実行する。さらに、音声認識クライアント１は、音声入力の状態および音声認識の状態を表示する機能も兼ね備えている。
【００６５】
（２．音声認識サーバ２の構成）
音声認識サーバ２は、図１に示すように、音声データ変換部２０と、記憶部（記憶手段）２１と、音声認識状態判断部（音声認識状態判断手段）２２とを備えている。音声データ変換部２０は、音声認識クライアント１の音声データ送信部１０から送信される音声データをテキストデータに変換するものである。
【００６６】
より具体的には、音声データ変換部２０は、音声データ受信部２３と、発話切出部（発話切出し手段）２４と、音声認識部２５と、テキストデータ送信部２６とを備えている。
【００６７】
音声データ受信部２３は、音声認識クライアント１の音声データ送信部１０から送信される音声データを受信するものである。
【００６８】
発話切出部２４は、音声データ受信部２３が受信した音声データを発話単位毎に切出すものである。発話切出しとは、音量・音程等の音声情報に従って、ユーザが発話していると判断できる領域を発話区間として特定することをいい、種々の公知の方法にて実現可能である。また、発話切出しは、音声データ受信部２３により受信される音声データの音量レベルが閾値を超える場合に開始され、音量レベルが閾値以下になると終了する。
【００６９】
音声認識部２５は、発話切出部２４により切出された音声データの１単位を、記憶部２１に格納された音声認識文法データに基づいてテキストデータに変換するものである。すなわち、音声認識文法データには、種々の単語データがその用法や用例とともに記憶されている。そして、音声認識部２５は、音声データと音声認識文法データとを対比し、切出された音声データに最も近いと思われる単語のテキストデータを出力する。
【００７０】
テキストデータ送信部２６は、音声認識部２５から出力されるテキストデータを、音声認識クライアント１のテキストデータ受信部１１に送信するものである。
【００７１】
以上の構成により、音声データ変換部２０は、音声認識クライアント１から送信される音声データをテキストデータとして変換し、そのテキストデータを音声認識クライアント１に送信する。
【００７２】
音声認識状態判断部２２は、音声データ変換部２０における処理が正常に行われているか否かを判断するものである。具体的には、音声認識状態判断部２２は、発話切出部２４において発話切出しが開始されたか否か、あるいは発話切出しが終了したか否かを判断する。その他、音声認識クライアント１からの音声データが音声データ受信部２３により正常に受信されているか、音声認識部２５において音声認識処理が正常に行われているか否か、テキストデータ送信部２６においてテキストデータの送信が正常に行われているか否かを、音声認識状態判断部２２において判断してもよい。
【００７３】
以上の構成により、音声認識サーバ２は、音声認識クライアント１から音声データを受信し、その音声データを発話単位毎に切出した後に音声認識し、テキストデータを作成して音声認識クライアント１に送信する。
【００７４】
（３．本実施の形態の分散型音声認識システムの利点）
本実施の形態の音声認識クライアント１と音声認識サーバ２とにより構成される分散型音声認識システムにおいては、発話切り出し機能がサーバ側に配置されているので、音声認識クライアントにおけるＣＰＵパワーやメモリなどのリソースを低減できるというメリットがある。よって、音声認識クライアントとして携帯電話等の小型機器を用いる場合に、本実施の形態の分散型音声認識システムは有利な構成といえる。
【００７５】
（４．処理フロー）
次に、本実施の形態の分散型音声認識システムの音声認識処理フローについて図２を用いて説明する。なお、図２においては、説明の便宜上、音声認識クライアントにおける処理フローと、音声認識サーバにおける処理フローとを分けて記載している。
【００７６】
先ず、音声認識クライアント１の制御部４により、音声認識処理フローが開始される（ステップ１、以下ステップを単にＳと記載する）。Ｓ１における音声認識処理フローの開始は、制御部４により、所定時間を経過する度にサイクリックに実行される。
【００７７】
その後、音声入力状態判断部１３により、音声入力が開始されたか否かが判断される（Ｓ２）。Ｓ２においては、ユーザが音声入力Ｉ／Ｆ８のキー操作を行ったか否かにより、音声入力が開始されたか否かの判断が行われる。Ｓ２において音声入力が開始されていないと判断された場合においては、再度音声入力が行われたか否かの判断が行われる。
【００７８】
Ｓ２において音声入力が開始されたと判断された場合、音声入力／認識状態提示部６は、ユーザの発話を促すための画面を音声認識クライアント１の表示手段に表示させる（Ｓ３）。たとえば、図３に示すように、「キミのすきなたべものはな〜に？」というように、質問形式のメッセージが表示される。
このメッセージに対してユーザが発話した音声は、上述したように、音声認識クライアントの音声データ変換部９および音声データ送信部１０を介して、音声認識サーバ２の音声データ受信部２３へ送信される（Ｓ４）。
【００７９】
一方、音声認識サーバ２においては、音声データ受信部２３により音声認識クライアント１の音声データ送信部１０からの音声データが受信される（Ｓ５）。そして、音声認識サーバ２の音声認識状態判断部２２により、発話切出部２４における発話切出しが開始されたか否かが判断される（Ｓ６）。なお、上述のように、発話切出部２４は音声データ受信部２３により受信される音声データが閾値以上になると開始される。
【００８０】
Ｓ６において発話切出しが開始されていないと判断された場合には、再度発話切出しが開始されたか否かが判断される。逆に、Ｓ６において発話切出しが開始されたと判断された場合、音声認識状態判断部２２は、発話切出しが開始されたことを示すデータ（発話切出し開始イベント）を、音声認識クライアント１の音声認識状態データ受信部１４に送信する（Ｓ７）。
【００８１】
一方、音声認識クライアント１においては、音声入力／認識状態提示部６により、発話切出し開始イベントが音声認識状態データ受信部１４により受信されたか否かの判断がなされる（Ｓ８）。Ｓ８において発話切出し開始イベントが受信されていないと判断された場合には、再度Ｓ８における判断が行われる。
【００８２】
逆に、Ｓ８において発話切出しイベントが受信されたと判断された場合、音声入力／認識状態提示部６は、発話切出しが開始されたことを示す画面を音声認識クライアント１の表示手段に表示させる（Ｓ９）。たとえば、図４に示すように、キャラクターがユーザの発声に対して「うん。うん。」と頷く画面を表示する。
【００８３】
一方、音声認識サーバ２において、音声認識状態判断部２２は、発話切出部２４における発話切出しが終了したか否かを判断する（Ｓ１０）。なお、上述のように、発話切出部２４は音声データ受信部２３により受信される音声データが閾値以下になると終了する。
【００８４】
Ｓ１０において発話切出しが終了していないと判断された場合、再度発話切出しが終了したか否かを判断する。一方、Ｓ１０において発話切出しが終了したと判断された場合は、音声認識状態判断部２２は、音声認識状態データ受信部１４に発話切出しが終了したことを示すデータ（発話切出し終了イベント）を送信する（Ｓ１１）。
【００８５】
そして、音声認識クライアント１においては、音声入力／認識状態提示部６により、発話切出し終了イベントが音声認識状態データ受信部１４により受信されたか否かの判断がなされる（Ｓ１２）。Ｓ１２において発話切出し終了イベントが受信されていないと判断された場合には、再度Ｓ１２における判断が行われる。
【００８６】
逆に、Ｓ１２において発話切出し終了イベントが受信されたと判断された場合、音声入力／認識状態提示部６は、発話切出しが終了したことを示す画面を音声認識クライアント１の表示手段に表示させる（Ｓ１３）。たとえば図５に示すようなキャラクターがユーザの発声に基づいて辞書を引く画面のように、単語検索中であることがユーザにわかる画面を表示するとよい。
【００８７】
また、音声認識サーバ２の音声認識部２５においては、発話切出部２４にて切出された音声データに基づき音声認識処理が実行されている（Ｓ１４）。なお、図２においては、記載の便宜上、Ｓ１４の処理がＳ１１の後に行われるように記載されているが、実際は、Ｓ１４の処理はＳ１０の処理と並行して実行されてもよい。すなわち、音声認識部２５は、発話切出部２４が切出した音声データを順次受け取って音声認識処理を実行していてもよい。
【００８８】
Ｓ１４の音声認識処理が終了した後、テキストデータ送信部２６により、音声認識結果としてのテキストデータが、音声認識クライアント１のテキストデータ受信部１１に送信される（Ｓ１５）。そして、音声認識クライアント１においては、テキストデータ受信部１１により上記テキストデータが受信される（Ｓ１６）。
【００８９】
Ｓ１６における音声認識結果としてのテキストデータのテキストデータ受信部１１による受信は、音声入力状態判断部１３により検知される。この音声入力状態判断部１３の音声認識結果データの受信検知に基づき、音声入力／認識状態提示部６は、音声認識が完了したことを示す画面を音声認識クライアント１の表示手段に表示させる（Ｓ１７）。たとえば、図６に示すように、ユーザの発声が「カレーライス」と音声認識された場合においては、『あったよ。「カレーライス」！』というように、音声認識結果をキャラクターとともに表示する。これにより、本実施の形態の分散型音声認識システムによる音声認識処理が終了する。
【００９０】
また、上述した本実施の形態の音声認識処理においては、図３ないし図６に示したような画面だけでなく、以下に説明するような画面を表示することも可能である。すなわち、音声認識処理が正常終了しなかったり、発話切出しされた音声データが音声認識文法に整合しなかったりした場合に、エラーメッセージ画面を表示するといったことも可能である。
【００９１】
たとえば、図３に示したようなユーザの発話を促すための画面が表示されている状態において、所定時間が経過しても発話切出しが開始されない場合、ユーザの発声の音量レベルが小さいか、あるいは音声入力Ｉ／Ｆ８のマイク感度が低いということが原因として考えられる。
【００９２】
このような場合、音声入力／認識状態提示部６により、ユーザにより大きな発声をすることを促す画面を表示させてもよい。たとえば、図７に示すように、「ごめん。ぜんぜんきこえなかった。もいちどおっきなこえでいってみて！」というようなメッセージをキャラクターとともに表示することが可能である。
【００９３】
このような画面を表示することによって、ユーザは発話の音量レベルが小さすぎたのではないか、あるいはボリューム設定が小さすぎたのではないかということを判断して、再度発声する際に音量を調整することが可能となる。
【００９４】
他にも、ユーザの発声の発話切出しが開始してから所定時間経過してもユーザの発話の終了を検知できない場合には、図８に示すように、「ごめん。うるさくてわかんなかった。もいちどいってみて！」というように、ユーザの発声の音量レベルが周辺のノイズにより掻き消され、うまくユーザの発声終了を検知できなかったことを示すメッセージを表示してもよい。このような画面を表示することによって、ユーザは周辺騒音・雑音が大きすぎるのではないかと判断して、より静かな場所で再度音声入力を試みることができる。
【００９５】
また、図５に示したようなサーバからの音声認識の結果を待っていることを示す画面が表示されている場合において、所定時間が経過した場合、サーバ−クライアント間の通信に何らかの異常が発生したものと考えられる。
【００９６】
このような場合、音声入力／認識状態提示部６により、ユーザにネットワーク通信が正常に機能していないことを示す画面を表示させることが可能である。たとえば、図９に示すように、「ごめん。ネットワークがおかしいみたい。またね！」というメッセージを音声入力／認識状態提示部６に表示させるとよい。
【００９７】
また、図６に示したような音声認識の終了の画面を表示する場合において、音声認識サーバ２から得られた音声認識結果が、ユーザが発声した音声データが音声認識文法データに整合していなかったことを示すデータである場合には、ユーザに再度音声入力を促す画面を音声入力／認識状態提示部６に表示させてもよい。たとえば、図１０に示すように、「ごめん。わかんなかった。もいちどいってみて！」というようなメッセージを表示するとよい。
【００９８】
また、上述の実施形態では、音声入力／認識状態提示部６によるユーザへのエラーメッセージの提示方法として画面表示による例を記載したが、エラーメッセージの提示方法は必ずしもこれに限定されるものではない。たとえば、音声入力／認識状態提示部６により、音声メッセージによるエラーの提示や、ブザーの鳴動によるエラーの提示を行ってもよい。
【００９９】
〔実施の形態２〕
次に、本発明の音声認識クライアントの他の実施形態について、図１１に基づいて説明する。なお、説明の便宜上、実施の形態１と同一の機能を有するブロックについては実施の形態１と同一の参照番号を付すことにより、各ブロックについての詳細な説明は省略する。
【０１００】
（１．音声認識クライアントおよび音声認識サーバの構成）
図１１に示すように、本実施の形態の音声認識クライアント（クライアント装置）３０は、音声入力部３に発話切出部２４が設けられている以外は、実施の形態１における音声認識クライアント１と同様の構成を有している。一方、本実施の形態の音声認識サーバ３１は、発話切出部２４が音声データ変換部２０に設けられていない点のみにおいて、実施の形態１の音声認識サーバ２と異なる構成である。
【０１０１】
すなわち、本実施の形態の音声認識クライアント３０では、音声データ変換部９において変換された音声データに基づき、発話切出部２４にて発話切出しを行う。そして、発話切出しされた後の音声データを、音声データ送信部１０によって音声認識サーバ３１の音声データ受信部２３に送信する。音声認識部２５では、音声データ受信部２３が受信する音声データに対して音声認識処理を行う。
【０１０２】
このように、本実施の形態の分散型音声認識システムでは、発話切り出しをクライアント側で行うので、実施の形態１よりも大きなクライアント側のリソースが必要になる。よって、音声認識クライアントとしては、ＰＤＡやＰＣなどのある程度のリソースを有する機器を用いることが望ましい。
【０１０３】
また、本実施の形態の分散型音声認識システムでは、発話切出しされた後の音声データをサーバ側に送信するので、サーバ側に送信する音声データを発話中の音声だけに限定することができ、通信料金を抑えたり通信帯域を節約できるというメリットがある。さらに、発話自動切り出し開始や発話自動切り出し終了のイベントが、ネットワークを介することなく直接音声入力／認識状態判断部５によって検知されるので、音声入力／認識状態提示部６が発話切出し開始／終了の画面を表示する際のネットワーク遅延を抑えることができるというメリットがある。
【０１０４】
（２．処理フロー）
次に、本実施の形態の分散型音声認識システムの音声認識処理フローについて図１２を用いて説明する。
【０１０５】
先ず、制御部４により、音声認識処理フローが開始される（Ｓ２０）。Ｓ２０における音声認識処理フローの開始は、制御部４により、所定時間を経過する度にサイクリックに実行される。
【０１０６】
その後、音声入力状態判断部１３により、音声入力が開始されたか否かが判断される（Ｓ２１）。Ｓ２１においては、ユーザが音声入力Ｉ／Ｆ８のキー操作を行ったか否かにより、音声入力が開始されたか否かの判断が行われる。Ｓ２１において音声入力が開始されていないと判断された場合においては、再度音声入力が行われたか否かの判断が行われる。
【０１０７】
Ｓ２１において音声入力が開始されたと判断された場合、音声入力／認識状態提示部６は、ユーザの発話を促すための画面を音声認識クライアント１の表示手段に表示させる（Ｓ２２）。
【０１０８】
Ｓ２２の後、音声認識クライアント３０の音声入力状態判断部１３により、発話切出部２４における発話切出しが開始されたか否かが判断される（Ｓ２３）。なお、発話切出しは音声データ変換部９から送信される音声データの音量レベルが閾値以上になると開始される。
【０１０９】
Ｓ２３において発話切出しが開始されていないと判断された場合には、再度発話切出しが開始されたか否かが判断される。
【０１１０】
一方、Ｓ２３において発話切出しが開始されたと判断された場合、音声入力／認識状態提示部６は、発話切出しが開始されたことを示すデータを音声入力状態判断部１３が受信したことを検知し、発話切出しが開始されたことを示す画面を音声認識クライアント１の表示手段に表示させる（Ｓ２４）。
【０１１１】
その後、音声入力状態判断部１３は、発話切出部２４における発話切出しが終了したか否かを判断する（Ｓ２５）。なお、発話切出しは音声データ変換部９から送信される音声データの音量レベルが閾値以下になると終了する。
【０１１２】
Ｓ２５において発話切出しが終了していないと判断された場合、再度発話切出しが終了したか否かを判断する。一方、Ｓ２５において発話切出しが終了したと判断された場合、音声入力／認識状態提示部６は、発話切出しが終了したことを示すデータを音声入力状態判断部１３が受信したことを検知し、発話切出しが終了したことを示す画面を音声認識クライアント１の表示手段に表示させる（Ｓ２６）。
【０１１３】
Ｓ２６の後、音声データ送信部１０は、発話切出部２４により切出された音声データを、音声認識サーバ３１の音声データ受信部２３に送信する（Ｓ２７）。Ｓ２７にて送信された切出し後の音声データは、音声データ受信部２３により受信される（Ｓ２８）。
【０１１４】
その後、音声認識サーバの音声認識部２５は、Ｓ２８にて受信した音声データに基づき音声認識処理が実行されている（Ｓ２９）。Ｓ２９の音声認識処理が終了した後、テキストデータ送信部２６により、音声認識結果としてのテキストデータが、音声認識クライアント１のテキストデータ受信部１１に送信される（Ｓ３０）。そして、テキストデータ受信部１１により上記テキストデータが受信される（Ｓ３１）。
【０１１５】
Ｓ３１における音声認識結果としてのテキストデータのテキストデータ受信部１１による受信は、音声入力状態判断部１３により検知される。この音声入力状態判断部１３の音声認識結果データの受信検知に基づき、音声入力／認識状態提示部６は、音声認識が完了したことを示す画面を音声認識クライアント１の表示手段に表示させる（Ｓ３２）。
【０１１６】
〔実施の形態３〕
本実施の形態は、音声認識の途中経過を表示する実施形態である。分散型音声認識システムの構成は、実施の形態１の構成でも実施の形態２の構成でもどちらでもよい。
【０１１７】
図１３に本実施の形態の分散型音声認識システムの処理フローを示す。このフローは、実施の形態２の構成（発話切出部が音声認識クライアントにある構成）を前提として記述してある。また、図１３においては、説明の便宜上、音声認識クライアントの処理フローと、音声認識サーバにおける処理フローとを分けて記載している。
【０１１８】
まず、音声認識クライアント３０において、音声入力状態判断部１３により、音声入力が開始されたか否かが判断される（Ｓ４０）。Ｓ４０は、図１２のＳ２１と同様の処理を行うので、詳細な説明は省略する。
【０１１９】
Ｓ４０において音声入力が開始されたと判断された場合、音声入力／認識状態提示部６は、ユーザの発話を促すための画面を音声認識クライアント１の表示手段に表示させる（Ｓ４１）。Ｓ４１は、図１２のＳ２２と同様の処理を行うので、詳細な説明は省略する。
【０１２０】
Ｓ４１の後、音声認識クライアント３０の音声入力状態判断部１３により、発話切出部２４における発話切出しが開始されたか否かが判断される（Ｓ４２）。Ｓ４２は図１２の図２３と同様の処理を行う。
【０１２１】
Ｓ４２において発話切出しが開始されたと判断された場合、音声入力／認識状態提示部６は、発話切出しが開始されたことを示すデータを音声入力状態判断部１３が受信したことを検知し、発話切出しが開始されたことを示す画面を音声認識クライアント１の表示手段に表示させる（Ｓ４３）。
【０１２２】
このように、Ｓ４０〜Ｓ４３までの処理は、図１２のフローと同一であると考えてよいが、Ｓ４３以降の処理において、本実施の形態の処理フローは図１２の処理フローとは異なっている。
【０１２３】
つまり、実施の形態２における図１２のフローでは、発話開始から発話終了までの音声が、一旦クライアントのメモリに蓄積されてから、一括してサーバに送信されるようになっている。一方、本実施の形態においては、発話開始時点から入手できる部分的な音声サンプルを、音声認識クライアント３０の音声データ送信部１０から、音声認識サーバ３１の音声データ受信部２３に送信している点において、実施の形態２の処理フローとは異なる。以下、本実施の形態の処理フローにおいて特徴となる点について、より具体的に説明する。
【０１２４】
先ず、音声認識クライアント３０は、ユーザの発声した音声を切出して得られる個々の音声データ（部分音声）を、発話切出し処理と並行して音声データ送信部１０から、音声認識サーバ３１の音声データ受信部２３に送信する（Ｓ４４）。
【０１２５】
一方、音声認識サーバ３１においては、部分音声を音声データ受信部２３において受信する（Ｓ４５）。そして、音声認識部２５において、Ｓ４５にて受信された部分音声の音声認識を順次実行する（Ｓ４６）。なお、このように部分音声を順次音声認識するためには、クライアント−サーバ間の通信経路において、送信されるデータの前後関係が実際の発話の前後関係と一致していることが保証されている、ということが前提となる。
【０１２６】
Ｓ４６における音声認識により、音声認識の途中結果が得られたならば、音声認識サーバ３１はその結果をテキストデータとしてテキストデータ送信部２６からテキストデータ受信部１１に送信する（Ｓ４７）。また、音声認識部２５により部分音声が音声認識文法データと一致せず音声認識に失敗した場合は、音声認識状態判断部２２により、音声認識に失敗したことを音声認識クライアント３０の音声認識状態データ受信部１４に送信する（Ｓ４８）。
【０１２７】
たとえば、ユーザが「カレーライス」と発話する場合、「カレー」までの部分音声が音声データ受信部２３に送信された段階で、音声認識部２５が「カレー」と認識することが可能である。
【０１２８】
こういった音声認識の途中結果が得られた場合には、音声認識サーバ３１は、音声認識状態判断部２２から音声認識状態データ受信部１４に音声認識の途中結果が得られたというイベント情報を送信し、さらに音声認識の途中結果として「カレー」というテキストデータそのものをテキストデータ送信部２６からテキストデータ受信部１１に送信する。
【０１２９】
なお、図１３においてはＳ４７の処理の後にＳ４８の処理が実行されるように記載しているが、必ずしもこれに限定されるものではなく、Ｓ４８の処理をＳ４７の処理の前に行ってもよい。
【０１３０】
一方、音声認識クライアント３０においては、音声認識状態データ受信部１４により音声認識の途中失敗結果が受信されたか否かが、音声入力／認識状態判断部５により判断される（Ｓ４９）。Ｓ４９において音声認識の途中失敗結果が受信されたと判断された場合には、音声入力／認識状態提示部６は、音声認識の失敗画面を音声認識クライアントの表示手段に表示させる（Ｓ５０）。音声認識の失敗画面に関しては、たとえば図１０に示したような画面を一例として挙げることができる。
【０１３１】
一方、Ｓ４９において音声認識の途中失敗結果が受信されていないと判断された場合には、テキストデータ受信部１１により音声認識の途中結果が受信されたか否かが、音声入力状態判断部１３により判断される（Ｓ５１）。Ｓ５１において音声認識の途中結果が受信されたと判断された場合には、音声入力／認識状態提示部６は、音声認識の途中結果を示す画面を音声認識クライアントの表示手段に表示させる（Ｓ５２）。
【０１３２】
たとえば、上述のように音声認識の途中結果として「カレー」というテキストデータが音声認識サーバから送信されているのであれば、図１４に示すように、「カレー…」というように音声認識の途中結果が表示される。
【０１３３】
逆に、Ｓ５１において音声認識の途中結果が受信されていないと判断された場合には、音声入力状態判断部１３により、発話切出部２４における発話切出しが終了したか否かが判断される（Ｓ５３）。Ｓ５３の処理は図１２のＳ２５の処理と同様である。
【０１３４】
また、上述のフローでは、完全に発話終了時点までの音声全てを待たなくても、ある時点までに送信された音声が音声認識用の文法に不適合であるかどうかの判断が、音声認識部２５により可能となる場合がある。たとえば、音声認識文法データに「オムライス」という単語だけが登録されていて、送信された部分音声が「カレー」という音声だとすると、この時点にて音声認識部２５により音声認識に失敗したと判断できる場合がある。
【０１３５】
その場合、音声認識クライアント３０からの全ての音声の受信を待たずに、音声認識サーバ３１の音声認識状態判断部２２から、音声認識が途中で失敗したという結果を、音声認識クライアント３０の音声認識状態データ受信部１４に送信できる。音声認識クライアント３０から見ると、音声認識サーバ３１に全ての音声を送信完了していない段階でも、認識途中失敗の結果を受信することがあることになる。
【０１３６】
この場合には、音声入力／認識状態提示部６は、Ｓ４３において発話切出し開始の画面を表示していても、Ｓ４９において音声認識の途中失敗という結果を受け取って、Ｓ５０に移行して音声認識の失敗画面を表示することができる。
【０１３７】
再び図１３のフローの説明に戻る。Ｓ５３において発話切出しが終了していないと判断された場合、Ｓ４４の処理を再度行う。逆に、Ｓ５３において発話切出しが終了していると判断された場合、音声入力／認識状態提示部６は、発話切出しが終了したことを示すデータを音声入力状態判断部１３が受信したことを検知し、発話切出しが終了したことを示す画面を音声認識クライアント１の表示手段に表示させる（Ｓ５４）。Ｓ５４は図１２のＳ２６と同様の処理である。
【０１３８】
一方、音声認識サーバ３１においては、Ｓ４８の処理の後、音声認識状態判断部２２により、ユーザの発話の最終部分が音声データ受信部２３に受信されたか否かが判断される（Ｓ５５）。Ｓ５５において発話の最終部分が受信されていないと判断された場合、Ｓ４５の処理に戻る。逆にＳ５５において発話の最終部分が受信されていると判断された場合、テキストデータ送信部２６は、音声認識結果を音声認識クライアントのテキストデータ受信部１１に送信する（Ｓ５６）。なお、音声認識部２５が音声認識に失敗した場合には、Ｓ５６において、音声認識状態判断部２２から音声認識クライアント３０の音声認識状態データ受信部１４に、音声認識に失敗したという情報が送信される。
【０１３９】
Ｓ５６にて送信される音声認識結果は、音声認識クライアント３０において、Ｓ５４の処理を行った後、テキストデータ受信部１１にて受信される（Ｓ５７）。なお、音声認識部２５が音声認識に失敗している場合には、Ｓ５７において、音声認識状態データ受信部１４にて、音声認識に失敗したという情報が受信されることになる。
【０１４０】
Ｓ５７の後、音声入力／認識状態提示部６は、音声認識状態データ受信部１４が、音声認識サーバ３１から音声認識に失敗したことに関する情報を受信しているか否かを判断することにより、音声認識が正常に行われたか否かを判断する（Ｓ５８）。
【０１４１】
Ｓ５８において音声認識に失敗したと判断された場合、音声入力／認識状態提示部６は、音声認識の失敗画面を音声認識クライアントの表示手段に表示させる（Ｓ５０）。逆に、Ｓ５８において音声認識に成功していると判断された場合、音声入力／認識状態提示部６は、音声認識の終了画面を音声認識クライアントの表示手段に表示させる（Ｓ５９）。Ｓ５９においては、たとえば図６に示すような画面が表示される。
【０１４２】
なお、上記各実施形態の音声認識クライアントや音声認識サーバの各部や各処理ステップは、ＣＰＵなどの演算手段が、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やＲＡＭなどの記憶手段に記憶されたプログラムを実行し、キーボードなどの入力手段、ディスプレイなどの出力手段、あるいは、インターフェース回路などの通信手段を制御することにより実現することができる。したがって、これらの手段を有するコンピュータが、上記プログラムを記録した記録媒体を読み取り、当該プログラムを実行するだけで、本実施形態の音声認識クライアントおよび音声認識サーバの各種機能および各種処理を実現することができる。また、上記プログラムをリムーバブルな記録媒体に記録することにより、任意のコンピュータ上で上記の各種機能および各種処理を実現することができる。
【０１４３】
この記録媒体としては、マイクロコンピュータで処理を行うために図示しないメモリ、例えばＲＯＭのようなものがプログラムメディアであっても良いし、また、図示していないが外部記憶装置としてプログラム読み取り装置が設けられ、そこに記録媒体を挿入することにより読み取り可能なプログラムメディアであっても良い。
【０１４４】
また、何れの場合でも、格納されているプログラムは、マイクロプロセッサがアクセスして実行される構成であることが好ましい。さらに、プログラムを読み出し、読み出されたプログラムは、マイクロコンピュータのプログラム記憶エリアにダウンロードされて、そのプログラムが実行される方式であることが好ましい。なお、このダウンロード用のプログラムは予め本体装置に格納されているものとする。
【０１４５】
また、上記プログラムメディアとしては、本体と分離可能に構成される記録媒体であり、磁気テープやカセットテープ等のテープ系、フレキシブルディスクやハードディスク等の磁気ディスクやＣＤ／ＭＯ／ＭＤ／ＤＶＤ等のディスクのディスク系、ＩＣカード（メモリカードを含む）等のカード系、あるいはマスクＲＯＭ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュＲＯＭ等による半導体メモリを含めた固定的にプログラムを担持する記録媒体等がある。
【０１４６】
また、インターネットを含む通信ネットワークを接続可能なシステム構成であれば、通信ネットワークからプログラムをダウンロードするように流動的にプログラムを担持する記録媒体であることが好ましい。
【０１４７】
さらに、このように通信ネットワークからプログラムをダウンロードする場合には、そのダウンロード用のプログラムは予め本体装置に格納しておくか、あるいは別な記録媒体からインストールされるものであることが好ましい。
【０１４８】
なお、本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【０１４９】
【発明の効果】
以上のように、本発明におけるクライアント装置は、発話切出しの進行状況を判断する音声入力／認識状態判断手段と、上記音声入力／認識状態判断手段の判断結果に応じて、上記発話切出しの進行状況をユーザに提示する音声入力／認識状態提示手段とを備えているものである。
【０１５０】
また、本発明における分散型音声認識システムは、クライアント装置が、上記発話切出しの進行状況を判断する音声入力／認識状態判断手段と、上記音声入力／認識状態判断手段の判断結果に応じて、上記発話切出しの進行状況をユーザに提示する音声入力／認識状態提示手段とを備えているものである。
【０１５１】
上記構成によれば、音声入力／認識状態提示手段により発話切出しの進行状況がユーザに提示されるので、クライアント装置は、発話切出しの進行状況をユーザに提示することが可能となる。
【０１５２】
よって、クライアント装置のユーザは、クライアント装置に提示された発話切出しの進行状況を視認することにより、自己が発した音声が音声認識サーバにおいて音声認識されていることを確認することができる。したがって、自己の発話が確実に音声認識サーバにおいて認識されているか否かの不安をユーザに与えることがないので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【０１５３】
さらに、本発明のクライアント装置は、上記構成のクライアント装置において、上記発話切出しを実行する発話切出し手段を備えている一方、上記音声入力／認識状態判断手段は、上記発話切出し手段による発話切出しの進行状況を検出する音声入力状態判断手段を備えているものである。
【０１５４】
また、本発明における分散型音声認識システムは、上記構成の分散型音声認識システムにおいて、上記クライアント装置が、上記発話切出しを実行する発話切出し手段を備えているとともに、上記クライアント装置の音声入力／認識状態判断手段が、上記発話切出し手段による発話切出しの進行状況を検出する音声入力状態判断手段を備えているものである。
【０１５５】
上記構成によれば、クライアント装置側でユーザの入力した音声を発話切出した後に、発話切出し後の音声データをクライアント装置側から音声認識サーバに送信することができるので、クライアント装置−音声認識サーバ間での通信料金を抑えたり、通信帯域を節約したりすることができるという効果を奏する。
【０１５６】
また、クライアント装置内で発話切出しを行って、その進行状況を音声入力／認識状態判断手段にて判断するので、発話切出しの進行状況の送信が他の機器を介することなくクライアント装置内で行われる。よって、音声入力／認識状態提示手段による発話切出しの進行状況の提示を、発話切出しに対して遅延無く行うことができるという効果を奏する。
【０１５７】
さらに、本発明のクライアント装置は、上記構成のクライアント装置において、上記音声入力／認識状態判断手段は、上記音声認識サーバにおいて実行される発話切出しの進行状況を、音声認識状態データとして受信する音声認識状態データ受信手段を備えているものである。
【０１５８】
また、本発明における分散型音声認識システムは、上記構成の分散型音声認識システムにおいて、上記音声認識サーバが、上記発話切出しを実行するものであるとともに、その発話切出しの進行状況を判断して上記クライアント装置に送信する音声認識状態判断手段を備えており、上記クライアント装置の音声入力／認識状態判断手段が、上記音声認識状態判断手段から送信される発話切出しの進行状況を、音声認識状態データとして受信する音声認識状態データ受信手段を備えているものである。
【０１５９】
上記構成によれば、発話切出しが音声認識サーバ側において行われるので、クライアント装置に発話切出し機能を実現するための構成を設ける必要はない。また、音声認識状態データ受信手段は、発話切出し機能を実現するためのリソースに比べて少ないリソースにて実現可能である。よって、クライアント装置としてリソースの少ない携帯電話等の小型機器を用いることができるという効果を奏する。
【０１６０】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力／認識状態判断手段が、音声入力の受付開始から所定時間内に所定音量レベルを超えるユーザの音声入力があるか否かを判断するとともに、上記音声入力／認識状態提示手段は、上記音声入力／認識状態判断手段により音声入力の受付開始から所定時間内に所定音量レベルを超えるユーザの音声入力がないと判断された場合に、ユーザの入力音声の音量レベルが小さいことをユーザに提示するものである。
【０１６１】
上記構成によれば、音声入力／認識状態判断手段によりユーザの入力音声の音量レベルが小さいと判断された場合に、音声入力／認識状態提示手段により音声入力のエラー提示をさせることができる。したがって、ユーザはそのエラー提示を確認することによって、再度音声入力を行う際により大きな声で発声するというように、音声入力エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【０１６２】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力／認識状態判断手段が、発話切出しが開始してから所定時間内にユーザの発話が終了したか否かを判断するとともに、上記音声入力／認識状態提示手段が、上記音声入力／認識状態判断手段による上記発話切出しの終了に関する判断結果に基づき、ユーザの発話終了が検知できないことをユーザに提示するものである。
【０１６３】
上記構成によれば、音声入力／認識状態判断手段により、発話切出しが開始してから所定時間内にユーザの発話が終了しなかったと判断された場合に、音声入力／認識状態提示手段により音声認識のエラー提示をさせることができる。ここで、発話切出しの終了から所定時間内にユーザの発話終了を検知できない要因のひとつとして、音声入力を行う場所の周辺における騒音や雑音が大きい、ということを挙げることができる。
【０１６４】
したがって、ユーザはそのエラー提示を確認することによって、再度音声入力を行う際により静かな場所で発声するというように、音声認識エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【０１６５】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力／認識状態判断手段が、発話切出しが終了してから所定時間内に上記音声認識サーバから上記クライアント装置が音声認識結果を受信したか否かを判断するとともに、上記音声入力／認識状態提示手段が、上記音声入力／認識状態判断手段による音声認識結果の受信に関する判断結果に基づき、上記クライアント装置と上記音声認識サーバとの間における通信に異常があることをユーザに提示するものである。
【０１６６】
上記構成によれば、音声入力／認識状態判断手段により、発話切出しが終了してから所定時間内に音声認識結果が音声認識サーバから受信されないと判断した場合には、音声入力／認識状態提示手段により、クライアント装置と音声認識サーバとの間における通信に異常があることをユーザに提示することができる。
【０１６７】
したがって、ユーザは、そのエラー提示を確認することによって、管理者にクライアント−サーバ間の通信の復旧を依頼するというように、通信エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【０１６８】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力／認識状態判断手段が、上記クライアント装置から送信された音声が上記音声認識サーバに格納された音声認識文法データと一致しているか否かに関する音声認識結果情報を上記音声認識サーバから受信する一方、上記音声入力／認識状態提示手段は、上記音声入力／認識状態判断手段により受信された上記音声認識結果情報に基づき、ユーザの入力音声が音声認識文法データに一致していないことをユーザに提示するものである。
【０１６９】
上記構成によれば、音声入力／認識状態判断手段により音声認識結果情報が受信され、それに基づき、音声入力／認識状態提示手段によりユーザの入力音声が音声認識文法データに一致していないことがユーザに提示される。
【０１７０】
したがって、ユーザは、音声入力／認識状態判断手段の提示を確認することによって、自身が入力した音声は音声認識文法データに格納されていない語句に関するものであることを判断できる。よって、ユーザは、上記提示を確認した後に再度の音声入力を行う際には、別の語句を音声入力することができるので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【０１７１】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力／認識状態提示手段が、発話切出し後の音声データを上記音声認識サーバがサンプリング単位ずつ音声認識した音声認識結果を、部分認識完了単位毎に順次受信してユーザに提示するものである。
【０１７２】
上記構成によれば、発話切出し後の音声データが部分認識完了単位毎にユーザに順次受信されてユーザに提示されるので、ユーザは、音声入力中においても自己の発声が正確に音声認識されているか否かを判断することができる。したがって、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【０１７３】
また、以上のように、本発明の音声認識サーバは、発話切出しの進行状況を判断して上記クライアント装置に送信する音声認識状態判断手段を備えているものである。
【０１７４】
上記構成によれば、音声認識サーバにおける発話切出しの進行状況がクライアント装置に送信されるので、クライアント装置に、発話切出しの進行状況を判断する音声入力／認識状態判断手段と、上記音声入力／認識状態判断手段の判断結果に応じて上記発話切出しの進行状況をユーザに提示する音声入力／認識状態提示手段とを設けることにより、クライアント装置において発話切出しの進行状況をユーザに提示することが可能となる。
【０１７５】
よって、クライアント装置のユーザは、クライアント装置に提示された発話切出しの進行状況を視認することにより、自己が発した音声が音声認識サーバにおいて音声認識されていることを確認することができる。したがって、自己の発話が確実に音声認識サーバにおいて認識されているか否かの不安をユーザに与えることがないので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【０１７６】
さらに、本発明の音声認識サーバは、上記構成において、上記音声認識状態判断手段が、発話切出しが終了してから所定時間内にユーザの発話が終了したか否かを判断するとともに、その判断結果を上記クライアント装置に送信するものである。
【０１７７】
上記構成によれば、音声認識サーバにおいて発話切出しが終了してから所定時間内に発話の終了を検知しなかった場合には、その判断結果を音声認識サーバからクライアント装置側に送信することにより、クライアント装置側の音声入力／認識状態提示手段によりユーザに提示することができる。
【０１７８】
したがって、ユーザはそのエラー提示を確認することによって、再度音声入力を行う際により静かな場所で発声するというように、音声認識エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【０１７９】
さらに、本発明の音声認識サーバは、上記構成において、上記クライアント装置から送信されるユーザの入力音声が、記憶手段に格納された音声認識文法データと一致しているか否かに関する音声認識結果情報を上記クライアント装置に送信するものである。
【０１８０】
上記構成によれば、音声認識サーバから音声認識結果情報をクライアント装置側に送信することにより、クライアント装置の音声入力／認識状態提示手段においてユーザの入力音声が音声認識文法データに一致していないことをユーザに提示することができる。
【０１８１】
したがって、ユーザは、音声入力／認識状態判断手段の提示を確認することによって、自身が入力した音声は音声認識文法データに格納されていない語句に関するものであることを判断できる。よって、ユーザは、上記提示を確認した後に再度の音声入力を行う際には、別の語句を音声入力することができるので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【０１８２】
さらに、本発明の音声認識サーバは、上記構成において、発話切出し後の音声データをサンプリング単位ずつ音声認識するとともに、その音声認識結果を部分認識完了単位毎に順次上記クライアント装置に送信するものである。
【０１８３】
上記構成によれば、音声認識の結果が部分認識完了単位毎にクライアント装置に送信されるので、クライアント装置においてその音声認識結果をユーザに提示することにより、ユーザは、音声入力中においても自己の発声が正確に音声認識されているか否かを判断することができる。したがって、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【０１８４】
なお、上記クライアント装置における音声入力／認識状態判断手段および音声入力／認識状態提示手段を、本発明による音声認識プログラムによりコンピュータ上で実行させることができる。また、上記音声認識サーバにおける音声認識状態判断手段を、本発明による音声認識プログラムによりコンピュータ上で実行させることができる。
【０１８５】
さらに、上記音声認識プログラムをコンピュータ読み取り可能な記録媒体に記憶させることにより、任意のコンピュータ上で上記音声認識プログラムを実行させることができるという効果を奏する。
【図面の簡単な説明】
【図１】本発明の分散型音声認識システムの一実施形態に係る構成を示すブロック図である。
【図２】図１の分散型音声認識システムにおける処理の流れを示すフローチャートである。
【図３】図１の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図４】図１の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図５】図１の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図６】図１の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図７】図１の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図８】図１の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図９】図１の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図１０】図１の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図１１】本発明の分散型音声認識システムの他の実施形態に係る構成を示すブロック図である。
【図１２】図１１の分散型音声認識システムにおける処理の流れを示すフローチャートである。
【図１３】本発明の分散型音声認識システムの他の実施形態における処理の流れを示すフローチャートである。
【図１４】図１３のフローチャートにおいて音声認識の途中結果を示すために表示される画面の一例を示す図である。
【符号の説明】
１音声認識クライアント（クライアント装置）
２音声認識サーバ
５音声入力／認識状態判断部（音声入力／認識状態判断手段）
６音声入力／認識状態提示部（音声入力／認識状態提示手段）
１３音声入力状態判断部（音声入力状態判断手段）
１４音声認識状態データ受信部（音声認識状態データ受信手段）
２１記憶部（記憶手段）
２２音声認識状態判断部（音声認識状態判断手段）
２４発話切出部（発話切出し手段）
３０音声認識クライアント（クライアント装置）
３１音声認識サーバ

Claims

クライアント装置にてユーザが入力した音声を、発話切出しした後に音声認識サーバにおいて音声認識する分散型音声認識システムに用いるクライアント装置であって、
上記発話切出しの進行状況を判断する音声入力／認識状態判断手段と、
上記音声入力／認識状態判断手段の判断結果に応じて、上記発話切出しの進行状況をユーザに提示する音声入力／認識状態提示手段とを備えていることを特徴とするクライアント装置。
上記発話切出しを実行する発話切出し手段を備えている一方、
上記音声入力／認識状態判断手段は、上記発話切出し手段による発話切出しの進行状況を検出する音声入力状態判断手段を備えていることを特徴とする請求項１に記載のクライアント装置。
上記音声入力／認識状態判断手段は、上記音声認識サーバにおいて実行される発話切出しの進行状況を、音声認識状態データとして受信する音声認識状態データ受信手段を備えていることを特徴とする請求項１に記載のクライアント装置。
上記音声入力／認識状態判断手段は、音声入力の受付開始から所定時間内に所定音量レベルを超えるユーザの音声入力があるか否かを判断するとともに、
上記音声入力／認識状態提示手段は、上記音声入力／認識状態判断手段により音声入力の受付開始から所定時間内に所定音量レベルを超えるユーザの音声入力がないと判断された場合に、ユーザの入力音声の音量レベルが小さいことをユーザに提示することを特徴とする請求項１ないし３のいずれか１項に記載のクライアント装置。
上記音声入力／認識状態判断手段は、発話切出しが開始してから所定時間内にユーザの発話が終了したか否かを判断するとともに、
上記音声入力／認識状態提示手段は、上記音声入力／認識状態判断手段による上記発話切出しの終了に関する判断結果に基づき、ユーザの発話終了が検知できないことをユーザに提示することを特徴とする請求項１ないし４のいずれか１項に記載のクライアント装置。
上記音声入力／認識状態判断手段は、発話切出しが終了してから所定時間内に上記音声認識サーバから上記クライアント装置が音声認識結果を受信したか否かを判断するとともに、
上記音声入力／認識状態提示手段は、上記音声入力／認識状態判断手段による音声認識結果の受信に関する判断結果に基づき、上記クライアント装置と上記音声認識サーバとの間における通信に異常があることをユーザに提示することを特徴とする請求項１ないし５のいずれか１項に記載のクライアント装置。
上記音声入力／認識状態判断手段は、上記クライアント装置から送信された音声データが上記音声認識サーバに格納された音声認識文法データと一致しているか否かに関する音声認識結果情報を上記音声認識サーバから受信する一方、
上記音声入力／認識状態提示手段は、上記音声入力／認識状態判断手段により受信された上記音声認識結果情報に基づき、ユーザの入力音声が音声認識文法データに一致していないことをユーザに提示することを特徴とする請求項１ないし６のいずれか１項に記載のクライアント装置。
上記音声入力／認識状態提示手段は、発話切出し後の音声データを上記音声認識サーバがサンプリング単位ずつ音声認識した音声認識結果を、部分認識完了単位毎に順次受信してユーザに提示することを特徴とする請求項１ないし７のいずれか１項に記載のクライアント装置。
クライアント装置にてユーザが入力した音声を、音声認識サーバにおいて発話切出しした後に音声認識する分散型音声認識システムに用いる音声認識サーバであって、
上記発話切出しの進行状況を判断して上記クライアント装置に送信する音声認識状態判断手段を備えていることを特徴とする音声認識サーバ。
上記音声認識状態判断手段は、発話切出しが終了してから所定時間内にユーザの発話が終了したか否かを判断するとともに、その判断結果を上記クライアント装置に送信することを特徴とする請求項９に記載の音声認識サーバ。
上記クライアント装置から送信されるユーザの入力音声が、記憶手段に格納された音声認識文法データと一致しているか否かに関する音声認識結果情報を上記クライアント装置に送信することを特徴とする請求項９または１０に記載の音声認識サーバ。
発話切出し後の音声データをサンプリング単位ずつ音声認識するとともに、その音声認識結果を部分認識完了単位毎に順次上記クライアント装置に送信することを特徴とする請求項９ないし１１に記載の音声認識サーバ。
クライアント装置にてユーザが入力した音声を、発話切出しした後に音声認識サーバにおいて音声認識する分散型音声認識システムであって、
上記クライアント装置は、
上記発話切出しの進行状況を判断する音声入力／認識状態判断手段と、
上記音声入力／認識状態判断手段の判断結果に応じて、上記発話切出しの進行状況をユーザに提示する音声入力／認識状態提示手段とを備えていることを特徴とする分散型音声認識システム。
上記クライアント装置は、上記発話切出しを実行する発話切出し手段を備えているとともに、
上記クライアント装置の音声入力／認識状態判断手段は、上記発話切出し手段による発話切出しの進行状況を検出する音声入力状態判断手段を備えていることを特徴とする請求項１３に記載の分散型音声認識システム。
上記音声認識サーバは、上記発話切出しを実行するものであるとともに、その発話切出しの進行状況を判断して上記クライアント装置に送信する音声認識状態判断手段を備えており、
上記クライアント装置の音声入力／認識状態判断手段は、上記音声認識状態判断手段から送信される発話切出しの進行状況を、音声認識状態データとして受信する音声認識状態データ受信手段を備えていることを特徴とする請求項１３に記載の分散型音声認識システム。
コンピュータを請求項１に記載のクライアント装置における音声入力／認識状態判断手段および音声入力／認識状態提示手段として機能させるための音声認識プログラム。
コンピュータを請求項９に記載の音声認識サーバにおける音声認識状態判断手段として機能させるための音声認識プログラム。
請求項１６または請求項１７に記載の音声認識プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。