JP2005037615A - クライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体 - Google Patents
クライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP2005037615A JP2005037615A JP2003199375A JP2003199375A JP2005037615A JP 2005037615 A JP2005037615 A JP 2005037615A JP 2003199375 A JP2003199375 A JP 2003199375A JP 2003199375 A JP2003199375 A JP 2003199375A JP 2005037615 A JP2005037615 A JP 2005037615A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- recognition
- speech
- client device
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【課題】音声認識のための音声入力を行うユーザに与えるストレスを低減するクライアント装置を提供する。
【解決手段】音声認識クライアント1は、発話切出しの進行状況を判断する音声入力/認識状態判断部5と、上記音声入力/認識状態判断部5の判断結果に応じて、上記発話切出しの進行状況をユーザに提示する音声入力/認識状態提示部6とを備えている。上記構成によれば、音声認識クライアント1に提示された発話切出しの進行状況を視認することにより、自己が発した音声が音声認識サーバ2において音声認識されていることを確認することができる。したがって、自己の発話が確実に音声認識サーバ2において認識されているか否かの不安をユーザに与えることがない。
【選択図】 図1
【解決手段】音声認識クライアント1は、発話切出しの進行状況を判断する音声入力/認識状態判断部5と、上記音声入力/認識状態判断部5の判断結果に応じて、上記発話切出しの進行状況をユーザに提示する音声入力/認識状態提示部6とを備えている。上記構成によれば、音声認識クライアント1に提示された発話切出しの進行状況を視認することにより、自己が発した音声が音声認識サーバ2において音声認識されていることを確認することができる。したがって、自己の発話が確実に音声認識サーバ2において認識されているか否かの不安をユーザに与えることがない。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、分散型音声認識システムに関するものであり、特に発話切出しの進行状況を表示することができるクライアント装置に関するものである。
【0002】
【従来の技術】
従来の音声認識技術においては、特許文献1の信号処理装置のように、発話自動切り出し(エンドポインティング)に関する技術が存在する。この技術は、音声認識に先立って音量やパワーの変化などに基づいて、ユーザの発話区間を特定する技術であり、発話部分に対してのみ音声認識を行うために用いられる。
【0003】
この技術を活用すれば、音声認識エンジンは本当に音声認識が必要な部分のみ認識処理を行えば良いことになるので、与えられる負荷が軽くなり多重度(同時処理可能数)をあげることができる。
【0004】
また、この技術は、音声認識を開始するために音声以外のトリガーを必要としないことから、ハンズフリーでの音声認識を実現するために重要となる。音声認識開始のためにスイッチを押さなければならないということは、手作業を行っている際には不便となるからである。
【0005】
また、従来の発話切り出しを伴う音声認識の場合には、発話切り出しの終了から音声認識の終了までにあまり時間がかからないため、発話入力開始から音声認識結果が得られるまでの音声認識処理全体の開始状態と終了状態とを表示すれば十分であった。
【0006】
一方、特許文献2や特許文献3においては、分散音声認識という技術が記載されている。分散音声認識技術は、発話切り出し、特徴量抽出、音声認識、自然言語解釈、といった音声認識の一連の処理を、クライアントおよびサーバに適切に分散して処理する技術である。当該技術によれば、クライアントのマシンスペック以上のパワーが必要な高精度な音声認識処理をシステム全体で実現したり、負荷分散やフェイルセーフを実現したりすることができる。
【0007】
【特許文献1】
特開平7−64578号公報(1995年3月10日公開)
【0008】
【特許文献2】
米国特許第5,819,220号公報(1998年10月06日登録)
【0009】
【特許文献3】
特表2002−540479号公報(平成14年11月26日公表)
【0010】
【発明が解決しようとする課題】
ところが、分散音声認識技術では、発話切り出し終了のあと、リモートのサーバに音声あるいは音声特徴量を送信してからサーバから認識結果を得るまでの時間において、その間ユーザは音声入力を行わずに待機しておかなければならないことになる。
【0011】
特に、クライアントとサーバが、インターネットなどの長距離ベストエフォート型の通信手段を介して設置されるような場合には、音声を入力してから音声認識の結果が得られるまでの遅延時間が大きくなる場合がある。遅延時間が大きくなることにより、それだけユーザが待機しなければならない時間も長くなってしまうので、ユーザに与えるストレスが増大するという問題が生じる。
【0012】
本発明は、上記従来の問題点に鑑みなされたものであって、その目的は、音声認識のための音声入力を行うユーザに与えるストレスを低減することが可能なクライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【0013】
【課題を解決するための手段】
上記課題を解決するため、本発明におけるクライアント装置は、クライアント装置にてユーザが入力した音声を、発話切出しした後に音声認識サーバにおいて音声認識する分散型音声認識システムに用いるクライアント装置であって、上記発話切出しの進行状況を判断する音声入力/認識状態判断手段と、上記音声入力/認識状態判断手段の判断結果に応じて、上記発話切出しの進行状況をユーザに提示する音声入力/認識状態提示手段とを備えていることを特徴としている。
【0014】
また、本発明における分散型音声認識システムは、クライアント装置にてユーザが入力した音声を、発話切出しした後に音声認識サーバにおいて音声認識する分散型音声認識システムであって、上記クライアント装置が、上記発話切出しの進行状況を判断する音声入力/認識状態判断手段と、上記音声入力/認識状態判断手段の判断結果に応じて、上記発話切出しの進行状況をユーザに提示する音声入力/認識状態提示手段とを備えていることを特徴としている。
【0015】
上記構成によれば、音声入力/認識状態提示手段により発話切出しの進行状況がユーザに提示されるので、クライアント装置は、発話切出しの進行状況をユーザに提示することが可能となる。
【0016】
よって、クライアント装置のユーザは、クライアント装置に提示された発話切出しの進行状況を視認することにより、自己が発した音声が音声認識サーバにおいて音声認識されていることを確認することができる。したがって、自己の発話が確実に音声認識サーバにおいて認識されているか否かの不安をユーザに与えることがないので、より利便性のよい分散型音声認識システムを提供することができる。
【0017】
さらに、本発明のクライアント装置は、上記構成のクライアント装置において、上記発話切出しを実行する発話切出し手段を備えている一方、上記音声入力/認識状態判断手段は、上記発話切出し手段による発話切出しの進行状況を検出する音声入力状態判断手段を備えていることを特徴としている。
【0018】
また、本発明における分散型音声認識システムは、上記構成の分散型音声認識システムにおいて、上記クライアント装置が、上記発話切出しを実行する発話切出し手段を備えているとともに、上記クライアント装置の音声入力/認識状態判断手段が、上記発話切出し手段による発話切出しの進行状況を検出する音声入力状態判断手段を備えていることを特徴としている。
【0019】
上記構成によれば、クライアント装置側でユーザの入力した音声を発話切出しした後に、発話切出し後の音声データをクライアント装置側から音声認識サーバに送信することができるので、クライアント装置−音声認識サーバ間での通信料金を抑えたり、通信帯域を節約したりすることができる。また、クライアント装置内で発話切出しを行って、その進行状況を音声入力/認識状態判断手段にて判断するので、発話切出しの進行状況の送信が他の機器を介することなくクライアント装置内で行われる。よって、音声入力/認識状態提示手段による発話切出しの進行状況の提示を、発話切出しに対して遅延無く行うことができる。
【0020】
さらに、本発明のクライアント装置は、上記構成のクライアント装置において、上記音声入力/認識状態判断手段は、上記音声認識サーバにおいて実行される発話切出しの進行状況を、音声認識状態データとして受信する音声認識状態データ受信手段を備えていることを特徴としている。
【0021】
また、本発明における分散型音声認識システムは、上記構成の分散型音声認識システムにおいて、上記音声認識サーバが、上記発話切出しを実行するものであるとともに、その発話切出しの進行状況を判断して上記クライアント装置に送信する音声認識状態判断手段を備えており、上記クライアント装置の音声入力/認識状態判断手段が、上記音声認識状態判断手段から送信される発話切出しの進行状況を、音声認識状態データとして受信する音声認識状態データ受信手段を備えていることを特徴としている。
【0022】
上記構成によれば、発話切出しが音声認識サーバ側において行われるので、クライアント装置に発話切出し機能を実現するための構成を設ける必要はない。また、音声認識状態データ受信手段は、発話切出し機能を実現するためのリソースに比べて少ないリソースにて実現可能である。よって、クライアント装置としてリソースの少ない携帯電話等の小型機器を用いることができる。
【0023】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力/認識状態判断手段が、音声入力の受付開始から所定時間内に所定音量レベルを超えるユーザの音声入力があるか否かを判断するとともに、上記音声入力/認識状態提示手段は、上記音声入力/認識状態判断手段により音声入力の受付開始から所定時間内に所定音量レベルを超えるユーザの音声入力がないと判断された場合に、ユーザの入力音声の音量レベルが小さいことをユーザに提示することを特徴としている。
【0024】
上記構成によれば、音声入力/認識状態判断手段によりユーザの入力音声の音量レベルが小さいと判断された場合に、音声入力/認識状態提示手段により音声入力のエラー提示をさせることができる。したがって、ユーザはそのエラー提示を確認することによって、再度音声入力を行う際により大きな声で発声するというように、音声入力エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができる。
【0025】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力/認識状態判断手段が、発話切出しが開始してから所定時間内にユーザの発話が終了したか否かを判断するとともに、上記音声入力/認識状態提示手段が、上記音声入力/認識状態判断手段による上記発話切出しの終了に関する判断結果に基づき、ユーザの発話終了が検知できないことをユーザに提示することを特徴としている。
【0026】
上記構成によれば、音声入力/認識状態判断手段により、発話切出しが開始してから所定時間内にユーザの発話が終了しなかったと判断された場合に、音声入力/認識状態提示手段により音声認識のエラー提示をさせることができる。ここで、発話切出しの終了から所定時間内にユーザの発話終了を検知できない要因のひとつとして、音声入力を行う場所の周辺における騒音や雑音が大きい、ということを挙げることができる。
【0027】
したがって、ユーザはそのエラー提示を確認することによって、再度音声入力を行う際により静かな場所で発声するというように、音声認識エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができる。
【0028】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力/認識状態判断手段が、発話切出しが終了してから所定時間内に上記音声認識サーバから上記クライアント装置が音声認識結果を受信したか否かを判断するとともに、上記音声入力/認識状態提示手段が、上記音声入力/認識状態判断手段による音声認識結果の受信に関する判断結果に基づき、上記クライアント装置と上記音声認識サーバとの間における通信に異常があることをユーザに提示することを特徴としている。
【0029】
上記構成によれば、音声入力/認識状態判断手段により、発話切出しが終了してから所定時間内に音声認識結果が音声認識サーバから受信されないと判断した場合には、音声入力/認識状態提示手段により、クライアント装置と音声認識サーバとの間における通信に異常があることをユーザに提示することができる。
【0030】
したがって、ユーザは、そのエラー提示を確認することによって、管理者にクライアント−サーバ間の通信の復旧を依頼するというように、通信エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができる。
【0031】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力/認識状態判断手段が、上記クライアント装置から送信された音声が上記音声認識サーバに格納された音声認識文法データと一致しているか否かに関する音声認識結果情報を上記音声認識サーバから受信する一方、上記音声入力/認識状態提示手段は、上記音声入力/認識状態判断手段により受信された上記音声認識結果情報に基づき、ユーザの入力音声が音声認識文法データに一致していないことをユーザに提示することを特徴としている。
【0032】
上記構成によれば、音声入力/認識状態判断手段により音声認識結果情報が受信され、それに基づき、音声入力/認識状態提示手段によりユーザの入力音声が音声認識文法データに一致していないことがユーザに提示される。なお、音声認識文法データとは、種々の語句をその用例とともに格納したデータである。音声認識サーバは、入力された音声に最も近い語句をこの音声認識文法データから抽出することにより音声認識を行っているのである。
【0033】
したがって、ユーザは、音声入力/認識状態判断手段の提示を確認することによって、自身が入力した音声は音声認識文法データに格納されていない語句に関するものであることを判断できる。よって、ユーザは、上記提示を確認した後に再度の音声入力を行う際には、別の語句を音声入力することができるので、より利便性のよい分散型音声認識システムを提供することができる。
【0034】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力/認識状態提示手段が、発話切出し後の音声データを上記音声認識サーバがサンプリング単位ずつ音声認識した音声認識結果を、部分認識完了単位毎に順次受信してユーザに提示することを特徴としている。
【0035】
上記構成によれば、音声認識結果が部分認識完了単位毎にユーザに順次受信されてユーザに提示されるので、ユーザは、音声入力中においても自己の発声が正確に音声認識されているか否かを判断することができる。したがって、より利便性のよい分散型音声認識システムを提供することができる。
【0036】
また、上記課題を解決するために、本発明の音声認識サーバは、クライアント装置にてユーザが入力した音声を、音声認識サーバにおいて発話切出しした後に音声認識する分散型音声認識システムに用いる音声認識サーバであって、上記発話切出しの進行状況を判断して上記クライアント装置に送信する音声認識状態判断手段を備えていることを特徴としている。
【0037】
上記構成によれば、音声認識サーバにおける発話切出しの進行状況がクライアント装置に送信されるので、クライアント装置に、発話切出しの進行状況を判断する音声入力/認識状態判断手段と、上記音声入力/認識状態判断手段の判断結果に応じて上記発話切出しの進行状況をユーザに提示する音声入力/認識状態提示手段とを設けることにより、クライアント装置において発話切出しの進行状況をユーザに提示することが可能となる。
【0038】
よって、クライアント装置のユーザは、クライアント装置に提示された発話切出しの進行状況を視認することにより、自己が発した音声が音声認識サーバにおいて音声認識されていることを確認することができる。したがって、自己の発話が確実に音声認識サーバにおいて認識されているか否かの不安をユーザに与えることがないので、より利便性のよい分散型音声認識システムを提供することができる。
【0039】
さらに、本発明の音声認識サーバは、上記構成において、上記音声認識状態判断手段が、発話切出しが終了してから所定時間内にユーザの発話が終了したか否かを判断するとともに、その判断結果を上記クライアント装置に送信することを特徴としている。
【0040】
上記構成によれば、音声認識サーバにおいて発話切出しが終了してから所定時間内に発話の終了を検知しなかった場合には、その判断結果を音声認識サーバからクライアント装置側に送信することにより、クライアント装置側の音声入力/認識状態提示手段によりユーザに提示することができる。
【0041】
したがって、ユーザはそのエラー提示を確認することによって、再度音声入力を行う際により静かな場所で発声するというように、音声認識エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができる。
【0042】
さらに、本発明の音声認識サーバは、上記構成において、上記クライアント装置から送信されるユーザの入力音声が、記憶手段に格納された音声認識文法データと一致しているか否かに関する音声認識結果情報を上記クライアント装置に送信することを特徴としている。
【0043】
上記構成によれば、音声認識サーバから音声認識結果情報をクライアント装置側に送信することにより、クライアント装置の音声入力/認識状態提示手段においてユーザの入力音声が音声認識文法データに一致していないことをユーザに提示することができる。
【0044】
したがって、ユーザは、音声入力/認識状態判断手段の提示を確認することによって、自身が入力した音声は音声認識文法データに格納されていない語句に関するものであることを判断できる。よって、ユーザは、上記提示を確認した後に再度の音声入力を行う際には、別の語句を音声入力することができるので、より利便性のよい分散型音声認識システムを提供することができる。
【0045】
さらに、本発明の音声認識サーバは、上記構成において、発話切出し後の音声データをサンプリング単位ずつ音声認識するとともに、その音声認識結果を部分認識完了単位毎に順次上記クライアント装置に送信することを特徴としている。
【0046】
上記構成によれば、音声認識の結果が部分認識完了単位毎にクライアント装置に送信されるので、クライアント装置においてその音声認識結果をユーザに提示することにより、ユーザは、音声入力中においても自己の発声が正確に音声認識されているか否かを判断することができる。したがって、より利便性のよい分散型音声認識システムを提供することができる。
【0047】
なお、上記クライアント装置における音声入力/認識状態判断手段および音声入力/認識状態提示手段を、本発明による音声認識プログラムによりコンピュータ上で実行させることができる。また、上記音声認識サーバにおける音声認識状態判断手段を、本発明による音声認識プログラムによりコンピュータ上で実行させることができる。
【0048】
さらに、上記音声認識プログラムをコンピュータ読み取り可能な記録媒体に記憶させることにより、任意のコンピュータ上で上記音声認識プログラムを実行させることができる。
【0049】
【発明の実施の形態】
〔実施の形態1〕
本発明の音声認識クライアントの一実施形態について、図1ないし図10を用いて示す。
【0050】
図1に示すように、本実施の形態の音声認識クライアント(クライアント装置)1は、音声認識サーバ2に接続されることにより、分散型音声認識システムを構築している。なお、図1においては音声認識クライアント1と音声認識サーバ2とは1対1にて接続されているが、実際は複数の音声認識クライアントに対して1つの音声認識サーバがネットワーク接続されている。以下に、音声認識クライアント1および音声認識サーバ2の構成を具体的に説明する。
【0051】
(1.音声認識クライアント1の構成)
音声認識クライアント1は、図1に示すように、音声入力部3と、制御部4と、音声入力/認識状態判断部(音声入力/認識状態判断手段)5と、音声入力/認識状態提示部(音声入力/認識状態提示手段)6と、記憶部7とを備えている。
【0052】
音声入力部3は、ユーザが発話する音声を音声データとして音声認識サーバ2に送信し、該サーバから得られる音声認識結果としてのテキストデータを取得するものである。より具体的には、音声入力部3は、音声入力I/F8と、音声データ変換部9と、音声データ送信部10と、テキストデータ受信部11とを備えている。
【0053】
音声入力I/F8は、ユーザが発話する音声を電気信号に変換するものであり、マイクロフォン等の一般的なインターフェースを用いることができる。音声データ変換部9は、音声入力I/F8により変換された電気信号を、ネットワークにて送信可能なデジタル信号に変換するものである。音声データ送信部10は、音声データ変換部9により変換されたデジタル信号を、音声認識サーバ2に送信するものである。テキストデータ受信部11は、音声データ送信部10より送信された音声データを音声認識サーバ2が認識した結果であるテキストデータを受信するものである。
【0054】
なお、音声データ送信部10により音声認識サーバに送信されるデータは、サーバ側での音声認識に必要十分なデータであればその形態は問わない。つまり、音声そのものでも良いし、送信前に圧縮などの処理を施したデータでも良いし、あるいは音声認識に必要な特徴量の抽出を事前にクライアント側で実施した後のデータであってもよい。
【0055】
上記構成により、音声入力部3は、ユーザが発話した音声を音声データとして音声認識サーバ2に送信し、該サーバから得られる音声認識結果としてのテキストデータを取得する。
【0056】
次に、制御部4について説明する。制御部4は、音声認識クライアント1を統括的に制御するものであり、テキストデータ処理部12を備えている。テキストデータ処理部12は、テキストデータ受信部11により音声認識サーバ2から受信されたテキストデータに基づき、各種アプリケーションを実行するものである。テキストデータ処理部12により実行されるアプリケーションとしては、テキストデータの入力が必要なアプリケーション、たとえば文書作成アプリケーション、電子メール作成アプリケーション、チケット予約アプリケーションなど、種々のアプリケーションを用いることができる。
【0057】
次に、音声入力/認識状態判断部5について説明する。音声入力/認識状態判断部5は、音声認識クライアント1における音声入力処理および音声認識サーバ2における音声認識処理が正常に実行されているか否かを判断するものである。より具体的には、音声入力/認識状態判断部5は、音声入力状態判断部(音声入力状態判断手段)13と、音声認識状態データ受信部(音声認識状態データ受信手段)14とを備えている。
【0058】
音声入力状態判断部13は、音声入力部3における音声入力が正常に行われているか否かを監視するものである。具体的には、音声入力状態判断部13は、所定時間が経過しても音声入力I/F8に所定レベル以上の音声が入力されないときには、音声入力が正常に行われていないと判断する。その他、音声データ送信部10による音声データの送信が音声入力開始から所定時間を経過しても行われない場合や、テキストデータ受信部11によるテキストデータの受信が音声入力開始から所定時間を経過しても行われない場合においても、音声入力状態判断部13は音声入力が正常に行われていないと判断する。
【0059】
一方、音声認識状態データ受信部14は、音声認識サーバ2から後述する音声認識状態データを受信するものである。ここで、音声認識状態データとは、音声認識サーバ2において音声認識処理が正常に実行されているか否かを示すデータである。なお、音声認識状態データは、クライアント側で音声認識の完了やエラー発生の状況を表示するために必要十分なデータであればその形態は問わない。すなわち、音声認識状態データは、音声認識完了が確認できるイベントデータであることが最低限必要であり、その他クライアント側で認識結果テキストやエラー表示をしたい場合には、それに応じて音声認識状態データの内容を詳細化すればよい。
【0060】
上記構成により、音声入力/認識状態判断部5は、音声入力状態判断部13の判断結果を参照することによって、音声入力部3における音声入力処理が正常に行われているか否かを把握することができる。さらに、音声入力/認識状態判断部5は、その音声認識状態データを参照することによって、音声認識サーバ2において音声認識処理が正常に行われているか否かを把握することができる。
【0061】
次に、音声入力/認識状態提示部6について説明する。音声入力/認識状態提示部6は、音声入力あるいは音声認識が正常に行われているか否かの判断結果を音声入力/認識状態判断部5から受信し、音声認識クライアント1に設けられたディスプレイ等の表示手段(図示せず)に、音声入力の状態あるいは音声認識の状態を表示するものである。
【0062】
なお、図1において、音声入力/認識状態提示部6は、テキストデータ処理部12と別ブロックの構成で示したが、必ずしもこの構成に限定されるものではない。すなわち、テキストデータ処理部12により実行されるアプリケーションによって、音声入力/認識状態表示が実現されていてもよい。
【0063】
次に、記憶部7について説明する。記憶部7は、音声認識クライアント1における処理に必要な種々のデータを記憶するものである。特に、記憶部7は、音声入力/認識状態表示データ15を格納している。この音声入力/認識状態表示データ15は、音声入力/認識状態提示部6が音声入力/認識状態を表示するための画像データである。
【0064】
以上の構成により、音声認識クライアント1は、ユーザが音声入力I/F8に対して発話した音声を、音声データとして音声認識サーバに送信し、該サーバによる音声認識の結果得られたテキストデータを取得し、所望の処理を実行する。さらに、音声認識クライアント1は、音声入力の状態および音声認識の状態を表示する機能も兼ね備えている。
【0065】
(2.音声認識サーバ2の構成)
音声認識サーバ2は、図1に示すように、音声データ変換部20と、記憶部(記憶手段)21と、音声認識状態判断部(音声認識状態判断手段)22とを備えている。音声データ変換部20は、音声認識クライアント1の音声データ送信部10から送信される音声データをテキストデータに変換するものである。
【0066】
より具体的には、音声データ変換部20は、音声データ受信部23と、発話切出部(発話切出し手段)24と、音声認識部25と、テキストデータ送信部26とを備えている。
【0067】
音声データ受信部23は、音声認識クライアント1の音声データ送信部10から送信される音声データを受信するものである。
【0068】
発話切出部24は、音声データ受信部23が受信した音声データを発話単位毎に切出すものである。発話切出しとは、音量・音程等の音声情報に従って、ユーザが発話していると判断できる領域を発話区間として特定することをいい、種々の公知の方法にて実現可能である。また、発話切出しは、音声データ受信部23により受信される音声データの音量レベルが閾値を超える場合に開始され、音量レベルが閾値以下になると終了する。
【0069】
音声認識部25は、発話切出部24により切出された音声データの1単位を、記憶部21に格納された音声認識文法データに基づいてテキストデータに変換するものである。すなわち、音声認識文法データには、種々の単語データがその用法や用例とともに記憶されている。そして、音声認識部25は、音声データと音声認識文法データとを対比し、切出された音声データに最も近いと思われる単語のテキストデータを出力する。
【0070】
テキストデータ送信部26は、音声認識部25から出力されるテキストデータを、音声認識クライアント1のテキストデータ受信部11に送信するものである。
【0071】
以上の構成により、音声データ変換部20は、音声認識クライアント1から送信される音声データをテキストデータとして変換し、そのテキストデータを音声認識クライアント1に送信する。
【0072】
音声認識状態判断部22は、音声データ変換部20における処理が正常に行われているか否かを判断するものである。具体的には、音声認識状態判断部22は、発話切出部24において発話切出しが開始されたか否か、あるいは発話切出しが終了したか否かを判断する。その他、音声認識クライアント1からの音声データが音声データ受信部23により正常に受信されているか、音声認識部25において音声認識処理が正常に行われているか否か、テキストデータ送信部26においてテキストデータの送信が正常に行われているか否かを、音声認識状態判断部22において判断してもよい。
【0073】
以上の構成により、音声認識サーバ2は、音声認識クライアント1から音声データを受信し、その音声データを発話単位毎に切出した後に音声認識し、テキストデータを作成して音声認識クライアント1に送信する。
【0074】
(3.本実施の形態の分散型音声認識システムの利点)
本実施の形態の音声認識クライアント1と音声認識サーバ2とにより構成される分散型音声認識システムにおいては、発話切り出し機能がサーバ側に配置されているので、音声認識クライアントにおけるCPUパワーやメモリなどのリソースを低減できるというメリットがある。よって、音声認識クライアントとして携帯電話等の小型機器を用いる場合に、本実施の形態の分散型音声認識システムは有利な構成といえる。
【0075】
(4.処理フロー)
次に、本実施の形態の分散型音声認識システムの音声認識処理フローについて図2を用いて説明する。なお、図2においては、説明の便宜上、音声認識クライアントにおける処理フローと、音声認識サーバにおける処理フローとを分けて記載している。
【0076】
先ず、音声認識クライアント1の制御部4により、音声認識処理フローが開始される(ステップ1、以下ステップを単にSと記載する)。S1における音声認識処理フローの開始は、制御部4により、所定時間を経過する度にサイクリックに実行される。
【0077】
その後、音声入力状態判断部13により、音声入力が開始されたか否かが判断される(S2)。S2においては、ユーザが音声入力I/F8のキー操作を行ったか否かにより、音声入力が開始されたか否かの判断が行われる。S2において音声入力が開始されていないと判断された場合においては、再度音声入力が行われたか否かの判断が行われる。
【0078】
S2において音声入力が開始されたと判断された場合、音声入力/認識状態提示部6は、ユーザの発話を促すための画面を音声認識クライアント1の表示手段に表示させる(S3)。たとえば、図3に示すように、「キミのすきなたべものはな〜に?」というように、質問形式のメッセージが表示される。
このメッセージに対してユーザが発話した音声は、上述したように、音声認識クライアントの音声データ変換部9および音声データ送信部10を介して、音声認識サーバ2の音声データ受信部23へ送信される(S4)。
【0079】
一方、音声認識サーバ2においては、音声データ受信部23により音声認識クライアント1の音声データ送信部10からの音声データが受信される(S5)。そして、音声認識サーバ2の音声認識状態判断部22により、発話切出部24における発話切出しが開始されたか否かが判断される(S6)。なお、上述のように、発話切出部24は音声データ受信部23により受信される音声データが閾値以上になると開始される。
【0080】
S6において発話切出しが開始されていないと判断された場合には、再度発話切出しが開始されたか否かが判断される。逆に、S6において発話切出しが開始されたと判断された場合、音声認識状態判断部22は、発話切出しが開始されたことを示すデータ(発話切出し開始イベント)を、音声認識クライアント1の音声認識状態データ受信部14に送信する(S7)。
【0081】
一方、音声認識クライアント1においては、音声入力/認識状態提示部6により、発話切出し開始イベントが音声認識状態データ受信部14により受信されたか否かの判断がなされる(S8)。S8において発話切出し開始イベントが受信されていないと判断された場合には、再度S8における判断が行われる。
【0082】
逆に、S8において発話切出しイベントが受信されたと判断された場合、音声入力/認識状態提示部6は、発話切出しが開始されたことを示す画面を音声認識クライアント1の表示手段に表示させる(S9)。たとえば、図4に示すように、キャラクターがユーザの発声に対して「うん。うん。」と頷く画面を表示する。
【0083】
一方、音声認識サーバ2において、音声認識状態判断部22は、発話切出部24における発話切出しが終了したか否かを判断する(S10)。なお、上述のように、発話切出部24は音声データ受信部23により受信される音声データが閾値以下になると終了する。
【0084】
S10において発話切出しが終了していないと判断された場合、再度発話切出しが終了したか否かを判断する。一方、S10において発話切出しが終了したと判断された場合は、音声認識状態判断部22は、音声認識状態データ受信部14に発話切出しが終了したことを示すデータ(発話切出し終了イベント)を送信する(S11)。
【0085】
そして、音声認識クライアント1においては、音声入力/認識状態提示部6により、発話切出し終了イベントが音声認識状態データ受信部14により受信されたか否かの判断がなされる(S12)。S12において発話切出し終了イベントが受信されていないと判断された場合には、再度S12における判断が行われる。
【0086】
逆に、S12において発話切出し終了イベントが受信されたと判断された場合、音声入力/認識状態提示部6は、発話切出しが終了したことを示す画面を音声認識クライアント1の表示手段に表示させる(S13)。たとえば図5に示すようなキャラクターがユーザの発声に基づいて辞書を引く画面のように、単語検索中であることがユーザにわかる画面を表示するとよい。
【0087】
また、音声認識サーバ2の音声認識部25においては、発話切出部24にて切出された音声データに基づき音声認識処理が実行されている(S14)。なお、図2においては、記載の便宜上、S14の処理がS11の後に行われるように記載されているが、実際は、S14の処理はS10の処理と並行して実行されてもよい。すなわち、音声認識部25は、発話切出部24が切出した音声データを順次受け取って音声認識処理を実行していてもよい。
【0088】
S14の音声認識処理が終了した後、テキストデータ送信部26により、音声認識結果としてのテキストデータが、音声認識クライアント1のテキストデータ受信部11に送信される(S15)。そして、音声認識クライアント1においては、テキストデータ受信部11により上記テキストデータが受信される(S16)。
【0089】
S16における音声認識結果としてのテキストデータのテキストデータ受信部11による受信は、音声入力状態判断部13により検知される。この音声入力状態判断部13の音声認識結果データの受信検知に基づき、音声入力/認識状態提示部6は、音声認識が完了したことを示す画面を音声認識クライアント1の表示手段に表示させる(S17)。たとえば、図6に示すように、ユーザの発声が「カレーライス」と音声認識された場合においては、『あったよ。「カレーライス」!』というように、音声認識結果をキャラクターとともに表示する。これにより、本実施の形態の分散型音声認識システムによる音声認識処理が終了する。
【0090】
また、上述した本実施の形態の音声認識処理においては、図3ないし図6に示したような画面だけでなく、以下に説明するような画面を表示することも可能である。すなわち、音声認識処理が正常終了しなかったり、発話切出しされた音声データが音声認識文法に整合しなかったりした場合に、エラーメッセージ画面を表示するといったことも可能である。
【0091】
たとえば、図3に示したようなユーザの発話を促すための画面が表示されている状態において、所定時間が経過しても発話切出しが開始されない場合、ユーザの発声の音量レベルが小さいか、あるいは音声入力I/F8のマイク感度が低いということが原因として考えられる。
【0092】
このような場合、音声入力/認識状態提示部6により、ユーザにより大きな発声をすることを促す画面を表示させてもよい。たとえば、図7に示すように、「ごめん。ぜんぜんきこえなかった。もいちどおっきなこえでいってみて!」というようなメッセージをキャラクターとともに表示することが可能である。
【0093】
このような画面を表示することによって、ユーザは発話の音量レベルが小さすぎたのではないか、あるいはボリューム設定が小さすぎたのではないかということを判断して、再度発声する際に音量を調整することが可能となる。
【0094】
他にも、ユーザの発声の発話切出しが開始してから所定時間経過してもユーザの発話の終了を検知できない場合には、図8に示すように、「ごめん。うるさくてわかんなかった。もいちどいってみて!」というように、ユーザの発声の音量レベルが周辺のノイズにより掻き消され、うまくユーザの発声終了を検知できなかったことを示すメッセージを表示してもよい。このような画面を表示することによって、ユーザは周辺騒音・雑音が大きすぎるのではないかと判断して、より静かな場所で再度音声入力を試みることができる。
【0095】
また、図5に示したようなサーバからの音声認識の結果を待っていることを示す画面が表示されている場合において、所定時間が経過した場合、サーバ−クライアント間の通信に何らかの異常が発生したものと考えられる。
【0096】
このような場合、音声入力/認識状態提示部6により、ユーザにネットワーク通信が正常に機能していないことを示す画面を表示させることが可能である。たとえば、図9に示すように、「ごめん。ネットワークがおかしいみたい。またね!」というメッセージを音声入力/認識状態提示部6に表示させるとよい。
【0097】
また、図6に示したような音声認識の終了の画面を表示する場合において、音声認識サーバ2から得られた音声認識結果が、ユーザが発声した音声データが音声認識文法データに整合していなかったことを示すデータである場合には、ユーザに再度音声入力を促す画面を音声入力/認識状態提示部6に表示させてもよい。たとえば、図10に示すように、「ごめん。わかんなかった。もいちどいってみて!」というようなメッセージを表示するとよい。
【0098】
また、上述の実施形態では、音声入力/認識状態提示部6によるユーザへのエラーメッセージの提示方法として画面表示による例を記載したが、エラーメッセージの提示方法は必ずしもこれに限定されるものではない。たとえば、音声入力/認識状態提示部6により、音声メッセージによるエラーの提示や、ブザーの鳴動によるエラーの提示を行ってもよい。
【0099】
〔実施の形態2〕
次に、本発明の音声認識クライアントの他の実施形態について、図11に基づいて説明する。なお、説明の便宜上、実施の形態1と同一の機能を有するブロックについては実施の形態1と同一の参照番号を付すことにより、各ブロックについての詳細な説明は省略する。
【0100】
(1.音声認識クライアントおよび音声認識サーバの構成)
図11に示すように、本実施の形態の音声認識クライアント(クライアント装置)30は、音声入力部3に発話切出部24が設けられている以外は、実施の形態1における音声認識クライアント1と同様の構成を有している。一方、本実施の形態の音声認識サーバ31は、発話切出部24が音声データ変換部20に設けられていない点のみにおいて、実施の形態1の音声認識サーバ2と異なる構成である。
【0101】
すなわち、本実施の形態の音声認識クライアント30では、音声データ変換部9において変換された音声データに基づき、発話切出部24にて発話切出しを行う。そして、発話切出しされた後の音声データを、音声データ送信部10によって音声認識サーバ31の音声データ受信部23に送信する。音声認識部25では、音声データ受信部23が受信する音声データに対して音声認識処理を行う。
【0102】
このように、本実施の形態の分散型音声認識システムでは、発話切り出しをクライアント側で行うので、実施の形態1よりも大きなクライアント側のリソースが必要になる。よって、音声認識クライアントとしては、PDAやPCなどのある程度のリソースを有する機器を用いることが望ましい。
【0103】
また、本実施の形態の分散型音声認識システムでは、発話切出しされた後の音声データをサーバ側に送信するので、サーバ側に送信する音声データを発話中の音声だけに限定することができ、通信料金を抑えたり通信帯域を節約できるというメリットがある。さらに、発話自動切り出し開始や発話自動切り出し終了のイベントが、ネットワークを介することなく直接音声入力/認識状態判断部5によって検知されるので、音声入力/認識状態提示部6が発話切出し開始/終了の画面を表示する際のネットワーク遅延を抑えることができるというメリットがある。
【0104】
(2.処理フロー)
次に、本実施の形態の分散型音声認識システムの音声認識処理フローについて図12を用いて説明する。
【0105】
先ず、制御部4により、音声認識処理フローが開始される(S20)。S20における音声認識処理フローの開始は、制御部4により、所定時間を経過する度にサイクリックに実行される。
【0106】
その後、音声入力状態判断部13により、音声入力が開始されたか否かが判断される(S21)。S21においては、ユーザが音声入力I/F8のキー操作を行ったか否かにより、音声入力が開始されたか否かの判断が行われる。S21において音声入力が開始されていないと判断された場合においては、再度音声入力が行われたか否かの判断が行われる。
【0107】
S21において音声入力が開始されたと判断された場合、音声入力/認識状態提示部6は、ユーザの発話を促すための画面を音声認識クライアント1の表示手段に表示させる(S22)。
【0108】
S22の後、音声認識クライアント30の音声入力状態判断部13により、発話切出部24における発話切出しが開始されたか否かが判断される(S23)。なお、発話切出しは音声データ変換部9から送信される音声データの音量レベルが閾値以上になると開始される。
【0109】
S23において発話切出しが開始されていないと判断された場合には、再度発話切出しが開始されたか否かが判断される。
【0110】
一方、S23において発話切出しが開始されたと判断された場合、音声入力/認識状態提示部6は、発話切出しが開始されたことを示すデータを音声入力状態判断部13が受信したことを検知し、発話切出しが開始されたことを示す画面を音声認識クライアント1の表示手段に表示させる(S24)。
【0111】
その後、音声入力状態判断部13は、発話切出部24における発話切出しが終了したか否かを判断する(S25)。なお、発話切出しは音声データ変換部9から送信される音声データの音量レベルが閾値以下になると終了する。
【0112】
S25において発話切出しが終了していないと判断された場合、再度発話切出しが終了したか否かを判断する。一方、S25において発話切出しが終了したと判断された場合、音声入力/認識状態提示部6は、発話切出しが終了したことを示すデータを音声入力状態判断部13が受信したことを検知し、発話切出しが終了したことを示す画面を音声認識クライアント1の表示手段に表示させる(S26)。
【0113】
S26の後、音声データ送信部10は、発話切出部24により切出された音声データを、音声認識サーバ31の音声データ受信部23に送信する(S27)。S27にて送信された切出し後の音声データは、音声データ受信部23により受信される(S28)。
【0114】
その後、音声認識サーバの音声認識部25は、S28にて受信した音声データに基づき音声認識処理が実行されている(S29)。S29の音声認識処理が終了した後、テキストデータ送信部26により、音声認識結果としてのテキストデータが、音声認識クライアント1のテキストデータ受信部11に送信される(S30)。そして、テキストデータ受信部11により上記テキストデータが受信される(S31)。
【0115】
S31における音声認識結果としてのテキストデータのテキストデータ受信部11による受信は、音声入力状態判断部13により検知される。この音声入力状態判断部13の音声認識結果データの受信検知に基づき、音声入力/認識状態提示部6は、音声認識が完了したことを示す画面を音声認識クライアント1の表示手段に表示させる(S32)。
【0116】
〔実施の形態3〕
本実施の形態は、音声認識の途中経過を表示する実施形態である。分散型音声認識システムの構成は、実施の形態1の構成でも実施の形態2の構成でもどちらでもよい。
【0117】
図13に本実施の形態の分散型音声認識システムの処理フローを示す。このフローは、実施の形態2の構成(発話切出部が音声認識クライアントにある構成)を前提として記述してある。また、図13においては、説明の便宜上、音声認識クライアントの処理フローと、音声認識サーバにおける処理フローとを分けて記載している。
【0118】
まず、音声認識クライアント30において、音声入力状態判断部13により、音声入力が開始されたか否かが判断される(S40)。S40は、図12のS21と同様の処理を行うので、詳細な説明は省略する。
【0119】
S40において音声入力が開始されたと判断された場合、音声入力/認識状態提示部6は、ユーザの発話を促すための画面を音声認識クライアント1の表示手段に表示させる(S41)。S41は、図12のS22と同様の処理を行うので、詳細な説明は省略する。
【0120】
S41の後、音声認識クライアント30の音声入力状態判断部13により、発話切出部24における発話切出しが開始されたか否かが判断される(S42)。S42は図12の図23と同様の処理を行う。
【0121】
S42において発話切出しが開始されたと判断された場合、音声入力/認識状態提示部6は、発話切出しが開始されたことを示すデータを音声入力状態判断部13が受信したことを検知し、発話切出しが開始されたことを示す画面を音声認識クライアント1の表示手段に表示させる(S43)。
【0122】
このように、S40〜S43までの処理は、図12のフローと同一であると考えてよいが、S43以降の処理において、本実施の形態の処理フローは図12の処理フローとは異なっている。
【0123】
つまり、実施の形態2における図12のフローでは、発話開始から発話終了までの音声が、一旦クライアントのメモリに蓄積されてから、一括してサーバに送信されるようになっている。一方、本実施の形態においては、発話開始時点から入手できる部分的な音声サンプルを、音声認識クライアント30の音声データ送信部10から、音声認識サーバ31の音声データ受信部23に送信している点において、実施の形態2の処理フローとは異なる。以下、本実施の形態の処理フローにおいて特徴となる点について、より具体的に説明する。
【0124】
先ず、音声認識クライアント30は、ユーザの発声した音声を切出して得られる個々の音声データ(部分音声)を、発話切出し処理と並行して音声データ送信部10から、音声認識サーバ31の音声データ受信部23に送信する(S44)。
【0125】
一方、音声認識サーバ31においては、部分音声を音声データ受信部23において受信する(S45)。そして、音声認識部25において、S45にて受信された部分音声の音声認識を順次実行する(S46)。なお、このように部分音声を順次音声認識するためには、クライアント−サーバ間の通信経路において、送信されるデータの前後関係が実際の発話の前後関係と一致していることが保証されている、ということが前提となる。
【0126】
S46における音声認識により、音声認識の途中結果が得られたならば、音声認識サーバ31はその結果をテキストデータとしてテキストデータ送信部26からテキストデータ受信部11に送信する(S47)。また、音声認識部25により部分音声が音声認識文法データと一致せず音声認識に失敗した場合は、音声認識状態判断部22により、音声認識に失敗したことを音声認識クライアント30の音声認識状態データ受信部14に送信する(S48)。
【0127】
たとえば、ユーザが「カレーライス」と発話する場合、「カレー」までの部分音声が音声データ受信部23に送信された段階で、音声認識部25が「カレー」と認識することが可能である。
【0128】
こういった音声認識の途中結果が得られた場合には、音声認識サーバ31は、音声認識状態判断部22から音声認識状態データ受信部14に音声認識の途中結果が得られたというイベント情報を送信し、さらに音声認識の途中結果として「カレー」というテキストデータそのものをテキストデータ送信部26からテキストデータ受信部11に送信する。
【0129】
なお、図13においてはS47の処理の後にS48の処理が実行されるように記載しているが、必ずしもこれに限定されるものではなく、S48の処理をS47の処理の前に行ってもよい。
【0130】
一方、音声認識クライアント30においては、音声認識状態データ受信部14により音声認識の途中失敗結果が受信されたか否かが、音声入力/認識状態判断部5により判断される(S49)。S49において音声認識の途中失敗結果が受信されたと判断された場合には、音声入力/認識状態提示部6は、音声認識の失敗画面を音声認識クライアントの表示手段に表示させる(S50)。音声認識の失敗画面に関しては、たとえば図10に示したような画面を一例として挙げることができる。
【0131】
一方、S49において音声認識の途中失敗結果が受信されていないと判断された場合には、テキストデータ受信部11により音声認識の途中結果が受信されたか否かが、音声入力状態判断部13により判断される(S51)。S51において音声認識の途中結果が受信されたと判断された場合には、音声入力/認識状態提示部6は、音声認識の途中結果を示す画面を音声認識クライアントの表示手段に表示させる(S52)。
【0132】
たとえば、上述のように音声認識の途中結果として「カレー」というテキストデータが音声認識サーバから送信されているのであれば、図14に示すように、「カレー…」というように音声認識の途中結果が表示される。
【0133】
逆に、S51において音声認識の途中結果が受信されていないと判断された場合には、音声入力状態判断部13により、発話切出部24における発話切出しが終了したか否かが判断される(S53)。S53の処理は図12のS25の処理と同様である。
【0134】
また、上述のフローでは、完全に発話終了時点までの音声全てを待たなくても、ある時点までに送信された音声が音声認識用の文法に不適合であるかどうかの判断が、音声認識部25により可能となる場合がある。たとえば、音声認識文法データに「オムライス」という単語だけが登録されていて、送信された部分音声が「カレー」という音声だとすると、この時点にて音声認識部25により音声認識に失敗したと判断できる場合がある。
【0135】
その場合、音声認識クライアント30からの全ての音声の受信を待たずに、音声認識サーバ31の音声認識状態判断部22から、音声認識が途中で失敗したという結果を、音声認識クライアント30の音声認識状態データ受信部14に送信できる。音声認識クライアント30から見ると、音声認識サーバ31に全ての音声を送信完了していない段階でも、認識途中失敗の結果を受信することがあることになる。
【0136】
この場合には、音声入力/認識状態提示部6は、S43において発話切出し開始の画面を表示していても、S49において音声認識の途中失敗という結果を受け取って、S50に移行して音声認識の失敗画面を表示することができる。
【0137】
再び図13のフローの説明に戻る。S53において発話切出しが終了していないと判断された場合、S44の処理を再度行う。逆に、S53において発話切出しが終了していると判断された場合、音声入力/認識状態提示部6は、発話切出しが終了したことを示すデータを音声入力状態判断部13が受信したことを検知し、発話切出しが終了したことを示す画面を音声認識クライアント1の表示手段に表示させる(S54)。S54は図12のS26と同様の処理である。
【0138】
一方、音声認識サーバ31においては、S48の処理の後、音声認識状態判断部22により、ユーザの発話の最終部分が音声データ受信部23に受信されたか否かが判断される(S55)。S55において発話の最終部分が受信されていないと判断された場合、S45の処理に戻る。逆にS55において発話の最終部分が受信されていると判断された場合、テキストデータ送信部26は、音声認識結果を音声認識クライアントのテキストデータ受信部11に送信する(S56)。なお、音声認識部25が音声認識に失敗した場合には、S56において、音声認識状態判断部22から音声認識クライアント30の音声認識状態データ受信部14に、音声認識に失敗したという情報が送信される。
【0139】
S56にて送信される音声認識結果は、音声認識クライアント30において、S54の処理を行った後、テキストデータ受信部11にて受信される(S57)。なお、音声認識部25が音声認識に失敗している場合には、S57において、音声認識状態データ受信部14にて、音声認識に失敗したという情報が受信されることになる。
【0140】
S57の後、音声入力/認識状態提示部6は、音声認識状態データ受信部14が、音声認識サーバ31から音声認識に失敗したことに関する情報を受信しているか否かを判断することにより、音声認識が正常に行われたか否かを判断する(S58)。
【0141】
S58において音声認識に失敗したと判断された場合、音声入力/認識状態提示部6は、音声認識の失敗画面を音声認識クライアントの表示手段に表示させる(S50)。逆に、S58において音声認識に成功していると判断された場合、音声入力/認識状態提示部6は、音声認識の終了画面を音声認識クライアントの表示手段に表示させる(S59)。S59においては、たとえば図6に示すような画面が表示される。
【0142】
なお、上記各実施形態の音声認識クライアントや音声認識サーバの各部や各処理ステップは、CPUなどの演算手段が、ROM(Read Only Memory)やRAMなどの記憶手段に記憶されたプログラムを実行し、キーボードなどの入力手段、ディスプレイなどの出力手段、あるいは、インターフェース回路などの通信手段を制御することにより実現することができる。したがって、これらの手段を有するコンピュータが、上記プログラムを記録した記録媒体を読み取り、当該プログラムを実行するだけで、本実施形態の音声認識クライアントおよび音声認識サーバの各種機能および各種処理を実現することができる。また、上記プログラムをリムーバブルな記録媒体に記録することにより、任意のコンピュータ上で上記の各種機能および各種処理を実現することができる。
【0143】
この記録媒体としては、マイクロコンピュータで処理を行うために図示しないメモリ、例えばROMのようなものがプログラムメディアであっても良いし、また、図示していないが外部記憶装置としてプログラム読み取り装置が設けられ、そこに記録媒体を挿入することにより読み取り可能なプログラムメディアであっても良い。
【0144】
また、何れの場合でも、格納されているプログラムは、マイクロプロセッサがアクセスして実行される構成であることが好ましい。さらに、プログラムを読み出し、読み出されたプログラムは、マイクロコンピュータのプログラム記憶エリアにダウンロードされて、そのプログラムが実行される方式であることが好ましい。なお、このダウンロード用のプログラムは予め本体装置に格納されているものとする。
【0145】
また、上記プログラムメディアとしては、本体と分離可能に構成される記録媒体であり、磁気テープやカセットテープ等のテープ系、フレキシブルディスクやハードディスク等の磁気ディスクやCD/MO/MD/DVD等のディスクのディスク系、ICカード(メモリカードを含む)等のカード系、あるいはマスクROM、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、フラッシュROM等による半導体メモリを含めた固定的にプログラムを担持する記録媒体等がある。
【0146】
また、インターネットを含む通信ネットワークを接続可能なシステム構成であれば、通信ネットワークからプログラムをダウンロードするように流動的にプログラムを担持する記録媒体であることが好ましい。
【0147】
さらに、このように通信ネットワークからプログラムをダウンロードする場合には、そのダウンロード用のプログラムは予め本体装置に格納しておくか、あるいは別な記録媒体からインストールされるものであることが好ましい。
【0148】
なお、本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【0149】
【発明の効果】
以上のように、本発明におけるクライアント装置は、発話切出しの進行状況を判断する音声入力/認識状態判断手段と、上記音声入力/認識状態判断手段の判断結果に応じて、上記発話切出しの進行状況をユーザに提示する音声入力/認識状態提示手段とを備えているものである。
【0150】
また、本発明における分散型音声認識システムは、クライアント装置が、上記発話切出しの進行状況を判断する音声入力/認識状態判断手段と、上記音声入力/認識状態判断手段の判断結果に応じて、上記発話切出しの進行状況をユーザに提示する音声入力/認識状態提示手段とを備えているものである。
【0151】
上記構成によれば、音声入力/認識状態提示手段により発話切出しの進行状況がユーザに提示されるので、クライアント装置は、発話切出しの進行状況をユーザに提示することが可能となる。
【0152】
よって、クライアント装置のユーザは、クライアント装置に提示された発話切出しの進行状況を視認することにより、自己が発した音声が音声認識サーバにおいて音声認識されていることを確認することができる。したがって、自己の発話が確実に音声認識サーバにおいて認識されているか否かの不安をユーザに与えることがないので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【0153】
さらに、本発明のクライアント装置は、上記構成のクライアント装置において、上記発話切出しを実行する発話切出し手段を備えている一方、上記音声入力/認識状態判断手段は、上記発話切出し手段による発話切出しの進行状況を検出する音声入力状態判断手段を備えているものである。
【0154】
また、本発明における分散型音声認識システムは、上記構成の分散型音声認識システムにおいて、上記クライアント装置が、上記発話切出しを実行する発話切出し手段を備えているとともに、上記クライアント装置の音声入力/認識状態判断手段が、上記発話切出し手段による発話切出しの進行状況を検出する音声入力状態判断手段を備えているものである。
【0155】
上記構成によれば、クライアント装置側でユーザの入力した音声を発話切出した後に、発話切出し後の音声データをクライアント装置側から音声認識サーバに送信することができるので、クライアント装置−音声認識サーバ間での通信料金を抑えたり、通信帯域を節約したりすることができるという効果を奏する。
【0156】
また、クライアント装置内で発話切出しを行って、その進行状況を音声入力/認識状態判断手段にて判断するので、発話切出しの進行状況の送信が他の機器を介することなくクライアント装置内で行われる。よって、音声入力/認識状態提示手段による発話切出しの進行状況の提示を、発話切出しに対して遅延無く行うことができるという効果を奏する。
【0157】
さらに、本発明のクライアント装置は、上記構成のクライアント装置において、上記音声入力/認識状態判断手段は、上記音声認識サーバにおいて実行される発話切出しの進行状況を、音声認識状態データとして受信する音声認識状態データ受信手段を備えているものである。
【0158】
また、本発明における分散型音声認識システムは、上記構成の分散型音声認識システムにおいて、上記音声認識サーバが、上記発話切出しを実行するものであるとともに、その発話切出しの進行状況を判断して上記クライアント装置に送信する音声認識状態判断手段を備えており、上記クライアント装置の音声入力/認識状態判断手段が、上記音声認識状態判断手段から送信される発話切出しの進行状況を、音声認識状態データとして受信する音声認識状態データ受信手段を備えているものである。
【0159】
上記構成によれば、発話切出しが音声認識サーバ側において行われるので、クライアント装置に発話切出し機能を実現するための構成を設ける必要はない。また、音声認識状態データ受信手段は、発話切出し機能を実現するためのリソースに比べて少ないリソースにて実現可能である。よって、クライアント装置としてリソースの少ない携帯電話等の小型機器を用いることができるという効果を奏する。
【0160】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力/認識状態判断手段が、音声入力の受付開始から所定時間内に所定音量レベルを超えるユーザの音声入力があるか否かを判断するとともに、上記音声入力/認識状態提示手段は、上記音声入力/認識状態判断手段により音声入力の受付開始から所定時間内に所定音量レベルを超えるユーザの音声入力がないと判断された場合に、ユーザの入力音声の音量レベルが小さいことをユーザに提示するものである。
【0161】
上記構成によれば、音声入力/認識状態判断手段によりユーザの入力音声の音量レベルが小さいと判断された場合に、音声入力/認識状態提示手段により音声入力のエラー提示をさせることができる。したがって、ユーザはそのエラー提示を確認することによって、再度音声入力を行う際により大きな声で発声するというように、音声入力エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【0162】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力/認識状態判断手段が、発話切出しが開始してから所定時間内にユーザの発話が終了したか否かを判断するとともに、上記音声入力/認識状態提示手段が、上記音声入力/認識状態判断手段による上記発話切出しの終了に関する判断結果に基づき、ユーザの発話終了が検知できないことをユーザに提示するものである。
【0163】
上記構成によれば、音声入力/認識状態判断手段により、発話切出しが開始してから所定時間内にユーザの発話が終了しなかったと判断された場合に、音声入力/認識状態提示手段により音声認識のエラー提示をさせることができる。ここで、発話切出しの終了から所定時間内にユーザの発話終了を検知できない要因のひとつとして、音声入力を行う場所の周辺における騒音や雑音が大きい、ということを挙げることができる。
【0164】
したがって、ユーザはそのエラー提示を確認することによって、再度音声入力を行う際により静かな場所で発声するというように、音声認識エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【0165】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力/認識状態判断手段が、発話切出しが終了してから所定時間内に上記音声認識サーバから上記クライアント装置が音声認識結果を受信したか否かを判断するとともに、上記音声入力/認識状態提示手段が、上記音声入力/認識状態判断手段による音声認識結果の受信に関する判断結果に基づき、上記クライアント装置と上記音声認識サーバとの間における通信に異常があることをユーザに提示するものである。
【0166】
上記構成によれば、音声入力/認識状態判断手段により、発話切出しが終了してから所定時間内に音声認識結果が音声認識サーバから受信されないと判断した場合には、音声入力/認識状態提示手段により、クライアント装置と音声認識サーバとの間における通信に異常があることをユーザに提示することができる。
【0167】
したがって、ユーザは、そのエラー提示を確認することによって、管理者にクライアント−サーバ間の通信の復旧を依頼するというように、通信エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【0168】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力/認識状態判断手段が、上記クライアント装置から送信された音声が上記音声認識サーバに格納された音声認識文法データと一致しているか否かに関する音声認識結果情報を上記音声認識サーバから受信する一方、上記音声入力/認識状態提示手段は、上記音声入力/認識状態判断手段により受信された上記音声認識結果情報に基づき、ユーザの入力音声が音声認識文法データに一致していないことをユーザに提示するものである。
【0169】
上記構成によれば、音声入力/認識状態判断手段により音声認識結果情報が受信され、それに基づき、音声入力/認識状態提示手段によりユーザの入力音声が音声認識文法データに一致していないことがユーザに提示される。
【0170】
したがって、ユーザは、音声入力/認識状態判断手段の提示を確認することによって、自身が入力した音声は音声認識文法データに格納されていない語句に関するものであることを判断できる。よって、ユーザは、上記提示を確認した後に再度の音声入力を行う際には、別の語句を音声入力することができるので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【0171】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力/認識状態提示手段が、発話切出し後の音声データを上記音声認識サーバがサンプリング単位ずつ音声認識した音声認識結果を、部分認識完了単位毎に順次受信してユーザに提示するものである。
【0172】
上記構成によれば、発話切出し後の音声データが部分認識完了単位毎にユーザに順次受信されてユーザに提示されるので、ユーザは、音声入力中においても自己の発声が正確に音声認識されているか否かを判断することができる。したがって、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【0173】
また、以上のように、本発明の音声認識サーバは、発話切出しの進行状況を判断して上記クライアント装置に送信する音声認識状態判断手段を備えているものである。
【0174】
上記構成によれば、音声認識サーバにおける発話切出しの進行状況がクライアント装置に送信されるので、クライアント装置に、発話切出しの進行状況を判断する音声入力/認識状態判断手段と、上記音声入力/認識状態判断手段の判断結果に応じて上記発話切出しの進行状況をユーザに提示する音声入力/認識状態提示手段とを設けることにより、クライアント装置において発話切出しの進行状況をユーザに提示することが可能となる。
【0175】
よって、クライアント装置のユーザは、クライアント装置に提示された発話切出しの進行状況を視認することにより、自己が発した音声が音声認識サーバにおいて音声認識されていることを確認することができる。したがって、自己の発話が確実に音声認識サーバにおいて認識されているか否かの不安をユーザに与えることがないので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【0176】
さらに、本発明の音声認識サーバは、上記構成において、上記音声認識状態判断手段が、発話切出しが終了してから所定時間内にユーザの発話が終了したか否かを判断するとともに、その判断結果を上記クライアント装置に送信するものである。
【0177】
上記構成によれば、音声認識サーバにおいて発話切出しが終了してから所定時間内に発話の終了を検知しなかった場合には、その判断結果を音声認識サーバからクライアント装置側に送信することにより、クライアント装置側の音声入力/認識状態提示手段によりユーザに提示することができる。
【0178】
したがって、ユーザはそのエラー提示を確認することによって、再度音声入力を行う際により静かな場所で発声するというように、音声認識エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【0179】
さらに、本発明の音声認識サーバは、上記構成において、上記クライアント装置から送信されるユーザの入力音声が、記憶手段に格納された音声認識文法データと一致しているか否かに関する音声認識結果情報を上記クライアント装置に送信するものである。
【0180】
上記構成によれば、音声認識サーバから音声認識結果情報をクライアント装置側に送信することにより、クライアント装置の音声入力/認識状態提示手段においてユーザの入力音声が音声認識文法データに一致していないことをユーザに提示することができる。
【0181】
したがって、ユーザは、音声入力/認識状態判断手段の提示を確認することによって、自身が入力した音声は音声認識文法データに格納されていない語句に関するものであることを判断できる。よって、ユーザは、上記提示を確認した後に再度の音声入力を行う際には、別の語句を音声入力することができるので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【0182】
さらに、本発明の音声認識サーバは、上記構成において、発話切出し後の音声データをサンプリング単位ずつ音声認識するとともに、その音声認識結果を部分認識完了単位毎に順次上記クライアント装置に送信するものである。
【0183】
上記構成によれば、音声認識の結果が部分認識完了単位毎にクライアント装置に送信されるので、クライアント装置においてその音声認識結果をユーザに提示することにより、ユーザは、音声入力中においても自己の発声が正確に音声認識されているか否かを判断することができる。したがって、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【0184】
なお、上記クライアント装置における音声入力/認識状態判断手段および音声入力/認識状態提示手段を、本発明による音声認識プログラムによりコンピュータ上で実行させることができる。また、上記音声認識サーバにおける音声認識状態判断手段を、本発明による音声認識プログラムによりコンピュータ上で実行させることができる。
【0185】
さらに、上記音声認識プログラムをコンピュータ読み取り可能な記録媒体に記憶させることにより、任意のコンピュータ上で上記音声認識プログラムを実行させることができるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の分散型音声認識システムの一実施形態に係る構成を示すブロック図である。
【図2】図1の分散型音声認識システムにおける処理の流れを示すフローチャートである。
【図3】図1の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図4】図1の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図5】図1の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図6】図1の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図7】図1の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図8】図1の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図9】図1の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図10】図1の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図11】本発明の分散型音声認識システムの他の実施形態に係る構成を示すブロック図である。
【図12】図11の分散型音声認識システムにおける処理の流れを示すフローチャートである。
【図13】本発明の分散型音声認識システムの他の実施形態における処理の流れを示すフローチャートである。
【図14】図13のフローチャートにおいて音声認識の途中結果を示すために表示される画面の一例を示す図である。
【符号の説明】
1 音声認識クライアント(クライアント装置)
2 音声認識サーバ
5 音声入力/認識状態判断部(音声入力/認識状態判断手段)
6 音声入力/認識状態提示部(音声入力/認識状態提示手段)
13 音声入力状態判断部(音声入力状態判断手段)
14 音声認識状態データ受信部(音声認識状態データ受信手段)
21 記憶部(記憶手段)
22 音声認識状態判断部(音声認識状態判断手段)
24 発話切出部(発話切出し手段)
30 音声認識クライアント(クライアント装置)
31 音声認識サーバ
【発明の属する技術分野】
本発明は、分散型音声認識システムに関するものであり、特に発話切出しの進行状況を表示することができるクライアント装置に関するものである。
【0002】
【従来の技術】
従来の音声認識技術においては、特許文献1の信号処理装置のように、発話自動切り出し(エンドポインティング)に関する技術が存在する。この技術は、音声認識に先立って音量やパワーの変化などに基づいて、ユーザの発話区間を特定する技術であり、発話部分に対してのみ音声認識を行うために用いられる。
【0003】
この技術を活用すれば、音声認識エンジンは本当に音声認識が必要な部分のみ認識処理を行えば良いことになるので、与えられる負荷が軽くなり多重度(同時処理可能数)をあげることができる。
【0004】
また、この技術は、音声認識を開始するために音声以外のトリガーを必要としないことから、ハンズフリーでの音声認識を実現するために重要となる。音声認識開始のためにスイッチを押さなければならないということは、手作業を行っている際には不便となるからである。
【0005】
また、従来の発話切り出しを伴う音声認識の場合には、発話切り出しの終了から音声認識の終了までにあまり時間がかからないため、発話入力開始から音声認識結果が得られるまでの音声認識処理全体の開始状態と終了状態とを表示すれば十分であった。
【0006】
一方、特許文献2や特許文献3においては、分散音声認識という技術が記載されている。分散音声認識技術は、発話切り出し、特徴量抽出、音声認識、自然言語解釈、といった音声認識の一連の処理を、クライアントおよびサーバに適切に分散して処理する技術である。当該技術によれば、クライアントのマシンスペック以上のパワーが必要な高精度な音声認識処理をシステム全体で実現したり、負荷分散やフェイルセーフを実現したりすることができる。
【0007】
【特許文献1】
特開平7−64578号公報(1995年3月10日公開)
【0008】
【特許文献2】
米国特許第5,819,220号公報(1998年10月06日登録)
【0009】
【特許文献3】
特表2002−540479号公報(平成14年11月26日公表)
【0010】
【発明が解決しようとする課題】
ところが、分散音声認識技術では、発話切り出し終了のあと、リモートのサーバに音声あるいは音声特徴量を送信してからサーバから認識結果を得るまでの時間において、その間ユーザは音声入力を行わずに待機しておかなければならないことになる。
【0011】
特に、クライアントとサーバが、インターネットなどの長距離ベストエフォート型の通信手段を介して設置されるような場合には、音声を入力してから音声認識の結果が得られるまでの遅延時間が大きくなる場合がある。遅延時間が大きくなることにより、それだけユーザが待機しなければならない時間も長くなってしまうので、ユーザに与えるストレスが増大するという問題が生じる。
【0012】
本発明は、上記従来の問題点に鑑みなされたものであって、その目的は、音声認識のための音声入力を行うユーザに与えるストレスを低減することが可能なクライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【0013】
【課題を解決するための手段】
上記課題を解決するため、本発明におけるクライアント装置は、クライアント装置にてユーザが入力した音声を、発話切出しした後に音声認識サーバにおいて音声認識する分散型音声認識システムに用いるクライアント装置であって、上記発話切出しの進行状況を判断する音声入力/認識状態判断手段と、上記音声入力/認識状態判断手段の判断結果に応じて、上記発話切出しの進行状況をユーザに提示する音声入力/認識状態提示手段とを備えていることを特徴としている。
【0014】
また、本発明における分散型音声認識システムは、クライアント装置にてユーザが入力した音声を、発話切出しした後に音声認識サーバにおいて音声認識する分散型音声認識システムであって、上記クライアント装置が、上記発話切出しの進行状況を判断する音声入力/認識状態判断手段と、上記音声入力/認識状態判断手段の判断結果に応じて、上記発話切出しの進行状況をユーザに提示する音声入力/認識状態提示手段とを備えていることを特徴としている。
【0015】
上記構成によれば、音声入力/認識状態提示手段により発話切出しの進行状況がユーザに提示されるので、クライアント装置は、発話切出しの進行状況をユーザに提示することが可能となる。
【0016】
よって、クライアント装置のユーザは、クライアント装置に提示された発話切出しの進行状況を視認することにより、自己が発した音声が音声認識サーバにおいて音声認識されていることを確認することができる。したがって、自己の発話が確実に音声認識サーバにおいて認識されているか否かの不安をユーザに与えることがないので、より利便性のよい分散型音声認識システムを提供することができる。
【0017】
さらに、本発明のクライアント装置は、上記構成のクライアント装置において、上記発話切出しを実行する発話切出し手段を備えている一方、上記音声入力/認識状態判断手段は、上記発話切出し手段による発話切出しの進行状況を検出する音声入力状態判断手段を備えていることを特徴としている。
【0018】
また、本発明における分散型音声認識システムは、上記構成の分散型音声認識システムにおいて、上記クライアント装置が、上記発話切出しを実行する発話切出し手段を備えているとともに、上記クライアント装置の音声入力/認識状態判断手段が、上記発話切出し手段による発話切出しの進行状況を検出する音声入力状態判断手段を備えていることを特徴としている。
【0019】
上記構成によれば、クライアント装置側でユーザの入力した音声を発話切出しした後に、発話切出し後の音声データをクライアント装置側から音声認識サーバに送信することができるので、クライアント装置−音声認識サーバ間での通信料金を抑えたり、通信帯域を節約したりすることができる。また、クライアント装置内で発話切出しを行って、その進行状況を音声入力/認識状態判断手段にて判断するので、発話切出しの進行状況の送信が他の機器を介することなくクライアント装置内で行われる。よって、音声入力/認識状態提示手段による発話切出しの進行状況の提示を、発話切出しに対して遅延無く行うことができる。
【0020】
さらに、本発明のクライアント装置は、上記構成のクライアント装置において、上記音声入力/認識状態判断手段は、上記音声認識サーバにおいて実行される発話切出しの進行状況を、音声認識状態データとして受信する音声認識状態データ受信手段を備えていることを特徴としている。
【0021】
また、本発明における分散型音声認識システムは、上記構成の分散型音声認識システムにおいて、上記音声認識サーバが、上記発話切出しを実行するものであるとともに、その発話切出しの進行状況を判断して上記クライアント装置に送信する音声認識状態判断手段を備えており、上記クライアント装置の音声入力/認識状態判断手段が、上記音声認識状態判断手段から送信される発話切出しの進行状況を、音声認識状態データとして受信する音声認識状態データ受信手段を備えていることを特徴としている。
【0022】
上記構成によれば、発話切出しが音声認識サーバ側において行われるので、クライアント装置に発話切出し機能を実現するための構成を設ける必要はない。また、音声認識状態データ受信手段は、発話切出し機能を実現するためのリソースに比べて少ないリソースにて実現可能である。よって、クライアント装置としてリソースの少ない携帯電話等の小型機器を用いることができる。
【0023】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力/認識状態判断手段が、音声入力の受付開始から所定時間内に所定音量レベルを超えるユーザの音声入力があるか否かを判断するとともに、上記音声入力/認識状態提示手段は、上記音声入力/認識状態判断手段により音声入力の受付開始から所定時間内に所定音量レベルを超えるユーザの音声入力がないと判断された場合に、ユーザの入力音声の音量レベルが小さいことをユーザに提示することを特徴としている。
【0024】
上記構成によれば、音声入力/認識状態判断手段によりユーザの入力音声の音量レベルが小さいと判断された場合に、音声入力/認識状態提示手段により音声入力のエラー提示をさせることができる。したがって、ユーザはそのエラー提示を確認することによって、再度音声入力を行う際により大きな声で発声するというように、音声入力エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができる。
【0025】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力/認識状態判断手段が、発話切出しが開始してから所定時間内にユーザの発話が終了したか否かを判断するとともに、上記音声入力/認識状態提示手段が、上記音声入力/認識状態判断手段による上記発話切出しの終了に関する判断結果に基づき、ユーザの発話終了が検知できないことをユーザに提示することを特徴としている。
【0026】
上記構成によれば、音声入力/認識状態判断手段により、発話切出しが開始してから所定時間内にユーザの発話が終了しなかったと判断された場合に、音声入力/認識状態提示手段により音声認識のエラー提示をさせることができる。ここで、発話切出しの終了から所定時間内にユーザの発話終了を検知できない要因のひとつとして、音声入力を行う場所の周辺における騒音や雑音が大きい、ということを挙げることができる。
【0027】
したがって、ユーザはそのエラー提示を確認することによって、再度音声入力を行う際により静かな場所で発声するというように、音声認識エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができる。
【0028】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力/認識状態判断手段が、発話切出しが終了してから所定時間内に上記音声認識サーバから上記クライアント装置が音声認識結果を受信したか否かを判断するとともに、上記音声入力/認識状態提示手段が、上記音声入力/認識状態判断手段による音声認識結果の受信に関する判断結果に基づき、上記クライアント装置と上記音声認識サーバとの間における通信に異常があることをユーザに提示することを特徴としている。
【0029】
上記構成によれば、音声入力/認識状態判断手段により、発話切出しが終了してから所定時間内に音声認識結果が音声認識サーバから受信されないと判断した場合には、音声入力/認識状態提示手段により、クライアント装置と音声認識サーバとの間における通信に異常があることをユーザに提示することができる。
【0030】
したがって、ユーザは、そのエラー提示を確認することによって、管理者にクライアント−サーバ間の通信の復旧を依頼するというように、通信エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができる。
【0031】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力/認識状態判断手段が、上記クライアント装置から送信された音声が上記音声認識サーバに格納された音声認識文法データと一致しているか否かに関する音声認識結果情報を上記音声認識サーバから受信する一方、上記音声入力/認識状態提示手段は、上記音声入力/認識状態判断手段により受信された上記音声認識結果情報に基づき、ユーザの入力音声が音声認識文法データに一致していないことをユーザに提示することを特徴としている。
【0032】
上記構成によれば、音声入力/認識状態判断手段により音声認識結果情報が受信され、それに基づき、音声入力/認識状態提示手段によりユーザの入力音声が音声認識文法データに一致していないことがユーザに提示される。なお、音声認識文法データとは、種々の語句をその用例とともに格納したデータである。音声認識サーバは、入力された音声に最も近い語句をこの音声認識文法データから抽出することにより音声認識を行っているのである。
【0033】
したがって、ユーザは、音声入力/認識状態判断手段の提示を確認することによって、自身が入力した音声は音声認識文法データに格納されていない語句に関するものであることを判断できる。よって、ユーザは、上記提示を確認した後に再度の音声入力を行う際には、別の語句を音声入力することができるので、より利便性のよい分散型音声認識システムを提供することができる。
【0034】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力/認識状態提示手段が、発話切出し後の音声データを上記音声認識サーバがサンプリング単位ずつ音声認識した音声認識結果を、部分認識完了単位毎に順次受信してユーザに提示することを特徴としている。
【0035】
上記構成によれば、音声認識結果が部分認識完了単位毎にユーザに順次受信されてユーザに提示されるので、ユーザは、音声入力中においても自己の発声が正確に音声認識されているか否かを判断することができる。したがって、より利便性のよい分散型音声認識システムを提供することができる。
【0036】
また、上記課題を解決するために、本発明の音声認識サーバは、クライアント装置にてユーザが入力した音声を、音声認識サーバにおいて発話切出しした後に音声認識する分散型音声認識システムに用いる音声認識サーバであって、上記発話切出しの進行状況を判断して上記クライアント装置に送信する音声認識状態判断手段を備えていることを特徴としている。
【0037】
上記構成によれば、音声認識サーバにおける発話切出しの進行状況がクライアント装置に送信されるので、クライアント装置に、発話切出しの進行状況を判断する音声入力/認識状態判断手段と、上記音声入力/認識状態判断手段の判断結果に応じて上記発話切出しの進行状況をユーザに提示する音声入力/認識状態提示手段とを設けることにより、クライアント装置において発話切出しの進行状況をユーザに提示することが可能となる。
【0038】
よって、クライアント装置のユーザは、クライアント装置に提示された発話切出しの進行状況を視認することにより、自己が発した音声が音声認識サーバにおいて音声認識されていることを確認することができる。したがって、自己の発話が確実に音声認識サーバにおいて認識されているか否かの不安をユーザに与えることがないので、より利便性のよい分散型音声認識システムを提供することができる。
【0039】
さらに、本発明の音声認識サーバは、上記構成において、上記音声認識状態判断手段が、発話切出しが終了してから所定時間内にユーザの発話が終了したか否かを判断するとともに、その判断結果を上記クライアント装置に送信することを特徴としている。
【0040】
上記構成によれば、音声認識サーバにおいて発話切出しが終了してから所定時間内に発話の終了を検知しなかった場合には、その判断結果を音声認識サーバからクライアント装置側に送信することにより、クライアント装置側の音声入力/認識状態提示手段によりユーザに提示することができる。
【0041】
したがって、ユーザはそのエラー提示を確認することによって、再度音声入力を行う際により静かな場所で発声するというように、音声認識エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができる。
【0042】
さらに、本発明の音声認識サーバは、上記構成において、上記クライアント装置から送信されるユーザの入力音声が、記憶手段に格納された音声認識文法データと一致しているか否かに関する音声認識結果情報を上記クライアント装置に送信することを特徴としている。
【0043】
上記構成によれば、音声認識サーバから音声認識結果情報をクライアント装置側に送信することにより、クライアント装置の音声入力/認識状態提示手段においてユーザの入力音声が音声認識文法データに一致していないことをユーザに提示することができる。
【0044】
したがって、ユーザは、音声入力/認識状態判断手段の提示を確認することによって、自身が入力した音声は音声認識文法データに格納されていない語句に関するものであることを判断できる。よって、ユーザは、上記提示を確認した後に再度の音声入力を行う際には、別の語句を音声入力することができるので、より利便性のよい分散型音声認識システムを提供することができる。
【0045】
さらに、本発明の音声認識サーバは、上記構成において、発話切出し後の音声データをサンプリング単位ずつ音声認識するとともに、その音声認識結果を部分認識完了単位毎に順次上記クライアント装置に送信することを特徴としている。
【0046】
上記構成によれば、音声認識の結果が部分認識完了単位毎にクライアント装置に送信されるので、クライアント装置においてその音声認識結果をユーザに提示することにより、ユーザは、音声入力中においても自己の発声が正確に音声認識されているか否かを判断することができる。したがって、より利便性のよい分散型音声認識システムを提供することができる。
【0047】
なお、上記クライアント装置における音声入力/認識状態判断手段および音声入力/認識状態提示手段を、本発明による音声認識プログラムによりコンピュータ上で実行させることができる。また、上記音声認識サーバにおける音声認識状態判断手段を、本発明による音声認識プログラムによりコンピュータ上で実行させることができる。
【0048】
さらに、上記音声認識プログラムをコンピュータ読み取り可能な記録媒体に記憶させることにより、任意のコンピュータ上で上記音声認識プログラムを実行させることができる。
【0049】
【発明の実施の形態】
〔実施の形態1〕
本発明の音声認識クライアントの一実施形態について、図1ないし図10を用いて示す。
【0050】
図1に示すように、本実施の形態の音声認識クライアント(クライアント装置)1は、音声認識サーバ2に接続されることにより、分散型音声認識システムを構築している。なお、図1においては音声認識クライアント1と音声認識サーバ2とは1対1にて接続されているが、実際は複数の音声認識クライアントに対して1つの音声認識サーバがネットワーク接続されている。以下に、音声認識クライアント1および音声認識サーバ2の構成を具体的に説明する。
【0051】
(1.音声認識クライアント1の構成)
音声認識クライアント1は、図1に示すように、音声入力部3と、制御部4と、音声入力/認識状態判断部(音声入力/認識状態判断手段)5と、音声入力/認識状態提示部(音声入力/認識状態提示手段)6と、記憶部7とを備えている。
【0052】
音声入力部3は、ユーザが発話する音声を音声データとして音声認識サーバ2に送信し、該サーバから得られる音声認識結果としてのテキストデータを取得するものである。より具体的には、音声入力部3は、音声入力I/F8と、音声データ変換部9と、音声データ送信部10と、テキストデータ受信部11とを備えている。
【0053】
音声入力I/F8は、ユーザが発話する音声を電気信号に変換するものであり、マイクロフォン等の一般的なインターフェースを用いることができる。音声データ変換部9は、音声入力I/F8により変換された電気信号を、ネットワークにて送信可能なデジタル信号に変換するものである。音声データ送信部10は、音声データ変換部9により変換されたデジタル信号を、音声認識サーバ2に送信するものである。テキストデータ受信部11は、音声データ送信部10より送信された音声データを音声認識サーバ2が認識した結果であるテキストデータを受信するものである。
【0054】
なお、音声データ送信部10により音声認識サーバに送信されるデータは、サーバ側での音声認識に必要十分なデータであればその形態は問わない。つまり、音声そのものでも良いし、送信前に圧縮などの処理を施したデータでも良いし、あるいは音声認識に必要な特徴量の抽出を事前にクライアント側で実施した後のデータであってもよい。
【0055】
上記構成により、音声入力部3は、ユーザが発話した音声を音声データとして音声認識サーバ2に送信し、該サーバから得られる音声認識結果としてのテキストデータを取得する。
【0056】
次に、制御部4について説明する。制御部4は、音声認識クライアント1を統括的に制御するものであり、テキストデータ処理部12を備えている。テキストデータ処理部12は、テキストデータ受信部11により音声認識サーバ2から受信されたテキストデータに基づき、各種アプリケーションを実行するものである。テキストデータ処理部12により実行されるアプリケーションとしては、テキストデータの入力が必要なアプリケーション、たとえば文書作成アプリケーション、電子メール作成アプリケーション、チケット予約アプリケーションなど、種々のアプリケーションを用いることができる。
【0057】
次に、音声入力/認識状態判断部5について説明する。音声入力/認識状態判断部5は、音声認識クライアント1における音声入力処理および音声認識サーバ2における音声認識処理が正常に実行されているか否かを判断するものである。より具体的には、音声入力/認識状態判断部5は、音声入力状態判断部(音声入力状態判断手段)13と、音声認識状態データ受信部(音声認識状態データ受信手段)14とを備えている。
【0058】
音声入力状態判断部13は、音声入力部3における音声入力が正常に行われているか否かを監視するものである。具体的には、音声入力状態判断部13は、所定時間が経過しても音声入力I/F8に所定レベル以上の音声が入力されないときには、音声入力が正常に行われていないと判断する。その他、音声データ送信部10による音声データの送信が音声入力開始から所定時間を経過しても行われない場合や、テキストデータ受信部11によるテキストデータの受信が音声入力開始から所定時間を経過しても行われない場合においても、音声入力状態判断部13は音声入力が正常に行われていないと判断する。
【0059】
一方、音声認識状態データ受信部14は、音声認識サーバ2から後述する音声認識状態データを受信するものである。ここで、音声認識状態データとは、音声認識サーバ2において音声認識処理が正常に実行されているか否かを示すデータである。なお、音声認識状態データは、クライアント側で音声認識の完了やエラー発生の状況を表示するために必要十分なデータであればその形態は問わない。すなわち、音声認識状態データは、音声認識完了が確認できるイベントデータであることが最低限必要であり、その他クライアント側で認識結果テキストやエラー表示をしたい場合には、それに応じて音声認識状態データの内容を詳細化すればよい。
【0060】
上記構成により、音声入力/認識状態判断部5は、音声入力状態判断部13の判断結果を参照することによって、音声入力部3における音声入力処理が正常に行われているか否かを把握することができる。さらに、音声入力/認識状態判断部5は、その音声認識状態データを参照することによって、音声認識サーバ2において音声認識処理が正常に行われているか否かを把握することができる。
【0061】
次に、音声入力/認識状態提示部6について説明する。音声入力/認識状態提示部6は、音声入力あるいは音声認識が正常に行われているか否かの判断結果を音声入力/認識状態判断部5から受信し、音声認識クライアント1に設けられたディスプレイ等の表示手段(図示せず)に、音声入力の状態あるいは音声認識の状態を表示するものである。
【0062】
なお、図1において、音声入力/認識状態提示部6は、テキストデータ処理部12と別ブロックの構成で示したが、必ずしもこの構成に限定されるものではない。すなわち、テキストデータ処理部12により実行されるアプリケーションによって、音声入力/認識状態表示が実現されていてもよい。
【0063】
次に、記憶部7について説明する。記憶部7は、音声認識クライアント1における処理に必要な種々のデータを記憶するものである。特に、記憶部7は、音声入力/認識状態表示データ15を格納している。この音声入力/認識状態表示データ15は、音声入力/認識状態提示部6が音声入力/認識状態を表示するための画像データである。
【0064】
以上の構成により、音声認識クライアント1は、ユーザが音声入力I/F8に対して発話した音声を、音声データとして音声認識サーバに送信し、該サーバによる音声認識の結果得られたテキストデータを取得し、所望の処理を実行する。さらに、音声認識クライアント1は、音声入力の状態および音声認識の状態を表示する機能も兼ね備えている。
【0065】
(2.音声認識サーバ2の構成)
音声認識サーバ2は、図1に示すように、音声データ変換部20と、記憶部(記憶手段)21と、音声認識状態判断部(音声認識状態判断手段)22とを備えている。音声データ変換部20は、音声認識クライアント1の音声データ送信部10から送信される音声データをテキストデータに変換するものである。
【0066】
より具体的には、音声データ変換部20は、音声データ受信部23と、発話切出部(発話切出し手段)24と、音声認識部25と、テキストデータ送信部26とを備えている。
【0067】
音声データ受信部23は、音声認識クライアント1の音声データ送信部10から送信される音声データを受信するものである。
【0068】
発話切出部24は、音声データ受信部23が受信した音声データを発話単位毎に切出すものである。発話切出しとは、音量・音程等の音声情報に従って、ユーザが発話していると判断できる領域を発話区間として特定することをいい、種々の公知の方法にて実現可能である。また、発話切出しは、音声データ受信部23により受信される音声データの音量レベルが閾値を超える場合に開始され、音量レベルが閾値以下になると終了する。
【0069】
音声認識部25は、発話切出部24により切出された音声データの1単位を、記憶部21に格納された音声認識文法データに基づいてテキストデータに変換するものである。すなわち、音声認識文法データには、種々の単語データがその用法や用例とともに記憶されている。そして、音声認識部25は、音声データと音声認識文法データとを対比し、切出された音声データに最も近いと思われる単語のテキストデータを出力する。
【0070】
テキストデータ送信部26は、音声認識部25から出力されるテキストデータを、音声認識クライアント1のテキストデータ受信部11に送信するものである。
【0071】
以上の構成により、音声データ変換部20は、音声認識クライアント1から送信される音声データをテキストデータとして変換し、そのテキストデータを音声認識クライアント1に送信する。
【0072】
音声認識状態判断部22は、音声データ変換部20における処理が正常に行われているか否かを判断するものである。具体的には、音声認識状態判断部22は、発話切出部24において発話切出しが開始されたか否か、あるいは発話切出しが終了したか否かを判断する。その他、音声認識クライアント1からの音声データが音声データ受信部23により正常に受信されているか、音声認識部25において音声認識処理が正常に行われているか否か、テキストデータ送信部26においてテキストデータの送信が正常に行われているか否かを、音声認識状態判断部22において判断してもよい。
【0073】
以上の構成により、音声認識サーバ2は、音声認識クライアント1から音声データを受信し、その音声データを発話単位毎に切出した後に音声認識し、テキストデータを作成して音声認識クライアント1に送信する。
【0074】
(3.本実施の形態の分散型音声認識システムの利点)
本実施の形態の音声認識クライアント1と音声認識サーバ2とにより構成される分散型音声認識システムにおいては、発話切り出し機能がサーバ側に配置されているので、音声認識クライアントにおけるCPUパワーやメモリなどのリソースを低減できるというメリットがある。よって、音声認識クライアントとして携帯電話等の小型機器を用いる場合に、本実施の形態の分散型音声認識システムは有利な構成といえる。
【0075】
(4.処理フロー)
次に、本実施の形態の分散型音声認識システムの音声認識処理フローについて図2を用いて説明する。なお、図2においては、説明の便宜上、音声認識クライアントにおける処理フローと、音声認識サーバにおける処理フローとを分けて記載している。
【0076】
先ず、音声認識クライアント1の制御部4により、音声認識処理フローが開始される(ステップ1、以下ステップを単にSと記載する)。S1における音声認識処理フローの開始は、制御部4により、所定時間を経過する度にサイクリックに実行される。
【0077】
その後、音声入力状態判断部13により、音声入力が開始されたか否かが判断される(S2)。S2においては、ユーザが音声入力I/F8のキー操作を行ったか否かにより、音声入力が開始されたか否かの判断が行われる。S2において音声入力が開始されていないと判断された場合においては、再度音声入力が行われたか否かの判断が行われる。
【0078】
S2において音声入力が開始されたと判断された場合、音声入力/認識状態提示部6は、ユーザの発話を促すための画面を音声認識クライアント1の表示手段に表示させる(S3)。たとえば、図3に示すように、「キミのすきなたべものはな〜に?」というように、質問形式のメッセージが表示される。
このメッセージに対してユーザが発話した音声は、上述したように、音声認識クライアントの音声データ変換部9および音声データ送信部10を介して、音声認識サーバ2の音声データ受信部23へ送信される(S4)。
【0079】
一方、音声認識サーバ2においては、音声データ受信部23により音声認識クライアント1の音声データ送信部10からの音声データが受信される(S5)。そして、音声認識サーバ2の音声認識状態判断部22により、発話切出部24における発話切出しが開始されたか否かが判断される(S6)。なお、上述のように、発話切出部24は音声データ受信部23により受信される音声データが閾値以上になると開始される。
【0080】
S6において発話切出しが開始されていないと判断された場合には、再度発話切出しが開始されたか否かが判断される。逆に、S6において発話切出しが開始されたと判断された場合、音声認識状態判断部22は、発話切出しが開始されたことを示すデータ(発話切出し開始イベント)を、音声認識クライアント1の音声認識状態データ受信部14に送信する(S7)。
【0081】
一方、音声認識クライアント1においては、音声入力/認識状態提示部6により、発話切出し開始イベントが音声認識状態データ受信部14により受信されたか否かの判断がなされる(S8)。S8において発話切出し開始イベントが受信されていないと判断された場合には、再度S8における判断が行われる。
【0082】
逆に、S8において発話切出しイベントが受信されたと判断された場合、音声入力/認識状態提示部6は、発話切出しが開始されたことを示す画面を音声認識クライアント1の表示手段に表示させる(S9)。たとえば、図4に示すように、キャラクターがユーザの発声に対して「うん。うん。」と頷く画面を表示する。
【0083】
一方、音声認識サーバ2において、音声認識状態判断部22は、発話切出部24における発話切出しが終了したか否かを判断する(S10)。なお、上述のように、発話切出部24は音声データ受信部23により受信される音声データが閾値以下になると終了する。
【0084】
S10において発話切出しが終了していないと判断された場合、再度発話切出しが終了したか否かを判断する。一方、S10において発話切出しが終了したと判断された場合は、音声認識状態判断部22は、音声認識状態データ受信部14に発話切出しが終了したことを示すデータ(発話切出し終了イベント)を送信する(S11)。
【0085】
そして、音声認識クライアント1においては、音声入力/認識状態提示部6により、発話切出し終了イベントが音声認識状態データ受信部14により受信されたか否かの判断がなされる(S12)。S12において発話切出し終了イベントが受信されていないと判断された場合には、再度S12における判断が行われる。
【0086】
逆に、S12において発話切出し終了イベントが受信されたと判断された場合、音声入力/認識状態提示部6は、発話切出しが終了したことを示す画面を音声認識クライアント1の表示手段に表示させる(S13)。たとえば図5に示すようなキャラクターがユーザの発声に基づいて辞書を引く画面のように、単語検索中であることがユーザにわかる画面を表示するとよい。
【0087】
また、音声認識サーバ2の音声認識部25においては、発話切出部24にて切出された音声データに基づき音声認識処理が実行されている(S14)。なお、図2においては、記載の便宜上、S14の処理がS11の後に行われるように記載されているが、実際は、S14の処理はS10の処理と並行して実行されてもよい。すなわち、音声認識部25は、発話切出部24が切出した音声データを順次受け取って音声認識処理を実行していてもよい。
【0088】
S14の音声認識処理が終了した後、テキストデータ送信部26により、音声認識結果としてのテキストデータが、音声認識クライアント1のテキストデータ受信部11に送信される(S15)。そして、音声認識クライアント1においては、テキストデータ受信部11により上記テキストデータが受信される(S16)。
【0089】
S16における音声認識結果としてのテキストデータのテキストデータ受信部11による受信は、音声入力状態判断部13により検知される。この音声入力状態判断部13の音声認識結果データの受信検知に基づき、音声入力/認識状態提示部6は、音声認識が完了したことを示す画面を音声認識クライアント1の表示手段に表示させる(S17)。たとえば、図6に示すように、ユーザの発声が「カレーライス」と音声認識された場合においては、『あったよ。「カレーライス」!』というように、音声認識結果をキャラクターとともに表示する。これにより、本実施の形態の分散型音声認識システムによる音声認識処理が終了する。
【0090】
また、上述した本実施の形態の音声認識処理においては、図3ないし図6に示したような画面だけでなく、以下に説明するような画面を表示することも可能である。すなわち、音声認識処理が正常終了しなかったり、発話切出しされた音声データが音声認識文法に整合しなかったりした場合に、エラーメッセージ画面を表示するといったことも可能である。
【0091】
たとえば、図3に示したようなユーザの発話を促すための画面が表示されている状態において、所定時間が経過しても発話切出しが開始されない場合、ユーザの発声の音量レベルが小さいか、あるいは音声入力I/F8のマイク感度が低いということが原因として考えられる。
【0092】
このような場合、音声入力/認識状態提示部6により、ユーザにより大きな発声をすることを促す画面を表示させてもよい。たとえば、図7に示すように、「ごめん。ぜんぜんきこえなかった。もいちどおっきなこえでいってみて!」というようなメッセージをキャラクターとともに表示することが可能である。
【0093】
このような画面を表示することによって、ユーザは発話の音量レベルが小さすぎたのではないか、あるいはボリューム設定が小さすぎたのではないかということを判断して、再度発声する際に音量を調整することが可能となる。
【0094】
他にも、ユーザの発声の発話切出しが開始してから所定時間経過してもユーザの発話の終了を検知できない場合には、図8に示すように、「ごめん。うるさくてわかんなかった。もいちどいってみて!」というように、ユーザの発声の音量レベルが周辺のノイズにより掻き消され、うまくユーザの発声終了を検知できなかったことを示すメッセージを表示してもよい。このような画面を表示することによって、ユーザは周辺騒音・雑音が大きすぎるのではないかと判断して、より静かな場所で再度音声入力を試みることができる。
【0095】
また、図5に示したようなサーバからの音声認識の結果を待っていることを示す画面が表示されている場合において、所定時間が経過した場合、サーバ−クライアント間の通信に何らかの異常が発生したものと考えられる。
【0096】
このような場合、音声入力/認識状態提示部6により、ユーザにネットワーク通信が正常に機能していないことを示す画面を表示させることが可能である。たとえば、図9に示すように、「ごめん。ネットワークがおかしいみたい。またね!」というメッセージを音声入力/認識状態提示部6に表示させるとよい。
【0097】
また、図6に示したような音声認識の終了の画面を表示する場合において、音声認識サーバ2から得られた音声認識結果が、ユーザが発声した音声データが音声認識文法データに整合していなかったことを示すデータである場合には、ユーザに再度音声入力を促す画面を音声入力/認識状態提示部6に表示させてもよい。たとえば、図10に示すように、「ごめん。わかんなかった。もいちどいってみて!」というようなメッセージを表示するとよい。
【0098】
また、上述の実施形態では、音声入力/認識状態提示部6によるユーザへのエラーメッセージの提示方法として画面表示による例を記載したが、エラーメッセージの提示方法は必ずしもこれに限定されるものではない。たとえば、音声入力/認識状態提示部6により、音声メッセージによるエラーの提示や、ブザーの鳴動によるエラーの提示を行ってもよい。
【0099】
〔実施の形態2〕
次に、本発明の音声認識クライアントの他の実施形態について、図11に基づいて説明する。なお、説明の便宜上、実施の形態1と同一の機能を有するブロックについては実施の形態1と同一の参照番号を付すことにより、各ブロックについての詳細な説明は省略する。
【0100】
(1.音声認識クライアントおよび音声認識サーバの構成)
図11に示すように、本実施の形態の音声認識クライアント(クライアント装置)30は、音声入力部3に発話切出部24が設けられている以外は、実施の形態1における音声認識クライアント1と同様の構成を有している。一方、本実施の形態の音声認識サーバ31は、発話切出部24が音声データ変換部20に設けられていない点のみにおいて、実施の形態1の音声認識サーバ2と異なる構成である。
【0101】
すなわち、本実施の形態の音声認識クライアント30では、音声データ変換部9において変換された音声データに基づき、発話切出部24にて発話切出しを行う。そして、発話切出しされた後の音声データを、音声データ送信部10によって音声認識サーバ31の音声データ受信部23に送信する。音声認識部25では、音声データ受信部23が受信する音声データに対して音声認識処理を行う。
【0102】
このように、本実施の形態の分散型音声認識システムでは、発話切り出しをクライアント側で行うので、実施の形態1よりも大きなクライアント側のリソースが必要になる。よって、音声認識クライアントとしては、PDAやPCなどのある程度のリソースを有する機器を用いることが望ましい。
【0103】
また、本実施の形態の分散型音声認識システムでは、発話切出しされた後の音声データをサーバ側に送信するので、サーバ側に送信する音声データを発話中の音声だけに限定することができ、通信料金を抑えたり通信帯域を節約できるというメリットがある。さらに、発話自動切り出し開始や発話自動切り出し終了のイベントが、ネットワークを介することなく直接音声入力/認識状態判断部5によって検知されるので、音声入力/認識状態提示部6が発話切出し開始/終了の画面を表示する際のネットワーク遅延を抑えることができるというメリットがある。
【0104】
(2.処理フロー)
次に、本実施の形態の分散型音声認識システムの音声認識処理フローについて図12を用いて説明する。
【0105】
先ず、制御部4により、音声認識処理フローが開始される(S20)。S20における音声認識処理フローの開始は、制御部4により、所定時間を経過する度にサイクリックに実行される。
【0106】
その後、音声入力状態判断部13により、音声入力が開始されたか否かが判断される(S21)。S21においては、ユーザが音声入力I/F8のキー操作を行ったか否かにより、音声入力が開始されたか否かの判断が行われる。S21において音声入力が開始されていないと判断された場合においては、再度音声入力が行われたか否かの判断が行われる。
【0107】
S21において音声入力が開始されたと判断された場合、音声入力/認識状態提示部6は、ユーザの発話を促すための画面を音声認識クライアント1の表示手段に表示させる(S22)。
【0108】
S22の後、音声認識クライアント30の音声入力状態判断部13により、発話切出部24における発話切出しが開始されたか否かが判断される(S23)。なお、発話切出しは音声データ変換部9から送信される音声データの音量レベルが閾値以上になると開始される。
【0109】
S23において発話切出しが開始されていないと判断された場合には、再度発話切出しが開始されたか否かが判断される。
【0110】
一方、S23において発話切出しが開始されたと判断された場合、音声入力/認識状態提示部6は、発話切出しが開始されたことを示すデータを音声入力状態判断部13が受信したことを検知し、発話切出しが開始されたことを示す画面を音声認識クライアント1の表示手段に表示させる(S24)。
【0111】
その後、音声入力状態判断部13は、発話切出部24における発話切出しが終了したか否かを判断する(S25)。なお、発話切出しは音声データ変換部9から送信される音声データの音量レベルが閾値以下になると終了する。
【0112】
S25において発話切出しが終了していないと判断された場合、再度発話切出しが終了したか否かを判断する。一方、S25において発話切出しが終了したと判断された場合、音声入力/認識状態提示部6は、発話切出しが終了したことを示すデータを音声入力状態判断部13が受信したことを検知し、発話切出しが終了したことを示す画面を音声認識クライアント1の表示手段に表示させる(S26)。
【0113】
S26の後、音声データ送信部10は、発話切出部24により切出された音声データを、音声認識サーバ31の音声データ受信部23に送信する(S27)。S27にて送信された切出し後の音声データは、音声データ受信部23により受信される(S28)。
【0114】
その後、音声認識サーバの音声認識部25は、S28にて受信した音声データに基づき音声認識処理が実行されている(S29)。S29の音声認識処理が終了した後、テキストデータ送信部26により、音声認識結果としてのテキストデータが、音声認識クライアント1のテキストデータ受信部11に送信される(S30)。そして、テキストデータ受信部11により上記テキストデータが受信される(S31)。
【0115】
S31における音声認識結果としてのテキストデータのテキストデータ受信部11による受信は、音声入力状態判断部13により検知される。この音声入力状態判断部13の音声認識結果データの受信検知に基づき、音声入力/認識状態提示部6は、音声認識が完了したことを示す画面を音声認識クライアント1の表示手段に表示させる(S32)。
【0116】
〔実施の形態3〕
本実施の形態は、音声認識の途中経過を表示する実施形態である。分散型音声認識システムの構成は、実施の形態1の構成でも実施の形態2の構成でもどちらでもよい。
【0117】
図13に本実施の形態の分散型音声認識システムの処理フローを示す。このフローは、実施の形態2の構成(発話切出部が音声認識クライアントにある構成)を前提として記述してある。また、図13においては、説明の便宜上、音声認識クライアントの処理フローと、音声認識サーバにおける処理フローとを分けて記載している。
【0118】
まず、音声認識クライアント30において、音声入力状態判断部13により、音声入力が開始されたか否かが判断される(S40)。S40は、図12のS21と同様の処理を行うので、詳細な説明は省略する。
【0119】
S40において音声入力が開始されたと判断された場合、音声入力/認識状態提示部6は、ユーザの発話を促すための画面を音声認識クライアント1の表示手段に表示させる(S41)。S41は、図12のS22と同様の処理を行うので、詳細な説明は省略する。
【0120】
S41の後、音声認識クライアント30の音声入力状態判断部13により、発話切出部24における発話切出しが開始されたか否かが判断される(S42)。S42は図12の図23と同様の処理を行う。
【0121】
S42において発話切出しが開始されたと判断された場合、音声入力/認識状態提示部6は、発話切出しが開始されたことを示すデータを音声入力状態判断部13が受信したことを検知し、発話切出しが開始されたことを示す画面を音声認識クライアント1の表示手段に表示させる(S43)。
【0122】
このように、S40〜S43までの処理は、図12のフローと同一であると考えてよいが、S43以降の処理において、本実施の形態の処理フローは図12の処理フローとは異なっている。
【0123】
つまり、実施の形態2における図12のフローでは、発話開始から発話終了までの音声が、一旦クライアントのメモリに蓄積されてから、一括してサーバに送信されるようになっている。一方、本実施の形態においては、発話開始時点から入手できる部分的な音声サンプルを、音声認識クライアント30の音声データ送信部10から、音声認識サーバ31の音声データ受信部23に送信している点において、実施の形態2の処理フローとは異なる。以下、本実施の形態の処理フローにおいて特徴となる点について、より具体的に説明する。
【0124】
先ず、音声認識クライアント30は、ユーザの発声した音声を切出して得られる個々の音声データ(部分音声)を、発話切出し処理と並行して音声データ送信部10から、音声認識サーバ31の音声データ受信部23に送信する(S44)。
【0125】
一方、音声認識サーバ31においては、部分音声を音声データ受信部23において受信する(S45)。そして、音声認識部25において、S45にて受信された部分音声の音声認識を順次実行する(S46)。なお、このように部分音声を順次音声認識するためには、クライアント−サーバ間の通信経路において、送信されるデータの前後関係が実際の発話の前後関係と一致していることが保証されている、ということが前提となる。
【0126】
S46における音声認識により、音声認識の途中結果が得られたならば、音声認識サーバ31はその結果をテキストデータとしてテキストデータ送信部26からテキストデータ受信部11に送信する(S47)。また、音声認識部25により部分音声が音声認識文法データと一致せず音声認識に失敗した場合は、音声認識状態判断部22により、音声認識に失敗したことを音声認識クライアント30の音声認識状態データ受信部14に送信する(S48)。
【0127】
たとえば、ユーザが「カレーライス」と発話する場合、「カレー」までの部分音声が音声データ受信部23に送信された段階で、音声認識部25が「カレー」と認識することが可能である。
【0128】
こういった音声認識の途中結果が得られた場合には、音声認識サーバ31は、音声認識状態判断部22から音声認識状態データ受信部14に音声認識の途中結果が得られたというイベント情報を送信し、さらに音声認識の途中結果として「カレー」というテキストデータそのものをテキストデータ送信部26からテキストデータ受信部11に送信する。
【0129】
なお、図13においてはS47の処理の後にS48の処理が実行されるように記載しているが、必ずしもこれに限定されるものではなく、S48の処理をS47の処理の前に行ってもよい。
【0130】
一方、音声認識クライアント30においては、音声認識状態データ受信部14により音声認識の途中失敗結果が受信されたか否かが、音声入力/認識状態判断部5により判断される(S49)。S49において音声認識の途中失敗結果が受信されたと判断された場合には、音声入力/認識状態提示部6は、音声認識の失敗画面を音声認識クライアントの表示手段に表示させる(S50)。音声認識の失敗画面に関しては、たとえば図10に示したような画面を一例として挙げることができる。
【0131】
一方、S49において音声認識の途中失敗結果が受信されていないと判断された場合には、テキストデータ受信部11により音声認識の途中結果が受信されたか否かが、音声入力状態判断部13により判断される(S51)。S51において音声認識の途中結果が受信されたと判断された場合には、音声入力/認識状態提示部6は、音声認識の途中結果を示す画面を音声認識クライアントの表示手段に表示させる(S52)。
【0132】
たとえば、上述のように音声認識の途中結果として「カレー」というテキストデータが音声認識サーバから送信されているのであれば、図14に示すように、「カレー…」というように音声認識の途中結果が表示される。
【0133】
逆に、S51において音声認識の途中結果が受信されていないと判断された場合には、音声入力状態判断部13により、発話切出部24における発話切出しが終了したか否かが判断される(S53)。S53の処理は図12のS25の処理と同様である。
【0134】
また、上述のフローでは、完全に発話終了時点までの音声全てを待たなくても、ある時点までに送信された音声が音声認識用の文法に不適合であるかどうかの判断が、音声認識部25により可能となる場合がある。たとえば、音声認識文法データに「オムライス」という単語だけが登録されていて、送信された部分音声が「カレー」という音声だとすると、この時点にて音声認識部25により音声認識に失敗したと判断できる場合がある。
【0135】
その場合、音声認識クライアント30からの全ての音声の受信を待たずに、音声認識サーバ31の音声認識状態判断部22から、音声認識が途中で失敗したという結果を、音声認識クライアント30の音声認識状態データ受信部14に送信できる。音声認識クライアント30から見ると、音声認識サーバ31に全ての音声を送信完了していない段階でも、認識途中失敗の結果を受信することがあることになる。
【0136】
この場合には、音声入力/認識状態提示部6は、S43において発話切出し開始の画面を表示していても、S49において音声認識の途中失敗という結果を受け取って、S50に移行して音声認識の失敗画面を表示することができる。
【0137】
再び図13のフローの説明に戻る。S53において発話切出しが終了していないと判断された場合、S44の処理を再度行う。逆に、S53において発話切出しが終了していると判断された場合、音声入力/認識状態提示部6は、発話切出しが終了したことを示すデータを音声入力状態判断部13が受信したことを検知し、発話切出しが終了したことを示す画面を音声認識クライアント1の表示手段に表示させる(S54)。S54は図12のS26と同様の処理である。
【0138】
一方、音声認識サーバ31においては、S48の処理の後、音声認識状態判断部22により、ユーザの発話の最終部分が音声データ受信部23に受信されたか否かが判断される(S55)。S55において発話の最終部分が受信されていないと判断された場合、S45の処理に戻る。逆にS55において発話の最終部分が受信されていると判断された場合、テキストデータ送信部26は、音声認識結果を音声認識クライアントのテキストデータ受信部11に送信する(S56)。なお、音声認識部25が音声認識に失敗した場合には、S56において、音声認識状態判断部22から音声認識クライアント30の音声認識状態データ受信部14に、音声認識に失敗したという情報が送信される。
【0139】
S56にて送信される音声認識結果は、音声認識クライアント30において、S54の処理を行った後、テキストデータ受信部11にて受信される(S57)。なお、音声認識部25が音声認識に失敗している場合には、S57において、音声認識状態データ受信部14にて、音声認識に失敗したという情報が受信されることになる。
【0140】
S57の後、音声入力/認識状態提示部6は、音声認識状態データ受信部14が、音声認識サーバ31から音声認識に失敗したことに関する情報を受信しているか否かを判断することにより、音声認識が正常に行われたか否かを判断する(S58)。
【0141】
S58において音声認識に失敗したと判断された場合、音声入力/認識状態提示部6は、音声認識の失敗画面を音声認識クライアントの表示手段に表示させる(S50)。逆に、S58において音声認識に成功していると判断された場合、音声入力/認識状態提示部6は、音声認識の終了画面を音声認識クライアントの表示手段に表示させる(S59)。S59においては、たとえば図6に示すような画面が表示される。
【0142】
なお、上記各実施形態の音声認識クライアントや音声認識サーバの各部や各処理ステップは、CPUなどの演算手段が、ROM(Read Only Memory)やRAMなどの記憶手段に記憶されたプログラムを実行し、キーボードなどの入力手段、ディスプレイなどの出力手段、あるいは、インターフェース回路などの通信手段を制御することにより実現することができる。したがって、これらの手段を有するコンピュータが、上記プログラムを記録した記録媒体を読み取り、当該プログラムを実行するだけで、本実施形態の音声認識クライアントおよび音声認識サーバの各種機能および各種処理を実現することができる。また、上記プログラムをリムーバブルな記録媒体に記録することにより、任意のコンピュータ上で上記の各種機能および各種処理を実現することができる。
【0143】
この記録媒体としては、マイクロコンピュータで処理を行うために図示しないメモリ、例えばROMのようなものがプログラムメディアであっても良いし、また、図示していないが外部記憶装置としてプログラム読み取り装置が設けられ、そこに記録媒体を挿入することにより読み取り可能なプログラムメディアであっても良い。
【0144】
また、何れの場合でも、格納されているプログラムは、マイクロプロセッサがアクセスして実行される構成であることが好ましい。さらに、プログラムを読み出し、読み出されたプログラムは、マイクロコンピュータのプログラム記憶エリアにダウンロードされて、そのプログラムが実行される方式であることが好ましい。なお、このダウンロード用のプログラムは予め本体装置に格納されているものとする。
【0145】
また、上記プログラムメディアとしては、本体と分離可能に構成される記録媒体であり、磁気テープやカセットテープ等のテープ系、フレキシブルディスクやハードディスク等の磁気ディスクやCD/MO/MD/DVD等のディスクのディスク系、ICカード(メモリカードを含む)等のカード系、あるいはマスクROM、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、フラッシュROM等による半導体メモリを含めた固定的にプログラムを担持する記録媒体等がある。
【0146】
また、インターネットを含む通信ネットワークを接続可能なシステム構成であれば、通信ネットワークからプログラムをダウンロードするように流動的にプログラムを担持する記録媒体であることが好ましい。
【0147】
さらに、このように通信ネットワークからプログラムをダウンロードする場合には、そのダウンロード用のプログラムは予め本体装置に格納しておくか、あるいは別な記録媒体からインストールされるものであることが好ましい。
【0148】
なお、本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【0149】
【発明の効果】
以上のように、本発明におけるクライアント装置は、発話切出しの進行状況を判断する音声入力/認識状態判断手段と、上記音声入力/認識状態判断手段の判断結果に応じて、上記発話切出しの進行状況をユーザに提示する音声入力/認識状態提示手段とを備えているものである。
【0150】
また、本発明における分散型音声認識システムは、クライアント装置が、上記発話切出しの進行状況を判断する音声入力/認識状態判断手段と、上記音声入力/認識状態判断手段の判断結果に応じて、上記発話切出しの進行状況をユーザに提示する音声入力/認識状態提示手段とを備えているものである。
【0151】
上記構成によれば、音声入力/認識状態提示手段により発話切出しの進行状況がユーザに提示されるので、クライアント装置は、発話切出しの進行状況をユーザに提示することが可能となる。
【0152】
よって、クライアント装置のユーザは、クライアント装置に提示された発話切出しの進行状況を視認することにより、自己が発した音声が音声認識サーバにおいて音声認識されていることを確認することができる。したがって、自己の発話が確実に音声認識サーバにおいて認識されているか否かの不安をユーザに与えることがないので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【0153】
さらに、本発明のクライアント装置は、上記構成のクライアント装置において、上記発話切出しを実行する発話切出し手段を備えている一方、上記音声入力/認識状態判断手段は、上記発話切出し手段による発話切出しの進行状況を検出する音声入力状態判断手段を備えているものである。
【0154】
また、本発明における分散型音声認識システムは、上記構成の分散型音声認識システムにおいて、上記クライアント装置が、上記発話切出しを実行する発話切出し手段を備えているとともに、上記クライアント装置の音声入力/認識状態判断手段が、上記発話切出し手段による発話切出しの進行状況を検出する音声入力状態判断手段を備えているものである。
【0155】
上記構成によれば、クライアント装置側でユーザの入力した音声を発話切出した後に、発話切出し後の音声データをクライアント装置側から音声認識サーバに送信することができるので、クライアント装置−音声認識サーバ間での通信料金を抑えたり、通信帯域を節約したりすることができるという効果を奏する。
【0156】
また、クライアント装置内で発話切出しを行って、その進行状況を音声入力/認識状態判断手段にて判断するので、発話切出しの進行状況の送信が他の機器を介することなくクライアント装置内で行われる。よって、音声入力/認識状態提示手段による発話切出しの進行状況の提示を、発話切出しに対して遅延無く行うことができるという効果を奏する。
【0157】
さらに、本発明のクライアント装置は、上記構成のクライアント装置において、上記音声入力/認識状態判断手段は、上記音声認識サーバにおいて実行される発話切出しの進行状況を、音声認識状態データとして受信する音声認識状態データ受信手段を備えているものである。
【0158】
また、本発明における分散型音声認識システムは、上記構成の分散型音声認識システムにおいて、上記音声認識サーバが、上記発話切出しを実行するものであるとともに、その発話切出しの進行状況を判断して上記クライアント装置に送信する音声認識状態判断手段を備えており、上記クライアント装置の音声入力/認識状態判断手段が、上記音声認識状態判断手段から送信される発話切出しの進行状況を、音声認識状態データとして受信する音声認識状態データ受信手段を備えているものである。
【0159】
上記構成によれば、発話切出しが音声認識サーバ側において行われるので、クライアント装置に発話切出し機能を実現するための構成を設ける必要はない。また、音声認識状態データ受信手段は、発話切出し機能を実現するためのリソースに比べて少ないリソースにて実現可能である。よって、クライアント装置としてリソースの少ない携帯電話等の小型機器を用いることができるという効果を奏する。
【0160】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力/認識状態判断手段が、音声入力の受付開始から所定時間内に所定音量レベルを超えるユーザの音声入力があるか否かを判断するとともに、上記音声入力/認識状態提示手段は、上記音声入力/認識状態判断手段により音声入力の受付開始から所定時間内に所定音量レベルを超えるユーザの音声入力がないと判断された場合に、ユーザの入力音声の音量レベルが小さいことをユーザに提示するものである。
【0161】
上記構成によれば、音声入力/認識状態判断手段によりユーザの入力音声の音量レベルが小さいと判断された場合に、音声入力/認識状態提示手段により音声入力のエラー提示をさせることができる。したがって、ユーザはそのエラー提示を確認することによって、再度音声入力を行う際により大きな声で発声するというように、音声入力エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【0162】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力/認識状態判断手段が、発話切出しが開始してから所定時間内にユーザの発話が終了したか否かを判断するとともに、上記音声入力/認識状態提示手段が、上記音声入力/認識状態判断手段による上記発話切出しの終了に関する判断結果に基づき、ユーザの発話終了が検知できないことをユーザに提示するものである。
【0163】
上記構成によれば、音声入力/認識状態判断手段により、発話切出しが開始してから所定時間内にユーザの発話が終了しなかったと判断された場合に、音声入力/認識状態提示手段により音声認識のエラー提示をさせることができる。ここで、発話切出しの終了から所定時間内にユーザの発話終了を検知できない要因のひとつとして、音声入力を行う場所の周辺における騒音や雑音が大きい、ということを挙げることができる。
【0164】
したがって、ユーザはそのエラー提示を確認することによって、再度音声入力を行う際により静かな場所で発声するというように、音声認識エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【0165】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力/認識状態判断手段が、発話切出しが終了してから所定時間内に上記音声認識サーバから上記クライアント装置が音声認識結果を受信したか否かを判断するとともに、上記音声入力/認識状態提示手段が、上記音声入力/認識状態判断手段による音声認識結果の受信に関する判断結果に基づき、上記クライアント装置と上記音声認識サーバとの間における通信に異常があることをユーザに提示するものである。
【0166】
上記構成によれば、音声入力/認識状態判断手段により、発話切出しが終了してから所定時間内に音声認識結果が音声認識サーバから受信されないと判断した場合には、音声入力/認識状態提示手段により、クライアント装置と音声認識サーバとの間における通信に異常があることをユーザに提示することができる。
【0167】
したがって、ユーザは、そのエラー提示を確認することによって、管理者にクライアント−サーバ間の通信の復旧を依頼するというように、通信エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【0168】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力/認識状態判断手段が、上記クライアント装置から送信された音声が上記音声認識サーバに格納された音声認識文法データと一致しているか否かに関する音声認識結果情報を上記音声認識サーバから受信する一方、上記音声入力/認識状態提示手段は、上記音声入力/認識状態判断手段により受信された上記音声認識結果情報に基づき、ユーザの入力音声が音声認識文法データに一致していないことをユーザに提示するものである。
【0169】
上記構成によれば、音声入力/認識状態判断手段により音声認識結果情報が受信され、それに基づき、音声入力/認識状態提示手段によりユーザの入力音声が音声認識文法データに一致していないことがユーザに提示される。
【0170】
したがって、ユーザは、音声入力/認識状態判断手段の提示を確認することによって、自身が入力した音声は音声認識文法データに格納されていない語句に関するものであることを判断できる。よって、ユーザは、上記提示を確認した後に再度の音声入力を行う際には、別の語句を音声入力することができるので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【0171】
さらに、本発明のクライアント装置は、上記構成において、上記音声入力/認識状態提示手段が、発話切出し後の音声データを上記音声認識サーバがサンプリング単位ずつ音声認識した音声認識結果を、部分認識完了単位毎に順次受信してユーザに提示するものである。
【0172】
上記構成によれば、発話切出し後の音声データが部分認識完了単位毎にユーザに順次受信されてユーザに提示されるので、ユーザは、音声入力中においても自己の発声が正確に音声認識されているか否かを判断することができる。したがって、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【0173】
また、以上のように、本発明の音声認識サーバは、発話切出しの進行状況を判断して上記クライアント装置に送信する音声認識状態判断手段を備えているものである。
【0174】
上記構成によれば、音声認識サーバにおける発話切出しの進行状況がクライアント装置に送信されるので、クライアント装置に、発話切出しの進行状況を判断する音声入力/認識状態判断手段と、上記音声入力/認識状態判断手段の判断結果に応じて上記発話切出しの進行状況をユーザに提示する音声入力/認識状態提示手段とを設けることにより、クライアント装置において発話切出しの進行状況をユーザに提示することが可能となる。
【0175】
よって、クライアント装置のユーザは、クライアント装置に提示された発話切出しの進行状況を視認することにより、自己が発した音声が音声認識サーバにおいて音声認識されていることを確認することができる。したがって、自己の発話が確実に音声認識サーバにおいて認識されているか否かの不安をユーザに与えることがないので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【0176】
さらに、本発明の音声認識サーバは、上記構成において、上記音声認識状態判断手段が、発話切出しが終了してから所定時間内にユーザの発話が終了したか否かを判断するとともに、その判断結果を上記クライアント装置に送信するものである。
【0177】
上記構成によれば、音声認識サーバにおいて発話切出しが終了してから所定時間内に発話の終了を検知しなかった場合には、その判断結果を音声認識サーバからクライアント装置側に送信することにより、クライアント装置側の音声入力/認識状態提示手段によりユーザに提示することができる。
【0178】
したがって、ユーザはそのエラー提示を確認することによって、再度音声入力を行う際により静かな場所で発声するというように、音声認識エラーの解決を的確に行うことができるので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【0179】
さらに、本発明の音声認識サーバは、上記構成において、上記クライアント装置から送信されるユーザの入力音声が、記憶手段に格納された音声認識文法データと一致しているか否かに関する音声認識結果情報を上記クライアント装置に送信するものである。
【0180】
上記構成によれば、音声認識サーバから音声認識結果情報をクライアント装置側に送信することにより、クライアント装置の音声入力/認識状態提示手段においてユーザの入力音声が音声認識文法データに一致していないことをユーザに提示することができる。
【0181】
したがって、ユーザは、音声入力/認識状態判断手段の提示を確認することによって、自身が入力した音声は音声認識文法データに格納されていない語句に関するものであることを判断できる。よって、ユーザは、上記提示を確認した後に再度の音声入力を行う際には、別の語句を音声入力することができるので、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【0182】
さらに、本発明の音声認識サーバは、上記構成において、発話切出し後の音声データをサンプリング単位ずつ音声認識するとともに、その音声認識結果を部分認識完了単位毎に順次上記クライアント装置に送信するものである。
【0183】
上記構成によれば、音声認識の結果が部分認識完了単位毎にクライアント装置に送信されるので、クライアント装置においてその音声認識結果をユーザに提示することにより、ユーザは、音声入力中においても自己の発声が正確に音声認識されているか否かを判断することができる。したがって、より利便性のよい分散型音声認識システムを提供することができるという効果を奏する。
【0184】
なお、上記クライアント装置における音声入力/認識状態判断手段および音声入力/認識状態提示手段を、本発明による音声認識プログラムによりコンピュータ上で実行させることができる。また、上記音声認識サーバにおける音声認識状態判断手段を、本発明による音声認識プログラムによりコンピュータ上で実行させることができる。
【0185】
さらに、上記音声認識プログラムをコンピュータ読み取り可能な記録媒体に記憶させることにより、任意のコンピュータ上で上記音声認識プログラムを実行させることができるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の分散型音声認識システムの一実施形態に係る構成を示すブロック図である。
【図2】図1の分散型音声認識システムにおける処理の流れを示すフローチャートである。
【図3】図1の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図4】図1の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図5】図1の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図6】図1の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図7】図1の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図8】図1の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図9】図1の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図10】図1の分散型音声認識システムにおけるクライアント装置により表示される画面の一例を示す図である。
【図11】本発明の分散型音声認識システムの他の実施形態に係る構成を示すブロック図である。
【図12】図11の分散型音声認識システムにおける処理の流れを示すフローチャートである。
【図13】本発明の分散型音声認識システムの他の実施形態における処理の流れを示すフローチャートである。
【図14】図13のフローチャートにおいて音声認識の途中結果を示すために表示される画面の一例を示す図である。
【符号の説明】
1 音声認識クライアント(クライアント装置)
2 音声認識サーバ
5 音声入力/認識状態判断部(音声入力/認識状態判断手段)
6 音声入力/認識状態提示部(音声入力/認識状態提示手段)
13 音声入力状態判断部(音声入力状態判断手段)
14 音声認識状態データ受信部(音声認識状態データ受信手段)
21 記憶部(記憶手段)
22 音声認識状態判断部(音声認識状態判断手段)
24 発話切出部(発話切出し手段)
30 音声認識クライアント(クライアント装置)
31 音声認識サーバ
Claims (18)
- クライアント装置にてユーザが入力した音声を、発話切出しした後に音声認識サーバにおいて音声認識する分散型音声認識システムに用いるクライアント装置であって、
上記発話切出しの進行状況を判断する音声入力/認識状態判断手段と、
上記音声入力/認識状態判断手段の判断結果に応じて、上記発話切出しの進行状況をユーザに提示する音声入力/認識状態提示手段とを備えていることを特徴とするクライアント装置。 - 上記発話切出しを実行する発話切出し手段を備えている一方、
上記音声入力/認識状態判断手段は、上記発話切出し手段による発話切出しの進行状況を検出する音声入力状態判断手段を備えていることを特徴とする請求項1に記載のクライアント装置。 - 上記音声入力/認識状態判断手段は、上記音声認識サーバにおいて実行される発話切出しの進行状況を、音声認識状態データとして受信する音声認識状態データ受信手段を備えていることを特徴とする請求項1に記載のクライアント装置。
- 上記音声入力/認識状態判断手段は、音声入力の受付開始から所定時間内に所定音量レベルを超えるユーザの音声入力があるか否かを判断するとともに、
上記音声入力/認識状態提示手段は、上記音声入力/認識状態判断手段により音声入力の受付開始から所定時間内に所定音量レベルを超えるユーザの音声入力がないと判断された場合に、ユーザの入力音声の音量レベルが小さいことをユーザに提示することを特徴とする請求項1ないし3のいずれか1項に記載のクライアント装置。 - 上記音声入力/認識状態判断手段は、発話切出しが開始してから所定時間内にユーザの発話が終了したか否かを判断するとともに、
上記音声入力/認識状態提示手段は、上記音声入力/認識状態判断手段による上記発話切出しの終了に関する判断結果に基づき、ユーザの発話終了が検知できないことをユーザに提示することを特徴とする請求項1ないし4のいずれか1項に記載のクライアント装置。 - 上記音声入力/認識状態判断手段は、発話切出しが終了してから所定時間内に上記音声認識サーバから上記クライアント装置が音声認識結果を受信したか否かを判断するとともに、
上記音声入力/認識状態提示手段は、上記音声入力/認識状態判断手段による音声認識結果の受信に関する判断結果に基づき、上記クライアント装置と上記音声認識サーバとの間における通信に異常があることをユーザに提示することを特徴とする請求項1ないし5のいずれか1項に記載のクライアント装置。 - 上記音声入力/認識状態判断手段は、上記クライアント装置から送信された音声データが上記音声認識サーバに格納された音声認識文法データと一致しているか否かに関する音声認識結果情報を上記音声認識サーバから受信する一方、
上記音声入力/認識状態提示手段は、上記音声入力/認識状態判断手段により受信された上記音声認識結果情報に基づき、ユーザの入力音声が音声認識文法データに一致していないことをユーザに提示することを特徴とする請求項1ないし6のいずれか1項に記載のクライアント装置。 - 上記音声入力/認識状態提示手段は、発話切出し後の音声データを上記音声認識サーバがサンプリング単位ずつ音声認識した音声認識結果を、部分認識完了単位毎に順次受信してユーザに提示することを特徴とする請求項1ないし7のいずれか1項に記載のクライアント装置。
- クライアント装置にてユーザが入力した音声を、音声認識サーバにおいて発話切出しした後に音声認識する分散型音声認識システムに用いる音声認識サーバであって、
上記発話切出しの進行状況を判断して上記クライアント装置に送信する音声認識状態判断手段を備えていることを特徴とする音声認識サーバ。 - 上記音声認識状態判断手段は、発話切出しが終了してから所定時間内にユーザの発話が終了したか否かを判断するとともに、その判断結果を上記クライアント装置に送信することを特徴とする請求項9に記載の音声認識サーバ。
- 上記クライアント装置から送信されるユーザの入力音声が、記憶手段に格納された音声認識文法データと一致しているか否かに関する音声認識結果情報を上記クライアント装置に送信することを特徴とする請求項9または10に記載の音声認識サーバ。
- 発話切出し後の音声データをサンプリング単位ずつ音声認識するとともに、その音声認識結果を部分認識完了単位毎に順次上記クライアント装置に送信することを特徴とする請求項9ないし11に記載の音声認識サーバ。
- クライアント装置にてユーザが入力した音声を、発話切出しした後に音声認識サーバにおいて音声認識する分散型音声認識システムであって、
上記クライアント装置は、
上記発話切出しの進行状況を判断する音声入力/認識状態判断手段と、
上記音声入力/認識状態判断手段の判断結果に応じて、上記発話切出しの進行状況をユーザに提示する音声入力/認識状態提示手段とを備えていることを特徴とする分散型音声認識システム。 - 上記クライアント装置は、上記発話切出しを実行する発話切出し手段を備えているとともに、
上記クライアント装置の音声入力/認識状態判断手段は、上記発話切出し手段による発話切出しの進行状況を検出する音声入力状態判断手段を備えていることを特徴とする請求項13に記載の分散型音声認識システム。 - 上記音声認識サーバは、上記発話切出しを実行するものであるとともに、その発話切出しの進行状況を判断して上記クライアント装置に送信する音声認識状態判断手段を備えており、
上記クライアント装置の音声入力/認識状態判断手段は、上記音声認識状態判断手段から送信される発話切出しの進行状況を、音声認識状態データとして受信する音声認識状態データ受信手段を備えていることを特徴とする請求項13に記載の分散型音声認識システム。 - コンピュータを請求項1に記載のクライアント装置における音声入力/認識状態判断手段および音声入力/認識状態提示手段として機能させるための音声認識プログラム。
- コンピュータを請求項9に記載の音声認識サーバにおける音声認識状態判断手段として機能させるための音声認識プログラム。
- 請求項16または請求項17に記載の音声認識プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003199375A JP2005037615A (ja) | 2003-07-18 | 2003-07-18 | クライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003199375A JP2005037615A (ja) | 2003-07-18 | 2003-07-18 | クライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005037615A true JP2005037615A (ja) | 2005-02-10 |
Family
ID=34208847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003199375A Pending JP2005037615A (ja) | 2003-07-18 | 2003-07-18 | クライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005037615A (ja) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219122A (ja) * | 2006-02-16 | 2007-08-30 | Kenwood Corp | 音響機器及びプログラム |
JP2007333778A (ja) * | 2006-06-12 | 2007-12-27 | Toshiichi Shinshi | 商品売買システムとそれを実現するためのコンピュータプログラムとその方法 |
JP2008129684A (ja) * | 2006-11-17 | 2008-06-05 | Hitachi Ltd | 電子機器およびそれを用いたシステム |
JP2009210703A (ja) * | 2008-03-03 | 2009-09-17 | Alpine Electronics Inc | 音声認識装置 |
JP2010008854A (ja) * | 2008-06-30 | 2010-01-14 | Toshiba Corp | 音声認識装置及びその方法 |
JP2011209787A (ja) * | 2010-03-29 | 2011-10-20 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
JP2014010449A (ja) * | 2012-06-27 | 2014-01-20 | Samsung Electronics Co Ltd | ディスプレイ装置、ディスプレイ装置の制御方法および対話型システム |
JP2014505270A (ja) * | 2010-12-16 | 2014-02-27 | ネイバー コーポレーション | オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法 |
WO2015156011A1 (ja) * | 2014-04-08 | 2015-10-15 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
JP2015184487A (ja) * | 2014-03-24 | 2015-10-22 | 株式会社東芝 | 音声処理装置および音声処理方法 |
JP2016035614A (ja) * | 2014-08-01 | 2016-03-17 | シャープ株式会社 | 機器、音声出力方法、音声出力プログラム、ネットワークシステム、サーバ、および通信機器 |
WO2017056516A1 (ja) * | 2015-09-30 | 2017-04-06 | シャープ株式会社 | 加熱調理器 |
JP2017204252A (ja) * | 2016-05-14 | 2017-11-16 | 株式会社ユピテル | システム及びプログラム |
CN111862943A (zh) * | 2019-04-30 | 2020-10-30 | 北京地平线机器人技术研发有限公司 | 语音识别方法和装置、电子设备和存储介质 |
-
2003
- 2003-07-18 JP JP2003199375A patent/JP2005037615A/ja active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219122A (ja) * | 2006-02-16 | 2007-08-30 | Kenwood Corp | 音響機器及びプログラム |
JP2007333778A (ja) * | 2006-06-12 | 2007-12-27 | Toshiichi Shinshi | 商品売買システムとそれを実現するためのコンピュータプログラムとその方法 |
JP2008129684A (ja) * | 2006-11-17 | 2008-06-05 | Hitachi Ltd | 電子機器およびそれを用いたシステム |
JP2009210703A (ja) * | 2008-03-03 | 2009-09-17 | Alpine Electronics Inc | 音声認識装置 |
JP2010008854A (ja) * | 2008-06-30 | 2010-01-14 | Toshiba Corp | 音声認識装置及びその方法 |
US8364484B2 (en) | 2008-06-30 | 2013-01-29 | Kabushiki Kaisha Toshiba | Voice recognition apparatus and method |
JP2011209787A (ja) * | 2010-03-29 | 2011-10-20 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
JP2014505270A (ja) * | 2010-12-16 | 2014-02-27 | ネイバー コーポレーション | オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法 |
JP2015179287A (ja) * | 2010-12-16 | 2015-10-08 | ネイバー コーポレーションNAVER Corporation | オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法 |
US9318111B2 (en) | 2010-12-16 | 2016-04-19 | Nhn Corporation | Voice recognition client system for processing online voice recognition, voice recognition server system, and voice recognition method |
JP2014010449A (ja) * | 2012-06-27 | 2014-01-20 | Samsung Electronics Co Ltd | ディスプレイ装置、ディスプレイ装置の制御方法および対話型システム |
JP2015184487A (ja) * | 2014-03-24 | 2015-10-22 | 株式会社東芝 | 音声処理装置および音声処理方法 |
WO2015156011A1 (ja) * | 2014-04-08 | 2015-10-15 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
JP2016035614A (ja) * | 2014-08-01 | 2016-03-17 | シャープ株式会社 | 機器、音声出力方法、音声出力プログラム、ネットワークシステム、サーバ、および通信機器 |
WO2017056516A1 (ja) * | 2015-09-30 | 2017-04-06 | シャープ株式会社 | 加熱調理器 |
JP2017204252A (ja) * | 2016-05-14 | 2017-11-16 | 株式会社ユピテル | システム及びプログラム |
CN111862943A (zh) * | 2019-04-30 | 2020-10-30 | 北京地平线机器人技术研发有限公司 | 语音识别方法和装置、电子设备和存储介质 |
CN111862943B (zh) * | 2019-04-30 | 2023-07-25 | 北京地平线机器人技术研发有限公司 | 语音识别方法和装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102357247B1 (ko) | 강화된 스피치 엔드포인팅 | |
EP2261893B1 (en) | Audio playback for text edition in a speech recognition system | |
US8254534B2 (en) | Method and apparatus for automatic telephone menu navigation | |
JP6024675B2 (ja) | 音声認識端末装置、音声認識システム、音声認識方法 | |
US7881938B2 (en) | Speech bookmarks in a voice user interface using a speech recognition engine and acoustically generated baseforms | |
JP2005037615A (ja) | クライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体 | |
US20200075028A1 (en) | Speaker recognition and speaker change detection | |
US8428944B2 (en) | System and method for performing compensated speech recognition | |
JP2018124425A (ja) | 音声対話装置及び音声対話方法 | |
JP2006154724A (ja) | 対話システム、対話方法、及びコンピュータプログラム | |
WO2007019476A1 (en) | Selective confirmation for execution of a voice activated user interface | |
JP4667085B2 (ja) | 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法 | |
JP2008256802A (ja) | 音声認識装置および音声認識方法 | |
US7865364B2 (en) | Avoiding repeated misunderstandings in spoken dialog system | |
US10535337B2 (en) | Method for correcting false recognition contained in recognition result of speech of user | |
JP2019090942A (ja) | 情報処理装置、情報処理システム、情報処理方法、および情報処理プログラム | |
US7983921B2 (en) | Information processing apparatus for speech recognition with user guidance, method and program | |
US7328159B2 (en) | Interactive speech recognition apparatus and method with conditioned voice prompts | |
JP3926242B2 (ja) | 音声対話システム、音声対話のためのプログラムおよび音声対話方法 | |
EP1899955B1 (en) | Speech dialog method and system | |
JP2010183372A (ja) | 音声自動応答装置、音声自動応答方法および音声自動応答プログラム | |
JP4951422B2 (ja) | 音声認識装置、および音声認識方法 | |
JP4292846B2 (ja) | 音声対話装置及び音声対話代行装置並びにそれらのプログラム | |
JP2007183516A (ja) | 音声対話装置及び音声認識方法 | |
US20200168221A1 (en) | Voice recognition apparatus and method of voice recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060801 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061128 |