WO2014129033A1

WO2014129033A1 - 音声認識システムおよび音声認識装置

Info

Publication number: WO2014129033A1
Application number: PCT/JP2013/081288
Authority: WO
Inventors: 勇小川; 利行花沢; 知宏成田
Original assignee: 三菱電機株式会社
Priority date: 2013-02-25
Filing date: 2013-11-20
Publication date: 2014-08-28
Also published as: CN105027198A; CN105027198B; JPWO2014129033A1; JP5921756B2; US20160275950A1; US9761228B2; DE112013006728B4; DE112013006728T5

Abstract

　受信部２０４が受信した複数のサーバ側音声認識結果候補を比較し、差異のあるテキストを検出する認識結果候補比較部２０５と、クライアント側音声認識結果候補、サーバ側音声認識結果候補および認識結果候補比較部２０５の検出結果に基づいて、クライアント側音声認識結果候補とサーバ側音声認識結果候補とを統合し、音声認識結果を確定する認識結果統合部２０６とを備える。

Description

音声認識システムおよび音声認識装置

　この発明は、サーバ側とクライアント側で音声認識を行う音声認識システム、および当該音声認識システムにおけるクライアント側の音声認識装置における音声認識精度向上のための技術に関するものである。

　従来、音声データの音声認識性能を向上させるために、サーバ側とクライアント側で音声認識を行う音声認識システムがある。
　例えば、特許文献１の音声認識装置では、初めにクライアント側で音声認識を行い、クライアント側の音声認識結果の精度を示す認識スコアが悪いと判定した場合に、サーバ側で音声認識を行い、サーバ側の音声認識結果を採用する方法が提案されている。また、クライアント側の音声認識とサーバ側の音声認識を同時並列的に行い、クライアント側の音声認識結果の認識スコアとサーバ側の音声認識結果の認識スコアを比較し、認識スコアがより良好な音声認識結果を採用する方法も提案されている。

　また、特許文献２の音声認識システムでは、サーバ側が音声認識結果に加えて品詞情報（一般名詞、助詞など）を送信し、クライアント側が受信した品詞情報を用いて、例えば一般名詞を固有名詞に置き換えるなどの認識結果の修正を行う方法が提案されている。

特開２００９－２３７４３９号公報特開２０１０－８５５３６号公報

　しかしながら、上述した特許文献１に開示された技術では、初めにクライアント側で音声認識を行った後サーバ側で音声認識を行うため、クライアント側の音声認識結果を取得するまでの遅延時間と、サーバ側の音声認識結果を取得するまでの遅延時間を加算した時間が応答時間となり、音声を入力してから結果を取得するまでの遅延時間が増大するという課題があった。
　また、クライアント側とサーバ側の認識スコアを比較してより良好な認識スコアを採用するため、サーバ側が認識スコアを送信しない場合、あるいはサーバ側が送信する認識スコアの算出方法が不明な場合（例えば自社でクライアント側の音声認識のみを開発して他社の音声認識サーバを利用する場合）に、クライアント側の認識スコアを正確に比較することができず、高精度な音声認識結果の選択ができないという課題があった。

　また、特許文献２に開示された技術では、サーバ側が送信した音声認識結果と品詞情報を用いて、クライアント側が音声認識結果の修正を行うため、サーバ側が品詞情報を送信しない場合に精度よく音声認識結果を選択することができないという課題があった。

　この発明は、上記のような課題を解決するためになされたもので、音声を入力してから音声認識結果を取得するまでの遅延時間を抑制し、且つサーバ側が送信する認識スコアや品詞情報など音声認識結果以外の情報が利用できない場合においても、精度よく音声認識結果を選択することを目的とする。

　この発明に係る音声認識システムは、音声認識装置から入力される音声データを受信するサーバ側受信部と、サーバ側受信部が受信した音声データの音声認識を行い、サーバ側音声認識結果候補を生成するサーバ側音声認識部と、サーバ側音声認識部が生成したサーバ側音声認識結果候補を音声認識装置に送信するサーバ側送信部とを備えたサーバ装置と、入力された発話音声を音声データに変換する音声入力部と、音声入力部が変換した音声データの音声認識を行い、クライアント側音声認識結果候補を生成するクライアント側音声認識部と、音声入力部が変換した音声データをサーバ装置に送信するクライアント側送信部と、サーバ側送信部が送信したサーバ側音声認識結果候補を受信するクライアント側受信部と、クライアント側受信部が受信した複数のサーバ側音声認識結果候補を比較し、差異のあるテキストを検出する認識結果候補比較部と、クライアント側音声認識結果候補、サーバ側音声認識結果候補および認識結果候補比較部の検出結果に基づいて、クライアント側音声認識結果候補とサーバ側音声認識結果候補とを統合し、音声認識結果を確定する認識結果統合部と、認識結果統合部が確定した音声認識結果を出力する出力部とを備えた音声認識装置とを備えるものである。

　この発明によれば、音声を入力してから音声認識結果を取得するまでの遅延時間を抑制し、精度よく音声認識結果を選択することができる。

実施の形態１による音声認識システムの構成を示すブロック図である。実施の形態１による音声認識システムの動作を示すフローチャートである。実施の形態１による音声認識システムの音声認識結果の生成例を示す図である。実施の形態２による音声認識システムの構成を示すブロック図である。実施の形態２による音声認識システムの動作を示すフローチャートである。実施の形態２による音声認識システムの音声認識結果の生成例を示す図である。実施の形態２による音声認識システムの発話規則のパターン格納例を示す図である。実施の形態３による音声認識システムの構成を示すブロック図である。実施の形態３による音声認識システムの第１および第３の動作を示すフローチャートである。実施の形態３による音声認識システムの入力音声／認識結果記憶部の蓄積例を示す図である。実施の形態３による音声認識システムの第２の動作を示すフローチャートである。実施の形態３による音声認識システムの修正用データベースを示す図である。実施の形態４による音声認識システムの動作を示すフローチャートである。実施の形態４による音声認識システムの音声認識結果の生成例を示す図である。実施の形態４による音声認識システムの発話規則のパターン格納例を示す図である。実施の形態５による音声認識システムの音声認識結果の生成例を示す図である。実施の形態６による音声認識システムの音声認識結果の生成例を示す図である。実施の形態６の音声認識システムの発話規則のパターン格納例を示す図である。実施の形態７による音声認識システムの入力音声／認識結果記憶部の蓄積例を示す図である。実施の形態７の音声認識システムの音声認識装置の修正用データベースの一例を示す図である。実施の形態８による音声認識システムの音声認識結果の生成例を示す図である。実施の形態８による音声認識システムの発話規則のパターン格納例を示す図である。

　以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
　図１は、この発明の実施の形態１による音声認識システムの構成を示すブロック図である。
　音声認識システムは、音声認識サーバ（サーバ装置）１００および音声認識装置２００によって構成する。
　音声認識サーバ１００は、受信部（サーバ側受信部）１０１、サーバ側音声認識部１０２および送信部（サーバ側送信部）１０３を備え、音声認識装置２００から受信した音声データを音声認識して音声認識結果を音声認識装置２００へ送信する機能を備える。受信部１０１は、音声認識装置２００から音声データを受信する。サーバ側音声認識部１０２は、受信部１０１が受信した音声データを音声認識してサーバ側音声認識結果候補を生成する。送信部１０３は、サーバ側音声認識部１０２が生成したサーバ側音声認識結果候補を音声認識装置２００へ送信する。

　音声認識装置２００は、音声入力部２０１、クライアント側音声認識部２０２、送信部（クライアント側送信部）２０３、受信部（クライアント側受信部）２０４、認識結果候補比較部２０５、認識結果統合部２０６および出力部２０７を備え、マイクなどを介して入力された音声データを音声認識して音声認識結果を出力する機能を備える。音声入力部２０１は、マイクなどを介して入力された利用者の発話音声をデータ信号である音声データに変換する。クライアント側音声認識部２０２は、音声入力部２０１が変換した音声データを音声認識してクライアント側音声認識結果候補を生成する。送信部２０３は、音声入力部２０１から入力された音声データを音声認識サーバ１００へ送信する。受信部２０４は、音声認識サーバ１００から送信されたサーバ側音声認識結果候補を受信する。

　認識結果候補比較部２０５は、受信部２０４を介して音声認識サーバ１００から送信された複数のサーバ側音声認識結果候補に含まれるテキスト情報を比較し、差異のある部分テキストを検出する。認識結果統合部２０６は、クライアント側音声認識部２０２が生成したクライアント側音声認識結果候補、受信部２０４が受信したサーバ側音声認識結果候補および認識結果候補比較部２０５の検出結果に基づいて音声認識結果候補の統合を行い、音声認識結果を確定する。出力部２０７は、認識結果統合部２０６が確定した音声認識結果をモニタやスピーカなどの出力装置に出力する。

　次に、実施の形態１の音声認識システムの動作について、図２および図３を参照しながら説明する。
　図２はこの発明の実施の形態１による音声認識システムの動作を示すフローチャートであり、図３はこの発明の実施の形態１による音声認識システムの音声認識結果の生成例を示す図である。
　利用者が発話した音声が入力されると（ステップＳＴ１）、音声認識装置２００の音声入力部２０１は入力された音声を音声データに変換し、変換した音声データをクライアント側音声認識部２０２および送信部２０３に出力する(ステップＳＴ２)。送信部２０３は、ステップＳＴ２で入力された音声データを音声認識サーバ１００へ送信する(ステップＳＴ３)。

　音声認識サーバ１００では、受信部１０１がステップＳＴ３で送信された音声データを受信し、受信した音声データをサーバ側音声認識部１０２に出力する（ステップＳＴ４）。サーバ側音声認識部１０２は、ステップＳＴ４で入力された音声データに対して音声認識を行い、サーバ側音声認識結果候補を生成する（ステップＳＴ５）。送信部１０３は、ステップＳＴ５で生成されたサーバ側音声認識結果候補のテキスト情報を音声認識装置２００へ送信する（ステップＳＴ６）。
　例えば、サーバ側音声認識部１０２が任意の文章を認識対象とし、音声認識装置２００から受信した音声データ「目的地、大船時計専門店に設定する」に対して音声認識を行い、図３に示すサーバ側音声認識結果候補３０１である「目的地を大船渡軽専門店に設定する」およびサーバ側音声認識結果候補３０２である「目的地を豊富な時計専門店に設定する」を含むサーバ側音声認識結果候補リスト３０３を取得する。送信部１０３は、サーバ側音声認識結果候補リスト３０３を音声認識装置２００側に送信する。

　一方、音声認識装置２００では、クライアント側音声認識部２０２がステップＳＴ２で入力された音声データに対して音声認識を行ってクライアント側音声認識結果候補を生成し、得られたクライアント側音声認識結果候補のテキスト情報を認識結果統合部２０６に出力する（ステップＳＴ７）。
　例えば、クライアント側音声認識部２０２が音声操作用コマンドと現地付近の地名情報のみを認識対象とし、利用者が「目的地、大船時計専門店に設定する」と音声入力した場合に、クライアント側音声認識部２０２は音声操作コマンドの「目的地」および現在地付近の地名情報である「大船時計専門店」を認識し、図３に示すクライアント側音声認識結果候補３０４である「目的地、大船時計専門店」を含むクライアント側音声認識結果候補リスト３０５を取得する。なお、図３の例ではクライアント側音声認識結果候補リスト３０５は、１つのクライアント側音声認識結果候補３０４のみで構成されている。

　また、音声認識装置２００の受信部２０４は、ステップＳＴ６で音声認識サーバ１００から送信されたサーバ側音声認識結果候補を受信すると、受信したサーバ側音声認識結果候補を認識結果候補比較部２０５および認識結果統合部２０６へ出力する(ステップＳＴ８)。認識結果候補比較部２０５は、ステップＳＴ８で入力されたサーバ側音声認識結果候補が複数の音声認識結果候補を含むか否か判定を行う（ステップＳＴ９）。

　複数の音声認識結果候補を含む場合（ステップＳＴ９；ＹＥＳ）、さらに認識結果候補比較部２０５は各音声認識結果候補のテキスト同士を比較して差異のある部分テキストを検出する（ステップＳＴ１０）。認識結果候補比較部２０５は、差異のある部分テキストを検出したか否か判定を行い（ステップＳＴ１１）、差異のある部分テキストが検出された場合（ステップＳＴ１１；ＹＥＳ）、差異のある部分テキストを検出結果として認識結果統合部２０６に出力する（ステップＳＴ１２）。
　例えば、図３の例ではサーバ側音声認識結果候補リスト３０３に２つのサーバ側音声認識結果候補３０１，３０２が含まれ、それぞれのテキスト情報である「目的地を大船渡軽専門店に設定する」と「目的地を豊富な時計専門店に設定する」を比較して先頭テキスト「目的地を」と末尾テキスト「専門店に設定する」に囲まれた部分を差異のある部分テキストとして検出する。具体的には、サーバ側音声認識結果候補３０１の「大船渡軽」およびサーバ側音声認識結果候補３０２の「豊富な時計」を差異のある部分テキストとして検出する。

　一方、複数の音声認識結果候補を含まない場合（ステップＳＴ９；ＮＯ）、および差異のある部分テキストが検出されなかった場合（ステップＳＴ１１；ＮＯ）、差異の不検出を検出結果として認識結果統合部２０６に出力する（ステップＳＴ１３）。
　例えば、図３の例において、サーバ側音声認識結果候補リスト３０３にサーバ側音声認識結果候補３０１のみ含まれる場合には、差異のある部分テキストは検出しない。

　認識結果統合部２０６は、ステップＳＴ１２またはステップＳＴ１３で入力された検出結果を参照し、差異のある部分テキストが存在するか否か判定を行う（ステップＳＴ１４）。差異のある部分テキストが存在する場合（ステップＳＴ１４；ＹＥＳ）、認識結果統合部２０６は差異のある部分テキストのテキスト情報を、ステップＳＴ７で生成されたクライアント側音声認識結果候補のテキスト情報で置き換え、音声認識結果とする（ステップＳＴ１５）。その後、当該音声認識結果を出力部２０７に出力する（ステップＳＴ１６）。

　例えば、図３の例では、サーバ側音声認識結果候補３０１の中で先頭テキスト「目的地を」と末尾テキスト「専門店に設定する」に囲まれた部分テキスト「大船渡軽」および「豊富な時計」を差異のある部分テキストとして検出した場合に、クライアント側音声認識結果候補３０４の中に「目的地を」と「専門店に設定する」に一致する部分テキストが存在するか検索を行う。図３の例ではどちらの部分テキストも含まれない。この場合、検索する部分テキストをそれぞれ「目的地」および「専門店」のように一部を短縮し、短縮した部分テキストを用いて再検索を行う。図３の例では、再検索の結果「目的地」と「専門店」に囲まれた「、大船時計」が検索される。その後、サーバ側音声認識結果候補３０１の「目的地」と「専門店」に囲まれた「を大船渡軽」を検索された「、大船時計」に置き換え、音声認識結果３０６「目的地、大船時計専門店に設定する」を得る。

　一方、差異のある部分テキストが存在しないと判定した場合（ステップＳＴ１４；ＮＯ）、認識結果統合部２０６はステップＳＴ８で受信部２０４が受信したサーバ側音声認識結果候補を音声認識結果とし（ステップＳＴ１７）、当該音声認識結果を出力部２０７に出力する（ステップＳＴ１６）。なお、この発明の音声認識システムでは、上述した処理を常時繰り返し行うものとする。

　以上のように、この実施の形態１によれば、音声認識サーバ１００から複数のサーバ側音声認識結果候補を取得した場合に、当該サーバ側音声認識結果候補のテキスト同士を比較して差異のある部分テキストを検出し、検出した差異のある部分テキストを音声認識装置２００が生成したクライアント側音声認識結果候補の部分テキストと置き換え、最終的な音声認識結果とするように構成したので、音声認識結果の精度を示す数値（認識スコア）の算出方法が不明な音声認識サーバを使用する場合であっても、認識スコアを使用することなく、サーバ側とクライアント側の音声認識結果候補を統合してより正確な音声認識結果を出力することができる。

　また、この実施の形態１によれば、複雑な構文解析処理や認識スコアの再計算を行うことなく、サーバ側音声認識結果候補のテキスト同士を比較して差異のある部分テキストを検出する認識結果候補比較部２０５と、差異のある部分テキストを置き換える認識結果統合部２０６とを備えるように構成したので、ＣＰＵの処理負荷を抑制しつつ音声認識装置の機能を実現することができる。

　また、この実施の形態１によれば、音声認識装置２００において、クライアント側音声認識部２０２に音声データを入力すると同時に音声認識サーバ１００へ音声データを送信するように構成したので、音声認識装置２００においてクライアント側音声認識結果候補を取得した後に、音声認識サーバ１００に音声データを送信する方法と比較して、音声認識サーバ１００から音声認識結果を早く取得することができ、音声認識結果を確定出力するまでの遅延時間を短縮することができる。

　なお、上述した実施の形態１では、音声認識サーバ１００から複数のサーバ側音声認識結果候補を取得した場合に、サーバ側音声認識結果候補のテキスト同士を比較して差異のある部分テキストを検出し、差異の有無を判定基準として部分テキストの置き換えを行うように構成したが、差異のあるサーバ側音声認識結果候補の数および差異の種類を判定基準としてもよい。
　例えば、サーバ側音声認識結果候補として３つの候補が存在し、差異のある部分テキストが３つとも異なる場合は信頼度１／３と判定し、差異のある部分テキストが１つの候補のみ異なる場合は信頼度２／３と判定する。判定した信頼度が１／３以下の部分テキストのみ、クライアント側音声認識部２０２のクライアント側音声認識結果候補のテキストと置き換えるように構成する。
　これにより、音声認識の精度を向上させることができ、より正確な音声認識結果を得ることができる。

　また、上述した実施の形態１では、複数のサーバ側音声認識結果候補を取得した場合に、サーバ側音声認識結果候補のテキスト同士を比較して差異のある１箇所の部分テキストのみを検出する構成を示したが、差異のある部分テキストが複数個所に存在する場合にはサーバ側音声認識結果候補全体の信頼性が低いと判断し、利用者に対して音声の再入力を要求するように構成してもよい。
　これにより、誤った音声認識結果が出力されるのを抑制することができる。

　また、上述した実施の形態１では、音声認識サーバ１００から複数のサーバ側音声認識結果候補を取得した場合に、サーバ側音声認識結果候補のテキストに差異のある部分をクライアント側音声認識結果候補のテキストと置き換える構成を示したが、クライアント側音声認識部２０２が認識スコアを算出する構成とし、算出した認識スコアがあらかじめ設定したしきい値以上であった場合のみテキストの置き換えを行うようにしてもよい。
　これにより、音声認識の精度を向上させることができ、より正確な音声認識結果を出力することができる。

実施の形態２．
　上述した実施の形態１では、サーバ側音声認識結果候補のテキスト同士を比較して差異のある部分テキストをクライアント側音声認識結果候補で置換する構成を示したが、この実施の形態２では差異のある部分テキストを基準としてサーバ側音声認識結果候補のテキストを分割し、分割したテキストとクライアント側音声認識結果候補に基づくデータとを結合する構成を示す。

　図４は、この発明の実施の形態２の音声認識システムの構成を示すブロック図である。この実施の形態２の音声認識システムにおいても音声認識サーバ１００および音声認識装置２００´によって構成する。実施の形態２の音声認識装置２００´は、図１で示した音声認識装置２００に入力規則判定部２１１および入力規則蓄積部２１２を追加して設けている。以下では、実施の形態１による音声認識システムの構成要素と同一または相当する部分には、図１で使用した符号と同一の符号を付して説明を省略または簡略化する。

　入力規則判定部２１１は、クライアント側音声認識部２０２が生成したクライアント側音声認識結果候補からキーワードを抽出して入力音声の発話規則を判定する。入力規則蓄積部２１２は、入力音声の発話規則のパターンを格納したデータベースである。認識結果統合部２０６´は、クライアント側音声認識部２０２が生成したクライアント側音声認識結果候補、受信部２０４が受信したサーバ側音声認識結果候補、認識結果候補比較部２０５の検出結果、および入力規則判定部２１１が判定した発話規則に基づいて音声認識結果候補を統合し、音声認識結果を確定する。

　次に、実施の形態１の音声認識システムの動作について、図５から図７を参照しながら説明する。
　図５はこの発明の実施の形態２による音声認識システムの動作を示すフローチャートであり、図６は実施の形態２による音声認識システムの音声認識結果の生成例を示す図であり、図７は実施の形態２の音声認識システムの発話規則のパターン格納例を示す図である。なお、図５のフローチャートでは、実施の形態１に係る音声認識システムと同一のステップには図２で使用した符号と同一の符号を付し、説明を省略または簡略化する。

　まず、実施の形態１と同様に、音声認識装置２００´がステップＳＴ１、ＳＴ２およびＳＴ７の処理を行い、入力された音声データに対して音声認識を行う。
　例えば、クライアント側音声認識部２０２が音声操作コマンドのみを認識対象とする場合、図６に示す例では利用者が入力した音声データ「メール、渋滞で到着が遅れます。」に対して、音声認識を行い１つのクライアント側音声認識結果候補４０４「メール」を取得する。図６の例では、クライアント側音声認識結果リスト４０５は、１つのクライアント側音声認識結果候補４０４で構成される。取得されたクライアント側音声認識結果候補は、認識結果統合部２０６´および入力規則判定部２１１に出力される。

　次に、入力規則判定部２１１は、クライアント側音声認識部２０２から入力されたクライアント側音声認識結果候補と、入力規則蓄積部２１２に格納された発話規則のパターンを参照して音声操作コマンドの照合を行い、ステップＳＴ１で入力された音声データの発話規則を判定する（ステップＳＴ２１）。
　図７に示すように、入力規則蓄積部２１２に格納された発話規則のパターン５００は、音声操作コマンド５０１および入力音声の発話規則５０２で構成され、例えば音声操作コマンド５０１が「メール」であった場合に、入力音声の発話規則５０２として「コマンド（メール）＋自由文」が得られることを示している。
　図６に示すようにクライアント側音声認識結果候補４０４が「メール」であった場合に、入力規則判定部２１１は一致する音声操作コマンド５０１である「メール」に対応した入力音声の発話規則５０２である「コマンド＋自由文」を取得する。取得した入力音声の発話規則は、認識結果統合部２０６´に出力される。

　一方、音声認識サーバ１００は、ステップＳＴ４からステップＳＴ６と同一の処理を行い、得られたサーバ側音声認識結果候補を音声認識装置２００´に対して送信する。
　例えば、サーバ側音声認識部１０２が任意の文章を認識対象とする場合、受信した音声データ「メール、渋滞で到着が遅れます。」に対して音声認識を行い、サーバ側音声認識結果候補４０１「滅入る、渋滞で到着が遅れます」およびサーバ側音声認識結果候補４０２「見える、渋滞で到着が遅れます」を取得する。サーバ側音声認識結果候補リスト４０３として、取得された２つのサーバ側音声認識結果候補４０１，４０２が音声認識装置２００´に出力される。

　次に音声認識装置２００´では、ステップＳＴ８からステップＳＴ１３の処理を行う。ステップＳＴ１０の差異のある部分テキストの検出では、図６を例に説明すると、サーバ側音声認識結果候補リスト４０３のサーバ側音声認識結果候補４０１「滅入る、渋滞で到着が遅れます」およびサーバ側音声認識結果候補４０２「見える、渋滞で到着が遅れます」を比較し、差異のある部分テキストとして「滅入る」と「見える」を検出する。検出結果は、認識結果統合部２０６´に出力される。

　認識結果統合部２０６´は、ステップＳＴ７でクライアント側音声認識部２０２が生成したクライアント側音声認識結果候補、ステップＳＴ２１で入力規則判定部２１１が判定した発話規則、ステップＳＴ８で受信部２０４が受信したサーバ側音声認識結果候補、およびステップＳＴ１２またはステップＳＴ１３で認識結果候補比較部２０５から入力された差異の検出結果から、サーバ側音声認識結果候補のテキスト分割が必要であるか否か判定を行う（ステップＳＴ２２）。
　図６および図７の例では、クライアント側音声認識部２０２のクライアント側音声認識結果候補４０４「メール」が入力され、受信部２０４からサーバ側音声認識結果候補４０１，４０２で構成されるサーバ側音声認識結果候補リスト４０３が入力された場合、サーバ側音声認識結果候補４０１，４０２のテキストに「メール」が含まれておらず、入力規則判定部２１１から入力された発話規則が「コマンド＋自由文」であり、認識結果候補比較部２０５から差異を検出したことを示す検出結果が入力されるため、テキストの分割が必要であると判定する。

　サーバ側音声認識結果候補のテキスト分割が必要な場合（ステップＳＴ２２；ＹＥＳ）、認識結果統合部２０６´は受信部２０４が受信したサーバ側音声認識結果候補のテキストに対して、差異のある部分テキストを基準としてテキストの分割を行う（ステップＳＴ２３）。
　図６に示す例では、サーバ側音声認識結果候補４０１のテキストに対して「滅入る」を差異のある部分テキストとして検出しているため、「滅入る」と「渋滞で到着が遅れます」の２つにテキストを分割する。

　次に、認識結果統合部２０６´は、入力規則判定部２１１から入力された発話規則に基づいて、ステップＳＴ２３で分割したテキストと、クライアント側音声認識結果候補に対応した音声操作コマンドを結合して音声認識結果として、出力部２０７に出力する。(ステップＳＴ２４)。
　図６に示す例では、発話規則の「コマンド＋自由文」に基づいて、音声操作コマンド「メール」と自由文に対応する分割したテキスト「渋滞で到着が遅れます」を結合した「メール、渋滞で到着が遅れます」を音声認識結果とする。

　一方、サーバ側音声認識結果候補のテキスト分割が必要でない場合（ステップＳＴ２２；ＮＯ）、認識結果統合部２０６´はステップＳＴ８で受信したサーバ側音声認識結果候補を音声認識結果とし（ステップＳＴ２５）、当該音声認識結果を出力部２０７に出力する（ステップＳＴ１６）。
　なお、認識結果統合部２０６´は、クライアント側音声認識部２０２から入力されたクライアント側音声認識結果候補のテキストが、受信部２０４が受信したサーバ側音声認識結果候補に含まれる場合には、テキストの分割が不要であると判定する。
　また、入力規則判定部２１１から入力された発話規則が「コマンドのみ」である場合には、テキストの分割が不要であると判定する。
　さらに、認識結果候補比較部２０５から入力された検出結果が、差異を検出しなかったことを示している場合には、テキストの分割が不要であると判定する。

　以上のように、この実施の形態２によれば、音声認識サーバ１００から複数のサーバ側音声認識結果候補を取得した場合に、当該サーバ側音声認識結果候補のテキスト同士を比較して差異のある部分テキストを検出し、差異のある部分テキストを基準にテキストを分割し、発話規則に基づいて分割したテキストとクライアント側音声認識結果候補のテキストを結合するように構成したので、音声認識結果の精度を示す数値（認識スコア）の算出方法が不明な音声認識サーバを使用する場合であっても、認識スコアを使用することなく、サーバ側とクライアント側の音声認識結果候補を統合してより正確な音声認識結果を出力することができる。

　また、この実施の形態２によれば、差異のある部分テキストを基準にテキストを分割し、分割したテキストとクライアント側音声認識結果候補のテキストを結合するように構成したので、音声認識サーバが音声操作コマンドを高精度に認識できない場合であっても、音声操作コマンドに該当する部分のテキストを使用せずに文章の部分テキストのみを使用することが可能となり、より正確な音声認識結果を出力することができる。

　また、この実施の形態２によれば、複雑な構文解析処理や認識スコアの再計算を行うことなく、サーバ側音声認識結果候補のテキスト同士を比較して差異のある部分テキストを検出する認識結果候補比較部２０５と、差異のある部分テキストを基準にテキストを分割し、クライアント側音声認識結果候補のテキストを結合する認識結果統合部２０６´を備えるように構成したので、ＣＰＵの処理負荷を抑制しつつ音声認識装置の機能を実現することができる。

　また、この実施の形態２によれば、認識結果のテキストを比較して信頼度の低い箇所を検出することで複雑な構文解析を行わずに演算量を抑制するように構成したので、演算性能の低いＣＰＵを使用して音声認識装置２００´の機能を実現することができる。

　また、この発明の実施の形態２によれば、音声認識装置２００´において、クライアント側音声認識部２０２に音声データを入力すると同時に音声認識サーバ１００へ音声データを送信するように構成したので、音声認識装置２００´においてクライアント側音声認識結果候補を取得した後に、音声認識サーバ１００に音声データを送信する方法と比較して、音声認識サーバ１００から音声認識結果を早く取得することができ、音声認識結果を確定出力するまでの遅延時間を短縮することができる。

　なお、上述した実施の形態２では、発話規則のパターンとして「コマンドのみ」、「コマンド＋自由文」および「コマンド＋地名」を例に挙げたが、発話規則として音声操作コマンドの位置を発話の先頭あるいは末尾のみに限定してもよい。
　この場合、サーバ側音声認識結果候補の先頭あるいは末尾以外の部分で差異が生じた場合には、音声操作コマンド以外の部分で認識誤りが発生したと判断し、利用者に対して音声の再入力を要求することも可能となる。これにより、誤った音声認識結果が出力されるのを抑制することができる。

　なお、上述した実施の形態２では、音声認識装置２００´内に入力規則蓄積部２１２を設ける構成を示したが、外部で蓄積された発話規則のパターンを取得するように構成してもよい。

実施の形態３．
　上述した実施の形態２では、サーバ側音声認識結果候補のテキスト同士を比較して差異のある部分テキストを基準としてサーバ側音声認識結果候補のテキストを分割する構成を示したが、この実施の形態３ではサーバ側音声認識結果候補の変化を検出して常にテキストの分割を行う構成を示す。

　図８は、この発明の実施の形態３の音声認識システムの構成を示すブロック図である。
　この実施の形態３の音声認識システムにおいても音声認識サーバ１００および音声認識装置２００´´によって構成する。実施の形態３の音声認識装置２００´´は、図２で示した音声認識装置２００´に認識結果候補修正部２２１および入力音声／認識結果記憶部２２２を追加して設けると共に、認識結果候補比較部２０５を削除している。以下では、実施の形態１および実施の形態２による音声認識システムの構成要素と同一または相当する部分には、図１または図４で使用した符号と同一の符号を付して説明を省略または簡略化する。

　認識結果候補修正部２２１は、音声認識装置２００´´の起動時に音声認識サーバ１００へ自動で音声データを送信し、音声認識サーバ１００から受信した音声認識結果に基づいて、音声操作コマンドの修正用データベース２２１ａを作成する。入力音声／認識結果記憶部２２２は、音声入力部２０１が変換した音声データと、認識結果統合部２０６´´が生成した音声認識結果を対応付けて蓄積するバッファである。認識結果統合部２０６´´は、認識結果候補修正部２２１が作成した修正用データベース２２１ａを用いてサーバ側音声認識結果候補とクライアント側音声認識結果候補の統合を行う。

　次に、実施の形態３の音声認識システムの動作について説明する。なお、以下では、第１の動作として入力音声／認識結果記憶部２２２にデータが蓄積されていない状態で音声入力が行われた場合の動作、第２の動作として音声認識装置２００´´起動時に修正用データベース２２１ａを作成する動作、および第３の動作として入力音声／認識結果記憶部２２２にデータが蓄積され、修正用データベース２２１ａが作成された状態で音声入力が行われた場合の動作の３つに分けて説明を行う。
　なお以下では、実施の形態１または実施の形態２に係る音声認識システムと同一のステップには図２または図５で使用した符号と同一の符号を付し、説明を省略または簡略化する。

＜第１の動作＞
　まず、第１の動作について、図９、図１０および実施の形態２の図６を参照しながら説明する。
　図９はこの発明の実施の形態３の音声認識システムの第１および第３の動作を示すフローチャートであり、図１０は入力音声／認識結果記憶部の蓄積例を示す図である。
　利用者が発話した音声が入力されると（ステップＳＴ１）、音声認識装置２００´´の音声入力部２０１は入力された発話音声を音声データに変換し、変換した音声データをクライアント側音声認識部２０２、送信部２０３および入力音声／認識結果記憶部２２２に出力する(ステップＳＴ２´)。入力音声／認識結果記憶部２２２は、ステップＳＴ２´で入力された音声データを、例えば図１０に示す形式で「音声データ（１）」として蓄積する（ステップＳＴ３１）。
　図１０の例では、音声操作コマンド６０１と音声データ６０２とを対応付けて、入力音声情報６００を構成している。

　続いて、音声認識サーバ１００および音声認識装置２００´´は、実施の形態２と同様にステップＳＴ３からステップＳＴ７およびステップＳＴ２１と同様の処理を行う。音声認識装置２００の受信部２０４は、ステップＳＴ６で音声認識サーバ１００から送信されたサーバ側音声認識結果候補を受信し、受信したサーバ側音声認識結果候補を認識結果候補修正部２２１および認識結果統合部２０６´´へ出力する（ステップＳＴ８´）。

　次に、認識結果候補修正部２２１は、ステップＳＴ８´で入力されたサーバ側音声認識結果候補のテキストを修正用データベース２２１ａと照合する（ステップＳＴ３２）。この第１の動作では、入力音声／認識結果記憶部２２２にデータが蓄積されていないため、修正用データベース２２１ａが作成されていない。そのため、認識結果候補修正部２２１は、修正候補がないとの照合結果を認識結果統合部２０６´´に出力する（ステップＳＴ３３）。

　認識結果統合部２０６´´は、ステップＳＴ７でクライアント側音声認識部２０２が生成したクライアント側音声認識結果候補、ステップＳＴ２１で入力規則判定部２１１が判定した発話規則、ステップＳＴ８´で受信部２０４が受信したサーバ側音声認識結果候補、およびステップＳＴ３３で認識結果候補修正部２２１が取得した照合結果から、サーバ側音声認識結果候補のテキスト分割が可能であるか否か判定する（ステップＳＴ３４）。

　例えば、クライアント側音声認識部２０２のクライアント側音声認識結果候補として図６に示すクライアント側音声認識結果候補４０４「メール」が入力され、受信部２０４から図６に示すサーバ側音声認識結果リスト４０３が入力された場合には、当該サーバ側音声認識結果リスト４０３に含まれるサーバ側音声認識結果候補４０１，４０２のテキストに「メール」が含まれていない。また、入力規則判定部２１１から入力された発話規則が「コマンド＋自由文」であり、認識結果候補修正部２２１から修正候補がないとの照合結果が入力される。これにより、認識結果統合部２０６´´はテキストの分割が不可能であると判定する。
　一方、クライアント側音声認識部２０２から入力されたクライアント側音声認識結果候補のテキストが、受信部２０４から入力されたサーバ側音声認識結果候補に含まれる場合には、テキストの分割が可能であると判定する。

　テキストの分割が可能な場合（ステップＳＴ３４；ＹＥＳ）、認識結果統合部２０６´´は、受信部２０４が受信したサーバ側音声認識結果候補のテキストに対して、クライアント側音声認識部２０２から入力されたクライアント側音声認識結果候補のテキストを基準としてテキストの分割を行う（ステップＳＴ３５）。次に、認識結果統合部２０６´´は、入力規則判定部２１１から入力された発話規則に基づいて、ステップＳＴ３５で分割したテキストとクライアント側音声認識結果候補に対応した音声操作コマンドを結合して音声認識結果とし（ステップＳＴ２４）、当該音声認識結果を出力部２０７に出力する(ステップＳＴ１６)。

　一方、サーバ側音声認識結果候補のテキスト分割が可能でない場合（ステップＳＴ３４；ＮＯ）、認識結果統合部２０６´´はステップＳＴ７で取得したクライアント側音声認識結果候補を音声認識結果とし（ステップＳＴ３６）、当該音声認識結果を入力音声／認識結果記憶部２２２に蓄積する（ステップＳＴ３７）。図１０に示す例では、音声データ６０２の「音声データ（１）」に対応する音声操作コマンド６０１としてクライアント側音声認識部２０２から入力された音声認識結果「メール」を格納する。
　以上が、実施の形態３の音声認識システムの第１の動作である。

＜第２の動作＞
　次に、第２の動作について、図１１および図１２を参照しながら説明する。
　図１１はこの発明の実施の形態３の音声認識システムの第２の動作を示すフローチャートであり、図１２はこの発明の実施の形態３の音声認識システムの音声認識装置の修正用データベースの一例を示す図である。
　音声認識装置２００´´が起動すると認識結果候補修正部２２１は、入力音声／認識結果記憶部２２２を参照して音声データが蓄積されているか否か判定を行う（ステップＳＴ４１）。音声データが蓄積されていない場合（ステップＳＴ４１；ＮＯ）、処理を終了する。一方、音声データが蓄積されている場合（ステップＳＴ４１；ＹＥＳ）、入力音声／認識結果記憶部２２２に蓄積された音声データを取得し（ステップＳＴ４２）、取得した音声データを、送信部２０３を介して音声認識サーバ１００に送信する（ステップＳＴ４３）。

　音声認識サーバ１００では、上述した実施の形態１のステップＳＴ４からステップＳＴ６と同一の処理を行い、送信された音声データの音声認識を行い、サーバ側音声認識結果候補を音声認識装置２００´´側へ送信する。
　音声認識装置２００´´の受信部２０４は、ステップＳＴ６で音声認識サーバ１００から送信されたサーバ側音声認識結果候補を受信し、受信したサーバ側音声認識結果候補を認識結果候補修正部２２１へ出力する（ステップＳＴ８´´）。認識結果候補修正部２２１は、ステップＳＴ８´´で入力されたサーバ側音声認識結果候補が、入力音声／認識結果記憶部２２２に蓄積された音声操作コマンドと一致するか否か判定を行う（ステップＳＴ４４）。サーバ側音声認識結果候補と音声操作コマンドが一致する場合（ステップＳＴ４４；ＹＥＳ）、ステップＳＴ４６の処理に進む。

　一方、サーバ側音声認識結果候補と音声操作コマンドが一致しない場合（ステップＳＴ４４；ＮＯ）、サーバ側音声認識結果候補を修正候補として音声操作コマンドを対応付けた情報を修正用データベース２２１ａに追加する（ステップＳＴ４５）。
　図１２に示す例では、入力音声／認識結果記憶部２２２に蓄積された音声操作コマンド７０１が「メール」であり、サーバ側音声認識結果候補である修正候補７０２が「滅入る」あるいは「見える」であった場合に、それぞれを対応付けた情報を修正データ７００として修正用データベース２２１ａに追加する。

　次に認識結果候補修正部２２１は、入力音声／認識結果記憶部２２２に蓄積された音声データを参照して、全ての音声データに対して処理を行ったか否か判定を行う（ステップＳＴ４６）。全ての音声データに対して処理を行った場合（ステップＳＴ４６；ＹＥＳ）、処理を終了する。一方、全ての音声データに対して処理を行っていない場合（ステップＳＴ４６；ＮＯ）、ステップＳＴ４２の処理に戻り、上述した処理を繰り返す。
　以上が、実施の形態３の音声認識システムの第２の動作である。

＜第３の動作＞
　次に、第３の動作について、上述した図９のフローチャートを参照しながら説明を行う。なお、上述した第１の動作と同一の処理について説明を省略する。
　ステップＳＴ３２として、認識結果候補修正部２２１はステップＳＴ８´で受信したサーバ側音声認識結果候補のテキストを修正用データベース２２１ａと照合する。例えば、サーバ側音声認識結果候補として図６に示したサーバ側音声認識結果候補リスト４０３が入力された場合、サーバ側音声認識結果候補４０１のテキストと、図１２に示した修正用データベース２２１ａを構成する修正データ７００の修正候補７０２を照合する。
　修正用データベース２２１ａの修正候補「滅入る」がサーバ側音声認識結果候補４０１のテキストに含まれていると検出した場合、ステップＳＴ３３として修正用データベース２２１ａの修正候補「滅入る」およびそれに対応する音声操作コマンド「メール」を照合結果として認識結果統合部２０６´´に出力する。

　次に認識結果統合部２０６´´は、ステップＳＴ３４として、ステップＳＴ７でクライアント側音声認識部２０２が生成したクライアント側音声認識結果候補、ステップＳＴ２１で入力規則判定部２１１が判定した発話規則、ステップＳＴ８で受信部２０４が受信したサーバ側音声認識結果候補、およびステップＳＴ３３で認識結果候補修正部２２１から入力された照合結果から、サーバ側音声認識結果候補のテキスト分割が可能であるか否か判定する。

　例えば、クライアント側音声認識部２０２のクライアント側音声認識結果候補として図６に示すクライアント側音声認識結果候補４０４「メール」が入力され、入力規則判定部２１１が判定した発話規則が「コマンド＋自由文」であり、受信部２０４から図６に示すサーバ側音声認識結果リスト４０３が入力された場合には、サーバ側音声認識結果リスト４０３のサーバ側音声認識結果４０１，４０２のテキストに「メール」が含まれないものの、認識結果候補修正部２２１から照合結果として「メール」が入力されるため、テキストの分割が可能であると判断する（ステップＳＴ３４；ＹＥＳ）。

　認識結果統合部２０６´´は、ステップＳＴ３５としてサーバ側音声認識結果候補のテキストに対して、判定結果「メール」に対応する修正候補「滅入る」を基準としてテキストの分割を行う。またステップＳＴ２４として、入力規則判定部２１１から入力された発話規則の情報に基づいて分割したテキストと、クライアント側音声認識結果候補に対応した音声操作コマンドを結合して音声認識結果とし、ステップＳＴ１６として音声認識結果を出力部２０７に出力する。
　以上が、実施の形態３の音声認識システムの第３の動作である。

　以上のように、この実施の形態３によれば、音声認識装置２００´´の起動時に、過去に入力された音声データを利用して音声認識サーバ１００へ音声データを送信して取得したサーバ側音声認識結果候補に基づいて音声認識結果候補の修正用データベース２１１ａを作成する認識結果候補修正部２２１を備えるように構成したので、音声認識サーバ１００のサーバ側音声認識結果候補と、入力音声／認識結果記憶部２２２に蓄積された音声操作コマンドが一致しない場合においても、音声操作コマンドに対応する修正候補と音声認識サーバ１００からのサーバ側音声認識結果候補が一致すれば、その部分を基準にしてテキストを分割し、分割したテキストと音声認識装置２００´´のクライアント側音声認識結果候補のテキストを入力規則判定部２１１から入力された発話規則の情報に基づいて統合することができる。
　これにより、音声認識サーバ１００がアップデートされ認識結果に変化が生じた場合であっても追従することが可能となり、サーバ側とクライアント側の音声認識結果候補を統合してより正確な音声認識結果を出力することができる。

　また、この実施の形態３によれば、認識結果統合部２０６´´は、差異のある部分を基準としてテキストを分割し、分割したテキストと音声認識装置２００´´のクライアント側音声認識結果候補のテキストを入力規則判定部２１１から入力された発話規則の情報に基づいて統合するように構成したので、音声認識サーバ１００が音声操作コマンドを高精度に認識できない場合であっても、音声操作コマンドに該当する部分を用いることなく、文章の部分のみを使用することができ、より正確な音声認識結果を出力することができる。

　また、この実施の形態３によれば、複雑な構文解析処理や認識スコアの再計算を行うことなく、サーバ側音声認識結果候補のテキストと、修正用データベース２２１ａを照合する認識結果候補修正部２２１を備えるように構成したので、ＣＰＵの処理負荷を抑制しつつ音声認識装置２００´´の機能を実現することができる。

　また、この実施の形態３によれば、サーバ側音声認識結果候補のテキストと、修正用データベース２２１ａを照合して信頼度の低い箇所を検出することで複雑な構文解析を行わずに演算量を抑制するように構成したので、演算性能の低いＣＰＵを使用して音声認識装置２００´´の機能を実現することができる。

　また、この発明の実施の形態３によれば、音声認識装置２００´´において、クライアント側音声認識部２０２に音声データを入力すると同時に音声認識サーバ１００へ音声データを送信するように構成したので、音声認識装置２００においてクライアント側音声認識結果候補を取得した後に、音声認識サーバ１００に音声データを送信する方法と比較して、音声認識サーバ１００から音声認識結果を早く取得することができ、音声認識結果を確定出力するまでの遅延時間を短縮することができる。

実施の形態４．
　上述した実施の形態３では、音声認識サーバ１００のサーバ側音声認識結果候補の変化を検出して常にテキストの分割を可能にする構成を示したが、この実施の形態４では自由文として分割されたテキストに含まれる固有名詞を検出する構成を示す。

　この実施の形態４の音声認識システムにおいても音声認識サーバ１００および音声認識装置２００´によって構成する。なお、実施の形態４の音声認識サーバ１００および音声認識装置２００´の構成要素は、実施の形態２による音声認識システムと同一であるため、記載を省略する。なお、以下の説明では図４で使用した符号と同一の符号を付して説明を行う。

　認識結果候補比較部２０５は、実施の形態２で説明した機能に加えて、サーバ側音声認識候補を比較して差異のある部分を複数個所検出した場合に、その検出箇所のテキストが同一の内容か否かを判定する。認識結果統合部２０６´は、認識結果候補比較部２０５において、検出箇所のテキストが同一の内容であると判定された場合に、当該同一の内容であると判定されたテキストを対応する固有名詞に置き換える。

　次に、実施の形態４の音声認識システムの動作について、図１３から図１５を参照しながら説明する。
　図１３は、この発明の実施の形態４による音声認識システムの動作を示すフローチャートである。図１４はこの発明の実施の形態４による音声認識システムの音声認識結果の生成例を示し、図１５は発話規則のパターン格納例を示す図である。なお以下では、実施の形態２に係る音声認識システムと同一のステップには図５で使用した符号と同一の符号を付し、説明を省略または簡略化する。

　まず、実施の形態２と同様に、音声認識装置２００´がステップＳＴ１およびステップＳＴ２の処理を行い、クライアント側音声認識部２０２が入力された音声データに対して音声認識を行う（ステップＳＴ７）。
　例えば、クライアント側音声認識部２０２がアドレス帳などに登録されている固有名詞と音声操作コマンドのみを認識対象とする場合、図１４で示す例では利用者が入力した音声データ「健児さんにメール、本日は私と健児さんで対応します」に対して、音声認識を行って固有名詞である「健児」および音声操作コマンドである「さんにメール」を認識し、クライアント側音声認識結果候補８０４「健児さんにメール」を取得する。図１４の例では、クライアント側音声認識結果候補リスト８０５は、１つのクライアント側音声認識結果候補８０４で構成される。取得されたクライアント側音声認識結果候補は、認識結果統合部２０６´および入力規則判定部２１１に出力される。

　次に、入力規則判定部２１１は、クライアント側音声認識部２０２から入力されたクライアント側音声認識結果候補と、入力規則蓄積部２１２に格納された発話規則のパターンを参照して音声操作コマンドの照合を行い、ステップＳＴ１で入力された音声データの発話規則を判定する（ステップＳＴ２１）。
　例えば、図１４に示すクライアント側音声認識結果候補８０４「健児さんにメール」と、図１５に示す発話規則のパターン９００とを比較すると、一致する音声操作コマンド９０１「さんにメール」が検出され、対応した入力音声の発話規則９０２「固有名詞＋コマンド＋自由文」が取得される。取得した入力音声の発話規則は、認識結果統合部２０６´に出力される。

　さらに音声認識装置２００´がステップＳＴ８およびステップＳＴ９の処理を行い、認識結果候補比較部２０５が複数の音声認識結果候補を含むと判定した場合（ステップＳＴ９；ＹＥＳ）、認識結果候補比較部２０５は各音声認識結果候補のテキスト同士を比較して差異のある部分テキストを検出する（ステップＳＴ１０）。認識結果候補比較部２０５は、差異のある部分テキストを検出したか否か判定を行い（ステップＳＴ１１）、差異のある部分テキストが検出された場合（ステップＳＴ１１；ＹＥＳ）、差異のある部分テキストを検出結果として認識結果統合部２０６´に出力する（ステップＳＴ１２）。
　図１４の例では、サーバ側音声認識結果リスト８０３に２つのサーバ側音声認識結果候補８０１，８０２が含まれるため、それぞれのテキスト情報である「検事さんにメール、本日は私と検事さんで対応します」と「賢治さんにメール、本日は私と賢治さんで対応します」を比較して、差異のある部分が２か所存在し、いずれも同じテキスト（音声認識結果候補８０１は「検事」、音声認識結果候補８０２は「賢治」）であることを検出する。

　認識結果統合部２０６´は、ステップＳＴ７でクライアント側音声認識部２０２が生成したクライアント側音声認識結果候補、ステップＳＴ２１で入力規則判定部２１１が判定した発話規則、ステップＳＴ８で受信部２０４が受信したサーバ側音声認識結果候補、およびステップＳＴ１２またはステップＳＴ１３で認識結果候補比較部２０５から入力された差異の検出結果から、自由文のテキストに含まれる固有名詞の置き換えが可能であるか否か判定を行う（ステップＳＴ５１）。

　固有名詞の置き換えが可能であるか否かの判定は、具体的に以下のように行われる。
　図１４および図１５の例では、クライアント側音声認識部２０２のクライアント側音声認識結果候補８０４「健児さんにメール」が入力され、受信部２０４からサーバ側音声認識結果候補８０１，８０２で構成されるサーバ側音声認識結果候補リスト８０３が入力された場合、サーバ側音声認識結果候補８０１，８０２のテキストに音声操作コマンド「さんにメール」が含まれているか否かを判定する。

　音声操作コマンドが含まれていると判定した場合には、入力規則判定部２１１から入力された発話規則の情報（図１５に示した音声操作コマンド「さんにメール」に対応した入力音声の発話規則「固有名詞＋コマンド＋自由文」）に従って、音声操作コマンドのテキストを基準とし、固有名詞に該当するテキスト（図１４の例ではサーバ側音声認識結果候補８０１の「検事」およびサーバ側音声認識結果候補８０２の「賢治」)と、自由文に該当するテキスト（図１４の例ではサーバ側音声認識結果候補８０１の「本日は私と検事さんで対応します」とサーバ側音声認識結果候補８０２の「本日は私と賢治さんで対応します」)に分割する。

　さらに、自由文に該当するテキストの中に固有名詞のテキストと一致する部分があるか否か判定を行う（図１４の例では、自由文の中に固有名詞のテキストと一致する部分（音声認識結果候補８０１の「検事」と音声認識結果候補８０２の「賢治」）があると判定する。そして、自由文の中に固有名詞のテキストと一致する部分がある場合、固有名詞の置き換えが可能と判定する。

　固有名詞の置き換えが可能であると判定した場合（ステップＳＴ５１；ＹＥＳ）、認識結果候補比較部２０５から入力された際の検出結果から、自由文として分割したテキスト中に含まれる固有名詞と、対応するテキストの置き換えを行う（ステップＳＴ５２）。
　図１４の例では、自由文として分割したテキスト「本日は私と検事さんで対応します」の中に含まれる固有名詞に対応するテキスト「検事」を、クライアント側音声認識部２０２で認識した固有名詞のテキスト「健児」と置き換えて「本日は私と健児さんで対応します」とする。

　認識結果統合部２０６´は、入力規則判定部２１１から入力された発話規則の情報に基づいて、分割したテキストとクライアント側音声認識結果候補に対応した音声操作コマンドを結合して音声認識結果を確定する（ステップＳＴ２４）。確定した音声認識結果は出力部２０７に出力される（ステップＳＴ１６）。
　図１４の例では、発話規則の「固有名詞＋コマンド＋自由文」に基づいて、固有名詞「健児」と音声操作コマンド「さんにメール」および自由文に対応するテキスト「本日は私と健児さんで対応します」を結合した「健児さんにメール、本日は私と健児さんで対応します」を音声認識結果として確定する。

　一方、固有名詞の置き換えが可能でないと判定した場合（ステップＳＴ５１；ＮＯ）、認識結果統合部２０６´はステップＳＴ８で受信したサーバ側音声認識結果候補を音声認識結果とし（ステップＳＴ２５）、当該音声認識結果を出力部２０７に出力する（ステップＳＴ１６）。

　以上のように、この実施の形態４によれば、音声認識サーバ１００から複数のサーバ側音声認識結果候補を取得した場合に、サーバ側音声認識結果候補のテキスト同士を比較して差異のある部分テキストを検出し、差異のある部分テキストがクライアント側音声認識結果候補の固有名詞の認識結果と対応し、且つ自由文として分割したテキストの中にも固有名詞に対応するテキストが含まれる場合は、自由文のテキストに含まれる固有名詞のテキストを、クライアント側音声認識部２０２で認識した固有名詞のテキストで置き換えるように構成したので、サーバ側音声認識結果候補に品詞情報が付与されない場合においても、品詞情報を使用することなく高精度にサーバ側とクライアント側の音声認識結果を統合し、より正確な音声認識結果を出力することができる。

　なお、上述した実施の形態４では、音声操作コマンド「さんにメール」が正しく認識される例に示したが、実施の形態３で示した認識結果候補修正部２２１および入力音声／認識結果記憶部２２２の機能を組み合わせることにより、認識結果統合部２０６´が音声認識サーバ１００のサーバ側音声認識結果候補として音声操作コマンドが正しく認識されなかった場合に修正用データベース２２１ａを検索して修正候補となる音声認識結果コマンドを参照することにより、音声操作コマンドを基準としたテキストの分割が可能と判定するように構成してもよい。これにより、音声操作コマンドを音声認識サーバ１００で正常に認識できなかった場合であっても、高精度にテキストを分割してより正確な音声認識結果を出力することができる。

実施の形態５．
　上述した実施の形態１では利用者が日本語で発話した音声が入力される場合を例に音声認識システムの処理動作を説明したが、この実施の形態５では利用者が英語で発話した音声が入力される場合を例に音声認識システムの処理動作を説明する。なお、この実施の形態５の音声認識システムの構成および動作は、実施の形態１で示した構成（図１参照）および動作（図２参照）と同様であるため、図１および図２を用いて説明を行う。

　英語で発話した音声が入力された場合の音声認識システムの動作について、図２のフローチャートに沿って、図１６の具体例を参照しながら説明を行う。図１６は、この発明の実施の形態５による音声認識システムの音声認識結果の生成例を示す図である。

　ステップＳＴ５において、例えばサーバ側音声認識部１０２が任意の文章を認識対象として、音声認識装置２００から受信した音声データ「Send SMS to John, Take care yourself. 」に対して音声認識を行い、図１６に示すサーバ側音声認識結果候補３１１である「SEND S AND S TO JOHN TAKE CARE YOURSELF」およびサーバ側音声認識結果候補３１２である「SEND S AND ASKED JOHN TAKE CARE YOURSELF」を含むサーバ側音声認識結果候補リスト３１３を取得する。

　一方、ステップＳＴ７において、例えばクライアント側音声認識部２０２が音声操作用コマンドとアドレス帳にあらかじめ登録した人名の情報のみを認識対象とし、利用者が「Send SMS to John, Take care yourself.」と音声入力した場合に、クライアント側音声認識部２０２は音声操作コマンドの「SEND SMS TO」および人名である「JOHN」を認識し、図１６に示すクライアント側音声認識結果候補３１４である「SEND SMS TO JOHN」を含むクライアント側音声認識結果候補リスト３１５を取得する。なお、図１６の例ではクライアント側音声認識結果候補リスト３１５は、１つのクライアント側音声認識結果候補３１４のみで構成されている。

　次に、ステップＳＴ１１において、図１６の例ではサーバ側音声認識結果候補リスト３１３に２つのサーバ側音声認識結果候補３１１，３１２が含まれ、それぞれのテキスト情報である「SEND S AND S TO JOHN TAKE CARE YOURSELF」と「SEND S AND ASKED JOHN TAKE CARE YOURSELF」を比較して先頭テキスト「SEND S AND」と末尾テキスト「JOHN TAKE CARE YOURSELF」に囲まれた部分を差異のある部分テキストとして検出する。具体的には、サーバ側音声認識結果候補３１１の「S TO」およびサーバ側音声認識結果候補３１２の「ASKED」を差異のある部分テキストとして検出する。

　次に、ステップＳＴ１５において、図１６の例では、サーバ側音声認識結果候補３１１の中で先頭テキスト「SEND S AND」と末尾テキスト「JOHN TAKE CARE YOURSELF」に囲まれた部分テキスト「S TO」および「ASKED」を差異のある部分テキストとして検出した場合に、クライアント側音声認識結果候補３１４の中に「SEND S AND」と「JOHN」に一致する部分テキストが存在するか検索を行う。図１６の例では「JOHN」は含まれるが「SEND S AND」の部分テキストは含まれない。この場合、検索する部分テキストを「SEND」のように短縮し、短縮した部分テキストを用いて再検索を行う。図１６の例では、再検索の結果「SEND」と「JOHN」に囲まれた「SMS TO」が検索される。その後、サーバ側音声認識結果候補３１１の「SEND」と「JOHN」に囲まれた「S AND S TO」を検索された「SMS TO」に置き換え、音声認識結果３１６「SEND SMS TO JOHN TAKE CARE YOURSELF」を得る。

　以上のように、この実施の形態５によれば、音声認識装置２００に英語で発話した音声が入力された場合にも、実施の形態１と同様の効果を得ることができる。

実施の形態６．
　上述した実施の形態２では利用者が日本語で発話した音声が入力される場合を例に音声認識システムの処理動作を説明したが、この実施の形態６では利用者が英語で発話した音声が入力される場合を例に音声認識システムの処理動作を説明する。なお、この実施の形態６の音声認識システムの構成および動作は、実施の形態２で示した構成（図４参照）および動作（図５参照）と同様であるため、図４および図５を用いて説明を行う。

　英語で発話した音声が入力された場合の音声認識システムの動作について、図５のフローチャートに沿って、図１７および図１８の具体例を参照しながら説明を行う。図１７はこの発明の実施の形態６による音声認識システムの音声認識結果の生成例を示す図であり、図１８は発話規則のパターン格納例を示す図である。

　まず、実施の形態２と同様に、音声認識装置２００´がステップＳＴ１、ＳＴ２およびＳＴ７の処理を行い、入力された音声データに対して音声認識を行う。
　例えば、クライアント側音声認識部２０２が音声操作コマンドのみを認識対象とする場合、図１７に示す例では利用者が入力した音声データ「Search for pictures of the golden gate bridge.」に対して、音声認識を行い１つのクライアント側音声認識結果候補４１４「SEARCH FOR」を取得する。図１７の例では、クライアント側音声認識結果リスト４１５は、１つのクライアント側音声認識結果候補４１４で構成される。

　次に、ステップＳＴ２１において、入力規則判定部２１１はクライアント側音声認識部２０２から入力されたクライアント側音声認識結果候補と、入力規則蓄積部２１２に格納された発話規則のパターンを参照して音声操作コマンドの照合を行い、ステップＳＴ１で入力された音声データの発話規則を判定する。
　図１８に示す例では、入力規則蓄積部２１２に格納された発話規則のパターン５１０は、音声操作コマンド５１１および入力音声の発話規則５１２で構成され、例えば音声操作コマンド５１１が「SEARCH FOR」であった場合に、入力音声の発話規則５１２として「command＋キーワード」が得られることを示している。
　図１７に示す例では、クライアント側音声認識結果候補４１４が「SEARCH FOR」であった場合に、入力規則判定部２１１は一致する音声操作コマンド５１１である「SEARCH FOR」に対応した入力音声の発話規則５１２である「command＋キーワード」を取得する。

　一方、ステップＳＴ４からステップＳＴ６において、サーバ側音声認識部１０２が任意の文章を認識対象とする場合、図１７の例では受信した音声データ「Search for pictures of the golden gate bridge.」に対して音声認識を行い、サーバ側音声認識結果候補４１１「SYSTEM PICTURES OF THE GOLDEN GATE BRIDGE」およびサーバ側音声認識結果候補４１２「SISTER PICTURES OF THE GOLDEN GATE BRIDGE」を取得する。サーバ側音声認識結果候補リスト４１３として、取得された２つのサーバ側音声認識結果候補４１１，４１２が音声認識装置２００´に出力される。

　次に、音声認識装置２００´はステップＳＴ８からステップＳＴ１３の処理を行う。ステップＳＴ１０の差異のある部分テキストの検出では、図１７を例に説明すると、サーバ側音声認識結果候補リスト４１３のサーバ側音声認識結果候補４１１「SYSTEM PICTURES OF THE GOLDEN GATE BRIDGE」およびサーバ側音声認識結果候補４１２「SISTER PICTURES OF THE GOLDEN GATE BRIDGE」を比較し、差異のある部分テキストとして「SYSTEM」と「SISTER」を検出する。検出結果は、認識結果統合部２０６´に出力される。

　ステップＳＴ２２において、認識結果統合部２０６´は、ステップＳＴ７でクライアント側音声認識部２０２が生成したクライアント側音声認識結果候補、ステップＳＴ２１で入力規則判定部２１１が判定した発話規則、ステップＳＴ８で受信部２０４が受信したサーバ側音声認識結果候補、およびステップＳＴ１２またはステップＳＴ１３で認識結果候補比較部２０５から入力され差異の検出結果から、サーバ側音声認識結果候補のテキスト分割が必要であるか否か判定を行う。

　図１７および図１８の例では、クライアント側音声認識部２０２のクライアント側音声認識結果候補４１４「SEARCH FOR」が入力され、受信部２０４からサーバ側音声認識結果候補４１１，４１２で構成されるサーバ側音声認識結果候補リスト４１３が入力された場合、サーバ側音声認識結果候補４１１，４１２のテキストに「SEARCH FOR」が含まれておらず、入力規則判定部２１１から入力された発話規則が「command＋キーワード」であり、認識結果候補比較部２０５から差異を検出したことを示す検出結果が入力されるため、テキストの分割が必要であると判定する。

　サーバ側音声認識結果候補のテキスト分割が必要な場合（ステップＳＴ２２；ＹＥＳ）、ステップＳＴ２３において、認識結果統合部２０６´は受信部２０４が受信したサーバ側音声認識結果候補のテキストに対して、差異のある部分テキストを基準としてテキストの分割を行う。
　図１７に示す例では、サーバ側音声認識結果候補４１１のテキストに対して「SYSTEM」を差異のある部分テキストとして検出しているため、「SYSTEM」と「PICTURES OF THE GOLDEN GATE BRIDGE」の２つにテキストを分割する。

　次に、ステップＳＴ２４として、認識結果統合部２０６´は、入力規則判定部２１１から入力された発話規則に基づいて、ステップＳＴ２３で分割したテキストと、クライアント側音声認識結果候補に対応した音声操作コマンドを結合して音声認識結果として、出力部２０７に出力する。
　図１７に示す例では、発話規則の「command＋キーワード」に基づいて、音声操作コマンド「SEARCH FOR」と自由文に対応する分割したテキスト「PICTURES OF THE GOLDEN GATE BRIDGE」を結合した「SEARCH FOR PICTURES OF THE GOLDEN GATE BRIDGE」を音声認識結果とする。

　以上のように、この実施の形態６によれば、音声認識装置２００´に英語で発話した音声が入力された場合にも、実施の形態２と同様の効果を得ることができる。

実施の形態７．
　上述した実施の形態３では利用者が日本語で発話した音声が入力される場合を例に音声認識システムの処理動作を説明したが、この実施の形態７では利用者が英語で発話した音声が入力される場合を例に音声認識システムの処理動作を説明する。なお、この実施の形態７の音声認識システムの構成および動作は、実施の形態３で示した構成（図８参照）および動作（図９、図１１参照）と同様であるため、図８、図９および図１１を用いて説明を行う。

　以下では、実施の形態３と同様に第１の動作として入力音声／認識結果記憶部２２２にデータが蓄積されていない状態で英語で発話した音声入力が行われた場合の動作、第２の動作として音声認識装置２００´´起動時に修正用データベース２２１ａを作成する動作、および第３の動作として入力音声／認識結果記憶部２２２にデータが蓄積され、修正用データベース２２１ａが作成された状態で、英語で発話した音声入力が行われた場合の動作の３つに分けて説明を行う。

＜第１の動作＞
　まず、第１の動作について、図９、図１９および実施の形態６の図１７を参照しながら説明する。実施の形態３と同様の動作については説明を省略する。
　図１９は、この発明の実施の形態７による音声認識システムの入力音声／認識結果記憶部の蓄積例を示す図である。
　図９のフローチャートのステップＳＴ３４において、認識結果統合部２０６´´は、
ステップＳＴ７でクライアント側音声認識部２０２が生成したクライアント側音声認識結果候補、ステップＳＴ２１で入力規則判定部２１１が判定した発話規則、ステップＳＴ８´で受信部２０４が受信したサーバ側音声認識結果候補、およびステップＳＴ３３で認識結果候補修正部２２１が取得した照合結果から、サーバ側音声認識結果候補のテキスト分割が可能であるか否か判定する。

　例えば、クライアント側音声認識部２０２のクライアント側音声認識結果候補として図１７に示すクライアント側音声認識結果候補４１４「SEARCH FOR」が入力され、受信部２０４から図１７に示すサーバ側音声認識結果リスト４１３が入力された場合に、当該サーバ側音声認識結果リスト４１３に含まれるサーバ側音声認識結果候補４１１，４１２のテキストに「SEARCH FOR」が含まれていない。また、入力規則判定部２１１から入力された発話規則が「command＋キーワード」であり、認識結果候補修正部２２１から修正候補がないとの照合結果が入力される。これにより、認識結果統合部２０６´´はテキストの分割が不可能であると判定する。

　そして、サーバ側音声認識結果候補のテキスト分割が可能でない場合（ステップＳＴ３４；ＮＯ）、ステップＳＴ３６およびステップＳＴ３７において、認識結果統合部２０６´´はステップＳＴ７で取得したクライアント側音声認識結果候補を音声認識結果とし、入力音声／認識結果記憶部２２２に蓄積する。
　図１９に示す例では、音声データ６１２の「音声データ（１）」に対応する音声操作コマンド６１１としてクライアント側音声認識部２０２から入力された音声認識結果「SEARCH FOR」を蓄積する。
　以上が、実施の形態７の音声認識システムの第１の動作である。

＜第２の動作＞
　次に、第２の動作について、図１１および図２０を参照しながら説明する。
　図２０は、この発明の実施の形態７の音声認識システムの音声認識装置の修正用データベースの一例を示す図である。
　図１１のフローチャートのステップＳＴ４４において、サーバ側音声認識結果候補と音声操作コマンドが一致しない場合（ステップＳＴ４４；ＮＯ）、ステップＳＴ４５としてサーバ側音声認識結果候補を修正候補として音声操作コマンドを対応付けた情報を修正用データベース２２１ａに追加する。

　図２０に示す例では、入力音声／認識結果記憶部２２２に蓄積された音声操作コマンド７１１が「SEARCH FOR」であり、サーバ側音声認識結果候補である修正候補７１２が「SYSTEM」あるいは「SISTER」であった場合に、それぞれを対応付けた情報を修正データ７１０として修正用データベース２２１ａに追加する。
　以上が、実施の形態７の音声認識システムの第２の動作である。

＜第３の動作＞
　次に、第３の動作について、上述した図９のフローチャートを参照しながら説明を行う。
　ステップＳＴ３２として、認識結果候補修正部２２１はステップＳＴ８´で受信したサーバ側音声認識結果候補のテキストを修正用データベース２２１ａと照合する。例えば、サーバ側音声認識結果候補として図１７に示したサーバ側音声認識結果候補リスト４１３が入力された場合、サーバ側音声認識結果候補４１１のテキストと、図２０に示した修正用データベース２２１ａを構成する修正データ７１０の修正候補７１２を照合する。
　修正用データベース２２１ａの修正候補「SYSTEM」がサーバ側音声認識結果候補４１１のテキストに含まれていると検出した場合、ステップＳＴ３３として修正用データベース２２１ａの修正候補「SYSTEM」およびそれに対応する音声操作コマンド「SEARCH FOR」を照合結果として認識結果統合部２０６´´に出力する。

　例えば、クライアント側音声認識部２０２のクライアント側音声認識結果候補として図１７に示すクライアント側音声認識結果候補４１４「SEARCH FOR」が入力され、入力規則判定部２１１が判定した発話規則が「command＋キーワード」であり、受信部２０４から図１７に示すサーバ側音声認識結果リスト４１３が入力された場合には、サーバ側音声認識結果リスト４１３のサーバ側音声認識結果４１１，４１２のテキストに「SEARCH FOR」が含まれないものの、認識結果候補修正部２２１から照合結果として「SEARCH FOR」が入力されるため、テキストの分割が可能であると判断する（ステップＳＴ３４；ＹＥＳ）。

　ステップＳＴ３５として、認識結果統合部２０６´´はサーバ側音声認識結果候補のテキストに対して、判定結果「SEARCH FOR」に対応する修正候補「SYSTEM」を基準としてテキストの分割を行う。またステップＳＴ２４として、入力規則判定部２１１から入力された発話規則の情報に基づいて分割したテキストと、クライアント側音声認識結果候補に対応した音声操作コマンドを結合して音声認識結果とし、ステップＳＴ１６として音声認識結果を出力部２０７に出力する。
　以上が、実施の形態３の音声認識システムの第３の動作である。

　以上のように、この実施の形態７によれば、音声認識装置２００´´に英語で発話した音声が入力された場合にも、実施の形態３と同様の効果を得ることができる。

実施の形態８．
　上述した実施の形態４では利用者が日本語で発話した音声が入力される場合を例に音声認識システムの処理動作を説明したが、この実施の形態８では利用者が英語で発話した音声が入力される場合を例に音声認識システムの処理動作を説明する。なお、この実施の形態８の音声認識システムの構成および動作は実施の形態３で示した構成（図８参照）および実施の形態４で示した動作（図１３参照）と同様であるため、図８および図１３を用いて説明を行う。

　英語で発話した音声が入力された場合の音声認識システムの動作について、図１３のフローチャートに沿って、図２１および図２２の具体例を参照しながら説明を行う。図２１は、この発明の実施の形態８による音声認識システムの音声認識結果の生成例を示し、図２２は発話規則のパターン格納例を示す図である。

　まず、図１３のフローチャートのステップＳＴ７において、クライアント側音声認識部２０２が入力された音声データに対して音声認識を行う。
　例えば、クライアント側音声認識部２０２がアドレス帳などに登録されている固有名詞と音声操作コマンドのみを認識対象とする場合、図２１で示す例では利用者が入力した音声データ「Send e-mail to Jones, Happy birthday, Jones.」に対して、音声認識を行って音声操作コマンドである「SEND E-MAIL TO」および固有名詞である「JONES」を認識し、クライアント側音声認識結果候補８１４「SEND E-MAIL TO JONES」を取得する。図２１の例では、クライアント側音声認識結果候補リスト８１５は、１つのクライアント側音声認識結果候補８１４で構成される。取得されたクライアント側音声認識結果候補は、認識結果統合部２０６´および入力規則判定部２１１に出力される。

　次に、ステップＳＴ２１において、入力規則判定部２１１はクライアント側音声認識部２０２から入力されたクライアント側音声認識結果候補と、入力規則蓄積部２１２に格納された発話規則のパターンを参照して音声操作コマンドの照合を行い、ステップＳＴ１で入力された音声データの発話規則を判定する。
　例えば、図２１に示すクライアント側音声認識結果候補８１４「SEND E-MAIL TO JONES」と、図２２に示す発話規則のパターン９１０とを比較すると、一致する音声操作コマンド９１１「SEND E-MAIL TO」が検出され、対応した入力音声の発話規則９１２「command＋固有名詞＋自由文」が取得される。取得した入力音声の発話規則は、認識結果統合部２０６´に出力される。

　次に、ステップＳＴ１１において、認識結果候補比較部２０５は差異のある部分テキストを検出したか否か判定を行い、差異のある部分テキストが検出された場合（ステップＳＴ１１；ＹＥＳ）、ステップＳＴ１２として差異のある部分テキストを検出結果として認識結果統合部２０６´に出力する。
　図２１の例では、サーバ側音声認識結果リスト８１３に２つのサーバ側音声認識結果候補８１１，８１２が含まれるため、それぞれのテキスト情報である「SEND E-MAIL TO JOHN HAPPY BIRTHDAY JOHN」と「SEND E-MAIL TO JON HAPPY BIRTHDAY JON」を比較して、差異のある部分が２か所存在し、いずれも同じテキスト（音声認識結果候補８１１は「JOHN」、音声認識結果候補８１２は「JON」）であることを検出する。

　次に、ステップＳＴ５１において、認識結果統合部２０６´は自由文のテキストに含まれる固有名詞の置き換えが可能であるか否か判定を行う。
　固有名詞の置き換えが可能であるか否かの判定は、具体的に次のように行われる。図２１および図２２の例では、クライアント側音声認識部２０２のクライアント側音声認識結果候補８１４「SEND E-MAIL TO JONES」が入力され、受信部２０４からサーバ側音声認識結果候補８１１，８１２で構成されるサーバ側音声認識結果候補リスト８１３が入力された場合、サーバ側音声認識結果候補８１１，８１２のテキストに音声操作コマンド「SEND E-MAIL TO」が含まれているか否かを判定する。

　音声操作コマンドが含まれていると判定した場合には、入力規則判定部２１１から入力された発話規則の情報（図２２に示した音声操作コマンド「SEND E-MAIL TO」に対応した入力音声の発話規則「command＋固有名詞＋自由文」）に従って、音声操作コマンドのテキストを基準とし、固有名詞に該当するテキスト（図２１の例ではサーバ側音声認識結果候補８１１の「JOHN」およびサーバ側音声認識結果候補８１２の「JON」)と、自由文に該当するテキスト（図２１の例ではサーバ側音声認識結果候補８１１の「HAPPY BIRTHDAY JOHN」とサーバ側音声認識結果候補８１２の「HAPPY BIRTHDAY JON」)に分割する。

　さらに、自由文に該当するテキストの中に固有名詞のテキストと一致する部分があるか否か判定を行う（図２１の例では、自由文の中に固有名詞のテキストと一致する部分（音声認識結果候補８１１の「JOHN」と音声認識結果候補８１２の「JON」）があると判定する。そして、自由文の中に固有名詞のテキストと一致する部分がある場合、固有名詞の置き換えが可能と判定する。

　固有名詞の置き換えが可能であると判定した場合（ステップＳＴ５１；ＹＥＳ）、ステップＳＴ５２として、認識結果候補比較部２０５から入力された際の検出結果から、自由文として分割したテキスト中に含まれる固有名詞と、対応するテキストの置き換えを行う。
　図２１の例では、自由文として分割したテキスト「HAPPY BIRTHDAY JOHN」の中に含まれる固有名詞に対応するテキスト「JOHN」を、クライアント側音声認識部２０２で認識した固有名詞のテキスト「JONES」と置き換えて「HAPPY BIRTHDAY JONES」とする。

　ステップＳＴ２４として、認識結果統合部２０６´は入力規則判定部２１１から入力された発話規則の情報に基づいて、分割したテキストとクライアント側音声認識結果候補に対応した音声操作コマンドを結合して音声認識結果を確定する。
　図２１の例では、発話規則の「command＋固有名詞＋自由文」に基づいて、音声操作コマンド「SEND E-MAIL TO」と固有名詞「JONES」および自由文に対応するテキスト「HAPPY BIRTHDAY JONES」を結合した「SEND E-MAIL TO JONES HAPPY BIRTHDAY JONES」を音声認識結果として確定する。

　以上のように、この実施の形態８によれば、音声認識装置２００´´に英語で発話した音声が入力された場合にも、実施の形態４と同様の効果を得ることができる。

　なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

　以上のように、この発明に係る音声認識システムおよび音声認識装置は、音声認識機能を備えた種々の機器に適用可能であり、複数の意図を含む入力が行われた場合にも、精度良く最適な音声認識結果を提供することができる。

　１００　音声認識サーバ、１０１　受信部、１０２　サーバ側音声認識部、１０３　送信部、２００，２００´　音声認識装置、２０１　音声入力部、２０２　クライアント側音声認識部、２０３　送信部、２０４　受信部、２０５　認識結果候補比較部、２０６，２０６´，２０６´´　認識結果統合部、２０７　出力部、２１１　入力規則判定部、２１２　入力規則蓄積部、２２１　認識結果候補修正部、２２１ａ　修正用データベース、２２２　入力音声／認識結果記憶部。

Claims

　サーバ装置と、前記サーバ装置と接続されるクライアント側の音声認識装置とを備えた音声認識システムにおいて、
　前記サーバ装置は、
　前記音声認識装置から入力される音声データを受信するサーバ側受信部と、
　前記サーバ側受信部が受信した音声データの音声認識を行い、サーバ側音声認識結果候補を生成するサーバ側音声認識部と、
　前記サーバ側音声認識部が生成した前記サーバ側音声認識結果候補を前記音声認識装置に送信するサーバ側送信部とを備え、
　前記音声認識装置は、
　入力された発話音声を前記音声データに変換する音声入力部と、
　前記音声入力部が変換した前記音声データの音声認識を行い、クライアント側音声認識結果候補を生成するクライアント側音声認識部と、
　前記音声入力部が変換した前記音声データを前記サーバ装置に送信するクライアント側送信部と、
　前記サーバ側送信部が送信した前記サーバ側音声認識結果候補を受信するクライアント側受信部と、
　前記クライアント側受信部が受信した複数の前記サーバ側音声認識結果候補を比較し、差異のあるテキストを検出する認識結果候補比較部と、
　前記クライアント側音声認識結果候補、前記サーバ側音声認識結果候補および前記認識結果候補比較部の検出結果に基づいて、前記クライアント側音声認識結果候補と前記サーバ側音声認識結果候補とを統合し、音声認識結果を確定する認識結果統合部と、
　前記認識結果統合部が確定した音声認識結果を出力する出力部とを備えたことを特徴とする音声認識システム。
　前記音声認識装置は、
　前記クライアント側音声認識結果と、所定のキーワードと当該キーワードの発話規則とを対応付けた発話規則パターンとを比較し、前記音声データの発話規則を判定する入力規則判定部を備え、
　前記認識結果統合部は、前記クライアント側音声認識結果、前記サーバ側音声認識結果、前記認識結果候補比較部の検出結果および前記入力規則判定部が判定した発話規則に基づいて、前記クライアント側音声認識結果候補と前記サーバ側音声認識結果候補とを統合することを特徴とする請求項１記載の音声認識システム。
　前記音声認識装置は、
　前記音声入力部が変換した音声データおよび前記認識結果統合部が確定した音声認識結果を対応付けて蓄積する入力音声／認識結果記憶部と、
　装置起動時に前記入力音声／認識結果記憶部に蓄積された音声データに対するサーバ側音声認識結果候補を取得してデータベースを作成すると共に、作成したデータベースと、前記クライアント側受信部が受信したサーバ側音声認識結果候補とを照合する認識結果候補修正部とを備え、
　前記認識結果統合部は、前記認識結果候補修正部の照合結果に基づいて前記クライアント側音声認識結果候補と前記サーバ側音声認識結果候補とを統合することを特徴とする請求項２記載の音声認識システム。
　前記認識結果候補比較部は、前記クライアント側受信部が受信した複数の前記サーバ側音声認識結果候補を比較して差異のあるテキストを複数検出し、且つ検出した複数のテキストが同一の内容を示しているか否か判定を行い、
　前記認識結果統合部は、前記認識結果候補比較部が検出した複数のテキストが同一の内容を示していると判定した場合に、前記検出したテキストを前記サーバ側音声認識結果に基づく固有名詞に置き換えることを特徴とする請求項２記載の音声認識システム。
　音声認識機能を備えたサーバ装置と接続されるクライアント側の音声認識装置において、
　入力された発話音声を音声データに変換する音声入力部と、
　前記音声入力部が変換した前記音声データの音声認識を行い、クライアント側音声認識結果候補を生成するクライアント側音声認識部と、
　前記音声入力部が変換した前記音声データを前記サーバ装置に送信するクライアント側送信部と、
　前記クライアント側送信部が送信した前記音声データに基づいて前記サーバ装置が生成したサーバ側音声認識結果候補を受信するクライアント側受信部と、
　前記クライアント側受信部が受信した複数の前記サーバ側音声認識結果候補を比較し、差異のあるテキストを検出する認識結果候補比較部と、
　前記クライアント側音声認識結果候補、前記サーバ側音声認識結果候補および前記認識結果候補比較部の検出結果に基づいて、前記クライアント側音声認識結果候補と前記サーバ側音声認識結果候補とを統合し、音声認識結果を確定する認識結果統合部と、
　前記認識結果統合部が確定した音声認識結果を出力する出力部とを備えたことを特徴と
する音声認識装置。