JP2014510942A

JP2014510942A - ハイブリッド型クライアントサーバ音声認識

Info

Publication number: JP2014510942A
Application number: JP2013554691A
Authority: JP
Inventors: アジャイ・ジュネジャ
Original assignee: Speak With Me inc
Current assignee: Speak With Me inc
Priority date: 2011-02-22
Filing date: 2012-02-22
Publication date: 2014-05-01
Anticipated expiration: 2032-02-22
Also published as: US20170229122A1; US20120215539A1; EP2678861A1; EP2678861B1; US9674328B2; WO2012116110A1; US10217463B2; JP6317111B2

Abstract

受信コンピューティングデバイスは、音声発話を受信して、音声認識によって処理されて音声発話を２つもしくはそれ以上の音声発話セグメントにセグメント化することができる。２つもしくはそれ以上の音声発話セグメントのそれぞれは、複数の利用可能な音声認識器の１つに割り当てられる。複数の利用可能な音声認識器の第１の音声認識器は、データネットワークを介してアクセス可能な別のコンピューティングデバイス上に実装される。第１のセグメントは、第１の認識器によって処理され、処理の結果は受信コンピューティングデバイスに戻される。第２のセグメントは、受信コンピューティングデバイスにおいて実装された第２の認識器によって処理される。

Description

ここで説明された要旨は一般的に音声認識に関し、より特に、いくつかの実施態様において、音声認識機能に関連する処理タスクの識別及び割り当てに関する。

関連出願の相互参照
この出願は、２０１１年２月２２日付け出願の米国仮出願第６１／４４５，４３３号の優先権の利益を主張し、その開示がその全体において参照によりここに組み込まれる。

一般的に、いくつかの文脈では、自動音声認識、コンピュータ音声認識、音声テキスト変換などとも呼ばれる音声認識は、音声を認識し、話された言葉を１つもしくは複数のコンピューティングシステムに続くべきテキスト、コマンド（命令）もしくは指示に変換する技術に言及する。音声認識アプリケーションは、これらには限定されないが、例えば音声ダイヤリング、コールルーティング、（例えば、照明、電化製品、気候制御、エンターテインメント（娯楽）などの）建物設備もしくは快適機能の制御、（例えば、例えばイントラネットのローカルエリアネットワークもしくは広域ネットワークを介してアクセス可能なデータベースなどのローカルデータベースもしくはネットワーク化されたデータベースのいずれかに対するなどの）データベース検索、データ入力（エントリー）、構造化文書の準備、例えば手紙もしくは電子メールなどの文書の転写もしくは植字のための音声からテキストへの処理、ハンズフリーコンピューティング、車両機能の制御などの音声ユーザインターフェースを含むことができる。

音声認識プロセスは、コンピュータ的にかつ（例えば、メモリ及びデータ送信などが）帯域幅を集約的とすることができる。例えば携帯電話、自動車のカーステレオやナビゲーションシステムなどの組み込み機器（デバイス）のために設計された音声認識器は、一般的には、サーバ上でホストされる音声認識器と同じように豊富な語彙を処理することはできない。また、多くの組み込みデバイスは現在、特に例えば（例えば環境ノイズや音響歪みなどの高レベルの）最適な信号対ノイズ比未満などの音声認識条件の要求や（例えば、音声認識器を支援するために人間が彼のもしくは彼女の音声パターンを変更することなしに音声認識器に話すことを可能とさせるためなどの）連続的な音声条件下での自然な言語の使用のサポートの要求や種々の言語及び方言のサポートの要求などのもとでは、リアルタイム認識で複数の音声認識器を同時に実行するのに必要とする処理能力は持たない。

ここで開示された要旨の一態様では、マシンコードもしくは他のソフトウェアを実行するプログラマブルプロセッサを含む１つもしくはそれ以上のマシンによって実行される方法は、受信コンピューティングデバイスにおいて音声発話を受信して音声認識によって処理されるステップと、音声発話を２つもしくはそれ以上の音声発話セグメントにセグメント化するステップと、２つもしくはそれ以上の音声発話セグメントを複数の利用可能な音声認識器の１つに割り当てるステップとを含む。割り当てるステップは、受信コンピューティングデバイスとは別のコンピューティングデバイス上に実装された複数の利用可能な音声認識器の１つの第１の音声認識器によって処理するために２つもしくはそれ以上の音声発話セグメントの第１のセグメントと、受信コンピューティングデバイス上に実装された複数の利用可能な音声認識器の第２の音声認識器によって処理するための２つもしくはそれ以上の音声発話セグメントの第２のセグメントとを指定するステップを含む。第１のセグメントは、受信コンピューティングデバイスから、別の処理を行うコンピューティングデバイスに送信され、第１のセグメント処理結果は、例えばデータネットワークなどを介して別のコンピューティングデバイスから戻されて受信される。第２のセグメントは、受信コンピューティングデバイスにおいて処理されて第２のセグメント処理結果を生成し、第１のセグメント処理結果及び第２のセグメント処理結果を含む完了された音声認識結果は戻される。

本要旨の実施例の選択的な変形例では、１つもしくはそれ以上の付加的な特徴は、含む可能性があるのであってこれらには限定されないのだが、任意の実現可能な組み合わせにおいて含まれる。セグメント化するステップは、受信コンピューティングデバイスにおける１つもしくはそれ以上のプロセッサ上で実装される音響モデルを用いて音声発話を初期分析するステップを選択的に含むことができる。初期分析するステップは、別のコンピューティングデバイスによって受信コンピューティングデバイスよりも効率的に処理される受信された音声発話の特徴を識別することができる。初期分析するステップは、２つもしくはそれ以上の音声発話セグメントの複数のうちの少なくとも１つに対して信頼スコア及びオーディオ品質測定基準を決定するステップを選択的に含むことができる。割り当てるステップは、信頼スコア及びオーディオ品質測定基準の少なくとも１つがそれぞれのしきい値未満であるときに別のコンピューティングデバイス上に実装された第１の音声認識器によって処理するために、第１のセグメントを指定するステップを選択的に含むことができる。それぞれのしきい値は、設計時間において定義されもしくは実行時間において動的に評価される１つもしくはそれ以上の測定基準に基づいて選択的に決定される。受信コンピューティングデバイスは、シンクライアントコンピューティングデバイスもしくは端末を選択的に含むことができ、別のコンピューティングデバイスは、シンクライアントコンピューティングデバイスもしくは端末からデータネットワークを介してアクセス可能な少なくとも１つのサーバを選択的に含むことができる。割り当てるステップは、第１のセグメントが初期分析するステップによって決定されて別のコンピューティングデバイスにおいて受信コンピューティングデバイスよりも速くアクセスできるデータに関連する１つもしくはそれ以上の単語を含むときに、別のコンピューティングデバイス上に実装される第１の音声認識器によって処理するために、第１のセグメントを指定するステップを選択的に含むことができる。第１のセグメント処理結果は、適応された言語モデルを用いて別のコンピューティングデバイスによって実行される第１のセグメントの分析を選択的に含むことができる。適応された言語モデルは、別のコンピューティングデバイスにおいて受信コンピューティングデバイスにおけるよりも速くアクセスできるデータに基づいて選択的に適応化される。

このアプローチと一致するシステム及び方法のみならず、（例えばコンピュータなどの）１つもしくはそれ以上のマシンがここで説明された動作をもたらすように動作可能なタンジブルに具現化されたマシン可読媒体を備えた物が説明される。同様に、プロセッサ及び当該プロセッサに接続されたメモリを含んでもよいコンピュータシステムがまた説明される。メモリは、プロセッサにここで説明される１つもしくはそれ以上の動作を実行させる１つもしくはそれ以上のプログラムを含んでもよい。

ここで説明された要旨の１つもしくはそれ以上の変形例の詳細が添付の図面及び以下の説明文において説明される。ここで説明される要旨の他の特徴及び利点は、説明文及び図面並びに特許請求の範囲から明白となろう。

この明細書に組み込まれ、当該明細書の一部を構成する添付の図面は、ここで開示された要旨の特定の態様をその説明とともに示し、開示された実施例と関係する原理のいくつかを説明する助けとなる。

要旨の実施態様と一致する１つもしくはそれ以上の特徴を有する方法の態様を例示するプロセスフロー図である。要旨の少なくともいくつかの実施態様と一致するシステム特徴を例示する図である。要旨の少なくともいくつかの実施態様と一致する付加的なシステム特徴を例示する図である。要旨の少なくともいくつかの実施態様と一致するソフトウェアアーキテクチャーの特徴を例示する図である。

実際には、同様の参照番号は同様の構造、特徴もしくは素子を示す。

現在、音声認識及び対話管理のために利用可能なシステム及びアプローチには、典型的には、指定されかつ固定された辞書、１つの言語、固定された言語モデル、並びに固定された音響モデルを用いた音声認識器が１つの例として利用される。しかしながら、そのようなアプローチは、一般的には、ユーザが現代の音声認識アプリケーションから期待しそうであるすべての特徴を満たすことはできない。例えば、クライアント側音声認識器は、低いレイテンシー時間（待ち時間）及び速い応答時間を実現することができる。サーバベースの音声認識器は、より高い正解率及びより豊富な語彙を提供できるが、必ずしもデータネットワーク利用可能性の課題もしくは信頼性課題によるユーザ要求に応答するように利用できないかもしれない。これらの課題及び潜在な他の課題を現在利用できる解決策を用いて対処するために、要旨の１つもしくはそれ以上の実施例は、他の可能な利点の中では特に、より豊富な語彙のみならず複数の言語における辞書も処理することができ、かつ音声発話を受信するか、さもなければ入力するためのシンクライアントコンピューティング端末における処理能力及び例えば１つもしくはそれ以上のネットワークアクセスを介してシンクライアントコンピューティング端末からアクセス可能な１つもしくはそれ以上のサーバにおける処理能力の両方を利用できる方法、システム、物もしくは製造を提供する。

要旨のいくつかの態様は、シンクライアントコンピューティングデバイスもしくは端末上で発生する処理の第１の部分と、１つもしくはそれ以上の有線の及び無線のデータ送信を含むネットワークを介してシンクライアントコンピューティングデバイスもしくは端末と通信状態にある１つもしくはそれ以上のサーバで発生する処理の第２の部分とを用いて音声認識発話を処理することを含むことができる。複数の音声認識器は、シンクライアントコンピューティングデバイスもしくは端末上または１つもしくはそれ以上のサーバのいずれか、またはそれらの両方に対して選択的に同時に利用される。対話マネージャは、音声認識器によって生成された結果を管理することができ、それらの結果に基づいて、認識され変換された音声として戻されるべき最も可能性がある結果を決定することができる。対話マネージャは、シンクライアントコンピューティングデバイスもしくは端末上または１つもしくはそれ以上のサーバのいずれかに対して実行することができる。シンクライアントコンピューティングデバイスもしくは端末の１つもしくはそれ以上の局所的プロセッサにおいてまたは１つもしくはそれ以上のサーバにおいて処理するために、シンクライアントコンピューティングデバイスもしくは端末に対話マネージャを実装させることによって、または音声発話をセグメント化することとセグメント化された音声発話と関係するタスクを割り当てることとに関連する対話マネージャ機能の少なくともいくつかの態様を実装させることによって、特定の利点が要旨のいくつかの実施例において実現される。

図１は、要旨の実施例と一致する１つもしくはそれ以上の特徴を例示するプロセスフローチャート１００を図示する。１０２では、対話マネージャは、例えば、他の場所で説明されたシンクライアントコンピューティングデバイスもしくは端末で受信された可聴入力を介して、音声発話を受信する。ここで使用されるように、「対話マネージャ」という用語は、一般的には、話された発話の受信を識別してその受信された発話に対して１つもしくはそれ以上の動作を実行することができる１つもしくはそれ以上のハードウェア及びソフトウェアによって提供される機能に言及する。

１０４で、対話マネージャは、音声発話を（例えば複数の）２つもしくはそれ以上の音声発話セグメントにセグメント化し、１０６で、音声発話のそれぞれのセグメントを複数の音声認識器の１つに割り当てる。セグメント化すること及び割り当てることのそれぞれは、他の箇所でより詳細に説明される１つもしくはそれ以上の定義された基準に従って実行される。複数の音声認識器のそれぞれは、例えば１つもしくはそれ以上の特定のタスクもしくはタスクのカテゴリーに対して個々に構成される。代替例として、複数の音声認識器のうちの１つもしくはそれ以上は、シンクライアントコンピューティングデバイスもしくは端末または１つもしくはそれ以上のサーバシステムのいずれかで実行されて受信された音声発話に対して特定の音声認識タスクを処理するように実行時間で設定される１つもしくはそれ以上の動的に設定可能な音声認識器のプールの一部とできる。各音声認識器インスタンスは、特定の言語に選択的に割り当てられ、詳細後述するようにそれ自身固有の言語モデル、文法モデル、及び音響モデルを有することができる。

１１０では、処理結果は、複数のセグメントを処理する音声認識器から、例えば対話マネージャもしくは他の匹敵する機能などで受信され、１１２において、音声認識結果は戻される。戻された音声認識結果は、シンクライアントコンピューティングデバイスもしくは端末または１つもしくはそれ以上のサーバのうちの１つまたはそれら両方によって更なる処理タスクを選択的に発生することができるし、もしくはトリガーすることができる。

図２は、要旨の１つもしくはそれ以上の特徴と一致するシステムアーキテクチャー２００の例を図示する。シンクライアントコンピューティングデバイスもしくは端末２０２は、１つもしくはそれ以上の有線の及び無線の通信能力を含むことができるネットワーク２０６を介して１つもしくはそれ以上のサーバシステム２０４にアクセスすることができる。いくつかの実施例では、１つもしくはそれ以上のサーバシステム２０４は、１つもしくはそれ以上のサーバシステム２０４にわたって処理負荷を分散することができるバックエンドインターフェース２１０を介してアクセスされる。代替例として、複数のクラウドサーバ２０４のそれぞれは、それ自身のバックエンドインターフェースを介してネットワークによって直接的にアクセスできる。サーバシステム２０４は、例えば、１つもしくはすべてのサーバシステム２０４から、または図２に図示するようにバックエンドインターフェース２１０を介して直接的にアクセスできる１つもしくは複数のデータベースなどのオンラインデータ記憶装置２１２にアクセスできる。１つもしくはそれ以上のサーバシステム２０４、バックエンドインターフェース２１０及びオンラインデータ記憶装置２１２のいずれかまたはすべては、クラウドコンピューティング配置のすべてもしくは一部を含むことができる。例えば、物理的に及び／または仮想的なマシンを含むことができる動的に拡張可能なリソースは、（例えばローカルイントラネット、インターネットなどの）ネットワークを介してアクセスされて処理タスクの分散型処理を可能とすることができる。複数のシンクライアントコンピューティングデバイスもしくは端末２０２は、１つもしくはそれ以上のサーバ２０４のネットワークアクセスされたコンピューティング能力にパラレルでアクセスすることができる。

他の箇所で記載されたように、シンクライアントコンピューティングデバイスもしくは端末２０２は、ネットワークアクセスを有する携帯デバイス（機器）もしくは他のコンピューティングデバイスを含むことができる。そのようなデバイスは、携帯電話に限定されないが、「スマート」フォン、パーソナルデータアシスタント、タブレットコンピューティングデバイス、電子書籍リーダ、ナビゲーションアシスタント、音声認識特徴を有するユーザインターフェースを実行する自動車もしくは他の車両におけるプロセッサ、デスクトップパーソナルコンピュータもしくはラップトップコンピュータ、音声認識特徴を有するユーザインターフェースを実行する家庭のもしくはオフィスの制御システム、またはユーザが音声コマンドを用いて情報のやりとりをすることができる任意の他の匹敵するデバイスもしくはシステムを含むことができる。少なくとも１つのプログラム可能なプロセッサを含むことができるそのようなデバイスは、その少なくとも１つのプログラム可能なプロセッサ上に局所的に実装されたユーザ音響モデルを実装することができる。この局所的に実装されたユーザ音響モデルは、音声認識結果に対するユーザフィードバックを受信することによって、時間にわたってトレーニングされる能力を含むことができる。例えば、ユーザは、ユーザインターフェースと相互作用する（例えば、キーボード、マウス、タッチスクリーン、トラックパッド、音声コマンドなどの）ユーザインターフェースまたは１つもしくはそれ以上の入力デバイスを介して、音声認識結果をレビューして修正して「正確な」もしくは「訂正された」音声認識結果を示す機会が与えられる。そのような入力は、シンクライアントコンピューティングデバイスもしくは端末２０２または１つもしくはそれ以上のサーバ２０４の１つまたはそれら両方に対して実装された音声認識特徴によって提供された初期認識結果をより改良させるように局所的に実装されたユーザ音響モデルに対するフィードバックをトレーニングする役目を果たすことができる。

図３は、要旨の少なくとも１つの実施例と一致する１つもしくはそれ以上の特徴を例示するもう１つのコンピューティングアーキテクチャー図を図示する。いくつかの実施例では、シンクライアントコンピューティングデバイスもしくは端末２０２は、音声認識機能を提供する１つもしくはそれ以上のクライアント側モジュール３０４を実行し、シンクライアントコンピューティングデバイスもしくは端末２０２において受信された音声発話の認識に関連するデータコンテンツを格納する１つもしくはそれ以上のローカルデータベース３０６にアクセスする１つもしくはそれ以上のプログラム可能なプロセッサ３０２を含むことができる。有利に、少なくとも１つのクライアント側モジュール３０４は、文脈自由文法（ＣＦＧ）に基づくローカル音声認識器を含む。付加的なクライアント側モジュール３０４は、これらには限定されないが、ユーザ音響モデル、クライアントサーバ対話マネージャ、適応された言語モデル（ＬＭ）などを含むことができる。局所的なデータベースには、例えば位置情報サービス（ＬＢＳ）データ用にキャッシュされた文法、電子メール及びデバイスの１人もしくは複数のユーザによって送信及び／または受信された（例えばＳＭＳメッセージなどの）他のテキストベースのメッセージのすべてもしくはサブセット、コンタクトリスト及び／または他のアドレスブックデータ、（例えばアポイントメント、タスクリストなどの）少なくとも一部の１人（もしくは複数の）ユーザのカレンダーデータ、（例えば音楽、ビデオ、写真などの）媒体コンテンツ、（例えば現在の及び過去などの）時間及び位置データ、（例えばソーシャルメディアサービスプロバイダーに対するフレンドリストなどの）デバイスの１人もしくは複数のユーザの社会的関係に関するデータ、（例えばソーシャルメディアのフレンドプロキシミティマップなどの）社会的関係に関するプロキシミティデータなどを選択的に含むことができる。一般的には、音声認識に関連する文法としての用語「文法」は、音声認識器の認識能力範囲内である単語シーケンスに対する制約タイプを示す。文法は、例えば特定の音声認識タスクによって定義もしくはパラメータ化されるように、語彙規則及び構文規則だけでなく意味制約及び語用論的制約もカバーすることができる。

また、図３の符号３００の図において図示されるように、１つもしくはそれ以上のサーバ２０４のそれぞれは、全体の音声認識機能の１つもしくはそれ以上の態様をサポートする１つもしくはそれ以上のサーバ側モジュール３１０を実行するプログラム可能なプロセッサ３０２を含むことができる。例えば、サーバ側モジュール３１０は、これらには限定されないが、サーバ２０４に同期する音響モデル、統計的言語モデルに基づく音声認識器モジュール、サーバ側対話マネージャモジュール、時間的もしくは位置的のいずれかの制約があるまたは時間的及び位置的制約のある適応された言語モデル、パラレルで使用される適応された言語モデル及び統計的言語モデル（ＳＬＭ）、１つもしくはそれ以上のユーザ電子メールから構築された適応された言語モデル、ユーザに対する位置ベースのサービスデータ、対象のポイントデータ、ソーシャルメディアフィード、カレンダーアポイントメント、クラウドメディアコンテンツ、クラウド格納された文書などを含むことができる。ユーザ特定のデータが、考えられるすべての利用可能なデータを用いてフィルタリングされないで使用されるか、または１つもしくはそれ以上のアルゴリズムが、例えば年齢や１つもしくはそれ以上の予め定義されたもしくは派生された基準に従って決定される関連性によってそのようなデータをフィルタリングするなどのために適応された言語モデルの一部として適用される。ユーザ音響モデルは、利用可能なデータに基づいて時間にわたってトレーニングされる。いくつかの例では、適応された言語モデルは、時間的制約及び位置的制約の両方を設けることができる。

音声認識プロセスと関連するタスクの一部は、（例えば、磁気、光学もしくは固体の記憶装置などに、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）などに、加入者識別モジュール（ＳＩＭ）カード上などに、セキュアデジタル（ＳＤ）カードやセキュアなデジタル拡張された容量カードなどの着脱可能な記憶装置上に、または内部に集積化された、直接的にもしくは内部に取り付け可能な他の磁気、光学もしくは固体などのデバイスなどに）保持されるか、もしくは格納される。さもなければ、音声認識プロセスと関連するタスクの一部は、シンクライアントコンピューティングデバイスもしくは端末２０２から（例えば、例えばＷｉＦｉやブルートゥースアクセスや赤外線通信などのローカルエリアネットワークなどの）高速のネットワークアクセスを介してアクセス可能であるデータを含むことができる。そのようなデータは、これらには限定されないが、コンタクト、カレンダーアイテム、ビデオゲーム、局所的に格納された電子メールメッセージなどを含むことができる。いくつかの実施例では、そのようなデータに関連する音声認識タスクは、シンクライアントコンピューティングデバイスもしくは端末２０２において最も効率的に処理される。

いくつかの実施例では、よりコンピュータ集約的であるかまたは１つ以上のサーバもしくは他のクラウドコンピューティングシステムにより容易にアクセス可能であるタスクの一部は、サーバ側で処理される。そのようなタスクは、これらには限定されないが、電子メールもしくはテキストメッセージの本文のディクテーション、（例えばクラウドにおけるなどの）オンラインで格納された音楽もしくはビデオコレクションにアクセスすること、ユーザに対して音響プロファイルを決定することを含むタスク、異なる言語で一度に複数の音声認識器を使用することを含むタスクなどを含むことができる。いくつかの実施例では、異なる言語で一度に複数の音声認識器を使用することを含むタスクは、例えばシンクライアントコンピューティングデバイスの処理能力や利用可能なネットワークアクセスの品質やネットワーク帯域制限などによって、サーバ側もしくはシンクライアントコンピューティング側のいずれかまたはそれらの両方で処理される。

音声認識器もしくは要旨と一致する他の音声認識機能を呼び出すアプリケーションの性質によって、対話スクリプト設計者、開発者もしくは開発チームは、例えば（例えば実行時間より前などの）設計時間の間などで、受信された発話内のどのポイントで（例えば携帯デバイスなどの）シンクライアントでの音声認識と関連付けされたタスクの処理と１つもしくは複数のサーバとの間の切り替えが行われるべきかを決定することができるか、さもなければ定義することができる。１つもしくはそれ以上のアルゴリズム、評価または１つ以上の実行時間パラメータもしくは他の変数、決定ポイントなどが、アプリケーションの実行時間バージョン内または受信された音声を（例えばフレーズ、セクションなどの）２つもしくはそれ以上の部分に構成要素を分析してシンクライアントコンピューティングデバイスもしくはネットワークを介してアクセスされた１つもしくはそれ以上のサーバのいずれかまたはそれら両方で処理するためにこれらの部分を割り当てるために音声認識器もしくは他の音声認識機能を実装するソフトウェアもしくはハードウェア内に含まれる。

また、要旨の１つもしくはそれ以上の実施例内において、単一の音声発話内で文章の半分でもしくは他の箇所で言語間を切り替えるための能力、並びに／またはパラレルで同一言語において複数の音声認識器を使用して正解率を上げ、及び／もしくは音声発話を創造した話し手に対して適切な音響プロファイル及び基本周波数を決定するための能力が可能となる。そのようなアプローチを使用すれば、（例えば音声認識機能のユーザなどの）各話し手に対するプロファイルを学習して最適化することが改良される。言語間の切り替えポイント、音声発話の分割、複数の音声認識器のパラレルでの使用などを定義する方法に関する決定は、（例えば対話マネージャ内に予めプログラミングされるなどの）設計時間において行われる。代替例として、対話マネージャは、実行時間において実行されて音声発話がセグメント化されるべき方法を決定する、例えばロジック、ファジーロジック、人工知能などの１つもしくはそれ以上のルーティンまたはアルゴリズムを用いてプログラミングされる。対話マネージャは、そのモデリング言語内で、戻された結果に基づいて決定することができ、その決定は手元でのタスク及びアプリケーションに対して特定とすることができる。

要旨の実施例と一致するいくつかの特徴の例示的な例において、音声発話として受信されたサンプル文章を、“Send a text message to Mike Smith and tell him to wash the dishes.（テキストメッセージをマイク・スミスに送り、彼に皿を洗うことを告げる。）”とできる。この文章は、シンクライアントコンピューティング端末での第１の音声認識器によって処理されるべき第１のセグメントと、１つもしくはそれ以上のサーバにおける第２の音声認識器によって処理されるべき第２のセグメントとに分割される。第１のセグメントは、ＳＭＳメッセージ及び意図された受信者の名前を送信するためのコマンドを含む発話の第１の部分を含むことができる。第２のセグメントは、テキストメッセージ内に含まれるべき付加的な情報を含むことができる。例えば、シンクライアントコンピューティング端末での音声認識器Ａは、＜sendSMS＞及び＜person name＞の認識タスクが割り当てられる一方で、１つもしくはそれ以上のサーバでの音声認識器Ｂは、＜SLM:dictation＞の認識タスクが割り当てられる。これらの認識タスクは、以下のように定義される。すなわち、＜sendSMS＞は、テキストメッセージを送信するためのコマンドを示す例えば“Send a text message to”、“Send a message to”、“Send an SMS to”などの１つもしくはそれ以上の動詞の発話セグメントを識別することができる。＜person name＞認識タスクは、１つの例では、シンクライアントコンピューティングデバイス上の辞書もしくはコンタクトリスト内に格納されるコンタクトを検索（サーチ）することができる。

ある例では、サンプルフレーズの第１の部分は、デバイス上で文脈自由文法（ＣＦＧ）としてモデル化され、文章の第２の部分は、１つもしくはそれ以上のサーバにおいてもしくは「クラウド内において」ホストされた統計的言語モデル（ＳＬＭ）ベースの認識器を使用することができる。文脈自由文法は、自然な言語におけるフレーズがより小さなブロックから構築されるための方法を説明するための、シンプルでかつ数学的に正確なメカニズムを提供することができる。このアプローチは、自然な方法で文章の「ブロック構造」を捕捉することを可能とできる。また、このアプローチは、単語の強さが文法から発生されたかどうか及び単語の強さが文法からどのように発生されたかを所定の単語の文字列に対して決定することができる効率的な文解析アルゴリズムをサポートできる。一般的に、ＳＬＭは、自然言語の分布を評価するときに用いるための一連の単語例に対してある確率を割り当てる。例えば、ＳＬＭは、文字列Ｓが文章としてどれくらい発生するかを反映しようとする文字列Ｓに対する確率分布Ｐ（Ｓ）を含むことができる。そのようなモデルは典型的に、言語の特性を捕捉しようとし、音声発話における目標とする単語に先行する１つもしくはそれ以上の単語に基づいて、音声シーケンスにおいて次の単語を予測しようとする。

上述されたようなスクリプトフォーマットに続き、発話された対話の部分の任意の組み合わせは、クライアント上の文脈自由文法、１つもしくはそれ以上のサーバでのまたはクラウド上の文脈自由文法、クライアント上の統計的言語モデリング、及び１つもしくはそれ以上のサーバでのまたはクラウド上の統計的言語モデリング間、すなわち同一の音声発話内のすべての間で自由に混合することができるオブジェクト指向のフラグメントとして指定される。この設計は、開発の柔軟性のためにユーザインターフェースの話された言語部分から可能な限りのスピード及び精度を得ることを可能とする。また、（例えばクラウドにおけるなどの）１つもしくはそれ以上のサーバでの音声認識はコンピュータ的に費用がかかるはずなので、ここで説明されたアプローチのインテリジェントな（知的な）使用は、いくつかの実施例では、データ帯域幅使用量の７０％もしくはそれ以上の節約を可能とする一方で、ユーザに対してより速い往復応答時間を保証することができる。

要旨の実施例と一致するアプローチを利用する音声発話応答タイプのもう１つの例は、１つもしくはそれ以上のサーバまたはクラウドからシンクライアントコンピューティングデバイスへのネットワークを介してストリーミングされるように利用可能なオーディオ、ビデオなどに対応する歌、アーティスト、プレイリストなどやフィードのサーバ側認識を用いた“ｐｌａｙ”コマンドのシンクライアントコンピューティングデバイスもしくは端末２０２における認識を含むことができる。例えば、このシナリオにおける動作は、＜client:recognizer A＞＜play＞＜/client:recognizer A＞＜cloud:recognizer B＞＜musicstreamingfromcloud＞＜/cloud:recognizer B＞と要約できる。ここで、＜play＞は、例えば“Play”、“Play for me”、“could you please play”などの動詞の文字列として定義される。

サーバ側のデータは、これらには限定されないが、電子メール、テキストメッセージ、カレンダー入力、“to-do”もしくは他のタスクリスト入力、（例えばフェースブック（登録商標）、ツイッター（登録商標）、グーグルプラス（登録商標）、リンクトイン（登録商標）などからのフィードを含む）ソーシャルメディアフィード、音楽コレクションもしくはストリーミング音楽またはクラウドもしくは他のオンラインソースから利用可能な他のメディアソースなどを含むことができる。適応された言語モデルを提供するサーバ側モジュールは、１つもしくはそれ以上のそのようなデータソースのみならず他のデータソースを使用して適応された言語モデルを構築して改良することができる。

最近のデータは、ネットワークアクセスの必要性なしにより広範囲の音声認識特徴をサポートするデータ転送プロセスにおいて、（例えば周期的なプル、更新プロセスなどを介して、）シンクライアントコンピューティングデバイスもしくは端末２０２へプッシュされるか、さもなければ転送される。１つの例では、そのようなデータ転送プロセスは、他のネットワークアクティビティが低いバックグラウンドにおいて実行される。ユーザはそのような転送がいつ発生すべきかを決定するための設定を選択的に調整することができる。例えば、ユーザは、制限されたセルラーデータサービスプランを用いて、彼のもしくは彼女の電話もしくは他のシンクライアントコンピューティングデバイスもしくは端末２０２が、例えば（例えば８０２．１１＿プロトコルに基づいたネットワークなどを介した）ＷｉＦｉアクセスもしくは有線アクセスによるなどの非セルラーネットワークにアクセスされるときだけにそのようなデータ転送が実行されるように選択されてもよい。選択的にまた、文法が、１つもしくはそれ以上のサーバ２０４上でとシンクライアントコンピューティングデバイスもしくは端末２０２での両方で利用可能なデータを用いて動的に構築される。

図４の構成要素４００の図において例示されるように、開発者によって準備された対話スクリプト４０２は、対話マネージャ４０４のために、１つのもしくは複数のセットのタスク及び語彙を定義する。対話マネージャ４０４は、複数の異なる音声認識器４０６に同時にアクセスされる。留意すべきことは、３つの音声認識器４０６が図４で図示される一方で、要旨の範囲内で任意の数の音声認識器が可能である、ということである。ここで説明された音声認識器４０６は、音響モデル４１０、言語モデル４１２及び文法モデル４１４を含むことができる。

要旨の１つもしくはそれ以上の実施例と一致する音声認識システムによって経験されそうである音声認識要求の性質を理解するかもしくは予測する設計時間に基づいて、対話スクリプト４０２は、検出された動詞の発話のそれぞれの特定の部分を処理するためにどの音声認識器４０６を使用するかを決定するときに支援する１つもしくはそれ以上のアルゴリズムまたは基準を含むことができる。対話マネージャ４０４及び対話スクリプト４０２は、種々の実施例では、（例えばクラウド内などの、）１つもしくはそれ以上のサーバ２０４上に、シンクライアントコンピューティング端末２０２上に、またはシンクライアントコンピューティングデバイスもしくは端末２０２及び１つもしくはそれ以上のサーバ２０４の両方の少なくとも部分的に存在することができる。

種々の実施例では、１つもしくはそれ以上の音声認識器４０６は、同一言語内もしくは異なる言語内で存在することができる。音声認識器４０６は、単一のデバイス上でもしくは複数の異なるデバイス上で存在することができる。１つもしくはそれ以上の音声認識器４０６は、固有の音響モデル４１０を含むことができる。代替例として、１つもしくはそれ以上の音声認識器４０６は、同一の音響モデル４１０を含むことができる。同様に、１つもしくはそれ以上の音声認識器４０６は、固有の言語モデル４１２を含むことができる。代替例として、１つもしくはそれ以上の音声認識器４０６は、同一の言語モデル４１２を含むことができる。またさらに、１つもしくはそれ以上の音声認識器４０６は、固有の文法モデル４１４を含むことができる。代替例として、１つもしくはそれ以上の音声認識器３０６は、同一の文法モデル４１４を含むことができる。また、１つもしくはそれ以上の音声認識器３０６は、固有の辞書を含むことができる。代替例として、１つもしくはそれ以上の音声認識器３０６は、同一の辞書を含むことができる。

使用された音声認識器の数は、クライアント要求及びデバイス負荷に基づいて動的に決定される。システムの状態は、シンクライアントコンピューティングデバイスもしくは端末２０２から１つもしくはそれ以上のサーバ２０４へ転送され、及び／または１つもしくはそれ以上のサーバからシンクライアントコンピューティング端末２０２へと戻される。いくつかの例では、（例えば、電子メール及びテキストメッセージのコンテンツ、受信者並びに送信者、シンクライアントコンピューティングデバイスもしくは端末２０２に対する時間及び位置データ、カレンダーコンテンツ、メディアコンテンツ、ソーシャルメディアコンテンツ、並びに別の箇所で説明されたデータを含む他の同様のデータなどの）局所的に利用可能なデータの使用を含むことができるシンクライアントコンピューティングデバイスもしくは端末２０２の音響モデルが動的に適応化される。１つもしくはそれ以上のサーバ２０４で使用された適応された言語モデルはまた、記憶装置２０２内においてすぐに利用可能であるか、さもなければ１つもしくはそれ以上のサーバ２０４へアクセス可能であるデータを利用することができる。

シンクライアントコンピューティングデバイスもしくは端末２０２と、１つもしくはそれ以上のサーバ２０４との間の音声認識処理タスクの分割は、上述した１つもしくはそれ以上のファクタに基づいて決定される。いくつかの例では、設計時間アルゴリズムもしくは実行時間パラメータ評価の定義は、クライアントとサーバとの間でタスクを分割するときに支援するために提供される。１つの例では、信頼スコア及び信号対ノイズ比は、受信された音声発話の１つもしくはそれ以上のセグメントのそれぞれに対して割り当てられる。信号対ノイズ比は、指示子とすることができるし、さもなければ受信された音声発話のオーディオ信号の品質を示す測定基準として使用される。シンクライアントコンピューティングデバイスもしくは端末２０２で受信された音声発話を処理する音響モデルを用いて実行される初期分析は、いくつかの例では、信頼スコアを提供することができる。１つもしくはそれ以上のしきい値は、信頼スコアと信号対ノイズ比もしくは他のオーディオ品質測定基準との両方に対して事前に定義される。それらのそれぞれのしきい値を超える信頼スコア及びオーディオ品質測定基準を有する受信された音声発話のセグメントに対して、セグメントがシンクライアントコンピューティングデバイスもしくは端末２０２において処理するために割り当てられる。一方、（例えば事前に定義された信頼スコアしきい値未満などの）低い信頼スコアを有するセグメントは、信号対ノイズ比にかかわらず、１つもしくはそれ以上のサーバ２０４において処理するために選択的に割り当てられる。

信頼レベルとオーディオ品質測定基準との両方に対するしきい値設定は、音声発話が発生するか、もしくは受信される予想されたもしくは実際の環境のみならず音声発話を受信するように使用された機器もしくはデバイスのタイプに基づいて、選択的に決定される。例えば、例えば自動車、公共の開催地などの非常に大きな背景雑音もしくは周囲雑音を有する環境は、例えば家、事務所などのより低いと予想された背景雑音を有するより静かな環境とは異なったしきい値が割り当てられる。シンクライアントコンピューティングデバイスもしくは端末２０２または他の音声発話受信デバイスは、雑音消去デバイスや多数の携帯電話などの存在に基づいて分類され、高いもしくは低い信頼スコア及び／または音響品質測定基準を決定するためのしきい値がそれに従って調整される。同様に、音声認識機能によって受信されかつ処理されるように期待された動詞タイプの入力が、適応される言語モデルで使用するために必要なデータの利用可能性、ネットワークアクセス及び帯域幅の利用可能性及びコストなどである、適切なしきい値を決定するときに使用される。いくつかの例では、（例えばおよそ４０ｄＢなどの）最小しきい値未満の信号対ノイズ比を有する音声発話セグメントは、実用的に粗悪な品質を有するとして識別される一方で、（例えばおよそ６０ｄＢなどの）次のしきい値未満であるが最小しきい値よりも大きな信号対ノイズ比を有する第２の音声発話は、より大きな処理能力が利用可能である１つもしくはそれ以上のサーバ２０４で処理することを必要とする低い品質を有するとして識別される。（例えばおよそ６０ｄＢなどの）次のしきい値よりも大きな信号対ノイズ比を有する第３の音声発話セグメントは、必要とされる処理能力がより低くなるように期待されるので、シンクライアントコンピューティングデバイスもしくは端末２０２において処理することを可能とする高い品質を持つとして識別される。

ここで説明された要旨の１つもしくはそれ以上の態様または特徴は、デジタル電子回路、集積回路、特別に設計された特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）コンピュータハードウェア、ファームウェア、ソフトウェア、並びに／またはそれらの組み合わせにおいて実現される。これらの種々の態様または特徴は、特別のもしくは一般的な目的とすることができ、記憶装置システム、少なくとも１つの入力デバイス及び少なくとも１つの出力デバイスからのデータ及びコマンドを受信してデータ及びコマンドを記憶装置システム、少なくとも１つの入力デバイス及び少なくとも１つの出力デバイスに送信するように接続された少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能な及び／または解釈可能な１つもしくはそれ以上のコンピュータプログラムにおける実装を含むことができる。

プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリケーション、構成要素、またはコードともまた呼ばれるこれらのコンピュータプログラムは、プログラマブルプロセッサに対するマシンコマンドを含み、これらのコンピュータプログラムは、ハイレベルの手続き型プログラミング言語及び／もしくはオブジェクト指向型プログラミング言語において、並びに／またはアセンブリ／マシン言語において実装される。ここで使用されるように、「マシン可読媒体」という用語は、マシンコマンド及び／またはデータをマシン可読信号としてマシンコマンドを受信するマシン可読媒体を含むプログラマブルプロセッサに提供するために使用された、例えば磁気ディスク、光学ディスク、メモリ及びプログラマブルロジックデバイス（ＰＬＤ）などの任意のコンピュータプログラム製品、装置及び／またはデバイスに言及する。「マシン可読信号」という用語は、マシンコマンド及び／またはデータをプログラマブルプロセッサに提供するように使用された任意の信号に言及する。マシン可読媒体は、例えば非一時的な固体メモリもしくは磁気ハードディスクまたは任意の同等の記憶媒体などに格納するであろうように非一時的にそのようなマシンコマンドを格納することができる。代替にもしくは付加的に、マシン可読媒体は、例えば１つもしくはそれ以上の物理的なプロセッサコアと関連するプロセッサキャッシュまたは他のランダムアクセスメモリなどに格納するような一時的な方法で、そのようなマシンコマンドを格納することができる。

ユーザとの相互作用を提供するために、ここで説明された要旨の１つもしくはそれ以上の態様もしくは特徴は、例えばユーザに情報を表示するためのブラウン管（ＣＲＴ）もしくは液晶ディスプレイ（ＬＣＤ）もしくは発光ダイオード（ＬＥＤ）モニターなどの表示デバイス並びにキーボード及びコンピュータに入力するために提供されてもよい例えばマウスもしくはトラックボールなどのポインティングデバイスを有するコンピュータ上に実装される。ユーザとの相互作用を提供するために他の種類のデバイスがまた使用される。例えば、ユーザに提供されるフィードバックは、例えば視覚フィードバック、聴覚フィードバックもしくは触覚フィードバックなどの任意の形態の感覚フィードバックとすることができるし、ユーザからの入力は、これらには限定されないが、音響、音声もしくは触覚入力を含む任意の形態で受信されてもよい。他の可能性がある入力デバイスは、これらには限定されないが、タッチスクリーンまたは例えばシングルポイントもしくはマルチポイントの抵抗もしくは容量性のトラックパッドなどの他のタッチ感知力を有するデバイス、音声認識ハードウェア及びソフトウェア、光学スキャナ、光学ポインタ、デジタル画像捕捉デバイス及び関連する解釈ソフトウェアなどを含む。アナライザから遠隔にあるコンピュータは、有線もしくは無線ネットワークを介してアナライザにアクセスされ、（例えば、遠隔にあるコンピュータにおいてアナライザからデータを受信して例えば校正データなどの情報を送信することやパラメータまたはソフトウェアのアップグレードもしくは更新を操作することなどの、）アナライザと遠隔のコンピュータとの間のデータ交換のみならずアナライザの遠隔制御や遠隔診断を可能にする。

ここで説明された要旨は、システム、装置、方法及び／または所望の構成に基づく物において具現化される。上述された実施例は、ここで説明された要旨と一致するすべての実施例を示さない。代わりに、それらは、説明された要旨を関連する態様と一致する単なるいくつかの例である。２，３の変形例が詳細上述されたのだが、他の修正もしくは追加が可能である。特に、更なる特徴及び／または変形がここで説明された特徴及び／または変形に加えて提供される。例えば、上述された実施例は、開示された特徴の種々のコンビネーション及びサブコンビネーション、並びに／または上述されたいくつかの更なる特徴のコンビネーション及びサブコンビネーションへと導かれる。また、添付された図面で図示された及び／またはここで説明されたロジックフローは、所望の結果を得るためには、必ずしも図示された特定の順番または連続的な順番である必要はない。他の実施例が以下の特許請求の範囲の範囲内で存在してもよい。

Claims

少なくとも１つのプログラマブルプロセッサを含むコンピューティングシステムによって実行されるときに、上記コンピューティングシステムに動作を実行させるコマンドを格納するコンピュータ可読記憶媒体を備えたコンピュータプログラム製品であって、
上記動作は、
受信コンピューティングデバイスにおいて、音声発話を受信して音声認識によって処理されるステップと、
上記音声発話を２つもしくはそれ以上の音声発話セグメントにセグメント化するステップと、
上記２つもしくはそれ以上の音声発話セグメントのそれぞれを複数の利用可能な音声認識器の１つに割り当てるステップとを含み、
上記割り当てるステップは、上記受信コンピューティングデバイスとは別のコンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の１つの第１の音声認識器によって処理するために上記２つもしくはそれ以上の音声発話セグメントの第１のセグメントと、上記受信コンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の第２の音声認識器によって処理するための上記２つもしくはそれ以上の音声発話セグメントの第２のセグメントとを指定することを含み、
上記動作は、
上記第１のセグメントを上記受信コンピューティングデバイスから、処理を行う上記別のコンピューティングデバイスに送信するステップと、
第１のセグメント処理結果を上記別のコンピューティングデバイスから戻されて受信するステップを含み、
上記送信するステップと上記受信するステップとは、データネットワークを介して行われ、
上記動作は、
上記受信コンピューティングデバイスにおいて上記第２のセグメントを処理して第２のセグメント処理結果を生成するステップと、
完了された音声認識結果を戻すステップとを含み、
上記完了された音声認識結果は、上記第１のセグメント処理結果及び上記第２の処理結果を含むコンピュータプログラム製品。
上記セグメント化するステップは、
上記受信コンピューティングデバイスにおいて、１つもしくはそれ以上のプロセッサ上に実装された音響モデルを用いて、上記音声発話を初期分析することを含み、
上記初期分析するステップは、上記別のコンピューティングデバイスによって上記受信コンピューティングデバイスよりも効率的に処理される上記受信された音声発話の特徴を識別する請求項１記載のコンピュータプログラム製品。
上記初期分析するステップは、
上記２つもしくはそれ以上の音声発話セグメントの少なくとも１つに対して、信頼スコア及びオーディオ品質測定基準を決定することを含む請求項２記載のコンピュータプログラム製品。
上記割り当てるステップは、
上記信頼スコア及び上記オーディオ品質測定基準の少なくとも１つが各しきい値未満であるときに上記別のコンピューティングデバイス上に実装された上記第１の音声認識器によって処理するために、上記第１のセグメントを指定することを含み、
上記各しきい値は、設計時間において定義されもしくは実行時間において動的に評価される１つもしくはそれ以上の測定基準に基づいて決定される請求項３記載のコンピュータプログラム製品。
上記受信コンピューティングデバイスは、シンクライアントコンピューティングデバイスもしくは端末を備え、
上記別のコンピューティングデバイスは、上記シンクライアントコンピューティングデバイスもしくは端末から上記データネットワークを介してアクセス可能な少なくとも１つのサーバを備える請求項１から４のうちのいずれか１つに記載のコンピュータプログラム製品。
上記割り当てるステップは、
上記第１のセグメントが上記初期分析するステップによって決定されて上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスよりも速くアクセスできるデータに関連する１つもしくはそれ以上の単語を含むときに、上記別のコンピューティングデバイス上に実装される上記第１の音声認識器によって処理するために、上記第１のセグメントを指定することを含む請求項１から５のうちのいずれか１つに記載のコンピュータプログラム製品。
上記第１のセグメント処理結果は、適応される言語モデルを用いて上記別のコンピューティングデバイスによって実行される上記第１のセグメントの分析を含み、
上記適応される言語モデルは、上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスにおけるよりも速くアクセスできるデータに基づいて適応化される請求項６記載のコンピュータプログラム製品。
少なくとも１つのプログラマブルプロセッサを含むコンピューティングデバイスと、コンピューティングシステムによって実行されるときに、上記コンピューティングシステムの上記少なくとも１つのプログラマブルプロセッサに動作を実行させるコマンドを格納するコンピュータ可読記憶媒体とを備えた受信コンピューティングデバイスであって、
上記動作は、
受信コンピューティングデバイスにおいて、音声発話を受信して音声認識によって処理されるステップと、
上記音声発話を２つもしくはそれ以上の音声発話セグメントにセグメント化するステップと、
上記２つもしくはそれ以上の音声発話セグメントのそれぞれを複数の利用可能な音声認識器の１つに割り当てるステップを含み、
上記割り当てるステップは、上記受信コンピューティングデバイスとは別のコンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の１つの第１の音声認識器によって処理するために上記２つもしくはそれ以上の音声発話セグメントの第１のセグメントと、上記受信コンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の第２の音声認識器によって処理するための上記２つもしくはそれ以上の音声発話セグメントの第２のセグメントとを指定することを含み、
上記動作は、
上記第１のセグメントを上記受信コンピューティングデバイスから、処理を行う上記別のコンピューティングデバイスに送信するステップと、
第１のセグメント処理結果を上記別のコンピューティングデバイスから戻されて受信するステップとを含み、
上記送信するステップと上記受信するステップとは、データネットワークを介して行われ、
上記動作は、
上記受信コンピューティングデバイスにおいて上記第２のセグメントを処理して第２のセグメント処理結果を生成するステップと、
完了された音声認識結果を戻すステップとを含み、
上記完了された音声認識結果は、上記第１のセグメント処理結果及び上記第２の処理結果を含む受信コンピューティングデバイス。
上記セグメント化するステップは、
上記受信コンピューティングデバイスにおいて、１つもしくはそれ以上のプロセッサ上に実装された音響モデルを用いて、上記音声発話を初期分析することを含み、
上記初期分析するステップは、上記別のコンピューティングデバイスによって上記受信コンピューティングデバイスよりも効率的に処理される上記受信された音声発話の特徴を識別する請求項８記載の受信コンピューティングデバイス。
上記初期分析するステップは、
上記２つもしくはそれ以上の音声発話セグメントの少なくとも１つに対して、信頼スコア及びオーディオ品質測定基準を決定することを含む請求項９記載の受信コンピューティングデバイス。
上記割り当てるステップは、
上記信頼スコア及び上記オーディオ品質測定基準の少なくとも１つが各しきい値未満であるときに上記別のコンピューティングデバイス上に実装された上記第１の音声認識器によって処理するために、上記第１のセグメントを指定することを含み、
上記各しきい値は、設計時間において定義されもしくは実行時間において動的に評価される１つもしくはそれ以上の測定基準に基づいて決定される請求項１０記載の受信コンピューティングデバイス。
上記受信コンピューティングデバイスは、シンクライアントコンピューティングデバイスもしくは端末を備え、
上記別のコンピューティングデバイスは、上記シンクライアントコンピューティングデバイスもしくは端末から上記データネットワークを介してアクセス可能な少なくとも１つのサーバを備える請求項８から１１のうちのいずれか１つに記載の受信コンピューティングデバイス。
上記割り当てるステップは、
上記第１のセグメントが上記初期分析するステップによって決定されて上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスよりも速くアクセスできるデータに関連する１つもしくはそれ以上の単語を含むときに、上記別のコンピューティングデバイス上に実装される上記第１の音声認識器によって処理するために、上記第１のセグメントを指定することを含む請求項８から１２のうちのいずれか１つに記載の受信コンピューティングデバイス。
上記第１のセグメント処理結果は、適応される言語モデルを用いて上記別のコンピューティングデバイスによって実行される上記第１のセグメントの分析を含み、
上記適応される言語モデルは、上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスにおけるよりも速くアクセスできるデータに基づいて適応化される請求項１３記載の受信コンピューティングデバイス。
少なくとも１つのプログラマブルプロセッサを含むコンピューティングシステムを備えた受信コンピューティングデバイスにおいて、音声発話を受信して、音声認識によって処理されるステップと、
上記コンピューティングシステムによって、上記音声発話を２つもしくはそれ以上の音声発話セグメントにセグメント化するステップと、
上記コンピューティングシステムによって、上記２つもしくはそれ以上の音声発話セグメントのそれぞれを複数の利用可能な音声認識器の１つに割り当てるステップとを含む方法であって、
上記割り当てるステップは、上記受信コンピューティングデバイスとは別のコンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の１つの第１の音声認識器によって処理するために上記２つもしくはそれ以上の音声発話セグメントの第１のセグメントと、上記受信コンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の第２の音声認識器によって処理するための上記２つもしくはそれ以上の音声発話セグメントの第２のセグメントとを指定することを含み、
上記方法は、
上記コンピューティングシステムによって、上記第１のセグメントを上記受信コンピューティングデバイスから、処理を行う上記別のコンピューティングデバイスに送信するステップと、
上記コンピューティングシステムによって、第１のセグメント処理結果を上記別のコンピューティングデバイスから戻されて受信するステップを含み、
上記送信するステップと上記受信するステップとは、データネットワークを介して行われ、
上記方法は、
上記コンピューティングシステムによって、上記受信コンピューティングデバイスにおいて上記第２のセグメントを処理して第２のセグメント処理結果を生成するステップと、
上記コンピューティングシステムによって、完了された音声認識結果を戻すステップとを含み、
上記完了された音声認識結果は、上記第１のセグメント処理結果及び上記第２の処理結果を含む方法。
上記セグメント化するステップは、
上記受信コンピューティングデバイスにおいて、１つもしくはそれ以上のプロセッサ上に実装された音響モデルを用いて、上記音声発話を初期分析することを含み、
上記初期分析するステップは、上記別のコンピューティングデバイスによって上記受信コンピューティングデバイスよりも効率的に処理される上記受信された音声発話の特徴を識別する請求項１５記載の方法。
上記初期分析するステップは、
上記２つもしくはそれ以上の音声発話セグメントの少なくとも１つに対して、信頼スコア及びオーディオ品質測定基準を決定することを含む請求項１６記載の方法。
上記割り当てるステップは、
上記信頼スコア及び上記オーディオ品質測定基準の少なくとも１つが各しきい値未満であるときに上記別のコンピューティングデバイス上に実装された上記第１の音声認識器によって処理するために、上記第１のセグメントを指定することを含み、
上記各しきい値は、設計時間において定義されもしくは実行時間において動的に評価される１つもしくはそれ以上の測定基準に基づいて決定される請求項１７記載の方法。
上記受信コンピューティングデバイスは、シンクライアントコンピューティングデバイスもしくは端末を備え、
上記別のコンピューティングデバイスは、上記シンクライアントコンピューティングデバイスもしくは端末から上記データネットワークを介してアクセス可能な少なくとも１つのサーバを備える請求項１５から１８のうちのいずれか１つに記載の方法。
上記割り当てるステップは、
上記第１のセグメントが上記初期分析するステップによって決定されて上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスよりも速くアクセスできるデータに関連する１つもしくはそれ以上の単語を含むときに、上記別のコンピューティングデバイス上に実装される上記第１の音声認識器によって処理するための上記第１のセグメントを指定することを含む請求項１５から１９のうちのいずれか１つに記載の方法。