JP2013541042A

JP2013541042A - 音声対応アプリケーション・プログラムに入力を与える方法および装置

Info

Publication number: JP2013541042A
Application number: JP2013528268A
Authority: JP
Inventors: カーテイルズ，ジョン，マイケル
Original assignee: ニュアンスコミュニケーションズ，インコーポレイテッド
Priority date: 2010-09-08
Filing date: 2011-09-07
Publication date: 2013-11-07
Also published as: KR20130112885A; EP2591469A1; US20120059655A1; CN103081004A; CN103081004B; WO2012033825A1

Abstract

いくつかの実施形態は、音声対応アプリケーション・プログラムのために意図された音声入力を、スマートフォンのような、前記音声対応アプリケーション・プログラムを実行するコンピュータに接続されていないモバイル通信装置に与えることを許容することに向けられる。モバイル通信装置は、ユーザーの音声入力をオーディオ・データとして、サーバー上で実行されているブローカー・アプリケーションに与えてもよい。ブローカー・アプリケーションは、受領されたオーディオ・データがどのコンピュータに与えられるべきかを判別する。ブローカー・アプリケーションは、オーディオ・データを与えられるべきコンピュータを判別したら、オーディオ・データをそのコンピュータに送る。いくつかの実施形態では、オーディオ・データが該コンピュータに与えられる前に、オーディオ・データに対して自動音声認識が実行されてもよい。そのような実施形態では、オーディオ・データを与える代わりに、ブローカー・アプリケーションは自動音声認識を実行することから生成された認識結果を同定されたコンピュータに送ってもよい。

Description

本稿に記載される技法は、概括的には、音声対応アプリケーション・プログラムとのユーザー対話を容易にすることに向けられる。

音声対応の（speech-enabled）ソフトウェア・アプリケーション・プログラムは、ユーザーから与えられる音声入力を介してユーザーと対話することのできるおよび／または音声の形で人間のユーザーに出力を提供することのできるソフトウェア・アプリケーション・プログラムである。音声対応アプリケーションは多くの異なるコンテキストにおいて使われている。たとえば、ワードプロセシング・アプリケーション、電子メール・アプリケーション、テキスト・メッセージングおよびウェブ・ブラウズ・アプリケーション、ハンドヘルド・デバイス・コマンドおよび制御およびその他多数がある。そのようなアプリケーションは、音声入力のみのアプリケーションであることもあるし、あるいは複数の型のユーザー対話（たとえば、視覚的、テキストおよび／または他の型の対話）機能のあるマルチモーダル・アプリケーションであってもよい。

ユーザーが話すことによって音声対応アプリケーションとやりとりするとき、ユーザーの発話の内容を判別するために、自動音声認識が典型的には使われる。音声対応アプリケーションは次いで、ユーザーの発話の判別された内容に基づいて取るべき適切なアクションを決定しうる。

図１は、音声対応アプリケーション・プログラム１０５および自動音声認識（ASR: automated speech recognition）エンジン１０３を実行するコンピュータ１０１を含む通常のシステムを示している。ユーザー１０７は、有線接続または無線接続を介してコンピュータ１０１に直接接続されるマイクロホン１０９を介してアプリケーション・プログラム１０５に音声入力を与えてもよい。ユーザーがマイクロホン１０９に話すと、音声入力がASRエンジン１０３に与えられ、ASRエンジン１０３がその音声入力に対して自動音声認識を実行し、テキスト認識結果をアプリケーション・プログラム１０５に与える。

ある実施形態は、コンピュータ上で実行される音声対応アプリケーション・プログラムに入力を与える方法に向けられる。本方法は、少なくとも一つのサーバー・コンピュータにおいて、有線または無線接続によって前記コンピュータに接続されていないモバイル通信装置から与えられるオーディオ・データを受領し；前記少なくとも一つのサーバー・コンピュータにおいて、前記オーディオ・データに対して自動音声認識を実行することから生成される認識結果を取得し；前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送ることを含む。もう一つの実施形態は、実行されたときに上記方法を実行する命令をエンコードされた少なくとも一つの非一時的な有形のコンピュータ可読媒体に向けられる。

あるさらなる実施形態は、コンピュータ上で実行される音声対応アプリケーション・プログラムに入力を与えるためのプロセッサ実行可能命令を記憶した少なくとも一つの有形の記憶媒体と、少なくとも一つのハードウェア・プロセッサとを有する少なくとも一つのサーバー・コンピュータであって、前記少なくとも一つのハードウェア・プロセッサは、前記プロセッサ実行可能命令を実行して：前記少なくとも一つのサーバー・コンピュータにおいて、有線または無線接続によって前記コンピュータに接続されていないモバイル通信装置から与えられるオーディオ・データを受領し；前記少なくとも一つのサーバー・コンピュータにおいて、前記オーディオ・データに対して自動音声認識を実行することから生成される認識結果を取得し；前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送る、サーバー・コンピュータに向けられる。

音声対応アプリケーション・プログラムを実行する従来技術のコンピュータのブロック図である。いくつかの実施形態に基づく、コンピュータ上で実行される音声対応アプリケーション・プログラムのために意図された音声入力が、前記コンピュータに接続されていないモバイル通信装置を介して提供されうるコンピュータ・システムのブロック図である。いくつかの実施形態に基づく、モバイル通信装置を使って音声対応アプリケーションに、音声入力から生成された入力を提供するためのプロセスのフローチャートである。いくつかの実施形態に基づく、コンピュータ上で実行される音声対応アプリケーション・プログラムのために意図された音声入力が、前記コンピュータに接続されていないモバイル通信装置を介して提供されることができ、前記音声対応アプリケーション・プログラムを実行している前記コンピュータとは異なるコンピュータ上で自動音声認識が実行される、コンピュータ・システムのブロック図である。いくつかの実施形態に基づく、コンピュータ上で実行される音声対応アプリケーション・プログラムのために意図された音声入力が、前記コンピュータに接続されているモバイル通信装置を介して提供されうるコンピュータ・システムのブロック図である。図２、図４および図５に描かれたコンピュータおよび装置を実装するためにいくつかの実施形態において使われうるコンピューティング・デバイスのブロック図である。

音声対応アプリケーションに音声入力を与えるために、ユーザーは典型的には、ユーザーがその音声対応アプリケーションと対話するためにコンピュータに（有線でまたは無線で）接続されているまたはコンピュータに組み込まれているマイクロホンに向かって話す。本発明者は、音声対応アプリケーションに音声入力を与えるためにユーザーがそのようなマイクロホンを使わなければならないことは、いくつかの不便を来すことを認識するに至った。

具体的には、一部のコンピュータは組み込みのマイクロホンを有さないことがある。よって、ユーザーはマイクロホンを入手して、発話を介して音声対応アプリケーションにアクセスするために使おうとしているコンピュータに接続しなければならない。さらに、コンピュータが共有コンピュータであれば、接続されたマイクロホンは多くの異なる人々によって共有されるマイクロホンであることがある。よって、マイクロホンは、人々の間で病原体（たとえば、ウイルス、細菌および／または他の感染体）を伝達する導路となることがある。

下記で論じる実施形態のいくつかは上記で論じた不便や欠点のすべてに対処するものの、すべての実施形態がこれらの不便および欠点のすべてに対処するわけではなく、いくつかの実施形態はそのいずれにも対処しないこともありうる。よって、本発明は上記の不便または欠点の全部またはいずれかに対処する実施形態に限定されるものではない。

いくつかの実施形態は、ユーザーが。音声対応アプリケーション・プログラムにアクセスするためにユーザーが使うコンピュータに直接接続された専用マイクロホンを使う必要なしに、携帯電話または他のハンドヘルド・モバイル通信装置を介して音声対応アプリケーション・プログラムのための音声入力を与えることができるシステムおよび／または方法に向けられる。これは、多様な方法のうちの任意のもので達成されうる。そのうちいくつかの限定しない詳細な例が以下に記述される。

本発明者は、多くの人が、典型的には組み込みのマイクロホンを有する自分自身の個人的な装置（たとえば携帯電話または他のハンドヘルド・モバイル・コンピューティング装置）を所有しているので、そのような装置のマイクロホンが、それらの装置とは別個のコンピュータ上で実行されている音声対応アプリケーション・プログラムに入力として与えられるべきユーザーの発話を受け取るために使用されうることを認識するに至った。このようにして、ユーザーは、声を介して音声対応アプリケーション・プログラムと対話するために、専用のマイクロホンをみつけて、音声対応アプリケーションを実行しているコンピュータに接続したり、そのコンピュータに接続された共有のマイクロホンを使用したりする必要がなくなる。

図２は、ユーザーが、音声対応アプリケーション・プログラムと対話するためにハンドヘルド・モバイル通信装置に音声入力を与えることができるコンピュータ・システムを示している。該音声対応アプリケーション・プログラムは、ハンドヘルド・モバイル通信装置とは別個のコンピュータ上で実行されている。

図２に示されるコンピュータ・システムは、モバイル通信装置２０３、コンピュータ２０５および一つまたは複数のサーバー２１１を有する。コンピュータ２０５は少なくとも一つの音声対応アプリケーション・プログラム２０７および少なくとも一つの自動音声認識（ASR）エンジン２０９を実行する。いくつかの実施形態では、コンピュータ２０５は、ユーザー２１７のパーソナル・コンピュータであってもよく、それを介して、ユーザー２１７は、一つまたは複数の入力／出力（I/O）装置（たとえば、マウス、キーボード、ディスプレイ装置および／または他の任意の好適なI/O装置）と対話しうる。コンピュータは組み込みのマイクロホンを有していてもいなくてもよい。何らかの実施形態では、コンピュータ２０５は、ユーザーの家庭コンピュータのはたらきをするパーソナル・コンピュータであってもよく、あるいはユーザーがアカウント（たとえば企業アカウント）をもち、ユーザーが音声対応アプリケーション・プログラムにアクセスするためのインターフェースとして使うワークステーションまたは端末であってもよい。他の実施形態では、コンピュータ２０５は、ユーザー２１７のパーソナル・コンピュータ（図示せず）上の仮想化クライアントに音声対応アプリケーション２０７を送達するアプリケーションをホストするサーバーまたは仮想化サーバーであってもよい。

モバイル通信装置２０３は、たとえばスマートフォン（たとえばセルラー携帯電話）、携帯情報端末（personal digital assistant）および／または他の任意の好適な型のモバイル通信装置を含む多様な可能な型のモバイル通信装置のいずれであってもよい。いくつかの実施形態では、モバイル通信装置はハンドヘルドおよび／または手のひらサイズの装置であってもよい。いくつかの実施形態では、モバイル通信装置は、インターネットを通じて情報を送受信できる装置であってもよい。さらに、いくつかの実施形態では、モバイル通信装置は、アプリケーション・プログラムを実行する機能のある（および／またはアプリケーション・プログラムを実行するよう構成された）汎用プロセッサと、該汎用プロセッサによって実行されるアプリケーション・プログラムを記憶する機能のある有形なメモリまたは他の型の有形なコンピュータ可読媒体を有する装置であってもよい。いくつかの実施形態では、モバイル通信装置は、情報をユーザーに対して表示することのできるディスプレイを含んでいてもよい。モバイル通信装置２０３はいくつかの実施形態では組み込みマイクロホンを含んでいるが、該モバイル通信装置は、単に音響としての音を電気信号に変換してその電気信号を有線または無線接続を通じて提供することのほかに何らかの追加的な機能を提供する。

サーバー（単数または複数）２１１は、ブローカー・アプリケーション２１９を実行する一つまたは複数のサーバー・コンピュータを有していてもよい。ブローカー・アプリケーション２１９は、モバイル通信装置からのオーディオを受領すると、受領されたオーディオがどのコンピュータまたは他の装置に送られるべきかを決定し、オーディオをその宛先装置に送るアプリケーションであってもよい。下記でより詳細に説明するように、オーディオは、宛先装置に「プッシュ」されても、宛先装置によって「プル」されてもよい。

単一のモバイル通信装置２０３および単一のコンピュータ２０５のみが図２には示されているが、サーバー２１１によって実行されるブローカー・アプリケーションは、多数（たとえば数万、数十万またはそれ以上）のモバイル通信装置と、音声対応アプリケーションを実行するコンピュータとの間のブローカーとしてはたらくことができることは認識しておくべきである。この点で、サーバー２１１上で実行されているブローカー・アプリケーション２１９は、多くのモバイル通信装置の任意のものからオーディオを受領し、受領されたオーディオが、音声対応アプリケーションを実行している複数の宛先コンピュータまたは装置のうちのどれに送られるべきかを決定し、オーディオを（たとえばインターネット２０１を介して）適切な宛先コンピュータまたは装置に送ってもよい。

図３は、いくつかの実施形態において、ユーザーが、音声対応アプリケーション・プログラムにモバイル通信装置を介して発話を与えることができるようにするために使用されうるプロセスのフローチャートである。下記の議論から理解できるように、図３に示されるプロセスは音声対応アプリケーション・プログラムのユーザーが、自分のモバイル通信装置に向かって話し、たとえ携帯電話が有線接続でも無線接続でも音声対応アプリケーション・プログラムを実行しているコンピュータまたはユーザーが音声対応アプリケーション・プログラムにアクセスするために介するコンピュータ（たとえば、それを通じてユーザーが該アプリケーションにアクセスするユーザー・インターフェースをもつコンピュータ）に接続されていなくても、自分の発話がリアルタイムまたは実質的にリアルタイムで音声対応アプリケーション・プログラムにおいてテキストとして現れるようにすることができるようにする。

図３のプロセスは工程３０１で始まる。ここでは、ユーザー（たとえば図２のユーザー２１７）はモバイル通信装置（たとえばモバイル通信装置２０３）のマイクロホンに向かって、音声対応アプリケーション・プログラムのために意図された発話を提供する。モバイル通信装置は、いかなる好適な仕方で発話を受け取ってもよく、本発明はこの点に関して限定されるものではない。たとえば、モバイル通信装置は、ユーザーから発話を受け取ってその発話をサーバー２１１に提供するよう構成されたアプリケーション・プログラムを実行していてもよい。いくつかの実施形態では、モバイル通信装置は、発話を、組み込みのマイクロホンを介して、アナログ・オーディオ信号として受け取ってもよく、該オーディオをサーバー２１１に提供する前にデジタル化してもよい。こうして、工程３０１では、ユーザーはモバイル通信装置上でこのアプリケーション・プログラムを立ち上げ、モバイル通信装置のマイクロホンに向かって話してもよい。

プロセスは次に工程３０３に進む。工程３０３では、モバイル通信装置はマイクロホンを介してユーザーの音声を受信する。次いで、プロセスは工程３０５に進む。ここでは、モバイル通信装置は受領された発話をオーディオ・データとして、ブローカー・アプリケーション（たとえばブローカー・アプリケーション２１９）を実行するサーバー（たとえばサーバー２１１の一つ）に送信する。オーディオは、いかなる好適なフォーマットで送信されてもよく、送信に先立って圧縮されてもよいし、あるいは圧縮されずに送信されてもよい。いくつかの実施形態では、オーディオは、モバイル通信装置によって、ブローカー・アプリケーションを実行するサーバーにストリームされてもよい。このようにして、ユーザーがモバイル通信装置のマイクロホンに向かって話す際に、モバイル通信装置がユーザーの発話のオーディオをブローカー・アプリケーションにストリームする。

モバイル通信装置によるオーディオの送信後、プロセスは工程３０７に進み、サーバー上で実行されているブローカー・アプリケーションが、モバイル通信装置から送信されたオーディオを受信する。プロセスは次に工程３０９に進み、ブローカー・アプリケーションが、オーディオ・データの宛先であるコンピュータまたは装置を判別する。これは、多様な可能な仕方のいずれで達成されてもよく、その例については下記で論じる。

たとえば、いくつかの実施形態では、モバイル通信装置がサーバーにオーディオ・データを送信するとき、そのオーディオとともに、ユーザーおよび／またはモバイル通信装置を同定する識別子を送ってもよい。そのような識別子は、多様な可能な形のいずれを取ってもよい。たとえば、いくつかの実施形態では、識別子は、オーディオを提供するためにユーザーがモバイル通信装置上でアプリケーション・プログラムに入力するユーザー名および／またはパスワードであってもよい。モバイル通信装置が携帯電話である代替的な実施形態では、識別子は携帯電話の電話番号であってもよい。いくつかの実施携帯では、識別子は、モバイル通信装置にその製造業者または他の何らかのエンティティによって割り当てられた、普遍一意識別子（UUID: universally unique identifier）または保証された一意識別子（GUID: guaranteed unique identifier）であってもよい。他のいかなる好適な識別子が使用されてもよい。

下記でより詳細に述べるように、サーバー上で実行されているブローカー・アプリケーションは、受領されたオーディオ・データがどのコンピュータまたは装置に送られるべきかを決定する際に、モバイル通信装置によってオーディオ・データとともに送信される識別子を使ってもよい。

いくつかの実施形態では、モバイル通信装置は、オーディオ・データの各送信とともに識別子を送る必要はない。たとえば、識別子は、モバイル通信装置とサーバーとの間のセッションを確立するために使われてもよく、識別子はそのセッションに関連付けられてもよい。このようにして、セッションの一部として送られるいかなるオーディオ・データもその識別子に関連付けられてもよい。

ブローカー・アプリケーションは、受領されたオーディオ・データをどのコンピュータまたは装置に送るかを決定するために、ユーザーおよび／またはモバイル通信装置を同定する識別子をいかなる好適な仕方で使ってもよい。ここではその限定しない例を述べる。たとえば、図２を参照するに、いくつかの実施形態では、コンピュータ２０５は、サーバー２１１がモバイル通信装置２０３から何らかのオーディオ・データを受け取ったかどうかを判定するために定期的にサーバー２１１をポーリングしてもよい。サーバー２１１をポーリングするとき、コンピュータ２０５は、モバイル通信装置２０３によってサーバー２１１に提供されたオーディオ・データに関連付けられた識別子またはサーバーがその識別子にマッピングするために使用できる他の何らかの識別子をサーバー２１１に提供してもよい。このように、サーバー２１１がコンピュータ２０５から識別子を受信するとき、サーバーは、受信された識別子に関連付けられたオーディオ・データを同定し、受信された識別子に関連付けられたオーディオ・データがポーリングするコンピュータに与えられるべきであると判別してもよい。このようにして、ユーザー２１７の発話から生成されたオーディオ（他のユーザーのモバイル通信装置から提供されたオーディオ・データではなく）が、ユーザーのコンピュータに提供される。

コンピュータ２０５は、ユーザー２１７のモバイル通信装置（すなわち、モバイル通信装置２０３）によってサーバー２１１に提供される識別子を、多様な可能な仕方のうちのいずれで取得してもよい。たとえば、いくつかの実施形態では、音声対応アプリケーション２０７および／またはコンピュータ２０５は、音声対応アプリケーションの各ユーザーについてのレコードを記憶してもよい。レコードの一つのフィールドは、ユーザーのモバイル通信装置に関連付けられた識別子を含んでいてもよい。該識別子は、たとえば、手動で提供され、ユーザーによって入力されてもよい（たとえば、ユーザーが装置を音声対応アプリケーションに登録する一度きりの登録プロセスを介して）。このように、ユーザーがコンピュータ２０５にログインするとき、そのユーザーについてのレコードに記憶されている識別子が、オーディオ・データがあるかどうかサーバー２１１をポーリングするときに使用されてもよい。たとえば、ユーザー２１７についてのレコードは、モバイル通信装置２０３に関連付けられた識別子を記憶してもよい。ユーザー２１７がコンピュータ２０５にログインされるとき、コンピュータ２０５は、ユーザー２１７についてのレコードからの識別子を使ってサーバー２１１をポーリングする。このようにして、サーバー２１１は、モバイル通信装置から受信されたオーディオ・データがどのコンピュータに送られるべきかを決定してもよい。

上記で論じたように、サーバー２１１は、多数の異なるユーザーからおよび多数の異なる装置から提供されるオーディオ・データを受信してもよい。各オーディオ・データについて、サーバー２１１は、オーディオ・データに関連付けられた識別子を宛先装置に関連付けられた識別子と照合またはマッピングすることによって、オーディオ・データがどの宛先装置に提供されるべきかを決定してもよい。オーディオ・データは、オーディオ・データとともに提供された識別子が合致したまたはマッピングされた識別子に関連付けられた宛先装置に提供されてもよい。

上記の例においては、サーバー上で実行されるブローカー・アプリケーションが、コンピュータまたは装置からのポーリング要求に応答して、モバイル通信装置から受信されるオーディオ・データがどのコンピュータまたは装置に送られるべきかを決定する。この点で、該コンピュータまたは装置は、サーバーからオーディオ・データを「プル」していると見ることができる。しかしながら、いくつかの実施形態では、コンピュータまたは装置がオーディオ・データをサーバーからプルするのではなく、サーバーがオーディオ・データをコンピュータまたは装置に「プッシュ」してもよい。たとえば、コンピュータまたは装置は、音声対応アプリケーションが立ち上げられたとき、コンピュータが電源投入されたときまたは他の任意の好適な時点において、セッションを確立してもよく、オーディオを提供するユーザーおよび／またはモバイル通信装置を同定するためにブローカー・アプリケーションにいかなる好適な識別子（その例は上記で論じた）を提供してもよい。ブローカー・アプリケーションがモバイル通信装置からオーディオ・データを受信するとき、ブローカー・アプリケーションは対応するセッションを同定し、オーディオ・データを合致するセッションをもつコンピュータまたは装置に送ってもよい。

工程３０９後、図３のプロセスは工程３１１に進む。ここでは、サーバー上のブローカー・アプリケーションはオーディオ・データを、工程３０９において決定されたコンピュータまたは装置に送る。これは、いかなる好適な仕方で行われてもよい。たとえば、ブローカー・アプリケーションはインターネットを通じて、企業イントラネットを介してまたは他の任意の好適な仕方で、そのコンピュータまたは装置にオーディオ・データを送ってもよい。プロセスは次に工程３１３に進む。ここでは、工程３０９において同定されたコンピュータまたは装置は、サーバー上のブローカー・アプリケーションから送られたオーディオ・データを受信する。プロセスは次いで工程３１５に進む。ここでは、そのコンピュータまたは装置上のまたはそのコンピュータまたは装置に結合された自動音声認識（ASR）エンジンが、受領されたオーディオ・データに対して自動音声認識を実行して認識結果を生成する。プロセスは次に工程３１７に進む。ここでは、ASRエンジンから、コンピュータ上で実行されている音声対応アプリケーションに、認識結果が渡される。

音声対応アプリケーションは、認識結果を受け取るために、そのコンピュータ上のまたはそのコンピュータに結合されたASRエンジンといかなる好適な仕方で通信してもよい。本発明の諸側面はこの点に関して限定されるものではない。たとえば、いくつかの実施形態では、音声対応アプリケーションおよびASRエンジンは、連絡するために音声アプリケーション・プログラミング・インターフェース（API: application programming interface）を使ってもよい。

いくつかの実施形態では、音声対応アプリケーションは、音声認識を実行する際にASRエンジンを支援しうるコンテキストをASRエンジンに提供してもよい。たとえば、図２に示されるように、音声対応アプリケーション２０７はコンテキスト２１３をASRエンジン２０９に提供してもよい。ASRエンジン２０９はそのコンテキストを使って結果２１５を生成してもよく、結果２１５を音声対応アプリケーションに提供してもよい。音声対応アプリケーションから提供されたコンテキストは、音声対応アプリケーションに向けられるオーディオ・データの自動音声認識において支援するためにASRエンジン２０９によって使用可能な任意の情報であってよい。たとえば、いくつかの実施形態では、音声対応アプリケーションに向けられるオーディオ・データは、音声対応アプリケーションによって提供または表示されるフォームにおける特定のフィールドに入れられることが意図された単語であってもよい。たとえば、オーディオ・データは、そのようなフォームにおける「住所」フィールドに記入するために意図された発話であってもよい。音声対応アプリケーションはASRエンジンにフィールド名（たとえば「住所」）または当該フィールドについての他の情報を、コンテキスト情報として供給してもよく、ASRエンジンは、音声認識において支援するためにこのコンテキストをいかなる好適な仕方で使ってもよい。

上記の例示的な実施形態では、ASRエンジンおよび音声対応アプリケーションは同じコンピュータ上で実行される。しかしながら、本発明はこの点に関して限定されるものではなく、いくつかの実施形態では、ASRエンジンおよび音声対応アプリケーションは異なるコンピュータ上で実行されてもよい。たとえば、いくつかの実施形態では、ASRエンジンは、ブローカー・アプリケーションを実行するサーバーとは別個の、別のサーバー上で実行されてもよい。たとえば、企業は一つまたは複数の専用のASRサーバーを有していてもよく、ブローカー・アプリケーションは、そのようなサーバーと通信して、オーディオ・データに対する音声認識結果を取得してもよい。

図４に示される代替的な実施形態では、ASRエンジンは、ブローカー・アプリケーションと同じサーバー上で実行されてもよい。図４は、ユーザーが、ハンドヘルド・モバイル通信装置に音声入力を提供し、該ハンドヘルド・モバイル通信装置とは別個のコンピュータ上で実行されている音声対応アプリケーションと対話しうるコンピュータ・システムを示している。図２におけるように、ユーザー２１７は音声対応アプリケーション２０７（コンピュータ２０５上で実行されている）のために意図された発話を、モバイル通信装置２０３のマイクロホンに提供してもよい。モバイル通信装置２０３は、サーバー２１１の一つで実行されているブローカー・アプリケーション２１９に前記発話のオーディオを送る。しかしながら、図２のシステムとは異なり、受信したオーディオをコンピュータ２０５に提供するのではなく、ブローカー・アプリケーション２１９は受信したオーディオを、やはりサーバー２１１で実行されているASRエンジン４０３に送る。いくつかの実施形態では、ASRエンジン４０３は、ブローカー・アプリケーション２１９と同じサーバー上で動作してもよい。他の実施形態では、ASRエンジン４０３は、ブローカー・アプリケーション２１９とは異なるサーバー上で実行されてもよい。この点に関し、ブローカー・アプリケーションおよびASR機能は、いかなる好適な仕方で一つまたは複数のコンピュータの間で分散されることもできる（たとえば、一つまたは複数のサーバーがブローカーまたはASRエンジンとしてのみはたらくよう専用にされており、一つまたは複数のコンピュータは両方の機能を果たすなど）。本発明はこの点で限定されるものではない。

図４に示されるように、ブローカー・アプリケーション２１９は、モバイル通信装置２０３から受領されたオーディオ・データ（すなわちオーディオ・データ４０５）をASRエンジン４０３に送ってもよい。ASRエンジンは、一つまたは複数の認識結果４０９をブローカー・アプリケーション２１９に返してもよい。ブローカー・アプリケーション２１９は次いで、ASRエンジン４０３から受領された認識結果４０９を、コンピュータ２０５上の音声対応アプリケーション２０７に送信してもよい。このようにして、コンピュータ２０５は、音声対応アプリケーション２０７がユーザーから提供される音声入力を受け取ることができるようにするASRエンジンを実行する必要がない。

代替的な実施形態では、ブローカー・アプリケーションは、どの宛先装置に認識結果が提供されるべきかをASRエンジンに通知してもよく、ASRエンジンは、認識結果をブローカー・アプリケーションに返送するのではなく、認識結果をその装置に提供してもよい。

上記で論じたように、いくつかの実施形態では、音声対応アプリケーション２０７は、音声認識において支援するための、ASRエンジンによって使用されるコンテキストを提供してもよい。こうして、図４に示されるように、いくつかの実施形態では、音声対応アプリケーション２０７はコンテキスト４０７をブローカー・アプリケーション２１９に提供してもよく、ブローカー・アプリケーション２１９はオーディオ４０５とともにコンテキストをASRエンジン４０３に提供してもよい。

図４では、コンテキスト４０７は、２０５上の音声対応アプリケーション２０７からブローカー・アプリケーション２１９に直接提供されるように示されており、結果４０９はローカー・アプリケーション２１９から音声対応アプリケーション２０７に直接提供されるように示されている。しかしながら、これらの情報は、音声対応アプリケーションとブローカー・アプリケーションとの間で、インターネット２０１を介して、イントラネットを介してまたは他の任意の好適な通信媒体を介して通信されてもよい。同様に、ブローカー・アプリケーション２１９およびASRエンジン４０３が異なるサーバー上で実行される実施形態では、それらのサーバーの間で情報は、インターネット、イントラネットまたは他の任意の好適な仕方を介して交換されてもよい。

図２〜図４との関連で上記で論じた例において、モバイル通信装置２０３は、インターネットまたは企業イントラネットのようなデータ・ネットワークを介してオーディオ・データをサーバー２１１に提供するものとして描かれている。しかしながら、本発明はこの点において限定されるものではなく、いくつかの実施形態では、オーディオ・データをサーバー２１１に提供するために、ユーザーはモバイル通信装置２０３を使ってある電話番号をダイヤルして、オーディオ・データを受け入れてそのオーディオ・データをサーバー２１１に提供するサービスに電話をかけてもよい。このように、ユーザーは、サービスに関連付けられた電話番号をダイヤルして、オーディオ・データを与えるために電話に向かって話してもよい。いくつかのそのような実施形態では、オーディオ・データを提供するために、モバイル通信装置２０３の代わりに、地上線ベースの電話が使用されてもよい。

図２〜図４との関連で上記で論じた例において、コンピュータ上で実行されている音声対応アプリケーションのための音声入力を提供するために、ユーザーは、有線接続でも無線接続でもそのコンピュータに接続されていないモバイル通信装置に向かって話す。しかしながら、いくつかの実施形態では、モバイル通信装置は、そのコンピュータに有線または無線接続を介して接続されていてもよい。そのような実施形態では、オーディオがモバイル通信装置２０３からコンピュータ２０５にこれらの装置間の無線または有線接続を介して提供されるので、どの宛先装置にオーディオ・データが提供されるべきかを判別するためにブローカー・アプリケーションは必要ではない。このように、そのような実施形態では、オーディオ・データに対してASRが実行できるようコンピュータ２０５がオーディオ・データをサーバーに提供し、サーバーはASRの結果をコンピュータ２０５に返送する。サーバーは多様な異なるコンピュータからASR機能の要求を受け取ってもよいが、上記で論じたブローカー機能を提供する必要はない。オーディオ・データからの認識結果は、サーバーにオーディオ・データを送ったその同じ装置に返送されるからである。

図５は、モバイル通信装置２０３が有線接続または無線接続でありうる接続５０３を介してコンピュータ２０５に接続されるシステムのブロック図である。こうして、ユーザー２１７は音声対応アプリケーションのために意図された発話を、モバイル通信装置２０３のマイクロホンに向かって提供してもよい。モバイル通信装置２０３は受け取った発話をオーディオ・データ５０１としてコンピュータ２０５に送ってもよい。コンピュータ２０５は、モバイル通信装置から受け取ったオーディオ・データを、サーバー２１１上で実行されるASRエンジン５０５に送ってもよい。ASRエンジン５０５は受け取ったオーディオ・データに対して自動音声認識を実行し、認識結果５１１を音声対応アプリケーション５１１に送ってもよい。

いくつかの実施形態では、コンピュータ２０５は、音声認識の実行においてASRエンジンを支援するために、オーディオ・データ５０１とともに、音声対応アプリケーション２０７からのコンテキスト５０７をASRエンジン５０５に提供してもよい。

図５では、モバイル通信装置２０３は、インターネットに接続されているものとして示されている。しかしながら、図５に描かれた実施形態では、装置２０３は、有線または無線接続を介して直接、コンピュータ２０５にオーディオ・データを提供したので、インターネットに接続される必要はない。

上記で論じた各コンピューティング装置（たとえば、コンピュータ、モバイル通信装置、サーバーおよび／または他の任意の上記で論じたコンピューティング装置）はいかなる好適な仕方で実装されてもよい。図６は、上記で論じたコンピューティング装置の任意のものを実装するために使用されうる例示的なコンピューティング装置６００のブロック図である。

コンピューティング装置６００は、一つまたは複数のプロセッサ６０１および一つまたは複数の有形な、非一時的なコンピュータ可読記憶媒体（たとえば、有形なコンピュータ可読記憶媒体６０３）を含んでいてもよい。コンピュータ可読記憶媒体６０３は、有形な非一時的コンピュータ可読記憶媒体において、上記の機能のいずれかを実装するコンピュータ命令を記憶していてもよい。プロセッサ６０１はメモリ６０３に結合されていてもよく、上記機能を実現および実行させるそのようなコンピュータ命令を実行してもよい。

コンピューティング装置６００はまた、ネットワーク入出力（I/O）インターフェース６０５をも含んでいてもよく、それを介してコンピューティング装置は他のコンピュータと（たとえばネットワークを通じて）通信してもよく、コンピューティング装置の型に依存して、一つまたは複数のユーザーI/Oインターフェースをも含んでいてもよく、それを介してユーザーに出力を提供し、ユーザーから入力を受け取ってもよい。ユーザーI/Oインターフェースは、キーボード、マウス、マイクロホン、ディスプレイ装置（たとえばモニタまたはタッチスクリーン）、スピーカー、カメラおよび／またはさまざまな他の型のI/O装置のような装置を含んでいてもよい。

図２〜図４との関連での上記の議論から理解されるはずであるが、上記のシステムおよび方法により、ユーザーは、自分のコンピュータ上で音声対応アプリケーションを立ち上げ、有線または無線接続を介して前記コンピュータに接続されていないモバイル通信装置にオーディオを提供し、そのオーディオ・データから得られた認識結果を前記コンピュータ上でリアルタイムでまたは実質的にリアルタイムで見ることができる。本稿での用法では、リアルタイムで結果を見るとは、オーディオ・データに対する認識結果がユーザーのコンピュータ上に、ユーザーがオーディオ・データを提供したあと１分以内に、より好ましくはユーザーがオーディオ・データを提供したあと１０秒以内に現れることを意味する。

さらに、図２〜図４との関連での上記のシステムおよび方法を使うと、モバイル通信装置はユーザーからオーディオ・データを受け取り（たとえば組み込みマイクロホンを介して）、該オーディオ・データをサーバーに送り、サーバーがそのオーディオ・データの受け取りを確認したのちは、サーバーからのいかなる応答も期待しない。すなわち、オーディオ・データおよび／または認識結果は、モバイル通信装置とは別個の宛先装置に提供されるので、モバイル通信装置は、オーディオ・データの内容に基づくサーバーからの認識結果や応答を待ったり、期待したり、受け取ったりすることはないのである。

上記の議論から認識されるはずであるが、サーバー２１１上のブローカー・アプリケーション（単数または複数）は、多くのユーザーおよび多くの宛先装置のためにブローカー・サービスを提供してもよい。この点に関し、サーバー２１１は、「クラウドにおいて」ブローカー・サービスを提供していると考えてもよい。クラウドにあるサーバーは、多数の異なるユーザーからのオーディオ・データを受信し、該オーディオ・データおよび／または該オーディオ・データから（たとえば該オーディオ・データに対してASRを実行することによって）得られる結果が送られるべき宛先装置を決定し、適切な宛先装置にオーディオ・データおよび／または結果を送ってもよい。あるいはまた、サーバー２１１は、企業において運用されるサーバーであってもよく、ブローカー・サービスを企業内のユーザーに提供してもよい。

上記の議論から、サーバー２１１の一つで実行されているブローカー・アプリケーションがある装置（たとえばモバイル通信装置）からオーディオ・データを受け取って該オーディオ・データおよび／または該オーディオ・データから（たとえば該オーディオ・データに対してASRを実行することによって）得られる結果を異なる装置（たとえば、ユーザーが音声対応アプリケーション・プログラムにアクセスできるユーザー・インターフェースを実行または提供するコンピュータ）に提供してもよいことが理解されるはずである。ブローカー・アプリケーションがオーディオ・データを受け取るもとの装置およびブローカー・アプリケーションがオーディオ・データおよび／または結果を提供する先の装置は、ブローカー・アプリケーションを実行するサーバーを所有または運営するのと同じエンティティによって所有または管理される必要はない。たとえば、モバイル装置の所有者は、サーバーを所有または運営するエンティティの従業員であってもよいし、あるいはそのようなエンティティの顧客であってもよい。

本発明の上記の実施形態は多数の仕方のいずれで実装されることもできる。たとえば、実施形態は、ハードウェア、ソフトウェアまたはそれらの組み合わせを使って実装されてもよい。ソフトウェアで実装されるときは、ソフトウェア・コードは、いかなる好適なプロセッサまたは単一のコンピュータに設けられていようと複数コンピュータの間に分散されていようとプロセッサの集合上で、実行されることもできる。上記の機能を実行する任意のコンポーネントまたはコンポーネントの集合が一般に、上記で論じられた機能を制御する一つまたは複数のコントローラと考えられることができることは理解されるはずである。該一つまたは複数のコントローラは、専用ハードウェアを用いる、または上記の機能を実行するようマイクロコードまたはソフトウェアを使ってプログラムされる汎用ハードウェア（たとえば一つまたは複数のプロセッサ）を用いるなど、多数の仕方で実装できる。

この点に関し、本発明のさまざまな実施形態の一つの実装は、一つまたは複数のコンピュータまたは他のプロセッサ上で実行されたときに本発明のさまざまな実施形態の上記で論じた機能を実行する一つまたは複数のコンピュータ・プログラム（すなわち複数の命令）をエンコードされた少なくとも一つの有形な非一時的なコンピュータ可読記憶媒体（たとえば、コンピュータ・メモリ、フロッピー（登録商標）ディスク、コンパクトディスクおよび光ディスク、磁気テープ、フラッシュメモリ、フィールド・プログラム可能なゲート・アレイ（Field Programmable Gate Array）における回路構成または他の半導体デバイスなど）を有することは理解されるはずである。該コンピュータ可読記憶媒体は、それに記憶されたプログラム（単数または複数）が本稿で論じた本発明のさまざまな側面を実装するために任意のコンピュータ上にロードされることができるよう、可搬であってもよい。さらに、実行されたときに上記で論じた機能を実行するコンピュータ・プログラムへの言及は、ホスト・コンピュータ上で走るアプリケーション・プログラムに限定されないことは理解しておくべきである。むしろ、コンピュータ・プログラムの用語は本稿では、本発明の上記で論じた側面を実装するためにプロセッサをプログラムするために用いることのできる任意の型のコンピュータ・コード（たとえばソフトウェアまたはマイクロコード）を指して一般的な意味で使われる。

本発明のさまざまな側面は、単独で使用されても、組み合わせて使用されても、あるいは以上で記載された実施形態において具体的に論じられていない多様な構成で使用されてもよく、したがって、その応用において、以上の記述において述べられているまたは図面において例解されている詳細およびコンポーネントの構成に限定されるものではない。たとえば、ある実施形態において記述される側面は他の実施形態において記述される側面といかなる仕方で組み合わされてもよい。

また、本発明の実施形態は、一つまたは複数の方法として実装されてもよい。それについて例を提供した。該方法の一部として実行される工程は、いかなる好適な仕方で順序付けされてもよい。よって、たとえ例示的な実施形態において逐次的な諸工程として示されていたとしても、工程が例解したのとは異なる順序で実行される実施形態が構築されてもよく、いくつかの工程を同時に実行することを含んでいてもよい。

請求項の要素を修飾する、請求項における「第一」「第二」「第三」などの序数の使用は、それ自身が、ある請求項の要素の他の要素に対する優先、先行もしくは順序または方法の工程が実行される時間的順序を含意するものではない。そのような用語は単に、ある名称をもつ請求項要素を（序数の使用を除いて）同じ名称をもつ別の要素から区別するためのラベルとして使われている。

本稿で使われる表現および用語は説明のためであって、限定すると見なされるべきではない。「含む」「有する」「もつ」「含有する」「関わる」およびその変形は、挙げられている項目および追加的な項目を包含することを意図されている。

本発明のいくつかの実施形態を詳細に記載してきたが、さまざまな修正および改善が当業者には思いつくであろう。そのような修正および改善は、本発明の精神および範囲内であることが意図される。よって、以上の記述は単に例であって、限定として意図されてはいない。本発明は、以下の請求項およびその等価物によってのみ定義される。

Claims

コンピュータ上で実行される音声対応アプリケーション・プログラムに入力を与える方法であって：
少なくとも一つのサーバー・コンピュータにおいて、有線または無線接続によって前記コンピュータに接続されていないモバイル通信装置から与えられるオーディオ・データを受領し；
前記少なくとも一つのサーバー・コンピュータにおいて、前記オーディオ・データに対して自動音声認識を実行することから生成される認識結果を取得し；
前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送ることを含む、
方法。
前記モバイル通信装置がスマートフォンを有する、請求項１記載の方法。
前記少なくとも一つのサーバーが少なくとも一つの第一のサーバーであり、前記認識結果を取得する動作がさらに：
前記オーディオ・データを少なくとも一つの第二のサーバー上で実行される自動音声認識（ASR）エンジンに送り；
前記少なくとも一つの第二のサーバー上の前記少なくとも一つのASRエンジンからの前記認識結果を受領することを含む、
請求項１記載の方法。
前記認識結果を取得する動作がさらに：
前記少なくとも一つのサーバー上で実行される少なくとも一つの自動音声認識（ASR）エンジンを使って前記認識結果を生成することを含む、
請求項１記載の方法。
前記コンピュータが複数のコンピュータのうちの第一のコンピュータであり、当該方法がさらに：
前記モバイル通信装置から、前記オーディオ・データに関連付けられた識別子を受け取り；
前記識別子を使って、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することを含む、
請求項１記載の方法。
前記識別子が第一の識別子であり、前記第一の識別子を使って、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別する動作がさらに：
前記第一のコンピュータから、第二の識別子を含むオーディオ・データの要求を受領し；
前記第一の識別子が前記第二の識別子に一致するまたは対応するかどうかを判定し；
前記第一の識別子が前記第二の識別子に一致するまたは対応すると判定される場合、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することを含む、
請求項５記載の方法。
前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送る動作が、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することに応答して実行される、請求項６記載の方法。
少なくとも一つのサーバー・コンピュータの少なくとも一つのプロセッサによって実行されたときに、コンピュータ上で実行される音声対応アプリケーション・プログラムに入力を与える方法を実行する命令をエンコードされた少なくとも一つの非一時的な有形のコンピュータ可読媒体であって、前記方法は、
前記少なくとも一つのサーバー・コンピュータにおいて、有線または無線接続によって前記コンピュータに接続されていないモバイル通信装置から与えられるオーディオ・データを受領し；
前記少なくとも一つのサーバー・コンピュータにおいて、前記オーディオ・データに対して自動音声認識を実行することから生成される認識結果を取得し；
前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送ることを含む、
コンピュータ可読媒体。
前記モバイル通信装置がスマートフォンを有する、請求項８記載の少なくとも一つの非一時的な有形のコンピュータ可読媒体。
前記少なくとも一つのサーバーが少なくとも一つの第一のサーバーであり、前記認識結果を取得する動作がさらに：
前記オーディオ・データを少なくとも一つの第二のサーバー上で実行される自動音声認識（ASR）エンジンに送り；
前記少なくとも一つの第二のサーバー上の前記少なくとも一つのASRエンジンからの前記認識結果を受領することを含む、
請求項８記載の少なくとも一つの非一時的な有形のコンピュータ可読媒体。
前記認識結果を取得する動作がさらに：
前記少なくとも一つのサーバー上で実行される少なくとも一つの自動音声認識（ASR）エンジンを使って前記認識結果を生成することを含む、
請求項８記載の少なくとも一つの非一時的な有形のコンピュータ可読媒体。
前記コンピュータが複数のコンピュータのうちの第一のコンピュータであり、前記方法がさらに：
前記モバイル通信装置から、前記オーディオ・データに関連付けられた識別子を受け取り；
前記識別子を使って、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することを含む、
請求項８記載の少なくとも一つの非一時的な有形のコンピュータ可読媒体。
前記識別子が第一の識別子であり、前記第一の識別子を使って、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別する動作がさらに：
前記第一のコンピュータから、第二の識別子を含むオーディオ・データの要求を受領し；
前記第一の識別子が前記第二の識別子に一致するまたは対応するかどうかを判定し；
前記第一の識別子が前記第二の識別子に一致するまたは対応すると判定される場合、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することを含む、
請求項１２記載の少なくとも一つの非一時的な有形のコンピュータ可読媒体。
前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送る動作が、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することに応答して実行される、請求項１３記載の少なくとも一つの非一時的な有形のコンピュータ可読媒体。
コンピュータ上で実行される音声対応アプリケーション・プログラムに入力を与えるためのプロセッサ実行可能命令を記憶した少なくとも一つの有形の記憶媒体と；
少なくとも一つのハードウェア・プロセッサとを有する少なくとも一つのサーバー・コンピュータであって、前記少なくとも一つのハードウェア・プロセッサは、前記プロセッサ実行可能命令を実行して：
前記少なくとも一つのサーバー・コンピュータにおいて、有線または無線接続によって前記コンピュータに接続されていないモバイル通信装置から与えられるオーディオ・データを受領し；
前記少なくとも一つのサーバー・コンピュータにおいて、前記オーディオ・データに対して自動音声認識を実行することから生成される認識結果を取得し；
前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送る、
サーバー・コンピュータ。
前記少なくとも一つのサーバーが少なくとも一つの第一のサーバーであり、前記少なくとも一つのハードウェア・プロセッサが前記プロセッサ実行可能命令を実行して前記認識結果を取得することを：
前記オーディオ・データを少なくとも一つの第二のサーバー上で実行される自動音声認識（ASR）エンジンに送り；
前記少なくとも一つの第二のサーバー上の前記少なくとも一つのASRエンジンからの前記認識結果を受領することによって行う、
請求項１５記載の少なくとも一つのサーバー・コンピュータ。
前記少なくとも一つのサーバーが少なくとも一つの第一のサーバーであり、前記少なくとも一つのハードウェア・プロセッサが前記プロセッサ実行可能命令を実行して前記認識結果を取得することを：
前記少なくとも一つのサーバー上で実行される少なくとも一つの自動音声認識（ASR）エンジンを使って前記認識結果を生成することによって行う、
請求項１５記載の少なくとも一つのサーバー・コンピュータ。
前記コンピュータが複数のコンピュータのうちの第一のコンピュータであり、前記少なくとも一つのハードウェア・プロセッサが前記命令を実行して：
前記モバイル通信装置から、前記オーディオ・データに関連付けられた識別子を受け取り；
前記識別子を使って、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別する、
請求項１５記載の少なくとも一つのサーバー・コンピュータ。
前記識別子が第一の識別子であり、少なくとも一つのハードウェア・プロセッサが、前記第一の識別子を使って、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することを：
前記第一のコンピュータから、第二の識別子を含むオーディオ・データの要求を受領し；
前記第一の識別子が前記第二の識別子に一致するまたは対応するかどうかを判定し；
前記第一の識別子が前記第二の識別子に一致するまたは対応すると判定される場合、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することを含む、
請求項１８記載の少なくとも一つのサーバー・コンピュータ。
前記少なくとも一つのハードウェア・プロセッサが、前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送る動作が、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することに応答して実行される、請求項１９記載の少なくとも一つのサーバー・コンピュータ。