JP2011513795A

JP2011513795A - 文脈に基づく音声認識文法選択

Info

Publication number: JP2011513795A
Application number: JP2010549918A
Authority: JP
Inventors: デーヴィッド・ピー・シングルトン; デバジット・ゴーシュ
Original assignee: グーグル・インコーポレーテッド
Priority date: 2008-03-07
Filing date: 2009-03-06
Publication date: 2011-04-28
Also published as: US8527279B2; KR20150097816A; US20120316878A1; US11538459B2; US20200043472A1; KR20170081745A; US20170092267A1; US9858921B2; CN107331389A; EP2260264A2; KR101758302B1; US20140195234A1; WO2009111721A3; CN107331389B; WO2009111721A2; CN102016502B; US8255224B2; KR101605147B1; US20230112412A1; EP2260264A4

Abstract

とりわけ、この明細書の主題は、第１の計算装置と関連付けられる非言語的ユーザ操作から取得された地理的情報を受信する段階を含む方法において具体化され得る。前記非言語的ユーザ操作は、地理的位置におけるユーザの関心を意味する。前記方法は、更に、取得された前記地理的情報を使用して、前記地理的位置と関連付けられた文法を識別する段階と、前記ユーザからの音声入力の音声認識処理のために識別された前記文法を選択する際に使用するための文法指示子を出力する段階とを含む。

Description

この問題の明細書は、音声認識に関係する。

多モードアプリケーション（multimodal application）は、複数の種類、または複数のモードの入力を受け取ることができる。例えば、多モードアプリケーションは、タイプされた命令及びマウスクリックのようなユーザからの入力を受け取ることができるが、しかしながら、多モードアプリケーションは、更に、音声入力のような他の形式の入力を受け取ることができる。音声認識システムは、特定の語彙を含む文法を用いて音声入力を解釈することができる。

いくらかの多モードアプリケーションは、アプリケーションにおける異なる入力フィールドが異なる文法と関連付けられている用紙記入モデル（form-filling model）を実行する。例えば、多モードアプリケーションは、名前の語彙を含む“名前”文法を、人の名前を受け取る“名前”フィールドと関連付けることができる。人が、彼または彼女のマウスによって“名前”フィールドを選択するとき、多モードアプリケーションは、フィールドと関連付けられた“名前”文法を選択することができる。

概して、この文書は、１つ以上のユーザ操作に基づく黙示的な文脈情報に基づいて、音声認識において使用するための文法を選択することを説明する。

第１の一般的特徴において、コンピュータで実行される方法が説明される。前記方法は、第１の計算装置と関連付けられる非言語的ユーザ操作から取得された地理的情報を受信する段階を含む。前記非言語的ユーザ操作は、地理的位置におけるユーザの関心を意味する。前記方法は、更に、取得された前記地理的情報を使用して、前記地理的位置と関連付けられた文法を識別する段階と、前記ユーザからの音声入力の音声認識処理のために識別された前記文法を選択する際に使用するための文法指示子を出力する段階とを含む。

第２の一般的特徴において、コンピュータで実行される方法が説明され、それは、計算装置と関連付けられると共に、音声認識プロセッサによって促されたものではないユーザ操作に基づく文脈情報を受信する段階を含む。前記方法は、前記文脈情報に基づいて、地理的位置を取得する段階と、前記地理的位置と関連付けられた文法を識別する段階と、前記ユーザからの音声入力の処理において使用する前記文法を選択する際に使用するための文法識別子を出力する段階とを含む。

更に別の一般的特徴において、システムが説明される。前記システムは、第１の計算装置と関連付けられる非言語的ユーザ操作に基づく文脈情報を受信するインタフェースを備える。前記非言語的ユーザ操作は、地理におけるユーザの関心を意味する。前記システムは、更に、受信された前記文脈情報から取得された地理的位置と関連付けられた文法を識別するための手段と、前記ユーザから受け取られた音声入力を解釈するために識別された前記文法を使用するように構成された音声認識サーバとを備える。

ここで説明されたシステム及び技術は、以下の利点の内の１つ以上を提供し得る。第１に、システムは、より大きな一般文法を使用する代りに文法の適切なサブセットを識別することによって、音声入力が認識されるスピードを増加することができる。更に、文法のサブセットを選択することは、サブセットと関連付けられた特定の文脈の中で与えられた音声命令に関する音声認識の正確度を増加し得る。システムは、更に、音声認識プロセスにおいてユーザの対話の量を減少させることができる。更に、追加の文法、もしくは、新しい文法が、ユーザに透過的な方法で（例えば、音声認識システムによって促すための明白なユーザ応答に基づく代わりに、ソフトウェアアプリケーションとのユーザの対話に基づいて）選択されることができる。

１つ以上の実施例の詳細は、以下の添付図面及び説明に明記される。他の特徴及び利点は、説明及び図面から、そして請求項から明白になる。

コンピュータで実行された音声認識において使用される文法を選択するための代表的なシステムの図である。音声認識のための文法の選択の際に使用される代表的クライアント及び代表的音声信号処理システムの図である。文脈情報に基づいて文法を選択するための代表的な方法のフローチャートである。音声信号処理システムと対話するクライアントのためのユーザインタフェースの代表的なスクリーンショット（screenshot）を示す図である。説明されたシステム及び方法を実行するために使用され得る計算装置の構成図である。

様々な図面における同じ参照符号は、同じ要素を示す。

この文書は、音声認識において使用する文法を選択するためのシステム及び技術を説明する。更に具体的には、アプリケーションは、どのようにユーザがアプリケーションを実行する装置と対話するかに基づいて、文脈情報を生成することができる。その装置は、文脈情報を音声認識システムに送信することができる。音声認識システムは、文脈情報と関連付けられた個別文法を識別することができると共に、その次に、装置から受け取られた音声入力（例えば、装置のユーザからの音声命令）の音声信号認識に、識別された文法を用いることができる。

いくらかの実装において、文脈情報は、地理的情報を含む。もしユーザが携帯電話機上の携帯機器用ブラウザを使用して地図を表示する（view：見る）ならば、携帯電話機は、地図によって表示された地理的位置に関する情報を、音声認識システムに送信することができる。音声認識システムは、受信された情報に基づいて地理的位置を識別することができると共に、地理的位置と関連付けられた単語、構文等の語彙を含む文法を選択することができる。音声認識システムは、その次に、選択された文法を用いて、携帯電話機からの受信された音声入力を解釈することができる。

ユーザは、ユーザと関連付けられた装置が、（例えば、ユーザに割り当てられたクッキー（cookie）のような固有の識別子によって、）音声認識システムと文脈情報を共有することを許可する方を選ぶことができる。もしユーザが文脈情報を共有することを選ばないならば、音声認識システムは、デフォルト文法を用いるか、もしくは、音声認識処理において使用する個別文法を選択する際に使用するのための地理的または他の文脈情報に関してユーザに明白に促すことができる。

図１は、コンピュータで実行された音声認識において使用される文法を選択するための代表的なシステム１００の図である。いくらかの実装において、代表的システム１００は、ユーザ操作の結果として生成される黙示的な文脈情報に基づいて、文法を選択する。システム１００は、クライアント装置１０２と、文法選択サーバ１０４と、音声認識サーバ１０６とを備える。

図１の実装において、クライアント１０２は、文法を選択するために文脈情報を使用する文法選択サーバ１０４に、文脈情報を送信する。文法選択サーバは、クライアント１０２から受け取られた音声入力を解釈するために選択された文法を使用する音声認識サーバ１０６に、選択された文法に関する情報を送信する。

例えば、クライアント１０２は、携帯機器用ブラウザ１０８を実行している携帯電話機であり得る。ユーザは、“氷の小屋（ice huts）”を販売する店を識別するために、携帯機器用ブラウザに検索を入力することができる。そのブラウザは、カナダ、ノースダコタ及びサウスダコタ、そしてミネソタにおける関連する店を示す地図を表示することができる。ユーザは、地図に表示するための位置を識別するためにブラウザによって使用される郵便番号のような位置識別子を、以前に入力した可能性がある。ユーザは、位置識別子を前のセッションにおいて入力することができると共に、ブラウザは、次のセッションにおける使用のために、識別子を記憶し得る（例えば、位置識別子は、クライアントに関するクッキーとして記憶されることができる）。

他の実装において、携帯電話機は、携帯機器用ブラウザ１０８の代わりに、専用のアプリケーション１０８を実行する。例えば、専用のアプリケーション１０８は、ウェブページのブラウジングを可能にしないかもしれないが、しかし、オンライン地図アプリケーションのような特定の遠隔アプリケーションとインタフェースするように構成されることができる。

“１”と分類された矢印によって示されるように、携帯電話機１０２上で動作する携帯機器用ブラウザまたは別のアプリケーションは、黙示的な地理的情報１１４を、文法選択サーバに送信することができる。いくらかの実装において、文脈情報は、携帯機器用ブラウザ１０８によって表示された地図に基づく黙示的な地理的情報１１４を含む。例えば、黙示的な地理的情報１１４は、表示された地図の中心を識別する座標を含むことができる。この例において、地図の中心は、ミネソタの中央の位置と一致する。

文法選択サーバ１０４は、受信された文脈情報に基づいて、文法を選択することができる（１１６）。いくらかの実装において、もし文脈情報が地理的情報１１４を含むならば、文法選択サーバは、地理的位置と関連付けられた文法１１２を識別するデータ蓄積部１１０にアクセスすることができる。個別文法は、特定の地理的位置と関連付けられることができる。

文法１１２の各々は、対応する地理的位置と関連付けられた語彙に対応する語彙を含むことができる。例えば、ミネアポリス、ミネソタと関係がある文法は、ミネアポリスに位置しているか、もしくはミネアポリスに関連して見いだされる、店、興味のある場所、イベント、ニュース等を説明する単語または表現を含むことができる。

図１において、黙示的な地理的情報１１４は、ミネソタの中心に位置決めされた場所に関する座標を含む。文法選択サーバは、最もミネソタの中心に近い場所に、固定されるか、または、中心を有する文法を識別する。文法選択サーバは、“２Ａ”及び“２Ｂ”で分類された矢印によって示されるように、文法を識別する情報１１８を生成することができる。

次に、いくらかの実装において、“３”と分類された矢印によって示されるように、文法選択サーバ１０４は、識別された文法情報１１８を音声認識サーバ１０６に送信する。

ユーザは、音声入力１２０を矢印“４”によって示されるように音声認識サーバ１０６に送信する携帯電話機１０２に向かって発声することができる。音声認識サーバ１０６は、文法選択サーバ１０４によって識別された文法を用いて、音声入力１２０を解釈することができる。

認識サーバ１０６は、音声入力に基づいて、１つ以上の操作を実行することができる。いくらかの実装において、音声認識サーバ１０６は、“５”と分類された矢印によって示されるように、音声入力に基づいて、携帯電話機１０２へ応答を送信することができる。例えば、携帯電話機１２のユーザは、“Paul Bunyan”の新しい検索を、聞こえるように（audibly：可聴音によって）要求することができる。携帯電話機１０２は、音声の検索要求を音声認識サーバ１０６に送信することができる。ユーザが携帯機器用ブラウザによって現在表示している（または以前に表示した）地図は、ミネソタが中心に置かれているので、音声認識サーバは、ミネソタの中心の近くに固定されるか、または中心が置かれる文法を使用する。音声認識サーバ１０６は、この文法を、音声入力“Paul Bunyan”に対応する音、単語、表現を検索するために使用する。いくらかの実装において、用語“Paul Bunyan”が、世界の他の部分と比較してミネソタと関係がある情報とより高い頻度で関連付けられているので、ミネソタの近くに、もしくはミネソタの中に固定された文法は、名前“Paul Bunyan”を解釈するために使用される情報を含み得る。

音声認識サーバ１０６は、携帯電話機１０２からの音声入力に対応するテキスト“Paul Bunyan”を送信することができる。携帯電話機１０２は、携帯機器用ブラウザ１０８上に、受け取られたテキストを表示することができる。もしユーザが音声認識サーバ１０６によって実行された翻訳を承認するならば、そのブラウザは、検索語としてテキスト“Paul Bunyan”を検索エンジンに提示することによって、新しい検索を開始することができる。他の実装において、音声認識サーバ１０６は、携帯電話機１０２のユーザからの承認なしで、用語“Paul Bunyan”を使用して、検索を開始することができる。音声認識サーバ１０６は、音声入力から認識されたテキストを前もって伝えずに、検索による結果を携帯電話機１０２に送信することができる。

図１の分類された矢印は、システム１００において発生するイベントの代表的な系列を示す。しかしながら、イベントの発生は、示された系列に制限されない。例えば、系列における１つ以上のステップは、並列に発生することができる。

図２は、音声認識のための文法の選択の際に使用される代表的クライアント２００及び代表的音声信号処理システム２０２の図である。クライアント２００及び音声信号処理システム２０２は、いくらかの実装においてインターネット及びセルラネットワークを含むことができるネットワーク２０４を用いて、通信することができる。クライアント２００は、同様にアプリケーション環境２０８を備える携帯電話機または他のモバイル機器２０６を含むことができる。アプリケーション環境２０８は、インターネットブラウザ２１０、マイクロホンインタフェース２１２、及びＧＰＳトランシーバインタフェース２１４を含むことができる。音声信号処理システム２０２は、音声信号処理システム２０２のための、クライアント２００、文法選択サーバ２１８、および音声認識サーバ２２０とのインタフェースとしての機能を果たす多モードサーバ２１６を備えることができる。

アプリケーション環境２０８の中のアプリケーションは、地理的連絡先情報２２２を生成するか、または識別することができると共に、この情報を多モードサーバ２１６に送信することができる。例えば、ＧＰＳトランシーバインタフェース２１４は、携帯電話機２０６の位置に基づいて、ＧＰＳトランシーバからＧＰＳ座標を受け取ることができる。ＧＰＳトランシーバインタフェース２１４は、ＧＰＳ座標情報を多モードサーバ２１６に送信することができる。

いくらかの実装において、ＧＰＳ座標情報は、ブラウザ２１０によって多モードサーバ２１６に提示されたハイパーテキストトランスポートプロトコル（hypertext transport protocol：ＨＴＴＰ）ＰＯＳＴ命令に含まれる統一資源識別子（uniform resource identifier：ＵＲＩ）の一部として付加されることができる。ブラウザ以外のアプリケーションを使用する他の実装において、そのアプリケーションは、命令におけるＵＲＩがＧＰＳ座標情報（または、他の文脈情報）を含んでいる、ＨＴＴＰＧＥＴ命令を生成することができる。別の実装において、ＧＰＳ座標及び他の文脈情報は、ＵＲＩに付加されないが、しかし、その代りに、ＨＴＴＰ要求（例えば、ＧＥＴまたはＰＯＳＴ）の本文に、バイナリ情報として含まれる。

別の例において、ブラウザ２１０は、ブラウザ２１０によって表示された項目に関する地理的な文脈情報を送信することができる。例えば、もしユーザがバミューダ諸島の多数の言及を含むウェブページを表示するならば、ブラウザ２１０は、バミューダ諸島を指定する地理的な文脈情報を送信することができる。

多モードサーバ２１６は、地理的な文脈情報２２２を受信することができると共に、この情報を文法選択サーバ２１８に送信することができる。文法選択サーバ２１８は、位置を識別するために地理的な文脈情報２２２を使用する逆ジオコーダ（reverse geocoder）２２４を備えることができる。例えば、もし地理的な文脈情報２２２がＧＰＳ座標を含むならば、逆ジオコーダ２２４は、座標と地理的位置との間の記憶されたマッピング（mapping）を用いて、ＧＰＳ座標に対応する位置を判定することができる。

いくらかの実装において、文法選択サーバは、特定の位置を個別文法に関連付ける文法インデックス２２６を含む。例えば、文法インデックス２２６は、場所“バミューダ諸島”を、その場所と関連付けられている語彙、構文等を含むバミューダ文法と結び付ける。

文法選択サーバ２１８は、逆ジオコーダ２２４で識別された位置と関連付けられた文法を識別することによって、文法インデックス２２６を使用して文法を選択する。文法インデックスは、文法ＩＤを使用して、各々の文法を識別することができる。

文法選択サーバ２１８は、文法ＩＤ２２８を同様に音声認識システムに送信することができる多モードサーバ２１６に、選択された文法ＩＤ２２８を送信することができる。図２において示されなかった他の実装において、逆ジオコーダ２２４は、識別された位置に最も近い位置に関連付けられた文法を識別して、返すことができると共に、その場合に、その文法に関して選択された文法ＩＤ２２８を、多モードサーバ２１６に送信する。

音声認識システムは、次の音声信号処理において使用するための識別された文法を読み込むために、文法ＩＤを使用することができる。例えば、音声認識サーバは、文法ＩＤ２２８を含む要求２３２を、文法に関するデータ蓄積部２３０に送信することができる。データ蓄積部は、文法ＩＤ２３２によって指定される文法２３４を返すことができる。

音声認識サーバは、携帯電話機２０６から続いて受信された音声信号を解釈するために文法２３４を使用することができる。例えば、そのユーザは、検索語を発声することができ、それは、携帯電話機２０６の中のマイクロホンによって受け取られる。マイクロホンインタフェース２１２は、マイクロホンからの音声信号２３６を、多モードサーバ２１６に対して送信することができる。

多モードサーバ２１６は、音声信号２３６を解釈するために音声信号デコーダ２３８を使用する音声認識サーバ２２０に、音声信号２３６を送信することができる。例えば、音声信号デコーダ２３８は、音声信号２３６をテキスト表現に処理するために、文法２３４を読み込むことができる。音声認識サーバ２２０は、例えば検索エンジン（図示せず）による検索を開始するために、テキスト表現を使用することができる。別の例において、解釈された音声信号は、多モードサーバ２１６にテキスト２４０として送信されることができる。多モードサーバ２１６は、携帯電話機２０６に、テキスト２４０を送信して返すことができる。携帯電話機１０６は、ブラウザ２１０、またはアプリケーション環境２０８における別のアプリケーションを使用して、テキストを表示することができる。

いくらかの実装において、クライアント２００は、新しいユーザの対話に基づいて、新しい地理的な文脈情報を提示する。例えば、もしユーザが場所を変更したならば、携帯電話機２０６の中のＧＰＳトランシーバは、新しいＧＰＳ座標を多モードサーバ２１６に送信することができる。別の例において、そのユーザは、異なる位置と関連付けられた地図を表示することができる。ブラウザ２１０は、新しい地図の位置を多モードサーバ２１６に送信することができる。音声信号処理システムは、新しい地理的な文脈情報に基づいて、新しい文法を選択すると共に、新しい文法に基づいて、受信された音声信号を解釈することができる。

多モードサーバ２１６、文法選択サーバ２１８、及び音声認識サーバ２２０が、個別の装置として例証されるが、サーバは、結合されて１つの装置になることができるか、もしくは、１つのサーバは、複数の装置を用いて実施されることができる。

図３は、文脈情報に基づいて文法を選択するための代表的方法３００のフローチャートである。システム２００及び２０２は、方法３００の一例の実施に使用される。しかしながら、システム１００を含む他のシステムが、方法３００を実施することができる。

ステップ３０２において、セッションが、クライアント２００と音声信号処理システム２０２との間で作成される。例えば、携帯電話機２０６は、（例えば、ＨＴＴＰプロトコルに基づいて）多モードサーバ２１６と通信セッションを確立することができる。そのセッションは、例えば、ブラウザが検索エンジン（例えば、検索ウェブページ、対話型の地図、ユーザがサイトで主催されたプロファイルを検索することを可能にする社交ネットワーキングサイト等）のためのウェブインタフェースにアクセスする場合に確立されることができる。別の実装において、特定のアプリケーションが携帯電話機２０６上で開始される場合に、そのセッションは確立される。例えば、専用の地図プログラムが携帯電話機２０６上で開始されるとき、セッションが開始され得る。

任意のステップ３０４において、ユーザＩＤが受け取られる。例えば、携帯電話機２０６は、携帯電話機のメモリ内にクッキー（cookie）を記憶する携帯機器用ブラウザを備え得る。それらのクッキーは、携帯電話機のユーザを識別する識別子を含むことができる。音声信号処理システム２０２は、携帯機器用ブラウザの音声信号処理システム２０２との以前の対話、または、携帯機器用ブラウザの音声信号処理システム２０２がアクセスすることができる別のサーバとの以前の対話に応答して、ユーザＩＤを、ブラウザに対して以前に送信した可能性がある。例えば、そのユーザは、検索エンジンのためのインタフェースを含むウェブページを訪れることができる。検索エンジンは、固有の識別子をユーザに発行することができる。音声信号処理システム２０２は、検索エンジンによって記憶される識別子のリストにアクセスすることができる。

ステップ３０６において、文脈情報が受信される。例えば、多モードサーバ２１６は、モバイル機器２０６の現在の位置を指定するＧＰＳ座標のような地理的な文脈情報を受信する。

いくらかの実装において、多モードサーバ２１６は、アプリケーション固有の文脈情報のような、他の文脈情報を受信することができる。クライアント２０２は、どのアプリケーションがユーザによってアクセスされるかを指定する情報を送信することができる。例えば、その情報は、そのユーザがブラウザアプリケーションと対話していることを指定することができる。更に、その情報は、アプリケーションのユーザによって以前に行われた過去のナビゲーションまたは他の操作の履歴を含むことができる。例えば、文脈情報は、ユーザが、郵便番号を指定することによって地図を要求したこと、与えられた地図上でズームアウト（zoom out）したこと、地図上で西におおよそ２００マイル進んだこと、地図の衛星写真（satellite view）を要求したこと、興味のある場所が地図上で表示されることを要求したこと、等を指定することができる。

別の実装において、多モードサーバ２１６は、デスクトップコンピュータであり得るクライアント２００上で動作するアプリケーションによって表示された項目に関する文脈情報を受信することができる。例えば、そのユーザは、金融情報内容、娯楽ニュース内容、技術ニュース内容等のような、いくらかの種類の内容を含むポータルウェブページを表示する（見る）ことができる。もしユーザのカーソルが金融情報内容の上をうろつくならば、計算装置は、カーソルを囲む領域から情報を抽出することができる（例えば、カーソルの中心の半径の中のテキストが抽出されることができる）。抽出された情報のいくらか、または全ては、多モードサーバに送信された文脈情報に含まれることができる。

ステップ３０８において、文法が、受信された文脈情報に基づいて選択される。例えば、文法選択サーバ２１８は、ユーザのマウスがウェブページ上で金融情報を示す内容の上をうろついていることを示す受信された文脈情報における金融上の語彙を含む文法を選択することができる。更に具体的には、文法選択サーバ２１８の中の分類モジュール（図示せず）は、抽出された内容を分類することができる。文法選択サーバ２１８は、抽出された内容の分類の結果として生じる１つ以上のキーワードを、文法インデックス２２６によって文法と関連付けられたキーワードと照合することができる。

別の例において、文法選択サーバ２１８は、携帯電話機２０６の現在の位置を示すＧＰＳ座標と対応する特定の地理と関連付けられた文法を選択することができる。

更に別の例において、もしそのユーザが特定のアプリケーションと対話していることを、受信された文脈情報が明示するならば、文法選択サーバ２１８は、アプリケーション固有の語彙を含む文法を選択することができる。例えば、もしそのユーザが（例えば、クライアント２００に内在するか、もしくはブラウザ２１０によって主催されてアクセスされる）カレンダーアプリケーションと対話しているならば、文法選択サーバ２１８は、カレンダー固有の語彙、及びカレンダー固有の文法規則を含む文法を選択することができる。

文法選択サーバ２１８は、更に、文法を選択するために受け取られたユーザＩＤを使用することができる。いくらかの実装において、文法は、ユーザの過去のウェブ検索履歴に基づいて組み立てられ得る。例えば、もしユーザが考古学と関連付けられた過去のウェブ検索照会を頻繁に行ったならば、文法形成器（grammar builder）（図示せず）は、考古学と関連付けられた語彙、構文等を含む、ユーザのために個人化された文法を組み立てることができる。

いくらかの実装において、２つ以上の文法が、１つ以上の種類の文脈情報を用いて選択されることができる。例えば、ユーザによって表示された（viewed：見られた）項目から得られた文脈情報は、２つ以上の文法に関連がある可能性がある。この場合に、文法選択サーバは、音声認識における使用のために、複数の文法を選択することができる。

ステップ３１０において、音声信号が受信されることができる。例えば、装置２０６のユーザは、装置２０６のマイクロホンに向かって発声することができる。マイクロホンインタフェース２１２は、マイクロホンによって獲得された音声を音声認識サーバ２２０に送信することができる。

ステップ３１２において、受信された音声信号は、以前に選択された文法を用いて解釈されることができる。例えば、音声認識サーバ２２０は、文法選択サーバ２１８が識別した文法を選択するために、文法を記憶するデータ構造にアクセスすることができる。音声信号デコーダ２３８は、受信された音声信号を解釈するために、選択された文法を使用することができる。

ステップ３１４において、セッションがタイムアウト（time out）したかどうかが判定される。例えば、ステップ３０２においてクライアント２００と音声信号処理システム２０２との間で確立されたセッションは、タイムリミットを有することができる。もしタイムリミットが超過されるならば、方法３００は、終わることができる。別の実装において、もしセッションがタイムアウトしたならば、音声信号処理システム２０２は、新しいセッションを確立するようにクライアント２００に促す。いくらかの実装において、特に、もしそのクライアントが長期の間無活動であるならば、セッション時間を制限することは、クライアントが音声信号処理システムを独占するのを防止することができる。

ステップ３１６において、文脈が変更されたかどうかが判定される。例えば、ユーザは、場所を変更することができる。もしユーザが新しい場所に移動するならば、ＧＰＳトランシーバは、新しい場所を反映するための応答において、ＧＰＳ座標を更新することができる。新しい文脈情報は、ステップ３０６及び次のステップに関連して以前に示されたように、受信されて、処理されることができる。別の例において、そのユーザは、異なるアプリケーションにアクセスすることができるか、または、同じアプリケーションを使用してデータごとに異なる表示（view：ビュー）にアクセスすることができる。アプリケーションにおける変化、またはアプリケーションの使用における変化は、新しい文脈情報の伝送を開始することができる。

もし文脈情報が変わらないならば、その場合に、方法３００は、ステップ３１０で始まるステップを繰り返すことができる。例えば、音声信号処理システム２０２は、あらゆる受信された音声信号を解釈するために、以前に選択された文法を使用し続けることができる。

図４は、文脈情報に基づいて文法を選択する音声信号処理システムと対話するクライアントのためのユーザインタフェースの代表的なスクリーンショット（screenshot）を示す図である。スクリーンショット４００は、地図４０２を含む。ユーザは、クライアントのためのブラウザを開始し、そして、“ＧＯＯＧＬＥＭａｐｓ”もしくは“ＹＡＨＯＯ！Ｍａｐｓ”のようなオンライン対話型地図サービスにログオンすることができる。そのユーザは、郵便番号、市外局番、市および州、または、他の位置識別子を入力することによって、地図に場所を指定することができる。例えば、そのユーザは、郵便番号“９５６６１”を入力することができる。その場合に、地図サービスは、カリフォルニアのローズビル（Roseville, CA）に対応する地図を、ブラウザ上で表示するために送信することができる。

ブラウザ（または、ブラウザによって表示されたウェブページ）は、検索オプションウィンドウ４０４を提示することができる。ユーザは、店、興味のある場所、位置等の検索を開始するために、検索オプションウィンドウ４０４と対話することができると共に、地図４０２上に結果を表示することができる。オプション４０６によって示されたように、検索オプションウィンドウ４０４は、“入力された”検索を受け取ることができる。例えば、ユーザは、キーパッドを使用して、オプション４０６を選択することができる。その代りに、そのユーザは、選択肢“新しい検索を入力する”を発声することができる。その場合に、そのユーザは、キーパッドによって検索を入力することができる。

オプション４０８によって示されたように、検索オプションウィンドウは、更に、口語の検索を受け取ることができる。例えば、ユーザは、キーパッドを使用して、または選択肢を発声することによって、オプション４０８を選択することができる。

スクリーンショット４１０は、ユーザが新しい検索を発声するのを望むことを示すオプション４０８をユーザが選択した後で表示された代表的なインタフェースを示す。この例において、そのクライアントは、店の種類または店名を発声するように、ユーザに視覚的に促す。図４１２は、検索語“フライの店（Fry's）”を発声するユーザを例証する。

他の実装において、クライアントは、興味のある場所、地理的位置等のような、他の用語を発声するように、ユーザに促すことができる。

更に他の実装において、そのユーザは、検索を発声するように、視覚的に促されないが、しかし、自発的に検索を開始することができる。例えば、ブラウザは、技術ニュースを表示するウェブページを表示することができる。そのユーザは、“ＡＪＡＸを検索しなさい”と言うであろう。更に他の実装において、そのクライアントは、検索もしくは他の音声入力を、入力するかもしくは発声するように、ユーザに対して聞こえるように（audibly：可聴音によって）促し得る。

別の実装において、そのユーザは、そのユーザが音声検索を開始したいことを示すために、携帯電話機上の“アンサーコール”キーのような、装置上のキーを押すことができる。そのユーザは、発声している間キーを押さえることができるか、もしくは、所定の長さの時間の間キーを押さえることによって、検索を開始することができる。後者の実装において、音声信号が検出されずに所定量の時間が経過した後で、音声検索は、終了することができる。

前のスクリーンショットにおいて示されなかったが、そのクライアントは、クライアントによって表示される地図４０２に関する地理的な情報を送信することができる。音声信号処理システムは、スクリーンショット４１０において表示される入力要求（prompt）に対する応答において受信された音声信号を解釈する際に使用するための地理的な情報と関連付けられた文法を選択することができる。

スクリーンショット４１６は、口語の検索用語“フライの店（Fry's）”に基づいて解釈された音声信号を示す。ユーザは、例えば各々の解釈と関連付けられた数字を、キーパッドを用いて入力するか、もしくは、発声することによって、可能な解釈の内の１つを選択することができる。スクリーンショット４１８は、フライの電気店の位置を識別する画鋲アイコン４２０を有する、カリフォルニアのローズビルの地図４０２を示す。

図５は、この書類で説明されたシステム及び方法を実施するために、クライアントとして、もしくはサーバまたは複数のサーバとして使用され得る計算装置５００、５５０の構成図である。計算装置５００は、ラップトップ、デスクトップ、ワークステーション、携帯情報機器、サーバ、ブレードサーバ、メインフレーム、及び、他の適切なコンピュータのような、デジタルコンピュータの様々な形式を表すことを意図している。計算装置５５０は、携帯情報機器、セルラー電話機、スマートフォン、及び、他の同様の計算装置のような、携帯機器（モバイル機器）の様々な形式を表すことを意図している。更に、計算装置５００または５５０は、ユニバーサルシリアルバス（Universal Serial Bus：ＵＳＢ）フラッシュドライブを備えることができる。ＵＳＢフラッシュドライブは、オペレーティングシステム、及び他のアプリケーションを記憶することができる。ＵＳＢフラッシュドライブは、無線送信器、もしくは、他の計算装置のＵＳＢポートに挿入され得るＵＳＢコネクタのような、入力／出力コンポーネントを備えることができる。ここで示された構成要素、それらの接続及び関係、そしてそれらの機能は、単に代表的であるべきことが意図されると共に、この書類で説明及び／または主張された本発明の実施を制限するようには意図されない。

計算装置５００は、プロセッサ５０２、メモリ５０４、記憶装置５０６、メモリ５０４と高速拡張ポート５１０につながる高速インタフェース５０８、及び低速バス５１４と記憶装置５０６につながる低速インタフェース５１２を備える。各々の構成要素５０２、５０４、５０６、５０８、５１０、及び５１２は、様々なバスを用いて相互接続されると共に、共通のマザーボードに搭載されるか、または必要に応じて他の方法で搭載され得る。プロセッサ５０２は、計算装置５００の中で、メモリ５０４内に、または記憶装置５０６上に記憶された、高速インタフェース５０８に連結された表示装置５１６のような外部の入力／出力装置上のＧＵＩ用のグラフィック情報を表示するための命令を含む、実行のための命令を処理することができる。他の実装において、必要に応じて、複数のメモリ及び複数の種類のメモリと一緒に、複数のプロセッサ及び／または複数のバスが使用され得る。更に、複数の計算装置５００が、（例えば、サーババンク、一群のブレードサーバ、またはマルチプロセッサシステムのような、）必要な動作の一部分を供給する各装置と接続され得る。

メモリ５０４は、計算装置５００の中の情報を記憶する。１つの実装において、メモリ５０４は、揮発性記憶装置または複数の揮発性記憶装置である。別の実装において、メモリ５０４は、不揮発性記憶装置または複数の不揮発性記憶装置である。メモリ５０４は、更に、例えば磁気ディスクまたは光学ディスクのような、別の形式のコンピュータ読み取り可能な媒体であり得る。

記憶装置５０６は、計算装置５００に大容量記憶装置を提供することが可能である。１つの実装において、記憶装置５０６は、例えばフロッピー（登録商標）ディスク装置、ハードディスク装置、光ディスク装置、または、テープ装置、フラッシュメモリまたは他の同様の固体状メモリ装置、または、ストレージエリアネットワーク（storage area network）または他の構成における装置を含む一連の装置のような、コンピュータ読み取り可能な媒体であり得るか、またはコンピュータ読み取り可能な媒体を含み得る。コンピュータプログラム製品は、情報担体において明白に具体化されることができる。コンピュータプログラム製品は、更に、実行されたときに、上述の方法のような１つ以上の方法を遂行する命令を含み得る。情報担体は、例えばメモリ５０４、記憶装置５０６、プロセッサ５０２上のメモリ、または伝送された信号のような、コンピュータ読み取り可能な媒体もしくは機械読み取り可能な媒体である。

高速制御器５０８は、計算装置５００に関する帯域消費型操作（bandwidth-intensive operation）を管理し、一方、低速制御器５１２は、より少ない帯域消費型操作を管理する。機能のそのような割り当ては、単に代表的である。１つの実装において、高速制御器５０８は、メモリ５０４、（例えばグラフィックスプロセッサまたはアクセラレータを通して）表示装置５１６、及び様々な拡張カード（図示せず）を受け入れ得る高速拡張ポート５１０に連結される。実装において、低速制御器５１２は、記憶装置５０６及び低速拡張ポート５１４に連結される。様々な通信ポート（例えば、ＵＳＢ、ブルートゥース（登録商標）、イーサネット（登録商標）、ワイヤレスイーサネット（登録商標））を含み得る低速拡張ポートは、例えばキーボード、ポインティングデバイス、スキャナのような１つ以上の入力／出力装置に、あるいは例えばネットワークアダプタを通してスイッチまたはルータのようなネットワーク装置に、連結され得る。

図において示されたように、計算装置５００は、多くの異なる形式において実施され得る。例えば、それは、標準のサーバ５２０として実施され得るか、またはそのようなサーバのグループにおいて複数回実施され得る。それは、更に、ラックサーバシステム５２４の一部として実施され得る。更に、それは、ラップトップコンピュータ５２２のようなパーソナルコンピュータにおいて実施され得る。その代わりに、計算装置５００が提供する構成要素は、装置５５０のような携帯型機器（図示せず）内の他の構成要素と結合され得る。そのような装置のそれぞれは、１つ以上の計算装置５００、５５０を含み得ると共に、全体のシステムは、相互に通信する複数の計算装置５００、５５０で構成され得る。

計算装置５５０は、その他の構成要素として、プロセッサ５５２、メモリ５６４、表示装置５５４のような入力／出力装置、通信インタフェース５６６、及びトランシーバ５６８を備える。装置５５０は、更に、追加の記憶装置を提供するために、例えばマイクロドライブまたは他の装置のような記憶装置を提供され得る。それぞれの構成要素５５０、５５２、５６４、５５４、５６６、及び５６８は、様々なバスを用いて相互接続されると共に、構成要素の内のいくつかは、共通のマザーボードに搭載されるか、または必要に応じて他の方法で搭載され得る。

プロセッサ５５２は、メモリ５６４に格納される命令を含めて、計算装置５５０の中の命令を実行することができる。そのプロセッサは、個別の、そして複数のアナログプロセッサ及びデジタルプロセッサを含むチップのチップセットとして実施され得る。更に、そのプロセッサは、多くのアーキテクチャの内のいずれかを使用して実装され得る。例えば、プロセッサ４１０は、ＣＩＳＣ（Complex Instruction Set Computer：複合命令セットコンピュータ）プロセッサ、ＲＩＳＣ（Reduced Instruction Set Computer：縮小命令セットコンピュータ）プロセッサ、または、ＭＩＳＣ（Minimal Instruction Set Computer：最小命令セットコンピュータ）プロセッサであり得る。例えば、そのプロセッサは、例えばユーザインタフェース、装置５５０によって実行されたアプリケーション、及び装置５５０による無線通信の制御のような、装置５５０の他の構成要素の調整を提供し得る。

プロセッサ５５２は、制御インタフェース５５８、及び表示装置５５４に連結される表示装置インタフェース５５６を通してユーザとコミュニケーションを取り得る。例えば、表示装置５５４は、ＴＦＴ液晶表示装置（Thin-Film-Transistor Liquid Crystal Display）またはＯＬＥＤ（Organic Light Emitting Diode）表示装置、あるいは他の適切な表示装置技術であり得る。表示装置インタフェース５５６は、ユーザに対してグラフィック情報及び他の情報を提示するために、表示装置５５４を駆動するための適切な回路構成を含み得る。制御インタフェース５５８は、ユーザから命令を受け取ると共に、プロセッサ５５２に対する提示用にそれらを変換し得る。更に、外部インタフェース５６２は、装置５５０と他の装置との近接した領域の通信を可能にするために、プロセッサ５５２との通信に提供され得る。例えば、外部インタフェース５６２は、いくらかの実装における有線通信、もしくは他の実装における無線通信を提供し得ると共に、複数のインタフェースが同様に使用され得る。

メモリ５６４は、計算装置５５０の中の情報を記憶する。メモリ５６４は、１つ以上のコンピュータ読み取り可能な媒体、揮発性記憶装置または複数の揮発性記憶装置、あるいは不揮発性記憶装置または複数の不揮発性記憶装置として実施されることができる。更に、拡張メモリ５７４が提供されて、拡張インタフェース５７２を通して装置５５０に接続されると共に、拡張インタフェース５７２は、例えばＳＩＭＭ（Single In Line Memory Module）カードインタフェースを含み得る。そのような拡張メモリ５７４は、装置５５０に追加の記憶スペースを提供し得るか、あるいは、装置５５０のためのアプリケーションまたは他の情報を同様に記憶し得る。具体的には、拡張メモリ５７４は、上述の処理を実行するか、または補うための命令を含み得ると共に、同様に安全な情報を含み得る。従って、例えば、拡張メモリ５７４は、装置５５０のための安全性モジュールとして提供され得ると共に、装置５５０の安全な使用を可能にする命令によってプログラムされ得る。更に、例えばハッキング不可能な方法で識別情報をＳＩＭＭカード上に配置するように、安全なアプリケーションが、追加の情報と共に、ＳＩＭＭカードによって提供され得る。

例えば、以下で論じられるように、そのメモリは、フラッシュメモリ、及び／またはＮＶＲＡＭメモリを含み得る。１つの実装において、コンピュータプログラム製品は、情報担体において明白に具体化される。コンピュータプログラム製品は、実行されたときに、上述の方法のような１つ以上の方法を遂行する命令を含む。情報担体は、例えばメモリ５６４、拡張メモリ５７４、プロセッサ５５２上のメモリ、または例えばトランシーバ５８８あるいは外部インタフェース５６２を介して受信され得る伝送された信号のような、コンピュータ読み取り可能な媒体もしくは機械読み取り可能な媒体である。

装置５５０は、通信インタフェース５６６を通して無線で通信し得ると共に、通信インタフェース５６６は、必要ならばデジタル信号処理回路構成を含み得る。とりわけ、通信インタフェース５６６は、例えばＧＳＭ音声コール、ＳＭＳ、ＥＭＳ、またはＭＭＳ通信、ＣＤＭＡ、ＴＤＭＡ、ＰＤＣ、ＷＣＤＭＡ、ＣＤＭＡ２０００、またはＧＰＲＳのような様々なモードまたはプロトコルに基づいて通信を提供し得る。例えば、そのような通信は、無線周波数トランシーバ５６８を通して発生し得る。更に、ブルートゥース（Bluetooth）、ＷｉＦｉ（ワイファイ）、または他のそのようなトランシーバ（図示せず）を使用することによって、短距離通信が発生し得る。更に、ＧＰＳ（Global Positioning System）受信機モジュール５７０は、装置５５０に、追加のナビゲーション及び場所に関連する無線データを提供し得ると共に、無線データは、必要に応じて、装置５５０上で動作するアプリケーションによって使用され得る。

装置５５０は、更に、ユーザから口語の情報を受け取ると共に、それを使用に適したデジタル情報に変換し得る音声コーデック５６０を使用して、聞こえるように（audibly：可聴音によって）通信し得る。音声コーデック５６０は、同様に、例えば装置５５０の受話器において、例えばスピーカなどを通してユーザに対する可聴音を生成し得る。音声電話からの音を含み得るそのような音は、記録された音（例えば、ボイスメッセージ、音楽ファイル等）を含み得ると共に、更に、装置５５０上で動作するアプリケーションによって生成された音を含み得る。

図において示されたように、計算装置５５０は、多くの異なる形式において実施され得る。例えば、それは、セルラー電話機５８０として実施され得る。それは、更に、スマートフォン５８２、携帯情報機器、または他の同様の携帯型機器の一部として実施され得る。

ここで説明されたシステム及び技術の様々な実装は、デジタル電子回路構成、集積回路構成、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／またはそれの組み合わせにおいて実現されることができる。これらの様々な実装は、少なくとも１つのプログラム可能なプロセッサを含むプログラマブルシステムで実行可能であるか、及び／または解釈可能である１つ以上のコンピュータプログラムにおける実装を含むことができると共に、少なくとも１つのプログラム可能なプロセッサは、そこからデータと命令を受信すると共に、そこにデータと命令を送信するように、記憶装置システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置に連結された、特殊用途または一般用途のプロセッサであり得る。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られている）は、プログラム可能なプロセッサのための機械語命令を含むと共に、高水準の手続き的及び／またはオブジェクト指向のプログラミング言語で、及び／または、アセンブリ言語／機械語で実装されることができる。ここで使用されるように、用語“機械読み取り可能な媒体”、“コンピュータ読み取り可能な媒体”は、プログラム可能なプロセッサに機械語命令及び／またはデータを提供するために使用される、あらゆるコンピュータプログラム製品、器具、及び／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラム可能論理回路（Programmable Logic Device：ＰＬＤ））のことを指しており、機械読み取り可能な信号として機械語命令を受け取る機械読み取り可能な媒体を含んでいる。用語“機械読み取り可能な信号”は、プログラム可能なプロセッサに機械語命令及び／またはデータを提供するために使用されるあらゆる信号のことを指している。

ユーザとの対話を提供するために、ここで説明されたシステム及び技術は、情報をユーザに表示するための表示装置（例えばＣＲＴ（ブラウン管）またはＬＣＤ（液晶表示装置）モニタ）、そして、それによりユーザがコンピュータに入力を提供することができるキーボード及びポインティングデバイス（例えばマウスまたはトラックボール）を有するコンピュータ上で実施されることができる。他の種類の装置が、同様に、ユーザとの対話を提供するために使用されることができ、例えば、ユーザに提供されるフィードバックは、あらゆる形式の感覚に関するフィードバック（例えば視覚のフィードバック、聴覚のフィードバック、または触覚のフィードバック）であり得ると共に、ユーザからの入力は、音入力、音声入力、触覚入力を含むあらゆる形式で受信されることができる。

ここで説明されたシステム及び技術は、計算システムにおいて実施されることができると共に、計算システムは、（例えばデータサーバのような）バックエンドコンポーネントを備えるか、もしくは、計算システムは、（例えばアプリケーションサーバのような）ミドルウェアコンポーネントを備えるか、もしくは、計算システムは、（それを通してユーザがここで説明されたシステム及び技術の実装と対話することができる、グラフィカルユーザインタフェースまたはウェブブラウザを有するクライアントコンピュータのような）フロントエンドコンポーネントを備えるか、もしくは、計算システムは、１つ以上のそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントのあらゆる組み合わせを備える。システムのコンポーネント（構成要素）は、デジタルデータ通信のあらゆる形式または媒体（例えば通信ネットワーク）によって、相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、（特別なメンバーもしくは静的なメンバーを有する）ピアツーピアネットワーク（peer-to-peer network）、グリッドコンピューティング基盤（grid computing infrastructure）、及びインターネットを含む。

計算システムは、クライアント及びサーバを備えることができる。クライアント及びサーバは、一般的に、相互から遠く離れており、そして通常は通信ネットワークによって情報のやり取りをする。クライアントとサーバの関係は、それぞれのコンピュータ上で動作すると共に、相互にクライアントとサーバの関係を有するコンピュータプログラムのおかげで発生する。

２、３の実装が上記で詳細に説明されたが、他の修正が可能である。例えば、地理的位置を選択するために使用される地理情報は、ユーザによって表示されたテキストに基づいて取得されることができる。例えば、ユーザは、オクラホマの大きい州を描写するウェブサイトを訪問することができる。ウェブブラウザ（または他のアプリケーション）は、そのユーザがオクラホマに興味があることを示す地理情報を送信することができる。いくらかの実装において、もしオクラホマに関係した言葉のしきい値数が見いだされるならば、ウェブブラウザ（または他のアプリケーション）は、地理情報のみを送信する。

別の実装において、地理的位置を選択するために使用される地理情報は、ユーザによって入力されたテキストに基づいている。例えば、そのユーザは、“山火事”及び“カリフォルニア”のような検索語を検索エンジンインタフェースに入力し得る。文法選択器は、更に、カリフォルニアの中の特定の位置を識別するために、これらの用語を相互に関連付けることができる。例えば、統合された一群の検索エンジンユーザが提供する最近の検索結果は、結果が多くの場合にカリフォルニアのサンディエゴの記載を含むことを示し得る。文法選択器は、最近の検索結果に基づいて、サンディエゴの近くに固定された文法を識別することができる。

更に、装置の現在の場所を位置特定することが、携帯電話機または他の携帯機器の中のＧＰＳ機能に関して説明されたが、他の位置情報検出システム（location-based detection system）が使用されることができる。例えば、携帯機器の位置は、更に、セル基点（cell of origin：ＣＯＯ）移動***置特定技術、到達時間差（time difference of arrival：ＴＤＯＡ）信号検出技術、到来時刻（time of arrival：ＴＯＡ）技術、到来角（angle of arrival：ＡｏＡ）測定技術、強化観測時間差（enhanced observed time difference：ＥＯＴＤ）技術、等によって確認されることができる。

他の実装において、文法形成器は、ユーザによって送信されるか、もしくは受信された電子メールに基づいて、ユーザのために個人化された文法を編集することができる。文法選択サーバは、クライアントから受け取られたユーザＩＤに基づいて、使用するべき個人化された文法を選択することができる。

更に、図において描写された論理フローは、望ましい結果を達成するために、示された特定の順序、及び順次的な順序を必要としない。更に、説明されたフローに他のステップが提供され得るか、または説明されたフローからステップが消去され得ると共に、説明されたシステムに他の構成要素が増加され得るか、または説明されたシステムから構成要素が除去され得る。従って、他の実施例は、添付の請求項の範囲内にある。

１００代表的システム
１０２クライアント装置
１０４文法選択サーバ
１０６音声認識サーバ
１０８携帯機器用ブラウザ
１１０データ蓄積部
１１２地理的位置と関連付けられた文法
１１４黙示的な地理的情報
１１８文法を識別する情報（文法情報）
１２０音声入力
１２２応答
２００代表的クライアント
２０２代表的音声信号処理システム
２０４ネットワーク
２０６携帯電話機（モバイル機器）
２０８アプリケーション環境
２１０インターネットブラウザ
２１２マイクロホンインタフェース
２１４ＧＰＳトランシーバインタフェース
２１６多モードサーバ
２１８文法選択サーバ
２２０音声認識サーバ
２２２地理的な文脈情報（地理的連絡先情報）
２２４逆ジオコーダ
２２６文法インデックス
２２８文法ＩＤ
２３０データ蓄積部
２３２文法ＩＤを含む要求
２３４文法
２３６音声信号
２３８音声信号デコーダ
２４０テキスト
３００代表的方法
４００スクリーンショット
４０２地図
４０４検索オプションウィンドウ
４０６オプション
４０８オプション
４１０スクリーンショット
４１２図
４１６スクリーンショット
４１８スクリーンショット
４２０画鋲アイコン
５００計算装置
５０２プロセッサ
５０４メモリ
５０６記憶装置
５０８高速インタフェース
５１０高速拡張ポート
５１２低速インタフェース
５１４低速バス
５１６表示装置
５２０標準のサーバ
５２２ラップトップコンピュータ
５２４ラックサーバシステム
５５０計算装置
５５２プロセッサ
５５４表示装置
５５６表示装置インタフェース
５５８制御インタフェース
５６０音声コーデック
５６２外部インタフェース
５６４メモリ
５６６通信インタフェース
５６８トランシーバ
５７０ＧＰＳ受信機モジュール
５７２拡張インタフェース
５７４拡張メモリ
５８０セルラー電話機
５８２スマートフォン

Claims

コンピュータで実行される方法であって、
第１の計算装置と関連付けられると共に、地理的位置におけるユーザの関心を意味する非言語的ユーザ操作から取得された地理的情報を受信する段階と、
取得された前記地理的情報を使用して、前記地理的位置と関連付けられた文法を識別する段階と、
前記ユーザからの音声入力の音声認識処理のために識別された前記文法を選択する際に使用するための文法指示子を出力する段階と
を含むことを特徴とする方法。
前記非言語的ユーザ操作が、前記地理的位置に前記第１の計算装置を移動させることを含む
ことを特徴とする請求項１に記載の方法。
受信された前記地理的情報が、グローバルポジショニングシステム（ＧＰＳ）データを含む
ことを特徴とする請求項２に記載の方法。
前記非言語的ユーザ操作が、前記地理的位置と関連付けられた地図を表示することを含む
ことを特徴とする請求項１に記載の方法。
前記地図の中心における位置を前記地理的位置として選択する段階を更に含む
ことを特徴とする請求項４に記載の方法。
表示された前記地図のズームレベルに基づいて、前記地理的位置を選択する段階を更に含む
ことを特徴とする請求項５に記載の方法。
前記非言語的ユーザ操作が、前記地理的位置と関連付けられたテキストを表示することを含む
ことを特徴とする請求項１に記載の方法。
前記非言語的ユーザ操作が、前記地理的位置と関連付けられたテキストを入力することを含む
ことを特徴とする請求項１に記載の方法。
前記ユーザと関連付けられたユーザ識別子を受信する段階を更に含む
ことを特徴とする請求項１に記載の方法。
前記ユーザ識別子と関連付けられたユーザ文法を識別する段階と、
前記ユーザからの前記音声入力の音声認識処理のために前記ユーザ文法を選択する際に使用するためのユーザ文法指示子を、音声認識プロセッサに出力する段階と
を更に含むことを特徴とする請求項９に記載の方法。
前記ユーザの過去のインターネット検索履歴に基づいて、前記ユーザ文法を生成する段階を更に含む
ことを特徴とする請求項１０に記載の方法。
前記ユーザと関連付けられた電子メールに基づいて、前記ユーザ文法を生成する段階を更に含む
ことを特徴とする請求項１０に記載の方法。
非言語的ユーザ操作のリストを受け取る段階を更に含む
ことを特徴とする請求項１に記載の方法。
前記リストに基づいて、アプリケーション文脈を識別する段階と、
前記アプリケーション文脈と関連付けられたアプリケーション文脈文法を識別する段階と
を更に含むことを特徴とする請求項１３に記載の方法。
ユーザからの音声入力の音声認識処理のためにアプリケーション文脈文法を選択する際に使用するためのアプリケーション文脈識別子を出力する段階を更に含む
ことを特徴とする請求項１４に記載の方法。
前記非言語的ユーザ操作のリストが、アプリケーションの中のユーザのナビゲーションと関連付けられた識別子を含む
ことを特徴とする請求項１３に記載の方法。
前記リストが、ユーザによって選択されたアプリケーションメニュー項目を含む
ことを特徴とする請求項１６に記載の方法。
もし追加の非言語的操作がユーザの新しい関心を意味するならば、前記新しい関心に基づく異なる文法を選択する段階を更に含む
ことを特徴とする請求項１に記載の方法。
コンピュータで実行される方法であって、
計算装置と関連付けられると共に、音声認識プロセッサによって促されたものではないユーザ操作に基づく文脈情報を受信する段階と、
前記文脈情報に基づいて、地理的位置を取得する段階と、
前記地理的位置と関連付けられた文法を識別する段階と、
前記ユーザからの音声入力の処理において使用する前記文法を選択する際に使用するための文法識別子を出力する段階と
を含むことを特徴とする方法。
第１の計算装置と関連付けられると共に、地理におけるユーザの関心を意味する非言語的ユーザ操作に基づく文脈情報を受信するインタフェースと、
受信された前記文脈情報から取得された地理的位置と関連付けられた文法を識別するための手段と、
前記ユーザから受け取られた音声入力を解釈するために識別された前記文法を使用するように構成された音声認識サーバと
を備えることを特徴とするシステム。