JP4854259B2 - 音声コマンドを明瞭化する集中化された方法およびシステム - Google Patents

音声コマンドを明瞭化する集中化された方法およびシステム Download PDF

Info

Publication number
JP4854259B2
JP4854259B2 JP2005299982A JP2005299982A JP4854259B2 JP 4854259 B2 JP4854259 B2 JP 4854259B2 JP 2005299982 A JP2005299982 A JP 2005299982A JP 2005299982 A JP2005299982 A JP 2005299982A JP 4854259 B2 JP4854259 B2 JP 4854259B2
Authority
JP
Japan
Prior art keywords
user
voice command
centralized
interpretations
commands
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005299982A
Other languages
English (en)
Other versions
JP2006146182A (ja
JP2006146182A5 (ja
Inventor
マウアット デビッド
エル.チャンバース ロバート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2006146182A publication Critical patent/JP2006146182A/ja
Publication of JP2006146182A5 publication Critical patent/JP2006146182A5/ja
Application granted granted Critical
Publication of JP4854259B2 publication Critical patent/JP4854259B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Selective Calling Equipment (AREA)
  • Input From Keyboards Or The Like (AREA)

Description

本発明は、主に、ユーザとコンピューティング装置との対話に関する。より詳細には、本発明は、音声認識の状況におけるユーザと集中インタフェース(centralized interface)との対話に関する。
近年、音声認識技術の改良への関心が高まってきている。音声認識技術におけるそのような課題の1つに、音声コマンドによるユーザとコンピューティング装置との対話がある。多くの場合、コンピューティング装置が音声コマンドを実行できるためには、音声コマンドの一層の明瞭化が必要とされる。
コンピューティング装置は、たいていは、音声コマンドを複数の方法によって解釈できる。一つの側面においては、コンピューティング装置は、音声コマンドがどのアプリケーションに向けられているかを理解できないことがある。たとえば、音声コマンドが、複数のアプリケーションモジュールにおいて用いられている用語を含んでいる可能性がある。別の側面においては、音声コマンドにあいまいな情報が含まれているために、アプリケーションが、ユーザが何を実行したいかを理解できないことがある。たとえば、アプリケーションの再生ができるビートルズのアルバムが複数ある場合に、音声コマンドに「play the Beatles(ビートルズを再生する)」が含まれている可能性がある。さらに別の例では、音声コマンドに誤認識エラーが含まれる可能性がある。たとえば、ユーザがコマンド「insert ice cream(アイスクリーム を挿入する)」を発声したのに対し、音声認識システムがそのコマンドを「insert I scream(私は叫ぶ を挿入する)」と認識する可能性がある。
ユーザの意図を推測したり、ユーザに相談せずにアクションを実行したりすることは、ユーザのフラストレーションにつながる可能性がある。
過度のフラストレーションを引き起こしたり、音声認識の効率を犠牲にしたりすることなく、音声コマンドの明瞭化と誤認識エラーの解明(clarification)とをコントロールするツールをユーザに提供することが必要である。
ユーザとの集中化された対話を助ける方法およびシステムを提供する。本方法およびシステムは、認識された音声コマンドを複数のアプリケーションモジュールに供給することを含む。その複数のアプリケーションの少なくとも1つによって、音声コマンドの複数の解釈が生成される。集中インタフェースモジュールが、音声コマンドの複数の解釈を集中ディスプレイに視覚的に表示する(render)。解釈の選択の通知をユーザから受け取る。
音声コマンドに多義性が存在する場合に、集中インタフェースモジュールが解釈のリストをユーザに対して視覚的に表示することで、ユーザが用いているコマンドの意味を勝手に推測することが避けられる。さらに、集中インタフェースモジュールによって提供される集中ディスプレイパネルは、一般的なユーザ対話を可能にする。
音声認識を用いてユーザからの音声コマンドを認識する、コンピュータに実装されたシステムの文脈において、本発明を説明する。しかしながら、本発明の各態様を説明する前に、それらの態様を組み込むことができ、それらの態様から恩恵を得られる好適なコンピューティング環境について説明しておくことが有意義であろう。
図1は、本発明を実装できる好適なコンピューティングシステム環境の一例100である。コンピューティングシステム環境100は、好適なコンピューティング環境の一例に過ぎず、本発明の使用範囲または機能範囲に関して何らかの限定を行うことを意図したものではない。コンピューティング環境100は、例示的オペレーティング環境100に示されたコンポーネントの任意の1つまたは任意の組み合わせに関連する何らかの依存性または要件を有するものと解釈されてはならない。
本発明は、他の多くの汎用用途または特殊用途のコンピューティングシステム環境または構成とともに実用可能である。本発明に用いるのに好適と考えられる、よく知られたコンピューティングシステム、環境、および/または構成として、たとえば、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家庭用電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、テレフォニーシステム、これらのシステムまたは装置を任意に含む分散コンピューティング環境などが挙げられ、これらに限定されない。
本発明は、コンピュータで実行されるコンピュータ実行可能命令(プログラムモジュールなど)の一般的な文脈で説明されることが可能である。一般にプログラムモジュールは、特定のタスクを実行したり、特定の抽象データ型を実装したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造体などを含む。本発明はまた、通信ネットワークでリンクされたリモート処理装置でタスクが実行される分散コンピューティング環境でも実施可能である。分散コンピューティング環境では、メモリストレージ装置を含む、ローカルとリモートの両方のコンピュータストレージ媒体にプログラムモジュールを配置できる。それらのプログラムやモジュールで実行されるタスクについて、後に図面を参照しながら説明していく。当業者であれば、本明細書で提供される説明および図面を、任意の形式のコンピュータ読取り可能媒体に書き込むことができるプロセッサ実行可能命令として実装することができる。
図1に示すように、本発明を実装する例示的システムは、コンピュータ110の形で汎用コンピューティング装置を含む。コンピュータ110のコンポーネントとして、処理装置120、システムメモリ130、およびシステムメモリを含む各種システムコンポーネントを処理装置に結合するシステムバス121が挙げられ、これらに限定されない。システムバス121としては、いくつかのタイプのバス構造を任意に用いることができ、それらにはメモリバスまたはメモリコントローラ、ペリフェラルバス、および様々なバスアーキテクチャを任意に用いるローカルバスが含まれる。そのようなアーキテクチャとして、たとえば、ISAバス、MCAバス、EISAバス、VESAローカルバス、およびMezzanineバスとも呼ばれるPCTバスなどが挙げられ、これらに限定されない。
コンピュータ110は、一般に、様々なコンピュータ読取り可能媒体を含む。コンピュータ読取り可能媒体としては、コンピュータ110からのアクセスが可能な任意の市販媒体を用いることができ、揮発性媒体および不揮発性媒体の両方、リムーバブル媒体および非リムーバブル媒体の両方を用いることができる。たとえば、コンピュータ読取り可能媒体としてコンピュータストレージ媒体と通信媒体とが挙げられ、これらに限定されない。コンピュータストレージ媒体としては、コンピュータ可読命令、データ構造体、プログラムモジュール、またはその他のデータを記憶するための任意の方法または技術で実装される、揮発性媒体および不揮発性媒体の両方、リムーバブル媒体および非リムーバブル媒体の両方が含まれる。コンピュータストレージ媒体として、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリテクノロジ、CD−ROM、デジタル多用途ディスク(DVD)、または他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、または他の磁気ストレージ装置、その他の、所望の情報を格納するために使用でき、コンピュータ110からのアクセスが可能な任意の媒体などが挙げられ、これらに限定されない。通信媒体は、一般に、コンピュータ可読命令、データ構造体、プログラムモジュール、またはその他のデータを、搬送波などの変調データ信号または他の伝送メカニズムの形で具現化したものであり、任意の情報配信媒体を含む。「変調データ信号」という用語は、信号の1つまたは複数の特性が、信号内の情報をエンコードするように設定または変更される信号を意味する。通信媒体としては、たとえば、有線ネットワークや直接有線接続などの有線媒体、および音響、RF、赤外線などの無線媒体が挙げられ、これらに限定されない。上記のものの任意の組み合わせも、コンピュータ読取り可能媒体の範囲に含まれる。
システムメモリ130には、読み出し専用メモリ(ROM)131およびランダムアクセスメモリ(RAM)132などの揮発性および/または不揮発性メモリの形でのコンピュータストレージ媒体が含まれる。基本入出力システム133(BIOS)は、起動時などにコンピュータ110内での構成要素間の情報転送を支援する基本ルーチンを含み、通常はROM 131に格納される。RAM 132は一般に、処理装置120からのアクセスが即座に可能になるか、じきに処理装置120によって操作されるようになるデータおよび/またはプログラムモジュールを収容する。たとえば、図1には、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137が示されているが、これらに限定されない。
コンピュータ110は、他のリムーバブル/非リムーバブル、揮発性/不揮発性コンピュータ記憶媒体を含むこともできる。あくまで例であるが、図1には、非リムーバブル、不揮発性の磁気媒体の読み出し/書き込みを行うハードディスクドライブ141、リムーバブル、不揮発性の磁気ディスク152の読み出し/書き込みを行う磁気ディスクドライブ151、およびリムーバブル、不揮発性の光ディスク156(CD−ROMやその他の光媒体など)の読み出し/書き込みを行う光ディスクドライブ155が示されている。この例示的オペレーティング環境で使用できる他のリムーバブル/非リムーバブル、揮発性/不揮発性コンピュータ記憶媒体として、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、固体RAM、固体ROMなどが挙げられ、これらに限定されない。ハードディスクドライブ141は一般に、インタフェース140などの非リムーバブルメモリインタフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は一般に、インタフェース150などのリムーバブルメモリインタフェースによってシステムバス121に接続される。
図1に示された前述のドライブおよびそれに関連付けられたコンピュータ記憶媒体は、コンピュータ可読命令、データ構造体、プログラムモジュール、および他のコンピュータ110用データのストレージを提供する。図1では、たとえば、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を格納するものとして示されている。これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同じものでも異なるものでもありうることに注意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147は、ここでは異なる参照符号が与えられているが、これは、少なくとも異なるコピーであることを示すためである。
ユーザは、キーボード162、マイク163、ポインティング装置161(マウス、トラックボール、タッチパッドなど)などの入力装置を用いてコマンドおよび情報をコンピュータ110に入力できる。他の入力装置(図示せず)として、ジョイスティック、ゲームパッド、パラボラアンテナ、スキャナなどが挙げられる。これらの入力装置および他の入力装置は、たいていは、システムバスに結合されているユーザ入力インタフェース160を介して処理装置120に接続されるが、他のインタフェースおよびバス構造(パラレルポート、ゲームポート、USBなど)で接続されることも可能である。モニタ191や他のタイプの表示装置も、ビデオインタフェース190などのインタフェースを介してシステムバス121に接続される。コンピュータは、モニタだけでなく、スピーカ197やプリンタ196など、他のペリフェラル出力装置も含むことができる。これらは出力ペリフェラルインタフェース195を介して接続可能である。
コンピュータ110は、1つまたは複数のリモートコンピュータ(リモートコンピュータ180など)との論理接続を用いるネットワーク環境で動作している。リモートコンピュータ180として、パーソナルコンピュータ、ハンドヘルドコンピュータ、サーバ、ルータ、ネットワークPC、ピアデバイス、他の共通ネットワークノードなどを用いることができ、リモートコンピュータ180は一般に、コンピュータ110に関連して前述した構成要素のほとんどまたはすべてを含む。図1に示された論理接続は、ローカルエリアネットワーク(LAN)171とワイドエリアネットワーク(WAN)173とを含むが、他のネットワークも含むことができる。そのようなネットワーク環境は、オフィス、企業規模コンピュータネットワーク、イントラネット、およびインターネットではごく普通である。
コンピュータ110は、LANネットワーク環境で使用される場合は、ネットワークインタフェースまたはネットワークアダプタ170を介してLAN 171に接続される。コンピュータ110は、WANネットワーク環境で使用される場合は、インターネットなどのWAN 173を介して通信を確立するためのモデム172または他の手段を含むのが一般的である。モデム172は、内蔵であれ、外付けであれ、ユーザ入力インタフェース160または他の適切なメカニズムを介してシステムバス121に接続されることが可能である。ネットワーク環境では、コンピュータ110に関連して示されたプログラムモジュールまたはその一部が、リモートメモリストレージ装置に格納されることが可能である。限定ではなく例として、図1には、リモートアプリケーションプログラム185がリモートコンピュータ180に常駐するものとして示されている。図示されたネットワーク接続は例示的なものであって、コンピュータ間の通信リンクを確立するために他の手段も用いることが可能であることが理解されよう。
図2は、別の適用可能なコンピューティング環境であるモバイル装置200のブロック図である。モバイル装置200は、マイクロプロセッサ202、メモリ204、入出力(I/O)コンポーネント206、およびリモートコンピュータまたは他のモバイル装置と通信するための通信インタフェース208を含む。一実施形態では、好適なバス210を介して、これまで述べたコンポーネントが、互いに通信するために接続される。
メモリ204は、モバイル装置200の全体電源がシャットダウンされてもメモリ204に格納されている情報が失われないようにバッテリバックアップモジュール(図示せず)を有するランダムアクセスメモリ(RAM)などの不揮発性電子メモリとして実装されている。メモリ204の一部はプログラムの実行に備えてアドレス指定可能メモリとして割り当てられることが好ましく、メモリ204の別の部分は、ディスクドライブ上のストレージをシミュレートするなど、ストレージ用途で使用されることが好ましい。
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214、ならびにオブジェクトストア216を含む。動作中、オペレーティングシステム212は、プロセッサ202によってメモリ204から実行されることが好ましい。好ましい一実施形態では、オペレーティングシステム212は、Microsoft Corporationから市販されているWINDOWS(登録商標)CEブランドのオペレーティングシステムである。オペレーティングシステム212は、好ましくはモバイル装置用に設計されており、公開されているアプリケーションプログラミングインタフェースおよびメソッドの一式を用いてアプリケーション214から利用できるデータベース機能を実装する。オブジェクトストア216内のオブジェクトは、公開されているアプリケーションプログラミングインタフェースおよびメソッドへの呼び出しに応答して、少なくとも部分的に、アプリケーション214およびオペレーティングシステム212によって保持される。
通信インタフェース208は、モバイル装置200が情報を送受信することを可能にするいくつかのデバイスおよび技術を表す。それらのデバイスは、2〜3例を挙げると、有線モデム、無線モデム、衛星受信機、放送チューナなどを含む。モバイル装置200はまた、コンピュータとデータを交換するためにコンピュータに直接接続されることが可能である。そのような場合は、通信インタフェース208として、赤外線送受信機や、シリアルまたはパラレルの通信接続を用いることができ、それらはすべてストリーミング情報の伝送が可能である。
入出力コンポーネント206は、タッチスクリーン、ボタン、ローラー、マイクなど様々な入力装置と、オーディオジェネレータ、振動装置、ディスプレイなど様々な出力装置とを含む。上で列挙した装置は例であり、モバイル装置200にすべてが存在する必要はない。さらに、本発明の範囲内で他の入出力装置がモバイル装置200に接続されたり、備えられたりすることも可能である。
図3は、本発明の実施形態による、コンピュータに実装されたシステム300の概略ブロック図である。システム300は、既に説明されたコンピューティング環境のいずれにも組み込まれることが可能であり、マイク302、オーディオキャプチャモジュール304、音声認識部306、複数のインストール済みアプリケーションモジュール310、および集中インタフェースモジュール312を含む。マイク302は、ユーザから音声コマンドを受け取るように構成される。オーディオキャプチャモジュール304は、マイク302で受けた音声コマンドをキャプチャし、処理された音声コマンドを音声認識部306に伝達するように構成される。
音声認識部306は、音声コマンドを認識するために、複数の認識可能なコマンドを収容する文法(grammar)308にアクセスする。文法ジェネレータモジュール309は、インストールされ動作しているアプリケーションモジュール310から受け取った入力に基づいて文法308を生成するように構成されている。アプリケーションモジュール310から受け取られる入力は、文法308に投入(populate)され、アプリケーションモジュールが様々なアクションを処理および実行するために用いる実行可能コマンドである。したがって、文法308内にある各認識可能コマンドは、複数のアプリケーションモジュール310のうちの1つでアクションを実行するコマンドに対応する。
文法ジェネレータモジュール309は、文法308に各種コマンドの代替形を投入することもできる。これらの代替形のコマンドは、通常、アプリケーションモジュール310から受け取られる。たとえば、ユーザがコンピューティング装置でビートルズを再生したい場合、ユーザは「play the Beatles(ビートルズを再生する)」と発声しなければならない。しかしながら、コンピューティング装置に「play the Beatles(ビートルズを再生する)」と正しく命令する代わりに、「start the Beatles(ビートルズを開始する)」と命令することも可能であり、これによって同じタスクが実行される。
実施形態によっては、文法ジェネレータモジュール309がさらに、所与の時点でどのアプリケーションモジュール310が動作可能かを調べるように構成される。たとえば、文法ジェネレータモジュール309が、オペレーティングシステム上で5つのアプリケーションモジュールが動作していることを突き止めることができたとする。それらの動作可能なアプリケーションモジュールは、2つのインスタンスのWebブラウザ、電子メールアプリケーション、ワードプロセッサアプリケーション、およびスプレッドシートアプリケーションを含むとする。文法ジェネレータモジュール309は、文法308を生成する際に、コマンドを圧縮して、一式のWebブラウザアプリケーション用コマンドだけが文法308に投入されるようにする。しかしながら、文法ジェネレータ309は、Webブラウザの動作可能なインスタンスが2つあるという認識を保持しておく。その結果、文法ジェネレータ309は、文法308の生成時点において多義性が存在することを認識する。
他の実施形態では、文法ジェネレータ309は、Webブラウザの動作可能なインスタンスが2つあるという認識を保持しない。この実施形態では、集中インタフェースモジュール312がオペレーションシステムのステータスチェックを実行し、同じアプリケーションの異なるインスタンスが動作可能であり、したがって、多義性があるかどうかを判断できる。
音声認識部306が音声コマンドを認識した後、認識された音声コマンドが複数のアプリケーションモジュール310に伝達される。認識された音声コマンドは、集中インタフェースモジュール312を介して、または音声認識部306によって、複数のアプリケーションモジュールに伝達されることが可能である。複数のアプリケーションモジュール310は、伝達の経路に関係なく、認識された音声コマンドを処理する。
本発明の一実施形態によれば、アプリケーションモジュール310の一部またはすべてが、認識された音声コマンドを実行できると判断する。たとえば、ユーザが「start settings(設定を開始する)」というコマンドを発声したとする。しかしながら、システム300にインストールされているアプリケーションモジュール310の多くが「settings(設定)」という用語を含むアプリケーション態様を有しているであろう。したがって、認識されたコマンド310はあいまいで多義性を持つ。すなわち、ユーザがどのアプリケーションを指しているのかが不明である。
この実施形態では、集中インタフェースモジュール312が、認識された音声コマンドの可能な解釈の集合を複数のアプリケーションモジュール310から収集する。集中インタフェースモジュール312は次に、その解釈の集合をリストの形で視覚的に表示する。この解釈のリストを、ユーザが、ディスプレイ314の集中パネル上で見る。可能な解釈のリスト402を視覚的に表示している集中パネルのスクリーンショットの一例400を図4に示す。
本発明の別の実施形態によれば、複数のアプリケーションモジュール310のうちの1つだけが、認識された音声コマンドを実行できると判断する。たとえば、ユーザが「play the Indigo Girls(インディゴガールズを再生する)」というコマンドを発声したとする。1つのアプリケーションモジュール310(メディアアプリケーションなど)だけが「play the Indigo Girls」を含むメニューアイテムを有していたとする。しかしながら、そのメディアアプリケーションがコマンドを実行しようとしたところ、再生可能なインディゴガールズのアルバムが4つあることが判明した。したがって、認識されたコマンドはあいまいで多義性を持つ。ユーザがどのアルバムを再生しようとしているかが、メディアアプリケーションには不明である。
この実施形態では、集中インタフェースモジュール312が、認識された音声コマンドの可能な解釈の集合をそのアプリケーションモジュール310から収集する。集合インタフェースモジュール312は、その解釈の集合をリストの形で視覚的に表示する。この解釈のリストを、ユーザが、ディスプレイ314上にある集中パネルで見る。ここで説明した例に関して、可能な解釈のリストを視覚的に表示している集中パネルのスクリーンショットの例500を図5に示す。
本発明のさらに別の実施形態によれば、既に説明したように、ユーザが特定のアプリケーションのどのインスタンスまたはアプリケーションモジュールを指しているかについて、多義性が存在する可能性がある。たとえば、ユーザがスプレッドシートアプリケーションを使用していて、「switch to the Internet browser(インターネットブラウザに切り替える)」というコマンドを発声したとする。しかしながら、システム300は、スプレッドシートアプリケーションの1つのインスタンスを実行していたのに加え、インターネットブラウザアプリケーションの2つのインスタンスをさらに実行していたとする。したがって、認識されたコマンドはあいまいで多義性を持つ。ユーザがインターネットブラウザのどのインスタンスを指しているのかが不明である。
この実施形態では、動作可能なWebブラウザのインスタンスが複数存在するという認識を保持している文法ジェネレータ309に基づく音声コマンドの可能な解釈の集合を、音声認識部306が集中インタフェースモジュール312に供給できる。代替の実施形態では、集中インタフェースモジュール312が、オペレーティングシステムのステータスチェックを実行した後に、音声コマンドの可能な解釈の集合を供給できる。集合インタフェースモジュール312は、その解釈の集合をリストの形で視覚的に表示する。この解釈のリストを、ユーザが、ディスプレイ314上にある集中パネルにおいて見る。
解釈のリスト402および502の各解釈には、識別子による注釈が付けられる(すなわち、「1」、「2」、「3」など)。図4および図5の実施形態では、識別子404および504は数字記号であるが、任意の形式の記号を用いることができる。ユーザは、解釈のリスト402および502を見ればただちに、どの解釈がユーザの意向に対応する解釈であるかを確定できる。一実施形態では、ユーザは、対応する数字記号を発声することによって正しいコマンドを選択できる。別の実施形態では、ユーザは、(図3の)入力装置316を用いて所望の解釈を選択することによって正しいコマンドを選択できる。入力装置316として、マウスなどの選択装置を用いることができ、これに限定されない。入力装置316として、キーパッドを用いることもできる。正しい解釈がどのように選択されるかにかかわらず、解釈が選択されることによって、システム300は、対応するコマンドを対応するアプリケーションに転送してそのコマンドを実行しようとする。
別の実施形態では、ユーザが、図5の例では、インディゴガールズのすべてのアルバムの再生を希望していることを伝えることができる。通信欄506は、ユーザが複数の解釈502から解釈を選択できること、および「Play all(すべて再生する)」と発声すればすべてのアルバムを再生できることを示している。ユーザが何を希望していたかにかかわらず、正しい解釈が選択されることによって、システム300は、対応するアプリケーションにコマンド情報を供給してアクションを実行しようとする。
音声コマンドに多義性が存在する場合に解釈のリストをユーザに対して視覚的に表示する集中インタフェースモジュールを用いることで、システム300は、適正なコマンドを勝手に推測することを避けることができる。さらに集中インタフェースモジュールは、可能なユーザ対話をグラフィカルに表現する、シンプルな、集中化されたパネルを提供し、ユーザの意図を特定する高効率の手段を提供し、複数のアプリケーションモジュールの外部に配置される、一貫性のあるインタフェースを提供する。言い換えると、図4、図5、および図8〜図10(後述)に示した集中パネルの各スクリーンショットは、同じような外観であり、同じように動作し、したがって、一貫した位置に表示されることが可能である。たとえば、図6は、オペレーティングシステム上で動作しているメディアプレーヤのスクリーンショット600を示す。ユーザが「play Indigo Girls(インディゴガールズを再生する)」と命令する。前述のように、インディゴガールズの再生可能なアルバムが複数あるとする。集中インタフェースまたはパネル500がスクリーンの右下部分に表示され、ユーザが意図したものを選択するようユーザを促す。このように、集中パネルが1つまたは複数のアプリケーションモジュール310で使用可能な場合でも、ユーザは、ディスプレイの操作について混乱することが少なくなる。
図7は、ユーザとの集中化された対話を助ける、コンピュータに実装された方法を提供するフローチャート700である。フローチャート700は、ユーザから音声コマンドを受け取ることを伴うステップ702を含む。フローチャート700は、音声コマンドを受け取った後、ステップ704に進み、音声コマンドを、音声認識部で認識されるのに適切な状態になるように処理する。ステップ706で、音声認識部(図3の音声認識部306など)が音声コマンドを認識する。音声認識部は、音声コマンドを、インデックスに格納されている複数のコマンドと比較する。
ステップ708において、認識されたコマンドが複数のアプリケーションモジュールに伝達される。710において、複数のアプリケーションモジュールのうちの少なくとも1つが、認識されたコマンドに多義性があると判断するとすぐに、複数の解釈が受信される。ステップ712において、複数の解釈がユーザに対して視覚的に表示される。たとえば、ディスプレイの集中パネルに、複数の解釈を、対応する識別子を付けてリストできる。ステップ714において、複数の解釈のうちの1つをユーザが選択した結果の通知が受け取られる。たとえば、当該の識別子を音声で通知することにより、所望の解釈が正しいコマンドとして識別されることが可能である。
ユーザは、図3の集中インタフェースモジュール312と対話して音声コマンドを明瞭化することに加えて、ワードプロセッサアプリケーションなどのアプリケーションに口述している間に、集中インタフェースモジュール312と対話して認識エラーを修正することもできる。ユーザは、認識エラーを修正するために、入力装置で誤って読み取られた語を強調表示できる。強調表示された後、アプリケーションモジュールが複数の選択肢を集中インタフェースモジュール312に送る。それらの選択肢は、発声された内容と類似して聞こえる句を含んでいる。集中インタフェースモジュール312は、それらの代替句を受け取り、ディスプレイ314の集中パネルに視覚的に表示する。各代替句は、対応する識別子を含む。集中インタフェースモジュール312は、音声または入力装置316により、選択の通知をユーザから識別子の形で受け取り、その選択内容をアプリケーションモジュールに伝達する。
集中インタフェースモジュール312は、正しい選択肢である選択肢を視覚的に表示できない場合がある。正しい選択肢の表示ができないのは、音声認識部306が誤認識エラーを起こした場合か、その代替句が、システム300においてユーザがこれまで発声したことがなかったものであるために認識不能であった場合である。集中インタフェースモジュール312は、そのような類のことが起こった場合には、先に提示した選択肢に加えて、さらに選択肢を提示するように構成されている。そのような選択肢として、たとえば、元の発声内容を再発声する選択肢を提示することがある。あるいは、別の選択肢として、システム300にとって未知である別の新しい選択肢をユーザが作成することを可能にする選択肢を提示することがある。
たとえば、図8は、本発明の実施形態による、選択肢のリストを視覚的に表示する集中パネルのスクリーンショット800を示したものである。選択肢のリストは、ワードプロセッサアプリケーションによって生成された代替句804のリストと、集中インタフェースモジュール312によって生成されたさらなる選択肢806のリストとを含む。さらなる選択肢806のそれぞれは、ユーザが選択内容を識別子の形で通知できるように、対応する識別子を含む。
ユーザが識別子「9」を選択すると、集中インタフェースモジュール312が、図9に示されるように、スクリーンショット900を集中パネルに視覚的に表示する。スクリーンショット900の通信欄(communicatin line)902が、発声内容の再発声をユーザに促す。発声内容が再発声されると、すぐに集中インタフェースモジュール312が、更新された選択肢のリストを視覚的に表示する。システム300が認識エラーを起こした場合は、識別子「9」を選択することが有用である。ユーザが図8の識別子「10」を選択すると、集中インタフェースモジュール312が、図10に示されるように、スクリーンショット1000を集中パネルに視覚的に表示する。スクリーンショット1000の通信欄1002が、発声内容のスペルを発声するようユーザに促す。ユーザが発声内容のスペルを発声するのに応答して、その字がブロック1004に表示されていく。そのほかに、ユーザが発声内容の正しいスペルを、入力装置を用いてブロック1004にタイプ入力することも可能である。
本発明の別の実施形態として、図11のブロック図に示された方法1100がある。これは、ユーザが新しい代替句のスペルを音声で入力した後、集中パネル(図10に示された集中パネルのスクリーンショット1000など)に表示された文字を操作する方法である。たとえば、図12で、ユーザが「intent」という句のスペルを音声で入力したとする。しかしながら、音声認識部306(図3)が、入力された一連のテキスト1204を「i」、「n」、「v」、「e」、「n」、「t」として「聞き取った」ために、「invent」という単語をパネル1200に表示したとする。この「invent」という単語は、「intent」に修正される必要がある。
図13に示すように、ユーザは、この修正を行うために、「invent」を修正するコマンドを音声で伝達するスペリングコマンドを実行する。システム300がスペリングコマンドを受け取るとすぐに、選択された単語が識別され、選択された単語に少なくとも1つのスペース1304を付加することによって付加された単語(appended word)1302が作成される。この付加された単語1302は、動作ブロック1102(図11)に示されるように、少なくとも1つの修正されるべき文字1306を含む。動作ブロック1104に示されるように、付加された単語の各文字1308に一意の数値1310が割り当てられ、関連付けられる。付加された単語1302の各文字1308とそれらに割り当てられた一意の数値1310との間の関連を視覚的に伝えるために、集中パネルのスクリーンショット1300によって付加された単語1302が表示される。この関連は、スクリーンショット1300の付加された単語1302の周囲にボックス1312を描画し、一意の数値1310のそれぞれを、それらが割り当てられた、付加された単語1302内の文字1308と隣接させて表示することによって、視覚的に伝えられることが可能である。そのようにして、各文字1308に、各文字1308が関連付けられた一意の数値1310が「割り当てられる」。たとえば、単語「invent」1314を「intent」に変えようとするユーザが、音声認識部306へのコマンドを音声で入力する。これによって、スクリーンショット1300の、単語「invent」1314の周囲にボックス1312が表示される。さらにこれによって、単語「invent」1314の各字に一意の数値1310が割り当てられる。これらの数値は、それぞれに対応する文字1308に隣接して表示される。図13にはそれらの両方が示されている。これによって、ユーザは、単語「invent」の任意の字を変更したり修正したりできる。
この時点で、システム300は、選択コマンドおよび修正コマンドを受け取ることができる。選択コマンドは、動作ブロック1106に示されるように、選択される文字に対応する一意の数値1310である。選択コマンドは、付加された単語1302のどの文字を変更するかを、システム300に通知する。システム300が修正コマンドを受け取った後、動作ブロック1108に示されるように、修正コマンドに応答して、選択された文字を修正することによって、修正された単語が生成される。ユーザは、「delete(削除)」、「insert(挿入)」、または追加する字/文字など、複数の修正コマンドを入力できることを理解されたい。これらの各状況については後述する。
たとえば、図14に示すように、前述のケースでユーザが、集中パネルのスクリーンショット1400に表示されている付加された単語「invent_」1404の文字「v」1402を削除したい場合を考える。これまで説明されているように、ユーザは、変更されるべき文字に対応する一意の数値をシステム300に伝える。これらの一意の数値1408は数1から始まり、1ずつ増えているが、任意の数値1408ならびに任意の増分を割り当てることが可能であることを理解されたい。図14に見られるように、付加された単語「invent_」1404の文字「v」1402には、一意の数値1408の「3」が割り当てられている。したがって、ユーザはシステム300に数「3」を音声で伝える。これによって、キャレット1410で示される数「3」に対応し、関連付けられている文字(このケースでは付加された単語「invent_」1404の文字「v」1402)が選択される。ユーザは次に、所望の修正コマンド、たとえば、付加された単語「invent_」1404から文字「v」1402を削除し、その結果である「inent_」1412を、図15の集中パネルのスクリーンショット1500に示されるようにそのまま残す「delete」を、入力することができる。このように、修正コマンド「delete」は、選択された字とそれに対応するスペースを付加された単語から除去し、選択キャレット1410は、次に続く文字(すなわち、「e」)を選択する。
これに対し、図16に示すように、集中パネルのスクリーンショット1600に表示されている単語「invent_」の文字「n」1604と文字「v」1606との間に、文字またはスペースなどの文字をユーザが挿入するケースを考える。本質的には、このユーザは、一意の数値「3」に対応するスポットに文字を挿入しようとしている。これまで説明されているように、ユーザはコマンドを音声で伝えることができる。これによって、単語「invent」にスペースが付加されて付加された単語「invent_」1608になり、付加された単語「invent_」1608の周囲にボックス1610が表示され、付加された単語「invent_」1608の各文字に隣接して一意の数値1612が割り当てられ、表示される。図に見られるように、付加された単語「invent_」1608の字「v」1606には、一意の数値1612の「3」が割り当てられている。したがって、ユーザは、システム300に番号「3」を音声で伝えて、キャレット1614で示されている番号「3」に対応し、関連付けられている字(このケースでは付加された単語「invent_」1608の字「v」1606)を「選択」することができる。ユーザは次に、修正コマンドを入力して、システム300に適切な応答をさせることができる。たとえば、ユーザが修正コマンド「insert(挿入)」を伝え、次いで単語「space(スペース)」を伝えると、文字「n」1604と文字「v」1606との間にスペースが挿入され、図17に示された集中パネルのスクリーンショット1700に示されるように、付加された単語「invent_」1608が「in_vent_」1616に効率的に変更される。このケースでは、キャレット1614は同じ位置にとどまり、一意の数値「3」に関連付けられたスペースが選択されていることを示す。一方、ユーザがコマンド「insert(挿入)」を伝え、次いで文字「p」を伝えると、文字「n」1604と文字「v」1606との間に文字「p」が挿入され、図18に示された集中パネルのスクリーンショット1800に示されるように、付加された単語「invent_」が「inpvent_」1618に効率的に変更される。そして、選択キャレット1614は、次の文字に移動して、次の文字(すなわち、一意の数値「4」に対応する文字)が選択されていることを示す。
同様に、図19に示すように、集中パネルのスクリーンショット1900に表示されている単語「invent」の中の文字をユーザが単純に変更したいケースを考える。これまで説明されているように、ユーザはコマンドを音声で伝えることができる。これによって、単語「invent」にスペースが付加されて付加された単語「invent_」1902になり、付加された単語「invent_」1902の周囲にボックス1904が表示され、付加された単語「invent_」1902の各文字1908に隣接して一意の数値1906が割り当てられ、表示される。図19に見られるように、付加された単語「invent_」1902の文字「v」1912には、一意の数値1906の「3」が割り当てられている。したがって、ユーザはシステム300に数「3」を音声で伝えることができる。これによって、キャレット1910で示される数「3」に対応し、関連付けられている文字(このケースでは付加された単語「invent_」1902の文字「v」1912)が選択される。ユーザは次に、修正コマンド(このケースでは、コマンドは単純な文字である)を入力して、システム300に適切な応答をさせることができる。たとえば、ユーザが番号「3」の後に修正コマンド「t」を伝えると、文字「v」1912が文字「t」に置き換えられ、図20に示された集中パネルのスクリーンショット2000に示されるように、付加された単語「invent_」1902が「intent」1914に効率的に変更される。この時点で、選択キャレット1910は、次の文字に移動して、次の文字(すなわち、一意の数値「4」に対応する文字)が選択されていることを示す。
変更する文字に対応する一意の数値をユーザが入力すると、提案された修正コマンドのメニューが表示されることが可能であることを理解されたい。たとえば、提案された各アクションにそれぞれ独自の一意の数値が割り当てられたドロップダウンメニューが表示される。たとえば、図21に示すように、集中パネルのスクリーンショット2100に表示されている単語「invent」の中の文字をユーザが変更したいケースを考える。ユーザはコマンドを音声で伝える。これによって、選択された単語「invent」にスペースが付加されて付加された単語「invent_」2102になり、付加された単語「invent_」2102の周囲にボックス2104が表示され、付加された単語「invent_」2102の各文字に隣接して一意の数値2106が表示される。図21に見られるように、付加された単語「invent_」2102の文字「v」2108には、一意の数値2106の「3」が割り当てられている。したがって、ユーザは、システム300に番号「3」を音声で伝えて、キャレット2110で示されている一意の数値「3」に対応し、関連付けられている文字(このケースでは付加された単語「invent_」2102の文字「v」2108)を「選択」する。図22に示すように、いくつかの修正コマンドの選択肢をユーザに提示するメニュー2112が、集中パネルショット2200に表示されることが可能である。各選択肢には第2の一意の数値2114が割り当てられる。ユーザは次に、第2の一意の数値2114が所望の修正コマンドに関連付けられている修正コマンドを入力して、音声認識ソフトウェアアプリケーションに適切な応答をさせることができる。たとえば、ユーザが番号「3」の後に数値「4」を伝えると、文字「v」2108が文字「d」2116に置き換えられ、図23の集中パネルのスクリーンショット2300に示されるように、付加された単語「invent_」2102が単語「indent」2118に効率的に変更される。前述のように、選択キャレット2110は、次の文字に移動して、次の文字(すなわち、一意の数値「4」に対応する文字)が選択されていることを示す。
提案された修正コマンドのメニュー2112は、選択された文字または単語と類似した音の文字/単語のメニューのように(たとえば、「v」が選択されると、メニュー2112が「d」、「t」、「e」、「g」、「3」を含むように)、所望の最終目的に好適な任意の修正コマンドを含むことができることを理解されたい。さらに、メニュー2112は、文字を大文字化した形(たとえば、「V」)で含んだり、スペルチェッカからのオートコンプリートリストを含んだりすることも可能である。したがって、この例については、メニュー1012は、単語「indent」、「intent」、「amend 」を含むことができる。さらに、本発明が複数の機能を同時に実行する音声コマンドを含むことができることを理解されたい。たとえば、「Change 3 to “e” as in eagle(3をeagleの「e」に変更する)」。あるいは、「Change t to g(tをgに変更する)」は、選択された単語に文字「t」が1つしかない場合に文字「t」を文字「g」に変更できる。選択された単語に文字「t」が2つあった場合は、より厳密な指示を求めるフィードバックがユーザに提示されることが可能である。さらに、直前に変更された文字を元の状態に戻すことができる「undo」のような、他のコマンドを与えることも可能である。たとえば、ユーザが(選択された字を大文字化するために)「cap that(それを大文字にする)」と発声したのに、その入力が「caret(キャレット)」と認識された場合、ユーザは「undo」と発声して、その文字を元の状態に戻すことができる。
図8〜図23は、ユーザがワードプロセッサアプリケーションに口述する文脈で説明されている。しかしながら、当業者であれば、図8〜図23で説明された実施形態が、システム300に対してユーザが音声コマンドを発声する場合にも当てはまることを認識されよう。音声コマンドに多義性が存在する場合は、集中インタフェースモジュール312が解釈のリストを視覚的に表示し、さらなる選択肢のリストも視覚的に表示する。さらなる選択肢のリストは、コマンドを再発声する選択肢や新しいコマンドを作成する選択肢を含む。たとえば、ユーザがDavid Whiteに電子メールを送りたい場合、ユーザは「insert the name David(Davidという名前を挿入する)」というコマンドを音声で発行できる。しかしながら、ユーザが前にDavid BlackとDavid Greenに電子メールを送ったことがあり、David Whiteに送ったことがない場合は、どのDavidを挿入するかという多義性が存在する。集中インタフェースモジュール312は、Davidの解釈のリストを視覚的に表示する。解釈のリストには、David BlackとDavid Greenが含まれている。さらに、集中インタフェースモジュール312は、音声コマンドを再発声する選択肢と、新しい音声コマンドを作成する選択肢とを含んだ、さらなる選択肢のリストを視覚的に表示する。この例では、ユーザは、システム300にとってなじみのないDavid Whiteに電子メールを送りたいので、新しいコマンドを作成することを選択する。
集中インタフェース312と対話することによるコマンドの明瞭化および誤認識エラーの修正に加えて、ユーザは、集中インタフェース312と対話して複数のアプリケーションモジュール310からフィードバックを受け取ることも可能である。集中インタフェースモジュール312は、システム300が何を聴いて(listen)いるかを視覚的に表示するように構成されている。たとえば、集中パネルは、マイク302がオフになっていることからシステム300が何も聴いていないことを表示できる。さらに、集中インタフェースモジュール312は、システム300の状態を視覚的に表示するようにも構成されている。たとえば、集中パネルは、システム300が最後に認識したコマンドを表示できる。別の実施形態では、集中パネルは、特定のアプリケーションモジュールが開いているか、閉じていることを表示することができる。
特定の実施形態を参照しながら本発明について説明してきたが、当業者であれば、本発明の趣旨および範囲から逸脱することなく、形式および詳細を変更することが可能であることを認識されよう。
本発明を実施できる一般的なコンピューティング環境のブロック図である。 本発明を実施できるモバイル装置のブロック図である。 集中化されたユーザ対話を助けるシステムのブロック図である。 集中パネルのスクリーンショットの一例である。 集中パネルのスクリーンショットの一例である。 コンピューティング装置のディスプレイのスクリーンショットの一例である。 集中化されたユーザ対話を助ける方法のフローチャートである。 集中パネルのスクリーンショットの一例である。 集中パネルのスクリーンショットの一例である。 集中パネルのスクリーンショットの一例である。 集中パネルに表示された文字を音声認識装置を用いて操作する方法を示すブロック図である。 集中パネルのスクリーンショットの一例である。 集中パネルのスクリーンショットの一例である。 集中パネルのスクリーンショットの一例である。 集中パネルのスクリーンショットの一例である。 集中パネルのスクリーンショットの一例である。 集中パネルのスクリーンショットの一例である。 集中パネルのスクリーンショットの一例である。 集中パネルのスクリーンショットの一例である。 集中パネルのスクリーンショットの一例である。 集中パネルのスクリーンショットの一例である。 集中パネルのスクリーンショットの一例である。 集中パネルのスクリーンショットの一例である。
符号の説明
100 コンピューティングシステム環境
110 コンピュータ
121 システムバス
141 ハードディウクドライブ
151 磁気ディスクドライブ
155 光ディスクドライブ
400、500、600、800、900、1000、1200、1300、1400、1500、1600、1700、1900、2000、2100、2200、2300 スクリーンショット

Claims (20)

  1. ユーザとの集中化された対話を助けるコンピュータにより実行される方法であって、
    認識された音声コマンドを実行のための複数のアプリケーションモジュールに供給するステップと、
    前記認識された音声コマンドの実行が多義性を持つために前記アプリケーションモジュールの少なくとも1つが前記認識された音声コマンドを実行できないとき、前記音声コマンドの可能な複数の解釈を受け取るステップであって、前記可能な複数の解釈は前記複数のアプリケーションモジュールの少なくとも1つによって生成さるステップと、
    前記音声コマンドの前記可能な複数の解釈を集中ディスプレイ上に視覚的に表示するステップと、
    解釈の選択の通知を前記ユーザから受け取るステップと
    を備えることを特徴とする方法。
  2. 前記複数の解釈を視覚的に表示する前記ステップは、前記複数の解釈がそれぞれ対応する数値の識別子を有するリストの形によって前記複数の解釈を視覚的に表示することを含むことを特徴とする請求項1に記載の方法。
  3. 解釈の選択の通知を受け取る前記ステップは、前記選択された解釈に対応する前記数値の識別子を表す音声信号を受け取ることを含むことを特徴とする請求項2に記載の方法。
  4. 解釈の選択の通知を受け取る前記ステップは、前記解釈の選択に対応する識別子を表す入力装置信号を受け取ることを含むことを特徴とする請求項2に記載の方法。
  5. 前記ユーザが前記音声コマンドを再発声することを選択するのを可能にする選択肢を、視覚的に表示するステップをさらに備えることを特徴とする請求項1に記載の方法。
  6. 前記ユーザが前記音声コマンドを再発声することを選択した場合に、更新された複数の解釈を視覚的に表示するステップをさらに備えることを特徴とする請求項5に記載の方法。
  7. 前記複数の解釈に含まれていない新しい解釈を作成することを前記ユーザが選択するのを可能にする選択肢を、視覚的に表示するステップをさらに備えることを特徴とする請求項1に記載の方法。
  8. 新しい解釈を作成することを前記ユーザが選択するのを可能にすることは、前記新しい解釈の音声によるスペリングを受け取ることをさらに含むことを特徴とする請求項7に記載の方法。
  9. 前記集中ディスプレイは、コンピューティング装置のディスプレイ上の一貫した位置に表示される集中パネルを含むことを特徴とする請求項1に記載の方法。
  10. 誤認識された発声内容に対する代替スペリングのリストを前記集中ディスプレイに視覚的に表示するステップをさらに備えることを特徴とする請求項1に記載の方法。
  11. 前記複数のアプリケーションモジュールからのフィードバックを前記集中ディスプレイ上に視覚的に表示するステップをさらに備えることを特徴とする請求項1に記載の方法。
  12. ユーザとの集中化された対話を助けるコンピュータにより実行されるシステムであって、
    様々なアクションを実行するコマンドを受信するように構成された複数のアプリケーションモジュールと、
    音声コマンドをキャプチャするように構成されたオーディオキャプチャモジュールと、
    前記複数のアプリケーションモジュールが前記様々なアクションを実行するために受信することのできるコマンドに対応する複数のコマンドと、前記複数のコマンドの複数の選択肢フォームとを含む文法であって、前記複数の選択肢フォームの各々は、異なる形式において、前記複数のコマンドの1つとしての同一の定義を持つ文法と、
    前記文法内の前記複数のコマンドと、前記複数のコマンドの前記複数の選択肢フォームとにアクセスすることによって前記音声コマンドを認識するように構成された音声認識部と、
    前記複数のアプリケーションモジュールの少なくとも1つ、前記認識されたコマンドを供給されたときに前記認識された音声コマンドに多義性が存在することを検出した場合に、前記複数のアプリケーションモジュールの少なくとも1つから受信された複数の可能な解釈を視覚的に表示し、
    前記音声コマンドの実行のための前記複数の可能な解釈の1つを選択したことの通知を受け取るように構成された集中インタフェースモジュールと
    を備えたことを特徴とするシステム。
  13. 前記集中インタフェースモジュールは、前記音声コマンドを再発声することを前記ユーザが選択するのを可能にする選択肢を視覚的に表示するように適合されていることを特徴とする請求項12に記載のコンピュータにより実行されるシステム。
  14. 前記集中インタフェースモジュールは、前記解釈のリスト中に視覚的に表示されていない音声コマンドを作成することを前記ユーザが選択することを可能にする選択肢を視覚的にレンダリングするように適合されていることを特徴とする請求項12に記載のコンピュータにより実行されるシステム。
  15. 前記集中インタフェースモジュールは、認識エラーを含む口述された句に対する代替句のリストを、視覚的に表示するように適合されていることを特徴とする請求項12に記載のコンピュータにより実行されるシステム。
  16. ユーザとの集中化された対話を助けるコンピュータにより実行される方法であって、
    音声コマンドをキャプチャするステップと、
    複数のアプリケーションモジュールが様々なアクションを実行するために受信することのできるコマンドに対応する複数の認識可能なコマンドを含む文法にアクセスすることによって、前記音声コマンドを認識するステップと、
    前記実行のための複数のアプリケーションモジュールに、前記認識された音声コマンドを送るステップと、
    前記複数のアプリケーションの少なくとも1つに前記認識された音声コマンドが供給されたとき、前記認識された音声コマンドが多義性を有することを判断するステップと、
    前記複数のアプリケーションモジュールの少なくとも1つによって生成された前記認識された音声コマンドの可能な解釈のリストを集中ディスプレイに視覚的に表示するステップと、
    前記解釈の1つを選択したことの通知を受け取るステップと
    を備えることを特徴とする方法。
  17. 前記解釈のリストは、アプリケーションの複数のインスタンスが動作中であるという概念(notion)に基づくことを特徴とする請求項16に記載の方法。
  18. 前記認識された音声コマンドが、1つより多くの前記アプリケーションモジュールにおいてアクションを実行する場合、前記音声コマンドの実行が前記複数のアプリケーションに対して多義性を持つことを特徴とする請求項1に記載の方法。
  19. 前記認識された音声コマンドが、前記複数のアプリケーションモジュールの1つにおいて1つより多くのアクションを実行する場合、前記音声コマンドの実行が前記複数のアプリケーションに対して多義性を持つことを特徴とする請求項1に記載の方法。
  20. 前記アプリケーションの1つの1つよりも多くのインスタンスがオープンであり、前記認識された音声コマンドが前記1つのアプリケーションモジュールのどのインスタンスを参照しているかが不明確な場合、前記音声コマンドの実行が前記複数のアプリケーションに対して多義性を持つことを特徴とする請求項1に記載の方法。
JP2005299982A 2004-11-16 2005-10-14 音声コマンドを明瞭化する集中化された方法およびシステム Active JP4854259B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/990,345 US8942985B2 (en) 2004-11-16 2004-11-16 Centralized method and system for clarifying voice commands
US10/990,345 2004-11-16

Publications (3)

Publication Number Publication Date
JP2006146182A JP2006146182A (ja) 2006-06-08
JP2006146182A5 JP2006146182A5 (ja) 2008-11-27
JP4854259B2 true JP4854259B2 (ja) 2012-01-18

Family

ID=35825428

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005299982A Active JP4854259B2 (ja) 2004-11-16 2005-10-14 音声コマンドを明瞭化する集中化された方法およびシステム

Country Status (7)

Country Link
US (3) US8942985B2 (ja)
EP (1) EP1657709B1 (ja)
JP (1) JP4854259B2 (ja)
KR (1) KR101143034B1 (ja)
CN (1) CN1776583B (ja)
AT (1) ATE459076T1 (ja)
DE (1) DE602005019518D1 (ja)

Families Citing this family (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8050918B2 (en) * 2003-12-11 2011-11-01 Nuance Communications, Inc. Quality evaluation tool for dynamic voice portals
US8942985B2 (en) 2004-11-16 2015-01-27 Microsoft Corporation Centralized method and system for clarifying voice commands
US7778821B2 (en) * 2004-11-24 2010-08-17 Microsoft Corporation Controlled manipulation of characters
WO2007008248A2 (en) * 2005-07-11 2007-01-18 Voicedemand, Inc. Voice control of a media player
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7925975B2 (en) 2006-03-10 2011-04-12 Microsoft Corporation Searching for commands to execute in applications
US8234120B2 (en) * 2006-07-26 2012-07-31 Nuance Communications, Inc. Performing a safety analysis for user-defined voice commands to ensure that the voice commands do not cause speech recognition ambiguities
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8099287B2 (en) * 2006-12-05 2012-01-17 Nuance Communications, Inc. Automatically providing a user with substitutes for potentially ambiguous user-defined speech commands
US9794348B2 (en) * 2007-06-04 2017-10-17 Todd R. Smith Using voice commands from a mobile device to remotely access and control a computer
US8019606B2 (en) * 2007-06-29 2011-09-13 Microsoft Corporation Identification and selection of a software application via speech
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
KR20090107365A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
KR101462932B1 (ko) * 2008-05-28 2014-12-04 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
US8284909B2 (en) 2008-09-29 2012-10-09 Microsoft Corporation Offline voicemail
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8358752B2 (en) * 2009-11-19 2013-01-22 At&T Mobility Ii Llc User profile based speech to text conversion for visual voice mail
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CA2791277C (en) * 2011-09-30 2019-01-15 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9570086B1 (en) * 2011-11-18 2017-02-14 Google Inc. Intelligently canceling user input
US9317605B1 (en) 2012-03-21 2016-04-19 Google Inc. Presenting forked auto-completions
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9734839B1 (en) * 2012-06-20 2017-08-15 Amazon Technologies, Inc. Routing natural language commands to the appropriate applications
US20140052438A1 (en) * 2012-08-20 2014-02-20 Microsoft Corporation Managing audio capture for audio applications
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR101330671B1 (ko) 2012-09-28 2013-11-15 삼성전자주식회사 전자장치, 서버 및 그 제어방법
KR102009423B1 (ko) * 2012-10-08 2019-08-09 삼성전자주식회사 음성 인식을 이용한 미리 설정된 동작 모드의 수행 방법 및 장치
KR20140060040A (ko) 2012-11-09 2014-05-19 삼성전자주식회사 디스플레이장치, 음성취득장치 및 그 음성인식방법
AU2018202888B2 (en) * 2013-01-17 2020-07-02 Samsung Electronics Co., Ltd. Image processing apparatus, control method thereof, and image processing system
JP6167605B2 (ja) * 2013-03-28 2017-07-26 株式会社デンソー 音声認識システム
US9202459B2 (en) * 2013-04-19 2015-12-01 GM Global Technology Operations LLC Methods and systems for managing dialog of speech systems
KR101456974B1 (ko) 2013-05-21 2014-10-31 삼성전자 주식회사 사용자 단말기, 음성인식 서버 및 음성인식 가이드 방법
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9646606B2 (en) 2013-07-03 2017-05-09 Google Inc. Speech recognition using domain knowledge
GB2518002B (en) * 2013-09-10 2017-03-29 Jaguar Land Rover Ltd Vehicle interface system
KR102197143B1 (ko) * 2013-11-26 2020-12-31 현대모비스 주식회사 음성 인식을 이용한 명령 수행 시스템 및 그 동작 방법
CN103645876B (zh) * 2013-12-06 2017-01-18 百度在线网络技术(北京)有限公司 语音输入方法和装置
US9495959B2 (en) * 2014-02-27 2016-11-15 Ford Global Technologies, Llc Disambiguation of dynamic commands
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US20160078864A1 (en) * 2014-09-15 2016-03-17 Honeywell International Inc. Identifying un-stored voice commands
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
KR102241289B1 (ko) * 2014-12-12 2021-04-16 엘지전자 주식회사 디스플레이 장치 및 그 제어 방법
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9922648B2 (en) * 2016-03-01 2018-03-20 Google Llc Developer voice actions system
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN105893345A (zh) * 2016-03-28 2016-08-24 联想(北京)有限公司 一种信息处理方法和电子设备
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US9691384B1 (en) 2016-08-19 2017-06-27 Google Inc. Voice action biasing system
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
KR20180060328A (ko) 2016-11-28 2018-06-07 삼성전자주식회사 멀티 모달 입력을 처리하는 전자 장치, 멀티 모달 입력을 처리하는 방법 및 멀티 모달 입력을 처리하는 서버
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
EP3401797A1 (en) * 2017-05-12 2018-11-14 Samsung Electronics Co., Ltd. Speech navigation for multilingual web pages
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
KR102060775B1 (ko) * 2017-06-27 2019-12-30 삼성전자주식회사 음성 입력에 대응하는 동작을 수행하는 전자 장치
KR102617265B1 (ko) 2018-03-13 2023-12-26 삼성전자주식회사 사용자 음성 입력을 처리하는 장치
US11100146B1 (en) * 2018-03-23 2021-08-24 Amazon Technologies, Inc. System management using natural language statements
CN111415658A (zh) * 2019-01-07 2020-07-14 成都启英泰伦科技有限公司 一种去中心化语音控制多设备***及其控制方法
WO2020159190A1 (en) * 2019-01-28 2020-08-06 Samsung Electronics Co., Ltd. Method and apparatus for supporting voice instructions
US11438452B1 (en) 2019-08-09 2022-09-06 Apple Inc. Propagating context information in a privacy preserving manner

Family Cites Families (156)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5041967A (en) 1987-10-13 1991-08-20 Bell Communications Research, Inc. Methods and apparatus for dynamic menu generation in a menu driven computer system
US4992972A (en) 1987-11-18 1991-02-12 International Business Machines Corporation Flexible context searchable on-line information system with help files and modules for on-line computer system documentation
JP3088739B2 (ja) 1989-10-06 2000-09-18 株式会社リコー 音声認識システム
JPH0760374B2 (ja) 1991-03-15 1995-06-28 インターナショナル・ビジネス・マシーンズ・コーポレイション 対話式コマンド構成システム
US5265065A (en) 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5850627A (en) * 1992-11-13 1998-12-15 Dragon Systems, Inc. Apparatuses and methods for training and operating speech recognition systems
DE69326431T2 (de) * 1992-12-28 2000-02-03 Toshiba Kawasaki Kk Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist
US5890122A (en) * 1993-02-08 1999-03-30 Microsoft Corporation Voice-controlled computer simulateously displaying application menu and list of available commands
US6125347A (en) * 1993-09-29 2000-09-26 L&H Applications Usa, Inc. System for controlling multiple user application programs by spoken input
US6014138A (en) 1994-01-21 2000-01-11 Inprise Corporation Development system with methods for improved visual programming with hierarchical object explorer
WO1995025326A1 (en) 1994-03-17 1995-09-21 Voice Powered Technology International, Inc. Voice/pointer operated system
US5748973A (en) 1994-07-15 1998-05-05 George Mason University Advanced integrated requirements engineering system for CE-based requirements assessment
US5642502A (en) 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5748974A (en) 1994-12-13 1998-05-05 International Business Machines Corporation Multimodal natural language interface for cross-application tasks
EP1199707A3 (en) 1995-05-26 2002-05-02 Speechworks International, Inc. Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
US6026388A (en) 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US6289312B1 (en) 1995-10-02 2001-09-11 Digital Equipment Corporation Speech interface for computer application programs
US5852801A (en) * 1995-10-04 1998-12-22 Apple Computer, Inc. Method and apparatus for automatically invoking a new word module for unrecognized user input
US5799276A (en) 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US6064959A (en) 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US6446135B1 (en) 1996-03-05 2002-09-03 Microsoft Corporation Method and system for querying and executing commands of an application program
US5825356A (en) 1996-03-18 1998-10-20 Wall Data Incorporated Help system with semitransparent window for disabling controls
DE19615693C1 (de) 1996-04-19 1997-12-11 Siemens Ag Vorrichtung und Verfahren zur Aktionsermittlung
US5995921A (en) 1996-04-23 1999-11-30 International Business Machines Corporation Natural language help interface
US6021403A (en) 1996-07-19 2000-02-01 Microsoft Corporation Intelligent user assistance facility
US5864340A (en) 1996-08-22 1999-01-26 International Business Machines Corporation Mobile client computer programmed to predict input
US6311182B1 (en) 1997-11-17 2001-10-30 Genuity Inc. Voice activated web browser
US6078914A (en) 1996-12-09 2000-06-20 Open Text Corporation Natural language meta-search system and method
US6456974B1 (en) * 1997-01-06 2002-09-24 Texas Instruments Incorporated System and method for adding speech recognition capabilities to java
US6094476A (en) 1997-03-24 2000-07-25 Octel Communications Corporation Speech-responsive voice messaging system and method
US6173266B1 (en) * 1997-05-06 2001-01-09 Speechworks International, Inc. System and method for developing interactive speech applications
US6044347A (en) 1997-08-05 2000-03-28 Lucent Technologies Inc. Methods and apparatus object-oriented rule-based dialogue management
KR100280175B1 (ko) 1997-10-15 2001-02-01 윤종용 툴팁을이용한글꼴정보표시기및방법
DE69712485T2 (de) 1997-10-23 2002-12-12 Sony Int Europe Gmbh Sprachschnittstelle für ein Hausnetzwerk
US7124129B2 (en) 1998-03-03 2006-10-17 A9.Com, Inc. Identifying the items most relevant to a current query based on items selected in connection with similar queries
US6085159A (en) * 1998-03-26 2000-07-04 International Business Machines Corporation Displaying voice commands with multiple variables
US6233559B1 (en) 1998-04-01 2001-05-15 Motorola, Inc. Speech control of multiple applications using applets
US6199061B1 (en) 1998-06-17 2001-03-06 Microsoft Corporation Method and apparatus for providing dynamic help topic titles to a user
US6192339B1 (en) * 1998-11-04 2001-02-20 Intel Corporation Mechanism for managing multiple speech applications
US6839669B1 (en) 1998-11-05 2005-01-04 Scansoft, Inc. Performing actions identified in recognized speech
US7720682B2 (en) * 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
US7206747B1 (en) * 1998-12-16 2007-04-17 International Business Machines Corporation Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands
US6192343B1 (en) * 1998-12-17 2001-02-20 International Business Machines Corporation Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms
DE69942663D1 (de) * 1999-04-13 2010-09-23 Sony Deutschland Gmbh Zusammenfügen von Sprachschnittstellen zur gleichzeitigen Benützung von Vorrichtungen und Anwendungen
US6591236B2 (en) * 1999-04-13 2003-07-08 International Business Machines Corporation Method and system for determining available and alternative speech commands
US6542163B2 (en) 1999-05-05 2003-04-01 Microsoft Corporation Method and system for providing relevant tips to a user of an application program
US6493702B1 (en) 1999-05-05 2002-12-10 Xerox Corporation System and method for searching and recommending documents in a collection using share bookmarks
US6340977B1 (en) 1999-05-07 2002-01-22 Philip Lui System and method for dynamic assistance in software applications using behavior and host application models
US6604075B1 (en) 1999-05-20 2003-08-05 Lucent Technologies Inc. Web-based voice dialog interface
US6308157B1 (en) * 1999-06-08 2001-10-23 International Business Machines Corp. Method and apparatus for providing an event-based “What-Can-I-Say?” window
JP3662780B2 (ja) 1999-07-16 2005-06-22 日本電気株式会社 自然言語を用いた対話システム
US7120582B1 (en) 1999-09-07 2006-10-10 Dragon Systems, Inc. Expanding an effective vocabulary of a speech recognition system
US6374226B1 (en) * 1999-08-06 2002-04-16 Sun Microsystems, Inc. System and method for interfacing speech recognition grammars to individual components of a computer program
US7069220B2 (en) * 1999-08-13 2006-06-27 International Business Machines Corporation Method for determining and maintaining dialog focus in a conversational speech system
US6442522B1 (en) * 1999-10-12 2002-08-27 International Business Machines Corporation Bi-directional natural language system for interfacing with multiple back-end applications
US7403888B1 (en) 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
US7073126B1 (en) 1999-11-18 2006-07-04 Instaknow.Com Inc. Method and system of deploying server-based applications
US6526382B1 (en) 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services
US6920607B1 (en) 1999-12-15 2005-07-19 Microsoft Corp. Methods and systems for dynamically creating user interfaces
WO2001044932A1 (en) 1999-12-15 2001-06-21 Microsoft Corporation Methods and systems for dynamically creating user interfaces
US6847959B1 (en) 2000-01-05 2005-01-25 Apple Computer, Inc. Universal interface for retrieval of information in a computer system
US6434529B1 (en) * 2000-02-16 2002-08-13 Sun Microsystems, Inc. System and method for referencing object instances and invoking methods on those object instances from within a speech recognition grammar
AU2001251189A1 (en) 2000-03-31 2001-10-15 Qualcomm Incorporated Method and apparatus for electronic device feature access
US20020024539A1 (en) * 2000-05-08 2002-02-28 Columbia University System and method for content-specific graphical user interfaces
EP1158799A1 (en) * 2000-05-18 2001-11-28 Deutsche Thomson-Brandt Gmbh Method and receiver for providing subtitle data in several languages on demand
US6948135B1 (en) 2000-06-21 2005-09-20 Microsoft Corporation Method and systems of providing information to computer users
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
US7539939B1 (en) 2000-07-25 2009-05-26 Creativepro.Com, Inc. Preview window to preview text in several different fonts simultaneously
US7027975B1 (en) 2000-08-08 2006-04-11 Object Services And Consulting, Inc. Guided natural language interface system and method
US7185001B1 (en) 2000-10-04 2007-02-27 Torch Concepts Systems and methods for document searching and organizing
US7130790B1 (en) * 2000-10-24 2006-10-31 Global Translations, Inc. System and method for closed caption data translation
US20020072914A1 (en) 2000-12-08 2002-06-13 Hiyan Alshawi Method and apparatus for creation and user-customization of speech-enabled services
JP3838029B2 (ja) 2000-12-18 2006-10-25 セイコーエプソン株式会社 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム
US7596791B2 (en) 2000-12-19 2009-09-29 Emc Corporation Methods and techniques for delivering rich Java applications over thin-wire connections with high performance and scalability
US7017123B2 (en) 2000-12-27 2006-03-21 National Instruments Corporation Graphical user interface including palette windows with an improved search function
US7085723B2 (en) * 2001-01-12 2006-08-01 International Business Machines Corporation System and method for determining utterance context in a multi-context speech application
US6744451B1 (en) 2001-01-25 2004-06-01 Handspring, Inc. Method and apparatus for aliased item selection from a list of items
US7089237B2 (en) 2001-01-26 2006-08-08 Google, Inc. Interface and system for providing persistent contextual relevance for commerce activities in a networked environment
US6693651B2 (en) 2001-02-07 2004-02-17 International Business Machines Corporation Customer self service iconic interface for resource search results display and selection
US6778193B2 (en) 2001-02-07 2004-08-17 International Business Machines Corporation Customer self service iconic interface for portal entry and search specification
GB0103053D0 (en) 2001-02-07 2001-03-21 Nokia Mobile Phones Ltd A communication terminal having a predictive text editor application
US20020152255A1 (en) 2001-02-08 2002-10-17 International Business Machines Corporation Accessibility on demand
JPWO2002075538A1 (ja) 2001-03-19 2004-07-08 三菱電機株式会社 車載マルチメディア装置
US6948133B2 (en) 2001-03-23 2005-09-20 Siemens Medical Solutions Health Services Corporation System for dynamically configuring a user interface display
US7209912B2 (en) 2001-06-06 2007-04-24 Microsoft Corporation Wizard and help file search and management
US6983271B2 (en) 2001-06-13 2006-01-03 Microsoft Corporation Answer wizard drop-down control
US20020198714A1 (en) 2001-06-26 2002-12-26 Guojun Zhou Statistical spoken dialog system
JP3907161B2 (ja) 2001-06-29 2007-04-18 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワード検索方法、キーワード検索端末、コンピュータプログラム
US6839896B2 (en) 2001-06-29 2005-01-04 International Business Machines Corporation System and method for providing dialog management and arbitration in a multi-modal environment
US6959294B2 (en) 2001-07-10 2005-10-25 Microsoft Corporation Context-based help engine and dynamic help
JP2003084794A (ja) 2001-09-07 2003-03-19 Olympus Optical Co Ltd 音声制御システム
US6985865B1 (en) 2001-09-26 2006-01-10 Sprint Spectrum L.P. Method and system for enhanced response to voice commands in a voice command platform
US7149550B2 (en) 2001-11-27 2006-12-12 Nokia Corporation Communication terminal having a text editor application with a word completion feature
US6785654B2 (en) * 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
US7137071B2 (en) 2001-12-12 2006-11-14 National Instruments Corporation System and method for providing suggested graphical programming operations
US7493259B2 (en) * 2002-01-04 2009-02-17 Siebel Systems, Inc. Method for accessing data via voice
US7062711B2 (en) 2002-01-30 2006-06-13 Sharp Laboratories Of America, Inc. User interface and method for providing search query syntax help
US7167831B2 (en) * 2002-02-04 2007-01-23 Microsoft Corporation Systems and methods for managing multiple grammars in a speech recognition system
US7188066B2 (en) * 2002-02-04 2007-03-06 Microsoft Corporation Speech controls for use with a speech system
US7139713B2 (en) * 2002-02-04 2006-11-21 Microsoft Corporation Systems and methods for managing interactions from multiple speech-enabled applications
US7716199B2 (en) 2005-08-10 2010-05-11 Google Inc. Aggregating context data for programmable search engines
US7174294B2 (en) 2002-06-21 2007-02-06 Microsoft Corporation Speech platform architecture
US7113950B2 (en) 2002-06-27 2006-09-26 Microsoft Corporation Automated error checking system and method
WO2004019160A2 (en) 2002-08-23 2004-03-04 Jway Group, Inc. Extensible user interface (xui) framework and development environment
US7254784B2 (en) 2002-09-11 2007-08-07 Peter H. Chang User-driven menu generation system with multiple submenus
US7440941B1 (en) 2002-09-17 2008-10-21 Yahoo! Inc. Suggesting an alternative to the spelling of a search query
JP2004110613A (ja) 2002-09-20 2004-04-08 Toshiba Corp 制御装置、制御プログラム、対象装置及び制御システム
US7197494B2 (en) * 2002-10-15 2007-03-27 Microsoft Corporation Method and architecture for consolidated database search for input recognition systems
US7519534B2 (en) 2002-10-31 2009-04-14 Agiletv Corporation Speech controlled access to content on a presentation medium
JP3724649B2 (ja) * 2002-11-11 2005-12-07 松下電器産業株式会社 音声認識用辞書作成装置および音声認識装置
US6906500B2 (en) 2002-11-14 2005-06-14 Fyre Storm, Inc. Method of operating a switching power converter
US7584102B2 (en) * 2002-11-15 2009-09-01 Scansoft, Inc. Language model for use in speech recognition
EP1614102A4 (en) 2002-12-10 2006-12-20 Kirusa Inc VOICE ENTRY DESAMBIGUATION TECHNIQUES BASED ON THE USE OF MULTIMODAL INTERFACES
JP4107093B2 (ja) 2003-01-30 2008-06-25 株式会社日立製作所 対話型端末装置及び対話アプリケーション提供方法
US20040243415A1 (en) 2003-06-02 2004-12-02 International Business Machines Corporation Architecture for a speech input method editor for handheld portable devices
US20050027539A1 (en) * 2003-07-30 2005-02-03 Weber Dean C. Media center controller system and method
WO2005020106A1 (en) 2003-08-18 2005-03-03 Sap Aktiengesellschaft Method and system for selecting a search engine and executing a search
US7133950B2 (en) 2003-08-19 2006-11-07 Sun Microsystems, Inc. Request arbitration in multi-core processor
US7490286B2 (en) 2003-09-25 2009-02-10 International Business Machines Corporation Help option enhancement for interactive voice response systems
US7949960B2 (en) 2003-09-30 2011-05-24 Sap Ag Predictive rendering of user interfaces
US20050075857A1 (en) * 2003-10-02 2005-04-07 Elcock Albert F. Method and system for dynamically translating closed captions
US20050108026A1 (en) * 2003-11-14 2005-05-19 Arnaud Brierre Personalized subtitle system
US20050114319A1 (en) 2003-11-21 2005-05-26 Microsoft Corporation System and method for checking a content site for efficacy
US7356472B2 (en) 2003-12-11 2008-04-08 International Business Machines Corporation Enabling speech within a multimodal program using markup
US7526735B2 (en) * 2003-12-15 2009-04-28 International Business Machines Corporation Aiding visual search in a list of learnable speech commands
US20050138559A1 (en) 2003-12-19 2005-06-23 International Business Machines Corporation Method, system and computer program for providing interactive assistance in a computer application program
US20050166148A1 (en) 2004-01-28 2005-07-28 Garding Phillip D. Interactive user message system and method
US7406696B2 (en) * 2004-02-24 2008-07-29 Dialogic Corporation System and method for providing user input information to multiple independent, concurrent applications
US20060200827A1 (en) 2005-02-18 2006-09-07 Sidlosky Jeffrey A J Methods and systems providing desktop search capability to software application
US8712986B2 (en) 2004-04-07 2014-04-29 Iac Search & Media, Inc. Methods and systems providing desktop search capability to software application
US20050240558A1 (en) 2004-04-13 2005-10-27 Reynaldo Gil Virtual server operating on one or more client devices
CN1697515A (zh) * 2004-05-14 2005-11-16 创新科技有限公司 字幕翻译引擎
US7346846B2 (en) 2004-05-28 2008-03-18 Microsoft Corporation Strategies for providing just-in-time user assistance
US7627821B2 (en) 2004-06-15 2009-12-01 Microsoft Corporation Recording/playback tools for UI-based applications
US20050283473A1 (en) 2004-06-17 2005-12-22 Armand Rousso Apparatus, method and system of artificial intelligence for data searching applications
US20060036438A1 (en) 2004-07-13 2006-02-16 Microsoft Corporation Efficient multimodal method to provide input to a computing device
US20060048060A1 (en) 2004-08-31 2006-03-02 Julia Mohr Intelligent personalization based on usage analysis
US20060053384A1 (en) 2004-09-07 2006-03-09 La Fetra Frank E Jr Customizable graphical user interface for utilizing local and network content
US8185427B2 (en) 2004-09-22 2012-05-22 Samsung Electronics Co., Ltd. Method and system for presenting user tasks for the control of electronic devices
US8677274B2 (en) 2004-11-10 2014-03-18 Apple Inc. Highlighting items for search results
US8942985B2 (en) 2004-11-16 2015-01-27 Microsoft Corporation Centralized method and system for clarifying voice commands
US20060136195A1 (en) * 2004-12-22 2006-06-22 International Business Machines Corporation Text grouping for disambiguation in a speech application
US8108798B2 (en) 2004-12-29 2012-01-31 Sap Ag Method and system for implementing enhanced buttons in a graphical user interface
US7523404B2 (en) 2004-12-30 2009-04-21 Sap Aktiengesellschaft System and method for generating complex character-based computing interfaces
US20060155687A1 (en) 2005-01-13 2006-07-13 Bridgewell Inc. Portable database search agent processing system
US20060168522A1 (en) 2005-01-24 2006-07-27 Microsoft Corporation Task oriented user interface model for document centric software applications
US7505965B2 (en) 2005-01-27 2009-03-17 Microsoft Corporation Systems and methods for providing a user interface with an automatic search menu
US20060184899A1 (en) 2005-02-11 2006-08-17 Research In Motion Limited System and method for context specific content handling
US7703037B2 (en) 2005-04-20 2010-04-20 Microsoft Corporation Searchable task-based interface to control panel functionality
US7600199B2 (en) 2005-04-20 2009-10-06 Microsoft Corporation Task-based interface with underlying extensible framework
US7647312B2 (en) 2005-05-12 2010-01-12 Microsoft Corporation System and method for automatic generation of suggested inline search terms
US7596754B2 (en) 2005-07-28 2009-09-29 Microsoft Corporation Application assistance
US20080065617A1 (en) 2005-08-18 2008-03-13 Yahoo! Inc. Search entry system with query log autocomplete
US7921375B2 (en) 2005-12-16 2011-04-05 Microsoft Corporation Integrating user interfaces from one application into another
US7925975B2 (en) 2006-03-10 2011-04-12 Microsoft Corporation Searching for commands to execute in applications
US8589374B2 (en) * 2009-03-16 2013-11-19 Apple Inc. Multifunction device with integrated search and application selection

Also Published As

Publication number Publication date
US20170032786A1 (en) 2017-02-02
US8942985B2 (en) 2015-01-27
EP1657709A1 (en) 2006-05-17
CN1776583A (zh) 2006-05-24
US9972317B2 (en) 2018-05-15
ATE459076T1 (de) 2010-03-15
JP2006146182A (ja) 2006-06-08
US10748530B2 (en) 2020-08-18
US20060106614A1 (en) 2006-05-18
US20150095030A1 (en) 2015-04-02
EP1657709B1 (en) 2010-02-24
DE602005019518D1 (de) 2010-04-08
KR20060055313A (ko) 2006-05-23
KR101143034B1 (ko) 2012-05-11
CN1776583B (zh) 2013-01-02

Similar Documents

Publication Publication Date Title
JP4854259B2 (ja) 音声コマンドを明瞭化する集中化された方法およびシステム
US8694322B2 (en) Selective confirmation for execution of a voice activated user interface
US8473295B2 (en) Redictation of misrecognized words using a list of alternatives
KR101213835B1 (ko) 음성 인식에 있어서 동사 에러 복원
US8082145B2 (en) Character manipulation
US7624018B2 (en) Speech recognition using categories and speech prefixing
JP7328265B2 (ja) 音声インタラクション制御方法、装置、電子機器、記憶媒体及びシステム
JP7413568B2 (ja) 音声対話の訂正方法及び装置
JP2009506386A (ja) 対話式ユーザチュートリアルへの、音声エンジン訓練の組込み
US10540973B2 (en) Electronic device for performing operation corresponding to voice input
US8315874B2 (en) Voice user interface authoring tool
US20080133220A1 (en) Leveraging back-off grammars for authoring context-free grammars
JP4537755B2 (ja) 音声対話システム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081009

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110816

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110927

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111025

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141104

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4854259

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250