JP2006146887A - キャラクタの制御された操作 - Google Patents

キャラクタの制御された操作 Download PDF

Info

Publication number
JP2006146887A
JP2006146887A JP2005299050A JP2005299050A JP2006146887A JP 2006146887 A JP2006146887 A JP 2006146887A JP 2005299050 A JP2005299050 A JP 2005299050A JP 2005299050 A JP2005299050 A JP 2005299050A JP 2006146887 A JP2006146887 A JP 2006146887A
Authority
JP
Japan
Prior art keywords
character
word
command
display screen
unique numerical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005299050A
Other languages
English (en)
Inventor
David Mowatt
マウアット デビッド
Fleix G T I Andrew
ジー ティー アイ アンドリュー フェリックス
Robert L Chambers
エル.チャンバース ロバート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2006146887A publication Critical patent/JP2006146887A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)
  • Document Processing Apparatus (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

【課題】ディスプレイ画面上に表示されるキャラクタを操作するための方法およびシステムを提供する。
【解決手段】この方法は、修正すべき少なくとも1つのキャラクタを含む選択された単語を識別することを含む。この方法は、少なくとも1つのキャラクタのそれぞれを一意の数値に関連づけること、ならびに選択されたキャラクタに対応する一意の数値である選択コマンドと、修正コマンドを受け取ることをさらに含んでいる。さらに、この方法は、この修正コマンドに応答して選択されたキャラクタを修正して、修正済みの単語を生成することを含む。
【選択図】図2

Description

本発明は、一般に音声認識ソフトウェアアプリケーションに関し、より詳細には、音声認識アプリケーションを介して単語のキャラクタを操作するための方法に関する。
スピーチは、おそらく最も古い形式の人間のコミュニケーションであり、発声を介してコミュニケーションする能力が人間の脳の生態において先天的にもたらされるものであると、今では多数の科学者達は確信している。したがって、ユーザがスピーチなどのNUI(Natural User Interface:ナチュラルユーザインターフェース)を使用してコンピュータとコミュニケーションすることができるようにすることは、長い間追求されてきた目標であった。実際、最近になってこの目標を達成する上での大きな発展がなされてきている。例えば、一部のコンピュータは、今やユーザが、コンピュータを動作させるためのコマンドもテキストに変換すべき口述(dictation)も共に口頭で入力できるようにするスピーチ認識アプリケーションを含んでいる。これらのアプリケーションは、一般的にマイクロフォンを介して取得された音声サンプルを定期的に記録し、これらのサンプルを解析してこのユーザが発話している音素を認識し、これらの発話された音素により構成される単語を識別することによって動作する。
スピーチ認識がより一般的になりつつあるが、経験豊富なユーザをいらいらさせ、初心者ユーザを離反させる傾向がある従来のスピーチ認識アプリケーションを使用することには、短所が依然として存在する。かかる短所は、この話し手とこのコンピュータの間の対話に関与している。例えば、人間の対話では、人々は、人々が聞き手から感じ取る反応に基づいて自分のスピーチを制御する傾向がある。したがって、会話中に、聞き手は、「yes」または「uh-huh」など、うなずき、または口頭での応答を行って、この聞き手が自分に対して何が発言されているかを理解していることを示すことにより、フィードバックを行うことができる。さらに、この聞き手が、自分に対して何が発言されているかを理解できない場合には、この聞き手は、いぶかしげな表情を表し、身を乗り出し、または他の口頭または非口頭の合図を与えることができる。このフィードバックに応じて、この話し手は、一般的に自分が話している話し方を変えることになり、場合によっては、この話し手は、この話し手が聞き手と対話している話し方を変えていることについて、通常この聞き手が気付くことさえないようにしながら、さらにゆっくり、さらに大きな声で話し、さらに頻繁に休止をとり、あるいは表現を繰り返すことさえできる。したがって、会話中のフィードバックは、話し手が理解されているかどうかについてこの話し手に伝える非常に重要な要素である。しかし、残念ながら、従来の音声認識アプリケーションでは、マンマシンインターフェースによって実行されるスピーチ入力/コマンドに対する、このタイプの「ナチュラルユーザインターフェース(NUI)」フィードバック応答を実現することはまだできない。
現在では、音声認識アプリケーションは、90%から98%の認識率(accuracy rate)を達成している。これは、ユーザが、典型的な音声認識アプリケーションを使用してドキュメントに口述入力するときに、これらユーザのスピーチは、この音声認識アプリケーションによって約90%から98%の割合で正確に認識されることになることを意味している。したがって、この音声認識アプリケーションが記録する100文字ごとのうち、約2文字から10文字は、訂正する必要があることになる。この問題に対処し、誤認識された文字または単語を訂正する2つの一般的な方法では、文字または単語を反復すること、すなわち再び発話することが必要になり、あるいは代替スピーチを要求することが必要になる。しかし、これら2つのアプローチは、ユーザが訂正を実施するたびごとにうまくいくとは限らず、したがって、訂正を実施するときにスピーチを使用しなければならないある種のクラスのユーザにとって、例えば物理的にキーボードを使用することができないこれらのユーザにとっては、特に不利になる。
この問題に対処し、ディスプレイ画面上に表示される誤認識された文字または単語を訂正する他のアプローチでは、この単語全体を削除し、この単語を先頭から再スペリングする(respelling)ことを必要とする。例えば、単語「intent」を「indent」に変更するためには、このユーザは、「delete intent(intentを削除せよ)」と発声し、次いで「i」、「n」、「d」、「e」、「n」、「t」を発声することにより、この所望の単語を再スペリングする必要があるはずである。この問題に対処し、ディスプレイ画面上に表示される誤認識された単語を訂正するさらに他のアプローチでは、音声によってこのキーボードを制御して、間違っているこれらの文字を変更することを必要とする。この場合には、このユーザは、変更する必要のある文字まで単語中の文字のすべてを削除する必要がある。次いで、ユーザは、この残りを再スペリングする。例えば、単語「intent」を「indent」に変更するためには、このユーザは、「backspace(バックスペース) backspace backspace backspace」と発声し、次いで「d」、「e」、「n」、「t」と発声することにより、この所望の単語を再スペリングすることになる。
しかし、残念ながら、これらのアプローチには、それらに関連するいくつかの短所がある。第1に、1文字を変更するために多数のコマンドが必要とされることである。第2に、これらのアプローチは、多数の文字を再スペリングすることに頼っていることである。現在のスピーチ認識の認識率では、10文字中の9文字しか正しくないので、このことは、再スペリングの手段に訴えることにより、たった2つまたは3つの単語を訂正しなければならなかった後に、このユーザが、統計的に1つのエラーを獲得してしまう可能性があることを意味する。このことは、このユーザが、各文字の後に休止して文字が正しいかを確認する必要があり(これには、さらに時間がかかる)、あるいはこのユーザが、ユーザが「backspace backspace....」と発声し、次いで多くの場合にその単語をもう一度再スペリングしなければならない可能性があることに我慢する必要があることを意味する。第3に、スピーチ認識の誤りは、多くの場合にこのユーザが意図した単語と2〜3文字異なっているにすぎないので、非常に多くの場合にこのユーザがそのスペルを操作している単語は、このユーザが意図した単語と非常に近いことになる。これらの短所は、ベテランユーザをいらだたせる傾向があるだけでなく、初心者ユーザをがっかりさせる傾向もあり、おそらく、このユーザがこの音声認識アプリケーションを使用し続けるのを拒否する結果がもたらされることになる。
ディスプレイ画面上に表示されるキャラクタを操作する方法が提供されており、この方法は、修正すべき少なくとも1つのキャラクタを含む選択された単語を識別することを含んでいる。この方法は、少なくとも1つのキャラクタのそれぞれを一意の数値に関連づけること、ならびに選択されたキャラクタに対応する一意の数値である選択コマンド、および修正コマンドを受け取ることをさらに含んでいる。さらにこの方法は、この修正コマンドに応答してこの選択されたキャラクタを修正して、修正済みの単語を生成することを含んでいる。
ディスプレイ画面上に表示されるキャラクタを操作する方法を実施するためのシステムが提供されており、このシステムは、入力されたコマンドを受け取るように構成されたオーディオモジュールを含むストレージデバイスを含んでいる。このシステムはまた、この入力されたコマンドを受け取る入力デバイスと、この入力されたコマンドを表示する表示画面を含むディスプレイデバイスとを含んでいる。さらに、このシステムは処理デバイスをさらに含み処理デバイスは、スペリングUIをディスプレイ画面上に表示させ、入力されたコマンドに応答して表示されたデータを操作する命令を受け取るように、ストレージデバイス、この入力デバイス、およびこのディスプレイデバイスと情報をやりとりする。
機械読取り可能コンピュータプログラムコードが提供され、このプログラムコードは、ディスプレイ画面上に表示されるキャラクタを操作する方法を処理デバイスに実施させるための命令を含んでいる。この方法は、修正すべき少なくとも1つのキャラクタを含む選択された単語を識別すること、およびこの少なくとも1つのキャラクタのそれぞれを一意の数値に関連づけることを含んでいる。この方法は、選択されたキャラクタに対応する一意の数値である選択コマンド、および修正コマンドを受け取ること、ならびにこの修正コマンドに応答してこの選択されたキャラクタを修正して、修正済みの単語を生成することをさらに含んでいる。
機械読取り可能コンピュータプログラムコードを用いて符号化される媒体が提供され、このプログラムコードは、ディスプレイ画面上に表示されるキャラクタを操作する方法を処理デバイスに実施させるための命令を含んでいる。この方法は、修正すべき少なくとも1つのキャラクタを含む選択された単語を識別すること、およびこの少なくとも1つのキャラクタのそれぞれを一意の数値に関連づけることを含んでいる。この方法は、選択されたキャラクタに対応する一意の数値である選択コマンド、および修正コマンドを受け取ること、ならびにこの修正コマンドに応答してこの選択されたキャラクタを修正して、修正済みの単語を生成することをさらに含んでいる。
本発明の前述および他の特徴、ならびに利点については、添付図面と併せ解釈することにより、例示の実施形態の以下の詳細な説明からさらに完全に理解されよう。いくつかの図面中で、同様なエレメントは同様に番号が付けられている。
本明細書中で説明している本発明は、スピーチ認識アプリケーションを使用して、ユーザが入力する音声コマンドを受け取り認識するシステムを実現する汎用コンピュータと共に使用されるスタンドアロンアプリケーションモジュールおよび/または統合されたアプリケーションモジュールのコンテキストで説明しているが、本明細書中に開示される本発明は、所望の最終目的に適切な任意のコンテキストで使用することができることを理解されたい。例えば、本発明は、ディスプレイ画面上にソフトウェアUI(User Interface:ユーザインターフェース)ウィンドウを位置づける方法を実行するスピーチ認識モジュールを有するMicrosoft(登録商標)Wordなどのターゲットソフトウェアアプリケーション内の統合されたソフトウェアルーチンまたは機能とすることができ、かつ/または本発明は、汎用コンピュータのオペレーティングシステム内のルーチンまたは機能とすることもできる。オブジェクト指向アプリケーションとして、このアプリケーションモジュールは、クライアントプログラムがアクセスしてこのアプリケーションモジュールと情報をやりとりする標準インターフェースを公開することができる。このアプリケーションモジュールは、ワードプロセッシングプログラム、デスクトップパブリッシングプログラム、あるアプリケーションプログラムなどいくつかの異なるクライアントプログラムが、ローカルに、かつ/またはWAN、LAN、および/またはインターネットベースの手段などのネットワーク上でこのアプリケーションモジュールを使用できるようにすることもある。例えば、このアプリケーションモジュールは、ローカルにまたはインターネットアクセスポイントを介して、電子メールアプリケーションやMicrosoft(登録商標)Wordなど、テキストフィールドを有する任意のアプリケーションおよび/またはコントロールと共にアクセスし、使用することができる。しかし、本発明の態様を説明する前に、本発明を組み込み、本発明の恩恵を受けることができる適切なコンピューティング環境の一実施形態について以下で説明する。
図1を参照すると、スペリングユーザインターフェース(UI)を有するスピーチ認識ソフトウェアアプリケーションを使用するターゲットソフトウェアアプリケーションによってディスプレイ画面上に表示されたキャラクタを操作する方法を実施するシステム100を示すブロック図が示されており、このシステムは、処理デバイス104、システムメモリ106、およびこのシステムメモリ106を処理デバイス104に結合するシステムバス108を含む汎用コンピュータシステム102を含んでいる。システムメモリ106は、ROM(read only memory:読取り専用メモリ)110およびRAM(random access memory:ランダムアクセスメモリ)112を含むことができる。起動中などに汎用コンピュータシステム102内のエレメント間で情報を転送する助けをする基本ルーチンを含むBIOS(basic input/output system:基本入出力システム)114は、ROM110に記憶される。汎用コンピュータシステム102は、ハードディスクドライブ118、例えば着脱可能な磁気ディスク122から情報を読み取り、またはそれに情報を書き込むための磁気ディスクドライブ120、例えばCD−ROMディスク126を読み取り、あるいは他の光媒体から情報を読み取り、またはそれに情報を書き込むための光ディスクドライブ124などのストレージデバイス116をさらに含んでいる。ストレージデバイス116は、ハードディスクドライブインターフェース130、磁気ディスクドライブインターフェース132、光ドライブインターフェース134などのストレージデバイスインターフェースによってシステムバス108に接続することができる。これらのドライブおよびこれらに関連するコンピュータ読取り可能媒体は、汎用コンピュータシステム102についての不揮発性ストレージを実現する。以上のコンピュータ読取り可能媒体の説明では、ハードディスク、着脱可能な磁気ディスク、およびCD−ROMディスクについて言及しているが、磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ(Bernoulli cartridge)など、コンピュータシステムによって読取り可能であり、この所望の最終目的に適している他のタイプの媒体も使用することができることを理解されたい。
ユーザは、キーボード136、マウス138などのポインティングデバイス、およびマイクロフォン140を含めて、従来の入力デバイス135を介して汎用コンピュータシステム102にコマンドおよび情報を入力することができ、ここでマイクロフォン140を使用してスピーチなどのオーディオ入力を汎用コンピュータシステム102に入力することができる。さらに、ユーザは、スタイラスを使用して書込みタブレット142上にグラフィック情報を描画することにより、描画や手書きなどのグラフィック情報を汎用コンピュータシステム102に入力することができる。汎用コンピュータシステム102は、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナなど、この所望の最終目的に適した追加の入力デバイスを含むこともできる。マイクロフォン140は、システムバス108に結合されるオーディオアダプタ144を介して処理デバイス104に接続することができる。さらに、他の入力デバイスが、多くの場合にシステムバス108に結合されるシリアルポートインターフェース146を介して処理デバイス104に接続されるが、これらは、ゲームポートやUSB(universal serial bus:ユニバーサルシリアルバス)など他のインターフェースによって接続することもできる。
ディスプレイ画面148を有する、モニタや他のタイプのディスプレイデバイス147などのディスプレイデバイス147もまた、ビデオアダプタ150などのインターフェースを介してシステムバス108に接続される。ディスプレイ画面148に加えて、汎用コンピュータシステム102は、一般的にスピーカおよび/またはプリンタなど他のペリフェラル出力デバイスも含むことができる。汎用コンピュータシステム102は、1つまたは複数のリモートコンピュータシステム152への論理接続を使用してネットワーク環境中で動作することもできる。リモートコンピュータシステム152は、サーバ、ルータ、ピアデバイス、または他の共通ネットワークノードとすることができ、汎用コンピュータシステム102に対して説明しているエレメントのうちのどれかまたはすべてを含むことができるが、1つのリモートメモリストレージデバイス154しか、図1には示していない。図1に示すような論理接続は、LAN(local area network:ローカルエリアネットワーク)156およびWAN(wide area network:ワイドエリアネットワーク)158を含んでいる。かかるネットワーキング環境は、オフィス、企業規模のコンピュータネットワーク、イントラネット、およびインターネットにおいては一般的なものである。
LANネットワーキング環境中で使用されるときには、汎用コンピュータシステム102は、ネットワークインターフェース160を介してLAN156に接続される。WANネットワーキング環境中で使用されるときには、汎用コンピュータシステム102は、一般的にインターネットなどのWAN158上で通信を確立するためのモデム162または他の手段を含んでいる。モデム162は、内蔵または外付けとすることができるが、シリアルポートインターフェース146を介してシステムバス108に接続することができる。ネットワーク環境においては、汎用コンピュータシステム102に関連して示されるプログラムモジュール、またはその一部分は、このリモートメモリストレージデバイス154に記憶することもできる。図に示すこれらのネットワーク接続は、例示的なものであり、コンピュータシステム間で通信リンクを確立する他の手段を使用することもできることを理解されたい。このアプリケーションモジュールは、汎用コンピュータシステム以外のホストコンピュータシステムまたはサーバコンピュータシステム上で同等に実装することができ、CD−ROM以外の手段で、例えばネットワーク接続インターフェース160を介してこのホストコンピュータシステムに同等に伝送することができることも理解されたい。
さらに、いくつかのプログラムモジュールは、汎用コンピュータシステム102のこれらのドライブおよびRAM112に記憶することができる。プログラムモジュールは、汎用コンピュータシステム102がどのように機能し、このユーザ、I/Oデバイス、または他のコンピュータと対話するかを制御する。プログラムモジュールは、ルーチン、オペレーティングシステム164、ターゲットアプリケーションプログラムモジュール166、データ構造、ブラウザ、および他のソフトウェアコンポーネントまたはファームウェアコンポーネントを含んでいる。本発明の方法は、アプリケーションモジュール中に含めることができ、このアプリケーションモジュールは、本明細書中で説明する方法に基づいたスピーチエンジン訂正モジュール170など1つまたは複数のプログラムモジュール中で便利に実施することができる。ターゲットアプリケーションプログラムモジュール166は、本発明に関連して使用される様々なアプリケーションを含むことができ、その一部は図2に示される。一部のこれらのプログラムモジュールの目的とその間の対話については、図2を説明するテキスト中でさらに十分に説明している。これらは、テキストフィールドを有する任意のアプリケーションおよび/またはコントロール、すなわち例えば電子メールアプリケーション、(ワシントン州、レッドモンド市のマイクロソフト社が生産するMicrosoft(登録商標)Wordなどの)ワードプロセッサプログラム、手書き認識プログラムモジュール、スピーチエンジン訂正モジュール170、およびIME(input method editor入力方式エディタ)を含んでいる。
添付図面中に説明され示されるオペレーション、ステップ、およびプロシージャは、当業者なら本発明の例示の実施形態を実行できるようになるのに十分に開示されていると考えられるので、詳細な説明中で説明される様々なプロシージャを実行するための特定のプログラミング言語については、説明していないことを理解されたい。さらに、例示の実施形態を実行する際に使用することができる多数のコンピュータおよびオペレーティングシステムが存在しており、したがって、これらの多数の異なるシステムのすべてに適用可能となる詳細なコンピュータプログラムは、提供することができない。特定のコンピュータの各ユーザは、そのユーザのニーズおよび目的にとって最も有用な言語およびツールについて知っているはずである。
図2を参照すると、スペリングユーザインターフェース(UI)を有するスピーチ認識ソフトウェアアプリケーションを使用するターゲットソフトウェアアプリケーションによってディスプレイ画面148上に表示されたキャラクタを操作する方法200を示すブロック図が示され、このスピーチ認識ソフトウェアアプリケーションを使用してこのターゲットソフトウェアアプリケーションに単語を入力するユーザの観点から説明している。
このターゲットソフトウェアアプリケーションにテキストを入力するために、はじめにユーザは、このスピーチ認識ソフトウェアアプリケーションおよびターゲットソフトウェアアプリケーションを動作させて、図3に示すようにこのターゲットソフトウェアアプリケーションを介して少なくとも1つのキャラクタをディスプレイ画面148上に表示させる。処理デバイス104は、マイクロフォン入力デバイス135を介して入力されるユーザ命令に応答してこのスピーチ認識ソフトウェアアプリケーションを動作させることができ、かつ/または処理デバイス104は、起動直後にオペレーティングシステム164によって認識される「ブートアップ」命令などの命令に応答してこのスピーチ認識ソフトウェアアプリケーションを実行することができることを理解されたい。このスピーチ認識ソフトウェアアプリケーションを起動した後に、このユーザは、マイクロフォン入力デバイス140を介してこのスピーチ認識ソフトウェアアプリケーションにコマンドを口頭で伝えて、ターゲットソフトウェアアプリケーションを起動することができる。ここで、このターゲットソフトウェアアプリケーションは、電子メールアプリケーションやMicrosoft(登録商標)Wordなど、テキストフィールドを有する任意のアプリケーションおよび/またはコントロールとすることができる。このターゲットソフトウェアアプリケーションが起動された後に、ターゲットソフトウェアアプリケーションウィンドウ302が、ディスプレイ画面148上に表示される。次いで、ユーザは、マイクロフォン入力デバイス140を介してテキストを入力することにより、このスピーチ認識ソフトウェアアプリケーションを動作させて、ターゲットソフトウェアアプリケーションウィンドウ302を介してこのスピーチ認識ソフトウェアアプリケーションに入力済みのテキスト304を表示させることができる。この例では、一連の入力済みのテキスト304がシステム100に入力される。一連の入力済みのテキスト304は、「I」、「t」、「space(スペース)」、「i」、「s」、「space」、「t」、「h」、「e」、「space」、「i」、「n」、「t」、「e」、「n」、「t」として入力される。しかし、このスピーチ認識ソフトウェアアプリケーションは、この一連の入力済みのテキスト304を「I」、「t」、「space」、「i」、「s」、「space」、「t」、「h」、「e」、「space」、「i」、「n」、「v」、「e」、「n」、「t」として「聞いて」おり、したがって、この最後の単語「invent」は、「intent」になるように訂正する必要がある。以上のテキストは、単語全体として、または文字(キャラクタ)として口述することができることを理解されたい。また、この口述筆記機能は、オペレーティングシステムレベルコンポーネントとすることができることを理解されたい。
図4に示すように、これを訂正するために、スペリングコマンドが有効にされて、スペリングUIを呼び出し、ユーザは修正すべき単語、すなわち「spell intent(intentをスペリングする)」を汎用コンピュータシステム102に対して口頭で伝えることができるようになる。汎用コンピュータシステム102がこのスペリングコマンドを受け取るとすぐに、この選択された単語は、識別され、この選択された単語に少なくとも1つのスペース404を追加することによって追加済みの単語402が作成され、ここで、追加済みの単語402は、動作ブロック202(図2)に示すように、修正すべき少なくとも1つのキャラクタ406を含んでいる。次いで動作ブロック204(図2)に示すように、この追加済みの単語中の各キャラクタ408には、一意の数値410が割り当てられ、関連づけられる。次いで、追加済み単語402は、ディスプレイ画面148を介して表示されて、追加済みの単語402中の各キャラクタ408と、これらに割り当てられた一意の数値410の間の関連づけを視覚的に伝える。この関連づけは、ディスプレイ画面148上の追加済みの単語402の周囲にボックス412を描画し、追加済みの単語402中のキャラクタ408に隣接してそれらに割り当てられた一意の各数値410を表示することによって視覚的に伝えることができる。したがって、各キャラクタ408には、各キャラクタ408が関連づけられる一意の数値410が「割り当てられる」。例えば、単語「invent」414を「intent」に変更しようと望むユーザは、このスピーチ認識ソフトウェアアプリケーションに対して「spell invent(inventをスペリングする)」などのコマンドを口頭で入力する。これは、このスペリングUIを実施し、ボックス412がディスプレイ画面148上の単語「invent」414の周囲に表示されるようにするはずである。これはまた、単語「invent」414中の各キャラクタに一意の数値410が、割り当てられるようにし、この一意の数値は、その対応するキャラクタ408に隣接して表示され、これらの両方が図4に示されている。これにより、このユーザは、この単語「invent」中のどの文字を変更および/または訂正することもできるようになる。
この時点において、選択コマンドおよび修正コマンドを、汎用コンピュータシステム102が受け取ることができる。ここでこの選択コマンドは、動作ブロック206(図2)に示すように選択されたキャラクタに対応する一意の数値410である。このことは、汎用コンピュータシステム102に対して、追加済みの単語402中のどのキャラクタを変更すべきかを示す。汎用コンピュータシステム102が、修正コマンドを受け取った後に、動作ブロック208(図2)に示すように、修正コマンドに応答して選択されたキャラクタを修正することにより、修正済みの単語が生成される。このユーザは、「削除する(delete)」、「挿入する(insert)」、追加すべき文字/キャラクタなど、複数の修正コマンドを入力することができることを理解されたい。これらの各状況については以下で説明する。
例として、ユーザがディスプレイ画面148上に表示された追加済みの単語「invent_」504中の文字「v」502を削除したいと思う上記の場合について、図5を参照して考察する。以上で説明したように、ユーザは、変更すべきキャラクタに対応する一意の数値を汎用コンピュータシステム102に伝える。これらの一意の数値508は、数字1から開始され、1ずつ増加するが、任意の一意の数値508および増分を割り当てることができることを理解されたい。図から分かるように、追加済みの単語「invent_」504中の文字「v」502には、「3」という一意の数値508が割り当てられている。したがって、このユーザは、数字「3」を汎用コンピュータシステム102に対して口頭で伝えることになる。これにより、カレット(caret)510によって示されるような、数字「3」に対応し、相関づけられた文字が「選択」され、この場合における文字は、この追加済みの単語「invent_」504中の文字「v」502となる。次いで、このユーザは、「delete」など所望の修正コマンドを入力することができ、この「delete」は、追加済みの単語「invent_」504から文字「v」502を削除させることになり、図6に示すようにその結果として「inent」512が残される。したがって、修正コマンド「delete」は、追加済みの単語から選択された文字、および対応するスペースを除去することになり、選択カレット510は、次の後続のキャラクタ、すなわち「e」を選択することになる。
他方、ユーザが、ディスプレイ画面148上に表示される単語「invent」中の文字「n」704と文字「v」706の間の、文字やスペースなどのキャラクタを挿入したいと思う場合について、図7を参照して考察する。基本的には、ユーザは、一意の数値「3」に対応する位置(spot)にキャラクタを挿入したいと思っている。以上で説明したように、ユーザは、コマンド「spell invent」を口頭で伝えることにより、スペリングUIを実行することができる。これにより、スペースが単語「invent」に追加されて、追加済みの単語「invent_」708が作成され、ボックス710が追加済みの単語「invent_」708の周囲に表示され、一意の数値712が、追加済みの単語「invent_」708中の各キャラクタ408に隣接して割り当てられ表示されるようになる。図から分かるように、追加済みの単語「invent_」708中の文字「v」706には、「3」という一意の数値712が割り当てられる。したがって、ユーザは、汎用コンピュータシステム102に対して数字「3」を口頭で伝えることになる。このことは、汎用コンピュータシステム102に、カレット714によって示される数字「3」に対応し、相互に関連づけられた文字を「選択」させる。この例では選択される文字は、追加済みの単語「invent_」708中の文字「v」706である。次いで、ユーザは、修正コマンドを入力し、汎用コンピュータシステム102を適切な方法で応答させることができる。例えば、ユーザが、修正コマンド「insert」を伝え、次いで単語「space」を伝える場合には、スペースが文字「n」704と文字「v」706の間に挿入されることになり、図8に示すように、追加済みの単語「invent_」708を「in vent_」716に効果的に変更することになる。この場合に、カレット714は、その場にとどまって、一意の数値「3」に関連づけられたスペースが選択されていることを示すはずである。しかし、このユーザが、コマンド「insert」を伝え、次いで文字「p」を伝える場合には、文字「p」が文字「n」704と文字「v」706の間に挿入されることになり、図9に示すように、追加済みの単語「invent_」を「inpvent_」718に効果的に変更することになり、選択カレット714は、次のキャラクタに移動して、次のキャラクタ(すなわち、一意の数値「4」に対応するキャラクタ)が選択されていることを示すようになる。
同様に、ユーザが、単にディスプレイ画面148上に表示された単語「invent」中の文字を変更しようと思う場合について、図10を参照して考察する。以上で説明したように、ユーザは、コマンド「spell invent」を口頭で伝えることにより、スペリングUIを実施することができる。これにより、スペースが、単語「invent」の最後に追加されて、追加済みの単語「invent_」902が作成され、ボックス904が、追加済みの単語「invent_」902の周囲に表示され、一意の数値906が、追加済みの単語「invent_」902中の各キャラクタ908に隣接して割り当てられ、表示される。図から分かるように、追加済みの単語「invent_」902中の文字「v」912には、「3」という一意の数値906が割り当てられる。したがって、ユーザは、コンピュータシステム102に対して数字「3」を口頭で伝えることになる。これにより、数字「3」に対応し、関連づけられた文字が、カレット910によって示されるように選択される。この例では選択される文字は、追加済みの単語「invent_」902中の文字「v」912となる。次いでユーザは、コンピュータシステムを適切な方法で応答するようにする修正コマンド(この例ではコマンドは、単に文字である)を入力することができる。例えば、ユーザが、数字「3」の後に修正コマンド「t」を伝える場合には、文字「v」912は、文字「t」で置き換えられて、図11に示すように、追加済みの単語「invent_」902を単語「intent」914に効果的に変更することになる。この時点で、選択カレット910は、次のキャラクタに移動して、次のキャラクタ(すなわち、一意の数値「4」に対応するキャラクタ)が選択されていることを示すことになる。
ユーザが変更すべき文字に対応する一意の数値を入力した後に、ドロップダウンメニューなど、推奨される修正コマンドのメニューを表示することができる。ここで、割り当てられるはずの推奨される各アクションは、それ自体が一意の数値であることを理解されたい。例えば、ユーザが、ディスプレイ画面148上に表示される単語「invent」中の1文字を変更したいと思う場合について、図12を参照して考察する。ユーザは、コマンド「spell invent」を口頭で伝えることにより、スペリングUIを実施することができる。これにより、スペースが、選択された単語「invent」に追加されて、追加済みの単語「invent_」1002が作成され、ボックス1004が、追加済みの単語「invent_」1002の周囲に表示され、一意の数値1006が、追加済みの単語「invent_」1002中の各文字に隣接して表示されるようになる。図から分かるように、追加済みの単語「invent_」1002中の文字「v」1008には、「3」という一意の数値1006が割り当てられる。したがって、ユーザは、汎用コンピュータシステム102に対して数字「3」を口頭で伝えて、カレット1010によって示される一意の数値「3」に対応して、関連づけられた文字を「選択する」ことになり、この例では選択される文字は、追加済みの単語「invent_」1002中の文字「v」1008である。図13に示すように、ユーザにいくつかの修正コマンド選択肢を提供するメニュー1012をディスプレイ画面148上に表示することができる。これらの各選択肢には、第2の一意の数値1014が割り当てられる。次いでユーザは、スピーチ認識ソフトウェアアプリケーションに適切な方法で応答させる所望の修正コマンドに関連づけられた第2の一意の数値1014である修正コマンドを入力することができる。例えば、ユーザが、数字「3」の後に数値「4」を伝える場合には、文字「v」1008は、文字「d」1016で置き換えられ、図14に示すように、効果的に追加済みの単語「invent_」1002を単語「indent」1018に変更することになる。上記と同様に、選択カレット1010は、次のキャラクタに移動して、次のキャラクタ(すなわち、一意の数値「4」に対応するキャラクタ)が選択されていることを示すことになる。
推奨される修正コマンドのメニュー1012は、選択された文字または単語と音響的に同様な響きのキャラクタ/単語のメニューなど、所望の最終目的に適した任意の修正コマンドを含むことができること、例えば、「v」が選択される場合には、メニュー1012は、「d」、「t」、「e」、「g」、「3」を含むことになることを理解されたい。さらに、メニュー1012は、これらのキャラクタの大文字、例えば、「V」、ならびにスペルチェッカからのオートコンプリートのリストを含むこともできる。したがって、この実施例では、メニュー1012は、単語「indent」、「intent」、「amend」を含むことができる。さらに、本発明は、複数のファンクションを同時に実施する音声コマンド、例えば「Change 3 to "e" as in eagle」を含むこともでき、あるいは選択された単語中に文字「t」が1つしかない場合には、「Change t to g」は、文字「t」を文字「g」に変更することができることを理解されたい。選択された単語中に2つの文字「t」が存在した場合には、さらに正確にするためにこのユーザに対してフィードバックを行うことができる。さらに、変更されたキャラクタを元の状態に戻すことができる「アンドゥ(undo)」など他のコマンドも提供することができ、例えば、ユーザが、(選択された文字を大文にするために)「cap that」と発声するが、この入力が「caret(カレット)」と認識された場合には、ユーザは、「アンドゥ」と発声して、この文字をその元の状態に戻すこともできる。
例示の実施形態によれば、機械読取り可能コンピュータプログラムに応答して動作するコントローラにより、図2の処理の全体または一部を実施することができる。したがって、所定のファンクションおよび所望の処理、ならびに計算(例えば、1つ(または複数)の実行制御アルゴリズム、本明細書中で説明している制御プロセスなど)を実施するために、コントローラは、それだけには限定されないが、1つ(または複数)のプロセッサ、1つ(または複数)のコンピュータ、メモリ、ストレージ、1つ(または複数)のレジスタ、タイミング、1つ(または複数)の割込み、1つ(または複数)の通信インターフェース、および1つ(または複数)の入出力信号インターフェース、ならびに前述のうちの少なくとも1つを含む組合せを含むことができる。
さらに、本発明は、コンピュータまたはコントローラに実装されたプロセスの形態で、実施することができる。本発明はまた、フロッピー(登録商標)ディスケット、CD−ROM、ハードドライブ、および/または他の任意のコンピュータ読取り可能媒体などの有形媒体中に実施される命令を含むコンピュータプログラムコードの形態で実施することもできる。ここで、このコンピュータプログラムコードが、コンピュータまたはコントローラにロードされ実行されると、このコンピュータまたはコントローラは、本発明を実行するための装置になる。本発明はまた、例えば、ストレージ媒体に記憶され、コンピュータまたはコントローラによってロードおよび/または実行され、あるいは電気配線またはケーブル配線上、光ファイバを介して、電磁放射線を介してなど、何らかの伝送媒体上で伝送されるかにかかわらず、コンピュータプログラムコードの形態で実施することもできる。ここで、このコンピュータプログラムコードが、コンピュータまたはコントローラにロードされ実行されると、このコンピュータまたはコントローラは、本発明を実行するための装置になる。汎用マイクロプロセッサ上で実行されると、このコンピュータプログラムコードセグメントは、マイクロプロセッサを設定して、特定の論理回路を作り出すことができる。
例示の実施形態に関して本発明を説明してきたが、本発明の趣旨および範囲を逸脱することなく、様々な変更、省略、および/または追加を行うことができ、また本発明のエレメントについて同等物で代用することができることが当業者には理解されよう。さらに、本発明の範囲を逸脱することなく、本発明の教示に対して特定の状況または材料に合わせられるように、多くの修正を行うことができる。したがって、本発明は、本発明を実行するように企図された最良の態様として開示された特定の実施形態だけには限定されず、本発明は、添付の特許請求の範囲の範囲内に含まれるすべての実施形態を包含することになることを意図している。さらに、特に明記されない限り、第1の、第2のなど、これらの用語のどのような使用も、どのような順序または重要度を示すものでもなく、そうでなくて、第1の、第2のなど、これらの用語は、1つのエレメントを別のエレメントから区別するために使用されている。
例示の実施形態にしたがって、スペリングユーザインターフェース(UI)を有するスピーチ認識ソフトウェアアプリケーションを使用して、ディスプレイ画面上に表示されるキャラクタを操作する方法を実施するシステムのブロック図である。 例示の実施形態にしたがって、スペリングユーザインターフェース(UI)を有するスピーチ認識ソフトウェアアプリケーションを使用して、ディスプレイ画面上に表示されるキャラクタを操作する方法を示すブロック図である。 図2の方法を説明するための、図1におけるシステムのディスプレイ画面である。 図2の方法を説明するための、図1におけるシステムのディスプレイ画面である。 図2の方法を説明するための、図1におけるシステムのディスプレイ画面である。 図2の方法を説明するための、図1におけるシステムのディスプレイ画面である。 図2の方法を説明するための、図1におけるシステムのディスプレイ画面である。 図2の方法を説明するための、図1におけるシステムのディスプレイ画面である。 図2の方法を説明するための、図1におけるシステムのディスプレイ画面である。 図2の方法を説明するための、図1におけるシステムのディスプレイ画面である。 図2の方法を説明するための、図1におけるシステムのディスプレイ画面である。 図2の方法を説明するための、図1におけるシステムのディスプレイ画面である。 図2の方法を説明するための、図1におけるシステムのディスプレイ画面である。 図2の方法を説明するための、図1におけるシステムのディスプレイ画面である。
符号の説明
147 ディスプレイデバイス
148 ディスプレイ画面
302 ターゲットソフトウェアアプリケーションウィンドウ
304 入力済みのテキスト
402 追加済みの単語
404 スペース
406 修正すべきキャラクタ
408 追加済みの単語中の各キャラクタ
410 追加済みの単語の各キャラクタに割り当てられた一意の数値
412 ボックス
414 単語

Claims (25)

  1. ディスプレイ画面上に表示されるキャラクタを操作するための方法であって、
    修正すべき少なくとも1つのキャラクタを含む選択された単語を識別するステップと、
    前記少なくとも1つのキャラクタのそれぞれを一意の数値に関連づけるステップと、
    前記選択された単語中の選択されたキャラクタに対応する前記一意の数値である選択コマンド、および修正コマンドを受け取るステップと、
    前記修正コマンドに応答して前記選択されたキャラクタを修正して、修正済みの単語を生成するステップと
    を含むことを特徴とする方法。
  2. 前記識別するステップは、
    ユーザが前記選択された単語を口頭で伝えることができるようにするスペリングユーザインターフェースをスペリングコマンドが呼び出すことができるようにするステップを
    さらに含むことを特徴とする請求項1に記載の方法。
  3. 前記関連づけるステップは、
    前記選択された単語を前記ディスプレイ画面上に表示して、前記少なくとも1つのキャラクタのそれぞれと、前記一意の数値の各々との間の関連づけを視覚的に伝えるステップを
    さらに含むことを特徴とする請求項1に記載の方法。
  4. 前記表示するステップは、
    前記ディスプレイ画面上の前記選択された単語の周囲にボックスを描画するステップと、
    前記少なくとも1つのキャラクタのそれぞれに隣接して前記一意の数値の各々を表示するステップと
    を含むことを特徴とする請求項3に記載の方法。
  5. 前記識別するステップは、選択された単語を識別し、前記選択された単語に少なくとも1つのスペースを最後に追加して、追加済みの単語を作成し、前記追加済みの単語は、修正すべき少なくとも1つのキャラクタを含むことを特徴とする請求項1に記載の方法。
  6. 前記関連づけるステップは、
    前記ディスプレイ画面上に前記追加済みの単語を表示して、前記少なくとも1つのキャラクタのそれぞれと前記一意の数値の各々との間の関連づけを視覚的に伝えるステップを
    さらに含むことを特徴とする請求項5に記載の方法。
  7. 前記表示するステップは、
    前記ディスプレイ画面上の前記追加済みの単語の周囲にボックスを描画するステップと、
    前記少なくとも1つのキャラクタのそれぞれに隣接して前記一意の数値の各々を表示するステップと
    を含むことを特徴とする請求項6に記載の方法。
  8. 前記修正コマンドが、「削除」である場合、前記修正するステップは、前記選択されたキャラクタを前記追加済みの単語から削除するステップを含むことを特徴とする請求項5に記載の方法。
  9. 前記受け取るステップは、
    オーディオ入力デバイスを介して前記選択コマンドおよび前記修正コマンドを受け取るステップを
    含むことを特徴とする請求項1に記載の方法。
  10. 前記修正コマンドが、置換キャラクタである場合、前記修正するステップは、前記選択されたキャラクタを前記置換キャラクタで置き換えるステップを含むことを特徴とする請求項1に記載の方法。
  11. 前記修正コマンドが、「削除」である場合、前記修正するステップは、前記選択されたキャラクタを前記選択された単語から削除するステップを含むことを特徴とする請求項1に記載の方法。
  12. 前記修正コマンドが、「挿入」である場合、前記修正するステップは、前記選択されたキャラクタと直前のキャラクタの間にスペースを挿入するステップを含むことを特徴とする請求項1に記載の方法。
  13. 前記修正するステップは、前記スペースを選択し、前記ディスプレイ画面上に前記スペースを視覚的に示すステップをさらに含むことを特徴とする請求項12に記載の方法。
  14. 前記修正するステップは、前記選択されたキャラクタの直後に配置された後続のキャラクタを選択するステップをさらに含むことを特徴とする請求項1に記載の方法。
  15. 前記修正するステップは、前記ディスプレイ画面上に前記後続のキャラクタを視覚的に示すステップをさらに含むことを特徴とする請求項14に記載の方法。
  16. ユーザが、終了コマンドを介して前記スペリングユーザインターフェースを口頭で終了させることを可能にするステップをさらに含むことを特徴とする請求項2に記載の方法。
  17. 前記可能にするステップは、前記終了コマンドに応答して前記選択された単語を前記修正済みの単語で置き換えるステップをさらに含むことを特徴とする請求項16に記載の方法。
  18. 前記終了コマンドは、「OK」であることを特徴とする請求項16に記載の方法。
  19. 前記受け取るステップは、少なくとも1つの許容可能なキャラクタの修正のリストを表示するステップをさらに含み、前記リストは、前記少なくとも1つの許容可能なキャラクタの修正のそれぞれに対応する第2の一意の数値を含むことを特徴とする請求項1に記載の方法。
  20. 前記修正コマンドは、前記第2の一意の数値であることを特徴とする請求項19に記載の方法。
  21. 前記修正コマンドは、単語「変更」および「アンドゥ」のうちの少なくとも1つであることを特徴とする請求項1に記載の方法。
  22. 前記識別するステップは、オーディオ入力デバイスを介してオーディオ信号を受信する前記スペリングユーザインターフェースをさらに含むことを特徴とする請求項2に記載の方法。
  23. 前記方法は、スタンドアロンアプリケーションモジュールと、ターゲットソフトウェアアプリケーション、スピーチ認識ソフトウェアアプリケーション、およびオペレーティングシステムのうちの少なくとも1つと統合された統合アプリケーションモジュールとのうちの少なくとも1つとして実施することができることを特徴とする請求項1に記載の方法。
  24. 前記方法は、ターゲットソフトウェアアプリケーションとして実施することができ、前記ターゲットソフトウェアアプリケーションは、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、および電子メールアプリケーションのうちの少なくとも1つを含むことを特徴とする請求項1に記載の方法。
  25. 修正すべき少なくとも1つのキャラクタを含む選択された単語を識別するステップと、
    前記少なくとも1つのキャラクタのそれぞれを一意の数値に関連づけるステップと、
    選択されたキャラクタに対応する前記一意の数値である選択コマンド、および修正コマンドを受け取るステップと、
    前記修正コマンドに応答して前記選択されたキャラクタを修正して、修正済みの単語を生成するステップと
    を含むディスプレイ画面上に表示されるキャラクタを操作するための方法を処理デバイスに実行させる命令を含む機械読取り可能コンピュータプログラムコードを記録したことを特徴とするコンピュータ読取り可能媒体。
JP2005299050A 2004-11-24 2005-10-13 キャラクタの制御された操作 Pending JP2006146887A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/997,255 US7778821B2 (en) 2004-11-24 2004-11-24 Controlled manipulation of characters

Publications (1)

Publication Number Publication Date
JP2006146887A true JP2006146887A (ja) 2006-06-08

Family

ID=35809546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005299050A Pending JP2006146887A (ja) 2004-11-24 2005-10-13 キャラクタの制御された操作

Country Status (12)

Country Link
US (2) US7778821B2 (ja)
EP (1) EP1662373A3 (ja)
JP (1) JP2006146887A (ja)
KR (1) KR20060058006A (ja)
CN (1) CN1779781A (ja)
AU (1) AU2005229676A1 (ja)
BR (1) BRPI0504862A (ja)
CA (1) CA2523898A1 (ja)
MX (1) MXPA05011453A (ja)
RU (1) RU2005134647A (ja)
TW (1) TW200627377A (ja)
ZA (1) ZA200508562B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023090960A1 (ko) * 2021-11-22 2023-05-25 주식회사 컬러버스 3차원 캐릭터 치환 시스템 및 방법
WO2023090959A1 (ko) * 2021-11-22 2023-05-25 주식회사 컬러버스 3차원 캐릭터 치환 시스템 및 방법

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7778821B2 (en) * 2004-11-24 2010-08-17 Microsoft Corporation Controlled manipulation of characters
US20070106501A1 (en) * 2005-11-07 2007-05-10 General Electric Company System and method for subvocal interactions in radiology dictation and UI commands
KR100737343B1 (ko) * 2005-12-08 2007-07-09 한국전자통신연구원 음성 인식 장치 및 방법
US20090300126A1 (en) * 2008-05-30 2009-12-03 International Business Machines Corporation Message Handling
KR100988397B1 (ko) 2008-06-09 2010-10-19 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
US8548814B2 (en) * 2009-11-05 2013-10-01 Johnson Manuel-Devadoss Method and portable system for phonetic language translation using brain interface
US20120159341A1 (en) 2010-12-21 2012-06-21 Microsoft Corporation Interactions with contextual and task-based computing environments
US20120166522A1 (en) * 2010-12-27 2012-06-28 Microsoft Corporation Supporting intelligent user interface interactions
US20120303368A1 (en) * 2011-05-27 2012-11-29 Ting Ma Number-assistant voice input system, number-assistant voice input method for voice input system and number-assistant voice correcting method for voice input system
US9612670B2 (en) * 2011-09-12 2017-04-04 Microsoft Technology Licensing, Llc Explicit touch selection and cursor placement
US9922651B1 (en) * 2014-08-13 2018-03-20 Rockwell Collins, Inc. Avionics text entry, cursor control, and display format selection via voice recognition
US9432611B1 (en) 2011-09-29 2016-08-30 Rockwell Collins, Inc. Voice radio tuning
US9570086B1 (en) * 2011-11-18 2017-02-14 Google Inc. Intelligently canceling user input
KR20130080515A (ko) * 2012-01-05 2013-07-15 삼성전자주식회사 디스플레이 장치 및 그 디스플레이 장치에 표시된 문자 편집 방법.
CN103366741B (zh) * 2012-03-31 2019-05-17 上海果壳电子有限公司 语音输入纠错方法及***
KR102105101B1 (ko) * 2012-11-07 2020-04-27 삼성전자주식회사 디스플레이 장치 및 이의 문자 수정 방법
US20140257808A1 (en) * 2013-03-11 2014-09-11 Samsung Electronics Co. Ltd. Apparatus and method for requesting a terminal to perform an action according to an audio command
GB2518002B (en) * 2013-09-10 2017-03-29 Jaguar Land Rover Ltd Vehicle interface system
WO2015093632A1 (ko) * 2013-12-16 2015-06-25 주식회사 큐키 전자 장치, 오타 수정 방법 및 이를 수행하기 위한 프로그램을 포함하는 컴퓨터로 판독 가능한 기록매체
US9383827B1 (en) * 2014-04-07 2016-07-05 Google Inc. Multi-modal command display
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US11112965B2 (en) 2014-10-28 2021-09-07 Idelan, Inc. Advanced methods and systems for text input error correction
US10275152B2 (en) 2014-10-28 2019-04-30 Idelan, Inc. Advanced methods and systems for text input error correction
US10831997B2 (en) * 2018-08-09 2020-11-10 CloudMinds Technology, Inc. Intent classification method and system
CN111415412B (zh) * 2020-03-18 2023-08-04 北京山维科技股份有限公司 一种立体测图采编***和方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004093698A (ja) * 2002-08-29 2004-03-25 Alpine Electronics Inc 音声入力方法

Family Cites Families (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US571831A (en) * 1896-11-24 Paper vessel
US5754847A (en) * 1987-05-26 1998-05-19 Xerox Corporation Word/number and number/word mapping
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5007008A (en) 1988-12-15 1991-04-09 Hewlett-Packard Company Method and apparatus for selecting key action
US5046096A (en) * 1990-04-09 1991-09-03 Ncm International, Inc. Windowed rotatable cover which reveals one indicia on one surface and a second indicia on a second surface corresponding to the first that encodes and decodes messages
US5265065A (en) 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5987170A (en) * 1992-09-28 1999-11-16 Matsushita Electric Industrial Co., Ltd. Character recognition machine utilizing language processing
DE69326431T2 (de) 1992-12-28 2000-02-03 Toshiba Kawasaki Kk Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist
US5710831A (en) * 1993-07-30 1998-01-20 Apple Computer, Inc. Method for correcting handwriting on a pen-based computer
US6125347A (en) 1993-09-29 2000-09-26 L&H Applications Usa, Inc. System for controlling multiple user application programs by spoken input
WO1995025326A1 (en) 1994-03-17 1995-09-21 Voice Powered Technology International, Inc. Voice/pointer operated system
US5642502A (en) 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
EP1199707A3 (en) 1995-05-26 2002-05-02 Speechworks International, Inc. Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
US5682439A (en) * 1995-08-07 1997-10-28 Apple Computer, Inc. Boxed input correction system and method for pen based computer systems
US5852801A (en) 1995-10-04 1998-12-22 Apple Computer, Inc. Method and apparatus for automatically invoking a new word module for unrecognized user input
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5995921A (en) 1996-04-23 1999-11-30 International Business Machines Corporation Natural language help interface
US6311182B1 (en) 1997-11-17 2001-10-30 Genuity Inc. Voice activated web browser
US6078914A (en) 1996-12-09 2000-06-20 Open Text Corporation Natural language meta-search system and method
AU746674B2 (en) * 1997-09-25 2002-05-02 Tegic Communications, Inc. Reduced keyboard disambiguating system
DE69712485T2 (de) 1997-10-23 2002-12-12 Sony Int Europe Gmbh Sprachschnittstelle für ein Hausnetzwerk
US6085159A (en) 1998-03-26 2000-07-04 International Business Machines Corporation Displaying voice commands with multiple variables
JP3531468B2 (ja) * 1998-03-30 2004-05-31 株式会社日立製作所 文書処理装置及び方法
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
US6260015B1 (en) * 1998-09-03 2001-07-10 International Business Machines Corp. Method and interface for correcting speech recognition errors for character languages
US6646573B1 (en) * 1998-12-04 2003-11-11 America Online, Inc. Reduced keyboard text input system for the Japanese language
US6636162B1 (en) * 1998-12-04 2003-10-21 America Online, Incorporated Reduced keyboard text input system for the Japanese language
US7720682B2 (en) 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
US6192343B1 (en) 1998-12-17 2001-02-20 International Business Machines Corporation Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms
US7206747B1 (en) 1998-12-16 2007-04-17 International Business Machines Corporation Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
FI110216B (fi) * 1998-12-29 2002-12-13 Nokia Corp Menetelmä ja laite syötetyn tekstin muokkaamiseksi
US7506252B2 (en) * 1999-01-26 2009-03-17 Blumberg Marvin R Speed typing apparatus for entering letters of alphabet with at least thirteen-letter input elements
DE69942663D1 (de) 1999-04-13 2010-09-23 Sony Deutschland Gmbh Zusammenfügen von Sprachschnittstellen zur gleichzeitigen Benützung von Vorrichtungen und Anwendungen
US6591236B2 (en) 1999-04-13 2003-07-08 International Business Machines Corporation Method and system for determining available and alternative speech commands
US6556841B2 (en) * 1999-05-03 2003-04-29 Openwave Systems Inc. Spelling correction for two-way mobile communication devices
US6173523B1 (en) * 1999-07-15 2001-01-16 Michael E. Johnson Sonic plastic bait
US7069220B2 (en) 1999-08-13 2006-06-27 International Business Machines Corporation Method for determining and maintaining dialog focus in a conversational speech system
EP1158799A1 (en) 2000-05-18 2001-11-28 Deutsche Thomson-Brandt Gmbh Method and receiver for providing subtitle data in several languages on demand
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
US7130790B1 (en) 2000-10-24 2006-10-31 Global Translations, Inc. System and method for closed caption data translation
US7085723B2 (en) 2001-01-12 2006-08-01 International Business Machines Corporation System and method for determining utterance context in a multi-context speech application
AUPR270201A0 (en) * 2001-01-25 2001-02-22 Easykeys Limited Character generation system
US7313526B2 (en) * 2001-09-05 2007-12-25 Voice Signal Technologies, Inc. Speech recognition using selectable recognition modes
US7083342B2 (en) * 2001-12-21 2006-08-01 Griffin Jason T Keyboard arrangement
US6847311B2 (en) * 2002-03-28 2005-01-25 Motorola Inc. Method and apparatus for character entry in a wireless communication device
US7174294B2 (en) 2002-06-21 2007-02-06 Microsoft Corporation Speech platform architecture
US7197494B2 (en) 2002-10-15 2007-03-27 Microsoft Corporation Method and architecture for consolidated database search for input recognition systems
JP4107093B2 (ja) 2003-01-30 2008-06-25 株式会社日立製作所 対話型端末装置及び対話アプリケーション提供方法
US7119794B2 (en) * 2003-04-30 2006-10-10 Microsoft Corporation Character and text unit input correction system
US20040243415A1 (en) 2003-06-02 2004-12-02 International Business Machines Corporation Architecture for a speech input method editor for handheld portable devices
US20050027539A1 (en) 2003-07-30 2005-02-03 Weber Dean C. Media center controller system and method
US20050075857A1 (en) 2003-10-02 2005-04-07 Elcock Albert F. Method and system for dynamically translating closed captions
US20050108026A1 (en) 2003-11-14 2005-05-19 Arnaud Brierre Personalized subtitle system
CN1697515A (zh) 2004-05-14 2005-11-16 创新科技有限公司 字幕翻译引擎
US8942985B2 (en) * 2004-11-16 2015-01-27 Microsoft Corporation Centralized method and system for clarifying voice commands
US7778821B2 (en) 2004-11-24 2010-08-17 Microsoft Corporation Controlled manipulation of characters
US20060136195A1 (en) 2004-12-22 2006-06-22 International Business Machines Corporation Text grouping for disambiguation in a speech application
US20060234818A1 (en) * 2005-04-15 2006-10-19 Wilson Lee H Match-play version basketball process

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004093698A (ja) * 2002-08-29 2004-03-25 Alpine Electronics Inc 音声入力方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023090960A1 (ko) * 2021-11-22 2023-05-25 주식회사 컬러버스 3차원 캐릭터 치환 시스템 및 방법
WO2023090959A1 (ko) * 2021-11-22 2023-05-25 주식회사 컬러버스 3차원 캐릭터 치환 시스템 및 방법

Also Published As

Publication number Publication date
CA2523898A1 (en) 2006-05-24
EP1662373A2 (en) 2006-05-31
BRPI0504862A (pt) 2006-07-11
KR20060058006A (ko) 2006-05-29
US20060111890A1 (en) 2006-05-25
MXPA05011453A (es) 2007-12-11
CN1779781A (zh) 2006-05-31
RU2005134647A (ru) 2007-05-20
EP1662373A3 (en) 2006-06-07
AU2005229676A1 (en) 2006-06-08
TW200627377A (en) 2006-08-01
US8082145B2 (en) 2011-12-20
US20100265257A1 (en) 2010-10-21
US7778821B2 (en) 2010-08-17
ZA200508562B (en) 2008-02-27

Similar Documents

Publication Publication Date Title
JP2006146887A (ja) キャラクタの制御された操作
US10748530B2 (en) Centralized method and system for determining voice commands
JP4818683B2 (ja) 言語モデルを作成する方法
EP1650744A1 (en) Invalid command detection in speech recognition
EP1634274A2 (en) Architecture for a speech input method editor for handheld portable devices
US9460067B2 (en) Automatic sentence punctuation
JP2004334207A (ja) 日本語および中国語音声認識システムのトレーニングのための動的な発音の補助
JP2004021028A (ja) 音声対話装置及び音声対話プログラム
US20060111916A1 (en) Microphone feedback and control
Metcalf et al. A Guide to Speech-Recognition Software

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110118

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110909