JP2005500591A - 情報処理装置及びその方法、プログラム - Google Patents

情報処理装置及びその方法、プログラム Download PDF

Info

Publication number
JP2005500591A
JP2005500591A JP2002575778A JP2002575778A JP2005500591A JP 2005500591 A JP2005500591 A JP 2005500591A JP 2002575778 A JP2002575778 A JP 2002575778A JP 2002575778 A JP2002575778 A JP 2002575778A JP 2005500591 A JP2005500591 A JP 2005500591A
Authority
JP
Japan
Prior art keywords
input form
input
voice recognition
information processing
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002575778A
Other languages
English (en)
Other versions
JP2005500591A5 (ja
JP4006338B2 (ja
Inventor
桂一 酒井
哲夫 小坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2005500591A publication Critical patent/JP2005500591A/ja
Publication of JP2005500591A5 publication Critical patent/JP2005500591A5/ja
Application granted granted Critical
Publication of JP4006338B2 publication Critical patent/JP4006338B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Communication Control (AREA)
  • Debugging And Monitoring (AREA)
  • Digital Computer Display Output (AREA)

Abstract

入力フォームに関する入力フォーム情報をフォーム名保持部に記憶する。入力された音声を音声認識部で認識し、その音声認識結果に対応する入力フォーム情報を選択する。選択された入力フォーム情報に対応する入力フォームの表示形態をGUI表示部で制御する。

Description

【技術分野】
【0001】
本発明は、入力された音声に基づいて、表示画面上に表示された入力フォームに対する操作に基づいて処理を実行する情報処理装置及びその方法、プログラムに関するものである。
【背景技術】
【0002】
GUI(グラフィックユーザインタフェース)上の入力項目(入力フォーム)へ文字等のデータを入力する場合、一般には、複数の入力フォームの中から一つを選択して入力対象の入力フォームを確定した上で、キーボードでデータを入力したり、マウス等のポインティングデバイスで、提示された複数の選択候補から一つの候補を選択して入力を行ったりする。また、そのような入力フォームへのデータの入力に際して、音声認識技術を用いて音声入力する技術も提案されている。
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、上記従来技術によれば、入力フォームへ音声入力をする場合に、データの入力対象となる入力フォームをキーボードやマウスにより選択する必要がある。従って、音声入力と手入力操作を併用することが要求され、操作性が必ずしもよいものとはいい難い。
【0004】
本発明は上記の課題を解決するためになされたものであり、音声入力により表示画面上に表示される入力フォームへの操作を効率的にかつ柔軟に実行することができる情報処理装置及びその方法、プログラムを提供することを目的とする。
【課題を解決するための手段】
【0005】
上記の目的を達成するための本発明による情報処理装置は以下の構成を備える。即ち、
入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理装置であって、
前記入力フォームに関する入力フォーム情報を記憶する記憶手段と、
前記入力された音声を認識する音声認識手段と、
前記音声認識手段の音声認識結果に対応する入力フォーム情報を選択する選択手段と
を備える。
【0006】
また、好ましくは、前記選択手段で選択された入力フォーム情報に対応する入力フォームの表示形態を制御する表示制御手段を更に備える。
【0007】
また、好ましくは、前記入力フォーム情報は、前記入力フォームの入力フォーム名を含む。
【0008】
また、好ましくは、前記入力フォーム情報は、前記入力フォームの位置を示す配置情報を含む。
【0009】
また、好ましくは、前記表示制御手段は、前記選択手段で選択された入力フォーム情報に対応する入力フォームを、それ以外の入力フォームの第1表示形態とは異なる第2表示形態で表示する。
【0010】
また、好ましくは、前記表示制御手段は、前記選択手段で選択された入力フォーム情報に対応する入力フォームを前記表示画面上の中央部分に表示する。
【0011】
また、好ましくは、前記選択手段による選択が確定した場合、その旨を報知する報知手段と
を更に備える。
【0012】
また、好ましくは、前記入力フォーム情報は、前記入力フォームの入力フォーム名及び該入力フォームの位置を示す配置情報を含み、
前記音声認識手段の音声認識結果が、前記入力フォーム名あるいは前記配置情報のどちらに対応するかを判定する判定手段と、
前記選択手段は、前記判定手段の判定結果に基づいて、前記音声認識手段の音声認識結果に対応する入力フォーム情報を選択する。
【0013】
また、好ましくは、前記入力フォーム情報は、前記入力フォームの位置を示す配置情報を含み、
前記音声認識手段は、前記配置情報を特定するための音声を認識するための音声認識文法データを用いて、前記入力された音声を認識する。
【0014】
また、好ましくは、前記音声認識文法データは、前記入力フォームの相対的な位置を示す相対位置表現及び絶対的な位置を示す絶対位置表現の少なくとも一方を認識するためのデータを含む。
【0015】
また、好ましくは、前記音声認識文法データは、前記絶対位置表現が前記入力フォームを含むコンテンツ全体あるいは前記表示画面上の表示範囲に対するものであるかを認識するためデータを含む。
【0016】
また、好ましくは、前記入力フォームがハイパーテキスト文書で実現されている場合、前記入力フォーム情報は、該入力フォームを示すタグを含む。
【0017】
また、好ましくは、前記ハイパーテキスト文書には、前記音声認識手段による音声認識を実行するためのタグが記述されている。
【0018】
上記の目的を達成するための本発明による情報処理方法は以下の構成を備える。即ち、
入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理方法であって、
前記入力された音声を認識する音声認識工程と、
前記音声認識工程の音声認識結果に対応する、前記入力フォームに関する入力フォーム情報を選択する選択工程と
を備える。
【0019】
上記の目的を達成するための本発明によるプログラムは以下の構成を備える。即ち、
入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理をコンピュータに機能させるためのプログラムであって、
前記入力された音声を認識する音声認識工程のプログラムコードと、
前記音声認識工程の音声認識結果に対応する、前記入力フォームに関する入力フォーム情報を選択する選択工程のプログラムコードと、
前記選択工程で選択された入力フォーム情報に対応する入力フォームの表示形態を制御する表示制御工程のプログラムコードと、
を備える。
【発明を実施するための最良の形態】
【0020】
以下、図面を参照して本発明の好適な実施形態を詳細に説明する。
【0021】
図1は本発明の各実施形態に係る情報処理装置のハードウエアの構成例を示すブロック図である。
【0022】
情報処理装置において、1は、GUIを表示するためのディスプレイ装置である。2は、数値演算・制御等の処理を行うCPU等の中央処理装置である。3は、後述する各実施形態の処理手順や処理に必要な一時的なデータおよびプログラム、若しくは、音声認識用文法データや音声モデル等の各種データを格納する記憶装置である。この記憶装置3は、ディスク装置等の外部メモリ装置若しくはRAM・ROM等の内部メモリ装置からなる。
【0023】
5は、ユーザが発声する音声を入力するマイクである。4は、マイク5から入力された音声データをアナログ信号からデジタル信号へ変換するA/D変換装置である。6は、ネットワークを介して、Webサーバ等の外部装置とデータの送受信を行う通信装置である。7は、バスであり、情報処理装置の各種構成要素を相互に接続する。
<実施形態1>
図2は本発明の実施形態1の情報処理装置の機能構成図である。
【0024】
101は、HTML文書等のマークアップ言語等の記述言語の記述からなるハイパーテキスト文書で実現されるGUIで表示するコンテンツを保持するコンテンツ保持部である。102は、コンテンツ保持部101に保持されたコンテンツをGUI表示するブラウザ等のGUI表示部である。103は、GUI表示部102に表示された各種コンテンツ上のフォーカスが当たっている入力フォームを保持するフォーカス保持部である。104は、GUI表示部102に表示されたコンテンツ上の入力フォーム名(表記)を切り出し、その読みを付与するフォーム名生成部である。このフォーム名生成部104で生成された入力フォーム名及びその読みは、フォーム名保持部105に保持される。加えて、その読みは、移動認識用文法データとして、各入力フォーム名とその読みが認識用文法106に保持される。
【0025】
ここで、図3は、各入力フォーム名(表記)とその読みとを対応づけた、入力フォームに関する情報を管理する入力フォーム情報テーブルの一例を示す図である。図3において、入力フォーム情報テーブルで使用される表記は、単なる例示であり、他のタイプの表記が入力フォーム情報テーブルで使用することができる。
【0026】
図4は、認識用文法106の構成図である。
【0027】
認識用文法106は、図4に示すように、フォーカスを当てる入力フォームを音声入力により選択するための移動認識用文法データ、ユーザへの確認に対する応答やヘルプ要求等の各種操作に対する操作制御認識用文法データ、入力フォームへ音声入力される内容を認識するための項目値認識用文法データの3つの音声認識用文法データで構成される。これらの音声認識用文法データは、一つのファイルにまとめて構成されてもよいし、それぞれが別々のファイルとして構成されてもよい。
【0028】
尚、ここでいう音声認識文法データとは、単語音声認識の場合、単語の表記や読みを記述した単語リスト、連続音声認識の場合、CFG(文脈自由文法)を基本としたネットワーク文法など、一般的に音声認識で用いられるものを挙げることができる。
【0029】
図2の説明に戻る。
【0030】
107は、マイク5と、そのマイク5から入力された音声データをA/D変換するA/D変換装置4とからなる音声入力部である。108は、認識用文法106に保持された音声認識用文法データを読み出し、音声入力部107から入力されたデジタル信号から音声認識を行う音声認識部である。109は、音声認識部108の音声認識結果が入力フォーム名である場合に、フォーカス保持部103を参照して、GUI表示部102に表示されたフォーカス位置を変更するフォーカス位置変更部である。
【0031】
次に、実施形態1の情報処理装置が実行する処理について、図5を用いて説明する。
【0032】
図5は本発明の実施形態1の情報処理装置が実行する処理を示すフローチャートである。
【0033】
尚、図5のフローチャートの各ステップの操作は、例えば、プログラムとして記憶装置3に格納されており、中央処理装置2がそのプログラムを読み出して実行する。
【0034】
ステップS1で、GUI表示部102は、表示対象の複数の入力フォームを含むGUIをディスプレイ装置1上に表示する。GUIの表示は、HTMLデータのようなマークアップ言語で記述された外部データを読み込んできて表示しても良いし、専用プログラムのみで表示しても構わない。
【0035】
ここで、GUIの一例について、図6を用いて説明する。
【0036】
図6は、ディスプレイ装置1上に表示される複数の入力フォームを含むGUIの例である。このGUIは、ユーザに関するユーザ情報である個人登録データの登録(入力/変更)用GUIを想定したもので、図6上の矩形枠それぞれが各種入力フォームである。例えば、入力フォーム6は、文字列データとしてID番号を入力するための入力フォームである。それ以外にも、入力フォーム7、9〜13、及び15〜22それぞれが、各種文字列データを入力する入力フォームである。入力フォーム8及び14は、予め用意された選択肢データ(男、女、会社員等)から所望の選択肢データを選択するラジオボタン型の入力フォームである。ボタン23は、例えば、アプリケーションに、GUI上で各種入力フォームに入力される各種データを送信するためのボタンである。
【0037】
これらの各入力フォームは、ディスプレイ装置1に表示する際に、フォーム名生成部103により、その入力フォーム名と読みが生成され、上述したように、フォーム名保持部104と認識用文法106に入力フォーム情報テーブルとして格納される。
【0038】
尚、このフォーム名生成部103によって実行される入力フォーム名を生成する処理は、WebサーバとWebブラウザを搭載するクライアントのようなサーバ・クライアント型のGUI表示構成をとる場合に、Webサーバ側で各コンテンツに対して、予め実行しておいても構わないし、クライアント側のWebブラウザ上で動的に実行するようにしても構わない。
【0039】
また、実施形態1では、データの入力対象となっている(以下、フォーカスが当たっているともいう)入力フォームを破線(第1表示形態)で、フォーカスが当たっていない入力フォームを実線(第2表示形態)で示す。図6では、入力フォーム6にフォーカスが当たっている例を示している。
【0040】
また、図6に示した個人登録データの登録用GUIは、その個人登録データを変更する場合を説明するための例であり、既に変更前の個人登録データが存在することを想定している。個人登録データを変更する場合には、例えば、図7に示すように、入力フォーム6にID番号(例えば、1234)を入力して、送信ボタン23を押下すると、図8に示すように、そのID番号に対応する現在登録されている個人登録データが表示されるとともに、例えば、入力フォーム9にフォーカスが当たる。
【0041】
図5の説明に戻る。
【0042】
次に、ステップS2で、音声認識部108は、記憶装置3に格納された認識文法6から各種音声認識用文法データを読み出す。音声認識用文法データには、上述したように、フォーカスを当てる入力フォームを音声入力により選択するための移動認識用文法データと、操作制御認識用文法データ、現在フォーカスが当たっている入力フォームへの音声入力を認識するための項目値認識用文法データ、とがある。
【0043】
ステップS3で、音声入力部107は、音声入力を開始する。ユーザの発声した音声はマイク5で電気信号に変換され、さらにA/D変換装置4によりデジタル信号(音声データ)に変換される。
【0044】
ステップS4で、音声認識部108は、読み込んだ各種音声認識文法データを用いて、入力された音声データの音声認識を実行する。この場合、移動認識用文法データと項目値認識用文法データとをそれぞれ用いて、音声認識を行う。これら2つの音声認識用文法データを利用しているため、それぞれの音声認識用文法データから音声認識結果が得られるが、これを尤度など音声認識の確からしさを示す数値により比較し、より確からしさが高い音声認識結果を最終的な音声認識結果として選択する。
【0045】
ステップS5で、音声認識結果が入力フォームの選択であるか否かを判定する。つまり、移動認識用文法データによる音声認識結果の尤度が項目値認識用文法データによる音声認識結果の尤度より高いか否かを判定する。入力フォームの選択でない場合(ステップS5でNO)、ステップS8に進み、フォーカスが当たっている入力フォームへ入力された音声データの音声認識結果を表示する。この処理については、従来技術と同様なので説明を省略する。一方、入力フォームの選択である場合(ステップS5でYES)、ステップS6に進む。
【0046】
ステップS6で、音声認識結果(入力フォーム名)に対応する入力フォームを選択する。例えば、音声認識結果として「所属」や「所在地」といった入力フォーム名が得られた場合は、ステップS5からこのステップS6の処理へ移行し、音声認識結果に対応する入力フォーム名に該当する入力フォームを特定する。一例として、音声認識結果が「所属」であった場合のディスプレイ装置1のGUIの例を図9に示す。
【0047】
ステップS7で、選択確認動作を行う。これは、選択された入力フォームをユーザに示す確認処理である。例えば、選択された入力フォームをフラッシュ(ある一定時間フォームの色を変える)する等して選択されていない入力フォームと区別がつくように、その表示形態を変更する表示制御を実行したり、選択された入力フォームが表示画面の中央に現れるように、画面をスクロールする等の表示制御を実行する。それ以外に、ビープ音などの音を鳴らして、入力フォームが選択された旨を示す報知を実行しても良い。
【0048】
以上説明したように、実施形態1によれば、ユーザが入力フォーム名を発声すると、その発声を音声認識して得られる音声認識結果に対応する入力フォームをデータの入力対象として選択することができる。これにより、キーボードやマウス等により入力フォームを選択する必要がなくなり、専ら音声入力だけで、GUIに対する入力フォームの選択やデータ入力が可能となり、従来に比べてよりGUIに対する操作性を向上することができる。
<実施形態2>
実施形態1では、入力フォーム名がユーザにより発声された場合に、これを音声認識して得られる音声認識結果から、データの入力対象の入力フォームを選択する構成について説明したが、入力フォームの相対的な位置を示す相対位置表現、例えば、「3つ上」や「2つ下」がユーザから発声された場合に、これを音声認識して得られる音声認識結果から、データの入力対象の入力フォームを選択する構成にすることもできる。
【0049】
この場合の実施形態にかかる情報処理装置の機能構成について、図10に示す。
【0050】
図10は本発明の実施形態2の情報処理装置の機能構成図である。
【0051】
図10においては、実施形態1の図2のコンテンツ保持部101、GUI表示部102、認識用文法106、音声入力部107及び音声認識部108に加えて、相対位置表現が発声された場合に、フォーカス位置を変更するフォーカス位置変更部109、現在フォーカスが当たっている入力フォームの位置を保持するフォーカス位置保持部111、入力フォーム名及びその位置を示す配置情報を生成する配置関係生成部112、配置関係生成部112で保持された入力フォーム名及び配置情報を保持する配置関係保持部113、そして、発声された内容が相対位置表現であるか否かを判定する相対位置判定部114を有している。
【0052】
配置関係生成部112で生成される各入力フォーム名とその配置情報は、記憶装置3に入力フォーム情報テーブルとして格納される。図11はその一例を示す図であり、各入力フォーム名と、その配置情報(例えば、GUI上の左上角を原点とした場合の縦、横の位置座標)とを対応づけた入力フォーム情報テーブルで管理されている。この入力フォーム情報テーブルは、コンテンツ表示時に、コンテンツの内容を解析して生成される。また、ネットワーク経由でWebサーバ等の外部装置からコンテンツを配信する場合は、コンテンツ提供者側で入力フォーム情報テーブルをあらかじめ作成しておいて、コンテンツ送信時にあわせて送信する構成であってもよい。加えて、この配置関係生成部112によって実行される入力フォーム名とその配置情報を生成する処理は、Webサーバとブラウザのようなサーバ・クライアント型のGUI表示構成をとる場合に、サーバ側で各コンテンツに対して、予め生成しておいても構わないし、クライアント側のブラウザで動的に生成するようにしても構わない。
【0053】
また、実施形態2においては、図11における認識用文法106中における移動認識用文法データには、相対位置表現を音声認識するために必要なデータが含まれ、例えば、数字や「番目」、「上」、「下」、「右」、「左」、「から」等を認識するためのデータが管理されている。
【0054】
次に、実施形態2の情報処理装置が実行する処理について、図12を用いて説明する。
【0055】
図12は本発明の実施形態2の情報処理装置が実行する処理を示すフローチャートである。
【0056】
尚、図12では、実施形態1の図5のフローチャートと異なる部分だけを示す。
【0057】
ステップS4で、音声認識部108は、読み込んだ認識用文法106を参照して、入力された音声データの音声認識を実行すると、ステップS70で、相対位置判定部114は、その音声認識結果が相対位置表現であるか否かを判定する。つまり、移動認識用文法データによる音声認識結果の尤度が項目値認識用文法データによる音声認識結果の尤度より高いか否かを判定する。特に、移動認識用文法データによる音声認識結果の尤度が、それ以外の音声認識用文法データによる音声認識結果の尤度よりも高い場合に、相対位置表現であると判定する。
【0058】
ステップS71において、相対位置表現でない場合(ステップS70でNO)、ステップS8に進む。一方、相対位置表現である場合(ステップS70でYES)、ステップS71に進み、フォーカス位置変更部109にて、相対位置表現により示された入力フォームを決定する。ここでは、フォーカス位置保持部111に保持されている、現在フォーカスがあたっている入力フォームの配置情報と、配置関係保持部113と、相対位置表現の音声認識結果を用いて、入力フォームを決定する。
【0059】
例えば、現在フォーカスが当たっている入力フォームが入力フォーム16(図9)であるとすると、フォーカス位置保持部111では、その対応する入力フォーム名「所属」の配置情報(8、1)(図11)が保持されていることになる。そして、ユーザが発声した音声の音声認識結果が「3つ上」であるとすると、図11の入力フォーム情報テーブルをもとに、フォーカスの移動先として(5、1)を決定する。これによって、フォーカス位置保持部111で保持される配置情報が(5、1)に更新される。その結果、図13に示すように、フォーカスが入力フォーム16から入力フォーム12に当てられることになる。
【0060】
以上説明したように、実施形態2によれば、ユーザが入力フォームの相対的な位置を示す相対位置表現を発声すると、その発声を音声認識して得られる音声認識結果に対応する入力フォームをデータの入力対象として選択することができる。これにより、キーボードやマウス等により入力フォームを選択する必要がなくなり、専ら音声入力だけで、GUIに対する入力フォームの選択やデータ入力が可能となり、従来に比べてよりGUIに対する操作性を向上することができる。また、実施形態1に比べて、入力フォーム名を発声せずに、より簡単な音声表現で入力フォームを選択することが可能になり、より柔軟で精度の高い音声入力による入力フォームの選択を実現することができる。
<実施形態3>
実施形態2では、相対位置表現によって入力フォームを選択する構成について説明したが、例えば、ユーザから「上から5番目」や「下から2番目」のような、絶対的な位置を示す絶対位置表現により、入力フォームを選択する構成も可能である。
【0061】
この場合の実施形態にかかる情報処理装置の機能構成について、図14に示す。
【0062】
図14は本発明の実施形態3の情報処理装置の機能構成図である。
【0063】
図14においては、実施形態1の図2のコンテンツ保持部101、GUI表示部102及び認識用文法106、音声入力部107及び音声認識部108、実施形態2の図10のフォーカス位置変更部109、配置関係生成部112、配置関係保持部113に加えて、絶対位置判定部121と表示範囲保持部122が構成されている。この絶対位置判定部121は、図10の相対位置判定部114と同様な機能を実現するものであり、発声された内容が絶対位置表現であるか否かを判定するものである。尚、表示範囲保持部122の実施形態4として、その詳細については、後述する。また、認識用文法106中の移動認識用文法データには、絶対位置表現を音声認識するために必要なデータが含まれ、例えば、「上から」、「下から」、「右から」、「左から」や、数字や「番目」等を認識するためのデータが管理されている。
【0064】
実施形態3の情報処理装置が実行する処理は、実施形態1の情報処理装置が実行する処理を応用したものであり、特に、実施形態1の図5のフローチャートのステップS6の処理においては、ユーザから発声された音声を認識し、絶対位置判定部121において、図11の入力フォーム情報テーブルを参照してフォーカスを当てる入力フォームを選択する。例えば、「下から2番目」とユーザから発声された場合には、図11の入力フォーム情報テーブルの縦位置の最大値が11であることから、縦位置が10である電話番号の入力フォームを選択し、その位置にフォーカスを移動し、ステップS7に進む。
【0065】
以上説明したように、実施形態3によれば、相対位置表現の代わりに絶対位置表現でも、入力フォームを選択することが可能になり、実施形態2と同様に、より柔軟で精度の高い音声入力による入力フォームの選択を実現することができる。
<実施形態4>
コンテンツをブラウザなどのウィンドウアプリケーションでみる場合や、携帯機器上など表示領域が狭い装置でみる場合などは、GUI表示部102においては、コンテンツの一部しか表示されず、マウスなどポインティングデバイスによりコンテンツを表示画面上でスクロールして見る場合がある。上述の各実施形態では、例えば、ユーザが「上から3番目」と発声すると、装置はコンテンツ全ての範囲での上から3番目のフォームをフォーカスすることになるが、例えば、表示画面上のコンテンツの表示範囲中の3番目のフォームをフォーカスすることも可能である。
【0066】
このような場合、図14の表示範囲保持部122に、GUI表示部102に現在表示されている表示範囲の配置情報を保持し、図5のステップS6の処理においては、絶対位置判定部121において、表示範囲内での絶対位置を判定するようにすればよい。
【0067】
また、表示範囲中の絶対位置表現であるのか、コンテンツ全体の絶対位置表現であるのかをユーザが明示的に発声することにより、どちらかを判別して、それに応じた動作をすることも可能である。この場合、図14の認識用文法106における移動認識用文法データには、これらの絶対位置表現を音声認識するために必要なデータが含まれ、実施形態3で示したデータに加えて、例えば、「全体の」、「表示範囲の」等を認識するためのデータが管理される。
【0068】
この場合、コンテンツ全体での絶対位置であるか、表示範囲保持部122における表示範囲での絶対位置であるかの判定は、「全体の上から3番目」や「表示範囲の上から3番目」などと明示された場合には、音声認識結果から判定が可能である。
【0069】
一方、コンテンツ全体での絶対位置であるのか、あるいは表示範囲での絶対位置であるかの指定が省略された場合には、曖昧性が生じる。その場合には、既定値としてどちらかに固定しても構わないし、直前に明示された方に動的に変更するものとしても構わない。動的に変更する場合には、どちらを選択するかを示す指定情報を表示範囲保持部122に保持することで実現が可能である。
【0070】
実施形態4の情報処理装置が実行する処理は、実施形態1の情報処理装置が実行する処理を応用したものであり、特に、実施形態1の図5のフローチャートのステップS6の処理においては、例えば、図6におけるコンテンツの内、入力フォーム9から入力フォーム18までがGUI表示部102に表示されている場合、表示範囲保持部122には、表示範囲の配置情報として左上(3、1)と右下(9、2)を保持する。
【0071】
そして、「下から2番目」とユーザから発声された場合に、絶対位置判定部121は、表示範囲保持部122と図11の入力フォーム情報テーブルを参照して、特に、表示範囲保持部122に、省略時に表示範囲を採用するよう設定されている場合には、表示範囲の下から2番目である入力フォーム名が「所属」の配置情報(8、1)を判定して、その位置にフォーカスを移動する。一方、表示範囲保持部122に省略時にコンテンツ全体を採用するよう設定されている場合には、全体の下から2番目である入力フォーム名が「電話番号」の配置情報(10、1)を判定して、その位置にフォーカスを移動する。
【0072】
以上説明したように、実施形態4によれば、コンテンツ全体での絶対位置表現/表示範囲での絶対位置表現を、明示的あるいは自動的に音声入力して、その音声入力によって入力フォームを選択することが可能となる。また、実施形態3で説明した効果に加えて、表示される表示範囲に応じたより柔軟で精度の高い音声入力による入力フォームの選択を実現することができる。
<実施形態5>
上記実施形態1乃至4における移動認識文法データは、各実施形態を実現するために必要なデータのみを管理する構成としたが、入力フォーム名、相対位置表現、絶対位置表現のいずれでも入力フォームを選択できるように移動認識文法データを構成することも可能である。
【0073】
この場合の実施形態にかかる情報処理装置の機能構成について、図15に示す。
【0074】
図15は本発明の実施形態5の情報処理装置の機能構成を示す図である。
【0075】
図15においては、実施形態1〜4それぞれの図2、図10、図14の各種構成要素に加えて、フォーカス位置の選択方法の種類(入力フォーム名、相対位置表現、絶対位置表現)を判定する位置選択方法判定部151を有している。
【0076】
次に、実施形態5の情報処理装置が実行する処理について、図16を用いて説明する。
【0077】
図16は本発明の実施形態5の情報処理装置が実行する処理を示すフローチャートである。
【0078】
尚、図16では、実施形態1の図5のフローチャートと異なる部分だけを示す。
【0079】
音声認識部108は、読み込んだ認識用文法106を参照して、入力された音声データの音声認識を実行すると、ステップS51で、位置選択方法判定部151において、フォーム名保持部105を参照して、音声認識結果が入力フォームの選択であるか否かを判定する。入力フォームの選択である場合(ステップS51でYES)、ステップS61に進み、実施形態1の図5のフローチャートのステップS6と同様の処理を実行する。一方、入力フォームの選択でない場合(ステップS51でNO)、ステップS52に進む。
【0080】
ステップS52で、位置選択方法判定部151において、音声認識結果が相対位置表現であるか否かを判定する。この判定は、例えば、音声認識結果の末尾が位置表現(例えば、「上」、「下」、「右」、「左」)である場合に、音声認識結果を相対位置表現と判定する。
【0081】
ステップS52において、相対位置表現である場合(ステップS52でYES)、ステップS62に進み、実施形態2の図12のステップS71及びステップS72と同様の処理を実行する。一方、相対位置表現でない場合(ステップS52でNO)、ステップS53に進む。
【0082】
ステップS53で、位置選択方法判定部151において、音声認識結果が絶対位置表現であるか否かを判定する。この判定は、例えば、音声認識結果の先頭が位置表現(例えば、「上から」、「下から」、「右から」、「左から」もしくは「全体の」、「表示範囲の」およびその同義語)である場合に、音声認識結果を絶対位置表現と判定する。
【0083】
ステップS53において、絶対位置表現である場合(ステップS53でYES)、ステップS63に進み、実施形態3や実施形態4で説明した絶対位置表現によるフォーカス位置を変更する処理を実行する。一方、絶対位置表現でない場合(ステップS53でNO)、ステップS8に進む。
【0084】
尚、本実施形態5では、入力フォーム名、相対位置、絶対位置のいずれかによる選択方法によってフォーカス位置の選択が可能な構成について説明したが、そのうちの任意の2つ以上の選択方法を用いて、フォーカス位置の選択が可能な構成が実現可能であることは言うまでもない。
【0085】
以上説明したように、実施形態5によれば、実施形態1乃至4で説明される効果に加えて、複数種類の選択方法による入力フォームの選択を音声入力で可能にすることで、より柔軟で様々な装置に適用可能な音声入力による入力フォームの選択環境を実現することができる。
<実施形態6>
コンテンツ保持部101に保持されるコンテンツがマークアップ言語で記述される場合、配置関係保持部113には、入力フォームを示すタグの種類を保持し、「n番目の(タグ名)」というような音声入力によって入力フォームを選択する構成にすることもできる。このような構成の場合の配置関係保持部113に保持される入力フォーム情報テーブルの内容を図17に示す。この場合には、絶対位置判定部121において、1番目のラジオボタンが性別、2番目のラジオボタンが職業と認識され、「2番目のラジオボタン」とユーザが音声入力した場合には、職業にフォーカスを移動して、ステップS7に進むことになる。
【0086】
尚、配置関係保持部113に保持されるタグの種類は、「input」や「radio」に限定されず、例えば、メニューを示す「select」タグやリンク先を示す「a」タグを保持しても同様の処理が可能である。
【0087】
以上説明したように、実施形態6によれば、入力フォームを示すタグの種類によって、入力フォームの選択を音声入力で可能にすることで、より柔軟な音声入力による入力フォームの選択を実現することができる。
<実施形態7>
コンテンツをマークアップ言語で記述する場合、例えば、センタリングを示す「center」タグや改行を示す「br」タグなど、音声認識による入力に使用しないタグも多数存在する。
【0088】
そこで、上記実施形態6において、音声認識でフォーカス移動に使用するタグの種類を、音声認識を宣言する部分において羅列しても構わない。
【0089】
図18にマークアップ言語を用いて音声認識を実行するためのタグの一例を示す。図18では、実施形態7に関わる音声認識のタグの一例であり、『<SpeechRecog …>』が音声認識による入力を実行するための記述である。
【0090】
実施形態7におけるGUI表示部102においては、『<SpeechRecog …>』は、「音声認識して、その音声認識結果を表示する」と解釈するものとする。また、音声認識で使用する認識用文法106および音声認識でフォーカス移動に使用するタグの種類の羅列をそれぞれ『grammar』、『used_tag』で指定することが可能である。この例では、『<SpeechRecog …>』というタグによって、認識文法辞書『command.grm』を使用し、「input」タグ、「radio」タグ、「a」タグの3種類のタグをフォーカス移動に用いることを宣言している。
【0091】
以上説明したように、実施形態7によれば、音声認識を実行するためのタグをコンテンツ中にまとめて記述することで、コンテンツ中のタグにおいて、音声認識を実行するタグの判定をより効率的に実行することができる。また、コンテンツ毎に音声認識を実行するためのタグを記述しているので、入力フォームを示すタグの種類によって入力フォームの選択を音声入力で可能にする場合にも、配置関係保持部113に図17の入力フォーム情報テーブルを保持する必要がなくなり、記憶資源を節約することができる。
【0092】
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図に示すフローチャートに対応したプログラム)を、システム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。その場合、プログラムの機能を有していれば、形態は、プログラムである必要はない。
【0093】
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【0094】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
【0095】
プログラムを供給するための記録媒体としては、例えば、フロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
【0096】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
【0097】
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【0098】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
【0099】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。
【図面の簡単な説明】
【0100】
【図1】本発明の各実施形態に係る情報処理装置のハードウエアの構成例を示すブロック図である。
【図2】本発明の実施形態1の情報処理装置の機能構成図である。
【図3】本発明の実施形態1の入力フォーム情報テーブルの一例を示す図である。
【図4】本発明の実施形態1の認識用文法の構成を示す図である。
【図5】本発明の実施形態1の情報処理装置が実行する処理を示すフローチャートである。
【図6】本発明の実施形態1のGUIの例を示す図である。
【図7】本発明の実施形態1のGUIの例を示す図である。
【図8】本発明の実施形態1のGUIの例を示す図である。
【図9】本発明の実施形態1のGUIの例を示す図である。
【図10】本発明の実施形態2の情報処理装置の機能構成図である。
【図11】本発明の実施形態2の入力フォーム情報テーブルの一例を示す図である。
【図12】本発明の実施形態2の情報処理装置が実行する処理を示すフローチャートである。
【図13】本発明の実施形態2のGUIの例を示す図である。
【図14】本発明の実施形態3の情報処理装置の機能構成図である。
【図15】本発明の実施形態5の情報処理装置の機能構成を示す図である。
【図16】本発明の実施形態5の情報処理装置が実行する処理を示すフローチャートである。
【図17】本発明の実施形態6の入力フォーム情報テーブルの一例を示す図である。
【図18】本発明の実施形態7のマークアップ言語を用いて音声認識を実行するためのタグの一例を示す図である。

Claims (32)

  1. 入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理装置であって、
    前記入力フォームに関する入力フォーム情報を記憶する記憶部と、
    前記入力された音声を認識する音声認識部と、
    前記音声認識部の音声認識結果に対応する入力フォーム情報を選択する選択部と
    を備えることを特徴とする情報処理装置。
  2. 前記選択部で選択された入力フォーム情報に対応する入力フォームの表示形態を制御する表示制御部を更に備える、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記入力フォーム情報は、前記入力フォームの入力フォーム名を含む
    ことを特徴とする請求項1に記載の情報処理装置。
  4. 前記入力フォーム情報は、前記入力フォームの位置を示す配置情報を含む
    ことを特徴とする請求項1に記載の情報処理装置。
  5. 前記表示制御部は、前記選択部で選択された入力フォーム情報に対応する入力フォームを、それ以外の入力フォームの第1表示形態とは異なる第2表示形態で表示する
    ことを特徴とする請求項1に記載の情報処理装置。
  6. 前記表示制御部は、前記選択部で選択された入力フォーム情報に対応する入力フォームを前記表示画面上の中央部分に表示する
    ことを特徴とする請求項1に記載の情報処理装置。
  7. 前記選択部による選択が確定した場合、その旨を報知する報知部と
    を更に備えることを特徴とする請求項1に記載の情報処理装置。
  8. 前記入力フォーム情報は、前記入力フォームの入力フォーム名及び該入力フォームの位置を示す配置情報を含み、
    前記音声認識部の音声認識結果が、前記入力フォーム名あるいは前記配置情報のどちらに対応するかを判定する判定部と、
    前記選択部は、前記判定部の判定結果に基づいて、前記音声認識部の音声認識結果に対応する入力フォーム情報を選択する
    ことを特徴とする請求項1に記載の情報処理装置。
  9. 前記入力フォーム情報は、前記入力フォームの位置を示す配置情報を含み、
    前記音声認識部は、前記配置情報を特定するための音声を認識するための音声認識文法データを用いて、前記入力された音声を認識する
    ことを特徴とする請求項1に記載の情報処理装置。
  10. 前記音声認識文法データは、前記入力フォームの相対的な位置を示す相対位置表現及び絶対的な位置を示す絶対位置表現の少なくとも一方を認識するためのデータを含む
    ことを特徴とする請求項9に記載の情報処理装置。
  11. 前記音声認識文法データは、前記絶対位置表現が前記入力フォームを含むコンテンツ全体あるいは前記表示画面上の表示範囲に対するものであるかを認識するためデータを含む
    ことを特徴とする請求項9に記載の情報処理装置。
  12. 前記入力フォームがハイパーテキスト文書で実現されている場合、前記入力フォーム情報は、該入力フォームを示すタグを含む
    ことを特徴とする請求項1に記載の情報処理装置。
  13. 前記ハイパーテキスト文書には、前記音声認識部による音声認識を実行するためのタグが記述されている
    ことを特徴とする請求項12に記載の情報処理装置。
  14. 入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理方法であって、
    前記入力された音声を認識する音声認識工程と、
    前記音声認識工程の音声認識結果に対応する、前記入力フォームに関する入力フォーム情報を選択する選択工程と
    を備えることを特徴とする情報処理方法。
  15. 前記選択工程で選択された入力フォーム情報に対応する入力フォームの表示形態を制御する表示制御工程を更に備える
    ことを特徴とする請求項14に記載の情報処理方法。
  16. 前記入力フォーム情報は、前記入力フォームの入力フォーム名を含む
    ことを特徴とする請求項14に記載の情報処理方法。
  17. 前記入力フォーム情報は、前記入力フォームの位置を示す配置情報を含む
    ことを特徴とする請求項14に記載の情報処理方法。
  18. 前記表示制御工程は、前記選択工程で選択された入力フォーム情報に対応する入力フォームを、それ以外の入力フォームの第1表示形態とは異なる第2表示形態で表示する
    ことを特徴とする請求項14に記載の情報処理方法。
  19. 前記表示制御工程は、前記選択工程で選択された入力フォーム情報に対応する入力フォームを前記表示画面上の中央部分に表示する
    ことを特徴とする請求項14に記載の情報処理方法。
  20. 前記選択工程による選択が確定した場合、その旨を報知する報知工程と
    を更に備えることを特徴とする請求項14に記載の情報処理方法。
  21. 前記入力フォーム情報は、前記入力フォームの入力フォーム名及び該入力フォームの位置を示す配置情報を含み、
    前記音声認識工程の音声認識結果が、前記入力フォーム名あるいは前記配置情報のどちらに対応するかを判定する判定工程と、
    前記選択工程は、前記判定工程の判定結果に基づいて、前記音声認識工程の音声認識結果に対応する入力フォーム情報を選択する
    ことを特徴とする請求項14に記載の情報処理方法。
  22. 前記入力フォーム情報は、前記入力フォームの位置を示す配置情報を含み、
    前記音声認識工程は、前記配置情報を特定するための音声を認識するための音声認識文法データを用いて、前記入力された音声を認識する
    ことを特徴とする請求項14に記載の情報処理方法。
  23. 前記音声認識文法データは、前記入力フォームの相対的な位置を示す相対位置表現及び絶対的な位置を示す絶対位置表現の少なくとも一方を認識するためのデータを含む
    ことを特徴とする請求項22に記載の情報処理方法。
  24. 前記音声認識文法データは、前記絶対位置表現が前記入力フォームを含むコンテンツ全体あるいは前記表示画面上の表示範囲に対するものであるかを認識するためデータを含む
    ことを特徴とする請求項22に記載の情報処理方法。
  25. 前記入力フォームがハイパーテキスト文書で実現されている場合、前記入力フォーム情報は、該入力フォームを示すタグを含む
    ことを特徴とする請求項14に記載の情報処理方法。
  26. 前記ハイパーテキスト文書には、前記音声認識工程による音声認識を実行するためのタグが記述されている
    ことを特徴とする請求項25に記載の情報処理方法。
  27. 入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理をコンピュータに機能させるためのプログラムであって、
    前記入力された音声を認識する音声認識工程のプログラムコードと、
    前記音声認識工程の音声認識結果に対応する、前記入力フォームに関する入力フォーム情報を選択する選択工程のプログラムコードと
    を備えることを特徴とするプログラム。
  28. 入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理装置であって、
    前記入力フォームに関する入力フォーム情報を記憶する記憶部と、
    前記入力された音声を認識する音声認識部と、
    前記音声認識部の音声認識結果に対応する入力フォーム情報を選択する選択部と
    を備えることを特徴とする情報処理装置。
  29. 入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理装置であって、
    前記入力された音声を認識する音声認識手段と、
    前記音声認識手段による音声認識結果が入力フォームの選択であるか否かを判定する判定部と、
    前記判定手段によって前記入力フォームの選択であると判定された場合、前記音声認識結果に対応する入力フォームを選択する選択手段と、
    前記判定手段によって前記入力フォームの選択でないと判定された場合、選択されている入力フォームに前記音声認識結果を表示する表示手段と
    を備えることを特徴とする情報処理装置。
  30. 入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理方法であって、
    前記入力された音声を認識する音声認識工程と、
    前記音声認識工程による音声認識結果が入力フォームの選択であるか否かを判定する判定工程と、
    前記判定工程によって前記入力フォームの選択であると判定された場合、前記音声認識結果に対応する入力フォームを選択する選択工程と、
    前記判定工程によって前記入力フォームの選択でないと判定された場合、選択されている入力フォームに前記音声認識結果を表示する表示工程と
    を備えることを特徴とする情報処理方法。
  31. 入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理をコンピュータに機能させるためのプログラムであって、
    前記入力された音声を認識する音声認識工程のプログラムコードと、
    前記音声認識工程による音声認識結果が入力フォームの選択であるか否かを判定する判定工程のプログラムコードと、
    前記判定工程によって前記入力フォームの選択であると判定された場合、前記音声認識結果に対応する入力フォームを選択する選択工程のプログラムコードと、
    前記判定工程によって前記入力フォームの選択でないと判定された場合、選択されている入力フォームに前記音声認識結果を表示する表示工程のプログラムコードと
    を備えることを特徴とするプログラム。
  32. 入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理装置であって、
    前記入力された音声を認識する音声認識部と、
    前記音声認識部による音声認識結果が入力フォームの選択であるか否かを判定する判定部と、
    前記判定部によって前記入力フォームの選択であると判定された場合、前記音声認識結果に対応する入力フォームを選択する選択部と、
    前記判定部によって前記入力フォームの選択でないと判定された場合、選択されている入力フォームに前記音声認識結果を表示する表示部と
    を備えることを特徴とする情報処理装置。
JP2002575778A 2001-03-22 2002-03-19 情報処理装置及びその方法、プログラム Expired - Fee Related JP4006338B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001083038 2001-03-22
JP2001386192 2001-12-19
PCT/JP2002/002584 WO2002077790A2 (en) 2001-03-22 2002-03-19 Information processing apparatus and method, and program

Publications (3)

Publication Number Publication Date
JP2005500591A true JP2005500591A (ja) 2005-01-06
JP2005500591A5 JP2005500591A5 (ja) 2005-06-09
JP4006338B2 JP4006338B2 (ja) 2007-11-14

Family

ID=26611818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002575778A Expired - Fee Related JP4006338B2 (ja) 2001-03-22 2002-03-19 情報処理装置及びその方法、プログラム

Country Status (9)

Country Link
US (1) US7165034B2 (ja)
EP (1) EP1405169B1 (ja)
JP (1) JP4006338B2 (ja)
KR (1) KR100549482B1 (ja)
CN (1) CN1291307C (ja)
AT (1) ATE345526T1 (ja)
AU (1) AU2002238961A1 (ja)
DE (1) DE60216096T2 (ja)
WO (1) WO2002077790A2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014002795A (ja) * 2013-10-07 2014-01-09 Toshiba Corp 電子機器、表示方法、およびプログラム
KR20170139644A (ko) * 2015-05-27 2017-12-19 애플 인크. 디바이스 음성 제어
WO2018034028A1 (ja) * 2016-08-16 2018-02-22 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2018045460A (ja) * 2016-09-14 2018-03-22 株式会社東芝 入力支援装置およびプログラム
JP2019133165A (ja) * 2013-01-07 2019-08-08 三星電子株式会社Samsung Electronics Co.,Ltd. 対話型サーバ、ディスプレイ装置及びその制御方法
JP2020112932A (ja) * 2019-01-09 2020-07-27 キヤノン株式会社 情報処理システム、情報処理装置、制御方法、プログラム
JP2020201911A (ja) * 2019-06-13 2020-12-17 キヤノン株式会社 情報処理システム、情報処理装置、情報処理方法
JP7383667B2 (ja) 2021-07-16 2023-11-20 株式会社東芝 情報処理装置、方法およびプログラム
JP7388272B2 (ja) 2020-03-31 2023-11-29 ブラザー工業株式会社 情報処理装置、情報処理方法及びプログラム
US11838459B2 (en) 2019-06-07 2023-12-05 Canon Kabushiki Kaisha Information processing system, information processing apparatus, and information processing method

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3542578B2 (ja) * 2001-11-22 2004-07-14 キヤノン株式会社 音声認識装置及びその方法、プログラム
US7509260B2 (en) * 2004-09-20 2009-03-24 International Business Machines Corporation Systems and methods for inputting graphical data into a graphical input field
JP2008035494A (ja) * 2006-06-30 2008-02-14 Ricoh Co Ltd 画像処理装置及び画像処理方法
US8612230B2 (en) * 2007-01-03 2013-12-17 Nuance Communications, Inc. Automatic speech recognition with a selection list
CN102156538A (zh) * 2011-03-15 2011-08-17 北京航空航天大学 一种通过语音识别技术控制鼠标操作完成人机交互的方法
CN103235643A (zh) * 2013-04-09 2013-08-07 青岛旲天下智能科技有限公司 采用声控式的人机交互设备
CN104735634B (zh) * 2013-12-24 2019-06-25 腾讯科技(深圳)有限公司 一种关联支付账号管理方法、移动终端、服务器以及***
JP6642424B2 (ja) * 2014-06-03 2020-02-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
CN106713111B (zh) * 2015-11-17 2020-04-07 腾讯科技(深圳)有限公司 一种添加好友的处理方法、终端及服务器
CN108279839A (zh) * 2017-01-05 2018-07-13 阿里巴巴集团控股有限公司 基于语音的交互方法、装置、电子设备及操作***
CN107168551A (zh) * 2017-06-13 2017-09-15 重庆小雨点小额贷款有限公司 一种表单填写的输入方法
CN107240400B (zh) * 2017-07-03 2020-08-11 重庆小雨点小额贷款有限公司 终端操作方法及装置
CN108287815A (zh) * 2017-12-29 2018-07-17 重庆小雨点小额贷款有限公司 信息录入方法、装置、终端及计算机可读存储介质
KR102519635B1 (ko) 2018-01-05 2023-04-10 삼성전자주식회사 음성 명령을 처리하기 위한 전자 문서 표시 방법 및 그 전자 장치
CN108664199A (zh) * 2018-05-07 2018-10-16 平安普惠企业管理有限公司 表单填写方法、装置、设备及计算机可读存储介质
CN110839998A (zh) * 2019-09-30 2020-02-28 佛山市威格特电气设备有限公司 智能安全帽语音填写作业表单方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4710763A (en) * 1984-10-19 1987-12-01 Texas Instruments Incorporated Method for generating and displaying tree structures in a limited display area
US5787414A (en) * 1993-06-03 1998-07-28 Kabushiki Kaisha Toshiba Data retrieval system using secondary information of primary data to be retrieved as retrieval key
JPH0793124A (ja) 1993-09-24 1995-04-07 Toshiba Corp 文書作成装置及びスクロール方法
US5619708A (en) * 1994-10-25 1997-04-08 Korteam International, Inc. System and method for generating database input forms
JPH08129476A (ja) 1994-10-31 1996-05-21 Kitsusei Comtec Kk 音声データ入力装置
GB9705926D0 (en) 1997-03-21 1997-05-07 Medical Talk Systems Limited Improved document completion
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US6044347A (en) * 1997-08-05 2000-03-28 Lucent Technologies Inc. Methods and apparatus object-oriented rule-based dialogue management
JPH11120269A (ja) 1997-10-20 1999-04-30 Pca Kk 音声入力会計システム及び音声入力会計プログラムを記憶した媒体
JPH11228047A (ja) 1998-02-10 1999-08-24 Hitachi Building Systems Co Ltd 保全作業支援装置
KR100620826B1 (ko) * 1998-10-02 2006-09-13 인터내셔널 비지네스 머신즈 코포레이션 대화형 컴퓨팅 시스템 및 방법, 대화형 가상 머신, 프로그램 저장 장치 및 트랜잭션 수행 방법
US6246981B1 (en) * 1998-11-25 2001-06-12 International Business Machines Corporation Natural language task-oriented dialog manager and method
US6745165B2 (en) * 1999-06-16 2004-06-01 International Business Machines Corporation Method and apparatus for recognizing from here to here voice command structures in a finite grammar speech recognition system
US6510411B1 (en) * 1999-10-29 2003-01-21 Unisys Corporation Task oriented dialog model and manager

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019133165A (ja) * 2013-01-07 2019-08-08 三星電子株式会社Samsung Electronics Co.,Ltd. 対話型サーバ、ディスプレイ装置及びその制御方法
JP2014002795A (ja) * 2013-10-07 2014-01-09 Toshiba Corp 電子機器、表示方法、およびプログラム
JP2018525653A (ja) * 2015-05-27 2018-09-06 アップル インコーポレイテッド デバイスの音声制御
KR20170139644A (ko) * 2015-05-27 2017-12-19 애플 인크. 디바이스 음성 제어
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
KR102086898B1 (ko) * 2015-05-27 2020-03-09 애플 인크. 디바이스 음성 제어
JPWO2018034028A1 (ja) * 2016-08-16 2019-03-28 ソニー株式会社 情報処理装置
JP2019075135A (ja) * 2016-08-16 2019-05-16 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP6451907B2 (ja) * 2016-08-16 2019-01-16 ソニー株式会社 情報処理装置
US10795641B2 (en) 2016-08-16 2020-10-06 Sony Corporation Information processing device and information processing method
WO2018034028A1 (ja) * 2016-08-16 2018-02-22 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2018045460A (ja) * 2016-09-14 2018-03-22 株式会社東芝 入力支援装置およびプログラム
JP2020112932A (ja) * 2019-01-09 2020-07-27 キヤノン株式会社 情報処理システム、情報処理装置、制御方法、プログラム
JP7327939B2 (ja) 2019-01-09 2023-08-16 キヤノン株式会社 情報処理システム、情報処理装置、制御方法、プログラム
US11838459B2 (en) 2019-06-07 2023-12-05 Canon Kabushiki Kaisha Information processing system, information processing apparatus, and information processing method
JP2020201911A (ja) * 2019-06-13 2020-12-17 キヤノン株式会社 情報処理システム、情報処理装置、情報処理方法
JP7388272B2 (ja) 2020-03-31 2023-11-29 ブラザー工業株式会社 情報処理装置、情報処理方法及びプログラム
JP7383667B2 (ja) 2021-07-16 2023-11-20 株式会社東芝 情報処理装置、方法およびプログラム

Also Published As

Publication number Publication date
CN1291307C (zh) 2006-12-20
DE60216096D1 (de) 2006-12-28
KR100549482B1 (ko) 2006-02-08
EP1405169A2 (en) 2004-04-07
DE60216096T2 (de) 2007-06-28
EP1405169B1 (en) 2006-11-15
US7165034B2 (en) 2007-01-16
KR20030086612A (ko) 2003-11-10
JP4006338B2 (ja) 2007-11-14
WO2002077790A3 (en) 2004-01-15
US20040044523A1 (en) 2004-03-04
ATE345526T1 (de) 2006-12-15
CN1537267A (zh) 2004-10-13
WO2002077790A2 (en) 2002-10-03
AU2002238961A1 (en) 2002-10-08

Similar Documents

Publication Publication Date Title
JP4006338B2 (ja) 情報処理装置及びその方法、プログラム
JP4006395B2 (ja) 情報処理装置及びその制御方法、プログラム
US9361282B2 (en) Method and device for user interface
JP2008096541A (ja) 音声処理装置およびその制御方法
JP2005149484A (ja) 逐次的なマルチモーダル入力
KR20130082339A (ko) 음성 인식을 사용하여 사용자 기능을 수행하는 방법 및 장치
US20070233495A1 (en) Partially automated technology for converting a graphical interface to a speech-enabled interface
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
JP2005149485A (ja) 逐次的なマルチモーダル入力
KR20150069188A (ko) 자동 통역 장치 및 방법
KR102527107B1 (ko) 음성에 기반하여 기능을 실행하기 위한 방법 및 이를 지원하는 사용자 전자 장치
JPH07222248A (ja) 携帯型情報端末における音声情報の利用方式
JP2004021920A (ja) 情報処理装置、情報処理方法、プログラム、記憶媒体
JP3733322B2 (ja) マルチモーダル文書受信装置及びマルチモーダル文書送信装置、マルチモーダル文書送受信システム及びそれらの制御方法、プログラム
KR100826778B1 (ko) 멀티모달을 위한 브라우저 기반의 무선 단말과, 무선단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과이의 운용 방법
KR101968669B1 (ko) 통화 서비스 제공 방법 및 컴퓨터 프로그램
JP3542578B2 (ja) 音声認識装置及びその方法、プログラム
JP3927800B2 (ja) 音声認識装置及び方法、プログラム、並びに記憶媒体
KR20140111574A (ko) 오디오 명령에 따른 동작을 수행하는 장치 및 방법
JP2002259113A (ja) 音声マクロ処理装置、その方法、そのコンピュータ・プログラムおよびそのプログラムを記録した記録媒体
JP3884951B2 (ja) 情報処理装置及びその方法、プログラム
US7920681B2 (en) System, apparatus, and methods for creating alternate-mode applications
JP2000194532A (ja) オブジェクト選択処理装置、及び記憶媒体
JP4047323B2 (ja) 情報処理装置及びその方法、プログラム
JP2004295017A (ja) マルチモーダルシステムおよび音声入力方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060718

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070806

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070827

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100831

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110831

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120831

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120831

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130831

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees