JP2005500591A

JP2005500591A - 情報処理装置及びその方法、プログラム

Info

Publication number: JP2005500591A
Application number: JP2002575778A
Authority: JP
Inventors: 桂一酒井; 哲夫小坂
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-03-22
Filing date: 2002-03-19
Publication date: 2005-01-06
Anticipated expiration: 2022-03-19
Also published as: CN1291307C; DE60216096D1; KR100549482B1; EP1405169A2; DE60216096T2; EP1405169B1; US7165034B2; KR20030086612A; JP4006338B2; WO2002077790A3; US20040044523A1; ATE345526T1; CN1537267A; WO2002077790A2; AU2002238961A1

Abstract

入力フォームに関する入力フォーム情報をフォーム名保持部に記憶する。入力された音声を音声認識部で認識し、その音声認識結果に対応する入力フォーム情報を選択する。選択された入力フォーム情報に対応する入力フォームの表示形態をＧＵＩ表示部で制御する。

Description

【技術分野】
【０００１】
本発明は、入力された音声に基づいて、表示画面上に表示された入力フォームに対する操作に基づいて処理を実行する情報処理装置及びその方法、プログラムに関するものである。
【背景技術】
【０００２】
ＧＵＩ（グラフィックユーザインタフェース）上の入力項目（入力フォーム）へ文字等のデータを入力する場合、一般には、複数の入力フォームの中から一つを選択して入力対象の入力フォームを確定した上で、キーボードでデータを入力したり、マウス等のポインティングデバイスで、提示された複数の選択候補から一つの候補を選択して入力を行ったりする。また、そのような入力フォームへのデータの入力に際して、音声認識技術を用いて音声入力する技術も提案されている。
【発明の開示】
【発明が解決しようとする課題】
【０００３】
しかしながら、上記従来技術によれば、入力フォームへ音声入力をする場合に、データの入力対象となる入力フォームをキーボードやマウスにより選択する必要がある。従って、音声入力と手入力操作を併用することが要求され、操作性が必ずしもよいものとはいい難い。
【０００４】
本発明は上記の課題を解決するためになされたものであり、音声入力により表示画面上に表示される入力フォームへの操作を効率的にかつ柔軟に実行することができる情報処理装置及びその方法、プログラムを提供することを目的とする。
【課題を解決するための手段】
【０００５】
上記の目的を達成するための本発明による情報処理装置は以下の構成を備える。即ち、
入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理装置であって、
前記入力フォームに関する入力フォーム情報を記憶する記憶手段と、
前記入力された音声を認識する音声認識手段と、
前記音声認識手段の音声認識結果に対応する入力フォーム情報を選択する選択手段と
を備える。
【０００６】
また、好ましくは、前記選択手段で選択された入力フォーム情報に対応する入力フォームの表示形態を制御する表示制御手段を更に備える。
【０００７】
また、好ましくは、前記入力フォーム情報は、前記入力フォームの入力フォーム名を含む。
【０００８】
また、好ましくは、前記入力フォーム情報は、前記入力フォームの位置を示す配置情報を含む。
【０００９】
また、好ましくは、前記表示制御手段は、前記選択手段で選択された入力フォーム情報に対応する入力フォームを、それ以外の入力フォームの第１表示形態とは異なる第２表示形態で表示する。
【００１０】
また、好ましくは、前記表示制御手段は、前記選択手段で選択された入力フォーム情報に対応する入力フォームを前記表示画面上の中央部分に表示する。
【００１１】
また、好ましくは、前記選択手段による選択が確定した場合、その旨を報知する報知手段と
を更に備える。
【００１２】
また、好ましくは、前記入力フォーム情報は、前記入力フォームの入力フォーム名及び該入力フォームの位置を示す配置情報を含み、
前記音声認識手段の音声認識結果が、前記入力フォーム名あるいは前記配置情報のどちらに対応するかを判定する判定手段と、
前記選択手段は、前記判定手段の判定結果に基づいて、前記音声認識手段の音声認識結果に対応する入力フォーム情報を選択する。
【００１３】
また、好ましくは、前記入力フォーム情報は、前記入力フォームの位置を示す配置情報を含み、
前記音声認識手段は、前記配置情報を特定するための音声を認識するための音声認識文法データを用いて、前記入力された音声を認識する。
【００１４】
また、好ましくは、前記音声認識文法データは、前記入力フォームの相対的な位置を示す相対位置表現及び絶対的な位置を示す絶対位置表現の少なくとも一方を認識するためのデータを含む。
【００１５】
また、好ましくは、前記音声認識文法データは、前記絶対位置表現が前記入力フォームを含むコンテンツ全体あるいは前記表示画面上の表示範囲に対するものであるかを認識するためデータを含む。
【００１６】
また、好ましくは、前記入力フォームがハイパーテキスト文書で実現されている場合、前記入力フォーム情報は、該入力フォームを示すタグを含む。
【００１７】
また、好ましくは、前記ハイパーテキスト文書には、前記音声認識手段による音声認識を実行するためのタグが記述されている。
【００１８】
上記の目的を達成するための本発明による情報処理方法は以下の構成を備える。即ち、
入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理方法であって、
前記入力された音声を認識する音声認識工程と、
前記音声認識工程の音声認識結果に対応する、前記入力フォームに関する入力フォーム情報を選択する選択工程と
を備える。
【００１９】
上記の目的を達成するための本発明によるプログラムは以下の構成を備える。即ち、
入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理をコンピュータに機能させるためのプログラムであって、
前記入力された音声を認識する音声認識工程のプログラムコードと、
前記音声認識工程の音声認識結果に対応する、前記入力フォームに関する入力フォーム情報を選択する選択工程のプログラムコードと、
前記選択工程で選択された入力フォーム情報に対応する入力フォームの表示形態を制御する表示制御工程のプログラムコードと、
を備える。
【発明を実施するための最良の形態】
【００２０】
以下、図面を参照して本発明の好適な実施形態を詳細に説明する。
【００２１】
図１は本発明の各実施形態に係る情報処理装置のハードウエアの構成例を示すブロック図である。
【００２２】
情報処理装置において、１は、ＧＵＩを表示するためのディスプレイ装置である。２は、数値演算・制御等の処理を行うＣＰＵ等の中央処理装置である。３は、後述する各実施形態の処理手順や処理に必要な一時的なデータおよびプログラム、若しくは、音声認識用文法データや音声モデル等の各種データを格納する記憶装置である。この記憶装置３は、ディスク装置等の外部メモリ装置若しくはＲＡＭ・ＲＯＭ等の内部メモリ装置からなる。
【００２３】
５は、ユーザが発声する音声を入力するマイクである。４は、マイク５から入力された音声データをアナログ信号からデジタル信号へ変換するＡ／Ｄ変換装置である。６は、ネットワークを介して、Ｗｅｂサーバ等の外部装置とデータの送受信を行う通信装置である。７は、バスであり、情報処理装置の各種構成要素を相互に接続する。
＜実施形態１＞
図２は本発明の実施形態１の情報処理装置の機能構成図である。
【００２４】
１０１は、ＨＴＭＬ文書等のマークアップ言語等の記述言語の記述からなるハイパーテキスト文書で実現されるＧＵＩで表示するコンテンツを保持するコンテンツ保持部である。１０２は、コンテンツ保持部１０１に保持されたコンテンツをＧＵＩ表示するブラウザ等のＧＵＩ表示部である。１０３は、ＧＵＩ表示部１０２に表示された各種コンテンツ上のフォーカスが当たっている入力フォームを保持するフォーカス保持部である。１０４は、ＧＵＩ表示部１０２に表示されたコンテンツ上の入力フォーム名（表記）を切り出し、その読みを付与するフォーム名生成部である。このフォーム名生成部１０４で生成された入力フォーム名及びその読みは、フォーム名保持部１０５に保持される。加えて、その読みは、移動認識用文法データとして、各入力フォーム名とその読みが認識用文法１０６に保持される。
【００２５】
ここで、図３は、各入力フォーム名（表記）とその読みとを対応づけた、入力フォームに関する情報を管理する入力フォーム情報テーブルの一例を示す図である。図３において、入力フォーム情報テーブルで使用される表記は、単なる例示であり、他のタイプの表記が入力フォーム情報テーブルで使用することができる。
【００２６】
図４は、認識用文法１０６の構成図である。
【００２７】
認識用文法１０６は、図４に示すように、フォーカスを当てる入力フォームを音声入力により選択するための移動認識用文法データ、ユーザへの確認に対する応答やヘルプ要求等の各種操作に対する操作制御認識用文法データ、入力フォームへ音声入力される内容を認識するための項目値認識用文法データの３つの音声認識用文法データで構成される。これらの音声認識用文法データは、一つのファイルにまとめて構成されてもよいし、それぞれが別々のファイルとして構成されてもよい。
【００２８】
尚、ここでいう音声認識文法データとは、単語音声認識の場合、単語の表記や読みを記述した単語リスト、連続音声認識の場合、ＣＦＧ（文脈自由文法）を基本としたネットワーク文法など、一般的に音声認識で用いられるものを挙げることができる。
【００２９】
図２の説明に戻る。
【００３０】
１０７は、マイク５と、そのマイク５から入力された音声データをＡ／Ｄ変換するＡ／Ｄ変換装置４とからなる音声入力部である。１０８は、認識用文法１０６に保持された音声認識用文法データを読み出し、音声入力部１０７から入力されたデジタル信号から音声認識を行う音声認識部である。１０９は、音声認識部１０８の音声認識結果が入力フォーム名である場合に、フォーカス保持部１０３を参照して、ＧＵＩ表示部１０２に表示されたフォーカス位置を変更するフォーカス位置変更部である。
【００３１】
次に、実施形態１の情報処理装置が実行する処理について、図５を用いて説明する。
【００３２】
図５は本発明の実施形態１の情報処理装置が実行する処理を示すフローチャートである。
【００３３】
尚、図５のフローチャートの各ステップの操作は、例えば、プログラムとして記憶装置３に格納されており、中央処理装置２がそのプログラムを読み出して実行する。
【００３４】
ステップＳ１で、ＧＵＩ表示部１０２は、表示対象の複数の入力フォームを含むＧＵＩをディスプレイ装置１上に表示する。ＧＵＩの表示は、ＨＴＭＬデータのようなマークアップ言語で記述された外部データを読み込んできて表示しても良いし、専用プログラムのみで表示しても構わない。
【００３５】
ここで、ＧＵＩの一例について、図６を用いて説明する。
【００３６】
図６は、ディスプレイ装置１上に表示される複数の入力フォームを含むＧＵＩの例である。このＧＵＩは、ユーザに関するユーザ情報である個人登録データの登録（入力／変更）用ＧＵＩを想定したもので、図６上の矩形枠それぞれが各種入力フォームである。例えば、入力フォーム６は、文字列データとしてＩＤ番号を入力するための入力フォームである。それ以外にも、入力フォーム７、９〜１３、及び１５〜２２それぞれが、各種文字列データを入力する入力フォームである。入力フォーム８及び１４は、予め用意された選択肢データ（男、女、会社員等）から所望の選択肢データを選択するラジオボタン型の入力フォームである。ボタン２３は、例えば、アプリケーションに、ＧＵＩ上で各種入力フォームに入力される各種データを送信するためのボタンである。
【００３７】
これらの各入力フォームは、ディスプレイ装置１に表示する際に、フォーム名生成部１０３により、その入力フォーム名と読みが生成され、上述したように、フォーム名保持部１０４と認識用文法１０６に入力フォーム情報テーブルとして格納される。
【００３８】
尚、このフォーム名生成部１０３によって実行される入力フォーム名を生成する処理は、ＷｅｂサーバとＷｅｂブラウザを搭載するクライアントのようなサーバ・クライアント型のＧＵＩ表示構成をとる場合に、Ｗｅｂサーバ側で各コンテンツに対して、予め実行しておいても構わないし、クライアント側のＷｅｂブラウザ上で動的に実行するようにしても構わない。
【００３９】
また、実施形態１では、データの入力対象となっている（以下、フォーカスが当たっているともいう）入力フォームを破線（第１表示形態）で、フォーカスが当たっていない入力フォームを実線（第２表示形態）で示す。図６では、入力フォーム６にフォーカスが当たっている例を示している。
【００４０】
また、図６に示した個人登録データの登録用ＧＵＩは、その個人登録データを変更する場合を説明するための例であり、既に変更前の個人登録データが存在することを想定している。個人登録データを変更する場合には、例えば、図７に示すように、入力フォーム６にＩＤ番号（例えば、１２３４）を入力して、送信ボタン２３を押下すると、図８に示すように、そのＩＤ番号に対応する現在登録されている個人登録データが表示されるとともに、例えば、入力フォーム９にフォーカスが当たる。
【００４１】
図５の説明に戻る。
【００４２】
次に、ステップＳ２で、音声認識部１０８は、記憶装置３に格納された認識文法６から各種音声認識用文法データを読み出す。音声認識用文法データには、上述したように、フォーカスを当てる入力フォームを音声入力により選択するための移動認識用文法データと、操作制御認識用文法データ、現在フォーカスが当たっている入力フォームへの音声入力を認識するための項目値認識用文法データ、とがある。
【００４３】
ステップＳ３で、音声入力部１０７は、音声入力を開始する。ユーザの発声した音声はマイク５で電気信号に変換され、さらにＡ／Ｄ変換装置４によりデジタル信号（音声データ）に変換される。
【００４４】
ステップＳ４で、音声認識部１０８は、読み込んだ各種音声認識文法データを用いて、入力された音声データの音声認識を実行する。この場合、移動認識用文法データと項目値認識用文法データとをそれぞれ用いて、音声認識を行う。これら２つの音声認識用文法データを利用しているため、それぞれの音声認識用文法データから音声認識結果が得られるが、これを尤度など音声認識の確からしさを示す数値により比較し、より確からしさが高い音声認識結果を最終的な音声認識結果として選択する。
【００４５】
ステップＳ５で、音声認識結果が入力フォームの選択であるか否かを判定する。つまり、移動認識用文法データによる音声認識結果の尤度が項目値認識用文法データによる音声認識結果の尤度より高いか否かを判定する。入力フォームの選択でない場合（ステップＳ５でＮＯ）、ステップＳ８に進み、フォーカスが当たっている入力フォームへ入力された音声データの音声認識結果を表示する。この処理については、従来技術と同様なので説明を省略する。一方、入力フォームの選択である場合（ステップＳ５でＹＥＳ）、ステップＳ６に進む。
【００４６】
ステップＳ６で、音声認識結果（入力フォーム名）に対応する入力フォームを選択する。例えば、音声認識結果として「所属」や「所在地」といった入力フォーム名が得られた場合は、ステップＳ５からこのステップＳ６の処理へ移行し、音声認識結果に対応する入力フォーム名に該当する入力フォームを特定する。一例として、音声認識結果が「所属」であった場合のディスプレイ装置１のＧＵＩの例を図９に示す。
【００４７】
ステップＳ７で、選択確認動作を行う。これは、選択された入力フォームをユーザに示す確認処理である。例えば、選択された入力フォームをフラッシュ（ある一定時間フォームの色を変える）する等して選択されていない入力フォームと区別がつくように、その表示形態を変更する表示制御を実行したり、選択された入力フォームが表示画面の中央に現れるように、画面をスクロールする等の表示制御を実行する。それ以外に、ビープ音などの音を鳴らして、入力フォームが選択された旨を示す報知を実行しても良い。
【００４８】
以上説明したように、実施形態１によれば、ユーザが入力フォーム名を発声すると、その発声を音声認識して得られる音声認識結果に対応する入力フォームをデータの入力対象として選択することができる。これにより、キーボードやマウス等により入力フォームを選択する必要がなくなり、専ら音声入力だけで、ＧＵＩに対する入力フォームの選択やデータ入力が可能となり、従来に比べてよりＧＵＩに対する操作性を向上することができる。
＜実施形態２＞
実施形態１では、入力フォーム名がユーザにより発声された場合に、これを音声認識して得られる音声認識結果から、データの入力対象の入力フォームを選択する構成について説明したが、入力フォームの相対的な位置を示す相対位置表現、例えば、「３つ上」や「２つ下」がユーザから発声された場合に、これを音声認識して得られる音声認識結果から、データの入力対象の入力フォームを選択する構成にすることもできる。
【００４９】
この場合の実施形態にかかる情報処理装置の機能構成について、図１０に示す。
【００５０】
図１０は本発明の実施形態２の情報処理装置の機能構成図である。
【００５１】
図１０においては、実施形態１の図２のコンテンツ保持部１０１、ＧＵＩ表示部１０２、認識用文法１０６、音声入力部１０７及び音声認識部１０８に加えて、相対位置表現が発声された場合に、フォーカス位置を変更するフォーカス位置変更部１０９、現在フォーカスが当たっている入力フォームの位置を保持するフォーカス位置保持部１１１、入力フォーム名及びその位置を示す配置情報を生成する配置関係生成部１１２、配置関係生成部１１２で保持された入力フォーム名及び配置情報を保持する配置関係保持部１１３、そして、発声された内容が相対位置表現であるか否かを判定する相対位置判定部１１４を有している。
【００５２】
配置関係生成部１１２で生成される各入力フォーム名とその配置情報は、記憶装置３に入力フォーム情報テーブルとして格納される。図１１はその一例を示す図であり、各入力フォーム名と、その配置情報（例えば、ＧＵＩ上の左上角を原点とした場合の縦、横の位置座標）とを対応づけた入力フォーム情報テーブルで管理されている。この入力フォーム情報テーブルは、コンテンツ表示時に、コンテンツの内容を解析して生成される。また、ネットワーク経由でＷｅｂサーバ等の外部装置からコンテンツを配信する場合は、コンテンツ提供者側で入力フォーム情報テーブルをあらかじめ作成しておいて、コンテンツ送信時にあわせて送信する構成であってもよい。加えて、この配置関係生成部１１２によって実行される入力フォーム名とその配置情報を生成する処理は、Ｗｅｂサーバとブラウザのようなサーバ・クライアント型のＧＵＩ表示構成をとる場合に、サーバ側で各コンテンツに対して、予め生成しておいても構わないし、クライアント側のブラウザで動的に生成するようにしても構わない。
【００５３】
また、実施形態２においては、図１１における認識用文法１０６中における移動認識用文法データには、相対位置表現を音声認識するために必要なデータが含まれ、例えば、数字や「番目」、「上」、「下」、「右」、「左」、「から」等を認識するためのデータが管理されている。
【００５４】
次に、実施形態２の情報処理装置が実行する処理について、図１２を用いて説明する。
【００５５】
図１２は本発明の実施形態２の情報処理装置が実行する処理を示すフローチャートである。
【００５６】
尚、図１２では、実施形態１の図５のフローチャートと異なる部分だけを示す。
【００５７】
ステップＳ４で、音声認識部１０８は、読み込んだ認識用文法１０６を参照して、入力された音声データの音声認識を実行すると、ステップＳ７０で、相対位置判定部１１４は、その音声認識結果が相対位置表現であるか否かを判定する。つまり、移動認識用文法データによる音声認識結果の尤度が項目値認識用文法データによる音声認識結果の尤度より高いか否かを判定する。特に、移動認識用文法データによる音声認識結果の尤度が、それ以外の音声認識用文法データによる音声認識結果の尤度よりも高い場合に、相対位置表現であると判定する。
【００５８】
ステップＳ７１において、相対位置表現でない場合（ステップＳ７０でＮＯ）、ステップＳ８に進む。一方、相対位置表現である場合（ステップＳ７０でＹＥＳ）、ステップＳ７１に進み、フォーカス位置変更部１０９にて、相対位置表現により示された入力フォームを決定する。ここでは、フォーカス位置保持部１１１に保持されている、現在フォーカスがあたっている入力フォームの配置情報と、配置関係保持部１１３と、相対位置表現の音声認識結果を用いて、入力フォームを決定する。
【００５９】
例えば、現在フォーカスが当たっている入力フォームが入力フォーム１６（図９）であるとすると、フォーカス位置保持部１１１では、その対応する入力フォーム名「所属」の配置情報（８、１）（図１１）が保持されていることになる。そして、ユーザが発声した音声の音声認識結果が「３つ上」であるとすると、図１１の入力フォーム情報テーブルをもとに、フォーカスの移動先として（５、１）を決定する。これによって、フォーカス位置保持部１１１で保持される配置情報が（５、１）に更新される。その結果、図１３に示すように、フォーカスが入力フォーム１６から入力フォーム１２に当てられることになる。
【００６０】
以上説明したように、実施形態２によれば、ユーザが入力フォームの相対的な位置を示す相対位置表現を発声すると、その発声を音声認識して得られる音声認識結果に対応する入力フォームをデータの入力対象として選択することができる。これにより、キーボードやマウス等により入力フォームを選択する必要がなくなり、専ら音声入力だけで、ＧＵＩに対する入力フォームの選択やデータ入力が可能となり、従来に比べてよりＧＵＩに対する操作性を向上することができる。また、実施形態１に比べて、入力フォーム名を発声せずに、より簡単な音声表現で入力フォームを選択することが可能になり、より柔軟で精度の高い音声入力による入力フォームの選択を実現することができる。
＜実施形態３＞
実施形態２では、相対位置表現によって入力フォームを選択する構成について説明したが、例えば、ユーザから「上から５番目」や「下から２番目」のような、絶対的な位置を示す絶対位置表現により、入力フォームを選択する構成も可能である。
【００６１】
この場合の実施形態にかかる情報処理装置の機能構成について、図１４に示す。
【００６２】
図１４は本発明の実施形態３の情報処理装置の機能構成図である。
【００６３】
図１４においては、実施形態１の図２のコンテンツ保持部１０１、ＧＵＩ表示部１０２及び認識用文法１０６、音声入力部１０７及び音声認識部１０８、実施形態２の図１０のフォーカス位置変更部１０９、配置関係生成部１１２、配置関係保持部１１３に加えて、絶対位置判定部１２１と表示範囲保持部１２２が構成されている。この絶対位置判定部１２１は、図１０の相対位置判定部１１４と同様な機能を実現するものであり、発声された内容が絶対位置表現であるか否かを判定するものである。尚、表示範囲保持部１２２の実施形態４として、その詳細については、後述する。また、認識用文法１０６中の移動認識用文法データには、絶対位置表現を音声認識するために必要なデータが含まれ、例えば、「上から」、「下から」、「右から」、「左から」や、数字や「番目」等を認識するためのデータが管理されている。
【００６４】
実施形態３の情報処理装置が実行する処理は、実施形態１の情報処理装置が実行する処理を応用したものであり、特に、実施形態１の図５のフローチャートのステップＳ６の処理においては、ユーザから発声された音声を認識し、絶対位置判定部１２１において、図１１の入力フォーム情報テーブルを参照してフォーカスを当てる入力フォームを選択する。例えば、「下から２番目」とユーザから発声された場合には、図１１の入力フォーム情報テーブルの縦位置の最大値が１１であることから、縦位置が１０である電話番号の入力フォームを選択し、その位置にフォーカスを移動し、ステップＳ７に進む。
【００６５】
以上説明したように、実施形態３によれば、相対位置表現の代わりに絶対位置表現でも、入力フォームを選択することが可能になり、実施形態２と同様に、より柔軟で精度の高い音声入力による入力フォームの選択を実現することができる。
＜実施形態４＞
コンテンツをブラウザなどのウィンドウアプリケーションでみる場合や、携帯機器上など表示領域が狭い装置でみる場合などは、ＧＵＩ表示部１０２においては、コンテンツの一部しか表示されず、マウスなどポインティングデバイスによりコンテンツを表示画面上でスクロールして見る場合がある。上述の各実施形態では、例えば、ユーザが「上から３番目」と発声すると、装置はコンテンツ全ての範囲での上から３番目のフォームをフォーカスすることになるが、例えば、表示画面上のコンテンツの表示範囲中の３番目のフォームをフォーカスすることも可能である。
【００６６】
このような場合、図１４の表示範囲保持部１２２に、ＧＵＩ表示部１０２に現在表示されている表示範囲の配置情報を保持し、図５のステップＳ６の処理においては、絶対位置判定部１２１において、表示範囲内での絶対位置を判定するようにすればよい。
【００６７】
また、表示範囲中の絶対位置表現であるのか、コンテンツ全体の絶対位置表現であるのかをユーザが明示的に発声することにより、どちらかを判別して、それに応じた動作をすることも可能である。この場合、図１４の認識用文法１０６における移動認識用文法データには、これらの絶対位置表現を音声認識するために必要なデータが含まれ、実施形態３で示したデータに加えて、例えば、「全体の」、「表示範囲の」等を認識するためのデータが管理される。
【００６８】
この場合、コンテンツ全体での絶対位置であるか、表示範囲保持部１２２における表示範囲での絶対位置であるかの判定は、「全体の上から３番目」や「表示範囲の上から３番目」などと明示された場合には、音声認識結果から判定が可能である。
【００６９】
一方、コンテンツ全体での絶対位置であるのか、あるいは表示範囲での絶対位置であるかの指定が省略された場合には、曖昧性が生じる。その場合には、既定値としてどちらかに固定しても構わないし、直前に明示された方に動的に変更するものとしても構わない。動的に変更する場合には、どちらを選択するかを示す指定情報を表示範囲保持部１２２に保持することで実現が可能である。
【００７０】
実施形態４の情報処理装置が実行する処理は、実施形態１の情報処理装置が実行する処理を応用したものであり、特に、実施形態１の図５のフローチャートのステップＳ６の処理においては、例えば、図６におけるコンテンツの内、入力フォーム９から入力フォーム１８までがＧＵＩ表示部１０２に表示されている場合、表示範囲保持部１２２には、表示範囲の配置情報として左上（３、１）と右下（９、２）を保持する。
【００７１】
そして、「下から２番目」とユーザから発声された場合に、絶対位置判定部１２１は、表示範囲保持部１２２と図１１の入力フォーム情報テーブルを参照して、特に、表示範囲保持部１２２に、省略時に表示範囲を採用するよう設定されている場合には、表示範囲の下から２番目である入力フォーム名が「所属」の配置情報（８、１）を判定して、その位置にフォーカスを移動する。一方、表示範囲保持部１２２に省略時にコンテンツ全体を採用するよう設定されている場合には、全体の下から２番目である入力フォーム名が「電話番号」の配置情報（１０、１）を判定して、その位置にフォーカスを移動する。
【００７２】
以上説明したように、実施形態４によれば、コンテンツ全体での絶対位置表現／表示範囲での絶対位置表現を、明示的あるいは自動的に音声入力して、その音声入力によって入力フォームを選択することが可能となる。また、実施形態３で説明した効果に加えて、表示される表示範囲に応じたより柔軟で精度の高い音声入力による入力フォームの選択を実現することができる。
＜実施形態５＞
上記実施形態１乃至４における移動認識文法データは、各実施形態を実現するために必要なデータのみを管理する構成としたが、入力フォーム名、相対位置表現、絶対位置表現のいずれでも入力フォームを選択できるように移動認識文法データを構成することも可能である。
【００７３】
この場合の実施形態にかかる情報処理装置の機能構成について、図１５に示す。
【００７４】
図１５は本発明の実施形態５の情報処理装置の機能構成を示す図である。
【００７５】
図１５においては、実施形態１〜４それぞれの図２、図１０、図１４の各種構成要素に加えて、フォーカス位置の選択方法の種類（入力フォーム名、相対位置表現、絶対位置表現）を判定する位置選択方法判定部１５１を有している。
【００７６】
次に、実施形態５の情報処理装置が実行する処理について、図１６を用いて説明する。
【００７７】
図１６は本発明の実施形態５の情報処理装置が実行する処理を示すフローチャートである。
【００７８】
尚、図１６では、実施形態１の図５のフローチャートと異なる部分だけを示す。
【００７９】
音声認識部１０８は、読み込んだ認識用文法１０６を参照して、入力された音声データの音声認識を実行すると、ステップＳ５１で、位置選択方法判定部１５１において、フォーム名保持部１０５を参照して、音声認識結果が入力フォームの選択であるか否かを判定する。入力フォームの選択である場合（ステップＳ５１でＹＥＳ）、ステップＳ６１に進み、実施形態１の図５のフローチャートのステップＳ６と同様の処理を実行する。一方、入力フォームの選択でない場合（ステップＳ５１でＮＯ）、ステップＳ５２に進む。
【００８０】
ステップＳ５２で、位置選択方法判定部１５１において、音声認識結果が相対位置表現であるか否かを判定する。この判定は、例えば、音声認識結果の末尾が位置表現（例えば、「上」、「下」、「右」、「左」）である場合に、音声認識結果を相対位置表現と判定する。
【００８１】
ステップＳ５２において、相対位置表現である場合（ステップＳ５２でＹＥＳ）、ステップＳ６２に進み、実施形態２の図１２のステップＳ７１及びステップＳ７２と同様の処理を実行する。一方、相対位置表現でない場合（ステップＳ５２でＮＯ）、ステップＳ５３に進む。
【００８２】
ステップＳ５３で、位置選択方法判定部１５１において、音声認識結果が絶対位置表現であるか否かを判定する。この判定は、例えば、音声認識結果の先頭が位置表現（例えば、「上から」、「下から」、「右から」、「左から」もしくは「全体の」、「表示範囲の」およびその同義語）である場合に、音声認識結果を絶対位置表現と判定する。
【００８３】
ステップＳ５３において、絶対位置表現である場合（ステップＳ５３でＹＥＳ）、ステップＳ６３に進み、実施形態３や実施形態４で説明した絶対位置表現によるフォーカス位置を変更する処理を実行する。一方、絶対位置表現でない場合（ステップＳ５３でＮＯ）、ステップＳ８に進む。
【００８４】
尚、本実施形態５では、入力フォーム名、相対位置、絶対位置のいずれかによる選択方法によってフォーカス位置の選択が可能な構成について説明したが、そのうちの任意の２つ以上の選択方法を用いて、フォーカス位置の選択が可能な構成が実現可能であることは言うまでもない。
【００８５】
以上説明したように、実施形態５によれば、実施形態１乃至４で説明される効果に加えて、複数種類の選択方法による入力フォームの選択を音声入力で可能にすることで、より柔軟で様々な装置に適用可能な音声入力による入力フォームの選択環境を実現することができる。
＜実施形態６＞
コンテンツ保持部１０１に保持されるコンテンツがマークアップ言語で記述される場合、配置関係保持部１１３には、入力フォームを示すタグの種類を保持し、「ｎ番目の（タグ名）」というような音声入力によって入力フォームを選択する構成にすることもできる。このような構成の場合の配置関係保持部１１３に保持される入力フォーム情報テーブルの内容を図１７に示す。この場合には、絶対位置判定部１２１において、１番目のラジオボタンが性別、２番目のラジオボタンが職業と認識され、「２番目のラジオボタン」とユーザが音声入力した場合には、職業にフォーカスを移動して、ステップＳ７に進むことになる。
【００８６】
尚、配置関係保持部１１３に保持されるタグの種類は、「input」や「radio」に限定されず、例えば、メニューを示す「select」タグやリンク先を示す「a」タグを保持しても同様の処理が可能である。
【００８７】
以上説明したように、実施形態６によれば、入力フォームを示すタグの種類によって、入力フォームの選択を音声入力で可能にすることで、より柔軟な音声入力による入力フォームの選択を実現することができる。
＜実施形態７＞
コンテンツをマークアップ言語で記述する場合、例えば、センタリングを示す「center」タグや改行を示す「br」タグなど、音声認識による入力に使用しないタグも多数存在する。
【００８８】
そこで、上記実施形態６において、音声認識でフォーカス移動に使用するタグの種類を、音声認識を宣言する部分において羅列しても構わない。
【００８９】
図１８にマークアップ言語を用いて音声認識を実行するためのタグの一例を示す。図１８では、実施形態７に関わる音声認識のタグの一例であり、『＜SpeechRecog …＞』が音声認識による入力を実行するための記述である。
【００９０】
実施形態７におけるＧＵＩ表示部１０２においては、『＜SpeechRecog …＞』は、「音声認識して、その音声認識結果を表示する」と解釈するものとする。また、音声認識で使用する認識用文法１０６および音声認識でフォーカス移動に使用するタグの種類の羅列をそれぞれ『grammar』、『used_tag』で指定することが可能である。この例では、『＜SpeechRecog …＞』というタグによって、認識文法辞書『command.grm』を使用し、「input」タグ、「radio」タグ、「a」タグの３種類のタグをフォーカス移動に用いることを宣言している。
【００９１】
以上説明したように、実施形態７によれば、音声認識を実行するためのタグをコンテンツ中にまとめて記述することで、コンテンツ中のタグにおいて、音声認識を実行するタグの判定をより効率的に実行することができる。また、コンテンツ毎に音声認識を実行するためのタグを記述しているので、入力フォームを示すタグの種類によって入力フォームの選択を音声入力で可能にする場合にも、配置関係保持部１１３に図１７の入力フォーム情報テーブルを保持する必要がなくなり、記憶資源を節約することができる。
【００９２】
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム（実施形態では図に示すフローチャートに対応したプログラム）を、システム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。その場合、プログラムの機能を有していれば、形態は、プログラムである必要はない。
【００９３】
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【００９４】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。
【００９５】
プログラムを供給するための記録媒体としては、例えば、フロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。
【００９６】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。
【００９７】
また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【００９８】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
【００９９】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。
【図面の簡単な説明】
【０１００】
【図１】本発明の各実施形態に係る情報処理装置のハードウエアの構成例を示すブロック図である。
【図２】本発明の実施形態１の情報処理装置の機能構成図である。
【図３】本発明の実施形態１の入力フォーム情報テーブルの一例を示す図である。
【図４】本発明の実施形態１の認識用文法の構成を示す図である。
【図５】本発明の実施形態１の情報処理装置が実行する処理を示すフローチャートである。
【図６】本発明の実施形態１のＧＵＩの例を示す図である。
【図７】本発明の実施形態１のＧＵＩの例を示す図である。
【図８】本発明の実施形態１のＧＵＩの例を示す図である。
【図９】本発明の実施形態１のＧＵＩの例を示す図である。
【図１０】本発明の実施形態２の情報処理装置の機能構成図である。
【図１１】本発明の実施形態２の入力フォーム情報テーブルの一例を示す図である。
【図１２】本発明の実施形態２の情報処理装置が実行する処理を示すフローチャートである。
【図１３】本発明の実施形態２のＧＵＩの例を示す図である。
【図１４】本発明の実施形態３の情報処理装置の機能構成図である。
【図１５】本発明の実施形態５の情報処理装置の機能構成を示す図である。
【図１６】本発明の実施形態５の情報処理装置が実行する処理を示すフローチャートである。
【図１７】本発明の実施形態６の入力フォーム情報テーブルの一例を示す図である。
【図１８】本発明の実施形態７のマークアップ言語を用いて音声認識を実行するためのタグの一例を示す図である。

Claims

入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理装置であって、
前記入力フォームに関する入力フォーム情報を記憶する記憶部と、
前記入力された音声を認識する音声認識部と、
前記音声認識部の音声認識結果に対応する入力フォーム情報を選択する選択部と
を備えることを特徴とする情報処理装置。
前記選択部で選択された入力フォーム情報に対応する入力フォームの表示形態を制御する表示制御部を更に備える、
ことを特徴とする請求項１に記載の情報処理装置。
前記入力フォーム情報は、前記入力フォームの入力フォーム名を含む
ことを特徴とする請求項１に記載の情報処理装置。
前記入力フォーム情報は、前記入力フォームの位置を示す配置情報を含む
ことを特徴とする請求項１に記載の情報処理装置。
前記表示制御部は、前記選択部で選択された入力フォーム情報に対応する入力フォームを、それ以外の入力フォームの第１表示形態とは異なる第２表示形態で表示する
ことを特徴とする請求項１に記載の情報処理装置。
前記表示制御部は、前記選択部で選択された入力フォーム情報に対応する入力フォームを前記表示画面上の中央部分に表示する
ことを特徴とする請求項１に記載の情報処理装置。
前記選択部による選択が確定した場合、その旨を報知する報知部と
を更に備えることを特徴とする請求項１に記載の情報処理装置。
前記入力フォーム情報は、前記入力フォームの入力フォーム名及び該入力フォームの位置を示す配置情報を含み、
前記音声認識部の音声認識結果が、前記入力フォーム名あるいは前記配置情報のどちらに対応するかを判定する判定部と、
前記選択部は、前記判定部の判定結果に基づいて、前記音声認識部の音声認識結果に対応する入力フォーム情報を選択する
ことを特徴とする請求項１に記載の情報処理装置。
前記入力フォーム情報は、前記入力フォームの位置を示す配置情報を含み、
前記音声認識部は、前記配置情報を特定するための音声を認識するための音声認識文法データを用いて、前記入力された音声を認識する
ことを特徴とする請求項１に記載の情報処理装置。
前記音声認識文法データは、前記入力フォームの相対的な位置を示す相対位置表現及び絶対的な位置を示す絶対位置表現の少なくとも一方を認識するためのデータを含む
ことを特徴とする請求項９に記載の情報処理装置。
前記音声認識文法データは、前記絶対位置表現が前記入力フォームを含むコンテンツ全体あるいは前記表示画面上の表示範囲に対するものであるかを認識するためデータを含む
ことを特徴とする請求項９に記載の情報処理装置。
前記入力フォームがハイパーテキスト文書で実現されている場合、前記入力フォーム情報は、該入力フォームを示すタグを含む
ことを特徴とする請求項１に記載の情報処理装置。
前記ハイパーテキスト文書には、前記音声認識部による音声認識を実行するためのタグが記述されている
ことを特徴とする請求項１２に記載の情報処理装置。
入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理方法であって、
前記入力された音声を認識する音声認識工程と、
前記音声認識工程の音声認識結果に対応する、前記入力フォームに関する入力フォーム情報を選択する選択工程と
を備えることを特徴とする情報処理方法。
前記選択工程で選択された入力フォーム情報に対応する入力フォームの表示形態を制御する表示制御工程を更に備える
ことを特徴とする請求項１４に記載の情報処理方法。
前記入力フォーム情報は、前記入力フォームの入力フォーム名を含む
ことを特徴とする請求項１４に記載の情報処理方法。
前記入力フォーム情報は、前記入力フォームの位置を示す配置情報を含む
ことを特徴とする請求項１４に記載の情報処理方法。
前記表示制御工程は、前記選択工程で選択された入力フォーム情報に対応する入力フォームを、それ以外の入力フォームの第１表示形態とは異なる第２表示形態で表示する
ことを特徴とする請求項１４に記載の情報処理方法。
前記表示制御工程は、前記選択工程で選択された入力フォーム情報に対応する入力フォームを前記表示画面上の中央部分に表示する
ことを特徴とする請求項１４に記載の情報処理方法。
前記選択工程による選択が確定した場合、その旨を報知する報知工程と
を更に備えることを特徴とする請求項１４に記載の情報処理方法。
前記入力フォーム情報は、前記入力フォームの入力フォーム名及び該入力フォームの位置を示す配置情報を含み、
前記音声認識工程の音声認識結果が、前記入力フォーム名あるいは前記配置情報のどちらに対応するかを判定する判定工程と、
前記選択工程は、前記判定工程の判定結果に基づいて、前記音声認識工程の音声認識結果に対応する入力フォーム情報を選択する
ことを特徴とする請求項１４に記載の情報処理方法。
前記入力フォーム情報は、前記入力フォームの位置を示す配置情報を含み、
前記音声認識工程は、前記配置情報を特定するための音声を認識するための音声認識文法データを用いて、前記入力された音声を認識する
ことを特徴とする請求項１４に記載の情報処理方法。
前記音声認識文法データは、前記入力フォームの相対的な位置を示す相対位置表現及び絶対的な位置を示す絶対位置表現の少なくとも一方を認識するためのデータを含む
ことを特徴とする請求項２２に記載の情報処理方法。
前記音声認識文法データは、前記絶対位置表現が前記入力フォームを含むコンテンツ全体あるいは前記表示画面上の表示範囲に対するものであるかを認識するためデータを含む
ことを特徴とする請求項２２に記載の情報処理方法。
前記入力フォームがハイパーテキスト文書で実現されている場合、前記入力フォーム情報は、該入力フォームを示すタグを含む
ことを特徴とする請求項１４に記載の情報処理方法。
前記ハイパーテキスト文書には、前記音声認識工程による音声認識を実行するためのタグが記述されている
ことを特徴とする請求項２５に記載の情報処理方法。
入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理をコンピュータに機能させるためのプログラムであって、
前記入力された音声を認識する音声認識工程のプログラムコードと、
前記音声認識工程の音声認識結果に対応する、前記入力フォームに関する入力フォーム情報を選択する選択工程のプログラムコードと
を備えることを特徴とするプログラム。
入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理装置であって、
前記入力フォームに関する入力フォーム情報を記憶する記憶部と、
前記入力された音声を認識する音声認識部と、
前記音声認識部の音声認識結果に対応する入力フォーム情報を選択する選択部と
を備えることを特徴とする情報処理装置。
入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理装置であって、
前記入力された音声を認識する音声認識手段と、
前記音声認識手段による音声認識結果が入力フォームの選択であるか否かを判定する判定部と、
前記判定手段によって前記入力フォームの選択であると判定された場合、前記音声認識結果に対応する入力フォームを選択する選択手段と、
前記判定手段によって前記入力フォームの選択でないと判定された場合、選択されている入力フォームに前記音声認識結果を表示する表示手段と
を備えることを特徴とする情報処理装置。
入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理方法であって、
前記入力された音声を認識する音声認識工程と、
前記音声認識工程による音声認識結果が入力フォームの選択であるか否かを判定する判定工程と、
前記判定工程によって前記入力フォームの選択であると判定された場合、前記音声認識結果に対応する入力フォームを選択する選択工程と、
前記判定工程によって前記入力フォームの選択でないと判定された場合、選択されている入力フォームに前記音声認識結果を表示する表示工程と
を備えることを特徴とする情報処理方法。
入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理をコンピュータに機能させるためのプログラムであって、
前記入力された音声を認識する音声認識工程のプログラムコードと、
前記音声認識工程による音声認識結果が入力フォームの選択であるか否かを判定する判定工程のプログラムコードと、
前記判定工程によって前記入力フォームの選択であると判定された場合、前記音声認識結果に対応する入力フォームを選択する選択工程のプログラムコードと、
前記判定工程によって前記入力フォームの選択でないと判定された場合、選択されている入力フォームに前記音声認識結果を表示する表示工程のプログラムコードと
を備えることを特徴とするプログラム。
入力された音声に基づいて、表示画面上に表示された入力フォームに対する処理を実行する情報処理装置であって、
前記入力された音声を認識する音声認識部と、
前記音声認識部による音声認識結果が入力フォームの選択であるか否かを判定する判定部と、
前記判定部によって前記入力フォームの選択であると判定された場合、前記音声認識結果に対応する入力フォームを選択する選択部と、
前記判定部によって前記入力フォームの選択でないと判定された場合、選択されている入力フォームに前記音声認識結果を表示する表示部と
を備えることを特徴とする情報処理装置。