JP2005108087A

JP2005108087A - ウェブページ入力装置およびプログラム

Info

Publication number: JP2005108087A
Application number: JP2003343370A
Authority: JP
Inventors: Tomohiro Iwasaki; 知弘岩▲さき▼; Yuzo Maruta; 祐三丸田; Michihiro Yamazaki; 道弘山崎
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2003-10-01
Filing date: 2003-10-01
Publication date: 2005-04-21

Abstract

【課題】ウェブコンテンツの構成要素と認識辞書との関連を記述することにより、ウェブページ上の部品に応じて認識対象語彙を絞り込めるようにし、ウェブページ上での入力操作を容易にする。
【解決手段】ウェブページに対する音声入力を音声認識するためのそれぞれの認識語彙に関する複数の認識辞書を格納する認識辞書記憶手段を備え、ウェブページ解析手段がテキストボックス有りを検出した場合にテキストボックス用の認識辞書を指定し、当該テキストボックスに対して入力された音声を当該認識辞書に基づいて認識させ、音声認識結果をテキストボックスに表示させる。
【選択図】図１

Description

この発明は、音声入力を用いてウェブ（Ｗｅｂ）ページで検索を行う際の音声認識に適用されるウェブページ入力装置およびプログラムに関するものである。

ウェブページに音声入力を行うことにより検索を行う方法として、ウェブページに埋め込まれたハイパーリンクを音声によって検索する技術が数多く提案されてきている。その中に、ウェブブラウザにより表示されているウェブページ上で、リンク項目を音声で入力することにより検索する技術がある（例えば、特許文献１参照）。

この従来の技術を用いた場合、ウェブページの音声入力を音声認識するための認識語彙に関するウェブページごとの認識辞書を予め格納した認識辞書記憶手段が準備されており、ウェブブラウザで表示されているウェブページを認識制御部に送る。認識制御部では、制御データ記憶部を参照して、表示されているウェブページに対応する認識辞書を選択し、音声認識部にその認識辞書を使用するよう指示を出す。この場合、表示されるウェブページとしては、例えば図４に示される不動産物件検索のトップページのように、音声入力するときに読む文字、「藤沢市」と「鎌倉市」が表示されたものである。このページに対してユーザが、例えば「藤沢市」と音声入力すると、音声認識部は指示されたこのウェブページの認識辞書を用いて「藤沢市」と認識する。この認識結果は認識制御部を介してウェブブラウザ制御部に与えられ、ウェブページ上の「藤沢市」が選択されるようウェブブラウザを制御する。次に、選択された「藤沢市」に対して、藤沢市に含まれるすべての町名が表示されたウェブページに切り替わり、そのページに対する認識辞書が指定される。これに対して同様に音声入力操作が行われ、最終的な検索結果として図１３のような町名「湘南台」に関する不動産物件を列挙した表のページが表示されることになる。

特開平１１−１８４６７１号公報

従来のウェブページ入力装置は、以上のように、ウェブページに予め表示された語彙を読み上げて音声入力することによりウェブページを動的に解析して認識辞書を選択しているので、ウェブページ上で占める選択語彙が多数となった場合、表示領域が増え、読み上げる語彙の選択が煩雑となり入力操作に時間を要するなどの問題があった。

この発明は、上記のような問題を解決するためになされたもので、ウェブコンテンツの構成要素と認識辞書との関連を記述することにより、ウェブページ上の部品に応じて認識対象語彙を絞り込めるようにし、ウェブページ上での入力操作を容易にするウェブページ入力装置およびプログラムを得ることを目的とする。

この発明に係るウェブページ入力装置は、ウェブブラウザがネットワークから取り込んだウェブページの解析を行い、解析結果としてウェブページとテキストボックスの有無を得るウェブページ解析手段と、ウェブページに対する音声入力を音声認識するためのそれぞれの認識語彙に関する複数の認識辞書を格納する認識辞書記憶手段と、ウェブページごとに使用する認識辞書の指定を行うための制御データを格納する制御データ記憶手段と、ウェブページに対してユーザが入力した音声を制御データにより指定された認識辞書を用いて認識する音声認識手段と、解析結果のウェブページに対応した制御データを制御データ記憶手段から抽出し、解析結果でテキストボックス有りの場合には当該制御データにより対応するテキストボックス用の認識辞書を指定し、当該テキストボックスに対して入力された音声を指定されたテキストボックス用の認識辞書に基づいて音声認識手段で認識させ、その音声認識結果を得る認識制御手段と、ブラウザを制御して、認識制御手段が得た当該テキストボックスに対する入力音声の音声認識結果をウェブページ中の当該テキストボックスに表示させるブラウザ制御手段とを備えたものである。

この発明によれば、ウェブページ中のテキストボックスに対する入力音声についても専用の認識辞書を準備して音声認識を行えるようにしたため、テキストボックスを用いたことで表示する選択語彙を絞り込めるのでウェブページ上での表示領域を削減でき、入力操作を容易にできる効果がある。

実施の形態１．
この発明では、ウェブページ中に認識語彙を指定するための空欄のテキストボックスを準備し、そこに対して入力される音声を音声認識するようにしている。また、音声入力させる対象のテキストボックスを指定するためにフォーカスする方法を採りいれている。このフォーカスとはテキストボックスを入力可能状態に設定することであり、入力可能状態とはフォーカスしたテキストボックスに対して入力される音声を受け付け、その入力される音声ついて音声認識処理を行う状態である。フォーカスは、例えばマウスでテキストボックスをクリックすることにより実現される。また、特にこの発明では、テキストボックス対応させてある語彙を発声することにより、対応するテキストボックスをフォーカスできるようにしている。フォーカスされたテキストボックスは、ウェブブラウザにより枠線が太くなる。また、これに替えて、あるいはこれに加えて、テキストボックスの内部の色を変えたり、点滅するようにしたりできるものである。

この発明の実施の形態１によるウェブページ入力装置を適用するサイトとして、不動産物件を検索するサイトの構成例について説明する。ここでは、「藤沢市」と「鎌倉市」の不動産物件を検索するサイトを例とする。
図２はサイトのウェブページの構成を示す説明図で、図３は図２の各ウェブページの内容を示す説明図である。サイトは、最初にトップページＴｏｐ．ｈｔｍｌがあり、その次に「藤沢市」のページＣ１．ｈｔｍｌと「鎌倉市」のページＣ２．ｈｔｍｌから構成されている。この両ページの次には、この両ページからの入力に対してＣＧＩ（Common Gateway Interface）を用いた検索結果のページＳｅａｒｃｈ.ｈｔｍｌがある。

このサイトでは、ウェブブラウザにより図４に示すような表示内容を持つトップページＴｏｐ．ｈｔｍｌが最初に表示される。この例では、都市として「藤沢市」または「鎌倉市」が表示されている。Ｃ１およびＣ２は、それぞれの市のコードを表す。このトップページでは、都市の表示がボタンになっており、クリックすることによりいずれかの市が選択される。それぞれの市に対応して別々のウェブページＣ１．ｈｔｍｌおよびＣ２．ｈｔｍｌが用意されている。トップページにおいて「藤沢市」を選択した場合、図５に示すようなウェブページＣ１．ｈｔｍｌがウェブブラウザにより表示される。このＣ１ページには、町名と最寄の駅を入力するためのそれぞれのテキストボックスと検索ボタンが表示されている。このＣ１ページで、町名あるいは最寄の駅を入力した後に検索ボタンを押すと、ＣＧＩに検索データが渡されて、不動産物件の検索が行われ、検索結果を表示するためのウェブページＳｅａｒｃｈ．ｈｔｍｌが動的に生成される。ここでは、検索結果によらず生成されるウェブページのアドレスは固定とする。町名のテキストボックスに「湘南台」と音声入力した時の検索結果としてのウェブページＳｅａｒｃｈ．ｈｔｍｌの表示内容は図６に示される。

図１はこの発明の実施の形態１によるウェブページ入力装置の機能構成を示すブロック図である。
ウェブブラウザ１は、周知のようにネットワークからウェブページを取り込んで表示する手段である。ウェブページ解析部２は、ウェブブラウザ１で読み込んだウェブページを解析、解析結果としてウェブページとそのページ中のテキストボックスの有無を得る手段である。認識辞書記憶部６は、ウェブページごとに音声認識を行うための認識語彙に関する複数の認識辞書を格納する手段で、この発明では、加えてウェブページ中のテキストボックスに対する音声入力を認識するためにそれぞれのテキストボックス用の認識辞書も含んでいる。制御データ記憶部４は、ウェブページごとに使用する認識辞書の指定を行うための制御データを格納する手段である。この制御データとしては、ウェブページごとの音声認識に用いる認識辞書を指定するデータがあり、この発明では、ウェブページ中のテキストボックス用への認識辞書を指定するデータも含んでいる。

音声認識部７は、ウェブページに対してユーザが入力した音声を、制御データが指定する認識辞書を用いて認識し、その認識結果を得る手段である。認識制御部５は、ウェブページ解析部２の解析結果に基づいて制御データ記憶部４からウェブページに対応する制御データを抽出し、音声認識部７に対して使用する認識辞書を指定して音声認識を行わせ、その認識結果を得る手段であり、この発明では、ウェブページ解析部２の解析結果でテキストボックス有りの場合には制御データにより対応するテキストボックス用の認識辞書を指定する。ブラウザ制御部３は、ウェブブラウザ１の動作を制御する手段で、この発明では、特に認識制御部５が音声認識部７から得たウェブページ中のテキストボックスに対する音声の音声認識結果を対応するテキストボックスに表示させる機能を持つ。

次に、動作について説明する。
表示装置（図示せず）にウェブブラウザ１によりウェブページが表示される。ウェブページ解析部２は、この表示されているウェブページを解析し、その解析結果として、表示されているウェブページとそのページ中のテキストボックスの有無を得る。テキストボックスの有無は、ウェブページを構成している例えばＨＴＭＬ（Hyper Text Markup Language）などを用いたテキストボックスについての記述を検出することにより行われる。また、テキストボックスがフォーカスされている場合、ウェブページ解析部２はそのウェブページ内でフォーカスされている位置の情報を抽出する。これらの解析結果は認識制御部５に送られる。ウェブページ中のフォーカスされている位置を認識率向上に用いる点が従来の技術と大きく異なる点である。認識制御部５は、表示されているウェブページとそのページ内でフォーカスされている位置の情報を基に、制御データ記憶部４に格納されている制御データを参照して音声認識部７に対して使用する認識辞書を指定する。制御データと認識辞書としては、次に説明するようなデータが予め準備されている。

図７は制御データ記憶部４の格納データの内容を示している。それぞれのウェブページとそれに対応した認識辞書を切り替えるため制御データが用意されている。例として、ウェブページＣ１．ｈｔｍｌに対応する制御データＣ１．ｃｔｌの構成内容について図８が示される。制御データは、クラス、タグ名、属性、認識辞書から構成されている。クラスは、ウェブページの部品の区分けを示すもので、タグの付いているもの、例えばＡｄｒｓ、Ｓｔｔｎには、町名、最寄駅などの名称が付けられている。このウェブページＣ１．ｈｔｍｌに対しては５つの単語辞書（認識辞書）を用いることが示されており、各認識辞書に含まれる認識語彙は図９（ａ）〜（ｅ）のように示される。各認識辞書は名称とその読みから構成されている。

認識辞書に関し説明すると、図８のコマンドに対する認識辞書ＤｉｃＣｍｄは、ウェブブラウザを制御するための基本的なコマンドを有し、図９（ａ）の内容に示すように、「進む」、「戻る」および「閉じる」の３つの言葉を認識語彙としている。「戻る」コマンドは前の画面へウェブブラウザを戻す機能を実行する。「進む」コマンドは先の画面へ進む機能を実行する。また、「閉じる」コマンドはウェブブラウザを閉じる機能を実行する。これらのコマンドは、表示するウェブページの内容によらず共通に使用できるコマンドである。図８のタグに対する認識辞書ＤｉｃＴａｇは、図９（ｂ）に示されるが、図５のＣ１ページに表示されるテキストボックスを、音声入力を用いてフォーカスするために使用する認識語彙を含んでいる。図８のリンクに対する認識辞書ＤｉｃＬｉｎｋは、図９（ｃ）に示されるが、図５のＣ１ページに表示される「検索」を実行する認識語彙を含んでいる。また、図９（ｄ）に示すように、図８の最寄の駅に対する認識辞書ＤｉｃＳｔｔｎは、図９（ｄ）に示されるが、図５のＣ１ページに表示される「最寄の駅」のテキストボックスに入れる認識語彙を含んでいる。この例では、「藤沢駅」、「辻堂駅」および「湘南台駅」を最寄の駅としている。このため、「最寄の駅」テキストボックスがフォーカスされている場合には「藤沢駅」、「辻堂駅」、「湘南台駅」の３単語が認識対象語彙に加わる。さらに、図８の町名に対する認識辞書ＤｉｃＡｄｒｓは、図９（ｅ）に示されるが、図５のＣ１ページに表示される「町名」のテキストボックスに入れる認識語彙を含んでいる。ここでは、「藤沢」、「辻堂」および「湘南台」を町名候補としている。このため、「町名」テキストボックスがフォーカスされている場合には「藤沢」、「辻堂」、「湘南台」の３単語が認識対象語彙に加わる。

図５に示すように、ウェブページＣ１．ｈｔｍｌには２つのテキストボックスがある。この発明によるウェブページ入力装置では、認識率を高めるために、従来のようにウェブページによって認識語彙を切り替えるだけではなく、フォーカスされているテキストボックスに対しても認識語彙（または認識辞書）を切り替えるようにしている。図５の検索ページにおいて、町名のテキストボックスがフォーカスされた様子を図１０に示す。認識辞書ＤｉｃＴａｇは、このフォーカス機能を音声により実現するための認識語彙を有するものである。図５に示すウェブページＣ１．ｈｔｍｌでは２つのテキストボックスがあるため、認識辞書ＤｉｃＴａｇには「町名」と「最寄の駅」の２つの認識語彙が含まれる。ユーザは、マウス入力やキーボード入力によりテキストボックスの表示状態を変えてフォーカスするが、この発明では、替りに語彙「町名」または「最寄の駅」を発声することにより、対応するテキストボックスをフォーカスするようにしている。例えば図５のウェブページＣ１．ｈｔｍｌに対して「町名」を「チョーメイ」と発声した場合、音声認識部７は認識辞書ＤｉｃＴａｇを用いてこの入力音声を認識し、その認識結果を認識制御部５によりブラウザ制御部３に伝える。ブラウザ制御部３は、ウェブブラウザ１を制御してテキストボックスの枠線を太くし、その内部の色を変え、図１０に示すような状態を形成する。

図１１および図１２はウェブページＣ１．ｈｔｍｌ（図５）を表示している時の処理手順を示すフローチャートである。
ここで、ウェブブラウザ１はウェブページＣ１．ｈｔｍｌを表示しているものとする。認識制御部５はイベントの発生を待つ（ステップＳＴ１）。イベントは、マウスやキーボードからの入力があった場合はウェブページ解析部２から発生し、音声認識結果が得られるときには音声認識部７から発生する。次に、イベント発生があると、認識制御部５は、イベントが音声認識結果であるのかどうかを調べる（ステップＳＴ２）。イベントとして音声認識結果が発生した場合にはステップＳＴ８に遷移する。一方、マウスやキーボードの入力によるイベントであった場合には、認識制御部５はＤｉｃＣｍｄ、ＤｉｃＴａｇ、ＤｉｃＬｉｎｋの３つの認識辞書（図９（ａ）〜（ｃ））をアクティブにするよう音声認識部７に指示する（ステップＳＴ３）。アクティブとなったこれらの認識辞書は音声認識部７による認識対象となる。また、このように複数の認識辞書がアクティブになった場合は、含まれる認識語彙はすべて認識対象となる。

次に認識制御部５は、ウェブページ解析部２からのイベントを見て、「町名」テキストボックスがフォーカスされたかどうか調べる（ステップＳＴ４）。「町名」テキストボックスがフォーカスされた場合には認識制御部５は認識辞書ＤｉｃＡｄｒｓ（図９（ｅ））を追加してアクティブにするよう音声認識部７に指示する（ステップＳＴ５）。次に、認識制御部５はウェブページ解析部２からのイベントを見て、「最寄の駅」テキストボックスがフォーカスされたかどうか調べる（ステップＳＴ６）。「最寄の駅」テキストボックスがフォーカスされた場合には認識制御部５は認識辞書ＤｉｃＳｔｔｎ（図９（ｄ））を追加してアクティブにするよう音声認識部７に指示する（ステップＳＴ７）。

一方、ステップＳＴ２において、イベントが音声認識結果であった場合、以下の処理を行う。認識制御部５は、音声認識結果の属性がＡｔｒＣｍｄであったかを調べ（ステップＳＴ８）、ＡｔｒＣｍｄの語彙の場合、そのコマンドに対応する処理をウェブブラウザ１が実行するようブラウザ制御部３に指示する（ステップＳＴ９）。この処理によりウェブページが変更されるので、ウェブページＣ１．ｈｔｍｌに対する処理は終了する。

一方、ステップＳＴ８において、ＡｔｒＣｍｄでない場合には音声認識結果の属性がＡｔｒＬｉｎｋかを調べる（ステップＳＴ１０）。音声認識結果の属性がＡｔｒＬｉｎｋであった場合、認識制御部５は、ブラウザ制御部３に指定されたページを実行するよう指示を出す（ステップＳＴ１１）。この場合にはＣＧＩを呼び出すことにより不動産物件の検索を実行する。この処理により、ウェブページがＳｅａｒｃｈ．ｈｔｍｌに変わるので、ウェブページＣ１．ｈｔｍｌに対する処理は終了する。

次に、ステップＳＴ１０で、音声認識結果の属性がＡｔｒＬｉｎｋでない場合には、音声認識結果の属性がＡｔｒＴａｇかを調べる（ステップＳＴ１２）。音声認識結果の属性がＡｔｒＴａｇであった場合、認識制御部５は、ウェブブラウザ１が対応するテキストボックスをフォーカスするようブラウザ制御部３に指示を出す（ステップＳＴ１３）。一方、ステップＳＴ１２において、音声認識結果の属性がＡｔｒＴａｇでなかった場合には、音声認識結果の属性がＡｔｒＴｅｘｔであるため、認識制御部５は、ウェブブラウザ１がフォーカスされているテキストボックスに音声認識結果を入れるようブラウザ制御部３に指示を出す。

以上のように、この実施の形態１によれば、ウェブページ解析部（ウェブページ解析手段）２を設けてウェブブラウザがネットワークから取り込んだウェブページの解析を行い、解析結果としてウェブページとテキストボックスの有無を得るようにし、認識辞書記憶部（認識辞書記憶手段）６において、ウェブページに対する音声入力を音声認識するためのそれぞれの認識語彙に関する複数の認識辞書を格納しておき、また制御データ記憶部（制御データ記憶手段）４において、ウェブページごとに使用する認識辞書の指定を行うための制御データを格納しておき、認識制御部（認識制御手段）５により、解析結果がテキストボックス有りの場合に制御データ記憶部４から対応した制御データを抽出してテキストボックス用の認識辞書を指定し、音声認識部（音声認識手段）７により、当該テキストボックスに対して入力された音声を指定されたテキストボックス用の認識辞書に基づいて認識し、認識制御部５は、その音声認識結果を得ると、ブラウザ制御部（ブラウザ制御手段）３に与えてウェブページ中の当該テキストボックスに表示させるべくウェブブラウザの制御を行う。したがって、ウェブページ中のテキストボックスに対する入力音声についても専用の認識辞書を準備して音声認識を行えるため、テキストボックスを用いたことで表示する選択語彙を絞り込めるのでウェブページ上での表示領域を削減でき、入力操作を容易にできる効果が得られる。

また、この実施の形態１によれば、テキストボックスがフォーカスされたときにはウェブページ解析部２により認識制御部５にそのことを通知し、認識制御部５は、フォーカスされたテキストボックスに対する制御データを制御データ記憶部４から選択し、当該制御データに基づいて対応するテキストボックス用の認識辞書を使用するよう音声認識部７に指定するようにしている。したがって、同じウェブページ上に複数のテキストボックスがある場合においても、フォーカスされたテキストボックス用の個別の認識辞書を用いるようにしているため、その分、認識語彙を絞り込むことができる。一般に音声認識の分野では、認識語彙が増えるほど、認識率が低下するので、この実施の形態１のようにテキストボックス毎に個別の認識辞書を選択することで認識語彙を絞り込むことは認識率の向上につながる効果が得られる。さらに、認識辞書記憶部６には、テキストボックスを音声入力によりフォーカスするための認識語彙を設定した認識辞書を格納しておくようにし、音声認識部７でこの認識辞書を用いてテキストボックスをフォーカスするための認識語彙の入力音声を認識した場合、認識制御部５は、当該テキストボックスをフォーカスするようブラウザ制御部３によりウェブブラウザ１を制御させるようにしている。このことにより、テキストボックスのフォーカスをマウス入力やキーボード入力による以外に音声入力によっても行えるため、適切に認識辞書を切り替えることができ、音声認識を良好に行える効果が得られる。
なお、この実施の形態１で述べてきた機能は、制御データ記憶部４、認識辞書記憶部６を用いてＣＰＵで処理を行うプログラムで構成したものとしても実現できるものである。

この発明の実施の形態１によるウェブページ入力装置の構成を示すブロック図である。同実施の形態１に係るサイトのウェブページの構成を示す説明図である。同実施の形態１に係るウェブページの内容を示す説明図である。同実施の形態１に係るウェブブラウザのトップページの表示内容を示す説明図である。同実施の形態１に係る検索ページの表示内容を示す説明図である。同実施の形態１に係る検索結果の表示内容を示す説明図である。同実施の形態１に係る制御データ記憶部のデータ内容を示す説明図である。同実施の形態１に係るウェブページに対応する制御データの構成内容の例を示す説明図である。同実施の形態１に係る認識辞書の内容を示す説明図である。同実施の形態１に係る検索ページのフォーカス動作を示す説明図である。同実施の形態１に係る検索ページの処理手順の一部を示すフローチャートである。同実施の形態１に係る検索ページの処理手順の他の部分を示すフローチャートである。検索ページによる検索結果の表示内容を示す説明図である。

符号の説明

１ウェブブラウザ、２ウェブページ解析部、３ブラウザ制御部、４制御データ記憶部、５認識制御部、６認識辞書記憶部、７音声認識部。

Claims

ウェブブラウザがネットワークから取り込んだウェブページの解析を行い、解析結果としてウェブページとテキストボックスの有無を得るウェブページ解析手段と、
ウェブページに対する音声入力を音声認識するためのそれぞれの認識語彙に関する複数の認識辞書を格納する認識辞書記憶手段と、
ウェブページごとに使用する認識辞書の指定を行うための制御データを格納する制御データ記憶手段と、
ウェブページに対してユーザが入力した音声を前記制御データにより指定された認識辞書を用いて認識し認識結果を得る音声認識手段と、
前記解析結果のウェブページに対応した制御データを前記制御データ記憶手段から抽出し、前記解析結果でテキストボックス有りの場合には当該制御データにより対応するテキストボックス用の認識辞書を指定し、当該テキストボックスに対して入力された音声を指定されたテキストボックス用の認識辞書に基づいて前記音声認識手段で認識させ、その音声認識結果を得る認識制御手段と、
前記ブラウザを制御して、前記認識制御手段が得た当該テキストボックスに対する入力音声の音声認識結果をウェブページ中の当該テキストボックスに表示させるブラウザ制御手段とを備えたことを特徴とするウェブページ入力装置。
ウェブページ解析手段は、テキストボックスがフォーカスされたときに認識制御手段に通知し、
前記認識制御手段は、フォーカスされたテキストボックスに対する制御データを制御データ記憶手段から選択し、当該制御データに基づいて対応するテキストボックス用の認識辞書を使用するよう音声認識手段に指定することを特徴とする請求項１記載のウェブページ入力装置。
認識辞書記憶手段は、テキストボックスをフォーカスするために入力される音声を認識するのに使用する認識語彙を設定した認識辞書を格納し、
認識制御手段は、音声認識手段が前記認識辞書を用いてテキストボックスをフォーカスする入力音声を認識した場合に、ブラウザ制御手段を介してウェブブラウザを制御し、当該テキストボックスをフォーカスさせることを特徴とする請求項１または請求項２記載のウェブページ入力装置。
ウェブページに対する音声入力を音声認識するためのそれぞれの認識語彙に関する複数の認識辞書を格納した認識辞書記憶手段と、ウェブページごとに使用する認識辞書の指定を行うための複数の制御データを格納した制御データ記憶手段とを使用してウェブページの入力処理を行うプログラムであって、
ウェブブラウザがネットワークから取り込んだウェブページの解析を行い、当該ウェブページにおいてテキストボックスの有無を検出し、
テキストボックスが有りの場合には前記制御データ記憶手段からの制御データに応じて前記認識辞書記憶手段から対応するテキストボックス用の認識辞書を指定し、
当該テキストボックスに対して入力された音声を前記指定されたテキストボックス用の認識辞書を用いて音声認識し、
得られた音声認識結果を当該テキストボックスに表示させるようウェブブラウザを制御するプログラム。
テキストボックスがフォーカスされた場合、当該テキストボックスに対する制御データを制御データ記憶手段から選択し、当該制御データに基づいて対応するテキストボックス用の認識辞書を指定して音声認識に使用するようにしたことを特徴とする請求項４記載のプログラム。
認識辞書記憶手段は、テキストボックスをフォーカスするための認識語彙を設定した認識辞書を格納しており、
テキストボックスをフォーカスするための認識語彙の入力音声を前記認識辞書を用いて認識した場合に、当該テキストボックスをフォーカスするようウェブブラウザを制御するようにしたことを特徴とする請求項４または請求項５記載のプログラム。