JP2007164732A

JP2007164732A - コンピュータ実行可能なプログラム、および情報処理装置

Info

Publication number: JP2007164732A
Application number: JP2005364057A
Authority: JP
Inventors: Yoshiharu Asai; 芳治浅井
Original assignee: CRESCENT KK
Current assignee: CRESCENT KK
Priority date: 2005-12-16
Filing date: 2005-12-16
Publication date: 2007-06-28

Abstract

【課題】ユーザインターフェースを構成するプログラムに、そのプログラムを改変することなく、音声認識機能を追加することができる技術を提供する。
【解決手段】部品情報によって定義されるユーザインターフェース部品を含み、コンピュータ画面上に構成される第１の画面部分の表示態様を定義する画面表示定義情報を検索する手段と、前記ユーザインターフェース部品を含む第２の画面部分を表示する手段と、発話によって特定される文字列情報と前記部品情報とを対応付ける発話部品テーブルを記憶する手段と、発話を受け付けて生成された文字列情報を取得する手段と、前記生成された文字列情報に対応するユーザインターフェース部品を特定する手段と、前記ユーザインターフェース部品に応じた処理を実行する処理手段と、を備える情報処理装置である。
【選択図】図１３

Description

本発明は、ユーザインターフェースに音声認識機能を組み込むためのコンピュータ実行可能なプログラムおよびそのプログラムを搭載した情報処理装置に関する。

従来、ユーザインターフェース、例えば、ウェブ上で利用可能なアプリケーションプログラムに音声認識機能を組み込む技術としては、例えば、下記特許文献１が知られている。この技術では、ネットワーク上にウェブサーバと音声サーバとを設け、ウェブサーバと音声サーバとが互いに状態を通知し同期を取ることによって、ネットワーク上の端末からの音声によるアクセスとウェブアクセスとのシームレスな連携を図っている。

しかし、このような構成では、ネットワークでウェブサーバと音声サーバとが互いに状態を通知し同期を取るための複雑なシステムが必要となる。そのため、既存のユーザインターフェースにおいてより簡略に音声によるアクセスを可能とするためには、端末自体に音声認識機能を設ければよい。そして、端末上で音声から文字列への変換と、変換された文字列のユーザインターフェースへの入力とを実行すればよい。

しかしながら、通常の画面を通じてのユーザインターフェースに、音声認識機能を追加するためには、音声認識エンジン（例えば、非特許文献１参照）を端末にインストールするとともに、ユーザインターフェースを構成するコンピュータプログラム（以下、単にプログラムという）に、音声認識エンジンから認識された情報を取得するためのインターフェース部分を設ける必要がある。

このようなインターフェース部分をプログラムに設けるためには、通常は、ソースプログラムの改造、および再コンパイルが必要となる。すなわち、音声認識エンジンとのインターフェースを組み込んだプログラムの新たな開発が必要となる。したがって、すでに、エンドユーザに配布済みのプログラムに対して、バージョンアップなしに音声認識機能を追加することは、現状の技術では通常想定されていない。
特開２００４−２４６８６５号公報 "音声認識エンジン"、［online］、日本アイ・ビー・エム株式会社、［平成１７年１２月１２日検索］、インターネット（URL:http://www-06.ibm.com/jp/voiceland/technology/p03.html）

本発明は、このような課題を解決するためになされた。本発明の目的は、ユーザインターフェースを構成するプログラムに、そのプログラムを改変することなく、音声認識機能を追加することができる技術を提供することにある。

本発明は前記課題を解決するために、以下の手段を採用した。すなわち、本発明は、ユーザインターフェース部品を含み、コンピュータ画面上に構成される第１の画面部分の表示態様を定義する画面表示定義情報から前記ユーザインターフェース部品を定義する部品情報を検索する手段と、発話によって特定される対象となる、前記ユーザインターフェース部品に対応する文字列情報の入力を受け付ける手段と、前記部品情報と関連付けて前記文字列情報を発話部品テーブルに記憶する手段と、を備える情報処理装置である。

また、本発明は、部品情報によって定義されるユーザインターフェース部品を含み、コンピュータ画面上に構成される第１の画面部分の表示態様を定義する画面表示定義情報を検索する手段と、前記ユーザインターフェース部品を含む第２の画面部分を表示する手段と、発話によって特定される文字列情報と前記部品情報とを対応付ける発話部品テーブルを記憶する手段と、発話を受け付けて生成された文字列情報を取得する手段と、前記生成された文字列情報に対応するユーザインターフェース部品を特定する手段と、前記ユーザインターフェース部品に応じた処理を実行する処理手段と、を備える情報処理装置であってもよい。

本発明によれば、第１の画面部分のユーザインターフェース部品を定義する部品情報に対して発話によって特定される文字列情報を対応付けることにより、発話によって前記第２のユーザインターフェース部品を通じて前記ユーザインターフェース部品に応じた処理を実行することができる。

本発明は、コンピュータが上記いずれかの処理を実行する方法であってもよい。また、本発明は、上記いずれかの手段としてコンピュータを機能させるコンピュータ実行可能なプログラムであってもよい。また、本発明は、そのようなコンピュータ実行可能なプログラムをコンピュータが読み取り可能な記録媒体に記録したものであってもよい。

本発明によれば、ユーザインターフェースを構成するプログラムに、そのプログラムを改変することなく、音声認識機能を追加することができる。

以下、図面を参照して本発明を実施するための最良の形態（以下、実施形態という）に係る情報システムについて説明する。以下の実施形態の構成は例示であり、本発明は実施形態の構成には限定されない。

＜情報システムの概要＞
図１に、本実施形態に係る情報システムの構成図を示す。この情報システムは、ウェブページ（ウェブサイトともいう）においてウェブアプリケーションプログラムによるサービスをネットワーク上のユーザコンピュータ（以下、クライアント２という）に提供するサーバ１と、サーバ１からサービスの提供を受けるクライアント２を含んでいる。

ここで、ネットワークは、インターネットのような公衆ネットワークであってもいいし、ＬＡＮ（Local Area Network ）、専用線、またはＶＰＮ（Virtual Private Network
）等によって構成されたプライベートなネットワークであってもよい。

サーバ１は、ウェブサーバプログラムを実行し、クライアント２にウェブページを通じて利用可能なアプリケーションプログラムによるサービスを提供する。サーバ１は、例えば、ＨＴＭＬ（HyperText Markup Language）、またはＸＭＬ（eXtensible Markup Language ）等で記述された情報をクライアント２に送信する。また、サーバ１は、は、ＪＳＰ（Java（登録商標) Server Pages）、あるいは、IIS(Internet Information Service)に
基づいて記述された情報から、連携するプログラムを実行する。そして、サーバ１は、ウェブページを動的に生成してクライアント２に送信する。

クライアント２は、例えば、アプリケーションプログラムとしてブラウザプログラムを実行する。そして、クライアント２は、サーバ１にＨＴＭＬ、ＸＭＬ等による情報の提供を要求するとともに、提供された情報を表示装置の画面上に表示する。これにより、サーバ１のウェブページがクライアント２の表示装置に表示され、サーバ１またはサーバ１と
連携する他のコンピュータで実行されるアプリケーションプログラムのユーザインターフェースがクライアント２上で利用可能となる。

サーバ１およびクライアント２は、いずれも、ＣＰＵ、メモリ、入出力インターフェース、表示装置、ハードディスク、ネットワークとの通信インターフェース、ユーザの発話内容収集するマイクロホン、音声を出力するスピーカ、着脱可能な可搬媒体の駆動装置等を有している。サーバ１およびクライアント２は、それぞれのコンピュータプログラムを実行することにより、サーバ１およびクライアント２としての機能を実現している。いずれにしても、サーバ１およびクライアント２の構成要素および作用は広く知られているので、その説明は省略する。

本情報システムの特徴は、クライアント２に表示されたウェブページ（およびサーバ１で実行されるアプリケーションプログラムのユーザインターフェース）にユーザがアクセスするときに、ユーザの発話によるアクセスを可能とする点にある。

すなわち、ユーザの発話内容をクライアント２が認識し、その発話内容に対応する文字列を生成する。そして、クライアント２は、その文字列をウェブページとして表示されたユーザインターフェースに設定する。例えば、クライアント２は、その文字列に対応するウェブページを表示し、あるいは、その文字列に対応するウェブページを表示するウィンドウをフォーカス（マウス等のポインタで選択された状態に）する。

また、クライアント２は、その文字列に対応するラベルの付された画面上の構成要素、例えば、テキスト入力フィールドに文字列を設定する。また、クライアント２は、その文字列に対応する選択肢をプルダウンメニュのリストから選択する。また、クライアント２は、その文字列に対応するラベルの付されたボタンを押下する。このようにして、本情報システムでは、ユーザは、音声を通じてウェブ上のグラフィカルユーザインターフェース部品を操作することが可能である。

サーバ１は、そのような発話によるユーザインターフェース構築を支援する。サーバ１には、クライアント２上での発話内容をウェブページ上のユーザインターフェース部品に関係付けるためのプログラム（以下、発話定義ツールという）を有している。

発話定義ツールは、サーバ１を管理するユーザによって指定されたウェブページを解析し、そのウェブページに配置されたユーザインターフェース部品をピックアップする。ここで、サーバ１を管理するユーザとは、ウェブページをクライアント２に配信し、クライアント２にアプリケーションプログラムを利用させるユーザ、例えば、アプリケーションサービスプロバイダである。

発話定義ツールは、指定されたウェブページを記述する定義ファイル、例えば、ＨＴＭＬ、ＸＭＬ、ＪＳＰ、ＩＩＳ等のファイルを解析し、ウェブページに含まれるユーザインターフェース部品の構成を抽出する。そして、発話定義ツールは、抽出された個々のユーザインターフェース部品を選択するための音声情報を受け付ける。

例えば、発話ツールは、ユーザに特定のユーザインターフェース部品、「商品選択」というラベルの付されたプルダウンメニュを選択させる（選択を受け付ける）。そして、その状態で、ユーザがそのプルダウンメニュをフォーカスしたいときに発する言葉を発話する。

すると、発話された音声情報は、例えば、マイクロホンにより検知され、音声文字変換ツール（いわゆる音声認識プログラム）を通じて文字列（例えば、「しょうひんせんたく
」に変換される。そして、変換された文字列「しょうひんせんたく」が発話定義ツールに引き渡される。

発話定義ツールは、上記ユーザインターフェースを識別する情報（例えば、ＨＴＭＬのファイルの所在を示すＵＲＬ、そのＨＴＭＬファイル中で上記プルダウンメニュを表示させるタグ情報）と、そのユーザインターフェース上の文字列（例えば、「商品選択」）と、発話内容から変換された文字列（例えば、「しょうひんせんたく」）とを関係付けてデータベースに格納する。

データベースには、発話内容とユーザインターフェース部品とを関係付ける発話定義情報、発話定義情報を構築するための各種管理情報（各種マスタという）が格納されている。

クライアント２には、事前に、サーバ１から上記データベースが提供されている。また、クライアント２には、音声文字変換ツールの他、エンジンと呼ばれるプログラムがインストールされている。

エンジンは、音声文字変換ツールにから引き渡される文字列に基づいて、データベースを検索し、その文字列に関係付けられるユーザインターフェース部品を特定し、そのユーザインターフェース部品に応じた処理を実行する。例えば、エンジンは、文字列に対応するユーザインターフェース部品を含むブラウザのウィンドウを表示する。

また、エンジンは、そのウィンドウと他のウィンドウとの表示上の階層関係の変更する。例えば、エンジンは、そのユーザインターフェース部品を含むブラウザのウィンドウを最上位に表示する。また、エンジンは、そのユーザインターフェース部品の選択（ポインタの位置づけ）、または、そのユーザインターフェース部品への文字列の設定を実行する。

このようにして、本情報システムでは、サーバ１上の発話定義ツールによって発話定義情報が構築され、サーバ１からクライアント２に提供される。クライアント２では、音声文字変換ツールが発話内容を文字列に変換する。また、音声文字変換ツールと連携するエンジンが変換された文字列から対応させるべきユーザインターフェース部品を特定し、上記そのユーザインターフェース部品に応じた処理を実行する。

このようにして本情報システムでは、サーバ１のウェブページとして提供されるユーザインターフェースに、サーバ１のプログラムを改変することなく、発話によるユーザインターフェースを追加することができる。

図２に、サーバ１上の処理を示すフローチャートを示す。このフローチャートは、左右および中央からなる３つの縦長領域に分割され、各領域がサーバ１で実行されるプログラムを示している。したがって、図２のフローチャートにより、プログラム間の連携関係も示されている。図２で、左側領域がユーザインターフェースを形成するアプリケーションを示す。また、中央の領域が発話定義ツールを示す。また、右側の領域が音声文字変換部を示す。なお、音声文字変換部は、例えば、商用の音声認識プログラムと、音声認識の結果得られる発話定義情報とを含む。

なお、本実施形態では、音声認識プログラムについて制限はなく、一般のアプリケーションプログラムとのインターフェースがあるものであれば、どのようなプログラムを使用してよい。

この処理では、まず、サーバ１上で発話定義ツールが起動される（Ｓ１）。すると、サーバ１の表示装置に発話定義ツールの操作画面が表示される。また、サーバ１上では、すでに、音声認識機能を付加したいアプリケーションプログラムのユーザインターフェース（例えば、ブラウザ画面上でウェブアプリケーションのユーザインターフェースの画面）が起動されていると仮定する。

ユーザは、そのユーザインターフェースに相当する画面を発話定義ツールの操作画面にドラッグアンドドロップする（Ｓ２）。すると、発話定義ツールは、そのユーザインターフェースを定義する定義情報（本発明の画面表示定義情報に相当する）、例えば、ＨＴＭＬファイル、ＸＭＬファイル等の存在場所を示す識別情報（ＵＲＬ、Uniform Resource Locator 等）を取得する。この定義情報は、周知のように、サーバ１のハードディスク、
あるいは、サーバ１とネットワークを通じて接続される他のコンピュータの記憶装置に格納されている。

そして、そのユーザインターフェースを定義する情報を解析し（この処理を実行するサーバ１のＣＰＵが部品情報を検索する手段に相当）、ユーザインターフェースを構成する部品（本発明のユーザインターフェース部品に相当）、例えば、ラベル、入力フィールド、プルダウンメニュのリスト、押しボタンのラベル等の定義情報（本発明の部品情報に相当）を取得する。そして、発話定義ツールは、そのユーザインターフェースを示す画面を生成する（Ｓ３）。

次に、発話定義ツールは、ユーザの操作に応じてユーザインターフェース上の各フィールド、あるいは、各ユーザインターフェース部品にそれぞれ発話による読みを設定していく（Ｓ４）。すなわち、定義ツールは、ユーザの入力装置（キーボード、マウス等ポインティングデバイス）を通じた操作に応じて、読みを設定する対象のユーザインターフェース部品を選択する（フォーカスする）。そして、その状態で、マイクロホンを通じて入力された音声が、音声文字変換ツールによって文字列に変換される。発話定義ツールは、音声文字変換ツールのアプリケーションインターフェースを通じて変換された文字列を取得する（この処理を実行するサーバ１のＣＰＵが、本発明のユーザインターフェース部品に対応する文字列情報の入力を受け付ける手段に相当する）。ただし、マイクロホンを通じて入力された音声入力する代わりに、キーボードあるいはポインティングデバイス等により、発話文字列を手入力するようにしても構わない。

さらに、必要に応じて、そのユーザインターフェース部品に対する属性を設定する。そして、そのユーザインターフェース部品を識別する情報（例えば、ＨＴＭＬファイルのタグ）と音声に基づく文字列と属性情報等が組になって音声文字変換部のデータベースに格納される（Ｓ５）。図２では、このデータベースを辞書ファイルおよびプロファイルとして示している。

次に、発話定義ツールは、対象アプリケーションを動作させる固有の情報を作成し、データベースに記憶する（Ｓ６）。すなわち、Ｓ４の処理にて変換された文字列およびＳ５にて設定された属性等が、選択中のユーザインターフェース部品と関係付けてデータベースに記憶される（データベースが本発明の発話部品テーブルに記憶する手段に相当する）。

図３は、図２の設定によって音声認識機能が付加されたユーザインターフェースを利用するクライアント２側の処理を示すフローチャートである。このフローチャートは、左右および中央からなる３つの縦長領域に分割され、各領域がクライアント２で実行されるプログラムを示している。したがって、図３のフローチャートにより、プログラム間の連携関係も示されている。図３で、左側領域がユーザインターフェースを形成するアプリケー
ションを示す。また、中央の領域が音声認識機能を制御するエンジンを示す。また、右側の領域が音声文字変換部を示す。

予め、クライアント２には、図２のＳ４−Ｓ６の処理で設定されたデータベースの情報（辞書ファイルおよびプロファイル、本発明の発話部品テーブルに相当）がダウンロードされている（この処理を実行するクライアント２のＣＰＵが他の情報処理装置から前記発話部品テーブルの情報の提供を受ける手段に相当する。また、データベースの情報を提供するサーバ１のＣＰＵが、本発明の発話部品テーブルの情報を提供する手段に相当する）。なお、データベースの情報は、クライアント２がサーバ１にアクセスするたびにサーバ１からダウンロードするようにしてもよい。また、クライアント２がサーバ１にアクセスしたときに、データベースの情報がクライアント２にないことが検知されたときにサーバ１からダウンロードするようにしてもよい。また、クライアント２がサーバ１にアクセスしたときに、データベースの情報が更新されていることが検知されたときにサーバ１からダウンロードするようにしてもよい。このデータベースを記憶するクライアント２のハードディスクが本発明の発話部品テーブルを記憶する手段に相当する。

また、クライアント２には、一般的なブラウザおよび音声文字変換ツールがインストールされている。さらに、音声文字変換ツールの音声認識結果である文字列を受け取り、データベース（辞書ファイルおよびプロファイル）を検索するエンジンがインストールされる。サーバ１が、クライアント２にエンジンがインストールされていないことを検知したときに、エンジンとデータベースの情報とダウンロードするようにしてもよい。このような処理を実行するサーバ１のＣＰＵが、本発明のコンピュータプログラムを配布する手段に相当する。

このようなインストールが完了した状態で、まず、エンジンが起動される（Ｓ１１）。エンジンが起動された状態で、アプリケーションプログラムのユーザインターフェース（本発明の第１の画面部分に相当）が起動されると（Ｓ１２Ａ）、エンジンは、そのアプリケーションプログラムのユーザインターフェースを定義する定義情報（本発明の画面表示定義情報に相当）、例えば、ＨＴＭＬファイル、ＸＭＬファイル等の存在場所を示す識別情報（ＵＲＬ等）を取得する。例えば、エンジンは、ブラウザが表示先のＵＲＬを切り替えるごとにそのＵＲＬを検知する。そして、エンジンは、そのＵＲＬがデータベース（辞書ファイルおよびプロファイル）に設定されたＵＲＬと一致するか否かを判定する。

そして、識別情報がデータベースに設定されている場合、エンジンはその識別情報で定義されるユーザインターフェースが音声認識の対象であると判断する。その場合には、エンジンは、その識別情報で示される格納先からユーザインターフェース部品を定義する定義情報（本発明の部品情報に相当）を読み出し、本来のユーザインターフェースに重畳する疑似画面（本発明の第２の画面部分に相当）を生成する（Ｓ１３）。

したがって、この状態では、ユーザが実行中のアプリケーションのユーザインターフェースにオーバーラップして、疑似画面が表示装置に表示されている（この表示を制御するクライアント２が本発明の第２の画面部分を表示する手段に相当する）。ただし、ユーザから見ると、本来のアプリケーションプログラムのユーザインターフェースが表示されているように見える。本実施形態の情報システムでは、この段階までをクライアント２側の準備作業と呼ぶ。

このように準備作業が終了した状態で、ユーザが音声入力する。例えば、ユーザがマイクロホンに向かって発話する（Ｓ１４）。すると、音声文字変換ツールが音声をＡＳＣＩＩコードに変換する（Ｓ１５）。さらに、音声文字変換ツールがＡＳＣＩＩコードから文字列（テキスト）を生成する。

そして、音声認識された文字列がエンジンに引き渡される（Ｓ１７、この処理を実行するクライアント２のＣＰＵが発話を受け付けて生成された文字列情報を取得する手段に相当する）。エンジンは、音声認識ツールから引き渡された文字列を基にデータベース（辞書ファイルおよびプロファイル）を検索する（この処理を実行するクライアント２のＣＰＵが生成された文字列情報に対応するユーザインターフェース部品を特定する手段に相当する）。

その文字列に対応づけたユーザインターフェース部品がデータベースに定義されていた場合、エンジンはそのユーザインターフェース部品に応じた処理を実行する（Ｓ１９、この処理を実行するクライアント２のＣＰＵがユーザインターフェース部品に応じた処理を実行する処理手段に相当する）。

例えば、エンジンは、そのユーザインターフェース部品が画面の一部を構成するウィンドウである場合には、そのウィンドウを表示する。また、エンジンは、そのウィンドウを複数ウィンドウからなる階層のうちの最上位の階層に表示する。また、そのユーザインターフェース部品がテキスト入力フィールドである場合には、エンジンは、その入力フィールドに文字列を設定する。また、そのユーザインターフェース部品がプルダウンメニュのタイトルである場合、エンジンは、そのプルダウンメニュのリスト（選択肢）を表示する。また、そのユーザインターフェース部品がプルダウンメニュのリストに含まれる要素（選択肢）の１つである場合、エンジンは、その選択肢を選択する。また、そのユーザインターフェース部品が押しボタンのラベルである場合、エンジンは、その押しボタンを押下する。このようにして、エンジンは、Ｓ１４からＳ１９までの処理が繰り返すように制御する。

＜データ構造＞
以下、本実施形態の情報システムが使用するデータベース（辞書ファイルおよびプロファイル）のデータ構造を説明する。本実施形態では、データベースは、複数のテーブルから構成され、例えば、ハードディスク等の記憶装置に記憶されている。

図４は、ＵＲＬマスタと呼ばれるテーブルの構成を示す図である。ＵＲＬマスタは、ブラウザに表示されるウェブページを定義する定義情報の格納先を記録する。すなわち、ＵＲＬマスタは、エンジンの処理対象であるユーザインターフェースを示す情報を格納している。

図４のように、ＵＲＬマスタは、テーブルの各行を識別する情報のフィールド（Ｌ＿ＩＤ）、ＵＲＬを格納するフィールド（Ｓ＿ＵＲＬ）、そのウェブページのタイトルを格納するフィールド（Ｓ＿ＴＩＴＬＥ）、そのＵＲＬをデータベースに登録した日付（Ｄ＿ＲＥＧＩＳＴＥＲ）、そのＵＲＬの情報を更新した日付（Ｄ＿ＵＰＤＡＴＥ）等を有している。

図５は、フィールドマスタの構成を示す図である。フィールドマスタは、各ウェブページ上のユーザインターフェース部品を定義する。ＵＲＬマスタは、サーバ１において、ユーザインターフェース部品の定義情報が解析された結果生成されるテーブルである。

図５のように、フィールドマスタの各行の先頭には、ＵＲＬマスタのＬ＿ＩＤが指定されている。したがって、フィールドマスタの各行は、ＵＲＬマスタのいずれかの行と関連づけされる。

また、フィールドマスタは、カーソル移動語（そのユーザインターフェース部品のフィ
ールド名、Ｓ＿ＴＩＴＬＥ）、データ型（Ｓ＿ＦＩＥＬＤ＿ＴＹＰＥ、Ｓ＿ＴＡＧ＿ＴＹＰＥ）、属性（Ｓ＿ＦＩＥＬＤ＿ＩＮＦＯ）、そのフィールドに設定すべき値が価格であった場合の商品単価やフィールドの書式（Ｓ＿ＵＮＩＴ、Ｓ＿ＦＯＲＭＡＴ）、そのフィールドから抽出された値（Ｓ＿ＤＥＦＡＵＬＴＦＯＲＭおよびＳ＿ＷＲＩＴＥＦＯＲＭ）等を含んでいる。

このうち、Ｓ＿ＤＥＦＡＵＬＴＦＯＲＭは表記用文字列である。音声文字変換ツールとのインターフェース部分において、ユーザインターフェース部品の文字列に半角・全角スペースがあると認識不可となってしまう場合がある。そこで、表記用文字列から半角・全角スペースを削除したものがＳ＿ＷＲＩＴＴＥＮＦＯＲＭである
なお、フィールドから抽出された値（Ｓ＿ＤＥＦＡＵＬＴＦＯＲＭおよびＳ＿ＷＲＩＴＥＦＯＲＭ）は、ユーザインターフェース部品がテキスト入力フィールドである場合には、入力する文字列が固定である場合を除いて空欄であり、ユーザインターフェース部品がプルダウンメニュの選択肢である場合には、その要素の値であり、ユーザインターフェース部品が押しボタンである場合には、そのラベルであり、ユーザインターフェース部品がウィンドウやプルダウンメニュのタイトルである場合には、そのタイトル文字列である。このフィールドから抽出された値（Ｓ＿ＤＥＦＡＵＬＴＦＯＲＭおよびＳ＿ＷＲＩＴＥＦＯＲＭ）は、ユーザインターフェース部品に対応付けられる値と呼ぶ。

図６は、発話マスタの構成を示す図である。発話マスタは、ユーザインターフェース部品それぞれに対応付けられる値（Ｓ＿ＷＲＩＴＥＦＯＲＭ）に対応する読み（Ｓ＿ＳＰＯＫＥＮＦＯＲＭ）を定義する。例えば、「コーヒー」に対して「こーひー」が対応付けられ、「商品選択」に対して「しょうひんせんたく」が対応付けられる。

なお、ユーザインターフェース部品それぞれに対応付けられる値の１つに対して、複数の読みを設定してよい。例えば、「四菱プラズマテレビ５０インチＹＰＴ−５０」という値に対して、「ごじゅういんちぷらずま」、「ごじゅういんちぷらずまてれび」、「よんびしぷらずまてれびごじゅういんち」等が設定される。例えば、本実施形態の情報システムがインターネットショッピングのユーザインターフェースに対して、音声認識機能を追加する場合、商品名である「四菱プラズマテレビ５０インチＹＰＴ−５０」に対して、サービスを利用するエンドユーザは、様々な読みを発話することが想定される。発話マスタには、値（Ｓ＿ＷＲＩＴＥＦＯＲＭ）に対して想定される読みを数多く設定しておけばよい。

さらに、図６のように、各行には、読みの設定日付のフィールド（Ｄ＿ＲＥＧＩＳＴＥＲ）が設けられている。

図７は、移動語マスタと呼ばれるテーブルの構成を示す図である。移動語マスタは、ユーザインターフェース部品それぞれに対応付けられる値のうち、移動語として利用される値を定義するテーブルである。移動語とは、その発話結果から変換された文字列が移動語マスタに値（Ｓ＿ＷＲＩＴＥＦＯＲＭ）として登録されていた場合、その値に対応するユーザインターフェース部品にポインティングデバイスのポインタが移動する。すなわち、そのユーザインターフェース部品が選択状態（フォーカスされた状態）となる。図７のように、移動語マスタは、値（Ｓ＿ＷＲＩＴＥＦＯＲＭ）、読み（Ｓ＿ＳＰＯＫＥＮＦＯＲＭ）、およびデータ登録日付（Ｄ＿ＲＥＧＩＳＴＥＲ）が組になって格納する。

図８は、予約語マスタを示す図である。予約語マスタは、システムが、サーバ１にて使用される前事前に予約された値（Ｓ＿ＷＲＩＴＥＦＯＲＭ）と読み（Ｓ＿ＳＰＯＫＥＮＦＯＲＭ）との関係を定義するテーブルである。

予約語マスタには、例えば、電話番号、ＦＡＸ番号等、市内局番等、使用頻度が高く、読み方がほとんど決まっている文字列について読みが定義される。

例えば、「今日」という文字列が入力されると、予約語マスタに存在する場合、クライアント２の日付を取得し、その日付を入力する。例えば、クライアント２の日付が２００５年１２月１２日で「明日」と発話した場合、本日の日付を取得し、１日加算し、「２００５/１２/１３」を入力する。（間の／は、図１０の属性マスタの定義によるものとする）。

図９は、単位マスタを示す図である。図９のテーブルは文字列を定義する際の単位の一覧を表している。具体的にはＳ＿ＤＩＳＰＬＡＹは文字列の単位を表し、Ｓ＿ＡＴＴＲは図１０のＳ＿ＡＴＴＲとリンクされ、その文字列の書式属性を表している。
図１０は、属性マスタを示す図である。図９の単位マスタにより文字列の単位が定義され、図１０の属性マスタによりその文字列の表示属性が定義される。また、図１０の属性マスタは、図５のフィールドマスタとＳ＿ＦＯＲＭＡＴによりリンクされている。すなわち、各ユーザインターフェース部品に表示される文字列の表示書式は、フィールドマスタのＳ＿ＦＯＲＭＡＴを基に、図１０の属性マスタが検索され、決定される。

＜実施例＞
図１１から図１５の図面により、本情報システムによる実施例を説明する。本実施例では、インターネットのショッピングサイトに対して音声認識機能を追加する例を説明する。

図１１は、サーバ１においてユーザインターフェース部品（フィールドともいう）に対して音声入力を対応付ける操作を示す図である。図１１には、サーバ１で実行される定義ツール（Voice Moderato Translator（商標））の操作画面（ウィンドウともいう）１０
が示されている。この操作画面１０は、画面の略左半分の領域にウェブページ表示部１１を有している。このウェブページ表示部１１には、音声認識機能を追加するユーザインターフェース、例えば、ウェブアプリケーションのウェブページが表示される。サーバ１のユーザ
が、例えば、音声認識機能を追加したいウェブページをウェブページ表示部１１にドラッグアンドドロップすることで、そのウェブページが表示される。

また、画面の略右半分は、ウェブページ表示部１１に表示されたウェブページの解析結果および発話情報の設定領域となっている。すなわち、操作画面１０は、オブジェクト階層表示部１２、音声化対象ＵＲＬ表示部１３、認識語登録部１４、読み設定部１６のそれぞれの領域を有している。

オブジェクト階層表示部１２は、処理対象に指定されたウェブページ、すなわち、ウェブページ表示部１１に表示されたウェブページを解析し、そのウェブページ上のユーザインターフェース部品（図１１では、オブジェクトともいう）の関係を階層的に表示する。一般的に、ユーザインターフェースは、ユーザインターフェース部品の階層的な組み合わせによって構成される。また、ユーザインターフェース部品は、複数の下位部品の階層的は組み合わせによって構成される。オブジェクト階層表示部１２は、処理対象のウェブページの階層構造を示す。

例えば、ユーザインターフェースは、最上位にフォームと呼ばれるウィンドウ領域が定義され、フォーム上に、テキストボックス（テキスト入力フィールド）、プルダウンメニュ、チェックボタン等を配置して構成される。また、テキストボックスは、一般的には、タイトルを示すラベルと文字列入力フィールドを含む。また、プルダウンメニュは、タイトルを示すラベルと選択肢を示すリストと、リストを構成する要素の並びで構成される。

音声化対象ＵＲＬ表示部１３は、音声認識機能を追加するウェブページを示すＵＲＬが、そのウェブページのタイトルとともに表示される。このＵＲＬは、例えば、ユーザがウェブページをウェブページ表示部１１にドラッグアンドドロップすることにより、定義ツールが取得する。タイトルは、ＵＲＬが示す定義ファイル（ＨＴＭＬ、ＸＭＬ等）から抽出される。

認識語登録部１４は、処理対象のユーザインターフェース部品に、発話によって認識すべき文字列を対応付けて登録する。例えば、図１１では、ウェブページ上の「商品」というタイトルで示される箇所で、「商品選択」というタイトルのプルダウンメニュが操作されている。

このとき、オブジェクト階層表示部１２は、「商品選択」というプルダウンメニュが処理中であることが色（図１１上では黒く見える）で示され、認識語登録部１４には、タイトルが「商品」であり、データ型が「選択」すなわち、選択肢を含むユーザインターフェース部品であることが示される。

図１１のように、オブジェクト階層表示部１２は、移動語登録ボタン１５を有している。ユーザが移動語登録ボタンを押下すると、移動語登録画面が表示される。移動語登録ボタン１５は、タイトルに表示された文字列を移動語として設定するボタンである。

図１２に移動語登録画面を示す。移動後登録画面には、移動語に設定する文字列とその読みが組となって表示される。例えば、「商品選択」（読み「しょうひんせんたく」）という文字列が移動語として登録されると、この処理対象のウェブページが表示されている状態で、「しょうひんせんたく」という音声が発話されると、「商品選択」のタイトルの付されたプルダウンメニュがフォーカス状態になる。

図１２において、読み設定部１５には、処理対象のユーザインターフェース部品に設定すべき、または、ユーザインターフェース部品を操作するときに使用する文字列（入力文字）を定義する。ここでは、例えば、「商品選択」というプルダウンメニュのタイトルである文字列「商品選択」に対する発話音声「しょうひんせんたく」が定義される。また、プルダウンメニュの選択肢である、「コーヒー」に対する「こーひー」、「大豆」に対する「だいず」等が設定される。このような設定により、「しょうひんせんたく」が発話されると、「商品選択」というタイトルのプルダウンメニュがフォーカスされ、その状態で、「こーひー」と発話されると、「コーヒー」という選択肢が選択されることになる。すでに述べたように、入力文字に対して複数の読みを設定しても構わない。設定後、ユーザが、更新ボタン１７を押下すると、設定内容が、ＵＲＬともに、データベースに格納される。

ユーザは、以上のような設定をウェブページのそれぞれのユーザインターフェース部品に対して実行する。このような設定のなされたユーザインターフェース部品が音声認識の処理対象となる。

図１３に、インターネットショッピングを利用するエンドユーザのクライアント２上での処理例とこの処理に関係するクライアント２のアプリケーションプログラムを示す。

クライアント２には、すでに、ブラウザ２０、エンジン２１，音声文字変換ツール２２がインストールされている。また、ブラウザ２０およびエンジン２１は、クライアント２上で実行中であるとする。

図１３では、ブラウザ２０は、インターネットショッピングサイトを表示している。このインターネットショッピングサイトの音声入力を定義するデータベースは、クライアント２が最初にインターネットショッピングサイトにアクセスしたときにダウンロードされる。また、例えば、エンジン２１をインストールするときに、最新のデータベースをサーバ１からダウンロードするようにしてもよい。

エンジン２１は、起動されると常時、ブラウザ２０が表示するウェブページを示すＵＲＬを監視している。そして、エンジン２１は、ブラウザ２０が表示するＵＲＬがデータベースのＵＲＬマスタに登録されているか否かを判定する。そして、エンジン２１は、そのＵＲＬがデータベースのＵＲＬマスタに登録されていている場合、そのＵＲＬが音声認識処理の対象であると判定する。すると、エンジン２１は、そのＵＲＬで示される定義ファイル（ＨＴＭＬ、ＸＭＬ等）を読み出し、ブラウザ２０が表示するウェブページと同様の疑似画面を生成し、ブラウザ２０の表示に重畳して表示する。したがって、エンドユーザから見ると、あたかも、ブラウザ２０によってウェブページが表示されているように見える。

この状態で、エンドユーザが音声を発話すると、その音声がマイクロホン、入出力インターフェースを通じて、音声データとしてクライアント２の実行する音声文字変換ツール２２に取り込まれる。音声文字変換ツール２２は、その音声データを音素分析し、音声データをＡＳＣＩＩコード列に変換する。さらに、音声文字変換ツール２２は、辞書を検索し、ＡＳＣＩＩコード列を単語（または形態素）に分解し、辞書と照合する。そして、音声文字変換ツール２２は、単語（または形態素）の並びであるテキストを生成し、引数を通じてエンジン２１に引き渡す。

エンジン２１は、テキスト中の単語（または形態素）からデータベースの予約語マスタを検索し、発話された音声に該当する入力文字とその入力文字を入力すべきユーザインターフェース部品を決定する。あるいは、移動語マスタを検索して、発話された音声によって選択対象とすべきユーザインターフェース部品を決定する。あるいは、発話マスタおよびフィールドマスタを検索し、発話された音声に該当する入力文字とその入力文字を入力すべきユーザインターフェース部品を決定する。そして、その入力文字を該当するユーザインターフェース部品に設定し、表示装置（ディスプレイ）上のウェブページの疑似画面に表示する。

図１４に、音声入力によって設定されたウェブページの例を示す。例えば、エンジン２１が起動中に、エンドユーザが図１４のウェブページをブラウザで表示すると、エンジン２１は、そのＵＲＬがデータベースのＵＲＬマスタに登録されていることを検知する。そして、エンジン２１は、そのＵＲＬによりウェブページの構成を読みとり、ウェブページの疑似画面をブラウザに重畳して表示する。

そして、例えば、エンドユーザが「ちゅうもんないよう」と発話すると、疑似画面中の「注文内容」部分がフォーカスされる。ここで、例えば、「うけつけばんごうはいちにさんし」と発話すると、音声文字変換ツールによって「うけつけばんごう」「は」「いちにさんし」に変換される。エンジン２１は、「うけつけばんごう」によって、発話マスタを検索し、「うけつけばんごう」を「受付番号」に変換する。さらに、エンジン２１は、フィールドマスタを検索し、フィールド「受付番号」を決定し、そのフィールドを識別する情報（図５のＩ＿ＦＩＥＬＤとＩ＿ＶＡＬＵＥの値）を取得する。また、エンジン２１は、「は」の後の「いちにさんし」によって「１２３４」を決定し、「受付番号」のフィールドに「１２３４」を設定する。

また、例えば、エンドユーザが「こーひー」と発話すると、音声文字変換ツールによっ
て「こーひー」に変換される。エンジン２１は、「こーひー」を基に、発話マスタ（図６）を参照し、文字列「コーヒー」を取得する。次に、エンジン２１は、「コーヒー」を基に、ウェブページに対応する（Ｌ＿ＩＤでＵＲＬマスタとリンクされる）フィールドマスタ（図５）を参照し、「コーヒー」を設定すべきユーザインターフェース部品（図５のＩ＿ＦＩＥＬＤとＩ＿ＶＡＬＵＥの値で識別される）と、そのユーザインターフェース部品が表示されるウェブページのＵＲＬ（図５のＬ＿ＩＤの値によって定まる図４のＵＲＬマスタの行のＵＲＬ）を決定する。

図１４は、郵便番号と電話番号の入力例を示す図である。郵便番号に関しては例えば、エンドユーザが「ゆうびんばんごういちにさんのよんごろくなな」と発話すると、音声文字変換ツールによって、「ゆうびんばんごう」「いちにさん」「の」「よんごろくなな」に変換される。エンジン２１は、「ゆうびんばんごう」によって予約後マスタ（または、発話マスタ）を検索し、「郵便番号」を検知する。さらに、エンジン２１は、フィールドマスタの属性を検索し、フィールド「郵便番号」を決定する。また、フィールド「郵便番号」が複数存在する場合、ウェブページの疑似画面の現在位置をＨＴＭＬファイルあるいはＸＭＬファイル等のウェブページを構成するファイルから取得し、その位置以降の最初のフィールド「郵便番号」に決定する。

また、後の「いちにさん」「の」「よんごろくなな」を取得し、数字以外の文字を除外し、数字の羅列を生成する。フィールドマスタで取得した属性を基に書式変換し、「１２３‐４５６７」をフィールド「郵便番号」に設定する。

電話番号に関しては例えば、エンドユーザが「でんわばんごういちにのさんよんごろくのななはちきゅうぜろ」と発話すると、音声文字変換ツールによって、「でんわばんごう」「いちに」「の」「さんよんごろく」「の」「ななはちきゅうぜろ」に変換される。エンジン２１は、「でんわばんごう」によって予約後マスタ（または、発話マスタ）を検索し、「電話番号」に変換する。さらに、エンジン２１は、フィールドマスタの属性を検索し、フィールド「電話番号」を決定する。また、フィールド「電話番号」が複数存在する場合、ウェブページの疑似画面の現在位置を取得し、その位置以降の最初のフィールド「電話番号」に決定する。また、後の「いちに」「の」「さんよんごろく」「の」「ななはちきゅうぜろ」を取得し、数字以外の文字を除外し、数字の羅列を生成する。フィールドマスタで取得した属性を基に書式変換し、「１２‐３４５６−７８９０」をフィールド「電話番号」に設定する。

＜実施形態の効果＞
以上述べたように、本実施形態の情報システムによれば、サーバ１の発話定義ツールは、ユーザインターフェースを構成ウェブページを解析し、そのウェブページを構成するユーザインターフェース部品の階層構造を抽出する。そして、発話定義ツールは、各ユーザインターフェース部品に対応する読みの入力文字を受け付け、各ユーザインターフェース部品の属するＵＲＬおよび各ユーザインターフェース部品を識別する識別情報（図５のＬ＿ＩＤ、Ｉ＿ＦＩＥＬＤ、Ｉ＿ＶＡＬＵＥ等の値）とともにデータベースに格納する。

一方、エンドユーザが使用するクライアント２は、サーバ１から各ウェブページのユーザインターフェース部品対して発話による入力文字が定義されたデータベースをダウンロードしておく。そして、クライアント２で実行されるエンジン２１が、ブラウザの表示するウェブページに重畳して疑似画面を生成し、重畳して表示する。この状態で、エンドユーザが音声を発話すると、音声文字変換ツールを通じて得られた単語（あるいは形態素）を含むテキストから該当するユーザインターフェース部品が決定され、そのユーザインターフェース部品に応じた処理が実行される。例えば、そのユーザインターフェース部品がテキスト入力フィールドのタイトル、プルダウンメニュのタイトルである場合、そのユー
ザインターフェース部品がフォーカスされた状態になる。また、そのテキストの該当部分がテキスト入力フィールドに設定される。また、そのそのテキストの該当部分がプルダウンメニュの選択肢である場合は、その選択肢が選択される。

このように、本情報システムによれば、ウェブページを定義する定義ファイル（ＨＴＭＬ、ＸＭＬ、ＪＳＰ、ＩＩＳ等）、およびそのウェブページを構成するアプリケーションプログラムを変更することなく、ウェブ上のユーザインターフェースに音声認識機能を追加することができる。

＜変形例＞
上記実施形態では、主として、ネットワーク上のサーバ１とクライアント２とを含む情報システムにおいて、音声認識機能を追加する例を示した。しかし、本発明の実施は、このような構成には限定されない。例えば、スタンドアロンのコンピュータにおいて、発話定義ツールとエンジン２１の両方を搭載してもよい。すなわち、スタンドアロンのコンピュータにおいて、発話定義ツールによって構築されたデータベースを使用し、そのコンピュータ上で表示されるウェブページに音声入力するようにしてもよい。

また、発話定義ツールとエンジン２１とを一体化プログラムとして、エンドユーザに配布してもよい。その場合には、エンドユーザが、利用したいウェブアプリケーション等のウェブページ上のユーザインターフェース部品に、発話による文字列を関連付けてデータベースに登録すればよい。そして、エンドユーザ自身が設定したデータベースの定義を利用して、そのウェブページに音声入力すればよい。

また、上記実施形態では、ウェブページ上に表示されるユーザインターフェースに音声入力機能を追加する例を示した。しかし、本発明の実施は、ウェブページ上のユーザインターフェース部品には限定されない。すなわち、ＨＴＭＬファイル、あるいは、ＸＭＬファイル以外であっても、画面上のユーザインターフェース部品の構造、あるいは、そのユーザインターフェース部品のタイトルを示す文字列、入力すべき文字列を定義ツールおよびエンジン２１のような外部プログラム（音声入力の対象となるアプリケーション以外のプログラム）が特定可能な場合には、本発明の実施が可能である。

例えば、スタンドアロンのコンピュータにおいて、ワードプロセッサ、表計算プログラム、プレゼンテーションツール等の文書作成プログラムのマクロ定義情報からその文書作成プログラム上に構成したユーザインターフェースの構成を解析するようにしてもよい。

例えば、発話定義ツールは、マクロ定義情報を読み取り、上記実施形態と同様にデータベースを構築すればよい。そして、そのデータベースの提供を受けたエンジン２１が、文書作成プログラムの起動を監視し、文書作成プログラムが起動されたときに、その起動された文書作成プログラムの擬似プロセスを実行すればよい。そして、擬似プロセスの生成するユーザインターフェース画面が、本来の文書作成プログラムのユーザインターフェースに重畳して表示されるようにすればよい。このような準備の後は、上記実施形態と同様と、音声入力結果を擬似プロセスのユーザインターフェースに設定すればよい。

また、例えば、アプリケーションプログラムが、ユーザインターフェースプログラムと処理プログラムとから構成され、ユーザインターフェースプログラムと処理プログラムとがプロセス間通信で通信するような場合には、スタンドアロンの環境で、上記実施形態と同様に、ユーザインターフェースプログラムの画面に重畳して擬似画面を生成、音声入力機能を付加できる。音声入力された結果を文字列に変換し、擬似プロセスのユーザインターフェースプログラムの画面に設定し、プロセス間通信で処理プログラムに引き渡すようにすればよい。

また、例えば、ウィンドウ上の部品の構成をリソースファイルとしてバイナリプログラム外に定義しておくアプリケーションにおいては、そのリソースファイルを解析することによって、ユーザインターフェース部品を抽出し、音声入力機能を付加することができる。

なお、エンジン２１、発話定義ツール等のコンピュータ実行可能なプログラムは、ネットワークを通じて、クライアント２、あるいはサーバ１にインストールするようにしてもよい。これらのプログラムをコンピュータが読み取り可能な記録媒体（例えば、ＤＶＤ，ＣＤ−ＲＯＭ、着脱可能なディスク等）に格納して配布するようにしてもよい。また、エンジン２１、発話定義ツール等のコンピュータ実行可能なプログラムをネットワーク上のアプリケーションサービスを提供するサーバに格納しておき、プログラムの機能だけをサーバ１、あるいはクライアント２に提供してもよい。

本発明の一実施の形態に係る情報システムの構成図である。サーバ上の処理を示すフローチャートである。音声認識機能が付加されたユーザインターフェースを利用するクライアント側の処理を示すフローチャートである。ＵＲＬマスタの構成を示す図である。フィールドマスタの構成を示す図である。発話マスタの構成を示す図である。移動語マスタの構成を示す図である。予約語マスタを示す図である。単位マスタを示す図である。属性マスタを示す図である。サーバにおいてユーザインターフェース部品に対して音声入力を対応付ける操作を示す図である。移動語登録画面を示す図である。インターネットショッピングを利用するエンドユーザのクライアント上での処理例を示す図である。音声入力によって設定されたウェブページの例を示す図である。郵便番号と電話番号の入力例を示す図である。

符号の説明

１サーバ
２クライアント
１０操作画面
１１ウェブページ表示部
１２オブジェクト階層表示部
１３音声化対象ＵＲＬ表示部
１４認識語登録部
１５移動語登録ボタン
１６読み設定部
２０ブラウザ
２１エンジン
２２音声文字変換ツール

Claims

コンピュータを、
ユーザインターフェース部品を含み、コンピュータ画面上に構成される第１の画面部分の表示態様を定義する画面表示定義情報から前記ユーザインターフェース部品を定義する部品情報を検索する手段と、
発話によって特定される対象となる、前記ユーザインターフェース部品に対応する文字列情報の入力を受け付ける手段と、
前記部品情報と関連付けて前記文字列情報を発話部品テーブルに記憶する手段、
として機能させるコンピュータ実行可能なプログラム。
前記第１の画面部分を処理対象とする指定を受け付ける手段としてさらにコンピュータを機能させる請求項１に記載のコンピュータ実行可能なプログラム。
前記ユーザインターフェース部品を含む第２の画面部分を表示する手段と、
発話を受け付けて変換された文字列情報に対応するユーザインターフェース部品を特定し、そのユーザインターフェース部品に応じた処理を実行する処理手段、としてさらにコンピュータを機能させる請求項１または２に記載のコンピュータ実行可能なプログラム。
前記処理は、前記文字列情報に対応するユーザインターフェース部品を含む画面部分の表示、前記画面部分と他の画面部分との表示上の階層関係の変更、前記文字列情報に対応するユーザインターフェース部品の選択、または、前記ユーザインターフェース部品への前記文字列情報の設定である請求項３に記載のコンピュータ実行可能なプログラム。
通信手段を介して、前記画面表示定義情報を基に前記第１および第２の画面部分を表示する手段を有する他のコンピュータに対して前記発話部品テーブルの情報を提供する手段としてさらにコンピュータを機能させる請求項２から４のいずれかに記載のコンピュータ実行可能なプログラム。
通信手段を介して、前記画面表示定義情報を基に前記第１および第２の記画面部分を表示する手段を有する他のコンピュータに、前記発話から変換された文字列情報を前記ユーザインターフェース部品に対応付ける手段を含むコンピュータプログラムを配布する手段として、さらにコンピュータを機能させる請求項２から５のいずれかに記載のコンピュータ実行可能なプログラム。
前記他のコンピュータから、発話から変換され前記ユーザインターフェース部品に設定された文字列情報を受信する手段として、さらにコンピュータを機能させる請求項５または６に記載のコンピュータ実行可能なプログラム。
コンピュータが、
ユーザインターフェース部品を含み、コンピュータ画面上に構成される第１の画面部分の表示態様を定義する画面表示定義情報から前記ユーザインターフェース部品を定義する部品情報を検索するステップと、
発話によって特定される対象となる、前記ユーザインターフェース部品に対応する文字列情報の入力を受け付けるステップと、
前記部品情報と関連付けて前記文字列情報を発話部品テーブルに記憶するステップとを備える、情報処理の方法。
ユーザインターフェース部品を含み、コンピュータ画面上に構成される第１の画面部分の表示態様を定義する画面表示定義情報から前記ユーザインターフェース部品を定義する
部品情報を検索する手段と、
発話によって特定される対象となる、前記ユーザインターフェース部品に対応する文字列情報の入力を受け付ける手段と、
前記部品情報と関連付けて前記文字列情報を発話部品テーブルに記憶する手段と、を備える情報処理装置。
コンピュータに、
部品情報によって定義されるユーザインターフェース部品を含み、コンピュータ画面上に構成される第１の画面部分の表示態様を定義する画面表示定義情報を検索する手段と、
前記ユーザインターフェース部品を含む第２の画面部分を表示する手段と、
発話によって特定される文字列情報と前記部品情報とを対応付ける発話部品テーブルを記憶する手段と、
発話を受け付けて生成された文字列情報を取得する手段と、
前記生成された文字列情報に対応するユーザインターフェース部品を特定する手段と、
前記ユーザインターフェース部品に応じた処理を実行する処理手段、として機能させるコンピュータ実行可能なプログラム。
前記第２の画面部分は、前記画面表示定義情報にしたがって表示される第１の画面部分に重畳して構成される、請求項１０に記載のコンピュータ実行可能なプログラム。
前記処理は、前記文字列情報に対応するユーザインターフェース部品を含む画面部分の表示、前記画面部分と他の画面部分との表示上の階層関係の変更、前記文字列情報に対応するユーザインターフェース部品の選択、または、前記ユーザインターフェース部品への前記文字列情報の設定である請求項１０または１１に記載のコンピュータ実行可能なプログラム。
通信手段を介して、他の情報処理装置から前記発話部品テーブルの情報の提供を受ける手段としてさらにコンピュータを機能させる請求項１０から１２のいずれかに記載のコンピュータ実行可能なプログラム。
部品情報によって定義されるユーザインターフェース部品を含み、コンピュータ画面上に構成される第１の画面部分の表示態様を定義する画面表示定義情報を検索する手段と、
前記ユーザインターフェース部品を含む第２の画面部分を表示する手段と、
発話によって特定される文字列情報と前記部品情報とを対応付ける発話部品テーブルを記憶する手段と、
発話を受け付けて生成された文字列情報を取得する手段と、
前記生成された文字列情報に対応するユーザインターフェース部品を特定する手段と、
前記ユーザインターフェース部品に応じた処理を実行する処理手段と、を備える情報処理装置。