JP2024082673A

JP2024082673A - 情報処理装置、情報処理システム、情報処理方法及びプログラム

Info

Publication number: JP2024082673A
Application number: JP2022196684A
Authority: JP
Inventors: 清幸鈴木; 洋太郎吉川
Original assignee: Advanced Media Inc
Current assignee: Advanced Media Inc
Filing date: 2022-12-08
Publication date: 2024-06-20

Abstract

【課題】情報処理装置に対する情報の入力をより高速に行う。
【解決手段】情報処理装置１は、第１音声認識部５４－１と、第２音声認識部５４－２と、実行制御部５５と、を備える。第１音声認識部５４－１は、情報を入力するための画面における入力対象位置に情報を入力するための第１の発話を第１の音声認識エンジンによって音声認識する。実行制御部５５は、第１音声認識部５４－１によって音声認識された第１の発話が表す情報の入力内容に基づいて、当該情報の入力内容に関するプロセスを設定する。第２音声認識部５４－２は、実行制御部５５によって設定されたプロセス毎に、当該プロセスで入力される情報に対応する第２の音声認識エンジンによって第２の発話を音声認識する。
【選択図】図３

Description

本発明は、情報処理装置、情報処理システム、情報処理方法及びプログラムに関する。

従来、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）等の情報処理装置に対する情報の入力は、主としてキーボードやマウス操作による入力を前提としていた。
情報処理装置に入力を行うための入力装置においては、種々の観点から改良が行われている。
例えば、特許文献１には、クリック感として感得される疑似的な触感を発生させることを目的とする技術が記載されている。

特開２０２２－０８７３２１号公報

しかしながら、従来の技術においては、コンピュータプログラムに対して、主に人の手によってキーボードやマウス操作を行っているため、入力に要する時間の短縮には限界があると考えられる。
例えば、画面において入力対象となる位置をマウスでクリックした後、キーボードで文字を入力するといった動作を繰り返す場合、実際に情報を入力する動作に加えて、マウスを移動させる動作や、マウスとキーボードとの間で手を移動させる動作等が必要となり、これらの動作は情報の入力において無駄な時間となる可能性が高い。

本発明の課題は、情報処理装置に対する情報の入力をより高速に行うことである。

上記目的を達成するため、本発明の一態様の情報処理装置は、
情報を入力するための画面における入力対象位置に情報を入力するための第１の発話を第１の音声認識エンジンによって音声認識する第１音声認識手段と、
前記第１音声認識手段によって音声認識された前記第１の発話が表す情報の入力内容に基づいて、当該情報の入力内容に関するプロセスを設定するプロセス設定手段と、
前記プロセス設定手段によって設定されたプロセス毎に、当該プロセスで入力される情報に対応する第２の音声認識エンジンによって第２の発話を音声認識する第２音声認識手段と、
を備えることを特徴とする。

本発明によれば、情報処理装置に対する情報の入力をより高速に行うことができる。

本実施形態に係る情報処理装置の情報入力方法を示す模式図である。情報処理装置１のハードウェア構成を示す模式図である。情報処理装置１の機能的構成を示すブロック図である。情報処理装置１が実行する情報入力処理の流れを示すフローチャートである。情報入力処理によって情報の入力が行われるアプリケーションの入力画面例を示す模式図である。対象項目として「報告日」が発話された場合の処理手順を示す模式図である。対象項目として「利用者情報」が発話された場合の処理手順を示す模式図である。本発明を適用した情報処理システムＳのシステム構成を示す模式図である。

以下、本発明の実施形態について、図面を用いて説明する。
［第１実施形態］
図１は、本実施形態に係る情報処理装置の情報入力方法を示す模式図である。
図１に示すように、本実施形態に係る情報処理装置は、情報入力のために発声された発話１を第１の音声認識エンジン（以下、「第１エンジン」と称する。）で音声認識し、この音声認識結果に対応する処理（以下、「結果処理１」と称する。）を実行する。結果処理１では、音声認識された処理内容に応じた一連のプロセスが設定される。次に、結果処理１の設定に応じて、次の情報入力に対応する第２の音声認識エンジン（以下、「第２エンジン」と称する。）を起動し、発話２の待機状態となる。そして、発話２が発声されると、発話２を第２エンジンで音声認識し、この音声認識結果に対応する処理（以下、「結果処理２」と称する。）を実行する。同様に、結果処理１の設定に応じて、次の情報入力に対応する第３の音声認識エンジンを起動し、発話３の待機状態となる。この後、発話３の発生に対応して、同様の処理が繰り返され、第Ｎエンジン（Ｎは自然数）によって結果処理Ｎが得られると、結果処理１で設定された一連のプロセスが完了する（以下、第２の音声認識エンジン、第３の音声認識エンジン、そして、第Ｎエンジンまでを総称して、「第２エンジン」と称する。）このような処理を情報入力の対象項目毎に実行することで、音声によって全ての対象項目に対する情報入力を行うことができる。
したがって、適時に適所で適切な音声認識エンジンを使用して情報の入力を行うことができるため、情報処理装置に対する情報の入力をより高速に行うことが可能となる。
以下、本実施形態に係る情報処理装置を具体的に説明する。

［ハードウェア構成］
図２は、情報処理装置１のハードウェア構成を示す模式図である。
図２に示すように、情報処理装置１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３と、バス１４と、入力部１５と、出力部１６と、記憶部１７と、通信部１８と、ドライブ１９と、撮像部２０と、を備えている。

ＣＰＵ１１は、ＲＯＭ１２に記録されているプログラム、または、記憶部１７からＲＡＭ１３にロードされたプログラムに従って各種の処理を実行する。
ＲＡＭ１３には、ＣＰＵ１１が各種の処理を実行する上において必要なデータ等も適宜記憶される。

ＣＰＵ１１、ＲＯＭ１２及びＲＡＭ１３は、バス１４を介して相互に接続されている。バス１４には、入力部１５、出力部１６、記憶部１７、通信部１８及びドライブ１９が接続されている。

入力部１５は、情報処理装置１に対する各種情報の入力を受け付ける。本実施形態において、入力部１５は、マウスやキーボード等によって表示画面を介した操作入力を受け付ける操作入力部１５ａと、マイク等によって音声の入力を受け付ける音声入力部１５ｂとを備えている。
出力部１６は、ディスプレイやスピーカ等で構成され、画像や音声を出力する。
記憶部１７は、ハードディスクあるいはＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等で構成され、各サーバで管理される各種データを記憶する。
通信部１８は、ネットワークを介して他の装置との間で行う通信を制御する。

ドライブ１９には、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリ等よりなる、リムーバブルメディア３１が適宜装着される。ドライブ１９によってリムーバブルメディア３１から読み出されたプログラムは、必要に応じて記憶部１７にインストールされる。
撮像部２０は、レンズ及び撮像素子等を備えた撮像装置によって構成され、被写体のデジタル画像を撮像する。
なお、上記ハードウェア構成は、情報処理装置１の基本的構成であり、一部のハードウェアを備えない構成としたり、付加的なハードウェアを備えたり、ハードウェアの実装形態を変更したりすることができる。例えば、情報処理装置１は、撮像部２０を備えない構成としたり、音声認識処理を高速に実行するためのＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）を備えたりすることができる。また、情報処理装置１は、入力部１５をタッチセンサによって構成し、出力部１６のディスプレイに重ねて配置することにより、タッチパネルを備える構成とすることも可能である。

［機能的構成］
次に、情報処理装置１の機能的構成について説明する。
図３は、情報処理装置１の機能的構成を示すブロック図である。
図３に示すように、情報処理装置１のＣＰＵ１１においては、ユーザインターフェース制御部（ＵＩ制御部）５１と、音声データ受付部５２と、前処理部５３と、音声認識処理部５４と、実行制御部５５と、が機能する。また、情報処理装置１の記憶部１７には、音声認識辞書データベース（音声認識辞書ＤＢ）７１と、コマンド辞書データベース（コマンド辞書ＤＢ）７２と、音声認識結果データベース（音声認識結果ＤＢ）７３と、音声認識エンジンデータベース（音声認識エンジンＤＢ）７４と、が形成される。ここで、コマンドとは、単語、複数単語、文等が付された発話に含まれた命令の呼称である。コマンドの認識を行う場合、音声認識にコマンド認識を含ませる方式や音声認識処理後にコマンド認識を行う方式などが存在するため一括して、音声認識及びコマンド認識と称する。

なお、本実施形態においては、音声認識処理を実行する音声認識エンジンとして、情報入力の対象項目を認識するために用いられる第１の音声認識エンジン（第１エンジン）と、それぞれの対象項目に応じた音声認識機能を備え、当該対象項目への入力に特化して用いられる第２の音声認識エンジン群（第２エンジン）とが用意されている。即ち、第２エンジンとして、情報入力の対象項目に応じた複数種類のものが用意されている。

音声認識辞書ＤＢ７１には、複数の音声認識エンジンそれぞれが使用する各種辞書及びモデル（音響モデル、言語モデル及び発音辞書等）のデータが記憶されている。例えば、音声認識辞書ＤＢ７１には、音声の特徴量と音素モデルとが対応付けて格納された音響モデル、文字列あるいは単語列が言語として用いられるパターンを統計処理した結果が格納された言語モデル、及び、言語モデルの単語と音響モデルの音素とが対応付けて格納された発音辞書のデータ等が記憶されている。

コマンド辞書ＤＢ７２には、抽出対象となるコマンド（単語、複数単語、文等）が予め登録されたコマンド抽出用の辞書が記憶されている。コマンド辞書ＤＢ７２の各コマンドには、読み（発音）が付されており、音声認識処理が実行される場合、読み（発音）の情報を基に、予め登録されたコマンドが抽出される。これにより、音声認識の精度と速度の向上を図ることができる。また、コマンド辞書ＤＢ７２の各コマンドには、設定・実行されるプロセスとその実行順序等も登録されている。
音声認識結果ＤＢ７３には、音声認識結果のデータが、入力された音声データと対応付けて記憶されている。
音声認識エンジンＤＢ７４には、第１エンジン及び複数種類の第２エンジンのデータが記憶されている。複数種類の第２エンジンのデータは、情報入力の対象項目が決定された後、第２音声認識部５４－２が各プロセスにおいて入力対象位置に情報を入力するための発話を音声認識する際に、各プロセスに対応するものが逐次読み出されて使用される。

ＵＩ制御部５１は、情報処理装置１に情報を入力するためのユーザインターフェース画面（ＵＩ画面）のデータを生成し、出力部１６のディスプレイに表示する。また、ＵＩ制御部５１は、第１エンジンによる音声認識及びコマンド認識処理の結果あるいは第２エンジンによる音声認識処理の結果に応じて、カーソルの位置が移動されたり、情報入力の対象項目に情報が入力されたりした結果をディスプレイに表示する。

音声データ受付部５２は、入力部１５の音声入力部１５ｂを介して入力された音声データを受け付ける。音声データ受付部５２によって受け付けられた音声データは、前処理部５３に入力される。
前処理部５３は、音声データ受付部５２によって受け付けられた音声データに対し、雑音除去、セグメンテーション等の前処理を実行する。

音声認識処理部５４は、前処理が実行された後の音声データに対し、音声認識エンジンＤＢ７４に記憶されている第１エンジンまたは第２エンジンによる音声認識処理を実行する。本実施形態において、音声認識処理部５４は、第１音声認識部５４－１と、第２音声認識部５４－２とを備えている。
第１音声認識部５４－１は、情報入力の対象項目を認識するために第１エンジンによる音声認識処理を実行する。
第２音声認識部５４－２は、第１エンジンによる音声認識結果で設定されたプロセスにおいて、情報入力の対象項目それぞれに対応して第２エンジンによる音声認識処理を実行する。
音声認識処理部５４における音声認識処理によって取得された各音声認識結果は、音声認識結果ＤＢ７３に記憶されると共に、実行制御部５５に出力される。
なお、音声認識処理部５４は、フィラー除去等の補助的な処理を適宜実行することとしてもよい。

実行制御部５５は、音声認識処理部５４の音声認識結果に基づいて、情報処理装置１に対する情報の入力を実行する。具体的には、実行制御部５５は、第１音声認識部５４－１による音声認識及びコマンド認識処理の認識結果に基づいて、情報入力の対象項目を判定し、認識の結果がコマンドを表すものである場合には、その対象項目で入力すべき情報の一連のプロセスを設定する。そして、実行制御部５５は、設定されたプロセスに従い、第２音声認識部５４－２による音声認識結果を情報入力の対象項目における各入力対象位置に入力する。本実施形態において、実行制御部５５は、情報入力のプロセスを管理し、情報入力の対象項目が決定していない場合には、第１音声認識部５４－１による音声認識及びコマンド認識処理（即ち、第１エンジンによる音声認識及びコマンド認識処理）を行う待機状態とする。また、実行制御部５５は、情報入力の対象項目が決定した場合、設定されたプロセスに従って、第２音声認識部５４－２による音声認識処理（即ち、第２エンジンによる音声認識処理）を行う待機状態とする。なお、第２音声認識部５４－２による音声認識処理は、プロセスの進行に伴い、順次、適切な第２エンジンを起動して実行される。

［動作］
次に、情報処理装置１の動作を説明する。
［情報入力処理］
図４は、情報処理装置１が実行する情報入力処理の流れを示すフローチャートである。
情報入力処理は、情報処理装置１において、情報入力処理の実行を指示する操作が行われることに対応して開始される。
なお、初期状態においては、第１音声認識部５４－１が第１エンジンによる音声認識及びコマンド認識処理を実行する状態で音声の入力を待ち受ける。

情報入力処理が開始されると、ステップＳ１において、音声データ受付部５２は、音声データの入力を受け付ける。
ステップＳ２において、前処理部５３は、音声データ受付部５２によって受け付けられた音声データに対し、雑音除去、セグメンテーション等の前処理を実行する。
ステップＳ３において、第１音声認識部５４－１は、第１エンジンによる音声認識及びコマンド認識処理を実行する。
ステップＳ４において、実行制御部５５は、第１エンジンによる音声認識及びコマンド認識処理の結果、コマンド（データ入力以外のアクションを伴う指示）を認識しているか否かの判定を行う。
コマンドを認識していない場合、ステップＳ４においてＮＯと判定されて、処理はステップＳ５に移行する。
一方、コマンドを認識している場合、ステップＳ４においてＹＥＳと判定されて、処理はステップＳ６に移行する。

ステップＳ５において、実行制御部５５は、現在の入力対象位置にデータを入力する。即ち、実行制御部５５は、第１エンジンによる音声認識処理によって特定された入力対象位置に、音声認識処理の結果であるデータ（単語、複数単語、文等）を入力する。
ステップＳ６において、実行制御部５５は、認識されたコマンドに対応するプロセスにおいて、第２エンジンによる入力要求があるか否かの判定を行う。即ち、ステップＳ４においてコマンドが認識された場合、対象項目で入力すべき情報の一連のプロセスが設定されるところ、次のプロセスが第２エンジンによる音声入力処理を行うものであるか否かが判定される。
第２エンジンによる入力要求がない場合、ステップＳ６においてＮＯと判定されて、処理はステップＳ１３に移行する。
一方、第２エンジンによる入力要求がある場合、ステップＳ６においてＹＥＳと判定されて、処理はステップＳ７に移行する。

ステップＳ７において、実行制御部５５は、プロセスで定義された入力位置にカーソルを移動する。
ステップＳ８において、実行制御部５５は、現在カーソルが位置している入力対象位置に対応する第２エンジンを起動する。
ステップＳ９において、音声データ受付部５２は、音声データの入力を受け付ける。
ステップＳ１０において、前処理部５３は、音声データ受付部５２によって受け付けられた音声データに対し、雑音除去、セグメンテーション等の前処理を実行する。
ステップＳ１１において、第２音声認識部５４－２は、第２エンジンによる音声認識処理を実行する。

ステップＳ１２において、実行制御部５５は、第２エンジンによる音声認識処理の結果を現在の入力対象位置に入力する。
ステップＳ１２の後、処理はステップＳ６に移行する。即ち、第２エンジンによる入力要求があるか否かが続けて判定される。
ステップＳ１３において、実行制御部５５は、第１エンジンを起動し、新たな対象項目に対する情報入力を待機する状態となる。なお、ステップＳ１３において、第１エンジンが既に起動されている状態の場合、第１エンジンが起動された状態が維持される。

ステップＳ１４において、実行制御部５５は、情報入力処理の終了が指示されたか否かの判定を行う。
情報入力処理の終了が指示されていない場合、ステップＳ１４においてＮＯと判定されて、処理はステップＳ１に移行する。
一方、情報入力処理の終了が指示された場合、ステップＳ１４においてＹＥＳと判定されて、情報入力処理は終了する。

［具体的適用例］
図５は、情報入力処理によって情報の入力が行われるアプリケーションの入力画面例を示す模式図である。
図５に示すアプリケーションの入力画面例では、情報入力の対象項目として、報告する年月日を表す「報告日」の項目と、利用者に関する情報を表す「利用者情報」の項目とが含まれている。
図５に示すアプリケーションの入力画面例において、情報入力処理を実行して情報の入力を行う場合、ユーザは、情報入力を行う対象項目の名称（「報告日」または「利用者情報」）を発話することで入力を開始できる。

初めに、対象項目として「報告日」が発話された場合の処理手順について説明する。
図６は、対象項目として「報告日」が発話された場合の処理手順を示す模式図である。
なお、図６における破線の矢印は、情報の参照関係を表している（図７においても同様である）。
図６に示すように、初期状態では、第１エンジンが起動され、情報入力の対象項目が発話されることを待機する状態となる。なお、図６に示す例では、受け付け可能なコマンドのリストが予め定義されており、このリストには、「報告日」及び「利用者情報」が含まれている。

ユーザが「報告日」（ほうこくび）と発話すると、第１エンジンによる音声認識処理によって「報告日」が認識され、コマンドリストからコマンド：「報告日」が特定される。コマンド：「報告日」には、「よみ：ほうこくび」、「プロセス：Ｐ＃１、Ｐ＃２、Ｐ＃３、Ｐ＃４、Ｐ＃５」が定義されており、実行すべき一連のプロセスとしてＰ＃１～Ｐ＃５が設定される。

図６に示す例では、プロセスＰ＃１は、カーソルの移動プロセスとされており、「アクション：マウス操作」、「クリック：左クリック」、「入力位置：（１）「ＰＰＰ」」が定義されている。なお、入力位置の「ＰＰＰ」は、図５における対象項目「報告日」の入力対象位置を表している。
プロセスＰ＃１が実行されることにより、情報入力のためのカーソルが対象項目「報告日」の数字記入欄（入力対象位置）に移動し、情報の入力が可能な状態となる。
プロセスＰ＃１に続き、プロセスＰ＃２が実行される。

プロセスＰ＃２は、対象項目「報告日」に適合する第２エンジンへの切り替えプロセスとされており、「アクション：第２エンジンへの切り替え」、「リクアイア：数字エンジン」が定義されている。なお、リクアイアとは、外部ファイルの読み込みを表し、その引数「数字エンジン」は、エンジンリストに登録されている第２エンジンのうち、数字入力用に用意されたエンジンを表している。
プロセスＰ＃２が実行されることにより、年月日として入力される「報告日」の音声認識に特化した第２エンジンが起動された状態となる。
プロセスＰ＃２に続き、プロセスＰ＃３が実行される。

プロセスＰ＃３は、音声入力を待つウェイトプロセスとされており、「アクション：ウェイト」が定義されている。
プロセスＰ＃３が実行されている状態でユーザが発話を行うと、第２エンジンによる音声認識処理が実行され、この音声認識結果を受けて、プロセスＰ＃４が実行される。

プロセスＰ＃４は、データ入力プロセスとされており、「アクション：音声認識結果を入力」が定義されている。プロセスＰ＃４は、キーボードから文字（年月日）を入力することに相当する。
プロセスＰ＃４に続き、プロセスＰ＃５が実行される。

プロセスＰ＃５は、第１エンジンへの切り替えプロセスとされており、「アクション：第１エンジンへの切り替え」、「リクアイア：主エンジン」が定義されている。なお、リクアイアの引数「主エンジン」は、エンジンリストにおける第１エンジンの登録名である。
プロセスＰ＃５が実行されると、コマンド「報告日」の一連のプロセスが完了し、対象項目「報告日」のデータ（年月日）の入力が完了する。

次に、対象項目として「利用者情報」が発話された場合の処理手順について説明する。
図７は、対象項目として「利用者情報」が発話された場合の処理手順を示す模式図である。
図７に示す例においても、図６の例と同様に、初期状態では、第１エンジンが起動され、情報入力の対象項目が発話されることを待機する状態となる。なお、図７に示す例においても、受け付け可能なコマンドのリストには、「報告日」及び「利用者情報」が含まれている。

ユーザが「利用者情報」（りようしゃじょうほう）と発話すると、第１エンジンによる音声認識処理によって「利用者情報」が認識され、コマンドリストからコマンド：「利用者情報」が特定される。コマンド：「利用者情報」には、「よみ：りようしゃじょうほう」、「プロセス：Ｐ＃１～Ｐ＃２１」が定義されており、実行すべき一連のプロセスとしてＰ＃１～Ｐ＃２１が設定される。

図７に示す例では、プロセスＰ＃１は、カーソルの移動プロセスとされており、「アクション：マウス操作」、「クリック：左クリック」、「入力位置：（２）「ＱＱＱ」」が定義されている。なお、入力位置の「ＱＱＱ」は、図５における対象項目「利用者情報」の「氏名」の入力対象位置を表している。
プロセスＰ＃１が実行されることにより、情報入力のためのカーソルが対象項目「利用者情報」の氏名欄（入力対象位置）に移動し、情報の入力が可能な状態となる。
プロセスＰ＃１に続き、プロセスＰ＃２が実行される。

プロセスＰ＃２は、対象項目「利用者情報」の氏名欄に適合する第２エンジンへの切り替えプロセスとされており、「アクション：第２エンジンへの切り替え」、「リクアイア：氏名エンジン」が定義されている。なお、リクアイアの引数「氏名エンジン」は、エンジンリストに登録されている第２エンジンのうち、氏名入力用に用意されたエンジンを表している。
プロセスＰ＃２が実行されることにより、人の「氏名」の音声認識に特化した第２エンジンが起動された状態となる。
プロセスＰ＃２に続き、プロセスＰ＃３が実行される。

プロセスＰ＃３は、音声入力を待つウェイトプロセスとされており、「アクション：ウェイト」が定義されている。
プロセスＰ＃３が実行されている状態でユーザが発話を行うと、第２エンジンによる音声認識処理が実行され、この音声認識結果を受けて、プロセスＰ＃４が実行される。
プロセスＰ＃４は、データ入力プロセスとされており、「アクション：音声認識結果を入力」が定義されている。プロセスＰ＃４は、キーボードから文字（氏名）を入力することに相当する。
プロセスＰ＃４に続き、プロセスＰ＃５が実行される。

プロセスＰ＃５は、カーソルの移動プロセスとされており、プロセスＰ＃５が実行されることにより、情報入力のためのカーソルが「入力位置：（３）「ＲＲＲ」」（フリガナ欄）に移動し、情報の入力が可能な状態となる。
プロセスＰ＃５に続き、プロセスＰ＃６が実行される。
プロセスＰ＃６は、対象項目「利用者情報」のフリガナ欄に適合する第２エンジンへの切り替えプロセスとされており、プロセスＰ＃６が実行されることにより、カタカナとして入力される「フリガナ」の音声認識に特化した第２エンジンが起動された状態となる。

プロセスＰ＃７は、音声入力を待つウェイトプロセスとされており、「アクション：ウェイト」が定義されている。
プロセスＰ＃７が実行されている状態でユーザが発話を行うと、第２エンジンによる音声認識処理が実行され、この音声認識結果を受けて、プロセスＰ＃８が実行される。
プロセスＰ＃８は、データ入力プロセスとされており、「アクション：音声認識結果を入力」が定義されている。プロセスＰ＃８は、キーボードから文字（フリガナ）を入力することに相当する。

以降、プロセスＰ＃９～Ｐ＃２０において、カーソルの移動プロセス、第２エンジンへの切り替えプロセス、ウェイトプロセス、データ入力プロセスが各入力対象位置について実行され、情報の入力が順次行われる。
続いて、プロセスＰ＃２１が実行される。
プロセスＰ＃２１は、第１エンジンへの切り替えプロセスとされており、「アクション：第１エンジンへの切り替え」、「リクアイア：主エンジン」が定義されている。
プロセスＰ＃２１が実行されると、コマンド「利用者情報」の一連のプロセスが完了し、対象項目「利用者情報」の各データ（氏名、フリガナ、生年月日、住所、電話番号）の入力が完了する。

図７に示す例では、「利用者情報」としてグループ化された複数の入力対象位置に対し、対象項目「利用者情報」の入力において、順次、カーソルが移動し、カーソルの移動先の入力内容に対応する第２エンジンに切り替えられ、ユーザの発話を音声認識するという処理が実行される。
そのため、入力対象位置毎に、ユーザが対象項目を発話してカーソルを移動させる場合に比べ、情報入力の利便性を高めることができる。

以上のように、本実施形態における情報処理装置１は、音声認識により情報入力を行うための最初の発話を第１エンジンで音声認識及びコマンド認識処理し、その認識結果から、情報入力の対象項目として、特定の情報（「報告日」あるいは「利用者情報」等）を入力するための一連のプロセスが設定される。そして、一連のプロセスでは、そのプロセスで入力される情報の項目それぞれに適合する第２エンジンが順次起動され、それぞれの項目に特化した音声認識エンジンによって音声認識が行われる。
したがって、適時に適所で適切な音声認識エンジンを使用して情報の入力を行うことができるため、情報処理装置に対する情報の入力をより高速に行うことが可能となる。

また、情報処理装置１は、各対象項目の入力が完了した場合、第１エンジンによって次の対象項目の入力を受け付ける状態に復帰する。
したがって、ユーザは、対象項目の情報入力が完了する毎に、次に情報入力を行う任意の対象項目の名称を発話して情報の入力を行うことができるため、マウスによって情報入力の対象位置をクリックする場合に比べ、より高速に情報の入力を行うことができる。また、対象項目を柔軟に選択しながら、情報入力を行うことが可能となる。
即ち、本実施形態に係る情報処理装置１は、キーボードによる入力操作と入力対象位置へのマウスの移動操作を同時に音声認識処理で代替させるものである。
そして、第１発話に対する音声認識及びコマンド認識処理により、その後の一連の音声入力のための入力位置と使用する音声認識エンジンとを特定し、第２発話以降の発話に応じた音声認識処理を行い、一連の入力を完結することにより、情報入力に要する時間の削減を行う。また、選択される第２の音声認識エンジンがコマンド認識処理可能であれば、第２発話以降の発話に対しても音声認識及びコマンド認識処理を行わせることにより、情報入力に要する時間をさらに削減できる。
この結果、情報処理装置に対する情報の入力をより高速に行うことが可能となる。

［変形例１］
上述の実施形態においては、本発明を単体の情報処理装置に適用した場合を例に挙げて説明したが、これに限られない。
例えば、ネットワークを介して接続されたサーバ及び端末装置を含む情報処理システムに本発明を適用することも可能である。
図８は、本発明を適用した情報処理システムＳのシステム構成を示す模式図である。
図８に示すように、情報処理システムＳは、端末装置１００とサーバ２００とがネットワーク３００を介して通信可能に構成されている。
端末装置１００及びサーバ２００は、図１に示す情報処理装置１と同様のハードウェア構成を備えている。
図８に示す情報処理システムＳにおいては、図３に示す情報処理装置１の機能的構成のうち、ＵＩ制御部５１及び音声データ受付部５２が端末装置１００に備えられ、前処理部５３、音声認識処理部５４、実行制御部５５、音声認識辞書ＤＢ７１、コマンド辞書ＤＢ７２、音声認識結果ＤＢ７３及び音声認識エンジンＤＢ７４がサーバ２００に備えられた構成となっている。
即ち、図８に示す情報処理システムＳにおいては、情報の表示及び音声の入力に関する機能を端末装置１００が備え、音声認識及び情報入力に関する機能をサーバ２００が備えている。
このような構成とすることにより、サーバ２００の高い処理能力を利用して、情報処理装置（端末装置１００）に対する情報の入力をより高速に行うことが可能となる。

［変形例２］
上述の実施形態において、対象項目に情報入力を行う場合の一連のプロセスをユーザの要求に応じて変更可能な構成としてもよい。例えば、図５及び図７における対象項目「利用者情報」を入力する場合、プロセスＰ＃１～Ｐ＃２１が一連のプロセスとして定義されているところ、「氏名」及び「フリガナ」を入力するプロセスＰ＃１～Ｐ＃８を、後続のプロセスＰ＃９以降と分割する操作を受け付けることが可能である。
この場合、ユーザが希望する情報入力の区切りに調整することが可能となる。
なお、プロセスが分割された場合、分割された前半のプロセスの末尾には、第１エンジンへの切り替えプロセスを自動的に追加することができる。
これにより、ユーザが自らプロセスを追加することなく、分割された前半のプロセスが終了した場合に、第１エンジンによって次の対象項目の入力を受け付ける状態に移行させることができる。

以上のように構成される情報処理装置１は、第１音声認識部５４－１と、第２音声認識部５４－２と、実行制御部５５と、を備える。
第１音声認識部５４－１は、情報を入力するための画面における入力対象位置に情報を入力するための第１の発話を第１の音声認識エンジンによって音声認識及びコマンド認識をする。
実行制御部５５は、第１音声認識部５４－１によって第１の発話の音声認識及びコマンド認識処理により認識されたコマンドが表す情報の入力内容に基づいて、当該情報の入力内容に関するプロセスを設定する。
第２音声認識部５４－２は、実行制御部５５によって設定されたプロセス毎に、当該プロセスで入力される情報に対応する第２の音声認識エンジンによって第２の発話を音声認識する。
したがって、適時に適所で適切な音声認識エンジンを使用して情報の入力を行うことができるため、情報処理装置に対する情報の入力をより高速に行うことが可能となる。

実行制御部５５は、第１音声認識部５４－１による音声認識及びコマンド認識の結果及び第２音声認識部５４－２による音声認識結果に基づいて、入力対象位置に対する情報の入力を実行する。
これにより、音声認識処理によって入力された情報を入力対象位置に高速に入力することが可能となる。

プロセスには、入力対象位置にカーソルを移動させるアクション、当該プロセスで入力される情報に対応する第２の音声認識エンジンに切り替えるアクション、及び、当該プロセスで入力される情報の発話を待機するアクションが含まれる。
これにより、プロセスとして詳細なアクションを設定し、柔軟な処理を行うプロセスを定義することが可能となる。

第１の発話が表す情報の入力内容に関するプロセスが完了した場合に、第１音声認識部５４－１が第１の音声認識エンジンによって音声認識を行う待機状態に移行する。
これにより、一連の入力対象位置（対象項目）の入力が完了した後、速やかに他の入力対象位置の入力を行うことができるため、情報処理装置に対する情報の入力をより高速に行うことが可能となる。

プロセスには、複数の入力対象位置に情報を入力するアクションが含まれる。
第２音声認識部５４－２は、複数の入力対象位置に情報を入力するアクションそれぞれにおいて、当該入力対象位置に対応する第２音声認識エンジンに切り替えて音声認識を行う。
これにより、適時に適所で適切な音声認識エンジンを使用して情報の入力を行うことが可能となる。

なお、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
例えば、上述の実施形態において、対象項目に文字あるいは数字等のテキスト情報が入力される場合を例に挙げて説明したが、これに限られない。即ち、対象項目における入力対象位置に、プルダウンメニューあるいはラジオボタン等の入力形態で情報を入力するものを含めることも可能である。
この場合、多様な情報入力形態の情報処理装置に本発明を適用し、より高速に情報を入力することが可能となる。

また、上述の実施形態に記載された例を適宜組み合わせて、本発明を実施することが可能である。
上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
換言すると、図３の機能的構成は例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が情報処理装置１に備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に図３の例に限定されない。
また、１つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。

一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであってもよい。

プログラムを記憶する記憶媒体は、装置本体とは別に配布されるリムーバブルメディア、あるいは、装置本体に予め組み込まれた記憶媒体等で構成される。リムーバブルメディアは、例えば、磁気ディスク、光ディスク、光磁気ディスクあるいはフラッシュメモリ等により構成される。光ディスクは、例えば、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋ－ＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ），Ｂｌｕ－ｒａｙＤｉｓｃ（登録商標）等により構成される。光磁気ディスクは、ＭＤ（Ｍｉｎｉ－Ｄｉｓｋ）等により構成される。フラッシュメモリは、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリあるいはＳＤカードにより構成される。また、装置本体に予め組み込まれた記憶媒体は、例えば、プログラムが記憶されているＲＯＭやハードディスク等で構成される。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。

１情報処理装置、１１ＣＰＵ、１２ＲＯＭ、１３ＲＡＭ、１４バス、１５入力部、１５ａ操作入力部、１５ｂ音声入力部、１６出力部、１７記憶部、１８通信部、１９ドライブ、２０撮像部、３１リムーバブルメディア、５１ユーザインターフェース制御部（ＵＩ制御部）、５２音声データ受付部、５３前処理部、５４音声認識処理部、５４－１第１音声認識部、５４－２第２音声認識部、５５実行制御部、７１音声認識辞書データベース（音声認識辞書ＤＢ）、７２コマンド辞書データベース（コマンド辞書ＤＢ）、７３音声認識結果データベース（音声認識結果ＤＢ）、７４音声認識エンジンデータベース（音声認識エンジンＤＢ）、Ｓ情報処理システム、１００端末装置、２００サーバ、３００ネットワーク

Claims

情報を入力するための画面における入力対象位置に情報を入力するための第１の発話を第１の音声認識エンジンによって音声認識する第１音声認識手段と、
前記第１音声認識手段によって音声認識された前記第１の発話が表す情報の入力内容に基づいて、当該情報の入力内容に関するプロセスを設定するプロセス設定手段と、
前記プロセス設定手段によって設定されたプロセス毎に、当該プロセスで入力される情報に対応する第２の音声認識エンジンによって第２の発話を音声認識する第２音声認識手段と、
を備えることを特徴とする情報処理装置。
前記第１音声認識手段による音声認識結果及び前記第２音声認識手段による音声認識結果に基づいて、前記入力対象位置に対する情報の入力を実行する実行制御手段を備えることを特徴とする請求項１に記載の情報処理装置。
前記プロセスには、前記入力対象位置にカーソルを移動させるアクション、当該プロセスで入力される情報に対応する前記第２の音声認識エンジンに切り替えるアクション、及び、当該プロセスで入力される情報の発話を待機するアクションが含まれることを特徴とする請求項１または２に記載の情報処理装置。
前記第１の発話が表す情報の入力内容に関する前記プロセスが完了した場合に、前記第１音声認識手段が前記第１の音声認識エンジンによって音声認識を行う待機状態に移行することを特徴とする請求項１または２に記載の情報処理装置。
前記プロセスには、複数の入力対象位置に情報を入力するアクションが含まれ、
前記第２音声認識手段は、前記複数の入力対象位置に情報を入力するアクションそれぞれにおいて、当該入力対象位置に対応する前記第２音声認識エンジンに切り替えて音声認識を行うことを特徴とする請求項１または２に記載の情報処理装置。
ユーザによって使用される端末装置と、音声認識処理を実行するサーバとを含む情報処理システムであって、
前記端末装置は、
情報を入力するための画面を表示する表示手段と、
音声による発話の入力を受け付け、受け付けた発話のデータを前記サーバに送信する音声入力手段と、
を備え、
前記サーバは、
前記端末装置の前記画面における入力対象位置に情報を入力するための第１の発話を第１の音声認識エンジンによって音声認識する第１音声認識手段と、
前記第１音声認識手段によって音声認識された前記第１の発話が表す情報の入力内容に基づいて、当該情報の入力内容に関するプロセスを設定するプロセス設定手段と、
前記プロセス設定手段によって設定されたプロセス毎に、当該プロセスで入力される情報に対応する第２の音声認識エンジンによって第２の発話を音声認識する第２音声認識手段と、
を備えることを特徴とする情報処理システム。
情報処理装置が実行する情報処理方法であって、
情報を入力するための画面における入力対象位置に情報を入力するための第１の発話を第１の音声認識エンジンによって音声認識する第１音声認識ステップと、
前記第１音声認識ステップにおいて音声認識された前記第１の発話が表す情報の入力内容に基づいて、当該情報の入力内容に関するプロセスを設定するプロセス設定ステップと、
前記プロセス設定ステップにおいて設定されたプロセス毎に、当該プロセスで入力される情報に対応する第２の音声認識エンジンによって第２の発話を音声認識する第２音声認識ステップと、
を含むことを特徴とする情報処理方法。
コンピュータに、
情報を入力するための画面における入力対象位置に情報を入力するための第１の発話を第１の音声認識エンジンによって音声認識する第１音声認識機能と、
前記第１音声認識機能によって音声認識された前記第１の発話が表す情報の入力内容に基づいて、当該情報の入力内容に関するプロセスを設定するプロセス設定機能と、
前記プロセス設定機能によって設定されたプロセス毎に、当該プロセスで入力される情報に対応する第２の音声認識エンジンによって第２の発話を音声認識する第２音声認識機能と、
を実現させることを特徴とするプログラム。