JP2024082673A - 情報処理装置、情報処理システム、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理システム、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2024082673A
JP2024082673A JP2022196684A JP2022196684A JP2024082673A JP 2024082673 A JP2024082673 A JP 2024082673A JP 2022196684 A JP2022196684 A JP 2022196684A JP 2022196684 A JP2022196684 A JP 2022196684A JP 2024082673 A JP2024082673 A JP 2024082673A
Authority
JP
Japan
Prior art keywords
information
input
speech recognition
voice recognition
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022196684A
Other languages
English (en)
Inventor
清幸 鈴木
洋太郎 吉川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Media Inc
Original Assignee
Advanced Media Inc
Filing date
Publication date
Application filed by Advanced Media Inc filed Critical Advanced Media Inc
Publication of JP2024082673A publication Critical patent/JP2024082673A/ja
Pending legal-status Critical Current

Links

Images

Abstract

Figure 2024082673000001
【課題】情報処理装置に対する情報の入力をより高速に行う。
【解決手段】情報処理装置1は、第1音声認識部54-1と、第2音声認識部54-2と、実行制御部55と、を備える。第1音声認識部54-1は、情報を入力するための画面における入力対象位置に情報を入力するための第1の発話を第1の音声認識エンジンによって音声認識する。実行制御部55は、第1音声認識部54-1によって音声認識された第1の発話が表す情報の入力内容に基づいて、当該情報の入力内容に関するプロセスを設定する。第2音声認識部54-2は、実行制御部55によって設定されたプロセス毎に、当該プロセスで入力される情報に対応する第2の音声認識エンジンによって第2の発話を音声認識する。
【選択図】図3

Description

本発明は、情報処理装置、情報処理システム、情報処理方法及びプログラムに関する。
従来、PC(Personal Computer)等の情報処理装置に対する情報の入力は、主としてキーボードやマウス操作による入力を前提としていた。
情報処理装置に入力を行うための入力装置においては、種々の観点から改良が行われている。
例えば、特許文献1には、クリック感として感得される疑似的な触感を発生させることを目的とする技術が記載されている。
特開2022-087321号公報
しかしながら、従来の技術においては、コンピュータプログラムに対して、主に人の手によってキーボードやマウス操作を行っているため、入力に要する時間の短縮には限界があると考えられる。
例えば、画面において入力対象となる位置をマウスでクリックした後、キーボードで文字を入力するといった動作を繰り返す場合、実際に情報を入力する動作に加えて、マウスを移動させる動作や、マウスとキーボードとの間で手を移動させる動作等が必要となり、これらの動作は情報の入力において無駄な時間となる可能性が高い。
本発明の課題は、情報処理装置に対する情報の入力をより高速に行うことである。
上記目的を達成するため、本発明の一態様の情報処理装置は、
情報を入力するための画面における入力対象位置に情報を入力するための第1の発話を第1の音声認識エンジンによって音声認識する第1音声認識手段と、
前記第1音声認識手段によって音声認識された前記第1の発話が表す情報の入力内容に基づいて、当該情報の入力内容に関するプロセスを設定するプロセス設定手段と、
前記プロセス設定手段によって設定されたプロセス毎に、当該プロセスで入力される情報に対応する第2の音声認識エンジンによって第2の発話を音声認識する第2音声認識手段と、
を備えることを特徴とする。
本発明によれば、情報処理装置に対する情報の入力をより高速に行うことができる。
本実施形態に係る情報処理装置の情報入力方法を示す模式図である。 情報処理装置1のハードウェア構成を示す模式図である。 情報処理装置1の機能的構成を示すブロック図である。 情報処理装置1が実行する情報入力処理の流れを示すフローチャートである。 情報入力処理によって情報の入力が行われるアプリケーションの入力画面例を示す模式図である。 対象項目として「報告日」が発話された場合の処理手順を示す模式図である。 対象項目として「利用者情報」が発話された場合の処理手順を示す模式図である。 本発明を適用した情報処理システムSのシステム構成を示す模式図である。
以下、本発明の実施形態について、図面を用いて説明する。
[第1実施形態]
図1は、本実施形態に係る情報処理装置の情報入力方法を示す模式図である。
図1に示すように、本実施形態に係る情報処理装置は、情報入力のために発声された発話1を第1の音声認識エンジン(以下、「第1エンジン」と称する。)で音声認識し、この音声認識結果に対応する処理(以下、「結果処理1」と称する。)を実行する。結果処理1では、音声認識された処理内容に応じた一連のプロセスが設定される。次に、結果処理1の設定に応じて、次の情報入力に対応する第2の音声認識エンジン(以下、「第2エンジン」と称する。)を起動し、発話2の待機状態となる。そして、発話2が発声されると、発話2を第2エンジンで音声認識し、この音声認識結果に対応する処理(以下、「結果処理2」と称する。)を実行する。同様に、結果処理1の設定に応じて、次の情報入力に対応する第3の音声認識エンジンを起動し、発話3の待機状態となる。この後、発話3の発生に対応して、同様の処理が繰り返され、第Nエンジン(Nは自然数)によって結果処理Nが得られると、結果処理1で設定された一連のプロセスが完了する(以下、第2の音声認識エンジン、第3の音声認識エンジン、そして、第Nエンジンまでを総称して、「第2エンジン」と称する。)このような処理を情報入力の対象項目毎に実行することで、音声によって全ての対象項目に対する情報入力を行うことができる。
したがって、適時に適所で適切な音声認識エンジンを使用して情報の入力を行うことができるため、情報処理装置に対する情報の入力をより高速に行うことが可能となる。
以下、本実施形態に係る情報処理装置を具体的に説明する。
[ハードウェア構成]
図2は、情報処理装置1のハードウェア構成を示す模式図である。
図2に示すように、情報処理装置1は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、バス14と、入力部15と、出力部16と、記憶部17と、通信部18と、ドライブ19と、撮像部20と、を備えている。
CPU11は、ROM12に記録されているプログラム、または、記憶部17からRAM13にロードされたプログラムに従って各種の処理を実行する。
RAM13には、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
CPU11、ROM12及びRAM13は、バス14を介して相互に接続されている。バス14には、入力部15、出力部16、記憶部17、通信部18及びドライブ19が接続されている。
入力部15は、情報処理装置1に対する各種情報の入力を受け付ける。本実施形態において、入力部15は、マウスやキーボード等によって表示画面を介した操作入力を受け付ける操作入力部15aと、マイク等によって音声の入力を受け付ける音声入力部15bとを備えている。
出力部16は、ディスプレイやスピーカ等で構成され、画像や音声を出力する。
記憶部17は、ハードディスクあるいはDRAM(Dynamic Random Access Memory)等で構成され、各サーバで管理される各種データを記憶する。
通信部18は、ネットワークを介して他の装置との間で行う通信を制御する。
ドライブ19には、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリ等よりなる、リムーバブルメディア31が適宜装着される。ドライブ19によってリムーバブルメディア31から読み出されたプログラムは、必要に応じて記憶部17にインストールされる。
撮像部20は、レンズ及び撮像素子等を備えた撮像装置によって構成され、被写体のデジタル画像を撮像する。
なお、上記ハードウェア構成は、情報処理装置1の基本的構成であり、一部のハードウェアを備えない構成としたり、付加的なハードウェアを備えたり、ハードウェアの実装形態を変更したりすることができる。例えば、情報処理装置1は、撮像部20を備えない構成としたり、音声認識処理を高速に実行するためのDSP(Digital Signal Processor)を備えたりすることができる。また、情報処理装置1は、入力部15をタッチセンサによって構成し、出力部16のディスプレイに重ねて配置することにより、タッチパネルを備える構成とすることも可能である。
[機能的構成]
次に、情報処理装置1の機能的構成について説明する。
図3は、情報処理装置1の機能的構成を示すブロック図である。
図3に示すように、情報処理装置1のCPU11においては、ユーザインターフェース制御部(UI制御部)51と、音声データ受付部52と、前処理部53と、音声認識処理部54と、実行制御部55と、が機能する。また、情報処理装置1の記憶部17には、音声認識辞書データベース(音声認識辞書DB)71と、コマンド辞書データベース(コマンド辞書DB)72と、音声認識結果データベース(音声認識結果DB)73と、音声認識エンジンデータベース(音声認識エンジンDB)74と、が形成される。ここで、コマンドとは、単語、複数単語、文等が付された発話に含まれた命令の呼称である。コマンドの認識を行う場合、音声認識にコマンド認識を含ませる方式や音声認識処理後にコマンド認識を行う方式などが存在するため一括して、音声認識及びコマンド認識と称する。
なお、本実施形態においては、音声認識処理を実行する音声認識エンジンとして、情報入力の対象項目を認識するために用いられる第1の音声認識エンジン(第1エンジン)と、それぞれの対象項目に応じた音声認識機能を備え、当該対象項目への入力に特化して用いられる第2の音声認識エンジン群(第2エンジン)とが用意されている。即ち、第2エンジンとして、情報入力の対象項目に応じた複数種類のものが用意されている。
音声認識辞書DB71には、複数の音声認識エンジンそれぞれが使用する各種辞書及びモデル(音響モデル、言語モデル及び発音辞書等)のデータが記憶されている。例えば、音声認識辞書DB71には、音声の特徴量と音素モデルとが対応付けて格納された音響モデル、文字列あるいは単語列が言語として用いられるパターンを統計処理した結果が格納された言語モデル、及び、言語モデルの単語と音響モデルの音素とが対応付けて格納された発音辞書のデータ等が記憶されている。
コマンド辞書DB72には、抽出対象となるコマンド(単語、複数単語、文等)が予め登録されたコマンド抽出用の辞書が記憶されている。コマンド辞書DB72の各コマンドには、読み(発音)が付されており、音声認識処理が実行される場合、読み(発音)の情報を基に、予め登録されたコマンドが抽出される。これにより、音声認識の精度と速度の向上を図ることができる。また、コマンド辞書DB72の各コマンドには、設定・実行されるプロセスとその実行順序等も登録されている。
音声認識結果DB73には、音声認識結果のデータが、入力された音声データと対応付けて記憶されている。
音声認識エンジンDB74には、第1エンジン及び複数種類の第2エンジンのデータが記憶されている。複数種類の第2エンジンのデータは、情報入力の対象項目が決定された後、第2音声認識部54-2が各プロセスにおいて入力対象位置に情報を入力するための発話を音声認識する際に、各プロセスに対応するものが逐次読み出されて使用される。
UI制御部51は、情報処理装置1に情報を入力するためのユーザインターフェース画面(UI画面)のデータを生成し、出力部16のディスプレイに表示する。また、UI制御部51は、第1エンジンによる音声認識及びコマンド認識処理の結果あるいは第2エンジンによる音声認識処理の結果に応じて、カーソルの位置が移動されたり、情報入力の対象項目に情報が入力されたりした結果をディスプレイに表示する。
音声データ受付部52は、入力部15の音声入力部15bを介して入力された音声データを受け付ける。音声データ受付部52によって受け付けられた音声データは、前処理部53に入力される。
前処理部53は、音声データ受付部52によって受け付けられた音声データに対し、雑音除去、セグメンテーション等の前処理を実行する。
音声認識処理部54は、前処理が実行された後の音声データに対し、音声認識エンジンDB74に記憶されている第1エンジンまたは第2エンジンによる音声認識処理を実行する。本実施形態において、音声認識処理部54は、第1音声認識部54-1と、第2音声認識部54-2とを備えている。
第1音声認識部54-1は、情報入力の対象項目を認識するために第1エンジンによる音声認識処理を実行する。
第2音声認識部54-2は、第1エンジンによる音声認識結果で設定されたプロセスにおいて、情報入力の対象項目それぞれに対応して第2エンジンによる音声認識処理を実行する。
音声認識処理部54における音声認識処理によって取得された各音声認識結果は、音声認識結果DB73に記憶されると共に、実行制御部55に出力される。
なお、音声認識処理部54は、フィラー除去等の補助的な処理を適宜実行することとしてもよい。
実行制御部55は、音声認識処理部54の音声認識結果に基づいて、情報処理装置1に対する情報の入力を実行する。具体的には、実行制御部55は、第1音声認識部54-1による音声認識及びコマンド認識処理の認識結果に基づいて、情報入力の対象項目を判定し、認識の結果がコマンドを表すものである場合には、その対象項目で入力すべき情報の一連のプロセスを設定する。そして、実行制御部55は、設定されたプロセスに従い、第2音声認識部54-2による音声認識結果を情報入力の対象項目における各入力対象位置に入力する。本実施形態において、実行制御部55は、情報入力のプロセスを管理し、情報入力の対象項目が決定していない場合には、第1音声認識部54-1による音声認識及びコマンド認識処理(即ち、第1エンジンによる音声認識及びコマンド認識処理)を行う待機状態とする。また、実行制御部55は、情報入力の対象項目が決定した場合、設定されたプロセスに従って、第2音声認識部54-2による音声認識処理(即ち、第2エンジンによる音声認識処理)を行う待機状態とする。なお、第2音声認識部54-2による音声認識処理は、プロセスの進行に伴い、順次、適切な第2エンジンを起動して実行される。
[動作]
次に、情報処理装置1の動作を説明する。
[情報入力処理]
図4は、情報処理装置1が実行する情報入力処理の流れを示すフローチャートである。
情報入力処理は、情報処理装置1において、情報入力処理の実行を指示する操作が行われることに対応して開始される。
なお、初期状態においては、第1音声認識部54-1が第1エンジンによる音声認識及びコマンド認識処理を実行する状態で音声の入力を待ち受ける。
情報入力処理が開始されると、ステップS1において、音声データ受付部52は、音声データの入力を受け付ける。
ステップS2において、前処理部53は、音声データ受付部52によって受け付けられた音声データに対し、雑音除去、セグメンテーション等の前処理を実行する。
ステップS3において、第1音声認識部54-1は、第1エンジンによる音声認識及びコマンド認識処理を実行する。
ステップS4において、実行制御部55は、第1エンジンによる音声認識及びコマンド認識処理の結果、コマンド(データ入力以外のアクションを伴う指示)を認識しているか否かの判定を行う。
コマンドを認識していない場合、ステップS4においてNOと判定されて、処理はステップS5に移行する。
一方、コマンドを認識している場合、ステップS4においてYESと判定されて、処理はステップS6に移行する。
ステップS5において、実行制御部55は、現在の入力対象位置にデータを入力する。即ち、実行制御部55は、第1エンジンによる音声認識処理によって特定された入力対象位置に、音声認識処理の結果であるデータ(単語、複数単語、文等)を入力する。
ステップS6において、実行制御部55は、認識されたコマンドに対応するプロセスにおいて、第2エンジンによる入力要求があるか否かの判定を行う。即ち、ステップS4においてコマンドが認識された場合、対象項目で入力すべき情報の一連のプロセスが設定されるところ、次のプロセスが第2エンジンによる音声入力処理を行うものであるか否かが判定される。
第2エンジンによる入力要求がない場合、ステップS6においてNOと判定されて、処理はステップS13に移行する。
一方、第2エンジンによる入力要求がある場合、ステップS6においてYESと判定されて、処理はステップS7に移行する。
ステップS7において、実行制御部55は、プロセスで定義された入力位置にカーソルを移動する。
ステップS8において、実行制御部55は、現在カーソルが位置している入力対象位置に対応する第2エンジンを起動する。
ステップS9において、音声データ受付部52は、音声データの入力を受け付ける。
ステップS10において、前処理部53は、音声データ受付部52によって受け付けられた音声データに対し、雑音除去、セグメンテーション等の前処理を実行する。
ステップS11において、第2音声認識部54-2は、第2エンジンによる音声認識処理を実行する。
ステップS12において、実行制御部55は、第2エンジンによる音声認識処理の結果を現在の入力対象位置に入力する。
ステップS12の後、処理はステップS6に移行する。即ち、第2エンジンによる入力要求があるか否かが続けて判定される。
ステップS13において、実行制御部55は、第1エンジンを起動し、新たな対象項目に対する情報入力を待機する状態となる。なお、ステップS13において、第1エンジンが既に起動されている状態の場合、第1エンジンが起動された状態が維持される。
ステップS14において、実行制御部55は、情報入力処理の終了が指示されたか否かの判定を行う。
情報入力処理の終了が指示されていない場合、ステップS14においてNOと判定されて、処理はステップS1に移行する。
一方、情報入力処理の終了が指示された場合、ステップS14においてYESと判定されて、情報入力処理は終了する。
[具体的適用例]
図5は、情報入力処理によって情報の入力が行われるアプリケーションの入力画面例を示す模式図である。
図5に示すアプリケーションの入力画面例では、情報入力の対象項目として、報告する年月日を表す「報告日」の項目と、利用者に関する情報を表す「利用者情報」の項目とが含まれている。
図5に示すアプリケーションの入力画面例において、情報入力処理を実行して情報の入力を行う場合、ユーザは、情報入力を行う対象項目の名称(「報告日」または「利用者情報」)を発話することで入力を開始できる。
初めに、対象項目として「報告日」が発話された場合の処理手順について説明する。
図6は、対象項目として「報告日」が発話された場合の処理手順を示す模式図である。
なお、図6における破線の矢印は、情報の参照関係を表している(図7においても同様である)。
図6に示すように、初期状態では、第1エンジンが起動され、情報入力の対象項目が発話されることを待機する状態となる。なお、図6に示す例では、受け付け可能なコマンドのリストが予め定義されており、このリストには、「報告日」及び「利用者情報」が含まれている。
ユーザが「報告日」(ほうこくび)と発話すると、第1エンジンによる音声認識処理によって「報告日」が認識され、コマンドリストからコマンド:「報告日」が特定される。コマンド:「報告日」には、「よみ:ほうこくび」、「プロセス:P#1、P#2、P#3、P#4、P#5」が定義されており、実行すべき一連のプロセスとしてP#1~P#5が設定される。
図6に示す例では、プロセスP#1は、カーソルの移動プロセスとされており、「アクション:マウス操作」、「クリック:左クリック」、「入力位置:(1)「PPP」」が定義されている。なお、入力位置の「PPP」は、図5における対象項目「報告日」の入力対象位置を表している。
プロセスP#1が実行されることにより、情報入力のためのカーソルが対象項目「報告日」の数字記入欄(入力対象位置)に移動し、情報の入力が可能な状態となる。
プロセスP#1に続き、プロセスP#2が実行される。
プロセスP#2は、対象項目「報告日」に適合する第2エンジンへの切り替えプロセスとされており、「アクション:第2エンジンへの切り替え」、「リクアイア:数字エンジン」が定義されている。なお、リクアイアとは、外部ファイルの読み込みを表し、その引数「数字エンジン」は、エンジンリストに登録されている第2エンジンのうち、数字入力用に用意されたエンジンを表している。
プロセスP#2が実行されることにより、年月日として入力される「報告日」の音声認識に特化した第2エンジンが起動された状態となる。
プロセスP#2に続き、プロセスP#3が実行される。
プロセスP#3は、音声入力を待つウェイトプロセスとされており、「アクション:ウェイト」が定義されている。
プロセスP#3が実行されている状態でユーザが発話を行うと、第2エンジンによる音声認識処理が実行され、この音声認識結果を受けて、プロセスP#4が実行される。
プロセスP#4は、データ入力プロセスとされており、「アクション:音声認識結果を入力」が定義されている。プロセスP#4は、キーボードから文字(年月日)を入力することに相当する。
プロセスP#4に続き、プロセスP#5が実行される。
プロセスP#5は、第1エンジンへの切り替えプロセスとされており、「アクション:第1エンジンへの切り替え」、「リクアイア:主エンジン」が定義されている。なお、リクアイアの引数「主エンジン」は、エンジンリストにおける第1エンジンの登録名である。
プロセスP#5が実行されると、コマンド「報告日」の一連のプロセスが完了し、対象項目「報告日」のデータ(年月日)の入力が完了する。
次に、対象項目として「利用者情報」が発話された場合の処理手順について説明する。
図7は、対象項目として「利用者情報」が発話された場合の処理手順を示す模式図である。
図7に示す例においても、図6の例と同様に、初期状態では、第1エンジンが起動され、情報入力の対象項目が発話されることを待機する状態となる。なお、図7に示す例においても、受け付け可能なコマンドのリストには、「報告日」及び「利用者情報」が含まれている。
ユーザが「利用者情報」(りようしゃじょうほう)と発話すると、第1エンジンによる音声認識処理によって「利用者情報」が認識され、コマンドリストからコマンド:「利用者情報」が特定される。コマンド:「利用者情報」には、「よみ:りようしゃじょうほう」、「プロセス:P#1~P#21」が定義されており、実行すべき一連のプロセスとしてP#1~P#21が設定される。
図7に示す例では、プロセスP#1は、カーソルの移動プロセスとされており、「アクション:マウス操作」、「クリック:左クリック」、「入力位置:(2)「QQQ」」が定義されている。なお、入力位置の「QQQ」は、図5における対象項目「利用者情報」の「氏名」の入力対象位置を表している。
プロセスP#1が実行されることにより、情報入力のためのカーソルが対象項目「利用者情報」の氏名欄(入力対象位置)に移動し、情報の入力が可能な状態となる。
プロセスP#1に続き、プロセスP#2が実行される。
プロセスP#2は、対象項目「利用者情報」の氏名欄に適合する第2エンジンへの切り替えプロセスとされており、「アクション:第2エンジンへの切り替え」、「リクアイア:氏名エンジン」が定義されている。なお、リクアイアの引数「氏名エンジン」は、エンジンリストに登録されている第2エンジンのうち、氏名入力用に用意されたエンジンを表している。
プロセスP#2が実行されることにより、人の「氏名」の音声認識に特化した第2エンジンが起動された状態となる。
プロセスP#2に続き、プロセスP#3が実行される。
プロセスP#3は、音声入力を待つウェイトプロセスとされており、「アクション:ウェイト」が定義されている。
プロセスP#3が実行されている状態でユーザが発話を行うと、第2エンジンによる音声認識処理が実行され、この音声認識結果を受けて、プロセスP#4が実行される。
プロセスP#4は、データ入力プロセスとされており、「アクション:音声認識結果を入力」が定義されている。プロセスP#4は、キーボードから文字(氏名)を入力することに相当する。
プロセスP#4に続き、プロセスP#5が実行される。
プロセスP#5は、カーソルの移動プロセスとされており、プロセスP#5が実行されることにより、情報入力のためのカーソルが「入力位置:(3)「RRR」」(フリガナ欄)に移動し、情報の入力が可能な状態となる。
プロセスP#5に続き、プロセスP#6が実行される。
プロセスP#6は、対象項目「利用者情報」のフリガナ欄に適合する第2エンジンへの切り替えプロセスとされており、プロセスP#6が実行されることにより、カタカナとして入力される「フリガナ」の音声認識に特化した第2エンジンが起動された状態となる。
プロセスP#7は、音声入力を待つウェイトプロセスとされており、「アクション:ウェイト」が定義されている。
プロセスP#7が実行されている状態でユーザが発話を行うと、第2エンジンによる音声認識処理が実行され、この音声認識結果を受けて、プロセスP#8が実行される。
プロセスP#8は、データ入力プロセスとされており、「アクション:音声認識結果を入力」が定義されている。プロセスP#8は、キーボードから文字(フリガナ)を入力することに相当する。
以降、プロセスP#9~P#20において、カーソルの移動プロセス、第2エンジンへの切り替えプロセス、ウェイトプロセス、データ入力プロセスが各入力対象位置について実行され、情報の入力が順次行われる。
続いて、プロセスP#21が実行される。
プロセスP#21は、第1エンジンへの切り替えプロセスとされており、「アクション:第1エンジンへの切り替え」、「リクアイア:主エンジン」が定義されている。
プロセスP#21が実行されると、コマンド「利用者情報」の一連のプロセスが完了し、対象項目「利用者情報」の各データ(氏名、フリガナ、生年月日、住所、電話番号)の入力が完了する。
図7に示す例では、「利用者情報」としてグループ化された複数の入力対象位置に対し、対象項目「利用者情報」の入力において、順次、カーソルが移動し、カーソルの移動先の入力内容に対応する第2エンジンに切り替えられ、ユーザの発話を音声認識するという処理が実行される。
そのため、入力対象位置毎に、ユーザが対象項目を発話してカーソルを移動させる場合に比べ、情報入力の利便性を高めることができる。
以上のように、本実施形態における情報処理装置1は、音声認識により情報入力を行うための最初の発話を第1エンジンで音声認識及びコマンド認識処理し、その認識結果から、情報入力の対象項目として、特定の情報(「報告日」あるいは「利用者情報」等)を入力するための一連のプロセスが設定される。そして、一連のプロセスでは、そのプロセスで入力される情報の項目それぞれに適合する第2エンジンが順次起動され、それぞれの項目に特化した音声認識エンジンによって音声認識が行われる。
したがって、適時に適所で適切な音声認識エンジンを使用して情報の入力を行うことができるため、情報処理装置に対する情報の入力をより高速に行うことが可能となる。
また、情報処理装置1は、各対象項目の入力が完了した場合、第1エンジンによって次の対象項目の入力を受け付ける状態に復帰する。
したがって、ユーザは、対象項目の情報入力が完了する毎に、次に情報入力を行う任意の対象項目の名称を発話して情報の入力を行うことができるため、マウスによって情報入力の対象位置をクリックする場合に比べ、より高速に情報の入力を行うことができる。また、対象項目を柔軟に選択しながら、情報入力を行うことが可能となる。
即ち、本実施形態に係る情報処理装置1は、キーボードによる入力操作と入力対象位置へのマウスの移動操作を同時に音声認識処理で代替させるものである。
そして、第1発話に対する音声認識及びコマンド認識処理により、その後の一連の音声入力のための入力位置と使用する音声認識エンジンとを特定し、第2発話以降の発話に応じた音声認識処理を行い、一連の入力を完結することにより、情報入力に要する時間の削減を行う。また、選択される第2の音声認識エンジンがコマンド認識処理可能であれば、第2発話以降の発話に対しても音声認識及びコマンド認識処理を行わせることにより、情報入力に要する時間をさらに削減できる。
この結果、情報処理装置に対する情報の入力をより高速に行うことが可能となる。
[変形例1]
上述の実施形態においては、本発明を単体の情報処理装置に適用した場合を例に挙げて説明したが、これに限られない。
例えば、ネットワークを介して接続されたサーバ及び端末装置を含む情報処理システムに本発明を適用することも可能である。
図8は、本発明を適用した情報処理システムSのシステム構成を示す模式図である。
図8に示すように、情報処理システムSは、端末装置100とサーバ200とがネットワーク300を介して通信可能に構成されている。
端末装置100及びサーバ200は、図1に示す情報処理装置1と同様のハードウェア構成を備えている。
図8に示す情報処理システムSにおいては、図3に示す情報処理装置1の機能的構成のうち、UI制御部51及び音声データ受付部52が端末装置100に備えられ、前処理部53、音声認識処理部54、実行制御部55、音声認識辞書DB71、コマンド辞書DB72、音声認識結果DB73及び音声認識エンジンDB74がサーバ200に備えられた構成となっている。
即ち、図8に示す情報処理システムSにおいては、情報の表示及び音声の入力に関する機能を端末装置100が備え、音声認識及び情報入力に関する機能をサーバ200が備えている。
このような構成とすることにより、サーバ200の高い処理能力を利用して、情報処理装置(端末装置100)に対する情報の入力をより高速に行うことが可能となる。
[変形例2]
上述の実施形態において、対象項目に情報入力を行う場合の一連のプロセスをユーザの要求に応じて変更可能な構成としてもよい。例えば、図5及び図7における対象項目「利用者情報」を入力する場合、プロセスP#1~P#21が一連のプロセスとして定義されているところ、「氏名」及び「フリガナ」を入力するプロセスP#1~P#8を、後続のプロセスP#9以降と分割する操作を受け付けることが可能である。
この場合、ユーザが希望する情報入力の区切りに調整することが可能となる。
なお、プロセスが分割された場合、分割された前半のプロセスの末尾には、第1エンジンへの切り替えプロセスを自動的に追加することができる。
これにより、ユーザが自らプロセスを追加することなく、分割された前半のプロセスが終了した場合に、第1エンジンによって次の対象項目の入力を受け付ける状態に移行させることができる。
以上のように構成される情報処理装置1は、第1音声認識部54-1と、第2音声認識部54-2と、実行制御部55と、を備える。
第1音声認識部54-1は、情報を入力するための画面における入力対象位置に情報を入力するための第1の発話を第1の音声認識エンジンによって音声認識及びコマンド認識をする。
実行制御部55は、第1音声認識部54-1によって第1の発話の音声認識及びコマンド認識処理により認識されたコマンドが表す情報の入力内容に基づいて、当該情報の入力内容に関するプロセスを設定する。
第2音声認識部54-2は、実行制御部55によって設定されたプロセス毎に、当該プロセスで入力される情報に対応する第2の音声認識エンジンによって第2の発話を音声認識する。
したがって、適時に適所で適切な音声認識エンジンを使用して情報の入力を行うことができるため、情報処理装置に対する情報の入力をより高速に行うことが可能となる。
実行制御部55は、第1音声認識部54-1による音声認識及びコマンド認識の結果及び第2音声認識部54-2による音声認識結果に基づいて、入力対象位置に対する情報の入力を実行する。
これにより、音声認識処理によって入力された情報を入力対象位置に高速に入力することが可能となる。
プロセスには、入力対象位置にカーソルを移動させるアクション、当該プロセスで入力される情報に対応する第2の音声認識エンジンに切り替えるアクション、及び、当該プロセスで入力される情報の発話を待機するアクションが含まれる。
これにより、プロセスとして詳細なアクションを設定し、柔軟な処理を行うプロセスを定義することが可能となる。
第1の発話が表す情報の入力内容に関するプロセスが完了した場合に、第1音声認識部54-1が第1の音声認識エンジンによって音声認識を行う待機状態に移行する。
これにより、一連の入力対象位置(対象項目)の入力が完了した後、速やかに他の入力対象位置の入力を行うことができるため、情報処理装置に対する情報の入力をより高速に行うことが可能となる。
プロセスには、複数の入力対象位置に情報を入力するアクションが含まれる。
第2音声認識部54-2は、複数の入力対象位置に情報を入力するアクションそれぞれにおいて、当該入力対象位置に対応する第2音声認識エンジンに切り替えて音声認識を行う。
これにより、適時に適所で適切な音声認識エンジンを使用して情報の入力を行うことが可能となる。
なお、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
例えば、上述の実施形態において、対象項目に文字あるいは数字等のテキスト情報が入力される場合を例に挙げて説明したが、これに限られない。即ち、対象項目における入力対象位置に、プルダウンメニューあるいはラジオボタン等の入力形態で情報を入力するものを含めることも可能である。
この場合、多様な情報入力形態の情報処理装置に本発明を適用し、より高速に情報を入力することが可能となる。
また、上述の実施形態に記載された例を適宜組み合わせて、本発明を実施することが可能である。
上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
換言すると、図3の機能的構成は例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が情報処理装置1に備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に図3の例に限定されない。
また、1つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。
一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであってもよい。
プログラムを記憶する記憶媒体は、装置本体とは別に配布されるリムーバブルメディア、あるいは、装置本体に予め組み込まれた記憶媒体等で構成される。リムーバブルメディアは、例えば、磁気ディスク、光ディスク、光磁気ディスクあるいはフラッシュメモリ等により構成される。光ディスクは、例えば、CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk),Blu-ray Disc(登録商標)等により構成される。光磁気ディスクは、MD(Mini-Disk)等により構成される。フラッシュメモリは、例えば、USB(Universal Serial Bus)メモリあるいはSDカードにより構成される。また、装置本体に予め組み込まれた記憶媒体は、例えば、プログラムが記憶されているROMやハードディスク等で構成される。
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。
1 情報処理装置、11 CPU、12 ROM、13 RAM、14 バス、15 入力部、15a 操作入力部、15b 音声入力部、16 出力部、17 記憶部、18 通信部、19 ドライブ、20 撮像部、31 リムーバブルメディア、51 ユーザインターフェース制御部(UI制御部)、52 音声データ受付部、53 前処理部、54 音声認識処理部、54-1 第1音声認識部、54-2 第2音声認識部、55 実行制御部、71 音声認識辞書データベース(音声認識辞書DB)、72 コマンド辞書データベース(コマンド辞書DB)、73 音声認識結果データベース(音声認識結果DB)、74 音声認識エンジンデータベース(音声認識エンジンDB)、S 情報処理システム、100 端末装置、200 サーバ、300 ネットワーク

Claims (8)

  1. 情報を入力するための画面における入力対象位置に情報を入力するための第1の発話を第1の音声認識エンジンによって音声認識する第1音声認識手段と、
    前記第1音声認識手段によって音声認識された前記第1の発話が表す情報の入力内容に基づいて、当該情報の入力内容に関するプロセスを設定するプロセス設定手段と、
    前記プロセス設定手段によって設定されたプロセス毎に、当該プロセスで入力される情報に対応する第2の音声認識エンジンによって第2の発話を音声認識する第2音声認識手段と、
    を備えることを特徴とする情報処理装置。
  2. 前記第1音声認識手段による音声認識結果及び前記第2音声認識手段による音声認識結果に基づいて、前記入力対象位置に対する情報の入力を実行する実行制御手段を備えることを特徴とする請求項1に記載の情報処理装置。
  3. 前記プロセスには、前記入力対象位置にカーソルを移動させるアクション、当該プロセスで入力される情報に対応する前記第2の音声認識エンジンに切り替えるアクション、及び、当該プロセスで入力される情報の発話を待機するアクションが含まれることを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記第1の発話が表す情報の入力内容に関する前記プロセスが完了した場合に、前記第1音声認識手段が前記第1の音声認識エンジンによって音声認識を行う待機状態に移行することを特徴とする請求項1または2に記載の情報処理装置。
  5. 前記プロセスには、複数の入力対象位置に情報を入力するアクションが含まれ、
    前記第2音声認識手段は、前記複数の入力対象位置に情報を入力するアクションそれぞれにおいて、当該入力対象位置に対応する前記第2音声認識エンジンに切り替えて音声認識を行うことを特徴とする請求項1または2に記載の情報処理装置。
  6. ユーザによって使用される端末装置と、音声認識処理を実行するサーバとを含む情報処理システムであって、
    前記端末装置は、
    情報を入力するための画面を表示する表示手段と、
    音声による発話の入力を受け付け、受け付けた発話のデータを前記サーバに送信する音声入力手段と、
    を備え、
    前記サーバは、
    前記端末装置の前記画面における入力対象位置に情報を入力するための第1の発話を第1の音声認識エンジンによって音声認識する第1音声認識手段と、
    前記第1音声認識手段によって音声認識された前記第1の発話が表す情報の入力内容に基づいて、当該情報の入力内容に関するプロセスを設定するプロセス設定手段と、
    前記プロセス設定手段によって設定されたプロセス毎に、当該プロセスで入力される情報に対応する第2の音声認識エンジンによって第2の発話を音声認識する第2音声認識手段と、
    を備えることを特徴とする情報処理システム。
  7. 情報処理装置が実行する情報処理方法であって、
    情報を入力するための画面における入力対象位置に情報を入力するための第1の発話を第1の音声認識エンジンによって音声認識する第1音声認識ステップと、
    前記第1音声認識ステップにおいて音声認識された前記第1の発話が表す情報の入力内容に基づいて、当該情報の入力内容に関するプロセスを設定するプロセス設定ステップと、
    前記プロセス設定ステップにおいて設定されたプロセス毎に、当該プロセスで入力される情報に対応する第2の音声認識エンジンによって第2の発話を音声認識する第2音声認識ステップと、
    を含むことを特徴とする情報処理方法。
  8. コンピュータに、
    情報を入力するための画面における入力対象位置に情報を入力するための第1の発話を第1の音声認識エンジンによって音声認識する第1音声認識機能と、
    前記第1音声認識機能によって音声認識された前記第1の発話が表す情報の入力内容に基づいて、当該情報の入力内容に関するプロセスを設定するプロセス設定機能と、
    前記プロセス設定機能によって設定されたプロセス毎に、当該プロセスで入力される情報に対応する第2の音声認識エンジンによって第2の発話を音声認識する第2音声認識機能と、
    を実現させることを特徴とするプログラム。
JP2022196684A 2022-12-08 情報処理装置、情報処理システム、情報処理方法及びプログラム Pending JP2024082673A (ja)

Publications (1)

Publication Number Publication Date
JP2024082673A true JP2024082673A (ja) 2024-06-20

Family

ID=

Similar Documents

Publication Publication Date Title
KR102265972B1 (ko) 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
US9640175B2 (en) Pronunciation learning from user correction
KR20240078628A (ko) 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
JP2021103328A (ja) 音声変換方法、装置及び電子機器
EP3504709B1 (en) Determining phonetic relationships
EP1089193A2 (en) Translating apparatus and method, and recording medium used therewith
JP3581881B2 (ja) 音声補完方法、装置および記録媒体
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
JP4729902B2 (ja) 音声対話システム
WO2004036939A1 (fr) Appareil de communication mobile numerique portable, procede de commande vocale et systeme
US20030154080A1 (en) Method and apparatus for modification of audio input to a data processing system
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
JP2006048058A (ja) 多言語による名称の音声認識のための方法とシステム
CN111243599A (zh) 语音识别模型构建方法、装置、介质及电子设备
JP2021144218A (ja) 音声対話再構成方法及び装置
JP2002116793A (ja) データ入力システム及びその方法
El Ouahabi et al. Toward an automatic speech recognition system for amazigh-tarifit language
JP2010197644A (ja) 音声認識システム
JP6664466B2 (ja) 処理実行装置、処理実行装置の制御方法、および制御プログラム
JP6580281B1 (ja) 翻訳装置、翻訳方法、および翻訳プログラム
JP2002221989A (ja) テキスト入力方法及びその装置
JP2024082673A (ja) 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP2012008375A (ja) 音声記録装置、そのデータ処理方法、およびプログラム
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置