JP3581648B2

JP3581648B2 - 音声認識システム、情報処理装置及びそれらの制御方法、プログラム

Info

Publication number: JP3581648B2
Application number: JP2000360203A
Authority: JP
Inventors: 晃弘櫛田; 哲夫小坂
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-11-27
Filing date: 2000-11-27
Publication date: 2004-10-27
Anticipated expiration: 2020-11-27
Also published as: CN1356688A; US7099824B2; KR20020041296A; EP1209662B1; JP2002162988A; EP1209662A3; US20020065652A1; CN1187733C; EP1209662A2; DE60126462D1; ATE353463T1; DE60126462T2; KR100679113B1

Description

【０００１】
【発明の属する技術分野】
本発明は、複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システム、そのシステムを構成する情報処理装置及びそれらの制御方法、コンピュータ可読メモリに関するものである。
【０００２】
【従来の技術】
近年、キーボードやマウス等に加えて、音声が入力インタフェースとして用いられるようになってきた。
【０００３】
しかし、入力された音声を認識する音声認識では、音声認識の対象となる認識語彙が多くなる程、認識率が低下し、また、処理時間を必要とする。そのため、音声認識の対象となる認識語彙（例えば、読みと表記）を登録した認識辞書を複数持ち、入力対象や状況に応じて、認識辞書を切り換える（複数の認識辞書を同時に使用する場合もある）方法がとられている。
【０００４】
また、登録されていない語彙は認識することができないといった問題がある。この問題を解決する方法の一つに、ユーザ辞書（ユーザが音声認識の対象となる認識語彙を登録したもの）を用いる方法がある。
【０００５】
一方、リソースの小さい端末上で、音声認識を実現するために、クライアント・サーバ型の音声認識システムが研究されている。
【０００６】
【発明が解決しようとする課題】
上記の３つの技術は、既知であるが、これらの３つの技術を組み合わせたシステムは、現在のところ実現されていない。
【０００７】
本発明は上記の課題を解決するためになされたものであり、クライアント・サーバ型の音声認識システムにおいて、ユーザからの要求に応じて、ユーザ辞書を使用することにより、音声入力の効率を向上し、システム全体の処理負荷を低減することができる音声認識システム、情報処理装置及びそれらの制御方法、コンピュータ可読メモリを提供することを目的とする。
【０００８】
【課題を解決するための手段】
上記の目的を達成するための本発明による音声認識システムは以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムであって、
前記クライアントは、
音声入力部から入力された音声を受信する音声受信手段と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信手段とを備え、
前記サーバは、
前記音声に対する前記入力フォーム識別情報と、前記ユーザ辞書と、該音声を前記クライアントから受信する受信手段と、
前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を認識する音声認識手段と、
前記音声認識手段で認識した音声認識結果を前記クライアントに送信する送信手段と
を備える。
また、好ましくは、
前記サーバは、
複数種類の認識辞書を保持する保持手段を更に備え、
前記音声認識手段は、前記複数種類の認識辞書それぞれに対応する前記入力フォーム識別情報の対応を管理するテーブルを参照して、前記音声に対する前記入力フォーム識別情報に対応する認識辞書を前記保持手段から選択し、その選択した認識辞書と、前記選択した認識対象語彙を用いて、該音声を認識する。
【０００９】
上記の目的を達成するための本発明による情報処理装置は以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置であって、
音声入力部から入力された音声を受信する音声受信手段と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信手段と、
前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信手段と
を備える。
【００１０】
上記の目的を達成するための本発明による情報処理装置は以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置であって、
前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を該クライアントから受信する受信手段と、
前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を認識する音声認識手段と、
前記音声認識手段で認識した音声認識結果を前記クライアントに送信する送信手段と
を備える。
【００１１】
上記の目的を達成するための本発明による音声認識システムは以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムであって、
前記クライアントは、
音声入力部から入力された音声を受信する音声受信手段と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信手段とを備え、
前記サーバは、
複数種類の認識辞書を保持する保持手段と、
前記音声に対する前記入力フォーム識別情報と、前記ユーザ辞書と、該音声を前記クライアントから受信する受信手段と、
前記音声に対する前記入力フォーム識別情報に対応する認識辞書を前記保持手段から選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を認識する音声認識手段と、
前記音声認識手段で認識した音声認識結果を前記クライアントに送信する送信手段と
を備える。
【００１２】
上記の目的を達成するための本発明による情報処理装置は以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置であって、
音声入力部から入力された音声を受信する音声受信手段と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信手段と、
前記音声に対する前記入力フォーム識別情報に対応する認識辞書と、また、前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信手段と
を備える。
【００１３】
上記の目的を達成するための本発明による情報処理装置は以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置であって、
複数種類の認識辞書を保持する保持手段と、
前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する認識辞書の種類を示す認識辞書識別情報を保持するユーザ辞書と、該音声を該クライアントから受信する受信手段と、
前記音声に対する前記入力フォーム識別情報に対応する認識辞書を前記保持手段から選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を認識する音声認識手段と、
前記音声認識手段で認識した音声認識結果を前記クライアントに送信する送信手段と
を備える。
【００１４】
上記の目的を達成するための本発明による音声認識システムの制御方法は以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムの制御方法であって、
音声入力部から入力された音声を受信する音声受信工程と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する第１送信工程と、
前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を前記サーバで認識する音声認識工程と、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する第２送信工程と
を備える。
上記の目的を達成するための本発明による情報処理装置の制御方法は以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置の制御方法であって、
音声入力部から入力された音声を受信する音声受信工程と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信工程と、
前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信工程と
を備える。
上記の目的を達成するための本発明による情報処理装置の制御方法は以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置の制御方法であって、
前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を該クライアントから受信する受信工程と、
前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を認識する音声認識工程と、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する送信工程と
を備える。
上記の目的を達成するための本発明による音声認識システムの制御方法は以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムの制御方法であって、
音声入力部から入力された音声を受信する音声受信工程と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する第１送信工程と
前記音声に対する前記入力フォーム識別情報に対応する認識辞書を選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を前記サーバで認識する音声認識工程と、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する第２送信工程と
を備える。
上記の目的を達成するための本発明による情報処理装置の制御方法は以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置の制御方法であって、
音声入力部から入力された音声を受信する音声受信工程と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信工程と、
前記音声に対する前記入力フォーム識別情報に対応する認識辞書と、また、前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信工程と
を備える。
上記の目的を達成するための本発明による情報処理装置の制御方法は以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置の制御方法であって、
複数種類の認識辞書を保持する保持工程と、
前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する認識辞書の種類を示す認識辞書識別情報を保持するユーザ辞書と、該音声を該クライアントから受信する受信工程と、
前記音声に対する前記入力フォーム識別情報に対応する認識辞書を前記保持工程から選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を認識する音声認識工程と、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する送信工程と
を備える。
【００１５】
上記の目的を達成するための本発明によるコンピュータ可読メモリは以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムの制御のプログラムコードが格納されたコンピュータ可読メモリであって、
音声入力部から入力された音声を受信する音声受信工程のプログラムコードと、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する第１送信工程のプログラムコードと、
前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を前記サーバで認識する音声認識工程のプログラムコードと、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する第２送信工程のプログラムコードと
を備える。
上記の目的を達成するための本発明によるコンピュータ可読メモリは以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置の制御のプログラムコードが格納されたコンピュータ可読メモリであって、
音声入力部から入力された音声を受信する音声受信工程のプログラムコードと、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信工程のプログラムコードと、
前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信工程のプログラムコードと
を備える。
上記の目的を達成するための本発明によるコンピュータ可読メモリは以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置の制御のプログラムコードが格納されたコンピュータ可読メモリであって、
前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を該クライアントから受信する受信工程のプログラムコードと、
前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を認識する音声認識工程のプログラムコードと、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する送信工程のプログラムコードと
を備える。
上記の目的を達成するための本発明によるコンピュータ可読メモリは以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムの制御のプログラムコードが格納されたコンピュータ可読メモリであって、
音声入力部から入力された音声を受信する音声受信工程のプログラムコードと、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する第１送信工程のプログラムコードと
前記音声に対する前記入力フォーム識別情報に対応する認識辞書を選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を前記サーバで認識する音声認識工程のプログラムコードと、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する第２送信工程のプログラムコードと
を備える。
上記の目的を達成するための本発明によるコンピュータ可読メモリは以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置の制御のプログラムコードが格納されたコンピュータ可読メモリであって、
音声入力部から入力された音声を受信する音声受信工程のプログラムコードと、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信工程のプログラムコードと、
前記音声に対する前記入力フォーム識別情報に対応する認識辞書と、また、前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信工程のプログラムコードと
を備える。
上記の目的を達成するための本発明によるコンピュータ可読メモリは以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置の制御のプログラムコードが格納されたコンピュータ可読メモリであって、
複数種類の認識辞書を保持する保持工程のプログラムコードと、
前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する認識辞書の種類を示す認識辞書識別情報を保持するユーザ辞書と、該音声を該クライアントから受信する受信工程のプログラムコードと、
前記音声に対する前記入力フォーム識別情報に対応する認識辞書を前記保持工程から選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を認識する音声認識工程のプログラムコードと、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する送信工程のプログラムコードと
を備える。
【００１６】
【発明の実施の形態】
以下、図面を参照して本発明の好適な実施形態を詳細に説明する。
［実施形態１］
図１は実施形態１の音声認識システムのハードウェア構成を示す図である。
【００１７】
ＣＰＵ１０１は、クライアント１００全体を統括制御するものであり、ＲＯＭ１０２に格納されているプログラムをＲＡＭ１０３に読み出し、その読み出したプログラムに基づいて、各種処理動作を実行する。ＲＯＭ１０２は、ＣＰＵ１０１で実行する処理の各種プログラムを格納している。ＲＡＭ１０３は、ＲＯＭ１０２に格納されている各種プログラムの実行に必要な記憶領域を提供する。
【００１８】
二次記憶装置１０４は、ＯＳや各種プログラムを格納している。但し、クライアント１００をパーソナルコンピュータ等の汎用装置ではなく、専用装置で構成する場合には、ＲＯＭ１０２内にＯＳや各種プログラムを格納しても構わない。この格納されたプログラムをＲＡＭ１０３に読み出すことによって、ＣＰＵ１０１が処理を実行することが可能である。また、二次記憶装置１０４としては、ハードディスク装置、フロッピーディスクドライブ、ＣＤ−ＲＯＭ等がある。つまり、記憶媒体は如何なるものであっても構わない。
【００１９】
ネットワークＩ／Ｆ（インタフェース）１０５は、サーバ２００のネットワークＩ／Ｆ２０５と接続される。
【００２０】
入力装置１０６は、マウスやキーボード、マイク等で構成され、ＣＰＵ１０１で実行される処理の各種指示の入力を可能とし、これら複数の機器を同時に接続して使用できる。出力装置１０７は、ディスプレイ（ＣＲＴやＬＣＤ等）で構成され、入力装置１０６より入力された情報や、ＣＰＵ１０１で実行される各種処理で制御される表示画面を表示する。バス１０８は、クライアント１００の各種構成要素を相互に接続する。
【００２１】
ＣＰＵ２０１は、サーバ２００全体を統括制御するものであり、ＲＯＭ２０２に格納されているプログラムをＲＡＭ２０３に読み出し、その読み出したプログラムに基づいて、各種処理動作を実行する。ＲＯＭ２０２は、ＣＰＵ２０１で実行する処理の各種プログラムを格納している。ＲＡＭ２０３は、ＲＯＭ２０２に格納されている各種プログラムの実行に必要な記憶領域を提供する。
【００２２】
二次記憶装置２０４は、ＯＳや各種プログラムを格納している。但し、サーバ２００が、パーソナルコンピュータ等の汎用装置ではなく、専用装置で構成する場合には、ＲＯＭ２０２内にＯＳや各種プログラムを格納しても構わない。この格納されたプログラムをＲＡＭ２０３に読み出すことによってＣＰＵ２０１が処理を実行することが可能である。また、二次記憶装置２０４としては、ハードディスク装置、フロッピーディスクドライブ、ＣＤ−ＲＯＭ等がある。つまり、記憶媒体は如何なるものであっても構わない。
【００２３】
ネットワークＩ／Ｆ２０５は、クライアント１００のネットワークＩ／Ｆ１０５と接続される。バス１０６は、サーバ２００の各種構成要素を相互に接続する。
【００２４】
次に、実施形態１の音声認識システムの機能構成について、図２を用いて説明する。
【００２５】
図２は実施形態１の音声認識システムの機能構成を示すブロック図である。
【００２６】
音声入力部１２１は、マイク（入力装置１０６）からユーザが発生した音声を入力し、その入力された音声認識対象の音声データ（音声認識用データ）のＡ／Ｄ変換を行う。通信部１２２は、ユーザ辞書１２４ａ、音声認識用データ１２４ｂ、辞書管理情報１２４ｃ等をサーバ２００に送信し、送信した音声認識用データ１２４ｂに対する音声認識結果等をサーバ２００から受信する。
【００２７】
通信部２２１は、ユーザ辞書１２４ａ、音声認識用データ１２４ｂ、辞書管理情報１２４ｃ等をクライアント１００から受信し、受信した音声認識用データ１２４ｂに対する音声認識結果等をクライアント１００に送信する。
【００２８】
表示部１２３は、サーバ２００から受信した音声認識結果を、例えば、出力装置１０８で表示される本音声認識システムで実行される処理によって表示される表示画面上の入力フォーム等に格納して表示する。
【００２９】
辞書管理部２２３は、入力対象や状況等に応じて、音声認識に使用する認識分野別（例えば、名前用、住所用、英数字記号用等）に用意された複数種類の認識辞書群２２５（認識辞書１〜認識辞書Ｎ、Ｎ：正の整数）及びクライアント１００から受信したユーザ辞書１２４ａ）を切り換えて、選択する（複数種類の辞書を同時に使用する場合もある）。
【００３０】
尚、この複数種類の認識辞書群２２５は、後述するクライアント１００から送信されてくる辞書管理情報１２４ｃ（入力フォーム識別子）毎に用意されており、各認識辞書２２５にはその認識辞書の認識分野を示す認識辞書識別子が付与されており、辞書管理部２２３は、この認識辞書識別子と入力フォーム識別子を対応づけた、図５に示すような識別子テーブル２２３ａを管理している。
【００３１】
音声認識部２２４は、クライアント１００から受信した音声認識用データ１２４ｂ、辞書管理情報１２４ｃに基づいて辞書管理部２２３が音声認識用に指定する認識辞書２２５、ユーザ辞書１２４ａを使用して音声認識を行う。
【００３２】
尚、ユーザ辞書１２４ａは、ユーザが音声認識の対象となる認識語彙を登録したものであり、実施形態１の場合、例えば、図３に示すように、認識対象語彙の読みと表記を対応づけて構成される。
【００３３】
また、音声認識用データ１２４ｂは、音声入力部１２１においてＡ／Ｄ変換された音声データであっても良いし、その音声データを符号化したデータであっても良い。
【００３４】
また、辞書管理情報１２４ｃは、入力対象等を示す情報である。この辞書管理情報１２４ｃは、例えば、図４に示す実施形態１の音声認識システムで表示される音声入力用画面を構成する各入力フォームに、入力された音声をサーバ２００が音声認識し、その音声認識結果に対応するテキストデータを入力する場合において、図５に示すような、入力フォームの種類を示す識別子（入力フォーム識別子）である。そして、クライアント１００は、この入力フォーム識別子を辞書管理情報１２４ｃとしてサーバ２００に送信し、サーバ２００では、辞書管理部２２３において、識別子テーブル２２３ａを参照して、受信した入力フォーム識別子に対応する認識辞書識別子を取得し、音声認識に使用する認識辞書２２５を決定する。
【００３５】
次に、実施形態１の音声認識システムで実行される処理について、図６を用いて説明する。
【００３６】
図６は実施形態１の音声認識システムで実行される処理を示すフローチャートである。
【００３７】
ステップＳ１０１では、クライアント１００は、ユーザ辞書１２４ａをサーバ２００に送信する。
【００３８】
ステップＳ２０１では、サーバ２００は、ユーザ辞書１２４ａをクライアント１００から受信する。
【００３９】
ステップＳ１０２では、クライアント１００は、音声入力対象の入力フォームに音声入力が行われた場合に、その入力フォームの入力フォーム識別子を辞書管理情報１２４ｃとして、サーバ２００に送信する。
【００４０】
ステップＳ２０２では、サーバ２００は、辞書管理情報１２４ｃとして、入力フォーム識別子をクライアント１００から受信する。
【００４１】
ステップＳ２０３では、サーバ２００は、辞書管理情報１２４ｃで識別テーブル２２３ａを参照して、受信した入力フォーム識別子に対応する認識辞書識別子を取得し、音声認識に使用する認識辞書２２５を決定する。
【００４２】
ステップＳ１０３では、クライアント１００は、各入力フォームに入力するテキストデータとして音声入力された音声認識用データ１２４ｂをサーバ２００に送信する。
【００４３】
ステップＳ２０４では、サーバ２００は、各入力フォームに対応する音声認識用データ１２４ｂをクライアント１００から受信する。
【００４４】
ステップＳ２０５では、サーバ２００は、音声認識用データ１２４ｂに対し、辞書管理部２２３で音声認識用に指定された認識辞書２２５、ユーザ辞書１２４を用いて、音声認識部２２４で音声認識を行う。
【００４５】
尚、実施形態１では、音声認識部２２４による音声認識の際には必ず、クライアント１００からサーバ２００に送信されたユーザ辞書１２４ａ中の認識語彙を全て、認識対象語彙としている。
【００４６】
ステップＳ２０６では、サーバ２００は、音声認識部２２４から得られる音声認識結果をクライアント１００に送信する。
【００４７】
ステップＳ１０４では、クライアント１００は、各入力フォームに対する音声認識結果をサーバ２００から受信し、それぞれ対応する入力フォームに音声認識結果に対応するテキストデータを格納する。
【００４８】
ステップＳ１０５では、クライアント１００は、処理を終了するか否かを判定する。処理を終了しない場合（ステップＳ１０５でＮＯ）、ステップＳ１０２に戻り、処理を繰り返す。一方、処理を終了する場合（ステップＳ１０５でＹＥＳ）、サーバ２００に処理を終了する旨を通知し、処理を終了する。
【００４９】
ステップＳ２０７では、サーバ２００は、クライアント１００から処理の終了の指示があるか否かを判定する。処理の指示がない場合（ステップＳ２０７でＮＯ）、ステップＳ２０２に戻り、処理を繰り返す。一方、処理の終了の指示がある場合（ステップＳ２０７でＹＥＳ）、処理を終了する。
【００５０】
尚、上記処理では、音声入力対象の入力フォームに対する音声入力が行われた時に、その入力フォームに対応する辞書管理情報１２４ｃをクライアント１００からサーバ２００へ送信する構成としたが、音声入力対象の入力フォームが、入力装置１０６の指示によってフォーカス（音声入力対象の入力フォームが確定）された時に、送信するように構成しても良い。
【００５１】
また、サーバ２００では、音声認識用データ１２４ｂを全て受信してから音声認識を行う構成としたが、ある入力フォームに入力するテキストデータとして音声入力が行われる毎に、その音声認識用データ１２４ｂを逐次サーバ２００に送信し、リアルタイムで音声認識を行うように構成しても良い。
【００５２】
以上説明したように、実施形態１によれば、クライアント・サーバ型の音声認識システムにおいて、音声認識用データ１２４ｂの音声認識に用いる適切な認識辞書２２５とユーザ辞書１２４ａを併用して、サーバ２００において音声認識を実行することで、クライアント１００の音声認識に関わる処理負荷、記憶資源の使用を低減し、かつサーバ２００における音声認識精度を向上することができる。
［実施形態２］
尚、実施形態１において、ユーザ辞書１２４ａ中の認識語彙が発生しない場合には、ユーザ辞書１２４ａを使用する必要がないため、サーバ２００は、クライアント１００からユーザ辞書１２４ａを使用するという要求がある場合にのみ、ユーザ辞書１２４ａ中の認識語彙を全て認識対象語彙としても良い。
【００５３】
この場合は、例えば、辞書管理情報１２４ｃとして、ユーザ辞書１２４ａの使用の有無を示すフラグを追加することで、ユーザ辞書１２４ａの使用の有無をサーバ２００に通知する。
［実施形態３］
また、入力対象や状況等によって、ユーザ辞書１２４ａ中の認識対象語彙中に使用しない語彙があるため、入力対象や状況に応じて、ユーザ辞書１２４ａ中の特定の認識語彙のみを認識対象語彙としても良い。
【００５４】
この場合は、例えば、図７に示すように、認識語彙ごとに、入力フォーム識別子を指定して管理することにより、音声入力された入力フォームの入力フォーム識別子を持つ認識語彙のみを、認識対象語彙とすることができる。また、ある認識語彙に対して複数の入力フォーム識別子を指定しても良い。加えて、図８に示すように、入力フォーム識別子の代わりに、認識辞書識別子を指定して管理しても良い。
［実施形態４］
実施形態２と実施形態３を組み合わせることにより、音声認識部４による音声認識処理の更なる効率化を図ることができる。
［実施形態５］
本装置は、上記の処理のほとんどがプログラムによって実現できる。先に説明したように、装置としては、パーソナルコンピュータ等の汎用装置で良いわけであるから、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体をシステムあるいは装置に供給し、そのシステムあるいは装置のコンピュータが記憶媒体に格納されたプログラムコードを読み出し実行することによっても実現はできるのはもちろんである。この場合、記憶媒体から読み出されたプログラムコード自体が、前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、フロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、磁気テープ、不揮発性のメモリカード、ＲＯＭ等を用いることができる。
【００５５】
また、本発明は、前述したプログラムコードを記録した記録媒体をコンピュータに供給し、そのコンピュータ上で稼動しているＯＳ等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現されていることによっても達成できる。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータによって挿入された機能拡張ボードや機能拡張ユニットに備わるメモリに書き込まれた後、機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等がプログラムコードの指示に基づいて実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される。本発明を上記記憶媒体に適用する場合、その記憶媒体には前述の図３のフローチャートに対応するプログラムコードを格納することになる。
【００５６】
【発明の効果】
以上説明したように、本発明によれば、クライアント・サーバ型の音声認識システムにおいて、ユーザからの要求に応じて、ユーザ辞書を使用することにより、音声入力の効率を向上し、システム全体の処理負荷を低減することができる音声認識システム、情報処理装置及びそれらの制御方法、コンピュータ可読メモリを提供できる。
【図面の簡単な説明】
【図１】実施形態１の音声認識システムのハードウェア構成を示す図である。
【図２】実施形態１の音声認識システムの機能構成を示すブロック図である。
【図３】実施形態１のユーザ辞書の構成を示す図である。
【図４】実施形態１の音声入力用画面を示す図である。
【図５】実施形態１の識別子テーブルを示す図である。
【図６】実施形態１の音声認識システムで実行される処理を示すフローチャートである。
【図７】実施形態３の入力フォーム識別子を付加したユーザ辞書の構成を示す図である。
【図８】実施形態３の認識辞書識別子を付加したユーザ辞書の構成を示す図である。
【符号の説明】
１００クライアント
１０１ＣＰＵ
１０２ＲＯＭ
１０３ＲＡＭ
１０４二次記憶装置
１０５ネットワークＩ／Ｆ
１０６入力装置
１０７出力装置
１０８バス
１２１音声入力部
１２２通信部
１２３表示部
１２４ａユーザ辞書
１２４ｂ音声認識用データ
１２４ｃ辞書管理情報
２００サーバ
２０１ＣＰＵ
２０２ＲＯＭ
２０３ＲＡＭ
２０４二次記憶装置
２０５ネットワークＩ／Ｆ
２０６バス
２２１通信部
２２３辞書管理部
２２３ａ識別子テーブル
２２４音声認識部
２２５認識辞書

Claims

複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムであって、
前記クライアントは、
音声入力部から入力された音声を受信する音声受信手段と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信手段とを備え、
前記サーバは、
前記音声に対する前記入力フォーム識別情報と、前記ユーザ辞書と、該音声を前記クライアントから受信する受信手段と、
前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を認識する音声認識手段と、
前記音声認識手段で認識した音声認識結果を前記クライアントに送信する送信手段と
を備えることを特徴とする音声認識システム。
前記サーバは、
複数種類の認識辞書を保持する保持手段を更に備え、
前記音声認識手段は、前記複数種類の認識辞書それぞれに対応する前記入力フォーム識別情報の対応を管理するテーブルを参照して、前記音声に対する前記入力フォーム識別情報に対応する認識辞書を前記保持手段から選択し、その選択した認識辞書と、前記選択した認識対象語彙を用いて、該音声を認識する
ことを特徴とする請求項１に記載の音声認識システム。
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置であって、
音声入力部から入力された音声を受信する音声受信手段と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信手段と、
前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信手段と
を備えることを特徴とする情報処理装置。
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置であって、
前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を該クライアントから受信する受信手段と、
前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を認識する音声認識手段と、
前記音声認識手段で認識した音声認識結果を前記クライアントに送信する送信手段と
を備えることを特徴とする情報処理装置。
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムであって、
前記クライアントは、
音声入力部から入力された音声を受信する音声受信手段と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信手段とを備え、
前記サーバは、
複数種類の認識辞書を保持する保持手段と、
前記音声に対する前記入力フォーム識別情報と、前記ユーザ辞書と、該音声を前記クライアントから受信する受信手段と、
前記音声に対する前記入力フォーム識別情報に対応する認識辞書を前記保持手段から選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を認識する音声認識手段と、
前記音声認識手段で認識した音声認識結果を前記クライアントに送信する送信手段と
を備えることを特徴とする音声認識システム。
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置であって、
音声入力部から入力された音声を受信する音声受信手段と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信手段と、
前記音声に対する前記入力フォーム識別情報に対応する認識辞書と、また、前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信手段と
を備えることを特徴とする情報処理装置。
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置であって、
複数種類の認識辞書を保持する保持手段と、
前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する認識辞書の種類を示す認識辞書識別情報を保持するユーザ辞書と、該音声を該クライアントから受信する受信手段と、
前記音声に対する前記入力フォーム識別情報に対応する認識辞書を前記保持手段から選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を認識する音声認識手段と、
前記音声認識手段で認識した音声認識結果を前記クライアントに送信する送信手段と
を備えることを特徴とする情報処理装置。
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムの制御方法であって、
音声入力部から入力された音声を受信する音声受信工程と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する第１送信工程と、
前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を前記サーバで認識する音声認識工程と、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する第２送信工程と
を備えることを特徴とする音声認識システムの制御方法。
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置の制御方法であって、
音声入力部から入力された音声を受信する音声受信工程と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信工程と、
前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信工程と
を備えることを特徴とする情報処理装置の制御方法。
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置の制御方法であって、
前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を該クライアントから受信する受信工程と、
前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を認識する音声認識工程と、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する送信工程と
を備えることを特徴とする情報処理装置の制御方法。
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムの制御方法であって、
音声入力部から入力された音声を受信する音声受信工程と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する第１送信工程と
前記音声に対する前記入力フォーム識別情報に対応する認識辞書を選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を前記サーバで認識する音声認識工程と、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する第２送信工程と
を備えることを特徴とする音声認識システムの制御方法。
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置の制御方法であって、
音声入力部から入力された音声を受信する音声受信工程と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信工程と、
前記音声に対する前記入力フォーム識別情報に対応する認識辞書と、また、前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信工程と
を備えることを特徴とする情報処理装置の制御方法。
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置の制御方法であって、
複数種類の認識辞書を保持する保持工程と、
前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する認識辞書の種類を示す認識辞書識別情報を保持するユーザ辞書と、該音声を該クライアントから受信する受信工程と、
前記音声に対する前記入力フォーム識別情報に対応する認識辞書を前記保持工程から選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を認識する音声認識工程と、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する送信工程と
を備えることを特徴とする情報処理装置の制御方法。
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムの制御のプログラムコードが格納されたコンピュータ可読メモリであって、
音声入力部から入力された音声を受信する音声受信工程のプログラムコードと、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する第１送信工程のプログラムコードと、
前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を前記サーバで認識する音声認識工程のプログラムコードと、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する第２送信工程のプログラムコードと
を備えることを特徴とするコンピュータ可読メモリ。
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置の制御のプログラムコードが格納されたコンピュータ可読メモリであって、
音声入力部から入力された音声を受信する音声受信工程のプログラムコードと、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信工程のプログラムコードと、
前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信工程のプログラムコードと
を備えることを特徴とするコンピュータ可読メモリ。
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置の制御のプログラムコードが格納されたコンピュータ可読メモリであって、
前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を該クライアントから受信する受信工程のプログラムコードと、
前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を認識する音声認識工程のプログラムコードと、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する送信工程のプログラムコードと
を備えることを特徴とするコンピュータ可読メモリ。
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムの制御のプログラムコードが格納されたコンピュータ可読メモリであって、
音声入力部から入力された音声を受信する音声受信工程のプログラムコードと、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する第１送信工程のプログラムコードと
前記音声に対する前記入力フォーム識別情報に対応する認識辞書を選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を前記サーバで認識する音声認識工程のプログラムコードと、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する第２送信工程のプログラムコードと
を備えることを特徴とするコンピュータ可読メモリ。
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置の制御のプログラムコードが格納されたコンピュータ可読メモリであって、
音声入力部から入力された音声を受信する音声受信工程のプログラムコードと、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信工程のプログラムコードと、
前記音声に対する前記入力フォーム識別情報に対応する認識辞書と、また、前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信工程のプログラムコードと
を備えることを特徴とするコンピュータ可読メモリ。
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置の制御のプログラムコードが格納されたコンピュータ可読メモリであって、
複数種類の認識辞書を保持する保持工程のプログラムコードと、
前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する認識辞書の種類を示す認識辞書識別情報を保持するユーザ辞書と、該音声を該クライアントから受信する受信工程のプログラムコードと、
前記音声に対する前記入力フォーム識別情報に対応する認識辞書を前記保持工程から選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を認識する音声認識工程のプログラムコードと、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する送信工程のプログラムコードと
を備えることを特徴とするコンピュータ可読メモリ。