JP3581648B2 - 音声認識システム、情報処理装置及びそれらの制御方法、プログラム - Google Patents

音声認識システム、情報処理装置及びそれらの制御方法、プログラム Download PDF

Info

Publication number
JP3581648B2
JP3581648B2 JP2000360203A JP2000360203A JP3581648B2 JP 3581648 B2 JP3581648 B2 JP 3581648B2 JP 2000360203 A JP2000360203 A JP 2000360203A JP 2000360203 A JP2000360203 A JP 2000360203A JP 3581648 B2 JP3581648 B2 JP 3581648B2
Authority
JP
Japan
Prior art keywords
voice
input
recognition
server
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000360203A
Other languages
English (en)
Other versions
JP2002162988A (ja
Inventor
晃弘 櫛田
哲夫 小坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000360203A priority Critical patent/JP3581648B2/ja
Priority to KR1020010073679A priority patent/KR100679113B1/ko
Priority to AT01309945T priority patent/ATE353463T1/de
Priority to CNB011394773A priority patent/CN1187733C/zh
Priority to US09/993,570 priority patent/US7099824B2/en
Priority to EP01309945A priority patent/EP1209662B1/en
Priority to DE60126462T priority patent/DE60126462T2/de
Publication of JP2002162988A publication Critical patent/JP2002162988A/ja
Application granted granted Critical
Publication of JP3581648B2 publication Critical patent/JP3581648B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システム、そのシステムを構成する情報処理装置及びそれらの制御方法、コンピュータ可読メモリに関するものである。
【0002】
【従来の技術】
近年、キーボードやマウス等に加えて、音声が入力インタフェースとして用いられるようになってきた。
【0003】
しかし、入力された音声を認識する音声認識では、音声認識の対象となる認識語彙が多くなる程、認識率が低下し、また、処理時間を必要とする。そのため、音声認識の対象となる認識語彙(例えば、読みと表記)を登録した認識辞書を複数持ち、入力対象や状況に応じて、認識辞書を切り換える(複数の認識辞書を同時に使用する場合もある)方法がとられている。
【0004】
また、登録されていない語彙は認識することができないといった問題がある。この問題を解決する方法の一つに、ユーザ辞書(ユーザが音声認識の対象となる認識語彙を登録したもの)を用いる方法がある。
【0005】
一方、リソースの小さい端末上で、音声認識を実現するために、クライアント・サーバ型の音声認識システムが研究されている。
【0006】
【発明が解決しようとする課題】
上記の3つの技術は、既知であるが、これらの3つの技術を組み合わせたシステムは、現在のところ実現されていない。
【0007】
本発明は上記の課題を解決するためになされたものであり、クライアント・サーバ型の音声認識システムにおいて、ユーザからの要求に応じて、ユーザ辞書を使用することにより、音声入力の効率を向上し、システム全体の処理負荷を低減することができる音声認識システム、情報処理装置及びそれらの制御方法、コンピュータ可読メモリを提供することを目的とする。
【0008】
【課題を解決するための手段】
上記の目的を達成するための本発明による音声認識システムは以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムであって、
前記クライアントは、
音声入力部から入力された音声を受信する音声受信手段と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信手段とを備え、
前記サーバは、
前記音声に対する前記入力フォーム識別情報と、前記ユーザ辞書と、該音声を前記クライアントから受信する受信手段と、
前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を認識する音声認識手段と、
前記音声認識手段で認識した音声認識結果を前記クライアントに送信する送信手段と
を備える。
また、好ましくは、
前記サーバは、
複数種類の認識辞書を保持する保持手段を更に備え、
前記音声認識手段は、前記複数種類の認識辞書それぞれに対応する前記入力フォーム識別情報の対応を管理するテーブルを参照して、前記音声に対する前記入力フォーム識別情報に対応する認識辞書を前記保持手段から選択し、その選択した認識辞書と、前記選択した認識対象語彙を用いて、該音声を認識する。
【0009】
上記の目的を達成するための本発明による情報処理装置は以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置であって、
音声入力部から入力された音声を受信する音声受信手段と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信手段と
前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信手段と
を備える。
【0010】
上記の目的を達成するための本発明による情報処理装置は以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置であって、
前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を該クライアントから受信する受信手段と、
前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を認識する音声認識手段と、
前記音声認識手段で認識した音声認識結果を前記クライアントに送信する送信手段と
を備える。
【0011】
上記の目的を達成するための本発明による音声認識システムは以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムであって、
前記クライアントは、
音声入力部から入力された音声を受信する音声受信手段と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信手段とを備え、
前記サーバは、
複数種類の認識辞書を保持する保持手段と、
前記音声に対する前記入力フォーム識別情報と、前記ユーザ辞書と、該音声を前記クライアントから受信する受信手段と、
前記音声に対する前記入力フォーム識別情報に対応する認識辞書を前記保持手段から選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を認識する音声認識手段と、
前記音声認識手段で認識した音声認識結果を前記クライアントに送信する送信手段と
を備える。
【0012】
上記の目的を達成するための本発明による情報処理装置は以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置であって、
音声入力部から入力された音声を受信する音声受信手段と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信手段と
前記音声に対する前記入力フォーム識別情報に対応する認識辞書と、また、前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信手段と
を備える。
【0013】
上記の目的を達成するための本発明による情報処理装置は以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置であって、
複数種類の認識辞書を保持する保持手段と、
前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する認識辞書の種類を示す認識辞書識別情報を保持するユーザ辞書と、該音声を該クライアントから受信する受信手段と、
前記音声に対する前記入力フォーム識別情報に対応する認識辞書を前記保持手段から選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を認識する音声認識手段と、
前記音声認識手段で認識した音声認識結果を前記クライアントに送信する送信手段と
を備える。
【0014】
上記の目的を達成するための本発明による音声認識システムの制御方法は以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムの制御方法であって、
音声入力部から入力された音声を受信する音声受信工程と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する第1送信工程と、
前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を前記サーバで認識する音声認識工程と、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する第2送信工程と
を備える。
上記の目的を達成するための本発明による情報処理装置の制御方法は以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置の制御方法であって、
音声入力部から入力された音声を受信する音声受信工程と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信工程と
前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信工程と
を備える。
上記の目的を達成するための本発明による情報処理装置の制御方法は以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置の制御方法であって、
前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を該クライアントから受信する受信工程と、
前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を認識する音声認識工程と、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する送信工程と
を備える。
上記の目的を達成するための本発明による音声認識システムの制御方法は以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムの制御方法であって、
音声入力部から入力された音声を受信する音声受信工程と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユー ザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する第1送信工程と
前記音声に対する前記入力フォーム識別情報に対応する認識辞書を選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を前記サーバで認識する音声認識工程と、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する第2送信工程と
を備える。
上記の目的を達成するための本発明による情報処理装置の制御方法は以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置の制御方法であって、
音声入力部から入力された音声を受信する音声受信工程と、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信工程と
前記音声に対する前記入力フォーム識別情報に対応する認識辞書と、また、前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信工程と
を備える。
上記の目的を達成するための本発明による情報処理装置の制御方法は以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置の制御方法であって、
複数種類の認識辞書を保持する保持工程と、
前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する認識辞書の種類を示す認識辞書識別情報を保持するユーザ辞書と、該音声を該クライアントから受信する受信工程と、
前記音声に対する前記入力フォーム識別情報に対応する認識辞書を前記保持工程から選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を認識する音声認識工程と、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する送信工程と
を備える。
【0015】
上記の目的を達成するための本発明によるコンピュータ可読メモリは以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムの制御のプログラムコードが格納されたコンピュータ可読メモリであって、
音声入力部から入力された音声を受信する音声受信工程のプログラムコードと、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する第1送信工程のプログラムコードと、
前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を前記サーバで認識する音声認識工程のプログラムコードと、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する第2送信工程のプログラムコードと
を備える。
上記の目的を達成するための本発明によるコンピュータ可読メモリは以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置の制御のプログラムコードが格納されたコンピュータ可読メモリであって、
音声入力部から入力された音声を受信する音声受信工程のプログラムコードと、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信工程のプログラムコードと
前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信工程のプログラムコードと
を備える。
上記の目的を達成するための本発明によるコンピュータ可読メモリは以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置の制御のプログラムコードが格納されたコンピュータ可読メモリであって、
前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を該クライアントから受信する受信工程のプログラムコードと、
前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を認識する音声認識工程のプログラムコードと、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する送信工程のプログラムコードと
を備える。
上記の目的を達成するための本発明によるコンピュータ可読メモリは以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムの制御のプログラムコードが格納されたコンピュータ可読メモリであって、
音声入力部から入力された音声を受信する音声受信工程のプログラムコードと、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する第1送信工程のプログラムコードと
前記音声に対する前記入力フォーム識別情報に対応する認識辞書を選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を前記サーバで認識する音声認識工程のプログラムコードと、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する第2送信工程のプログラムコードと
を備える。
上記の目的を達成するための本発明によるコンピュータ可読メモリは以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置の制御のプログラムコードが格納されたコンピュータ可読メモリであって、
音声入力部から入力された音声を受信する音声受信工程のプログラムコードと、
前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信工程のプログラムコードと
前記音声に対する前記入力フォーム識別情報に対応する認識辞書と、また、前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信工程のプログラムコードと
を備える。
上記の目的を達成するための本発明によるコンピュータ可読メモリは以下の構成を備える。即ち、
複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置の制御のプログラムコードが格納されたコンピュータ可読メモリであって、
複数種類の認識辞書を保持する保持工程のプログラムコードと、
前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する認識辞書の種類を示す認識辞書識別情報を保持するユーザ辞書と、該音声を該クライアントから受信する受信工程のプログラムコードと、
前記音声に対する前記入力フォーム識別情報に対応する認識辞書を前記保持工程から選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を認識する音声認識工程のプログラムコードと、
前記音声認識工程で認識した音声認識結果を前記クライアントに送信する送信工程のプログラムコードと
を備える。
【0016】
【発明の実施の形態】
以下、図面を参照して本発明の好適な実施形態を詳細に説明する。
[実施形態1]
図1は実施形態1の音声認識システムのハードウェア構成を示す図である。
【0017】
CPU101は、クライアント100全体を統括制御するものであり、ROM102に格納されているプログラムをRAM103に読み出し、その読み出したプログラムに基づいて、各種処理動作を実行する。ROM102は、CPU101で実行する処理の各種プログラムを格納している。RAM103は、ROM102に格納されている各種プログラムの実行に必要な記憶領域を提供する。
【0018】
二次記憶装置104は、OSや各種プログラムを格納している。但し、クライアント100をパーソナルコンピュータ等の汎用装置ではなく、専用装置で構成する場合には、ROM102内にOSや各種プログラムを格納しても構わない。この格納されたプログラムをRAM103に読み出すことによって、CPU101が処理を実行することが可能である。また、二次記憶装置104としては、ハードディスク装置、フロッピーディスクドライブ、CD−ROM等がある。つまり、記憶媒体は如何なるものであっても構わない。
【0019】
ネットワークI/F(インタフェース)105は、サーバ200のネットワークI/F205と接続される。
【0020】
入力装置106は、マウスやキーボード、マイク等で構成され、CPU101で実行される処理の各種指示の入力を可能とし、これら複数の機器を同時に接続して使用できる。出力装置107は、ディスプレイ(CRTやLCD等)で構成され、入力装置106より入力された情報や、CPU101で実行される各種処理で制御される表示画面を表示する。バス108は、クライアント100の各種構成要素を相互に接続する。
【0021】
CPU201は、サーバ200全体を統括制御するものであり、ROM202に格納されているプログラムをRAM203に読み出し、その読み出したプログラムに基づいて、各種処理動作を実行する。ROM202は、CPU201で実行する処理の各種プログラムを格納している。RAM203は、ROM202に格納されている各種プログラムの実行に必要な記憶領域を提供する。
【0022】
二次記憶装置204は、OSや各種プログラムを格納している。但し、サーバ200が、パーソナルコンピュータ等の汎用装置ではなく、専用装置で構成する場合には、ROM202内にOSや各種プログラムを格納しても構わない。この格納されたプログラムをRAM203に読み出すことによってCPU201が処理を実行することが可能である。また、二次記憶装置204としては、ハードディスク装置、フロッピーディスクドライブ、CD−ROM等がある。つまり、記憶媒体は如何なるものであっても構わない。
【0023】
ネットワークI/F205は、クライアント100のネットワークI/F105と接続される。バス106は、サーバ200の各種構成要素を相互に接続する。
【0024】
次に、実施形態1の音声認識システムの機能構成について、図2を用いて説明する。
【0025】
図2は実施形態1の音声認識システムの機能構成を示すブロック図である。
【0026】
音声入力部121は、マイク(入力装置106)からユーザが発生した音声を入力し、その入力された音声認識対象の音声データ(音声認識用データ)のA/D変換を行う。通信部122は、ユーザ辞書124a、音声認識用データ124b、辞書管理情報124c等をサーバ200に送信し、送信した音声認識用データ124bに対する音声認識結果等をサーバ200から受信する。
【0027】
通信部221は、ユーザ辞書124a、音声認識用データ124b、辞書管理情報124c等をクライアント100から受信し、受信した音声認識用データ124bに対する音声認識結果等をクライアント100に送信する。
【0028】
表示部123は、サーバ200から受信した音声認識結果を、例えば、出力装置108で表示される本音声認識システムで実行される処理によって表示される表示画面上の入力フォーム等に格納して表示する。
【0029】
辞書管理部223は、入力対象や状況等に応じて、音声認識に使用する認識分野別(例えば、名前用、住所用、英数字記号用等)に用意された複数種類の認識辞書群225(認識辞書1〜認識辞書N、N:正の整数)及びクライアント100から受信したユーザ辞書124a)を切り換えて、選択する(複数種類の辞書を同時に使用する場合もある)。
【0030】
尚、この複数種類の認識辞書群225は、後述するクライアント100から送信されてくる辞書管理情報124c(入力フォーム識別子)毎に用意されており、各認識辞書225にはその認識辞書の認識分野を示す認識辞書識別子が付与されており、辞書管理部223は、この認識辞書識別子と入力フォーム識別子を対応づけた、図5に示すような識別子テーブル223aを管理している。
【0031】
音声認識部224は、クライアント100から受信した音声認識用データ124b、辞書管理情報124cに基づいて辞書管理部223が音声認識用に指定する認識辞書225、ユーザ辞書124aを使用して音声認識を行う。
【0032】
尚、ユーザ辞書124aは、ユーザが音声認識の対象となる認識語彙を登録したものであり、実施形態1の場合、例えば、図3に示すように、認識対象語彙の読みと表記を対応づけて構成される。
【0033】
また、音声認識用データ124bは、音声入力部121においてA/D変換された音声データであっても良いし、その音声データを符号化したデータであっても良い。
【0034】
また、辞書管理情報124cは、入力対象等を示す情報である。この辞書管理情報124cは、例えば、図4に示す実施形態1の音声認識システムで表示される音声入力用画面を構成する各入力フォームに、入力された音声をサーバ200が音声認識し、その音声認識結果に対応するテキストデータを入力する場合において、図5に示すような、入力フォームの種類を示す識別子(入力フォーム識別子)である。そして、クライアント100は、この入力フォーム識別子を辞書管理情報124cとしてサーバ200に送信し、サーバ200では、辞書管理部223において、識別子テーブル223aを参照して、受信した入力フォーム識別子に対応する認識辞書識別子を取得し、音声認識に使用する認識辞書225を決定する。
【0035】
次に、実施形態1の音声認識システムで実行される処理について、図6を用いて説明する。
【0036】
図6は実施形態1の音声認識システムで実行される処理を示すフローチャートである。
【0037】
ステップS101では、クライアント100は、ユーザ辞書124aをサーバ200に送信する。
【0038】
ステップS201では、サーバ200は、ユーザ辞書124aをクライアント100から受信する。
【0039】
ステップS102では、クライアント100は、音声入力対象の入力フォームに音声入力が行われた場合に、その入力フォームの入力フォーム識別子を辞書管理情報124cとして、サーバ200に送信する。
【0040】
ステップS202では、サーバ200は、辞書管理情報124cとして、入力フォーム識別子をクライアント100から受信する。
【0041】
ステップS203では、サーバ200は、辞書管理情報124cで識別テーブル223aを参照して、受信した入力フォーム識別子に対応する認識辞書識別子を取得し、音声認識に使用する認識辞書225を決定する。
【0042】
ステップS103では、クライアント100は、各入力フォームに入力するテキストデータとして音声入力された音声認識用データ124bをサーバ200に送信する。
【0043】
ステップS204では、サーバ200は、各入力フォームに対応する音声認識用データ124bをクライアント100から受信する。
【0044】
ステップS205では、サーバ200は、音声認識用データ124bに対し、辞書管理部223で音声認識用に指定された認識辞書225、ユーザ辞書124を用いて、音声認識部224で音声認識を行う。
【0045】
尚、実施形態1では、音声認識部224による音声認識の際には必ず、クライアント100からサーバ200に送信されたユーザ辞書124a中の認識語彙を全て、認識対象語彙としている。
【0046】
ステップS206では、サーバ200は、音声認識部224から得られる音声認識結果をクライアント100に送信する。
【0047】
ステップS104では、クライアント100は、各入力フォームに対する音声認識結果をサーバ200から受信し、それぞれ対応する入力フォームに音声認識結果に対応するテキストデータを格納する。
【0048】
ステップS105では、クライアント100は、処理を終了するか否かを判定する。処理を終了しない場合(ステップS105でNO)、ステップS102に戻り、処理を繰り返す。一方、処理を終了する場合(ステップS105でYES)、サーバ200に処理を終了する旨を通知し、処理を終了する。
【0049】
ステップS207では、サーバ200は、クライアント100から処理の終了の指示があるか否かを判定する。処理の指示がない場合(ステップS207でNO)、ステップS202に戻り、処理を繰り返す。一方、処理の終了の指示がある場合(ステップS207でYES)、処理を終了する。
【0050】
尚、上記処理では、音声入力対象の入力フォームに対する音声入力が行われた時に、その入力フォームに対応する辞書管理情報124cをクライアント100からサーバ200へ送信する構成としたが、音声入力対象の入力フォームが、入力装置106の指示によってフォーカス(音声入力対象の入力フォームが確定)された時に、送信するように構成しても良い。
【0051】
また、サーバ200では、音声認識用データ124bを全て受信してから音声認識を行う構成としたが、ある入力フォームに入力するテキストデータとして音声入力が行われる毎に、その音声認識用データ124bを逐次サーバ200に送信し、リアルタイムで音声認識を行うように構成しても良い。
【0052】
以上説明したように、実施形態1によれば、クライアント・サーバ型の音声認識システムにおいて、音声認識用データ124bの音声認識に用いる適切な認識辞書225とユーザ辞書124aを併用して、サーバ200において音声認識を実行することで、クライアント100の音声認識に関わる処理負荷、記憶資源の使用を低減し、かつサーバ200における音声認識精度を向上することができる。
[実施形態2]
尚、実施形態1において、ユーザ辞書124a中の認識語彙が発生しない場合には、ユーザ辞書124aを使用する必要がないため、サーバ200は、クライアント100からユーザ辞書124aを使用するという要求がある場合にのみ、ユーザ辞書124a中の認識語彙を全て認識対象語彙としても良い。
【0053】
この場合は、例えば、辞書管理情報124cとして、ユーザ辞書124aの使用の有無を示すフラグを追加することで、ユーザ辞書124aの使用の有無をサーバ200に通知する。
[実施形態3]
また、入力対象や状況等によって、ユーザ辞書124a中の認識対象語彙中に使用しない語彙があるため、入力対象や状況に応じて、ユーザ辞書124a中の特定の認識語彙のみを認識対象語彙としても良い。
【0054】
この場合は、例えば、図7に示すように、認識語彙ごとに、入力フォーム識別子を指定して管理することにより、音声入力された入力フォームの入力フォーム識別子を持つ認識語彙のみを、認識対象語彙とすることができる。また、ある認識語彙に対して複数の入力フォーム識別子を指定しても良い。加えて、図8に示すように、入力フォーム識別子の代わりに、認識辞書識別子を指定して管理しても良い。
[実施形態4]
実施形態2と実施形態3を組み合わせることにより、音声認識部4による音声認識処理の更なる効率化を図ることができる。
[実施形態5]
本装置は、上記の処理のほとんどがプログラムによって実現できる。先に説明したように、装置としては、パーソナルコンピュータ等の汎用装置で良いわけであるから、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体をシステムあるいは装置に供給し、そのシステムあるいは装置のコンピュータが記憶媒体に格納されたプログラムコードを読み出し実行することによっても実現はできるのはもちろんである。この場合、記憶媒体から読み出されたプログラムコード自体が、前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、フロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。
【0055】
また、本発明は、前述したプログラムコードを記録した記録媒体をコンピュータに供給し、そのコンピュータ上で稼動しているOS等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現されていることによっても達成できる。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータによって挿入された機能拡張ボードや機能拡張ユニットに備わるメモリに書き込まれた後、機能拡張ボードや機能拡張ユニットに備わるCPU等がプログラムコードの指示に基づいて実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される。本発明を上記記憶媒体に適用する場合、その記憶媒体には前述の図3のフローチャートに対応するプログラムコードを格納することになる。
【0056】
【発明の効果】
以上説明したように、本発明によれば、クライアント・サーバ型の音声認識システムにおいて、ユーザからの要求に応じて、ユーザ辞書を使用することにより、音声入力の効率を向上し、システム全体の処理負荷を低減することができる音声認識システム、情報処理装置及びそれらの制御方法、コンピュータ可読メモリを提供できる。
【図面の簡単な説明】
【図1】実施形態1の音声認識システムのハードウェア構成を示す図である。
【図2】実施形態1の音声認識システムの機能構成を示すブロック図である。
【図3】実施形態1のユーザ辞書の構成を示す図である。
【図4】実施形態1の音声入力用画面を示す図である。
【図5】実施形態1の識別子テーブルを示す図である。
【図6】実施形態1の音声認識システムで実行される処理を示すフローチャートである。
【図7】実施形態3の入力フォーム識別子を付加したユーザ辞書の構成を示す図である。
【図8】実施形態3の認識辞書識別子を付加したユーザ辞書の構成を示す図である。
【符号の説明】
100 クライアント
101 CPU
102 ROM
103 RAM
104 二次記憶装置
105 ネットワークI/F
106 入力装置
107 出力装置
108 バス
121 音声入力部
122 通信部
123 表示部
124a ユーザ辞書
124b 音声認識用データ
124c 辞書管理情報
200 サーバ
201 CPU
202 ROM
203 RAM
204 二次記憶装置
205 ネットワークI/F
206 バス
221 通信部
223 辞書管理部
223a 識別子テーブル
224 音声認識部
225 認識辞書

Claims (19)

  1. 複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムであって、
    前記クライアントは、
    音声入力部から入力された音声を受信する音声受信手段と、
    前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信手段とを備え、
    前記サーバは、
    前記音声に対する前記入力フォーム識別情報と、前記ユーザ辞書と、該音声を前記クライアントから受信する受信手段と、
    前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を認識する音声認識手段と、
    前記音声認識手段で認識した音声認識結果を前記クライアントに送信する送信手段と
    を備えることを特徴とする音声認識システム。
  2. 前記サーバは、
    複数種類の認識辞書を保持する保持手段を更に備え、
    前記音声認識手段は、前記複数種類の認識辞書それぞれに対応する前記入力フォーム識別情報の対応を管理するテーブルを参照して、前記音声に対する前記入力フォーム識別情報に対応する認識辞書を前記保持手段から選択し、その選択した認識辞書と、前記選択した認識対象語彙を用いて、該音声を認識する
    ことを特徴とする請求項1に記載の音声認識システム。
  3. 複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置であって、
    音声入力部から入力された音声を受信する音声受信手段と、
    前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信手段と
    前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信手段と
    を備えることを特徴とする情報処理装置。
  4. 複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置であって、
    前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を該クライアントから受信する受信手段と、
    前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を認識する音声認識手段と、
    前記音声認識手段で認識した音声認識結果を前記クライアントに送信する送信手段と
    を備えることを特徴とする情報処理装置。
  5. 複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムであって、
    前記クライアントは、
    音声入力部から入力された音声を受信する音声受信手段と、
    前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信手段とを備え、
    前記サーバは、
    複数種類の認識辞書を保持する保持手段と、
    前記音声に対する前記入力フォーム識別情報と、前記ユーザ辞書と、該音声を前記クライアントから受信する受信手段と、
    前記音声に対する前記入力フォーム識別情報に対応する認識辞書を前記保持手段から選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を認識する音声認識手段と、
    前記音声認識手段で認識した音声認識結果を前記クライアントに送信する送信手段と
    を備えることを特徴とする音声認識システム。
  6. 複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置であって、
    音声入力部から入力された音声を受信する音声受信手段と、
    前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信手段と
    前記音声に対する前記入力フォーム識別情報に対応する認識辞書と、また、前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信手段と
    を備えることを特徴とする情報処理装置。
  7. 複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置であって、
    複数種類の認識辞書を保持する保持手段と、
    前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する認識辞書の種類を示す認識辞書識別情報を保持するユーザ辞書と、該音声を該クライアントから受信する受信手段と、
    前記音声に対する前記入力フォーム識別情報に対応する認識辞書を前記保持手段から選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を認識する音声認識手段と、
    前記音声認識手段で認識した音声認識結果を前記クライアントに送信する送信手段と
    を備えることを特徴とする情報処理装置。
  8. 複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムの制御方法であって、
    音声入力部から入力された音声を受信する音声受信工程と、
    前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する第1送信工程と、
    前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を前記サーバで認識する音声認識工程と、
    前記音声認識工程で認識した音声認識結果を前記クライアントに送信する第2送信工程と
    を備えることを特徴とする音声認識システムの制御方法。
  9. 複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置の制御方法であって、
    音声入力部から入力された音声を受信する音声受信工程と、
    前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信工程と
    前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信工程と
    を備えることを特徴とする情報処理装置の制御方法。
  10. 複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置の制御方法であって、
    前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を該クライアントから受信する受信工程と、
    前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を認識する音声認識工程と、
    前記音声認識工程で認識した音声認識結果を前記クライアントに送信する送信工程と
    を備えることを特徴とする情報処理装置の制御方法。
  11. 複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムの制御方法であって、
    音声入力部から入力された音声を受信する音声受信工程と、
    前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する第1送信工程と
    前記音声に対する前記入力フォーム識別情報に対応する認識辞書を選択し、また、前 記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を前記サーバで認識する音声認識工程と、
    前記音声認識工程で認識した音声認識結果を前記クライアントに送信する第2送信工程と
    を備えることを特徴とする音声認識システムの制御方法。
  12. 複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置の制御方法であって、
    音声入力部から入力された音声を受信する音声受信工程と、
    前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信工程と
    前記音声に対する前記入力フォーム識別情報に対応する認識辞書と、また、前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信工程と
    を備えることを特徴とする情報処理装置の制御方法。
  13. 複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置の制御方法であって、
    複数種類の認識辞書を保持する保持工程と、
    前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する認識辞書の種類を示す認識辞書識別情報を保持するユーザ辞書と、該音声を該クライアントから受信する受信工程と、
    前記音声に対する前記入力フォーム識別情報に対応する認識辞書を前記保持工程から選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を認識する音声認識工程と、
    前記音声認識工程で認識した音声認識結果を前記クライアントに送信する送信工程と
    を備えることを特徴とする情報処理装置の制御方法。
  14. 複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムの制御のプログラムコードが格納されたコンピュータ可読メモリであって、
    音声入力部から入力された音声を受信する音声受信工程のプログラムコードと、
    前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する第1送信工程のプログラムコードと、
    前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を前記サーバで認識する音声認識工程のプログラムコードと、
    前記音声認識工程で認識した音声認識結果を前記クライアントに送信する第2送信工程のプログラムコードと
    を備えることを特徴とするコンピュータ可読メモリ。
  15. 複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置の制御のプログラムコードが格納されたコンピュータ可読メモリであって、
    音声入力部から入力された音声を受信する音声受信工程のプログラムコードと、
    前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信工程のプログラムコードと
    前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信工程のプログラムコードと
    を備えることを特徴とするコンピュータ可読メモリ。
  16. 複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置の制御のプログラムコードが格納されたコンピュータ可読メモリであって、
    前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記入力フォーム識別情報を対応づけて保持するユーザ辞書と、該音声を該クライアントから受信する受信工程のプログラムコードと、
    前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、その選択した認識対象語彙を用いて、該音声を認識する音声認識工程のプログラムコードと、
    前記音声認識工程で認識した音声認識結果を前記クライアントに送信する送信工程のプログラムコードと
    を備えることを特徴とするコンピュータ可読メモリ。
  17. 複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムの制御のプログラムコードが格納されたコンピュータ可読メモリであって、
    音声入力部から入力された音声を受信する音声受信工程のプログラムコードと、
    前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する第1送信工程のプログラムコードと
    前記音声に対する前記入力フォーム識別情報に対応する認識辞書を選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を前記サーバで認識する音声認識工程のプログラムコードと、
    前記音声認識工程で認識した音声認識結果を前記クライアントに送信する第2送信工程のプログラムコードと
    を備えることを特徴とするコンピュータ可読メモリ。
  18. 複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記クライアントとして機能する情報処理装置の制御のプログラムコードが格納されたコンピュータ可読メモリであって、
    音声入力部から入力された音声を受信する音声受信工程のプログラムコードと、
    前記音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する前記サーバが保持する認識辞書の種類を示す認識辞書識別情報を対応づけて保持するユーザ辞書と、該音声を前記サーバへ送信する送信工程のプログラムコードと
    前記音声に対する前記入力フォーム識別情報に対応する認識辞書と、また、前記音声に対する前記入力フォーム識別情報に対応する、前記ユーザ辞書中の選択された認識対象語彙を用いて、前記サーバによって認識された該音声の音声認識結果を該サーバから受信する受信工程のプログラムコードと
    を備えることを特徴とするコンピュータ可読メモリ。
  19. 複数種類の入力フォームからなる入力フォームに情報を入力するために、クライアントで入力された音声をサーバで認識するクライアント・サーバ型の音声認識システムにおける前記サーバとして機能する情報処理装置の制御のプログラムコードが格納されたコンピュータ可読メモリであって、
    複数種類の認識辞書を保持する保持工程のプログラムコードと、
    前記クライアントで入力された音声の入力先となる前記入力フォームの種類を示す入力フォーム識別情報と、ユーザによって指定された認識対象語彙とその認識対象語彙に対する認識辞書の種類を示す認識辞書識別情報を保持するユーザ辞書と、該音声を該クライアントから受信する受信工程のプログラムコードと、
    前記音声に対する前記入力フォーム識別情報に対応する認識辞書を前記保持工程から選択し、また、前記音声に対する前記入力フォーム識別情報に対応する認識対象語彙を、前記ユーザ辞書中の認識対象語彙から選択し、それらの選択した認識辞書及び認識対象語彙を用いて、該音声を認識する音声認識工程のプログラムコードと、
    前記音声認識工程で認識した音声認識結果を前記クライアントに送信する送信工程のプログラムコードと
    を備えることを特徴とするコンピュータ可読メモリ。
JP2000360203A 2000-11-27 2000-11-27 音声認識システム、情報処理装置及びそれらの制御方法、プログラム Expired - Fee Related JP3581648B2 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2000360203A JP3581648B2 (ja) 2000-11-27 2000-11-27 音声認識システム、情報処理装置及びそれらの制御方法、プログラム
KR1020010073679A KR100679113B1 (ko) 2000-11-27 2001-11-26 음성인식시스템, 음성인식서버, 음성인식클라이언트 및 그들의 제어방법과, 컴퓨터가독메모리
CNB011394773A CN1187733C (zh) 2000-11-27 2001-11-27 语音识别***、服务器、客户机及其控制方法
US09/993,570 US7099824B2 (en) 2000-11-27 2001-11-27 Speech recognition system, speech recognition server, speech recognition client, their control method, and computer readable memory
AT01309945T ATE353463T1 (de) 2000-11-27 2001-11-27 Client/server basiertes spracherkennungssystem
EP01309945A EP1209662B1 (en) 2000-11-27 2001-11-27 Client-server based speech recognition
DE60126462T DE60126462T2 (de) 2000-11-27 2001-11-27 Client/Server basiertes Spracherkennungssystem

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000360203A JP3581648B2 (ja) 2000-11-27 2000-11-27 音声認識システム、情報処理装置及びそれらの制御方法、プログラム

Publications (2)

Publication Number Publication Date
JP2002162988A JP2002162988A (ja) 2002-06-07
JP3581648B2 true JP3581648B2 (ja) 2004-10-27

Family

ID=18831838

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000360203A Expired - Fee Related JP3581648B2 (ja) 2000-11-27 2000-11-27 音声認識システム、情報処理装置及びそれらの制御方法、プログラム

Country Status (7)

Country Link
US (1) US7099824B2 (ja)
EP (1) EP1209662B1 (ja)
JP (1) JP3581648B2 (ja)
KR (1) KR100679113B1 (ja)
CN (1) CN1187733C (ja)
AT (1) ATE353463T1 (ja)
DE (1) DE60126462T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8676582B2 (en) 2007-03-14 2014-03-18 Nec Corporation System and method for speech recognition using a reduced user dictionary, and computer readable storage medium therefor

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US7506022B2 (en) * 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7366673B2 (en) 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
US7711570B2 (en) 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US8229753B2 (en) 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
JP3542578B2 (ja) * 2001-11-22 2004-07-14 キヤノン株式会社 音声認識装置及びその方法、プログラム
JP2004325688A (ja) * 2003-04-23 2004-11-18 Toyota Motor Corp 音声認識システム
US7260535B2 (en) 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US20040230637A1 (en) * 2003-04-29 2004-11-18 Microsoft Corporation Application controls for speech enabled recognition
DE10329546A1 (de) * 2003-06-30 2005-01-20 Daimlerchrysler Ag Lexikon gesteuerter Teilsprachmodell-Mechanismus für die automatische Spracherkennung
US8311835B2 (en) 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
JP2005128076A (ja) * 2003-10-21 2005-05-19 Ntt Docomo Inc 端末からの音声データを認識する音声認識システム及び方法
US20050119892A1 (en) * 2003-12-02 2005-06-02 International Business Machines Corporation Method and arrangement for managing grammar options in a graphical callflow builder
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US20060095266A1 (en) * 2004-11-01 2006-05-04 Mca Nulty Megan Roaming user profiles for speech recognition
US8275618B2 (en) * 2004-12-22 2012-09-25 Nuance Communications, Inc. Mobile dictation correction user interface
JP2009514005A (ja) * 2005-10-27 2009-04-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 口述筆記された情報を処理する方法及びシステム
US7774202B2 (en) * 2006-06-12 2010-08-10 Lockheed Martin Corporation Speech activated control system and related methods
US20090204392A1 (en) * 2006-07-13 2009-08-13 Nec Corporation Communication terminal having speech recognition function, update support device for speech recognition dictionary thereof, and update method
US8214208B2 (en) * 2006-09-28 2012-07-03 Reqall, Inc. Method and system for sharing portable voice profiles
KR100913130B1 (ko) * 2006-09-29 2009-08-19 한국전자통신연구원 사용자 프로파일을 이용한 음성 인식 서비스 방법 및 장치
JP4859642B2 (ja) * 2006-11-30 2012-01-25 富士通株式会社 音声情報管理装置
TWI336048B (en) * 2007-05-11 2011-01-11 Delta Electronics Inc Input system for mobile search and method therefor
CN101079885B (zh) * 2007-06-26 2010-09-01 中兴通讯股份有限公司 一种提供自动语音识别统一开发平台的***和方法
JP4749438B2 (ja) * 2008-03-28 2011-08-17 三菱電機インフォメーションシステムズ株式会社 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム
JP4749437B2 (ja) * 2008-03-28 2011-08-17 三菱電機インフォメーションシステムズ株式会社 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム
JP4815463B2 (ja) * 2008-03-28 2011-11-16 三菱電機インフォメーションシステムズ株式会社 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム
US8019608B2 (en) * 2008-08-29 2011-09-13 Multimodal Technologies, Inc. Distributed speech recognition using one way communication
JP5471106B2 (ja) * 2009-07-16 2014-04-16 独立行政法人情報通信研究機構 音声翻訳システム、辞書サーバ装置、およびプログラム
JP5796496B2 (ja) * 2010-01-29 2015-10-21 日本電気株式会社 入力支援システム、方法、およびプログラム
US9953653B2 (en) 2011-01-07 2018-04-24 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
KR20130016644A (ko) * 2011-08-08 2013-02-18 삼성전자주식회사 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법
KR20150063423A (ko) 2012-10-04 2015-06-09 뉘앙스 커뮤니케이션즈, 인코포레이티드 Asr을 위한 개선된 하이브리드 컨트롤러
CN103839549A (zh) * 2012-11-22 2014-06-04 腾讯科技(深圳)有限公司 一种语音指令控制方法及***
DE112013006770B4 (de) * 2013-03-06 2020-06-18 Mitsubishi Electric Corporation Spracherkennungsvorrichtung und Spracherkennungsverfahren
JP6416752B2 (ja) * 2013-04-19 2018-10-31 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 家電機器の制御方法、家電機器制御システム、及びゲートウェイ
CN104217720B (zh) * 2013-05-29 2019-03-01 腾讯科技(深圳)有限公司 一种基于短连接实现通讯录语音识别的方法、***和装置
CN103474063B (zh) * 2013-08-06 2015-12-23 福建华映显示科技有限公司 语音辨识***以及方法
CN105023575B (zh) * 2014-04-30 2019-09-17 中兴通讯股份有限公司 语音识别方法、装置和***
KR102325724B1 (ko) * 2015-02-28 2021-11-15 삼성전자주식회사 다수의 기기에서 텍스트 데이터 동기화
US10049666B2 (en) * 2016-01-06 2018-08-14 Google Llc Voice recognition system
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
JP6883471B2 (ja) * 2017-05-11 2021-06-09 オリンパス株式会社 収音装置、収音方法、収音プログラム、ディクテーション方法及び情報処理装置
KR20190096853A (ko) * 2019-07-30 2019-08-20 엘지전자 주식회사 음성 처리 방법 및 음성 처리 장치
JP7463690B2 (ja) * 2019-10-31 2024-04-09 株式会社リコー サーバ装置、通信システム、情報処理方法、プログラムおよび記録媒体
TWI752474B (zh) * 2020-04-22 2022-01-11 莊連豪 無障礙智能語音系統及其控制方法
CN112100987A (zh) * 2020-09-27 2020-12-18 中国建设银行股份有限公司 一种多源数据字典的转码方法及装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0695683A (ja) * 1992-09-10 1994-04-08 Fujitsu Ltd 音声認識装置
JP3725566B2 (ja) 1992-12-28 2005-12-14 株式会社東芝 音声認識インターフェース
EP0607615B1 (en) * 1992-12-28 1999-09-15 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
TW274135B (ja) * 1994-09-14 1996-04-11 Hitachi Seisakusyo Kk
JP3267064B2 (ja) * 1994-09-20 2002-03-18 株式会社日立製作所 パターン情報処理装置
JPH08180141A (ja) * 1994-12-20 1996-07-12 Matsushita Electric Ind Co Ltd 文字認識システム
JPH08272789A (ja) 1995-03-30 1996-10-18 Mitsubishi Electric Corp 言語情報変換装置
US5774628A (en) * 1995-04-10 1998-06-30 Texas Instruments Incorporated Speaker-independent dynamic vocabulary and grammar in speech recognition
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
KR19990009682A (ko) * 1997-07-11 1999-02-05 김유승 화자인식 원격 클라이언트 계정 검증 시스템 및 화자검증방법
DE69814819T2 (de) * 1997-11-14 2004-04-01 Scansoft, Inc., Peabody Verfahren und system zur gemeinsamen nutzung von hardware in einem sprachbasierten kommunikationssystem mit sprachverarbeitung auf verschiedenen relativen komplexitätsstufen
US6195641B1 (en) * 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
JPH11308270A (ja) 1998-04-22 1999-11-05 Olympus Optical Co Ltd 通信システム及びそれに用いられる端末装置
JP2000075887A (ja) 1998-08-31 2000-03-14 Sony Corp パターン認識装置、方法及びシステム
JP2000206983A (ja) 1999-01-19 2000-07-28 Sony Corp 情報処理装置および方法、並びに提供媒体
KR100647420B1 (ko) * 1999-12-13 2006-11-17 주식회사 케이티 클라이언트/서버 모델을 활용한 음성인식 시스템 및 그를 이용한 음성인식 서비스 제공방법
CN1315721A (zh) * 2000-03-23 2001-10-03 韦尔博泰克有限公司 客户服务器语音信息传送***与方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8676582B2 (en) 2007-03-14 2014-03-18 Nec Corporation System and method for speech recognition using a reduced user dictionary, and computer readable storage medium therefor

Also Published As

Publication number Publication date
CN1356688A (zh) 2002-07-03
US7099824B2 (en) 2006-08-29
KR20020041296A (ko) 2002-06-01
EP1209662B1 (en) 2007-02-07
JP2002162988A (ja) 2002-06-07
EP1209662A3 (en) 2004-01-28
US20020065652A1 (en) 2002-05-30
CN1187733C (zh) 2005-02-02
EP1209662A2 (en) 2002-05-29
DE60126462D1 (de) 2007-03-22
ATE353463T1 (de) 2007-02-15
DE60126462T2 (de) 2007-11-15
KR100679113B1 (ko) 2007-02-07

Similar Documents

Publication Publication Date Title
JP3581648B2 (ja) 音声認識システム、情報処理装置及びそれらの制御方法、プログラム
CN103377652B (zh) 一种用于进行语音识别的方法、装置和设备
US20120173237A1 (en) Interactive speech recognition model
JP6254209B2 (ja) 音声を利用できるテルネットインターフェイス
US7251602B2 (en) Voice browser system
JP3141833B2 (ja) ネットワークアクセスシステム
US6959195B2 (en) Transmission-side mobile unit, reception-side mobile unit, information communication system, information communication method, and server apparatus
JPH0863478A (ja) 言語処理方法及び言語処理装置
JPH08223309A (ja) 音声入力ネットワークサービスシステム
JP2002373311A (ja) バーコードリーダ
JP2002091473A (ja) 情報処理装置
JP2000020417A (ja) 情報処理方法及び装置、その記憶媒体
JP3529299B2 (ja) かな漢字変換システム、かな漢字変換方法、および記録媒体
US20030046379A1 (en) Network server apparatus, internet appliance terminal unit environment information managing method, and internet appliance terminal unit environment information managing program
JP3857188B2 (ja) テキスト読み上げシステム及び方法
JPH113296A (ja) メディア変換システム
CN117057384B (zh) 支持多类型业务办理的用户码串生成方法、介质及设备
JPH11153998A (ja) 音声応答装置及びその方法、コンピュータ可読メモリ
JP2003258786A (ja) 公開鍵証明書検索装置、公開鍵証明書検索方法、コンピュータプログラムおよびコンピュータプログラムを記録した記録媒体
JP2009157774A (ja) 書き起こしテキスト作成支援装置及び書き起こしテキスト作成支援プログラム
KR100277834B1 (ko) 도서 낭독 시스템 및 서비스 처리 방법
JP2005128076A (ja) 端末からの音声データを認識する音声認識システム及び方法
JP2002132550A (ja) ドキュメント管理システム
JP2000059511A (ja) 文書読み上げ装置及び文書指定方法
JP2003186872A (ja) 言語処理システム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040716

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040723

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080730

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080730

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090730

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090730

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100730

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100730

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110730

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120730

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120730

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130730

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees