JP2003295893A - 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number
JP2003295893A
JP2003295893A JP2002099103A JP2002099103A JP2003295893A JP 2003295893 A JP2003295893 A JP 2003295893A JP 2002099103 A JP2002099103 A JP 2002099103A JP 2002099103 A JP2002099103 A JP 2002099103A JP 2003295893 A JP2003295893 A JP 2003295893A
Authority
JP
Japan
Prior art keywords
voice
recognition
voice data
unit
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002099103A
Other languages
English (en)
Inventor
Hirohide Ushida
牛田  博英
Hiroshi Nakajima
宏 中嶋
Koji Omoto
大本  浩司
Tsutomu Ishida
勉 石田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP2002099103A priority Critical patent/JP2003295893A/ja
Priority to CN03109030.3A priority patent/CN1242376C/zh
Priority to US10/405,066 priority patent/US20040010409A1/en
Publication of JP2003295893A publication Critical patent/JP2003295893A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【課題】 1つの装置における語彙を超えて音声認識を
可能とすること、及び1つの装置に格納されている語彙
を適切な語彙に維持することの少なくとも一方を実現す
ることが可能な音声認識システム、装置、音声認識方
法、音声認識プログラム及び音声認識プログラムを記録
したコンピュータ読み取り可能な記録媒体を提供する。 【解決手段】 クライアント101が受信した音声デー
タを音声認識エンジン104が認識し、その認識結果が
Rejectである場合は、音声データをサーバ111
に送信し、サーバ111における認識結果をクライアン
ト101に送信し、クライアント101は認識回数に応
じた認識辞書103の更新及び結果統合部107におけ
る認識結果の統合を行う。サーバ111の代わりにクラ
イアントを用いるとしても良い。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識を行う音
声認識システム及びこのような音声認識システムに適用
されて好適な、装置、音声認識方法、音声認識プログラ
ム及び音声認識プログラムを記録したコンピュータ読み
取り可能な記録媒体に関する。
【0002】
【従来の技術】従来、数十万語以上の大規模な語彙を対
象として音声認識を行うには高性能なプロセッサと大容
量のメモリを必要としていた。
【0003】このため、PDA(Personal D
igital Assistants)や携帯電話端末
で大語彙の音声認識を行うには端末本体のコストが大き
くなるため実現困難であり、移動環境での利用を妨げる
ことにもなっていた。
【0004】この問題を解決するための従来技術として
例えば特開平11−327583号公報に記載の技術が
ある。
【0005】この従来技術は、サーバと複数のクライア
ントで構成され、クライアントにはデフォルトの語彙が
登録されている。ユーザがデフォルトにない語彙をクラ
イアントに認識させたい場合には、その語彙をクライア
ントに新たに登録する。
【0006】この従来技術では、新たに登録された語彙
はサーバを経由して他のクライアントに送信されるた
め、最初のユーザが登録すれば、他のユーザは登録する
必要がない、という特徴がある。
【0007】
【発明が解決しようとする課題】しかしながら、上記の
従来技術では次の2つの問題がある。まず、1つめの問
題として、最初のユーザが語彙を登録する手続きが必要
になっていた。
【0008】また、2つめの問題として、ユーザによっ
て使用する語彙が異なる場合は、上記従来技術を用いる
ことができなかった。
【0009】本発明は上記事情に鑑みなされたもので、
1つの装置における語彙を超えて音声認識を可能とする
こと、及び1つの装置に格納されている語彙を適切な語
彙に維持することの少なくとも一方を実現することが可
能な音声認識システム、装置、音声認識方法、音声認識
プログラム及び音声認識プログラムを記録したコンピュ
ータ読み取り可能な記録媒体を提供することを目的とす
る。
【0010】
【課題を解決するための手段】上記目的を達成するため
に、本発明に係る音声認識システムは、複数の装置から
構成され、前記複数の装置のうち、少なくとも1以上の
装置は、音声データが入力される音声入力手段と、前記
音声データを認識する第1の音声認識手段と、前記音声
データを所定の場合に他の装置に送信する第1の送信手
段と、前記音声データの送信先の装置から前記音声の認
識結果を受信する受信手段と、前記第1の音声認識手段
における認識結果及び前記受信手段において受信した認
識結果との少なくとも一方に基づいて音声の認識結果を
出力する結果統合手段とを備え、前記複数の装置のう
ち、少なくとも1以上の装置は、前記音声データが入力
された装置から前記音声データを受信する音声受信手段
と、前記音声データを認識する第2の音声認識手段と、
前記第2の音声認識手段の認識結果を前記音声データの
送信元である装置に送信する第2の送信手段とを備え
る。
【0011】また、本発明に係る音声認識システムは、
前記第1の送信手段が前記音声データを他の装置に送信
する所定の場合が、前記第1の音声認識手段による認識
結果における信頼度が、所定の閾値以下の場合である。
【0012】また、本発明に係る音声認識システムは、
前記複数の装置のうちの少なくとも1以上の装置が、語
彙を格納する格納手段と、前記格納手段に格納された語
彙を更新する更新手段とを備え、前記更新手段は、他の
少なくとも1以上の装置から語彙に関する情報を受信
し、前記格納手段に格納された語彙を更新する。
【0013】また、本発明に係る音声認識システムは、
前記複数の装置のうち少なくとも1以上の装置が、所定
のイベントの発生を条件として、他の少なくとも1以上
の装置との接続を開始する。
【0014】さらに、本発明に係る装置は、複数の装置
から構成された音声認識システムにおける装置であっ
て、音声データが入力される音声入力手段と、前記音声
データを認識する第1の音声認識手段と、前記音声デー
タを所定の場合に他の装置に送信する第1の送信手段
と、前記音声データの送信先の装置から前記音声の認識
結果を受信する受信手段と、前記第1の音声認識手段に
おける認識結果及び前記受信手段において受信した認識
結果との少なくとも一方に基づいて音声の認識結果を出
力する結果統合手段とを備えた装置であり、前記複数の
装置のうちの少なくとも1以上の第2の装置は、前記音
声データが入力される装置から前記音声データを受信す
る音声受信手段と、前記音声データを認識する第2の音
声認識手段と、前記第2の音声認識手段の認識結果を前
記音声データの送信元である装置に送信する第2の送信
手段とを備える。
【0015】また、本発明に係る装置は、前記第1の送
信手段が前記音声データを他の装置に送信する所定の場
合が、前記第1の音声認識手段による認識結果における
信頼度が、所定の閾値以下の場合である。
【0016】また、本発明に係る装置は、語彙を格納す
る格納手段と、前記格納手段に格納された語彙を更新す
る更新手段とを備え、前記更新手段は、他の少なくとも
1以上の装置から語彙に関する情報を受信し、前記格納
手段に格納された語彙を更新する。
【0017】また、本発明に係る装置は、特定のイベン
トの発生を条件として、他の少なくとも1以上の装置と
の接続を開始する。
【0018】また、本発明に係る装置は、複数の装置か
ら構成された音声認識システムにおける装置であって、
音声データが入力される音声入力手段と、前記音声デー
タを認識する第1の音声認識手段と、前記音声データを
所定の場合に他の装置に送信する第1の送信手段と、前
記音声データの送信先の装置から前記音声の認識結果を
受信する受信手段と、前記第1の音声認識手段における
認識結果及び前記受信手段において受信した認識結果と
の少なくとも一方に基づいて音声の認識結果を出力する
結果統合手段とを備えた第1の装置から、前記音声デー
タを受信する音声受信手段と、前記音声データを認識す
る第2の音声認識手段と、前記第2の音声認識手段の認
識結果を前記音声データの送信元である装置に送信する
第2の送信手段とを備える。
【0019】また、本発明に係る装置は、前記第1の送
信手段が前記音声データを他の装置に送信する所定の場
合が、前記第1の音声認識手段による認識結果における
信頼度が、所定の閾値以下の場合である。
【0020】さらに、本発明に係る音声認識方法は、複
数の装置から構成された音声認識システムにおける装置
に、音声データが入力される入力工程と、前記音声デー
タが入力された装置が、前記音声データを認識する第1
の音声認識工程と、前記音声データを所定の場合に他の
装置に送信する第1の送信工程と、前記音声データの送
信先の装置から前記音声の認識結果を受信する受信工程
と、前記第1の音声認識工程における認識結果及び前記
受信工程において受信した認識結果との少なくとも一方
に基づいて音声の認識結果を出力する結果統合工程とを
備え、前記複数の装置のうちの装置が、前記音声データ
が入力された装置から前記音声データを受信する音声受
信工程と、前記音声データを認識する第2の音声認識工
程と、前記第2の音声認識工程の認識結果を前記音声デ
ータの送信元である装置に送信する第2の送信工程とを
備える。
【0021】また、本発明に係る音声認識方法は、前記
第1の送信工程における前記音声データを他の装置に送
信する所定の場合が、前記第1の音声認識工程による認
識結果における信頼度が、所定の閾値以下の場合であ
る。
【0022】また、本発明に係る音声認識方法は、前記
複数の装置のうちの装置が、語彙を格納する格納工程
と、前記格納された語彙を更新する更新工程とを備え、
前記更新工程は、他の少なくとも1以上の装置から語彙
に関する情報を受信して格納された語彙を更新する。
【0023】また、本発明に係る音声認識方法は、前記
複数の装置のうち少なくとも1以上の装置が、特定のイ
ベントの発生を条件として、他の少なくとも1以上の装
置との接続を開始する。
【0024】さらに、本発明に係る音声認識プログラム
は、複数の装置から構成された音声認識システムにおけ
る装置を、音声データが入力される音声入力手段、前記
音声データを認識する第1の音声認識手段、前記音声デ
ータを所定の場合に他の装置に送信する第1の送信手
段、前記音声データの送信先の装置から前記音声の認識
結果を受信する受信手段、及び、前記第1の音声認識手
段における認識結果及び前記受信手段において受信した
認識結果との少なくとも一方に基づいて音声の認識結果
を出力する結果統合手段として機能させる音声認識プロ
グラムであり、該音声データが入力される装置以外の前
記複数の装置のうちの少なくとも1以上の第2の装置
は、前記音声データが入力される装置から前記音声デー
タを受信する音声受信手段と、前記音声データを認識す
る第2の音声認識手段と、前記第2の音声認識手段の認
識結果を前記音声データの送信元である装置に送信する
第2の送信手段とを備える。
【0025】また、本発明に係る音声認識プログラム
は、前記第1の送信手段が前記音声データを他の装置に
送信する所定の場合が、前記第1の音声認識手段による
認識結果における信頼度が、所定の閾値以下の場合であ
る。
【0026】また、本発明に係る音声認識プログラム
は、語彙を格納する格納手段に格納された語彙を更新す
る更新手段として機能させるステップを備え、前記更新
手段は、他の少なくとも1以上の装置から語彙に関する
情報を受信し、前記格納手段に格納された語彙を更新す
る。
【0027】また、本発明に係る音声認識プログラム
は、装置間の接続が特定のイベントの発生を条件として
開始される。
【0028】また、本発明に係る音声認識プログラム
は、複数の装置から構成された音声認識システムにおけ
る装置であって、音声データが入力される音声入力手段
と、前記音声データを認識する第1の音声認識手段と、
前記音声データを所定の場合に他の装置に送信する第1
の送信手段と、前記音声データの送信先の装置から前記
音声の認識結果を受信する受信手段と、前記第1の音声
認識手段における認識結果及び前記受信手段において受
信した認識結果との少なくとも一方に基づいて音声の認
識結果を出力する結果統合手段とを備えた第1の装置か
ら前記音声データを受信する、前記音声認識システムに
おける装置を、前記音声データを受信する音声受信手
段、前記音声データを認識する第2の音声認識手段、及
び、前記第2の音声認識手段の認識結果を前記音声デー
タの送信元である装置に送信する第2の送信手段として
機能させる。
【0029】また、本発明に係る音声認識プログラム
は、前記第1の送信手段が前記音声データを他の装置に
送信する所定の場合が、前記第1の音声認識手段による
認識結果における信頼度が、所定の閾値以下の場合であ
る。
【0030】さらに、音声認識プログラムを記録したコ
ンピュータ読み取り可能な記録媒体は、複数の装置から
構成された音声認識システムにおける装置を、音声デー
タが入力される音声入力手段、前記音声データを認識す
る第1の音声認識手段、前記音声データを所定の場合に
他の装置に送信する第1の送信手段、前記音声データの
送信先の装置から前記音声の認識結果を受信する受信手
段、及び、前記第1の音声認識手段における認識結果及
び前記受信手段において受信した認識結果との少なくと
も一方に基づいて音声の認識結果を出力する結果統合手
段として機能させる音声認識プログラムを記録したコン
ピュータ読み取り可能な記録媒体であり、該音声データ
が入力される装置以外の前記複数の装置のうちの少なく
とも1以上の第2の装置は、前記音声データが入力され
る装置から前記音声データを受信する音声受信手段と、
前記音声データを認識する第2の音声認識手段と、前記
第2の音声認識手段の認識結果を前記音声データの送信
元である装置に送信する第2の送信手段とを備える音声
認識プログラムを記録した。
【0031】また、音声認識プログラムを記録したコン
ピュータ読み取り可能な記録媒体は、前記第1の送信手
段が前記音声データを他の装置に送信する所定の場合
が、前記第1の音声認識手段による認識結果における信
頼度が、所定の閾値以下の場合である。
【0032】また、音声認識プログラムを記録したコン
ピュータ読み取り可能な記録媒体は、語彙を格納する格
納手段に格納された語彙を更新する更新手段として機能
させるステップを記録し、前記更新手段は、他の少なく
とも1以上の装置から語彙に関する情報を受信し、前記
格納手段に格納された語彙を更新する。
【0033】また、音声認識プログラムを記録したコン
ピュータ読み取り可能な記録媒体は、装置間の接続が特
定のイベントの発生を条件として開始される。
【0034】また、音声認識プログラムを記録したコン
ピュータ読み取り可能な記録媒体は、複数の装置から構
成された音声認識システムにおける装置であって、音声
データが入力される音声入力手段と、前記音声データを
認識する第1の音声認識手段と、前記音声データを所定
の場合に他の装置に送信する第1の送信手段と、前記音
声データの送信先の装置から前記音声の認識結果を受信
する受信手段と、前記第1の音声認識手段における認識
結果及び前記受信手段において受信した認識結果との少
なくとも一方に基づいて音声の認識結果を出力する結果
統合手段とを備えた第1の装置から前記音声データを受
信する、前記音声認識システムにおける装置を、前記音
声データを受信する音声受信手段、前記音声データを認
識する第2の音声認識手段、及び、前記第2の音声認識
手段の認識結果を前記音声データの送信元である装置に
送信する第2の送信手段として機能させる音声認識プロ
グラムを記録した。
【0035】また、音声認識プログラムを記録したコン
ピュータ読み取り可能な記録媒体は、前記第1の送信手
段が前記音声データを他の装置に送信する所定の場合
が、前記第1の音声認識手段による認識結果における信
頼度が、所定の閾値以下の場合である。
【0036】このように、本発明によれば、1装置当り
の認識可能な語彙数を越える語彙数であっても音声認識
できる。また、ユーザによる語彙の登録手続きが不要と
なるまた、ユーザによって登録されている語彙が異なる
場合でも利用できる。
【0037】さらに、本発明によれば、携帯電話程度の
性能しか持たない端末上でも十分な音声認識ができる。
【0038】ここで、本発明において、音声データに
は、空気の振動としての音声データのみならず、音声を
電気信号のアナログデータとしたものや、音声を電気信
号のデジタルデータとしたものも含むことができる。
【0039】また、本発明において、音声データの認識
とは、入力した音声データと、格納されている1つ又は
複数の語彙との対応を決定することをいい、例えば1つ
の入力した音声データに対して、1つ又は複数の語彙が
対応付けられ、さらに、それぞれの語彙にその語彙の信
頼度が付与されることもある。
【0040】ここで、信頼度とは、音声データに対応付
けられた語彙が、入力された音声データに一致する確率
を表す数値である。
【0041】また、本発明において、語彙には、単語の
みならず、文章、文章の一部、擬音その他の人間が発生
する音声を含むことができる。
【0042】また、本発明においてイベントとは、次の
動作のきっかけとなる出来事のことをいい、事件、動
作、時間的条件、場所的条件等を含むことができる。
【0043】
【発明の実施の形態】以下に図面を参照して、この発明
の好適な実施の形態を例示的に詳しく説明する。ただ
し、この実施の形態に記載されている構成部品の寸法、
材質、形状、その相対配置などは、特に特定的な記載が
ない限りは、この発明の範囲をそれらのみに限定する趣
旨のものではない。
【0044】また、以下の図面において、既述の図面に
記載された部品と同様の部品には同じ番号を付す。ま
た、以下に説明する本発明に係る音声認識システムの各
実施形態の説明は、本発明に係る装置、音声認識方法、
音声認識プログラム及び音声認識プログラムを記録した
コンピュータ読み取り可能な記録媒体の各実施形態の説
明を兼ねる。
【0045】(音声認識システムの第1の実施形態)ま
ず、本発明に係る音声認識システムの第1の実施形態に
ついて説明する。図1に、本発明に係る音声認識システ
ムの第1の実施形態の全体構成図を示す。本実施形態の
音声認識システムは互いにネットワークにより接続され
たクライアント101とサーバ111とで構成される。
【0046】ただし、本発明に係る音声認識システムの
第1の実施形態は、図1に示されるように、クライアン
ト101とサーバ111とがそれぞれ1台の場合に限定
されるものではなく、クライアントの台数及びサーバの
台数はそれぞれ1台以上の任意の台数であって良い。
【0047】101は、クライアントである。このクラ
イアント101は、ユーザが所有する端末でありサーバ
111と通信する機能を有する。
【0048】このクライアント101として、例えば、
パソコン、PDA、携帯電話、カー・ナビゲーション・
システム、モバイルパソコン等を例に挙げることができ
るが、本発明におけるクライアントとしてはこのような
クライアントに限定されるのではなく、その他の種々の
クライアントを用いることができる。
【0049】ここで、クライアント101として、携帯
電話を用いた場合、及び、クライアント101としてP
DAを用いた場合の、それぞれの内部構成について、図
2及び図3を参照して説明する。
【0050】図2は、図1に示されるクライアント10
1として携帯電話を用いた場合の内部ブロック図であ
り、図3は、図1に示されるクライアント101として
PDAを用いた場合の内部ブロック図である。
【0051】図2に示される携帯電話はデジタル無線電
話回線により所定の固定局との間で通信が行われること
により、他の者と通話が可能となる。
【0052】図2において、CPU201は、図2に示
される各回路や部品の動作を制御する、マイクロコンピ
ュータ構成のシステムコントローラである。
【0053】この携帯電話にはアンテナ207が接続さ
れている。このアンテナ207が受信した所定の周波数
帯(例えば800MHz帯)の信号を、高周波回路(以
下RF回路と称する)208に供給して復調させ、復調
信号をデジタル処理部209に供給する。
【0054】デジタル処理部209は、デジタルシグナ
ルプロセッサ(DSP)と呼ばれ、デジタル復調などの
各種デジタル処理をした後アナログ音声信号に変換す
る。
【0055】このデジタル処理部209でのデジタル処
理は、必要とするスロットの出力を時分割多重された信
号から抽出する処理や、デジタル復調した信号をFIR
フィルタで波形等化する処理が行われる。
【0056】そして、変換されたアナログ音声信号は音
声回路210に供給され、増幅などのアナログ音声処理
がなされる。
【0057】そして、音声回路210が出力する音声信
号をハンドセット部211に送信し、このハンドセット
部211に組み込まれたスピーカ(不図示)より音声を
出力させる。
【0058】また、ハンドセット部211に組み込まれ
たマイク(不図示)が取得した音声による音声データを
音声回路210に送信し、この音声回路210で増幅な
どのアナログ音声処理をした後、デジタル処理部209
に送信する。
【0059】そして、このデジタル処理部209でデジ
タル音声信号に変換した後、デジタル変調などの送信の
ための処理を行う。
【0060】処理されたデジタル音声信号はRF回路2
08に送信され、送信用に所定の周波数帯(例えば80
0MHz帯)に変調される。そして、変調波はアンテナ
207から送信される。
【0061】なお、本例のハンドセット部211には例
えば液晶ディスプレイ等による表示部212が接続さ
れ、各種の文字や画像などによる情報が表示できるよう
になっている。
【0062】例えば、この表示部212は、CPU20
1からバスラインを介して送信されるデータにより表示
が制御され、アクセスしたホームページの画像が表示さ
れる場合や、発信したダイヤル番号などの通話に関する
情報が表示される場合や、後述するグレードアップ時の
操作などが表示される場合等がある。
【0063】また、ハンドセット部211にはダイヤル
番号などの入力操作を行うキー(不図示)が取付けてあ
る。
【0064】そして、上記各回路208〜211は、C
PU201による制御で作動する。そして、CPU20
1から各回路208〜211にはコントロール線を介し
て制御信号が送信される。
【0065】また、CPU201はバスラインを介して
EEPROM202,第1のRAM203,第2のRA
M204の各メモリと接続されている。
【0066】この場合、EEPROM202は、データ
の読出し専用のメモリでこの携帯電話102の動作プロ
グラムが予め格納されているものであるが、一部のエリ
アのデータをCPU201の制御で書き換えることがで
きる。
【0067】したがって、このEEPROM202に格
納されているプログラムが、本発明に係るプログラムと
なり、EEPROM202自体が、本発明に係るプログ
ラムを記録したコンピュータ読み取り可能な記録媒体と
なる。
【0068】よって、本出願の特許請求の範囲に記載
の、音声入力手段、第1の音声認識手段、第1の送信手
段、受信手段、結果統合手段、格納手段及び更新手段の
機能は、図2に示されるCPU201が、単体で、図2
に示される他の部品と共に、又はEEPROM202に
格納されたプログラムと協働することにより実現され
る。
【0069】また、第1のRAM203は、EEPRO
M202に書き換えられるデータの一時記憶用のメモリ
である。
【0070】また、第2のRAM204は、デジタル処
理部209の制御データが記憶されるメモリである。
【0071】この場合、第2のRAM204に接続され
たバスラインは、バススイッチ206を介して、CPU
201側とデジタル処理部209側との切換えができる
ようにしてある。
【0072】このバススイッチ206により第2のRA
M204がCPU201側に切換わるのは、この携帯電
話の動作プログラムが修正されたときだけである。
【0073】したがって、他の状態では第1のRAM2
03がデジタル処理部209側と接続されるようにして
ある。
【0074】また、第2のRAM204には、記憶デー
タの消失防止用のバックアップ用電池205が接続され
ている。
【0075】一方、本実施形態では、外部から受信した
データがCPUに入力されることが可能になっている。
【0076】つまり、図中213は外部と接続するため
のコネクタを示し、このコネクタ213に得られるデー
タを、CPU201に送信できるようにしてある。
【0077】次に、図1に示されるクライアント101
としてPDAを用いた場合について説明する。
【0078】図3は、図1に示されるクライアント10
1として用いられるPDA(Personal Dig
ital Assistants)の内部ブロック図で
ある。
【0079】PDAは、送受信部301、出力部30
2、入力部303、時計部304、通信部305、CP
U306、RAM307、ROM308、記憶媒体31
0が装着される記憶装置309などから構成されてお
り、これらの各構成装置はバス312を介して相互に接
続されている。
【0080】CPU(Central Process
ing Unit)306は、記憶装置309内の記憶
媒体310に記憶されているシステムプログラム及び当
該システムプログラムに対応する各種アプリケーション
プログラムの中から指定されたアプリケーションプログ
ラムをRAM307内のプログラム格納領域に格納す
る。
【0081】そしてCPU306は、送受信部301、
入力部303、時計部304、及び外部の基地局を介し
て入力される各種指示或いは入力データをRAM307
内に格納し、この入力指示或いは入力データに応じて記
憶媒体310に格納されたアプリケーションプログラム
に従って各種処理を実行する。
【0082】そして、CPU306は、その処理結果
を、RAM307内に格納する。また、CPU306
は、送信するデータを、RAM307より読み出して送
受信部301へ出力する。
【0083】送受信部301は、例えばPHSユニット
(Personal Handy−phone Sys
tem Unit)により構成することができる。
【0084】送受信部301は、付設のアンテナ311
から外部の基地局に対して、CPU306から入力され
るデータ(検索出力依頼データ等)を、所定の通信プロ
トコルに基づく電波形態で送信する。
【0085】出力部302は、LCD表示やCRT表示
が可能な表示画面を備え、CPU306から入力される
各種データをその表示画面で表示する装置である。
【0086】入力部303は、各種のキーや、ペン入力
を行うための表示画面(この場合の表示画面は出力部3
02における表示画面であることが殆どである)等から
構成されており、キー入力やペン入力(ペンによる手書
き文字認識を含む)により、スケジュール等に関するデ
ータ入力や各種の検索指令の入力、及びPDAの各種の
設定入力等を行う入力装置であり、キー入力やペン入力
された信号をCPU306に出力する。
【0087】また、本実施形態では、入力部303に、
音声データを入力するためのマイクなどの音声データ入
力装置を含める。
【0088】時計部304は、計時機能を備えた装置
で、計時される時刻に関する情報は出力部302におい
て表示され、また、CPU306が時刻情報を伴ったデ
ータ(例えば、スケジュールに関するデータ等)の入
力、保存などを行うときに、時計部304よりCPU3
06に時刻に関する情報が入力され、CPU306はそ
の入力された時刻情報に基づき動作を行う。
【0089】通信部305は、近距離での無線若しくは
有線によるデータ通信を行うためのユニットである。
【0090】RAM(Ramdom Access M
emory)307は、CPU306により演算処理さ
れる各種プログラムやデータなどを一時的に記憶する記
憶領域からなる。また、RAM307は、記憶された各
種プログラムやデータなどの読み出しも行う。
【0091】RAM307には、入力部303からの入
力指示或いは入力データ、及び、送受信部301を通じ
て外部から送られてくる各種データ、CPU306が記
憶媒体310から読み出したプログラムコードに従って
処理した処理結果等が一時的に記憶される。
【0092】ROM(Read Only Memor
y)308は、CPU306からの指示により格納され
ているデータの読み出しを行う読み出し専用メモリであ
る。
【0093】記憶装置309は、プログラムやデータ等
が記憶されている記憶媒体310を有しており、この記
憶媒体310は磁気的、光学的記憶媒体、若しくは半導
体メモリにより構成されている。また、記憶媒体310
は、記憶装置309に固定的に設けたもの、若しくは着
脱自在に装着したもののいずれであって良い。
【0094】この記憶媒体310にはシステムプログラ
ム及び当該システムプログラムに対応する各種アプリケ
ーションプログラム、表示処理、通信処理、入力処理及
び各処理プログラムで処理されたデータ(スケジュール
データを含む)等を記憶する。
【0095】尚、この記憶媒体310に記憶するプログ
ラム、データ等は、通信回線等を介して接続された他の
機器から受信して記憶する構成にしてもよく、更に、通
信回線等を介して接続された他の機器側に上記記憶媒体
を備えた記憶装置を設け、この記憶媒体に記憶されてい
るプログラム、データを通信回線を介して使用する構成
にしてもよい。
【0096】以上から、ROM308又は記憶媒体31
0に格納されているプログラムが、本発明に係るプログ
ラムとなり、ROM308又は記憶媒体310自体が、
本発明に係るプログラムを記録したコンピュータ読み取
り可能な記録媒体となる。
【0097】よって、本出願の特許請求の範囲に記載
の、音声入力手段、第1の音声認識手段、第1の送信手
段、受信手段、結果統合手段、格納手段及び更新手段の
機能は、図3に示されるCPU301が、単体で、図3
に示される他の部品と共に、又はROM308又は記憶
媒体310に格納されたプログラムと協働することによ
り実現される。
【0098】携帯電話又はPDAその他の装置により構
成されるクライアント101は、ユーザから取得した音
声を認識する。また、クライアント101は、所定の場
合に音声データをサーバ111に送信し、その認識結果
をサーバ111から受信する。
【0099】次に、図1に示されるクライアント101
の説明にもどる。クライアント101は、音声入力部1
02を備える。この音声入力部102は、ユーザからの
音声データを取得する。
【0100】また、この音声入力部102は、音声認識
エンジン104及び音声送信部105に対して音声デー
タを出力する。
【0101】また、この音声入力部102は、アナログ
入力音声をデジタル音声データに変換する。
【0102】次に、音声認識エンジン104は、音声入
力部102から音声データを受け取る。また、音声認識
エンジン104は、認識辞書103から語彙をロードす
る。
【0103】この音声認識エンジン104は、ロードし
た認識辞書の中のデータと、音声入力部102から入力
した音声データとの間の認識を行う。この認識結果は、
例えば各語彙に対する信頼度として算出される。
【0104】ここで、本実施形態の音声認識エンジン1
04における音声認識の一般的な処理手順について以下
に説明する。
【0105】音声認識エンジン104における音声認識
プロセスは、音声分析過程と探索過程で構成される。
【0106】1.音声分析過程音声分析過程は、音声認
識で用いる特徴量を音声波形から求めるプロセスであ
る。特徴量としては一般にケプストラムを用いる。ケプ
ストラムは、音声波形の短時間振幅スペクトルの対数の
逆フーリエ変換として定義される。
【0107】2.探索過程探索過程は、音声分析で得た
特徴量をもとに、その特徴量に最も近い音声データのカ
テゴリ(例えば、単語や単語列)を求めるプロセスであ
る。一般的に探索過程では音響モデルと言語モデルとい
う2種類の統計的モデルを用いる。
【0108】音響モデルとは、人の発声の特徴を統計的
に表したものであり、あらかじめ収集された音響データ
をもとに各音素(例えば、/a/,/i/などの母音、
/k/,/t/などの子音)のモデルを計算により求め
ておく。
【0109】音響モデルを表現する一般的な方法として
は隠れマルコフモデル(Hidden Markov
Model)が用いられる。
【0110】言語モデルは音声認識できる語彙の空間を
規定するもの、すなわち、音響モデルの配列に制約を与
えるものであり、例えば「やま」という単語がどのよう
な音素の並びで表現されるかを規定したり、あるいは、
ある文章がどのような単語列で表現されるかを規定す
る。
【0111】言語モデルとしては、一般にはNグラムが
用いられる。探索過程では、音声分析により抽出された
特徴量を、音響モデルと言語モデルに対して照合を行
う。照合ではベイズの法則に基づく確率的処理を用い
て、確率的に最も近い単語を導出する。
【0112】照合結果は、どの単語、あるいは単語列に
類似しているかという確率で表現され、2つのモデルを
統合して最終的な確率が得られる。
【0113】探索過程における隠れマルコフモデル、N
グラム、ベイズの法則の詳細については、例えば次の文
献に記述されている。「音声言語処理」(森北出版,北
研二,中村 哲,永田 昌明 著)
【0114】また、音声認識エンジン104は、音声デ
ータの認識結果を、音声送信部105、辞書制御部10
6及び結果統合部107へ出力する。
【0115】ここで、音声認識エンジン104が出力す
る認識結果の一例について図4を参照して説明する。図
4は、図1に示される音声認識エンジン104が出力す
る認識結果の概念図である。
【0116】図4に示される認識結果の例では、音声認
識エンジン104に入力したある音声データに対して、
音声認識エンジン104により認識された認識語彙とし
て、「X」、「Y」、「Z」が出力されている。もちろ
ん、本実施形態の音声認識エンジン104により出力さ
れる認識語彙としては、「X」、「Y」、「Z」に限定
されるものではなく、それ以外の語彙や、この数以上の
語彙も出力することができる。
【0117】そして、音声認識エンジン104は、それ
ぞれの認識語彙に対して、信頼度を算出する。この信頼
度の算出の仕方は公知の技術を用いることができる。
【0118】図4に示される例では、信頼度は、認識語
彙「X」に対して0.6、認識語彙「Y」に対して0.
2、認識語彙「Z」に対して0.3となっている。
【0119】また、音声認識エンジンは、認識語彙の中
から、所定の信頼度(閾値)より上の語彙以外の語彙を
Reject対象とする。図4に示される例では、例え
ば信頼度の閾値を0.5に設定し、語彙「X」以外がR
eject対象となっている。
【0120】このように、音声認識エンジン104は、
認識結果の信頼度が閾値よりも低い場合には、認識結果
をRejectとして、Rejectであるという情報
を、音声送信部105、辞書制御部106及び結果統合
部107へ出力する。このように音声認識エンジン10
4は、認識辞書に格納された語彙をもとに、音声データ
を認識する。
【0121】次に、図1に示される認識辞書103に
は、辞書制御部106から登録すべき語彙が出力され
る。この認識辞書103に、ユーザあるいは設計者があ
らかじめ語彙を登録しておくこともできる。この認識辞
書103は、語彙を格納する格納手段として機能し、認
識辞書103以外の他の認識辞書も同様である。
【0122】認識辞書103は、音声認識エンジン10
4に対して語彙を出力する。また、認識辞書103は語
彙を保存する。
【0123】次に、音声送信部105は、音声入力部1
02から音声データを取得する。また、音声送信部10
5は、音声認識エンジン104から認識結果を取得す
る。
【0124】そして、音声送信部105は、サーバ11
1に対して音声データを送信する。すなわち、音声送信
部105は、音声認識エンジン104から取得した認識
結果に基づいて、その音声データについての認識結果が
全てRejectである情報を受け取った場合、音声入
力部102から受理した音声データをサーバ111に送
信する。
【0125】ここで、送信先のサーバを決定する方法と
して、例えば、送信元のクライアントに物理的距離が近
い所に存在するサーバに送信する方法がある。すなわ
ち、通信を行うサーバを、これらの装置間の距離に関す
る情報に基づいて定められるとしても良い。
【0126】上記距離に関する情報にはクライアントが
通信する基地局の位置情報や、GPS(Global
Positioning Systems:全地球測位
システム)を使用することにより取得した位置情報等を
含めることができる。
【0127】次に、辞書制御部106は、サーバ111
から辞書更新情報を受信し、認識辞書103の語彙を更
新する。したがって、辞書制御部106は、更新手段と
して機能する。この更新動作については後述する。
【0128】辞書更新情報には、サーバ111が、クラ
イアント101から受信した音声データを認識した回数
が語彙毎に記録されている。また、辞書制御部106
は、音声認識エンジン104から認識結果を取得する。
【0129】また、辞書制御部106は、認識辞書10
3に語彙を出力する。また、辞書制御部106は、音声
認識エンジン104から受信した認識結果をもとに認識
辞書103に格納された語彙毎の認識回数を計数する。
【0130】ここで、辞書制御部106において計数さ
れる認識辞書103に格納された語彙毎の認識回数につ
いて図5を参照して説明する。図5は、図1に示される
辞書制御部106において計数される認識辞書103に
格納された語彙毎の認識回数の概念図である。
【0131】図5に示されるように、例えば認識辞書1
03に格納されている各語彙に認識回数の情報が格納さ
れている。すなわち、図5に示される例では、語彙
「A」の認識回数が3回、語彙「B」の認識回数は2回
であり、語彙「C」の認識回数は6回である。
【0132】また、辞書制御部106は、サーバ111
から受信した辞書更新情報(すなわち、サーバ111で
の語彙毎の認識回数)と、クライアント101における
語彙毎の認識回数をもとに、認識辞書103に格納され
ている全語彙を認識回数でソートする。このソート動作
については後述する。
【0133】そして、辞書制御部106は、例えば語彙
を認識回数の多い順に認識辞書に登録可能な数だけ認識
辞書103に登録する。
【0134】次に、結果統合部107は、音声認識エン
ジン104からクライアント101の認識結果を取得す
る。
【0135】さらに、結果統合部107は、サーバ11
1からサーバ111の認識結果を取得する。したがっ
て、結果統合部107は、サーバ111からの認識結果
の受信手段として機能する。
【0136】そして、結果統合部107は、統合した認
識結果を出力する。この結果統合部107からの出力は
音声による確認やアプリケーションで利用される。
【0137】すなわち、結果統合部107は、クライア
ント101とサーバ111の認識結果を統合し、クライ
アント101の認識結果がRejectの場合にはサー
バ111の認識結果を採用する。
【0138】また、結果統合部107は、クライアント
101の認識結果がRejectでない場合にはクライ
アント101の認識結果を採用する。
【0139】また、結果統合部107は、Reject
でない認識結果が複数ある場合は、それらのうち、最も
信頼度の高い結果を認識決かとして出力しても良い。
【0140】次に、サーバ111は、クライアント10
1から音声データを受信し、これを認識する。
【0141】そして、サーバ111は、認識回数が多い
語彙については、これをクライアント101に送信す
る。以下、このサーバ111の構成及び動作についてさ
らに説明する。
【0142】まず、図1に示されるサーバ111の内部
構成について、図6を参照して説明する。図6は、図1
に示されるサーバ111の内部ブロック図である。
【0143】図6に示されるように、サーバ111は、
CPU(Central Processing Un
it)601と、入力部602と、主記憶部603と、
出力部604と、補助記憶部605と、クロック部60
6とからなる。
【0144】CPU601は別名処理部としての部品で
あり、システム内の各部に命令を送りその動作を制御す
る制御部607と、サーバ111の中心的な部分でディ
ジタルデータの演算処理を行う演算部608とからな
る。
【0145】ここで、このCPU601は、単体で、又
は図6に示されるその他の各部品と共に、又は主記憶部
603や補助記憶部605に記憶されているプログラム
と協働して、本出願の特許請求の範囲に記載の、音声受
信手段、第2の音声認識手段、第2の送信手段として機
能する。
【0146】制御部607は、クロック部606が発す
るクロックのタイミングに従い、入力部602から入力
されたデータや予め与えられた手順(例えばプログラム
やソフトウェア)を主記憶部603に読み込み、この読
み込んだ内容に基づいて演算部608に命令を送り演算
処理を行わせる。
【0147】この演算処理の結果は、制御部607の制
御に基づいて、主記憶部603、出力部604及び補助
記憶部605等の内部の機器や外部の機器等に送信され
る。
【0148】入力部602は、各種データを入力するた
めの部品であり、例えばキーボード、マウス、ポインテ
ィングデバイス、タッチパネル、マウスパッド、CCD
カメラ、カード読み取り機、紙テープ読み取り部、磁気
テープ部等が考えられる。
【0149】主記憶部603は別名メモリと呼ばれる部
品であり、処理部及び内部記憶部において、命令を実行
するために使われるアドレス可能な記憶空間を指す部品
である。
【0150】この主記憶部603は主として半導体記憶
素子により構成され、入力したプログラムやデータを格
納、保持すると共に、制御部607の指示にしたがい、
この格納保持されているデータを例えばレジスタに読み
出す。
【0151】また、主記憶部603を構成する半導体記
憶素子としてはRAM(Random Access
Memory)やROM(Read Only Mem
ory)等が挙げられる。
【0152】出力部604は、演算部608の演算結果
等を出力するための部品であり、例えばCRT、プラズ
マディスプレイパネル及び液晶ディスプレイその他の表
示部、プリンタなどの印刷部、音声出力部等が該当す
る。
【0153】また、補助記憶部605は、主記憶部60
3の記憶容量を補うための部品であり、これに使用され
る媒体には、CD−ROM、ハードディスクなどのほ
か、情報を書き込み可能な例えばライトワンス系のCD
−R、DVD−Rや、相変化記録系のCD−RW、DV
D−RAM、DVD+RW、PD、光磁気記憶系の記録
媒体、磁気記録系の記録媒体、リムーバルHDD系の記
録媒体、フラッシュメモリ系の記録媒体を用いることが
できる。
【0154】ここで、上記各部は、バス609により相
互に接続されている。
【0155】また、本実施形態におけるサーバにおい
て、図6に示される各部のうち不要な部があればそれは
適宜に削除することができる。例えば出力部604を構
成するディスプレイなどは不要になる場合があり、この
場合、本実施形態におけるサーバにおいて、出力部60
4が不要になる場合がある。
【0156】また、上記主記憶部603及び補助記憶部
605の個数は各1つに限定されるものではなく、任意
の個数であって良い。これら、上記主記憶部603及び
補助記憶部605の個数が増えればそれだけサーバの耐
障害性が向上することとなる。
【0157】なお、本発明に係る各種プログラムは、上
記主記憶部603及び補助記憶部605の少なくともい
ずれか一方に記憶(記録)される。
【0158】したがって、本発明に係るプログラムを記
録したコンピュータ読み取り可能な記録媒体は、上記主
記憶部603及び補助記憶部605の少なくともいずれ
か一方が該当し得る。
【0159】次に、図1に示されるサーバ111の動作
について説明する。まず、音声受信部112は、クライ
アント101から音声データを取得する。また、音声受
信部112は、クライアント101から受信した音声デ
ータを音声認識エンジン114に出力する。
【0160】次に、認識辞書113は、辞書制御部11
5から登録すべき語彙を取得する。この認識辞書113
には、ユーザあるいは設計者があらかじめ語彙を登録し
ておくこともできる。
【0161】認識辞書113は、音声認識エンジン11
4に対して語彙を出力する。また、認識辞書113は、
語彙を保存する。
【0162】次に、音声認識エンジン114は、認識辞
書113から語彙をロードする。また、音声認識エンジ
ン114は、音声受信部112から音声データを受け取
る。
【0163】また、音声認識エンジン114は、語彙を
もとに、音声データを認識し、音声データを認識した結
果を、辞書制御部115及び結果送信部116へ出力す
る。この音声認識エンジン114の構成及び動作は、前
述の音声認識エンジン104の構成及び動作と同様であ
っても良いし、異なるものであっても良い。
【0164】また、音声認識エンジン114による音声
の認識結果の概略は、前述の図4に示される認識結果と
同様である。
【0165】次に、辞書制御部115は、音声認識エン
ジン114から認識結果を取得する。また、辞書制御部
115は、クライアント101に辞書更新情報を出力す
る。
【0166】すなわち、辞書制御部115は、音声認識
エンジン114から受信した認識結果をもとに、サーバ
111における認識辞書113に格納された各語彙毎の
認識回数を計数し、認識辞書113に格納された各語彙
毎の認識回数の更新を行う。
【0167】この際の計数結果は、例えば図5に示され
るような認識回数の概念図のように、認識辞書113に
格納されている。
【0168】ここで、サーバ111における各語彙毎の
認識回数の計数は、各語彙毎にかつ各クライアント10
1毎に行われるとしても良い。
【0169】また、サーバ111における各語彙毎の認
識回数の計数は、各語彙毎かつクライアントを所定のグ
ループに分割し、この所定のグループ毎の認識回数の計
数であっても良い。
【0170】また、サーバ111における語彙毎の認識
回数の計数は、各語彙毎に、サーバ111に接続されて
いる各クライアント全ての認識回数の総和によるとして
も良い。
【0171】また、辞書制御部115は、認識辞書11
3の語彙毎の認識回数を辞書更新情報として、クライア
ント101に送信する。
【0172】ここで、辞書制御部115からクライアン
ト101に送信される辞書更新情報には、例えば認識辞
書113に格納されている全ての語彙と認識回数との対
応関係が含まれるとしても良いし、一定数以上の認識回
数である各語彙と認識回数との対応関係が含まれるとし
ても良い。
【0173】なお、辞書制御部115からクライアント
101への辞書更新情報の出力のタイミングは、例えば
一定時間間隔毎に出力したり、サーバ111における認
識回数が所定回数に達したら出力したり、クライアント
101においてユーザが更新ボタンを押した場合など種
々のタイミングを採用することができる。
【0174】次に、結果送信部116は、音声認識エン
ジン114からサーバ111の認識結果を取得し、認識
結果をクライアント101に出力する。
【0175】次に、図1に示される音声認識システムの
動作について、図7を参照してさらに詳細に説明する。
図7は、図1に示される音声認識システムの動作のフロ
ーチャートである。
【0176】まず、S701において、クライアント1
01は、ユーザから取得した音声を認識する。そして、
クライアント101は、語彙毎の認識回数を計数する。
【0177】次に、S702において、クライアント1
01にて、語彙の音声認識結果がRejectでない場
合、これを認識結果とし、動作を終了する。
【0178】クライアント101における認識結果がR
ejectである場合、S703に進む。
【0179】S703において、音声データをクライア
ント101からサーバに送信する。ここでクライアント
とサーバ間の接続は次の1.又は2.のいずれであって
も構わない。なお、クライアントとサーバ間が接続され
るとは、いわゆる呼が確立されることをいう。
【0180】1.常時接続である。
【0181】2.特定イベントにより接続が開始され、
及び/又は以下のような特定イベントにより接続が終了
する。これらの特定イベントは任意に組み合わせて使用
することができる。
【0182】(特定イベント) (1)認識結果がRejectになった場合に接続を開
始し、サーバから認識結果を取得した場合に接続を終了
する。すなわち、クライアントにおいて音声認識ができ
なかったことを特定イベントとすることもできる。
【0183】(2)ユーザから音声データが入力された
場合に接続を開始し、サーバから認識結果を取得した場
合に接続を終了する。すなわち、クライアントに音声デ
ータが入力されたことを特定イベントとすることもでき
る。
【0184】(3)ユーザが何らかの装置を起動した場
合に接続を開始し、該装置の動作を終了させたときに接
続を終了する。例えば、自動車のイグニッション・キー
等。すなわち、クライアントに外部から信号が入力され
たことを特定イベントとすることもできる。
【0185】(4)クライアントが使用される時間・場
所により接続の開始・終了を制御する。例えば、頻繁に
使用する時間帯・地域をユーザが設定するか、クライア
ントが自動的に取得する。そして、頻繁に使用する時間
帯・地域での語彙をクライアントに保存しておき、クラ
イアントで音声認識する。クライアントの位置が頻繁に
使用する時間帯又は地域の少なくとも一方を外れている
場合には、サーバに接続して、サーバで音声認識を行
う。すなわち、クライアントが所定の時間帯を外れて使
用されていること又は所定の地域を外れて使用されてい
ることを特定イベントとすることもできる。
【0186】次に図7に示されるフローチャートの説明
にもどる。S704において、サーバ111は、音声認
識を行う。そして、サーバ111は、語彙毎の認識回数
を計数する。
【0187】ここで、サーバ111における語彙毎の認
識回数の計数は、前述のように、各語彙毎かつ各クライ
アント101毎に行われるとしても良い。
【0188】また、サーバ111における語彙毎の認識
回数の計数は、各語彙毎かつクライアントを所定のグル
ープに分割し、この所定のグループ毎の認識回数の計数
であっても良い。
【0189】また、サーバ111における語彙毎の認識
回数の計数は、各語彙毎に、サーバ111に接続されて
いる各クライアント全ての認識回数の総和によるとして
も良い。
【0190】次に、S705において、サーバ111
は、クライアント101に認識結果を送信する。
【0191】次に、S706において、クライアント1
01は、クライアント101とサーバ111の認識結果
を統合する。
【0192】さらにS707において、サーバ111
は、一定の時間間隔毎や音声データの認識回数毎にサー
バ111からクライアント101に辞書更新情報を送信
する。
【0193】ただし、前述のように、本実施形態におい
て、サーバ111からクライアント101に辞書更新情
報を送るタイミングとしては、例えば、ユーザがクライ
アント101における更新ボタンを押すなどして、ユー
ザが自分で更新するという方法もとることができる。
【0194】そして、サーバ111から辞書更新情報を
受信したクライアント101は、辞書制御部106にお
いて認識辞書103の更新を行う。
【0195】ここで、辞書制御部106による認識辞書
103の更新について図8を参照して説明する。図8
は、図1に示される辞書制御部106による認識辞書1
03の更新動作の概念図である。
【0196】まず、初期状態では、認識辞書103に
は、テーブル801が格納されていたとする。このテー
ブル801では、各語彙毎に認識回数が設定され、認識
回数が最も少ない語彙が、例えば「X」の6回であった
とする。
【0197】ここで、テーブル801において、語彙
「A」から語彙「X」までにはその認識回数に応じて順
位が付与されている。そして、語彙「X」は最低の順位
となっている。この順位は、同じ認識回数の語彙を同順
位としても良いし、同じ認識回数であっても例えば入力
順といった区別により、それぞれに異なる順位を付与し
ても良い。そして、例えば入力順といった区別により、
それぞれに異なる順位を付与した場合、その最終の順位
は、認識辞書103に格納されている語彙の個数と一致
する。
【0198】次に、辞書制御部106が辞書制御部20
5から辞書更新情報として、テーブル802を受信した
とする。このテーブル802には、例えば語彙「Y」の
認識回数が7回であった旨が格納されている。
【0199】このように、本実施形態の辞書制御部10
6が、サーバ111の辞書制御部115から受信する語
彙に関する情報には、語彙及びこの語彙毎の認識回数を
含めることができる。
【0200】そして、この辞書更新情報としてのテーブ
ル802を受信した辞書制御部106は、認識辞書10
3中に格納されているテーブル801を、語彙「Y」の
認識回数に応じてソートし、所定の順位以外の語彙を削
除することにより更新し、テーブル803を作成する。
【0201】テーブル803では、語彙「Y」に対応す
る部分が追加されるとともに、初期状態のテーブルに存
在した語彙「X」の部分804が、テーブル803の所
定順位を外れたため削除されている。
【0202】すなわち、辞書制御部106により、認識
辞書103に格納されている語彙が更新されている。
【0203】ただし、本実施形態における辞書制御部1
06による認識辞書103に格納されている語彙の更新
は上記方法に限定されるものではない。
【0204】すなわち、辞書制御部106は、所定の順
位以外の語彙を削除せずに残しておいて、この所定の順
位以外の語彙は、認識には用いないという方法もありえ
る。
【0205】また、辞書制御部106は、削除する条件
として、所定の順位を用いる代わりに、認識辞書103
のメモリ容量の制約を越えたら削除する方法もありえ
る。
【0206】以上のように、本発明に係る音声認識シス
テムの第1の実施形態によれば、クライアント101に
おける音声認識の処理能力がそれほど高くない場合であ
っても、クライアント101に接続されたサーバ111
において音声認識を実行できるため音声認識の性能を向
上させることができる。
【0207】また、認識された語彙の認識回数を計数
し、クライアント101はこの計数結果に基づいてクラ
イアント101における認識辞書103を更新している
ため、クライアント101のユーザが認識辞書103を
手動で更新しなくても、適切な認識辞書103を構築す
ることができる。
【0208】(音声認識システムの第2の実施形態)次
に、本発明に係る音声認識システムの第2の実施形態に
ついて説明する。図9は、本発明に係る音声認識システ
ムの第2の実施形態の全体構成図であり、図10は、図
9に示される音声認識システムの動作のフローチャート
である。
【0209】本実施形態が前述の第1の実施形態と異な
る点は、図1に示されるサーバ111の代わりに他のク
ライアント911を利用して認識を行う点である。
【0210】すなわち、本実施形態の音声認識システム
は、互いにネットワークにより接続された複数のクライ
アントを備え、それぞれのクライアントにおいて異なる
語彙を分担して並列分散認識を行うことにより、1台の
クライアントでは処理できない語彙数を処理できるよう
にする音声認識システムである。
【0211】ここで、本実施形態におけるクライアント
901,911には、前述のように、例えば、パソコ
ン、PDA、携帯電話、カー・ナビゲーション・システ
ム、モバイルパソコン等を例に挙げることができるが、
本発明におけるクライアントとしてはこのようなクライ
アントに限定されるのではなく、その他の種々のサーバ
と通信可能なクライアントを用いることができる。
【0212】本実施形態では図6に示されるように、本
実施形態の音声認識システムはクライアントが2台の場
合を示しているが、クライアントが3台以上であっても
構わない。
【0213】本実施形態のクライアント901,911
の構成は、例えばクライアントとして携帯電話やPDA
を用いる場合は、前述の本発明に係る音声認識システム
の第1の実施形態において図2及び図3を参照して説明
した場合と同様である。
【0214】したがって、図2に示される携帯電話を、
本実施形態において他のクライアントから音声データが
送信されるクライアントとして使用した場合は、本出願
の特許請求の範囲に記載の、音声受信手段、第2の音声
認識手段、第2の送信手段の機能は、図2に示されるC
PU201が、単体で、図2に示される他の部品と共
に、又はEEPROM202に格納されたプログラムと
協働することにより実現される。
【0215】同様に、図3に示されるPDAを、本実施
形態において他のクライアントから音声データが送信さ
れるクライアントとして使用した場合は、本出願の特許
請求の範囲に記載の、音声受信手段、第2の音声認識手
段、第2の送信手段の機能は、図3に示されるCPU3
01が、単体で、図3に示される他の部品と共に、又は
ROM308又は記憶媒体310に格納されたプログラ
ムと協働することにより実現される。
【0216】以下、本実施形態の動作について、図9及
び図10を参照しつつ説明する。図9において、クライ
アント901は、ユーザが所有する端末であり、他の1
台以上のクライアントと通信する機能を有する。
【0217】このクライアント901は、ユーザから取
得した音声を認識する(S1001)。また、このクラ
イアント901は、音声データを他の1台以上のクライ
アントに送信する(S1002)。
【0218】音声データを受信したクライアントは、そ
の音声データの認識を行い(S1003)、その認識結
果を音声データの送信元のクライアントに送信する(S
1004)。
【0219】音声データの認識結果を受信したクライア
ント901は認識結果を統合して出力する(S100
5)。
【0220】音声データの送信先となる他のクライアン
ト911は、あらかじめユーザが設定しても構わない
し、音声が入力された時点で決定しても構わない。
【0221】送信先を決定する方法として、例えば、送
信元のクライアントに物理的距離が近い所に存在するク
ライアントに送信する方法がある。すなわち、互いに通
信を行うクライアントを、これらの装置間の距離に関す
る情報に基づいて定められるとしても良い。
【0222】上記距離に関する情報にはクライアントが
通信する基地局の位置情報や、GPS(Global
Positioning Systems:全地球測位
システム)を使用することにより取得した位置情報等を
含めることができる。
【0223】次に、クライアント901の機能構成につ
いて説明する。音声入力部902は、ユーザからの音声
を取得する。
【0224】また、音声入力部902は、音声認識エン
ジン904及び音声送信部905に対して音声データを
出力する。
【0225】また、音声入力部902は、アナログ入力
音声をデジタル音声データに変換する。
【0226】次に、認識辞書903は語彙を保存する。
認識辞書903には、ユーザあるいは設計者があらかじ
め語彙を登録しておく。また、認識辞書903は、音声
認識エンジン904に対して語彙を出力する。
【0227】次に、音声認識エンジン904は、認識辞
書903から語彙をロードする。また、音声認識エンジ
ン904は、音声入力部902から音声データを受け取
る。
【0228】また、音声認識エンジン904は、語彙を
もとに、音声データを認識し、その認識した結果を結果
統合部906へ出力する。
【0229】ここで、本実施形態の音声認識エンジン9
04の構成及び動作は、前述の音声認識エンジン104
の構成及び動作と同様であっても良いし、異なるもので
あっても良い。
【0230】また、音声認識エンジン904による音声
の認識結果の概略は、前述の図4に示される認識結果と
同様である。
【0231】音声認識エンジン904は、認識結果の信
頼度が閾値よりも低い場合には、認識結果をRejec
tとして、Rejectであるという情報を音声送信部
905及び結果統合部906へ出力する。
【0232】次に、音声送信部905は、音声入力部9
02から音声データを取得する。また、音声送信部90
5は、音声認識エンジン904から入力された認識結果
がRejectである場合、他のクライアントに対して
音声データを送信する。
【0233】次に、結果統合部906は、音声認識エン
ジン904から認識結果を取得する。また、結果統合部
906は、他のクライアント911から認識結果を取得
する。
【0234】また、結果統合部906は、統合した認識
結果を出力する。結果統合部906による出力は、音声
による確認やアプリケーションで利用される。
【0235】結果統合部906は、各クライアントの認
識結果を統合する。結果統合部906は、例えば認識結
果のうち最も信頼度の大きい結果を採用する。
【0236】次に、クライアント911は、ユーザが所
有する端末で他の1台以上のクライアントと通信する機
能を有する。
【0237】そして、クライアント911は、他のクラ
イアント901から受信した音声データを認識する。認
識結果を送信元のクライアントに返信する。以下、クラ
イアント911の動作について説明する。
【0238】まず、音声入力部912は、他のクライア
ント(クライアント901)から音声データを取得す
る。
【0239】また、音声入力部912は、この他のクラ
イアントから取得した音声データを音声認識エンジン9
14に出力する。
【0240】次に、認識辞書913には、ユーザあるい
は設計者があらかじめ語彙を登録しておく。また、認識
辞書913は、音声認識エンジン914に対して語彙を
出力する。
【0241】次に、音声認識エンジン914は、認識辞
書913から語彙をロードする。また、音声認識エンジ
ン914は、音声入力部912から音声データを受け取
る。
【0242】そして、音声認識エンジン914は、ロー
ドした語彙をもとに、音声データを認識し、音声データ
を認識した結果を結果統合部916へ出力する。
【0243】また、音声認識エンジン914は、認識結
果の信頼度が閾値よりも低い場合には、認識結果をRe
jectとして、Rejectであるという情報を結果
統合部916へ出力する。
【0244】ここで、本実施形態の音声認識エンジン9
14の構成及び動作は、前述の本発明に係る音声認識シ
ステムの第1の実施形態における音声認識エンジン10
4の構成及び動作と同様であっても良いし、異なるもの
であっても良い。
【0245】また、音声認識エンジン914による音声
の認識結果の概略は、前述の図4に示される認識結果と
同様である。
【0246】次に、クライアント911における音声送
信部915は、クライアント911がクライアント90
1から音声データを取得して認識する役割なので、使用
されない。
【0247】次に、結果統合部916は、音声認識エン
ジン914から取得した認識結果を、音声データの送信
元のクライアント901へ送信する。
【0248】このように、本発明に係る音声認識システ
ムの第2の実施形態によれば、前述の第1の実施形態の
ように特にサーバ111を用意しなくても、互いに接続
されたクライアント同士で音声認識の役割を分担して行
うため、個々のクライアントの音声認識能力を超えた音
声認識を実行することができる。
【0249】
【発明の効果】以上説明したように、本発明は、1つの
装置に入力した音声データを、この装置に接続された他
の装置に送信して認識を行っているため、各ユーザによ
って使用されている語彙が異なっていても、1つの装置
における処理可能な語彙を超えて音声認識を行うことが
できる。
【0250】また、認識回数に応じて、認識辞書を更新
するとしているため、ユーザが手動で認識辞書を更新し
なくても、適切な認識辞書を構築することができる。
【図面の簡単な説明】
【図1】本発明に係る音声認識システムの第1の実施形
態の全体構成図である。
【図2】図1に示されるクライアント101として携帯
電話を用いた場合の内部ブロック図である。
【図3】図1に示されるクライアント101としてPD
Aを用いた場合の内部ブロック図である。
【図4】図1に示される音声認識エンジン104が出力
する認識結果の概念図である。
【図5】図1に示される辞書制御部106において計数
される認識辞書103に格納された語彙毎の認識回数の
概念図である。
【図6】図1に示されるサーバ111の内部ブロック図
である。
【図7】図1に示される音声認識システムの動作のフロ
ーチャートである。
【図8】図1に示される辞書制御部106による認識辞
書103の更新動作の概念図である。
【図9】本発明に係る音声認識システムの第2の実施形
態の全体構成図である。
【図10】図9に示される音声認識システムの動作のフ
ローチャートである。
【符号の説明】
101 クライアント 102 音声入力部 103 認識辞書 104 音声認識エンジン 105 音声送信部 106 辞書制御部 107 結果統合部 111 サーバ 112 音声受信部 113 認識辞書 114 音声認識エンジン 115 辞書制御部 116 結果送信部 201 CPU 202 EEPROM 203 第1のRAM 204 第2のRAM 205 バックアップ用電池 206 バススイッチ 207 アンテナ 208 高周波回路回路 209 デジタル処理部 210 音声回路 211 ハンドセット部 212 表示部 213 コネクタ 301 送受信部 302 出力部 303 入力部 304 時計部 305 通信部 306 CPU 307 RAM 308 ROM 309 記憶装置 310 記憶媒体 311 アンテナ 312 バス 601 CPU 602 入力部 603 主記憶部 604 出力部 605 補助記憶部 606 クロック部 607 制御部 608 演算部 609 バス 801,802,803 テーブル 804 部分 901 クライアント 902 音声入力部 903 認識辞書 904 音声認識エンジン 905 音声送信部 906 結果統合部 911 クライアント 912 音声入力部 913 認識辞書 914 音声認識エンジン 915 音声送信部 916 結果統合部
フロントページの続き (72)発明者 大本 浩司 京都府京都市下京区塩小路通堀川東入南不 動堂町801番地 オムロン株式会社内 (72)発明者 石田 勉 京都府京都市下京区塩小路通堀川東入南不 動堂町801番地 オムロン株式会社内 Fターム(参考) 5D015 GG01 KK02 LL05

Claims (26)

    【特許請求の範囲】
  1. 【請求項1】 複数の装置から構成され、 前記複数の装置のうち、少なくとも1以上の装置は、 音声データが入力される音声入力手段と、 前記音声データを認識する第1の音声認識手段と、 前記音声データを所定の場合に他の装置に送信する第1
    の送信手段と、 前記音声データの送信先の装置から前記音声の認識結果
    を受信する受信手段と、 前記第1の音声認識手段における認識結果及び前記受信
    手段において受信した認識結果との少なくとも一方に基
    づいて音声の認識結果を出力する結果統合手段とを備
    え、 前記複数の装置のうち、少なくとも1以上の装置は、 前記音声データが入力された装置から前記音声データを
    受信する音声受信手段と、 前記音声データを認識する第2の音声認識手段と、 前記第2の音声認識手段の認識結果を前記音声データの
    送信元である装置に送信する第2の送信手段とを備える
    音声認識システム。
  2. 【請求項2】 前記第1の送信手段が前記音声データを
    他の装置に送信する所定の場合が、 前記第1の音声認識手段による認識結果における信頼度
    が、 所定の閾値以下の場合である請求項1に記載の音声認識
    システム。
  3. 【請求項3】 前記複数の装置のうちの少なくとも1以
    上の装置が、 語彙を格納する格納手段と、 前記格納手段に格納された語彙を更新する更新手段とを
    備え、 前記更新手段は、他の少なくとも1以上の装置から語彙
    に関する情報を受信し、前記格納手段に格納された語彙
    を更新する請求項1又は2に記載の音声認識システム。
  4. 【請求項4】 前記複数の装置のうち少なくとも1以上
    の装置が、所定のイベントの発生を条件として、他の少
    なくとも1以上の装置との接続を開始する請求項1から
    3のいずれか1項に記載の音声認識システム。
  5. 【請求項5】 複数の装置から構成された音声認識シス
    テムにおける装置であって、 音声データが入力される音声入力手段と、 前記音声データを認識する第1の音声認識手段と、 前記音声データを所定の場合に他の装置に送信する第1
    の送信手段と、 前記音声データの送信先の装置から前記音声の認識結果
    を受信する受信手段と、 前記第1の音声認識手段における認識結果及び前記受信
    手段において受信した認識結果との少なくとも一方に基
    づいて音声の認識結果を出力する結果統合手段とを備え
    た装置であり、 前記複数の装置のうちの少なくとも1以上の第2の装置
    は、 前記音声データが入力される装置から前記音声データを
    受信する音声受信手段と、 前記音声データを認識する第2の音声認識手段と、 前記第2の音声認識手段の認識結果を前記音声データの
    送信元である装置に送信する第2の送信手段とを備える
    装置。
  6. 【請求項6】 前記第1の送信手段が前記音声データを
    他の装置に送信する所定の場合が、 前記第1の音声認識手段による認識結果における信頼度
    が、 所定の閾値以下の場合である請求項5に記載の装置。
  7. 【請求項7】 語彙を格納する格納手段と、 前記格納手段に格納された語彙を更新する更新手段とを
    備え、 前記更新手段は、他の少なくとも1以上の装置から語彙
    に関する情報を受信し、前記格納手段に格納された語彙
    を更新する請求項5又は6に記載の装置。
  8. 【請求項8】 特定のイベントの発生を条件として、他
    の少なくとも1以上の装置との接続を開始する請求項5
    から7のいずれか1項に記載の装置。
  9. 【請求項9】 複数の装置から構成された音声認識シス
    テムにおける装置であって、 音声データが入力される音声入力手段と、 前記音声データを認識する第1の音声認識手段と、 前記音声データを所定の場合に他の装置に送信する第1
    の送信手段と、 前記音声データの送信先の装置から前記音声の認識結果
    を受信する受信手段と、 前記第1の音声認識手段における認識結果及び前記受信
    手段において受信した認識結果との少なくとも一方に基
    づいて音声の認識結果を出力する結果統合手段とを備え
    た第1の装置から、 前記音声データを受信する音声受信手段と、 前記音声データを認識する第2の音声認識手段と、 前記第2の音声認識手段の認識結果を前記音声データの
    送信元である装置に送信する第2の送信手段とを備える
    装置。
  10. 【請求項10】 前記第1の送信手段が前記音声データ
    を他の装置に送信する所定の場合が、 前記第1の音声認識手段による認識結果における信頼度
    が、 所定の閾値以下の場合である請求項9に記載の装置。
  11. 【請求項11】 複数の装置から構成された音声認識シ
    ステムにおける装置に、 音声データが入力される入力工程と、 前記音声データが入力された装置が、 前記音声データを認識する第1の音声認識工程と、 前記音声データを所定の場合に他の装置に送信する第1
    の送信工程と、 前記音声データの送信先の装置から前記音声の認識結果
    を受信する受信工程と、 前記第1の音声認識工程における認識結果及び前記受信
    工程において受信した認識結果との少なくとも一方に基
    づいて音声の認識結果を出力する結果統合工程とを備
    え、 前記複数の装置のうちの装置が、 前記音声データが入力された装置から前記音声データを
    受信する音声受信工程と、 前記音声データを認識する第2の音声認識工程と、 前記第2の音声認識工程の認識結果を前記音声データの
    送信元である装置に送信する第2の送信工程とを備える
    音声認識方法。
  12. 【請求項12】 前記第1の送信工程における前記音声
    データを他の装置に送信する所定の場合が、 前記第1の音声認識工程による認識結果における信頼度
    が、 所定の閾値以下の場合である請求項11に記載の音声認
    識方法。
  13. 【請求項13】 前記複数の装置のうちの装置が、 語彙を格納する格納工程と、 前記格納された語彙を更新する更新工程とを備え、 前記更新工程は、他の少なくとも1以上の装置から語彙
    に関する情報を受信して格納された語彙を更新する請求
    項11又は12に記載の音声認識方法。
  14. 【請求項14】 前記複数の装置のうち少なくとも1以
    上の装置が、特定のイベントの発生を条件として、他の
    少なくとも1以上の装置との接続を開始する請求項11
    から13のいずれか1項に記載の音声認識方法。
  15. 【請求項15】 複数の装置から構成された音声認識シ
    ステムにおける装置を、 音声データが入力される音声入力手段、 前記音声データを認識する第1の音声認識手段、 前記音声データを所定の場合に他の装置に送信する第1
    の送信手段、 前記音声データの送信先の装置から前記音声の認識結果
    を受信する受信手段、及び、 前記第1の音声認識手段における認識結果及び前記受信
    手段において受信した認識結果との少なくとも一方に基
    づいて音声の認識結果を出力する結果統合手段として機
    能させる音声認識プログラムであり、 該音声データが入力される装置以外の前記複数の装置の
    うちの少なくとも1以上の第2の装置は、 前記音声データが入力される装置から前記音声データを
    受信する音声受信手段と、 前記音声データを認識する第2の音声認識手段と、 前記第2の音声認識手段の認識結果を前記音声データの
    送信元である装置に送信する第2の送信手段とを備える
    音声認識プログラム。
  16. 【請求項16】 前記第1の送信手段が前記音声データ
    を他の装置に送信する所定の場合が、 前記第1の音声認識手段による認識結果における信頼度
    が、 所定の閾値以下の場合である請求項15に記載の音声認
    識プログラム。
  17. 【請求項17】 語彙を格納する格納手段に格納された
    語彙を更新する更新手段として機能させるステップを備
    え、 前記更新手段は、他の少なくとも1以上の装置から語彙
    に関する情報を受信し、前記格納手段に格納された語彙
    を更新する請求項15又は16に記載の音声認識プログ
    ラム。
  18. 【請求項18】 装置間の接続が特定のイベントの発生
    を条件として開始される請求項15から17のいずれか
    1項に記載の音声認識プログラム。
  19. 【請求項19】 複数の装置から構成された音声認識シ
    ステムにおける装置であって、 音声データが入力される音声入力手段と、 前記音声データを認識する第1の音声認識手段と、 前記音声データを所定の場合に他の装置に送信する第1
    の送信手段と、 前記音声データの送信先の装置から前記音声の認識結果
    を受信する受信手段と、 前記第1の音声認識手段における認識結果及び前記受信
    手段において受信した認識結果との少なくとも一方に基
    づいて音声の認識結果を出力する結果統合手段とを備え
    た第1の装置から前記音声データを受信する、前記音声
    認識システムにおける装置を、 前記音声データを受信する音声受信手段、 前記音声データを認識する第2の音声認識手段、及び、 前記第2の音声認識手段の認識結果を前記音声データの
    送信元である装置に送信する第2の送信手段として機能
    させる音声認識プログラム。
  20. 【請求項20】 前記第1の送信手段が前記音声データ
    を他の装置に送信する所定の場合が、 前記第1の音声認識手段による認識結果における信頼度
    が、 所定の閾値以下の場合である請求項19に記載の音声認
    識プログラム。
  21. 【請求項21】 複数の装置から構成された音声認識シ
    ステムにおける装置を、 音声データが入力される音声入力手段、 前記音声データを認識する第1の音声認識手段、 前記音声データを所定の場合に他の装置に送信する第1
    の送信手段、 前記音声データの送信先の装置から前記音声の認識結果
    を受信する受信手段、及び、 前記第1の音声認識手段における認識結果及び前記受信
    手段において受信した認識結果との少なくとも一方に基
    づいて音声の認識結果を出力する結果統合手段として機
    能させる音声認識プログラムを記録したコンピュータ読
    み取り可能な記録媒体であり、 該音声データが入力される装置以外の前記複数の装置の
    うちの少なくとも1以上の第2の装置は、 前記音声データが入力される装置から前記音声データを
    受信する音声受信手段と、 前記音声データを認識する第2の音声認識手段と、 前記第2の音声認識手段の認識結果を前記音声データの
    送信元である装置に送信する第2の送信手段とを備える
    音声認識プログラムを記録したコンピュータ読み取り可
    能な記録媒体。
  22. 【請求項22】 前記第1の送信手段が前記音声データ
    を他の装置に送信する所定の場合が、 前記第1の音声認識手段による認識結果における信頼度
    が、 所定の閾値以下の場合である請求項21に記載の音声認
    識プログラムを記録したコンピュータ読み取り可能な記
    録媒体。
  23. 【請求項23】 語彙を格納する格納手段に格納された
    語彙を更新する更新手段として機能させるステップを記
    録し、 前記更新手段は、他の少なくとも1以上の装置から語彙
    に関する情報を受信し、前記格納手段に格納された語彙
    を更新する請求項21又は22に記載の音声認識プログ
    ラムを記録したコンピュータ読み取り可能な記録媒体。
  24. 【請求項24】 装置間の接続が特定のイベントの発生
    を条件として開始される請求項21から23のいずれか
    1項に記載の音声認識プログラムを記録したコンピュー
    タ読み取り可能な記録媒体。
  25. 【請求項25】 複数の装置から構成された音声認識シ
    ステムにおける装置であって、 音声データが入力される音声入力手段と、 前記音声データを認識する第1の音声認識手段と、 前記音声データを所定の場合に他の装置に送信する第1
    の送信手段と、 前記音声データの送信先の装置から前記音声の認識結果
    を受信する受信手段と、 前記第1の音声認識手段における認識結果及び前記受信
    手段において受信した認識結果との少なくとも一方に基
    づいて音声の認識結果を出力する結果統合手段とを備え
    た第1の装置から前記音声データを受信する、前記音声
    認識システムにおける装置を、 前記音声データを受信する音声受信手段、 前記音声データを認識する第2の音声認識手段、及び、 前記第2の音声認識手段の認識結果を前記音声データの
    送信元である装置に送信する第2の送信手段として機能
    させる音声認識プログラムを記録したコンピュータ読み
    取り可能な記録媒体。
  26. 【請求項26】 前記第1の送信手段が前記音声データ
    を他の装置に送信する所定の場合が、 前記第1の音声認識手段による認識結果における信頼度
    が、 所定の閾値以下の場合である請求項25に記載の音声認
    識プログラムを記録したコンピュータ読み取り可能な記
    録媒体。
JP2002099103A 2002-04-01 2002-04-01 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 Withdrawn JP2003295893A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2002099103A JP2003295893A (ja) 2002-04-01 2002-04-01 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
CN03109030.3A CN1242376C (zh) 2002-04-01 2003-04-01 声音识别***、装置、声音识别方法
US10/405,066 US20040010409A1 (en) 2002-04-01 2003-04-01 Voice recognition system, device, voice recognition method and voice recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002099103A JP2003295893A (ja) 2002-04-01 2002-04-01 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2003295893A true JP2003295893A (ja) 2003-10-15

Family

ID=28786223

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002099103A Withdrawn JP2003295893A (ja) 2002-04-01 2002-04-01 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (3)

Country Link
US (1) US20040010409A1 (ja)
JP (1) JP2003295893A (ja)
CN (1) CN1242376C (ja)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266192A (ja) * 2004-03-18 2005-09-29 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識方法
JP2009237439A (ja) * 2008-03-28 2009-10-15 Kddi Corp 携帯端末の音声認識装置、音声認識方法、音声認識プログラム
JP2010085536A (ja) * 2008-09-30 2010-04-15 Fyuutorekku:Kk 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP2011022813A (ja) * 2009-07-16 2011-02-03 National Institute Of Information & Communication Technology 音声翻訳システム、辞書サーバ装置、およびプログラム
JP2012088370A (ja) * 2010-10-15 2012-05-10 Denso Corp 音声認識システム、音声認識端末、およびセンター
WO2013005248A1 (ja) * 2011-07-05 2013-01-10 三菱電機株式会社 音声認識装置およびナビゲーション装置
CN102955750A (zh) * 2011-08-24 2013-03-06 宏碁股份有限公司 建立至少二装置间连接及身份关系的方法及控制装置
JP5233989B2 (ja) * 2007-03-14 2013-07-10 日本電気株式会社 音声認識システム、音声認識方法、および音声認識処理プログラム
JP2014048507A (ja) * 2012-08-31 2014-03-17 National Institute Of Information & Communication Technology ローカル言語資源の補強装置及びサービス提供設備装置
WO2014051207A1 (en) * 2012-09-28 2014-04-03 Samsung Electronics Co., Ltd. Electronic device, server and control method thereof
JPWO2013005248A1 (ja) * 2011-07-05 2015-02-23 三菱電機株式会社 音声認識装置およびナビゲーション装置
KR20160001965A (ko) * 2014-06-30 2016-01-07 삼성전자주식회사 음성 명령어 제공 방법 및 이를 지원하는 전자 장치
JP2018132626A (ja) * 2017-02-15 2018-08-23 クラリオン株式会社 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法
JP2018537734A (ja) * 2016-08-26 2018-12-20 三菱電機株式会社 ファクトリーオートメーションシステムおよびリモートサーバ
JP2019015838A (ja) * 2017-07-06 2019-01-31 クラリオン株式会社 音声認識システム、端末装置、及び辞書管理方法
JP2019091012A (ja) * 2017-11-15 2019-06-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 情報認識方法および装置
WO2020004213A1 (ja) * 2018-06-29 2020-01-02 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2020160118A (ja) * 2019-03-25 2020-10-01 株式会社エヌ・ティ・ティ・データ 情報処理装置、情報処理方法およびプログラム
JP2021013099A (ja) * 2019-07-05 2021-02-04 コニカミノルタ株式会社 画像形成装置、画像形成装置の制御方法、および画像形成装置の制御プログラム

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US7366673B2 (en) 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
JP2005148151A (ja) * 2003-11-11 2005-06-09 Mitsubishi Electric Corp 音声操作装置
US7570746B2 (en) * 2004-03-18 2009-08-04 Sony Corporation Method and apparatus for voice interactive messaging
US20060085293A1 (en) * 2004-09-01 2006-04-20 Melucci Robert J System and method for processor-based inventory data collection and validation
US20120253823A1 (en) * 2004-09-10 2012-10-04 Thomas Barton Schalk Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing
JP4802489B2 (ja) * 2004-12-07 2011-10-26 日本電気株式会社 音データ提供システムおよびその方法
JP2007033901A (ja) 2005-07-27 2007-02-08 Nec Corp 音声認識システム、音声認識方法、および音声認識用プログラム
US7542904B2 (en) * 2005-08-19 2009-06-02 Cisco Technology, Inc. System and method for maintaining a speech-recognition grammar
US7668867B2 (en) * 2006-03-17 2010-02-23 Microsoft Corporation Array-based discovery of media items
JPWO2008007688A1 (ja) * 2006-07-13 2009-12-10 日本電気株式会社 音声認識機能を有する通話端末、その音声認識辞書の更新支援装置及び更新方法
US8056070B2 (en) * 2007-01-10 2011-11-08 Goller Michael D System and method for modifying and updating a speech recognition program
TWI336048B (en) * 2007-05-11 2011-01-11 Delta Electronics Inc Input system for mobile search and method therefor
US20090271200A1 (en) 2008-04-23 2009-10-29 Volkswagen Group Of America, Inc. Speech recognition assembly for acoustically controlling a function of a motor vehicle
US20120215528A1 (en) * 2009-10-28 2012-08-23 Nec Corporation Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium
JP5274711B2 (ja) * 2010-03-30 2013-08-28 三菱電機株式会社 音声認識装置
JP2013529794A (ja) 2010-06-24 2013-07-22 本田技研工業株式会社 車載音声認識システム及び車両外音声認識システム間の通信システム及び方法
US8898065B2 (en) 2011-01-07 2014-11-25 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US9443511B2 (en) 2011-03-04 2016-09-13 Qualcomm Incorporated System and method for recognizing environmental sound
US20130085753A1 (en) * 2011-09-30 2013-04-04 Google Inc. Hybrid Client/Server Speech Recognition In A Mobile Device
US8924219B1 (en) 2011-09-30 2014-12-30 Google Inc. Multi hotword robust continuous voice command detection in mobile devices
US9640175B2 (en) * 2011-10-07 2017-05-02 Microsoft Technology Licensing, Llc Pronunciation learning from user correction
US20130144618A1 (en) * 2011-12-02 2013-06-06 Liang-Che Sun Methods and electronic devices for speech recognition
CN102708865A (zh) * 2012-04-25 2012-10-03 北京车音网科技有限公司 语音识别方法、装置及***
KR20130125067A (ko) * 2012-05-08 2013-11-18 삼성전자주식회사 전자 장치 및 그의 제어 방법
US20140019126A1 (en) * 2012-07-13 2014-01-16 International Business Machines Corporation Speech-to-text recognition of non-dictionary words using location data
CN103632665A (zh) * 2012-08-29 2014-03-12 联想(北京)有限公司 一种语音识别方法及电子设备
US9443515B1 (en) * 2012-09-05 2016-09-13 Paul G. Boyce Personality designer system for a detachably attachable remote audio object
CN104769668B (zh) 2012-10-04 2018-10-30 纽昂斯通讯公司 改进的用于asr的混合控制器
KR20140060040A (ko) * 2012-11-09 2014-05-19 삼성전자주식회사 디스플레이장치, 음성취득장치 및 그 음성인식방법
US9558739B2 (en) * 2012-11-13 2017-01-31 GM Global Technology Operations LLC Methods and systems for adapting a speech system based on user competance
CN103903621A (zh) * 2012-12-26 2014-07-02 联想(北京)有限公司 一种语音识别的方法及电子设备
KR102019719B1 (ko) * 2013-01-17 2019-09-09 삼성전자 주식회사 영상처리장치 및 그 제어방법, 영상처리 시스템
JP5921756B2 (ja) * 2013-02-25 2016-05-24 三菱電機株式会社 音声認識システムおよび音声認識装置
US9390716B2 (en) * 2013-04-19 2016-07-12 Panasonic Intellectual Property Corporation Of America Control method for household electrical appliance, household electrical appliance control system, and gateway
CN104423552B (zh) * 2013-09-03 2017-11-03 联想(北京)有限公司 一种处理信息的方法和电子设备
JP6054283B2 (ja) * 2013-11-27 2016-12-27 シャープ株式会社 音声認識端末、サーバ、サーバの制御方法、音声認識システム、音声認識端末の制御プログラム、サーバの制御プログラムおよび音声認識端末の制御方法
CN104700831B (zh) * 2013-12-05 2018-03-06 国际商业机器公司 分析音频文件的语音特征的方法和装置
CN103714814A (zh) * 2013-12-11 2014-04-09 四川长虹电器股份有限公司 一种语音识别引擎语音对接方法
CN103794214A (zh) * 2014-03-07 2014-05-14 联想(北京)有限公司 一种信息处理方法、装置和电子设备
CN106971732A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于识别模型提升声纹识别准确度的方法和***
CN106971728A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种快速识别声纹方法和***
CN106126714A (zh) * 2016-06-30 2016-11-16 联想(北京)有限公司 信息处理方法及信息处理装置
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
WO2018153469A1 (en) * 2017-02-24 2018-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Classifying an instance using machine learning
KR102068182B1 (ko) * 2017-04-21 2020-01-20 엘지전자 주식회사 음성 인식 장치, 및 음성 인식 시스템
US11106729B2 (en) 2018-01-08 2021-08-31 Comcast Cable Communications, Llc Media search filtering mechanism for search engine
JP2021156907A (ja) * 2018-06-15 2021-10-07 ソニーグループ株式会社 情報処理装置および情報処理方法
WO2020060311A1 (en) 2018-09-20 2020-03-26 Samsung Electronics Co., Ltd. Electronic device and method for providing or obtaining data for training thereof
US11011157B2 (en) 2018-11-13 2021-05-18 Adobe Inc. Active learning for large-scale semi-supervised creation of speech recognition training corpora based on number of transcription mistakes and number of word occurrences
US11609947B2 (en) * 2019-10-21 2023-03-21 Comcast Cable Communications, Llc Guidance query for cache system
CN112750246A (zh) * 2019-10-29 2021-05-04 杭州壬辰科技有限公司 一种智能化库存报警***及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
US6456975B1 (en) * 2000-01-13 2002-09-24 Microsoft Corporation Automated centralized updating of speech recognition systems

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4581441B2 (ja) * 2004-03-18 2010-11-17 パナソニック株式会社 家電機器システム、家電機器および音声認識方法
JP2005266192A (ja) * 2004-03-18 2005-09-29 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識方法
JP5233989B2 (ja) * 2007-03-14 2013-07-10 日本電気株式会社 音声認識システム、音声認識方法、および音声認識処理プログラム
US8676582B2 (en) 2007-03-14 2014-03-18 Nec Corporation System and method for speech recognition using a reduced user dictionary, and computer readable storage medium therefor
JP2009237439A (ja) * 2008-03-28 2009-10-15 Kddi Corp 携帯端末の音声認識装置、音声認識方法、音声認識プログラム
JP2010085536A (ja) * 2008-09-30 2010-04-15 Fyuutorekku:Kk 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP2011022813A (ja) * 2009-07-16 2011-02-03 National Institute Of Information & Communication Technology 音声翻訳システム、辞書サーバ装置、およびプログラム
US9442920B2 (en) 2009-07-16 2016-09-13 National Institute Of Information And Communications Technology Speech translation system, dictionary server, and program
JP2012088370A (ja) * 2010-10-15 2012-05-10 Denso Corp 音声認識システム、音声認識端末、およびセンター
WO2013005248A1 (ja) * 2011-07-05 2013-01-10 三菱電機株式会社 音声認識装置およびナビゲーション装置
JPWO2013005248A1 (ja) * 2011-07-05 2015-02-23 三菱電機株式会社 音声認識装置およびナビゲーション装置
CN102955750A (zh) * 2011-08-24 2013-03-06 宏碁股份有限公司 建立至少二装置间连接及身份关系的方法及控制装置
JP2014048507A (ja) * 2012-08-31 2014-03-17 National Institute Of Information & Communication Technology ローカル言語資源の補強装置及びサービス提供設備装置
US9582245B2 (en) 2012-09-28 2017-02-28 Samsung Electronics Co., Ltd. Electronic device, server and control method thereof
WO2014051207A1 (en) * 2012-09-28 2014-04-03 Samsung Electronics Co., Ltd. Electronic device, server and control method thereof
US10120645B2 (en) 2012-09-28 2018-11-06 Samsung Electronics Co., Ltd. Electronic device, server and control method thereof
US11086596B2 (en) 2012-09-28 2021-08-10 Samsung Electronics Co., Ltd. Electronic device, server and control method thereof
KR20160001965A (ko) * 2014-06-30 2016-01-07 삼성전자주식회사 음성 명령어 제공 방법 및 이를 지원하는 전자 장치
KR102261552B1 (ko) 2014-06-30 2021-06-07 삼성전자주식회사 음성 명령어 제공 방법 및 이를 지원하는 전자 장치
US11664027B2 (en) 2014-06-30 2023-05-30 Samsung Electronics Co., Ltd Method of providing voice command and electronic device supporting the same
US11114099B2 (en) 2014-06-30 2021-09-07 Samsung Electronics Co., Ltd. Method of providing voice command and electronic device supporting the same
JP2018537734A (ja) * 2016-08-26 2018-12-20 三菱電機株式会社 ファクトリーオートメーションシステムおよびリモートサーバ
JP2018132626A (ja) * 2017-02-15 2018-08-23 クラリオン株式会社 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法
US10818283B2 (en) 2017-07-06 2020-10-27 Clarion Co., Ltd. Speech recognition system, terminal device, and dictionary management method
JP2019015838A (ja) * 2017-07-06 2019-01-31 クラリオン株式会社 音声認識システム、端末装置、及び辞書管理方法
JP2019091012A (ja) * 2017-11-15 2019-06-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 情報認識方法および装置
JPWO2020004213A1 (ja) * 2018-06-29 2021-07-08 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
WO2020004213A1 (ja) * 2018-06-29 2020-01-02 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP7459791B2 (ja) 2018-06-29 2024-04-02 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
JP2020160118A (ja) * 2019-03-25 2020-10-01 株式会社エヌ・ティ・ティ・データ 情報処理装置、情報処理方法およびプログラム
JP7406921B2 (ja) 2019-03-25 2023-12-28 株式会社Nttデータグループ 情報処理装置、情報処理方法およびプログラム
JP2021013099A (ja) * 2019-07-05 2021-02-04 コニカミノルタ株式会社 画像形成装置、画像形成装置の制御方法、および画像形成装置の制御プログラム
JP7334510B2 (ja) 2019-07-05 2023-08-29 コニカミノルタ株式会社 画像形成装置、画像形成装置の制御方法、および画像形成装置の制御プログラム

Also Published As

Publication number Publication date
US20040010409A1 (en) 2004-01-15
CN1242376C (zh) 2006-02-15
CN1448915A (zh) 2003-10-15

Similar Documents

Publication Publication Date Title
JP2003295893A (ja) 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
US7010490B2 (en) Method, system, and apparatus for limiting available selections in a speech recognition system
CN107464557B (zh) 通话录音方法、装置、移动终端及存储介质
US6539358B1 (en) Voice-interactive docking station for a portable computing device
US8374862B2 (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance
CN101681365A (zh) 用于分布式语音搜索的方法和装置
EP0661688A2 (en) System and method for location specific speech recognition
JP2000056792A (ja) ユ―ザの発話を認識するための方法及び装置
CN109427329B (zh) 信息处理装置、车载装置和存储介质
CN110827826B (zh) 语音转换文字方法、电子设备
CN100592385C (zh) 用于对多语言的姓名进行语音识别的方法和***
JP2007538278A (ja) 音声認識システム
KR100883105B1 (ko) 휴대단말기에서 음성인식을 이용한 다이얼링 방법 및 장치
JP2002116793A (ja) データ入力システム及びその方法
EP1727128B1 (en) Client-server based speech recognition
US7979278B2 (en) Speech recognition system and speech file recording system
EP3206138A1 (en) Retrieval system
JP5050175B2 (ja) 音声認識機能付情報処理端末
CN111062200A (zh) 一种话术泛化方法、话术识别方法、装置及电子设备
JP2000165489A (ja) 電話機
JP2003140690A (ja) 情報システム、電子機器、プログラム
JP4049456B2 (ja) 音声情報利用システム
JP2004021677A (ja) 情報提供システム、情報提供方法、情報提供プログラム及び情報提供プログラムを記録したコンピュータ読み取り可能な記録媒体
EP1895748B1 (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance
JP2006099196A (ja) 文字変換装置および文字変換方法、携帯通信機

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050607