JP2003295893A

JP2003295893A - 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2003295893A
Application number: JP2002099103A
Authority: JP
Inventors: Hirohide Ushida; 牛田　　博英; Hiroshi Nakajima; 宏中嶋; Koji Omoto; 大本　　浩司; Tsutomu Ishida; 勉石田
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2002-04-01
Filing date: 2002-04-01
Publication date: 2003-10-15
Also published as: US20040010409A1; CN1242376C; CN1448915A

Abstract

(57)【要約】【課題】１つの装置における語彙を超えて音声認識を
可能とすること、及び１つの装置に格納されている語彙
を適切な語彙に維持することの少なくとも一方を実現す
ることが可能な音声認識システム、装置、音声認識方
法、音声認識プログラム及び音声認識プログラムを記録
したコンピュータ読み取り可能な記録媒体を提供する。【解決手段】クライアント１０１が受信した音声デー
タを音声認識エンジン１０４が認識し、その認識結果が
Ｒｅｊｅｃｔである場合は、音声データをサーバ１１１
に送信し、サーバ１１１における認識結果をクライアン
ト１０１に送信し、クライアント１０１は認識回数に応
じた認識辞書１０３の更新及び結果統合部１０７におけ
る認識結果の統合を行う。サーバ１１１の代わりにクラ
イアントを用いるとしても良い。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識を行う音
声認識システム及びこのような音声認識システムに適用
されて好適な、装置、音声認識方法、音声認識プログラ
ム及び音声認識プログラムを記録したコンピュータ読み
取り可能な記録媒体に関する。

【０００２】

【従来の技術】従来、数十万語以上の大規模な語彙を対
象として音声認識を行うには高性能なプロセッサと大容
量のメモリを必要としていた。

【０００３】このため、ＰＤＡ（ＰｅｒｓｏｎａｌＤ
ｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ）や携帯電話端末
で大語彙の音声認識を行うには端末本体のコストが大き
くなるため実現困難であり、移動環境での利用を妨げる
ことにもなっていた。

【０００４】この問題を解決するための従来技術として
例えば特開平１１−３２７５８３号公報に記載の技術が
ある。

【０００５】この従来技術は、サーバと複数のクライア
ントで構成され、クライアントにはデフォルトの語彙が
登録されている。ユーザがデフォルトにない語彙をクラ
イアントに認識させたい場合には、その語彙をクライア
ントに新たに登録する。

【０００６】この従来技術では、新たに登録された語彙
はサーバを経由して他のクライアントに送信されるた
め、最初のユーザが登録すれば、他のユーザは登録する
必要がない、という特徴がある。

【０００７】

【発明が解決しようとする課題】しかしながら、上記の
従来技術では次の２つの問題がある。まず、１つめの問
題として、最初のユーザが語彙を登録する手続きが必要
になっていた。

【０００８】また、２つめの問題として、ユーザによっ
て使用する語彙が異なる場合は、上記従来技術を用いる
ことができなかった。

【０００９】本発明は上記事情に鑑みなされたもので、
１つの装置における語彙を超えて音声認識を可能とする
こと、及び１つの装置に格納されている語彙を適切な語
彙に維持することの少なくとも一方を実現することが可
能な音声認識システム、装置、音声認識方法、音声認識
プログラム及び音声認識プログラムを記録したコンピュ
ータ読み取り可能な記録媒体を提供することを目的とす
る。

【００１０】

【課題を解決するための手段】上記目的を達成するため
に、本発明に係る音声認識システムは、複数の装置から
構成され、前記複数の装置のうち、少なくとも１以上の
装置は、音声データが入力される音声入力手段と、前記
音声データを認識する第１の音声認識手段と、前記音声
データを所定の場合に他の装置に送信する第１の送信手
段と、前記音声データの送信先の装置から前記音声の認
識結果を受信する受信手段と、前記第１の音声認識手段
における認識結果及び前記受信手段において受信した認
識結果との少なくとも一方に基づいて音声の認識結果を
出力する結果統合手段とを備え、前記複数の装置のう
ち、少なくとも１以上の装置は、前記音声データが入力
された装置から前記音声データを受信する音声受信手段
と、前記音声データを認識する第２の音声認識手段と、
前記第２の音声認識手段の認識結果を前記音声データの
送信元である装置に送信する第２の送信手段とを備え
る。

【００１１】また、本発明に係る音声認識システムは、
前記第１の送信手段が前記音声データを他の装置に送信
する所定の場合が、前記第１の音声認識手段による認識
結果における信頼度が、所定の閾値以下の場合である。

【００１２】また、本発明に係る音声認識システムは、
前記複数の装置のうちの少なくとも１以上の装置が、語
彙を格納する格納手段と、前記格納手段に格納された語
彙を更新する更新手段とを備え、前記更新手段は、他の
少なくとも１以上の装置から語彙に関する情報を受信
し、前記格納手段に格納された語彙を更新する。

【００１３】また、本発明に係る音声認識システムは、
前記複数の装置のうち少なくとも１以上の装置が、所定
のイベントの発生を条件として、他の少なくとも１以上
の装置との接続を開始する。

【００１４】さらに、本発明に係る装置は、複数の装置
から構成された音声認識システムにおける装置であっ
て、音声データが入力される音声入力手段と、前記音声
データを認識する第１の音声認識手段と、前記音声デー
タを所定の場合に他の装置に送信する第１の送信手段
と、前記音声データの送信先の装置から前記音声の認識
結果を受信する受信手段と、前記第１の音声認識手段に
おける認識結果及び前記受信手段において受信した認識
結果との少なくとも一方に基づいて音声の認識結果を出
力する結果統合手段とを備えた装置であり、前記複数の
装置のうちの少なくとも１以上の第２の装置は、前記音
声データが入力される装置から前記音声データを受信す
る音声受信手段と、前記音声データを認識する第２の音
声認識手段と、前記第２の音声認識手段の認識結果を前
記音声データの送信元である装置に送信する第２の送信
手段とを備える。

【００１５】また、本発明に係る装置は、前記第１の送
信手段が前記音声データを他の装置に送信する所定の場
合が、前記第１の音声認識手段による認識結果における
信頼度が、所定の閾値以下の場合である。

【００１６】また、本発明に係る装置は、語彙を格納す
る格納手段と、前記格納手段に格納された語彙を更新す
る更新手段とを備え、前記更新手段は、他の少なくとも
１以上の装置から語彙に関する情報を受信し、前記格納
手段に格納された語彙を更新する。

【００１７】また、本発明に係る装置は、特定のイベン
トの発生を条件として、他の少なくとも１以上の装置と
の接続を開始する。

【００１８】また、本発明に係る装置は、複数の装置か
ら構成された音声認識システムにおける装置であって、
音声データが入力される音声入力手段と、前記音声デー
タを認識する第１の音声認識手段と、前記音声データを
所定の場合に他の装置に送信する第１の送信手段と、前
記音声データの送信先の装置から前記音声の認識結果を
受信する受信手段と、前記第１の音声認識手段における
認識結果及び前記受信手段において受信した認識結果と
の少なくとも一方に基づいて音声の認識結果を出力する
結果統合手段とを備えた第１の装置から、前記音声デー
タを受信する音声受信手段と、前記音声データを認識す
る第２の音声認識手段と、前記第２の音声認識手段の認
識結果を前記音声データの送信元である装置に送信する
第２の送信手段とを備える。

【００１９】また、本発明に係る装置は、前記第１の送
信手段が前記音声データを他の装置に送信する所定の場
合が、前記第１の音声認識手段による認識結果における
信頼度が、所定の閾値以下の場合である。

【００２０】さらに、本発明に係る音声認識方法は、複
数の装置から構成された音声認識システムにおける装置
に、音声データが入力される入力工程と、前記音声デー
タが入力された装置が、前記音声データを認識する第１
の音声認識工程と、前記音声データを所定の場合に他の
装置に送信する第１の送信工程と、前記音声データの送
信先の装置から前記音声の認識結果を受信する受信工程
と、前記第１の音声認識工程における認識結果及び前記
受信工程において受信した認識結果との少なくとも一方
に基づいて音声の認識結果を出力する結果統合工程とを
備え、前記複数の装置のうちの装置が、前記音声データ
が入力された装置から前記音声データを受信する音声受
信工程と、前記音声データを認識する第２の音声認識工
程と、前記第２の音声認識工程の認識結果を前記音声デ
ータの送信元である装置に送信する第２の送信工程とを
備える。

【００２１】また、本発明に係る音声認識方法は、前記
第１の送信工程における前記音声データを他の装置に送
信する所定の場合が、前記第１の音声認識工程による認
識結果における信頼度が、所定の閾値以下の場合であ
る。

【００２２】また、本発明に係る音声認識方法は、前記
複数の装置のうちの装置が、語彙を格納する格納工程
と、前記格納された語彙を更新する更新工程とを備え、
前記更新工程は、他の少なくとも１以上の装置から語彙
に関する情報を受信して格納された語彙を更新する。

【００２３】また、本発明に係る音声認識方法は、前記
複数の装置のうち少なくとも１以上の装置が、特定のイ
ベントの発生を条件として、他の少なくとも１以上の装
置との接続を開始する。

【００２４】さらに、本発明に係る音声認識プログラム
は、複数の装置から構成された音声認識システムにおけ
る装置を、音声データが入力される音声入力手段、前記
音声データを認識する第１の音声認識手段、前記音声デ
ータを所定の場合に他の装置に送信する第１の送信手
段、前記音声データの送信先の装置から前記音声の認識
結果を受信する受信手段、及び、前記第１の音声認識手
段における認識結果及び前記受信手段において受信した
認識結果との少なくとも一方に基づいて音声の認識結果
を出力する結果統合手段として機能させる音声認識プロ
グラムであり、該音声データが入力される装置以外の前
記複数の装置のうちの少なくとも１以上の第２の装置
は、前記音声データが入力される装置から前記音声デー
タを受信する音声受信手段と、前記音声データを認識す
る第２の音声認識手段と、前記第２の音声認識手段の認
識結果を前記音声データの送信元である装置に送信する
第２の送信手段とを備える。

【００２５】また、本発明に係る音声認識プログラム
は、前記第１の送信手段が前記音声データを他の装置に
送信する所定の場合が、前記第１の音声認識手段による
認識結果における信頼度が、所定の閾値以下の場合であ
る。

【００２６】また、本発明に係る音声認識プログラム
は、語彙を格納する格納手段に格納された語彙を更新す
る更新手段として機能させるステップを備え、前記更新
手段は、他の少なくとも１以上の装置から語彙に関する
情報を受信し、前記格納手段に格納された語彙を更新す
る。

【００２７】また、本発明に係る音声認識プログラム
は、装置間の接続が特定のイベントの発生を条件として
開始される。

【００２８】また、本発明に係る音声認識プログラム
は、複数の装置から構成された音声認識システムにおけ
る装置であって、音声データが入力される音声入力手段
と、前記音声データを認識する第１の音声認識手段と、
前記音声データを所定の場合に他の装置に送信する第１
の送信手段と、前記音声データの送信先の装置から前記
音声の認識結果を受信する受信手段と、前記第１の音声
認識手段における認識結果及び前記受信手段において受
信した認識結果との少なくとも一方に基づいて音声の認
識結果を出力する結果統合手段とを備えた第１の装置か
ら前記音声データを受信する、前記音声認識システムに
おける装置を、前記音声データを受信する音声受信手
段、前記音声データを認識する第２の音声認識手段、及
び、前記第２の音声認識手段の認識結果を前記音声デー
タの送信元である装置に送信する第２の送信手段として
機能させる。

【００２９】また、本発明に係る音声認識プログラム
は、前記第１の送信手段が前記音声データを他の装置に
送信する所定の場合が、前記第１の音声認識手段による
認識結果における信頼度が、所定の閾値以下の場合であ
る。

【００３０】さらに、音声認識プログラムを記録したコ
ンピュータ読み取り可能な記録媒体は、複数の装置から
構成された音声認識システムにおける装置を、音声デー
タが入力される音声入力手段、前記音声データを認識す
る第１の音声認識手段、前記音声データを所定の場合に
他の装置に送信する第１の送信手段、前記音声データの
送信先の装置から前記音声の認識結果を受信する受信手
段、及び、前記第１の音声認識手段における認識結果及
び前記受信手段において受信した認識結果との少なくと
も一方に基づいて音声の認識結果を出力する結果統合手
段として機能させる音声認識プログラムを記録したコン
ピュータ読み取り可能な記録媒体であり、該音声データ
が入力される装置以外の前記複数の装置のうちの少なく
とも１以上の第２の装置は、前記音声データが入力され
る装置から前記音声データを受信する音声受信手段と、
前記音声データを認識する第２の音声認識手段と、前記
第２の音声認識手段の認識結果を前記音声データの送信
元である装置に送信する第２の送信手段とを備える音声
認識プログラムを記録した。

【００３１】また、音声認識プログラムを記録したコン
ピュータ読み取り可能な記録媒体は、前記第１の送信手
段が前記音声データを他の装置に送信する所定の場合
が、前記第１の音声認識手段による認識結果における信
頼度が、所定の閾値以下の場合である。

【００３２】また、音声認識プログラムを記録したコン
ピュータ読み取り可能な記録媒体は、語彙を格納する格
納手段に格納された語彙を更新する更新手段として機能
させるステップを記録し、前記更新手段は、他の少なく
とも１以上の装置から語彙に関する情報を受信し、前記
格納手段に格納された語彙を更新する。

【００３３】また、音声認識プログラムを記録したコン
ピュータ読み取り可能な記録媒体は、装置間の接続が特
定のイベントの発生を条件として開始される。

【００３４】また、音声認識プログラムを記録したコン
ピュータ読み取り可能な記録媒体は、複数の装置から構
成された音声認識システムにおける装置であって、音声
データが入力される音声入力手段と、前記音声データを
認識する第１の音声認識手段と、前記音声データを所定
の場合に他の装置に送信する第１の送信手段と、前記音
声データの送信先の装置から前記音声の認識結果を受信
する受信手段と、前記第１の音声認識手段における認識
結果及び前記受信手段において受信した認識結果との少
なくとも一方に基づいて音声の認識結果を出力する結果
統合手段とを備えた第１の装置から前記音声データを受
信する、前記音声認識システムにおける装置を、前記音
声データを受信する音声受信手段、前記音声データを認
識する第２の音声認識手段、及び、前記第２の音声認識
手段の認識結果を前記音声データの送信元である装置に
送信する第２の送信手段として機能させる音声認識プロ
グラムを記録した。

【００３５】また、音声認識プログラムを記録したコン
ピュータ読み取り可能な記録媒体は、前記第１の送信手
段が前記音声データを他の装置に送信する所定の場合
が、前記第１の音声認識手段による認識結果における信
頼度が、所定の閾値以下の場合である。

【００３６】このように、本発明によれば、１装置当り
の認識可能な語彙数を越える語彙数であっても音声認識
できる。また、ユーザによる語彙の登録手続きが不要と
なるまた、ユーザによって登録されている語彙が異なる
場合でも利用できる。

【００３７】さらに、本発明によれば、携帯電話程度の
性能しか持たない端末上でも十分な音声認識ができる。

【００３８】ここで、本発明において、音声データに
は、空気の振動としての音声データのみならず、音声を
電気信号のアナログデータとしたものや、音声を電気信
号のデジタルデータとしたものも含むことができる。

【００３９】また、本発明において、音声データの認識
とは、入力した音声データと、格納されている１つ又は
複数の語彙との対応を決定することをいい、例えば１つ
の入力した音声データに対して、１つ又は複数の語彙が
対応付けられ、さらに、それぞれの語彙にその語彙の信
頼度が付与されることもある。

【００４０】ここで、信頼度とは、音声データに対応付
けられた語彙が、入力された音声データに一致する確率
を表す数値である。

【００４１】また、本発明において、語彙には、単語の
みならず、文章、文章の一部、擬音その他の人間が発生
する音声を含むことができる。

【００４２】また、本発明においてイベントとは、次の
動作のきっかけとなる出来事のことをいい、事件、動
作、時間的条件、場所的条件等を含むことができる。

【００４３】

【発明の実施の形態】以下に図面を参照して、この発明
の好適な実施の形態を例示的に詳しく説明する。ただ
し、この実施の形態に記載されている構成部品の寸法、
材質、形状、その相対配置などは、特に特定的な記載が
ない限りは、この発明の範囲をそれらのみに限定する趣
旨のものではない。

【００４４】また、以下の図面において、既述の図面に
記載された部品と同様の部品には同じ番号を付す。ま
た、以下に説明する本発明に係る音声認識システムの各
実施形態の説明は、本発明に係る装置、音声認識方法、
音声認識プログラム及び音声認識プログラムを記録した
コンピュータ読み取り可能な記録媒体の各実施形態の説
明を兼ねる。

【００４５】（音声認識システムの第１の実施形態）ま
ず、本発明に係る音声認識システムの第１の実施形態に
ついて説明する。図１に、本発明に係る音声認識システ
ムの第１の実施形態の全体構成図を示す。本実施形態の
音声認識システムは互いにネットワークにより接続され
たクライアント１０１とサーバ１１１とで構成される。

【００４６】ただし、本発明に係る音声認識システムの
第１の実施形態は、図１に示されるように、クライアン
ト１０１とサーバ１１１とがそれぞれ１台の場合に限定
されるものではなく、クライアントの台数及びサーバの
台数はそれぞれ１台以上の任意の台数であって良い。

【００４７】１０１は、クライアントである。このクラ
イアント１０１は、ユーザが所有する端末でありサーバ
１１１と通信する機能を有する。

【００４８】このクライアント１０１として、例えば、
パソコン、ＰＤＡ、携帯電話、カー・ナビゲーション・
システム、モバイルパソコン等を例に挙げることができ
るが、本発明におけるクライアントとしてはこのような
クライアントに限定されるのではなく、その他の種々の
クライアントを用いることができる。

【００４９】ここで、クライアント１０１として、携帯
電話を用いた場合、及び、クライアント１０１としてＰ
ＤＡを用いた場合の、それぞれの内部構成について、図
２及び図３を参照して説明する。

【００５０】図２は、図１に示されるクライアント１０
１として携帯電話を用いた場合の内部ブロック図であ
り、図３は、図１に示されるクライアント１０１として
ＰＤＡを用いた場合の内部ブロック図である。

【００５１】図２に示される携帯電話はデジタル無線電
話回線により所定の固定局との間で通信が行われること
により、他の者と通話が可能となる。

【００５２】図２において、ＣＰＵ２０１は、図２に示
される各回路や部品の動作を制御する、マイクロコンピ
ュータ構成のシステムコントローラである。

【００５３】この携帯電話にはアンテナ２０７が接続さ
れている。このアンテナ２０７が受信した所定の周波数
帯（例えば８００ＭＨｚ帯）の信号を、高周波回路（以
下ＲＦ回路と称する）２０８に供給して復調させ、復調
信号をデジタル処理部２０９に供給する。

【００５４】デジタル処理部２０９は、デジタルシグナ
ルプロセッサ（ＤＳＰ）と呼ばれ、デジタル復調などの
各種デジタル処理をした後アナログ音声信号に変換す
る。

【００５５】このデジタル処理部２０９でのデジタル処
理は、必要とするスロットの出力を時分割多重された信
号から抽出する処理や、デジタル復調した信号をＦＩＲ
フィルタで波形等化する処理が行われる。

【００５６】そして、変換されたアナログ音声信号は音
声回路２１０に供給され、増幅などのアナログ音声処理
がなされる。

【００５７】そして、音声回路２１０が出力する音声信
号をハンドセット部２１１に送信し、このハンドセット
部２１１に組み込まれたスピーカ（不図示）より音声を
出力させる。

【００５８】また、ハンドセット部２１１に組み込まれ
たマイク（不図示）が取得した音声による音声データを
音声回路２１０に送信し、この音声回路２１０で増幅な
どのアナログ音声処理をした後、デジタル処理部２０９
に送信する。

【００５９】そして、このデジタル処理部２０９でデジ
タル音声信号に変換した後、デジタル変調などの送信の
ための処理を行う。

【００６０】処理されたデジタル音声信号はＲＦ回路２
０８に送信され、送信用に所定の周波数帯（例えば８０
０ＭＨｚ帯）に変調される。そして、変調波はアンテナ
２０７から送信される。

【００６１】なお、本例のハンドセット部２１１には例
えば液晶ディスプレイ等による表示部２１２が接続さ
れ、各種の文字や画像などによる情報が表示できるよう
になっている。

【００６２】例えば、この表示部２１２は、ＣＰＵ２０
１からバスラインを介して送信されるデータにより表示
が制御され、アクセスしたホームページの画像が表示さ
れる場合や、発信したダイヤル番号などの通話に関する
情報が表示される場合や、後述するグレードアップ時の
操作などが表示される場合等がある。

【００６３】また、ハンドセット部２１１にはダイヤル
番号などの入力操作を行うキー（不図示）が取付けてあ
る。

【００６４】そして、上記各回路２０８〜２１１は、Ｃ
ＰＵ２０１による制御で作動する。そして、ＣＰＵ２０
１から各回路２０８〜２１１にはコントロール線を介し
て制御信号が送信される。

【００６５】また、ＣＰＵ２０１はバスラインを介して
ＥＥＰＲＯＭ２０２，第１のＲＡＭ２０３，第２のＲＡ
Ｍ２０４の各メモリと接続されている。

【００６６】この場合、ＥＥＰＲＯＭ２０２は、データ
の読出し専用のメモリでこの携帯電話１０２の動作プロ
グラムが予め格納されているものであるが、一部のエリ
アのデータをＣＰＵ２０１の制御で書き換えることがで
きる。

【００６７】したがって、このＥＥＰＲＯＭ２０２に格
納されているプログラムが、本発明に係るプログラムと
なり、ＥＥＰＲＯＭ２０２自体が、本発明に係るプログ
ラムを記録したコンピュータ読み取り可能な記録媒体と
なる。

【００６８】よって、本出願の特許請求の範囲に記載
の、音声入力手段、第１の音声認識手段、第１の送信手
段、受信手段、結果統合手段、格納手段及び更新手段の
機能は、図２に示されるＣＰＵ２０１が、単体で、図２
に示される他の部品と共に、又はＥＥＰＲＯＭ２０２に
格納されたプログラムと協働することにより実現され
る。

【００６９】また、第１のＲＡＭ２０３は、ＥＥＰＲＯ
Ｍ２０２に書き換えられるデータの一時記憶用のメモリ
である。

【００７０】また、第２のＲＡＭ２０４は、デジタル処
理部２０９の制御データが記憶されるメモリである。

【００７１】この場合、第２のＲＡＭ２０４に接続され
たバスラインは、バススイッチ２０６を介して、ＣＰＵ
２０１側とデジタル処理部２０９側との切換えができる
ようにしてある。

【００７２】このバススイッチ２０６により第２のＲＡ
Ｍ２０４がＣＰＵ２０１側に切換わるのは、この携帯電
話の動作プログラムが修正されたときだけである。

【００７３】したがって、他の状態では第１のＲＡＭ２
０３がデジタル処理部２０９側と接続されるようにして
ある。

【００７４】また、第２のＲＡＭ２０４には、記憶デー
タの消失防止用のバックアップ用電池２０５が接続され
ている。

【００７５】一方、本実施形態では、外部から受信した
データがＣＰＵに入力されることが可能になっている。

【００７６】つまり、図中２１３は外部と接続するため
のコネクタを示し、このコネクタ２１３に得られるデー
タを、ＣＰＵ２０１に送信できるようにしてある。

【００７７】次に、図１に示されるクライアント１０１
としてＰＤＡを用いた場合について説明する。

【００７８】図３は、図１に示されるクライアント１０
１として用いられるＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇ
ｉｔａｌＡｓｓｉｓｔａｎｔｓ）の内部ブロック図で
ある。

【００７９】ＰＤＡは、送受信部３０１、出力部３０
２、入力部３０３、時計部３０４、通信部３０５、ＣＰ
Ｕ３０６、ＲＡＭ３０７、ＲＯＭ３０８、記憶媒体３１
０が装着される記憶装置３０９などから構成されてお
り、これらの各構成装置はバス３１２を介して相互に接
続されている。

【００８０】ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓ
ｉｎｇＵｎｉｔ）３０６は、記憶装置３０９内の記憶
媒体３１０に記憶されているシステムプログラム及び当
該システムプログラムに対応する各種アプリケーション
プログラムの中から指定されたアプリケーションプログ
ラムをＲＡＭ３０７内のプログラム格納領域に格納す
る。

【００８１】そしてＣＰＵ３０６は、送受信部３０１、
入力部３０３、時計部３０４、及び外部の基地局を介し
て入力される各種指示或いは入力データをＲＡＭ３０７
内に格納し、この入力指示或いは入力データに応じて記
憶媒体３１０に格納されたアプリケーションプログラム
に従って各種処理を実行する。

【００８２】そして、ＣＰＵ３０６は、その処理結果
を、ＲＡＭ３０７内に格納する。また、ＣＰＵ３０６
は、送信するデータを、ＲＡＭ３０７より読み出して送
受信部３０１へ出力する。

【００８３】送受信部３０１は、例えばＰＨＳユニット
（ＰｅｒｓｏｎａｌＨａｎｄｙ−ｐｈｏｎｅＳｙｓ
ｔｅｍＵｎｉｔ）により構成することができる。

【００８４】送受信部３０１は、付設のアンテナ３１１
から外部の基地局に対して、ＣＰＵ３０６から入力され
るデータ（検索出力依頼データ等）を、所定の通信プロ
トコルに基づく電波形態で送信する。

【００８５】出力部３０２は、ＬＣＤ表示やＣＲＴ表示
が可能な表示画面を備え、ＣＰＵ３０６から入力される
各種データをその表示画面で表示する装置である。

【００８６】入力部３０３は、各種のキーや、ペン入力
を行うための表示画面（この場合の表示画面は出力部３
０２における表示画面であることが殆どである）等から
構成されており、キー入力やペン入力（ペンによる手書
き文字認識を含む）により、スケジュール等に関するデ
ータ入力や各種の検索指令の入力、及びＰＤＡの各種の
設定入力等を行う入力装置であり、キー入力やペン入力
された信号をＣＰＵ３０６に出力する。

【００８７】また、本実施形態では、入力部３０３に、
音声データを入力するためのマイクなどの音声データ入
力装置を含める。

【００８８】時計部３０４は、計時機能を備えた装置
で、計時される時刻に関する情報は出力部３０２におい
て表示され、また、ＣＰＵ３０６が時刻情報を伴ったデ
ータ（例えば、スケジュールに関するデータ等）の入
力、保存などを行うときに、時計部３０４よりＣＰＵ３
０６に時刻に関する情報が入力され、ＣＰＵ３０６はそ
の入力された時刻情報に基づき動作を行う。

【００８９】通信部３０５は、近距離での無線若しくは
有線によるデータ通信を行うためのユニットである。

【００９０】ＲＡＭ（ＲａｍｄｏｍＡｃｃｅｓｓＭ
ｅｍｏｒｙ）３０７は、ＣＰＵ３０６により演算処理さ
れる各種プログラムやデータなどを一時的に記憶する記
憶領域からなる。また、ＲＡＭ３０７は、記憶された各
種プログラムやデータなどの読み出しも行う。

【００９１】ＲＡＭ３０７には、入力部３０３からの入
力指示或いは入力データ、及び、送受信部３０１を通じ
て外部から送られてくる各種データ、ＣＰＵ３０６が記
憶媒体３１０から読み出したプログラムコードに従って
処理した処理結果等が一時的に記憶される。

【００９２】ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒ
ｙ）３０８は、ＣＰＵ３０６からの指示により格納され
ているデータの読み出しを行う読み出し専用メモリであ
る。

【００９３】記憶装置３０９は、プログラムやデータ等
が記憶されている記憶媒体３１０を有しており、この記
憶媒体３１０は磁気的、光学的記憶媒体、若しくは半導
体メモリにより構成されている。また、記憶媒体３１０
は、記憶装置３０９に固定的に設けたもの、若しくは着
脱自在に装着したもののいずれであって良い。

【００９４】この記憶媒体３１０にはシステムプログラ
ム及び当該システムプログラムに対応する各種アプリケ
ーションプログラム、表示処理、通信処理、入力処理及
び各処理プログラムで処理されたデータ（スケジュール
データを含む）等を記憶する。

【００９５】尚、この記憶媒体３１０に記憶するプログ
ラム、データ等は、通信回線等を介して接続された他の
機器から受信して記憶する構成にしてもよく、更に、通
信回線等を介して接続された他の機器側に上記記憶媒体
を備えた記憶装置を設け、この記憶媒体に記憶されてい
るプログラム、データを通信回線を介して使用する構成
にしてもよい。

【００９６】以上から、ＲＯＭ３０８又は記憶媒体３１
０に格納されているプログラムが、本発明に係るプログ
ラムとなり、ＲＯＭ３０８又は記憶媒体３１０自体が、
本発明に係るプログラムを記録したコンピュータ読み取
り可能な記録媒体となる。

【００９７】よって、本出願の特許請求の範囲に記載
の、音声入力手段、第１の音声認識手段、第１の送信手
段、受信手段、結果統合手段、格納手段及び更新手段の
機能は、図３に示されるＣＰＵ３０１が、単体で、図３
に示される他の部品と共に、又はＲＯＭ３０８又は記憶
媒体３１０に格納されたプログラムと協働することによ
り実現される。

【００９８】携帯電話又はＰＤＡその他の装置により構
成されるクライアント１０１は、ユーザから取得した音
声を認識する。また、クライアント１０１は、所定の場
合に音声データをサーバ１１１に送信し、その認識結果
をサーバ１１１から受信する。

【００９９】次に、図１に示されるクライアント１０１
の説明にもどる。クライアント１０１は、音声入力部１
０２を備える。この音声入力部１０２は、ユーザからの
音声データを取得する。

【０１００】また、この音声入力部１０２は、音声認識
エンジン１０４及び音声送信部１０５に対して音声デー
タを出力する。

【０１０１】また、この音声入力部１０２は、アナログ
入力音声をデジタル音声データに変換する。

【０１０２】次に、音声認識エンジン１０４は、音声入
力部１０２から音声データを受け取る。また、音声認識
エンジン１０４は、認識辞書１０３から語彙をロードす
る。

【０１０３】この音声認識エンジン１０４は、ロードし
た認識辞書の中のデータと、音声入力部１０２から入力
した音声データとの間の認識を行う。この認識結果は、
例えば各語彙に対する信頼度として算出される。

【０１０４】ここで、本実施形態の音声認識エンジン１
０４における音声認識の一般的な処理手順について以下
に説明する。

【０１０５】音声認識エンジン１０４における音声認識
プロセスは、音声分析過程と探索過程で構成される。

【０１０６】１．音声分析過程音声分析過程は、音声認
識で用いる特徴量を音声波形から求めるプロセスであ
る。特徴量としては一般にケプストラムを用いる。ケプ
ストラムは、音声波形の短時間振幅スペクトルの対数の
逆フーリエ変換として定義される。

【０１０７】２．探索過程探索過程は、音声分析で得た
特徴量をもとに、その特徴量に最も近い音声データのカ
テゴリ（例えば、単語や単語列）を求めるプロセスであ
る。一般的に探索過程では音響モデルと言語モデルとい
う２種類の統計的モデルを用いる。

【０１０８】音響モデルとは、人の発声の特徴を統計的
に表したものであり、あらかじめ収集された音響データ
をもとに各音素（例えば、／ａ／，／ｉ／などの母音、
／ｋ／，／ｔ／などの子音）のモデルを計算により求め
ておく。

【０１０９】音響モデルを表現する一般的な方法として
は隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖ
Ｍｏｄｅｌ）が用いられる。

【０１１０】言語モデルは音声認識できる語彙の空間を
規定するもの、すなわち、音響モデルの配列に制約を与
えるものであり、例えば「やま」という単語がどのよう
な音素の並びで表現されるかを規定したり、あるいは、
ある文章がどのような単語列で表現されるかを規定す
る。

【０１１１】言語モデルとしては、一般にはＮグラムが
用いられる。探索過程では、音声分析により抽出された
特徴量を、音響モデルと言語モデルに対して照合を行
う。照合ではベイズの法則に基づく確率的処理を用い
て、確率的に最も近い単語を導出する。

【０１１２】照合結果は、どの単語、あるいは単語列に
類似しているかという確率で表現され、２つのモデルを
統合して最終的な確率が得られる。

【０１１３】探索過程における隠れマルコフモデル、Ｎ
グラム、ベイズの法則の詳細については、例えば次の文
献に記述されている。「音声言語処理」（森北出版，北
研二，中村哲，永田昌明著）

【０１１４】また、音声認識エンジン１０４は、音声デ
ータの認識結果を、音声送信部１０５、辞書制御部１０
６及び結果統合部１０７へ出力する。

【０１１５】ここで、音声認識エンジン１０４が出力す
る認識結果の一例について図４を参照して説明する。図
４は、図１に示される音声認識エンジン１０４が出力す
る認識結果の概念図である。

【０１１６】図４に示される認識結果の例では、音声認
識エンジン１０４に入力したある音声データに対して、
音声認識エンジン１０４により認識された認識語彙とし
て、「Ｘ」、「Ｙ」、「Ｚ」が出力されている。もちろ
ん、本実施形態の音声認識エンジン１０４により出力さ
れる認識語彙としては、「Ｘ」、「Ｙ」、「Ｚ」に限定
されるものではなく、それ以外の語彙や、この数以上の
語彙も出力することができる。

【０１１７】そして、音声認識エンジン１０４は、それ
ぞれの認識語彙に対して、信頼度を算出する。この信頼
度の算出の仕方は公知の技術を用いることができる。

【０１１８】図４に示される例では、信頼度は、認識語
彙「Ｘ」に対して０．６、認識語彙「Ｙ」に対して０．
２、認識語彙「Ｚ」に対して０．３となっている。

【０１１９】また、音声認識エンジンは、認識語彙の中
から、所定の信頼度（閾値）より上の語彙以外の語彙を
Ｒｅｊｅｃｔ対象とする。図４に示される例では、例え
ば信頼度の閾値を０．５に設定し、語彙「Ｘ」以外がＲ
ｅｊｅｃｔ対象となっている。

【０１２０】このように、音声認識エンジン１０４は、
認識結果の信頼度が閾値よりも低い場合には、認識結果
をＲｅｊｅｃｔとして、Ｒｅｊｅｃｔであるという情報
を、音声送信部１０５、辞書制御部１０６及び結果統合
部１０７へ出力する。このように音声認識エンジン１０
４は、認識辞書に格納された語彙をもとに、音声データ
を認識する。

【０１２１】次に、図１に示される認識辞書１０３に
は、辞書制御部１０６から登録すべき語彙が出力され
る。この認識辞書１０３に、ユーザあるいは設計者があ
らかじめ語彙を登録しておくこともできる。この認識辞
書１０３は、語彙を格納する格納手段として機能し、認
識辞書１０３以外の他の認識辞書も同様である。

【０１２２】認識辞書１０３は、音声認識エンジン１０
４に対して語彙を出力する。また、認識辞書１０３は語
彙を保存する。

【０１２３】次に、音声送信部１０５は、音声入力部１
０２から音声データを取得する。また、音声送信部１０
５は、音声認識エンジン１０４から認識結果を取得す
る。

【０１２４】そして、音声送信部１０５は、サーバ１１
１に対して音声データを送信する。すなわち、音声送信
部１０５は、音声認識エンジン１０４から取得した認識
結果に基づいて、その音声データについての認識結果が
全てＲｅｊｅｃｔである情報を受け取った場合、音声入
力部１０２から受理した音声データをサーバ１１１に送
信する。

【０１２５】ここで、送信先のサーバを決定する方法と
して、例えば、送信元のクライアントに物理的距離が近
い所に存在するサーバに送信する方法がある。すなわ
ち、通信を行うサーバを、これらの装置間の距離に関す
る情報に基づいて定められるとしても良い。

【０１２６】上記距離に関する情報にはクライアントが
通信する基地局の位置情報や、ＧＰＳ（Ｇｌｏｂａｌ
ＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍｓ：全地球測位
システム）を使用することにより取得した位置情報等を
含めることができる。

【０１２７】次に、辞書制御部１０６は、サーバ１１１
から辞書更新情報を受信し、認識辞書１０３の語彙を更
新する。したがって、辞書制御部１０６は、更新手段と
して機能する。この更新動作については後述する。

【０１２８】辞書更新情報には、サーバ１１１が、クラ
イアント１０１から受信した音声データを認識した回数
が語彙毎に記録されている。また、辞書制御部１０６
は、音声認識エンジン１０４から認識結果を取得する。

【０１２９】また、辞書制御部１０６は、認識辞書１０
３に語彙を出力する。また、辞書制御部１０６は、音声
認識エンジン１０４から受信した認識結果をもとに認識
辞書１０３に格納された語彙毎の認識回数を計数する。

【０１３０】ここで、辞書制御部１０６において計数さ
れる認識辞書１０３に格納された語彙毎の認識回数につ
いて図５を参照して説明する。図５は、図１に示される
辞書制御部１０６において計数される認識辞書１０３に
格納された語彙毎の認識回数の概念図である。

【０１３１】図５に示されるように、例えば認識辞書１
０３に格納されている各語彙に認識回数の情報が格納さ
れている。すなわち、図５に示される例では、語彙
「Ａ」の認識回数が３回、語彙「Ｂ」の認識回数は２回
であり、語彙「Ｃ」の認識回数は６回である。

【０１３２】また、辞書制御部１０６は、サーバ１１１
から受信した辞書更新情報（すなわち、サーバ１１１で
の語彙毎の認識回数）と、クライアント１０１における
語彙毎の認識回数をもとに、認識辞書１０３に格納され
ている全語彙を認識回数でソートする。このソート動作
については後述する。

【０１３３】そして、辞書制御部１０６は、例えば語彙
を認識回数の多い順に認識辞書に登録可能な数だけ認識
辞書１０３に登録する。

【０１３４】次に、結果統合部１０７は、音声認識エン
ジン１０４からクライアント１０１の認識結果を取得す
る。

【０１３５】さらに、結果統合部１０７は、サーバ１１
１からサーバ１１１の認識結果を取得する。したがっ
て、結果統合部１０７は、サーバ１１１からの認識結果
の受信手段として機能する。

【０１３６】そして、結果統合部１０７は、統合した認
識結果を出力する。この結果統合部１０７からの出力は
音声による確認やアプリケーションで利用される。

【０１３７】すなわち、結果統合部１０７は、クライア
ント１０１とサーバ１１１の認識結果を統合し、クライ
アント１０１の認識結果がＲｅｊｅｃｔの場合にはサー
バ１１１の認識結果を採用する。

【０１３８】また、結果統合部１０７は、クライアント
１０１の認識結果がＲｅｊｅｃｔでない場合にはクライ
アント１０１の認識結果を採用する。

【０１３９】また、結果統合部１０７は、Ｒｅｊｅｃｔ
でない認識結果が複数ある場合は、それらのうち、最も
信頼度の高い結果を認識決かとして出力しても良い。

【０１４０】次に、サーバ１１１は、クライアント１０
１から音声データを受信し、これを認識する。

【０１４１】そして、サーバ１１１は、認識回数が多い
語彙については、これをクライアント１０１に送信す
る。以下、このサーバ１１１の構成及び動作についてさ
らに説明する。

【０１４２】まず、図１に示されるサーバ１１１の内部
構成について、図６を参照して説明する。図６は、図１
に示されるサーバ１１１の内部ブロック図である。

【０１４３】図６に示されるように、サーバ１１１は、
ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎ
ｉｔ）６０１と、入力部６０２と、主記憶部６０３と、
出力部６０４と、補助記憶部６０５と、クロック部６０
６とからなる。

【０１４４】ＣＰＵ６０１は別名処理部としての部品で
あり、システム内の各部に命令を送りその動作を制御す
る制御部６０７と、サーバ１１１の中心的な部分でディ
ジタルデータの演算処理を行う演算部６０８とからな
る。

【０１４５】ここで、このＣＰＵ６０１は、単体で、又
は図６に示されるその他の各部品と共に、又は主記憶部
６０３や補助記憶部６０５に記憶されているプログラム
と協働して、本出願の特許請求の範囲に記載の、音声受
信手段、第２の音声認識手段、第２の送信手段として機
能する。

【０１４６】制御部６０７は、クロック部６０６が発す
るクロックのタイミングに従い、入力部６０２から入力
されたデータや予め与えられた手順（例えばプログラム
やソフトウェア）を主記憶部６０３に読み込み、この読
み込んだ内容に基づいて演算部６０８に命令を送り演算
処理を行わせる。

【０１４７】この演算処理の結果は、制御部６０７の制
御に基づいて、主記憶部６０３、出力部６０４及び補助
記憶部６０５等の内部の機器や外部の機器等に送信され
る。

【０１４８】入力部６０２は、各種データを入力するた
めの部品であり、例えばキーボード、マウス、ポインテ
ィングデバイス、タッチパネル、マウスパッド、ＣＣＤ
カメラ、カード読み取り機、紙テープ読み取り部、磁気
テープ部等が考えられる。

【０１４９】主記憶部６０３は別名メモリと呼ばれる部
品であり、処理部及び内部記憶部において、命令を実行
するために使われるアドレス可能な記憶空間を指す部品
である。

【０１５０】この主記憶部６０３は主として半導体記憶
素子により構成され、入力したプログラムやデータを格
納、保持すると共に、制御部６０７の指示にしたがい、
この格納保持されているデータを例えばレジスタに読み
出す。

【０１５１】また、主記憶部６０３を構成する半導体記
憶素子としてはＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓ
Ｍｅｍｏｒｙ）やＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍ
ｏｒｙ）等が挙げられる。

【０１５２】出力部６０４は、演算部６０８の演算結果
等を出力するための部品であり、例えばＣＲＴ、プラズ
マディスプレイパネル及び液晶ディスプレイその他の表
示部、プリンタなどの印刷部、音声出力部等が該当す
る。

【０１５３】また、補助記憶部６０５は、主記憶部６０
３の記憶容量を補うための部品であり、これに使用され
る媒体には、ＣＤ−ＲＯＭ、ハードディスクなどのほ
か、情報を書き込み可能な例えばライトワンス系のＣＤ
−Ｒ、ＤＶＤ−Ｒや、相変化記録系のＣＤ−ＲＷ、ＤＶ
Ｄ−ＲＡＭ、ＤＶＤ＋ＲＷ、ＰＤ、光磁気記憶系の記録
媒体、磁気記録系の記録媒体、リムーバルＨＤＤ系の記
録媒体、フラッシュメモリ系の記録媒体を用いることが
できる。

【０１５４】ここで、上記各部は、バス６０９により相
互に接続されている。

【０１５５】また、本実施形態におけるサーバにおい
て、図６に示される各部のうち不要な部があればそれは
適宜に削除することができる。例えば出力部６０４を構
成するディスプレイなどは不要になる場合があり、この
場合、本実施形態におけるサーバにおいて、出力部６０
４が不要になる場合がある。

【０１５６】また、上記主記憶部６０３及び補助記憶部
６０５の個数は各１つに限定されるものではなく、任意
の個数であって良い。これら、上記主記憶部６０３及び
補助記憶部６０５の個数が増えればそれだけサーバの耐
障害性が向上することとなる。

【０１５７】なお、本発明に係る各種プログラムは、上
記主記憶部６０３及び補助記憶部６０５の少なくともい
ずれか一方に記憶（記録）される。

【０１５８】したがって、本発明に係るプログラムを記
録したコンピュータ読み取り可能な記録媒体は、上記主
記憶部６０３及び補助記憶部６０５の少なくともいずれ
か一方が該当し得る。

【０１５９】次に、図１に示されるサーバ１１１の動作
について説明する。まず、音声受信部１１２は、クライ
アント１０１から音声データを取得する。また、音声受
信部１１２は、クライアント１０１から受信した音声デ
ータを音声認識エンジン１１４に出力する。

【０１６０】次に、認識辞書１１３は、辞書制御部１１
５から登録すべき語彙を取得する。この認識辞書１１３
には、ユーザあるいは設計者があらかじめ語彙を登録し
ておくこともできる。

【０１６１】認識辞書１１３は、音声認識エンジン１１
４に対して語彙を出力する。また、認識辞書１１３は、
語彙を保存する。

【０１６２】次に、音声認識エンジン１１４は、認識辞
書１１３から語彙をロードする。また、音声認識エンジ
ン１１４は、音声受信部１１２から音声データを受け取
る。

【０１６３】また、音声認識エンジン１１４は、語彙を
もとに、音声データを認識し、音声データを認識した結
果を、辞書制御部１１５及び結果送信部１１６へ出力す
る。この音声認識エンジン１１４の構成及び動作は、前
述の音声認識エンジン１０４の構成及び動作と同様であ
っても良いし、異なるものであっても良い。

【０１６４】また、音声認識エンジン１１４による音声
の認識結果の概略は、前述の図４に示される認識結果と
同様である。

【０１６５】次に、辞書制御部１１５は、音声認識エン
ジン１１４から認識結果を取得する。また、辞書制御部
１１５は、クライアント１０１に辞書更新情報を出力す
る。

【０１６６】すなわち、辞書制御部１１５は、音声認識
エンジン１１４から受信した認識結果をもとに、サーバ
１１１における認識辞書１１３に格納された各語彙毎の
認識回数を計数し、認識辞書１１３に格納された各語彙
毎の認識回数の更新を行う。

【０１６７】この際の計数結果は、例えば図５に示され
るような認識回数の概念図のように、認識辞書１１３に
格納されている。

【０１６８】ここで、サーバ１１１における各語彙毎の
認識回数の計数は、各語彙毎にかつ各クライアント１０
１毎に行われるとしても良い。

【０１６９】また、サーバ１１１における各語彙毎の認
識回数の計数は、各語彙毎かつクライアントを所定のグ
ループに分割し、この所定のグループ毎の認識回数の計
数であっても良い。

【０１７０】また、サーバ１１１における語彙毎の認識
回数の計数は、各語彙毎に、サーバ１１１に接続されて
いる各クライアント全ての認識回数の総和によるとして
も良い。

【０１７１】また、辞書制御部１１５は、認識辞書１１
３の語彙毎の認識回数を辞書更新情報として、クライア
ント１０１に送信する。

【０１７２】ここで、辞書制御部１１５からクライアン
ト１０１に送信される辞書更新情報には、例えば認識辞
書１１３に格納されている全ての語彙と認識回数との対
応関係が含まれるとしても良いし、一定数以上の認識回
数である各語彙と認識回数との対応関係が含まれるとし
ても良い。

【０１７３】なお、辞書制御部１１５からクライアント
１０１への辞書更新情報の出力のタイミングは、例えば
一定時間間隔毎に出力したり、サーバ１１１における認
識回数が所定回数に達したら出力したり、クライアント
１０１においてユーザが更新ボタンを押した場合など種
々のタイミングを採用することができる。

【０１７４】次に、結果送信部１１６は、音声認識エン
ジン１１４からサーバ１１１の認識結果を取得し、認識
結果をクライアント１０１に出力する。

【０１７５】次に、図１に示される音声認識システムの
動作について、図７を参照してさらに詳細に説明する。
図７は、図１に示される音声認識システムの動作のフロ
ーチャートである。

【０１７６】まず、Ｓ７０１において、クライアント１
０１は、ユーザから取得した音声を認識する。そして、
クライアント１０１は、語彙毎の認識回数を計数する。

【０１７７】次に、Ｓ７０２において、クライアント１
０１にて、語彙の音声認識結果がＲｅｊｅｃｔでない場
合、これを認識結果とし、動作を終了する。

【０１７８】クライアント１０１における認識結果がＲ
ｅｊｅｃｔである場合、Ｓ７０３に進む。

【０１７９】Ｓ７０３において、音声データをクライア
ント１０１からサーバに送信する。ここでクライアント
とサーバ間の接続は次の１．又は２．のいずれであって
も構わない。なお、クライアントとサーバ間が接続され
るとは、いわゆる呼が確立されることをいう。

【０１８０】１．常時接続である。

【０１８１】２．特定イベントにより接続が開始され、
及び／又は以下のような特定イベントにより接続が終了
する。これらの特定イベントは任意に組み合わせて使用
することができる。

【０１８２】（特定イベント）（１）認識結果がＲｅｊｅｃｔになった場合に接続を開
始し、サーバから認識結果を取得した場合に接続を終了
する。すなわち、クライアントにおいて音声認識ができ
なかったことを特定イベントとすることもできる。

【０１８３】（２）ユーザから音声データが入力された
場合に接続を開始し、サーバから認識結果を取得した場
合に接続を終了する。すなわち、クライアントに音声デ
ータが入力されたことを特定イベントとすることもでき
る。

【０１８４】（３）ユーザが何らかの装置を起動した場
合に接続を開始し、該装置の動作を終了させたときに接
続を終了する。例えば、自動車のイグニッション・キー
等。すなわち、クライアントに外部から信号が入力され
たことを特定イベントとすることもできる。

【０１８５】（４）クライアントが使用される時間・場
所により接続の開始・終了を制御する。例えば、頻繁に
使用する時間帯・地域をユーザが設定するか、クライア
ントが自動的に取得する。そして、頻繁に使用する時間
帯・地域での語彙をクライアントに保存しておき、クラ
イアントで音声認識する。クライアントの位置が頻繁に
使用する時間帯又は地域の少なくとも一方を外れている
場合には、サーバに接続して、サーバで音声認識を行
う。すなわち、クライアントが所定の時間帯を外れて使
用されていること又は所定の地域を外れて使用されてい
ることを特定イベントとすることもできる。

【０１８６】次に図７に示されるフローチャートの説明
にもどる。Ｓ７０４において、サーバ１１１は、音声認
識を行う。そして、サーバ１１１は、語彙毎の認識回数
を計数する。

【０１８７】ここで、サーバ１１１における語彙毎の認
識回数の計数は、前述のように、各語彙毎かつ各クライ
アント１０１毎に行われるとしても良い。

【０１８８】また、サーバ１１１における語彙毎の認識
回数の計数は、各語彙毎かつクライアントを所定のグル
ープに分割し、この所定のグループ毎の認識回数の計数
であっても良い。

【０１８９】また、サーバ１１１における語彙毎の認識
回数の計数は、各語彙毎に、サーバ１１１に接続されて
いる各クライアント全ての認識回数の総和によるとして
も良い。

【０１９０】次に、Ｓ７０５において、サーバ１１１
は、クライアント１０１に認識結果を送信する。

【０１９１】次に、Ｓ７０６において、クライアント１
０１は、クライアント１０１とサーバ１１１の認識結果
を統合する。

【０１９２】さらにＳ７０７において、サーバ１１１
は、一定の時間間隔毎や音声データの認識回数毎にサー
バ１１１からクライアント１０１に辞書更新情報を送信
する。

【０１９３】ただし、前述のように、本実施形態におい
て、サーバ１１１からクライアント１０１に辞書更新情
報を送るタイミングとしては、例えば、ユーザがクライ
アント１０１における更新ボタンを押すなどして、ユー
ザが自分で更新するという方法もとることができる。

【０１９４】そして、サーバ１１１から辞書更新情報を
受信したクライアント１０１は、辞書制御部１０６にお
いて認識辞書１０３の更新を行う。

【０１９５】ここで、辞書制御部１０６による認識辞書
１０３の更新について図８を参照して説明する。図８
は、図１に示される辞書制御部１０６による認識辞書１
０３の更新動作の概念図である。

【０１９６】まず、初期状態では、認識辞書１０３に
は、テーブル８０１が格納されていたとする。このテー
ブル８０１では、各語彙毎に認識回数が設定され、認識
回数が最も少ない語彙が、例えば「Ｘ」の６回であった
とする。

【０１９７】ここで、テーブル８０１において、語彙
「Ａ」から語彙「Ｘ」までにはその認識回数に応じて順
位が付与されている。そして、語彙「Ｘ」は最低の順位
となっている。この順位は、同じ認識回数の語彙を同順
位としても良いし、同じ認識回数であっても例えば入力
順といった区別により、それぞれに異なる順位を付与し
ても良い。そして、例えば入力順といった区別により、
それぞれに異なる順位を付与した場合、その最終の順位
は、認識辞書１０３に格納されている語彙の個数と一致
する。

【０１９８】次に、辞書制御部１０６が辞書制御部２０
５から辞書更新情報として、テーブル８０２を受信した
とする。このテーブル８０２には、例えば語彙「Ｙ」の
認識回数が７回であった旨が格納されている。

【０１９９】このように、本実施形態の辞書制御部１０
６が、サーバ１１１の辞書制御部１１５から受信する語
彙に関する情報には、語彙及びこの語彙毎の認識回数を
含めることができる。

【０２００】そして、この辞書更新情報としてのテーブ
ル８０２を受信した辞書制御部１０６は、認識辞書１０
３中に格納されているテーブル８０１を、語彙「Ｙ」の
認識回数に応じてソートし、所定の順位以外の語彙を削
除することにより更新し、テーブル８０３を作成する。

【０２０１】テーブル８０３では、語彙「Ｙ」に対応す
る部分が追加されるとともに、初期状態のテーブルに存
在した語彙「Ｘ」の部分８０４が、テーブル８０３の所
定順位を外れたため削除されている。

【０２０２】すなわち、辞書制御部１０６により、認識
辞書１０３に格納されている語彙が更新されている。

【０２０３】ただし、本実施形態における辞書制御部１
０６による認識辞書１０３に格納されている語彙の更新
は上記方法に限定されるものではない。

【０２０４】すなわち、辞書制御部１０６は、所定の順
位以外の語彙を削除せずに残しておいて、この所定の順
位以外の語彙は、認識には用いないという方法もありえ
る。

【０２０５】また、辞書制御部１０６は、削除する条件
として、所定の順位を用いる代わりに、認識辞書１０３
のメモリ容量の制約を越えたら削除する方法もありえ
る。

【０２０６】以上のように、本発明に係る音声認識シス
テムの第１の実施形態によれば、クライアント１０１に
おける音声認識の処理能力がそれほど高くない場合であ
っても、クライアント１０１に接続されたサーバ１１１
において音声認識を実行できるため音声認識の性能を向
上させることができる。

【０２０７】また、認識された語彙の認識回数を計数
し、クライアント１０１はこの計数結果に基づいてクラ
イアント１０１における認識辞書１０３を更新している
ため、クライアント１０１のユーザが認識辞書１０３を
手動で更新しなくても、適切な認識辞書１０３を構築す
ることができる。

【０２０８】（音声認識システムの第２の実施形態）次
に、本発明に係る音声認識システムの第２の実施形態に
ついて説明する。図９は、本発明に係る音声認識システ
ムの第２の実施形態の全体構成図であり、図１０は、図
９に示される音声認識システムの動作のフローチャート
である。

【０２０９】本実施形態が前述の第１の実施形態と異な
る点は、図１に示されるサーバ１１１の代わりに他のク
ライアント９１１を利用して認識を行う点である。

【０２１０】すなわち、本実施形態の音声認識システム
は、互いにネットワークにより接続された複数のクライ
アントを備え、それぞれのクライアントにおいて異なる
語彙を分担して並列分散認識を行うことにより、１台の
クライアントでは処理できない語彙数を処理できるよう
にする音声認識システムである。

【０２１１】ここで、本実施形態におけるクライアント
９０１，９１１には、前述のように、例えば、パソコ
ン、ＰＤＡ、携帯電話、カー・ナビゲーション・システ
ム、モバイルパソコン等を例に挙げることができるが、
本発明におけるクライアントとしてはこのようなクライ
アントに限定されるのではなく、その他の種々のサーバ
と通信可能なクライアントを用いることができる。

【０２１２】本実施形態では図６に示されるように、本
実施形態の音声認識システムはクライアントが２台の場
合を示しているが、クライアントが３台以上であっても
構わない。

【０２１３】本実施形態のクライアント９０１，９１１
の構成は、例えばクライアントとして携帯電話やＰＤＡ
を用いる場合は、前述の本発明に係る音声認識システム
の第１の実施形態において図２及び図３を参照して説明
した場合と同様である。

【０２１４】したがって、図２に示される携帯電話を、
本実施形態において他のクライアントから音声データが
送信されるクライアントとして使用した場合は、本出願
の特許請求の範囲に記載の、音声受信手段、第２の音声
認識手段、第２の送信手段の機能は、図２に示されるＣ
ＰＵ２０１が、単体で、図２に示される他の部品と共
に、又はＥＥＰＲＯＭ２０２に格納されたプログラムと
協働することにより実現される。

【０２１５】同様に、図３に示されるＰＤＡを、本実施
形態において他のクライアントから音声データが送信さ
れるクライアントとして使用した場合は、本出願の特許
請求の範囲に記載の、音声受信手段、第２の音声認識手
段、第２の送信手段の機能は、図３に示されるＣＰＵ３
０１が、単体で、図３に示される他の部品と共に、又は
ＲＯＭ３０８又は記憶媒体３１０に格納されたプログラ
ムと協働することにより実現される。

【０２１６】以下、本実施形態の動作について、図９及
び図１０を参照しつつ説明する。図９において、クライ
アント９０１は、ユーザが所有する端末であり、他の１
台以上のクライアントと通信する機能を有する。

【０２１７】このクライアント９０１は、ユーザから取
得した音声を認識する（Ｓ１００１）。また、このクラ
イアント９０１は、音声データを他の１台以上のクライ
アントに送信する（Ｓ１００２）。

【０２１８】音声データを受信したクライアントは、そ
の音声データの認識を行い（Ｓ１００３）、その認識結
果を音声データの送信元のクライアントに送信する（Ｓ
１００４）。

【０２１９】音声データの認識結果を受信したクライア
ント９０１は認識結果を統合して出力する（Ｓ１００
５）。

【０２２０】音声データの送信先となる他のクライアン
ト９１１は、あらかじめユーザが設定しても構わない
し、音声が入力された時点で決定しても構わない。

【０２２１】送信先を決定する方法として、例えば、送
信元のクライアントに物理的距離が近い所に存在するク
ライアントに送信する方法がある。すなわち、互いに通
信を行うクライアントを、これらの装置間の距離に関す
る情報に基づいて定められるとしても良い。

【０２２２】上記距離に関する情報にはクライアントが
通信する基地局の位置情報や、ＧＰＳ（Ｇｌｏｂａｌ
ＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍｓ：全地球測位
システム）を使用することにより取得した位置情報等を
含めることができる。

【０２２３】次に、クライアント９０１の機能構成につ
いて説明する。音声入力部９０２は、ユーザからの音声
を取得する。

【０２２４】また、音声入力部９０２は、音声認識エン
ジン９０４及び音声送信部９０５に対して音声データを
出力する。

【０２２５】また、音声入力部９０２は、アナログ入力
音声をデジタル音声データに変換する。

【０２２６】次に、認識辞書９０３は語彙を保存する。
認識辞書９０３には、ユーザあるいは設計者があらかじ
め語彙を登録しておく。また、認識辞書９０３は、音声
認識エンジン９０４に対して語彙を出力する。

【０２２７】次に、音声認識エンジン９０４は、認識辞
書９０３から語彙をロードする。また、音声認識エンジ
ン９０４は、音声入力部９０２から音声データを受け取
る。

【０２２８】また、音声認識エンジン９０４は、語彙を
もとに、音声データを認識し、その認識した結果を結果
統合部９０６へ出力する。

【０２２９】ここで、本実施形態の音声認識エンジン９
０４の構成及び動作は、前述の音声認識エンジン１０４
の構成及び動作と同様であっても良いし、異なるもので
あっても良い。

【０２３０】また、音声認識エンジン９０４による音声
の認識結果の概略は、前述の図４に示される認識結果と
同様である。

【０２３１】音声認識エンジン９０４は、認識結果の信
頼度が閾値よりも低い場合には、認識結果をＲｅｊｅｃ
ｔとして、Ｒｅｊｅｃｔであるという情報を音声送信部
９０５及び結果統合部９０６へ出力する。

【０２３２】次に、音声送信部９０５は、音声入力部９
０２から音声データを取得する。また、音声送信部９０
５は、音声認識エンジン９０４から入力された認識結果
がＲｅｊｅｃｔである場合、他のクライアントに対して
音声データを送信する。

【０２３３】次に、結果統合部９０６は、音声認識エン
ジン９０４から認識結果を取得する。また、結果統合部
９０６は、他のクライアント９１１から認識結果を取得
する。

【０２３４】また、結果統合部９０６は、統合した認識
結果を出力する。結果統合部９０６による出力は、音声
による確認やアプリケーションで利用される。

【０２３５】結果統合部９０６は、各クライアントの認
識結果を統合する。結果統合部９０６は、例えば認識結
果のうち最も信頼度の大きい結果を採用する。

【０２３６】次に、クライアント９１１は、ユーザが所
有する端末で他の１台以上のクライアントと通信する機
能を有する。

【０２３７】そして、クライアント９１１は、他のクラ
イアント９０１から受信した音声データを認識する。認
識結果を送信元のクライアントに返信する。以下、クラ
イアント９１１の動作について説明する。

【０２３８】まず、音声入力部９１２は、他のクライア
ント（クライアント９０１）から音声データを取得す
る。

【０２３９】また、音声入力部９１２は、この他のクラ
イアントから取得した音声データを音声認識エンジン９
１４に出力する。

【０２４０】次に、認識辞書９１３には、ユーザあるい
は設計者があらかじめ語彙を登録しておく。また、認識
辞書９１３は、音声認識エンジン９１４に対して語彙を
出力する。

【０２４１】次に、音声認識エンジン９１４は、認識辞
書９１３から語彙をロードする。また、音声認識エンジ
ン９１４は、音声入力部９１２から音声データを受け取
る。

【０２４２】そして、音声認識エンジン９１４は、ロー
ドした語彙をもとに、音声データを認識し、音声データ
を認識した結果を結果統合部９１６へ出力する。

【０２４３】また、音声認識エンジン９１４は、認識結
果の信頼度が閾値よりも低い場合には、認識結果をＲｅ
ｊｅｃｔとして、Ｒｅｊｅｃｔであるという情報を結果
統合部９１６へ出力する。

【０２４４】ここで、本実施形態の音声認識エンジン９
１４の構成及び動作は、前述の本発明に係る音声認識シ
ステムの第１の実施形態における音声認識エンジン１０
４の構成及び動作と同様であっても良いし、異なるもの
であっても良い。

【０２４５】また、音声認識エンジン９１４による音声
の認識結果の概略は、前述の図４に示される認識結果と
同様である。

【０２４６】次に、クライアント９１１における音声送
信部９１５は、クライアント９１１がクライアント９０
１から音声データを取得して認識する役割なので、使用
されない。

【０２４７】次に、結果統合部９１６は、音声認識エン
ジン９１４から取得した認識結果を、音声データの送信
元のクライアント９０１へ送信する。

【０２４８】このように、本発明に係る音声認識システ
ムの第２の実施形態によれば、前述の第１の実施形態の
ように特にサーバ１１１を用意しなくても、互いに接続
されたクライアント同士で音声認識の役割を分担して行
うため、個々のクライアントの音声認識能力を超えた音
声認識を実行することができる。

【０２４９】

【発明の効果】以上説明したように、本発明は、１つの
装置に入力した音声データを、この装置に接続された他
の装置に送信して認識を行っているため、各ユーザによ
って使用されている語彙が異なっていても、１つの装置
における処理可能な語彙を超えて音声認識を行うことが
できる。

【０２５０】また、認識回数に応じて、認識辞書を更新
するとしているため、ユーザが手動で認識辞書を更新し
なくても、適切な認識辞書を構築することができる。

【図面の簡単な説明】

【図１】本発明に係る音声認識システムの第１の実施形
態の全体構成図である。

【図２】図１に示されるクライアント１０１として携帯
電話を用いた場合の内部ブロック図である。

【図３】図１に示されるクライアント１０１としてＰＤ
Ａを用いた場合の内部ブロック図である。

【図４】図１に示される音声認識エンジン１０４が出力
する認識結果の概念図である。

【図５】図１に示される辞書制御部１０６において計数
される認識辞書１０３に格納された語彙毎の認識回数の
概念図である。

【図６】図１に示されるサーバ１１１の内部ブロック図
である。

【図７】図１に示される音声認識システムの動作のフロ
ーチャートである。

【図８】図１に示される辞書制御部１０６による認識辞
書１０３の更新動作の概念図である。

【図９】本発明に係る音声認識システムの第２の実施形
態の全体構成図である。

【図１０】図９に示される音声認識システムの動作のフ
ローチャートである。

【符号の説明】

１０１クライアント１０２音声入力部１０３認識辞書１０４音声認識エンジン１０５音声送信部１０６辞書制御部１０７結果統合部１１１サーバ１１２音声受信部１１３認識辞書１１４音声認識エンジン１１５辞書制御部１１６結果送信部２０１ＣＰＵ２０２ＥＥＰＲＯＭ２０３第１のＲＡＭ２０４第２のＲＡＭ２０５バックアップ用電池２０６バススイッチ２０７アンテナ２０８高周波回路回路２０９デジタル処理部２１０音声回路２１１ハンドセット部２１２表示部２１３コネクタ３０１送受信部３０２出力部３０３入力部３０４時計部３０５通信部３０６ＣＰＵ３０７ＲＡＭ３０８ＲＯＭ３０９記憶装置３１０記憶媒体３１１アンテナ３１２バス６０１ＣＰＵ６０２入力部６０３主記憶部６０４出力部６０５補助記憶部６０６クロック部６０７制御部６０８演算部６０９バス８０１，８０２，８０３テーブル８０４部分９０１クライアント９０２音声入力部９０３認識辞書９０４音声認識エンジン９０５音声送信部９０６結果統合部９１１クライアント９１２音声入力部９１３認識辞書９１４音声認識エンジン９１５音声送信部９１６結果統合部

フロントページの続き (72)発明者大本浩司京都府京都市下京区塩小路通堀川東入南不動堂町801番地オムロン株式会社内 (72)発明者石田勉京都府京都市下京区塩小路通堀川東入南不動堂町801番地オムロン株式会社内Ｆターム(参考） 5D015 GG01 KK02 LL05

Claims

【特許請求の範囲】

【請求項１】複数の装置から構成され、前記複数の装置のうち、少なくとも１以上の装置は、音声データが入力される音声入力手段と、前記音声データを認識する第１の音声認識手段と、前記音声データを所定の場合に他の装置に送信する第１
の送信手段と、前記音声データの送信先の装置から前記音声の認識結果
を受信する受信手段と、前記第１の音声認識手段における認識結果及び前記受信
手段において受信した認識結果との少なくとも一方に基
づいて音声の認識結果を出力する結果統合手段とを備
え、前記複数の装置のうち、少なくとも１以上の装置は、前記音声データが入力された装置から前記音声データを
受信する音声受信手段と、前記音声データを認識する第２の音声認識手段と、前記第２の音声認識手段の認識結果を前記音声データの
送信元である装置に送信する第２の送信手段とを備える
音声認識システム。
【請求項２】前記第１の送信手段が前記音声データを
他の装置に送信する所定の場合が、前記第１の音声認識手段による認識結果における信頼度
が、所定の閾値以下の場合である請求項１に記載の音声認識
システム。
【請求項３】前記複数の装置のうちの少なくとも１以
上の装置が、語彙を格納する格納手段と、前記格納手段に格納された語彙を更新する更新手段とを
備え、前記更新手段は、他の少なくとも１以上の装置から語彙
に関する情報を受信し、前記格納手段に格納された語彙
を更新する請求項１又は２に記載の音声認識システム。
【請求項４】前記複数の装置のうち少なくとも１以上
の装置が、所定のイベントの発生を条件として、他の少
なくとも１以上の装置との接続を開始する請求項１から
３のいずれか１項に記載の音声認識システム。
【請求項５】複数の装置から構成された音声認識シス
テムにおける装置であって、音声データが入力される音声入力手段と、前記音声データを認識する第１の音声認識手段と、前記音声データを所定の場合に他の装置に送信する第１
の送信手段と、前記音声データの送信先の装置から前記音声の認識結果
を受信する受信手段と、前記第１の音声認識手段における認識結果及び前記受信
手段において受信した認識結果との少なくとも一方に基
づいて音声の認識結果を出力する結果統合手段とを備え
た装置であり、前記複数の装置のうちの少なくとも１以上の第２の装置
は、前記音声データが入力される装置から前記音声データを
受信する音声受信手段と、前記音声データを認識する第２の音声認識手段と、前記第２の音声認識手段の認識結果を前記音声データの
送信元である装置に送信する第２の送信手段とを備える
装置。
【請求項６】前記第１の送信手段が前記音声データを
他の装置に送信する所定の場合が、前記第１の音声認識手段による認識結果における信頼度
が、所定の閾値以下の場合である請求項５に記載の装置。
【請求項７】語彙を格納する格納手段と、前記格納手段に格納された語彙を更新する更新手段とを
備え、前記更新手段は、他の少なくとも１以上の装置から語彙
に関する情報を受信し、前記格納手段に格納された語彙
を更新する請求項５又は６に記載の装置。
【請求項８】特定のイベントの発生を条件として、他
の少なくとも１以上の装置との接続を開始する請求項５
から７のいずれか１項に記載の装置。
【請求項９】複数の装置から構成された音声認識シス
テムにおける装置であって、音声データが入力される音声入力手段と、前記音声データを認識する第１の音声認識手段と、前記音声データを所定の場合に他の装置に送信する第１
の送信手段と、前記音声データの送信先の装置から前記音声の認識結果
を受信する受信手段と、前記第１の音声認識手段における認識結果及び前記受信
手段において受信した認識結果との少なくとも一方に基
づいて音声の認識結果を出力する結果統合手段とを備え
た第１の装置から、前記音声データを受信する音声受信手段と、前記音声データを認識する第２の音声認識手段と、前記第２の音声認識手段の認識結果を前記音声データの
送信元である装置に送信する第２の送信手段とを備える
装置。
【請求項１０】前記第１の送信手段が前記音声データ
を他の装置に送信する所定の場合が、前記第１の音声認識手段による認識結果における信頼度
が、所定の閾値以下の場合である請求項９に記載の装置。
【請求項１１】複数の装置から構成された音声認識シ
ステムにおける装置に、音声データが入力される入力工程と、前記音声データが入力された装置が、前記音声データを認識する第１の音声認識工程と、前記音声データを所定の場合に他の装置に送信する第１
の送信工程と、前記音声データの送信先の装置から前記音声の認識結果
を受信する受信工程と、前記第１の音声認識工程における認識結果及び前記受信
工程において受信した認識結果との少なくとも一方に基
づいて音声の認識結果を出力する結果統合工程とを備
え、前記複数の装置のうちの装置が、前記音声データが入力された装置から前記音声データを
受信する音声受信工程と、前記音声データを認識する第２の音声認識工程と、前記第２の音声認識工程の認識結果を前記音声データの
送信元である装置に送信する第２の送信工程とを備える
音声認識方法。
【請求項１２】前記第１の送信工程における前記音声
データを他の装置に送信する所定の場合が、前記第１の音声認識工程による認識結果における信頼度
が、所定の閾値以下の場合である請求項１１に記載の音声認
識方法。
【請求項１３】前記複数の装置のうちの装置が、語彙を格納する格納工程と、前記格納された語彙を更新する更新工程とを備え、前記更新工程は、他の少なくとも１以上の装置から語彙
に関する情報を受信して格納された語彙を更新する請求
項１１又は１２に記載の音声認識方法。
【請求項１４】前記複数の装置のうち少なくとも１以
上の装置が、特定のイベントの発生を条件として、他の
少なくとも１以上の装置との接続を開始する請求項１１
から１３のいずれか１項に記載の音声認識方法。
【請求項１５】複数の装置から構成された音声認識シ
ステムにおける装置を、音声データが入力される音声入力手段、前記音声データを認識する第１の音声認識手段、前記音声データを所定の場合に他の装置に送信する第１
の送信手段、前記音声データの送信先の装置から前記音声の認識結果
を受信する受信手段、及び、前記第１の音声認識手段における認識結果及び前記受信
手段において受信した認識結果との少なくとも一方に基
づいて音声の認識結果を出力する結果統合手段として機
能させる音声認識プログラムであり、該音声データが入力される装置以外の前記複数の装置の
うちの少なくとも１以上の第２の装置は、前記音声データが入力される装置から前記音声データを
受信する音声受信手段と、前記音声データを認識する第２の音声認識手段と、前記第２の音声認識手段の認識結果を前記音声データの
送信元である装置に送信する第２の送信手段とを備える
音声認識プログラム。
【請求項１６】前記第１の送信手段が前記音声データ
を他の装置に送信する所定の場合が、前記第１の音声認識手段による認識結果における信頼度
が、所定の閾値以下の場合である請求項１５に記載の音声認
識プログラム。
【請求項１７】語彙を格納する格納手段に格納された
語彙を更新する更新手段として機能させるステップを備
え、前記更新手段は、他の少なくとも１以上の装置から語彙
に関する情報を受信し、前記格納手段に格納された語彙
を更新する請求項１５又は１６に記載の音声認識プログ
ラム。
【請求項１８】装置間の接続が特定のイベントの発生
を条件として開始される請求項１５から１７のいずれか
１項に記載の音声認識プログラム。
【請求項１９】複数の装置から構成された音声認識シ
ステムにおける装置であって、音声データが入力される音声入力手段と、前記音声データを認識する第１の音声認識手段と、前記音声データを所定の場合に他の装置に送信する第１
の送信手段と、前記音声データの送信先の装置から前記音声の認識結果
を受信する受信手段と、前記第１の音声認識手段における認識結果及び前記受信
手段において受信した認識結果との少なくとも一方に基
づいて音声の認識結果を出力する結果統合手段とを備え
た第１の装置から前記音声データを受信する、前記音声
認識システムにおける装置を、前記音声データを受信する音声受信手段、前記音声データを認識する第２の音声認識手段、及び、前記第２の音声認識手段の認識結果を前記音声データの
送信元である装置に送信する第２の送信手段として機能
させる音声認識プログラム。
【請求項２０】前記第１の送信手段が前記音声データ
を他の装置に送信する所定の場合が、前記第１の音声認識手段による認識結果における信頼度
が、所定の閾値以下の場合である請求項１９に記載の音声認
識プログラム。
【請求項２１】複数の装置から構成された音声認識シ
ステムにおける装置を、音声データが入力される音声入力手段、前記音声データを認識する第１の音声認識手段、前記音声データを所定の場合に他の装置に送信する第１
の送信手段、前記音声データの送信先の装置から前記音声の認識結果
を受信する受信手段、及び、前記第１の音声認識手段における認識結果及び前記受信
手段において受信した認識結果との少なくとも一方に基
づいて音声の認識結果を出力する結果統合手段として機
能させる音声認識プログラムを記録したコンピュータ読
み取り可能な記録媒体であり、該音声データが入力される装置以外の前記複数の装置の
うちの少なくとも１以上の第２の装置は、前記音声データが入力される装置から前記音声データを
受信する音声受信手段と、前記音声データを認識する第２の音声認識手段と、前記第２の音声認識手段の認識結果を前記音声データの
送信元である装置に送信する第２の送信手段とを備える
音声認識プログラムを記録したコンピュータ読み取り可
能な記録媒体。
【請求項２２】前記第１の送信手段が前記音声データ
を他の装置に送信する所定の場合が、前記第１の音声認識手段による認識結果における信頼度
が、所定の閾値以下の場合である請求項２１に記載の音声認
識プログラムを記録したコンピュータ読み取り可能な記
録媒体。
【請求項２３】語彙を格納する格納手段に格納された
語彙を更新する更新手段として機能させるステップを記
録し、前記更新手段は、他の少なくとも１以上の装置から語彙
に関する情報を受信し、前記格納手段に格納された語彙
を更新する請求項２１又は２２に記載の音声認識プログ
ラムを記録したコンピュータ読み取り可能な記録媒体。
【請求項２４】装置間の接続が特定のイベントの発生
を条件として開始される請求項２１から２３のいずれか
１項に記載の音声認識プログラムを記録したコンピュー
タ読み取り可能な記録媒体。
【請求項２５】複数の装置から構成された音声認識シ
ステムにおける装置であって、音声データが入力される音声入力手段と、前記音声データを認識する第１の音声認識手段と、前記音声データを所定の場合に他の装置に送信する第１
の送信手段と、前記音声データの送信先の装置から前記音声の認識結果
を受信する受信手段と、前記第１の音声認識手段における認識結果及び前記受信
手段において受信した認識結果との少なくとも一方に基
づいて音声の認識結果を出力する結果統合手段とを備え
た第１の装置から前記音声データを受信する、前記音声
認識システムにおける装置を、前記音声データを受信する音声受信手段、前記音声データを認識する第２の音声認識手段、及び、前記第２の音声認識手段の認識結果を前記音声データの
送信元である装置に送信する第２の送信手段として機能
させる音声認識プログラムを記録したコンピュータ読み
取り可能な記録媒体。
【請求項２６】前記第１の送信手段が前記音声データ
を他の装置に送信する所定の場合が、前記第１の音声認識手段による認識結果における信頼度
が、所定の閾値以下の場合である請求項２５に記載の音声認
識プログラムを記録したコンピュータ読み取り可能な記
録媒体。