JP6273227B2

JP6273227B2 - 音声認識システム、音声認識方法、プログラム

Info

Publication number: JP6273227B2
Application number: JP2015061835A
Authority: JP
Inventors: 智子川瀬; 小林　和則; 和則小林; 仲大室
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-03-25
Filing date: 2015-03-25
Publication date: 2018-01-31
Anticipated expiration: 2035-03-25
Also published as: JP2016180918A

Description

本発明は、クライアント装置と複数の音声認識サーバ装置と管理部を含む音声認識システム、音声認識方法、プログラムに関する。

従来、クライアント装置で検出した音声区間の信号に対して音声認識サーバ装置で音声認識を行ってその結果をクライアント装置に返信する、サーバ・クライアント型音声認識システムが存在する（例えば特許文献１）。音声認識サーバ装置を、何れのクライアント装置からでもアクセス可能なネットワーク上に配置することにより、音声認識システムを利用したサービスを多数のクライアント装置が享受できるようになる。

特開２００５−３３１６１６号公報

このとき、音声認識サーバ装置の認識性能が十分でなければ、クライアント装置は正解の認識結果を得るまで何度も音声認識サーバ装置にアクセスする必要がある。この複数回のアクセスにより音声認識サーバ装置の負荷が増大し、システムの利用効率が低下する。システムの利用効率を向上させるためには、誤認識の回数を削減することが必要である。

そこで本発明では、誤認識の回数を削減でき、システムの利用効率を向上させることができる音声認識システムを提供することを目的とする。

本発明の音声認識システムは、クライアント装置と、複数の音声認識サーバ装置と、管理部を含む。クライアント装置は、受信部と、正解候補抽出部と、送信部と、送信先変更部を含む。

受信部は、クライアント装置に入力された音響信号に対する音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信する。正解候補抽出部は、ユーザの動作に関連して入力された文字列を正解候補として抽出する。送信部は、正解候補と、正解候補に対応する音響信号である再学習信号の組を管理部に送信する。送信先変更部は、音響信号の送信先となる音声認識サーバ装置と収音条件との関係に関する情報である送信先情報に基づいて、音響信号の送信先となる音声認識サーバ装置と収音条件との関係を変更する。

管理部は、音声認識結果受信部と、送信先情報更新部と、送信先情報送信部を含む。

音声認識結果受信部は、全ての音声認識サーバ装置から再学習信号に対する音声認識結果を受信する。送信先情報更新部は、全ての音声認識サーバ装置から受信した各音声認識結果と正解候補との類似度に基づいて、送信先情報を更新する。送信先情報送信部は、更新された送信先情報をクライアント装置に送信する。

本発明の音声認識システムによれば、誤認識の回数を削減でき、システムの利用効率を向上させることができる。

実施例１の音声認識システムの構成を示すブロック図。実施例１の音声認識システムの管理部の構成を示すブロック図。実施例１の音声認識システムの音声認識動作を示すシーケンス図。実施例１の音声認識システムの情報更新動作を示すシーケンス図。実施例２の音声認識システムの構成を示すブロック図。実施例２の音声認識システムの管理部の構成を示すブロック図。実施例２の音声認識システムの情報更新動作を示すシーケンス図。実施例３の音声認識システムの構成を示すブロック図。実施例３の音声認識システムの情報更新動作を示すシーケンス図。実施例４の音声認識システムの構成を示すブロック図。実施例４の音声認識システムの管理部の構成を示すブロック図。実施例４の音声認識システムの情報更新動作を示すシーケンス図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下の説明では、音声認識対象とする発声された信号を音声信号、音声信号と音声信号以外の背景雑音信号などが混在した状態で収音した信号を音響信号と呼ぶこととする。

以下、図１、図２を参照して本実施例の音声認識システムの構成について説明する。図１は、本実施例の音声認識システム１の構成を示すブロック図である。図２は、本実施例の音声認識システム１の管理部３０の構成を示すブロック図である。

図１に示すように、本実施例の音声認識システム１は、クライアント装置１０と、複数の音声認識サーバ装置２１−１、…、２１−ｎ、…、２１−Ｎ（ＮはＮ≧２を充たす整数、ｎは１≦ｎ≦Ｎを充たす整数）と、管理部３０を含む。図１においてクライアント装置１０は１台のみ図示したが、クライアント装置１０は複数台存在してもよい。音声認識サーバ装置２１−１、…、２１−ｎ、…、２１−Ｎをまとめて呼称する際には、音声認識サーバ装置群２０と呼ぶ。クライアント装置１０と音声認識サーバ装置群２０は、ネットワークを介し、無線または有線で通信可能に接続されているものとする。管理部３０は、単独のハードウェア（装置）として構成されてもよい。管理部３０を単独のハードウェア（装置）として構成した場合は、これを管理装置３０と呼んでもよい。管理部３０を単独のハードウェア（装置）として構成した場合、クライアント装置１０と音声認識サーバ装置群２０と管理部３０（管理装置３０）はネットワークを介して、無線または有線で通信可能に接続されているものとする。また、管理部３０は、クライアント装置１０内の構成要件であってもよいし、音声認識サーバ装置群２０内の何れかの音声認識サーバ装置内の構成要件であってもよい。

音声認識サーバ装置２１−１、…、２１−ｎ、…、２１−Ｎは、クライアント装置１０に入力される音響信号の収音条件（詳細は後述）に基づいて音響信号の音声認識処理を担当するか否かが予め設定され、互いに異なる特性の音響モデルを記憶しているものとする。音響モデルの特性として例えば雑音特性などが考えられる。クライアント装置１０は、収音条件抽出部１１と、しきい値記憶部１１１と、選択部１２と、送信先記憶部１２１と、信号処理部１３と、送信部１４と、受信部１５と、呈示部１６と、操作受付部１７１と、正解候補抽出部１７２と、正解候補記憶部１７３と、送信先変更部１８を含む。図２に示すように本実施例の管理部３０は、正解候補受信部３０Ａと、再学習信号送信部３０Ｂと、音声認識結果受信部３０Ｃと、送信先情報更新部３０Ｄと、送信先情報送信部３０Ｅと、正解候補記憶部３０Ｆを含む。

以下、図３を参照して本システムの音声認識動作について説明する。図３は、本実施例の音声認識システム１の音声認識動作を示すシーケンス図である。まず、収音条件抽出部１１は、入力された音響信号の収音条件を抽出する（Ｓ１１）。選択部１２は、抽出された収音条件に基づいて、対応する音声信号の送信先となる音声認識サーバ装置（例えば音声認識サーバ装置２１−１）を選択する（Ｓ１２）。収音条件と送信先となる音声認識サーバ装置との関係は送信先情報として、送信先記憶部１２１に予め記憶されているものとする。

＜収音条件＞
収音条件は、例えば音声信号の大きさと背景雑音信号の大きさの比率であるＳ／Ｎ比に関する特徴量、音響信号のひずみに関する特徴量、背景雑音信号のスペクトル形状に関する特徴量、背景雑音信号の大きさに関する特徴量のうち少なくとも何れかの特徴量についてのしきい値に基づく条件とすることができる。しきい値は、しきい値記憶部１１１に予め記憶されているものとする。

背景雑音信号とは発声音声や目的音が入力される直前の一定時間にマイクで観測された信号である。背景雑音信号の大きさとは、背景雑音信号のパワースペクトルの一定時間の平均値である。背景雑音信号のスペクトル形状とは、背景雑音信号のスペクトルにおける各帯域の成分やその時間変化である。音声信号と背景雑音信号のＳ／Ｎ比とは、発声音声（目的音）入力中の音響信号中の音声信号の大きさと背景雑音信号の大きさの比である。音声信号として、発声音声（目的音）入力中の一定時間の音響信号のパワースペクトルから背景雑音信号のパワースペクトルの一定時間の平均値を差し引いたパワースペクトルを用いることができる。音声信号の大きさとは、発声音声（目的音）入力中の一定時間の音声信号のパワースペクトルの平均値である。

音響信号のひずみとは、音響信号の入力が大きすぎたためにマイクロホン素子、マイクロホンアンプ回路、Ａ／Ｄ変換がクリッピングしているものを指す。入力信号レベルが、あらかじめ決めた閾値以上の振幅を持つ区間を検出し、その時間的な割合を計算する。この割合が高ければひずみが大きく、割合が小さければひずみが小さい。閾値以上の振幅となっていなければ、ひずみなしとすることができる。閾値は、マイク素子、回路、AD変換のクリッピングレベルに合わせて設定する。

＜収音条件抽出部１１（Ｓ１１）、選択部１２（Ｓ１２）＞
以下に、収音条件抽出部１１、選択部１２の動作（Ｓ１１、Ｓ１２）の例について述べる。収音条件抽出部１１は、例えば入力された音響信号から収音条件を表す特徴量を抽出し、特徴量の値に応じて入力された音響信号をグループ（例えば収音条件を表す符号）に分ける。

次に、選択部１２は、表１に記載のように、グループ（収音条件を表す符号）とインデックス（送信先音声認識サーバ装置を表す符号）の関係に基づいて、対応する音響信号の送信先となる音声認識サーバ装置（例えば音声認識サーバ装置２１−１）を選択する（Ｓ１２）。

特徴量xは例えば、音響信号に含まれる音声信号の大きさと背景雑音信号の大きさの比率であるＳ／Ｎ比、音響信号のひずみの有無やひずみの頻度、背景雑音信号のスペクトル形状、背景雑音信号の大きさ、などとすることができる。

特徴量xをＳ／Ｎ比とする場合、例えばしきい値をθ₁=0dB、θ₂=10dB、θ₃=20dB等と設定し、x=5dBならば収音条件抽出部１１はグループ2を収音条件として抽出し、選択部１２はインデックス2を選択する。

特徴量xを音響信号のひずみとする場合、たとえばビットデプス16bitで量子化した信号で、0.5秒間で振幅の絶対値が30000以上となる時間の割合を特徴量xとする。しきい値をθ₁=0.8等と設定し、x=0ならば収音条件抽出部１１はグループ1を収音条件として抽出し、選択部１２はインデックス1を選択し、x=0.9ならば収音条件抽出部１１はグループ2を収音条件として抽出し、選択部１２はインデックス2を選択する。

特徴量xを背景雑音信号のスペクトル形状とする場合、例えば背景雑音信号の大きさを周波数帯域や継続時間によりx₁、x₂、…、x_m等（mはm≧2を充たす整数）と分けて評価する。収音条件抽出部１１は、評価結果の組み合わせからグループを抽出し、選択部１２はそのインデックスを選択する。また、背景雑音信号のスペクトル形状を特徴量として用いる別の方法として、複数種類の背景雑音信号のモデルを記憶しておき、入力された信号の背景雑音信号をモデルのいずれかに分類することもできる。複数種類の背景雑音信号とは、例えばホワイトノイズ、ピンクノイズ、バーストノイズなどである。この方法では、モデル一つ一つに対応するグループを割振っておき、入力された信号の背景雑音信号が分類されたモデルに応じてグループが決定される。

特徴量xを背景雑音信号の大きさとする場合、たとえばθ₁=40dBA、θ₂=55dBA、θ₃=70dBA等と設定し、特徴量x=50dBAならば収音条件抽出部１１はグループ2を収音条件として抽出し、選択部１２はインデックス2を選択する。ここでdBAとは人間の聴覚を考慮した周波数重み付け特性（A特性）のもとで測定した騒音レベルのdB値の単位である。

＜信号処理部１３（Ｓ１３）＞
信号処理部１３は、抽出された収音条件が所定の条件に該当する場合に、対応する音響信号を信号処理する（Ｓ１３）。具体的には信号処理部１３は、Ｓ／Ｎ比や背景雑音信号の大きさが、収音条件抽出部１１で抽出された収音条件に基づいて決定される音声認識サーバ装置において音声認識対象として想定していた特徴量の範囲に適合するように、対応する音響信号を信号処理する。例えばＳ／Ｎ比＝１近傍、すなわち０ｄＢ近傍の収音条件は、音声信号の大きさと背景雑音信号の大きさが同等であり、そのような音響信号をそのまま音声認識に用いれば性能の低下を招きやすい。従って、Ｓ／Ｎ比＝０ｄＢ近傍の収音条件を収音条件抽出部１１で抽出した場合は、当該収音条件の音響信号に対して背景雑音信号を抑圧する信号処理を信号処理部１３で適用する。あるいは例えばＳ／Ｎ比＝１００近傍、すなわち２０ｄＢ近傍の収音条件を収音条件抽出部１１で抽出した場合は、前述の０ｄＢ近傍の収音条件と同様に、Ｓ／Ｎ比の値に応じて適応的に背景雑音信号を抑圧する処理を行うとしても良いし、抑圧する処理を全く行わないとしても良い。その他の収音条件においても、信号処理部１３において、収音条件抽出部１１で抽出した結果に基づき、音響信号への信号処理を適応的に行う。

以下に、信号処理部１３の動作（Ｓ１３）の例について述べる。音声認識では、多くの場合、前処理として信号処理により入力音声を補正する。音声認識において前処理して対処すべき音響特性として、例えば、加法性雑音と乗法性雑音がある。加法性雑音は、音声入力環境に遍在する雑音のように音声信号に対して加法的に観測される信号である。一方、乗法性雑音とはマイクの特性や空間伝達特性などの音響特性に起因する雑音（ひずみ）であり、時間波形では原音声波形に対する畳み込み演算として観測されるもので、スペクトル波形では乗算性のひずみとなるものである。加法性雑音に対処した音声認識処理の例としては、参考特許文献１の段落［０００５］に開示されたスペクトルサブトラクション法に基づく雑音抑圧法、または同文献の段落［０００７］に開示されたウィナー・フィルタ法（以下、ＷＦ法という）に基づく雑音抑圧法などのように、雑音の重畳した音声から雑音を抑圧して音声認識に適用する方法がある。
（参考特許文献１：特許第４４６４７９７号公報）

加法性雑音に加えて乗法性雑音に対処した音声認識処理の例としては、参考特許文献１のように乗法性雑音の影響を除去した音声モデルに雑音モデルを重畳させた雑音重畳音声モデルを生成してから乗法性特徴量に基づいてモデルを更新する方法がある。あるいは参考特許文献２の発明のように、雑音モデルに対しても乗法性雑音特徴量に基づいて正規化した上で正規化雑音重畳音声モデルを生成する方法がある。
（参考特許文献２：特許第５２０００８０号公報）

信号処理部１３が行う信号処理として典型的には雑音抑圧が考えられる。雑音抑圧以外の信号処理としては、例えばAGC(Automatic Gain Control)、CMN(Cepstrum Mean Normalization)、イコライザなどでもよい。

＜AGC＞
Automatic Gain Control(AGC)は、入力音声信号の短時間平均パワーまたは短時間平均振幅をもとに入力信号レベルを検出し、入力信号レベルと最適レベル（目標値）との差分が少なくなるように音声入力段の利得（ゲイン）を調整する処理である。AGCはA/D変換後の音声波形が過少または過大になって音声特徴量が不明瞭になることを防ぐ効果がある。AGCについては、例えば参考特許文献３の段落［０００１］に開示されている。
（参考特許文献３：特許第３５８８５５５号公報）

＜CMN＞
Cepstrum Mean Normalization(CMN)とは、音声認識の特徴量であるケプストラムにおいて、入力音声信号の長時間ケプストラム平均を求め、各フレームの入力音声のケプストラムから長時間ケプストラム平均をさし引く処理である。CMNは、マイクロホンの特性、マイクロホンの位置、部屋の形状に代表される乗算性ひずみの影響を軽減するために用いられる。CMNについては、例えば参考特許文献１の段落［００１０］に開示されている。

なお、クライアント装置１０の信号処理部１３でCMNを実施する場合、クライアント装置１０から音声認識サーバ装置へは、音声認識のための音響信号に由来する信号として、CMN適用後のMFCC(メル周波数ケプストラム)が送信されることとしておけば、音声認識サーバ装置で再度ケプストラム分析する処理を省くことができる。

＜イコライザ＞
イコライザとは、入力音声信号のゲインを周波数帯域ごとに調整する処理である。例えば音声入力用のマイクロホンの音響特性が平坦でないことが予めわかっていれば、イコライザを経由することで、音響特性を改善したうえで収音することができる。イコライザについては、例えば参考特許文献４の段落［００１０］、［００１６］に開示されている。
（参考特許文献４：特許第２８６５２６８号公報）

次に、送信部１４は、抽出された収音条件に対応する音声認識サーバ装置（ステップＳ１２で選択された音声認識サーバ装置）に、音響信号または音響信号に由来する信号を送信する（Ｓ１４Ａ）。このとき、送信部１４は、ステップＳ１３の信号処理がされていない場合と信号処理がされた場合とで送信先を異ならせて、信号処理がされていない音響信号、または信号処理がされた音響信号を送信するものとする。また、ステップＳ１２で選択された音声認識サーバ装置とは関係なくステップＳ１３の信号処理が実施されたか否かだけで、異なる音声認識サーバ装置のうちのいずれかの送信先を決定しても良い。なお、音響信号に由来する信号とは、音響信号の特徴量を表す信号、ステップＳ１３における信号処理を施した音響信号などを指す。また送信部１４は、音響信号または音響信号に由来する信号を送信する際に、クライアント装置１０の個体番号や音響信号入力時刻のタイムスタンプなどを利用した当該音響信号または音響信号に由来する信号を一意に識別するためのＩＤ番号、収音条件（グループ）やそのしきい値、信号処理部１３における信号処理の有無に関する情報を音声認識サーバ装置に送信しても良い。音声認識サーバ装置は収音条件（グループ）やそのしきい値、や信号処理の有無から、どのような収音条件または信号処理条件において当該音声認識サーバ装置が選択されたかを記録することが可能になる。

音声認識サーバ装置２１−１、…、２１−ｎ、…、２１−Ｎは、クライアント装置１０から音響信号または音響信号に由来する信号を受信する（Ｓ２１Ａ）。音響信号または音響信号に由来する信号を受信した音声認識サーバ装置（例えば音声認識サーバ装置２１−１）は、音声認識処理を実行する（Ｓ２１Ｂ）。

＜音声認識処理（Ｓ２１Ｂ）＞
ステップＳ２１Ｂの音声認識処理は、例えば以下のように実行される。音声認識サーバ装置は、一文章や一単語の発話を文字列に変換する。音声認識サーバ装置は、音声特徴量として音声のパワーやその変化量、MFCC(メル周波数ケプストラム、Mel-Frequency Cepstrum Coefficient)やその動的変化量を用いる。音声認識サーバ装置は、統計的な音響モデルや言語モデルを用いて単語列を探索する。

ステップＳ２１Ｂの音声認識処理を実行した音声認識サーバ装置は、音声認識結果をクライアント装置１０に送信する（Ｓ２１Ｃ）。音声認識処理を実行した音声認識サーバ装置は最尤となる音声認識結果を一つのみクライアント装置１０に送信してもよいし、尤度の高い順に複数の音声認識結果を送信してもよい。例えば、音声認識処理を実行した音声認識サーバ装置はステップＳ２１Ｃにおいて、尤度の高さが上位５位となる認識結果５つを全てクライアント装置１０に送信してもよい。例えばクライアント装置１０のユーザが「続きを読んで」と発声したものとする。この場合、選択部１２で収音条件に応じて選択された音声認識サーバ装置は、この発声を含む音響信号を音声認識処理し、尤度の高さ上位５位の音声認識結果として、例えば「１．知識の予定」「２．続きを読んで」「３．知識の要点」「４．スズキを読んで」「５．続きの要点」をクライアント装置１０に送信する。

クライアント装置１０の受信部１５は、音声認識結果を受信する（Ｓ１５Ａ）。クライアント装置１０の呈示部１６は、受信した音声認識結果を呈示する（Ｓ１６）。前述のようにステップＳ２１Ｃにおいて複数の音声認識結果が送信される場合、呈示部１６はこれらの音声認識結果を全て呈示してもよい。このとき呈示部１６は、ユーザが選択可能な形式で、上述の音声認識結果を呈示してもよい。

以下、図４を参照して本実施例の音声認識システム１の情報更新動作について説明する。図４は、本実施例の音声認識システム１の情報更新動作を示すシーケンス図である。クライアント装置１０の操作受付部１７１は、ユーザの操作を受け付ける（Ｓ１７１）。操作受付部１７１は、ユーザの様々な操作を受付可能に構成されている。ここでは、本実施例の音声認識システム１の動作続行に関連する操作のみに注目して説明を続ける。例えば操作受付部１７１は、本実施例の音声認識システム１の動作続行に関連する操作として、呈示部１６に呈示された選択可能な複数の音声認識結果のうちの何れかに対するユーザの選択操作を受け付ける（Ｓ１７１）。あるいは、呈示部１６が呈示した（複数の）音声認識結果が（何れも）ユーザの所望する音声認識結果でないために、ユーザが正解の文字列を入力する入力操作を受け付ける（Ｓ１７１）。正解候補抽出部１７２は、ユーザの動作に関連して入力された文字列を正解候補として抽出する（Ｓ１７２）。ここで、ユーザの動作とは上述の選択操作、入力操作などを含む概念である。ユーザの動作に関連して入力された文字列とは、上述の選択操作により選択された音声認識結果（文字列）、上述の入力操作により入力された正解の文字列などを含む概念である。例えば、呈示部１６が上述の例における上位５位の音声認識結果である「１．知識の予定」「２．続きを読んで」「３．知識の要点」「４．スズキを読んで」「５．続きの要点」を選択可能に呈示した場合、ユーザは、「２．続きを読んで」に対する選択操作を行う。この場合、正解候補抽出部１７２はユーザの選択操作によって入力された文字列「続きを読んで」を正解候補として抽出する（Ｓ１７２）。ここで、最上位の音声認識結果がユーザの選択操作によって選択されなかったということは音声認識結果に誤りを生じていることを示しており、音声認識結果の正解率を高めるためには、クライアント装置１０と送信先の音声認識サーバ装置との関係を変更する必要があることを意味している。すなわち、クライアント装置１０と送信先の音声認識サーバ装置との関係を、当初音声認識を行った音声認識サーバ装置とは異なる音響モデルを持つ音声認識サーバ装置を選択させるように変更するか、送信先音声認識サーバ装置の選択に用いたしきい値を当初のしきい値から変更するか、音声認識サーバ装置の送信先を変更せずに、送信先の音声認識サーバ装置で使用する音響モデルや設定情報を変更するか、などの処理によって上記関係を変更する必要がある。このような変更処理を行う目的として正解候補抽出部１７２は、正解候補に対応する音響信号（クライアント装置１０に入力された音響信号、あるいはステップＳ１３で信号処理された音響信号）を再学習信号とし、正解候補と対応付けて正解候補記憶部１７３に記憶する。正解候補抽出部１７２は例えば、上述の例における正解候補である文字列「続きを読んで」に対応する音響信号であるユーザの発声「続きを読んで」を含む音響信号を再学習信号とし、正解候補である文字列「続きを読んで」と対応付けて正解候補記憶部１７３に記憶する。送信部１４は、正解候補と再学習信号の組を管理部３０に送信する（Ｓ１４Ｂ）。なお再学習信号には、ステップＳ１４Ａの場合と同様に、ＩＤ番号、収音条件（グループ）やそのしきい値、信号処理部１３における信号処理の有無に関する情報を音声認識サーバ装置に送信しても良い。これは再学習信号が、どのような収音条件で入力された音響信号または音響信号に由来する信号に対する再学習信号であるかを識別するための情報となる。

管理部３０の正解候補受信部３０Ａは、クライアント装置１０から正解候補と再学習信号の組を受信する（Ｓ３０Ａ）。正解候補と再学習信号の組は、正解候補記憶部３０Ｆに記憶される。管理部３０の再学習信号送信部３０Ｂは、再学習信号を音声認識サーバ装置群２０（全ての音声認識サーバ装置）に送信する（Ｓ３０Ｂ）。

音声認識サーバ装置群２０は、管理部３０から再学習信号を受信する（Ｓ２１Ｄ）。音声認識サーバ装置群２０は、受信した再学習信号を音声認識する（Ｓ２１Ｅ）。音声認識サーバ装置群２０は、音声認識結果を管理部３０に送信する（Ｓ２１Ｆ）。

管理部３０の音声認識結果受信部３０Ｃは、全ての音声認識サーバ装置から再学習信号に対する音声認識結果を受信する（Ｓ３０Ｃ）。管理部３０の送信先情報更新部３０Ｄは、全ての音声認識サーバ装置から受信した各音声認識結果と正解候補との類似度に基づいて、送信先情報を更新する（Ｓ３０Ｄ）。送信先情報とは、音響信号の送信先となる音声認識サーバ装置と収音条件との関係に関する情報である。典型的には、送信先情報更新部３０Ｄは、正解候補との類似度が最も高くなる音声認識結果を送信した音声認識サーバ装置に対して、前述のクライアント装置１０からの音響信号が送信されるように、送信先情報を更新する（Ｓ３０Ｄ）。例えば前述の例において、正解候補「続きを読んで」との類似度が最高となる音声認識結果「続きを読んで」を送信した音声認識サーバ装置に対して、前述のクライアント装置１０からの音響信号が送信されるように送信先情報が更新される。次に、管理部３０の送信先情報送信部３０Ｅは、更新された送信先情報をクライアント装置１０に送信する（Ｓ３０Ｅ）。

クライアント装置１０の受信部１５は、管理部３０から送信先情報を受信する（Ｓ１５Ｂ）。クライアント装置１０の送信先変更部１８は、受信した送信先情報に基づいて、音響信号の送信先となる音声認識サーバ装置と収音条件との関係を変更する（Ｓ１８）。クライアント装置１０の送信先変更部１８は、例えば送信先記憶部１２１に記憶済みの送信先情報を新たに受信した送信先情報に上書きすることによって、上記変更を行うことができる。

このように本実施例の音声認識システム１によれば、当初送信先として選択されていた音声認識サーバ装置の音響モデル等の設定では音声認識結果に誤りを生じていることがユーザの選択（入力）操作によって判明したときに、全ての音声認識サーバ装置が再学習信号を音声認識し、正解候補との類似度が高くなる音声認識結果を送信した音声認識サーバ装置が新たな送信先となるように管理部３０が送信先情報を更新し、クライアント装置１０が更新された送信先情報に基づいて、送信先となる音声認識サーバ装置を変更することにより、システム全体の誤認識の回数が減少する方向に送信先情報が最適化（再学習）されるため、システムの利用効率を向上させることができる。

以下、送信先情報を更新する代わりにしきい値を更新することで実施例１と同様の効果を奏する実施例２の音声認識システムについて説明する。まず図５、図６を参照して本実施例の音声認識システムの構成について説明する。図５は、本実施例の音声認識システム２の構成を示すブロック図である。図６は、本実施例の音声認識システム２の管理部５０の構成を示すブロック図である。図５に示すように、本実施例の音声認識システム２は、クライアント装置４０と、複数の音声認識サーバ装置２１−１、…、２１−ｎ、…、２１−Ｎと、管理部５０を含む。クライアント装置４０は複数台存在してもよい。クライアント装置４０と音声認識サーバ装置群２０は、ネットワークを介し、無線または有線で通信可能に接続されているものとする。管理部５０は、単独のハードウェア（装置）として構成されてもよく、管理部５０を単独のハードウェア（装置）として構成した場合は、これを管理装置５０と呼んでもよい。管理部５０を単独のハードウェア（装置）として構成した場合、クライアント装置４０と音声認識サーバ装置群２０と管理部５０（管理装置５０）はネットワークを介して、無線または有線で通信可能に接続されているものとする。また、管理部５０は、クライアント装置４０内の構成要件であってもよいし、音声認識サーバ装置群２０内の何れかの音声認識サーバ装置内の構成要件であってもよい。

図５に示すように本実施例のクライアント装置４０は、実施例１のクライアント装置１０が備える送信先変更部１８の代わりに、しきい値変更部４８を備える。クライアント装置４０の、しきい値変更部４８以外の構成要件は実施例１のクライアント装置１０の各構成要件と同じであるため、説明を割愛する。

図６に示すように本実施例の管理部５０は、実施例１の管理部３０が備える送信先情報更新部３０Ｄと、送信先情報送信部３０Ｅの代わりに、しきい値更新部５０Ｄと、しきい値送信部５０Ｅを備える。また、本実施例の管理部５０は実施例１の管理部３０が備えないしきい値記憶部５０Ｇと、信号処理部５０Ｈを備える。しきい値更新部５０Ｄ、しきい値送信部５０Ｅ、しきい値記憶部５０Ｇ、信号処理部５０Ｈ以外の構成要件は実施例１の管理部３０の各構成要件と同じであるため、説明を割愛する。

なお、本実施例の音声認識システム２の音声認識動作は実施例１の音声認識動作（Ｓ１１〜Ｓ１４Ａ、Ｓ２１Ａ〜Ｓ２１Ｃ、Ｓ１５Ａ、Ｓ１６）と全く同じであるから説明を省略する。

以下、図７を参照して本実施例の音声認識システム２の情報更新動作について説明する。図７は、本実施例の音声認識システム２の情報更新動作を示すシーケンス図である。

ステップＳ１７１、Ｓ１７２、Ｓ１４Ｂ、Ｓ３０Ａは実施例１と同様に実行される。ステップＳ３０Ａにおいて、正解候補とクライアント装置４０に入力されていた音響信号または音響信号に由来する信号の組は、正解候補記憶部３０Ｆに記憶される。

次に、信号処理部５０Ｈは、前述のステップＳ１３において実行される信号処理であって、収音条件に応じて予め定められている信号処理のパターンの全て（信号処理自体を実施しないパターンを含む）を、ステップＳ１３における信号処理を実行する前の音響信号に適用して、収音条件毎に異なる信号処理を施した信号処理済音響信号を取得する。本実施例では、この信号処理済音響信号を再学習信号とする（Ｓ５０Ｈ）。

なお、ステップＳ５０Ｈの信号処理による負荷の増大が問題となる場合は、ステップＳ５０Ｈを省略してもよい。この場合、再学習信号に施された信号処理と後述するしきい値変更後にステップＳ１３において音響信号に施される信号処理とが異なる場合があることを許容し、ステップＳ１３において信号処理された音響信号をそのまま再学習信号とする。ステップＳ３０Ｂは、実施例１と同様であるが、ステップＳ５０Ｈが実行される場合には、Ｓ５０Ｈにおいて各収音条件に応じて各信号処理を施された各音響信号（各再学習信号）は、対応する収音条件を担当する各音声認識サーバ装置にそれぞれ分配されるものとする。この場合のステップＳ３０Ｂは、全ての収音条件のパターンにおけるステップＳ１３−Ｓ１４を管理部５０において再現する処理ということができる。

以下、ステップＳ２１Ｄ〜Ｓ２１Ｆ、ステップＳ３０Ｃは実施例１と同様に実行される。

次に、しきい値更新部５０Ｄは、全ての音声認識サーバ装置から受信した各音声認識結果と正解候補との類似度に基づいて、しきい値を更新する（Ｓ５０Ｄ）。表１に例示したようにしきい値とは、収音条件を抽出するために予め設定されている値のことである。典型的には、しきい値更新部５０Ｄは、正解候補との類似度が最も高くなる音声認識結果を送信した音声認識サーバ装置に対して、前述のクライアント装置４０からの音響信号が送信されるように、しきい値を更新する（Ｓ５０Ｄ）。例えば前述の例において、正解候補「続きを読んで」との類似度が最高となる音声認識結果「続きを読んで」を送信した音声認識サーバ装置に対して、前述のクライアント装置４０からの音響信号が送信されるようにしきい値が更新される。次に、管理部５０のしきい値送信部５０Ｅは、更新されたしきい値をクライアント装置４０に送信する（Ｓ５０Ｅ）。

クライアント装置４０の受信部１５は、管理部５０からしきい値を受信する（Ｓ１５Ｂ）。クライアント装置４０のしきい値変更部４８は、受信したしきい値に基づいて、予め設定されたしきい値を変更する（Ｓ４８）。クライアント装置４０のしきい値変更部４８は、例えばしきい値記憶部１１１に記憶済みのしきい値を新たに受信したしきい値に上書きすることによって、上記変更を行うことができる。

このように本実施例の音声認識システム２によれば、全ての音声認識サーバ装置が再学習信号を音声認識し、正解候補との類似度が高くなる音声認識結果を送信した音声認識サーバ装置が新たな送信先となるように、管理部５０がしきい値を更新し、クライアント装置４０が更新されたしきい値に基づいて、予め設定されていたしきい値を新たなしきい値に変更することにより、システム全体の誤認識の回数が減少する方向にしきい値が最適化（再学習）されるため、システムの利用効率を向上させることができる。

以下、実施例１における正解候補の抽出動作を改変した実施例３の音声認識システムについて説明する。まず図８を参照して本実施例の音声認識システムの構成について説明する。図８は、本実施例の音声認識システム３の構成を示すブロック図である。図８に示すように、本実施例の音声認識システム３は、クライアント装置６０と、複数の音声認識サーバ装置２１−１、…、２１−ｎ、…、２１−Ｎと、管理部３０を含む。クライアント装置６０は複数台存在してもよい。クライアント装置６０と音声認識サーバ装置群２０は、ネットワークを介し、無線または有線で通信可能に接続されているものとする。管理部３０を単独のハードウェア（装置）として構成した場合、クライアント装置６０と音声認識サーバ装置群２０と管理部３０（管理装置３０）はネットワークを介して、無線または有線で通信可能に接続されているものとする。また、管理部３０は、クライアント装置６０内の構成要件であってもよい。

図８に示すように本実施例のクライアント装置６０は、実施例１のクライアント装置１０が備える正解候補抽出部１７２の代わりに、正解候補抽出部６７２を備える。また、本実施例のクライアント装置６０は、実施例１のクライアント装置１０が備える操作受付部１７１を必ずしも備える必要がない。クライアント装置６０の、正解候補抽出部６７２以外の構成要件は実施例１のクライアント装置１０の各構成要件と同じであるため、説明を割愛する。

なお、本実施例の音声認識システム３の音声認識動作は実施例１の音声認識動作（Ｓ１１〜Ｓ１４Ａ、Ｓ２１Ａ〜Ｓ２１Ｃ、Ｓ１５Ａ、Ｓ１６）と全く同じであるから説明を省略する。

以下、図９を参照して本実施例の音声認識システム３の情報更新動作について説明する。図９は、本実施例の音声認識システム３の情報更新動作を示すシーケンス図である。正解候補抽出部６７２は、ユーザによる同一内容を示す発声の複数回の繰り返しを観測した信号群である繰り返し信号群を監視し、これを取得する（Ｓ６７２）。ユーザによる同一内容を示す発声の複数回の繰り返しを認識するために、正解候補抽出部６７２は例えば以下の処理を実行することができる。例えば、発話１−Ａを含む音響信号と、発話２−Ａを含む音響信号が立て続けにクライアント装置６０に入力された場合を考える。この場合、正解候補抽出部６７２はユーザの反応時間（発話１−Ａを含む音響信号に対する音声認識結果がクライアント装置６０により呈示された時刻である呈示時刻と発話２−Ａを含む音響信号の入力時刻の時間間隔）、発話１−Ａを含む音響信号の認識結果の信頼度、発話１−Ａを含む音響信号と発話２−Ａを含む音響信号との類似度などを算出する。正解候補抽出部６７２はユーザの反応時間が所定の閾値よりも小さく、発話１−Ａを含む音響信号の信頼度が所定の閾値と比較して低く、発話１−Ａを含む音響信号と発話２−Ａを含む音響信号との類似度が所定の閾値よりも高くなる場合などに、発話１−Ａに対する音声認識結果は誤認識であり、発話２−Ａはユーザによる言い直し（同一発話の繰り返し）であると判断する。すなわち正解候補抽出部６７２は、発話１−Ａを含む音響信号と発話２−Ａを含む音響信号を繰り返し信号群として取得する。ここでいう類似度は、例えば次のいずれかとすることができる。
・各発話の音響信号の特徴量のユークリッド距離の逆数値や符号を反転した値（特徴量としてケプストラムやパワー、またはそれらの変化量を用いることができる）。
・音声認識サーバ装置から得た音声認識結果の文字列の編集距離の逆数値や符号を反転した値。ここで文字列とは表記上の文字列に限定するものではなく、文字列の読みを読み仮名や音素表記へ変換した文字列でも良い。

繰り返し信号群に対する音声認識は、ステップＳ１２で選択された音声認識サーバ装置が実行する（Ｓ２１Ａ〜Ｓ２１Ｃ）。正解候補抽出部６７２は、繰り返し信号群のうち最後の信号の音声認識結果を正解候補として抽出する（Ｓ６７２）。正解候補抽出部６７２は、繰り返し信号群のうち最後の信号以外の何れかの信号のうち少なくとも一つの信号を再学習信号とし、正解候補と対応付けて正解候補記憶部１７３に記憶する。最後の信号が再学習信号から除外されるのは、最後の信号により正解候補が導出されたとするならば、最後の信号は再学習に用いる信号として適切でないからである。一方、繰り返し信号群のうち最後の信号以外の信号群はいずれも、ステップＳ１２で選択された音声認識サーバ装置において誤認識を招来した信号と考えられるため、再学習に用いる信号として適切と考えられる。なお本実施例の正解候補抽出部６７２は、広義にはユーザの動作に関連して入力された文字列を正解候補として抽出しており、その意味において実施例１、２の正解候補抽出部１７２と共通の技術的特徴を有する。「ユーザの動作」にはユーザの言い直し（同一発話の繰り返し）動作が含まれる。また本実施例の正解候補抽出部６７２は、ユーザの言い直し（同一発話の繰り返し）動作と関連して、音声認識サーバ装置から送信（入力）された音声認識結果（文字列）のうち最後の音声認識結果（文字列）を正解候補として抽出している。

以下、ステップＳ１４Ｂ、Ｓ３０Ａ〜Ｓ３０Ｂ、Ｓ２１Ｄ〜Ｓ２１Ｆ、Ｓ３０Ｃ〜Ｓ３０Ｅ、Ｓ１５Ｂ〜Ｓ１８は実施例１と同様に実行される。

このように、本実施例の音声認識システム３によれば、正解候補抽出部６７２が繰り返し信号群のうち最後の信号の音声認識結果を正解候補として抽出し、送信部１４が繰り返し信号群のうち最後の信号以外の何れかの信号のうち少なくとも一つの信号を再学習信号として送信するため、ユーザの言い直し（同一発話の繰り返し）動作から高精度に正解候補を抽出することができ、またユーザの言い直し（同一発話の繰り返し）を含む繰り返し信号群を再学習に用いることができるため、実施例１、２における選択操作、入力操作などを省略することができ、ユーザの手間を減らすことができる。

以下、送信先となる音声認識サーバ装置を変更する代わりに、音声認識サーバ装置に記憶された音響モデル、音声認識に関する設定を更新（入れ替え、再学習）する構成とした実施例４の音声認識システムについて説明する。まず図１０、図１１を参照して本実施例の音声認識システムの構成について説明する。図１０は、本実施例の音声認識システム４の構成を示すブロック図である。図１１は、本実施例の音声認識システム４の管理部９０の構成を示すブロック図である。図１０に示すように、本実施例の音声認識システム４は、クライアント装置７０と、複数の音声認識サーバ装置８１−１、…、８１−ｎ、…、８１−Ｎと、管理部９０を含む。音声認識サーバ装置８１−１、…、８１−ｎ、…、８１−Ｎをまとめて呼称する際には、音声認識サーバ装置群８０と呼ぶ。クライアント装置７０は複数台存在してもよい。クライアント装置７０と音声認識サーバ装置群８０は、ネットワークを介し、無線または有線で通信可能に接続されているものとする。管理部９０は、単独のハードウェア（装置）として構成されてもよく、管理部９０を単独のハードウェア（装置）として構成した場合は、これを管理装置９０と呼んでもよい。管理部９０を単独のハードウェア（装置）として構成した場合、クライアント装置７０と音声認識サーバ装置群８０と管理部９０（管理装置９０）はネットワークを介して、無線または有線で通信可能に接続されているものとする。また、管理部９０は、クライアント装置７０内の構成要件であってもよいし、音声認識サーバ装置群８０内の何れかの音声認識サーバ装置内の構成要件であってもよい。

図１０に示すように本実施例のクライアント装置７０は、実施例１のクライアント装置１０が備える送信先変更部１８を備えない。クライアント装置７０のそれ以外の構成要件は実施例１のクライアント装置１０の各構成要件と同じであるため、説明を割愛する。

図１１に示すように本実施例の管理部９０は、実施例１の管理部３０が備える送信先情報更新部３０Ｄと、送信先情報送信部３０Ｅの代わりに、設定情報更新部９０Ｄと、設定情報送信部９０Ｅを備える。設定情報更新部９０Ｄと、設定情報送信部９０Ｅ以外の構成要件は実施例１の管理部３０の各構成要件と同じであるため、説明を割愛する。

なお、本実施例の音声認識システム４の音声認識動作は実施例１の音声認識動作（Ｓ１１〜Ｓ１４Ａ、Ｓ２１Ａ〜Ｓ２１Ｃ、Ｓ１５Ａ、Ｓ１６）と全く同じであるから説明を省略する。

以下、図１２を参照して本実施例の音声認識システム４の情報更新動作について説明する。図１２は、本実施例の音声認識システム４の情報更新動作を示すシーケンス図である。ステップＳ１７１〜Ｓ１４Ｂ、Ｓ３０Ａ〜Ｓ３０Ｂ、Ｓ２１Ｄ〜Ｓ２１Ｆ、Ｓ３０Ｃは実施例１と同様に実行される。

次に、管理部９０の設定情報更新部９０Ｄは、全ての音声認識サーバ装置から受信した各音声認識結果と正解候補との類似度に基づいて、ステップＳ１２で選択された音声認識サーバ装置の設定情報を更新する（Ｓ９０Ｄ）。設定情報とは、音声認識の設定に関する情報であって、音響モデルを指定する情報、音声認識に関する設定を指定する情報を含んでいる。設定情報には音響モデルそのものが含まれていてもよい。典型的には設定情報更新部９０Ｄは、正解候補との類似度が最も高くなる音声認識結果を送信した音声認識サーバ装置と同じ音声認識の設定、同じ音響モデルとなるように、ステップＳ１２で選択された音声認識サーバ装置の設定情報を更新する（Ｓ９０Ｄ）。管理部９０の設定情報送信部９０Ｅは、更新された設定情報をステップＳ１２で選択された音声認識サーバ装置に送信する（Ｓ９０Ｅ）。

ステップＳ１２で選択された音声認識サーバ装置は、設定情報を受信して（Ｓ８０Ｇ）、受信した設定情報に基づいて自装置の音声認識の設定（音響モデル、音声認識に関する設定）を変更する（Ｓ８０Ｈ）。音声認識サーバ装置群８０は、音声認識サーバ装置群８０の稼働量が少ない時間帯（例えば夜間）に、設定を変更してもよい。また音声認識サーバ装置群８０は、それ以外の予め計画された時間帯に設定を変更してもよい。

このように本実施例の音声認識システム４によれば、管理部９０の設定情報更新部９０Ｄが設定情報を更新し、ステップＳ１２で選択された音声認識サーバ装置が更新された設定情報に基づいて自装置の音響モデル、音声認識に関する設定を変更するため、ステップＳ１２で選択された音声認識サーバ装置の誤認識が減少し、システムの利用効率を向上させることができる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

クライアント装置と、複数の音声認識サーバ装置と、管理部を含む音声認識システムであって、
前記クライアント装置は、
音声認識を行うためにユーザにより前記クライアント装置に入力された音響信号を、前記音響信号を収音した条件である収音条件に基づいて選択された音声認識サーバ装置に送信する送信部と、
前記クライアント装置に入力された音響信号に対する音声認識結果であって、音声認識尤度が高いものから順に選択された複数の音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信する受信部と、
受信した複数の前記音声認識結果を呈示する呈示部と、
複数の前記音声認識結果のうちの何れかに対する前記ユーザの選択操作を受け付ける操作受付部と、
前記ユーザが選択した前記音声認識結果、または前記ユーザの動作に関連して入力された文字列を前記ユーザが所望する前記音声認識結果である正解候補として抽出する正解候補抽出部を含み、
前記送信部は、
前記正解候補が、前記音声認識尤度が最上位となる前記音声認識結果と異なる場合に、前記正解候補と、前記正解候補に対応する音響信号である再学習信号の組を前記管理部に送信するものとし、
前記音響信号の送信先となる音声認識サーバ装置と前記収音条件との関係に関する情報である送信先情報を、新たに前記管理部から受信した前記送信先情報に上書きすることによって、前記音響信号の送信先となる音声認識サーバ装置と前記収音条件との関係を変更する送信先変更部を含み、
前記管理部は、
全ての音声認識サーバ装置から前記再学習信号に対する音声認識結果を受信する音声認識結果受信部と、
前記全ての音声認識サーバ装置から受信した各音声認識結果と前記正解候補との類似度に基づいて、前記送信先情報を更新する送信先情報更新部と、
前記更新された送信先情報を前記クライアント装置に送信する送信先情報送信部を含む音声認識システム。
クライアント装置と、複数の音声認識サーバ装置と、管理部を含む音声認識システムであって、
前記クライアント装置は、
音声認識を行うためにユーザにより前記クライアント装置に入力された音響信号を、前記音響信号を収音した条件である収音条件に基づいて選択された音声認識サーバ装置に送信する送信部と、
前記クライアント装置に入力された音響信号に対する音声認識結果であって、音声認識尤度が高いものから順に選択された複数の音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信する受信部と、
受信した複数の前記音声認識結果を呈示する呈示部と、
複数の前記音声認識結果のうちの何れかに対する前記ユーザの選択操作を受け付ける操作受付部と、
前記ユーザが選択した前記音声認識結果、または前記ユーザの動作に関連して入力された文字列を前記ユーザが所望する前記音声認識結果である正解候補として抽出する正解候補抽出部を含み、
前記送信部は、
前記正解候補が、前記音声認識尤度が最上位となる前記音声認識結果と異なる場合に、前記正解候補と、前記正解候補に対応する音響信号である再学習信号の組を前記管理部に送信するものとし、
前記管理部は、
全ての音声認識サーバ装置から前記再学習信号に対する音声認識結果を受信する音声認識結果受信部と、
前記全ての音声認識サーバ装置から受信した各音声認識結果と前記正解候補との類似度に基づいて、前記選択された音声認識サーバ装置の音声認識の設定に関する情報である設定情報を更新する設定情報更新部と、
前記更新された設定情報を前記選択された音声認識サーバ装置に送信する設定情報送信部を含み、
前記音声認識サーバ装置のそれぞれは、
前記設定情報を受信した場合に、前記受信した設定情報に基づいて自装置の音声認識の設定を変更する
音声認識システム。
クライアント装置と、複数の音声認識サーバ装置と、管理部を含む音声認識システムであって、
前記クライアント装置は、
音声認識を行うためにユーザにより前記クライアント装置に入力された音響信号を、前記音響信号を収音した条件である収音条件に基づいて選択された音声認識サーバ装置に送信する送信部と、
前記クライアント装置に入力された音響信号に対する音声認識結果であって、音声認識尤度が高いものから順に選択された複数の音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信する受信部と、
受信した複数の前記音声認識結果を呈示する呈示部と、
複数の前記音声認識結果のうちの何れかに対する前記ユーザの選択操作を受け付ける操作受付部と、
前記ユーザが選択した前記音声認識結果、または前記ユーザの動作に関連して入力された文字列を前記ユーザが所望する前記音声認識結果である正解候補として抽出する正解候補抽出部を含み、
前記送信部は、
前記正解候補が、前記音声認識尤度が最上位となる前記音声認識結果と異なる場合に、前記正解候補と、前記正解候補に対応する音響信号である再学習信号の組を前記管理部に送信するものとし、
前記収音条件を抽出するために予め設定されている値であるしきい値を前記管理部から受信したしきい値に上書きすることによって変更するしきい値変更部を含み、
前記管理部は、
全ての音声認識サーバ装置から前記再学習信号に対する音声認識結果を受信する音声認識結果受信部と、
前記全ての音声認識サーバ装置から受信した各音声認識結果と前記正解候補との類似度に基づいて、前記しきい値を更新するしきい値更新部と、
前記更新されたしきい値を前記クライアント装置に送信するしきい値送信部を含む
音声認識システム。
請求項１から３の何れかに記載の音声認識システムであって、
前記正解候補抽出部は、
前記ユーザによる同一内容を示す発声の複数回の繰り返しを観測した信号群である繰り返し信号群を取得して、前記繰り返し信号群のうち最後の信号の音声認識結果を正解候補として抽出し、
前記送信部は、
前記繰り返し信号群のうち最後の信号以外の何れかの信号のうち少なくとも一つの信号を前記再学習信号として送信する
音声認識システム。
クライアント装置と、複数の音声認識サーバ装置と、管理部が実行する音声認識方法であって、
前記クライアント装置は、
音声認識を行うためにユーザにより前記クライアント装置に入力された音響信号を、前記音響信号を収音した条件である収音条件に基づいて選択された音声認識サーバ装置に送信するステップと、
前記クライアント装置に入力された音響信号に対する音声認識結果であって、音声認識尤度が高いものから順に選択された複数の音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信するステップと、
受信した複数の前記音声認識結果を呈示するステップと、
複数の前記音声認識結果のうちの何れかに対する前記ユーザの選択操作を受け付けるステップと、
前記ユーザが選択した前記音声認識結果、または前記ユーザの動作に関連して入力された文字列を前記ユーザが所望する前記音声認識結果である正解候補として抽出するステップと、
前記正解候補が、前記音声認識尤度が最上位となる前記音声認識結果と異なる場合に、前記正解候補と、前記正解候補に対応する音響信号である再学習信号の組を前記管理部に送信するステップを実行し、
前記管理部は、
全ての音声認識サーバ装置から前記再学習信号に対する音声認識結果を受信するステップと、
前記全ての音声認識サーバ装置から受信した各音声認識結果と前記正解候補との類似度に基づいて、前記音響信号の送信先となる音声認識サーバ装置と前記収音条件との関係に関する情報である送信先情報を更新するステップと、
前記更新された送信先情報を前記クライアント装置に送信するステップを実行し、
前記クライアント装置は、
前記送信先情報を、新たに前記管理部から受信した前記送信先情報に上書きすることによって、前記音響信号の送信先となる音声認識サーバ装置と前記収音条件との関係を変更するステップを実行する
音声認識方法。
クライアント装置と、複数の音声認識サーバ装置と、管理部が実行する音声認識方法であって、
前記クライアント装置は、
音声認識を行うためにユーザにより前記クライアント装置に入力された音響信号を、前記音響信号を収音した条件である収音条件に基づいて選択された音声認識サーバ装置に送信するステップと、
前記クライアント装置に入力された音響信号に対する音声認識結果であって、音声認識尤度が高いものから順に選択された複数の音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信するステップと、
受信した複数の前記音声認識結果を呈示するステップと、
複数の前記音声認識結果のうちの何れかに対する前記ユーザの選択操作を受け付けるステップと、
前記ユーザが選択した前記音声認識結果、または前記ユーザの動作に関連して入力された文字列を前記ユーザが所望する前記音声認識結果である正解候補として抽出するステップと、
前記正解候補が、前記音声認識尤度が最上位となる前記音声認識結果と異なる場合に、前記正解候補と、前記正解候補に対応する音響信号である再学習信号の組を前記管理部
に送信するステップを実行し、
前記管理部は、
全ての音声認識サーバ装置から前記再学習信号に対する音声認識結果を受信するステップと、
前記全ての音声認識サーバ装置から受信した各音声認識結果と前記正解候補との類似度に基づいて、前記選択された音声認識サーバ装置の音声認識の設定に関する情報である設定情報を更新するステップと、
前記更新された設定情報を前記選択された音声認識サーバ装置に送信するステップを実行し、
前記音声認識サーバ装置のそれぞれは、
前記設定情報を受信した場合に、前記受信した設定情報に基づいて自装置の音声認識の設定を変更するステップを実行する
音声認識方法。
クライアント装置と、複数の音声認識サーバ装置と、管理部が実行する音声認識方法であって、
前記クライアント装置は、
音声認識を行うためにユーザにより前記クライアント装置に入力された音響信号を、前記音響信号を収音した条件である収音条件に基づいて選択された音声認識サーバ装置に送信するステップと、
前記クライアント装置に入力された音響信号に対する音声認識結果であって、音声認識尤度が高いものから順に選択された複数の音声認識結果を、その収音条件に基づいて選択された音声認識サーバ装置から受信するステップと、
受信した複数の前記音声認識結果を呈示するステップと、
複数の前記音声認識結果のうちの何れかに対する前記ユーザの選択操作を受け付けるステップと、
前記ユーザが選択した前記音声認識結果、または前記ユーザの動作に関連して入力された文字列を前記ユーザが所望する前記音声認識結果である正解候補として抽出するステップと、
前記正解候補が、前記音声認識尤度が最上位となる前記音声認識結果と異なる場合に、前記正解候補と、前記正解候補に対応する音響信号である再学習信号の組を前記管理部に送信するステップを実行し、
前記管理部は、
全ての音声認識サーバ装置から前記再学習信号に対する音声認識結果を受信するステップと、
前記全ての音声認識サーバ装置から受信した各音声認識結果と前記正解候補との類似度に基づいて、前記収音条件を抽出するために予め設定されている値であるしきい値を更新するステップと、
前記更新されたしきい値を前記クライアント装置に送信するステップを実行し、
前記クライアント装置は、
前記しきい値を前記管理部から受信したしきい値に上書きすることによって変更するステップを実行する
音声認識方法。
コンピュータを、請求項１から４の何れかに記載の音声認識システムに含まれるクライアント装置として機能させるためのプログラム。
コンピュータを、請求項１から４の何れかに記載の音声認識システムに含まれる音声認識サーバ装置として機能させるためのプログラム。
コンピュータを、請求項１から４の何れかに記載の音声認識システムに含まれる管理部として機能させるためのプログラム。