JPH10105191A

JPH10105191A - 音声認識装置及びマイクロホン周波数特性変換方法

Info

Publication number: JPH10105191A
Application number: JP8259967A
Authority: JP
Inventors: Hiroshi Kanazawa; 博史金澤; Takehiko Isaka; 岳彦井阪; Hitoshi Nagata; 仁史永田; Hiroyuki Tsuboi; 宏之坪井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1996-09-30
Filing date: 1996-09-30
Publication date: 1998-04-24
Also published as: US6032115A

Abstract

(57)【要約】【課題】入力用マイクロホンと辞書作成用マイクロホン
との周波数特性の差をユーザに負担をかけずに正確に補
正できるようにする。【解決手段】基準マイク＃ａと入力用マイク＃ｂの両方
を用いてユーザ発声の音声を音声入力部１１により同時
に入力することで各マイク毎に音声データを収集し、両
音声データを音声分析部１２にて周波数分析し、両分析
結果の差分と格納部１４内の基準マイク＃ａの周波数特
性とから入力用マイク＃ｂの周波数特性を周波数特性演
算部１３にて求め、格納部１５に格納する。認識時に
は、入力用マイク＃ｂからの入力音声に対して、格納部
１７内の辞書作成用マイクロホンの周波数特性と格納部
１５内の入力用マイク＃ｂの周波数特性との差分を用い
て周波数特性補正部１６にて周波数パラメータの補正を
行なうことで、辞書作成用マイクロホンの周波数特性に
変換し、認識処理部１８での認識処理に供する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、マイクロホンの周
波数特性の変換機能を持った音声認識装置及びマイクロ
ホン周波数特性変換方法に関する。

【０００２】

【従来の技術】一般に音声認識では、同じカテゴリに属
する入力音声と認識辞書作成時の音声との類似性を高め
るべく、入力音声に対しては様々なパターン変形の要因
を排除する対策をとり、認識辞書に対してはできるだけ
多くのパターン変形を吸収するような対策がなされる。

【０００３】入力音声に対する対策としては、特に雑音
の重畳によるパターン変形を削除するために、雑音の周
波数パラメータを推定し、雑音重畳音声の周波数パラメ
ータから雑音成分を引き去るノイズ・サブトラクション
法や、マイクロホン特性及び回線特性差を正規化するた
めに回線の周波数特性を２次曲線などで近似し、入力音
声に対して周波数特性の補正をする方法、また、電話音
声認識では、電話回線歪みの正規化のために、補正用の
フィルタにより周波数特性の補正を行ない、スペクトル
を平坦化し、電話回線歪みの影響を除去する方法などが
提案されている。

【０００４】一方、認識辞書に対する対策としては、雑
音の重畳に対して、様々な雑音パターンの重畳した音声
パターンを人工的に生成し、その音声を用いて認識辞書
を作成する方法、異なるＳＮ比毎に複数の認識辞書を作
成しておき、入力音声のＳＮ比を推定して、最も近いＳ
Ｎ比の認識辞書を利用する方法、特に認識辞書としてＨ
ＭＭ（Hidden Markov Model:隠れマルコフモデル）を用
いる場合には、クリーン音声のＨＭＭと雑音ＨＭＭのパ
ラメータから、雑音重畳音声のＨＭＭパラメータを合成
する方法などが提案されている。更に、回線歪みに対し
ても、ＨＭＭのパラメータを合成する方法が適用されて
いる。

【０００５】また、音声認識の際の入力音声に対するマ
イクロホンの周波数特性の補正に関しては、特開平７−
８４５９４号に記載の音声認識装置に以下のような提案
がある。本例では、認識のために用いる音声入力用のマ
イクロホンと認識辞書作成のための音声データの収集に
用いたマイクロホン（辞書作成用マイクロホン）の２つ
のマイクロホンを同時に用いて音声入力を行ない、それ
ぞれの音声データを用いて、入力用マイクロホンの特性
が辞書作成用マイクロホンの特性になるように適応フィ
ルタの係数を推定し、実際の認識時には、上記の方法で
求めたフィルタを用いて、入力音声の補正を行なうとい
うものである。

【０００６】

【発明が解決しようとする課題】従来、入力音声に対す
るマイクロホン特性や回線特性の補正については、事前
にそれらの周波数特性を白色雑音などのテスト信号を用
いて求めておき、実際の認識の際には、予め作成した周
波数特性の補正データを用いて、入力音声の周波数パラ
メータの変換を行ない、認識処理に供するようにする
か、或いは、実際の入力音声から近似手法を用いて周波
数特性を推定し、推定した特性を用いて入力音声に対す
る補正を行なうという方法をとっていた。

【０００７】しかし、事前に補正データを求めておく場
合には、ユーザが認識の際に利用できるマイクロホンは
予め決められていることから、ユーザが使用環境等に応
じて任意に選んだマイクロホンでは、適切な周波数特性
の補正がなされず、音声認識性能の低下の要因となって
いた。

【０００８】また、入力音声から周波数特性を推定する
場合には、正確な特性を求めることは困難であり、近似
的にしか周波数特性の補正ができないため、入力音声に
補正を加えても、認識辞書作成に利用したマイクロホン
特性（周波数特性）とは異なるため、高い認識性能が得
られないという問題があった。

【０００９】更に、上述した特開平７−８４５９４号に
記載の音声認識装置の例では、ユーザが補正を行なう際
に、音声認識辞書作成時のマイクロホンを必ず利用しな
ければならないが、一般的に認識辞書を作成する際のデ
ータ収集用のマイクロホン（辞書作成用マイクロホン）
は、高価であったり、認識語彙セットにより異なるマイ
クロホンであったりして、ユーザが利用できる環境を整
えるためには、ユーザに大きな負担を強いるものとなっ
ていた。

【００１０】本発明は、上記の事情を考慮してなされた
もので、その目的は、ユーザに音声を発声させる、或い
は音を入力することにより、音声入力に利用するマイク
ロホンと、認識辞書作成に利用したマイクロホンとの周
波数特性の差を正確に補正し、高い認識性能を得ること
のできる音声認識装置及びマイクロホン周波数特性変換
方法を提供することにある。

【００１１】本発明の他の目的は、正確な補正データを
求める際に、従来、詳細な録音条件を設定する等大きな
労力となっていた作業を、認識装置を使うユーザ自身が
音入力或いは音声入力を行なうだけで可能とし、作業の
効率化が図れる音声認識装置及びマイクロホン周波数特
性変換方法を提供することにある。

【００１２】本発明の更に他の目的は、認識辞書作成用
のマイクロホンを必要とせず、且つユーザの労力を大幅
に低減できる音声認識装置及びマイクロホン周波数特性
変換方法を提供することにある。

【００１３】

【課題を解決するための手段】上記の課題を解決するた
めに本発明は、周波数特性が既知のマイクロホン（基準
マイクロホン）とユーザが実際に音声認識に利用する周
波数特性が未知のマイクロホン（入力用マイクロホン）
とを用いて、ユーザの発声した音声の音声データを基準
マイクロホンと入力用マイクロホンとで同期がとれるよ
うに入力手段（音声入力手段）にてそれぞれ収集し、各
データを分析手段（音声分析手段）にて周波数分析し、
それぞれの分析結果の差分を周波数特性演算手段にて求
めることにより、マイクロホン特性以外の差を相殺し、
その差分のデータと基準マイクロホンの周波数特性とか
ら、入力用マイクロホンの周波数特性を求めるようにし
たことを特徴とする。

【００１４】ところで、音声認識に用いる認識辞書は実
際の認識処理以前に予め作成されるものであるため、そ
の辞書作成のための音声データの収集に用いたマイクロ
ホン（辞書作成用マイクロホン）については予め周波数
特性を求めておくことが可能である。

【００１５】そこで本発明は、上記のように求めた入力
用マイクロホンの周波数特性を、辞書作成用マイクロホ
ンの周波数特性に補正するための補正データを、当該辞
書作成用マイクロホンの周波数特性と上記入力用マイク
ロホンの周波数特性との周波数成分の差分をとることで
取得し、認識を行なう際には、入力用マイクロホンを介
して入力された認識対象音声の周波数パラメータに対し
て、この補正データを用いて周波数特性補正手段にて周
波数特性の変換を行ない、認識処理に供するようにして
いる。

【００１６】このような構成においては、認識対象音声
の周波数パラメータを辞書作成用マイクロホンの周波数
特性に合わせることができるので、高い認識性能を得る
ことができる。

【００１７】また、従来は正確な補正データを得るため
には、詳細な録音条件等を設定してデータ収集を行な
い、認識装置とは異なるシステムでオフライン的に処理
する必要があり、大きな労力となっていたが、本発明で
は、ユーザが発声した音声を、異なるマイクロホン（基
準マイクロホンと入力用マイクロホン）を用いて基準マ
イクロホンと入力用マイクロホンとで同期がとれるよう
に例えば同時に入力し、それらの周波数分析結果の差分
を求めることで、マイクロホン特性以外の差を相殺する
ことができるため、音声認識装置を使うユーザ自身が音
声入力を行なうだけで簡単に正確な入力用マイクロホン
の周波数特性を取得して正確な補正データを作成するこ
とができ、周波数特性測定の大幅な効率化を実現でき
る。

【００１８】ここで、認識辞書と予め求めた辞書作成用
マイクロホンの周波数特性を対応付けて格納しておくこ
とにより、上記補正データの作成に当該辞書作成用マイ
クロホンの周波数特性がそのまま利用できるため、ユー
ザが補正のたびに辞書作成用マイクロホンを用意する必
要がなく、ユーザの負担を大幅に低減することができ
る。更に、基準マイクロホンについても、辞書作成用マ
イクロホンを用いるといった制約は全くなく、この点で
もユーザの負担を大幅に低減することができる。

【００１９】また、入力用マイクロホンの周波数特性を
求める際に、ユーザが音声入力を行なう代わりに、予め
記憶してある音波形を用いて音出力手段により音を出力
する構成としても構わない。この場合、ユーザは入力用
マイクロホンの周波数特性の測定のために音声入力を行
なう必要がなく、ユーザの負担を一層軽減できる。

【００２０】また、複数種類のマイクロホンの周波数特
性を予め格納しておき、ユーザからの指示に応じてユー
ザが入力用に使用するマイクロホンの周波数特性を選択
可能な構成としても構わない。この場合、ユーザが入力
用マイクロホンの周波数特性の測定のために音声入力を
行なわなくて済むだけでなく、入力用マイクロホンの周
波数特性を取得するための音声認識装置内での一連の処
理が不要となる。

【００２１】更に、異なる周波数特性を有する複数のマ
イクロホンの周波数特性を辞書作成用マイクロホンの周
波数特性に補正するための補正データを予め格納してお
き、ユーザからの指示に応じてユーザが入力用に使用す
るマイクロホンの周波数特性の補正データを選択可能な
構成としても構わない。この場合、音声認識装置内での
補正データの作成処理も不要となる。

【００２２】

【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。［第１の実施形態］図１は本発明の第１の実施形態に係
る音声認識装置の基本構成を示すブロック図である。

【００２３】図１の音声認識装置は、主として、音声入
力部１１、音声分析部１２、周波数特性演算部１３、基
準マイク周波数特性格納部１４、入力用マイク周波数特
性格納部１５、周波数特性補正部１６、辞書作成データ
収集用マイク周波数特性格納部１７、認識処理部１８及
び認識辞書格納部１９から構成される。

【００２４】本実施形態において、図１の音声認識装置
は、図２に示すような可搬型のパーソナルコンピュータ
２０を用いて実現される。このパーソナルコンピュータ
２０の筐体内には内蔵型マイクロホン（以下、内蔵型マ
イクと略称する）２１が予め組み込まれている。また、
パーソナルコンピュータ２０には、外部からマイク（マ
イクロホン）が接続可能なマイク入力端子２２が設けら
れている。また、パーソナルコンピュータ２０には、ス
テレオ録音可能な音声入力装置（図示せず）が内蔵され
ている。

【００２５】図１の音声認識装置は、（１）入力用マイ
クロホンの周波数特性の測定モード、（２）認識モード
の２つのモードで作動される。このモードは、ユーザに
よりキーボード、マウス等の入力手段を操作することで
選択指定できるようになっている。なお、ユーザからの
モード指定を受け付けるユーザインタフェースは図１で
は省略されている。

【００２６】ここで、上記２つのモードのうち、本発明
の特徴を表す（１）入力用マイクロホンの周波数特性の
測定モードでの処理について、図３のフローチャートを
参照して説明する。

【００２７】入力用マイクロホンの周波数特性の測定モ
ードでは、音声入力部１１は、ユーザが発声した音声
を、周波数特性が既知の基準マイクロホン（基準マイ
ク）＃ａと周波数特性が未知の入力用マイクロホン（入
力用マイク）＃ｂ（いずれも図示せず）とから、マイク
＃ａ，＃ｂで同期がとれるように例えば同時に入力する
（ステップＳ１）。音声入力部１１は、このステップＳ
１において、各マイク＃ａ，＃ｂから入力した音声を、
同じサンプリング周波数でＡ／Ｄ（アナログ／ディジタ
ル）変換し、ディジタル時系列信号の音声データに変換
して時系列順に図示せぬ記憶部に一時記憶する。

【００２８】音声入力部１１でのＡ／Ｄ変換には、図２
のパーソナルコンピュータ２０に内蔵のステレオ録音可
能な音声入力装置などを利用することが可能である。ま
た、周波数特性が既知のマイク（基準マイク）＃ａとし
ては、図２のパーソナルコンピュータ２０の筐体内に組
み込まれている内蔵型マイク２１が利用可能である。な
お、図１の音声認識装置を、卓上型のパーソナルコンピ
ュータを用いて実現する場合であれば、例えば当該コン
ピュータに付属品として添付されるマイクロホンを用い
ることも可能である。要するに、基準マイク＃ａは、ユ
ーザが特別に用意しなくても利用可能なマイクロホン
で、予め周波数特性が測定されたマイクロホンであれば
よい。

【００２９】一方、周波数特性が未知のマイク（入力用
マイク）＃ｂとしては、ユーザが認識に用いるために用
意した任意のマイクロホンでよく、例えば図２のパーソ
ナルコンピュータ２０のマイク入力端子２２に接続して
使用すればよい。

【００３０】さて音声入力部１１は、上記のようにして
得られたマイク＃ａ，＃ｂからの音声データに対して、
固定時間（例えば、８ミリ秒：以後この単位をフレーム
と呼ぶ）毎に音声パワーを計算し、パワーの時系列を用
いて、発声された音声の始終端の時刻を検出する（ステ
ップＳ２）。このステップＳ２において、音声入力部１
１は、検出した音声の始終端の時刻をもとに、マイク＃
ａ，＃ｂからの入力音声の始終端区間内の音声データを
抽出し、音声分析部２に渡す。

【００３１】音声分析部２は、音声入力部１１から渡さ
れたマイク＃ａ，＃ｂそれぞれの始終端区間内の音声デ
ータを対象に、例えば高速フーリエ変換（ＦＦＴ）を用
いて周波数分析を行ない、音声データの時系列信号を周
波数パラメータの時系列データに変換する（ステップＳ
３）。

【００３２】さて音声分析部１２は、上記ステップＳ３
において、マイク＃ａ，＃ｂからの入力音声の周波数パ
ラメータの時系列データを、マイク＃ａ，＃ｂ別に全音
声区間で平均し、対数変換を行ない、次のようなマイク
＃ａ，＃ｂの平均スペクトルのベクトル（平均スペクト
ルベクトル）Ａ，Ｂを生成する。但し、マイク＃ａ．＃
ｂから例えば単語音声を複数種類入力した場合には、全
単語音声について平均を求めるような処理を行なう。

【００３３】Ａ＝(a1,a2,a3,…,a256)：マイク（基準マ
イク）＃ａの平均スペクトルベクトルＢ＝(b1,b2,b3,…,b256)：マイク（入力用マイク）＃ｂ
の平均スペクトルベクトルなお、この平均スペクトルベクトルは、５１２ポイント
のＦＦＴを行なった場合の例であり、1,2,3 …は各周波
数帯域の番号を示す。

【００３４】周波数特性演算部１３は、音声分析部１２
により求められたマイク＃ａ，＃ｂ毎の平均スペクトル
ベクトルＡ，Ｂと、予め測定されたマイク（基準マイ
ク）＃ａの周波数特性Ｆa とから、マイク（入力用マイ
ク）＃ｂの周波数特性Ｆb を次のように求める。ここ
で、マイク（基準マイク）＃ａの周波数特性Ｆa （のデ
ータ）は、基準マイク周波数特性格納部１４に予め格納
されている。

【００３５】まず周波数特性演算部１３は、基準マイク
＃ａの平均スペクトルベクトルＡと入力用マイク＃ｂの
平均スペクトルベクトルＢとの差分ベクトルΔＢを ΔＢ＝Ｂ−Ａ＝（b1-a1,b2-a2,b3-a3,…,b256-a256）により求める（ステップ４）。このΔＢを求めることに
より、マイク＃ａ，＃ｂの平均スペクトルベクトルＡ，
Ｂに含まれる話者特徴、発声内容の音韻特徴、回線歪み
などの共通の特徴が相殺される。

【００３６】次に周波数特性演算部１３は、基準マイク
＃ａの周波数特性Ｆa をＦa ＝（fa1,fa2,fa3,…,fa256）とすると、この周波数特性Ｆa と上記ΔＢとから、入力
用マイク＃ｂの周波数特性Ｆb をＦb ＝Ｆa ＋ΔＢ＝（fa1+(b1-a1),fa2+(b2-a2),fa3+(b3-a3),…,fa256+
(b256-a256)）により求める（ステップＳ５）。

【００３７】周波数特性演算部１３は、求めた入力用マ
イク＃ｂの周波数特性Ｆb （のデータ）を入力用マイク
周波数特性格納部１５に格納する（ステップＳ６）。こ
こで、マイク＃ａ，＃ｂの平均スペクトルベクトルＡ，
Ｂに含まれる話者特徴、発声内容の音韻特徴、発声環境
などの共通の特徴をＸとすると、平均スペクトルベクト
ルＡ，Ｂとマイク＃ａ，＃ｂの周波数特性Ｆa ，Ｆb と
の関係はＡ＝Ｆa ＋ＸＢ＝Ｆb ＋Ｘと表される。

【００３８】これから、 ΔＢ＝Ｂ−Ａ＝（Ｆb ＋Ｘ）−（Ｆa ＋Ｘ）＝Ｆb −Ｆa となり、発声内容、話者、発声環境の異なる場合でも共
通の特徴Ｘが相殺されたマイク＃ａ，＃ｂの平均スペク
トルベクトルＡ，Ｂの差だけが差分ベクトルΔＢに表現
されていることがわかる。

【００３９】以上が、入力用マイクロホンの周波数特性
の測定モードでの処理（入力用マイクロホンの周波数特
性の推定処理）である。なお、この測定モードにおいて
ユーザがマイク＃ａ，＃ｂに対して発声する音声（語
彙）の内容を、図１の音声認識装置が有するユーザイン
タフェースによりユーザに対して案内（指示）する構成
とすると、ユーザの負担が軽減する。特に、ユーザに案
内する音声の内容を、各音韻が同頻度で出現する語彙セ
ットとすると、精度の高い周波数特性の測定が可能とな
る。

【００４０】次に、上記（２）の認識モードでの処理に
ついて、図４のフローチャートを参照して説明する。認
識モードでは、ユーザが発声した結果、マイク（入力用
マイク）＃ｂからの音声が音声入力部１１により取り込
まれ、上述したステップＳ１での処理と同様にＡ／Ｄ変
換され、ディジタル時系列信号の音声データに変換され
る（ステップＳ１１）。次に、入力音声の音声データか
ら音声パワーを用いた音声区間（始終端）の検出が行な
われ、その区間内の音声データが抽出される（ステップ
Ｓ１２）。

【００４１】音声分析部１１により抽出された音声区間
内の音声データは、音声分析部１２にて周波数分析さ
れ、周波数パラメータの時系列データに変換される（ス
テップＳ１３）。この周波数パラメータの時系列データ
は、音声分析部１２から周波数特性補正部１６に渡され
る。

【００４２】周波数特性補正部１６は、音声分析部１２
から渡された、入力用マイク＃ｂからの入力音声の周波
数パラメータの時系列データを、音声認識辞書作成のた
めの音声データの収集に利用したマイクロホン（以下、
辞書作成用マイクと称する）の周波数特性に補正する処
理を次のように行なう。

【００４３】まず周波数特性補正部１６は、上述の入力
用マイクの周波数の測定モードで周波数特性格納部１５
に求められた入力用マイク＃ｂの周波数特性Ｆb と、予
め求められている辞書作成用マイクの周波数特性Ｆt と
を用い、その差分をとることにより、認識時に発声され
る音声データに対する補正ベクトルＣを求める（ステッ
プＳ１４）。

【００４４】ここで、辞書作成用マイクの周波数特性Ｆ
t は辞書作成データ収集用マイク周波数特性格納部１７
に予め格納されており、当該周波数特性Ｆt をＦt ＝（ft1,ft2,ft3,…,ft256）とすると、補正ベクトルＣはＣ＝Ｆb −Ｆt ＝（fa1+(b1-a1)-ft1,fa2+(b2-a2)-ft2,fa3+(b3-a3)-ft
3,…,fa256+(b256-a256)-ft256）により求められる。

【００４５】なお、この補正ベクトルＣは、上述した入
力用マイクの周波数の測定モードで入力用マイク＃ｂの
周波数特性Ｆb が求められた段階で算出可能である。し
たがって、この段階で補正ベクトルＣを算出して、例え
ば入力用マイク周波数特性格納部１５（或いは当該周波
数特性格納部１５に相当する補正データ格納部）に格納
しておくならば、認識処理の都度、上記ステップＳ１４
のように補正ベクトルＣを算出する必要がなくなる。

【００４６】さて周波数特性補正部１６は、ステップＳ
１４により補正ベクトルＣを求めると、当該補正ベクト
ルＣを用いて、入力音声の時刻ｉ毎に、その時刻の周波
数パラメータＳi に対して、以下の補正を行なうこと
で、補正後の周波数パラメータＳi ′を得る（ステップ
Ｓ１５）。即ち周波数特性補正部１６は、周波数パラメ
ータＳi をＳi ＝（si1,si2,si3,…,si256）とすると、当該周波数パラメータＳi を補正ベクトルＣ
によりＳi ′＝Ｓi −Ｃ＝（si1-fa1-(b1-a1)+ft1,si2-fa2-(b2-a2)+ft2,si3-fa
3-(b3-a3)+ft3,…,si256-fa256-(b256-a256)+ft256）のように補正して、補正後の周波数パラメータＳi ′を
得る。

【００４７】ここで補正ベクトルＣは、マイク＃ｂで入
力された音声を辞書作成用マイクで入力した場合の周波
数パラメータＳi ′を周波数パラメータＳi から求める
ためのものである。

【００４８】即ち、ある時刻ｉの周波数パラメータＳi
をマイク＃ｂの周波数特性Ｆb と時刻ｉの音声に含まれ
るそれ以外の特徴Ｙとで表すと、Ｓi ＝Ｆb ＋Ｙとなる。

【００４９】また補正ベクトルＣは、前記したようにＣ＝Ｆb −Ｆt ある。

【００５０】以上から、周波数パラメータの推定値Ｓi
′は、Ｓi ′＝Ｓi −Ｃ＝（Ｆb ＋Ｙ）−（Ｆb −Ｆt ）＝Ｆt ＋Ｙとなり、Ｓi ′が辞書作成用マイクの周波数特性Ｆt と
時刻ｉのそれ以外の音声特徴Ｙからなることがわかる。

【００５１】次に周波数特性補正部１６は、時刻ｉ毎の
補正後の周波数パラメータＳi ′を認識処理で用いる音
声特徴ベクトルに変換する（ステップＳ１６）。このス
テップＳ１６の詳細を、音声特徴ベクトルとしてバンド
パスフィルタ出力を用いる場合を例に述べる。

【００５２】まず周波数特性補正部１６は、周波数特性
の補正を行なった周波数パラメータＳi ′に対し、指数
変換を行ない対数スケールから線形スケールに変換す
る。次に周波数特性補正部１６は、周波数パラメータＳ
i ′のベクトルを低次元の音声特徴パラメータベクトル
に次元圧縮する。ここでは、例えばＢａｒｋスケールな
どを用い、音声特徴ベクトルの各チャネルに相当する複
数の周波数パラメータのチャネルの平均を求め、対数変
換することにより、目的とする低次元の音声特徴ベクト
ルを求める。

【００５３】こうして得られた音声特徴ベクトルは、認
識処理部１８において、認識辞書格納部１９に格納され
ている音声認識辞書との照合がなされ（ステップＳ１
７）、認識語彙の中で最も高い尤度をもつ語彙が認識結
果として例えばディスプレイ（図示せず）に出力される
（ステップＳ１８）。認識辞書としては、例えば同じカ
テゴリに属する複数のデータから作成した平均ベクトル
パターンや、統計的手法としてＨＭＭなどを用いること
ができる。また、認識処理部１８での照合の際には、一
般に行なわれるＤＰ（Dynamic Programming ：動的計画
法）などを利用することができる。

【００５４】以上に述べた図１の構成の音声認識装置で
適用した処理、即ち入力用マイクロホンの周波数特性の
測定モードでの（音声入力部１１、音声分析部１２及び
周波数特性演算部１３の）処理と、認識モードでの（音
声入力部１１、音声分析部１２、周波数特性補正部１６
及び認識処理部１８の）処理は、その処理を図２のパー
ソナルコンピュータ２０等により実行させるためのプロ
グラムを記録した記憶媒体、例えばフロッピーディスク
２３をパーソナルコンピュータ２０に装着して、当該フ
ロッピーディスク２３に記録されているプログラムをパ
ーソナルコンピュータ２０で読み取り実行させることに
より実現される。

【００５５】なお、前記第１の実施形態では、ユーザ
は、入力用マイクロホンの周波数特性の測定モードにお
いて、測定に必要な種々の単語音声等を発声する必要が
ある。そこで以下では、上記の測定モードでの単語音声
等の発声を不要にした第２の実施形態につき説明する。［第２の実施形態］図５は本発明の第２の実施形態に係
る音声認識装置の基本構成を示すブロック図であり、図
１と同一部分には同一符号を付してある。

【００５６】図５の音声認識装置が図１の音声認識装置
と異なる点は、入力用マイクロホンの周波数特性の測定
モードにおいて、測定のためにユーザが音声を発声する
代わりに、予め用意された音信号が利用可能な構成とな
っていることである。そのため図５の構成では、図１の
構成とは異なって、音出力のためのユーザからの指示入
力を受け付けるユーザインタフェース５１と、このユー
ザインタフェース５１により音出力のためのユーザ指示
入力が受け付けられた場合に、音出力を行なう音出力部
５２と、この音出力部５２による音出力に必要な音波形
（のデータ）を予め記憶しておくための出力音記憶部５
３とが新たに設けられている。なお、ユーザインタフェ
ース５１は、ユーザからのモード指定等の受け付けも行
なう。

【００５７】図５の音声認識装置において、ユーザが入
力用マイクロホンの周波数特性の測定モードを指定し、
更に音出力を指示すると、ユーザインタフェース５１は
音出力部５２を起動する。すると音出力部５２は、出力
音記憶部５３に予め記憶されている音波形を読み込み、
その音波形に従う音出力を行なう。

【００５８】ここで、出力音記憶部５３に記憶されてい
る音波形は雑音であったり、人が発声した音声でもよ
い。但し、マイクロホンの周波数特性を測定するために
あらゆる周波数成分が含まれていることが望ましいた
め、白色雑音を記憶しておき出力することが望ましい。
また、記憶した波形が音声である場合には、数多くの種
類の音韻が含まれる言葉を数多く記憶しておき出力する
ことが望ましい。

【００５９】音声入力部１１は、周波数特性が既知のマ
イクロホンであるマイク（基準マイク）＃ａと、周波数
特性が未知のマイクロホンであるマイク（入力用マイ
ク）＃ｂの両方を用いて、音出力部５２から出力された
音の取り込みをそれぞれ同時に行なう。このとき、各マ
イク＃ａ，＃ｂから入力される音は、同じサンプリング
周波数でＡ／Ｄ変換され、ディジタル時系列信号の音声
データに変換される。この音声入力部１１での動作は、
入力の対象が、前記第１の実施形態のようなユーザが発
声した音声ではなくて、音出力部５２からの出力音とな
った点を除けば、前記第１の実施形態におけるステップ
Ｓ１と同様であり、上記Ａ／Ｄ変換には、図２のパーソ
ナルコンピュータ２０に内蔵のステレオ録音可能な音声
入力装置などを利用することが可能である。

【００６０】また、基準マイク＃ａとしては、図２のパ
ーソナルコンピュータ２０の筐体内に組み込まれている
内蔵型マイク２１が利用可能である。なお、図１の音声
認識装置を、卓上型のパーソナルコンピュータを用いて
実現する場合であれば、例えば当該コンピュータに付属
品として添付されるマイクロホンを用いることも可能で
ある。要するに、基準マイク＃ａは、ユーザが特別に用
意しなくても利用可能なマイクロホンで、予め周波数特
性が測定されたマイクロホンであればよい。

【００６１】一方、入力用マイク＃ｂとしては、ユーザ
が認識に用いるために用意した任意のマイクロホンでよ
く、例えば図２のパーソナルコンピュータ２０のマイク
入力端子２２に接続して使用すればよい。

【００６２】音声入力部１１における以降の処理、即
ち、マイク＃ａ，＃ｂからの入力音の始終端区間内の音
声データを抽出する処理も、前記第１の実施形態（にお
けるステップＳ２）と同様である。更に、入力用マイク
＃ｂの周波数特性Ｆb を求めるための以降の処理（音声
分析部１２及び周波数特性演算部１３での処理）も、前
記第１の実施形態（におけるステップＳ３〜Ｓ６）と同
様である。この他、認識モードでの（音声入力部１１、
音声分析部１２、周波数特性補正部１６及び認識処理部
１８の）処理も、前記第１の実施形態（におけるステッ
プＳ１１〜Ｓ１８）と同様である。

【００６３】以上に述べた第１及び第２の実施形態で
は、入力用マイクロホンの周波数特性を音声認識装置内
で測定することを前提としており、そのための周波数特
性測定モードにおいて、測定に必要な音または音声をマ
イク＃ａ，＃ｂにより同時に入力し、その入力音声をも
とにマイク（入力用マイク）＃ｂの周波数特性Ｆb を求
める必要があった。そこで以下では、ユーザが使用する
入力用マイクロホンによっては、周波数特性測定モード
を不要とすることができるようにした第３の実施形態に
つき説明する。［第３の実施形態］図６は本発明の第３の実施形態に係
る音声認識装置の基本構成を示すブロック図であり、図
１と同一部分には同一符号を付してある。

【００６４】図６の音声認識装置が図１の音声認識装置
と異なる点は、ユーザによるマイク特性（入力用マイク
ロホンの周波数特性）の選択指定を可能とするためのユ
ーザインタフェース６１と、そのためのマイク特性選択
メニュー画面等の表示に用いられるディスプレイ６２
と、予め求められた種々のマイクロホンの周波数特性が
格納されているマイク周波数特性群格納部６３と、ユー
ザが選択指定した入力用マイクの周波数特性をマイク周
波数特性群格納部６３から選択して（周波数特性演算部
１３によって求められた場合と同様に）入力用マイク周
波数特性格納部１５に格納する入力用マイク周波数特性
選択部６４とが設けられていることである。但し、図１
の構成の音声認識装置においても、機能は異なるものユ
ーザインタフェース６１に相当するユーザインタフェー
スが存在し、またマイク特性選択メニュー画面は表示さ
れないもののディスプレイ６２に相当するディスプレイ
が存在する。

【００６５】ここで、図６の音声認識装置の主としてユ
ーザインタフェース６１が提供するユーザによるマイク
特性の選択指定のためのインタフェース機能について説
明する。

【００６６】まず本実施形態では、ユーザインタフェー
ス６１により、図７に示すようなマイク特性選択メニュ
ー画面がディスプレイ６２に表示される。図７のメニュ
ー画面の例では、予め求められた４つのマイク（マイク
ロホン）と「その他」の計５つの選択肢（メニュー項
目）が表示されている。

【００６７】ユーザは、自身が入力用に利用するマイク
（入力用マイク＃ｂ）の製造会社名、型番などがわかっ
ており、それに合致するものがメニュー画面上にある場
合には、該当するマイク（のメニュー項目）をマウス等
の入力手段で選択する。

【００６８】ユーザインタフェース６１は、ユーザによ
るメニュー画面からのマイク選択のための指示入力を受
け付けると、入力用マイク周波数特性選択部６４を起動
する。すると入力用周波数特性選択部６４は、ユーザが
選択指定したマイクの周波数特性をマイク周波数特性群
格納部６３から選択的に取り出して（入力用マイク＃ｂ
の周波数特性Ｆb として）入力用マイク周波数特性格納
部１５に格納する。

【００６９】このように本実施形態においては、ユーザ
が入力用に利用するマイク（図２のパーソナルコンピュ
ータ２０により音声認識装置が実現される場合であれ
ば、マイク入力端子２２に接続して使用するマイク）の
メニュー項目が図７のマイク特性選択メニュー画面に存
在するならば、そのメニュー項目をユーザが選択指定す
るだけで、マイク周波数特性測定（推定）のための音声
入力をすることなく、図３のフローチャートに示したよ
うな入力用マイクの周波数特性測定モード時処理を行な
うことなく、指定の入力用マイク（＃ｂ）の周波数特性
を入力用マイク周波数特性格納部１５内に得ることがで
きる。

【００７０】この入力用マイク周波数特性格納部１５内
に得られたユーザ指定の入力用マイク（＃ｂ）の周波数
特性は、（前記第１の実施形態における入力用マイクの
周波数特性測定モード時の処理で得られた入力用マイク
＃ｂの周波数特性と同様に）認識モード時の入力用マイ
ク＃ｂからの入力音声に対する補正に利用される。

【００７１】一方、図７のマイク特性選択メニュー画面
で示されている製造会社名や型番（の情報）では入力用
に利用するマイク（入力用マイク＃ｂ）のメニュー項目
を判断できない場合には、ユーザは画面右下の「詳細」
ボタンをクリックすればよい。この場合、ユーザインタ
フェース６１は、例えばマイクの外形や寸法、周波数特
性図などの詳細情報をディスプレイ６２に表示し、ユー
ザが選択するための詳細な情報を提供する。

【００７２】更に、これらの詳細情報でも判断できない
場合には、入力用に利用するマイク（入力用マイク＃
ｂ）のメニュー項目は存在しないものとして、ユーザは
メニュー項目「その他」を選択する。

【００７３】ユーザインタフェース６１は、図７のマイ
ク特性選択メニュー画面上で「その他」が選択された場
合、前記第１の実施形態で述べた入力用マイクの周波数
特性の測定モードを自動設定する。この場合、ユーザイ
ンタフェース６１はまず、図８（ａ）に示すような入力
用マイクの周波数特性の測定を開始する旨のガイダンス
画面をディスプレイ６２に表示する。

【００７４】ここでユーザが「次へ」ボタンをクリック
すると、ユーザインタフェース６１は測定するマイクを
使用する位置にセットするようユーザに促す図８（ｂ）
に示すような画面に切り換える。このとき図６の音声認
識装置が図２の可搬型（ノート型）のパーソナルコンピ
ュータ２０を用いて実現されており、基準マイク＃ａと
して表示モニタ周辺の筐体内に内蔵されているマイクを
用いるよう設定されているとすると、「モニタに対して
正面の姿勢を取ってください」などのメッセージを表示
する。一方、マイクが添付された卓上型のパーソナルコ
ンピュータを用いて音声認識装置が実現されており、添
付されたマイクを基準マイクとするよう設定されている
とすると、「添付されたマイクをセットして下さい」な
どの表示を行なうなどして、基準マイクのセットを促
す。

【００７５】図８（ａ）の画面でユーザが「次へ」ボタ
ンをクリックすると、ユーザインタフェース６１はユー
ザに発声させる語彙を表示してユーザの発声を促す図８
（ｃ）に示すような画面に切り換える。この画面には、
ユーザに発声させる語彙の表示フィールド８１と、発声
単語数の表示フィールド８２が設けられている。

【００７６】ここで、ユーザに発声させる語彙セット
は、できるだけ様々な周波数帯の成分が含まれる語彙セ
ットにすることが望ましい。これは、各周波数帯の特性
を正確に測定するためである。このような語彙セットを
予め複数セット用意しておき、入力用マイクの周波数特
性の測定を複数回行なう場合には、語彙セットを変え
て、前回の測定の際に発声した音声データも利用し、マ
イク特性の補正を行なうよう制御するなどして、できる
だけ多くの音声データを利用し、各周波数帯の成分が均
等になるようにするとよい。また、各周波数帯の成分が
均等になるような語彙セットとしては、例えば音韻の出
現頻度が同頻度になるような単語セット（音韻バランス
単語セット）などを用いるのが現実的である。

【００７７】ユーザは、図８（ｃ）の画面の案内に従っ
て、フィールド８１に表示された語彙を発声する。する
と、図６の音声認識装置内では、前記第１の実施形態に
おける入力用マイクの周波数特性の測定モード時と同様
の処理が行なわれる。但し、全ての語彙の発声が完了す
るまでは、図３のステップＳ３における平均スペクトル
ベクトルＡ，Ｂを求める処理以降は待たされる。この場
合、（ステップＳ３の前半部において）マイク＃ａ，ｂ
からの入力音声の始終端区間内の音声データから音声分
析部１２により変換される周波数パラメータの時系列デ
ータは記憶部に一時記憶される。

【００７８】さて、ユーザインタフェース６１（システ
ム）が提示した全ての語彙についての発声が終了する
と、或いはユーザが必要と考える個数の語彙についての
発声が終了して「次へ」ボタンをクリックすると、ユー
ザインタフェース６１は、図９（ａ）に示すようなマイ
ク特性（入力マイクの周波数特性）の計算を行なう旨の
表示を行なう。

【００７９】同時にユーザインタフェース６１は、音声
分析部１２に対して平均スペクトルベクトルＡ，Ｂの計
算開始を指示する。これを受けて音声分析部１２は、記
憶部に一時記憶されている周波数パラメータの時系列デ
ータ、即ちユーザが発声した全ての語彙についてのマイ
ク＃ａ，ｂからの入力音声の周波数パラメータの時系列
データから、マイク＃ａ，＃ｂの平均スペクトルのベク
トル（平均スペクトルベクトル）Ａ，Ｂを生成する。こ
れ以降、入力用マイク＃ｂの周波数特性を求めて周波数
特性格納部１５に格納するまでの処理（図３のステップ
Ｓ１４〜Ｓ１６に相当する周波数特性演算部１３の処
理）は、前記第１の実施形態と同様である。

【００８０】ユーザインタフェース６１は、以上の処理
の進捗状況を検出し、その進捗状況を図９（ａ）の表示
画面上でスライドバー等によりフィールド９１に表示す
る。ユーザインタフェース６１は、入力用マイク＃ｂの
周波数特性（マイク特性）の測定が終了したならば、求
めたマイク特性を保存するか否かの指示をユーザに促す
図９（ｂ）に示すような画面に切り換える。

【００８１】ここでユーザが保存するを選択した場合に
は、ユーザインタフェース６１は、保存するファイル名
の入力フィールド９２と、ＩＤ（識別名）の入力フィー
ルド９３を持つ画面を表示して、ユーザにファイル名と
ＩＤを入力させる。するとユーザインタフェース６１
は、入力用マイク周波数特性選択部６４を制御して、周
波数特性演算部１３により入力用マイク周波数特性格納
部１５に得られている入力用マイク＃ｂの周波数特性
を、ユーザ指定のファイル名とＩＤに対応付けてマイク
周波数特性群格納部６３に保存させる。このユーザ指定
のＩＤは次回からのマイク特性選択メニュー画面（図７
参照）のメニューに追加表示される。これによりユーザ
は、今回入力用に使用したマイクを再度入力用に使用し
たい場合には、当該マイクに対応するＩＤをマイク特性
選択メニュー画面上で選択するだけで、当該マイクの周
波数特性を選択することができる。

【００８２】最後にユーザインタフェース６１は、図９
（ｃ）の画面に切り換えることで、マイク特性選択に関
する一連の処理が終了したことをユーザに伝える。さ
て、以上のようにして、ユーザが選択指定した入力用マ
イク＃ｂの周波数特性、または入力用マイクの周波数特
性の測定モードで取得された入力用マイク＃ｂの周波数
特性が入力用マイク周波数特性格納部１５に格納される
と、以降の認識モードでユーザが発声した音声、即ち入
力用マイク＃ｂからの入力音声の周波数パラメータは、
当該周波数特性格納部１５に格納された周波数特性を利
用して（周波数特性補正部１６により図４のステップＳ
１５，Ｓ１６と同様の処理で）辞書作成用マイクの周波
数特性に適応するように補正される。

【００８３】認識処理部１８は、周波数特性補正部１６
による周波数特性補正後の入力音声の音声特徴ベクトル
と認識辞書格納部１９内の音声認識辞書との照合を行な
い、認識語彙の中で最も高い尤度をもつ語彙を認識結果
として出力する。

【００８４】認識処理部１８から出力される認識結果
は、図示せぬ経路を介してユーザインタフェース６１に
渡される。ユーザインタフェース６１は、この認識結果
をディスプレイ６２に表示して、ユーザに当該認識結果
の正誤を判定させる。そしてユーザインタフェース６１
は、認識結果が誤っていると判定された場合、現在の入
力用マイク＃ｂの周波数特性をそのまま採用し、単にユ
ーザが再度の発声を行なうか、マイク周波数特性群格納
部６３から別の周波数特性を選択するか、或いは入力用
マイク＃ｂの周波数特性を改めて測定して入力用マイク
周波数特性格納部１５の内容を更新するかを、ディスプ
レイ６２を通してユーザに選択指定させる。

【００８５】以上に述べた第３の実施形態では、複数種
類のマイクロホンの周波数特性を予め周波数特性群格納
部６３に用意しておいて、その中からユーザ指定のマイ
クロホンの周波数特性を選択して入力用マイク周波数特
性格納部１５に格納するものとして説明した。この場
合、前記第１の実施形態の認識モードでの処理（ステッ
プＳ１４）で述べたように、周波数特性格納部１５内の
入力用マイク＃ｂの周波数特性Ｆb と、辞書作成データ
収集用周波数特性格納部１７内の辞書作成用マイクの周
波数特性Ｆt とを用い、その差分をとることにより、認
識用に発声される音声データに対する補正ベクトルＣを
求める必要がある。

【００８６】そこで、この補正ベクトルＣを、複数種類
のマイクロホン別に、そのマイクロホンの周波数特性
と、辞書作成用マイクの周波数特性Ｆt とから予め算出
して、マイク周波数特性群格納部６３（または当該周波
数特性群格納部６３に相当する補正データ群格納部）に
格納しておき、その中からユーザ指定のマイクロホンの
周波数特性に対応する補正ベクトルＣを入力用マイク周
波数特性選択部６４（或いは周波数特性選択部６４に相
当する補正データ選択部）により選択して、入力用マイ
ク周波数特性格納部１５（或いは当該周波数特性格納部
１５に相当する補正データ格納部）に格納する構成とす
るならば、認識モードでの周波数特性補正部１６による
周波数パラメータの補正処理において、当該補正ベクト
ルＣがそのまま利用できるため、周波数特性補正部１６
による補正ベクトルＣの算出処理を不要とすることがで
きる。

【００８７】なお、以上の実施形態で述べた周波数パラ
メータなどの分析条件は、高速フーリエ変換に限るもの
ではなく、例えばＬＰＣ（Linear Predictive Coding）
分析を用いてもよいし、フィルタ分析を用いてもよい。

【００８８】また、図７乃至図９に示した表示画面は、
一例であって、この内容に限定されるものではない。こ
の他、本発明は前記実施形態に限定されるものではな
く、その要旨を逸脱しない範囲で、種々変形して実施す
ることができる。

【００８９】

【発明の効果】以上詳記したように本発明によれば、周
波数特性が既知のマイクロホン（基準マイクロホン）と
ユーザが実際に音声認識に利用する周波数特性が未知の
マイクロホン（入力用マイクロホン）の両方を用いて、
音声認識装置を使うユーザ自身が音声入力を行なうだ
け、或いは音声認識装置に対して音出力を指示するだけ
で、入力用マイクロホンの周波数特性を簡単に且つ正確
に求めることができ、認識性能の高度化および周波数特
性測定の大幅な効率化を実現できる。

【００９０】また本発明によれば、予め求めた辞書作成
マイクロホンの周波数特性を利用可能な構成とすること
で、補正のたびに辞書作成マイクロホンを用意する必要
がなく、ユーザの負担を大幅に低減することができる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態に係る音声認識装置の
基本構成を示すブロック図。

【図２】図１の音声認識装置を実現するパーソナルコン
ピュータの外観を示す図。

【図３】図１の音声認識装置における入力用マイクロホ
ンの周波数特性の測定モードでの処理を説明するための
フローチャート。

【図４】図１の音声認識装置における認識モードでの処
理を説明するためのフローチャート。

【図５】本発明の第２の実施形態に係る音声認識装置の
基本構成を示すブロック図。

【図６】本発明の第３の実施形態に係る音声認識装置の
基本構成を示すブロック図。

【図７】図６の音声認識装置で適用されるマイク特性選
択メニュー画面の一例を示す図。

【図８】図７のマイク特性選択メニュー画面上で「その
他」が選択された結果、入力用マイクの周波数特性の測
定モードが設定された場合の、ユーザに対するガイダン
ス画面の画面遷移例の一部を示す図。

【図９】図７のマイク特性選択メニュー画面上で「その
他」が選択された結果、入力用マイクの周波数特性の測
定モードが設定された場合の、ユーザに対するガイダン
ス画面の画面遷移例の残りを示す図。

【符号の説明】

１１…音声入力部、１２…音声分析部、１３…周波数特性演算部、１４…基準マイク周波数特性格納部、１５…入力用マイク周波数特性格納部、１６…周波数特性補正部、１７…辞書作成データ収集用マイク周波数特性格納部、１８…認識処理部、１９…認識辞書格納部、５１，６１…ユーザインタフェース、５２…音出力部、５３…出力音記憶部、６２…ディスプレイ、６３…マイク周波数特性群格納部、６４…入力用マイク周波数特性選択部。

───────────────────────────────────────────────────── フロントページの続き (72)発明者坪井宏之大阪府大阪市北区大淀中１丁目１番30号株式会社東芝関西支社内

Claims

【特許請求の範囲】

【請求項１】周波数特性が既知の基準マイクロホンと
周波数特性が未知の入力用マイクロホンを用いて、ユー
ザが発声する音声を前記基準マイクロホンと前記入力用
マイクロホンとで同期がとれるように入力する入力手段
と、前記入力手段により前記基準マイクロホン及び前記入力
用マイクロホンから入力された音声を周波数分析する分
析手段と、前記分析手段による前記基準マイクロホン及び前記入力
用マイクロホンからの入力音声の周波数分析結果の周波
数成分の差分のデータを求め、その差分のデータと前記
基準マイクロホンの周波数特性とから、前記入力用マイ
クロホンの周波数特性を求める周波数特性演算手段と、前記入力用マイクロホンから入力された認識対象音声に
対して、予め取得されている辞書作成用マイクロホンの
周波数特性と前記周波数特性演算手段により求められた
入力用マイクロホンの周波数特性との周波数成分の差分
のデータを用いて周波数パラメータの補正を行ない、前
記辞書作成用マイクロホンの周波数特性に変換する周波
数特性補正手段と、前記周波数特性補正手段により変換された周波数パラメ
ータからなる認識用音声データを認識辞書と照合するこ
とにより認識処理し、認識結果を出力する認識処理手段
とを具備することを特徴とする音声認識装置。
【請求項２】予め記憶してある音波形を用いて音を出
力する音出力手段と、周波数特性が既知の基準マイクロホンと周波数特性が未
知の入力用マイクロホンを用いて、前記音出力手段から
出力された音を前記基準マイクロホンと前記入力用マイ
クロホンとで同期がとれるように入力する入力手段と、前記入力手段により前記基準マイクロホン及び前記入力
用マイクロホンから入力された音を周波数分析する分析
手段と、前記分析手段による前記基準マイクロホン及び前記入力
用マイクロホンからの入力音の周波数分析結果の周波数
成分の差分のデータを求め、その差分のデータと前記基
準マイクロホンの周波数特性とから、前記入力用マイク
ロホンの周波数特性を求める周波数特性演算手段と、前記入力用マイクロホンから入力された認識対象音声に
対して、予め取得されている辞書作成用マイクロホンの
周波数特性と前記周波数特性演算手段により求められた
入力用マイクロホンの周波数特性との周波数成分の差分
のデータを用いて周波数パラメータの補正を行ない、前
記辞書作成用マイクロホンの周波数特性に変換する周波
数特性補正手段と、前記周波数特性補正手段により変換された周波数パラメ
ータからなる認識用音声データを認識辞書と照合するこ
とにより認識処理し、認識結果を出力する認識処理手段
とを具備することを特徴とする音声認識装置。
【請求項３】複数種類のマイクロホンの周波数特性を予
め格納しておくための周波数特性群格納手段と、前記周波数特性群格納手段に格納されている複数種類の
マイクロホンの周波数特性の１つをこれに対応する入力
用マイクロホンの周波数特性として選択するためのユー
ザ指示を受け付けるユーザインタフェース手段と、前記ユーザインタフェース手段により受け付けられたユ
ーザ指示の示す前記マイクロホンの周波数特性を前記周
波数特性群格納手段から選択する周波数特性選択手段
と、前記入力用マイクロホンから入力された認識対象音声に
対して、予め取得されている辞書作成用マイクロホンの
周波数特性と前記周波数特性選択手段により選択された
周波数特性との周波数成分の差分のデータを用いて周波
数パラメータの補正を行ない、前記辞書作成用マイクロ
ホンの周波数特性に変換する周波数特性補正手段と、前記周波数特性補正手段により変換された周波数パラメ
ータからなる認識用音声データを認識辞書と照合するこ
とにより認識処理し、認識結果を出力する認識処理手段
とを具備することを特徴とする音声認識装置。
【請求項４】異なる周波数特性を有する複数のマイク
ロホンの周波数特性を辞書作成用マイクロホンの周波数
特性に補正するための補正データを予め格納しておくた
めの補正データ群格納手段と、前記補正データ群格納手段に格納されている複数の補正
データの１つをこれに対応する入力用マイクロホンの周
波数特性の補正データとして選択するためのユーザ指示
を受け付けるユーザインタフェース手段と、前記ユーザインタフェース手段により受け付けられたユ
ーザ指示の示す前記補正データを前記補正データ群格納
手段から選択する補正データ選択手段と、前記入力用マイクロホンから入力された認識対象音声に
対して、前記補正データ選択手段により選択された補正
データを用いて周波数パラメータの補正を行ない、前記
辞書作成用マイクロホンの周波数特性に変換する周波数
特性補正手段と、前記周波数特性補正手段により変換された周波数パラメ
ータからなる認識用音声データを認識辞書と照合するこ
とにより認識処理し、認識結果を出力する認識処理手段
とを具備することを特徴とする音声認識装置。
【請求項５】周波数特性が既知の基準マイクロホンと
周波数特性が未知の入力用マイクロホンを用いて、ユー
ザが発声する音声を前記基準マイクロホンと前記入力用
マイクロホンとで同期がとれるように入力し、前記基準マイクロホン及び前記入力用マイクロホンから
入力した音声を周波数分析し、前記基準マイクロホン及び前記入力用マイクロホンから
の入力音声の周波数分析結果の周波数成分の差分のデー
タを求め、その差分のデータと前記基準マイクロホンの
周波数特性とから、前記入力用マイクロホンの周波数特
性を求めておき、前記入力用マイクロホンから入力された認識対象音声に
対して、予め取得されている辞書作成用マイクロホンの
周波数特性と前記求めておいた入力用マイクロホンの周
波数特性との周波数成分の差分のデータを用いて周波数
パラメータの補正を行ない、前記辞書作成用マイクロホ
ンの周波数特性に変換し、認識処理に供するようにした
ことを特徴とするマイクロホン周波数特性変換方法。
【請求項６】予め記憶してある音波形を用いて音を出
力し、周波数特性が既知の基準マイクロホンと周波数特性が未
知の入力用マイクロホンを用いて、前記出力した音を前
記基準マイクロホンと前記入力用マイクロホンとで同期
がとれるように入力し、前記基準マイクロホン及び前記入力用マイクロホンから
入力した音を周波数分析し、前記基準マイクロホン及び前記入力用マイクロホンから
の入力音の周波数分析結果の周波数成分の差分のデータ
を求め、その差分のデータと前記基準マイクロホンの周
波数特性とから、前記入力用マイクロホンの周波数特性
を求めておき、前記入力用マイクロホンから入力された認識対象音声に
対して、予め取得されている辞書作成用マイクロホンの
周波数特性と前記求めておいた入力用マイクロホンの周
波数特性との周波数成分の差分のデータを用いて周波数
パラメータの補正を行ない、前記辞書作成用マイクロホ
ンの周波数特性に変換し、認識処理に供するようにした
ことを特徴とするマイクロホン周波数特性変換方法。
【請求項７】予め格納しておいた複数種類のマイクロ
ホンの周波数特性の１つをこれに対応する入力用マイク
ロホンの周波数特性として選択するためのユーザ指示を
受け付けて、前記受け付けたユーザ指示の示す前記マイ
クロホンの周波数特性を選択しておき、前記入力用マイクロホンから入力された認識対象音声に
対して、予め取得されている辞書作成用マイクロホンの
周波数特性と前記選択しておいた周波数特性との周波数
成分の差分のデータを用いて周波数パラメータの補正を
行ない、前記辞書作成用マイクロホンの周波数特性に変
換し、認識処理に供するようにしたことを特徴とするマ
イクロホン周波数特性変換方法。
【請求項８】異なる周波数特性を有する複数の入力用
マイクロホンの周波数特性を辞書作成用マイクロホンの
周波数特性に補正するための補正データを予め格納して
おき、前記格納しておいた複数の補正データの１つをこれに対
応する入力用マイクロホンの周波数特性の補正データと
して選択するためのユーザ指示を受け付けて、前記受け
付けたユーザ指示の示す前記補正データを選択してお
き、前記入力用マイクロホンから入力された認識対象音声に
対して、前記選択しておいた補正データを用いて周波数
パラメータの補正を行ない、前記辞書作成用マイクロホ
ンの周波数特性に変換し、認識処理に供するようにした
ことを特徴とするマイクロホン周波数特性変換方法。