JPH10105191A - 音声認識装置及びマイクロホン周波数特性変換方法 - Google Patents

音声認識装置及びマイクロホン周波数特性変換方法

Info

Publication number
JPH10105191A
JPH10105191A JP8259967A JP25996796A JPH10105191A JP H10105191 A JPH10105191 A JP H10105191A JP 8259967 A JP8259967 A JP 8259967A JP 25996796 A JP25996796 A JP 25996796A JP H10105191 A JPH10105191 A JP H10105191A
Authority
JP
Japan
Prior art keywords
microphone
frequency
input
frequency characteristic
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8259967A
Other languages
English (en)
Inventor
Hiroshi Kanazawa
博史 金澤
Takehiko Isaka
岳彦 井阪
Hitoshi Nagata
仁史 永田
Hiroyuki Tsuboi
宏之 坪井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP8259967A priority Critical patent/JPH10105191A/ja
Priority to US08/935,082 priority patent/US6032115A/en
Publication of JPH10105191A publication Critical patent/JPH10105191A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

(57)【要約】 【課題】入力用マイクロホンと辞書作成用マイクロホン
との周波数特性の差をユーザに負担をかけずに正確に補
正できるようにする。 【解決手段】基準マイク#aと入力用マイク#bの両方
を用いてユーザ発声の音声を音声入力部11により同時
に入力することで各マイク毎に音声データを収集し、両
音声データを音声分析部12にて周波数分析し、両分析
結果の差分と格納部14内の基準マイク#aの周波数特
性とから入力用マイク#bの周波数特性を周波数特性演
算部13にて求め、格納部15に格納する。認識時に
は、入力用マイク#bからの入力音声に対して、格納部
17内の辞書作成用マイクロホンの周波数特性と格納部
15内の入力用マイク#bの周波数特性との差分を用い
て周波数特性補正部16にて周波数パラメータの補正を
行なうことで、辞書作成用マイクロホンの周波数特性に
変換し、認識処理部18での認識処理に供する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、マイクロホンの周
波数特性の変換機能を持った音声認識装置及びマイクロ
ホン周波数特性変換方法に関する。
【0002】
【従来の技術】一般に音声認識では、同じカテゴリに属
する入力音声と認識辞書作成時の音声との類似性を高め
るべく、入力音声に対しては様々なパターン変形の要因
を排除する対策をとり、認識辞書に対してはできるだけ
多くのパターン変形を吸収するような対策がなされる。
【0003】入力音声に対する対策としては、特に雑音
の重畳によるパターン変形を削除するために、雑音の周
波数パラメータを推定し、雑音重畳音声の周波数パラメ
ータから雑音成分を引き去るノイズ・サブトラクション
法や、マイクロホン特性及び回線特性差を正規化するた
めに回線の周波数特性を2次曲線などで近似し、入力音
声に対して周波数特性の補正をする方法、また、電話音
声認識では、電話回線歪みの正規化のために、補正用の
フィルタにより周波数特性の補正を行ない、スペクトル
を平坦化し、電話回線歪みの影響を除去する方法などが
提案されている。
【0004】一方、認識辞書に対する対策としては、雑
音の重畳に対して、様々な雑音パターンの重畳した音声
パターンを人工的に生成し、その音声を用いて認識辞書
を作成する方法、異なるSN比毎に複数の認識辞書を作
成しておき、入力音声のSN比を推定して、最も近いS
N比の認識辞書を利用する方法、特に認識辞書としてH
MM(Hidden Markov Model:隠れマルコフモデル)を用
いる場合には、クリーン音声のHMMと雑音HMMのパ
ラメータから、雑音重畳音声のHMMパラメータを合成
する方法などが提案されている。更に、回線歪みに対し
ても、HMMのパラメータを合成する方法が適用されて
いる。
【0005】また、音声認識の際の入力音声に対するマ
イクロホンの周波数特性の補正に関しては、特開平7−
84594号に記載の音声認識装置に以下のような提案
がある。本例では、認識のために用いる音声入力用のマ
イクロホンと認識辞書作成のための音声データの収集に
用いたマイクロホン(辞書作成用マイクロホン)の2つ
のマイクロホンを同時に用いて音声入力を行ない、それ
ぞれの音声データを用いて、入力用マイクロホンの特性
が辞書作成用マイクロホンの特性になるように適応フィ
ルタの係数を推定し、実際の認識時には、上記の方法で
求めたフィルタを用いて、入力音声の補正を行なうとい
うものである。
【0006】
【発明が解決しようとする課題】従来、入力音声に対す
るマイクロホン特性や回線特性の補正については、事前
にそれらの周波数特性を白色雑音などのテスト信号を用
いて求めておき、実際の認識の際には、予め作成した周
波数特性の補正データを用いて、入力音声の周波数パラ
メータの変換を行ない、認識処理に供するようにする
か、或いは、実際の入力音声から近似手法を用いて周波
数特性を推定し、推定した特性を用いて入力音声に対す
る補正を行なうという方法をとっていた。
【0007】しかし、事前に補正データを求めておく場
合には、ユーザが認識の際に利用できるマイクロホンは
予め決められていることから、ユーザが使用環境等に応
じて任意に選んだマイクロホンでは、適切な周波数特性
の補正がなされず、音声認識性能の低下の要因となって
いた。
【0008】また、入力音声から周波数特性を推定する
場合には、正確な特性を求めることは困難であり、近似
的にしか周波数特性の補正ができないため、入力音声に
補正を加えても、認識辞書作成に利用したマイクロホン
特性(周波数特性)とは異なるため、高い認識性能が得
られないという問題があった。
【0009】更に、上述した特開平7−84594号に
記載の音声認識装置の例では、ユーザが補正を行なう際
に、音声認識辞書作成時のマイクロホンを必ず利用しな
ければならないが、一般的に認識辞書を作成する際のデ
ータ収集用のマイクロホン(辞書作成用マイクロホン)
は、高価であったり、認識語彙セットにより異なるマイ
クロホンであったりして、ユーザが利用できる環境を整
えるためには、ユーザに大きな負担を強いるものとなっ
ていた。
【0010】本発明は、上記の事情を考慮してなされた
もので、その目的は、ユーザに音声を発声させる、或い
は音を入力することにより、音声入力に利用するマイク
ロホンと、認識辞書作成に利用したマイクロホンとの周
波数特性の差を正確に補正し、高い認識性能を得ること
のできる音声認識装置及びマイクロホン周波数特性変換
方法を提供することにある。
【0011】本発明の他の目的は、正確な補正データを
求める際に、従来、詳細な録音条件を設定する等大きな
労力となっていた作業を、認識装置を使うユーザ自身が
音入力或いは音声入力を行なうだけで可能とし、作業の
効率化が図れる音声認識装置及びマイクロホン周波数特
性変換方法を提供することにある。
【0012】本発明の更に他の目的は、認識辞書作成用
のマイクロホンを必要とせず、且つユーザの労力を大幅
に低減できる音声認識装置及びマイクロホン周波数特性
変換方法を提供することにある。
【0013】
【課題を解決するための手段】上記の課題を解決するた
めに本発明は、周波数特性が既知のマイクロホン(基準
マイクロホン)とユーザが実際に音声認識に利用する周
波数特性が未知のマイクロホン(入力用マイクロホン)
とを用いて、ユーザの発声した音声の音声データを基準
マイクロホンと入力用マイクロホンとで同期がとれるよ
うに入力手段(音声入力手段)にてそれぞれ収集し、各
データを分析手段(音声分析手段)にて周波数分析し、
それぞれの分析結果の差分を周波数特性演算手段にて求
めることにより、マイクロホン特性以外の差を相殺し、
その差分のデータと基準マイクロホンの周波数特性とか
ら、入力用マイクロホンの周波数特性を求めるようにし
たことを特徴とする。
【0014】ところで、音声認識に用いる認識辞書は実
際の認識処理以前に予め作成されるものであるため、そ
の辞書作成のための音声データの収集に用いたマイクロ
ホン(辞書作成用マイクロホン)については予め周波数
特性を求めておくことが可能である。
【0015】そこで本発明は、上記のように求めた入力
用マイクロホンの周波数特性を、辞書作成用マイクロホ
ンの周波数特性に補正するための補正データを、当該辞
書作成用マイクロホンの周波数特性と上記入力用マイク
ロホンの周波数特性との周波数成分の差分をとることで
取得し、認識を行なう際には、入力用マイクロホンを介
して入力された認識対象音声の周波数パラメータに対し
て、この補正データを用いて周波数特性補正手段にて周
波数特性の変換を行ない、認識処理に供するようにして
いる。
【0016】このような構成においては、認識対象音声
の周波数パラメータを辞書作成用マイクロホンの周波数
特性に合わせることができるので、高い認識性能を得る
ことができる。
【0017】また、従来は正確な補正データを得るため
には、詳細な録音条件等を設定してデータ収集を行な
い、認識装置とは異なるシステムでオフライン的に処理
する必要があり、大きな労力となっていたが、本発明で
は、ユーザが発声した音声を、異なるマイクロホン(基
準マイクロホンと入力用マイクロホン)を用いて基準マ
イクロホンと入力用マイクロホンとで同期がとれるよう
に例えば同時に入力し、それらの周波数分析結果の差分
を求めることで、マイクロホン特性以外の差を相殺する
ことができるため、音声認識装置を使うユーザ自身が音
声入力を行なうだけで簡単に正確な入力用マイクロホン
の周波数特性を取得して正確な補正データを作成するこ
とができ、周波数特性測定の大幅な効率化を実現でき
る。
【0018】ここで、認識辞書と予め求めた辞書作成用
マイクロホンの周波数特性を対応付けて格納しておくこ
とにより、上記補正データの作成に当該辞書作成用マイ
クロホンの周波数特性がそのまま利用できるため、ユー
ザが補正のたびに辞書作成用マイクロホンを用意する必
要がなく、ユーザの負担を大幅に低減することができ
る。更に、基準マイクロホンについても、辞書作成用マ
イクロホンを用いるといった制約は全くなく、この点で
もユーザの負担を大幅に低減することができる。
【0019】また、入力用マイクロホンの周波数特性を
求める際に、ユーザが音声入力を行なう代わりに、予め
記憶してある音波形を用いて音出力手段により音を出力
する構成としても構わない。この場合、ユーザは入力用
マイクロホンの周波数特性の測定のために音声入力を行
なう必要がなく、ユーザの負担を一層軽減できる。
【0020】また、複数種類のマイクロホンの周波数特
性を予め格納しておき、ユーザからの指示に応じてユー
ザが入力用に使用するマイクロホンの周波数特性を選択
可能な構成としても構わない。この場合、ユーザが入力
用マイクロホンの周波数特性の測定のために音声入力を
行なわなくて済むだけでなく、入力用マイクロホンの周
波数特性を取得するための音声認識装置内での一連の処
理が不要となる。
【0021】更に、異なる周波数特性を有する複数のマ
イクロホンの周波数特性を辞書作成用マイクロホンの周
波数特性に補正するための補正データを予め格納してお
き、ユーザからの指示に応じてユーザが入力用に使用す
るマイクロホンの周波数特性の補正データを選択可能な
構成としても構わない。この場合、音声認識装置内での
補正データの作成処理も不要となる。
【0022】
【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。 [第1の実施形態]図1は本発明の第1の実施形態に係
る音声認識装置の基本構成を示すブロック図である。
【0023】図1の音声認識装置は、主として、音声入
力部11、音声分析部12、周波数特性演算部13、基
準マイク周波数特性格納部14、入力用マイク周波数特
性格納部15、周波数特性補正部16、辞書作成データ
収集用マイク周波数特性格納部17、認識処理部18及
び認識辞書格納部19から構成される。
【0024】本実施形態において、図1の音声認識装置
は、図2に示すような可搬型のパーソナルコンピュータ
20を用いて実現される。このパーソナルコンピュータ
20の筐体内には内蔵型マイクロホン(以下、内蔵型マ
イクと略称する)21が予め組み込まれている。また、
パーソナルコンピュータ20には、外部からマイク(マ
イクロホン)が接続可能なマイク入力端子22が設けら
れている。また、パーソナルコンピュータ20には、ス
テレオ録音可能な音声入力装置(図示せず)が内蔵され
ている。
【0025】図1の音声認識装置は、(1)入力用マイ
クロホンの周波数特性の測定モード、(2)認識モード
の2つのモードで作動される。このモードは、ユーザに
よりキーボード、マウス等の入力手段を操作することで
選択指定できるようになっている。なお、ユーザからの
モード指定を受け付けるユーザインタフェースは図1で
は省略されている。
【0026】ここで、上記2つのモードのうち、本発明
の特徴を表す(1)入力用マイクロホンの周波数特性の
測定モードでの処理について、図3のフローチャートを
参照して説明する。
【0027】入力用マイクロホンの周波数特性の測定モ
ードでは、音声入力部11は、ユーザが発声した音声
を、周波数特性が既知の基準マイクロホン(基準マイ
ク)#aと周波数特性が未知の入力用マイクロホン(入
力用マイク)#b(いずれも図示せず)とから、マイク
#a,#bで同期がとれるように例えば同時に入力する
(ステップS1)。音声入力部11は、このステップS
1において、各マイク#a,#bから入力した音声を、
同じサンプリング周波数でA/D(アナログ/ディジタ
ル)変換し、ディジタル時系列信号の音声データに変換
して時系列順に図示せぬ記憶部に一時記憶する。
【0028】音声入力部11でのA/D変換には、図2
のパーソナルコンピュータ20に内蔵のステレオ録音可
能な音声入力装置などを利用することが可能である。ま
た、周波数特性が既知のマイク(基準マイク)#aとし
ては、図2のパーソナルコンピュータ20の筐体内に組
み込まれている内蔵型マイク21が利用可能である。な
お、図1の音声認識装置を、卓上型のパーソナルコンピ
ュータを用いて実現する場合であれば、例えば当該コン
ピュータに付属品として添付されるマイクロホンを用い
ることも可能である。要するに、基準マイク#aは、ユ
ーザが特別に用意しなくても利用可能なマイクロホン
で、予め周波数特性が測定されたマイクロホンであれば
よい。
【0029】一方、周波数特性が未知のマイク(入力用
マイク)#bとしては、ユーザが認識に用いるために用
意した任意のマイクロホンでよく、例えば図2のパーソ
ナルコンピュータ20のマイク入力端子22に接続して
使用すればよい。
【0030】さて音声入力部11は、上記のようにして
得られたマイク#a,#bからの音声データに対して、
固定時間(例えば、8ミリ秒:以後この単位をフレーム
と呼ぶ)毎に音声パワーを計算し、パワーの時系列を用
いて、発声された音声の始終端の時刻を検出する(ステ
ップS2)。このステップS2において、音声入力部1
1は、検出した音声の始終端の時刻をもとに、マイク#
a,#bからの入力音声の始終端区間内の音声データを
抽出し、音声分析部2に渡す。
【0031】音声分析部2は、音声入力部11から渡さ
れたマイク#a,#bそれぞれの始終端区間内の音声デ
ータを対象に、例えば高速フーリエ変換(FFT)を用
いて周波数分析を行ない、音声データの時系列信号を周
波数パラメータの時系列データに変換する(ステップS
3)。
【0032】さて音声分析部12は、上記ステップS3
において、マイク#a,#bからの入力音声の周波数パ
ラメータの時系列データを、マイク#a,#b別に全音
声区間で平均し、対数変換を行ない、次のようなマイク
#a,#bの平均スペクトルのベクトル(平均スペクト
ルベクトル)A,Bを生成する。但し、マイク#a.#
bから例えば単語音声を複数種類入力した場合には、全
単語音声について平均を求めるような処理を行なう。
【0033】A=(a1,a2,a3,…,a256):マイク(基準マ
イク)#aの平均スペクトルベクトル B=(b1,b2,b3,…,b256):マイク(入力用マイク)#b
の平均スペクトルベクトル なお、この平均スペクトルベクトルは、512ポイント
のFFTを行なった場合の例であり、1,2,3 …は各周波
数帯域の番号を示す。
【0034】周波数特性演算部13は、音声分析部12
により求められたマイク#a,#b毎の平均スペクトル
ベクトルA,Bと、予め測定されたマイク(基準マイ
ク)#aの周波数特性Fa とから、マイク(入力用マイ
ク)#bの周波数特性Fb を次のように求める。ここ
で、マイク(基準マイク)#aの周波数特性Fa (のデ
ータ)は、基準マイク周波数特性格納部14に予め格納
されている。
【0035】まず周波数特性演算部13は、基準マイク
#aの平均スペクトルベクトルAと入力用マイク#bの
平均スペクトルベクトルBとの差分ベクトルΔBを ΔB=B−A =(b1-a1,b2-a2,b3-a3,…,b256-a256) により求める(ステップ4)。このΔBを求めることに
より、マイク#a,#bの平均スペクトルベクトルA,
Bに含まれる話者特徴、発声内容の音韻特徴、回線歪み
などの共通の特徴が相殺される。
【0036】次に周波数特性演算部13は、基準マイク
#aの周波数特性Fa を Fa =(fa1,fa2,fa3,…,fa256) とすると、この周波数特性Fa と上記ΔBとから、入力
用マイク#bの周波数特性Fb を Fb =Fa +ΔB =(fa1+(b1-a1),fa2+(b2-a2),fa3+(b3-a3),…,fa256+
(b256-a256)) により求める(ステップS5)。
【0037】周波数特性演算部13は、求めた入力用マ
イク#bの周波数特性Fb (のデータ)を入力用マイク
周波数特性格納部15に格納する(ステップS6)。こ
こで、マイク#a,#bの平均スペクトルベクトルA,
Bに含まれる話者特徴、発声内容の音韻特徴、発声環境
などの共通の特徴をXとすると、平均スペクトルベクト
ルA,Bとマイク#a,#bの周波数特性Fa ,Fb と
の関係は A=Fa +X B=Fb +X と表される。
【0038】これから、 ΔB=B−A =(Fb +X)−(Fa +X) =Fb −Fa となり、発声内容、話者、発声環境の異なる場合でも共
通の特徴Xが相殺されたマイク#a,#bの平均スペク
トルベクトルA,Bの差だけが差分ベクトルΔBに表現
されていることがわかる。
【0039】以上が、入力用マイクロホンの周波数特性
の測定モードでの処理(入力用マイクロホンの周波数特
性の推定処理)である。なお、この測定モードにおいて
ユーザがマイク#a,#bに対して発声する音声(語
彙)の内容を、図1の音声認識装置が有するユーザイン
タフェースによりユーザに対して案内(指示)する構成
とすると、ユーザの負担が軽減する。特に、ユーザに案
内する音声の内容を、各音韻が同頻度で出現する語彙セ
ットとすると、精度の高い周波数特性の測定が可能とな
る。
【0040】次に、上記(2)の認識モードでの処理に
ついて、図4のフローチャートを参照して説明する。認
識モードでは、ユーザが発声した結果、マイク(入力用
マイク)#bからの音声が音声入力部11により取り込
まれ、上述したステップS1での処理と同様にA/D変
換され、ディジタル時系列信号の音声データに変換され
る(ステップS11)。次に、入力音声の音声データか
ら音声パワーを用いた音声区間(始終端)の検出が行な
われ、その区間内の音声データが抽出される(ステップ
S12)。
【0041】音声分析部11により抽出された音声区間
内の音声データは、音声分析部12にて周波数分析さ
れ、周波数パラメータの時系列データに変換される(ス
テップS13)。この周波数パラメータの時系列データ
は、音声分析部12から周波数特性補正部16に渡され
る。
【0042】周波数特性補正部16は、音声分析部12
から渡された、入力用マイク#bからの入力音声の周波
数パラメータの時系列データを、音声認識辞書作成のた
めの音声データの収集に利用したマイクロホン(以下、
辞書作成用マイクと称する)の周波数特性に補正する処
理を次のように行なう。
【0043】まず周波数特性補正部16は、上述の入力
用マイクの周波数の測定モードで周波数特性格納部15
に求められた入力用マイク#bの周波数特性Fb と、予
め求められている辞書作成用マイクの周波数特性Ft と
を用い、その差分をとることにより、認識時に発声され
る音声データに対する補正ベクトルCを求める(ステッ
プS14)。
【0044】ここで、辞書作成用マイクの周波数特性F
t は辞書作成データ収集用マイク周波数特性格納部17
に予め格納されており、当該周波数特性Ft を Ft =(ft1,ft2,ft3,…,ft256) とすると、補正ベクトルCは C=Fb −Ft =(fa1+(b1-a1)-ft1,fa2+(b2-a2)-ft2,fa3+(b3-a3)-ft
3,…,fa256+(b256-a256)-ft256) により求められる。
【0045】なお、この補正ベクトルCは、上述した入
力用マイクの周波数の測定モードで入力用マイク#bの
周波数特性Fb が求められた段階で算出可能である。し
たがって、この段階で補正ベクトルCを算出して、例え
ば入力用マイク周波数特性格納部15(或いは当該周波
数特性格納部15に相当する補正データ格納部)に格納
しておくならば、認識処理の都度、上記ステップS14
のように補正ベクトルCを算出する必要がなくなる。
【0046】さて周波数特性補正部16は、ステップS
14により補正ベクトルCを求めると、当該補正ベクト
ルCを用いて、入力音声の時刻i毎に、その時刻の周波
数パラメータSi に対して、以下の補正を行なうこと
で、補正後の周波数パラメータSi ′を得る(ステップ
S15)。即ち周波数特性補正部16は、周波数パラメ
ータSi を Si =(si1,si2,si3,…,si256) とすると、当該周波数パラメータSi を補正ベクトルC
により Si ′=Si −C =(si1-fa1-(b1-a1)+ft1,si2-fa2-(b2-a2)+ft2,si3-fa
3-(b3-a3)+ft3,…,si256-fa256-(b256-a256)+ft256) のように補正して、補正後の周波数パラメータSi ′を
得る。
【0047】ここで補正ベクトルCは、マイク#bで入
力された音声を辞書作成用マイクで入力した場合の周波
数パラメータSi ′を周波数パラメータSi から求める
ためのものである。
【0048】即ち、ある時刻iの周波数パラメータSi
をマイク#bの周波数特性Fb と時刻iの音声に含まれ
るそれ以外の特徴Yとで表すと、 Si =Fb +Y となる。
【0049】また補正ベクトルCは、前記したように C=Fb −Ft ある。
【0050】以上から、周波数パラメータの推定値Si
′は、 Si ′=Si −C =(Fb +Y)−(Fb −Ft ) =Ft +Y となり、Si ′が辞書作成用マイクの周波数特性Ft と
時刻iのそれ以外の音声特徴Yからなることがわかる。
【0051】次に周波数特性補正部16は、時刻i毎の
補正後の周波数パラメータSi ′を認識処理で用いる音
声特徴ベクトルに変換する(ステップS16)。このス
テップS16の詳細を、音声特徴ベクトルとしてバンド
パスフィルタ出力を用いる場合を例に述べる。
【0052】まず周波数特性補正部16は、周波数特性
の補正を行なった周波数パラメータSi ′に対し、指数
変換を行ない対数スケールから線形スケールに変換す
る。次に周波数特性補正部16は、周波数パラメータS
i ′のベクトルを低次元の音声特徴パラメータベクトル
に次元圧縮する。ここでは、例えばBarkスケールな
どを用い、音声特徴ベクトルの各チャネルに相当する複
数の周波数パラメータのチャネルの平均を求め、対数変
換することにより、目的とする低次元の音声特徴ベクト
ルを求める。
【0053】こうして得られた音声特徴ベクトルは、認
識処理部18において、認識辞書格納部19に格納され
ている音声認識辞書との照合がなされ(ステップS1
7)、認識語彙の中で最も高い尤度をもつ語彙が認識結
果として例えばディスプレイ(図示せず)に出力される
(ステップS18)。認識辞書としては、例えば同じカ
テゴリに属する複数のデータから作成した平均ベクトル
パターンや、統計的手法としてHMMなどを用いること
ができる。また、認識処理部18での照合の際には、一
般に行なわれるDP(Dynamic Programming :動的計画
法)などを利用することができる。
【0054】以上に述べた図1の構成の音声認識装置で
適用した処理、即ち入力用マイクロホンの周波数特性の
測定モードでの(音声入力部11、音声分析部12及び
周波数特性演算部13の)処理と、認識モードでの(音
声入力部11、音声分析部12、周波数特性補正部16
及び認識処理部18の)処理は、その処理を図2のパー
ソナルコンピュータ20等により実行させるためのプロ
グラムを記録した記憶媒体、例えばフロッピーディスク
23をパーソナルコンピュータ20に装着して、当該フ
ロッピーディスク23に記録されているプログラムをパ
ーソナルコンピュータ20で読み取り実行させることに
より実現される。
【0055】なお、前記第1の実施形態では、ユーザ
は、入力用マイクロホンの周波数特性の測定モードにお
いて、測定に必要な種々の単語音声等を発声する必要が
ある。そこで以下では、上記の測定モードでの単語音声
等の発声を不要にした第2の実施形態につき説明する。 [第2の実施形態]図5は本発明の第2の実施形態に係
る音声認識装置の基本構成を示すブロック図であり、図
1と同一部分には同一符号を付してある。
【0056】図5の音声認識装置が図1の音声認識装置
と異なる点は、入力用マイクロホンの周波数特性の測定
モードにおいて、測定のためにユーザが音声を発声する
代わりに、予め用意された音信号が利用可能な構成とな
っていることである。そのため図5の構成では、図1の
構成とは異なって、音出力のためのユーザからの指示入
力を受け付けるユーザインタフェース51と、このユー
ザインタフェース51により音出力のためのユーザ指示
入力が受け付けられた場合に、音出力を行なう音出力部
52と、この音出力部52による音出力に必要な音波形
(のデータ)を予め記憶しておくための出力音記憶部5
3とが新たに設けられている。なお、ユーザインタフェ
ース51は、ユーザからのモード指定等の受け付けも行
なう。
【0057】図5の音声認識装置において、ユーザが入
力用マイクロホンの周波数特性の測定モードを指定し、
更に音出力を指示すると、ユーザインタフェース51は
音出力部52を起動する。すると音出力部52は、出力
音記憶部53に予め記憶されている音波形を読み込み、
その音波形に従う音出力を行なう。
【0058】ここで、出力音記憶部53に記憶されてい
る音波形は雑音であったり、人が発声した音声でもよ
い。但し、マイクロホンの周波数特性を測定するために
あらゆる周波数成分が含まれていることが望ましいた
め、白色雑音を記憶しておき出力することが望ましい。
また、記憶した波形が音声である場合には、数多くの種
類の音韻が含まれる言葉を数多く記憶しておき出力する
ことが望ましい。
【0059】音声入力部11は、周波数特性が既知のマ
イクロホンであるマイク(基準マイク)#aと、周波数
特性が未知のマイクロホンであるマイク(入力用マイ
ク)#bの両方を用いて、音出力部52から出力された
音の取り込みをそれぞれ同時に行なう。このとき、各マ
イク#a,#bから入力される音は、同じサンプリング
周波数でA/D変換され、ディジタル時系列信号の音声
データに変換される。この音声入力部11での動作は、
入力の対象が、前記第1の実施形態のようなユーザが発
声した音声ではなくて、音出力部52からの出力音とな
った点を除けば、前記第1の実施形態におけるステップ
S1と同様であり、上記A/D変換には、図2のパーソ
ナルコンピュータ20に内蔵のステレオ録音可能な音声
入力装置などを利用することが可能である。
【0060】また、基準マイク#aとしては、図2のパ
ーソナルコンピュータ20の筐体内に組み込まれている
内蔵型マイク21が利用可能である。なお、図1の音声
認識装置を、卓上型のパーソナルコンピュータを用いて
実現する場合であれば、例えば当該コンピュータに付属
品として添付されるマイクロホンを用いることも可能で
ある。要するに、基準マイク#aは、ユーザが特別に用
意しなくても利用可能なマイクロホンで、予め周波数特
性が測定されたマイクロホンであればよい。
【0061】一方、入力用マイク#bとしては、ユーザ
が認識に用いるために用意した任意のマイクロホンでよ
く、例えば図2のパーソナルコンピュータ20のマイク
入力端子22に接続して使用すればよい。
【0062】音声入力部11における以降の処理、即
ち、マイク#a,#bからの入力音の始終端区間内の音
声データを抽出する処理も、前記第1の実施形態(にお
けるステップS2)と同様である。更に、入力用マイク
#bの周波数特性Fb を求めるための以降の処理(音声
分析部12及び周波数特性演算部13での処理)も、前
記第1の実施形態(におけるステップS3〜S6)と同
様である。この他、認識モードでの(音声入力部11、
音声分析部12、周波数特性補正部16及び認識処理部
18の)処理も、前記第1の実施形態(におけるステッ
プS11〜S18)と同様である。
【0063】以上に述べた第1及び第2の実施形態で
は、入力用マイクロホンの周波数特性を音声認識装置内
で測定することを前提としており、そのための周波数特
性測定モードにおいて、測定に必要な音または音声をマ
イク#a,#bにより同時に入力し、その入力音声をも
とにマイク(入力用マイク)#bの周波数特性Fb を求
める必要があった。そこで以下では、ユーザが使用する
入力用マイクロホンによっては、周波数特性測定モード
を不要とすることができるようにした第3の実施形態に
つき説明する。 [第3の実施形態]図6は本発明の第3の実施形態に係
る音声認識装置の基本構成を示すブロック図であり、図
1と同一部分には同一符号を付してある。
【0064】図6の音声認識装置が図1の音声認識装置
と異なる点は、ユーザによるマイク特性(入力用マイク
ロホンの周波数特性)の選択指定を可能とするためのユ
ーザインタフェース61と、そのためのマイク特性選択
メニュー画面等の表示に用いられるディスプレイ62
と、予め求められた種々のマイクロホンの周波数特性が
格納されているマイク周波数特性群格納部63と、ユー
ザが選択指定した入力用マイクの周波数特性をマイク周
波数特性群格納部63から選択して(周波数特性演算部
13によって求められた場合と同様に)入力用マイク周
波数特性格納部15に格納する入力用マイク周波数特性
選択部64とが設けられていることである。但し、図1
の構成の音声認識装置においても、機能は異なるものユ
ーザインタフェース61に相当するユーザインタフェー
スが存在し、またマイク特性選択メニュー画面は表示さ
れないもののディスプレイ62に相当するディスプレイ
が存在する。
【0065】ここで、図6の音声認識装置の主としてユ
ーザインタフェース61が提供するユーザによるマイク
特性の選択指定のためのインタフェース機能について説
明する。
【0066】まず本実施形態では、ユーザインタフェー
ス61により、図7に示すようなマイク特性選択メニュ
ー画面がディスプレイ62に表示される。図7のメニュ
ー画面の例では、予め求められた4つのマイク(マイク
ロホン)と「その他」の計5つの選択肢(メニュー項
目)が表示されている。
【0067】ユーザは、自身が入力用に利用するマイク
(入力用マイク#b)の製造会社名、型番などがわかっ
ており、それに合致するものがメニュー画面上にある場
合には、該当するマイク(のメニュー項目)をマウス等
の入力手段で選択する。
【0068】ユーザインタフェース61は、ユーザによ
るメニュー画面からのマイク選択のための指示入力を受
け付けると、入力用マイク周波数特性選択部64を起動
する。すると入力用周波数特性選択部64は、ユーザが
選択指定したマイクの周波数特性をマイク周波数特性群
格納部63から選択的に取り出して(入力用マイク#b
の周波数特性Fb として)入力用マイク周波数特性格納
部15に格納する。
【0069】このように本実施形態においては、ユーザ
が入力用に利用するマイク(図2のパーソナルコンピュ
ータ20により音声認識装置が実現される場合であれ
ば、マイク入力端子22に接続して使用するマイク)の
メニュー項目が図7のマイク特性選択メニュー画面に存
在するならば、そのメニュー項目をユーザが選択指定す
るだけで、マイク周波数特性測定(推定)のための音声
入力をすることなく、図3のフローチャートに示したよ
うな入力用マイクの周波数特性測定モード時処理を行な
うことなく、指定の入力用マイク(#b)の周波数特性
を入力用マイク周波数特性格納部15内に得ることがで
きる。
【0070】この入力用マイク周波数特性格納部15内
に得られたユーザ指定の入力用マイク(#b)の周波数
特性は、(前記第1の実施形態における入力用マイクの
周波数特性測定モード時の処理で得られた入力用マイク
#bの周波数特性と同様に)認識モード時の入力用マイ
ク#bからの入力音声に対する補正に利用される。
【0071】一方、図7のマイク特性選択メニュー画面
で示されている製造会社名や型番(の情報)では入力用
に利用するマイク(入力用マイク#b)のメニュー項目
を判断できない場合には、ユーザは画面右下の「詳細」
ボタンをクリックすればよい。この場合、ユーザインタ
フェース61は、例えばマイクの外形や寸法、周波数特
性図などの詳細情報をディスプレイ62に表示し、ユー
ザが選択するための詳細な情報を提供する。
【0072】更に、これらの詳細情報でも判断できない
場合には、入力用に利用するマイク(入力用マイク#
b)のメニュー項目は存在しないものとして、ユーザは
メニュー項目「その他」を選択する。
【0073】ユーザインタフェース61は、図7のマイ
ク特性選択メニュー画面上で「その他」が選択された場
合、前記第1の実施形態で述べた入力用マイクの周波数
特性の測定モードを自動設定する。この場合、ユーザイ
ンタフェース61はまず、図8(a)に示すような入力
用マイクの周波数特性の測定を開始する旨のガイダンス
画面をディスプレイ62に表示する。
【0074】ここでユーザが「次へ」ボタンをクリック
すると、ユーザインタフェース61は測定するマイクを
使用する位置にセットするようユーザに促す図8(b)
に示すような画面に切り換える。このとき図6の音声認
識装置が図2の可搬型(ノート型)のパーソナルコンピ
ュータ20を用いて実現されており、基準マイク#aと
して表示モニタ周辺の筐体内に内蔵されているマイクを
用いるよう設定されているとすると、「モニタに対して
正面の姿勢を取ってください」などのメッセージを表示
する。一方、マイクが添付された卓上型のパーソナルコ
ンピュータを用いて音声認識装置が実現されており、添
付されたマイクを基準マイクとするよう設定されている
とすると、「添付されたマイクをセットして下さい」な
どの表示を行なうなどして、基準マイクのセットを促
す。
【0075】図8(a)の画面でユーザが「次へ」ボタ
ンをクリックすると、ユーザインタフェース61はユー
ザに発声させる語彙を表示してユーザの発声を促す図8
(c)に示すような画面に切り換える。この画面には、
ユーザに発声させる語彙の表示フィールド81と、発声
単語数の表示フィールド82が設けられている。
【0076】ここで、ユーザに発声させる語彙セット
は、できるだけ様々な周波数帯の成分が含まれる語彙セ
ットにすることが望ましい。これは、各周波数帯の特性
を正確に測定するためである。このような語彙セットを
予め複数セット用意しておき、入力用マイクの周波数特
性の測定を複数回行なう場合には、語彙セットを変え
て、前回の測定の際に発声した音声データも利用し、マ
イク特性の補正を行なうよう制御するなどして、できる
だけ多くの音声データを利用し、各周波数帯の成分が均
等になるようにするとよい。また、各周波数帯の成分が
均等になるような語彙セットとしては、例えば音韻の出
現頻度が同頻度になるような単語セット(音韻バランス
単語セット)などを用いるのが現実的である。
【0077】ユーザは、図8(c)の画面の案内に従っ
て、フィールド81に表示された語彙を発声する。する
と、図6の音声認識装置内では、前記第1の実施形態に
おける入力用マイクの周波数特性の測定モード時と同様
の処理が行なわれる。但し、全ての語彙の発声が完了す
るまでは、図3のステップS3における平均スペクトル
ベクトルA,Bを求める処理以降は待たされる。この場
合、(ステップS3の前半部において)マイク#a,b
からの入力音声の始終端区間内の音声データから音声分
析部12により変換される周波数パラメータの時系列デ
ータは記憶部に一時記憶される。
【0078】さて、ユーザインタフェース61(システ
ム)が提示した全ての語彙についての発声が終了する
と、或いはユーザが必要と考える個数の語彙についての
発声が終了して「次へ」ボタンをクリックすると、ユー
ザインタフェース61は、図9(a)に示すようなマイ
ク特性(入力マイクの周波数特性)の計算を行なう旨の
表示を行なう。
【0079】同時にユーザインタフェース61は、音声
分析部12に対して平均スペクトルベクトルA,Bの計
算開始を指示する。これを受けて音声分析部12は、記
憶部に一時記憶されている周波数パラメータの時系列デ
ータ、即ちユーザが発声した全ての語彙についてのマイ
ク#a,bからの入力音声の周波数パラメータの時系列
データから、マイク#a,#bの平均スペクトルのベク
トル(平均スペクトルベクトル)A,Bを生成する。こ
れ以降、入力用マイク#bの周波数特性を求めて周波数
特性格納部15に格納するまでの処理(図3のステップ
S14〜S16に相当する周波数特性演算部13の処
理)は、前記第1の実施形態と同様である。
【0080】ユーザインタフェース61は、以上の処理
の進捗状況を検出し、その進捗状況を図9(a)の表示
画面上でスライドバー等によりフィールド91に表示す
る。ユーザインタフェース61は、入力用マイク#bの
周波数特性(マイク特性)の測定が終了したならば、求
めたマイク特性を保存するか否かの指示をユーザに促す
図9(b)に示すような画面に切り換える。
【0081】ここでユーザが保存するを選択した場合に
は、ユーザインタフェース61は、保存するファイル名
の入力フィールド92と、ID(識別名)の入力フィー
ルド93を持つ画面を表示して、ユーザにファイル名と
IDを入力させる。するとユーザインタフェース61
は、入力用マイク周波数特性選択部64を制御して、周
波数特性演算部13により入力用マイク周波数特性格納
部15に得られている入力用マイク#bの周波数特性
を、ユーザ指定のファイル名とIDに対応付けてマイク
周波数特性群格納部63に保存させる。このユーザ指定
のIDは次回からのマイク特性選択メニュー画面(図7
参照)のメニューに追加表示される。これによりユーザ
は、今回入力用に使用したマイクを再度入力用に使用し
たい場合には、当該マイクに対応するIDをマイク特性
選択メニュー画面上で選択するだけで、当該マイクの周
波数特性を選択することができる。
【0082】最後にユーザインタフェース61は、図9
(c)の画面に切り換えることで、マイク特性選択に関
する一連の処理が終了したことをユーザに伝える。さ
て、以上のようにして、ユーザが選択指定した入力用マ
イク#bの周波数特性、または入力用マイクの周波数特
性の測定モードで取得された入力用マイク#bの周波数
特性が入力用マイク周波数特性格納部15に格納される
と、以降の認識モードでユーザが発声した音声、即ち入
力用マイク#bからの入力音声の周波数パラメータは、
当該周波数特性格納部15に格納された周波数特性を利
用して(周波数特性補正部16により図4のステップS
15,S16と同様の処理で)辞書作成用マイクの周波
数特性に適応するように補正される。
【0083】認識処理部18は、周波数特性補正部16
による周波数特性補正後の入力音声の音声特徴ベクトル
と認識辞書格納部19内の音声認識辞書との照合を行な
い、認識語彙の中で最も高い尤度をもつ語彙を認識結果
として出力する。
【0084】認識処理部18から出力される認識結果
は、図示せぬ経路を介してユーザインタフェース61に
渡される。ユーザインタフェース61は、この認識結果
をディスプレイ62に表示して、ユーザに当該認識結果
の正誤を判定させる。そしてユーザインタフェース61
は、認識結果が誤っていると判定された場合、現在の入
力用マイク#bの周波数特性をそのまま採用し、単にユ
ーザが再度の発声を行なうか、マイク周波数特性群格納
部63から別の周波数特性を選択するか、或いは入力用
マイク#bの周波数特性を改めて測定して入力用マイク
周波数特性格納部15の内容を更新するかを、ディスプ
レイ62を通してユーザに選択指定させる。
【0085】以上に述べた第3の実施形態では、複数種
類のマイクロホンの周波数特性を予め周波数特性群格納
部63に用意しておいて、その中からユーザ指定のマイ
クロホンの周波数特性を選択して入力用マイク周波数特
性格納部15に格納するものとして説明した。この場
合、前記第1の実施形態の認識モードでの処理(ステッ
プS14)で述べたように、周波数特性格納部15内の
入力用マイク#bの周波数特性Fb と、辞書作成データ
収集用周波数特性格納部17内の辞書作成用マイクの周
波数特性Ft とを用い、その差分をとることにより、認
識用に発声される音声データに対する補正ベクトルCを
求める必要がある。
【0086】そこで、この補正ベクトルCを、複数種類
のマイクロホン別に、そのマイクロホンの周波数特性
と、辞書作成用マイクの周波数特性Ft とから予め算出
して、マイク周波数特性群格納部63(または当該周波
数特性群格納部63に相当する補正データ群格納部)に
格納しておき、その中からユーザ指定のマイクロホンの
周波数特性に対応する補正ベクトルCを入力用マイク周
波数特性選択部64(或いは周波数特性選択部64に相
当する補正データ選択部)により選択して、入力用マイ
ク周波数特性格納部15(或いは当該周波数特性格納部
15に相当する補正データ格納部)に格納する構成とす
るならば、認識モードでの周波数特性補正部16による
周波数パラメータの補正処理において、当該補正ベクト
ルCがそのまま利用できるため、周波数特性補正部16
による補正ベクトルCの算出処理を不要とすることがで
きる。
【0087】なお、以上の実施形態で述べた周波数パラ
メータなどの分析条件は、高速フーリエ変換に限るもの
ではなく、例えばLPC(Linear Predictive Coding)
分析を用いてもよいし、フィルタ分析を用いてもよい。
【0088】また、図7乃至図9に示した表示画面は、
一例であって、この内容に限定されるものではない。こ
の他、本発明は前記実施形態に限定されるものではな
く、その要旨を逸脱しない範囲で、種々変形して実施す
ることができる。
【0089】
【発明の効果】以上詳記したように本発明によれば、周
波数特性が既知のマイクロホン(基準マイクロホン)と
ユーザが実際に音声認識に利用する周波数特性が未知の
マイクロホン(入力用マイクロホン)の両方を用いて、
音声認識装置を使うユーザ自身が音声入力を行なうだ
け、或いは音声認識装置に対して音出力を指示するだけ
で、入力用マイクロホンの周波数特性を簡単に且つ正確
に求めることができ、認識性能の高度化および周波数特
性測定の大幅な効率化を実現できる。
【0090】また本発明によれば、予め求めた辞書作成
マイクロホンの周波数特性を利用可能な構成とすること
で、補正のたびに辞書作成マイクロホンを用意する必要
がなく、ユーザの負担を大幅に低減することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声認識装置の
基本構成を示すブロック図。
【図2】図1の音声認識装置を実現するパーソナルコン
ピュータの外観を示す図。
【図3】図1の音声認識装置における入力用マイクロホ
ンの周波数特性の測定モードでの処理を説明するための
フローチャート。
【図4】図1の音声認識装置における認識モードでの処
理を説明するためのフローチャート。
【図5】本発明の第2の実施形態に係る音声認識装置の
基本構成を示すブロック図。
【図6】本発明の第3の実施形態に係る音声認識装置の
基本構成を示すブロック図。
【図7】図6の音声認識装置で適用されるマイク特性選
択メニュー画面の一例を示す図。
【図8】図7のマイク特性選択メニュー画面上で「その
他」が選択された結果、入力用マイクの周波数特性の測
定モードが設定された場合の、ユーザに対するガイダン
ス画面の画面遷移例の一部を示す図。
【図9】図7のマイク特性選択メニュー画面上で「その
他」が選択された結果、入力用マイクの周波数特性の測
定モードが設定された場合の、ユーザに対するガイダン
ス画面の画面遷移例の残りを示す図。
【符号の説明】
11…音声入力部、 12…音声分析部、 13…周波数特性演算部、 14…基準マイク周波数特性格納部、 15…入力用マイク周波数特性格納部、 16…周波数特性補正部、 17…辞書作成データ収集用マイク周波数特性格納部、 18…認識処理部、 19…認識辞書格納部、 51,61…ユーザインタフェース、 52…音出力部、 53…出力音記憶部、 62…ディスプレイ、 63…マイク周波数特性群格納部、 64…入力用マイク周波数特性選択部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 坪井 宏之 大阪府大阪市北区大淀中1丁目1番30号 株式会社東芝関西支社内

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 周波数特性が既知の基準マイクロホンと
    周波数特性が未知の入力用マイクロホンを用いて、ユー
    ザが発声する音声を前記基準マイクロホンと前記入力用
    マイクロホンとで同期がとれるように入力する入力手段
    と、 前記入力手段により前記基準マイクロホン及び前記入力
    用マイクロホンから入力された音声を周波数分析する分
    析手段と、 前記分析手段による前記基準マイクロホン及び前記入力
    用マイクロホンからの入力音声の周波数分析結果の周波
    数成分の差分のデータを求め、その差分のデータと前記
    基準マイクロホンの周波数特性とから、前記入力用マイ
    クロホンの周波数特性を求める周波数特性演算手段と、 前記入力用マイクロホンから入力された認識対象音声に
    対して、予め取得されている辞書作成用マイクロホンの
    周波数特性と前記周波数特性演算手段により求められた
    入力用マイクロホンの周波数特性との周波数成分の差分
    のデータを用いて周波数パラメータの補正を行ない、前
    記辞書作成用マイクロホンの周波数特性に変換する周波
    数特性補正手段と、 前記周波数特性補正手段により変換された周波数パラメ
    ータからなる認識用音声データを認識辞書と照合するこ
    とにより認識処理し、認識結果を出力する認識処理手段
    とを具備することを特徴とする音声認識装置。
  2. 【請求項2】 予め記憶してある音波形を用いて音を出
    力する音出力手段と、 周波数特性が既知の基準マイクロホンと周波数特性が未
    知の入力用マイクロホンを用いて、前記音出力手段から
    出力された音を前記基準マイクロホンと前記入力用マイ
    クロホンとで同期がとれるように入力する入力手段と、 前記入力手段により前記基準マイクロホン及び前記入力
    用マイクロホンから入力された音を周波数分析する分析
    手段と、 前記分析手段による前記基準マイクロホン及び前記入力
    用マイクロホンからの入力音の周波数分析結果の周波数
    成分の差分のデータを求め、その差分のデータと前記基
    準マイクロホンの周波数特性とから、前記入力用マイク
    ロホンの周波数特性を求める周波数特性演算手段と、 前記入力用マイクロホンから入力された認識対象音声に
    対して、予め取得されている辞書作成用マイクロホンの
    周波数特性と前記周波数特性演算手段により求められた
    入力用マイクロホンの周波数特性との周波数成分の差分
    のデータを用いて周波数パラメータの補正を行ない、前
    記辞書作成用マイクロホンの周波数特性に変換する周波
    数特性補正手段と、 前記周波数特性補正手段により変換された周波数パラメ
    ータからなる認識用音声データを認識辞書と照合するこ
    とにより認識処理し、認識結果を出力する認識処理手段
    とを具備することを特徴とする音声認識装置。
  3. 【請求項3】複数種類のマイクロホンの周波数特性を予
    め格納しておくための周波数特性群格納手段と、 前記周波数特性群格納手段に格納されている複数種類の
    マイクロホンの周波数特性の1つをこれに対応する入力
    用マイクロホンの周波数特性として選択するためのユー
    ザ指示を受け付けるユーザインタフェース手段と、 前記ユーザインタフェース手段により受け付けられたユ
    ーザ指示の示す前記マイクロホンの周波数特性を前記周
    波数特性群格納手段から選択する周波数特性選択手段
    と、 前記入力用マイクロホンから入力された認識対象音声に
    対して、予め取得されている辞書作成用マイクロホンの
    周波数特性と前記周波数特性選択手段により選択された
    周波数特性との周波数成分の差分のデータを用いて周波
    数パラメータの補正を行ない、前記辞書作成用マイクロ
    ホンの周波数特性に変換する周波数特性補正手段と、 前記周波数特性補正手段により変換された周波数パラメ
    ータからなる認識用音声データを認識辞書と照合するこ
    とにより認識処理し、認識結果を出力する認識処理手段
    とを具備することを特徴とする音声認識装置。
  4. 【請求項4】 異なる周波数特性を有する複数のマイク
    ロホンの周波数特性を辞書作成用マイクロホンの周波数
    特性に補正するための補正データを予め格納しておくた
    めの補正データ群格納手段と、 前記補正データ群格納手段に格納されている複数の補正
    データの1つをこれに対応する入力用マイクロホンの周
    波数特性の補正データとして選択するためのユーザ指示
    を受け付けるユーザインタフェース手段と、 前記ユーザインタフェース手段により受け付けられたユ
    ーザ指示の示す前記補正データを前記補正データ群格納
    手段から選択する補正データ選択手段と、 前記入力用マイクロホンから入力された認識対象音声に
    対して、前記補正データ選択手段により選択された補正
    データを用いて周波数パラメータの補正を行ない、前記
    辞書作成用マイクロホンの周波数特性に変換する周波数
    特性補正手段と、 前記周波数特性補正手段により変換された周波数パラメ
    ータからなる認識用音声データを認識辞書と照合するこ
    とにより認識処理し、認識結果を出力する認識処理手段
    とを具備することを特徴とする音声認識装置。
  5. 【請求項5】 周波数特性が既知の基準マイクロホンと
    周波数特性が未知の入力用マイクロホンを用いて、ユー
    ザが発声する音声を前記基準マイクロホンと前記入力用
    マイクロホンとで同期がとれるように入力し、 前記基準マイクロホン及び前記入力用マイクロホンから
    入力した音声を周波数分析し、 前記基準マイクロホン及び前記入力用マイクロホンから
    の入力音声の周波数分析結果の周波数成分の差分のデー
    タを求め、その差分のデータと前記基準マイクロホンの
    周波数特性とから、前記入力用マイクロホンの周波数特
    性を求めておき、 前記入力用マイクロホンから入力された認識対象音声に
    対して、予め取得されている辞書作成用マイクロホンの
    周波数特性と前記求めておいた入力用マイクロホンの周
    波数特性との周波数成分の差分のデータを用いて周波数
    パラメータの補正を行ない、前記辞書作成用マイクロホ
    ンの周波数特性に変換し、認識処理に供するようにした
    ことを特徴とするマイクロホン周波数特性変換方法。
  6. 【請求項6】 予め記憶してある音波形を用いて音を出
    力し、 周波数特性が既知の基準マイクロホンと周波数特性が未
    知の入力用マイクロホンを用いて、前記出力した音を前
    記基準マイクロホンと前記入力用マイクロホンとで同期
    がとれるように入力し、 前記基準マイクロホン及び前記入力用マイクロホンから
    入力した音を周波数分析し、 前記基準マイクロホン及び前記入力用マイクロホンから
    の入力音の周波数分析結果の周波数成分の差分のデータ
    を求め、その差分のデータと前記基準マイクロホンの周
    波数特性とから、前記入力用マイクロホンの周波数特性
    を求めておき、 前記入力用マイクロホンから入力された認識対象音声に
    対して、予め取得されている辞書作成用マイクロホンの
    周波数特性と前記求めておいた入力用マイクロホンの周
    波数特性との周波数成分の差分のデータを用いて周波数
    パラメータの補正を行ない、前記辞書作成用マイクロホ
    ンの周波数特性に変換し、認識処理に供するようにした
    ことを特徴とするマイクロホン周波数特性変換方法。
  7. 【請求項7】 予め格納しておいた複数種類のマイクロ
    ホンの周波数特性の1つをこれに対応する入力用マイク
    ロホンの周波数特性として選択するためのユーザ指示を
    受け付けて、前記受け付けたユーザ指示の示す前記マイ
    クロホンの周波数特性を選択しておき、 前記入力用マイクロホンから入力された認識対象音声に
    対して、予め取得されている辞書作成用マイクロホンの
    周波数特性と前記選択しておいた周波数特性との周波数
    成分の差分のデータを用いて周波数パラメータの補正を
    行ない、前記辞書作成用マイクロホンの周波数特性に変
    換し、認識処理に供するようにしたことを特徴とするマ
    イクロホン周波数特性変換方法。
  8. 【請求項8】 異なる周波数特性を有する複数の入力用
    マイクロホンの周波数特性を辞書作成用マイクロホンの
    周波数特性に補正するための補正データを予め格納して
    おき、 前記格納しておいた複数の補正データの1つをこれに対
    応する入力用マイクロホンの周波数特性の補正データと
    して選択するためのユーザ指示を受け付けて、前記受け
    付けたユーザ指示の示す前記補正データを選択してお
    き、 前記入力用マイクロホンから入力された認識対象音声に
    対して、前記選択しておいた補正データを用いて周波数
    パラメータの補正を行ない、前記辞書作成用マイクロホ
    ンの周波数特性に変換し、認識処理に供するようにした
    ことを特徴とするマイクロホン周波数特性変換方法。
JP8259967A 1996-09-30 1996-09-30 音声認識装置及びマイクロホン周波数特性変換方法 Pending JPH10105191A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP8259967A JPH10105191A (ja) 1996-09-30 1996-09-30 音声認識装置及びマイクロホン周波数特性変換方法
US08/935,082 US6032115A (en) 1996-09-30 1997-09-26 Apparatus and method for correcting the difference in frequency characteristics between microphones for analyzing speech and for creating a recognition dictionary

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8259967A JPH10105191A (ja) 1996-09-30 1996-09-30 音声認識装置及びマイクロホン周波数特性変換方法

Publications (1)

Publication Number Publication Date
JPH10105191A true JPH10105191A (ja) 1998-04-24

Family

ID=17341422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8259967A Pending JPH10105191A (ja) 1996-09-30 1996-09-30 音声認識装置及びマイクロホン周波数特性変換方法

Country Status (2)

Country Link
US (1) US6032115A (ja)
JP (1) JPH10105191A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001063597A1 (en) * 2000-02-25 2001-08-30 Koninklijke Philips Electronics N.V. Speech recognition device with reference transformation means
JP2002287788A (ja) * 2001-03-23 2002-10-04 Ricoh Co Ltd 録音周波数特性測定方法、録音周波数特性変換方法および音声認識方法
US7440891B1 (en) 1997-03-06 2008-10-21 Asahi Kasei Kabushiki Kaisha Speech processing method and apparatus for improving speech quality and speech recognition performance
JP2009015209A (ja) * 2007-07-09 2009-01-22 Alpine Electronics Inc 音声明瞭度改善システム及び音声明瞭度改善方法
JP2015149550A (ja) * 2014-02-05 2015-08-20 日本放送協会 マイク補正装置
WO2022044338A1 (ja) * 2020-08-31 2022-03-03 日本電気株式会社 音声処理装置、音声処理方法、記録媒体、および音声認証システム

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU5359498A (en) * 1996-11-22 1998-06-10 T-Netix, Inc. Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation
JP4163294B2 (ja) * 1998-07-31 2008-10-08 株式会社東芝 雑音抑圧処理装置および雑音抑圧処理方法
US6832194B1 (en) 2000-10-26 2004-12-14 Sensory, Incorporated Audio recognition peripheral system
US6804647B1 (en) * 2001-03-13 2004-10-12 Nuance Communications Method and system for on-line unsupervised adaptation in speaker verification
US7158126B2 (en) * 2002-04-08 2007-01-02 Koninklijke Philips Electronics N.V. Acoustic based pointing device
ATE316283T1 (de) * 2003-11-27 2006-02-15 Cit Alcatel Vorrichtung zur verbesserung der spracherkennung
US7515721B2 (en) * 2004-02-09 2009-04-07 Microsoft Corporation Self-descriptive microphone array
JP3909709B2 (ja) * 2004-03-09 2007-04-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 雑音除去装置、方法、及びプログラム
FR2871978B1 (fr) * 2004-06-16 2006-09-22 Alcatel Sa Procede de traitement de signaux sonores pour un terminal de communication et terminal de communication mettant en oeuvre ce procede
US8566086B2 (en) * 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals
US20070239441A1 (en) * 2006-03-29 2007-10-11 Jiri Navratil System and method for addressing channel mismatch through class specific transforms
US8696458B2 (en) * 2008-02-15 2014-04-15 Thales Visionix, Inc. Motion tracking system and method using camera and non-camera sensors
US20150032238A1 (en) 2013-07-23 2015-01-29 Motorola Mobility Llc Method and Device for Audio Input Routing
US9456276B1 (en) * 2014-09-30 2016-09-27 Amazon Technologies, Inc. Parameter selection for audio beamforming

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4631749A (en) * 1984-06-22 1986-12-23 Heath Company ROM compensated microphone
IT1211194B (it) * 1987-07-10 1989-10-12 Olivetti & Co Spa Sistema di misura e compensazione automatica delle distorsioni di un collegamento tra un apparecchio telefonico e un unita centrale di trattamento voce
JPH0784594A (ja) * 1993-09-14 1995-03-31 Matsushita Electric Ind Co Ltd 音声認識装置
US5528731A (en) * 1993-11-19 1996-06-18 At&T Corp. Method of accommodating for carbon/electret telephone set variability in automatic speaker verification
US5459792A (en) * 1993-12-15 1995-10-17 Audio-Technica U.S., Inc. Audio input circuit for voice recognition
US5402669A (en) * 1994-05-16 1995-04-04 General Electric Company Sensor matching through source modeling and output compensation
US5950157A (en) * 1997-02-28 1999-09-07 Sri International Method for establishing handset-dependent normalizing models for speaker recognition

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7440891B1 (en) 1997-03-06 2008-10-21 Asahi Kasei Kabushiki Kaisha Speech processing method and apparatus for improving speech quality and speech recognition performance
WO2001063597A1 (en) * 2000-02-25 2001-08-30 Koninklijke Philips Electronics N.V. Speech recognition device with reference transformation means
JP2003524217A (ja) * 2000-02-25 2003-08-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 基準変換手段を伴なう音声認識装置
JP2012234204A (ja) * 2000-02-25 2012-11-29 Nuance Communications Austria Gmbh 基準変換手段を伴なう音声認識装置及び方法
JP2002287788A (ja) * 2001-03-23 2002-10-04 Ricoh Co Ltd 録音周波数特性測定方法、録音周波数特性変換方法および音声認識方法
JP2009015209A (ja) * 2007-07-09 2009-01-22 Alpine Electronics Inc 音声明瞭度改善システム及び音声明瞭度改善方法
JP2015149550A (ja) * 2014-02-05 2015-08-20 日本放送協会 マイク補正装置
WO2022044338A1 (ja) * 2020-08-31 2022-03-03 日本電気株式会社 音声処理装置、音声処理方法、記録媒体、および音声認証システム

Also Published As

Publication number Publication date
US6032115A (en) 2000-02-29

Similar Documents

Publication Publication Date Title
JPH10105191A (ja) 音声認識装置及びマイクロホン周波数特性変換方法
US5327521A (en) Speech transformation system
JP2763322B2 (ja) 音声処理方法
US8433573B2 (en) Prosody modification device, prosody modification method, and recording medium storing prosody modification program
EP1635327A1 (en) Information transmission device
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
EP0880772A1 (en) Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5307442A (en) Method and apparatus for speaker individuality conversion
JP3673507B2 (ja) 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
Lee Prediction of acoustic feature parameters using myoelectric signals
US20040117181A1 (en) Method of speaker normalization for speech recognition using frequency conversion and speech recognition apparatus applying the preceding method
JPH06124097A (ja) 携帯型端末装置
RU2510954C2 (ru) Способ переозвучивания аудиоматериалов и устройство для его осуществления
JP2002215198A (ja) 声質変換装置および声質変換方法およびプログラム記憶媒体
JP4461557B2 (ja) 音声認識方法および音声認識装置
JPH06214596A (ja) 音声認識装置および話者適応化方法
JP2951514B2 (ja) 声質制御型音声合成装置
JP4603727B2 (ja) 音響信号分析方法及び装置
JP4255897B2 (ja) 話者認識装置
JPH09305197A (ja) 音声変換方法及び装置
JP3866171B2 (ja) 音素決定方法、その装置及びプログラム
JP7378770B2 (ja) 評価装置、評価方法、及び評価プログラム
JPH0685105B2 (ja) 発声訓練方式
JPH05313695A (ja) 音声分析装置
JP3946806B2 (ja) 音声認識装置および方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040309