JP2001215992A

JP2001215992A - 音声認識装置

Info

Publication number: JP2001215992A
Application number: JP2000022696A
Authority: JP
Inventors: Shigeki Aoshima; 滋樹青島
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2000-01-31
Filing date: 2000-01-31
Publication date: 2001-08-10

Abstract

(57)【要約】【課題】種々の環境下において確実に入力音声を認識
する。【解決手段】入力音声はフィルタ１０及びスペクトル
分析部１２を介してスペクトルサブトラクション部２０
に供給される。スペクトルサブトラクション部２０で
は、入力音声から騒音を差し引き、特徴抽出部２２に供
給する。騒音差分部１４では、入力騒音と音声辞書２６
を学習させたときの騒音との相違を算出し、スペクトル
サブトラクション部２０では入力音声からその相違分だ
け差し引くことにより入力騒音と音声辞書２６の騒音と
の相違をキャンセルする。差し引く場合のサブトラクト
倍率は、入力音声のＳＮＲや騒音差分部１４からの相違
のスペクトルに基づき決定される。サブトラクト倍率
は、分析フレーム毎に決定することもできる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声認識装置、特に
騒音下において発生された音声を認識する技術に関す
る。

【０００２】

【従来の技術】従来より、入力音声から騒音を差し引い
て得られる音声の特徴と予め学習により得られた標準音
声とを比較することにより騒音下においても音声を認識
する技術が知られている。

【０００３】たとえば、特開平１１−１５４０００号公
報に開示された雑音抑圧装置及び該装置を用いた音声認
識システムには、音声区間の入力信号に基づいて算出し
たパワースペクトルから雑音パワースペクトルに所定の
サブトラクト係数を乗じたものを引き算することにより
雑音の影響を排除して音声認識を行う技術が記載されて
いる。

【０００４】

【発明が解決しようとする課題】一般に、雑音スペクト
ルを差し引くスペクトルサブトラクション技術において
は、発生前の騒音区間の数十フレームを平均化すること
で騒音を推定し、この推定した騒音を音声区間の入力か
らフレーム毎（分析単位）に周波数領域で引き算するも
のである。

【０００５】しかしながら、このようにして騒音の影響
を除去した入力音声と予め用意した標準パターンとを比
較する場合、標準パターン（音声辞書）としてある程度
の騒音が存在する環境下で発生した音声を用いる場合
（無騒音に制御しても、完全には除去できないためある
程度の騒音は残存する）には、比較の対象が騒音付の音
声であるため、両者に相違が生じ、認識率が低下するお
それがある。

【０００６】また、上記従来技術においては、サブトラ
クト倍率を１より大きな値に設定しているが、これは推
定騒音が平均化されているのに対して、パワーの大きい
区間の音声に調整した場合の方が全体として認識率がよ
くなることを考慮したものであり、パワーが小さい区間
においても同様にサブトラクト倍率を大きくすると騒音
の引きすぎによる歪みが生じ、認識率が低下する問題も
ある。

【０００７】本発明は、上記従来技術の有する課題に鑑
みなされたものであり、その目的は、比較すべき標準パ
ターンが騒音下で発声されたパターンであっても確実に
入力音声を認識することができ、また、種々の環境下に
おいても認識率の低下を抑制することができる装置を提
供することにある。

【０００８】

【課題を解決するための手段】上記目的を達成するため
に、本発明は、入力音声から騒音を差し引いて得られる
音声の特徴を学習により得られた標準音声と比較して認
識する音声認識装置であって、前記標準音声に含まれる
学習騒音と前記入力音声に含まれる入力騒音との相違に
基づいて、前記入力音声から差し引くべき前記騒音を演
算する演算手段とを有することを特徴とする。学習時に
含まれる騒音も考慮して差分演算することで、認識率の
低下を有効に抑制できる。

【０００９】また、本発明は、入力音声と学習により得
られた標準音声とを比較することにより認識する音声認
識装置であって、前記標準音声に含まれる学習騒音と入
力音声に含まれる入力騒音との相違に基づいて、前記標
準音声に加算すべき騒音を演算する演算手段とを有する
ことを特徴とする。学習時に含まれる騒音も考慮して加
算演算することで、認識率の低下を有効に抑制できる。

【００１０】ここで、前記入力音声のＳＮＲに応じて差
し引くべき割合、あるいは加算すべき割合を決定する手
段をさらに有することが好適である。雑音レベルが増大
すると発声レベルも騒音レベルに比例して増大するラン
バード効果が存在するため、音声レベル（音声パワー）
のみならず騒音レベル（騒音パワー）も考慮したＳＮＲ
で差し引くべき割合や加算割合を決定することで、特に
音声パワーの大小によらず認識率を向上させることがで
きる。ここで、ＳＮＲは音声パワーと騒音パワーの比で
定義される。

【００１１】また、前記入力音声のＳＮＲは、周波数領
域での重み付けに基づいて算出されることが好適であ
り、より具体的には人間の聴覚特性に基づいたフィルタ
処理を行うことが望ましい。

【００１２】また、前記相違のスペクトル帯域毎、ある
いは入力騒音のパワー分散に応じて差し引くべき割合、
あるいは加算すべき割合を決定する手段をさらに有する
ことが好適である。スペクトル帯域毎に割合を変化させ
ることで、全ての帯域において認識率を向上させること
ができ、入力騒音のパワー分散に応じて割合を決定する
ことで、ランバード効果を利用して認識率を向上させる
ことができる。

【００１３】また、前記入力騒音の音声分析フレーム毎
のＳＮＲあるいはパワーに基づいて割合を決定すること
も好適である。分析単位（フレーム）毎に騒音は変化す
るから、分析単位で割合を変化させることで、より高精
度の認識が可能となる。

【００１４】

【発明の実施の形態】以下、図面に基づき本発明の実施
形態について説明する。

【００１５】図１には、本実施形態の全体構成ブロック
図が示されている。マイクから入力された入力音声はフ
ィルタ１０を介してスペクトル分析部１２に供給され
る。なお、音声が入力されない場合には、騒音がフィル
タ１０を介してスペクトル分析部１２に供給される。フ
ィルタ１０は人間の聴覚特性を考慮したフィルタであ
り、具体的には周波数の高い領域を優先的に透過するフ
ィルタである。フィルタ１０は必ずしも必須ではなく、
マイクから入力された音声あるいは騒音を直接スペクト
ル分析部１２に供給してもよい。

【００１６】スペクトル分析部１２では、入力した音声
や騒音をＦＦＴ等によりスペクトル分析し、周波数毎の
パワーを算出する。算出されたスペクトルは平滑化さ
れ、騒音差分部１４に供給される。

【００１７】騒音差分部１４には、スペクトル分析部１
２からの入力騒音スペクトル（マイクから音声が入力さ
れず、騒音が入力された区間におけるスペクトルであ
り、音声に含まれる騒音と推定されるスペクトル）が供
給されるとともに、比較の対象となる学習音声辞書の発
声時に含まれていた学習騒音データを格納するデータベ
ース１８から学習騒音スペクトルが供給される。騒音差
分部１４では、これら２つのスペクトル、すなわち入力
騒音スペクトルと学習騒音スペクトルとの差分を算出
し、推定騒音スペクトルとする。具体的には、推定騒音
スペクトルのＳＮＲ（推定騒音）は、

【数１】ＳＮＲ（推定騒音）＝ＳＮＲ２−ＳＮＲ１・・・（１）で算出される。ただし、ＳＮＲ１は学習騒音スペクトル
のＳＮＲであり、ＳＮＲ２は入力騒音スペクトルのＳＮ
Ｒである。ここで、ＳＮＲは、音声区間のパワーと騒音
区間のパワーの比（Speech to Noise Ratio）として定
義され、具体的には

【数２】ＳＮＲ＝１０Ｌｏｇ（ΣＰ（Ｓｉ）／Σ（ｉ））／（ΣＰ（Ｎｊ）／Σ（ｉ））・・・（２）で定義される。入力騒音スペクトルのＳＮＲは、スペク
トル分析部１２で分析して得られた騒音のパワーと、発
声実験値により得られた音声パワーとの比から算出する
ことができる。学習騒音スペクトルのＳＮＲも同様であ
る。

【００１８】以上のようにして入力騒音スペクトルと学
習騒音スペクトルとの差分を演算することで両スペクト
ルの相違が演算されると、演算結果はスペクトルサブト
ラクション部２０に供給される。

【００１９】スペクトルサブトラクション部２０では、
フィルタ１０及びスペクトル分析部１２を介して供給さ
れた入力音声パターン（音声区間における入力信号スペ
クトル）と騒音差分部１４から供給された推定騒音との
差分を演算し、騒音の影響が除去された音声パターンを
抽出して特徴抽出部２２に供給する。

【００２０】特徴抽出部２２は、騒音の影響が除去され
た入力音声パターンから特徴部分を抽出し、音素認識部
２４に供給する。音素認識部２４では、予め学習により
用意された音声辞書２６（この音声辞書の音声パターン
には、学習時における騒音が付加されている）及び音響
モデル２８に基づいて抽出された特徴がどの音素に該当
するかを照合し、音素を認識して出力する。

【００２１】図２には、騒音差分部１４における差分演
算が模式的に示されている。図において、（ａ）は学習
騒音スペクトルのＳＮＲ（ＳＮＲ１）が示されており、
（ｂ）は入力騒音スペクトルのＳＮＲ（ＳＮＲ２）が示
されている。騒音差分部１４では、供給されたこれら２
つのＳＮＲに基づき、上述の（１）式に基づいてスペク
トルサブトラクションすべき差分量を演算する。

【００２２】図３には、スペクトルサブトラクション部
２０における差分の様子が模式的に示されている。フィ
ルタ１０及びスペクトル分析部１２を介して供給された
入力音声スペクトル（図中実線）と騒音差分部１４から
供給された推定騒音（ＳＮＲ２−ＳＮＲ１であり、図中
一点鎖線）との差分が演算され、これにより学習時の騒
音と音声入力時の騒音との相違がキャンセルされ、精度
よく音声辞書２６に記録された音声データと照合するこ
とができる。

【００２３】なお、上述した処理は、入力音声から入力
騒音を差し引き、差し引いて得られたものにさらに学習
騒音を付加して音声辞書２６に記録された騒音付音声デ
ータと照合すると考えることもできる。すなわち、上述
した処理を数式で表現すると、（入力音声）−｛（入力
騒音）−（学習騒音）｝＝（入力音声）−（入力騒音）
＋（学習騒音）であり、音声辞書に学習時の騒音が付加
されていても、これにより学習時の騒音に影響されずに
認識できることが理解されよう。

【００２４】一方、スペクトルサブトラクション部２０
にて入力音声から推定騒音を差し引く場合、差し引く倍
率であるサブトラクト倍率を固定とした場合には、上述
したように種々の環境下において安定して認識率を向上
させることが困難となる。具体的には、パワーが小さい
区間でサブトラクト倍率が大きくなりすぎ、騒音の引き
すぎによる歪みが生じて認識率低下を招くことになる。

【００２５】そこで、本実施形態においてはさらにサブ
トラクト倍率設定部３０を設け、騒音差分部１４から出
力された推定騒音にサブトラクト倍率αを乗じてスペク
トルサブトラクション部２０に供給している。

【００２６】サブトラクト倍率設定部３０は、基本的に
は入力音声のパワーに応じてサブトラクト倍率を動的に
変更するものであるが、一般に、図４に示されるように
騒音レベルが増大すると発声レベルも騒音レベルにほぼ
比例して増大する、いわゆるランバード効果が存在する
ため、最適のサブトラクト倍率を設定することは困難と
なる。そこで、本実施形態においては、図１に示される
ようにフィルタ１０で高周波強調された入力音声のＳＮ
ＲをＳＮＲ計算部３４で算出し、算出したＳＮＲをサブ
トラクト倍率設定部３０に供給し、サブトラクト倍率設
定部３０で入力音声のＳＮＲに基づきサブトラクト倍率
を設定している。具体的には、入力音声のＳＮＲが大き
いほどサブトラクト倍率を大きく設定する。単に入力音
声のパワーに応じてサブトラクト倍率を変更するのでは
なく、入力音声のＳＮＲに応じてサブトラクト倍率を変
更することで、ランバード効果も考慮した高精度の音声
認識が可能となり、特に入力音声のパワーが小さい区間
における引きすぎを確実に防止できる。

【００２７】また、騒音が含まれていても、認識率が大
きく低下する帯域と劣化の度合いが比較的小さい帯域が
存在することが知られている。すなわち、騒音に強い帯
域と弱い帯域が存在する。例えば、本願出願人は、１ｋ
Ｈｚ〜３ｋＨｚに騒音スペクトルが存在すると、他の帯
域に存在する場合に比べて認識率の低下が大きいことを
確認している。したがって、ハイパスフィルタやローパ
スフィルタ等を用いて入力音声パターンから特定の帯域
のみの信号を取り出して音声認識することにより、騒音
環境下においても高精度に音声認識することが可能とな
る。しかしながら、騒音のスペクトルやパワーは種々変
化するため、固定的な帯域通過フィルタ等を用いて音声
認識する構成では、環境変化に柔軟に対応することがで
きず、全体として見た場合に認識率の低下を招くおそれ
がある。

【００２８】そこで、本実施形態においては帯域毎にサ
ブトラクション倍率を変化させ、種々の走行環境に柔軟
に対応している。このため、図１に示されるように、騒
音差分部１４から出力された推定騒音がサブトラクト倍
率設定部３０に供給され、サブトラクト倍率設定部３０
では、騒音パターン／倍率変換テーブル３６に基づいて
推定騒音のスペクトル帯域毎にサブトラクト倍率を決定
してスペクトルサブトラクション部２０で差し引くべき
差分量を決定している。騒音パターン／倍率変換テーブ
ル３６は、騒音パターンとその時の帯域毎のサブトラク
ト倍率を予め決定してテーブル形式で保持するもので、
例えば、１ｋＨｚ〜３ｋＨｚにおけるサブトラクト倍率
を他の帯域に比べて大きくするように設定する。

【００２９】図５には、サブトラクト倍率設定部３０に
おける処理が模式的に示されている。（ａ）及び（ｃ）
は騒音差分部１４から出力された推定騒音のスペクトル
例であり、（ａ）は比較的平坦なスペクトル、（ｃ）は
低周波側に多くパワーが存在するスペクトル例である。
（ｂ）は（ａ）が入力された場合に帯域毎に決定される
サブトラクト倍率であり、（ｄ）は（ｃ）が入力された
場合の各帯域毎に決定されるサブトラクト倍率である。
基本的には推定騒音のパワーに応じてサブトラクト倍率
を変えているが（すなわちパワーが大なるほどサブトラ
クト倍率を増大させる）、さらに騒音に対し比較的認識
率が低下しやすい帯域に対してはサブトラクト倍率を増
大させている。このように、推定騒音、すなわち入力騒
音スペクトルと学習騒音との差異のスペクトル帯域毎に
サブトラクト倍率を決定することで、任意の走行環境、
すなわち任意の騒音パターンに対しても高精度に認識す
ることができる。

【００３０】なお、帯域毎のサブトラクト倍率αｉは、
具体的には

【数３】 αｉ＝βｉ・Ｐｉ・・・（３）で決定することができる。ここで、βｉは実験的に求め
た帯域ｉの係数であり、Ｐｉは帯域ｉの推定騒音パワ
ー、ｉは周波数帯域である。

【００３１】さらに、本実施形態においては図１に示さ
れるようにフィルタ１０で高域強調された入力騒音の平
均パワー及びその分散（あるいは偏差）をパワー計算部
３２で算出し、サブトラクト倍率設定部３０に供給する
構成となっている。サブトラクト倍率設定部３０では、
パワーピーク値の平均値からの偏差、すなわちパワー分
散値によりサブトラクト倍率を決定する。分散が大なる
ほどサブトラクト倍率を大きく設定し、分散が小なるほ
どサブトラクト倍率を小さく設定する。

【００３２】図６には、入力騒音のパワースペクトルと
偏差の関係が示されている。図において、点線は入力騒
音パワーの時間平均値であり、σ１及びσ２はピーク値
の平均値からの偏差を示している。σ１＞σ２であり、
偏差σ１の場合のサブトラクト倍率を偏差σ２の場合の
サブトラクト倍率よりも大きく設定する。これにより、
入力騒音パワーが少ない場合に発声レベルも少ないラン
バード効果が生じてもサブトラクト倍率が不必要に大き
くなって騒音の引きすぎによる歪みが生じることがな
く、認識率を向上させることができる。

【００３３】なお、上記実施形態においては、発声区間
全体にわたってサブトラクト倍率を決定する場合につい
て示したが、音声認識の分析フレーム単位でサブトラク
ト倍率を決定することも好適である。たとえば、マイク
を２入力とし、１つの入力からの信号を用いて分析フレ
ーム毎のＳＮＲを算出する。そして、このフレーム単位
のＳＮＲに基づき、サブトラクト倍率を決定する。これ
により、分析単位でのサブトラクト倍率設定が可能とな
り、音声認識率をより向上させることができる。もちろ
ん、分析フレーム毎にサブトラクト倍率を決定する場
合、入力騒音と学習騒音の相違を分析フレーム単位で算
出し、このＳＮＲに基づいて決定することも好適であ
る。また、ＳＮＲの代わりに、分析フレーム毎のパワー
に基づいて倍率を変化させることも好適である。

【００３４】以上、本発明の実施形態について、入力音
声から騒音を差し引いて得られる音声の特徴を音声辞書
と比較する場合について説明したが、入力騒音と学習騒
音との相違を算出し、音声辞書２６内のデータに加算し
て入力音声と比較することも可能であり、両者は技術的
に等価である。そして、音声辞書２６に相違のデータを
加算する場合の倍率もサブトラクト倍率と同様にＳＮＲ
やパワーに基づいて決定することができる。

【００３５】この場合の構成ブロック図が図７に示され
ている。図１と異なる点は、騒音差分部１４で算出した
推定騒音をスペクトルアディション部２１に供給し、ス
ペクトルアディション部２１では音声辞書２６に記憶さ
れた学習音声データにこの推定騒音、すなわち入力騒音
と学習騒音の相違を付加する点である。なお、音声辞書
２６の音声データに付加する際の倍率、すなわちアディ
ション倍率はアディション倍率設定部３１で決定され
（図１のサブトラクト倍率設定部３０に相当する）、ア
ディション倍率設定部３１は、具体的には入力音声のＳ
ＮＲやパワー分散、あるいは推定騒音のスペクトル帯域
毎に倍率を決定する。

【００３６】

【発明の効果】以上説明したように、本発明によれば騒
音環境下で標準音声を学習した場合においても、確実に
入力音声を認識することができる。また、騒音が種々変
化する任意の走行環境下において、走行認識率の低下を
抑制することができる。

【図面の簡単な説明】

【図１】実施形態の構成ブロック図である。

【図２】騒音差分の処理説明図である。

【図３】スペクトルサブトラクション説明図である。

【図４】ランバード効果を示す説明図である。

【図５】スペクトル帯域毎のサブトラクト倍率決定説
明図である。

【図６】入力音声パワーの分散を示すグラフ図であ
る。

【図７】他の実施形態の構成ブロック図である。

【符号の説明】

１０フィルタ、１２スペクトル分析部、１４騒音
差分部、１８学習騒音データベース、２０スペクト
ルサブトラクション部、２２特徴抽出部、２４音素
認識部、２６音声辞書、２８音響モデルデータベー
ス、３０サブトラクト倍率設定部、３２パワー計算
部、３４ＳＮＲ計算部、３６騒音パターン／倍率変
換テーブル。

Claims

【特許請求の範囲】

【請求項１】入力音声から騒音を差し引いて得られる
音声の特徴を学習により得られた標準音声と比較して認
識する音声認識装置であって、前記標準音声に含まれる学習騒音と前記入力音声に含ま
れる入力騒音との相違に基づいて、前記入力音声から差
し引くべき前記騒音を演算する演算手段と、を有することを特徴とする音声認識装置。
【請求項２】入力音声と学習により得られた標準音声
とを比較することにより認識する音声認識装置であっ
て、前記標準音声に含まれる学習騒音と入力音声に含まれる
入力騒音との相違に基づいて、前記標準音声に加算すべ
き騒音を演算する演算手段と、を有することを特徴とする音声認識装置。
【請求項３】請求項１、２のいずれかに記載の装置に
おいて、さらに、前記入力音声のＳＮＲに応じて差し引くべき割合、ある
いは加算すべき割合を決定する手段と、を有することを特徴とする音声認識装置。
【請求項４】請求項３記載の装置において、前記入力音声のＳＮＲは、周波数領域での重み付けに基
づいて算出されることを特徴とする音声認識装置。
【請求項５】請求項１、２のいずれかに記載の装置に
おいて、さらに、前記相違のスペクトル帯域毎に差し引くべき割合、ある
いは加算すべき割合を決定する手段と、を有することを特徴とする音声認識装置。
【請求項６】請求項１、２のいずれかに記載の装置に
おいて、さらに、前記入力騒音のパワー分散に応じて差し引くべき割合、
あるいは加算すべき割合を決定する手段と、を有することを特徴とする音声認識装置。
【請求項７】請求項１、２のいずれかに記載の装置に
おいて、前記入力騒音の音声分析フレーム毎のＳＮＲに基づいて
差し引くべき割合、あるいは加算すべき割合を決定する
ことを特徴とする音声認識装置。
【請求項８】請求項１、２のいずれかに記載の装置に
おいて、前記入力騒音の音声分析フレーム毎のパワーに基づいて
差し引くべき割合、あるいは加算すべき割合を決定する
ことを特徴とする音声認識装置。