JP2000330587A

JP2000330587A - 音声認識方法および装置

Info

Publication number: JP2000330587A
Application number: JP11141548A
Authority: JP
Inventors: Takashi Yokomizo; 隆司横溝
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1999-05-21
Filing date: 1999-05-21
Publication date: 2000-11-30
Anticipated expiration: 2019-05-21
Also published as: JP3434730B2

Abstract

(57)【要約】【課題】突発的な環境の変化や複数の環境が交互に現
れるといった環境に対応できる音声認識装置を提供す
る。【解決手段】マイク１０より入力された音声は、音声
取込み部１２で音声の切出しが行われ、分析部１４で特
徴の抽出が行われる。音声検出部１６で、分析開始から
音声の始端検出までの入力信号をもとに、背景雑音パタ
ーンの検出を行う。検出された背景雑音パターンを、或
る閾値をインデクスとしてｎ個に分割した環境学習デー
タ格納部２６へ保管する。これにより、雑音環境毎に適
した環境学習データを蓄積する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識方法およ
び装置に関し、特に環境を学習する機能（環境適応）を
持った音声認識において、極端に異なる環境へ急激に遷
移した場合、直前の環境に対応する雑音パターンを蓄え
ておくことにより、急激な認識性能の低下を防止するよ
うにした音声認識方法および装置に関する。

【０００２】

【従来の技術】音声認識装置を、非定常雑音の多い環境
で使用する場合、例えば、車載のカーナビゲーション装
置に音声入力で指示するような場合、背景雑音が存在す
るため一般に認識率が低下する。このような環境におい
て認識率を向上させるには、雑音パターンの学習が有効
であることが知られている。

【０００３】特に非定常雑音の多い環境で使用される音
声認識の雑音学習方式が、特開平５−４６１９６号公報
に開示されている。この公報に記載の雑音学習方式によ
れば、過去の入力音声パターンから非定常雑音を含む複
数の雑音パターンを学習し、非定常雑音が付加された入
力音声を正しく認識することを目的としたものであり、
非音声区間と判断されたパターンから、定常雑音および
非定常雑音を環境学習している。これを雑音パターン記
憶部に登録し、次に入力された音声に対し、抽出された
音声の特徴と標準パターンとのマッチング処理を行うと
きに、過去の環境学習によって作られ情報を加味し、マ
ッチング処理を行っている。これにより、非定常雑音の
多い環境でも高い認識率が維持可能となる。

【０００４】このような方式では、雑音学習は繰り返す
ほどに環境へ収束し、効果が向上するが、複数の雑音環
境が交互に出現する場合には、学習を収束させることが
できない。このため、突発的な環境の変化や複数の環境
が交互に現れるといった環境に対応できず、環境が変化
すると認識性能が低下する。

【０００５】このような環境の変化に対応するように、
対雑音性能を向上させた音声認識としては、特開平３−
１２７０９９号公報に記載のものが知られている。この
公報に記載の技術によれば、複数の標準パターン記憶手
段のうち、周囲雑音のレベルに適した重みを有する雑音
成分を付加した単語音声の標準パターン群を記憶した標
準パターン記憶手段を選択することにより、音声認識装
置がさまざまな周囲雑音の場所に設置された場合でも、
認識率が向上するようにしている。

【０００６】

【発明が解決しようとする課題】前記特開平５−４６１
９６号公報に記載の音声認識装置は、前述したように環
境が変化した場合には認識率が低下するという問題があ
り、また前記特開平３−１２７０９９号公報に記載の音
声認識装置では、突発的な環境変化に対応するために
は、さまざまな周囲雑音のレベルに適した重みを有する
雑音成分を付加した単語音声の多量の標準パターン群を
記憶した標準パターンを予め準備しておかなければいけ
ないという問題がある。

【０００７】本発明の目的は、雑音成分を付加した標準
パターンを予め準備するのではなく、複数の特定レベル
で区分された雑音パターンのみを学習により、あるいは
予め準備しておくことにより、突発的な環境の変化や複
数の環境が交互に現れるといった環境に対応できる音声
認識装置および方法を提供することにある。

【０００８】

【課題を解決するための手段】本発明によれば、マイク
より入力された音声は、音声の切出し，特徴の抽出が行
われる。ここで音声を切出す際に、分析開始から音声の
始端検出までの入力信号をもとに、背景雑音パターンの
検出を行う。検出された背景雑音パターンを、或る閾値
をインデクスとしてｎ個に分割した環境学習データへ保
管する。これにより、雑音環境毎に適した環境学習デー
タを蓄積する。

【０００９】音声の認識は、抽出された音声の特徴と、
標準パターンとをマッチング処理することにより行う。
このとき、ｎ種類ある環境学習データの中から、認識時
の背景雑音レベルに最も近い雑音レベルを持った環境学
習データを用いて、マッチング処理を行う。これによ
り、急激に環境が変わった場合、複数の環境が交互に現
れる場合などでも、認識率の向上を図ることが可能とな
る。

【００１０】

【発明の実施の形態】

【００１１】

【第１の実施例】図１は、本発明の第１の実施例の音声
認識装置の構成を示す図である。図２は、本実施例の音
声認識処理を示すフローチャートである。本実施例で
は、マイクを１本用い、この１本のマイクにより背景雑
音の含まれた音声を取り込むものとする。

【００１２】図１および図２を参照して本実施例の音声
認識装置の構成およびその動作を説明する。なお図３
に、本実施例における背景雑音を含む入力音声の波形を
示す。この入力音声波形は、分析が開始される最初のフ
レームである第１フレームに背景雑音のみ存在し、第２
フレームの途中から音声が始まっている状態を示してい
る。

【００１３】マイクからの入力は、入力に先立って入力
開始ボタン等からの入力開始信号（不図示）によって開
始される場合もあり、また、常に入力状態にあって、音
声入力を識別する手段（不図示）によって音声と判断で
きる入力があると音声認識動作を開始する場合もある
が、前者の場合には、入力開始から音声入力開始までに
間隔があるのが通例であり、また、後者の場合には、音
声認識に先立つ入力も記憶しておくのが通例であり、い
ずれの場合にも、音声入力に先立って、背景雑音のみが
存在している時間があることになる。

【００１４】マイク１０より入力されたアナログの音声
は、音声取込み部１２に入力される。音声取込み部１２
では、背景雑音を含む入力音声を、ある微小一定時間
（例えば２０ｍＳ）のフレーム単位で取り込み（ステッ
プＳ１）、デジタル化を行う。デジタル化された入力音
声は、分析部１４に入力される。分析部１４では、フレ
ーム単位で特徴の抽出を行う（ステップＳ２）。特徴の
抽出は、フィルタバンク分析，線形予測分析，離散フー
リエ変換分析等により行うことができる。抽出された特
徴は、入力パターンとして、音声検出部１６へ入力さ
れ、音声検出処理される（ステップＳ３）。

【００１５】音声検出部１６では、入力パターンについ
て、一定の閾値以上の値のパワーが一定時間以上継続し
たか否かで、音声であるか非音声であるかを判定する
（ステップＳ４）。すなわち、一定の閾値以上の値のパ
ワーが一定時間以上継続した場合には、音声であるとす
る。音声ならば、入力パターンを認識部１８に送り、非
音声ならば入力パターンを雑音環境検出部２０へ送る。

【００１６】図３の入力音声波形では、第１フレームは
背景雑音のみであるので、入力パターンは雑音環境検出
部２０へ送られる。

【００１７】雑音環境検出部２０では、入力パターンに
ついてのＳＮ比（フレーム内音声区間と背景雑音区間の
ＳＮ比），雑音レベル（背景雑音区間のレベル），また
は周波数成分（背景雑音区間の周波数成分）の情報よ
り、雑音パターンを検出し、検出された雑音パターンの
レベルから、雑音環境種別を検出する（ステップＳ
５）。雑音環境種別は、或る閾値をインデックスとして
区分されたｎ個の種別に分けられている。

【００１８】また、雑音環境検出部２０から、雑音パタ
ーンが環境学習部２４に送られ、環境学習部２４では、
送られてきた雑音パターンを学習し、雑音パターンを前
記雑音環境種別に対応するｎ個の環境学習データ格納部
２６−１，２６−２，…，２６−ｎのいずれかに格納す
る（ステップＳ６）。一方、検出された雑音環境種別
は、雑音環境種別格納部２２に格納される（ステップＳ
７）。

【００１９】音声検出部１６では、第１フレームは背景
雑音のみであるか否かを判断する（ステップＳ８）。こ
の場合、背景雑音のみであるので処理は終了する。

【００２０】第２フレームでは、音声検出部１６は、初
めの部分は背景雑音のみが、続いて音声が入力されてい
ると判断する。ステップＳ５で第２フレームの背景雑音
により雑音環境種別を検出した後、ステップＳ８で、第
２フレームは、背景雑音のみではないと判断して、処理
はステップＳ９に進む。

【００２１】ステップＳ９において、雑音環境検出部２
０が環境種別読出し部２８を指示して、第１フレームの
背景雑音にもとづいて雑音環境種別格納部２２に格納さ
れている環境種別を読出し（ステップＳ９）、対応する
雑音パターンが格納されている環境学習データ格納部２
６−１，２６−２，…，２６−ｎのいずれかを選択す
る。選択された格納部から雑音パターンが読出されて認
識部１８に供給される。

【００２２】一方、標準パターン格納部３０には、予め
多数話者の音声から抽出・学習した音声単位の標準パタ
ーンが格納されており、認識部１８では、音声検出部１
６の出力する第２フレームの入力パターンから雑音パタ
ーンを減算する（ステップＳ１０）。

【００２３】認識部１８では、入力パターンから雑音パ
ターンを減算したものと、標準パターンとを比較し、そ
の類似度を算出する。すなわちマッチング処理を行う
（ステップＳ１１）。

【００２４】以降、第３フレーム，第４フレーム，…に
ついても同様の処理をして、音声認識を行う。

【００２５】本実施例によれば、種々の雑音パターン
が、学習によりそのレベルにより区分されて、それぞれ
対応する格納部に環境学習データとして保存されている
ので、例えばカーナビゲーション装置を搭載した車が走
行している場合、道路の状態や、トンネルを通過すると
きなど背景雑音が急激に変化した場合に、現在の認識時
の背景雑音に近い環境学習データを読出し、これを参照
してマッチング処理を行うことができるので、認識率の
低下を防止することが可能となる。

【００２６】

【第２の実施例】図４は、本発明の第２の実施例の音声
認識装置の構成を示す図である。この音声認識装置の構
成は、図１の音声認識装置とほぼ同じであるが、環境種
別読出し部２８が、音声検出部１６から指示される点が
異なっている。図５は、本実施例の音声認識処理を示す
フローチャートである。

【００２７】本実施例では、マイクを１本用い、この１
本のマイクにより背景雑音の含まれた音声を取り込むも
のとする。この実施例が、第１の実施例と異なる点は、
認識処理の第１番目のフレームでは、音声が入力される
以前に必ず背景雑音区間が存在するという前提で、第１
フレーム目の先頭で検出した背景雑音を、認識処理全て
に適応させることである。図６は、背景雑音を含む入力
音声の波形を示す図である。この波形は、第１フレーム
に背景雑音が必ず存在している状態を示している。

【００２８】音声取込部１２が１本のマイク１０より図
６に示す波形の背景雑音を含む音声を取込むと（ステッ
プＳ１）、分析部１４は、第１フレームから特徴の抽出
を行う（ステップＳ２）。第１フレームの特徴は、入力
パターンとして、音声検出部１６へ入力され、音声検出
処理される（ステップＳ３）。

【００２９】音声検出部１６では、現在処理しているフ
レームが第１フレーム目であるか否かを判断する（ステ
ップＳ４）。第１フレーム目であるので、雑音環境検出
部２０では、雑音パターンを検出し、検出された雑音パ
ターンのレベルから、雑音環境種別を検出する（ステッ
プＳ５）。

【００３０】また、雑音環境検出部２０から雑音パター
ンが環境学習部２４に送られ、環境学習部２４では、送
られてきた雑音パターンを学習し、雑音パターンを対応
する環境学習データ格納部２６−１，２６−２，…，２
６−ｎのいずれかに格納する（ステップＳ６）。一方、
検出された雑音種別環境は、雑音環境種別格納部２２に
格納される（ステップＳ７）。

【００３１】音声検出部１６では、第１フレームは背景
雑音のみであるか否かを判断する（ステップＳ８）。こ
の場合、背景雑音のみであるので処理は終了する。も
し、音声が続いているならば、ステップＳ９へ進む。

【００３２】第２フレームでは、ステップＳ４で第１フ
レームではないと判断され、ステップＳ９に進む。ステ
ップＳ９において、音声検出部１６は第１フレームの背
景雑音に基づいて既に検出されている雑音環境種別によ
り環境種別読出し部２８を指示して、雑音環境種別格納
部２２に格納されている環境種別を読出し（ステップＳ
９）、対応する雑音パターンが格納されている環境学習
データ格納部２６−１，２６−２，…，２６−ｎのいず
れかが選択される。選択された格納部から雑音パターン
が読出されて認識部１８に供給される。認識部１８で
は、音声検出部１６の出力する入力パターンから雑音パ
ターンを減算する（ステップＳ１０）。

【００３３】認識部１８では、入力パターンから雑音パ
ターンを減算したものと、標準パターンとを比較し、そ
の類似度を算出する。すなわちマッチング処理を行う
（ステップＳ１１）。

【００３４】本実施例では、第１フレームに必ず存在す
る背景雑音により背景種別を検出し、第２フレーム以降
では、雑音環境種別の検出を行わないので、第１の実施
例に比べて処理が簡単になるという利点がある。

【００３５】

【第３の実施例】図７は、本発明の第３の実施例の音声
認識装置の構成を示す図である。図８は、本実施例の音
声認識処理を示すフローチャートである。本実施例で
は、音声入力用マイク１０ａ（以下、音声マイクとい
う）、背景雑音入力用マイク１０ｂ（以下、雑音マイク
という）の２本のマイクを用いて取り込むものとする。

【００３６】本実施例の動作を、図７および図８を参照
して説明する。なお、図９は、音声マイクの入力波形，
雑音マイクに波形をそれぞれ示している。

【００３７】音声取込部１２が音声マイク１０ａおよび
雑音マイク１０ｂにより図８（ａ），（ｂ）に示す波形
の背景雑音を含む音声と背景雑音とを取込むと（ステッ
プＳ１）、分析部１４は、それぞれの波形についてフレ
ーム単位で特徴の抽出を行う（ステップＳ２）。音声マ
イク１０ａから得られた特徴は、音声検出部１６へ、雑
音マイク１０ｂから得られた特徴は、雑音環境検出部２
０へ送られる。

【００３８】雑音環境検出部２０では、雑音マイクから
得た特徴に基づいて、雑音環境種別を検出する。この検
出は、ＳＮ比（音声マイクと雑音マイクとのＳＮ比），
雑音レベル（雑音マイクへの入力レベル），または周波
数成分（雑音マイク信号の周波数分析結果）の情報よ
り、雑音パターンを検出し、検出された雑音パターンの
レベルから、雑音環境種別を検出する（ステップＳ
３）。

【００３９】また、雑音環境検出部２０から、雑音パタ
ーンが環境学習部２４に送られ、環境学習部２４では、
送られてきた雑音パターンを学習し、雑音パターンを対
応する環境学習データ格納部２６−１，２６−２，…，
２６−ｎのいずれかに格納する（ステップＳ４）。一
方、検出された雑音環境種別は、雑音環境種別格納部２
２に格納される（ステップＳ５）。

【００４０】音声検出部１６は、音声マイクから得られ
た特徴に基づいて、音声が入力されていると判断すると
（ステップＳ６）、雑音マイク１０ｂにより取込まれ、
ステップＳ３で検出されている雑音種々に基づき環境種
別読出し部２８を指示して、雑音環境種別格納部２２に
格納されている環境種別を読出し（ステップＳ７）、対
応する雑音パターンが格納されている環境学習データ格
納部２６−１，２６−２，…，２６−ｎのいずれかが選
択される。選択された格納部から雑音パターンが読出さ
れて、認識部１８に供給される。認識部１８では、音声
検出部１６の出力する入力パターンから雑音パターンを
減算する（ステップＳ８）。

【００４１】認識部１８では、入力パターンから雑音パ
ターンを減算したものと、標準パターンとを比較し、そ
の類似度を算出する。すなわちマッチング処理を行う
（ステップＳ９）。

【００４２】以上の実施例では、背景雑音を専用の雑音
マイクで取込むようにしているので、音声検出部では、
音声のみの検出を行えばよく、処理が簡単になるという
利点がある。また、雑音マイクを取付ける位置は、音声
を取込まないような箇所を選択することにより、より正
確な背景雑音を学習することができるので認識率がさら
に向上する。

【００４３】以上の３つの実施例では、環境学習により
雑音パターンを格納するが、学習によることなく、初期
値として予め得た雑音パターンを格納部２６−１，２６
−２，…，２６−ｎに格納しておくこともできる。この
場合には、環境学習部２４は不要となる。

【００４４】

【発明の効果】本発明によれば、環境学習データをその
環境の種類毎に複数のデータベースとして保持してお
き、認識処理時に、その時の環境状態に一番適切な環境
学習データを用いて認識処理を行うため、急激に環境が
変わった場合、複数の環境が交互に現れる場合などで
も、認識率の向上を図ることができる。

【図面の簡単な説明】

【図１】本発明の第１の実施例の音声認識装置の構成を
示す図である。

【図２】第１の実施例の動作説明のためのフローチャー
トである。

【図３】背景雑音を含む入力音声の波形を示す図であ
る。

【図４】本発明の第２の実施例の音声認識装置の構成を
示す図である。

【図５】第２の実施例の動作説明のためのフローチャー
トである。

【図６】背景雑音を含む入力音声の波形を示す図であ
る。

【図７】本発明の第３の実施例の音声認識装置の構成を
示す図である。

【図８】第３の実施例の動作説明のためのフローチャー
トである。

【図９】音声マイクの入力波形，雑音マイクの波形をそ
れぞれ示す図である。

【符号の説明】

１０マイク１２音声取込み部１４分析部１６音声検出部１８認識部２０雑音環境検出部２２雑音環境種別格納部２４環境学習部２６環境学習データ格納部

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/28 Ｇ１０Ｌ 3/02 ３０１Ｄ 21/02 // Ｇ０１Ｃ 21/00

Claims

【特許請求の範囲】

【請求項１】背景雑音を含む音声を認識する方法におい
て、予めあるいは学習により、或る閾値で区分された雑音パ
ターンを複数種類保存し、音声認識処理を行う際に、そ
れら複数種類の雑音パターンの中から最も適したものを
選択して使用することを特徴とする音声認識方法。
【請求項２】前記音声認識処理を行う際に、前記選択さ
れた雑音パターンに基づいて、入力パターンを補正し、
これを予め保存されている標準パターンとパターンマッ
チングすることを特徴とする請求項１記載の音声認識方
法。
【請求項３】前記雑音パターンを学習により保存する場
合には、背景雑音のみが存在する入力パターンから雑音
パターンを検出し、検出された雑音パターンのレベルか
ら雑音環境種別を検出し得られた雑音環境種別を保存
し、かつ、前記検出された雑音パターンを学習して、学
習した雑音パターンを、前記推定された雑音環境種別に
対応させて保存することを特徴とする請求項１または２
記載の音声認識方法。
【請求項４】前記音声認識処理を行う際に、前記保存さ
れた複数種類の雑音パターンは、前記保存された雑音環
境種別を読出し、読出された雑音環境種別に基づいて、
選択することを特徴とする請求項３記載の音声認識方
法。
【請求項５】背景雑音を含む音声を認識する装置におい
て、予めあるいは学習により、或る閾値で区分された雑音パ
ターンを複数種類保存し、音声認識処理を行う際に、そ
れら複数種類の雑音パターンの中から最も適したものを
選択して使用することを特徴とする音声認識装置。
【請求項６】前記音声認識処理を行う際に、前記選択さ
れた雑音パターンを、入力パターンから減算し、これを
予め保存されている標準パターンとパターンマッチング
することを特徴とする請求項５記載の音声認識装置。
【請求項７】前記雑音パターンを学習により保存する場
合には、背景雑音のみが存在する入力パターンから雑音
パターンを検出し、検出された雑音パターンのレベルか
ら雑音環境種別を検出し得られた雑音環境種別を保存
し、かつ、前記検出された雑音パターンを学習して、学
習した雑音パターンを、前記推定された雑音環境種別に
対応させて保存することを特徴とする請求項５または６
記載の音声認識装置。
【請求項８】前記音声認識処理を行う際に、前記保存さ
れた複数種類の雑音パターンは、前記保存された雑音環
境種別を読出し、読出された雑音環境種別に基づいて、
選択することを特徴とする請求項７記載の音声認識装
置。
【請求項９】１本のマイクから背景雑音を含む音声を取
込む音声取込み部と、取込まれた前記音声から特徴を抽出して入力パターンと
して出力する分析部と、前記入力パターンについて音声であるか非音声であるか
を判定する音声検出部と、非音声である場合には、前記入力パターンから雑音パタ
ーンを検出し、雑音パターンのレベルから雑音環境種別
を検出する雑音環境検出部と、検出された雑音環境種別を格納する雑音環境種別格納部
と、複数個の環境学習データ格納部と、前記雑音パターンを学習し、雑音パターンを、前記雑音
環境種別に対応する前記環境学習データに格納する環境
学習部と、前記雑音環境検出部が検出する雑音環境種別に基づい
て、前記雑音環境種別格納部に格納されている雑音環境
種別を読出し、対応する前記環境学習データ格納部を選
択する環境種別読出し部と、前記音声検出部から出力される入力パターンから前記選
択された環境学習データ格納部から読出された雑音パタ
ーンを減算して、予め格納されている標準パターンとパ
ターンマッチングする認識部と、を備えることを特徴と
する音声認識装置。
【請求項１０】１本のマイクから背景雑音を含む音声を
取込む音声取込み部と、取込まれた前記音声から特徴を抽出して入力パターンと
して出力する分析部と、前記入力パターンについて、第１フレームであるか否か
を判定する音声検出部と、第１フレームである場合には、前記入力パターンから雑
音パターンを検出し、雑音パターンのレベルから雑音環
境種別を検出する雑音環境検出部と、検出された雑音環境種別を格納する雑音環境種別格納部
と、複数個の環境学習データ格納部と、前記雑音パターンを学習し、雑音パターンを、前記雑音
環境種別に対応する前記環境学習データに格納する環境
学習部と、前記音声検出部が、前記入力パターンは第２フレーム目
以降であることを検出すると、前記雑音環境種別格納部
に格納されている雑音環境種別を読出し、対応する前記
環境学習データ格納部を選択する環境種別読出し部と、前記音声検出部から出力される入力パターンから前記選
択された環境学習データ格納部から読出された雑音パタ
ーンを減算して、予め格納されている標準パターンとパ
ターンマッチングする認識部と、を備えることを特徴と
する音声認識装置。
【請求項１１】第１のマイクから背景雑音を含む音声
と、第２のマイクから背景雑音とを取込む音声取込み部
と、取込まれた前記音声および背景雑音から特徴を抽出して
入力パターンとして出力する分析部と、第２のマイクからの前記入力パターンから雑音パターン
を検出し、雑音パターンのレベルから雑音環境種別を検
出する雑音環境検出部と、検出された雑音環境種別を格納する雑音環境種別格納部
と、複数個の環境学習データ格納部と、前記雑音パターンを学習し、雑音パターンを、前記雑音
環境種別に対応する前記環境学習データに格納する環境
学習部と、第１のマイクからの前記入力パターンから音声入力であ
ると判断する音声検出部と、前記雑音環境検出部が検出する雑音環境種別に基づい
て、前記雑音環境種別格納部に格納されている雑音環境
種別を読出し、対応する前記環境学習データ格納部を選
択する環境種別読出し部と、前記音声検出部から出力される入力パターンから前記選
択された環境学習データ格納部から読出された雑音パタ
ーンを減算して、予め格納されている標準パターンとパ
ターンマッチングする認識部と、を備えることを特徴と
する音声認識装置。