JP2004264816A

JP2004264816A - 再帰的構成における反復ノイズ推定法

Info

Publication number: JP2004264816A
Application number: JP2003316038A
Authority: JP
Inventors: Alejandro Acero; アレハンドロ　アセロ; Li Deng; デン　リ; James G Droppo; ジェームズ　ジー．ドロッポ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2002-09-06
Filing date: 2003-09-08
Publication date: 2004-09-24
Anticipated expiration: 2023-09-08
Also published as: US7139703B2; DE60311548T2; US20030191641A1; EP1396845A1; JP4491210B2; ATE353157T1; EP1396845B1; DE60311548D1

Abstract

【課題】従来、テイラー級数の展開点は、個々のフレームに対応して最適化されていなかった。その結果として、再帰的アルゴリズムによって生成された推定ノイズは理想的とはいい難かった。
【解決手段】一つの再帰的構成中において、反復技術を用いてノイズを含む信号中の付加的なノイズを推定する。特に、ノイズを含む信号は複数のフレームに分割され、他のフレーム中のノイズおよび現フレームの反復の一つ前の反復で見出されたノイズに基づいて、個々のフレーム中のノイズが見出される。前の反復で見出されたフレームのノイズは、現フレームのテイラー級数近似の展開点を定義するために用いられる。テイラー級数近似は現フレーム中のノイズを推定するために用いられる。ノイズ推定法は、ＭＡＰ基準に基づいた、再帰的期待値最大化の構成を採用する。
【選択図】図３

Description

本発明はノイズ推定に関連する。特に、本発明はパターン認識で用いられる信号中のノイズ推定に関する。

音声認識システムのような、パターン認識システムは、入力信号を得て、入力信号を復号することによって入力信号によって表されているパターンの発見を試みる。例えば、音声認識システムにおいて、音声信号（しばしば被検信号と呼ばれる）が認識システムによって受信され、音声信号によって表されている言葉の列を特定するためにデコードされる。

典型的には、入力信号は、ある形のノイズによって崩される。パターン認識システムのパフォーマンスを改善するために、ノイズを含んだ信号（noisy signal）中のノイズ（noise）を推定することが好ましいとされている。

従来は、二つの一般的な構成を用いて、信号中のノイズを推定している。第一の構成においては、複数のバッチアルゴリズムが用いられて、他のフレームから見出されるノイズと別個独立に、入力信号の個々のフレーム中のノイズを推定する。そして、個々の推定ノイズは、平均化されて、全てのフレームに関する統一のノイズとされる。第二の構成においては、再帰的アルゴリズムを用いて、一もしくは複数前の又は連続するフレームの推定ノイズに基づいて現フレーム中のノイズを推定する。そのような再帰的技術は、ノイズがゆるやかに時間を変動することを許容する。

一つの再帰的技術の中では、ノイズを含む信号は、ノイズを含まない信号（clean signal）とノイズ信号（noise signal）の非線形関数として仮定される。計算を促進させるため、この非線形関数は切り捨てられたテイラー級数展開によってしばしば近似される。テイラー級数展開はいくつかの展開点について計算される。一般的には、テイラー級数は、展開点における非線形関数の最良の推定を与える。このように、テイラー級数展開は、展開点の選択が良い場合に限り、良い結果を与える。

しかしながら、従来技術では、テイラー級数の展開点は、個々のフレームに対応して最適化されていなかった。その結果として、再帰的アルゴリズムによって生成された推定ノイズは、理想的ではなかった。

この観点から、パターン信号中のノイズを推定するときのより効果的なノイズ推定技術が必要とされている。

本発明の方法および装置は、一つの再帰的構成中において、反復技術を用いてノイズを含む信号中の付加的なノイズ（additive noise）を推定する。特に、ノイズを含む信号は複数のフレームに分割され、個々のフレーム中のノイズは、他のフレーム中のノイズおよび現フレームの反復の一つ前の反復で決定されたノイズに基づいて、決定される。一つの典型的な実施形態としては、前の反復で見出されたフレームのノイズは、現フレームのテイラー級数近似の展開点を定義するために用いられる。テイラー級数近似は現フレーム中のノイズを推定するために用いられる。ノイズ推定法は、ＭＡＰ（Maximum A Posterior）基準に基づいた、再帰的期待値最大化（recursive-Expectation-Maximization）の構成を採用する。

図１は、本発明を実施することができる好適なコンピューティングシステム環境１００の例を図示している。コンピューティングシステム環境１００は好適なコンピューティングシステム環境の一例であって、本発明の用途または機能の範囲に関して何ら制限を示唆するものではない。コンピューティングシステム環境１００は、模範的な実行環境１００の中に図示されたコンポーネントのうちのいずれかもしくはそれらの組み合わせに依存すると、又はそれらを必須とすると解釈してはならない。

本発明は大多数の他の汎用又は専用コンピューティングシステム環境又は構成で実行可能である。本発明の使用に適した既知のコンピューティングシステム、環境および／または構成の例としては、これらに限られないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルド装置又はラップトップ装置、マルチプロセッサシステム、マイクロプロセッサシステム、セットトップボックス、プログラマブル・コンシューマ・エレクトロニクス、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、電話システム、これらシステムもしくは装置のいずれかを含む分散コンピューティング環境などがある。

本発明をコンピュータ実行可能命令の一般的な文脈で述べることができ、例えば、コンピュータによって実行されるプログラムモジュールなどである。一般的に、プログラムモジュールは、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を含み、特定のタスクの実行または特定の抽象的なデータタイプを構成するものである。プログラムおよびモジュールによって実行されるタスクは、以下で図を参照しながら述べる。当業者は、その記載および図の内容をコンピュータ実行可能命令として実装することができ、以下に述べるコンピュータ読取可能媒体のいずれに格納することもできる。

本発明は、分散コンピューティング環境によっても実施することができ、通信網を介して接続されている遠隔処理装置によってタスクが処理される。分散コンピューティング環境では、プログラムモジュールは、ローカルおよびリモートの両コンピュータのメモリストレージデバイスを含むストレージメディアに格納されている。

図１を参照すると、発明を実施するための例示的なシステムは、コンピュータ１１０の中に、汎用コンピューティングデバイスを含む。コンピュータ１１０の構成要素は、プロセッシングユニット１２０、システムメモリ１３０、およびステムバス１２１を含むが、これに限られない。システムバス１２１は、システムメモリを含むさまざまなシステムコンポーネントとプロセッシングユニット１２０を結合する。システムバス１２１は、メモリバス又はメモリコントローラを含む幾種類かのバス機構、周辺機器用バス、又は何種類かのバス機構のいずれかを用いたローカルバスの何れであってもよい。限定ではなく一例としては、ＩＳＡ（Industry Standard Architecture）バス、ＭＣＡ（Micro Channel Architecture）バス、ＥＩＳＡ（Enhanced ISA）バス、ＶＥＳＡ（Video Electronics Standards Association）ローカルバス、又はメザニン（mezzanine）バスとして知られているＰＣＩ（Peripheral Component Interconnect）バスがある。

一般的にはコンピュータ１１０は、さまざまなコンピュータ読取可能メディアを含む。コンピュータ読取可能メディアは、コンピュータ１１０によってアクセス可能なメディアであればいずれでもよく、揮発性もしくは不揮発性のメディアおよび取り外し可能もしくは取り外し不可能なメディアの両方を含む。コンピュータ読取可能メディアは、これに限定されないが、コンピュータストレージメディアおよび通信メディアを含む。コンピュータストレージメディアは、コンピュータ読取可能命令、データ構造、プログラムモジュール又はその他のデータといった情報の格納のための方法もしくは技術によって実装された揮発性もしくは不揮発性または取り外し可能もしくは不可能なメディアの両者を含む。コンピュータストレージメディアは、これに限定されないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ又はその他メモリ技術、ＣＤ−ＲＯＭ、ＤＶＤまたは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他磁気ストレージデバイス、又は希望する情報の保存のために使用することができるメディアであって、コンピュータ１１０がアクセス可能なメディアを含む。通信メディアは、代表的には、搬送波または他の搬送方式で変調されたデータ信号の中のコンピュータ読取可能命令、データ構造、プログラムモジュール又は他のデータ含み、いずれかの情報配信メディアを含む。「変調されたデータ信号（modulated data signal）」とは、１または複数の信号の特徴の組を持つ信号、またはある意味ではその信号中に情報を符号化した信号である。限定ではなく一例としては、通信メディアは、有線ネットワークもしくはダイレクト・ワイヤード接続といった有線メディア、およびアコースティック、ＲＦ、赤外線もしくはその他の無線メディアを含む。上記のいずれの組み合わせもまたコンピュータ読取可能メディアの範囲内に含まれている。

システムメモリ１３０は、ストレージメディアを含み、ＲＯＭ（read only memory）１３１やＲＡＭ（random access memory）１３２のような揮発性および／または不揮発性メモリの態様である。ＢＩＯＳ（Basic Input/Output System）１３３は、代表的にはＲＯＭ１３１に蓄積されていて、スタートアップの間などにコンピュータ１１０内のエレメント間の情報の転送を助けるための基本的なルーチンを含む。ＲＡＭ１３２は、代表的にはデータおよび／またはプログラムモジュールを含み、それは直ちにアクセス可能であり、および／またはプロセッシングユニット１２０によって現に操作される。限定ではなく一例としては、図１には、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６およびプログラムデータ１３７が図示されている。

コンピュータ１１０は、他の取り外し可能または取り外し不可能な揮発性または不揮発性のコンピュータストレージメディアを含むこともできる。単なる例として、図１には、取り外し不可能で不揮発性の磁気メディアからの読み出し又は書き込みをするハードディスクドライブ１４１、取り外し可能で不揮発性の磁気ディスク１５２からの読み出し又は書き込みをする磁気ディスクドライブ１５１、およびＣＤ−ＲＯＭや他の光メディアのような取り外し可能で不揮発性の光ディスク１５６からの読み出し又は書き込みをする光ディクスドライブ１５５が記載されている。模範的な実行環境で使用できる他の取り外し可能もしくは不可能なまたは揮発性又は不揮発性のコンピュータストレージメディアは、磁気テープカセット、フラッシュメモリカード、ＤＶＤ（digital versatile disks）、デジタルビデオテープ、半導体ＲＡＭ、半導体ＲＯＭおよびその他の同種類のものを含む。ハードディスク１４１は、代表的には、インタフェース１４０のような取外し不可能メモリインタフェースを介してシステムバス１２１に接続されている。そして磁気ディスクドライブ１５１および光ディスクドライブ１５５は、代表的には、インタフェース１５０のような取外し可能メモリインタフェースを介してシステムバス１２１に接続されている。

上述しおよび図１に記載したドライブおよびそれらに関連するコンピュータストレージメディアは、コンピュータ１１０にコンピュータ読み取り可能な命令、データ構造、プログラムモジュールおよび他のデータを提供する。例えば、図１において、ハードディスクドライブ１４１は、オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７を格納するものとして図示されている。これらのコンポーネントは、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６およびプログラムデータ１３７と同一のまたは異なるものとすることができることに注意されたい。オペレーションプログラム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６およびプログラムデータ１４７は、図中異なる番号を付されており、少なくともそれらは、異なるコピーである。

ユーザは、キーボード１６２、マイクロフォン１６３、およびマウス、トラックボールもしくはタッチパッドのようなポインティングデバイス１６１といった入力デバイスを介してコンピュータ１１０に命令および情報を入力する。（図示しない）他の入力デバイスとしては、ジョイスティック、ゲームパッド、衛星アンテナ、スキャナーなどを含むことができる。これらおよび他の入力デバイスはしばしば、システムバスに接続されたユーザ入力インタフェース１６０を介して、プロセッシングユニット１２０に接続されるが、例えば、パラレルポート、ゲームポートもしくはＵＳＢ（universal serial bus）といった他のインタフェースおよびバス機構によって接続されることも可能である。モニター１９１または他のタイプの表示装置もまた、ビデオインタフェース１９０のようなインタフェースを介してシステムバス１２１に接続されている。モニターに加えて、コンピュータは、スピーカー１９７およびプリンタ１９６のような他の出力周辺装置を含んでいて、それらは出力周辺装置インタフェース１９５を介して接続され得る。

コンピュータ１１０は、リモートコンピュータ１８０のような一または複数のリモートコンピュータと論理的に接続されているネットワーク環境で稼動することが可能である。リモートコンピュータ１８０は、パーソナルコンピュータ、ハンドヘルド装置、サーバー、ルーター、ネットワークＰＣ、ピア装置（Peer device）、もしくは他の共通したネットワークノードであってもよく、代表的には、コンピュータ１１０に関係する上述の多数または全てを含んでもよい。図１中に描かれた論理的接続はＬＡＮ（local area network）１７１およびＷＡＮ（wide area network）１７３を含むが、他のネットワークを含んでもよい。そのようなネットワーク環境とは、オフィス内の一般的なもの、企業単位のコンピュータネットワーク、イントラネットおよびインターネットである。

ＬＡＮ環境で使用される場合は、コンピュータ１１０はネットワークインタフェースまたはアダプタ１７０を介してＬＡＮ１７１に接続される。ＷＡＮ環境で使用される場合は、コンピュータ１１０は、代表的には、モデム１７２またはインターネットのようなＷＡＮ１７３上で通信を確立するための他の手段を含んでいる。モデム１７２は、内臓もしくは外付けでもよく、ユーザ入力インタフェース１６０または他の適当な仕組みを介してシステムバス１２１に接続されていてもよい。ネットワーク環境において、コンピュータ１１０に関連して描かれているプログラムモジュールまたはそれらの一部は、遠隔のメモリストレージデバイスに格納されていてもよい。限定ではなく一例としては、図１は、リモートコンピュータ１８０に内在するリモートアプリケーションプログラム１８５を図示している。図示のネットワーク接続は例示的なものであり、コンピュータ間の通信リンクを確立する他の手段が用いられることもあると解釈されたい。

図２は、モバイルデバイス２００のブロック図で、典型的なコンピューティング環境である。モバイルデバイス２００は、マイクロプロセッサ２０２、メモリ２０４、入出力（Ｉ／Ｏ）コンポーネント２０６、およびリモートコンピュータもしくは他のモバイルデバイスとの通信のための通信インタフェース２０８を含む。一実施態様として、前述のコンポーネントは通信中は適切なバス２１０によって他のコンポーネントと結合される。

メモリ２０４は、不揮発性電子メモリとして実装されていて、電源バックアップモジュール（図示されていない）を備えたランダムアクセスメモリ（ＲＡＭ）などであり、モバイルデバイス２００に対する共通の電源が切られたときにメモリ２０４に格納されている情報が消失しない。メモリ２０４の一部分は好ましくはプログラムの実行のためのアドレス可能なメモリとして割り当てられ、メモリ２０４の他の部分は、好ましくはディスクドライブのストレージと見なすなど、ストレージとして使用される。

メモリ２０４は、オペレーティングシステム２１２、アプリケーションプログラム２１４、オブジェクトストア２１６を含む。実行中は、オペレーティングシステム２１２は好ましくは、プロセッサ２０２によってメモリ２０４から実行される。好ましい実施形態において、オペレーティングシステム２１２は、マイクロソフトコーポレーションによって販売されているＷＩＮＤＯＷＳ（登録商標）ＣＥオペレーティングシステムである。オペレーティングシステム２１２は、好ましくはモバイルデバイス用に設計されており、データベース機能を実装する。データベース機能は、表示されたアプリケーションプログラミングインタフェースおよびメソッドのセットを介してアプリケーション２１４によって利用される。オブジェクトストア２１６内のオブジェクトは、アプリケーション２１４およびオペレーティングシステム２１２によって、少なくとも表示されたアプリケーションプログラミングインタフェースまたはメソッドへの呼び出しに対する応答の中で、保全維持される。

通信インタフェース２０８は、モバイルデバイス２００が情報を送信および受信することを許容する大多数のデバイスおよび技術を意味する。そのデバイスは、有線および無線のモデム、衛星受信チューナなどを含む。また、モバイルデバイス２００は直接コンピュータに接続され、そこでデータを交換することもある。この場合には、通信インタフェース２０８は、赤外線通信用トランシーバまたはシリアルもしくはパラレル通信コネクションの可能性があり、これら全てにおいて情報を転送することが可能である。

入出力（Ｉ／Ｏ）コンポーネント２０６は、接触感知スクリーン、ボタン、ローラー、およびマイクロフォンといったさまざまな入力デバイス、オーディオジェネレータ、バイブレーションデバイス、およびディスプレイといったさまざまな出力デバイスも含む。上記に列挙したデバイスは例であり、モバイルデバイス２００が全てを備えている必要はない。さらに、本発明の範囲内において、他の入出力デバイスがモバイルデバイス２００に付加されまたは含まれていることもある。

本発明は、ＭＡＰ（maximum a posterior）基準に基づいたノイズ推定を提供する。図示した実施形態では、このアルゴリズムは、再帰的期待値最大化の構成（recursive-Expectation-Maximization framework）におけるＭＬ（maximum likelihood）基準に基づく。ＭＡＰ基準に基づいたノイズ推定法について述べる前に、はじめにＭＬ基準について述べる。

概括して、本発明は、再帰的アルゴリズムを用いて、ノイズを含んだ信号の各フレームにおけるノイズを推定する。再帰的アルゴリズムは、少なくとも一つの近隣のフレームで発見された推定ノイズを部分的に基準とする。一つのフレームの推定ノイズは、繰り返して特定される。直前の反復で特定された推定ノイズは、次の反復でノイズ推定の計算に用いられる。この反復処理を通じて、ノイズ推定は反復毎に各フレームの推定ノイズを改善する。

一実施形態では、推定ノイズは再帰関数を用いて計算される。再帰関数は、ＥＱ．１のノイズ（noise）、ノイズを含まない信号（clean signal）およびノイズを含む信号（noisy signal）の間の非線形の関係に基づくものである。

ここで、yはノイズを含む信号のフレームのケプストラム領域（cepstra domain）のベクトルを、xは同一のケプストラム領域にけるノイズを含まない信号のフレームのベクトルを、nは同一のケプストラム領域におけるノイズ信号のフレームのベクトルを、Cは離散コサイン変換行列およびIは単位行列（Identity matrix）を表す。

表記を簡単化するために、ベクトル関数をＥＱ．２として定義する。

ＥＱ．１を使うときの扱いやすさを改善するために、ＥＱ．１の非線形の部分は、展開点

として線形項に切り捨てされたテイラー級数展開を用いて近似される。
その結果はＥＱ．３となる。

ここでGはg(z)の勾配であり、ＥＱ．４として計算される。

そして再帰関数が、ノイズを含んだ信号のフレームの推定ノイズの選択に用いられる再帰的期待値最大化（recursive-Expectation-Maximization）の最適化問題の解決策としてとして定義される。この結果、再帰的ノイズ推定式はＥＱ．５となる。

ここでｎ_tは過去のフレームの推定ノイズであり、ｎ_t+1は現フレームの推定ノイズであり、ｓ_t+1およびＫ_t+1はＥＱ．６、ＥＱ．７として定義される。

ここで、Ｌ_t+1およびγ_t+1はＥＱ．８およびＥＱ．９である。

そして、εは、忘却定数であり、現フレームの推定ノイズが過去のフレームを基礎とするときの次数を制御する。

は、混合コンポーネントｍにおける、ノイズ特性ベクトル（noisy feature vectors）ｙの分布の平均である。

は、混合コンポーネントｍにおけるノイズ特性ベクトルｙの共分散行列である。ＥＱ．３の関係を用いると、

は、他の変数に関係して、ＥＱ．１０およびＥＱ．１１に表される。

ここで、

は、混合コンポーネントｍにおけるノイズを含まない特徴ベクトルｘのガウス分布の平均であり、

は、混合コンポーネントｍにおけるノイズを含まない特徴ベクトルｘの分布の共分散行列である。一実施形態では、各混合コンポーネントｍにおける

は、ノイズを含まない入力学習特徴ベクトルのセットから、定義される。入力学習特徴ベクトルはＭＬ学習法のような既知の方法の一つを用いて混合コンポーネントとしてまとめられる。

本発明では、現フレームｎ_t+1の推定ノイズは、図３のフロー図に図示した再帰的方法を用いて、数回計算される。

図３の方法は、ステップ３００から始まり、ノイズを含まない信号の混合モデル（clean signal mixture model）のための分布パラメータが、ノイズを含まない学習データ（clean training data）のセットから決定される。特に、

、および混合重みｃ_mが、Ｍ混合コンポーネントセット中の各混合コンポーネントｍのために定義される。

ステップ３０２では、現在の反復ｊのためのテイラー級数近似の中で用いられる展開点

が前のフレームで見出された推定ノイズと同一にセットされる。これは、ＥＱ．１２となる。

ＥＱ．１２は、ノイズがフレーム間で大きく変化しないという仮定に基づくものである。したがって、現フレームのノイズの初期の推定として良好なのは、一つ前のフレームで見出されたノイズである。

ステップ３０４では、現在の反復のための展開点を用いて、

を計算する。特に、

はＥＱ．１３として計算される。

ここで、ｐ(ｙ_t+1｜ｍ，ｎ_t)はＥＱ．１４として、ＥＱ．１５、ＥＱ．１６と共に定義される。

が計算された後、ステップ３０６で

はＥＱ．１７を使って計算される。

そして、ステップ３０８で

はＥＱ．１８を使って計算される。

が一度定義されると、ステップ３１０で現フレームおよび反復の推定ノイズがＥＱ．１９のように定義される。

ここで、αは変動パラメータであって、推定ノイズの更新割合を制御するものである。一実施形態では、αは、それぞれ分離した被検音声毎に、ノイズ変動についての大まかな推定に反比例するように設定されている。

ステップ３１２では、次の反復のためのテイラー級数展開点

は、現反復

で求められた推定ノイズと同一に設定される。この場合の式は、ＥＱ．２０である。

ＥＱ．２０に図示されている更新ステップは、テイラー級数展開によって与えられる推定を更新し、それにしたがって、次の反復において

の計算を更新する。

ステップ３１４では、反復カウンターｊは、ステップ３１６の反復回数設定Ｊと比較される前に増加される。反復カウンターが反復回数設定Ｊよりも少なければ、反復は処理（継続）され、処理はステップ３０４戻り、更新された展開点を用いてステップ３０４、３０６，３０８，３１０，３１２，３１４および３１６が繰り返される。

ステップ３１６で、Ｊの反復が実行された後、現フレームの推定ノイズの最後の値が定義され、ステップ３１８で、次のフレームの変数が設定される。具体的には、反復カウンターｊは零に設定され、フレーム値ｔは１増加され、次のフレームの最初の反復のための展開点ｎ₀は現フレームの推定ノイズと同一に設定される。

再帰的期待値最大化（recursive-Expectation-Maximization）の構成は予測のステップと最大化のステップとを含む。予測のステップでは、対象となる関数は、ＭＡＰ基準またはＭＡＰ補助関数とともにＥＱ．２１で与えられる。

ここで、Ｑ_ＭＬ(ｎ_t)は上述のＭＬ補助関数で、ｐ(ｎ_t)はノイズｎ_tのガウスの固定された事前分布である、そしてρは変動要因である。

ＥＱ．２１では、ρlogｐ(ｎ_t)の項は事前情報として参照される。その意味では、事前情報は、例えば、ｙ_tの結果といったデータを何も情報として含まず、ノイズのみに基づいている。反対に、補助関数Ｑ_ＭＬ(ｎ_t)は、ｙ_tの結果およびノイズｎ_tの両方に基づいている。事前情報は実際に、ノイズが落ち込むレンジを与えることによって、Ｑ_ＭＬ(ｎ_t)を導き出す。変動要因ρの拡大縮小は、ＭＬ補助関数Ｑ_ＭＬ(ｎ_t)に関連する事前情報に重み付けをする。

特に、事前情報は、ｐ(ｎ_t)は音声の無音部分から取得される。ある音声の例である図４を参照すると、与えられたパターン信号３５０は、先行部分３５２と次に後続部分３５４を有し、これらは音声を含まない、すなわちノイズのみからなる部分である。図４中の部分３５６は音声データを表す。事前情報は部分３５２および３５６の一方もしくは両方を基準とすることができる。事前情報は、ガウス平均および分散によって作られる。例えば、一実施態様として、事前情報を計算するために使われる部分を、レベル検知器によって特定することができ、レベル検知器は含まれるレベルまたはエネルギーが超えている場合に対応する部分を音声データとして特定し、他方選択したレベルまたはエネルギーを超えない部分は事前情報のための部分として特定され計算に用いられる。しかしながら、事前情報の計算はそれらの与えられた音声３５０のうちの音声部分３５６の直近の部分に限られないことは言うまでもない。

ＥＱ．２０に戻って、ＭＬ補助関数Ｑ_ＭＬ(ｎ_t)は次の条件付期待値としてＥＱ．２２と表すことができる。

ここで、ＥＱ．２２に忘却定数εを取り入れるとＥＱ．２３となる。

忘却定数εは変動するノイズを捕らえるためのアルゴリズムの能力と推定ノイズの信頼性との間のバランスを制御する。

は、フレームtまでの音声モデルの混合コンポーネントの系列である。ξ_T(ｍ)＝ｐ(ｍ｜ｙ_T，ｎ_T-1)は事後確率である。

ここに図示された忘却定数εの指数減衰は、忘却定数（例えば、重み）のための一つの分布であることはいうまでもない。ここで与えられた例は、限定するものと考えられるべきではない。なぜならば、当業者はとって、忘却定数のために他の分布を用いることができるということは当然だからである。

事後確率はＥＱ．２４のベイスの定理を用いて計算される。

ここで、尤度ｐ(ｍ｜ｙ_T，ｎ_T-1)はＥＱ．２５の平均および分散と共にガウスによって近似される。

上記の式では、ｇ_mおよびＧ_mは計算できる量で、ノイズを含む音声ｙ、ノイズを含まない音声ｘおよびノイズｎ（全ては対数スペクトルの形である）の関係を線形的に近似するためのものである。Σⁿは、事前ノイズの事前分布関数ｐ(ｎ_t)の固定の分散（ハイパーパラメータ）であり、事前分布関数ｐ(ｎ_t)は（μ_nの平均固定ハイパーパラメータとともに）ガウスに近似される。最終的に、ｎ₀は、ノイズのテイラー級数展開点で、以下で述べる最大化ステップの中でＭＡＰ推定によって反復して更新される。

最大化ステップでは、ＥＱ．２６の設定によりｎ_tの推定が得られる。

ＥＱ．２５では、

がｎ_tの線形関数であるから、次のＥＱ．２７が得られる。

ＥＱ．２５をＥＱ．２７に代入し、ｎ_tについて解くと、ノイズのＭＡＰ推定はＥＱ．２８によって表される。

ここで、ｓ_ｔおよびＫ_ｔは次式である。

上記のｓ_ｔおよびＫ_ｔは、ｓ_ｔ-1およびＫ_ｔ-1の計算結果を用いて、再帰ＭＬノイズ推定について上述したのと同様の再帰によって効率的に計算される。一実施形態では、Ｋ_ｔについての効率的な再帰計算はＥＱ．２９のように表される。

一般的に、図３に図示された反復は、図５に図示されるようにノイズのＭＡＰ推定の中で起こる。しかしながら、ステップ３０２の前の付加的なステップ３０１は、それぞれの音声に対する事前情報の計算を含み、ここでステップ３０２，３０４，３０６，３０８，３１０，３１２，３１４，３１６および３１８は、それぞれの音声に対して実行される。（ξはγに等しいことに注意されたい。）最初に、ｎ₀は、事前情報の平均値μ_nと等しく設定することができる。

ρが零に設定され、またはノイズの事前分布の分散が無限大になった時に、ＥＱ．２７のＭＡＰ推定は上述のＭＬノイズ推定に戻ることが注目されるべきである。これらの極端なケースでは、ノイズの事前分布は、ノイズ推定に関してはなんら情報を与えないものと考えられる。

事前情報の分散が小さいと、ノイズｎ_ｔのＭＡＰ推定は、μ_nとほぼ同一であることに注目されるべきである。図４を見ると、部分３５２および３５４はほとんど同じで、それゆえ、観測部分３５６の推定ノイズは事前情報の平均μ_nと実質的に同じである（この場合は、ρおよびΣ_nによって支配されているρμ_n／Σ_nおよびρ／Σ_nは相殺することになる。）

上述したノイズ推定技術は、発明の名称「METHOD OF NOISE REDUCTION USING CORRECTION VECTORS BASED OG DYNAMIC ASPECTS OF SPEECH AND NOISE NORMALIZATION」、出願日2002年4月5日、米国特許出願番号10/117,142、に記載されているノイズの正規化技法、またはノイズ除去の中で用いられる。また本発明はより直接的には、2002年9月6日に米国特許出願された、発明の名称「NON-LINEAR OBSERVATION MODEL FOR REMOBING NOISE FROM CORRUPTED SIGNALS」、米国特許出願番号10/237,163中に記載されている、ノイズ除去システムの一部として用いることができ、フレーム毎に特定された推定ノイズがノイズを含んだ信号から除去され、ノイズを含まない信号を生成するノイズ除去システムの一部として使われ得る。

図６は、ブロック図であり、本発明のノイズ推定技法がノイズ除去の実行に用いることができる環境を図示する。特に、図６は、音声認識システムを示し、本発明のノイズ推定技術が用いられ、学習信号および／または被検信号のノイズが除去される。学習信号は音響モデルを学習するために用いられる信号であり、被検信号はその言語的内容を特定するために音響モデルと対比される信号である。

図６中、トレーナーまたはユーザのいずれかである話者４００は、マイクロフォン４０４に向かって話す。マイクロフォン４０４は、一または複数のノイズ源からの付加ノイズ４０２を受信する。マイクロフォン４０４によって検出された音響信号は、アナログ・デジタル変換部４０６に供給され電気信号に変換される。

図６中の具体例では、付加ノイズ４０２はマイクロフォン４０４を介して入り込むが、他の実施形態ではアナログ・デジタル変換部４０６でデジタル信号化された入力音声信号に付加ノイズ４０２が付加される場合もある。

アナログ・デジタル変換部４０６は、マイクロフォン４０４から入力されるアナログ信号をデジタルの系列に変換する。いくつかの実施形態では、アナログ・デジタル変換部４０６はアナログ信号を１６ｋＨｚでサンプリングし、１サンプルあたり１６ｂｉｔで標本化することで、毎秒３２ｋｂｙｔｅの音声データを生成する。これらのデジタルの値は、フレーム化部４０７へ供給される。一例としては、そこで、始まりの位置が１０ミリ秒間隔である２５ミリ秒のフレームにグループ化される。

フレーム化部４０７によって生成されたデータのフレームは、特徴抽出部４０８へ供給され、個々のフレームから特徴を抽出する。特徴抽出モジュールの例は、ＬＰＣ（Linear Predictive Coding）、ＰＬＰ（Perceptive Linear Prediction）、聴覚モデル特徴抽出（Auditory model feature extraction）、および、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）特徴抽出を処理するためのモジュールを含む。本発明は、これらの特徴抽出モジュールに限定されることなく、本発明の内容の範囲内で他のモジュールを用いることも可能であることに注意されたい。

特徴抽出モジュールは、それぞれ音声信号のフレームと関係付けされた特徴ベクトルのストリームを生成する。この特徴ベクトルのストリームは、ノイズ除去モジュール４１０に供給され、そこで各フレームのノイズを推定するために本発明のノイズ推定技術が用いられる。

ノイズ除去モジュール４１０の出力は「ノイズを含まない」特徴ベクトルの系列である。入力信号が学習信号であれば、この「ノイズを含まない」特徴ベクトルの系列は学習部４２４に供給される。学習部４２４は「ノイズを含まない」特徴ベクトルおよび学習テキスト４２６を使用して、音響モデル４１８に学習させる。そのようなモデルをトレーニングするテクニックは本技術分野ではよく知られており、それらについての詳細な説明は本発明を理解するためには必要とされない。

入力信号が被検信号の場合、「ノイズを含まない」特徴ベクトルは復号部４１２へ供給され、復号部４１２は、特徴ベクトルのストリーム、辞典４１４、言語モデル４１６および音響モデル４１８を基に最も尤もらしい文字列を特定する。復号に用いられる詳細な方法は、本発明にとっては重要ではなく、既知の復号方法の何れが用いられてもよい。

仮定した文字列の最も確からしい結果が、信頼測定モジュール４２０へ供給される。信頼測定モジュール４２０は、（図示しない）第二の音響モデルの一部に基づいて、声認識部によって誤って特定されてしまった見込みが最も高い文字列を特定する。信頼測定モジュール４２０は、そして、仮定した文字列の結果を、不適当と識別された結果を示す識別子と共に、出力モジュール４２２へ供給する。当業者には、信頼測定モジュール４２０が本発明の実施に必要なものではないということが解るだろう。

図６は音声認識システムを図示するものであるが、本発明はいかなるパターン認識システムにも用いることができ、音声に限られない。

本発明は、特定の実施形態に即して述べられているが、当業者は、発明の精神および範囲を離脱することなく、態様および細部を変更できるということが解るだろう。

本発明を実施することができる計算機環境のブロック図である。本発明を実施することができる別の計算機環境のブロック図である。本発明の一実施形態におけるノイズ推定の方法のフロー図である。音声を描画的に表した図である。他の一実施形態におけるノイズ推定の方法のフロー図である。本発明を用いることができるパターン認識システムのブロック図である。

符号の説明

１００コンピューティングシステム環境
１１０コンピュータ
１２０プロセッシングユニット
１２１ステムバス
１３０システムメモリ
１３１ＲＯＭ
１３２ＲＡＭ
１３３ＢＩＯＳ（Basic Input/Output System）
１３４オペレーティングシステム
１３５アプリケーションプログラム
１３６他のプログラムモジュール
１３７プログラムデータ
１４０取外し不可能不揮発性メモリインタフェース
１４１ハードディスクドライブ
１４４オペレーティングシステム
１４５アプリケーションプログラム
１４６他のプログラムモジュール
１４７プログラムデータ
１５０取外し可能不揮発性メモリインタフェース
１５１磁気ディスクドライブ
１５２取り外し可能で不揮発性の磁気ディスク
１５５光ディクスドライブ１５５
１５６取り外し可能で不揮発性の光ディスク
１６０ユーザ入力インタフェース
１６１ポインティングデバイス
１６２キーボード
１６３マイクロフォン
１７０ネットワークインタフェース
１７１ＬＡＮ（local area network）
１７２モデム
１７３ＷＡＮ（wide area network）
１８０リモートコンピュータ
１８５リモートアプリケーションプログラム
１９０ビデオインタフェース
１９１モニター
１９５出力周辺装置インタフェース
１９６プリンタ
１９７スピーカー

Claims

ノイズを含んだ信号中のノイズを推定するための方法であって、
該ノイズを含んだ信号をフレームに分割すること、
前記ノイズを含んだ信号の第１のフレームの推定ノイズを決定すること、
前記ノイズを含んだ信号の第２のフレームの推定ノイズを、前記第１のフレームの推定ノイズの一部に基づいて決定すること、および、
前記第２のフレームの推定ノイズおよび前記第１のフレームの推定ノイズを、再帰的期待値最大化における最適問題を解決する更新式の中で用いることであって、各推定ノイズが最大事後確率基準の関数となっていること
を備えたことを特徴とする方法。
請求項１に記載の方法であって、前記更新式は、ノイズを含まない信号およびノイズ信号の非線形関数とする前記ノイズを含んだ信号の定義の一部に基づくことを特徴とする方法。
請求項２に記載の方法であって、前記更新式は更に非線形関数への近似に基づくことを特徴とする方法。
請求項３に記載の方法であって、該近似は、前記第２のフレームの推定ノイズによって一部が定義される点における非線形関数と等しいことを特徴とする方法。
請求項４に記載の方法であって、前記近似は、テイラー級数展開であることを特徴とする方法。
請求項１に記載の方法であって、前記第２のフレームの推定ノイズを用いることは、非線形関数のテイラー級数展開の展開点として前記第２のフレームの推定ノイズを用いることを含むことを特徴とする方法。
請求項１に記載の方法であって、各推定ノイズは最尤基準の関数であることを特徴とする方法。
ノイズを含んだ信号をフレームに分割するステップと、および
最大事後確率基準の関数としての再帰的期待最大化計算である更新式を用いて反復して各フレームのノイズを推定するステップであって、少なくとも現フレームの反復において、前記推定されたノイズは、少なくとも一つの他のフレームの推定ノイズおよび現フレームの別の前の反復で得られた推定ノイズに基づくステップと
を実行するコンピュータ実行可能命令を記録したコンピュータ読取可能媒体。
請求項８に記載したコンピュータ読取可能媒体であって、あるフレームにおける反復的なノイズの推定が、少なくとも一つの関数を評価するために現フレームにおける先の反復で得られた推定ノイズを用いることを備えている、コンピュータ読取可能媒体。
請求項９に記載のコンピュータ読取可能媒体であって、該少なくとも一つの関数は、ノイズを含む信号はノイズを含まない信号およびノイズ信号と非線形の関係を有するという仮定に基づくことを特徴とする、コンピュータ読取可能媒体。
請求項１０に記載のコンピュータ読取可能媒体であって、少なくとも一つの関数は、ノイズを含む信号、ノイズを含まない信号およびノイズ信号の間の非線形の関係に近似することに基づくことを特徴とする、コンピュータ読取可能媒体。
請求項１１に記載のコンピュータ読取可能媒体であって、該近似は、テイラー級数近似であることを特徴とする、コンピュータ読取可能媒体。
請求項１２に記載のコンピュータ読取可能媒体であって、現フレームについての先の反復で得られた推定ノイズが、テイラー級数展開の展開点の選択に用いられることを特徴とする、コンピュータ読取可能媒体。
請求項１３に記載のコンピュータ読取可能媒体であって、前記再帰的期待最大化計算は、最尤基準の関数であることを特徴とする、コンピュータ読取可能媒体。
請求項８に記載のコンピュータ読取可能媒体であって、前記最大事後確率基準は、ノイズのみの関数である事前情報を含むことを特徴とする、コンピュータ読取可能媒体。
請求項９に記載のコンピュータ読取可能媒体であって、更に、事前情報の推定ノイズを計算する命令を備えることを特徴とする、コンピュータ読取可能媒体。
請求項１６に記載のコンピュータ読取可能媒体であって、該事前情報の推定ノイズは反復ノイズ推定において最初に用いられることを特徴とする、コンピュータ読取可能媒体。
請求項８に記載のコンピュータ読取可能媒体であって、更に、前記推定ノイズを前期ノイズを含む信号に含まれるノイズを低減するために用いることを含むことを特徴とする、コンピュータ読取可能媒体。
請求項８に記載のコンピュータ読取可能媒体であって、更に、前記推定ノイズをノイズの平準化のために用いることを含むことを特徴とする、コンピュータ読取可能媒体。