JP2004264816A - 再帰的構成における反復ノイズ推定法 - Google Patents

再帰的構成における反復ノイズ推定法 Download PDF

Info

Publication number
JP2004264816A
JP2004264816A JP2003316038A JP2003316038A JP2004264816A JP 2004264816 A JP2004264816 A JP 2004264816A JP 2003316038 A JP2003316038 A JP 2003316038A JP 2003316038 A JP2003316038 A JP 2003316038A JP 2004264816 A JP2004264816 A JP 2004264816A
Authority
JP
Japan
Prior art keywords
noise
frame
signal
estimated noise
readable medium
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003316038A
Other languages
English (en)
Other versions
JP4491210B2 (ja
Inventor
Alejandro Acero
アレハンドロ アセロ
Li Deng
デン リ
James G Droppo
ジェームズ ジー.ドロッポ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2004264816A publication Critical patent/JP2004264816A/ja
Application granted granted Critical
Publication of JP4491210B2 publication Critical patent/JP4491210B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

【課題】 従来、テイラー級数の展開点は、個々のフレームに対応して最適化されていなかった。その結果として、再帰的アルゴリズムによって生成された推定ノイズは理想的とはいい難かった。
【解決手段】 一つの再帰的構成中において、反復技術を用いてノイズを含む信号中の付加的なノイズを推定する。特に、ノイズを含む信号は複数のフレームに分割され、他のフレーム中のノイズおよび現フレームの反復の一つ前の反復で見出されたノイズに基づいて、個々のフレーム中のノイズが見出される。前の反復で見出されたフレームのノイズは、現フレームのテイラー級数近似の展開点を定義するために用いられる。テイラー級数近似は現フレーム中のノイズを推定するために用いられる。ノイズ推定法は、MAP基準に基づいた、再帰的期待値最大化の構成を採用する。
【選択図】 図3

Description

本発明はノイズ推定に関連する。特に、本発明はパターン認識で用いられる信号中のノイズ推定に関する。
音声認識システムのような、パターン認識システムは、入力信号を得て、入力信号を復号することによって入力信号によって表されているパターンの発見を試みる。例えば、音声認識システムにおいて、音声信号(しばしば被検信号と呼ばれる)が認識システムによって受信され、音声信号によって表されている言葉の列を特定するためにデコードされる。
典型的には、入力信号は、ある形のノイズによって崩される。パターン認識システムのパフォーマンスを改善するために、ノイズを含んだ信号(noisy signal)中のノイズ(noise)を推定することが好ましいとされている。
従来は、二つの一般的な構成を用いて、信号中のノイズを推定している。第一の構成においては、複数のバッチアルゴリズムが用いられて、他のフレームから見出されるノイズと別個独立に、入力信号の個々のフレーム中のノイズを推定する。そして、個々の推定ノイズは、平均化されて、全てのフレームに関する統一のノイズとされる。第二の構成においては、再帰的アルゴリズムを用いて、一もしくは複数前の又は連続するフレームの推定ノイズに基づいて現フレーム中のノイズを推定する。そのような再帰的技術は、ノイズがゆるやかに時間を変動することを許容する。
一つの再帰的技術の中では、ノイズを含む信号は、ノイズを含まない信号(clean signal)とノイズ信号(noise signal)の非線形関数として仮定される。計算を促進させるため、この非線形関数は切り捨てられたテイラー級数展開によってしばしば近似される。テイラー級数展開はいくつかの展開点について計算される。一般的には、テイラー級数は、展開点における非線形関数の最良の推定を与える。このように、テイラー級数展開は、展開点の選択が良い場合に限り、良い結果を与える。
しかしながら、従来技術では、テイラー級数の展開点は、個々のフレームに対応して最適化されていなかった。その結果として、再帰的アルゴリズムによって生成された推定ノイズは、理想的ではなかった。
この観点から、パターン信号中のノイズを推定するときのより効果的なノイズ推定技術が必要とされている。
本発明の方法および装置は、一つの再帰的構成中において、反復技術を用いてノイズを含む信号中の付加的なノイズ(additive noise)を推定する。特に、ノイズを含む信号は複数のフレームに分割され、個々のフレーム中のノイズは、他のフレーム中のノイズおよび現フレームの反復の一つ前の反復で決定されたノイズに基づいて、決定される。一つの典型的な実施形態としては、前の反復で見出されたフレームのノイズは、現フレームのテイラー級数近似の展開点を定義するために用いられる。テイラー級数近似は現フレーム中のノイズを推定するために用いられる。ノイズ推定法は、MAP(Maximum A Posterior)基準に基づいた、再帰的期待値最大化(recursive-Expectation-Maximization)の構成を採用する。
図1は、本発明を実施することができる好適なコンピューティングシステム環境100の例を図示している。コンピューティングシステム環境100は好適なコンピューティングシステム環境の一例であって、本発明の用途または機能の範囲に関して何ら制限を示唆するものではない。コンピューティングシステム環境100は、模範的な実行環境100の中に図示されたコンポーネントのうちのいずれかもしくはそれらの組み合わせに依存すると、又はそれらを必須とすると解釈してはならない。
本発明は大多数の他の汎用又は専用コンピューティングシステム環境又は構成で実行可能である。本発明の使用に適した既知のコンピューティングシステム、環境および/または構成の例としては、これらに限られないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルド装置又はラップトップ装置、マルチプロセッサシステム、マイクロプロセッサシステム、セットトップボックス、プログラマブル・コンシューマ・エレクトロニクス、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話システム、これらシステムもしくは装置のいずれかを含む分散コンピューティング環境などがある。
本発明をコンピュータ実行可能命令の一般的な文脈で述べることができ、例えば、コンピュータによって実行されるプログラムモジュールなどである。一般的に、プログラムモジュールは、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を含み、特定のタスクの実行または特定の抽象的なデータタイプを構成するものである。プログラムおよびモジュールによって実行されるタスクは、以下で図を参照しながら述べる。当業者は、その記載および図の内容をコンピュータ実行可能命令として実装することができ、以下に述べるコンピュータ読取可能媒体のいずれに格納することもできる。
本発明は、分散コンピューティング環境によっても実施することができ、通信網を介して接続されている遠隔処理装置によってタスクが処理される。分散コンピューティング環境では、プログラムモジュールは、ローカルおよびリモートの両コンピュータのメモリストレージデバイスを含むストレージメディアに格納されている。
図1を参照すると、発明を実施するための例示的なシステムは、コンピュータ110の中に、汎用コンピューティングデバイスを含む。コンピュータ110の構成要素は、プロセッシングユニット120、システムメモリ130、およびステムバス121を含むが、これに限られない。システムバス121は、システムメモリを含むさまざまなシステムコンポーネントとプロセッシングユニット120を結合する。システムバス121は、メモリバス又はメモリコントローラを含む幾種類かのバス機構、周辺機器用バス、又は何種類かのバス機構のいずれかを用いたローカルバスの何れであってもよい。限定ではなく一例としては、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、又はメザニン(mezzanine)バスとして知られているPCI(Peripheral Component Interconnect)バスがある。
一般的にはコンピュータ110は、さまざまなコンピュータ読取可能メディアを含む。コンピュータ読取可能メディアは、コンピュータ110によってアクセス可能なメディアであればいずれでもよく、揮発性もしくは不揮発性のメディアおよび取り外し可能もしくは取り外し不可能なメディアの両方を含む。コンピュータ読取可能メディアは、これに限定されないが、コンピュータストレージメディアおよび通信メディアを含む。コンピュータストレージメディアは、コンピュータ読取可能命令、データ構造、プログラムモジュール又はその他のデータといった情報の格納のための方法もしくは技術によって実装された揮発性もしくは不揮発性または取り外し可能もしくは不可能なメディアの両者を含む。コンピュータストレージメディアは、これに限定されないが、RAM、ROM、EEPROM、フラッシュメモリ又はその他メモリ技術、CD−ROM、DVDまたは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他磁気ストレージデバイス、又は希望する情報の保存のために使用することができるメディアであって、コンピュータ110がアクセス可能なメディアを含む。通信メディアは、代表的には、搬送波または他の搬送方式で変調されたデータ信号の中のコンピュータ読取可能命令、データ構造、プログラムモジュール又は他のデータ含み、いずれかの情報配信メディアを含む。「変調されたデータ信号(modulated data signal)」とは、1または複数の信号の特徴の組を持つ信号、またはある意味ではその信号中に情報を符号化した信号である。限定ではなく一例としては、通信メディアは、有線ネットワークもしくはダイレクト・ワイヤード接続といった有線メディア、およびアコースティック、RF、赤外線もしくはその他の無線メディアを含む。上記のいずれの組み合わせもまたコンピュータ読取可能メディアの範囲内に含まれている。
システムメモリ130は、ストレージメディアを含み、ROM(read only memory)131やRAM(random access memory)132のような揮発性および/または不揮発性メモリの態様である。BIOS(Basic Input/Output System)133は、代表的にはROM131に蓄積されていて、スタートアップの間などにコンピュータ110内のエレメント間の情報の転送を助けるための基本的なルーチンを含む。RAM132は、代表的にはデータおよび/またはプログラムモジュールを含み、それは直ちにアクセス可能であり、および/またはプロセッシングユニット120によって現に操作される。限定ではなく一例としては、図1には、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136およびプログラムデータ137が図示されている。
コンピュータ110は、他の取り外し可能または取り外し不可能な揮発性または不揮発性のコンピュータストレージメディアを含むこともできる。単なる例として、図1には、取り外し不可能で不揮発性の磁気メディアからの読み出し又は書き込みをするハードディスクドライブ141、取り外し可能で不揮発性の磁気ディスク152からの読み出し又は書き込みをする磁気ディスクドライブ151、およびCD−ROMや他の光メディアのような取り外し可能で不揮発性の光ディスク156からの読み出し又は書き込みをする光ディクスドライブ155が記載されている。模範的な実行環境で使用できる他の取り外し可能もしくは不可能なまたは揮発性又は不揮発性のコンピュータストレージメディアは、磁気テープカセット、フラッシュメモリカード、DVD(digital versatile disks)、デジタルビデオテープ、半導体RAM、半導体ROMおよびその他の同種類のものを含む。ハードディスク141は、代表的には、インタフェース140のような取外し不可能メモリインタフェースを介してシステムバス121に接続されている。そして磁気ディスクドライブ151および光ディスクドライブ155は、代表的には、インタフェース150のような取外し可能メモリインタフェースを介してシステムバス121に接続されている。
上述しおよび図1に記載したドライブおよびそれらに関連するコンピュータストレージメディアは、コンピュータ110にコンピュータ読み取り可能な命令、データ構造、プログラムモジュールおよび他のデータを提供する。例えば、図1において、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を格納するものとして図示されている。これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136およびプログラムデータ137と同一のまたは異なるものとすることができることに注意されたい。オペレーションプログラム144、アプリケーションプログラム145、他のプログラムモジュール146およびプログラムデータ147は、図中異なる番号を付されており、少なくともそれらは、異なるコピーである。
ユーザは、キーボード162、マイクロフォン163、およびマウス、トラックボールもしくはタッチパッドのようなポインティングデバイス161といった入力デバイスを介してコンピュータ110に命令および情報を入力する。(図示しない)他の入力デバイスとしては、ジョイスティック、ゲームパッド、衛星アンテナ、スキャナーなどを含むことができる。これらおよび他の入力デバイスはしばしば、システムバスに接続されたユーザ入力インタフェース160を介して、プロセッシングユニット120に接続されるが、例えば、パラレルポート、ゲームポートもしくはUSB(universal serial bus)といった他のインタフェースおよびバス機構によって接続されることも可能である。モニター191または他のタイプの表示装置もまた、ビデオインタフェース190のようなインタフェースを介してシステムバス121に接続されている。モニターに加えて、コンピュータは、スピーカー197およびプリンタ196のような他の出力周辺装置を含んでいて、それらは出力周辺装置インタフェース195を介して接続され得る。
コンピュータ110は、リモートコンピュータ180のような一または複数のリモートコンピュータと論理的に接続されているネットワーク環境で稼動することが可能である。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルド装置、サーバー、ルーター、ネットワークPC、ピア装置(Peer device)、もしくは他の共通したネットワークノードであってもよく、代表的には、コンピュータ110に関係する上述の多数または全てを含んでもよい。図1中に描かれた論理的接続はLAN(local area network)171およびWAN(wide area network)173を含むが、他のネットワークを含んでもよい。そのようなネットワーク環境とは、オフィス内の一般的なもの、企業単位のコンピュータネットワーク、イントラネットおよびインターネットである。
LAN環境で使用される場合は、コンピュータ110はネットワークインタフェースまたはアダプタ170を介してLAN171に接続される。WAN環境で使用される場合は、コンピュータ110は、代表的には、モデム172またはインターネットのようなWAN173上で通信を確立するための他の手段を含んでいる。モデム172は、内臓もしくは外付けでもよく、ユーザ入力インタフェース160または他の適当な仕組みを介してシステムバス121に接続されていてもよい。ネットワーク環境において、コンピュータ110に関連して描かれているプログラムモジュールまたはそれらの一部は、遠隔のメモリストレージデバイスに格納されていてもよい。限定ではなく一例としては、図1は、リモートコンピュータ180に内在するリモートアプリケーションプログラム185を図示している。図示のネットワーク接続は例示的なものであり、コンピュータ間の通信リンクを確立する他の手段が用いられることもあると解釈されたい。
図2は、モバイルデバイス200のブロック図で、典型的なコンピューティング環境である。モバイルデバイス200は、マイクロプロセッサ202、メモリ204、入出力(I/O)コンポーネント206、およびリモートコンピュータもしくは他のモバイルデバイスとの通信のための通信インタフェース208を含む。一実施態様として、前述のコンポーネントは通信中は適切なバス210によって他のコンポーネントと結合される。
メモリ204は、不揮発性電子メモリとして実装されていて、電源バックアップモジュール(図示されていない)を備えたランダムアクセスメモリ(RAM)などであり、モバイルデバイス200に対する共通の電源が切られたときにメモリ204に格納されている情報が消失しない。メモリ204の一部分は好ましくはプログラムの実行のためのアドレス可能なメモリとして割り当てられ、メモリ204の他の部分は、好ましくはディスクドライブのストレージと見なすなど、ストレージとして使用される。
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214、オブジェクトストア216を含む。実行中は、オペレーティングシステム212は好ましくは、プロセッサ202によってメモリ204から実行される。好ましい実施形態において、オペレーティングシステム212は、マイクロソフトコーポレーションによって販売されているWINDOWS(登録商標)CEオペレーティングシステムである。オペレーティングシステム212は、好ましくはモバイルデバイス用に設計されており、データベース機能を実装する。データベース機能は、表示されたアプリケーションプログラミングインタフェースおよびメソッドのセットを介してアプリケーション214によって利用される。オブジェクトストア216内のオブジェクトは、アプリケーション214およびオペレーティングシステム212によって、少なくとも表示されたアプリケーションプログラミングインタフェースまたはメソッドへの呼び出しに対する応答の中で、保全維持される。
通信インタフェース208は、モバイルデバイス200が情報を送信および受信することを許容する大多数のデバイスおよび技術を意味する。そのデバイスは、有線および無線のモデム、衛星受信チューナなどを含む。また、モバイルデバイス200は直接コンピュータに接続され、そこでデータを交換することもある。この場合には、通信インタフェース208は、赤外線通信用トランシーバまたはシリアルもしくはパラレル通信コネクションの可能性があり、これら全てにおいて情報を転送することが可能である。
入出力(I/O)コンポーネント206は、接触感知スクリーン、ボタン、ローラー、およびマイクロフォンといったさまざまな入力デバイス、オーディオジェネレータ、バイブレーションデバイス、およびディスプレイといったさまざまな出力デバイスも含む。上記に列挙したデバイスは例であり、モバイルデバイス200が全てを備えている必要はない。さらに、本発明の範囲内において、他の入出力デバイスがモバイルデバイス200に付加されまたは含まれていることもある。
本発明は、MAP(maximum a posterior)基準に基づいたノイズ推定を提供する。図示した実施形態では、このアルゴリズムは、再帰的期待値最大化の構成(recursive-Expectation-Maximization framework)におけるML(maximum likelihood)基準に基づく。MAP基準に基づいたノイズ推定法について述べる前に、はじめにML基準について述べる。
概括して、本発明は、再帰的アルゴリズムを用いて、ノイズを含んだ信号の各フレームにおけるノイズを推定する。再帰的アルゴリズムは、少なくとも一つの近隣のフレームで発見された推定ノイズを部分的に基準とする。一つのフレームの推定ノイズは、繰り返して特定される。直前の反復で特定された推定ノイズは、次の反復でノイズ推定の計算に用いられる。この反復処理を通じて、ノイズ推定は反復毎に各フレームの推定ノイズを改善する。
一実施形態では、推定ノイズは再帰関数を用いて計算される。再帰関数は、EQ.1のノイズ(noise)、ノイズを含まない信号(clean signal)およびノイズを含む信号(noisy signal)の間の非線形の関係に基づくものである。
Figure 2004264816
ここで、yはノイズを含む信号のフレームのケプストラム領域(cepstra domain)のベクトルを、xは同一のケプストラム領域にけるノイズを含まない信号のフレームのベクトルを、nは同一のケプストラム領域におけるノイズ信号のフレームのベクトルを、Cは離散コサイン変換行列およびIは単位行列(Identity matrix)を表す。
表記を簡単化するために、ベクトル関数をEQ.2として定義する。
Figure 2004264816
EQ.1を使うときの扱いやすさを改善するために、EQ.1の非線形の部分は、展開点
Figure 2004264816
として線形項に切り捨てされたテイラー級数展開を用いて近似される。
その結果はEQ.3となる。
Figure 2004264816
ここでGはg(z)の勾配であり、EQ.4として計算される。
Figure 2004264816
そして再帰関数が、ノイズを含んだ信号のフレームの推定ノイズの選択に用いられる再帰的期待値最大化(recursive-Expectation-Maximization)の最適化問題の解決策としてとして定義される。この結果、再帰的ノイズ推定式はEQ.5となる。
Figure 2004264816
ここでntは過去のフレームの推定ノイズであり、nt+1は現フレームの推定ノイズであり、st+1およびKt+1はEQ.6、EQ.7として定義される。
Figure 2004264816
ここで、Lt+1およびγt+1はEQ.8およびEQ.9である。
Figure 2004264816
そして、εは、忘却定数であり、現フレームの推定ノイズが過去のフレームを基礎とするときの次数を制御する。
Figure 2004264816
は、混合コンポーネントmにおける、ノイズ特性ベクトル(noisy feature vectors)yの分布の平均である。
Figure 2004264816
は、混合コンポーネントmにおけるノイズ特性ベクトルyの共分散行列である。EQ.3の関係を用いると、
Figure 2004264816
は、他の変数に関係して、EQ.10およびEQ.11に表される。
Figure 2004264816
ここで、
Figure 2004264816
は、混合コンポーネントmにおけるノイズを含まない特徴ベクトルxのガウス分布の平均であり、
Figure 2004264816
は、混合コンポーネントmにおけるノイズを含まない特徴ベクトルxの分布の共分散行列である。一実施形態では、各混合コンポーネントmにおける
Figure 2004264816
は、ノイズを含まない入力学習特徴ベクトルのセットから、定義される。入力学習特徴ベクトルはML学習法のような既知の方法の一つを用いて混合コンポーネントとしてまとめられる。
本発明では、現フレームnt+1の推定ノイズは、図3のフロー図に図示した再帰的方法を用いて、数回計算される。
図3の方法は、ステップ300から始まり、ノイズを含まない信号の混合モデル(clean signal mixture model)のための分布パラメータが、ノイズを含まない学習データ(clean training data)のセットから決定される。特に、
Figure 2004264816
、および混合重みcmが、M混合コンポーネントセット中の各混合コンポーネントmのために定義される。
ステップ302では、現在の反復jのためのテイラー級数近似の中で用いられる展開点
Figure 2004264816
が前のフレームで見出された推定ノイズと同一にセットされる。これは、EQ.12となる。
Figure 2004264816
EQ.12は、ノイズがフレーム間で大きく変化しないという仮定に基づくものである。したがって、現フレームのノイズの初期の推定として良好なのは、一つ前のフレームで見出されたノイズである。
ステップ304では、現在の反復のための展開点を用いて、
Figure 2004264816
を計算する。特に、
Figure 2004264816
はEQ.13として計算される。
Figure 2004264816
ここで、p(yt+1|m,nt)はEQ.14として、EQ.15、EQ.16と共に定義される。
Figure 2004264816
Figure 2004264816
が計算された後、ステップ306で
Figure 2004264816
はEQ.17を使って計算される。
Figure 2004264816
そして、ステップ308で
Figure 2004264816
はEQ.18を使って計算される。
Figure 2004264816
Figure 2004264816
が一度定義されると、ステップ310で現フレームおよび反復の推定ノイズがEQ.19のように定義される。
Figure 2004264816
ここで、αは変動パラメータであって、推定ノイズの更新割合を制御するものである。一実施形態では、αは、それぞれ分離した被検音声毎に、ノイズ変動についての大まかな推定に反比例するように設定されている。
ステップ312では、次の反復のためのテイラー級数展開点
Figure 2004264816
は、現反復
Figure 2004264816
で求められた推定ノイズと同一に設定される。この場合の式は、EQ.20である。
Figure 2004264816
EQ.20に図示されている更新ステップは、テイラー級数展開によって与えられる推定を更新し、それにしたがって、次の反復において
Figure 2004264816
の計算を更新する。
ステップ314では、反復カウンターjは、ステップ316の反復回数設定Jと比較される前に増加される。反復カウンターが反復回数設定Jよりも少なければ、反復は処理(継続)され、処理はステップ304戻り、更新された展開点を用いてステップ304、306,308,310,312,314および316が繰り返される。
ステップ316で、Jの反復が実行された後、現フレームの推定ノイズの最後の値が定義され、ステップ318で、次のフレームの変数が設定される。具体的には、反復カウンターjは零に設定され、フレーム値tは1増加され、次のフレームの最初の反復のための展開点n0は現フレームの推定ノイズと同一に設定される。
再帰的期待値最大化(recursive-Expectation-Maximization)の構成は予測のステップと最大化のステップとを含む。予測のステップでは、対象となる関数は、MAP基準またはMAP補助関数とともにEQ.21で与えられる。
Figure 2004264816
ここで、QML(nt)は上述のML補助関数で、p(nt)はノイズntのガウスの固定された事前分布である、そしてρは変動要因である。
EQ.21では、ρlogp(nt)の項は事前情報として参照される。その意味では、事前情報は、例えば、ytの結果といったデータを何も情報として含まず、ノイズのみに基づいている。反対に、補助関数QML(nt)は、ytの結果およびノイズntの両方に基づいている。事前情報は実際に、ノイズが落ち込むレンジを与えることによって、QML(nt)を導き出す。変動要因ρの拡大縮小は、ML補助関数QML(nt)に関連する事前情報に重み付けをする。
特に、事前情報は、p(nt)は音声の無音部分から取得される。ある音声の例である図4を参照すると、与えられたパターン信号350は、先行部分352と次に後続部分354を有し、これらは音声を含まない、すなわちノイズのみからなる部分である。図4中の部分356は音声データを表す。事前情報は部分352および356の一方もしくは両方を基準とすることができる。事前情報は、ガウス平均および分散によって作られる。例えば、一実施態様として、事前情報を計算するために使われる部分を、レベル検知器によって特定することができ、レベル検知器は含まれるレベルまたはエネルギーが超えている場合に対応する部分を音声データとして特定し、他方選択したレベルまたはエネルギーを超えない部分は事前情報のための部分として特定され計算に用いられる。しかしながら、事前情報の計算はそれらの与えられた音声350のうちの音声部分356の直近の部分に限られないことは言うまでもない。
EQ.20に戻って、ML補助関数QML(nt)は次の条件付期待値としてEQ.22と表すことができる。
Figure 2004264816
ここで、EQ.22に忘却定数εを取り入れるとEQ.23となる。
Figure 2004264816
忘却定数εは変動するノイズを捕らえるためのアルゴリズムの能力と推定ノイズの信頼性との間のバランスを制御する。
Figure 2004264816
は、フレームtまでの音声モデルの混合コンポーネントの系列である。ξT(m)=p(m|yT,nT-1)は事後確率である。
ここに図示された忘却定数εの指数減衰は、忘却定数(例えば、重み)のための一つの分布であることはいうまでもない。ここで与えられた例は、限定するものと考えられるべきではない。なぜならば、当業者はとって、忘却定数のために他の分布を用いることができるということは当然だからである。
事後確率はEQ.24のベイスの定理を用いて計算される。
Figure 2004264816
ここで、尤度p(m|yT,nT-1)はEQ.25の平均および分散と共にガウスによって近似される。
Figure 2004264816
上記の式では、gmおよびGmは計算できる量で、ノイズを含む音声y、ノイズを含まない音声xおよびノイズn(全ては対数スペクトルの形である)の関係を線形的に近似するためのものである。Σnは、事前ノイズの事前分布関数p(nt)の固定の分散(ハイパーパラメータ)であり、事前分布関数p(nt)は(μnの平均固定ハイパーパラメータとともに)ガウスに近似される。最終的に、n0は、ノイズのテイラー級数展開点で、以下で述べる最大化ステップの中でMAP推定によって反復して更新される。
最大化ステップでは、EQ.26の設定によりntの推定が得られる。
Figure 2004264816
EQ.25では、
Figure 2004264816
がntの線形関数であるから、次のEQ.27が得られる。
Figure 2004264816
EQ.25をEQ.27に代入し、ntについて解くと、ノイズのMAP推定はEQ.28によって表される。
Figure 2004264816
ここで、sおよびKは次式である。
Figure 2004264816
上記のsおよびKは、st-1およびKt-1の計算結果を用いて、再帰MLノイズ推定について上述したのと同様の再帰によって効率的に計算される。一実施形態では、Kについての効率的な再帰計算はEQ.29のように表される。
Figure 2004264816
一般的に、図3に図示された反復は、図5に図示されるようにノイズのMAP推定の中で起こる。しかしながら、ステップ302の前の付加的なステップ301は、それぞれの音声に対する事前情報の計算を含み、ここでステップ302,304,306,308,310,312,314,316および318は、それぞれの音声に対して実行される。(ξはγに等しいことに注意されたい。)最初に、n0は、事前情報の平均値μnと等しく設定することができる。
ρが零に設定され、またはノイズの事前分布の分散が無限大になった時に、EQ.27のMAP推定は上述のMLノイズ推定に戻ることが注目されるべきである。これらの極端なケースでは、ノイズの事前分布は、ノイズ推定に関してはなんら情報を与えないものと考えられる。
事前情報の分散が小さいと、ノイズnのMAP推定は、μnとほぼ同一であることに注目されるべきである。図4を見ると、部分352および354はほとんど同じで、それゆえ、観測部分356の推定ノイズは事前情報の平均μnと実質的に同じである(この場合は、ρおよびΣnによって支配されているρμn/Σnおよびρ/Σnは相殺することになる。)
上述したノイズ推定技術は、発明の名称「METHOD OF NOISE REDUCTION USING CORRECTION VECTORS BASED OG DYNAMIC ASPECTS OF SPEECH AND NOISE NORMALIZATION」、出願日2002年4月5日、米国特許出願番号10/117,142、に記載されているノイズの正規化技法、またはノイズ除去の中で用いられる。また本発明はより直接的には、2002年9月6日に米国特許出願された、発明の名称「NON-LINEAR OBSERVATION MODEL FOR REMOBING NOISE FROM CORRUPTED SIGNALS」、米国特許出願番号10/237,163中に記載されている、ノイズ除去システムの一部として用いることができ、フレーム毎に特定された推定ノイズがノイズを含んだ信号から除去され、ノイズを含まない信号を生成するノイズ除去システムの一部として使われ得る。
図6は、ブロック図であり、本発明のノイズ推定技法がノイズ除去の実行に用いることができる環境を図示する。特に、図6は、音声認識システムを示し、本発明のノイズ推定技術が用いられ、学習信号および/または被検信号のノイズが除去される。学習信号は音響モデルを学習するために用いられる信号であり、被検信号はその言語的内容を特定するために音響モデルと対比される信号である。
図6中、トレーナーまたはユーザのいずれかである話者400は、マイクロフォン404に向かって話す。マイクロフォン404は、一または複数のノイズ源からの付加ノイズ402を受信する。マイクロフォン404によって検出された音響信号は、アナログ・デジタル変換部406に供給され電気信号に変換される。
図6中の具体例では、付加ノイズ402はマイクロフォン404を介して入り込むが、他の実施形態ではアナログ・デジタル変換部406でデジタル信号化された入力音声信号に付加ノイズ402が付加される場合もある。
アナログ・デジタル変換部406は、マイクロフォン404から入力されるアナログ信号をデジタルの系列に変換する。いくつかの実施形態では、アナログ・デジタル変換部406はアナログ信号を16kHzでサンプリングし、1サンプルあたり16bitで標本化することで、毎秒32kbyteの音声データを生成する。これらのデジタルの値は、フレーム化部407へ供給される。一例としては、そこで、始まりの位置が10ミリ秒間隔である25ミリ秒のフレームにグループ化される。
フレーム化部407によって生成されたデータのフレームは、特徴抽出部408へ供給され、個々のフレームから特徴を抽出する。特徴抽出モジュールの例は、LPC(Linear Predictive Coding)、PLP(Perceptive Linear Prediction)、聴覚モデル特徴抽出(Auditory model feature extraction)、および、MFCC(Mel-Frequency Cepstrum Coefficient)特徴抽出を処理するためのモジュールを含む。本発明は、これらの特徴抽出モジュールに限定されることなく、本発明の内容の範囲内で他のモジュールを用いることも可能であることに注意されたい。
特徴抽出モジュールは、それぞれ音声信号のフレームと関係付けされた特徴ベクトルのストリームを生成する。この特徴ベクトルのストリームは、ノイズ除去モジュール410に供給され、そこで各フレームのノイズを推定するために本発明のノイズ推定技術が用いられる。
ノイズ除去モジュール410の出力は「ノイズを含まない」特徴ベクトルの系列である。入力信号が学習信号であれば、この「ノイズを含まない」特徴ベクトルの系列は学習部424に供給される。学習部424は「ノイズを含まない」特徴ベクトルおよび学習テキスト426を使用して、音響モデル418に学習させる。そのようなモデルをトレーニングするテクニックは本技術分野ではよく知られており、それらについての詳細な説明は本発明を理解するためには必要とされない。
入力信号が被検信号の場合、「ノイズを含まない」特徴ベクトルは復号部412へ供給され、復号部412は、特徴ベクトルのストリーム、辞典414、言語モデル416および音響モデル418を基に最も尤もらしい文字列を特定する。復号に用いられる詳細な方法は、本発明にとっては重要ではなく、既知の復号方法の何れが用いられてもよい。
仮定した文字列の最も確からしい結果が、信頼測定モジュール420へ供給される。信頼測定モジュール420は、(図示しない)第二の音響モデルの一部に基づいて、声認識部によって誤って特定されてしまった見込みが最も高い文字列を特定する。信頼測定モジュール420は、そして、仮定した文字列の結果を、不適当と識別された結果を示す識別子と共に、出力モジュール422へ供給する。当業者には、信頼測定モジュール420が本発明の実施に必要なものではないということが解るだろう。
図6は音声認識システムを図示するものであるが、本発明はいかなるパターン認識システムにも用いることができ、音声に限られない。
本発明は、特定の実施形態に即して述べられているが、当業者は、発明の精神および範囲を離脱することなく、態様および細部を変更できるということが解るだろう。
本発明を実施することができる計算機環境のブロック図である。 本発明を実施することができる別の計算機環境のブロック図である。 本発明の一実施形態におけるノイズ推定の方法のフロー図である。 音声を描画的に表した図である。 他の一実施形態におけるノイズ推定の方法のフロー図である。 本発明を用いることができるパターン認識システムのブロック図である。
符号の説明
100 コンピューティングシステム環境
110 コンピュータ
120 プロセッシングユニット
121 ステムバス
130 システムメモリ
131 ROM
132 RAM
133 BIOS(Basic Input/Output System)
134 オペレーティングシステム
135 アプリケーションプログラム
136 他のプログラムモジュール
137 プログラムデータ
140 取外し不可能不揮発性メモリインタフェース
141 ハードディスクドライブ
144 オペレーティングシステム
145 アプリケーションプログラム
146 他のプログラムモジュール
147 プログラムデータ
150 取外し可能不揮発性メモリインタフェース
151 磁気ディスクドライブ
152 取り外し可能で不揮発性の磁気ディスク
155 光ディクスドライブ155
156 取り外し可能で不揮発性の光ディスク
160 ユーザ入力インタフェース
161 ポインティングデバイス
162 キーボード
163 マイクロフォン
170 ネットワークインタフェース
171 LAN(local area network)
172 モデム
173 WAN(wide area network)
180 リモートコンピュータ
185 リモートアプリケーションプログラム
190 ビデオインタフェース
191 モニター
195 出力周辺装置インタフェース
196 プリンタ
197 スピーカー

Claims (19)

  1. ノイズを含んだ信号中のノイズを推定するための方法であって、
    該ノイズを含んだ信号をフレームに分割すること、
    前記ノイズを含んだ信号の第1のフレームの推定ノイズを決定すること、
    前記ノイズを含んだ信号の第2のフレームの推定ノイズを、前記第1のフレームの推定ノイズの一部に基づいて決定すること、および、
    前記第2のフレームの推定ノイズおよび前記第1のフレームの推定ノイズを、再帰的期待値最大化における最適問題を解決する更新式の中で用いることであって、各推定ノイズが最大事後確率基準の関数となっていること
    を備えたことを特徴とする方法。
  2. 請求項1に記載の方法であって、前記更新式は、ノイズを含まない信号およびノイズ信号の非線形関数とする前記ノイズを含んだ信号の定義の一部に基づくことを特徴とする方法。
  3. 請求項2に記載の方法であって、前記更新式は更に非線形関数への近似に基づくことを特徴とする方法。
  4. 請求項3に記載の方法であって、該近似は、前記第2のフレームの推定ノイズによって一部が定義される点における非線形関数と等しいことを特徴とする方法。
  5. 請求項4に記載の方法であって、前記近似は、テイラー級数展開であることを特徴とする方法。
  6. 請求項1に記載の方法であって、前記第2のフレームの推定ノイズを用いることは、非線形関数のテイラー級数展開の展開点として前記第2のフレームの推定ノイズを用いることを含むことを特徴とする方法。
  7. 請求項1に記載の方法であって、各推定ノイズは最尤基準の関数であることを特徴とする方法。
  8. ノイズを含んだ信号をフレームに分割するステップと、および
    最大事後確率基準の関数としての再帰的期待最大化計算である更新式を用いて反復して各フレームのノイズを推定するステップであって、少なくとも現フレームの反復において、前記推定されたノイズは、少なくとも一つの他のフレームの推定ノイズおよび現フレームの別の前の反復で得られた推定ノイズに基づくステップと
    を実行するコンピュータ実行可能命令を記録したコンピュータ読取可能媒体。
  9. 請求項8に記載したコンピュータ読取可能媒体であって、あるフレームにおける反復的なノイズの推定が、少なくとも一つの関数を評価するために現フレームにおける先の反復で得られた推定ノイズを用いることを備えている、コンピュータ読取可能媒体。
  10. 請求項9に記載のコンピュータ読取可能媒体であって、該少なくとも一つの関数は、ノイズを含む信号はノイズを含まない信号およびノイズ信号と非線形の関係を有するという仮定に基づくことを特徴とする、コンピュータ読取可能媒体。
  11. 請求項10に記載のコンピュータ読取可能媒体であって、少なくとも一つの関数は、ノイズを含む信号、ノイズを含まない信号およびノイズ信号の間の非線形の関係に近似することに基づくことを特徴とする、コンピュータ読取可能媒体。
  12. 請求項11に記載のコンピュータ読取可能媒体であって、該近似は、テイラー級数近似であることを特徴とする、コンピュータ読取可能媒体。
  13. 請求項12に記載のコンピュータ読取可能媒体であって、現フレームについての先の反復で得られた推定ノイズが、テイラー級数展開の展開点の選択に用いられることを特徴とする、コンピュータ読取可能媒体。
  14. 請求項13に記載のコンピュータ読取可能媒体であって、前記再帰的期待最大化計算は、最尤基準の関数であることを特徴とする、コンピュータ読取可能媒体。
  15. 請求項8に記載のコンピュータ読取可能媒体であって、前記最大事後確率基準は、ノイズのみの関数である事前情報を含むことを特徴とする、コンピュータ読取可能媒体。
  16. 請求項9に記載のコンピュータ読取可能媒体であって、更に、事前情報の推定ノイズを計算する命令を備えることを特徴とする、コンピュータ読取可能媒体。
  17. 請求項16に記載のコンピュータ読取可能媒体であって、該事前情報の推定ノイズは反復ノイズ推定において最初に用いられることを特徴とする、コンピュータ読取可能媒体。
  18. 請求項8に記載のコンピュータ読取可能媒体であって、更に、前記推定ノイズを前期ノイズを含む信号に含まれるノイズを低減するために用いることを含むことを特徴とする、コンピュータ読取可能媒体。
  19. 請求項8に記載のコンピュータ読取可能媒体であって、更に、前記推定ノイズをノイズの平準化のために用いることを含むことを特徴とする、コンピュータ読取可能媒体。
JP2003316038A 2002-09-06 2003-09-08 再帰的構成における反復ノイズ推定法 Expired - Fee Related JP4491210B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/237,162 US7139703B2 (en) 2002-04-05 2002-09-06 Method of iterative noise estimation in a recursive framework

Publications (2)

Publication Number Publication Date
JP2004264816A true JP2004264816A (ja) 2004-09-24
JP4491210B2 JP4491210B2 (ja) 2010-06-30

Family

ID=31715333

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003316038A Expired - Fee Related JP4491210B2 (ja) 2002-09-06 2003-09-08 再帰的構成における反復ノイズ推定法

Country Status (5)

Country Link
US (1) US7139703B2 (ja)
EP (1) EP1396845B1 (ja)
JP (1) JP4491210B2 (ja)
AT (1) ATE353157T1 (ja)
DE (1) DE60311548T2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094388A (ja) * 2005-09-26 2007-04-12 Samsung Electronics Co Ltd 音声区間検出装置及び音声区間検出方法
JP2009031425A (ja) * 2007-07-25 2009-02-12 Nec Corp 雑音推定装置と方法およびプログラム
JP2009535674A (ja) * 2006-05-01 2009-10-01 日本電信電話株式会社 音源と室内音響の確率モデルに基づく音声残響除去のための方法及び装置
JP2012504250A (ja) * 2008-09-29 2012-02-16 株式会社東芝 音声認識方法
JP5709179B2 (ja) * 2010-07-14 2015-04-30 学校法人早稲田大学 隠れマルコフモデルの推定方法,推定装置および推定プログラム

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7660705B1 (en) 2002-03-19 2010-02-09 Microsoft Corporation Bayesian approach for learning regression decision graph models and regression models for time series analysis
US7103540B2 (en) * 2002-05-20 2006-09-05 Microsoft Corporation Method of pattern recognition using noise reduction uncertainty
US7107210B2 (en) * 2002-05-20 2006-09-12 Microsoft Corporation Method of noise reduction based on dynamic aspects of speech
US8228849B2 (en) * 2002-07-15 2012-07-24 Broadcom Corporation Communication gateway supporting WLAN communications in multiple communication protocols and in multiple frequency bands
ES2297083T3 (es) 2002-09-04 2008-05-01 Microsoft Corporation Codificacion entropica por adaptacion de la codificacion entre modos por longitud de ejecucion y por nivel.
US7580813B2 (en) * 2003-06-17 2009-08-25 Microsoft Corporation Systems and methods for new time series model probabilistic ARMA
US7596475B2 (en) * 2004-12-06 2009-09-29 Microsoft Corporation Efficient gradient computation for conditional Gaussian graphical models
US7421380B2 (en) * 2004-12-14 2008-09-02 Microsoft Corporation Gradient learning for probabilistic ARMA time-series models
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
GB2437868B (en) * 2005-05-09 2009-12-02 Toshiba Res Europ Ltd Noise estimation method
GB2426167B (en) * 2005-05-09 2007-10-03 Toshiba Res Europ Ltd Noise estimation method
US7693709B2 (en) * 2005-07-15 2010-04-06 Microsoft Corporation Reordering coefficients for waveform coding or decoding
US7684981B2 (en) * 2005-07-15 2010-03-23 Microsoft Corporation Prediction of spectral coefficients in waveform coding and decoding
US20070033034A1 (en) * 2005-08-03 2007-02-08 Texas Instruments, Incorporated System and method for noisy automatic speech recognition employing joint compensation of additive and convolutive distortions
US20070033027A1 (en) * 2005-08-03 2007-02-08 Texas Instruments, Incorporated Systems and methods employing stochastic bias compensation and bayesian joint additive/convolutive compensation in automatic speech recognition
US7933337B2 (en) 2005-08-12 2011-04-26 Microsoft Corporation Prediction of transform coefficients for image compression
US7617010B2 (en) * 2005-12-28 2009-11-10 Microsoft Corporation Detecting instabilities in time series forecasting
JP4245617B2 (ja) * 2006-04-06 2009-03-25 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP4316583B2 (ja) * 2006-04-07 2009-08-19 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8335685B2 (en) 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
US8326620B2 (en) 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US8184710B2 (en) 2007-02-21 2012-05-22 Microsoft Corporation Adaptive truncation of transform coefficient data in a transform-based digital media codec
JP2009086581A (ja) * 2007-10-03 2009-04-23 Toshiba Corp 音声認識の話者モデルを作成する装置およびプログラム
US7844555B2 (en) * 2007-11-13 2010-11-30 Microsoft Corporation Ranker selection for statistical natural language processing
US8306817B2 (en) * 2008-01-08 2012-11-06 Microsoft Corporation Speech recognition with non-linear noise reduction on Mel-frequency cepstra
US8185480B2 (en) * 2008-04-02 2012-05-22 International Business Machines Corporation System and method for optimizing pattern recognition of non-gaussian parameters
US8179974B2 (en) 2008-05-02 2012-05-15 Microsoft Corporation Multi-level representation of reordered transform coefficients
US8325909B2 (en) * 2008-06-25 2012-12-04 Microsoft Corporation Acoustic echo suppression
US8406307B2 (en) 2008-08-22 2013-03-26 Microsoft Corporation Entropy coding/decoding of hierarchically organized data
US9159335B2 (en) * 2008-10-10 2015-10-13 Samsung Electronics Co., Ltd. Apparatus and method for noise estimation, and noise reduction apparatus employing the same
GB2471875B (en) * 2009-07-15 2011-08-10 Toshiba Res Europ Ltd A speech recognition system and method
KR101581885B1 (ko) * 2009-08-26 2016-01-04 삼성전자주식회사 복소 스펙트럼 잡음 제거 장치 및 방법
US20110178800A1 (en) * 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US8880393B2 (en) * 2012-01-27 2014-11-04 Mitsubishi Electric Research Laboratories, Inc. Indirect model-based speech enhancement
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0850499A (ja) * 1994-06-21 1996-02-20 At & T Corp 信号識別方法
JPH0863182A (ja) * 1994-07-19 1996-03-08 Matsushita Electric Ind Co Ltd 自己学習話者適応音声認識方法
JPH08506434A (ja) * 1993-11-30 1996-07-09 エイ・ティ・アンド・ティ・コーポレーション 通信システムにおける伝送ノイズ低減
WO2000068936A1 (en) * 1999-05-07 2000-11-16 Imagination Technologies Limited Cancellation of non-stationary interfering signals for speech recognition

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852181A (en) 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
IL84948A0 (en) 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
US5148489A (en) 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
US5604839A (en) 1994-07-29 1997-02-18 Microsoft Corporation Method and system for improving speech recognition through front-end normalization of feature vectors
US5924065A (en) 1997-06-16 1999-07-13 Digital Equipment Corporation Environmently compensated speech processing
CA2216224A1 (en) 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
US6343267B1 (en) * 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
KR100304666B1 (ko) 1999-08-28 2001-11-01 윤종용 음성 향상 방법
US20030055640A1 (en) * 2001-05-01 2003-03-20 Ramot University Authority For Applied Research & Industrial Development Ltd. System and method for parameter estimation for pattern recognition
US6944590B2 (en) 2002-04-05 2005-09-13 Microsoft Corporation Method of iterative noise estimation in a recursive framework
US7107210B2 (en) * 2002-05-20 2006-09-12 Microsoft Corporation Method of noise reduction based on dynamic aspects of speech
US20040064314A1 (en) 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08506434A (ja) * 1993-11-30 1996-07-09 エイ・ティ・アンド・ティ・コーポレーション 通信システムにおける伝送ノイズ低減
JPH0850499A (ja) * 1994-06-21 1996-02-20 At & T Corp 信号識別方法
JPH0863182A (ja) * 1994-07-19 1996-03-08 Matsushita Electric Ind Co Ltd 自己学習話者適応音声認識方法
WO2000068936A1 (en) * 1999-05-07 2000-11-16 Imagination Technologies Limited Cancellation of non-stationary interfering signals for speech recognition
JP2002544552A (ja) * 1999-05-07 2002-12-24 イマジネーション テクノロジーズ リミティド 音声認識のための非定常の干渉信号のキャンセル

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094388A (ja) * 2005-09-26 2007-04-12 Samsung Electronics Co Ltd 音声区間検出装置及び音声区間検出方法
JP2009535674A (ja) * 2006-05-01 2009-10-01 日本電信電話株式会社 音源と室内音響の確率モデルに基づく音声残響除去のための方法及び装置
JP4880036B2 (ja) * 2006-05-01 2012-02-22 日本電信電話株式会社 音源と室内音響の確率モデルに基づく音声残響除去のための方法及び装置
US8290170B2 (en) 2006-05-01 2012-10-16 Nippon Telegraph And Telephone Corporation Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics
JP2009031425A (ja) * 2007-07-25 2009-02-12 Nec Corp 雑音推定装置と方法およびプログラム
JP2012504250A (ja) * 2008-09-29 2012-02-16 株式会社東芝 音声認識方法
US8417522B2 (en) 2008-09-29 2013-04-09 Kabushiki Kaisha Toshiba Speech recognition method
JP5709179B2 (ja) * 2010-07-14 2015-04-30 学校法人早稲田大学 隠れマルコフモデルの推定方法,推定装置および推定プログラム

Also Published As

Publication number Publication date
US7139703B2 (en) 2006-11-21
DE60311548T2 (de) 2007-05-24
US20030191641A1 (en) 2003-10-09
EP1396845A1 (en) 2004-03-10
JP4491210B2 (ja) 2010-06-30
ATE353157T1 (de) 2007-02-15
EP1396845B1 (en) 2007-01-31
DE60311548D1 (de) 2007-03-22

Similar Documents

Publication Publication Date Title
JP4491210B2 (ja) 再帰的構成における反復ノイズ推定法
US7617098B2 (en) Method of noise reduction based on dynamic aspects of speech
JP4824286B2 (ja) 漸進的ベイズ学習を使用する雑音推定の方法
US7289955B2 (en) Method of determining uncertainty associated with acoustic distortion-based noise reduction
KR101201146B1 (ko) 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법
US6985858B2 (en) Method and apparatus for removing noise from feature vectors
JP4219774B2 (ja) 劣化信号から雑音を除去する非線形観測モデル
US20060206325A1 (en) Method of pattern recognition using noise reduction uncertainty
US20060053008A1 (en) Noise robust speech recognition with a switching linear dynamic model
US6944590B2 (en) Method of iterative noise estimation in a recursive framework

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060815

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100330

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100405

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130409

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4491210

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130409

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140409

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees