JP2005070779A - 調波モデルに基づくフロントエンドを使用する頑強な音声認識のための方法および装置 - Google Patents

調波モデルに基づくフロントエンドを使用する頑強な音声認識のための方法および装置 Download PDF

Info

Publication number
JP2005070779A
JP2005070779A JP2004239995A JP2004239995A JP2005070779A JP 2005070779 A JP2005070779 A JP 2005070779A JP 2004239995 A JP2004239995 A JP 2004239995A JP 2004239995 A JP2004239995 A JP 2004239995A JP 2005070779 A JP2005070779 A JP 2005070779A
Authority
JP
Japan
Prior art keywords
harmonic
harmonic component
component
speech signal
random
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004239995A
Other languages
English (en)
Other versions
JP4731855B2 (ja
JP2005070779A5 (ja
Inventor
Michael L Seltzer
エル.セルツァー マイケル
James Droppo
ドロッポ ジェームズ
Alejandro Acero
アセロ アレハンドロ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005070779A publication Critical patent/JP2005070779A/ja
Publication of JP2005070779A5 publication Critical patent/JP2005070779A5/ja
Application granted granted Critical
Publication of JP4731855B2 publication Critical patent/JP4731855B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Noise Elimination (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】 音声信号中の雑音を低減するシステムおよび方法を提供すること。
【解決手段】 本システムおよび方法は、雑音のある音声信号を調波成分と残余成分とに分解する。次いで、調波成分と残余成分とを和として結合して、雑音が低減された値を形成する。いくつかの実施形態では、和は重み付けされた和であり、この場合、調波成分がスケーリング係数によって乗算される。いくつかの実施形態では、雑音が低減された値が音声認識で使用される。
【選択図】 図4

Description

本発明は、雑音低減に関する。より詳細には、本発明は、音声認識で使用される信号から雑音を除去することに関する。
音声認識システムなどのパターン認識システムは、入力信号をとり、この信号を復号して、この信号で表されるパターンを見つけようとする。例えば音声認識システムでは、音声信号(しばしばテスト信号と呼ばれる)が、認識システムによって受け取られ、復号されて、音声信号で表される単語列が識別される。
入来テスト信号を復号するために、ほとんどの認識システムは、テスト信号の一部が特定のパターンを表す尤度を記述する1つまたは複数のモデルを利用する。このようなモデルの例としては、ニューラルネット、ダイナミックタイムワーピング、セグメントモデル、隠れマルコフモデルがある。
入来信号の復号にモデルを使用することができるようになる前に、モデルをトレーニングしなければならない。これは通常、既知のトレーニングパターンから生成された入力トレーニング信号を測定することによって行われる。例えば音声認識では、話者が既知のテキストから読み上げることによって、音声信号の集まりを生成する。次いで、これらの音声信号を使用してモデルをトレーニングする。
モデルが最適に動作するためには、モデルをトレーニングするのに使用される信号が、復号される最終的なテスト信号に類似しているべきである。具体的には、トレーニング信号は、復号されるテスト信号と同じ量および同じタイプの雑音を有するべきである。
通常、トレーニング信号は、「クリーンな」条件下で収集され、相対的に無雑音と考えられる。これと同じ低レベルの雑音をテスト信号で実現するために、多くの従来技術のシステムが、テスト用データに雑音低減技法を適用している。
雑音を除去する1つの技法は、様々な雑音条件の下で収集されたトレーニング信号のセットを使用して、雑音をモデル化しようとすることである。しかし、このようなシステムは、トレーニング信号の雑音条件がテスト信号の雑音条件と合致する場合にのみ有効である。可能性のある雑音の数は多く、また雑音の組合せは無限と思われるので、あらゆるテスト条件を扱うことのできる雑音モデルを構築するのは非常に難しい。
雑音を除去する別の技法は、雑音を推定し、次いでこれを雑音のある音声信号から減算するものである。通常、このようなシステムは、入力信号の前フレームから雑音を推定する。したがって、雑音が時間と共に変化している場合、現在フレームに対する雑音の推定は不正確になるであろう。
音声信号中の雑音を推定するための従来技術の1つのシステムは、人間の音声の調波(harmonics)を使用している。人間の音声の調波は、周波数スペクトル中にピークを生じる。これらのピーク間のヌルを識別することによって、これらのシステムは雑音のスペクトルを識別する。次に、このスペクトルを雑音のある音声信号のスペクトルから減算して、クリーンな音声信号を提供する。
音声の調波はまた、デジタル通信経路を介した伝送のために音声を符号化する際に送らなければならないデータの量を削減するために、音声符号化でも使用されてきた。このようなシステムは、音声信号を調波成分とランダム成分とに分離することを試みる。次いで、各成分は、送信のために別々に符号化される。特にあるシステムは、正弦波の和のモデル(sum−of−sinusoids model)を音声信号に適合させて分解(decomposition)を行う調波+雑音モデル(harmonic+noise model)を使用するものであった。
音声符号化では、分解は、雑音のある入力音声信号を正確に表す音声信号のパラメータ化(parameterization)を求めるために行われる。分解は、雑音低減機能を持たず、したがって音声認識において有用ではなかった。
音声信号中の雑音を低減するシステムおよび方法を提供する。本システムおよび方法は、雑音のある音声信号を調波成分(harmonic component)と残余成分(residual component)とに分解する。次いで、調波成分と残余成分を和として結合して、雑音が低減された値を形成する。いくつかの実施形態では、和は重み付けされた和であり、調波成分はスケーリング係数によって乗算される。いくつかの実施形態では、雑音が低減された値を音声認識で使用する。
図1に、本発明を実施することのできる適したコンピューティングシステム環境100の一例を示す。コンピューティングシステム環境100は、適したコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲についていかなる制限を示唆するものではない。またコンピューティング環境100は、この例示的な動作環境100に示すコンポーネントのいずれか1つまたは組合せに関していかなる依存や要件を有するものとも解釈すべきではない。
本発明は、その他多くの汎用または専用のコンピューティングシステム環境または構成でも動作する。本発明と共に使用するのに適する可能性のある周知のコンピューティングシステム、環境、および/または構成の例には、限定しないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な民生用電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話システムや、上記のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれる。
本発明は、プログラムモジュールなど、コンピュータによって実行されるコンピュータ実行可能命令の一般的なコンテキストで述べることができる。一般にプログラムモジュールは、特定のタスクを実行するか特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明は分散コンピューティング環境で実施されるように設計されており、この場合、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実施される。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含むローカルおよびリモートの両方のコンピュータ記憶媒体に位置する。
図1を参照すると、本発明を実施するための例示的なシステムは、コンピュータ110の形の汎用コンピューティングデバイスを含んでいる。コンピュータ110のコンポーネントには、限定しないが、処理ユニット120、システムメモリ130、およびシステムメモリを含む様々なシステムコンポーネントを処理ユニット120に結合するシステムバス121を含むことができる。システムバス121は、様々なバスアーキテクチャのいずれかを用いた、メモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含むいくつかのタイプのバス構造のいずれかとすることができる。限定ではなく例として、このようなアーキテクチャには、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、PCI(Peripheral Component Interconnect)バス(メザニンバスとも呼ばれる)が含まれる。
コンピュータ110は通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110によってアクセスできる任意の利用可能な媒体とすることができ、揮発性および不揮発性の媒体、取外し可および取外し不可の媒体の両方を含む。限定ではなく例として、コンピュータ可読媒体には、コンピュータ記憶媒体および通信媒体を備えることができる。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、その他のデータなどの情報を記憶するための任意の方法または技術で実装された揮発性および不揮発性、取外し可および取外し不可の両方の媒体が含まれる。コンピュータ記憶媒体には、限定しないが、RAM、ROM、EEPROM、フラッシュメモリもしくはその他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)もしくはその他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくはその他の磁気記憶デバイス、または所望の情報を記憶するのに使用でき、コンピュータ110によってアクセスできるその他の任意の媒体が含まれる。通信媒体は通常、搬送波やその他のトランスポート機構などの変調されたデータ信号中に、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを化体し、任意の情報送達媒体が含まれる。「変調されたデータ信号」という用語は、情報を信号中に符号化する形でその1つまたは複数の特性が設定または変更された信号を意味する。限定ではなく例として、通信媒体には、有線ネットワークや直接配線接続などの有線媒体、および音響、RF、赤外線、その他の無線媒体などの無線媒体が含まれる。上記の任意の組合せもコンピュータ可読媒体の範囲に含まれるべきである。
システムメモリ130は、読取り専用メモリ(ROM)131やランダムアクセスメモリ(RAM)132など、揮発性および/または不揮発性メモリの形のコンピュータ記憶媒体を含む。起動中などにコンピュータ110内の要素間で情報を転送するのを助ける基本ルーチンを含むBIOS133は通常、ROM131に格納されている。RAM132には通常、処理ユニット120によってすぐにアクセス可能、そして/または現在操作されている、データおよび/またはプログラムモジュールが入っている。限定ではなく例として、図1に、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、プログラムデータ137を示す。
コンピュータ110は、その他の取外し可/取外し不可、揮発性/不揮発性コンピュータ記憶媒体を含むこともできる。例にすぎないが、図1には、取外し不可の不揮発性の磁気媒体に対して読み書きするハードディスクドライブ141と、取外し可の不揮発性の磁気ディスク152に対して読み書きする磁気ディスクドライブ151と、CD ROMやその他の光媒体など取外し可の不揮発性の光ディスク156に対して読み書きする光ディスクドライブ155を示している。この例示的な動作環境で使用することのできる他の取外し可/取外し不可、揮発性/不揮発性コンピュータ記憶媒体には、限定しないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどが含まれる。ハードディスクドライブ141は通常、インターフェース140などの不揮発性メモリインターフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は通常、インターフェース150などの取外し可のメモリインターフェースによってシステムバス121に接続される。
上記で論じ、図1に示したドライブおよび関連するコンピュータ記憶媒体は、コンピュータ110にコンピュータ可読命令、データ構造、プログラムモジュール、およびその他のデータのストレージを提供する。図1には、例えばハードディスクドライブ141がオペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、プログラムデータ147を格納しているものとして示されている。これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、プログラムデータ137と同じものとすることも、異なるものとすることもできることに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、プログラムデータ147が少なくとも異なるコピーであることを示すために、ここでは異なる番号を付けてある。
ユーザは、キーボード162、マイクロフォン163、ポインティングデバイス161(マウス、トラックボール、タッチパッド等)などの入力デバイスを介して、コンピュータ110にコマンドおよび情報を入力することができる。その他の入力デバイス(図示せず)には、ジョイスティック、ゲームパッド、衛星アンテナ、スキャナなどが含まれうる。これらおよびその他の入力デバイスは、システムバスに結合されたユーザ入力インターフェース160を介して処理ユニット120に接続されることが多いが、パラレルポート、ゲームポート、ユニバーサルシリアルバス(「USB」)など、その他のインターフェースおよびバス構造によって接続されてもよい。モニタ191または他のタイプの表示デバイスも、ビデオインターフェース190などのインターフェースを介してシステムバス121に接続される。モニタに加えて、コンピュータは、スピーカ197やプリンタ196など、その他の周辺出力デバイスも含むことができ、これらは出力周辺インターフェース195を介して接続することができる。
コンピュータ110は、リモートコンピュータ180のような1つまたは複数のリモートコンピュータへの論理接続を用いて、ネットワーク化された環境で動作される。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、またはその他の共通ネットワークノードとすることができ、通常はパーソナルコンピュータ110に関して上述した要素の多くまたはすべてを含む。図1に示す論理接続は、ローカルエリアネットワーク(LAN)171およびワイドエリアネットワーク(WAN)173を含むが、その他のネットワークを含むこともできる。このようなネットワーキング環境は、オフィス、企業全体のコンピュータネットワーク、イントラネット、インターネットでよくみられる。
LANネットワーキング環境で使用されるとき、コンピュータ110は、ネットワークインターフェースまたはアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用されるとき、コンピュータ110は通常、インターネットなどのWAN173を介した通信を確立するためのモデム172またはその他の手段を含む。モデム172は内蔵でも外付けでもよく、ユーザ入力インターフェース160またはその他の適切な機構を介してシステムバス121に接続することができる。ネットワーク化された環境では、コンピュータ110に関して示したプログラムモジュールまたはその一部をリモートのメモリ記憶デバイスに格納することができる。限定ではなく例として、図1は、リモートアプリケーションプログラム185がリモートコンピュータ180上にあるものとして示している。図示したネットワーク接続は例示的なものであり、コンピュータ間に通信リンクを確立するための他の手段を使用することもできることは理解されるであろう。
図2は、例示的なコンピューティング環境である移動デバイス200のブロック図である。移動デバイス200は、マイクロプロセッサ202、メモリ204、入出力(I/O)コンポーネント206、およびリモートコンピュータまたは他の移動デバイスと通信するための通信インターフェース208を含む。一実施形態では、前述のコンポーネントは、適したバス210を介して相互に通信するために結合されている。
移動デバイス200への全体的な電力が遮断されたときにメモリ204に格納された情報が失われないように、メモリ204は、電池バックアップモジュール(図示せず)付きのランダムアクセスメモリ(RAM)のような不揮発性電子メモリとして実装される。メモリ204の一部は、プログラム実行のためにアドレッサブルメモリとして割り振られることが好ましく、メモリ204の別の部分は、ディスクドライブ上のストレージをシミュレートするような、ストレージ用に使用されることが好ましい。
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214、ならびにオブジェクトストア216を含む。動作中、オペレーティングシステム212は、プロセッサ202によってメモリ204から実行されることが好ましい。オペレーティングシステム212は、好ましい一実施形態では、Microsoft Corporationから市販されているWINDOWS(登録商標)CEブランドのオペレーティングシステムである。オペレーティングシステム212は、移動デバイス向けに設計されたものであることが好ましく、公開されたアプリケーションプログラミングインターフェースおよびメソッドのセットを介してアプリケーション214によって利用することのできるデータベース機能を実装する。オブジェクトストア216中のオブジェクトは、公開されたアプリケーションプログラミングインターフェースおよびメソッドへの呼出しに少なくとも部分的に応答して、アプリケーション214およびオペレーティングシステム212によって維持される。
通信インターフェース208は、移動デバイス200が情報を送受信することを可能にする多くのデバイスおよび技術を表す。これらのデバイスには、少し例を挙げれば、有線および無線モデム、衛星受信機、放送チューナが含まれる。移動デバイス200はまた、コンピュータに直接接続してコンピュータとデータを交換することもできる。このような場合、通信インターフェース208は、赤外線トランシーバ、またはシリアルもしくはパラレル通信接続とすることができ、これらのすべてがストリーミング情報を伝送することができる。
入出力コンポーネント206には、タッチセンシティブスクリーン、ボタン、ローラ、マイクロフォンなどの様々な入力デバイス、ならびに上記オーディオ生成器、振動デバイス、ディスプレイを含む様々な出力デバイスが含まれる。上記に列挙したデバイスは例であり、すべてが移動デバイス200上にある必要はない。さらに、本発明の範囲内で、その他の入出力デバイスが移動デバイス200に付属しているか、移動デバイス200と共にあってもよい。
本発明の一実施形態によれば、音声信号を調波成分とランダム成分とに分解し、そして調波成分とランダム成分との重み付けされた和をとって、雑音が低減された音声信号を表す雑音低減特徴ベクトルを形成することにより、音声信号中の雑音を低減するシステムおよび方法が提供される。雑音低減特徴ベクトルは、次に音声デコーダへの入力として使用することができる。
図3の流れ図および図4のブロック図に、雑音低減特徴ベクトルを形成するための方法および装置をそれぞれ示す。
ステップ300で、雑音のある音声信号を収集し、デジタルサンプルに変換する。このためには、図4のマイクロフォン404が、話者400および1つまたは複数の加法性雑音源402からのオーディオ波を電気信号に変換する。電気信号は次に、アナログデジタル変換器406によってサンプリングされて、一連のデジタル値が生成される。一実施形態では、AD変換器406は、アナログ信号を16kHz、16ビット/サンプルでサンプリングし、それにより毎秒32キロバイトの音声データを生成する。ステップ302で、デジタルサンプルは、フレームコンストラクタ408によってフレームにグループ化される。一実施形態の下では、フレームコンストラクタ408は、25ミリ秒分のデータを含む新しいフレームを10ミリ秒ごとに生成する。
各フレームのサンプルは、調波分解ユニット410に提供され、このユニットは、ステップ304でこれらサンプルを使用して、フレームに関連する信号を調波成分とランダム成分に分解する。したがって、雑音のある信号は以下のように表される。
y=y+y 式1
上式で、yは雑音のある信号であり、yは調波成分であり、yはランダム成分である。
一実施形態の下では、調波成分は、以下のように、調和的に関係する正弦波の和としてモデル化される。
Figure 2005070779
ここで、ωは基本周波数またはピッチ周波数であり、Kは信号中の調波の総数である。
このように、調波成分を識別するために、ピッチ周波数の推定および振幅パラメータ{a...a...b}を決定しなければならない。
ピッチ周波数の推定は、任意の数の利用可能なピッチ追跡システムを使用して決定することができる。これらのシステムの多くでは、候補ピッチを使用して、音声信号のセグメントの中心間の可能な間隔を識別する。各候補ピッチについて、音声の連続セグメント間の相関を決定する。一般に、最良の相関をもたらす候補ピッチが、そのフレームのピッチ周波数になる。いくつかのシステムでは、信号のエネルギーおよび/または予想されるピッチトラックなど、追加の情報を使用してピッチ選択の精度を高める。
ピッチの推定が与えられれば、振幅パラメータの最小2乗解を求めることができる。このためには、式2を次のように書き換える。
y=Ab 式3
ここで、yは、雑音のある音声信号のN個のサンプルのベクトルであり、Aは、次の式によって与えられるN×2K行列である。
A=[Acossin] 式4
これは以下の要素を有する。
cos(k,t)=cos(kωt) Asin(k,t)=sin(kωt) 式5
また、bは、以下の式によって与えられる2K×1ベクトルである。
=[a...a...b] 式6
そして、振幅係数についての最小2乗解は以下のとおりである。
Figure 2005070779
Figure 2005070779
を使用して、次のように、雑音のある音声信号の調波成分の推定を求めることができる。
Figure 2005070779
次に、ランダム成分の推定が次のように計算される。
=y−y 式9
したがって、上記の式7〜9を使用して、調波分解ユニット410は、調波成分サンプルのベクトル412であるyと、ランダム成分サンプルのベクトル414であるyを生成することができる。
フレームのサンプルを調波サンプルおよびランダムサンプルに分解した後、ステップ306で、調波成分についてスケーリングパラメータまたは重みを決定する。このスケーリングパラメータは、下記にさらに論じるように、雑音が低減された音声信号の計算の一部として使用される。一実施形態の下では、スケーリングパラメータは次のように計算される。
Figure 2005070779
ここで、αはスケーリングパラメータであり、y(i)は、調波成分サンプルのベクトルy中のi番目のサンプルであり、y(i)は、このフレームの雑音のある音声信号のi番目のサンプルである。式10で、分子は、調波成分の各サンプルのエネルギーの和であり、分母は、雑音のある音声信号の各サンプルのエネルギーの和である。このように、スケーリングパラメータは、フレームの総エネルギーに対するフレームの調波エネルギーの比である。
代替の実施形態では、スケーリングパラメータは、確率的な有声音/無声音(voiced/unvoiced)検出ユニットを使用して設定される。このようなユニットは、音声の特定フレームが無声音ではなく有声音(フレーム中で声帯が共鳴すること)である確率を提供する。フレームが音声の有声音領域からのものである確率を、スケーリングパラメータとして直接使用することができる。
スケーリングパラメータの決定後または決定中に、ステップ308で、調波成分サンプルのベクトルおよびランダム成分サンプルのベクトルについてのメルスペクトル(Mel spectra)を決定する。これは、サンプルの各ベクトルを離散フーリエ変換(DFT)418に通して、調波成分周波数値のベクトル422およびランダム成分周波数値のベクトル420を生成することを伴う。周波数値のベクトルによって表されるパワースペクトルは、次いで、メル重み付けユニット424によって、メルスケールに沿って適用される一連の三角重み関数(triangular weighting functions)を使用して平滑化される。この結果、調波成分メルスペクトルベクトル428であるYおよびランダム成分メルスペクトルベクトル426であるYが得られる。
ステップ310で、調波成分およびランダム成分のメルスペクトルを重み付けされた和として結合して、雑音が低減されたメルスペクトルの推定を形成する。このステップは、重み付けされた和の計算器430によって、上記で決定されたスケーリング係数を以下の式で使用して行われる。
Figure 2005070779
ここで、
Figure 2005070779
は、雑音が低減されたメルスペクトルの推定であり、Y(t)は調波成分メルスペクトルであり、Y(t)はランダム成分メルスペクトルであり、α(t)は上で決定されたスケーリング係数であり、αは、ランダム成分の固定スケーリング係数であって、一実施形態では0.1に等しく設定され、時間インデックスtは、ランダム成分のスケーリング係数を固定のままとしつつ、調波成分のスケーリング係数が各フレームごとに決定されることを強調するために使用される。他の実施形態では、ランダム成分のスケーリング係数を各フレームごとに決定してもよいことに留意されたい。
雑音が低減されたメルスペクトルをステップ310で計算した後、ステップ312で、メルスペクトルの対数432が決定され、次いで離散コサイン変換434に適用される。これにより、雑音が低減された音声信号を表すメル周波数ケプストラム係数(MFCC)特徴ベクトル436が生成される。
雑音のある信号の各フレームごとに、別個の雑音低減MFCC特徴ベクトルが生成される。これらの特徴ベクトルは、音声符号化および音声認識を含む任意の所望の目的に使用することができる。
一実施形態の下では、雑音低減音声のMFCC特徴ベクトルは、図5に示す音声認識システム中で直接使用される。
入力信号がトレーニング信号である場合、雑音低減音声の一連のMFCC特徴ベクトル436がトレーナ500に提供され、このトレーナは、MFCC特徴ベクトルおよびトレーニングテキスト502を使用して音響モデル504をトレーニングする。このようなモデルをトレーニングする技法は当技術分野で知られており、これらについての説明は本発明の理解に必要ではない。
入力信号がテスト信号である場合、MFCC音声特徴ベクトルがデコーダ506に提供され、このデコーダは、特徴ベクトルのストリーム、レキシコン(lexicon)508、言語モデル510、音響モデル504に基づいて、最も可能性の高い単語のシーケンスを識別する。復号に使用される特定の方法は本発明にとって重要ではなく、知られているいくつかの復号方法のいずれを使用してもよい。
本発明をメル周波数ケプストラム係数に関連して説明したが、その他のタイプの特徴を式11の重み付け調波および雑音モデルに使用してもよい。
本発明は、特定の実施形態を参照して説明したが、本発明の趣旨および範囲を逸脱することなく形態および細部に変更を加えることができることは、当業者には理解されるであろう。
本発明を実施することのできる一コンピューティング環境のブロック図である。 本発明を実施することのできる代替のコンピューティング環境のブロック図である。 本発明の一実施形態の雑音低減システムを使用する方法の流れ図である。 本発明の一実施形態の雑音低減システムのブロック図である。 本発明の実施形態を実施することのできるパターン認識システムのブロック図である。
符号の説明
100 コンピューティングシステム環境
110 コンピュータ
120 処理ユニット
121 システムバス
130 システムメモリ
131 ROM
132 RAM
133 BIOS
134 オペレーティングシステム
135 アプリケーションプログラム
136 その他のプログラムモジュール
137 プログラムデータ
140 取外し不可の不揮発性メモリインターフェース
141 ハードディスクドライブ
144 オペレーティングシステム
145 アプリケーションプログラム
146 その他のプログラムモジュール
147 プログラムデータ
150 取外し可の不揮発性メモリインターフェース
151 磁気ディスクドライブ
152 磁気ディスク
155 光ディスクドライブ
156 光ディスク
160 ユーザ入力インターフェース
161 ポインティングデバイス
162 キーボード
163 マイクロフォン
170 ネットワークインターフェース
171 ローカルエリアネットワーク
172 モデム
173 ワイドエリアネットワーク
180 リモートコンピュータ
185 リモートアプリケーションプログラム
190 ビデオインターフェース
191 モニタ
195 出力周辺インターフェース
196 プリンタ
197 スピーカ
200 移動デバイス
202 プロセッサ
204 メモリ
206 I/O
208 通信インターフェース
210 バス
212 OS
214 アプリケーション
216 オブジェクトストア
400 スピーカ
402 加法性雑音
404 マイクロフォン
406 A/D
408 フレームコンストラクタ
410 調波分解ユニット
412 調波成分サンプルのベクトル
414 ランダム成分サンプルのベクトル
416 調波スケーリング値決定
418 離散フーリエ変換
420 ランダム成分周波数値のベクトル
422 調波成分周波数値のベクトル
424 メル重み付け
426 ランダム成分メルスペクトルベクトル
428 調波成分メルスペクトルベクトル
430 重み付けされた和の計算器
432 対数
434 離散コサイン変換
436 雑音低減音声特徴ベクトルの推定値
500 トレーナ
502 トレーニングテキスト
504 音響モデル
506 デコーダ
508 レキシコン
510 言語モデル

Claims (10)

  1. 雑音が低減された音声信号の一部を表す雑音低減値の推定を識別する方法であって、
    雑音のある音声信号の一部を調波成分とランダム成分とに分解することと、
    少なくとも前記調波成分のスケーリングパラメータを決定することと、
    前記調波成分を前記調波成分の前記スケーリングパラメータで乗算して、スケーリングされた調波成分を形成することと、
    前記ランダム成分を前記ランダム成分のスケーリングパラメータで乗算して、スケーリングされたランダム成分を形成することと、
    前記スケーリングされた調波成分と前記スケーリングされたランダム成分とを和算して、前記雑音低減値を形成することと
    を備えることを特徴とする方法。
  2. 雑音のある音声信号の一部を分解することは、最小2乗解を求めて前記調波成分を識別することをさらに備えることを特徴とする請求項1に記載の方法。
  3. 前記調波成分のスケーリングパラメータを決定することは、前記雑音のある音声信号のエネルギーに対する前記調波成分のエネルギーの比を決定することを備えることを特徴とする請求項1に記載の方法。
  4. 比を決定することは、
    前記調波成分のサンプルのエネルギーを和算することと、
    前記雑音のある音声信号のサンプルのエネルギーを和算することと、
    前記調波成分の合計を前記雑音のある音声信号の合計で除算することと
    を備えることを特徴とする請求項3に記載の方法。
  5. 雑音のある音声信号の一部を分解することは、前記雑音のある音声信号のフレームからの時間サンプルのベクトルを、時間サンプルの調波成分ベクトルと、時間サンプルのランダム成分ベクトルとに分解することを備えることを特徴とする請求項1に記載の方法。
  6. 時間サンプルの前記調波成分から前記調波成分のメルスペクトルを決定することをさらに備えることを特徴とする請求項5に記載の方法。
  7. 前記雑音低減値からメル周波数ケプストラム係数特徴ベクトルを形成することをさらに備えることを特徴とする請求項1に記載の方法。
  8. 前記メル周波数ケプストラム係数特徴ベクトルを使用して音声認識を実行することをさらに備えることを特徴とする請求項7に記載の方法。
  9. 雑音のある音声信号において調波成分とランダム成分とを識別することと、
    前記調波成分と前記ランダム成分とを結合して、雑音低減値を生成することと、
    前記雑音低減値を使用して音声認識を実行することと
    を実行するためのコンピュータ実行可能命令を有することを特徴とするコンピュータ可読媒体。
  10. 前記調波成分は、調波正弦波の和としてモデル化されることを特徴とする請求項1に記載の方法。
JP2004239995A 2003-08-25 2004-08-19 調波モデルに基づくフロントエンドを使用する頑強な音声認識のための方法およびコンピュータ可読記録媒体 Expired - Fee Related JP4731855B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/647,586 2003-08-25
US10/647,586 US7516067B2 (en) 2003-08-25 2003-08-25 Method and apparatus using harmonic-model-based front end for robust speech recognition

Publications (3)

Publication Number Publication Date
JP2005070779A true JP2005070779A (ja) 2005-03-17
JP2005070779A5 JP2005070779A5 (ja) 2007-09-20
JP4731855B2 JP4731855B2 (ja) 2011-07-27

Family

ID=34104651

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004239995A Expired - Fee Related JP4731855B2 (ja) 2003-08-25 2004-08-19 調波モデルに基づくフロントエンドを使用する頑強な音声認識のための方法およびコンピュータ可読記録媒体

Country Status (7)

Country Link
US (1) US7516067B2 (ja)
EP (1) EP1511011B1 (ja)
JP (1) JP4731855B2 (ja)
KR (1) KR101087319B1 (ja)
CN (1) CN1591574B (ja)
AT (1) ATE347162T1 (ja)
DE (1) DE602004003439T2 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
KR100744352B1 (ko) * 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8005671B2 (en) * 2006-12-04 2011-08-23 Qualcomm Incorporated Systems and methods for dynamic normalization to reduce loss in precision for low-level signals
JP5089295B2 (ja) * 2007-08-31 2012-12-05 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理システム、方法及びプログラム
KR100919223B1 (ko) * 2007-09-19 2009-09-28 한국전자통신연구원 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치
US8306817B2 (en) * 2008-01-08 2012-11-06 Microsoft Corporation Speech recognition with non-linear noise reduction on Mel-frequency cepstra
JP5640238B2 (ja) * 2008-02-28 2014-12-17 株式会社通信放送国際研究所 特異点信号処理システムおよびそのプログラム
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US9245538B1 (en) * 2010-05-20 2016-01-26 Audience, Inc. Bandwidth enhancement of speech signals assisted by noise reduction
US8447596B2 (en) * 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
JP6064600B2 (ja) * 2010-11-25 2017-01-25 日本電気株式会社 信号処理装置、信号処理方法、及び信号処理プログラム
FR2980620A1 (fr) * 2011-09-23 2013-03-29 France Telecom Traitement d'amelioration de la qualite des signaux audiofrequences decodes
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
WO2016033364A1 (en) 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
CA2998689C (en) * 2015-09-25 2021-10-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoder and method for encoding an audio signal with reduced background noise using linear predictive coding
WO2017143334A1 (en) * 2016-02-19 2017-08-24 New York University Method and system for multi-talker babble noise reduction using q-factor based signal decomposition
CN108175436A (zh) * 2017-12-28 2018-06-19 北京航空航天大学 一种肠鸣音智能自动识别方法
US11545143B2 (en) 2021-05-18 2023-01-03 Boris Fridman-Mintz Recognition or synthesis of human-uttered harmonic sounds

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06289897A (ja) * 1993-03-31 1994-10-18 Sony Corp 音声信号処理装置
JPH0944186A (ja) * 1995-07-31 1997-02-14 Matsushita Electric Ind Co Ltd 雑音抑制装置
JPH09152891A (ja) * 1995-11-28 1997-06-10 Takayoshi Hirata 非調和的周期検出法を用いた準周期的雑音の除去方式
JP2002244695A (ja) * 2001-02-22 2002-08-30 Nippon Telegr & Teleph Corp <Ntt> 音声スペクトル改善方法、音声スペクトル改善装置、音声スペクトル改善プログラム、プログラムを記憶した記憶媒体

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5701390A (en) 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
GB9512284D0 (en) 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
US5913187A (en) 1997-08-29 1999-06-15 Nortel Networks Corporation Nonlinear filter for noise suppression in linear prediction speech processing devices
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6253171B1 (en) * 1999-02-23 2001-06-26 Comsat Corporation Method of determining the voicing probability of speech signals
US6529868B1 (en) * 2000-03-28 2003-03-04 Tellabs Operations, Inc. Communication system noise cancellation power signal calculation techniques
TW466471B (en) * 2000-04-07 2001-12-01 Ind Tech Res Inst Method for performing noise adaptation in voice recognition unit
US20020039425A1 (en) * 2000-07-19 2002-04-04 Burnett Gregory C. Method and apparatus for removing noise from electronic signals
US7020605B2 (en) * 2000-09-15 2006-03-28 Mindspeed Technologies, Inc. Speech coding system with time-domain noise attenuation
US7120580B2 (en) * 2001-08-15 2006-10-10 Sri International Method and apparatus for recognizing speech in a noisy environment
US6952482B2 (en) * 2001-10-02 2005-10-04 Siemens Corporation Research, Inc. Method and apparatus for noise filtering
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
KR101414233B1 (ko) * 2007-01-05 2014-07-02 삼성전자 주식회사 음성 신호의 명료도를 향상시키는 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06289897A (ja) * 1993-03-31 1994-10-18 Sony Corp 音声信号処理装置
JPH0944186A (ja) * 1995-07-31 1997-02-14 Matsushita Electric Ind Co Ltd 雑音抑制装置
JPH09152891A (ja) * 1995-11-28 1997-06-10 Takayoshi Hirata 非調和的周期検出法を用いた準周期的雑音の除去方式
JP2002244695A (ja) * 2001-02-22 2002-08-30 Nippon Telegr & Teleph Corp <Ntt> 音声スペクトル改善方法、音声スペクトル改善装置、音声スペクトル改善プログラム、プログラムを記憶した記憶媒体

Also Published As

Publication number Publication date
CN1591574B (zh) 2010-06-23
DE602004003439D1 (de) 2007-01-11
KR101087319B1 (ko) 2011-11-25
US7516067B2 (en) 2009-04-07
KR20050022371A (ko) 2005-03-07
JP4731855B2 (ja) 2011-07-27
ATE347162T1 (de) 2006-12-15
EP1511011B1 (en) 2006-11-29
DE602004003439T2 (de) 2007-03-29
US20050049857A1 (en) 2005-03-03
EP1511011A2 (en) 2005-03-02
CN1591574A (zh) 2005-03-09
EP1511011A3 (en) 2005-04-13

Similar Documents

Publication Publication Date Title
JP4731855B2 (ja) 調波モデルに基づくフロントエンドを使用する頑強な音声認識のための方法およびコンピュータ可読記録媒体
JP5247855B2 (ja) 複数感知の音声強調のための方法および機器
US7542900B2 (en) Noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US7107210B2 (en) Method of noise reduction based on dynamic aspects of speech
US7460992B2 (en) Method of pattern recognition using noise reduction uncertainty
KR101201146B1 (ko) 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법
US7254536B2 (en) Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
JP2005527002A (ja) ノイズの低減に関連する不確実性を判定する方法
MXPA04002919A (es) Metodo de calculo de ruido mediante el uso del aprendizaje de bayes de incremento.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070808

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110415

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110420

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees