JP2005070779A

JP2005070779A - 調波モデルに基づくフロントエンドを使用する頑強な音声認識のための方法および装置

Info

Publication number: JP2005070779A
Application number: JP2004239995A
Authority: JP
Inventors: Michael L Seltzer; エル．セルツァーマイケル; James Droppo; ドロッポジェームズ; Alejandro Acero; アセロアレハンドロ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2003-08-25
Filing date: 2004-08-19
Publication date: 2005-03-17
Anticipated expiration: 2024-08-19
Also published as: CN1591574B; DE602004003439D1; KR101087319B1; US7516067B2; KR20050022371A; JP4731855B2; ATE347162T1; EP1511011B1; DE602004003439T2; US20050049857A1; EP1511011A2; CN1591574A; EP1511011A3

Abstract

【課題】音声信号中の雑音を低減するシステムおよび方法を提供すること。
【解決手段】本システムおよび方法は、雑音のある音声信号を調波成分と残余成分とに分解する。次いで、調波成分と残余成分とを和として結合して、雑音が低減された値を形成する。いくつかの実施形態では、和は重み付けされた和であり、この場合、調波成分がスケーリング係数によって乗算される。いくつかの実施形態では、雑音が低減された値が音声認識で使用される。
【選択図】図４

Description

本発明は、雑音低減に関する。より詳細には、本発明は、音声認識で使用される信号から雑音を除去することに関する。

音声認識システムなどのパターン認識システムは、入力信号をとり、この信号を復号して、この信号で表されるパターンを見つけようとする。例えば音声認識システムでは、音声信号（しばしばテスト信号と呼ばれる）が、認識システムによって受け取られ、復号されて、音声信号で表される単語列が識別される。

入来テスト信号を復号するために、ほとんどの認識システムは、テスト信号の一部が特定のパターンを表す尤度を記述する１つまたは複数のモデルを利用する。このようなモデルの例としては、ニューラルネット、ダイナミックタイムワーピング、セグメントモデル、隠れマルコフモデルがある。

入来信号の復号にモデルを使用することができるようになる前に、モデルをトレーニングしなければならない。これは通常、既知のトレーニングパターンから生成された入力トレーニング信号を測定することによって行われる。例えば音声認識では、話者が既知のテキストから読み上げることによって、音声信号の集まりを生成する。次いで、これらの音声信号を使用してモデルをトレーニングする。

モデルが最適に動作するためには、モデルをトレーニングするのに使用される信号が、復号される最終的なテスト信号に類似しているべきである。具体的には、トレーニング信号は、復号されるテスト信号と同じ量および同じタイプの雑音を有するべきである。

通常、トレーニング信号は、「クリーンな」条件下で収集され、相対的に無雑音と考えられる。これと同じ低レベルの雑音をテスト信号で実現するために、多くの従来技術のシステムが、テスト用データに雑音低減技法を適用している。

雑音を除去する１つの技法は、様々な雑音条件の下で収集されたトレーニング信号のセットを使用して、雑音をモデル化しようとすることである。しかし、このようなシステムは、トレーニング信号の雑音条件がテスト信号の雑音条件と合致する場合にのみ有効である。可能性のある雑音の数は多く、また雑音の組合せは無限と思われるので、あらゆるテスト条件を扱うことのできる雑音モデルを構築するのは非常に難しい。

雑音を除去する別の技法は、雑音を推定し、次いでこれを雑音のある音声信号から減算するものである。通常、このようなシステムは、入力信号の前フレームから雑音を推定する。したがって、雑音が時間と共に変化している場合、現在フレームに対する雑音の推定は不正確になるであろう。

音声信号中の雑音を推定するための従来技術の１つのシステムは、人間の音声の調波（ｈａｒｍｏｎｉｃｓ）を使用している。人間の音声の調波は、周波数スペクトル中にピークを生じる。これらのピーク間のヌルを識別することによって、これらのシステムは雑音のスペクトルを識別する。次に、このスペクトルを雑音のある音声信号のスペクトルから減算して、クリーンな音声信号を提供する。

音声の調波はまた、デジタル通信経路を介した伝送のために音声を符号化する際に送らなければならないデータの量を削減するために、音声符号化でも使用されてきた。このようなシステムは、音声信号を調波成分とランダム成分とに分離することを試みる。次いで、各成分は、送信のために別々に符号化される。特にあるシステムは、正弦波の和のモデル（ｓｕｍ−ｏｆ−ｓｉｎｕｓｏｉｄｓｍｏｄｅｌ）を音声信号に適合させて分解（ｄｅｃｏｍｐｏｓｉｔｉｏｎ）を行う調波＋雑音モデル（ｈａｒｍｏｎｉｃ＋ｎｏｉｓｅｍｏｄｅｌ）を使用するものであった。

音声符号化では、分解は、雑音のある入力音声信号を正確に表す音声信号のパラメータ化（ｐａｒａｍｅｔｅｒｉｚａｔｉｏｎ）を求めるために行われる。分解は、雑音低減機能を持たず、したがって音声認識において有用ではなかった。

音声信号中の雑音を低減するシステムおよび方法を提供する。本システムおよび方法は、雑音のある音声信号を調波成分（ｈａｒｍｏｎｉｃｃｏｍｐｏｎｅｎｔ）と残余成分（ｒｅｓｉｄｕａｌｃｏｍｐｏｎｅｎｔ）とに分解する。次いで、調波成分と残余成分を和として結合して、雑音が低減された値を形成する。いくつかの実施形態では、和は重み付けされた和であり、調波成分はスケーリング係数によって乗算される。いくつかの実施形態では、雑音が低減された値を音声認識で使用する。

図１に、本発明を実施することのできる適したコンピューティングシステム環境１００の一例を示す。コンピューティングシステム環境１００は、適したコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲についていかなる制限を示唆するものではない。またコンピューティング環境１００は、この例示的な動作環境１００に示すコンポーネントのいずれか１つまたは組合せに関していかなる依存や要件を有するものとも解釈すべきではない。

本発明は、その他多くの汎用または専用のコンピューティングシステム環境または構成でも動作する。本発明と共に使用するのに適する可能性のある周知のコンピューティングシステム、環境、および／または構成の例には、限定しないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な民生用電子機器、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、電話システムや、上記のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれる。

本発明は、プログラムモジュールなど、コンピュータによって実行されるコンピュータ実行可能命令の一般的なコンテキストで述べることができる。一般にプログラムモジュールは、特定のタスクを実行するか特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明は分散コンピューティング環境で実施されるように設計されており、この場合、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実施される。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含むローカルおよびリモートの両方のコンピュータ記憶媒体に位置する。

図１を参照すると、本発明を実施するための例示的なシステムは、コンピュータ１１０の形の汎用コンピューティングデバイスを含んでいる。コンピュータ１１０のコンポーネントには、限定しないが、処理ユニット１２０、システムメモリ１３０、およびシステムメモリを含む様々なシステムコンポーネントを処理ユニット１２０に結合するシステムバス１２１を含むことができる。システムバス１２１は、様々なバスアーキテクチャのいずれかを用いた、メモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含むいくつかのタイプのバス構造のいずれかとすることができる。限定ではなく例として、このようなアーキテクチャには、ＩＳＡ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＭＣＡ（ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＥＩＳＡ（ＥｎｈａｎｃｅｄＩＳＡ）バス、ＶＥＳＡ（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ）ローカルバス、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）バス（メザニンバスとも呼ばれる）が含まれる。

コンピュータ１１０は通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ１１０によってアクセスできる任意の利用可能な媒体とすることができ、揮発性および不揮発性の媒体、取外し可および取外し不可の媒体の両方を含む。限定ではなく例として、コンピュータ可読媒体には、コンピュータ記憶媒体および通信媒体を備えることができる。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、その他のデータなどの情報を記憶するための任意の方法または技術で実装された揮発性および不揮発性、取外し可および取外し不可の両方の媒体が含まれる。コンピュータ記憶媒体には、限定しないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリもしくはその他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）もしくはその他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくはその他の磁気記憶デバイス、または所望の情報を記憶するのに使用でき、コンピュータ１１０によってアクセスできるその他の任意の媒体が含まれる。通信媒体は通常、搬送波やその他のトランスポート機構などの変調されたデータ信号中に、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを化体し、任意の情報送達媒体が含まれる。「変調されたデータ信号」という用語は、情報を信号中に符号化する形でその１つまたは複数の特性が設定または変更された信号を意味する。限定ではなく例として、通信媒体には、有線ネットワークや直接配線接続などの有線媒体、および音響、ＲＦ、赤外線、その他の無線媒体などの無線媒体が含まれる。上記の任意の組合せもコンピュータ可読媒体の範囲に含まれるべきである。

システムメモリ１３０は、読取り専用メモリ（ＲＯＭ）１３１やランダムアクセスメモリ（ＲＡＭ）１３２など、揮発性および／または不揮発性メモリの形のコンピュータ記憶媒体を含む。起動中などにコンピュータ１１０内の要素間で情報を転送するのを助ける基本ルーチンを含むＢＩＯＳ１３３は通常、ＲＯＭ１３１に格納されている。ＲＡＭ１３２には通常、処理ユニット１２０によってすぐにアクセス可能、そして／または現在操作されている、データおよび／またはプログラムモジュールが入っている。限定ではなく例として、図１に、オペレーティングシステム１３４、アプリケーションプログラム１３５、その他のプログラムモジュール１３６、プログラムデータ１３７を示す。

コンピュータ１１０は、その他の取外し可／取外し不可、揮発性／不揮発性コンピュータ記憶媒体を含むこともできる。例にすぎないが、図１には、取外し不可の不揮発性の磁気媒体に対して読み書きするハードディスクドライブ１４１と、取外し可の不揮発性の磁気ディスク１５２に対して読み書きする磁気ディスクドライブ１５１と、ＣＤＲＯＭやその他の光媒体など取外し可の不揮発性の光ディスク１５６に対して読み書きする光ディスクドライブ１５５を示している。この例示的な動作環境で使用することのできる他の取外し可／取外し不可、揮発性／不揮発性コンピュータ記憶媒体には、限定しないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートＲＡＭ、ソリッドステートＲＯＭなどが含まれる。ハードディスクドライブ１４１は通常、インターフェース１４０などの不揮発性メモリインターフェースを介してシステムバス１２１に接続され、磁気ディスクドライブ１５１および光ディスクドライブ１５５は通常、インターフェース１５０などの取外し可のメモリインターフェースによってシステムバス１２１に接続される。

上記で論じ、図１に示したドライブおよび関連するコンピュータ記憶媒体は、コンピュータ１１０にコンピュータ可読命令、データ構造、プログラムモジュール、およびその他のデータのストレージを提供する。図１には、例えばハードディスクドライブ１４１がオペレーティングシステム１４４、アプリケーションプログラム１４５、その他のプログラムモジュール１４６、プログラムデータ１４７を格納しているものとして示されている。これらのコンポーネントは、オペレーティングシステム１３４、アプリケーションプログラム１３５、その他のプログラムモジュール１３６、プログラムデータ１３７と同じものとすることも、異なるものとすることもできることに留意されたい。オペレーティングシステム１４４、アプリケーションプログラム１４５、その他のプログラムモジュール１４６、プログラムデータ１４７が少なくとも異なるコピーであることを示すために、ここでは異なる番号を付けてある。

ユーザは、キーボード１６２、マイクロフォン１６３、ポインティングデバイス１６１（マウス、トラックボール、タッチパッド等）などの入力デバイスを介して、コンピュータ１１０にコマンドおよび情報を入力することができる。その他の入力デバイス（図示せず）には、ジョイスティック、ゲームパッド、衛星アンテナ、スキャナなどが含まれうる。これらおよびその他の入力デバイスは、システムバスに結合されたユーザ入力インターフェース１６０を介して処理ユニット１２０に接続されることが多いが、パラレルポート、ゲームポート、ユニバーサルシリアルバス（「ＵＳＢ」）など、その他のインターフェースおよびバス構造によって接続されてもよい。モニタ１９１または他のタイプの表示デバイスも、ビデオインターフェース１９０などのインターフェースを介してシステムバス１２１に接続される。モニタに加えて、コンピュータは、スピーカ１９７やプリンタ１９６など、その他の周辺出力デバイスも含むことができ、これらは出力周辺インターフェース１９５を介して接続することができる。

コンピュータ１１０は、リモートコンピュータ１８０のような１つまたは複数のリモートコンピュータへの論理接続を用いて、ネットワーク化された環境で動作される。リモートコンピュータ１８０は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークＰＣ、ピアデバイス、またはその他の共通ネットワークノードとすることができ、通常はパーソナルコンピュータ１１０に関して上述した要素の多くまたはすべてを含む。図１に示す論理接続は、ローカルエリアネットワーク（ＬＡＮ）１７１およびワイドエリアネットワーク（ＷＡＮ）１７３を含むが、その他のネットワークを含むこともできる。このようなネットワーキング環境は、オフィス、企業全体のコンピュータネットワーク、イントラネット、インターネットでよくみられる。

ＬＡＮネットワーキング環境で使用されるとき、コンピュータ１１０は、ネットワークインターフェースまたはアダプタ１７０を介してＬＡＮ１７１に接続される。ＷＡＮネットワーキング環境で使用されるとき、コンピュータ１１０は通常、インターネットなどのＷＡＮ１７３を介した通信を確立するためのモデム１７２またはその他の手段を含む。モデム１７２は内蔵でも外付けでもよく、ユーザ入力インターフェース１６０またはその他の適切な機構を介してシステムバス１２１に接続することができる。ネットワーク化された環境では、コンピュータ１１０に関して示したプログラムモジュールまたはその一部をリモートのメモリ記憶デバイスに格納することができる。限定ではなく例として、図１は、リモートアプリケーションプログラム１８５がリモートコンピュータ１８０上にあるものとして示している。図示したネットワーク接続は例示的なものであり、コンピュータ間に通信リンクを確立するための他の手段を使用することもできることは理解されるであろう。

図２は、例示的なコンピューティング環境である移動デバイス２００のブロック図である。移動デバイス２００は、マイクロプロセッサ２０２、メモリ２０４、入出力（Ｉ／Ｏ）コンポーネント２０６、およびリモートコンピュータまたは他の移動デバイスと通信するための通信インターフェース２０８を含む。一実施形態では、前述のコンポーネントは、適したバス２１０を介して相互に通信するために結合されている。

移動デバイス２００への全体的な電力が遮断されたときにメモリ２０４に格納された情報が失われないように、メモリ２０４は、電池バックアップモジュール（図示せず）付きのランダムアクセスメモリ（ＲＡＭ）のような不揮発性電子メモリとして実装される。メモリ２０４の一部は、プログラム実行のためにアドレッサブルメモリとして割り振られることが好ましく、メモリ２０４の別の部分は、ディスクドライブ上のストレージをシミュレートするような、ストレージ用に使用されることが好ましい。

メモリ２０４は、オペレーティングシステム２１２、アプリケーションプログラム２１４、ならびにオブジェクトストア２１６を含む。動作中、オペレーティングシステム２１２は、プロセッサ２０２によってメモリ２０４から実行されることが好ましい。オペレーティングシステム２１２は、好ましい一実施形態では、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎから市販されているＷＩＮＤＯＷＳ（登録商標）ＣＥブランドのオペレーティングシステムである。オペレーティングシステム２１２は、移動デバイス向けに設計されたものであることが好ましく、公開されたアプリケーションプログラミングインターフェースおよびメソッドのセットを介してアプリケーション２１４によって利用することのできるデータベース機能を実装する。オブジェクトストア２１６中のオブジェクトは、公開されたアプリケーションプログラミングインターフェースおよびメソッドへの呼出しに少なくとも部分的に応答して、アプリケーション２１４およびオペレーティングシステム２１２によって維持される。

通信インターフェース２０８は、移動デバイス２００が情報を送受信することを可能にする多くのデバイスおよび技術を表す。これらのデバイスには、少し例を挙げれば、有線および無線モデム、衛星受信機、放送チューナが含まれる。移動デバイス２００はまた、コンピュータに直接接続してコンピュータとデータを交換することもできる。このような場合、通信インターフェース２０８は、赤外線トランシーバ、またはシリアルもしくはパラレル通信接続とすることができ、これらのすべてがストリーミング情報を伝送することができる。

入出力コンポーネント２０６には、タッチセンシティブスクリーン、ボタン、ローラ、マイクロフォンなどの様々な入力デバイス、ならびに上記オーディオ生成器、振動デバイス、ディスプレイを含む様々な出力デバイスが含まれる。上記に列挙したデバイスは例であり、すべてが移動デバイス２００上にある必要はない。さらに、本発明の範囲内で、その他の入出力デバイスが移動デバイス２００に付属しているか、移動デバイス２００と共にあってもよい。

本発明の一実施形態によれば、音声信号を調波成分とランダム成分とに分解し、そして調波成分とランダム成分との重み付けされた和をとって、雑音が低減された音声信号を表す雑音低減特徴ベクトルを形成することにより、音声信号中の雑音を低減するシステムおよび方法が提供される。雑音低減特徴ベクトルは、次に音声デコーダへの入力として使用することができる。

図３の流れ図および図４のブロック図に、雑音低減特徴ベクトルを形成するための方法および装置をそれぞれ示す。

ステップ３００で、雑音のある音声信号を収集し、デジタルサンプルに変換する。このためには、図４のマイクロフォン４０４が、話者４００および１つまたは複数の加法性雑音源４０２からのオーディオ波を電気信号に変換する。電気信号は次に、アナログデジタル変換器４０６によってサンプリングされて、一連のデジタル値が生成される。一実施形態では、ＡＤ変換器４０６は、アナログ信号を１６ｋＨｚ、１６ビット／サンプルでサンプリングし、それにより毎秒３２キロバイトの音声データを生成する。ステップ３０２で、デジタルサンプルは、フレームコンストラクタ４０８によってフレームにグループ化される。一実施形態の下では、フレームコンストラクタ４０８は、２５ミリ秒分のデータを含む新しいフレームを１０ミリ秒ごとに生成する。

各フレームのサンプルは、調波分解ユニット４１０に提供され、このユニットは、ステップ３０４でこれらサンプルを使用して、フレームに関連する信号を調波成分とランダム成分に分解する。したがって、雑音のある信号は以下のように表される。
ｙ＝ｙ_ｈ＋ｙ_ｒ式１
上式で、ｙは雑音のある信号であり、ｙ_ｈは調波成分であり、ｙ_ｒはランダム成分である。

一実施形態の下では、調波成分は、以下のように、調和的に関係する正弦波の和としてモデル化される。

ここで、ω_０は基本周波数またはピッチ周波数であり、Ｋは信号中の調波の総数である。
このように、調波成分を識別するために、ピッチ周波数の推定および振幅パラメータ｛ａ_１ａ_２．．．ａ_ｋｂ_１ｂ_２．．．ｂ_ｋ｝を決定しなければならない。

ピッチ周波数の推定は、任意の数の利用可能なピッチ追跡システムを使用して決定することができる。これらのシステムの多くでは、候補ピッチを使用して、音声信号のセグメントの中心間の可能な間隔を識別する。各候補ピッチについて、音声の連続セグメント間の相関を決定する。一般に、最良の相関をもたらす候補ピッチが、そのフレームのピッチ周波数になる。いくつかのシステムでは、信号のエネルギーおよび／または予想されるピッチトラックなど、追加の情報を使用してピッチ選択の精度を高める。

ピッチの推定が与えられれば、振幅パラメータの最小２乗解を求めることができる。このためには、式２を次のように書き換える。
ｙ＝Ａｂ式３
ここで、ｙは、雑音のある音声信号のＮ個のサンプルのベクトルであり、Ａは、次の式によって与えられるＮ×２Ｋ行列である。
Ａ＝［Ａ_ｃｏｓＡ_ｓｉｎ］式４
これは以下の要素を有する。
Ａ_ｃｏｓ（ｋ，ｔ）＝ｃｏｓ（ｋω_０ｔ）Ａ_ｓｉｎ（ｋ，ｔ）＝ｓｉｎ（ｋω_０ｔ）式５
また、ｂは、以下の式によって与えられる２Ｋ×１ベクトルである。
ｂ^Ｔ＝［ａ_１ａ_２．．．ａ_ｋｂ_１ｂ_２．．．ｂ_ｋ］式６
そして、振幅係数についての最小２乗解は以下のとおりである。

を使用して、次のように、雑音のある音声信号の調波成分の推定を求めることができる。

次に、ランダム成分の推定が次のように計算される。
ｙ_ｒ＝ｙ−ｙ_ｈ式９
したがって、上記の式７〜９を使用して、調波分解ユニット４１０は、調波成分サンプルのベクトル４１２であるｙ_ｈと、ランダム成分サンプルのベクトル４１４であるｙ_ｒを生成することができる。

フレームのサンプルを調波サンプルおよびランダムサンプルに分解した後、ステップ３０６で、調波成分についてスケーリングパラメータまたは重みを決定する。このスケーリングパラメータは、下記にさらに論じるように、雑音が低減された音声信号の計算の一部として使用される。一実施形態の下では、スケーリングパラメータは次のように計算される。

ここで、α_ｈはスケーリングパラメータであり、ｙ_ｈ（ｉ）は、調波成分サンプルのベクトルｙ_ｈ中のｉ番目のサンプルであり、ｙ（ｉ）は、このフレームの雑音のある音声信号のｉ番目のサンプルである。式１０で、分子は、調波成分の各サンプルのエネルギーの和であり、分母は、雑音のある音声信号の各サンプルのエネルギーの和である。このように、スケーリングパラメータは、フレームの総エネルギーに対するフレームの調波エネルギーの比である。

代替の実施形態では、スケーリングパラメータは、確率的な有声音／無声音（ｖｏｉｃｅｄ／ｕｎｖｏｉｃｅｄ）検出ユニットを使用して設定される。このようなユニットは、音声の特定フレームが無声音ではなく有声音（フレーム中で声帯が共鳴すること）である確率を提供する。フレームが音声の有声音領域からのものである確率を、スケーリングパラメータとして直接使用することができる。

スケーリングパラメータの決定後または決定中に、ステップ３０８で、調波成分サンプルのベクトルおよびランダム成分サンプルのベクトルについてのメルスペクトル（Ｍｅｌｓｐｅｃｔｒａ）を決定する。これは、サンプルの各ベクトルを離散フーリエ変換（ＤＦＴ）４１８に通して、調波成分周波数値のベクトル４２２およびランダム成分周波数値のベクトル４２０を生成することを伴う。周波数値のベクトルによって表されるパワースペクトルは、次いで、メル重み付けユニット４２４によって、メルスケールに沿って適用される一連の三角重み関数（ｔｒｉａｎｇｕｌａｒｗｅｉｇｈｔｉｎｇｆｕｎｃｔｉｏｎｓ）を使用して平滑化される。この結果、調波成分メルスペクトルベクトル４２８であるＹ_ｈおよびランダム成分メルスペクトルベクトル４２６であるＹ_ｒが得られる。

ステップ３１０で、調波成分およびランダム成分のメルスペクトルを重み付けされた和として結合して、雑音が低減されたメルスペクトルの推定を形成する。このステップは、重み付けされた和の計算器４３０によって、上記で決定されたスケーリング係数を以下の式で使用して行われる。

ここで、

は、雑音が低減されたメルスペクトルの推定であり、Ｙ_ｈ（ｔ）は調波成分メルスペクトルであり、Ｙ_ｒ（ｔ）はランダム成分メルスペクトルであり、α_ｈ（ｔ）は上で決定されたスケーリング係数であり、α_ｒは、ランダム成分の固定スケーリング係数であって、一実施形態では０．１に等しく設定され、時間インデックスｔは、ランダム成分のスケーリング係数を固定のままとしつつ、調波成分のスケーリング係数が各フレームごとに決定されることを強調するために使用される。他の実施形態では、ランダム成分のスケーリング係数を各フレームごとに決定してもよいことに留意されたい。

雑音が低減されたメルスペクトルをステップ３１０で計算した後、ステップ３１２で、メルスペクトルの対数４３２が決定され、次いで離散コサイン変換４３４に適用される。これにより、雑音が低減された音声信号を表すメル周波数ケプストラム係数（ＭＦＣＣ）特徴ベクトル４３６が生成される。

雑音のある信号の各フレームごとに、別個の雑音低減ＭＦＣＣ特徴ベクトルが生成される。これらの特徴ベクトルは、音声符号化および音声認識を含む任意の所望の目的に使用することができる。

一実施形態の下では、雑音低減音声のＭＦＣＣ特徴ベクトルは、図５に示す音声認識システム中で直接使用される。

入力信号がトレーニング信号である場合、雑音低減音声の一連のＭＦＣＣ特徴ベクトル４３６がトレーナ５００に提供され、このトレーナは、ＭＦＣＣ特徴ベクトルおよびトレーニングテキスト５０２を使用して音響モデル５０４をトレーニングする。このようなモデルをトレーニングする技法は当技術分野で知られており、これらについての説明は本発明の理解に必要ではない。

入力信号がテスト信号である場合、ＭＦＣＣ音声特徴ベクトルがデコーダ５０６に提供され、このデコーダは、特徴ベクトルのストリーム、レキシコン（ｌｅｘｉｃｏｎ）５０８、言語モデル５１０、音響モデル５０４に基づいて、最も可能性の高い単語のシーケンスを識別する。復号に使用される特定の方法は本発明にとって重要ではなく、知られているいくつかの復号方法のいずれを使用してもよい。

本発明をメル周波数ケプストラム係数に関連して説明したが、その他のタイプの特徴を式１１の重み付け調波および雑音モデルに使用してもよい。

本発明は、特定の実施形態を参照して説明したが、本発明の趣旨および範囲を逸脱することなく形態および細部に変更を加えることができることは、当業者には理解されるであろう。

本発明を実施することのできる一コンピューティング環境のブロック図である。本発明を実施することのできる代替のコンピューティング環境のブロック図である。本発明の一実施形態の雑音低減システムを使用する方法の流れ図である。本発明の一実施形態の雑音低減システムのブロック図である。本発明の実施形態を実施することのできるパターン認識システムのブロック図である。

符号の説明

１００コンピューティングシステム環境
１１０コンピュータ
１２０処理ユニット
１２１システムバス
１３０システムメモリ
１３１ＲＯＭ
１３２ＲＡＭ
１３３ＢＩＯＳ
１３４オペレーティングシステム
１３５アプリケーションプログラム
１３６その他のプログラムモジュール
１３７プログラムデータ
１４０取外し不可の不揮発性メモリインターフェース
１４１ハードディスクドライブ
１４４オペレーティングシステム
１４５アプリケーションプログラム
１４６その他のプログラムモジュール
１４７プログラムデータ
１５０取外し可の不揮発性メモリインターフェース
１５１磁気ディスクドライブ
１５２磁気ディスク
１５５光ディスクドライブ
１５６光ディスク
１６０ユーザ入力インターフェース
１６１ポインティングデバイス
１６２キーボード
１６３マイクロフォン
１７０ネットワークインターフェース
１７１ローカルエリアネットワーク
１７２モデム
１７３ワイドエリアネットワーク
１８０リモートコンピュータ
１８５リモートアプリケーションプログラム
１９０ビデオインターフェース
１９１モニタ
１９５出力周辺インターフェース
１９６プリンタ
１９７スピーカ
２００移動デバイス
２０２プロセッサ
２０４メモリ
２０６Ｉ／Ｏ
２０８通信インターフェース
２１０バス
２１２ＯＳ
２１４アプリケーション
２１６オブジェクトストア
４００スピーカ
４０２加法性雑音
４０４マイクロフォン
４０６Ａ／Ｄ
４０８フレームコンストラクタ
４１０調波分解ユニット
４１２調波成分サンプルのベクトル
４１４ランダム成分サンプルのベクトル
４１６調波スケーリング値決定
４１８離散フーリエ変換
４２０ランダム成分周波数値のベクトル
４２２調波成分周波数値のベクトル
４２４メル重み付け
４２６ランダム成分メルスペクトルベクトル
４２８調波成分メルスペクトルベクトル
４３０重み付けされた和の計算器
４３２対数
４３４離散コサイン変換
４３６雑音低減音声特徴ベクトルの推定値
５００トレーナ
５０２トレーニングテキスト
５０４音響モデル
５０６デコーダ
５０８レキシコン
５１０言語モデル

Claims

雑音が低減された音声信号の一部を表す雑音低減値の推定を識別する方法であって、
雑音のある音声信号の一部を調波成分とランダム成分とに分解することと、
少なくとも前記調波成分のスケーリングパラメータを決定することと、
前記調波成分を前記調波成分の前記スケーリングパラメータで乗算して、スケーリングされた調波成分を形成することと、
前記ランダム成分を前記ランダム成分のスケーリングパラメータで乗算して、スケーリングされたランダム成分を形成することと、
前記スケーリングされた調波成分と前記スケーリングされたランダム成分とを和算して、前記雑音低減値を形成することと
を備えることを特徴とする方法。
雑音のある音声信号の一部を分解することは、最小２乗解を求めて前記調波成分を識別することをさらに備えることを特徴とする請求項１に記載の方法。
前記調波成分のスケーリングパラメータを決定することは、前記雑音のある音声信号のエネルギーに対する前記調波成分のエネルギーの比を決定することを備えることを特徴とする請求項１に記載の方法。
比を決定することは、
前記調波成分のサンプルのエネルギーを和算することと、
前記雑音のある音声信号のサンプルのエネルギーを和算することと、
前記調波成分の合計を前記雑音のある音声信号の合計で除算することと
を備えることを特徴とする請求項３に記載の方法。
雑音のある音声信号の一部を分解することは、前記雑音のある音声信号のフレームからの時間サンプルのベクトルを、時間サンプルの調波成分ベクトルと、時間サンプルのランダム成分ベクトルとに分解することを備えることを特徴とする請求項１に記載の方法。
時間サンプルの前記調波成分から前記調波成分のメルスペクトルを決定することをさらに備えることを特徴とする請求項５に記載の方法。
前記雑音低減値からメル周波数ケプストラム係数特徴ベクトルを形成することをさらに備えることを特徴とする請求項１に記載の方法。
前記メル周波数ケプストラム係数特徴ベクトルを使用して音声認識を実行することをさらに備えることを特徴とする請求項７に記載の方法。
雑音のある音声信号において調波成分とランダム成分とを識別することと、
前記調波成分と前記ランダム成分とを結合して、雑音低減値を生成することと、
前記雑音低減値を使用して音声認識を実行することと
を実行するためのコンピュータ実行可能命令を有することを特徴とするコンピュータ可読媒体。
前記調波成分は、調波正弦波の和としてモデル化されることを特徴とする請求項１に記載の方法。