JP2006087082A

JP2006087082A - 多感覚音声強調のための方法および装置

Info

Publication number: JP2006087082A
Application number: JP2005231246A
Authority: JP
Inventors: Alejandro Acero; アセロアレハンドロ; James G Droppo; ジー．ドロッポジェイムズ; Xuedong David Huang; デイビッドホゥアンシュエドン; Zhengyou Zhang; チェンヨウチャン; Zicheng Liu; ヅーチェンリュウ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-09-17
Filing date: 2005-08-09
Publication date: 2006-03-30
Anticipated expiration: 2025-08-09
Also published as: CA2513195C; MXPA05008740A; KR101153093B1; EP1638084A1; CN100583243C; AU2005202858A1; ATE448541T1; CN1750123A; JP4842583B2; DE602005017549D1; US7574008B2; CA2513195A1; EP1638084B1; KR20060048954A; US20060072767A1; RU2005127419A; RU2389086C2

Abstract

【課題】別の話者の話声など、付加雑音による話声信号の汚れ（ｃｏｒｒｕｐｔｉｏｎ）を検出し、かつ／または補正する方法および装置を提供する。
【解決手段】本発明にかかる方法および装置は、代替センサ信号と気導マイクロフォン信号を使用して、代替センサについてチャネル応答を決定する。次いで、このチャネル応答を使用し、代替センサ信号の少なくとも一部分を使用して雑音のない話声値を推定する。
【選択図】図３

Description

本発明は、雑音低減に関する。詳細には、本発明は、話声信号から雑音を除去することに関する。

音声認識（ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）と音声伝達（ｓｐｅｅｃｈｔｒａｎｓｍｉｓｓｉｏｎ）における共通問題は、付加雑音による話声信号の汚れ（ｃｏｒｒｕｐｔｉｏｎ）である。具体的には、別の話者の話声による汚れは、検出し、かつ／または補正するのが困難であることが実証されている。

最近、骨伝導マイクロフォン（ｂｏｎｅｃｏｎｄｕｃｔｉｏｎｍｉｃｒｏｐｈｏｎｅ）など代替センサと気導マイクロフォン（ａｉｒｃｏｎｄｕｃｔｉｏｎｍｉｃｒｏｐｈｏｎｅ）の組合せを使用することによって雑音を除去しようと試みるシステムが開発されている。このシステムは、３つのトレーニングチャネル、すなわち、雑音の多い代替センサトレーニング信号、雑音の多い気導マイクロフォントレーニング信号、雑音のない（ｃｌｅａｎ）気導マイクロフォントレーニング信号を使用してトレーニングされる。それぞれの信号は、特徴領域（ｆｅａｔｕｒｅｄｏｍａｉｎ）に変換される。雑音の多い代替センサ信号と、雑音の多い気導マイクロフォン信号についての特徴は、雑音の多い信号を表す単一のベクトルに組み合わされる。雑音のない気導マイクロフォン信号についての特徴は、単一の雑音のないベクトルを形成する。次いで、これらのベクトルは、雑音の多いベクトルと雑音のないベクトルの間のマッピングをトレーニングするために使用される。マッピングは、トレーニングされた後で、雑音の多い代替センサテスト信号と雑音の多い気導マイクロフォンテスト信号の組合せから形成された雑音の多いベクトルに適用される。このマッピングは、雑音のないベクトルを生成する。

このシステムは、テスト信号の雑音条件がトレーニング信号の雑音条件と合致しないとき最適に及ばない。というのは、マッピングが、トレーニング信号の雑音条件に合わせて設計されるからである。

本方法および装置は、代替センサ信号と気導マイクロフォン信号を使用して、代替センサについてチャネル応答を決定する。次いで、このチャネル応答を使用し、代替センサ信号の少なくとも一部分を使用して雑音のない話声値を推定する。

図１は、本発明を実施することができる好適なコンピューティングシステム環境１００の一例を示す。コンピューティングシステム環境１００は、好適なコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲についてどんな制限も暗示しないものとする。また、コンピューティング環境１００は、例示的な動作環境１００に示されている構成要素のいずれか１つ、またはその組合せに関してどんな依存性も要件も有すると解釈すべきでない。

本発明は、多数の他の汎用または専用コンピューティングシステム環境または構成と共に動作可能である。本発明と共に使用するのに適している可能性のある周知のコンピューティングシステム、環境、および／または構成の例には、それだけには限らないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサをベースとするシステム、セットトップボックス、プログラム可能な家電、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、テレフォニシステム、上記のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれる。

本発明について、コンピュータによって実行される、プログラムモジュールなどコンピュータ実行可能命令の一般的な状況で述べる。一般に、プログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明はまた、通信ネットワークを介してリンクされた遠隔処理デバイスによってタスクが実行される分散コンピューティング環境内で実施されるように設計される。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含むローカルと遠隔双方のコンピュータ記憶媒体内に位置する。

図１を参照すると、本発明を実施するための例示的なシステムが、コンピュータ１１０の形態で汎用コンピューティングデバイスを含んでいる。コンピュータ１１０の構成要素には、それだけには限らないが、処理装置１２０、システムメモリ１３０、およびシステムメモリを含む様々なシステム構成要素を処理装置１２０に結合するシステムバス１２１が含まれる。システムバス１２１は、メモリバスまたはメモリコントローラ、周辺機器バス、および様々なバスアーキテクチャのいずれかを使用するローカルバスを含むいくつかのタイプのバス構造のいずれかとすることができる。限定ではなく例を挙げると、そのようなアーキテクチャには、ＩＳＡ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＭＣＡ（ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＥＩＳＡ（ＥｎｈａｎｃｅｄＩＳＡ）バス、ＶＥＳＡ（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ）ローカルバス、および、メザニンバスとしても知られるＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）バスが含まれる。

コンピュータ１１０は、一般に、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ１１０によってアクセスすることができる任意の入手可能な媒体とすることができ、揮発性媒体と不揮発性媒体、取外し式媒体と非取外し式媒体を共に含む。限定ではなく例を挙げると、コンピュータ可読媒体は、コンピュータ記憶媒体と通信媒体を含む。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなど、情報を記憶するための任意の方法または技術で実施される揮発性と不揮発性、取外し式と非取外し式の媒体が共に含まれる。コンピュータ記憶媒体には、それだけには限らないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリもしくは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）もしくは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気記憶装置、または、所望の情報を記憶するために使用することができ、コンピュータ１１０によってアクセスすることができる他の任意の媒体が含まれる。通信媒体は、一般に、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを、搬送波または他の移送機構など変調データ信号に統合し、任意の情報送達媒体を含む。「変調データ信号」という用語は、情報を信号に符号化するようにその特性の１つまたは複数が設定された、または変化した信号を意味する。限定ではなく例を挙げると、通信媒体は、有線ネットワークまたは直接配線接続など有線媒体と、音響、ＲＦ、赤外線および他の無線媒体など無線媒体とを含む。上記のいずれかの組合せもまた、コンピュータ可読媒体の範囲内に含むべきである。

システムメモリ１３０は、読出し専用メモリ（ＲＯＭ）１３１およびランダムアクセスメモリ（ＲＡＭ）１３２など揮発性および／または不揮発性メモリの形態でコンピュータ記憶媒体を含む。起動中などにコンピュータ１１０内の要素間で情報を転送するのを助ける基本ルーチンを含む基本入出力システム（ＢＩＯＳ）１３３は、一般にＲＯＭ１３１内に記憶される。一般にＲＡＭ１３２は、処理装置１２０によって直ちにアクセス可能な、かつ／または現在働きかけられているデータおよび／またはプログラムモジュールを含む。限定ではなく例を挙げると、図１は、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、プログラムデータ１３７を示す。

コンピュータ１１０はまた、他の取外し式／非取外し式、揮発性／不揮発性コンピュータ記憶媒体を含むことができる。例示にすぎないが、図１は、非取外し式の不揮発性磁気媒体との間で読出しまたは書込みをするハードディスクドライブ１４１、取外し式の不揮発性磁気ディスク１５２との間で読出しまたは書込みをする磁気ディスクドライブ１５１、ＣＤＲＯＭまたは他の光媒体など取外し式の不揮発性光ディスク１５６との間で読出しまたは書込みをする光ディスクドライブ１５５を示す。例示的な動作環境内で使用することができる他の取外し式／非取外し式、揮発性／不揮発性コンピュータ記憶媒体には、それだけには限らないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、固体ＲＡＭ、固体ＲＯＭなどが含まれる。一般にハードディスクドライブ１４１は、インターフェース１４０など非取外し式メモリインターフェースを介してシステムバス１２１に接続され、磁気ディスクドライブ１５１および光ディスクドライブ１５５は、一般に、インターフェース１５０など取外し式メモリインターフェースによってシステムバス１２１に接続される。

上記で論じ、図１に示されているドライブとその関連コンピュータ記憶媒体は、コンピュータ１１０のために、コンピュータ可読命令、データ構造、プログラムモジュール、および他のデータを記憶する。たとえば、図１では、ハードディスクドライブ１４１が、オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、プログラムデータ１４７を記憶して示されている。これらの構成要素は、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、プログラムデータ１３７と同じとすることも異なるものとすることもできることに留意されたい。ここでは、オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、プログラムデータ１４７は、これらが最低でも異なるコピーであることを示すために異なる番号が与えられている。

ユーザは、キーボード１６２、マイクロフォン１６３、および、マウス、トラックボール、またはタッチパッドなどポインティングデバイス１６１など、入力デバイスを介してコンピュータ１１０にコマンドおよび情報を入力することができる。他の入力デバイス（図示せず）には、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどが含まれる。これらの、また他の入力デバイスは、しばしば、システムバスに結合されるユーザ入力インターフェース１６０を介して処理装置１２０に接続されるが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス（ＵＳＢ）など、他のインターフェースおよびバス構造によって接続することができる。モニタ１９１または他のタイプのディスプレイデバイスもまた、ビデオインターフェース１９０など、インターフェースを介してシステムバス１２１に接続される。コンピュータはまた、モニタに加えて、スピーカ１９７やプリンタ１９６など他の周辺出力デバイスをも含むことができ、これらは、出力周辺機器インターフェース１９５を介して接続することができる。

コンピュータ１１０は、遠隔コンピュータ１８０など、１つまたは複数の遠隔コンピュータに対する論理接続を使用してネットワーク環境内で動作する。遠隔コンピュータ１８０は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークＰＣ、ピアデバイスまたは他の共通ネットワークノードとすることができ、一般に、コンピュータ１１０に関して上述した要素の多数または全部を含む。図１に示されている論理接続は、ローカルエリアネットワーク（ＬＡＮ）１７１と広域ネットワーク（ＷＡＮ）１７３を含むが、他のネットワークを含むこともできる。そのようなネットワーク環境は、事務所、全社コンピュータネットワーク、イントラネット、インターネットで普通である。

コンピュータ１１０は、ＬＡＮネットワーク環境内で使用されるとき、ネットワークインターフェースまたはアダプタ１７０を介してＬＡＮ１７１に接続される。コンピュータ１１０は一般に、ＷＡＮネットワーク環境内で使用されるとき、インターネットなどＷＡＮ１７３を介して通信を確立するためのモデム１７２または他の手段を含む。モデム１７２は、内部にあっても外部にあってもよく、ユーザ入力インターフェース１６０または他の適切な機構を介してシステムバス１２１に接続することができる。ネットワーク環境では、コンピュータ１１０に関して示されているプログラムモジュール、またはその一部分を、遠隔メモリ記憶装置内に記憶することができる。限定ではなく例を挙げると、図１は、遠隔コンピュータ１８０に常駐する遠隔アプリケーションプログラム１８５を示す。図のネットワーク接続は例示的なものであり、コンピュータ間で通信リンクを確立する他の手段を使用することができることを理解されたい。

図２は、例示的なコンピューティング環境であるモバイルデバイス２００のブロック図である。モバイルデバイス２００は、マイクロプロセッサ２０２と、メモリ２０４と、入出力（Ｉ／Ｏ）構成要素２０６と、遠隔コンピュータまたは他のモバイルデバイスと通信するための通信インターフェース２０８とを含む。一実施形態では、前述の構成要素は、好適なバス２１０を介して互いに通信するために結合される。

メモリ２０４は、モバイルデバイス２００に対する一般電源がシャットダウンされたときメモリ２０４内に記憶された情報が失われないように、バッテリバックアップモジュール（図示せず）を有するランダムアクセスメモリ（ＲＡＭ）など不揮発性電子メモリとして実施される。メモリ２０４の一部分は、プログラム実行のためにアドレス可能なメモリとして割り振られることが好ましく、一方、メモリ２０４の別の部分は、ディスクドライブ上のストレージをシミュレーションするためなど、記憶のために使用されることが好ましい。

メモリ２０４は、オペレーティングシステム２１２、アプリケーションプログラム２１４、ならびにオブジェクトストア２１６を含む。動作中には、オペレーティングシステム２１２は、プロセッサ２０２によってメモリ２０４から実行されることが好ましい。好ましい一実施形態では、オペレーティングシステム２１２は、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎより市販されているＷＩＮＤＯＷＳ（登録商標）ＣＥブランドのオペレーティングシステムである。オペレーティングシステム２１２は、モバイルデバイス用に設計されていることが好ましく、エクスポーズされた１組のアプリケーションプログラミングインターフェースおよびメソッドを介してアプリケーション２１４に使用させることができるデータベース機能を実装する。オブジェクトストア２１６内のオブジェクトは、少なくとも一部には、エクスポーズされたアプリケーションプログラミングインターフェースおよびメソッドに対する呼出しに応答して、アプリケーション２１４およびオペレーティングシステム２１２によって維持される。

通信インターフェース２０８は、モバイルデバイス２００で情報を送受信することが可能になる多数のデバイスおよび技術を表す。このデバイスは、少し例を挙げると、有線モデムおよび無線モデム、衛星受信機、ならびに放送チューナを含む。モバイルデバイス２００はまた、コンピュータに直接接続し、コンピュータとデータを交換することができる。そのような場合には、通信インターフェース２０８は、赤外線トランシーバ、またはシリアルもしくはパラレル通信接続とすることができ、それらはすべて、ストリーミング情報を送信することが可能である。

入出力構成要素２０６は、タッチスクリーン、ボタン、ローラ、マイクロフォンなど様々な入力デバイスと、オーディオジェネレータ、振動デバイス、ディスプレイなど様々な出力デバイスとを含む。上記のデバイスは例としてのものであり、全部がモバイルデバイス２００上にあるには及ばない。さらに、本発明の範囲内で、他の入出力デバイスをモバイルデバイス２００に取り付ける、あるいはモバイルデバイス２００と共に見出すことができる。

図３は、本発明の諸実施形態の基本的なブロック図を提供する。図３では、話者３００は、気導マイクロフォン３０４および代替センサ３０６によって検出される話声信号３０２（Ｘ）を生成する。代替センサの例には、ユーザの咽喉振動を測定する咽喉マイクロフォン、ユーザの（下顎骨など）顔面骨もしくは頭蓋骨上に、またはそれらに隣接して、あるいはユーザの耳内に位置し、ユーザによって生成される話声に対応する頭骨および顎の振動を検知する骨伝導センサが含まれる。気導マイクロフォン３０４は、可聴周波の空気波（ａｕｄｉｏａｉｒ−ｗａｖｅ）を電気信号に変換するために一般に使用されるタイプのマイクロフォンである。

気導マイクロフォン３０４はまた、１つまたは複数の雑音源３１０によって生成される周囲雑音（ａｍｂｉｅｎｔｎｏｉｓｅ）３０８（Ｕ）と、背景話者３１４によって生成される背景話声（ｂａｃｋｇｒｏｕｎｄｓｐｅｅｃｈ）３１２（Ｖ）とを受け取る。代替センサのタイプと背景話声のレベルに応じて、背景話声３１２をも代替センサ３０６によって検出することができる。しかし、本発明の諸実施形態によれば、代替センサ３０６は一般に、気導マイクロフォン３０４より周囲雑音および背景話声に対して感度が低い。したがって、代替センサ３０６によって生成された代替センサ信号３１６（Ｂ）は、気導マイクロフォン３０４によって生成された気導マイクロフォン信号３１８（Ｙ）より少ない雑音を含む。代替センサ３０６は、周囲雑音に対して感度が低いが、何らかのセンサ雑音３２０（Ｗ）を生成する。

話者３００から代替センサ信号３１６への経路は、チャネル応答Ｈを有するチャネルとしてモデル化することができる。背景話者３１４から代替センサ信号３１６への経路は、チャネル応答Ｇを有するチャネルとしてモデル化することができる。

代替センサ信号３１６（Ｂ）と気導マイクロフォン信号３１８（Ｙ）は、雑音のない信号推定器３２２に送られ、雑音のない信号推定器３２２は、雑音のない信号３２４を推定し、いくつかの実施形態では、背景話声信号３２６を推定する。雑音のない信号推定値３２４は、音声処理３２８に送られる。雑音のない信号推定値３２４は、フィルタされた時間領域信号またはフーリエ変換ベクトルとすることができる。雑音のない信号推定値３２４が時間領域信号である場合、音声処理３２８は、聞き手、音声符号化システム、または音声認識システムの形態をとることができる。雑音のない信号推定値３２４がフーリエ変換ベクトルである場合、音声処理３２８は、典型的には音声認識システムとなり、フーリエ変換ベクトルを波形に変換するために逆フーリエ変換を含む。

直接フィルタリング強調３２２内で、代替センサ信号３１６とマイクロフォン信号３１８は、雑音のない話声を推定するために使用される周波数領域に変換される。図４に示されているように、代替センサ信号３１６と気導マイクロフォン信号３１８は、一連のデジタル値を生成するために、それぞれアナログ−デジタル変換器４０４および４１４に送られ、一連のデジタル値は、それぞれフレームコンストラクタ４０６および４１６によって、値のフレームの形にグループ化される。一実施形態では、アナログ−デジタル変換器４０４および４１４は、アナログ信号を１サンプル当たり１６ｋＨｚ、１６ビットでサンプリングし、それによって、１秒当たり話声データ３２キロバイトを生み出し、フレームコンストラクタ４０６および４１６は、２０ミリ秒相当のデータを含む新しいそれぞれのフレームを１０ミリ秒ごとに生み出す。

フレームコンストラクタ４０６および４１６によって提供されたデータの各それぞれのフレームは、それぞれ高速フーリエ変換（ＦＦＴ）４０８および４１８を使用して、周波数領域に変換される。

代替センサ信号および気導マイクロフォン信号についての周波数領域値は、雑音のない信号推定器４２０に送られ、雑音のない信号推定器４２０は、この周波数領域値を使用し、雑音のない話声信号３２４を、またいくつかの実施形態では背景話声信号３２６を推定する。

いくつかの実施形態によれば、雑音のない話声信号３２４と背景話声信号３２６は、逆高速フーリエ変換４２２および４２４を使用して、時間領域に変換される。これにより、雑音のない話声信号３２４と背景話声信号３２６の時間領域バージョンが生み出される。

本発明は、雑音のない話声信号３２４を推定するための直接フィルタリング技法を提供する。直接フィルタリングによれば、代替センサ３０６についてのチャネル応答の最尤推定値が、関数をチャネル応答に対して最小化することによって決定される。次いで、これらの推定値は、関数を雑音のない話声信号に対して最小化することによって、雑音のない話声信号の最尤推定値を決定するために使用される。

本発明の一実施形態によれば、代替センサによって検出される背景話声に対応するチャネル応答Ｇは、ゼロであると考えられ、背景話声と周囲雑音が組み合わされ、単一の雑音項を形成する。これは、
ｙ（ｔ）＝ｘ（ｔ）＋ｚ（ｔ）式１
ｂ（ｔ）＝ｈ（ｔ）・ｘ（ｔ）＋ｗ（ｔ）式２
という雑音のない話声信号と、気導マイクロフォン信号および代替センサ信号との間のモデルとなり、上式で、ｙ（ｔ）は気導マイクロフォン信号であり、ｂ（ｔ）は代替センサ信号であり、ｘ（ｔ）は雑音のない話声信号であり、ｚ（ｔ）は背景話声と周囲雑音を含む組合せ雑音信号であり、ｗ（ｔ）は代替センサ雑音であり、ｈ（ｔ）は、代替センサに関連する雑音のない話声信号に対するチャネル応答である。したがって、式２では、代替センサ信号は、雑音のない話声信号のフィルタされたバージョンとしてモデル化され、フィルタは、ｈ（ｔ）のインパルス応答を有する。

周波数領域では、式１および式２は、
Ｙ_ｔ（ｋ）＝Ｘ_ｔ（ｋ）＋Ｚ_ｔ（ｋ）式３
Ｂ_ｔ（ｋ）＝Ｈ_ｔ（ｋ）Ｘ_ｔ（ｋ）＋Ｗ_ｔ（ｋ）式４
として表すことができ、上式で、Ｙ_ｔ（ｋ）は、時間ｔを中心とする信号のフレームのｋ番目の周波数成分を表す。この表記法は、Ｘ_ｔ（ｋ）、Ｚ_ｔ（ｋ）、Ｈ_ｔ（ｋ）、Ｗ_ｔ（ｋ）、Ｂ_ｔ（ｋ）にも適用される。以下の考察では、見やすくするために、周波数成分ｋに対する参照が省略される。しかし、以下で実施される計算は周波数成分ごとに実施されることを、当業者なら理解するであろう。

この実施形態によれば、雑音Ｚ_ｔおよびＷ_ｔの実数部および虚数部は、

のような独立ゼロ平均ガウス分布としてモデル化され、上式で、

は、雑音Ｚ_ｔについての分散であり、

は、雑音Ｗ_ｔについての分散である。

Ｈ_ｔもまた、

のようなガウス分布としてモデル化され、上式で、Ｈ_０はチャネル応答の平均であり、

は、チャネル応答の分散である。

これらのモデルパラメータが与えられると、雑音のない話声値Ｘ_ｔ、およびチャネル応答値Ｈ_ｔの確率は、条件付き確率、すなわち

によって説明され、上式は、

に比例し、上式は、

に等しい。

一実施形態では、チャネル応答についての従来の（ｐｒｉｏｒ）確率

および、雑音のない話声信号についての従来の確率、ｐ（Ｘ_ｔ）は無視され、残りの確率がガウス分布として処理される。これらの簡約を使用して、式１０は、

になる。

したがって、発話についてのＨ_ｔ、Ｘ_ｔの最尤推定値は、その発話内の時間フレームＴすべてにわたって式１１の指数項を最小化することによって決定される。したがって、最尤推定値は、

を最小化することによって与えられる。

式１２は、２つの変数Ｘ_ｔ、Ｈ_ｔに関して最小化されつつあるため、各変数に関する偏微分を取り、その関数を最小化するその変数の値を決定することができる。具体的には、

により、

が得られ、上式で、

は、Ｈ_ｔの複素共役を表し、｜Ｈ_ｔ｜は、複素値Ｈ_ｔの大きさを表す。Ｘ_ｔのこの値を式１２に代入し、偏微分

を設定し、次いで、Ｈは時間フレームＴすべてにわたって一定であると仮定すると、

というＨの解が得られる。

式１４では、Ｈの推定は、

の形態で、最後のＴフレーム全体にわたっていくつかの総和を計算することを必要とする。ただし、上式でｓ_ｔは

または

である。

この式の場合、最初のフレーム（ｔ＝１）は、最後のフレーム（ｔ＝Ｔ）と同じくらい重要である。しかし、他の実施形態では、古いフレームより最新のフレームの方がＨの推定に、より多く貢献することが好ましい。これを達成するための１つの技法は、「指数エージング（ｅｘｐｏｎｅｎｔｉａｌａｇｉｎｇ）」であり、式１５の総和は、

で置き換えられる。ただし、上式ではｃ≦１である。ｃ＝１の場合には、式１６は式１５と等しい。ｃ＜１の場合には、最後のフレームが１だけ加重され、最後の直前のフレームがｃだけ加重され（すなわち、最後のフレームより貢献が少なくなる）、最初のフレームは、ｃ^Ｔ−１だけ加重される（すなわち、最後のフレームより著しく貢献が少なくなる）。一例を挙げてみる。ｃ＝０．９９、Ｔ＝１００とすると、最初のフレームに対する重みは、０．９９９９＝０．３７だけになる。

一実施形態によれば、式１６は、
Ｓ（Ｔ）＝ｃＳ’（Ｔ−１）＋ｓ_Ｔ式１７
として帰納的に推定される。

式１７は、自動的に古いデータの加重を少なくするため、固定されたウィンドウ長を使用することが必要とされず、最後のＴフレームのデータをメモリに記憶することが必要とされない。その代わりに、先のフレーム部でのＳ（Ｔ−１）についての値だけ記憶することが必要とされる。

式１７を使用して、式１４は、

となる。ただし、

式１９および式２０におけるｃの値は、Ｊ（Ｔ）およびＫ（Ｔ）の現在の値を計算するために使用される過去のフレームの数について有効長を提供する。具体的には、この有効長は、

によって得られる。

漸近有効長は、

または、等価的には、

によって得られる。

したがって、式２３を使用して、式１８における様々な有効長を達成するためにｃを設定することができる。たとえば、２００フレームの有効長を達成するために、

としてｃが設定される。

式１４を使用してＨが推定された後で、式１３のすべてのＨ_ｔの代わりにそれを使用し、各時間フレームｔでＸ_ｔの別個の値を決定することができる。別法として、式１８を使用し、各時間フレームｔでＨ_ｔを推定することができる。次いで、各フレームのＨ_ｔの値は、Ｘ_ｔを決定するために式１３で使用される。

図５は、式１３および式１４を使用し、発話について雑音のない話声値を推定する本発明の方法の流れ図を提供する。

ステップ５００で、気導マイクロフォン信号および代替センサ信号のフレームの周波数成分が、発話全体にわたって取り込まれる。

ステップ５０２で、気導マイクロフォン雑音についての分散

および、代替センサ雑音についての分散

が、それぞれ、話者が話をしていない間に、発話の所期に取り込まれる気導マイクロフォン信号と代替センサ信号のフレームから決定される。

この方法は、代替センサ信号の低エネルギー部分を識別することによって、いつ話者が話をしていないか判定する。というのは、代替センサ雑音のエネルギーは、代替センサ信号によって取り込まれる話声信号よりはるかに小さいからである。他の諸実施形態では、既知の話声検出技法を気導話声信号に適用し、話者がいつ話をしているか識別することができる。話者が話をしていると考えられない間、Ｘ_ｔはゼロであると仮定され、気導マイクロフォンまたは代替センサからのどの信号も雑音であると考えられる。これらの雑音値のサンプルが非話声のフレームから収集され、気導信号および代替センサ信号内の雑音の分散を推定するために使用される。

ステップ５０４で、発話のフレームすべてにわたる代替センサ信号および気導マイクロフォン信号についての値を使用し、上記の式１４を使用してＨの値を決定する。ステップ５０６で、Ｈのこの値を、各時間フレームでの気導マイクロフォン信号および代替センサ信号の個々の値と共に使用し、上記の式１３を使用して、各時間フレームについて強調された、または雑音低減された話声値を決定する。

他の諸実施形態では、式１４を使用してＨの単一の値を決定するために発話のフレームすべてを使用するのではなく、式１８を使用して、各フレームについてＨ_ｔが決定される。次いで、Ｈ_ｔの値を使用し、上記の式１３を使用して、そのフレームについてＸ_ｔを計算する。

本発明の第２の実施形態では、背景話声に対する代替センサのチャネル応答が非ゼロであると考えられる。この実施形態では、気導マイクロフォン信号と代替センサ信号は、
Ｙ_ｔ（ｋ）＝Ｘ_ｔ（ｋ）＋Ｖ_ｔ（ｋ）＋Ｕ_ｔ（ｋ）式２５
Ｂ_ｔ（ｋ）＝Ｈ_ｔ（ｋ）Ｘ_ｔ（ｋ）＋Ｇ_ｔ（ｋ）Ｖ_ｔ（ｋ）＋Ｗ_ｔ（ｋ）式２６
としてモデル化され、上式で、雑音Ｚ_ｔ（ｋ）は、背景話声Ｖ_ｔ（ｋ）と周囲雑音Ｕ_ｔ（ｋ）に分離されており、背景話声に対する代替センサチャネル応答は、Ｇ_ｔ（ｋ）の非ゼロ値である。

この実施形態によれば、雑音のない話声Ｘ_ｔの従来の知識は、引き続き無視される。このように仮定して、雑音のない話声Ｘ_ｔについての最尤度は、目的関数、すなわち

を最小化することによって見出すことができる。

これは、

という雑音のない話声についての式となる。

式２８を解くために、分散

および

ならびにチャネル応答値Ｈ_ｔおよびＧ_ｔが既知でなければならない。図６は、これらの値を識別するための、また、各フレームについて、強調された話声値を決定するための流れ図を提供する。

ステップ６００で、ユーザが話をしておらず、背景話声のない発話のフレームが識別される。次いで、これらのフレームを使用し、代替センサと気導マイクロフォンについて、それぞれ分散

および

を決定する。

ユーザが話をしていないフレームを識別するために、代替センサ信号を調べることができる。代替センサ信号は、背景話声について、雑音についてよりはるかに小さい信号値を生成することになるため、代替センサ信号のエネルギーが低い場合、話者が話をしていないと仮定することができる。代替信号に基づいて識別されたフレーム内で、話声検出アルゴリズムを気導マイクロフォン信号に適用することができる。この話声検出システムは、ユーザが話をしていないとき気導マイクロフォン信号内に背景話声があるかどうか検出することになる。そのような話声検出アルゴリズムは当技術分野で周知であり、ピッチ追跡システムなど諸システムを含む。

気導マイクロフォンおよび代替センサに関連する雑音についての分散が決定された後で、図６の方法はステップ６０２で続行し、ユーザは話をしていないが背景話声が存在するフレームを識別する。これらのフレームは、上述した同じ技法を使用して、しかしユーザが話をしていないとき背景話声を含むフレームを選択して識別される。ユーザが話をしていないとき背景話声を含むフレームの場合、背景話声が周囲雑音よりはるかに大きいと仮定される。したがって、それらのフレーム中の気導マイクロフォン信号におけるどの分散も、背景話声からのものであると考えられる。その結果、分散

は、ユーザは話をしていないが背景話声が存在するフレーム中の気導マイクロフォン信号の値から、直接設定することができる。

ステップ６０４で、識別された、ユーザは話をしていないが背景話声が存在するフレームを使用し、背景話声について代替センサのチャネル応答Ｇを推定する。具体的には、Ｇは、

として決定される。

上式で、Ｄは、ユーザは話をしていないが背景話声が存在するフレームの数である。式２９では、Ｇは、発話のフレームすべてにわたって一定のままであり、したがって、もはや時間フレームｔに依存しないと仮定される。

ステップ６０６で、背景話声に対する代替センサのチャネル応答Ｇの値を使用し、雑音のない話声信号に対する代替センサのチャネル応答を決定する。具体的には、Ｈは、

として計算される。

式３０では、Ｔ全体にわたる総和を、式１５〜２４に関連して上記で論じた帰納的指数減衰計算（ｒｅｃｕｒｓｉｖｅｅｘｐｏｎｅｎｔｉａｌｄｅｃａｙｃａｌｃｕｌａｔｉｏｎ）と置き換えることができる。

ステップ６０６でＨが決定された後で、式２８を使用し、フレームすべてについて雑音のない話声値を決定することができる。式２８を使用する際に、Ｈ_ｔおよびＧ_ｔが、それぞれ時間非依存性の値ＨおよびＧと置き換えられる。さらに、いくつかの実施形態によれば、式２８における項Ｂ_ｔ−ＧＹ_ｔは、

と置き換えられる。というのは、背景話声と、代替センサ内へのその漏れとの位相差を正確に決定することは困難であることが判明しているからである。

式３０における総和の代わりに帰納的指数減衰計算が使用される場合、各時間フレームについてＨ_ｔの別々の値を決定することができ、式２８においてＨ_ｔとして使用することができる。

上記の実施形態のさらなる延長では、各時間フレームで背景話声信号の推定値を提供することが可能である。具体的には、雑音のない話声値が決定された後で、各フレームでの背景話声値を、

として決定することができる。

この任意選択のステップは、図６ではステップ６１０として示されている。

上記の諸実施形態では、雑音のない話声信号に対する代替センサのチャネル応答の従来の知識は無視されている。他の実施形態では、この従来の知識が提供されている場合には、それを使用し、各時間フレームでのチャネル応答の推定値Ｈ_ｔを生成する、また、雑音のない話声値Ｘ_ｔを決定することができる。

この実施形態では、この場合も、背景話声雑音に対するチャネル応答がゼロと仮定される。したがって、気導信号および代替センサ信号のモデルは、上記の式３および式４に示されているモデルと同じである。各時間フレームで雑音のない話声値およびチャネル応答Ｈ_ｔを推定するための式は、目的関数、すなわち

を最小化することによって決定される。この目的関数は、Ｘ_ｔおよびＨ_ｔに関して、これら２つの変数に対して別々に偏微分を取り、その結果をゼロに設定することによって最小化される。これにより、Ｘ_ｔおよびＨ_ｔについて以下の式、すなわち

が得られる。ただし、上式でＨ_０および

は、それぞれ、雑音のない話声信号に対する代替センサのチャネル応答のための従来のモデルの平均および分散である。Ｘ_ｔについての式はＨ_ｔを含み、Ｈ_ｔについての式はＸ_ｔを含むため、式３３および式３４は、反復する形で解かなければならない。式７は、そのような反復を行うための流れ図を提供する。

図７のステップ７００では、チャネル応答用の従来のモデルのためのパラメータが決定される。ステップ７０２で、Ｘ_ｔの推定値が決定される。この推定値は、チャネル応答の従来のモデルが無視された、上述の以前の実施形態のいずれかを使用して決定することができる。ステップ７０４で、従来のモデルのパラメータと、Ｘ_ｔの初期推定値とを使用し、式３４を使用してＨ_ｔを決定する。次いで、ステップ７０６で、Ｈ_ｔを使用し、式３３を使用して雑音のない話声値を更新する。ステップ７０８で、プロセスは、より多くの反復が望ましいかどうか決定する。より多くの反復が望ましい場合、プロセスはステップ７０４に戻り、ステップ７０６で決定された、更新済みのＸ_ｔの値を使用して、Ｈ_ｔの値を更新する。ステップ７０４とステップ７０６は、ステップ７０８で、それ以上反復が望まれなくなるまで繰り返され、この時点で、プロセスは、ステップ７１０で終了する。

本発明について、特定の実施形態を参照しながら述べたが、本発明の要旨および範囲から逸脱することなしに形態および詳細に変更を加えることができることを、当業者なら理解するであろう。

本発明を実施することができるコンピューティング環境の１つのブロック図である。本発明を実施することができる代替のコンピューティング環境のブロック図である。本発明の全体的な音声処理システムのブロック図である。本発明の一実施形態による、話声を強調するためのシステムのブロック図である。本発明の一実施形態による、話声を強調するための流れ図である。本発明の他の実施形態による、話声を強調するための流れ図である。本発明の他の実施形態による、話声を強調するための流れ図である。

符号の説明

３００話者
３０４気導マイクロフォン
３０６代替センサ
３１０周囲雑音Ｕ
３１４背景話者
３２０センサ雑音Ｗ
３２２直接フィルタリング強調
３２８音声処理

Claims

雑音が低減された話声信号の一部分を表す雑音低減値についての推定値を決定する方法であって、
気導マイクロフォン以外の代替センサを使用して、代替センサ信号を生成するステップと、
気導マイクロフォン信号を生成するステップと、
前記代替センサ信号と前記気導マイクロフォン信号を使用し、前記代替センサ信号のチャネル応答についての値を推定するステップと、
前記チャネル応答を使用し、前記雑音低減値を推定するステップとを含むことを特徴とする方法。
チャネル応答についての値を推定するステップは、目的関数の末端を見つけるステップを含むことを特徴とする請求項１に記載の方法。
チャネル応答を推定するステップは、前記チャネル応答と重畳され、その結果が雑音項と合計された、雑音のない話声信号として前記代替センサ信号をモデル化するステップを含むことを特徴とする請求項１に記載の方法。
前記チャネル応答は、雑音のない話声信号に対するチャネル応答を含むことを特徴とする請求項１に記載の方法。
背景話声信号に対する代替センサのチャネル応答を決定するステップをさらに含むことを特徴とする請求項４に記載の方法。
前記チャネル応答を使用し、前記雑音低減値を推定するステップは、前記雑音のない話声信号に対する前記チャネル応答と、前記背景話声信号に対する前記チャネル応答とを使用し、前記雑音低減値を推定するステップを含むことを特徴とする請求項５に記載の方法。
前記雑音低減値の前記推定値を使用し、背景話声信号についての値を推定するステップをさらに含むことを特徴とする請求項１に記載の方法。
チャネル応答についての値を推定するステップは、前記代替センサ信号および前記気導マイクロフォン信号の一連のフレームを使用し、前記一連のフレーム内の前記フレームについて単一のチャネル応答値を推定するステップを含むことを特徴とする請求項１に記載の方法。
前記チャネル応答を使用し、雑音低減値を推定するステップは、前記一連のフレーム内の各フレームについて別々の雑音低減値を推定するステップを含むことを特徴とする請求項８に記載の方法。
チャネル応答についての値を推定するステップは、現在のフレーム内の前記代替センサ信号および前記気導マイクロフォン信号についての値を、先のフレーム内の前記代替センサ信号および前記気導マイクロフォン信号についての値より重く加重することによって、前記現在のフレームについての前記値を推定するステップを含むことを特徴とする請求項１に記載の方法。
代替センサ信号と気導マイクロフォン信号を使用して、代替センサについてのチャネル応答を決定するステップと、
前記チャネル応答を使用し、前記代替センサ信号の少なくとも一部分を使用して雑音のない話声値を推定するステップと
を含むステップを実施するためのコンピュータ実行可能命令を有することを特徴とするコンピュータ可読媒体。
チャネル応答を決定するステップは、前記代替センサ信号および前記気導マイクロフォン信号の一連のフレームについて単一のチャネル応答を決定するステップを含むことを特徴とする請求項１１に記載のコンピュータ可読媒体。
前記チャネル応答は、雑音のない話声信号に対するチャネル応答を含むことを特徴とする請求項１１に記載のコンピュータ可読媒体。
背景話声信号に対するチャネル応答を決定するステップをさらに含むことを特徴とする請求項１３に記載のコンピュータ可読媒体。
前記雑音のない話声信号に対する前記チャネル応答と共に前記背景話声信号に対する前記チャネル応答を使用し、前記雑音のない話声値を推定するステップをさらに含むことを特徴とする請求項１４に記載のコンピュータ可読媒体。
前記雑音のない話声値を使用し、背景話声値を推定するステップをさらに含むことを特徴とする請求項１１に記載のコンピュータ可読媒体。
雑音のない話声信号を識別する方法であって、
代替センサ信号内の雑音を説明する雑音パラメータを推定するステップと、
前記雑音パラメータを使用し、代替センサについてチャネル応答を推定するステップと、
前記チャネル応答を使用し、前記雑音のない話声信号についての値を推定するステップとを含むことを特徴とする方法。
雑音パラメータを推定するステップは、前記代替センサ信号を使用し、ユーザが話をしていない期間を識別するステップを含むことを特徴とする請求項１７に記載の方法。
前記ユーザが話をしていない前記期間に関連する気導マイクロフォン信号の一部分に対して話声検出を実施し、非話声期間および背景話声期間を識別するステップをさらに含むことを特徴とする請求項１８に記載の方法。
前記非話声期間に関連する前記代替センサ信号の一部分を使用し、前記雑音パラメータを推定するステップをさらに含むことを特徴とする請求項１９に記載の方法。
前記非話声期間を使用し、前記気導マイクロフォン信号内の雑音を説明する雑音パラメータを推定するステップをさらに含むことを特徴とする請求項２０に記載の方法。
前記背景話声期間に関連する前記代替センサ信号の前記一部分を使用し、背景話声に対するチャネル応答を推定するステップをさらに含むことを特徴とする請求項２０に記載の方法。
背景話声に対する前記チャネル応答を使用し、雑音のない話声を推定するステップをさらに含むことを特徴とする請求項２２に記載の方法。
背景話声値の推定値を決定するステップをさらに含むことを特徴とする請求項１７に記載の方法。
背景話声値の推定値を決定するステップは、前記雑音のない話声値の前記推定値を使用し、前記背景話声値を推定するステップを含むことを特徴とする請求項２４に記載の方法。
前記チャネル応答の従来のモデルを使用し、前記雑音のない話声値を推定するステップをさらに含むことを特徴とする請求項１７に記載の方法。