JP2004511003A

JP2004511003A - 音声コーディングにおける雑音のロバストな分類のための方法

Info

Publication number: JP2004511003A
Application number: JP2002521281A
Authority: JP
Inventors: ティッセン，ジェス
Original assignee: コネクサント・システムズ・インコーポレイテッド
Priority date: 2000-08-21
Filing date: 2001-08-17
Publication date: 2004-04-08
Also published as: DE60117558T2; EP1312075A1; AU2001277647A1; JP2008058983A; CN1447963A; WO2002017299A1; CN1210685C; EP1312075B1; ATE319160T1; CN1624766A; CN1302460C; US6983242B1; DE60117558D1

Abstract

音声コーディングにおけるロバストな音声分類のための方法、特に、暗騒音が存在する場合のロバストな分類のための方法をここに提供する。雑音の影響を受けないパラメータの組が導出され、それにより、分類処理に対する暗騒音の悪影響が減じられる。音声信号は、音声または非音声として識別される。基本的なパラメータの組が音声フレームに対して導出され、その後、パラメータの雑音成分が推定され、除去される。フレームが非音声である場合、雑音の推定値は更新される。次に、すべてのパラメータが予め定められたしきい値の組と比較される。暗騒音がパラメータから除去されたため、しきい値の組は、雑音がいかに変化しても、ほぼ影響を受けない。フレームが任意の数のクラスに分類されることにより、波形のマッチングよりも知覚的なマッチングを行なって知覚上重要な特徴を強調する。

Description

【０００１】
【発明の分野】
この発明は、一般に、改良された音声分類のための方法に関し、より特定的に、音声コーディングにおけるロバストな音声分類のための方法に関する。
【０００２】
【発明の背景】
音声通信に関して、暗騒音（ｂａｃｋｇｒｏｕｎｄｎｏｉｓｅ）は、通行中の自動車運転者、頭上の航空機、レストラン／カフェのタイプの雑音等のバブル雑音、音楽、および多くの他の可聴雑音を含み得る。セルラー電話の技術により、無線信号が送受信され得る任意の場所における通信が容易になった。しかしながら、いわゆる「セルラー時代」の欠点とは、電話での会話が、もはや個人の専用ではないかもしれず、または通信が実際に可能な領域で行なわれないかもしれないということである。たとえば、セルラー電話が鳴ってユーザがそれに応答する場合、ユーザが静かな公園にいても、騒音の大きなジャックハンマーの付近にいても、音声通信が行なわれる。したがって、暗騒音の影響は、セルラー電話のユーザおよびプロバイダにとって主要な問題である。
【０００３】
分類は、音声処理における重要なツールである。典型的に、音声信号は多数の異なるクラスに分類されるが、それは特に、その信号の知覚的に重要な特徴をエンコーディング中に強調するためである。音声が明瞭であり、すなわち、暗騒音の影響を受けない場合、ロバストな分類（すなわち、音声フレームを誤って分類する可能性の低いこと）がより容易に実現される。しかしながら、暗騒音のレベルが上昇するにつれ、音声を効率的にかつ正確に分類することが難しくなる。
【０００４】
電気通信産業において、音声は、ＩＴＵ（国際電気通信連合）標準、または無線ＧＳＭ（移動体通信用グローバルシステム）等の他の標準によってデジタル化され、圧縮される。圧縮量およびアプリケーションの必要性に依存する多くの標準がある。信号を送信前に高度に圧縮すると有利である。なぜなら、圧縮が高度になるにつれ、ビットレートが下がるからである。このため、同量の帯域幅でより多くの情報を転送することができ、それにより、帯域幅、電力、およびメモリを節約することができる。しかしながら、ビットレートが下がるにつれて、音声の忠実な再生がより一層難しくなる。たとえば、電話のアプリケーション（約３．３ｋＨｚの周波数帯域幅を有する音声信号）において、デジタル音声信号は、典型的に、１６ビットリニアまたは１２８ｋｂｉｔｓ／ｓである。ＩＴＵ−Ｔ標準のＧ．７１１は、６４ｋｂｉｔｓ／ｓまたはリニアＰＣＭ（パルス符号変調）デジタル音声信号の半分で動作する。これらの標準は、帯域幅を増大させる要望に応じて、ビットレートを下げ続けている（たとえば、Ｇ．７２６は３２ｋｂｉｔｓ／ｓであり、Ｇ．７２８は１６ｋｂｉｔｓ／ｓであり、Ｇ．７２９は８ｋｂｉｔｓ／ｓである）。ビットレートをより低く、４ｋｂｉｔｓ／ｓまで下げる標準が、現在開発中である。
【０００５】
典型的に、音声はパラメータの組に基づいて分類され、それらのパラメータに対してしきい値レベルが設定されて適切なクラスを判定する。暗騒音が環境中に存在する（たとえば、さらなる音声と雑音とが同時に存在する）場合、分類用に導出されたパラメータが、雑音のために、典型的にオーバーレイするか、加わる。現在の解決法には、所与の環境の暗騒音のレベルを推定し、そのレベルに依存してしきい値を変化させることが含まれる。これらの技術の問題の１つとは、しきい値を制御することにより、分類器に別のディメンションを加えることである。これにより、しきい値を調節する複雑さが増し、さらに、すべての雑音レベルに最適な設定を見つけることは、一般的に実用的ではない。
【０００６】
たとえば、一般的に導出されるパラメータは、音声がどれほど周期的であるのかに関するピッチの相関性である。母音「ａ」等の極めて有声音化した音声でも暗騒音が存在すると、その周期性は、雑音のランダム特性によって一段と減少することが明らかである。
【０００７】
低減された音声信号に基づき、パラメータを推定するという複雑なアルゴリズムが当該技術において公知である。このようなアルゴリズムの１つでは、たとえば、完全な雑音圧縮アルゴリズムが雑音を含んだ信号に対して実行される。次に、低減された音声信号に対してパラメータが推定される。しかしながら、これらのアルゴリズムは極めて複雑であり、デジタル信号プロセッサ（ＤＳＰ）から電流およびメモリを消費する。
【０００８】
したがって、低ビットレートで有用であって、より複雑でない、音声分類のための方法が必要とされる。特に、パラメータが暗騒音に影響されない、音声分類のための改良された方法が必要とされる。
【０００９】
【発明の概要】
この発明は、上で概略を述べた問題を克服し、改良された音声通信のための方法を提供する。特に、この発明は、暗騒音が存在する場合において、改良された音声分類のための、より複雑でない方法を提供する。より特定的に、この発明は、パラメータに対する暗騒音の影響が減じられる、音声コーディングにおける改良された音声分類のためのロバストな方法を提供する。
【００１０】
この発明の一局面によると、暗騒音のレベルから独立した同質の組のパラメータが、明瞭な音声のパラメータを推定することによって得られる。
【００１１】
この発明のこれらのおよび他の特徴、ならびに局面および利点は、以下の説明と、前掲の請求項と、添付の図面とを参照することにより、一層良く理解されるであろう。
【００１２】
【好ましい実施例の詳細な説明】
この発明は、暗騒音が存在する場合の音声分類のための改良された方法に関する。音声通信のための方法、特に、ここに開示される分類のための方法は、セルラー電話の通信に特に好適であるが、この発明はそれに限定されない。たとえば、この発明の分類のための方法は、ＰＳＴＮ（公共交換電話ネットワーク）、無線、ＩＰ（インターネットプロトコル）を介した音声等のさまざまな音声通信の情況にも好適であり得る。
【００１３】
先行技術の方法とは異なり、この発明は、入力信号の知覚的に重要な特徴を示して、波形のマッチングではなく知覚的なマッチングを行なう方法を開示する。この発明が、より大きな音声コーディングアルゴリズムの一部であり得る、音声分類のための方法を示すことを理解されたい。音声コーディング用のアルゴリズムは、この業界において広く公知である。この発明の実施前および実施後の両方において、さまざまな処理のステップを行なってよいこと（たとえば、実際の音声エンコーディング、汎用フレームに基づいた処理、モード依存処理、およびデコーディングの前に、音声信号を予め処理してよいこと）を当業者が認めるであろうことを認識されたい。
【００１４】
導入として、図１は、先行技術で公知の音声処理の典型的なステージをブロック図の形式で概して示す。一般に、音声システム１００は、エンコーダ１０２、ビットストリームの送信または記憶１０４、およびデコーダ１０６を含む。エンコーダ１０２は、特にビットレートが極めて低い場合に、このシステムで重要な役割を果たす。音声と非音声とを区別し、パラメータを導出し、しきい値を設定し、音声フレームを分類する等の送信前の処理が、エンコーダ１０２で行なわれる。典型的に、高品質の音声通信に関しては、エンコーダが（通常はアルゴリズムを介して）信号の種類を考慮し、その種類に基づいて、その信号を相応に処理することが重要である。この発明のエンコーダに特有の関数を以下に詳細に論じるが、一般に、エンコーダは、音声フレームを任意の数のクラスに分類する。クラスに含まれる情報は、その音声のさらなる処理を助ける。
【００１５】
エンコーダは信号を圧縮し、その結果生じたビットストリームが１０４の受信端に送信される。送信（無線またはワイヤーライン）とは、送信エンコーダ１０２から受信デコーダ１０６にビットストリームを運ぶことである。代替的に、ビットストリームは、デコーディングの前に、応答機または音声化された電子メール等の或るデバイスにおいて、リプロダクションまたはプレイバックが遅延されることに備え、一時的に記憶されてよい。
【００１６】
元の音声信号のサンプルを取出すために、ビットストリームがデコーダ１０６でデコードされる。典型的に、元の信号と同一の音声信号の取出しを実現することはできないが、高度な特徴（この発明によって提供される特徴等）により、それに近いサンプルを得ることができる。ある程度まで、デコーダ１０６は、エンコーダ１０２の逆と考えることができる。一般に、エンコーダ１０２によって実施される関数の多くはデコーダ１０６においても実施され得るが、逆である。
【００１７】
図示されていないが、音声システム１００がリアルタイムで音声信号を受取るためのマイクロフォンをさらに含み得ることを理解されたい。マイクロフォンは、音声信号をＡ／Ｄ（アナログ−デジタル）コンバータに送り、そこで音声はデジタル形式に変換され、次に、エンコーダ１０２に送られる。加えて、デコーダ１０６は、デジタル化された信号をＤ／Ａ（デジタル−アナログ）コンバータに送り、そこで音声は再びアナログ形式に変換されて、スピーカに送られる。
【００１８】
先行技術と同じく、この発明は、ＣＥＬＰ（符号励振線形予測）モデルに基づいたアルゴリズムを含む、エンコーダまたは同様のデバイスを含む。しかしながら、低ビットレート（４ｋｂｉｔｓ／ｓ等）でトール品質を達成するために、アルゴリズムは公知のＣＥＬＰアルゴリズムの厳密な波形のマッチング基準から幾分離れて、入力信号の知覚的に重要な特徴を捉えようとする。この発明は、ｅＸ−ＣＥＬＰ（拡張ＣＥＬＰ）アルゴリズムの一部分にすぎないかもしれないが、このアルゴリズムの関数の全体を広く紹介すると役立つであろう。
【００１９】
入力信号は、たとえば、ノイズ様コンテンツの程度、スパイク様コンテンツの程度、音声のコンテンツの程度、非音声のコンテンツの程度、振幅スペクトルの進展変化、エネルギ等高線の進展変化、周期性の進展変化等の或る特徴毎に解析される。この情報は、符号化／量子化の処理中に重み付けを制御するよう用いられる。この方法の一般原理は、波形のマッチングよりも知覚的なマッチングを行なうことによって、知覚的に重要な特徴を正確に表わすものとして特徴付けることができる。これは、部分的に、低ビットレートにおける波形のマッチングが、入力信号の全情報を忠実に捉えるほど十分に正確ではないという仮定に基づく。この発明の一部を含むアルゴリズムは、Ｃコード、またはこの業界で公知のアセンブリ等の任意の他の好適なコンピュータ言語またはデバイス言語で実現することができる。便宜上、この発明をｅＸ−ＣＥＬＰアルゴリズムに関して説明しているが、ここに開示される、改良された音声分類のための方法が、アルゴリズムの一部にすぎず、同様の公知のアルゴリズムまたは今後発見されるべきアルゴリズムで用いられ得ることを認識されたい。
【００２０】
一実施例では、入力信号の特徴に関する情報を提供するために、エンコーダ内に音声アクティビティ検出（ＶＡＤ）が埋込まれる。ＶＡＤ情報を用いて、信号対雑音比（ＳＮＲ）の推定、ピッチ推定、何らかの分類、スペクトルの平滑化、エネルギの平滑化、および利得の正規化を含む、エンコーダのいくつかの局面を制御する。一般に、ＶＡＤは音声入力と非音声入力とを区別する。非音声には、暗騒音、音楽、無音等が含まれ得る。この情報に基づき、パラメータのいくつかを推定することができる。
【００２１】
次に、図２を参照すると、エンコーダ２０２は、この発明の一実施例に従った分類器２０４をブロック図の形式で示す。分類器２０４は、パラメータ導出モジュール２０６および決定ロジック２０８を好適な態様で含む。分類を用いて、知覚的に重要な特徴をエンコーディング中に強調することができる。たとえば、分類を用いて、信号フレームに異なる重み付けを適用することができる。分類は、必ずしも帯域幅に影響を及ぼさないが、デコーダ（受信端）において再構築される信号の品質を改良するための情報を提供する。しかしながら、或る実施例においては、単にエンコーディング処理でなく、クラス情報に従ってビットレートも変更することにより、帯域幅（ビットレート）に影響を及ぼす。フレームが暗騒音である場合、そのフレームは相応に分類されてよく、その信号のランダムな特徴を維持することが望ましいかもしれない。しかしながら、フレームが音声である場合、その信号の周期性を保つことが重要であるかもしれない。音声フレームを分類することにより、エンコーダの残りの部分に対して、その信号の重要な特徴に対して置かれるべき強調（すなわち「重み付け」）を可能にする情報をもたらす。
【００２２】
分類は、導出されたパラメータの組に基づく。この実施例において、分類器２０４は、パラメータ導出モジュール２０６を含む。パラメータの組が特定の音声フレームに対して導出されると、これらのパラメータは、決定ロジック２０８により、単独でまたは他のパラメータと組合せて測定される。決定ロジック２０８の詳細を以下に論じるが、一般に、決定ロジック２０８は、パラメータをしきい値の組と比較する。
【００２３】
一例として、セルラー電話のユーザは、特に雑音の多い環境で通信し得る。暗騒音のレベルが上昇するにつれ、導出されたパラメータが変化し得る。この発明は、パラメータのレベルで暗騒音による影響を除去し、それにより、暗騒音のレベルに対して不変であるパラメータの組を生成する方法を提案する。すなわち、この発明の一実施例は、暗騒音のレベルによって変動するパラメータを有する代わりに、同質のパラメータの組を導出することを含む。このことは、異なる種類の音声、たとえば、暗騒音が存在する場合に、音声、非音声、およびオンセットを区別する際に特に重要である。このことを達成するために、雑音を含んだ信号に対するパラメータを依然として推定するものの、暗騒音の情報およびそれらのパラメータに基づき、雑音の影響による成分を除去する。明瞭な信号（雑音のない）のパラメータの推定値が得られる。
【００２４】
引続き図２を参照すると、デジタル音声信号が処理のためにエンコーダ２０２で受取られる。分類器２０４がパラメータを再び導出する代わりに、エンコーダ２１０内の他のモジュールが、いくつかのパラメータを好適な態様で導出し得る場合があってよい。特に、予め処理された音声信号（たとえば、これは、無音エンハンスメント、ハイパスフィルタリング、および暗騒音の減衰を含み得る）、ピッチラグおよびフレームの相関性、ならびにＶＡＤ情報を、分類器２０４に対する入力パラメータとして用いてよい。代替的に、デジタル化された音声信号またはその信号と他のモジュールパラメータとの両方の組合せが、分類器２０４に入力される。これらの入力パラメータおよび／または音声信号に基づき、パラメータ導出モジュール２０６は、フレームの分類に用いられるであろうパラメータの組を導出する。
【００２５】
一実施例において、パラメータ導出モジュール２０６は、基本的なパラメータ導出モジュール２１２、雑音成分推定モジュール２１４、雑音成分除去モジュール２１６、および任意のパラメータ導出モジュール２１８を含む。この発明の一局面において、基本的なパラメータ導出モジュール２１２は、分類の基礎をなし得る３つのパラメータ、すなわち、スペクトルティルト（ｓｐｅｃｔｒａｌｔｉｌｔ）、絶対最大（ａｂｓｏｌｕｔｅｍａｘｉｍｕｍ）、およびピッチの相関性を導出する。しかしながら、パラメータの重要な処理および解析が最終決定の前に行なわれ得ることを認識されたい。これらの最初のいくつかのパラメータは、音声および雑音の両方の成分を有する信号の推定値である。パラメータ導出モジュール２０６の以下の説明には好ましいパラメータの一例が含まれるが、それは限定として解釈されるべきではない。添付の等式を伴ったパラメータの例は、例示を意図するものであり、必ずしも利用可能な唯一のパラメータおよび／または数学的計算としては意図されない。実際に、当業者は以下のパラメータおよび／または等式を熟知しているであろうし、この発明の範囲内にあることが意図される、同様のまたは等価の代用物に気付くであろう。
【００２６】
スペクトルティルトは、第１の反射係数に、１フレームにつき４を掛けた推定値であり、以下により求められる：
【００２７】
【数１】

【００２８】
式中、Ｌ＝８０は、反射係数が好適な態様で計算され得るウィンドウであり、ｓ_ｋ（ｎ）は、以下により求められるｋ番目のセグメントである：
【００２９】
【数２】

【００３０】
式中、ｗ_ｈ（ｎ）は、この業界で公知の８０サンプルハミング（Ｈａｍｍｉｎｇ）ウィンドウであり、ｓ（０）、ｓ（１）、…、ｓ（１５９）は、予め処理された音声信号の現時点のフレームである。
【００３１】
絶対最大は、１フレームにつき、絶対信号最大の８つの推定値をたどることであり、以下により求められる：
【００３２】
【数３】

【００３３】
式中、ｎ _ｓ（ｋ）およびｎ_ｓ（ｋ）は、フレームの時間ｋ１６０／８サンプルにおいてｋ番目の最大を探索するための、それぞれ開始ポイントおよび終了ポイントである。一般に、セグメント長はピッチ周期の１．５倍であり、セグメントは部分的に重複する。このようにして、振幅包絡線の滑らかな等高線が得られる。
【００３４】
ピッチラグの正規化標準偏差はピッチ周期を示す。たとえば、音声においてピッチ周期は安定しており、非音声に対しては不安定である：
【００３５】
【数４】

【００３６】
式中、Ｌ_ｐ（ｍ）は入力ピッチラグであり、μ_Ｌｐ（ｍ）はこれまでの３つのフレームに関するピッチラグの平均であり、以下により求められる：
【００３７】
【数５】

【００３８】
一実施例において、雑音成分推定モジュール２１４は、ＶＡＤによって制御される。たとえば、ＶＡＤが、フレームが非音声（すなわち、暗騒音）であることを示す場合、雑音成分推定モジュール２１４によって規定されたパラメータは更新される。しかしながら、ＶＡＤが、フレームが音声であることを示す場合、モジュール２１４は更新されない。以下の等式の例によって規定されるパラメータは、好適な態様で１フレームにつき８回推定され／サンプリングされて、パラメータ空間を精密に時間分解する能力をもたらす。
【００３９】
雑音エネルギの移動平均は、雑音のエネルギの推定値であり、以下により求められる：
【００４０】
【数６】

【００４１】
式中、Ｅ_Ｎ，ｐ（ｋ）は、フレームの時間ｋθ１６０／８サンプルにおけるピッチ周期の、正規化されたエネルギである。エネルギの計算されるセグメントが、ピッチ周期が典型的に２０サンプル（１６０サンプル／８）を超えるために、部分的に重複し得ることに注目されたい。
【００４２】
雑音のスペクトルティルトの移動平均は、以下により求められる：
【００４３】
【数７】

【００４４】
雑音の絶対最大の移動平均は、以下により求められる：
【００４５】
【数８】

【００４６】
雑音のピッチの相関性の移動平均は、以下により求められる：
【００４７】
【数９】

【００４８】
式中、Ｒ_ｐは、フレームの入力ピッチの相関性である。適応定数∀は、好ましくは適応的であるが、典型的な値は、∀＝０．９９である。
【００４９】
暗騒音対信号比は、以下により計算され得る：
【００５０】
【数１０】

【００５１】
パラメトリック雑音減衰は、許容可能なレベル、たとえば約３０ｄＢまで、好適な態様で制限される。すなわち、
【００５２】
【数１１】

【００５３】
雑音除去モジュール２１６は、以下の等式の例に従い、３つの基本的なパラメータに重み付けを適用する。重み付けは、暗騒音からの影響を減算することによってパラメータの暗騒音成分を除去する。これにより、どのような暗騒音からも独立した、より均一な、暗騒音が存在する場合も分類のロバスト性を改善する、雑音の影響を受けないパラメータの組（重み付けされたパラメータ）をもたらす。
【００５４】
重み付けされたスペクトルティルトは、以下により推定される：
【００５５】
【数１２】

【００５６】
重み付けされた絶対最大は以下により推定される：
【００５７】
【数１３】

【００５８】
重み付けされたピッチの相関性は以下により推定される：
【００５９】
【数１４】

【００６０】
次に、導出されたパラメータは決定ロジック２０８で比較され得る。任意に、特定のアプリケーションに依存して、以下のパラメータのうちの１つ以上を導出することが望ましいこともある。任意のモジュール２１８は、フレームの分類をさらに助けるよう用いられ得る任意の数のさらなるパラメータを含む。ここでもまた、以下のパラメータおよび／または等式は、単に例として意図され、限定としては意図されない。
【００６１】
一実施例では、１つ以上の前のパラメータに従って、フレームの進展変化を推定することが望ましいことがある。この進展変化は、或る時間間隔（たとえば８回／フレーム）に関する推定値であり、リニア近似である。
【００６２】
一次近似の傾きとしての、重み付けされたティルトの進展変化は、以下により求められる：
【００６３】
【数１５】

【００６４】
一次近似の傾きとしての、重み付けされた最大の進展変化は、以下により求められる：
【００６５】
【数１６】

【００６６】
さらに別の実施例では、等式６〜１６のパラメータがフレームの例示的な８つのサンプルポイントに対して更新されると、以下のフレームに基づいたパラメータが計算され得る：
重み付けされたピッチの相関性の最大（フレームの最大）は、以下により求められる：
【００６７】
【数１７】

【００６８】
重み付けされたピッチの相関性の平均は、以下により求められる：
【００６９】
【数１８】

【００７０】
重み付けされたピッチの相関性の平均の移動平均は、以下により求められる：
【００７１】
【数１９】

【００７２】
式中、ｍはフレーム数であり、α_２＝０．７５は適応定数の一例である。
重み付けされたスペクトルティルトの最小は、以下により求められる：
【００７３】
【数２０】

【００７４】
重み付けされたスペクトルティルトの最小の移動平均は、以下により求められる：
【００７５】
【数２１】

【００７６】
重み付けされたスペクトルティルトの平均は、以下により求められる：
【００７７】
【数２２】

【００７８】
重み付けされたティルトの最小の傾き（フレーム内において負のスペクトルティルトの方向における最大進展変化を示す）は、以下により求められる：
【００７９】
【数２３】

【００８０】
重み付けされたスペクトルティルトの累積された傾き（スペクトルの進展変化の全体の整合性を示す）は、以下により求められる：
【００８１】
【数２４】

【００８２】
重み付けされた最大の、最大の傾きは、以下により求められる：
【００８３】
【数２５】

【００８４】
重み付けされた最大の、累積された傾きは、以下により求められる：
【００８５】
【数２６】

【００８６】
一般に、等式２３、２５、および２６によって与えられるパラメータは、或るフレームがオンセット（すなわち、音声が開始するポイント）を含む可能性があるかどうかをマークするよう用いられ得る。等式４および等式１８〜２２によって与えられるパラメータは、或るフレームが音声によって支配されている可能性があるかどうかをマークするよう用いられ得る。
【００８７】
次に、図３を参照すると、この発明の一実施例に従い、ブロック図の形式で決定ロジック２０８が示される。決定ロジック２０８は、すべてのパラメータをしきい値の組と比較するよう設計されたモジュールである。一般に、（１、２、…、ｋ）として示される、任意の数の所望されたパラメータは、決定ロジック２０８で比較されてよい。典型的に、各パラメータまたはパラメータの群は、フレームの特定の特徴を識別する。たとえば特徴♯１　３０２は、音声対非音声の検出であり得る。一実施例において、ＶＡＤは例としての特徴♯１を示し得る。ＶＡＤが、フレームが音声であると判定すると、その音声は、典型的に、有声音（母音）対無声音（「ｓ」等）としてさらに識別される。特徴♯２　３０４は、たとえば有声音対無声音の検出であり得る。任意の数の特徴が含まれてよく、導出されたパラメータのうちの１つ以上を含んでよい。たとえば、一般に識別された特徴♯Ｍ　３０６はオンセットの検出であってよく、等式２３、２５、および２６から導出されたパラメータを含んでよい。各特徴は、その特徴が識別されたか、識別されていないかを示すためのフラグ等を設定することができる。
【００８８】
どのクラスにフレームが属するかというような最終決定は、好ましくは、最終決定モジュール３０８で行なわれる。フラグのすべてが受取られ、プライオリティ、たとえば、モジュール３０８内の最高位のプライオリティとしてのＶＡＤと比較される。この発明において、パラメータは音声自体から導出され、暗騒音の影響を受けていない。したがって、しきい値は、典型的に、暗騒音の変化によって影響を受けない。一般に、一連の「ｉｆ−ｔｈｅｎ」条件文が、各フラグまたはフラグの群を比較し得る。たとえば、一実施例において、各特徴（フラグ）が１つのパラメータで表わされる場合、「ｉｆ」条件文には、「パラメータ１がしきい値よりも小さい場合は、クラスＸに入れよ。」と書いてあるかもしれない。別の実施例において、条件文には、「パラメータ１がしきい値よりも小さく、パラメータ２がしきい値よりも小さく、以下同様、の場合、クラスＸに入れよ。」と書いてあるかもしれない。さらに別の実施例において、条件文には、「パラメータ１にパラメータ２を掛けたものがしきい値よりも小さい場合、クラスＸに入れよ。」と書いてあるかもしれない。当業者は、任意の数のパラメータが単独でまたは組合されて、適切な「ｉｆ−ｔｈｅｎ」条件文に含まれ得ることを容易に認識することができる。当然ながら、パラメータを比較するための、同様に有効な方法もあり得、それらのすべてがこの発明の範囲内に含まれるよう意図される。
【００８９】
加えて、最終決定モジュール３０８は、オーバーハング（ｏｖｅｒｈａｎｇ）を含み得る。この明細書で用いられるオーバーハングは、この業界の一般的な意味を有する。一般に、オーバーハングとは、信号のクラスの履歴が考慮されること、すなわち、或る信号のクラスの後に、その同じ信号のクラスが幾分か優待されることを意味し、たとえば有声音から無声音への緩やかな遷移の際に、有声音の程度が低いセグメントを尚早に無声音と分類してしまうことのないように、有声音のクラスが幾分優待されることを意味する。
【００９０】
説明のために、いくつかの例示的なクラスの簡単な説明を続ける。この発明を用いて、音声を任意の数のクラスまたはクラスの組合せに分類することができ、以下の説明が、１つの可能な組のクラスを単に読者に紹介するためだけに含まれていることを認識されたい。
【００９１】
例示的なｅＸ−ＣＥＬＰアルゴリズムは、フレームを、そのフレームの支配的な特徴に従って６つのクラスのうちの１つに分類する。これらのクラスには以下のようにラベルが付される：
０．　無音／暗騒音
１．　雑音様無声音
２．　無声音
３．　オンセット
４．　破裂音、未使用
５．　静止していない有声音
６．　静止した有声音
示された実施例において、クラス４は用いられておらず、したがって、クラス数は６である。エンコーダにおいて利用可能な情報を効果的に用いるために、分類モジュールを、最初にクラス５とクラス６とを区別しないよう構成することができる。その代わりに、この区別は、さらなる情報を利用することのできる分類器の外の別のモジュール中に行なわれる。さらに、分類モジュールは、最初にクラス１を検出しなくてもよく、さらなる情報および雑音様の無声音の検出に基づいた別のモジュール中に導入されてよい。したがって、一実施例において、分類モジュールは、無音／暗騒音、無声音、オンセット、および有声音を、クラス番号０、２、３、および５をそれぞれ用いることによって区別することができる。
【００９２】
次に、図４を参照すると、この発明の一実施例に従った、１つの例示的なモジュールのフローチャートが示される。例示的なフローチャートは、Ｃコードまたは当該技術で公知の、任意の他の好適なコンピュータ言語を用いて実現され得る。一般に、図４に示されるステップは、上述の開示と同様である。
【００９３】
デジタル化された音声信号は、ビットストリームへの処理および圧縮のためにエンコーダに入力され、または、ビットストリームが再構築のためにデコーダに入力される（ステップ４００）。信号が（通常はフレームごとに）、たとえばセルラー電話（無線）、インターネット（ＩＰを介した音声）、または電話（ＰＳＴＮ）から発信され得る。このシステムは、低ビットレートのアプリケーション（４ｋｂｉｔｓ／ｓ）に特に好適であるが、他のビットレートにも用いることができる。
【００９４】
エンコーダは、異なる関数を実行するいくつかのモジュールを含み得る。たとえばＶＡＤは、入力信号が音声であるか非音声であるかを示すことができる（ステップ４０５）。非音声には、典型的に、暗騒音、音楽、および無音が含まれる。暗騒音等の非音声は、静止しており、静止を続ける。反対に、音声はピッチを有するため、ピッチの相関性は音と音との間で変動する。たとえば、「ｓ」はピッチの相関性が低く、「ａ」はピッチの相関性が高い。図４はＶＡＤを示しているが、特定の実施例ではＶＡＤが必要とされないことを認識されたい。雑音成分を除去する前にいくつかのパラメータを導出することができ、それらのパラメータに基づいて、フレームが暗騒音であるか音声であるかを推定することができる。基本的なパラメータが導出されているが（ステップ４１５）、エンコーディング用に用いられるパラメータのいくつかが、エンコーダ内の異なるモジュールで計算されてよいことを理解されたい。冗長をなくすために、これらのパラメータは、ステップ４１５（または後のステップ４２５および４３０）で再計算されないが、これらのパラメータは、さらなるパラメータを導出するために用いられてよく、または、単に分類に渡されてよい。任意の数の基本的なパラメータをこのステップ中に導出することができるが、一例として、上に開示した等式１〜５が好適である。
【００９５】
ＶＡＤ（またはその等価物）からの情報は、フレームが音声であるか非音声であるかを示す。フレームが非音声である場合、雑音パラメータ（たとえば、雑音パラメータの平均）は更新され得る（ステップ４１０）。ステップ４１０のパラメータに対する等式の変形物を多く導出してよいが、一例として、上に開示した等式６〜１１が好適である。この発明は、明瞭な音声のパラメータを推定する、分類するための方法を開示する。これは特に有利である。なぜなら、常に変化する暗騒音が最適しきい値に著しい影響を及ぼさないからである。雑音の影響を受けないパラメータの組は、たとえば、パラメータの雑音成分を推定して除去することによって得られる（ステップ４２５）。ここでも一例として、上に開示した等式１２〜１４が好適である。前のステップに基づいて、追加のパラメータが導出されてもよく、導出されなくてもよい（ステップ４３０）。追加のパラメータの多くの変形物が考慮されるよう含まれてよく、一例として、上に開示した等式１５〜２６が好適である。
【００９６】
所望のパラメータが導出されると、それらのパラメータは予め定められたしきい値の組と比較される（ステップ４３５）。これらのパラメータは、個別にまたは他のパラメータと組合せて比較され得る。パラメータを比較するための多くの方法が考えられるが、上に開示した一連の「ｉｆ−ｔｈｅｎ」条件文が好適である。
【００９７】
オーバーハングを適用することが望ましいことがある（ステップ４４０）。これにより、信号の履歴の知識に基づいて、分類器は特定のクラスを優待することができる。それにより、音声信号がどのようにして、僅かにより長い期間に進展変化するかについての知識を利用することが可能になる。ここで、フレームは、アプリケーションに依存して、多くの異なるクラスのうちの１つに分類される準備が整う（ステップ４４５）。一例として、上に開示したクラス（０〜６）が好適であるが、この発明のアプリケーションを限定することを意図しない。
【００９８】
分類されたフレームからの情報を用いて、音声をさらに処理することができる（ステップ４５０）。一実施例では、重み付けをフレームに適用するために分類を用い（ステップ４５０等）、別の実施例では、ビットレートを判定するために分類を用いる（図示せず）。たとえば、音声の周期性を維持すること（ステップ４６０）がしばしば望ましいが、雑音および非音声のランダム性を維持すること（ステップ４６５）も望ましい。クラス情報の他の多くの用途は、当業者に明らかになるであろう。すべての処理がエンコーダ内で完了すると、エンコーダの関数は終了し（ステップ４７０）、信号フレームを表わすビットが再構築のためにデコーダに送信され得る。代替的に、上述の分類処理は、デコードされたパラメータおよび／または再構築された信号に基づいて、デコーダで行なわれてよい。
【００９９】
この発明は、この明細書において関数のブロック構成要素およびさまざまな処理のステップに関して説明される。このような関数のブロックが、特定の関数を実行するよう構成された任意の数のハードウェア構成要素によって実現され得ることを認識されたい。たとえば、この発明は、１つ以上のマイクロプロセッサまたは他の制御デバイスの制御下でさまざまな関数を実行し得る、たとえば、メモリ素子、デジタル信号処理要素、ロジック素子、ルックアップテーブル等のさまざまな集積回路の構成要素を用いることができる。加えて、当業者は、この発明が任意の数のデータ伝送プロトコルとともに実施されてよいこと、およびこの明細書で説明されたシステムが、この発明の例示的な１つのアプリケーションにすぎないことを認識するであろう。
【０１００】
この明細書に示されかつ説明された特定の実施例は、この発明およびその最良の態様を例示するものであり、この発明の範囲を限定するよう意図しないことを認識されたい。実際に、簡潔にするために、信号処理、データ送信、信号送信、およびネットワーク制御のための従来の技術、ならびにこのシステムの他の機能上の局面（およびこれらのシステムの、動作する個々の構成要素からなる要素）は、この明細書では詳細に説明されていない。さらに、この明細書に含まれるさまざまな図面に示される接続線は、さまざまな要素間の、例示的な機能上の関連および／または物理的な結合を示すよう意図される。多くの代替的なまたは追加の機能上の関係または物理的接続が、実際の通信システムで存在し得ることに注目されたい。
【０１０１】
この発明を、好ましい実施例を参照して上に説明してきた。しかしながら、この開示を読んだ当業者は、好ましい実施例に対して、この発明の範囲から逸脱することなく変更および変形を行なってよいことを認識するであろう。たとえば、この発明の精神から逸脱することなく、同様の形態を加えることができる。これらのおよび他の変更または変形は、前掲の請求項で述べられるとおり、この発明の範囲内に含まれるよう意図される。
【図面の簡単な説明】
【図１】先行技術の音声処理の典型的なステージをブロック図の形式で単純化して示した図である。
【図２】この発明に従った、１つの例示的なエンコーディングシステムの詳細なブロック図である。
【図３】図２の１つの例示的な決定ロジックの詳細なブロック図である。
【図４】この発明に従った、１つの例示的な方法のフローチャート図である。

Claims

分類に用いられるパラメータの組を得るための方法であって、
（ａ）　処理ユニットで信号を受取るステップと、
（ｂ）　前記信号に対応する少なくとも１つの基本的なパラメータを与えるステップと、
（ｃ）　雑音成分が存在する場合、前記パラメータの雑音成分を推定するステップと、
（ｄ）　前記雑音成分が存在する場合、前記パラメータから前記雑音成分を除去するステップとを含む、方法。
前記信号が音声であるか非音声であるかを判定するステップをさらに含む、請求項１に記載の方法。
少なくとも１つの追加のパラメータを与えるステップをさらに含む、請求項１に記載の方法。
前記雑音成分が存在し、前記少なくとも１つの追加のパラメータを与えるステップは、前記雑音成分に応答する、請求項３に記載の方法。
前記信号が非音声である場合、前記雑音パラメータを更新するステップをさらに含む、請求項２に記載の方法。
前記与えるステップは、前記信号に対応する少なくとも１つの基本的なパラメータを導出するステップを含む、請求項１に記載の方法。
前記与えるステップは、前記信号に対応する少なくとも１つの基本的なパラメータを受取るステップを含む、請求項１に記載の方法。
音声を分類するための方法であって、
（ａ）　処理ユニットで音声に関連する信号を受取るステップと、
（ｂ）　前記信号を分類するために用いられるべき少なくとも１つのパラメータを与えるステップと、
（ｃ）　前記パラメータの雑音成分を推定するステップと、
（ｄ）　前記パラメータから前記雑音成分を除去するステップと、
（ｅ）　前記パラメータを少なくとも１つのしきい値の組と比較するステップと、
（ｆ）　前記比較するステップに応答して、前記信号を或るクラスに関連付けるステップとを含む、方法。
前記信号が音声であるか非音声であるかを判定するステップをさらに含む、請求項８に記載の方法。
前記信号が非音声である場合、雑音成分を更新するステップをさらに含む、請求項９に記載の方法。
少なくとも１つのパラメータが前記信号を分類するよう導出される、請求項８に記載の方法。
基本的なパラメータの組が導出され、少なくとも１つの雑音成分パラメータが導出される、請求項１１に記載の方法。
前記比較するステップは、
（ａ）　前記パラメータのうちの少なくとも１つにより、前記信号の少なくとも１つの特徴を識別するステップと、
（ｂ）　前記特徴が存在することを示すためのフラグを設定するステップと、
（ｃ）　最終決定モジュールにおいて少なくとも１つのフラグを受取るステップと、
（ｄ）　或るクラスを少なくとも１つのフラグと関連付けるステップとを含む、請求項８に記載の方法。
少なくとも１つのパラメータは前記信号を分類するよう受取られる、請求項８に記載の方法。
少なくとも１つの処理モジュールを有する音声コーディングデバイスにおいて音声信号を知覚的にマッチングするための方法であって、
（ａ）　前記音声コーディングデバイスにおいて前記信号を受取るステップと、
（ｂ）　前記処理モジュールにおいて複数の信号パラメータを導出するステップと、
（ｃ）　前記パラメータに重み付けをするステップと、
（ｄ）　特定の信号の特徴を前記信号パラメータに関連付けるステップと、
（ｅ）　前記特徴が識別されると前記処理モジュールにおいてフラグを設定するステップと、
（ｆ）　前記フラグを比較するステップと、
（ｇ）　前記比較するステップまたは前記導出するステップの１つに従い、前記信号を分類するステップとを含む、方法。
前記導出するステップは、基本的なパラメータの組を導出するステップと、雑音に関連するパラメータの組を導出するステップとを含む、請求項１５に記載の方法。
前記重み付けするステップは、
（ａ）　前記処理モジュールにおいて前記パラメータの雑音成分を推定するステップと、
（ｂ）　前記処理モジュールにおいて前記パラメータの前記雑音成分を除去するステップとを含む、請求項１５に記載の方法。
前記重み付けするステップは、雑音を推定する等式の組を含む、請求項１７に記載の方法。
信号を分類するために同質のパラメータの組がもたらされる、音声コーディングのための方法であって、前記パラメータの組は暗騒音によって影響を受けない、方法。
音声に関連する雑音からの影響が減じられる、音声通信のための方法であって、
（ａ）　音声処理デバイスにおいてデジタル音声に関連する信号を受取るステップと、
（ｂ）　同質のパラメータの組を形成するステップと、
（ｃ）　前記パラメータをしきい値と比較するステップと、
（ｄ）　前記信号を分類するステップとを含む、方法。
前記形成するステップは、「雑音の影響を受けない」パラメータの組を形成するステップを含む、請求項２０に記載の方法。
前記形成するステップは、
（ｂ１）　雑音成分を推定するステップと、
（ｂ２）　前記雑音成分を除去するステップとを含む、請求項２１に記載の方法。
前記比較するステップは、しきい値の組を備える、請求項２０に記載の方法。